基于标题与文本距离的网页去噪算法的研究 |
| |
引用本文: | 苏秀芝.基于标题与文本距离的网页去噪算法的研究[J].中小企业管理与科技,2014(24):229-230. |
| |
作者姓名: | 苏秀芝 |
| |
作者单位: | 湖南软件职业学院 |
| |
摘 要: | 使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。
|
关 键 词: | 网页去噪 STU-DOM 词共现 |
本文献已被 维普 等数据库收录! |
|