首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于标题与文本距离的网页去噪算法的研究
引用本文:苏秀芝.基于标题与文本距离的网页去噪算法的研究[J].中小企业管理与科技,2014(24):229-230.
作者姓名:苏秀芝
作者单位:湖南软件职业学院
摘    要:使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。

关 键 词:网页去噪  STU-DOM  词共现
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号