网页信息抽取方法的研究 |
| |
作者姓名: | 陈要武 |
| |
作者单位: | 黑龙江省社会信用办公室,哈尔滨,150001 |
| |
摘 要: | 一、相关技术1.常规抽取方法介绍基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理.不是搜索引擎级的应用.很难满足用户对查全率的需求。
|
关 键 词: | 网页抽取 网页模板 网页相似度 网页聚类 |
本文献已被 维普 万方数据 等数据库收录! |
|