网页信息抽取方法的研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

网页信息抽取方法的研究

作者姓名：	陈要武

作者单位：	黑龙江省社会信用办公室,哈尔滨,150001

摘要：	一、相关技术1．常规抽取方法介绍基于定义规则的信息抽取是指由用户根据待抽取信息节点特征．定义一种抽取规则（例如用正则表达式来描述规则）来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理．不是搜索引擎级的应用．很难满足用户对查全率的需求。
关键词：	网页抽取网页模板网页相似度网页聚类
本文献已被维普万方数据等数据库收录！