摘 要: | 我国对汉语分词的研究已有 2 0多年 ,虽取得了很大的成就 ,但是计算机自动识别仍未能彻底解决 ,主要难点集中在未登录词和切分歧义上。自 80年代后期 ,国内研究人员陆续开发了一些分词系统 ,在方法上按其作用大体可分为两类 ,一类旨在提高分词的精度 ,即消除歧义的切分 ,另一类则旨在提高分词的速度。中文文本在计算机内部表示时 ,词与词之间并没有明显的切分标志 ,而中文信息处理的诸多重要领域如篇章理解、机器翻译、文本检索、文本的语音输入输出、文本校对、自动标引等都要求在词这一平面上来进行 ,因而自动分词已成为中文信息处理中的…
|