分词技术研究报告_第1页
分词技术研究报告_第2页
分词技术研究报告_第3页
分词技术研究报告_第4页
分词技术研究报告_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分词技术研究报告研究内容目前,国内各行业、领域发展迅速,中间产生了大量的对外汉语信息资源,为及时准确获取最新信息,中文搜索引擎是必然的产物。 中文搜索引擎和西文搜索引擎实现的反应历程和原理大致相同,但从对外汉语本身的特点来看,必须引入对中文语言的处理技术,而对外汉语自动分词技术是其中的重要部分。 对外汉语的自动分词到底对搜索引擎有多少影响? 对搜索引擎来说最重要的不是找出所有的结果,最重要的是把最有关联性的结果放在最前面,这也称为关联度排序。 对外汉语分词的正确度大多直接影响检索结果的相关度排序。 分词精度对搜索引擎非常重要,但是分词速度过慢的话,即使精度高对搜索引擎也不能使用。 因为搜索引擎

2、需要处理数亿个网页,分词时间过长会严重影响搜索引擎的内容更新速度。 因此,对于搜索引擎来说,分词的精准性和速度两者都需要满足高要求。研究对外汉语自动分词算法,对汉语搜索引擎的发展具有重要意义。 高速准确的对外汉语自动分词是高效中文搜索引擎的必备前提。 本课题研究中文搜索引擎中对外汉语自动分词系统的设置和实现,从目前中文搜索引擎的发展现状,引出中文搜索引擎的关键技术对外汉语自动分词系统的设置和实现。 首先研究和比较一些典型的对外汉语自动分词词典反应历程,指出各词典反应历程的优缺点,然后分析和比较一些主要的对外汉语自动分词方法,阐述各分词方法的技术特点。 针对课题的具体应用领域,提出了改进词典的数

3、据结构,分析了对外汉语基于二语多的特点,通过快速判断二语来优化速度的中文搜索引擎中的歧义处理和未登录词处理技术,提出了适合本课题的自动分词算法,并说明了其系统的具体实现。 最后,对系统从分词速度和分词精准性方面进行了性能评价。 本课题的研究促进了中文搜索引擎和对外汉语自动分词的新发展。二、对外汉语自动分词系统的研究现状1 .一些早期的自动分词系统自80年代初对外汉语信息处理领域提出自动分词以来,一些实用分词系统逐渐问世,其中一些比较具有代表性的自动分词系统当时产生了很大的影响。CDWS分词系统是中国第一个实用的自动分词系统,由北京牌航空航天高等院校计算机系统于1983年修订实现,它采用的自动分

4、词方法是最大配对法,辅助后缀构造词纠错技术。 其分词速度为510字/秒,分割精度约为1/625。ABWS是由山西大学系统研制的自动分词系统,系统采用了“两次扫描联想回溯”的方法,运用了很多字句、句法等知识。 其分割正确率为98.6% (紧急用、未登记的专用名词除外),行驶速度为48词/分。CASS是北京牌航空宇宙高等院校在1988年实现的分词系统。 使用正向增字最大匹配,使用知识库处理模糊的字段。 其机器分词速度为200字/秒以上,知识库分词速度为150字/秒(完全没有实现)。书面对外汉语自动分词专门人才系统是北京牌师范高等院校现代教育研究所在1991年前后开发实现的,它首次把专门人才系统方法

5、完全引进了分词技术。2、清华高等院校SEG分词系统该系统提供带回溯的正方向、反方向、双向最大配对法和全分割评估分割算法,用户选择适当的分割算法。 其特点是带修剪的全分割评价算法。 经过闭合测试,多径效应分割后,全分割评价算法的精度达到99%左右。3、清华高等院校SEGTAG系统所述系统着眼于整合各种种类的信息,最大限度地利用这些个的信息,提高分割精度。 系统使用有向图来整合各种信息。 实验表明,该系统的分割精度几乎达到99%左右,能够处理未登记词比较密集的文本,分割速度约为30字/秒。4、国家语言委员会文字应用的句法分析技术的对外汉语自动分词考虑到句法解析在自动分词系统中的作用,该分词模型更好

6、地解决分割歧义。 切词过程考虑到所有的切分可能性,使用中文句法等信息从各种切分可能性中选择合理的切分结果。5、复旦分词系统这个系统由四个模块组成。 另一方面,将输入的文本用特殊的标签分割成短的中国字列的预处理模块。 在这些个的标签中包含标点符号、数字、字母等非汉字文字,也包含文本中常见的字体、大小等排版信息。 二、多义识别模块使用正向最小匹配和反向最大匹配来双向扫描文本,如果两者的扫描结果相同则认为分割正确,如果不同则判别为模糊性字段,需要进行模糊性处理;三、使用结构词规则和词数统计校正信息进行重排最后,该系统还包括未登录词识别模块,实验中汉语姓氏的自动识别达到70%的精确度。 系统也一定认识

7、到了文本中地名和领域固有的词汇。6、哈佛统订分词系统本系统利用语境识别大部分单词,能够解决一些分割模糊性。 该系统的分词错误率为1.5%,速度为236字/秒。7、杭州高等院校改进的MM分词系统系统的辞典采用一级的首字母索引结构,词条中含有“不连续词”(形式为C1*Cn )。 系统精度的实验结果为95%,低于理论值的99.73%,但高于通常的MM、RMM、DMM方法。MicrosoftResearch中文句法分析器中的自动分词微软研究院的自然语言研究所从90年代初开始开发了通用型的多语言处理平台NLPWin,据报道NLPWin的语法分析部分使用双向的图表分析,使用语法规则重视概率模型,独立语法和

8、分析器。 实验结果表明,系统可以正确处理85%的模糊定界符字段,奔腾200 PC上的速度约为600-900字/秒。9、北大修订语言所分词系统本系统由北京牌高等院校修订语言学研究所开发,属于由分词和词性标记组合而成的分词系统。 在奔腾133 Hz/16mb的内存机器上,按照表记速度,系统的分词达到了每秒3千个以上,在奔腾ii/64mb的内存机器上,分词达到了每秒5千个以上。三、主要自动分词算法现有的分词算法主要分为基于字符串匹配的分词方法、基于理解的分词方法、基于统订的分词方法3种。1 .基于字符串匹配的分词方法该方法也称为机器分词方法,将应按照一定策略分析的中国字串与“一盏茶大”的机器词典的词

9、条相匹配,如果词典中找到字符串,则匹配成功(识别单词)。 根据扫描方向,字符串匹配分词方法在根据可以分为正向匹配和反向匹配的长度优先匹配的情况下,根据是否与可以分为最大(最长)匹配和最小(最短)匹配的词类标签化过程结合,进行简单分词几种常用的机器分词方法如下1正方向最大匹配2反向最大匹配3最小分割(使每句的切分词数最小)也可以将上述各种方法相互组合,例如,也可以组合顺方向最大匹配方法和逆方向最大匹配方法来构成双向配对法。 从对外汉语单词成语的特征来看,正方向最小匹配和反方向最小匹配使用得很少。 通常,反匹配的划分精度比正匹配稍高,也很少遇到歧义。 统一校正的结果是,单纯使用正方向最大匹配的错误

10、率是1/169,单纯使用反方向最大匹配的错误率是1/245。 但是,这种精度不能满足实际需要的一盏茶。 由于分词是智能决策过程,机器分词法不能解决分词阶段的两个基本问题,即歧义分割问题和未登记词识别问题。 实际使用的分词系统,以机器分词为初分手段,有必要通过利用各种其他语言信息进一步提高分割的精度。一种方法改进了扫描方式,称为特征扫描或标识牌分割,在分析的字符串中优先识别分割具有几个明显特征的单词,以这些个的单词为程序断点,可以将原字符串分成小的字符串进入机器分词,减少匹配的错误率。另一种方法是将分词和词性标注结合起来,利用丰富的词性信息有助于分词决定,同时在标注过程中通过检查、调整分词结果,

11、大幅度提高分割的准确率。在机器分词法中,可以制作ASM(d,a,m ),即作为AutomaticSegmentationModel形式表现的一般模型。 在其中d :匹配方向,1表示正方向,-1表示反方向。a :每次匹配失败时增减字符串长度(字符数),1为增字,-1为减字m :最大/最小匹配标志,1是最大匹配,-1是最小匹配。例如,ASM (、)是正向最大配对法(即MM法),ASM(-、)是反向最大配对法(即RMM法)等。 对于现代汉语来说,只有m=1是实用的方法。 可以使用这种模型来比较各种方法的复杂度,并且假定在词典的匹配过程中使用与顺序搜索相同的前缀索引搜索方法,则可以将前缀索引搜索次数(最小是log? 1214 )和词典读取存储时间的情况下,相对于典型的词数分布,减字匹配ASM(d,-,m )的复杂度约为12.3次,增字匹配ASM(d,m )的复杂度约为10.6。2 .基于理解的分词方法通常的分析系统在分词阶段试图消除所有的暧昧的分割现象。 一些系统在后续过程中处理暧昧的划分问题,其分词过程只是整个语言理解过程的一小部分。 其基本思想是对分词和云同步进行句法解析,利用句法信息和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论