




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 中文分词算法及改进研究 申琳摘要:该文主要对中文分词算法过程中的歧义字段的发现和消解进行研究。首先,通过双向最大匹配检索算法和逐词扫描最大匹配法等方法实现中文文本的分词处理,并针对其中所存在的歧义字段,通过计算其互信息和t-信息来实现中文分词歧义的消除。该文所研究的中文分词算法,不仅可以在多个中文分词方案中选择更优的分词方案,消解中文分词歧义;同时,还可以在已有分词方案的基础上,发现更加符合实际情况的分词方案,以提高中文分词的准确性和适用性。关键词:中文分词;歧义发现;歧义消解;互信息;t-信息:tp18 :a :1009-3044(201
2、7)31-0199-021 概述信息技术的不断发展,提高了信息的搜集和传输效率;而信息技术的广泛应用,直接导致了信息的爆炸式增长。海量信息的增长,促使人们需要更加自动化的方法来对海量信息进行处理的新需求。信息的了解是海量信息自动化处理的基础,对于中文信息而言,如何通过中文分词进行中文文本信息的切分,理解中文文本信息的具体内容,就是海量中文文本信息就是自动化处理的基础。2 中文分词歧义消解研究2.1 中文分詞歧义消解概述中文分词最大的问题就在于中文分词歧义的消除,例如在词句“”的分词中“他说的确实在理”文本的分词时,“的确”、“是在”、“确实”、“在理”等词语都是生活中常见的词组方法。因此按照不
3、同的分词方法会产生歧义:正向优化最大匹配方法(fmm)的分词结果为:“他/说/的确/实在/理”;算法进和逆向优化最大匹配方法(rmm)的分词结果为“他/说/的/确实/在理”。而对于文本“老师教你马上去”而言,使用fmm和rmm算法的处理结果分别为“老师/叫/你/马上/去”(fmm)和“老师/叫/你/马/上去”(rmm)。除fmm算法和rmm算法以外,在进行具体的中文文本分词时,都有可能因为中文文本的特殊性,导致分词结果不正确,即中文分词的歧义。2.2 中文分词歧义消解难点歧义的处理是进行中文文本自动分词,进而理解中文文本信息时所遇到的主要困难之一,而由于如下的各种原因,导致中文分词歧义的处理存
4、在诸多难点。(1) 歧义字段类型多种多样歧义字段的类型丰富,而歧义消解策略也多种多样,例如通过增加语义、语用知识等外部条件来消解歧义,例如“他说的确实在理”等文本的分词,就可以通过外部知识条件来消解分词时存在的歧义;或者依靠上下文语义信息来消解歧义,例如“乒乓球拍卖完了”文本,可以分为“乒乓球拍/卖完/了”(fmm)和“乒乓球/拍卖/完了”(rmm),就可以通过上下文来消解歧义;甚至在生活中还存在,借助上下文内容,人为也无法消解的歧义。(2) 未登录词的分词歧义由于信息的爆发式增长,中文词语本身也在不断发展,例如网络上每年就有大量网络流行语出现,这些词库中为存储的未登录词的存在,也为中文分词歧
5、义的处理带来了很大的困难。由于中文分词歧义的类型多样,而且中文词语本身也在不断变化发展过程中,为此想要准确、完整的解决所有中文分词歧义难以实现。而且让计算机完全理解文本的信息,通过上下文的语义来消除部分中文分词歧义,也会导致中文分词效率急剧下降。为此,在本文的研究中主要对可以借助语用知识消解的中文分词歧义进行研究。3 中文分词歧义发现算法分析当前,中文分词歧义发现算法的研究成果较多。(1) 双向最大匹配检索算法通过采用fmm算法和rmm算法对中文文本分词结果的对比,来发现中文分词过程中所存在的歧义。例如在“他说的确实在理”的分词过程中,发现“的确实在理”为歧义字段。(2) 逐词扫描最大匹配法通
6、过fmm和逐词扫描相结合以发现中文分词中的歧义字段,其原理为从文本起点取不超过最大长度的汉字符进行匹配,若在字典库中有该匹配字段,则且反一条分词,并通过与最近的分词进行比较,对存在的歧义字段进行标记;若在字典库中没有找到该匹配字段,则去掉匹配字段的最后一个汉字,重新进行匹配,直到匹配字段的长度为零为止,并文本中的下一个字进行同样处理,直到文本中的汉字全部处理完毕为止。(3) 正向最大匹配结合回退一字法fmm和逐词扫描相结合以发现中文分词中歧义字段的新算法,其原理与逐词扫描最大匹配法类似,若匹配字段在词典库中匹配成果,则将匹配字段回退一字,进行重新匹配,如果回退一字的匹配字段在词典库中依然匹配成
7、果,则认为中文文本中存在歧义字段。与中文分词歧义消解的研究类似,由于中文分词歧义类型众多,以及中文词语的不断发展,使得中文分词歧义发现算法同样存在诸多难点。在本文中使用算法原理简单的fmm和rmm结合的中文分词歧义算法进行研究。4 中文分词歧义消解算法设计4.1 算法原理通过构建语料库来计算不同中文词语的次频度,然后通过计算词语的互信息和t-信息来消解中文分词歧义。(1) 互信息待分词的汉字串为xy,则词组x和词组y的互信息定义如式(1)所示。ix,y=px,ypxpy (1)其中,px、py、px,y分别表示词语x、y、xy在语料库中出现的概率。若ix,y=0,表示词语xy未在语料库中出现过
8、,在极限状况下,px=0或py=0,则表示x或y未在语料库中,则xy必然成词(在当前语料库环境下)。因此,ixy越大,则xy成词概率越高。(2) t-信息待分词的汉字串为xyz,相对于汉字x和z,汉字y的t-信息定义如式(2)所示。 tx,zy=pzy-pyxp2zy-p2yx其中,pyx、pzy表示两个汉字词组的条件概率。若tx,zy<0,表示xy成詞概率比yz成词概率要高,而且,tx,zy越大,表示xy成词概率越大;若tx,zy=0,则表示xy和yz成词的概率相同,难以确定;若tx,zy>0,表示yz成词概率比xy成词概率要高,而且,tx,zy越大,表示yz成词概率越大。4.2
9、 应用示例在一个中文词条为64231条,总次频度为12638035的词典库中,部分中文词的频度如表1所示。中文词串“他说的确实在理”有“他/说/的确/实在/理”(fmm)和“他/说/的/确实/在理”(rmm)两种分词方法,即中文词串存在分词歧义。在对“他说的确实在理”歧义中文字段进行处理时,计算互信息分别为“的确”(45.45)、“确实”(289.69)、“实在”(47.04)、“在理”(189),根据互信息,“实在”和“在理”的成词概率更高;计算和t-信息分别为“的确实”(0.86)、“确实在”(0.29)、“实在理”(-0.98)根据t-信息,可以看出“的确”的成词概率比“确实”成词概率更
10、高,“确实”的成词概率比“实在”的成词概率更高,“实在”比“在理”的成词概率更高。为此,结合歧义中文字段的互信息和t-信息,将“他说的确实在理”歧义中文字段分词为“他/说/的/确实/在理”。同样,中文词串“结合成分子时有”有“结合/成分/子时/有”(fmm)和“结/合成/分子/时有”(rmm)两种分词方法,即中文词串存在分词歧义。在对“结合成分子时有”歧义中文字段进行处理时,计算互信息分别为“结合”(172.53)、“合成”(11.27)、“成分”(4.51)、“分子”(45.53)、“子时”(0.058)、“时有”(0.002),根据互信息,“结合”和“分子”的成词概率更高;计算和t-信息分
11、别为“结合成”(-4.53)、“合成分”(-0.725)、“成分子”(0.741)、“分子时”(-0.98)、“子时有”(-0.93),根据t-信息,虽然“结合”、“合成”、“分子”的成词概率都很高,但是结合互信息,可以看出“结合”的互信息非常大,即“结合”应该单独成词,而“成分子”的t-信息为0.741,即“分子”成词概率更大,为此,结合歧义中文字段的互信息和t-信息,将“结合成分子时有”歧义中文字段分词为与fmm和rmm算法都不同的分词结果“结合/成/分子/时有”。如上的分析所示,本文所研究的中文分词歧义消解算法,不仅可以在多个中文分词方案中选择更优的分词方案,同时还可以在已有分词方案的基础上,发现更加符合实际情况的分词方案。5 结束语中文文本分词是中文信息自动化处理的基础,同时由于汉语的特点,在中文分词过程中,中文分词的歧义字段处理就成为了人们研究和关注的重点。当前,已经有众多的中文分词歧义字段的发现和消解算法,但是这些算法都无法完全、正确的解决中文分词歧义字段问题。而且,随着汉语本身的不断发展,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑初步清吧设计方案
- 2025-2026学年无锡市数学三年级第一学期期末质量检测试题含解析
- 备考公共关系学的重点与试题及答案
- 公共关系学的挑战与机遇试题与答案讨论
- 2025年中级经济师考试的校园系列活动试题及答案
- 2022 年中级会计师考试《中级财务管理》真题及解析(9 月 3 日)
- 环保设备维护与更新手册
- 建筑学建筑设计原则题库
- 日用百货供应协议
- 2025市政工程考试答案解析试题及答案
- 工业用地开发项目成本分析与资金筹措方案
- 2025年初中地理学业水平考试模拟试卷:地图与地球知识综合训练试题卷及答案
- 2025年湖北荆州市监利市畅惠交通投资有限公司招聘笔试参考题库含答案解析
- 酒店入股合同协议书
- 银行sql考试题及答案
- 隔离技术知识试题及答案
- 2025三方贸易协议合同范本 贸易合同范本
- 2025-2030中国聚苯醚行业市场发展趋势与前景展望战略研究报告
- 山东省临沂市2025年普通高等学校招生全国统一考试(模拟)历史及答案(临沂二模)
- 《房屋征收与补偿政策解析》课件
- 统编版二年级语文下册语文园地七我想养小动物的理由 课件
评论
0/150
提交评论