(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf_第1页
(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf_第2页
(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf_第3页
(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf_第4页
(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)中文自动分词中的歧义消解算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 f!i删ij趔舢ff删f删|ff舢 【y 189 4 4 3 。1 1 i i i ” 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人 或集体己经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构 的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己 在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:尤穗丽 矽年月胗日 学位论文版权使用授权书 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、 缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致, 允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入中国 学位论文全文数据库并向社会提供查询,授权中国学术期刊( 光盘版) 电子杂 志社将本论文编入中国优秀博硕士学位论文全文数据库并向社会提供查询。 论文的公布( 包括刊登) 授权江苏大学研究生处办理。 本学位论文属于不保密面。 学位论文作者签名:杞惩丽 训f 年6 月肛日 指导教师签名彬 孙e 1 年6ab 蜀 江苏大学硕士学位论文 摘要 信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处 理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法 的设计直接关系着分词系统的切分速度,歧义字段又是影响分词系统切分精度的 重要因素。 本课题针对中文分词系统的两个重要指标:切分速度和切分精度两个方面进 行了深入的研究。在切分速度方面,给出了一种优化的t r i e 索引树词典机制, 设计并实现了中文分词词典;在切分精度方面,给出了两种消除歧义字段的算法, 为解决中文自动分词问题提供了一种新的途径。 论文首先对中文分词相关技术作了简单介绍,分析了各种自动分词方法的优 缺点,介绍了交集型歧义和组合型歧义的定义及识别方法。然后对语料库以及分 词中的词典机制进行了分析和研究,在语料库的建立环节采用关系数据库来管理 语料库。在词典生成环节采用基于优化的t r i e 索引树的词典机制,设计并实现 了中文分词词典,有效地减少了词典空间,同时在查询速度上也有了较大幅度的 提升。 论文主体部分对分词中的歧义消除算法作了研究。在分析了常见消歧算法的 优缺点后,给出了两种消除歧义的核心算法。一种是基于条件随机场模型消除交 集型歧义的算法,该算法将交集型歧义切分由二值分类问题转化为序列标注问 题,不仅能够处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上 下文环境中对真歧义作出正确的切分。另一种是基于c 支持向量机和规则相结 合来消除组合型歧义的算法。该算法的主要思想是利用c 支持向量机分类模型 结合上下文规则库中的规则来对组合型歧义字段进行歧义消解,拓广了s v m 的 应用范围。 论文最后以大量的不同类型的语料作为测试集,做了封闭式和开放式的实 验。实验结果表明,两种消歧算法消除歧义字段的正确率比较理想,验证了算法 的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。 关键词:中文分词,交集型歧义,组合型歧义,条件随机场模型,c 一支持向量机 江苏大学硕士学位论文 a b s t r a c t t h er a p i dd e v e l o p m e n to fi n f o r m a t i o nn e t w o r kt e c h n o l o g yt op u b l i s ha n ds h a r e i n f o r m a t i o n b e y o n dt h e c o n s t r a i n t so fs p a c e ,c h i n e s ei n f o r m a t i o np r o c e s s i n g t e c h n o l o g yh a sb e c o m eah o tr e s e a r c ht o p i c c h i n e s ew o r ds e g m e n t a t i o ni st h eb a s i s f o rc h i n e s ei n f o r m a t i o np r o c e s s i n g ,d i c t i o n a r ya l g o r i t h mi sd i r e c t l yr e l a t e dt ot h e c h i n e s ew o r ds e g m e n t a t i o ns y s t e ms p e e d ,a m b i g u i t yi sa l s oa ni m p o r t a n tf a c t o rw h i c h t oa f f e c tt h ea c c u r a c yo fc h i n e s ew o r ds e g m e n t a t i o ns y s t e m a i m i n ga tt h et w oi m p o r t a n ti n d i c a t o r sf o rt h ec h i n e s ew o r ds e g m e n t a t i o n s y s t e m ,w es t u d i e st h es e g m e n t a t i o ns p e e da n ds e g m e n t a t i o na c c u r a c yo fs o l v i n g w o r ds e g m e n t a t i o np r o b l e m i nt h ea s p e c t so fs e g m e n t a t i o ns p e e d ,g i v e na no p t i m i z e d i n d e xt r e et r i ed i c t i o n a r ym e c h a n i s mt od e s i g na n di m p l e m e n tac h i n e s ew o r d d i c t i o n a r y ;i nt e r m so fs e g m e n t a t i o na c c u r a c y ,e l i m i n a t ea m b i g u i t i e sp r e s e n t e dt w o a l g o r i t h m st os o l v et h ec h i n e s ew o r dp r o b l e mp r o v i d e san e ww a y f i r s t l y ,i nt h ep a p e rw eb r i e f l yi n t r o d u c e sr e l e v a n tt e c h n o l o g yt ot h ec h i n e s e w o r ds e g m e n t a t i o n ,a n a l y z e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so fav a r i e t yo f a u t o m a t i cs e g m e n t a t i o nm e t h o d ,i n t r o d u c e so v e r l a p p i n ga m b i g u i t ya n dc o m b i n a t i o n a m b i g u i t yi nt h ed e f i n i t i o na n dr e c o g n i t i o n t h e n ,c o n d u c t sc o r p u sa n dd i c t i o n a r y m e c h a n i s ma n a l y s i sa n dr e s e a r c h i nt h ec o r p u sc o n s t r u c t i o n ,u s i n gr e l a t i o n a l d a t a b a s et om a n a g et h ec o r p u s ;i nt h ed i c t i o n a r ym e c h a n i s m ,g i v e na no p t i m i z e d i n d e xt r e et r i ed i c t i o n a r ym e c h a n i s mt od e s i g na n di m p l e m e n tc h i n e s ew o r d d i c t i o n a r y ,w h i c he f f e c t i v e l yr e d u c i n gt h ed i c t i o n a r ys p a c e ,w h i l et h eq u e r yi sa l s oa r e l a t i v e l yl a r g es p e e di m p r o v e m e n t w es t u d ya l g o r i t h mo fs o l v i n ga m b i g u i t ya tt h em a i np a r to ft h ep a p e r t w o a l g o r i t h m sa lep r e s e n t e d a f t e ra n a l y z i n gt h ei n s u f f i c i e n c i e sa n da d v a n t a g e so f c o m m o na m b i g u i t yr e c o g n i t i o na l g o r i t h m s o n ei sa na l g o r i t h m ,w h i c hi sb a s e do n c o n d i t i o n a lr a n d o mf i e l dm o d e lt oe l i m i n a t i n go v e r l a p p i n ga m b i g u i t y i n s t e a do ft h e t r a d i t i o n a lm e t h o d sw h i c ht r e a d e dt h eo v e r l a p p i n ga m b i g u i t ya sab i n a r yc l a s s i f i c a t i o n p r o b l e m ,t h en e wm e t h o dr e g a r d si t a sas e q u e n c el a b e l i n gp r o b l e m t h ep r o p o s e d i l 江苏大学硕士学位论文 m e t h o dc a nn o to n l yd e a lw i t ho v e r l a p p i n ga m b i g u o u ss t r i n g so fa n yl e n g t h sn o m a t t e rw h e t h e rt h ea m b i g u o u ss t r i n g sa r ep s e u d oa m b i g u i t yo rt u r ea m b i g u i t yb u ta l s o c o n s i d e rt h ec o n t e s ti n f o r m a t i o na n dt h ed e p e n g e n c i e sa m o n gt h ep r e d i c t e dl a b e l sa t t h es a m et i m e a n o t h e ro n ei sa na l g o r i t h m ,w h i c hi sb a s e do nt h ec s u p p o r tv e c t o r m a c h i n e s ( c s v m ) a n dt h er u l e st od e a lw i t ht h ec o m b i n a t o r i a la m b i g u i t y t h em a i n i d e ao ft h ea l g o r i t h mi st os o l v ec o m b i n a t o r i a la m b i g u i t ym a k i n gu s eo ft h et h e o r yo f s v ma n dr u l e so fp a r t so fs p e e c h ,e x t e n s i o no ft h es c o p eo fa p p l i c a t i o no fs v m a tt h ee n d i n gp a r to ft h i sp a p e r ,al a r g ea m o u n to fd i f f e r e n tt y p e so fc o r p u sa s t h et e s ts e t ,w em a d eac l o s e da n do p e ne x p e r i m e n t s t h ee x p e r i m e n t a lr e s u l ts h o w s t h a tt h ea c c u r a c yo fs e g m e n t a t i o nf o ra m b i g u i t yh a sb e e ni m p r o v e dg r e a t l y i ti sa l s o p r o v e dt h a tt h et w oa l g o r i t h m sa r ef e a s i b l et os o l v ea m b i g u i t y m e a n w h i l e ,t h ep a p e r m a k e sac o n c l u s i o na n dg i v e ss u g g e s t i o nf o rt h ef u t u r er e s e a r c h e s k e y w o r d s :c h i n e s e w o r ds e g m e n t a t i o n ,o v e r l a p p i n ga m b i g u i t y ,c o m b i n a t o r i a l a m b i g u i t y ,c o n d i t i o n a lr a n d o mf i e l dm o d e l ,c s u p p o r t v e c t o rm a c h i n e i i i 江苏大学硕士学位论文 目录 第一章绪论1 1 1 课题的研究背景l 1 1 1 中文分词的研究背景1 1 1 2 中文分词的研究意义2 1 2 课题研究现状2 1 2 1 分词技术研究现状2 1 2 2 歧义切分研究现状4 1 3 论文研究内容6 1 4 全文的组织6 第二章中文自动分词相关技术8 2 1 中文分词定义8 2 2 中文分词算法概述8 2 2 1 基于词典的分词算法8 2 2 2 基于统计的分词算法1 l 2 2 3 基于理解的分词算法1 2 2 3 中文分词的主要难点1 2 2 3 1 中文词的概念1 3 2 3 2 不同应用对词的切分规范不同1 3 2 3 3 分词歧义问题1 4 2 3 4 命名实体识别问题1 5 2 3 5 分词与理解的先后1 5 2 4 歧义字段处理相关技术1 6 2 4 1 歧义字段的分类1 6 2 4 2 歧义字段的侦测1 8 2 5 自动分词的评价指标2 0 2 6 本章小结2 1 第三章语料库的建立与词典的生成2 3 3 1 语料库的建立2 3 3 1 1 语料库的物理结构2 3 3 1 2 物理数据库的建立2 4 i v 江苏大学硕士学位论文 3 2 词典的生成2 5 3 2 1 词典机制2 5 3 2 2 词典的设计2 7 3 2 3 实验与分析2 9 3 3 本章小结3 1 第四章交集型歧义字段及其消歧处理3 2 4 1 引言3 2 4 2 交集型歧义字段定义j 3 2 4 3 条件随机场模型的描述3 3 4 3 1 序列标记3 4 4 3 2 参数估计3 6 4 4 交集型歧义字段的消歧处理3 7 4 4 1 基于词概率模型的歧义消解方法3 7 4 4 2 基于最大熵模型的歧义消解方法3 8 4 4 3 基于条件随机场的歧义消解方法3 9 4 5 实验与分析4 1 4 5 1 实验概述4 l 4 5 2 实验数据4 1 4 5 3 实验结果与分析:4 1 4 6 本章小结4 4 第五章组合型歧义字段及其消歧处理4 5 5 1 引言4 5 5 2 组合型歧义字段的定义及表示4 5 5 2 1 组合型歧义字段的定义4 5 5 2 2 组合型歧义字段的表示4 6 5 3c 一支持向量机模型的描述4 7 5 4 上下文搭配信息规则库的建立4 9 5 5 歧义切分算法的实现5 0 5 6 实验与分析5 1 5 6 1 实验概述5 1 5 6 2 实验数据5 2 5 6 3 实验结果与分析5 2 v 江苏大学硕士学位论文 5 7 本章小结5 5 第六章结论与展望5 6 6 1 概述5 6 6 2 工作总结5 6 6 3 研究展望5 7 参考文献5 8 致谢6 3 附录:读研期间发表和录用论文目录6 4 v l 江苏大学硕士学位论文 1 1 课题的研究背景 1 1 1 中文分词的研究背景 第一章绪论 随着社会网络化、信息化程度的不断提高,人与计算机系统之问的交互也越 来越频繁。当前计算机工作者的重要任务是实现人与计算机之间快速、准确、高 效的信息交互【l 删。随着计算机技术,特别是互联网络技术( i n t e m e t ) 、信息技术 ( i n f o r m a t i o nt e c h n o l o g y ) 的不断发展,大量电子文档的不断涌现,在线信息服务 越来越成为计算机应用的主流。据统计,在信息领域中绝大部分都是以语言文字 作为媒介进行传播和记载的。在信息化社会中,语言信息处理的水平和每年处理 的信息总量己成为衡量一个国家现代化水平的重要标志之一。 自然语言处理( n l p ) ,作为语言信息处理技术的一个高层次研究方向,一直 是人工智能领域所关注的核心课题之一【4 j 。所谓自然语言是相对于计算机语言而 言的,指的是人类语言集团的本族语,如汉语、俄语、英语等。语言作为交流工 具,在人类活动中起着至关重要的作用。因此,人们在大量应用计算机来替代自 己工作的同时,也希望计算机在处理自然语言方面能接近甚至达到人的水平。自 然语言处理的目标是建立起一种人与机器之间的密切而友好的关系,使之能进行 高度的信息传递与认知活动。作为中文信息处理基础的分词技术,已经被广泛应 用于中文领域的信息检索、人机交互、自动标引、机器翻译、文本的语音输入输 出等研究领域中【5 j 。 中文自动分词是中文信息处理领域的一项重要的基础性工作。中文分词就是 指将中文连续的字符串或序列按照一定的规则重新组合成词序列的过程。词是中 文文本中最小的、能独立活动的、有意义的语言成分,是信息处理的基本单位【6 】。 中文自动分词在中文信息处理的许多方向都有很重要的意义。随着专家学者们对 中文分词方面的关注与研究,许多分词方法已得到实现,有的还在进一步的完善 和发展之中。在这一长期的研究和实践过程之中,歧义处理成为困扰中文自动分 词发展的一大难题1 7 1 。 江苏大学硕士学位论文 所谓歧义也称歧义切分字段,是指句中某个片段存在两种或两种以上的切分 形式引。歧义字段是影响分词系统切分精度的重要因素,也是分词阶段最困难的 问题之一。因此提出或改进消歧算法是一个需要迫切解决的问题,有着很重要的 意义,这也正是本文所要研究的主要内容。 1 i 2 中文分词的研究意义 中文分词处于词法、句法、语义等语言层次的最底层,是中文信息处理的基 础。它是搜索引擎、自动翻译、语音识别、文本的自动校对以及数据挖掘等技术 的重要组成部分【9 1 。中文分词技术是直接影响中文信息处理技术发展的瓶颈, 由于汉语自身存在着诸多特性,这决定了在分词技术上中文与其它语言有着本质 的不同。众所周知,英文文本是以词为基本的书写单位,词与词之间用空格隔开, 检索起来比较方便。相对而言,中文文本则是以字为基本的书写单位,是以连续 的汉字字符串或序列形式出现的,词与词之间没有明显的分隔标志,因此在中文 文本处理中,遇到的首要问题就是词的切分问题,词的正确切分是进行中文文本 处理的必要条件。 中文分词使得计算机能够快速、准确、高效的处理中文信息。作为中文信息 处理的基础,许多中文信息处理项目中都涉及到分词问题,如自动索引、自动分 类、机器翻译、信息检索、自动文摘、中文文献库全文检索等。分词的重要性不 言而喻,只有当中文字符串正确切分为词语时,中文才能像英文那样过渡到短语 划分、概念抽取以及主题分析等中文信息处理的更高层次,所以,本文的研究比 较有实际意义。 1 2 课题研究现状 1 2 1 分词技术研究现状 最早的中文分词方法是由梁南元教授【1 2 】于1 9 8 7 年提出的一种基于“查字典 的分词方法。该分词方法的思想是先把整个中文句子读一遍,然后单独标示出字 典里面有的词,如果遇到复合词,就找到最长的词进行匹配;如果遇到不认识的 汉字串就分割成单个的文字。虽然这种分词方法的效率并不高,但它的提出为中 2 江苏大学硕士学位论文 文自动分词技术奠定了基础。 揭春雨掣1 3 l 在1 9 8 9 年提出了机械匹配分词方法的形式化描述模型,讨论了 基于字符串的机械匹配分词算法的结构( 最大匹配和最小匹配,正向扫描和反向 扫描,增字匹配和减字匹配) 及其时间复杂度等问题,并指出最大匹配法较为实 用,这是对中文分词技术的一次重要探讨。 宋彦,蔡东风等【1 4 l 在2 0 0 9 年提出了一种结合基于字的条件随机场模型与基 于词的b i g r a m 语言模型的切分策略,实现了字词联合解码的中文分词方法。蒋 斌等l 强l 根据中文二字词较多的特点,在2 0 0 6 年提出了一种新的分词词典机制。 该机制在词典数据结构中添加了二字词检测位图表,在分词时利用位图表就可快 速判断二字词,优化了分词速度,有效地提高了中文自动分词的速度和效率。吴 晶晶等【i6 】在对中文词典分词机制和真实网络数据进行分析后,注意到中文分词 机制的关键是对单双字词的识别,于2 0 0 7 年提出了一种新型的双字词长词 哈希中文分词机制,通过提高对单双字词的查询效率来实现对中文分词机制的改 进。这些方法都是基于词典匹配来实现自动分词的。 人工智能和专家系统的迅速发展,使很多人工智能领域的计算方法应用到中 文分词中,如专家系统法【m 、隐m a r k o v 模型法1 1 8 1 、有限状态自动机法【1 9 1 、神经 网络法1 2 0 l 、b f i l l 式转换法f 2 l 】等。这些新的探索体现了自动分词研究的不同侧面, 在一定范围内取得了成效。 为克服知识规则和人工智能方法的弊端,研究人员将概率统计方法应用到中 文分词中,这种方法是建立一个自动分词的统计模型,获取模型的各种参数,然 后从各种可能的词串中挑选概率最高的词串作为输出结果。 孙茂松等【2 2 】探讨了基于无指导学习策略和无词表条件下的汉语自动分词方 法,在字间互信息和t 一测试差的基础上,提出了一种将两者线性叠加的新的统计 量m d ,并引入了峰和谷的概念。该算法关于字问位置的分词正确率为8 5 8 8 , 较单独使用互信息或t 测试差分别提高了2 4 7 和5 6 6 。刘春辉等【2 3 】提出优化 最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出 了规则判断与信息量统计两种消歧策略;然后,给出了优化最大匹配与统计结合 的分词算法,提高了分词的效率。朱聪慧,赵铁军【矧等将分词和词性标注两个 阶段整合到一个架构中,并取得了9 7 1 9 的分词精确率和9 5 3 4 的词性标注精 3 江苏大学硕士学位论文 确率。这些方法都是基于概率统计方法来实现自动分词的。 通过不断的实践,中文自动分词的发展经历了一个由浅入深,由简单到复杂 的演变过程,其中最大匹配法和概率统计法是两种最基本的分词算法,而基于词 典的最大匹配分词算法因开发周期较短,程序实现较为容易,在实际应用领域中 常常被用来预处理分词,然后再利用统计方法来消除歧义和识别命名实体。 1 2 2 歧义切分研究现状 歧义的切分是中文自动分词的一个难题,中文文本中的歧义切分字段主要有 以下两种类型:一种是交集型歧义字段,另一种是组合型歧义字段。交集型歧义 字段是自动分词系统中的主要类型,据统计这种歧义字段占全部歧义字段8 5 以上,多年来一直是人们研究的重点。而组合型歧义字段的正确切分,则要考虑 该字段与其上下文的句法和语义关系,研究起来比交集型歧义更困难一些。 何克抗1 2 5 j 等断言,大约9 5 o 的歧义切分借助句法以下的知识就可以解决, 只有5 o 的歧义切分必须借助语义和语用知识。基于规则的几个分词系统都自 觉或不自觉地受到这个结论的支配,歧义消解主要诉诸词法与句法规则。存在的 缺陷是:规则集由人凭主观编制而成,会受到系统性、有效性、一致性、可维护 性等“天然”问题困扰。 孙茂松,左正平等1 2 6 j 提出了最大交集型歧义切分字段的概念,并将之区分 为真伪两种主要类型。根据分析提出了一种基于记忆的、高频最大交集型歧义切 分字段的处理策略,有效的改善了实用型汉语自动分词系统的精度。罗智勇等【2 7 】 从大规模的真实语料库中,考察了歧义字段的分布情况和特征,提出了一种改进 的正向最大匹配歧义字段发现算法,并根据g p w s 的需求,提出了一种“规则+ 例外 的实用消歧策略。李天侠等【2 8 】提出了一种规则和统计相结合的交集型歧 义消歧模型。这种方法可以探测到更多的交集型歧义字段,并且结合了规则方法 和统计法在处理交集型歧义上的优势,提高了交集型歧义处理的精度,为解决交 集型歧义提供了一种新的思路。d o n g p i n gg a o 等【2 9 】利用类功能应用方法去处理 交集型歧义,这种方法的优势是可以处理任意链长的交集型歧义字段。肖云,孙 茂松等1 3 0 】借鉴了w s d 研究中广泛使用的向量空间法,选取了2 0 个典型的组合 型歧义进行了详尽讨论。根据歧义字段的分布采取了“分而治之 的策略,并且 4 江苏大学硕士学位论文 针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了 较好的效果。秦颖,王小捷等1 3 l j 研究了组合型歧义字段在切开与不切时的词性变 化规律,根据常见的一些组合歧义字段构造了歧义字段词性变化模板。实验表明 该方法可以有效地扩大组合歧义字段的收集,较全面地处理切分中的组合歧义。 曲维光等提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段 的前后语境信息对组合型切分歧义进行消解。该方法对于消解组合型分词歧义具 有良好效果。王显芳等【3 3 1 提出了一种能够检测句子中所有交叉歧义的中文分词 算法,该算法基于“长词优先”的切分原则实现,运算复杂度为o 州) ,它的输 出使得下一步处理的运算量大大减少。 自中文信息处理领域提出自动分词以来,相关方面的众多专家、学者为之付 出了不懈的努力,自动分词中的歧义切分技术取得了很大的进展,但是目前对这 两种歧义字段的研究仍存在以下几个方面的不足: l 、目前对交集型歧义字段的很多处理方法仍然停留在概率统计的层面,而 很少意识到交集型歧义的切分其实是一个分类问题。李蓉【蚓等利用支持向量机 的方法将一个歧义字段的不同切分形式作为分类标准来处理交集型歧义,但这种 方法不能直接处理链长大于1 的歧义字段,需要分别对其处理,比较繁琐。 2 、针对组合型歧义字段的问题,前人虽然已经利用空间向量模型【1 6 】对其进 行了比较好的处理,但是当歧义字段的不同切分形式在大规模语料库中出现的次 数比较悬殊时,就需要人为的总结出个性规则,人工的过程大大的加大了工作量, 并且规则的准确性和可靠性都难以把握和衡量。 3 、在对两种歧义字段进行处理的时候,抽出的分词要素比较多的偏重于全 局量【1 4 ,1 7 1 ,而很少去关注局部量,并且很少考虑到上下文相关度、上下文语义等 相对来说比较有价值的分词要素。 4 、到目前为止,交集型歧义字段和组合型歧义字段的处理方法都是分别进 行处理的,没有出现一种方法能使两种歧义字段有效的统一在一个框架中,最终 得到的消歧模型很难具有扩展性。 通过上述分析可以看出,对于歧义切分的正确率还有很大的提升空间,而且 歧义切分的结果会直接影响到最终的分词的结果,所以本文工作比较有现实意 义。 5 江苏大学硕士学位论文 1 3 论文研究内容 本课题针对中文自动分词系统的两个重要指标:切分速度和切分精度两个方 面进行了深入的研究。在切分速度方面,给出了一种优化的t r i e 索引树词典机 制,设计并实现了中文分词词典;在切分精度方面,给出了两种消除歧义字段的 算法,提高了对歧义字段切分的j 下确率,从而提高了分词的正确率。总的来说, 本文的主要工作如下: l 、详细介绍了中文分词的相关技术,分析了各种自动分词方法的优缺点。 2 、分别给出识别交集型歧义和组合型歧义的方法,并结合双向最大匹配法 与全切分方法的优势,利用最长词与次长词进行交叉检测,有效的识别出了歧义 字段。 3 、针对采用t r i e 索引树词典机制时会造成词典存储空间极大浪费的缺点, 采用优化的t r i e 索引树词典机制设计并实现了中文分词词典,这种机制是在传 统的t r i e 索引树基础上,在首字索引结点和索引树结点中分别加入属性这一数 据,重点判断是否存在子树,若不存在,则不予分配空间,从而节省了空间,提 高了物理空间的利用率。 4 、针对目前方法不能直接处理链长大于1 的交集型歧义字串的问题,将条 件随机场模型应用到交集型歧义消解任务中。把交集型歧义切分由二值分类问题 转化为序列标注问题,这不仅能够处理任意链长的歧义字串,而且能够利用上下 文信息,在不同的上下文环境中对真歧义作出了正确的切分。 5 、针对目前对组合型歧义字段的处理不能满足实际需求的问题,用c s v m 分类模型结合上下文规则库中的规则来对组合型歧义字段进行歧义消解。这种算 法使得消歧的正确率有了提高、召回率得到了保证,在一定程度上为解决中文分 词组合型歧义问题提供了种可行的途径。 1 4 全文的组织 全文共有六章组成,章节内容如下: 第一章:绪论。详细介绍课题的研究背景,分析了中文分词的研究现状以及 歧义切分研究现状,并给出本课题的主要研究工作。 6 江苏大学硕士学位论文 第二章:中文自动分词相关技术。首先给出了中文分词的定义;其次介绍了 中文自动分词的三种主要方法:基于词典的分词方法、基于统计的分词方法和基 于理解的分词方法,并且分析了各种分词方法的优缺点;再次,对中文分词中产 生的歧义字段进行分类,并给出了识别歧义字段的方法;最后分析指出了中文分 词的主要难点以及性能评价指标。 第三章:语料库的建立与词典的生成。首先简单的介绍了语料库的物理结构, 采用关系数据库管理系统来建立语料库。其次对分词中的词典机制进行了分析和 研究,采用基于优化的t r i e 索引树的词典机制,设计并实现了汉语分词词典, 有效地减少了词典空间。 第四章:交集型歧义字段及其消歧处理。首先简单回顾了最常用的基于词概 率模型的歧义消解方法和基于最大熵模型的歧义消解方法。针对传统方法将交集 型歧义视为二值分类问题所带来的不便,将条件随机场模型应用到交集型歧义消 解任务中,把交集型歧义切分由二值分类问题转化为序列标注问题,这不仅能够 处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上下文环境中对 真歧义作出正确的切分。 第五章:组合型歧义字段及其消歧处理。针对目前中文自动分词中对组合型 歧义字段的处理不能满足实际需求的问题,用一种新的切分算法来对组合型歧义 字段进行消歧。该算法首先自动从训练语料中提取歧义字段的上下文信息建立规 则库,然后利用c 一支持向量机分类模型并结合规则库中的规则对组合型歧义字 段进行歧义消解。最后通过实验证明,消歧的正确率有了明显的提高,召回率得 到了保证,在一定程度上为解决中文分词组合型歧义问题提供了一种可行的途 径。 第六章:结论与展望。对全文进行了总结并指出了论文存在的不足以及下一 步的研究方向。 7 江苏大学硕士学位论文 第二章中文自动分词相关技术 2 1 中文分词定义 中文自动分词是中文信息处理技术中最基础、最关键的环节之一。所谓分词, 就是把一个句子中的词汇按照使用时的意义切分出来。在英文中单词与单词之问 有空格等显式的分割符,而在中文里,字与字、段与段、句子与句子之间可以通 过分界符来简单划界,唯独词没有一个形式上的分界符,所以当同样面对短语的 划分问题时,在词这一层面上,中文就要复杂得多。 英文句子“t h e r ei sn o t h i n gp e r m a n e n te x c e p tc h a n g e ,中文翻译为“只有变 化才是永恒的”。对于英文句子来说,只要通过空格和标点来切分即可,并且不 会产生歧义。然而在中文句子“只有变化才是永恒的”中,“只有”和“只 、“有” 都是分词词典中的词,要让计算机明白什么时候应该切分出一个词汇,难度很大。 中文分词的过程,就是要把一句话中有意义的词汇都切分出来。词是中文文 本中最小的有意义的独立单位,但是却没有显式分割。若要使计算机与人类达到 自由无障碍的语言交互,就必须让计算机能理解自然语言。只有当汉字串组成的 句子被准确地转化为词之后,才能继续进一步工作。 2 2 中文分词算法概述 经过多年的中文分词技术的研究,专家学者们提出了各种各样的分词算法。 这些中文自动分词算法大致可分为三大类:基于词典的分词算法,基于统计的分 词算法和基于理解的分词算法。这三类算法分别代表了中文分词算法的三个发展 方向。 2 2 1 基于词典的分词算法 基于词典的分词算法又称为机械匹配算法,主要是依据词典信息,按照一定 的策略将需要分词的汉字串与分词词典中的词条逐一进行匹配,若在词典中找到 该字符串,则匹配成功,即识别出一个词。根据字符串扫描方向的不同,分词方 8 江苏大学硕士学位论文 法可以分为正向匹配和逆向匹配;根据优先考虑长词还是优先考虑短词,又可以 分为最大匹配和最小匹配;根据匹配不成功时重新切分的策略,又可以分为增字 法和减字法:根据是否与词性标注过程相结合,又可以分为单纯分词方法和分词 与标注相结合的一体化方法。 常用的机械分词方法有以下几种:正向最大匹配法f 3 5 】、逆向最大匹配法1 3 6 1 、 最短路径匹配法f 4 】。 正向最大匹配法( m a x i m u mm a t c h ) ,简称m m 法。它的基本思想是:假设 分词词典中的最大词长是i 个字,则取当前字符串序列中的前i 个字作为匹配字 段,在分词词典中进行查找,若词典中存在这样一个i 字词,则匹配成功,该匹 配字段就作为一个词被切分出来;如果在分词词典中没有找到这样一个字词,则 匹配失败,将匹配字段去掉最后一个字,剩下的字段重新进行匹配,如此进行下 去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止。 例如,句子“后天我们去上海”,设最大词长为4 。正向最大匹配切分过程 为: 后天我们后天我后天我们去上我们去我们去上海去上去 上海 具体流程如图2 1 所示: 图2 1 正向最大匹配流程图 逆向最大匹配法( r e v e r s em a x i m u mm a t c h i n gm a t c h ) ,简称r m m 法。r m m 9 江苏大学硕士学位论文 法的基本原理与m m 法相同,唯一的区别是分词切分的方向与m m 法相反。 例如:句子“后天我们去上海”,逆向最大匹配切分结果是: 们去上海去上海上海天我们去我们去们去去后天我们天 我们们后天 具体流程如图2 2 所示: 图2 2 逆向最大匹配流程图 一般来说,逆向匹配法的切分精度要略高于正向匹配法。我们可以采用通过 两个方向切分的方法来发现歧义,即如果从两个方向进行切分的结果不同,则这 句话是有歧义的。 最短路径匹配( s h o r t e s tp a t hm a t c h ) 算法的基本思想是:首先根据词典,找 出字符串中所有可能的词( 也称全切分) ,然后构造词语切分有向无环图。这样, 每个词对应图中的一条有向边。若赋给相应的边长一个权值,然后针对该切分图, 在起点到终点的所有路径中,求出长度值为最短的条路径,这条路径上包含 的词就是该句子的切分结果。 例如,句子“他说的确实在理”,根据最短路径法可以画出如图2 3 所示 的求解过程。 l o 江苏大学硕士学位论文 图2 3 句子“他说的确实在理”的求解过程实例 而在机械分词的基础上,利用各种语言信息进行歧义校正,是削弱机械切分 局限性的一种重要手段。目前实用的自动分词系统基本上都是以采用机械分词为 主,辅以少量的词法,语法和语义信息的分词系统。 2 2 2 基于统计的分词算法 基于统计的分词方法【3 9 1 ,y n q 做无词典分词方法。它的基本思想是对输入 的中文字符串进行全部切分,找出所有可能的切分结果组合,然后利用能够反映 语言特征的统计数据模型( 语言模型) 对每种切分结果计算出它所出现的概率, 最后从结果中选取概率最大的一种。概率的计算方法依赖于所建立的语言模型, 随着大规模语料库的建立,此方法得到越来越广泛的使用。目前基于统计的分词 算法有很多种,较为常见的有互信息概率统计算法、神经网络模型、n 元文法模 型、隐马尔可夫模型等,这些统计模型主要利用词与词的联合出现概率作为分词 的信息。 从形式上看,稳定的字的组合构成词,所以在上下文中,相邻的字同现的次 数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率可以反映成 词的可信度。这种技术发展到今天已经有许多种不同的统计原理,这种基于统计 的分词的最大优点是不需要分词词典,直接利用统计的概率信息就可以进行分 词,省去了词典的维护过程,免除了人工的介入;基于统计的分词方法提供了坚 实的数学理论基础,能够有效地识别命名实体、自动消除歧义,处理自然语言的 健壮性好,覆盖的范围也较大,妥善解决了基于词典的分词算法的不足。但这种 方法也具有一定的局限性,在分词时我们经常会识别出一些共现频度高、但并不 是词的常用字组,并且对常用词的识别精度比较差,时空开销也比较大;基于统 计的方法虽然处理语言的覆盖面更广,但它仅仅考虑了语言的上下文关系,而忽 略了语言现象的变化,并且会受到语料库规模的限制。在实际中应用的统计分词 江苏大学硕士学位论文 系统都要采用一部基本的分词词典来进行字符串匹配分词,并且同时使用统计方 法识别一些新词,即将词频统计和字符串匹配有机的结合起来,既发挥基于词典 分词方法切分速度快、效率高的有优点,又发挥了无词典分词方法结合上下文识 别生词、自动消除歧义的优点。近几年来,基于统计的分词方法占了主要的地位。 2 2 3 基于理解的分词算法 这种分词方法【4 1 1 是通过让计算机模拟人对句子的理解来达到识别词的效 果。基本思

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论