(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf_第1页
(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf_第2页
(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf_第3页
(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf_第4页
(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(通信与信息系统专业论文)汉语自动分词的研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容提要 随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不 可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机器“读懂”这 些由人类语言描述的信息。词是最小的能够独立活动的有意义的语言成分,将词 确定下来是智能信息处理和自然语言理解的第一步,只有跨越了这一步,才有可 能对信息进行更深入的处理,以至于让机器“理解”人类的语言。 针对汉语自动分词,对其相关技术进行了研究,包括词语粗切分、未登录词 识别、切分排歧和词性标注等技术。在汉语自动分词的预处理阶段,综合了最短 路径方法和全切分方法,给出了一种基于n 一最短路径的汉语粗切分方法,并采 用一定的算法对全切分有向图进行遍历,得到最优的n 组粗分结果作为后续处理 的对象,在保证效率的前提下提高了分词的准确率。未登录词识别一直都是汉语 分词的难点之一。基于规则的方法和统计模型都被广泛的使用。本文针对中文人 名的特点,参考统计模型,针对其存在的问题进行修改:不但将字段被识别为姓 名的概率作为参考,而且将字段与其上下文( 词或字) 的共现概率也作为参考。 二者相结合,提高了识别的准确率。同时引入一些规则,对该模型不能处理的问 题进行补救,进一步提高识别准确率。切分排歧是汉语自动分词的另一个难点。 分词系统的预处理阶段所产生的n 组最优粗分结果正是由于歧义现象的存在,经 过后续的处理才能获得最终的分词结果。获得全局最优结果的过程即为切分排歧 的过程。在此过程中参考了最大概率模型,并在其基础上进行了修改,考虑了所 有可能的切分词在全文的出现概率。可以进一步提高切分准确率。在词性标注阶 段,将采用经典的v i t e r b i 算法进行标注。 在以上研究的基础上,认真分析了汉语自动分词系统实现的基本思想和组成 框架,设计并实现了试验用的自动分词系统。 关键词:自动分词粗切分未登录词切分排歧词性标注 a b s t r a c t a l o n gw i t h t h e d e v e l o p m e n to ft e c h n o l o g y a n dt h ee m e r g e n c eo fm a s s i n f o r m a t i o n ,i n f o r m a t i o np r o c e s s i n gh a sb e e no n eo ft h em o s tp a r t si nt o d a y sw o r l d t oe x t r a c tu s e f u lk n o w l e d g ef r o mt h em a s si n f o r m a t i o n ,i tm u s eb ep o s s i b l et om a k e m a c h i n e s “u n d e r s t a n d ”i n f o r m a t i o nf o r m e db yh u m a nl a n g u a g e s h o w e v e r , w o r d sa r e t h el e a s tl a n g u a g ee l e m e n t sw h i c hc a nb ei n d e p e n d e n t l yu s e da n dh a v er e a lm e a n i n g i ti st h ef i r s ts t e pt ou n d e r s t a n dt h en a t u r a ll a n g u a g et h a tt oi d e n t i f yt h ew o r d s ,o n l yb y a c h i e v e dt h ef i r s ts t e p c o u l di tb ep o s s i b l et od e a lw i t ht h ei n f o r m a t i o ni nd e a t h ,e v e n m a k et h em a c h i n e su n d e r s t a n dh u m a nl a n g u a g e s a sr e g a r d sc h i n e s ew o r d s r o u g hs e g m e n t a t i o n ,u n l o g g e d s e g m e n t a t i o n ,w eh a v ed o n es o m es t u d y , i n c l u d e s w o r d sr e c o g n i t i o n ,e l i m i n a t ed i f f e r e n tm e a n i n g s , p a r t o f - s p e e c ht a g g i n ga n d s oo n a tp r e c o n d i t i o n i n gs t a g eo fc h i n e s ew o r d s a u t o m a t i cs e g m e n t a t i o n ,w ec o n s i d e rt h es h o r t e s tp a t hm e t h o da n dt h ec o m p l e t e s e g m e n t a t i o nm e t h o ds y n t h e t i c a l l y , p r o p o s eam e t h o do fc h i n e s ew o r d ss e g m e n t a t i o n t h a tb a s e do nn - s h o r t e s t p a t h s ,a n da d o p ts o m ea r i t h m e t i ct ot r a v e lt h ec o m p l e t e s e g m e n t a t i o no r i e n t e dg r a p h ,o b t a i n sng r o u p so fr o u g h r e s u l t sa st h eo b j e c to ft h e n e x tp r o c e s s i n g i m p r o v et h er a t eo fa c c u r a c yo nt h ep r e m i s eo fg u a r a n t e e i n g e f f i c i e n c y t h eu n - l o g g e dw o r d sr e c o g n i t i o n i so n eo ft h ed i f f i c u l t i e so fc h i n e s e w o r d sa u t o m a t i cs e g m e n t a t i o n t h em e t h o db a s e do nr u l ea n dt h es t a t i s t i c a lm o d e la r e w i d e l yu s e d i nv i e wo fc h a r a c t e r i s t i c o fc h i n e s ep e r s o n a ln a m e ,r e f e r e n c et h e s t a t i s t i c a lm o d e l ,w ep r o p o s eas t a t i s t i c a lm o d e lb a s e do nt h ec o n t e x t n o to n l yt a k e t h ep r o b a b i l i t yo ft h ef i e l dt h a tr e c o g n i z ea san a m ea st h er e f e r e n c e ,b u ta l s ot a k et h e p r o b a b i l i t yo fn a m ea n dc o n t e x tp r e s e n tt o g e t h e r a tt h es a m et i m ei n t r o d u c e ss o m e r u l e s ,t or e c o v e r yt h ep r o b l e mt h a tt h em o d e lc a nn o td e a lw i t h e l i m i n a t ed i f f e r e n t m e a n i n g si sa n o t h e rd i f f i c u l t yo fc h i n e s ew o r d ss e g m e n t a t i o n a sar e s u l to ft h e e x i s t e n c eo fd i f f e r e n tm e a n i n g sp h e n o m e n o n ,w eg e tng r o u p so fr o u g hr e s u l t sa t p r e c o n d i t i o n i n gs t a g e o fc h i n e s ew o r d sa u t o m a t i cs e g m e n t a t i o n o n l ya f t e rt h e f o l l o w i n gp r o c e s s i n gc a nw eg e tt h ef i n a lr e s u l t t h ec o u r s eo fg e tt h eb e s tr e s u l to f t h ec o n t e x ti st h ec o u r s et oe l i m i n a t ed i f f e r e n tm e a n i n g s w er e f e r e n c et h em a x i m u m p r o b a b i l i t ym o d e l ,a n dp r o p o s eap r o b a b i l i t yt h a tb a s e do nc o n t e n t i tc o n s i d e r st h e a p p e a r a n c ep r o b a b i l i t yo fa l lp o s s i b l ew o r d s ,w h i c hc a ne n h a n c et h ea c c u r a c yo f w o r d ss e g m e n t a t i o n d u r i n gt h ec o u r s eo fp a r t - o f - s p e e c ht a g g i n g ,w ew i l la d o p tt h e c l a s s i c a lv i t e r b ia l g o r i t h m i i o nt h ef o u n d a t i o no fa b o v er e s e a r c h ,w ea n a l y z et h eb a s i ct h o u g h ta n dt h e c o n s t r u c t i o nf r a m eo fc h i n e s ew o r d sa u t o m a t i cs e g m e n t a t i o ns y s t e m ,d e s i g na n d r e a l i z et h ea u t o m a t i cs e g m e n t a t i o ns y s t e mt h a to fe x p e r i m e n tu s e k e yw o r d s :a u t o m a t i cs e g m e n t a t i o n ,r o u g hs e g m e n t a t i o n ,u n - l o g g e dw o r d s , e l i m i n a t ed i f f e r e n tm e a n i n g s ,p a r t - o f - s p e e c ht a g g i n g i i i 海南大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所是交的学位论文,是本人在导师的指导下,独立进行研究上作所取 得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写 过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律结果由本人承担。 论文作者签名:孑寸,j 0 曼致 日期:彩年6 月,f 日 学位论文版权使用授权说明 本人完全了解海南大学关于收集、保存、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中师 范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存和汇编本学位论文。 保密论文在解密后遵守此规定。 论文作者签名:别,策猛 日期:赫石月i f 日 导师签名: 日期:彩年6 月i 妇 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的学位论 文提交“c a m s 高校学位论文全文数据库”中全文发布,并可按“章程”中规定享受相关 权益。回童途塞握銮丘澄压! 旦土生;旦= 生i 丝生筮查。 论文作者签名:孑扣屏0 琵 日期:2 夕彭年占月i f 日 聊娩料 日期:参彭石年石月,泊 1 序言 1 1 中文分词发展概述 语言学是一门古老的学科,语言是人类行为的一个基本方面,也是我们生活中的一 个极为重要的组成部分。对语言学的研究,长期以来都是以手工方式进行的。然而进入 二十世纪二十年代以后,语言学在现代科学体系中的地位发生了急剧的变化。人们认为 语言是哲学和人文科学发展的突破口,是社会科学、自然科学与思维科学的接合点。自 此语言学开始成为了- i 7 领头学科。之所以会发生这种变化,固然可归因于人们对语言 所具有的文化本源性,也可认为是和当前科学技术发展的影响密切相关。 到了二十世纪五十年代,一门新兴的以计算机为手段研究自然语言的学科一一自然 语言理解堙1 ( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,n l u ) 也称之为计算语言学 ( c o m p u t a t i o n a l1 i n g u i s t i c s ) 问世了,它是一门研究如何利用计算机来理解以及生 成自然语言的理论和方法的学科,通过形式化的定义和计算模型来分析、理解以及处理 自然语言。它是计算机科学、数学、语言学、逻辑学、心理学、哲学、人工智能等多个 学科的研究成果的一个综合产物,不但推动了语言学本身的发展,而且形成了一门深入 到人类活动各个领域的学科。随着社会信息化的提高和海量信息的出现,人们越来越重 视n l u 技术的研究和发展,并且该研究成果已在机器翻译、信息检索、自然语言人机接 口等重要领域得到了应用,展现了非常美好的前景。 自然语言理解过程主要包括词法分析、句法分析以及语义和语用分析。词法分析主 要指从接受输入串开始到对输入串进行句法层面分析之前,对输入串进行的词一级的处 理。不像英语、德语等曲折型语言,汉语属于分析型语言,汉语中的词基本上没有形态 变化,一个汉语句子由一串前后连续的汉字组成,词与词之间没有明显的分割标志。因 此汉语词法分析的主要任务不是分析单词的形态变化,而是进行单词的自动切分。汉语 自动分词就成为了自然语言理解以及智能信息处理的基础。 自8 0 年代初中文信息处理领域提出了自动分词以来,国内的专家学者在这方面做了 大量的研究,一些实用性分词系统逐步得以开发,其中几个比较有代表性的自动分词系 统在当时产生了较大的影响。 c d w s 分词系统是中国第一个实用的自动分词系统,由北京航空航天大学计算机系于 1 9 8 3 年设计实现,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术; a b w s 是山西大学计算机系研制的自动分词系统,系统使用的分词方法称为“两次扫描联 想一回溯方法,用联想一回溯来解决引起组合切分歧义。系统词库运用了较多的词法、 句法等知识;c a s s 是北京航空航天大学于1 9 8 8 年实现的分词系统。它使用的是一种变 形的最大匹配方法,即正向增字最大匹配。它运用知识库来处理歧义字段;书面汉语自 动分词专家系统是由北京师范大学现代教育研究所于1 9 9 1 年前后研制实现的,它首次 将专家系统方法完整地引入到分词技术中。系统使知识库与推理机保持相对独立,知识 库包括常识性知识库( 词条的词类2 4 种、歧义词加标识及其消除规则编号、消歧的部 分语义知识,使用关联网络存储) 和启发性知识库( 消歧产生式规则集合,用线性表结 构存储) ,词典使用首字索引数据结构。 清华大学的s e g 分词系统提供了带回溯的正向、反向、双向最大匹配法和全切分一 评价切分算法,由用户来选择合适的切分算法。其特点则是带修剪的全切分一评价算法。 系统考虑到了切分盲点的问题,由此提出了全切分的概念,即找出输入字段的所有可能 的子串,然后利用某种评价方法从所有可能的字串中选出最佳字串序列作为分词结果。 其s e g t e g 系统则着眼于将各种各类信息进行综合,以便最大限度地利用这些信息提高 切分精度。系统使用有向图来继承各种各样的信息。并采用在有向图d a g 搜索最佳路径 的方法,使用一个评价函数,求此评价函数的极大值而获得最佳路径。 北大计算语言所分词系统属于分词和词性标注相结合的分词系统,系统可利用丰富 的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调 整,同时将基于规则的标注排歧与基于语料库统计模型的排歧结合起来,使规则的普遍 性与灵活性得到统一,而且对未登入词的估算达到了相当高的准确率。系统的处理过程 包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排 歧、切分和词性标注后处理等过程,系统的算法综合了多种数据组织和搜索技术,以很 低的时空开销实现了高速匹配和查找,同时采用了当代计算语言学的统计方法,运用隐 m a r k o v 过程进行词类标注和排歧,对算法的效率和稳固性都作了尽可能的优化。 复旦的分词系统包括由四个模块构成。一、预处理模块,利用特殊标记将输入的文 本分割成较短的汉字串。二、歧义识别模块,使用正向最小匹配和逆向最大匹配进行扫 描。三、歧义字段处理模块,使用构词规则和词频统计信息来进行排歧。四、未登录词 识别模块,解决由未登录词造成的分词错误。哈工大统计分词系统是一个典型的运用统 计方法的纯切词系统。它试图将串频统计和词匹配结合起来。系统由三个部分构成:预 处理模块、串频统计模块、切分模块,该系统利用上下文识别大部分生词,解决以部分 歧义,但是对常用词识别精度差的固有缺点依然存在。杭州大学改进的分词系统, 其分词算法为,正向扫描,增字最大匹配包括跳跃匹配非连续词,词尾歧义检查,使用 “归右原则”,系统字典采用一级首字索引结构。 海量科技开发的中文智能分词基础件,是目前国内最优秀的中文智能分词产品。海 量科技以“砌词为突破口,巧妙地解决困扰分词最大的问题一一未登录词的识别问题, 在其他问题上博采众长各个击破,采用复方概念平衡各算法,使海量分词在大规模语料 测试中的准确率达到了9 9 5 ,分词效率2 0 0 0 万字分钟,基本上达到实用要求。百度 搜索用的就是海量的分词系统。 1 2 研究背景与意义 汉语自动分词一直是智能信息处理和自然语言理解的基础。词是一个动态的概念, 每天都可能有新词出现,或者是原有的词被赋予新的用法,并且在信息高速发展的情况 下,外来词的涌入以及网络名词、商标等基于汉语自身的灵活性和自由性所出现的新词, 使得词在不断的变化和扩展。面对这些日新月异的词,分词技术面临着巨大的挑战。分 词技术是当前智能信息处理和自然语言理解必须经过的重要阶段,也为后续工作的展开 和深入做好扎实的基础。近年来,国内相关领域的人士一直都在这些方面努力地研究和 探索着,目的就是找到更可靠,更准确,更有实用价值的方法。 作为中文信息处理的前提和自然语言理解的基础,汉语自动分词有着广泛的应用前 景。主要应用领域有:信息检索,如全文检索、主题检索等;汉字处理,如智能拼音输 入、手写识别输入、中文o c r 识别、自动校对、简繁转换等;语音处理,如语音合成、 语音识别等;内容识别与分析,如信息摘录、自动文摘、自动标引、文本自动分类、自 动过滤、数据挖掘等;自然语言理解,如机器翻译、自然语言接口等。 1 3 研究工作概述 目前的汉语自动分词系统的主要步骤是:先采取最大匹配、最短路径、概率统计、 全切分等方法,得到一个相对最好的粗分结果,然后在进行排歧、未登录词识别、词性 标注。本文给出一种高召回率同时兼顾准确率的词语粗分模型,n 一最短路径汉语粗分模 型,得到n 组最佳粗分结果,为后续处理,未登录词识别、词性标注,提供少量、准确 的粗分结果。在未登录词识别过程中,针对中国人名的特点,参考统计模型,针对其存 在的问题进行修改:不但将字段被识别为姓名的概率作为参考,而且将字段与其上下文 ( 字或词) 的共现概率作为参考,二者相结合可以进一步提高中文姓名识别的准确率。 在切分排歧阶段,参考最大概率模型,并在其基础上进行修改,引入了切分词在文本中 的出现频率,从而提高汉语分词的准确率。在词性标注阶段,将采用经典的v i t e r b i 算法。 在以上研究的基础上,分析了汉语自动分词系统实现的基本思想和组成框架,设计并实 现了实验用的自动分词系统。 1 4 论文的组织结构 本文总共分为8 章: 第一章绪言,1 1 汉语自动分词概述;1 2 介绍了本文的研究背景及意义;1 3 介 绍了本文主要的研究工作;1 4 介绍了本文的组织结构。 第二章汉语自动分词技术概述,2 1 介绍了汉语自动分词的意义;2 2 汉语分词算 法的分类:2 3 汉语自动分词技术的难点;2 4 小结。 第三章预处理过程,3 1 基本思想;3 2 模型求解;3 3 n 一最短路径求解;3 4 分析 比较 第四章未登录词识别,4 1 中国人名自动识别的困难;4 2 现有的解决方案;4 3 本章解决方案;4 4 小结 第五章切分排歧,5 1 最大概率模型;5 2 基于内容的最大概率模型;5 3 小结 第六章词性自动标注,6 1 隐m a r k o v 模型;6 2 最大熵原理;6 3 小结 第七章系统设计与实现,7 1 系统设计;7 2 各功能模块说明;7 3 程序实现及部 分伪代码;7 4 小结 第八章结束语 4 2 汉语自动分词技术概述 汉语中的字、句和段都有明显的分割符,唯独词没有一个真正意义上的分割符。这 里所讨论的汉语自动分词,就是将连续的字序列分割成词序列的过程。 2 1 汉语自动分词的意义 汉语自动分词是当前信息处理和自然语言理解中最为基础的一步,分词的好坏,直 接影响到后续处理的难易程度及准确性。“词是最小的能够独立活动的有意义的语言成 分口,所以对于中文来讲,区分出词是理解自然语言的第一步,是后续处理的基础。只 有跨越了这一步,才能过渡到短句分析、句法分析、概念抽取以及主题分析,以至于自 然语言理解。 现阶段,英文已经跨越了分词这一步,也就是说在词的利用上已经先我们一步,并 且已经展现了良好的应用前景。所以汉语自动分词对我们来说意义重大,可以说直接影 响到使用中文的每一个人的方方面面。 作为自然语言理解和中文信息处理的基础,汉语自动分词有着广泛的应用前景。主 要应用领域有:信息检索,如全文检索、主题检索等;汉字处理,如智能拼音输入、手 写识别输入、中文o c r 识别、自动校对、简繁转换等;语音处理,如语音合成、语音识 别等;内容识别与分析,如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、 数据挖掘等;自然语言理解,如机器翻译、自然语言接口等。 2 2 汉语自动分词算法的分类 现有的汉语自动分词算法可以分为以下三大类:基于字符串匹配的分词方法;基于 统计的分词方法和基于理解的分词方法。 2 2 1 基于字符串匹配的分词方法 基于字符串匹配的分词方法又叫做机械分词方法。它是按照一定的策略将待分析的 汉字串与一个一定规模的机器词典中的词条进行匹配,若在词典中找到某个字符串则匹 配成功( 识别出一个词) 。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度字串优先匹配的原则,字符串匹配分词方法可以分为最大 ( 最长) 匹配和最小( 最短) 匹配;按照是否与词性标注过程相结合,字符串分词方法 又可分为单纯分词方法和分词与标注相结合的一体化分词方法。常用的几种分词方法如 下: 正向最大匹配:正向扫描待分析的字符串,取待切分语句的n 个汉字作为待匹配字 段,1 1 为分词词表中最长词条的长度;查询分词词表进行匹配,若能匹配则将这个字段 作为一个词切分出来,继续取n 个汉字进行匹配。若不能匹配,则将字段的最后一个字 去掉作为一个新的匹配字段进行匹配。重复以上过程直到切分出所有词为止。 逆向最大匹配:基本思想与j 下向最大匹配相同,只是扫描的方法为逆向,当字串不 能匹配的时候,则将第一个字去掉作为一个新的匹配字段进行匹配。 最少切分:其基本思想是使待分析字符串分词后得到的词最少。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配 方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹 配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也 较少。统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向最大匹 配的错误率为1 2 4 5 。但这种精度还远远不能满足实际的需要。 一种方法是改进扫描方式,称为特征扫描或标帜切分,优先在待切分字符串中识别 和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来 进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利 用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检 验、调整,从而极大地提高切分的准确率。 对于这些分词方法可以建立一个一般的模型,形式的表示为a s m ( d ,a ,m ) ,即 a u t o m a t i cs e g m e n t a t i o nm o d e l 。其中,d :匹配方向,+ 1 表示正向,一l 表示逆向:a : 每次匹配失败后增加或减少字符串长度( 字符数) ,+ 1 为增字,一1 为减字:m :最大或 最小匹配标识,+ 1 为最大匹配,一1 为最小匹配。例如,a s m ( + ,一,+ ) 就是正向减字最大 匹配法( 即咖方法) ,a s m ( 一,一,+ ) 就是逆向减字最大匹配法( 即r m m 方法) 等等。对于 现代汉语来说,只有m = + 1 是实用的方法。 目前,实际使用的一些分词系统,都是把机械分词作为一种粗分手段,然后利用各 种其它的语言信息来进一步提高分词的准确度。单纯的使用机械分词方法,并不能解决 分词阶段的两大基本问题:切分歧义和未登录词识别,当歧义和新词出现较多的时候, 该方法的性能将大幅度下降。 2 2 2 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越 多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好的反应成词的 可信度。 可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定 义两个字的互现信息为:m ( x 了) = l o g 揣,其中尸伍,y ) 是汉字x 、y 的相 邻共现概率,尸) 、尸( 】,) 分别是x 、y 在语料中出现的概率。互现信息体现了汉字之间 6 结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个 词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典 分词法或统计取词方法。 但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字 组,例如“这一 、“之一 、“有的”、“我的”、“他的”等,并且对常用词的识 别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典( 常用 词词典) 进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配 结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下 文识别生词、自动消除歧义的优点。 2 2 3 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思 想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模 拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语 言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前 基于理解的分词系统并不完善,尚处在实验阶段。 2 3 汉语自动分词技术的难点 分词规范的不确定性,以及切分歧义的排除和未登录词的识别等方面的问题给汉语 自动分词技术带来了很大的挑战。其中最大的两个问题是切分排歧和未登录词识别。前 者要解决在上下文环境中不同切分结果的选择问题;而后者则要解决字典中未收录词的 识别问题。实际应用中可以通过在机械匹配的基础上通过规则的方法来解决上述两个问 题。然而规则方法很难穷尽真实文本中的各种情况。 汉语自动分词的一个巨大非技术障碍是分词规范和标准问题。虽然汉语自动分词已 经有很多年的研究历史,但是迄今为止国内仍然没有一个公开的、受到广泛认可的、可 操作性强的分词规范,也不存在一个通用的大规模评测语料库。这使得众多研究者的研 究结果之间缺乏真正的可比性,从而制约了分词技术的提高。能够真正公开的为大众所 使用的较好的分词工具很少。h 朝阳1 2 3 1 汉语自动分词规范 汉语词在概念上理解的不同以及不同的应用对词的切分规范要求不同使得分词规范 不能唯一的确定下来,从而也就不能有效的进行评测和比较。基本上不同的研究机构都 7 有不同的研究规范:中国标准出版社出版的信息处理用汉语分词规范;北大计算语 言所的人民日报语料库词语切分规范;台湾中研院的咨询处理用中文分词规范 等等。这些不同规范的存在,在一定程度上制约着分词技术的发展。 2 3 1 1 汉语词的概念 汉语自动分词的首要困难是词的概念不清楚。书面汉语是字的序列,词之间没有间 隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一个通用、权威的分 词标准来衡量。分词标准的问题实际上是汉语词与语素、词与词组的界定问题,这是汉 语语法的一个基本的,长期的问题。它涉及到许多方面: 核心词表问题:分词需要有一个核心( 通用、与领域无关的) 词表,凡在该词表中 的词,分词时就应该切分出来。对于哪些词应当收进核心词表,已提出各种收词条件, 但这些条件本身难以操作,目前尚无合理的可操作的理论和标准。 词的变形结构问题:汉语中的动词和形容词有些可以产生变形结构,如“打牌”、 “开心、“看见、“相信”可能变形成“打打牌 、“开开心 、“看没看见 、 “相不相信”等。可以切分出“打打牌,但“开开心 就不合理。“看没看见” 说得过去,“相不相信”就说不过去了。又如大量的离合词“打架”、“睡觉等可 以合理地变形为“打了一场架”、“睡了一个觉”。对这些变形结构的切分缺少可操作 而又合理的规范。 词缀的问题:语素”者”在现代汉语中单用是没有意义的,因此“作者”、“成功者”、 “开发者内部不能切开。依据这个标准,“做出了巨大个人财产和精神牺牲者、“克 服许多困难而最终获得成功者 、“开发中国第一个操作系统软件者也不能切开,但这 样复杂的结构与词的定义相矛盾。又如职务名称“教育局长”,语义上理解为“教育局 之长 ,切成“教育局长”、“教育局长 、“教育局长”或不予切分,都会有人提 出异议。 非词语素问题:一些汉字在古代汉语中是词,演变到现代汉语时成了非词语素,例 如“民”。现代的书面汉语并非纯粹的“现代汉语”,其中夹杂着不少文言成分,如“为 民除害 、“以逸待劳 、“帮困济穷”等等。探寻白话文中央杂文言成分的规律,是中 文信息处理需要解决的一大问题。 2 3 1 2 不同应用对词的要求不同 汉语自动分词规范必须支持各种不同目标的应用,但不同目标的应用对词的要求是 不同的,甚至是有矛盾的。 以词为单位的键盘输入系统:为了提高输入速度,一些互现频率高的相互邻接的几 个字也常作为输入的单位,如:“这是 、“每一 、“再不”、“不多”、“不在 、 “这就是 、“也就等。校对系统将含有易错字的词和词组作为词单位,如许多人 “作”、“做”分不清。语音合成系统收集多音字所组成的词和词组作为分词单位,如 “补给”、“给水”,因为在这些词或词组中,多音字“给”的音是确定的。检索系统的 词库注重术语和专名,并且一些检索系统倾向于分词单位较小化。比如,把“并行计算 机”切成“并行计算机”,“计算语言学应切成“计算语言学 ,使得无论用“并 行计算机还是用“计算机”、“计算语言学”或是“语言学检索,都能查到。分词 单位的粒度大小需要考虑到查全率和查准率的矛盾。简繁转换系统:“干”的繁体形式 有“乾”和“干 ,它的简繁转换是非确定的。但在词和词组的层面上,它的转换常常 是确定的。比如“干部”、“干事”、“乾净、“乾燥 等。为了提高简繁转换的正 确率,简繁转换系统把这类词或词组收进词表。 2 3 2 切分歧义问题 切分歧义是汉语自动分词研究中的“拦路虎”。梁南元最早对这个现象进行了比较 系统的考察,他定义了两种基本的切分歧义类型n 1 : 定义1 :汉字串a j b 被称作交集型切分歧义,如果满足a j 、j b 同时为词( a 、j 、b 分别为汉字串) 。此时汉字串j 被称作交集串。 定义2 :汉字串被称作多义组合型切分歧义,如果满足( 1 ) a 、b 、a b 同时为词;( 2 ) 中文文本中至少存在一个语境c ,在c 的约束下,a 、b 在语法和语义上都成立。 这两种歧义是比较典型分歧义,其中交集型歧义约占全部歧义的8 5 以上。如果要 解决这样的歧义问题,通过在分词系统上提供进一步的语法、语义知识才有可能对歧义 切分做出相对正确的决策。排除歧义常常使用词频、词长、词间关系等信息,比如“真 正在中,“真作为单字词的频率远远低于“在”作为单字词的频率,即“在”常常 单独使用,而“真”作为单字词使用的可能性较小,所以应该切成“真正在”。j 有时切 分歧义发生在小段文字中,但为了排除歧义,需要上下文信息。如“学生会 即可能是 一个名词,也可能是“学生会”,这就需要观察后续的文字信息才能判断。在“学生会 主席 中前者的可能性相当大,而在“学生会去”中就倾向于后者,在“学生会组织义 演活动 中,就目前的信息是解决不了歧义信息的,这就需要更多的上下文语境信息才 能真正确定下来。 根据词义排歧所使用的资源,排歧方法可分为基于人工智能、基于知识、基于语料 库等方法。基于人工智能的方法始于6 0 年代初,当时主要目的在于解决自然语言理解 的问题。主要包括符号主义方法和连接主义方法。进入8 0 年代,大规模词汇资源的出 现,排歧方法逐渐转为基于经验知识的方法,除了机读词典、常用词义排歧知识,还 有语义词典、可计算词典,如:基于词典的词义排歧主要包括:利用词义的定义排歧, 利用语义词典排歧。近年来,语料库语言学的兴起,基于语料库的排歧逐步成为主要的 方法。 梁南元:书面汉语自动分词系统 c d w s ,中文信息学报,1 9 8 7 ,l ( 2 ) 。 9 基于相似度的排歧方法,主要利用输入与训练数据中的实例间的相似度来进行排歧, 典型的相似度计算方法有向量空间模型和特征距离方法。 还有一些早期的排歧方法,比如:“松弛法”,“扩充转移网络 ,“短语结构文法”, “神经网络”,“有限状态自动机”,“隐马尔可夫模型等,都对排歧方法做了多方面的 研究。后来又有利用词频以及语素、切分歧义表层结构等简单信息进行排歧,以及通过 句法分析进行排歧。 2 3 3 未登录词识别问题 词汇是语言中最活跃的部分,随着社会的发展和新事物的出现而不断产生新词汇, 以满足社会交际的需要,这是大家有目共睹的事实。每天都可能有新词出现,如何将这 些新词准确的识别出来,并且找出其对应的词性等信息,是一件非常困难和具有挑战性 的事情。未登录词不仅存在于智能信息处理中,同样也存在于自然语言理解中。然而对 于汉语这种词间没有分隔符的语言来说,还存在一个未登录词的识别问题,困难的主要 原因在于组成汉语未登录词的汉字可能本身又是汉语词。 未登录词:未包括在分词词表中但必须切分出来的词,包括各类专名和某些术语、 缩略词、新词等等。专名中包括中外人名、地名、企业名、商标名等等。未登录词的识 别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。 人们在识别未登录词时主要有两方面:一方面,某几个汉字是否与某一类型的词比 较相似,是否符合该类词的一般组成规律。另一方面,如果把这几个汉字当作一个未登 录词,整个句子是否更通顺,更易于理解。现有的这方面的研究工作多从前一方面来预 测可能的某一特定类型的未登录词,如人名、地名、外语音译词等,取得了一些比较好 的成果。其实人们在理解句子的时候,后一方面的因素同样起着非常重要的作用。但这 种判断不仅仅用到了词语方面的知识,更多地用到了句法、语义甚至语境方面的知识, 而在计算机自动分析中,未登录词的识别还处于词法分析阶段,几乎没有或者只引入极 少量的句法和语义知识,因此在这一阶段实现这种判断是非常困难的。 目前,虽然已经有很多研究者尝试了许多的方法来解决这类新词识别的问题,但是 始终达不到实用的条件。相关的部分研究方法主要有:统计和启发知识的方法,统计信 息和规则相结合的方法,动态规划的方法等等。 命名实体中的人名、地名、组织机构名等作为未登录词的一部分,广泛存在于各种 文本信息中,尤其在政治、经济、法律领域中。命名实体的识别是自然语言处理的一个 重要组成部分,也是其它的基于文本应用的基础,比如信息检索,问答系统,信息抽取 等。进来已经成为研究的热门,相应的研究工作也比较多,但所取得的成果还是不够理 想。其基本方法主要包括: 基于规则的方法 依赖于手工规则的系统,并使用命名实体库。而且他们对每一个规则都赋予权值。 1 0 当遇到规则冲突的时候,选择权值最高的规则来判别命名实体的类型。 规则的方法主要依赖于规则的设计者,规则设计者的能力决定规则系统性能的好坏。 如果一个人具备深厚的计算语言学知识,并且投入大量的精力,那么凭他的努力是可以 做出一个性能优越的命名实体识别系统的。但是跟其它基于规则的方法一样,命名实体 的规则系统也有一些难以克服的缺点。 1 规则系统的开发是非常昂贵的。 2 规则系统性能的好坏完全依赖于规则设计者的计算语源学的知识。 3 命名实体识别的规则系统缺乏适应性。一套命名实体识别的规则系统,重新应用 于其它领域,需要很大的改动。 4 一套规则系统用以别的语言规则和词库都需要重新构造。 5 虽然规则系统的准确率很高,但是规则的覆盖度很差。出现新的语言现象,如果 不重新生成新的规则处理,规则系统将无法覆盖。 基于统计的方法 规则的方法存在许多难以克服的缺点,从而使得将统计的方法用于命名实体识别开 始为大部分研究者所关注。和规则的方法相比,统计的方法不是人工构建一些规则来判 别命名实体,而是通过对标注语料的训练,通过模型对语言现象的识别,自动判别命名 实体。与提取规则相比较,带标注语料的构建代价是很小的,它对构建者的要求也很低, 甚至不要求构建者具备计算语言学的知识。因为带标注语料的大量出现和规则系统的缺 点,统计的方法应用于命名实体的识别已经成为主流。如基于统计的方法,基于h 删的 方法,使用最大熵模型,基于语料库的方法等等。 其他方法 基于规则和基于统计方法的相互结合,已经成为一种趋势,因为单纯的规则或是统 计的方法,都不能完全的解决命名实体的所有现象,而两种方法的结合在一定程度上, 对命名实体的识别有所提高。除了这两种基本的方法,很多研究者也正在寻找其它的方 法来进行命名实体识别的研究。如,使用语言模型的方法,将命名实体通过语言模型进 行识别。基于角色标注的命名实体识别系统,把分词和命名实体作为一个整体来处理。 命名实体识别在分词的基础上进行,也作为纠正分词错误的一个重要信息。基于 c o - t r a i n i n g 方法的中文机构名识别等等。 2 4 汉语自动分词系统的目标 汉语自动分词系统达到怎样的水平才能适应信息处理的要求? 可以从以下几个方面 来衡量,即准确、高效、通用及适用。 2 4 1 准确性 准确率是分词系统性能的核心指标。现在有些分词系统的准确率达到9 8 ,似乎已 经很高了,其实不然。若这种分词系统被用来支持句法分析、汉一一外机器翻译系统, 假定平均每句话有1 0 个汉语词,那么1 0 句话中会错切2 个词,含有切分错误的2 句就 不可能被正确处理。因此仅仅由于分词阶段的准确度不够,语言理解的准确率就会减少 2 0 。可见,分词系统的准确率应达到9 9 9 以上才能基本满足上层使用的要求。 2 4 2 运行效率 分词是各种汉语处理应用系统中共同的、基础性的工作,这步工作消耗的时间应尽 量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉,在普遍使用 的平台上大约每秒钟处理1 万字或5 千词以上为宜。 2 4 3 通用性 随着i n t e r n e t 的普遍应用,中文平台的处理能力不能仅限于中国,仅限于字处理, 仅限于日常应用领域。作为各种高层次中文处理的共同基础,自动分词系统必须具有很 好的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论