




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于条件随机场的汉语词义消歧方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
沈阳航空工业学院硕士学位论文 摘要 词语消歧一直以来都是自然语言处理领域中的一个热点和难点,对于机器翻译、信 息检索、句法分析、文本分类等领域的研究都具有十分重要的理论和实践意义。 本文调研了国内外词义消歧研究的历史和现状,分析了目前词义消歧的算法和采用 的相关技术。现阶段,无指导词义消歧方法虽然可以节省大量人工标注的工作,但是其 标注正确率相对较低,难以满足实际应用的需求。有指导的词义消歧仍然是当前实际应 用中的主流方法。 本文提出并构建了一个基于知网的汉语语义实例库( c s i c ) 来解决有指导词义消歧 任务中的知识源问题。目前该实例库正在建设中,已经完成了实例库的总体结构设计、 标注规范制定、标注平台开发、标注语料整理和评测模块开发等主要工作,为后面开展 大规模词义标注工作提供了较好的基础。 为了快速建立大规模、高质量的汉语语义实例库,本文开发了一个标注平台来提高 人工标注的效率,自动维护标注的一致性,检查标注中出现的错误。同时,标注平台还 能够方便的进行不同消歧方法的实验,并提供算法评价模块。 条件随机场是近年来提出的一种条件概率模型,主要用于序列标注和分割,是一个 基于统计的机器学习方法。目前在自然语言处理领域,条件随机场模型多用于词语切分、 词性标记和浅层语义分析等领域。本文尝试在词义消歧过程中引入条件随机场模型来从 c s i c 中学习消歧知识。实验结果表明,条件随机场模型取得了较高的词义标注正确率。 关键字:词义消歧;汉语词义实例库;知网;条件随机场 沈阳航空工业学院硕士学位论文 a b s t r a c t w o r ds e n s ed i s a m b i g u a t i o n ( w s d ) i sa l w a y sr e g a r d e da saf o c u sa n dd i f f i c u l tp r o b l e m i nn a t u r a ll a n g u a g ep r o c e s s i n g ,w h i c hh a st h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c ei nt h ef i e l d so f m a c h i n et r a n s l a t i o n , i n f o r m a t i o nr e t r i e v a l ,s y n t a xp a r s e ,d o c u m e n tc l a s s i f i c a t i o n , e t e i nt h i st h e s i s ,t h er e s e a r c hb a c k g r o u n do fw o r ds e n s ed i s a m b i g u a t i o ni nd o m e s t i ca n d a b r o a di s i n v e s t i g a t e d ,a n dc u r r e n tw o r ds e n s ed i s a m b i g u u t i o na l g o r i t h ma n d r e l a t i v e t e c h n o l o g yi sa n a l y z e d o l lt h es t a g e u n s u p e r v i s e dw s dm e t h o d sc a l ls a v em u c ht a g g i n gw o r kb yh a n d ,b u tt h e r e l a t i v e l yl o wa c c u r a c yi si n s u f f i c i e n tf o rt h ep r a c t i c a ln e e d s s u p e r v i s e dw s d m e t h o d sa r e s t i l lt h em a i nm e t h o d si np r a c t i c a la p p l i c a t i o n s t h i st h e s i sp r o p o s e da n dc o n s t r u c t e dah o w n e tb a s e dc h i n e s es e n s ei n s t a n c ec o r p u s ( c s i c ) t os e r v ea sak n o w l e d g e $ o u r c ei nw s dt a s k n o w , t h eb u i l d i n go ft h ec s i c i si n p r o g r e s s s o m ei m p o r t a n tw o r kh a sa l r e a d yb e e nd o n e ,s u c ha st h ed e s i g n a t i o n o f m a i nf r a m e , t h ee s t a b l i s h m e n to ft a gs p e c i f i c a t i o n , t h ed e v e l o p m e n to ft a gp l a t f o r m ,t h er e g u l a r i z a t i o no f c o r p u sa n dt h ed e v e l o p m e n to f e v a t u a t em o d u l e a l lo f t h e s ew o r k sl a yag o o df o u n d a t i o nf o r t h ef u r t h e rw o r ds e n , t a g g i n gw o r ki nl a r g es c a l e at a gp l a t f o r mw a gd e v e l o p e dt oi n c r e a s et h es p e e da n dq u a l i t yi nc o n s t r u c t i o no ft h e c s i c b yu s i n gt h i sp l a t f o r m t h eh a n dt a g g i n ge f f i c i e n c yc a nb ei m p r o v e d i tc a na l s o m a i n t a i nt h ec o n s i s t e n c ya n dc h e c ke l t o r $ i nt h ec o r p u s a tt h es a m et i m e ,w ec a n c o n v e n i e n t l yc o n d u c ts o m ed i f f e r e n tw s de x p e r i m e n t so nt h i sp l a t f o r m ,a n di tp r o v i d e sa n e v a l u a t i n gm o d u l e c o n d i t i o n a lr a n d o mf i e l d s ( c r f s ) ,ar e c e n t l yi n t r o d u c e dc o n d i t i o n e dp r o b a b i l i s t i cm o d e l f o rl a b e l i n ga n ds e g m e n t i n gs e q u e n t i a ld a t a , i sas t a t i s t i c s - b a s e dm a c h i n el e a r n i n gm o d e l n o w , i nn a t u r a ll a n g u a g ep r o c e s s i n gd o m a i n , c r f sm o d e lu s u a l l yb eu s e di nw o r ds e g m e n t ,p o s t a g g i n ga n ds h a l l o ws e m a n t i cp a r s i n g t h i st h e s i st r i e st oi n t r o d u c ec r f s t ow s dt a s k a c r f sb a s e de x p e r i m e n t sw a sd e s i g n e dt ol e a r nw s dk n o w l e d g ef r o mt h ec s i ca u t o m a t i c a l l y - i l 沈阳航空工业学院硕士学位论文 t h ee x p e r i m e n tr e s u l ts h o w st h a tc r f sm a k e sg o o dp e r f o r m a n c ei no p e nt e s t i n g e n v i r o n m e n t k e y w o r d :w o r ds e n s ed i s a m b i g u a t i o n ;w s d ;c h i n e s es e n s ei n s t a n c ec o r p m ;c s i c ; h o w n e t ;c o n d i t i o n a lr a n d o mf i e l d s i - 原创性声明 本人郑重声明:所呈交的学位论文是本人在导师的指导下独 立完成的。除文中已经注明引用的内容外,本论文不包含其他个 人或集体已经发表或撰写过的作品或成果,也不包含本人为获得 其他学位而使用过的成果。对本文研究做出重要贡献的个人或集 体均已在论文中进行了说明并表示谢意。本声明的法律后果由本 人承担。 论文作者签名:荡李雪 跏7 年月9 日 版权授权说明 本人授权学校“有权保留送交学位论文的原件,允许学 位论文被查阅和借阅,学校可以公布学位论文的全部或部分 内容,可以影印、缩印或其他复制手段保存学位论文”;愿意 将本人学位论文电子版提交给研究生部指定授权单位收录和 使用。学校必须严格按照授权对论文进行处理,不得超越授 权对毕业论文进行任意处置。 授权人:肖秀宫 旬年f 只,1 日 沈阳航空工业学院硕士学位论文 第1 章绪论 1 1 词义消歧 语言是音义结合的符号系统,而词是语言中能够独立运用的最小符号。因此研究语 言符号的意义都以词作为基本单位【i 】。词义是指一个词所具有的意义,词义消歧( w o r d s e n s ed i s a m b i g u a t i o n ) 就是在某个特定的上下文( c o n t e x t ) 中,确定某个多义词在该上 下文中特定义项的过程1 2 】。 文本的词义标注( w o r ds e n s et a g g i n g ) 就是给文本中每个词标上在所属上下文环境 中对应的意义编码,实际上,词义标注方法的研究实际上就是词义排歧方法的研究。这 个意义编码可以有以下四种形式: 1 是某个义类词典中的词条所对应的义类代码( 如同义词词林中的义类代码) ; 2 是普通词典中一个词条下释义文本对应的编号( 如现代汉语通用词典中对词 条的义项编号1 ; 3 是在转换词典中一个词条所对应的目标词,即一种语言中的词对另一种语言的 翻译词; 4 在概念词典中概念的定义项( 如h o w - n e t 中概念的定义) 。 1 2 课题的提出及研究意义 词义消歧一直是自然语言处理领域的难题之。它的研究从上世纪5 0 年代初期开 始机器翻译研究以后,就一直受到人们的关注。词义消歧任务本身是一个中间任务,是 大多数自然语言处理任务的一个重要的中间层次,在自然语言处理中有广泛的用途。 1 机器翻译:不论机器翻译系统采用什么样的技术,其最终目的是与人工翻译一致, 即意义一致( m e a n i n ge q u i v a l e n c e ) 下的词汇和结构转引3 1 。有研究表明,在英汉对齐 语料库中,大约每个英文词汇对应2 3 3 个中文词语 6 1 ,因此词义消歧问题的解决的好 坏直接影响译文的质量。 2 信息检索和信息分类:在信息检索中,由于一词多义的影响,会使系统检索出所 有包含词形相同但意义不同的词语的文本。而用户在使用检索系统的时候,只希望得到 包含其中某个词义的文本,忽略其他词义的文本。例如用户在检索银行利率相关信息的 沈阳航空工业学院硕士学位论文 时候使用关键词“b a n ki n t e r e s t ”,返回结果应只包含和银行利率相关的信息,而不应该 返回包含“河岸”、“兴趣”这两个词义上的文本。因此词义消歧在信息检索和信息分类 中有重要的作用。 3 句法分析:在识别句子的语法结构时,词汇的语义也起着重要的作用。例如,短 语:a “修理自行车的后胎”和b “修理自行车的师傅”它们都对应着线性序列模式: “v n 的n ”,这个序列在句法结构上至少有两种组合的可能,即“ 【n 的】n 】”和 “【vn 】的】n 】”,要判断其结构到底属于哪一种模式,只用语法信息是不够的,还需 要有关“修理”,“自行车”,“后胎”,“师傅”等词语的语义甚至搭配知识。 4 自然语言理解:确定句子的语义结构时,必须考虑句子中每个词的词义。在已知 句子中每个词的词义前提下,通过语义分析能够得到句子的语义结构,如句子的格结构。 综上所述,作为自然语言处理过程中一个重要过程,词义消歧的研究具有重要理论 和实践意义。它的研究成果可以直接应用于自然语言处理的许多方面。 1 3 本文的工作 1 本文提出并构建了一个汉语语义实例库( c h i n e s es e n s ei n s t a n c ec o r p u s :c s l c ) 来解 决词义消歧任务中的知识源问题。目前c s i c 正在建设中,已经完成了实例库的总体结 构设计、标注规范制定、标注平台开发、标注语料整理和评测模块开发等主要工作,为 后面开展大规模词义标注工作提供了较好的基础。 2 为了快速建立大规模、高质量的标注实例库,本文建立了一个标注平台来提高人 工标注的效率,自动维护标注的一致性,检查标注中出现的错误。同时,标注平台还能 够方便的进行不同消歧方法的实验,并提供算法评价模块。通过使用该标注平台,可以 使得标注人员的标注速度、标注正确率和标注一致性得到显著的提高。 3 引入条件随机场模型( c o n d i t i o n a lr a n d o mf i e l d s :c r f s ) 从实例库自动学习消歧知 识。在实验中,本文设计了多个不同的特征模板,尝试不同的特征组合,来寻找在对词 义消歧最有效的特征和特征组合。另外,本文还单独检验了词性特征对于词义消歧任务 的贡献程度。实验结果表明,c r f s 模型取得了较高的词义标注正确率,相信随着实例 库规模和质量的继续提高,应当可以取得更好的成绩。 沈阳航空工业学院硕士学位论文 1 4 论文的组织 论文主要包括六章内容: 第1 章介绍课题的提出背景、研究的意义以及本文的主要工作。 第2 章对词义消歧方法的研究进行了概述。主要介绍了词义消歧的知识来源、消 歧知识的学习方法、对消歧结果的评测方法以及词义消歧领域的研究现状。 第3 章介绍了汉语多义词的特点以及知网知识系统。了解多义词的分类特点和分 布特点,有益于更好的解决问题。在知网的介绍中,阐述了如何以知网作为本文的语 义分类体系。 第4 章从汉语语义实例库的角度,论证了实例库的设计思想,主要包括组织框架、 语料和实例的选择以及实例文件的组织方式等几个方面。同时,本章还介绍了国内外实 例库的研究现状,并提出了本文所研究的实例库的意义和作用。 第5 章为提高实例库的建设速度,并保证实例库的质量和一致性,需要开发一个 标注平台来进行辅助标注工作。本章主要介绍了语义标注平台的结构和功能。 第6 章介绍了基于条件随机场的汉语词义消歧方法。首先介绍了条件随机场模型 的原理,然后介绍了特征模板的构造以及特征的选择。最后进行了三个试验,分别是条 件随机场模型在不同特征模板下的消歧结果、与最大熵模型的比较以及词性特征对于消 歧结果的影响。 最后是结论,概述了论文工作的主要内容和意义,并提出了进一步研究的设想。 沈阳航空工业学院硕士学位论文 第2 章词义消歧方法概述 词义消歧方法的研究从上世纪5 0 年代提出到现在,经历了基于理性主义方法到经验 主义方法的发展变化过程。近十几年来,随着语料库语言学的兴起,在词义消歧问题研 究中涌现出许多基于统计的词义消歧方法。 2 1 基于知识源的词义消歧方法 根据词义消歧所利用的知识源。词义消歧方法可分为:基于人工智能的方法、基于 知识的方法和基于语料库的方法啪。 基于人工智能的方法开始流行于六十年代初,当时词义消歧的主要目的是为了解决 自然语言理解问题。为给自然语言理解理论打基础,人们试图将有关语法和语义的详细 知识应用于词义消歧研究系统。由于手工获取知识的困难,而且人工书写的知识往往是 有限的且具有局限性的,因此基于人工智能方法的词义消歧系统只能用于一些非常受限 的领域,而对真实文本则完全不实用,此时的基于人工智能的消歧方法只具理论意义。 常用的人工智能方法有符号主义方法( s y m b o l i cm e t h o d s ) 和连接主义方法 ( c o n n e c t i o n i s tm e t h o d s ) 。 进入八十年代,由于可以利用的大规模词汇资源如机器可读词典( m a c h i n e r e a d a b l ed i c t i o n a r y ,m r d ) 的出现,词义消歧研究方法逐渐由基于语言学理论的方法 转向基于经验知识的方法。除机器可读词典外,常用的词义消歧知识还包括语义词典 ( t h e s a u r u s ,如汉语的同义词词林) 、可计算词典( c o m p u t a t i o n a ll e x i c o n ,如英 语的w o r d n e t , 汉语的h o w n e t ) 。由于这些知识库主要由专家构造,因此知识库的完备 性、一致性和可扩充性以及对开放领域的适应性是基于知识方法的主要障碍。目前基于 知识的方法一般可获得5 0 7 0 的消歧正确率。1 。 近年来,随着近来语料库语言学的兴起,基于语料库的词义消歧技术越来越引起关 注,已逐步成为占主导地位的方法。基于语料库的词义消歧方法以语料库作为知识源, 并从中自动或半自动学习词语具有不同词义时的上下文特征。目前,基于语料库的歧义 消歧方法的消歧正确率在7 0 - 9 0 。 沈阳航空工业学院硕士学位论文 2 2 词义消歧知识的学习方法 词义消歧知识的学习方法分为有指导( s u p e r v i s e d ) 的和无指导( u n s u p e r v i s e d ) 的 词义消歧知识学习方法,下面分别对这两种方法进行介绍。 2 2 1 有指导词义消歧方法 有指导的词义消歧方法采用了一个标注语义后的语料作为训练集。在训练集合中每 一个歧义词w 都给定了一个确定语义标号墨,如果把训练语料作为统计分类的实例, 这样词义消歧问题就成为要构造一个分类器,通过上下文信息对于新出现的实例进行分 类的问题嘲。 典型的有指导学习方法有:决策树学习方法啪1 ,决策表学习方法,概率学习方法 , 基于贝叶斯判别的方法。1 ,基于最大熵方法蜘等。 有指导的词义消歧知识的学习方法,通过带词义标记的语料库能够学至多义词各个 词义下的较准确的上下文知识,用这些知识消歧可以获得较高的消歧正确率。 2 2 2 无指导词语消歧方法 手工标注语料需要大量的人工劳动,并且由于标注语料规模的限制,存在数据稀疏 问题。因此,现在涌现出许多无指导的词义消歧知识的学习方法,但目前使用这种方法 消歧时准确率不是很高。 无指导的词义消歧方法的基本思想是通过一个训练语料,利用e m 迭代算法对歧义 词的上下文进行聚类,利用聚类的结果对歧义词进行词义消歧。对于歧义词w 假定它有 k 个语义, 墨一墨。& ,估计条件概率p qj & ) ,其中0 是词w 的上下文。 1 初始情况下,为每个p ( v ,l & ) 给定一个随机值: 2 利用p ( v j i & ) 计算词w 的每一个上下文qp ( c j i & ) : 3 利用已有的概率知识,对语料进行重新标注,再把重新标出的语料作为训练语 料重新估计p ( v ,i 以) : 4 当极大似然估计值不再变化,或变化不大则迭代结束,否则到第二步继续迭代。 在模型中,把词w 的上下文聚成多少个类是一个值得考虑的问题,因为类别越多对 沈阳航空工业学院硕士学位论文 于语料的刻画就越细,在极限的情况下,w 的每一个上下文都作为单独的一类,但这样 做是没有什么意义的,可以让类别数在某个范围内变化,寻找一个比较好的类别划分标 准,使得这种聚类标准能够很好的对语料库进行刻划,同时又不至于区分的太细。 典型的无指导学习方法有:自举的无指导学习方法。”、基于词典的无指导学习方法 、基于双语语料库的学习方法啪1 和自动聚类的无指导学习方法。 一般的,采用这种方法进行词义消歧会比采用基于词典的消歧方法在效果上低5 到 1 0 ,但采用这种方法基本上不需要人工的劳动,是一种完全自动化的方法,因此这方 面的研究很有价值矧。 2 3 义消歧方法的评测 一般情况下,虽然给定了各种消歧方法,但仍然很难对这些方法进行比较。原因在 于测试条件有很大差异,测试的文本类型不同和测试词的歧义程度也不同。同时也应看 到,不论何种消歧算法,判断正确的标准是由人决定的,由人事先对多义词消歧之后, 将这样的结果作为评价消歧正确率的标准,但不同的人在手工标注语义时仍有较大的不 一致性“1 。 目前,词义消歧结果的评测日益受到关注。应该说,衡量词义消歧的效果应有统一 的评测标准。但目前来看,还没有实现。因为词义消歧并不是一个任务,而是一个中间 结果,需要将其应用于机器翻译或文本检索等领域中才能真正发挥其作用。因此,可以 将词义消歧的评测大致分为在具体应用中的评测和就消歧结果本身的评测。 对消歧结果本身的评测,该方法目前被大多数词义消歧方法所采用。方法的关键是选择 不同的测试点来评测消歧结果,将系统给出的消歧结果与标准答案比较,得到正确率和 召回率。计算语言学会( a c l ) ,专门设立一个项目s e n s e v a l ,研究词义消歧的评测问题。 s e n s e v a l 是由a c l - s i g l e x 组织的国际权威的词义消歧评测。旨在对不同语言,不同词汇 的词义消歧系统进行评测。已分别在1 9 9 8 年夏,2 0 0 1 年夏和2 0 0 4 年3 月至4 月进行了三次 评测( s e n s e v a l l 、s e n s e v a l - 2 、s e n s e v a l - 3 ) ,2 0 0 7 年1 月至3 月进行s e n s e v a l 一4 的评测。 对应用结果的评测,根据将消歧结果置于具体应用当中,来考察其对应用系统性能 上的改进。这些具体的应用包括机器翻译,信息检索、语音处理等,这一方法的优点是 不必考虑消歧时,标注是否达成一致,而只取决于应用任务本身。但到目前为止,还无 沈阳航空工业学院硕士学位论文 法得知消歧对具体应用的进展。 2 4 语词义消歧的现状 汉语词义消歧研究从2 0 世纪9 0 年代以后才开始,虽然研究的时间很短,但是由于 词义消歧任务在自然语言理解中的重要性,参与研究的单位很多,采用的方法也各不相 同。下面列举出作者所了解到的部分相关工作和文献,以显示汉语词义消歧方面的现状。 清华大学计算机系黄昌宁、童翔( 1 9 9 3 ) 开发了一个基于实例的词义自动标注系统。 该系统利用现代汉语通用字典提供的合成词信息,以及同义词词林中的语义分 类代码,对汉语真实文本进行自动语义标注。但是该系统标注对象只是字义( 语素义) 。 而不是词义【2 7 1 。 上海复旦大学曾使用同义词词林的中类语义编码人工标注5 万词的语料,然后 用一个二元模型进行训练和测试,进行文本标注研究,正确率在8 5 左右。 清华大学计算机系李涓子( 1 9 9 9 ) 综合利用同义词词林的义类代码、现代汉语 辞海中多义词的搭配实例、以及从大规模人民日报语料库中获取的词语动态搭 配知识,对文本中的每个词进行词义标注,平均正确率达到8 4 7 7 ,多义词消歧的正确 率为5 2 1 3 。 文献5 提出了一种基于向量空间模型的词义消歧有导机器学习方法。该方法将多义 词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距 离,采用k - n s ( k = 1 ) 方法来确定上下文向量的义项分类。在9 个汉语高频多义词的开放 和封闭测试中均取得了封闭测试平均正确率为9 6 3 1 ,开放测试平均正确率为9 2 8 。 文献8 采用基于依存分析改进贝叶斯分类模型的有指导词义消歧方法,对大规模真 实文本进行了词义消歧研究。实验的开放测试正确率达到9 1 8 9 ,封闭实验正确率达 9 9 4 。 文献9 提出了基于最大熵模型的词义消歧。采用知网作为词义分类体系,并用知网 概念中的首义原作为语义标签。最大熵模型在进行语义标注任务时采用和词性标注类似 的方法,取得了平均8 9 3 9 的正确率。 文献1 0 提出了一种基于等价伪词的新方法来处理汉语中的词义消歧任务。该文中 通过贝叶斯分类模型测试了该方法在s e n s e v a l 3 评测语料上效果,取得了f 值为o 8 的 沈阳航空工业学院硕士学位论文 较好成绩,说明等价伪词的方法对于无指导词义消歧的重要意义。 文献1 1 提出了通过机器学习初始搭配实例获取最优种子,再由最优种子扩增更多 指示词,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对8 个多义 词进行消歧的测试实验中取得了8 7 7 的平均正确率。 2 5 本章小结 本章对汉语词义消歧的方法进行了概述。首先简要介绍了汉语词义消歧的发展历史,然 后分别介绍了词义消歧方法中的不同知识来源以及机器学习方法,并给出了评测方法, 最后介绍了现有汉语词义消歧的研究现状。 沈阳航空工业学院硕士学位论文 第3 章汉语歧义词特点分析和知网简介 不同类型的歧义词处理的难度和策略都不同。在真实语料中,歧义词的分布也有一 定的特点,研究这些分布特点,无疑有益于更好的解决问题。 知网本身是一个常识知识库,但知网的概念体系非常适合作为语义分类体系。本文 提出的汉语语义实例库就是以知网作为语义分类体系。这种做法在文献8 和文献1 2 中 都有论述。 3 1 汉语歧义词的特点分析 自然语言中存在大量的一词多义现象。在英文词典中,多义词约占英文词语集合的 1 1 5 ;在英文语料中,多义词出现的频率约占语料总词次的3 0 4 3 ;在汉语词典中, 多义词约占汉语词语集合的1 4 8 :在汉语语料中,多义词出现频率约占语料总词次雕 4 2 左右“1 。由此可见,多义词尽管数量不多,但出现频率高,分布非常广泛。 3 1 1 多义词的分类 汉语中词的多义现象可以分为三种类型口1 : 1 意义相关的多义,指一个词的多个意义彼此在意义上有一定的联系或者近似。例 如“地方”的两个意义“ s p a c e l 空间) ”与“ p l a c e l 地方) ”; 2 意义无关的多义,指一个词的多个意义彼此在意义上没有相关性,例如“少”的 两个意义“ c h i l d l 少儿) ”和“ f e w l 少 ”; 3 词性不同的多义,指一个词在不同的词性下的意义不同。如“打”的两个意义 “ b e a t l 打) ”和“ n o u n u n i t l 名量:h o s t = i n a n i m a t e i 无生物 ”,前者为动词,后者为量词。 在上面的三种多义现象中,类型3 实际上就是词性兼类,目前在词性标注正确率很 高的情况下,这个问题能够很好的解决。类型2 的情况,由于词义区分明显,歧义词出 现的上下文环境不同,通过使用统计的方法或者搭配信息,应不难解决。类型i 的区分 最为困难,有时人也难以确定。 3 1 2 汉语歧义词的分布特点 在汉语词汇中,绝大多数为单义词,约占汉语词集合的8 5 ,而多义词仅占1 5 左 沈阳航空工业学院硕士学位论文 右。虽然多义词尽管数量不多,但出现频率却极高。在汉语语料中, 占语料总词次的4 2 左右。 1 频率越高的词语,普遍具有更多的义项。例如在2 0 0 6 版知网中, 义,“打”具有3 2 个词义,“上”具有2 4 个词义; 多义词出现频率约 “发”具有2 0 个词 2 各种类型的多义词在词典和语料中的分布不一致。类型2 在词典中分布突出,在语 料库中,类型1 的使用频度较高;类型3 在词典和语料库中都较少; 3 在语料库中,多义词随词性分布并不一致。多义词在语料库中以动词、名词、和助 词出现的频率较高。用作实词的多义词多为类型2 ,而虚词多为类型1 。 4 词义分类粒度对词义歧义分布影响较大。词义分类粒度越小,多义词的平均义项数 就越多,类型1 的多义词比例相应增加,因此歧义现象更加明显 3 2 知网简介 知网( h o w n e t ) 是董振东先生花费逾十年研究心血的重要成果。知网是一个以 汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的 属性之间的关系为基本内容的常识知识库【3 9 1 ,它是一个网状的有机的知识系统。 3 2 1 知网的哲学 要掌握和利用好知网系统,必须首先了解知网系统的哲学思想。知网系统的哲学也 就是它对客观世界的认识与把握。知网哲学的根本点是:世界上一切事物( 物质的和精 神的) 都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一 种状态,并通常由其属性值的改变来体现。 3 2 2 知网的特色 计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来 可能是计算机的智能构件。知网作为一个知识系统,名副其实是一个网而不是树。它所 着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共 性。知网在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医 治”的施事,而“患者”的个性是他是“患病”的经验者。对于“富翁”和“穷人”,“美 女”和“i t ) k 怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、 沈阳航空工业学院硕士学位论文 “丑”等不同的属性值,则是它们的个性。 同时知网还着力要反映概念之间和概念的属性之间的各种关系。知网把下面的一种 知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。总的来说,知 网描述了下列各种关系:上下位关系,同义关系、反义关系、对义关系、部件一整体关 系、材料一成品关系、属性一宿主关系、施事一事件关系、受事一事件关系、工具一事 件关系、场所一事件关系、值一属性关系、事件一角色关系、时间一事件关系、相关关 系。 3 2 3 基于知网的语义类别划分 知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述形成一 个记录。每一种语言的每一个记录都主要包含4 项内容。其中每一项都由两部分组成, 中间以“= ”分隔。每一个“= ”的左侧是数据的域名,右侧是数据的值。它们排列如下: n o = 当前义项编号 w - c = 汉语词语 g - c = 汉语词性 拼音 e _ - c = 汉语词语例子 w _ e = 英语词语 g _ e = 英语词语词性 e _ e = 英语词语例子 d e f = 概念定义 以“打”字为例,它的某个义项的标注如下所示: n o = 0 1 7 1 7 9 w _ c - - 打 g _ c = y d a 3 e - c = 破,碎,了一个碗, “了个杯子,谁了玻璃,得粉碎 w _ e = b r e a k g e = v e _ e = ap i e c eo fc h i n ab r e a k se a s i l y ,d o n th i e a kt h ec u p 沈阳航空工业学院硕士学位论文 d e f = d a m a g e1 损害) 知网中对于词语概念的描述非常细致。一个多义词的每个义项都对应着一个不同的 d e f 。但是每个d e f 可能对应着几个词形不同,但意义相同的词语。为了标注的方便, 本文在标注之前,对这些不同的d e f 分别设定一个概念号,记为“d e f n o ”。这样同一 个词的不同义项就对应着不同的d e f n o ,而不同的词,可以有相同的d e f n o 。在2 0 0 6 版知网中,共有2 5 5 5 3 个不同的d e f n o 。本文用这些d e f n o 来进行标注。这样的做法和 文献8 中的做法类似。 例如:多义词“研究”的不同d e f n o 号如下: 表3 1 多义词研究的不同d e f n o 号 n o = 1 2 9 8 0 3n o = 1 2 9 8 0 0 w - c = 研究u :研究 gc = v y a n 2j i u l gc :v y a h 2j i u l e - c = 学术,开展,调查,从事,基金, e - c :今天开会要两个问题,希望你们抓紧 经费不足,太空。生物,海洋生物尽快拿出一个统一意见来,到会上吧 w _ e = r e s e a r c h w _ e = d e l i b e r a t e g e = ng _ e = v e - e e - e - d e f = r e s e a r c hl 研究)d e f = d i s c u s si 商讨 o e f n o = 8 4 5 d e f n o = 2 1 2 3 8 3 3 本章小结 本章首先分析了汉语歧义词的分类和分布特点。了解这些特点,对更好的解决词义 消歧任务有指导性的作用。本章还介绍了本文采用的语义分类体系一知网,着重介绍了 知网的哲学思想,知网的特色以及如何利用知网来进行语义类别的划分。 沈阳航空工业学院硕士学位论文 第4 章基于知网的汉语语义实例库的建设与研究 为解决有指导词义消歧方法中的知识源问题,本章提出并构建了一个汉语语义实例 库( c h i n e s es e n s e i n s t a n c e c o r p u s :c s i c ) 。目前c s i c 正在建设中,已经完成了库的总 体结构设计、库的标注规范制定、标注平台开发、标注语料整理和评测模块开发等主要 工作,为后面开展大规模词义标注工作提供了良好的基础。 4 1c s i c 的基本设计思想 词语的语义主要由上下文来决定,而且很大程度上由其局部上下文决定。因此利用 好上下文所提供的有效信息对词义消歧有很多的帮助。 在遇到新问题时,人们往往使用以前碰到过的类似问题的解决办法,而实例也被认 为是直接和有效的。在人工智能的许多应用中使用的基于类比的方法,称为基于实例的 方法。n g 啪瑚1 提出了利用多种知识源的基于实例的学习方法,多种知识的获取是从已标 注过词义的语料中自动得到的。在学习阶段,对每个含多义词w 的句子,首先找出在w 周围的各类信息,如词性和词的形态特征、多义词周围的关键词、局部搭配特征以及动 宾句法关系特征等;在消歧阶段,对给定的新句子,找出其特征集,将它们与学习到的 每个样本集比较,与样本集中最匹配的样本对应的词义为新句子中多义词所对应的词 义。 4 1 1 实例库的框架 实例库的框架有2 个层次。简单的说,实例库由实例文件构成,而实例文件由某个 多义词的全部实例构成。 实例库由实例文件组成。在2 0 0 6 版知网中共有8 8 4 4 个多义词,那么在实例库中就 有8 8 4 4 个实例文件。在实例库中,每个歧义词w i 唯一对应一个实例文件f i ,在f 中存 储w 的所有实例。实例文件中的实例按照语义标号分别集中存放,并以) 【m l 的格式存 储,便于存取和共享。具体的实例文件的存储格式参照4 1 4 和附录1 。 在实例库中。实例文件并不直接以多义词本身作为文件名,主要是因为有些实验工 具不支持中文编码格式的文件名。因此,本文在实例库中以数字序号为文件名,并设置 沈阳航空工业学院硕士学位论文 了一张实例文件名和多义词对照表来方便用户查询。 信息对于词义选择有重要的参考作用。在第7 5 节的实验中验证了词性对词语消歧 的重要作用。因此,c s i c 的实例库中所有的实例均带有词性标记。 4 1 2 实例库的语义分类体系 在汉语语义资源建设中一般采用同义词词林“”( 以下简称词林) 作为语义分类 体系,但是同义词词林编篡的本义并非是用于自然语言处理,它的体系结构与语义 的分类并不十分适用于词义消歧,主要在三方面存在问题会在词义消歧中产生很大误 差: 1 分类的颗粒度仍然偏大,这使得义类向量的确定不够准确: 2 由6 万多词构成的词林面i 临严重的词量不足问题: 3 词林是在层次树的语义框架体系上建立起来的,可以体现很好的上下位关 系,但不能体现词语间的语义相关性,特别是领域相关性。 在北京大学进行的语义标注语料库的建设中,采用现代汉语通用词典, 现代汉语语法信息词典作为语义分类体系,但是这两部词典中用自然语言句子来描 述词语的语义,这种方式对人而言,比较直观和容易理解。但是对于计算机而言则难以处 理,计算不同词语之间的语义关系比较困难。 相比之下,知网从提出开始就面向自然语言处理,计算机化是知网的重要特 色。知网通过知网知识系统描述语言( k n o w l e d g ed a t a b a s em a r k u pl a n g u a g e :k d m l ) 来描述词语的概念。知网中对于概念的描述着力体现了概念与概念、概念的属性与属性 之间的相互关系,便于对意义的计算,并且具有直观、可读性好的特点。 在规模上,知网也较其它语义资源具有优势,表4 1 是知网和词林在规模上的 对比。 另外,知网中还提供歧义词每个义项上的对应的英文词,例句等信息。在基于双语 语料库和基于实例的词义消歧中,英文词语和例句对词义选择有很好的辅助作用。知网 中还提供了计算不同词语之间的下位关系,同义关系、部件一整体关系和施事一受事关 系等各种关系,并详细描述了9 0 多种语义动态角色。利用好这些信息对于词义消歧有 很好的辅助作用。 沈阳航空工业学院硕士学位论文 因此,综合考虑多方面因素,本文在c s i c 中采用知网的d e f 作为语义分类体系。 表4 1 知网和同义词词林) 在规模上的对比 知网同义词词林 中文词语数 8 1 0 6 2 大类数 1 2 英文词语数7 6 5 2 6 中类数9 4 中文义项数 9 5 6 9 0 小类数 1 4 2 8 英文义项数 9 5 9 3 5 词条数 7 3 4 6 3 概念总数 2 4 0 s 9 多义词数 8 8 9 2 记录总数 1 5 6 4 4 2 义原数 2 0 9 9 语义角色数 9 0 4 1 3 实例的选择原则 1 语料的选择 语料的选择对于实例库有着非常重要的作用。在质量较好的语料库基础上建设起来 的实例库,能够降低由于词性标注、词语切分等因素造成的消歧正确率下降的可能性。 另外,语料平衡性也会影响实例库的通用性。经过仔细的选择对比,本文选用了山西大 学分词标注语料库,作为c s i c 库的主要实例来源。该库包含5 0 0 万汉字的国内正在流 通的汉语文本,经过自动分词、词性标注和人工校对后,在词性标注、词语切分方面具 有较高的正确率,语料的平衡性方面也较好。 2 实例的选择 歧义词语的每个义项在语料库中分布是不均匀的。例如歧义词“的”,在语料库中 大部分情况下作为结构助词来使用,作为“目标”这个义项来使用的情况很少。对于这 种现象,如果不加以调整,会导致义项实例数量的分布不均匀,直接影响到自动消岐的 效果。为了避免这种情况,对于语料库中某个义项实例较少的词语,本文要从其他语料 库中选择和追加新的实例。对于义项实例过多的词语,要限制在这个义项上的实例数量 沈阳航空工业学院硕士学位论文 4 1 4 实例文件的组织方式 在目前的大规模真实文本的标注中,经常对句子中的所有多义词都进行标注。下面 是一段基于同义词词林的标注实例: 美国n s d i 0 2 华侨n a d 0 1 吴j n h d d l 5 京红n h 1 女士n a b 0 1 ,w p - 1 听v f c 0 5 了u k d 0 5 一m d n 0 4 场q d n 0 9 “w p - 1 幸福a - i 工程m l ”w p - i 音乐会 n i - i h 0 1 ,w p - 1 当瞬a , n f f c a 2 9 打v h j l 23 耙v - 1 电话n b a 0 5 ,w p 1 捐助v h i 3 6 1 0 万m - 1 元q d j 0 5 。w p - i 上面例子中的”美国n s d i 0 2 ”,其中 璐,为词性标记,”d i 0 2 ”是同义词词林中的义项 分类号。例句中其余词语结构和”美国n s d i 0 2 ”相同。 在上面这个例子中,有“了”、“一”、“打”和“场”这几个歧义词,那么在标注的 时候,标注人员必须先对当前标注词语每个义项都明确区分后,然后才能正确的标注。 在大部分的情况下,标注人员需要不停的熟悉碰到的歧义词的不同义项。这无疑使标注 人员的效率大大降低,也容易出错,而且对于同一个歧义词,标注人员也不容易掌握歧 义的现象和规律。 由于实例库不可能由一个人独立完成,需要多人参与共同建设。在标注的时候,虽 然有标注规范的约束,但是对于同一个歧义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 售后服务响应及问题处理流程模板
- 2025年无人机驾驶员职业技能考核试题解析与答案
- 校园消防安全培训通讯稿
- 7.3 离散型随机变量的数字特征 教学设计-2024-2025学年高二下学期数学人教A版(2019)选择性必修第三册
- 校园的安全教育记录
- 校园安全教育内容1
- 铅锌矿洗选建设项目施工方案
- 解码2025年美妆消费:女性用户需求与产品研发趋势研究指南
- 解析微软2025年云计算战略布局下的云计算与物联网应用挑战报告
- 生活垃圾焚烧厂运营成本控制方案
- 中城汽车(山东)有限公司审计报告
- 董事会基础知识培训总结课件
- 2025版煤矿安全规程宣贯培训课件
- (教科2024版)科学三年级上册2.1 水到哪里去了 课件(新教材)
- (2025秋新版)青岛版科学三年级上册全册教案
- 上锁挂牌管理培训课件
- 节能减排培训课件
- 葡萄冷藏保鲜技术规程
- 顾客联络服务 人工与智能客户服务协同要求 编制说明
- 以人为本的医院护理服务体系构建
- 与政府签订项目合同范本
评论
0/150
提交评论