(计算机应用技术专业论文)汉语词义消歧研究.pdf_第1页
(计算机应用技术专业论文)汉语词义消歧研究.pdf_第2页
(计算机应用技术专业论文)汉语词义消歧研究.pdf_第3页
(计算机应用技术专业论文)汉语词义消歧研究.pdf_第4页
(计算机应用技术专业论文)汉语词义消歧研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)汉语词义消歧研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y , j g w 工大学硕士学位论文 摘要 词义消歧是自然语言处理的核心问题,词义消歧结果的好坏直接影响到机器翻译、 信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中 具有重要的理论和实践意义。本文主要研究基于统计的汉语词义消歧方法,先后研究了 基于词义标注语料库的有指导的消歧方法和基于词义标注语料与未标语料相结合的半 指导的消歧方法。 在有指导的消歧方法中改进了a d a b o o s t 算法( 双规则a d a b o o s t 算法,即 d r - a d a b o o s t ) ,该算法在每次迭代中将最优弱分类规则和次优弱分类规则有机结合起 来,通过加强最优弱规则与次优弱规则,最终产生一个准确度高的强规则,即消歧模型; 当次优弱规则的权重为零时,即为a d a b 0 0 s t 算法。实验表明,d r - a d a b o o s t 算法通过 适当的次规则参数的调整,消歧准确率比a d a b o o s t 算法提高了2 6 1 。 尽管有指导的消歧方法取得了较好的消歧结果,但其结果的好坏很大程度上受标注 语料规模大小的影响,高质量、大规模的词义标注语料需要高昂的人工代价。为了克服 有指导消歧方法对标注语料库的依赖性,本文在汉语词义消歧中引入b o o t s t r a p p i n g 算 法,该算法只从少量种子集出发,综合利用词义标注语料和未标注语料。实验表明,在 相同手工标注语料规模的条件下,b o o t s t r a p p i n g 算法比基本分类器贝叶斯分类器取得了 更好的消歧准确率,b o o t s t r a p p i n g 算法可以用大约一半的标注语料作为种子集,就可以 达到基本分类器的学习效果,减少了有指导消歧方法中对大规模词义标注语料库的需 求。 在b o o t s t r a p p i n g 算法中,本文改进了最可信样本的选取策略。采用分组策略,即根 据未标语料样本在特征空间的维数进行分组,然后选取组内概率超过某一阈值的样本作 为最可信样本。实验表明基于分组策略b o o t s t r a p p i n g 算法的消歧准确率比原始策略 b o o t s t r a p p i n g 算法的消歧准确率有较大提高;基于分组策略b o o t s t r a p p i n g 算法的消歧准 确率比基本分类器平均提高了3 5 。 关键词:词义消歧;d r - a d a b o o s t 算法;b o o t s t r a p p i n g 算法;分组策略 大连理工大学硕士学位论文 r e s e a r c ho nc h i n e s ew o r ds e n s ed i s a m b i g u a t i o n a b s t r a c t w o r ds e n s ed i s a m b i g u a t i o n ( w s d ) i st h ek e n e lp r o b l e mo f n a t u r el a n g u a g ep r o c e s s i n g , w h i c hr e s u l ta f f e c t st h er e s u l t so f m a c h i n et r a n s l a t i o n , i n f o r m a t i o nr e t r i e v a l ,s e n t e n c ea n a l y s i s , s p e e c hr e c o g n i t i o na n ds oo rd i r e c t l y t h er e s e a r c ho nw s dh a sg r e a tt h e o r e t i c a la n d p r a c t i c a ls i g n i f i c a n c e t h em a i nt a s ko ft h i st h e s i si st os t u d ye f f e c t i v es t a t i s t i c a lw s d m e t h o d s f i r s t l y ,t h i st h e s i ss t u d i e ss u p e r v i s e dl e a r n i n ga l g o r i t h mb a s e do ns e n s e - t a g g e d c o r p u s s e c o n d l y , t h i st h e s i ss t u d i e st h em i n i m a l l ys u p e r v i s e dl e a r n i n ga l g o r i t h m a na p p r o a c hb a s e do n s u p e r v i s e dd r a d a b o o s tl e a r n i n ga l g o r i t h m f o rw s di s p r e s e n t e d d r a d a b o o s ta l g o r i t h mi se m p l o y e dt o 1 e a l t lw s dk n o w l e d g et ob o o s tt h e p r e c i s i o no f t h ew e a ks t u m p sr u l e sa n dt h es u b o r d i n a t ew e a ks t u m p sr u l e sa n dr 呻t e d l yc a l l s al e a r n e rt o f i n a l l yp r o d u c eam o r ea c c u r a t er u l e d r a d a b o o s ta l g o r i t h mi sa d a b o o s t a l g o r i t h mw h e n t h ew e i g h to ft h es u b o r d i n a t ew e a ks t u m p sr u l e si sz e r o e x p e r i m e n t a lr e s u l t s s h o wt h a tt h ep r e c i s i o no f d r a d a b o o s ti n e a s e d2 6 1 t h a na d a b o o s ta l g o r i t h m a l t h o u 曲s u p e r v i s e dl e a r n i n ga l g o r i t h mh a sg o o dr e s u l t sf o rw s d ,t h er e s u l t ss t r o n g l y d e p e n do nt h ea m o u n to fs e n s e - t a g g e dc o r p u s t h i st h e s i sp r o p o s e sab o o t s t r a p p i n ga l g o r i t h m , w h i c hu s e ss m a l ls e n s e - t a g g e dc o r p u sa n du n t a g g e dc o r p u ss y n t h e t i c a l l y t h i sa l g o r i t h m r e d u c e st h ei a r g os e n s e t a g g e dc o r p u sn e e dw h i c hi sv e r yi m p o r t a n tt os u p e r v i s e da l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o wb o o t s t r a p p i n ga l g o r i t h mo u t p e r f o r m sb a y e sc l a s s i f e rw i t ht h e s a m es e n s e - t a g g e dc o r p u s i nt h eb o o t s t r a p p i n ga l g o r i t h m ,ag r o u p i n gs t r a t e g yi s p r o p o s e dt o s e l e c tt h em o s t c o n f i d e n te x a m p l e s t h en e w l yl a b e l e de x a m p l e sa r ea r r a n g e di nt h eo r d e ro ft h en u m b e ro f t h e i rf e a t u r e sa p p e a r i n gi nt h et r a i n gs e ta n dt h ee x a m p l e sw i t ht h es a m eo rc l o s e df e a t u r e n u m b e ra r ec a t e g o r i z e dt ot h es a m eg r o u p ,t h e nc o m p a r et h ee x a m p l e si ne a c hg r o u pa n d s e l e c tt h ee x a m p l e sw i t hh i g h e rp r o b a b i l i t y e x p e r i m e n t a lr e s u l t ss h o wp r e c i s i o nb a s e do r b o o t s t r a p p i n ga l g o r i t h mw i t hg r o u p i n gs t r a t e g yh a si m p r o v e dg r e a t l yt h a nt h a tb a s e do nb a s i c c l a s s i f i e r ,3 5p e r c e n t a g ep o i n t si n e r e u s e df o rs i xa m b i g u o u sw o r d s k e yw o r d s :w o r d s e n s ed i s a m b i g u a t i o n ;d r a d a b o o s t a l g o r i t h m ;b o o t s t r a p p i n g a l g o r i t h m ;g r o u p i n gs t r a t e g y 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意 作者签名:亟企 日期:趔:垒:习 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名:萄企。作者签名:塑笾途 导师签名:型么匕鳓匕导师签名:呜么匕生琢匕 大连理工大学硕士学位论文 1绪论 随着信息和网络技术的推广应用,国与国之间、人与人之间的交流内容越来越多。 而自然语言作为信息的重要载体,对自然语言处理水平的要求也越来越高。目前,网络 社会和网络经济正以我们难以预料的速度在全世界发展,阻碍其发展的首要瓶颈问题就 是自然语言处理。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 是利用计算机技术研究和处理语言的一 门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量 化的研究,并提供可供人与计算机能共同使用的语言描写。它属于计算语言学的算法部 分【“,并经过如下的过程把需要研究的语言学问题加以形式化,使之能以一定的数 学形式或者接近于数学的形式,严格而规整地表示出来;把这种严格而规整的数学形式 表示为算法,使之在计算上形式化;根据算法编写计算机程序,使之在计算机上加以实 现。 自然语言处理是人工智能研究的最重要的课题之一。人类知识大都是以语言的形式 表示并流传下来的,据统计,在信息领域中8 0 以上的信息是以语言文字为载体的。自 然语言处理的重大突破,将为知识获取开辟重要来源。同时它也将触发人机接口革命。 它将使计算机具有听、说、读、写的能力,人们可以用自然语言和计算机交流,这将给 使用者带了极大的方便。自然语言处理系统可以用作专家系统、知识工程、信息检索、 办公室自动化的自然语言人机接口,有很大的实用价值。机器翻译将使人们跨越语言壁 垒,让全世界的人顺利交流,让每个用户都能共享因特网的浩瀚信息和无限商机。 自然语言处理分为词法分析、句法分析、语义分析3 个层次。词法分析的任务是将 句子中的“词”离析出来,并对词的内部构造形式进行分析,标注词性。如:汉语书写 时,词与词之间没有分隔符,词法分析时需要把词和词切分开来;英语中的词有形态变 化,词法分析时需要分析词的形态,把形态还原。句法分析的任务是判断输入的单词序 列能不能构成合乎语法的句子,并抽取句子的句法结构。它应用句法规则和其他知识, 将句子中单词之间的线性次序,变成非线性的数据结构,如短语结构树等。句法结构相 同的句子,其语义可能有着很大的区别。语义分析的任务是产生语言文本的语义单元表 示和它们之间的依赖关系。词义消歧属于语义分析这一层次。 汉语作为世界上一种重要的语言,其歧义性普遍存在,例如在汉语词典中,我们很 容易发现许多汉语词汇不只有一种意思,如:地方( d i 4 f a n 9 1 ) 一词主要有以下几种意思: ( 1 ) 处所、部位;例:学校在什么地方l 什么地方疼等;( 2 ) 部分、方面;例:这话有对的 地方i 有些地方你欠考虑等;( 3 ) 中央以下各级行政区域的统称;例:地方政府等。可见 汉语词义消歧研究 汉语的多义词是普遍存在的,据统计,在汉语词典中,多义词约占汉语词语集合的1 4 8 , 而李涓子发现在汉语语料中,多义词的出现频率约占语料总词次4 2 嘣“。由此可见,多 义词在人们的交往中的使用频率很高,在许多以自然语言为基础的应用中,如机器翻译、 信息检索、语法分析、自动文摘、知识挖掘、语音识别等,都需要对多义词进行消歧。 1 1词义消歧的提出及研究意义 1 1 1 词义消歧的定义 长期以来,词义消歧一直是自然语言处理( n l p ) 研究的基本问题。机器如何能理解 给定句子或文本的意思,其先决条件是获知句子或文本中每个词的词义。这里的词义是 指在给定文本中每个词在其所属上下文环境中对应的词典中的意思。无论汉语还是西方 语言( 如英语、法语) 一词多义现象普遍存在,而词义标注问题便是进行多义词的辨识, 也称词义消歧( w o r d8 e r s ed i s a m b i g u a t i o n ,简称w s d ) 。 令词语w 具有个词义,w 在特定的上下文环境c 里只有s 是正确的词义。词义消 歧的任务就是在个词义中确定词义s 。每个词义韪和上下文c 存在或强或弱的关系, 而s 同上下文c 的关系是最强的。词义消歧通过分析和计算w 出现的上下文c 和每个词 义品之间的关系r ,排除非正确的词义,最后确定s 。整个过程可以描述如式( 1 1 ) 。 = a r g m a x r ( s tc ) 通过上下文来选择多义词的正确词义,是模拟人的思维判断过程。上下文中的某些 词语限定了多义词的词义,正是这些词的存在,帮助了人迅速地去推理、判断,最终得 出正确意思。机器模拟人思维的过程,在上下文中收集重要的语言信息,提取特征词语, 来指导对多义词的歧义消解。 1 1 2 词义消歧的意义 多义词分布的普遍性也决定了多义词词义消歧任务的艰巨性,它的研究从5 0 年代 初期机器翻译的研究起一直受到人们的关注。只要涉及自然语言的计算机应用,多义词 的词义消歧工作就是不可回避的基础问题。词义消歧是一个影响着自然语言处理领域中 许多其他应用问题的“中间问题”,如: ( 1 ) 机器翻译:在机器翻译中找到对应源语言的目标词很重要,而词义消歧效果的 好坏将直接影响译文的质量。例如:在英汉机器翻译系统中,“b a n k ”在汉语中对应两 个目标词“河岸”或“银行”,在具体翻译时必须根据当前的上下文确定“b a n k ”的正 确词义。 大连理工大学硕士学位论文 ( 2 ) 信息检索:由于多义词的大量存在,在全文检索中使用以词或词组为单位的精 确的匹配算法会造成误检和漏检,影响系统的性能,甚至低于一般的情报检索系统所能 达到的查准率和查全率指标。而语义检索是提高全文检索效用的重要手段。 ( 3 ) 句法分析:在识别句子的语法结构时,词汇的语义也起着重要的作用。因为解 决语法歧义的关键方法就是引入词义,也就是要依靠句子中词的意义来确定此时句子的 结构。如:“修理自行车的轮胎”和“修理自行车的师傅”两个句子都是“v + n + 的+ n ” 的词性序列,却分属于不同的句法结构,标上词义后可以靠这些词性之间的不同语义搭 配来确定它们的结构。 ( 4 ) 语音识别:基于词的n 元模型只考虑了词之间的接续关系,在识别结果中存在 词之间无意义联系的句子,造成识别错误。在引入词义后,可以得到意义之间的接续关 系,提供词在意义一级上的接续关系,在一定程度上避免这样的错误。 综上,多义词的词义消歧作为自然语言处理过程中的一个重要过程,它的研究具有 重要的理论意义和实践意义。 1 2 词义消歧的研究状况 1 2 1 词义消歧的研究现状 早在2 0 世纪5 0 年代词义消歧就开始引起了学者们的兴趣和关注,早期对词义消歧的 研究局限在机器翻译系统的研制中,初步建立了消歧知识的表达体系,这时的代表主要 有w e a v e r l 2 】和r e i f l e l l 3 1 。随后,人工智能方法开始运用于解决词义消歧问题。主要是通 过构造词义知识表达体系,辅以语言规则或实例模板来实现。进入8 0 年代后出现了基于 词典的消歧方法,k s k 直接利用词典中词义( 亦称“义项”) 解释或定义来指导歧义词的 词义判断1 4 j 。该方法简单易行,只需计算歧义词的各个词义在词典中的定义与歧义词上 下文词语的定义之间的覆盖度,选择覆盖度最大的作为正确的词义。k k 公布该方法的 正确率在5 0 7 0 之间,不是很理想,同时他提出通过迭代计算来改进该方法的建议。 1 9 8 8 年,p o o k 和c a t l e t t 提出另外一种新的改进方法:对上下文词语进行同义词扩展,从 而扩大了上下文的窗口,可以增大计算覆盖度的成功率【5 】。 现在,词义消歧的主流方法有: ( 1 ) 基于实例的消歧方法 基于实例的词义消歧方法与基于实例的机器翻译方法【6 】十分相似,可以说该方法是 受到了m t 方法的启发。基于实例的词义消歧方法有两个关键问题,一个是词义消歧实 例的获得,另一个是实例间相似度的计算。1 9 9 6 年n g 等人在l e x a s 系统中成功地采用 了基于实例的词义消歧方法【7 】。n g 等人采用w o r d n e t 定义词语的词义,综合利用多种知 汉语词义消歧研究 识源来指导词义的判断。其中包括多种语法知识,如上下文的词性知识、歧义词的用法、 词语搭配关系等等。实验中,n g 选择了1 9 1 个常用的歧义词,共获得1 9 2 ,8 0 0 个实例, 事先对包含这些实例的句子进行了人工词义标注,并将这些实例作为训练数据,测试的 正确率达到6 9 。 ( 2 ) 基于词典的消歧方法 基于词典中词义定义的方法 该方法利用了词典中的所有词条的每一个义项释义中的词与被释义词之间在意义 上存在密切的搭配关系。如词条“材料”在现代汉语辞海中解释为: a 可以直接造成成品的东西,如建筑用的砖瓦、纺织用的面纱等。 b 可供写作或参考的事实或文字材料。 c 比喻适合作某种工作的人。 在词义a 的释义文本中,释义词“造成”、“成品”、“建筑”、。砖瓦”、“纺 织”及“棉纱”与被释词之间存在一定的搭配关系;它的词义b 与释义词“写作”、“参 考”、“事实”及“文字”和“资料”有意义联系;而词义c 与释义词“做”,“工作” 和“人”存在意义联系。由此看出不同词义有不同的释义词,可以将这些不同的释义词 作为消歧时使用的知识源。 这种方法充分利用了词典中对多义词各个义项的描述,在一定程度上解决了数据稀 疏的问题。但实际出现的特征次数并不完全反映在多义词词义的释义文本中,当多义词 的上下文与其对应得释义文本无重叠词或重叠词较少时,无法确定其正确词义;另外, 由于释义文本中的词本身可能是歧义的,在利用释义文本进行消歧时只对释义文本与多 义词周围的词的重叠度进行计算,没有考虑词在意义上的重叠。因此,消歧结果并不成 功。 基于义类词典的方法 基于义类词典的消歧方法使用语义范畴信息( s e m a n t i cc a t e g o r i z a t i o n ) ,这些语义范 畴信息一般都由义类词典或带有主体范畴的词典给出。基于义类词典的消歧方法的基本 原理,上下文中词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语 义范畴可以反过来确定词汇的那一个词义被使用。w a l k e r 和y a r o w s k y 在词义消歧的研 究中分别提出了基于义类辞典的消歧算法。 w a l k e r 提出的算法中使用的基本信息是词典中给每个词指定的一个或多个主题码 ( s u b j e c tc o d e ) 。如果一个词指定了多个主题码,那么假设它们就对应于这个词的不同词 义。设f ( 品) 为上下文中多义词w 的词义的主题码。那么,通过统计义类词典中可以把 大连理工大学硕士学位论文 f ( 乱) 列为可能主题的上下文的词的个数,就可以对w 进行消歧处理。选择带有最高统计 值的语义作为消歧的结果。 算法描述如下: c o m m e n t :c a v e n c o n t e x tc f o r a l ls e n s e s 品o f w d o s c o r e ( s , ) 2 。删以) ,v a e n d c h o o s e j = a r g m a x “s c o r e ( s , ) 这种算法的一个问题是,一般的主题范畴并不适合于特殊领域。y a r o w s k y 提出了 一个基于贝叶斯分类器的变种算法来完成消歧处理。 ( 3 ) 有指导的消歧方法 有指导的学习方法是一种从带词义标注的语料库中获取词义消歧知识的方法。词义 标注的语料库是一种对语料进行手工词义标注后的语料库。有指导的词义消歧方法主要 从语义标注的语料库中获取多义词在不同词义上下文中的特征,将其作为多义词消歧时 使用的知识。有指导的词义消歧方法主要有贝叶斯方法、决策树的学习方法、决策表的 学习方法、最大熵方法等。 贝叶斯方法 该方法从标注了词义的语料库中训练语境与词义之间的依赖关系得到词义知识库; 根据词义知识库中的知识,对一个具体上下文中的待消歧多义词计算在当前语境下取哪 个词义的可能性最高,就将该词义判定为该多义词在当前语境下的意思。 决策树的学习方法 决策树是一种基于“提问一回答”的机制,根据多义词词义的不同特征进行一系列 的“提问一回答”逐步减少多义词词义的不确定性,从而做出正确的词义判断。b l a c k - 【8 】 采用这种学习方法学习了5 个含有4 个词义的多义词的决策树。首先从语料中抽出含这些 多义词的句子,每个词各有2 0 0 0 个句子,用其中1 5 0 0 个句子作为每个词的训练样本,最 终依每个多义词中的8 1 个上下文类获得这5 个词的决策树。 决策表的学习方法 决策表的形式为一个二元组( 条件,值) 。y a r o w s k y 8 j 曾使用决策表学习词义消歧时 使用的知识。在决策表中,条件对应多义词的一个搭配,值是这个多义词在两个不同词 汉语词义消歧研究 义下的概率似然比,决策表按似然比由小到大排列,似然比大的排列被排到决策表的前 面位置,表明该搭配可以表征某多义词的词义。 y a r o w s h y 曾对多义词在一篇文章中和在一个特定上下文环境中具有的词义情况作 了实验调查,发现两条规律:1 ) 一个词在每个话题中只对应一个词义;2 ) 一个多义词在 一个搭配中只有一个词义。即在给定搭配中每个词只表现出一个词义。不同搭配所对应 的词义是不同的,如果能找出对多义词消歧最有用的搭配,则可以用它来解决多义词问 题。考虑的搭配类型有多义词左、右两边的第一个词,多义词在窗口长度为左右k 的上 下文的词。 在对多义词进行手工标注后,按上述搭配类型进行统计,计算对数似然比如式( 1 2 ) 。 a b jlodpr(s删selcollocationi)|l ( 1 2 ) 1 p r ( s e n s e 2 j c o l l o c a t i o n i ) i | 之后得到的数据按降序放在决策表中。由上式可以看出,能够较好地表示词义的搭配的 似然比较大,位于决策表较前的位置。 最大熵方法 采用信息论中熵的概念,也可以评价上下文词与多义词之间的搭配关系,从而作为 特征选择的判定标准。如果依据最大熵原理计算各参数的概率分布,可以实现多种有效 的特征选择算法。李涓子【l 】从上下文特征词与多义词的搭配关系出发,提出了利用互信 息和z 测试方法相结合的特征选择算法,改进了基于i i s 的最大熵方法。测试了三个多义 词,结果准确率较高。 ( 4 ) 无指导的消歧方法 有指导的学习方法在词义消歧问题中取得了较好的效果,但是该类方法为了克服数 据稀疏问题,获得更好的学习和消歧效果,必须有规模很大的标注语料库的支持。而标 注语料的获得需要耗费代价高昂的人工,很难实现基于大规模标注语料的有指导词义消 歧工作,因此好多学者致力于无指导的消歧方法的研究。无指导的消歧方法的学习过程 中的语料库不需要词义标记,主要的方法有: 基于双语语料的学习方法 g a l e l 9 1 提出从对齐的双语语料库中学习词义消歧知识的方法。如:多义词“s e n t e n c e ” 有两个词义:“句子”;“判刑”。可以从对齐的双语语料中指导该多义词在当前的句 子中被翻译为“句子”还是“判刑”,由此知道多义词在该句子中的词义。这样不用人 工标注语料,通过使用对齐的双语语料库,就能够获得大量的该多义词的消歧实例。 d a g a n 1 0 l 也于1 9 9 4 年提出了使用第二种语言来帮助词义消歧的方法,通过使用另一种语 一6 一 大连理工大学硕士学位论文 言的语料库的统计数据,学习前一种语言的词的词义消歧知识,这种方法不需要使用对 齐的双语语料库。然而,大规模平行语料比较难于获得,缺乏高质量的大规模平行语料, 影响了该方向的研究进展。 聚类的学习方法 s h u t z e 【】采用聚类的方法避免人工的标注工作,使用了向量空问模型。首先得到一 个多义词在大规模语料库中的每次出现,将它们表示为一个词向量,然后将多义词周围 的词分别用上下文向量表示,则这个多义词的词向量就是这些上下文向量的质心向量。 采用e m 聚类算法对词向量进行聚类,将词向量分成若干个词义向量,每个向量代表一 个词义,由人工区分每个向量所对应得词义。这种方法的缺点是需要人工对应各词义向 量的词义,并且很难完成大规模词义消歧的工作。 ( 5 ) 半指导的消歧方法 半指导的学习方法是从小规模的词义标注语料出发,通过某种方法把无标注语料构 造成标注语料,然后又用该语料训练词义消歧模型。半指导的学习方法最早可以追溯到 1 9 9 2 年,g a l e 等人用无标注语料和半指导方法实现了个词义消歧系统【1 2 1 。后来 y a r o w s k y ( 1 9 9 5 ) d 3 1 、m i h a l c e a ( 2 0 0 2 ) 【1 卅也作了相关研究,这些研究都是为了解决语料规 模的问题,并提供高质量的训练语料。他们为半指导的词义消歧方法提供了新的解决思 路。 1 2 2 汉语词义消歧主要研究成果 清华大学计算机系李涓子( 1 9 9 9 ) 利用现代汉语辞海提供的搭配组合实例和大规 模未标词义的语料库,提出了一种具有自组织能力的词义消歧知识学习方法,该方法中 采用多维实值向量表示词义。多义词消歧的正确率为5 2 1 3 。 东北大学朱靖波等【l5 】( 2 0 0 1 ) 提出的基于对数模型的消歧方法对2 万词的汽车配件 专业领域测试语料中的名词和动词分别取得了8 4 7 和8 5 1 的消歧正确率。 中科院计算所鲁松等用词向量概念为多义词一一建立词向量,并参照s c h u z e 的词 义聚类方法【1 6 】建立了向量空间模型,结合同义词词林实现了一种无指导的汉语词义 消歧方法”“。 华中师范大学全昌勤、何婷婷等【1 8 】提出了通过机器学习初始搭配实例获取最优种 子,再由最优种子扩增更多指示词,最后利用这些指示词实现具有多个词义的多义词消 歧。利用该方法对8 个多义词进行消歧的测试实验中取得了8 7 7 的平均j 下确率。 哈尔滨工业大学卢志茂、刘挺等【1 9 】采用了基于依存分析改进贝叶斯分类模型的有指 导词义消歧方法,该模型充分利用依存句法分析,从句子的内部结构寻找词语之间支配 汉语词义消歧研究 与被支配的关系,借以确定能够对词语词义构成内在限制的上下文,有效地克服了单纯 贝叶斯分类器中无关上下文造成的噪声影响,开放测试取得了9 1 8 9 的正确率。 1 3 词义消歧的评测方法 一般情况下,虽然给定了各种消歧方法,很难对这些方法的结果进行比较。原因在 于这些测试方法在测试条件上有很大不同,主要是测试文本类型不同和测试词的歧义程 度也不相同。不论何种消歧算法,判断正确的标准的最终因素还是人。由人事先对多义 词消歧,之后将这样的结果作为评价算法消歧是否正确的标准。但不同人在手工标注时 有较大的不一致性。 词义消歧结果的评测问题已经成为目前词义消歧领域所关注的问题,应该说,衡量 词义消歧的效果应有统一的评测标准,但目前还没有实现。许多人致力于研究各种评测 方法。如c h u r c h 和y a r o w s k y 等希望确定词义消歧的上限和下限,但目前还没有实现。 因为词义消歧并不是任务的结果而只是一个“中间”任务,它的主要贡献在于对机 器翻译和信息检索等应用领域的帮助,因此可以将词义消歧的评测放在具体的应用中。 本文采用的评测方法主要是对消歧结果本身的评测。 对消歧结果本身的评测独立于应用,也称为性能评测,是目前大多数词义消歧方法 采用的一种方法,方法的关键是选用不同的测试点评测消歧结果。将系统给出的词义消 歧结果与标准答案比较,计算其准确率和召回率。 在本文的词义消歧系统中,每个测试实例总是给出一个唯一的词义编码,因此准确 率和召回率相同。因此本文对测试结果的好坏只使用准确率作为衡量的标准。 准确率= 正确消歧个数测试总数。 1 4 本文工作 本文主要研究汉语多义词消歧的方法,我们从两个角度进行考虑,首先利用 d r a d a b o o s t 算法进行词义消歧,取得了较好的结果,但是该方法属于有指导的消歧方 法,消歧准确率的高低严重受标注语料规模大小的影响,要获取更高的消歧准确率,必 须有更大规模标注语料。建设规模足够大、质量足够好的标注语料需要高昂的人工代价 和时间开销,很难获得大规模的词义标注语料。因此在标注语料规模一定的前提下,准 确率提高的空间很小。鉴于有指导方法的缺点,本文在汉语的词义消歧中引入了 b o o t s t r a p p i n g 算法,该算法综合利用了词义标注语料和未标注语料,减弱了有指导消歧 方法对标注语料的依赖性。本文的主要工作如下: ( 1 ) 在有指导的词义消歧模型中引入d r a d a b o o s t 算法,该算法通过对弱规则的加 强,得到一个消歧准确率较高的消歧模型,该算法明显好于a d a b o o s t 算法。 大连理工大学硕士学位论文 ( 2 ) 着重研究了b o o t s t r a p p i n g 算法在汉语词义消歧中的应用。该算法从少量词义标 注的语料出发,通过一个基本分类器对其学习,标注未标注语料,然后从中选取可信度 高的样本加入到词义标注语料中,重复以上过程,最终可得到一个准确率高的分类器。 ( 3 ) 在b o o t s t r a p p i n g 算法中,给出一种基于分组策略的选取可信度高句子的方法。 该方法根据标注样本在特征空间的维数进行分组,并在组内选取概率超过某一阈值的样 本作为最可信样本,有效地减弱了未标语料的数据稀疏问题。 ( 4 ) 对比分析了b o o t s t r a p p i n g 算法、基于分组策略b o o t s t r a p p i n g 算法和基本分类 器( 有指导的消歧方法) 算法不同的词义消歧结果。 9 一 汉语词义消歧研究 2d r - a d a b o o s t 算法 2 1a d a b o o s t 算法 机器学习是一种归纳学习,即对已分类的数据,通过归纳其分类的原因,产生一些 概念性描述作为学习的结果。b o o s t i n g 作为一种通用的学习算法,可以提高任一给定算 法的性能。自从v a l i a n t 【捌关于可学习性的文章发表后,很多研究者致力于可能近似正 确( p m b a b l ya p p r o x i m a t e l yc o r r e c t ,p a c ) 学习模型的研究。在“p a c ”学习模型中,若 存在一个多项式级的学习算法来识别一组概念,并且识别率很高,那么这组概念是强可 学习的;而如果学习算法识别一组概念的正确率仅比随机猜测的略好,那么这组概念是 弱可学习的。如果能将一个弱学习算法提升为强学习算法,那么在学习概念时,只要找 到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找 通常情况下很难获得的强学习算法。 1 9 8 9 年s c h a p i 一2 1 l 提出了第一个可证的具有多项式复杂度的b o o s t i n g 算法。s c h a p i r e 在理论上证明了最终判别准则g b 对g l 判别准确率的提高。但这种方法的缺点是实施起 来需要大量的时间、存储空间及样本。1 9 0 0 年,f r e u n d 2 2 】开发了一个更有效的b o o s t i n g 算法。这两种方法都是通过多次运行弱学习算法,每次将其应用于样本空间的不同分布 上,得出多个弱学习所产生的弱假设,最后采用多数投票的原则综合所有弱假设给出一 个简单的最终的判别准则,从而达到提高弱学习算法的准确率的目的。两种算法都是通 过不断加大样本中难以判别的样本的权重,迫使弱学习算法得出在这些样本上犯更少错 误的假设。它们都存在一个重大缺陷,即它们都要求事先知道弱学习算法的学习j 下确率 的下限,但是这在实际问题中是很难做到的。1 9 9 5 年,f r e u n d 和s c h a p i r e 提出a d a b o o s t 算法,该算法在具有上诉两种算法的准确率的情况下,具有更好的适应性和实用性,很 容易应用到实际问题中。 a d a b o o s t 算法的主要思想是通过组合多个分类精度不高的弱分类规则形成分类精 度较高的分类器。假设存在一个相对独立的过程被称为弱学习器。a d a b o o s t 算法通过调 用弱学习器产生弱分类规则,经过多次迭代之后,就会得到若干个弱分类规则,这些弱 分类规则最终被组合成一个分类精度较高的分类器。 设样本集s = ( ,x ) ,( ,虼) ) ,其中x ,x 为训练集,m = j x i ;y y ,y 为 词义标签集,记k = i y i 。样本( 工,y ) 为单一实例x 和该实例对应的词义标签y 。a d a b o o s t 维持了样本集s 上一个m x k 的权重分布d ,初始状态下,分布d 的权值是相同的。令d 为第t 次迭代后的分布,| j 1 :x y r 为分布d 上获得的弱规则,该规则由弱学习器产 大连理工大学硕士学位论文 生。一亿d 表示对词义标签1 y 是否应该赋给实例j 的一种预测,其值慨( 而,) 1 反映了 这种预测的可信度。 给定,y ,y ,引入符号力( - l ,+ 1 ) ,若只与标签,一致,只【, 的值为1 ,否则咒【,】 的值为- 1 。z ,是规一化因子,使d r 。仍然是一个分布,z ,的计算公式如式( 2 1 ) 。 互= p ( ,) 懿“咒 力一( ,d ) ( 2 1 ) ( 1 ) 输入: s = ( ,一) ,( ,咒) )其中x ,y ,y ( 2 ) 初始化: d l ( f ,z ) = l ( 触) l - i s 掰,l z s 七,k = l y i ( 3 ) 训练过程: f o rt = 1 ,r : a ) 把d ,传给并调用弱规则学习器; b ) 获得弱规则 h :x x y - - + r 利用调整公式调整矩阵d 的权值 d m ( i ,f ) :d t ( i , 1 ) e x p - = ( - y i l h t 一( x i , 1 ) ) 厶f 其中z 是规一化因子 ( 4 ) 输出:最终假设 ,( x ,1 ) = m a x 艺h , ( x ,) 图2 1a d a b o o s t 算法 f i g 2 1 a d a b o o s ta l g o d t h m 汉语词义消歧研究 2 2d r - a d a b o o s t 算法 2 2 1 弱字习器及弱1 段设 利用双规则学习策略改进的a d a b o o s t 算法称为双规则a d a b o o s t ( d r a d a b o o s t ) 算 法。d r a d a b o o s t 算法中使用了一种比较简单的弱学习器,该学习器产生的弱假设是在 布尔命题的基础上对样本的类别进行预测。这种预测中可能性的大小用具体数值来表 示,例如基于给定的布尔命题p ,弱假设 产生的预言可以形式地表示为式( 2 2 ) : 地) = c 锄c l l 。i f 蛐p h o l d s 幻。 ( 2 2 ) 其中,q ,为实数,歹 o 1 。 对于一个给定的布尔命题p ,对应的c 。值计算如下:假设x o 是使得p 不成立的那 些样本点的集合;x i 是使得p 成立的那些样本点的集合对于任意的布尔命题口,若 果口成立,则陋1 的值为1 ;否则,其值为0 。给定当前权值分布d i ,对于类别集合的 每个类别z ,则有式( 2 3 ) 。 彤= 善d i “) n - 一【f 】= 6 j ( 2 3 ) 其中,_ , o ,l ,6 + l ,一1 ) 。吖( 吖) 是在d r 下,集合一中的那些标记是( 不是) ,的 样本点的权重之和。这时,我们可以把式( 2 1 ) 写成式( 2 4 ) : z ,2 磊蒿善p ( ,) 唧 7 b ) 。磊善( 暇,印+ 形? ) ( 2 4 ) 当巳= ;l i l 谚w + 万j l i ) 时,z ,最小。如式( 2 5 ) 。 z ,2 2 磊i 善暇彤 2 5 ) 由于哗的取值通常为非常小的值或零,采用下面的方法进行了平滑处理,即式( 2 6 ) 大连理工大学硕士学位论文 其中占= 1 ( m 膏) 。将式( 2 6 ) 代入式( 2 4 ) ,得到新的z 的计算方法为式( 2 7 ) 。 ( 2 6 ) 互= 磊职羼川羼, 亿, 2 2 2 面向w s d 的d r - a d a b o o s t 算法 下面将上节介绍的双规则应用到a d a b o o s t 算法中,弱学习器的目的是在每次迭代 中产生一个弱假设i l ,并使得该弱假设的分类错误率最小。在d r - a d a b o o s t 算法开始迭 代前假定存在一个布尔命题库,在迭代中搜索所有的布尔命题,根据式( 2 6 ) 可以计算出 与每个布尔命题对应的c 。的值,这些c ,的值就是在该布尔命题基础上产生的所有弱假 ,of 设。然后根据式( 2 7 ) 计算出与这些弱假设对应的z 的值。z 可以看成是评价弱假设错 误率大小的一个标注,即z 的值越小表明弱假设的错误率越小。使z 取值最小的那个弱 假设称为最优弱规则,表示为h ,z 的最小值表示为z j ;而使z 取值第- d , 的那个弱 假设称为次优弱规则,表示为砰,z 的次小值表示为z j 。弱学习器在每次迭代中返回 的弱规则是最优规则和次优规则的线性组合,即 ,= | i l j + 砌? ,j o ,l l 。当艿= 0 时, d r - a d a b o o s t 算法就是传统的a d a b o o s t 算法。基于w s d 的d r - a d a b o o s t 算法描述如 图2 2 。 筹 呱 c 一 汉语词义消歧研究 ( 1 ) 输入: s = ( ,只) ,( ,虼) ) 其中x ,y ,y ( 2 ) 初始化: p ( f ,d = 1 ( m k )l i o 【 仃 j 多层感知核函数:c (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论