(计算机应用技术专业论文)有监督方法在词义消歧中的应用.pdf_第1页
(计算机应用技术专业论文)有监督方法在词义消歧中的应用.pdf_第2页
(计算机应用技术专业论文)有监督方法在词义消歧中的应用.pdf_第3页
(计算机应用技术专业论文)有监督方法在词义消歧中的应用.pdf_第4页
(计算机应用技术专业论文)有监督方法在词义消歧中的应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

有监督方法在词义消歧中的应用 摘要 有监督方法在词义消歧中的应用 摘要 词义消歧在自然语言处理的许多应用领域中具有重要的理论和实践意义,是一个 影响着自然语言处理领域中许多其他应用问题的“中间问题”,在机器翻译、信息检索、 主题内容分析和文本处理,以及句法分析等领域起着很重要的作用。当前主要有两 种方法进行词义消歧,第一种是基于词典的方法,第二种是基于语料库的方法。第一 种方法需要语言学知识,第二种方法使用统计学和机器学习方法,从大量的样本中推 导出语言使用模型。大量样本组成的语料库根据情况又分为已人工标注过的和未人工 标注过的,根据使用的语料不同,第二种方法又分为有监督和无监督方法。在四次词 义消歧的国际比赛中,有监督的词义消歧方法往往能获得最好的词义消歧结果。 本文采用有监督方法进行词义消歧,使用多种机器学习方法从上下文中提取不同 的信息来构建分类器。对这些分类器进行性能分析,综合这些单分类器的输出结果, 通过不同的组合算法构建多分类器系统。实验结果表明多分类器融合能有效地提高分 类性能。 有监督的词义消歧的优点是分类的准确率比较高,但与此对应的是需要人工标注 的语料库,传统的有监督词义消歧往往只能限定在某些词语上,未能推广。本文采用 了一种b o o t s t r a p p i n g 方法,自动的从网上获得包含歧义词的句子。通过对这些句子 进行语义标注,构建出有标注的语料库。通过这种自动获得语料的方法,可以将有监 督的方法推广开来。 关键字:有监督词义消歧机器学习方法多分类器融合b o o t s t r a p p i n g 作者:潘兆志 指导老师:姚建民 a b s t r a c ta s u p e r v i s e dw a yi nw o r ds e n s ed i s a m b i g u a t i o n a s u p e r v i s e dw a y i nw o r ds e n s ed i s a m b i g u a t i o n a b s t r a c t w o r ds e n s ed i s a m b i g u a t i o n ( w s d ) h a sv e r yi m p o r t a n tt h e o r e t i c a la n dp r a c t i c a l s i g n i f i c a n c ef o rm a n yn a t u r a ll a n g u a g ep r o c e s s i n ga p p l i c a t i o n sa n di so f t e na s s u m e dt ob e a ni n t e r m e d i a t et a s k , w h i c hi se s s e n t i a lf o ra p p l i c a t i o n ss u c ha sm a c h i n et r a n s l a t i o n , i n f o r m a t i o nr e t r i e v a l ,c o m e n ta n dt h e m a t i ca n a l y s i s ,a n de v e ng r a m m a t i c a la n a l y s i s c u r r e n t l y , t w om a i nt e n d e n c i e sc a l lb ef o u n di nt h i sr e s e a r c ha r e a :k n o w l e d g e - b a s e d m e t h o d sa n dc o r p u s b a s e dm e t h o d s t h ef i r s to n er e l yo np r e v i o u s l ya c q u i r e dl i n g u i s t i c k n o w l e d g e ,a n dt h es e c o n do n e su s et e c h n i q u e sf r o ms t a t i s t i c sa n dm a c h i n el e a r n i n gt o i n d u c em o d e l so fl a n g u a g eu s a g ef r o ml a r g es a m p l e so ft h a ti s ,t h ec o r p u si sp r e v i o u s l y t a g g e dw i t h c o r r e c ta n s w e r so rn o t t h i sp a p e ru s e ss u p e r v i s e dw a yt os o l v ew o r ds e n s ed i s a m b i g u a t i o n w eu s eav a r i e t y o fm a c h i n el e a r n i n gm e t h o d se x t r a c td i f f e r e n ti n f o r m a t i o nt ob u i l dm a n yc l a s s i f i e r s a f t e r a n a l y z i n gt h ep e r f o r m a n c eo ft h e s ec l a s s i f i e r s ,t h eo u t p u t sa r ec o m b i n e da n du s i n g d i f f e r e n ta l g o r i t h m st ob u i l dm u l t i p l ec l a s s i f i e r s t h er e s u l to fe x p e r i m e n t ss h o w st h a tt h e m u l t i p l ec l a s s i f i e rs y s t e mo u t p e r f o r m si n d i v i d u a lc l a s s i f i e r i nt h ep a s tf o u rm a t c h e sf o r w s d ,t h es u p e r v i s e dw a ya l w a y sg a i n st h eb e s tp e r f o r m a n c e t h es u p e r v i s e dw a yh a st h ea d v a n t a g et h a ti tg a i n sh i 曲a c c u r a c y , b u ti tn e e d st h e c o r p u st a g g e d 、析mc o r r e c ta n s w e r s s ot h et r a d i t i o n a ls u p e r v i s e dw a yi sl i m i t e dt os e v e r a l w o r d s t h i sp a p e rm a k e su s eo fb o o t s t r a p p i n g ,a n da u t o m a t i c a l l yg e t ss e n t e n c e sf r o m t h ei n t e r n e t a f t e r d e a l i n gw i t ht h e s es e n t e n c e s ,at a g g e dc o r p u si s f o r m e d s ot h e s u p e r v i s e dw a yc a nb eu s e dw i d e l y k e yw o r d s :t h es u p e r v i s e dw a y , w o r ds e n s ed i s a m b i g u a t i o n , m a c h i n el e a r n i n gm e t h o d , c o m b i n a t i o no f m u l t i p l ec l a s s i f i e r s ,b o o t s t r a p p i n g w r i t t e n b y :p a nz h a o z h i s u p e r v i s e db y :y a oj i a n m i n 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:盘蜓圭:日 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名:单甜 有监督算法在词义消歧中的应用 第一章绪论 1 1 课题研究背景及意义 第一章绪论 语言文字是信息的首要载体。随着计算机和因特网的推广应用,由数据处 理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。 自然语言处理是一种人机交互形成,主要分为两步,首先是自然语言理解,其 次是自然语言产生。前者要使要使计算机既能理解自然语言文本的意义,后者需要 计算机能以自然语言文本来表达给定的意图、思想等自然语言处理,即实现人机间自 然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原 因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性 ( a m b i g u i t y ) 。 一个中文文本从形式上看是由汉字( 包括标点符号等) 组成的一个字符串。 由字可组成词,由词组成词组,由词组可组成句子,进而由一些句子组成段、 节、章、篇。无论在上述的各种层次:字( 符) 、词、词组、句子、段,还是在下一 层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不 同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一 般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也 就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和 能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需 要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又 如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除 歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的,还有 待长期的、系统的工作。 自然语言处理过程中,当在特定的上下文中的某一个词汇具有多个词义时,就 可能出现词的歧义现象。例如,多义词“健康”在现代汉语词典中具有“生理机 能正常 和“情况正常 两个义项,对于一个具体的上下文“老王身体很健康 中的 “健康 归属于哪一个义项则需要根据其上下文来具体判断。由于在自然语言中,一 第一章绪论有监督算法在词义消歧中的应用 词多义是一种常见现象,因此利用计算机进行自然语言处理,词义消歧是一个至关重 要的一个处理环节。词义消歧的主要任务是根据多义词所在的上下文为其自动确定一 个最合适的义项。 词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意 义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”。举 例来说,词义消歧的应用领域主要包括机器翻译,在机器翻译中首先确定句子中每 个词汇对应的目标语译文,译文的选取很重要地依赖于词义的消歧过程。 1 2 课题研究现状 一词多义是自然语言的常见现象,也是语言应用中十分普遍的现象。词义 消歧一直是自然语言处理的重点和难点,作为一个中间问题,对许多应用领域 具有重要的理论和实践意义,如机器翻译、信息检索等领域。 基于词典的词义消歧始于1 9 8 6 年,l e s k 直接利用词典中词义( 亦称“义项”) 解释 或定义来指导歧义词的词义判断。该方法简单可行,只需计算歧义词的各个词义在词 典中的定义与歧义词上下文词语的定义之间的覆盖度,选择覆盖度最大的作为正确的 词义【1 】。1 9 8 8 年,p o o k 和c a t l e t t 提出了另一种新的改进方法,对上下文词义进行同义 词扩展,从而扩大了上下文的窗口,可以增大计算覆盖度的成功率【2 】。1 9 9 2 年, y a r o w s k y 把主题分类方法引入了语料库,实验结果表明,当类义词典中的范畴和语义 与主题很好的吻合时,如词语“b a s s 有两个词语义分别属于音乐范畴和动物范畴, 正确率很高( 9 卜1 0 0 ) ,当语义涉及到几个主题时,实验效果通常很差,如“i n t e r e s t ” 的“a d v a n t a g e 语义涉及音乐、娱乐、空间探索和金融多个领域,语义之间缺乏主题 独立性,所以正确率偏低( p ( s iic ) f o rs k - s ,c 表示上下文,s 表 示歧义词在上下文为c 时,s 。决定的词义项,表示除s 以外的歧义词的任意词义项。 在这里尸( s 。ic ) 是未知的,可以通过贝叶斯规则来计算它: p ( s kle ) = 掣e ( s d ,尸( 观) 是词义趿的先验概率。指定歧义词w 的词义s 的过程如 u , 公式( 2 1 ) : 1 5 第二章机器学习方法在词义消歧中的应用 有监督算法在词义消歧中的应用 s 7 a r g 虬m a x p ( s klc ) = 嘤& m a x 掣州 = a r g 虬m a x p ( ch ) 户( ) ( 2 1 ) = a r g 以m a x 1 0 9 p ( ch ) + l o g p ( s i ) 】 = a r g m a ) 【岫。1 0 9 p ( ,ls k ) + l o g p ( s k ) 】 朴素贝叶斯假设用来刻画事物特征的属性特征的属性都是条件独立的: 尸gh ) = 尸( 以iv ji nc l & ) = 兀岫。p ( _ is 。) ( 2 2 ) 根据贝叶斯假设,词义消歧中的朴素贝叶斯决策规则可以写为: d e c i d es i fs a r g m a x 1 0 9 p ( s ) + e v i 瓯) 】 ( 2 3 ) j i n 。l o g p ( v j 2 4 2 最大熵原理 最大熵原理是在1 9 5 7 年由e t j a y n e s 提出的,其主要思想是,在只掌握关于 未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种 情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个 随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随 机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实 质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最 不确定或最随机的推断,这是我们可以做出的唯一不偏不倚的选择,任何其它的选择 都意味着我们增加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论