




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语料库的汉语词义消歧方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r sn 瑾s i s 中文摘要 词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践 意义,是一个影响着自然语言处理领域中许多其他应用问题( 如机器翻译、 信息检索等) 的“中间问题”。本文主要研究以语料库作为主要知识源的汉 语词义消歧方法。本文的研究工作主要包括以下几个方面: 1 、对词义消歧的相关研究方法,包括词义消歧的知识源和消歧方法的分 类进行了综合评述,主要对基于语料库的词义消歧方法进行了详细的分析和 比较。 2 、提出了一种基于多分类器决策的词义消歧策略,该策略综合利用带标 语料和未标语料动态的构造消歧分类器,极大的减少了有导词义消歧方法中 对大规模带有词义标注语料库的需求,扩展了有导词义消歧方法的应用。 3 、为了缓解有导词义消歧方法中人工标注语料的繁重劳动以及数据稀疏 问题,我们选择词义指示词作为词义消歧特征,通过它们来表达词与词之间 的组合关系,并采用一种统计的机器学习方法( 基于种子优选的词义指示词 获取方法) 高效的从语料库中获取代表多义词各义项的指示词集,从而在一 定程度上解决了由人工选择消歧初始知识所带来的主观性和知识获取的瓶颈 问题。 4 、基于词义指示词,设计并实现了一种基于语料库的半指导的词义消歧 方法,该方法能够较有效的缓解有导词义消歧方法中人工标注语料的繁重劳 动以及数据稀疏问题。并且对词义指示词这一重要的消歧特征对消歧的影响 进行了分析与考察,为综合利用多种消歧特征进行词义消歧提供了定的参 考。 关键词:自然语言处理;词义消歧;语料库;有指导方法;半指导方法 硕士学位论文 m a s t e r st h e s i s a b s t r a c t t h er e s e a r c ho nw o r ds e n s e d i s a m b i g u a t i o n ( w s d 、h a sg r e a tt h e o r e t i c a la n d p r a c t i c a ls i g n i f i c a n c e i nm a n ya r e a so f n a t u r a l l a n g u a g ep r o c e s s i n g0 q l p ) i t i sa l l i n t e r m e d i a t et a s k f o rm a n yn l p a p p l i c a t i o n ss u c ha sm a c h i n et r a n s l a t i o n , i n f o r m a t i o nr e t r i e v a l e t c 。t h em a l nw e r ki nt h i st h e s i si st os t u d yw s d a l g o r i t h m s w h i c h l e a r n i n gw s dk n o w l e d g e f r o mc o r p u s t h er e s e a r c hw o r ko ft h i st h e s i si sa s f o l l o w s 1 n er e s e a r c hm e t h o d sa b o u tw s da r ed e s c r i b e d i n c l u d i n gt h ek n o w l e d g e r e s o u r c e sa n dt h em e t h o d sc l a s s i f i c a t i o n t h ew s d a l g o r i t h m st h a tl e a r n k n o w l e d g e f r o mc o r p u sa r ea n a l y z e da n d c o m p a r e d i nd e t a i l 2 aw e r ds e n s er e p r e s e n t a t i o nm e t h o db a s e do nm u l t i c t a s s i 矗盯d e c i s i o ni sp u t f o r w a r d l a b e l e dc o r d a sa n dt m l a b e l e dc o r p u sa r ec o m b i n e dt oc o n s t m c t d i s a m b i g u a t i o nc l a s s f i e r s t 伍sm e t h o dr e d u c e st h en e e df o rl a r g es c a l ej a b e l e d c o r p u ss o t h a te x t e n dt h ea p p l i c a t i o no f s u p e r v i s e dw s d m e t h o d s 3 i no r d e rt or e l i e v et h et w om a i nd i s a d v a n t a g e si ns u p e r v i s e dw s dm e t h o d s : t h eh e a v yl a b o ro n l a b e l i n gc o r p u sb y h a n da n dt h e p r o b l e m o fd a t a s p a r s e ,w e s e l e c tw e r ds e n s ei n d i c a t o r sa sm a i nk n o w l e d g e w e r ds e n s ei n d i c a t o r sa r eu s e dt o e x p r e s st h ec o m b i n a t i o nr e l a t i o n s h i p sb e t w e e n w e r d s as t a t i s t i c a l m a c h i n e l e a r n i n ga l g o r i t h m ( w o r d s e n s ei n d i c a t i o r so b t a i n i n gm e t h o db a s e do n s e l e c t i n g t h eb e s ts e e d s ) i s p u tf o r w a r d t oa c q u i r e e f f e c t i v e l y w o r ds e n s ei n d i c a t o r s t h a tr e p r e s e n te a c hs e n s eo f p o l y s m o u s w o r d r e s p e c t i v e l yf r o mc o r p u s n e s u b j e c t i v i t y c a u s e d b ys e l e c t i n g t h ei n i t i a lk n o w l e d g e b y h a n da n dt h eb o t t l e p r o b l e m o f a c q u i r i n gk n o w l e d g e c a nb er e l i e v e dt oac e r t a i ne x t e n t 4 b a s e do nw o r ds e n s ei n d i c a t o r s ,w ed e s i g na h a l f - s u p e r v i s e dw s d m e t h o d s b a s e do nc o r p u s t h eh e a v yl a b o ro nl a b e l i n gc o r p u sb yh a n da n dt h ep r o b l e mo f d a t as p a r s ec a nb er e l i e v e de f f e c t i v e l y a n dt h ei n f l u e n c e so nw s dc a u s e db yw o r d s e u s ei n d i c a t o r sa t ea n a l y z e d ,w h i c hp r o v i d e sc r e d i b l er e f e r e n c ef o rc h i n e s ew s d w i t hm u l t i f e a t u r e k e y w o r d s :n a t u r a lla n g u a g ep r o c e s s i n g ;w o r ds e n s ed i s a r n b i g u a t i o n ; c o r p u s ;s u p e r v i s e dm e t h o d ;h a l f - s u p e r v i s e dm e t h o d 1 1 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究 工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:似 日期:肿占月7 口日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 作者签名:钐俸孙 日瓤脚6 月f 。日 导师签名: 日期:年月 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本 人的学位论文提交“c a l l s 高校学位论文全文数据库”中全文发布,并可按“章 程,中的规定享受相关权益。凰童途塞握銮屋进卮;旦圭生;旦= 生;旦三玺 筮壶! 作者签名:爹彩知 日期:心年6 月f ,日 导师签名: 日期:年月 日 硕士学位论文 m a s t e r st 腿s i s 第一章绪论 1 1 课题研究的背景及意义 语言文字是信息的首要载体。随着计算机和因特网的推广应用,由数据 处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越 高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这 个国家进入信息社会的程度,其语言文字信息处理能力直接关系到它在网络 社会和网络经济中的国际竞争能力。目前,网络社会和网络经济正以我们难 以预料的速度在全世界发展,阻碍其发展的首要瓶颈问题就是自然语言的处 理问题。 从本质上说,利用计算机进行自然语言处理是一个不断消歧的过程。词 义歧义就是自然语言处理中很典型的类歧义问题。自然语言处理过程中, 当在特定的上下文中的某一个词汇具有多个词义时,就可能出现词的歧义现 象。例如,多义词“健康”在现代汉语词典中具有“生理机能正常”和 “情况正常”两个义项,对于一个具体的上下文“老王身体很健康”中的“健 康”归属于哪一个义顼则需要根据其上下文来具体判断。因此,词义消歧的 主要任务是根据多义词所在的上下文为其自动确定一个最合适的义项。统计 表明,在汉语词典中,多义词约占汉语词语集合的1 4 8 ,但在汉语语料中, 多义词的出现频率约占语料总词次的4 2 ( 李漏子1 9 9 9 ) 。可见,多义词在 自然语言中尽管数量不多,但出现频率却极高,多义词的词义消歧工作是自 然语言处理中不可回避的基础问题,嗣对也被认为是自然语言处理领域词汇 级别最困难的问题( n a n c y1 9 9 8 ,y o r i c k1 9 9 6 ) 。 词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践 意义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”。 具体说来,词义消歧的应用领域主要包括: 机器翻译:在机器翻译中首先确定句子中每个词汇对应的目标语译 文,译文的选取很重要地依赖于词义的消歧过程。例如:在英汉机器翻译系 硕士学位论文 m a s t e r st h e s i s 统中,“b a n k ”在汉语中对应两个目标词“河岸”或“银行”,在具体翻译 时必须根据它当前的上下文确定“b a n k ”的正确词义,以翻译成正确的目标 词。如果不能正确地确定句子或文本中某些词汇的惟一词义,特别是具有多 个词义的名词和动词,要想实现正确的翻译是不可能的。研究表明,平均每 个英语词汇对应大约2 3 3 个汉语词汇( w u d e k a i1 9 9 5 ) 。因此词义消歧问题解 决的好坏将直接影响到机器翻译的质量。 信息检索:在信息检索时,人们往往只需要得到与该词语某一义项相 关的文本,而受一词多义的影响,检索系统很可能检索出一些包含同一个词 但是具有不同意义的文本,因此在信息检索中词义也具有重要作用。据统计, 在信息检索中弓l 入部分多义词消歧技术以后,可使其整个系统的正确率由 2 9 提高到3 4 2 ,取得较明显的改善( s c h u t z e ,p e d e r s e n1 9 9 5 ) 。 主题内容分析和文本处理:如文本分类、自动文摘、信息抽取等,只 有明确对文本中的多义词所表示的具体的概念,才能正确地分析文本及句子 的概念和主题。 句法分析:在识别句子的语法结构时,词汇的语义也起着重要的作用。 因为解决语法歧义的关键方法就是引入词义,也就是要依靠句子中词的意义 来确定此时句子的结构。如“参观图书馆的大厅”和“参观图书馆的人们” 同样具有“v n + 的+ n ”的词性序列,但却有着不同的句法结构,标上词义 后可以靠这些词性之间的不同语义搭配确定它们的结构( 李涓子1 9 9 9 ) 。 可见,只要涉及自然语言处理的计算机应用中,多义词的词义消歧工作就 是不可回避的基础问题。因此,作为自然语言处理过程中一个重要过程,词 义消歧的研究具有重要的理论和实践意义,它的研究成果可以直接应用于自 然语言处理的许多方面。 1 2 国内外学术界对词义消歧的研究 1 2 1 国外的研究状况 在上世纪五十年代当计算机开始被用于语言处理时,词义消歧就开始引 起了学者们的兴趣和关注。到目前为止,词义消歧在国外大致经历了四个发 2 硕士学位论文 m a s t e r st h e s i s 展阶段。 1 早期机器翻译中的词义消歧 词义消歧问题是w e a v e r ( 1 9 4 9 ) 在讨论机器翻译问题时首次提出的,他认 为要让计算机进行准确的译文选择,一个重要的前提条件就是能够在某个特 定的上下文中,自动消除歧义,确定多义词的词义。同时,他还指出消除多 义词的歧义首先要决定多义词的上下文范围。随后,r e i f l e r s ( 1 9 5 5 ) 提出多义 词及其所在上下文中词语的“语义同现”关系、语法关系都是解决词义消歧 问题的关键因素。在此之后,消歧知识的表达开始引起关注,语义网络( r i c h e n s 1 9 5 8 ,m a s t e r m a n1 9 6 1 ) 、基于r o g e t s 词典的首个知识自动获取平台 ( m a s t e r m a n ,m a r g a r e t1 9 5 7 ) 纷纷建立,与此同时,相应的研究方法也开始被提 出。 早期机器翻译中对词义消歧的研究局限在机器翻译系统的研帝0 中,该阶 段对影响词义的因素进行了讨论,并初步建立了消歧知识的表达体系,然而, 由于没有大规模的语料资源,对词义消歧方法的研究处于起步阶段,是十分 不成熟的。 2 基于人工智能的词义消歧方法 2 0 世纪6 0 年代初,人工智能方法开始运用于解决词义消歧问题。该阶段 的主要特点是以自然语言理解的相关理论为基础,通过利用语法、语义等语 言学知识构造大规模的语言理解系统,词义消歧是作为整个系统的子任务, 所采用的方法主要是通过构造语义知识表达体系,辅以语言规则或实例模板 来实现的。例如,q u f l l i a n ( 1 9 6 1 ,1 9 6 2 a ,1 9 6 2 b ) 通过语义网络来表达词语 和概念的关系,利用词语结点和概念结点在网络中的路径来确定词语的义项; h a y e s ( 1 9 7 6 ,1 9 7 7 a ,1 9 7 7 b ) 通过在语义网络中寻找i s - a 和p a r t - o f 关系 来确定词义。 基于人工智能的词义消歧方法的困难主要体现在由人工构造的语义知识 表达体系通常规模很小,缺少足够的词义知识,尽管在一些受限领域的自然 语言理解系统中有良好的表现,但很难运用到大规模的真实语料中,对消歧 硕士学位论文 m a s t e r s 珥s i s 的效果也难以评测。 3 基于知识的词义消歧方法 通过对基于人工智能的词义消歧方法的研究发现“知识获取的瓶颈问题” ( g a l ee ta l ;,1 9 9 3 ) 成为影响词义消歧研究的一个最关键的问题,因此,许多研 究开始转向从大规模的词汇资源( 如各种词典、语料库) 中自动抽取消歧知 识,力图克服词义知识获取的瓶颈问题,提高消歧知识库的质量。例如通过 机器可读词典的方法从词典中自动抽取相关的词汇和语义知识( m i c h i e l se ta 1 , 1 9 8 0 ;c a l z o l a r i ,1 9 8 4 ;k 1 a y a h se ta l ,1 9 9 0 ;w i l k se ta l ,1 9 9 0 ) ;y a r o w s k y 利用义 类词典r o g e t s i n t c m a f i o n a lt h e a s a u r u s ) ) 中的语义分类来表达词义知识 ( y a r o w s k y 1 9 9 2 ) 。 基于知识的词义消歧方法的研究使基于统计的方法,也就是经验主义思 想、语料库方法逐步发展起来。为了获取更加准确的词义知识,已经有不少 研究开始着力于机器获取和人工相结合的方法构造词义知识库。 4 基于语料库的词义消歧方法 近年来,随着计算机存储容量和运算速度的飞速提高,通过使用各种机读 资源,计算机能够自动获得各种动态的词义知识及其统计数据,基于语料库的 词义消歧方法已经处于主导地位。这种方法不需要通过人工总结语言规律,大 多是通过统计方式建立语言模型,从现有的语料库中去获取词义知识。具有代 表性的语料库主要包括当代美国英语书面语语料库b r o w n ( b r o w n u n i v e r s i t y s t a n d a r dc o r p u so fp r e s e n t d a ya m e r i c a ne n g l i s h ) 语料库、英国英语书面语语 料库l o b ( t h e l a n c a s t e r - o s l o b e r g e nc o r p u s o f b r i t i s he r i g l i s h ) 语料库、平衡 语料库c o b u i l d 语料库( 又称b i r m i n g h a m 语料库) 、当代英语信息库b n c ( t h eb r i t i s hn a t i o n a lc o r p u s ) 语料库等。 由于语料库中不可能标注多义词在所有义项中的词义知识,同时,有些低 频词,在语料库中出现次数也不多,很难搜集到它们的上下文环境,因而从语 料库中获取词义知识时普遍存在着数据稀疏以及自动学习算法的参数空间太 大等问题,如何解决这些问题也是目前词义消歧研究中的一个主要方向。 4 硕士学位论文 m a s t e r st h e s i s 1 2 2 国内的研究状况 汉语词义消歧研究从2 0 世纪9 0 年代以后才开始,主要是利用词典提供的 信息。较有影响的词义消歧方法和系统包括: 清华大学计算机系黄昌宁、童翔( 1 9 9 3 ) 利用同义词词林中的语 义分类,对汉语合成词中的单字进行语义标注。该系统利用了汉语“义合”的 这一特点,在辨识多义单纯词的义项时,利用现代汉语通用字典的机器可 读词典中众多合成词所提供的语义信息,即义类搭配信息。但系统给出的词义 标注算法实际上是基于字的词义标注算法,对多字词,标注的是组成词的各字 所属词义号,并不代表词本身所具有的词义。 l a m ( 1 9 9 7 ) 利用现汉中的释义文本和同义词词林的语义类, 对实词多义词进行词义消歧,该方法采用了无指导的词义消歧知识的学习方 法,平均正确率为4 5 5 。 清华大学计算机系李渭子( 1 9 9 9 ) 利用现代汉语辞海提供的搭配 组合实例和大规模未标注词义的语料库,提出了一种具有自组织能力的词义消 歧知识学习方法,该方法中采用多维实值向量表示词义的词义。多义词消歧的 正确率为5 2 1 3 。 东北大学朱靖波等( 2 0 0 1 ) 提出的基于对数模型的消歧方法,该方法 从概率论的角度,把词义自动消歧过程看作根据给定输入条件选择最大概率的 词义的过程。该方法在对2 万词次的关于汽车配件的开放性测试语料中的名词 和动词分别取得了8 4 7 和8 5 1 的消歧正确率。 中科院计算所鲁松等( 2 0 0 2 ) 提出基于向量空间模型中义项词语的无 导词义消歧方法,该方法在义项词语知识库的支持下,将待消歧多义词与义项 词语映射到向量空间中,基于k n n ( k = i ) 方法,计算二者相似度来实现词 义消歧任务。在对1 0 个典型多义词的消歧测试中取得了平均正确率为8 3 1 3 的消歧结果。 华中师范大学计算机科学系陈浩等( 2 0 0 4 ) 提出的基于h o w n e t 的无导 词义消歧,该方法利用h o w n e t 中的词义知识,采用二阶c o n t e x t 构造上下文向 量,并使用k - m e a n s 算法进行聚类,最后通过计算相似度来进行词义的排歧。 硕士学位论文 b i a s t e r st h e s i s 实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得 了平均准确率8 2 6 7 和8 0 8 7 的较好的效果。 此外,山西大学、哈尔滨工业大学、厦门大学计算机系也分别对汉语全文 检索中的义项标注、英汉机器翻译等限定领域中的词义消歧方法进行了探索 ( 刘开瑛1 9 9 5 ,刘小虎1 9 9 8 ,y a n gx i a o f e n g l it a n g q i u2 0 0 2 ) 。 从目前汉语词语消歧的现状来看,由于汉语和英语不同,是无形态的语言, 在汉语的分词、词性标注、语法分析、句法分析等问题上并没有很好的解决, 因此要想从语料库中大规模的提取词类、语法功能、句法关系、语义搭配、n 元语法、主题约束等多种词义知识用于词义消歧存在很大的问题。同时,目前 还没有十分完善的汉语语义词典,研究中所采用的知识源主要来源于同义词 词林、现代汉语辞海、现代汉语词典、h o w n e t 等,而不同词典 对多义词的义项的划分存在差异,并且存在词量不足的问题,要综合使用这些 资源用于词义消歧也面临很多的困难。 汉语词义消歧虽然在较短的时间内取得了令人鼓舞的成绩,但词义知识获 取的瓶颈问题仍然是阻碍汉语词义消歧的主要因素,如何有效的选择消歧所需 的词义知识以及如何获得这些词义知识将直接影响到词义消歧的水平。 1 3 主要工作与本文组织 本文的主要工作是研究以语料库作为主要知识源的汉语词义消歧方法,取 得了以下研究成果: 1 、提出了一种基于多分类器决策的词义消歧策略,该策略综合利用带标语 料和未标语料动态的构造消歧分类器,极大的减少了有导词义消歧方法中对大 规模带有词义标注语料的需求,扩展了有导词义消歧方法的应用。 2 、为了缓解有导词义消歧方法中人工标注语料的繁重劳动以及数据稀疏问 题,我们选择词义指示词作为消歧所需的词义知识,通过它们来表达这种词与 词之间的组合关系,并采用一种统计的机器学习方法( 基于种子优选的词义知 识获取方法) 高效的从语料库中获取代表多义词各义项的指示词集,从而在一 定程度上解决了由人工选择消歧初始知识所带来的主观性和知识获取的瓶颈 问题。 硕士学位论文 m a s t e r st h e s i s 3 、基于词义指示词,设计并实现采用词语问相似性计算的词语义项决策算 法完成义项标注,并对词义指示词对消歧的影响进行了分析与考察,为综合利 用多种消歧特征进行词义消歧提供了定的参考。 本文各章安排如下: 第一章介绍词义消歧的任务、意义、国内外的研究现状以及本文的主要工 作。 第二章介绍了词义消歧的相关研究方法,主要概述了词义消歧的知识源和 消歧方法的分类。 第三章介绍了我们提出的一种有导的词义消歧方法( 基于多分类器决策的 词义消歧策略) ,该方法是基于a d a b o o s t 的基本思想,以贝叶斯方法构造分量 分类器,其特点是综合利用带标语料和未标语料动态的构造消歧分类器,无须 手工构造大规模具有词义标注的语料库,实验证明基于多分类器决策是能够提 高消歧准确率的。 第四章在对有导词义消歧方法的缺点( 人工标注语料的繁重劳动和数据稀 疏问题) 分析的基础上,选择词义指示词作为词义消歧特征,并采用一种统计 的机器学习方法( 基于种子优选的词义知识获取方法) 高效的从语料库中获取 代表多义词各义项的指示词集。 第五章在第四章的基础上,给出了基于词义指示词消歧方法,提出利用一 般互信息和增加条件概率的改进的互信息分别评价最优种子和最优种子所产 生的指示词的评价方法:然后通过对6 种计算搭配强度的统计指标的分析后, 采用m 1 3 方法从待消歧多义词所在的上下文中抽取指示词;最后利用寻找待消 歧多义词的指示词与代表多义词义项的指示词集的最大相似点代表它们的相 似性,通过比较这些最大相似点的相似度实现对多义词消歧。 第六章是实验结果及分析,给出了实验中用到的语料,同时对测试结果进 行了分析和总结,提出了影响测试结果的几个主要因素,并给出了这些问题初 步的解决方案。 第七章对全文进行总结并展望了未来的工作。 7 硕士学位论文 m a s t e r st h e s i s 第二章词义消歧的相关研究方法 与自然语言处理领域中的许多其他问题类似,知识获取是词义消歧闯题所 面临的最大瓶颈,不同的消歧方法其目的都在于有效的获得有助于确定词义 的上下文特征或知识。用于词义消歧的知识源主要包括三类:手工编制的规 则、词典资源和语料库。按照词义消歧的知识源可以将词义消歧方法分为三 大类:基于规则的词义消歧方法、基于词典资源的词义消歧方法和基于语料 库的的词义消歧方法。 2 1 基于规则的词义消歧方法 编制的规则主要依赖语言学家的语言知识,该类方法( m k s k1 9 8 8 ,s s m a l l c r i e g e r1 9 8 2 ) 需要构造描述语言的规则库。规则库中的规则用于描 述限制歧义词的义项特征。由于规则为人工编制,受人所具有知识的限制, 并且不同专家编写的规则不同,具有较大的不一致性,更主要的问题是手工 编写规则既费时又费力,存在严重的知识获取的“瓶颈”问题,因此目前单 纯使用基于手工编制的规则的词义消歧方法已经比较少了。 2 2 基于词典资源的词义消歧方法 语言学家编撰的各种词典含有丰富的词义知识,是词义消歧的重要知识 源。利用词典资源的方法可以分为三类:一是利用词典中给出的释义。代表 性的工作有l e s k & m i c h a e l ( 1 9 8 6 ) 通过计算词典释义中对多义词各义项的定 义和歧义词上下文词汇的词义定义覆盖量,选择覆盖量最大者作为歧义词的 当前词义的方法,yw i u 岱( 1 9 9 0 ) 、l u k ( 1 9 9 5 ) 也采用过类似的方法。在汉 语中主要有l a m ( 1 9 9 7 ) 等利用现汉中的释义文本和同义词词林的 语义类,对实词多义词进行词义消歧。但由于词典资源中对多义词各义项的 描写是以一种概括的方式进行的抽象总结的结果,因此利用词典释义的方法 对实际语料的消歧效果并不理想。 8 硕士学位论文 m a s t e r st h e s i s 利用词典资源的第二类是利用词典中给出的实例。词典资源中给出的实例 往往具有代表性,但由于很多常见的语义搭配在词典资源中并没有给出,单 纯的利用词典资源中给出的实例作为消歧知识存在着严重的数据稀疏问题。 利用词典资源的第三种方法是利用义类词典。义类词典主要以同义或反义 来表达词语之间的关系。著名的英语义类词典有g r o g e t s i n t e r n a t i o n a l t h e s a u r u s ) ( 1 9 7 7 ) 和w o r d n e t ( 1 9 9 0 ) ,汉语中这样的词典有同义词词 林( 1 9 8 3 ) 和由董振东教授研制的机器概念词典h o w n e t 。 使用词典作为消歧所用信息源的优点在于计算机可以从词典中自动获取 消歧知识,存在的问题是这些知识并不完备。其一是词典提供的知识只是词 义的部分知识,一些词在使用过程中所产生的新知识没有体现出来,另外, 词典中收录的词条并不能覆盖实际语言中使用的所有词。因此利用词典资源 时需要解决逐渐向词典中增加新知识的学习问题,并且还需要解决词典中没 有收录的词的问题。目前仅仅使用词典资源的消歧方法是比较少的,通常是 将词典资源与语料库结合起来用于词义消歧。 2 3 基于语料库的词义消歧方法 近年来,随着计算机硬件以及互联网技术的飞速发展,搜集并构建超大 容量的电子语料库成为可能。在2 0 世纪6 0 年代著名的b r o w n 语料库只有1 0 0 万词次,七八十年代的b i r m i n g h a n l 语料库只有2 0 0 0 万词次,而到今天,几 亿甚至几十亿词次的语料库很容易就能收集到。因此,基于大规模语料库的 词义消歧成为可能,并已逐步占据了主导地位。 根据用于获取词义知识的语料库是否含有词义标注,基于语料库的方法 可以分为有指导和无指导的方法。 2 3 1 有指导的词义消歧方法 有指导的词义消歧歧知识学习方法指从带词义标记的语料库中获取词义 消歧知识用于词义消歧的方法。典型的有指导的方法主要包括:基于b a y e s 判 别的方法、基于互信息的方法、决策树的学习方法、决策表的学习方法、概 9 硕士学位论文 m a s t e r st h e s i s 率的学习方法和基于实例的方法。 ( 1 ) 基于b a y e s 判别的方法( w ig a l e ,k c h u r c h d y a r o w s k y ,1 9 9 2 ) 该方法从标注了语义的语料库中训练语境与词义之间的依赖关系得到词义知 识库;根据词义知识库中的知识,对于一个具体上下文中的待消歧多义词计 算在当前语境下取哪个义项的可能性最高,就将该义项判定为该多义词在当 前语境下的意思。 根据b a y e s 方法,在上下文c 中的多义词w 所属的义项s 应当满足公式 ( 2 】) 。 p ( s f c ) p ( s kl c )s t s 。 ( 2 1 ) 由贝叶斯规则,先验概率e ( s 。f c ) 可以转换为后验概率,见公式( 2 2 ) 。 p ( s k 伊掣 眨2 , 因为p ( c ) 是一常量,则有公式( 2 3 ) 。 s 一a r g m a x p ( s kic ) 一a r g m a x “ ;a r g m a xp ( c l s k ) p ( s k ) 乱 ! 剑坠巡堂 p ( o ( 2 3 ) 上下文c 可以用其中的词语w i 来表示,则有公式( 2 4 ) 。 p ( c l ) 一e ( t w , i c l s 。) 一1 - i p ( l s 。) ( 2 。4 ) 一e c 因此,多义词义项判定规则可表示为公式( 2 5 ) 。 s = a r g m a x l o g p ( c s k ) p ( s t ) 】 r1( 2 5 ) 一p x | 1 0 9 疆p ( w 川s t ) + l o g p ( s 。) l ( 2 ) 基于互信息的方法( b r o w n ,p e t e rf 1 9 9 1 ) ,该方法采用f l i p f l o p 算 法寻找当特征集与义项集的互信息达到最大值时所对应的义项为该多义词所 1 0 硕士学住论文 m a s t e r st h e s i s 属的义项。 互信息方法首先随机的将多义词的所有义项f ,t :,t ,分成两类,记作 月= 机,厂2 j :然后寻找多义词的示意特征h ,v :,v ,的一个分类 a 一臼,q : ,计算q 与r 的互信息值,见公式( 2 6 ) 。 啦q ) _ 荟寥l o g 揣 ( 2 6 ) 为了使( 2 6 ) 的计算值最大,需要根据q 再调整r 的分类,反复进行这 个过程,直到i ( n ,q ) 的值不能再提高为止。 ( 3 ) 决策树( b l a c k e z r a ,1 9 8 8 ) 方法,决策树( d e c i s i o nt r e e ) 基于 “提问一回答”机制,根据多义词义项的不同特征进行一系列的“提问一回 答”逐步减少多义词义项的不确定性,从而作出正确的义项判断。b l a c k ( 1 9 8 8 ) 曾采用这种学习方法学习了5 个含有4 个词义的多义词的决策树。首先从语 料中抽出含这些多义词的句子,每词各有2 0 0 0 个句子,用其中1 5 0 0 个句子 作为每个词的训练样本,最终依每个多义词中的8 1 个上下文类获得这5 个词 的决策树。 ( 4 ) 决策表( y a r o w s k y 1 9 9 4 ,k i v e s t1 9 8 7 ) 方法,决策表的形式为一 个二元组( 条件,值) 。对于词义消歧问题,在决策表中,条件对应多义词 的一个搭配,值是这个多义词在两个不同词义下的概率似然比,决策表按似 然比由大到小排列,似然比大的搭配被排到决策表的前面位置,表明该搭配 可以表征某一多义词的词义。y a r o w s k y ( 1 9 9 4 ) 对多义词在一篇特定文章中 和在一个特定上下文环境中具有的词义情况进行了实验调查,发现两条规律: 在给定话题或文本中每个词只表现出一个词义( o n e s e n s ep e rd i s c o u r s e ) 。 一个多义词在一个搭配中只有一个词义( o n e s e n s e p e rc o l l o c a t i o n ) 。即 在给定搭配中每个词只表现出一个词义,不同搭配所对应的词义是不同的, 如果能找出对多义词排歧最有用的搭配,则可用它来解决多义词的问题。在 对多义词经过手工标注后,按搭配类型进行统计,计算对数似然比,见公式 1 1 硕士学位论文 m a s t e r st h e s i s ( 2 7 ) 。 崦篆等瓮磊 c z , 由公式( 2 7 ) 得到的数据按降序放在决策表中,最后根据决策表中的排 序决定多义词的义项。 ( 5 ) 概率的学习方法( b r u c e r 1 9 9 5 ,b r u c e ,r e b e c c a j a n c y w e i b e l 9 9 4 , b r u c e p e d e r s e n1 9 9 7 ) ,该方法使用了可分解模型将一个概率模型表示 为边缘分布的乘积,其中个边缘分布由互相依存的交量组成。最终目的是 学习可分解模型的一个子集,最好地表示变量之间的依存关系。该学习算法 能从带词义标记的语料库中学习特征之间的依存关系。 ( 6 ) 基于实例的方法( n 蜀h w e e t o u h i a n b e n g l e e1 9 9 6 ,1 9 9 7 ) , 该方法需要从已标注过词义的语料中学习用于消歧的多种特征,形成样本特 征集,对于一个待消歧词语所在的上下文,找出其特征集,将它们与学习到 的每个样本特征集比较,与样本集中最匹配的样本对应的词义为该上下文中 多义词所对应的词义。 有指导方法的优点在于消歧准确率较高,但由于手工构造大规模具有词 义标注的语料库十分困难,难以实现大规模的词义消歧。 2 3 2 无指导的词义消歧方法 无指导的词义消歧歧知识学习方法指从不带词义标记的语料库中获取词 义消歧知识用于词义消歧的方法。典型的无指导的方法包括:双语对齐的方 法、基于机读词典、义类词典( y a m w s k y1 9 9 2 ) 的方法、自举( b o o s t t r a p p i n g ) 的方法、基于向量空间的方法等。 ( 1 ) 双语对齐的方法( d a g a n ,i t a i m a r k o v i t c h1 9 9 2 ) ,该方法从对齐 的双语语料库中学习词义消歧知识,例如,多义词“b a n k ”有两个词义: 银行,河岸。从对齐的双语语料库中可以知道该多义词在当前的句子中被 翻译为“银行”还是“河岸”,由此知道多义词“b a n k ”在该句子中的词义。 这样不用人工标注语料,通过使用对齐的双语语料库,就能够获得大量的该 硕士学位论文 m a s t e r st h e s i s 多义词的排歧实例。但这种方法需要大规模对齐的双语语料库,这本身就是 一个很困难的问题。 ( 2 ) 基于机读词典( l e s k m i c h a e l1 9 8 6 ) 的方法,该方法主要用到词 典和语料库两种资源。基于机读词典的一类方法是利用词汇在词典中不同义 项的定义。k s k ( 1 9 8 6 ) 的方法假设一个词的词义和定义该词义的释义词之 间存在明显的语义关系。在1 0 个词的上下文窗口中,计算多义词周围的词与 该多义词在 o x f o r d sa d v a n c e dl e a r n e f sd i c t i o n a r yo fc u r r e n te n # i s h 中的 各词义释义文本的重叠程度即共有的词数,以重叠词的个数最多的释义 文本作为多义词此时具有的词义。l e s k 的实验结果表明,在 p r i d ea n d p r e j u d i c e ) ) ( 傲慢与偏见) 的样本片段中只有5 0 - 7 0 的词被正确地标上词 义。这种方法的缺点表现在三方面:当多义词的上下文与其对应的释义文 本无重叠词或重叠词较少时,无法确定该词正确的词义;多义词的释义文 本中的一些词( 如虚词) 与多义词的意义联系不大,但在排歧过程中同等对 待,由此导致判断错误;由于释义文本中的词本身可能是歧义的,在利用 释义文本进行排歧时只对释义文本与多义词周围的词的重叠度进行计算,没 有考虑词在意义上的重叠。 基于机读词典的另一类是利用义类词典。义类词典主要以同义或反义来表 达词语之间的关系。y a r o w s k y ( 1 9 9 2 ) 年提出利用义类词典 r o g e r s i n t e r n a t i o n a l t h e s a u r u s ) ) 和百科全书,学习表示各个语义类的凸显词。主要过 程是:统计语义类中各个词在百科全书中的每次出现,利用互信息计算该类 的凸显词,建立这个语义类的分类器。这种方法的主要缺点有:统计各类的 凸显词时将一个多义词的每次出现平均分到各个相应类中,引入统计噪音, 特别是如果一个多义词的出现在某类中占相当大的比例,计算出的凸显词很 可能是错误的凸显词。其次,y a r o w s k y 统计各类的凸现词时,语料类型受限 于百科全书。, ( 3 ) 自举( b o o s t t r a p p i n g ) 的方法( h e a r s t m a a r t i l 9 9 5 ,y a r o w s k y l 9 9 5 ) , 该方法首先由人工选择质量较好的搭配实例作为最初的种子,而后使用主题 约柬扩大搭配实例,再利用这些带义项特征的实例对多义词消歧。自举的学 习方法存在的问题是仍然需要人工标注部分语料,实验表明,在人工标注实 1 3 硕士学位论文 m a s t e r st h e s i s 例时,每个词义至少要有1 0 个实例,因此工作量也是相当大的,该类方法也 可以看作半指导的方法。此外,在自举的学习过程中还有可能从错误的实例 中学习到错误的数据。 ( 4 ) 基于向量空间的方法( s c h u t z e1 9 9 3 ) ,此类方法也称为自动聚类 的方法。s h u t z e 利用向量空间模型,首先得到一个多义词在大规模语料库中 的每次出现,将它们表示为一个词向量,然后将多义词周围的词分别用上下 文向量表示,则这个多义词的词向量就是这些上下文向量的质心向量。采用 e m 聚类算法对词向量进行聚类,将词向量分成若干个词义向量,每个向量代 表一个词义,由人来区分每个向量所对应的词义。这种方法的缺点是需要人 去对应各词义向量对应的词义,并且很难完成大规模词义排歧的工作。 无指导方法的缺点在于对消歧初始知识的选取往往带有主观性,准确率 不够稳定。但由于无指导方法不需要手工标注的语料库,比有指导方法具有 更广阔的发展空间。 2 4 本章小结 本章介绍了词义消歧的相关研究方法,主要概述了词义消歧的知识源和 消歧方法的分类,并对基于语料库的词义消歧方法进行了详细的分析和比较, 这为本文的主要工作奠定了基础。 1 4 硕士学位论文 m a s t e r sh e s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 运动学题库及答案简单
- 2025学年湖北省部分学校高二语文上学期开学测试卷附答案解析
- 山西省晋城市2022-2023学年八年级上学期期末语文试卷(含答案)
- 国职五级滑雪题库及答案
- 扫雪除冰安全教育培训课件
- 2025年礼仪考试综合题目及答案
- 2025年德育教育考试试题及答案
- 2025年广东数学学考试卷及答案
- 2025年化学考试卷基础题及答案
- 慕课课件用WPS打开
- 无人机应用技术培训教材
- 地铁安保培训课件
- 华中数控车床课件
- 2025年食品安全监督员专业技能考核试题及答案解析
- 七年级初一新生家长会上校长走心讲话:陪孩子一起长大是一场不能重来的旅程
- 企业微信办公使用教程
- 智慧零碳园区综合解决方案
- 学堂在线 大学历史与文化 章节测试答案
- 大学澡堂管理办法
- 2025年全国“质量月”企业员工全面质量管理知识竞赛题库及答案
- 百货商场服务礼仪培训
评论
0/150
提交评论