




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 词义消歧是自然语言理解中的一个关键问题,该问题解决的好坏直接关系 到自然语言处理中诸多应用问题的效果优劣。词义消歧对机器翻译、信息检索、 自然语言内容语义分析、语法分析、语音识别和文语转换等自然语言处理课题 的研究都具有重要的理论和现实意义。 国内外的许多学者和研究人员采用有指导和无指导的方法,利用各种词典 做了许多词义消歧工作,取得了较好的效果。由于有导词义消歧需要对训练语 料库进行词义的人工标注,这种标注工作既费时又费力,并且统计结果存在严 重的数据稀疏问题。因此很多学者致力于研究无指导消歧知识获取方法。 本文对无指导的词义消歧进行了比较深入的探讨,本文的研究工作具有如 下几个特点: ( 1 ) 该方法是一种基于电子词典的无指导的词义消歧方法,运用这种方法 可以对多个含有同一多义词的句子中的该多义词同时进行词义消歧; ( 2 ) 使用k - m e a n s 聚类的方法对一个多义词的多个上下文进行聚类,每一 个类中的多义词对应同一个义项: ( 3 ) 使用二阶上下文的方法可以大量地获取上下文中多义词的信息而且防 止了大量噪声的产生。 关键词:词义消歧;k - m e a n s 聚类;无指导学习方法 硕士学位论文 m a s t e r st h e s i s a b s t r a c t w o r ds e n s e d i s a m b i g u a t i o n ( w s d ) i sa l w a y s ak e yp r o b l e mi nn a t u r a l l a n g u a g ep r o c e s s i n gb e c a u s e t h er e s u l to fw s da f f e c t ss e r i o u s l y m a n yp r o b l e m s i n n a t u r el a n g u a g ep r o c e s s i n ga n di n f o r m a t i o nr e t r i e v a l w s di se s s e n t i a lf o rm a n y l a n g u a g ea p p u c a t i o n ss u c ha sm a c h i n et r a n s l a t i o n ,i n f o r m a t i o nr e t r i e v a l ,n a t u r a l l a n g u a g e s e m a n t i c a n a l y s i s ,g r a m m a ra n a l y s i s ,s p e e c hi d e n t i f i c a t i o n ,a n d c o n v e r s i o nf r o mt e x tt os p e e c ha n ds oo n ,w h a ti sm o r e ,i th a sg r e a tt h e o r ya n d r e a l i t ys i g n i f i c a n c e o n r e a l i z i n ga n dg r a s p i n g t h ea c t u a l i t ya n d d e v e l o p i n gt r e n d s n o w , s o m ef o r e i g nr e s e a r c h e r sa n dd o m a i nr e s e a r c h e r sh a v ed o n el o t so f s t u d y o nw o r ds e n s e d i s a m b i g u a t i o n b a s e do ns u p e r v i s e da n du n s u p e r v i s e d a p p r o a c h e s t h e yd oe x p e r i m e n t sb ym e a n so fa l lk i n d so fd i c t i o n a r i e sa n dg e t s a t i s f yr e s u l t s b e c a u s es u p e r v i s e dw s d n e e dt 0l a b e lt h et r a i n e dc o r p u s w h i c h c o s tl o t so ft i m ea n dl a b o ra n dt h e r ei ss e r i o u ss p a r s e n e s so fd a t ai nt h es t a t i s t i c a l r e s u l t ,s om a n y r e s e a r c h e r sd e d i c a t ei nu n s u p e r v i s e dk n o w l e d g e l e a r n i n g t h i sp a p e rg i v e sd e t a i l st ot h er e s e a r c ho nu n s u p e r v i s e da p p r o a c h t h em a i n a s p e c t s o ft h ep a p e ra r ea sf o l l o w s : ( 1 ) w ep r o p o s e da nu n s u p e r v i s e da p p r o a c hb a s e do nd i 舀t a ld i c t i o n a r y w e c a nd ow o r ds e n s ed i s a m b i g u a t i o nf o rm a n yc o n t e x t so fo n ep o l y s e m o u sw o r da tt h e s a m et i m e ; ( 2 ) w ec l a s s i f yt h ec o n t e x t so fm ep o l y s e m o u s w o r db yc l u s t e r i n go fk - m e a n sa n d t h ec o n t e x t si ne a c hc a t e g o r yc o r r e s p o n dt ot h es a n l ow o r ds e n s e ; ( 3 ) t h ea p p r o a c h b a s e do ns e c o n d o r d e rc o n t e x tc a no b t a i nal o to f i n f o r m a t i o ni nc o n t e x ta n dl e s sn o i s ew i l lb ep r o d u c e d k e yw o r d s :w o r ds e n s ed i s a m b i g u a t i o n ;c l u s t e d n go fk - m e a n s ;u n s u p e r v i s e d a p p r o a c h 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究 工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 作者签名: 日期:年月 日 导师签名: 日期:年月 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本 人的学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章 程”中的规定享受相关权益。回重盗塞握銮蜃澄蜃! 旦堂生i 旦二玺i 旦三望 筮壶! 作者签名: 日期:年 月日 导师签名: 日期:年月 日 硕士学位论文 m a s t e r st h e s i s 1 1 课题背景及意义 第一章绪论 信息在当代社会是极其重要的资源,不能充分掌握它、利用它,无论是 对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的 手段至关重要。中文信息自动化处理每提高一步,给我国的科学技术、文化 教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。 反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果 都是严重的。 多义词的词义消歧是为了解决自然语言中同形异义词语在不同上下文环 境中的义项标注问题。该问题普遍存在于各种自然语言之中。在汉语词典中, 多义词约占汉语词语集合的1 4 8 ,但在汉语语料中,多义词出现频率约占语 料总词次的4 2 “3 。可见,多义词在自然语言中尽管数量不多,但出现频率却极 高。 同时,多义词分布的普遍性决定了多义词词义消歧任务必然成为多种应 用问题的关注焦点之一,诸如机器翻译、信息检索、自然语言内容语义分析、 语法分祈、语音识别和文语转换“。据统计,在信息检索中引入部分多义词消 歧技术以后,可使其整个系统的正确率由2 9 提高到3 4 2 ,取得较明显的改 善。可见,只要涉及自然语言的计算机应用,多义词的词义消歧工作就是不可 回避的基础问题。 1 2 词义消歧的主要研究方法 从方法论角度来讲,许多计算语言学问题都可以被形式化为一个分类问 题( c l a s s i f i c a t i o n ) 。同样,词义消歧问题也是一个典型的分类问题,即一个 多义词在一定的上下文环境中的义项,被有限个义项类别进行归属。各种机 硕士学位论文 m a s t e r st h e s i s 器学习的分类方法被应用于词义消歧任务中,如决策树“3 、决策表。1 、 n a i v e b a y e s 脚、神经网络“3 、e x e m p l a r b a s e dl e a r n i n g “、最大熵方法“1 等。 与手工提取规则比较,尽管这些有导的机器学习方法在多义词消歧问题中取 得了较好的效果,但同手工规则一样,有导分类方法难以实现大规模多义词词 义知识的学习和消歧任务。其原因只有一个,即为了获得较好的学习效果和避 免数据稀疏问题,必须对训练语料中的多义词进行大量代价高昂的人工义项 标注工作。因此,很难实现大规模的多义词消歧工作。 目前词义消歧主要分为三种方法: i ) 基于语料库的方法,该方法利用词汇所处的上下文环境以及语科库中 已经消歧过的包含该词的实例的上下文进行消歧; 2 ) 基于知识的方法,该方法利用外部的知识资源,包括各种人工整理的, 用来帮助确定映射关系的资源,进行消歧; 3 ) 采用a i 。1 技术用于词义消歧的方法。 基于a i 的方法产生于6 0 年代。那时a i 技术迅速发展,涌现了大量的神 经网络的模型和算法。与此同时,心理语言学产生了“语义激活”的概念, 这一概念被引入到词义消歧领域。基本思想是,假定一个节点被激活,则就 会扩展到相关的节点,然后顺序激活其他意义的节点。由于这一方法中大量 的手工词义的分类和标注工作需人工完成,所以只能用于严格的受限域,很 难用于大量的真实文本。 基于知识的方法是在9 0 年代以后,随着机读词典、同义词词典( 如同 义词词林) 和规则库的大量涌现,人们开始从这些资源中自动或人工获取知 识,构建大规模的知识库,来完成词义消歧。这类方法又包括基于机读词典 的方法、基于同义词词典的方法和基于规则的方法。在基于规则的方法中, 知识库中存放着大量的规则,翻译的过程就是选择满足规则限制条件的词义。 然面,有限的规则来描述无限的自然语言句子,必然不能完全覆盖所有情形, 这样,新的规则就需不断地进入,这又出现了如何维护整个规则库的完整性、 一致性问题,以及如何归类和排序大量的规则来保证词义消歧的效率问题。 近年来,随着互联网的发展,搜集并构建超大规模的电子语料库成为可 2 硕士学位论文 m a s t e r st h e s i s 能,在2 0 世纪6 0 年代的时候,著名的b r o w n 语料库只有i 0 0 万词次,七八 十年代的b i m i n g h a m 语料库有2 0 0 0 万词次,而到今天,几亿甚至几十亿词次 的语料库很容易就能收集到。这种形式下,基于大规模语料库的词义自动消 歧成为了可能,并已逐步成为占主导地位的词义消歧方法。在这其中,出现 了以日本京都大学的著名学者m a k o g on a g a o ( 即长尾真) 为代表的基于实例 的方法“”和以i b m 的专家p e t e rf b r o w n 为代表的基于统计的方法“。 1 3 国内外学术界对词义消歧的研究 1 3 1 国外的研究情况 年代以前,词义消歧研究主要采用人工智能方法,其困难在于要用人工 来编制大量的消歧规则,不仅覆盖面很窄,而且开销巨大,即所谓知识获取的 “瓶颈”问题。9 0 年代以后,由于大规模机读词典和语料库的出现,词义消歧 研究进入了一个以语料库方法为主的新时期。 , c o w i e ”、h g i r r e 和r i g a u “3 1 等人使用基于机器可读词典( m a c h i n e r e a d a b ed i c t i o n a r y ) 的方法进行词义消歧实验。该方法主要通过约束性规 则来确定上下文中的词义,这需要一个具有完备性、一致性、可扩充性和对 开放领域的适应性的知识库。如何有效构造规则库和进行知识获取是该方法 的一个瓶颈问题。n g 。“、r e s n i k “”等许多研究人员使用基于语料库的统计方 法,通过计算给定文本中词汇在上下文中的概率权熏,如贝叶斯分类器 ( n a i v e b a y e sc l a s s i f i e r ) o “、基于类的方法( c l a s s b a s e da p p r o a c h ) 。” 等。 国外消歧工作的典型方法有: ( i ) 无导词义消歧的典型方法: 1 ) h i n r i c h s c h u t z e m l1 9 9 8 在c o m p u t a t i o n a l l i n g u i s t i e s 上提出了基于 向量空间的词义识别的方法: 硕士学位论文 m a s t e r st h e s i s 2 ) i d o d a g a n ,a l o n l t a i ,s h a u l m a r k o v i t c h “”在1 9 9 1 的a c l 大会上提出了 双语对齐方法; 3 ) y a r o w s k y 3 在1 9 9 2 的p r o co ft h e i n t 1c o n fo nc o m p u t a t i o n a l l i n g u i s t i c s 提出了机器可读词典方法; 4 ) 向量空间中的词义识别方法。 ( i i ) 有指导词义消歧典型方法: 1 ) e z r a b l a c k 。”1 9 8 8 在i b mj o u r n a lo fr e s e a r c ha n dd e v e l o p m e n t 提 出了决策树的方法; 2 ) m o o n e yrj ”“1 9 9 6 在p r o co ft h ec o n fo r le m p i r i c a lm e t h o d si n n a t u r a ll a n g u a g ep r o c e s s i n g 上提出了用n a i v e b a y e s 方法进行词义消歧; 3 ) h w e e t o u n g 3 1 9 9 7 在p r o co ft h e2 n dc o n fo ne m p i r i c a lm e t h o d si 1 1 n a t u r a ll a n g u a g ep r o c e s s i n g 提出了e x e m p l a r b a s e dl e a r n i n g 的方法; 4 ) l e s k 1 和w i l k s 提出了一种通过计算一个多义词各义项的释义文本与 该词所在当前文本的匹配程度来排歧的方法。 1 3 2 国内的研究情况 我国的词义消歧工作开始于9 0 年代初期,在方法上大体可以分为基于规 则和基于统计两种。随着大规模语料库的发展和文本标注的日益成熟,目前 词义消歧主要以基于统计的方法为主。国内主要的研究情况如下: 清华大学计算机系,黄昌宁、童翔( 1 9 9 3 ) 利用同义词词林中的语义 分类,对汉语合成词中的单字进干亍语义标注。 l a m ( 1 9 9 7 ) 利用现汉中的释义文本和同义词词林的语义类,对 实词多义词进行词义消歧,平均正确率为4 5 5 。 清华大学计算机系李涓子( 1 9 9 9 ) 利用同义词词林、现代汉语辞海 以及“人民日报”语料库对文本中的多义词进行词义标注,多义词消歧的正 确率为5 2 1 3 。 微软中国研究院黄昌宁。、清华大学智能技术与系统国家实验室李涓子 等基于词林中的同义词集在文本中出现时,与它们前后同现的那些实词在统 4 硕士学住论文 m a s t e r st h e s i s 计意义上是相似的这一假设,提出一种对语言学家凭语感对词的分类进行定 量分析的方法。 这个方法的实验是这样设计的。 从词林中任选两个词类相同的语义小类a 和b ,设c 和c 。分别表示 类a 和b 中全体单义词组成的集合。即 c - - w a 。,w a :,w a 。 c f w b 。,w b 。,w b 。) 其中,w a ;( i = 1 ,m ) 和w b ,( j = 1 ,n ) 分别是类a 和类b 中的一 个单义词。依照词义向量的构造原理,可以在一个大规模语料库中分别获取上 述任意一个单义词的词义向量s ( w ) 。然后对词表c = c uc 。中的所有词, 按词义向量之间的距离远近重新分类,聚类结果也 是两个词集c 。和c :,有c = c 。uc 。且c 。f - c 2 _ 中。如果c 。和c 。在一定程度 上分别对应于c 。和c 。则说明假设2 成立。 聚类时采用自底向上的最短距离算法,首先把词表c 中在语料库中出现 次数大于1 0 0 的词分别归入词集c :和c 。然后再依次对低频词进行聚类。 东北大学朱靖波等( 2 0 0 1 ) 提出的基于对数模型的消歧方法对2 万词测 试语料( 汽车配件专业领域) 中的名词和动词分别取得了8 4 7 和8 5 1 的消 歧正确率。 中科院计算所鲁松等提出的基于向量空间模型中义项词语的无导词义消 歧方法在对l o 个典型多义词的消歧测试中取得了平均正确率为8 3 】3 的消 歧结果。 华中师范大学全昌勤、何婷婷提出了通过机器学习初始搭配实例获取最 优种子,再由最优种子扩增更多指示词,最后利用这些指示词实现具有多个义 项的多义词消歧方法。 哈尔滨工业大学赵铁军领导的课题组利用h o w n e t 作为资源对词义消歧进 行了研究。卢志茂等提出了一种基于依存分析改进贝时斯模型的词义消歧 模型,利用汉语义类词典h o w n e t 对汉语语料进行词义消歧,使词义消歧正确 率有了明显的提高。他们对实验测试样本进行全文词义标注,消歧对象是所 硕士学位论文 m a s t e r st h e s i s 有的多义词语,并且在单纯的贝叶斯消歧模型中引入依存文法分析,对消歧 对象的上下文进行合理限制,有效缩小上下文的窗口,改善词义消歧实验效 果。 1 4 文本组织 本文各章安排如下: 第一章是绪论,概述了词义消歧的意义和应用背景,介绍了词义消歧的 国内外现状。 第二章重点介绍了词林( c i l i n ) 和知网( h o w n e t ) ,通过举例的方式重 点介绍了这2 个义类词典的结构和我们所关心的多义词词典。 第三章是自然语言处理中消歧相关模型和算法的介绍,综述了当前自然 语言处理中的词义消歧中的几种重要的模型和算法。 第四章是词义消歧的核心技术,在这一部分,我们设计了个无指导的 词义消歧算法,运用了建立同义词集、聚类方法、二阶上下文等方法对多义 词进行消歧。 第五章是结果分析,使用词林( c i l i n ) 和知网( h o w n e t ) 作为词典,对 一些多义词进行消歧,并把结果与前人的结果进行对比分析。 第六章对全文进行了总结并展望了未来的工作。 硕士学位论文 m a s 豫r st h e s i s 第二章相关语言资源简介 2 1 同义词词林( c i i j n ) 2 1 1 同义词词林简介 同义词词林简称词林,这部义类词典把词义分为大、中、小类三级, 共得到1 2 个大类、9 4 个中类、1 4 2 8 个小类,小类以下再按同义词词群设立标 题词,共含3 9 2 5 个标题词。 词林中用第一个大写英文字母作为大类的编号,紧接着用第二个小写 英文字母表示中类,义类代码的第三和第四位是两个阿拉伯数字,用来表示小 类的编号。小类以下的标题词还可细分为两个层次,各用两位阿拉伯数字表 示。例如,词“觉悟”的义类代码为“ga1 5 ”,其中大类编码g 表示“心理 活动”,中类编码ga 表示“心理状态”,小类编码是ga1 5 ,它在词林中 的内容显示为: 也就是说,ga1 5 包含两个标题词:“醒悟”和“懂事”,分别代表这一小类以 下的两个词群。因此,词“觉悟”的完整义类代码是ga1 5 0 1 0 1 词林以词的义项为收词单位,多义词按其词义被赋以不同的义类代码。 例如,词“材料”在词林中有三个义项:( 1 ) 可以直接造成成品的东西:( 2 ) 提供著作的内容的事物或可供参考的事实:( 3 ) 比喻适于做某种事情的人才。 它们对应的义类代码分别为“b80 6 ”“dk 1 7 ”和“al0 3 ”。对“材料” 一词的词义消歧过程,就是要根据该词出现的上下文给它标注一个正确的义 类代码。 如上所述,词林的义类代码系统构成了一幅有层次结构的树状图,如 硕士学位论文 m a s t e r st h e s i s 图2 1 所示。 太奥 申燕 士麦 旋小囊 图2 1词林义类代码系统构成的树状图 词林收入的词条实际上包括了词和部分短语、成语、俗语,总共5 0 1 5 4 条。词林中多义词的分布情况如表1 所示。统计表明,词林中总共有 7 4 3 0 条多义词,占词条总数的1 4 8 ,即七分之一强。值得注意的是,仅占词条 总数7 5 2 的3 7 7 4 条单字词中,却有近一半( 即1 8 0 1 条) 是多义的:相比之下, 在4 6 3 8 0 条多字词中,只有1 2 1 是多义的。 表2 1词林中多义词的分布情况 单字词多字词词条总数 词条数百分比词条数百分比 单义词 1 9 7 35 2 3 4 0 7 5 1 8 7 9 4 2 7 2 4 多义词 1 8 0 14 7 7 5 6 2 9 1 2 1 7 4 3 0 总计3 7 7 4 1 0 0 4 6 3 8 0 1 0 0 9 ;5 0 1 5 4 2 2 知网( h o w n e t ) 知网( 英文名称为h o w n e t ) 是一个以汉语和英语的词语所代表的概念 为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基 本内容的常识知识库。 硕士学位论文 m a s t e r st h e s i s 2 2 1 知识字典 知识词典是知网系统的数据库。其中的中英双语知识词典则是最基础的 数据库。它是中文简体知识词典和中文繁体知识词典的基础。现有的中英双 语知识词典包含11 万多个记录。每一个词语的概念及其描述形成一个记录。 每一种语言的每一个记录都主要包含4 项内容。其中每一项都由两部分组成, 中间以“= ”分隔。每一个“= ”的左侧是数据的域名,右侧是数据的值。它 们扫 歹0 如下: n x = 词语 ex = 词语例子 gx = 词语词性 d e f = 概念定义 知网知识词典词语条目举例: n o = 0 0 5 7 5 6 n e = 病 gc = n ec = we = d is e a s e ge = n ee = d e f = d is e a s el 疾病 n o = 1 0 2 3 6 8 wc = 治病 gc = v ec = we = t r e a tad i s e a s e ge = v ee = d e f = c u r el 医治,c o n t e n t = d is e a s ei 疾病,m e d i c a li 医 9 硕士学位论文 m a s t e r st h e s i s 2 2 2 知网的特色 知网的特色主要表现在如下方面: 第一,知网是个利用一种知识词典的描述语言来描述概念与概念之间 的关系以及概念的属性与属性之间的关系的知识关系。 第二,网所描述的不仅包含同类概念之间的关系,如上下位关系、同义 关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿 主关系,还包含非同类概念之间的关系,如属性值和属性的指向关系、事件 和角色关系。 第三,从语言学的角度,知网也可认为是语义研究的结果。知网对语义 研究的贡献可以归结为两点。一是把语义研究置于知识描述的基础上;二是 语义描述呈网状。我们可以从知网的概念描述中形成如下的关系网。这个关 系网的关键是:对个别概念进行静态的、孤立的描述,最终形成动态的、相 关的知识网。 第四,虽然知识词典是知网最主要的数据库,但它同时包含有若干文件, 如主要特征,次要特征等文件,它们也都是知网不可或缺的数据库,而不只 是标注的规格文件。 1 0 硕士学位论文 m a s t 百r st h e s i s 第三章与词义消歧相关的模型和算法 3 1 消歧常用模型 所谓消歧模型就是词义消歧的数字化模型,常见的有两种消歧模型:向量 空间模型( v s m ) 、对数模型( l m ) 。 3 1 1 向量空间模型( v s m ) 向量空间模型( v s m ) 具有较强的可计算性和可操作性,已经被广泛地应用 于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 领域的各项应用中,并且取得了较好的效果。这一 模型框架主要的思想和方法如下。 3 1 1 1 文档的_ 形式化表示方法 在向量空间模型中文档被形式化为n 维空间中的向量点,空间的一维是倒 排表( i n v e r t e di n d e x ) 中的一个元素,形式如下: u 2 w m 。1 住w 2 ”m 3 , w n ,册 该向量中每一分量的值表示该词语在此文档中的权重,用以刻画该词语 在描述此文档内容时所起作用的相对重要程度。词语权重计算唯一的准则就 是要最大限度的区分不同文档。其中最为典型的并被广泛使用的文档词语权 重计算方法为t f i d f ,如式( 3 1 ) 所示: 帆= 矿。l o g ( n n 女+ 0 0 1 ) ( 3 1 ) 式( 1 ) 中的w 。为( 文档i ) 中( 词语k ) 的权重:t f 。是( 词语k ) 在( 文 档i 中出现的频率:l o g ( n n k + o 0 1 ) 是( 词语k ) 在所有文档集合中分布情况 的量化( n :文档集合中的文档数目:n k :如现过( 词语k ) 的文档数目) 。 式( 1 ) 的提出是基于这样一种假设:对区别文档最有意义的词语应该是那 些在文档中出现频率足够高,但在整个文档集合的其它文档中出现频率足够 1 1 硕士学位论文 m a s t e r st h e s i s 少的词语。应该看出,向量空间模型的量化基础是词语的出现频率和出现文档 频率。 3 1 1 2 距离计算的方法 查询和文档之间的相似度计算是通过c o s i n e 距离计算来完成的,见式 ( 3 2 ) : s i r e ( q ,d 2 ) 一 了w d 留 ( 3 2 ) 向量空间模型的最大优点就在于它在知识表示方法上的巨大优势。在该 模型中,文档的内容被形式化为多维空间中的一个点,以向量的形式给出。也 正是因为把文档以向量的形式定义到实数域空间中,才使得模式识别和其它 领域中各种成熟的算法和计算方法得以采用,极大地提高了自然语言文档的 可计算性和可操作性。同时在多项实际应用中也已证明向量空闻模型的 t f i d f 文档表示方法的有效性。 在词义消歧任务中引入向量空间模型,对这两个完全不同的应用进行一 个有趣的类比和映射,使向量空间模型t f i d f 文档词语权重计算方法成为多 义词义项形式化的有利工具。 3 1 2 基于向量空间模型的无导学习方法 3 1 2 1 义项矩阵的构造 本文将多义词一定范围内的上下文词语定义为多义词的一个上下文向 量,上下文向量集合称之为义项矩阵。对于一个多义词而言,义项的数日就 是该多义词义项矩阵的数量。在义项矩阵中,每行是多义词该义项的一个上 下文环境,每列是多义词上下文环境中距离该多义词的相对位置,其形式定 义如下: 1 2 硕士学位论文 m a s t e r st h e s i s 设多义词词集为w ,上下文词词集为c w , 其义项矩阵可定义为 地= w t j 。一 i = l ,2 ,n :j = l ,2 ,2 m w j j c w 在上下文范围大小的确定,即n l 的取值上,我们通过把上下文矩阵帆化为一 个符号信息系统,应用信息增益的方法,在大规模语料库中试验得到上下文 各个位置权重表,如表3 1 : 表3 1 上下文位置信息增益表 左上下文右上下文 位置编号信息增益位置编号信息增益 一1 2 9 6 4 9 5 8 9 2 4 0 5 3 0 4 5 + 1 3 0 6 7 7 4 5 9 6 0 1 3 0 2 5 4 - 2 2 2 9 8 8 5 9 2 6 2 5 0 4 4 8 2 + 2 2 4 3 2 0 2 4 8 1 2 8 3 0 0 9 6 卜3 1 8 8 3 7 3 3 5 7 5 6 7 4 7 7 + 3 2 0 3 9 0 9 9 9 2 0 6 1 1 5 7 卜钌】_ 5 9 1 6 5 1 3 1 0 0 1 2 9 5 8卜钉 j 7 7 5 2 1 5 5 3 2 3 6 6 4 6 4 一5 i 3 6 0 9 1 1 3 5 5 8 6 5 4 7 4 十5 1 5 5 2 9 5 5 7 7 0 4 1 2 3 1 4 一6 l1 2 0 3 3 8 5 4 6 9 1 2 6 6 - 6 1 3 0 9 5 8 1 9 7 6 2 1 3 2 8 9 一7 0 9 1 3 9 2 2 8 9 4 2 4 2 0 6 5 6 + 7 1 0 4 1 2 5 0 4 9 4 5 3 3 5 0 3 8 0 6 9 5 9 6 2 3 4 4 4 3 9 8 6 9 3 + 8 0 8 1 4 8 4 3 9 3 7 5 2 3 9 7 8 2 一9 0 5 4 3 5 4 1 7 4 7 s 0 8 3 1 7 7 + 9 0 6 4 3 9 3 6 0 2 5 6 2 5 5 9 5 一l o 0 3 8 5 7 9 1 5 9 3 3 1 2 2 4 6 7 + 1 0 0 4 8 5 1 3 5 7 9 8 6 3 7 2 1 7 3 一1 1 0 2 9 6 8 1 0 4 4 0 9 7 3 5 3 3 斗1 1 o 3 6 7 3 5 4 7 1 3 1 8 1 7 5 6 9 一1 2 0 2 2 3 6 7 4 9 2 5 3 4 0 6 9 6 4 + 1 2 o 2 8 5 8 0 9 9 9 3 9 6 8 3 0 9 根据表中的试验数据,我们确定上下文范围为7 ,即m = 7 。 3 1 2 2 计算权重的t f i d f i g 方法 在以前的工作中,鲁松。”等把t f i d f 词语权重计算方法从信息检索的 领域应用到消歧领域取得不错的效果,在这里我们使用改进了的t f i d f i g 方法完成多义词义项到向量空间的映射,为消歧过程中的距离计算提供一个 更准确的义项知识表示。 硕士学位论文 m a s t e r s1 h e s i s 考虑到词语频率、词语倒排文档频率、归一化引子,一般用来区分文档 的典型的i d f 公式为: ( f * l o g ( n n , + o 0 1 1 压可两丽 ( 3 3 ) 公式( 3 3 ) 中的w t 为 中 的权重:t f 。是 在 中出现的频率:l o g ( n n k + o 0 1 ) 是 在多义词所有义项矩阵 中分布情况的量化形式,其中n 为多义词义项矩阵的数目,n k 为出现过 的义项矩阵的数目:公式( 3 3 ) 的分母是对各分量进行标准化。t f i d f 方法可 以把在菜个文档出现频率高,而在整个文档集合出现频率低的词语很好的区 分出来,但存在一个问题,一些助词如“的,了”在文档中出现的频率都很 高,对于区分文档没有很大的实际意义,但t f i d f 方法无法很好的区分开来, 基于此,我们考虑至信息增益的方法来为区分文档提供更大的信息量。 在这里我们把文档集合看成一个符合某种概率的信息源,依靠训练数据 集合的信息熵和文档中词语的条件熵之间的信息量的增益关系确定该词语在 文本分类中所能提供的信息量。 ,g 一( j ) 一日( d ) 一日( d i t e r m ( i ) ) ( 3 4 ) 公式( 3 4 ) 中的日( d ) 为: h ( d ) ;锄p p ) l o g :p ) ( 3 5 ) 其中, 删) 2 豇1 w o 而r d s e t 丽( d ) l ( 3 - 6 ) 说明:1w o r d s e t ( d ) l 表示文档d 中词语集合的个数 公式( 3 4 ) 中的日( d i t e r m ( i ) ) 为t e r m ( i ) 的条件熵,定义为公式( 3 7 ) 1 4 硕士学位论文 m a s t e r st h e s i s ( d i t e r m ( i ) ) =e ( c w ) h ( d f c w )( 3 7 ) “而“) 其中其中e ( c w ) ;* j t e r m ( i ) 的上下文词语。矿的统计概率:r c 一是在 上下文词语已知情况下的条件熵,公式如下: 日( d l c w ) = 2 p ( d ic w ) x l o g :p 似i c 们( 3 8 ) 固 由此可计算出,g ( 1 ) ,这样权重的公式t f i d f i g 为: w a 一丝! ! ! 丝丝圭! :! ! 垒堡 ( 3 9 ) 芝:。陋1 0 9 ( - v m + 0 0 1 ) i g k ) 2 3 1 3 对数模型( 堋) 对数模型 3 03 l m 从概率理论角度来说,词义自动消歧的过程相当于根据给 定输入条件选择最大概率的词义这样一个过程。根据b a y e s i a n 公式,词义s 的条件概率p ( s l x ) 计算公式为 帅,;掣挚 ( 3 1 0 ) 在实际应用中,事先给定的上下文x 对于所有词义来说是不变的,因此 p ( x ) 可以忽略不计,不会影响不同词义的概率计算结果,则 a r g m a x p ( sl 功;a r g m a x p ( s ) p ( xls ) ( 3 11 ) 词义s 的概率p ( s ) 是根据训练数据中词义s 的分布来进行计算的,因此, 这种方法的性能很大程度上依赖于概率p ( xfs ) 的计算方法。为了使讨论具有 普遍性,将输入x 描述成由用于词义消歧的特征构成的向量表示: x = c f ,= ,f :一厂:,f 。= , 其中f 。表示第i 个特征,f 。表示第i 个特征值 硕士学位论文 m a s t e r st h e s i s 我们可以根据词义特征的条件概率近似地计算条件概率p ( xls ) 。假设对 于给定的词义来说,每个特征都条件无关,根据“n a i v e b a y e s 方法”,条件概 率p ( x s ) 的计算公式为 球f s ) 一n j ;f 产) ( 3 1 2 ) 根据公式( 3 1 1 ) 和( 3 1 2 ) 可以得出词义s 的条件概率p ( s i x ) 的计算公式 为 p ( s i 工) - p ( s ) n p ( f ,。厂,i s ) ( 3 - 1 3 ) 对公式( 3 1 3 ) 中的词义条件概率p ( slx ) 取对数,则可以转换为 1 n p o i x ) 曲妒。) 耳p i f ,2f 弘) ) 乩砷) + 善1 n p 旧,2 f 少) ( 3 1 4 ) 根据b a y e s i a n 公式,条件概率p ( f 。= f s ) 的计算公式为 吧t m 。竖娑学业 慨 利用公式( 3 1 5 ) 替换公式( 3 t 4 ) 中的条件概率p ( f 。= f 。| s ) ,则 脚胁岬暗。里娑学业 = l n _ p + 蓍1 n p ( f ,2 ,) + 荟p 。i f ,2 厂,) 一荟1 n p 。) 。薹1 n p ,。,) + p e ( s l f ,2 ,m 一1 ) h 耶) 1 6 假设给定上下文x ,待消歧词汇w 具有两个词义s t 和s 。,如果计算结果为 e ( s ,i 算) 尸( s :i x ) , ( 3 1 7 ) 硕士学位论文 m a s t e r st h e s i s 中o p ( s 。i x ) l ,o p ( s 。l x ) l ,则选择词汇w 在当前上下文x 条件下的正确 词义为s ,由于p ( s ,l x ) o ,p ( s 。l x ) o ,根据对数函数l n 的特点,同样可以得出 i n e ( s 。l x ) 一l n p ( s :i 茗卜0 ( 3 1 8 ) 利用公式( 3 1 6 ) 来计算不等式( 3 1 8 ) 中的条件概率p ( s 。l x ) 和p ( s 。l x ) ,则 1 n p ( s l l z ) 一1 p o z i x ) 。荟1 n p 何,2 ,) + 荟1 n 尸o - i f ,。,) 一 一1 ) 1 n , 善1 n p 旧,。厂,) + 荟1 n :i f ,。厂户。一1 ) 1 n p o :) 善洳地- 帆5 厂广1 n 弛z f f ,2 厂,) ) 一。一1 ) 尸o ) - 1 n :) ) - 角l n p e g ( s :, i i f f , ,- 一f 厂) ,i 一( n - 1 ) i n ,p b ( s :1 ) i ( 3 1 9 ) 根据公式( 3 1 9 ) 的计算,可以得出如下结论: l n p ( s ,i x ) 一i n p ( s :i x ) = 称公式( 3 2 0 ) 为对数模型。 ,o 黼3 l s 。 = 。# 慧毒鬣z 。, c 0 选择词义s : 1 7 硕士肇位论文 m a s t e r s 丁h e s f s 3 2 消歧常用算法 到目前为止产生了许多消歧中常用的算法,如n a i v e - b a y e s 算法、k - m e a n s 聚类算法、m d l 聚类算法。 3 2 1 n a i v e - b a y e s 算法 n a y v e b a y e s 方法( 又称s i m p l eb a y e s 方法) 。”快速、精确,能够反应出所 有属性对最终结论的影响,而且算法实现也比较简单,只需要对数据进行一次 扫描。另外,它还是一种非常强壮的算法,具有较强的抗干扰能力,因此,越来 越多地引起人们对它的重视。但是,n a i v e b a y e s 方法的缺陷是它必需依赖于 个强的前提条件,即它要求组成数据库的各属性在给定类中的取值必须是 互相独立的,也就是说,任何属性的取值都不依赖于其它属性,而在实际应用 中满足这种条件的情况并不多见。 在分类问题中,先是学习机通过一组给定的训练事例( 包含类标志,用以 指明事例所属的类) 产生并输出分类器。然后,利用这个分类器为没有类标志 的事例( 也可称为测试事例) 分类。因此,我们可以把分类器看成是对每一个类 分别进行“分辨计算”的函数集合,使用这个函数集将事例对应于每一个类进 行计算,然后根据其计算结果把事例划分到具有最高计算值的类中。例如,e 表示事例,f j ( e ) 表示第i 个类的“分辨计算”函数,ck 表示分类器将事例 划分到的类,即 v i 厂。口) ,f 。但) a 七) 一e c 。 n u v e - b a y e s 方法是一种基于概率的分类方法,它通过事例的属
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全书完整的课件
- 偶像的力量课件
- 保健品业内知识培训课件
- 伤寒论中药课件
- GB∕T 35770-2022《 合规管理体系 要求及使用指南》之8:“5领导作用-5.1.1治理机构和最高管理者”专业深度解读和应用指导材料(雷泽佳编写2025D0)
- 2025-2026学年云南省屏边县民族中学高三物理第一学期期末学业质量监测模拟试题
- 四川省宜宾市江安县2021-2022学年九上期末数学试卷(解析版)
- 疫情期间用工管理办法
- 潍坊热线管理办法细则
- 社区档案存档管理办法
- 老年肺炎的护理课件
- 开业活动湘菜活动方案
- 展会保险销售方案(3篇)
- 环保设备介绍
- 天气学原理和方法知识点梳理
- 公司第三方回款管理制度
- 海上风电场集电线路方案的选择
- 县人民医院(三级乙等)“十五五”规划
- 会展经济与管理课件
- 中国民用航空飞行学院《力学(一)》2023-2024学年第二学期期末试卷
- 家庭健康知识课件
评论
0/150
提交评论