




已阅读5页,还剩76页未读, 继续免费阅读
(计算机应用技术专业论文)新闻语料库中基于概念网络的词语相关度计算.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e r t a t i o nf o rm a s t e rd e g r e eo fs c i e n c e e a s tc h i n an o r m a lu n i v e r s i t y u n i v i d :1 0 2 6 9 lilr l li lli iul l l l i iiii y 18 4 7 0 6 6 s t u d e n ti d :5 1 0 8 1 2 0 1 0 4 2 b a s e do nc o n c e p tn e t w o r ki nn e w s c o r p u s d e p a r t m e n t : m a j o r : g q ! 卫p 坠! 星! p p ! i 堡堑i q n r e s e a r c hd i r e c t i o n :翌缱垫旦堑垒丛i n i n g a d v i s o r : m a s t e rc a n d i d a t e :l i u j i n p a n o c t 2 0 1 0 l 华东师范大学学位论文原创性声明 郑重声明:本人呈交垆位论文嘲j 秆谚料压勘j j i ;谑习治铆词键蝴 是在华东师范大学攻读硬生博士( 请勾选) 学位期间,在导师的指导下进行的研究 工作及取得的研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已 经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文 中作了明确说明并表示谢意。 作者签名:垄13 金弘日期! 刊口年f 1 月析日 华东师范大学学位论文著作权使用声明 嘲衙隅科岳中耘撩稳豫钔讹专账复埔系本人在华东师范大学攻读学 位期间在导师指导下完成的硕岩博士( 请勾选) 学位论文,本论文的研究成果归华 东师范大学所有。本人同意华东师范大学根据相关规定保留和使用此学位论文,并 向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和 电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校 将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的 标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文幸, 于年 月日解密,解密后适用上述授权。 ( 、) 2 不保密,适用上述授权。 新签名蚴:本人签名鎏j 姊 矽o 年f1 月订日 “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的 学位论文( 需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) , 未经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论 文,均适用上述授权) 。 趔金睑硕士学位论文答辩委员会成员名单 姓名职称单位备注 顾君忠教授华东师范大学主席 吕钊副教授华东师范大学 杨静副教授华东师范大学 i v 华东师范大学硕士学位论文摘要 摘要 词语相关度是用来衡量两个词语相关程度的一个可度量的数值,词语相关度 计算研究是在自然语言处理的众多应用中的基本研究方向,词语相关度计算方法 水平的提高对于自然语言处理的很多方面有重要的意义,例如文本聚类、语义消 歧、语义w e b 、信息检索等,但是当前词语相关度计算只是单纯的通过统计或语 义词典来计算两个概念之间的相关度,没有将两种方法结合起来,同时不能体现 概念之间的隐式关系。本文提出一种新的在新闻语料库中基于概念网络来计算词 语相关度的方法。 目前大多数计算词语相关度主要有两种方法,一种方法是利用统计,通过词 语的共现频率来计算词语的相关度,主要缺点是通过统计的方法不能准备的反映 词语之间的固有联系,造成关系丢失。另一种方法是利用语义词典,由于语义词 典由专家构建,该方法的主要缺点是不能动态的反映词语意义的变化,或及时的 引入新的词语。同时之前的研究方法侧重于一对词语之间相关度的计算,忽略了 词语之间是互相联系的。 针对上述缺点,本文提出了相应的解决方案。首先,构建一个新闻语料库, 利用新闻语料库及时性等优点,通过对新闻语料库中共现词语的统计来计算词语 的相关度。其次,针对统计的缺点,引入维基百科相关度来对概念的相关度进行 矫正,保证词语之间的固有联系,结合上述两步,提出s w r n w ( s i n g l ew o r d r e l a t e d n e s sc o m p u t a t i o na l g o r i t h mf o rn e w sc o r p u sb a s e dw i k i p e d i a ) 算法,然后根 据s w r n w 词语相关度算法的结果来构建一个概念网络,通过概念网络中词语 之间路径的计算来获得更多词语的相关度,这样就较好地克服了词语孤立的缺 点。 实验结果表明,本文提出的改进方法的效率较之先前有了较大的提高,从而 为更加有效地解决词语相关度计算做了有益的探索。 关键词:词语相关度,新闻语料库,概念网络,共现 v ,f 华东师范大学硕上学位论文 a b s t r a c t a b s t r a c t w o r dr e l a t e d n e s si st h em e a s u r e m e n to ft h er e l a t i o n s h i pb e t w e e nt w ot e r m sa n d t h er e s e a r c ho fw o r dr e l a t i v i t yi sab a s i cr e s e a r c ht o p i ci nt h ef i e l d so fn a t u r el a n g u a g e p r o c e s s i n g t h ed e t e r m i n a t i o no fr e l e v a n c eo fa n yg i v e nw o r dc o m b i n a t i o ni s a p r o f o u n di s s u ei nm a n ya p p l i c a t i o n so fn a t u r el a n g u a g ep r o c e s s i n g ( n l p ) ,s u c ha s d o c u m e n tc l u s t e r i n g ,w o r ds e n s ed i s a m b i g u a t i o n ,s e m a n t i cw e b ,i n f o r m a t i o nr e t r i e v a l b u tt h em e t h o du s e dt oc o m p u t ew o r ds e m a n t i cr e l a t e d n e s si sj u s tt ou s ead i c t i o n a r y o rc o r p u sa n dd o n tc o m b i n eb o t ho ft h e m i nt h i sp a p e r , an e wm e t h o di sp r o p o s e dt o c o m p u t et h er e l a t i v i t yo ft e r m si nt h en e w sc o r p u sw h i c hi s b a s eo nt h ec o n c e p t n e t w o r k t h e r ea r et w om a i nm e t h o d st oc o m p m ew o r dr e l a t e d n e s s ,o n ei st oc o u n tt h e c 0 o c c u r r e n c eu s et h ec o r p u s ;t h ed r a w b a c k so ft h i sm e t h o di st h a tt h es t a t i s t i cc a n t s h o wt h ei n h e r e n tr e l a t i o n s h i pb e t w e e nw o r d s t h eo t h e rm e t h o di st ou s ead i c t i o n a r y o rd o m a i no n t o l o g y t h ec o m m o n l ya p p r e c i a t e do n t o l o g yd e l i c a t e l yc r e a t e db yt h e e x p e r t sa n dt h er e l a t i o n s h i p i nt h eo n t o l o g yi s s u b j e c t i v eb a s e do np e r s o n a l u n d e r s t a n d i n ga n da l s oi n s e n s i t i v em e a n i n gt h a ti tc a n te v o l v ew i t ht i m ea n di sh a r d t oa b s o r bn e ww o r d s t 1 1 ep r e s e n tw o r dr e l a t e d n e s sm s e g c hp a y sc l o s ea t t e n t i o nt o s i n g l ew o r d sp a i ra n di g n o r e st h er e l a t i o nb e t w e e n w o r d s i nt h i sp a p e r , w ep r o p o s es o l u t i o n st os o l v et h ea b o v ep r o b l e m s f i r s t l y , w e c o n s t r u c tan e w sc o r p u s ,a n dm a k eu s eo ft h e f e a t u r eo fn e w st oc o u n tt h ew o r d s c o - o c c u r r e n c e s e c o n d l yw ei n t r o d u c et h ew i k i p e d i at ov o i dt h ea f o r e m e n t i o n e d d r a w b a c k sc a u s e db ys t a t i s t i c so ft h ec o r p u s t h e nw ec o n s t r u c tac o n c e p tn e t w o r k u s i n gt h er e s u l to fs w r n - w ( s i n g l ew o r dr e l a t e d n e s sc o m p u t a t i o na l g o r i t h mf o rn e w s c o r p u sb a s e dw i k i p e d i a ) w ec o m p u t et h ew o r dr e l a t e d n e s su s i n gt h ew e i g h to fp a t hi n t h en e t w o r kw h i c hc o u l do v e r c o m et h ed r a w b a c ko fw o r di s o l a t e d t h ee x p e r i m e n t a lr e s u l t sh a v ed e m o n s t r a t e dt h ea d v a n t a g ea n dv a l i d i t yo fo u r p r o p o s e dm e t h o d s a n dt h em e t h o dw ep r o p o s e dw i l lg i v eag o o de x p l o r a t i o nt ot h e r e s e a r c ho fw o r dr e l a t e d n e s s k e yw o r d :w o r dr e l a t e d n e s s ,n e w s c o r p u s ,c o n c e p tn e t w o r k , c o - 0 c c u r r e n c e 华东师范大学硕士学位论文目录 目录 a b s t r a c t v i 目录1 第一章绪论3 1 1 词语相关度的研究背景3 1 2 新闻语料对词语相关度研究的意义5 1 3 本文的研究思路及创新点6 1 4 本文组织结构8 第二章相关研究工作9 2 1 词语相关度与相似度的研究现状9 2 1 1 统计方法9 2 1 2 知识库方法l l 2 2 语料库现状13 2 3 词共现模型概述1 4 2 3 1 词共现的原理。1 4 2 3 2 词共现的定义1 5 2 3 3 词共现模型的应用一1 5 2 4 最短路径算法简介16 2 5 本章小结17 第三章单个词语相关度s w r n w 计算方法19 3 1 新闻语料库环境生成1 9 3 1 1 新闻文档的抓取1 9 3 1 2 新闻文档内容提取2 0 3 1 3 新闻文档分词统计2 2 3 2s w r n w 词语相关度计算方法2 4 3 2 1s w r n w 的共现模型2 4 3 2 2s w r n w 共现方法优选一2 5 3 2 3 s w r n w 维基因子2 8 3 2 4s w r n w 相关度计算公式一3 0 3 2 5s w r n w 算法中的参数确定3 l 3 3 本章小结。3 3 第四章概念网络中词语相关度a d i j k s t m 算法3 5 4 1 算法背景3 5 4 1 1 概念网络介绍3 5 4 1 2 概念网络作用3 7 4 2 概念网络的构建3 9 4 2 1 共现矩阵3 9 4 2 2 相关度矩阵4 0 4 2 3 概念网络矩阵4 l 4 3a d i j k s t r a 词语相关度计算方法4 2 华东师范大学硕十学位论文目录 4 3 1d i j k s t r a 算法介绍4 2 4 3 2a d i j k s t r a 算法描述4 3 4 3 3a d i j k s t r a 算法实例4 6 4 4 本章小结4 8 第五章系统实现及实验4 9 5 1 算法流程图4 9 5 2 实验环境5 0 5 3 实验样本5 0 5 4 对比试验设计5 l 5 5 实验结果5l 5 5 1s w r n w 算法与共现性算法的比较5 2 5 5 2 不同词语层次计算相关度比较5 3 5 5 3 使用概念网络相关度计算和没有使用概念网络相关度计算的比较5 4 5 5 4 使用概念网络相关度计算和g o o g l e 相关度计算的比较5 4 5 6 实验分析5 6 5 7 本章小结5 6 第六章总结与展望5 8 6 1 本文工作总结5 8 6 2 后续工作及展望5 8 参考文献6 0 后记6 :! 附j i 之6 3 2 华东师范大学硕士学位论文第一章绪论 第一章绪论 本章首先介绍了词语相关度计算的研究背景和面临的挑战,接着概述了新闻 语料库的研究意义,阐述本文使用w e b 新闻作为新闻语料输入的原因,同时在 前人的基础上提出了解决当前算法不足所采用的策略,最后总结了本文的主要工 作和组织结构。 1 1 词语相关度的研究背景 词语相关度计算是自然语言处理领域的一个基本主题,在自然语言处理的很 多方面如信息检索、知识挖掘、扩展查询等都应用到词语相关度的计算。例如在 信息检索领域,随着计算机技术的广泛应用,每年都要产生大量的数据,如何快 速有效的对这些信息进行处理和过滤,对自然语言处理技术的要求也达到一个新 的高度。传统的全文检索技术基于关键词匹配进行检索,往往存在检索质量不高 的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求, g o o g l e 、b a i d u 等搜索引擎的出现,正是满足了人们从网络中寻找有用知识的需 要。虽然当前的搜索技术能在一定程度上帮助我们从w e b 中获取有用的知识, 但是精度不够,不能满足实际需要,调查表明,大多数的普通用户都不能找出合 适的词汇来把自己的检索描述清楚。此时词语相关度的计算,为这一难题的解决 提出了一种有效的解决方式“智能检索 。智能检索通过相关度算法,主题 词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智 能知识提示,最终帮助用户获得最佳的检索效果,比如用户查询“计算机 ,与 “电脑”相关的信息也能检索出来。上诉例子仅仅是词语相关度计算众多应用场 合中的一例,随着自然语言处理技术的发展,知识挖掘技术的提高,相关度计算 作为一项很重要的技术被用于在关系挖掘、语义消歧、自动翻译、文本的聚类和 分类、语义w e b l 2 5 】等方面。因此,词语相关度计算技术的提高对于自然语言处 理,信息检索等各方面有非常重要的影响。 当前的语义相关度计算主要有两种方法,一种是使用语义词典或领域本体的 方法,例如使用w o r d n e t ( h t t p :w o r d n e t p r i n c e t o n e d u ) 或者h o w n e t 华东师范大学硕士学位论文第一章绪论 ( h t t p :w w w k e e n a g e c o m ) 。本体表达了不同词语之间的关系,每个词语包含若干 个意元,通过计算意元之间的层次关系来计算词语的相关度。本体通常是由领域 的专家构建可以使用较少的存储空间来表达词语之间的关系,但是使用本体计算 词语相关度也有一定的缺陷: ( 1 ) 本体在构建的过程中掺杂了专家的主观理解,不同的专家对同一个词 语的划分存在不同的看法。 ( 2 ) 本体不能够及时的更新。随着时间的发展,某些词语的概念会发生变 化,多出来一些在当时环境下新的意元,而这些新的意元在当时可能是更受人们 关注的,所以会对词语相关度的计算产生很重要的影响。 另外一种方法就是使用大规模语料库,通过统计的方法计算词语的相关度, 这种方法能避免上诉的问题。最基本的方法是通过统计两个词语的共现次数来计 算,两个词语在一个特定的窗口中出现的次数越多,说明两个词语存在某种联系 的可能就越大,其相关度就越大。但是仅仅通过统计共现的次数依然有很多的问 题需要解决: ( 1 ) 通过统计的方法无法体现词语之间的固有联系。 有些词语的本意之间是有定的联系的,例如“苹果和“水果”,“苹 果”属于水果的一种,但是通过统计当前网络上的信息,可能这两个词语之间的 联系就没有或者很小了,因为在当前时代背景下“苹果 和“计算机”的共现性 更强,而忽略了“苹果”这个词语本身的联系。 ( 2 ) 仅仅通过统计的方法不能挖掘出词语之间的隐形关系。 词语之间也是相互联系的,例如在用统计的方法我们可以获得词语“姚明 共现的词语“中国 ,“n b a ”等,在这里我们可以认为“中国”和“n b a 通过“姚明也有一定的联系,在某种程度上也可以认为上述两词语有相关度。 当前的相关度计算方法把每个词语孤立的计算其相关度,不能挖掘词语之间的隐 形关系。 本文针对以往方法的缺陷,提出了s w r n w ( s i n g l ew o r dr e l a t e d n e s s c o m p u t a t i o na l g o r i t h mf o rn e w sc o r p u sb a s e dw i k i p e d i a ) 算法来计算单个词语的相 关度,同时提出了在概念网络中使用a d i j k s t r a 算法来计算词语的相关度。本文 选取新闻作为统计的语料,一方面是由于新闻的更新性很强,另一方面新闻语料 的内容能及时反应当前的热点时事,能更好的克服使用知识本体方法的不足。同 4 华东师范大学硕士学位论文 第一章绪论 时,引入维基百科对统计方法的结果进行校正,维基百科是一个开放的平台,是 一部用不同语言写成的网络百科全书。具备一定的权威性,通过对维基百科内容 的分析,获取词语之间的层次关系,使用该层次关系对统计的结果进行校正,保 证词语之间的固有联系。获取单个词语的相关度之后,通过词语之间的关联使词 语之间构成一个网络,该网络是一个带权无向图,通过在该图中使用a d i j k s t r a 算法来计算词语之间的相关度。 1 2 新闻语料对词语相关度研究的意义 新闻语料是利用当前的新闻事件作为语料文本的输入,经过一定的处理技术 获得的语料库。常见的新闻语料有报刊,杂志,w e b 新闻等,其中本文使用的新 闻语料为w e b 新闻,如未特意声明,均指w e b 新闻语料。w e b 新闻是利用万维 网技术,采用网页的方式进行新闻发布的网络新闻业务,是传统新闻业务的一种 延伸,但它比传统的新闻发布方式有着更强的时间观,更能体现出新闻的纪实性。 突发事件的突发性、偶然性和不可预料性,使得新闻网页比其他媒体有着更快反 应的优势【1 6 j 新闻语料作为一种特殊的语料,有着本身特有的特征,利用这些特征可以有 效的提高词语相关度的准确性: ( 1 ) 新闻语料的范围划分比较清晰。 新闻语料根据其表达领域可以分为不同的频道,例如新闻语料可以分为经济 频道,政治频道,体育频道等,在某一频道的新闻语料描述的是在该频道内发生 的新闻事件,在某一特定频道的新闻语料中词语的表达更具针对性。 对于相同的词语在不同的频道中出现,表达的意思就可能有很大的区别, “火箭”这个词语在体育频道中出现时表达的意思就是n b a 中的一支球队,但 是在科技频道中出现时表达的意思就是飞行器或飞船的意思,出现在军事频道就 是导弹的意思。所以,在计算相关度时,如果在体育频道中“火箭”就和“篮球 的共现性很大,相应的相关度就很大,但是在科技频道中“火箭 和“篮球的 共现性就很小,故相关度较小。 ( 2 ) 高频率的更新。 新闻由于其时效性的目的,更新的速度很快,新闻门户网站提供2 4 小时的 华东师范大学硕士学位论文第一章绪论 不间断更新,覆盖范围包括生活的方方面面。w e b 新闻时效性的特点也使语料库 中统计的词语更能反映在当前背景下的含义。 利用该特征,可以保持语料库的更新,能及时的把握当前的时事热点,以及 人们感兴趣的词语意元。 ( 3 ) 新闻的内容简洁,篇幅较短。 简短是新闻区别于其他文体的主要标志。新闻的主要目的是向用户阐述发生 的事件,故作者更注重文字的有效性,即简单,具体对事件的过程进行描述,内 容集中精炼,结构鲜明。 一方面新闻文档的篇幅较小,分词统计时使用的计算机资源较少,另一方面 新闻文档简洁的特点,很多没有意义的文字没有出现,故统计出的词语共现更具 有统计意义,可以有效的提高词语相关度的计算结果。 ( 4 ) 新闻标题和新闻正文的共现需要区别对待。 新闻标题更能表达一件新闻事件的内容,对主题的描述更具有代表性。新闻 正文是对新闻事件的详细报道,所以在标题中出现的共现性权重要大于正文中的 共现性权重。 对于新闻文档中的共现词语也需要区分对待,如果两个词语在标题中出现, 说明该新闻文档的主要内容就是关于这两个词语的,同时也说明这两个词语的相 关度会比较大,其重要程度要大于在新闻正文中的共现。 但是当前的语料库技术并没有足够的挖掘或利用新闻语料库的特点,本文选 用w e b 新闻作为语料库的语料输入,充分利用新闻语料库的上述特征,提高词 语相关度计算的准确性。 1 3 本文的研究思路及创新点 本文的主要研究内容是在大规模语料库的基础上,通过统计的方法,利用新 闻文档的特征并分析前人计算相关度算法的不足,提出计算词语的相关度的一种 新的解决方法: ( 1 ) 解决本体主观性强和不能及时更新的缺陷。 本文采用门户网站上的新闻来构建语料库,新闻作为统计的语料,一方面保 证了语料库的更新性。另一方面w e b 上的新闻能很好的反映当前时代背景下词 6 华东师范大学硕士学位论文第一章绪论 语的意义,以及及时的把握网络上出现的新词语。 ( 2 ) 解决统计的方法无法体现词语之间的固有联系。 词语之间的固有联系是指词语所表达的意义在人们日常理解中固有的联系, 例如“苹果和“水果”对于大家来说都知道“苹果 是“水果 的一种,但是 仅仅使用统计的方法,可能“苹果”和“计算机”会在很多地方共现,但是和“水 果”共现的次数比较少,这就造成了关系丢失。本文在计算词语相关度时引入了 维基百科,来对统计的结果进行校正,相对于语义词典,维基百科的词条更接近 人们的日常生活,反映的词语的概念更容易被人接受。 维基百科是一个开放的平台,任何人都可以对一个词条进行编辑和修改,所 形成的词条描述,和词条关系具有很大的权威性。通过词语在维基百科中的层次 关系来调整词语之间的固有联系。 ( 3 ) 解决统计的方法计算出的是单个词语的相关度。 本文提出概念网络来解决计算相关度时词语独立的问题,整个世界就是一个 普遍联系的有机整体,假设词语之间也是相互联系,词语之间构成一张无向带权 图( 网) ,用一条边来连接相关联的两个词语,边上的权重为两个词语的相关度, 通过在概念网络寻找两个词语的路径,来计算词语之间的相关度。 ( 4 ) 使用新闻语料库分频道的特征,对于不同的词语在特定的频道中进行 相关度计算。 在本文中我们把语料库分为了多个不同的频道,在不同的语料库中计算词语 的相关度,减少词语歧义带来的影响。 ( 5 ) 利用新闻语料库标题、正文区别对待的特征,在计算标题、正文共现 时使用不同的计算方法。 该解决方法的主要步骤有: ( 1 ) 选择某一门户网站,对网站的新闻进行迭代抓取构建新闻语料库。 ( 2 ) 其次通过r s s 技术定时从该网站抓取新闻,保持语料库的更新。 ( 3 ) 网络新闻页面解析。通过正则表达式提取新闻的标题和正文同时存入 数据库,并且将词语文档共现信息存入数据库中。 ( 4 ) 引入维基百科,分析维基百科中词语层次关系。 ( 5 ) 单个词语的相关度计算。利用新闻共现性和维基百科计算词语相关度。 ( 6 ) 概念关系网构建。通过每个词语的关联度,构建概念网络。 7 华东师范大学硕士学位论文第一章绪论 ( 7 ) 在概念网络中通过a d i j k s t r a 算法,计算词语之间的相关度。 1 4 本文组织结构 本文各章节安排如下: 第一章:绪论,主要是对词语相关度的词义以及主要计算方法和文章结构进 行说明。 第二章:词语相关度计算及其关键技术,概述词语相关度计算的背景资料, 包括目前国内外计算词语相关度的各种方法、策略和取得的成就。并对这些研究 工作进行分析总结,指出有待改进和值得本文借鉴之处。 第三章:单个词语相关度计算,结合新闻语料库的特点,重点讨论本文提出 的在新闻语料库中计算词语相关度的方法。 第四章:概念网络中计算词语相关度。概念网络的构建,以及在概念网络中 使用改进的d i j k s t r a 算法计算词语的相关度,并通过实验结果证明本文采用的方 法的优越性。 第五章:相关实验结论,主要介绍本文提出的解决方案的实验结果,并由此 得出结论。 第六章:总结与展望。 其中第三章和第四章为本文的重点。 华东师范大学硕士学位论文第二章词语相关度计算及其关键技术 第二章相关研究工作 本章首先结合词语相关度和相似度的联系,介绍了词语相关度和词语相似度 主要的研究方法。同时介绍了当前语料库的现状,结合该现状,提出本文使用新 闻语料库的原因。本文是基于词语共现来计算词语相关度的,所以在第三小节对 词共现模型进行了介绍,为第三章的叙述进行铺垫。在概念网络中计算词语相关 度主要利用了图中的最短路径算法,故在本章的第四部分对常用的最短路径计算 方法进行了介绍。 2 1 词语相关度与相似度的研究现状 词语相关度和相似度都是用来计算一系列词语之间的联系程度,严格意义上 讲相关度和相似度是有区别的,主要区别在于相关度包含词语之间的反义关系以 及整体一部分关系,相似度却不包含这些关系,但是很多的文献对这两点没有做 过多的区分,在本质上,词语语义相关度、词语语义相似度、词语语义距离都是 用来表达两个词语之间关联程度的。 相关度计算是各种信息系统中极为重要的基本技术。语义相关度计算可以应 用到许多领域中,如文本聚类、词语消歧等,目前中文语义相关度的研究并不多, 在现存的计算模型中对词语相关度的度量多以相似度为基础,这导致了相关度计 算应用方面的局限性。语义相关度有两种主要的研究方法【1 2 】:第一类方法是统 计的方法,采用概率统计,参数估计,特征获取等学习模型获得词语共现的规律 来计算词语的相关度。第二类是根据语言知识和分类体系计算通常的方法是利用 知网等知识体系来计算词语的相关度【l 】。 2 1 1 统计方法 在统计方法中,通过对词语共现频率的计算,确定词语间的相关程度,认为 共现频率越高的词语,他们之间的相关程度也越高。共现频率在一定程度上反映 了词语之间的关联程度。当前使用统计的主要方法有: ( 1 ) p o i n t w i s em u t u a li n f o r m a t i o n ( p m i ) ,p m i 是在信息论和统计学中用来 9 华东师范大学硕士学位论文 第二章词语相关度计算及其关键技术 计算相关度的一种方法,同时也是一种计算词语相关度很直观的方法,根据 f 觚o ( 1 9 6 1 ) 提出的方法【2 】,如果两个点( 词语) x 和y 拥有概率p ( x ) 和尸( y ) ,那么 它们之间的互信息定义为: 砸川= l 0 9 2 器 亿, 当词语x 和y 有相关度时,联合概率p ( x ,y ) 将大于p ( x ) p ( y ) ,同时互信息 i ( x ,y ) 0 ,当词语x 和y 没有相关度时,e ( x ,y ) p ( x ) p ( y ) 此时,( x ,y ) 0 。当 词语x 和y 呈互补分布时p ( x ,y ) 将小于p ( x ) p ( y ) ,此时i ( x ,y ) 0 。 ( 2 ) g o o g l ed i s t a n c e ,谷歌距离根据搜索引擎返回的关键字的页数来计算词 语之间的相关度3 1 ,当两个词语有相关度时,其谷歌距离表现的较近,反之,两 个词语的谷歌距离就比较大,使用谷歌距离计算词语相关度的方法如下: ngd(x,y)=maxlog f ( x ) , l o gf(y)-logf ( x , y ) r , 7 l o gm m i n l o gf ( x ) ,l o gf ( y ) 。z 。么7 其中m 表示搜索引擎中所有的页面,f ( x ) 和f ( y ) 表示搜索x 和y 和搜索引 擎返回的搜索结果,f ( x ,y ) 表示两个词语共同出现的页面数目。 当两个词语从不在相同的页面出现时,谷歌距离的值趋向于无穷大,当两个 词语经常在相同的页面出现时,即两个词语的相关度较大时,谷歌距离的值趋向 于0 。 ( 3 ) s e c o n do r d e rc o o c c u r r e n c ep m i ( s o c - p m i ) ( i s l a ma n di n k p e n ,2 0 0 6 ) 。 s o c p m i 利用互信息值,对两个目标词语邻居词语进行排序,使用s o c p m i 算 法的优点是可以更好的计算出两个不经常共现词语的相关度【4 】,此处的p m i 定义 为: f p m i w ) _ l 0 9 2 揣b t ( 2 - 3 ) 其中f ( ) 表示词语t 在整个语料库中出现的次数,f 6 ( t ,w ) 表示词语和词 语w 共现的次数,m 表示语料库中所有词语的总数。对于每一个词语w ,定义了 一个词语集合x ”,该集合根据和词语w 的互信息值以降序排列的形式保存了前 个词语,x ”= z ”) i = l ,2 ,j l f v m ( ,w ) 朋7 ( 乞,w ) f 朋( 屹,w ) 。 1 0 华东师范火学硕士学位论文第二牵词语相关度计算及其关键技术 对于两个词语的卢相关度为: 8 1 f ( w l ,w 2 ,) = ( 厂删( f ) ) ( 2 - 4 ) i = 1 其中y 的值为0 1 。经过归一化之后最终两个词语的s o c p m i 相关度计算 方法为: 跏c 恍,= 等产+ 等 协5 , 2 1 2 知识库方法 随着语义词典知识库的产生,大量的基m e s h ( h t t p :w w w n l m n i h g o v m e s h ) 和w o r d n e t 计算词语相关度的方法开始涌现,最先使用词典数据库来计算词语 相似度的方法可以追溯到【5 】,最直接的计算词语相关度的方法是在词典数据库中 查找两个词语之间的最短路径【l3 1 ,随后,根据词典知识库的结构,通过考虑词 典知识库中的连接方向( h i r s t a n d s t - o n g e ,1 9 9 8 ) ,相对深度( s u s s n a , 1 9 9 3 ; l e a c o c k a n d c h o d o r o w ,1 9 9 8 ) ,和密度( a g i r r e a n dr i g a u ,1 9 9 6 ) 等产生了很多计算相关 度的方法。在介绍几个使用w o r d n e t 来计算词语相似度的方法之前,本文将对 w o r d n e t 进行简单的说明。 w o r d n e t 是由普林斯顿大学的众多心理学家,语言学家和计算机工程师联合 共同设计的一种基于认知语言学的英语同义词词典。在w o r d n e t 中单词以字母 顺序排列,而且按照每个单词的含义构成一个“单词的网络 。它是一个覆盖范 围相当广的英语词汇语义网。动词、名词、副词和形容词各自被组织成一个同义 词的集合,每个同义词集合都表示一个概念的基本意元,并且这些集合之间也由 各种关系连接( 一个多义词将出现在它的每个意思的同义词集合中) 。多个同义 词集合之间有多种关系,例如同义关系、反义关系、继承关系、属性关系等。 w o r d n e t 忽略了英语中较小的虚词集。通过查询概念“c a r ,可以得到如下图所 以的关系图。 华东师范大学硕士学位论文第二章词语相关度计算及其关键技术 鬻q l o r d l i e f 丽b r o w s 毒y 一留匿圆 f i i e h i s l o r y0 p t i o n sh e i d s e a r c h w o r d :l c 可 s e a r f o rc a t n o u n | s e n s e s = r _ 一 t h en 0 1 mc a h a s5s 媳耋e s ( f i r s t3f r o mt a g g e c lt 。- a t s ) 1 ( 5 9 8 ) c a r 。a g t o :a u m m o l ,i 2 a = m a c h i n e ? m 3 t o f c 越 一( am o t o rv e h i d ew i 吐lf o u rw h e = e i s ;u s 砸棼 p r o p e 怂db y 孤i n t 钟n a lc o m b u s 匹o n 铋g 妞e ;”h 芒n 嚣出ac a r t og e ct ow o r k ”) 2 。( 2 4jc a l , r a 互c a r r a i l w a yc a r r a i k o a dc a i 一( aw h e e l e dv e b i c i ea d a p t e dt ot h e 斌so fr a i l r o a d ; ”t h r e ec 瑟sh a dj u m p e d 也er a i i s ”1 3 ( 1 ) c a b l ec a f ,e a r 一( ac o n a n c ef o rp a s s m g e r so r 蠹鼬洳0 1 1ac a b l er a i h v 巧;”e r a - t o o ka c a b l ec 茁t ot h et o po ft h em o u n t ;a i n ” 4 c a l ? g o n d o b ( u h ec o m p a r m l e mt h a ti sg t l s p e n d e df r o ma na 叠s 五i pa n dt h a tc a 廊sp e r s o n n e l a n dt h ec a r g oa n dt h ep o 弧吖p l m t 3 5 c 鑫r :e i e - a e o fc 嚣一( w h e r ep a s s e n g e r sr i d eu pa n dd o w n ;”t h ec 暂w 酗o nt h et o pf l o o r o v e l v i e wo fc a l 图2 1 w o r d n e t 界面示意图 如果我们把同义词集合看成节点,而把它们之间的关系看成有向弧,那么 w o r d n e t 实际上是将语义只是表示成了一张有向图。 设q ,c 2 为两个同义词集合( s y n s e t ) 。 ( 1 ) h i r s t 。s t o n g e 。h i r s t s t o n g e 算法的思想【6 1 是如果两个词语的相似度较 大时则两个词语的同义词集可以通过一条路径连接起来,并且该路径的长度在一 定的范围之内,同时路径的方向不会发生太多的变化,词语相似度的计算方法如 下: r e l h s ( q ,c 2 ) = c p a t h l e n g t h k x d ( 2 6 ) 其中d 为路径方向的变化次数,c 和七为常数,当词典知识库中不存在这样 的一条路径时则认为两个词语之间的相关度为0 。 ( 2 ) l e a c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电设备安装精度控制方案
- 机电设备安装安全保障方案
- 鸡群免疫反应数据分析
- 建筑工地危险源识别与管控
- 消防水系统灭火能力测试方案
- 水痘传染病教学课件
- 水电站厂房基础知识培训课件
- 水电安全知识培训总结课件
- 二零二五年度SAP供应链优化解决方案合同范本
- 二零二五版市政道路灌注桩施工劳务分包合同
- 冷库安全基本知识培训课件
- DB11T 1481-2024 生产经营单位安全事故应急预案评审规范
- 澄海玩具行业出口中存在的问题及对策分析
- MIR睿工业:2025年中国协作机器人产业发展蓝皮书
- 直销管理条例课件介绍
- 养老护理员职业道德培训
- 氧气安全培训课件
- 常见意外伤害的救治与护理
- 肺保护通气策略
- 库房卫生打扫管理制度
- 塑胶料品质协议书
评论
0/150
提交评论