




已阅读5页,还剩59页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于hnc的汉语句子相似度算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文在词语相似度计算的基础上重点研究了中文信息处理中的句子相似 度。首先,比较了词语相似度计算的不同方法,实现了目前效果较好的基于h n c 的词语相似度计算方法:其次,提出了基于h n c 判断同义词和反义词的方法, 简化了词语相似度计算,并用计算机实现;然后,在词语相似度计算的基础上, 针对目前句子相似度计算方法中存在的没有考虑句子结构,词语在句子中出现 的重要程度,词语在句子中所起的作用等方面的不足,提出了基于h n c 语义块 的句子相似度计算方法。最后,结合主观题自动批阅,给出了句子相似度计算 方法的应用实例,应用实践表明本文所提出方法在逻辑错误判断,语义理解方 面比目前现有的句子相似度的方法更接近人为判断结果,更易实现,操作更简 单。具体来讲:本文在句子相似度计算的研究过程中,所做的主要工作及取得 的主要成果如下: ( 1 ) 比较分析了词语相似度计算的各种方法,实现了基于h n c 的词语相似 度计算方法,为下一步句子相似度的计算打下基础。 ( 2 ) 提出了一种基于h n c 同义词和反义词判别方法。通过词对出现的规则 来判断是否是同义词反义词,由于引入了语义,简化了词语相似度的计算。 ( 3 ) 在词语相似度的基础上,提出了基于h n c 语义块的句子相似度计算方 法。该方法充分考虑了语句中各个词语在语句中所处的位置以及所起的作用。 ( 4 ) 把基于h n c 语义块的句子相似度的计算方法用于成语解释的自动批 阅中,通过老师人工批阅和计算机批阅的学生得分情况对比表明本文所提出的 句子相似度计算方法的实用性和有效性。 关键字:h n c ,词语相似度,句子相似度,主观题批阅 a b s t r a c t i nt h i st h e s i s ,s i m i l a r i t yc o m p u t i n gw a ss t u d i e da n dt h ee m p h a s i si ss e n t e n c e s s i m i l a r i t yc o m p u t a t i o nb a s e d o nw o r ds i m i l a r i t yc o m p u t a t i o n f i r s t l y , d i f f e r e n t m e t h o d so fw o r ds i m i l a r i t yc o m p u t a t i o na r ea n a l y z e d ,a n dt h e nt h eh n c b a s e dw o r d s i m i l a r i t yc o m p u t a t i o nm e t h o di sr e a l i z e d ,w h i c hs h o w si t sg o o dp e r f o r m a n c e a t p r e s e n t s e c o n d l y ,t h em e t h o du s e dt oj u d g es y n o n y m s a n da n t o n y m sw h i c hi sb a s e d o nh n ci sp r o p o s e d i tc a ns i m p l i f yt h ep r o c e s so fw o r ds i m i l a r i t yc o m p u t a t i o n ,a n d w er e a l i z ei to nc o m p u t e r t h e n ,a f t e rw o r ds i m i l a r i t yc o m p u t a t i o n ,f o rt h er e a s o no f p r e v i o u sm e t h o d sd i d n tt a k es e n t e n c es t r u c t u r e ,t h ei m p o r t a n c eo fw o r d st h a tt h e y a c ti nt h es e n t e n c e sa n dt h ed i f f e r e n tr o l eo ft h ew o r d si nt h es e n t e n c e si n t o c o n s i d e r a t i o n ,an e wm e t h o do fc a l c u l a t i n gs e n t e n c e ss i m i l a r i t y b a s e do nh n c s e m a n t i cb l o c ki sp r e s e n t e d f i n a l l y , t h en e ws e n t e n c e ss i m i l a r i t yc o m p u t a t i o n m e t h o di su s e di ns u b j e c t i v eq u e s t i o n sa u t o c h e c k a p p l i c a t i o np r a c t i c es h o w st h a t t h ep r o p o s e dm e t h o di nt h i sp a p e ri sm o r ec l o s et op e o p l e sj u d g m e n tt h a nc u r r e n t m e t h o d si nt h ea s p e c to fd e t e r m i n i n gl o g i ce r r o r sa n du n d e r s t a n d i n gs e m a n t i c m e a n i n g f u r t h e r m o r e ,t h i sm e t h o di se a s i e rt oa c h i e v ea n do p e r a t e t ob em o r es p e c i f i c t h em a i nw o r ka n dr e s e a r c hr e s u l t si nt h i st h e s i sa r ea s f o l l o w i n g : ( 1 ) t h em e t h o d so fc h i n e s ew o r ds i m i l a r i t yc o m p u t a t i o na r ea n a l y z e d ,a n dt h e h n c b a s e dw o r ds i m i l a r i t yc o m p u t a t i o nm e t h o di sr e a l i z e d ,s ow ec a nu s ei t i nt h e c o m p u t a t i o no fs e n t e n c e ss i m i l a r i t y ( 2 ) am e t h o du s e dt oj u d g es y n o n y m sa n da n t o n y m sw h i c h i sb a s e do nh n ci s p r o p o s e d w h e t h e rt h ew o r di s as y n o n y mo raa n t o n y mi sd e t e r m i n ew i t hr u l e s m o r e o v e r , t h ei n t r o d u c t i o no fs e m a n t i c ss i m p l i f i e s t h ec a l c u l a t i o no ft h ew o r d s i m i l a r i t y ( 3 ) o nt h eb a s i so fw o r ds i m i l a r i t yc o m p u t a t i o n ,an e wm e t h o do fc a l c u l a t i n g s e n t e n c e ss i m i l a r i t yb a s e do nh n cs e m a n t i cb l o c ki sp r e s e n t t h em e t h o dt a k e sf u l l c o n s i d e r a t i o no ft h ei m p o r t a n c ea n dt h er o l eo fe a c hw o r di nt h es e n t e n c e ( 4 ) t h es e n t e n c e ss i m i l a r i t yc o m p u t a t i o nm e t h o db a s e d o nh n cs e m a n t i cb l o c k i su s e dt oc h e c kt h ei n t e r p r e t a t i o no ft e r m s t h ec o m p a r i s o nb e t w e e np e o p l e m a n u a l c h e c k i n ga n da u t o c h e c ks h o w st h a tt h ep r o p o s e dm e t h o di s m o r ep r a c t i c a la n d e 仟e c t i v e k e y w o r d s :h n c ,w o r ds i m i l a r i t yc o m p u t a t i o n ,s e n t e n c e ss i m i l a r i t yc o m p u t a t i o n , s u b j e c t i v eq u e s t i o n sa u t o c h e c k i i 图表清单 图2 1 同义词词林语义分类示意图9 图3 1 同义词、反义词判别结果2 3 图4 1 基于相同词汇的句子相似度计算示意图2 6 图4 2 语义块识别流程图3 2 图5 1 主观题自动批阅流程图3 9 图5 2 主界面4 1 图5 3 教师登录界面4 1 图5 4 教师出题模块4 2 图5 5 学生登录模块4 2 图5 6 学生答题评分窗口4 3 图5 7 自动批改模块4 3 图5 8 题1 人工批阅与自动批阅结果对照折4 5 图5 9 题2 人工批阅与自动批阅结果对照折线图4 6 图5 1 0 题3 人工批阅与自动批阅结果对照折线图4 7 图5 1 1 题4 人工批阅与自动批阅结果对照折线图4 8 图5 1 2 题5 人工批阅与自动批阅结果对照折线图4 9 表1 1 几种句子相似度计算方法的对比4 表2 1 组合符号1 1 表2 2 参数设置1 9 表2 3 实验结果1 9 表3 1 基于单个汉字的字面相似度算法计算实例2 3 表3 2 基于语义的词素相似度算法计算实例2 3 表3 3 基于h n c 的词语同义词判断2 3 表4 1 语义块相似度计算结果3 4 表4 2 语句相似度计算结果3 5 表5 1 人工批改与自动批改的结果4 4 v 表5 2 题1 批改结果的情况分析4 6 表5 3 题2 批改结果的情况分析4 7 表5 4 题3 批改结果的情况分析4 8 表5 5 题4 批改结果的情况分析4 8 表5 6 题5 批改结果的情况分析4 9 表5 7 分析统计表5 1 5 0 v l 注释表 h n ch i e r a r c h i c a ln e t w o r ko fc o n c e p t s ,概念层次网络 t f i d ft o k e nf r e q u e c n yi n v e r s ed o c u m e n tf r e q u e n c y ,词频逆文本频率 肋r d n e t 语义网络 b n fb a c k u s 。n a u rf o r m ,巴克斯诺尔范式 v s mv e c t o rs p a c em o d e l ,空间向量模型 c p c o n c e p tp r i m i t i v e ,概念基元符号 基元概念 j 基本概念 l 逻辑概念 j l 基本逻辑概念 s 综合概念 f 语习概念 x 表示物的属性 p具体概念的人 w 具体概念的物 1 w 基本物概念 v 动态 g 静态 u 属性 z 值 r 效应 e 特征 b 对象 a 作用者 c 内容 v i l 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:史聋。 日期:加 年fl 月f g 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于, 不保密匕l 。 学位论文作者签名:之毒 导师签名:社墨轰殳 签字日期:卅年亿月培日 签字日期: 浒2 月8 日 江苏大学硕士研究生毕业论文 1 1 选题背景和意义 1 绪论 随着社会信息化的发展,计算机在人们生活中扮演着越来越重要的角色,人们使用计 算机从事科学计算、实时管理、办公、通信、教育、娱乐等各种活动。在计算机普遍使用 的今天,人们强烈希望可以以一种更加方便的方式( 智能化人机接口) 同计算机进行交流, 而自然语言处理是智能化人机接口的核心技术之一。另一方面信息技术飞速发展的今天, 人们每天都要获取和处理大量的信息,其中9 0 以上是文本信息。如何使计算机帮助人来 处理大量的文本信息成为计算机科学研究领域的热点之一,文本处理同样离不开对语言的 理解。自然语言处理f 是在这样的需求下产生的一门实用性学科n 】。 自然语言处理是指用计算机对语言、文字进行转换、传输、存储、分析、等加工的科 学。它是与语言学、计算机科学、信息论和数学等多种学科相联系的交叉学科。目前,很 多学者在汉语的词法分析、语义分析、组块识别、句法分析等领域作了大量的研究工作, 也取得了一定的成果。本文重点讨论汉语句子相似度的计算。 句子相似度在实际中的应用大致如下: ( 1 ) 基于语义的文本分类; ( 2 ) 深度信息检索; ( 3 ) 自动问答系统中,对于相似问句的检索以及问句与答案的匹配; ( 4 ) 自动文摘; ( 5 ) 信息抽取等。 在自然语言处理中,句子相似度是一项基础而核心的研究课题。它的研究状况直接决 定着其它一些相关领域的研究进展。例如:自动问答系统可以通过句子相似度计算找到与 问题相匹配的答案;智能检索系统可以通过句子相似度计算找到与检索要求近似的句子; 基于实例的机器翻译可以通过句子相似度找到与检索要求近似的句子;基于实例的机器翻 译可以通过句子相似度找到相似的句子,并得到相应的译文。 目前如何理解、计算和评价句子相似度,结论尚未统一,都是在具体的应用中去谈句 子相似度。因为相似的词语或句子,从不同的角度观察可能会有一定差异。例如:在自动 问答系统中,句子相似度计算主要体现在用户问句和常见问题库中问句的匹配上;在基于 实例的机器翻译中,句子相似度主要用于考察文本中的词语是否可替换;在智能检索中, 句子相似度则反映文本与用户检索内容在语义上的符合程度。本文所作的句子相似度研究 的背景是主观题自动批阅系统,在主观题自动批阅中旬子相似度是一个关键的理论基础。 句子相似度在主观题自动批阅系统中的应用主要体现在:老师的参考答案和学生回答的答 案之间的相似度计算,从而得到学生的得分。 1 江苏大学硕士研究生毕业论文 句子相似度是一个充满挑战性的研究课题,有着相当多的困难等待人们去攻克。本文 针对目前句子相似度计算方法的优缺点,综合利用h n c 理论从语义角度理解词语和分析句 子结构等特点,尝试解决目前句子相似度存在的没有考虑句子结构和词语在句子中出现的 重要程度、词语在句子中所起的作用等方面的不足,对目前句子相似度计算的研究将会起 到一定的促进作用。 1 2 研究现状 1 2 1 词语相似度的研究进展 词语层面的相似度研究已有比较长的历史,对于汉语词语的相似度的定量计算人们已 经提出了许多较有代表性的方法。如最初的字面相似度计算方法,后来的词素相似度计算 方法,以及最近较为典型的基于语义词典的计算方法。同时,对于基于统计的相似度计算, 也有学者做了一些尝试晗1 。 基于字面的相似度计算方法实现比较简单,不需要其他资源的支撑,该方法的弊端也 是显而易见的。它无法体现词形不同而同义或近义词之间的相似性。基于语义词典的卡h 似 度计算方法从词所表达的概念出发,从语义角度来计算词语的相似度,计算结果与人的主 观判断较为接近。然而该方法对语义词典的依赖性较大,语义词典的词汇量、组织方式、 概念的表达方式、更新速度等直接决定了计算的效果。此外,单纯依靠语义词典无法计算 词典中不包含的词( 未登陆词) 的相似度,所以必须考虑语义词典的扩展问题。在参考文献 3 中提出了一种基于知网、面向语义、可扩展的汉语词语相似度计算的新方法,解决了 未登陆词之间及未登陆词与登陆词之间的相似度计算问题。基于统计的方法将词汇的上下 文信息的概率分布作为词语语义相似度计算的参照,能够对词汇问的语义相似性进行比较 精确的度量。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂。 此外,基于统计的词汇相似度计算受数据稀疏和数据噪声的干扰较大。总的来说,目前基 于统计的方法与基于语义词典的方法相比效果还不够理想。国外的词语相似度计算方法主 要包括:基于构成字符的相似度计算方法、基于w o r d n e t 等语义词典的计算方法、基于词 典注释的方法、基于大规模语料库统计的方法和基于搜索引擎的方法。在这些方法中,基 于构成字符的计算方法和语义词典方法与汉语词语相似度计算中的字面相似度算法和语 义词典方法类同,而后三种方法属于基于统计的方法心1 。 1 2 2 句子相似度的研究现状 现在国内外有很多学者在研究句子相似度的计算方法h 1 。例如哥伦比亚大学的 g o l d s d e i n 等人通过最大边缘相关的方法( m a x i m a lm a r g i n a lr e l e v a n c e 进行相似度计算。 学者c h r i sh q d i n g 等采用了隐含语义索引( ( l a t e n ts e m a n t i c i n d e x i n g ) 的方法。 l a m b r o s 等提出同时依据句子的表层结构和内容计算相似度的方法陋1 。在计算相似度时, 系统使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语 2 江苏大学硕上研究生毕业论文 句相似度。n i r e n b u r g m 3 等提出了两种串匹配的方法,即更规范的“切块+ 匹配+ 重组 方法 和整句级匹配的方法。l a m b r o s 和n i r e n b u r g 所提出的两种方法所采用的相似度衡量机制 都是词组合法。c a r r o l l 和s u m i t a 都建立了“距离”或“相似度 衡量机制。c a r r o l l 用 基于两个测试点的三角形法来计算句子之间的相似度,一个测试点是被比句子的长度,另 一个是被比句子的内容,一些误匹配用相似度得分中的“费用 来体现。s u m i t 等的相似 度计算是基于单个词的,规定两个语占片段的距离由它们所包含的词之间的距离与相应权 值的乘积之和来决定。n i l a d r i 提出了一种基于线性模型的相似度度量模式,其相关系数 由多重回归技术确定,他将句子的相似性( 或者更准确地说是非相似性) 看成是一系列决定 句子不相似的成分的共同作用的结果。 国内对于汉语句子的相似度计算研究方面也取得了一定的成果。张民睛3 等设计了一种 基于词的汉语句子相似度计算方法。由于进行相似度计算的两个句子往往长度相差较大, 单词的个数不一致,因此,两个句子中每个单词都可能是相互相关的,这种相关性可通过 相对位置加权处理。该方法考虑了词一级的相关性、词( 同义词) 的同现以及评价值的向后 叠加,并设计了一个递归定义的算法,不仅可以给出句子级相似,而且也可以给出“亚句 子 级相似。陈利人四1 等提出了句子相似度包括结构相似度和语义相似度的概念,认为句 子相似度计算包括两个步骤:首先,经过词的结构相似度计算,得到句子的结构相似度; 然后,在句子结构相似的基础上,再进行句子语义相似度的计算。穗志方、俞士汉n 伽根据 语句相似度定义和计算的特殊要求,为被比句子设计了一种折衷的句子分析方法骨架 依存分析法,进而设计了一种基于骨架依存树的语句相似度计算模型。杨思春1 等利用具 有部分格语义的语法功能句型模式来实现句子相似度计算,该模式类似于通常语法意义上 的句型,但比抽象的句型要详细得多,它既反映了一个句子的主要骨架成分,又表达了一 个句子的基本特征语义。因此,在定义和计算句子相似度时,可以直接根据两个句子的模 式对其进行相似判断,即把两句的相似判断等价地转化为两句模式的相似判断。 此外,李素建n 羽n 副基于知网和同义词词林,提出了语句相关度的定量计算模型;吕学 强们等考虑词形相似度和词序相似度两个因素,提出了句子相似模型和最相似句子的查找 算法;车力翔n 朝口6 1 等利用改进编辑距离进行中文相似句子的检索;秦兵n 7 1 等采用t f i d f 法 和基于语义的方法,面向常问问题集计算问句间的相似度;崔桓n 踟等在基于网络的问答系 统中综合考虑关键词的顺序、关键词之间的距离、以及问句和答案的长度等信息,用于计 算其相似度。 目前,人们都把研究重点放在了从语义角度来研究句子的相似度,最具有典型意义的 就是基于知网的句子相似度研究。知网是一个以汉语和英语的词语所代表的概念 为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识 知识库。知网是一座宝库,它包含了丰富的词汇语义知识和世界知识,是目前基于语 义的中文信息处理所使用的主要知识库之一乜3 。利用知网进行汉语词语的相似度计算 技术已经很成熟了。两个句子中相似度大于一定阈值的词语为相似词对,因此通过两个句 1 江苏大学硕士研究生毕业论文 子中的相似词对来计算句子的相似度。这是目前研究的最新的基于知网的从语义角度 出发研究句子相似度计算的方法。 虽然有这么多方法来计算句子相似度,但都存在着一些缺点。因此本文提出基于h n c 理论来计算句子相似度计算。下面我们就从几个方面比较下目前常用的几种方法和基于 h n c 理论的句子相似度。 表1 1 几种句子相似度计算方法的对比 t a b 1 1t h ec o n t r a s to fs e v e r a lm e t h o d so fs e n t e n c es i m i l a r i t yc a l c u l a t i o n 方法 名称词性和词序编辑距离方基t - 知网基y - h n c 评笏 t f i d f 依存树法 结合的方法法的方法的方法 指标 计算复杂程度计算难算法易 计算复杂 计算难计算程度易计算易 计算机可实 实现难实现难实现难 实现难 实现一般 实现易 现化 词语的权重没有 没有考虑没有考虑没有考虑没有考虑考虑 信息考虑 查同义词充分考 同义词没有 没有考虑没有考虑没有考虑林比较复虑;计算 反义词考虑 杂机实现 数据稀疏会出现不会不会 a 不会不会石 没有 句子结构考虑考虑没有考虑没有考虑考虑 考虑 没有 语义信息没有考虑没有考虑适当考虑考虑考虑 考虑 上面的表格我们可以很清晰地看出,传统的方法都存在一些不足,基于知网的句 子相似度方法虽然考虑了语义信息,不需要做统计,不会出现数据稀疏等问题。虽然这个 方法目前实现的相对来说比较好,但仍然存在一个最大的问题,没有考虑句子的结构和各 个词语在句子中的重要性,对于词语在句子中的重要程度需要人为的来确定,因此这样计 算机实现起来就相对比较难。因此本文提出了基于h n c 理论来计算句子相似度,h n c 理论 都是用字母和数字来表示词语的语义,既保证考虑了词语的语义信息,又可以通过计算机 实现,不会出现数据稀疏问题。同时,根据h n c 理论来判别同义词、反义词。不需要查同 义词林,通过计算机实现可操作化。最关键的是,根据h n c 语义块知识和旬类知识,考 虑了句子结构和各个语义块在句子中所起的作用,作用相同的语义块之间计算相似度,从 而得到句子相似度。 4 江苏大学硕上研究生毕业论文 1 3 本文创新点 本文的创新点在于:基于h n c 的词语相似度计算。 ( 1 ) 提出基于h n c 理论判断同义词、反义词的方法并应用于句子相似度计算。解决了 同义词、反义词要靠查找同义词林或者靠人工来判断的问题。 ( 2 ) 提出基于h n c 语义块的句子相似度计算方法。解决了目前句子相似度计算方法没 有充分考虑句子结构和没有考虑词语在句子中出现的重要程度的问题。 1 4 论文的组织结构 本课题围绕了中文信息处理中句子相似度计算及其应用展开研究,本论文具体组织如 下: 第1 章分析了课题的背景和研究意义,阐述了词语和句子相似度计算的研究现状,提 出了本文的创新点和本文的组织结构。 第2 章综述了汉语词语相似度的定义,对目前词语相似度方法进行了介绍和分析, 在此基础上重点研究了基于h n c 的词语相似度计算,提出了由概念基元的相似度到概念相 似度的方法。 第3 章运用h n c 这个理论,从语义角度判别同义词和反义词,并通过计算机对该方 法进行实现。 第4 章分析了目前的句子相似度计算方法,提出了新的基于语义块的句子相似度计 算方法。 第5 章对主观题自动批阅进行了介绍,在此基础上给出了句子相似度计算在学生名 词解释批阅中的应用,并通过老师人工批阅和计算批阅学生得分情况证明了本文所提出的 句子相似度计算方法的实用性和有效性。 第6 章总结了全文的工作,并对下一步工作进行了展望。 江苏大学硕士研究生毕业论文 2 基于h n o 的词语卡1 7 1 化j 度计算 2 1 词语相似度的定义 词语本身包含的属性很广,涉及到词语的词法、句法、语义甚至语用等方方面面的特 点n9 j 。其中,对词语相似度影响最大的应该是词语的语义。从语义的角度出发不考虑词法、 语用等方面,我们定义词语的相似度为词语所表达概念的重合程度,也叮以认为是两个词 语所表示的语义在概念空间上距离的大小,两个词语所表达语义距离越小,所代表概念的 重合程度越大,则词语的相似度越大,反之词语相似度越小。词语的相似度是一个主观性 相当强的概念,不同的人对于两个词语的语义相似度的感受程度往往不同。在实际应用中 往往根据实际的需要对这一个概念进行调整和扩张。例如,在基于实例的机器翻译中,词 语的相似度被定义为词语替换而不改变原来句意的程度,如果替换后,句意改变的程度越 小则替换词与被替换词的相似度越大,反之词语相似度越小;在信息检索中词语的相似度 是指词语代表用户检索目标的程度,如果词语与用户的检索概念越相近则相似度越大,反 之越小乜3 。本文中的词语相似度计算是基于h n c 理论的,词语的表达方式是用数字和字母 串的组合形式来表示的,这些数字和字母就相当于概念基元。因此,在本文中计算两个词 语之间的相似度,首先是通过计算概念基元之间的相似度,从而得到组成词语的概念之间 的相似度( 见2 4 节) 。 定义1 ( 词语相似度) :两个词语在不同的上下文中可以互相替换使用而不改变文本的 句法语义结构的程度晗0 | 。 定义2 ( 词语相关度) :词语相关度是指在句法分析中一个短语结构中的两个词语能够 组成修饰关系、主谓关系、同指关系的程度坦。 词语的相似度与词语的相关度是一对既相瓦区别又紧密联系的概念【1 引。词语的相关度 是对两个词语共现频率的定性描述,在主观上指人们对词语之问联系的紧密程度的感受。 词语的相关度一般采用统计大规模文本库中词语的共现频率的方法来得到。同时,词语的 相似度与相关度又是紧密联系的。一般来讲,如果两个词语的相似度非常大,那么这两个 词语的相关性也会比较大,而且这两个词语与其他词语的相关性也会非常接近。两个词语 的相似度高,他们的相关度也较高;但两个词的相关度高,它们的相似度不一定高。例如: “吃”和“喝”这两个词相似度高,则它们的相关度也较高;“踢”和“球”这两个词语 的相关度高,但它们的相似度并不高心。 在本文中,我们对词语相似度的进行定量计算,取值空间为【0 ,l 】,两个词语越相近取 值越大。一个词与其本身的相似度为l 。两个词在概念上完全不重合,其相似度为0 。 6 江苏大学硕士研究生毕业论文 2 2 词语相似度计算经典方法 词语相似度的常见计算方法有:基于单汉字的字面相似度计算、基于词素的词语相似 度计算、基于本体( o n t o l o g y ) 的计算方法和基于大规模语料库统计的方法。 2 2 1 基于单汉字的字面相似度计算 由于汉语中绝大多数同义词都含有相同的汉字,在字面上具有较强的相似性,利用构 成词语的汉字出现情况计算词语之间的相似度是可行的。在参考文献 2 2 ,2 3 ,2 4 ,2 5 中对 该类算法进行了论述。基于单汉字的字面相似度计算的主要思想是:汉语词语的构成往往 具有“重心后移”的特点,在表达某一个具体概念的词语时,其中心部分大都在词语的后 半部分。 在字面上,语素越靠后,它在表达主题概念中所起的作用越大。基于这一考虑,对词 语中各个语素表达主题概念的作用进行加权量化处理:位置靠前的权值较小;位置越靠后, 对应的权值越大。 基于单汉字的字面相似度计算算法的描述如下: a 、b 分别表示进行相似度计算的两个词语,a 与b 的相似度为s i m ( a ,b ) ;i a l 与吲分 别表示a 与b 所包含的字符个数,a ( i ) 表示a 中的第f 个语素;s a m e h z ( a ,b ) 表示a 与b 中共同含有的相同语素的集合,i s a m e h z ( a ,召) l 表示相同语素的个数;w e i g h t ( a ,f ) 表示a 中的第f 个语素的权值,如果a ( i ) s a m e h z ( a ,b ) 则w e i g h t ( a ,f ) = f ,否则w e i g h t ( a ,f ) = 0 ; 同理,w e i g h t ( b ,) 表示b 中第歹个语素的权值;位置系数d 为被匹配词与待匹配词的语素 总数之比,即 抛8 1 ( 2 1 ) 词语之间的相似度受两个词之间含有的相同语素的个数和相同语素在各个词中的位置权 重两方面因素影响。由此词语相似度可按以下公式计算: 跏( a , b ) = c t x ( 甲+ 甲 ,2 + d 丛歹 w e i 广g h t ( a , i ) + i b i l = li ? 县台j i 户1 2 7 ( 2 2 ) 江苏大学硕士研究生毕业论文 式中,口和分别表示相同语素相似度和相同语素位置关系相似度的权重系数,并且满足 口+ = l 。 以单汉字为基本处理单位的字面相似度算法无需语义词典等资源的支持,运行速度 快,具有直观、简单的特点。但是通过字面相似性来计算词语的相似度也存在着明显的缺 点。该方法无法识别字面完全不同的同义词和近义词,而且不适合于非纯汉字组成的词语 的相似度计算心1 。 2 2 2 基于词素的词语相似度计算 为了克服字面相似度算法的缺点,人们开始致力于以词素为单位的词语相似度计算 啪儿2 7 1 。基于词素的词语相似度计算的基本思想是1 :建立常用词素的语义词典,根据词典 对待计算词进行切分,在此基础上以词素为单字,以字面相似性原理为依据,将词素的字 面形式转化为语义代码进行相似度判别,在考虑词组结构关系的前提下根据词素在语义词 典中的具体意义进行相似度计算。 待匹配词的信息集合为a ,匹配词的信息集合记为b ,c = a n b 为两词中的相同语义 部分。定义c 对a 和b 的表达度分别为& s 月,& s 疗,以两个词相同部分的信息总量与两 个词语全部的信息总量之比作为两个词语的相似度,则 跏垆惫2 甄2 汜3 , s cs c 其中s 代表信息量。通过建立以词素为单位的语义词典引入语义处理,按照一定的语 义分类体系和词语结构权重重新计算表达度。语义的比较以义原为单位,通过计算义原在 语义体系中的相同结点占平均节点长度的比值来得到词素的相似度。 基于词素的相似度算法解决了字面相似度算法中的无法识别字面不同而意义相似的 词语的问题。但是基于语义的词素相似度算法是在一定的语义范畴体系下的,设计一个科 学的语义分类体系是费时、复杂的。此外,由于词素的数量小于词语的数量,词素多义的 问题难以解决幢1 。 2 2 3 基于本体( o n t o io g y ) 的计算方法 基于本体( o n t o l o g y ) 计算词语相似度的方法,一般是利用语义词典( t h e s a u r u s ) 来进 行的。一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中,图2 1 为同 义词词林的组织结构。我们知道,在一棵树形图中,任何两个结点之间有且只有一条路 径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。通过词语距离 来计算词语的相似度。 8 江苏大学硕上研究生毕业论文 ,。,7 7 令l ,。 b 、 l j 7 ,r 0 彳ee 叭卜、j 、。 黎w 孓讥。| 图2 1 同义词词林语义分类示意图 f i g 2 i t h em a po f s e m a n t i cc l a s s i f i c a t i o nb a s e do nas y n o n y mf o rt h ew o r dl i n 王斌利用同义词词林来计算汉语词语之间的相似度心引。有些研究者考虑的情况更 复杂。a g i r r e r i g a u 在利用w o r d n e t 计算词语的语义相似度时,除了结点问的路径长度 外,还考虑到了其他一些因素3 。例如: ( 1 ) 概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其 语义距离较大; ( 2 ) 概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密 度区域,其语义距离应大于位于低密度区域。 2 2 4 基于统计的词语相似度计算 另一种词语相似度的计算方法采用大规模语料统计的方式,利用词语的相关性来计算 词语的相似度。事先选择一组特征词,然后计算这一组特征词与每一个词的相关性( 一般 用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量) ,于是,对于每一 个词都可以得到一个相关性的特征词向量,然后利用这些向量之l 、日j 的相似度( 一般用向量 的夹角余弦来计算) 作为这两个词的相似度。这种做法的假设是,凡是语义相近的词,他 们的上下文也应该相似。李涓子利用这种思想来实现语义的自动消歧引;鲁松研究了如何 利用词语的相关性来计算词语的相似度b ;d a g a n 使用了更为复杂的概率模型来计算词语 的距离口纠。 基于语料库统计的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似 性和差异性。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂, 另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误瞳1 。 9 江苏大学硕士研究生毕业论文 2 3h n c 理论简介 h n c ( h i e r a r c h i c a ln e t w o r ko fc o n c e p t s ,概念层次网络) 理论是一个关于自然语言 理解处理的理论体系,由中国科学院声学研究生黄曾阳先生创立。该理论于1 9 9 4 年初步 形成后,先后在多项国家重大课题中得到应用和检验,并不断发展和完善,逐步实现了技 术化口引。 h n c 理论由语言概念空间考察自然语言空间,以概念联想脉络为主线,建立了一种表 述和处理自然语言的新模式呤3 | ,这一模式不但能应用于自然语言的计算机理解处理,如机 器翻译、智能检索、自动摘要、人机对话等领域,而且对自然语言研究的其他许多方面, 如语言本体研究、语言认知研究等,都富有启发意义。h n c 预定建立自然语言的五个理论 模式b 副: 自然语言概念体系的理论模式; 自然语言语义块和语句的理论模式; 句群、段落和篇章要点的表述模式; 短期记忆和长期记忆的形成及其相互转换模式; 基于文字文本的计算机自学习模式。 本章我们是介绍基于h n c 的词语相似度计算,因此我们只介绍h n c 体系对于词汇层面 联想脉络的形式化表述。 2 3 1 概念的一般表达式 h n c 对自然语言概念的符号化表述可以一般化为呤引: 类别符号串 层次符号串) 组合结构符号) 类别符号串) 层次符号串) 上式的b n f 范式如下引: := = ) := = # $ l l l i ,i ;l ! l 。i ( ,l y y ) l l i := = + + := = lj l j l s f ,h ,q x p w j w := = v g uzr := = + + := = 6 y 9c ( y = o 5 ) := = ( m = 2 一- - 4 ,n = o , - - , b ) := = + l + := = l l l o 江苏大学硕上研究生毕业论文 := - - mi n e k me k n := = c m n d m n := = 一i 一0 i - - 0 05 0 0 0 := = t ( n = 8 - b ;3 ,7 ) i k i 术n 1 * n n1 * n n 在数字串中,高、中、底层是通过以下约定来区分的:各语义网络的高层层数是确定 的,高层结束后才可进入中层或底层,中层和底层的取值范围不同,中层是0 - - 7 和c e , 底层是8 b 。比如酝酿( v 5 3 1l e b l ) ,v 是五元组,5 3 是基元概念,表示动态,基元概念 0 - - - 5 行的高层节点层数是2 层,因此1 1 是个高层符号,e b l 是相对于中层符号的对偶e k n 年( w j l o 一) 月( w j l 0 一o ) 日( w j l 0 0 0 ) ,w j 语义网络的高层是2 层,因此1 0 是高层符号, 下面的“一”,“一o “- - 0 0 ”就是对应用于中层符号的包含概念。 由上述两个表达式我们可以看出,下面的概念表示,就是上面表达式的类别符号串和 层次符号串,类别符号串也叫字母串,层次符号串也叫数字串,因此概念表达式中的字母 就是类别符号串,数字就是层次符号串皓引。 2 3 2 组合符号 组合符号的说明b 3 1 如表2 1 所示: 表2 1 组合符号 t a b 2 1c o m b i n a t i o ns y m b o l 类别名称子类名称符号 作用效应类作用 # 效应 $ 对象内容类对象 内容 逻辑类 并选非反 ,:! 一般逻辑 ( ,l y y ) 语法类 偏正 | 土谓 除了上述四大类组合结构外,还有以下三个结构符号: 符号含义 + 展开 + 挂靠结束 ) 或然 组合符号含义b 3 3 如下: ( 1 ) 作用效应类 作用符号:# 江苏大学硕士研究生毕业论文 前者是作用,后者是该作用产生的效应,前者是因,后者是果。例如,阻碍( v 3 7 6 # v 3 6 2 ) 在“阻碍”的h n c 符号中,v 3 7 6 表示阻挡,v 3 6 2 表示抑制。 效应符号:$ 后者是效应,前者是该效应产生的原因,即感谢是因支持而产生的一种反应。例如, 感谢( v 4 3 e 6 1 5 v 6 5 0 2 ) 在“感谢”的h n c 符号中,v 4 3 e 6 1 表示支持,v 6 5 0 2 表示反应。 ( 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 温泉养生度假创新创业项目商业计划书
- 高校人力资源管理系统设计
- 机械设备日常维护管理记录
- 电力企业变电站安全管理标准手册
- 医院护理人员专项培训课程
- 机制砂生产项目立项及申请报告
- 2025年高级会计师之高级会计实务通关题库附带答案
- 物业保洁工作方案
- 甘肃省武威市古浪县泗水初级中学2024-2025学年七年级下历史期中检测试卷(含答案)
- 消防安全培训考试题含答案
- 调试、试运行与移交管理方案
- GB/T 26655-2011蠕墨铸铁件
- 热镀锌钢管技术标准
- 周三多管理学第03章管理的基本原理
- 基础生态学第4章种群及其基本特征课件
- 虚拟现实与增强现实头戴显示关键技术及应用项目
- (完整)公共卫生基本知识考试题题库及答案
- 《电力工业企业档案分类规则0大类》(1992年修订版)
- GB∕T 26520-2021 工业氯化钙-行业标准
- 温州医科大学《儿科学》支气管肺炎
- 常见传染病预防知识ppt-共47页课件
评论
0/150
提交评论