




已阅读5页,还剩61页未读, 继续免费阅读
(计算机科学与技术专业论文)基于hownet多特征结合的句子相似度计算.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准 确地找到所需要的信息也越来越困难。虽然传统的搜索引擎( 如g o o g l e 等) 已经取 得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必 须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句, 事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需 要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是 自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理 技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精 度有重要的理论和实际意义。 计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文 本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算 法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法 分析比较的基础上,提出了一种基于双数组t r i e 树中文分词算法及歧义消除策略, 对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高 了分词的完整性和准确性。 在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自 动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是 人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出 了一种新方法,结合基于知网语义相似度计算和基于向量空间的t f 木i d f 方 法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算 法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证 明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出 的句子相似度方法效果也不错。 关键字:自然语言处理:问答系统:知网:分词:语义相似度 ab s t r a c t w i t ht h er a p i d d e v e l o p m e n to fi n t e r n e t ,t h e r ea r em o r ea n dm o r ei n f o r m a t i o n o n l i n e h o wt o g e tt h ei n f o m a t i o nw en e e dq u i c k l ya n da c c u r a t e l yh a sb e c o m e i n c r e a s i n g l yd i f f i c u l t w h 订et r a d i t i o n a ls e a r c he n g i n e s ( s u c ha sg o o g l e ) h a v ea c h i e v e d g r e a ts u c c e s s ,t h e s es e a r c he n g i n e sc a no n l yr e t u r nw e b s i t e sw h i c ha r er e l e v a n tt ou s e r i n q u i r i e s u s e r sm u s th a v et h e i ro w ns e a r c hf o rr e v e v a n ti n f o m a t i o nf r o mt h e s e w e b s i t e s t h ei n q u i r i e sa r eas e r i e so fk e y w o r d s ,r a t h e rt h a nn a t u r a l l a n g u a g ef r o m a t i n f a c t ,u s e r sm a yb em o r ea c c u s t o m e dt ou s i n gn a t u r a l l a n g u a g et od e s c r i b eap r o b l e m i n m o s tc a s e s ,u s e r sn e e dt h ee x a c ta n s w e rt ot h ep r o b i e m ,r a t h e rt h a nas e r i e so fr a l a t e d w e b s i t e s q at e c h n o l o g yi sav e r yh o tr e s e a r c hd i r e c t i o ni nt h e6 e l d o fn a t u r a l l a n g u a g ep r o c e s s i n g i tc o m b i n e sal a r g ev a r i e t yo fn l p t e c h n o l o g i e s i nt h i sp a p e r ,w e t r y t o i n v e s t i g a t es o m et e c h n o i o g i e sf o rc h i n e s eq as y s t e m s i nt h ef i e l do f i n f o r m a t i o nr e t r i e v a l , s e m a n t i cs i m i i a r i t yp l a y sa ni m p o r t a n tr o l e ,t o i m p r o v et h e a c c u r a c yo fs e m a n t i cs i m “a r i t yh a si m p o r t a n tt h e o r e t i c a la n dp r a c t i c a ls i g n i 6 c a n c e i t sm o r ed i f f i c u l tf | o rc o n l p u t e r st op r o c e s sc h i n e s et h a nt ow e s t e r nl e t t e r si nt h e p r o c e s s i n g o fw o r d s e g m e n t a t i o n w o r ds e g m e n t a t i o n i s t h ef o u n d a t i o na n d p r e c o n d i t i o no fc h i n e s es e n t e n s es i m i l a r i t yc o n l p u t i n g ,t h ea c c u r a c yo fl h er e s u l tc a n b eg r e a t l yi m p r o v e dw h e na d o p t i n gm o r ee 艏c i e n ta r i t h m e t i c i nt h i sp a p e r ,ak i n do f i m p r o v e dc h i n e s ew o r ds e g m e n t a t i o nm e t h o db a s e do nd o u b l e a r r a vt r i ea n dt h e s t r a t e g yt oe l i m i n a t et h ea m b i g u i t yi sp u tf - o r w a r do nt h ea n a l y s i sa n dc o n t r a s to f c o m m o nc h i n e s ew o r ds e g m e n t a t i o na r i t h m e t i c w e p r o p o s ea ni m p o r o v e dm e t h o d a b o u td i c t i o n a r ym e c h a n i s m s ,s e g m e n t a t i o ns t e p sa n da m b i g u i t y ,t h ei n t e g r a l i t ya n d a c c u r a c yo fw o r ds e g m e n t a t i o nw i l lb ee n h a n c e d i nc h i n e s ei n f o r m a t i o np r o c e s s i n g ,s e n t e n c es i m 订a r i t yc o m p u t i n gi s w i d e l yu s e d i nt h ea r e ao fi n f o r m a t i o nr e t r i e v a l ,m a c h i n et r a n s l a t i o n ,a u t o m a t i cq u e s t i o n a n s w e r j n g , t e x tm i n i n ga n de t c i t saq u e s t i o no fm u c he s s e n t i a la n di m p o n a n tt h a tp e o p l es t u d y a sah o t s p o ta n dd i f f i c u l t yf 0 ral o n gt i m e i nt h i sp a p e r ,o nt h eb a s i so f a n a l y s i sa n d c o n t r a s to fe x i s t i n gs e n t e n s es i m i l a r i t yc o m p u t i n gm e t h o d s ,an e ws e n t e n s es i m i l a r i t y c o m p u t i n gm e t h o di sp u tf o r w a r dw h i c hm a k eu s eo ft f i d fm e t h o db a s e do nv s m a n ds e m a n t i cm e t h o db a s e do nh o w n e tc o m b i n dw i t ht h ew o r d s e g m e n t a t i o n a r i t h m e t i cw h i c hm e n t i o n e da b o v e t h er e a “z a t i o no fc h i n e s et e x tw o r ds e g m e n t a t i o n a n ds i m i l a r i t y c o m p u t i n gw i t hc o m p u t e rs y s t e mi sp u tf b r w a r da n dc a r r yt h r o u g h 硕士学位论文 m a n yt e s t i n g q u e s t i o n - a n s w e r i n gr e t r i e v a ls y a t e mi st e s t e da se x a m p l et ov a l i d a t et h e m e t h o dt h a tu s e d e x p e f i m e n t a lr e s u l t ss h o wt h a ta r e rm a k i n gu s eo ft h ep r e s e n t e d w o r ds e g m e n t a t i o na i g o r i t h m ,t h et i m ea n ds p a c eu t i l i z a t i o ne f n c i e n c yh a sb e e n g r e a t l yi m p r o v e da n dp r o p o s e dm e t h o d so fs e n t e n c es i m i l a r i t ye f f e c ti sg o o d k e yw o r d s : n a t u r a l l a n g u a g ep r o c e s s i n g ;q u e s t i o na n s w e r i n g ;h o w n e t ;w o r d s e g m e n t a t i o n ;s e m a n t i cs i m i l a r i t y i v 基于h o u n e t 多特征结合的句子相似度计算 插图索引 图3 1 以“中 字开头的部分t r i e 树结构1 9 图3 2 分词流程2 2 图4 1 树状的义原层次结构“2 8 图5 1 用于查找候选问题集的结构”4 0 图5 2 系统实现流程4 l 硕士学位论文 附表索引 表3 1 知网主要词性标注符号集2 3 表3 2 构造双数组t r i e 树时间2 5 表3 3 占用空间2 5 表3 4 给定语料分词速度2 5 表4 1知网( h o w n e t ) 知识描述语言中的符号及其含义“2 8 表4 2 知网词典文件结构2 9 表4 3 知网( h o w n e t ) 知识描述语言实例”2 9 表4 4 词语相似度计算实验结果,3 6 表5 1 问答系统实验结果比较一4 5 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律后果由本人承担。 作者签名:珠参矿权 日期:矽锣年,月二乞日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书。 2 不保密团。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 柴纽权 i 劬 日期:劢节年岁月z 乙日 嗍刁年! 月n 日 硕士学位论文 第1 章绪论 1 1 课题研究背景与意义 问答系统( q u e s t i o na n s w e r i n gs y s t e m ) 是指能够对计算机用户输入的使用自 然语言描述的问旬做出回答的计算机程序【l l 。问答系统集自然语言处理、信息检 索、知识表示为一体,正日益成为国际上研究的热点。它能够让用户用自然语言 提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此, 自动问答系统和传统的依靠关键字匹配的搜索引擎相比,能够更好地满足用户的 检索需求,更准确地找出用户所需要的答案,具有方便、快捷、高效等特点1 2 j 。 早在上世纪6 0 年代人工智能研究刚开始的时候,人们就提出了让计算机用自 然语言来回答人们的问题即自然语言问答系统。问答系统在上世纪8 0 年代的自然 语言处理领域曾风靡一时,因为t u r i n g 实验告诉人们如果计算机能够像人一样与 人进行对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术, 纷纷研究自然语言问答系统。但由于当时的条件限制,所有的实验都是在非常受 限的领域,甚至是固定段落上进行的,所以自动问答一直被限制在特殊领域的专 家系统。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了冷落p 】。 最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的 愿望也重新促进了自动问答技术的发展。有越来越多的公司和科研院所参与自动 问答技术的研究,比如微软和i b m 等公司。在每年一度的文本信息检索( t r e c ) 会议上,自动问答( q u e s t i o na n s w e r i n gt r a c k ) 是最受关注的主题之一,越来越多 的大学和科研机构参与了t r e c 会议的q u e s t i o na n s w e r i n gt r a c k 。在2 0 0 0 年l o 月召开的a c l 2 0 0 0 国际计算语言学学术会议上,有一个专题讨论会,题目是 ”o p e n d o m a i nq u e s t i o na n s w e r i n g ”。 英文问答系统早在1 9 9 9 年就开始由t r e c 会议主办进行这类型的比赛;日 文的比赛于2 0 0 3 年由日本国立情报学研究所n i i 的n t c i r 会议( n t c i r w 6 r k s h o p ) 所主办;欧洲同样于2 0 0 3 年由c l e f ( c r o s sl a n g u a g ee v a i u a t i o nf o r u m ) 会议主办欧洲语言的比赛。根据2 0 0 4 年的报告【4 】,目前最佳英文问答系统的水平 已经可以达到7 0 左右的正确率。也就是说,一百个自然语言问句中,有七十题 可以直接回答精准而正确的答案。此最佳英文系统由l a n g u a g ec o m p u t e r c o r p o r a t i o n 所发展,逻辑推理能力为其致胜关键。在日文系统方面,正确率稍微 低了些,但也有5l 。日本电信电话公司( n t t ) 是目前成绩最好的团队。欧洲方 面,q a c l e f 在规模上相当大,参与比赛的语言高达九种,加上跨语言问答的 项目,比赛内容最为丰富。其中法文、葡萄牙文等语言系统于2 0 0 5 年都已经可以 基于h o n e t 多特征结合的句子相似度计算 达到六成多的正确率p j 。相较于其他语言,中文虽然是世界上第二大语言,但中 文问答系统比赛直到2 0 0 5 年才开始由日本n t c i r 会议所主办,目前最佳的正确 率为中研院的5 5 1 6j 。 目前,国外已经开发出一些相对成熟的问答系统。麻省理工开发出问答系统 s t a r t ,从1 9 9 3 年开始发布在i n t e r n e t 上,网址为h t t p :s t a r t c s a i l m i t e d u 。可以回 答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。例如用户提问“h o w f a ri sn e p t u n ef r o mt h es u n ? ”,s t a r t 系统将会回答“t h em e a nd i s t a n c eb e t w e e n n e p t u n ea n dt h es u ni s2 ,7 9 8 ,8 0 0 ,0 0 0m i ( 4 ,5 0 4 ,3 0 0 ,0 0 0k m ) ”。另外还有其他比较 成熟的问答系统像a n s w e r b u s ,它是个多语种的自动问答系统,不仅可以回答英 语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题【刀, 其网址为h t t p :w w w a n s w e r b u s c o m i n d e x s h t m l 。l a s s o 系统是藉由自然语言处 理方法分析使用者输入的问句( 引,将问句依其形态加以归类,并提取出问句的中 心焦点后,从大量文件中找出符合使用者需求的答案。国内在问答系统方面的研 究相对国外较为不足,主要有中科院计算所、复旦大学、哈尔滨工业大学、沈阳 航空工业学院、香港城市大学、台湾中研院等些单位。但是整体来说,参与中 文自动问答技术的研究的科研机构比较少,而且基本没有成型的中文自然语言问 答系统。 自然语言问答系统的人机界面、精确性和实时性是汉语自然语言问答系统的 三大研发目标【9 】。其中,精确性是自然语言问答系统的首要目标。为了达到这一 目标,在用户问句处理方面,需要对用户输入的问句进行正确的分词和词性标注、 同义词扩充、名实体标注、句法分析、答案类型标注等等处理,对于领域文本知 识库也要进行同样的处理。尤为重要的是,需要一个综合考虑用户问句与文本片 段的语言语义信息,精确计算用户问句与文本库中句子的相似度大小,使得蕴含 答案的句子获得一个相对较高的计算结果,较早的返回给用户,从而提高信息检 索系统的精确性,并提高答案自动抽取的精度和效率。句子相似度的计算是自然 语言问答系统的核心所在,其计算方法的精确性和实时性关系到整个系统的精确 性和效率。因此,本文的重点是对句子相似度及其计算方法进行深入研究。 本文句子相似度的研究主要是以自然语言问答检索系统为应用背景,在自动 问答检索系统中旬子相似度的计算是一个非常重要的理论基础。问答系统中很多 地方都需要用到语句相似度的计算,自动问答系统句子相似度的计算大致可分为 两类:问题与问题之间的相似度计算和问题与答案之间的相似度计算。在常问问 题库中需要用到问题与问题之间的相似度,在答案抽取模块中需要用到问题和候 选答案之间的相似度,甚至在答案抽取模块中的多文档自动文摘也要用到句子相 似度来对句子进行聚类。本文的研究对象主要是用户提出的问题与常用问题库问 题之间的相似度,还包括用户提出的问句和候选答案间的相似度。 2 硕士学位论文 在研究句子相似度的过程中,首先对知网系统做一些概念性的介绍:然 后利用知网系统来进行汉语词的相似度计算;最后研究句子相似度计算。 1 2 本文研究内容 本课题主要有以下几个方面的研究工作: ( 1 ) 研究基于双数组t r i e 树的分词算法; ( 2 ) 介绍了知网中的关系层次网络; ( 3 ) 研究了义原相似度计算方法; ( 4 ) 研究了相似句子查找算法; ( 5 ) 问答式信息检索系统的实现,并给出实验结果。 1 3 论文结构 本文的工作主要集中在句子相似度计算技术研究上,包括:分词算法的实现; 相似度计算算法的实现;如何利用知网来进行相似度计算;训练和测试语料 库的建设,系统参数确定等方面。 全文共分5 章,结构如下: 第l 章绪论 首先讨论了问答式信息检索系统的背景和意义,概要介绍了国内外对这一课 题的研究现状和分析,相关的研究方法,综述了相关领域的研究工作。最后指出 了本文的研究内容及其组织。 第2 章中文分词研究和句子相似度研究综述 介绍了国内外的一些研究状况和最新进展,并介绍了分词方法和传统的四种 句子相似度计算方法和它们的主要问题。 第3 章基于双数组t r i e 树分词算法的研究 介绍了常用的一些中文分词算法和双数组t r i e 树的算法思想,并在双数组 t r i e 树的基础上构造了词典结构树,利用改进的双向联想匹配提出一个分词算法。 第4 章基于知网汉语词相似度计算 首先,介绍了知网层次关系网的基本概念;其次,根据义原层次树的特 性,调整义原节点的权值,利用义原层次树的距离、义原层次树的深度等信息计 算义原相似度。再次,在义原的基础上计算概念的相似度。最后,计算词语的相 似度。 第5 章句子相似度计算在f a q 中的应用 提出汉语句子语义相似度计算方法,设计问答检索系统,将机器计算结果与 人类的主观判断结果进行比较,并对实验数据进行分析,确定能够得到最佳结果 的参数值,同时验证了方法的有效性。 3 基于l o u n e t 多特征结合的句子相似度计算 最后,对全文开展的工作进行了总结,并指出了进一步的研究工作。 4 硕士学位论文 第2 章中文分词研究及句子相似度研究综述 2 1 中文分词的意义 汉语自动分词是中文自然语言处理系统的第一道基本“工序力,只有逾越这个 障碍,中文处理系统才称得上初步打上了“智能 的印记,构建于词平面之上的 各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面 上。具体来说,自动分词在很多现实应用领域( 中文文本的自动检索、过滤、分类 及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处 理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等) 中都扮演 着极为重要的角色。 2 2 主要的分词技术概述 2 2 1 机械分词法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一 个“充分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹 配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小 ( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词 与标注相结合的一体化方法。常用的几种机械分词方法如下: 1 正向最大匹配算法 简称为m m 算法【1 0 】。基本思想是:设d 为词典,m a x 表示词典d 中的最大 词长,s t r 为待切分字符串。每次按正向顺序取长度为m a x 长的字符串与词典中 的词进行匹配。若匹配成功,则得出该字符串为一个词,继续后移m a x 个字符 串进行匹配。否则,字符串减一个( 从后减) 字继续进行匹配,直到匹配成功。 2 逆向最大匹配法 逆向最大匹配算法,就是把正向最大匹配算法的文本扫描顺序改为逆向,基 本思想还是一样。改为逆向扫描的好处是提高了切分的准确率。统计结果表明, 单纯使用正向最大匹配的错误率为l 1 6 9 ,单纯使用逆向最大匹配的错误率为 l 2 4 5 。但这种精度还远远不能满足实际的需要。 3 最少切分算法 基本思想是切分时使每一个句子的词最少。理由是最少切分的结果的分词准 确率比较高。然而该算法不能识别组合歧义,时间复杂度也高。 5 基于h o u ,n e t 多特征结合的句子相似度计算 4 双向匹配算法 双向匹配算法就是将正向最大匹配算法和逆向最大匹配算法结合起来【1 1 1 ,先 进行一趟正向最大匹配算法,然后进行一趟逆向最大匹配算法。然后,对比两遍 扫描的结果,若成词的地方一致,则说明字段为一个词;否则,则说明存在歧义 现象,需要进一步的处理。 5 逐词匹配算法 逐词匹配算法,就是顺序扫描文本,每匹配成功一个词,就检查该词是否属 于歧义字段,是则处理,否则继续扫描。 另外,还有将分词和词类标注结合起来,利用丰富的词类信息对分词决策提 供帮助1 1 2 】,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地 提高切分的准确率。 2 2 2 基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则 在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部 分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信 息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控 部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义 信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需 要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种 语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统并不完善。 2 2 3 基于统计模型的分词方法 该分词算法的基本思想是:从形式上看,词是稳定的字的组合,因此在上下 文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻 共现的频率或概率能够较好的反映成词的可信度。 这种方法只需对语料库中的字组频率进行统计,不需要切分词典,因而又叫 做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一 些共现频度高、但并不是词的常用字组,例如“这一、“之一 、“有的 、“我的”、 “许多的 等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词 系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配分词,同时使用统计 方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速 度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义 的优点。 在很多文章中已凸显对分词的大量关注:r i e 使用统计方法进行自动分词的 研究【1 3 l ;a n d r e w 使用最大熵马尔科夫模型的方法进行自动分词的研究1 1 4 l ;x u e 6 硕士学位论文 等使用合并分类器的方法进行自动分词的研究【1 5 1 ;g a o 等提出一种基于信源模型 的中文分词方法,又进一步把它发展成线性混合模型。各种统计模型对中文分词 贡献,都是在假定输入的字符或者字串服从某种分布的情况下进行处理的,实际 中的中文字符分布到底是什么样子,无从得知。 2 3 分词算法比较 ( 1 ) 最大匹配分词算法是一种简单的基于词表的分词方法,有着非常广泛的应 用。这种方法只需要最少的语言资源( 仅需要一个词表,不需要任何词法、句法、 语义知识) ,程序实现简单,开发周期短,是一个简单实用的方法,但对歧义字段 的处理能力不够强大。 ( 2 ) 全切分方法首先切分出与词表匹配的所有可能的词,然后运用统计语言模 型和决策算法决定最优的切分结果。这种切分方法的优点是可以发现所有的切分 歧义,但解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法,需 要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。 ( 3 ) 最短路径分词方法的切分原则是使切分出来的词数最少。这种切分原则多 数情况符合汉语的语言规律,但无法处理例外的情况,而且如果最短路径不止一 条时,系统往往不能确定最优解。 ( 4 ) 统计方法具有较强的歧义区分能力,但需要大规模标注( 或预处理) 语料库 的支持,需要的系统开销也较大。 2 4 句子相似度的研究现状 现在国内外有很多学者在研究句子相似度的计算方法【l 引。在国外例如哥伦比 亚大学的g o l d s d e i n 等人通过最大边缘相关的方法进行相似度计算,学者c h r i s h q d i n g 等采用了隐含语义索引的方法。l a m b r o s 等提出同时依据句子的表层结 构和内容计算相似度的方法【1 7 l 。在计算相似度时,系统使用了两级动态规划技术, 应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。n i r e n b u r g 等 提出了两种串匹配的方法【1 8 】,即更规范的“切块+ 匹配+ 重组方法和整句级匹配 的方法,这两种方法所采用的相似度衡量机制都是词组合法。该系统的相似度计 算采用罚分制,两个句子匹配所得到的总罚分值由句子中每个对应单词对的比较 所得的罚分组合而成。c a r r o l l 和s u m i t a 都建立了“距离或“相似度刀衡量机制。 c a r r o l l 用基于两个测试点的三角形法来计算句子之间的相似度,一个测试点是被 比句子的长度,另一个是被比句子的内容,一些误匹配用相似度得分中的“费用 来体现。s u m i t a 等的相似度计算是基于单个词的,规定两个语言片段的距离由它 们所包含的词之间的距离与相应权值的乘积之和来决定。n i l a d r i 提出了一种基于 线性模型的相似度度量模式,其相关系数由多重回归技术确定,他将句子的相似 7 基于h o u r n e t 多特征结合的句子相似度计算 性( 或者更准确地说是非相似性) 看成是一系列决定句子不相似的成分的共同作用 的结果。 国内对于汉语句子的相似度计算研究方面也取得了一定的成果。张民等设计 了种基于词的汉语句子相似度计算方法f l9 1 。由于进行相似度计算的两个句子往 往长度相差较大,单词的个数不致,因此,两个句子中每个单词都可能是相互 相关的,这种相关性可通过相对位置加权处理。该方法考虑了词一级的相关性、 词( 同义词) 的同现以及评价值的向后叠加,并设计了一个递归定义的算法,不仅 可以给出句子级相似,而且也可以给出“亚句子级相似。陈利人等提出了句子 相似度包括结构相似度和语义相似度的概念【2 0 1 ,认为句子相似度计算包括两个步 骤:首先,经过词的结构相似度计算,得到句子的结构相似度;然后,在句子结 构相似的基础上,再进行句子语义相似度的计算。穗志方、俞士汶根据语句相似 度定义和计算的特殊要求【2 ,为被比句子设计了一种折衷的句子分析方法一骨架 依存分析法,进而设计了一种基于骨架依存树的语句相似度计算模型。杨思春等 利用具有部分格语义的语法功能句型模式来实现句子相似度计算【22 1 。该模式类似 于通常语法意义上的句型,但比抽象的句型要详细得多,它既反映了一个句子的 主要骨架成分,又表达了一个句子的基本特征语义。因此,在定义和计算句子相 似度时,可以直接根据两个句子的模式对其进行相似判断,即把两旬的相似判断 等价地转化为两句模式的相似判断。 此外,李素建基于知网和同义词词林【2 3 2 4 1 ,提出了语句相关度的定量计 算模型;吕学强等考虑词形相似度和词序相似度两个因素【2 ”,提出了句子相似度 模型和最相似句子的查找算法;车万翔等利用改进编辑距离进行中文相似句子的 检索f 2 6 ,2 7 】;秦兵等采用t f i d f 法和基于语义的方法f 28 1 ,面向常问问题集计算问旬 间的相似度;崔桓等在基于网络的问答系统中综合考虑关键词的顺序、关键词之 间的距离、以及问旬和答案的长度等信息,用于计算其相似度。 2 5 句子相似度的概念及计算方法 2 5 1 句子相似度的概念 相似度是一个很复杂的概念,在语义学、哲学和信息理论中被广泛的讨论。 目前,关于相似度的定义还没有个通用方法,因为其涉及到语言、语句结构和 其他一些因素。同样的,句子相似度是一个主观性较强的概念,脱离具体的应用 背景谈论句子相似度,很难得到一个统一的定义。 在问答信息检索系统中,句子相似度更多地反映句子间的语义上的匹配符合 程度。例如,我喜欢吃玉米和我爱吃包谷这两个句子就是语义相似的。当相似度 达到某个设定的阈值时,就认为这两个语句相似。 句子相似度通常这样定义:两个句子在语义上的匹配符合程度,值为【0 ,1 】之 8 硕士学位论文 问的实数,值越大表明两个句子越相似。当取值为l 时,表明两个句子在语义上 完全相同;值越小则表明两个句子相似度越低,当取值为0 时,表明两个句子在 语义上完全不同。 在句子相似度计算中,按照对语句的分析深度来看,主要存在四种方法:1 基于向量空间模型的方法。该方法把句子看成词的线性序列,不对语句进行语法 结构分析,相应的语句相似度衡量机制只能利用句子的表层信息,即组成句子的 词的词频、词性等信息。由于不加任何结构分析,该方法在计算语句之间的相似 度时不能考虑句子整体结构的相似性;2 对被比较的两个句子进行深层的句法分 析,找出依存关系,并在依存分析结果的基础上进行语义相似度计算;3 对基于 语义分析的相似度计算;4 编辑距离的相似度计算。 但是,这四种方法也都存在着自身的缺点,给计算带来了一定的误差;因此 在不同的应用领域,应根据需要选择不同的计算方法,这样就可以更加全面、准 确地衡量句子之间的相似度。 2 5 2 基于向量空间模型的t f i d f 方法 这种方法适用于信息检索领域,其基本思路是借助向量之间的距离来逼近文 本之间的相似性。t f i d f 的主要思想就是:如果某个词或短语在一个句子中出现 的频率t f 高,并且在其它句子中很少出现,则认为此词或短语具有很好的类别 区分能力;但是如果包含某词或短语的句子数很少,则此短语也有很好的识别能 力【2 9 1 。下面利用t f i d f 方法计算两个句子之间的相似度。 定义l :语料库中所有句子包含的不同词语集合表示为: 职c ) = 阢,既,既) 其中c 表示中文语料库,所( i = l ,2 ,玎) 为中文语料库做分词处理后统计的不 同词语。 定义2 :词语在句子里的词频( t f ) : 玩= ( 2 1 ) 乙体 上式中刀i 是该词语在该句子中出现的次数,而分母则是所有词语出现次数之 和。1 ) 一个词语预测句子主题能力越强,权重就越大,反之,权重就越小。2 ) 应 删除词的权重应该是零。如果一个词语只在很少的句子中出现,通过它就很容易 锁定搜索目标,它的权重就应该很大。反之一个词语在大量句子中出现,就仍然 不很清楚搜索内容,这要借助一个权重计算公式。 定义3 :逆向文档频率( i d f ) ; 娥札g 尚 ( 2 2 ) 其中,i d i 代表语料库中的句子总数,l p :w ,d ) i 代表包含词语w i 的句子数目 9 基于h o 、,n e t 多特征结合的句子相似度计算 ( 即麒0 句子数目) 。那么每个词语的权重计算公式: g i = 斫幸f 彤 ( 2 3 ) 就可以得出语料库中每个句子向量q i = ( g i ,9 2 g n ) ,i = l ,2 ,肌,朋表示语料库 中句子总数。 用同样的方法来构造目标句子权重向量d = ( d l ,如,巩) ,最后向量之间夹角的 余弦值来计算两个句子间的相似度。 定义4 :相似度公式: 生 ( 吼以) 所掰( q f ,d ) = 1 兰兰= = = 一 ( 2 4 ) 、( g ;) ( 彳) y 七= l七盅l t f i d f 的概念被公认为信息检索中最重要的发明,在搜索、文献分类和自动 问答等领域有广泛的应用【2 引。 t f i d f 方法综合考虑了不同的词在句子中的出现频率和这个词在整个语料库 中对不同句子的分辨能力。这种方法不需要任何对文本内容的深层理解,它能够 在语料库中应用,很重要的一个原因是语料库是非受限域的自然语言文本,而且 语料库通常都很大。这种方法面对的最大的困难之一就是向量空间的高维性,容 易造成数据稀疏问题,增加计算时间复杂度。所以在对性能要求比较严格的情况 下,必须对向量空间进行降维。 2 5 3 基于语义依存的句子相似度计算 依存句法是由法国语言学家l t e s n i e r e 在其著作结构句法基础中提出,对 语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通 过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配 其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都 以某种依存关系从属于支配者。依存句法分析可以反映出句子中各成分之间的语 义修饰关系,它可以获得长距离的搭配,并跟句子成分的物理位置无关。利用依 存结构计算句子间的相似度【30 1 ,关键的一步是如何获得句子各成分间的依存关系 信息。2 0 世纪7 0 年代,r o b i n s o n 提出依存语法中关于依存关系的四条公理,在 处理中文信息的研究中,中国学者提出了依存关系的第五条公理【3 1 1 : ( 1 ) 一个句子中只有一个成分是独立的; ( 2 ) 其它成分直接依存于某一成分; ( 3 ) 任何一个成分都不能依存于两个或两个以上的成分; ( 4 ) 如果4 成分直接依存于b 成分,而c 成分在旬中位于彳和b 之间,那 么c 或者直接依存于b ,或者直接依存处于彳和曰之间的某一成分。 ( 5 ) 中心成分左右两边的其它成分相互不发生关系。 1 0 硕士学位论文 目前国内,哈尔滨工业大学信息检索研究室开发了依存句法分析器。该依存 分析系统使用的训练数据是该实验室标注的汉语依存树库,在平均句长为2 0 词的 测试集中,该系统的准确率为7 0 左右。其依存体系共包括2 4 个依存关系类型, 准确率是指结点及关系类型均分析正确的依存弧总数,占测试集中全部依存弧数 量的比例。 在利用依存结构进行相似度计算时,只考虑那些有效搭配对之间的相似程度。 所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对。这里有 效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。 相似度计算公式如下( 公式2 5 ) : 彬 跏( 跚,觋) 2 瓦面丽盖丽丽 ( 2 5 ) 形为句子l 和句子2 有效搭配对匹配的总权重,砌f ,c 伽刀f l 为句子l 的有效搭 f = l 配对数,尸口f ,c 鲫刀f 2 为句子2 的有效搭配对数。 这种方法从句法深度进行考虑,考虑到了词与词之间的依存关系,对句子的 理解更加充分,从而更准确的得到句子相似度的值。但是,现有的句法分析技术 还不够成熟,还无法将所有的句法信息特征全部考虑进来,所以就产生了一定的 误差。 2 5 4 基于语义距离的语句相似度计算 计算基于词义的语句相似度时,需要借助于一个本体知识库( 本体网络层次 图) 。本体是对客观存在的一个系统、全面的解释,其核心是表示客观现实的抽象 本质。s t u d e r 等人对本体进行了深入的研究,给出了关于本体的一个最完整的定 义:“本体是共享概念的明确的形式化规范说明一【32 1 。它包含四层含义:1 ) 概念 模型;2 ) 明确化;3 ) 形式化;4 ) 共享性。在中文语义相似度计算中,要利用中文 本体库知网( h o w n e t ) 3 引。它是一个以汉语和英语的词语所代表的概念为描述对 象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识 知识库。它着重反映概念的共性与个性、概念之间和概念的属性之间的各种关系。 在知网中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 62386-351:2025 EN-FR Digital addressable lighting interface – Part 351: Particular requirements – Control devices – Luminaire-mounted control devices
- 【正版授权】 IEC 63522-54:2025 EN Electrical relays - Tests and measurements - Part 54: Critical DC load current test
- JJF(石化)071-2023热封仪校准规范
- 2025年部编人教版小学二年级数学上册全册教案
- 人教版八年级英语上册Unit2标准检测卷(含答案)
- 新解读《GB-T 18507-2014城镇土地分等定级规程》
- 重庆地道果酒知识培训课件
- 重大危险源监督管理
- 老年人的情绪与情感课件
- 《创新创业概论》课程简介与教学大纲
- 2023-2025年中考语文试题分类汇编:记叙文阅读(辽宁专用)解析版
- 学校食堂从业人员食品安全知识培训考试试题(含答案)
- 电影艺术概述-设计艺术-人文社科-专业资料
- 2025年教科版新教材科学三年级上册全册教案设计(含教学计划)
- 医院药品采购与质量控制规范
- 支部纪检委员课件
- 从+“心”+出发遇见更好的自己-开学第一课暨心理健康教育主题班会-2025-2026学年高中主题班会
- 2025版仓储库房租赁合同范本(含合同生效条件)
- 2025年人伤保险理赔试题及答案
- 2025年全国招标采购专业技能大赛(央企组)历年参考题库含答案详解(5卷)
- 医院药学带教课件
评论
0/150
提交评论