硕士学位论文-中文问答系统中句子相似度计算研究.doc_第1页
硕士学位论文-中文问答系统中句子相似度计算研究.doc_第2页
硕士学位论文-中文问答系统中句子相似度计算研究.doc_第3页
硕士学位论文-中文问答系统中句子相似度计算研究.doc_第4页
硕士学位论文-中文问答系统中句子相似度计算研究.doc_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校代码:10254 密级: 论文编号: 上海海事大学上海海事大学 SHANGHAI MARITIME UNIVERSITY 硕士学位论文硕士学位论文 MASTER DISSERTATION 论论文文题题目:目: 中文中文问问答系答系统统中句子中句子 相似度相似度计计算研究算研究 学科学科专业专业: : 计计算机算机应应用技用技术术 作者姓名:作者姓名: 许许展展乐乐 指指导导教教师师: : 张张琳琳 副教授副教授 完成日期:完成日期: 二二一一年六月年六月 论文独创性声明论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除了特别加以标注和致谢的地方外,不包含其他人或其他机构已 经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均 已在论文中作了明确的声明并表示了谢意。 作者签名: 日期: 论文使用授权声明论文使用授权声明 本人同意上海海事大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布 论文的全部或部分内容,也可以采用影印、缩印或者其他复印手段保留 论文。保密的论文在解密后遵守此规定。 作者签名: 导师签名: 日期 摘要 I 摘摘 要要 随着互联网的高速发展,面对爆炸性增长的网络信息,如何从海量的信息 中快速准确地找到所需要的信息变得越来越困难。与传统搜索引擎相比,自动 问答系统能很好地满足人们对信息的需求,并且能够更好、更快、更准确地检 索出用户所需要的答案。 句子相似度指两个句子在语义上的匹配符合程度。句子相似度计算是自动 问答系统的重要理论基础和关键实现技术,句子相似度的计算方法归结起来可 分为四类方法:基于关键词的句子相似度计算方法,基于语义词典的句子相似 度计算方法,基于语义分析的句子相似度计算方法以及基于多重信息的句子相 似度计算方法。 本文通过对自动问答系统中各种句子相似度计算方法的研究,分析了不同 方法的特点、适用条件。基于多重信息的句子相似度计算方法通过结合不同的 特征信息的方法较好地保留其他方法所具有的优点,并在一定程度上避免了不 同方法存在的缺点。本文在此基础上考虑了词语表面的信息和语义层次的信息 提出了一种基于多重信息的方法。首先对句子进行关键词抽取并扩展,然后结 合改进的编辑距离算法计算用户问句与 FAQ 库中问句的最小编辑距离,最后转 化为相似度值。 最后,将本文所提出的方法应用于一个招生咨询问答系统并对句子相似度 准确性及系统进行了实验分析。实验结果表明,系统可以较好地满足用户的需 求,从而地验证了所提出方法的有效性和可行性。 关键词:自动问答系统,句子相似度计算,改进的编辑距离算法,常问问题答 案库(FAQ 库) Abstract II ABSTRACT With the rapid development of Internet, confront the explosive growth of network information, how to find the information we need from the mass information quickly and accurately become increasingly difficult. Compared with the traditional search engine, QA system can satisfy peoples requirement of information well, and it can retrieve answers accord with users needs better, faster and more accurately. Similarity of two sentences indicates the match extent in the semantic level. Sentence similarity calculation is an important theoretical basis and key technologies of automatic question answering system. Sentence similarity calculation methods can be categorized into four categories: based on the keywords of sentence, based on semantic dictionary, based on semantic analysis and based on multiple information of sentence. The paper has studied a variety of sentence similarity calculation methods which are used in the automatic question answering system and then analyzed the characteristics of different methods and application conditions. Sentence similarity based on multiple information calculated by combining the characteristics of information in different ways to keep the advantages. Its better than other methods, and it can avoid the shortcomings of different methods to some extent. In this paper, a method based on multiple information of sentence is presented, which based on the consideration of the terms of the surface-level information and semantic information. First extraction and expand the keywords of the sentence, and then calculate the minimum edit distance between user question and questions in FAQ library with the improved edit distance algorithm, and finally transformed into similarity values. Finally, the proposed method is applied to an admissions consulting answering system, sentence similarity and system accuracy has been Abstract III analyzed by experiment. Experimental results show that the system can satisfy the needs of users, thus verified the effectiveness and feasibility of the proposed method. Keywords: Automatic Question Answering System; sentence similarity calculation; improved edit distance algorithm; Frequently Answer Question Library (FAQ) 目录 IV 目 录 第一章第一章 绪论绪论.1 1 1.1 课题的背景和意义 .1 1.2 句子相似度计算在自动问答系统的应用 .1 1.3 句子相似度计算的研究现状 .2 1.4 本文的组织和结构 .3 第二章第二章 词语相似度计算及常用语义资源词语相似度计算及常用语义资源.4 4 2.1 引言 .4 2.2 词语相似度及相关计算方法 .4 2.2.1 词语相似度概念.4 2.2.2 词语相似度的计算方法.4 2.3 常用语义资源介绍 .7 2.3.1知网(HowNet)简介 .7 2.3.2哈工大信息检索研究室同义词词林扩展版介绍 .8 2.4 本章小结 .10 第三章第三章 句子相似度计算方法句子相似度计算方法.1111 3.1 引言 .11 3.2 中文句子相似度计算的特点与难点 .12 3.3 句子相似度的计算方法 .12 3.3.1 基于关键词的句子相似度计算方法.13 3.3.2 基于语义词典的句子相似度计算方法.17 3.3.3 基于句法依存分析的句子相似度计算方法.19 3.3.4 基于多重信息的句子相似度计算方法.21 3.4 本章小结 .24 第四章第四章 基于关键词和改进的编辑距离算法相结合的相似度计算方法基于关键词和改进的编辑距离算法相结合的相似度计算方法.2525 4.1 引言 .25 4.2 关键词抽取 .25 目录 V 4.2.1 关键词提取算法.28 4.2.2 关键词提取流程.28 4.3 关键词序列扩展 .29 4.4 改进的编辑距离算法 .30 4.4.1 编辑距离算法.30 4.4.2 改进的编辑距离算法.31 4.5 基于关键词和改进的编辑距离算法相结合的相似度计算方法 .33 4.5.1 计算流程.33 4.5.2 算法中相关参数的确定 .33 4.5.3 计算步骤.34 4.5.4 实验对比.37 4.5.5 结果分析.41 4.6 本章小结 .42 第五章第五章 系统设计与实现系统设计与实现.4343 5.1 引言 .43 5.2 系统的总体设计 .43 5.2.1 系统的总体框架 .43 5.2.2 系统设计的基本思想 .43 5.3 系统各模块的实现 .44 5.3.1 自动问答系统界面设计 .45 5.3.2 FAQ 库的建立.45 5.3.3 问句处理模块 .47 5.3.4 句子相似度计算模块 .48 5.3.5 答案抽取模块 .49 5.3.6 FAQ 库更新模块.50 5.4 本章小结 .50 第六章第六章 系统总体测试与评价系统总体测试与评价.5151 6.1 引言 .51 目录 VI 6.2 本系统的评测标准 .51 6.3 测试结果及分析 .51 6.4 本章小结 .55 第七章第七章 总结与展望总结与展望.5656 7.1 本文工作总结 .56 7.2 待进一步研究的工作 .57 致谢致谢.5858 参考文献参考文献.5959 附录:攻读硕士学位期间发表的学术论文附录:攻读硕士学位期间发表的学术论文.6262 第一章 绪论 1 第一章 绪论 1.1 课题的背景和意义 随着网络信息的爆炸性增长,Baidu、Google 等搜索引擎迅速发展起来为用 户提供一些有用的相对简洁的篇章信息,但是这些传统的搜索引擎存在一些不 足,如:以关键词的逻辑组合来表达检索需求,缺少上下文背景信息使得搜索 引擎返回的相关性网页信息太多,有时无法得到令用户满意的答案。以关键词 为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及 语义,因此检索效果很难进一步提高。 面对庞大的信息量,如何以最快的速度准确而详尽地找到用户感兴趣的信 息已成为信息时代的一个重要研究课题。自动问答系统1 (Automatic Question and Answering System) 简称问答系统(QAS),是指接受用户以自然语言形式描 述的提问并从大量的异构数据中查找出能回答该提问的准确、简洁答案的信息。 因此,问答系统和根据关键词检索并返回相关文档集合的传统搜索引擎有着根 本的区别。问答系统的目标是精确回答用户用自然语言提出的问题它可以接受 用户以自然语言形式描述的提问,并返回该提问的准确、简洁答案,具有方便、 快捷、高效等特点。 问答系统一般分为三部分:问题理解,信息检索和答案抽取。句子相似度 计算是信息检索和答案抽取两部分实现过程中的一项核心内容,在自动问答系 统中,句子相似度更多地反映句子之间的语义上的匹配符合程度。句子相似度 是问答系统进行的基础性工作,句子相似度的效果直接影响着整个系统的性能。 因此,句子相似度的研究对整个问答系统来说是非常重要的。 1.2 句子相似度计算在自动问答系统的应用 句子相似度计算在自然语言处理领域有着广泛的应用,是自动问答系统的 重要理论基础和关键实现技术。为了要实现相同或相似问题的查找,其关键是 问句间的相似度计算。本文主要研究其在自动问答系统中的应用,在自动问答 第一章 绪论 2 系统中句子相似度更多地反映句子之间的语义上的匹配符合程度。 句子相似度计算是基于常问问题集 (FAQ:Frequently Asked Questions)的 问 答系统的核心问题。在 FAQ 问答系统中,将用户所提问题与 FAQ 库中已有 “问题- 答案”对中的问题进行比较,确定与其最相似的问题,并用对应的答 案提交用户。 句子相似度计算也是自动问答系统的答案抽取部分实现的的关键技术。在 从文档库或者网页上抽取答案时,计算问题与答案的匹配程度。句子相似度计 算是答案抽取的关键,会直接影响返回答案的准确程度,从而影响到整个系统 的性能。 1.3 句子相似度计算的研究现状 句子的相似度计算可分为三个等级层次:语法相似度、语义相似度以及语 用相似度。其中,语用相似度的实现在现阶段还具有相当的难度。 当前,国内外在句子相似度计算方面已有很多研究。在国外,对于句子层面 的相似度研究主要集中在字符串的相似度计算方面。如 LCS 算法2,编辑距离 及其扩展算法的相似字符串模糊匹配3等 。在国内,句子相似度计算主要是以 词语为基本处理单元,通过计算相同词语占句子的比重来确定句子之间的相似 度,还有一些方法在此基础上结合了语义信息或句子的结构信息来计算句子的 相似度。秦兵4等采用 TF-IDF 法和基于语义的方法计算问句的相似度;李伟5 等提取文本中的关键句中的关键词用于文本相似度计算,金博6等在语义相似 度的基础上为不同词性的词赋予不同的权重来综合评定句子的相似度,李素建 7基于知网8和同义词词林9,提出了语句相关度的定量计算模型, 吕学强10等考虑词性相似度和词序相似度两个因素,提出了句子相似度模型和 最相似句子的查找算法。崔桓11等综合考虑关键词顺序、关键词之间的距离、 以及问句和答案长度等信息,用于计算其相似度,车万翔12等利用改进的编辑 距离进行中文相似度检索。穗志方13、俞士汶提出了基于骨架依存的语句相似 度计算模型并用于基于实例的机器翻译。 第一章 绪论 3 1.4 本文的组织和结构 本文分为七个章节: 第一章:首先概述了自动问答系统,然后介绍了句子相似度计算在自动问 答系统中的重要性并分析其国内外研究的现状。 第二章:从国内外研究现状分析词语相似度的计算方法及其优缺点,并对 常用语义资源作了介绍。 第三章:分析了当前的句子相似度计算的各种方法,并分析对比了各自的 优缺点。 第四章:在分析各种计算方法的基础上,提出一种基于多重信息的句子相 似度计算方法,首先对句子进行关键词抽取并扩展,然后结合改进的编辑距离 算法计算句子间的最小编辑距离,最后转化为相似度。 第五章:主要介绍基于招生咨询领域的自动问答系统的设计与实现过程, 并将提出的基于多重信息的句子相似度计算方法应用于其中。 第六章:结合实际情况对系统测试,并根据测试的结果对提出的方法进行 评价。 第七章:对全文进行总结工作,并就本文进一步的研究工作进行了相应的 讨论。 第二章 词语相似度计算及常用语义资源 4 第二章 词语相似度计算及常用语义资源 2.1 引言 词语是汉语最基本的语义和语法单位,汉语词语相似度计算是计算句子相似 度的基础。在计算词语相似度时经常会用到一些语义资源,如知网 、 同义 词词林 。本章主要就词语相似度计算方面的概念及相关计算方法进行阐述,并 介绍几种汉语语言处理中经常用到的语义资源。 2.2 词语相似度及相关计算方法 2.2.1 词语相似度概念 词语相似度是一个主观性较强的概念,在脱离具体的应用背景的情况下谈 论词语相似度,很难得到一个统一的定义,在具体到某一领域的应用时,词语 相似度的含义才会比较明确。例如,在中文问答系统中词语相似度主要是指词 语在语义上的相似程度。 本文的研究主要以中文问答系统为背景,因此在本文中我们所理解的词语 相似度就是两个词语在语义上的相似的程度。相似度用一个数值来衡量,一般 取值范围在0,1之间。一个词语与它本身的语义相似度为 1,如果两个词语在 任何上下文环境中都不可替换,那么其相似度为 0。 词语相似度涉及词语的词法、句法、语义甚至语用等多个方面的特点。其 中,对词语相似度影响最大的应该是词的语义。 词语相似度计算在自然语言处理领域有着广泛应用,词语相似度是词的自 动聚类算法的基础,词语相似度在信息检索领域中的查询扩展、歧义消除、以 及提高信息检索的精度和召回率等都有着非常重要的应用价值。 2.2.2 词语相似度的计算方法 从国内外研究情况来看,词语相似度的计算方法大体上可以分为以下几类: 一类是向量空间模型的统计方法13 14,这种方法基于大规模语料库统计,利用 第二章 词语相似度计算及常用语义资源 5 词语的上下文信息的概率分布计算词语间的相似度;第二类是基于本体的词语 语义相似度计算方法1517;第三类是依赖于概念之间结构层次关系组织的语 义词典方法13,主要是根据概念之间的上下位关系以及同义关系,利用概念距 离方法计算词语相似度。 (1)基于语料库统计的方法 基于统计的词语相似度计算方法是一种经验主义方法,该方法认同这样一 个论断“词语的上下文可以为词语定义提供足够信息”18,该计算方法利用大 规模的语料进行统计,利用词汇的上下文信息的概率分布来计算词汇间的相似 度。 国外的 P. Brown19等人采用平均互信息,L. Lillian20利用相关熵来计算 词语之间的相似度。Dagan21等人使用较为复杂的概率模型计算词语的距离。 国内关毅、王晓龙22提出基于统计的汉语词汇相似度计算方法,采用模糊集合 中的隶属函数定义计算语义相似度的数学模型,然后以同义词词林作为语 义基础,提出了基于相关熵的汉语词汇相似度的计算方法。胡俊峰23等人利用 上下文的词汇向量空间模型来描述词汇的语义,并在此基础上定义词汇的相似 关系。刘群利用 Hopfeild 神经网络进行词与词的联想13,并用一个反映关键词 间关联度的模糊自反矩阵来存储词与词之间的相似度量值。章志凌23等人基于 统计的方法提出一种优化的 Corpus 库,把语料库中词之间的关系通过统计的方 法提取出来并存储,作为上层词语关系量化计算的基础。 基于统计的定量分析方法对词汇间语义相似性的度量比较精确和有效。但 是,这种方法对训练所用的语料库依赖性比较大并且计算量大,计算方法复杂, 易受数据稀疏和数据噪声的干扰,有时会出现明显的错误。 (2)基于本体的词语语义相似度计算方法 本体24(Ontology)是一个哲学术语,用来描述客观事物的抽象本质。20 世纪80年代Neches最早将本体的概念引入到人工智能领域,并赋予其新的含义。 本体的一个最为流行的定义是Gruber于1993年给出的,即本体是对概念模型的 明确的规范性说明。用本体来计算概念间相似度的基础是:两个概念之间具有 一定的语义相关性,并且它们在概念间的结构层次网络图中存在着一条路径。 朱礼军15等利用计算语言学中的语义距离来计算领域本体中的概念语义相 第二章 词语相似度计算及常用语义资源 6 似度,计算公式如下: (2-1) i n i i CCCCSim),(),( 21 1 21 其中:,是领域本体中的两个概念;是概念,在领域本体中 1 C 2 Cn 1 C 2 C 所具有的最大深度;是权重(可简单的取) i n i 1 取值为:),( 21 CC i (2-2) 个父类代码不同前与,当 个父类代码相同前与,当 iCC iCC CC i 21 21 21 0 1 ),( 黄果16 ,姜华17等在本体层次网络中计算概念间距离长度时,考虑了其 他多种因素的影响,如:概念关系类型、结点密度、结点深度等,并在计算时 将不同的因素进行加权组合。 (3)基于语义词典方法 基于按照概念间结构层次关系组织的语义词典方法,主要是根据这类语言 学资源中概念之间的同义关系和上下位关系来计算。这种方法成立的前提是假 设两个具有一定语义相似性的词语在概念间的结构层次网络中存在一条通路(上 下位关系)。通常基于语义词典方法依赖于比较完备的按照概念间结构层次关系 组织的大型语义词典,在英文处理领域主要有Wordnet25、FramNet26、 MindNet27等,在汉语处理领域主要使用知网(HowNet)、同义词词林 、中文概念词典28(CCD)等语义词典。 一般大规模语义词典都是将所有的词组织在树状的层次结构中,在一棵树 形图中,任意两个节点之间有且只有一条路径。计算词语相似度的时,这条唯 一路径的长度就可以用来度量这两个概念间的语义距离。在汉语词语相似度计 算研究方面,王斌29采用树形图中节点之间路径的方法,利用同义词词林 来计算汉语词语之间的相似度。刘群等人提出一种基于知网的词汇语义相 似度计算方法13,采用了根据上下位关系得到语义距离并进行转换的方法计算 两个义原的相似度。李素建11等提出了一种综合利用知网和同义词词林 来计算汉语词语语义相似度的方法。 第二章 词语相似度计算及常用语义资源 7 2.3 常用语义资源介绍 2.3.1知网(HowNet)简介 知网30是由我国著名机器翻译专家董振东先生创建的一个以汉语和英 语中的词语所代表的概念为目标描述对象,它由多个数据文件构成,构成一个 网状的有机的知识系统。 知网中包含的词汇语义知识和世界知识非常丰富, 为自然语言处理领域、机器翻译领域等的研究提供了宝贵的语义资源。 在知网中, “概念”是对词汇语义的一种描述,是由词表示的概念标 识符。如果每个词有多个语义,就对应有多个不同的概念。 “概念”用一种“知 识表示语言” “义原”来描述。 “义原”是知网中最基本的、不易于再分 割的意义的最小单位。 知网通过对约 6000 个汉字进行考察分析,抽取了 1500 个义原,这些义 原可分为十个大类: (1)Event|事件; (2)entity|实体; (3)attribute|属性; (4)aValue|属性值; (5)quantity|数量; (6)qValue|数量值; (7)SecondaryFeature|次要特征; (8)syntax|语法; (9)EventRole|动态角色; (10)EventFeatures|动态属性。 对于这十大类义原,可以把它们划分为三组:第一组,“基本义原”包括 第l到第7类,用来描述单个概念的语义特征;第二组,“语法义原”只包括第8 类,用来描述词语的语法特征,如词性;第三组,“关系义原”包括第9和第l0 类,用来描述概念和概念之间的关系。 第二章 词语相似度计算及常用语义资源 8 义原之间组成的是一个很复杂的网状结构,而不是一个单纯的树状结构。 在义原关系中最重要的是上下位关系,根据义原的上下位关系,将所有的“基 本义原”组成了一个义原层次体系,如图 21 所示: 这个义原层次体系是一个树状结构,我们称之为义原分类树,在义原分类 树中父节点和子节点的义原具有上下位关系。我们可以利用义原分类树来计算 两个词之间的语义距离。 2.3.2哈工大信息检索研究室同义词词林扩展版介绍 哈工大信息检索研究室实验室利用很多词语相关资源对同义词词林进 行了扩充,最终形成一部具有汉语大词表的哈工大信息检索研究室同义词词 林扩展版31。 词分类 同义词词林是 20 世纪 80 年代出版的、由梅家驹等学者编纂的一部对 汉语词汇按语义全面分类的词典。 同义词词林根据汉语的特点和使用原则, 确定了词的语义分类原则:以词义为主,兼顾词类并充分注重题材的集中。按 照树状的层次结构把所有收录的词条组织到一起,它将词汇分成大、中、小三 类。每个小类里都有很多的词,这些词根据词义的远近和相关性分成了若干个 词群(段落) 。每个段落中的词语又进一步分成了若干个行,同一行的词语要么 - entity|实体 thing|万物 #time|时间,#space|空间 physical|物质!apperance|外观 animate|生物*alive|活着,!age|年龄,*die|死,*metabolize|代谢 AnimalHuman|动物!sex|性别,*alterlocation|变空间位置 human|人!name|姓名, ability|能力,occupation|职位,*act|行动 humanized|拟人fake|伪 animal|兽 beast|走兽 图 2-1 树状的义原层次结构 第二章 词语相似度计算及常用语义资源 9 词义相同,要么词义有很强的相关性。例如, “大豆” 、 “毛豆”和“黄豆”在同 一行。另外, “外商” 、 “官商” 、 “坐商” 、 “私商”也在同一行,这些词不同义, 但很相关。为了将词义相关的行和同义的行区分开,词典同义词词林在行 的左端加上“* *”作为标记。 小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。 这样,词典同义词词林就具备了 5 层结构,如图 22 所示:。 图 2-2同义词词林语义分类树形图 随着级别的递增,词义刻画越来越细,到了第五层,每个分类里词语数量 已很少,已不可再分,可以称为原子词群。不同级别的分类结果可以为自然语 言处理提供不同的服务,例如第四层的分类和第五层的分类在信息检索、自动 问答等研究领域得到应用。 编码 在同义词词林扩展版中将词的词义分为 5 层描述了一个由上到下,由 宽泛概念到具体词义的语义分类体系,并将所收的词按词义分门别类组织在其 中。于是,每个汉语词都按照其语义,赋予了一个或多个 5 位的语义代码。与 此分类体系相对应的是一个词义的编码体系,描述如下: 词义编码:=1层2层3层4层5层 1层:=大写英文字母 O LBA al a b 01 02. 01 01 01 01 02. 01 . 01 01 01 0201.01 01 01 . 虚线用于标识某上层节点到下层节点的路径 第二章 词语相似度计算及常用语义资源 10 2层:=小写英文字母 3层:=数字数字 4层:=大写英文字母 5层:=数字数字 如: Ba01A03 万物 Ba01B10# 导体半导体超导体 由于第五级的分类结果需要特别说明,例如,有的行是同义词,有的行是 相关词,有的行只有一个词,可以分出具体的三种情况。在使用上,有时需要 对这三种情况进行区别对待,所以有必要再增加标记来分别代表着几种情形。 具体的标记如表 21 所示: 表 21 词语编码表 编码位 12345678 符号举例 Da15B02=# 符号性质大类中类小类词群原子词群 级别第 1 级第 2 级第 3 级 第 4 级 第 5 级 表中的编码位是按照从左到右的顺序排列。第八位的标记有 3 种,分别是 “=” 、 “#” 、 “” , “=”代表“相等” 、 “同义” 。末尾的“#”代表“不等” 、 “同 类” ,属于相关词语。末尾的“”代表“自我封闭” 、 “独立” ,它在词典中既没 有同义词,也没有相关词。 2.4 本章小结 本章主要讲了词语相似度计算方面的概念,分别介绍了几种词语相似度计算 方法。最后着重介绍了两种汉语语义资源知网和同义词词林扩展版的 结构与组织。 知网中的义原树和义原距离及同义词词林扩展版中的词语 第二章 词语相似度计算及常用语义资源 11 分层编码都是计算词语相似度的重要基础。 第三章 句子相似度计算方法 11 第三章 句子相似度计算方法 3.1 引言 相似度是一个很复杂的概念,在语义学、哲学和信息理论中被广泛的讨论。 目前,关于相似度的定义还没有一个通用方法,因为其涉及到语言、语句结构 和其他一些因素。 在自动问答系统中,句子相似度更多地反映句子之间的语义上的匹配符合 程度。在此,给出本文句子相似度的定义32 :句子间的相似度为一个在0,1 之间的数值,0 代表两个句子不相似,1 代表两个句子完全相似,两个句子之间 的相似度的值越大表示它们就越相似。 句子的相似度计算可分为三个等级层次:语法相似度、语义相似度以及语 用相似度33。 (1)语法相似度,主要是从句子语法角度出发考虑词形、词序以及句长对 句子相似度影响的方法。该方法认为影响句子相似度的因素有 3 个分别为:词 形相似度、词序相似度以及句长相似度。其中,词形相似度起主要作用,词序 相似度和句长相似度起次要作用。例如:“什么是进程?”与“进程的含义是 什么?”词序不同,句长有差别,但相同的字很多,所以相似度较高。 (2)语义相似度,是一种面向语义的方法主要指不同句子中所使用的词汇可 以用同义词或近义词替换以及句子的结构比较类似,语义相似度有多种计算方 法,适合于有丰富的语义资源,以及领域知识可以获得的领域。例如:“第一 台微机诞生于那一年?”与“第一台电脑发明于那一年?”只要能够判断出 “微机”和“电脑”同义,“诞生”与“发明”近义就能确定两个句子的意思 相同。 (3) 语用相似度,是指词或句子的上下文背景具有相似性那么词或句子也 存在一定的相似性。句子之间语用相似度计算是人们一直追求的目标,但是现 阶段还具有相当的难度,效果也不尽如人意。例如:“什么是病毒?”与“病 毒是什么?”若两句话同时出现在医学相关文档或计算机相关文档,则它们有 相同的含义;若分别出现在医学相关文档和计算机相关文档,含义则不同。 第三章 句子相似度计算方法 12 3.2 中文句子相似度计算的特点与难点 在国外,已有多种相对成熟的方法用于句子相似度计算,但在汉语领域还 存在不少问题,中文句子相似度计算有不同的特点与难点33: (1)汉语属于表意型语言缺少形态变化。 (2)汉语是一种大字符集语言。 中华大字典总共收录汉字 44908 个, 中 山大词典共收录汉语词语六十多万条。汉语语言词语的丰富程度是世界上其 他语言无法与之相比的。这就意味着中文信息处理所用的处理单元要比英文更 加庞杂。 (3)汉语基本语法单位确定困难。汉语语法单位可以分为 6 级:语素、词语、 组块、短语、句子和句群。确定词和短语之间哪个是最基本的,还存在着争论。 有人认为在汉语中没有词只有短语,因为词是可以拆开的,可扩展的,如“打 工”与“打了一份工” ;还有一些词调换位置后仍可表达相同的意思。但确定的 是词语是所有相似度计算的基础。 (4)词法分析和句法分析的准确率不高。对于汉语来说,词之间没有明显的 分割标志,对汉语进行句法分析的第一步是自动分词,自动分词是后续语法和 语义分析的基础,但是目前自动分词还不能达到非常令人满意的准确率,其中, 命名实体识别、未登录词的识别、切分歧义等都是急需解决的难题。 (5)汉语句子的相似与语义、语境密切联系。两个句子的相似程度既与句子 结构相关,更与句子的语义密切联系,只考虑其中一个方面不能取得理想的效 果。另外,句子的相似度还与句子的上下文语境密切联系。 3.3 句子相似度的计算方法 汉语句子相似度计算虽然存在诸多特殊困难,但人们在现有的资源、技术 基础上做了大量极有意义的工作,并且提出了一些比较有代表性的方法。 句子相似度的计算方法在归结起来可分为四类方法:基于关键词的句子相 似度计算方法,基于语义词典的句子相似度计算方法3435,基于语义分析的 句子相似度计算方法36以及基于多重信息的句子相似度计算方法。 第三章 句子相似度计算方法 13 3.3.1 基于关键词的句子相似度计算方法 基于关键词类型的一种传统方法是根据字符串匹配的原理,计算两个句子 中相同关键词的个数与总关键词的个数的比例,即,其中 m、n 分别表示 nm c 2 两个句子的关键词个数,而 c 是两个句子中相同关键词的个数。实际应用于中 文自动问答系统,则需要考虑更多的其他有用信息。 TF-IDF 方法 向量空间模型(Vector Space Model,VSM)是由 Salton 等人于 60 年代提 出的一个应用于信息过滤 、索引以及评估相关性的代数模型。 在 VSM 中,文档被看作是由互相独立的词条组()构成, n TTT,., 21 根据每一个词条在文档中的重要程度赋予不同的权值,将 i T i W 看作 n 维坐标系中的坐标轴,为其所对应的坐标值。 n TTT,., 21n WWW,., 21 这样由()分解得到的正交词条矢量构成一个文档向量空间,文 n TTT,., 21 档与向量空间中的点映射。所有的文档以及用户查询都可以映射到这个文档 向量空间,并用词条矢量()表示,从而把文档信息的 nn WTWTWT,., 2211 匹配问题转化为向量空间中的矢量匹配问题。设用户查询为Q,被检索的 文档为 D,它们之间的相似程度可以用向量之间的夹角来度量,夹角越小则 相似度越高;反之相似度越低。 TF-IDF(Term Frequency Inverted Document Frequency)是一种常见的基 于向量空间模型(Vector Space Model,VSM)的方法。这是一种基于语料库中 出现的关键词词频的统计方法,它以大规模真实语料为基础综合考虑了不同词 在所有句子中出现的频率(TF 值)以及该词对不同的句子的分辨能力(IDF 值) 。算法实现如下: (1)根据词频统计出语料库中出现的所有词; n wwww 321 , (2)把每一个句子表示为一个 n 维向量:; ni TTTTT 21, 其中, () ,n 为词语在该句子中出现的次)/log(mMnTini 1 i w 第三章 句子相似度计算方法 14 数即 TF 值,m 为句子语料库中包含词语的句子数量,M 为语料库中的句子 i w 总数量,1og(Mm)即 IDF 值。以上的综合表达式反映了一个关键词的出 i TT 现频率和这个关键词对不同句子的分辨能力,即:一个词语在某个句子中出现 的次数越多,则它对该句子越重要。 (3)设任意两个句子的 n 维向量分别表示为示为 T 和 T ,则其相似度可 以用两个句子向量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论