




已阅读5页,还剩55页未读, 继续免费阅读
(应用数学专业论文)融合多元信息的句子相似度计算研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士研究生学位论文 第1 页 摘要 句子相似度计算在自然语言处理领域是一项基础而核心的研究课题,它的研 究状况直接决定着其它一些相关领域的研究进展。例如:在自动问答、机器翻译、 智能检索等领域,句了相似度计算都是其中关键的技术。本文分别对义原、词语、 句子三个层次的相似度计算进行了研究,其中重点研究了句子相似度计算。钊对 目前句子相似度计算方法的种种不足,提出了融合多元信息的句子相似度计算方 法,并通过实验,验证了该方法的有效性,最后结合金融领域自动问答系统,给 出句子相似度计算在常见问题库( f a q ) 中的应用。 本文主要工作有如下几个方面: 1 研究了词语相似度及其计算方法,利用知网提供的丰富语义信息, 计算义原相似度,在此基础上改进了基于知网的词语相似度计算方 法。 2 提出了融合多元信息的句子相似度计算方法。该方法从不同的角度综合 考虑句子的关键词信息、语义信息、句法结构信息,并从中提取句子长 度、相同关键词的个数、关键词顺序和关键词距离等多元信息,运用加 权求和的融合手段,确定句子间的相似度。 3 融合多元信息的句子相似度计算方法中需要解决多元信息之间的权重分 配问题,本文采用遗传算法寻求最优权重组合,避免了通过经验确定权 值的不可靠性和主观性。 4 设计了一个金融领域自动问答系统( b a q s ) 模型,把句子相似度计算用于 金融领域自动问答系统中常见问题库( f a q ) 的问旬匹配,并给出了句 子相似度计算在f a q 库中的应用过程。 关键词:词语相似度;句子相似度;遗传算法;自动问答 第l i 页河南大学硕士研究生学位论文 a b s t r a c t s e n t e n c es i m i l a r i t yc o m p u t a t i o ni sa l le s s e n t i a lr e s e a r c ha n dd i r e c t l yd e c i d e st h e d e v e l o p m e n to fc e r t a i no t h e rr e l a t e d f i e l d s f o re x a m p l e :i nt h ef i e l d so fa u t o m a t i c q u e s t i o n - a n s w e r , m a c h i n et r a n s l a t i o n ,s m a r ts e a r c h ,s e n t e n c es i m i l a r i t yc o m p u t a t i o n i so n eo ft h em o s ti m p o r t a n tt e c h n o l o g i e s i nt h i sp a p e r , s i m i l a r i t yc o m p u t a t i o nw eh a v e s t u d i e di sf o c u s i n go nt h r e el e v e l s :s e m e m e ,w o r da n ds e n t e n c e ,w h i c hf o c u s e so nt h e s e n t e n c es i m i l a r i t yc o m p u t a t i o n t h em e t h o do fs e n t e n c e ss i m i l a r i t yc o m p u t a t i o nb a s e d o nm u l t i i n f o r m a t i o nf u s i o ni sp r o p o s e db a s i n go nt h ec u r r e n ti n a d e q u a c yo ft h e s e n t e n c es i m i l a r i t yc o m p u t a t i o na n dd e s i g n sae x p e r i m e n tt op r o v et h ev a l i d i t yo ft h e m e t h o d ;f i n a l l y , g i v e st h ea p p l i c a t i o no fs e n t e n c es i m i l a r i t yc o m p u t a t i o ni nf a q c o m b i n i n gw i t ht h ea u t o m a t i cq u e s t i o n - a n s w e r t h ep a p e rh a st h ef o l l o w i n gm a i na s p e c t s : 1 r e s e a r c h so nt h ew o r ds i m i l a r i t ya n dt h em e t h o do fi t ,b yu s i n gr i c hs e m a n t i c i n f o r m a t i o np r o v i d e db yt h e ”h o w n e t ”t oc o m p u t et h es e m e m es i m i l a r i t y , a n df u r t h e r i m p r o v e st h em e t h o do f w o r ds i m i l a r i t yc o m p u t a t i o nb a s e do nt h e ”h o w n e t ” 2 p r o p o s e s t h em e t h o do fs e n t e n c e s i m i l a r i t yc o m p u t a t i o n b a s e do n m u l t i i n f o r m a t i o nf u s i o n t h em e t h o di sf r o md i f f e r e n t a n g l e s c o n s i d e r i n g t h e i n f o r m a t i o no fk e y w o r d s ,s e m a n t i c ,s y n t a c t i cs t r u c t u r e ,e x t r a c t e df r o mt h es e n t e n c e l e n g t h ,t h es a m en u m b e ro fk e y w o r d s ,t h ed i s t a n c e o fk e y w o r d s ,t h es e q u e n c eo f k e y w o r d sa n do t h e ri n f o r m a t i o n s ,u s i n g aw e i g h t e ds u mt od e t e r m i n es e n t e n c e s i m i l a r i t y 3 u s e sg e n e t i ca l g o r i t h m st os o l v ek e y w o r d si n f o r m a t i o n ,s e m a n t i ci n f o r m a t i o n a n ds y n t a c t i cs t r u c t u r ei n f o r m a t i o nb e t w e e nt h ei n f o r m a t i o n st h eb e s tc o m b i n a t i o no f w e i g h tt oa v o i dt h ea d o p t i o no ft h er i g h tt od e t e r m i n et h ev a l u eo ft h ee x p e r i e n c eo ft h e u n r e l i a b i l i t ya n ds u b j e c t i v i t y , a n do p t i m i z et h ep o r t f o l i ow e i g h t s 河南大学硕士研究生学位论文第l li 页 4 d e s i g n sab a n ka r e aa u t o m a t i cq u e s t i o n - a n s w e r ( b a q s ) m o d e la n dg i v e st h e a p p l i c a t i o no fs e n t e n c es i m i l a r i t yc o m p u t a t i o n s e n t e n c es i m i l a r i t yc o m p u t a t i o nf o rb a n k a r e aa u t o m a t i cq u e s t i o n a n s w e r m a t c h i n gf a qq u e s t i o n s d a t a b a s es h o w st h e r e a l i z a t i o np r o c e s so ft h es e n t e n c es i m i l a r i t yc o m p u t a t i o ni nt h ef a qd a t a b a s e k e y w o r d s :w o r ds i m i l a r i t y ;s e n t e n c es i m i l a r i t y ;g e n e t i ca l g o f i t h m ;a u t o m a t i cq & a 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位申请。本人郑重声明:所呈交奇勺学位论文是 本人在导师的指导下独立完戌告勺,对所研究的课题有新的见解。据我所知,除 文中特别加以说明、标注和致谢的地方外,论文中不包括其他人已经发袁或撰 写过的研究成果,也不包括其他人为获得任何教育、科研机构的学位或证书而 使用过酌材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位申请人( 学位论文作者) 釜名: 7 0 d j 年s 琵日 关于学位论文著作权使用授权书 本人经河南大学审核批准授子硕士擘住。作为学住论文竹作者,本人完全 了解并同意河南大学有关保留、使用t 攀位论文的要求,即河南大学有权向国家 图书馆、科研信息机构、数据收集机构和本校图书馆等援供学位论文( 纸质文 本和电子文本) 以供公众检索、奎阅。本人授权河南大学出于宣扬、展览学校 学术发展和进行学术交流等目的,可麒采取影印、缩印、扫描和拷贝等复制手 段保存、汇编学位论文( 纸质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) l3 - 学位获得者( 学位论文作者) 釜名:镒量 2 0 学住论文指导教师签名 河南大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第1 章绪论 在中文信息处理中,句子相似度计算是一项基础而核心的研究课题。句予相 似度计算在实际中有着广泛的应用,它的研究状况直接决定着其它一些相关领域 的研究进展。例如:自动问答系统可以通过句子相似度计算找到与问题相匹配的 答案;智能检索系统可以通过句子相似度计算找到与检索要求近似的句子;基于 实例的机器翻译可以通过句予相似度找到相似的句子,并得到相应的译文。 目前如何理解、计算和评价句子相似度,结论尚未统一,都是在具体的应用 中去谈句子相似度。因为相似的词语或句子,从不同的角度观察可能会有一定差 异 1 】。例如:在自动问答系统中,句子相似度计算主要体现在用户问句和常见问 题库中问句的匹配上;在基于实例的机器翻译中,句子相似度主要用于考察文本 中的词语是否可替换;在智能检索中,句子相似度则反映文本与用户检索内容在 语义上的符合程度。本文所作的句子相似度研究的背景是自动问答系统,在自动 问答中句子相似度是一个关键的理论基础。句子相似度计算在自动问答系统中应 用主要体现在两处:问句与问句之间的相似度计算和问句与答案之间的相似度计 算。在常见问题库中需要用到问句与问句之间的相似度,在答案抽取模块需要用 到问句和候选答案文本之间的相似度i z j 。 句子相似度计算是一个充满挑战性的研究课题,有着相当多的困难等待人们 去攻克。本文针对目前句子相似度计算方法的优缺点,综合利用句子的关键词信 息、语义信息、句法结构信息提出了一种融合多元信息的句子相似度计算方法, 尝试解决其存在的问题,对目前句子相似度计算的研究将会起到一定的促进作用。 1 2 研究现状 文本相似度计算包括词素、词、句子、段落等多个层面,各个层面之间的相 第2 页河南大学硕士研究生学位论文 似度计算是紧密联系的,下层的相似度计算为上层提供基础,同时各个层次上的 相似度算法又各不相同。下面,将分别阐述词语相似度计算和句了相似度计算的 研究进展,并对其存在的主要问题进行探讨。 1 2 1词语相似度计算的研究进展 词语相似度的研究相对较为成熟,而且词语相似度计算已经广泛应用于自动 问答、机器翻译、智能检索、文本聚类和词义排歧等领域。词语相似度的计算方 法有很多,如最初的字面相似度计算方法,词素相似度计算方法,以及目前常见 的基于语义词典的计算方法,也有学者研究了基于统计的相似度计算方法。 基于字面的相似度计算方法实现比较简单,但该方法未考虑词形不同的同义 或近义词之间的相似性。 基于语义词典的相似度计算方法从组成词的概念出发,从语义角度来考察词 语的相似度,计算结果相对较为准确。但该方法受语义词典的完备性影响较大, 语义词典的登陆数量、组织方式、概念的表达等直接影响计算的效果。参考文献 【3 】提出了一种基于知网、面向语义、可扩展的词语相似度计算方法,解决了未登 陆词之间及未登陆词与登陆词之间的相似度计算问题。 基于统计的方法将词汇的上下文信息的概率分布作为词语相似度计算的参 照,能够对词汇间的语义相似度进行比较精确的度量。但是这种方法依赖于训练 所用的语料库,计算量大,计算方法复杂,而且基于统计的方法受数据稀疏和数 据噪声的影响较大。 目前,基于语义词典的方法的效果要比基于统计的方法好一些。 国外有代表性的词语相似度计算方法主要有:基于构成字符的相似度计算方 法、基于w o r d n e t 等语义词典的计算方法、基于词典注释的方法、基于大规模语 料库统计的方法等。 1 2 2 句子相似度计算的研究进展 在句子相似度计算的研究方面,传统的句子相似度计算方法主要有以下几种: 河南大学硕士研究生学位论文第3 页 基于关键词信息的传统方法,该方法根据字符串匹配的原理,通过计算两个 句了中相同关键词的个数与总关键词的个数的比值来度量句了相似度。 基于向量空间模型的t f i d f 方法,该方法属于统计方法,它基于关键词在 语料库中的出现频率,建立在大量真实文本语料基础之上。 基于语义词典的旬了相似度计算方法以语义词典为基础,首先计算两个词语 在语义词典中的语义距离从而求得词语的相似度,之后通过两个词语的相似度求 得两个句子间的语义相似度。 基于编辑距离的句子相似度计算方法【4 】,编辑距离又称l e v e n s h t e i n 距离,指 由一个字串转成另一个字串所需的最少编辑操作的个数。这里的编辑操作包括删 除一个字符,插入一个字符,将一个字符替换成另一个字符。 基于潜在语义索弓l ( l a t e n ts e m a n t i ci n d e x i n g ,l s d 的句子相似度计算方法【5 j , 该方法基于假设“任意一个词语在语义上是相互独立的,互不相于的”,而在现实 的文本中的每一个词语并非完全独立,文本中的词语彼此在语义上存在一定的关 系。 基于依存分析的句子相似度计算方法【8 】,依存分析是分析句法结构的一种方 法,该方法通过分析句子内部各成分之间的依存关系从而来分析句法结构,主张 句子中支配其他成分的核心成分是动词,而该动词本身并不受其他任何成分的约 束,其他受支配成分以某种依存关系从属于该核心动词。 在此基础之上,国内众多学者在句子相似度计算的研究方面也取得了一定的 成果: 陈利人等在文献【6 】中提出句子相似度包括结构相似度和语义相似度。 穗志方、俞士汶在文献【7 】中设计了一种折衷的句子分析方法骨架依存分析 法,进而实现了一种基于骨架依存树的语句相似度计算模型并用于基于实例的机 器翻译。 李彬等在文献 8 】中认为通过语义计算句子相似度应该结合句法结构信息,提 出了一种基于语义依存的汉语句子相似度计算方法。 夏天在文献【3 】中提出了一种基于知网、面向语义、可扩展的词语相似度计算 方法,解决了未登陆词之间及未登陆词与登陆词之间的相似度计算问题。 第4 页河南大学硕士研究生学位论文 李素建在文献【9 】中基于知网提出了句了相似度的定量计算模型。 金博等在文献 1 0 1 中基于词语语义相似度,通过为不同词性的词赋予不同的 权重来计算句了相似度。 吕学强等在文献【l1 】中结合词形相似度和词序相似度两个因素,提出了一种 句予相似模型,用以度量句子相似度。 车万翔等在文献【1 2 】中利用改进编辑距离的方法进行中文相似句子的检索。 秦兵等在文献【1 3 】中结合基于向量空间模型的方法和基于语义的方法,面向 常见问题库计算句子相似度。 崔桓等在文献 1 4 1 5 嘲j 用问句和答案的长度、关键词顺序、关键词距离等信 息计算句子相似度。 刘宝艳等文献【1 5 】中综合考虑语义和语法结构信息提出了一种基于改进编辑 距离和依存文法的汉语句子相似度计算方法。 1 2 3 存在的主要问题 目前句子相似度计算的方法或多或少的存在一些不够完美问题。比如: 基于关键词信息的方法简单,效率高,但仅考虑词的词频等表面信息,未考 虑词的词义及同义词、近义词等语义关系。 基于语义词典的句子相似度计算方法考虑了词义以及同义词、近义词等语义 关系,但是语义词典的不完备,或语料库的数据稀疏和噪声,会使获取的相关语 义信息不准确。 基于依存分析的句子相似度计算方法对句子的理解更加充分,算法的准确率 也会有所提高,但依存分析的工作量大,而且依存分析时没有考虑相关的语义信 息,会严重影响准确率。 基于编辑距离方法规定的编辑操作不够灵活,也没有考虑词语的同义替换。 1 3 本文的组织结构 本文的研究对象是句子相似度计算方法,主要研究内容是融合多元信息的句 河南大学硕士研究生学位论文第5 页 了相似度计算方法。本文的内容组织安排如下: 第一章,指出本文的研究背景及意义,并介绍词语、句子相似度计算的研究 现状及其存在的主要问题和本文的组织结构。 第二章,介绍词语相似度的定义与特点,分析目前词语相似度的计算方法及 其优缺点,在此基础上重点讨论了基于知网的词语相似度计算。 第三章,分析目前的句子相似度计算方法及其优缺点,提出融合多元信息的 句子相似度计算方法,并利用遗传算法解决多元信息之间的权重分配问题,最后 通过实验对该方法进行评价和验证。 第四章,构建了金融领域自动问答系统( b a q s ) 模型,并给出了金融领域 自动问答系统( b a q s ) 各模块主要功能,随后说明了融合多元信息的句子相似 度计算方法在b a q s 的f a q 库中的应用。 最后对本文的研究工作进行总结,并对下一步的研究工作进行展望。 第6 页河南大学硕士研究生学位论文 第2 章词语相似度计算 2 1词语相似度的概念 词语相似度是词语间语义贴近程度的一种定量度量,也是语义相似程度的数 量化。词语相似度的主观性较强,不存在非常明确的客观标准去衡量它。脱离具 体的应用背景研究词语相似度,很难得到一个统一的定义,在具体的应用中,词 语相似度的含义才会比较明确。例如,在自动问答系统中词语相似度是指词语在 语义上的匹配符合程度。在此说明:本文研究词语相似度和句了相似度都是以自 动问答系统为背景的。 词语相似度计算在自然语言处理、自动应答、智能检索、文本聚类、和机器 翻译等领域都有广泛的应用,它是计算句子相似度的基础,正在为越来越多的研 究人员所关注。 本文将词语相似度定义为词语在语义上的匹配符合程度,取值范围是【0 ,1 】。 两个词越相近其值越大,当值为l 时,表明两个词语在语义上完全相同;两个词 语义距离越大,其值越小,当取值为0 时,表明两个词语在语义上完全不同。 2 2 词语相似度计算的主要方法 词语相似度的计算方法一般可分为两类: 一类是基于某种世界知识( 如语义词典) 的计算方法【1 7 】,该方法根据概念间 结构层次关系组织的语义词典,利用概念间的上下位关系和同位关系来计算词语 间的相似度; 另一类是根据大规模语料库统计的方法【1 8 】,该方法用词语的上下文信息的概 率分布来度量词语相似度。 河南大学硕士研究生学位论文第7 页 2 2 1基于语义词典的词语相似度计算 该方法利用语义词典中概念之间的上下位、同义和反义等关系,计算语义词 典中两个概念的语义距离从而得到概念间的语义相似度,接着用概念间的语义相 似度来衡量两个词语间的语义相似度。基于语义词典的方法假设两个词语并非相 互独立而是具有一定的语义相关性,并且两个词语在语义词典的结构层次网络图 中存在一条通路将二者联系到一起【l6 | 。 基于语义词典的词语相似度计算方法建立在大规模语义词典的基础之上,在 汉语语义词典方面,具有代表性的有知网( h o w n e t ) 2 0 】、同义词词林【2 1 1 等; 英文语义词典方面,有w o r d n e t 1 9 】,f r a m e n e t ,m i n d n e t 等。国内的很多学者在 进行词语相似度研究的时候都是利用知网和同义词词林,其中基于知网 的相似度计算又较为常见一些。 一般的语义词典都是采用这样的方法:将所有的词组织在一棵或几棵树状的 层次结构网络中,层次结构网络图中任意两个词语之间存在且只存在一条路径。 那么就可以用路径的长度来度量两个概念间的相似度,从而得到词语的相似度。 ,:朴 ,7 彳b l 。久1 夕7 趟弋r 弋”0 1 钗。弋0 1 “0 1 0 1 ; o l0 2 0 l 0 l0 10 l 图2 - 1同义词词林语义分类树形图 王斌在文献【2 2 】中提出一种基于同义词词林的汉语词语相似度计算方法 ( 如图2 1 所示) ,刘群等在文献【1 7 】中利用知网来计算词语语义相似度。有 些研究者考虑的情况更复杂,a g i r r e & r i g a u 在基于w o r d n e t 的词语的语义相似度 计算中不f 叉考虑了结点间的路径长席外。还涉及到了箕他一甚因素【2 3 】。例如: 第8 页;- 3 南大学硕士研究生学位论文 1 概念层次树的深度:路径长度相同的两个结点,层次越低其语义距离越大。 2 概念层次树的区域密度:路径长度相同的两个结点,位于低密度区域的结 点,其语义距离应小于位于高密度区域的结点。 基于语义词典的词语相似度计算方法直观、简单有效且易于理解,但是语义 词典的完备与否对其影响较大,而且受人的主观影响也比较大,有时不能反映客 观事实。 2 2 2 基于大规模语料库的词语相似度计算 该方法基于文本中可以观察的语言事实,假设一个理论基础“两个词语在语 义上相似当且仅当两个词语处于相似的上下文环境”,它基于大规模语料库用词语 的上下文信息来度量语义相似度【2 4 1 。 大规模语料库是基于统计的词语相似度计算方法的基础,国外具有代表性的 有:b r o w n 语料库【2 5 1 、c o b u i l d 语料库、a c l d c i 语料库;在国内,众多的 中文信息处理研究单位也建立了大量的语料库,比如:人民日报光盘数据库, 北京大学计算语言学研究所,中国科学院软件研究所,中国科学院自动化所等等。 基于大规模语料库统计的词语相似度计算采用上下文语境的统计描述方法, 该方法建立在“词语的上下文可以为词语定义提供足够信息” 2 6 】的论断基础之上。 最具有代表性的是基于向量空间模型的方法,该方法首先选择一组特征词,然后 计算该组特征词与每一个词的相关性,则对于每个词都可以得到一个相关性的特 征词向量,然后利用这组向量之间的相似度来度量两个词的相似度。关毅等提出 基于统计的汉语词汇间语义相似度计算【l8 】;李涓子利用基于统计的方法实现语义 的自动排歧【2 7 】;鲁松利用词语的相关性来计算词语相似度【2 8 】;d a g a n 使用了更为 复杂的概率模型来计算词语的相似度【2 9 】。 基于大规模语料库的词语相似度计算方法能够通过上下文信息得到比较精确 的词语相似度,但该方法对训练所用的语料库依赖性较大,计算方法比较复杂并 且计算量很大,而且易受到数据稀疏和数据噪声的干扰。 河南大学硕士研究生学位论文第9 页 2 3 基于语义词典的词语相似度计算 国内学者对此类方法的研究主要集中在对基于知网词语相似度的计算的 研究上,下面主要介绍基于知网词语相似度计算。 2 3 1知网( h o w n e t ) 简介 知网是一个常识知识库,它的描述对象是汉语和英语词语所代表的概念, 它的基本内容是概念之间以及概念的属性之间的关系。 知网中的两个基本概念是“概念 和“义原”。“概念 是用来描述词语 语义的,每一个词可以都用几个概念来描述;“概念 是用一种“知识表示语言 来描述的,而“义原”正是这种“知识表示语言 所用的“词汇”。“义原是用 于描述一个“概念 的最小意义单位【1 7 。 知网一共采用了1 5 0 0 义原,这些义原分为以下几个大类2 0 l : 1 ) e v e n t 事件 2 ) e n t i t y 实体 3 ) a t t r i b u t e 属性值 4 ) a v a l u e 属性值 5 ) q u a n t i t y l 数量 6 ) q v a l u e l 数量值 7 ) s e c o n d a r y f e a t u r e 次要特征 8 ) s y n t a x l 语法 9 ) e v e n t r o l e 动态角色 l o ) e v e n t f e a t u r e s 动态属性 这些义原可以归为三组:第一组,包括第l 到7 类的义原,称为“基本义原”, 用来描述单个概念的语义特征:第二组,只包括第8 类义原,称为“语法义原”, 用于描述词语的语法特征,主要是词性( p a r to f s p e e c h ) ;第三组,包括第9 和第 1 0 类的义原,称为“关系义原”,用于描述概念和概念之间的关系【1 7 】。 第10 页河南大学硕士研究生学位论文 知网还用了一些符号来对概念的语义进行描述,如表2 1 所示: 表2 - 1知网知识描述语言中的符号及其含义 多个属性之间,表示“和”的关系 拌 表示“与其相关” 表示“是其部分” $ 表示可以被该“v ”处置,或是该“v ”的受事,对象,领有物,或者内容 表示会“v ”或主要用于“v ”,即施事或工具 + 对v 类,它表示它所标记的角色是一种隐性的,几乎在实际语言中不会出现 表示指向 表示多半是,多半有,很可能的 表示可以做“v ”的空间或时间 9 表示可以是“n ”的材料,如布匹,标以“? 衣服”表示布匹可以是“衣服”的材料 )( 1 ) 对于v 类,置于【】中的是该类v 所有的“必备角色”。如对于“购买”类,一旦 它发生了,必然会在实际上有如下角色参与:施事,占有物,来源,工具。尽管在多 数情况下,一个句子并不把全部的角色都交代出来 ( 2 ) 表示动态角色,如介词的定义 o置于其中的应该是一个词表记,例如,( c h i n a q ,n ) a 表示不存在,或没有,或不能 f 表示某一属性为一种敏感的属性,例如:“味道”对于“食物”,“高度”对于“山脉”, “温度”对于“天象”等 d 标识概念的共性属性 可以把这些符号分为三类,一类用来表示语义描述式之间的逻辑关系,包括 以下几个符号:, :另一类用来表示概念之间的关系,包括以下几个符号:j f j $ 宰+ & ? !;第三类包括几个无法归入以上两类的特殊符号: ) ( ) 口u7 1 。 在知网中,义原之间存在下列几种关系【2 0 j :上下位关系、同义关系、反 义关系、对义关系、部件整体关系、属性宿主关系、时间事件关系、事件角色 关系、相关关系等关系。上下位关系在所有义原关系中是最重要的,根据义原的 河南大学硕士研究生学位论文第11 页 上下位关系把所有的“基本义原 组成一个树状结构的义原层次体系( 如图2 2 ) 。 e n t i t y 实体 卜t h i n g l 万物 卜p h y s i c a l 物质 卜a n i m a t e l 生物 卜a n i m a l h u m a n l 动物 卜h u m a n 人 l lh u m a n i z e d 拟人 la n i m a l 兽 _ b e a s t l 走兽 图2 - 2 树状的义原层次结构 在知网中,一个概念是使用某种专门的“知识描述语言 来表达的一个 语义表达式,并不是用一个简单的义原的集合来描述的。在描述一个概念的多个 义原中,它们所起到的作用是各不相同的。 在知网中,每一个概念用一个记录来表示,如下所示: n o = 0 0 0 0 01 wc _ - 打 g g 2 v ec 酱油,张票,饭,去瓶酒,醋来了 w _ e = b u y g _ e = v e e = d e f = b u y 买 其中n o 为概念编号,w c ,g c ,e c 分别是汉语的词语、词性和例子, we 、ge 、ee 分别是英语的词语、词性和例子,d e f 是知网对于该概念 的定义,称为一个语义表达式。 在知网的文档中,对知识描述语言做了详尽的介绍。下面通过表2 - 2 对 这种知识描述语言进行简单的概括: 第12 页河南大学硕士研究生学位论文 表2 - 2 知网知识描述语言实例 打0 1 7 1 4 4 e x e r c i s e l 锻练,s p o r t l 体育 男人 0 5 9 3 4 9 h u m a n l 人,f a m i l y l 家,m a l e l 男 高兴 0 2 9 5 4 2 a v a l u e l 属性值,c i r c u m s t a n c e s l 境况,h a p p y l 福,d e s i r e d 良 生日0 7 2 2 8 0 t i m e l 时间,d a y 旧, c o m e t o w o r l d l i 口- ,$ c o n g r a t u l a t e l 祝贺 写信 0 8 9 8 3 4 w r i t e l 写,c o n t e n t p r o d u c t = l e t t e r l 信件 北京 0 0 3 8 1 5 p l a c e l 地方,c a p i t a l l l 雪都,p r o p e r n a m e l 专,( c h i n a l 中国) 爱好者 0 0 0 3 6 3 h u m a n l 人,宰f o n d o l l 喜欢,# w h i l e a w a y l 消闲 必须 0 0 4 9 3 2 m o d a l i t y l 语气) 由 0 1 5 2 0 4 n o u n u n i t l 名量,& ( g r a p e t 葡萄) ,& ( k e y l 钥匙) 从良0 1 6 2 5 1 c e a s e i 停做,c o n t e n t = ( p r o s t i t u t i o n l 卖淫) 打对折0 1 7 3 1 7 s u b t r a c t l j i j 减,p a t i e n t = p r i c e l 价格,c o m m e r c i a l l 商,( r a n g e l 幅度= 5 0 ) 儿童基 p a r t i 部件,i n s t i t u t i o n i 机构,p o l i t i c s i 政,# y o u n g i 幼,# f u n d 资金, 0 2 4 0 8 3 金会 ( i n s t i t u t i o n l 机构文l 联合国) 知网中的知识描述语言主要包括【l 7 】: 1 知网中的词语主要有两类:实词、虚词; 2 虚词的描述用“ 句法义原) 或“ 关系义原 ; 3 实词的描述由一系列用逗号隔开的“语义描述式 组成,这些“语义描述 式有三种形式:独立义原描述式、关系义原描述式、符号义原描述式。 4 在实词的描述中,第一个描述式是对该实词最重要的一个描述式,它是一 个描述了该实词的最基本的语义特征的基本义原。 2 3 2 基于知网义原相似度的计算 在知网中,“义原”是用于描述一个“概念”的最小意义单位。而“概念” 是对词汇语义的一种描述,每一个词可以表达为几个概念;概念是用一种“知识 表示语言”来描述的,这种“知识表示语言所用的“词汇 就是“义原”【17 1 。 所有的概念都可以用义原来表示,所以义原相似度的计算是概念相似度计算的基 河南大学硕士研究生学位论文第13 页 础。所有的义原根据上下位关系构成了一个树型的义原层次体系,本文把语义距 离作为相似度的参照,用义原关系网络得到的义原之间的关系路径的长度来衡量 义原之间的相似度。 本文中,义原相似度是一个【0 ,1 】之间的实数,义原距离与义原相似度密切 相连。两个义原的距离越大,其相似度越低;反之,相似度越大。二者之间可以 建立一种简单的对应关系,这种对应关系需要满足如下条件1 7 1 : 1 两个义原距离为0 ( 一个义原与其木身的距离为0 ) 时,其相似度为1 ; 2 两个义原距离为无穷大时,其相似度为0 ; 3 两个义原的距离越大,其相似度越小。 两个义原p ,和优,在这个层次体系中的义原距离为d ,定义一个满足以上条 件的义原距离和义原相似度转换关系,得到两个义原之间的相似度,如下: s i m ( p 1 ,p 2 ) = 乇 ( 2 一1 ) 口十“ 式中,d 是p l 和沈在义原层次体系中的路径长度;伉是一个可调节的参数, 本文中0 【的取值是:s i m ( p ,p 2 ) = o 5 时的义原距离d 的值。 2 3 3 基于知网词语相似度的计算 利用知网进行汉语词语相似度计算的研究相对比较成熟,国内的很多学 者对此进行了研究,并取得了一定的成果。其中,刘群等提出的基于知网的 词语相似度计算方法最具有代表性,下面简单介绍该方法。 汉语词语可以分为实词和虚词。虚词概念是用“ 句法义原 或“ 关系义原 ” 描述的,因此计算虚词之间的相似度就是计算其对应的句法义原或关系义原之间 的相似度。由于虚词不表达实际概念,虚词与实词差别较大,规定实词和虚词的 相似度为0 。 实词之间的相似度转化为实词定义项中的义原之间的相似度。如果是两个独 立的实词进行相似度计算则将表达两个词的概念的最大相似度作为词语的相似 度。实词的每一个概念是由一组义原描述式来定义的,可以分为四类【1 7 】: 第14 页河南大学硕士研究生学位论文 1 第一独立义原描述式:概念相似度中的主体部分,记为s i m l 俗l ,s z ) ; 2 其他独立义原描述式:该部分的相似度记为s i m 2 俗i ,s z ) ,表示除第一独立 义原之外的其他独立义原的相似度; 3 关系义原描述式:该部分的相似度记为s i r e 3 俗l ,s o ,表示语义表达式中所 有的关系义原描述式的相似度; 4 符号义原描述式:该部分的相似度记为s i r e 一( s 1 ,s 2 ) ,表示语义表达式中所 有的用符号义原描述式的相似度。 则两个概念语义表达式的相似度可以表示为: 4 s i m ( s ,s 2 ) = 8 i s i m 辆1 s 2 ) 2 2 i = l 其中,局( ,g 掣) 是可调节的参数,各部分的重要程度通过局进行限定,并 满足:,帕怕邯4 = ,户l 荨2 溺狮。b i 之间的关系反映了聊,、s i m 2 、s i m 3 、s i m 4 对于s i m ,& ) 所起到的作用依次递减。第一独立义原描述式的权值应该比较 大,一般应大于o 5 ,因为它表达了概念最主要的特征。 其中各部分的相似度计算方法如下: 1 第一独立义原描述式:指两个义原的相似度,由公式( 2 1 ) 可得; 2 其他独立义原描述式:其他独立义原描述式有很多,计算也比较复杂。有 必要对其进行分组: 1 ) 先把两个表达式的除第一个以外的所有独立义原任意配对,并依次计 算所有配对的义原相似度; 2 ) 把相似度最大的一对归为一组; 3 ) 重复2 ) 步,直到所有独立义原完成分组。 3 关系义原描述式:把关系义原相同的描述式归为一组,并计算其相似度; 4 符号义原描述式:把关系符号相同的描述式归为一组,并计算其相似度。 5 根据以上2 、3 、4 的计算结果,然后加权求和来得到两个概念的相似度。 两个词语孵和,如果阢包含n 个概念:s s 胁,两疗,包含m 个概念:l ,s e e ,m 。则计算各概念之间相似度,其最大值就是和 的相似度,即: 河南大学硕士研究生学位论文第15 页 s i m ( wi ,w 2 ) - 蚍焉譬叠s i m ( s i i r a l i s2 j ) l = z 札= ,z 。 ( 2 3 ) 就此把词语之间的相似度归结到概念之间的相似度问题。 本文对上述方法进行了改进,所作改进如下文所述: 计算两个概念的相似度时,在公式( 2 2 ) 中,仅仅对各部分的相似度进行简 单的加权求和,在公式中s i m l 、s i m 2 、s i m 3 、s i m 4 四者相互独立、地位平等,并 没有体现出第一独立义原描述式相似度对整体相似度的决定性作用,这不能够准 确的描述两个概念之间的相似度。另外,在某些情况下,其误差可能会很大,例 如:如果s i m l 非常小,但s i r e 2 、s i m 3 或者s i m 4 比较大的话,有可能导致整体的 相似度误差较大。考虑如上情况,本文对公式( 2 2 ) 进行了修改,得到如下公式: 上 s i m ( s ,s 2 ) = l s i r e ( s p s q + _ b l f l i s i m i ( s 1 ,s2 ) ( 2 4 ) i = 2 式中l 与局相乘的意义在于,概念中第一独立义原描述式起了决定性作用, 其相似度s i m i 将对其它三部分的相似度起较强的制约作用,而其它三部分的相似 度s i m 2 ,s i r e 3 和s i r e 4 则相互独立。 采用这种加权的方式合理的平衡了第一独立义原描述式和其它三类描述式的 关系,既考虑了第一独立义原描述式对概念相似度的决定性作用,又使其它三部 分的相似度各自起到了应有的作用。 2 4 本章小结 在本章中,首先对词语相似度进行基本介绍,之后对目前主流的词语相似度 计算方法进行了分析和比较,并给出其各自的优缺点。最后介绍了基于知网 的词语相似度计算,并对其进行了改进,为下文句子相似度的计算做铺垫。 第16 页河南大学硕士研究生学位论文 第3 章句子相似度计算 本文综合考虑句了的关键词信息、语义信息、句法结构信息从而提出融合多 元信息的句了相似度计算方法。该方法把句了的多方面的信息融入到相似度计算 过程中,通过对不同的信息加不同的权值来调节各种信息对句了相似度的贡献, 从而使计算结果达到最优。同其他方法相比,该方法描述句了的信息更加全面, 使句子相似度计算更加准确。 3 1句子相似度的概念 句子相似度是一个主观性较强的概念,脱离具体的应用背景谈论句子相似度, 很难得到一个统一的定义。在实际应用中常常根据应用领域的特点,对句子相似 度的概念重新定义。在本文的研究背景自动问答系统中,句子相似度指句子在语 义上的匹配符合程度。例如,“我喜欢河南大学”和“我爱河南大学”这两个句子 就是语义相似的。本文将句子相似度定义为两个句子在语义上的匹配符合程度, 取值范围是【0 ,1 】。句子相似度的值越d , n 两个句子越不相似,取值为0 表明两 个句子在语义上完全不同;句子相似度的值越大则两个句子越相似,取值为1 表 明两个句子在语义上完全一致。 3 2 句子相似度计算的主要方法 目前句子相似度计算的方法主要有:基于关键词信息的传统方法【3 0 1 、基于向 量空间模型的t f i d f 方法【4 8 1 、基于语义词典的句子相似度计算方法【1 7 】、基于编 辑距离的句子相似度计算方法【4 12 1 、基于依存分析的句子相似度计算方法 7 ,8 1 等。 根据其所利用的句子特征信息的不同,可以将这些方法分为3 类:基于关键词信 息的方法、基于语义信息的方法、基于句法结构信息的方法。这些方法从不同的 角度出发,具有不同的特点和适用条件,下面分别进行介绍。 河南大学硕士研究生学位论文第17 页 3 2 1基于关键词信息的句子相似度计算 此类方法源于自然语言处理中基于词的相似度计算方法】,该方法仅仅根据 句了表层的关键词信息,而不对句子进行语义和句法结构上的深层理解。基于关 键词信息的传统方法【3 0 3 1 1 利用字符串匹配的方法,该方法利用两个句子之间相同 关键词的数目与两个句予的关键词数目之和来度量句子相似度,即2 c a + b ,其中 a 、b 分别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 集体活动组织与效果评估
- 水灰比对水泥基注浆材料微观结构及力学性能的影响
- 领导岗位竞聘演讲稿
- 语文上册第六单元倡议书写作教学设计及反思
- 【《新冠疫情对企业财务的影响研究国内外文献综述》6300字】
- 【《基于互联网的超市人员及货品管理研究》开题报告2700字】
- 【《大学语文推进人文素质教育培养路径探究》6200字(论文)】
- 建筑行业安全管理信息化技术应用与安全生产风险管理报告
- 星座起源课件
- 大疆T系无人机培训
- 2025年中国酒店行业白皮书-
- 2025年市场运营专员资格考试试题及答案解析
- 煤矿井下爆破培训课件
- 2025年老年病康复护理技巧应用考核试卷答案及解析
- 2025年医疗卫生信息化系统操作考核答案及解析
- 2025年 七年级上册语文第一单元测试卷含答案
- 临时用电用电安全培训课件
- 2025年数字解密:药食同源生意下最香的成分与赛道研究报告
- GB/T 12643-2025机器人词汇
- 肾动脉狭窄介入治疗PPT课件(PPT 30页)
- 10kV架空线路设计PPT课件(PPT 69页)
评论
0/150
提交评论