![[硕士论文精品]基于语义理解的中文常问问答系统的研究_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/d4d73886-72ec-4e1a-a929-5a03298a7ddc/d4d73886-72ec-4e1a-a929-5a03298a7ddc1.gif)
![[硕士论文精品]基于语义理解的中文常问问答系统的研究_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/d4d73886-72ec-4e1a-a929-5a03298a7ddc/d4d73886-72ec-4e1a-a929-5a03298a7ddc2.gif)
![[硕士论文精品]基于语义理解的中文常问问答系统的研究_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/d4d73886-72ec-4e1a-a929-5a03298a7ddc/d4d73886-72ec-4e1a-a929-5a03298a7ddc3.gif)
![[硕士论文精品]基于语义理解的中文常问问答系统的研究_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/d4d73886-72ec-4e1a-a929-5a03298a7ddc/d4d73886-72ec-4e1a-a929-5a03298a7ddc4.gif)
![[硕士论文精品]基于语义理解的中文常问问答系统的研究_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/d4d73886-72ec-4e1a-a929-5a03298a7ddc/d4d73886-72ec-4e1a-a929-5a03298a7ddc5.gif)
已阅读5页,还剩54页未读, 继续免费阅读
[硕士论文精品]基于语义理解的中文常问问答系统的研究.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文摘要随着互联网络的高速发展,问答系统的研究成为当前自然语言处理领域中最有活力的方向之一。同时基于常问问题集的问答系统的应用也越来越广泛。它综合运用了知识表示、信息检索等技术,广泛应用于网络答疑、公司客服等方面。在众多的问答技术中相似度计算是中文信息处理中最为基础和重要的工作,它直接决定着某些领域的研究和发展状况,例如,自动问答系统、机器翻译、信息检索、自动文摘等领域。长期以来一直是人们研究的一个热点和难点。传统的中文常问问答系统中,相似度的计算大多采用基于关键词匹配的方法或者统计的方法,效果不尽人意。相似度计算成为影响系统性能的最主要因素。本文选择知网系统HOWNET作为相似度计算的基础,深入研究了知网系统的语义结构,实现了基于知网的语义相似度计算模块。并以此为基础实现了一个实际的常问问答系统。自然语言中一词多义现象普遍存在,成为制约相似度算法精度和速度的一个重要因素,同时也影响了常问问答系统的性能。本文针对这一现象,引入了词义消歧的思想。实现了基于知网的词义消歧,并对知网系统的义项文件进行了整理,改进了基于知网的词义消歧方法,提高了消歧算法的精度和速度。并将该词义消歧方法与基于知网的相似度计算方法结合起来,实现了真正意义上的语义理解。以此为基础,实现了一个实际的常问问答系统。本文中消歧模块和语义相似度模块的测试语料均为作者精心搜集整理,常问问答系统的测试问答集合是由东北财经大学网络教育学院提供的真实的问答集合。测试结果表明,引入消歧思想后,相似度的计算精度得到了提高,常问问答系统的总体性能也达到了实际应用的需要。因此,可以说发展中文问答技术的一个重要途径就是消歧算法的改进。关键词问题回答;常问问答系统;语义相似度;词义消歧;知网HTTP/INFO3DOUCOM/网络推广基于语义理解的中文常闯问答系统的研究RESEARCHONCHINESEFREQUENTQUESTIONANSWERINGSYSTEMBASEDONSEMANTICCOMPREHENSIONABSTRACTWIMTHEDEEPLYDEVELOPMENTOFINTERACTTHERESEARCHONQUESTIONANSWERINGQABECOMESTHEMOSTACTIVEASPECTINDOMAINOFNATURALLANGUAGEPROCESSINGNLPTHEAPPLICATIONOFQASYSTEMBASEDONTHEFREQUENTLYASKEDQUESTIONSFAQISBECOMINGMOREANDMOREEXTENSIVESIMULTANEOUSLYSOMETECHNOLOGYISRELATEDTOITSUCHASKNOWLEDGEREPRESENTATIONANDINFORMATIONRETRIEVALITISAPPLIEDTOINSOMEREGIONSSUCH鹪EDUCATIONONINTEMETANDCLIENTSSERVICEOFCOMPANYNLEARITHMETICOFSIMILARITYDEGREEISTHEKEYOFCHINESEINFORMATIONPROCESSINGITDIRECTLYDECIDESDEVELOPMENTALSTATUSOFSOMEFIELDSNAMEDAUTOMATICQUESTIONANSWERING,MACHINETRANSLATION,INFORMATIONRETRIEVALANDAUTOMATICTEXTSUMMARIZATION1RILEMETHODOFSIMILARITYDEGREEISALLIMPORTANTASPECTOFNATURAL1_ANGUAGERESEARCHFORLONGTIMEINTHERESEARCHOFTRADITIONALCHINESEQABASEDONFAQ,SOMETECHNOLOGYOFSIMILARITYDEGREEWHICHISBASEDONTHEKEYWORDSORBASEDONTHESTATISTICSISOFTENAPPLIED,BUTTHEEFFECTISNOTPERFECT皿ECALCDATIONMETHODOFTHESIMILARITYDEGREEISTHEMOSTIMPORTANTFACTORINTHISPAPER,HOWNETISTHEBASISOFTHESIMILARITYDEGREECALCULATIONANDTHESEMANTICSTRUCTUREISANALYZEDDETAILEDLYNLENTHEMODULEOFSIMILARITYDEGREECALCULATIONBASEDONHOWNETISACTUALIZEDANDACHINESEQASYSTEMBASEDONFAQISALSOREALIZEDNEPHENOMENAOFMULTIVOEALWORDAREPREVALENTINTHENATURALLANGUAGEITRESTRICTSTHEDEVELOPMENTOFSIMILARITYDEGREEMETHODANDAFFECTSTHEPERFORMANCEOFQABASEDONFAQTOSETTLETHISPROBLEMTHETECHNIQUEOFWORDSENSEDISAMBIGUATIONISAPPLIEDINTHISPAPERN圮MODULEOFWORDSENSEDISAMBIGUATIONBASEDONHOWNETISREALIZEDMOREOVERSEMANTICFILESINHOWNETAREAMENDEDTOIMPROVETLLEPERFORLNANG,EOFTHEMODULEOFWORDSENSEDISAMBIGUATION。N圮AUTHORCOMBINESTHEADVANCEDTECHNIQUEOFWORDSENSEDISAMBIGUATIONANDTHEARITHMETICOFSEMANTICSIMILARITYDEGREEBASEDONHOWNETTHENAPRACTICALCHINESEQASYSTEMBASEDONFAQISACTUALIZEDGROUNDEDUPONTHECOMBINEDARITHMETICINTHISPAPER,THETESTSETOFTHEMODULEOFSIMILARITYDEGREEANDWORDSENSEDISAMBIGUATIONISALLCOLLCCTEDANDCOMPILEDBYTHEAUTHOR1KTESTSETOFQABASEONFAQISOFFEREDBYTHENETWORKEDUCATIONINSTITUTEOFNORTHEASTFINANCEANDECONOMICSUILIVERSITYTHERESULTSOFTHEEXPERIMENTSSHOWTHATTHEPRECISIONOFTHESIMILARITYDEGREECALCULATIONISINCREASEDITISSAIDTHATTHEADVANCEDMETHODOFSEMANTICSIMILARITYDEGREEISSUPERIORERATTHESAMETIMETHETOTALPERFORMENCOFFAQSYSTEMALSOCANBEAPPLIEDTOTHEPRACTICALII大连理工大学硕士学位论文APPLICATIONSSOITCARUESTOCONCLUSIONTHATANEFFECTIVEMETHODTOIMPROVETHEMETHODOFCHINESEQAISTOIMPROVETHEARITHMETICOFWORDSEILSEDISAMBIGUATIONKEYWORDSQUESTIONANSWERING;FREQUENCYASKEDQUESTION;SEMANTICSIMILARITYDEGREE;WORDSENSEDISAMBIGUATIONHOWNETHTTP/INFO3DOUCOM/网络推广独创性说明作者郑重声明本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名玄D李日期喇J22箩大连理工大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名麴墅新躲4虹扯丛年监月霉日HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文1绪论随着互联网的高速发展,越来越多的信息呈现在网络上,通常网民们通过网络搜索引擎来获得自己想要的信息。著名的搜索引擎SEARCHENGINE有GOTGTE、YAHOO、百度等等。这些搜索引擎的发展已取得了很大的成功,但是这些传统的搜索引擎也存在着很多的不足。首先,这些搜索引擎都是要求用户输入关键词或关键词的组合。实际上,用户要检索的内容往往都是很复杂的,无法用关键词或者关键词的组合表达清楚,搜索引擎的分析理解也就不可能接近用户的检索要求;其次,传统搜索引擎返回的是大量网页的列表,用户需要阅读这些网页,查找自己需要的信息。而这些网页中存在大量冗余的、用户不感兴趣的信息,影响了搜索的准确度和速度;此外,用户更习惯于用自然语言来描述一个问题即使用一个句子进行描述。使用关键词作为匹配的基准,仅仅停留在词语的表面信息上,没有考虑词语在句子中的具体语义,检索的精度很难得到更进一步的提高。问答系统QUESTIONANSWERINGSYSTEM正是基于这些不足而发展起来的。11课题的研究意义问答系统是指能够对计算机用户输入的使用自然语言NATURALLANGUAGE描述的问句做出回答的计算机程序【L】。问答系统集自然语言处理NATURALLANGUAGEPROCESSING、信息检索INFORMATIONRETRIEVAL、知识表示KNOWLEDGEREPRESENTATION为一体,正日益成为国际上研究的热点。它既能够让用户用自然语言提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,自动问答系统和传统的依靠关键字匹配的搜索引擎相比,能够更好的满足用户的检索需求,更准确的找出用户所需要的答案,具有方便、快捷、高效等特点21。问答系统可以分为三种基于常问问题集的问答系统FREQUENTLYASKEDQUESTIONS,简称FAQ,基于百科知识的问答系统以及开放域的问答系统。基于常问问题回答系统可以作为后两种问答系统的一个组成部分。在问答系统中,对于用户输入的问题,首先在常问问题集合中查找答案,如果找到相应的答案,就可以直接返回给用户,提高了效率。此外,在现代社会激烈的竞争中,各大公司、企业越来越注重产品设备的咨询服务和售后服务;各个大学也相继开设了网络教育课程,学生们希望通过网络了解报名、考试、结业等相关信息。由此可以看出,很多情况下用户只对一个领域的问题感兴趣,常问问题回答也可以理解为受限领域问答。诸如远程教育的问答系统,公司主页中的客户服务答疑系统等。基于语义理解的中文常问问答系统的研究如上述,传统的问答系统大部分采用基于关键词的搜索方式,而自然语言中一词多义现象普遍存在,影响了搜索的精度和速度。在搜索中如果可以让计算机进行自动准确的语义匹配,能够自动获得特定的上下文信息,排除歧义,就可以解决多义词对问答系统的影响。随着自然语言处理的发展,相信这个要求会显得越来越迫切。因此,基于语义理解的常问问题回答系统的研究有着深远的意义和广阔的发展前景。12问答技术的发展及研究现状最近几年,随着网络和信息技术的快速发展,人们想更快的获取信息的愿望随之增强,这些促进了自动问答系统的发展。很多著名的研究机构和公司都参与了自动问答技术的开发。比如微软和IBM。每年参加一年一度的TREC会议的公司和机构越来越多。国外的很多科研机构和大公司都相继开发出来性能优良的自动问答系统。麻省理工MIT1993年开发的问答系统STARTHTTPWWWAIMITEDUPROJECTSINFOLAB;美国的ASKJEEVES公司的检索系统HTTPWWWASKJEEVESCOLN。它允许用户使用自然语言句子提问,用户可以清楚明确的表达检索需求,检索系统会自动分析用户的句子,但是ASKJEEVES返回的仍然是网页,而不是用户想要的问题的直接答案。国内也有一些研究机构参加了自动问答技术的研究中科院计算所、复旦大学、香港科技大学、哈尔滨工业大学等。其中哈尔滨工业大学的信息检索研究室HTTPWWWIRLABORG在自然语言处理领域的研究上取得了很大的成功。特别是对于中文问答系统技术的研究,更是倾注了大量的人力,取得了一定的成就,在国内处于领先地位。基于FAQ的问答系统的研究,国内的发展比较缓慢,真正有智能性的FAQ很少,大多数有答案的教育类网站或者公司主页采用电子邮件、聊天室等基于网络的人机交互方式实现答疑。可见,国内大部分人员忽视了网络技术、人工智能等先进技术给问答系统提供的强大支持。对比国外的问答系统,国内的问答系统在性能上存在很多差距。最大技术瓶颈是中文的一词多义现象普遍存在的问题。相似度SIMILARITYDEGREE计算是中文信息处理中最为基础和重要的工作,它直接决定着某些领域的研究发展状况。例如,自动问答系统AUTOMATICQUESTIONANSWERINGSYSTEM、基于实例的机器翻译EXAMPLEBASEDMACHINETRANSLATION、信息检索、自动文摘AUTOMATICTEXTSUMMARIZATION等领域。句子相似度是一个关键问题,长期以来一直是人们研究的一个热点和难点唧。现在国内外有很多学者在研究旬子相似度的计算方法【41。在国外学者CHRISHQDING等采用了隐含语义索引LATENTSEMANTICINDEXING的方法。英语中在计算语义相似度的时HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文候,学者们通常使用WORDNET,WORANET提供了词语近义词集合以及近义词集合之间的关系。中文中大多使用知网HOWNET作为语义辞典,HOWNET语义辞典提供了义原的网状分布结构,更准确的描述了词语的真正语义131。中文信息处理技术发展缓慢,主要原因在于中文是世界上语法最复杂的、语义最丰富的语言之一。一词多义现象极其普遍,自动词义消歧AUTOMATICWORDSENSEDISAMBIGUATION的发展显得尤为重要。目前看来,不管是基于规则的方法还是基于辞典资源的方法或是大规模语料库的方法,“无论哪种方法都没有很好的解决词义消歧问题”【5】。有效的词义消歧策略仍然是研究的热点和重点。因此,可以看出,为了实现真正的计算机与人的交流,必须实现真正的自然语言理解。基于语义理解的中文问答系统的研究有着广阔的发展空间。13本文的研究内容与结构本论文深入的研究了知网的语义体系,实现了基于知网网状结构的语义相似度算法并将其应用于中文常问问答系统,实现了实际的中文常问问题回答系统。同时,基于提高传统FAQ速度和精度的目的,整理了知网的义项文件,实现了基于词义消歧算法,结合知网相似度的算法,实现了真正意义上的语义相似度计算。论文中使用的词义消歧模块和相似度算法模块测试语料库均为作者精心收录的语料库,并按系统需要进行整理分类的,FAQ系统的测试问答集合是作者人工整理的东北财经大学网络教育学院提供的问题答案集合。本文要解决的问题包括1现有的FAQ系统中,大多采用基于相同词汇的方法【6】、基于规则及基于统计的方法【7】计算词语及句子的相似度。其中关键词匹配方法,对于同义词的替换无能为力。而基于规则的方法,规则的制定需要大量的人力,并且规则的适用性比较窄,制约了这一方法的发展。而使用统计的方法,需要构造大量的训练语料,工作量十分巨大,且存在着数据稀疏等问题。如何克服以上方法的缺点,成了FAQ性能优劣的关键。本文使用知网作为语义辞典,知网系统不同于其他语义辞典,它有着自身特殊的结构。知网以义原作为最小的语义描述单位,而不像其他语义辞典,以义项作为最小的语义描述单位。在知网中,对词语的理解深入到语义层次,从本质上看,这才是真正的自然语言的理解。2一词多义是中文信息处理中普遍存在的现象,如何确定一个多义词的具体意义一直是这个领域的一大难题。单纯使用HOWNCT的方法,可以深入到词的语义层次,但是它并没有考虑到句子的内部结构和词语之间的相互作用关系,所以准确率不高。对于一词多义现象只能采用经验权值,效果不尽人意。本文在使用知网这个体系进行相似度计算的基础上,采用一种基于知网的词义消歧算法进行词义消歧,并整理了知网的义项基于语义理解的中文常问问答系统的研究文件,改进了该消歧算法的精度和速度,通过该算法可以获得一个多义词的上下文信息,从而判断出这个多义词的具体义项,在此基础上,结合基于知网的相似度算法,实现了真正的语义理解。3中文文本处理技术发展起步较晚,发展缓慢,很多基础性工作没有一个统一的规范。比如,词义消歧的训练集合及测试集合,相似度算法的测试集合都没有统一的规范的集合。因此,为了能够顺利完成本论文的实验部分,一个重要的任务就是建立词义消歧和相似度算法的语料库。此外,本论文中FAQ模块的性能测试,使用的是东北财经大学网络教育学院提供的真实的问题答案集合。本论文的结构如下第一章为绪论,给出了问答系统及中文常问问答系统的研究意义和研究背景,介绍了问答技术的国内外研究状况,提出本文要解决的问题,给出了文章的结构。第二章是对相似度计算技术及词义消歧技术进行了概括综述,介绍了几种常用的相似度计算方法和词义消歧算法并分析了各种方法的优缺点。第三章详细描述了知网系统、实现了基于知网的相似度计算和词义消歧的方法,并整理了知网的义项文件,给出了改进的词义消歧方法,以此为基础实现了消歧与相似度算法的结合,编程实现了一个实际的FAQ系统。第四章使用作者搜集整理的语料库进行词义消歧模块和相似度计算模块的性能测试,使用东北财经大学网络教育学院提供的常用问题答案集合测试整个FAQ系统的总体性能,并进行实验结果的分析。第五章为本论文的总结与本课题未来发展的展望。4HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文2问答系统技术概述21常阃问题回答系统流程概述目前问答系统的研究大致可以分为三个类别基于常问问题集的问答系统,基于百科知识的问答系统以及基于开放域的问答系统。基于常问问题集的问答系统又可以作为后两种问答系统的一个组成部分,可以提高系统的效率。国外近年来在该领域作了一些工作嗍,国内这方面的研究还很少,其中倒排索引的建立即以及语义分析的采用是目前实现FAQ系统比较关键的步骤。一般来讲FAQ系统的实现可以分为三个步骤候选问题集的建立,句子相似度的计算,FAQ库的更新91在目标问句进入FAQ系统之前,需要将中文句子分成词语的集合。分词部分包括对库中问题的分词,也包括对目标问旬的分词。然后通过建立索引表,选择与目标问句比较相似的一小部分集合,在这个小集合中进行相似度计算,即计算各个句子与目标问句的相似度。选择相似度的最大值,与设定的阈值进行比较。如果大于设定的阈值,则返回该答案,如果小于设定的阈值,则不返回答案,人工给出答案,更新问题库。大致流程如图21所示图21FAQ系统总体流程图FIG21THEFIGUREOFTOTALFAQPROCESS一5一基于语义理解的中文常问问答系统的研究211中文句子分词中文分词是整个常问问题回答系统最基础的环节。“词是最小的能够独立活动的有意义的语言成分”【10】。汉语是以字为基本的书写单位的语言,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。本文选用的是海量分词研究机构HTTPWWWHYLANDACOMO的分词模块,达到了实用的效果。212候选问题集的建立建立候选问题集的目的是缩小查找的范围,使后面的相似度计算集中在这个较小的范围内,可以提高整个系统的运算效率。候选问题集建立的根据是基于相同词匹配的程度,该匹配程度通过建立问题集合的倒排索引表而获得。大致过程如下【9】设目标问旬中共有厅个词、呒,FAQ中第I1I来表裂卿。其中,Z1曼IS叻的计算方法为设挖为WJ在这个句子中出现的个数,M为其它所有句子中含有的句子的个数,M为句子的总数,那么INLOGMM。从这个式子中可以看出,出现次数多的词将被赋予较高的N值,但这样的词并不一定具有较高的R值。因此,这种方法综合地考虑了一个词的出现频率和这个词对不同句子的分辨能力。用同样的方法,可以计算目标句子的玎维向量T正,。得到R和丁后,它们所对应的两个句子之间相似度就可以用丁和R这两个向量之间夹角的余弦值来表示。HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文SIMILADTYT,T1I21TFIDF方法综合考虑了不同的词在问句中的出现频率TF值和这个词在整个FAQ库中对不同句子的分辨能力IDF值。这种方法不需要任何对文本内容的深层理解,简单易实现。当然,这个方法也有很大的局限性。首先,只有当句子所包含的词语足够多时采用该方法的效果才会比较好。因为它是一种基于统计的方法,只有当句子包含的词数足够多时,相关的词才会重复出现,这时候统计的效果才会体现出来。而在FAQ库中,面对的是单个的问句,问句中包含词的个数往往不足以体现这种方法的效果;其次,TFIDF方法只考虑了词在上下文中的统计特性,而没有考虑词本身的语义信息,因而局限性更加的显而易见。222基于编辑距离的相似度计算编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数口】。标准的编辑操作有“插入”、“删除”和“替换”三种。图24A显示了“爱吃苹果”与“喜欢吃香蕉”之间的编辑距离为4,如图24中四条线所示冒由冒嚣嚣器A编辑距离B改进的编辑距离AEDITDISTANCEBADVAAEEDEDITDISTANCE图24编辑距离与改进编辑距离的比较FIG24THECOMPAREOFEDITDISTANCEANDADVANCEDEDITDISTANCE编辑距离最初面向的是不考虑语义的字符处理,在字符串相似度计算、自动文摘、拼写检查、图象识别、音乐识别、语音识别、数据清理等众多领域都有着广泛地应用。在句子的相似度计算方面,也取得了一些成果31,例如GLEUSCH13】利用编辑距离计算句子相似度并用于机器翻译评价。从上图A可以看出,单纯使用以字为单位编辑距离的方法,计算出来的语义距离和实际情况有很大出入。因为,编辑距离算法以字为基本计算单位,而在汉语中,单个的一9一团困囤由基于语义理解的中文常问问答系统的研究字往往不具备具体的意义;此外,词语之间的替换操作的代价并非都是相同的;最后,在被检索的句子或短语中间加入为数不多的修饰词,语义也不会有很大改变。而使用以字为单位的编辑距离的方法,插入操作的代价会很大,这与实际情况相差太大。在编辑距离方法的基础上,研究者们又提出了一些新的方法31。车万翔【12】利用改进编辑距离方法用于中文相似句子的检索。该方法的主要思想是P】以普通编辑距离算法为基础,采用词语取代单个的汉字或字符作为基本的编辑单元参与运算。同时使用了HOWNET和同义词词林两种语义资源,计算词汇之间的语义距离,加入词语的语义信息,确定词语之间的替换代价,并且赋予了不同编辑操作不同的权重。在不用经过词义消歧和句法分析的情况下,兼顾了词汇的顺序和语义等信息,使之更加符合中文句子相似度计算的要求PJ。表21改进编辑距离编辑操作代价定义TAB21THEDEFINITIONOFEXPENSEOFEDITOPERATIONINADVANCEDEDITDISTANCEMETHOD编辑操作操作代价AA插入AAAA“其它00104DISTAA”10051改进的编辑距离的方法吸取了基于语义词典的方法和编辑距离方法的优点,同时克服了它们的一些不足;改进编辑距离方法同时使用了HOWNET、同义词词林两种语义资源,计算词汇之间的语义距离;不同编辑操作的权重选取比较合理;在不用经过词义消歧和句法分析的情况下,兼顾了词汇的顺序和语义等信息3J;简单易实现且速度较快。然而,汉语是表达形式最丰富的语言之一,表21的编辑操作并不能完全包括所有的编辑操作此外,语义距离计算依赖于辞典的选取,即依赖于辞典的编制程度,辞典编制的全面性影响了该方法计算的精度。223基于依存分析的相似度计算依存句法是由法国语言学家LTESNIERE在其著作结构句法基础1959年冲提出的,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇【3】。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文成分的中心成分,而动词本身不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者P1。二十世纪七十年代,ROBINSON提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理【L习1一个句子中只有一个成分是独立的;2其它成分直接依存于某一成分;3任何一个成分都不能依存于两个或两个以上的成分;4如果A成分直接依存于B成分,而C成分在旬中位于A和B之间,那么C或者直接依存于B,或者直接依存处于A和B之间的某一成分。5中心成分左右两边的其它成分相互不发生关系。,利用依存结构计算句子间的相似度,关键的一步是如何获得句子各成分间的依存关系信息。目前国内,哈尔滨工业大学计算机科学与技术学院信息检索实验室开发了依存句法分析器【141,该分析器的准确率能达到86以上。可以通过该依存句法分析器的分析,获得句子各成分之间的依存关系,如图25所示华罗庚是一位中国杰出数学家图25句子依存骨架分析FI昏25ANALYSISOFNER啪FLAREEWORK然后根据此关系做成依存树,如图26所示。可以看出【14】,依存树是一个复杂的非线形关系,如果对整个依存树进行完全匹配的话,所花费的代价是巨大的;另外,一个完整的汉语句子可以从关键成分获得大概意思。所以,在进行依存结构进行相似度计算时,只考虑有效搭配对之间的相似度【141。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词114J。例如例句L事发后,伤员被及时送往就近医院救治。例句2晚上7时左右,所有伤员被送到了医院。对以上两个句子进行句子依存分析,分别得到两组有效搭配对。句子1的有效搭配对为送往伤员、送往一医院、送往一救治。基于语义理解的中文常问问答系统的研究句子2的有效搭配对为送到一伤员、送到一医院。在此,计算相似度的公式为形删SENL,”2、MAXPAIRCOU。NTL,PAIRCOUNT2图26句子依存树示例FIG26EXAMPLEOFTHETREEOFSENTENCEDEPENDENCYRELATIONSHIP基于依存分析的汉语句子相似度算法充分考虑了句子的语法结构。考虑了实词在句子中的搭配关系,是句子相似度研究领域的一个重大突破。但是,当一个句子比较长而且该句的动词比较多的时候,依存分析的结果并不准确,这就导致找句子的核心词时候找得不准确,由此得到的搭配对并不能表达的整个句子最初最完整的意思,从而带来了错误的计算结果【14J。224基于多层次特征融合的语句相似度目前研究句子相似度的方法归结起来可概括为三类方法【111基于词特征的句子相似度计算,基于词义特征的句子相似度计算以及基于句法分析特征的句子相似度计算。同时,这三类方法也反映出了句子的三个重要特征词特征、词义特征以及句法特征。但是,这三类方法也都存在着自身的缺点,比如基于词频特征的方法没有考虑词的深层含义,仅仅考虑了词语在句子中出现的频率信息;词义特征的方法由于词典的不全面和一些未登录词的语义代码的缺失,也给计算带来了一定的误差;而句法分析的方法过于HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文依赖句法分析器的开发程度,目前由于没有考虑全面所有的句法特征而带来了一些误差111。多特征融合的方法进行句子相似度计算,使这三种特征在表达句子信息时各有侧重,互为补充。这里涉及到如何确定这些特征的权重问题,在自然语言处理中,许多问题根据经验值来确定。根据问题建立数学模型,引入遗传算法进行简单的求解,从而使目标函数在一定范围内达到最优【11】。如图27所示I黼一基于加权L词义特征SEB法的一SIMS。SASIMLBSIM2CXSIM,LL鳓特征融合图27句子多特征融合相似度计算FIG27COMPUTINGOFSENTENCESSIMILARITYDEGREEBASEDONMULTIFEATURESCOMBINATION基于多特征融合的句子相似度计算方法通过对句子的深入分析,将句子的特征概括为三个方面词特征、词义特征及句法特征。将句子的这三个特征组合起来,扬长避短,共同描述一个句子,从而根据这些特征计算句子和句子之间的相似度,获得较高的准确率IL“。但是这种特征融合的方法是建立在一些不太成熟的技术之上的,如句法分析等。因此,要想获得较好的效果,需要努力改进这些技术。相信随着这些技术的不断改进,多特征融合的方法一定会取得更好的效果。23常用词义消歧方法概述一词多义是自然语言的普遍现象,对语料库的统计发现,汉语中多义词在语料中占到42左右【L6】。一词多义现象是影响相似度计算准确性的一个重要因素。同时词义消歧WSD一直以来都是自然语言处理领域的一个重要的研究问题。词义消歧的目的就是通过给定的上下文语境来确定多义词的具体义项。词义消歧的方法有很多,随着语料库语言学的兴起,统计学的方法越来越多的应用到了词义消歧领域。该方法取得了一定的消歧效果,逐渐占据了主流地位。基于语义理解的中文常问问答系统的研究基于语料库的统计的方法可以分为有指导的和无指导的两类。有指导的词义消歧方法的训练语料库事先经过人工标注而无指导的词义消歧方法的训练语料库事先无需人工标注。有指导的词义消歧方法在实际应用中取得了较好的消歧效果,但是该方法为了克服数据稀疏问题,获得更好的消歧效果,必须有大规模的标准的标注语料的支持【17】。而标准语料库的标注需要大量的人力物力,很难得到广泛的推广。无指导的词义消歧方法不依赖人工标注语料,可以实现大规模的真实语料的训练和学习,能够有效克服数据稀疏问题,但是消歧的效果略微差一些。此外,在很难得到训练语料的时候,一种解决训练语料缺乏问题的方法就是使用辞典资源,辞典资源是种很好的消歧资源【18】。随着语义辞典编制的不断发展,基于辞典的词义消歧也在一定程度上得到了发展。下面介绍几种常用的词义消歧方法。231有指导的词义消歧有指导的词义消歧方法采用了一个标注语义后的语料作为训练集19】。在训练集合中每一个多义词W都根据其所在的上下文语境确定了一个语义标号。这样词义消歧问题就可以看成是一个实际的分类问题,即可以转化为构造一个分类器,通过上下文信息对于输入的歧义词进行分类的问题20231。其中贝叶斯分类方法是一种重要的有指导的词义消歧算法241。在贝叶斯分类的算法中,词语的上下文信息被看作是一个没有结构的词包,该方法假设词包中所有的词对于歧义词的消歧都能起到作用,之所以称之为词包而不是集合是因为词包中的词可以是重复的,而集合中的元素是不能重复的【181。贝叶斯网络作为分类器有两个优点【25】其一,网络容易建立,没有结构学习过程,只需要先验概率就可以完成计算;其二,该过程效率很高。词义消歧是一个典型的词义分类问题,设S,是待分类的词义序列,圪。是测试样本中的特征集,在贝叶斯网络模型中特征值选用歧义词的上下文。如果ESI圪。P墨I比。,墨S,那么就选择S作为正确的词义。设所有的特征值没有顺序的限制,并且相互独立,网络节点间的联合概率可以用公式23来计算PV蜘。S,PVJIVJINV,。PSIPCS。兀PV,IS陀3VNVJ、使用贝叶斯网络模型时,设W为歧义词,和S分别是W的两个词义类别,P二。是词W在句子中的上下文词语,可以作为特征变量集【25】。HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文利用贝叶斯网络模型进行词义消歧也有一定的缺点其一,需要标注语料库;其二,该方法在抗噪声干扰方面的性能不是很优越。232无指导的词义消歧无指导的词义消歧方法的基本思想是通过一个训练语料库,利用EM迭代算法对歧义词的上下文进行聚类,利用聚类的结果对歧义词进行词义消歧1羽。对于歧义词W假定它有K个语义黾,估计条件概率PV,L其中V,是W上下文中的词语。1初始情况下,为每个尸V,L瓯给定一个随机值。2利用PVJL计算词W的每一个上下文C,的条件概率PC,I。3利用已有的概率知识,对语料进行重新标注,再把重新标出的语料作为训练语料重新估计PVJI。4当极大似然估计值不再变化,或变化不大则迭代结束,否则返回到第二步继续迭代。如果模型训练好后,就可以利用贝叶斯方法进行词义消歧S。ARGMAXH109PSKLOGPVJSK】2,4VJO在模型中,把词W的上下文聚成的类别数是一个值得考虑的问题,类别越多对于语料的刻画就越细,如果需要的话,W的每一个上下文都可以作为单独的一类,但这样做是意义不大181。在实际应用中,可以让类别数在某个范围内变化,寻找一个比较合适的类别划分,使得这种聚类标准能够适当的刻画语料库,同时又不至于区分的太细【181。一般的,采用这种方法进行词义消歧比采用基于辞典的消歧方法在效果上低一些,但采用这种方法基本上不需要人工的劳动,是一种完全自动化的方法,因此这方面的研究是很有价值的26之引。233基于隐马尔可夫模型的词义消歧1模型的定义一个隐马尔可夫模型是一组有限的状态,其中的某一个状态可以以一定的概率转移到另外的状态终止状态除外,而且在转移时产生输出,能产生的输出是有限的,输出也将以一定的概率产生例。它的形式化描述是删S,0,A,B,YL“。1】S表示模型中的状态,N是其的状态数A所有独立的状态定义为SS,最一曲,且用吼表示T时刻的状态。基于语义理解的中文常问问答系统的研究2】D表示每个状态的观察值,M表示每个状态上对应的可能的观察值的数目。观察值对应于模型系统的实际输出,记这些观察值为WWL,W2,K。【3】状态转移概率矩阵4口。其中尸吼。Q|GFS,LF,JN,AG表示从状态礴移到状态,的概率,呀满足吻O,VI,_,;且QL,VI。,【4】输出观察值概率分布矩阵B娩后,其中Q后表示在巴状态下,R时刻出现的概率,即AJKP在T时刻出现ML吼S,1,LKM。6,I满足6J后O,W,后;且6JK1,W。K5】初始状态分布向量石万,其中乃PQT墨,LFN,即在R1时刻处于状态S的概率。珥满足互L。L如果给出适当的,肘,彳,曰和万的值,利用HMM就可以产生出一个观察值序列00;QDT,其中每一个Q都是矿中的一个值丁是产生的这一观察值序列中观察值的个数。于是产生观察值序列的过程如下A根据初始状态分布万选择一个初始状态吼墨。”设置TL。C根据在状态S下的观察值概率分布6FJJ选出Q比。D根据状态墨下的状态转移概率分布,转移到新的状态QFS,。C令TTL;如果TT则返回第3步骤,否则结束。一个确定的HMM是由两个模型参数,M、三个概率4,B,万TO成的。可以用一个式子旯4,B,石来代表完整的HMM模型参数。2一阶隐马尔可夫模型的假设由一阶马尔可夫链的P毗1WLW2一。PWKIW可以假设【1】AG尸QF。JIG吼TI,Q;力尸Q。,IQFD,即假设转移概率只与前一个状态有关。【2】6,七,Q七L叫一OTI,科GIT1,QF,PQF七IQ_,即假设输出观察值概率只与当前状态有关。3词义消歧中模型参数的定义与训练在词义消歧问题中应用隐马尔可夫模型,需要对模型的参数进行具体的定义和训HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文练,下面具体介绍针对词义消歧问题隐马尔可夫模型的参数是如何定义和训练的。应用在词义消歧问题中的一阶隐马尔可夫模型可以定义为30I【1】,模型的状态数。在词义消歧中,状态就是知网中抽取的语义标号,所有独立的语义标号定义为SS,S2,且用QT来表示F时刻的状态,即用QT来表示一个句子中第R个词的语义,它可能是1306个语义标记中的任意一种,即SS,是,S306,N1306。2】吖,每个状态上对应的可能的观察值的数目。记作WWT,W2,MK。词义消歧中观察值是指语料库中的词,射的大小就是库中包含的单词的数目。【3】状态转移概率矩阵A。此矩阵中的各元素在词义消歧中表示为某一语义向其它各个语义转移的概率,即嘞PGF。墨I吼墨13兰061兰童生堕,1SF130625Y从墨转移到S,的次数而。可见,在词义消歧问题中确定的转移概率矩阵是一个13061306的矩阵。4】观察值概率分布矩阵BBJK,词义消歧中即为单词概率分布矩阵。其中6,七表示在S,语义下,T时刻出现单词的概率,称为词汇概率或发射概率EMISSIONPROBABILITY,即BJK,尸C在肘亥N出现I吼Q,I吾I;I砉II蓄淼但。,L_,S1306,1兰KM【5】初始状态分布矢量丌互,词义消歧中表示在TL时刻单词出现语义S。的概率,即处于旬首的单词出现语义SM概率。互尸G。墨而里童坐皇兰型壁重兰竺堕翌曼兰丛,1F130627句首单词取语义标记S的次数百在给定的模型下,要求从一定观察值序列的所有可能状态中,选取概率最大的作为最终的状态序列。有指导的词义消歧需要首先获得大规模的标注语料,然而汉语的大规模标注语料的匮乏制约了该方法在消歧领域的应用。使用HMM进行词义消歧,首先可以通过未经过基于语义理解的中文常问问答系统的研究任何处理的生语料进行统计分析,计算出语义的转移概率,最初认为每个词的语义为各个语义的概率都相同。在未经处理的生语料中单义词的语义是固定的,这样从邻接的两个单义词中就可以统计到一次语义的转化,当语料足够大时就存在足够多的邻接单义词,可以统计到比较可靠的语义转移概率【L引,即可以获得首批标注正确的训练语料,从这些训练语料中又可以统计出语义的发射概率,这样有了发射概率和转移概率可以提高隐马尔可夫模型的消歧正确率,从而减少人工的工作。234基于辞典的词义消歧语义辞典是自然语言处理领域的一个重要工具,如果很难获得大规模的训练语料,辞典是一种很好的消歧资源【3“。使用辞典进行词义消歧一般可以利用的信息包括词语的定义、词语的语义等。辞典中用于定义某个词语的词义的词往往能为该词语的消歧提供有用的信息【蜡L。该方法就是要找到词语上下文与词语在辞典中的定义有最大的重叠集的语义作为该词的语义。该方法由于辞典信息的相对匮乏,很难取得较好的结果。语义辞典刻画了词语在语义上的关系,因此是一种很好的消歧资源【18L。采用语义辞典的方法进行消歧的基本思想是词语的上下文的语义类作为一个整体决定了该词语所属的语义类32,33J。WALKER在1987年提出了一种基于语义辞典的方法进行词义消歧。该方法取出歧义词的所有语义中包含上下文的词语最多的那个语义作为歧义词的语义。24小结本章简要介绍了问答系统设计的常用技术,对相似度计算方法和词义消歧算法进行了简要的阐述,并结合实际介绍了几种常用的相似度算法和词义消歧算法。由句子相似度计算方法的分析比较可以看出,对汉语句子相似度计算的定量研究目前还处于一个起始阶段。大部分的算法停留在词语的表面信息上,一词多义问题没有得到充分解决,相似度计算的准确性还远远没有达到FAQ系统的要求。因此,在今后的研究工作中,如何提高相似度计算的精度及速度,将成为该领域的一个重要方向。由此本文引入词义消歧思想,深入语义层次,提高FAQ系统的精度及速度。HTTP/INFO3DOUCOM/网络推广大连理工大学硕士学位论文3基于知网的语义相似度计算的实现及改进按照知网的创造者一董振东先生自己的说法。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理等方面的研究提供了宝贵的资源P4】。本文使用知网进行语义相似度计算,并引入词义消歧,实现并改进了基于知网的词义消歧算法,实现真正意义上的语义相似度计算。在使用知网的时候,发现知网是一个庞大的资源库,提供了很多详细的文档资料。本文详细的介绍了知网的系统结构,基于知网的相似度算法,基于知网的词义消歧算法,并以此为基础实现了这些算法并在一定程度上给予适当的改进。31知网系统描述311知网系统的结构董振东先生说知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。董振东先生还反复强调,知网并不是一个在线的词汇数据库,知网不是一部语义辞典刚。在知网中,比较重要的两个主要概念是“概念”也称义项和“义原”。“概念”顾名思义,就是对词语给一个定义,简单来说就是对词汇语义的一种描述。在实际的自然语言中,每个词语可以有多个语义,也就是说可以表达为几个概念。在知网中,最小的描述单位叫做“义原”,由“义原”按照一定的规则组织在一起的语言称为“知识描述性语言”。“概念”就是用这种“知识表示语言”来描述的。知网用一系列的“义原”对每个“概念”进行描述,不是将所有的“概念”归结到一个树状的概念层次体系中,因此知网同一般的语义词典如同义词词林或者WORDNET有着本质的不同。在知网中,是将所有的“义原”都归结到一个树状的层次体系中。知网一共收录了1500多个义原,这些义原分为以下几个大类,如表31所示。对于这些义原,可以把它们归为三组【34】第一组,用来描述单个概念的语义特征,包括第L到第7类的义原,称之为“基本义原”;第二组,用于描述词语的语法特征,主要是词性PARTOFSPEECH,只包括第8类义原,称之为“语法义原”;第三组,用于描述概念和概念之间的关系,包括第9到第11类的义原,称之为“关系义原”。基于语义理解的中文常问问答系统的研究表31知网义原类别TAB31CLASSIFICAFIOILSOFSEMANTICOLFFC2OFHOWNETEVENTI事件ENTITYL实体ATTRIBUTEL属性值AVALUEL属性值QUANTITYL数量QVALUEL数量值SECONDARYFEATURE1次要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国家用厨房用品行业市场全景分析及前景机遇研判报告
- 设备设施缺陷管理制度
- 设计勘查安全管理制度
- 2025年中国鸡冠提取物行业市场全景分析及前景机遇研判报告
- 诊室医护日常管理制度
- 诊所消毒卫生管理制度
- 诊疗质量监督管理制度
- 财务账本凭证管理制度
- 财富公司风险管理制度
- 货代公司工位管理制度
- 公开招聘社区居委专职工作人员考试笔试、面试题集及相关知识(11套试题含答案)
- 《植物生理学》课件第三章+植物的光合作用
- 游泳馆网架翻新施工组织方案设计
- 有机化学所有的命名--超全.
- 中职数学基础模块下册《等差数列》ppt说课稿
- 引水罐的设计计算
- 三年级译林版英语下学期按要求写句子专项强化练习题
- 电缆接线工艺设计规范流程
- 中医经络减肥课件
- 5WHY分析法培训
- 巧克力糖自动包装机 课程设计
评论
0/150
提交评论