![[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/180e5231-daf6-460c-a70e-3a584c900846/180e5231-daf6-460c-a70e-3a584c9008461.gif)
![[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/180e5231-daf6-460c-a70e-3a584c900846/180e5231-daf6-460c-a70e-3a584c9008462.gif)
![[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/180e5231-daf6-460c-a70e-3a584c900846/180e5231-daf6-460c-a70e-3a584c9008463.gif)
![[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/180e5231-daf6-460c-a70e-3a584c900846/180e5231-daf6-460c-a70e-3a584c9008464.gif)
![[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/180e5231-daf6-460c-a70e-3a584c900846/180e5231-daf6-460c-a70e-3a584c9008465.gif)
已阅读5页,还剩48页未读, 继续免费阅读
[硕士论文精品]q 面向生物医学领域的问答系统的研究与实现.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文摘要随着数字信息的膨胀,大量可用的数字信息对于回答用户的各种问题变成了可利用的资源。传统的信息检索通常会对用户的提问返回成百上千篇文档,而用户必须依靠自己在这些繁多而又充满重复的文档中筛选自己需要的有用信息。为了克服这些不足,近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究。其中一个很重要的方向就是问答系统。现今大多数的问答系统对于简单的事实性问题和常问问题的回答已经达到了很高的准确率,然而对于特殊领域和复杂问题回答研究的很少,而且准确率不高。本文根据生物医学领域的特点,设计并实现了一个面向生物医学领域的问答系统。本文是对生物医学问答系统的一个探索,系统包括三个主要组成部分问题处理、信息检索和答案抽取。不同部分运用了不同的自然语言处理技术,因此可以说问答系统是集自然语言处理技术的大成。在问题处理阶段,浅层句法分析的引入,能够有效的将问题分类并提取出关键词,同时生物医学语义资源的应用能够将问题中的关键词进行有效扩展,提高系统的召回率。在答案抽取阶段,为了在文档中找到含有一定信息量并且冗余信息少的文档片断,本文给出了一种段落抽取方法,首先获得相应的自然段,然后在自然段的基础上通过热区找到所需片断的位置。为了节约用户的时间,在返回给用户答案时,利用计算句子相似度的方法有效去掉重复或相近的答案。该系统在TRECTEXTRETRIEVALCONFERENCE的数据集上进行了实验及测评,从各项指标上看,本系统能够有效的回答生物医学问题。关键词问答系统;生物医学领域;浅层句法分析;段落抽取HTTP/INFO3DOUCOM/网络营销大连理工大学硕士学位论文RESEARCHANDIMPLEMENTATIONOFQUESTIONANSWERINGSYSTEMFORBIOMEDICALDOMAINABSTRACTWI恤THEEXPLOSIONOFINFORMATION,THEVASTAVAILABLEINFORMATIONMAKESITALLATTRACTIVEE默HFORANSWERINGAVARIETYOFQUESTIONSTHATUSERSMAYHAVETRADITIONALSEARCHENGINESRETURNALISTOFRELEVANTDOCUMENTSBUTNOTTHEEXACTANSWCRS,ANDTLSERSOFTENENGAGEINPERUSINGRELEVANTINFORMATIONTHATTHEYNEEDMANUALLYTOOVERCOMETHESESHORTCOMINGS,MOREANDMORERESEARCHORGANIZATIONSANDCOMPANIESDOEFFORTSTOEXPLORENEWGENERATIONOFINFORMATIONRETRIEVALSYSTEMSONEOFTHEMOSTIMPORTANTDIRECTIONSISQUESTIONANSWERINGQASYSTEMPRESENTLY,MANYSCIENTIFICRESEARCHINSTITUTESHAVEBEENINVESTIGATEDFACTOIDQUESTIONSFXEQUENTLYAAKEDQUESTIONSFAQ,SOMEMATUREQUESTIONANSWERINGSYSTEMSHAVEBEENWIDELYRECOGNIZEDBUTFEWINSTITUTESAREDOINGRESEARCHONSPECIALDOMAINANDCOMPLEXQUESTIONSACCORDINGTOTHECHARACTEROFBIOMEDICALKNOWLEDGE,THISPAPERDESIGNANDREALIZEALLAUTOMATICQASYSTEMINBIOMEDICALDOMAINT1LISARTICLEISANEXPLORATIONTOBIOMEDICALQUESTIONANSWERINGSYSTEMTHISSYSTEMISCOMPOSEDOFTHREEPRIMARYASPECTSPROBLEMPROCESSING,INFORMATIONRETRIEVINGANDALLSWEREXTRACTINGINTHEDIFFERENTPHASES,DIFFERENTNATURALLANGUAGEPROCESSTECHNOLOGIESWILLBEUSEDINTHEPHASEOFPROBLEMPROCESSING,THESHALLOWPARSERISUSEDTOCLASSIFYTHEQUESTIONSAVAILABILITY,ANDTHEBIOMEDICALSEMANTICRESOURCEISUSEDTOEXTENDTHEKEYWORDSOFQUESTIONSTHATCANIMPROVETHERECALLINTHEPHNSEOFAILSWEREXTRACTING,INORDERTOFINDCONTEXTTHATINCLUDETHEINFORMATIONUSERSWANTINDOCUMENTS,PASSAGERETRIEVALISUSEDFIRSTLY,THECORRESPONDINGPARAGRAPHISOBTAINEDSECOND,THELOCATIONOFTHEPAS鼢GEISGOTTENBYTHEHOTSPORTINORDERTOSAVETHETIMEOFUSERS,WEDISCARDTHEREPETITIVEORSIMILARALLSWOR8BYCOMPUTINGSENTENCESIMILARITYWHENTHESYSTEMRETURNSTHEANSWERSTOTHEUSERSTHEBIOMEDICALQUESTIONANSWERINGSYSTEMHASBEENEXPERIMENTEDANDEVALUATEDONTHEDATAOFTREC11KSYSTEMCALLANSWERBIOMEDICALQUESTIONSEFFECTIVELYFROMTHERESULTSKEYWORDSQUESTIONANSWERINGSYSTEM;BIOMEDICALDOMAIN;SHALLOWPARSER,PASSAGERETRIEVAL独创性说明作者郑重声明本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意作者签名耋J堕也日期印Z丝2HTTP/INFO3DOUCOM/网络营销大连理工大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名导师签名,啄拖负夕豁易少钾卜、大连理工大学硕士学位论文1绪论11研究背景信息技术和互联网的发展使得互联网上的以数字形式呈现的信息越来越丰富。如今人们能够通过像GOOGLE和BAIDU这样的搜索引擎方便、快捷地在这些信息中找到自己需要的各种信息。这类搜索引擎,也叫信息检索系统INFORMATIONRETRIEVALSYSTEM,IR,接收一个或者几个关键字作为输入,然后从一个大的文档库中比如万维网检索结果,最后返回一系列的指向文档的链接和摘要给用户。通常情况下,这类基于关键字的搜索引擎能够满足大部分用户的需要。然而,这类搜索引擎也存在一些不足之处首先,返回网页的质量很大程度上依赖于用户输入的关键字,这对于那些没有使用经验的用户来说是一个很大的挑战,因为他们很难用一两个关键字来表述他们的信息需求其次,搜索引擎返回的是一系列相关的文档,而不是精确的答案。通常用户需要从这众多的返回结果中查找他们需要的答案。早在20世纪60年代人工智能研究刚开始的时候,人们就提出了要让计算机像人一样用自然语言来回答人们的问题,实现“人机对话”,这就是问答系统【L】。问答系统在20世纪80年代的自然语言处理领域曾风行一时,因为TURIN一2】实验告诉人们如果计算机能够像人一样与人对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术,纷纷研究基于自然语言处理技术的自动问答系统。但是,由于当时的条件限制,所有的实验几乎都是在受限的领域,甚至是在固定段落上进行的。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了冷落。最近几年,随着信息技术和网络的迅猛发展,人们想高效地获取信息的愿望在不断增强,又重新促进了问答系统的发展。问答系统允许用户以自然语言的形式进行提问,而不需要像使用传统的搜索引擎那样把自己的问题分解成关键字。接收用户的提问以后,问答系统又能结合自然语言处理技术,通过对问题进行分析处理,借助一定的算法,为用户直接返回简单精练的答案,而不是相关的网页。所以问答系统能比传统的搜索引擎更高效地为用户提供服务。12问答系统的研究现状所谓问答系统,是指对于用户用自然语言提出的问题,能够给出尽可能简洁、准确的答案。问答系统的历史可以追溯到1950年,著名的英国数学家图灵AMTARING发表了里程碑式的论文“COMPUTINGMACHINERYANDINTELLIGENCE”。文中提出了判断计算机是否具备智能的实验方法一“图灵测试”,也就是通过自然语言问答的方式,判断机器是否具备人类所具有的智能,因此可以将“图灵测试”看作是问答系统的蓝图。计HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现算机能否具备和如何具备人的智能是计算机科学中的一个根本问题,所以历来争论激烈。后来,JOHNSEARLE提出了一个中国人房子问题,质疑图灵测试对测定计算机智能的意义有多大。陆汝钤院士认为,。图灵测试”永远不可能在图灵定义的层面上真正地实现。一般认为,JASEPHWEIZENBAUM在1966年实现的ELIZA是第一个问答系统。1969年,ROBERTFSIMMONS指出数据集的规模不同,开发问答系统所用的方法也是不同的,同时他还提出了模式推理的思想。最近几年,随着信息技术和网络的快速发展,以及人们想更快更准确获得信息的愿望促进了问答技术的发展。越来越多的公司和科研院所参与了自动问答技术的研究,例如微软,MM等。TRECTEXTRETRIEVALCONFERENCE会议是国际上文本信息检索领域最重要的会议之一,从1999年TREC开设QATRACK以来,自动问答QUESTIONANSWERINGTRACLO就是最受关注的主题之一,越来越多的大学和科研机构参与了QUESTIONANSWERINGTRACK,同时涌现出了许多优秀的问答系统。在2000年LO月召开的ACL2000国际计算语言学学术会议上,有一个专题讨论会,题目是“OPENDOMAINQUESTIONANSWERING”。目前,国外已经开发出一些相对成熟的问答系统麻省理工大学开发出的问答系统START,是世界上第一个基于WEB的问答系统,从1993年开始就发布在INTERACT上,它可以回答一些有关地理、历史、文化、科技、娱乐、人物等方面的简单问题。另外还有一个比较成熟的问答系统ANSWERBUS,ANSWERBUS是一个多语种的自动问答式检索系统,它不仅可以回答英语的问题,还可以回答用法语、西班牙语、德语、意大利语和葡萄牙语提出的问题。再者就是由微软开发的ENCARTA,作为一个在线百科全书式的问答式搜索引擎,也提供了多语种的支持,并且ENCARTA回答问题较快,答案也比较准确13,41。国内也有一些研究机构参与了自动问答技术的研究中科院计算所、复旦大学、香港科技大学等,但是参与中文问答技术研究的科研机构相对国外来讲还比较少,而且基本没有成型的中文问答系统。13问答系统现有的类型随着国内外越来越多的机构投入到问答系统的研究,目前自动问答技术已经取得了一定的成绩,出现了许多优秀的问答系统。现有的问答系统大致可以分为聊天机器人、基于知识库的问答系统、问答式检索系统以及基于自由文本的问答系统等。131聊天机器人所谓的聊天机器人是指这样的问答系统它模仿人的语言习惯,给出一个比较人性化的答案。典型的聊天机器人是由RICHARDSWALLAC开发的ELIZA,这是第一个聊天机器人,它运用自然语言以聊天的方式与人交互。ELIZA扮演一个心理学者的角色,往往用一2一大连理工大学硕士学位论文反问来应对用户的提问。CYBERIVAR是JACZONE公司开发的一个聊天机器人,它的响应速度快,在回答UML、WAYPOINT和JACZONE之类的问题时,它能给出相当准确和全面的答案,对于常识性的问题也能给出比较贴切的答案。1973年,有人做了模仿精神病人的图灵测试的实验,所编的程序为PARRY,PARRY没有语法分析部分,只是通过大约6000条模式匹配规则来实现它的功能,但能够成功地欺骗很多人。近年来出现的聊天机器人,多是以通过“图灵测试”为目的参加LOEBNER比赛的程序,如ALICE2000年和2001年的第1名。但迄今为止,没有任何一个程序通过“图灵测试”。目前典型的聊天机器人还有JABBERWOCK、FRED系列、EUGENE、TALKBOT、ULTRAHAL、NIALL、KATE等。聊天机器人几乎是全部采用模式匹配的方法来寻找问题最合适的答案,它们没有经过严格证明的定理、晦涩的数学公式,甚至没有复杂的算法。它们的共同特点是在与用户的交谈过程中,都是基于谈话技巧和程序技巧,而不是根据常识来回答问题【5】。在它们的对话库中,可以存放多个句型、模板,但几乎没有常识库,而要成功地进行图灵测试,除了要研究对话过程中的语义和语用分析以外,一个很重要的因素就是要使计算机拥有足够多的常识知识,并具有联想能力。对于知道答案的问题,聊天机器人往往给出人性化的回答;对于不知道答案的问题,通常有三种回答方法猜一个答案;老实说不知道;用转移话题的办法回避。目前的聊天机器人,由于其知识库规模有限、甚至没有知识库,所以面对用户提出的许多专业性问题,通常是用转移话题的办法来回避。知识的缺乏使得聊天机器人目前还不能解决太多的实际问题,而仅仅只是和用户“聊天”,许多情况下,它更像是玩具而不是工具。但是聊天机器人所体现出来的一些技术特色却很值得我们注意,例如,正确理解用户的询问,从用户的输入中进行学习,使得答案更加人性化、更加合乎逻辑等。132基于知识库的问答系统拥有一个或多个领域知识的知识库,并利用检索、推理等技术,来理解与求解用户问题的问答系统,称为基于知识库的问答系统。和聊天机器人不同的是,这种系统擅长于知识的问答,对于不能回答的问题,就会回答“不知道”,而不会将话题转移。知识的数量与质量是一个决定基于知识库的问答系统性能是否优越的关键性因素。知识与信息不一样,知识是信息经过加工整理、解释、挑选和改造而形成的。一阶逻辑公式、内涵逻辑公式、语义网、框架、脚本、概念图以及知网、HNC等,都是知识表示的不同方式。人工智能大师费根鲍姆通过实验和研究证明了实现智能行为的主要手段在于知识,在多数实际情况下是特定领域的知识。国际上建立大规模知识库的诸多努力中,最有名的是DOUGLENAT于1984年在“美国微电子和计算机技术公司MCC”发HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现起的CYC研究项目,该项目经过11年的努力,耗费200人年的工作量,到1995年左右,建立起了一个拥有50万断言的知识库,并在此基础之上研究了自然语言理解、学习、问题求解等人类智能活动的机理。中国科学院从20世纪80年代开始也组织了有关科学知识库的研究,并拨专项经费给予支持。目前已经建立起了涉及物理、化学、生物等领域的十几个科学数据库,在科研工作中发挥了积极的作用。现有基于知识库的问答系统大致包括基于本体的问答系统、自然语言界面的专家系统、基于受限语言的数据库查询系统等。所有这些问答系统都有一个共同的特点它们都是基于一个或者多个知识库,通过自然语言的形式与用户进行交流。基于知识库的问答系统性能优良,对于用户提出的许多问题,能够给出准确的答案,甚至可以进行一定程度的推理计算。由于是基于知识库的,所以系统具有良好的可扩展性,但是其局限性同样也很明显,如果用户的问题落入系统的知识库范围之内,系统可以轻松地解决问题,一旦超出这个范围,系统的性能将很快下降为零,由此可见,目前这类系统的适用范围非常狭窄。133问答式检索系统这种系统会根据以自然语言方式提交的用户查询,从系统文档集合或WEB中,检索出相关文本或网页,并将其返还给用户,这种系统称为问答式检索系统,也称问答式搜索引擎或者智能搜索引擎。问答式检索系统需要正确理解用户提出的问题,充分领会用户的查询意图,并检索出与用户需求最相关的文本或者网页等形式。当前,比较典型的问答式检索系统主要有ASKJEEVES、ENCARTA、START、10LNAUT、尤里卡、ANSWERBUS、LAMP等。一般而言,问答式检索系统主要涉及两种技术用户查询处理技术和信息检索技术。信息检索技术目前已经比较成熟,因而如何正确理解用户用自然语言提出的查询,如何准确无误地理解用户查询的语义成了问答式检索系统的关键问题,目前的解决方案主要有两种一种是对用户查询进行浅层分析,识别出其中的关键词,然后利用查询扩展技术,借助语义词典,将关键词的同义词、近义词等一并提交给后继的检索系统。这种方法虽然允许用户使用自然语言查询,但并没有充分利用用户查询的信息,尤其是语义信息,其能力等同于一般的词表法,许多自然语言查询系统都是这么做的。第二种方法是使用问句模板,这样的系统拥有一个问句模板库,并且为这些问句模板构造有页面作为答案。如果系统面向的领域非常狭窄,那么数量很少的问句模板就可以覆盖绝大多数的用户提问方式,但是如果系统面向的领域非常广阔,甚至是开放领域,那么模板库和模板答案的数量就非常多,维护工作就非常大【2】。从技术上来说,在处理用户查询方面,一4大连理工大学硕士学位论文问答式检索系统主要是抽取用户查询中的关键词,并利用语义词典对关键词进行扩展,从而得到一组描述用户需求的关键词。然而,最清楚用户需求的是用户自己而不是系统,用户自己给出的关键词往往要比系统分析得出的关键词准确得多。因此,与现有搜索引擎相比,问答式检索系统的优势并不明显。并且问答式检索系统返还给用户的只是和用户查询相关的文本或网页,而不是短小精悍的答案,所以严格说来,问答式检索系统还不算是一个真正的问答系统,只是一个信息检索系统。134基于自由文本的问答系统所谓的自由文本又称原始文本或者非结构化文本,它是指未经人工处理的文档、网页等。基于自由文本的问答系统,是指接受用户以自然语言提交的问题,然后利用信息检索等技术,从自由文本库中检索出相关的文档,最后利用答案抽取等技术,从这些检索出来的自由文本中抽取出问题的答案并提交给用户的系统,它可分为三个步骤处理用户查询、检索相关文本、抽取答案。它所涉及到的技术包括信息检索技术、信息抽取技术、文本挖掘、文本聚类、文本摘要、模式推理和几乎所有的基本自然语言处理技术词法分析、句法分析、语义分析、指代解析、消歧等。基于自由文本的问答系统由于不需要建立大规模知识库,而是基于自由文本进行知识问答,节省了大量的人力物力;并且由于系统返还给用户的是具体的答案,而不只是和用户查询相关的文本或网页,所以方便了用户而受到更多的欢迎。应该说基于自由文本的问答系统代表着问答系统的发展方向,现有的绝大多数问答系统都属于这一类。上述对问答系统的分类并不是绝对的,只是根据每种问答系统自身的显著特征进行一定的分类。14问答技术分类目前的问答技术分为以下几类基于事实性问题和信息检索的问答技术、基于问答模式的问答技术和基于自然语言处理的问答技术。141基于事实性问题和信息检索的问答技术这种问答系统技术基于一个问题分类体系,该体系把用户的问题事先分成几十个有关的事实类型,例如人物、动物、植物、机构、国家、城市、价格、距离、日期、年龄、职业、货币、颜色等等。这种问答技术的主要步骤如下1当系统收到用户的提问时,根据其中的疑问词和其他关键词确定问题的类别;2根据问句中的关键词和问句的类型,利用文本检索、段落抽取等信息检索技术,从文档库中提取候选句子;3一5一HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现对候选句子进行命名实体识别;4根据问句的类型从候选句子中提取相应的句子或名词短语作为候选答案。142基于模式匹配的问答技术这种技术的主要思想是在对问题进行分类的基础上,事先由人工编写某些类型问题的各种答案模式。在运行阶段,系统要先判断当前用户提问属于那种类型,然后使用这种问题类型所对应的答案模式来抽取答案。与基于信息检索的问答系统相比,这种技术通过问题类型将提问和多种回答模式对应起来,不再只是利用词袋进行匹配,还考虑了一些表层句法信息。这种基于表层信息的问答模式匹配技术可以对定义、出生日期、地点等问题有良好的效果,但对于一些复杂的问题仍然无能为力【561。143基于自然语言处理的问答技术虽然以上的两种方法很简单、有效,并且在1RI也C2001、1RI也C2002中也获得了良好的成绩,但是,研究人员和评测人员都普遍认为如果还想要改进或者说更大程度的提高问答系统的性能,还需要引入其他的自然语言处理技术。目前,自然语言处理技术还不成熟,问答系统广泛使用的自然语言处理技术主要是句法分析。但是对句子的深层句法分析,语义分析还不能达到使用效果。因此,大多数系统都是基于对句子进行浅层分析的,从而获得句子的浅层句法和予以表示,作为对前两种方法的补充和改进。在抽取出候选答案句以后,首先对问句和候选答案句进行句法分析,得到他们的句法树,然后通过比较两棵句法树的相似性来抽取答案,这种方法的目的是让系统给出的答案在句法上可以解释。通过比较候选答案句和问句的句法树来抽取答案,虽然可以调高系统的性能,但是这种基于句法树的方法还是非常浅层的。因为问句和候选答案的句法树的匹配基本上就是一个合一运算,或者说就是比较两棵树的句法相似性,没有办法实现语义相似的判断。而在某些情况下,问句和候选答案句的句法结构虽然不一样,但是问句的提问信息可能蕴含在候选答案句中。这种情况下,单纯的句法树运算就无能为力了,需要经过一定的语义运算和推算。国外也有人提出通过逻辑形式转换来解决这个问题,即把问句和候选答案句同时转化为统一的逻辑形式,通过对问句逻辑形式和候选答案句逻辑形式的运算抽取答案。逻辑形式结合词汇链可以表达语义知识,具有推理功能。但是,这种基于逻辑形式转换来进行问句和候选答案句之间语义匹配的方法,建立在对自然语言句子的深层理解上,而目前自然语言句子深层理解还不够成熟,因此这种方法并不适合于实用的问答技术【71。一6一大连理工大学硕士学位论文本章介绍了当前国内外问答系统的研究状况,对问答系统现有的类型以及各自的特点进行了相关的介绍,分析了问答的相关技术。问答系统的核心技术包括三个主要组成模块问题处理、信息检索和答案抽取。如何在问题处理阶段充分领会用户的提问意图,如何在信息检索模块中把包含相关信息的段落搜索出来,以及如何在答案抽取模块中准确地生成用户需要的答案,这三个问题是问答系统需要解决的主要问题。在以后的章节里将详细介绍这三个模块的功能、技术及其设计方案。HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现2浅层句法分析与句子相似度本文的问答系统由三个模块组成,其中的问题处理模块和答案抽取模块均要对句子的结构进行分析。在问题处理模块里需要通过对问句的结构进行分析,根据问句的结构可以确定问句的类型,同时抽取出句子的关键词。在答案抽取阶段,需要对答案的候选句子进行结构分析,进行句子相似度的计算,去掉重复或相近的候选答案,最后根据问题的类型抽取出答案实体。现有的句法分析按照对句子分析的完全程度可以分为完全句法分析和部分句法分析。早期人们在完全句法分析上作了很多的研究,但是从分析精度和分析速度上都不能达到人们满意的程度。本系统只需要句法分析器分析出句子的主要结构,因此在这里我们选择了一种与完全句法分析相对的句法分析浅层句法分析。21浅层句法分析211浅层句法分析浅层句法分析SHALLOWPARSING,也叫部分句法分析PARTIALPARSING或语块分析CHUNKPARSING,是近年来自然语言处理领域出现的一种新的语言处理策略【耵。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些相对简单的结构成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常称作语块,语块和短语这两个概念通常可以换用。浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的一个子图,只要加上语块之间的依附关系,就可以构成完整的句法树。所以浅层句法分析将句法分析分解为两个子任务语块的识别和分析;语块之间的依附关系分析【钟。浅层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。212语义角色的标注在浅层句法分析的基础上,系统进行了语义角色标注。语义角色标注是浅层语义分析的一种实现方式10,11】,它只标注句子中的一些成分为给定动词的语义角色,这些成分作为此动词的框架的一部分被赋予一定的语义含义。语义角色标注不考虑时态信息和目标动词改变,只考虑语义不变的情况。由于现有自然语言处理技术以及统计学习技术的成熟,使语义角色标注得到实现。同时它能够对问答系统、信息抽取和机器翻译等应用产生巨大帮助。一8一大连理工大学硕士学位论文目前人们大多采用统计学习的方法解决语义角色标注决问题。基本思想就是以句子中一定的连续词语为标注的基本单元,然后根据一定的语言学知识列出该单元的各种特征,并与该单元的语义角色类型组成学习的实例,最后使用某种学习算法对这些实例进行自动的学习,以对新的实例进行预测。语义标注的基本单元可以是句法成分、短语、词或者依存关系等等,现在多数语义角色标注系统都以句法成分为基本标注单元,句法成分就是句法分析树中非终结节点。语义角色多与句法成分对应,采用句法成分作为标注单元可获得较高的性能。在本文中语义角色的标注过程就是将句子分块,给每一块标记语义角色,本文使用的标注器采用的是基本名词短语的BIO标注方法【12】。其中,B表示每一个语义角色的开始第一个词;如果语义角色块多于一个词,除第一个词外,后面的词都用I来表示;语义块以外的词用。表示;语义块所属的类型标记在B或I后面。这里给出一个例子。【SHE,PRP缸DCCIPRP】【WILLMDGOVB】T0TO【TH“DTPARTYNN】T0ILIGLNNSHEPRPBNPANDCCINPIPRPINP、“NMDBVPGOVBIVPTOTOBPPTHEDTBNPPARTYNNINP州GHTNNBNPO22句子相似度计算在答案抽取阶我们需要计算各个候选文档段落中心句之间的相似度,因此在这4,节就句子相似度的计算问题进行介绍,最后介绍本系统中是如何利用浅层句法分析实现句子相似度的计算。句子相似度计算在自然语言处理领域具有非常广泛的应用背景,例如在问答系统中通过句子相似度计算找到与问题相匹配的答案;在自动文摘系统中通过句子相似度计算去除冗余信息,抽取文摘句;在信息检索系统中通过句子相似度计算找到与用户需求相似的句子;在基于实例机器翻译中通过句子相似度计算匹配相似的句子,得到需要的译文等等。因此长期以来句子相似度计算问题一直为人们所热衷。一9HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现目前研究句子相似度的方法有基于相同词汇的方法,使用语义依存的方法【1引,计算编辑距离的方法【141,基于关键词的方法【151,使用语义词典的方法,基于属性论的方法、框架的方法【I6】以及基于统计的方法等等。221句子相似度的概念句子的相似度是一个很复杂的概念,目前关于相似度的定义还没有一个通用方法,因为其涉及到语言、语句结构和其他一些因素。同时,句子相似度是一个主观性较强的概念,脱离具体的应用背景谈论句子相似度,很难得到一个统一的定义。在本文研究的自动问答系统中,句子相似度更多地反映句子之间的语义上的匹配符合程度。在此,给出本文句子相似度的定义句子相似度指两个句子在语义上的匹配符合程度,值为O,11之间的实数,值越大表明两个句子越相似。当取值为L时,表明两个句子在语义上完全相同;值越小则表明两个句子相似度越低,当取值为0时,表明两个句子在语义上完全不同。222基于依存的句子相似度计算方法依存句法是由法国语言学家LTESNIERE在其著作结构句法基础1959年中提出。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者【切。二十世纪七十年代,ROBINSON提出依存语法中关于依存关系的四条公理在处理中文信息的研究中,中国学者又提出了依存关系的第五条公理【1一个句子中只有一个成分是独立的;2其它成分直接依存于某一成分;3任何一个成分都不能依存于两个或两个以上的成分;4如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存处于A和B之间的某一成分;5中心成分左右两边的其它成分相互不发生关系。在利用依存算法进行相似度计算时,只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。相似度计算如公式21,形为句子1和句子2有效搭配对匹配的总权重,I1PAIRCOUNTL为句子L的有效搭配对数,PAIRCOUNT2为句子2的有效搭配对数。大连理工大学硕士学位论文嵋SMSEN,SEN22瓦雨磊瓦I瓦L葡丽21眦,NL,一DL研L,口L几D4埘F,由于现在句法分析存在精度不够准确的问题,人们对该算法进行了改进,提出了利用骨架依存算法进行句子相似度的计算【191。骨架依存的过程是仅分析出句子的整体句法结构,所谓的整体句法结构是用该句的谓语中心词及其有效支配成分来表示。223基于编辑距离的句子相似度计算方法编辑距离的算法首先由俄国科学家LEVENSHTEIN提出的,故又NQLEVENSHTEINDISTANCE。编辑距离就是用来计算从原串S转换到目标串耵所需要的最少的编辑操作数目,编辑操作有“插入”、。删除”和“替换”三种。在计算句子相似度的时候,传统的计算编辑距离是以字或单个单词为单位,如图21显示了“ILIKEPLAYBASKETBALL”与“ILIKEPLAYFOOTBALLVERYMUCH”之间的编辑距离为4。图21编辑距离计算FIG21COMPUTINGOFEDITDISTANCE从该计算过程可以看出,单纯使用以单词为单位的编辑距离方法,计算出的语义距离和实际情况是有很大出入。首先,编辑距离算法以单个单词为基本计算单位,然而在实际应用要有几个单词组成才能表达一个具体的意义。例如在医学上“TRANSMISSIBLESPONGIFORMENCEPHALOPATHIES”,组成它的每个单词并不能反映其所合成词的意义。其次,词语之间替换操作的代价并非都是相同的。例如“LOVE”被“LIKE”替换,代价不应该很大。最后,如果在被检索句子或短语中间加入为数不多的词,语义也不会有太大改变。如例句2中“VERYMUCH”的使用。因此在编辑距离方法的基础上提出了改进编辑距离计算句子的相似度的方法【LL】。该方法的主要思想是以普通编辑距离算法为基础,采用词语取代单个的字或字符作为基本的编辑单元参与运算。同时使用了语义资源,计算词汇之间的语义距离,加入词语的语义相似信息确定词语之间的替换代价,并且赋予不同编辑操作不同的权重。在相似度计算时,该方法充分考虑了句子中每个词的深层信息,使HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现表面不同,深层意义相同的词被挖掘出来,在不用经过词义消歧和句法分析的情况下,兼顾了词汇的顺序和语义等信息,使之更加符合句子相似度计算的要求。23本文句子相似度的计算基于依存的句子相似度计算方法体现句子内部的结构和词语之间的相互作用关系,而编辑距离由于语义资源的应用可以兼顾同义词之间的替换,并体现了组成句子的每个词深层的语义信息。我们的目标是将两种计算方法组合起来,扬长避短,互为补充,共同描述一个句子,从而根据这些特征计算句子和句子之间的相似度,获得较高的准确率。这里就涉及到如何将这两种方法进行融合的问题,最普遍的方法就是分别用这两种方法进行相似度的计算,然后对每种方法赋予不同的权重,并求和【加】。本文采用的是一种折中的方法,借鉴骨架依存树的思想,把一个句子分成两个层次,第一层为句子的谓语中心词,第二层为句子谓语中心词的有效支配成分,然后再对每一个层次进行相似度计算。在具体实现时首先利用浅层语法分析器将句子划分出若干个语法块,例如“IEATTHEAPPLE”和“THEAPPLEISEATENBYME”,虽然两句话的表面意思不同,但是都是表示“我吃”。经过浅层句法分析可将这两句话划分成【I】EAT】【THEAPPLE和THEAPPLEISEATEN【BY】【ME】,两句话的结构如图22所示。图22句子的两层结构FIG22TWOLEVELSOFSENTENCE当得到这两个层次以后,首先对第一层利用语义词典进行语义距离计算,如果第一层的语义距离比较近,然后对第二层利用改进编辑距离的方法计算,最后将两个层次得到的结果相加。计算如公式22SIUS,,S2型豢业22大连理工大学硕士学位论文D弛墨,岛和DB蜀,岛分别为两个层次的距离,并对不同层赋予不同的权重M和N分别为两句子第二层有效成分的个数。本章对浅层句法分析进行了介绍,并在浅层句法分析的基础上结合编辑距离来对句子的相似度进行计算。对于如何利用浅层句法分析确定问题的类型和利用句子相似度计算去掉重复或相近的段落将分别在第三章和第六章进行介绍。13一HTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现3问题分析对用户提出的问题进行处理是问答系统中必不可少的一个模块,是系统对问题进行正确回答的前提,这个过程分析的效果对整个处理过程有着重要的影响。问题分析部分需要完成以下几部分工作确定问题的类型、提取出问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。如果是汉语的问答系统,首先要对问题进行分词以及词性标注等。有些问答系统还对问题进行了语法分析和语义分析。31确定问题的类型311问题类型当用户输入自己的问题给系统后,系统首先要做的事情是对问题进行分析,确定问题的类型。问题类型是定位和检验答案及制定抽取答案策略的关键因素。不同的问题类型需要不同的策略来处理。问题分类主要是根据答案类型把问题划分到相应的类别【2”,从问答系统给出答案的形式可以将问题类型归纳为以下三种类型事实类问题、列表类问题和描述类问题。事实类问题是最简单的,正如答案是命名实体的,例如人名、组织名以及地名等。列表类问题同事实类问题非常相似,只不过列表类问题需要返回一个以上不超过指定大小的答案,列表类问题的评测是要看返回的答案是否完全。描述类问题更加复杂,因为该类问题的答案是一个描述答案的段落。需要简化技术使答案最小化。对于后两种类型一些问答系统返回固定大小的段落作为答案,而第一种则需要提供确切的答案。问题类型的识别是问题处理模块中的一个重要工作,由它可以确定所要找的答案的语义类型以及答案的形式。问题类型的分析对问答系统有着至关重要的影响,因此越来越多的问答系统都对该模块引起了高度的重视。当问题的类型以及答案需要满足的条件确定以后,一旦候选段落中所要找的实体类型与之相匹配,则在答案抽取模块中,将很容易确定候选答案中哪一个更符合用户的要求。问题类型的识别方法有很多【捌,例如句法分析、启发式算法基于规则的算法、基于机器学习的算法等。句法分析的方法可以根据问题的语法信息判断出问题的类型,但是当前的句法分析器效果不是很好,尤其对中文句法分析器而言更是如此。基于规则的方法可以达到很高的正确率,但是手工构造规则的代价比较高。基于机器学习的方法不需要繁重的手工劳动来构建各种规则,但是其正确率相对较低。本文使用的是一个浅层语法分析与简单规则相结合的分析方法。大连理工大学硕士学位论文312浅层句法分析在问题处理阶段的应用问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。针对生物医学问题的特点,本文将问题分为两大类,一类是需要给出确切的答案的事实类问题,另一类是需要返回一个长度尽量小的段落的描述类问题。对如何划分这两大类,以及第一类中又要给出什么样的确切的答案,这就需要问题类型识别技术。确定问题的类型是做好问答系统的关键的一步,疑问词是确定问题类型及答案要求的主要依据1231,因此在确定问题类型时,首先要找出问句中的疑问词,根据疑问词分析可能的答案类型。但是各疑问词的辨别能力并不相同由疑问词。WHEN”可知是对时间进行提问,它是“专用疑问词”,但如果句中出现“WHAT”,就不能仅靠疑问词来判断类型,因为很多类型的问题都有这种“通用疑问词”,必须借助问句中的另一个词称为“问题焦点”或“疑问修饰词”才能进行正确的判断。所谓“问题焦点”,就是问题中说明问题主要内容的一个名词或名词性短语,而问题的主要内容就是我们想要找到的答案需要满足的条件。那么如何来确定“问题焦点”呢一般情况下,问题中的第一个名词或名词短语是问题焦点的可能性很大。问答系统的问句一般是由一句话构成,据英文中的语法规则可以得到这样的简单规则如果疑问词后紧跟着名词或名词短语,则可以将该名词或名词短语看作是问题焦点。例如“WHATGENESARCIMPLICATEDINDISEASESOFBRAINDEVELOPMENT”,在疑问动词“WHAT”后面出现的名词“GENE”就是问题焦点。如何找到问题中的疑问词和确定疑问词后面的“问题焦点”,对于由几个词组成的名词短语,又如何确定焦点词的边界,这些都是需要解决的问题。本文利用浅层句法分析器能够将一个句子划分语法块的功能,就能很容易找到问句中的疑问词和“问题焦点”,并确定“问题焦点”的边界。例如下面的句子WHATSIGNSORSYMPTOMSOFANXIETYDISORDERAGERELATEDTOLIPIDLEVELSW11ATWPBNPSIGNSNNSBNPORCCINPSYMPTOMSNNSINTOF矾BPPANXIETYNNBNPDISORDERNNINPAGEVBPBVPRELATEDVBNLVPHTTP/INFO3DOUCOM/网络营销面向生物医学领域的问答系统的研究与实现T0IOBPPLIPIDNNBNPLEVELSNNSINP7O经过浅层句法分析,很容易找到句子的疑问词和焦点词。例如例句中通过“WP”标记可以确定句子的疑问词,然后找到疑问词后的名词词块,方法是首先确定疑问词后第一个出现“BNP”标记的名词“SIGNS”,然后找到该词后面连续标记为“INP”的词“OR”和“SYMPTOMS”,最后可以确定该词块为“SIGNSORSYMPTOMS”,也就确定了该问句的类型。对于本系统如何具体利用浅层句法分析器划分两大类,以及如何对第一大类中各个小类的确定将在第六章进行具体的介绍。32关键词提取系统需要在用户用自然语言方式提出的问题中提取出对后面检索系统有用的关键字。并不是出现在问题中的每个词都可以提取出来作为检索系统的关键词。比如,疑问词和一些常用的介词“IN、AT、FOR”等词就应该被过滤掉,为此,需要一个停用词表来过滤这些词。关键词主要由名词、动词、形容词、限定性副词等组成。有一些问答系统还把关键词分为两种必须含有的关键词和一般性关键词。所谓必须含有的关键词指的是这些关键词必须在答案句子中含有,对问题和答案有很强的限制作用。一般性关键词可以不在答案句子中出现含。本系统中“必须含有”的关键词是指专有名词即基因词,可通过命名实体识别技术找到。之所以要制定“必须含有”的关键词是因为他们对问题有极强的限定性作用,因为对于那些没有出现它们的句子是几乎不可能是正确的答案。例如问题“世界上最高的山峰是哪座山”,检索的结果会出现。乔戈里山是世界第二高峰”,这显然不是用户想得到的结果,之所以出现这种情况的原因就在于重要的关键词“最高”没有在答案句子中出现。如果加上。必须含有”的关键词这个限制,那么这个答案就不会被检索出来,因此通过这些关键词的作用可以极大地提高检索的准确性。对于必须含有的关键词和一般性关键词在将答案重新排序的过程中被赋予不同的权重。大连理工大学硕士学位论文33关键词扩展331关键词扩展技术在答案句子中某些词经常不是原来问题的关键词,而是这些关键词的同义扩展。例如问题“WHOISTHEFIRSTAMERICANASTRONAUTTODOASPACEWALK”,答案的句子是“EDWARDWHITEWASTHEFIRSTAMERICANCOSMONAUTTODOASPACEWALK”在问题中使用的是“ASTRONAUT”,而在答案中却采用了“COSMONAUT”这个词汇。这就造成关键词查询失败,因此为了提高检索系统的召回率,一般的问答系统都需要对关键词做适当的扩展。一般的问答系统对关键词的扩展都是很谨慎。因为关键词扩展虽然能够在某种程度上提高系统的召回率,但如果扩展不适当会极大地降低检索的正确率。所以这些问答系统都对关键词的扩展添加了很多限制条件,比如某些专业领域的问答系统只对专业词的关键词进行扩展。关键词扩展方法通常有三种,分别是基于词典的方法,基于统计的方法和相关反馈的方法口】。基于词典的方法可用WORDNET用于英文问答系统、HOWNET用于中文问答系统或其他的同义词词典来扩展关键词,对某些专业领域的问答系统可用专业词典进行专业词的同义词扩展。通过统计的办法来扩展关键词需要大量的问题和答案语料来进行训练。每一类的问题所对应的答案一般都有某种共同的特性。例如,对于询问地点的问题,答案中经常会出现“在、位于、地处”等关键词。所以通过统计,找出这些词后,就可以把它们加到问句当中。相关反馈的方法是用检索返回来的相关文档来对关键词进行扩展。扩展后的关键词的重要性往往比从问题中提取的关键词的重要性低,为了提高系统的准确性,很多问答系统又对关键词附了权重,以此来区分他们之间的重要性。332本系统所用关键词扩展技术本文所作的是生物医学领域的问答系统,要对该领域的专业词进行扩展,除了选择该专业最有权威的字典之外,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版采砂厂承包环境治理合作合同标准文本
- 二零二五年度公共广播系统安全监测与预警合同
- 二零二五年搅拌站砂石料一站式采购合同模板
- 2025版航空燃油灌装作业安全协议合同
- 2025电子商务纠纷公证处理专项服务合同
- 二零二五年度太阳能热水器安装服务协议范本
- 2025版互联网接入合作协议范本
- 2025版智能广告牌项目投资与运营管理合同
- 二零二五年度房地产项目投资并购合同
- 2025版医院后勤管理服务合同
- GB/T 14188-2008气相防锈包装材料选用通则
- 钴领域:华友钴业企业组织结构及部门职责
- 血小板聚集功能测定及临床意义课件
- 工程质量通病防治措施专项施工方案
- 设备检修管理流程图
- 最新《心衰指南》课件
- DB4401-T 43-2020 反恐怖防范管理+防冲撞设施-(高清现行)
- 建筑节能工程竣工验收报告3篇(施工单位节能验收报告)
- 堤防工程重点难点
- 卸料平台(落地搭设)验收记录表
- 新媒体研究方法教学ppt课件(完整版)
评论
0/150
提交评论