![[硕士论文精品]q 基于网络的问答系统的研究_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/a5794fa4-39d9-4314-beb3-b5fd452049eb/a5794fa4-39d9-4314-beb3-b5fd452049eb1.gif)
![[硕士论文精品]q 基于网络的问答系统的研究_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/a5794fa4-39d9-4314-beb3-b5fd452049eb/a5794fa4-39d9-4314-beb3-b5fd452049eb2.gif)
![[硕士论文精品]q 基于网络的问答系统的研究_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/a5794fa4-39d9-4314-beb3-b5fd452049eb/a5794fa4-39d9-4314-beb3-b5fd452049eb3.gif)
![[硕士论文精品]q 基于网络的问答系统的研究_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/a5794fa4-39d9-4314-beb3-b5fd452049eb/a5794fa4-39d9-4314-beb3-b5fd452049eb4.gif)
![[硕士论文精品]q 基于网络的问答系统的研究_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/a5794fa4-39d9-4314-beb3-b5fd452049eb/a5794fa4-39d9-4314-beb3-b5fd452049eb5.gif)
文档简介
鞍山科技火学硕士论文摘要摘要问答系统是自然语言处理中一个热门的方向。随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。问答系统技术正是为了满足人们的这种愿望而发展起来的。搜索引擎,要求输入的是一些关键字的组合,而问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而问答系统返回给用户的是一个简短而准确的答案。这样用户就可以通过问答系统方便、快速、准确地获得自己想要的信息。本文设计与实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间,提出了一种针对该系统的信息抽取算法,并采用一种的基于语句相似度计算的答案抽取算法并且进行了改良。实验结果表明该系统对人名及时间类型的问题效果显著。对测试问题集的MRR值达到047。本文的课题来自于北京网易公司。H姬;纽塑塑31Q塑关键词问答系统句子相似度信息抽取答案抽取第I页HTTP/INFO3DOUCOM/口碑营销塑些型垫盔堂堡主笙茎垒兰璺竺ABSTRACTQUESTIONANSWERINGSYSTEMISARESEARCHFIELDINNATURELANGUAGEPROCESSINGASINTERNETPOPULARIZES,MOREANDMOREINFORMATIONAREAVAILABLEONLINEPROVIDINGGOODRESOURCESFORPEOPLEHOWEVER,WITHTHEOVERWHELMINGINFORMATION,PEOPLEFINDITVERYDIFFICULTTOFINDTHEINFORMATIONTHEYNEEDQUICKLYANDACCURATELYTHEREARESOMESEARCHENGINESTHATCANHELPPEOPLETOSEARCHFORNEEDEDINFORMATION,BUTTHEYAREFARFROMBEINGSATISFACTORYQUESTIONANSWERINGQATECHNOLOGYISDEVELOPEDTOMEETPEOPLESDEMANDTHEINPUTOFSEARCHENGINEISCOMBINATIONSOFKEYWORDS,WHILEQASYSTEMSENABLEUSERSTOINPUTAQUESTIONINNATURALLANGUAGESTHERESULTSOFSEARCHENGINESARESOMERELATEDWEBPAGES,WHILEQASYSTEMSCANGIVEUSERSCONCISEANDACCURATEANSWERSBYUSINGQASYSTEMS,USERSCANFINDTHEINFORMATIONTHEYNEEDCONVENIENTLY,QUICKLYANDACCURATELYTHISTHESISPRESENTSAWEBBASEDCHINESEQUESTIONANSWERINGSYSTEMTHISSYSTEMUTILIZESTHE“TEXTSNIPPET”INTHEFEEDBACKOFTHEWEBSEARCHENGINEASDATARESOURCEFORANSWEREXTRACTIONTHISTHESISPRESENTSANINFORMATIONEXTRACTIONALGORITHM,ANDALSOUSESANANSWEREXTRACTIONBASEDALGORITHMONTHECOMPUTATIONOFSENTENCESIMILARITYBETWEENTHEQUESTIONSENTENCEANDTHECANDIDATEANSWERSENTENCES,ANDUSESSOMEMETHODSTOIMPROVETHEEFFICIENCYOFTHISALGORITHMTHEEXPERIMENTRESULTINDICATESTHATTHESYSTEMCANGETRELATIVELYGOODRESULTSFORTHEQUESTIONSOFTHETYPESOFPERSONANDNUMBERTHEMRROFA11QUESTIONSISO47KEYWORDSQUESTIONANSWERINGSYSTEM;SENTENCESIMILARITY;INFORMATIONEXTRACTION;ANSWEREXTRACTION第II页独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得鞍山科技大学或其它教育机构的学位或证书而使用过的材料,与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名皇生日期塑堕竺关于论文使用授权的说明本人完全了解鞍山科技大学有关保留、使用学位论文的规定,即学校有权保留送交论文的复印件,允许论文被查阅和借阅学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密的论文在解密后应遵守此规定酶牛翮虢她日期沁51,HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文引言1引言随着互联网的高速发展,网上的信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然现在的搜索引擎如GOOGLE等已经取得了很大的成功,但是这些搜索引擎是被设计用来获取与用户查询请求相关的文档的,因此其查询序列是一系列关键词的组合,而不是以自然语言的形式提供的,同时其返回的结果是与查询相关的网页的列表,其中只有一小部分是用户需要的信息,而且用户必须自己从这些文档中找到相关的信息。事实上,用户可能更习惯于用自然语言来描述一个问题而不是用一系列的关键词,例如使用“中国太空人”而不是“中国”AND“太空”AND“人,而且通常情况下用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。另一方面,传统的问答系统虽然可以对用户提出的问题给出确定的答案,但是这些问答系统的知识库是基于一个固定的文档集合,尚且不能满足用户的各种各样的需求。问答系统的目标就是解决这些问题。由于互联网信息的丰富多样性,毫无疑问可以作为问答系统知识库的理想资源。人们希望在杂乱无章的网络世界中快速、准确地获得自己想要的信息。问答系统QUESTIONANSWERINGSYSTEMJ_是为了满足人们的这种愿望而发展起来的。人们可以用普通的问句对问答系统提问,问答系统将到语料库或者互联网中搜索相应的答案,然后把答案直接返回给用户。这样用户就可以通过问答系统方便地获得自己想要的信息。11问答系统简介111研究的目的问答系统能够对计算机用户输入的使用自然语言描述的问句做出回答的计算机程序,而不是像信息检索那样只返回相关文档的集合。这种回答通常是,J,段文字,其中显式或者隐式地包含问题的答案。对于具备这样能力的计算机程序,由于系统的知识有限,通常要求用户的提问被限定在某一有限的领域中。另外,第L页鞍山科技大学硕士论文引言程序通常只能处理一种或者几种语言。但是,基于互连网却可以用互联网的资源进行回答,因此,基于网络的问答系统是现代问答系统研究的个热门。本文我们主要讨论基于网络的中文自然语言问答系统。显然,这样的程序必须具备对自然语言进行分析和处理的能力,它是自然语言处理技术的一个重要的应用,而INTEMET的普及和发展,为这类自然语言处理技术提供了一个空前广阔的舞台。随着网络在线文档的急剧增加,人们对于迅速从网上获取自己关心的信息需求的要求越来越迫切,这极大地促进了基于国际互联网的问题回答系统研究的发展,从而使该方向的研究成为近年来自然语言处理技术的一个新的研究热点。这类问题回答系统研究的目的是全自动地直接从网络文档中获取用户关心的问题的答案,而用户的问题通常用自然语言来描述【I】。在我国,研制开发汉语问答系统的意义尤为重大,这是因为由于采用友好自然的自然语言接口,可以消除计算机用户特别是不擅长英语的用户对INTEMET的神秘感和与计算机进行交互的障碍,使计算机真正成为最广大的计算机用户的良师益友,对于INTEMET技术在我国的进一步普及,具有不可估量的重大意义。112问答系统的分类问答系统有很多应用,可以基于问题的来源大致分为结构化数据如数据库、半结构化数据比如数据库中的注释字段和自由文本本文的关注所在。我们还可以进一步分为固定数据集如TREC会议中使用的和WEB如BUHHOLZ和DAELEANINGS论文中讨论的以及利用百科全书或者使用单个的文本如用于阅读理解的评估。我们也可以分为开放域问答系统和领域相关的问答系统如帮助系统等。我们甚至可以想象将问答系统应用于对话。随着数据集的增大和异构化,在该集合中找到问题的答案会变得越来越困难。113问答系统的用户系统的用户可以被分为初次使用的用户、偶尔使用的用户和作为日常工作经常使用的用户。明显的,这些用户需要不同的界面、提问不同的问题以及需要不同类型的答案。对于初次使用的用户来说,解释系统的局限性很重要,这样便于用户可以理解怎样解释返回的答案。对专业用户来说,可能需要更新一个用户模型,这样可以使用户关心最新最有价值的结果而忽略以前己经提供过的结果。第2页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文引言114问答系统的问题分类我们可以将问题按照答案的类型来分类实例性问题、观点性问题和文摘性问题。这里我们关注实例性答案。尽管阅读理解测试包含其他类型的问题如这个故事是讲什么的作者的观点是什么。问答系统的将来可以解决更富于挑战性的内容。接着我们可以将问题分为几类YESNO型,非直接型1WOULDLIKEYOUTOLIST和命令型FNAMEALLTHEPRESIDENTS。所有这些都应被看作是问题。然而,TF重依赖于“WH”词作为线索的系统可能难于处理如NAMETHEFIRSTPRESIDENT这样的问题。某些类型的问题比其他更难于回答例如洄答WHY和HOW问题更困难,因为他们需要理解原因或关系等。而这些又经常以段落或分开的句子来描述。如果一个系统对问题的类型做了很好的分析,就可以减少可能的答案的搜索空间。这些问题难于回答是因为没有足够的信息来判断类型。例如WHAT问题常难于回答,因为WHAT对答案的类型很少有限制如WHATHAPPENED,WHATDIDTHEYSEE,WHATDIDTHEYDO。115问答系统的答案问题的答案可长可短、可以是一个列表也可以是一个陈述。对不同的用途和不同的用户有不同的形式。例如,如果用户想要一个描述,这需要一个长的回答,但是对阅读理解测试则需要短的答案。同时对答案的组织也有不同的方法通过抽取一从包含答案的原始文档中剪裁出小的片断,或者通过归纳总结。如果答案从几个句子和几个文档中得出,抽取出的答案的一致性就会减少,需要归纳总结来合成一个一致的整体。116问答系统的评价一个答案什么情况下才是好的答案答案是否足够长、包含足够的上下文信息上下文信息在有多个候选答案时很有用,因为这样允许用户在所需答案不是在最前面的情况下找到正确需要的答案。然而在其他的情况下,短一些的答案可能更好。TREC问答系统评估的经验表明,提供包含答案的长的段落要比短的段落容易。第3页鞍山科技大学硕士论文引言12问答系统的历史121“前端自然语言数据库”系统最早的基于知识库的问答系统是BASEBALLGREENETA11967旺1,一个用来回答美国棒球联盟赛季比赛问题的程序。给定一个问题如WHODIDTHEREDSOXLOSETOOILJULY5或者HOWMANYGAMESDIDTHEYANKEESPLAYINJULY甚至于ONHOWMANYDAYSINJULYDIDEIGHTTEAMSPLAYBASEBALL用语言知识分析这些问题,然后转换成一个合适的形式用来在包含棒球数据的数据库中查询结果。BASEBALL系统非常复杂,它处理句法和语义信息,并且被局限于一个特定的领域,棒球。它只是一个结构化数据库的接口,而不是大规模文本集合的接口。在这个意义上BASEBALL是一系列“前端自然语言数据库”系统的第一个。含义是,假设计算机保存有大量的结构化的数据,数据的内容对用户是不透明的。目的是允许用户用自己的语言与一致的数据库结构进行交流,传输信息。在此意义上最值得提及的系统是LUNART”。LUNAR被设计为“允许月球地理学家方便地访问、比较和评价化学分析的数据,这些数据是在阿波罗计划中积累的月球岩石和土壤的成分WOODSL973。LUNAR可以回答这样的问题如WHATISTHEAVERAGECONCENTRATIONOFALUMINUMINHIGHALKALIROCKS或者HOWMANYBRESCIUSCONTAINOLIVINE它在1971年的月球科学会议上演示,并且可以回答90由地理学家提出的领域相关问题。但是需要再次注意的是它仍然局限于一个狭窄的领域。整个20世纪70年代,在此传统下进一步的工作包括PLANES,LADDER和TEAM系统。从现在的问答系统观点看,这些工作的主要局限在于它用来回答问题的知识库是一个基于受限领域的结构化数据库,而不是开放域的非结构化文本集合。对知识库的处理是该类问答系统中的主要部分。122人机对话交互系统早期除了知识库专家系统领域外,另一个于问答系统相关的理论研究领域是人机对话。众所周知,图灵1950141提出了测试机器智能的图灵测试早期的对话系统如SHRDLUWINBGRADL972和USBOBROWETA11977用来建立人机对话系统的模型。SHRLU是一个积木世界,GUS模拟一个旅游顾问并且访问一个受限制的航第4页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕论文引言班数据库。所有这些系统表明,简单的对话只是建立顾问系统必须面对的挑战对于复杂的上下文信息,特别是对指代和省略的处理没有得到较好的解决。123问题回答和故事理解系统用来检测一个人是否理解一个文本的明显的方法是向他提问相应的问题如果他能够正确的回答,表明他理解了文本的内容,反之表明没有理解。该技术被广泛用于检测人类的理解力,如检查小孩或者第二语言学习者的阅读水平。并且进一步可以用来检测自然语言理解系统的理解能力。这方面最值得关注的早期工作是WENDYLEHNERT,她提出了问答系统一系列原理,并且在系统QUALM中实现了这些原理1977。她的主要观点是问答系统不仅仅是被看作分离的数据和信息检索过程,相反,她把问答过程看作是一个整体,其中理解和问题的答案依赖于故事的上下文。在她的方法中,问题和正文都被分析为基于概念的描述。回答问题不仅是这些描述信息的匹配,对问题的解释还需要将其分为13个概念中的一种,例如”VERIFICATION”REQUEST”等。这些问题分类可以避免回答问题如DOYOUKNOWTHETIME为YES等。进一步的推论需要基于上下文得出。回答问题如WHOISNOTATTHEMATHLECTURETODAY时并不需要将全部知道的人做一个详尽的列表。一旦问题被解释,答案仍然需要不只是简单的记忆的匹配。对于故事中暗指的后来又相互抵触的答案,需要重新建立答案来回答问题。例如故事讲JOHN要了一个三明治,我们可以假设他吃了三明治。但是如果故事进一步晓他由于三明治烤得太糊而离开了饭店,我们就需要取消这个假设。然而故事的字面描述并没有包含三明治没有被吃掉的事实。如果问题是WHYDIDJOHNNOTEATTHEHAMBURGER回答不知道显然不是一个好的回应,并且不是人类做出的反应。合适的答案应该是它被烧糊了。得出这个回答需要在答案检索时重新构建并且根据上下文确定什么是正确的。关键是这种测试下的理解是一个动态的过程,需要把普遍的知识和上下文包含的信息结合在一起。故事理解工作的数据源和问答系统相同,都是非结构化的文本,同时和其他自然语言专家系统一样,故事理解系统也要面对省略和指代等问题。故事理解与开放域问答系统不同的是包含答案的文本是已知的。对一个文本的多个问题迫使对该文本的深层的处理,相似但不相关的文本被取消。然而,故事理解测试试图提供较少的答案冗余,从而增加了答案定位的难度。第5页鞍山科技大学硕士论文引言124信息检索信息抽取和问答系统信息检索,按传统来说是从一个用户查询中取得相关的文档。从1950年中期开始已经被积极地研究。它与问答系统相似的是都是由用户组织查询从而获得想要找到的问题的答案。然而除了这点以外,三者有很大的不同信息检索返回的是文档而不是答案,用户必须自己进一步从这些文档中找出答案。而且,用户提交到信息检索系统的查询也不必是句法上正确的疑问句。另外细微的句法差别如WHOKILLEDLEEHARVEYOSWALD和WHODIDLEEHARVEYOSWALDKILL在大多数的信息检索系统中不被区分,因为这些系统接受的只是简单的关键词。信息检索和问答系统有两个方面相关。首先,信息检索现在被扩展成为不仅可以返回相关的文档,而且包含文档中相关的段落。这些段落的大小可以被减小至少是理论上,从而变成问题的答案。因此,问答系统可以被看作是有限制的段落检索。其次,信息检索经过这些年的发展已经有了完整的评价方法,基于这些方法近来问答系统的评价方法得到了较大的发展。另一个受TREC推动的领域是信息抽取最初被叫做消息理解。信息抽取可以被定义为从自然语言文本中填充预先定义好的模板。这些模板被设计用来从固定的时间中的关键角色中捕捉信息。例如,很容易设计一个模板用来捕捉公司的收购事件。这样的模板有定义好的SLOTS用来获取如公司名、收购的公司、日期、付出的金额等。在大规模的文本上运行这样的一个模板可以得到一个结构化的数据库,包含公司收购的信息等。该数据库可以进一步用于其他的用途如数据库查询、数据挖掘、汇总等。在当前的上下文中,信息抽取模板可以被看作是问题的表示,而填充的模板则可以被看作是包含了答案。这样,信息抽取可以被看作是一个限制的问答系统,其中问题模板是固定的,从这里要回答的数据是任意大小的动态的文本集合。13当前使用的方法简要概述前面几中指出了于问答系统相关的一般任务的范围,现在让我们来看看当前解决这些问题的方法。我们首先简单描述问答系统的各个模块,然后进一步做详细的解释。1问题分析用户输入的自然语言问题需要被分析成后面处理需要的形式。问题可能被解释为一个对话,用户可以在进一步处理前被询问以澄清本质。第6页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文引言2文档处理假设系统访问一个大规模文档集合作为知识库,这个文档集合可能需要先进行处理,将它转换成适合问答的形式。3文档的选取总文档集合中的一个相关集合被选出,包含问题的最可能的答案。4答案文档分析如果文档集合中的文档只是浅层的分析,则对候选文档进一步详细的分析必须进行。5答案抽取用合适的问题的描述和每一个候选文档匹配,候选答案从文档中抽出并且按正确性排序。131问题分析第一步是问题的分析,这一步输入的是自然语言描述的问题。问答系统可能对输入的语言有所限制。如用户可能被限制使用自然语言的一个子集,“一个受控语言”,受词表和句法的限制。几乎所有的专家系统都有这样的限制。甚至于用户可能被要求使用一种特定的模式填充交互的问题来简化对问题的处理。其次,除了显式的输入外还可能有隐式的输入,例如在上下文模式中,系统支持持续的对话从而可以包含省略和指代。其他的隐式输入包括系统关于用户及其动机的知识等。该步的输出是在随后的处理中用到的对问题的一个或多个描述。例如如果下一步候选文档选择机制是信息检索,则问题的描述可能就是搜索引擎输入的加了权的关键词。然而,这个描述可能不适用于从搜索引擎返回的文档中抽出答案。为了做这些,所有的系统都分两步1判断问题寻求的实体的语义类型如日期、人物等2根据答案实体确定附加的限制。例如A确定用于从候选句子中匹配候选答案的关键字。B确定在候选答案实体和问题中提到的其他实体和事件之间应该有的句法和语义关系。第一步需要首先找疑问词,HEN用来查找日期和时间,WHERE是地点,WHO是人物。然而,这还不够。因为各种英文疑问词如WHICH和WHAT并不包含足够的语义信息来确定类型。问题的实体类型例如WHICHCOMPANY和WHATBUILDING也容易确定,但是对于包含更多复杂的句法结构的问题如WHATWASTHEBEATLESFIRSTHITSINGLE等情况下问题就变得很复杂。第7页鞍山科技大学硕士论文引言很多系统因此基于答案的类型建立了问题分类,并且试图将输入的问题划分到合适的类别中。MOLDOVANETA12000”1在分析了TREC训练集之后手工构造了问题类型分类,包含25种类型。SFIHARI和LI2000”1构造了一个问答系统,在分析了17000个真实问题的基础上提出了47个分类。一旦查找的答案的类型被确定,问题分析剩下的工作就是确定匹配描述类型的答案必须受到的限制这一步可以简单从问题中抽取出关键字用于匹配支持候选答案的句子。这个关键字集合还可以使用同义词和其他查询扩展方法如概念扩展等1做进一步扩展,或者可能包括对问题语法语义的复杂分析HARABAGIUETAL2001使用一个大覆盖范围的统计句法解析器来使问题的产生完全解析。它随后产生的分析结果被转换成语义的描述。SCOTT和GAIZAUSKAS2001I”使用一个健壮的浅层句法解析器用于确定问题可能包含的语法关系如主要动词加上逻辑主语和宾语。132文档处理如果问题是从上千兆的文本中适时的进行回答,则离线的预处理是必须的。到现在为止所有的TREC问答系统依赖于传统的文档索引技术来做这项工作。然而并不是必须要将预处理局限于这种索引。即使候选文档选择步骤依赖于传统的搜索引擎来做初步的选择,预先存储一个详尽的对所有文本集合的分析会使得后续的候选文档分析步骤变得不必要。使用这种方法的例子是EXTRANSMOLLAALIODETA11998191和文献呻川”。在任何查询前先生成对文档的一个逻辑的描述。一个实现对文档集合进行浅层语法分析的系统是SRIHI【GHLIGHTINFORMATIONEXTRACTION系统MILWARD和THOMAS2000T”L。该系统标记、识别所有的命名实体并且保存其索引用于后续的匹配。133文档的选取几乎所有的TREC问答系统使用一些传统的信息检索工具如搜索引擎来从大规模文本集合中选择初始的候选答案支持文档集合。然而选择这个方法将总的文档集合减少为一个很小的文档集合进行进一步分析并不是问题的结束。首先,必须决定使用布尔查询还是RANKED搜索引擎。尽管RANKED引擎在标准信息检索评价中有较好的结果,一些TREC问答系统的参加者指出布尔查询引擎可能更适合于问答系统MOLDOVANETA12000。另外还必须决定检索返回的文档集合中使用多少文档做进一步的处理。其次搜索引擎可能允许段落检索,同时各种第8页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文引言参数需要设置如段落长度等,或者是在检索之后,一个基于主题的文本分割器被用来去定相关的文本段落。134答案文档分析一旦候选答案支持文档和文档段落被选出,这些文本段落可以被进一步分析。对于已经将所有文档做了完全处理的系统则该步骤是不需要的。或者对不是设计用来进行进一步分析的系统该步骤也是不需要的。多个词的串作为问题的答案如公司、人名、地名等叫做命名实体。命名实体的分类似乎至少应该是MUC命名实体任务中规定的类别。但是很多情况下这些类别被扩充了很多分类,如产品、地址等,或者做更细致的分类如城市、省、国家等。该步的另一个任务是句子分割、词性标注和桶链解析确定名词组、动词组和一些代词等。一些系统会做进一步完全的语法分析如HARABAGIUETAL2001。一般搜索引擎返回的是系列的超级连接,而问答系统需要返回的是简短的、准确性很高的答案。这样,通过信息检索模块搜索出来的相关文档就要提交给答案抽取模块来提炼答案。答案可以是一句话,或者是几句话,也可以是几个词或者短语。对于那些问时间地点的问题,就可以用很短的语句来回答,而对于询问原因、事件的问题就需要较长的语句刁能回答。比如对于问题”911事件是怎么回事”就不可能用一句话就能回答的。所以答案的抽取还需要依据问题的类型3】。以句子作为答案为了处理的方便,很多的问答系统返回的是句子作为答案。在这种系统中,答案的抽取的步骤如下1把检索出来的文档分成句子2按照一定的算法,计算每个句子的权重F3对句子按照权重进行排序4根据问题的类型对候选答案重新排序在第2步中,计算句子的权重需要考虑如下方面句子中含有的关键词、和关键词有相同语义的词、句子中不包含的关键词以及候选答案和问题之间的语义相似度。以词或短语作为答案如果以句子作为答案,处理起来相对简单一些。但是,对于那些问时间地点人物等确切信息的问题,其答案就比较简短,而用不着一句话。比如,对于问题第9页鞍山科技大学硕士论文引言“中国最大的城市是哪里”我们可能检索出这样的一句话“上海是中国最大的城市”。从这个例子可以看出,我们所要的答案只是这句话中的D,部分,如果我们能把这整句话作为答案都提交给用户的话,显然冗余信息太多。所以有些问答系统希望直接把包含答案的那段话抽取出来。以文摘作为答案对于有些问题,简短的一个短语或者一句话很难说清楚,比如对于问题“911事件是怎么回事”。像这种问题,在互联网上有许多相关的报道,如果把这些相关报道都交给用户的话,那么用户将要花很多时间来阅读。如果能把这些相关报道做成一个简短的文摘,让用户只要看文摘就能知道整个事件的前因后果,那么将会为用户带来很大的方便。这就需要用到多文档自动文摘技术。多文档自动文摘模块把信息检索模块检索出来的相关文档做成文摘,渭把这个文摘作为答案返回给用户。14问答系统的研究现状早在60年代人工智能研究刚开始的时候,人们就提出了让计算机用自然语言来回答人们的问题,这就是指自动问答系统问答系统在60年代的自然语言处理领域曾风行一时,因为TURING实验告诉人,FF3PN果计算机能够像人一样与人进行对话,就可以认为计算机有智能所以研究者们为了探索语言理解技术,纷纷研究自然语言问答系统。但是,由于当时的条件限制,所有的实验都是在非常受限的领域,甚至是固定段落上进行的,所以自动问答直被限在特殊领域的专家系统。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了冷落。在人工智能的研究中,问答系统已经有很长的历史了FJ”。在这一研究方向上最早的尝试是1972年WINOGRAD研制的SHRDLUI51系统,该系统能够回答地球物理领域里的简单问题。早期比较著名的问答系统还包括DYER的BORIS系统等等。另外,LEHNERT等人对自然语言问句的分类方面进行了有益的探索。早期的系统通常以手工编写的领域知识,用户经常询问的问题以及一些报刊文章作为该类系统的基础,这无疑需要耗费大量的人力资源,限于当时的技术条件,问题回答技术的研究在很长的一段时间里发展十分缓慢。最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与了自动问答技术的研究。比如,微软和IBM等著名的跨国公司在每年一度的文本信息检索TREC会议上,自动问答QUESTIONANSWERINGTRUCK是最受关注的主题之第10页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文引言一。越来越多的大学和科研机构参与了TREC会议的QUESTIONANSWERINGTRACK。在2000年10月召开的ACL2000国际计算语言学学术会议上,有一个专题讨论会,题目是“OPENDOMAINQUESTIONANSWERING”。STARTII6】是最早的问答系统之一,由麻省理32MIT开发,从1993年开始发布在INTEMET上,可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如对于问题”WHATISTHELONGESTRIVERINTHEWORLD”START将会回答“WITHALENGTHOF4,190MILES,THENILERIVERISTHELONGESTRIVERINTHEWORLD”然而它的侧重点是地理知识,使用一个预先构建好的知识库MITINFOLAB来回答问题。其他的一些早期的系统如MURAX,则是使用百科全体作为知识库来回答各种问题。给定一个问题,MURAX使用一个浅层的句法分析器按照百科全书章节中的词与题中词之间的相似度来抽取潜在的答案。FAQFINDER【L71则通过预先收集“问答对”并采用基于向量的搜索引擎来从相关的问答对文件中抽取答案。ASKJEEVES公司是国际上第一个提供自然语言问旬接口的网络商业服务商,它的做法是手工收集大量的自然语言问句以及相应的URL链接,提取问句的问题模板并进行人工或者半自动的分类尽管它的精确度比较低,仍然以其简便易用和符合人们的习惯而受到广大用户的欢迎。另外,还有许多问答系统脱胎于TREC问答系统比赛,如SMU的LASSO系统等等。国内方面,目前绝大多数中文网站的搜索引擎仍然采用基于关键词的布尔搜索或者向量搜索。近来,大量的问答系统开始出现。这些问答系统可以被粗略地分为两类一类是使用TRECQA数据作为测试语料,并且基于该语料构建自己的检索系统和答案抽取系统。例如WEBCLOPEDIA是基于信息检索IR和自然语言处理NLP技术的,给定的问题首先经过句法分析形成查询序列来获取最相关的文档,然后这些文档再被分成一个个的片断并且排序,最后从这些片断中抽取潜在的答案并排序。另一类是使用WWW作为知识库并且使用通用的搜索引擎如GOOGLE。YAHOO等来获得与问题相关的信息然后做进一步的处理从而抽取出问题的答案。例如MULDER利用了与传统问答系统相同的技术,首先问题经过句法分析得到句法结构,然后分成3类NOMINAL,NUMERICAL,TEMPORAL,最后利用句法分析抽取出答案。另外还有一个比较成熟的问答系统ANSWERBUS是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。国内现在也有尤里卡和孙悟空智能搜索引擎提供自然语言的查询界面,但是都是基于自己的索引库,返回结果未经过处理。国内也有一些研究机构参与了自动问答技术的研究中科院计算所、复旦大学、第11页鞍山科技大学硕士论文引言哈尔滨工业大学、香港科技大学等。但是参与中文自动问答技术研究的科研机构比较少。15本文结构,内容及基本结论本文的基本结构如下第一章为引言,主要是对问答系统简介,包括问答系统的历史,当前使用的方法简要概述,问答系统的研究现状以及本文的内容及结构等;第二章主要讲解文本处理技术,主要介绍了常用的分词文本形式化表示方法,并介绍了本系统应用的网易公司NETEASE,HTTPWWW163TOM的分词系统;第三章用图表明了问答系统总体结构;第四,第五,第六和第七章分别讲解了常用的和本系统使用的问题分析,相关文档获取,语句的获取和排序,命名实体识别方法,并讲解了本系统原创的关键词扩展,文档下载以及句子相似度的计算方法;第八章进行了实验,对系统进行了评价;第九章为结论以及将来的工作。本文设计与实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间,提出了一种针对该系统的信息抽取算法,并采用种的基于语句相似度计算的答案抽取算法并且进行了改良。实验结果表明该系统对人名及时间类型的问题效果显著。对测试问题集的MRR值达到O47。第12页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文文本处理2文本处理第二部分主要阐述了自然语言处理技术的基本原理,常用技术以及本系统所采用的一些技术。它是实现基于自然语言理解的自动问答系统核心技术的理论依据。其涉及的内容众多,主要包括自动分词、文本形式化表示、甸子相似度算法等具体内容。在学术研究中,以上每一部分功能均是一项研究课题,目前为止仍未有满意的解答。21分词智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词语确定下来是理解自然语言的第一步,只有跨越了这一步,中文刊能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想”。211分词技术的发展从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经先中文一步,并且己经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,才有希望赶上并超过英文在信息领域的发展,所以中文分词对本文来说意义重大,它的最终解决将对汉语语言理解、汉语人机接口、机器翻译、情报检索、语言文字的处理等领域产生实质性的影响119。作为自然语言处理的前处理阶段,自动分词技术又是重中之重,它是机器翻译、文献标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信息处理飞跃的“瓶颈”之一。国外自动分词与自然语言的研究始于50年代木,现已获得很大进展。我国汉语文献自动分词与处理的研究起步较晚,主要开始于80年第13页鞍山科技大学硕士论文文本处理代初,近几年来这项研究工作进展较快,取得了许多可喜的成绩。但是,由于汉语构词与书写的特点与西方相异,因此不能把西文自动标引理论技术完全照搬到汉语自动分词于标引中来。汉语词在不同人群中有不同的概念与标准,而且汉语词组丰富,复杂,这给汉语词语的正确切分带来了极大困难,使这项研究工作长期以来缺少突破性进展。近十年来,自动分词技术取得的成果是可观的,但无论是同人的智力相比,还是同实际需要相比,其差距还是很大的。目前,中文自动分词方面还存在着许多困难,主要包括切分歧义、词自身定位的模糊性、未登录词的识别、分词与理解的先后等问题1切分歧义汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义约占全部歧义的85DA上和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能做出正确的决策。排除歧义常常用词频、词长、词间关系等信息,比如“真正在”中,“真”作为单字词的频率大大低于“在”作为单字词的频率,即“在”常常单独使用而“真”作为单字词使用的可能性较小,所以应该切成“真正在”。有时切分歧义发生在小段文字中,但为了排除歧义,需要看较长的一段文字。如“用户会”既可能是一个名词,指一种用户组织,也可能是“用户会”,其中“会”为“可能,或,能够”的意思。在“用户会主席”中只能是前者,在“用户会去”中只能是后者,在“用户会组织义演活动”中歧义仍然排除不了,则需要看更多的语境信息。2词自身定位的模糊性词与词索、词组之间往往没有明确的界限,如“明白”、“国会”,这为分词词典中词条的选择带来难题,分词词典不能明确这一概念,又如何为自动分词提供依据呢3未登录词的识别对于分词词典中没有收录的概念词,词表并不能做到实时更新来适应新的需求,自适应能力差,然而人工智能技术尚且处在摸索阶段,如果自动分词系统中对未登录词识别不正确,则统计到的信息就会有较大的误差。F4分词与理解的先后计算机无法真正做到像人在阅读汉语文章时那样边理解边分词,通常是先分词后理解,因为计算机理解文本的前提是识别出词、获得词的各项信息。这样就造成了逻辑上的两难境地一方面要以理解为前提,而另一方面理解又以分词为前提。由于计算机只能在对输入文本尚无理解的条件下进行分词,所以任何分词系第14页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文文本处理统都不可能企求获得百分之百的切分正确率。212机械分词待分词的汉字串S,按照某种确定的原则切取SFO子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则该子串不是词,转上重新切取S的子串进行匹配。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大最长匹配和最小最短匹配按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下12011正向最大匹配正向最大匹配法的主要设计思想用MAXL表示最大词长,按照从左到右的顺序,首先从汉字串中取长度为MAXL的子串,查词典,若词典中存在这个词,则切分出这一子串,后移MAXL个汉子后继续切分,否则,子串长度减一,再与词典匹配。若长度为2的子串还不能在词典中找到,则取当前汉字为词,指针后移一个汉字继续匹配。正向最大匹配法的原理较简单,易于在计算机上实现,时间复杂度也较低。但是,最大词长的长度比较难以确定。如果定得太长,则匹配时所花费的时间就会增多,算法的时间复杂度明显提高如果定得太短,则不能切分出长度超过它的词,导致切分正确率的降低。由于正向最大匹配法的错误切分率较大,故一般不单独使用,而是与其他方法一起使用。2逆向最大匹配逆向匹配是从汉字串尾端开始抽取,而逆向最大匹配算法与正向最大匹配原理类似。3最少切分使每一句中切出的词数最小和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取出长度为2的子串查词典,若词典中存在这个词,则切分出该予串,指针后移2个汉字,否则,字串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配,则切分出当前汉字。例如切分句子“后天我们去北京”,设最大词长为4,根据不同的机械切分方法得到不同的切分结果,如表21所示第15页鞍山科技大学硕士论文文本处理正向最大匹配后天我们后天我后天我们去北我们去我们去北京去北去北京正向最小匹配后天我们去北去北京逆向最大匹配们去北京去北京北京天我们去我们去们去去后天我们天我们后天逆向最小匹配北京们去我们去天我们去去我们后天213网易公司的分词系统表21机械分词示例衡量自动分词系统的主要指标是切分精度和速度。由于切分速度与所运行的软、硬件平台密切相关,在没有注明运行平台时,切分速度只是一个参考指标,没有可比性。另外,所注明的切分精度都是开发者自测试的结果。自80年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以开发,其中CDWS分词系统、清华大学SEGTAG系统、北大计算语言所分词系统等几个比较有代表性的自动分词系统产生了较大的影响。由于本课题来源于北京网易公司NETEASE,HTTPWWW163CORN,因此分词系统采用了网易公司研制的分词和词类标注相结合的分词系统。系统利用丰富的词类信息对分词决策提供帮助,并且在标计的过程中又反过来对分词结果进行检验、调整,同时将基于规则的标注排歧与基于语料库统计模型的排歧结合起来,使规则的普遍性与灵活性得到统,而且对未登录词的估算到达了相当高的准确率。系统的处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理等过程,系统的算法综合了多种数据组织和搜索技术,以很低的时空开销实现了高速匹配和查找,同时采用了当代计算语言学的统计方法,对算法的效率和稳固性都作了尽可能的优化。此系统的一大特色是对通用性的强调,将最稳定、最常用的十万余条现代汉语基本词汇及其有关属性组织成为基本词典,在此词典的基础上充分利用汉语构词法的研究成果,可以识别出大部分的常用词。同时本系统对用户词典机制作了最大限度的扩展,允许用户加入自定义词典,并允许用户对这些词典的优先顺序自由排列,这样就可以用较小规模的多个特殊词典更有针对性的解决具体领域的文本处理。该分词系统的语言模型实现了通用性与多样性的有效结合,并到达了极高的效率。中文分词系统的功能最终将影响到自动问答系统的最终效果,因此选择合适的分词算法,是自动问答系统实现中比较重要的一步。目前,该分词系统己经成功应用到了网易公司的应用当中,取得比较好的效果。第16页HTTP/INFO3DOUCOM/口碑营销鞍山科技大学硕士论文文本处理22文本形式化表示计算机理解自然语言的核心任务是将自然语言语句文本转换成某种机器内部表示形式。这种内部表示形式应能完整地刻画句子的词法、句法或语义信息,然后在这种内部表示形式上进行信息抽取自动文摘系统、问题求解自然语言问答系统,向另外一种自然语言转换机器翻译系统。显然,文本的数字化表示是自然语言信息处理的基础。与一般数据库中的结构化数据相比,文本使用自然语言,没有标准结构,计算机难以直接处理。因此,首先要对文本进行预处理,抽取代表其本质特征的元数据又称特征项,以结构化形式保存,这就是文本表示,也称目标表示。主要有两种表示方案,即数字化方案和符号化方案,数字化表示方案应用广泛。222特征项一个中文文本表现为一个由汉字和标点符号组成的字符串,由字构成词,由词构成短语,进而形成句、段、节、章、篇等结构。这里,本文把字、词短语等等称为语义特征项。实际应用中常常采用字、词或者短语作为特征项121。F1字特征使用字特征项是最简单的方法,将文本分解为字特征非常容易实现。按照GB2312的规定共有6768个汉字。这样特征集合就非常小,最大不会超过6768。在这一点上与其他特征如词特征相比优点是非常明显的。以字为特征项也有其明显得缺点,因为从理论上说,字不能完整地表示一个语义范畴,对文档的表示能力应当是较差的。F21词特征现有的研究中大部分认为应以词为单位进行文本的表示。首先,以词为单位比较符合自然思维习惯,便于系统利用语言学知识其次,以词为单位就可以借用英文全文检索系统中已有的理论及方法。与字特征比较起来,词特征蕴涵了更为丰富的语义信息,能够更为完整、准确地表达文本信息。但是由于使用词特征首先要进行有效地分词和特征抽取,因此运用词特征将增大信息处理的工作量和复杂度。采用词特征的先决条件是要有一个良好的分词策略,不好的分词会造成最终的归类效果反而不如直接采用字特征。根据问答系统要求和实际应用的需要以及实现的难易程度,本文选择词特征第17页鞍山科技大学硕士论文文本处理作为本文系统的处理的基本元素。网易公司的分词系统不但可以快速地进行分词,同时还对每一词的词性做了词性标注,有助于自动问答系统下一步进行关键词的提取。223关键词提取关键词也叫特征词,是能较好反映文章中心内容的词汇。通常,一本普通的课本经过分词后有几千甚至几万个词,即它的特征空间维数达到几千甚至几万维,大多数的学习算法无法处理这么大的维数,因此特征抽取是中文文本信息处理中的关键问题,它具有降低向量空间维数、简化计算、防止过分拟合等作用。由于特征子集的数量和特征数量之间是指数关系,枚举几乎是不可能的,因此,可以假设特征之间是相互独立的,这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年保险行业数字化理赔服务在健康保险中的健康管理服务创新报告
- 行政管理与领导力培养试题及答案
- 行政管理心理学实证研究考点试题及答案
- 整体提升的市政工程试题及答案
- 2025年经济师复习计划试题及答案
- 市政学在社会发展中的作用试题及答案
- 2025年经济法复习问答试题及答案
- 管理心理学中的行为管理试题及答案
- 2025年农村电商农产品上行新模式解析:品牌战略与运营管理报告
- 工业互联网平台计算机视觉缺陷检测技术在2025年电子制造领域的应用创新报告
- 输液反应的应急预案及处理流程课件
- 水稻工厂化育秧技术规程
- 污水处理设备运行记录台账
- 2024年合肥市蜀山区中考二模英语试题含答案
- 抖音团购培训
- (古诗对比阅读)《登幽州台歌》与《登飞来峰》联读设计2022
- 影视特效与栏目包装智慧树知到期末考试答案2024年
- 如何有效地开展集体备课
- MOOC 工程经济学原理-东南大学 中国大学慕课答案
- 湖北省武汉市武昌区2022-2023学年六年级下学期期中数学试卷
- 经济博弈论(山东联盟)智慧树知到期末考试答案2024年
评论
0/150
提交评论