[硕士论文精品]实用问答系统的研究与实现_第1页
[硕士论文精品]实用问答系统的研究与实现_第2页
[硕士论文精品]实用问答系统的研究与实现_第3页
[硕士论文精品]实用问答系统的研究与实现_第4页
[硕士论文精品]实用问答系统的研究与实现_第5页
已阅读5页,还剩54页未读 继续免费阅读

[硕士论文精品]实用问答系统的研究与实现.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要本文是对实用自然语言问答系统的研究与实现的总结,本文得到了国家863计划2001AALL4111、教育部科学技术研究重点项目00128、国家自然科学基金60272055的资助。“我们正受信息淹没,但却渴求知识。”美国著名未来学家J奈斯比特一语道出了生活于网络世界的现代入所面临的困惑与尴尬。现在的搜索引擎已经不能满足人们日益增长的知识信息需求。科研人员正在积极研究探索,以满足在新形势下的客户信息需求。问答系统自始就瞄准这一目标,力图把用户从搜索引擎返回的海量数据中解放出来。问答系统整合了目前多方面的技术自然语言处理、信息检索以及知识表示等。本文就涉及自然语言处理和信息检索相关方面的内容作了深入的研究其一,整合北京语言大学语言信息处理研究所现有科研成果和资源,研究并实现实用的自然语言闯答系统。该系统采用BS架构,可以加载不同的应用,提供相应的问答服务。同时,在现有的检索技术基础上,研究权重设置策略,实现问题的快速准确匹配。其二,对同义词自动筛选进行了相关研究。同义词扩展在很多方面得到广泛的应用,通常的做法是人工预先整理好同义词词表,因此不同的应用领域需要编制不同的同义词词表,增加工作量。本文提出了一种基于3元文法的同义词自动筛选方法,根据具体的应用语境和上下文信息实现同义词的自动筛选,本文给出了其算法并予以实现,最后就其试验结果给予了分析说明。关键词问答系统;信息检索;N元文法HTTP/INFO3DOUCOM/网络营销北京工业大学工学硕士学位论文ABSTRACTTHISPAPERISACONCLUSIONOFOURRESEARCHANDREALIZATIONOFPRACTICALQAQUESTIONANSWERINGSYSTEM,WHICHMAKESPEOPLEUSETHENATURELANGUAGETOASKTHISPAPERISSUPPORTEDBYTHE863NATIONALPLAN200TAALL4111,SCIENCERESEARCHKEYPROJECTOFMINISTRYOFEDUCATION00128,NATURALSCIENCEFOUNDATIONOFCHINA602720S5“WEAREDROWNINGININFORMATIONBUTSTARVEDFORKNOWLEDGE”FMEGATRENDSWHATJOHNNAISBITTSAYINHISBOOKMAKESUEPICKUPTHEPUZZLEANDEMBARRASSMENTFORTHEPEOPLEWHOLIVEINNETWORKWODDTHESEARCHINGENGINECANNOTSATISFYPEOPLESPROGRESSIVELYDEMANDRESEARCHERISDOINGMOREANDMOREWORKFORTHEINFORMATIONREQUIREMENTQASYSTEMAIMSFORTHEDEMANDANDMAKEPEOPLERELEASEFROMTHEHUGEINFORMATION。WHICHISRETURNEDBYSEARCHINGENGINEQASYSTEMSRETURNANACTUALANSWER,RATHERTHANARANKEDLISTOFDOCUMENTS,INRESPONSETOAQUESTIONQASYSTEMISINTEGRMEDBYMUCHTECHNIQUE,SUCHASTHENLPNATURALLANGUAGEPROCESSING,IRINFORMATIONRETRIEVALANDKRKNOWLEDGEREPRESENTATIONWEMAINLYSTUDYONTHENLPANDIRTECHNIQUETHATWASUSEDINQASYSTEMFIRST,WEINTEGRATEDTHERESOURCEANDRESEARCHPRODUCTIONTODESIGNANDDEVELOPONEPRACTICALNATURALLANGUAGEQASYSTEMTHESYSTEMISDESIGNEDUNDERTHEBSSTRUCTUREITCANLOADDIFFERENTAPPLICATIONANDSUPPLYCORRESPONDINGSERVICEWESTUDYTHEPOLICYOFASSIGNINGWORDWEIGHTANDREALIZETHEQUESTIONQUICKLYANDACCURATELYMATCHBASEDONNOWIRTECHNIQUESECONDWESTUDYTHEAUTOSELECTIONOFSYNONYMYWORDTHEEXPANSEOFSYNONYMYWORDWASAPPLIEDINMANYFIELDSGENERALLY,THESYNONYMYWORD1ISTWASBUIITBYMANUALWORKSODIFFERENTAPPLICATIONDOMAINNEEDSDIFFERENTSYNONYMYWORDLISTWHICHSPENDALOTMANUALWORKWEUSETHE3GRAMWAYT0AUTOFINDTHESYNONYMYWORDBASEDONWORDSCONTEXTFINALLY,WEDESIGNEDANALGORITHMANDREALIZEITANDGIVETHEANALYSESOFEXPERIMENTATIONRESULTKEYWORDSQUESTIONANSWERINGSYSTEM,INFORMATIONRETRIEVAL,NGRAMII独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。繇扯R期翘占2关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密的论文在解密后应遵守此规定繇每T名盈牲嗍哔HTTP/INFO3DOUCOM/网络营销第1章绪论所谓问答系统QUESLIONANSWERINGSYSTEM,是指能够对用户输入的自然语言描述的问题给出明确答案的软件系统。本文主要讨论的是关于中文的问答系统。11问答系统研究的现实意义1995年因特网商业化后,迅速在全球普及,除了极少数国家外,绝大多数国家都连接到因特网上,因特网作为一种新型的信息技术平台,已经成为了信息的平台、知识的平台、媒体的平台以及通信的平台,我们已经处于一个数字信息时代。在数字信息时代,人们对信息的需求表现得前所未有的强烈,尤其是在互联网浪潮席卷全球之后,这种需求达到了极至,这可从多个方面得以体现对经营性企事业单位而言,非常关心产品市场、原料市场、竞争对手等等的信息;人们在处理日常生活和工作中的方方面面的问题时,都离不丌对大量信息的需求和有效的查询,比如查询天气情况、火车和航班信息、股票价格和趋势、利用搜索引擎查找网上信息等等。目前,很多的企事业单位设置了咨询热线来回答客户关心的话题,或者是以网站的形式发布企业信息,让用户自己查询。前者,因为是专业人士对问题给以解答,所以用户查询结果准确,并且灵活性强,对企业不利之处在于需要为这种热线咨询服务培训相应的专业人才,增加了开支。而以网站形式发布企业信息,可以节省大量的人力,并随时可把大量的信息组织成网页发布,其长期运行成本较低,对企业而言是降低成本的良策。但对用户而言,只能自己到其网站查询相关问题的答案。然而,对于一个比较大型的网站,涉及到方万面面前内容,给查询者定位所需的内容造成不方便,而查询者总是期望设定个问题马上就得到答案。虽然有些网站能提供查询功能,但也只是具有简单的关键词查询形式,毡就是说,在网页中进行关键词的匹配,把所有含有美键词的内容全部呈现给查询者、这种查询过程存在两个方面的问题一是需要查询者把问题转换为关键词的形式,这对于没有经验的普通查询者而言具有一定的难度,而且关键词的选择不当也会造成有用信息的遗漏;二是由于返回所有含有关键字的内容过多,需要查询者再次浏览和筛选。也正是因为对信息查询的巨大需求,才造就了GOOGL和百度等等一批以提供搜索引擎服务公司的崛起。随着用户需求的不断提高和因特网海量信息的涌现,简单关键词查询的效果越来越不能满足用户的需要。因为现在的搜索引擎不怕找不全,而怕找不准,用户在很多情况下无法直接从大量的杂乱无序的信息有时北京工业大学工学硕士学位论文候甚至是根本不相关的信息中找到自己需要的答案。“我们正受信息淹没,但却渴求知识。”美国著名未来学家J奈斯比特一语道出了生活于网络世界的现代人所面临的困惑与尴尬。如何用一种有效的模式或者系统来满足广大用户的这种的需求,目前而言有着重要的理论与实际意义。12问答系统的发展和现状问答系统的设计目标是用简洁、准确的答案回答用户用自然语言提出的问题。在人工智能和自然语言处理领域,问答系统都有着较长的历史11。1950年图灵发表了计算机能思考吗的论文,并设计了著名的图灵测试“1,即一个人在一间房子里,向另外一间房子里的人或机器提问,但这个人不知道回答问题的是人还是机器,如果这个人根本无法判断出是人还是计算机在回答问题,那么就可以认为计算机具有与人相当的智力。图灵测试首先提出了“机器思维”这个概念,为计算机科学又开创了一个新的研究领域。60年代末到70年代,专家系统出现,使人工智能研究出现新高潮。DENDRAL化学质谱分析系统、MYCIN疾病诊断和治疗系统、PROSPECTIOR探矿系统、HEARSAYII语音理解系统等专家系统的研究和开发,将人工智能引向了实用化。80年代以来,人工智能已进入它发展高潮的黄金时代,而且其研究成果层出不穷,有很多项目获得了重大成果。特别是当前人工智能的一个重要子领域自然语言处理更得到了迅速的发展,目前在这个领域中也显示了技术的商业性应用。问答系统自始至今可以认为经历了以下几种形式,而且目前这几种形式仍然可以见到其身影。121聊天机器人1968年,JWEIZENBAUM在美国麻省理工学院设计的ELIZA系统,或许是基于“模式匹配”的自然语言系统中最有名一个。ELIZA系统模拟一位心理治疗医生机器同一位患者用户的谈话,其实现的算法比较简单,主要是根据用户的关键词检索数据库,找到与之匹配的答案。早期的聊天机器人包括ELIZA,在对话中增加很少的新内容,对大多数用户的回应基本上都是如出一辙,要么做出个简单的回答,要么就是提出一个问题鼓励用户去思考。“我喜欢在网上冲浪。”一般会得到像“很好,那么您为什么喜欢在网上冲浪”这样的应答。最初这些聊天机器人显得非常幼稚。今天,聊天机器人变得成熟起来,有很多的产品嵌入了聊天机器人典型的有MSN,QQ,UC等等,以向用户提供有价值的信息。而不只是小孩似的聊天。图卜L是上海赢思软件有限公司的小I机器人。它可以提供各种各样的信息服务。HTTP/INFO3DOUCOM/网络营销第1章绪论其中“信息查询”菜单下可以提供如下功能查询天气、查询城市信息、列车时刻表、医院等等信息。只要按相应的提示,便可以得到你要的答案。图11小I机器人主菜单FIGURE11MAINMENUOFSMALL1ROBOT目前的机器人基本都是以提供资讯服务为主,与人交谈的方法都属于被动式,AI人工智能都不高。如果今后的机器人都能提高AI,由被动变为互动,那无疑是质的飞跃了。122专家系统随着自然语言处理技术的发展在上世纪80年代问答系统有了较大的发展。但由于受当时条件的限制,问答系统的研究在非常受限的领域。其主要表现形式是以自然语言为人机接口的专家系统。前面提到的DENDRAL化学质谱分析系统、MYCIN疾病诊断和治疗系统、PROSPECTIOR探矿系统、HEARSAYII语音理解系统等专家系统都是比较有代表性的系统。专家系统由知识库、推理机、知识获取、解释界面等四部分组成,知识库和推理机是它的核心。建立知识库的关键是如何表示知识,推理机用于确定不精确推理的方法,解释界面是用户的一个窗口,能够处理各种咨询问题。20世纪80年代初,根据专家系统知识库和推理机分离的特点,研究人员把已建成的专家系统中的知识库“挖”掉,剩余部分作为框架,再装入某一领域的专业知识,构成新的专家系统。在调试过程中,只需检查知识库是否正确即可。在这种思想指导下,产生了建立专家系统的工具,或称专家系统开发工具、专家系统外壳、利用专家系统开发工具,某领域的专家只需将本领域的知识装入知识库,经调试修改,北京工业大学工学硕士学位论文即可得到本领域的专家系统,无须懂得许多计算机专业知识,使得专家系统得到了蓬勃发展。专家系统的优点是技术成熟,而且目前有多种开发工具,答案准确;松散的耦合结构,推理机、人机界面与知识库完全分离。其缺点是系统推理方法单调简单,只能做演绎推理,没有常识推理能力在不同的领域,需要不同的专家知识库作支撑,超出这个领域便无能为力。目前自动知识获取是知识工程的一大瓶颈,所以专家系统中的知识如果仅靠领域专家人工组织远远不能满足需要,这也是专家系统不能更进步发展的主要原因。123基于知识库的问答系统近来,由于网络的普及和大规模文本处理技术的成熟,人们获取信息的速度和数量都是以前无法比拟的。然而,随之而来的效率低下问题也日益突出,人们不得不在搜索引擎提供的大量的相关或不相关的链接中寻找有用的信息。在这种情况下问答系统的研究进入了一个新的阶段。TRECTEXTRETRIEVALCONFERENCE是国际上著名的文本检索会议,它于1999年第一次设立QATRACK。自其设立以来就吸引了众多的科研院所和公司参加,其中包括微软、IBM、卡耐基梅隆大学等知名跨国公司及大学。国外开发的相对成熟的问答系统有,麻省理工的STARTHTTPSTARTCSAILMITEDU,以色列公司GURUNET的ANSWERSWWWANSWERS,COM等等。国内也有不少大学和研究所正在进行问答系统的研究。复旦大学就曾参加TREC9的QATRACK,哈工大也在这方面做了一些研究,北京语言大学语言信息处理研究所开发了基于百科全书的问答系统。中科院计算所正在进行的大规模知识处理科研项目NKINATIONALKNOWLEDGEINFRASTRUCTURE中的一个具体应用就是NKI知识问答系统。用户可以通过自由的自然语言提问方式对国家地理知识库、城市天气预报知识库、人物知识库等23个知识库的知识进行查询。该类系统响应用户自然语言方式的提问,并能给出准确的答案;缺点是为了达到较好的效果,需要大量的人力物力建立大规模的知识库。124基于信息检索的问答系统在开发基于知识库的问答系统时。知识库的建设成为一大瓶颈。如何利用现有的搜索引擎强大的搜索能力,从检索结果中查找用户问题的答案,成为多家大学和公司研究的热门问题之一。密歇根大学的ANSERBUSWWWANSWERBUSTOM和ASKJEEVESWWWASKCORN公司的自然语言检索系统便是这样的系统。从用户的使用经验来讲,ASKJEEVES推出的智能搜索SMARTSEARCH取得了很大成功,HTTP/INFO3DOUCOM/网络营销第1苹绪论其特点就是可以针对普通问题直接返回答案,例如下面的查询用例用户WHATISTHECAPITALOFCHINAASKJEEVESTHECAPITALOFCHINAISBEIJING见图12而对于一些复杂的问题,当ASKJEEVES无能为力的时候,他返回的结果和GOOGLE返回的结果类似,给出可能包含答案的一些链按。与ASKJEEVES不同的是,ANSERBUS给出的不是一个具体的答寨,而是有可能包含答案的10个句子。对如上同一个问题,ANSERBUS给出的答案如图13所示。显然,对这个问题,ANSERBUS系统给出的答案明显不如ASKJEEVES,它给出的答案多是关于中国风险投资中心的答案,而不是中国首都的答案,由此推测其对问题处理也是关键词模糊匹配的技术。图卜2ASKJEEVES对用户问题“WHATISTHECAPITALOFCHINA”返回结果FIGURE12ASKJEEVESRETURNEDRESULTFORTHEQUESTION”WHATISTHECAPITALOFCHINA北京工业大学工学硕士学位论文。M帅LH三E。T。T磊TLCHI署NAJ署I翻MM日“_TYPEINYORE甲删NOLLUIENGLISH,FRENCLLJSPMLISHG棚NAAIHMANOFPOM别E池QUESTIONW11AE18THECAPITALOFCHINAPOIIBLER111SWERSZ唑125工11WILLALSOTRYTOCOLNO刹ECHINA。SVEFLTURECAINTALINDUSAVWITHALLIOFELLLATTLFEV乜LTTLRCCAWFITALINDUSTRYSUCHASTIMLINTHEUSWHILEHI曲LI幽TIN2STIIICDIMCULTUROBL蚰博THATVENTLLLTCAOITALFULLTGINCHILMHAVETOCONFRONL2THEANMWISMLTHEMAKETIZSTIONOFCAPITAIINCHINSCMBEGTARTEDFROMEITHEROFTHEFOILOWILM8SOCCTSCOITALDISRIBTTTIMXOFITSFLOWANDCAEITALACTMISIFION01“REGOLLLEES3矗矗WAGREOORTED鲥抽出AIUC栅MEFCOPOIOMIXMDMMSTVSINCEY刎EEHMDUFOF国妇CALTCDJTML_LRCAOITAL0INCZDDMSTVSINCETHEHOFMHMINL644THECUNETLTCAITALOFTHEPEOOLESRUBLICOFC扯坩4CHINSINTMUTIOTMLCMFITAICOMORATIOATCITINAINTMMTIORMICAOITALC011FCICFONNEDJNL995ISAIOINTVENTUREBD啊伦TMTHECHINACOTMTMCTINCTBANK蛐DM删_ANST|MLEV5TILITDD腑VENTMECAAITALASSOCIETIONFCVM1ISAMEMBERBASEDTRADEOR_OMFIZATIONEGTABLISHEDTOOROMOTETHEINTDESTMDTHEDEVELOMRMSOFVEFTTHRECAOITALANDRIVATEEMFITVHMUSOV血THEGREATERD血怕RE口IOTR6ITISOBVIOUGTHATHTDHCID札CAOITALNUEKETGWILLBE柚INMEDHR帕1TTOTHEDEVELOMNENTOFE衄。GVETTTTLRECAPITALM自L龇7THESOITEDVDEVELOOMENTOFTHECAOITALMMKETNOTONIVOROVIDEDATRONLZSTLL,OORTOFFITNDSFORALINAS廿ONOFILICMOWTHBUTALSOREMMKABLVDLOLLLOTEDTHEMARKETIZATIONOFCAOITAIINCHINA8,“111ECLMMVENTURECAOITSLASSOCIATIONI协SCUICKIVESTABTIMIEDITSELFAGTHENLOGIILLLOOTTALLTVETDLLRECAPITALOMANLZATIONIILCHTHA”SAIDLANVCHEN口SENIORASSOCIATEBARTERYVENTNRES9EMAILBATTELVV山R。嚣JOMGCHITMVENTULCCMORAL如SOCIATIONCHINASPREMIERVENUUCCAT,ITALORMLTTIZATION10THECHI珊VE叫AUECANITALASSOCIATIONHASAUICKIVESLABLISH。DITSEIFAGTHELLLOSTIMOORTMLTVELTTROCAOITALORMNIZATLONIHCHINASAID【删CHA他SENIORASSOCIATEBATTERVVEATTUESTRYYOURQUESTIONOILOTHERRAIN笪纽望曼L璺ICNNNEWSE避INEIB峨L醴I鱼业啦IHOTBOTL燃ISTARTI盟蛆虹1YAHOO图13ANSERBUS对用户问题“WHATISTHECAPITALOFCHINA”返回结果FIGURE13ANSERBUSRETURNEDRESULTFORTHEQUESTIONWHATISTHECAPITALOFCHINA”目前,有越来越多的公司也加入到该领域,开发和IR信息检索结合的问答系统。目前,国外无论从各大公司还是教育科研机构对问答系统的研究都非常的深入,取得不少喜人的成果,并有相关的产品发布。对于中文问答系统而言其研究和开发的进展不是很快。其缘由也和中文处理的复杂性有着非常密切的关系;同时,中文问答系统是集自然语言处理、知识表示、信息检索等为一体的智能系统,它的发展将大大取决于这些领域的进步。1。3问答系统研究的基本思想从12节可以看到,目前问答系统形式上的多样化。按知识库来源,问答系统可以分为2大类一类是以加工好的知识数据库为知识源,一类是以因特网为知识源。有的系统是二者的结合。传统的问答系统基本上按三个模块处理问题分析、文档检索、答案抽取。问答系统基本上都要进行用户问旬的分析,在本文中称之为问题分析A问题HTTP/INFO3DOUCOM/网络营销第1章绪论分析模块的主要功能是力图理解用户查询。其中包括以下几个环节问句的预处理,问句分类,关键词抽取等。根据抽取出的关键词,文档检索模块负责从文档数据库中检索相关的文档此处文档的概念是广义上,包括整个文档或者是段落篇章。由返回的文档,答案抽取模块从相关文档中抽取答案并同时排序,返回精确的答案。本文研究的系统也是三个模块,不过却与上面提到的三个模块不同。对多数问答系统的技术路线分析可以得到,其问题分析是拆解用户的自然语言提问,形成关键字序列,利用信息检索的技术检索相关文档。因此我们的做法是直接利用信息检索技术对问题进行匹配。答案抽取部分是问答系统的主要瓶颈所在,这个模块设计实现的好坏对问答系统效果产生决定性影响,我们是利用知识抽取的技术结合人工,半自动的方法加工精确知识库。比起单纯的利用知识抽取的技术其答案要精确的多。这两点也是本文开发问答系统与多数问答系统不同的主要的2个方面。14本文主要内容第二章首先介绍了问答系统的基本框架,多数系统采用的基本处理流程,对其中的问题分析、文档检索和答案抽取进行了分析介绍。第三章对问答系统中涉及到的常用技术进行了分析介绍。其中涉及自然语言处理技术中的分词和词性自动标注,信息检索的相关框架和常用的检索模型A对目前应用越来越广的XML技术给与简单的介绍。第四章提出了本文开发实现问答系统的框架设计、模块设计等主要技术。并讨论了从数据组织、管理到检索方面的特点。第五章主要讨论了本文在动态选择同义词方面的研究工作,采用基于RL元文法的方法,在同义词自动筛选上进行了些有益的尝试。第六章对本文实现的问答系统实际运行效果的分析与探讨。北京工业大学工学硕上学位论文第2章问答系统的系统分析21问答系统的基本框架如13节所介绍的,多数问答系统基本采用3个模块问题分析,文档检索,答案抽取。整个过程可以用下图2一L来表示系统接收用户自然语言形式的问题,通过问题分析模块来理解问题,主要是弄清用户问题的问句类型,期望的答案等,同时把问题转化成关键词的序列,提交给文档检索模块。文档检索模块利用信息检索的技术去文档库中检索相关文档,按文档的相关度排序输出,提交答案抽取模块。答案抽取模块对返回的文档进一步分析,选择相关的段落或者句子作为答案,排序后返回给用户,完成一个问与答的过程。关键词抽取FI问句分类F问旬预处理答案抽取I答案排序答案处理输出22问题分析图21问答系统处理流程图FIGURE21QUESTIONANSWERINGPROCESSINGFLOWCHART问题分析的最主要目的是力图理解用户的问题。现在,要计算机从语义的角度去理解用户提交的问题还有很大的难度,因此多数问答系统还是采用拆解用户HTTP/INFO3DOUCOM/网络营销第2章问答系统的系统分析问句形成关键词的技术。问题分析涉及到多个方面,如图21所示,主要的有3个问句预处理,问句分类,关键词抽取。221问句预处理问句预处理主要是对用户的问题进行分词,这是自然语言处理在问答系统上应用的体现之一。在计算机产业中,唯有中文信息处理技术是我国的专长,在国际上拥有得天独厚的优势,这是任何国家也不可比拟的,对于其中的中文分词领域也是一样。目前,国内各大高校北京语言大学、北大、清华、中科院等等或者一些公司微软、IBM以及国内的海量科技等等都在这方面进行相关的研究,并开发相关的分词系统。问答系统通过本身的中文分词模块,把用户的问题变成了一个词的序列串,作为后续处理的基础。有的问答系统还对词的词性进行了标注,以求得更好的问题分类及其关键词抽取效果。222问旬分类在问答系统中问句分类的目的是确定答案的语义类别以及对问句的分析采用何种策略。问句分类是整个问句处理中最重要和最关键的一步,对后面的各项处理有着很大的影响。在大多数问答系统中,相当大的一部分错误就是因为对问句分类的不正确造成的。同时,确定问旬类型和要搜索的答案类型之后,就能运用一些特殊的策略去分析问句和搜索,生成答案。从汉语言学语法上来说,一般疑问旬根据其结构特点和所表达的疑问语气,可以分为四类”1L、是非问句是非问句是提出问题,要求别人回答“是”或“否”的疑问旬。是非问句中经常使用的疑问语气词有“吗、吧、啊”等,但不能使用“呢”。例如“你真的要走了”。2、特指问句特指阊旬是用疑问代词代替未知的部分进行提闯,要求对方针对未知的部分做出回答的疑问句。特指问句只能使用“呢、啊”等语气词,不能使用“吗、吧”。例如“你是从哪里来的,要往哪里去”。特指问句还可以由名词性词语和疑问语气词“呢”构成,不用疑问代词,例如“钢笔呢”。3、选择问句选择问句是提出两神或两种以上的情况,让对方从中进行选择的疑问甸。北京工业大学工学硕士学位论文选择问句经常使用“A还是B”、“是A还是B”等固有格式。使用疑问词时,选择问句常用“呢”,一般不用“吗、啊、吧”。其实,选择问旬又可以分为5种情况,其一,肯定前者型,它是在几个选项中对前项做出肯定的回答,例如“吴祥子对啦坐下谈谈吧你们是要命呢,还是要现大洋”老舍茶馆;其二,肯定后者型,它是在几个选项中,对选择后项做出肯定的回答,例如“桂爹从人群中跳起来骂道胡说八道,是解闷还是灌毒”王子硕评工会上其三,全部肯定型,这一类型对供选择的几项全部加以肯定,而不是只肯定部分。例如“白杨在迎风呼号,那是为老汉在呜咽,还是为这不平在愤怒”穆青等为了周总理的嘱托;其四,全部否定型,这一类型对方对供选择的几项只能全部否定,一项也不好肯定。例如“我说大哥,你是逞强来了,还是赌气来了”管桦将军河其五,不置可否型,这类型无须或无法作出明确肯定的回答,提出选项仅是供读者思考,或是引出话题等。例如“然而她是从四叔家出去成了乞丐的呢,还是先到卫老婆子家然后再成乞丐的昵那我可不知道。”鲁迅祝福。4、正反问句正反问句使用肯定和否定并列的方式进行提问,希望对方从肯定和否定的内容中做出选择的疑问句。正反问旬一般不使用疑问代词或疑问语气词。需要时可用“呢、啊”,一般不用“吗、吧”。正反问句常用的有三种格式其一。V不没V,例如“你去不没去听讲座”其二,V不没,例如“他明天来不”;其三,V不V,例如“先把自行车借我骑骑,行不行”。了解以上这些问旬的形式现象,有助于我们准确把握选择问句的内涵,制订相关策略。当前的问答系统多是对特指问句类进行处理,对于是非问旬和正反问句也能在一定程度上处理,对于选择问句多数情况下则较难处理。在本文中,不特别指明的话,一般指的问句是特指问句。在问答系统中,通常的做法是对用户的问题按查询地点、时间、入等等分门别类,同时,对不同的问题制定相应的答案类型,使之一一对应,为下一步的答案抽取奠定基础。在不同的问答系统中,用户问题分类情况不尽相同表24一种分类方法。3表25是另类分类方法“。HTTP/INFO3DOUCOM/网络营销第2章问答系统的系统分析翘艨类蓥妻疑何谒簪寨类塑镝子谶,磷个人,雄个人名,专谶发明了蒸汽铷婀A有名弼,描述机曝登人什么时靛,年,胄,髓,人类邢年登上谶阔时阃何时,年星期月球臻,薅甩,仔地点,位置器M在我臻哪谗阍地点幺谶身国家,雀,个省帘嚣霉爹|丸I多沽胃艾黎承铁诲阀数量披T太多离塔育劳离7是什么,什扦幺是氮基询间定义邈义,描述么蔗藏为什么,悬天为什幺整簸诩阔焉田磊因耀幕困孵其他表21常见问题类型及其答案类型TABLE21FREQUENTQUESTIONSTYLEANDITSANSWERINGSTYLE类鄹疑翔词A翱,岫M谁,什么入,雾个运动员簿动构、组织鳓。崎ECL什么。葬种汽车等地J打KA蜘N什么地方,唪里,噼儿笱数勘铆嘣畸多少,多长,多大。多高等时阀TTE什么时阉卅么时候,侮时等原因,L妇1什么原因,为什么锦接述,D啦鼬N怎样,怎么样判断,JI唾粗我有疑簿词表22问分类型从上两个表,IPA看出,其问旬分类体系基本差不多。问句分类多是按照疑问词类型来确定的。有时,在有些问题上会存在一些问题,关于询问人的问题就是需要特别注意的地方。例如下面2个问题1谁发现了万有引力2谁是牛顿前面一个问题是问的一个具体的人,其对应的答案应当是个人名,或者说其问题类型为PERSON而后一个问题其类型多数为描述型,答案应当是对牛顿本人的一个描述性的片段。可见,同样的疑问词“谁”,其归属于不同问题类型,自然其曼舅_I_IL_I北京工业大学工学硕士学位论文曼曼曼舅_2答案类型也不同。223关键词抽取关键词的抽取影响到后面的检索效果,多数的问答系统都把名词、动词、形容词、限定性副词作为关键词,因此很多的问答系统【3】I5】分词的同时还进行词性标注,以从词性上确定部分关键词。也有些问答系统是把停用词以外的所有词作为关键词。词性标注也是自然语言处理研究中一项基础性的课题,所谓词性标注就是在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程。汉语是一种缺乏词的形态变化的语言,词的类别不能像欧美语言那样,可以直接从词的形态变化上来判断。还有就是常用词的兼类现象严重,都造成自动词性标注的准确率的下降。问答系统中的关键词不同于检索系统中的关键词,有些作修饰性限定性成分的词必须出现在答案当中,而多数的检索系统只是将关键词序列交与检索接口去检索。因此在很多的问答系统中把关键词分为两类一般性关键词和必须含有的关键词。一般性的关键词可以不在答案中出现,而必须含有的关键词必须在答案中出现。例如“中国第一大河是哪一条河”,“中国”是对地理位置的限定,“第一大”是对河流地位的限定,在作关键词分析的时候必须包含。其中“1对于一些限定性成分还进行了分类,以求更好的分解关键词,见表26。K箍蚰哦A岫尹叮A雌时鸸M,蝰点B妇,名词缀语1997年,北京事物硐耐,人牺融M动词掇谮事件B雠进入太空蛙蜘面M,删形容词蒯词最快最多最长母SPED,H喀H。”其他是非雕晤,糖序QDEF不,第一表23限定性成分分类表TABLE23TABLEOFMODIFIERSTYLE问答系统的数据库容量相对于网络搜索引擎的网页库而言显得非常小,为了提高系统的召回率,有的问答系统还对关键词做了扩展。多数采取两种策略进行扩展其一,利用同义词词林看具体应用领域给予调整,一般的问答系统依据同义词词林,人工选择和应用领域相关的词。其二,利用问题类型进行关键词扩展,比如,“泰山在什么地方”,这个问句属于询问地点的,可以在地点类问HTTP/INFO3DOUCOM/网络营销第2章问答系统的系统分析题中预先设置部分关键词,如处于,位于,位置等和位置有关的词语。在网络搜索引擎上,由于目前返回结果数目已经非常巨大,因此对于关键词则很少作扩展。对关键词的扩展要慎重进行,否则可能造成系统的准确率急剧下降。23文档检索根据223给出的关键词,由文档检索模块负责到文档数据库中检索相关的文档。文档检索模块返回的是一些已经排序的相关的文档。文档检索模块多是充分利用目前成熟的信息检索技术实现的,当然,有的是调用别人已有的检索系统比如SMART系统,或者也可调用搜索引擎比如GOOGLE、百度、中搜等。如果是利用自己的检索模块,那么,文档检索前期有很多的装备工作。其一,网页的抓取。网络机器人或者称网络爬虫从一个或多个网站开始,搜索指定主体的网页,下载到网页数据库中存储。这是搜索引擎的核心技术之,其关键在于如何快速准确的下载到无重复的有价值的网页。其二,网页库的索引。对下载到本地的网页先进行预处理比如去除重复的文档、分词,提取相关网页信息,包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度或重要性,然后用这些相关信息建立网页索引数据库。当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名就越靠煎。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。一般搜索引擎返回的都是按相关度排名的一些链接,用户可以通过查看链按下的部分网页内容,选择感兴趣的某些链接。问答系统中返回的文档可以是整个相关的网页,也可以是一个包含问题答案的段落,也可以是包含答案的句子。若返回的是整个文档的话,还是需要用户从中查找答案。若抽取段落或者句子,则减少用户的工作量。对整篇文档的检索,主要是利用由问题处理部分产生的关键词序列进行查询,由检索模块给出按相关度排序的有关数目的文档,这和搜索引擎是一样的处理技术。对于段落检索,是从已经检索得到的相关文档中选择最相关的一定数目的段落,并按照段落的相关度排序返回“7。返回句子的话,处理类似于段落检索,它是从相关段落里抽取出相关的句子。有的问答系统不是采用上述方法,而是在索引之初就做好相关的处理,即对于返回段落的问答系统按段落建立索引;返回句子的问答系统按句子建立索引。北京工业大学工学硕士学位论文24答案抽取如23介绍的,有的系统抽取段落或者句子见前面的图13作为用户问题的答案给予返回,这主要是利用知识抽取的技术。这是问答系统中技术最难的部分,也是问答系统瓶颈所在,各问答系统的抽取答案的策略各不相刚5,918】。由23检索到可能包含问题答案的若干句子,答案抽取的任务就是从这些相关性比较高的句子中找到定数目问题答案的句子返还给用户。采取的策略多为依据前面抽取的关键词,命名实体进行模式匹配。25本章小结本章就问答系统的框架,常见的处理过程给以分孝厅介绍。问答系统多以三部分组成问题分析、文档检索、答案抽取。问题分析模块试图去“理解”用户的问题,然后交给检索模块去检索文档,答案抽取模块从返回的相关文档中抽取问题的答案。HTTP/INFO3DOUCOM/网络营销第3章问答系统常用技术分析第3章问答系统常用技术分析问答系统是个集自然语言处理、知识表示、信息检索等为一体的智能系统,涉及到的面非常广泛,现就其中常用的技术介绍如下。31自然语言处理有关技术应用人们最终的愿望是实现与机器的自然语言的自由交流,这个目标目前还很遥远,其中与人工智能的研究发展密不可分,再有,与自然语言处理技术的研究也有着非常大的关系。自然语言处理研究很多的技术是基础性的,其进展对很多的应用系统有着决定性的影响。其中在问答系统上主要涉及到分词和词性标注。311分词由于中文不像英文等西方国家语言,其书写是连贯不问断的,因此分词是中文信息处理首先遇到的问题,词的正确切分是进行中文文本处理的必要条件。近年来,随着中文应用领域软件的不断发展,分词的要求也越来越高。现有的分词常用算法可以分为二类基于字符串匹配的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也叫机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,识别出一个词。基于字符串匹配的分词包含三个要素词典、文本扫描顺序和匹配原则。词典是判断一个字符串是否成词的根据所在。若按文本扫描顺序的不同,串匹配分词方法可以分为正向匹配和逆向匹配。假设现有一个待切分汉语字串W,取其中M个字符作为匹配字段,M是词典中最长词条的汉字个数。正向匹配就是从字符串W的起始位置开始扫描,而逆向匹配则正相反。按照不同长度优先匹配的情况,可以分为最大最长匹配和最小最短匹配,最大匹配就是首先对W中的M个字符进行匹配,即到词典中去匹配,匹配成功则认为这M个字符为一个词,然后再分析W中的下一个M个字符,否则,从M个字符中剔出最后一个字,再到字典中去查找匹配,重复上述过程,直到分词成功。最小匹配则是想得到较少数目的词。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。平时用的比较多的机械分词方法是正向最大匹配分词法、逆向最大匹配分词法和两者的结合方法双向匹配分词法。双向匹配分词法在北京工业大学_学碗士学位论文一定程度上能解决交集型歧义问题,一般是对文本进行正向最大扫描和反向最大扫描两次,其中结果不一致的地方,则认为是歧义字段。例如下面的例旬“北大更需要精神层面的开放”其正向和逆向最大匹配的结果分别为正向最大匹配结果“北大更需要精神层面的开放”逆向最大匹配结果“北大更需要精神层面的开放”由此可以发现歧义字段“层面的”。简单的做法是对于语料中所有出现“层面的”地方统统先给与剔除,然后统计“层面”和“面的”出现的次数,按其概率的高低来决定,这种策略能够满足部分的需求。更精确的解决歧义的算法目前很多高校也正在研究与实现中。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为11169,单纯使用逆向最大匹配的错误率为1245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。有很多人在机械分词上作了改进,提出了很多改进的分词算法。机械分词方法简单,容易实现,在一些系统中能够满足其应用的需要;缺点是需要一个大容量词典的支持,匹配速度慢,还有对未登录词处理能力不够。基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。对于字符串X和Y,其互信息MULUALINFORMATION的计算公式如下MIX,YLOG,堕生31。PXP,其中,PX,Y为字符串X和Y共现的概率,PX和PY分别为字符串X和V出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如这一J、F之一J、F有的J、F我的J、F许多的J等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典常用词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又HTTP/INFO3DOUCOM/网络营销第3章问答系统常用技术分析利用了无词典分词结合上下文识别生词、自动消除歧义的优点。单纯的使用一种分词算法很难取得令人满意的结果,多数的分词系统都是多种分词算法的结合体。有更多的人在现有的分词算法基础上提出了很多新的分词算法,并实现了相应的系统“”,但目前在分词上还是存在相当大的问题。目前分词中存在的问题当前中文分词中还存在很多的问题有待于解决“一是分词单位的确认,二是关于分词算法中的困难。分词单位的确认。目前在汉语语言学界对词这个概念就纠缠不清。关于词的抽象定义和词的具体界定,迄今没有个公认的、具有权威性的说法。随着信息化的建设对中文分词的社会需求也越来越迫切,正是在这种状况下,为了服务于不同的领域,不同的分词系统各自建设自己的分词标准,来满足工程性的需求。这样的后果便是使得每个分词系统的通用性、适用性普遍不足,同时,也很难用一种统一的评价标准去衡量每个分词系统的优劣。分词算法中的困难主要表现在两个方面一是歧义切分问题,二是未登录词识别。由于歧义字段在中文文本中的普遍存在,使得歧义切分是中文分词系统中不可避免同时也是一个比较棘手的问题。从构成形式上来讲可以分为交集型歧义和多义型歧义。例如“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”,这种称为交集型歧义。像这种交集型歧义十分常见11做过统计,每1000字平均有16次交集型歧义字段出现,而且在现在的分词系统中的识别率也很高。对于多义型歧义问题要复杂的多,例如下面这个2个句子“现在差十分七点”。“校园环境十分优美。”同样是“十分”,不同的语境不同的切分。该类歧义的切分需要有上下文信息作参考,有些文献提出利用句法和语义方法来切分处理,取得了很多有参考性价值的论文成果;当然,也有人对传统句法、语义在歧义消解上效果持不乐观的态度,更倾向于基于大规模语料的统计方法112L。本文无意评论孰优孰劣,只是列举当前的些观点。另外,还有一种是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。未登录词多包括中外人名、地名、机构名以及随着社会发展的新词语等等,多是那些在字典中都没有收录过,但又确实能称为词的那些词。对于该类词的识别也是分词系统有待于提高的一个重要方面,从表31表32评测结果数据可以北京工业大学工学硕士学位论文_鼍置曼量曼量皇“WI看出目前问题存在的情况如何该表数据是年LO月27同,中文与接口技术测评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论