[硕士论文精品]计算机领域中文自动问答系统的研究_第1页
[硕士论文精品]计算机领域中文自动问答系统的研究_第2页
[硕士论文精品]计算机领域中文自动问答系统的研究_第3页
[硕士论文精品]计算机领域中文自动问答系统的研究_第4页
[硕士论文精品]计算机领域中文自动问答系统的研究_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着互联网的迅速发展,网上信息越束越多。搜索引擎的发展在很大程度上方便了用户对信息的查询用户只需输入关键词,搜索引擎就可快速地找到相关网页。但是同趋增多的网络信息,使得用户很难迅速从搜索引擎返回的大量信息中找到所需内容,因此,人们对网络信息的检索提出了更高的要求,希望能够通过搜索更快速、准确且详尽地获得自己需要的信息。自动问答系统正是为了满足人们这种愿望而发展起来的。自动问答系统综合运用了各种自然语言处理技术,涉及计算语言学、信息科学和人工智能等多门学科,是计算机应用研究的热点之一。它允许用户以自然语言输入问句,返回给用户一个简短而准确的答案,这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。本文根掘计算机领域的特点,设计并实现了一个面向计算机领域基于常用问题库的中文问答系统。本系统主要包括分词模块,问题理解、常用问题库三个部分。分词技术是自然语言理解的一个关键技术,分词结果的好坏直接影响着对用户问题的理解程度;问题理解是要掌握用户的提问意图,问题理解包括问题的分类、关键词的提取和关键词扩展;常用问题库保存了用户常问的问题和相关的答案,对用户以自然语言输入的问题,系统能够自动地在常用问题库中寻找候选问题集,通过计算句子语义相似度,找到相似的问句,并将匹配问题的答案返回给用户。在本系统中,问题库中问题的大小,关系到整个系统的性能,因此,我们设计了良好的接口,可以方便地更新和维护FAQ库。最后本文还介绍了整个问答系统的实现和试验结果及其评价。关键词常用问题库,自然语言处理,语义相似度,自动分词HTTP/INFO3DOUCOM/网络推广ABSTRACTASINTEMETPOPULARIZES,MOREANDMOREINFORMATIONAREAVAILABLEONLINETHEDEVELOPMENTOFSEARCHENGINESHELPSPEOPLETOSEARCHINFORMATIONCONVENIENTLYUSERSNEEDINPUTKEYWORDS,ANDTHENSEARCHENGINESRETURNSOMERELATEDWEBPAGESBUTWITLLTHEOVERWHELMINGINFORMATION,USERSFINDITVERYDIFFICULTTOFINDTHEINFORMATIONTHEYNEEDQUICKLYTHEREFORE,THEYPUTFORWARDTHEHIGHERREQUESTUSERSHOPETHCYCANFINDTHEINFORMATIONQUICKLBACCURATELYANDEXHAUSTIVELYQUESTIONANSWERINGQASYSTEMISDEVELOPEDTOMEETPEOPLESDEMANDQASYSTEMCOMBINESALARGEVARIETYOFNATURALLANGUAGEPROCESSINGFNLPTECHNOLOGIESITINVOLVESSEVERALCOURSES,SUCHASCALCULATIONLINGUISTICS,INFORMATIONSCIENCEANDARTIFICIALINTELLIGENCESOQASYSTEMISAMONGTHEVERYHOTRESEARCHDIRECTIONINTHEFIELDOFCOMPUTERAPPLICATIONINQASYSTEM,USERSCANASKQUESTIONSINNATURALLANGUAGES,SYSTEMWILLGIVEUSERSCONCISEANDACCURATEANSWERSSOUSERSCALLFINDTHEINFORMATIONTHEYNEEDCONVENIENTLY,QUICKLYANDACCURATELYACCORDINGTOTHECHARACTEROFCOMPUTERKNOWLEDGE,THISPAPERDESIGNANDREALIZEACOMPUTER_DOMAINAUTOMATICCHINESEQASYSTEMBASEDFREQUENTLYASKEDQUESTIONFAQOURCHINESEQASYSTEMHASTHREEMAINPARTSWORDDIVISION,QUESTIONANALYSISANDFAQTHEWORDDIVISIONISTHEPIVOTALTECHNOLOGYOFNLPTHEQUALITYOFWORDDIVISIONAFFECTSDIRECTLYTOTHECOMPREHENSIONDEGREEOFUSERSQUESTION;QUESTIONANALYSISISUSEDTOCLARIFYTHEINTENTIONOFUSERSQUESTIONQUESTIONANALYSISINCLUDESQUESTIONCLASSIFICATION,KEYWORDSELECTIONANDKEYWORDEXTENSION;FAQSTORESTHEMOSTFREQUENTLYASKEDQUESTIONSANDTHEIRANSWERSFORUSERSQUESTIONS,QASYSTEMCANSEARCHQUESTIONSETINFAQ,FINDTHESIMILARQUESTIONACCORDINGTOSEMANTICSIMILARITYFORSENTENCE,ANDGIVETHEMOSTRELEVANTANSWERTOUSERINOURSYSTEM,THESIZEOFFAQISVERYIMPORTANT,WHICHAFFECTPERFORMANCEOFTHEWHOLESYSTEMSO,WEDESIGNPRACTICALINTERFACETOUPDATEANDMAINTAINFAQATLASTTHISPAPERINTRODUCESTHEREALIZATIONOFOUTQASYSTEMANDTHEEVALUATIONOFTHESYSTEMKEYWORDSFREQUENTLYASKEDQUESTIONFAQ,NATURALLANGUAGEPROCESSINGNLP,SEMANTICSIMILARITY,QUESTIONANSWERING,独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得盘鲞盘鲎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名球本确签字闩期加“年2月2年日学位论文版权使用授权书本学位论文作者完全了解苤盗盘鲎有关保留、使用学位论文的规定。特授权垂盗蠢鲎可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。保密的学位论文在解密后适用本授权说明学位论文作者签名苏癣两翩躲别签字日期加6年2月Z年EL签字同期御6年L,月日HTTP/INFO3DOUCOM/网络推广天津大学硕十学俯论文第一章绪论第一章绪论随着工联网的迅速发展和广泛普及,网上信息越束越多,呈爆炸性增长;网上的信息又是开放的,这等于说任何一个用户都拥有海量的信息。网络的普及使人们对网上信息的应用需求不断提高,人们已经不再满足网络世界中简单的漫游,而是希望通过搜索更快速、准确而详尽地获得自己需要的信息,这极大地推动了自然语占处理技术的发展。自动问答系统币是为了满足人们这种愿望而发展起来的。11本文研究的背景和意义如何在庞大的互联网上获得有价值的信息已成为我们同益关注的问题。随着搜索引擎技术的发展和普及,无论是哪方面的内容,用户只要输入关键词,搜索引擎都能快速地找到相关网页。但是网络信息爆炸式的增长,使得只是通过关键词简单组合来表达搜索需求的搜索引擎返回给用户数以万计的网页信息,两用户不可能迅速的数量庞大的网页中找到自己所需要的内容。面对如此庞大却无用的信息,用户不再满足现状,因而对互联网提出了更高的需求,即快速、方便、准确的获得自己需要的信息。为了克服传统搜索引擎的弊端,国内外一些有实力的科研机构和大公司正在探索新的检索技术,新的信息检索方式和搜索引擎呼之欲出,开放域问答式系统就是这样新型快捷的检索方式。自动问答系统简称问答系统或自动问答既支持自然语言句子提问,又可以为用户直接返回所需的答案,而不是相关的网页。所以,问答系统能更好地满足用户的检索需求,能更快地找出用户所需的答案。可以说,问答系统就是耨一代的搜索引擎。对于问答系统,用户不需要把自己的问题分解成关键字,用户可以把整个问题直接交给问答系统。问答系统结合自然语言处理技术,通过对问题理解,能够直接提交给用户想要的答案。问答系统就像个知识渊博的专家,可以快速准确地回答任何问题。比如,用户提交一个问题“中国的首都是哪罩”问答系统将会直接给出答案“中国的首都是北京”。可以看出,问答系统要比传统的搜索引擎方便、快捷、高效。在网络信息交汇频繁的今天,每个国家都在积极探索解决本国语言信息处理的问题,随着中国网络用户的不断增加和国家综合国力的R益增强,中文问答系统也将具有无限的应用前景。本文设计并实现了一个面向计算机领域的中文自动问答系统,该系统一方面天津大学硕士学位论文第一章绪论为以问题答案形式存储信息的知识库检索提供新的问题匹配方法,另一方面也为下一步进行基于网络信息检索和数据挖掘提供新的途径。12国内外研究现状分析著名的英国数学家图灵很早就提出了“机器智能”的概念,并且提出了一种用自然语言问答的方式来判断计算机是否具有智能的方法,这种方法就是最早的问答系统模型。问答系统在80年代的自然语言处理领域曾风行一时,研究者们为了实现机器智能化,开始探索语言理解技术,研究自然语言问答系统。最近几年,随着网络和信息技术的快速发展,人们想更快地获取信息的愿望促进了自动问答技术的快速发展。有越来越多的的公司和科研院所参与了自动问答技术的研究,例如IBM、SON等著名的大公司。1999年,文本信息检索TREC一8会议首次开始了对问答系统的评测QUESTIONANSWERTRACK,TREC是美国国家标准技术局和国防部高级研究计划局赞助并组织的文本信息检索领域的一个国际性标准评测会议,TREC评测方法有效而可行,并且数据规模庞大,在学术晃有着相当的权威性。此后,有越来越多的高校、科研机构和公司研发的问答系统参加TREC的测评,QATRACK极大的促进了问答系统的发展。目前,国外已经开发出一些相对成熟的问答系统。1993年诞生了第一个面向网络的问答系统START,它是由麻省理工学院MIT开发出来的,START将知识库中的信息组织成主体一关系一对象的三元组,然后和语义分析后的用户问题相匹配,它可以回答地理、历史、文化、科技、娱乐等方面的简单问题。另外一个比较成熟的问答系EJEANSWERBUS是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。国内也有一些研究机构参与了自动问答技术的研究中科院计算所、复旦大学、香港科技大学。但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。13几种常见的问答系统心131聊天机器人聊天机器人几乎全部采用模式匹配的方法来寻找问题最合适的答案。它们与HTTP/INFO3DOUCOM/网络推广天津大学硕十学伊论文第一章绪论用户的交谈都是基于谈话技巧和程序技巧,而不是根据常识。在它们的对话库中,可以存放多个句型、模板,但几乎没有常识库。对于知道答案的问题,聊天机器人往往给出人性化的回答;对于不知道答案的问题,有三种回答方法猜一个答案老实说不知道;用转移话题的办法回避。目|JI的聊天机器人,因为其知识库规模有限、甚至没有知识库,所以面对用户提出的许多专业性问题,用的就是第三种方法,也就是用转移话题的办法回避。因为知识的缺乏,聊天机器人目前还没有太多的实际用途,除了和用户“聊天”,它并不能解决太多的实际问题,但是聊天机器人所体现出来的一些技术特色,却值得我们注意,例如正确理解用户的询问,从用户的输入中进行学习,使得答案更加人性化、更合乎逻辑。132基于知识库的问答系统基于知识库的问答系统是指拥有一个或多个知识库,并利用检索、推理技术来理解和求解用户问题的问答系统。一般来说,知识的数量与质量是一个基于知识库的问答系统性能是否优越的决定性因素。为了得到满意的答案,必须具备尽可能完备的知识库。现有的基于知识库的问答系统,大致包括基于本体的问答系统自然语言界面的专家系统;基于受限语言的数据库查询系统和基于FAQ的问答系统。这种系统对用户提出的许多问题,回答准确,甚至可以进行一定程度的推理计算,但是,如果用户的问题落入系统的知识库范围之外,系统性能很快会下降为零。133问答式检索系统问答式检索系统也称问答式搜索引擎或者智能搜索引擎,是根据以自然语言方式提交的用户查询,从系统文档集合或WWW中,检索出相关文本或网页,并将其返回给用户,它所需要的技术主要包括两个用户查询处理技术和信息检索技术。问答式检索系统的流程一般为系统接受用户用自然语言提交的查询,对用户查询进行分析,理解用户的意图,抽取出用户查询中的关键词,并利用语义词典WORDNET、HOWNET等进行关键词扩展,将关键词提交给搜索引擎如GOOGLE等,进行检索,最后将搜索引擎返回的前N个网页提交给用户与现有搜索引擎相比,问答式检索系统的优势并不明显。一系列测试结果表明,无论是速度还是准确性,GOOGLE都要比现有大多数问答式检索系统高出许天津大学硕十学位论文第一章绪论多。并且,问答式检索系统返还给用户的,只是和用户查询相关的文本或者网页,而不是用户问题的具体答案,所以严格说来,问答式检索系统不算是一个真正的问答系统。而是一个信息检索系统。目IJI实用的问答式检索系统很少。134基于自由文本的问答系统所谓自由文本,又称原始文本、非结构化文本,是指未经人工处理的文档、网页等。基于自由文本的问答系统接受用户以自然语言提交的问题,然后利用信息检索IR等技术,从系统的自由文本库中检索出相关的文档、网页,最后利用答案抽取等技术,从检索出来的自由文本中抽取出问题的答案并提交给用户。基于自由文本的问答系统,基本上分为三个步骤,首先,处理用户查询;其次,检索相关的自由文本;最后,从自由文本中抽取答案。它所涉及到的技术包括信息检索IR技术、信息抽取IE技术、文本挖掘、ONTOLOGY、文本聚类、文本摘要、个性化信息需求建模、模式推理和几乎所有的基础自然语言处理NLP技术词法分析、句法分析、语义分析、指代解析、消岐等。与上述各类问答系统相比,基于自由文本的问答系统,不需要建立大规模知识库,而是基于自由文本进行知识问答这节省了大量的人力物力;并且系统返回给用户的,是用户问题的具体答案而不只是和用户查询相关的文本或者网页。应该说,基于自由文本的问答系统,代表着问答系统的发展方向。14本文的主要内容与组织安排中文自动问答系统以自然语言理解技术为核心,涉及到计算语言学、信息科学和人工智能等多门学科,是计算机应用研究的热点之一。在现阶段,要让计算机完全理解人类语言还非常困难,但是对于特定的领域,采用针对性的方法,已经开发出许多成功的应用案例。本文所设计的自动问答系统是本着受限语言处理理念,在一个特定的应用领域内,采用自然语言处理技术,一方面完成对用户疑问的分析处理;另一方面完成正确答案的生成,让人们在杂乱无章的网络世界中快速、准确地获得自己想要的信息。采用知识融合技术,以本体为线索,融合多方面、异构的知识资源,支持多种推理机制,求解问句的语义,解析领域文本中的于确答案。随着系统的持续运行,问答实例的不断积累,领域知识的逐步丰富,系统的正确率还可进一步的提高。HTTP/INFO3DOUCOM/网络推广天津人学硕十学忙论文第一章绪论本文在构思和伟局安排如下第一章,概述自动问答系统在中文信息处理工作中的重要性和紧要性,并分析其国内外研究的现状,然后说明了本课题研究的意义和其应用背景。第二章,介绍自动问答系统中的理论基础中文自动分词技术、计算句子相似度的方法,知网的结构和知识词典。第三章,介绍自动问答系统的总体结构及各模块的主要设计,包括自动分词、问题理解和句子相似度计算的具体设计。、第四章,阐述自动问答系统的具体实现,以及对整个系统进行测试的评价结果;第五章,总结论文,展望今后的工作和研究方向。天津人学硕十学侍论文第_二章自动问答系统的理论基础第二章自动问答系统的理论基础中文自动分词是中文信息处理的一项重要的基础性工作,书面汉语的书写不同于西方语言,其文本是按句子连写的,句子中词与词之间没有分隔符,并且汉语的单词基本上没有形态变化,而词是信息表达的最小单位,因此,在自动问答系统中,首要任务是把连续的汉字串分割成为词的序列,即自动分词。在自动问答系统中,用户提出问题后,需要从问题库中找出和用户问题最相似的问句。所常用的方法是计算用户问题和候选问题库中的同类问句之间的相似度,当超过某个阈值时,相似度最大的问句就是要找的句子;若用户问题和所有同类问句的相似度均小于阂值,则需要从语料库或者网络中检索和摘取相应的答案。因此,句子相似度的定义和计算非常重要。本章主要介绍在自动问答系统中所需要的这些理论基础自动问答技术和句子相似度的计算,并简要介绍了知网的结构。21自动分词技术211中文自动分词面临的关键问题F3】1汉语分词的通用词表词是最小的能够独立活动的有意义的语言成分,但是汉语句子的连写使汉语的语素和短语之|日J没有清晰的界限,因此词界限的界定缺乏自然标准,这给词典的编撰造成了极大的困难。分词需要有一个通用的且与领域无关的核心词典,分词时词典中的词应该被切分出来。在建立词典时,对于哪些词应当被收录,已提出各种规则,但这些规则难以操作,使得收词的标准难以把握。至今为止,分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。2汉语分词的切分规范计算机对输入的文本进行处理后,输出的词串我们称之为“切分单位”或“分词单位”。信息处理用现代汉语分词规范中对于“分词单位”定义如下“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。”分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规HTTP/INFO3DOUCOM/网络推广天津大学硕十学伊论文第一章自动问答系统的理论基础定“分词单位”。分词单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分析的切分单位。因此,对于一个分词系统而占,制定一个一致性的分词单位切分规范无疑也是一个重要的问题。3汉语分词的分词算法在将一个句子分词的过程中,会出现几个合法的词串,就会产生歧义,即会出现歧义切分的问题;随着语言不断的发展和变化,新词和衍生词会不断的出现,这些词不可能全部被囊括到词典中,即会出现未登录词识别的问题。因此,在编写汉语分词算法时,就需要排除歧义,识别出未登录词,从多个合法词串中选择出正确的切分方式。212中文自动分词方法4】我们可以将中文自动方法分为以下四种基于机械切分的分词方法、基于统计的分词方法、知识分词、神经网络分词方法。1基于机械切分的分词方法机械分词又称为形式分词,是基于字符串匹配的原理进行的,它按照基本的切分规则将待切分的汉字串与分词词典进行匹配,若在词典中找到某个字符串,则匹配成功,即可以切分出一个词。其主要的分类方法有以下几种分词时按照扫描方向的不同,机械分词法可以分为正向匹配法和逆向匹配法;分词时按照不同长度优先匹配的情况,可以分为最大匹配法和最小匹配法;匹配不成功时按照重新切取的策略不同,可以分为增字法和减字法。为机械分词法建立一个结构模型【5】,其函数形式表示为ASMDAM,其中,DD1,一1表示匹配方向,十1表示正向,1表示逆向AEA1,一1表示匹配失败后增加或减少字符串长度,1为增字,1为减字;MM1,一1表示最大或最小匹配,L为最大匹配,1为最小匹配。常用的几种机械分词方法有J下向最大匹配法、逆向最大匹配法、双向扫描法、最少切分法、二次切分法等。2基于统计的分词方法在文本中,相邻的字同时出现的次数越多,就越有可能构成一个词,所以字与字相邻共现的频率能较好的反映成词的可信度。基于统计的分词方法就是通过采用字串的统计频率信息实现分词,适用于大规模丌放性语料。它是以概率论为理论基础,将汉语文本中汉字串的出现抽象为一个随机过程,其参数可以通过大规模的汉语语料库来训练得出。天津大学硕十学位论文第一二章自动问答系统的理论基础基于统计的分词方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法。但这种方法经常会抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识别精度差,时空丌销大。31知识分词知识分词又称为专家系统法,它将自动分词过程看作是知识推理过程,通过建立专家系统知识库,从结构和功能上将分词知识与分词过程分离丌来,通过逻辑推理来完成自动分词。知识分词克服了机械分词与歧义纠正分离的缺点,并且知识库维护和扩充比较容易,但是知识库的知识要做到充分完备,是一项非常繁重而困难的任务,而且难以排除例外。因此,知识分词在很大程度上是一个理想却非现实的分词方法。4神经网络分词方法神经网络分词是将神经网络理论引入分词中,用神经网络系统的学习、联想记忆等优点来实现分词。它模拟人脑运行,分南处理和建立数值计算模型,将分词知识用隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到J下确的分词结果。神经网络技术有自组织、自学习能力,避免了传统分词系统规则的局限性,并且它联想及并行的特点在一定程度上模拟了人在语言处理时的机理,但是它的实现比较复杂,而且如何将语义和语用知识加入到网络中也是一个难点,因而在应用中还存在一定的困难。213分词中歧义处理和未登录词识别11分词过程中的歧义处理151分词过程中歧义产生的根源可归结为三个方面由自然语言的二义性引起;由计算机自动分词产生的特有歧义;由于分词词典的大小而引起的歧义。歧义切分字段从构成形式上主要有交集型歧义切分字段和组合型歧义切分字段,其中交集型歧义切分字段又占全部歧义切分字段的绝大多数约占全部歧义的85以上。目前歧义识别的方法大致有三种;基于规则的方法、基于统计的方法以及基于句法语法分析的方法。交集型歧义切分字段在字段SABC中,AB和BC都是词,则字段S称为交集型歧义切分字段,B称为交段,其中A、B、C为字串。例如“不满意”和“不满意”两种切分结果。对于交集型歧义切分字段,当对大规模真实文本处理时,在大多数场合下,不需要考虑上下文,仅从交集型歧义字段分身就可得到陔切分字段所需要的自足HTTP/INFO3DOUCOM/网络推广天津大学硕十学位论文第一二章白动问答系统的理论基础信息。所以,一般采用基于统计的方法或者基于规则的方法就可以较好的处理歧义切分,效果明显。组合型歧义切分字段;在字段SAB中,S、A和B三者都分别成词,则AB为组合型歧义切分字段,其中A、B为字串。例如“马上”在以下两个句子中的切分,“我马上走。”和“他骑在马上。”组合型歧义字段的发现比交集型歧义字段要容易,但是解决却要比交集型歧义字段困难的多。因为组合型歧义字段本身就是歧义词,非歧义词包含在歧义词中,所以无法通过歧义字段本身来获得正确切分的特征信息,只有通过考虑确定的上下文环境,用其前后汉语字或词的句法、语义和语用信息来判断推理,才能得到正确的切分形式。对组合型歧义字段的处理可以在规则解释时与句子分析同时进行,因为在分析过程中可以获得更多的词的信息及相关的上下文信息。2分词算法中的未登录词识别嘲在实际文本处理中,会遇到许多分词词典不能识别的词汇,我们称之为未登录词。未登录词包括专有名词和非专有名词两大类。专有名词包括人名、地名译名、机构组织名、商杯号等;非专有名词包括新词、简略语、方言、行业用语等。面前关于未登录词识别的研究,一般集中在专名上。如何识别未登录名词短语,现在有两种解决策略个别解决和整体解决。个别解决通过建立专名资料库和利用上下文信息法针对某一类未登录词进行识别,而整体解决通过语料库统计、词性杯注等方法对未登录词进行处理。214几种典型的中文自动分词系统9L自从80年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以丌发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响1CDWS分词系统它是我国第一个实用的自动分词系统,是1983年由北京航空航天大学计算机系设计实现的,它采用MM方法,辅助以词尾字构词检错技术,使用知识库进行纠错。其分词速度为510字秒,切分精度约为1625。2清华大学SEGTAG系统此系统使用有向图将各类的信息进行综合,从有向图上搜索最佳路径,使用评价函数以获得最佳分词方法。通过实验,该系统的切分精度基本上可达到99左右,切分速度约为30字秒。3哈工大统计分词系统该系统是一种运用统计方法的纯分词系统,将串频统计和词匹配结合起来。此系统能够利用上下文识别大部分生词,解决一部分切分歧义,但是统计分词方法对常用词识别精度差的缺点还仍然存在。经测试,天津大学硕十学竹论文第一章自动问答系统的理论基础此系统的分词错误率为15。速度为236字秒。4北大计算语言所分词系统该系统属于分词和词类标注帽结合的分词系统。系统的算法综合了多种数据组织和搜索技术,以很低的时空开销实现了高速匹配和查找,同时采用了当代计算语言学的统计方法,运用隐MARKOV过程进行词类标注和排歧,对算法的效率和稳固性都作了尽可能的优化。该分词连同标注的速度高达每秒5千词以上。5ICTCLAS词法分析系统ICTCLAS系统是基于层叠隐马尔可夫模型的汉语词法分析系统,其功能有中文分词词性标注;未登录词识别等。它的分词正确率高达9758,分词和词性标注处理速度为315KBS。22句子相似度计算221句子相似度计算的分类M】114L句子相似度的计算在自然语言处理的各个领域都占有很重要的地位,在自动问答、多文档文摘和机器翻译系统中,句子相似度的计算一直是个关键问题。句子相似度的计算有以下几种分类方法1根掘对语句匹配层次的确定,可以分为基于词的方法和基于短语的方法。基于词的方法是通过计算字符串的相似来判断整句相似,因而不需要一般的句法和语义信息,但由于该方法对句子不加任何结构分析,所利用的仅为句子的表层信息,即组成词汇的词法和语义信息,因此在判断句子整体结构相似方面有欠缺。基于短语的方法在句法结构分析上比较系统、完整,因而使句子的相似性判断具有更高的准确性,但是由于在句子结构深层分析方面引入的规则太多,并且短语的边界很难界定,边界的歧义性增大,这也会影响匹配的质量。21根掘对语句的分析深度,可以分为词组合法、浅层结构分析法和深层结构分析法。在词组合法中,不需要对句子进行语法结构分析,其直接利用组成句子的词的语法信息,用模式匹配技术、关键字词匹配技术、基于向量空间模型等来计算两个句子的相似度浅层结构分析法则对句子进行浅层分析得出代表句子结构的部分信息,并在此基础上利用语义知识资源进行相似度计算。深层结构分析法需对句子进行深层的句法分析,并将分析结果以某种形式HTTP/INFO3DOUCOM/网络推广天津大学硕十学付论文第一二章自动问答系统的理论基础如格框架或依存树表示,然后在此基础上进行相似度计算。显然,深层结构分析法对相似度度量较静两者有更高的准确性,但同时也存在句法分析所带来的高复杂度问题。31句子相似度计算一般分为三个等级句法相似度、语义相似度和语用相似度。计算句子之间的语用相似度,一直是人们的目杯,但是其计算具有相当的难度,效果不尽如人意句子语义相似度的计算主要是计算两个句子之间的结构相似,其中的词汇使用同义或者近义词来代替,目IJI对句子语义相似度计算的研究方法主要有比较相同词汇法、检索词典法、编辑距离法、语言模型法等。222语义相似度的计算方法5】语义相似度的计算大体上可以分为三类基于按照概念FBJ结构层次关系组织的语义词典的方法,主要根据语言学资源中概念之间的上下位关系和同义关系来计算;基于统计的方法,将词汇的上下文信息的概率分靠作为词汇问语义相似度计算的参照基于矢量空1日J的方法,一般根掘相关的词在上下文中出现的位置信息进行统计,然后计算两个词或词类之J日J的相似度。11基于向量空间模型的IFIDF方法向量空L日J模型VSM的基本思想是以词为特征项,用向量来代表文本。若语料库中所有句子包含所有的词为WL,W2,WN,则语料库中每一个句子都可以用一个N维向量T来表示,其中TI1IN的计算方法为设N为WI在这个句子中出现的个数,M为语料库中含有WI的问句的个数,M为语料库中问句的总数,那么乃。NLOGMM。用同样的方法,我们可以计算目标问句的N维向量T得到T和T后,它们所对应的两个句子之问的相似度就可以利用T和T这两个向量之间央角的余弦值束表示SIMILARITYR,TTI17,LTFIDF方法综合考虑了不同的词在整个FAQ库中的出现频率IF值和这个词对不同句子的分辨能力IDF值,不需要任何对文本内容的理解,就能够得到较好的相似度结果。天津大学硕十学位论文第_章自动问答系统的理论基础2基于语义词典的计算方法基于语义的相似度计算方法,需要一定的语义知议资源作为基础。人们常用WORDNET、HOWNET、同义词词林等作为系统的语义知识资源,这些资源主要揭示概念之I日J的关系,是一种树状或者网状的数据库。在该方法中,首先根据语义资源计算出两个词语的相似度,对于两个词语和,我们记其相似度为SIM1YT,阡矽,其词语距离为DISW,件力,则SIMW一2瓦蒜2有了词与词之1BJ的相似度,就可以利用一定的规则和公式计算句子之间的语义相似度。23知网HOWNET简介81119】【20】知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之问的关系为基本内容的常识知识库,由多个数据文件构成,是一个网状的有机的知识系统。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。231知网的结构在知网中“概念”是对词汇语义的一种描述,是出词表示的概念标识符。每一个词有多个语义,就对应有多个不同的概念。“概念”是用一种“知谚表示语言”束描述的,这种“知识表示语占”所用的“词汇”叫做“义原”。“义原”用来描述词汇语义的“概念”,它是知网中最基本的、不易于再分割的意义的最小单位。与一般的语义词典如同义词词林,或WORDNET不同,知网并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述,每个词可以具有多个概念即一词多义。知网作为一个知识系统,名副其实是一个网而不是树,它不仅仅是一部语义词典,它所着力要反映的是概念的共性和个性,概念之日J和概念属性之间的各种关系,这是它与其它树状的词汇数掘库的本质不同。知网通过对约六千个汉字进行考察和分析,抽取了个1500义原,这些义原可分为十类EVENTI事件ENTITYI实体;ATTRIBUTEF属性;AVALUEI属性值;HTTP/INFO3DOUCOM/网络推广天津大学硕十学寺论文第二章自动问答系统的理论基础QUANTITYI数量QVALUEJ数量值SECONDARYFEATURE次要特征;SYNTAXI语法;EVENTROLEL动态角色EVENTFEATURESL动念属性。义原一方面作为描述概念的最基本的单位,另一方面,义原之日J也反映了概念之间和概念属性之FBJ的各种关系。知网总结描述了下列16种关系上下位关系、同义关系、反义关系、对义关系、部件一整体关系、属性宿主关系、材料产品关系、旌事经验者关系主体一事件关系、受事内容零属物等一事件关系、工具一事件关系、场所一事件关系、时问一事件关系、值一属性关系、实体一值关系、事件角色关系、相关关系。这些关系在知网中用义原前附加一些符号来对概念的语义进行描述,如表3一L所示表31知网中的符号及其含义符号语义描述例子QVALUEI数量值,AMOUNTI多多个属性之I日J,表示“和”的关系少表示“与其相关”FUNDF资会表示“是其部分”GOINTOI进入表示可以被该V处置,或是该“V”的受COPY|抄写事,对象,领有物,或者内容表示“会V或主要用于V,即施事或LAUGHATI笑话工具对V类,它表示它所标记的角色是一种隐性DIAGNOSE诊察的,几乎在实际语言中不会出现表示指向SHIVERL颤动表示多半是,多半有,很可能的清表示可以做“V”的空F日J或时J日JRECORDJ记录9表示可以是“N”的材料MATERIALJ材料1对于V类。詈于中的是该类V所有COMMENTI评论的“必备角色”2表示动态角色,如介词的定义冒于其中的应该是一个词表记CHINAL中国表示不存在,或没有,或不能VABLEL能力F表示某一属性为一种敏感的属性,ODOR气味标识概念的共性属性天津大学硕T学付论文第一章自动问答系统的理论基础我们把这些符号又分为三类一类是用柬表示语义描述式之间的逻辑关系,包括以下几个符号,另一类用束表示概念之J日J的关系,包括以下几个符号整竖鱼,第三类包括几个无法归入以上两类的特殊符号王上QU。从以上知网的结构可以看出,义原之间组成的是一个复杂的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还是的上下位关系。根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系。这个义原层次体系是一个树状结构,我们称之为义原分类树,义原分类树把各个义原及它们之问的联系以树的形式组织在一起,树中父节点和子节点的义原具有上下位的关系。可以利用义原分类树计算2个词之问的语义距离。知网中存在ENTITY、EVENT、ATTRIBUTE等11棵义原树。但有些义原树,例如CONVERSE、ANTONYM等,里面的义原没有父子关系,并不体现上述的词与词之间的上下位特征,因此无法使用。在LL棵义原树中总共选取了以下6棵义原树用束计算词的语义距离ENTITY、EVENT、ATTRIBUTE、ATTRIBUTEVALUE、QUANTITY、QUANTITYVALUE。这些是我们进行语义相似度计算的基础。232知网的知识词典知网的全部的主要文件构成了一个有机结合的知识系统,例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分。被我们称为知识词典的常识性知识库是知网的最基本的数据库。在知识词典的描述语言KNOWLEDGEDICTIONARYMARKUPLANGUAGE,KDML中每一个词语的概念及其描述用一个记录来表示,我们称这个记录为语义表达式。每个语义表达式都主要包含4项内容,其中每一项都由两部分组成,中间以“”分隔,每一个“”的左侧是数据的域名,右侧是数掘的值。每一个记录都有唯一的一个记录号NO与其对应,它们排列如下NO词或短语编号WX词语EX词语例子GX词语词性DEF概念定义其中的W_X,EX,GX构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。每个词语由DEF来描述其概念定义,DEF的值由若干个义原及它们与主干词之间的语义关系描述组成,它是知网的核心,必须填HTTP/INFO3DOUCOM/网络推广天津大学硕十学位论文第一二章自动问答系统的理论基础写,不得为空,DEF项中的第位置所标注的必须是知网所规定的主要特征。下面是动词“打”作“打球”解的义项在词典中的定义NO017144WC打GC2VEC一网球,牌,秋千,太极,球得很棒W_E2PLAYGEVE上DEFEXERCISE锻练,SPORTL体育上例中E_C项的“”,代表WC项的词。通过DEF的定义我们可以知道在“打球”中“打”与“体育”和“锻炼”有关。在知网中便是通过使用上述结构,并用自己的描述语言来定义知识词典中收入的词语。天津大学硕十学何论文第二章白动问答系统的总体设计第三章自动问答系统的总体设计用户用自然语言提出问题,希望问答系统能给出迅速、准确的答案,因此,自动问答系统应能够分析用户对信息资源的需求,准确理解用户的意图,能对问题、答案进行智能匹配,能摘取诈确的答案返回给用户。本章针对问答系统应实现的功能,详细介绍本论文所描述系统的总体结构及各模块的主要设计。31中文自动问答系统的总体设计中文自动问答系统的一般工作流程为问答系统首先获得用户提出的问题,经过分词模块的处理形成关键词组合;对所形成的关键词进行分析,确定问题的类型及问题焦点;查找常用问题库,将用户提出的问题同常用问题库中的同类问题迸行相似度比较,当相似度大于某个阈值时,直接返回给用户相应的问题答案。本系统总体框架如图31所示一I芬亩覆疾。JI问题理解IJFAO更新I;II,_JI。一J图31自动问答系统总体框架本系统主要是面向计算机领域的问答系统,因此,在设计的过程中,充分的露HTTP/INFO3DOUCOM/网络推广天泮大学硕十学仿论文第二章白动问答系统的总体设计考虑了计算机领域知识的特点,搜集了计算机各个分支领域的问题,以保证问题库的全面性在分词模块中,我们也加入了计算机领域的中英文专业词典,确保专业术语切分的J下确性。32中文分词模块的设计在自动问答系统中,用户问题的类型分析及问题库中的问题相似度分析都依赖于中文分词方法的好坏。在本系统中,由于用户提问的问题及问题库中的问题都比较短,不存在段落、篇章结构和上下文关系,所以基于统计的分词方法在本系统中没有实际意义,对分词效果不会有任何提高,因此予以排除。另外专家系统法的知识库在建立时,很难排除例外,实现其完备性很困难而基于神经网络的分词系统模拟人在语言处理时的实现比较复杂,不是一种成熟的分词方法,所以也都被排除在外,因此系统只能采用基于机械切分的分词算法。从第二章的介绍中我们可以看到,面前成熟的基于机械切分的中文分词系统已经有很多,切分正确率高,并且通用性都比较强,所以我们可以选择其中一个作为本系统分词技术的基础。由于专业词汇在问题中起着相当重要的作用,它和表明问题性质的非专业词汇一起构成了问题焦点,所以在分词过程中专业词和表明问题性质的非专业词切分要非常准确的。相对而言,其他非专业词切分准确率可以降低,它只要求用户所提问的问题切分后的词尽可能与问题库中问题切分后的词匹配即可。在问题库的建立和分析过程中,我们看到问题中包含一些英文或英文缩略语,如果是专业词,则我们考虑把它当作专业词加到英文专业词词典中;如果是非专业词,我们把它当作一般词语或分隔杯志处理。另外问题中存在一些机构名称及其缩略语,但是数量不是很多,而且对问题的回答不会起到实质性的作用,因此我们只是把它进行了一般性的处理。通过上面的分析,为满足算法在时间效率上尽可能高,同时满足对专业词和表明问题性质的非专业词切分准确性高的要求,我们使用的是中科院计算所的ICTCLAS词法分析方法,并对它进行了定的扩充和改进。分词过程如下首先使用改进后的ICTCLAS方法对问题进行分词和标注;然后对切分后词语中的英文或英文缩略语根据英文专业词词典进行处理。1ICTCLAS诃法分析系统|1611171ICTCLAS1NSTITUTEOFCOMPUTINGTECHNOLOGY,CHINESELEXIEALANALYSISSYSTEM系统是基于层叠隐马尔可夫模型HIERARCHICALHIDDENMARKOVMODEL的汉语词天津大学硕十学位论文第二章自动问答系统的总体设计法分析系统,其功能有中文分词;词性标注;命名实体识别;未登录词识别。分词正确率高达9758,基于角色标注的未登录词识别能取得高于90召回率,其中中国人名的识别召回率接近98,分词和词性标注处理速度为315KBS。ICTCLAS系统引入了层叠隐马尔可夫模型CASCADEDHIDDENMARKOVMODEL,简称CHMM统一建模,它是若干层简单HMM的组合。该模型包含原子切分、普通未登录词识别、嵌套的复杂未登录词识别、基于类的隐马切分、词类标注共五个层面的隐马模型,如图32所示。该系统的处理过程为首先,在预处理的阶段,采取N一最短路径粗分方法。快速的得到能覆盖歧义的最佳N个粗切分结果;随后,在粗分结果集上,采用底层隐马模型识别出普通无嵌套的人名、地名,并依次采取高层隐马模型识别出嵌套了人名、地名的复杂地名和机构名然后将识别出的未登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与各种候选结果的竞争。最后在全局最优的分词结果上进行词性的隐马标注。ICTCLAS有多部词典,其中最主要的为核心词典、人物词典、地图3之基于CHMM的汉语词法分析框名词典和实体词典。词典中首先记录了所有中文字符的个数,然后对每个中文字符存储以该字符为首的词表链,其中每一项存储了训练出词语的词频、词语长度、词性、以该中文字符开始的所有词的词链不包括次字符。2本系统中改进的部分我们的自动问答系统是针对计算机领域的,用户所提问的问题具有较强的专业性,因此,专业词汇在问题中占掘了相当重要的地位。这些计算机领域的专业词汇在分词词典中通常都是不存在的,属于未嚣录词一类,如果让通用的分词系HTTP/INFO3DOUCOM/网络推广天津大学硕十学何论文第二章白动问答系统的总体设计统来切分是很难正确切分出来的,容易造成歧义切分字段或被切分成零碎的块。但在实际的问题中。计算机领域的专业词语又具有很强的稳定性、独立性和整体性,一般不会与其它字段产生真正的歧义。所以,我们在设计计算机领域自动问答系统分词算法时要专门处理英文和中文词汇。在本系统中,我们对ICTCLAS的分词词典进行了一定的改进即在其分词词典的基础上增加了计算机领域中文专业词库,并且专门建立了一个计算机领域英文专业词表。我们将计算机领域的专业词汇加入到通用分词词典中,并且在词频项赋予较高的值,这样,在分词候选结果选取时,就可以做到首先匹配计算机领域专业词,再匹配通用同,使系统分词的准确率得到进一步的提高。而且,将计算机领域专业词直接加入到词典中可以减少另外调用词典的时IBJ,提高系统整体的运行速度。对问题进行切分时,我们根掘改进后的词典抽取出问题中专业词和非专业词,并对专业词做标记,为问题的匹配率求解提供依据由于ICTCLAS词法分析方法对英文词汇并不进行处理,而英文专业术语的识别关系到问题匹配的精度,因此我们根掘英文专业词典对问题中的英文词汇进行分析和匹配,把专业计算机英文术语找出来,并转化为计算机中文专业术语,为问题匹配打下基础。这样对专业术语处理好处有两个首先可以准确的识别中英文专业词汇,达到系统对专业词汇准确切分的要求;另一方面可以使问题的切分规模减小,有利于提高分词算法的切分效率。33基于知网的语句相似度计算【19120】【25】知网与传统的语义词典不同,它并不是将每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论