已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)基于自然语言理解的中文自动问答系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文的主要创新点 将自然语言理解和统计方法相结合应用于中文分词。 提出了一种基于频繁项目集挖掘的词性标注方法,将基于 规则和基于统计的词性标注方法相结合,:f i - 效地提高了词 性:标注的性能。 设计了一个标准的自动问答系统,能够满足部分自动问答 的需求。为以后自动问答系统的研究提供了一个可参照模 型。 摘要 随着计算机技术的迅速发展以及i n t e r n e t 的广泛应用,知识和信息在世界范 围内实现了平等共享和快速传播,人们可以方便、快捷地从互联网络上获取信息; 但网络信息的爆炸性增长,使得准确、快速地获取有价值信息的难度逐渐增加。 人们面对的问题不是没有答案,而是答案太多,如何从海量数据中选择合适的答 案,需要提供更强有力的信息获取工具,以应对信息爆炸带来的巨大挑战。问答 系统正是这个方面的重要研究内容。 问答系统( q u e s t i o na n s w e r i n gs y s t e m ,q & a ) 是信息检索的高级形式, 属于精确检索范畴。它接受用户以自然语言形式描述的问题( 如:中国的首都在 哪里? ) ,并从大量的异构数据中查找出能回答该问题的准确、简洁的答案( 如: 北京。) 。 本文系统地介绍了问答系统的研究内容及现状,并对中文分词、词性标注、 句法处理、语义解释等中文问答系统相关的关键技术进行了较为深入的分析与探 讨,本文主要研究以下几个方面的内容:首先,本文系统地阐述了问答系统的模 块划分,并对各模块的功能和关键技术进行了理论性研究;其次,对中文分词、 词性标注问题进行研究,提出了一种基于频繁项目集挖掘的词性标注方法,并将 基于统计和基于规则的词性标注方法相结合,通过实验验证,此方法相对于传统 的基于规则或统计的方法准确率显著提高;第三,通过句法分析判定句子的结构 成分,将一个句子分解为短语,依次向下分解为子短语、词语,从而得到句子的 实际结构,并运用了c h a r t 图分析句子结构,浅层句法分析消除歧义等;第四, 阐述了语义解释的相关内容,详细讨论逻辑形式和最终的意义表示形式之间的区 别,提出一种逻辑形式语言,利用语法中的特征体系,采用逐条规则的方式来识 别逻辑形式解决了逻辑形式和语法结构相关联的问题,。 最后,根据上述研究内容我们设计了一个基于自然语言理解的非受限领域的 中文自动问答系统,对本文所涉及到的关键技术进行了检验、评测,取得了理想 的实验效果,能够部分满足非受限领域自动问答系统的需要。 关键词:自动问答系统,自然语言理解,分词,词性标注,句法分析 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fc o m p u t e r t e c h n o l o g y a n dt h ee x t e n s i v e a p p l i c a t i o no fi n t e m e t ,k n o w l e d g ea n di n f o r m a t i o ni ss h a r e de q u a l l ya n dd i s s e m i n a t e d q u i c k l ya r o u n dt h ew o r l d ,p e o p l ec a na c c e s st oi n f o r m a t i o nf r o mt h ei n t e r n e tq u i c k l y a n de a s i l y ;h o w e v e r , t h ee x p l o s i v eg r o w t ho fn e t w o r ki n f o r m a t i o nm a k e a c c u r a t e ,f a s t a c c e s st ov a l u a b l ei n f o r m a t i o ng r a d u a l l yi n c r e a s et h ed i f f i c u l t y t h ep r o b l e m sf a c e d b yt h ep e o p l ei sn o tn oa n s w e r , b u tt h ea n s w e rt o om u c h ,h o wt os e l e c tt h ea p p r o p r i a t e a n s w e rf r o mt h ev a s ta m o u n t so fd a t a ,m o r ep o w e r f u li n f o r m a t i o nr e t r i e v a lt o o l sa r e n e e d e dt oc o p ew i t ht h ee n o r m o u sc h a l l e n g e so fi n f o r m a t i o ne x p l o s i o n q & a s y s t e mi sa ni m p o r t a n tr e s e a r c hc o n t e n ti nt h i sa r e a q & as y s t e m ( q u e s t i o na n s w e r i n gs y s t e m ,q a ) i st h ea d v a n c e df o r mo f i n f o r m a t i o nr e t r i e v a l r e t r i e v a la r e a sa r ea c c u r a t e i ta c c e p t st h eu s e rt od e s c r i b et h e p r o b l e m si nn a t u r a ll a n g u a g e ( s u c ha s :w h e r ei st h ec a p i t a lo fc h i n a ? ) ,a n dp r o v i d e s a na c c u r a t e ,c o n c i s ea n s w e r s ( s u c ha s :b e i j i n g ) ,w h i c hi ss e l e c t e df r o mal a r g e n u m b e ro fh e t e r o g e n e o u sd a t a s t h i sp a p e rs y s t e m a t i c a l l yi n t r o d u c e st h eq & a s y s t e ma b o u tt h ec o n t e n ta n dt h e s t a t u sq u o ,d e e p l ya n a l y z ea n dd i s c u s st h ek e yt e c h n o l o g i e sa b o u tc h i n e s eq u e s t i o n a n s w e r i n gs y s t e m ,s u c ha st h ec h i n e s ew o r ds e g m e n t a t i o n ,p o st a g g i n g ,s y n t a c t i c p r o c e s s i n g ,s e m a n t i ci n t e r p r e t a t i o na n ds oo n ,t h i sp a p e rm a i n l ys t u d yt h ef o l l o w i n g a s p e c t s : f i r s to fa l l ,t h i sp a p e re l a b o r a t e st h eq u e s t i o na n da n s w e rs y s t e mm o d u l e d i v i s i o n , a n dt h e o r e t i c a ls t u d i e st h ef u n c t i o no fe a c hm o d u l em a dk e yt e c h n o l o g i e s s e c o n d l y , t h r o u g ht h es t u d yo ft h ec h i n e s ew o r ds e g m e n t a t i o n ,p o st a g g i n g ,t h i s p a p e rp r e s e n t sap o st a g g i n gm e t h o db a s e db yf r e q u e n ti t e ms e tm i n i n g ,b y e x p e r i m e n t a lv e r i f i c a t i o n ,c o m p a r e dw i t ht h et r a d i t i o n a lm e t h o do fr u l e b a s e do r e q u i v a l e n t ,t h i sm e t h o di si m p r o v e ds i g n i f i c a n t l yi na c c u r a c y t h i r d ,t h r o u g hs y n t a c t i ca n a l y s i s t od e t e r m i n et h es e n t e n c e ss t r u c t u r eo f c o m p o n e n t s ,as e n t e n c ew i l lb eb r o k e nd o w ni n t op h r a s e s ,f o l l o w e db yb r o k e nd o w n i n t os u b p h r a s e s ,w o r d s ,a n dt h u so b t a i nt h ea c t u a ls t r u c t u r eo ft h es e n t e n c e m a k eu s e o fc h a r td i a g r a mt o a n a l y s i st h es e n t e n c es t r u c t u r e ,s h a l l o wp a r s i n gt or e m o v e a m b i g u i t i e sa n ds oo n f o u r t h ,e l a b o r a t e dt h er e l e v a n tc o n t e n to fs e m a n t i c i n t e r p r e t a t i o n ,d i s c u s s e dt h e d l f f e r e n c eb e t w e e nl o g i c a lf o r ma n dt h eu l t i m a t em e a n i n g r e p r e s e n t a t i o ni nd e t a i l a n d p u tf o r w a r dal o g i c a lf o r mo fl a n g u a g e ;t os o l v et h ep r o b l e mo fl o g i c a lf o 姗a n d 鲫n m a t i c a ls t r u c t u r e sa s s o c i a t e d ,w i t ht h eg r a m m a t i c a lf e a t u r e s ,a p p r o a c ht h er u l e s o n e b yo n et oi d e n t i f yt h el o g i c a lf o r m f m a l l y ,a c c o r d i n gt ot h ec o n t e n t so ft h ea b o v es t u d i e sw eh a v ed e s i 鼬e da n o n r e s t r i c t e da r e a sc h i n e s ea u t o m a t i cq u e s t i o na n s w e r i n gs y s t e mb a s e d o nn a t u r a l l a n g u a g eu n d e r s t a n d i n g ,i nt h i sp a p e rt h ek e y t e c h n o l o g i e si n v o l v e dw e r et e s t e d t h e 1 d e a le x p e r i m e n t a lr e s u l t so b t a i n e dc a r lb ep a r t i a l l ym e tt h en o n 。r e s t r i c t e d a le ao f a u t o m a t i cq u e s t i o na n s w e r i n gs y s t e m s k e y w o r d s a u t o m a t i cq u e s t i o na n s w e r i n gs y s t e m ,n a t u r a ll a n g u a g e u n d e r s t a n d i n g , w o r ds e g m e n t a t i o n ,p o st a g g i n g ,s y n t a c t i c p a r s i n g 目录 第一章绪论1 1 1 自动问答系统简述1 1 2 问答系统的历史回顾及研究现状2 1 2 1 图灵测试2 1 2 2 问答系统历史回顾3 1 2 3 中文问答系统研究6 1 3 自动问答系统分类7 1 4 论文安排8 第二章自动问答系统技术1 1 2 1 自动问答系统模块功能与技术比较l l 2 1 1 自动问答系统功能模块剖析l l 2 。1 2 自动问答系统3 大模块功能和技术比较1 2 2 2 中文问答系统的关键技术分析1 3 2 2 1 词法分析1 4 2 2 2 句法处理1 5 2 2 3 检索模型1 5 2 2 4 命名实体识别1 6 2 3 问答系统的技术特色1 6 2 3 1 信息检索和信息抽取1 7 2 3 2 模式匹配1 8 2 3 3 自然语言处理1 8 2 3 4 知识库问答术1 9 2 4d 、结2 1 第三章词法处理;2 3 3 1 中文分词。2 3 3 1 1 中文分词的难点2 3 3 1 2 自动分词的基本方法2 4 3 1 3 未来的发展方向2 6 3 2 词性标注2 6 3 2 1 汉语词性标注2 7 3 2 2vit o r bi 算法3l 3 2 3 词性标注规则的挖掘算法3 3 3 3 j 、结4 3 第四章句法处理4 5 4 1 语法及其分析4 5 4 2 句法分析器4 6 4 2 1 白顶向下的句法分析器4 6 4 2 2 自底向上的句法分析器4 7 4 2 3 转移网络语法4 9 4 3 通向高效的句法分析5 0 4 3 1 最小附着原则5 0 4 3 2 右关联原则5 1 4 3 3 词汇优先原则5 l 4 3 4 浅层句法分析5 1 4 4 爿、结5 2 第五章语义解释5 3 5 1 语义和逻辑形式5 3 5 2 语义分析5 5 5 3d 、结5 6 第六章自动问答系统的实现及其评测5 7 6 1 自动问答系统实现5 7 6 1 1f a q 库5 7 6 1 2 自动问答系统模块实现5 9 6 2 系统评价6 2 6 3 爿、结6 3 第七章结论与展望6 5 7 1 结论6 5 7 2 展望6 5 参考文献6 7 发表论文和参加科研情况说明7 l 致j 射7 3 第一章绪论 第一章绪论 互联网的迅速发展和广泛普及,实现了知识和信息在世界范围内的平等共享 和快速传播,人1 1 3 可以从互联网络上获得大量信息。以g o o g l e 、b a i d u 、y a h o o 等为代表的第二代搜索引擎实现了互联网上几十亿网页基于关键词的快速检索, 用户可以利用这些搜索引擎在互联网上查找需要的信息;但网络信息的爆炸性增 长,又使人们准确、快速地获得有价值信息的难度大大增加。虽然诸女f i g o o g l e 、 b a i d u 、y a h o o 等优秀的搜索服务提供商花费了大量的时间和精力致力于搜索技术 方面的研发,但目前的搜索引擎仍然存在不少的局限性,如信息覆盖面不足,查 全率偏低,查准率不高,检索功能方面存在缺陷,对多媒体信息的检索技术不完 善等导致用户在信息检索过程中信息丢失、返回信息太多、信息无关等。这使得 网络用户对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。 为了克服传统搜索引擎的弊端,提高搜索水平,研究人员尝试探索一种更高 效、更人性化的搜索引擎技术一问答式检索系统( 简称问答系统) ,它是将自 然语言处理技术应用于信息检索技术的新一代搜索引擎。相对于基于关键字检索 的第二代搜索引擎,问答系统在面对信息爆炸时展现了它的优势,它返回的答案 准确率更高,冗余信息更少。自1 9 5 0 年自动问答系统的研究兴起以来在分词、词 性标注、句法分析,句意理解、信息检索、答案抽取等方面取得了巨大的进步。 回顾问答系统研究的历史,总结问答技术的研究现状,将有助于这方面工作向前 发展。 1 1 自动问答系统简述 自动问答系统( a u t o m a t i cq u e s t i o na n s w e r i n gs y s t e m ,q a ) ,它是信 息检索的高级形式,属于精确检索范畴。它与用户( 一般是人) 通过自然语言的方 式进行交流,当用户以自然语言方式提出问题时,问答系统能够给出简洁、准确、 人性化的回答。根据问题的不同,这些答案可能是地名、人名、时问或者是一小 段文本( 答案显性或隐性的蕴含在文本中) 。问答系统的设计目标,是以自然语 言的方式,准确刚答用户以自然语言提出的问题。 由于面向的领域不同、对象的差异、数据格式的区别、问旬的类型等的不同, 问答系统会使用不同的技术方法和检索策略进行处理,因此可以从这些不同的标 准对问答系统进行划分,但无论怎样的划分,通常来说自动问答系统通常由问题 天津= 业人学硕士学位论文 分析模块,信息检索模块和答案抽取模块三部分组成,如图1 - 1 所示。 图卜1 问答系统原理图 三个模块分别承担如下功能: 1 问题分析模块分析用户问题并获得用户疑问意向; 2 信息检索模块基于关键词进行信息检索,检索出符合问题条件的相关信 息。 3 答案抽取模块对检索结果的内容进行分析处理,找出匹配问题的答案,返 回给用户。 1 2 问答系统的历史回顾及研究现状 1 2 1 图灵测试 著名英国数学家图灵于1 9 5 0 发表了里程碑式的论文“c o m p u t in g m a c h in e r ya n di n t e lli g e n c e ”。在这篇论文里图灵提出“机器思维 的 概念,对智能问题从行为主义的角度给出了定义,在此基础上图灵提出了 计算机能否思考的问题,并提出了判定机器能否思考的方法“图灵测试” ( t u r i n gt e s t i n g ) ,在测试过程实验中,测试人与被测试人是分开的,测 试人只能通过一些特定的装置( 如键盘) 向被测试人提问,问题内容和形 式不限定。经过一段时间的问答,如果测试人能够正确区分出入和机器, 那么我们就认为机器没有通过图灵测试,如果测试人不能对人和机器做出 正确区分,那我们认为这个机器具有人类智能。 如果某个系统能够满足图灵测试系统,它基本上应该具备以下几个能 力: 1 自然语言理解:可以通过某种语言进行交流和通信; 2 知识表示:在询问之前或询问过程中存储信息; 3 自动推理:根据存储的信息回答问题并得出新的结论; 第一章绪论 4 机器学习:适应新环境,并发现或增加新的模式。 目前还没有一台机器能够通过图灵测试,也就是说,计算机的智力与人类相 比相差甚远。但是图灵测试为人工智能指明了一条方向,它认为如果计算机能够 像人一样与人进行对话,就可以认为计算机有智能,这就要求计算机具备足够的 常识知识,并具有联想能力。 1 2 2 问答系统历史回顾 “图灵测试 促进了问答系统的产生,在过去的几十年里,大批学者对于问 答系统的研究做出了大量有益的探索和贡献。 1 无知识库问答系统 2 0 世纪6 0 年代中期麻省理工学院开发了最流行的人工智能程序之一 e l i z a 瞳羽程序。虽然e l i z a 从未声称其实现了某种语言的理解和生成理论,但它 以出色的表现给人留下了深刻的印象。这个系统扮演一个心理医生的角色,用户 扮演病人的角色,系统利用启发式的心理疗法,通过反问来应对用户的提问,诱 导病人不停说话,最终达到治疗病人的目的。早期其他比较著名的问答系统有 1 9 7 1 年麻省理工学院的t e r r yw i n o g r a d h l ,1 9 7 2 年g o l b y 的p a r r y 3 等。 虽然早期的问答系统表现十分出色,在某种场景下表现出的关键特点甚至造 成了它们具有智能的假象。但由于其系统规模偏小,所用词典通常不大,或者本 身就是一个小的语法系统,再加上背后大多没有经过严格证明的定理、复杂的数 学公式甚至没有复杂的算法;在这个研究领域不会超越这些简单方法的局限而取 得进展。事实上它们采用最主要的技术为模式匹配,通过模式匹配寻找问题最合 适的答案。它们最大的特点在于与用户的交谈过程中,利用谈话技巧和程序技巧, 而并非根据常识。因为它们的对话库中,存放的是多个句型、模板,几乎没有常 识库6 3 2 基于结构化知识库的问答系统 基于结构化知识库的问答系统通常拥有一个或者多个结构化知识库( 数据 库) ,并利用检索、推理等技术,来理解和解决用户问题,并通过自然语言的形 式与用户进行交流的问答系统。通常来说,其性能优越的决定性因素取决于知识 库中知识的数量与质量。因此,基于结构化知识库的问答系统最主要的特征在于 它拥有一个或多个结构化知识库,知识库中存储一个或多个领域的结构化知识。 结构化知识即我们通常所说的知识,而结构化知识库即我们通常所说的知识库。 如无特殊说明,下文中“知识”即结构化知识,“知识库 即结构化知识库吲碑儿9 。 通常我们所说的基于知识库的问答系统,主要包括以下几种:自然语言界面 专家系统、基于受限语言的数据库查询系统、基于本体知谚 库的问答系统等。 天津工业大学硕士学位论文 从结构来说,专家系统( e x p e r ts y s t e m ,e s ) 可以这样定义:存在一个专门 领域的知识库、利用一个能获取和运用知识的算法,协同构成的解题程序系统。 从定义显而易见,专家系统最核心的部分,是知识库和推理机n 町 基于受限语言的数据库查询系统,要求系统能够以受限语言的方式查询数据 库。例如:用户只需输入“北京到武汉的航班”,那么系统就以自然语言、表格 或者图形等方式,返回获取的查询结果。其关键步骤在于,将用户输入的文本查 询语句,通过一定的方式或算法转换为数据库查询的s q l 语句。但由于普通用户 不熟悉s q l 语言,对库结构也缺乏足够的了解,此外查询是基于受限语言,带来 对查询句的诸多限制、以及语法分析的时间损耗等因素,阻碍了此类系统较大规 模的应用。但在实际应用中这类系统还是有意义的,随着语音识别,图形、图像 识别等输入技术的发展,它定会得到更广泛的应用n 2 儿1 3 m 副。 基于本体知识库的问答系统目前在国内外还不多见,比较典型的有:p a n g u 问答系统、n k i 问答系统。这类系统的特点为:通过a g e n t 机制,实现了很好的联 想的能力1 6 7 1 n 引。 基于结构化知识库的问答系统的优点非常明显:对于用户遵循某些规则提出 的许多问题,能够给出准确的回答,如有需要甚至可以进行一定程度的推理计算, 此外系统具有良好的可扩展性。但必须指出,要实现上述这些优点,系统必须拥 有高质量的结构化知识库n 引。 基于知识库的问答系统,如果其知识库容量很小,面向的领域特别狭窄,甚 至于只需要用几个关键词就足以明确本系统相关的问题,那么对于这样的问答系 统,在构建过程中通常只需要使用模板匹配技术、关键字( 词) 匹配技术,就能够 达到用户需求。这样的系统优点显而易见:构建容易,且正确率高。但事实并非 如此,对于致力于知识问答的问答系统来说,对知识库的规模和质量是有要求的, 通常需要知识库质量很高,并且知识库越大越好。但就目前已经取得的研究成果 而言,并不足以真正实现自动知识获取,主要形式为非自动知识获取,即人工知 识获取。因此建立大规模知识库,需要消耗大量的人力物力。这导致了此类问答 系统存在着知识库的瓶颈问题,一个典型的例子为:通过无限加大知识库的c y c 计划目前为止依然停留在探索阶段,并未实际应用。对于知识库来说,知识量不 足是可以不断补充的,这只是一个工作量的问题,通过大量的时间和人力可以解 决,但还存在另一个重要问题,即拥有了大量知识后如何才能有效地运用这些知 口 2 1 3 i ,、o 由于数据集规模的差异,开发问答系统所使用的方法也应该有针对性的变 化。小规模范围或受限领域取得良好效果的问答系统,在进行推广应用到大规模 数据处理或非受限领域的时候,可能甚至一定会产生新的计算复杂度。因为随着 第一章绪论 知识量的增加,知识之间相互作用的复杂性剧增。如何把握这种复杂性,是这一 领域面临的重要挑战之一。 3 基于文本知识库的问答系统 基于文本知识库的问答系统将文本集作为知识库,并通过信息检索( 工r ) 、信 息抽取( 工e ) 等技术,理解用户查询、检索问题答案砼2 1 。 基于文本知识库的问答系统在目前的研究中属于热点问题,比较典型的有 f a q ( f r e q u e n t l ya s k e dq u e s t i o n s ) 问答系统、问答式检索系统。 基于f a q 的问答系统包含了至少一个f a q j :幸,库中存储用户常问的问题及答 案,即“问题一答案 对( q u e s t i o n a n s w e rp a i r ) 。当用户输入一个查询后,系 统首先根据句子相似度查找f a q 幸中与之最相似的问题。如果恰好检索到和用户 查询类似较高、甚至完全相同的问题,则将该问题对应的答案,直接提交给用户, 而不需要经过问题理解、信息检索、答案抽取等诸多处理过程;此外由于f a q 一 般不涉及推理,所以不会产生新知识,通常也不会深究句子的语义。如果f a q 库 中的问题均与用户查询无关,则无答案返回。但可以将这个用户查询提交给管理 员,由管理员或者其他交互式用户以手工方式给出正确答案,并将这个“问题一 答案 对,作为一条新记录,加入到f a q 库,同时也扩展了f a q ) - 车。 基于f a q 的问答系统,关键在于计算用户查询和f a q - 车中问题的相似度,从而 检索到f a q 库中与用户查询最相似的问题,为了增加f a q 匹配问题和答案的能力 f a q 可以利用w o r d n e t 、h o w n e t 等词典辅助计算句子相似度。 f a q 问答系统应用非常广泛。特别是一些公司如电信、银行等,为了随时方 便、快捷地回答用户的相关咨询,通常会热衷于开发关于公司业务、产品信息等 内容的在线f a q j :车问答系统。 问答式检索系统( 也称问答式搜索引擎、智能搜索引擎) 根据以自然语言方式 提交的用户查询,正确理解并充分领会用户的查询意图,从系统文档集合或万维 网中,检索出最相关的文本或网页,并将其提交给用户。它主要使用这样两种技 术:用户查询处理技术、信息检索技术( i r ) 乜3 儿2 钔心5 l 。 现有的很多问答式检索系统,主要是基于万维网( w o r l dw i d ew e b ) 开发的, 属于丌放领域的问答系统。 问答式检索系统,特别是基于万维网的问答式检索系统,已经有许多成熟的 产品。我们对其中的某些产品将做简单介绍: ( 1 ) s t a r t ( h t t p :w w w a i m it e d u p r o j e c t s i n f o l a b s t a r t h t m l ) 比刚 作为第一个基于i n t e r n e t 的问答系统s t a r t 采用基于信息检索( i r ) 和基于知 识库的混杂模式,并用了信息抽取( i e ) 技术旨在提供给用户“准确的信息”,而 不是仅提供一系列简单的链接。 天津l 业大学硕七学位论文 ( 2 ) a n s w e r b u s ( h t t p :w w w a n s w e r b u s c o m i n d e x s h t m l ) 比 a n s w e r b u s 是一个基于句子级别信息检索( s e n t e n c e1 e v e li n f o r m a t i o n r e t r i e v a l ) 的开放领域问答系统,作者是z h i p i n gz h e n g 。主要采用以下技术: 利用五种搜索引擎( g o o g l e 、y a h o o 、w i s e n u t 、a l t a v i s t a 、y a h o on e w s ) 根 据用户查询,进行信息检索; 从搜索引擎检索到的所有文档列表中,选取最前面的若干篇文档; 从选取出的文档中,抽取最可能包含答案的句子; 通过相应的算法对这些句子进行排序,并把排名第一的句子、以及这个句子 所在网页的u r l ,一并提交给用户,a n s w e r b u s 提交给用户的内容,并不是固定长一 度的文本片断,而是不固定长度的句子,及其所在网页的u r l 心引。 ( 3 ) a s k j e e v e s ( h t t p :刚哪a s k c o m ? o = l0 1 8l & j r = t r u e ) 口卵 a s k j e e v e s 是美国商用问答系统它采用的杰出代表,它采用多种方式回答用 户以自然语言方式提交的查询,答案通常为一段具体的文本,一系列文档链接及 文档的内容摘要,在某些情况下还采用多媒体文件的形式提供相关答案信息。 为了正确理解用户查询,a s k j e e v e s 依赖手工完成问题分析模块。a s k j e e v e s 有很多专职人员构造问旬模板,并对这些问句模板中常见的问题进行缓存,为这 些问句模板构造答案。系统的问旬模板,能够细化和明确用户需求、并将用户兴 趣引导到系统现有知识。 1 2 3 中文问答系统研究 中文自动问答系统起步较晚,目前还不成熟。近年来,国内从事问答系统研 究的机构不断地增加。在往届的t r e eq at r a c k 评测中,中科院计算所、复旦大 学、哈尔滨工业大学等都获得了不错的成绩。此外,中科院计算所、哈尔滨工业 大学、复旦大学等在中文分词、中文词性标注等汉语问答核心问题的研究中也做 了有益的探索。 就技术而言,中文自动问答系统与英语自动问答系统基本相似,主要的区别 在于中文问答系统需要增加一个中文分词模块,当然不同语言所采用的本体和语 言知识库等也是不同的。 和英语问答系统相比,国内从事问答系统尤其是汉语自动问答技术研究的科 研机构很少,各主要技术水平方面差距很大,此外基本没有成型的商业化中文自 动问答系统。 相对于英文问答系统,中文问答系统主要有如下几个方面的难点或不 足之处: 1 连写:中文为连写文本,分词足汉语言问题处理的基础。中文问答 第一章绪论 系统为句子级信息检索,分析句子前提必须要分词。 2 形态:汉语缺乏诸如英文中的完成时进行时,主动被动语态等狭义 的形态变化,形态对于计算机相当于标记,便于计算机处理。 3 ,语法:汉语语法灵活,词序多变。 4 语义:一词多义、同音词、同义词、近义词等,以及丰富的表达方 式,上下文高度依赖,省略语、指代等都是计算机处理的难点。 5 语法研究:面向计算机处理的中文语法研究( 中文句型形式化、不 同句型间的相互转换) 不足。 6 相关资源:缺乏包括语法、语义词典等中文语言学资源和相关评测、 研究语料。 中文问答系统需要在现有中文信息处理技术的基础上,充分研究和利 用问题、答案的特性与需求,通过各种方法解决上述难点,从而设计和开 发问答系统1 。 1 3 自动问答系统分类 自动问答系统的分类方式各异,根据应用领域,答案来源或答案、问题语种 等都可以进行分类。本论文中,我们将从以下几方面讨论这些分类并给出部分代 表性的系统。 1 开放领域的问答系统和受限领域的问答系统。 受限领域( 或封闭领域) 的问答系统仅关注某具体领域的问题,所有用户的提 问限定于某个特定领域,因此可以将所有本领域的本体或知识存储于问答系统中 以便于该系统分析问题或答案来源,答案来源甚至可以完全用结构化数据以便于 用户处理。 与受限领域的问答系统相对的开放式问答系统试图回答任何领域内的问题。 一个通用的本体知识库或常识知识库对于回答开放领域的问题是必不可少的,在 这个方面的研究中,w o r d n e t ( c f e l i b a u m ,1 9 9 8 ) 和c y c ( l e n a t d ,1 9 9 5 ) 取得了 巨大的进展,被广泛应用于在多个系统口门2 33 。 2 基于数据库f a q 新闻互联网的问答系统 自动问答系统的答案的来源是非常重要。若答案来源以结构化方式保存,则 选用数据库形式保存答案来源。传统意义来说,数据库通过结构化查询语言s o l ( s t r u c t u r e dq u e r yl a n g u a g e ) 来访问数据。基于f a q 的问答系统有一个频繁问答 对集合存在于系统,因此仅需要对输入的问题进行相似度比较并从问答对中检索 到最匹配的问答对即r l l 丁,即如果我们对于输入的问题可以找到比较合适的f a q , 天津工业大学硕士学位论文 则其答案部分就可以直接反馈给用户了。方便回答简单问题,提高系统解决问题 的速度。 在这个层次,计算机并没有智能的出现,因为计算机不知道用户问了什么问 题,计算机也不知道它回答了什么答案,计算机只是在某种程度实现了一个类似 于条件反射的功能。计算机做的工作只是简单的返回系统去查询,用s q l 语句来 实现。 目前,一种交互式知识共享型网站的兴起,用户在网站上发布问题,等待其 他用户( 或者专家) 解答问题,提问者根据不同的答案选择最符合自己要求的答 案,所有问题和答复在网站上保存和公开。比较典型的有: h t t p :z h i d a o b a i d u c o m ,h t t p :w e n w e n s o s o c o m 等。 3 单语种多语种的问答系统 由于问题和答案均由语言来承载,因此可以根据所使用语言的不同将问答系 统划分为单语种或多语种问答系统。 单语种自动问答系统对于本语种用户来说比较方便,此外研究者通常对母语 语种熟悉,便于研究人员把更多精力用来提高本语种的问答系统。 多语种自动问答系统的研究是近年来出现的新课题。存在如下优点:( 1 ) 用户 用母语与机器交互,使得用户可以更方便、快捷的访问信息;( 2 ) 跨语种问答系 统研究同时也可以使系统访问用不同语种保存的各种资料,在一定程度上扩大了 答案来源。 4 f a c t o i d l i s t d e s c r i p t i o n 问答系统 针对不同类型的问题往往需要不同的技术和方法来解决。因此我们可以使用 问题类型来区分问答系统。按照类型主要有3 种自动问答系统:f a c t o i d 、l i s t 和 d e s c r i p t i o n 型问答系统4 | 。 f a c t o i d 问答系统为三者中最简单的,其答案仅为一个短语即可满足,如人 名、机构名、地名、时间等( 如提问:中国的首都是哪里? 答案:北京) 。某止- b f a c t o i d 问答系统返回固定长度的段落片断作为答案,而有些则提需要供精确答案。 l i s t 问答系统类似于f a c t o i d 问答系统,l i s t 问答系统对于一个具体的问题 要求返回列表所有选项( 如问题:中国古代四大发明? 答案:火药、司南、印刷术、 造纸) 。 d e s c r i p t i o n 问答系统比上述两种问答系统复杂,其答案往往是描述所关注 问题的一个或多个段落的文字,因此通常需要使用自动摘要技术来减少答案的长 度。 1 4 论文安排 第一章绪论 第1 章:简要介绍问答系统相关内容,并对问答系统的研究背景、内容、国 内外研究现状及本文的研究内容做概要性说明。 第2 章:从总体上研究中文问答系统的体系结构,对其处理流程、关键技术 等进行了详细的分解,重点阐述了问答系统的模块划分,并对各模块的功能和关 键技术进行了理论性研究,在此基础上,确定本论文的理论研究重点和侧重的研 究方法。 1 第3 章:对中文分词、词性标注问题进行研究,提出了一种基于频繁项目集 挖掘的词性标注方法,并将基于规则和基于统计的方法结合,通过实验验证,此 方法相对于传统的基于规则或同级的方法准确率显著提高。 第4 章:对常用句法分析的理论和方法进行了研究,通过句法分析判定句子 的结构成分。运用了c h a r t 图分析句子结构,浅层句法分析消除歧义等。 第5 章:详细讨论逻辑形式和最终的意义表示形式之间的区别,并且提出一 种逻辑形式语言;解决了逻辑形式和语法结构相关联的问题,利用语法中的特征 体系,采用逐条规则的方式来识别逻辑形式。 第6 章:根据上述研究内容我们设计了一个基于自然语言理解的非受限领 域的中文自动问答系统,对本文所涉及到的关键技术进行了检验。 第7 章:总结全文工作,并展望后续研究。 天津_ r :业人学硕士学位论文 j ( j 第二章自动问答系统技术 第二章自动问答系统技术 2 1 自动问答系统模块功能与技术比较 2 1 1 自动问答系统功能模块剖析 设计一个优秀的问答系统是一项巨大的工程,需要诸多的技术,考虑各个方 面的问题,不可能一蹴而就。 虽然问答系统会使用不同的技术方法和检索策略进行处理,但通常来说自动 问答系统通常由问题分析模块,信息检索模块和答案抽取模块三部分组成,在第 一章我们曾简单的给出问答系统的原理图。下面我们将详细讨论自动问答系统的 三个模块,并对其中的关键技术做进一步的研究。如图2 一l 司所示。 关键支撑技术及面向问答的o n t o l o g y 臣巫习臣回 臣困臣亘习 臣巫口区巫圃 围困 芦露窆! ! ! ! 窒翻 妇遍暨誊篮罄警浏 i 感壁婴翌! ! 空塑塑翻 幽滥盘盗暨2 剐 图2 - 1 自动问答系统结构剖析图 天津一 业大学硕+ 学位论文 三个模块分别承担如下功能: 问题分析模块采用自然语言理解技术对用户的提问进行处理,为信息检索和 答案处理服务;问题分析包括词法分析( 生成查询关键词:提问关键词,扩展关 键词,) 、句法分析、问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司流程修订与管理框架设计
- 客户关系管理CRM表格标准化模型
- 部门预算制定与执行情况分析表
- 企业年度预算编制模板成本控制及增长目标设定
- 产品研发流程与质量管理标准模板
- 企业网络安全管理自查清单与修复指南
- 部编版高中语文选择性必修上册第四单元逻辑思维语言积累、梳理与探究4课时4了解驳论文知识学写驳论文(共37张)+学案(含答案)
- 统编版语文二年级语文上册全册练习题(含答案)
- 会计核算软件应用面试题目及答案
- 环境科学基础考试试题及答案
- (项目管理)建设项目后评价报告书
- 导管室设备管理制度
- 社区警务介绍课件
- AI大模型赋能应急管理数字化建设方案
- 《健身指导》课件
- 飞书合作伙伴管理制度
- 防雷防汛防台风培训课件
- 中国城市新分级名单(共337个)
- 大学生心理健康教育(第三版)教案:第四章 调适情绪 拥抱快乐
- 电力设备预防性试验规程教学
- 2025年中原农业保险股份有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论