




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于概念图的中文问答系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 问答系统能够以自然语言的方式进行提问,并能以自然语言的形式进行回答, 是一种新型的智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用 户的查询要求,更准确地检索出用户所需要的答案。 问答系统的研究受到国内外很多科研机构的重视,并且已开发出相对成熟的 英文问答系统,而中文问答系统的研究还有所欠缺。本文在此基础上,利用概念 图的理论对中文闯答系统的相关技术进行研究,并实现了一个基于概念图的中文 问答系统。本系统主要包括问题理解、信息检索、答案抽取三个模块,具体的研 究内容如下: ( 1 ) 在问题理解模块中,对传统的问题分类的方法进行改进,采用疑问词短语 及问句标准型相结合的方式对问题进行分类,并利用问题中的特征词对问题进行 领域分类;利用本体资源对概念图的生成作了研究,并采用概念图的形式对问句 进行语义层次的分析:利用本体知识库,对关键词从同义关系及相关关系两方面 进行扩展。 ( 2 ) 在信息检索模块,首先进行f a q 库的检索,如果在f a q 库中找不到答案, 转向网络检索,并利用答案抽取模块进行答案抽取;采用三种知识来源对f a q 库 进行构建及更新,并在f a q 库中引入反向索引机制,对f a q 库中的问题进行领 域分类;改进了概念图的语义相似度的算法,并利用此算法对用户问句及f a q 库 中的闯句进行相似度的计算,利用句子相似度的计算实现基于f a q 库的检索。 ( 3 ) 在答案抽取模块,利用命名实体识别技术与句子相似度计算相结合的方法 进行答案抽取。 最后针对以上提出的方法,对本系统进行测试与分析,实验结果验证本文所 采用方法的可行性。 关键词:问答系统;概念图;常问问题集;本体;相似度 r e s e a r c ha n di m p l e m e n t a t i o no fc h i n e s eq u e s t i o na n s w e r i n g s y s t e mb a s e do nc o n c e p tg r a p h s a b s t r a c t q u e s t i o na n s w e r i n gs y s t e m ( q a s ) a l l o w st h eu s f rt oa s kq u e s t i o n su s i n gn a t u r a l l a n g u a g ea n dr e t u r n sp r e c i a n s w e r s i ti st h en e x tg e n e r a t i o no fs e a r c he n g i n e s o , c o m p a r e dw i t l lt r a d i t i o n a ls e a r c he n g i n e s ,q a sc a nr e t r i e v et h em o s tp r e c i s ea n s w c l - t o s a t i s f yu s e r sd e m a n do f s e a r c h i n g m a n yr e s e a r c hi n s t i t u t e sa r ei n v e s t i g a t i n gq u e s t i o na n s w e r i n gs y s t e ma th o m ea n d a b r o a d s o m em a t u r ee n g l i s hq u e s t i o na n s w e r i n gs y s t e m sh a v e b e e nw i d e l yr e c o g n i z e d b u t f e wi n s t i m t e sa r e d o i n gr e s e a r c ho nc h i n e s eq u e s t i o na n s w e r i n gs y s t e m s s o ,i nt h i s p a p e r , w ei n v e s t i g a t e ds o m et e c h n o l o # e sf o rc h i n e s eq u e s t i o na n s w e r i n gs y s t e m sa n d r e a l i z e dac h i n e s eq u e s t i o na n s w e r i n gs y s t e m sb a s e do nc o n c e p tg r a p h s o u rc h i n e s e q u e s t i o na n s w e r i n gs y s t e mh a st h r e em a i np a r t s :q u e s t i o na n a l y s i s ,i n f o r m a t i o nr e t r i e v a l a n da n s w e re x t r a o n t h i sp a p e rm a i n l yi n c l u d e sf o l l o wa s p e c t s : ( 1 ) i nt h eq u e s t i o na n a l y s i sm o d u e , t h er u l e sc o m b i n e dt h eq u e s t i o nw o r dw i t h q u e s t i o ns e n t e n c eo fs t a n d a r dp a t t e r ni sp r o p o s e dt oc l a s s i f yq u e s t i o n s ,w h i c hi m p r o v e d t h et r a d i t i o n a lm e t h o d s ,a n dt h em e t h o di sp r o p o s e dt oc l a s s i f yd o m a i nb a s e do nf e a t u r e w o r d s ;w ei n v e s t i g a t et h eg e n e r a t i o no fc o n c e p tg r a p h sb a s e do no n t o l o g y ,a n da n a l y s i s t h eq u e s t i o ns e n t e n c eo ns e m a n t i cw h i c ht h es e n t e n c ee x p r e s s e db y c o n c e p tg r a p h s ;t h e k e y w o r d sa r ee x t e n d e df r o ms y n o n y m o u sr e l a t i o n s h i pa n di n t e r r e l a t e dr e l a t i o n s h i p , w h i c hu s e do fo n t o l o g y ( 2 ) i nt h ei n f o r m a t i o nr e t r i e v a lm o d u l e , f i r s t l y , s e a r c hf r o mf f c c l u c n f l ya s k e d q u e s t i o n s0 p a q ) ,i fy o uc a nn o tf i n dt h ea 1 s w ri nt h ef a q t h e ng o 幻t h ew e br e t r i e v a l , a n du s i n gt h ea n s w e re x t r a c t i o nt od i s t i l la n s w 睨 ;t h ef a qd a t a b a s ei se s t a b l i s h e da n d r e n e w e df r o mt h r e ek i n d so fs o t l r c c sk n o w l e d g e , t h er e v e r s ei n d e x i n gm e c h a n i s mi s i n t r o d u c e dt ot h ef a q ,w h i c hc a nc l a s s i f yt h eq u e s t i o ns e n t e n c eb yf i e l d s ;t h es e m a n t i c s i m i l a r i t i e so fs e n t e n c e sw e r ec o m p u t e db e t w e e nu s e r sq u e r ya n dc a n d i d a t eq u e s t i o n s b yi m p r o v e ds e m a n t i cs i m i l a r i t yb a s e do nc o n c e p tg r a p h s ( 3 ) i nt h ea n s w e re x t r a c t i o nm o d u l e ,t h em e t h o dt h a tc o m b i n e dn a m e de n t i t y r e c o g n i t i o nt o c h n o l o g yw i t hs e n t e n e s i m i l a r i t i e sc o n c l u s i o ni su s e db ya n s w e r e x t r a c t i o n f i n a l l y , w ed ot h et e s t sa n da n a l y s i so ft h et e c h n i q u ea p p l i e d t ot h em e t h o d sa b o v e t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h er a t i o n a l i t yo ft h et h e o r i e si nt h i s p a p e r n k e y w o r d s :q u e s t i o na n s w e r i n gs y s t e m ;c o n c e p tg r a p h s ;f a q ;o n t o l o g y ;s i m i l a r i w m 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:l :童幽指导教师签名:焰: v _ ,y 蜘年。明a 旧年月日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也 不包含为获得西北大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 学位论文作者签名:- 乏鹞 洲。年口占月浏日 西北大学硕士学位论文 第一章绪论 1 1 本文研究的背景和意义 1 1 1 研究背景 随着计算机技术与网络技术的快速发展,导致网络信息呈几何指数增长,而 如何从这些信息中找到有价值的信息已成为网民所关注的焦点。搜索引擎技术的 发展在一定程度上解决了网民的问题,据2 0 0 9 年1 月中国互联网络发展状况统计 报告【l 】显示:搜索引擎是网民在互联网中获取信息的基础应用,目前搜索引擎的使 用率为6 8 ,在各互联网应用中排列第四。 那么目前所使用的搜索引擎是否真能有效的解决网民所面临的问题呢? 据英 国莫里( m o r i ) 调查公司的民意调查结果【2 】显示,只有1 8 的用户表示总能在网上 搜索到相关的信息,6 8 的用户说他们对搜索引擎很失望,2 8 表示还可以,其 余5 为不知道。这些调查数据显示,目前的搜索引擎技术还不能满足人们的检索 需求,其本身还具有很多的不足之处,主要包括以下几点: ( 1 ) 用户的查询意图不能得到充分的反映。用户在使用传统的搜索引擎进行信 息检索时,往往是向系统输入几个关键词,但是随着用户检索需求的复杂化,几 个关键词的组合并不能很好的反映用户的检索意图。 ( 2 ) 检索返回的信息太多,用户无法快速定位自己所需要的信息。目前所使用 的搜索引擎所返回的信息是与用户查询相关的网页链接,用户要逐一的打开这些 链接,找寻自己所需要的信息,这需要花费大量的时间与精力,并且有可能所返 回的相关信息都不是自己所需要的。 ( 3 ) 无法进行语义层次的理解。基于关键词匹配来实现的搜索技术,只是停留 在语言的表层,并没有触及语义,检索效果很难进一步提高。 这些弊端使得广大网络用户越来越期盼新型智能信息检索工具的出现,问答 系统( q u e s t i o n a n s w e r i n gs y s t 既n ,简称q a s ) 【3 】正是在这样的背景下应运而生,它的 设计理念、运行机制和期望结果都不同于现有的搜索引擎,它采用自然语言处理 技术,一方面对用户输入的以自然语言的形式进行提问的问句进行语义层次的理 解,另一方面能快速准确的以自然语言的形式返回给用户所需的答案,而不是相 关的网页,让人们能够在杂乱无章的网络世界中快速、准确的找到有价值的信息, 是一种更高层次的检索系统。 第一章绪论 1 1 2 中文信息处理与问答系统 中文信息处理是计算机技术与语言学、心理学、信息论、自动化技术等相互 交叉融合而成的一门科学 4 1 。近年来,随着互联网的迅猛发展,中文信息处理也迅 速升温,特别是中文搜索引擎的成功更是为中文信息处理的研究注入了极大的活 力,随着搜索引擎向专业化、精确化、智能化的方向的发展,语言处理技术将会 得到更大的发展。从各种调查研究中,我们观察到中文信息处理的一些发展趋势 如下: ( 1 ) 处理的单元越来越大。从字到词,再到命名实体、短语、句子,进而处理 篇章、同主题的篇章集合,直至海量的文本。 ( 2 ) 处理的深度越来越深。从输入输出开始,到词法、句法、语义、语用,逐 步深入。 ( 3 ) 应用范围越来越广。从桌面到企业内部网络,到互联网,到无线网,从新 闻、情报领域到信息安全、远程教育等,到处可以看到中文信息处理的身影。 ( 4 ) 技术路线走向融合。统计方法仍占主流,但由于数据稀疏的问题,将逐步 采纳传统的语言分析技术,在更深的层次上建立统计模型。 早期的问答系统没有采用自然语言处理技术,仅仅是采用简单的模式匹配的 方法进行问题的分析,从而导致问答系统的准确率偏低。而现在高效的信息检索 已经成为互联网时代自然语言处理的核心技术,检索形式的多样化、智能化,检 索内容贴近用户需求是所有研究者的追求目标。以问答的方式来实现开放领域的 信息检索是一种高效的检索方式,能够满足用户的多方面的要求,目前问答系统 已成为一个研究热点,属于自然语言处理与信息检索技术相结合的部分,国家自 然科学基金也给予了重点资助【5 1 。 1 1 3 研究意义 中文问答系统能够以自然语言的方式进行提问,并能以自然语言的方式返回 给用户答案,而不像传统的搜索引擎只能以关键词的形式进行检索,并且返回给 用户的只是相关的网页而不是具体的答案,中文问答系统与传统的搜索引擎相比 更能满足用户的检索需求,更能快速而准确的返回给用户答案。 中文问答系统是新一代的搜索引擎,代表着目前搜索引擎的发展方向,从本 质上不同于传统的搜索引擎,是一个具有高度理论价值和实用价值的课题。本文 2 西北大学硕士学位论文 在前人研究的基础上,利用概念图的理论对中文问答系统进行研究:采用概念图 的形式分析用户问句,实现基于语义的问句分析;利用改进的概念图的相似度的 计算方法对用户问句及候选问句进行相似度的计算;根据概念图的推理能力,采 用概念图的匹配算法进行答案抽取。实验结果表明本文所提出的方法是行之有效 的,不仅提高了系统的准确率,更为深层语义分析奠定了基础。 1 2 问答系统研究概述 1 2 1 问答系统国内外研究现状 以英语研究为主的问答系统起步比较早,历史可以追溯到上世纪5 0 年代,1 9 5 0 年,著名的英国数学家图灵( a m t u r i n g ) 发表了里程碑式的论文“c o m p u t i n g m a c h i n e r ya n di n t e l l i g e n c e ,在文中,图灵提出通过自然语言问答的方式判断机 器是否具有人类的智能的图灵测试嘲,这种思想可以说是问答系统研究的起源,而 图灵测试也可以看成是问答系统的雏形。但是由于条件限制,问答系统的研究并 没有从此发展起来,很多实验都是在非常受限的领域,甚至是固定段落上进行的。 一直到最近几年,随着网络和信息技术的快速发展,现有的搜索引擎已不能很好 的满足用户需求,人们对新型信息检索系统的渴求促使问答系统重新发展起来。 特别是1 9 9 9 年国际上著名的文本检索会j , 义t t t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 设立 问答系统评测专项q at r a c k ( q u e s t i o na n s w e r i n gt r a c k ) ,更是调动了很多大学和科 研机构的积极性,同时也涌现出许多优秀的问答系统,每年参加该评测的问答系 统都代表着当年的最新的研究技术和成果。 现在国际互联网上已经有一些面向不同专业领域或开放域的问答系统,大致 可以分为四种类型隅】:聊天机器人、基于知识库的问答系统、问答式检索系统、基 于自由文本的问答系统。 ( 1 ) 聊天机器人是指这样的问答系统:它模仿人的语言习惯,采用自然语言的 方式与人进行交互,对于用户提出的问题,给出较为人性化的答案。 聊天机器人的原理是在对话库中存放多个句型、模板,然后根据用户提问中 的关键词,检索对话库,采用模式匹配的方法寻找问题最合适的答案。 ( 2 ) 基于知识库的问答系统是指:根据大规模的知识库,对用户提出的问题利 用推理技术进行检索。此类系统在一定程度上能实现智能回答,因为它具有一定 的推理能力,并且是基于知识库检索。但是,此类系统对知识库依赖较大,当问 题超出系统的知识库的范围,系统性能能很快降为零。因此此类系统往往存在知 3 第一章绪论 识库的瓶颈问题。 ( 3 ) 问答式检索系统:以自然语言方式提交的用户查询,从系统文档集合或 w w w 中,检索出相关文本或网页并将其返还给用户。目前典型的问答式检索系 统有s t a r t 9 3 、a n s w e e r b u s 1 0 1 、a s l d e e v e s 1 1 】等。s t a r t 是麻省理工学院开发的问答 系统,具有两个知识库及一个搜索引擎,于1 9 9 3 年开始发布在网上,该系统是第 一个面向国际互联网的自然语言问答系统。a n s w e e r b u s 是密歇根大学开发的问答 系统,可以接受六种语言表示的用户问句,利用五个搜索引擎检索包含答案的网 页。a s l d e e v e s 是美国a s l d e e v e s 公司的检索系统,用户可以采用自然语言的形式 进行提问,但系统并不是以自然语言的形式进行回答,只是返回相关的网页。 ( 4 ) 基于自由文本的问答系统:不用建立大规模知识库,基于原始的文档或网 页进行检索。华盛顿大学的m u l d e r 1 2 1 是第一个直接以网络作为其知识库的自动 问答系统,将检索出的文档作为答案抽取的来源,通过语法分析从中抽取答案。 基于自由文本的问答系统由于不用建立大规模的知识库,并且系统还能返回给用 户具体的答案,因此受到研究者的追捧,可以说基于自由文本的问答系统,特别 是基于w e b 的开放领域问答系统,代表着问答系统的发展方向。 在国内对问答系统进行研究的机构主要包括复旦大学【1 3 , 1 4 , 1 5 】、中科院计算所 1 1 6 , 1 7 、哈工大【1 8 】、清华大学【1 9 1 、北京大学、北京语言大学、重庆大学等。其中复 旦大学、中科院计算所、及清华大学都参加了t r e c 的q a 测试。 中科院计算所软件室提出“动态知识库 的概念【捌,给出了一个新的问答系 统的模型浅层结构模式推理模型,该模型具有一定的推理能力,能够根据知 识推导出结论,而不是简单的搜索文本中现有的答案;中科院自动化研究所模式 识别国家重点实验室初步建立了一个汉语问答系统评测平台e p c q a t 2 ,综合参考 了国际上比较成熟的问答系统的经验,并针对中文的特点进行了适当的修正。 哈尔滨工业大学信息检索研究室对中文问答系统也进行了相关的研究,文献 【2 2 q h 实现了开放域的中文问答系统,并对其中的关键技术进行了研究,提出了问 答系统检索中的权重计算方法;文献 2 3 1 q h 实现了基于常问问题集的中文问答系 统,通过计算句子语义相似度的方法来计算用户问句与候选问旬集中的问句的相 似度,进而获得t 口- j 句的答案:哈尔滨工业大学应用软件教研室研制了q a c a s 2 4 1 中文自然语言问答系统,提出了以系统相似为基础的问答系统的基本原理。 但是目前国内所开发的中文问答系统能够处理的问题非常有限,基本上都是 4 西北大学硕士学位论文 针对具有简短答案的事实型的问题进行研发的,而用户所提问的问题是复杂多变 的,现在所开发的系统还不能应对这种复杂多变的问题。虽然现在自然语言处理 技术的引入,在一定程度上改进了系统的性能,但是由于目前自然语言处理技术 还不成熟,对句子的深层句法、语义分析还不能达到实用的效果,因此,大多数 系统都是对句子进行浅层语义分析,获得句子的浅层句法、语义的表示,以此作 为对传统问答系统的改进。如基于语义角色标注的中文问答系统【2 5 1 、基于概念层 次网络的中文问答系统【2 6 】等,这些系统在一定程度上提高了系统的性能,但是这 些系统的准确率依然比较低,从分析中可以看到,这主要是因为这些系统对问题 分析的力度还不够。 本文在此基础上,提出了将概念图的理论应用到问答系统中的方法,通过此 方法引入概念间的语义关系,使概念流从简单的无序组织上升为结构化了的有序 的组织,从而实现语义结构上的检索系统。本文不仅对基于事实型的问题进行了 研究,对于复杂的问题利用概念图也进行了分析,使其更趋向于实用性的问答系 统。本系统以概念图为核心,贯穿系统中的问题理解、信息检索与答案抽取的整 个过程,本方法既提高了系统的准确率,又为深层语义分析奠定基础。 1 2 2 问答系统的基本原理 问答系统是信息检索的一种,是基于传统的关键词匹配的信息检索的基础上 发展起来的一种更高层次的检索系统。在问答系统中,既有传统搜索引擎中的信 息检索技术,又包含本身所具有的对问题及答案深入分析的技术。一般来说,问 答系统主要包括三个阶段【2 7 】:问题理解、信息检索、答案抽取。问答系统的一般 流程图如图1 1 所示。 逸自岖垂垂圜岖受垂圜一涸吨 暨囡 图1 1 问答系统的流程图 问题理解是问答系统的第一个执行阶段,主要任务是对用户提出的问题进行 深入的分析,充分理解用户的意图,为后续的信息检索及答案抽取阶段提供帮助。 问题理解阶段的分析结果直接影响着后续阶段的处理,这一阶段的分析主要包括 分词、词性标注、问题分类、关键词提取及扩展等。 信息检索是问答系统的第二个执行阶段,主要是根据问题理解阶段提供的关 键词及扩展后的关键词进行相关文档的检索,问答系统中的信息检索同传统的基 5 第一章绪论 于关键词匹配的信息检索类似,可以调用现有的比较成熟的各种检索模型。 答案抽取是问答系统的第三个执行阶段,主要任务是从信息检索阶段返回的 相关文档中抽取出与问题相对应的答案,并能用简单准确的自然语言的形式将答 案返回给用户。答案抽取阶段是问答系统的最后环节,前面的处理都是为这一阶 段服务的。 综上所述,如何从问题理解中得到用户的真正用意,如何从信息检索部分得 到相关的文档,如何从答案抽取部分获得问题的正确答案,是问答系统要解决的 三个核心问趔2 8 ,2 9 1 ,也是本文重点研究的内容。 1 2 3 问答系统的评测 问答系统的评测方法也是研究者们最为关注的问题之一,毕竟如何客观而准 确的评价系统的性能在每一种研究领域中都是一个重要的问题。目前,问答系统 进行评测的国际会议f 删有:英语问答评测平台t r e cq at r a c k 、日语问答评测平 台n i c i r 和多语种问答评测平台c l f f 。但是,从现在的问答系统评测平台来看, 问答系统的评测标准还不是很成熟,就连t r e cq at r a c k 的评测标准,也有相当 的主观成分在里面。 目前t r e cw e bt r a c k 检索用的较多的,是查全率( r e c a l l ) 和查准率( p r e c i s i o n ) , 以及两者的调和平均数f 。具体来说,就是: r e c a l l = 查询出来的准确答案个数数据库中所有的准确答案个数( 1 1 ) p r e c i s i o n = 查询出来的准确答案个数查询出来的所有答案个数( i 2 ) f = 2 宰p r ( p + 只) ( 1 3 ) 而目前中文的问答系统的研究还处于起步阶段,国际上也还没有一个公开的、 公认的汉语问答评测平台。作为尝试,中科院自动化所已经初步建立了一个汉语 问答系统评测平台( 简称e p c q a ) 。其中,e p c q a 语料库、测试集和打分标准的建 立基本参考t r e cq at r a c k 、n i c i r 和c l f f 的成功经验,并针对汉语的特点进 行适当的修改【2 l 】。 本文采用计算系统准确率的方法来评测系统,具体来讲,就是设计一个测试 集,这个测试集中包含问句及问句的正确答案,然后抽取测试集中的问句作为问 答系统中的用户问题进行测试。如果问答系统返回的问题答案与测试集中的问句 答案相同( 人工比对的方法) ,则认为问答系统回答正确,否则认为问答系统回答错 误,此种方法简单易行,但是需要大量的问句来进行测试。 6 西北大学硕士学位论文 准确率= 答对的问题数问题总数 1 3 本文的研究内容 本文针对问答系统中目前存在的问题进行了研究与分析, 概念图的中文问答系统。本文的主要内容如下: ( 1 4 ) 提出并实现了基于 ( 1 ) 在问题理解部分,问题分类的准确率还不高,目前存在的问题分类的方法 对于一些简单的问题能正确的处理,但是随着用户问句的复杂化,传统的问题分 类的方法已经不能满足系统的要求,现在有很多问答系统 2 2 , 2 3 2 5 溯中加入了语义分 析的技术,对用户问题进行语义层次的理解,虽然在一定程度上提高了系统的准 确率,但是这些语义分析的方法依然不够成熟,比如无法进行推理、不能与自然 语言互相翻译、缺乏概念之间的语义研究等缺点,针对这一问题,本文利用概念 图的理论对用户问题进行语义层次的分析,一方面用概念图的形式表示用户问句, 体现出问题在语义层次上的意义,另一方面利用概念图的推理能力,采用概念图 的匹配算法及相似度的计算方法,寻找问题的答案。 ( 2 ) 信息检索部分是问答系统中承上启下的一个模块,本文为了提高系统检索 的速度采用了基于f a q 的检索及基于网络的检索两种方式。目前有很多基于f a q 的问答系统,采用的最多的方式是利用句子相似度的计算进行检索答案,但目前 句子相似度的计算大多是在词语相似度的基础上进行的,而对于句子的结构及句 子中词语之间的语义关系并没有考虑,因此系统的准确率一直都不高,本文提出 了用概念图的语义相似度的计算方法计算问句之间的相似度,并对概念图的语义 相似度的计算方法进行了改进。 ( 3 ) 答案抽取部分是问答系统中最重要也是最困难的部分,大多数的答案抽取 是采用基于模式匹配的方法进行的,本文尝试着利用概念图的推理能力对答案抽 取部分进行了研究。 1 4 本文的组织结构 本文共分为六章,组织结构如下: ( 1 ) 第一章首先介绍了问答系统的研究背景及意义,然后从问答系统国内外研 究现状、问答系统的基本原理、问答系统的评测三个方面对问答系统进行了相关 研究的概述,最后指出了本文的研究内容及组织结构。 ( 2 ) 第二章是对问答系统中的问题理解部分进行研究,从词法分析、问题分类、 7 第一章绪论 关键词的提取及扩展、语义分析等几方面对问题理解中采用的方法进行了详细的 分析。 ( 3 ) 第三章是对问答系统中的信息检索部分进行研究,介绍了两种检索方式, 并对检索方法进行了分析。 ( 4 ) 第四章是对问答系统中的答案抽取部分进行研究,分析了答案抽取的流程 及存在的问题,阐述了答案抽取的方法。 ( 5 ) 第五章是系统的设计与评测,介绍了本系统的总体框架及各个界面,详细 分析了本系统中各模块的实现方法,最后对本系统进行了相关实验的介绍及实验 结果的分析。 ( 6 ) 总结与展望,总结了本文的主要工作,指出了本系统所存在的不足及下一 步要进行的工作。 8 西北大学硕士学位论文 第二章问题理解 2 1 引言 在问答系统中,问题理解是第一个执行阶段,其主要有两个作用,第个 作用是:问题理解能有效的对用户问题进行分析,领会用户的真正意图,确定用 户问题的类型,从而控制候选答案的空间,使问题的答案抽取能在一个较小的、 相对准确的空间中进行,提高系统返回问题答案的准确率。从对问答系统的准确 率的调查中可以发现,问答系统的准确率不高的一个很重要的原因就是问答系统 不能充分的“理解 用户问题。 第二个作用是:问题理解阶段根据问题的分类情况确定问题的答案类型,并 根据答案类型确定答案抽取策略。只有明确了问题的答案类型及答案抽取策略才 能确立答案抽取规则和约束条件,用于答案生成。 由此可知,问题理解是问答系统中重要的组成部分,本章将对问题理解进行 详细分析,提出采用概念图1 3 1 】的形式对用户问题进行语义分析,从语义层次上理 解用户的意图,与其它语义分析的方法相比,本方法引入了概念间的语义关系, 使概念流从简单的无序组织上升为结构化了的有序的组织,实现了基于语义结构 上对问题的分析。 2 2 本系统的问题理解的流程 本系统中问题理解的流程图如图2 1 所示。 解国阃囊理解 包! 竺竺兰l 冒 匮 囹 吉高 图2 1 问题理解流程 在本系统中,对于用户用自然语言提出的问题,问题理解模块首先对其进行 9 第二章问题理解 最基本的预处理,包括分词和词性标注,利用停用词表去掉停用词,然后对预处 理后的结果进行问句的句型分析及问题类型分类,之后一方面提取关键词,并进 行关键词扩展,另一方面利用概念图的形式表示分析后的用户问句,最后将关键 词的集合提交给信息检索模块而将概念图表示的问句放入概念图库。本章2 3 节至 2 6 节就将详细阐述本系统中问题理解部分的每个子功能和采用的方法。 2 3 词法分析 在汉语中,词是承载语义最小的语言单位,只有处理好词层面的问题,才能 更好的处理句子层面的问题。所谓“分词就是将连续的字串按照一定的规范重 新组合成词的过程,由于同英文相比,汉语在书写时词与词之间没有明显的分割 标记,因此分词就成了所有中文自然语言处理系统的第一步。目前中文分词的方 法主要有四种【3 2 】,分别是:基于字符串匹配的分词方法、基于理解的分词方法、 基于统计的分词方法和基于语义的分词方法。 基于字符串匹配的分词方法的主要原理是:按照一定的策略将待分析的汉字 串与一个“充分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功( 识别出一个词) 。这种方法的优点是简单且易于实现,缺点是匹配速度 慢,并且没有统一标准的词典,自学习能力不足。 基于理解的分词方法的基本思想是:在分词的同时进行句法、语义分析,利 用句法信息和语义信息来处理歧义现象。这种分词方法需要使用大量的语言知识 和信息,目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。 但是由于汉语语言知识的复杂性,难以将各种语言信息组织成机器可直接读取的 形式,因此目前基于理解的分词系统还处在试验阶段。 基于统计的分词方法又称为无字典分词的方法,主要思想是:词是稳定的组 合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词, 通过对训练文本中相邻出现的各个字的组合的频度进行统计,计算出它们之间的 紧密程度,当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。 而在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥了其分词速 度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义 的优点。 基于语义的分词方法则是引入了语义分析,对自然语言自身的语言信息进行 了更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹 1 0 西北大学硕士学位论文 配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等,目前还处在研究 阶段。 分词系统最主要的任务是进行分词,对于分词来说,不仅要求系统在分词的 正确率与切分速度上能满足一定的要求,而且还要求系统具备良好的可移植性、 易扩充性、可维护性【3 3 等性能。由于时间和效率关系,在本系统中没有开发自己 的词法分析系统,而是采用了哈尔滨工业大学的自然语言处理系统,能够实现分 词、词性标注、命名实体识别、句法分析、语义分析等多种功能。例如句子“问 答系统是一种自然语言应用系统 利用哈尔滨工业大学的自然语言处理系统中的 词法分析器进行分析,结果如图2 2 所示。 阿答j f l 线 矗一种 自然语百处理系统 ,nvm q nn,n 图2 2 系统运行例图 2 4 问题分类 问题分类是问题理解模块的重要部分,具体来说,它是根据一定的分类标准, 定义一个问题类型集合,对于用户输入的问题,系统根据一定的算法规则判断出 该问题属于哪一个类型。问题分类的目的是确定答案的语义类别及其搜索分析策 略,通过将用户问句文本映射至不同的答案类型来确定答案搜索、答案抽取策略。 也只有确定了问旬语义和其对应的答案类型之后,系统才能应用与其类型相对应 的策略分析问句、搜索答案、生成答案。因此问题分类的效果直接影响着整个系 统的准确率,而在大多数系统中,很多错误都是因为问题分类不当所照成的。 2 4 1 问题分类的研究现状 问题分类的研究方法一种是基于规则的分类方法p 4 ,这种方法需要人工制定 规则,然后再根据规则进行分类,分类的效果主要依赖于这些人工制定的规则。 但是由于汉语的复杂性,这些规则的提取是很困难的,并且也很难穷举出所有的 问题类型的规则,因此会影响分类的效果。另一种是基于统计的问题分类方法【3 5 1 , 通过对真实的经过标注的问句语料进行统计学习,提取问句的特征,建立学习模 型,实现各种问题的类型识别。这种方法是通过学习来获取知识的,因此具有很 大的优势。 第二章问题理解 闯题分类的方法最初是根据疑问词短语对闯题类型进行划分,此种方法的优 点是简单易行,但是由于对问题的分类太过粗浅而导致问题分类的准确率过低【3 6 1 。 后来有不少研究者结合句法分析对问题进行分类,如文献【3 6 】采用汉语依存语法与 句法结构相结合的方法对问句进行分类;文献【3 刀采用短语句法树与句法结构相结 合的方法提取问题类型,这些研究都取得了较好的效果。但是同英文的问题分类 的研究相比,中文对问题分类的研究还有很大的欠缺,目前对此研究较多的机构 主要有复旦大学和哈尔滨工业大学【3 7 1 ,它们分别采用了s v m 算法和改进的贝叶斯 模型进行问题分类。 但是目前问题分类的准确率仍然不是太高,这主要是因为基于规则的分类方 法中,规则的制定是有限的,因此能正确进行分类的问题的数量也是有限的,一 旦超出制定的规则的范围,问题分类的正确率会大幅下降,而对于采用基于统计 的问题分类的方法,则需要建立大规模的语料库,否则也无法进行正确的问题分 类,并且目前问题的分类方法对于事实型的问题正确率较高,而对于列表型及定 义型的问题分类的正确度较低。 本文在此基础上采用了两种方法对问题进行分类,一是基于疑问词短语及问 旬标准型相结合的方法,此方法主要针对基于事实型的问题;另一种是句法结构 与语义分析相结合的方法对问题进行分类,此方法主要针对与列表型及定义型的 问题,采用两种方法相结合的方式,来提高问题分类的正确率。 2 4 2 改进的问题分类的方法 本文先分析第一种问题分类的方法,此方法是在基于传统的根据答案类型进 行问题分类的基础上,加入疑问词短语及问句标准型进行问题分类,具体的思想 是:首先识别用户问句中包含的疑问词短语,根据疑问词短语找到对应的句型模 式集,然后与模式集中的句型规则进行匹配,从而得到问句标准型,由此得知问 题的类型,再根据特征词确定问题领域,得到搜索答案时所需要的访问方式,确 定搜索的数据源。本文通过对大量的用户问题进行统计,定义了八种问题类型, 如下表2 1 所示。 1 2 西北大学硕士学位论文 表2 1 问题类型 疑问词短语 问题类型预期的答案类型问题的举例 举例 什么人谁 f 啜令人 询问人 人名 谁提了人工智能? 诚心哪些 哪一个人 什么地方什 么地点哪里 询问地点地点名词世博会在哪里举办? 哪儿何处 什么时间什 询问时间么时候何时时间名词新中国是什么时候成立的? 哪个时候 询问数量多少几个数字中国的人口是多少? 询问定义什么 解释型答案 什么是计算机? 什么方法 怎样哪些 询问方法方法哪些解释型答案怎样使自己身体健康? 途径什么 方式 什么原因 为什么什 询问原因解释型答案为什么会出现日食? 么因素哪 毖因素 其它情况复杂世界上有哪些国家? 表2 1 与其它的问题类型表有所不同,具体表现在疑问词短语上,很多问题分 类是以单个的疑问词进行分类,如问句中存在疑问词“谁 ,那么极有可能是询 问人的问题,问句中存在疑问词“哪儿,则很有可能是询问地点的问题。但有 时候,仅仅依靠单个的疑问词还不足以判断出问题的类型,例如表2 1 中的疑问词 “什么 ,它可以用来询问原因型的问题,以“什么原因 的形式进行 表示;也可以用来询问方法类型的问题,以“什么方式的形式进行表 示。因此本文将一些联合比较紧密、询问目的明确的词语与疑问词合并,生成新 的疑问词短语,通过疑问词短语来判断问题的类型。这里所说的联合比较紧密、 询问目的明确的词语一般是指疑问词后面紧跟的名词,根据名词的类型来确定疑 问词短语的类型,进而得到问题的分类。 本文将可以互相替换的疑问词短语归为同一组,并将其中一个疑问词短语作 为“关键疑问词短语,这样同在一组中的任意疑问词短语就可以用关键疑问词 替换,从而可以使用相同的分析方法,避免了重复制定算法规则,进行重复分析。 第二章问题理解 关键疑问词短语是通过对大量的用户问题的统计设定的,在表2 1 中,每种问题类 型中第一个疑问词短语作为关键疑问词短语。 根据疑问词短语进行分类,只能得到问题的基本类型,还不能确定具体的搜 索策略,因此还需要根据句型规则进行进一步的划分,但是对于类型是“其它一 的问题类型,还不能制定具体的规则,本文采用语义分类的方法,利用概念图的 形式分析问句,并在概念图的基础上对用户问句进行问题分类,具体内容本文将 在下一小节中详细分析。 不同的用户对于同一个问题可能有不同的表达方式,比如问题“谁提出了人 工智能,有些用户还可能用“人工智能是什么人提出的 、“哪个人提出了人 工智能力、“人工智能是何人提出的 等方式来进行表达。显然以上4 个问句是 针对的是同一个问题,只是使用的疑问词和句子的表达形式不相同,如果采用传 统的问题分类的方法,4 个问句将被划分为不同的类型,返回的答案也会因为采用 不同的搜索策略而不同。如何使采用不同的表达方式表示的同一个问题能得到相 同的处理? 本文采取的办法是引入“问句标准型,通过问句标准型,实现多( 多 种提问方式) 对一( 问句标准型) ,一( 问句标准型) 对多( 多种答案抽取规则) 的映射。 在表2 2 中列出了针对问题类型“询问人 的问句句型、问题标准型及答案抽取规 则。 表2 2 问句模式匹配 疑问词短关键疑问 问句句型 问句标准型答案抽取规则 语词 谁 n p + 是+ 计、7 pw h o + v p + n p 什么人 什么人 咿v p n p - v p - w h o n p + 是+ w h 0 + v p 哪个人咿v p v m p + 是+ w h o 何人 n p + 是+ 斗、,p 在表2 2 中n p 表示名词短语,v p 表示动词短语,本表通过问句类型对问句标 准型的映射关系,将用户提出的问题映射为统一的形式,大大缩减了系统的开销, 使系统的效率得到提高。而问旬标准型与答案抽取规则的映射,更是为后面的搜 索工作提供了多元的答案表达式,进一步提高了系统的查全率。 为了进一步提高系统的效率,本系统设置了大量的特征词,如问题:罗马 假日的导演是谁? 如果系统知道“罗马假日 是电影名字,那么就可以直接到一 个专门的电影网站上进行搜索,“罗马假日 就是这个问句的特征词。特征词确 定了系统搜索的对象,同时也明确了数据源和访问方式。由于不同数据源的信息 西北大学硕士学位论文 组织结构不同,因此访问数据的方式也不一样,对于不同的数据源,系统将使用 不同的访问模块。特征词的选取要求针对性强,特征明显,有代表性,容易区分。 特征词的扩充是一个长期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年齐齐哈尔市昂昂溪区人民法院聘用制人员招录3人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025湖北黄石市阳新县卫生健康局招聘公益性岗位人员2人考前自测高频考点模拟试题及一套答案详解
- 2025年上海市第一人民医院酒泉医院自主招聘专业技术人员30人考前自测高频考点模拟试题及答案详解一套
- 2025年福建省盲人协会招聘1人模拟试卷及答案详解(夺冠)
- 2025贵州黔晨综合发展有限公司招聘录用人员考前自测高频考点模拟试题附答案详解(完整版)
- 2025福建泉州市面向教育部直属师范大学福建省生源公费师范生、福建省内高校泉州生源公费师范生招聘编制内新任教师52人模拟试卷及完整答案详解一套
- 2025贵州省地震局事业单位招聘事业单位人员2人(第二批)考前自测高频考点模拟试题及参考答案详解
- 2025辽宁铁岭市昌图县公益性岗位招聘9人考前自测高频考点模拟试题及1套参考答案详解
- 2025年牡丹江绥芬河市博物馆公开招聘讲解员招聘4人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025广东广州市白云区人民政府嘉禾街道办事处第一次招聘就业见习岗位2人考前自测高频考点模拟试题附答案详解(黄金题型)
- 辽宁2025自考生物医药数据科学生物信息学选择题专练
- 2025内蒙古鄂尔多斯市国源矿业开发有限公司招聘75人备考考试题库附答案解析
- 2025年专升本政治试题真题及答案
- 幽门螺杆菌课件
- 阳光心态与正能量课件
- 元代文学-课件
- 水利法规基础知识培训课件
- 包装材质基础知识培训课件
- 2025至2030中国生产监控行业项目调研及市场前景预测评估报告
- 极地安全教学课件
- 养老护理员学习汇报
评论
0/150
提交评论