




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)限定领域内问答系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得囟墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 日期: 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果( 含计算机软件、程序) 属于 内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内 蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大 学计算机学院方可投稿或公开发表。 学位论文作者签名:建敞指导教师签名: 日 期:q 叫珥 日 期: 差撖螂 斜毕 箍 内蒙古大学硕士学位论文 限定领域内问答系统的设计与实现 摘要 随着i n t e r n e t 的快速发展,网上的信息越来越多,如何在海量的信息中快速 准确的找到所需要的信息成为目前的一个研究热点。搜索引擎的出现,在一定 程度上解决了用户获取信息的需求,但通常会对用户的提问返回成百上千个网 页,用户还需手工查找才能获得最终的答案。 问答系统是新一代智能搜索引擎,它允许用户以自然语言的形式进行提问, 并向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的 满足用户的查询要求,更准确地检索出用户所需要的答案,是未来发展的方向。 本文就问答系统中的三个核心问题:问题理解、信息检索和答案抽取进行了探 讨,根据计算机领域的特点,设计并实现了一个基于网络的中文问答系统。 问题理解是中文问答系统首先进行的工作,此过程的分析结果对后面的处 理具有重要的影响。本文在此阶段做了如下工作:在通用分词词典的基础上, 加入计算机专业词汇,排除了词类歧义;对用户以自然语言的形式提问的问题, 运用基于疑问词和疑问焦点相结合的方法进行问题分类,实验结果表明,该方 法是行之有效的。 信息检索是问答系统中承上启下的重要组成部分,其性能优劣直接影响到 答案抽取模块的准确性。本文提出了一种双策略检索方法,即本地知识库检索 和网络检索。如果从本地知识库中检索到满足条件的问题答案,则直接将答案 返回给用户;如果没有找到,就进行网络检索。进行网络检索时,将根据问题 理解所得到的问题类型,采取不同的检索策略。 i 限定领域内问答系统的设计与实现 在答案抽取阶段,答案的选择最终决定了用户的体验。本文就该部分进行 了初步探讨,并尝试着用一种变通的方法实现了对某些特定问题类型答案的提 取。 最后,介绍了系统实现和试验结果及其评价。 关键词:问答系统,问题理解,信息检索,答案抽取 内蒙古大学硕士学位论文 d e s i g na n di m p l e m e n t a t i o no fq u e s t i o n a n s w e r i n gs y s t e mi nar e s t r i c t e dd o m a i n a b s t r a c t w i t ht h ef a s ts p r e a ds p e e do fi n t e m e ta n dt h ee x p l o s i o no fi n f o r m a t i o n , i ti sa h o tr e s e a r c ht h a th o wt of i n do u tt h ei n f o r m a t i o nn e e d e dq u i c k l ya n de x a c t l yf r o mt h e v a s to fi n f o r m a t i o ns o u r c e t h ee m e r g e n c e so fs e a r c he n g i n e ss a t i s f yt h eu s e r sn e e d o fg e t t i n gi n f o r m a t i o nn e e d e di nac e r t a i nd e g r e e ,b u tu s u a l l y , s e a r c he n g i n e sr e t u r n h u n d r e d so ft h o u s a n d so fd o c u m e n t si nr e s p o n s et oaq u e r y i ft h eu s e r sw a n tt og e t t h ef i n a la n s w e r s ,t h e yh a v et os e a r c hm a n u a l l y q u e s t i o na n s w e r i n gs y s t e m ( q a s ) i st h en e x tg e n e r a t i o no fs e a r c he n g i n e i t a l l o w st h eu s e rt oa s kq u e s t i o n su s i n gn a t u r a ll a n g u a g ea n dr e t u m sp r e c i s ea n s w e r s s oc o m p a r e dw i t ht r a d i t i o n a ls e a r c he n g i n e s ,q a sc a nr e t r i e v et h em o s tp r e c i s e a n s w e rt os a t i s f yu s e r sd e m a n d so fs e a r c h i n g q u e s t i o na n a l y si s ( q a ) ,i n f o r m a t i o n r e t r i e v a l ( i r ) a n da n s w e r i n ge x t r a c t i o n ( a e ) a r et h et h r e ek e y si nq a s w e d i s c u s s a l lo ft h e m ,d e s i g na n di m p l e m e n taq a sb a s e do nw e ba n dc o m p u t e rd o m a i n f e a t u r e q a i st h ei n i t i a lt a s ko fc h i n e s eq a s ,t h er e s u l to fw h i c hh a sag r e a te f f e c to n t h ef o l l o w i n gp r o c e s s i n g w em a k et h ef o l l o w i n gr e s e a r c h :i nl e x i c a la n a l y s i sp h r a s e , w ei n s e r tc o m p u t e rw o r dl i s tb a s e do ng e n e r a ls e g m e n t a t i o nd i c t i o n a r y , e x c l u d ew o r d a m b i g u i t y ;t ot h eq u e r yq u e s t i o n e di nn a t u r a ll a n g u a g e ,w ec l a s s i f yt h eq u e s t i o nu s i n g i i i 限定领域内问答系统的设计与实现 ac o m b i n e dm e t h o db a s e do n q u e s t i o nw o r da n dq u e s t i o nf o c u s t h ee x p e r i m e n t s h o w si tp e r f o r mw e l l i ri sav e r yi m p o r t a n tc o n n e c t i n gp a r ti nq a s ,w h o s ep e r f o r m a n c ee f f e c t st h e p r e c i s eo f a em o d u l ew ea d d r e s st w os t r a t e g yr e t r i e v a lm e t h o d s i ti n c l u d e st h el o c a l k n o w l e d g ed a t a b a s er e t r i e v a la n dw e br e t r i e v a l i fr e t r i e v a l e dt h ea n s w e ri nl o c a l k n o w l e d g e ,t h ea n s w e rw i l lb eg i v e nt ot h eu s e rd i r e c t l y ;i ff a i l e d ,w e br e t r i e v a lw i l l b ed o n e w h e nd o i n gw e b r e t r i e v a l ,d i f f e r e n tr e t r i e v a ls t r a t e g yw i l lb et a k e nb a s e do n a n s w e r t y p eo b t a i n e db yq a m o d u l e i nt h ep h a s eo fa e ,a n s w e r i n gc h o o s i n gs e t t l eo nu s e r s u n d e r g o i n go fq a s d i r e c t l y t h i sp a r tc o n f e r r e do v e r s i m p l i f i e d ,a n dt os o m es p e c i f i cq u e s t i o nt y p e s , c o m p l e t e du si n g af l e x i b l em e t h o d f i n a l l y , t h ei m p l e m e n t a t i o no fq a s ,t h er e s u l t sa n de v a l u a t i o n sw i l lb eg i v e n k e y w o r d :q u e s t i o na n s w e r i n gs y s t e m ,q u e s t i o na n a l y s i s ,i n f o r m a t i o nr e t r i e v a l , a n s w e r i n g e x t r a c t i o n i v _ 内蒙古大学硕士学位论文 目录 摘| 要i a b s t r a c t i i i 目录v 图表目录v i i 第一章绪论l 1 1 本文的研究背景和意义1 1 2 问答系统研究概述2 1 2 1 问答系统的国内外研究现状2 1 2 2 问答系统的分类_ 3 1 2 3 问答系统的核心问题5 1 2 4 问答系统的评测方法6 1 3 研究内容与组织结构。7 1 3 1 研究内容7 1 3 2 组织结构8 第二章问题理解9 2 1 引言9 2 2 问题理解的流程9 2 2 1 词法分析一l o 2 2 2 问题分类1 2 2 2 3 关键词提取一l5 2 2 4 关键词扩展16 2 2 4 生成检索表达式17 2 3 本章小结_ 18 第三章信息检索2 0 3 1 信息检索的理论基础2 0 3 1 1 信息检索系统的结构2 0 3 1 2 信息检索的三个数学模型21 限定领域内问答系统的设计与实现 3 2 问答系统中的信息检索2 4 3 3 本系统的信息检索方法2 5 3 3 1 检索流程:2 5 3 3 2 信息源的选择2 6 3 3 3 复杂类问题的二次检索2 8 3 5 本章小结3 0 第四章系统实现与评价3l 4 1 设计思想3 1 4 2 系统总体框架3 2 4 3 系统实现与评测3 2 4 3 1 简单类问题答案抽取的实现3 3 4 3 2 各模块的评测标准3 7 4 3 3 实验结果与评价3 7 第五章总结4 0 参考文献。4 2 j l j ( 谢4 5 v i 内蒙古大学硕士学位论文 图表目录 图2 1 问题理解流程1 0 图2 2g o o g l e 返回的部分结果18 图3 1 典型信息检索系统的结构2 0 图3 2 信息检索的向量空间模型2 3 图3 3 简单类问题信息检索模块的流程。2 5 图3 4 复杂类问题信息检索模块的流程2 5 图3 5 倒排索引表2 9 图4 1 系统总体框架3 2 图4 - 2 系统的主界面3 3 图4 3 简单问题答案抽取流程3 6 表2 1 扩充前后分词结果的比较1 2 表2 2 问题类型及对应的疑问词1 4 表2 3 部分停用词1 6 表2 4 根据问题类型扩展的关键词17 表2 5 检索表达式的扩展。l8 表4 1 断句规则3 4 表4 2 分类准确率3 8 表4 3 检索模块的查准率3 9 表4 4 部分指定问题的效率3 9 v l i 内蒙古大学硕士学位论文 第一章绪论 随着互联网的迅速发展和广泛普及,网上信息越来越多,呈爆炸性增长;网上的信息又 是开放的,这等于说任何一个用户都拥有海量的信息。网络的普及使人们对网上信息的应用 需求不断提高,人们已经不再满足网络世界中简单的漫游,而是希望通过搜索更快速、准确 地获得自己需要的信息。 1 1 本文的研究背景和意义 如何在日益庞大的互联网上获得有价值的信息已成为网民日益关注的问题。随着搜索引 擎技术的发展和普及,现在人们可以很方便的得到自己想要的各种信息。目前比较有名的搜 索引擎有g o o g l e 、b a i d u 、y a h o o 等,无论哪方面的内容,这些搜索引擎都能帮助人们快速地 找到相关的网页。用户只需输入一些关键字,它们马上就会搜索出相关的网页。但目前的搜 索引擎仍然存在很多不足的地方。其中主要有三个方面: ( 1 ) 相关性信息太多。传统的搜索引擎返回的相关网页太多,用户很难快速准确地定位到 所需的信息。例如,用户在g o o g l e 上输入几个关键字,它有可能返回成千上万个网页,用户 不得不浪费很多时间在这些网页中查找自己所需要的信息; ( 2 ) 无法以几个关键词的简单组合来表达检索需求。人们的检索需求往往是非常复杂而特 殊的,通过简单的几个关键词组合,用户很难用几个关键词将自己的检索意图表达清楚,搜 索引擎自然也就没有办法找出令用户满意的答案了; ( 3 ) 检索效果差强人意。以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语 言的表层,而没有触及语义。 2 l 世纪,是信息的时代,人们对各种信息的获取需求呈指数增长。如何快速、准确地获 取信息? 传统的搜索引擎似乎己不能满足人们的需求,问答系统( q u e s t i o na n s w e r i n gs y s t e m , 简称q a s ) 正是在这种情况下提出的【l 】。它将是快速、准确获取信息的最好途径,它的设计 理念、运行机制和期望结果都不同于现有的关键词检索,是更高形式的信息检索,是搜索引 擎的深度扩展。 中文问答系统既能用自然语言句子提问,又能为用户直接返回问题的答案,而不是相关 的网页,所以问答系统能更好的满足用户的检索需求,能更快地找出用户所需的答案。可以 限定领域内问答系统的设计与实现 说,问答系统就是新一代的搜索引擎。对于问答系统,用户不需要把自己的问题分解成关键 词,用户可以把整个问题直接交给问答系统。问答系统结合自然语言处理技术,通过对问题 的理解,直接提交给用户想要的答案。问答系统就像一个知识渊博的专家,可以快速准确地 回答任何问题。比如,用户提交一个问题“中国的首都在哪里? ,问答系统将会直接给出答 案:“中国的首都是北京”。可以看出,问答系统要比传统的搜索引擎方便、快捷、高效。将 革命性地改变人们从计算机和网络中获取信息的方式,具有很大的理论和实用价值。 据第2 5 次中国互联网络发展状况统计报告报道,截至2 0 0 9 年1 2 月,中国网民规模已突 破3 亿人,达到3 8 4 亿人,较2 0 0 8 年底增长2 8 9 ,且网民规模将一直呈现持续快速发展的趋势 陋1 。随着计算机的普及,对计算机相关知识的获取需求也在同步增长。本课题是基于计算机 领域的,旨在解决网络用户对计算机相关知识获取的需求问题,其提出具有普遍意义和较强的 实用价值。 1 2 问答系统研究概述 1 2 1 问答系统的国内外研究现状 早在2 0 世纪6 0 年代人工智能研究刚刚开始的时候,人们就提出了让计算机用自然语言 来回答人们的问题,这可以看作是问答系统的雏形。问答系统在2 0 世纪8 0 年代的自然语言 处理领域曾风靡一时,因为t u r n i n g 实验告诉人们如果计算机能够像人一样进行对话,就可 以认为计算机有智能,所以研究者们为了探索语言理解技术,纷纷研究自然语言问答系统。 但是由于当时的条件所限,所有的实验都是在非常受限的领域,甚至是固定段落上进行的, 所以问答系统一直是被限制在特殊领域的专家系统。此后由于大规模文本处理技术的兴起, 问答系统的研究受到了冷落。 最近几年,随着网络和信息技术的快速发展,同时人们想更快、更准确地获取信息的愿 望也重新促进了问答技术的发展。最近有越来越多的公司和科研院所参与了问答技术的研究, 比如微软、i b m 等著名的跨国公司。在每年一度的文本信息检索会议t r e c 3 1 ( t e x tr e t r i e v a l c o n f e r e n c e ) 上,自动问答系统都是最受关注的主题之- - 1 4 1 。 现在国际互联网上已经有一些面向不同专业领域或开放域的问答系统,其中比较著名的 有s t 叭【5 1 、a s k j e e v e 6 1 、a n s w e e r b u s 7 1 等。s t a r t 是麻省理工学院开发的问答系统,在1 9 9 3 年 开始发布在i n t e m e t 上,该系统是第一个面向国际互联网的自然语言问答系统,它能够回答一 2 内蒙古大学硕士学位论文 些有关地理、历史、文化、科技、娱乐等方面的简单问题。 a s l d e e v e s 是美国a s k j e e v e s 公司的检索系统,它把信息分为不同的类别和应用领域,允 许用户用自然语言句子提问检索系统会自动分析用户的提问,然后通过与用户的交互进一步 明确用户的真正意图,这使得用户能够充分表达自己的检索要求,这种检索方式检索到的网 页比单纯基于关键词的网页更符合用户的需求。但是a s k j e e v e s 返回的结果仍然是网页,而 不是问题的直接答案。 a n s w e r b u s 是一个面向互联网的、多语种的自动问答系统,它不仅可以回答英语问题, 还能回答法语、西班牙语、德语等很多语种的问题。然而a n s w e r b u s 并不给出问题的具体答 案,而是返回可能包含答案的句子和相关联的u r l 。 华盛顿大学的m u l d e r 是第一个完全以网络作为其知识库的自动问答系统,它将检索 到的网络文档下载到本地,并且对这些文档进行详细的语法分析并从中抽取答案。新加坡国 立大学的l a m p 是另一个和m u l d e r 相似的系统,不同的是,l a m p 采用比较简单的分析 技术,并不下载检索到的网页而仅仅分析搜索引擎返回的网页片断信息。l a m p 采用传统的 向量空间模型( v s m ) 的改进作为抽取答案的方法。 国内也有一些研究机构参与了自动问答技术的研究,如中国科学院计算技术研究所、复 旦大学、哈尔滨工业大学等等。但是相比之下,参与中文自动问答技术研究的科研机构较少, 而且基本没有成熟的中文自动问答系统。国内外研究还存在着较大差异,主要因为: 首先,由于语言本身的原因。国外的研究不需要考虑对句子的分词,英语的疑问词可以 作为问题分类的标记,问题类型的确定也就变得容易了。但在中文系统中分词和词性标注贯 穿始终,如果分词不准确则系统的每一步理解都会有误差,以至于最后得到的答案将答非所 问,这也是中文自然语言处理的难点所在。其次,由于检索技术的不一样,也会影响回答的 准确率。另外,答案抽取基本上是以权重排序,并从最大的文档中抽取答案,而对于不同类 型的问题,句子、词、短语,甚至多文档自动文摘都可以作为答案。鉴于目前这些方面的研 究相对初级,所以目前中文问答系统的回答准确率普遍较低。 1 2 2 问答系统的分类 伴随着人们在问答系统理论和实践方面的努力,相继出现了各种类型的问答系统。总体 说来,可以将这些问答系统划分为:聊天机器人、基于知识库的问答系统、问答式检索系统、 基于自由文本的问答系统等四类。 限定领域内问答系统的设计与实现 1 ) 聊天机器人 聊天机器人几乎全部采用模式匹配的方法来寻找问题最合适的答案。它们与用户的交谈 都是基于谈话技巧和程序技巧,而不是根据常识。在它们的对话库中,可以存放多个句型、 模板,但几乎没有常识库。 对于知道答案的问题,聊天机器人往往给出人性化的回答;对于不知道答案的问题,有 三种回答方法:猜一个答案;老实说不知道;用转移话题的办法回避。目前的聊天机 器人,因为其知识库规模有限、甚至没有知识库,所以面对用户提出的许多专业性问题,用 的就是第三种方法,也就是用转移话题的办法回避。因为知识的缺乏,聊天机器人目前还没 有太多的实际用途,除了和用户“聊天 ,它并不能解决太多的实际问题,但是聊天机器人所 体现出来的一些技术特色,却值得我们注意,例女1 :1 - 正确理解用户的询问,从用户的输入中 进行学习,使得答案更加人性化、更合乎逻辑。 2 ) 基于知识库的问答系统 基于知识库的问答系统是指拥有一个或多个知识库,并利用检索、推理等技术来理解和 回答用户问题的问答系统。一般来说,知识的数量与质量是一个基于知识库的问答系统性能 是否优越的决定性因素。为了得到满意的答案,必须具备尽可能完备的知识库。 现有的基于知识库的问答系统,大致包括:基于本体的问答系统;自然语言界面的专家 系统;基于受限语言的数据库查询系统和基于f a q 的问答系统。这种系统对用户提出的许多 问题,回答准确,甚至可以进行一定程度的推理计算,但是,如果用户的问题落入系统的知 识库范围之外,系统性能很快会下降为零。 3 ) 问答式检索系统 问答式检索系统也称问答式搜索引擎或者智能搜索引擎,是根据以自然语言方式提交的 用户查询,从系统文档集合或w w w 中,检索出相关文本或网页,并将其返回给用户,它所 需要的技术主要包括两个:用户查询处理技术和信息检索技术。 问答式检索系统的流程一般为:系统接受用户用自然语言提交的查询,对用户查询进行 分析,理解用户的意图,抽取出用户查询中的关键词,并利用语义词典( w o r d n e t 、h o w n e t 等) 进行关键词扩展,将关键词提交给搜索引擎( 如g o o g l e 等) ,进行检索,最后将搜索引 擎返回的前n 个网页提交给用户。与现有搜索引擎相比,问答式检索系统的优势并不明显。 一系列测试结果表明,无论是速度还是准确性,g o o g l e 都要比现有大多数问答式检索系 统高出许多。并且,问答式检索系统返还给用户的,只是和用户查询相关的文本或者网页, 4 内蒙古大学硕士学位论文 而不是用户问题的具体答案,所以严格说来,问答式检索系统不算是一个真正的问答系统, 而是一个信息检索系统。目前实用的问答式检索系统很少。 4 ) 基于自由文本的问答系统 所谓自由文本,又称原始文本、非结构化文本,是指未经人工处理的文档、网页等。基 于自由文本的问答系统接受用户以自然语言提交的问题,然后利用信息检索( i r ) 等技术, 从系统的自由文本库中检索出相关的文档、网页,最后利用答案抽取等技术,从检索出来的 自由文本中抽取出问题的答案并提交给用户。 基于自由文本的问答系统,基本上分为三个步骤,首先,处理用户查询;其次,检索相 关的自由文本:最后,从自由文本中抽取答案。它所涉及到的技术包括信息检索( i r ) 技术、 信息抽取( i e ) 技术、文本挖掘、o n t o l o g y 、文本聚类、文本摘要等几乎所有的自然语言处 理( n l p ) 技术( 包括词法分析、句法分析、语义分析、指代消解等) 。 与上述各类问答系统相比,基于自由文本的问答系统,不需要建立大规模知识库,而是 基于自由文本进行知识问答,这节省了大量的人力物力;并且系统返回给用户的,是用户问 题的具体答案而不只是和用户查询相关的文本或者网页。应该说,基于自由文本的问答系统, 代表着问答系统的未来发展方向。 1 2 3 问答系统的核心问题 这里介绍的问答系统是指真正意义上的问答系统,即能够接受自然语言问句,并返回准 确答案的问答系统。这类问答系统从体系结构看,几乎都包括:问题理解、信息检索和答案 抽取这三个部分【8 】 9 1 1 0 l 。此外,有些问答系统,特别是实用化的问答系统,还包括一个常 见问题库( 简称f a q 库) ,这主要是为了提高系统的效率和准确率。 1 ) 问题理解( q u e s t i o na n a l y s i s ) 问题理解有时也称为问题分析。问题的理解是问答系统首先进行的分析工作,这个阶段 分析的结果对后面的处理有着重要的影响。问题理解一般需要确定问题的类型、提取出问题 的关键词、依据问题的类型等因素对问题进行适当的扩展。如果是中文问答系统,首先要对 问题进行分词以及词性标注等,这将涉及到复杂和庞大的汉语语言学和自然语言处理技术的 研究,这也是中文问答系统比英文问答系统开发难度大的主要原因之一。 问题理解阶段还要针对不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段 应用这些规则来抽取问题的答案。比如对于询问地点的问题,就可以规定,答案中必须含有 限定领域内问答系统的设计与实现 位置类信息。 2 ) 信息检索( i n f o r m a t i o nr e t r i e v a l ) 信息检索的任务就是用提取出来的关键词及扩展到文档库中查找并返回一些最相关的文 档。信息检索模块的输入一般都是关键词的组合,要建立一个信息检索模块,需要对文档库 建立索引,这样才能快速地找到包含特定关键词的文档。信息检索的关键是对文档权重的确 定和对文档进行排序。 一般信息检索返回的都是文档,但是应用于问答系统的信息检索模块返回的可以是文档, 也可以是段落、句子,甚至还可以是短语。信息检索模块返回的相关文档中,一般只有文档 中的一小部分才是问题的答案。在这么多的相关文档中查找答案是一个很复杂的过程,所以 有的信息检索模块返回的是相关的段落,这样,答案的查找就更快了。 信息检索模块在问答系统中属于较为传统的检索技术,可以调用现有的比较成熟的各种 检索模型。信息检索的对象可以有多种形式,针对不同的检索对象,采用不同的检索方法和 处理策略。 3 ) 答案抽取( a n s w e re x t r a c t i o n ) 答案抽取是问答系统最终产生答案的关键模块,前面的处理都是为答案抽取服务的,答 案抽取的对象是信息检索提交的检索结果。一般搜索引擎返回的是一堆网页,而问答系统需 要返回的是简短的、准确性很高的答案,这样通过信息检索模块搜索出来的相关文档就要提 交给抽取模块来提取答案。答案可以是一段话、一句话,甚至一个短语。对于那些询问时间、 地点的问题,就可以用很短的语句来回答,而对于询问原因、方式等问题就需要较长的语句 才能回答,所以答案抽取时还需要依据问题理解阶段判断得到的问题的类型采取相应的策略。 综上所述,如何在问题理解阶段充分理解用户的提问意图,如何在信息检索模块中把相 关的文档找出来,如何在答案抽取模块中准确地把答案从相关文档中抽取出来,是自动问答 技术所要解决的核心问题。 1 2 4 问答系统的评测方法 如何客观而科学地评测问答系统的性能,同样是该研究领域一个很重要的问题。目前, 对问答系统进行评测的国际会议有:英语问答评测平台t r e cq at r a c k 、日语问答评测平台 n i c i r 和多语种问答评测平台c l f f 。应该说,目前的问答系统测评测标准并不完全成熟,还 存在相当的主观成分。 6 内蒙古大学硕士学位论文 目前t r e cq at r a c k 检索用的较多的,是查全率( r e c a l l ) 和查准率( p r e c i s i o n ) ,以及两者 的调和平均数f 。具体如下: r e c a l l = 查询出来的准确答案个数数据库中所有的准确答案个数 ( 1 1 ) p r e c i s i o n = 查询出来的准确答案个数查询出来的所有答案个数( 1 2 ) f = 2 x p x r x ( p + r )( 1 - 3 ) 汉语问答技术的研究还处于起步阶段,国际上尚未有一个公开的、公认的汉语问答系统 测试集合以及评估方法。作为尝试,中科院自动化所已经初步建立了一个汉语问答系统评测 平台( 简称e p c q a ) 。其中,e p c q a 语料库、测试集和打分标准的建立基本参考t r e cq a t r a c k 、 n i c i r 和c l f f 的成功经验,并针对汉语的特点进行适当的修改】,如下所述: 首先建立一个测试集,这个测试集是人工做出来的问题和答案对的集合。把这个测试集 中的问题提交给问答系统,让问答系统自动的给出答案,然后把问答系统自动找出的答案和 测试集中的答案,进行人工的对比。如果问答系统给出的答案通过人工的对比基本正确,则 可以判断这个答案是正确的,否则答案是错误的。这样就可以计算出问答系统的准确率,公 式为: 准确率= 答对的问题数问题总数 ( 1 4 ) 这种评测方法简单而有效,本文也采用了这种评测方法。 1 3 研究内容与组织结构 1 3 1 研究内容 本文主要对中文问答系统的前两个阶段一问题理解和信息检索进行了研究,并就第三个 阶段塔案抽取进行了初步探讨,并尝试用一种变通的方法实现了对某些特定问题类型答案 的提取。 问题理解阶段是问答系统执行的开始,也是所有涉及到自然语言接口系统的研究内容; 信息检索阶段是问答系统执行的中间阶段,其质量直接影响到后续答案的选择。本文对用户 的提问进行详尽的分析和判断,这将大大提高系统后期工作的准确率,从而提高系统的性能。 在信息检索阶段采取高效的双搜索策略,不仅能够提高检索的速度而且还能够提高检索的准 确度。 本文将主要从以下几个方面进行研究: 7 限定领域内问答系统的设计与实现 ( 1 ) 在通用分词词典中加入计算机专业词汇和中英文词对,排除词类歧义,增加分词准 确率; ( 2 ) 对用户的提问方式进行深入研究,总结并提炼问题规律,以提高问题分类的准确率; ( 3 ) 提取问题中的关键词并进行适当的扩展,判断关键词的重要性,并根据重要性引入 权重; ( 4 ) 以本地知识库和网络知识库为依托,研究不同问题类型所适用的检索方法。 1 3 2 组织结构 本文构思和布局安排如下: 第一章简要地叙述了问答系统概况,并论述了中文问答系统的应用和研究价值,指出本 课题的研究意义和主要研究内容; 第二章从词法分析、问题分类、关键词提取及扩展、检索表达式的生成五个方面及系统 所采用的方法进行了详细的分析和阐述; 第三章分析和总结了信息检索系统的结构和信息检索的模型,提出了一种双策略的信息 检索方法,并着重讲述了基于网络的搜索策略的相关问题; 第四章介绍了系统的实现及其结果评测; 第五章总结了本文的主要研究工作,指出了本系统中存在的问题以及下一步需要进行的 改进工作。 内蒙古大学硕士学位论文 2 1 引言 第二章问题理解 目前,问答系统回答问题的准确率普遍不高。有研究表明,其中的一个很重要的原因是 问答系统“理解”用户提问不准确。而问题理解( q u e s t i o na n a l y s i s ,简称q a ) 又是问答系 统的第一个执行阶段,这一阶段的分析结果将成为后一阶段的处理信息,因此问题理解阶段 对用户提问的模糊分析,或错误理解会致使后面的工作变得无效或错误,最终可能导致回答 的不准确甚至严重错误。 在问题理解的过程中,关键就是对问题的内容进行深刻的理解。只有首先明确用户问题 所要表达的正确含义以后,才能够进行问题分类,生成用于信息检索的检索表达式,确立答 案抽取规则和约束条件,用于答案的生成,才能使后续的操作得到满意的结果。 在问答系统中,对疑问句进行理解与一般的自然语言语句理解是不同的。对疑问句的理 解具有特殊性,一方面是因为疑问短语一般很短,但却包含着丰富的语义信息,并且疑问句 的疑问信息主要体现在疑问词上,另一方面是问句的句法结构具有一定的规律性。 2 2 问题理解的流程 对于用户用自然语言提出的问题,一般的问题理解模块首先是进行词法分析,即进行分 词和词性标注,然后进行问题类型分类,提取关键词,并进行关键词扩展,生成检索表达式 后提交给信息检索模块。问题理解的流程见图2 1 : 9 限定领域内问答系统的设计与实现 2 2 1 词法分析 图2 - 1 问题理解流程 f i g 2 - 1p r o c e d u r eo f q a 问 题 理 解 词法分析的主要任务是对自然语言进行切分,并为每个切分的词标记其词性。具体地说, 词法分析主要完成两方面的工作:( 1 ) 分词,就是将连续的字序列按照一定的规范重新组合成 词序列的过程;( 2 ) 词性标注,就是为每一个词标注其词性。 相对英语来说,中文没有词形的屈折变化,不需要词形分析。但中文是连写的,词与词 之间没有明显的分割标记,因此正确地切分句子就成了中文自然语言处理系统的第一步。同 英文问句处理相同,词性对于中文问句处理而言也是很重要的语法信息。在英语、汉语等自 然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因 此如何排除词类歧义,是词性标注研究的关键问题【1 2 】。 词法分析的工作贯穿始终。用户问题需要分词处理,信息检索过程中同样也需要。因此, 在实现分词【1 3 】【1 4 1 的过程中,有两方面的因素必须考虑:分词的正确率和分词的速度。由于无 论哪种分词方法都需要将大量的时间用于计算出待切分语句的可能词,然后通过对切分出的 这些词,依据统计或语法方面的规则得到一种最有可能的正确切分结果,来提高分词的正确 率。如果能加快初始切分的速度,对于提高整个分词算法的速度也会有很大帮助。 目前,国内词法分析技术研究己很成熟,本课题选用的是中科院计算所研制的汉语词法 分析系统i c t c l a s 。 1 ) i c t c l a s 词法分析系统 它采用的是多层隐马尔可夫模型,对原有的隐马模型进行了扩展。将模型分别应用到原 子切分、简单和复杂的未登录词识别及基于类的隐马分词等多个层面上。i c t c l a s 词法分析 1 0 一。 _- 一一一一 _-_-l1-_-_l ill-_-il 内蒙古大学硕士学位论文 系统分词准确率高( 分词精度9 8 4 5 ) ;处理速度快( 单机分词速度9 9 6 k b s ) ;功能全面( 主要 功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典) ,是当前世界 上最好的汉语词法分析烈1 5 】。 2 ) 本系统中改进的部分 本文所实现的问答系统是针对计算机领域的,用户所提问的问题具有较强的专业性,因 此,专业词汇占据了相当重要的地位。这些计算机领域的专业词汇在分词词典中有些是不存 在的,属于未登录词一类,如果让通用的分词系统来切分是很难正确切分出来,容易造成歧 义切分或被切分成零碎的块。但在实际的问题中,计算机领域的专业词语又具有很强的稳定 性、独立性和整体性,一般不会与其它字段产生真正的歧义。所以,我们在设计分词算法时 要对计算机专业词汇进行特殊处理。 本系统对i c t c l a s 进行了一定的改进:即在其分词词典的基础上增加了计算机领域中 文专业词库,并且专门建立了一个计算机领域中英文专业词对照表。实验中,共加入了中文 专业词条7 6 4 8 个,中英文专业词对1 0 5 对。我们将计算机领域的专业词汇加入到通用分词词 典中,并且在词频项赋予较高的值,这样,在分词候选结果选取时,就可以做到首先匹配计 算机领域专业词,再匹配通用词,使系统分词的准确率得到进一步的提高。而且,将计算机 领域专业词直接加入到词典中可以减少另外调用词典的时间,提高系统整体的运行速度。 对问题进行切分时,我们根据改进后的词典抽取出问题中专业词和非专业词,并对计算 机专业词汇进行标记,为问题的匹配率求解提供依据;由于i c t c l a s 词法分析方法对英文 词汇并不进行处理,而英文专业术语的识别关系到问题匹配的精度,因此我们根据英文专业 词典对问题中的英文词汇进行分析和匹配,把专业计算机英文术语找出来,并转化为计算机 中文专业术语,为问题匹配打下基础。 这样处理专业术语有两个好处:首先可以准确的识别中英文专业词汇,达到系统对专业 词汇准确切分的要求;另一方面可以使问题的切分规模减小,有利于提高分词算法的切分效 率。 我们将扩展计算机词典前后的分词结果进行了比较,在表2 1 中举例说明。从比较结果 中可以看出,扩充了计算机专业术语后,可以很好的切分出计算机领域的词语,为系统后绪 的检索模块和答案抽取模块打下良好基础。 限定领域内问答系统的设计与实现 袁2 - 1 扩充前后分词结果的比较 t a b l e2 1c o m p a r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河北医科大学第一医院科聘医生招聘3人考试备考题库及答案解析
- 2025北京交通大学国际教育学院招聘2人备考试题及答案解析
- 2025河南驻马店市市直和经济开发区学校招聘326人考试备考试题及答案解析
- 2025黑龙江鸡西市虎林市自然资源局招聘警卫1人考试备考题库及答案解析
- 二年级下册数学复习安排计划
- 2025年肿瘤科靶向治疗药物效果监测技能检测答案及解析
- 2025年遗传学家庭遗传史调查考题答案及解析
- 2025年药物过敏反应处理能力综合评估答案及解析
- 苏教版四上第一单元第1课时《认识容量和升》(教案)
- 质量检验工作不够到位整改措施
- 本地生活运营合同模板
- 《整式的乘除》上海新教材七年级数学单元教学设计(沪教版)
- 健康管理中心运营与服务流程规范
- GB/T 2820.7-2024往复式内燃机驱动的交流发电机组第7部分:用于技术条件和设计的技术说明
- 2023年法律职业资格《主观题》真题及答案
- 施工项目部会议管理制度
- 职业技术学院《汽车维修接待》课程思政标准
- 夫妻婚内财产协议书(2024版)
- 定制家具工厂外包合同模板
- 污水处理厂风险清单
- 智慧建筑评价标准
评论
0/150
提交评论