(计算机软件与理论专业论文)中史问答系统中问题分析关键技术的研究.pdf_第1页
(计算机软件与理论专业论文)中史问答系统中问题分析关键技术的研究.pdf_第2页
(计算机软件与理论专业论文)中史问答系统中问题分析关键技术的研究.pdf_第3页
(计算机软件与理论专业论文)中史问答系统中问题分析关键技术的研究.pdf_第4页
(计算机软件与理论专业论文)中史问答系统中问题分析关键技术的研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 udc 密级 学位论文 中文问答系统中问题分析关键技术的研究 作者姓名:许莉 指导教师:王大玲教授 东北大学信息学院计算机软件研究所 申请学位级别:硕士学科类别:工学 论文提交日期:j 卯7 年f 2 只弓。日论文答辩日期:2 湖年7 只撂日 学位授予吼m 耳; 日 懒会拂:肾良簪 评阅人:傍跬衩臭房嶂 东北大学 2 0 0 8 年1 月 i 、j 立 1 1 1 ii lli l li tii iiiiii y 18 4 2 8 0 9 at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e rs o f t w a r ea n dt h e o r y s t u d y o nk e y t e c h n i q u e so fq u e s t i o na n a l y s i s i nc h i n e s eq u e s t i o na n s w e r s y s t e m b y x ul i s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j a n u a r y 2 0 0 8 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 一虢许痴l 签- 7 日期:。2 口。子a 2 o , 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 姗躲许翻导臀名:缸移 签字日期:a 硝o j 0 2 f签字日期: 矿护乡y 6 东北大学硕士学位论文摘要 中文问答系统中问题分析关键技术的研究 摘要 随着网络的飞速发展,对某一个问题,如何从海量的非结构化信息中找到合 适的答案已越来越受到人们的关注,问答系统因此应运而生。人们期望它将来能 够完全或者部分取代现在基于字符串匹配的信息检索技术,为人们提供一个更易 使用的信息获取的人机接口。问答系统需要用户输入自然语言形式的问句,系统 对问句进行分析处理,在网络上或其他信息源上搜索候选答案信息,然后对这些 答案信息进行评定,生成自然语言形式答案。 问答系统的最终目标是从信息源中抽取问题的答案,就需要通过对问句进行 分析,分析要搜索什么内容,答案可能需要满足什么条件等。因此如何分析问句、 从中了解问句包含的信息,成为问句处理乃至问答系统的重要任务。 本文分析了目前的中文问答系统中问句分析技术,并结合自然语言处理技 术,提出了一种基于句法结构和语义信息的问题分析方法。在问题分析过程中, 实现了基于改进贝叶斯算法的问题分类和查询词扩展的功能,其中应用了依存句 法分析和语义信息自然语言处理技术。本文详细论述了问题分析系统的相关算 法、实现过程和关键技术。 本文通过实验对问题分析系统进行评测,证明了本文采用的方法提高了问题 分类的准确性,使问答系统能更好地理解问句,提高问答系统的检索效率。 关键词:中文问答系统;问题分析;依存句法分析;语义信息;问题分类;查询 词扩展 i i 东北大学硕士学位论文 a b s t r a c t s t u d y o nk e yt e c h n i q u e so fq u e s t i o na n a l y s i si n c h i n e s eq u e s t i o na n s w e rs y s t e m a b s t r a c t t h eg r o w t hi np o p u l a r i t yo ft h ei n t e r n e th i g h l i g h t st h ei m p o r t a n c eo fd e v e l o p i n g t oe x t r a c ts u i t a b l ea n s w e r st oq u e r i e st a r g e t e da tl a r g eu n s t r u c t u r e dc o r p o r a q u e s t i o n a n s w e r i n g ( q a ) s y s t e m h a sb e c o m eo n eo fm a i nt r e n df o rt h i sp u r p o s e i ti se x p e c t e d t h a ti tc a nc o m p l e t e l yo rp a r t l yt a k e t h ep l a c eo fc u r r e n ti n f o r m a t i o nr e t r i e v a l t e c h n o l o g yb a s e do ns t r i n gm a t c ha n dp r o v i d ea ne a s i e rm a n - m a c h i n ei n t e r f a c ef o r i n f o r m a t i o na c q u i s i t i o n t h eq u e s t i o n sw i t hn a t u r a ll a n g u a g ef o r ma r ea si n p u tb y u s e r s ,t h e na r ea n a l y z e da n dp r o c e s s e db yq a q as e a r c h e sc a n d i d a t ea n s w e r i n f o r m a t i o nf r o mn e t w o r ko ro t h e ri n f o r m a t i o ns o u r c e s ,a n de v a l u a t e st h e s ec a n d i d a t e a n s w e ri n f o r m a t i o nf o rg e n e r a t i n ga n s w e r sw i t hn a t u r a ll a n g u a g ef o r m q a sf i n a lg o a li st oe x t r a c ta n s w e r sf o rq u e s t i o ns e n t e n c ef r o mi n f o r m a t i o n s o u r c e s i tn e e d st ok n o ww h a ti n f o r m a t i o nw i l lb es e a r c h e da n dw h a tc o n d i t i o nw i l l b es a t i s f i e db yp o s s i b l ea n s w e r st h r o u g ha n a l y z i n gt h eq u e s t i o ns e n t e n c e s oi th a s b e c o m ea ni m p o r t a n tt a s kh o wt oa n a l y z ea n du n d e r s t a n dq u e s t i o ns e n t e n c ei n q u e s t i o ns e n t e n c ep r o c e s s i n go re v e n i nq a i nt h i st h e s i s ,t h ec h a r a c t e r i s t i c so fc u r r e n tq u e s t i o np a r s i n gt e c h n i q u e sa r e a n a l y z e d b a s e do nt h ea n a l y s i s ,c o m b i n gw i t hs o m en a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) t e c h n o l o g y ,a na p p r o a c ho fq u e s t i o np a r s i n gm e t h o db a s e d o ns y n t a c t i c s t r u c t u r ep a r s i n ga n ds e m a n t i ci n f o r m a t i o ni sp r o p o s e d i nt h eq u e s t i o np a r s i n g ,t h e q u e s t i o nc l a s s i f i c a t i o nb a s e d o nm o d i f i e db a y e s i a na l g o r i t h ma n dq u e r ye x p a n s i o na r e i m p l e m e m e db ya p p l y i n gd e p e n d e n c ys y n t a xp a r s i n ga n ds e m a n t i cw e b t h er e l a t e d a l g o r i t h m s ,p r o c e s s e s ,a n dt h ek e yt e c h n i q u e si nt h eq u e s t i o np a r s i n gs y s t e ma l e i n t r o d u c e di nt h et h e s i s t h ee x p e r i m e n t sf o re v a l u a t i n gq u e s t i o np a r s i n gs y s t e ma r ed e s i g n e da n d 东北大学硕士学位论文 a b s t i a c t i m p l e m e n t e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tm e t h o dp r o p o s e di nt h i st h e s i sc a n g e tb e t t e rp r e c i s i o no fc l a s s i f i c a t i o n , a n dt h e q u e s t i o ns e n t e n c e c a nb eb e t t e r u n d e r s t o o du s i n gt h i sm e t h o da n dt h er e t r i e v a lr e s u l t sc a nb em o r ee f f e c t i v ei nq a r d s :c h i n e s eq u e s t i o na n s w e r i n g ,q u e s t i o nc l a s s i f i c a t i o n ,d e p e n d e n c ys y n t a x s e m a n t i ci n f o r m a t i o n ,q u e s t i o nc l a s s i f i c a t i o n ,q u e r ye x t e n s i o n i v 东北大学硕士学位论文 目 录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第一章引言。1 1 1 问答系统介绍1 1 2 问答系统的分类。3 1 3 问题提出5 1 4 本文研究的主要内容5 1 5 本文的组织结构一5 第二章相关概念、技术与研究背景7 2 1 问答系统的相关概念。7 2 2 问答系统的关键技术。7 2 3 问题分析的研究现状及相关技术10 2 4 本章小结1 3 第三章基于句法结构和语义信息的中文问题分析系统结构1 5 3 1 系统总体结构1 5 3 2 问题分析的框架及流程1 7 3 3 问题分析的主要技术1 8 3 4 主要资源1 9 3 4 1 中科院分词工具i c t c l a s 1 9 3 4 2 哈工大依存句法分析器2 0 3 4 3 知网2 2 3 5 本章小结2 4 第四章问题分析系统中问题分类技术研究:2 5 4 1 问题类型学2 5 4 2 句法结构分析2 5 一 东北大学硕士学位论文目 录 4 3 特征项的选择2 7 4 3 1 疑问词以及附属成分提取2 7 4 3 2 句子的主干提取j 2 9 4 3 3 句子主干成分上位词的获取3 0 4 4 问题类型计算3 3 4 4 1 贝叶斯模型3 3 4 4 2 改进的贝叶斯分类方法3 4 4 5 本章小结3 7 第五章问题分析系统中的关键词生成技术研究3 9 5 1 句法结构分析3 9 5 2 句子的预处理4 0 5 2 1 词汇的合并4 0 5 2 2 停用词剔除4 1 5 3 关键词的扩展4 2 5 3 1 检索模块4 2 5 3 2 对检索结果的s n i p p e t 分词、提取4 3 5 3 3 查询词的同义词获取4 3 5 4 本章小结4 5 第六章问题分析系统分析与评价4 7 6 1 问题类型分类技术评价与分析4 7 6 1 1 测试数据集及评测标准4 7 6 1 2 实验结果及分析4 8 6 2 关键词生成技术分析与评价5 0 6 2 1 评价标准5 0 6 2 2 实验设计51 6 2 3 实验结果及分析51 6 3 本章小结5 5 第七章总结和展望5 7 7 1 本文的工作总结5 7 v 东北大学硕士学位论文 目录 7 2 下一步的研究工作5 8 参考文献5 9 致 射6 3 攻读硕士期间参加的项目及发表的论文o 6 5 v i 东北大学硕士学位论文第一章引言 第一章引言帚一早亏i 商 随着互联网技术的迅速发展,人们可以从互联网上通过搜索引擎检索到越来 越多的信息,现有的基于字符串匹配的搜索引擎已经不能满足用户的需要,问答 系统应运而生。近年来国内外许多研究机构在这方面做了大量工作,本文介绍的 问题分析系统就是问答系统中的一个子系统,它的主要作用是分析自然语言问 句,为问答系统的后续模块提供指导,从而提高问答系统的准确率和召回率。 1 1 问答系统介绍 由于搜索引擎是被设计用来获取与用户查询请求相关的文档,因此其查询序 列是一系列关键词的组合,而不是以自然语言形式提供的,同时返回的结果是与 用户查询相关的网页列表。但是在实际应用中,用户可能更习惯用自然语言来描 述问题而不是用一系列关键词的组合来获取查询的结果。例如,用户想查询第一 个进入太空的中国人是谁,传统的做法是在搜索引擎中输入“第一个进入太空 中国人”,然后用户跟踪网页,在返回的网页中查找答案。然而在通常情况下用 户可能更习惯使用自然语言作为查询语句,并且希望系统能返回问题的确切答 案,而不仅仅是与该问题相关的一系列网页。开放领域的问答系统正是以用户提 交的自然语言查询语句作为输入,并以精确答案作为输出,对上面的例子,用户 只需要在问答系统中输入“第一个进入太空的中国人是谁”,系统就会返回确切的 答案“杨利伟”。 目前己经形成发展出了一些比较成熟的系统u j ,这里介绍一些典型系统。 美国麻省理工学院人工智能实验室于1 9 9 3 年开发出来的s t a r t 系统【2 】 ( h t t p :w w w a i m i t e d u p r o j e c t s i n f b l a b ) 是全世界第一个基于i n t e m e t 的问答系统。 s t a r t 系统旨在为用户提供准确的信息,它能够回答数以百万的英语问题,主 要包括与地点相关的问题( 城市、国家、湖泊、天气、地图、人口统计学、政治 和经济等) 、与电影相关的问题( 片名、演员和导演等) 、与人物相关的问题( 出生 日期、传记等) 以及与词典定义相关的问题等。该系统采用基于知识库和基于信 息检索的混杂模式,系统还保留着两个知识库,“s t a r tk b 和“i n t e m e t p u b l i c l i b r a r y 。如果用户提出的问题属于这两个知识库的范畴,s t a r t 就直接利用知 】 东北大学硕士学位论文 第一章引言 识库中的知识返回比较准确的回答。反之,s t a r t 系统将问题解析得到查询的 关键词,通过搜索引擎得到相关信息,接下来的后续处理把准确而简洁的回答返 回给用户。比如提出一个问题“肌ow a sb i l lg a t e s ? ,s t a r t 系统回答“c o f o u n d e r , m i c r o s o f t b o r nw i l l i a mh g a t e so no c t o b e r2 8 ,19 5 5i ns e a t t l e ,w a s h i n g t o n ”。同时 系统还返回一个关于“b i l lg a t e s ”网页链接,如果用户希望了解更详细的信息时 、 就可以浏览该网页。 美国华盛顿大学开发的m u l d e r 系统( h t t p :m u l d e r c x ,目前在网上已经不 提供了) 是最早实现的基于i n t e m e t 的全自动的问答系统。该系统没有知识库,而 完全利用i n t e m e t 上的资源得到答案。对于一个问题,m u l d e r 系统返回的不是 唯一的答案,而是一组候选回答,并利用统计的方法给每一个回答赋值一个权重, 称之为置信度。比如,对于一个问题“帆ow a st h ef u s ta m e r i c a ni ns p a c e ? ”, m u l d e r 系统的返回的候选答案中,“a l a ns h e p a r d ”具有7 0 的置信度,“j o h n g l e n n ”具有1 5 的置信度,同时在每一个答案下面给出相关的网页链接和该网 页内容的摘要i 。 a s k j e e v e s ( h t t p :a s k c o r n ) p 】是美国一个比较著名的商用问答系统。对于自 然语言提出的问题,a s k j e e v e s 系统采用多种方式进行回答,直接返回一段文本, 并返回一系列文档链接及其内容摘要,同时还采用多媒体文件的形式提供相关信 息。比如对于问题“w h ow a sb i l lg a t e s ? ”,系统在文本回答的基础上还将显示一 张b i l lg a t e s 的照片。作为一个商用系统,a s k j e e v e s 的服务种类很多,不仅仅可 以查找w e b 网页,也可以采用图片、新闻、产品作为数据源,从而得到所需的 信息。a s k j e e v e s 系统中的问题分析部分是依赖手工完成的,为了能够正确理解 用户的查询,a s k j e e v e s 雇佣了数百名专职人员构造问题模板,并为这些问题模 板中常见的问题进行了缓存。系统的问题模板虽然能够细化和明确用户的需求, 但由于需要人工产生和维护,工作量非常大。 美国密歇根大学开发的a n s w e r b u s ( h t t p :w w w a n s w e r b u s c o m ) 【4 】系统在多 语种问题上进行了一些尝试,可以回答英语、西班牙语、德语、意大利语、葡萄 牙语的问题。m i c r o s o f t 公司的e n c a r t a ( h t t p :e n c a r t a m s n c o r n ) 系统作为一个在 线百科全书式的问答式搜索引擎,也提供了多语种的支持。 此外,南加州大学利用自然语言处理、文本摘要等技术,开发的w e b c l o p e d i a 2 东北大学硕士学位论文 第一章引言 系统在各项评测中也取得了很好的效果;美国l a l l g u a g ec o m p u t e r 公司的问答系 统( h t t p :w w w 1 a n g u a g e c o m p u t e r c o m d e m o s q u e s t i o n _ a n s w e r i n g ) 在t r e c 评测中 一直名列前茅【。 上面介绍的系统均是英文问答系统,关于中文问答系统,由于起步比较晚, 与国外同行们比较起来还是有很大差距,但是目前国内已有一些研究机构正在从 事中文问答系统的研究,如:复旦大学、哈尔滨工业大学和中国科学院计算技术 研究所,并已经有了一定的研究成果。 关于问答系统的评测,目前大家公认的是会议t e x tr e t r i e v a lc o n f e r e n c e ( t i 迮c ) ,但是t r e c 主要针对的是英文问答系统的评测,对于中文问答系统 目前仍然没有这样一个评测系统。 1 2 问答系统的分类 问答系统可以根据不同标准有不同的划分。下面介绍几种划分【5 j 。 ( 1 ) 开放领域的问答系统和受限领域的问答系统 问答系统根据问题的领域分为受限领域和开放领域。受限领域的问答系统一 般是关于一个特定领域方向,例如一些医学或研究组织。所有可能的问题都被限 定在一个特定的领域内,这就有可能对领域内的所有知识进行编码从而方便分析 问题和答案集。答案集可以被表示为结构性的数据,以方便问题的处理。 相对于受限领域的问答系统,开放领域问答系统试着回答所有的问题。因为 它能够给用户提供相对简洁、准确的结果,开放域问答系统越来越受到人们的关 注。a s k j e e v e s 是最著名的开放领域的问答系统。为了回答非受限的问题,一般 需要一些自然语言的知识。国外的学者们通常使用w o r d n e t ,w o r d n e t 提供了词 语的近义词集合以及近义词集合之间的关系。中文系统中大多使用知网( h o w n e t ) 作为语义辞典,知网语义辞典能够更准确的描述词语的真正语义。本文提出的问 题分析系统就是针对面向开放领域的中文问答系统。 ( 2 ) 基于数据库常用问题集网络的问答系统 问答系统根据答案的来源可以分为基于数据库的问答系统、基于常用问题集 的问答系统和基于网络的问答系统。答案集的来源在设计问答系统中是非常重要 的一个因素。数据库是最重要的一种结构化数据。传统数据库数据需要用s q l 3 东北大学硕士学位论文 第一章引言 来查询。尽管s q l 可描述而且比一些其他的编程语言简单,但是一些系统还是 希望能够提供自然语言平台。l u n a r 是早期比较成功的数据库问答系统,尽管 l u n a r 是在十九世纪7 0 年代搭建的,但是它的执行结果从目前看来还是非常 好的,正确率达到7 0 。大部分程序开发者仍然用s q l 作为数据库的查询语言, 但是大多数的终端用户无法通过自然语言提问的方式检索到数据。 基于常用问题集的问答系统常用于网络和在线客户服务系统中存在的问答 系统。与其他问答系统相比主要注重在问题的分析和答案的生成不同,常用问题 集问答系统主要注重分析输入的问题并把它和常问问题集进行匹配。 基于网络的问答系统是答案集分布在网络上,通过搜索网页等结构或非结构 的信息从中提取出问题的准确答案。由于互联网得到了蓬勃的发展,互联网成为 最大的信息库,所以基于网络的问答系统是最有潜力的一类问答系统,现在有不 少系统都是基于网络或者部分基于网络,以获取更好的准确率。 ( 3 ) 单语种问答系统和多语种问答系统 根据语言种类问答系统可以分为单语种和多语种。问题和答案都是通过自然 语言的形式给出的,那么描述问题、答案等的语言是一种语言还是多种语言从而 区分是单语种还是多语种问答系统。像参加t r e cq a 评测的系统都是单语种, 多数研究者都是着眼于单语种的问答系统。本系统就是针对单语种的中文问答系 统。 多语种问答系统是最近几年才出现的研究方向,因为它允许用户用自己的母 语和机器进行交互,这样可以提供更简单、快捷的信息,所以这两年受到众多学 者的关注,成为问答系统新的研究方向。 ( 4 ) 基于事实基于列表基于描述的问答系统 根据问题类型可以把问答系统分为基于事实、基于列表还有基于描述的。不 同的问题类型对应不同的处理方法。基于事实的问答系统是最简单的一种,答案 可以是命名实体,如人名、机构名、地点等,也可以是固定长度的一段短语或其 他形式。 基于列表的问答系统除了问题可能多于一个答案外和基于事实的问答系统 很相似。基于描述的问答系统是相对复杂一些,因为答案可能是段描述问题的 话,也可能是根据要求总结的一段话。 4 东北大学硕士学位论文 第一章引言 1 3 问题提出 问题分析作为问答系统的一个重要子模块,对问答系统的后继模块答案 抽取和答案选择有很好的指导作用。第一,问题分类能有效地减少候选答案的空 间,提高系统返回答案的准确率。例如,当用户输入查询语句“第一个进入太空 的中国人是谁”,这个问题属于特定人物类,在答案抽取阶段,系统主要考虑人 名,即可有效地减少了候选答案的空间。第二,问题分类还能够决定答案选择策 略,根据不同的问题类型调节对不同问题的答案选择策略,例如对于问题“中国 为什么要进行改革开放”,经过问题分类模块,可以得知其属于原因类,针对此 类问题,在问答系统的后续流程中将采取针对原因类别的特殊策略。第三,关键 词的选取直接影响检索的质量,进行必要的关键词扩充可以提高检索的召回率, 当然不能无限制地扩展,否则既增加系统的负担也降低了系统的准确率。由此可 见,问题分析是问答系统的重要组成部分,其结果的优劣直接影响问答系统的质 量。 基于上述原因,本文重点研究中文问答系统中问题分析的若干关键技术,实 现一种基于句法结构和语义网的中文问题分析系统。 1 4 本文研究的主要内容 本文主要进行问答系统的第一级子系统问题分析系统的研究。所建立的 问题分析子系统,主要完成下面的功能: ( 1 ) 从句法角度分析问句,分析问句中各个词之间的依存关系和关系类型, 去掉那些对问题分类没有作用的词语,选择问句中关键的词;从语义角度,对问 句中关键词利用知网获取上位词作为问句分类的特征之一,同时还利用疑问词及 其附属成分也作为分类特征,从而提高问题分类的准确率。 ( 2 ) 对关键词进行扩展主要是利用第一次的检索结果和知网对关键词进行 扩展从而提高检索的召回率。 1 5 本文的组织结构 根据研究内容,本文共分为七章。 5 东北大学硕士学位论文 第一章引言 第一章即本章,主要介绍问答系统及其分类,并简单介绍了本文的主要内容 和组织形式; 第二章介绍问答系统和问题分析的发展现状和关键技术; 第三章介绍基于句法结构和语义信息的中文问题分析的主要思路和框架、流 程,并介绍系统中所用的资源; 第四章详细介绍如何从句法结构和语义信息两方面实现问题分析中问题分 类的技术和实现; 第五章详细介绍问题分析中关键词生成和扩展的技术和实现; 第六章是进行结果分析,从正反两方面对系统进行评价; 第七章首先对本文所做工作进行总结,然后分析问题分析模型的下一步完善 和改进方向。 6 东北大学硕士学位论文第二章相关概念、技术与研究背景 第二章相关概念、技术与研究背景 问答系统的研究涉及很多技术,如信息检索、自然语言处理、信息提取等相 关理论和技术,本章主要对问答系统及问题分析系统的相关概念和所涉及的技术 进行简要介绍。 2 1 问答系统的相关概念 从人类的习惯来看,希望用自然语言的问句作为系统的输入,答案是简单的 一个词,一个词组,一句话或根据用户需要返回的一段文字。例如:问题“谁 是美国总统? ,一个好的问答系统分析问题,检索后输出“布什”。这样的问答 系统是我们的理想系统,但是到目前为止,现在问答系统的性能远远低于我们的 想象,这是因为自然语言理解并不是这么简单,在问答系统的简单行为背后通常 是非常复杂的机制。 问答系统的研究综合了很多领域知识,在实现时往往需要很多的技术和资 源,如信息检索( r ) 、自然语言处理( n l p ) 、信息提取( 匝) 、机器学习、软 件工程等。 2 2 问答系统的关键技术 中文问答系统通常包含三个主要部分:问题分析、信息检索和答案抽取,如 图2 1 【3 】所示。问题分析的任务是充分理解用户提出的问题,把用户的查询意图 转化成相应的特征值;信息检索的任务是在语料库中检索出相关文档,提供答案 抽取的文档集;答案抽取是根据用户问题模板将答案从相关文档中抽取出来并进 行评价。 ( 1 ) 问题分析 在接受用户提问后,要做的第一步就是问题分析和处理。比如,用户提问“谁 是第一个登上月球的人? 首先要分析出这个问题的类型,这个例子是提问人名 的问题。其次,要找出这个问题的焦点,即抽取出有助于找到答案的一系列关键 词。对于上面这个问题,可能的关键字是“第一个登上月球人”。在这个过程 中,对用户自然语言提问进行分词和词性处理,是问题分析的基础【6 1 。 7 东北大学硕士学位论文第二章相关概念、技术与研究背景 问题 答案 图2 1 中文问答系统的组成 f i g 2 1t h ec o m p o s i t i o no fc h i n e s eq u e s t i o na n s w e r i n gs y s t e m 简单的问题类型识别是基于疑问关键词匹配的方式进行的。例如询问人的 “谁”,询问时间的“什么时候”、“何时”、“哪年 等等。在识别疑问关键词的 基础上,还可以扩展到对整个疑问句式的模式识别,即抽象出问题类型的通用句 式,然后用通用的模式匹配手段( 最简单的如正则表达式) 来进行匹配和识别。 为了提高匹配的精度,也有研究者在匹配过程中引入机器学习的方法,通过对大 量的问题语料样本进行培训,来实现问题类型的自动识别阴。在识别问题类型后, 就可以有针对性地抽取答案,从而提高答案抽取的准确率。本系统就是利用了机 器学习的方法进行问题分类。 抽取出查询关键词是问题分析模块的另一个重要任务。对于大多数的信息搜 索引擎来说,检索串一般由一组用逻辑运算符连接的关键字组成,恰当的抽取出 问句的关键词,是提高信息检索效率,并最终提高答案的召回率和准确率的关键。 关键词抽取的一般实现方法是先利用一个预先构建的停用词表,把疑问词,以及 类似于“吧、“了 、“的 之类的无意义的助词过滤掉,留下名词、动词、形容 词、副词等对后续检索系统有用的关键词。 此外,为了提高信息检索的召回率,大部分问答系统还会对关键词进行扩展, 因为在答案句中某些词汇不是原来问题的关键词,而是其同义扩展,在这种情况 8 东北大学硕士学位论文第二章相关概念、技术与研究背景 下,扩展关键词显得十分必要,例如:“斯大林于1 9 5 3 年3 月5 日逝世。”在这 里,“去世”和“逝世属同义表述,若对原有关键词进行同义扩展,则可以帮 助信息检索系统更高效得获取备选答案【6 】。 关于问题分析的主要技术将会在下面一节详细介绍。 ( 2 ) 信息检索 信息检索模块的任务就是按照问题分析模块提供的关键词从语料库中检索 出可能答案的相关文档,目的是缩小答案抽取需要处理的文档范围,这些检索词 组合是在问题分析模块由问句提取出来。信息检索涉及信息的存储和索引方法, 信息的查找和定位,以及最后检索结果的排序问题,也是目前信息检索处理学科 的热门研究方向。例如,商业搜索引擎g o o g l e 就是一个基于w e b 的信息检索系 统的非常成功的典范。 由于信息检索模块较为独立,一般的问答系统是利用现成已有的成熟的检索 系统来帮助获得备选文本。即使t r e cq at r a c k 也不要求每个参赛系统都拥有 自己的检索,因为t r e c 会议己经为测试集中每个问题提供了最相关的1 0 0 个文 档。本系统的所用的搜索引擎正是g o o g l e 提供的程序接口。 通常情况下搜索引擎返回的都是文档,但是对于特定的问题来说,文档中只 有某些部分是有用的,所以应用于问答系统的信息检索可以只返回文档中与问题 相关的片断,这样有利于降低答案抽取的复杂度。 目前绝大多数检索系统都使用了向量空间模型( v s m ,v e c t o rs p a c em o d e l ) 。 在v s m 中,文档和用户查询都用t 维向量来表示,并且用向量之间的夹角作为 判断两者相关的尺度。使用v s m 需要解决两个问题用户查询的表示和文档 库的表示。在问答系统中,前者正是由问题分析阶段完成【8 】。 ( 3 ) 答案抽取 信息检索模块只能帮助系统找到可能包含答案的文本档案或段落片断,要获 得问题的最终答案,还需要进行答案的识别、定位和抽取工作。问题抽取模块的 实现方式很大程度上依赖于问题分析模块提供的问题类型以及答案类型信息,进 而判断问题答案可能存在的方式,是一个或者数个词或短语,系统只需要对各个 句子单独进行处理即可,因为正确答案存在于数个句子中的概率很低。处理过程 中包括分词、词性标注,识别和抽取出命名实体等技术。 9 东北大学硕士学位论文 第二章相关概念、技术与研究背景 如果答案是一个或数个句子,常常采用如下的步骤进行抽取和识别; 把检索出的文档切分成一系列的句子; 利用某种特定算法计算句子权重。例如利用词频( t e r mf r e q u e n c y ) 、文档 频率( d o c u m e n tf r e q u e n c y ) 以及逆向文档频率( i n v e r s ed o c u m e n t f r e q u e n c y ) 等参数计算备选句子和问题句子的相似度; 按照权重排序,并考虑问题类型,从而选择出最为匹配的答案。 对于有些问题,简短的句子也无法解释清楚。例如“天空为什么是蓝色的? 这样的定义型问题,其问答可能是数个句子,甚至数个段落。如果把所有的相关 文档段落都返回给用户,那么对于用户来说是相当不便的,但是如果能把相关的 段落做成一个简短的文摘,让用户只看文摘就能大体了解段落的内容,那么将大 大改善用户的使用体验,提高信息利用的效率。这就需要利用复杂的多文档自动 文摘技术,把信息检索模块找出来的文档、段落做成文摘,再把这个文摘返回给 用户。 信息抽取模块是问答系统的重要组成部分,也是区别于一般信息检索系统的 核心所在。虽然针对不同的问题类型和模式,答案定位抽取的方法也各不相同, 但有一点是相似的,即都必须利用问题分析阶段提供的关键信息才有可能准确定 位和抽取到正确答案。 目前中文问答系统的答案提取算法主要包括下面三类:1 、基于信息检索和 信息抽取的问答技术9 , 1 0 , 1 1 ;2 、基于模式匹配的问答技术 1 2 , 1 l 1 4 , 1 5 , 1 6 , 1 7 , 1 s i ;3 、基 于机器学习的答案提取技术【1 9 1 。 2 3 问题分析的研究现状及相关技术 问题分析主要包含问句分类和关键词扩展两大主要模块。 首先介绍问题分类模块。问题分类是将未标明类别的问题,根据问题特征把 它映射到已定义的问题类别中,用数学公式抽象表示为 彳专b 。其中,彳为待 分类的问题集合,召为分类体系中的类别集合,厂根据现有知识把用户提出的问 题划分到某个具体的类别中【2 0 1 。 在某种程度上,问题分类可以看作类似于文本分类的任务,但它们之间也有 区别。问句通常都很短,与文本相比,包含较少的词汇信息,这样给问题分类带 1 0 东北大学硕士学位论文第二章相关概念、技术与研究背景 来了很大的难度。问题分类不是作为一个独立的问题提出的,它作为问答系统的 一个重要的子模块,能够对问答系统的后继流程答案选择和抽取有很好的指导作 用,直接影响到系统的准确性。目前对于问题分类的研究一般都是借鉴文本分类 的思想,结合问题分类本身的特征进行的【2 1 1 。 在进行问题分类时,最初的方法主要是基于规则,基于规则的问题分类方法, 在所定义的7 个类别上的准确率只达到了5 7 5 7 t 2 2 1 。 后来出现了将模式匹配技术应用于问答系统中,其中有代表性工作的有 r a v i c h a n d r a n 2 3 1 、s o u b b o t i n 2 4 1 、d u 2 5 1 、d u m a i s 2 6 1 和z h a n g 2 7 1 等。s o u b b o t i n l 2 3 1 完 全采用人工编写规则的方法获取问答模式。这种方法代价昂贵,劳动强度大,速 度慢;而且模式的扩大需要不断进行,可移植性差【2 8 】。 近年来问答模式的获取方法逐渐从人工组织的方法向机器学习的方法转变。 2 0 0 2 年r a v i c h a n d r a n 2 3 】提出了通过有监督机器学习从网络文本中自动提取6 种, 即b i r t h y e a r 、i n v e n t o r 、d i s c o v e r 、d e f i n i t i o n 、w h y r 6 l m o u s 、 l o c a t i o n 等提问类型的答案模式。例如:i n v e n t o r 类型提问答案的一个模 式为: t h e w a si n v e n t e db y ”。其中,a n s w e r 和n a m e 分别表示提问关键词和答案。这种方法给用户提供的 对作为训练 语料进行w e b 搜索,在对舢t av i s t a 返回的前1 0 0 0 篇文章进行后处理后,采用 后缀树模型( s u f f i xt r e e ) 提取字符表层模式。因此,它是一种有监督的机器学 习的方法。此外,字符表层模式的缺点是无法解决a n s w e r 和n a m e 之间的 长距离依存关系以及缺乏良好的一般性。 d u 等人 2 5 1 于2 0 0 4 年提出的问答系统的答案模式学习方法类似于 r a v i c h a n d r a n 方法,也是一种基于有监督的机器学习方法,不同之处在于提问分 类和模式的表示两个方面。d u 首先把提问关键词定义为4 大类( qf o u c s , q n a m e e m i t y ,心r b ,q _ _ b n p ) ,然后对不同类型的提问学习其答案句的模式。 例如“w h a tq - b e v e r bq - f o c u si nq - l c n ”提问类型的一个答案模式为:“, qb e v e r bqf o c u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论