




已阅读5页,还剩92页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复旦大学博士学位论文 摘要 摘要 随着计算机可读的文本信息日益增多,有效查找和利用这些信息的追切需 求使得信息检索与信息抽取技术日益重要。但传统的搜索引擎存在的一些弊端给 用户带来了一定的不便,如:用户的检索需求简单表示为一组关键词,往往会丢 失很多语义信息;检索返回的结果为相关链接或文档列表,用户仍需阅读文档或 片段以定位到真正需要的信息。问题回答的研究解决了这些存在的问题,首先, 用户可将信息检索的需求表达为自然语言描述的问题,其次,问题回答将在文档 集合中搜索并返回问题的精确答案。这个任务看似简单,但对于计算机具有很大 的挑战性。本文正是在这种前提下,对问题回答技术进行了探索性研究。 论文的工作主要集中在基于模式知识库实现问题回答的关键技术上,设计 并实现了问题回答系统,参加了国际文本检索会议的评测。以此为基础,我们将 模式匹配技术应用到了一个相关的更新的研究领域阅读理解,并取得了好的效 果。 实现模式匹配策略最关键也是最核心的任务,即建立一个完善的模式知识 库。我们提出了一种基于答案类型与问题模式的问题分类体系,同时保留了问题 的语义信息与结构信息。借助t r e c 的评测问题集作为我们的训练与测试数据, 对不同的问题分类类型进行答案模式的自动学习与评价。 我们对具有复杂结构的问题实现了模式学习,包含多个问题元素的较复杂 的答案模式对于抽取出正确答案更有效更可靠。这是简单模式所无法覆盖的。同 时,我们对模式匹配得到的侯选答案增加了语义类型约束,使其有更高的准确率。 为了使学习到的答案模式有更好的可扩展性,我们采取了泛化策略,在模 式中加入了实体名的信息,这样,模式组成结构中不仅包含词形,也融入了语义 信息,使其具有较好的鲁棒性。 答案模式的评价指标采用了数据挖掘中的可信率( c o n f i d e n c e ) 与支持率 ( s u p p o r t ) 。高可信率的答案模式有更高的可靠性抽取到正确答案。 在阅读理解系统的实现中,我们引入了w o r d n e t 的同义词信息、模式匹配 和上下文辅助策略,取得了明显的效果,进一步提高了系统性能,性能超过了之 前的最好结果。 关键词:问题回答阅读理解模式匹配机器学习自然语言处理 中图分类号:t p 3 复旦大学博士学位论文 摘要 a b s t r a c t m o r ea n dm o r ei n f o r m a t i o nmn o wa v a i l a b i ei nm a c h i n e - r e a d a b l ef o t i n i tm a k e st h e t e c h n o l o g yo fi n f o r m a t i o nr e t r i e v a la n di n f o r m a t i o ne x t r a c t i o nm o r ei m p o r t a n tf o re f f e c t i v e l y l o o k i n gu pa n dm a k i n gu s eo ft h e s ei n f o r m a t i o n b u tt h e r ee x i s ts o m es h o r t c o m i n g sw i t h t r a d i t i o n a ls e a r c he n g i n e s t h eu s e r s r e q u i r e m e n t sa r ce x p r e s s e dw i t ht h ek e y w o r d s ,w h i c hm a y r e s u l ti nt h el o s so fs e m a n t i ci n f o r m a t i o n s e a r c ha n g i n er e r w r st h er e l e v a n tl i n k so rd o c u m e n t l i s t s ,a n du s e l sn e e dm o r ee f f o r t st oa c q u i r et h en e e d e di n f o r m a t i o n t h er e s e a r c ho fq u e s t i o n a n s w e r i n gi st or e s o l v et h e s ep r o b l e m si ta c c e p t st h eq u e s t i o n si nn a t u r a ll a n g u a g et h a td e n o t i n g u s e rr e q u i r e m e n t sa n dr e t u r n st h ee x a c ta n s w e r sa f t e ra n a l y s i n gt h ed o c u m e n ti n f o r m a t i o n t h i si s ac h a l l e n g i n gt a s kt oc o m p u t e r sa l t h o u g hi ts e e n l s s i m p l e w eh a v ead e e pr e s e a r c ho nt h e t e c h n i q u eo f q u e s t i o na n s w e r i n gb a s e do nt h i sp r e m i s e t h i sd i s s e r t a t i o nf o c u s e so nt h e k e yt e c h n i q u e so fp a t t e mk n o w l e d g e b a s e dq u e s t i o n a n s w e r i n g w ed e s i g na n di m p l e m e n t t h eq u e s t i o na n s w e r i n gs y s t e ma n dt a k ep a r ti n t h e e v a l u a t i o no ft e x tr e t r i e v a lc o n f e r e n c e w ea l s oa p p l yt h ep a t t e mm a t c h i n gt e c h n i q u et oan e w r e l a t e dr e s e a r c ha r e ar e a d i n gc o m p r e h e n s i o n ,a n das a t i s f i e dr e s u l ti sa c q u i r e d t h ek e yt a s kt oi m p l e m e n tt h ep a t t e r nm a t c h i n gt e c h n i q u ei st oc o n s t r u c tap e r f e c tp a t t e r n k n o w l e d g eb a s ew ep u tf o r w a r d an o v e lq u e s t i o nc l a s s i f i c a t i o nh i e r a r c h yw h i c hi sb a s e do n a n s w e rt y p ea n dq u e s t i o np a t t e m i tr e t a i n st h es e m a n t i ca n ds t r u c t u r e di n f o r m a t i o no fq u e s t i o n s w em a k eu s eo ft h eq u e s t i o n so nt r e ea so u rt r a i n i n ga n dt e s td a t a t h ea n s w e rp a a e m st o d i f f e r e n tq u e s t i o nt y p e sa r es t u d i e da n de v a l u a t e da u t o m a t i c a l l y w eh a v ei m p l e m e n t e dp a t t e ml e a r n i n gt o q u e s t i o n sw i t hc o m p l e xs t r u c t u r e i ti s m o r e e f f e c t i v ea n dr e l i a b l et oe x t r a c tt h ec o r r e c ta n s w e rw i t ha n s w e rp a a e m sc o n t a i n i n gm u l t i p l e q u e s t i o nt e r m s t h i sc a n n o tb ec o v e r e db ys i m p l ea n s w e rp a t t e r n s f o rh i g h e rp r e c i s i o n ,w eg i v e s e m a n t i cr e s t r i c t i o nt oc a n d i d a t ea n s w st h a ta r ee x t r a c t e db ya n s w e rp a t t e r n s w ea d o p tg e n e r a l i z a t i o ns t r a t e g yt oa n s w e rp a t t e r n su s i n gn a m e de n t i t yi n f o r m a t i o n i tm a k e s t h ea n s w e rp a t t e m sh a v eb e t t e re x t e n d i n ga b i l i t y t h ec o n s t i t u e n te l e m e n t so fa n s w e rp a t t e r n c o n t a i nb o t hm o r p h o l o g i c a la n ds e m a n t i ci n f o r m a t i o nw i t hb e t t e rr o b u s t n e s s w ee v a l u a t ea l lt h ea n s w e rp a t t e m sb yt h ec o n c e p to fc o n f i d e n c ea n ds u p p o r t ,w h i c ha r c b e d e w e df r o md a t am i n i n g ,a n s w e rp a t t e r n sw i t hh i g h e rc o n f i d e n c el e a dt oc h o o s et h ea n s w e r w i t hg r e a t e rr e l i a b i l i t y i no u rr e a d i n gc o m p r e h e n s i o ns y s t e m w em a k eu s eo ft h e s y n o n y m yi n f o r m a t i o no f w o r d n e ta n da d o p tt h ep a t t e mm a t c h i n gt e c h n i q u ea n dc o n t e x ta s s i s t a n c et e c h n i q u e t h es y s t e m p e r f o r m a n c eg e t sa no b v i o u se n h a n c e m e n ta n dp r e c e d e sp r e v i o u sr e s u l t s k e y w o r d s :q u e s t i o na n s w e r i n g ,r e a d i n gc o m p r e h e n s i o n ,p a t t e mm a t c h i n g , m a c h i n el e a r n i n g ,n a t u r a ll a n g u a g ep r o c e s s i n g 复旦大学博士学位论文目录 表目录 表1 - i ( a ) t r e c l 3 项目参加单位统计表( ) 表1 - 1 ( b ) t r e c l 3 项目参加单位统计表( 二) 3 表1 - 2 t r e c l 0 l i s t 类型问题示例7 表2 - 1a u t o s l o g 模式示例2 2 表3 - 1 问题元素标记集3 3 表3 - 2 问题模式与问题映射统计表3 5 表3 - 3 问题分类示例一 表3 - 4 模式自动学习算法4 l 表3 - 5 模式泛化前后实验结果比较4 3 表3 - 6 模式评价算法4 4 表3 _ 7 答案模式示例 表3 - 8 模式知识库分布 表4 - 1 查询扩展性能评价 表4 - 2d e f i n i t i o n 类问题的答案模式 4 9 5 3 表4 - 3 实验用训练与测试数据s 3 表4 - 4 ( t o p1 t o p a l l ) x 1 0 0 值5 5 表4 - 5 与i s i 性能比较结果5 7 表4 - 6 模式性能测试结果 表4 71 0 0 个测试向题各模块性能5 9 表5 - 1r e m e d i a 与c h u n g h w a 问题类型分布7 2 复旦大学博上学位论文目录 图1 - 1 问题回簪系统模型 图目录 圈1 - 2 传统的信息检索流程 图1 - 3 由传统信息检索发展而来的问题回答流程 圈2 - 1 基于模式学习的问置回答系统结构图 图2 - 2 模式结构示倒( i n s l g h t s o f t ) , 1 3 1 6 1 8 1 9 1 9 图2 - 3l o c a t i o n 类型问题的答案模式( i s i ) 圈2 4a c r o n y m 类型问题的答案模式( 新加坡国立大学) 图2 - 5 问曩分析模块流程2 3 圈2 - 6 文档检索模块流程 图2 7 答案抽取模块流程 图2 - 8q a 系统各模块流程示倒 2 7 圈3 - 1 答案类型分析模块流程3 2 图3 - 2 答案句中qt a g 与正确答案之间的距离分布。3 4 圈3 3l i n k 语法词典示倒 圈3 - 4l i n k 语法句子分析示倒 圈3 - 5 问旬转换模式生成流程 图3 - 6 模式自动学习与评价流程 圈3 4 答案模式。向量类型,向曩对应关系圈4 1 隧4 - 1 基于模式匹配答案抽取流程5 0 圈4 _ 2 检索参数对系统性能影响 图4 _ 3 答案捧序模蜓对系统性能影响 圈4 4 训练样倒数目变化对系统性能影响。 图4 - 5 问厦按照所包含问曩元蠢数日分布 圈5 - 1r e m e d i a 语辑阅读理解任务示铡 图5 - 2 上下文辅助策略示倒( r e m e d l a ) 。 圈5 - 3 阅读理解系统流程 圈5 - 4r e m e d i a 测试集上不同策略应用实验结果 5 5 图5 - 5 问愿长度分布( r e m e d i a c h u n g h w a ) 图5 缶问题与正确答案旬匹配大小分布( r e m e d a i c h u n g h w a ) 7 4 图5 7 据系统性能划分的问题比例分布( t e m e d i a & c h u n g h w a ) 7 5 复旦大学博士学位论文 问题回答介绍 第一章问题回答介绍 随着互联网的飞速发展和存贮技术的提高,计算机可读的文本信息也越来越多。 然而,要有效地开发利用如此丰富的信息资源并不是轻而易举的事情,因为许多信息 往往规模巨大,实时性强,而且存贮分散;图文并茂,格式灵活,有时还含有一定的 拼写错误或传输错误。对于特定的用户而言,所需要的信息往往只占其中极小的一部 分。要从如此规模的网络信息中抽取有用的信息资源,对信息处理的速度和精度将提 出极为严格的要求。 这种迫切的需求使得信息检索与信息抽取技术日益重要,人们越来越多地依靠文 本检索工具来寻找自己所需要的信息。传统的搜索引擎,用户的检索需求被表示为一 组关键词词组。它基于这样一种假设,即使用自然语言表述的文章的语义和用户的检 索需求可以被几个关键词的组合来表示。很显然,这种假设简化了检索任务,因为仅 仅使用关键词往往会丢失文章和检索需求中的很多语义信息。基于这样近似的语义表 示很可能会造成文章和需求匹配过程的失败,许多无关的文档被搜索引擎检索到,面 真正相关的文档却因为文章和需求表述的不一致而匹配不到。另外,很多用户并没有 受过将查询需求转化成查询关键词的训练,因此检索过程费时费力,也往往效果不佳。 如果用户能够以自然语言表述他的检索需求,而计算机又能够理解他的问题,自然可 以大大提高检索的效率,减轻用户的负担。因此,如何能使计算机理解用户使用自然 语言表述的信息需求,成为信息检索急待解决的问题之一。 信息检索的另一个弊病是返回的结果太多。一般的查询结果都返回成千上万条文 本链接。尽管检索算法已按某种相关度排序,用户仍需阅读文档或片段以定位到真正 相关的信息。许多用户在前几十篇中没有找到所需信息,就选择了放弃,尽管很可能 在后续的文档中包含了相关信息。 有一类问题在因特网信息检索中经常会碰到。用户需要的信息是对某个概念的释 义。比如,用户想知道“w h a ti ss p a c es h u t t l e s ? ”,提交的关键词为“s p a c es h u t t l e s ”, 但是搜索引擎返回诸多如航天飞机( s p a c es h u t t l e ) 如何登陆以与其相关的一些新闻信 息,而不是对这个概念的释义。如何辨别一般的查询和释义型查询。并根据不同的查 询类型返回不同类型的信息也是信息检索一个研究方向。 一个成功的问题回答系统可以克服传统搜索引擎的弊端,它接收自然语言描述的 问题,在文档集合中搜索并返回问题的精确答案。这个任务看似简单,但对于计算机 具有很大的挑战性。通过对自然语言表述的问题的处理,确定用户所需信息的类型; 抽取合适的关键词进行检索;对检索出的相关段落做进一步地处理,找到若干个文本 片段或精确的短语作为答案返回给用户。这种问题回答系统集成了自然语言处理和信 息检索科学的研究成果,克服了上述传统搜索引擎的不足,把大量原来需要用户来完 l 墨昱查兰堡主兰堡堡塞一韭堑型! ! 旦 成的操作,比如查询关键词的生成和答案的搜索,都交给计算机自动完成,减轻了用 户的负担,提高了信息检索和利用的效率。 1 1 问题回答的背景 1 1 1t r e cq a 简介 美国国家标准技术局( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ,简称n i s t ) 和国防部高级研究计划局( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,简称d a r p a ) 组织召开一年一度的文本检索评测会议( t e x tr e t r i e v a lc o n f e r e n c e ,简称t r e c ) 。t r e c 会议的宗旨主要有三条:通过提供规范的大规模语料( g b 级) 和对文本检索系统性能的 客观、公正的评测,来促进技术的交流、发展和产业化;促进政府部门、学术界、工 业界间的交流和合作,加速技术的产业化;发展对文本检索系统的评测技术。 t r e c 会议从1 9 9 2 年开始,迄今已举办了1 3 次。参加单位包括许多著名的大学 和公司。t r e c 不仅提供了一个标准文档库,而且还提出了一套较为科学的测试评价 方法,为各种方法和不同的系统提供了一个公平竞争的舞台,使t r e c 成为文本检索 领域最权威的国际评测会议。 每届文本检索会议都针对当前文本检索领域的最新热点,设置若干个评测主题。 早期的主题是标准的文本检索,由两个主要的研究任务组成 吴2 0 0 2 。一个是被称为 “常规检索”( r o u t i n g ) 苣j 任务。这个任务主要是测试系统使用训练文档集构造此文档集 “模板”( p r o f i l e ) 的能力以及在相关文档已知的条件下尝试新的检索算法。另一个被称为 a d h o c 的任务。它被定义为:已知一文档集和新的检索需求,自动或手动构造查询实 例来搜寻该文档集的相关文档。这种方法就象读者在图书馆中进行书目检索。近年来, 随着文本检索技术的不断发展和成熟,文本检索会议逐渐把评测主题转移到更新的研 究方向上( 称为项目) 。 t r e c 自1 9 9 9 年开始设立问题回答( q u e s t i o na n s w e r i n g ,简称q a ) 项目,已经吸 引了愈来愈多的研究机构和单位参加,发展至今,开始逐渐成熟。通常意义下的文本 检索输入的查询是关键词,返回的是相关文本。而问题回答输入的查询是自然语言描 述的问题,希望返回的不是蹩篇文本,而是包含答案的相关片段或精确答案。 2 0 0 4 年举行的文本检索会议( t r e c l 3 ) 是最近一次的文本检索会议,有来自世界 各地的多个单位报名参加评测,包括许多著名的大学,如:s t a n f o r du n i v e r s i t y :m i t c o m p u t e rs c i e n c ea n da r t i f i c i a li n t e l l i g e n c el a b o r a t o r y ;u o fw a t e r l 0 0 ;j o h n sh o p k i n s u ;u o f c a l i f o r n i a b e r k e l e y 等;也包括许多著名的公司,如i b m ;m i c r o s o f t 等。 其中,来自中国的参加单位有:清华大学,北京大学上海交通大学,中科院,复且 大学、香港理工大学、台湾大学、微软亚洲研究院。表1 - 1 ( a ) ,( b ) 列出了t r e c l 3 各项 2 目参加单位统计表,按照评测结果排名( r a n k l - r a n k l o ) ,“n u mo f g r o u p s ”代表不同 项目参加评测的单位数目,带有标记的为来自中国的参加单位。 q u e s t i o na n s w e r i n g g e n o m i c s w e b 2 82 7 1 8 塑! ! ! 型! 翌! 竺唑! :! ! :! :! ! ! 唑! 婴! ! ! ! ! ! ! ! ! ! 竺! ! ! :! 竺! 望:! ! 丝! r a n k2n a t i o n a lu n i v o fs i n g a p o r e u n i v e r s i t yo fw a t e r l o o u n i v o fa m s t e r d a m ( m u l t i t e x t ) t e r 曲y t e r o b u s t n o v e l t y m0 f 1 71 41 3 g r o u p s r a n k9 j o h n sh o p k i n su n i v e r s i t y u n i v e r s i t yo f s o u t h e m c a l i f o r n i a , i n f o r m a t i o n s c i c n c e si n s t i t u t e r a n k1 0 a h o n gk o n gp o l y t e c h n i cu n i v e r s i t ym e i j iu n i v e r s i t y 表卜1 ( b ) t r e c l 3 项目参加单位统计衰( 二) 复旦大学博士学位论文 舟题回答介绍 另外,还有两个子任务:h a r d 与v i d e o ,没有给出排名信息。如表1 1 ( a ) ( b ) 中 所示,q u e s t i o na n s w e r i n g 子任务吸引了最多的参加单位。 总之,经过多年的实践h 疆c 已经建立了在文本检索会议的国际权威地位,吸引 了世界各地越来越多的高水平的参加单位也发展了一套较为成熟的评测方法。同时, t r e c 还逐渐地把评测领域从单纯的文本检索扩大到多媒体检索,如v i d e o 项目等。 1 1 2r e a d i n gc o m p r e h e n s i o n 简介 面向开放领域的问题回答受到了众多自然语言处理研究机构的关注,同时,也引发 了另外一个相关领域的研究一阅读理解( r e a d i n gc o m p r e h e n s i o n ) 。其任务为在给定 的某篇文章中找到给定问题的答案旬,类似于我们通常在各种英文测试( c e t - 4 ,c e t 一6 等) 中遇到的阅读理解题目。 2 0 0 0 年a n l p n a a c l 设立了有关阅读理解任务的w o r k s h o p :r e a d i n g c o m p r e h e n s i o nt e s t sa se v a l u a t i o nf o rc o m p u t e r b a s e dl a n g u a g eu n d e r s t a n d i n g s y s t e m s 。另外,在j o h n sh o p k i n su n i v e r s i t y 也召开了相关的w o r k s h o p :t e c h n o l o g y f o r r e a d i n gc o m p r e h e n s i o na a 。 m i t r ec o r p o r a t i o n 【h i r s c h m a ne ta 1 1 9 9 9 j 的一个研究小组在1 9 9 9 年首先研究并 开发了第一个阅读理解系统一d e e pr e a d 。测试集来自r e m e d i a 出版的个语料集,我 们称之为r e m e d i ac o r p u s 。该语料集包含5 5 篇用作训练的文章和6 0 篇用作测试的文 章,每篇文章平均包含2 0 个句子。阅读理解任务即对每篇文章回答5 个问题( w h o , w h e r e ,w h e n ,w h a t ,w h y ) 。m i t r e 研究小组对该语料集进行了深层次的加工,进行了实 体名标注,指代关系标注及正确答案的标注等,之后的阅读理解系统均在此标准测试 集上进行评测。 1 2 问题回答研究现状 1 2 1 问题回答任务及发展概述 通常意义下的文本检索输入的查询是关键词,返回相关文本,而问题回答输入的查 询是自然语言描述的问题,返回问题的精确答案。问题回答融合了信息检索、信息抽 取及自然语言处理技术,是一具有广泛应用前景的研究领域。 问题回答研究的历史可追朔到上世纪六、七十年代,w e n d yl e h n e r t 等人创立了有 关问题回答的所谓“概念理论”( c o n c e p t u a lt h e o r y ) 。但是,那时候的研究人员只在 小规模的语料上做了试验,并没有使用象今天这样的大规模的真实数据,也没有高精 度的语法分析器、实体名识别器以及信息提取工具。也就是说,由于自然语言处理技 术的一些困难,只是局限于特定领域的专家系统,现在自然语言处理技术已经不断发 墨里查兰堕主兰壁堕兰一 一一堕璧旦兰! ! 竺 展并且成熟起来,使得面向开放领域成为可能。 s t a r t k a t z1 9 9 7 系统是最早的基于w e b 的问题回答系统之一。它是由m i t ( m a s s a c h u s e t t e si n s t i t u t eo f t e c h n o l o g y ) 人工智能实验室于1 9 9 3 年开发的,专门用于 回答自然语言表述的关于地理知识和实验室本身信息的问题回答系统,如:可以回答 “w h a ti st h ec a p i t a lo f s e r b i a ? w h e nw a st h el a b o r a t o r y f o u n d e d ? ”等。该系统在运行时 刻根据问题检索预先处理过的“主,关系,宾”的三元组数据库,回答人们提出的各 种问题。但该系统的后台知识库仍然比较小,比如,它还不能回答“w h a t 括t h et h i r d h z g h e s tm o u n l a 抽i nt h ew o r m ? ”这种相对简单的问题。 在1 9 9 7 年,r o b i n d b u r k e 等人开发了著名的f a q f i n d e r 系统【b u r k ee ta 1 1 9 9 7 。 它可以回答人们所提出的自然语言问题。但是,从本质上说,他们的任务和我们目前 讨论的并不一致,他们对任务的定义是:根据已有的问题及其答案的语料库,判断新 来的问题和已有的问题是否一致,若相同,则返回已有问题的答案。从本质上说,是 一个判断新问题和已有问题的语义相似度问题。在我们的任务中,并不存在这样一个 知识库,必须自己检索并验证答案。 近年来,国内中科院计算所研究开发的人物关系问答系统【王2 0 0 3 ,引入逻辑推 理机制,使系统具有依据一定的策略进行推理的能力,限定于人物关系的问答。 崔2 0 0 4 1 介绍了一个基于网络的中文问答系统。该系统通过计算问句和答案之间 的相似度来抽取答案。实验结果表明该系统对人名、数量及时间类型的问题效果显著。 目前,还没有一个公开的中文问答系统测试集以及评估方法,所使用的问句测试集是 由哈工大信息检索研究室提供的一个包含1 4 4 3 个问句的测试集。 个完整的问题回答系统包含三个主要组成模块如图1 - 1 所示。第一模块是问题分 析,主要确定问题的答案类型,以对获取答案提供帮助,答案类型即问题所期望得到 的答案的语义类型,可能是时间,地点,人名等;同时该模块也生成查询。第二模块 是检索,根据第一模块输出的查询在文档集上搜索并返回相关的文档或片段,从而大 大缩小了用于实现答案抽取的文档空间。第三模块是答案抽取,分析第二模块返回的 相关文档内容,抽取并对侯选答案进行排序,最终返回问题的答案,完成q a 系统的 主要目标。如图卜l 所示,该系统的输入是问题“w h a tc o u n t r y i s t h eh o l yc i t y o f m e c c a l o c a t e di n ? ”,输出是问题的答案“s a u d ia r a b i a ”。 图卜l 问题回答系统模型 壅呈查兰苎主堂垡堡苎 坚型翌! 丝 问题本身的复杂度和答案抽取的难度对q a 系统性能有很大的影响。不限领域、开 放式的自然语言问题回答任务很难,为了简化问题,最初的t p d ! c 龇任务( t r e c8 , t r e c 9 ) 只使用了基于事实类型的问题,但是对任务的领域不作任何限制,它采用了 t r e c 的语料库,由英文的新闻语料构成,共包含1 ,0 3 3 ,0 0 0 篇文档,约3g b 。 在2 0 0 0 年的r o a d m a p b u r g e r e ta 1 2 0 0 0 中提到问题与答案的难易变化为: c o m p l e x j t yo fq u e s t i o n s & a n s w e r sr a n g e s e 基q 丛;塑 q u e s t i o n s :s i m p l ef a c t sq u e s t i o n s :c o m p l e x , u s e sj u d g m e n tt e r m s k n o w l e d g e o fu s e rc o n t e x tn e e d e d ; b r o a ds c o p e a n s w e r s :s i m p l ea n s w e r sf o u n di n a n s w e r s :s e a r c hm u l t i p l es o u r c e s ,f nm u l t i p l e s i n g l ed o c u m e n t m e d i a l a n g u a g e s ) ,f u s i o no f i n f o r m a t i o n 。+ r e s o l u t i o no fc o n f l i c t i n gd a t a ;m u l t i p l e a l t e r n a t i v e s ;a d d i n gi n t e r p r e t a t i o n ; d r a w i n gc o n c l u s i o n s 在t r 卫c 评测中,许多系统能够正确回答简单的事实性问题,但对于需要推理技 术及深层语义分析的问题则无法回答。在t r e c l 0 评测中,7 0 的参赛系统可以正确 回答0 1 0 1 3 “w h e r ei sp e r t h ? ”,而对于q 11 6 5 “w h a ti st h ed i f f e r e n c eb e t w e e na m r a d i o s t a t i o n sa n df mr a d i os t a t i o n s ? ”没有系统可以正确回答。 许多系统尝试使用复杂的自然语言处理技术来深入分析、理解问题和相关的文章 段落,并取得了一些成就。在t r e c 9 的评测中,s m u 的s a n d ah a r a b a g i u 等人 s a n d a e ta 1 2 0 0 0 使用了逻辑推理的方式验证答案的正确性,该方法使得系统性能提高了大约 1 0 。 t r e c 8 ( t r e c l 9 9 9 ) 首次对开放领域的q a 系统进行大规模评测。q a 系统的任 务描述为对问题返回包含正确答案的前5 个片段,长度可以是5 0 字节或2 5 0 字节。 每个问题保证在语料集中至少出现一次正确答案。 t r e c 9 ( t r e c 2 0 0 0 ) 与t r e c 8 的任务基本类似,但测试问题集由t r e c 8 的2 0 0 道增加到5 0 0 道( 另外,还有1 9 3 道问句的句式变换形成的问题) 。 t r e c l 0 ( t r e c 2 0 0 1 ) 在任务设定上有了较大的变化。首先,在t r e c 8 与t r e c 9 的主要任务m a i nt a s k 基础上增加了另外两个子任务 v o o r h e e s2 0 0 1 1 :l i s tt a s k 和 c o n t e x tt a s k 。其次,由于之前的评测结果表明,返回2 5 0 字节的答案片段这个任务是 相对简单的,因而,限制返回的答案片段最大长度只能为5 0 字节;最后,对于在m a i n t a s k 中的每个问题,不再保证至少有一篇文档包含答案,也就是说,有部分问题在给 定的文档集中是没有答案的,这时,要求系统返回“n i l ”表明问题没有答案,这样 对系统提出了更高的要求。 l i s tt a s k 任务中的问题刻画了某一类信息,如:w h a ta r e9n o v e bw r i t t e n 砂j o h n 吻姗p ,系统需要返回一系列的 d o c u m e n t - i d ,a n s w e r - s t r i n g 。 回答这类问题比 m a i n t a s k 中的问题有更大的难度,需要系统对从多个文档中找到的信息进行组织,包 含在文档中的重复信息必须能检测到。 袭卜2t i ! l e c i ol i s t 类型问题示例 c o n t e x tt a s k 是在给定的一个场景或上下文中提出一系列的问题,系统要求能够 支持交互式的问题回答。 t r e c l l 继续设立了m a i nt a s k 丰d l i s t t a s k v o o r h e e s2 0 0 2 ,但有个最大的不同点, 即要求系统返回问题的精确答案,并且只能返回一个唯一的答案,不再是排序的5 个 片段。这一变化,对问题回答提出了更大的挑战性,使它更清晰的和信息检索区分开 来。t r e c l l 共有3 4 个参加单位,提交了7 6 组运行结果( r u n s ) ,其中,6 7 个m a i nt a s k r u n s ,9 个l i s tt a s kr u n s t r e c l 2 的任务有了较大的变化 v o o r h e e s2 0 0 3 ,设定的m a i nt a s k 任务,同时 包含了事实性问题( f a e t o i dq u e s t i o n s ) ,列表类问题( 1 i s tq u e s t i o n s ) 和定义类问题 ( d e f i n i t i o nq u e s t i o n s ) 。2 5 个参加单位共提交了5 4 个m a i nt a s kr u n s 。l i s tq u e s t i o n 在 t r e c l 0 和t r e c l l 中都有设立,但t r e c l 2m a i nt a s k 中的l i s tq u e s t i o n 不同之处在 于,问题中不再明确指明问题所需要返回的列表答案数目。不同的问题有不同数目的 答案点,最多为4 4 ( w h a t c o u n t r i e s w e r ev & i 把d b y f i r s t l a 咖h i l l a r y c l i n t o n ? ) t r e c l 3 v o o r h e e s2 0 0 4 对于问题的组织有了一些变化,所有不同类型的问题 ( f a c t o i d ,l i s t ,o t h e r ) 以t a r g e t 为核心,t a r g e t 包含人名( p e r s o n ) ,机构名 ( o r g a n i z a t i o n ) 及其它( t h i n g ) 。也即对于同一个t a r g e t ,提出不同类型的问 题。如下例: t a r g e t :f r a a zk a t k a f a c t o i dw h e r ew a sf r a n zk a f k ab o r n ? f a c t 0 1 3w h e nw a sh eb o r n ? f a c t o i dw h a ti sh i se t h n i cb a c k g r o u n d ? l i s t w h a tb o o k sd i dh ea u t h o r ? 0 t h e r 这里,o t h e r 类型问题代表了之前的d e f i n i t i o n 类型问题,需要回答和该t a r g e t 相关的其它信息,但不应包含与f a c t o i d 和l i s t 问题相重复的信息。 不同的q a 系统采用了不同的策略与技术实现问题回答。 m u l d e r f c o d ye ta 1 2 0 0 1 】是一个自动网上问题回答系统,采用了多查询提交、对侯 选答案的聚类等策略,它将问题的答案类型只划分为三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论