(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf_第1页
(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf_第2页
(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf_第3页
(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf_第4页
(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf_第5页
已阅读5页,还剩110页未读 继续免费阅读

(计算机应用技术专业论文)面向问答系统的答案获取方法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 取准确答案。 最后,提出一种基于负载平衡的问题推荐策略。该机制通过分析用户的信誉 度以及对各个领域的兴趣度和权威性,为其推荐相关问题。同时,所有待解决的 问题会依照其重要程度被依次推荐,以保证重要问题能够被优先推荐。并且,问 题被尽量平摊至不同的用户,以调动每位用户的参与度。此外,紧急的问题会被 推荐至积极性较高的领域专家处,以确保能够被及时回答。 在上述工作基础上,本文实现了两个问答原型系统。实验结果表明所提出的 方法有效提高了问答系统的效率。 关键词:互联网,问答系统,问题推荐,信息抽取规则,用户建模,语义模板学 习 ab s t r a c t a b s t r a c t w i t ht h er 印i dd e v e l o p m e n to ft h ew e b ,p e o p l ec a ne a s i l ys t o r ed a t a ,e x c h a n g e i n f o 砷a t i o na 1 1 ds h a r ek n o w l e 姑e a l m o s ta j l 灿i n gc a nb ef o u n do nt h ew e b n o w a d a y s ,s e 甜c he n g i n eh a sb e c o m et h em o s ti m p o r t a n ts y s t e mb e c a u s ei tc a nh e l p p e o p l et oe x t r a c tw h a tt h e yw a n tf r o mt h ei n t e m e t h o w e v e r ,u s e r sa r el i m i t e dt ou s e s e v e r a lk e y w o r d st od e s c r i b et h e i rr e q u i r e m e n ti ns e a r c he n g i n e sa n dc a n o n l yo b t a i n s o m er e l a t e dd o c u m e n t s m a n u a ye x t r a c t i n gt h et a l r g e t e di n f o 肿a t i o n 仃o mt h e s e r e l a t e dd o c u m e n t si sat i m ew a s t i n gj o b h e n c e ,q u e s t i o na n s w e r i n g ( q a ) s y s t e m w h i c hf o c u s e so ns o l v i n gt h e s e p r o b l e m sh a sg r a d u a l l ya t t r a c t e dm o r ea n dm o r e r e s e a r c h e r s i nq as y s t e m s ,u s e r sc a nu s eq u e s t i o n st od e s c r i b ew h a tt h e yn e e da n d o b t a i nt h ea n s w e r st ot h e s eq u e s t i o n s 、v h i c hd on o tn e e dt ob er e f i n e d t h i si sb e c a u s e , c o m p a r e dt o t h ek e y w o r d su s e di ns e a r c he n g i n e s ,t h e s e q u e s t i o n sc o n t a i nm o r e s e m a n t i ci n f o m a t i o nt od e s c r i b ew h a tt h eu s e rw a n t sm o r e p r e c i s e l y q as y s t e m sc a nb ec a t e g o r i z e di n t oa u t o m a t i cq as y s t e m sa n du s e 卜i n t e r a c t i v e q as y s t e m s t h ea u t o m a t i cq as y s t e m su s es e m a n t i cm a t c h i n gt oe x t r a c tt h ea n s w e r s , i nw h i c hs e m a n t i ci n f o r m a t i o no ft h eq u e s t i o nt a r g e ti sf i r s ta n a i y z e da n dt h e na i l t h e i n f o r m a t i o nw h i c hm e e t st h er e q u i r e m e n tw i l lb ee x t r a c t e da st h ea n s w e r s t h e u s e 卜i n t e r a c t i v eq as y s t e m sr e l yo nu s e r so f 亿r i n gt h ea n s w e r s ,i nw h i c ht h eq u e s t i o n w i i lb er e c o m m e n d e dt ot h es u i t a b i eu s e rf o ra n s w e r i n g i nt h i st h e s i s ,w ef o c u so n t h e s et 、v ot y p e so fq as y s t e m sa n dr e s e a r c hi nt h em e t h o d so fi m p r o v i n gt h es e m a n t i c a n a l y s i se f n c a c yo fq u e s t i o n s ,p r o m o t i n gt 1 1 eq u a l i t yo fr e l a t e dd o c u m e n t s ,i n c r e a s i n g t h ee c h os p e e da n dr e c a uo fa n s w e r s ,a n db a l a n c i n gt h eq u e s t i o nr e c o m m e n d a t i o n m e c h a j l i s m t h em a i nr e s e a r c ha r e a sa n di 肌o v a t i o n jo ft h i st h e s i sa r ea sf o l l o w s : f i r s t l y ,w ep r o p o s eas e m a n t i cp a t t e ml e a m i n ga l g o r i t h m ( s i i p u 水s ) i nw h i c ha n e v a l u a t i o n s t r a t e g y n a m e ds e m a n t i c i d e n t m a b i l i t yi n v e r s e p a t t e mu n i v e r s a l i t y ( s i i p u ) i su s e d t oe s t i m a t et h eg r a n u l a r i t yo fap a t t e mf o rc e r t a i ns e m a n t i c r e q u i r e m e n t i nt h i sa l g o r i t h m ,w es t u d yt h er e l a t i o nb e t w e e nt h es y n t a c t i cc o n s t r a i n t s a j l ds e m a n t i ca n a l y z i n ga b i l i t y ,a n dc h o o s et h o s es u i t a b l ec o n s t r a i n t st oc o n s t r u c t s e m a j l t i cp a t t e m sw h i c hc a nn o to n l ym e e tt h er e q u j r e m e n to fs e m a n t j ca n a l y s i sb u t a l s oc o v e rm o r eq u e s t i o n s s e c o n d l y ,、v eu t i l i z eaq u e r yr e 、州t i n gm e t h o di np a s s a g er e t r i e v a la l g o r i t f b r e x t r a c t i n ga n s w e rp a s s a g e s i nt h i sa l g o r i t ,w eu s eah e u r i s t i cq u e 巧g e n e r a t i o n i i i ab s t r a c t m e t h o dt oc o n v e ne a c hq u e s t i o ni n t os o m eh i g hq u a l i t yq u e r i e s ,i nw h i c ht h ew e i 曲t o fe a c hk e y w o r di sd e t e n n i n e db yt h ec o r r e s p o n d i n gq u e s t i o np a t t e m t h e r e f b r e , t h o s ep a s s a g e sw h i c hh o l dt h ei n l p o r t a n tt e n n sw i l lb er e t u m e di na d v a n c e , t h i r d l y ,w ep r o p o s ead y n a m i c p a t t e mb a s e da n s w e re x t r a c t i o nm e t h o di nw h i c h ah e u r i s t i cr u l el e a m i n gm e t h o df o ri n f o 衄a t i o ne x t r a c t i o nw h i c hc a na u t o m a t i c a l l y a n de 伍c i e n t l ya c q u i r eh i g h - q u a l i t ye x t r a c t i o nr u l e s 行o mau s e rl a b e l e dt r a i n i n g c o 印u s a c c o r d i n gt ot h es e m a n t i ci n f o m l a t i o no fd i f 亿r e n tq u e s t i o n s ,t h e s er u l e sc a n b ed y n a m i c a l l yc o n v e n e di n t od i f 亿r e n tt y p e so fa n s w e rp a t t e m sw h i c hc a nb eu s e dt o p r e c i s e l ye x t r a c tt h ea n s w e r st ot h e s eq u e s t i o n sf o mt h er e l a t e dp a s s a g e s f i n a i l y , w e p r o p o s e ab a i a n c e d q u e s t i o n r e c o m m e n d a t i o nm e t h o df o r u s e r i n t e r a c t i v eq as y s t e m s ,i nw h i c hc o m p u t e r sa r er e s p o n s i a b l ef o rd i s t r i b u t i n g e a c hq u e s t i o nt os u i t a b l eu s e r s i nt h i sa l g o “t h m ,au s e rm o d e l i n gm e t h o di su s e dt o e s t i n l a t et h ei n t e r e s t sa n dp r o f - e s s i o n a la r e a so fe a c hu s e r s ot h a tw ec a nc h o o s e s u i t a b i eu s e rt oa n s w e rag i v e nq u e s t i o n t bm a k em o s tq u e s t i o n sb ea n s w e r e di nt i m e , al o a db a l a n c i n gc o m p o n e n ti su s e dt ob a l a n c et h ew o r ko fe a c hu s e ra n de s t i m a t et h e a c t i v i t yo fe a c hu s e rt om a k e $ u r eo fa s s i g n i n ge m e r g e n tq u e s t i o nt o a c t i v eu s e r s m o r e o v e r ,aq u e s t i o np r i o “t yq u e u ei sm a i n t a i n e dt oe n s u r et h ei m p o r t a n tq u e s t i o n st o b er e c o m m e n d e de a r l i er o nt h eb a s i so ft h ea b o v em e t h o d s ,w ei m p l e m e n tt w oq ap r o t o t y p es y s t e m s t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h e s em e t h o d sc a ni m p r o v et h ee m c a c yo fq a s y s t e m se f 佗c t i v e l y k e yw o r d s : w e b ,q u e s t i o na n s w e rs y s t e m ,q u e s t i o nr e c o m m e n d a t i o n , i n f o 肿a t i o ne x t r a c t i o nr u l e ,u s e rm o d e l i n g ,s e m a n t i cp a t t e ml e a m i n g i v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 第1 章绪论 第l 章绪论 互联网的迅速发展使得使人们能够在互联网这个平台上方便地保存数据、交 流信息以及共享知识。现阶段,人类同常所需的大部分知识,都可利用互联网得 到。但是,互联网海量的数据为用户快速准确地获取所需知识带来了困难。针对 该需求,信息抽取、信息检索以及问答技术逐渐成为了重要的研究课题。本文针 对问答技术领域的答案获取方法进行了深入细致的研究,并提出了有效的算法以 提高问答系统中答案获取的速度、问题的回答率以及答案的准确率。 本章首先介绍了论文的研究背景以及意义,而后分别介绍了自动问答系统以 及交互式问答系统,在对国内外研究现状进行详细的阐述之后,给出了本论文的 研究内容与创新之处,以及论文的组织结构。 1 1论文研究背景和意义 为了能够清晰的阐述本文的意义,本节首先介绍了互联网的发展、优势以及 面临的挑战,继而陈述信息检索技术在互联网研究当中的重要性并随之介绍现今 最为重要的信息检索系统:搜索引擎。接着,针对搜索引擎的缺陷,介绍了两种 用以弥补该缺陷的可能途径:信息抽取技术以及问答技术。最后,在分析了这两 种技术之问的差异以后,给出了本文研究问答系统中答案获取方法的原因。 1 1 1 互联网 互联网是由全球范围内的计算机组成的系统,采用t c p i p 协议栈为系统中 的用户提供信息和服务。自从a r j ) a n e t 与n s f n e t ( 国家自然科学基金网) 互 连之后,互联网的发展以指数速度增长。1 9 9 0 年之后,互联网向公众丌放,而 其规模则几乎以每年翻一番的速度持续增长( t a m ,1 9 9 5 ) 。随着1 9 9 5 年互联网的 商业化,网络用户能够使用多种新型服务,如电子邮件、新闻、远程登陆、文件 传输、w w w 等。 如今的互联网与早期相比有很大变化,大部分通讯直接在计算机( 或用户) 之间发生( l e e & f i s c h e t t i ,1 9 9 9 ) 。通过互联网,亿力用户被紧密联系在一起,任 何一个用户个人电脑上拥有的所有数据,均可方便的被互联网中其他用户所访 问。用户们可以利用互联网保存数据、交流信息以及共享知识。现如今,大量数 字产品网站被创建以满足用户日常生活中的各种需求。但是,用户如何访问到这 些网站,如何从这些信息服务中获取自己所需要的信息则成为了一大挑战。因为 据中国互联网络信息中心( 2 0 0 6 ) 发布第十七次中国互联网络发展状况统计报 第1 章绪论 告得知,截至2 0 0 5 年1 2 月3 1 日,我国网站总数为6 9 4 ,2 0 0 个。庞大的数据 量使得用户无法独立得将这些网站组织起来,更不用说从中寻找到所需的信息。 针对这种情况,广大学者们开始研究如何将成百上千万的网站有效地组织起 来,并从这些网站所蕴含的海量信息中抽取出有用的信息为人类服务。因此,信 息检索技术被提出并逐渐被计算机界所重视( s a l t o n & m c g i l l ,1 9 8 3 ,v a nr i i s b e r g e n , 1 9 7 9 ) 。信息检索( i n f o r m a t i o nr e t r i e v a l ) ,是指将信息按一定的方式组织和存储 起来,并根据用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储 与检索”( b a e z a y a t e s & r i b e i r o n e t o ,l9 9 9 ,y a n g & p e d e r s e n ,19 9 7 ) 。现如今,最 重要的信息检索系统便是搜索引擎,例如:y a h o o ! ( m l a d e n i c ,1 9 9 8 ,y a h o o 11 9 9 4 ) , g 0 0 9 i e ( 1 9 9 8 ) ,b a i d u ( 2 0 0 0 ) 等。 1 1 2 搜索引擎 搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查 询的系统( b r i n & p a g e ,1 9 9 8 ) 。因特网上的信息浩瀚万千,而且毫无秩序,所有的 信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索 引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅( p a g ee ta 1 ,1 9 9 8 , s p e r t u s ,1 9 9 7 ) 。目前绝大多数的用户都在使用搜索引擎在互联网中寻找所需的信 息。搜索引擎大致可以分为三个部分:信息搜集,信息整理,接受查询及反馈, 下面本文分别介绍这三个部分。 信息搜集:搜索引擎的信息搜集基本都是自动的,否则无法搜集上亿的网页。 现阶段,搜索引擎大都利用称为网络蜘蛛( s p i d e r ) 的自动搜索机器人程序获耿互 联网中每一个网页的超链接。机器人程序获取这些超链接的过程是从少数几个被 访问频率较高的、较为权威的网页开始,获取该网页中所包含的所有其他网页的 超链接( u r l ) ,而后依照深度优先算法或广度优先算法对互联网进行遍历,直到 不能获得新的超链接为止。最后,这些搜集到的信息需要按照一定的策略将其中 可用于查询的部分,如:网页内容、网页地址、标题、摘要、关键字、特定字等 存储到数据库中己形成本地查询数据库。这样用户查询时,只需使用本地数据库 而不必到互联网中重耿h t m l 文件( 赵一唯等,1 9 9 7 ) 。 信息整理:搜索引擎通过“建立索引表”组合并管理所有信息。搜索引擎不 但要保存搜集起来的所有信息,还要将它们按照一定的规则进行编排。这样能够 保证当用户需要查找某段资料时,搜索引擎根本不需要重新翻查所有保存的信 息,直接根据索引进行快速查找,以便能在常数时间内返回。反之,如果信息被 任意地堆放在数据库中,那么每次查找资料时,需要把整个数据库翻查一遍,这 样对于互联网中上万亿的网页,再快的计算机系统也难以在短暂的时白j 返回相关 网页( l e i g h t o n & s r i 、r a s t a v a ,l9 9 9 ) 。 第l 章绪论 接受查询及反馈:当用户向搜索引擎发出了查询以后,搜索引擎需要对其进 行分析并向用户返回相应资料。搜索引擎每时每刻都接受到大量用户的、几乎是 同时发出的查询。它需要按照每个用户的要求检查索引表,在极端的时间内找到 所有与用户要求相关的信息,并按照一定的规则对这些信息进行评估排序,最终 将其返回给用户。 利用这些部分,搜索引擎能够根据用户请求快速地为其返回若干相关页面, 这些页面都是按照与用户查询的相关度进行排序的,用户可以从这些页面中寻找 所需信息。但是,随着技术发展,用户的需求也不断提高。而且很多情况下,用 户所需知识是要其对网页信息进行归纳整理才能得到的。对于现如今高节奏的生 活,这些查找、归纳工作也显得相当费时费力。那么,如何满足用户进一步的需 求,提高检索的准确率以及答案的质量,成为现今信息检索领域研究的新课题。 在现有技术中,信息抽取技术和问答技术被认为是能够提高检索返回结果质量的 可能途径。下面本文分别介绍这两种技术。 1 1 3 信息抽取技术 信息抽取技术的主要目的是从一段( 文本) 信息中抽取出一类特定的信息( 诸 如事件、事实等) ,并将其形成结构化的表示形式( 比如数据库) ,供用户查询使 用( 邓尚民& 孙玉伟,2 0 0 6 ,c h a n ge ta 1 ,2 0 0 6 ,c r a v e n & k u m l i e n ,l9 9 9 ,c r i s h m 肌, 1 9 9 7 ) 。比如,从新闻报道中抽取出恐怖事件的详细情况:袭击时削、袭击地点、 袭击者、被袭击者、袭击时使用的武器等;从经济新闻中抽取出新发行股票的相 关情况:股票编号,股票名,股票价格,上市公司,发行时间,募资金额等;从 医院历史病历记录中抽取以往病例的相关信息:病人名称,疾病症状,病因,诊 断记录,检验结果,处方等。通常,被抽取出来的信息可用结构化的形式描述, 并可以直接存入数据库中,供用户查询以及进一步分析使用,例如:f a s t u s ( a p p l e t e ta 1 ,1 9 9 3 ) ,i n f 0 x t r a c t ( s r i h a r ie ta 1 ,2 0 0 3 ) 以及g a t e ( c u n n i n g h a me ta 1 , 2 0 0 2 ) 等。 信息抽取大致分为以下几部分:预处理,由于文档集内的信息结构各异,因 此需要通过分段等预处理方法将这些结构不同的文档信息转换为统一的结构形 式,例如:段落、句子等。内容过滤,通过一些粗浅的规则,快速分析文档信息 并在已有信息中挑选出与所需内容不相关的句子并将其过滤。分词,根据词典对 段落或句子进行分析,并依照每个字的独立程度将其划分为若干词语。性标注与 语法分析,利用语法规则以及词典,通过分析词语的位置、顺序以及词语的词性 等信息,抽取出该句子的完整语法分析树或语法分析树片段集合。实体识别,利 用规则,分析句子中每一个词语的含义,为那些名词短语找到所属的实体类别。 语义类别抽取,利用抽取规则,分析句子中所有词语在特定语义环境下所属的语 第1 章绪论 义类别信息( 针对特定领域制定的事实信息,例如,恐怖袭击事件中的“袭击者”, “被袭击者”等) 。关系抽取,利用抽取规则,分析句子中所有词语之间在特定 语义环境下拥有的语义关系( 针对人物信息,例如:“b i n h d a y o f ,“b i n h p l a c e o f , 等) 。 显然如果将该技术有效应用到搜索引擎中去,将能够有效提高搜索引擎返回 信息的准确率,降低用户的查阅工作量。至今为止,很多搜索引擎都利用该技术 做出了部分尝试,例如:g o o g l e 学术搜索针对学术论文领域制定了对应的抽取 规则,并利用它们从各类学术期刊数扼库中抽取所有论文的相关信息( 例如:论 文题目、摘要、作者、作者单位、作者e m a i l 、参考文献等) ,用以构建学术数 据库。显然,相比g o 0 9 1 e 搜索引擎,利用g 0 0 9 i e 学术搜索能够提高用户查阅文 献时的效率。此外,百度将信息抽取技术应用到了手机号码归属地的查询中去。 当用户输入某手机号码时,b a i d u 便会利用简单规则直接从运营商处抽取出该号 码的归属地以及业务种类等信息,并返回用户。 但是,现如今搜索引擎仅仅是在极少数领域引入了信息抽取技术,这是因为 要想将信息抽取技术与搜索引擎完美的结合,还有很多问题需要解决。下面本文 对这些问题做简单介绍与分析: 首先,搜索引擎无法准确理解用户的需求:信息抽取系统则需要准确把握用 户需求。搜索引擎仅能根掘若干关键字判断用户可能的需求,这样自然只能返回 若干包含查询关键字的相关网页,而无法准确地返回用户需要的信息,用户需要 在这些相关网页中,自行寻找答案。信息抽取系统中并不存在此类问题。这是因 为,每个信息抽取系统的适用领域较为固定,用户在对这些固定领域有了一定的 了解之后,可以通过格式化的方式精确制定他的需求。而搜索引擎是丌放领域的, 它难以通过统一的用户界面帮助用户精确地定制需求。因此,如何将语义匮乏的 关键字信息转成适合信息抽取系统的输入格式是一个难点。 其次,搜索引擎获得的信息格式混乱,重点不明确;而信息抽取系统则对信 息源质量要求很高。在很多情况下,用户的需求很难通过几句话或者几个简单短 语来解决。这时需要通过搜索引擎寻找若干相关的文档,而后抽取出若干高质量 的段落,让用户从这些相关段落中归纳整理出所需要的信息。虽然信息抽取系统 大多能做一些简单地归纳以及推理工作,但是这些系统通常要求信息源的格式规 范统一。因此,当用户所需的信息散落在整篇文档中白j 甚至是需要部分推理的时 候,信息抽耿系统便难以利用网页信息获得准确的答案。 最后,搜索引擎针对的是开放领域:信,皂、抽取系统则是针对特定领域。信息 抽取技术本身的领域侧重性很强,现如今的信息抽取系统,大多都是针对部分特 定领域人工构建信息抽取规则,并利用这些规则进行抽取的。这就使得要想将信 4 第l 章绪论 息抽取技术应用到搜索引擎中,就必须能够处理开放领域的问题,并且需要针对 各个领域制定标准的数据格式,以及对应的抽取规则。这些都是需要大量人力、 以及各个行业共同协作才能够完成的。 因此,在现阶段,信息抽取技术仅能够在部分领域中被应用到搜索引擎中, 以降低用户的查阅工作量。在绝大部分领域中,用户在网页中自行寻找答案的状 况并未改变。针对这些问题,问答技术被提出并作为另一种解决方法被众多学者 所重视。 1 1 4 问答技术 问答( q u e s t i o na n s w e r i n g ) 技术是信息抽取技术的一种拓展,问答系统是将 问答技术加以实现,为人类提供知识服务的一类系统。面对一个以自然语言表达 的问题,一个问答系统的任务就是通过互联网或本地数据库找出f 确的答案,并 以自然语言的表达方式返回用户。根据答案获取方法的不同,问答系统可以被分 为自动问答系统和交互式问答系统。自动问答系统主要利用基于语义匹配的方法 获取答案,该方法利用自然语言理解技术自动分析问题中所包含的用户需求以及 数据源的语义信息,而后返回数据源中与问题所问事物的语义相一致的信息作为 答案。交互式问答系统则采用基于问题推荐的答案获取方法,通过问题调度技术 将问题分配到合适用户处进行回答,充分调动用户的参与积极性,以达到将所有 用户组成高效的社会协作网、互相解决对方提出问题的目的。 显然,该技术有效解决了信息抽取技术所存在的三个问题,首先,用户抛却 了孤立的关键字,利用自然语言问题的形式,能够准确得描述他所需求的信息; 这些信息能够通过自然语言理解工具被转换成描述规范的、富含语义的格式,这 为利用信息抽取技术抽取准确的答案提供了可能。其次,允许用户回答问题,解 决了一些需要推理或是归纳总结的问题:由于人类的智能是难以替代的,部分通 过信息抽取技术难以解决的问题可以通过社会协作网络来轻松解决。最后,交互 式问答系统并未使用信息抽取规则,因此该方法能够解决现有抽取规则库不能覆 盖的所有问题;同时,当社会上所有的用户被组织成一个高效的协作网以后,每 一个领域的知识都可以通过人工创建、人工修改、以及人工评估的形式被快速地、 准确地组织起来( d e n o y e r & g a l l i n a l r i ,2 0 0 6 ,v 6 l k e le ta 1 ,2 0 0 6 ) 。 显然,问答技术以其实用性、便利性、高效性以及准确性,为解决搜索引擎 以及信息抽取技术中的不足提供了一种潜在的可能。由于其重要的应用价值以及 良好的发展趋势,本文将该领域作为研究方向,并针对问答系统的答案获取方法 中的各个主要部分展开了深入、细致的研究。 第1 章绪论 1 2 问答系统综述 本节从系统结构以及主要功能模块两个方面,对自动问答系统以及交互式问 答系统分别展开了详细的介绍。 1 2 1 自动问答系统 自动问答技术是信息抽取技术的一种,被认为是一种智能化的搜索引擎( 吴 友政等,2 0 0 5 ,郑实福等,2 0 0 2 ) 。该方法试图不借助任何人力,利用自然语言 理解、信息检索以及信息抽取等技术,以全自动的方式回答用户的问题( p r a g e r , 2 0 0 6 ) 。在2 0 0 5 年以前,问答领域的研究大多数是针对自动问答所展丌的。本节 主要介绍自动问答系统的系统结构,各个功能模块以及相关研究。 系统结构 。 问题处 j 段落 理模块 y 抽取 弋 j 一 段落n 下 蚰珊 1 图1 。l 自动答案系统结构幽 答案处 理模块 m o l d m a ne ta 1 在a c l 2 0 0 0 ( m o l d o v a ne ta 1 ,2 0 0 0 ) 中提出问答系统可以由三 个模块组成:问题处理模块,段落抽取索引模块和答案处理模块。现有的自动 问答系统大多是以该模式为基础进行拓展的。图1 1 展示了该类问答系统的结构 图,其中问题处理模块在于通过自然语言1 理解技术处理分析用户新提出的问题, 以抽取出用户的需求并利用某种数据格式表示这种需求信息;段落抽取索引模 块包含了段落抽取模块以及索引模块,索引模块负责搜集并管理所有可利用的文 档,这些文档可以从互联网中获得,也可以从本地的数据源中获得,段落抽取模 块则将索引得到的文档进行分段处理,并从中抽耿出所有与问题相关的段落,对 其进行评估并将最相关的若干段落返回到答案处理模块:答案抽取模块则是通过 信息抽取技术从这些相关段落中抽取出若干候选答案,通过评估排序获得针对该 问题较为可信的答案。接下来,本文分别介绍自动问答系统中各个模块的工作原 第l 章绪论 理。 问题处理模块 问题处理模块主要借助特征向量模型( s a l t o n ,w b n g & g ,1 9 7 5 ) 、语法规则 ( m a l l i l i n g & s c h e u t z e ,1 9 9 9 ) 或者问题模板( h a o ,2 0 0 7 ) 等机器学习方法 ( g o l d b er g i & h o l l a i l d ,1 9 8 8 ) 从问题中抽取各种信息,用以表征用户的需求。这些 信息根据语义描述能力的不同,可以由弱至强的分为关键词集合、特征向量、问 题模板以及语义信息等。 假设f = f j ,匕b ,岛 是短语空间,其中厶表示一个短语:q = g f ,留2 ,留”, 锄) 表示一个问题集合,吼表示其中的一个问题。采用关键词集合作为问题特征 是指将问题吼分解为若干短语,并利用这些短语的集合劬d 做g 力= ,f ,改) , j 墨f k 后耋皿f f z l “丁来表示吼( t r i e r ,j a i n & t a x t ,1 9 9 6 ) 。劬d 麒g d 的构建策略有很多,b r o w n ( 1 9 9 2 ) 和c a v n a r ( 1 9 9 5 ) 描述了如何利用分块算法按照 独立性将英文文本分成短语,并将所有的短语加入到短语集合中。孙茂松( 2 0 0 1 ) 则对中文文本的分词方法进行了深入研究。g ( 1 9 9 5 ) 通过统计的方法学习得到 了禁止词列表( s t o p w o r dl i s t ) ,用以存储所有无实际意义的或者有损于分析的词 语。在构建劬。似鼋女) 时去除所有禁止词能够保证劬d 娥神中的短语都拥有 较强的独立语义并能在一定程度上表示用户的需求。随着w 6 r d n e t 和h o w n e t 等同义词典的应用( d o n ge ta 1 ,1 9 9 9 ,m i l l e r ,1 9 9 5 ) ,关键词集合在语义层被加以 拓展。d a v e 等人( 2 0 0 3 ) 利用w 6 r d n e t 等语义词典获取与尬o 耐( 留d 中短语的 语义相近的其他短语,再将这些新得到的短语加入到关键词集合劬d 埘( g t ) 中, 这样可以解决同义异构的问题,有效的挖掘出潜在的答案,提高了答案抽取的召 回率。 , 向量空间模型( v e c t o rs p a c em o d e l ) 是在关键词集合之上引入了权重的概念。 当给定短语空间丁= ,乃,“,岛) 和问题集合q = g ,9 2 ,和,铷) 时,该方法 利用n 维向量跆c 幻厂( 口0 = g w ,缸g w 2 岛,g w 。女) 作为问题吼的特征,其中,g w 瓜 表示短语厶在吼中的权重。相比关键词集合,权重能够在一定程度上反映出短语 在用户需求描述能力的差异。现有研究工作中,短语权重大多采用布尔值、词频、 正规化词频、t f i d f 以及语义权重等。布尔判断是通过检查f ,是否在吼中出现来 决定权值g w 加如果f ,在吼中出现则将g w 砖设置为1 ;否则,如果r 未在吼中出 现则将口w 庸设置为o ( c 0 0 p e r ,1 9 9 8 ) 。频率统计则是采用短语f ,在鲰中的出现次 数作为其权重鸟w 戒( h u ,c h e n & l i u ,2 0 0 8a ) 。为了能够消除长度不同的问题之间 的词频差异,部分研究者利用归一公式将g w 庸映射到 0 ,1 空间( 康平立,许雯燕 & 江丽萍,2 0 0 7 ) 。t f i d f 是根据每一个词语在整个问题集合q 的分布情况设定 他的权值( s a l t o n & b u c k i e y ,1 9 9 8 ,j o a c h i m s ,1 9 9 7 ) 。语义权重则是通过人工制定的 第1 章绪论 问题模板对问题进行匹配( h a oe ta 1 ,2 0 0 7 ) ,而后根掘问题中每个关键词所属语 义角色的不同赋予对应的权值,这些权值是在对历史数据进行分析的基础上通过 人工定制的。 问题模板是一类拥有类似结构的问题的抽象表现形式。这一类问题的语义描 述方法以及答案抽取策略较为类似,可以通过统一的策略进行处理。每一个问题 模板可以看作一种问题处理方案,任何映射到改模板的问题都可以依照该方案进 行处理。因此问题模板特征实际上是一种映射信息。现有系统大多通过频繁结构 抽取配合语法及语义约束为每一类问题构建一个问题模板,然后为该模板制定若 干答案抽取模板。那么当每一个问题被提出时,首先通过模板匹配搜寻到该问题 的问题模板,而后得到该问题所对应的答案模板,最后利用答案模板抽取该问题 的答案。模板又可以分为浅层模板( s o u b b o t i n ,2 0 0 1 ) 和语义模板( h a oe ta 1 , 2 0 0 7 ) 。浅层模板不具有语义约束信息,不能够区分结构相同但语义不同的问题, 很多情况下语义不同的问题尽管结构相同,但是抽取答案的策略却截然不同。语 义模板则是通过在浅层模板的基础上添加语义约束信息,借以将浅层模板进一步 细化,用一些语义标签将覆盖的问题集分割成为不同的子集,而后针对每一个子 集再分别制定答案模板,这样通过分情况处理的方法保证了答案的质量。 语义信息抽取是最为复杂、最为深入的分析。该方法通过附带语义标注的语 法规则或模板,把每个问题中所表示用户的需求通过君干语义关系和语义类别表 示出来。通过语义信息抽取能够脱离结构的约束,将每个问题都映射到语义空间 中,以至于能够把结构不同的但是语义相同的文本之间建立映射关系。这样,在 抽取答案时,可以在语义层面上从知识库、或者是互联网中获得与问题所问事物 语义相一致的信息作为答案。现有的语义抽取技术大致分为基于依赖树的分析方 法、基于语义角色标注的分析方法以及基于规则的分析方法。其中,基于依赖树 的语义分析方法主要是分析问题词语之i 、日j 的依赖关系,并将这种依赖关系作为问 题的语义信息;由于依赖信息和语法结构之间的相关性很大,因此现有方法大多 通过分析问题语法结构树来推断词语之间的依赖关系( l i ue ta 1 ,2 0 0 7 ,b o u m a , m u r & n 0 0 r d ,2 0 0 6 ) 。基于语义角色的分析方法( c a h e r a s & m a r q u e z ,2 0 0 5 , h a c i o g l u ,2 0 0 4 ) 则是通过信号词语发现问题中的核心词语,而后通过位置、语法 树、相邻距离等结构信息获取问题中每个词汇对于核心词语的语义角色。在寻找 答案时,只需要首先在信息源中寻找信号词,而后找到与所问事物拥有相同语义 角色的信息即可。最后一个是基于语义模板的分析方法( h ue ta 1 ,2 0 0 7 ) ,该方法 通过问题模板抽取出问题中每个短语的语义类型以及短语之间的语义关系,并依 此寻找答案。 第1 章绪论 段落抽取索引模块 获得问题特征以后,自动问答系统将会从所持有的数据库中抽取答案。该数 据库包括文档库以及历史问答库,其中,文档库中存放富含信息的大量文档而历 史问答库中则存放所有用户曾经提出的问题以及对应的正确答案。由于数据库的 规模通常较大而且答案抽耿的过程较为复杂,因此遍历数据库抽取答案将会耗费 大量时间,其可行性很低。为此,现有问答系统在问题分析模块和答案抽取模块 之间添加了一层:段落索引抽取模块。该模块用以从海量数据中,快速抽取可能 包含答案的若干相关文档,而后对这些文档按照描述主题的不同进行分段,并过 滤与问题无关的段落。最后,通过计算剩余段落与问题的相关度,仅将少数高质 量段落返回答案抽取模块( l i u & c r o r ,2 0 0 2 ,c u ie ta 1 ,2 0 0 5 ) 。此外,很多情况下, 用户提出的问题需要大段信息才能够解决,此时也可以直接将该模块所返回的段 落作为答案。下面本文将段落索引抽取模块分为索引部分和段落抽取部分,分别 加以介绍。 索引部分负责过滤所有与问题无关的文档。因为如果遍历整个数据库抽取答 案的话,其时间复杂度为d ( 舭托,) 木d 仞,其中为数据库规模,为数据库中每 条数据的最大长度,d 仞为答案抽取的时间复杂度,z 为关键词数目,z 为关键 词最大长度,显然这种方法在,d 仞很大的时候是相当耗时的。出于效率的考 虑,索引部分利用“倒排表”组织数据库并且为其中每条数据建立索弓;,这样 能够提高检索效率。在倒排表中,短语空间内的每条短语被当为索引项,而其对 应的值则是该短语在数据库中每条数据里面所在的位置信息。如果索引项为短语 时,答案抽取的时间复杂度降为伙,z 啪奎p 仞;进一步,如果对索引项预先排序 的话,答案抽取的时间复杂度则进一步降为0 ( 以圮d g 柳幸d 围;而如果采用短语的 哈希值做索引,那么答案抽耿的时间复杂度可接近0 ( ,2 川) 书d 仞,其中删为映射 冗余度。显然,利用索引部分,自动问答系统能够在接近固定的时i 司内搜索到所 有与问题相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论