




已阅读5页,还剩105页未读, 继续免费阅读
(计算机应用技术专业论文)基于问答网络论坛知识体系的自动问答系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着信息检索技术的发展,互联网上出现了多种类型的搜索服务。其中应用 最为广泛的当数w e b 搜索引擎服务,实现了对海量w e b 文档的获取、处理、存 储和访问,使用户能够在互联网上方便快捷的查找到所需信息,在人们日常生 活中发挥了重要作用。但是,随着互联网信息量的增长和搜索引擎技术的成熟, 互联网用户已经不满足于单纯基于关键词的搜索服务,而希望通过自然语言描 述,表达自己的查询需求,希望搜索服务系统能够理解用户意图,返回恰当的 结果。因此,自动问答系统成了互联网用户的下一步渴望。自动问答系统的用 户界面类似于搜索引擎,但用户提交的不再是关键词,而是自然语言问句,系 统返回的是根据与问题相关程度排序的答案列表。 目前,自动问答领域已经积累了大量的研究成果,包括基于不同语言的、不 同数据集的自动问答研究。但是,自动问答还没能像搜索引擎一样,形成产品 化的服务。本文旨在为产品化的自动问答互联网服务积累经验,研究基于一种 特定的数据集问答网络论坛数据集,构建自动问答系统的过程;进而在信 息检索过程中,通过引入自然语言句法和语义信息、重新定义数据组织形式等 措施,研究系统性能的一系列改进方案。主要贡献和创新点包括: 构建自动问答系统的评测平台。在问答网络论坛数据集上,参照搜索引 擎实现原理,基于标引项,采用文本相似度检索模型构建自动问答系统。 实验表明:系统性能略优于问答网络论坛自带的“相似问题搜索 功能, 将代替该功能,作为本文系统性能改进的评价基准。 基于依存项的自动问答系统性能改进。提出依存项定义,在标引项基础 上引入了自然语言依存句法分析结果,将句法信息引入到信息检索过程 中。实验表明:依存项可以有效表达问题的自然语言句法特征,原有的 信息检索模型不做任何改变,即可改进自动问答系统性能。 基于问题分类的自动问答系统性能改进。针对问答网络论坛数据集,提 出一套新的自然语言问题分类体系,将自然语言句法和语义信息作为训 练特征,训练出足够精确的问题分类器。问题分类结果用于指导答案排 序。实验表明:分类器对论坛数据集分类效果良好,类别指导排序明显 t 摘要 改进了系统性能。 基于自然语言知识体系的自动问答系统改进。参考前两种系统改进经 验,提出新的数据组织形式:向概念体系添加谓语关联,建立自然语言 知识体系。谓语关联由数据集中的问题答案对产生。这是一种综合的改 进,既充分利用了数据集中的答案信息,又借助自然语言概念体系的关 联关系,增强了系统的查询扩展和逻辑推理能力。论坛数据填充到此体 系中,并在此体系上重建自动问答系统。实验表明:重建后系统性能得 到全面改进。 关键词:问答网络论坛信息检索自动问答系统依存句法知识体系 i i a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nr e t r i e v a lt e c h n o l o g y , v a r i o u st y p e so f s e a r c hs e r v i c e sh a v ea p p e a r e do nt h ei n t e r n e t i na l lt h es e r v i c e s ,t h eo n et h a ti sm o s t w i d e l yu s e di sw e bs e a r c he n g i n e ,w h i c hh a sr e a l i z e dt h ea c q u i s i t i o n , p r o c e s s i n g , s t o r a g ea n da c c e s so nt h em a s so fw e bd o c u m e n t s ,i no r d e rt h a tu s e r sc a l lf i n d n e c e s s a r yi n f o r m a t i o no nt h ei n t e r n e tq u i c k l ya n de a s i l y t h u st h ew e b s e a r c he n g i n e p l a y sa ni m p o r t a n tr o l ei np e o p l e sd a i l yl i f e h o w e v e r , f o rt h eg r o w t ho fi n t e m e t i n f o r m a t i o na n dt h em a t u r i t yo fs e a r c ht e c h n o l o g y , i n t e r n e tu s e r sh a v en ol o n g e r s a t i s f i e dw i t hak e y w o r d - b a s e ds e a r c hs e r v i c e ,a n dh o p et h a tt h e yc a ne x p r e s st h e i r q u e r yn e e d st h r o u g hn a t u r a ll a n g u a g ed e s c r i p t i o n ,a n dt h es e a r c hs e r v i c es y s t e mc a n u n d e r s t a n dm e i ri n t e n t i o nt or e t u r na p p r o p r i a t er e s u l t s t h e r e f o r e ,t h ea u t o m a t i c q u e s t i o na n s w e r i n gs y s t e mh a sb e c o m et h e n e x td e s i r eo fi n t e r n e tu s e r s a u t o m a t i c q u e s t i o na n s w e r i n gs y s t e mo f f e r sau s e ri n t e r f a c es i m i l a rt os e a r c he n g i n e s ;w h i l e u s e r sw i l ln ol o n g e rc o m m i tk e y w o r d s ,b u tn a t u r a ll a n g u a g eq u e s t i o n s t h es y s t e m w i l lr e t u r nal i s to fa n s w e r sr a n k e db yt h e i ra s s o c i a t i o nw i mt h eq u e s t i o n b yp r e s e n t ,ag r e a td e a lo fr e s e a r c hr e s u l t sh a sb e e na c c u m u l a t e di nt h ef i e l do f a u t o m a t i cq u e s t i o na n s w e r i n g ,i n c l u d i n gt h o s eb a s e do nd i f f e r e n tl a n g u a g e sa n d d i f f e r e n td a t as e t s h o w e v e r , t h e r ei sn oa u t o m a t i cq u e s t i o na n s w e r i n gs e r v i c ey e t ,a s ap r o d u c ta ss e a r c he n g i n e a i m i n ga tt h ea c c u m u l a t i o no fe x p e r i e n c ef o rt h ep r o d u c to fa u t o m a t i cq u e s t i o n a n s w e r i n gi n t e r a c ts e r v i c e ,t h i sp a p e rs t u d i e st h ec o n s t r u c t i o np r o c e s so fa u t o m a t i c q u e s t i o na n s w e r i n gs y s t e m ,w h i c hi s b a s e do nas p e c i f i cd a t as e t q u e s t i o na n d a n s w e rw e bf o r u md a t as e t s t h i sp a p e ra l s os t u d i e sas e r i e so fp r o g r a m st oi m p r o v e t h es y s t e mp e r f o r m a n c e ,t h r o u g ht h ei n 仃o d u c t i o no fn a t u r a ll a n g u a g es y n t a c t i ca n d s e m a n t i ci n f o r m a t i o na n dn e wo r g a n i z a t i o n a lf o r mo fd a t as e t si n t oi n f o r m a t i o n r e t r i e v a lp r o c e s s t h em a i nc o n t r i b u t i o n sa n di n n o v a t i o n si n c l u d e : t h ec o n s t r u c t i o no fe v a l u a t i o np l a t f o r mf o ra u t o m a t i cq u e s t i o na n s w e r i n g s y s t e m b u i l da na u t o m a t i cq u e s t i o na n s w e r i n gs y s t e mo nt h eq u e s t i o na n d t t t a b s t r a c t a n s w e rf o r u md a t as e t s ,r e f e r r i n gt ot h er e a l i z a t i o no ft h es e a r c he n g i n e , u s i n gt h et e r m - b a s e dt e x ts i m i l a r i t ym o d e l e x p e r i m e n t ss h o wt h a t :t h e p e r f o r m a n c eo ft h es y s t e m i s s l i g h t l yb e t t e rt h a n t h a to fm e i ro w n s i m i l a r - q u e s t i o n - s e a r c hs e r v i c ei nq u e s t i o na n da n s w e rf o r u m s t h e ni tw i l l b et r e a t e da st h ee v a l u a t i o nb a s e l i n eo fs y s t e mp e r f o r m a n c ei m p r o v e m e n ti n t h i sp a p e r , i n s t e a do ft h es i m i l a r - q u e s t i o n s e a r c hs e r v i c e p e r f o r m a n c ei m p r o v e m e n to fa u t o m a t i cq u e s t i o na n s w e r i n gs y s t e mb a s e do n d e p e n d e n c yt e r m ad e f i n i t i o no fd e p e n d e n c yt e r mi sp r o p o s e d ,b a s e do n t e r m , i n t e g r a t i n gt h en a t u r a ll a n g u a g ed e p e n d e n c ys t r u c t u r e ,i n t r o d u c i n g s y n t a c t i ci n f o r m a t i o ni n t ot h ei n f o r m a t i o nr e t r i e v a lp r o c e s s e x p e r i m e n t s s h o wt h a t :d e p e n d e n c yt e r mc a ne f f e c t i v e l ye x p r e s st h ec h a r a c t e r i s t i c so f n a t u r a ll a n g u a g eq u e s t i o n s ,a n di m p r o v e st h ep e r f o r m a n c eo fa u t o m a t i c q u e s t i o na n s w e r i n gs y s t e mw i t h o u tc h a n g i n go fo r i g i n a li n f o r m a t i o n r e t r i e v a lm o d e l s p e r f o r m a n c ei m p r o v e m e n to fa u t o m a t i cq u e s t i o na n s w e r i n gs y s t e mb a s e do n q u e s t i o nc l a s s i f i c a t i o n an e wd e f i n i t i o no ft a x o n o m yf o rn a t u r a ll a n g u a g e q u e s t i o n si sp r o p o s e d ,f o rt h et h eq u e s t i o na n da n s w e rf o r u md a t as e t s ,a n da q u e s t i o nc l a s s i f i e ri st r a i n e db yn a t u r a ll a n g u a g es y n t a c t i ca n ds e m a n t i c f e a t u r e s ,w h i c hi sa c c u r a t ee n o u g ht og u i d et h ea n s w e rr a n k i n g e x p e r i m e n t s s h o wt h a t :t h eq u e s t i o nc l a s s i f i e rw o r k sw e l lo nt h ew e bf o r u md a t as e t s , a n dt h eq u e s t i o n c l a s s - g u i d e d r a n k i n gs i g n i f i c a n t l yi m p r o v e st h es y s t e m p e r f o r m a n c e p e r f o r m a n c ei m p r o v e m e n to fa u t o m a t i cq u e s t i o na n s w e r i n gs y s t e mb a s e do n n a t u r a ll a n g u a g e - b a s e dk n o w l e d g es y s t e m m a d d i n gr e f e r e n c e st ot h e f o r m e rt w op e r f o r m a n c ei m p r o v i n gm e t h o d so ft h es y s t e m ,an e wd a t a o r g a n i z i n gf o r mi sp r o p o s e d :a d d i n gp r e d i c a t el i n k st oc o n c e p ts y s t e mt o e s t a b l i s han a t u r a ll a n g u a g e - b a s e dk n o w l e d g es y s t e m t h ep r e d i c a t el i n k s a r eg e n e r a t e df r o mt h eq u e s t i o n a n s w e rp a i r si nt h ed a t es e t s t h i si sa c o m p r e h e n s i v ei m p r o v e m e n t ;m a k i n gf u l lu s eo fn o to n l yt h ei n f o r m a t i o n f r o ma n s w e r s ,b u ta l s ot h er e l a t i o n s h i p sf o r mc o n c e p ts y s t e m ,e n h a n c i n gt h e l o g i c a lr e a s o n i n ga b i l i t yo ft h es y s t e m f o r u md a t aa r ea l lf i l l e di n t ot h e a b s t r a c t k n o w l e d g es y s t e m , b a s e do nw h i c ht h ea u t o m a t i cq u e s t i o na n s w e r i n g s y s t e mi sr e b u i l t e x p e r i m e n t ss h o wt h a t :t h er e c o n s t r u c t i o nb r i n g sl u t h e r i m p r o v e m e n tt ot h es y s t e mp e r f o r m a n c e k e yw o r d s :q u e s t i o na n da n s w e rw e bf o r u m ;i n f o r m a t i o nr e t r i e v a l ;a u t o m a t i c q u e s t i o na n s w e r i n gs y s t e m ;d e p e n d e n c yg r a m m a rk n o w l e d g es y s t e m v 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均己在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 亏士痔 勰。c i 年岁其3 e t 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:哥士孝 即口7 r 年岁月了1 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名;学位论文作者签名: 解密时间:年 月日 各密级的最长保密年限及书写格式规定如下: i “、 内部5 年( 最长5 年,可少于5 年)| l 秘密1 0 年( 最长l o 年,可少于l o 年) l 机密2 0 年( 最长2 0 年,可少于2 0 年) 。一,。一+ ,。,。一j 第一章绪论 第一章绪论 本章主要介绍论文研究的背景和意义,分析相关问题研究现状,阐述本文要 解决的主要问题以及取得的主要研究成果,并说明论文的组织结构。 第一节研究目的、背景和意义 本文主要研究信息检索问题,基于一种特定的数据集问答网络论坛数 据集的自动问答系统。自动问答系统是一个跨领域的综合研究课题,涉及到信 息检索、自然语言处理、机器学习技术等,各个研究领域对其的研究侧重点和 贡献不尽相同。本文从信息检索的角度研究自动问答系统的实现和改进。 1 1 1 信息检索与自动问答 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是研究对信息进行表示、存储、组织 和访问的技术 1 2 1 1 3 ,是- - i - j 应用背景很强的学科。信息检索系统接受用户需 求,查询出相关信息返回给用户。1 9 4 5 年,v a n n e v a rb u s h 首次提出了使用计算 机帮助人们从归档文件中自动获取信息的想法 4 。而信息检索的术语最早是由 信息检索的先驱c a l v i nn m o o e r s 于19 5 0 年提出的 5 。最初的信息检索系统主 要应用于图书馆的文献检索。1 9 5 4 年美国海军兵器中心图书馆在i b m7 0 1 计算 机上成功建立了世界上第一个计算机文献检索系统。随着计算机技术与互联网 技术的发展,数字图书馆和各种各样的电子信息载体不断涌现,信息检索系统 也从批处理方式的文档检索发展到上世纪7 0 年代后的联机情报检索,以至于现 在的大规模的互联网信息检索和数字图书馆等领域。总之,信息检索技术已经 对日常生活和科学研究产生了积极而又深远的影响。 信息检索的目标是让用户更加方便的访问到其感兴趣的信息 6 7 ,检索过 程如图1 1 所示【2 】。遗憾的是,对用户信息需求( u s e ri n f o r m a t i o nn e e d ) 进行 描述不是一个简单的问题。例如,利用目前的w e b 搜索引擎( w e bs e a r c he n g i n e ) 界面,用户还不能采用对信息需求进行完整描述的方式检索信息。取而代之的 是,用户必须首先将信息需求转换为搜索引擎能够处理查询( q u e r y ) ,即关键 第一章绪论 词列表。事实上,用户感觉最直接、最自然的输入方式就是自然语言输入;信 息检索系统通过解析自然语言,理解用户的查询需求,返回恰当的结果。于是, 自动问答系统( a u t o m a t i cq u e s t i o n a n s w e r i n gs y s t e m ) 成了互联网用户的下一步 渴望。自动问答系统的用户界面类似于搜索引擎,但用户提交的查询不再是关 键词列表,而是自然语言问句,系统返回的是该问题的最佳答案或根据与问题 相关程度排序的答案列表。 用户反馈 用户需求 用户界面 文本 文本操作 e 逻辑视图 j r _ 一 查询操作i 查询l j l 检索 i一 检出文献l l d 斛 逻辑视图f 上 标弓 倒捧文档i i 一索弓 图1 1 信息检索过程示意图 数据库 管理模块 事实上,自动问答并不是最近提出来的概念【8 】。早在上世纪6 0 年代人工智 能研究刚开始的时候,就提出了让计算机用自然语言来回答人们的问题,这就 是指自动问答系统。问答系统在上世纪8 0 年代的自然语言处理领域曾风行一时。 但是,由于当时的条件限制,所有的实验都是在非常受限的领域,甚至是固定 段落上进行的,所以自动问答一直被限制在特殊领域的专家系统。此后,大规 模文本处理技术兴起,问答系统的研究受到了冷落。近年来随着网络和信息技 术的飞速发展,各种信息资源正在以爆炸式的速度迅速膨胀,互联网已成为人 们获取信息的重要途径,互联网的信息检索越来越受到人们的重视 9 。人们想 更快的获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的 公司和科研院所参与了自动问答技术的研究。比如,微软和i b m 等著名的跨国 公司。自1 9 9 9 至2 0 0 7 年,在美国n i s t 组织的文本信息检索会议( t e x tr e t r i e v a l 2 第一章绪论 c o n f e r e n c e ,t r e c ) 1 上,自动问答主题( q u e s t i o n a n s w e r i n gt r a c k ,q a t r a c k ) 2 是最受关注的主题之一。目前,问答系统已经成为自然语言处理领域和信息检 索领域的一个重要分支和新兴的研究热点,通过系统化、大规模的定量评价推 动研究向前发展,极大的推动了自然语言处理领域和信息检索领域研究的发展。 总之,目前自动问答领域已经积累了大量的研究成果 1 0 1 1 1 2 】 1 3 】 1 4 】 1 5 】 1 6 】 【1 7 ,包括基于不同语言的、不同数据集的自动问答研究。但是,自动问答还没 能像搜索引擎一样,形成产品化的服务: 一方面,自动问答是一个综合性的研究领域,涉及到语言学、自然语言 处理技术、信息检索技术、机器学习技术等,技术的整体成熟程度与协 作程度尚不及搜索引擎,现有的算法和数据模型还不具备完全理解和表 达用户意图的能力。 另一方面,没有内容足够丰富的数据集支持。事实上,自动问答系统对 先验知识的依赖程度,比对技术的要求更甚。比较而言,搜索引擎只需 真实客观的反映互联网的本来面貌,而产品化的自动问答系统需要具备 回答各个领域各个知识层次用户的问题的能力。 本文受微软亚洲研究院互联网服务科研基金项目资助3 ,研究“基于问答网 络论坛的问答知识表示与应用”,旨在为产品化的自动问答互联网服务积累经 验,提出指导方向。因此,研究工作综合了数据和技术双方面的考虑,既注重 学术科研价值,又兼顾了技术路线的可行性。 本文的研究目标不是通过大量对比实验评测得出适合自动问答系统的最佳 信息检索模型、最佳自然语言分析工具、乃至最佳的自然语言概念体系;而是 研究能够大幅度影响系统性能的核心信息,以及在信息检索过程中利用这些核 心信息的方法,从而形成改进自动问答系统性能的有效的技术路线。 1 1 2 典型的问答系统分析 为了研究自动问答互联网服务的最佳构建方案,确定最佳的数据来源,本章 首先分析几种典型问答系统模式及特点。包括基于频繁问题集的自动问答系统、 1 h t t p :t r e e n i s t g o v :h t t p :t r e e n i s t g o v d a t a q a m a i n h t r n l 5 h t t p :d b i s n a n k a i e d u c n q n a 3 第一章绪论 基于网页搜索的自动问答系统、交互式问答网络论坛等。 1 1 - 2 1 基于频繁问题集的自动问答系统 此类自动问答系统采用频繁问题集( f r e q u e n t l ya s k e dq u e s t i o n s ,f a q ) 作 为数据支持。数据单元是现成的问题答案对( q u e s t i o n a n s w e rp a i r ,q a p a i r ) 。 由于答案都是事先准备好的,那么只要实现了问题与问题之间的相似度计 算,即可实现自动问答。系统接受用户提交的问题后,到“问题答案对数据 集中找到与之最为接近的问题或问题列表,将对应的答案返回给用户即可。 这是一种简单而实用的策略,唯一受到的限制是数据集的规模。不幸的是, 大部分基于频繁问题集的自动问答系统,其数据集规模都比较小,通常是局限 于某一领域或某一话题的讨论,通用性差。从而,此类自动问答系统通常演化 为专家系统:对于本领域的常见问题,可以返回高质量的答案;对于不常见的 或其他领域的问题,则基本得不到答案。 目前,此类自动问答系统的实例有很多,但一般都是小规模的,难以形成互 联网服务。 1 1 2 2 基于网页搜索的自动问答系统 此类自动问答系统开始考虑采用w e b 数据( 即普通网页) 作为答案数据来 源,这是一个很好的研究方向。 此类系统的实现一般包括三个步骤:问题分析、信息检索和答案抽取。问题 分析包括问题中的关键词提取和问题类别划分;信息检索则是根据问题中的关 键词,采用通用w e b 搜索引擎搜索出若干相关页面;答案抽取就是根据问题类 别以及关键词的出现位置,从搜索出的相关页面中提取答案。 一般来讲,此类自动问答系统的通用性要比基于频繁问题集的自动问答系统 高,属于开放领域问答系统,但是系统提取出来的答案质量却不及后者,有时 只能返回相关网页的整个页面,退化为w e b 搜索引擎。另外影响此类系统性能 的是网页内容的正确性与权威性。对于普通网页的搜索结果,不经过人工验证, 系统很难判定网页内容的正确性。 4 第一章绪论 目前,此类自动问答系统已经出现一些比较成熟的实例,例如a s k t o m 4 、 a n s w e rb u s 5 、s t a r t 6 等。 1 1 2 3 交互式问答网络论坛 交互式问答网络论坛是一种重要的互联网服务形式,本身不是自动问答系 统,而是完全供用户提问和回答的网站平台。用户在此平台上可以提问、回答 或参与投票选择某一问题的最佳答案。 此类问答网络论坛将一个问题( q u e s t i o n ) 及其所有答案( a n s w e r ) 称为一 个主题( t h r e a d ) 。一个主题的生命周期包括“提问回答”、“答案投票”、“标注 最佳答案”几个阶段,一个完结( c l o s e d ) 的主题通常会被提问者手动标示出最 佳答案( b e s t a n s w e r ) 。讨论主题根据其内容划分为若干分类( c a t e g o r y 、t a g ) , 每个分类可以看作主题集合。通用的交互式问答网络论坛,分类十分丰富,覆 盖了人们日常生活的方方面面。 此类问答网络论坛的成熟的实例很多,包括英文的y a h o o ! a n s w e r s7 、m s n q n n 8 ,中文的百度知道9 、雅虎知识堂1 0 、天涯问答1 1 等。而且,成熟论坛通常持 有大规模的问答主题数据。 另外,尽管此类问答网络论坛是用于人工交互的,但论坛通常会带有一个相 似问题搜索 功能,在全站或某一分类下尝试查找某一问题的答案,其实现原 理类似于基于频繁问题集的自动问答系统。如果论坛中已经有关于该问题的讨 论,那么用户直接浏览讨论结果即可。 总体来讲,问答网络论坛的数据具有以下特点: 数据规模大,成熟的论坛通常持有大规模的问答主题数据; 数据分类丰富,对于常见问题讨论的很透彻,能够回答生活中遇到的大 部分问题,反应了大部分用户的需求导向,用户满意度高; 用户关注度高,时效性强,对新兴话题和热门话题反应迅速; h t t p :w w w a s k c o m h t t p :w w w a n s w e r b u s e o m h t t p :s t a r t c s a i l m i t e d u h t t p :a n s w e r s y a h o o c o m h t t p :q n a j i v e t o m h t t p :z h i d a o b a i d u c o r n h t t p :a s k k o u b e i c o r n h t t p :w e n d a t i a n y a e n w e n d a 5 第一章绪论 带有投票信息和人工标注的最佳答案,经过人工验证,答案的正确性和 权威性高:如果作为信息检索系统的数据源,数据标注成本大大降低 综上所述,问答网络论坛是构建自动问答系统的天然的理想的数据集。国外 已经有多篇文章和项目技术报告对此进行了论证。尤其对于y a h o o ! a n s w e s 论 坛,专门有文章 1 8 1 对其问答主题形式进行了详细分析,在美国s t a n f o r d 大学的 一个项目技术报告 1 9 】中,已经有了基于y a h o o ! a n s w e s 论坛构建自动问答系统 的尝试。 本文进行自动问答系统的研究,需要同时考虑实现技术和数据集两方面的信 息,缺一不可。根据以上的分析结果,如果采用问答网络论坛作为数据源,借 鉴并改进现有两种自动问答系统的技术研究成果,所构建出来的自动问答系统, 理论上应该表现出良好的性能。 第二节主要研究内容和创新之处 本文旨在为产品化的自动问答互联网服务积累经验,研究基于一种特定的 数据集问答网络论坛数据集,构建自动问答系统的过程。进而在信息检索 过程中,通过引入自然语言句法和语义信息、重新定义数据组织形式等措施, 研究系统性能的一系列改进方案。 传统的信息检索系统,大都以关键词作为计算文档相似度的载体,这在搜 索引擎领域被证实是十分成功的。但是,针对自动问答系统,用户提交的是自 然语言问句,如果仅基于关键词计算文本相似度,系统性能并不十分出色。参 考国外自动问答的研究成果 2 0 2 1 ,并经本文实验验证,本文认为:自然语言 的句法和语义信息是影响自动问答系统性能的核心信息。通过恰当的方式将自 然语言信息引入到信息检索过程中,可以明显改进自动问答系统性能。因而, 本文的研究工作就是围绕着如何应用句法和语义信息展开的。 本文研究内容可用图1 2 概括,实现了逐步改进自动问答系统性能的过程。 图中已经标识出各部分工作对应本文的章节号,可以看出,自动问答系统的性 能改进过程,就是不断定义更多的信息表现形式,应用更多类型信息的过程。 6 第一章绪论 图1 2 本文研究内容示意图 本文研究的具体内容包括: 构建自动问答系统的评测平台。在问答网络论坛数据集上,参照搜索引 擎实现原理,基于标引项,采用文本相似度检索模型构建自动问答系统。 实验表明:系统性能略优于问答网络论坛自带的“相似问题搜索”功能, 将代替该功能,作为本文系统性能改进的评价基准。( 对应本文第二章 的工作) 定义并实现了问答系统性能的三种改进方案,分别以依存项、问题分类、 知识体系为信息表现形式,将自然语言信息引入信息检索过程。依存项 侧重于应用问题的自然语言句法信息,用于问题之间的相似度计算;问 题分类同时应用问题的自然语言句法和语义信息,用于指导问题之间的 相似度计算;知识体系则将“问题答案对 合并成谓语关联,使蕴含在 “问题答案对”中的自然语言信息得到充分利用;同时,知识体系还借 助概念体系增强了系统的查询扩展和知识推理能力。( 对应本文第三章 至第五章的工作) 从问答系统的实现策略角度来讲,本文定义了两种系统实现策略,包括 “问题排序自动问答策略和“知识抽取自动问答策略 。前者改进自 基于频繁问题集的自动问答系统实现策略,通过问题的相似度匹配返回 7 第一章绪论 答案;后者改进自基于网页搜索的自动问答系统实现策略,通过谓语关 联答案提取和概念体系的辅助工作生成答案。( 前者对应本文第二章至 第四章的工作;后者对应本文第五章的工作) 从系统的技术实现角度来讲,将多个相关领域的技术和成果引入信息检 索过程,包括:利用自然语言分析工具进行词法处理、句法分析等;利 用l 作为句法依存树的表示方式,将自然语言句子的相似度计算和 信息抽取问题转化为订l 数据查询操作;利用机器学习分类算法实现 问题分类等。 需要说明的是,本文受微软亚洲研究院互联网服务科研基金项目资助,在 该项目的研究过程中,所有工作都是基于英文自然语言环境的。因此,为了保 证研究结论的严谨性,文中大部分的实验和结论均以英文自然语言环境为准。 此外,在后续的研究中,本文发现自然语言的不同语种之间,尽管构词法、 语序和语法差异很大,但是仍然具有很多相通之处:例如句子中词与词之间的 依存关系,概念之间的上下位、同义、反义关系等。为此,本文给出的定义和 模型尽量保证不同语种的通用性,并同时给出英文和中文的解决方案,来体现 这种通用性。 本文的创新之处包括: 基于依存项的自动问答系统性能改进。提出依存项定义,在标引项基础 上引入了自然语言依存句法分析结果,将句法信息引入到信息检索过程 中。实验表明:依存项可以有效表达问题的自然语言句法特征,原有的 信息检索模型不做任何改变,即可改进自动问答系统性能。 基于问题分类的自动问答系统性能改进。针对问答网络论坛数据集,提 出一套新的自然语言问题分类体系,将自然语言句法和语义信息作为训 练特征,训练出足够精确的问题分类器。问题分类结果用于指导答案排 序。实验表明:分类器对论坛数据集分类效果良好,类别指导排序明显 改进了系统性能。 基于自然语言知识体系的自动问答系统改进。参考前两种系统改进经 验,提出新的数据组织形式:向概念体系添加谓语关联,建立自然语言 知识体系。谓语关联由数据集中的问题答案对产生。这是一种综合的改 8 第一章绪论 进,既充分利用了数据集中的答案信息,又借助自然语言概念体系的关 联关系,增强了系统的查询扩展和逻辑推理能力。论坛数据填充到此体 系中,并在此体系上重建自动问答系统。实验表明:重建后系统性能得 到全面改进。 同时,在对自动问答系统研究的过程中,本文还得出了以下一些结论: 问答网络论坛是构建自动问答系统的天然的理想的数据集。在其上构建 自动问答系统是可行的,系统转化为互联网服务的可能性也比较大。 自然语言的句法和语义信息是影响自动问答系统性能的核心信息。通过 恰当的方式将自然语言信息引入到信息检索过程中,不再单纯依靠文本 信息,能够更加精确的描述用户需求,改进自动问答系统性能。 自然语言的不同语种之间,具有很多相通之处:例如句子中词与词之间 的依存关系,概念之间的上下位、同义、反义关系等。因此,不同语种 可以尽量采用统一的自然语言表达方式。 涉及到自然语言的问题可以借助自然语言概念体系,概念体系可以认为 是自然语言的先验的语义关联体系。借助概念体系可以增强了自动问答 系统的查询扩展和知识推理能力。 树状结构数据( 例如依存句法树) 可以采用帆格式表示,借用关系 型数据库的x m l 支持,提高处理效率。同时,树形相似度计算任务可 以转化为x m l 信息检索过程,有大量的理论支持和前期研究成果可供 借鉴。 第三节论文结构 第一章,介绍了论文研究的背景和意义,分析相关问题研究现状,阐述本文 要解决的主要问题以及取得的主要研究成果,并说明论文的组织结构。 第二章,构建自动问答系统的评测平台。在问答网络论坛数据集上,参照搜 索引擎实现原理,采用文本相似度检索模型构建自动问答系统,代替论坛自带 的“相似问题搜索”功能,其性能表现作为后文系统性能改进的评价基准。 第三章,基于依存项的自动问答系统性能改进。提出依存项定义,在标引项 基础上引入了自然语言依存句法分析结果,将句法信息引入到信息检索过程中, 9 第一章绪论 用于代替标引项,支持信息检索模型,使自动问答系统性能得到改进。 第四章,基于问题分类的自动问答系统性能改进。提出一套新的自然语言 问题分类体系,并针对具体的自然语言语种,讨论问题分类器训练特征,训练 出足够精确的问题分类器。分类结果用于指导问题的相似度排序,使自动问答 系统性能得到明显改进。 第五章,基于自然语言知识体系的自动问答系统性能改进。参考前两种系统 改进经验,提出新的数据组织形式:向概念体系添加谓语关联,建立自然语言 知识体系。论坛数据填充到此体系中,并在此体系上重建自动问答系统。重建 后系统性能得到进一步改进。 第六章,对全文的研究工作进行了总结,并对未来研究进行分析和展望。 1 0 第二章问答网络论坛数据集上自动问答系统的构建 第二章问答网络论坛数据集上自动问答系统的构建 本章主要研究在问答网络论坛这个特定的真实的网络数据集上,参照w e b 搜索引擎的实现原理,构建自动问答系统,具体工作包括数据采集、数据整理、 答案搜索、性能评价等内容。 本章的主要贡献是构建一个通用的自动问答系统评测平台,这是本文研究工 作的基础。本章采用传统的文本相似度模型进行答案排序,提供与问答网络论 坛自带的“相似问题搜索 功能相当的系统性能,为后文系统性能改进的研究 工作提供了评价基准。本文后续内容,第三章至第五章,从不同角度研究自动 问答系统的性能改进方案,每章对应一个技术创新点。 实验表明,采用“问题排序自动问答 策略,在单纯基于关键词检索,没有 引入自然语言的句法和语义信息的情况下,系统性能略优于论坛自带的“相似 问题搜索功能,可以作为系统性能改进的评价基准。 第一节引言 本文研究问答网络论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025资产管理公司合同模板
- 民办院校老师合同范本
- 修缮改造房子合同范本
- 学校发廊出租合同范本
- 北京购房制式合同范本
- 营地招租转让合同范本
- 承包专柜卸货合同范本
- 食品蔬菜供货合同范本
- 过敏性鼻炎药物治疗护理查房
- 门窗维修协议合同范本
- jgj592023安全检查标准完整版
- 鲁教版历史六年级上册全册课件(五四制)
- 关节松动技术-上肢关节松动术(运动治疗技术)
- 2024CSCO肿瘤患者静脉血栓防治指南解读
- 供应商改善计划表
- DB11-T 1253-2022 地埋管地源热泵系统工程技术规范
- 2022年临沧市市级单位遴选(选调)考试试题及答案
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- 中专宿舍管理制度和方法
- 心态决定-切模板课件
- 精神科常见病小讲课
评论
0/150
提交评论