已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)面向查询的多文档自动文摘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项士学位论文 m a s t e r st h f s i s 摘要 i n t e m e t 的飞速发展为用户提供了丰富的信息资源,同时也促进了信息处理技术 的崛起。通过信息处理技术,可以帮助人们更加有效地组织、总结和分析网络上的 各种资源。而这当中,信息的智能检索与自动摘要技术最为关键。检索技术是人们 获取所需信息的有效途径。而自动摘要技术则可以减轻用户的阅读压力,帮助他们 提取主要的相关信息;该技术有利于信息的检索和再次处理,其信息表现的简洁性、 清晰性是信息挖掘的有效手段。 本文重点研究了面向查询的多文档自动摘要技术。它是自然语言处理领域一个 新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形 式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。结合f j 前研究状况,在综合分析查询信息和相关文档集合主题的前提下,设计并实现了一 个面向查询的多文档自动文摘系统。主要的研究:【作如下: 1 提出了一种多特征融合的文摘句选择方法。面向查询的多文档文摘要求能 满足查询的需求,同时代表相关文档的主题。针对这一特点,综合挖掘句子与查询 的关联特征以及句子全局关联特征,对其进行重要性分析。这样一方面可以保证文 摘句与查询的高度关联性,同时兼顾了文档主题。最后,通过采取一种基于改进的 m m r 方法挑选文摘句,减少摘要的冗余信息。随机实验表明:其有效性在整体上 优于只依赖句子重要性的选择方法。 2 在文摘句选择过程中采取了两种优化策略:为了获取句子与查询的关联性, 采用了基于概念的句子表现形式;通过构建语义图,挖掘句子的全局关联信息,其 优势在于可以更加准确、直观地判断节点的全局特征。通过d u c2 0 0 5 年数据集上 的评测,比较了两个特征在不同的融合比例下对文摘质量的影响。 3 实现了一个基于查询的英文多文档自动摘要系统。在预处理阶段,综合了 词干化处理,指代还原,同义词合并等技术,提高了句子在表现形式上的有效性。 在检索阶段,采用了基于密度分析的排序方法。最后在测试阶段,从实验语料库的 构建到评测方法的选取均做了相应的尝试,不但验证了本文方法的可行性,还为结 果分析奠定了良好的基础。 关键字:面向查询的多文档自动文摘,多文档自动文摘,多特征融合的文摘句选择 方法,m m r 技术 ab s t r a c t 1 m er a p i dd e v e l o p m e n to fi n t e m e tp r o v i d e sah u g ea r n o u n to fr e s o u r c e sf o rp e o p l e , a l s op r o m o t e st h et e c h n o l o g yo fi n f o r m a t i o np r o c e s s i n g t h r o u g hi n f o 嘲a t i o np r o c e s s i n g t e c h n o l o g y ,i tc a j lh e l pp e o p l eo 唱a m z e ,s u m m a d ,a j l da n a l y z eo f v a f j o u sr e s o u r c e so nt h e n e t w o r km o r ee f r e c t i v e l v t h ei n f o 册a t i o nr e t r i e v a la n da u t o m a t i cs u m m a r i z a t i o na r e t h em o s tc m c i a lt e c h n o l o 百e s 锄o n gt h e m w h il et h e1 1 1 f - o 肿a t i o nr e t r i e v a li s a n e f f e c t i v ew a yt oa c q u i r et h er e q u i r e di n f o n n a t i o n ,a j l dt h ea u t o m a t i cs 啪m 撕z a t i o nc a n r e d u c et h eb u r d e no fr e a d i n g h e l pp e o p l ee x t r a c tt h em a i nr e l e v a n ti n f o r n l a t i o n i tf a v o r s t h ei n f o r m a t i o nr e t r i e v a la j l dr e p r o c e s s i n g , t h es i m p l i c i t ya n dc l a r i t ) , o fw h o s e p e 怕m l a n c ei sa ne f r e c t i v em e a n sf o ri n f o m l a t i o nm i n i n g n ep a p e rf o c u s e so nm et e c h n o l o g yo fq u e r ) ,一d i r e c t e d m u l t i d o c u m e n t s u m m a r i z a t i o n i ti sah o tr e s e a r c h t o p i c , w h o s eg o a li st o p r o d u c e ab r i e w e l l o 唱撕z e d ,f l u e n td e s c r i p t i o na c c o r d i n g t ot h eg i v e nq u e 叫f r o mr e j e v a n td o c u m e n t s , h e l pp e o p l ej u d g ea n db r o 帅t h ei n t e r e s t e di n f o 咖a t i o n ,a n di m p r o v et h ee 街c i e n c yo f i n f o r m a t i o na c q u i r e m e n t b 2 l s e do nc u r r e n tr e s e a r c h ,aq u e 科一d i r e c t e dm u l t i d o c 啪e n t s u m m a r i z a t i o n s y s t e m i s d e s i g n e d a n dr e a l i z e dw h i i ec o n s i d e n gb o t hq u e 叫 i n f o m a t i o na 1 1 dt 1 1 e m e so fr e l e v a n td o c 啪e n ts e t t h ep m a r yr e s e 2 u r c hc a nb e s u m m 撕z e da sf o l l o w s : 1 as e n t e n c ee x t m c t i o nm e t h o db a l s e do nf e a t u r ei n o s c u l a t e di sp r o p o s e d a sq u e r y d i r e c t e dm u l t i d o c u m e n ts u m m 撕z a t i o ns h o u l db eb o t ha “c o m p r e s s e dv e r s i o n ”o ft h e d o c 啪e n tc j u s t e ra n ds a t i s 句小eu s e r sn e e d ,w ee v a l u a t et h ei m p o r t a n c eo fe a c h c a n d i d a t es e n t e n c eb a l s e do ne x p l o i t i n gb o t l lt h ep o w e ro fc o 盯e l a t i o nw i t ht h eq u e 叮a n d t h ep o w e ro fg l o b a lc o n n e c t i v i t y i tg u a r a n t e e st h es u m m a r yh i g h l yr e l e v a n tt 0t 1 1 eq u e d , a n dr e p r e s e n t a t i v eo ft h ed o c u m e n t sa tt h es 锄et i m e a tl a s t ,t h i st h e s i sa d o p t sa ni m p r o v e d m m rf o rr e d u c i n gr e d u n d a j l c y r 锄d o me x p e r i m e n t ss h o w :t h ev a l i d i t yo ft h e p r o p o s e da p p r o a c hp e r f o h r i sg o o dt h a nt h em e t h o dj u s td e p e n d e do nt 1 1 ei m p o r 胁c eo f c a n d i d a t es e n t e n c e s 2 i nt h ep r o c e s so fs u m m a d rs e n t e n c e ss e l e c t i o n ,“,oo p t i m i z a t i o ns t r a t e g i e s 甜e a d o p t e d : i no r d e rt 0o b t a i nt 1 1 ec o r r e l a t i v ef e a t u r ew i mt h eq u e w ee x p r e s st 1 1 e c a n d i d a t es e n t e n c eb a s e do nc o n c e p t t h e nw em i n et h eg l o b a lc o r r e l a t i v ef e a t l l r eo fe a c h c a i l d i d a t es e n t e n c eu s i n gs e m a n t i c 簪a p h ,w h i c hh a s 也ea d v a n t a g eo fj u d g i n gt h eg l o b a l c o r r e l a t i v ef e a t u r ef o re a c hn o d em o r ep r e c i s e l y ,i n t l j i t i v e l y t h ee v a l u a t i o nr e s u l t so n d u c 2 0 0 5t a s ks h o w st 1 1 ei n f l u e n c eo ft w of e a t u 陀si n o s c u l a t e d 、v e i g h 删n g 3 t h ep a p e rr e a l i z e sa ne n g l i s hq u e r y d i r e c t e dm u l t i d o c 啪e n ts u n 砷a r i z a t i o n s y s t e m i no r d e rt oi m p r o v et l l ev a l i d i t yo fs e n t e n c ee x p r e s s i o 玛i ti n t e 铲a t e s a j l t e c h n o l o g i e s s u c ha l sk e y w o r ds t e m m i n g ,i d e n t i 匆r e f e r e n c ec h a i n sa n ds y n o n y mf o r m e 唱e i nt h es e a r c hs 魄e ,i tu s e st h es o r ta p p r o a c hb a s e d0 nd e n s i 妙a n a j y s i s a tl a s t ,i t i i h a sac o r r e s p o n d i n gt d rf r o mt h ec o n s t r u c t i o no ft e s td a t e st ot h em e t h o d sf o re v a l u “o n w h i c hc o u l dn o to n l yv e r i f yt h ef e a s i b i l i t ) ,o ft h em e t h o d ,b u ta l s op r o v i d e sag o o d f o u n d a t i o nf o ra n a l y z e k e y w o r d s : q u e r y d i r e c t e d s u m m a z a t i o n m m r m u l t i d o c u m e n ts u m m 撕z a t i o n , m u l t i - d o c u m e n t s e n t e n c es e l e c t i o nm e t h o db a s e do nf e a t u r ei n o s c u l a t e d , i i i 硕士学位论文 m a s t e r st h e s l s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:都 苇 i 1 日期:w 年月争日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名: 冯 韦 日期n 5 年6 月争日 导师签名: 日期:2 畅年莎月铲日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l 工s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。园童诠塞逞奎卮溢卮! 旦圭生;旦= 生;旦三生蕉查! ,z j 储签名:勺f 牵导师签名:何析 日期:川年二月l 日日期:? 附年多月铲日 、h _ _ , 硕士学位论文 m a s t e r st i f ,s i s 1 1 研究意义 第一章绪论 随着互联网的普及,人们的生活方式发生了巨大的变化。网络已成人们生活中 不可或缺的一部分,一方面互联网为人们提供了一个便捷的信息获取渠道;另一方 面海量信息的不断涌现,给信息的准确获取带来了更大的难度。 由于互联网上绝大部分信息都是以文本形式存在的,这极力地推动了自然语言 处理技术的发展;同时,如何快速、高效地从不断增加的海量信息中获取所需要的 信息,给该技术提出了更高的要求和挑战。针对特定的查询,利用搜索引擎技术, 用户可以获取相关信息的链接。然而这些链接巾的内容很大部分都是重复或者相似 的,人们不得不通过逐一浏览相关链接或者人工识别的方式去查找所需的内容。针 对反馈结果中的一个链接,可能用户所需的信息只是其中部分相关的句子,或者是 某个段落,甚至是文档包含信息的个汇总。因此搜索引擎不能提供给用户简洁、 直接的答案,无法真正意义上满足人们准确、高速地获取所需信息的需求。 自动文摘技术是计算语言学和情报科学共同关注的课题,致力于将信息全面而 简洁地呈现给用户。该技术可以使人们在较短时问内,用较少的精力获墩更多的信 息,从而提高了信息的利用率;另外,它还可以帮助用户判断和浏览感兴趣的具体 内容。通过自动文摘技术,人们可以快速浏览新闻或档案文件;还可以就检索结果 中的文档与查询条件的相关性进行判断,从而节省了阅读的时间;最后,自动文摘 还可以帮助人们对信息进行趋势定位。 根据用户的需求,自动摘要技术分为通用型摘要和面向查询的摘要。其中通用 型摘要是面向所有用户的、其内容不带有任何侧重的、全面反映原文内容。它是对 全文信息的浓缩,是对原文所描述的主题、范围和结果的一种简洁概括,不能适应 用户的个性化或查询要求。而面向查询的摘要可以根据需要或者用户的兴趣,提供 相应有侧重点的内容。文摘的内容不仅仅决定于原文档的主题,也决定于用户的个 性化要求。该技术具有很强的针对性,更能适应当前1 1 1 t e m e t 环境下对于信息获取 的个性化需求。其重要性不言而喻,将极大地推动新一代搜索引擎的发展。 一, 硕士学位论文 m a s t e r lst i i s l s 1 2 国内外研究概况 1 2 1 多文档自动文摘技术研究概况 2 0 世纪5 0 年代术,在l u h n 等研究人员的共同努力下,自动文摘技术逐渐发 展起来。多文档自动文摘技术是在单文档文摘基础上发展演化出来的,该技术一经 提出,即成为了自然语言处理领域的一项热点研究课题,受到学术界和工业界的高 度关注。它能在一定程度上弥补单文档自动摘要技术在处理多篇同主题文档的信息 汇总,以及压缩问题上的不足。 多文档自动文摘的研究工作最早丌始于2 0 世纪8 0 年代,当时的研究工作还 不具有普遍性,主要是面向科技论文的摘要。通过多种关系描述的方式得到一个对 多文档集合内容的描述,该方法只适应于结构化统一的文档,不利于推广。而网络 的普及使跨文本的信息融合成为了新的研究热点,真正开放性的多文档文摘技术研 究丌始于1 9 9 7 年。针对英文信息的处理,代表性的系统主要包括: n e w s b l a l s t e r 一一美国哥伦比亚大学研发的多文档自动文摘系统i lj 。作为一个 新闻跟踪工具,它可以就每天的新闻事件做出相应的摘要。在实现上,该系统首先 将新闻进行划分并归类,然后采用他们自己开发t d t 系统( 根据文档相似度的几种 特征,对文档进行归类) 对相关信息进行检测与跟踪。目前已推出了跨语言的新闻浏 览系统。 w 曲i n e s s e n c e 一一基于w e b 的多文档摘要和内容推荐系统i2 。,由美国密西根 大学开发。针对每次搜索引擎反馈的结果,该系统通过一个主题识别器对新闻进行 自动分类;然后进行聚类分析,并依照每个子主题的中心信息选择该类最相关的句 子组成最终摘要,从而帮助用户了解相关检索结果的内容。 n e a t s 一一美国南加利福尼亚大学开发的多文档自动文摘系统p j ,主要应用 于新闻领域。该系统在d u c 2 0 0 1 年比赛中取得了较好成绩。在技术上它融合了单 文档摘要中的一些简单方法,通过统计有效的特征信息抽取出重要的概念。最后, 结合最大边缘相关技术实现相关内容的选择和过滤。 p t i d e s 一一康奈尔大学开发的一个针对自然灾害事件的多文档自动文摘 系统【4 1 ,该系统通过事先定义好模板,用启发式规则将一定的内容填写到模板的相 应位置,摘要生成模块将这些模板用自然语言的形式返回给用户。在技术上,它将 自然语言处理技术与信息抽取相结合的方法,更力求发现最相关的信息。 基于多文档自动文摘技术潜在的巨大商机和市场,一些企业和公司也在从事相 关的研究,如n v i s i m o 公司( h t t p :v i v i s i m o c o m ) ,n i n f o n e 帆公司( h n p : 2 硕士学位论文 m a s t l :r st i f s i s 胁i n f o n e t w a r e c o m ) 等。这两家公司对各自搜索引擎返回的结果都进行了有效的 聚类处理。i b m 中国研究中心、微软亚洲研究院、摩托罗拉中国研究中心等都有自 己研制的自动文摘产品。 在多文档自动文摘研究领域,国外研究人员从不同角度丌展了一系列的探讨工 作。针对主题相关的多文档集合中冗余信息往往较多的特点,g 0 1 d s t e i n 卢j 等提出 了一种基于句子抽取的多文档自动文摘方法,以“相关新颖度”为尺度,综合考虑 句子之间的相关度和冗余度生成摘要。 o u a j lz h o u 、l es u n 等通过集成文档索引图和词汇链来聚合多篇文档、捕获文 档结构并生成摘要【7 1 。m c k e o 、n 、r a d e v 等丌发了基于文档片断聚类的多文档自动 文摘系统m u i t i g e n ,该系统将文档集合中语义相似的文档片断融合到一起作为文档 集的主题;接着从各个主题中提取出关键词,并结合语言学知识生成句子,最后得 到对应的摘要内容。 针对新出现的事件,a l l a n l 8 j 等根据句子的“有用度和“新颖度”,设计了一 个自动摘要方法。首先根据自定义的准确率和召回率两项参数,判断句子的有用度 和新颖度特征,并根据这两个特征对它们进行权重分析。此外在他们的研究中,发 现了压缩率为1 0 时,摘要的效果最好。 日本东京大学的f u k u h a r a l 9 】等尝试以词为研究单元,在挖掘出文档集合中 心主题和局部主题所对应的词语集合后,选取出以这些词语作为主语或宾语的句子 作为文摘句,最后根据它们之问的关联性生成摘要。 中文自动文摘的研究起步较晚,1 9 8 5 年才有人j 下式撰文介绍国外的自动文摘 的研究情况。2 0 世纪8 0 年代末,我国才开始研究自动文摘系统,由于中文处理技 术上自身的一些局限性,导致该项技术尚不成熟。中文与英文语料在处理上的差异 主要表现为:中文信息的载体以词为单位,字和字之间没有间隔,因此存在分词问 题;其次,中文词汇丰富,同音同义词很多,加大了机器处理与识别的难度;再者, 在中文语料里词语形态变化少,而英文中可以借助词语形态获取句子语义信息。 对于中文的多文档文摘技术,目前我国还处于起步阶段,相关的研究比较少, 实用的多文档自动文摘系统不多。一些研究机构如哈尔滨工业大学、复旦大学、中 国科学院、香港理工大学、武汉大学、华中师范大学等涉及到多文档自动文摘工作 的研究。其中复旦大学【1 0 1 采用了分段和文本聚类相结合的方法,实现了一个基于命 名实体的多文档自动文摘系统。 哈工大的刘挺、秦兵等【1 2 】提出了基于局部主题判定和抽取的多文档文摘方法。 首先对句子进行依存分析和语义分析,在此基础上得到它们之间的相似性,并通过 : 硕士学位论文 m a s t e r s ,r h i ! s i s 聚类策略形成不同的局部主题。最后选取出每个子主题的质心句,排序后形成多文 档摘要。 武汉大学刘德喜等【1 3 1 以基本要素为内容单元,提出了有关聚类数目的自适应 探测和全局搜索的文摘句抽取策略的多文档文摘方法。 华中师范大学的胡珀、何婷婷等利用复杂网络理论和技术构建了一个多文档自 动文摘的平台1 1 4 】。他们利用网络化数据挖掘方法实现模拟同主题文档集合中段落间 的语义关联,从而能自适应地确定文档集合所包含的潜在子主题数目及对应的子主 题,为后续环节中抽取出覆盖多个子主题信息、而内容精简的文摘句奠定基础。 由于多文档自动文摘在许多方面都发挥了重要作用,如话题监测与跟踪、特殊 信息的定制服务、信息情报收集等领域。国际上许多权威会议也都包含了自动文摘 技术专题讨论,其中d u c ( d o c u m e n tu n d e r s t 柚d i n gc o n f e r e n c e ) 1 5 j 是目前在多文档文 摘领域最有影响的评测会议,它由n i s t 的系列会议之一t i d e s ( d a 褂a ,s t r a j l s l i n g u a l i n f 0 肌a t i o nd e t e c t i o n ,e x t r a c t i o n ,a n ds u m m 撕z “o np r o 矿a m ) 赞助发 起,2 0 0 8 年d u c 合并进了t a c ( t e x ta n a l y s i sc o n f e r e n c e ) 中。自2 0 0 1 年起,d u c 每年举办一次,其任务和评测都是针对单文档文摘和多文档文摘技术而展丌;随着 人们需求的变化和各项技术的同益成熟,会务组每年都会对参赛任务、语料、评测 方法作新的调整,旨在推动多文档文摘的研究工作向规范化、统一化方向发展。 1 2 1 面向查询多文档自动文摘技术研究概况 面向查询的多文档自动文摘是多文档自动文摘技术与信息检索技术相结合的 一个新研究课题,许多研究人员先后开展了一系列探索性的研究工作。为了寻求更 多、更有效的讨论,目前针对d u c 赛事的研究方法偏多。 w a u t e rb o s m a 【1 6 】利用相关的修辞结构理论,获取查询条件、构造文档所包含的 各个句子间的语义距离图,利用语义距离图判定与用户查询需求最相关的句子,从 而得到最终摘要内容。 在w h i t ee ta l ,z e c l l i l e r 和g o l d s t e i ne ta l 等人的研究中【1 7 】【1 引,他们构建了一种 依赖查询的文摘内容选取模型。结合句子与查询在基于词语重现的特征、句子自身 在原文档中的位置、以及包含的词语特征等给句子打分,根据得分高低抽取文摘句。 台湾中央大学的y u c k e hw u ,k 吼c h a i l gt s a i 等提出了一种基于两次重排策略 的面向查询多文档自动文摘方法【1 9 】。该方法首先采用传统聚类算法对文档集合聚 类;然后结合查询条件对聚类结果重排,找出与查询条件最相关的若干类;最后对 各个类中的句子采用同样方式进行排列,找出信息量最大的句子构成文摘。 4 ,彳:,、 硕士学位论文 m a s t e r s 丁h f s l s c h i n y e wl i n 和e d u a r dh o v y l 2 0 】利用相关文档集和非相关文档集中词语的频 率来统计话题信号词的数量,并综合互信息和最大似然估计来近似计算,实现与话 题相关的信号词自动获取方法。 z i h e n gl i n 等人1 2 l 】通过构建带时间戳的图模型,模拟人类写作和阅读的过程。 然后从图中寻找关系,对句子排序,并采用m m r 技术抽取文摘句。该系统在 d u c 2 0 0 7 年的评测中取得了较好的结果。 在国内方面,复旦大学的赵林、黄萱菁等提出了一种面向问题的多文档自动文 摘方法【2 2 】,该方法主要采用了d u c 2 0 0 3 的3 0 个文档集合和对应的标准摘要作为训 练语料,采用基于条件最大熵模型的有指导机器学习算法来抽取相关特征。根据句 子与查询的相关度大小,选择排序靠前的若干个句子构成摘要。 北京大学的李素建,孙斌等【2 3 j 通过抽取句子与查询的多种关联特征信息,实现 了文摘句的筛选并取得了较好的效果。在综合分析句子基于词语层次的特征( w 6 r d b a s e df e a t l l r e s ) 、包含的语段块特征( c h u n kb a s e df e a m r e s ) 、以及其对应的全局特征 f g i o b a lf e a m r e s ) 后,根据句子特征权值的大小,结合m m r 技术选取文摘内容。 中国科学院的周权等1 2 4 l 提出了一一种基于文档索引图和词汇链表的查询文摘系 统。他们把短语模型引入到传统的词汇链表中,从而更加有效地发现相关文档的关 系,通过构建的词汇链表和文档索引图实现对文档的有效处理。最后采用基于改进 的h a m m o u d a 相似度计算方法,对相关文档聚类,并从每个类中挑选出和查询最 相关的句子形成文摘。 针对一次查询反馈的文档集合,目前许多搜索引擎机制都试图采用各种摘要的 形式帮组用户判断和识别相关文档的主题。表1 】给出了几个搜索引擎机制针对反 馈文档的处理方法。 表i 1 国外几家搜索引擎机制针对检索结果的摘要处理方法 摘要 系统摘要表现形式及主要方法 单文档多文档 h y p e r s u j t 1 彳 提取出单篇文档中部分核心词及查询词 ( w c i 豁矗叫,】9 9 6 ) , g r o u p e r 对查询结果进行s t c 动态快速聚类,从每个类中 ( z a m i r1 9 9 9 j 抽取少量短语作为该类的标示。 , 每一个u r l 的摘要根据k 、m c 方法构成,即文章 c h a - c h a, , ( c h c nc t 山1 9 9 9 ) 第一个句子以及三个包含q u e r y t e m 的句子构成。 : 入 硕士学位论文 m a s t e r st i i f s i s 摘要 系统摘要表现形式及主要方法 单文档多文档 i n c o m m o n s e n s e 通过分析w e b 上指向当前链接的u r l ( 筛选出符 合一定格式和规定的) ,通过分析这些u r l 上面 ( a m j 协y 2 0 0 0 ) 人们的相关评论,构建当前u r l 摘要。 n e t o 运用单文档文摘方法,对当前文档中所有候选句 ( t o aa i 2 0 0 0 )排序,抽取部分构成摘要。 w e b i n e s s c n c e 首先对所有相关文档聚类,然后采川基于质心的 0 ( r a d e v y z )方法抽取文摘句,标注每个类的信息。 1 3 论文的主要研究内容概述 基于上述已有的研究工作,本文针对面向查询的多文档自动文摘技术展开了相 关研究。理想的面向查询的多文档自动文摘应该既是相关文档集合的“压缩版”,同 时又能满足用户的个性化需求。因此,采用何种策略从文档集合中选取文摘句,成 为该技术的关键所在,其很大程度上决定了文摘质量的好坏。本文设计了一种多特 征融合的文摘句抽取策略,通过构建语义图,挖掘句子的全局关联特征,获取其在 文档集合中的重要性;计算句子与查询条件基于概念的相似性,分析其与查询的关 联特征,使文摘内容能与用户需求致;最后利用一种改进m m r 技术,在冗余度 最小的前提下,得到最终的文摘句集合。实现文摘信息的聚焦性和代表性。 另外,本文设计并实现了一个基于英文检索的自动摘要系统,其集成了信息检 索和自动摘要技术,并于2 0 0 8 年3 月份成功申请了软件注册权。为了验证该方法 的可行性,利用d u c 赛事中历届测试数据集构建了一个实验语料库,为实验结果 的分析提供了有力的保障。从近2 年的测试结果来看,本文的文摘句抽取策略具有 较好的结果。 1 4 论文的组织结构 本文重点对面向查询的多文档文摘技术进行了相关探讨,共包含六章内容: 第一章绪论,介绍了面向查询的多文档文摘技术的研究意义、研究背景及国内 外研究情况,同时还介绍了本文的主要研究内容。 第二章是面向查询的多文档自动文摘相关技术概述。首先介绍了自动摘要技术 的分类情况:然后分析了面向查询的多文档自动文摘技术与其他文本处理技术的关 6 硕士学位论文 m a s t e r st h e s i s 联、并总结了其技术难点;其次,介绍了面向查询的多文档文摘句抽取的三种基本 方法:最后,概述了目前多文档自动文摘技术的评测方法。 第三章介绍本文设计的基于特征融合的文摘句抽取方法:将句子与查询的关联 特征和句子的全局关联特征结合起来,对其重要度进行评估,最后利用一种改进的 删r 技术,挑选文摘句。 第四章介绍了面向查询的多文档自动文摘系统设计方案及实现,详细阐明了各 个设计模块的功能及关键技术。 第五章是相关实验及评测分析。 第六章是全文内容的总结和将来研究的展望。 7 订、 硕士学位论文 m a s t e r st h e s i s 第二章面向查询的多文档自动文摘相关技术 2 1 自动文摘技术分类 自动文摘技术就是利用计算机自动地从原始文档中提取出全面准确地反映文 档中心内容的简单连贯短文。自动文摘的研究由1 u h n 【2 5 l 等发起的。7 0 年代产生了 面向领域的自动摘要系统。8 0 年代相关研究人员将人工智能中一些理论应用到自动 摘要中。9 0 年代后,基于统计的自然语言处理方法再次兴起。目前,基于统计的 方法在自动摘要技术中居于主流地位。 图2 一l 摘要系统机制图 根据自动摘要结果中的句子是否来自于原文档,可以将自动摘要分为抽取型摘 要和基于理解的摘要。 ( 1 ) 抽取型摘要 抽取型摘要,又可称为摘录,它是直接或者间接( 少数句子经过加工整理而成) 从原文档中选择一定比例的重要句子组成摘要。这种方法将文本视为句子的线性序 列,而将句子视为词的线性序列。在对原文档进行浅层分析的基础上,首先计算词 的权重,然后计算句子的权重,再从文档中挑选出部分权重大的句子,按照一定的 ,彳霄 硕士学位论文 m a s ,i i ! r st h i 三s i s 规则对它们进行排序而得到最终文摘。 该方法的关键步骤就是如何综合一些表层信息,如位置、出现的频率、线索词 等,对句子进行权重分析。另外,各个特征信息对句子的贡献不同,根据特征信息 重要性确定它们的权重是另一个需考虑的问题。通常,相关参数的确定可以采用人 工调节的方式或者机器学习的策略展开。前者需要基于大量的实验验证,而后者则 需要相关的训练集。 抽取型摘要的优势在于容易实现,现阶段比较成功的自动摘要系统大多是基于 抽取的方法。该方法不受领域限制,高效快捷;而不足之处在于摘要生成的过程中, 由于分析的是文档的表层信息,摘要内容在全面性、简洁性、连贯性上存在一定的 局限,摘要的质量不是很稳定。 ( 2 ) 基于理解的摘要 基于理解的自动摘要是以人工智能,特别是自然语言理解技术为基础而发展起 来的方法。它与抽取型文摘的区别在于其对知识的利用,基于理解的方法不仅利用 语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的 意义表示。最后从意义表示中生成摘要。基本原理为:在某一特定领域的文档中,必 然存在着特定的信息焦点,即读者感兴趣的内容,利用语言学手段将文档中代表这 些信息焦点的文字识别出来,用话语加以组织即可形成一篇连贯的高质量的文摘。 基于理解的自动文摘通常有以下步骤: 文本预处理:借助词典中的语言学知识对原文中的句子进行语法分析,获得 语法结构树。 语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为 基础的语义表示,其目的是要寻找最能代表原文内容的成分。 语用分析:分析语用的特点,即静态变动态、共性变个性、多义变单义、意 义与语境相关等。 信息提取:即转换过程,通过概括等方法压缩文本。 文本生成:将信息表中的内容转换为一段完整连贯的文字输出。 基于理解的自动摘要的优势在于采用了更深层次的自然语言处理机制,对文档 主题的把握要更准确些。文摘质量较好,具有简洁精练、全面准确、可读性强等优 点;其不足之处在于该方法不仅要求计算机具有自然语言理解和生成能力,还需要 表达和组织各种背景、领域知识,这就造成了应用上的局限性。因为面向大规模真 实语料的语法语义分析技术尚未完全成熟,要获得高质量的语言分析结果,就必须 将待处理的语料限制在特定范围之内。另外,该方法的基础是框架等知识表示,而 9 ,孙 硕士学位论文 m a s ,1 1 e r 。st 1 1 e s i s 框架需要根据领域知识预先拟定,在跨领域问题上,需重新拟定框架,这种填充和 组织领域知识的沉重负担使理解文摘难以移植。 依据摘要的功能可把文摘分为:信息性摘要和指导性摘要。 ( 1 ) 信息性摘要 信息性摘要是指不加评论补充、解释,简明、确切地揭示一篇文档重要内容的 短文。它基本上反映了一篇文献中的主要论点、创造性内容和尽可能多的定量或定 性的信息。由于信息性文摘综合反映了篇文档的具体内容,具有足够的信息量。 因此,有可能使读者免于查阅整篇文档。这种摘要尤为适用于表达实验及专题研究 类的科学技术文档。 ( 2 ) 指示性摘要 指示性摘要提供对原文档细节内容的一种浓缩的表达,以帮助用户仅通过阅读 文摘便能抓住原文档的核心内容,从而大大地节省阅读的时间,提高阅读的效率。 综述、述评、调研报告、图书、科研成果报告、专利、标准、手册、会议记录或论 文集、数据汇编以及纯理论性文章,宜采用指示性摘要形式。 2 2 面向查询的多文档文摘技术与其他相关技术的关系 面向查询的多文档自动文摘就是基于特定的查询,将查询结果中多个文档的相 关内容浓缩为一个覆盖主要相关主题、简洁、组织良好的摘要。它根据查询需要或 者用户的兴趣提供相应有侧重点的摘要。面向查询的多文档自动文摘考虑了用户的 兴趣,这是实现用户个性化需求必不可少的技术。 面向查询的多文档自动文摘的出现有以下现实意义:首先,在形成摘要的过程 中,强调用户的要求,使文摘结果能满足用户特殊要求;其次,根据查询需求返回 个简短的摘要,用户可以快速浏览和判断相关文档与查询的相关度。在判断相关 度方面,由于面向查询的自动文摘考虑了原文档主题和用户的查询两个方面,它比 通用文摘和现有搜索引擎所提供的方式更为可靠。 面向查询的多文档自动文摘与信息检索、自动问答等技术既有联系又有区别。 它综合了多文档自动文摘、信息检索和自动问答等技术的优点,又在一定程度上避 免了其不足。表2 1 给出了它们在任务形式、表现形式及个性化程度方面的区别。 l o 硕士学位论文 m a s t e r st h e s i s 表2 一l 几种主要的文本处理技术比较 文本技术任务形式表现形式个性化程度 信息检索 反馈与查询高度相关的各种文本信息 文本集合高 对信息进行压缩处理,找出能充分反映文若干个句子集 多文档文摘低 档集合主题内容的信息合组成的摘要 把文本里包含的信息进 了结构化处理,变 信息抽取结构化数据较高 成表格一样的组织形式 同答内容尽可能精辟、简单,与问题高度 一 问答系统短语或者句子局 相关 面向查询的 文摘内容需要尽可能多地包括与用户查 若干个句子集 询条件相关且能代表相关文档主题的多 高 多文档文摘合组成的摘要 方面信息 2 3 面向查询的多文档自动文摘技术难点 面向查询的多文档自动文摘是在多文档自动文摘基础上发展起来的一项技术。 在实现上,它可以利用多文档自动文摘的处理方法,其主要的技术难点可概括为以 下几个方面: 首先,面向查询的多文档自动文摘要求内容能充分响应查询条件,因此,有效 分析和判断查询信息是必不可少的环节。 其次,检索与查询条件相关的文档集合是该项技术的一个重要步骤,检索结果 的准确性将直接影响后面摘要的质量。 第三,冗余信息的有效控制。针对一个查询返回的多篇同一主题下的文档集合, 它们在内容上具有相似之处,但又各有侧重点,信息的冗余度及大。而在单文档文 摘中一篇文档的内容结构比较紧密,冗余信息量较少。因此,有效控制冗余信息是 面向查询的多文档摘要必须考虑的环节。 第四,由于处理的信息量大,面向查询的多文档文摘的压缩率较难控制。 第五,面向查询的多文档文摘中相关文档集合来源不同,其结构、体裁或撰写 风格也不一样,针对同一个事件,不同的文档可能有不同的观点,甚至是截然相反 的;再者,因素和观点会随着时间改变,在不同时期的文档可能会有相互冲突的内 容。因此,对不同文档的内容进行分析、理解和融合的难度较大。 最后,面向查询的多文档摘要内容来自不同的文档集合,如何确保内容的连贯 性,对文摘句的排序策略提出了更高的要求和难度。 硕士学位论文 m a s t e r si i i i i s i s 2 4 面向查询的多文档文摘句抽取方法 目前,绝大部分的自动摘要技术均是基于句子抽取策略。文摘句抽取方法直接 决定了摘要质量的好坏。面向查询的多文档文摘句选择基准可以概括为:文摘句既 要与查询高度相关,同时又要能代表文档集合本身的内容。目前,主要的抽取方法 可以分为以下三类: ( 1 ) 基于子主题发现的方法 在提取出来与主题相关的诸多文档单元中,虽然它们都是围绕查询这个主题描 述或者说明,但彼此之间可能各有各的侧重点,即从不同的角度展开的叙述。由于 文摘长度有限,通过子主题形式把不同意义的信息在同等层面上表现出来,这样在 文摘句挑选过程中采用分治策略,一方面在确定子主题基础上只需要对各个子主题 中的句子遍历一次,减少了文摘句抽取过程中检索的空间:另一方面该方法可以一 定程度上弱化冗余信息的再现,增强文摘内容的平衡性,从而为摘要更好的体现相 关文档的全面主题奠定基础。 图2 2 基丁子主题发现的查询摘要系统 子主题的发现通常采用聚类方式实现。即将文档集合中的所有句子表示成聚类 的对象,然后将每个聚类对象表示成向量空间中的一个向量,通常每个聚类对象包 含词的权重即为向量的一个元素。最后对向量进行聚类从而形成一个个子单元。 该方法的难点在于:选择适当的聚类方法,实现子主题的自动识别。针对不 同的语料和聚类单元,目前还没有一个可以通用而效果非常好的算法。针对子主题 个数的自动确定,在j u n g 等【2 6 】的研究中,他们提出了基于评价划分的聚类熵解决 方案。后来随着聚类算法效率的提高,出现了包括基于模型和稳定性标准1 2 h 、自组 一:7 、 硕士学位论文 m a s t e r st i e s i s 织映射网络【2 8 1 等策略试图解决该类问题。子主题重要性分析。不同的子主题对查 询的贡献在理论上是存在主次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盘龙区美食活动策划方案(3篇)
- 2025 中东地区石油产业与环境保护课件
- 1.2 巩固人民民主政权-课件(内嵌音视频)2025-2026学年统编版八年级历史下册
- 血糖系统项目可行性研究报告
- 高铁侧梁加工项目可行性研究报告
- 微信竞价运行方案一
- 2026年中国高性能交通安全头盔行业市场规模及投资前景预测分析报告
- 2026年精准农业海外农业项目合作协议
- 2025年光气安全联锁工程师模拟卷
- 内窥镜患者舒适护理策略
- 医疗质量与安全管理年度工作总结
- 集装箱焊接制度规范要求
- 医疗质量安全整顿自查报告及下一步整改措施
- 天赋测评活动策划方案(3篇)
- 第五范式-人工智能驱动的科技创新
- 高标准农田建设工程质量专项整治技术手册(2025年版)
- 乡村和城镇空间结构高中地理人教版必修二
- DB4406∕T 53-2025 老年人陪诊服务规范
- 2026豫信电子科技集团招聘面试题及答案
- 2026年陕西单招语数英基础题必刷题含答案省考试院命题风格
- 2026年黑龙江商业职业学院单招职业倾向性考试题库及答案详解一套
评论
0/150
提交评论