(计算机应用技术专业论文)面向查询的多模式自动摘要研究.pdf_第1页
(计算机应用技术专业论文)面向查询的多模式自动摘要研究.pdf_第2页
(计算机应用技术专业论文)面向查询的多模式自动摘要研究.pdf_第3页
(计算机应用技术专业论文)面向查询的多模式自动摘要研究.pdf_第4页
(计算机应用技术专业论文)面向查询的多模式自动摘要研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t e r st h e s i s 摘要 i n t e m e t 的飞速发展极大方便了人们对信息的获取和使用,但同时也带来了 信息过载的问题。在这些海量信息中快速、准确地找到所需要的信息变得越来越 困难。 面向查询的多文档自动文摘将查询返回的文档集合的内容提炼成包含与查 询相关的主题、满足个性化需求的摘要,它能够显著提高信息获取和利用的效率。 本文主要研究面向查询的多模式自动摘要问题。为了满足用户的个性化查询 需求,设计了多种摘要模式。所做的主要工作包括以下几个方面: 第一,将复杂网络的相关理论和方法成功引入到了自动文摘领域。提出了文 档集合的复杂网络表示方法,将文档集合表示为以文本、段落为节点的双层网络 结构;重新定义了模块度增量矩阵a q ,采用c n m 算法思想对文本、段落进行 自适应聚类以发现子主题。它们为后面的多模式摘要设计奠定了基础。 第二,研究了文摘单元的提取策略。一方面,在采用基于关键词提取的文摘 句打分方法后,通过衡量各个类的信息容量,从每个类中抽取不同数量的文摘代 表旬;另一方面,应用复杂网络中节点度的思想来分析每个段落的重要性,进而 提取核心段落作为另一种文摘单元形式。 第三,设计了多种摘要模式。为了满足不同用户的个性化查询需求,本文充 分应用文档集合的网络拓扑结构,除传统的摘要模式外,又设计了概括摘要、偏 重摘要、全局摘要和详细摘要这四种摘要模式。支持用户以主题为线索自主漫游, 按照一定的逻辑顺序浏览信息。 关键词:面向查询的多文档自动文摘;予主题发现;多模式摘要 硕士擘位论文 m a s t e r st h e s i s a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t , i n f o r m a t i o n a c q u i s i t i o na n d u t i l i z a t i o na 托c o n v e n i e n t h o w e v e r , i ta l s ob r i n g st h ep r o b l e mo fi n f o r m a t i o n o v e r l o a d h o wt oe x t r a c ti n f o r m a t i o n q u i c k l y a n da c c u r a t e l yf r o mm a s s i v e i n f o r m a t i o ni ni n t e m e tb e c o m e sm o l ea n dm o r ed i 伍c u l t t h eg o a lo fq u e r y - d i r e c t e dm u l t i d o c u m e n ts u m m a r i z a t i o ni st oe p u r a t ec o n t e n t f r o mt h er e t u r n e dd o c u m e n ts e ta n dt op r o v i d eab r i e fd e s c r i p t i o nt ou s e r s t h e d e s c r i p t i o ns h o u l db er e l a t i v et o t h eg i v e nq u e r ya n dc a ns a t i s f yt h ei n d i v i d u a l r e q u i r e m e n t s i t 锄s i g n i f i c a n t l yi m p r o v et h ee f f i c i e n c yo fi n f o r m a t i o na c q u i s i t i o n a n du t i l i z a t i o n i nt h i sp a p e r , w ed e s i g na v a r i e t yo fs u m m a r ym o d ef o rq u e r y - d i r e c t e dm u l t i d o c u m e n ts u m m a r i z a t i o nt os a t i s f yt h ei n d i v i d u a lr e q u i r e m e n t s t h er e s e a r c hw o r k a n di n n o v a t i o na r ea sf o l l o w s f i r s t l y , t h et h e o r ya n ds o m em e t h o d so fc o m p l e xn e t w o r ka r es u c c e s s f u l l y i n t r o d u c e dt ot h ef i e l do fa u t o m a t i cs u m m a r i z a t i o n t h ed o c u m e n t sa r e p r e s e n t e da s t w o l a y e rc o m p l e xn e t w o r k s ,w h o s en o d e sd e s c r i b et e x ta n dp a r a g r a p hr e s p e c t i v e l y t h ei n c r e m e n t a lm o d u l a rd e g r o em a t r i xi se n d o w e dw i t hw e i g h t , a n dt h et h o u g h to f c n m a l g o r i t h mi su s e dt oc l u s t e rt e x ta n dp a r a g r a p h s e c o n d l y , t h es t r a t e g yo fs u m m a r ye l e m e n te x t r a c t i n gi sp r e s e n t e d as e n t e n c e s c o r i n gm e t h o db a s e do nk e y w o r d se x t r a c t e di su s e dt oe x t r a c ts e n t e n c e s t h e n , t h e i n f o r m a t i o nd e n s i t yo fe v e r ys u b - t o p i ci sm e a s u r e d , a n dt h er e s u l t sa r eu s e dt od e c i d e h o wm a n ys e n t e n c e sw i l lb ee x t r a c t e df r o mt h ec o r r e s p o n d i n gs u b - t o p i c b e s i d e s ,t h e s t r a t e g i e so fn o d ei m p o r t a n c eo fc o m p l e xn e t w o r k sa r et a k e nt om i n et h ec o r e p a r a g r a p h sa sa n o t h e rs u m m a r ye l e m e n l t h i r d l y ,o nt h eb a s i co fn e t w o r ks t r u c t u r eo fd o c u m e n t s ,w ed e s i g nf o u rs u m i n a g y m o d e sb e s i d e st h et r a d i t i o n a ls u m m a r ym o d e t h e ya r ed o c u m e n t 飘m 加啕g e n e r a l s u m m a r y , p a r t i a ls u m m a r y , g l o b a ls u n h n a g ya n dd e t a i l e d 双加陷哆w i t ht h ec l u e so f s u bt o p i c ,u s e r sc a nb r o w s ei n f o r m a t i o ni nc e r t a i nl o g i c a ls e q u e n c et ot h e i ro w n k 呵w o r d s :q u e r y - d i r e c t e dm u l t i - d o c u m e n ts u m m a r i z a t i o n ;s u b - t o p i c d i s c o v e r i n g ;m u l t i - m o d es u m m a r y 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工 作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:专芎 日期:d 7 午月声日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权哗中师范大兰坷以将席学位论文的全镧域部分内容编入确衰考姗库越 干请佥索,可以采 用影印、缩印或扫描簿复制昏彀幽榔汇编本学位论文。同意华中师范大学可以用不同 方式在不同媒体e 发表、传播学位论文的全部或部分内容。 作者签名:巷芎 日期: 0 7 年月o 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人 的学位论文提交“c a l l s 高校学位论文全文数据库 中全文发布,并可按“章程 中的规定享受相关权益。圆童途塞握变卮溢厦;旦坐生i 旦= 生;旦三生筮查! 作者签名:詹丐 日期:卵年f 月扣日 翰搿蔚 日期口7 年1 5 r 月侈d 夕1 咽| | 承风多1 月 文 可争铴年 j,钮哆 奎 : 师期 孚日 硕士学位论文 h i a s t e r st h e 雕s 第一章绪论 1 1 研究背景与意义 随着i n t e m e t 的飞速发展,越来越丰富的信息出现在网络中,文本数量以指 数级的速度增长,这极大方便了人们对信息的获取和使用。网络已经成为人们获 得信息的重要来源和渠道之一。但是,随着网络上信息的逐渐增多,在这些海量 信息中快速准确地找到所需要的信息也越来越困难【l j 。 信息检索技术在一定程度上缓解了信息过载的压力。然而,搜索引擎大多采 用关键字匹配技术进行信息查找。这样,互联网上对一个简单的查询,就可能返 回成百上千的网页,用户不得不逐个点击浏览返回的页面来寻找有用的结果。但 是,这些返回的网页中有大量重复的或不相关的数据,给用户造成了大量不必要 的时间和精力的浪费,这与人们的实际需求还相距甚远。这种现象将不仅仅存在 于互联网上,随着电子商务、电子政务、数字图书馆及其他电子化办公、数字化 资源应用的普及程度越来越高,这种情况会越来越多。因此,如何能从众多检索 结果中快速、有效地找到与用户需求最相关的信息便成为了文本处理领域众所关 注的热点问题。 自动文摘技术是解决当前信息过载问题的一种辅助手段,正日益受到国内外 学术界和工业界的密切关注。该技术将文档的主要内容在较短时间内提供给用 户,可以提高人们获取信息的效率,给用户判断和浏览感兴趣的内容提供帮助。 面向查询的多文档自动文摘技术是将查询返回的文档集合中的相关内容浓 缩为一个包含查询主题各个方面的、内容简洁、组织良好、冗余低、满足个性化 需求的摘要。其研究目的在于解决从海量数据中获取有用信息的困难,提高信息 获取及浏览的速度、适应不同用户对信息的个性化需求,从而提高用户获取和利 用信息的效率,提高用户在信息社会中的竞争实力。 面向查询的多文档自动文摘是一种集成了多种自然语言处理方法的应用型 技术,与其他文本处理技术包括信息抽取、信息检索、问答系统、热点追踪技术 等密切相关,对其进行深入研究能够促进其他自然语言处理技术的进一步发展。 面向查询的多文档自动文摘技术对于提高信息检索的效率,满足用户对信息获取 的个性化需求,解决当前信息过载问题也具有重要的实际应用价值。因此,面向 硕士学位论文 m a s t e r st h e s i s 查询的多文档自动文摘技术的研究具有深远的理论价值和广阔的市场前景。 1 2 国内外研究概况 2 0 世纪5 0 年代末,m m 公司的h p i ,1 l h l l 【2 】i 习首次提出了自动文摘的概念并 设计了一个自动文摘系统,从此自动文摘进入了研究发展阶段。国内对自动文摘 的研究起步较晚,始于8 0 年代末,主要的代表是上海交大的王永成教授等所做 的工作1 4 j 。 纵观自动文摘的半个多世纪研究与发展的历程,可以把它划分为以下几个阶 段【5 】: ( 1 ) 5 0 6 0 年代。 1 9 5 8 年,l u h n 2 1 提出了一种基于词语频率统计的自动文摘生成方法,即通过 统计文档中词语的频率来衡量每个词语的重要度,并以此给每个句子进行打分, 然后再挑选出若干个得分最高的句子构成摘要。更重要地是,这是自动文摘研究 领域中文本浅层特征统计方法的首次提出,取得了令人瞩目的效果。从此揭开了 自动文摘研究的序幕。 6 0 年代末,e d i n 棚m s o n 网对l u h n 提出的自动文摘方法进行了改进。他们综 合考虑了文本中的标题、关键词、线索词和位置四种浅层特征,并对它们进行融 合来衡量句子的重要性。另外,还详细比较了对这四种特征进行不同的加权所产 生的摘要效果,最后得出标题一位置一线索词这三种特征加权的摘要效果最好, 而只使用关键词加权的摘要效果最差。 在自动文摘研究的初期,占主导地位的方法是基于文本浅层特征的统计学方 法。文本浅层特征主要有:标题、关键词、线索词和位置等等;文摘的对象主要 是科技文献。 这些经典的方法在多年后又被应用到了中文文本上,1 9 9 7 年,上海交大的 王永成教授1 7 1 研制出的中文自动文摘系统o a 就采用了文本浅层特征融合的方法 来给句子打分。 ( 2 ) 7 0 一- , 8 0 年代 1 9 7 9 年,耶鲁大学的d e j o n g 8 】成功研制了著名的文摘系统f r u m p 。该系统主 要是基于预期词在句子中的上下位关系,利用句法分析和语义分析来获取文本中 符合已知脚本标示的短语,从而建立起文本内容的概要。1 9 8 2 年,j i t a i t 对此 系统进行了改进,他先对文本进行依存结构分析,在将所有的资料转换成概念依 2 硕士学位论文 m a s t e r st h e s l s 存结构之后,再分析、推测各种信息之间的关系,从而生成最终的摘要。 1 9 8 8 年,德国康斯坦大学的h a h n 等 9 1 研制出了自动文摘系统t o p i c 。该系 统处理的对象是微处理器领域的科技文本,选取框架作为知识的载体,并对文本 进行语法、语义分析。 这个阶段主要的自动文摘方法有基于人工智能的方法和基于深层自然语言 处理技术的方法。文摘的主要对象是短文本、记叙文和新闻。 这些技术在国内也有较好的研究与发展,1 9 9 2 年,哈工大的王开铸教授 1 0 1 利用基于深层自然语言处理的方法开发出了中文自动文摘系统m a t a s 。1 9 9 6 年, 哈尔滨工业大学的刘挺教授f l l 】利用基于信息抽取的框架知识表达方法开发了一 个中文自动文摘系统。 ( 3 ) 9 0 年代。 1 9 9 4 年,s a l t o n 等【1 2 】提出了基于篇章结构分析的自动文摘方法。通过统计 两个段落中相同词语的数目来计算它们的语义关联,然后,通过构造文本的篇章 结构图来分析文本的话语结构,在此基础上再抽取句子生成文摘。在国内,南京 大学的王继成等【1 3 】应用了基于篇章结构指导的方法来生成中文w e b 文档摘要。 1 9 9 5 年,k u p i e c 等【1 4 j 将机器学习方法利用到了自动文摘领域。他们采用基 于朴素贝叶斯理论的机器学习方法从科技论文中提取出一些重要的特征,然后利 用这些特征抽取一定数量的句子以构成摘要。 1 9 9 9 年,哈工大的刘挺等【1 5 1 利用基于篇章多级依存结构分析的方法来生成 文摘,并验证了该方法的可行性和有效性。 总之,这个阶段的自动文摘研究中,以统计学为主,以信息抽取、深层自 然语言处理和基于本体的知识工程为辅的混和型方法占据了主导地位。文摘的主 要对象是新闻和科技文献。 ( 4 ) 2 1 世纪以来。 9 0 年代末,网络的飞速发展带来了新的研究热点,就是跨文本的信息融合, 多文档文摘技术也因此得到了前所未有的发展机遇。 哥伦比亚大学的k a t h l e e n m c k e o w n 等【1 6 1 研发了多文档自动文摘系统 n e w s b l a s t e r 。该系统根据文档相似度的几种特征对新闻进行归类,然后应用1 i ) t 技术检测与跟踪相关信息。 哈工大的刘挺、秦兵等1 1 7 1 应用了一种基于局部主题判定和抽取的方法来生成 文摘。首先对文档集合中的句子进行依存分析和语义分析,再计算它们之间的相 3 硕士学位论文 m a s t e r st h e s i s 似性并聚类,以发现文档集合的子主题:然后从每个子主题中抽取质心句并加以 排序。 华中师范大学的胡珀、何婷婷等【1 8 】应用网络化数据挖掘方法来计算段落间的 语义关联,并在此基础上进行自适应聚类以发现文档集合的子主题,以保证文摘 内容的全面性。 随着信息检索技术的发展,出现了面向查询的自动文摘技术,它是多文档自 动文摘技术与信息检索技术相结合的一个新的研究课题。目前,面向查询多文档 文摘的研究大多都是针对d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e ,文本理解会 议) 1 1 9 比赛的。 p r a s a dp i n g a l i 2 0 l 等提出了一种基于内外特征结合的句子打分方案并用于产 生面向查询的多文档文摘。在他们的研究中,内部特征用于衡量查询条件与文档 句子间的相关度,外部特征则用于衡量文档句子在文档集合中的固有重要度。 f l o r i a nb o u d i n 2 l 】等通过七种不同的句子选择策略得到同一查询下的七个文 摘句集合作为候选文摘句。然后以图的方式描述此集合并通过寻找图中的最优路 径,挑选出最终的文摘句构成摘要。 北京大学的李素建,孙斌等圈融合了句子的多种特征,如:词语的特征、语 段块的特征、全局特征等,把它们作为句子打分的依据,然后应用m m r 技术消 除冗余,生成摘要。 滕冲瞄】等对话题中出现的基本要素,在原文档集中找到包含该基本要素的句 子,并把该句子前后若干句子中的基本要素作为候选,选择其中出现频率高的作 为文摘内容。 何婷婷、邵伟四采用一种多特征融合的文摘句选择策略,通过对句子与查询 的关联特征及句子的全局关联特征的融合来抽取文摘句以生成摘要,取得了较好 的效果。 此外,张泉,曾国荪等瞄l 提出了信任文摘的概念。首先从文本的词语、句子、 篇章等各个层面上发掘信任信息,选择中心句;然后应用改进的模糊c 均值算法 进行聚类,并为每个中心句选择信任支撑旬,从而得到信任文摘。 总之,近年来,在经历了相当长一段时期的研究发展之后,自动文摘正朝着 实用化、多样化方向迈进。出现了多文档自动文摘、跨语言多文档自动文摘、面 向查询的多文档自动文摘、动态文摘、多媒体自动文摘等等。文摘的对象也多种 多样,如新闻、法律文献、医学文献、电子邮件、博客等另外,对于自动文摘 4 硕士学位论文 m a s t e r st h e s i s 效果的评测也有了大量的研究。 1 3 本文的主要研究内容 本文针对面向查询的多文档自动文摘的相关技术展开了一些研究。目标是从 一个查询返回的大量文本集合中,找到用户真正感兴趣的信息,提供给用户满足 个性化查询需求并且信息覆盖全、冗余低的多种模式摘要。本文主要的研究内容 如下: ( 1 ) 文档集合的表示 文档的形式化表示是自动文摘领域的基础性问题。如何有效的建立文档集合 的形式化模型,对提高最终摘要的效果具有极其重要的意义。本文将利用复杂网 络重构查询返回的相关文档集合,为后面的子主题发现和多模式摘要设计提供坚 实的基础。 ( 2 ) 子主题发现 多文档自动文摘生成的基本步骤之一就是发现文本集合中包含的子主题,其 基本方法是聚类,每个类是一个子主题。在文档网络拓扑结构的基础上,本文将 研究复杂网络抱团发现的算法思想,实现对文本、段落的自适应聚类,自动发现 文档集合中包含的子主题。 ( 3 ) 个性化文摘模式 面向查询的多文档自动文摘的一个重要特征是满足用户的个性化需求,包括 用户的查询行为特征、用户对文摘信息的全面性或者简洁性需求等方面。本文将 研究如何最大限度地满足用户对信息的个性化需求,提供尽可能丰富、实用、方 便的多种文摘模式。 ( 4 ) 文摘单元提取 文摘生成的基本方法是从每个子主题中抽取出代表性的文字( 称作文摘单 元) 。与传统的多文档自动文摘相比,在挑选文摘单元时,面向查询的多文档自 动文摘要更多地考虑它们与查询的相关性,而不仅仅是对文档集合本身的内容的 代表性。 本文利用一种基于关键词提取的文摘句打分方法。根据词语的查询相关和话 题相关特征提取若干关键词,然后再用这些提取出来的关键词对所有句子进行打 分。在文摘句抽取阶段,通过衡量各个子主题类的信息容量,从每个类中提取不 同数量的文摘代表句,从而保证生成的文摘内容既全面冗余性又低。 5 另外,通过发现复杂网络中的重要节点,从段落的复杂网络表示结构中挖掘 每个抱团中的核心段落,作为另外一种更加详细的文摘单元。 1 4 论文的组织结构 本文共包含六章内容,其中: 第一章介绍了面向查询的多文档自动文摘技术的研究意义与背景及自动文 摘的发展历程,同时还概括介绍了论文主要的研究内容。 : 第二章介绍了自动文摘的相关知识,包括两种主流的研究方法、面向查询的 多文档自动文摘的一般流程,还有自动文摘领域广泛采用的评价策略。 第三章介绍了复杂网络的基本概念,通过计算文本或段落的相似性,增加了 边的权值,将整个文档集合表示为以文本、段落为节点的双层复杂权值网络结构; 然后重新定义了模块度增量a q ,应用抱团发现的c h m 算法思想对以文本、段 落进行自适应聚类,并分析了聚类算法的效果。 第四章设计了5 种个性化文摘模式:文档摘要、概要摘要、局部摘要、全局 摘要、详细摘要。并详细介绍这些模式中的文摘旬抽取策略及从复杂网络中挖掘 重要节点以发现抱团当中的核心段落的方法。 第五章是实验及结果分析,分析了实验中存在的问题。 第六章是全文工作总结以及进一步的工作展望。 6 硕士学位论文 【a s t e r st h e s l s 第二章别自动文摘概述 2 1 自动文摘主流的研究方法 目前,在自动文摘领域,获取各种类型文摘的主流研究方法有两种。一类是 基于抽取的方法,另一类是基于泛化生成的方法。他们的主要区别在于摘要结果 中的句子是否来自于原文档。 2 1 1 基于抽取的方法 基于抽取的自动文摘研究方法( e x t r a c t i o nm e t h o d ) 主要是从原文档中选取 一些比较重要的句子组成最终摘要,可能少数句子经过简单的加工整理。这种方 法的基本步骤是:首先,在计算出词语权重的基础上获得句子的权重,然后再从 文档中按一定比例抽取若干权重最大的句子,并对它们迸行排序得到文摘。该方 法将文本看成是句子的线性序列,而句子看成是词的线性序列。 自动文摘领域从开始起步的时候就广泛采用了基于抽取的方法。至今,这种 方法仍然是绝大多数文摘技术采用的主流方法,只是在具体的技术上有所改进和 发展。比如从最初的依靠文本浅层特征来抽取句子发展到现在的采用更为复杂的 句子抽取策略,从开始的抽取重要句子到现在的抽取段落这样更详细的文摘单 元。还有很多的诸如基于知识库的机器学习方法 2 0 - 1 ,基于文本修饰辞结构分析的 方法 2 7 1 以及基于文档主题结构分析的文摘方法【2 8 】等等。 基于抽取的文摘研究方法实现起来容易,高效快捷,而且实用于全领域,不 受领域限制。但是由于它只分析文档表层特征,很难理解文档的语义信息。这样 就可能造成生成的文摘质量不稳定,在全面性、连贯性上表现不佳。 2 1 2 基于泛化生成的方法 自上世纪8 0 年代末开始,人们开始研究基于泛化生成的自动文摘研究方法 ( a b s t r a c t i o nm e t h o d ) ,取得了一定的成果。这种方法与抽取型文摘的区别之处 在于它利用了多种自然语言理解技术,如信息压缩、信息抽取、信息融合等。该 方法是基于语言学的知识结构,利用领域知识对文本进行推理判断,从而获取文 本的意义表示,进而从理解的角度生成文摘。因此,这种文摘研究方法也称为理 7 硕士学位论文 m a s t e r st h e s i s 解型文摘方法。 基于泛化生成的理解型文摘方法能更准确地挖掘出文本的主题信息,生成的 文摘内容简洁精炼,全面连贯,可读性较强,文摘质量较好。但这种方法在应用 上具有局限性,由于它的效果会受到特定领域知识库的全面性和准确性的影响, 并且还要求计算机具有语言理解和语言生成能力,因此研究的代价高昂,跨领域 移植性差。 2 2 面向查询自动文摘的一般流程 本章的面向查询自动文摘的一般流程是基于抽取的自动文摘方法。 面向查询的多文档自动文摘作用的对象是查询后的结果文档集合,文摘的结 果应该和查询有很大的相关性,而不像一般多文档自动文摘那样仅仅概括文档集 合的主要内容。在流程上,面向查询的多文档自动文摘需要增加一个步骤,那就 是相关文档的确定,其主要任务是从搜索引擎返回的成千上万的文档中找出与查 询真正相关的文档集合,以保证最终生成的摘要结果与查询的相关性。其他的步 骤跟一般的多文档自动文摘基本上是相似的,但是具体考虑的因素却有很多的不 同,每一个步骤都要把用户的查询需求考虑进来。图2 1 给出了面向查询的多文 档自动文摘的一般流程。 8 硕士擘位论文 l a s 丁e r st h e s i s 图2 1 面向查询的多文档自动文摘流程图 2 2 1 相关文档确定 通常,采取提取检索结果排名靠前的n 篇文档作为相关文档。但是,搜索引 擎的基本策略是关键字匹配,由于用户的查询条件中初始信息的稀疏性或语言本 身的歧义性,导致查询结果中存在许多与查询不相关或者关联不大的文本,如果 把所有的文本作基础来生成文摘,其效率和质量都会受到影响。同时,从检索结 果中选取多少篇文档作为偏重摘要的出处,是一个难抉择的问题。因为选择文本 数量过少会导致重要信息的丢失,而数量过多又容易引入噪音。 由于面向查询的多文档自动文摘的研究大多都是针对d u c 比赛进行的,而 在比赛中,文档是经专家挑选出来的与查询相关的集合,不需要再解决这个问题, 这就导致了在这个方面的研究很少。但是,有两种技术在一定程度上可以解决此 9 硕士学位论文 m a s t e r st h e s i s 问题:可以尝试利用信息检索中的文档重排技术,根据与用户查询的相关度对查 询结果文档集合重新排序,排在前面的文本则可看作是与查询真正相关的文本; 也可以尝试利用现有成熟的文本分类技术从查询结果中提取出与查询真正相关 的文本,自动确定相关文档的数目,从而避免人为设置的主观性和经验性例。 2 2 2 文摘句抽取 在基于抽取的自动文摘方法中,文摘句抽取是非常重要的一个环节,将直接 决定文摘结果的好坏。文摘旬抽取主要包含两个方面:句子打分和句子选择。句 子打分是按照某种策略对相关文档集合中的每个句子给出一个分值,而选择句子 的时候除了要考虑候选句的具体得分外,还要考虑文摘内容的冗余性问题、信息 的全面性问题,如经典的m m r 技术0 0 1 。 对于文摘句抽取,在以往的研究中有两种主要的方法:一种是在对所有文档 或句子初次聚类后采用基于质心的文摘旬挑选方法;第二种是将所有句子按照某 种特征或多种特征组合进行打分并排序,然后再抽取文摘句。 ( 1 ) 基于子主题发现的方法 基于子主题发现的方法就是先对查询返回的文档集合进行子主题划分,然后 从每个子主题中抽取一个或多个句子,把关于主题的多个方面的内容都表现出 来。图2 - 2 给出了基于主题发现方法抽取句子的流程。 图2 2 基于子主题发现的句子抽取流程 一般,通过聚类来实现子主题的发现。表2 1 给出了几种主要的聚类策略及 代表方法。 1 0 硕士学位论文 m a s t e r st h f s i s 表2 1 几种主要的聚类方法 l 貔辇嚣类算泼:垂翳篓囊蠢嚣蘩荔鬻荔雾蓊囊鬻核,秘屡想嚣黪:澎鬻豁攀赣?;妻代表方法l 基于划分 给定要构建的划分数目k ,划分方法首先创建 一个初始划分。然后采用一种迭代的重定位技术,k m e a n s 的方法 尝试通过对象在划分间移动来改进划分。 将数据对象组成一棵聚类的树。根据层次分解 是自底向上的还是自顶向下形成的,层次的聚类方 c u r e 层次聚类 c h a m e l e o n 法可以进一步分为凝聚的( a g g l o m e r a t i v e ) 和分裂 b l c h 的( d i v i s i v e ) 层次聚类 每一个簇假定一个模型,寻找数据对给定模型 基于模型 的最佳拟合。一个基于模型的算法可能通过构建反b e m o u l l i m o 映数据点空间分布密度函数来定位聚类。它也基于 e 】l 、,m f 的方法 际准的统计数字自动决定聚类的数目,考虑“噪声”g a i 塔s i a n 故据或孤立点,从而产生健壮的聚类方法。 基于s o m 神 以自组织特征映射( s e l f - o r g a n i z i n gm a p ,s o m ) s o m l i b 算法作为理论基础,通过对网络进行训练,将文档从 经网络的方法 g h 2 s o m 高维牢问向一维牵闻讲行樱序吨射 基于网格 把对象空间量化为有限数目的单元,形成一个s t i n g 网格结构。所有的聚类操作都在这个网格结构( 即 w a v e c l u s t e r 的方法 量化的空间) 上进行 c l i q u e 把“数据”视为具有不同属性的“人工蚂蚁”,把 基于蚁群 “聚类中心”看作是这些蚂蚁所要寻找的“食物源”; c s i 而把数据聚类过程,看作是人工蚂蚁寻找食物源的a c c l 的方法 过程。显然,最后数据将会在“食物源”中聚集,从 a n t c l u s t 而达到对数据的自然聚类一正确分类。 该方法的难点在于聚类算法的选择,还有各个子主题的重要性分析,目前基 本上都是平等看待各个子主题。 ( 2 ) 基于特征融合的方法 基于特征融合的方法是将文档集合中所有句子按照某种特征或多个特征的 融合给出一个权重得分,根据权重大小排序后再进行文摘句抽取。图2 3 给出了 基于特征融合方法抽取句子的流程。 硕士学位论文 m a s t e r st h e s i s 文档内容及句子识别 实体识别,短语等 特征项的切分 基于词层面特征: t f , i d f , 概念特征等 基于句子层面特征: 位置,长度,特征词等 句子权重计算及选取 文摘旬排序及句法处理 文本分析 特征抽取 摘要生成 图2 - 3 基于特征抽取的句子抽取流程 基于特征融合方法的关键环节是特征抽取,要求选取出来的特征项能够真实 反映句子的重要性。目前,抽取的特征信息主要包括:词频信息、线索词信息、 命名实体信息、句子的信息密度、与查询的关联信息、位置信息和句子的长度信 息等。 该方法的难点在于很难准确、全面地选择特征项,特征融合的算法主要靠经 验获得,摘要结果冗余信息较多。 2 2 3 摘要生成 摘要生成主要是对从不同的文档中抽取出来的文摘句进行组合排序,从而有 效地保证文摘内容的连贯性和可读性,在基于泛化生成的自动文摘方法中,还要 进行信息压缩和信息融合等。 文摘句排序的策略主要分为两大类,一类是“时间次序( c h r o n o l o g i c a l o r d e r i n g ) ”策略【3 ,文摘旬排序的依据是源文档的时间信息特征。 另一类是“多数次序( m a j o r i t yo r d e r i n g ) ”策略 3 2 1 ,该方法用主题的逻辑次序 代表文摘句的逻辑次序。而主题的逻辑次序是通过一个主题中多数句子与另一个 主题中多数句子的逻辑次序关系来衡量的。由于每个主题只有一个文摘旬,主题 的顺序就是文摘句的顺序。 1 2 硕士学位论文 m 姨s t e r st h e s i s 还有一种“概率次序( p r o b a b i l i s t i oo r d e r i n g ) 方法【3 3 1 ,它是“多数次序”策略 的改进。在遍历主题的逻辑次序关系图时,对于当前主题,只考虑最近一次被挑 选的主题,而不考虑其它的主题。 2 3 自动文摘的评价 评价方法是自然语言处理领域的一个重要组成部分,也是这个领域中最容易 引起争议的地方。评价方法一直没有得到有效解决,成为制约自然语言处理发展 的瓶颈之一。 当前,国内外学术界一直都在努力探索,力求制定出一套行之有效的评价方 案。到目前为止,自动文摘领域主要有两种评价策略:内部评价( i n t r i n s i c e v a l u a t i o n ) 和外部评价( e x t r i n s i ce v a l u a t i o n ) 3 4 1 。 2 3 1 内部评价 内部评价( i n t r i n s i ce v a l u a t i o n ) 就是直接利用一些参数来考察文摘结果的好 坏。这些性能标准包括:内容覆盖率,文摘的连贯性、可读性等语言质量。另外, 对于面向查询的多文档自动文摘,还有查询响应度等指标。 内容覆盖率指摘要包含原文档或标准文摘内容的比例。一般采用召回率及准 确率来计算文摘的内容覆盖率。但是,内容覆盖率并没有从整体性方面考虑,不 能准确反映文摘的性能。 语言质量反映的是文摘的连贯性、可读性、语法性等。文摘中的句子是否通 顺,句子间的意义是否连贯,逻辑结构是否合理,文摘内容的指代是否明确,主 题是否清晰,语法是否准确都是衡量文摘语言质量的几个重要指标。 此外,面向查询文摘系统的查询响应度指标也是十分重要的,它反映了摘要 结果满足用户的查询需求的程度。 近年来,国际上召开的一些会议及比赛为自动文摘提供了统一的评测平台, 它们大多采用了内部评价方法。这些会议主要包括:a a a i ( a m c r i c a n a s s o c i a t i o n f o ra r t i f i c i a li n t e l l i g e n c e ) s p r i n gs y m p o s i u m1 3 副、d u c 、n t c i r ( n - n a c s i st e s t c o l l e c t i o nf o ri rs y s t e m s ) 3 6 1 等。 2 3 2 外部评价 外部评价( e x t r i n s i ce v a l u a t i o n ) 贝j j 是将文摘系统应用于其它任务,如文本分 硕士学位论文 m a s t e r s ? h e s i s 类、信息检索、问题回答等任务,通过考察对其它任务完成的程度来对文摘系统 进行评价。比如:w 缸矿7 】利用文摘和原文分别对分类器进行训练,然后再根据 分类器的分类效果来评测文摘质量的好坏。m i i k e 3 8 】通过应用摘要结果对新闻进 行分析的效果来评价文摘的优劣。 由于外部评价常常是通过分析自动文摘对其它任务的完成质量来判断其质 量的好坏,因此相对于内部评价而言,它的主观性较弱,易于对比多个系统的优 劣。此外,这种方法也有助于将文摘系统应用到其它领域。但是外部评价局限性 很大,每次只针对一个特定任务,不利于全面改进系统的性能。另外,由于任务 各种各样,导致外部评测方法种类繁多,难于形成统一的标准。 2 4 本章小结 本章首先介绍了自动文摘的基于抽取和基于泛化生成的两种主流研究方法; 接着介绍了面向查询的多文档自动文摘的一般流程:相关文档确定、文摘句抽取 和摘要生成,其中文摘句抽取又包括句子打分和句子选择,还分析了每个步骤的 主要解决方法;最后,给出了自动文摘的评价策略。 1 4 硕士学位论文 m a s t e r st h e s i s 第三章文档的复杂网络表示与子主题发现 3 1 复杂网络介绍 复杂网络就是抽象出来的复杂系统,网络中的节点是复杂系统中的个体,网 络中的边是复杂系统中的个体之间按照某种规则构造的一种关系。现实世界中就 包含着多种多样的复杂网络,如社会网络( 人类关系网络及合作网络等) 、生物网 络( 神经网络、食物链网络以及新陈代谢网络等) 、技术网络( i n t e r n e t 、万维网 以及电力网等) 。 复杂网络的一个重要特征就是网络中呈现出来的抱团结构【3 9 1 。抱团结构指整 个网络是由若干个抱团构成的,抱团内部的节点之间的连接相对非常紧密,抱团 间节点的连接相对稀疏。 图3 1 网络抱团结构示意图 抱团结构中有一个很重要的概念模块度【柏】,假设网络划分为刀个抱团,根 据这种划分定义一个对称矩阵p ,则可以定义模块度为: q = 一) , 其中勺表示连接抱团f 和_ ,中的节点的边数在所有边中占的比例。q = 勺 是矩阵行元素的和,表示连接抱团f 中节点的边所占的比例。 模块度q 值越高,抱团分割方案就越好。模块度是用来衡量网络分解方案是 否合理,跟特定的抱团发现算法是没有关系的。 1 5 硕士擘位论文 l a s t e r st h l 洛l s 3 2 文档的复杂网络表示 3 2 1 带权网络介绍 目前,复杂网络的研究主要是针对非加权网络的,网络节点之间即要么存在 连接要么无连接,这是一种布尔关系。但是在现实网络中,边的权值是不一样的, 节点之间存在着不同强度的耦合,节点间的相互作用会影响整个网络的性能。 在这里,我们用邻接矩阵w = ( 嘞) 来表示复杂权值网络,其中嘞表示节点f 和节点l f 之间边的权值。我们只考虑无向网络,因而邻接矩阵矽是一个对称矩阵, 即峋= b 3 2 2 文档的网络拓扑图表示 我们用复杂网络来重构查询返回的文档集合,边的权值是两个节点之间的相 似度值。下面先介绍一下具体使用的相似度计算方法基于向量空间模型的相似 度计算方法。 基于向量空间模型的相似度计算,就是将文档集合中的所有词语作为向量空 间,把每个文本表示为向量,然后利用两个向量夹角的余弦值作为它们的相似度。 该方法根据文本的表层信息,依靠特征项的匹配程度,基本步骤如下: 先将每个文本表示成向量墨,其中墨= ( m l ,嵋2 ,) ,表示第f 个文本中 的第j 个词语的权值,每个词语的权值可以通过计算特征项的矿幸谚f 4 1 】得到。其 中磊表示幼啦在文本d ,中出现的次数,代表幼啦对文本矗,的重要性;或指含 有特征项t e r m ,的文本数目,其值越大,在衡量文档之间相似度的作用反而越低。 倒排文档频率谢= l o g ( 导) ,其中n 为文档的总数目,用来衡量该词在整个文档 集合中的分布情况,反映整个文档集合的特性。 则两个文本的相似度为: 姚一户衰赫 利用上述方法得到相似度矩阵矽后,再来构建带有权重的网络图:p 州, e ) ,其中p 为图结构;弘 ,s :,& 是网络中节点的集合,对应所有的文 1 6 本;e 芦 ( & ,西) l 和母的相似度值嘞大于某个阈值) 是图中边的集合,边的权 重是网络两个节点的相似度值。 为了方便后续的子主题发现和降低计算复杂度,文档集合的网络拓扑图表示 是通过两个阶段表示的。在第一阶段,网络结构中的每个节点表示一个文本,边 的权值为两个文本的相似度,每个网络抱团对应于一个文本类。第二阶段的文档 表示是在文本聚类之后,网络结构中包含多个子网,每个子网表示第一阶段中的 一个文本类。子网中的每个节点表示一个段落,边的权值为两个段落的相似度。 每个网络抱团将对应于一个子主题。这样,文档集合的网络拓扑图就形成了上下 对应的两层结构,这个结构是文本聚类和段落聚类的基础,也是后面多种摘要模 式设计的基础。图3 - 2 给出了文档集合的两层网络拓扑图。 文本层 t 、 段落层嘻莲晒 图3 - 2 文档集合的网络拓扑图 3 3 子主题发现 3 3 1 子主题发现的意义 子主题的定义如下嘲: ( 1 ) 子主题是对中心主题的不同侧面的描述。 ( 2 ) 子主题内部意义聚合度高,子主题之间意义差距鲜明。 自动摘要的生成是模拟及改进人工摘要的形成过程而来。对于一个文档集合, 人们在了解了这些文档中涉及了哪些方面的内容之后,再总结每个方面的内容, 并按照其逻辑关系组织起来就是人工摘要。借鉴人工摘要的形成过程,自动摘要 也就必须弄清文档集合中涉及了哪些内容,这就是子主题发现,将多文档集合中 相似的内容组织在一起;然后,再从每个子主题中抽取文摘单元并按一定的逻辑 关系排序;就生成了最后的文摘。所以,子主题发现是多文档摘要的重要步骤。 1 7 硕士擘位论文 i 正a s t e r st h e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论