




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于查询的多文档自动文摘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士学位论文基于查询的多文档自动文摘 摘要 多文档自动文摘是自然语言理解领域中的一个重要的研究方向。多文档文摘 可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息,将人们从 繁琐、冗余的信息中解脱出来。基于查询的多文档自动文摘( q u e r y - b 船e d m u l t i - d o c u m e m s u m m a r i z a t i o n ) 可以根据需要或者用户的兴趣提供相应的有侧重 点的文摘。它能够把焦点放在用户关心的部分,考虑了用户的兴趣,是实现用户 个性化文摘必不可少的技术。 本文围绕基于查询的多文档自动文摘系统,针对其关键技术展开研究,本文 的主要工作和特色如下: ( 1 ) 采用了基于隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 的实体识别技术, 将实体信息引入文本的分析过程,便于更好地理解文本的主要信息。 ( 2 ) 深入研究了主题划分技术,并把这种技术引入到基于查询的多文档文 摘系统中,预先对文档集进行主题划分,减少用户查询的响应时间。 ( 3 ) 结合自动问答的特性,对用户提交的问题进行分析,其中包括命名实 体识别和隐实体识别,以更好地理解用户查询请求。在问句分析的基础上,根据 文档集预先主题划分的结果,提出了一种缩减摘要范围的计算方式;并提出了一 种融合多种特征计算句子重要性的方法。 ( 4 ) 在参考r o u g e 评价系统的基础上,设计了一种针对中文自动文摘的评 测系统中文r o u g e 评测数据包。 关键词:多文档自动文摘,实体识别,主题划分,摘要生成,摘要评价 中国科学技术大学硕士学位论文 基于查询的多文档自动文摘 a b s t r a c t m u l t i - d o c u m e n ts u m m a r i z a t i o ni sa ni m p o r t a n tb r a n c ho fn a t u r a ll a n g u a g e u n d e r s t a n d i n g i tc a np r o 、,i d eaf u l l - i n f o r m a t i o na n dc o n c i s ed o c u m e n tf r o ma s e to f t o p i cr e l a t e dd o c u m e n t s ,a n dh e l pp e o p l eg e ti n f o r m a t i o ne f f e c t i v e l y q u e r y - b a s e d m u l t i d o c u m e n ts u m m a r i z a t i o nc a nf o c u s0 1 1t h eq u e r y ,c o n s i d e rt h ei n t e r e s t i n go f u s e r s i ti san e c e s s a r yt e c h n o l o g yt or e a l i z ep e r s o n a l i z e ds u m m a r i z a t i o n t h er e s e a r c h e so i lr e l a t e dt e c h n o l o g i e so fq u e r y - b a s e dm u l t i - d o c u m e n t s u m m a r i z a t i o n ( q m d s ) a r em a d e i nt h ed i s s e r t a t i o n t h em a i n w o r ka n d c h a r a c t e r i s t i co f t h et h e s i sa t e ( 1 ) an a m e de n t i t yr e c o g n i t i o nt e c h n o l o g yb a s e do ni - i m mi sa d o p t e d , w h i c h a n a l y z et h e 钮t i t yi n f o r m a t i o no fs e n t g n c e st ou n d e r s t a n dt h em a i ni n f o r m a t i o no f t e x t ( 2 ) t h et e c h n o l o g yo fp a r t i a lt o p i ci d e n t i f i c a t i o ni sr e s e a r c h e da n di n t r o d u c e d i n t oq m d ss y s t e m ,w h i c hw ep r o c e s st h ep a r t i a lt o p i ci d e n t i f i c a t i o ni na d v a n c ea n d o o n s e i v et h er e s u l t si np a r t i a lt o p i cd a t a b a s et oi n c r e a s et h er e s p o n s es p e e d ( 3 ) c o m b i n i n gt h ec h a r a c t e r i s t i co fq u e s t i n ga n s w e r i n g ,t h eq u e r yi sa n a l y z e d , i n c l u d i n gt h en a m e de n t i t yr e c o g n i t i o na n di m p l i e de n t i t yr e c o g n i t i o n b a s e do nt h e q u e r ya n a l y s i s ,t w om e t h o d sa 糟p r o p o s e d ,o n ei sf o rr e d u c i n gt h es u m m a r i z i n gr a n g e , a n da n o t h e ri sf o rw e i g h i n gt h es e n t e n c ei m p o r t a n c ew h i c hf u s e dm u l t i f e a t u r e ( 4 ) a na u t o m a t i cs u m m a r i z a t i o ne v a l u a t i o nf o rc h i n e s ei sd e s i g n e db a s e do nt h e r e f e r e n c eo f r o u g ee v a l u a t i o ns y s t e m k e y w o r d s :m u l t i - d o c u m e n ta u t o m a t i o ns u m m a r i z a t i o n , n a m e de n t i t yr e c o g n i t i o n , t o p i ci d e n t i f i c a t i o n , s u m m a r i z a t i o ng e n e r a t i o n , s u m m a r i z a t i o ne v a l u a t i o n i i 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅或借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:勉 炉7 年夕月专日 别墨参 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 基于查询的多文档自动文摘 1 1 本文研究背景 1 1 1 自然语言处理 第一章前言 2 0 世纪9 0 年代以来,i n t e r n e t 在世界范围内得到了迅猛的发展。网上的信 息越来越多,而互联网上的信息9 0 以上是以文本的形式表现的,这极大地推动 了自然语言处理技术的发展。目前,自然语言的处理技术的研究成为许多研究者 日益关注的领域,信息过滤、信息检索、自动文摘等技术成为人们研究的热点。 同时也对自然语言处理技术提出了更高的要求:人们希望在杂乱无章的网络世界 - 中快速、准确地获得自己想要的信息。 利用人造物来模仿人类某些智能行为的思想,可以上溯到1 6 、1 7 世纪。语言 作为反映人类智能行为最重要的特质和智能的外化,长期以来一直被人们认为是 认识和揭开人类智能之谜的一把钥匙。早在计算机问世以前,人们就力图通过计 算的或机械的方式来解决只有人才能完成的某些语言处理功能。本世纪四十年代 计算机作为扩展人类智力的工具问世之后,第一个在人文领域应用的项目也是与 语言有关( 机器翻译) 的,这绝非偶然,它只是人类在这一领域研究探索的必然 结果。通过计算机来模仿人类语言处理能力的努力,在计算机科学和语言学中都 产生了专门的分支,自然语言处理和计算语言学。二者的本质是基本相同的,区 别可能仅仅在于自然语言处理更注重实践,而计算语言学较重视理论。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言 能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式, 人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人 工智能的一个重要,甚至核心部分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使 用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语 言;人们也可通过它进一步了解人类的语言能力和智能的机制。 自然语言处理主要包括自动问答( q u e s t i o na n s w e r i n g ) 【l 】、信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 、信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、文本摘要( t e x t s u m m a r i e s ) 等内容。 自动问答系统允许用户以自然语言的方式提问,通过对问题理解,直接提交 给用户想要的答案,而不是相关的网页。比如,用户提交一个问题“上海的简 称是什么? ”,问答系统将会直接给出答案“上海的简称是沪”。可见,问答系 统比传统的搜索引擎方便、快捷、高效。 信息检索( i n f o r m a t i o nr e t r i e v a l ) 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与 检索( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) ,这是广义的信息检索。狭义的信息检索 则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人 们通常所说的信息查寻( i n f o r m a t i o ns e a r c h ) 。 信息抽取( m ) 是从一段文本中抽取指定的一类信息( 例如事件、事实) 、 并将其( 形成结构化的数据) 填入一个数据库中供用户查询使用的过程。它的主 要目标是让计算机不但找到相关的文档,而且还要找到相关的内容。例如从关于 计算机的文本中抽取设备名字,用途,生产厂家等特定信息。一个典型的m 任务是 从在线文本中抽取相关的信息,填写到预定义好的模版中的属性槽中。 自动文摘研究如何利用计算机自动地从自然语言文本中提取摘要( 摘要应包 含原文的核心内容或用户感兴趣的内容) ,并以语意连贯的段落乃至篇章的形式 输出。自动文摘没有事先规定的目标特性,需要对多种多样的内容进行分析和处 理,需要更深层次的语言知识。 这几个研究分支之间紧密联系,例如自动问答系统可采用自动文摘技术形成 摘要,作为对问题的答案;自动文摘系统也可采用信息抽取的技术提取关键信息, 生成基于模板的摘要。并且这几个研究分支中有许多关键技术是交叉的。例如; 分词、歧义消解、句法结构分析等等。本文重点研究多文档自动文摘的技术与应 用。 2 中雷科学技术大学硕士学位论文基于查询的多文档自动文摘 1 1 2 自动文摘的兴起 自动文摘的概念是f h l u l m 2 1 首先提出的。当时,自动文摘并未引起人们的足 够重视。但随着近年来i n t e m e t 的迅速普及j 信息量激增,信息的自动化处理成 为一个亟待解决的问题。在此时代背景下,自动文摘越来越引起人们广泛的兴趣。 如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。随着 搜索引擎技术的发展和普及,现在人们能够通过搜索引擎方便的得到自己想要的 各种信息。比较有名的搜索引擎有g o o g l e ,s o h u 、y a h o o 等。无论哪方面的内 容,这些搜索引擎都能帮助人们快速地找到相关的网页。用户只需输入一些关键 字,它们马上就会搜索出相关的网页。但我们在获得大量有用信息的同时,不得 不面临着这样一个问题:互联网上存在大量的冗余信息。这一方面是由于各个网 站的转载,另一方面是在获得的相关文档中,有部分信息是重叠的,因此在阅读 时会浪费大量的人力物力。目前,我们获取信息的主要方法是通过搜索引擎 ( g o o g l e ,y a h o o ) ,但搜索引擎不能提供给用户简洁、直接的答案,因为通过现 有的搜索引擎存在以下问题: l 、返回的相关网页太多,有大量文本是重复和相似的,用户很难快速准确 地定位到所需的信息。例如,用户在g o o g l e 上输入几个关键字,它有可能返回 成千上万个网页,用户将浪费很多时间在这些网页中查找自己所需要的信息。 2 、返回答案的是以文档为单位的,而用户所要的答案仅仅是其中的一部分, 或者是某个句子,或者是某个段落,甚至是某些文档的汇总。 多文档文摘可以将多篇同主题的文档进行汇总,提供给人们简洁,全面的 信息,将人们从繁琐、冗余的信息中解脱出来,所以说自动文摘技术的重要性是 不言而喻的,它的应用前景非常广泛。在信息浏览中不仅可以单独作为一个系统 应用,而且在其他自然语言处理系统中承担重要角色。除可以应用在新一代搜索 引擎中,多文档摘要技术也是话题的监测与跟踪技术t d t ( t o p i c d e t e c t i o n a n d t r a c k i n g ) 的组成部分,根据用户提供的信息,在互联网的文本流中不断发现与 其相关的文本信息,并将新发现的文本与已有的文本进行汇总,生成线索报告提 交给相应用户。在国家安全部门的非法信息监测,特殊信息的定制与融合的方面 多文档文摘也能发挥重要作用。 多文档文摘的研究为用户提供了方便,提高了用户获取信息的速度和效率, 3 中国科学技术大学硕士学位论文 基于查询的多文档自动文摘 为互联网的应用开辟了新的方向。 1 2 本文主要内容和贡献 为满足不用用户对多文档摘要的需求,本文围绕如何设计一个基于用户查询 的多文档摘要系统展开研究,本文主要研究工作为: l 、采用了基于隐马尔克夫模型( h i d d e n m a r k o v m o d e l ) 的实体识别技术, 将实体信息引入文本的分析过程,便于更好地理解文本中的主要信息。 2 ,深入研究了主题划分技术,并把这种技术引入到基于查询的多文档自动 摘要系统中,预先对文档集进行主题划分,减少用户查询的响应时间。 3 、结合自动问答的特性,对用户提交的问旬进行分析,其中包括命名实体 识别和隐实体识别,以便更好地理解用户查询请求。 4 、在问句分析的基础上,根据文档集预先主题划分的结果,提出了一种缩 减摘要范围的计算方式;并提出了一种融合多种特征计算句子重要性的方法。最 后采用最大边缘相关法( m a x i m a lm a r g i n a lr e l e v a n c e ) 缩减冗余,生成文摘。 5 、在参考r o u g e 评价系统【3 】的基础上,设计了一种针对中文自动文摘的评 测系统中文r o u g e 评测数据包。 1 3 本文章节组织 本论文共分为五章,详细的内容安排如下: 第一章介绍了本研究的背景意义,以及本文的研究工作和内容组织。 第一章介绍了与本文密切相关的自动文摘系统的分类、国内外研究现状、关 键技术、文摘评价方法等。 第三章介绍了基于查询的多文档文摘系统的处理流程,并详细介绍了本系统 的关键技术和方法,包括实体识别、句子相似度计算、主题划分、问句分析、句 子特征抽取、摘要生成等。 第四章在介绍r o u g e 评价系统的基础上,设计了一个针对中文自动文摘的 评价系统中文r o u g e 评测数据包。 第五章对前面的工作进行总结,就进一步有待研究的问题进行讨论和展望。 4 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 第二章自动文摘概述 2 1 自动文摘系统简介 摘要嗍是保留原文信息、把原文压缩为更精炼的文摘的过程,主要包括三个 步骤 5 1 ( 见图2 1 ) 。 图2 - 1自动文摘的处理过程 文本分析过程寻找最能代表原文内容的成分,通常是对原文进行分析后转换 成某种中间表示,目前主要有三类分析方法:基于浅层分析的方法、基于话语结 构的方法、基于实体分析的方法。 基于浅层分析的方法对文档中蕴含的一些浅层特征如词频、位置、线索词等 进行统计分析,把这些词频统计表、标题、段落起始句等作为中间表示。这种方 法是建立在文本表层的形式特征基础上的,缺乏对文本内容的深层次分析,难以 保证生成文摘的逻辑连贯性,文摘质量的提高受到了限制。基于话语结构的方法 主要通过对文档格式、主题线索、修饰结构、文本结构等的分析对全文宏观结构 建模,采用文档结构树、修辞结构树等作为中问表示。这种方法不受文章领域限 制,文档结构信息往往能较为准确地标识出语言单元问的逻辑关系,为自动文摘 生成提供重要线索,但这种方法易受文档结构影响,对于结构不规范的文档,摘 要效果就很差。基于实体分析的方法先分析出文本内部的概念性表示,然后提取 出文档中各实体并建立起实体间的关系,据此来确定各实体对表述文档内容的作 用。 5 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 信息的选取和泛化过程通过摘录或概括的方法,对原文进行修剪和压缩。用 户的需要决定了文摘要选取的内容,而泛化则需要遵循一定的领域知识,目前只 能在受限领域才能实现。 摘录是将原文中最能表达原文信息或用户感兴趣的内容抽取出来,通常采用 计算文本单元权重的方法抽取最重要的信息。概括是信息真正的融合,要在理解 文本单元的基础上,对文本单元进行分解和组合,需要用到文本生成技术。文本 生成是个宽泛的研究领域,包括交际信息的抽取、篇章的构架和生成合乎语法的 表达( 句子和短语) 等。使用文本生成工具生成的文本要具有可读性,能起到实 际的交际功能,目前实现起来还很困难。 经过文本的分析和转换,摘要的最后一步是重组原文内容,按照一定的顺序 生成文摘。文摘的生成决不是文本单元的简单叠加,那样会造成语序的混乱,无 法在文摘中形成平滑的概念流。文本单元排序问题解决的好坏将直接影响到文摘 的质量和可读性,其难易程度随文摘单元的不同而不同。此外,由于原文中经常 通过省略、指代以及内在的逻辑关系使上下文融为一体,我们在对原文进行压缩 处理后,很可能破坏了这种关系,需要对这些现象加以解决。 文摘的用途和它所面向的读者群,决定了文摘输出时对原文内容的再现形 式。 2 2 自动文摘的分类 在自动文摘近5 0 年来的历史上,专家学者们提出并发展了文摘的分类方法。 根据分类标准的不同,我们可以对文摘进行不同的分类【3 7 1 。 ( i ) 按文摘面向的用户划分,可以划分为通用文摘( o e n e 在cs u m m a d z a t i o n ) 和偏重文摘( b i 硒e ds u m m a r i z a t i o n ) 。 通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。通用型文摘就是面 向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘,是对全 文信息的浓缩。这种文摘是面向原文中心思想的、静态的文摘,不能适应用户的 个性化或查询要求。 偏重文摘也称为用户聚焦文摘( u s e r - f o c u s e ds u m m a n z a t i o a ) 、问题聚焦文摘 ( q u e s t i o n - f o c u s e ds u m m a r i z a t i o n ) 或查询聚焦文摘( q u e r 一f o c u s e ds u m m a r i z a t i o n ) 。 6 中国科学技术大学硕士学位论文基于查询的多文档自动文擅 它可以根据需要或者用户的兴趣提供相应的有侧重点的文摘。偏重文摘的结果不 仅仅决定于原文的主题,也决定于用户的个性化要求。它能够把焦点放在用户关 心的部分,而不是把原文的每个部分平等对待。偏重文摘考虑了用户的兴趣,这 是实现用户个性化文摘必不可少的技术 ( 2 ) 按文摘的功能划分,可以划分为单文档文摘( s i n g l ed o c u m e n t s u m m a r i z a t i o n ,s d s ) 和多文档文摘( m u l t i p l ed o c u m e n t ss u m m a r i z a t i o n ,m d s ) 。 单文档文摘处理的文本对象是单篇文摘,它对每篇文章独立地生成文摘。而 多文档文摘处理的文本对象是有多篇文档组成的文档集,它是从一个文档集中去 除冗余,考虑文档相互的关联性及各自的差异,产生一个浓缩的信息集。多文档 文摘实际上是对单文档文摘的一个扩展,它与单文档相比较需要一些新的技术和 方法来处理。 ( 3 ) 按文摘的制作方法划分,可以划分为摘录型文摘( s u m m a r i z a t i o n b a s e d o i le x t r a c t i o n ,s b e ) 、基于理解的文摘( s u m m a r i z a t i o nb a s e do nu n d e r s t a n d i n g , s b 聊、模板型文摘( s u m m a r i z a t i o nb a s e do nt e m p l a t e ,s b t ) 和基于结构的文摘 ( s u m m a r i z a t i o nb a s e do nd i s c o u r s es t r u c t u r e ,s a s ) 。 摘录型文摘中大部分的句子都是直接或间接的选自原文,只有少数句子经过 加工整理而成。这种方法充分利用计算机的计算能力,采用统计的方法绕过文章 意义的理解问题,它将文本视为句子的线性序列,将句子视为词的线性序列。在 进行文摘时,主要跟据关键词,题名、位置、线索词、段首段尾等文章的特征计 算句子的权重,分析找出文章最重要的部分作为文摘。 基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的,它利用 语言学知识对文章进行复杂的语法分析、语义分析和语用分析,最后进行文摘的 生成。但是,由于目前在人工智能与自然语言处理方面还存在许多难以解决的问 题,这种方法难以得到快速的发展。 模版型文摘有预先定义好的框架,文摘的生成过程其实就是从原文中检索出 文摘模版所要求的内容,填到文摘模板中即可。 基于结构的文摘采用自上而下分析方法,首先对文章的结构进行分析,再逐 渐细化到段落、句子和概念,整个的分析过程是一个自上而下的过程,即由上层 分析逐渐细化到底层分析。一般说来,文章中的不同部分承担着不同的功能,各 7 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 部分之间在逻辑上是有一定的关联的。文章的这种关联找到了,其核心部分也就 自然能够找到。这也就是基于结构的文摘方法的思想方法。应该说这种方法更利 于从全局的观点把握原文作者的意图。但是,目前说来,语言学对于文章结构的 研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘方法到目 前为止还没有形成一套完整的理论方法。 ( 4 ) 按照文摘是否需要学习样本划分,可以分为有监督学习文摘和无监督 学习文摘。 有监督学习的文摘分为学习和文摘两个过程。学习过程主要利用人工文摘进 行学习,从中找出进行自动文摘的特点或者参数。然后,在文摘过程中利用之前 学习到的知识或参数进行文摘。而无监督学习无需对人工文摘的学习过程。一般 说来,有监督学习的文摘系统面向特定的领域,文摘质量和训练的样本质量有关 系。 2 3 多文档自动文摘国内外研究现状 从2 0 世纪5 0 年代末l u h n 开创自动文摘领域,自动文摘技术逐渐地发展起来。 多文档自动文摘的研究工作最早在2 0 世纪8 0 年代开始,当时的研究工作还不具 有普遍性,主要在科技文章中通过多种关系描述对科技文章的多文档集合描述, 科技文章的结构化统一些,比较好刻画,但这种方法是受限域的,不利于推广。 网络的普及使跨文本的信息融合正在成为新的研究热点。真正的任意域的多文档 文摘的研究是在1 9 9 7 年开始的。在国内,对中文的多文档文摘的研究目前还处于 起步阶段,日本和中国台湾的学者在这方面做了一些工作旧,国内哈工大、中科 院自动化所、复旦大学等研究机构也开展了这方面的工作,总的来说,相关的文 章发表得不多。 、 d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e ) t 7 l ,是目前在多文档文摘领域最有 影响的评测会议,由n i s t 的系列会议之- - t i d e s ( d a r p a st r a n s l i n g u a l i n f o r m a t i o nd e t e c t i o n ,e x 姐c t i o n ,a n ds t m u n a r i z a t i o np r o g r a m ) 赞助发起文本理解 会议d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e ) ,使研究者共同参与到大规模文本 测试中来,促进了自动文摘包括多文档文摘的发展。d u c 会议自2 0 0 1 年起每年 举办一次,每年的任务和评测都是针对单文档文摘和多文档文摘进行评测。自 8 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 2 0 0 3 年起,d u c 会议增添了问题聚焦的多文档摘要任务,问题聚焦的多文档摘 要任务是给定一组相关主题的文档集,一个问旬以及对问题的描述、补充,要求 自动文摘系统返回一篇旨在回答问句、固定长度的文摘,这项任务逐年得到重视。 随着人们的需求的变化和各项技术的日益成熟,d u c 从任务到测试文档以 及评价方法都日益丰富和成熟。所有的参与者可以在大规模公共语料上进行评 测,表明多文档文摘的研究正在向规范化、统一化方向发展。但是由于d u c 没 有针对中文的语料,因此还需要在中文多文档文摘的评价上作一些工作,从而客 观地衡量系统生成的文摘的质量。 在多文档文摘近几年的研究中,诞生了许多多文档自动文摘系统,其中包括 通用的和问题聚焦的多文档自动文摘系统,下面分别介绍各自的主要方法。 2 3 1 通用的多文档自动文摘的方法 2 3 1 1 基于单文档文摘技术的方法 许多系统采用m m r 力- 法生成多文档文摘。例如南加州大学的n e a t s 系统嘲, 该系统融合了单文档文摘技术,利用词频、句子位置、主题词等特征信息,利用 m m r ( m a x i m a lm a r g i n a lr e l e v a n c e ) 的简化版本选择和过滤内容。该系统采用的 并非是一些新技术,但是将这些技术应用于多文档文摘中并且在大规模公共任务 上进行评价却是开创性的。由于是该系统是一个原型系统,特意采用了一些简单 的技术:用统计的方法抽取重要的概念;利用它们的位置和主题词( s t i g m a w o r d s ) 过滤句子;用m d r 降低句子的冗余;根据时间表记按照年代信息进行排序。该 系统在2 0 0 1 年的d u c 评测中名列前茅。n e w s b l a s t e r l 9 是哥伦比亚大学在多文档文 摘方面的一个比较成功的系统,它是一个新闻跟踪的工具,并可以为每天的主要 新闻做出相关的文摘。n e w s b l a s t e r 系统将新闻的浏览分为两部分:文摘的生成部 分采用在d u c 一2 0 0 1 中参加评测的文摘生成器,将新闻进行划分归类,然后采用 哥伦比亚大学开发) t 系统对相关信息进行检测与跟踪。该系统不同于其他的 ) t 系统,它采用确定文档相似度的几种特征的不同权值下合并对文档进行归 类。n e w s b l a s t e r 系统的独特之处在于它是将d u c 和t d t 结合起来的新闻浏览系 统,目前已经推出了跨语言的新闻浏览系统。 9 中国科学技术大学硕士学位论文基于查询的多文档自动文捕 2 3 1 2 基于信息抽取的方法 信息抽取技术作为重要的文摘抽取工具也被应用到多文档自动文摘技术中。 1 9 9 8 年r a d e va n dm c k e o w n 开始尝试将信息抽取技术应用到多文档自动文摘中 来【l o 】,并成功地开发出一个应用于自然灾害领域文摘的原型系统s u m m o n s 。 该系统需要人工制定模板,但人工制定模板需要较大的人力,并且不易更新,仅 适用于特定领域,不宜推广。s u m m o n s 是第一个将自然语言处理技术与信息抽 取相结合的多文档文摘系统,在当时的情况下是对一个新领域探索,必然有一些 不成熟的地方,例如对于不同形式的数字表示不能很好的识别,并且也没有给出 具体的评价。康奈尔大学的m i c h a e lw h i t e 等人开发的r i p t i d e s 系统也是一个基于 信息抽取的系统【l “,和s u m m o n s 相比作了以下改进:抽取的句子使文摘更完 整,更力求发现最相关的信息。s u m m o n s 回避了数字表达形式问题,r i p t i d e s 系统通过制定一些规则解决了这个问题。g i s t e x t e r 系统【1 2 】也是基于信息抽取 的多文档文摘系统,对于给定的领域利用信息抽取系统抽取主要的信息和公共模 版,使文摘围绕着主要信息生成。当新的t o p i c , * , 现时,通过利用w o r d n e c 获得主 题概念间的统计关系,生成a d - h o c 模版。该系统融合了信息抽取和单文档文摘技 术,并且提出了自动获取模板的方法,可以适用于非特定域的情况。不足之处在 于自动获取模板需要较多的语料进行学习,并且该方法获得的文摘的语法不是很 好。 2 3 1 3 基于多文档集合特征的方法 目前多文档文摘的方法主要是将集中在利用多文档集合的信息,将多文档集 合作为一个整体进行研究,通过对多文档集合中的句子按照其表达意思的相近程 度重新组合聚类,然后从不同的类别中抽取文摘句。该方法可以在理解的角度上 作文摘,相比较之下获得较好的文摘。美国密西根大学的r a d e v 等人首先提出了 质心的概念,文摘的生成应从识别多文档集合的质心开始,在这里质心代表了文 档集合的主题。2 0 0 0 年,他们在此基础上开发了一个多文档自动文摘系统m e a d 。 它采用统计的方法找出在多篇文档中出现频率最高的词和短语构成文档束的质 心,构成伪句子,然后将文档集合中的其他句子与该伪句子计算相似度,进行排 序。另一个具有代表性的研究是哥伦比亚大学的m c k e o w r v 和r a d e v 等人开发的基 1 0 中国科学技术大学硕士学位论文 基于查询的多文档自动文摘 于片断聚类的多文档文摘系统m u l t i g e n 1 3 1 。该系统利用重复信息( r e p e a t e d i n f o r m a t i o n ) 作为文摘内容的主要候选,从识别不同文章的异同点人手,将语义相 似度高的段落融合到一起作为文档集的一个主题,并将主题中的短语或词组的交 集作为关键词抽取出来并利用语言生成系统f u f s u r g e 组成句子并生成一篇文 档。一些学者提出了子事件概念,通过聚类方法将多文档集合原来的以文本为单 元转化为以逻辑意义为单元的子集合看作子事件,通过对这些子事件抽取,生成 文摘的主要内容。这种方法在理论上冗余性会更少、信息的覆盖率会更大,是目 前比较流行的一种方法。 在中文处理方面,日本东京大学的m i n g h u iw a n g 和h e d i h e k ot a n a k a 开 发了利用参考文献信息的多文档中文自动文摘系统。其原理是通过抽取原文中作 者讲述参考文献内容及其和原文异同关系的部分来组成文摘。这一方法应用领域 狭窄,实际系统中对关于神经网络学习算法方面的科技论文实现了多文档文摘生 成,而且仅是建立在文本浅层语法分析的基础上的,文摘的质量无法保证。中文 多文档文摘的研究起步较晚,从技术上看,采用的主要技术手段大致是相同的, 但是在这些技术使用过程中,需要利用的一些中文的资源和测试平台还不够成 熟,例如,中文多文档文摘缺乏统一的评测,一些中文信息处理技术还不够成熟, 在某种程度上制约了中文多文档自动文摘的发展。 2 3 2 问题聚焦的多文档自动文摘的方法 2 3 2 1 基于m m r 的方法 卡耐基梅隆大学的j a d eo o l d s t c i n 1 4 1 等人通过m m r ( m a x i m a lm a r g i n a l r e l e v a n c e ) 方法做文摘,将与问题相关,但相互之间差异大的句子保存在文摘中, 主要步骤如下所示: 1 ) 计算文档中的文本单元与问句的相似性,可采用传统的带权向量余 弦方法或基于语义的相似度计算方法; 2 ) 根据步骤1 ) 得到的相似性特征以及其他特征计算文本单元的权重; 3 ) 选择权重最大的句子添加到文摘中; 4 ) 计算候选文本单元与新加入到文摘中的文本单元之间的相似性,重 中国科学技术大学硕士学位论文 基于查询的多文档自动文摘 新调整所有候选文本单元的权重; 5 ) 重复3 ) - 4 ) 步骤,直到摘要长度满足需求。 这种方法采用领域无关的统计方法,在选择文本单元时达到最大化多样性、 降低冗余的目的。在d u c 2 0 0 5 会议上,香港理工大学系统i ”1 采用了m k 吸方法, 取得了不错的成绩。但这种方法将多文档集合视为一个单文档,仅仅将m m r 的 方法应用于多文档文摘,忽略了多文档集合中文档之间的信息,在文摘质量的提 高上必然存在一定的局限性。 2 3 2 2 基于机器学习的方法 d u c 会议上不少参赛者采用机器学习的方法,通过对语料库的训练来得到 文摘模型,如:复旦大学采用条件最大熵模型n 0 3 ,从文本单元抽取特征作为模 型的输入,如:句子位置,长度,实体个数,与文档簇的相似性,与问题的相似 性等特征,根据模型输出的概率结果判断句子是否可以被选入摘要中,从而得到 句子集合的一个排序,最后根据缩减冗余的方法不断地调整句子的权重生成文 摘。 2 4 多文档自动文摘的关键技术 2 3 节介绍的这些摘要方法中,其中大部分都涉及到句子相似度计算,主题 划分、文摘生成等技术,下面简要介绍这些技术。 2 4 1 句子相似度计算 相似度是一个很复杂的概念,在语义学、哲学和信息理论中被广泛的讨论。 在不同的具体应用中,相似度的含义有所不同。在多文档文摘系统中,相似度可 以反映出局部主题信息的拟合程度。也可以运用在摘要生成阶段,便于降低文摘 的冗余度。现有的方法中包括: 1 ) 基于关键词的精确匹配的计算方法,这种方法基于这样的假设:如果两 个语句含有共同词汇,则它们存在相似性;如果两个语句含有的共同词汇越多, 则它们的相似度越高。这种方法基于表层的不够灵活; 1 2 中国科学技术大学硕士学位论文基于查询的多文档自动文摘 2 ) 基于语法结构分析的方法,这种方法对句子进行完全或部分的句法结构 分析,考虑句子结构的相似性。如:哈工大在研制句子依存句法【l7 】的基础上, 利用依存结构进行相似度计算,考虑那些有效搭配对之间的相似程度。所谓有效 搭配对是指全旬核心词和直接依存于它的有效词组成的搭配对,这里有效词定义 为动词、名词以及形容词,它是由分词后的词性标注决定的。全句的核心词即为 依存树的根结点。这种方法从句法深度进行考虑,不再局限于表层的匹配,但这 种方法依赖于句子结构分析的正确性。此外,目前依存分析还不能标记动作的实 施者和受施者。两个意思完全相反的句子可能得到的依存分析结果一模一样。 3 ) 基于词语语义的计算方法。词语语义距离的计算方法大体上可以分成两 类【嵋】:一类是根据某种世界知识( o n t o l o g y ) 来计算,主要是基于按照概念间结 构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位 关系和同位关系来计算词语的相似度。在这方面,许多学者已经基于w o r d n e t 做 了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方法, 主要将上下文信息的概率分布作为词汇语义相似度的参照。这种基于统计的定量 分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。但是,这种方 法比较依赖子训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏 和数据噪声的干扰较大,有时会出现明显的错误。 2 4 2 主题划分 多文档文摘实际上是对一些相关的文档进行汇总,这些文档存在共同的主 题,称之为全局主题。同时多文档具有局部性,对同一个对象,会有不同角度的 描述,例如,在一个新闻事件的报道中,会有时间、地点、原因、结果等方面的 描述,通常将它们定义为部分( 局部) 主题。在具有共同的总主题的多篇文档的 基础上,计算文本单元的相似度,通常是计算句子的相似度,可以通过相似度的 值进行聚类,每一个类别实际上就是一个局部主题,然后从每一个类别中抽取具 有代表性的信息,组合在一起,形成文摘。这样即去除了冗余信息,又能体现对 事物不同角度的描述,使文摘简洁、全面。通用的多文档文摘系统经常采用这种 主题划分技术。 1 3 中困科学技术大学硕士学位论文基于查询的多文档自动文摘 2 4 3 文摘的生成 文摘的生成决不是句子的简单叠加,那样会造成语序的混乱,句子排序解决 的好坏将直接影响到文摘的质量和可读性。文摘的生成任务是将主要信息以符合 逻辑的、流利的形式表示出来,其难易程度随文摘单元的不同而不同。其中包含 两个问题:( 1 ) 什么是最重要的信息,如何衡量? ( 2 ) 这些重要信息( 文摘单 元) 以什么样的形式表示出来。 对于第一个问题,通常有两种方法,一是将文档集和中所有句子按照某个特 征或多个特征的组合统一进行排序,二是将多文档集合划分为若干按意义相似文 本单元组成的子集合,在不同的子集合中分别衡量。 对第一类多文档文摘系统中,一个比较典型的例子是密西根大学r e d e v 提出 基于质心的多文档自动文摘方法【1 9 1 ,首先以词为研究单元,以该类中的高频词 组成伪句子,以其为质心,按照句子与质心的相似程度,句子的位置,以及句子 与首旬的相关程度对句子打分,分数越高说明句子越重要。 在另一类多文档文摘系统中,对相似的句子进行聚类,形成多文档集合的逻 辑主题。然后在各个逻辑主题中计算句子间的语义关联强度,与其余句子语义关 联强度总和越大的句子重要性越高,可作为该逻辑主题的代表句,选入文摘中。 在问题聚焦的多文档自动文摘中,在衡量句子重要性时,还需要考虑文本单 元与问旬的相似性等特征。 对于第二个问题,如果文摘单元是段落,生成是一个简单的问题,按与题目 的相关程度排序即可,但从很多学者的研究表明,以段落为单元的研究将很难继 续下去。文摘单元若为句子,那么文摘的生成实际是对文摘句的排序过程,对于 单文档文摘,这是一个简单的问题,将抽取的文摘句按原文档中的顺序排列即可。 对于多文档,问题就不那么简单了,由于打破了文档的界限,不同文档间的句子 是无序的,多文档文摘的句子的排序不必找到最理想的排序,而是要找到一个可 接受的排序即可【2 0 】,也就是说符合逻辑的形式。正确的排序不仅考虑句子在文 档中的位置,还要考虑文档本身的时间信息【2 ”。 还有一种方法就是信息真正的融合,这是对传统文摘的方法的挑战。以句子 为单元的抽取会带来两方面的不足,一方面意思表达不完整,有些信息不是一句 就能表达的。需要跨越几个句子,而仅抽取其中的一个句子,会有断章取义之嫌, 1 4 中国科学技术大学硕士学位论文 基于查询的多文档自动文摘 如果都用来做文摘句,又包含冗余信息;另一方面,一个句子中不是每个词或词 组都是同现概率最高的,不是每个词都重要的。需要做到真正融合需要将句子界 限打破,以词或词组作为文本单元,这样的生成的文摘将是简洁的,全面的。但 我们同时会看到,将这些支离破碎的词和词组如何组成文摘,将给文摘的生成增 加了很大的难度,如指代消解问题,逻辑性和流畅性等等。 2 5 多文档自动文摘与其他自然语言处理技术的关系 多文档文摘是随着互联网上的信息急剧膨胀而发展起来的新的文本信息处 理技术,与其他的自然语言处理技术如信息检索、信息抽取、单文档文摘等有着 千丝万缕的联系,同时又有它的独特之处。 信息检索只是找出满足一定检索条件( q u e r y ) 的整篇文档或段落,而人们仍然 必须阅读所找到的每一个文档或段落才能获得所需要的信息,多文档自动文摘可 以将这些相关的信息按用户需求或文本内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论