(计算机应用技术专业论文)文本自动摘要技术的研究.pdf_第1页
(计算机应用技术专业论文)文本自动摘要技术的研究.pdf_第2页
(计算机应用技术专业论文)文本自动摘要技术的研究.pdf_第3页
(计算机应用技术专业论文)文本自动摘要技术的研究.pdf_第4页
(计算机应用技术专业论文)文本自动摘要技术的研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机应用技术专业论文)文本自动摘要技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学硕+ 学位论立文本自动摘要技术的研究 摘要 y 6 5 18 0 8 随着互联网的迅速发展,可获得的信息越来越多。信息的爆炸也带来了“信 息负担”过重的问题。我们可以获取太多的信息,以致没有足够的时问什么读一 遍,但有时候我们又不得不根据这些信息作出重要的决定。在这种情况下,自动 文摘就显得必不可少。本文介绍了作者在攻读硕士学位期间所做的自动文摘研 究。 本文首先对自然语言处理以及自动文摘的技术进行了综述,随后提出一个句 子被抽取成为摘要句必须满足的三个条件: 1 1 信息量大、概括性强,所含信息在文本中比较重要; 2 ) 与话题( 或用户、任务) 相关; 3 ) 与其他摘要旬之间信息冗余小。 判断一个句子是否满足这三个条件,是作者研究工作中的中心内容。本文亦 以这三个条件为主线,创新地提出了多种自动文摘的方法: 吣自动文摘中的机器学习方法 呤基于实体名的自动文摘方法 电位置与其他特征之间的互训练算法 晦基于矢量模型的文本自动摘要方法 邻尝试将句法分析技术用于文摘的自动生成 对这些方法,作者既做了理论上的分析,还通过实验对其性能进行评价。 在对自动文摘的方法进行探索的同时,作者先后开发了多个自动文摘系统。 这些系统在2 0 0 3 年和2 0 0 4 年两届文本理解会议的统一评测中,取得了令人鼓舞 的成绩。 关键词:自动文摘,自然语言处理,神经网络,模糊数学,实体名 皇旦竖婴_ 上堂堡堡壅 苎奎! 塑垫蔓垫查塑堑塞 a b s t r a c t w i t ht h er a p i dg r o w t ho ft h ei n t e r a c t ,m o r ea n dm o r ei n f o r m a t i o ni sa v a i l a b l e t h i se x p l o s i o no fi n f o r m a t i o nh a sr e s u l t e di naw e l l r e c o g n i z e di n f o r m a t i o no v e r l o a d p r o b l e m t h e r e i sn ot i m et or e a de v e r y t h i n g , b u ts o m e t i m e sw e h a v et om a k ec r i t i c a l d e c i s i o n sb a s e do nw h a t e v e ri n f o r m a t i o i li sa v a i l a b l e a u t o m a t i ct e x ts u m m a r i z a t i o n s e e m st ob ei n d i s p e n s a b l ei nt h i se n v i r o n m e n t t h i sp a p e ri n t r o d u c e st h er e s e a r c h w o r ko na u t o m a t i ct e x ts u m m a r i z a t i o n c o m p l e t e db y t h ea u t h o ra sam a s t e rc a n d i d a t e a f t e rt h ed i s c u s s i o no nt h e t e c h n i q u e s o fn a l u r a l l a n g u a g ep r o c e s s i n g a n d a u t o m a t i ct e x ts u m m a r i z a t i o n ,t h ea u t h o ra s s u m e st h a tas e n t e n c es h o u l ds a t i s f yt h e f o l l o w i n gc o n s t r a i n t sw h e n i ti se x t r a c t e di n t ot h es u m m a r y : ( 1 ) i ti ss u m m a r y w o r t h y , i e i tc o n t a i n se n o u g hi m p o r t a n ti n f o r m a t i o n ; ( 2 ) i t i sr e l e v a n tt ot h et o p i c ( u s e ro r t a s k ) ; ( 3 ) i tc a r la d dn e w i n f o r m a t i o nt ot h es u m m a r y i ti sak e yt a s ki nt h ea u t h o r sw o r kt od e c i d ew h e t h e ras e n t e n c es a t i s f i e ss u c h3 c o n s t r a i n t s t h e s ec o n s t r a i n t sa r ea l s ot h et h r e a d sf o rt h ef o l l o w i n ga p p r o a c h e st o a u t o m a t i ct e x ts u m m a r i z a t i o nw h i c hw i l lb ei n t r o d u c e di nt h ep a p e r : 电m a c h i n e l e a r n i n g i na u t o m a t i ct e x ts u m m a r i z a t i o n ba u t o m a t i ct e x ts u m m a r i z a t i o nb a s e do nn a m e d e n t i t i e s 吣a l g o r i t h m so f c o t r a i n i n g b e t w e e nl o c a t i o n sa n do t h e rf e a t u r e s 吣a u t o m a t i ct e x ts u m m a r i z a t i o nb a s e do nv e c t o rm o d e l 电a p p l i c a t i o no f p a r s i n g t oa u t o m a t i ct e x ts u m m a r i z a t i o n f o rt h e s ea p p r o a c h e s ,t h ea u t h o rn o to n l yg i v e st h e o r e t i ca n a l y s e sb u ta l s o e v a l u a t e st h e i rp e r f o r m a n c et h r o u g he x p e r i m e n t s w h i l ee x p l o r i n gn o v e lm e t h o d s ,t h ea u t h o rd e v e l o p e d s e v e r a l s y s t e m s o f a u t o m a t i ct e x ts u m m a r i z a t i o n s o m eo ft h e mw e r ee v a l u a t e db yt h e d o c u m e n t u n d e r s t a n d i n gc o n f e r e n c e so f t h ey e a r2 0 0 3a n d2 0 0 4 f e e d b a c k sf r o md u e w e r e i n s p i r i n g k e y w o r d s :a u t o m a t i ct e x ts u m m a r i z a t i o n ,n a t u r a ll a n g u a g ep r o c e s s i n g ,n e u r a l n e t w o r k ,f u z z ym a t h e m a t i c s ,n a m e de n t i t y i i 墨呈盔堂堡圭里堡堕 奎查鱼垫塑墨塾查堕塑塞 第一章绪论 1 1 本文研究的背景和意义 我们正处在信息爆炸的时代,在享受多样信息所带来了各种便利的同时,人 们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要 内容和中心意思,从而减少信息获取的时间。因此,人们把注意力转向了文摘, 文摘所具备的简洁性、准确性和清晰性正好满足了人们的这一要求。 尽管大多数科技论文都附有作者自己编制的手工文摘,但是社会科学领域的 许多文章、新闻报道以及其他文字资料都没有手工文摘。手工编写文摘要求对原 文的内容有较为全面的了解,因此文摘的手工编制过程相当花费时间。对于某些 专业领域的文献而言,文摘的手工编制还需要一定的专业知识和丰富的经验,而 具有这种水平而又愿意参与文摘编制的人是相当少的。同时,互联网的迅速崛起 致使文本信息呈爆炸式增长,这就使得手工编制文摘的工作需要越来越多的人 力,显然这是不现实的。因此,文摘编制的自动化,进行自动文摘的研究是必然 的选择。 自动文摘是自然语言处理的一个重要分支,在信息检索领域中有着重要的用 途。自动文摘的目标为:从信息源中提取内容,采用压缩的形式和与用户( 或应 用) 需求相关的方式,将最重要的内容呈现给用户。【i m a n i ,2 0 0 1 】 早在1 9 5 8 年4 月,h p l u h n 首先提出自动文摘的概念【h e l u h n ,1 9 5 8 】,拉 开了自动文摘研究的序幕。但是早期的研究工作仅仅以满足图书管理、情报收集、 档案管理、科学文献管理等领域对自动文摘技术的需要为目的,并没有得到人们 广泛的重视,同时自动文摘研究本身也遇到了一些问题【h e e d m u n d s o n ,1 9 6 4 1 。 其中,个主要的问题为输入问题,与当时的计算机硬件条件有关。由于上述原 因,自动文摘研究的发展一直比较缓慢。直到九十年代,互联网开始逐步普及, 以惊人方式递增的网上信息使人们普遍感到无所适从,面向w w w 的信息采集 和加工成为急迫的需求,自动文摘研究因为直接受到了市场需求的推动而骤然升 温。我们不妨仔细考察一下自动文摘技术的研究在信息时代所具有的意义。 作为信息检索研究的重要成果,不少搜索引擎已经投入实用,譬如o o o g l e 、 y a h o o 或者搜狐。但这些搜索引擎还远远不够完美。当用户输入一个查询请求, 搜索引擎会返回大量的相关网页。但要较为全面地了解相关的重要信息,用户必 须逐个地浏览返回页面。搜索引擎所返回网页的数目非常巨大,所以在一般情况 复臣大学硕士学位论文 文本自动摘要技术的研究 下,用户只是浏览前面的若干网页,即便如此,浏览过程也是非常耗时的,而且 不能保证被浏览的网页包含了所有的相关信息。另外,不同的网页会包含重复的 信息,反复浏览这些重复信息会使得浏览过程变得非常的单调乏味。如果能够自 动地对搜索引擎返回的所有相关网页做一个摘要,将这些网页所包含的主要信息 提取出来并以一定的篇幅表达出来,将大大方便用户。进一步,如果我们为每一 个网页做一个摘要,那么用户既可以快速的从摘要中获取网页的主要信息,还可 以通过网页的摘要做出决定:阅读该网页或者忽略该网页。针对所有网页的摘要 属于多文本摘要,我们又称之为综述,相对的,为每个网页所做的摘要属于单文 本摘要。在上面的叙述中,不管是多文本摘要还是单文本摘要,都能够有效的节 省用户获取有用信息的时间。因此,自动文摘技术的研究在今天有着很重要的现 实意义。 为了促进自动文摘研究的迸一步发展,探索更有效的自动文摘方法,并使之 与应用环境紧密结合,各国普遍加强了技术管理和引导措施,出现了面向应用和 注重评测的趋势。例如,美国近年来即由政府部门资助,先后组织了一些年度学 术会议,如m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ,消息理解会议) 、 s u m m a c ( t e x t s u m m a r i z a t i o ne v a l u a t i o nc o n f e r e n c e ,自动文本摘要会议) 和d u c ( d o c u r e e n tu n d e r s t a n d i n gc o n f e r e n c e ,文本理解会议) 。这些会议都起源于 d a r p a ( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e e t sa g e n c y 。美国国防高等研究计 划) 。这些会议除了像别的学术会议一样交流论文外,还组织对各个单位的系统 进行评测。 在这些会议中,d u c 是最近的会议,开始于2 0 0 1 年1 1 月,至今已经进行 了四届会议。参加单位来自全球各地,包括:b b n 、n 盯、密歇根大学、哥伦比 亚大学、纽约大学、剑桥大学,高丽大学( k o r e au n i v e r s i t y ) 等。复旦大学采用 不同的方法,先后完成了多个自动文摘系统,分别于2 0 0 3 年和2 0 0 4 年参加了第 三、四届d u c 会议,并在统一评测中取得了令人鼓舞的成绩。作者是这些系统 的主要设计者和程序实现者,所以本文将集中讨论这些自动文摘系统的数学模型 和主要技术。 1 2 本文的主要贡献和内容组织 本文是作者在攻读硕士学位期间科研、学习的全面总结。本文以文本摘要的 自动编制问题为核心,深入地分析了自动文摘系统以及相关的理论和技术。作者 认为,本文的主要创新和贡献在于: 夺自动文摘系统的设计与实现。作者先后独立进行或者作为主要成员参与 了多个自动文摘系统的研究和开发。其中部分系统参与了文本理解会议 2 皇里2 1 i 塑主i ! 些堡兰 塞查皂垫塑蔓垫查塑竺壅 的统评价,并取得了令人鼓舞的成绩。 夺提出个句子被抽取成为摘要句的三个条件:1 ) 信息量大、概括性强, 所含信息在文本中比较重要;2 ) 与话题( 或用户、任务) 相关;3 ) 与 其他摘要旬之间信息冗余小。摘旬式自动文摘系统的关键任务就是判断 一个句子是否满足这三个条件。另外,在利用人工摘录的文摘对系统进 行训练时也务必考虑这三个条件之间的相互影响。 夺提出自动文摘中的机器学习方法,并针对文摘语料本身的特殊性,发现 并分析了机器学习的方法应用于文摘( 特别是多文本文摘) 自动生成所 必需注意的问题,同时,采用模糊数学的方法很好的解决了这个问题。 另外,作者还针对新闻报道这一文体,通过实验对句子的特征作了些 具体的分析。 夺提出基于实体名的自动文摘方法。这个方法抓住了信息的构成要素之 一:实体。作者具体实现了三个不同的算法。实验证明,合理的利用实 体,可以有效地判断一个句子是否满足上述三个条件。 夺提出了矢量模型,矢量表示句子或者句子中的子旬,其长度由位置、标 题等特征决定,而矢量之间的夹角取决于句子或者子句之间的相似度。 在这个矢量模型上,提出两个算法,带权重的相似度聚集迭代算法和正 交分解算法,前者针对条件( 1 ) ,后者针对条件( 3 ) 。矢量模型以及这两个 算法具有一定的开放性。实验表明,基于矢量模型的方法与传统方法相 比在性能上具有明显的优势。 夺尝试将句法分析技术用于文摘的自动生成。 夺提出位置与其他特征之间的互训练算法。作者在进行自动文摘技术研究 的过程中,发现位置与其他特征之间存在着一种对偶关系。位置与其他 特征之间的互训练算法就是基于这一关系提出来的。这个算法不仅可以 用于自动文摘系统,而且还对传统的单词文本内频数( t f ) 进行了修正。 互训练算法是一个反复迭代的过程,关于其收敛性,作者给出了严格的 理论证明。 全文共分为五章。 第一章为绪论,简单介绍了本文的研究背景和意义。 第二章首先对自然语言处理研究的目标、历史和新趋势做了介绍,然后讨论 了与文摘相关的一些概念,回顾并总结了自动文摘技术的历史、现状和主要方法, 最后着重介绍了自动文摘的评价方法。 第三章具体介绍作者在自动摘要技术上所作的研究工作,是本文的重点所 在。这一章首先提出一个句子成为摘要的三个条件,然后以这三个条件为线索, 复旦大学顾士学位论文文本自动摘要技术的研究 分别介绍了自动文摘中的机器学习方法、基于实体名的自动文摘方法和基于矢量 模型的算法以及句法分析技术在自动文摘中的应用。另外,这一章还对位置与其 他特征之间的互训练算法进行了介绍。 最后是总结和展望。 4 望里查堂丝堂堡燮 壅查鱼垫塑里苎查堕竺窒 第二章自然语言处理与文本自动摘要 文本自动摘要是自然语言处理的一个重要分支,涉及到多种自然语言处理技 术。因此本章首先对自然语言处理技术的目标、历史和新趋势作一个概述,然后 介绍自动文摘技术的发展概况、各种实现方法以及自动文摘系统的评价方法。其 中,自动文摘系统的评价方法是本章介绍的一个侧重点。 2 1 自然语言处理概述 2 1 1 自然语言处理的目标 什么是自然语言处理? 在中国中文信息学会的网站上给出了自然语言处理 的定义:自然语言处理是利用计算机建立各种类型及用途的语言信息处理系统, 对人类语言( 口语和书面语) 信息进行研究、加工及处理【c t p s c 。吴立德等 编写的大规模中文文本处理是这么介绍自然语言处理的:自然语言处理是计 算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间 用自然语言进行有效通信的各种理论和方法【吴立德,1 9 9 7 1 。 顾名思义,自然语言处理的研究必然涉及自然语言,即人们日常使用的语言, 如汉语、英语等。因此自然语言处理与语言学的研究有着密切的联系,一般认为 自然语言处理与语言学的一个特殊分支计算语言学是一回事。同时,也有不少学 者撰文强调计算语言学与自然语言处理之间的差别,认为它们各有各的侧重点。 计算语言学侧重于说明理论,而自然语言处理侧重于说明方法,自然语言处理可 以说是将计算语言学理论实用化的学科。 以自然语言的方式实现人类与计算机之间的通信,这是人们长期以来所追求 的,也是自然语言处理的重要目标之一。实现人机间自然语言通信意味着要使计 算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思 想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大 体包括了自然语言理解和自然语言生成两个部分【吴立德,1 9 9 7 。人们对自然 语言理解的研究要远远多于对自然语言生成的研究,接下来我们集中讨论自然语 言理解。 到底什么是“理解”,有必要给“理解”下一个本质性的定义。然而,正如 人们对“智能”一词存在广泛的争议一样,人们对“理解”的认识也是众说纷纭, 很难给出一个确切的定义。人是如何“理解”自然语言的? 对此,人们尚缺乏足 堡皇丛兰堡主茎堡笙! ! 苎查鱼垫塑蔓苎查箜竺塞 够的认识,所以现在计算机的智能远远没有达到能够象人一样理解自然语言的水 平,而且在一定的时期内也不太可能达到这样的水平。因此,关于计算机对自然 语言的理解一般是从实用的角度进行评判的。人们普遍认为可以采用著名的图灵 ( t u r i n g ) 试验来判断计算机是否理解了某种自然语言。美国认知心理学家 g m o l s o n 曾提出语言理解的著名的四条判据: ( 1 ) 问答( q u e s t i o n a n s w e r i n g ) :机器能够正确地回答输入文本中的有关问题; ( 2 ) 文摘生成( s u m m a r i z i n g ) :机器有能力产生输入文本的摘要; ( 3 ) 释义( p a r a p h r a s e ) :机器能用不同的词语和句型来复述其输入文本; ( 4 ) 翻译( t r a n s l a t i o n ) :机器具有把一种语言( 源语) 翻译成为另一种语言( 目 标语) 的能力。 要是计算机一旦达到上述的任何种要求,他们就会立即在如下的领域中获 得广泛的应用: ( 1 ) 机器翻译或机助翻译; ( 2 ) 文本理解:在理解输入文本的基础上,将其内容直接转换成机器内部的 某种数据库存储格式,生成文摘,或回答有关问题; ( 3 ) 文本生成:根据用户的请求,以某种自然语言的形式输出储存在计算机 中的各种信息。 h ) 自然语言接口:用户直接用自然语言同大型数据库、专家咨询系统或其 它计算机系统迸行人一机对话。 2 1 2 自然语言处理的研究历史 早在计算机出现之前,英国数学家图灵( a m t u 血g ) 就天才地预见到未 来的计算机将和自然语言结下不解之缘。他在机器能思维吗一文中提出,检 验机器智能高低的最好办法是让计算机理解与讲自然语言。美国语言学家乔姆斯 基( n c h o m s k y ) 在计算机出现的初期也把计算机程序设计语言和自然语言置于 相同的平面上,用统一的观点进行研究。 自然语言处理的研究开始于本世纪5 0 年代,经历了艰难蓝折的发展过程, 大致可以分为三个阶段【史磊,2 0 0 0 1 : 1 ) 早期第一代系统( 5 0 7 0 年代) 在通用计算机问世初期,人们想到的是:利用计算机将一种语言翻译成另外 一种语言,即机器翻译。从5 0 年代初到6 0 年代中期,机器翻译成了绝大多数自 然语言处理系统的中心课题。当时采用的主要是查字典和调整词序的翻译方式, 但是翻译效果不理想。6 0 年代中期,人们开始转向对自然语言的语法、语义、 语用等基本问题的研究,并试图让计算机理解自然语言,自然语言处理的研究从 6 望皇查型兰竺堡兰 苎坐皇塑塑至垫查塑翌窒 机器翻译扩展到人机对话,并出现了b a s e b a l l ( 就全美棒球队比赛情况接受 提问,并能够做出简单的回答) 、s a d s a m ( 计算机回答有关亲属关系的问题) 、 s m ( 能够积累事实和演绎推理) 、e l i z a ( 能够模仿心理治疗专家行为) 、 s t u d e n t ( 能够阅读和解决高中代数应用题,列出方程求解并给出答案) 等人 机对话试验系统。这些早期的自然语言理解系统没有涉及语言的语法分析,它们 所采用的主要技术是关键词匹配,虽然在某一个专门领域内达到了有限的目标, 但理解还相当肤浅。 2 ) 中期第二代系统( 7 0 8 0 年代) 自然语言处理在这个时期得到了一定的发展,在语义的形式、语义的表示等 方面取得了不少进展,尽管还是局限在某个领域内,但却能更好的理解自然语言。 在这个时期,研制出了一些很有名的系统。 l u n a r 是1 9 7 2 年由w w o o d s 设计的一个试验性的自然语言信息检索系 统,帮助地质专家比较和评价阿波罗1 l 火箭从月球上获得的岩石和土壤组成成 分的化学分析数据,通过人机接口,用英语来回答有关问题。这个系统首次采用 了扩充转移网络( a 1 n ) 分析程序来处理英语语法问题,具有一定的实用性。t w i n o g r a d 于1 9 7 2 年在m i t - 的a i 实验室开发的s t u d e n t 系统是一个在“积木 世界”中理解英语的计算机系统,在语言理解过程中试图将语言学的方法和推理 方法结合起来,因此十分引人注目。另外还有基于c d 理论的m a r g i e 系统、 基于脚本( s c r i p t ) 模型的s a m 、p a m 等。 3 ) 近期自然语言处理系统 近期的自然语言处理系统是把基于知识的篇章处理手段作为系统开发的目 标。从前面已经建立的系统可以看出,第三代的自然语言处理系统的设计必须基 于语言理解、生成、推理和知识库管理的紧密结合、人类知识模型的研究、较强 的人机交互的支撑以及知识领域之间信息传递方法的应用。 进入9 0 年代,计算机软硬件性能的指数级提高为自然语言处理的发展提供 了良好的条件,研究工作如火如荼,并逐渐形成了两种对立的流派:唯理主义和 经验主义。所谓唯理主义是指以计算语言学理论为基础,采用各种以规则推理为 主要手段的分析方法;经验主义则是指以大规模语料库的分析为基础,采用各种 以统计方法为主要手段的分析方法。在基于规则推理的方法遇到困难时,基于统 计的语料库方法却显示出了一定的生命力,于是基于语料库的自然语言处理研究 ( 或称为语料库语言学) 成为了广大学者的有一个研究重点。 2 1 3 大规模文本处理的新趋势 大约9 0 年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个 墨呈r 丈堂婴兰垡笙兰 苎查皇垫垫要垫查些堑窒 明显的特征是【吴立德,1 9 9 7 : ( 1 ) 对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本, 而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只 有这样,研制的系统才有真正的实用价值。 ( 2 ) 对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要 求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例 如,对自然语言文本进行自动地提取索引词。过滤,检索,自动提取重 要信息,进行自动摘要等等。 上述特征进一步又可细化成如下几种特征: 由句子到文章:以往的自然语言处理系统多数都是只用细心选择过的少 量例句来进行实验,而现在要处理数以百万计的真实的文本。 由完全的语法分析到部分语法分析:由于真实文本的复杂性,对所有句 子都要求完全的语法分析几乎是不可能的。同时,由于要处理的文章数 量极大,还有处理速度方面的要求,因此,目前的多数系统往往不要求 进行完全的分析,而只进行必要的部分分析。 由语言学到统计学:从方法上说,以往的系统主要依赖语言学的理论和 方法,而新研制的系统同时还依赖于对大量文本的统计性质分析。统计 学的方法在新研制的系统中起了很大作用。 由较窄的领域到很宽的领域:以往的系统往往只能针对某一较窄的领域, 例如只适合分析去饭店的场景对话等。而现在的系统则可适用于很快的 领域,甚至是与领域无关的,即系统工作时并不需要用到与特定领域有 关的领域知识。 由学院式评价到性能评价:对系统的评价不再是少量几个人为设计的典 型例子,而是根据系统的应用要求,用真实文本进行较大规模的、客观 的、定量的评价。不仅要注意系统的质量。同时也要注意系统的处理速 度。 由“故事”到新闻报道:这是针对自然语言处理研究的历史的。历史上 曾有许多工作讨论如何深入理解短故事( 包括故事中出现的人物,他们 的意图等) 。现在的系统则要求能分析新闻报道中的多种短消息和长故 事。 由原始文章到“排版过的”文章:以前的系统处理的文本一般是“纯” 文本,不包含任何“排版”信息,而现在由于要求处理真实文本,而且 许多这类文本都是经由字处理系统或排版系统处理过的,因而含有相应 的排版信息,就自然提出了这种要求。 8 同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工 作也得到了重视和加强。 ( 1 ) 大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语 料库,是研究自然语言统计性质的基础。没有他们,统计方法只能是无 源之水。 ( 2 ) 大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十 万词,含有丰富的信息( 如包含词的搭配信息) 的计算机可用词典对自 然语言处理的重要性是很明显的。 2 2 自动文摘技术概述 2 2 。1 文摘的概念 到底什么是文摘? 这是自动文摘领域的研究人员必须要搞明白的问题,同时 也是很多标准化组织关心的问题。我们先看看一些标准化组织所给出的文摘定 义: 中华人民共和国国家标准文摘编写规则( g b 6 4 4 7 8 6 ) c 9 ,文摘被定义为: “以提供文献内容梗概为耳的,不加评论和补充解释,简明、确切地记述文献重 要内容的短文。” 美国国家标准局所属的国家信息标准化组织( a n s i n i s o ) 文摘指南亦 给出了文摘的一个定义:“关于一篇文章或一个口头演讲简短而客观的陈述。” 国际标准文献工作出版物的文献和文献工作( i s 0 2 1 4 1 9 7 6 ( e ) ) q b 的 文摘定义是:“一份文献内容的短缩的精确的表达而无需补充解释或评论,且对 写文摘的人来说没有差别。” 从上述的定义我们可以看到,文摘应该具有一定的“概括性”,即以较少的 文字反映原文内容的梗概。同时,上述定义还强调文摘必须具备“客观性”,“不 加评论和补充解释”等字眼排除了文摘中的主观因素。但是,在实际的生活、工 作中,人们对文摘的要求往往带有一定的主观性。对于同一个文章,不同的人往 往需要不同的文摘,甚至同一个人在不同的时间也会对文摘有不同的要求。例如, 对于一份销售报告,公司的总经理可能会更关心销售总额等宏观信息,而某个部 门经理则可能只关心与自己所负责部门相关的一些情况。如果公司的总经理即将 与该部门经理谈话,他这时候也会关心与该部门相关的信息。所以,我们在保留 “概括性”的同时,有必要摈弃上述定义所强调的“客观性”,相反,对文摘的 要求中的一些主观因素在文摘的定义中应该有所体现。 9 里里盔兰堡兰堡堕一 塞查鱼垫塑至垫查塑翌窒 实际上,给文摘做出一个准确的定义并不是一件容易的事情。作者本人是这 么理解文摘这个概念的;对源文本中重要信息( 源文本的重点叙说的信息或用户 所关心的信息) 的一种压缩、提炼。 文摘应该具有如下的特性【m t m a y b u r y , i m a n i ,2 0 0 1 】: 1 ) 压缩性( r e d u c t i o n ) :文摘相对于源文本在长度上有较大的压缩。这个特 性可以用压缩率或者文摘长度来衡量。其中压缩率c = 文摘长度源文本 长度( o c 1 0 0 ) 2 ) 信息概括性( i n f o r m a t i v e n e s s ) :文摘应该在内容上忠实于源文本,应能够 准确无误地反映源文本的主要内容。同时还应该满足用户对某特定内容 的兴趣。 3 ) 可读性( w e l l - f o r m e d n e s s ) :文摘在语法和语篇的层次都应该满足良好的 可读性要求。即文摘在内容、语句、时空顺序上的连贯性。还有语气的 流畅程度等。有一些文献还将这个特性称为文摘的质量( q u a f i t y ) i m 枷, 2 0 0 1 】。 2 2 2 文摘的分类 根据形式上的差异,或者与源文本的关系( r e l a t i o n t os o u r c e ) ,文摘可以分 为两大类【i m a n i ,2 0 0 1 】: 摘录式文摘( e x t r a c t ) :它的摘要文本完全由从源文本中拷贝过来的部分 组成: 自写式文摘( a b s t r a e o :它的摘要文本至少包含一部分内容没有出现在 源文本中。 摘录式文摘可以通过抽取源文本中现成的句子或者段落而得到,如果抽取段 落,文摘会更连贯,更可读。摘录式文摘不局限于句子或者段落,甚至还可以由 从源文本中选取出来的一列单个的词组成。以句子为抽取单位的摘录式文摘称为 摘句式文摘,被抽取的句子称为摘要句( e x t r a c ts e n t e n c e ) 。 自写式文摘一般具有相对于摘录式文摘更高的压缩能力。曾经有学者做过这 样一个有趣的实验【d m a r c u ,1 9 9 9 1 :取l o 篇新闻,并为每篇新闻手工编写自 写式文摘( a b s t r a c t ) 。然后让十四个专业人员根据自写式文摘生成摘录式文摘, 即从新闻文本中找出一些句子( 或者从旬) ,使得这些句子( 从旬) 刚好反映了 自写式文摘所包含的内容。经过统计发现,摘录式文摘的平均长度( 所含单词个 数) 是自写式文摘的平均长度的2 7 6 倍。这个实验表明,表达相同的信息,自 写式文摘所需的篇幅要远小于摘录式文摘所需篇幅。 尽管自写式文摘具备压缩率上的优势,但是其自动生成的过程比较复杂, l o 皇呈尘兰! 堕主兰垡堡苎 兰查! 垫塑蔓垫查塑型塑 般要求系统对源文本有较为深入的理解,而且还要涉及到自然语言生成的技术。 由于篇章理解及自然语言生成的难度都很大。所以在目前只可能针对特定的领域 自动生成这种类型的文摘。 从功能上看,文摘又可分为下列三类【i m a l l i ,2 0 0 1 】: 指示性文摘( i n d i c a t i v es u m m a r i e s ) :它对源文本的内容进行信息标引, 以便决定是否进行更深一步的阅读。它包含了关于原文的一些最重要的 特征信息,一般来说它的信息量比较小。 概述性文摘( i n f o r m a t i v es u m m a r i e s ) :它覆盖了源文本中所有重要的信 息内容,信息的细节程度一般取决于压缩率。因此它包含的信息量比指 示性文摘要大。 评价性文摘( c r i t i c a le v a l u a t i v es u m m a r i e s ) :它是对源文本的一个评价, 包含了文摘编制者关于原文内容的优劣、质量等方面的观点。评价性文 摘已经超出了源文本内容本身,对文摘编制人员提出了很高的要求:具 备一定的专业知识,对相关领域比较熟悉,因此,计算机生成评价性文 摘还是一件非常遥远的事情。 美国国家标准局( a n s i ) 对文摘编制工作提出了一些标准性的指南,对指 示性文摘和概述性文摘做出了区别( a n s i1 9 9 7 ) :指示性文摘适合于结构化程度 较低的文本,譬如:社论、散文、评论,或者较长的文献,比如书、会议文集、 年度报告等;而概述性文摘通常适用于其他文献。这份指南还进一步的建议:对 于科学调查报告,指示性文摘必须包括文章的目的、范围、方法,不包括结果, 结论和建议;而概述性文摘必须包含所有方面。 其实,按照功能所得到的三种文摘之间并不是相互排斥,而是相互包含的。 概述性文摘包括了源文本的所有重要信息,所以也可以对源文本进行信息标引或 者指示,所以概述性文摘是指示性文摘的一个真子集。另外,部分评价性文摘也 可以用来做指示( 如:“这是一篇很值得读的文章! ”) ,也可以用来做概述,所以 评价性文摘与概述性文摘、指示性文摘之间存在交集。图2 1 反映了这三种文摘 之间的关系。 另外,还可以根据源文本的数量把文摘分成:单文本摘要( s i n o e - d o c u m e n t s u m m a 眄) 和多文本摘要( m u l t i - d o c u m e n ts u m m a r y ) 。顾名思义,单文本摘要只 有一个源文本,而多文本摘要有多个源文本( 在绝大多数应用场景下,同一个文 摘的源文本是关于同一个话题的) 。多文本摘要又被称为文本综述。由于网上文 本数量的急剧增加,文本自动综述的研究成为近期自动文摘领域的一个热点。文 本自动综述的长远目标是与问题回答以及传统的i n t e m e t 信息检索相结合,组成 智能化的信息检索系统。由于同一话题的不同文本会陈述某些相同的信息,甚至 堡呈奎兰堡圭兰堡垦塞 奎查鱼塑塑茎垫查塑塑窒 包含完全相同的句子或段落,所以不论是以手工方式,还是以自动方式,生成多 文本摘要的时候必须充分考虑冗余( r e d d o g ) 这一因素,这是多文本摘要与 单文本摘要的一个主要区别。 除了上述分类方法之外,还可以根据用户的需求把文摘分成:通用文摘 ( g e n e r a ls u m m a r y ) 和针对用户的文摘( u s e r - f o c u s e ds u m m a r y ) 。通用文摘面 向广大的读者群,它将源文本中的主要信息,以简洁的方式表达出来。通用文摘 在信息的取舍上只考虑信息在源文本中的重要程度,而不受任何外来的主观倾向 的影响,所以通用文摘可以在一定程度上代替源文本;针对用户的文摘又称为针 对任务的文摘( t a s k - f o c u s e ds u m m a r y ) 或针对查询的文摘( q u e r y f o c u s e d s u m m a r y ) ,只是将用户、任务或者查询相关的信息提取出来并以较短的篇幅呈 现给用户。由于针对用户的文摘在信息的选取上有较强的主观倾向性,所以它不 能代替源文本。文本信息的爆炸式增长不仅推动了信息检索的发展,同时也使针 对用户的文摘变得日益重要。 图21 指示性文摘、概述性文摘和评价性文摘之间的关系 2 2 3 自动文摘系统的基本框架 图2 2 给出了一个自动文摘系统的概念框架【i m a n i ,2 0 0 1 】,它封装了一个 自动文摘系统的所需具备的基本要素。 系统的输入是单个或者多个文本,分别对应单文本摘要和多文本摘要。系统 的输出有两种类型:摘录式文摘e x t r a c t 和自写式文摘a b s t r a c t 。 这个框架包括了四个属性( 它们也是自动文摘系统最重要的四个属性) :压 缩率( c o m p r e s s i o nr a t e ) 、用户( a u d i e n c e ) 、功能( f u n c t i o n ) 和流畅性( f l u e n c y ) 。 前三种属性前文已经做过较为详细地介绍:压缩率在通常情况下取5 一3 0 之间 复旦人学硕士学位论文 文本自动摘要技术的研究 的一个值;用户( a u d i e n c e ) 属性说明了按用户要求形式分的摘要的两种形式, 即通用文摘和针对用户的文摘:功能( f u n c t i o n ) 属性则说明所要生成的文摘是 指示性文摘,还是概述性文摘,或者评价性文摘。 流畅性( f l u e n c y ) 属性栏说明了按流畅性要求划分的两种摘要形式。片段 形式( f r a g m e n t s ) 的文摘是由些文本的片断组成,它们之间一般是不连贯的。 通常情况下,摘录式文摘( e x t r a c t ) 都属于这种类型。连续文本类型( c o n n e c t e d t e x t ) 的文摘则是符合一般人们阅读习惯的完整的文字,它的段落或者句子之间 是连贯的。这种文摘可读性较好,但需要计算机对连贯性做专门处理,因此自动 生成的难度较大。 田2 2 自动文摘系统概念框架 这个框架中把信息摘要的过程分成三个阶段( p h a s e ) 【k s p a c k - j o n e s ,1 9 9 9 ; i m a n i ,m m a y b u r y , 1 9 9 9 ;u h a h n ,i m a n i ,2 0 0 0 1 : 1 ) 原文分析( a n a l y s i s ) :这一阶段对输入的文本进行分析,得到文本内容的 内部表示。 2 1 表示变换( t r a n s f o r m a t i o n ) :这一阶段又称为精炼( r e f i n e m e n t ) 。它 把前一阶段的内部表示交换成摘要表示。这一阶段一般适用于生成自写 式摘要以及多文本摘要的系统。对于那些生成摘录式单文本摘要 ( s i n g l e d o c u m e n te x t r a c t ) 的系统,这一阶段往往可以跳过。 复日大学硕士学位论文 文本自动摘要技术的研究 3 ) 摘要合成( s y n t h e s i s ) :这阶段将文本内容的摘要表示转化成自然语 言,从而得到了摘要。 有必要指出的是,上述不同阶段之间的界限有的时候并不是非常严格的。甚 至有学者将摘要自动生成的过程分成四个阶段【p m o l i n a ,1 9 9 5 】:解释 ( i n t e r p r e t a t i o n ) :阕读和理解输入的文本;选择( s e l e c t i o n ) 用户所需用的相 关信息:对相关信息进行再解释( r e i n t e r p r e t a t i o n ) ;合成( s y n t h e s i s ) :生成 文摘。 两种划分阶段的方法都有各自的合理性,但相互之间又有区别,这说明在阶 段( p h a s e ) 这个粒度( g r a n u l a r i t y ) 上比较难形成一致的认识。所以我们转而关 注更细粒度上的一些操作,其中有三种浓缩操作( c o n d e n s a t i o no p e r a t i o n s ) 是最基 本的【i m a n i ,m z m a y b u r y , 1 9 9 9 ;c d p a i c e ,1 9 8 1 】: 1 ) 选择( s e l e c t i o n ) :选择重要的、非冗余的信息; 2 ) 聚合( a g g r e g a t i o n ) :对一些信息进行合并,这些信息来自于不同源文 本或同一源文本不同部分的信息,并以不同的方式描述; 3 ) 一般化( g e n e r a l i z a 抽n ) :以一般的、概括地信息取代个别的、具体的 信息。 2 2 4 自动文摘的主要方法 关于自动文摘的方法,有很多种不同的分类方式。在这- - d , 节里面,我们选 择两种有代表性的分类方式予以详细介绍,以期对自动文摘的主要方法能有一个 大致的了解。 i n d e i j e e tm a n i 和m a r kt m a y b u r y 在1 9 9 9 年出版的( a d v a n c e s i n a u t o m a t i c t e x ts u m m a r i z a t i o n 一书中,根据自动文摘系统所处理对象的层级将自动文摘的 方法分成三类: l 。表层( s u r f a c e - l e v e l ) 方法采用一些浅层的特征来表示信息。将这些特征 组合在一起,构成衡量信息重要程度的函数,系统根据这个函数选择重要的信息 进入文摘。这些浅层特征主要包括: 词频特征:如果一个单词在源文本中出现的频数比较高,那么这个单词 对源文本的贡献就比较大。词频特征标志一个文本单元( 段落、句子或 者从旬) 中含有多少这样的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论