(计算机应用技术专业论文)基于主题的多文档自动文摘技术研究与实现.pdf_第1页
(计算机应用技术专业论文)基于主题的多文档自动文摘技术研究与实现.pdf_第2页
(计算机应用技术专业论文)基于主题的多文档自动文摘技术研究与实现.pdf_第3页
(计算机应用技术专业论文)基于主题的多文档自动文摘技术研究与实现.pdf_第4页
(计算机应用技术专业论文)基于主题的多文档自动文摘技术研究与实现.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉科技大学硕士学位论文第1 页 摘要 文摘准确全面地反映某一文档或多文档的中心内容。在当今信息爆炸的背景下,各种 信息的增长速度远大于手工文摘的处理速度。因此,人们需要一种快速浏览信息的工具, 该工具直接提供各种文档中的重要而全面的信息,并以简洁的形式提交给用户。 本文研究多文档抽取式自动文摘方法,将主题信息融入到文档的特征模型中,根据文 档信息的特点,以句子为单元抽取文摘句。在计算句子重要度时用到t f * i d f 特征、句子 位置特征、句子与主题相似度特征以及句子长度特征这四个特征。本文将主题信息与文档 信息相结合,并对两者指定不同的比率使评测结果更好;此外,本文对每个特征也指定不 同的特征权重,从而找到主题信息与文档特征之间的关系,使评测结果最优。证明了特殊 位置上的句子包含的信息在一定程度上与主题有着较紧密的联系,并且该句子一般不会太 长或太短,这表明位置特征和与主题相似度以及长度特征存在一定的重合关系,这说明并 不是所有文档特征组合在一起就能起到很好的效果,而是需要判断各特征与主题间相互关 系选择适当的特征,这样自动文摘质量才能更优。 关键词:主题信息;t f * i d f :句子位置;与主题相似度;句子长度;组合优化 第1 i 页武汉科技大学 硕士学位论文 a b s t r a c t s u m m a r yi sac o n d e n s e dt e x tt h a tr e f l e c t st h ec o r ec o n t e n to fo n eo rm o r ed o c u m e n t s a c c u r a t e l ya n dc o m p r e h e n s i v e l y n o wi nt h eb a c k g r o u n do fi n f o r m a t i o ne x p l o s i o n , t h eg r o w t ho f i n f o r m a t i o ni sm u c hm o r er a p i dt h a nt h em a n u a ls u m m a r y s op e o p l en e e daf a s tb r o w s i n gt o o l w h i c hc a np r o v i d ei m p o r t a n ta n dc o m p r e h e n s i v ei n f o r m a t i o no ft h ed o c u m e n t sd i r e c t l y , a n d s u b m i tt h et e x tt ot h eu s e ra sac o n c i s ef o r m i nt h i st h e s i s ,w ei n v e s t i g a t eo nt h ee x t r a c t i v em u l t i d o c u m e n ta u t o m a t i cs u m m a r i z a t i o n , i n t h ed o c u m e n tf e a t u r em o d e l ,w et a k et h et o p i ci r i f e r i l l a t i o nf e a t u r ei n t oc o n s i d e r a t i o n , a n dt a k e t h es e n t e n c ea sau n i tt oe x t r a c ts u n m a a r ys e n t e n c ea c c o r d i n gt ot h ef e a t u r e so ft h ed o c u m e n t s i n f o r m a t i o n u s i n gf o u rf e a t u r e st oc a l c u l a t et h ei m p o r t a n c eo ft h es e n t e n c e s ,s u c ha st f * i d f , s e n t e n c ep o s i t i o n ,s i m i l a r i t yb e t w e e nt h es e n t e n c ea n dt h et h e m e ,a n ds e n t e n c e l e n g t h w e c o m b i n et h ei n f o r m a t i o no ft o p i ca n dd o c u m e n t sa n da s s i g nd i f f e r e n tw e i g h t st ot h e mi no r d e rt o g e tb e t t e re v a l u a t i o nr e s u l t s f u r t h e r m o r e ,t h i st h e s i sa l s oa s s i g n sd i f f e r e n tw e i g h t sf o re a c h f e a t u r ei no r d e rt of i n dt h er e l a t i o n s h i pb e t w e e nt o p i ci n f o r m a t i o na n dt h eo t h e rf e a t u r e so f d o c u m e n t s ,s ot h a tt h eb e s te v a l u a t i o nr e s u l tc a nb ef o u n d i nt h ee n d , t h ec o n c l u s i o ni sd r i v e ni n t h i sp a p e rt h a tt h es e n t e n c e si ns p e c i f i e dp o s i t i o nc o n t a i nm o r ei m p o r t a n ti n f o r m a t i o nw h i c hi s m u c hc l o s e rt ot h et o p i c ,a n dt h el e n g t ho ft h e s es e n t e n c e sa l en o tt o ol o n go rt o os h o r t 1 1 1 i s i n d i c a t e st h a tt h e r ea l es o m eo v e r l a pb e t w e e ns e n t e n c ep o s i t i o na n dt h es i m i l a r i t yw i t ht h e m eo r t h es e n t e n c el e n g t h t l l i ss h o w st h a tw ec o u l dn o tg e tt h eg o o de v a l u a t i o nr e s u l t sw h e na l lt h e f e a t u r e so fd o c u m e n t sa l et a k e ni n t oa c c o u n t s i ti s n e c e s s a r yt oi d e n t i f yt h ei n t e r - r e l a t i o n b e t w e e nd o c u m e n t sf e a t u r e sa n dt h et o p i c ,s ot h a tt h eq u a l i t yo fa u t o m a t i cs u m m a r i z a t i o nc a n b e c o m em u c hb e t t e r k e yw o r d s :t o p i ci n f o r m a t i o n ,t f 奉i d f , s e n t e n c ep o s i t i o n , t h es i m i l a r i t yb e t w e e nt h es e n t e n c e a n dt h et h e m e ,s e n t e n c el e n g t h ,c o m b i n a t i o no p t i m i z a t i o n 武汉科技大学 研究生学位论文创新性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研 究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的 工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:壅烂 日期: a 一彳j 乒如 研究生学位论文版权使用授权声明 本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位 的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定, 同意学校保留并向有关部门( 按照武汉科技大学关于研究生学位论文收录 工作的规定执行) 送交论文的复印件和电子版本,允许论文被查阅和借阅, 同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行 检索和对外服务。 论文作者签名:奎塑矍 指导教师签名:醴毖金三 e l期:查:望:甚2 武汉科技大学硕士学位论文第1 页 1 1 研究背景及意义 第一章绪论 互联网的迅速发展使人们的生活方式发生了巨大的变化,在网络带给人们大量电子信 息的同时,人们的需求也随着网络信息的增长不断地发生着变化,尤其当人们面对数以万 计的相关主题的网页时,人们无法在短时间内从海量数据中搜寻到真正所需要的信息,这 些同一主题的网页多数具有相同的信息,而又包含着少量不同的信息,如何快速准确地获 取这些信息中的关键信息成为人们关注的问题。 随着网络技术的发展,人们可以通过搜索引擎十分方便的得到自己关注的各种信息, 帮助人们快速地找到相关的网页,用户只需要输入一些关键词,它们马上就会自动搜索出 相关的网页。然而,人们发现在获得大量相关信息的同时,这些信息中包含大量的冗余信 息。这种结果一方面是因为各个网站相互转载,另一方面是由于相同主题的文档中存在信 息重叠。目前应用最为广泛的是基于关键词的搜索引擎,这类搜索引擎在向用户提交搜索 结果时,采用的方法大多是将网页中包含用户搜索请求的句子摘取出来显示。这种方法实 现简单,显示结果也多为用户感兴趣的内容,但很多情况下摘取出来的句子并不是该网页 的中心内容,从而用户也无法从显示的结果进一步判断某个搜索结果是否是自己所需要的 网页【l 】。它不能提供给用户简洁、直接信息。人们还要去阅读大量的文档才能找到所需要 的信息。 文本文摘从众多信息源中摘录出关键内容,它已经成为人们日常生活中一个必不可少 的部分。然而随着科技的发展,各种资料的增长速度远远大于手工文摘的处理速度,这使 得手工文摘的方法更是无以应对。另一方面手工文摘在很大程度上受摘要人员自身知识背 景和个人兴趣的影响,生成的文摘包含了他自己的立场和观点,摘要人员感兴趣的话题不 一定与读者感兴趣的话题相同,这也降低了人工文摘结果的实用性。因此人们迫切需要一 个能快速浏览信息的工具,该工具不仅提供的是直接的文档,而且是经过加工整理,包含 这些文档的重要、全面的信息。因此自动文摘技术吸引了人们更多的关注,文本文摘可以 帮助人们花更少的时间获得更多有用的信息。 此外,在当今信息爆炸的社会中,人们所关注的信息不只是出现在一篇文档中,而是 需要阅读多篇文章才能找到自己真正需要的信息,在这种前提下,单文本自动文摘已经无 法满足人们的需求,因此多文档文摘已成为当前研究的热点之一,它是信息时代发展到一 定程度的必然趋势。 1 2 国内外研究现状 从5 0 年代末l u h n 2 1 首先提出自动文摘思想,自动文摘技术逐渐地发展起来。网络的 第2 页武汉科技大学 硕士学位论文 普及及跨文本的信息融合正成为新的研究热点,真正任意域的多文档文摘是在1 9 9 7 和1 9 9 8 年开始的。为了促进自动文摘研究的发展,探寻更有效的自动文摘方法,并与应用环境紧 密结合,出现了面向应用和注重评测各种会议与竞赛。例如m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e 消息理解会议) 、s u m m a c ( t e x ts u m m a r i z a t i o ne v a l u a t i o nc o n f e r e n c e 自动文 本摘要会议) 和d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e 文本理解会议) 等,这些会议 对自动文摘的研究起到了极大的推动作用。多文档文摘近几年的研究,诞生了许多的系统, 其中美国m i c h i g a n 大学的r e d e v 等人首先提出了质心的方法自动为源文档生成摘要1 3 5 j , 并在此基础上开发出了一个多文档自动文摘系统m e a d 4 1 。这种方法的主要思想是:若一 个句子的内容包含于其它句子中,则该句子在摘要时可以去掉:具有同一话题的句子集中 可以选择一个句子来代表整个句子集的主要内容;最后在计算句子权重的基础上抽取具有 代表性的句子来生成摘要。c o l u m b i a 大学的m c k e o w n 以及r u t g e r s 大学的b o r o s 等使用基 于聚类的方法为源文档生成摘要【6 ,7 】,其基本思路是:首先将文档拆分成句子,然后将每句 子表示成向量空间中的一个向量,对向量进行聚类后,从每个类中选择一个代表性的句子 作为文摘句,最后将所选择的文摘句组合成一篇文摘。s o u t h e r nc a l i f o r n i a 大学的h o v y 等 使用句子位置、词频、术语聚类等特征来生成摘要【8 】,然后使用m m r 技术【9 】对摘要中的 句子进行去重处理;他还使用b e ( b a s i ce l e m e n t ) 特征来为源文档自动生成摘型1 0 】。 国内中文自动文摘的研究起步较晚,中文文摘系统的研究是在9 0 年代开始的研究 单位主要有上海交通大学、哈尔滨工业大学、北京邮电大学、复旦大学,中科院软件所等 科研单位都已经开发出一些中文多文档自动文摘系统。哈尔滨工业大学的王开铸教授等人 提出了偏重于篇章物理结构的“篇章计算模型”,并于1 9 9 2 年研制了一个基于篇章理解的军 事领域自动文摘实用系统m a t a s ;上海交通大学王永成教授从8 0 年代术就开始研究自动 摘录技术,1 9 9 7 年研制了o a 中文文献自动摘要系统】。尽管目前已经出现了不少自动文 摘的工具,但是随着在线信息的不断增长,及时获得有用的摘要依然是一个难题。自动文 摘还有待进一步研究。复旦大学吴立德教授等首先对源文档进行分词并提取文本特征信 息,然后进行词性与语义标注,再进行词、旬、段加权处理,最后根据权重进行句子选取 构成文摘【l2 1 。 1 3 自动文摘的定义 文摘是准确全面地反映某一文本中心内容的简洁连贯的短文。自动文摘就是利用计算 机自动地从原始文献中提取文摘。多文档文摘是将多文档集合中的多次重复信息以一次出 现在文摘中,其他与主题相关的信息根据重要性及压缩比依次抽取的文本集合压缩技术 【1 3 】。1 9 9 5 年自动文摘测试大纲要求自动文摘应具有概况性、客观性、可理解性和可读性【1 4 1 。 根据文摘的定义,自动文摘应具有三大特剧1 5 】: 简洁性:文摘比所摘的文献短,长度为原文献的5 1 0 的文摘就能基本上反映文献 的主要内容;当文摘的长度达到原文献的1 0 2 5 时,很多文章的写作风格就可以在文摘 中体现出来了。 武汉科技大学硕士学位论文第3 页 准确性:无论长短,文摘必须准确无误地报道原文献的基本内容,不能主观改变原文 观点,科技文献的文摘应确保正确引用原文中的各项数据。 清晰性:必须使用一种易读的文体把文献内容清晰地表示出来,最好用完整的句子编 写文摘,并尽可能使用著者自己使用的词语。 文摘的这些特点决定了文摘具有以下的功能:促进新资料的快速通报,节省阅读时间, 有助于选择文献等。 1 4 本文的主要工作 多文档自动文摘就是利用计算机自动地从原始文献中提取与主题相关的信息,根据信 息重要性及压缩比依次抽取文档基本单元组合成文摘。本文采用自动抽取的方法,根据 m e a d 系统的基本理论,提出了基于主题的特征组合优化的自动文摘方法,该方法主要包 含两个部分:基本特征的组合优化问题以及主题信息与普通文档信息的组合搭配问题。 ( 1 ) 基本特征的组合优化,本文选取了4 个基本特征,即t f i d f 特征,位置特征, 与主题相似度特征和长度特征,这4 个特征从不同的方面反映文档信息的重要程度,但它 们自身重要程度又有所不同,如何找到它们各自最好的权重比值来提高文摘的质量是本文 关心的问题。根据给每个特征赋给不同的权重值来评测文摘结果,从中找到权重比值最好 的数据结果。 ( 2 ) 主题信息和文档信息的搭配,在同一主题下,它们与主题的紧密程度不尽相同, 不同的文档从不同的角度讨论主题,它们关注相同的问题,但包含不同的观点,如何利用 主题中的信息找到文档中最重要全面的而且与主题最相关信息,是本文关心的另一个问 题。本文采用的方法是将主题信息中包含的词的得分信息与文档中词的得分信息相结合, 并将主题句的相似信息与文档中旬子相似信息结合,从而找到主题信息与文档信息最好的 比率关系,提高文摘的质量。 1 5 本文的结构安排 本文分为七章,各章内容组织如下: 第一章简要介绍了自动文摘的研究背景及意义、分析了国内外的研究现状,并 介绍了本文的主要工作及结构安排。 第二章介绍了自动文摘中的基本知识,包括自动文摘常用的方法、自动文摘的 大体生成过程及评测方法。 第三章介绍了本文多文档自动文摘基本原理和系统的基本流程,并根据主题信 息特征的组合进行了优化。 第四章介绍了4 个文档特征及主题信息的选取过程,以及主题信息与文档信息 结合的方法。 第五章对生成的文摘进行评测,并对结果进行分析,找出局部最优的结果及特 第4 页武汉科技大学 硕士学位论文 第六章 征组合。 总结了本文的创新点和不足之处,并对将来的工作做出了展望。 武汉科技大学硕士学位论文第5 页 第二章多文档自动文摘简介 2 1 自动文摘的分类与主要方法 上海交通大学的王志琪,王永成教授据自动文摘的特点对其进行划分,主要从文摘处 理的文本对象和文摘的制作方法等几个方面进行分类。 2 1 1 按文摘处理的文本对象分类 按文摘处理的文本对象可将文摘分为单文档文摘( s i n g l ed o c u m e n ts u m m a r i z a t i o n , s d s ) 和多文档文摘( m u l t i p l ed o c u m e n t ss u m m a r i z a t i o n , m d s ) t b j 。 单文档文摘处理的文本对象是单篇文摘,它对每篇文章独立的生成文摘。多文档集合 是指同一主题下不同文档的集合,特点是文档之间具有很多的共同信息,各个文档中包含 与主题相关的不同的信息的文档集合。多文档文摘可以将多篇同一主题的文档进行汇总, 提供给人们简洁,全面的信息【l3 1 。多文档自动文摘技术是从一个文档集中去除冗余信息, 并考虑文档间的相互关联性以及它们各自的差异,从而产生一个浓缩的信息集合【l 们。 随着网络信息的巨增,返回地址式的搜索引擎的局限性日益突出。这种搜索引擎返回 与用户查询内容相关的成百上千个网页地址,而这些网页中与其对应的相关文档的内容有 很大的重复性,用户必须一一阅读,以获取所需要的重要信息,这样获取信息的效率很低, 而且很不现实。多文档自动文摘技术为用户提供了方便,提高了用户获取信息的速度和效 率【l3 1 。可以将多文档文摘技术看作是信息检索的后处理,单文档文摘技术的发展,信息抽 取技术的应用【1 7 1 。 此外,在多文档自动文摘中,文档集中的文档可以是同一种语言,也可以是不同的语 言,因此多文档文摘中又存在单语种的多文档文摘和跨语种的多文档文摘之分。 2 1 2 按文摘的制作方法分类 按文摘的制作方法可将文摘分为摘录型文摘( s u m m a r i z a t i o nb a s e do ne x t r a c t i o n ) 、基 于理解的文摘( s u m m a r i z a t i o nb a s e do nu n d e r s t a n d i n g ) 、基于模板的文摘( s u m m a r i z a t i o n b a s e do i lt e m p l a t e ) 和基于结构的文摘( s u m m a r i z a f i o nb a s e do nd i s c o u r s es t r u c t u r e ) 【1 5 】。 ( 1 ) 摘录型文摘是从原文档中直接抽取句子,对句子稍加甚至不加修改,该方法先对文本 进行主题识别,对文中有用的片段进行有限深度的分析,利用特征词提取相关短语或 句子填充文摘框架。自动抽取的基础是将文本看作句子的线性排列,将句子看作词的 线性排列。信息抽取技术作为重要的文摘抽取工具也被应用到多文档自动文摘技术中 信息抽取步骤是:计算词的权值;计算句子的权值;将句子权值排序,确定阈 第6 页武汉科技大学硕士学位论文 值,高于此阈值的句子作为文摘句:将这些文摘句按顺序组合输出。 在自动摘录中,计算词权、句权、选择文摘句的依据是文本的六种形式特征,即f 词 频、t 标题、l 位置、s 句法结构、c 线索词、i 指示性短语【1 8 】。 自动摘录依据的是文本形式上的规律,因此它几乎适用于任何文献,具有应用领域不 受限制、速度快、摘要长度可调节等优点。这种方法简单快捷、不需要太多的语言学知识、 可移植性好,但由于这种文摘是原文部分句子简单组合,因而文摘可读性较差。 ( 2 )基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的。需要对文章进行 句法分析和语义分析,在理解的基础上产生文摘句【1 9 】。它利用语言学知识对文章进行 复杂的语法分析、语义分析和语用分析,利用领域知识进行判断、推理,得到文摘的 意义表示最后进行文摘的生成。 该方法的步骤是【1 8 ,2 0 】: 语法分析。借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构 树。 语义分析。运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的 语义表示。 语用分析和信息提取。根据知识库中预先存放的领域知识在上下文中进行推理,并 将提取出来的关键内容存入一张信息表。 文本生成。将信息表中的内容转换为一段完整连贯的文字输出。 这种文摘语句精炼,连贯性好。但是,由于目前在人工智能与自然语言理解方面还存在 许多难以解决的问题,这种方法难以得到快速的发展。另外,基于理解的方法是在对原文 分析理解的基础上进行的,这种分析理解过程需要占用更多的时间和资源,仅限于非常狭 小的应用领域中因此这种方法的效率也比较低下。 ( 3 )模版型文摘是通过填充事先由专家定义好的模版来完成文摘生成过程,该方法与信息 抽取的过程极为相似。这种方法首先选检索原文,提取出模板需要的文本特征,然后 将抽取出来的特征进行规范,最后再将规范后的特征信息填充到模板的相应位置,生 成文摘。 ( 4 ) 基于结构的文摘利用文章的结构来分析文章的核心内容,将文章视为句子的关联网 络,选择和很多句子都有联系的中心句即可构成文摘。句子间的关系可通过词间关系、 连接词确定【2 1 1 。文章是一个有机的结构体,文章中的不同部分承担着不同的功能。同 时各部分之间存在着错综复杂的关系。一般来说,如果文章结构分析清楚了,文章的 核心部分自然也能够找到。但是,目i j i 语言学对于文章结构的研究还很不够,因此, 基于结构的自动文摘方法的发展也受到相应的制约。 2 2自动文摘生成的主要过程 : 本文主要采用的是基于信息抽取的自动摘录多文档自动文摘方法,多文档自动文摘一 般分为三个阶段: 武汉科技大学硕士学位论文第7 页 ( 1 ) 预处理阶段:主要是获得同一主题的文档并将文档拆分成基本信息单元( 如段落、句 子、短语等) 。 ( 2 )文摘抽取阶段( 关键内容查找) :主要是查找文档共同相关的主题,去掉相对冗余无 关的信息,以简化原文档而又保留其关键内容。 ( 3 )文摘组合生成阶段:是将简化后的内容重新组织成一篇流畅易读的文摘。 三个阶段中,文摘抽取阶段是核心,抽取方法不同,其特征表示方式也不同。 k - 一_ 预处理 * 、- * t 1i 。 词林 文档分类 统计模型 统计、拆分 语言模型 l l 1 l 基本信息单 亭嗣 l寸档l r l 同主 元集( 如段 l 二一, 题文档 茗、句子、 l 文档i l 集 单词等) i ll i 一一一j一 l 一 增加可读性 i l 查找主题 准文摘最终文摘 特征表示 简化内容 合成 抽取 i 一一i 图2 1自动文摘处理流程 ( 1 ) 预处理阶段 基于抽取的方法主要借助于统计方法,这种方法通常通过分析并计算文档基本单元 ( 如词汇) 的统计相关性或者通过短语模式的匹配来找出关键单元,并保存这些文档的基 本单元信息。 该阶段的核心任务是计算文档基本单元的特征的权重,主要是将每篇文档按词和句子 划分成要处理的单元,提取词干,统计词频并标示句子和词的位置,标示词性等。为后面 对特征结果进行加权求和,做好准备。 ( 2 ) 文摘组合生成阶段 在生成自动文摘的过程中,通过分析原文档的特征,从而找出关键信息。如关键词, 文档结构以及与主题的紧密程度等。关键词提供一种快速了解全文信息的重要途径。另一 方面,不同体裁的文档,表现其中心思想的基本单元在文本或段落中的位置也不尽相同。 如新闻体裁的文档,首段往往是对全文内容的概括性描述,每段段首和段尾的句子是对这 一段内容的概括性描述。此外,一篇文章的主题往往描述了该文章最核心的内容,如果抽 取的信息和主题信息越相近在某种程度上表示该信息越重要。那么生成文摘的质量就越 第8 页武汉科技大学硕士学位论文 好。 ( 3 ) 合成输出 根据抽取的句子的重要性排序,抽取满足用户要求的排在前面的句子作为文摘句并生 成文摘。并按照一定的顺序排列句子使文摘更具可读性。 2 3 自动文摘结果评测 本文所有实验是基于d u c 2 0 0 5 语料并用r o u g e 工具进行评测。d u c 是目前在多文 档文摘领域最有影响的评测会议,由n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n d t e c h n o l o g y ) 的系列会议之一t i d e s 赞助发起的文本理解会议。d u c 2 0 0 5 的语料是由n i s t 提供的5 0 个相关文档集合,每个集合已按照一定的标准分类。每个文档集都是基于一个 相同主题。 l i i l 等人参考了机器翻译中的自动评价方法b l e u 2 2 1 ,于2 0 0 2 年提出了 r o u g e ( r e c a l l o r i e n t e du n d e r s t u d yf o rg i s t i n ge v a l u a t i o n ) i ,平价方法【2 3 】,并在2 0 0 4 年d u c 上正式使用的。r o u g e 是通过计算系统产生的文摘和由人工文摘间所重叠的单词数目来 评价系统文摘【5 】。即该方法首先由多个专家分别生成人工文摘,构成标准文摘集。然后是 将系统生成的自动文摘与人工生成的标准文摘相对比,通过统计二者之间重叠的基本单元 ( n 元语法、词序列和词对) 的数目,来评价文摘的质量。通过多专家人工文摘的对比,提高 评价系统的稳定性和健壮性。该方法现已成为文摘评价技术的通用标准之一【2 5 】。 r o u g e 主要包括以下四种评价标准: ( 1 ) r o u g e n 计算的是系统文摘与一组人工文摘中n - g r a m 的r e c a l l 值。 ( 2 ) r o u g e l 基于最长公共子串,根据最长公共子序列来计算系统文摘和人工文摘 间的相似程度的,他们做了这样的假设,如果系统文摘和人工文摘间的公共子序列越长那 么它们间的相似程度也就越大【2 6 1 。 ( 3 ) r o u g e s 基于顺序词对统计。 ( 4 ) r o u g e w 在r o u g e l 的基础上,考虑串的连续匹配。 研究表明对于多文档文摘评价,各种方法难以达到很高的一致性。但是,如果在对自动 文摘和标准文摘进行匹配时排除了停用词的干扰,那么r o u g e - l ,r o u g e 2 ,r o u g e s 4 , r o u g e s u 4 和r o u g e s u 9 的表现也很不错,通过使用标准文摘集而非单个标准文摘可以 提高评价结果的一致性【2 5 】。 评测是通过自动生成的文摘与人工生成的文摘进行比较,主要参考三个评测量的得 分: 准确率p = c o r r e e c t ( c o r r e c t + w r o n g ) 召回率r = c o r r e c t ( c o r r e c t + m i s s e d ) f s c o r e s = 2 p + i v ( p + r ) 武汉科技大学 硕士学位论文第9 页 召回率用来衡量系统生成文摘的信息覆盖率,而准确率用来衡量系统生成文摘的精 度,文摘的准确率和召回率是两个相互关联的指标。其中c o 玎e c t 表示即被自动文摘系统抽 取到的也被专家抽取的子串的个数,啪n g 表示被系统抽取而没有被专家抽取的子串的个 数,m i s s e d 表示被系统遗漏的却被专家抽取的子串的个数。通常,系统的文摘召回率不会 随着准确率提高而提高,反而可能会下斛2 5 1 。f 测度是一个对文摘的准确率和召回率综合 考察的指标,表示系统的总体性能。 2 4 本章小结 本章主要介绍了自动文摘的基本定义,自动文摘生成的主要方法和过程,以及如何对 生成的自动文摘的评测标准,简单的介绍了自动文摘的过程方法。 第1 0 页武汉科技大学硕士学位论文 第三章基于主题的多文档自动文摘系统模型 本文模型采用自动摘录的多文档文摘方法。通过对生物学文献进行统计后发现,对文 本进行人工标引时,4 2 7 的主题词是直接从原文中产生,4 7 的主题词是从原文中通过 同义词的转化产生,相比较主题词的这种分布情况,文本的摘要语句也应该可以在文章里 直接或间接得到。所以将文本进一步细化,从文本的句子中产生文本摘要是可行的方式【z 7 。 自动摘录( a u t o m a t i ce x t r a c t i o n ) 将文本视为句子的线性序列,将句子视为词的线性序列 【2 0 】;按照句子的各个特征计算每个特征项的得分,并按一定方式组合优化各个特征项的权 重得到句子的最终得分,按最终得分排序,抽取句子生成文摘。 模型主要分6 个模块实现:预处理,获取配置文件信息,独立特征计算,特征组合优 化,文摘的生成及结果自动评测与统计,如图3 1 所示。 图3 1 模型过程图 武汉科技大学硕士学位论文第1 1 页 3 1 预处理 预处理的首要任务是:参照分词词典和停用词表,扫描文档,切分词语并标注词性, 统计词频( 注意:只统计不在停用词表中的实词词频) ,记录词所处的位置等词的基本信息。 这些信息将为下面词权重和句子权重的计算所用【2 引。 本文将d u c 2 0 0 5 的语料中的每个文档划分为要处理的句子单元。在预处理过程中利 用g a t e 作为分词分句工具。g a t e 是一个应用广泛的信息抽取的开放型基础架构,为用 户提供图形化的开发环境,被许多自然语言处理项目尤其是信息抽取研究项目所采用。为 语言处理软件提供基础架构,提供文本处理的总体组织结构。 。g a t e 主要分为3 个部分【2 9 1 : ( 1 ) c r e o l e ( c o l l e c t i o no fr e u s a b l eo b j e c t sf o rl a n g u a g ee n g i n e e r i n g ) c r e o l e 是g a t e 的核心部分,它基于j a v ab e a n 实现,有三种类型: l a n g u a g er e s o u r c e s ( l r s ) :l r 可以理解成i e 要处理的文本,在g a t e 中用d o c u m e n t 对象表示可处理的文本,c o r p u s 是一组d o c u m e n t 的集合,可以作为一个整体来处理。 p r o c e s s i n gr e s o u r c e s ( p r s ) :p r 是g a t e 中进行语言处理的模块,不同的p r 可以完成 不同的具体任务,比如分词,模式匹配等。 v i s u a l r e s o u r c e s ( v r s ) - v r 是g u i 中的可视化编辑部件。 ( 2 ) a n n i e ( an e a r l y - n e wi es y s t e m ) a n n i e 是基于规则方法的英文信息抽取系统,它是一个可重用并且易扩展的组件集 合,任务是完成信息抽取和标注。它将一篇待处理文档,按照规定的顺序经过英文分词、 英文词表查询、英文分句、英文词性标注、英文抽取规则定义、英文命名实体识别和英文 共指消解处理之后,实现整篇文档的信息抽取。 ( 3 ) j a p e ( j a v aa n n o t a t i o np a t t e r n se n g i n e ) j a p e 的功能是建立规则库,用正则表达式匹配文本中的信息并作好标注,用于实现 分词分句和较准确的命名实体识别。 将d u c 2 0 0 5 语料用g a t e 分词,分句并提取文档中每个单词的词干,标注每个词的 词性包括该词的类型及是否是停顿词,然后计算每个词t f * i d f 的值,生成的预处理文件, 本文从预处理文档中提取出单词、句子等单元信息,并标识出该句子在源文档中的位置, 按一定规则提取标示所需要的信息。 3 2 获取配置文件信息 该模块主要负责将配置文件中信息读取出来,并保存在配置信息数据中,以便生成文 摘及评测文摘时使用。 配置文件中主要包含以下工程信息: 圆h t t p :g a t e a e u k 第1 2 页武汉科技大学硕士学位论文 a ) 预处理结果文件路径。源文档集经过预处理后生成的预处理文件的路径,该 路径下的文件是源文档分词、分句后的结果文件。 b 1 文摘生成路径。自动文摘最终生成的目录信息。 c )自动文摘的字数及主题信息特征比率变化步长。 d ) 进行组合优化是特征在组合排列时的最大及最小权重值 该最大值和最小值表示在所有特征进行排列组合时的权重范围,即每个特征 的最大权重不得超过该最大值,同时最小权重不得小于该最小值。以确保每种组 合的权重都在允许的范围以内。 e ) r o u g e 评测文件的绝对路径 运行r o u g e 进行评测时r o u g e 的执行文件的路径。该路径提供自动评测 时所要查找的执行文件路径。 0 r o u g e 进行评测时被评测文摘存放的路径 运行r o u g e 时r o u g e 配置文件中对应的要进行评测的文摘存放路径。该 路径与评测模板路径相对应,在评测时将文摘保存路径下的每个文摘文件与模板 进行匹配,从而得到评测结果。 曲保存r o u g e 评测结果的目录 该路径为每次自动文摘的评测结果的存放目录,该目录同时存放对应结果的 统计信息。 3 3 独立特征计算 根据预处理的结果,计算每个句子的各个特征项:句子t f * i d f 、位置、与主题相似 度以及句子长度的得分。 ( 1 )句子t f i d f 得分 t f * i d f 方法【3 0 】,即用短语在文档中出现的频率与在大型语料中出现的文档频率的倒 数之积作为短语统计信息含量的度量方法,其中文档频率是指语料库中包含该术语的文章 数目。也即是说,在本文档中出现比较频繁而在其它文档中不常出现的术语对本档而言具 有更高的信息量。 该特征表示若句子包含文档中重要的单词越多,该项得分越高。该项得分为句子中除 去停顿词后所有单词的t f * i d f 值的总和。 句子的t f * i d f 值分为主题信息词的t f * i d f 值与文档信息中词的t f * i d f 值两部分。 ( 2 ) 句子位置得分 本文把文档内容看成是句子的线性序列,每篇文档中第一句话最重要,其它句子按其 位置重要性依次递减。位置越接近第一句该项得分越高。 ( 3 ) 。句子与主题相似度得分 主题体现它所代表的文档集中所讨论的中心内容,若每个句子与它包含的信息相似度 越大则表明该句包含的重要信息越多,那么该句相对其它句子就更重要。 武汉科技大学硕士学位论文第1 3 页 该项特征主要分为2 个部分: a ) 句子与主题直接相似度,主题标题表示主题信息中最核心的内容,若句子与主题 标题越相似则表明该句子越接近中心内容,该句子就越重要。 b ) 句子与主题间接相似度,即句子与文档标题相似度奎文档标题与主题标题相似度, 文档标题体现它所属文档中最重要内容,若每个句子与它的相似度越大则表明在 该文档中旬子包含的重要信息越多,此外若文档的标题与主题标题的相似度越大, 则表明该文档所描述的内容越接近主题信息,在一定程度上与其他文档相比该文 档更重要。 主题句概括了文档集的中心思想,但并没有全面的阐述文档集的核心内容,句子与主 题直接相似度表示该句与中心思想的直接联系,该项得分越高表明该句重要度相对较高, 同时若该句与该文档的标题越接近,而该文档与主题越相关则表明该句在文档中十分重要 同时与主题也结合的很紧密,那么该句在文档集就越重要。 相似度得分采用向量内积的方法计算,并将结果标准化。 ( 4 ) 句子的长度得分 采用正态分布模型计算该特征项的得分。句子的长度越接近该篇文档句子的平均长 度,该特征的得分越高。句子的平均长度是同一主题下的所有文档中的单词个数总和除以 句子的总数的值。 3 4 特征组合优化 本文中给每个特征项设置一定的权重,每个特征项的最后得分为该特征项的得分乘以 其权重,句子的最终得分为每个特征项的最后得分的总和。 如何给每个特征设定权重是本节重点,特征权重的生成主要通过以下三个步骤: ( 1 )获得配置文件中的权重的最大值及最小值,并生成对应的组合集合。 每组特征的权重值应在配置文件的最小及最大值的范围中,如特征权重的取值范围为 l 3 ,那么每个特征的权重不得小于l 或大于3 ,如0 :l :2 :3 或1 :2 :3 :4 就为不合法 的比值。此外,由于每个特征的权重可以相同,如:4 个特征权重的比值可以为l :l :2 : 3 ,或1 :l :1 :l 等,所以组合集合中的元素有重复的,但最大重复次数为特征个数,即 4 次。 ( 2 ) 生成不重复的组合序列 该部分分为两个部分: a ) 求出所有不重复的组合 根据1 ) 中得到的组合元素集合,从该集合中选取4 个元素作为一组特征的组合, 循环并找出所有不重复的组合。 b 1 删除相同比例的组合 根据a ) 中所有组合的结果,删除相同比率的组合,只保留最简比率的组合。如:3 : 3 :3 :3 与2 :2 :2 :2 每个特征的比值都是1 :1 :1 :1 ,这种比率相同的组合在 第1 4 页武汉科技大学硕士学位论文 特征权重的计算中是相同的结果, 合,即删除组合3 :3 :3 :3 与2 : ( 3 )生成每种组合序列的全排列。 为了提高效率,因此,将只保留最简的比率组 2 :2 :2 而保留组合l :1 :1 :1 进行计算。 根据2 ) 中的结果,针对每一种组合生成其对应的全排列,但对于有相同元素的组合, 只保留不同的排列结果。如:组合1 :l :2 :l ,最后的排列结果为:1 :1 :1 :2 、1 - l :2 :l 、l :2 :1 :l 和2 :1 :1 :1 四种排列。 最后在根据以上步骤得到的排列结果,根据特征权重组合计算句子得分并生成文摘。 3 5 文摘生成及结果自动评测和统计 文摘生成首先计算句子每个特征项的得分,并对每个特征项指定一定的权重后求出句 子的加权得分,并根据句子最终得分按降序排序;然后抽取满足用户要求的排在前面的句 子作为文摘句,并从配置文件中获取文摘生成的路径,在该指定路径下生成对应文档集文 摘。 当自动文摘生成后,便调用r o u g e 对该文摘进行评测,其评测步骤如下: ( 1 )从配置文件中获取评测工具r o u g e 的评测信息,即r o u g e 可执行文件的路径及评 测时生成的自动文摘文件应存放的路径,以及r o u g e 评测结果存放路径。 ( 2 )将程序生成的自动文摘复制到r o u g e 评测文件存放路径下。 ( 3 )运行r o u g e 对该自动文摘进行评测,并根据每种排列组合的特征及其比率生成对应 的评测结果文件,将该结果文件保存在对应目录下。 ( 4 )当r o u g e 评测结束后,读取该结果文件并统计评测结果。本模块针对每一种组合生 成一个评测统计文件,该文件用于统计该组合下所有的特征排列生成的文摘结果。即 从评测的结果文件中提取r o u g e 1a v e r a g ef ,r o u g e 2a v e r a g e , 1 2 f r o u g ew a v e r a g e的结果,并将结果写入对应的统计文件中。_f 当这组结果统计完成后一次自动文摘的生成,评测,结果统计便全部完成了。 3 6 本章小结 本章先介

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论