(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf_第1页
(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf_第2页
(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf_第3页
(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf_第4页
(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(管理科学与工程专业论文)基于滑窗取词的单文档自动摘要技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 在信息检索中应用自动摘要技术,可以减少用户查询所关心信息的时间,提 高获取知识和信息的效率。因此,研究能够适应各种文档形式和内容且无需训练 的自动摘要技术,有着极其重要的意义。 主题词抽取是自动文摘系统的关键技术之一。一个好的主题词集合可以较好 的反应出文档的中心思想,从而为抽取情报中的主题句打下好的基础。本文首先 提出了基于滑动窗口的主题词抽取算法,随后建立了基于主题词的无向图,进而 对节点重要度进行建模,并提出了主题词权重方差和主题词权重偏移量两个评价 指标,以此分析滑动窗口长度对主题词抽取的影响。 主题句抽取直接关系到自动文摘质量的高低,抽取出的主题句集合是自动文 摘系统输出结果的最终展现形式。在已抽取出的文档主题词基础之上,本文对基 于主题构建的无向图进行扩充,提出基于文档句构建的无向图,将主题句的抽取 问题转换为求解无向图中节点的权重问题。通过依次确定无向图的节点、边以及 边权重,最终求解其节点的权重。为了确定图的边权重,本文采用空间向量模型 对各文档句进行建模,并利用相似度来明确句子间的关系。最后,通过本文所提 出的基于句子相似度矩阵的权重模型对文档中各语句的权重进行建模,以得到自 动文摘系统的最终输出。 实验表明,本文提出的自动摘要技术,对于提高文本摘要的召回率和准确率 是有效的。 主题词:自动摘要滑动窗口主题词无向图相似度 第i 页 国防科学技术大学研究生院硕+ 学位论文 a b s t r a c t a u t o m a t i cs u m m a r i z a t i o ni ns e a r c h i n gi n f o r m a t i o nd e c r e a s e st h et i m eo fs e a r c h i n g r e q u i s i t ei n f o r m a t i o n , i n c r e a s e st h ee f f i c i e n c yo fk n o w l e d g e - r e q u i r e m e n t t h e r e f o r e , t h es t u d yo faa u t o m a t i cs u m m a r i z a t i o nt e c h n i q u e sw h i c hc a l lb ep r o p i t i o u st oa l lk i n d s o fd o c u m e n th a se x t r e m e l yi m p o r t a n ts i g n i f i c a n c e s u b j e c te x t r a c t i o ni so n eo ft h ek e yt e c h n o l o g i e si nt h es u m m a r i z a t i o ns y s t e m a g o o ds e to fk e y w o r d sc a nb eab e t t e rr e f l e c t st h ec e n t r a li d e ao ft h ed o c u m e n t , s oa st o e x t r a c ti n f o r m a t i o ni nt h et o p i cs e n t e n c et ol a yag o o df o u n d a t i o n t h i sp a p e rf i r s t p r o p o s e ds l i d i n gw i n d o w - b a s e dk e y w o r d s e x t r a c t i o na l g o r i t h m ,f o l l o w e db yt h e e s t a b l i s h m e n to fk e y w o r d sb a s e do nt h eu n d i r e c t e dg r a p h ,t h e na l li m p o r t a n td e g r e eo f n o d e st om o d e la n dm a d ew o r d st h ew e i g h tv a r i a n c ea n dw e i g h to fk e y w o r d so f f s e tt w o e v a l u a t i o ni n d i c a t o r s ,t oa n a l y z et h es l i d i n gw i n d o wl e n g t ho nt h ek e y w o r d se x t r a c t e d i m p a c t t h e m es e n t e n c ee x t r a c t i o ni sd i r e c t l yr e l a t e dt ot h eq u a l i t yl e v e lo fa u t o m a t i c s u m m a r i z a t i o n , t h ec o l l e c t i o no ft h e m es e n t e n c e si st h ef i n a lr e s u l to ft h ea u t o m a t i c s u m m a r i z a t i o ns y s t e m b a s e do nt h ee x t r a c t e dt h e m ew o r d s ,u n d i r e c t e dg r a p hb a s e do n t h e m ew o r d si se x t e n d e d ,a n dt h eu n d i r e c t e dg r a p hb a s e do nt h es e n t e n c ei sp r o p o s e d s e n t e n c ee x t r a c t i o np r o b l e mi st r a n s f o r m e dt o c o m p u t i n gu n d i r e c t e dg r a p hn o d e w e i g h t s n o d e s ,e d g e sa n do d g ew e i g h t si nt h eu n d i r e c t e dg r a p ha r ed e t e r m i n e di nt u r n , a n dt h en o d ew e i g h t sa r cc o m p u t e df i n a l l y i no r d e rt od e t e r m i n et h eg r a p he d g e w e i g h t s ,s e n t e n c e si nt h ed o c u m e n ta r em o d e l e db yt h ev e c t o rs p a c em o d e l ( v s m ) ,a n d t h er e l a t i o n s h i pb e t w e e ns e n t e n c e sa r ec l a r i f i e db yt h es i m i l a r i t y f i n a l l y , w e i g h t so f s e n t e n c e si nt h ed o c u m e n ta r em o d e l e db yt h ew e i g h tm o d e lb a s e do nt h es i m i l a r i t y m a t r i x ,a n dt h ef i n a lo u t p u ti so b t a i n e d e x p e r i m e n t ss h o wt h a tt h ep r o p o s e da u t o m a t i cs u m m a r i z a t i o nt e c h n i q u e si m p r o v e s t h ef e c a l lr a t ea n da c c u r a c ye f f e c t i v e l y k e yw o r d s :a u t o m a t i cs u m m a r i z a t i o n ,s l i d i n gw i n d o w ,t h e m ew o r d , u n d i r e c t e dg r a p h ,s i m i l a r i t y 第i i 页 国防科学技术大学研究生院硕士学位论文 表2 1 表4 1 表4 2 表4 3 表4 4 表4 5 表目录 不同窗口长度下抽取的主题词数量2 1 主题词权重列表4 0 文档句权重列表4 1 分类摘要评价结果4 2 本系统与传统摘要系统的对比4 3 不同压缩比下的摘要评价结果4 5 第m 页 国防科学技术大学研究生院硕士学位论文 图目录 图1 1自动摘要的一般处理过程4 图1 2 基于特征分析的自动摘要方法5 图1 3 本文研究过程图1 l 图2 1基于滑动窗口的名词对抽取1 4 图2 2s w e 算法的基本过程1 5 图2 3 有限次迭代后主题词权重的收敛情况1 8 图2 4 滑动窗口长度对主题词权重方差的影响1 9 图2 5 滑动窗口长度对主题词权重偏移量的影响2 0 图2 6 基于主题词的无向图2 2 图3 1向量空间模型中两向量间的联系2 7 图3 2 有限次迭代后无向图节点权重收敛情况3 0 图3 3由文档句映射成的无向图3 2 图3 4 带边权重的无向图:o oooooo o 0 0 3 3 图3 5 带边权重与点权重的无向图3 3 图4 1 系统模块结构3 5 图4 2 本系统生成的联系图4 l 图4 3 压缩比为0 0 5 时的摘要显示4 3 图4 4 压缩比为o 1 时的摘要显示4 4 图4 5 压缩比为o 1 5 时的摘要显示4 4 图4 6 压缩比为o 2 时的摘要显示4 4 图4 7 压缩比为0 2 5 时的摘要显示。4 4 图4 8 压缩比为0 3 时的摘要显示4 5 第页 独创性声明 本人声明所星交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成暮。尽我所知,除了文申特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教窍机构的学位或证书而使用过的材料。与我一同工 拿的同态对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名- 盔 牟 一 日期:扣。年多月,二日 学位论文版权使用授权书 本人究全了解国防科学技术大学有关保留,使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部f 】或机构送交论文的复印件和电子 文档,允许论文被查阅和借阗;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印缩印或扫描等复制手段保存汇编学位论文 ( 保密学位论文在船密后适用本授权书。) 学位论文题目: 基至遗蜜塑堡煎整塞罄蜜叠楚鬟燕壅竖塞 学位论文作者签名: 作者指导教师签名: 日期:,尊年弓月,2 日 ) 日期:口,、) 年岁月l 日 国防科学技术大学研究生院硕士学位论文 第一章绪论 随着信息技术和互联网的高速发展,丰富的电子文档资源方便了人们对知识 和信息的获取,但海量的信息常常会使人们陷入难以遍历的尴尬境地,如何方便 地理解和处理这些庞杂的文档资源是值得研究的问题。自动摘要是处理电子文档 的有效手段之一,利用自动摘要可以为理解和处理电子文档提供方便。通过自动 摘要技术为用户提供可以代替原文的文档材料,这样可以极大地提高用户获取信 息的效率。用户通过浏览摘要或者在摘要上进行检索就可以定位自己所需要的文 档和信息。由于用户群体和用户需求的多样化,导致包含用户所需要信息的原始 文档形式和内容的多样化,而且尽管原始文档形式和内容上也可能多种多样,但 是用户常常以名词的方式给出自己所关心的信息,而所给出的名词往往是没有规 律,甚至会是新的没有出现过的词,这些给大量信息的管理和用户的使用都带来 了一定的困难。研究能够适应各种文档形式和内容且无需训练的自动摘要技术, 既有重要的学术价值,又具有广阔的实际应用前景。 1 1 自动摘要概述 1 1 1 自动摘要的研究意义及其发展历史 随着信息技术的发展,各行各业信息化程度的提高,每天所产生的信息资源 的数量变得十分巨大,人们所能获得信息的越来越多,在这样大量的信息面前, 人们一方面能够获得信息,另一方面难于从大量的信息中得到自己需要的信息, 为此人们不得不花费许多的精力和时间。因此,如何快速地获得自己所需要的信 息成为一个亟待解决的问题。 信息检索技术可以帮助用户快速地查找和定位用户所请求的相关信息。利用 信息检索可以定位与用户请求相关的信息,如互联网上的搜索引擎,但是仍然存 在检索结果过多,浏览时间长的问题。摘要作为一种信息处理的有效手段,可以 为人们迅速准确地获得所需要的信息提供方便。在国际标准i s 0 21 4 - 1 9 7 6 ( e ) 中,对摘要的定义是:“一份文献内容的缩短的精确的表达而无须补充解释或评 论。 由此可见摘要可以从两个方面为人们获取信息提供方便:首先,摘要可以 简洁明确的表达文档中包含的主要信息,这样就可以方便地供人们浏览,节约浏 览文档的时间;其次,由于摘要体现了文档的主要信息,摒除了非重要的信息, 在摘要上进行检索可以有效提高搜索的查准率,从而帮助人们迅速准确地找到需 要的信息。摘要作为承载了原始文档中重要信息并可以帮助人们迅速准确地了解 原文内容的文档处理产物,越来越受到人们的重视。随着信息的大量产生,人们 第l 页 国防科学技术大学研究生院硕士学位论文 每天所面对的电子文档越来越多,需要处理的信息变得十分庞大,传统的人工摘 要由于效率偏低已经难以适应大量信息处理的需要,因而推动了自动摘要技术的 研究。自动摘要是计算机语言学和情报学共同关注的课题,其本质是信息的抽象 和减缩。它被认为是计算机实现自然语言理解的重要标志之一【l 】。 自动摘要就是要以计算机为工具,自动从原始文档中获取重要信息,实现编 制摘要的自动化。由此可见,自动摘要的目的是尽可能地提高编制摘要的效率, 同时降低编制摘要时编制人的知识差异所带来的影响。自动摘要对满足人们快速 获取信息的需求有重要作用,因此对它的研究有重大的应用价值。 国外对自动摘要的研究起步较早,1 9 5 8 年i b m 公司的l u h n 开始研究自动 摘要技术,在五十多年的发展中,大致经历了三个阶段: ( 1 ) 5 0 年代末到6 0 年代末,以基于文本浅层特征的统计分析方法为主要 研究手段。 ( 2 ) 7 0 年代初到8 0 年代末,主要是利用人工智能和自然语言理解的研究 成果来研究自动摘要技术。 ( 3 ) 9 0 年代至今,引入篇章结构的分析方法,综合利用统计学、人工智能、 自然语言理解和认知心理学等学科的研究成果来研究自动摘要。 国外的研究都是对英文文档自动摘要的研究,由于中文自身的特点所带来的 中文信息处理的困难,国外对自动摘要技术的研究难以直接用于中文自动摘要。 国内对中文自动摘要的研究起步较晚,难以满足人们获取中文信息的实际需求, 迫切需要进一步研究。 本文的研究将在研究现有自动摘要技术的基础上,针对现有的自动摘要技术 存在的包含主题不全面、摘要内容冗余和不连贯的问题,提出一种基于滑动窗口 的主题词提取算法和一个句子权重计算模型,实现对文档的自动摘要。 1 1 2 自动摘要的定义及其分类 摘要在中文中也称文摘、概要、提要、简介等,在英文中则有s u m m a r y 、b r i e f , 等。对于摘要,很难给出统一准确的定义,下面给出几种标准中对摘要的定义。 国家标准文摘编写规则( g b 6 4 4 7 8 6 ) 中,文摘被定义为:“以提供文 献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短 文。 1 2 】 美国国家标准学会文摘编写标准中给出文摘的一个定义:“某一文献内 的简要而准确的表述,不加解释和评论,也不区分这篇文摘是由谁写的。 国际标准文献工作一出版物的文摘和文献工作( i s 0 2 1 4 1 9 7 6 ( e ) ) 中 的文摘指的是:“一份文献内容的缩短的精确的表达而无须补充解释或评论,且 对写文摘的人来说没有差别。 第2 页 国防科学技术大学研究生院硕士学位论文 从上述的论述可以看出摘要的特点如下【3 】: ( 1 ) 压缩性:摘要相对于原文有较大的压缩,且压缩后的文摘能基本上反 映文献的主要内容。其中压缩率= 文摘长度原文长度。 ( 2 ) 信息覆盖性:文摘在内容上应该忠于原文,能够正确无误地反映源文 本的主要内容。同时还应满足用户对某特定内容的兴趣。 ( 3 ) 可读性:文摘在语法和语篇的层次都应该满足良好的可读性要求,即 文摘在内容、语句上的连贯性和流畅性。 综上所述,可以认为摘要就是能够表达原始文档的中心内容的简短连贯的文 章或者是从原始文档中得到能够表达该文档的中心内容的简短连贯的文章的过 程。 自动摘要是由i b m 公司的l u h n 首次提出的,它研究如何利用计算机自动地 从自然语言电子文本中提取文章的核心内容或用户感兴趣的内容,并用同于或不 同于原文的形式输出。根据1 9 9 5 年国家8 6 3 自动文摘测试大纲的要求,自动文 摘系统应能将原文的主题思想或中心内容自动提取出来【4 】。 自动摘要是自动从一篇或多篇文章中提取满足用户或应用需求的内容,加以 组织后生成一篇内容完整、形式严谨的自动文摘【5 】。自动摘要是计算机语言学和 情报学共同关注的课题,其本质是以计算机为工具,来抽象和减缩信息,从而达 到帮助人们快速准确地获取信息的目的。自动摘要技术需要考虑摘要的准确率、 摘要的盖全率、摘要的可读性、信息的压缩比等因素,这些因素直接影响自动摘 要结果的好坏【6 】。 从不同的角度,对自动摘要有不同的分类。依据用于产生摘要的原始文档的 数目,自动摘要可以分为单文档摘要和多文档摘要。依据通过自动摘要技术得到 的摘要是否来自于原始文档,自动摘要可以分为抽取和摘要,其中抽取得到的摘 要都是原始文档拷贝出来的语句,而摘要得到的摘要是由自然语言处理后所生成 的语句组成。依据用户是否影响生成摘要,自动摘要分为一般性摘要和偏重性摘 要,其中偏重性摘要是可以根据特定用户的偏好或者兴趣产生的摘要,而一般性 摘要是不针对特定用户需求得到的摘要。依据是否需要训练样本,自动摘要可以 分为有指导的摘要和无指导的摘要。 1 1 3 自动摘要的一般处理过程 在自动摘要发展的历史上,研究人员提出了各种各样的自动摘要方法。自动 摘要的一般处理过程包括文本分析、文本转换和生成摘要三个部分川。图1 1 给 出自动摘要的一般处理过程。 第3 页 国防科学技术大学研究生院硕士学位论文 图1 1自动摘要的一股处理过程 文本分析就是从原始文档中寻找出最能表示原文内容的词句,其最终目的是 使得寻找出的这些词句完全覆盖原文的主要内容。 目前,针对文本分析有两大类方法:基于自然语言理解的方法和基于统计学 的方法。基于自然语言理解的方法以人工智能和自然语言理解技术为基础,利用 句法分析技术、领域知识和语言知识对文本进行深层分析,找出最能表示原文内 容的词句【引。这种方法受到现有人工智能和自然语言理解技术发展的限制,同时 需要领域知识和语言知识的支持。基于统计学的方法可以独立于领域知识和语言 知识,因而不受原始文档的知识领域和语言风格等方面的限制。基于统计学的方 法通过识别原始文档中的词句的重要主题特征来找出包含这些特征项的语句,从 而找出最能表示原文内容的词句。 文本转换是利用摘录或概括的方法压缩文本,将原文中代表主旨的语句提取 出来并转化成为摘要的语句,目前语句提取还仅限于从原始文档中的抽取。 生成摘要是对文本转换得到的语句组合和排序,使其成为一篇内容完整的精 简的语句通顺的文章。 1 2自动摘要的研究现状 1 9 5 8 年m m 公司的l u h n 利用自动摘要技术进行实验,开创了自动摘要技 术研究的先河。1 9 9 3 年1 2 月在德国w a d e m 召开了历史上第一次以自动文摘技 术为主题的国际会议。1 9 9 5 年,国际期刊i n f o r m a t i o np r o c e s s i n g & m a n a g e m e n t 出版了一期题为s u m m a r i z i n g t e x t 的专刊,这一期专刊的出版标志着自动文摘的 时代已经到来。在自动文摘技术的发展过程中,世界上许多国家的学者利用计算 机语言学、人工智能、情报科学、统计学和认知心理学等多个学科的成果来研究 自动文摘技术,取得丰富的研究成果。根据自动摘要在处理过程中所采用的不同 方法,自动摘要方法可以分成四种:基于特征分析的方法、基于计算机语言学的 方法、基于篇章结构的方法和信息抽取。 1 2 1 基于特征分析的方法 2 0 世纪5 0 - - 6 0 年代是自动摘要研究的开始,这个时期的研究重点在于文档 中旬子的字词以及它们的形式特征的分析和统计。基于特征分析的方法将文本视 为句子的线性序列,将句子视为词的线性序列。基于特征分析的自动摘要通常分 第4 页 国防科学技术大学研究生院硕士学位论文 一一气i 在上述步骤中,特征分析统计所考虑的文本特征有针对计算词的权重的特征 为:墨= ,该向量中每一维表示该词的权值,例如:向量 彬= 表示词i 在描述原始文档 s c o r e ( v k ) = 五。s c o r e , ( e ) + 吒。跏( 形) + x 3 s c o r e 3 ( e ) + + s c o r e 。( w i ) ,其 中五,屯,毛,毛是一组调节系数,而每个句子墨的权重陀( 墨) = s c o r e ( w ,) 。 第5 页 国防科学技术大学研究生院硕士学位论文 摘要系统a c s im a t i e 。1 9 6 1 年美国p e b a c e n d a l e 将词分成三类:褒义词、贬 义词、无效词,然后进行加权,并且通过调查指出段首句的重要性,8 5 的段首 句表达段落的论题,这一理论给自动摘录在句子的权值确定是提供了很大的理论 依据。1 9 6 2 年美国d o y l e 提出要重视共现频度最高的“词对”。7 0 年代初,俄 亥俄州大学的j a m e sa r u s h 提出删句而不是选句子来产生摘要,强调重视摘要 的连贯性,r u s h 开发了a d a m 系统。1 9 9 5 年美国g e 研究与开发中心的l i s a f r a u 完成了a n e s 系统,该系统采用的是词频分析( 相对词频) 的方法,主要 面向新闻领域。1 9 9 8 年b r i t i s ht e l e c o m 开发的摘要系统p r o s u m 采用基于统计方 法、句子长度、句子位置等信息选取摘要。 上海交通大学的王永成教授较早地研究中文文献自动文摘系鲥9 1 ,并于1 9 8 8 年开发了“汉语文献自动编制文摘试验系统”( s j t u c a a ) ,随后又开发出了 “中文文献自动摘要系统c a s e s 和“o a 中文文献自动摘要系统 。该系统采 用了仿人算法,集成了位置法、指示短语法、标题法、关键词法等多种方法,是 一个实用的系统。 复旦大学吴立德教授研制的自动文摘系统【l o 】对输入文本进行项( 文本为词 和概念) 的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形 成句子的综合权重,生成摘要。后来,他们又提出了一个基于向量模型的文本自 动摘要方法【1 1 1 ,该方法的核心是:首先计算所有句子间的相似度和权重,再根 据句子的权重选择要抽取的句子;在一个句子被抽取成为摘要句之后,根据句子 间的相似度调整剩下的句子的权重。使得那些与已经抽取出的句子相似度很高的 句子所对应向量长度变得较小;然后在调整过的句子中继续上述过程直到抽取出 来的句子达到相应的长度。 山西大学郭炳炎教授采用基于统计的方法分析文本结构【1 2 1 ,然后依据结构 信息辅助词分析方法来抽取摘要。清华大学罗振声教授等人【1 3 】对自动文摘中主 题划分问题进行了研究,使得多主题文章的文摘更具内容全面性和结构平衡性。 基于特征分析的自动摘要方法是一种基于统计分析的方法,它的明显优势是 方法很简单,因此实现起来简单。基于特征分析的自动摘要方法不受研究对象的 领域限制,克服了基于计算机语言学的方法受领域限制的问题,同时,它也不受 体裁和语言风格的限制,克服了基于篇章结构的自动摘要方法的局限性。基于特 征分析的自动摘要方法,并没有对文档进行深度的分析,这会导致摘要可能覆盖 不全面、摘要冗余和摘要不连贯。对于多个论题的文档,用基于特征分析的自动 摘要方法生成的摘要有时只覆盖了原文的某个论题,从而影响了摘要的全面性。 如果原始文档中不同位置都出现了表达文章中心的不同形式的语句,用基于特征 分析的自动摘要方法生成摘要将造成摘要冗余。 1 2 2 基于计算机语言学的方法 第6 页 国防科学技术大学研究生院硕士学位论文 2 0 世纪7 0 - - 8 0 年代初期,计算语言学的研究成果开始应用于文档自动摘要。 基于计算机语言学的自动摘要方法是以人工智能,特别是自然语言理解技术为基 础而发展起来的方法。这种方法与基于特征分析的方法的明显区别在于对知识的 利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断 和推理,得到原始文档的意义表示,最后从意义表示中生成摘要。这类方法就是 先识别出文档中的代表时间、地点、人物和事件等焦点信息的字词,依据知识表 示模型来推演出原始文档的主要内容,组织生成一篇连贯的摘要。 基于计算机语言学的自动摘要,首先,对原始文档中的句子进行语法分析, 获得原始文档的语法结构;其次,运用知识库中的语义知识将语法结构转换成以 逻辑和意义为基础的语义表示;再次,利用预先的领域知识在原文中进行推理, 提取出原始文档的主要内容;最后,将提取出的主要内容转换为一段完整连贯的 文字,生成摘要【1 4 】。 基于计算机语言学的自动摘要方法的研究重点在于如何构建知识表示的模 型和如何利用领域知识进行推理。在知识表示的选择上,对于不同的领域、不同 类型的文章,在做自动摘要时采用不同的知识表示模型来表示文档。由于受到领 域知识的限制,基于计算机语言学的自动摘要技术只能适用于某一个领域的文 档,但在领域内摘要的质量明显优于传统文摘【l 弱。 1 9 7 8 年,j i r ij a n o s 提出了依据功能句子观理论进行文本压缩的方法。该方 法是通过对句子语用功能的分类将文本的主干和枝叶区别开来,文本的主干以不 同的主题推进方式相互衔接,是需要重点分析的内容,而枝叶则可以排除在摘要 # l , t 6 i l t i i l s - ,- o 1 9 7 9 年,d e j o n g 研制了f r u m p 系统,该系统用于快速阅览英文新闻资料。 r f u m p 由预言器和验证器两部分组成,预言器利用梗概剧本预测当前情形下可 能出现的一个或一组事件,验证器的任务是去证实这些被预测的事件,并给出实 际信息。该系统能够按6 0 种不同领域快速浏览和概述英文新闻资料,但应用范 围受到内部脚本的限制,如果文章中没有该系统所期望的内容,则无法生成有意 义的文摘。 美国耶鲁大学的s c h a n k 研制的s m a 系统可以利用脚本分析简单故事,在 此基础上对故事进行总结得出摘要。 8 0 年代初,意大利u d i n e 大学的f u m 等人【l9 】研制出了s u s y 系统,该系统 采用一阶谓词的知识表示方法,通过规则推理和演算来生成摘要。 j i t a i t 的s c r a b b l e 系统对f r u m p 系统进行了改进,要求输入资料在处理前 要先转换成概念依存结构( c d ) 。但由于c d 十分复杂,这使的该系统很难实 用。 德国康斯坦茨大学的k u h l e n 等人【2 0 】研制的t o p i c 系统以框架作为知识表示 的基础,通过对全文的语法语义分析生成不同长度的摘要。 第7 页 国防科学技术大学研究生院硕士学位论文 8 0 年代末,r a u 等人【2 l 】针对“公司合并”的新闻报道研制了s c i s o r 系统。 该系统采用自底向上的分析器识别句子的结构,生成类似于框架的概念表示;运 用自顶向下的分析器提取句子结构中的重要内容,生成文摘。 8 0 年代末,东北大学姚天顺教授和香港城市理工大学联合开展了“中文全 文自动摘要系统的研究,该系统采用脚本知识表示,通过与用户交互获取文摘。 1 9 9 0 年前后,中科院软件所的李小滨、徐越,在北京大学马希文教授的指导下, 对英文自动文摘进行了研究,并研制了一套实验系统一e a a s 。该系统是一个 标准的理解文摘系统,它局限于“就业机会介绍 这样一个领域。系统首先通过 与用户交互获得信息焦点集,然后对文章进行语法语义分析,接着按照信息焦点 集从框架中搜索推理出有关信息,最后生成具有一定逻辑性的文摘。 哈尔滨工业大学的王开铸教授等人于1 9 9 2 年研制了基于理解的自动文摘实 验系统m a t a s t 2 2 1 ,9 4 年研制出自动摘录性的非受限领域的自动文摘系统h i t _ 一 8 6 3 1 2 3 1 。1 9 9 6 年哈尔滨工业大学的刘挺提出了基于信息抽取和文本生成的自动文 摘方案。哈尔滨工业大学王开铸教授等人1 9 9 8 年完成了基于篇章多级依存结构 的h i t 8 6 3i i 型自动文摘系统【2 4 】【2 5 】。 北京邮电大学研制的非受限领域复合式自动摘要系统【2 6 1 ,该系统根据词频 统计、自由词标引的结果计算句子的重要性,然后运用依存关系树和语义框架法 进行文摘候选句子的加工。 杭州大学姜贤塔教授等人基于语料库的方法【2 7 1 ,利用“后邻字符树 的方 法在领域语料库中生成字符树库,用于自动文摘候选句子选取时提高精度。王萌 等人提出的基于概念向量空间模型的中文自动文摘系统f 2 3 】,它是一种基于 h o w n e t 提取出词语的词义,用词语的词义代替传统的词形频率统计方法,建立 主题语义概念向量空间模型,通过对抽取出的语句进行句子相似度的计算提高文 摘精确度,设计实现的一个中文文摘系统。 基于计算机语言学的自动摘要方法利用领域知识进行判断和推理,得到原始 文档的中心内容,最终得到摘要,因此基于计算机语言学的自动摘要方法得到的 摘要的意义较为全面准确,语句通顺。但是这种方法存在两点局限:一是语义分 析技术不成熟,因此必须将研究对象限制在某一个特定领域中,才能得到较好的 语义分析结果;二是知识表示形式受到领域的限制,难以用同一种知识表示形式 在所有领域进行自动摘要。由于以上原因,基于计算机语言学的自动摘要方法极 大的受研究对象所在领域的限制。 1 2 3 基于篇章结构的方法 篇章是一个有机的结构体,篇章中的不同成分承担着不同的功能,各部分之 间存在着一定的关系。分析篇章结构可以帮助找到文章的重要部分。篇章结构是 体现文章中旬子以上的各个意义单元之间关系的段章结构,基于篇章结构的方法 第8 页 国防科学技术大学研究生院硕士学位论文 就是分析篇章的结构特征,得出文章的摘要。目前基于篇章结构的研究方向主要 有:修辞结构分析、语用分析、词汇链、关联图和潜在语义分析。 修辞结构理论是由m a n n 和t h o m p s o n 提出来的,它的核心思想是修辞关系, 修辞关系是连接两个互不重叠的n u c l e u s 集和s a t e l l i t e 集的一种关系。n u c l e u s 集表现的是作者的写作意图,s a t e l l i t e 集是用来辅助读者理解和证明n u c l e u s 集 的【2 9 】【3 0 】。因为利用修辞结构理论可以方便的形式化定义句子之间的关系,所以 修辞结构分析就把修辞结构理论引入自动摘要,开始针对原始文档来确定其中句 子间的修辞关系。文酬3 1 】定义了3 4 种修辞关系,由句子的连接词或者谓词来找 出句子间的修辞关系,并建立修辞关系分析树,然后根据修辞关系得重要度可以 从修辞关系分析树中提取原始文档的主要内容。 语用分析方法,根据语用功能可以将文档的主体部分识别出来从而构成摘 要。m a e c l a 将句子的信息功能分为:背景、主题、方法、结果、例子、应用、比 较和讨论,并认为主题、方法、结果和讨论是文档的主干,应进入摘要。l i d d y 通过对人工摘要的大量调查归纳出经验摘要的基本结构:背景、目的、方法、结 果、结论和附录,其中每一项内容中包括了一些规则,通过这些规则将文档中承 担这些功能的片段识别出来,从而组成摘要。 词汇链方法就是首先利用h o w n e t 3 2 】来判断文档中的每个名词词汇所代表 的意义,然后将具有相同词义的词串起来,得到词汇链;再找出词汇链中的强链, 将选出的强链依据分数高低排序;从每个强链中选取一个典型词来表达词汇链的 主题,选取包含典型词的语句作为摘要,从而形成摘要【3 3 1 。 关联图是这样一个网络,它将一个语言单元的各个子单元视为节点,并在两 个有语义联系的子单元代表的节点之间加一条边,从而形成的一个关联网络。根 据节点相连接的边的数量来得到节点对应的子单元的重要性,将最重要的一部分 子单元抽取出来构成摘要【蚓。 基于篇章结构的自动摘要方法从所研究的原始文档的整体结构出发,得出的 摘要比基于特征分析的自动摘要方法得到的摘要质量要高。基于篇章结构的自动 摘要方法克服了基于计算机语言学的方法受领域限制的问题。但是这种方法要求 原始文档的文章结构清晰,特别是要求计算机能够识别篇章结构使得文档的体裁 和语言风格受到限制,对所研究的文档对象要求较高。 1 2 4 信息抽取 信息抽取的自动摘要方法是根据文摘框架,从原文中获取框架空槽所需要的 各项内容。信息抽取通常分选择和生成两个阶段。在选择阶段,利用特征词从文 本中抽取相关的短语或句子填充文摘框架。在生成阶段,利用文摘模板将文摘框 架中的内容转换为摘要输出。文摘模板是带有空白部分的现成的套话,其空白部 分与文摘框架中的空槽相对应。p a i c e 等人在1 9 9 3 年提出的选择与生成文摘法, 第9 页 国防科学技术大学研究生院硕士学位论文 实质上就是信息抽取方法。北京邮电大学钟义信教授采用的文摘方法类似于 p a i e c 的选择与生成文摘法,目前主要针对计算机病毒方面的文章。 基于特征分析的自动摘要方法的优点是方法简单,实现起来简单而且不受研 究对象的领域限制,克服了基于计算机语言学的方法受领域限制的问题,同时, 它也不受体裁和语言风格的限制,克服了基于篇章结构的自动摘要方法的局限 性。但是基于特征分析的摘要方法并没有对文档进行深度的分析,这会导致摘要 可能覆盖不全面、摘要冗余和摘要不连贯。基于计算机语言学的自动摘要方法得 到的摘要的意义较为全面准确,语句通顺。缺点是受研究对象所在领域的限制, 由于语义分析技术的不成熟,必须将研究对象限制在某一个特定领域中,才能得 到较好的语义分析结果,并且难以用同一种知识表示形式在所有领域进行自动摘 要。基于篇章结构的自动摘要方法得出的摘要比基于特征分析的自动摘要方法得 到的摘要质量要高,克服了基于计算机语言学的方法受领域限制的问题。但是这 种方法要求原始文档的文章结构清晰,特别是要计算机能够识别篇章结构使得文 档的体裁和语言风格受到限制,对所研究的文档对象要求较高。基于信息抽取的 自动摘要方法的优点是生成的摘要格式规范、内容完整、语句通顺,但受已有的 模板和领域知识库限制比较多,对于未知的领域文档无法有效的生成摘要。 1 3 本文的研究内容 自动摘要技术的目的是为用户提供可以代替原文的文档材料,这样可以极大 地减少用户检索时间,提高获取信息的效率。用户可以通过浏览摘要或者在摘要 上进行检索就可以定位自己所需要的文档和信息。但在网络信息的检索中由于用 户和用户需求的多样化,导致包含用户所需要信息的原始文档形式和内容的多样 化,针对包含用户所需要信息的文档可能来自不同领域,有不同体裁,根据i 2 节的分析知道,领域受限的基于语言学的方法、要求文章结构清晰的基于篇章结 构的方法以及受现有知识库约束的基于信息抽取的方法都无法满足这种要求,基 于特征分析的自动摘要方法虽然不受原始文档的内容、形式以及领域的限制,但 依然存在问题。因为对于用户检索信息的原始文档来说,虽然形式和内容上可能 多种多样,不过用户常常以名词的方式给出自己所关心的信息,而所给出的名词 往往是没有规律,不重复出现的,而且对于某一篇文章来说,名词之间其实是有 着密切的联系的,传统的基于特征分析的摘要方法仅仅依据词语出现的频率来确 定主题词,没有考虑它们之间的联系,缺少对文章内容的深层分析,难以实现比 较高的覆盖率和准确率。针对网络信息检索的特点,本文的内容是研究一种不受 体裁限制、不受领域约束的,并且能够实现较高覆盖率和准确率的自动摘要方法。 本文的研究思路如图1 3 所示,首先分析现有的基于特征分析的方法,针对其不 足,从考虑词语之间的联系入手,加入对文章内容的深层分析,提出新的主题词 第1 0 页 国防科学技术大学研究生院硕士学位论文 抽取算法,得到文章的主题词;构建主题词的权重模型,得到各主题词的重要程 度的量化指标;为了能够抽取句子生成摘要,就要对文章的句子的重要程度进行 量化评价,在前面得到主题词权重的基础上,把文章的每个句子跟主题词的权重 对应起来;分析现有些句子重要度计算方法,在所提的新的主题词的抽取方法基 础上,构建合理的句子权重模型,得到文章中各个句子的量化的重要程度指标, 按照预先设定的压缩比抽取一定数量的句子排序生成摘要。 匿囊耕蕊野蔼斗僵雪罐豳橱 j 于特征分析的摘要卜叫不足提f l :新的主卜一的权重模型得卜一主题词的权重值l 一0 主:差7 := l 一缩比抽取幻子 j 方法,分析其不足ji 题i 司抽取算法ii 到主题词权重l进行表示j := 二二工主茎ll 捧序生成摘要l 图i 3 本文研究过程图 按照图1 3 的研究思路,本文的主要工作有: ( 1 ) 深入了解和研究当前国内外自动摘要领域的相关理论和方法,深刻地 认识到自动摘要系统所包含的重要理论意义及其实用意义。 ( 2 ) 针对基于特征分析的自动摘要方法进行深入研究。在基于词频统计的 主题词抽取算法中,没有考虑词与词之间的相互联系;而在基于理解的主题词抽 取算法中,对新出现的知识不敏感。基于这种考虑,本文设计了一种基于滑动窗 口的主题词抽取算法,建立了主题词权重模型。并提出了主题词权重方差和主题 词权重偏移量两个评价指标,以得出滑动窗口的长度对主题词权重的影响。 ( 3 ) 在基于滑动窗口的主题词抽取算法基础上,提出基于文档句构建的无 向图,将主题句的抽取问题转换为求解无向图中节点的权重问题。通过依次确定 无向图的节点、边以及边权重,并用空间向量模型对各文档句进行建模,利用相 似度来确定句子间的关系。最后,在相似度矩阵的基础上,建立文档句的权重模 型,对文档中各语句的权重进行建模,以得到自动文摘系统的最终输出。 1 4 文章组织结构 本文共分五章。 第一章为绪论,概述自动文摘的定义及评价指标,并概括了自动摘要的国内 外研究现状。 第二章提出了基于滑动窗口的主题词抽取算法,并基于无向图对主题词权重 进行建模,同时分析了滑动窗口长度对主题词抽取的影响。 第三章首先分析了基于文档句的无向图初始化过程,然后通过相似度矩阵计 算无向图的节点权重,以得到系统的最终输出。 第四章将本文提出的自动摘要方法与传统的基于词频统计的方法进行了比 较,通过实验证明本文所提方法的有效性。 第五章对本文进行总结并展望未来工作。 第1 1 页 国防科学技术大学研究生院硕士学位论文 第二章主题词抽取技术研究 基于特征分析的自动摘要方法的关键点在于对文档的特征的提取,首先要做 的就是主题词提取,主题词抽取是自动文摘系统的关键技术之一,好的主题词集 合可以较好的反应出文章的中心思想,从而为抽取文档资料中的主题句打下好的 基础。本章主要通过滑动窗口( s l i d i n gw i n d o w ) 进行主题词的抽取,随后通过 无向图对主题词的权重进行建模,计算主题词的权重。 2 1 相关工作 现有的主题词抽取算法主要可以分为基于特征统计的主题词抽取和基于理 解的主题词抽取。基于特征统计的抽取方法就是对文中的词的频率等特征进行统 计,得到词的权重,然后抽取文章的主题词。基于理解的主题词抽取方法主要是 利用计算机语言学的方法对文章进行语法和语用分析,然后运用预先完善的领域 知识库进行知识表示,得到包含文章内容的主题词。后者由于受领域限制,需要 事先构建一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论