(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf_第1页
(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf_第2页
(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf_第3页
(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf_第4页
(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(模式识别与智能系统专业论文)中文自动摘要系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

abs tract abs t r act a lo n g w it h t h e d e v e lo p m e n t o f in f o r m a t i o n t e c h n o l o g y , e s p e c ia l ly t h e p o p u la r iz a t i o n o f i n t e r n e t a n d la r g e s c a l e s t o r a g e m e d i u m , t h e b o u n d l e s s o c e a n o f t h e in f o r m a t i o n h a v e b e e n f o r m e d .t h e t r a d it i o n a l p r o c e s s in g a n d m a n a g e m e n t t e c h n iq u e s o n t e x t d a t a c a n n o t s a t is f y t h e v a r io u s d e m a n d s o f u s e r s a n y l o n g e r .l n d e m a n d o f a n e f f i c i e n t a p p r o a c h f o r s e a r c h i n g t h e u s e f u l in f o r m a t i o n , re s e a r c h a n d a p p l i c a t io n o f a u t o m a t ic s u m m a r iz a t i o n h a v e re v i v e d t h e s e y e a r s .s u c h p r o b le m c a n b e r e d u c e d b y t e x t s u m m a r iz a t io n t e c h n o l o g y , b u t it i s a t i m e - c o n s u m in g ta s k f o r h u m a n p r o f e s s i o n a l t o c o n d u c t t h e s u m m a r i z a t i o n p r o c e s s in g .d u e t o t h e l a r g e v o l u m e o f i n f o r m a t i o n a v a i l a b l e o n l i n e i n r e a l t i m e , t h e re s e a r c h o f a u t o m a t i c s u m m a r iz a t io n b e c o m e s v e ry c r it ic a l . i n g e n e r a l , a u t o m a t ic s u m m a r iz a t io n i s d e f i n e d a s t h e p r o c e s s t h a t t h e a b s tr a c t o f a d o c u m e n t i s g e n e r a t e d a u t o m a t i c a l ly b y u t i l iz in g c o m p u t e r , a l s o it i s v ie w e d a s o n e o f n l u ( n a t u r a l l a n g u a g e u n d e r s ta n d in g ) s i m p o rt a n t a p p l i c a t i o n s . m o s t o f t h e p re v io u s a u t o m a t ic a b s t r a c t m e t h o d s a r e b a s e d o n w o r d c o u n t in g , w h ic h m i s s e s d e e p s e m a n t ic a n a l y s is o f t e x ts , s o t h e g e n e r a t e d a b s tr a c t i s u n s a t i s f y i n g a n d t h e s e m e t h o d s d o n o t t a k e t h e d o c u m e n t s t h e m a t i c s t r u c t u r e i n t o a c c o u n t , t h e g e n e r a t e d s u m m a r ie s u s i n g t h e s e m e t h o d s w i l l c o v e r o n l y t h o s e m a i n t h e m e s w h i le n e g le c t i n g t h e o t h e r s . i n o r d e r t o o v e r c o m in g t h e d i s a d v a n ta g e ,t h i s p a p e r w i l l p u t f o r w a r d a n e w a u t o m a t i c a b s t r a c t m e t h o d b a s e d o n h o w n e t a n d a d a p t i v e c l u s t e r i n g a l g o r it h m .t h e ma i n wo r k s a r e i n tr o d u c e d a s f o l l o ws : l . t h i s p a p e r w i l l p r o p o s e a m e t h o d t h a t o b t a i n i n g w o r d s c o n c e p t 勿u s i n g h o w n e t ; 2 . t h e e s ta b l i s h m e n t o f t h e c o n c e p t u a l v e c t o r s p a c e m o d e l b y r e p la c in g w o r d fr e q u e n c y w i t h w o r d s c o n c e p t a s f e a t u re . 3 . d i s c o v e ry o f la t e n t t h e m e s b a s e d o n a d a p t i v e c l u s t e r i n g a l g o r it h m . i n o r d e r t o e v a l u a t e t h e s y s t e m o f a u t o m a t i c s u m m a r i z a t i o n b a s e d o n h o w n e t ab s tr act a n d a d a p t i v e c l u s t e r i n g a l g o r it h m , t h i s p a p e r w i l l u s e t w o d iff e r e n t m e t h o d s :e x t r i n s ic e v a l u a t io n , t h e p re c i s io n o f t o p i c p a r t i t io n .c o m p a r i n g w i t h t h e t r a d it io n a l s u m m a r i z a t i o n s y s t e m b a s e d o n w o r d f re q u e n c y t h e e v a l u a t i o n re s u l t p r o v e d t h a t t h e m e t h o d t h a t t h i s p a p e r p ro p o s e d i s m o re e f f i c i e n t . k e y w o r d s : a u t o m a t ic s u m m a r iz a t io n ; c o n c e p t u a l v e c t o r s p a c e m o d e l ; h o w n e t ; t o p i c p a rt i t i o n ; c l u s t e r in g . m 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、 保存、 使用学位论文的规定, 同 意如下各项内 容: 按照学校要求提交学位论文的印 刷本和电 子版 本; 学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供 目 录检索以及提 供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国 家有关部门或者机构送交论文的复印件和电子版;在不以赢利为 目 的的 前提下, 学校可以适当复制论文的部分或全部内 容用于学术活 动 。 学位论文作者签名: 年月日 经指导教师同意,本学位论文属于保密, 在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间: 年月日 各密级的最长保密年限及书写格式规定如下: 内部5 年 秘密衡犯年 机密女念 心 年 最长石 年,可少于5 年) ( 最 长1 0 年 , 可少 于1 0 年) ( 最长2 0 年,可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行 研究工作 所取得的成果。除文中已 经注明引用的内 容外, 本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 发 表的 作品的内容。 对本 论文所涉及的 研究工作做出 贡献的 其他个 人和集体,均已在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担. 学位论文作者签名: 年月日 绪论 第一章 绪论 第一节 课压背景 随着i n t e rn e t 技术的日 益成熟, 尤其是ww w的 全球化普及, 越来越多信息被 加载到网络上以供交流。据估计,we b 已经发展成为拥有3 亿页面的分布式信息 空间, 而且这个数字仍以 每4 至 6 个月 翻一 倍的 速度增加 d 1 , 平均每天w e b 上就要 增加一百万个新的页面。 另外, we b 资源的更新频率也令人膛目 结舌, 平均每个 月就有几百g 的信息被更新。在we b 信息资源迅猛发展的同时,我们也不能忽视 “ 信息爆炸”的问题,即信息极大丰富而知识相对匾乏。 文摘是准确全面地反映某一文献中心内容的简洁连贯的短文.是文献数量 聚集到一定程度后的产物。自 动摘要( a u t o m a t i c s u m m a r iz a t io n ) 就是利用计算机 自 动地从原始文献中提取出文摘,它能减小 “ 信息爆炸” 所带来的问题。自 动 摘要就是为某个特定的用户从源文件中 提取出最重要的信息,形成一个浓缩后 的版本,使用户不用花费太多的时间就可以从大量的数据中获得有用的信息. 这样可以大大节省用户的时间. 这些技术发展至今, 已经具备了一定的理论基础, 并且发展得比较成熟, 得到了 广泛的应用。 国外的自 动摘要技术起步较早, 早在1 9 5 2 年, 美国的h . p . l u h n 就开始了自 动 文摘方法的研究, 并于1 9 5 8 年发表了第一篇有关文摘的自 动生成方法的文章。相 对来说, 国内自 动摘要技术的研究起步较晚, 直到1 9 8 7 年左右才开始这方面的研 究; 再加上中文比 英文还多了一个分词的预处理, 更增加了中文自 动摘要研究的 复杂性和难度, 因此目 前与国外的差距很大。目 前国内许多研究与开发人员都对 此给予了很大的重视,本文的研究也是因此而展开的。 第二节 历史与现状 1 .2 . 1国外自 动文摘的 研究 自 动摘要是一项应用技术,它研究如何利用计算机自 动的从自 然语言文本 绪论 中提取摘要。 摘要应包含原文的核心内 容或用户感兴趣的内容,并以 语意连贯 的段落乃至篇章形式输出。 1 9 5 8 年 i b m 公 司的 l u h n 首次 进行了自 动 文 摘的实 验, 宜告了 该 项技术的 诞 生。在近四十年的发展历史中,自 动文摘技术受到计算机科学、人工智能、情 报科学和语言学等多个学科的共同影响,取得了很大的进步,同时也吸引了 世 界上许多国 家的学者投入这方面的研究。 h .p .l u h n 在1 9 5 8 年发表的 一 篇题为 文章 摘要的自 动建立 12 1 的 文章, 开创 了自 动文摘的样板性研究方案。 l u h n 把词汇分为两大类: 通用词和内容词。 通用 词又称功能词,通常包括连接词、代词、介词、冠词、助动词、以及某些形容 词和副词,除此以外的所有词为内容词。功能词的重要性被置为0 ,词频统计只 对内 容词 进行, 并 把同 根的内 容词加以 合并( 如 p r o g r a m 和p r o g r a m s ) , 词 频超过 某 一 事 先 设 定 的 闽 值的内 容 词 被 认为 是 可以 代 表 文章 主 题的 有 效词( s i g n i f ic a n t t e r m ) 。为测量句子的重要性,同时采用了两个指标: 频率和位置。如果句子内 部两个有效词之间 夹有超过4 个无效词, 则此句子不予考虑,对剩下的句子计算 其重要性,公式如下: ( 1 . 1 ) 其中 , p , 表 示 句 中 包 含 的 有 效 词 的 个 数, 4 , 为 句 子 中 所 包 含 的 词 的 总 数。 r , 高的句子作为文摘候选句。 其后众多学者对他的方法进行了改进。 b a x e n d a le 采用3 种方法从文章中选词和词串: 删除功能词、 从论题句中 选择 内 容 词 、 从 正 文的 介 词 短 语中 选词 13 1 。 她 认 为 论 题 句 是 段落的 支 撑点 , 并 发 现 8 5 % 的论题句出现在段首, 7 % 的论题句出现在段尾,因此段首、段尾句和出现在其 中的内 容词需要特殊加权:她还认为“ 介词短语似乎比任何其他简单的语言结 构更能密切地反映文章的内容”,应该立足于词组或词串,而不是孤立的单词。 o s w a ld 在其对自 动索引的研究中主张:在自 动编制文摘选择句子时, 应该 根据 句子所 含代 表性词串 的 数量来计 算句 子的 分值闪 。 在识别出 最高 频的 词之 后,还应确定是否还有一个词频大于1 的重要词与该词相邻接,如果有这样一个 词,则和上述的最高频词就构成一个多元词。自 动编制文摘的目 标就是选择含 多元词数量最多的那些句子。 绪论 e d m u n d s o n 提出了 提示词法、关键词法、 题名法和位置法四 种加权方法fs l 提示词法假设句子内某些词预示着另一些与主题相关的词在句中出现,对后者 应予加权:关键词法认为高频内容词可以用来选择与文献内容紧密相关的句子; 题名法指文献的题名和各级小标题概述了文献的主题内 容,在计算句子重要性 时,规定赋予题名用词较高的权值:位置法则根据句子在文中的一定标题之下 出现及其在正文中 具体位置来确定句子的权值. 七十年代前的自 动文摘研究,其技术方法主要以统计为主,特别关注一些 线索词、大小标题、位置信息等,以此来抓住文摘要点, 提高文摘质量。 此后,为了 进一步提高文摘质量,人们注重将篇章分析技术引入自 动摘要 中,同时还探讨了 其他方法如用知识获取,心理学,神经网络等方法进行文摘 的生成。 进入九十年代,越来越多的科学工作者投身于文摘生成系统的研究之中。 有代表性的实 验系 统有: 美国 g e 研究开发中 心的 s c i s o r 6 1 系 统, 韩国 u l s a n 大学 的 r o s e i3 系 统, 德国 c o n s ta n c e 等大学的 t o p i c s 系 统, 加 拿大。 tta w 大学的 t a n k a 9 系统, 这些系统大多为 基于知识理 解式的 文摘系 统, 有的 采用技术不 同, 有的着眼点不同,如韩国的r o s e 系统为面向 读者型,根据用户要求生成文 摘。 另 外 , 从 认 知 学 角 度 出 发 , 德 国 e n d r e s - n ig g e m e y e r b .等 人 开 发 t s im s u m p 0 , 文摘系统, c o l u m b ia 大学的 r a d e v d .r . 和m c k e o w n k .r 开 发的 s u m m o n s ( 系 统是从多个在线资源中提取相关报道,进行比较, 指出这些报道的一致性,矛 盾点等特征并生成摘要。 在实际应用方面, 世界著名的软件公司mic ro s o f t 公司最早实现了自 动文摘系 统的商业应用, 在其办公软件o fc e 9 7 及以后版本中加入了自 动文摘的功能,虽 然效果不是很令人满意, 但总算在自 动文摘系统的应用推广方面作出了贡献. 俄罗 斯的 m e d ia l i n g u a 公司开发了 俄文和英 文的自 动文 摘系 统 l i b r e tto 1 1 z 1 并把它放到国际互联网上,进行销售和演示. 程序界面十分友好,能和o f f ic e 办公软件集成,文摘效果和m i c ro s o ft 公司的差不多。 1 . 2 . 2国内自 动文摘的研究 我国对中文自 动文摘的研究起步较晚,随着计算机在我国的普及,以及网 绪论 络时代对信息处理的需求,中 文自 动文摘的研究在2 0 世纪9 0 年代才如火如茶的 发展起来。在形式特征方面, 汉语和西文主要区别是汉语词间没有空格, 因而存 在着自 动分词问题。汉语自 动分词是一项经过多年研究仍未圆满解决的难题, 然 而因为汉语中真正负载信息的是词而不是字, 所以如果分词技术能够满足大规 模真实文本处理的需要, 那么以词为基础的自 动文摘必然优于以字为基础的自 动文摘。实际上, 大多数中文文摘系统都要对文本进行分词处理, 只是由于采用 的分词方法不同, 使得分词精度有所不同。 此外, 汉语的词汇极为丰富, 同一个概 念可以用很多不同的词汇表达, 这给词频统计带来了一定的困难。 国内在这方面进行研究并取得一定成果的单位主要有上海交通大学、哈尔 滨工业大学、上海复旦大学、北京邮电大学、山西大学等。 上海交通大学的王永成教授较早地领导研究中文文献自 动文摘系统,并于 1 9 8 8 年开发出了 “ 汉语文献自 动编制文摘试验系统”( s j t u c a a ) ,对随机地从 情报学报1 9 8 3 年的一期上抽出的几十篇论文自 动编制文摘,大部分文摘句 达到比 较 满意 的 效果 。 ( 13 1 随 后, 又 开 发出 了“ 中 文 文 献自 动 摘 要系 统 c a e s ( 1 4 1 和 o a 中文文献自 动摘要系统”。该系统采用了仿人算法,实际上还集成了位 置法、指示短语法、标题法、关键词法等多种方法, 是一个实用的系统 1 5 1 。 近 年来又 对i n t e m e t 网页 信息自 动摘要 16 1进行了 研究。 哈尔滨工业大学王开铸教授等人于1 9 9 2 年研制了基于自 然语言理解的文摘 实 验系统m a t a s , 它 采 用格 文法、 语法语义规则 进行理 解 1 7 1 ; 9 4 年 研制出自 动 摘录性的 非受限 领域的自 动文摘系 统h i t - 8 6 3 1 1 8 1 ; 9 7 年 提出了 基于 信息抽取和文 本生成的自 动文 摘系 统 1 9 1 复 旦 大 学 吴 立德 教 授 等 人 研制 的中 文 文 本 摘要 系 统 f d a s c t 12 1 1 , 以 统 计分 析 为主,采用最大似然估计法对每个句子内各个词进行了 词性标引,对标引语料 库进行了研究。 北京邮电大学的钟义信教授研制了面向神经网络学习算法领域的l a d i e s 系统1 1 1 11 1 1 , 它 采用全信息 技术, 通过义块组配和语用 信息 制导的 方法, 将语句 理解与文摘信息提取直接相连来生成摘要。 山西大学的薛翠芳、郭炳炎教授运用向量空间模型v s m 对篇章中的每个段落 进行一些特征抽取统计,得到段向量,计算各个段落向 量的关联度,通过确定 文本段落之间内容的相关性来实现文本主题的自 动分析,找出构成文本大主题 的 各个小 主题, 从这些小主题入 手来实 现自 动文摘 1 3 1 绪论 国内自 动文摘系统的研究主要集中在中文文献,也有人对英文自 动文摘进 行了研究。 、中科院软件研究所的李小滨、 徐越研制了英文文摘系统e a r s , 该系统是一 个理 解型 文摘系统, 局限 于“ 就业机会介绍 领域”2 4 1 . 系统采用了 聚焦分析、 语法分析、语义分析等多种分析方法,形成文章意义框架, 然后从此框架中搜 索出和用户提问相关的信息,组织生成文摘。 哈尔 滨工业大学研制的 h i t - 9 7 型 英文自 动文摘系统 125 1采用了 词频统计、 词类标注、意义段划分、关键句提取、关键句压缩等多种方法,将机械式文摘 的任意性和理解文摘的准确性较好的结合起来。 第三节 中文自动文摘研究存在的问压 关于自 动文摘系统的研究,主要有基于意义的理解文摘和基于统计的机械 文摘两种主要的研究方法。关于它的理论的研究远远滞后于信息社会中信息处 理的发展要求。 产生这种现象的主要原因是由于基于惫义的理解文摘和基于统计的机械文 摘系统都存在着一些弊端. 1 .对于基于惫义的理解文摘,由于知识库建立的困难性, 知识表示的复杂性, 使得它只能面向某一应用领域,并且文摘质量并不十分令人满意; 对于基于 统计的机械文摘, 大多采用的是基于词形统计的向量空间模型法。这种方法 以词形作基础, 认为词形是文章的 最小意义单元。 但是向 量空间 模型最基本 的假设是向量各义项之间要正交,也就是意义不相关, 而在真实文本中,存 在着相当多的一词多义与一义多词现象, 使作为义项的词语之间往往有很大 的相关性。从而导致文摘的质量不高。 2 、 在传统的统计学句子打分方法中,由于它未做文本的主题结构分析,因此 往往导致抽取出来的文摘句至多只能覆盖文本中最重要的那些主题而忽略 掉其他次要的主题。究其原因,这主要是由 于反映文本中最重要主题的句子 在现有的打分方法下往往得分偏高,因而导致产生的文摘主题覆盖不全。 国内己有部分学者注意到上述问题,并着手开展了 针对性的研究工作,如 南京大学的王继成等研究人员提出的基于篇章结构指导的中文we b 文档自 动摘 要便是此类工作的代表。然而,他们仅仅计算了文本中相邻段落之间的语义相 绪论 似性,而忽视了 对那些可能会跨段落分布的主题的处理,尤其是当 针对一些非 说明文、议论文体裁的文本做自 动摘要时,采用这种方法所提出来的处理方式 其摘要效果是不理想的。 而且必须由 人工来主观设定段落之间的语义相似度的 闽值也是该方法的一大软肋.因为闽值的设定往往和不同的因素息息相关,所 以仅仅通过人工来强制设定其相似度的阐值往往并不合适。 第四节 本课题研究内容 基于上述问 题, 本文提出 基于h o w n e t 概念获取算法得到文本的 主题语义概 念,建立概念向量空间模型。这样,可以使得向量空间模型中各向 量义项间保 持正交关系,从而提高向量空间模型进行自 动文摘的各项效能。在此基础上又 提出了一种基于自 适应段落聚类的文本潜在主题的自 动发现方法。在该方法中, 将k - m e a n s 聚类算法与一种用基于层次聚类算法来发现文本的潜在主题数 ( 即k 值)。 本课题研究主要内容包括文本词语的计算机处理、词语所表达概念的自 动 获取和段落的聚类分析,以及文本主题句的提取的研究。 第五节 论文组织结构 本文各章安排如下: 第一章是绪论,介绍了自 动文摘的研究意义和有关概念,自 动文摘的国内 外研究情况,中文自 动文摘研究存在的若干问题以 及本文为了解决这些问 题所 提出的方法。 第二章是文本自 动文摘的概述,介绍了自 动文摘的定义、分类和自 动文摘 的关键技术并综述了当前文本自 动文摘领域几种重要的方法,并作了 相应的比 较和分析。 第三章介绍了自 然语言处理中经常要用到的一个模型向量空间模型 ( v e c t o r s p a c e m o d e l , 简 称 v s m ), 并 分 析了 使用 该 模 型 存 在的 问 题。 第四章是基于概念向量空间模型的中文自 动文摘研究,这一部分是本论文 的核心部分,介绍了词语概念获取的主要工具h o w n e t ,阐明了建立一个稳定、 可靠、高效的自 动文摘系统里面的各项关键技术的实现. 绪论 第五章介绍了目 前比较常用的聚类算法,提出了 基于自 适应段落聚类自 动 发现文本潜在主题的方法,并介绍了文本经过主题划分后主题代表句的选取方 法。 第六章完整地给出了 针对上述各种关键技术所设计出的中文自 动文摘系统 的系统结构图, 并对其中的各个模块做了说明。此外,还详细介绍了实验语料 的来源与选择,对该系统进行了全面的评测,主要是通过各种不同的方法和测 试手段对设计实现的系统进行评估,指出了存在的问题以及初步的解决方案。 第七章对全文进行总结并展望了未来的工作。 自动文摘技术综述 第二章 自 动文摘技术综述 第一节 文摘的概念和内容 2 . 1 . 1文摘的概念 文摘也就是我们平时所说的摘要,“ 文摘是以提供文献内容梗概为目的, 不 加 评 论 和 补充 解 释、 简明 、 确 切 地 记 述文 献重 要内 容的 短 文。 ” 12 6 1 那么 摘 要 提取,又称为自 动文摘,它是指由 计算机对摘要源进行分析,从中选择反映文 章主题的内容形成摘要、或者由 计算机对摘要源理解的基础上生成无冗余的、 形式 上和意义 上前后 连贯的 摘要2 7 1 。 根据1 9 9 5 年自 动文摘 测试大纲的 要求,自 动文 摘应具有概况 性、 客观性、 可理解性和可 读性。2 限于目 前自 然语言理解技术的发展水平,还不能在真正理解原文的基础上 生成文摘 ( a b s t r a c t )。 所以 现阶段自 动文摘技术大多采用摘录的方法,即抽取 文中关键句组合生成文摘 ( e x tr a c t ) e 因此,目 前的自 动文摘技术可做如下逻辑 解释: 定义谓词: s e l e c t i v e ( s w e i g h t , s , ) 表示 句子s , 的 权值, w e i g h t 大于给定闽 值e , s e l e c te d ( s , ) 表示 句子s , 是文档的 候选文摘句.同 时引 入函 数f ( s , ) 表示句子s , 权值, w e ig h t 的 计 算 方 法。 对于 文 档 d o c = s i 1 ) , 则 有 ( v s , x s e l e c t iv e ( f ( s ) , s ) ) - i s e l e c t e d ( s )。 可以 看出 , 抽 取 文 摘 候 选 句的 依 据 就是 句 子s , 的 权 重s w e ig h t 。自 动 文摘 技 术中句子权值计算的主要依据是:提示词、 线索词、位置以及句子中包含的特 征项权重。其中特征项权值计算是句权计算的重要基础。 2 . 1 . 2摘要提取的玄义 美国 认知 心理 学 家 g .m . o l s o n 曾 提出 四 条自 然语 言 理 解的 标 志 12 8 1 . 能成功地回答输入语料中的有关问题 在接收一批语料之后,有就此给出摘要的能力 : 自动文摘技术综述 能用不同的词语复述所输入的语料 有从一种语言转换成另一种语言的能力 : 这四个标志分别对应于人机问答系统、摘要提取系统、同 义复述系统、机 器翻译系统,由此可见摘要提取在自 然语言处理领域的地位。 从1 9 5 8 年l u h n 在i b m 7 0 4 机器上进行第一次摘要 提取实验至 今, 摘要提取将 近有5 0 年的历史了。进入9 0 年代以来,随着i n t e m e t 的开通,摘要提取的价值充 分显露出 来, 对它的 研究也就越发 有意义了 2 9 , ( 1 ) 摘要提取可以提高文摘杂志的时效。文摘杂志是一种二次出版物,人工 编制摘要成本高、效率低,从原始文献的出 版到文摘的出 版往往有相当 长的时差。自 动编制摘要不仅可以缩短加工文献的编辑时间,较及时地 给用户提供文献线索, 而且能大大降低成本。 ( l ) 国际互联网蓬勃发展,电子出版物如潮而至,大量的文献以电子形式出 现,网上信息极大丰富。要想在这信息的海洋中找到所需信息,不仅需 要先进的信息检索技术, 还应该拥有一个能自 动压缩信息甚至自 动提炼 信息的智能系统。 ( 3 ) 摘要提取是快速阅 读的要求。人们要了解某一领域的知识,往往要翻阅 许多文献。一个好的摘要提取系统可以为读者提供文献的概要与精华, 使读者在不需查阅原文的情况下就可以获得全文的有用信息, 确定是否 要阅读全文,节省了阅读时间。摘要提取是读者快速选择文献与快速阅 读了 解文献内容的一个捷径。 ( 4 ) 摘要提取也可以为自 动分类、信息检索等任务进行前期处理。 先对原文 进行摘要提取,然后对摘要进行处理,在不损失全文信息的情况下可大 大加快处理速度。 5 ) 目 前,绝大多数的摘要还都是人工制作的,人工制作摘要不仅工作量大、 效率低、成本高,而且由于处理人员的主观片面性导致处理不公正、 差 错多,不能客观、全面地反映文章的主题。摘要提取系统不仅节省了人 力物力,而且能做到客观、公正。随着计算机科学和自 然语言处理技术 的长足发展,人们开始转向使用计算机生成摘要的研究。 摘要提取技术的研究既具有理论意义,又有实践价值,是自 然语言处理领 域的 一大难题。 自 动文摘技术综述 2 . 1 . 3 文摘的分类 不同 的 分类标 准产生了 不同的 分 类方式。 这里主要介绍三种分类。 3 0 3 1 1 ( 1 ) 从摘要内 容同原文档的对比来看,可以将摘要类别分为: 提取和摘要两 种。 提取的内容完全由输入文档中拷贝的内容组成。因此,一个典型的、压缩 率为1 0 % 的提取, 将从原文档中拷则 0 % 的内容。这1 0 % 的内容指的是以文档中的 词或句子,甚至是段落为基准的提取量。通常情况下,我们都选取句子数作为 压缩率的度量基础。在早期的搜索引擎中,一般选择提取文档的前2 5 % 的句子作 为该文 档的 摘要。 3 1 1而实际 上, 一 个提取并不需要由 句子组成, 它 还可以 是短 语的列表,例如关键词、专有名词、裁剪的句子等。 摘要的内容则包含了一些输入文档中没有表达的东西。例如,在摘要中可 能加入对原文的评价等.而摘要中 涉及的原文中的句子也不需要完全对应。 ( 2 ) 从摘要的信息量来看, 可以分为: 指示摘要( i n d ic a t i v e a b s t r a c t ) 、信息摘 要( i n f o r m a t i v e a b s t r a c t ) 和评价摘要( c ri t i c a l a b s t r a c t ) 。 指示摘要为还需进一步阅读原文档的用户提供了参考功能,也就是说指示 摘要是用来帮助用户决定是否需要阅读原文档的,因为它包含的信息量少,所 以 往往不能代替原始文献。美国的 工程索引、日 本的 科技文献速报等 都是这一类的指示性文摘工具。 相反,信息摘要在一定程度上筱盖了原文档中所有的重要信息,可以 作为 原文档的某种替代,而用户就不再需要考虑原文档。前苏联的 文摘杂志、 英国德温特公司的 基本专利文摘均属于这一类。 介于这两种摘要之间的是评价摘要。这是近代发展起来的一种文摘.在这 种文摘中,文摘员也是文献的评论者,与各国早期关于文摘的定义要求不同, 文摘员应插入自 己的看法和分析。 评论性文摘的价值很大程度上依赖于文摘员 的专业水平。 ( 3 ) 基于用户类型的摘要分类: 主题摘要和普通摘要。 以用户( 主题或查询) 为中心的方式产生摘要,适应于特定用户或用户组的 要求。这就意味着摘要着重考虑用户感兴趣的东西。普通摘要面对的是一般的, 广泛的用户,基于文本内 容.以 前,普通摘要都由 作者或专职摘要提取人员提 供。 自动文摘技术综述 2 . 1 .4文摘的内 容选择 关于内容,文摘应该排除原文的历史描述部分、导言、 过时的情报以及过 程的细节,应包括研究结果和主要结沦;在可能的情况下,文摘应该尽可能使 用原文的词语,甚至句子:可以使用标准的缩写词、简称、首字母缩略语和代 号;文章的结论应该放在文摘开头,引申 或者发挥性的内容应该放在后面;文 摘一般不必分段;虽然不应该规定文摘的确切长度,但一般来说,普通文摘的 长度大致相当于原文长度的十分之一,或者 2 0 0 个词( 字) 。如果文摘读者对他 将在原文中发现的东西毫无思想准备,那么他可以 认为该文摘不是一篇好的文 摘; 如果 遗漏了 新的或 者重要的 数据, 那也不是一 篇好的 文摘3 2 1 第二节 摘要提取技术综述 摘要 提取技术的 研究大 体上可分为 两 个阶段3 3 1 : 第一 个阶段是从5 0 年代末 到7 0 年代初的机械摘要时期; 第一阶段是从7 0 年代初到现在的理解摘要阶段。 2 . 2 . 1荟于统计的机橄摘要提取 1 9 5 8 年l u h n 提出自 动摘要的思想, 一直到7 0 年代初r u s h 研制出 a d a m系统, 一直是根据文本物理信息( 词的频率、词的位置、句子的位置等) 分析的摘要方 法一一基于统计的机械摘要提取方法发展的时期。 机械摘要提取的依据是摘要分类中的摘录性摘要, 通常文章中存在一些能 够反映文章主题的词, 我们称之为有效词,有效词集中的句子就有可能是概括 全文主旨的句子,即关键句,由关键句集即构成摘要。 美国曾 对部分 手工 摘要中的 句子进行了 统计, 并报 道了以 下结果 【3 4 1 : 手工 摘要中9 1 % 的句子都是文中句, 其中7 9 % 的句子是完全照抄,3 % 的句子是由原文 中的句子拼凑而来,4 % 的句子是由原文句改造而来,5 % 的句子是由原文中的句 子拼接再改造而来,只有9 % 的句子才是人工自 撰的。 也就是说:现代手工文摘 中的大部分都还基本上可划归于摘录性摘要的范畴。 有一这样的统计结果的原 因可能在于简介性摘要与评论性摘要都比较难写, 文摘员要花大量时间深入地 理解原文,而且组织准确、精炼的语句以反映文献内 容,难度较大, 特别是评 论性摘要,还需要阅读很多其他同类文献以进行比 较,给出中肯的分析与评价, 自 动文摘技术综述 这往往超出了一般摘要员的水平。 机械摘要提取的基础是将文本看作句子的线性序列,将句子看作词的线性 序 列 3 5 1 13 6 1 , 它 通 常 分 四 步 进 行: ( 1 ) 计算词的权值, 从而确定有效词; ( 2 ) 计算句子的权值; ( 3 ) 对原文中的所有句子按权值高低降序排列, 权值最高的若干句为摘要句: ( 4 ) 将所有摘要句按照他们在原文中的出 现顺序输出。 基于统计的机械摘要提取过程如图2 . 1 所示。 图2 . 1基于统计的机械摘要提取过程 2 . 2 . 1 . 1有效词的判定 一篇文 章中的 词可以 分为两类(3 7 1 : 功能 词( f u n c t i o n w o r d ) 和内 容词( c o n t e n t wo r d ) 。 功能词是没有实在意义的虚词,内 容词是有实在意义的实词。内容词可 以根据其在文中出现的频度、位置等文本形式特征赋予权值,频度越高,词权 越大。 若某词出现在文章的标题中,则该词的权值升高。 权值大于给定闽值的 内容词被判定为有效词。 传统的机械摘要提取方法中,计算词权、句权、 选择摘要句的依据是文本 的 六 种形式 特征 3 8 1 . 1 .词 频( f r e q u e n c y ) . 能 够指示文章主题的, 即 所谓的 有效词往往是中 频词。 根 据句子中有效词的个数可以计算句子的权值,这是l u h n 首先提出的机械摘要提 取方法的依据。 2 .标题( t it le ) 。 标题是作者给出的提示文章内容的短语, 借助停用词词表( s t o p 自 动文摘技术综述 l i s t ) , 在标题或小标题中剔除功能词或者具有一般意义的名词, 剩下的词和原文 内容往往有紧密的联系,应作为有效词,并赋予较高的权值。 3 .位置( p o s it i o n ) .美国的p .e .b a x e n d a l e 研究表明 “ 在对一组由2 0 0 段组成的试 验样品进行调查后发现论题句作为段落首句出现的占 8 5 % ,以 段落末句形式出现 的占 7 % 。 这说明 在文中的 一定 标题( 如“ i n t r o d u c t io n , o b j e c t , re s u lt ) 之下以及在正文中的特殊位置( 即位于首段还是末段,位于段首句还是末句) 出 现的句子往往较为重要,因此,有必要提高处于特殊位置的句子的权值。 4 . 句法结构( s y n ta c t ic s t r u c t u re ) 。 句式与句子的重 要性 之间 存在某种联 系,比 如摘要中大多是陈述句,而疑问句、感叹句等则不宜进入摘要。 5 .线索词( c l u e w o r d s ) 。 e d m u n d s o n 的摘要系统中 有一个预先编制的线索词词 典, 词典中的 线索词分为 3 种: 取正 值的 褒义词( b o n u s w o r d s ) , 如“ i m p o r ta n t ; 取负 值的 贬义词( s t ig m a w o r d s ) , 如 “ i m p o s s i b l e ; 取零值的 无效词( n u l l w o r d s ) 。 句子的权值等于句中所有线索词的权值之和。 6 .指示性短语( i n d ic a t i v e p h r a s e ) . 1 9 7 7 年,英国l a n c a s t e r 大学的p a ic e 提出根据 各 种“ 指 示 性 短 语” 来 选 择 摘要 句的 方 法 13 9 1 。 英 语 里, 表达 重 要内 容的 句 子 经 常 会 包含 i n t h i s p a p e r w e s h o w , i n c o n c l u s io n , 而不重要的 句 子通常 包含“ it i s h a r d ly , i t i s i m p o s s i b le 等等 。 和 线索 词 相比 , 指 示 性 短 语的 可 靠 性 要强的 多。 2 . 2 . 1 . 2关锐句的确定 根据文本的多个形式特征,计算句子的权值,权值超过给定阂值的句子判 定为关键句,若干关键句按照它们在文章中出现的次序连缀而成摘要. 上面我们介绍了文本的 6 种形式特征,即: f 一词频、t 一标题、l 一位置, s - 句法结构、c 一线索词、i 一指示性短语.这6 种特征是自 动摘录的依据,它们从 不同角度指示了文章的主题,但都不够准确,不够全面。如果能够将上述各种 特征“ 有机” 地结合起来, 即以 w = f ( f , t ,l , s , c , 1 ) 作为 句子权值的 计算公 式, 那 么摘录的 质量有 望进一 步提高 12 7 1 . 问 题的关 键在于函 数 f 如 何 确定。 e d m u n s o n 用一个简单的线性方程w=a , c + a 2 k + a 3 t + a 4 l 将四种基本的句子选 择方 法集中 在一起12 71 . w 代表句子的 最终权值, c 代 表线索词( c lu e ) 权值, k 代表 根 据词频计算而得到的 关键字( k e y ) 权值, t 代表标题( t it l e ) 权 值, l 代表位置 ( l o c a t i o n ) 权值,s 1 . 8 2 . 8 3 r 8 4 是调节参数。 自动文摘技术综迷 目 前的许多机械摘要系统都综合考虑了两种或多种形式特征。比如,新加 坡南洋大学 研制的图 书馆新闻 删节系统( l ib r a r y n e w s p a p e r c u tt i n g s y s t e m ) , 提 供了标题法、 位置法、关键词法和指示性短语法四种机械抽取方法供用户选择。 目前,在多种特征的结合方面尚待深入研究。 2 . 2 . 1 . 3存在的问魔 机械摘要提取是基于文本表层信息的一种提取方法,因此该方法适用于非 受限区域,这也是它的突出优点。但是,由 于它是基于文本表层信息的,对语 义的理解很浅或者几乎可以说没有,导致它难以产生高质量的摘要,同时生成 的 摘要可读 性差, 连贯 性差, 结构不 平衡等缺点也是十分明 显的 【4 0 4 1 1 ( 1 ) 结构不平衡。 基于词频统计的摘要系统给出的摘要有时仅包括了原文中 着重谈论的某个内容,而对文章中论述较少的内容则一字不提,影响了摘要的 覆盖面,丢失了部分原文信息。特别是对多主题的文献来说,情况更加严重。 ( 2 ) 摘要内 容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论