(计算机应用技术专业论文)基于文章主题分析的自动文摘研究.pdf_第1页
(计算机应用技术专业论文)基于文章主题分析的自动文摘研究.pdf_第2页
(计算机应用技术专业论文)基于文章主题分析的自动文摘研究.pdf_第3页
(计算机应用技术专业论文)基于文章主题分析的自动文摘研究.pdf_第4页
(计算机应用技术专业论文)基于文章主题分析的自动文摘研究.pdf_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处 理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰 富的信息资源,利用自动文摘技术,人们可以减少查找可用信息的时间。 基于统计的文章主题划分的阈值可以通过大量的实验观察确定,但这种方法确定的 阈值缺乏一定的适应性,提出一种基于阈值自动确定的主题分析方法,并与经验确定阈 值的方法进行对比,表明此方法是可行的,可以满足自动文摘的要求并弥补了经验确定 阈值方法的不足。 因自动文摘过程是从一组主题相关的文档中发现潜在的知识,文本聚类技术得到了 广泛的重视。线性时间复杂度的k m e 娜文本聚类算法的中心点难以确定,提出一种文 本聚类中心点选择方法,试验结果表明此方法可以发现一组聚类文档的中心点,并提高 了聚类效果。 对于多文档自动文摘,可以对同一个主题的多个文档划分局部主题之后,从局部主 题中提取信息形成文摘,提高文摘的覆盖度。提出一种基于单文档主题划分为基础的多 文档文摘主题分析方法,并对四种方法进行了对比。分析形成的局部主题后,对各个局 部主题依据一定的技术进行提取,形成多文档文摘,最后对基于单文档主题划分和基于 句子聚类的多文档自动文摘进行了对比分析,并给出了对比结果。 关键词:单文档主题划分,自动文摘,文本聚类,m a i l i f o l d 排序,多文档主题分析 r e s e a r c ho fd o c u m e n ts u m m a r i z a t i o nb a s e do nt d p i c a n a l y s i s n i el h 珊i n g ( c o m l ) u t e r a p p l i c a l i o nt e c h n o l o g y ) d n c t e d b y a s s o c i a t em f e s s 0 rs u 0 h 0 n g g i l a n g a b s t r a c t t h e 嘲嫩吐c 鲫姗埘i z a 帆姚l o 彰i san 破u r a ll 锄g l l a g e 眦e s s i n gt i 印i c - l ta m o m 撕c a l i y p r o d u c e st h ca m c l e ss u 姗眦础w h i c hc 觚b a s i c a l l yr e n e c t 恤a n i c l e so 姆枷i i l f 0 眦砸o n 晰廿l 恤 p ) p u l 缸嫩i o no ft 量l ei i l :蛔m e t t 量l e 嫩t w o r kh b e c 伽舱ah u g ei l l f o m l a t i o n 陀s o u r c e ,s o ,a 咖a l i c s 聊u l l a f i z 州t e c l l l l o l 9 影c 锄s a v e 姻嘟矗m eo f a r c l l i 】呜啦e 如l 鲥0 n t h f e s h o l do f 廿l e t o p i c p a n i t i m e m o d b a s e d s t a l i s t i m u s t b c 印p o i m e da v a l u e ,t 量l e 砌mc 锄b e d e s i 印a t e dt 量l l - o u 曲m a n ye x p e r i m e n t 。b u t 妇d e s i g 删髓t h f c s h o l ds h o no f8 d a p t a b i l i t y at o p i cp a r t i t i m 劬o db 懿e d a 嗽 m 硝c a j l yg a i l lt l l r e s h o i di s 硫砌i u c e d ,锄dc 咖p 删w 弛t l l em 础0 do f 印p o i n t i l l g t l l 咒s h o l dt l l r o u g l l 【p e r i i i 嘲眦t h ee x i e r i i 嬲i tp r o v c d l a tt h em e n l o di se 丘e 翻v e ;i tc 锄s a :i i s 匆廿i en d s o fa u t i 锄确c 跚锄m 血a t i o na n dm a k e1 l p 也es h 耐i l l lo ft h em 甜l o do fa p p o j 删咀gt l s h o l dt h r 0 1 培h e x p e r i m e n t b e c a u s e 椭i 加虹c s 咖耐刎册i s 蜥m c p o t e l 】砌l 洲e d g e 劬m 跚e d o c u m c n 乜托l 删t o 伽et h 锄e ,d o c u m 耐c 蛐g 蛐l o 科i s9 0 t 、) i ,i d e l y 蛳刚0 mk - m e a 船d o 舢e n tc l u s 蜘n gm e t l l o d h 弱al i l l e 甜t i i n ec 伽叩i e 嫩够h 刚旧v c r ,蛔c l u s 呀c e m 钉i sd i 壤c u l tt oc h 0 0 ac e r i t 盱c h o i m e t 量1 0 d b 船c d 乳i b - g 随p hd i 、,i s i i sp i 镁;e m e d 1 1 他e ) 【p 硎m e n t 他s u l t ss h o wm a t 廿l i sm e t h o di se f f 酏矗v e c 咖p 删w i t l l l e 仃a d i t i a lm e t l l o d s ,i ti m p r 0 v e dt l l ef - m e 雏u r e d u eo ft 量l ec l 惦t e rf 豁u l t m u l t i - d o 吼眦1 e n tc a nb ed i v i d e di l l t os e v e r a ll o c a l 廿i e m e s t h e nw ec x 昀c ti r i f o r m a :t i o n 饷mt i 峙s e i o c a 置n l e m e s c o 仃e s p o n d i r 四y ,廿l es u m m 甜i 功矗啪h a v eal l i g hc o v 啪g e am u l t i d o c l l m t 抓洳【e f i o 咖丽t e c l l i l o l o 影b a s e d s i l l g l ed 咖m e n tt o p i cp a 枷i sp 他$ 钮t e d 锄df :b 咐t h 锄ef o 姗鲥o n m e t h o d sa 阳c o m p a 以a 岛盱锄g l i c i z i l l gt h e1 0 c a lu l 伽o fu l em u l t i - d 埘吣t h e 鲫m m 嚣捌o n 伽lb e 如m l 砒锄b 粥i so f 口【虹枷i l g n t 鲫i 矗d mt l l e l a i 也e m 豁a tl a 瓯c 0 i n p a r i 地o fm u i 石- d o 咖翩t m 劬o db 勰e d s i n 硝ed o c 啪t 娜i cp a 毗i 伽锄ds 钮t e l l c l 璐t e r i l l gi s 西咖 k 眄w o r d s :a u t o m 撕c 如m m 缸魄i o n d o c u m e n tc l u s 白e r i n & m 缸i f o l dr a n k i l l & m u l t i d o c u m 钮t 踟l m m a 一刁l t i o n 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:墨壁呈宴 日期:川绛 月珈日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、 缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名:要竺尘塑 指导教师签名:三季o k 日期:珊r 月日 日期:2 “艿年r 月日 中国石油大学( 华东) 硕学位士论文 第一章前言 近年来,随着网络技术的日益发展,网络上拥有的各种信息量极大膨胀。互联网上 的信息9 0 以上是以文本的形式表现的,这极大地推动了自然语言处理技术的发展。目 前,自然语言处理已经逐渐成为许多研究者关注的领域,信息过滤、信息检索、自动文 摘等技术成为人们研究的热点。 1 1 课题的背景与意义 虽然对于某一个主题的事件,大多数综合性网站都有专题网站,人们可以很容易得 掌握事件的来龙去脉,但是对于一些其他的任务,如:检索搜索引擎返回的关于某一个 事件的数量巨大的网页,相要了解这一个事件的主题内容却显得无所适从,这促进了多 文档文摘的发展。除了可以作为一个独立的系统,多文档文摘的应用可以扩展到以下几 个方面:1 、问答系统,问答系统作为下一代搜索引擎的主要形式,将对搜索引擎的使 用方式产生变革,用户输入要搜索的问题,搜索引擎将返回这个问题的最相近答案,在 产生答案的过程中,需要对问题相关的网页进行综合,这就要用到多文档文摘技术。2 、 搜索引擎返回结果聚类、w e b 文档聚类和新闻订阅等,用户检索的目的是获取某一个新 闻事件的相关资料,搜索引擎返回量大,检索结果太多太杂,定位到用户感兴趣的内容 困难。利用多文档自动文摘生成某一事件的摘要信息,可以缓解这个问题。3 、话题跟 踪与检测的应用,在互联网的文本流中不断发现与其相关的文本信息,并将新发现的文 本与已有的文本进行汇总,生成线索报告提交给相应用户。 近年来,自然语言处理领域的国际学术会议对于自动文摘技术的关注也促进了自动 文摘的发展,著名的d u c o c u m e n tu l m e 嘲加d i n gc o 时e r e n c e ) 会议是目前在多文档文 摘领域最有影响的评测会议,由m s t 的系列会议之一1 r i d e s 赞助发起文本理解会议 d u c ( d o c n e n tu i l d 删h 培c 砌蜘c e ) ,使研究者共同参与到大规模文本测试中来, 促进了自动文摘包括多文档文摘的发展。d u c 会议自2 0 0 1 年起每年举办一次,每年 的任务和评测都是针对单文档文摘和多文档文摘进行评测。随着人们的需求的变化和各 项技术的日益成熟,d u c 从任务到测试文档以及评价方法都日益丰富和成熟。所有的 参与者可以在大规模公共语料上进行评测,表明多文档文摘的研究正在向规范化、统一 化方向发展【3 4 1 。另外,著名的信息检索、人工智能领域相关的著名国际会议:世界计算 语言自然语言处理领域最顶级会议a c l o 缸s o c i 撕o n 矗) rc o m p u t 撕o r 础“n 鲥s t i c s ) 、 第一章前言 c o l 烈g l :i n :t i 躯蛏l 缸o n a lc o 血撇0 nc 伽譬凹:蹴i o n a ll 酬s t i c s ) 、和a c m 主办的信息检 索方面最好的会议s i g i r 的关注,也促使诞生了一些实验性的自动文摘系统。 对于多文档文摘,可以对于同一个主题的多个文档划分局部主题之后,从局部主题 中提取信息形成文摘,提高文摘的覆盖度。目前的研究方法中,对于多文档的句子进行 统计、分析主题的方法,缺少一定的精确性。在通过各种方法对于句子进行划分形成主 题的过程中,由于句子包含的特征信息比较少,划分的结果肯定不会令人满意。由此我 们提出一种基于单文档主题划分为基础的多文档文摘主题分析方法。首先对于单文档确 定子主题的划分并确定主题的重点分布,然后对于所有子主题去重处理后,经过分析形 成局部主题,最后对各个局部主题依据一定的技术进行提取,形成多文档文摘。 主题划分是将以自然段为基础的文本的物理结构转换成以意义段为基础的文本的 逻辑结构,即确定局部主题。然后对于局部主题进行处理,可以有效的去除冗余信息, 并可以从不同的角度对事物进行描述,使文摘简洁、全面。这样可以提高系统生成的文 摘的中心主题覆盖率及文摘抽取的准确率。对于多文档文摘主题分布进行分析,建立起 多文档主题分布的总体认识,可以把握多文档的讲述重点,也可以对于在此基础上的文 摘工作提供指导。 1 2 国内外研究现状 ( 1 ) 自动文摘的研究现状 自动文摘技术的研究是随着计算机的出现和发展开始发展的。于2 0 世纪5 0 年代 末,由l u h n 【1 】【2 】首先提出了自动文摘的概念并设计了一个自动文摘系统开始,自动文摘 进入了研究发展阶段。 由于缺乏基础性技术,自动文摘在2 0 世纪5 0 - 7 0 年代发展缓慢,主要以统计和计 算词语重要程度,研究句子在文本中的位置和文本的表面形式特点进行文摘。从8 0 年 代末期人们提出了基于自然语言理解的方法进行自动文摘。进入9 0 年代来,随着h t 黜t 的普及,大量电子文本的涌现,自动文摘的价值充分显露出来,越来越引起人们的关注。 与此同时,计算机软硬件性能的飞速提高也为自然语言的处理提供了良好的研究环境。 越来越多的学者纷纷开始从认知心理情报科学、计算语言学等各个方面展开研究,提出 了实现自文摘的新的思路和方法,自动文摘的研究进入了前所未有的繁荣期。 我国对中文自动文摘的研究起步较晚,大约从1 9 8 5 年开始介绍国外自动文摘方面 的研究情况【3 l 。从8 0 年代末开始研究自动文摘实验系统至今2 0 多年期间,我国研究人 2 中国石油大学( 华东) 硕学位士论文 员也取得了不少的研究成果。但目前的技术水平尚不成熟,问题主要是在中文本身的语 言特点以及自然语言理解方面的困难。 目前,一些科研院所和国际性软件公司也在开发中文自动摘要系统。比如哈工大、 中科院自动化所、中国科大等研究机构也开展了这方面的工作,m m 中国研究中心、微 软亚洲研究院、摩托罗拉中国研究中心等都在研制中文自动文摘系统的产品。 ( 2 ) 文章主题划分的研究现状 单文档主题划分技术作为单文档自动文摘等应用的一个重要组成部分,随着中文信 息处理和自然语言处理技术的发展受到了广泛的关注。 国外:1 9 9 7 年,h e 甜s t 提出了段落分割的著名的算法1 e x 娟l i n g 【4 】,主要是根据主 题的转折点来确定主题边界。m n y 醯k m ( 1 9 9 7 ) 利用名词性短语在文章中的分布信息来 发现段落的边界【5 】。i ,j 仰a n 和p 鹤鲫m i 洳提供了一种基于机器学习发现“文章段落边界, 的话题分割方法,利用一系列标志性词语( a l ,a n d ,锄嗍) ,如果在句子的开头 出现这种标志性词语,并且在句子中会出现第二个标志性词语,这个句子的位置就会被 认为是一个潜在的边界。这涉及到训练语料的选择和机器学习模型的选择网。词汇链 ( l e x i c a lc h a 方法利用同义词和相关词汇的信息来确定一篇文章的重点主题。 m 耐e f 啪c i n em o e 璐( 2 0 0 1 ) 通过词汇链来代表文章的连接信息并且推断文章的逻辑结 构,最终建立文章的层次结构r 刀。 国内,文献【8 】等提出了文章意义段划分的数学模型,给出了划分意义段的六条准 则,方法的提出主要是基于:对于一篇文章的主题的描述必然包含许多重复的与所论述 主题相关的词语,即文章的内容词、有效词和特征词。文献【9 】提出一种基于词共现图的 文档自动摘要算法。该算法以统计方法为基础,又利用词共现图形成的主题信息以及不 同主题间的连接特征信息。 以上几种方法对于主题划分的研究主要是集中在词语的粒度上。 s a l t 0 1 1g 在1 9 9 4 年提出基于关系图的文本结构分析方法,通过将文本段落表示成 向量以建立文本的段落关系图,通过选择适当的阈值略去相似度小的段落。观察段落之 间的关系从而对于文本结构进行分析【姗。 复旦大学的韦雄观等人使用空间向量模型来表示篇章自然段之间的关系图。基于段 问相似度和关系图进行篇章分析,包括篇章的结构分析、主题分析和聚类、浏览与跳段 阅读等【1 1 】。 滑动窗口式主题划分方法用两个宽度相同的相邻滑动窗口按一定的步长依次滑过 3 第一章前言 整个文本,对于两个窗口建立两个向量,计算相似度并根据相似度的分布确定主题划分 1 1 2 1 。文献【1 3 】提出根据连续的段落相似度对文本进行主题划分的算法。 以上几种方法主要是利用段落的相似度来对主题划分进行研究,对以上的各种方法 进行分析,论文工作的一个假设是:作者在阐述一个主题时,其所用重点词汇通常局限 在能代表该主题所涉及内容的一个较小范围内,具有一定的重复性。 另外基于文本结构分析的主题划分技术由于受到语言结构处理技术不够成熟等原 因的影响,很难确定比较理想的文本结构。 ( 3 ) 多文档主题分布的研究现状 多文档自动文摘技术的研究主要有三种方法: 基于单文档自动文摘的方法 基于信息抽取的方法 基于多文档集合特征的方法 对多文档文摘的研究国外比较多,评测机制也比较完善。国内对于中文多文档文摘 的研究相对较少。主要方法有: 1 、基于文章单元聚类技术 r o x 撇a n 曲e l u :t a ( 2 0 0 6 ) 1 4 】的研究主要是通过结合凝聚和分解聚类技术对句子聚类 形成多文档的层次结构,从每个类中抽取句子产生多文档的层次结构表示。它采用t e 咖r 1 1 1 e 0 巧对于句子进行抽取。h o n g y u 觚z l l a ( 2 0 0 2 ) 【1 5 】的主要想法是:首先把文章中的句子 通过聚类形成局部主题,然后通过抽取关键词汇和句子来生成文摘,文章提到了利用层 次聚类的结果来建立摘要的层次结构。哈尔滨工业大学秦兵、刘挺等将相似的句子经过 聚类形成多文档集合内不同的局部主题。因为对于句子聚类的需要,对于句子的相似度 计算进行了研究。 以上方法主要是基于句子聚类,效果不会特别令人满意,因为在聚类的时候一般需 要建立向量空间模型,一个句子包含的信息量有限,形成的数据稀疏,因此应用也受到 限制。 上海交通大学的z h a n gyt ( 2 0 0 6 ) 1 6 】把具有最大相似度的段落合并在一起。直到 达到结束要求的类别数目为止。东北大学的林鸿飞采用段落有序聚类( 有序聚类就是寻 找一种方法,使得类内差距小,而类间的差距大) 的方法划分出文本的层次结构【1 7 1 。复 旦大学郑义等利用文档内和文档之间段落的相关性,实现多文档的自动综述。这几种方 法主要是基于文章的段落单元的处理。 4 中国石油大学( 华东) 硕学位士论文 2 、基于文章结构信息 加利福尼亚大学的m 珏y e nk 孤对文章进行线性分割,形成主题段落。利用名词型 短语的特征信息和短语的覆盖度来计算文章重点分布。并且对于主题段落的功能进行了 分析。 d 锄i e lm m 对于修辞结构树r s 缸优进行了研究。设计了一个试验验证:r s 电e e 的核心( n u c l e i ) 跟读者认为的文章的重点部分有很大的关联【瑚。d a l l i e lm a r c u 在1 9 9 9 年 认为:文章内容结构i s c 0 船es t r i k :t u 鹏) 的核心跟读者认为的文章的重点部分也有很大 的关联【1 9 1 。国内也有研究者【2 0 】将两种理论进行结合来应用到文章主题分析中。 基于文章结构信息的主题分析对于单文档来说可以利用。因为文章有一些标识文章 结构关系的词语。但是多文档集合的文档间没有这种明显的关系,当对多文档中的每个 具体的主题单元进行分析时,可以利用这种技术。 1 3 课题研究目标及研究内容 对单文档进行主题划分,主题划分结果尽量精确。在单文档主题划分的基础上,通 过对多文档主题分布进行分析,确定多文档的重点主题,然后建立多文档的层次结构, 对于多文档的主题进行分析。 根据一定的结果评测方法,对提出的新方法进行验证,给出结果分析。在主题划分 的基础上进行自动文摘,提高自动文摘质量,确保文摘句覆盖率高,文摘可读性强。 我们的研究工作主要集中在以下三个方面: 1 单文档主题划分 主题是文章要阐述的目标和内容。作者为了描述一个主题,往往需要通过介绍该主 题的几个方面来刻画它,要介绍的这几个方面就是文章的子主题。只有找到文章中的所 有子主题才能全面的体现出文章的主体内容。 在分析现有的主题分析的方法的基础上。提出阈值自动确定的主题划分方法。对单 文档进行分析,区别出文档是否可以划分出子主题,如果可以进一步划分,通过我们确 立的方法,划分出子主题。 2 文本聚类中心点选择算法的改进 对自动文摘等文本处理应用中经常用到的文本聚类方法进行了比较,针对k - m 翩n s 文本聚类算法虽然时间复杂度较低,但是聚类中心点难以指定的问题,提出了一种新的 文本聚类中心点选择算法。 5 第一章前言 3 多文档自动文摘主题分析 在处理多文档集合的时候,如果单个文档长度较短,可以将它作为一个语义段落。 在文档长度较长的情况下,将其划分成更小的语义单元。在获得多文档集合的相应子主 题信息之后,再从语义段落中确定抽取句子的顺序。因此本文研究的是基于语义段落单 元形成多文档的子主题的多文档自动文摘。 分析了几种不同的多文档子主题形成方法,包括基于词频重要性、基于语义段落相 关度排序、基于语义段落聚类的主题形成方法。针对通过聚类方法形成多文档的子主题 之后,每个子主题中语义段落抽取顺序难以确定的问题,提出一种基于m a i l i f o l d 和聚类 结合的主题分析方法。 1 4 论文组织结构 本文分为六章,各章的内容如下: 第章前言,阐述了本课题的研究背景,简要分析了其研究意义,概述了主要的研 究内容。 第二章多文档自动文摘及相关技术介绍。对多文档文摘中的主题分析技术、聚类技 术、以及多文档文摘主题分析技术进行了介绍。 第三章自动确定阈值的主题划分,分析了现有的几种主题划分算法的优缺点,提出 一种自动确定阈值的主题划分方法,给出了关键的创新点。 第四章h m 监文档聚类中心点选择方法的改进,分析了现有的文本聚类算法的优缺 点,并针对k - m e a 璐聚类算法需要指定聚类中心点的缺点,提出了一种新的文本聚类中 心点选择算法,给出了具体算法和试验过程。 第五章多文档自动文摘主题分析,分析了几种主题分析方法,本文将多文档主题分 析转化为多文档的多个语义段落进行排序的问题,分别从三个方面;词频、段落关系相 关度和聚类进行了分析,并且提出了一种基于聚类和m 髓i f o l d 排序相结合的主题分析方 法,最后对于几种方法文中给出了实验,并对实验结果进行了分析。 第六章文摘生成与评价,介绍了多文档文摘系统排序和信息融合技术,将基于主题 分析的多文档自动文摘跟基于句子聚类的多文档自动文摘进行了对比分析。 6 中国石油大学( 华东) 硕学位士论文 第二章多文档自动文摘及相关技术介绍 多文档集合是指同一主题下不同文档的集合,特点是文档之间具有很多的共同信 息,各个文档中包含与主题相关的不同的信息。多文档文摘是将多文档集合中的重复信 息以一次出现在文摘中,其他与主题相关的信息根据重要性及压缩比依次抽取的文本集 合压缩技术。 多文档文摘的最终目的是为用户服务的,用户的不同需求决定了不同的文摘方法。 根据用户的需求可将多文档文摘分为问题相关的多文档文摘和问题无关的多文档文摘。 问题相关的多文档文摘不仅汇总多文档集合中的主要信息,去除冗余信息,在选择文摘 单元时还需要考虑与问题相关程度。问题无关的多文档文摘是对具有共同主题的多个文 档的汇总,共同主题不是共同的标题,而是指内容中心相似的文档,对于该类文档进行 文摘,重点是去除冗余信息,将多文档的内容以简洁、全面的信息呈现给用户【蚓。 一个好的文摘,必须具有以下的特性【2 l j : ( 1 ) 提供文献内容梗概,文摘必须反映文献原文的主要内容,不能偏离原文主题。 ( 2 ) 简洁性,文摘的一个主要优点是它们比文献原文短,可以提高读者的阅读效率。 文摘用最可能少的文字表述原文的意思,没有冗余的语句。 ( 3 ) 清晰性,仅仅使文摘达到简洁和准确是不够的,还必须用一种易读的文体和形 式把文献内容清晰的表达出来。为此,最好用完整的句子来编写文摘,并尽可能使用作 者自己的词语和语句。如果不这样,常常会混淆或改变作者的意图。 ( 4 ) 连贯性,文摘是一篇语义连贯的短文,即使它由完整的句子按照一定的逻辑关 系组织而成,如果文摘句子不通顺,语义不连贯,读者阅读起来就比较困难。 目前多文档文摘的方法主要是集中在利用多文档集合的信息,将多文档集合作为一 个整体进行研究,通过对多文档集合中的句子按照其表达意思的相近程度重新组合聚 类,然后从不同的类别中抽取文摘旬。该方法可以在理解的角度上作文摘,相比较之下 获得较好的文摘。 2 1 主题划分技术 人们撰写同一专题文章的时候的特点:这一组文章会从不同的侧面来叙述这个主 题,不同的文章侧重点不同,它们论述的侧面既有重叠又有互相补充瞄】。 自动文摘过程中以一种抽取策略抽取句子的缺点: 7 第二章多文档自动文摘及相关技术介绍 当文献的篇幅较长的时候,文献的结构往往不像短文献那么规范,文献首段、尾 段的首句、尾句和子主题并不一定就能完全反映文献的主题,他们并不一定是与 文献主题最相关的句子。 当文献的篇幅较长的时候,可能涉及多方面的知识,因而文献的主题往往不是单 一的,是一某个主题为主,还包括其他主题,如果仅仅根据尉i n l _ 啪d s o n 的方法抽 取权值较高的句子组成文摘,则可能在文摘中这一句话反映原文献中的一个主题, 而下一句话友反映原文献的另一个主题,从而造成文摘内容的凌乱,极大的破坏 了文摘的连贯性瞄】。 在自动文摘系统的研究中,仅需要对文章字词句进行精细考察,同时也要求系统 能对文章文本结构进行分析,保证文摘对原文内容的覆盖度。 一篇文章可能讨论多个主题,而对每一个主题的讨论通常集中在文章的一个或几个 连续的自然段中,那么这几个自然段必然含有相同的与所述主题相关的词语。若文章的 某一自然段是论述某一主题的开始段落,此段中必然出现前几个自然段未出现的新词, 因此可以使用一种基于词频统计的方法来自动确定语义边界,分析文章的逻辑段刚。 ( 1 ) 基于浅层分析的主题划分 基于浅层分析的方法对文档中蕴含的一些浅层特征如词频、位置、线索词等进行统 计分析,据此判断出文档描述内容,找出文本主题。 基于词频统计的方法,它不受领域的限制,其它方法,如:基于位置的主题划分和 基于线索词的主题划分都仅仅适用于具有固定格式或者具体领域的文本。所以基于浅层 分析的方法虽然具有易于实现、处理速度快、不受限域的优点,但这一方法是建立在对 文本表层的形式特征分析的基础上的,缺乏对文本内容的深层次分析,难以保证主题划 分的质量。 ( 2 ) 基于实体分析的主题分析 基于实体分析的主题划分方法首先分析文本内部的概念性表示,然后提取出文档中 各实体并建立起实体间的相互关系,通过对文档实体及它们的相互关系建模来确定各实 体对表述文档内容的作用,如词汇链( l e x i c a lc 蛐塔) 方法f 2 5 】【2 6 】。 构建词汇链( l e 虹c a lc h a i 璐) 的意义段划分方法的中心思想是:文件中所描述的概念 其实是由拥有该概念意义的所有字词组成的结果。词汇链是根据一种词汇间语义关系引 起的凝聚力所建成的,它与文本的结构有一种对应关系,提供了关于文本结构和主题的 重要线索。在具体操作上,首先将文件中的名词词语都摘取出来,按照h 伽闲e t 来判断 8 中国石油大学( 华东) 硕学位士论文 每个字词所代表的意义,并将具有相关意义的词聚集在一起构成一个链,使这些相关的 词语能够保持词义上的连贯性。然后根据l e 姬c a lc h a i l l s 的聚集程度进行意义段划分。比 较分析文章中出现的所有的词汇链,选出其中几条最大的词汇链,分析其词汇覆盖范围, 文章中有较多词汇链结束和开始的地方一般就是话题转换的地方,可以作为意义段划分 点。在一个意义段中,最长的一条词汇链代表的往往就是该意义段所描述的主题。 文本实体特征的获取通常需要比较复杂的算法,特征的选择也需要考虑多方面因 素。这种方法易于描述意义上统一性强的文本。然而,借助h o w l 呵c t 的信息来建构字词 间的相似关系,可能会因为其中某个字词的意义辨认错误而导致产生错误的实体,所得 到的认知模型可能偏离原文所要表达的意思。 ( 3 ) 基于话语结构的主题分析 基于话语结构的方法主要通过对文档格式、主题线索、修辞结构、文体结构等文章 构成因素的分析对全文宏观结构建模,以准确把握全文的内容结构f 2 7 】【2 8 】。因为结构分析 不受文章领域限制,文档结构信息往往能较为准确地表示出语言单元间的逻辑关系,为 自动文摘生成提供重要的线索。 这种方法首先根据文档层次结构、语言和修辞结构建立各语言单元节点及节点的章 节、段落、复句之间的关系;然后分析全文结构和复句结构,将各自然段间和自然段内 部各复句间的关系分为并列、总分等;最后进行层次结构分析,建立层次结构树。根据 结构树的构造找出文章的主题。 这种方法虽然不受文章领域限制,能够从语言关系的构成上可以比较准确的找出文 章的主题。然而由于自然语言本身的组成结构非常复杂,很难有固定的模式,加上当前 的语言结构处理分析技术不够成熟等原因,很难确定比较理想的文本结构。 另外,近来研究者比较关注的基于段落相似度的方法,通过计算段落之间的相似度, 把相似度大于指定阈值的连续的段落作为一个主题段落,但是这种方法对于相似度阈值 的指定是通过经验确定的,对不同类型的文章适应性不强。 2 2 、文本聚类技术 2 2 1 文章单元聚类技术 基于句子聚类:基于句子聚类的自动文摘的难点是计算句子的相似度,哈尔滨工 业大学的秦兵利用句子的依存结构进行相似度计算,相似度阈值通过标准语料训练来确 定嗍。文献【1 4 】通过改进层次聚类来形成多文档的层次结构,根据层次聚类的结果来抽 9 第二章多文档自动文摘及相关技术介绍 取句子产生多文档的层次结构。 句子级别聚类存在两个难点:1 、句子的相似度计算。2 、聚类类别的选择。 基于段落聚类:文本层次分析与文本浏览【1 7 1 中采用有序聚类( 有序聚类就是寻找一 种方法,使得类内差距小,而类间的差距大) 方法划分文本的层次。在文本自动综述系 统f 2 0 】中,系统也是通过聚类技术建立文本的层次结构,然后抽取段落组成文摘。因为最 重要的段落中也可能包含一些无关紧要的句子,所以基于段落抽取的文摘显得不够精 炼。 武汉大学张云涛在文献【1 6 】中提到的建立文章层次结构的方法实际上一种聚类。首 先对于每一个段落建立一个向量,然后计算这一篇文章的相邻段落的相似度,把具有最 大相似度的段落合并在一起,直到达到结束要求的类别数目。 2 2 2 聚类文档的聚类技术 文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典 型的例子是哥伦比亚大学开发的多文档自动文摘系统n e w s b l a 哦扩o 】。n e 粥b l 嬲t e r 将每 天发生的重要新闻进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成 等处理,从而生成一篇简明扼要的摘要文档咖。 另外,可以对搜索引擎返回的结果进行聚类,将松散的聚类结果聚成聚合的相关主 题的文本集合,然后对这些文本进行多文档文摘处理。 2 2 3 常用的文本聚类算法 ( 1 ) 层次聚类算法 层次聚合聚类方法的计算复杂度一般为of ,以夕,其中嚣为输入文档的个数。 ( 2 ) k - m e a 璐算法 k - m e a 璐是一种典型的基于划分的方法。其基本原理是首先选择k 个文档作为初始 的聚类点,然后根据簇中对象的平均值,将每个文档( 重新) 赋给最类似的簇,并更新簇 的平均值,然后重复这一过程,直到簇的划分不再发生变化。k - m 璐的算法复杂度为 o ( k l l l ) ,其中l 为迭代次数,n 为文档个数,k 为类别个数【3 1 1 。 k - m e 锄算法本质上是一种贪心算法。可以保证局部最小,但是很难保证全局最小。 另外该方法需要预先指定k 值和初始划分,从而容易使聚类结果受到影响。为此人们提 出了一些相应的解决方法。如可以将算法执行多次,取最好的一次作为最终结果。文献 【3 2 】采用遗传算法来优化k 值。t l i 等人提出一种聚类算法a s i 【3 3 】动预测聚类的个数 l o 中国石油大学( 华东) 硕学位士论文 进行了研究。在已知k 值的情况下,如何获得初始聚点也是一个值得关注的闯题。l i k 勰 e ta 1 等人提出的g l o b a l lk - m e 锄s 方法对初始聚点的选择提出了新的方案,而不是随机 选择聚点。比较有效的方法还有基于最小最大原则的方法和基于密度的方法等【3 卯。 ( 3 ) 其它算法 其它常用的算法包括基于密度p b s c a 如的算法。另外一种值得关注的文档聚类方 法是基于s o m 神经网络的方法。 2 3 、多文档主题分析 在多文档自动文摘的过程中,类比较典型的多文档的主题形式是一组多文档描述 一个主题。图2 1 包含描述主题信息的三个子主题,在子主题中又包含了对于子主题的 不同方面信息的描述【堋。 伊拉克战争 拉伯雷袈ll 茯餐四 法困 ii 其他 俄罗斯if 领导人 的位置il 的谈判 图2 - l 典型的多文档的主题形式 f i g2 l咖i ls u b t o p i co f 也em u l t m 佻m 蚰t 本文的多文档文摘系统是基于统计方法、通用的、基于句子抽取的多文档文摘系统。 通用的多文档文摘系统给定一组具有同一个主题的文档集合,不同的文档讲述不同的侧 面的信息,不同文档中的信息可能会产生重叠,因此需要采用合适的方法来选择句子进 入摘要以尽可能的去除冗余信息来生成文摘,一个比较通用的方法就是将多文档集合组 织成不同的子主题集合,子主题的构成单元可以是段落、句子、语义段落单元。在多文 档集合中的文档程度都比较短小的时候,我们可以以句子作为构成子主题得单元。但是 在多文档中包含文本内容较长的文档的时候,以句子作为处理的单元将会使得较多的冗 余信息进行处理,因此本文提出的基于主题分析的自动文摘分析是在多文档集合中包含 的文章长度大于一定长度的情况下提出的。在处理多文档集合的时候,如果文章长度较 短,可以将它作为一个语义段落。在文档长度较长的情况下,将其划分成更小的语义单 元。在获得多文档集合的基于语义段落单元构成的子主题信息后,再从语义段落中决定 第二章多文档自动文摘及相关技术介绍 抽取哪个句子和抽取句子的顺序。 2 3 1 多文档主题形成分析 对于多文档文摘来说,有不同的目的和要求,一般的多文档主题形成的不同类型有 【3 6 】 l 、找出文档集的共同部分 2 、文档集的共同部分加各自的独特部分 3 、中心文档 4 、中心文档+ 外围文档 5 、最新的文档+ 外围文档描述 一般的多文档自动文摘要求满足条件1 和条件2 ,生成的摘要既要包括多个文档包含 的共同信息,又要考虑信息的全面性。因此要求对于某一个主题相关的多文档集合,分 析多文档集合的子主题。多文档集合的所有单文档的语义段落划分完毕之后,需要对子 主题进行分析并确定从哪几个语义段落中抽取句子组成文摘,我们将此转化为所有语义 段落的排序问题。 语义段落的选择有不同的方法。方法一是首先计算段落中包含的句子的重要度,然 后根据句子的重要度来计算段落的重要度,文献 3 7 】中首先计算出每个句子的得分,然 后对于文章进行分段,按照得分高低依次从每个语义段落中抽取句子,直到句子数目满 足要求。文献【3 8 】主要是利用公式计算词语和短语跟问题的相似度,并按照相似度大小 对段落进行排序。另一种方法是结合词汇链来计算段落跟句子的权重,文献【3 9 】中主要 是利用词汇链方法对于段落进行排序,在文章的词汇链构建之后,利用公式 一c 删沪姜型芝篙产 来计算语义段落的得分,并且按照得分的高低来进行句子抽取。文献【4 0 】提出t u ( t e ) 【t 硼i t s ) 是文档的划分单位,通常情况下以段落为单位,在几条词汇链( 词语、短语、命名 实体等) 建立之后,被几条长的词汇链所包含的t u 被认为是最重要的。文献【4 1 】中提到 了利用流型排序算法对于句子的重要性进行排序,但算法是半监督的学习算法,需要用 到已知的输入来训练算法得到句子的分数。 文献【4 2 】提出了基于聚类方法的语义段落排序,对每个类簇,选择在这类簇中出现 频率最高,在其余簇中出现频率不高的词语。所有的聚类簇的词语选择完成之后,建立 所有选择出来的词语的“共现词语”,即包含在从每个簇中选择出来的词语中的词语。 1 2 中国石油大学( 华东) 硕学位士论文 将所有包含这些“共现词语”的句子抽取出来作为文摘。 2 3 2 主题分析对于自动文摘结果改善的讨论 在文章主题划分之后,辅助在单文档自动文摘工作中,并对这一工作对最终文摘的 影响研究,发现对于改善试验结果具有一定的帮助【4 3 】。 如果对于抽取句子形成的文摘再辅助以局部主题信息,这样摘要包含的信息量 会比较完善,对于文摘质量的提高有所帮助。 应用在自动文摘的显示方面,因为主题分析特有的优势,在主题分析之后,根 据主题的分布建立相应的链接连接到文章的原先的段落中。因为对于传统的文 摘来说,摘要的句子在原来文章中可能会有一个大的过渡。如果把抽取出来的 句子直接链接到原先文章的时候,跨度过大。 在进行文摘的过程中,对于可能导致错误出现的原因进行了分析,发现3 7 7 的错 误可以通过对于文章逻辑结构的分析而避免。因为在分析文章逻辑结构之后,可以保证 每个片断的内容在文摘中都有所体现。另外的1 5 2 的错误也可以通过发现一个片断内 的子主题、去除噪声来避免,因此5 0 的错误( 至少在文章中的任务环境中) 可以通过 主题划分的模块来避免即】。 表2 1 主题划分对于试验结果影响 h b l e2 一lt h ea 融t l 傩o ft l i et o 出p 曩确t 耋o nt ot h ee x p e r 衄佃t 所有文档抽取 1 个句子形成文摘 抽取比率4 个句子 1 0 2 0 s e g4 5 1 34 5 1 3 4 6 7 8 s u m3 6 3 43 9 8 45 8 6 6 s u n + s e g 4 1 6 44 6 7 55 l ,6 5 s e g :代表利用主题划分来进行文摘的结果 s l m :代表基本的抽取句子模块的文摘结果 s e g + s 切垤:代表把主题划分应用到基本句子抽取模块中的试验结果 主题划分应用在文摘长度短的情况下效果特别好。除此之外,如果只是利用主题划 分来进行文摘,试验结果表明在特定的情况下,文章的召回率比原先的抽取句子模块高。 2 4 本章小结 本章对多文档文摘中的主题分析技术、聚类技术、以及多文档文摘主题分析技术进 行了介绍。分析了多文档自动文摘的关键技术,总结了目前的多文档主题形成方法。 1 3 第三章自动确定阈值的文章主题段落划分 第三章自动确定阈值的文章主题段落划分 文章的结构分为形式结构和语义结构两部分,文章的形式结构标记是语义划分的依 据。段是文章结构划分的核心,文章中的段分为形式段和逻辑段,形式段即是文章中的 自然段,而逻辑段是完整地反映同一中心内容的自然段的集合洲,即文章的子主题。 一篇文档往往有多个主题组成。在对人工摘要过程进行观察后发现,文摘员在摘要 前一般要通读全文,把握文档的中心思想和各个主题,并权衡各个主题对全局主题的贡 献大小,从而使文摘能够尽可能地覆盖文档中的有用信息。因此,文档自动摘要应该模 拟人类思维,建立在把握各个主题的基础上,这样才能够比较全面、准确地反映文档内 容m 。 主题划分是将以自然段为基础的文本的物理结构转换成以意义段( 逻辑段) 为基础的 文本的逻辑结构,即确定局部主题。然后对于局部主题进行处理,可以有效的去除冗余 信息,并可以从不同的角度对事物进行描述,使文摘简洁、全面。这样可以提高系统生 成的文摘的中心主题覆盖率及文摘抽取的准确率,进而改善自动文摘的质量。近来研究 者比较关注的是基于段落相似度的方法,在主题划分中指定相似度阈值的方法对划分精 度存在不利影响。为解决这个问题,本章提出了主题相似度计算公式,公式结合了词的 重复特性和段落的距离特征,同时介绍了根据段落的主题相似度自动发现阈值的方法。 3 1 基于阈值自动发现的主题划分 以下是单文档主题划分的框架图。 f i g3 1 s l n g l ed o 伽m e n tt o p i cp a n i 行o n 1 4 中国石油大学( 华东) 硕士学位论文 工作的第一步是采集试验数据,实验数据可以采集具有共同主题的一组新闻,也可 以采用格式比较规范的科技论文作为试验数据。然后是分词预处理工作,我们使用的分 词软件是中国科学院计算技术研究所研制的分词标注系统。去除停用词可以去除那些对 于相似度计算贡献不大的词语,利用现有的停用词词表作为过滤词典,通过对每一个词 语查询词典来去除停用词。 接下来我们进行的主要工作包括: 1 、段落相似度计算 相似度的计算作为段落相似度的度量,是进一步工作的基础,相似度的计算结果将 直

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论