(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf_第1页
(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf_第2页
(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf_第3页
(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf_第4页
(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于概念的多文档自动摘要研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 多文档自动摘要是自然语言理解领域的一个重要的研究方向。近年来,随 着计算机和互联网技术的迅速发展和普及,信息增长的速度比以前各个时期都 更快,人们越来越陷入到信息的海洋之中。目前,人们主要是通过搜索引擎获 得自己需要的信息,但搜索引擎返回来的相关文档太多,而多数是重复和相似 的。这样人们就不能快速且高效地获取自己所需要的信息。多文档自动摘要技 术研究的目标正是力求解决这一问题,把多篇同一主题的文档进行汇总,给人 们提供简洁、信息全面的摘要,将人们从繁琐、冗余的信息中解脱出来。基于 概念的多文档自动摘要的研究借助于语义资源确定文档中单词的概念,然后通 过概念共现图抽取文档集的主题概念,计算句子的重要性,最后抽取文摘句生 成摘要。 本文围绕基于概念共现图的多文档自动摘要系统,针对其关键技术展开了 研究,主要研究内容和特色如下: ( 1 ) 为了引出概念共现图方法,本文首先研究了词共现图方法,并通过引入 潜在语义分析的方法减小词对之间的相关性,引入衰减因子来提高词共现度的 准确性等对它进行了改进。 ( 2 ) 对概念提取方法进行了研究。借助语义资源w o r d n e t 的支持,提出了一 科,概念归并算法和概念权重计算模型来确定文档中单词在上下文中的概念。 ( 3 ) 本文以概念代替词形,用概念统计代替传统的词形频率统计,建立概念 向量空间模型。以减小传统的标引词向量之间存在的”斜交”情形对文摘效果 的影响。 ( 4 ) 深入研究了主题划分技术,并提出了一种基于概念共现图模型的主题划 分方法,使得产生的子主题信息覆盖率大,又尽可能提高它对全局主题的反映 程度。 本文提出了基于概念共现图的多文档自动摘要方法。这是对多文档自动摘 要技术的初步探索,并取得了一定的研究成果。多文档文摘无论是作为独立的 系统还是作为搜索引擎等的一部分都将拥有广泛的应用前景,随着互联网的发 展和时代的进步会有更大的发展空间。 关键词:自动摘要多文档文摘词共现图概念共现图潜在语义分析 a b s l r a c t a b s t r a c t m u l t i d o c u m e n ts u m m a r i z “o ni sa ni m p o r t a n tb r a n c ho fn a t u r a ll a j l g u a g e u n d e r s t a n d i n g r e c e n t l y ,w i t ht h ed e v e l o p m e n ta n dp o p u l 2 l r i t yo fc o m p u t e ra n d i n t e m e tt e c h n o i o g y ,t h eg r o w i n gs p e e do fi n f o 咖a t i o ni sf a s t e rt h a nt h a to fa 1 1 y f o m l e rp e r i o d ,m o r ea n d m o r ep e o p l er u ni n t ot h eo c e a no fi n f o 肌a t i o n c u r r e n t l y , t h em o s ti m p o r t a n tw a yo fo b t a i n i n gi n f o r m a t i o ni sb yu s i n gs e a r c he n g i n e s b u t s e a r c he n g i n e sh a v es o m es e r i o u sd e f e c t s f o re x a m p l e ,i o t so fr e l e v a n td o c u m e n t s a r er e t u m e di fy o uu s es e a r c he n g i n e st og e ti n f o r m a t i o n ,a n di o t so ft h e ma r es 锄e o rs i m i l a r t h a ti sw h yp e o p l ec a n tg e ti n f ;3 咖a t i o nr a p i d l ya n de f 危c t i v e l y i no r d e r t or e s o l v et h ep r o b l e m ,t h er e s e a r c ho nt e c h n o l o g i e so fa u t o m a t i cm u l t i - d o c u m e n t s u m m a r i z a t i o ni sp r o p o s e d i tc a np r o v i d eaf u l l i n f o m a t i o na n dc o n c i s es h o r tp 印e r a b s t r a c t e df r o mas e to ft o p i cr e l a t e dd o c u m e n t s ,a n dh e l pp e o p l eg e ti n f o r m a t i o n e f f e c t i v e l ys oa s t ol i b e r a t ep e o p l ef r o mm s s ya n dr e d u n d a mi n f o r m a t i o n t h e r e s e a r c ho na u t o m a t i cm u l t i d o c u m e n ts u m m a r i z a t i o nb a s e do nc o n c e p tm a k e sc l e a r t h ec o n c e p to fw o r di nd o c u m e n tb ym e a n so ft h es u p p o r to fs e m a n t i cr e s o u r c e 一 w 6 r d n e t i tc o n s t r u c t sc o n c e p tc o - o c c u r r e n c eg r a p ha n de x t r a c t ss u b j e c tc o n c e p t s f - r o mt h em u l t i d o c u m e n ts e tb yu s i n gt h ec o - o c c u r r e n c ei n f o r m a t i o nb e t w e e n c o n c e p t s s u b s e q u e n t l yi tc o m p u t e ss e n t e n c ei m p o r t a n c ei n a c c o r d a n c ew i t ht h e s u b j e c tc o n c e p t s ,e x t m c t ss u m m a r i z i n gs e n t e n c e sa n dg e n e r a t e ss u m m a r i z a t i o n t h ep a p e rf o c u so nt h es u m m a r i z a t i o ns y s t e mb a s e do nc o n c e p tc o 。o c c u r r e n c e g r a p ha n dg i v e ss o m er e s e a r c ho nk e yt e c h n o l o g i e so fa u t o m a t i cm u l t i - d o c u m e n t s u m m a r i z a t i o n t h em a i nr e s e a r c hw o r ka n dc h a r a c t e r i s t i co ft h et h e s i sa r ea s f o i l o w s : ( 1 ) i no r d e rt oe d u c et h em e t h o do fc o n c e p tc o o c c u r r e n c eg r a p h ,t h i sp 印e r g i v e ss o m er e s e a r c ho nt h em e t h o do fw o r dc o - o c c u r r e n c eg r a p h 行r s t l y i ti m p r 0 v e s t h ec a p a b i l i t yo fw o r dc o o c c u r r e n c eg r a p hb ym e a n so fl a t e n fs e m a n t i ca n a l y s i sa n d a d d i n gad e c a y i n gf a c t o r ( 2 ) s t u d y i n go ft h ec o n c e p t se x t r a c t i n gm e t h o d i tp r o p o s e sa na l g o r i t h mo f m e 毽in gc o n c e p t sa n dam o d e lo fc o m p u t i n gc o n c c p ti m p o n a n c et om a k ec l e a rt h e m e a n i n go fw o r di nc o n t e x tb ym es u p p o r to fs e m a n t i cr e s o u r c e w o r d n e t ( 3 ) 1 h i sp a p e rr e p l a c e sw o r df o 册w i t hc o n c e p ta n dr e p l a c e st r a d i t i o n a lw o r d f r e q u e n c ys t a t i s t i c sw i t hc o n c e p tc o u n t i n g i tb u i l d sc o n c e p t u a lv e c t o rs p a c em o d e l i i a 吣t r a c t t od i m i n i s ht h ei m p a c to fi n t e r s e c t i o ne x i s t i n gb e t w e e nc r a d i t i o n a lw o r dv e c t o r s ( 4 ) d e e pr e s e a r c ho nt e c h n 0 1 0 9 yo fd i v i d i n gs u b j e c t w ep u tf o r w a r dam e t h o d o fd i v i d i n gs u b - s u b je c t sb a s e do nt h ec o n c 印tc o o c c u r r e n c eg r a p hs oa st oo b t a i n s u b s u b je c t sw i t hs u 娟c i e n ti n f o 肿a t i o na n de n h a n c et h ec a p a b i l i t yf o r r e p r e s e n t i n g g l o b a ls u b je c t t h i sp a p e rp r o p o s e sa na p p r o a c ho fa u t o m a t i cm u l t i d o c u m e n ts u m m a r i z a t i o n b a s e do nt h ec o n c e p tc o o c c u r r e n c e g r a p h i ti sa ni n i t i a l s t u d yo fa u t o m a t i c m u l t i d o c u m e n ts u m m a r i z a t i o na n dt h ee x p e r i m e n to fd u c 2 0 0 5e v a l u a t i o ns h o w s t h a tt h er e s u j cj ss a t i s f a c t o 叫m u l t i d o c u m e n ts u m m a r i z a c i o nh a sab r i 曲t 允t u r en o t o n l yi nt h ea s p e c to fb e i n gi n d e p e n d e n ts y s t e m ,b u ta l s oa sap a r to fs e a r c he n g i n e s , w i t ht h ed e v e l o p m e n to fi n t e m e ta n dt h ep r o g r e s so ft h ee r a ,i tw i l lh a v em o r ea n d m o r eh u g ed e v e l o p m e n ts p a c e k e yw o r d s : a u t o m a t i c s u m m a r i z a t i o n , m u l t i d o c u m e n t s u m m a r i z a t i o n , w o r d c o o c c u r r e n c eg r a p h ,c o n c e p tc o - o c c u r r e n c eg r a p h ,i a t e n ts e m a n t i c a n a l y s i s 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 计笺象 作者鹳:躺 纠年衫月d 阳 第1 章绪论 第一章绪论 1 1 本研究的背景和意义 1 1 1 研究的背景 英国科学家詹姆斯认为:人类的科学知识在1 9 世纪是每5 0 年增加一倍, 2 0 世纪中叶是每1 0 年增加一倍,在2 0 世纪7 0 年代就已经缩短到每5 年增加 一倍了。同时,信息分散、交叉引用频繁,人类信息的生产能力超过了人类对 信息的处理、组织和吸收能力,从而产生了信息爆炸的危机( 孙建军,2 0 0 4 ) 。目 前,随着计算机和互联网技术的迅速发展和普及,信息增长的速度比以前各个 时期都更快了,人们越来越陷入到信息的汪洋大海中。大量无用信息的泛滥严 重干扰了用户对目的信息的获取。为了挖掘有用的信息,人们需要浏览大量繁 琐、冗余的信息。为了满足不同用户检索所需信息的需要,检索系统j 下朝着自 然语言检索、用户友好的方向发展。 据统计,互联网上的信息9 0 以上是以文本的形式表现的。信息量的极度 膨胀和人们对信息需求的要求越来越高,极大地推动了自然语言处理技术的发 展。当前,自然语言处理技术已成为许多科研人员只益关注的研究领域。信息 检索、信息过滤、自动摘要、机器翻译等技术成为人们研究的热点( 刘寒磊,2 0 0 5 ) 。 由于信息的极度膨胀,这对自然语言处理技术提出了更高的要求。人们总是希 望能在浩如烟海的信息中迅速准确地找到自己在学习或研究中所需要的资料。 自动摘要技术是利用计算机从文档中自动提取内容生成摘要的方法,其中 摘要应包含原文的核心内容或用户感兴趣的内容,并以语意连贯的段落乃至篇 章的形式输出,是快速获取感兴趣资源的一个准确高效的手段。 自动摘要也是情报工作自动化中的重要课题之一。在情报科学领域,由于 文献数量的迅猛增长,“文摘作为一种帮助读者迅速准确地了解原文内容的二 次出版物,越来越受到人们的重视。同时,人们也认识到传统的人工摘要从效 率和成本两个方面都难以适应情报工作未来发展的需要,因而萌生了自动摘要 的思想。近年来,人工智能、计算语言学的发展,以及机读形式文本的不断增 加,推动了自动文摘的研究( 孙建军,2 0 0 4 ) 。 直到不久前,自动文摘的研究仍然局限于单文档自动摘要。随着w w w 和 大规模搜索引擎的出现,面对大规模真实文本进行信息发现已成为迫切需要。 第l 章绪论 当前人们能够通过搜索引擎方便地搜到自己想要的各种信息。其中比较有名的 搜索引擎有g o o g l e ,b a i d u ,y a h o o 等。无论哪方面的内容,这些搜索引擎都能 帮助人们快速地找到相关的网页或文档。然而在获得大量有用信息的同时,人 们不得不面对这样一个问题:互联网上存在大量的冗余信息。原因是多方面的, 比如网站间会存在信息的转载或部分内容的引用。为了解决搜索引擎不能提供 给用户简洁、直接的答案的问题( 李彬,2 0 0 3 ) ,学者们越来越关注如何从大批量 多文档中进行内容综述,即生成多文档摘要。 因为当人们需要了解某个领域某个专题的信息时,最快捷的办法是找到这 个领域的专家所撰写的有关该专题的综述性文章。所以如果计算机可以从大量 文献中自动产生这样的综述性文章,无疑将大大提高人们获取信息的速度。提 出多文档文摘的初衷即在于此。简言之,多文档自动摘要是从一批主题相关的 文档中自动产生该主题的全面、简明扼要的短文。多文档自动摘要可以看成是 自动文摘更高层次的推广。广义的自动文摘按处理的文本对象可分为单文档和 多文档自动文摘系统。一般所指自动文摘系统即单文档文摘系统( 郑义,2 0 0 3 ) 。 单文档自动摘要技术发展到今天已经具有了一定的理论基础,并发展得比较成 熟,得到了广泛的应用。但它在解决目前互联网上多篇同一主题文档进行汇总 和压缩的问题上仍然存在一些方法上的不足,所以本文对多文档自动摘要技术 进行了一些研究,希望能直接给用户提供简洁、信息全面的短文,以提高用户 获取信息的效率。 1 1 2 研究的意义 多文档文摘技术是信息时代发展到一定程度的必然趋势。因为随着互联网 和搜索引擎技术的发展、普及,人们对如何在庞大的互联网上高效获取有价值 的信息日益关注。因而多文档自动摘要成为了一个热点,对它的研究有许多实 际的意义。 ( 1 ) 它可以提高文摘杂志的时效。文摘杂志是一种二次出版物,人工编制 文摘成本高、效率低,从原始文献的出版到文摘的出版往往有相当长的时差。 自动编制文摘不仅可以缩短加工文献和编辑时间,较及时地给用户提供文献线 索,而且成本大大降低。 ( 2 ) 这也是快速阅读的需要。人们要了解某一领域的知识,往往要翻阅许 多文献。一个好的自动摘要系统可以为读者提供文献的概要与精华,这对读者 快速选择文献与快速了解文献内容非常重要。 ( 3 ) 当今电子出版物如潮而至,国际互联网蓬勃发展,大量的文献以机读 形式出现,网上信息极为丰富。要想在信息的海洋中找到所需信息,不仅需要 第1 章绪沦 先进的信息检索技术,还应该拥有一个能自动压缩信息甚至自动提炼信息的智 能系统才能将人们从繁琐、冗余的信息中解放出来( 王彩霞,2 0 0 3 ) 。 ( 4 ) 在信息浏览中,多文档文摘不仅可以作为一个独立的系统使用,而且在 其他的自然语言处理系统中承担着重要的角色( 董建设,2 0 0 6 ) 。例如,多文档 文摘是新一代智能搜索引擎的重要组成技术,它可以作为返回答案的后处理模 块。通用搜索引擎只是将一系列与用户需求相关的文档直接提交给用户,而智 能搜索引擎能将这些与用户需求相关的信息进行有机地融合,并把经过提炼的 信息以简洁的短文或句子的形式呈现给用户。多文档文摘技术也是话题的监 测与跟踪技术t d t ( t o p i cd e t e c t i o na n dt a c k i n g ) 的组成部分,根据用户提供的信 息,在互联网的文本流中不断发现与其相关的文本信息,并将新发现的文本与 已有的文本进行汇总,生成线索报告提交给相应的用户。在国家安全部门的 非法信息监测,特殊信息的定制与融合等方面,多文档文摘也能发挥重要作用 ( 秦兵,2 0 0 5 ) 。 总之,多文档文摘技术为用户提供了方便,提高了用户获取信息的速度和 效率,为互联网的应用开辟了新的方向。 1 2 自动摘要系统概述 自动文摘就是利用计算机自动地从原始文献中提取重要信息生成准确全面 地反映某一文献中心内容的简洁且语意连贯的短文。它对大规模电子文本进行 快速地浓缩、提炼,是一种加快阅读和获取信息的准确而高效的手段。 在情报科学领域,由于文献数量的迅猛增长,“文摘”作为一种帮助读者迅 速准确地了解原文内容的二次出版物,越来越受到人们的重视。同时传统的人 工摘要从效率和成本两个方面都难以适应情报工作未来发展的需要,因而人们 萌生了自动文摘的思想。近年来,人工智能、计算语言学,以及数字化文本的 不断增加,推动了自动文摘研究的发展( 孙建军,2 0 0 4 ) 。 1 2 1 国内外研究的现状 从1 9 5 2 年l u h n 提出自动文摘的思想到今天的5 0 多年历程中,自动文摘的 价值已充分显露出来。1 9 5 8 年,他发表了一篇题为“t h ea u t o m a t i cc r e a t i o no f l i t e r a t u r ea b s t r a c t s ( a u t o a b s t r a c t s ) ”的论文,从此揭开了计算机编制文摘的序 幕。此后,b a x e n d a l e 、0 s w a l d 、e d m u n d s o n ( 1 9 6 1 ) 和w l y s 、w a r l 、i b m 公司 等相继进行了研究。一直到7 0 年代初俄亥俄州立大学j a r n e sa r u s h ( 1 9 7 5 ) 等研 制出a d a m ( a u t o m a t i cd o c u m e n ta b s t r a c t i n gm e t h o d ) 系统的这期间,主要是基 第l 章绪论 于文本物理信息( 词的频率、词的位置、句子的位置) 分析的文摘方法占主流的 时期。7 0 年代中期到8 0 年代末,学者们感到基于文本表层信息提取的方法难 以产生高质量的文摘,于是将自动文摘的适用领域限韦j 在很狭窄的范围内,进 行深入的基于自然语言理解的文摘研究。进入9 0 年代以来,随着i n t e m e t 的开 通,自动文摘的价值充分显露出来,越来越多的学者纷纷开始从认知心理学、 情报科学、计算语言学等各个方面对其进行研究,提出了基于文本修辞结构分 析的文摘方法等新的思路,自动文摘的研究进入了前所未有的繁荣期f 孙建 军,2 0 0 4 ) 。 我国大约从1 9 8 5 年开始介绍国外自动文摘方面的研究情况,至今也有2 0 余年 的历史了。但目前的技术水平尚不成熟,问题主要是在中文本身的语言特点及其 自然语言理解方面的困难。 从识别角度来说,汉语和西文的句子主要区别在于汉语中词之间没有空格, 而真正负载信息的是词而不是字,因而中文自动文摘就存在分词的问题。同时, 汉语的词汇极为丰富,同一个概念可以用很多不同的词汇表达,这给词频统计 带来了很大的困难。对中文文档的机器理解是短期无法完成的问题( 刘挺,1 9 9 9 ) 。 目前中文自动文摘的研究主要集中在以下几个方面,即分词、歧义消解、词频 统计以及理解等。目前国内自动文摘研究情况是: 基于自动摘录的代表人物和系统有复旦大学吴立德等开发的中文自动文摘 系统和上海交通大学王永成教授的s j t u c a a ( 1 9 8 8 ) 和o a 中文文献自动摘要系 统( 1 9 9 7 ) 。 基于理解方面的有东北大学的姚天顺( 1 9 9 5 ) 的“中文全文自动摘要系统”, 中科院软件所的李小滨等( 1 9 9 1 ) 开发的e a a s 系统,哈尔滨工业大学王开铸 ( 1 9 9 2 ) 的h i t 8 6 3 系列( 1 9 9 9 ) 和m a t a s 系统( 1 9 9 2 ) 。 基于信息抽取的有北京邮电大学信息工程系钟义信教授( 2 0 0 1 ) 等人采用基 于多a g e n t 技术的文摘方法开发的g l a n c e 自动文摘系统及n e w s 自动文摘系统 等。 基于结构的有山西大学郭炳炎等( 1 9 9 7 ) ,东北大学姚天顺等( 2 0 0 0 ) ,复旦大 学吴立德教授等( 2 0 0 4 ) 做的许多研究。 1 2 2自动摘要技术的分类 哈尔滨工业大学的刘挺( 】9 9 9 ) 把自动文摘系统分为自动摘录、基于理解的 自动文摘、信息抽取和基于结构的自动文摘四种。这四种方法都不同程度地使 用了词法、句法、语义,以及语用分析技术、语料库技术等,在中文自动文摘 中还涉及自动分词技术。 第1 章绍论 ( 1 ) 自动摘录是将文本视为句子的线性序列,将句子视为词的线性序列。它 通常首先计算词的权值,然后通过词语的重要程度来计算句子的权值,对原文 中的所有句子按权值高低降序排列,权值高的若干句子被确定为文摘旬。 ( 2 ) 基于理解的自动文摘方法建立在人工智能、自然语言处理的基础之上, 它利用语言学知识对文档进行语法、语义和语用分析以获取语言结构,更重要 的是利用领域知识进行判断、推理,得到文摘的意义表示,最后生成摘要。 ( 3 ) 信息抽取的自动文摘方法以文摘框架为中枢。它对文本中的有用信息进 行有限深度的分析,然后利用特征词提取相关短语或句子填充文摘框架,再利 用文摘模板将文摘框架中的内容转换成摘要输出。 ( 4 ) 基于结构的自动文摘方法认为篇章是一个由语义单元组成的关联网络。 它反映了不同单元之间错综复杂的语义关系。如果篇章结构分析清楚了,文章 的核心部分自然能够找到。 1 3 多文档文摘国内外研究的现状 多文档集合是指同一主题的不同文档的集合,其特点是所有文档都具有与 共同主题相关的共同信息,也包含与一些与主题相关但彼此不同的信息。多文 档文摘需要从该同一主题的文档集去除冗余、并考虑文档间的关联性和各自的 差异,产生一个依压缩比和信息重要程度抽取的概要性短文。 多文档文摘的最终目的是为用户服务,所以用户的不同需求决定了不同的 文摘方法。根据用户需求可将多文档文摘分为问题相关的多文档文摘和问题无 关的多文档文摘。其中问题无关的多文档文摘是对具有共同主题的多个文档进 行信息浓缩,是对文档集所描述的主题、范围和结果的一种简洁概括。而问题 相关的多文档文摘不仅仅决定于文档集的主要内容,而且也决定于与问题相关 的程度,即用户的兴趣。这是实现用户个性化文摘必不可少的技术。 1 3 1国外研究的现状 在国外,多文档文摘的研究开始于8 0 年代初期,那时候研究的应用领域主 要是科技文献的自动摘要技术。由于科技文献极具结构化,比较容易刻画,所 以一开始多文档自动摘要的研究多是受领域限制的,不利于推广。真正非受限 领域的多文档文摘的研究开始于1 9 9 7 和1 9 9 8 年问。 在受限域的多文档文摘研究中,h a h n 于l9 9 0 年在领域知识的基础上实例 化层次框架中的各子部分,并用泛化和归类的方法获得原文的主题。r a d e v , m c k e o w n ( 2 0 0 1 ) 对于新闻报道中同一主题的事件或一系列事件从不同角度进行 第1 章绪论 观察,并分析其中人物和言语变化等信息的差异来确定多文档摘要。 对于非受限领域,通常采用统计技术来识别文档间的相似和差异。并利用 文本单元间的语义关系,以词汇、语义联系为依据,从多文档中提取主题相关 的文本单元生成多文档摘要。这种方法通常是基于词汇相似度的比较,将特定 相似域的文本块连接成“文本关系图”,把图中与其他文本块连接较多的文本块 当作多文档集合的重要信息抽取出来组合成多文档摘要。 目前,多文档文摘的研究工作展开得比较火热。哥伦比亚大学的k a t h l e e n r m c k e o w n 等人在多文档自动摘要的理论与实践中取得了很多成绩,发表了许 多文章。n e w s b l a s t e r 是哥伦比亚大学在多文档文摘方面的一个科研成果,它是 新闻跟踪的工具,并可以为每天的主要新闻做出相关摘要。美国南加州大学的 d a j l i e lm a r c u ,c h i n y e rl i n 等人也是多文档文摘领域中比较活跃的人物,发表了 比较多的文章。n c a t s 是南加州大学在多文档文摘技术上的成果,该系统参加 了d u c 2 0 0 1 的评测,成绩名列前茅。日本东京大学的m i n 曲u iw a n g 和h e d i h e k o t a n a k a 开发了利用参考文献信息的多文档中文自动摘要系统。其原理是通过抽 取原文中涉及的参考文献的内容及其和原文异同的部分来组成文摘。另外美国 密西根大学的d r a g o m i rr r a d e v 、卡耐基梅隆大学的j a d eg o l d s t e i n 等人也在多 文档文摘领域做了很多工作。 1 3 2 国内研究的现状 对中文的多文档文摘的研究目前还处于起步阶段,国内哈尔滨工业大学的 秦兵( 2 0 0 5 ) 、刘挺( 1 9 9 9 ) 、徐志明( 2 0 0 7 ) 和王开铸( 1 9 9 2 ,1 9 9 8 ,1 9 9 9 ) 是该领域非常 活跃的人物,发表了许多文章。他们的m a t a s 系统为基于意义理解的文摘系 统。它首先对文本分析生成意义的机内表示t m r ,然后对t m r 进行句子级和 上下文级压缩并加权,选择权重较大的句子生成摘要。复旦大学的黄萱菁( 2 0 0 3 ) 和吴立德( 1 9 9 7 ) 对多文档自动摘要也进行了深入的研究并提出了利用命名实体 实现针对事件的自动综述( 郭加银,2 0 0 4 ) ,它利用实体和事件描述中的实义词计 算句子重要性,抽取文摘句生成摘要。另外,上海交通大学王永成等提出基于 主题概念的方法进行多文档自动摘要。中国石油大学刘玉树( 2 0 0 7 ) 等提出利用时 问戳改善文摘句抽取质量和文摘句的排序方法。总的来说,中文多文档文摘起 步比较晚,一些中文的资源、测试平台和处理技术还不够成熟等在某种程度上 制约了中文多文档自动文摘的发展。 6 第l 章绪论 1 4 本研究的主要内容和贡献 为了迎合智能信息检索技术的发展和满足人们对多文档摘要的迫切需求, 本文对多文档文摘的几个关键技术进行了研究,并提出了一种基于概念共现图 的多文档文摘方法。本文研究的主要工作包括: ( 1 ) 概念提取方法的研究。本文借助语义资源的支持,提出一种概念归并算法和 概念权重模型提取多文档集的主题概念。 ( 2 ) 用概念代替词语,用概念统计代替传统的词形频率统计,建立概念向量空间 模型。以减小传统的标引词向量之间存在的“斜交”情形对文摘效果的影响。 ( 3 ) 深入研究了主题划分技术,并提出了一种概念共现图模型进行子主题划分的 方法,使得产生的子主题信息覆盖率大,又尽可能提高对主题的反映程度。 ( 4 ) 基于语义信息进行句子相似度的计算。传统的基于关键词精确匹配计算句子 相似度的方法仅仅基于表层的信息,不够准确:而基于词语上下文语义信息 计算相似度的方法又过于复杂,且盲目拓展语义关系,也会影响相似度的计 算精度,所以本文采用先对句子的语义进行消歧,通过概念共现图提取文档 集的主题概念,然后通过概念向量空间模型计算句子的相似度。 1 5 本文结构安排 本文深入地进行了多文档自动摘要技术的研究,并通过对基于词共现图的 多文档文摘技术的研究引出基于概念共现图的多文档文摘方法。所涉及的内容 共分五章,详细安排如下: 。 第一章:介绍了本研究的背景和意义,自动摘要研究的国内外现状和技术 方法的分类,多文档文摘系统国内外研究的现状,以及本文研究的主要内容和 组织结构等内容。 第二章:主要介绍了目前多文档文摘的主要方法和关键技术,分析它们的 优势和缺点;讨论了多文档文摘和其他自然语言处理技术的关系,有助于丰富 对多文档文摘研究的意义。最后对多文档文摘的常用评测方法进行了介绍 第三章:主要介绍了一种基于衰减词共现图的多文档自动摘要方法。该方 法以向量空间模型表示多文档集,并用潜在语义模型消除多文档集中的一词多 义及同义词等造成的噪音。然后构造词共现图,抽取主题词、提取文摘句生成 摘要。 第四章:介绍了基于概念共现图的多文档摘要方法。该方法借助语义资源 w b r d n e t 的支持,进行词性标注、语义消歧和单词概念的提取,通过概念间的 第1 章绪论 相关关系构造概念共现图,提取主题概念,然后计算句子重要性,生成摘要。 第五章:是总结和展望。介绍了基于概念的自动摘要方法的特色和不足, 并就将来进一步的工作进行了安排。 第2 章多文档文摘的土要方法和关键技术 第二章多文档文摘的主要方法和关键技术 多文档文摘技术的研究是为了帮助用户从同一主题的多文档集合中生成简 洁、信息全面的摘要。其实质是从表达同一个主题而内容相似的文档集中去除 冗余信息,根据文档相关性和各自的差异,产生一个信息高度浓缩、语言基本 流畅的短文。它实际上是单文档文摘的一种自然扩展,是自然语言理解领域的 一个重要研究方向,也是智能搜索引擎的重要组成部分,它将搜索引擎返回的 结果进行后处理,给用户一个信息全面简洁的摘要,从而提高用户使用搜索引 擎的效率,快速定位要查找的信息。 2 1多文档文摘的主要方法 在多文档自动摘要近几年的研究中,诞生了许多多文档文摘系统,根据采 用的方法的不同,大致可以分为如下几类。 2 1 1 基于单文档文摘技术的方法 许多系统采用单文档自动摘要技术生成多文档文摘。例如南加州大学的 n e a t s 系统,该系统融合了单文档文摘技术,利用词频、句子位置、主题词等 特征信息,利用m m r ( m a x i m a lm a 唱i n a lr e l e v a n c e ) 的简化版本选择和过滤内容。 该原型系统采用的并非新技术,而是将这些技术应用于多文档文摘中。它用统 计的方法抽取重要的概念:利用他们的位置和主题词过滤句子:用m m r 降低 句子的冗余;根据时间表记按照年代信息进行排序。2 0 0 1 年在d u c 评测中名 列前茅的n e w s b l a s t e r 是哥伦比亚大学在多文档文摘方面的一个比较成功的系 统。但它仅仅将单文档文摘技术应用于多文档文摘,忽略了多文档集合中文档 之间的信息,在文摘质量的提高上必然存在一定的局限性。 2 1 2 基于信息抽取的方法 该方法将信息抽取作为重要的文摘抽取技术应用到多文档自动文摘。1 9 9 8 年r a d e v 和m c k e o w n 丌始尝试将信息抽取技术应用到多文档文摘,并成功地 开发出一个应用于自然灾害领域的文摘原型系统s u m m o n s 。它需要人工制定 模板,而人工制定模板需要较多的人力,并且不易更新,所以该系统仅适用于 特定的领域,不宜推广。s u m m o n s 是第一个将自然语言处理技术与信息抽取 第2 章多文档文摘的主要方法和关键技术 相结合的多文档文摘系统,在当时的情况下是对一个新领域的探索,必然有一 些不成熟的地方。康奈尔大学的m i c h a e lw h i t e 等人( 1 9 9 8 ) 开发的砌p t i d e s 系 统也是一个基于信息抽取的系统。它抽取的句子使文摘更完整,更力求发现最 相关的信息,并通过制定一些规则来解决数字表达形式问题。 2 1 3 基于多文档集合特征的方法 目前,多文档文摘方法的研究主要集中在利用多文档集合的信息,将其作 为一个整体进行研究。将多文档集合中的句子按照其表达意思的相似程度重新 组合聚类,然后利用m m r 思想从不同类别中抽取文摘句。这种方法在理论上 冗余性会更少、信息的覆盖率会更大,是目前比较流行的一种方法。美国密西 根大学的r a d e v 等人首先提出了质心的概念,文摘的生成从识别多文档集合的 质心( 主题) 开始。2 0 0 0 年,他们在此基础上开发了一个多文档自动文摘系统 m e a d 。它采用统计的方法找出在多篇文档中出现频率最高的词和短语构成文 档束的质心,构成伪句子,然后将文档集合中的其他句子与该伪句子计算相似 度,并进行排序( 秦兵,2 0 0 5 ) 。 2 2 多文档文摘的关键技术 多文档自动文摘的关键技术主要有以下几个:句子相似度计算、局部主题 的确定、文摘句的抽取、文摘句的排序等。下面简要介绍这些技术。 2 2 1 句子相似度的计算 句子相似度的计算是多文档文摘最关键也是最基础的一步,它的准确性将 直接影响到局部主题的确定和文摘的生成。通过相似度的计算可以判断多文档 集合中冗余信息的多少,在句子的抽取时根据句子的相似度抽取冗余性最小的 句子组成文摘句的集合。句子相似度计算不仅在多文档文摘中充当重要角色, 而且在问答系统、机器翻译等其他自然语言处理技术中也发挥着重要作用。国 内外学者在句子相似度计算方面做了许多工作,总的来看大致归纳为以下几种 方法:基于t p i d f 的句子相似度计算、基于隐含语义索引( l s i ) 的句子相似度计 算、基于语义词典的句子相似度计算、基于句法分析的句子相似度计算。 尽管句子相似度计算在自然语言处理的许多领域得到应用,但侧重点一般 不同,在基于实例的机器翻译中更强调语法和语序的一致性,在信息检索领域 更侧重于语义的相似。因此在不同的应用领域中旬子相似度的计算方法会略有 第2 章多文档文摘的主要方法和关键技术 不同。 2 2 2 局部主题的确定 多文档文摘实际上是对一些相关的文档进行自动综述,这些文档存在共同 的主题,我们称其为全局主题。同时每篇文档又具有局部性。对同一个对象, 它们可能会从不同的角度进行描述,例如,在一个新闻事件的报道中,会有时 间、地点、原因、结果等方面的描述,可以将它们定义为局部主题。由于局部 主题是对全局主题不同侧面的描述,所以如果能对这些局部子主题进行识别( 傅 间莲,2 0 0 5 ) ,将原始的多文档集合转变成子主题的集合。然后对不同的子主题中 的信息进行抽取,这样可以帮助除去冗余信息,从而使生成的文摘简洁,且不 会遗漏相对次要的主题信息。 2 2 3 文摘句的抽取 文摘句的抽取也就是对原始多文档集合主要信息的抽取。以句子为单元的 信息抽取由于其含有较少的冗余信息并且具有一定的连贯性而成为研究的主 流。在不同的多文档文摘系统中文摘旬的抽取有两种方法:一是将文档集合中 所有的句子按照某个特征或多个特征的组合统一进行排序,然后按照排序进行 文摘句的抽取。二是将多文档集合划分为若干按意义相似文本单元组成的子集 合,在不同的子集合中抽取句子,组成文摘。以这种方法生成摘要可以降低冗 余度,提高信息覆盖率。 在文摘句的抽取上,多文档文摘的句子抽取方法不同于单文档文摘。单文 档文摘需要抽取的信息的分布情况是一致的,即在原文中出现的信息的比例和 在文摘中出现的比例是一致的。但是在多文档文摘中,由于原始文档集合来自 于不同的文本,重复信息较多,为了使用户获得全面简洁的信息,需要将在不 同文档出现的信息按照重要程度和压缩比的要求非冗余地抽取到文摘中( 秦 兵,2 0 0 5 ) 。 2 2 4 文摘句的排序 文摘句的排序也是一个很重要的过程。单文档文摘对文摘句的排序不太敏 感,可以将抽取的句子按照原文的顺序输出。但对于多文档文摘,句子来自于 不同的文档,句子的排序不仅决定语句流利度的问题,实际上还可以帮助人们 正确理解原文的意思,因此是一个必不可少的过程。 不同的文本单元,生成方法不同。有的研究工作是基于段落单元的,通过 第2 章多文档文摘的主要方法和芙键技术 找到的主要信息的段落,按与检索的相关程度,或者晓按照信息量的多少进行 排序输出;对于基于句子单元的文摘,生成复杂一些,要考虑句子的内容和时 间信息,哥伦比亚大学的r e 西n ab a r z i l a y 已经在这方面做了一些工作,z h u l ix i e 通过进化算法g e p ( g e n ee x p r e s s i o np r o g r a m m i n g ) 作为学习机制,通过将人工摘 要和原文对比得到排序的规律,对句子进行排序,不足之处在于目标文摘本身 存在主观性,有待于找到更客观的特征刻画排序技术( 秦兵,2 0 0 5 ) 。 2 3 多文档自动摘要与其他自然语言处理技术的关系 多文档文摘是随着互联网上的信息急剧膨胀而发展起来的新的文本信息处 理技术,与其他的自然语言处理技术如信息检索、信息抽取、单文档文摘等有着 千丝万缕的联系,同时又有它的独特之处。 信息检索只是找出满足一定检索条件( q u e r y ) 的整篇文档或段落,而人们仍然 必须阅读所找到的每一篇文档或段落才能获得所需要的信息。多文档自动摘要可 以将这些相关的信息按用户需求或文本内容进行信息抽取和压缩生成全面、简洁 的短文直接提供给用户。 信息抽取具有预定的目标。它根据固定的模板从文本中提取信息。这种模板 表示了某一领域中的结构信息,因此信息抽取被局限于特定域,信息抽取的主要 任务是对需要的文本信息进行识别,寻找与模板匹配的信息,不需要对文本进行 全面地分析和理解。问题聚焦的自动文摘同样含有预定的目标,但其目标是动态 的,需从用户提出的问题中获取。它根据用户的需求将相关的答案进行整理汇总, 并以文摘的形式提交给用户。通用自动文摘不具有预先规定的目标,需要对文本 的内容进行分析和处理,去除文本中的冗余信息,将其余信息进行有机的融合得 到。目前的研究有将多文档文摘和信息抽取相结合的趋势

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论