已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)基于自适应聚类的中文多文档自动文摘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 随着互联网的普及、信息获取途径的增加,人们获得的信息日益丰富。为了从 这些丰富的信息中快速、准确地获取有用信息,提高用户获取信息的效率,文档的 自动摘要处理变得越来越重要。多文档自动文摘技术同益成为自然语言处理领域的 一个研究热点。 多文档自动文摘致力于从多篇同主题文档中将全面、简洁的摘要性文档呈现给 用户,提高用户获取信息的效率。目前,多文档自动文摘领域的一个较成熟的方法 是将文档集合中所有的句子按照多个特征的组合统一进行排序,按照顺序进行文摘 句抽取,该类方法简单易行,但是随着摘要对象的多样化,对于文摘内容的主题覆 盖度有了更多的要求,而此类方法很难在主题覆盖度与内容冗余之间到达平衡;另 一类方法是从文档集合中发现摘要对象的潜在子主题,从不同子主题中进行文摘句 抽取。该类方法通过文本聚类技术来发现潜在子主题,但目前大多数聚类方法在一 定程度上都需要人为规定聚类的数目,并不能准确反映文本的实际情况,影响摘要 效果。针对上述问题,本文提出了一种运用改进k m e a i l s 算法自适应聚类的中文多 文档自动文摘方案。主要研究工作如下: 1 、提出了一种自适应发现文档集合子主题的策略。在多文档自动文摘中,子 主题的发现多通过聚类算法实现,本文应用一种改进的k m e a n s 聚类算法从整个文 档集合的统计信息中确定类的个数,自适应地发现子主题,一定程度上克服了大多 数子主题发现方法需由人工主观决定的缺陷。 2 、利用文档集合的统计信息确定初始聚类中心,而非随机选择。使得子主题 中心的发现更加客观合理,采用基于质心方法提取的文摘句更具有子主题的代表 性。 3 、在文本向量化的过程中,运用语言资源工具对向量空间模型( v s m ) 进行 改进和优化,一定程度上了弥补了特征模糊、维数过高的缺陷。 4 、设计并实现了一个中文多文档自动文摘系统。实验证明系统得到的文摘具 有良好的效果,验证了文中方法的可行性。 关键词:多文档自动文摘;k m e a j l s 聚类;子主题的识别;文摘句提取 a b s t r a c t w i t h 也ep o p u l a r i z a t i o no fi n t e m e t ,t h ei 响肌a t i o nt h a tp e o p l eo b t a i ni sa b 蚰d a n t d a vb vd a y i no r d e rt oo b t a i nu s e 如li n f o n n a t i o n 缸ta l l de x a c t l y ,t om l s et 1 1 ee n i c l e n c y o fg e t t i n gi n f o 咖a t i o nf o rt h eu s e r s ,t h ea u t o m a t i cs 咖撕z a t i o nb e c o m e sm o r e a j l d m o r ei m p o r t 觚t t h em u l t i d o c 啪e n ts 咖撕z a t i o nt e c h n o l o g yi sb e c o m l n ga r e s e a r c h f o c u si nt h ef i e l do fn a n i r a l1 a n g u a g ep r o c e s s i n g m u l t i d o c 啪e n ta u t o m a t i cs u m m a r i z a t i o nc a j le n a b l eu s e rt og e tu s e f u l i n t o 咖a t l o n f 如mm u l t i d o c 啪e n tm o r ec o n v e l l i e m l ya i l de f i e c t i v e l y a tp r e s e n ta m a _ m r em e t h o dm c h j n e s em u l t i d o c 啪e n ts u m m 撕z a t i o nf i e l di s t os o r ta l lt h es e n t e n c e sm d o c u m e n ts e t a c c o r d i n gt 0t l l e c o m b i n a t i o no fs o m ec h a r a c t e r i s t i c s ,a 1 1 dt oe x t r a c ts 咖a n z a t l o n s e n t e n c e sa c c o r d i n gt ot l l eo r d e r s 1 h sm e t l l o di se a s y b u t 、衍t ht h ed i v e r s i f i c a t i o n o ft h e s u 瑚m 撕z a t i o nt a r g e t ,p e o p l e h a v em o r e r e q u i r e m e n t s t 0t 1 1 et o p l cc o v e r a g e o t s u r m a r i z a t i o i l a l l dt h i sm e t l l o di sh a r dt ok e e pb a l a n c eb e 觚e e nt 叩l cc o v e r a g e a n d r e d l u l d a n c v a n o t h e rm e t h o di st oe x t r a c ts e n t e n c e s 五ms o m ed i 疵r e n ts u b t o p i c sw 1 1 i c h c o n t a m e di i lm ed o c 啪e n ts e t i i lt h j sm e t l l o d ,d o c 啪e n t sc l u s t e r i n gt e c h n l q u e 1 su s e dt 0 f i n dt h es u b t o p i c s h o 、e v e r ,m o s tc l u s t e r i n ga l g o r i t l u l l w 址c hn e e dt os t i p u l a t et l l e n 啪b e ro fc l u s t e r sa n i f i c i a l l yc a i ln o tr e n e c tt h er i 曲td o c 啪e n ts i t u a t i o ne x a c t l ya n d a 髓c tt h es u m m 撕z a t i o nq u a l 咄a st l l ep r o b l e md e s c 曲e da b o v e ,“sp 印e rp r o p o s e sa s c h e m eo fc h i n e s em u l t i d o c 岫e m s m m n a r i z a t i o nw h i c h印p l y i n gm ei m p r o v e d k m e a n sc l u s t e 血ga l g o r i t h m 1 kf o l l o 谢n ga r et h em a i nr e s e a r c h 、v o r k : ( 1 ) w ep r o p o s et l l es t r a t e g yo f a u 幻m a t i cf i n d i n gs u b t o p i c si nt h ed o c 啪e n ts e t m t l l em u l t i d o c 啪e mm j t o m a t i cs u m m 撕z a t i o i l c l u s t e 血ga j g o r i m m sa r eu s u a l l yu s e d t 0 f i n ds u b t o p i c s 1 1 1 “sp a p e r ,w e 印p l yt h ei m p r o v e dk - m e a i l sc l u s t e 血ga l g o n t l u i lt 0 c o n 矗胁m em 皿b e ro fc l u s t e r sw 1 1 i c hf i n dt h es u b t o p i c sa u t o m a t i c a l l yb yu t i l i z i i l gm e e n t i r ed o c 啪e 鹏,s t a t i s t i c a li m 彻a t i o n t i l ea d v a n t a g eo fm es 仃a t e g ) ri s m a ti td o e s n t n e e dp e r s o n ss u b j e c t i v ee x p e r i e n c et od e t e r n l i n em es u b t o p i c s ( 2 ) sp 印e rc o 而h n sm ei 1 1 i t i a l c l a s sc e n t e rb yu s i n g 廿1 ee n t i r ed o c 啪e n t s s t a t i s t i c a li n f o 咖a t i o n w em a k et h ed i s c o v e r ) ,o f t h es u b t o p i cc e n t r em o r eo b j e c t l v ea n d m o r er a t i o n a l 。a n dm a k et h es e n t e n c e sw h j c he x 仃a c t e d 丘o ms u b t o p l c s b a s e do n c a l l c r o i d sm o r er e p r e s e n t a t i v e u 硕士学位论文 m a s t e r st h e s i s ( 3 ) o rt e x tv e c t o r ,w eo p t i m i z ev s m b yu s i n gs o m el i n g u i s t i ct o o lw 1 1 i c hr e m e d i e d t 1 1 ed e f e c ti nb l u h yf e a t u r ea n d 1 1 i g hd i m e n s i o n ( 4 ) ac k n e s em u l t i - d o c 啪e n ta u t o m a t i cs 蚴撕z a t i o ns y s t e mh a sb e e nd e s i g n e d 觚d1 m p j e m e n t e d i1 1 1 ee x p e r i m e n ts h o 、v st h es a 巧w l i c h i sg e n e r a t e db yt h es y s t e m h a sag o o dq u a l i 啦a 1 1 dv e r i f i e st h ef e a l s i b i l i 付o f t h em e t h o d 。 k e y w o r d s :m u l t i - d o c 啪e n t s 眦u n 撕z a t i o n ; k - m e a j l s c l u s t e r i n g ;s u b t o p i c d i s c o v e 巧;s e n t e n c ee x t r a c t i o n ; i i i 硕士学位论文 m a s t e r st i i e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 肖像松 日期:少。牌月严日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:肖缛松 日期:p 8 年6 月牛日 导师始彳呵并彳 日期:碲易月中日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。圃意诠塞埕交卮溢后;旦圭生;旦= 生;旦三生蕉查! 作者签名茂每松 日期:钐口伊6 月矿日 导师签名:吩六六 日期7 矽肄易月尹日 : 硕士学位论文 m a s t e r st h e s i s 第1 章绪论 1 1 自动文摘技术的研究意义和相关概念 1 1 1 研究意义 随着互联网的普及、信息获取途径的增加,每天都有不断涌现的海量信息。为 了从这些海量信息中快速、准确地获取有用信息,文档的自动摘要处理变得越来越 重要。通过阅读文摘而不是全文能极大地加快信息过滤速度,帮助人们了解概况或 决定是否应该详读原文。由此可见,自动文摘技术是快速准确获取信息的一个有力 工具,它的发展对人类社会生产生活等各个方面都有重大意义。 目前人们主要是通过搜索引擎来查找信息,但搜索引擎返回的是相关资料的链 接,这些链接的内容对用户来说并不一定能达到需求,主要表现在两个方面,一是 链接的内容有大量是重复或相似的,二是链接的内容并不一定是用户最需要的。对 于搜索引擎返回的信息如果一一阅读,不仅浪费时间,而且无法满足人们准确、高 速地获取与处理所需信息的需求。 自动文摘技术的作用在于生成给定原文的中心内容,或把所需要的内容从文章 中自动抽取出来,并用同于或不同于原文的句子表示出来,其软件系统称之为自动 文摘系统。其目的就是要能对大规模电子文本快速地进行浓缩、提炼,使其成为加 快阅读和获取信息资源的一个准确而高效的手段。作为解决当前信息过载问题的一 种辅助手段,自动文摘技术具有自己的优势,同时也弥补了当前搜索技术的不足之 处,表现在以下两个方面: 一是自动文摘技术在覆盖度和冗余度两方面达到了很好的平衡,文摘既能包含 文本的主要内容,又能保证文摘内容尽可能少的重复,提高了用户浏览信息的效率; 二是自动文摘技术注重文摘内容的可视化效果,这个可视化效果包括文摘内容的可 读性和文摘的表现形式,方便用户的浏览和信息的获取。 综上所述,自动文摘技术最为自然语言处理领域的一个重要分支,经过几十年 的发展,从单文档自动文摘技术发展到多文档自动文摘技术,取得了长足的进步。 面对如今高度追求信息化效率化的社会,自动文摘技术必将保持强劲的生命力,应 用于社会各个方面。同时它的发展也必将推动诸如分词、聚类等自然语言处理领域 其他技术的进步。 硕士擘住论文 m a s t e r st h e s i s 1 1 2 相关概念 文摘:中华人民共和国国家标准文摘编写规则( g b 6 4 4 7 2 8 6 ) 对文摘的定义 是:“( 文摘是) 以迅速掌握报道内容概略为目的而编写的文章,不加主观的解释和 评论,简洁而准确地记述报道的重要内容。 文摘按其内容特征可分为信息型摘要、指示型摘要和评论型摘要三种: ( 1 ) 信息型摘要:信息型文摘综合反映了一篇文献的中心内容,具有足够的 信息量,它不加评论、补充和解释。该类文摘能帮助用户仅通过阅读文摘便能抓住 原文的核心内容,从而大大地节省阅读的时间,提高阅读的效率。 ( 2 ) 指示型文摘:对原文内容的一种指示性的介绍,不涉及到具体的细节内 容,用户通过浏览该类文摘,可以大致了解文本的内容,根据文摘内容判断是否需 要对原文做深入的阅读。 ( 3 ) 评论型文摘:提供对原文内容的一种评论,以帮助用户了解原文作者想 要表达的主观意图。 文摘根据其发展历程和文档内容结构可以分为单文档文摘和多文档文摘。顾名 思义,单文档文摘是从单个文档中得到的自动摘要,目的是从包含一个主题内容的 单文档中得到中心内容。近年来,随着信息量的增大和用户的需求,多文档自动文 摘技术成为自动文摘技术的主流。 多文档自动文摘技术就是要从同主题的文档集合中得到摘要,这些文档的特点 是文档之间既具有很多的共同信息,又包含与主题相关的不同信息。人们在获取同 主题重要信息时,必须平衡有效信息的主题覆盖与冗余。多文档文摘技术是在单文 档文摘技术上发展演化出来的,它能在一定程度上弥补单文档自动摘要技术在处理 多篇同主题文档的汇总及压缩问题上的不足,高效地提供给人们全面而简洁的信 息。 1 2 自动文摘的国内外研究状况 1 2 1 单文档自动文摘的研究状况 ( 1 ) 单文档自动文摘发展历程 自动文摘的研究是由l u l l i l 于5 0 年代开始的。1 9 5 8 年,他发表了一篇题为“1 1 1 e a u t o m a t i cc r e a t i o no fl i t e r a _ n 】r ea b s t r a c t s 的论文【l 】,丌启了自动文摘技术的研究工 作。国内对自动文摘的研究相对较晚,开始于8 0 年代末,目前仍处于该领域研究 : 硕士学位论文 m a s t e r st h e s i s 的初级阶段。 从自动文摘技术的发展历程看,它的发展概括起来主要经历了三个阶段【2 】: 阶段一:5 0 年代末一6 0 年代末 1 9 5 8 年,l u l u l 正式开始了自动文摘技术的研究。l u h n 采用的是一种基于关键 词频率统计的自动文摘方法,她将词汇分为两大类:通用词和内容词,通用词通常 包括连接词、代词、介词、冠词、助动词、以及某些形容词和副词,除此以外的所 有词为内容词。词频率统计只对内容词进行,根据词频来表示内容词的重要度,并 利用文本句子中包含的所有内容词的重要度来给各个句子打分,从中挑选出得分最 高的若干句子构成摘要。 在该阶段的研究中,除了l u h n 提出的方法外,也有其他学者分别提出了自己 的方法,这些方法大都是在l u l l i l 的基础上提出了自己的改进,比较典型的有:i b m 公司的文摘自动生成程序a c s i m a t i c 系统,该系统主要通过计算句子在文献中的 权重来进行文献方面的摘录;h p e d i t l u n d s o n 为t i 涮公司研制的文摘系统【3 】, e d m u n d s o n 在l u l u l 的基础上改进了句子打分的方法,他综合考虑了四种因素,即 文本的提示词、关键词、题名和位置。提示词因素指假设句子内某些词预示着另一 些与主题相关的词在句中出现对后者应予加权;关键词因素指认为高频内容词可以 用来选择与文献内容紧密相关的句子;题名因素指文献的题名和各级小标题概述了 文献的主题内容,在计算句子重要性时,规定赋予题名用词较高的权值;位置因素 则根据句子在文中的一定标题之下出现及其在正文中具体位置来确定句子的权值。 e d m u n d s o n 在研究中系统地比较了综合应用这四种特征加权的方式所产生的摘要 的效果,结果发现标题一位置一提示词综合加权策略取得了最好的摘要效果,而单 纯使用关键词加权则效果最差。 在国内,早期的自动文摘也沿用了多种浅层特征集成的句子打分法,针对的文 本主要是中文。比较有代表性的是上海交通大学王永成教授所领导的课题组于1 9 9 7 年成功研制出中文自动文摘系统。 综上所述,在自动文摘研究的早期,单纯的基于文本浅层特征的统计学方法占 据了研究的主导地位。 阶段二:7 0 年代初一8 0 年代末 该阶段的主要研究成果如下: 1 9 7 4 年,耶鲁大学的s c h a i l l ( 研制了s a m 自动文摘系统,该系统采用脚本来分 析简单的故事,并对故事进行归纳摘要【4 j 。 1 9 7 9 年,耶鲁大学的d 皇j o n g 研制出了著名的f r u m p 自动文摘系统。该系统 硕士学位论文 m a s t e r st h e s i s 利用语法知识来判定某个预期词在句子当中的位置,并通过句法分析来遍历整个文 本以寻找标示为己知脚本的短语,从而建立起各种故事的梗概【5 】。 1 9 8 2 年,j u a i t 对原有的f r u m p 系统进行了改进。他提出将所有的资料先转 换成概念依存结构,然后再在此基础上通过分析、推测各种信息之间的关系来构成 摘要【5 】o 1 9 8 2 年,意大利u d i n e 大学的d a n i l of u m 等研究人员成功研制出了s u s y 文 摘系统。该系统以一阶谓词逻辑作为文本的机内表达形式,利用纲要产生器和分析 缩写器来装配出满足特定需求的摘要【6 】【7 】。 1 9 8 8 年,德国康斯坦大学的h a h n 等研究人员研制出t o p i c 自动文摘系统,该 系统针对的是微处理器领域的科技文本,它采用框架作为知识的载体,并通过联合 语法、语义分析来生成各种长度的文摘【6 】。 1 9 8 9 年,美国g e 研发中心的l i s af i 协等科研人员研制出了s c i s o r 自动文 摘系统。该系统利用篇章主题分析以及复杂的句法结构分析等技术生成与摘要有关 的框架概念,并采用某种预期驱动分析器从所有框架概念当中提取出预期内容,构 成摘要【引。 在国内,哈尔滨工业大学的王开铸教授领导的课题组于1 9 9 2 年研制出的中文 自动文摘实验系统m a t a s 采用了基于深层自然语言处理的方法【9 】。哈尔滨工业大 学的刘挺教授于1 9 9 6 年提出的中文自动文摘系统的设计方案采用基于信息抽取的 框架知识表达来实现的【1 0 j 。 上述国内外的研究成果大体上是以人工智能技术、深层次自然语言处理技术为 基础的基于理解的自动文摘,而不再是基于文本浅层特征的统计学方法。 阶段三:9 0 年代一至今 该阶段,自动文摘得到了快速发展,进入了繁荣期,出现了多种新的自动文摘 技术。但主导地位的研究方法又逐渐回归到以统计学的方法为主,以深层自然语言 处理、信息抽取为辅的混合型方法上了】。 19 9 4 年,s a l t o n 等研究人员通过统计文本段落之间的共享词汇数来计算段落之 间的语义关联,提出了基于语篇话语结构分析的抽取型自动文摘方法【l2 1 。 1 9 9 8 年,蹦m ec a r b o n e l l 和j a d eg o l d s t e i n 探讨了如何将文本中包含的概念多 样性引入到自动文摘的研究当中,从而使产生的摘要能尽可能地覆盖原文多个概念 并包含较少的冗余。研究过程中他们提出了著名的最大边缘相关( m m r ) 的摘要模型 【1 3 】 o ( 2 ) 单文档自动文摘主要技术 4 硕士学位论文 m a s t e r st h e s i s 技术一:基于浅层分析的方法。 基于浅层分析的方法对文档中蕴含的一些浅层特征进行统计分析,将其中某些 特征如词频、位置、线索词等按特定的量化模型结合起来作为文档信息的量化度量, 据此选择出文档核心内容。浅层分析通常不需要复杂的文档内部表示,易于计算实 现、处理速度快、无受限域。但它在处理不同类型文档时,准确性上常有很大变化。 并且这一方法是建立在文本表层的形式特征基础上的,缺乏对文本内容的深层次分 析,所以文摘质量的进一步提高将受到限制。 技术二:基于实体分析的方法。 基于实体分析的方法先分析文本内部的概念性表示,然后提取出文档中各实体 并建立起实体间的相互关系,通过对文档实体及其相互关系建模来确定各实体对表 述文档内容的作用。这种分析常常涉及比较复杂的算法。 技术三:基于话语结构的方法。 基于话语结构的方法主要是对全文宏观结构建模( 即对文档格式、主题线索、 修辞结构、文体结构等的分析) ,准确把握全文的内容结构。由于文章结构分析不 受文本领域限制,文档结构信息往往能较为准确的标示出语言单元间的逻辑关系, 为自动文摘生成提供重要线索。 1 2 2 多文档自动文摘的研究状况 真正的任意领域的多文档文摘的研究是在1 9 9 7 年开始的。哥伦比亚大学的 k 删e e nr m c k e o 、n 等人,近年来在多文档自动文摘的理论与实践中取得了很多 成绩,发表了许多文章。n e w s b l a s t e r 【4 】是哥伦比亚大学在多文档文摘方面的一个科 研成果,它是一个新闻跟踪的工具,并可以为每天的主要新闻做出相关的文摘。美 国的南加州大学的d a l l i e lm a r c u ,c l l i n y e w “n 等也是多文档文摘领域中比较活跃 的人物,发表了比较多的文章。n e a t s 【l5 】是南加州大学最近在多文档文摘技术上的 成果,该系统参加了d u c 2 0 0 1 的评测,成绩名列前茅。在国内,对中文的多文档 文摘的研究目前还处于起步阶段,日本和中国台湾的学者在这方面做了一些工作, 国内哈工大、中科院自动化所、中国科大等研究机构也开展了这方面的工作。 在多文档文摘近几年的研究中,诞生了许多多文档文摘系统,根据采用的方法 的不同,大致可以分成以下几类: 方法一:基于单文档文摘技术的方法。基于单文档文摘技术的方法采用单文档 文摘技术生成多文档文摘。例如南加州大学的n e a t s 系统【l5 。,该系统融合了单文 档文摘技术,利用词频、句子位置、主题词等特征信息,利用m m r ( m a x i m a lm a 画n a 】 硕士学位论文 m a s t e r st h e s i s r e l e 啪c e ) 的简化版本选择和过滤内容。它采用了一些简单的技术:用统计的方法 抽取重要的概念;利用它们的位置和主题词( s t i g m a 、o r d s ) 过滤句子;用m m r 降 低句子的冗余;根据时间表记按照年代信息进行排序。但是该类方法仅仅将单文档 文摘技术的方法应用于多文档文摘,忽略了多文档集合中文档之间的信息,在文摘 质量的提高上必然存在一定的局限性。 方法二:基于信息抽取的方法。信息抽取技术作为重要的文摘抽取工具也被应 用到多文档自动文摘技术中。例如1 9 9 8 年i e va i l dm c k e o 、n 成功地丌发出一个应 用于自然灾害领域文摘的原型系统s u m m o n s 【1 6 】。s u m m o n s 是第一个将自然语 言处理技术与信息抽取相结合的多文档文摘系统。康奈尔大学的m i c h a e lw t l i t e 等人 开发的对p t i d e s 【r 7 】系统也是一个基于信息抽取的系统。基于信息抽取的方法利用 生成的模板从文档中抽取特定的信息来组成文摘,模板可以人工制定也可以自动生 成,不足之处在于获取模板时需要对语料进行更多的学习,严重依赖于外在的语言 资源,这就造成了对摘要范围的限制,而且生成的文摘语法不是太好。 方法三:基于多文档集合特征的方法。目前多文档文摘的方法主要是将集中在 利用多文档集合的信息,将多文档集合作为一个整体进行研究,通过对多文档集合 中的句子按照其表达意思的相近程度重新组合聚类,然后从不同的类别中抽取文摘 句。在这方面,美国密西根大学的i 硼e v 【1 8 】等人首先提出了质心的概念,文摘的生 成应从识别多文档集合的质心开始,在这旱质心代表了文档集合的主题。2 0 0 0 年, 他们在此基础上开发了一个多文档自动文摘系统m e a d 。另一个具有代表性的研究 是哥伦比亚大学的m c k e o w n 和i 湖e v 等人开发的基于片断聚类的多文档文摘系统 m u l t i g e n 。这种方法在理论上冗余性会更少、信息的覆盖率会更大,是目前比较流 行的一种方法。 1 2 3 自动文摘评价方法 自动文摘的评价方法是自动文摘技术中的一个难点,好的自动文摘要能包含文 档的中心主题内容,同时又要求重复信息少。而对于文档的中心主题内容,每个人 的看法不可能完全一致,每个人的需求也不完全一样,正是这个特点决定了自动文 摘的评测有很大的主观性。目前,国际上较有影响力的大规模评测会议包括美国的 d u c ( d o c 啪e n tu n d e r s t a i l d 吨c o 疵r e n c e ) 、m s e ( m u l t g 砌 s u 舳撕z a t i o n e v a l u a t i o n ) 以及同本的t s c ( t e x ts u m m a r i z a t i o nc h a l l e n g e ) 等,其中d u c 是自动文 摘领域最具影响力的自动文摘评测会议,它由n i s t 的系列会议之一 t i d e s ( d a r p a st r a n s l i n g 砌i n f o m a t i o nd e t e c t i o n ,e x t m c t i o n ,a n ds u i m l l 撕z a t i o n 6 硕士学位论文 m a s t e r st h e s i s p r o 班u 1 1 ) 赞助发起文本理解会议d u c ( d o c u m e n tu n d e r s t a n d i n gc o i 彘r e n c e ) ,使研究 者共同参与到大规模文本测试中来,促进了自动文摘包括多文档文摘的发展。但上 述这些会议都针对英文语料的自动文摘,很少涉及到中文自动文摘的评测,这也在 一定程度上影响了中文自动文摘的发展。总的来看,评价方法通常可以分为两类: 评价方法一:内部的评价方法【l 9 j 通过一系列的参数直接分析文摘质量的好坏,主要评价信息覆盖度和文摘的可 读性。 ( 1 ) 信息覆盖度。文摘是原文档集合内容的一个压缩版,信息的覆盖率即指 文摘中包含原文档或标准文摘中的信息量的多少。对信息覆盖度的分析一般采用召 回率或准确率来衡量,信息覆盖度只是简单地考虑了覆盖程度,而没有从文摘的整 体进行分析,得出的结果不能准确、全面地反映文摘性能。 ( 2 ) 可读性。可读性主要是就文摘在文字上的流畅性和一致性方面进行评估, 主要包括句子通顺性、句子间意义连贯性、逻辑结构合理性等。连贯性主要采用人 工方式进行评价。目前有的研究人员提出以指代明确性来评估文摘的可读性;还有 的研究人员又提出了文摘的准确语法性、主题的清晰性等来衡量文摘的可读性等方 法。 评价方法二:外部的评价方法 通过分析自动文摘对其他任务的完成质量的影响来判断。例如信息检索、自动 问答、阅读理解等任务。目前在d u c 评测方法中,外部的评价方法得到了广泛的 应用。 1 3 研究内容 目前,中文自动文摘的主要方向已经集中于中文多文档自动文摘上。在多文档 文摘研究中,如何选取文摘句,是自动文摘系统中的一个关键技术所在,在很大程 度上决定着文摘质量的好坏。目前,在多文档文摘系统中文摘句的抽取主要有两种: 一是将文档集合中所有的句子按照某个特征或多个特征的组合统一进行排序,按照 顺序进行文摘句抽取。二是将多文档集合划分为若干意义相似文本单元组成的子集 合,在不同的子集合中抽取句子,组成文摘。 对于多文档自动文摘而言,在采用第二种文摘句抽取方法时,对文档集合聚类 是其中必不可少的步骤,在近几年的多文档文摘研究中各国学者探讨了多种聚类算 法,这些算法有一个共同的缺陷,那就是这些聚类方法往往无法自动估计类的个数, 7 硕士学位论文 m a s t e r st h e s i s 都需要人工给定聚类的数目,因此无法自动发现文档集隐含的自然的潜在子主题。 本文的主要工作就是在对文档集合进行聚类时,尝试性的运用了一种基于传统 k m e a i l s 的改进算法,它的优势在于既克服了传统的k m e a n s 聚类算法需要靠人的 主观经验确定初始类别数和初始聚类中心这个缺点,而是从整个文档的统计信息中 获取必要的参数信息来自动确定初始类别数和聚类中心,从而能够自动发现文档集 合中的潜在子主题数和对应的子主题。然后从各个子主题中抽取出文摘句形成最后 的文摘。 另外,综合运用论文中研究的方法和自动文摘的相关技术,设计并实现了一个 中文多文档自动文摘试验系统。为了验证文中方法的可行性,我们从国家语言资源 监测与研究中心网络媒体语言分中心选取了一部分语料,完成了相关的实验内容, 从实验结果来看,本文提出的中文多文摘自动文摘方法取得了较好的结果。 1 4 论文内容安排 本文各章安排如下: 第1 章是绪论,介绍了本文的研究意义,相关概念,概述了自动文摘的国内外 研究状况。 第2 章介绍了多文档自动文摘的相关理论及关键技术。 第3 章介绍了本文提出的多文档自动文摘方法。 第4 章介绍了中文多文档自动文摘系统的设计与实现。 第5 章介绍了实验步骤和评价方法,并对实验结果进行了分析。 第6 章对全文进行了总结,并对未来的工作进行展望。 8 硕士学位论文 m a s t e r st h e s i s 第2 章相关理论及关键技术 多文档自动文摘作为自然语言处理领域的一个重要分支,其方法涉及了自然语 言处理领域的多个基础技术,这些基础技术应用于多文档文摘的各个基本步骤中, 对最后的文摘的效果起着至关重要的作用。 2 1 基于向量空间模型的特征向量表达 2 1 1 向量空间模型介绍 在自然语言处理领域,将文本各级单元形式化表示是一个基础而又非常重要的 工作,只有经过这个步骤,才能将文本结构化、简单化表示,方便计算机的处理, 为后续的语言处理应用打下一个坚实的基础。 向量空间模型( v s m ) 【2 0 】是文本单元表达的一种经典模型。它是2 0 世纪6 0 年代末由g e r 2 u ds a j t o n 等人提出的,主要应用于信息检索、信息抽取、分类、聚类、 篇章分析等研究领域。其思想是把文本表示成向量空间中的向量,采用向量之间的 夹角余弦作为文本间的相似性度量。 2 1 2 文本的向量化表示 为了将文本向量化,首先把文本的内容简单地看成是它含有的基本语言单位 ( 字、词、词组或短语) 所组成的集合,这些基本的语言单位统称为特征项。即文 本可以用特征项集表示为d ( t 1 ,t 2 ,t 。) ,其中t k 是项,1 k n 。然后根据各个项 t k 在文本中的重要性给其赋予一定的权重w k ,这时文本d 就可以被记为 d = ( t i ,w l ,t 2 ,w 2 ,t n ,w 。) ,简记为d = d ( w l ,w 2 ,w i ,) 。如果把t i ,t 2 ,t n 看成是 一个n 维坐标系,而w l ,w 2 ,w n 是相应的坐标值,因而d ( w 1 ,w 2 ,w 。) 被看成是 n 维空间中的一个向量( 如图2 1 中的d l 和d 2 ) 。我们称d ( w l ,、,w 。) 为文本d 的向量表示。 9 硕士学位论文 m a s t e r st h e s i s 1 2 ,w l n ) d 2 ( w 2 l ,w 2 2 ,w 2 。) t i 图2 1n 维空间中的向量表示 2 1 3 特征项的选取 将文本表示成n 维空间中的一个向量,而各个向量通过文本中的特征项的重要 度来形式化表示。这里就涉及到特征项的选取问题,上文也提到,特征项既可以指 文本中所包含的字、词,也可以是更加复杂的特征,如概念、句法结构等,至于具 体选用什么样的特征往往与实际的应用需求有关,不可一概而论。如何选取特征项, 直接影响着向量对文本的表达能力。比如以词为文本的特征项,则在进行项的选取 时,要考虑下列一些因素: ( 1 ) 词的选取。常用词和低频词的区分度较低,而中等频率的词则往往与文 档的主题相关,区分度较大。所以可以将一些常用词和低频词去掉。 ( 2 ) 停用词。将那些没有实在意义使用频率又高的词组成停用词表,把表中 的词从词汇特征集中滤去,如“的 、“把”、“被 、“地。 ( 3 ) 特征项的分类。向量空间模型建立在“所有的项两两正交”假设的基础 上,这种正交性假设是过于严格了,不能很好地反映自然语言的特征。一般的解决 方法有两种:一种方法是采用潜在语义分析的手段将n 维向量空间上的向量投影到 一个k ( 一般情况下k 远小于n ) 维完全正交的近似等价空间中,从而实现空间降 维和特征优化;另外一种方法是把低频词组织成类,将相似的项合并成项类,通常 是用分类词典实现项类的生成,分类词典可以由人工编制,也可以由计算机自动构 造完成。 2 1 4 特征项的权重计算 通俗的说,特征项的权重即特征项在文本中的重要度,通过这个重要度可以形 式化表示文本向量。目前,更为常用的办法是运用统计的办法,从特征项的统计信 1 0 硕士学位论文 m a s t e r st h e s i s 息中计算权重,这种方法更加的客观合理。利用统计方法计算特征项的权重的方法 有很多种:如t f 法、t p i d f 法、m u t i l a l i n f 0 加a t i o n 法【2 1 】等等。近年来,效果较好且 应用较多的权重评价函数是:w i k 气氐宰i d f i ( ,t k 表示项t k 在文档d i 中的文本内频数, i d f i ( 表示项t k 的反比文本频数,其中i d f i ( 的计算一般采用i d f 辛l o g ( n i l k ) 。n 表示文 本集中的文本数量,n k 表示项t k 的文本频数( 出现t k 的文本的数量) 。另外,文本 的长度也是必须要考虑的因素,否则,越长的文本信息量越大。这可以通过将上式 归一化后得到公式2 1 : w i 。= t c k 木l o g ( n n k ) ( 2 1 ) 通过上述相关技术,即文本的向量化表示、特征项的选取、特征项的权重计算, 任意给定一个文本单元( 如句子、段落) ,我们都可以将这个文本单元映射成文本 特征的权值向量,为后续的计算机处理文本打下良好的基础。 向量空间模型的优点在于处理逻辑简单、快捷。但是,向量空问模型关于各个 特征项之间相互独立的基本假设( 正交假设) 在实际环境中很难满足,文本中出现的 特征项往往存在一定的相关性。所以这种正交假设在某种程度上会影响计算的结 果。 向量空间模型是自然语言处理领域中比较常用的文本表示模型,除此以外,比 较常见的文本表示模型还有严格匹配模型、概率模型【2 2 儿2 3 1 。 2 2 特征空间的优化 对于向量空间模型等文本表示模型来说,其形成的特征空间是十分庞大的;同 时,在上下文语境中,相互独立的各个特征项基本不存在,往往存在一定的相关性, 因此在自然语言处理领域中通常会对向量空问模型进行优化,以达到降低特征空间 的维度,从而减小噪声并突出重要特征。目前比较常用的优化方法有潜在语义分析 方法和利用词典的同义项合并方法等。 2 2 1 潜在语义分析 潜在语义分析( l a t e n ts e m a n t i ca n a l y s i s ,简称l s a ) 【2 4 】是通过统计计算方法 来分析自然语言中词语、段落或语篇间在语义上的相互联系及其内在规律,从而对 知识进行归纳、表征和应用的理论模型。 硕士学位论文 m a s t e r st h e s l s 在技术上,它同向量空间模型类似,都是采用空间向量表示文本,但通过s v d 分 解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。传统的空间向 量方法假设词语语义是相互独立的,每个词语都被看作向量空间中的一个正交基本 向量。实际上,词语之间存在很强的关联性,即出现“斜交”现象,影响了文本处理 的结果。l s a 利用这种关联性,通过对文本集中词语的上下文使用模式进行统计转 换,获得一个新的低维的语义空间。l s s v d 是最早提出使用,也是目前普遍使 用的典型l s a 空间的构造方法【2 5 1 。通过对文本集的词条一文本矩阵的奇异值分解 ( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 计算,并提取k 个最大的奇异值及其对应的奇 异矢量构成新矩阵来近似表示原文本集的词条一文本矩阵。首先l s a 将向量空间 视为一个t d 的“词语文本”矩阵x ,而任何一个t d 的矩阵都可以分解为3 个矩阵的乘积,即x = t o s o d o 。在分解后得到的三个矩阵中,t o 、d o 分别为左正交 词语向量矩阵和右正交文档向量矩阵,s o 为正单值对角线矩阵,其中按降序排列的 非0 值被称为奇异值。在这个“语义空间 中,大奇异值所对应的维度更具词语的 共性;而小奇异值所对应的维度更显词语的个性。通过从对角线矩阵中选出k 个最 大奇异值与其相邻的左右正交矩阵中所对应的向量同构一个经过压缩的新矩阵u , 即潜在语义空间,以此来近似地表示原始稀疏矩阵x 的语义空间【2 6 j 。 l s a 的特点在于利用潜在的语义结构表示词条和文本,将词条和文本映射到同 一个k 维的语义空间内,均表示为k 个因子的形式,向量的含义发生了很大的变化。 它反映的不再是简单的词条出现频率和分布关系,而是强化的语义关系。在保持了 原始的大部分信息的同时,克服了传统向量空间表示方法时产生的多义词、同义词 和单词依赖的现象。同时通过l s a 分析提取出k 维语义空间在保留大部分信息的 同时用低维词条、文本向量代替原始的空间向量,可以有效地处理大规模的文本库。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南宁市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(综合题)
- 滁州市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(考试直接用)
- 松原市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解(培优a卷)
- 2025年高压电工复审(湖南)电工作业模拟考试题库(附答案)
- 2025年高血压病护理试题及答案
- 2025年高危妊娠管理试题及答案
- 湘西土家族苗族自治州农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解(综合卷)
- 2025年飞行员执照考试《航线运输驾驶员(135飞机)》能力提高训练题及答案
- 2025年飞行员执照考试(航线运输驾驶员直升机)模拟试题及答案二
- 钦州市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)带答案详解(完整版)
- 泌尿与男性生殖系感染
- GB/T 32663-2016成型模压铸模订货技术规范
- GB/T 21860-2008液体化学品自燃温度的试验方法
- ERCP并发症教学讲解课件
- 《雅思阅读讲义》课件
- 经贸俄语教案
- 新概念英语第一册全册测试题
- 初中 初一 音乐 劳动号子歌曲欣赏(一)课件
- 高毒力肺炎克雷伯菌感染
- 异位妊娠(正式)课件
- 《数据科学与大数据技术导论》完整版课件(全)
评论
0/150
提交评论