(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf_第1页
(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf_第2页
(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf_第3页
(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf_第4页
(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于sdd的中文自动文摘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

辽宁科技大学硕士论文摘要 摘要 文摘是以提供文献内容梗概为目的,不加评论和辛卜充解释、简明、确切地记述 文献重要内容的短文。它可以帮助读者初步了解有关文本的内容,快速地掌握信 息,准确地找到自己需要的资料。如果只靠人工来编制摘要,速度远远跟不上信息 激增的发展要求,因此自动文摘的研究就应运而生。 中文自动文摘的研究如火如茶地开展了近2 0 年,取得了一些令人鼓舞的成果。 然而,对汉语的处理相对西文语言具有许多难点( 如分词困难,形态变化少,语 法未形成规范等等) ,若干可能会影响自动文摘效果的潜在问题正逐渐被越来越多 的研究人员所重视。 ( 1 ) 中文分词技术薄弱影响了根据词频统计计算权值并判断重要性的效果。 ( 2 ) 汉语的功能过于广泛,同义词和一词多义现象十分突出,自动文摘系统无法 有效区别。 ( 3 ) 摘录型文摘系统所产生的文摘常常出现主题遗漏现象,同时也会出现同意不 同形的关键句子的冗余现象。 ( 4 ) 由于文摘中的句子是从原文不同位置抽取的,句子相互之间无多大关联,导致 文摘缺乏连贯性。 致力于对上述问题的解决,我们尝试性地提出了一种基于s d d + 的中文自动文 摘方法。在该方法中,我们采用了如下四种关键技术: 技术】:在分词中采取双哈希二叉树的词典机制。 技术2 :采用基于s d d + 的矩阵分解方式。 技术3 :在s d d + 之后,采用先语句聚类,再自动选取的方式。 技术4 :以因果关系为例,介绍了连贯性的处理。 为了验证提出的中文自动文摘方法的可行性和有效性,我们分别采用提出的 自动文摘方法以及传统的典型文摘方法做了实验。运用内部评测手段进行了系统 评估。试验结果证明本系统多数性能指标优于其它几个文摘系统。 关键词:分词s d d + 。哈希二叉树聚类 辽宁科技大学硕士论文a b st 1 7 a c t a b s t r a c t t h es u m m a r i z a t i o ni sas h o r t d o c u m e n t ,m a k i n gn or e m a r ka n d e s s a yt h a ts u p p l e m e n t ss u m m a r yo fa t h ee x p l a n a t i o na b o u tt h ed o c u m e n t , c o n c i s e l ya n da c c u r a t e l yd e s c r i b i n gi m p o r t a n tc o n t e n to ft h ed o c u m e n t t h e r e f o r e i tc a nh e l pt h er e a d e rt ok n o wc o n t e n ta b o u tt h ed o c u m e n ta n d g r a s pi n f o r m a t i o nr a p i d l ya n da c c u r a t e l yf i n dt h ed a t aw h i c hi sn e e d e d s u m m a r i z a t i o nb yh a n dc a n n o tk e 印u pw i t ht h e i n c r e a s i n gs p e e do f i n f o r m a t i o nd e v e l o p m e n t t h e r e f o r e ,a u t o m a t i cs u m m a r i z a t i o na r i s e s r e s e a r c ho nc h i n e s ea u t o m a t i cs u m m a r i z a t i o nh a sd e v e l o p e df o r m o r et h a n2 0y e a r sa n dh a sg o te n c o u r a g i n g a c h i e v e m e n t s c o m p a r i n gw i t h w e s t e ml a n g u a g e s ,c h i n e s et r e a t m e n th a sal o to fd i f f i l c u l t i e s ( w o r d s e g m e n t a t i o nd i f f i c u l t y ,f e w e rf o r mc h a n g i n g ,n og r a m m a rn o r m ,a n ds o o n ) g r a d u a l l y , s o m el u r k i n gp r o b l e m s t h a tc a l l a f f e c t i n g a u t o m a t i c s u m m a r i z a t i o nh a v ec a u s e ds e r i o u sa t t e n t i o n b y m o r ea n dm o r e r e s e a r c h e r s ( 1 ) c h i n e s e w o r ds e g m e n t a t i o n t e c h n o l o g y i s w e a k ,i t a f f e c t s c a l c u l a t i n gt h ew e i g h tv a l u ea c c o r d i n gt ow o r d 矗e q u e n c na n ds i g n i f i c a n c e j u d g m e n t ( 2 ) b e c a u s ec h i n e s ef u n c t i o n sa r ee x c e s s i v e l yb r o a d ,a n dt h e p h e n o m e n o na b o u tt h es y n o n y ma n do n ew o r da m b i g u i t yi so b v i o u s , a u t o m a t i cs u m m a r i z a t i o ns y s t e mc a n n o td i f f e r e n t i a t et h e me 垃c i e n t l y ( 3 ) a u t o m a t i cs u m m a r i z a t i o no f t e ni ss h o r to fs o m es u b j e c t s ,a tt h e s a m et i m eh a sr e d u n d a n c yo fk e ys e n t e n c e sw i t ht h es a m em e a n i n g ,b u t d i f f e r e n tf o r m s ( 4 ) b e c a u s es e n t e n c e sa r es e l e c t e df r o md i f f e r e n tl o c a t i o n a n dt h e s e n t e n c e sa r en o tr e l a t e dt oe a c ho t h e r , s u m m a r i z a t i o n sa r eo f t e ns h o r to f l a n g u a g ec o h e r e n c e i nt h i sp a p e r , w ep r o p o s eac h i n e s es u m m a r i z a t i o nm e t h o db a s e do n s d d + f o u rk e yt e c h n o l o g i e sa r ea d o p t e di nt h i sm e t h o d : t e c h n o l o g yi :a d o p t d o u b l e - - c h a r a c t e r - h a s h b i t r e e d i c t i o n a r y m e c h a n i s mi nc h i n e s ew o r ds e g m e n t a t i o n t e c h n o l o g y 2 :a d o p ts d d + b a s e dm a t r i xd e c o m p o s i t i o n t e c h n o l o g y 3 :b e h i n ds d d + ,a d o p ts e n t e n c ec l u s t e r i n gf i r s t l y , t h e n a u t o m a t i cc h o o s i n g t e c h n o l o g y 4 :t a k ec a u s a lr e l a t i o n s h i pa se x a m p l e ,a n di n t r o d u c eh o w t ot r e a tl a n g u a g ec o h e r e n c e t ov e r i f yf e a s i b i l i t ya n dv a l i d i t yo fc h i n e s ea u t o m a t i cs u m m a r i z a t i o n p r e s e n t e d ,w eh a v ee x p e r i m e n t e dw i t h b o t ht h ep r o p o s e dm e t h o da n d t r a d i t i o n a lm e t h o d ,a n dt h e n ,e v a l u a t e dt h er e s u l tw i t ht w od i f f e r e n t 儿 辽宁科技大学硕士论文 m e t h o d s :i n t r i n s i ce v a l u a t i o na n de x t r i n s i ce v a l u a t i o n t e s tr e s u l t sh a v e s h o w nt h a tt h e p r o p o s e ds y s t e m i sb e t t e rt h a no t h e rs y s t e m si nm o s t p e r f o r m a n c ei n d e x k e yw o r d s :w o r ds e g m e n t a t i o n ,s e m i d i s c r e t em a t r i xd e c o m p o s i t i o n , h a s h ,b i n a r y t r e e ,c l u s t e r i n g 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文巾特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得辽宁科技大学或其它教育机构的学位或证书而使用过的材料,与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示r 谢意。 签名:盏聋日期:兰坚! 关于论文使用授权的说明 本人完全了解辽宁科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被食阅和借阅:学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密的论文在解密后成遵守此规定) 签名:址导师虢坚! ! ! ! 1 日期:幽 辽宁科技大学硕士论文 绪论 1 1 自动文摘的基本概念 第一章绪论 1 文摘 中华人民共和国国家标准文摘编写规则( g b6 4 4 7 8 6 ) 中,文摘被定义:“以 提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容 的短文。” 2 自动文摘 自动文摘就是利用计算机对文献编制的文摘。 3 文摘的分类“1 文摘的类型也可以从不同的角度来划分 按文摘面向的用户划分可以划分为通用文摘( g e n e r i cs u m m a r i z a t i o n ) 和偏 重文摘( b i a s e ds u m m a r i z a t i o n ) 。通用型文摘就是面向所有用户的、文摘内容不 带有任何侧重的、全面反映原文内容的文摘。它是对全文信息的浓缩,是对原文所 描述的主题、范围和结果的一种简洁概括。这种文摘是面向原文中心思想的、静 态的文摘,不能适应用户的个性化或查询要求。对于一篇长的文章,如果用户只关 心某一方面( 例如工业) ,这就涉及到了偏重问题。 按文摘处理的文本对象划分可以划分为单文档文摘( s i n g l ed o c u m e n t s u m m a r i z a t i o n ,s d s ) 和多文档文摘( m u l t i p l ed o c u m e n t ss u m m a r i z a t i o n ,m d s ) 。 单文档文摘处理的文本对象是单篇文摘,它对每篇文章独立的生成文摘。而多文档 文摘处理的文本对象是有多篇文档组成的文档集,它对这个文档集生成一个概括 多篇文档内容的综合文摘。 按文摘的制作方法划分可以划分为摘录型文摘( s u m m a r i z a t i o i lb a s e do n e x t r a c t i o n ,s b e ) 、基于理解的文摘( s u m m a r i z a t i o n b a s e do n u n d e r s t a n d i n g ,s b u ) 、模板型文摘( s u m m a r i z a t i o nb a s e do nt e m p l a t e ,s b t ) 和基 于结构的文摘( s u m m a r i z a t i o nb a s e do hd is c o u r s es t r u c t u r e ,s b s ) 。摘录型文 摘中大部分的句子都是直接或间接的选自原文,只有少数句子经过加工整理而成。 基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的,它利用语言学 知识对文章进行复杂的语法分析、语义分析和语用分析,最后进行文摘的生成。模 版型文摘有预先定义好的框架,文摘的生成过程其实就是从原文中检索出文摘模 辽宁科技大学硕士论文绪论 版所要求的内容,填到文摘模板中即可。基于结构的文摘采用自上而下分析方法, 首先对文章的结构进行分析,再逐渐细化到段落、句子和概念,整个的分析过程是 一个自上而下的过程,即由上层分析逐渐细化到底层分析。 4 文摘作用 文摘的作用概括起来有以下7 点“1 : 促进新资料的快速通报 节省阅读时间 有助于选择文献 有助于克服语言障碍 有利于文献检索 提高标引效率 帮助人们撰写评论文章 1 2 自动文摘的研究意义 随着i n t e r n e t 的普及,信息成为人们生活中不可缺少的部分,文献数量成指数 增长。为了台理地使用这些信息中对己有用的部分,必须对信息进行筛选和浓缩等 处理。由于文摘是以简洁的形式来表达原始文本的主要内容,因此它可以帮助读者 初步了解有关文本的内容,快速地掌握信息,准确地找到自己需要的资料。但若使 文摘能准确反映文本的基本内容,编制工作量很大,且对文摘的要求也很高,加上 目前信息数量的剧增。如果只靠人工来编制文摘,速度远远跟不上信息激增的发 展要求,因此自动文摘的研究就应运而生。 自动文摘是计算语占学和情报科学共同关注的课题。从理论角度上讲,对于 自动文摘的研究有助于探讨人类理解和概括自然语言文本,并从中获取知识的认 知模型。从实用角度来讲,随着电子出版系统和国际互联网络的蓬勃发展,大量 机读形式的文本涌来的时候,为了降低编制文摘的成本,提高信息的可用性,人 们迫切需要一些可用、可靠的自动文摘技术,使相关工作效率和效果得到提高。 辽宁科技大学硕士论文 绪论 1 3 自动文摘研究的国内外现状 1 3 1 国外 自动文摘是一项应用技术,它研究如何利用计算机自动的从自然语言文本中 提取摘要。摘要应包含原文的核心内容或用户感兴趣的内容,并以语意连贯的段 落乃至篇章形式输出。 自动文摘的研究是由h p l u h n 于1 9 5 2 年开始的。h p l u h n 在1 9 5 8 年发表的一篇 题为 t h ea u t o m a t i cc r e a t i o no fl i t e r a t u r ea b s t r a c t s ”1 的论文,从此揭开 了计算机编制文摘的序幕,并成为基于统计的自动文摘方法的基础。l u h n 把词汇 分为两大类:通用词和内容词。通用词又称功能词,通常包括连接词、代词、介词、 冠词、助动词、以及某些形容词和副词,除此以外的所有词为内容词。功能词的 重要性被指为0 ,词频统计只对内容词进行,并把同根的内容词加以合并( 如 p r o g r a m 和p r o g r a m s ) ,词频超过某一事先设定的闽值v 的内容词被认为是可以代表 文章主题的有效词( s i g n i f i c a n tt e r m ) 。为测量句子的重要性,同时采用了两个 指标:频率和位置。如果句子内部两个有效词之间夹有超过4 个无效词,则此句子 不予考虑,对剩下的句子计算其重要性。 其后众多学者对他的方法进行了改进。 b a x e n d a l e 采用3 种方法从文章中选词和词串。:删除功能词、从论题句中选 择内容词、从正文的介词短语中选词川。她认为论题句是段落的支撑点,并发现 8 5 的论题句出现在段首,7 的论题句出现在段尾,因此段首、段尾句和出现在其 中的内容词需要特殊加权。她还认为“介词短语似乎比任何其他简单的语言结构 更能密切地反映文章的内容”,应该立足于词组或词串,而不是孤立的单词。 o s w a l d 在其对自动索引的研究中主张”1 :在自动编制文摘选择句子时,应该根 据句子所含代表性词串的数量来计算句子的分值。在识别出最高频的词之后,还 应确定是否还有一个词频大于l 的重要词与该词相邻接,如果有这样一个词,则 和上述的最高频词就构成一个多元词。自动编制文摘的目标就是选择含多元词数 量最多的那些句子。 e d m u n d s o n 提出了提示词法、关键词法、题名法和位置法四种加权方法”1 。提 示词法假设句子内某些词预示着另一些与主题相关的词在句中出现,对后者应予 加权;关键词法认为高频内容词可以用来选择与文献内容紧密相关的句子;题名 法指文献的题名和各级小标题概述了文献的主题内容,在计算句子重要性时,规 辽宁科技大学硕士论文绪论 定赋予题名用词较高的权值:位置法则根据句子在文中的一定标题之下出现及其 在j 下文中具体位置来确定句子的权值。 在1 9 7 4 年,耶鲁大学的s c h a n k 研制了s a m 自动文摘系统。该系统采用脚本 来分析简单的故事,并对故事进行归纳摘要”3 。 耶鲁大学的d e j o n g 于1 9 7 9 年研制出了著名的f r u m p 自动文摘系统。该系统 利用语法知识来判定某个预期词在句子当中的位置,并通过句法分析来遍历整个 文本以寻找标示为己知脚本的短语,从而建立起各种故事的梗概”1 。 1 9 8 2 年,j i t a i t 对原有的f r u m p 系统进行了改进。他提出将所有的资料先 转换成概念依存结构,然后再在此基础上通过分析、推测各种信息之问的关系来 构成摘要”,。 意大利u d i n e 大学的d a n i1 0f u m 等研究人员在1 9 8 2 年成功研制出了s u s y 文 摘系统。该系统以一阶谓词逻辑作为文本的机内表达形式,利用纲要产生器和分 析缩写器来装配出满足特定需求的摘要”。 德国康斯坦大学的h a h n 等研究人员于1 9 8 8 年研制出t o p i c 自动文摘系统, 该系统针对的是微处理器领域的科技文本,它采用框架作为知识的载体,并通过 联合语法、语义分析来生成各种长度的文摘o 3 。 1 9 8 9 年,美国g e 研发中心的l i s afr a u 等科研人员研制出了s c i s o r 自动文 摘系统。该系统利用篇章主题分析以及复杂的句法结构分析等技术生成与摘要有 关的框架概念,并采用某种预期驱动分析器从所有框架概念当中提取出预期内容, 构成摘要。该系统主要处理的是“公司合并”方面的新闻“。此后,为了进一步 提高文摘质量,人们注重将篇章分析技术引入自动摘要中,同时还探讨了其他方 法如用知识获取,心理学,神经网络等方法进行文摘的生成。 进入九十年代,越来越多的科学工作者投身于文摘生成系统的研究之中。有 代表性的实验系统有:美国g e 研究开发中心的s c i s o r n 系统,韩国u l s a n 大学的 r o s e “”系统,德国c o n s t a n c e 等大学的t o p i c “”系统,加拿大o t t a w a 大学的t a n k a “” 系统,这些系统大多为基于知识理解式的文摘系统,有的采用技术不同,有的着 眼点不同,如韩国的r o s e 系统为面向读者型,根据用户要求生成文摘。 另外,从认知学角度出发,德国e n d r e s n i g g e m e y e r b 等人开发了s i m s u m “” 文摘系统,c o l u m b i a 大学的r a d e vd r 和m c k e o w nk r 开发的s u m m o n s “”系统是 从多个在线资源中提取相关报道,进行比较,指出这些报道的一致性,矛盾点等 特征并生成摘要。 在实际应用方面,m i c r o s o f t 公司最早实现了自动文摘系统的商业应用,在其 办公软件o f f i c e 9 7 及以后版本中加入了自动文摘的功能,虽然效果一般,但总算 4 辽宁科技大学硕士论文绪论 在自动文摘系统的应用推广方面作出了贡献。 俄罗斯的m e d i a li n g u a 公司开发了俄文和英文的自动文摘系统l i b r e t t o ”, 并在国际互联网上进行销售和演示。界面友好,能和o f f i c e 办公软件集成,文摘 效果和m i c r o s o f t 公司的差不多。 y i h o n gg o n g 和x i nl i u 两位研究人员在2 0 0 1 年提出了两种句子抽取型的自 动文摘方法“。一种是基于相关性度量策略,另一种是基于潜在语义分析( l s a ) 算 法。 2 0 0 1 年,c o n r o y 和o l e a r y 两位研究人员尝试了将隐马尔可夫模型引入自动 抽取型摘要的研究当中“。 1 3 2 国内 相对来说,国内自动摘要技术的研究起步较晚,直到1 9 8 7 年左右彳+ 开始这方 面的研究。然而真正如火如茶地发展却是9 0 年代的事,这与计算机技术和网络技 术的成熟密切相关越来越多的学者纷纷开始从认知心理学、情报科学、计算语 言学等各个方面展开研究,提出了实现自动文摘的新的思路和方法,自动文摘的研 究进入了前所未有的繁荣期。 近年来,国内有多所大学和研究机构开展了研究,建立了一批实验系统。主 要的中文自动文摘系统研究发展情况如下: 1 上海交通大学,王永成“。2 3 1 “1 :主要采用仿人算法,它融合了标题法、 位置法、关键字串、词频分析、章法分析、主题敏感辞分析等多种方法为 一体,综合分析文本主题生成文摘,1 9 8 8 年。 2 东北大学,姚天顺9 1 :采用脚本知识表示,通过与用户交互获取文摘,1 9 8 9 年。 3 哈尔滨工业大学,王开铸:基于意义理解的m a t a s 系统。,1 9 9 2 年;基 于统计的h i t 一8 6 3i 系统o ,1 9 9 2 年:基于篇章多级依存结构的h i t 一8 6 3 i i 系统“,1 9 9 9 年。 4 复旦大学吴立德:基于统计的f d a s c t 系统。,1 9 9 6 年。 5 中科院软件所的李小滨、徐越啪1 ,在北京大学马希文教授的指导下,对英 文自动文摘进行了研究,实验系统一e 从s ( e n g l i s ha u t o m a t i ca b s t r a c t s y s t e m ) 。该系统是一个标准的理解文摘系统,1 9 9 0 年前后 6 北京邮电大学,钟义信:基于统计的g l a n c e 系统,1 9 9 3 。基于言语行 为理论的n e w s 系统。“,1 9 9 7 年。摘录型的l a d i e s 系统。”1 ,1 9 9 7 年。具 辽宁科技大学硕士论文 绪论 有学习功能的l a d i e s - - n e w 系统”。 7 山西大学,郭炳炎“1 :基于统计的方法分析文本结构,然后依据结构信息, 辅助词分析方法抽取文摘,1 9 9 6 年。 8 南京大学,李明”:对文本中的汉字进行字频统计得出关键字,以此为基 础从原文中选取候选文摘旬,经适当加权后摘出合适的文摘句输出,1 9 9 6 年。 9 杭州大学,姜贤塔m 1 :基于语料库的方法,1 9 9 8 年。 1 0 清华大学,罗振声”:基于主题概念的自动文摘方法,2 0 0 2 年。 1 4 自动文摘的编制方法 1 4 1 基于统计的机械文摘 基于统计的方法将文本视为句子的线性序列,将句子视为词的线性序列。它 通常分4 步进行: ( 1 ) 计算词的权值。 ( 2 ) 计算句子的权值。 ( 3 ) 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为 文摘句。 ( 4 ) 将所有文摘句按照它们在原文中的出现顺序输出。 在自动摘录中,计算词权、句权、选择文摘句的依据是文本的6 种形式特 征: ( 1 ) 词频( f r e q u e n c y ) 能够指示文章主题的所谓有效词( s i g n i f i c a n tw o r d s ) 往往是中频词。根据句 子中有效词的个数可以计算句子的权值”1 。 ( 2 ) 标题( t i t l e ) 标题词指来自于文章标题、副标题、 中剔除功能词或只具有一般意义的名词, 可以作为有效词。 ( 3 ) 位置( l o c a t i o n ) 小标题等句子中的词。在标题或小标题 剩下的词和原文内容往往有紧密的联系 对该特征的一个简单处理就是根据句子是否位于第一段、最后一段、段落第 一句、段落最后一句来分配序数权重,中间部分的句子该特征的权重分配为0 。 6 辽宁科技大学硕士论文绪论 ( 4 ) 句法结构( s y n t a c t i cs t r u c t u r e ) 旬式与句子的重要性之间存在着某种联系,比如文摘中的句子大多是陈述旬, 而疑问句、感叹句等则不宜进入文摘。 ( 5 ) 线索词( c u e ) 线索词法是基于这样一种概念:句中有一些词或短语虽然他们本身不是关键 词,但是他们起到了一种提示作用,告诉读者此句含有重要信息,如中文中的“因 此”、“综上所述”等。 e d m u n d s o n 的文摘系统中有一个预先编制的线索词词典,词典中的线索词分为 3 种:取正值的褒义词( b o n u sw o r d s ) ,取负值的贬义词( s t i g m aw o r d s ) ,取零值的 无效词( n u t1w o r d s ) 。“。句子的权值就等于句中每个线索词的权值之和。 ( 6 ) 指示性短语( i n d i c a t i v ep h r a s e ) 指示性短语是指那些具有指示主题的词组。如中文中的“本文提出了”、“我 们认为”等。 1 9 7 7 年,英国l a n c a s t e r 大学的p a l c e 提出根据各种“指示性短语”来选择文 摘句的方法“。和线索词相比,指示性短语的可靠性要强得多。 文本的这6 种形式特征,即:f n 频、t 标题、l 位置、s 句法结构、c 线索词、i 指示性短语,它们从不同角度指示了文章的主题,但都不够准确,不够全面。如 果能够将上述各种特征“有机”地结合起来,即以w = f ( f ,t ,l ,s ,c ,i ) 作为计算句 子权值的公式,那么摘录的质量可望进一步提高。问题的关键在于函数f 如何确定。 e d m u n d s o n 用一个简单的线性方程w = a , c + a e k + a j + a 4 l 将4 种基本的句子选择 方法集成在一起。w 代表句子的最终权值,c 代表线索词( c u e ) 权值,k 代表根据词 频计算而得的关键词( k e y ) 权值,t 代表题名词( t i t l e ) 权值,l 代表位置( l o c a t i o n ) 权值,a ,a :,a 。和乱是调节参数。这种将不同性质的因素简单地线性叠加的方式 缺乏充分的理由,实践表明确实不够理想。 在经过l o 年的探索之后,e d m u n d s o n 断占:今后的文摘自动化方法必须考虑文 献正文的句法特征和语义特征,而不能简单地依赖粗糙的统计数据。目前的许多 自动摘录系统都综合考虑了两种或多种形式特征。比如,新加坡南洋大学研制的 图书馆新闻删节系统( l i b a r a yn e w s p a p e rc u t t i n gs y s t e m ) ,提供了题名法、位 置法、关键词法和指示性短语法4 种自动摘录方法供用户选择。但是在多种特征的 结合方面尚待深入研究。 进入九十年代后,人们将一些新的统计方法应用到自动文摘的相关处理中, 如基于向量的空问模型和可能性概率分析等。 g s a l t o n 的s m a r t 系统是基于向量空间模型( v e c t o rs p a c em o d e l ) 技术建立起 辽宁科技大学硕士论文 绪论 来的。它可以实现对文本主题的判断、有选择地遍历文本以及抽取出反映文本内 容的摘要信息。在这个向量空间模型中,每一个向量d i 为一个文本,文本中的某 些词或短语为项,对这些项采用最为著名的权值计算公式( f t 1 f ,f i 为项在某一c t 文本中的频率,c 为项t 在所有搜集样本中的频率) 来计算项t 的权值作为向量的元 素。如对文本d ,= ( d “,d 。l ,d 。) 其中d ,“为i n k 在文本d 中的权值,那么,系统可 f 以计算两个文本的相似度( s i m ( d 。d 。) = 砝颤) 。通过这种相似度计算从而判定 女= l 文本的相关主题,进而得到文摘。 t d u n n i n g 提出了一种可能性概率分析方法用于文本的分析。他认为以往的常 量统计分析方法只适用于极大规模的语料库或是只对最常用词进行统计处理,不 适用于小规模语料库,特别不适用于有些词非常少见、但却意义重大的文本。可 能性概率分析是一种参量统计分析,它对含有未知参数的统计模型空间中的某个 子空间采用渐进x 2 分布处理,在二项和多项式分布情况下快速逼近的效果尤为显 著。通过这种方法,可以计算出文本中相邻两个词的紧密结合度,从而对进一步 分析文本提供帮助。 从上面的介绍可以看出,基于统计的方法主要通过集成文章中各个语言单位 如段落、复旬、单句等的位置信息、指示短语、关键词以及标题等来对其进行加 权,进而抽取出比较重要的句子构成文本的摘要。用这种方法建立起来的自动文 摘系统可以对任何领域的文本进行处理,具有领域不受限的优点,另外,由于系 统的计算性使得这种系统对文本的处理速度很快。但这种方法是建立在文本表层 的形式特征基础之上的,是词一级的处理,而且对词没有进行任何语法、语义信 息的理解。如果读者对生成的文摘不苛求其可读性、含信率及准确度,则这种系 统不失为成功的系统。 1 4 2 基于意义的理解文摘 基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展 起来的文摘方法。这种方法与自动摘录的明显区别在于对知识的利用,它不仅利 用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文 摘的意义表示,最后从意义表示中生成摘要。 基于理解的自动文摘通常有以下步骤: ( 1 ) 语法分析:借助词典中的语言学知识对原文中的句子进行语法分析,获得 语法结构树。 辽宁科技大学硕士论文 绪论 ( 2 ) 语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义 为基础的语义表示。 ( 3 ) 语用分析和信息提取:根据知识库中预先存放的领域知识在上下文中进行 推理,并将提取出来的关键内容存入一张信息表。 ( 4 ) 文本生成:将信息表中的内容转换为一段完整连贯的文字输出。 篇章意义的机内表示是原文分析的结果和文摘生成的依据,它在基于理解的 文摘系统中处于中枢地位。不同系统采用的篇章意义机内表示有所不同。主要的 表示方法如下: ( 1 ) 脚本( s c r i p t ) 。例如美国耶鲁大学的s c h a n k 研制的s a m l 3 9 1 ( s c r i p ta p p l i e re c h a n i s m ) 系统以及的d e j o n g 研$ ! | f r u m p l 4 0 1 ( f a s tr e a d i n gu n d e r s t a n d i n g m e m o r yp r o g r a m ) 系统。 ( 2 ) 概念从属结构( c o n c e p td e p e n d e n c ys t r u c t u r e ) 。例如美国的j i t a i t 对 f r u m p 系统进行了改进,研制了s c r a b l e 系统,它要求输入的资料在处理前先转换成 c d ( c o n c e p t u a ld e p e n d e n c ys t r u c t u r e ) 结构,在此基础上分析和确定被预测的信 息与未预测的信息之间的关系,并将这两部分信息合理地组织成一篇完整连贯的 文摘,然而由于c d 结构过于复杂,所以实现起来困难较大。 ( 3 ) 框架( f r a m e ) 。例如美国g e 研究与开发中心的l i s af r 等在8 0 年代术研制 的概念信息缩写、组织和检索系统s c i s o r ( s y s t e r nf o rc o n c e p t u a li n f o r m a t i o n s u m m a r i z a t i o n o r g a n i z a t i o na n dr e t r i e v a l ) 。它是典型的理解文摘,处理的 对象是有关“公司合并”的新闻报导。s c i s o r 首先采用关键词过滤和模式匹配的 方法对处理文献进行主题分析,以便判定该报道的内容是否与“公司合并”有关, 然后采用与领域无关的自底向上的分析器识别每个句子的结构,生成类似于框架 ( f r a m e ) 的概念表示最后运用自顶向下的预期驱动的分析器,从概念表示中提取 预期的内容。 ( 4 ) 阶谓词。意大利u d i n e 大学的d a n i l of u m 等人在8 0 年代初研制了 s u s y ( s u m m a r i z i n gs y s t e m ) 缩写系统,该系统以阶谓词逻辑为基础,取得了较好 的效果,体现出了逻辑方法的潜力。 基于理解的方法首先利用语言学知识获取语言结构,然后利用领域知识进行 判断、推理,得到文摘的意义表示,最后从意义表示中生成文摘。与基于统计的 方法相比,理解摘要方法采用了复杂的自然语言理解和生成技术,因此摘要质量 较好,具有简洁精炼、全面准确、可读性强等优点。但是由于在建立文摘过程中 需要利用有关语言或应用领域的某些知识对文本进行分析,限于知识的获取和表 达方式,这类系统只适用于某个领域,很难推广到其他领域。 9 辽宁科技大学硕士论文 绪论 1 4 3 基于篇章结构的自动文摘 篇章是个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间 存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。但 是语言学对于篇章结构的研究还很不够,可用的形式规则就更少了,这使得基于结 构的自动文摘到目前为止还没有一套成熟的方法,不同学者用来识别篇章结构的 手段也有很大差别。 ( 1 ) 关联网络 如果将一个语言单元的各个子单元视为节点,并在两个有语义联系的子单元 之间引一条边,那么我们就得到了一个关联网络。在网络中,与一个节点相连的边 数称为该节点的度。节点的度越大,则节点在网络中的重要性越高。将最重要的若 干子单元抽取出来,即可构成文摘。前苏联的e f s k o r o x o d k o 将文章视为句子的 关联网络,旬问的关系建立在词间的同义关系基础之上,和很多句子都有联系的中 心句被确认为文摘句“。美国c o r n e l l 大学的s a l t o n 等人则将文章视为段落的关联 网络。文献中的每个段落被赋予一个特征向量,两个段落特征向量的内积作为这两 个段落的关联强度。如果两个段落的关联强度超过给定闽值,则认为两个段落有语 义联系。和很多段落都有联系的中心段被提取出来组成一篇文献摘要“。 对于篇幅较长的文章,句子之间的关联网络将十分庞大,其时空开销都将是难 以承受的。相比之下,段落之间的关联网络要小得多。另外,和由句子组装起来的 文摘相比,由段落拼接起来的文摘连贯性显著提高。不过,由于最重要的段落中也 可能包含一些无关紧要的句子,所以基于段落抽取的文摘显得不够精练。 ( 2 ) 修辞结构( r h e t o r ic a ls t r u c t u r e ) 9 0 年代初,日本t o s h i b a 公司的k e n j io n o 等基于修辞结构研究自动文摘。他 们将修辞关系归纳为举例( e g ) 、原因( r s ) 、总结( s m ) 等3 4 种,首先依据连接词 等推导出一种类似于句法树的修辞结构树,然后对修辞结构树进行修剪,将保留下 来的内容根据它们之问的修辞关系组织成一篇连贯的文摘“7 “”。这种方法的不足 在于:修辞关系的识别依赖于连接词,如果文章中连接词的数量很少,那么数修辞 关系就无法识别了。 ( 3 ) 语用功能 这种方法主要是针对科技文献。科技文献的写作有比较严格的规范,文献中不 同部分承担着不同的语用功能,根据语用功能可以将文章的主体部分识别出来构 成文摘。 o 辽宁科技大学硕士论文绪论 1 9 7 8 年,原捷克斯洛伐克句拉格的j i r ij a n o s 提出了依据功能句子观 ( f u n c t i o n a ls e n t e n c ep e r s p e c t i v e ,f s p ) 理论进行文本浓缩的方法。f s p 是布 拉格学派马泰休斯( m a t h e s i u s ) 等人提出的一种语篇理论,j i r ij a n o s 采用该理论 的目的是为了通过对句子语用功能的分类将文本的主干( 称为t e x tp r o p e r ) 和枝叶 ( 称为m e t a t e x t ) 区别丌来。文本的主干由主题( t h e m e ) 和述题( r h e m e ) 构成,以不 同的主题推进方式( t h e m a t i cp r o g r e s s i o n ,t p ) 相互衔接。主于是需要熏点分析 和摘录的内容,而枝叶则可以排除在文摘之外”9 ”3 。 r 本北海道大学的m a e d a 将句子的信息功能分为:背景( b ) 、主题( t ) 、方法( m ) 、 结果( r ) 、例子( e ) 、应用( a ) 、比较( c ) 和讨论( d ) ,并认为t 、m 、r 和d 是主干,应 进入文摘;e 、a 、c 和b 是枝叶,应排除在文摘之外“。美国纽约s y r a c u s e 大学的 l i d d y 通过对人工文摘的大量调查归纳出经验文摘( e m p i r i c a la b s t r a c t ) 的基本结 构:背景一目的一方法一结果一结论一附录,其中每一项内容中又包括了些细则 ”“”1 。如果将文摘中承担这些功能的片段识别出来,就可以组成文摘。 和用其它方法生成的文摘相比,根据语用功能提炼出来的文摘更符合科技文 献文摘编写的标准。如果想把这种方法推广到科技文献以外的文本中去,则需要对 各类文章的结构深入研究。其实即使是科技文献也有各种类型,理论文章、实验文 章和综述文章的结构区别也很大。 1 5 本文任务安排 第一章是绪论,介绍了自动文摘的基本概念、研究意义和国内外现状,及编制方 法。 第二章是文本自动文摘模型的介绍,对当前自动文摘领域几种重要的模型进行了 说明,对s o d 方法做了些许改进并对改进后的方法与s d d * 日s v d 方法作了相应的比 较和分析。 第三章对汉语自动分词的原则、方法及词典机制做了阐述,对词典的结构及查找 方法做了改进。 第四章介绍了进行s d d + 后,文献语句先聚类再抽取的方法及文摘连贯性的处理。 第五章完整地给出了针对上述各种关键技术所设计出的中文自动文摘系统的系统 结构图,并对其中的四个关键模块做了说明。此外,还详细介绍了实验语料的来 源与选择,采用的实验方法和实验结果的分析。 第六章是全文内容的总结。 辽宁科技大学硕士论文 潜在语义索引模型 第二章潜在语义索引模型 2 1 向量空间模型( v s m ) 在自然语言处理的各个研究领域,对文本各级语言单元进行形式化的表达是 一个即基础而又重要的问题。而形式化表达其根本目的就在于力图将各种无结构 化的文本单元转换成便于计算机处理的结构化的表达形式,以支持后续一系列语 言处理应用的需要。 向量空间模型作为文本单元表达的一种经典模型,自上个世纪6 0 年代末由 s a l t o n 提出以来,就一直受到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论