




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)偏重摘要技术及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 互联网技术的快速发展,使电子信息逐年爆炸式地增长,虽然搜索引擎技术的发展使 人们可以快速地从网络上找到自己想要的信息,但随着网络信息的快速增多,人们花费在 搜寻有用信息上的时间也越来越多了。在这种情况下,单纯的搜索引擎技术已经越来越难 子满足人们迅速掌握有用信息的需求了。 早在1 9 5 8 年,以l u h n 发表的题为1 ka u t o m a t i cc r e a t i o no fl i t e r a t u r ea b s t r a c t s ) 的 论文为起点,人们就开始了对自动摘要研究。文本摘要具有简洁,准确、清晰和高效的特 点,而自动摘要不但具有文本摘要的特点,而且能够对海量信息进行快速处理,日渐成为 人们快速掌握信息的有效手段。在自动文摘近半个世纪的发展历程中,人们在通用摘要方 面取得了许多的研究成果。而依据用户需求生成相应摘要的偏重摘要技术,在最近几年才 受到了国外许多学者的研究关注,由于偏重摘要不但易于对信息进行再处理,而且在信息 检索、问答任务以及其它领域中都能发挥积极的作用,使其逐渐成为了自动文摘领域的研 究重点。 本文对自动摘要、通用摘要、偏重摘要等相关概念进行了较为深入的探讨。在回顾偏 重摘要的研究状况之后,提出了基于关键词密度分布算法的偏重摘要系统的设计。该系统 采用v i s u a lc + + 6 0 作为开发语言,s q ls g l v b e l 2 0 0 0 作为数据库,可以根据用户的查询需 要,生成三种不同压缩比率的自动摘要。 在对偏重摘要的应用性研究中,分别设计了两类不同实验进行对比,检验了偏重摘要 在信息检索和问答任务中的实用性和有效性。实验结果表明,偏重摘要能够满足用户的查 询特定信息的要求,实验中抽取的结果文摘的平均正确率分别达到了7 2 5 和8 6 5 。 最后,在参考有关文本摘要自动评测相关文献的基础上,融合当前的两类不同评测方 法的优点,提出了一种基于混合策略的中文文摘自动评测方法,并通过两类不同的对比实 验对该评测方法进行了检验和验证。实验结果完全符合我们的预期设想,从而验证了该评 测方法的可行性。同时,实验也显示了基于关键词密度分布算法的自动摘要系统较之于基 于语句相似度的自动摘要系统在结果文摘的质量上得到了一定的提高。 关键词:自然语言处理;偏重摘要;自动文摘 大连理工大学硕士学位论文 s t u d yo n t h et e c h n o l o g ya n da p p l i c a t i o no f b i a s e ds u m m a r i z a t i o n a b s l :r a c t c o r r e s p o n d i n gw i t ht h er a p i dd e v e l o p m e n to f t h ei n t e r n e t , w ea 撑s u r r o u n d e db ya ni m m 睨l s e s 铭o f i n f o n m t i o n h o wt og e ta c c u r a t ea n dv a l i di n f o r m a t i o nf r o mt h i sv a s ti n f o r m a t i o ns i s 越 i m p o a a n tw o r ki ni n f o r m a t i o ne x l r a e t i o n as p e c i f i cs e a r c he n g i n ec 龇n o ts a t i s f yt h ea c t u a l a p p l i c a t i o n ss of a r a u t o m a t i c 鲫t l n l a r i z a t i o n 懈f i r s ts t u d i e di nl u l m sp a p e r ”刀地a u l o m a t i cc r e a t i o no f l i t e r a t u r ea b s t r a c t s ”i n1 9 5 8a n dh a sb e e nah o tr e s e a r c hi s s u ei nt h ef i e l d a u t o m a t i ct e x t s l m n a t i 刎o ns h o u l dr i o to n l yb es i m p l e , e o r l e i s e , a c c u r a t e , ) a n de t t i c i e n t 鹤t e x ts t m l m a t i z 嘶o n s , b u ta l s o 锄d e a lw i t hm a s sd a t aq u i 西d y i th a sb e c o m e1 1 1 1 _ i m p o r t a n tt o o lf o rl ,e o r , l et oo b l a i n i n f o r m a t i o nq u i d d y d u r i n gt h ep a s t 矗f i yy e a r s , m a n yp r o g r e s s e sh a v eb e e nm a d ei ng e n e r i c s u l n n l a r i 刎o l la n dt h eb i a s e d 飘h n n 垴l i z 砒i o nh a sa t t r a c t sm a n yr e s e a r c h e r si nr e c e n ty e m s , b e c a u s ei tm a k e st h er c - l r e a to f i n f o r m a t i o nm o l ee a s ya n dp l a y s1 1 1 1 _ i m p o r t a n tr o l ei ni n f o r m a t i o n r e s e a r c h o r ) ,q 腻a n d a l l s w e - r ( q & a ) e r e m b i a s e d s u l l m l a r i z a l i o n i s b e c o m i n g a h o t s p o t i na u t o m a t i ct e x ts u m l a l i z 越i o l l s a u t o m a t i c 乳m m l a 吼c o m m o ns u m m 张, a n db i a s e ds u m m a r ya r ed i s c u s s e dd e e p l yi nt h e 弘驴咒a f t e rr e v i e w i n gt h eh i s t o r yo fb i a s e ds u m m a ) ap r a c t i c eb i a s e ds u m m a r ys y s t e mi s d e s i g n e da n di m p l e m e n t e db a s e do nt h ea l g o r i t h mo ft h ed e n s i t yd i s t r i b u t i o no fk e y w o r d s n l i s s y s t e mi sd e v e l o p e di nv i s u a lc + + 6 0a n ds q ls e r v e r2 0 0 0 , a n dp r o v i d e st h r e ea u t o m a t i c s u n l l t l a l j c si nd i f f e r e n tc o m p r e s sr a t ea c c o r d i n gt ou s e r s d e n m d o nt h es t u d yo f t h ea p p l i c a t i o no f b i a s e ds u m m a r y , ) t w oc , o l l w d s te x p e r i m e n t sa r cr l l a d et 0t e s t t h ep r a c t i c a b i l i t ya n dt h ee f f e c t i v e n e s so f t h es y s t e mo ni ra n dq & at a s k s n 圮a x p e r i m e n tr e s u l t s s h o w ,t h es y s t e ms a t i s f i e st h ed e m a t , ao fs e a r c h i n gs o m es p e c i a li n f o r m a t i o n a n dt h ea v e r a g e c o r r e c tr a t e so f t h et e s ta 咒7 2 5 a n d8 6 5 r e s p e e l i v e l y f i n a l l y , 缸e v a l u a t i o nm e t h o di sp r o p o s e db a s e do nh y b r i ds t r a t e g y a n dt h ec o r r e c t n e s sa n d v a l i d i t yo f t h i sm d t h o di st e s t e db yt w od i f f e r e n te x p e r i m e n t s n 圮t e s tl _ e s t l l tc o m e su pt ow h a tw e e x p e c t i ti sa l s od e m o n s t r a t e dt h a tt h eq u a l i t yo f s u n m l f l l i l o sc r e a t e db yt h es y s t e mb a s e do nt h e d e n s i t yd i s t r i b u t i o no f k e y w o r d si sb e t t e r t h a nt h o s ec r e a t e do n t h es i m i l a r i t yo f s e n t e n c e k e yw o r d s :n a t u r ed , n g u a g el r o g r 倒;b i a s e ds u m m a r i z a t i o n ;a u t o m a t i c t e x t s u m m a r i z a t i o n - i i l 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:j 邀日期:丝翌丕翻型圃作者签名: 主j 丝丝日期:超垒i 因型岗 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规 定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名1 叠蹩丝 导师签名: 叫月4 日 大连理工大学硕士学位论文 引言 在因特网的兴起和大容量、低价格存储介质快速发展的今天,带给人们的是爆炸式增 长的海量信息。人们面对从海量的信息中搜寻自己所需要的信息的难题,迫切需要一种快 速的寻找有用信息的方式方法。近年来,网络搜索引擎技术的发展在一定程序上缓解了人 们快速检索信息的需要,并且带来了网络搜索引擎的研究热潮,使网络搜索引擎成为了人 们上网查找资料的必备工具,但当前的搜索引擎还是不能够从根本上解决人们快速掌握信 息的需求。致力于克服这一难题,一些自然语言处理的技术,如自动文摘、信息检索、信 息抽取、问答系统、数据挖掘等受到了越来越多的研究关注。结合当前的搜索引擎技术, 一些研究学者提出了个性化信息检索和智能信息检索等新的融合性的技术。而自动摘要技 术顺应时代发展要求,以其自身对信息的浓缩和简洁清晰等特点,成为了当前研究的重点 内容。 按照自动摘要面向的用户和所生成目标内容的不同,可以将它划分为通用摘要和偏重 摘要。通用摘要是面向的所用用户的,以生成包含文本主题内容为目标的文摘,而偏重摘 要是根据需要或者用户的兴趣,以生成符合偏重要求的文本内容为目标的文摘。在信息检 索中,人们关心更多的是有侧重点的内容,而偏重摘要正是满足于人们这一需求的。同时 偏重摘要作为计算机自动文摘中的一类,同样具有文摘简洁性、准确性和清晰性的一般特 点,而且偏重摘要以其对文本内容的针对性和对文档对象处理的一致性,使其成为文本数 据挖掘的有效方式。 文本自动摘要技术,从其实现过程的本质上来说,可以分为两个阶段:一是内容转换 阶段,即将文本内容转换为计算机可以处理的数据;二是摘要生成阶段,即通过一定的算 法程序抽取或生成符合目标要求的摘要。在文本内容转换阶段,常常使用到一些数学模型 的方法,如比较经典的向量空间模型方法。在生成文摘的方式方法上,局限于自动摘要的 技术难点,当前的系统都以从原文中抽取语句来构成最后的摘要,而对于生成式的摘要目 前还难以实现。通用摘要和偏重摘要的实现本质上也是相同的,只是偏重摘要在摘要生成 阶段还加入了对用户偏重的考虑,需要采用一些不同的摘要生成技术。 文本自动摘要技术从其实现的技术方法来说,主要有两种不同方式。一种是抽取式摘 要,即以抽取原文中的相关语句来生成最后摘要的方式;另一种是生成式摘要,即由计算 机生成原文中没有的新句来概括原文主题内容或相关偏重的知识点。由于生成式摘要技术 难度大,目前还难于实现,而抽取式摘要在技术上易于实现,应用领域广泛,基于机械抽 取方法生成的摘要内容不够简洁、语句不太连贯、主题不够全面。于是人们又利用各种知 识和形式化理论,在理解文档语义内容的基础上来生成摘要,也就是理解摘要。它生成的 偏重摘要技术及其应用研究 摘要可读性好,但受语义分析和领域知识的制约,只能适用于某些特定领域,且难度大, 系统效率不高。目前较好的自动摘要方法都是综合了机械摘要和理解摘要技术的方法。 此外,由于人们对自然语言的理解和对文本内容的理解无不带有个人的主观因素,因 而正确、客观地评测自动摘要系统成为一个非常困扰人们的难题。虽然国际上每年举办的 一些评测会议不断地推动了自动文摘技术的发展,但要建立起一个统一的评测标准,还是 有许多的工作要做。 大连理工大学硕士学位论文 1 绪论 1 1 偏重摘要的概念表述 摘要,也称为文摘,不同的研究者对其有不同的定义。如m a n i 认为,摘要就是从信 息源抽取内容,用简练并且用户感兴趣的方式把最主要的内容呈现给用户i ”。而一些较为 权威性的定义有: “以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内 容的短文。”( 中华人民共和国国家标准文摘编写规则g b6 4 4 7 8 6 ) 。某一文献内容的简要而准确的表达,不加解释和评测,也不区分这篇文献是由谁写 的。”( 美国国家标准学厶( a n s d 文献编写标准) “一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没 有差别。”( 国际标准文献工作一出版物的文摘和文献工作i s 0 2 1 4 - - 1 9 7 6 ( e ) ) 实际上,文摘的确难以被准确定义,国际著名的模糊数学大师l a 。z a d e h 在讨论自动 摘要闯题时也认为文摘难于被准确定义。文摘在中文中也可以称为摘要、概要、提要、梗 概、简介等,在英文中则有s u m m a r y 、m c f 、c o m p e n d i u m 、e p i t o m e 、p 廊i s 等,这些术语 和文摘( a b s t r a c t ) 都有一些细微的差别,但使用什么术语并不十分重要,只要摘出的内容满 足要求即可习。 我们通常将摘要定义为:摘要是准确全面地反映某一文献中心内容的简洁连贯的短 文。而自动摘要就是利用计算机自动地从原始文献中提取摘要。 自动摘要按其面向的用户不同,可以将其划分为通用摘要( g e n e r i cs u m m a r i z a t i o n ) 和 偏重摘要( a i a s e as u m m a r i z a t i o n ) 两类p j 。通用摘要是面向所有用户的、文摘内容不带有任 何侧重的、全面反映原文主题内容的文摘,它是对全文信息的浓缩,是对原文所描述的主 题、范围和结果的一种简洁概括。这种文摘是面向原文中心思想的、静态的文摘,不能适 应用户的个性化或查询要求。对于一篇长的文章,如果用户只关心某一方面,这就涉及到 了偏重问题。 偏重摘要是面向特定用户的,以符合一定需求的原文中的相关内容作为最后文摘内容 的摘要。它可以根据需要或者用户的兴趣提供相应的有侧重点的文摘,其结果不仅仅决定 于原文的主题,更决定于偏重需要的目标。它能够把焦点放在偏重需求部分,面不是把原 文的各个部分平等对待。由此可见,通用摘要的目标只在于获取原文的主题内容;而偏重 摘要的目标则在于获取原文中与偏重需求相关的内容。 一3 一 偏重摘要技术及其应用研究 依据偏重摘要的偏重需求不同,偏重摘要还可以细分为用户聚焦文摘c o s e r - f o c u s c d s t m m m r i z a t i o n ) 、主题聚焦文摘( t o p i c - f o c u s e ds u m m a r i z a t i o n ) 或查询聚焦文摘( q u a y - f o c u s e d s u m m a t i z a d o n ) 等不同类别。 偏重摘要除具备一般文本摘要的简洁性、清晰性、准确性的特点外,本身还具有两个 特点,一是对文本内容提取的针对性,即对文本内容提取是有针对性、有选择地提取;二 是在对文本对象处理方式可以有一致的处理方法,不需要区分单文本摘要或是多文本摘 要。 单文本摘要和多文本摘要是人们按自动文摘处理的文本对象的不同对其进行的划分。 单文本摘要处理的文本对象是单篇文章,它对每篇文章单独地生成文摘。多文档摘要处理 的文本对象是由许多文本组成的文本集。多文本摘要从多个文本组成的文档集中生成一个 概括多篇文本内容的综合文摘。为此需要从文本集中去除冗余,并考虑各个文本之间相互 的关联性及各自的差异性,以便生成一个浓缩的信息集。偏重摘要同样要处理单文本和多 文本对象,其实现技术是基于通用摘要技术的,但又与通用摘要的处理方法不完全相同。 这是因为从多文本摘要的本质上来说,它是对单文本摘要的一个扩展。通用摘要中对多文 本的处理要比单文本更为复杂,也更为困难一些。而偏重摘要不需要对多文本的主题进行 识别,它关心的只是各个文本中的热点区域,因此对单文本摘要和多文本摘要在处理方法 上可以采用一致的方法。 偏重摘要的提出至少有两个现实意义:第一,偏重摘要便于满足用户特殊要求,成为 用户个性化信息查询的手段;第二,偏重摘要比通用摘要和现有搜索引擎能为用户提供更 为可靠和丰富的信息,便于实现智能化的搜索引擎。 1 2 偏重摘要与其他相关技术的区别 偏重摘要是与问答任务、信息检索、信息抽取以及文本挖掘密切相关的,它们都是人 们获取信息的方式,但它们之间的区别也是明显的。 ( 1 ) 与问答任务的区别 问答任务可以看作是信息检索的一个特定方向,其返回结果只是一个简单的答案。而 偏重摘要是对信息检索的补充,获得的结果是符合偏重的一篇摘要,而一些面向问题和 答案的偏重摘要,在其生成的摘要中就可以包含答案,能够为用户提供多于一个答案的更 多相关知识。 ( 2 ) 与信息检索的区别 以功能而言,信息检索主要是从大量的文本集合中找到与用户需求相关的文本列表, 而偏重摘要旨在从文本直接获取用户需求的文本内容;以实现技术而言,信息检索不像偏 大连理工大学硕士学位论文 重摘要那样需要对文本内容进行深入的分析理解,而通常利用统计和关键词匹配等机械文 摘中常用的技术。 ( 3 ) 与信息抽取的区别 从实现技术上来说,信息抽取往往采取的是模板填充的方法,是一种高度受限的信息 处理过程;而偏重摘要不需要预先选定目标的特征,可以对多种多样的文本进行处理;从 应用范围上来说,信息抽取一般都只能用于特定的领域,而偏重摘要可以有更为广泛的应 用领域:从生成的结果上来说,信息抽取的结果一般较偏重摘要的结果精确而简练,但相 对而言,其包含的相关信息也就比较少了。 ( 4 ) 与文本挖掘的区别 文本挖掘的目标是要从文本集中发现新的知识和模式,而偏重摘要是从文本中获得符 合偏重需求的信息内容:文本挖掘需要借助于偏重摘要的技术,是比偏重摘要更为深层的 信息获取方法。 1 3 自动摘要发展历史回顾 从2 0 世纪9 0 年代开始,随着i n t e m e t 的迅速发展,和对统计方法的重新发现,人们 再度热衷于自动摘要的研究,从而形成了自动摘要研究历史上的第三次高潮。自动摘要的 最早起源可以追溯到1 9 5 2 年,时为m m 公司研发工程师的l u t m 开始研究通过计算机来 为文本生成摘要的方法,经过6 年多的研究,于1 9 5 8 年发表了其划时代的论文1 k a u t o m a t i cc r e a t i o no f l i t e r a t u r ea b s t r a c t s ) ,从此揭开了人们研究自动文摘的历史。 回顾半个多世纪自动摘要的发展历程,从国外来看,对自动文摘的研究大体上有三个 阶段:第一阶段是1 9 5 5 年至1 9 7 3 年的初始抽取时期;第二阶段是从8 0 年代开始的人工 智能方法时期,其中在1 9 6 1 年到1 9 7 9 年兴起了语言学的研究;第三阶段是从9 0 年代末 到现在的复兴时期,主要是对统计方法的重新发现和对混合方法的研究。 而国内自动文摘的研究起步较晚,在2 0 世纪8 0 年代,才有学者开始研究中文自动文 摘。进入九十年代,参与研究中文自动摘要的单位增多,推动了自动摘要技术在国内的广 泛研究。但由于中文不同与西文的特点,使之在自动摘要的研究中碰到的技术难题更多一 些。 1 3 1 自动摘要的技术发展 自动摘要的研究融合了许多相关领域的知识,也形成了各种自动摘要的方法,依据其 不同的发展时期产生了多种不同的文摘技术。 一5 一 偏重摘要技术及其应用研究 在初始的机械文摘时期,主要有l u l m ,1 9 5 5 年提出的词频方法,e d m u n d s o n ,1 9 6 9 年提出的位置指示、索引词汇、转折词、转折段等方法 5 1 ,m a t h a i s ,1 9 7 3 年提出的流聚合 方法嘲。 在上个世纪8 0 年代开始的人工智能时期,主要有d e j o n g 在1 9 8 2 年研制的f r u m p 系统,采用的是脚本语句方法,1 9 8 5 年的s u s y 系统使用了逻辑和规则方法,1 9 8 8 年 r e i n e r 和h a h n 的t o p i c 系统,使用了框架结构和语义网络方法,1 9 8 9 年r a n 等人提出了 混合表示法1 7 j 从2 0 世纪9 0 年代进入自动文摘的复兴时期,对统计学方法的重新发现以及其对其他 人工智能方法的研究,使文摘技术呈现多样化,可以列出的就有:利用语言学表示的方 法,统计学方法,自然语言生成的方法,压缩和抽取的方法,多文本摘要方法,文摘中的 叙述技巧,多语言文摘,文本压缩,多媒体摘要( 包括语音方面) ,利用信息抽取,研究和 模仿人的摘要,提高摘要的一致性,概念融合,使用基于本体的方法以及可训练的摘要生 成方法,应用机器学习方法,多知识方法等等圈。 1 3 2 自动摘要的研究成果 在半个多世纪的研究发展中,人们基于不同的理论基础,研制出了多种不同的自动文 摘系统。 在机械文摘时期,有8 个成果,它们是;l u h n 的研究;m m 的a c s i - - m o t i e 小组的 研究:o s w a l o l 的研究;词的相关性研究;e d m o n d s o n 和w y l l y s 指导的t r w 小组的研 究;e a r l 的研究;前苏联的研究;r u s h 的研究。 在理解文摘时期,也有8 个成果:y a l e 大学d a j o r g 于1 9 7 9 年研究的f r u m p 系统; j , i t a l t 的s c r a b b l e 系统;s c h e n i k 及其y a l e 大学的学生研制的s a m 系统;意大利的d e n i l o f u m 等1 9 8 2 年研制的s u s y 系统;香港城市理工大学的中文摘要生成的研究;1 9 9 0 年 p j a e a b s 和l p a n 研制的联机新闻信息抽取系统s c i s o r ;f r u m p 系统的研究。 在国内的研究成果主要有:哈尔滨工业大学王开铸设计实现了m a t a s 系统( 1 9 9 2 ) 、 h i t - - 8 6 3 i 系统( 1 9 9 2 ) 、肼一9 7 i 系统( 1 9 9 7 ) 及h i t - - 8 6 3 i i 系统( 1 9 9 9 ) ,北京邮电大学钟义 信设计了c l a n c e 系统0 9 9 3 ) 、n e w s 系统0 9 9 ) 、l a d i e s 系统0 9 9 7 ) 、l a d l e s - - n e w 系统( 2 0 0 0 ) ,复旦大学吴立德设计了f d a s c t 系统( 1 9 9 6 ) 和文本自动综述系统( 2 0 0 3 ) ,中国 科学院李小滨设计了e a a s 系统( 1 9 9 0 ) ,其他如上海交通大学王永成( s j t u c a a 系统 ( 1 9 8 8 ) 、东北大学姚天顺、清华大学罗振声、南京大学李明、山西大学郭炳炎、杭州大学 姜贤塔等人在自动文摘方面都有一定的研究,并取得了一定的成果。 一6 一 大连理工大学硕士学位论文 1 3 3 自动摘要的评测平台 对于文摘的评测一直是自动文摘领域的一个难题,在人们开始研究自动摘要的同时就 开始了对摘要的评测研究,至今已有多种不同的评测方法,虽然目前还难于制定一个统一 的评测标准和一致的评测方法,但国际上一系列有组织的公开评测会议和网络工作平台极 大地推动了自动文摘技术的研究发展。 ( 1 ) a a a i ( a m e r i c a n a s s o c i a t i o n f o r a r t i f i c i a li n t e l l i g e n c e ) s p r i n gs y m p o s i u m 在其1 9 9 8 年的会议上,将有关智能文本摘要的研究编辑成为一本专著( a a a is p r i n g s y m p o s i u m t e c h n i c a l r c p o r 0 ,总结了当时自动摘要研究的最新成果。 c 2 ) d u c ( d o c u m e n tu n e r s m d i l l gc o n f c r e n c 既,文本理解会议) 这一会议包括了美国国防部高级计划研究署( d a r p a ) 的t i d e s ( t r a n s l i n g 砌 i n f o r m a t i o nd e 眦6 e x = 廿:a c f i o na n ds u m m a r i z a t i o n ) 计划和a r d a ( a d v a n c e dr 船e a n :ha n d d e v e l o p m e n ta c t i v i t y ) 的a d v a n c e dq u 硎o n & a n s w e r i n g 计划和n i s t ( n a l i o n a li n s t i r l t eo f s t a n d a r d sa n dt e c h n o l o g y ) 的麟r i 故tr e t r i e v a lc o n f 锄n c e s ) 计划。其中t i d e s 从2 0 0 0 年 开始研究自动摘要,成立了一个工作平台和一个专门的评论委员会来组织问答任务和自动 文摘领域的框架研究和长期评测问题。d u c 会议从2 0 0 1 开始研究自动摘要,至今已连续 举办了6 届。d u c 2 0 0 i 到d u c 2 0 0 4 对于自动摘要方面做的工作主要有:对单文本摘要和 多文本摘要的研究;对新闻语料的研究;对摘要比率的研究;对摘要分类方面的研究;对 摘要质量进行自动评测的研究;对摘要质量评测标准的研究。d u c 通过建立起适当级别的 评测实验,促进了一系列自动文摘技术和评测方法的不断发展。 ( 3 ) 针对亚洲语种的n t c i r n t c i r ( n i i - n a c s i s t e s t c o l l e c t i o n f o r i r s y s t e m s ) ,是日本国立情报学研究所 : n a t i o n mi n s t i t u t eo f i n f o n n a t i c s ) 针对日语和其它亚洲语的文本检索、跨语言检索和相关的文 本处理技术例如文本摘要、文本抽取等进行评测的研究组织。从2 0 0 0 年举办的n t c i r - 2 中加入了对自动文本摘要的测评。称为t s c - l ( t e x t s 删 o n c h a l l e n g e ) ,主要是对日 语文摘的测评,也有部分的英文、中文和韩文。之后又举办了两次对文摘的评测。由于 n t c i r 在自动文本摘要方面的研究重点是日文的多文本文摘和自动文摘的生成技术,但同 时也有少量的中文和韩文方面的评测研究,因而促进了亚洲语种在自动摘要方面的研究与 发展。 偏重摘要技术及其应用研究 1 4 自动摘要的研究现状 1 4 1 国外研究现状 ( 1 ) 通用摘要 在自动摘要第三次成为人们研究的热点时,经过许多研究人员的不断研究实验,提出 了不少切实可行的新方法来提高自动摘要的质量。这些新方法扬长避短,融合了机械抽取 的方法和基于理解的方法,并加入了更多的自然语言处理方法,更快地推动了自动摘要技 术理论的进一步发展。 基于语义资源的语义链方法 由于统计方法只是根据词语的表层信息进行统计、分析,而不能从语义方面进行深 层的分析,为提商摘要的精确度,一些研究人员在自动摘要中引入了语义资源。 1 9 9 1 年,m o r r i s 和h i r s t 提出了语义链( 1 e x i c a ic h a i n ) 方法阴。他们基于r o g e r s t h e s a u r u s 同义词词典,引入了“链回归( c h a i nr e t u r n s ) ”的概念来解决同一范畴的词汇交替 出现的问题,但由于缺少电子版的词典,该算法没有在计算机上得到实现。 1 9 9 7 年的时候,s t o n g e 和h i r s t 首先公开发布了使用w o r d n e t 来构造语义链的方 法【l 哪。他们将w o r d n e t 中的关系和传递关系映射到了m o r r i s 和h i r s t 提出的词汇关系 上,将在1 9 9 1 年就开始构建的w o r d n e t 用作了语义资源。基于w o r d n e t ,语义链技术 的发展有了一个良好的发展平台。但事实上,w o r d n e t 并不是语义词典,它只是一部电子 词典的索引系统,它将其中的英语词汇( 包括名词、动词、形容词和副词) 划分成同义词 集,每个集合代表一个内在的词汇概念,集合间根据不同的关系连接起来( 1 l 】。这种组织方 式正是其可以被用作一个同义词词典的原因。 同年,b a r z i l a y 和e l h a d a d 第一次将语义链与w o r d n e t 相结合并应用到自动摘要系统 中【1 2 l 。他们使用语义链来衡量一个语句对于文档主题的贡献程度,即含有语义链词汇词语 的多少来判定句子的重要程度,并以此来决定其是否可以作为摘要候选句。继他俩的研究 之后,更多的学者加入到这一研究领域,如b r u n n 、s i l b e r 、a l e m a n y ,d o r a n 等人,他们 都将w o r d l q e t 作为语义资源,利用w o r d n e t 中的语义层次概念,统计蕴含在词形之内的 本质概念。 他们的研究结果都显示出,引入语义资源以后,可以更深入地理解文本内容,从而最 终较大幅度地提高了自动摘要的准确度。现在,这一方法已经被广泛应用在信息检索和自 然语言处理中,如信息检索中的术语权重计算、拼写错误查找、超文本生成以及基于新闻 流的主题探测等,但对这一方法的研究仍需深化,可以通过对大规模语料进行实验来进一 步地评价这一基于语义资源的语义链方法。 一8 一 大连理工大学硕士学位论文 丰富的多文本摘要技术 多文本摘要技术的研究工作最早开始于1 9 世纪8 0 年代,当时的研究是在受限领域中 进行的 德国康茨坦丁大学的h a h n 在领域知识的基础上实例化层次框架中各子部分,并用泛 化( 归类) 的方法来得出原文主题。 哥伦比亚大学的r a d e v 和m c k e o w n 对新闻报道中的同一件事或一系列事件采用多角 度观察,分析文本片断中人物、言语的变化等信息差异的方法,来确定多文本摘要所要提 取信息。 在1 9 9 7 年以后,国外对多文本摘要技术的研究扩大到了非受限领域,采用了许多不 同的技术方法。较为常见的有以下三种。 第一种是使用统计技术来识别多文档间的相似和不同 第二种是利用文本单元间的语义表示,以单词的重叠、语义的联系为依据,从多文本 中提取相似文本单元生成文摘的方法。 第三种是比较基于词汇的相似度,将特定相似域的段落连接形成“文本关系图”,选 择与其它段落连接较多的段落。 在这一时期,也取得了不少的研究成果,归纳起来主要有以下几个方面。 一是哥伦比亚大学的m c k e o w n 等人研制的用于新闻跟踪的n e w s b l a s t e r 摘要系统,以 及开发的可以依据不同文档集特点而采取不同综述策略的多文档摘要系统。但在这个系统 中,对于文本集的特征,他们是通过手工方式获得的,文本集包括了单事件、传记、多事 件以及其他松散型的文档【1 3 1 。 二是南加州大学的d a n i e lm a t c u , c h i n - y e wl i n 等人开发研制了n e a t s 系统。该系统 采用了许多的多文本摘要技术,如以句子的开始信息和句子的位置信息来过滤句子;利用 m m p , ( m a x i m a lm a r g h a lr e l e v a n c e ,最大边缘相关) 来消除冗余信息;对最后的文摘句进行 一些合理的排序等1 1 4 l 。 三是卡内基梅隆大学的j a d eg o l d s t e i n 等人基于“相关新颖度”概念来衡量信息冗余 度,并结合m m r 方法来生成多文档摘要。“相关新颖度”是衡量冗余度最小且相关性和 不同性最大的一种尺度。他们将这一方法与m m r 方法结合,形成i v l m r - m d 方法,从原 文本中选择出与主题相关。但又彼此不相似的句子来形成摘要候选句,以达到消除冗余的 目的i 嘲。 四是密歇根大学的d r a g o m i r i l r a d e v 等人开发了m e a d 摘要器,通过一个主题识别器 的模块对新闻进行自动分类,然后对分类后的文本进行聚类,获取各个类别的中心信息, 从而选择出与该类最相关的旬手嘲。 一9 一 偏重摘要技术及其应用研究 五是康奈尔大学的研究者借助于潜在语义索引的方法,判断相似的句子,将相似 的句子聚到一起,从而消除冗余信息,这种方法依据上下文信息确定语义,提高了文 本单元相似度计算精度旧。 六是日本东京大学的研究人员,以词为研究单元,通过两个参数,计算出中心主 题和局部主题的词,通过这些词找到以其作主语和宾语的句子,并把这些句子作为摘 要旬,最后根据它们之间的联结关系来生成综述【1 8 1 。 后期处理的摘要平滑技术 为提高所生成摘要的连续性,就需要一些对最后摘要语句进行平滑的处理。平滑的内 容包括:消除不明指代;减少层次关联关系对文摘句的可读性的影响;省略原文中的图表 及插入成分;对文摘中的长旬进行压缩,而对一些并列性成分及短句进行扩充。 而其中基本的问题就是要消除不明指代,即进行指代消解。最初的方法主要是基于语 言学知识的方法,近来的研究多集中在基于机器学习的方法,而采用决策树学习的机器 学习方法正被越来越多的学者关注。 再有就是进行长句压缩和短语扩充的问题。这要求计算机能够深入理解文章的内容, 就目前来说这些还难于计算机上实现。但一些学者提出了替代的方法,如采用概率噪音通 道模型和决策模型方法等。 ( 2 ) 偏重摘要 国外最早从2 0 世纪8 0 年代开始研究偏重摘要,开始时进展缓慢,进入九十年代后, 一些学者开始关注于偏重摘要应用性方面的研究,发表了多篇研究文章,如:p a c h o u r a s 等人研究了运用偏重摘要来提高网页中查询精度的方法【1 9 1 ,s w e e n c y 等人研究了运用偏重 摘要为w a p 手机用户提供信息的意义刚,t s u t o m u 等人提出了一个用于提高问答任务结 果的偏重摘要方法l z l l 。 最近两年,随着互联网的快速发展,国外的学者对偏重摘要的研究逐渐增多,在他们 的研究中,抽取偏重摘要的方法都是采用了与通用摘要相同的基于语句抽取的方法。 1 4 2 国内研究现状 ( 1 ) 通用摘要 国内在自动摘要方面的研究起步较晚,最早在1 9 8 5 年,才有介绍国外自动摘要研究情 况的文章出现,同时也开始了研究自动摘要实验系统。借鉴于国外的研究成果,发展速度 比较快。在目前来看,研究的重点还是中文自动摘要的难点问题上,如:中文分词、语义 消歧、文本内容理解等。 进入九十年代,在通用摘要方面取得了一些成果,单文本领域的成果主要有:1 9 9 7 年 大连理工大学硕士学位论文 上海交通大学研制的o a 中文文献自动摘要系统圆。8 0 年代末,东北大学和香港城市理工 大学联合开展的基于脚本知识的“中文全文自动摘要系统”的研究网。九十年代初,中科 院软件所研制的实验系统e 蚺s n 班s ha u t o m a t i ca b s t r a c ts y s t e m ) p 。1 9 9 2 年,哈尔滨工 业大学研制的基于统计的h i t 8 6 3 系列自动摘要系统和基于理解的摘要实验系统 m a t a s 2 5 1 。北京邮电大学采用基于a g e n t 技术的摘要方法,开发出了g l a a c e 自动摘要系 统及n e w s 自动摘要系统等嘲。复旦大学研制的f d a s c t 自动摘要系统 2 7 1 。此外,山西大 学、杭州大学隅冽也在开展自动摘要方面的研究。 在多文本摘要领域,国内的研究还属于起步阶段。只有少数几所大学开展了这方面的 研究。如复旦大学利用文本分段和文本聚类相结合的技术,来抽取代表段并生成综述,并 在此基础上,又做了基于实体名识别的多文档摘要系统 3 0 3 ”。哈尔滨工业大学的学者通过 依存文法分析句子结构,进行语句相似度计算,再以合适的聚类算法获得文档的局部主 题,最后生成综述网。大连理工大学的卢冶采用基于概念扩充的语义扩展方法进行了多文 本摘要的研究印。 ( 2 ) 偏重摘要 目前国内对于偏重摘要的研究甚少,除在2 0 0 2 年第一届学生计算语言研讨会上,上 海交通大学刘功申等发表文章,提出了基于概念知识库构建偏重摘要的方法之外例,目前 还没有其它的相关研究报道。 1 5 偏重摘要的发展前景 文摘是随着信息的发展而快速发展的。人工的文摘最早起源于公元前三千六百年的苏 美尔文化时期,当时是用楔形文字记载在湿粘土表面上,经烧结后保存下来的粘土板。而 我国学术界从事“书目提要工作也有悠久的历史。1 9 世纪8 0 年代完成的四库全书总目 提要就是我国文摘的典范。据有关统计资料显示,目前世界已有的文摘刊物已超过了三 干五百种以上。而网络信息的快速发展使文摘的发展进入了电子信息时代。 我国的自动摘要研究虽然起步晚于国外,但借鉴于西方学者的研究成果,获得了较快 的发展,目前自动摘要已经应用在人们生活中的各个领域;如新闻广播领域,移动网络中 的手机资讯,网络智能搜索引擎,网页信息的分类,信息抽取,数据挖掘,以及电子邮件 群中信息摘要,网络会议等方面。 在当前,偏重摘要的应用前景更为人们所看好。首先,偏重摘要是实现个性化信息的 必要手段,偏重摘要技术的发展必将为构建个性化的信息检索平台奠定基础。其次,偏重 摘要与搜索引擎的结合将成为下一代智能搜索引擎平台的基础。再有,偏重摘要能够在问 偏重摘要技术及其应用研究 答任务、信息抽取、文本挖掘等自然语言处理领域起到积极的辅助作用,帮助人们快速地 掌控信息。 可以说,偏重摘要技术的发展必将缓解人们当前从网络和海量文本中获取有用信息时 面临的诸多困难,同时满足人们定制信息、获取个性化的信息服务的需求。基于文本的偏 重摘要技术的快速发展必将极大地推动自然语言处理的研究和发展。而偏重摘要技术的更 进一步发展,是与语音、声像等多媒体技术的结合,为实现计算机人工智能奠定基础。 1 6 课题研究的内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 能力提升2.0方案解读
- 《窗边的小豆豆》课件
- 护理人员应知应会
- 皮牵引的护理诊断和措施
- 2025设备抵押贷款合同
- 2025二手车买卖合同范本
- 销售区域经理工作总结
- 公司总经理安全培训课件
- 红斑狼疮护理
- 2025解除购销合同协议书
- 2025年三方股权合作合同协议书
- 地方病竞赛试题及答案
- 弘扬伟大抗战精神为实现中华民族伟大复兴而奋斗2025-2026学年高二上学期爱国主义教育主题班会
- 社工抗压与情绪处理课件
- 单元考点必刷卷 (一)(含答案)我上学啦 2025-2026学年北师大版一年级数学上册
- 农村厨师安全培训课件
- 2025-2026学年人教版(2024)小学体育与健康三年级(全一册)教学设计(附目录P114)
- 起重机作业人员Q2证理论考试练习题含答案
- 四川遂宁2021-2024年中考满分作文64篇
- (完整)中小学“学宪法、讲宪法”知识竞赛题库及参考答案
- 轧钢安全规程培训课件
评论
0/150
提交评论