(计算机系统结构专业论文)面向web论坛的自动文摘方法的研究.pdf_第1页
(计算机系统结构专业论文)面向web论坛的自动文摘方法的研究.pdf_第2页
(计算机系统结构专业论文)面向web论坛的自动文摘方法的研究.pdf_第3页
(计算机系统结构专业论文)面向web论坛的自动文摘方法的研究.pdf_第4页
(计算机系统结构专业论文)面向web论坛的自动文摘方法的研究.pdf_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

;,。 o _ 原创性声明和关于论文使用授权的说明 吣y 1 m 7 m 9 帆m 1 帅3 m 3 1 1 2 1 l l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:缒 日 期_ 丝丝:苎:銎 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) :盟跏签名耳 一_-_-lii_-一 e,f 山东大学硕士学位论文 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 研究背景和意义1 1 2 自动文摘的相关工作2 1 2 1 国内外研究现状2 1 2 2 自动文摘的组织、会议和评价5 1 3 本文工作6 1 4 本文组织7 第二章基础知识8 2 1 自动文摘的研究目标8 2 2 自动文摘的分类8 2 3 自动文摘的基本结构9 2 4 自动文摘的基本步骤1 0 2 5 专用文摘方法的研究1 3 第三章面向w e b 论坛的自动文摘1 4 3 1w e b 论坛文章1 4 3 1 i 基本术语1 4 3 1 2w e b 论坛文章特点1 6 3 2 本文方法简介1 7 3 3 预处理1 8 3 4 噪声过滤1 8 3 5 句子权值计算1 9 3 5 1 特征选择1 9 3 5 2 子主题识别2 3 3 5 3 权值计算2 8 3 6 文摘生成2 8 第四章相关实验3 0 4 1 实验数据3 0 4 2 评价标准3 1 4 2 1r o u g e 3 1 4 2 2 观点覆盖率3 1 4 3 相关实验3 2 4 3 i 噪声回复过滤算法3 2 4 3 2 特征有效性实验3 3 4 3 3 子主题获取方法实验3 4 4 3 4 文摘方法实验3 5 第五章总结与展望3 9 参考文献4 0 致谢4 6 山东大学硕士学位论文 攻读学位期间发表的学术论文目录4 7 i 山东大学硕士学位论文 t a b l eo fc o n t e n t s a b s t r a c ti nc h i n e s e 】 a b s t r a c ti ne n g l i s h c h a p t e r li n t r o d u c t i o n 1 1 1b a c k g r o u n da n ds i g n i f i c a t i o n l 1 2r e l a t e dw b r k 2 1 2 1c u r r e n tr e s e a r c hs t a t u s 2 1 2 2o r g a n i z a t i o n c o n f e r e n c ea n de v a l u a t i o n 5 1 3m a j ns t u d yc o n t e n t 6 j ,4p a p e rf r a m e w o r ka n dc h a p t e r a r r a n g e m e n t ,7 c h a p t e r 2r e l e v a n tk n o w l e d g e 8 2 1t h eg o a lo f r e s e a r c h 8 2 2t h ec l a s s i f i c a t i o no f a u t o m a t i cs u m m a r i z a t i o n 8 2 31 1 1 eb a s i cs t r u c t u r eo fa u t o m a t i cs u m m a r i z a t i o n 9 2 4t h eb a s i cs t e p so f a u t o m a t i cs u m m a r i z a t i o n 1 i :i 2 5r e s e a r c ho ns p e c i a la u t o m a t i cs u m m a r i z a t i o n 1 3 c h a p t e r 3r e s e a r c ho ns u m m a r i z a t i o nf o rw | e bf o r u m 1 4 3 1w e bf o r u m 1 4 3 1 1b a s i ct e r m s 1 4 3 1 2a n a l y z e so f w | e bf o r u m 1 6 3 2s u m m a r i z a t i o nf o rw e bf o r u m 1 7 3 3t h es t e po f p r e t r e a t m e n t 1 8 3 4t h es t e po f f i l t e r 1 8 3 51 1 1 es t e po f w e i g h t i n gs e n t e n c e s 1 9 3 5 1f a t u r e ss e l e c t i o n 1 9 3 5 2i d e n t i f ys u b t o p i c 2 3 3 5 3w 萄g h t i n gs e n t e n c e s 2 8 3 6a b s t r a c tg e n e r a t i o n 2 8 c h a p t e r 4e x p e r i m e n t s :;0 4 1d a t as e t :;( ) 4 2t h es t a n d a r do f e v a l u a t i o n 3 l 4 2 1r o u g e 3 l 4 2 2v i e wc o v e r a g er a t e :;l 4 3e x p e r i m e n t s 3 :1 4 3 1n o i s ef i l t e r 3 2 4 3 2f e a t u r es e l e c t i o n 3 3 4 3 3i d e n t i f ys u b t o p i c :i z i 4 3 4t h em e t h o do fs u m m a r i z a t i o nf o rw r e bf o r u m 3 5 c h a p t e r 5c o n c l u s i o n sa n df u t u r ew | 0 r k 3 9 r e f e r e n c e s 4 0 a c k n o w t e d g e m e n t s 4 6 p a p e r sp u b l i s h e d 4 7 i i i 山东大学硕士学位论文 摘要 信息社会的快速发展在改变人们获取信息的规模和方式的同时,也对信息检 索领域的相关研究提出了新的要求。作为互联网上最流行的在线交流和信息发布 平台,w 曲论坛在研究领域所受关注日益增加。由于w 曲论坛具有数据量大、 信息重复度高、噪声信息多等特点,如何快速准确的获取其主要内容成为许多基 于w e b 论坛应用面临的首要问题,而自动文档摘要的研究为解决这个问题提供 了一种途径。 在自动文摘领域,通用文摘方法多以学术或者新闻文章作为研究对象,并基 于各种通用特征构建。在处理w e b 论坛文章时,由于该类方法没有考虑论坛文 章的特殊性,在内容理解和结构分析上有一定偏差,摘要效果有待提高。而在专 用文摘方法领域也缺少处理w 曲论坛文章的相应方法。本文根据论坛文章的特 点,如以帖子为基本组成结构、噪声回复多、同义词专用词常现、存在大量评论 关系等,对面向w 曲论坛的自动文摘方法进行研究,提出了相应的专用文摘方 法,并通过实验证明了其有效性。总结本文主要贡献如下: 1 根据文章内容连贯性标准,提出了基于上下文相关性的噪声回复过滤算 法。根据论坛文章同义词专用词多的特点,在相似度计算中引入了论坛专用词汇 词典。通过实验证明,该方法在过滤噪声回复时有较高的准确率和正确率,而论 坛词典能够有效提高语义相似度计算的准确性。 2 提出多种特征用以描述论坛文章的特点。根据讨论式文体的特点,本文 提出了提及和引用两种特征。其中提及特征描述用户间的关系,而引用特征描述 帖子间的关系。基于这些特征使用了多特征的句子权重计算方法。在相关实验中, 本文提出的特征能有效提高摘要方法的效果,其中提及和引用特征的效果是所有 特征中最明显的。 3 提出了基于k - m e a n s 和基于l d a 模型的子主题识别方法。在l d a 方法 中,通过l d a 模型对文档集合建模,获得文章的潜在子主题,并计算出子主题 和句子的重要度。通过实验证明,基于l d a 模型的方法在描述子主题时效果优 于基于k - m e a n s 的方法。 4 基于以上几项改进,本文提出了一个面向w e b 论坛的自动文摘方法。该 山东大学硕士学位论文 方法包括预处理、噪声过滤、句子权值计算和文摘生成等步骤。在“新华网论坛” 和“苹果论坛”数据集上进行的实验证明,本方法在传统的r o u g e 和本文给出 的观点覆盖率等评价标准上的结果均优于已有方法。 关键词:文档自动摘要;w e b 论坛;l d a ;多特征:观点覆盖率 , 山东大学硕士学位论文 a b s t r a c t 、聃t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , p e o p l eb e g i nt oo b t a i n i n f o r m a t i o nt h r o u g hav a r i e t yo fm e a n s ,a n dp u tf o r w a r dn e wr e q u i r e m e n t si nt h ef i e l d o fi n f o r m a t i o nr e t r i e v a l a st h em o s tp o p u l a ro n l i n ec o m m u n i c a t i o na n di n f o r m a t i o n d i s s e m i n a t i o np l a t f o r m , w e bf o r u mb e c o m e sm o r ea n dm o r ei m p o r t a n ti nt h er e s e a r c h f i e l d b e c a u s eo ft h ew e bf o r u mw i t hl a r g em o u n to fi n f o r m a t i o n ,m a n yr e p e a t i n f o r m a t i o na n dn o i s e ,i ti sad i f f i c u l tp r o b l e mf o rm a n yf o r u ma p p l i c a t i o n st oo b t a i n t h ec o n t e n to fa r t i c l eq u i c k l ya n dp r e c i s e l y 1 1 1 er e s e a r c ho fa u t o m a t i cd o c u m e n t s u m m a r i z a t i o np r o p o s e sam e t h o dt os o l v et h i sp r o b l e m i nt h ef i e l do fa u t o m a t i cs u m m a r i z a t i o n ,t h ec o m m o nm e t h o dt a k e ss c h o l a r l y a r t i c l e so rn e w sa r t i c l e sa st h es t u d yo b j e c t i ti sc o n s t r u c t e do fg e n e r a lc h a r a c t e r i s t i c s b e c a u s ei td o e s n tc o n s i d e rt h ep a r t i c u l a r i t yo ft h ew 曲f o r u ma r t i c l e ,t h e r ea r es o m e p r o b l e m st oh a n d l et h ew | e bf o r u m a r t i c l e t h e r ei sl a c ko fc o r r e s p o n d i n gm e t h o di n s p e c i a lm e t h o d s a c c o r d i n gt ot h ec h a r a c t e r i s t i c so f t h ef o r u ma r t i c l e ,s u c ha sp o s ta s b a s i cs t r u c t u r e ,m a n yn o i s ep o s t s ,m a n ys y n o n y m sa n dp r i v a t ew o r d s ,c o m m e n t a r y r e l a t i o ne x i s t i n ga n ds oo n ,t h i sp a p e rp r o p o s e st h ea u t o m a t i cs u m m a r i z a t i o nm e t h o d f o rt h ew e bf o r u ma r t i c l e s m a i nc o n t r i b u t i o no ft h i sp a p e r i sa sf o l l o w s : 1 a c c o r d i n gt ot h ec o n s i s t e n c ys t a n d a r d , t h i sp a p e rp r o p o s e st h en o i s ef i l t e r a l g o r i t h mb a s e do nc o n t e x t - s e n s i t i v e a c c o r d i n gt ot h ec h a r a c t e r i s t i c so f 曲f o r u m i nv o c a b u l a r y , t h ed i c t i o n a r yo ff o r u mi si n t r o d u c e di n t ot h es i m i l a r i t yc a l c u l a t i o nt o s t a n d a r dt h ev o c a b u l a r yo fw 曲f o r u m t h r o u g he x p e r i m e n t s ,t h i sm e t h o dh a sh i g h a c c u r a c ya n dp r e c i s i o ni nf i l t e r i n gn o i s ep o s t sa n dt h ei n t r o d u c t i o no fd i c t i o n a r y i s a b l et oi m p r o v et h ea c c u r a c yo ft h es i m i l a r i t yc a l c u l a t i o n 2 a c c o r d i n gt oc h a r a c t e r i s t i c so fw 曲f o r u ma r t i c l eo n t h ec o n t e n ta n d s t r u c t u r e ,t h i sp a p e rp r o p o s e sm a n yf e a t u r e st od e s c r i b et h ea r t i c l e ,e s p e c i a l l yt h e f e a t u r e so fm e n t i o na n dq u o t a t i o n 1 h ef e a t u r eo fm e n t i o nr e f e r st ot h er e l a t i o n s h i p b e t w e e nu s e r s ,a n dt h eq u o t a t i o nr e f e r st ot h ei m p l i c i tr e l a t i o n s h i pi nt h ec o n t e n t t l l e w e i g h to fs e n t e n c ei sc a l c u l a t e db a s e do na m u l t i - f e a t u r em e t h o d e x p e r i m e n t ss h o w t h a tt h e s ef e a t u r e sc o u l de f f e c t i v e l yi m p r o v et h er e s u l to fm e t h o d , a n dt h ef e a t u r e so f m e n t i o na n dq u o t a t i o ni st h em o s te f f e c t i v e 3 t h ep a p e rp r o p o s e st w om e t h o d st oi d e n t i f ys u b t o p i c so fa r t i c l e s :t h em e t h o d i i t 山东大学硕士学位论文 b a s e do nk - m e a n sa n dt h em e t h o db a s e do nl d a i nt h em e t h o do fl d a , m o d e lt h e d o c u m e n tc o l l e c t i o nw i t hl d am o d a l ,i d e n t i f yt h es u b t o p i c sa n dc a l c u l a t et h ew e i g h t o fs u b t o p i c s e x p e r i m e n t ss h o wt h a tt h em e t h o do fl d a i sb e t t e rt h a nk m e a n s 4 b a s e do ni m p r o v e m e n t sa b o v e ,t h i sp a p e rp r o p o s e sas u m m a r i z a t i o nm e t h o d f o rt h ew e bf o r u ma r t i c l e t h i sm e t h o di n c l u d e st h ef 0 1 1 0 w i n gs t e p s :p r e p r o c e s s i n g , n o i s ef i l t e r i n g ,s e n t e n c e sw e i g h t i n ga n ds u m m a r yg e n e r a t i o n e x p e r i m e n t ss h o wt h a t t h en e wa p p r o a c hw o r k sb e t t e rt h a ns o m ek n o w n o n e s o nt h ed a t a s e to fx i n h u af o r u m a n da p p l ef o r u mi nt e r m so ft h es c o r eo fr o u g ea n dt h ev i e w p o i n tc o v e r a g e ,w h i c h i sf i r s t l yc o i n e di nt h i sp a p e r k e y w o r d :a u t o m a t i cd o c u m e n ts u m m a r i z a t i o n ;w e bf o r u m ;l d a ;m u l t i - f e a t u r e s ; v i e w p o i n tc o v e r a g e i v 山东大学硕士学位论文 1 1 研究背景和意义 第一章绪论 信息社会的快速发展使现代人获取信息的方式发生了巨大变化,它在帮助人 们更快捷方便的获取信息的同时,也给信息处理工作提出了新的挑战:由于原始 信息在内容上重复度高、冗余大、篇幅较长,因此,如何在海量数据中快速准确 的获取有价值信息成为许多应用亟待解决的难题,而自动文档摘要的提出正是基 于对这一问题的思纠。自动文摘技术,是将同一主题下的单个或者多个文本描 述的信息,按照一定压缩比提炼为一个文本的自然语言处理技术,它帮助人们快 速高效的获取信息,提高信息处理效率。( 压缩比,是指摘要和原文档篇幅之比, 常用文章中的句子数或词数来衡量一篇文章的篇幅) 自动文摘的概念由l u l l n 在2 0 世纪5 0 年代末首次提出,他提出了一种基于关键 词统计的自动文摘方法【2 l 。早期自动文摘的研究侧重于单文档文摘技术。研究者 以内容和格式较正规的文体( 如学术文章1 2 1 、报纸和门户网站的新闻稿件【3 1 等) 作为研究对象,借助信息抽取和特征选择等领域的知识提出了多种有效的文摘方 法。这些技术发展至今,已经具备了一定的理论基础,有了比较成熟的研究方法, 研究者在此基础上设计出了多个成功的实际应用系统。 随着研究的深入和实际应用需求的转变,多文档文摘技术的研究开始在自动 文摘领域兴起。这个阶段,研究者除了使用传统的关键词和文章结构等特征外, 更试图通过对文章语义和结构的研究,发现文章更深层次的特征。结合机器学习、 聚类分类和自然语言等领域的知识,研究者提出了许多在实验和实际应用中都获 得较高评价的文摘方法。此外,在所处理文体的范围上文摘方法也有了新的拓展, 除了传统的学术或者新闻文章外,又加入了如演讲稿州、访谈录f 5 】、会议记录嗍 和讨论式文体( 论坛m 、博客文章【8 1 和电子邮件9 1 等) 等多种形式的新文体,根 据这些文体的特点,研究者提出了多种专用文摘方法用于处理这些特殊文体。 随着信息获取渠道日趋多样化,对特殊文体的摘要需求也日益增加,因此专 用摘要方法的研究也越来越受到重视。w e b 论坛是目前互联网上最流行的信息发 山东大学硕士学位论文 布和在线交流平台。作为开放式交流平台,w e b 论坛拥有大量用户,用户可以根 据自己的兴趣在论坛上发布自己的主题或者评论别人主题。w e b 论坛信息量大, , 涉及内容十分广泛,包括新闻、娱乐、体育、游戏等诸多与日常生活息息相关的 主题。因此,近年来w e b 论坛的研究倍受研究者重视,许多研究工作都尝试挖掘 和利用论坛中的知识和信息【1 0 1 1 1 2 】。但论坛信息量大增长速度快的特点,严重 影响了基于w e b 论坛应用的高效性和对大规模数据的处理能力,如何对大量的论 坛数据进行处理以迎合实际应用中的高效性,成为许多研究者所要解决的首要问 题,而自动文摘方法为这一问题提供了有效的解决途径。已有的自动文摘方法虽 然能够处理论坛文章,不过由于没有充分考虑论坛文章的特殊性,摘要质量受到 限制,所以本文将对面向w e b 论坛的自动文摘方法进行研究。 在实际应用中,面向w e b 论坛的文摘技术拥有广泛的前景,它不仅可以作为 单独系统应用到信息浏览等应用中,还可以作为其他自然语言处理系统的重要组 成部分: ( 1 ) 在舆情分析系统中1 3 1 4 】,文摘技术可以为系统提供内容准确的简报 功能,帮助用户及时发现违规和敏感信息。 ( 2 )在搜索引擎问答系统( q & a ) 中【1 5 】,文摘技术可以作为返回答案后 的处理模块。现有的搜索引擎只是将一系列与用户查询相关的文档按相关度顺序 展示给用户,而问答系统能通过对检索结果进行融合,获得分析的答案,将答案 提交给用户。 ( 3 ) 文摘技术在话题的监测与跟踪系统中同样起着重要作用1 6 7 1 。系统 根据用户预先设定的条件,在互联网的文本流中不断发现符合条件的信息,并将 新发现的文本与已有的文本进行汇总,生成监测报告提交给用户。 ( 4 )在国家安全部门的非法信息监测、特殊信息的定制与融合方面,文 摘技术也发挥着重要作用。 1 2 自动文摘的相关工作 1 2 1 国内外研究现状 近几年,自动文摘已成为自然语言领域的热门研究方向之一,自动文摘技术 2 山东大学硕士学位论文 也得到了广泛应用。在此背景下,各大科研机构和公司相继推出了多个自动文摘 应用系统。下面根据各系统所采用的方法进行分类介绍。 1 基于信息抽取的方法 信息抽取是文摘方法中的一种常用技术。s u m m o n s 系统【1 8 】由r a d e v 等人在 1 9 9 8 年提出,它是第一个将信息抽取与自然语言处理技术相结合的自动文摘系 统。在信息抽取技术的应用上,它进行了许多有益的探索:通过定制模板,系统 从原文中抽取符合模板的内容,作为摘要的候选内容。不过该系统也存在许多不 成熟的地方,例如系统需要人工定制模板,这不仅需要较大人力,而且模板不易 更新,所以该系统适用范围有限,不宜推广。此外,s u m m o n s 系统在数字识别 方面也存在一定问题。 r i f t i d e s t l 9 1 也是一个基于信息抽取的文摘系统,它由康奈尔大学的w h i t e 等 人开发。该系统与s u m m o n s 系统相比有如下改进:以句子作为抽取单元提高了 文摘的完整性和内容相关性,使用定制规则的方法增强了系统的数字识别能力。 g i s t e x t e r t 2 0 】系统使用自动获取模板的方法,扩展了系统的适用范围。对于 已处理过的领域,该系统利用信息抽取技术,根据公共模板抽取文章主要信息, 文摘围绕主要信息生成。当遇到未处理过的领域时,系统通过利用w o r d n e t 获得 主题概念间的统计关系生成模板。该方法的不足之处在于,自动模板的生成需要 较多语料的支持,而且该方法生成的文摘在语法效果上有待提高。 2 基于文档特征的方法 该类方法通过分析文档特征,识别文档中的重要部分组成摘要。如南加州大 学提出的n e a t s e 2 1 】系统,该系统利用词频、句子位置、主题词等特征信息,使用 m m r ( m a x i m a lm a r g i n a lr e l e v a n c e ) 方法选择和过滤内容。由于该系统只是一个 原型系统,在实现上仅采用了一些简单技术:用统计的方法抽取重要概念;利用 位置和主题词等特征过滤句子:用m m r 降低句子的冗余:最后根据时间对句子 进行排序。在2 0 0 1 年d u c 会议进行的评价中该系统名列前茅。 n e w s b l a s t e r _ 【2 2 】是哥伦比亚大学开发的一个自动文摘工具,它将话题监测与跟 踪技术应用到文摘技术中。该系统跟踪新闻事件的进展情况,为每天的主要新闻 做出文摘。但作为一个多文档摘要系统,该系统只考虑了单篇文档的信息,而忽 略了文档集中多篇文档之间的信息。 3 基于文档集合特征的方法 3 山东大学硕士学位论文 在多文档文摘任务中,如果文摘方法只专注于单篇文档的特征,所获得的文 摘质量不会达到最佳。目前的多文档文摘方法常将文档集看成一个整体进行研 硝 究,利用文档集信息,将文档集中的句子按照语义相似度进行聚类重新组合,然 后从不同类别中抽取文摘句,该方法能更深入的理解原文内容,获得质量较高的一 摘要。 质心 2 3 】的概念由美国密西根大学的r a d e v 等人首先提出,质心代表了文档集合 的中心内容,因此可以通过识别多文档集合的质心来生成摘要。! t 1 r a d e v 等人在 2 0 0 0 年开发的m e a d t 2 3 】系统就是基于质心思想构建,它采用统计的方法找出文档 集合中出现频率最高的短语构成质心,将这些短语组成伪句子,然后将文档集合 中的句子与伪句子进行相似度计算,选取相似度高的句子组成文摘。 m u l t i g e n t 2 4 】是一个基于片段聚类的文摘系统,由哥伦比亚大学的m c k e o w n 和 r a d e v 等人开发。该系统从识别文档集中各文章之间的异同入手,将文档中的重 复信息作为摘要的主要候选内容,通过计算语义相似度将内容相似的段落作为文 档集的一个主题,并选取主题中重要的短语或者词组作为该主题的关键词,最后 一 利用语言生成系统组成句子构成摘要。 一些研究者还提出了子事伊2 5 2 6 埘】的概念。通过聚类方法发现文档集合所讨 p 论主题作为子事件,抽取这些子事件作为文摘的主要内容。该类方法获得的摘要 冗余度较低,信息覆盖率更大,是目前比较流行的一种方法。 该类系统基于对文档集内容的理解,发现其讨论主题,以此为中心或出发点 生成文摘。 4 针对特殊文体的方法 传统的自动文摘方法以正规文体( 如学术文章、报纸和门户网站的新闻文章 等) 作为研究对象。但随着人们获取信息渠道的日益丰富多样化,自动文摘任务 所需处理的文体范围也日益扩大。因为特殊文体( 如博客文章、电子邮件、演讲 稿等) 在内容和结构上有一定特殊性,传统的通用方法在处理这些文章时效果不 能达到最佳,所以研究者提出了一些适用于这些文体的专用文摘方法。如在博客 文章中,文章可以分为博文( 博客作者发表的文章) 和回复评论两部分,z h o u i 船1 等人提出以评论作为依据,通过计算评论和博文内容的相似度,选取博文中的重 要内容组成摘要。在电子邮件中,常出现只有通信双方才能正确理解的专用词语, 通过指代词替代和句子压缩的方法,z a j i c t 冽等人提出了适用于电子邮件的摘要方 4 山东大学硕士学位论文 法。这些方法在借鉴传统的文摘方法的基础上,通过分析特殊文体在语法和结构 上的特点,提出相应的改进方法。 5 中文自动文摘方法 中文自动文摘的研究虽起步较晚,但国内外学者也取得了一定进展。如日本 东京大学的w a n g 等人开发了一个利用参考文献信息进行摘要的中文自动文摘系 统【3 0 1 。其原理是通过抽取原文中作者对参考文献内容的描述与参考文献原文相关 内容进行比较来选取摘要内容,不过该方法只适用于科技论文这类附有参考文献 的文体,应用领域有限,实际系统也仅建立在分析文本浅层特征的基础上,文摘 质量有待提高 从技术上看,中文摘要方法所采用的主要技术手段和英文方法大致相同,只 是在处理过程中,需要加入一些中文处理的步骤。此外,由于资源和评价平台还 不够成熟,中文文摘研究缺乏统一的评价标准和相关的权威数据集,这在某种程 度上制约了对中文自动文摘的研究。 1 2 2 自动文摘的组织、会议和评价 文本理解会议d u c t 3 1 】( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e ) 是目前自动文 摘领域最有影响的会议。该会议的目的是,通过让研究者共同参与到大规模文本 测试任务中来促进自动文摘领域的发展。d u c 会议每年都提出相应的自动文摘 任务,所有参与者可以使用会议提供的标准大规模公共数据集进行实验,d u c 还为参与者提供了多种评价工具和比较方法。通过d u c 会议,自动文摘领域的 研究正在向规范化的方向发展。但遗憾的是,d u c 会议没有提供与中文相关的 语料和专用评价工具。其他自动文摘领域的重要会议还有t r e c 、m u c 等,它 们也会定期发布各自的自动文摘任务。 自动文摘的评价方法经历了一个从人工评价到自动评价的过程。传统的自动 文摘评价由人工根据一致性、简洁性、文法合理性、可读性及内容全面性等标准 来评价,人工评价需要大量人力参与,因此在处理大规模数据时,该方法难以使 用【3 2 1 。于是研究者提出了自动评价的方法来替代人工评价。总体上,自动评价方 法可分为内部评价方法和外部评价方法两种:内部评价方法,通过一系列参数( 如 生成摘要和专家摘要的相似度) 来评价摘要质量的好坏;外部评价方法,将文摘 方法作为实际系统的一部分,如信息检索、自动问答系统的组成部分,通过考察 5 山东大学硕士学位论文 它对整个系统的影响来进行评价。 目前最流行的文摘评价工具是_ r o u g 0 3 3 1 ,它的设计借鉴了机器翻译领域的 b l e u f 3 4 】系统,通过n g r a m 的共现来进行评价摘要质量。实验结果表明,该方法 对单文档文摘的评价结果与人工评价的结果有很好的相关性,而对多文档文摘的 评价结果还需要进一步改进。p y r a m i d e 3 5 】方法是另一种较流行的文摘评价方法, 它改变了其他方法以词作为单位进行评价的设计,通过分析专家摘要找到摘要中 可能出现的语义单元( 词或者短语) ,并根据该语义单元在专家摘要中出现的频 率为其赋值,以此来评价自动摘要方法。 虽然d u c 、1 1 汪c 和m u c 等会议在评价方法和数据集上提出了相应标准, 并一直在做自动文摘领域标准化的工作,但是自动文摘领域始终缺少一个全局性 的公认评价标准,这也阻碍了自动文摘研究的发展。 1 3 本文工作 本文根据已有的文摘方法,结合w 曲论坛文章特点,对面向w - e b 论坛的自 动文摘方法进行研究。本文主要贡献如下: 1 根据文章内容连贯性标准,提出了基于上下文相关性的噪声回复过滤算 法。根据论坛文章同义词专用词多的特点,在相似度计算中引入了论坛词汇词典。 通过实验证明,该方法在过滤噪声回复时有较高的准确率和正确率,而论坛词典 能够有效提高语义相似度计算的准确性。 2 提出多种特征用以描述论坛文章的特点。根据讨论式文体的特点,本文 提出了提及和引用两种特征。其中提及特征描述用户间的关系,而引用特征描述 帖子间的关系。基于这些特征使用多特征的句子权重计算方法。在相关实验中, 本文提出的特征能有效提高摘要方法的效果,其中提及和引用特征的效果是所有 特征中最明显的。 3 提出了基于k - m e a n s 和基于l d a 模型的子主题识别方法。在l d a 方法 中,通过l d a 模型对文档集合建模,获得文章的潜在子主题,并计算出子主题 和句子的重要度。通过实验证明,基于l d a 模型的方法在描述子主题时效果优 于基于k - m e a n s 的方法。 6 山东大学硕士学位论文 4 基于以上几项改进,本文提出了一个面向w e b 论坛的自动文摘方法。该 方法包括预处理、噪声过滤、句子权值计算和文摘生成等步骤。在“新华网论坛 和“苹果论坛”数据集上进行的实验证明,本方法在传统的r o u g e 和本文给出 的观点覆盖率等评价标准上的结果均优于已有方法。 1 4 本文组织 本文按如下方式组织: 第1 章:介绍了自动文摘的研究背景和相关工作,包括相关知识和代表性系 统,自动文摘领域的组织、会议和评价标准。 第2 章:介绍了自动文摘的常用技术,总结提出了自动文摘方法在研究过程 和方法结构上的共性。 第3 章:介绍了本文提出的面向w 曲论坛的自动文摘方法,并对其中的关 键技术进行详细说明。 第4 章:设计相关实验对文本提出的文摘方法及其中关键步骤进行验证,并 分析实验结果。 第5 章:总结本文工作,并提出进一步的研究方向。 7 d _ l 东大学硕士学位论文 第二章基础知识 本章通过分析已有的自动文摘方法,介绍文摘方法中的常用技术,并总结文 摘方法在研究过程和方法结构上的共性。 2 1 自动文摘的研究目标 关于摘要,r a d e v 等人给出了如下定义:“摘要是对一篇或者多篇文档的总 结。在内容上,文摘包含了原文档的主要内容。在篇幅上,摘要明显短于原文档, 通常不超过原文档篇幅的一半。,【3 6 】 从上述定义可以总结出评价摘要质量的几个方面:内容性和形式性。内容上, 摘要应该准确反映原文内容,并尽可能涵盖全部内容,既要达到准确性,又要求 覆盖性;形式上,摘要应该在较高压缩比的前提下,有较强的可读性。而在实际 应用中,各标准的重要度却有所差别。目前,在研究和应用领域自动文档摘要的 目标是:在固定压缩比的前提下,提高摘要的准确性( 正确反映原文内容) 、覆 盖性( 尽量涵盖原文所有内容) 和平衡性( 原文可能含有多个方面的不同内容, 这些内容在重要性有所差别,其中主要内容和次要内容在摘要中所占比重也应有 所不同) ,有些实际应用还要考虑文摘方法的时效性【3 7 1 ,而对可读性标准要求较 少。 2 2 自动文摘的分类 自动文摘方法存在多种分类标准。不同类别的文摘方法在研究上也有区别。 下面介绍几种和本文有关的分类标准: 根据摘要方法所适用的文体范围,文摘方法可分为通用摘要方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论