(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf_第1页
(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf_第2页
(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf_第3页
(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf_第4页
(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf_第5页
已阅读5页,还剩146页未读 继续免费阅读

(教育技术学专业论文)基于云模型的中文面向查询多文档自动文摘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博士学位论文 d o c t o r a ld i s s e 熨r :棚0 n 摘要 随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个 简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、 重复的数据,需要用户耗费很多精力来自己查找有用的结果面向查询的多文档自动文摘技术 将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通 常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求面向查询的多文档自动文摘技 术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以 及利用信息的效率,提高使用者在信息社会中的竞争实力 云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定 量转换模型云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究 虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型 直接应用在自然语言处理领域本身的工作还比较少见 本论文针对中文语料中的面向查询多文档自动文摘展开了研究首先构建可以用于公开评 测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序, 力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的r o u g e 工具进行中文文摘自动评测 。 本文主要研究工作和研究成果概括如下t 一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机 性和模糊性提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相 关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询 条件真正意义相关的文摘单元随后利用文档集合重要度对查询相关的结果进行修正将文摘 旬和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可 能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选 取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取 得了较好的成绩 二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基 于云模型的中文面向查询多文档自动文摘系统中文自动文摘评测语料库由1 0 0 0 篇文档、1 0 0 个文档集合和查询条件、4 0 0 篇人工摘要构成通过修改英文文摘评测工具r o u g e 的源程序, 实现了中文自动文摘的r o u g e i 刍动评测首先将5 0 个文档集合作为训练语料,采用哈工大最新 共享的语言技术平台进行句子切分、分词8 随后利用中文自动评测工具,在测试语料中进行参 数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统 博士学位论文 d o c t o r a ld i s s e r t a t i o n 三、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量j 首先 制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句:随 后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪 句进行打分,在云的叠加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、 长度最短的修剪旬替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。 四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的 方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起, 既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点首 先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个 文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子 主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从 而生成连贯性更好、可读性更强的自动摘要。 关键词:面向查询;多文档自动文摘;云模型:文摘单元选取;语料库;中文句子修剪; 句子排序 博士学位论文 d o c t o r a ld i s s e 形瞒n 0 n a b s t r a c t w i d es p r e a du s eo fi n t e m e ti e a dt oa c c u m u l a t i o no fv a s ta m o u n to fi n f o r r n a t i o nd a t a w i t he v e r i n c r e a s i n gp o p u l a r i t yo fi n t e r a c t , t h i sa m o u n ti se v e ri n c r e a s i n gb yt h em o m e n t f o ras i m p l eq u e r y , a s e a r c he n g i n ea l w a y sr e u l m sas e r i e sw e bp a g eau s e rm a y b ei n t e r e s t e di n s i n c eal a r g ep r o p o r t i o no f t h es e a r c hr e s u l t sa l er e p e t i t i v eo ri r r e l e v a n ti n f o r m a t i o n , t h eu s e rh a st os p e n dal o to f t i m et ol o o kf o r t h ei n f o r m a t i o nt h e yn e e d t os o l v et h i sp r o b l e m , q u e r y - f o c u s e dm u l t i - d o c u m e n ts u m m a r i z a t i o nw a s p r o p o s e d w h e ng i v e na s e to ft o p i c - r e l a t e dd o c u m e n t s ,aq u e r yt o p i cc o n s i s t i n go fs e v e r a lc o m p l e x q u e s t i o n s , a n da u s e rp r e f e r e n c ep r o f i l e , o n ec a ng e n e r a t ea b r i e w e l l - o r g a n i z e df l u e n ts u m i 唧f o r t h ep u r p o s eo fa n s w e f i n ga l li n f o r m a t i o nn e e d q u e r y - f o c u s e dm u l t i - d o c u m e n ts u m m a r i z a t i o na i m st o i m p r o v ee f f i c i e n c yo fo b t a i n i n ga n du s i n gi n f o r m a t i o na n dt oi n c r e a s eu t i l i z a t i o no fn e t w o r k i n f o r m a t i o n , t h e r e f o r et op r o v i d ea d v a n t a g e sf o rt h eu s e ri nt o d a y si n f o r m a t i o nw o r l d c l o u dm o d e l ,f i r s t l yp r o p o s e db ya c a d e m i c i a nl id e y i ,i sa l le f f e c t i v em o d e li nt r a n s f o r m i n g q u a l i t a t i v ec o n c e p t s t ot h e i r q u a n t i t a t i v ee x p r e s s i o n sa n dv i s av e r s a i tr e p r e s e n t sf u z z i n e s g r a n d o m e s sa n dt h e i rr e l a t i o n s h i p so fc o n c e p to fu n c e r t a i n t y i ts t a r t sw i t hq u a n t i t a t i v er e p r e s e n t a t i o n o fq u a l i t a t i v ec o n c e p t si nn a t u r a ll a n g u a g e si nd o i n gr e s e a r c ho fa r t i f i c i a li n t e l l i g e n c ew i t hu n c e r t a i n t y u n f o r t u n a t e l y , t ot h eb e s to fo u rk n o w l e d g ec l o u dm o d e li sr a r e l ya p p l i e di nn a t u r el a n g u a g e p r o c e s s i n g0 岘p ) t h i sp a p e ri sc o n c e r n e dw i t hc h i n e s eq u e r y - f o c u s e dm u l t i - d o c u m e n ts u m m a r i z a t i o nb a s e d0 1 1 c l o u dm o d e l f i r s t , al a r g e - s c a l eo p e n - b e n c h m a r kc o r p u sa sw e l l 鹪r e f e r e n c es u m m a r i e sw r i t t e nb y h u m a ni sc o n s t r u c t e d t h e n , i no r d e rt og e n e r a t ec o n c i s ea n df l u e n ts u m m a r i e sw h i c hs a t i s f yt h e u s e r sn e e d s , c l o u dm o d e li su s e di nk e y p r o c e s s e so fs u m m a r i z a t i o n , s u c ha sc o n t e n tu n i ts e l e c t i n g , s e n t e n c ec o m p r e s s i o n , a sw e l la ss e n t e n c eo r d e r i n g l a s t l y , s u m m a r i e sa r ce v a l u a t e db yr o u g e - c n , w h i c hi sa ni m p r o v e dv e r s i o no fr o u g ea n dc 锄b eu s e dt oe v a l u a t es u m m a r i e si nc h i n e s ei na n a u t o m a t e df a s h i o n t h ee s s e r l c eo f t h i st h e s i sc & nb es u m m a r i z e d t h ef o l l o w i n g : f i r s t , t h i sp a p e rp r o p o s e sas u m m a r i z a t i o nu n i ts e l e c t i n gm e t h o db a s e do nc l o u dm o d e l c l o u d m o d e ii su s e dt oc o n s i d e rr a n d o m n e s sa sw e l la sf u z z i n e s so nd i s t r i b u t i o no fs u m m a r i z a t i o nu n i t i n t h ep r o c e s so fo b t a i n i n gr e l e v a n c eb e t w e e ns u m m a r i z a t i o nu n i ta n dq u e r y , t h es c o r e so fr e l e v a n c e b e t w e e nt h ew o r da n de a c hq u e r yw o r da r es e e na sc l o u dd r o p s b yo b t a i n i n gu n c e r t a i n t yo fc l o u d , s u m m a r i z a t i o nu n i tw h i c hi sm o r er e l e v a n tt ot h eq u e r yi sg i v e nh i g h e rs c o r e a f t e rt h a t , i m p o r t a n c e i nt h ed o c u m e n ts e ti sa l s oo b t a i n e dt oe v a l u a t et h es e n t e n c e sa b i l i t yt os u m m a r i z ec o n t e n to ft h e i i l 博士学位论文 d 0 啪r a ld 塔s e 础聃研0 n d o c u m e n ts e t s i m i l a r i t i e sb e t w e e nas e n t e n c ea n da l ls e n t e n c e si nd o c u m e n ts e ta r ec o n s i d e r e da s c l o u dd r o p s t o g e t h e rt h e s ec l o u dd r o p sb e c o m eac l o u d w eu s et h ec l o u dt oe v a l u a t et h es e n t e n c e s a b i l i t yt os l m l m a r i z oc o n t e n to ft h ed o c u m e n ts e t , t r y i n gt of i n ds e n t e n c e sw h i c h 锄s u m m a r i z et h e m o s tc o n t e n to ft h ed o c u m e n ts e ta n da v o i du n d e rr e p r e s e n t i n gt h ed o c u m e n ts e t i no r d e rt o d e m o n s t r a t et h ee f f e c t i v e n e s so ft h ep r o p o s e dm e t h o d , l a r g e - s c a l eo p e nb e n c h m a r kc o r p u s e si n e n g l i s ha r eu s e di nt h ee x p e r i m e n t w ea l s op a r t i c i p a t e dt a c ( t e aa n a l y s i sc o n f e r e n c e ) 2 0 10a n d g o ts a t i s f a c t o r yr e s u l t s s e c o n d l y , t h i sp a p e ri n t r o d u c e st h ep r o c e s so fc o n s t r u c t i n gal a r g e - s c a l ec h i n e s eq u e r y - f o c u s e d m u l t i - d o c u m e n ts u m m a r i z a t i o nc o r p u s ,a sw e l la st h ep r o c e s so fs e t t i n gu pt h ec h i n e s eq u e r y - f o c u s e d m u l t i - d o c u m e n ts u m m a r i z a t i o ns y s t e m t h ec h i n e s eq u e r y - f o c u s e dm u l t i - d o c u m e n ts u m m a r i z a t i o n c o r p u si n c l u d e s1 0 0 0d o c u m e n t s ,1 0 0d o c u m e n ts e t sa n dq u e r i e s , a sw e l la s4 0 0s u m m a r i z a t i o n r e f e r e n c e s b ym o d i f y i n gt h es o u r c ec o d eo fr o u g e ,w h i c hi sa l la u t o m a t e de v a l u a t i o nt o o l si n e n g l i s h , t h i sp a p e rr e a l i z e sa u t o m a t e de v a l u a t i o no fc h i n e s es u m m a r i e s w h e nc o n s t r u c t i n gt h e c h i n e s es u m m a r i z a t i o ns y s t e m , w eu s e5 0d o c u m e n ts e t sa st r a i n i n gd a t at ot r a i np a r a m e t e r so ft h e m o d u l ef o rs e l e c t i n gs u m m a r i z a t i o nu n i t s t h i r d l y , t h i sp a p e rp r o p o s e sac h i n e s es e n t e n c ec o m p r e s s i o nm e t h o db a s e do nm u l t i - d i m e n s i o n c l o u da n dd e p e n d e n c yr e l a t i o n s h i p st of i l r t h e ri m p r o v et h eq u a l i t yo fs u m m a r i e s as e to fh e u r i s t i c r u l e sb a s e do ba n a l y s i so fd e p e n d e n c yr e l a t i o n s h i p sa r ep r o p o s e da n du s e dt ot r i ms e n t e n c ea n d p r o d u c ec o m p r e s s e ds e n t e n c e st h a t 锄b eu s e d 泌m u l t i p l ec a n d i d a t es e n t e n c e s t h ec a n d i d a t e s e n t e n c e sa r et h e ns c o r e db ym u l t i - d i m e n s i o nc l o u dm o d e lw h i c hc o n s i d e r si n f l u e n c eo fd i s t r i b u t i o n o fw o r d sa m o n gs e n t e n c e sa n dd o c u m e n t s ,a sw e l l 私r e l e v a n c eb e t w e e nt h ew o r d sa n dt h eq u e r y c o m p a r i n gw i t ht h es i n g l ed i m e n s i o nc l o u dm o d e l ,t h em u l t i - d i m e n s i o nc l o u dm o d e lc a nr e t a i n u n c e r t a i n t i e sw h i l et h ec l o u d sa r es u p e r p o s i n g c a n d i d a t es e n t e n c ew h i c hc o n t a i n st h el a r g e s ta m o u n t o fi n f o r m a t i o na n di ss h o r t e s ti nl e n g t hw i l lr e p l a c et h eo r i g i n a ls e n t e n c et oc o n s t r u c tt h es u m m a r y a n da l l o wm o r e r o o mf o rt h es u m m a r yt oi n c l u d em o r ee f f e c t i v ei n f o r m a t i o n l a s t l y , t h i sp a p e rp r o p o s e sas e n t e n c eo r d e r i n gm e t h o dt h a ti sb a s e do nc l o u dm o d e lt om a k et h e s u m m a r ym o r er e a d i l yc o m p r e h e n s i b l e t h i sm e t h o dt a k e se v e r ys o u l v 七d o c u m e n ti na n yg i v e n d o c u m e n ts e ta sa t e m p l a t eo fs e n t e n c eo r d e r i n ga n dc o m b i n e sr e s u l t so fd i f f e r e n tt e m p l a t e si n t oo n e s i n g l eo r d e r i n gr e s u l t t h ea d v a n t a g eo ft h i sm e t h o di st h a ti td o e s n td e p e n do no n es i n g l ed o c u m e n t l i k et h es i n g l e - t e m p l a t e - s e n t e n c e - o r d e r i n gm e t h o da n da l s oa v o i d st h ec o m p l i c a t i o no fp a k w i s e c o m p a r i s o no ft h em a j o f i t y - s e n t e n c e - o r d e r i n gm e t h o d a l ls e n t e n c e si nd o c u m e n ts e ta r ec l u s t e r e d i n t os e v e m ls u b - t o p i c sb yu s i n ga d a p t i v ei n c r e m e n t a lc l u s t e r i n gm e t h o db a s e do nc o m p l e xn e t w o r k s t h e ne v e r yd o c u m e n ti nt h ed o c u m e n ts e ti ss e e na sat e m p l a t e a l lt h e s et e m p l a t e st o g e t h e rd e c i d e i v 博士学位论文 d o c t o r 札d i s s e r l f a n o n r e l a t i v ep o s i t i o no fs u b - t o p i c sa sw e l la ss e n t e n c e s s u b - t o p i c sa n ds e n t e n c e si nt h es a m et o p i ca r e s o r t e di n s e q u e n c e t o g e n e r a t e m o r ef l u e n ta n dm o r er e a d i l y c o m p r e h e n s i b l e a u t o m a t e d s u m m a r i z a t i o n k e yw o r d :q u e r y - f o c u s e dm u l t i = d o c u m e n ts u m m a r i z a t i o n ;c l o u dm o d e l ;s u m m a r i z a t i o nu n i t s e l e c t i n g ;c h i n e s eq u e r y - f o c u s e dm u l t i - d o c u m e n t s u m m a r i z a t i o nc o r p u s ;c h i n e s es e n t e n c e c o m p r e s s i o n ;s e n t e n c eo r d e r i n g v 1 1 研究目的与意义 第1 章绪论 针对一个简单的查询,搜索引擎通常返回成百上千的网页,其中包含了大量的重复网页、 以及大量的不相关的冗余数据,用户需要耗费许多的精力从搜索结果中分辨出所需要的结果。 怎样提高信息获取的效率成为文本处理领域所面临的主要问题之一 面向查询的多文档自动文摘与信息检索、自动问答等技术既有联系又有区别信息检索的 主要任务是找出满足特定检索条件的文档,用户则需要从返回的大量包含各种冗余信息的文档 列表中努力寻找所需要的信息自动问答的主要任务则是找出符合特定问题的答案,目前还仅 限于一些特定领域、特定类型的问题,而且提供的答案有时由于过于简略而难以理解。开放域 的问答系统的研究还面临着实质性的困难,效果也差强人意。面向查询的多文档自动文摘综合 了多文档自动文摘、信息检索和自动问答等现有技术上的优点,又在一定程度上避免了其不足 它在用户个性化信息的推荐定制、海量信息获取、数字图书馆、商业情报分析、电子政务以及 移动计算等领域都具有重要的研究意义和广阔的应用前景 本文的研究目的在于构建一个基于云模型的中文面向查询的多文档自动文摘系统本文主 要有以下两方面的主要研究意义s 一 1 一方面,该系统以中文文本为主要研究对象的,目的在于构建完整地中文面向查询的多文 档自动文摘系统 虽然理论上说,英文文摘的方法可以移植到中文中来,但由于中英文语言各自不同的特点, 英文的方法可以借鉴,但在中文语料中证明方法的有效性也是非常必要的由于各种原因,中 文面向查询的多文档自动文摘的研究相对滞后,长远来说对于我国信息技术的发展会造成不利 影响本文则从最基础的构建公开评测语料库开始,针对中文文本,构建了完整的中文面向查 询的多文档自动文摘系统,并且在文摘单元选取、文摘内容简洁性、文摘内容连贯性等多个方 面都有所突破,保证了中文摘要的质量本文就中文面向查询的多文档自动文摘技术开展了多 方面的探索,其中的一些思路和方法可以为其他中文文摘技术的研究者提供参考。 另一方面,该系统是云模型在自然语言处理领域的一个典型应用,整个系统的构建过程中 多层次、多侧面地反映了云模型如何被应用于自然语言处理过程 云模型是李德毅院士在2 0 世纪末提出的一种概念的定性定量转换模型,是人工智能领域 最新的重要理论研究成果之一,被广泛应用于工业、智能控制、信息技术、军事科学等领域 然而,相对于其他一些领域来说,将云模型应用于自然语言处理领域的研究还比较少本文则 将研究重点放在了这一块,即在生成自动文摘的各个阶段都充分运用云模型,利用云模型改进 原有方法或者提出新的方法本文的方法是云模型在自然语言处理领域应用的崭新尝试,本文 博士学位论文 d o ( x d r a ld i s s e r t a t i o n 提出的各种方法经过拓展,也可以被应用于自然语言处理的其他领域。 1 2 主要内容与基本架构 为了在开始就直观地说明本文的研究思路和主要研究内容,图1 1 给出了中文面向查询的 多文档自动文摘的流程图。从图中可以看出,本文的工作包括了从预处理到文摘生成、文摘后 期处理的整个阶段,是一个完整系统的构建过程。而在这所有的工作中,本文又将研究的重点 放在了几项关键技术当中。 其中,文摘单元选取是文摘生成过程的核心步骤,它从总体上决定了什么样的内容将组成 文摘。本文在第3 章提出了一种基于云模型的文摘单元选取方法。该方法既可以被用来生成中 文摘要,也可以被用来生成英文摘要。由于中文中缺乏大规模公开评测语料,为了证明该方法 的有效性,我们首先在英文语料中测试了方法的性能,然后将其应用到中文自动文摘系统中。 要深入开展中文面向查询的多文档自动文摘的研究,需要有大规模的训练语料与测试语料, 以及可以用来进行评测的人工摘要。中文由于缺乏公开评测平台,研究者很难将自己的工作与 其他研究者的方法进行对比。本文在第4 章中介绍了由我校中文信息处理实验室构建的中文面 向查询的多文档自动文摘语料库的建设情况,除此以外,本文还提出了一种可以用来进行中文 文摘评测的自动评测工具。以语料库以及评测工具为基础,第4 章中还介绍了基于云模型的中 文面向查询的多文档自动文摘系统搭建的基本过程。第4 章两个部分的内容相对独立,但考虑 到每一部分篇幅较短,且彼此之间有较为紧密的联系,因此作为一章进行介绍。 本文第5 章介绍了一种中文句子修剪方法针对中文的特点,采用基于依存分析的方法制 定人工规则,生成多候选句;进而采用一种基于多维云的多候选句选取方法选择最适合的候选 旬替换原旬作为文摘句。通过对句子进行修剪,可以删除文摘旬中不重要的内容,使自动文摘 更加简洁,从而改善文摘的质量。 高质量的自动文摘除了内容满足用户需要以外,连贯性也是非常重要的评价指标,不连贯 的文摘将极大地影响阅读者对于文摘内容的理解本文第6 章提出了一种基于云模板的文摘句 排序方法该方法充分利用云模型的特点,将文档集合中的每一篇文档都看成是文摘句排序的 l 中文西向童询多文 f := 1 r = := 1 。e 翮由jl - 白曲寺- 叠矗 图1 1 中文面向查询的多文档自动文摘的主要流程,带阴影的模块对应了本文研究的重点内容 2 博士学位论文 d o c t o r a ld i s s 口溯i o n 参照物,即模板,综合各方面的信息对文摘旬进行排序 虽然为了行文和理解的需要,将句子修剪和句子排序两部分的工作作为单独的章节放在了 中文面向查询的多文档自动文摘系统以外,但值得注意的是,这两部分也都是构成系统的重要 组成部分其中,句子排序由于关系到文摘的可读性,是生成文摘必不可少的环节,而句子修 剪则是可以由用户自己选择是否使用的可选模块。虽然句子修剪的研究意义重大,但由于其牵 涉到深层语言处理技术,并且针对中文的研究才刚刚开始,其性能还有进一步提升的空间在 向阅读者提供更多重要信息的同时,可能会生成少量不合语法的句子如果用户希望阅读的文 摘都由完整的句子组成,则可以不使用句子修剪模块;相反,如果用户希望阅读的文摘包含更 多的信息,不介意阅读经过修剪以后的句子,则可以使用句子修剪模块。 语料库建设、文摘单元选取、句子修剪、句子排序、自动评价,这些构成了本文研究的主 要内容其中,云模型在文摘单元选取、句子修剪、句子排序三个阶段中得到了充分运用,且 在各个部分中发挥作用的方式和侧重点各有不同在文摘单元选取阶段,研究的重点主要是考 虑利用单维云进行评价,通过单维云的线性组合提升系统的性能;而在句子修剪阶段,研究的 重点是多维云模型,通过云模型将来源不同、性质不同的单维云组合在一起,形成更高层次的 云;而句子排序阶段,云所起的作用则是一种整体架构,更注重利用云的思想提出新的方法 1 3 论文的组织结构 本论文组织顺序如下: 第l 章介绍了本文研究的目的与意义,以及本文的主要研究内容 第2 章分别对面向查询的多文档自动文摘以及云模型的研究现状进行比较详细地综述。 第3 章研究基于云模型的面向查询的多文档自动文摘中文摘单元选择问题提出了基于云 模型的句子抽取策略,通过实验验证和参加公开评测证明了这些策略的有效性 第4 章主要从3 个方面研究中文面向查询多文档自动文摘问题,分别是:中文面向查询多 文档自动文摘语料库的建立、中文文摘自动评价工具的建立、中文面向查询多文档自动文摘系 统的建立,从而构建了较为完整的、可实现公开客观评测的中文文摘实验体系 第5 章介绍了基于依存关系和多维云的中文句子修剪方法,通过修剪句子中不重要的成分, 提高中文文摘的信息含量 第6 章介绍基于云模板的中文句子排序方法,进一步改善文摘的质量,提高中文文摘的可 读性 第7 章对总结了论文的研究成果,并对中文面向查询的多文档自动文摘、云模型在自然语 言处理领域中的应用两方面的工作进行展望。 3 博士擘位论文 d d c r o r ld l s s e r t a t i o n 第2 章相关研究工作概述 本文牵涉到两方面的相关工作,一是本文的主要研究领域,即自动文摘领域,特别是中文 面向查询的多文档自动文摘领域的相关研究工作;二是本文所采用的主要理论依据,即云模型 的相关研究工作。本章将分别从这两个方面介绍本文的相关研究工作。 2 1 面向查询的自动文摘相关研究概述 自上世纪5 0 年代l u h n 2 首次提出自动文摘的概念以来,自动文摘已经经历了半个世纪的 发展历程,主要经历了三个不同的历史阶段,即单文档自动文摘阶段、多文档自动文摘阶段, 以及本文主要关注的面向查询的多文档自动文摘阶段。 2 1 1 单文档自动文摘 单文档自动文摘的发展时期较长,可以划分为三个发展时期: ( 1 ) 5 0 7 0 年代 在这一时期,人们主要关注文本浅层特征的统计学方法,主要研究对象为科技文献。 l u h i l 于1 9 5 8 年发表的论文提出了一系列经典的自动文摘方法:词干化、去停用词、基于 词频统计的方法【2 】。 b a 】【e n d a l e p 恫年发表的论文讨论了句子位置信息对于生成文摘的影响 e d m u n d s o n e ! 于1 9 6 9 年提出了一种自动文摘抽取系统,该系统综合考虑了词频信息、句子 位置信息、提示词、标题信息生成文摘,更重要的是该系统给出了一种从文档选择,到生成文 摘,再到文摘评价的自动文摘实验框架 ( 2 ) 7 0 年代末 - - 8 0 年代末 这一时期,自动文摘方法转向基于深层自然语言处理技术的方法,主要研究对象是短文本、 记叙文和新闻。 1 9 7 7 年,耶鲁大学的s c h a n k 研制了s 灿l ( s c r i p ta p p l i e rm e c h a n i s m ) 系统 5 1 ,采用脚本对 故事内容进行分析,在此基础上对故事进行总结、形成摘要。 1 9 7 9 年,耶鲁大学的d e j 0 n g 研制了r u m p 系统,其目的是使用户能够快速阅读新闻资料, 该系统是理解文摘系统的样板之一旧1 9 8 5 年,t a i t 开发了s c r a b l e 系统,对f r u m p 系统进 行了一定程度的改进,采用c d ( c o n c e p t u a ld e p e n d e n c ys t r u c t u r e ) 结构对新闻内容进行分 析川 1 9 8 2 年,f 咙等人开发了s u s y 系统该系统以一阶谓词逻辑作为生成文摘的基础,在当 博士学位论文 d 0 e r o r a l d i s s e l n i ( ) n 时取得了比较好的实验结果,同时也体现了逻辑方法的在文摘领域的潜力【1 1 1 随后,h a h n 等 人开发了t o p i c 系统,采用框架作为知识表示的基础,通过对全文的语法语义分析生成摘型羽 1 9 8 9 年,r a u 等人研制了s c i s o r ,主要处理有关“公司合并 的新闻报导,是一个典型的 理解文摘系统刚枷 这一时期,国内也有不少研究者对自动文摘展开了研究。 8 0 年代末,东北大学与香港城市理工大学联合开发了“中文全文自动摘要系统 ,该系统 采用脚本知识表示的方法,通过与用户进行交互获取和生成摘型1 2 1 1 9 9 0 年前后,李小滨、徐越研制了e a a s ,该系统针对英文语料,是一个标准的理解文摘系 统。首先通过与用户进行交互获取信息焦点集合,进而对文章进行语法以及语义分析,获得文 章意义框架,参照信息焦点集合从意义框架中找出有关信息,最后生成文摘【3 l 【1 4 1 ( 3 ) 9 0 年代- 2 1 世纪初 这一时期,机器学习方法在自然语言处理领域中的应用研究非常活跃,一系列机器学习方 法成功地被应用于自动文摘领域,主要研究对象为t r e c 、t i p s t e r 等一些相关公开评测的语料, 以及这一时期最后几年出现的t i p s t e r - s u m m a c 、d u c 等专门针对自动文摘的公开评测语料。 作为e d m u n d s o n 方法的延伸,k u p i e c 等人于1 9 9 5 年采用朴素贝叶斯分类器,通过训练 学习一个句子是不是适合作为文摘句【1 5 】。 a o n e 等人于1 9 9 9 年同样采用贝叶斯分类器生成文摘,但他们提出了一些新的特征项,其 中就包括著名的t f - i d f ( t e r mf r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ) 特征,并采用w o r d n e t 作为工具合并同义词【1 6 】 v l i n 于1 9 9 9 采用决策树的方法生成摘要,考虑了更多的句子特征,包括查询重要度、 t f - i d f 、数词、命名实体、代词或形容词、日期、引用等一系列特征1 1 7 1 c o n r o y 和0 l e a r y 于2 0 0 1 年开发了基于隐马尔可夫模型的文摘系统,将文档中的句子看 作相互依存的句子系列,认为一个句子是否被选为文摘旬与该旬前后的句子是否被选为文摘句 有关【埘 o s b o r n e 于2 0 0 2 年采用对数线性模型生成文摘,与朴素贝叶斯模型不同的地方,该方法并 不假设句子特征之间相互独立【埘1 在这一时期,除了机器学习的方法以外,基于深层自然语言处理技术的研究也有一定程度 的发展 b a r z i l a y 和e l h a d a d 于1 9 9 7 年采用词汇链( 1 e x i c a lc h a i n ) 的方法生成摘要,采用w o r d n e t 构建词汇链,找出最强的一些词汇链,按一定的规则选取文摘句1 2 0 j 0 n o 于1 9 9 4 年针对日文中的说明文摘要,采用基于修辞结构的方法生成文本摘要,首先提 取修辞结构,将句子之间的关系表示为二叉树的形式,进而通过删除次要的修辞关系的方法生 5 博士学位论文 d o c t o r a l d i s s e r t a t i o n 成摘要f 2 。 m a r c u 于1 9 9 8 年提出了基于修辞结构理论( r h e t o r i c a ls t r u c t u r et h e o r y ) 的摘要方法, 通过生成话语结构( d i s c o u r s es t r u c t u r e ) 的方法生成摘要田】,并给出了生成话语结构的可 行算法瞄j 。 在国内,哈尔滨工业大学王开铸教授领导的小组于1 9 9 4 年开发了h i t - 8 6 3i 型自动文摘系 统叫,并于1 9 9 8 年进一步开发了基于篇章多级依存结构的h i t - 8 6 3i i 型自动文摘系统 2 6 1 。 1 9 9 6 年,刘挺提出了一种基于信息抽取和文本生成的自动文摘方案1 2 卯。北京邮电大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论