(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf_第1页
(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf_第2页
(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf_第3页
(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf_第4页
(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)面向查询的xml文本摘要技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, , 1 _ 目录 1 绪论l 1 1 研究背景与研究意义l 1 2 研究现状3 1 2 1 自动文摘的特征选择研究现状3 1 2 2 平面自动文摘的研究现状”4 1 2 3x m l 文档自动文摘研究现状6 l - 3 本文研究的主要内容1 0 1 4 论文的结构安排l l 2 自动文摘技术概述1 2 2 1 自动文摘技术概要1 2 2 2 多文档摘要”l3 2 2 1基本方法和问题l3 2 2 2 文摘评测1 5 2 2 3 代表系统1 7 2 3 面向查询的文本摘要技术”l9 2 3 1面向查询的摘要机制1 9 2 3 2 面向查询的x m l 文本摘要的分析”2 2 2 4 本章小结2 3 3 特征选取2 4 3 1x m l 文摘语料库的构建”2 4 3 1 1x m l 文摘语料库构建的总体框架2 5 3 1 2 语料的选择2 5 3 i 3 语料的整理与加工2 6 3 2 查询特征”2 9 3 2 1c o 查询特性分析”3 0 3 2 2c a s 查询特性分析3 0 3 3 内容特征3 2 3 4 结构特征3 4 3 5 本章小结3 5 4 x m l 文摘句抽取模型3 6 4 1 文本预处理模块”3 6 4 1 1句子划分3 7 4 1 2 查询扩展3 7 4 2 文摘旬的选取3 9 4 2 1查询与句子之间关联度计算4 0 4 2 2 句子与主题关联度计算”4 l 4 2 3 句子得分获取4 2 4 2 4 文摘句的选择4 2 4 3实验评价及结果分析4 3 4 4 总结与结论4 7 5 面向查询的x m l 文摘句子重排4 8 5 1x m l 文摘句子重排模型简介4 8 5 2 基于随机冲浪模型的x m l 文摘句子重排4 9 5 2 1两种关系4 9 5 2 2 两种关系的集成”5 0 5 2 3 句子排序5l 5 3 试验及结果分析5 2 5 3 1 数据集及相关参数设定“5 2 5 3 2 实例及实验结果分析5 3 5 4 本章小结_ o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o 0 0 5 5 6 总结与展望5 6 参考文献5 8 附录攻读硕士学位期间发表论文及参与课题”6 5 致谢”6 6 1 i n t r o d u e t i o n c o n t e n t 1 1p u r p o s ea n ds i g n i f i c a n c eo ft h i ss t u d y l 1 2r e l a t i o nw o r k so ft h ea u t o m a t i cs u m m a r i z a t i o n 3 1 2 1r e l a i t o nw o r k so ff e a t u r es e l e c t i o nf o ra u t o m a t i cs u m m a r i z a t i o n ”3 1 2 2r e l a i t o nw o r k so fp l a n e t e x ta u t o m a t i cs u m m a r i z a t i o n 4 1 2 3r e l a i t o nw o r k so fx m l t e x ta u t o m a t i cs u m m a r i z a t i o n 6 1 3m a j o rc o n t e n to f t h i st h e s i s 1 0 1 4t h eo r g a n i z a t i o no f t h et h e s i s l1 2 t e c h n o l o g yo v e rv i e wo ft h ea u t o m a t i cs u m m a r i z a t i o n 1 2 2 1t e c h n o l o g ys u m a r yo ft h ea u t o m a t i cs u m m a r i z a t i o n 12 2 2m u l t i - d o c u m e n t ss u m m a r i z a t i o n 13 2 2 1t h eb a s i cw a y sa n dt h ep r o b l e m so ft h em u l t i - d o c u m e n t ss u m m a r i z a t i o n 13 2 2 2t h ee v a l u a t i o no ft h es u m m a r i z a t i o nq u a l i t y l5 2 2 3t h er e p r e s e n t a t i v es y s t e mo ft h em u l t i - d o c u m e n ts u m m a r i z a t i o n ”17 2 3t h et e c h n i q u eo ft h eq u e r yo r i e n t e dx m l t e x ts u m m a r i z a t i o n 19 2 3 1t h ew a y sf o rt h eq u e r y - o r i e n t e d 1 9 2 3 2a n a l y s i sf o rt h eq u e r y - o r i e n t e dx m lt e x ts u m m a r i z a t i o n 2 2 2 4s u m m a r yf o rt h i sc h a p t e r 2 3 3 f e a t u r es e l e t i o n 3 1c o n s t r u c t i n gc o r p u sf o rq u e r y - o r i e n t e dx m lt e x ts u m m a r i z a t i o n 2 4 3 1 1t h eg e n e r a lf r a m e w o r ko f t h ec o r p u sc o n t r u c t i o n 2 5 3 1 2t h ec o l l e c t i o no ft h ec o r p u s 2 5 3 1 3t h es o r t i n ga n dp r o c e s s i n go ft h ec o r p u s 2 6 3 2q u e r yf e a t u r e so f t h eq u e r y - o r i e n t e dx m l t e x ts u m m a r i z a t i o n 2 9 3 2 1t h eq u e r yf e a t u r e sa n a l y s i sf o rt h ec o n t e n t - o n l yq u e r y 3 0 3 2 2t h eq u e r yf e a t u r e sa n a l y s i sf o rt h ec o n t e n t - a n d s t r u c t u r eq u e r y 3 0 3 3t h ec o n t e n tf e a t u r e so ft h eq u e r y - o r i e n t e dx m lt e x ts u a r i z a t i o n ”3 2 3 4t h es t r u c t u r ef e a t u r e so f t h eq u e r yo r i e n t e dx m lt e x ts u m m a r i z a t i o n 3 4 3 5s u m m a r yf o rt h i sc h a p t e r 3 5 4 s e n t e n c ee x t r a c t i o nm o d e if o rt h e ls u m a r i z a t i o n 4 1t h ep r e - p r o c e s s i n gm o d u l e 3 6 4 1 1s e n t e n c es p l i t t i n g 3 7 1 1 1 4 1 2q u e r ye x p a n s i o n 3 7 4 2s e n t e n c e ss e l e c t i o n 3 9 4 2 1s i m i l a r i t yb e t w e e nt h eq u e r ya n de a c hs e n t e n c e s 4 0 4 2 2s i m i l a r i t yb e t w e e nt h et o p i co f t h ed o c u m e n t ss e ta n de a c hs e n t e n c e s 4 1 4 2 3c a l c u l a t i o nt h es c o r eo fe a c hs e n t e n c e 4 2 4 2 4s e n t e n c es e l e c t i o nf o rt h es u m m a r i z a t i o n 4 2 4 3 e v a l u a t i o na n da n a l y s i s 4 3 4 4c o n c l u s i o n s 4 7 5 s e n t e n c eo r d e r i n gi nq u e r y - o r i e n t e dx m lt e x ts u m m a r i z a t i o n 。4 8 5 1i n t r o d u c t i o n 。4 8 5 2s e n t e n c eo r d e r i n gb a s e do nr a n d o ms u r f e rm o l e li nx m ls u m m a r i z a t i o n 4 9 5 2 1t w ok i n d so f r e l a t i o n s 4 9 5 2 27 i 。1 1 i ei n t e g r a t i o no f t h et w ok i n d so f r e l a t i o n s 5 0 5 2 3s e n t e n c er a n k i n g 51 5 3e v a l u a t i o na n da n a l y s i s 5 2 5 3 1d a t as e ta n dt h er e l a t e dp a r a m e t e rs e r i n g 5 2 5 3 2e x a m p l e sa n de x p e r i m e n t a lr e s u l t sa n a l y s i s 5 3 5 4s u m m a r yt h i sc h a p t e r 5 5 6 c o n c l u t i o n sa n dt h ef u t u r ew o r k 一一一一一0 0 0 0 0 一一”一0 0 0 0 0 0 0 0 0 一”一一5 6 r e f e r e n c e s 一一”一一一一一一一一一一一一”一一一5 8 p u b l i s h e dp a p e r sa n da t t e n d e dp r o j e c t s m m 6 5 a c k n o w l e d g e m e n t s 一一一6 0 0 q 0 0 0 ”一一m m 6 6 i v 摘要 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,即可扩展的标记语言,是一种允许用户用 特定领域的标记来描述文本含义和结构的元标记语言。随着互联网和网络技术的 快速发展,符合x m l 规范的数据已广泛的应用到当前的信息社会中。面向查询的 x m l 文本摘要技术任务就是基于特定的查询,通过x m l 信息检索技术与自动文 摘技术有机结合,从大量的查询主题相关的文档中得到一个具有完整意义、良好 可读性、连贯且符合用户需求的文本摘要。面向查询的x m l 摘要技术的出现,将 能大大减轻人们的阅读负担,让人们从x m l 的数据海洋中快速高效的查找到自己 需要的信息。 本文研究面向查询的x m l 文本摘要技术,主要工作包括以下几个方面: 1 、设计并构建了面向查询的x m l 文本摘要语料库。本文系统介绍构建面向 查询的x m l 文本摘要语料库的一序列工作,包括语料库的规划、构建流程和一些 技术细节,并对所构建的语料库的特点进行分析,得到面向查询x m l 文本摘要句 的查询特征、内容特征和结构特征。目前本语料库已收集英文2 5 个查询主题2 4 7 篇文本、中文3 2 个主题2 7 8 篇文本。 2 、构建了面向查询的x m l 文本摘要模型。首先将查询相关文档集分成句子, 然后利用改进的基于密度分析的排序方法将句子分成查询相关句子集和查询不相 关句子集。通过查询相关句子集利用改进的话题标签方法对用户提出的查询词进 行查询扩展,结合查询扩展词,分别计算文档集中每个句子与用户查询主题之间 的关联度得分、句子与查询主题相关文档集合的主题的关联度得分、通过对标签 的分布概率给句子的标签赋分、利用改进z s z l , i v i k 方法得出层次赋分,然后通过 线性融合的方法将这些得分组合起来,给每个句子一个得分,利用基于相似度的 方法去除重复信息选取摘要句。通过r o u g e 1 评测和人工评测证明,本文所提出 的方法获取的文摘比较理想。 3 、本文提出了基于随机冲浪模型的x m l 文摘句子重排模型。该模型通过句 子间的顺序关系( 时间顺序、前后位置、句子所在文档树中的层次) 和主题相关 性关系的线性组合为边的权重、以句子为结点建立一个有向图,使用p a g e r a n k 算 法得到句子的分值并按该分值大小重排x m l 文摘中的句子。通过这个方法就可以 得到一个句子序列,该序列就可以作为最终的摘要。通过实验证明,文摘内容逻 辑上更合理、可读性更好、句子间更连贯。 关键词t 面向查询的x m l 文本摘要:语料库;查询扩展:线性融合;随机冲浪模型: a b s t r a c t x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,i sam e t a - m a r k u pl a n g u a g et h a ta l l o w st h e u rt om a r k u pt h et e x tu s e dt h es p e c i f i ca r e at a gw h i c h 咖b ed e s c r i b et h em e a n i n g a n ds t r u c t u r eo ft h ec o n t e x t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e ta n dn e t w o r k t e c h n o l o g y , t h ei i ll i n ed a t aw h i c hm e e tt h ex m ls p e c i f i c a t i o nh a sb e e nw i d e l ya p p l i e d i nc u r r e n ti n f o r m a t i o ns o c i e t y t h eq u e r y - o r i e n t e dx m ls u m m a r i z a t i o nt e c h n o l o g y , i sa t e c h n o l o g yt h a tb a s e dt h e u s e r sq u e r ya n dc a nb eo b t a i nac o m p l e t es e n s e ,g o o d r e a d a b i l i t ya n dm e e tt h eu s e r n e e ds u m m a r i z a t i o nf r o mt h eq u e r y - r e l a t e dd o c u m e n t s e t s c o m b i n a t i o nt h et e c h n i q u e so ft h ex m li n f o r m a t i o nr e t r i e v a lt e c h n o l o g ya n da u t o m a t i c s u m m a r i z a t i o nt e c h n o l o g y w i t ht h ea p p e a r a n c eo ft h et e c h n o l o g i e so ft h e q u e r y - o r i e n t e dx m l t e x t ss u m m a r i z a t i o n , p e o p l ec a nb ef i n dt h e i ri n f o r m a t i o nf r o m t h ex i v l ld a t as e aq u i c k l ya n de f f i c i e n t l ya n ds oi t sc a nb ea l l e v i a t eu s e r sr e a db u r d e n t o o i nt h i sp a p e r , t h ea u t h o rf o c u s e so ns t u d yt h et e c h n o l o g yo ft h eq u e r y - o r i e n t e d x m lt e x ts u m m a r i z a t i o n , t h ep r i m a r yr e s e a r c hc a nb es u m m a r i z e da sf o l l o w s : 1 d e s i g na n dc o n s t r u c tac o r p u sf o rq u e r y - o r i e n t e dx m l t e x ts u m m a r i z a t i o n i n t h i s p a p e r , t h e a u t h o ri n t r o d u c t i o nt h ew o r k so n c o n s t r u c t i n g ac o r p u sf o r q u e r y - o r i e n t e dx m l t e x ts u m m a r i z a t i o n ,i n c l u d i n gt h es e l e c t i o no ft o p i c sa n dx m l e l e m e n t s d o c u m e n t s ,c o n s t r u c t i o np r o c e s sa n dt h e f e a t u r e so ft h ec o n s t r u c t e dc o r p u s u pt on o w , t h ec o r p u sh a s2 5e n g l i s hq u e r yt o p i c s ,i n c l u d i n g4 2 2e l e m e n t sf o r s u m m a r i z a t i o n , a n d3 2c h i n e s et o p i c sw h i c hi n c l u d i n g4 0 2e l e m e n t s 2 am o d e lf o rq u e r y - o r i e n t e dx m lt e x ts u m m a r i z a t i o ni sp r o p o s e d f i r s to fa l l , t h eq u e r y - r e l a t e dd o c u m e n ts e th a sb e e nd i v i d e di n t os e n t e n c e sa n dt h e nd i v i d e dt h e s e 、 s e n t e n c e si n t ot h eq u e r y - - r e l a t e ds e n t e n c e ss e ta n dq u e r y u n r e l a t e ds e n t e n c e ss e tt h r o u g h t h ei m p r o v e dr a n k i n gm e t h o db a s e do nd e n s i t ya n a l y s i s s e c o n d ,e x p a n s i o nt h eu s e r s 。 q u e r yk e y w o r dt l l u g l lt h ei m p r o v e dt o p i cs i g n a t u r em e t h o df r o mt h eq u e r y - r e l a t e d s e n t e n c e ss e t , c o n s o c i a t et h e s ee x p a n s i o nq u e r yk e y w o r d st oc a l c u l a t et h ec o r r e l a t i o n 5 c o r eb e t w e e ne a c hs e n t e n c e sa n dt h eq u e r yt o p i cg i v e nb yu s e r , t h ec o r r e l a t i o ns c o r e b e t w e e ne a c hs e n t e n c e so ft h ed o c u m e n ts e ta n dt h et o p i co ft h eq u e r y - r e l a t e dd o c u m e n t s e t , o b t a i nt h es c o r eo ft h es e n t e n c et a gf o r mt h ep r o b a b i l i t yd i s t r i b u t i o no f t h et a gi nt h e q u e r y - o r i e n t e dx m l t e x ts u m m a r i z a t i o nc o r p u s ,u s e di m p r o v e dz s z h i v i km e t h o dt o o b t a i nt h es e n t e n c el e v e ls c o r e , a n dt h e nc o m b i n et h e s es c o r eb yl i n e a rc o m b i n a t i o n m e t h o dt og i v ee a c hs e n t e n c eas c o r ea n dr a n k i n gt h es e n t e n c e sb yt h e s es c o r e t h i r d l y , 2 。1 u s e dt h ec o n t e n ts i m i l a r i t y - b a s e dm e t h o dt or e m o v ed u p l i c a t i o ns e n t e n c e sa n da d dt h e r e m a i n i n gs e n t e n c e si n t ot h es u m m a r i z a t i o nc o l l e c t i o n t h ee v a l u a t i o nr e s u l t so nt h e r o u g e - 1a n dm a n u a le v a l u a t i o ns h o w st h a tt h ep r o p o s e dm o d e lc a nb eo b t a i na s u m m a r i z a t i o ni d e a l l y 3 as e n t e n c eo r d e r i n gs t r a t e g yb a s e do nr a n d o ms u r f e rm o d e li nx m l s u m m a r i z a t i o ni sp r o p o s e d t h em o d e lc a _ r lb ec o m b i n e dt h es e n t e n c e so r d e rr e l a t i o n s ( c h r o n o l o g i c a l ,p o s i t i o n a l ,l a y e r ) a n dt o p i cr e l a t i o n sb e t w e e nt w os e n t e n c e st h r o u g h l i n e a rc o m b i n a t i o nt ob u i l dad i r e c t i o ng r a p h ,w h e r et h ev e r t i c e sa r es e n t e n c e sa n de d g e s a r ew e i g h to ft h et w or e l a t i o n s h i p s c o m b i n a t i o n w ec a l c u l a t et h es c o r e so ft h e s e n t e n c e sv i at h ep a g e r a n ka l g o r i t h ma n dr e o r d e rs e n t e n c e sa c c o r d i n gt ot h e i rs c o r e s r a n k i n gt h es e n t e n c e s 锄b eo b t a i n e das e n t e n c es e q u e n c ea n dt h i ss e n t e n c e ss e q u e n c e i st h ef i n a ls u m m a r i z a t i o n ,e x p e r i m e n t sr e s u l t ss h o wo u ra l g o r i t h mc a ns i g n i f i c a n t l y i m p r o v et h el o g i c a l ,c o h e r e n ta n dr e a d a b l eo fx m ls u m m a r y k e y w o r d s :q u e r y - o r i e n t e dx m l t e x ts u m m a r i z a t i o n :c o r p u s ;q u e r ye x p a n s i o n ;l i n e a r f u s i o n ;r a n d o ms u r f i n gm o d e l ; 3 1 绪论 1 绪论 1 1 研究背景与研究意义 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,即可扩展的标记语言,是继h t m l 之后又 一流行于w e b 的元标记语言。x m l 具有如下优点1 1 1 :它允许用户用特定领域的标记 来描述文本含义和结构,其目标是能够定义计算机和人都方便识别的数据类型, 我们称之为x m l 具有自描述性的特点;x m l 能非常方便地支持对文档内容的有 效性验证;x m l 是非专有的但易于阅读和编写的语言,这使得它广泛应用于目前 网络的各种数据交换中:x m l 是基于w 3 c 定制的开放标准,这使得基于x m l 能广 泛于目前网络中;x m l 支持高级搜索,他的自描述性使得用户可以自由定义语言, 从而方便的知晓文档内容和结构的含义,结构的辅助作用,能方便用户对文本内 容的检索。 正由于x m l 所具有的上述的一些显著优点,随着互联网的普及和网络技术 快速发展,符合x m l 规范的数据( 或者称为x m l 数据) 已大量存在于当前的信息 社会中,特别是由于电子商务、w e b 服务、数字图书馆等应用的飞速发展,使得 x m l 类型的数据已经成为当前信息描述和信息交换中主流的数据形式。x m l 已 成为网络上信息描述和信息交换的事实标准,因此,将x m l 文本数据作为信息检 索的研究对象之一具有重大的理论意义和实际应用价值,x m l 信息检索已受到了 国内外研究机构与学者的普遍关注1 2 羽。 目前x m l 信息检索多采用最小最低公共祖先节点( 或该方法的变形) 作为返 回节点,尽管这种方法返回的检索结果为x m l 元素,但在以文本为中心的x m l 文 档中,各x m l 元素仍包含大量的结构化文本,其中仍然存在大量与用户需求不太 相关的内容。这意味着用户依然要面临巨大的阅读负担。自动文摘向终端用户提 供压缩后仍然具有完整意义且可读性较好的文本摘要,它能有效地减轻用户的阅 读负担。伦敦q u e e nm a r y 大学的z o l t d ns z l d v i k 等针对自动文摘在用户使用 x m l 检索系统中的作用进行了研究,并在2 0 0 6 年的研究成果中给出如下结论:用 户对x m l 摘要的使用非常活跃,检索者会花更多的时间阅读文档的摘要,而不是 直接阅读文档全文,即查看全文的摘要就能决定文档的哪部分是值得阅读的【们。 此外,近年来手机用户的日益增加,用户如何按照自己提出的问题,从海量的网 络信息中查找到需要的信息,并且在手机限有的小屏幕上获取与问题相关的简要 信息,这也是各种文本摘要技术应用的一个新需求。x m l 文本文摘的出现将能大 大减轻人们的阅读负担,它可以从大量的x m l 文本信息中提取具有完整意义且良 好连贯性、可读性的文本摘要。因此,按照用户查询对x m l 文本文摘的研究将是信 息检索领域的又一热点。 面向查询的肌文本摘要技术 面向查询的x m l 文本自动摘要和一般平面文本自动摘要的区别主要有几点: 前者文摘的对象是半结构化的x m l 元素而非平面文本,其中的“结构一在进 行自动文摘时所充当的角色不同于一般的文本;前者文摘的对象是查询的结果 x m l 元素集合,生成的摘要需要能具体反映查询的需求,而不像一般意义的文档 自动文摘那样,按照文章的主题或者文档集合的主题,找到相关的摘要。文摘 结果的表达:平面文本摘要只需要用简化后的平面文本就可以清楚表达,而面向 查询的x m l 文本自动文摘的文摘结果本身也可以包含结构。面向查询的x m l 文 本文摘具有上述不同于普通文本摘要的特点,使得这种摘要技术成为目前信息检 索和自然语言处理领域的一个重要研究课题,其原因在于: 首先,人们对x m l 信息检索的质量要求越来越高,现有x m l 检索技术不 能满足需求,因此需要用户在对检索结果阅读的基础上才能完成整个检索任务。 对检索结果中的x m l 元素进行摘要可以减轻用户的阅读负担进而有效地提高信 息获取效率,同时有助于判断x m l 元素与查询的相关性。 其次,已有用于平面文本的自动文摘技术并不完全适用于x m l 文档中的元 素,因为x m l 文档自身是带有逻辑结构的,x m l 检索结果元素也是带有逻辑结 构的。这就要求对x m l 元素进行文摘时要同时考虑内容、结构及用户的查询需 求,结构对阅读和理解的辅助作用,使这种结构形式的呈现得摘要可阅读性和可 理解性更佳。同时,用户在提供查询时,很难准确表达自己的查询目的,且经常 出现兴趣漂移的情况,因此,用一种直观的方法表示检索结果的核心内容及其间 的联系是非常必要的。 第三,面向查询的x m l 文本自动文摘与x m l 信息检索、自动问答等技术 既有联系又有区别,在借鉴已有技术的同时,还必需根据其自身特点研究相应的 方法。x m l 信息检索的主要任务是在订l 文档集合中找出满足特定检索条件 的x m l 元素,但人们仍然必须全面阅读所找到的每一个元素才能获取需要的信 息。而自动问答系统的主要任务则是找出符合特定问题的答案。然而,由于在开 放域上的问答系统目前尚未在技术上取得实质性突破,因此,其返回结果与用户 所需要的准确答案之间还有相当大的差距。 最后,信息处理、信息检索在国内外越来越受到重视。欧洲d e l o sn e t w o r k o fe x c e l l e n c ef o rd i g i t a ll i b r a r i e s 与i e e ec o m p u t e rs o c i e t y 于2 0 0 2 年共同启动了 i n i t i a t i v eo f e v a l u a t i o nf o rx m lr e t r i e v a l ( i n e x ) 创新活动,每年一次的i n e x 会 议吸引了众多研究机构与学者参与x m l 信息检索问题的讨论。在t r e c 及 s i g i r 等会议中,x m l 信息检索的研究也是重要的议题之一。2 0 0 1 年来,每年举 行一次的文档理解会议d u c 为自动文摘提供了一个国际化的评测平台,从评测任 务的历史来看,自动文摘与信息检索的关系越来越密切。国内,x m l 信息检索、自 2 1 绪论 动文摘及数字图书馆等方面的研究也多次得到国家8 6 3 计划和自然科学基金的支 持,而对x m l 检索结果的处理和最终的表达形式直接关系到这些技术在推广时被 用户接受的程度。 1 2 研究现状 随着互联网的发展和x m l 文本数据的日益增多,x m l 信息检索和自动文摘 技术吸引了越来越多的研究者。国际上有多个涉及x m l 信息检索的学术会议, 如s i g i r ,t r e c ,i n e x 等。国内对x m l 数据管理与检索的研究主要集中在x m l 数据的存储形式和索引机制、检索请求的分析、查询语句的执行和优化机制等方 面,很多大学和科研机构都参与到了该领域的研究中并取得了丰硕的成果,如北 京大学、人民大学、清华大学、复旦大学、中科院、东北大学、华中科技大学、 江西财经大学【卜1 2 】等。自动文摘的研究也是近年来自然语言理解的研究热点之一, 很多著名的国际会议,如a c l ,s i g i r ,t r e c ,t d t 等都将自动文摘作为会议主 题之一,文档理解会议d u c 则是专门为自动文摘研究提供的评测会议。面向查 询的x m l 文本自动文摘研究,需要确定摘要的特征选择、摘要内容的提取与组 织、摘要的表达问题,下面从特征选择、平面文本摘要模型和x m l 文本摘要模 型这三个方面分析与本课题相关的国内外研究现状。 1 2 1自动文摘的特征选择研究现状 平面文本摘要的特征选择分为两大类:基于统计的方法和基于规则的方法。 基于统计的方法如频率、t f i d f 等是通过分析原文本和大规模语料库中内容单元 的统计信息,如内容单元在文本中出现的频率,来考察文本片段的重要性。例如 a n in e n k o v a2 0 0 6 年的研究表明,原文档中出现频率越高的词项,越有可能被选择 作为摘要的内容,即该词项以更大的概率被选择作为摘要的一部分【1 3 1 。基于规则 的方法则直接利用对人工摘要中内容单元特征的观察结果,这些特征有:位置特 征( 所考察的词、短语、句、段落等在文本中的位置) 、背景特征( 标题、子标题、 文档首段或者用户查询中出现过的词或短语) 、线索词语或短语( 文档中的一些特定 的、能够体现文档中心思想所在的词语,如“总之 、“结论 等) 、句型特征( 如陈 述句更适合作为文摘句,而疑问、对话和引用类型的句子则不适宜出现在摘要中) 、 名实体特征( 人名、地名、机构名等,它们代表了更重要的信息) 、其它特征如句子 的长度等【1 4 6 1 。以上这些特征主要是针对平面文本的,尽管在x m l 文摘时也可 以参考,但这些特征中并没有考虑x m l 文本结构的特征。 在x m l 文本摘要的特征选择方面,h a s s a na l a m 等人【l 7 】在构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论