(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf_第1页
(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf_第2页
(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf_第3页
(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf_第4页
(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机系统结构专业论文)基于内容的文本分割关键技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r f i at h e s i si nc o m p u t e ra r c h i t e c t u r e s t u d y o nt e x ts e g m e n t a t i o nb a s e do i lc o n t e n t b yz h e n gy a n s u p e r v i s o r :a s s o c i a t ep r o f e s s o rh um i n g h a n n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 ml56蛐4m 48iiiiiy l 独创性声明 一 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 v y 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研冗成果,也小包括本人为获得冥他学位而便用过的材料。与我一i 刊工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示 谢意。 靴敝储鹤:仰 日 期:妒啤易目澎 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 、 半年一年口一年半口两年口 靴做储鹤:粥 签字日期:1 。y 孙6 膏2 鼢 导师签名:诩胡;岛 签字日期:m 6 参 l v , 矿k , 东北大学硕士学位论文 摘要 基于内容的文本分割关键技术 摘要 一般而言,稍长的文本往往都会涉及几个主题或同一主题的多个方面,如果能够 自动划分出文本的这种语义结构,将语义段落作为基本处理单元,则会极大的改善传 统文本处理技术以篇章作为基本处理单元的现象,对文本的分析可以从原来的篇章级 别细致到语义段落级别。文本分割技术能够将一篇文本按照语义关系自动识别为具有 独立意义的若干个语义段落,并用标记将其区分以备深层分析之用。 文本的内容是由词组成的,而词又要放到文本中去理解,词与文本之间是相互制 约的。文本为了描述同一核心主题,而频繁的出现相同或相似的词汇,这种词汇集聚 现象直观的反映了主题的相似性。人们阅读时也往往通过重复出现的词汇了解文本内 容。这里所说的词汇重复也包括词汇的语义重复。本论文通过分析文本分割领域著名 的模型来总结基于内容的文本分割模型的设计理念。 文本分割的本质是根据主题相似性线索在文本内部找到主题与主题之间的边界位 置,使得同一语义段落内部具有最大的主题相似性,而不同语义段落之间具有最小的 主题相似性。因此,一个文本分割模型要解决的最根本问题就是主题相似性度量和边 界搜索策略。本文提出了综合考虑文本相似度,区域相似度、语义段落长度、基于句 对距离的相似度加权策略等多种线索来刻画主题相似性,在此基础上选择合适的边界 搜索策略,获得性能上的优势。 本文通过研究文本分割领域著名模型,针对其存在的问题,提出自己的解决方案。 基于全局的文本相似性,用d o t p l o t t i n g 搜索策略每次分割出一个主题边界,本文提出 了m m d 模型;基于局部的区域相似性,用动态规则方法在所有决策略中搜索最优解, 本文提出了m m f 模型;基于词汇潜在的语义关系,尝试挖掘词汇间、文本间在上下 文环境中的相互关联的量化关系,从而提高文本相似度计算的质量,本文提出了d l s a 模型。 针对国际公认的文本分割合成语料不能很好的反映分割模型在自然语料上的性 能。本文通过构建真实的文本分割语料,来评测本论文所重点讨论的模型的性能优劣。 关键词:自然语言处理;文本分割; d o t p l o t t i n g ;动态规划;l s a i i 飞i 二i r 枣 二 y l - 东北大学硕士学位论文 a b s t r a c t s t u d yo nt e x ts e g m e n t a t i o nb a s e do nc o n t e n t a b s t r a c t ad o c u m e n tg e n e r a l l yc o n c e r n sm o r et h a no n es u b t o p i c i ft h es u b t o p i cs t r u c t u r eo ft h e t e x ti sa c c u r a t e l yi d e n t i f i e da n ds e g m e n t e d ,w ew i l lb ea b l et op r o c e s st h et e x tb a s e do n s e g m e n t sa n ds i g n i f i c a n t l yi m p r o v et h ep e r f o r m a n c e o ft e x tp r o c e s s i n gs y s t e m s t e x t p r o c e s s i n gs y s t e m sp r o c e s sb a s i cu n i tf r o mt h ew h o l et e x tt ot h es e g m e n t s t h es t u d yo f t e x ts e g m e n t a t i o na r i s e su n d e rs u c hb a c k g r o u n d t h ew o r d sw h i c hc o m p o s ead o c u m e n tc o n t r i b u t ei n f o r m a t i o nr e l a t e dt ot h et o p i ci na c o h e r e n tf a s h i o n l o t so ft e x ts e g m e n t a t i o nl o c a t ed o c u m e n tb o u n d a r i e sb a s e do nl e x i c a l c o h e s i o n i na d d i t i o n ,t h e r ei ss o m eu n d e r l y i n go rl a t e n ts t r u c t u r ei nw o r du s a g et h a ti s p a r t i a l l yo b s c u r e db yv a r i a b i l i t yi nw o r dc h o i c e t h i sp a p e ri sd e s i g n e dt og i v et h er e a d e ra n u n d e r s t a n d i n go ft h et e x ts e g m e n t a t i o nm o d e l t h ep u r p o s eo ft e x ts e g m e n t a t i o ni st of i n dd o c u m e n tb o u n d a r i e s t h es e g m e n t a t i o n w i t ht h es m a ll e s tw i t h i n - s e g m e n td i s t a n c ea n dt h el a r g e s tb e t w e e n - s e g m e n td i s t a n c ei st h e b e s ts e g m e n t a t i o n t h e r ea r et w oc r i t i c a lp r o b l e m si n v o l v i n ga u t o m a t i cb o u n d a r yd e t e c t i o n a n ds e g m e n t a t i o nc r i t e r i o nf u n c t i o n i no u rm o d e l ,t h es e g m e n t a t i o nc r i t e r i o nf u n c t i o n c o n s i d e r sm u l t i p l ef a c t o r ss u c ha sd o c u m e n ts i m i l a r i t y , s e g m e n ts i m i l a r i t y , s e g m e n tl e n g t h s a n dt h ee f f e c to fs e n t e n c ed i s t a n c eo nl e x i c a ls i m i l a r i t y s u i t a b l ea l g o r i t h ma r ec o n s i d e rt o f i n do p t i m a ls e g m e n t a t i o ng l o b a l l y t h ei m p r o v i n gs e g m e n t a t i o np e r f o r m a n c er e s u l tf r o ma c o m b i n a t i o no fb o u n d a r yd e t e c t i o na n ds e g m e n t a t i o nc r i t e r i o nf u n c t i o n a i m m i n ga tt h es u b s i s t e n tp r o b l e m so fs e g m e n t a t i o nm o d e l ,t h ep a p e rp u tf o r w a r d s o m ec o u n t e r m e a s u r ea n da d v i c e s o nt h e b a s i so fd o c u m e n tg o b a ll e x i c a ld e n s i t ya n d d o t p l o t t i n gp r o g r a m m i n gb o u n d a r yd e t e c t i o n ,w ep r o p o s e dm m d m o d e l o nt h eb a s i so f r e g i o n a ll e x i c a ld e n s i t ya n dd y n a m i cp r o g r a m m i n gb o u n d a r yd e t e c t i o n ,w ep r o p o s e dm m f m o d e l o nt h eb a s i so fa p p l y i n gl s ao nt h ew o r d sa n dd o t p l o t t i n gp r o g r a m m i n gb o u n d a r y d e t e c t i o n ,w ep r o p o s e dd l s am o d e li nc o m p a r i s o nw i t ht h ea l g o r i t h m sb a s e do nl e x i c a l r e p e t i t i o n i n t e r n a t i o n a lm a n u a lc o r p u sc a nn o tr e f l e c t e dt h et r u ep e r f o r m a n c ew e l l i nt h i sp a p e r , a l le x p e r i m e n t sa r eb a s e do nt h en a t u r a lc o r p u s k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ;t e x ts e g m e n t a t i o n ;d o t p l o t t i n g ;d y n a m i c p r o g r a m m i n g ;l s a i i i 弋 产 _ , ” 、 v , 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第1 章绪论1 1 1 文本分割1 1 2 研究现状2 1 2 1 基于词汇浅层信息2 1 2 2 基于词汇语义信息3 1 3 研究背景3 1 4 本文工作4 1 5 论文组织6 第2 章文本分割研究内容7 2 1 分割粒度7 2 2 相似度计算7 2 2 1 权重分配7 2 2 2 计算公式8 2 3 主题相似性评价9 2 4 边界搜索策略l o 2 5 终止条件1 1 2 6 评测方法1 2 2 6 1p k 评测度量1 2 2 6 2w i n d o w d i f f 13 2 7 评测语料13 2 7 1 合成语料13 2 7 2 自然语料l5 第3 章基于词汇密度的文本分割模型1 7 3 1d o t p l o t t i n g 模型17 3 1 1 模型分析1 7 3 1 2d o t p l o t t i n g 搜索策略19 一i v 东北大学硕士学位论文 目录 3 1 3 算法描述l9 3 2c 9 9 模型2 0 3 2 1 锐化处理技术2 0 3 2 2 分裂式聚类2 l 3 2 3 阀值终止条件2 2 3 3m m d 模型2 2 3 3 1d o t p l o t t i n g 模型问题分析2 2 3 3 2 评价函数设计2 2 3 4 实验2 3 3 4 1 对比实验2 4 3 4 2 锐化窗口性能实验2 5 3 5 小结2 6 第4 章基于动态规划的文本分割模型2 7 4 1 主题相似性线索2 7 4 1 1 区域内相似度2 7 4 1 2 区域间相似度2 8 4 1 3 文本区域长度3 0 4 1 4 重现词汇距离3 0 4 2 评价函数设计:3 1 4 2 1 长度因子3 2 4 2 2 密度因子3 2 4 3 基于动态规划的文本分割建模3 3 4 3 1 动态规划引例3 3 4 3 2 动态规划原理3 4 4 3 - 3 多维动态规戈0 3 5 4 3 4 文本分割问题3 5 4 3 5 一维动态规划算法描述3 7 4 4m m f 模型3 7 4 4 1m m fl 评价函数3 9 4 4 2m m f2 评价函数一3 9 4 4 3 二维动念规划算法描述4 0 4 5 实验4 1 4 5 1 重现实验4 l v y f v , 东北大学硕士学位论文目录 4 5 2 对比实验4 l 4 5 3 主题相似性线索有效性实验4 3 4 6d 、结4 4 第5 章基于潜在语义分析的文本分割模型4 5 5 1 潜在语义分析基本原理4 5 5 1 1l s a 基本原理4 5 5 1 2 截断的奇异值分解4 6 5 2d l s a 模型4 8 5 2 1 语义关系4 8 5 2 2 模型训练5 3 5 2 3 相似度矩阵5 4 5 3 实验5 4 5 3 1 对比实验5 4 5 3 2 空间维度性能实验5 5 5 4 ,j 、结5 6 第6 章总结5 7 6 1 研究工作总结5 7 6 2 未来工作展望5 7 参考文献5 9 致谢6 3 攻读硕士期间发表的论文6 5 一v i _ , 东北大学硕士学位论文第1 章绪论 1 1 文本分割 第1 章绪论 文本分割是指在一个书面文本或语音序列中自动识别具有独立意义的单元( 片段) 之间的边界。其分割对象可以是语音的、自然文本、或者文本数据流( 如t d t 任务) 。 本文主要研究自然文本的主题分割技术。 文本分割是文本结构分析的关键技术,其任务是将一篇文本按照语义关系自动识 别为若干个语义段落,每个语义段落表示一个单独的子主题,文本中拥有相似主题的 内容组织到一起,并用标记将其区分以备深层分析之用。文本分割的意义就在于对文 本的分析可以从原来的篇章级别细致到语义段落级别。文本分割的研究大部分属于线 性分割的范畴,即将文本内容组织成为若干个连续的的文本单元,这种文本分割方式 类似于对人们对文章进行分段的行为。 文章的结构分为形式结构和语义结构两部分。一般而言,稍长的文本往往都会涉 及几个主题或同一主题的多个方面,虽然文本本身自然段落的划分有助于文本结构的 分析,但是,一个自然段落的确定是与文章的体裁和作者的写作风格等因素有很大关 系,且自然段落并非总是用于暗示话题的改变,而常常是为了改变文章的物理结构, 以辅助人们阅读,因此,自然段落并不能代表一个独立完整的主题。过去我们对文本 的分析只能停留在当前文本的主题思想或者类别等有限的范围内。如果可以识别文本 的语义结构,将语义段落作为基本处理单元,信息处理系统的性能会大幅度提高1 2 】。 本文研究的文本分割技术就是为了解决这个问题。 作为一种基于内容理解的文本结构分析技术,文本分割在很多领域都有极为重要 的应用。在面向信息检索任务中【3 】,文本分割将直接提升检索的准确性、缩小结果的 范围。以往信息检索是以篇章为单位,结果往往是一篇篇与检索关键字相关的文本。 而这样的结果使得用户很少有耐心读完整篇文本以确定是否检索结果是其感兴趣的内 容。如果结合文本分割技术,我们将不再以文本为检索的最小单位,而是使用语义段 落作为最小的单位,这样用户在检索的时候就能更准确的获知其感兴趣内容的位置, 从而不需要通读全文,节省了时间,提高了效率。在面向问题相关的多文本摘要技术 中【4 】,如何识别同一主题下的不同侧面内容是关键问题,即如何对文本集内描述主题 不同方面的信息进行区分,并选取问题所关注的一个或多个侧面,用于生成摘要。上 述问题可以通过文本分割技术自然地得到解决。文本分割技术可以将一篇文本内论述 1 东北大学硕士学位论文 第1 章绪论 不同子主题的文本片段分割开来,也就是划分出文本内描述主题不同侧面的不同语义 段落,如果将全部文本的语义段落集合起来,进行聚类,就可以把整个文本集内关于 同一个主题侧面的文本片断聚集在一起,这样聚类后形成的每一个簇就代表了一个主 题侧面,即当前主题下的一个子主题。在聚类后生成的子主题集合的基础上,计算各 个子主题与问题的相关度,然后选择与问题相关的子主题,就是选出了用户所关注的 侧面,最后按照相关子主题的重要程度进行排序,依次从每个子主题中摘取代表性句 子,就可以形成摘要。用这种方式生成的摘要不但与问题紧密相关,而且涵盖了问题 所涉及的多个侧面,具有较高的覆盖度。另一方面,摘要也尽可能地选择了当前主题 下较为重要的信息。在面向首语消解的文本分割中【5 】【6 。,如果将指代对象限制于代词 所在的片段,则能够大大提高消解的效率。 1 2 研究现状 文本的内容是通过构成文本的词汇来表现的,因此,大部分主题分割的算法都是 基于词的重现现象,h a l l i d a y 和h a s a n 7 】的研究结果显示,相似或有关联的词汇倾向于 出现在同一主题片段内,而同一主题内部的词汇集聚的密度明显大于主题边界处的词 汇集聚的密度。文本内部的紧凑性表现在文本的内容元素能够在连续的上下文中得到 诠释。在词汇集聚理论的启发下,研究人员提出了一些文本分割方法。这里所蜕的词 的重现也包括词的变相重现,比如同义词或者具有上下位关系的词。 1 2 1 基于词汇浅层信息 同一主题的文本区域倾向于频繁的重复使用与主题相关的词汇,基于相同词汇浅 层信息的方法易于计算,避免了其他线索可能带来的误导作用,一般不需要训练语料, 且独立于领域,主要用于无监督的文本分割中。它的缺点是忽略了词汇的语义信息和 上下文环境,在处理词汇异构度较高的文本时准确率较差。人们在基于词汇重现的方 法上已经做了很多研究。 1 9 9 1 年y o u m a n s f 2 6 】提出v m p 技术,通过考虑新词汇的第一次被使用的出现位置 来猜测主题边界,作为不同子主题分割点的判断依据。1 9 9 3 年h e a r s t l 3 1 1 9 1 提出t e x t t i l i n g 算法,绘制相邻文本块的相似系数曲线,经过平滑处理,寻找“山顶”和“谷底”,算 法选择具有最大深度得分的间隙作为边界。1 9 9 4 年r e y n a r l l o l 【1 1 】提出d o t p l o t t i n g 算法, “点图( d o t p l o t ) ”中的区域密度反映了整篇文本里词汇的分布情况,密度大的区域是 语义段落,相邻密度区域的间隙就是子主题的分割点。2 0 0 0 年c h o i i l 2 1 基于d o t p l o t t i n g 框架提出了c 9 9 模型,该模型采用一种密度排序策略来评价分割点。2 0 0 1 年u t i y a m a l l 3 j 提出u 0 0 算法,根据文本片段中词的重现次数及文本中词的数量计算每种分割方式的 东北大学硕士学位论文 第l 章绪论 概率,选取概率最大的分割作为最优分割。2 0 0 3 年j i 1 4 】将文本分割问题转化为图像分 割问题,采用各向异性散射( a n i s o t r o p i cd i f f u s i o n ) 技术消除图像噪音,最后使用动态 规划方法进行分割。2 0 0 4 年f r a g k o u 1 5 1 等人利用语义段落内的词汇相似性和语义段落 的长度分布构造分割代价函数,并利用动态规划方法寻找代价最小的分割方式。 1 2 2 基于词汇语义信息 越来越多的自然文本倾向于使用不同的词汇表达同一个概念,只是通过简单的考 虑词汇浅层信息不再满足要求,这需要挖掘不同词汇在上下文环境中潜在的语义关系, 这种语义关系即可以从训练语料中统计得来,也可以借助大规模语料库资源系统的获 得有价值的语言学知识。虽然词汇语义更接近文本智能处理的本质要求,但模型的训 练会成为实时系统的性能瓶颈。 1 9 7 7 年m o r r i s 和h i r s t 1 6 1 采用的r o g e t 词典【1 7 1 知识库识别词汇的同义和集聚关系, 并利用l c r ( l e x i c a lc o h e s i o nr e l a t i o n s ) 技术建立词汇链。1 9 9 3 年k o z i m a l 2 2 1 提出基 于l c p ( l e x i c a lc o h e s i o np r o f i l e ) 的分割方法,其中采用了一个机器可读词典( 如 w o r d n e t ) 构造语义网络。1 9 9 7 年p o n t e 和c r o f t 2 5 j 利用l c a ( l o c a lc o n t e x ta n a l y s i s , 局部上下文分析) 寻找与每个句子相关的词汇和短语,依此计算所有句子间的相似度。 2 0 0 1 年c h o i 用基于潜在语义分析( l s a ) 【1 8 】【1 9 】的文本相似度计算方法代替c 9 9 的余 弦度量函数,提出c w m 分割方法,类似的工作还包括b r a n t s 2 0 1 提出的t o p s e g 模型。 2 0 0 2 年f e r r e t 2 3 】【2 4 】针对记叙文体裁问题,从大规模语料罩自动建立一个词汇共现网, 识别词对、互信息等语义联系作为计算文本相似度的特征。2 0 0 8 年a b e 2 7 1 提出,可以 从万维网( w o r l dw i d ew e b ) 中挖掘出词汇之间的语义关系,并应用在文本分割领域。 在中文文本分割方面国内的研究人员也做了许多尝试,但直接针对深入研究文本 分割关键技术的研究成果报道很少。朱靖波提出了基于多元判别分析的文本分割技术 【2 9 】,考虑了语义段落内距离、语义段落间距离,和语义段落的长度信息三个因素。石 引2 8 】提出了基于p l s a 模型的文本分割算法,用h o f m a n n 2 1 1 提出的p l s a 模型,以汉 语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句 重复的未登录词对相似值的影响。 1 3 研究背景 文本分割最初是为了文本语篇结构建模研究而提出来的,是文本结构分析与构造 的首要步骤1 2 】【3 1 ,随着网络资源电子信息的快速膨胀,面向主题的文本分割技术成为 文本智能处理领域的研究热点。 文本分割的本质就是在文本内部根据主题相关性找到主题与主题之间的分割边 3 一 东北大学硕士学位论文 第1 章绪论 界,并使得语义段落内部具有最大的主题相关性,而语义段落之间具有最小的主题相 关性。因此,文本语义段落的划分是在对文本内容的理解的基础上的,而词汇是构成 文本内容最基本的单位,若想了解文本区域的内容,最快速直接的方法就是观察文本 中频繁出现的词汇。s t o k e s 1 】指出,实验结果表明,仅用词汇重复信息,分割算法就 可以达到最佳性能,可以忽略语义关系识别等深层理解信息。h e a r s t 2 】【3 】和k a n 3 7 】也报 告了相同的结论。因此,人们逐渐将研究的重点转移到充分利用文本内部词汇分布情 况和文本片段长度等表层结构信息来进行文本分割。因此如何选择可靠而易于识别的 线索,并将其以合理的方式组合起来,用于评价文本主题的相似性,显得十分的重要。 本文通过对文本分割领域的著名模型的分析,总结一些主要问题的解决思路,并提出 自己的方案,对将来的工作十分有意义。 基于词汇分布的浅层信息对于处理词汇异构度比较低的文本时性能较好。而汜叙 文等体裁的文本中词汇的使用较为灵活,存在大量同义词,多义词现象,而且人们在 实际写文章时,往往倾向于不断地变化词汇,尽量避免词汇重复。若仍依赖于类似向 量空间模型的方法对于文本建模,则文本对词汇的语义辨别能力并不好,此时,文本 分割的质量也会受到影响。对于词汇异构度较高的文本,只有利用词汇的上下文信息 和语义信息,才有可能得到令人满意的文本分割性能。l s a 中词汇的语义与它的上下 文环境关系密切,空间压缩过程中词汇与它所在文本的其它词汇的关联被加强。因此, 本文通过分析l s a 的原理,并提出在文本分割领域中的建模方法,对考虑词汇深层次 的语义信息是十分有意义的尝试。 文本分割领域的语料的构建是十分繁琐的过程,国内外论文中,普遍采用的是 c h o i 的合成测试语料,经过对合成语料构建规则的分析,发现合成语料与自然语料相 比,仍有很大的差别,如何改善实用文本处理系统的性能,使其真正发挥作用,是文 本分割领域的重要课题。本文为了便于比较各种模型的性能,构建了中文和英文的自 然语料,本文的所有实验都基于构建的自然语料。 1 4 本文工作 目f j f ,对自然文本的主题分割主要依据词汇集聚密度的文本内容特征,同一语义 段落内的词汇由于拥有相同的上下文语义环境,而潜在的蕴涵了相似的含义,因此 词汇重现不仅包括相同词汇的重现,还指潜在的语义环境下词汇的变相重现,如文本 中普遍存在的多义词、同义词现象。为了阐述相同的主题内容,同一语义段落内的词 汇的使用倾向于频繁使用相同或相似词汇,不同语义段落的词汇会随着阐述主题的变 更而发生变化,旧的词汇消失伴随着产生新的词汇。语义段落内部词汇集聚度比较高, 相应的,语义段落之间词汇聚集度则比较低,关键是如何量化这种关系,以数值形式 确定分割位置。 4 东北大学硕士学位论文 第1 章绪论 本文通过对现有分割模型进行分析和研究,总结了文本分割任务的主要问题,分 割粒度的选择、主题相似性的度量线索、语义段落边界的搜索策略、分割的终止条件。 其中重点探讨了主题相似性的度量线索,综合考虑影响文本分割任务的多方面因素, 尝试提出新的评价函数。如,内部相似度之和,外部相似度之和、文本相似度、区域 内部词汇相似度、区域之间词汇相似度、区域相似度、语义段落的长度、基于句子距 离的相似度加权等多个因素的组合来设计评价函数,使其更能体现文本分割任务的特 点。 通过对文本分割领域经典的d o t p l o t t i n g 模型的分析,发现了d o t p l o t t i n g 模型存在 一些问题,d o t p l o t t i n g 最小化模型仅考虑了文本外部的相似度,且忽视了已确定边界 的约束作用,而d o t p l o t t i n g 最小化模型仅考虑了文本内部的相似度,本文提出了m m d 模型,有效的综合考虑了这两种相似度情况,并引入了长度因子,弥补了原始评价函 数的不足。 本文重现了文本分割领域中较为著名的基于动态规则的文本分割模型5 i ,准确地 实现了一种基于内容的全局最优的文本分割模型,是目前性能较好的分割模型。在国 际通用的英文合成测试语料上的实验结果与原始论文的水平相当。在研究中我们发现, 经典文本分割算法仅利用了文本区域内部词汇相似度较高的特性,而文本区域内部相 似度和文本区域之间相似度是两个相互依赖又相互制约的变量,需要综合考虑这两方 面信息束改善分割性能。据此,本文有针对性的提出了m m f 模型,并采用二维动态 规划来寻找全局最优解。通过从公开的科普书籍中提取出自然语料,并在自然语料上 利用该模型进行文本分割,实验结果表明,与经典算法相比,新算法取得了更好的评 价性能。 基于内容的文本分割技术的本质是对文本的理解,随着自然文本中词汇使用越来 越随意与灵活,对于经典的文本分割模型是很大的挑战。潜在语义分析技术采用数学 的方法,挖掘出文本内容词汇间、文本间的语义关系,语义相似的词对在潜在语义空 间中距离较近,这是符合实际情况的词汇向量空间。因此潜在语义分析技术能有效的 提高文本相似度的计算质量,本文提出了d l s a 模型,来简单验证。由潜在语义分析 技术获得的文本向量、词汇向量与向量空间模型获得的向量在形式上没有差别,因此 许多传统经典的文本分割模型的框架都可以用来构建基于潜在语义分析的新模型。 基于内容的文本分割模型除了考虑词汇分布及语义信息外,结合文本分割任务的 特点,语义段落的结构也有其特点可循。本文提出的m m d 与m m f 模型都引入了长 度因子来平衡密度因子的不足之外,使性能有了明显提高。 本文通过公开的科普书籍,构建文本分割领域中英两种自然语料,本文将给出所 有模型在自然语料上的真实性能。 - 5 东北大学硕士学位论文 第1 章绪论 1 5 论文组织 第一章,绪论。简要的介绍了文本分割的定义、本文的研究范围及文本分割的研 究现状。 第二章,文本分割研究内容。首先,对于基于内容的文本分割模型的研究内容进 行总结与探讨,本文余下章节将重点研究基于内容的文本分割领域经典模型展丌,针 对存在的问题,探讨解决方案。其次,引入了文本分割领域常见评价方法,阐述其基 本思想及演变过程。最后,介绍本文所有实验所构建的评测语料。 第三章,基于词汇密度的文本分割模型。d o t p l o t t i n g 模型是文本分割领域较为著 名的模型,该模型是基于全局的文本词汇集聚密度之和的最大化( 最小化) 反映文本 主题的相似性。d o t p l o t t i n g 模型将做为本文实验部分的b a s e l l i n e 系统。首先,介绍了 d o t p l o t t i n g 模型的基本思想和算法,分析了c h o i 在d o t p l o t t i n g 模型的基础上提出了有 锐化处理的c 9 9 模型的基本思想和算法。其次,针对d o t p l o t t i n g 模型的密度评价函数 存在的问题,本文提出了m m d 模型。最后给出3 种模型在自然语料上的对比实验结 果,进行分析并作出总结。 第三章,基于动态规划的文本分割模型。该模型是基于局部的区域词汇集聚的密 度作为度量主题相似性的依据,并在局部的范围内引入区域长度来约束密度因子倾向 于划分短小段落的缺陷。首先,总结了主题相似性线索,并以f r a g k o u 模型的评价函 数为例,说明如何合理的整合主题相似性线索生成有效的评价函数,在边界搜索策略 上采用了动态规划算法,研究动态规划的原理,分析如何利用动态规划算法解决文本 分割问题,其次,给出了文本m m f1 、m m f2 模型的设计理念,期望更加符合文本 分割任务的特点。最后,本文重现了f r a g k o u 经典模型的实验,并给出了3 个模型在 自然语料上的对比实验结果,进行分析并作出总结。 第五章,基于潜在语义分析的文本分割模型。l s a 模型使用强有力的充分自动 的统计方法,揭示词语问和文本问的词义联系,创立了语义或概念空间。利用l s a 技 术能有效的提高词汇在文本中的语义辨别能力。首先,详细介绍了l s a 的基本原理及 涉及的数学知识。其次,本文提出了d l s a 模型,在d o t p l o t t i n g 模型的框架下,利用 l s a 提高文本相似度计算质量。最后,给出了l s a 训练过程中参数对实验性能的影 响,以及在自然语料上的实验结果,进行分析并作出总结。 第六章,总结。对本课题所作的工作进行总结。 东北大学硕士学位论文第2 章文本分割研究内容 第2 章文本分割研究内容 许多著名的文本分割模型【l 】【3 】【9 】【1 0 】 1 2 - 1 5 j 【2 0 1 都是基于词汇重现特征来反映文本内 容,寻求任务解决途径,本文通过分析模型的构建过程,发现一些有规律的关键因素。 首先,要确定分割粒度,并使用合理的相似度计算方法来衡量分割粒度间的相似性。 其次,要选择可靠而易于识别的反映主题相似性的线索,并将多种线索以合理的方式 组合构设计评价函数,最后,针对设计的主题相似性评价函数的特点,选择有效的语 义段落边界搜索策略,并设置算法终止条件。本文所重点讨论的所有分割模型都反映 了这些基本的关键因素。 2 1 分割粒度 分割粒度是指在对文本进行文本分割时,分割方法所采用的基本处理单位,即限 定分割点位于分割粒度之间,而不会出现截断分割粒度的现象。目前的研究主要集中 于句子、自然段落、b l o c k 层次上: ( 1 ) 句子:句子长度的波动情况比较稳定,携带了相对有限而完整的语义信息,但 需要对语料进行断句的预处理。 ( 2 ) 自然段落:自然段落是种普遍的语言学结构,表示一个连贯的内容结构,自然 段落比句子含有更丰富的语义信息,但由于自然段落长度自由,携带的语义信 息量也会有很大差异。 ( 3 ) b l o c k :意在近似平均自然段落长度,多在滑动窗口方法里使用,好处在于避免 了较长词序列和较短词序列进行比较时带来的信息量差异问题。 2 2 相似度计算 相似度计算是用来度量分割粒度之间相似程度的方法,好的相似度计算方法能明 显提高理解文本内容的能力,是自然语言处理的一项基础技术。 2 2 1 权重分配 将分割粒度表示为词汇向量的时候,词汇的重复信息有不同的利用方式,可以考 虑词对的相对位置,也可以考虑词频信息等,目的是为了提高文本的向量空间质量。 较常见的权重分配方法有以下几种: 东北大学硕士学位论文 第2 章文本分割研究内容 ( 1 ) 词频:用词表中的词汇在文本区域里出现的频率作为权重,如t e x t t i l i n g l 4 1 模 型。 ( 2 ) 词距:通过文本区域里重现词汇的距离为词汇分配权重,如m m f 模型1 的相似 度计算方法。 ( 3 ) t f i d f 如果一个词汇在很多文本中出现,表明它对文本的区分作用很小,而只 在少数文本中频繁出现的词汇更能代表包含它的文本的主题。如h e a r s t l 2 】提出 的模型,然而h e a r s t 的实验结果表明,其效果不如仅使用词频方法。 ( 4 ) 点图:点图是按照文本中重现词汇的出现位置在二维空间上进行描点的图像处 理方法,若任意两个分割粒度间存在相同的词汇,则在图中对应的4 个位置描 黑。该权重弱化了分割粒度长度差异对相似度计算的影响,如d o t p l o t t i n g 1 0 1 模 型、f r a g k o u 1 5 1 模型都采用这种策略。 2 2 2 计算公式 分割粒度将以空间向量的形式表示,在讨论了常见的向量元素加权方法后,介绍 常用的相似度计算公式,有如下几种: ( 1 ) 内积相似度 假设两个向量分别表示为x = ( x ,x :,x 一 和y2 ,少2 ,y ” ,计算公式如式( 2 1 ) 所示。 l n n e r p r o d u c t ( x ,y ) = :lx y , ( 2 1 ) ( 2 ) 余弦相似度 余弦相似度是对内积相似度的一种规范,是文本相似性最常用的度量之一。计算 公式如( 2 2 ) 所示。 c o s i n e ( x , y ) = 毒萼 ( 2 2 ) :。薯2 :。”2、j 厶矧一乙,- 1 只 ( 3 ) 向量距离 向量距离是衡量两个向量相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论