




已阅读5页,还剩93页未读, 继续免费阅读
(计算机系统结构专业论文)基于全局评价的文本分割技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 摘要 本文介绍了文本分割的历史发展和现状,对当前文本分割领域的主流方法 进行了讨论,并结合文本分类任务对文本分割任务中所存在的问题及典型的解 决方案进行了介绍。因为统计模式识别已是当前文本处理领域的主要手段之 一,所以本文对统计模式识别中的一个重要概念f i s h e r 线性分析做了较详细的 研究,并采用其中的一种形式即基于欧式空间的类内类间距离方法作为评价函 数,结合使用聚类的思想设计了一套算法,应用于文本分割任务。 因为本文的方法是由文本分类中的方法改进而成,所以在用于文本分割的 任务时做了 一定的修改。尤其针对对分割间距严重偏斜的情况的处理方面,本 文尝试了炳函数惩罚方法,并最终提出了连乘概率方法对原类内类间距离进行 修正。 本文的改进方法意义在于使用了含有全局信息的评价方法。虽然本文所采 用的方法仅仅是各种含有全局信息的一种,但本文认为在文本分割中加入全局 信息将有助于改善文本的分割效果。无论是分割方式还是语义段落数目的确定 都需要有全局信息的参与。 所以本文认为在文本分割任务中有必要使用含有全 局信息的方法。 对于试验结果, 本文重复了 t e x t t i l i n g 算法在确定分割方式和语义段落数目 的试验,并在试验的改进部分里阐述了其方法的一些不足之处,对比这些不足 本文所提出的 方法有了 较明 显的性能改 善, 较 之 t e x t t i l i n g 的 方法高出 近1 0 个百 分点。同时对于语义段落数目 的确定本文的 方法也较之t e x t t i l i n g 方法有极大的 改善。 最后本文对所涉及的工作进行了总结,并对文本分割的一些环节中的方法 提出了改进的试验方案。 相信这些改进方案将有助于本文的文本分割方法进一 步提高性能。 关 键词: 文本分割, f i s h e r 线性分析, 类内 类间 距离, 聚类分析 一i 一 东北大学硕士学位论文ab s t r a c t ab s t r a c t t h i s t h e s i s i n tr o d u c e s t h e h i s t o r y , d e v e l o p m e n t , a n d s o m e p o p u l a r m e t h o d s o f t h e t e x t s e g m e n t a t i o n t e c h n i q u e . c o m p a r i n g w i t h t e x t c a t e g o r i z a t i o n , t h i s p a p e r l i s t s t h e p r o b l e m s i n t e x t s e g m e n t a t i o n a n d i n t r o d u c e s t h e i r s o l u t i o n s . s i n c e s t a t i s t ic p a tt e r n r e c o g n i t i o n m e t h o d s h a v e b e e n e m p l o y e d i n n a t u r a l l a n g u a g e p r o c e s s i n g i n r e c e n t y e a r s , t h e f is h e r d i s c r i m i n a t e p r o v i d e s a f r a m e w o r k f o r t e x t f e a t u r e s e l e c t i o n . i n n e r a n d o u t e r d i s t a n c e i s i n tr o d u c e d t o s u p p o r t t h e m e t h o d s i n t h i s p a p e r . t h e c o m b i n a t i o n o f c lu s t e r a n a l y s i s a n d f i s h e r d i s c r im i n a t e h e lp s u s f o r m t h e e v a l u a t i o n f u n c t i o n o f t h e t e x t s e g m e n t a t i o n . s i n c e t h e i n n e r a n d o u t e r d i s t a n c e i s d e d u c e d f r o m t h e t e x t c a t e g o r i z a t i o n m e t h - o d s , s o m e f o r m u l a t i o n w i l l b e c o r r e c t e d i n t e x t s e g m e n t a t i o n . e s p e c i a l l y i n b i a s s e g - m e n t a t i o n s it u a t i o n , th i s p a p e r t ry t o c o r r e c t t h e e r r o r b y e n tr o p y f u n c t i o n . a t l a s t , w e u s e p r o d u c t p r o b a b i l i t y a s a p u n i s h m e n t f u n c t i o n i n t e x t s e g m e n t a t i o n . t h e s i g n i fi c a n c e i n t h i s p a p e r i s e m p l o y i n g o n e o f f u n c t i o n s , w h i c h h a v e g l o b a l e v a l u a t io n . n o t o n l y 让s e g m e n t a t i o n b u t a l s o i n p a r a g r a p h n u m b e r e s t i m a t i n g a r e i n n e e d o f g l o b a l i n f o r m a t i o n . t h e n , w e c a n g e t a c o n c l u s i o n t h a t t h e g l o b a l i n f o r m a ti o n i s n e c e s s a ry f o r t e x t s e g m e n t a t i o n . t o c o m p a r e w i t h t h e r e s u l t s o f t h e t e x t t i l i n g , w e d r a w a l l r e s u l t c u r v e s w i t h t h e t e x t t i l in g c u r v e t o g e t h e r i n fi g u r e s . e s p e c i a l l y a ft e r t h e a d j u s t i n g o f t h e p r o b a b i l i t y p r o d u c t f u n c t i o n , t h e 凡 v a lu e o f t h i s p a p e r m e t h o d g e t s a s u b s t a n t i a l p r o m o t i o n . a t th e s a m e t i m e , t h e a c c u r a t e n e s s t h e p a r a g r a p h n u m b e r a l s o g e t s a p r o m o t i o n . f i n a l l y , t h i s t h e s i s s u m m a r i z e s a l l w o r k , a n d p r o v i d e s s o m e i m p r o v e m e n t p l a n s o f t e x t s e g m e n t a t i o n . t h e m e t h o d s i n t h i s t h e s i s w i l l b e d e v e l o p e d w i t h t h e s e i m p r o v e - m e n t s k e y wo r d s : t e x t s e g m e n t a t i o n , f i s h e r l i n e r d i s c r im i n a n t , i n n e r a n d o u t e r d i s t a n c e , c l u s t e r i n g a n a l y s i s i i 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发 表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名: 日期: 3 ag4 潇 e 治 。i 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用 学位论文的规定:即学校有权保留并向国家有关部门或机构送交论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可 以将学位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。 ) 学 位 论 文 作 者 签 名 : 愧拭指 签字日 期:夕 户心j 举 i l 导师签名 签字日期 耸 . a !、 两。 、 一 中 东 j 匕 大学 硕士学 位论文第一章 文本分割简介 第一章文本分割简介 1 . 1文本分割 文本分割,主要是对一篇文本中的各个段落,按照语义关系进行分割,将 各个自 然段落进行归并,使得文章中所有大意属于一个子主题的段落归并于一 个语义段落,这样把一篇文本分割成若干个语义段落。这种文本分割的方式很 类似于小学语文教学中对文章分段的方式。 1 . 2文本分割的用途及意义 文本分割的意义在于我们对文本的分析可以从原来的文本级别细致到语义 段落级别。过去我们对文本的分析只能停留在当前文本的主题思想或者类别等 有限的范围内。如果想进一步分析文本就只能以自 然段落为单位,但这样的自 然段落往往不能完整的表达一个子主题,所以很难对文本的结构做出分析。 我们知道一旦文本的结构能够正确的被分析出来,则文本处理的很多任务 可以通过结构分析的结果完成或提高。例如:文本的自 动摘要就是一个典型的 例子,对于摘要的对象,我们完全可以根据文本的结构分析出主题的位置,修 饰的成分,或者结论性语句。这样在这些信息的基础上进行摘要无疑将大大的 提升结果的准确程度。 文本分割的用途除了上文提及自 动文本摘要外还有很多,但这些用途多数 都是建立在文本理解的基础之上的。而较为著名的应用应当是问答系统。因为 问答系统是要计算机模拟人对用户的提问做出回答,整个过程与图灵试验极其 相似,所以要求对文本的理解程度要求较高。如果能有一个很好的文本结构分 析系统,则问答系统就能获得一个完备的文本分析结果。而这样的结果将直接 提升问 答系统的性能。即使是文本分类这样以 篇章为单位的处理任务,如果能 够获得文本的结构信息也可以更加准确的判别文本的类别属性,而不会受到文 本中次要内容的干扰。 尤其是在信息检索任务中,文本分割将直接提升检索的准确性缩小结果的 范围。以往信息检索是以篇章为单位,结果往往是一篇篇与检索关键字相关的 文档。而这样的结果使得用户很少有耐心读完整个文档以确定是否检索结果是 一 1 一 东 j 匕 大学 硕士学 位论文第一章 文本分割简介 第一章文本分割简介 1 . 1文本分割 文本分割,主要是对一篇文本中的各个段落,按照语义关系进行分割,将 各个自 然段落进行归并,使得文章中所有大意属于一个子主题的段落归并于一 个语义段落,这样把一篇文本分割成若干个语义段落。这种文本分割的方式很 类似于小学语文教学中对文章分段的方式。 1 . 2文本分割的用途及意义 文本分割的意义在于我们对文本的分析可以从原来的文本级别细致到语义 段落级别。过去我们对文本的分析只能停留在当前文本的主题思想或者类别等 有限的范围内。如果想进一步分析文本就只能以自 然段落为单位,但这样的自 然段落往往不能完整的表达一个子主题,所以很难对文本的结构做出分析。 我们知道一旦文本的结构能够正确的被分析出来,则文本处理的很多任务 可以通过结构分析的结果完成或提高。例如:文本的自 动摘要就是一个典型的 例子,对于摘要的对象,我们完全可以根据文本的结构分析出主题的位置,修 饰的成分,或者结论性语句。这样在这些信息的基础上进行摘要无疑将大大的 提升结果的准确程度。 文本分割的用途除了上文提及自 动文本摘要外还有很多,但这些用途多数 都是建立在文本理解的基础之上的。而较为著名的应用应当是问答系统。因为 问答系统是要计算机模拟人对用户的提问做出回答,整个过程与图灵试验极其 相似,所以要求对文本的理解程度要求较高。如果能有一个很好的文本结构分 析系统,则问答系统就能获得一个完备的文本分析结果。而这样的结果将直接 提升问 答系统的性能。即使是文本分类这样以 篇章为单位的处理任务,如果能 够获得文本的结构信息也可以更加准确的判别文本的类别属性,而不会受到文 本中次要内容的干扰。 尤其是在信息检索任务中,文本分割将直接提升检索的准确性缩小结果的 范围。以往信息检索是以篇章为单位,结果往往是一篇篇与检索关键字相关的 文档。而这样的结果使得用户很少有耐心读完整个文档以确定是否检索结果是 一 1 一 东北大学硕士学位论文第一章文本分割简介 其感兴趣的内容。如果结合文本分割技术,我们将不在以文档为检索的最小单 位,而是使用语义段落作为最小的单位,这样用户在检索的时候就能更准确的 获知其感兴趣的内 容的位置,从而不需要通读全文,节省了时间提高了效率。 因为当代语言处理已 经要求越来越高,所以基于内容理解的技术已经得到 了广泛的重视。而文本分割作为其中重要的组成部分,其用途将更加广泛。 由 此看来,文本结果的获得将是文本处理领域一个革命性的飞跃。而作为 这个飞跃的前提就是我们能够将相似的段落组织到一起,并用标记将其区分以 备深层分析之用。而如何能将语义相似的段落组织到一起,就是本文所要讨论 的文本分割的主要任务。所以 文本分割作为文本处理的子任务对语言理解和处 理是有着重要的意义的。 1 . 3文本分割所涉及的技术 文本分割的任务隶属于文本处理范畴,所以对于文本处理的典型步骤文本 分割都是必不可少的。首先对于文本要进行特征提取特征选择,然后进行降维 处理,由此能够得到一组特征向量用以表示一段文本。 因为文本分割是以自 然段落作为基本的处理单位,所以每一段文本就相当 于文本分类中的一篇文本,而整个文本相当于分类中的语料库。对于文木分 割,一篇文本中的特征往往是十分有限的,在此之上如使用常规的特征提取技 术无疑会因为统计信息的不充分影响效果。这样的问 题在文本处理中称为数据 稀疏。所以 特征提取也是文本分割的一个研究课题。 分类中已 有的 算法是较为成熟的,如: b a y e s . k n n . s v m 等。 如何将这 些技术应用于文本分割也是当前文本分割领域研究的热点。 因为文本分割中以 段落为单位,所以为解决数据稀疏问题,也有人尝试着 使用基于规则的方法处理此类问 题。因为本文重点讨论统计方法在文本分割上 的应用,所以对于规则的方法不在文本的讨论范畴内。 聚类方法一直是统计学中 较为重要的一个部分。文本分割中对于所要分割 的文本的语义段落数目 和每一个语义段落的主题在分割前是没有严格的定义 的,所以我们更多的是由 算法决定分割的形式。 尤其是文本分割多数是没有训 练语料的,所以这样的任务类型理论上更加贴近于聚类任务。因此对于聚类的 研究对于本文所提出的方法有着至关重要的作用。 一2_ 东北大学硕士学位论文第一章文本分割简介 其感兴趣的内容。如果结合文本分割技术,我们将不在以文档为检索的最小单 位,而是使用语义段落作为最小的单位,这样用户在检索的时候就能更准确的 获知其感兴趣的内 容的位置,从而不需要通读全文,节省了时间提高了效率。 因为当代语言处理已 经要求越来越高,所以基于内容理解的技术已经得到 了广泛的重视。而文本分割作为其中重要的组成部分,其用途将更加广泛。 由 此看来,文本结果的获得将是文本处理领域一个革命性的飞跃。而作为 这个飞跃的前提就是我们能够将相似的段落组织到一起,并用标记将其区分以 备深层分析之用。而如何能将语义相似的段落组织到一起,就是本文所要讨论 的文本分割的主要任务。所以 文本分割作为文本处理的子任务对语言理解和处 理是有着重要的意义的。 1 . 3文本分割所涉及的技术 文本分割的任务隶属于文本处理范畴,所以对于文本处理的典型步骤文本 分割都是必不可少的。首先对于文本要进行特征提取特征选择,然后进行降维 处理,由此能够得到一组特征向量用以表示一段文本。 因为文本分割是以自 然段落作为基本的处理单位,所以每一段文本就相当 于文本分类中的一篇文本,而整个文本相当于分类中的语料库。对于文木分 割,一篇文本中的特征往往是十分有限的,在此之上如使用常规的特征提取技 术无疑会因为统计信息的不充分影响效果。这样的问 题在文本处理中称为数据 稀疏。所以 特征提取也是文本分割的一个研究课题。 分类中已 有的 算法是较为成熟的,如: b a y e s . k n n . s v m 等。 如何将这 些技术应用于文本分割也是当前文本分割领域研究的热点。 因为文本分割中以 段落为单位,所以为解决数据稀疏问题,也有人尝试着 使用基于规则的方法处理此类问 题。因为本文重点讨论统计方法在文本分割上 的应用,所以对于规则的方法不在文本的讨论范畴内。 聚类方法一直是统计学中 较为重要的一个部分。文本分割中对于所要分割 的文本的语义段落数目 和每一个语义段落的主题在分割前是没有严格的定义 的,所以我们更多的是由 算法决定分割的形式。 尤其是文本分割多数是没有训 练语料的,所以这样的任务类型理论上更加贴近于聚类任务。因此对于聚类的 研究对于本文所提出的方法有着至关重要的作用。 一2_ 东北大学硕士学位论文第一章文本分割简介 1 .4文本分割与文本分类的差异 在自 然语言处理领域, 模式识别尤其是统计模式识别的 方法被越来越多的 使用,这就导致了在研究中很多实际文本处理问 题被转换为模式识别问题,进 而我们转向研究模式识别的方法,并将其应用于自 然语言领域。文本分类在自 然语言领域是较早采用统计模式识别方法处理的问题, 所以其方法较为完善和 系统。相对文本分类文本分割就显得较为新颖,其具有一定与文本分类的共 性,但同时也有自身的个性。这就告诉我们可以借鉴文本分类的成型技术用于 分割,但如果考虑分割的个性将无疑有助于提升试验效果。所以在此我们研究 二者的区别和共性,以期对问题有一个更完善的认识。将文本中的语义段落对 应于文本分类中的一个类别,这样这两个任务就有了很多共同点了。但在文本 分类中,各个文本是作为对等的个体看待的,一个类别中有若干个这样的文本 组成。对应于文本分割,一个语义段落由若干个自 然段段落组成,但我们不能 将自然段落与一个分类中的文本对应,因为在一篇文本中,自 然段落的长度差 异比较大,其包含的信息量也当然也有较大的差异。如果将一个仅一句一话的段 落切分错误,所带来的影响或者损失不会太大,而如果是将一个较长的文本a 分错误,则损失应该远远大于较短的段落被切分错。这样我们希望在文本分割 中找到一种方法,能够很好的携带或者表征这种段落长度的信息, 另一方面,我们在做文本分割的时候,是可以将文本看成一个数据流,即 段落与段落之间或多或少的存在着一些联系。这种联系更具体的说应该是一种 顺序关系,即相互邻接的段落之间的关系要强于不邻接的段落。而且我们做如 下假设,不邻接的段落间的关系较弱以至于可以忽略不计。而在文本分类中即 使是同属于一类的文本我们也不能说其含有这样的次序关系。所以在文本分割 中适当的使用这种次序关系将会给任务的处理带来一定的便利条件。 1 . 5文本的表示 通常模式识别问题都会将被识别的对象的 特征进行提取、形成向量,并用 这样的一个向 量代表一个具体的待识别的样本。 这样做的目 的更确切的说是与 抽象和度量相关的,具体理论请参考 “ 丑小鸭”定理。这个定理给出了确切的 模式识别过程中进行特征抽取的理论依据。 作为被识别的对象,我们这里的文本也是需要进行特征抽取和文本表示 一 3一 东北大学硕士学位论文第一章文本分割简介 1 .4文本分割与文本分类的差异 在自 然语言处理领域, 模式识别尤其是统计模式识别的 方法被越来越多的 使用,这就导致了在研究中很多实际文本处理问 题被转换为模式识别问题,进 而我们转向研究模式识别的方法,并将其应用于自 然语言领域。文本分类在自 然语言领域是较早采用统计模式识别方法处理的问题, 所以其方法较为完善和 系统。相对文本分类文本分割就显得较为新颖,其具有一定与文本分类的共 性,但同时也有自身的个性。这就告诉我们可以借鉴文本分类的成型技术用于 分割,但如果考虑分割的个性将无疑有助于提升试验效果。所以在此我们研究 二者的区别和共性,以期对问题有一个更完善的认识。将文本中的语义段落对 应于文本分类中的一个类别,这样这两个任务就有了很多共同点了。但在文本 分类中,各个文本是作为对等的个体看待的,一个类别中有若干个这样的文本 组成。对应于文本分割,一个语义段落由若干个自 然段段落组成,但我们不能 将自然段落与一个分类中的文本对应,因为在一篇文本中,自 然段落的长度差 异比较大,其包含的信息量也当然也有较大的差异。如果将一个仅一句一话的段 落切分错误,所带来的影响或者损失不会太大,而如果是将一个较长的文本a 分错误,则损失应该远远大于较短的段落被切分错。这样我们希望在文本分割 中找到一种方法,能够很好的携带或者表征这种段落长度的信息, 另一方面,我们在做文本分割的时候,是可以将文本看成一个数据流,即 段落与段落之间或多或少的存在着一些联系。这种联系更具体的说应该是一种 顺序关系,即相互邻接的段落之间的关系要强于不邻接的段落。而且我们做如 下假设,不邻接的段落间的关系较弱以至于可以忽略不计。而在文本分类中即 使是同属于一类的文本我们也不能说其含有这样的次序关系。所以在文本分割 中适当的使用这种次序关系将会给任务的处理带来一定的便利条件。 1 . 5文本的表示 通常模式识别问题都会将被识别的对象的 特征进行提取、形成向量,并用 这样的一个向 量代表一个具体的待识别的样本。 这样做的目 的更确切的说是与 抽象和度量相关的,具体理论请参考 “ 丑小鸭”定理。这个定理给出了确切的 模式识别过程中进行特征抽取的理论依据。 作为被识别的对象,我们这里的文本也是需要进行特征抽取和文本表示 一 3一 东北大学硕士学位论文第一章 文本分割简介 的。像文本分类一样,维护一个特征的列表, 然后根据特征列表的顺序用出现 频次代表一个特征在特定文本中的出现次数。根据概率的频率极限的定义,我 们可以用这样的频次向量进行归一化之后形成一个特征的分布,用它就可以进 行后面的识别过程了。 表 1 . t b l 征0 5 1 文本特征表示示意表 1 . 1 t e x t r e p r e s e n t a ti o n 20-111 1 0 1 52 5 3 0 112一 识别 顺序 极限 主题 如表( 1 . 1 ) 中所示,最左一列为特定的特征列表,顺次向 右的各列为对应文 本在特征抽取之后的特征表示形式。这里所讨论的文本表示形式是用于一般分 类过程的。因为如此表示文本对分类而言足可以体现不同文本间的差异程度, 所以 传统的文本分类过程采用了这样的表示形式。 在文本分割初期也有人使用 这样的表示形式,但很快就发现这样的方式对于文本分割存在着冗余的信息, 并会对问题的处理带来麻烦,因此有人提出了改进的表示方法,在后面的介绍 中我们将一步步讨论并引出正确的表示方式。 1 . 6文本分割的主要问题 文本分割中存在着一些文本分类任务不曾遇到的问题,此处将其列写出 来,并加以分析希望通过分析能够对后文的描述做一个铺垫,使其能够更好的 做出对比。 1 .6 . 1段落长短问题 在一篇普通的文本中,一般作者是会根据自己行文的需要选择段落的长短 的。但在文本分类中,我们常将各个待标记的文本看成对等的个体,这就意味 着对每一个文本赋予同样的权重,而标记结果生成时, 如果存在标记错误的文 本也是根据他们的数量计算错误率,而不着重考虑某个文本的长度。但在文本 分割中情况就不太相同了,当一篇较长的段落被错分的时候,显然不能与一个 较短的 段落被错分同样对待, 较长的段落在分割中应该占 有更高的权重,而且 当这种段落被错分的时候应该给更高的惩罚,所以如何平衡长短段落之间的关 一4一 东北大学硕士学位论文第一章 文本分割简介 的。像文本分类一样,维护一个特征的列表, 然后根据特征列表的顺序用出现 频次代表一个特征在特定文本中的出现次数。根据概率的频率极限的定义,我 们可以用这样的频次向量进行归一化之后形成一个特征的分布,用它就可以进 行后面的识别过程了。 表 1 . t b l 征0 5 1 文本特征表示示意表 1 . 1 t e x t r e p r e s e n t a ti o n 20-111 1 0 1 52 5 3 0 112一 识别 顺序 极限 主题 如表( 1 . 1 ) 中所示,最左一列为特定的特征列表,顺次向 右的各列为对应文 本在特征抽取之后的特征表示形式。这里所讨论的文本表示形式是用于一般分 类过程的。因为如此表示文本对分类而言足可以体现不同文本间的差异程度, 所以 传统的文本分类过程采用了这样的表示形式。 在文本分割初期也有人使用 这样的表示形式,但很快就发现这样的方式对于文本分割存在着冗余的信息, 并会对问题的处理带来麻烦,因此有人提出了改进的表示方法,在后面的介绍 中我们将一步步讨论并引出正确的表示方式。 1 . 6文本分割的主要问题 文本分割中存在着一些文本分类任务不曾遇到的问题,此处将其列写出 来,并加以分析希望通过分析能够对后文的描述做一个铺垫,使其能够更好的 做出对比。 1 .6 . 1段落长短问题 在一篇普通的文本中,一般作者是会根据自己行文的需要选择段落的长短 的。但在文本分类中,我们常将各个待标记的文本看成对等的个体,这就意味 着对每一个文本赋予同样的权重,而标记结果生成时, 如果存在标记错误的文 本也是根据他们的数量计算错误率,而不着重考虑某个文本的长度。但在文本 分割中情况就不太相同了,当一篇较长的段落被错分的时候,显然不能与一个 较短的 段落被错分同样对待, 较长的段落在分割中应该占 有更高的权重,而且 当这种段落被错分的时候应该给更高的惩罚,所以如何平衡长短段落之间的关 一4一 东北大学硕士学位论文第一章 文本分割简介 的。像文本分类一样,维护一个特征的列表, 然后根据特征列表的顺序用出现 频次代表一个特征在特定文本中的出现次数。根据概率的频率极限的定义,我 们可以用这样的频次向量进行归一化之后形成一个特征的分布,用它就可以进 行后面的识别过程了。 表 1 . t b l 征0 5 1 文本特征表示示意表 1 . 1 t e x t r e p r e s e n t a ti o n 20-111 1 0 1 52 5 3 0 112一 识别 顺序 极限 主题 如表( 1 . 1 ) 中所示,最左一列为特定的特征列表,顺次向 右的各列为对应文 本在特征抽取之后的特征表示形式。这里所讨论的文本表示形式是用于一般分 类过程的。因为如此表示文本对分类而言足可以体现不同文本间的差异程度, 所以 传统的文本分类过程采用了这样的表示形式。 在文本分割初期也有人使用 这样的表示形式,但很快就发现这样的方式对于文本分割存在着冗余的信息, 并会对问题的处理带来麻烦,因此有人提出了改进的表示方法,在后面的介绍 中我们将一步步讨论并引出正确的表示方式。 1 . 6文本分割的主要问题 文本分割中存在着一些文本分类任务不曾遇到的问题,此处将其列写出 来,并加以分析希望通过分析能够对后文的描述做一个铺垫,使其能够更好的 做出对比。 1 .6 . 1段落长短问题 在一篇普通的文本中,一般作者是会根据自己行文的需要选择段落的长短 的。但在文本分类中,我们常将各个待标记的文本看成对等的个体,这就意味 着对每一个文本赋予同样的权重,而标记结果生成时, 如果存在标记错误的文 本也是根据他们的数量计算错误率,而不着重考虑某个文本的长度。但在文本 分割中情况就不太相同了,当一篇较长的段落被错分的时候,显然不能与一个 较短的 段落被错分同样对待, 较长的段落在分割中应该占 有更高的权重,而且 当这种段落被错分的时候应该给更高的惩罚,所以如何平衡长短段落之间的关 一4一 东 北大学硕士学位论文第一章文本分割简介 系也是文本分割的重要问题。 目 前比较流行的做法是采用将一个自然段落进行细分,在自然段落中设 置一个长度,将自 然段落中的词或者f e a t u r e 按照这个长度切分成若干个标记序 列,每一个标记序列是对等的对象,当一个自 然段落较长的时候, 标记序列的 数目 会比较多,反之标记序列会较少。 这样的标记序列具有表征类别大小和相 互对等的 特性,这样标记序列就可以 和分类中的一篇文本相对应,对于标记序 列较多的段落,其在文本分割中自 然占 有更重要的位置。 1 . 6 . 2体裁问题 文本一般含有多种体裁,对于不同的体裁,其写作方式也不固定、不统 一。这就给文本分割带来了一定的难度。为了更好的分析文本,我们将文本分 割的对象限制在一个较小的范围内,这样我们所涉及到的文本就会有一种比较 一致的格式,在试验中我们一般以记叙文、说明文、议论文为主要的刘象体 裁,这样的文章一般有主题明确、段落清晰、结构严谨等特点,而且在实际生 活中这些文本也是最主要的处理对象,所以选择这些文本有一定的代表性和实 用性。而且在这些题材中,我们习惯使用的词汇也基木一致,所以我们可以这 样认为,在上述的体裁的文本中词汇的分布基本一致,这也是我们选用这些题 材的原因。 1 . 6 . 3子主题跳转问题 一篇文章往往由一个核心主题和一些为核心主题服务的子主体组成,核心 主体确定了这篇文章的讨论范围和文章架构。在核心主体的荃础上,作者会根 据其所要讨论题目的具休情况选用例证、引用、对比等具体手法以产生相应的 子主题。但在文本分割中,这种子主题的跳转往往不具有客观的评价标准。往 往在两个相邻的子主题之间既存在着相似性,也存在着区别性。应根据区别程 度的大小将这两个相邻的段落划分开,但这其中的闽值很难确定。除此之外, 相似度的计算也是一个决定切分位置的决定性因素。不同的相似度计算方法必 然会产生不同的切分结果,究竟哪种切分或者说那种相似度计算方法更适合文 本分割? 一种统一的相似度计算方法能否适用于所有文本?这些都是有待研究 的问题,也正是文本分割所要处理的最主要的问题川 。 一5一 东 北大学硕士学位论文第一章文本分割简介 系也是文本分割的重要问题。 目 前比较流行的做法是采用将一个自然段落进行细分,在自然段落中设 置一个长度,将自 然段落中的词或者f e a t u r e 按照这个长度切分成若干个标记序 列,每一个标记序列是对等的对象,当一个自 然段落较长的时候, 标记序列的 数目 会比较多,反之标记序列会较少。 这样的标记序列具有表征类别大小和相 互对等的 特性,这样标记序列就可以 和分类中的一篇文本相对应,对于标记序 列较多的段落,其在文本分割中自 然占 有更重要的位置。 1 . 6 . 2体裁问题 文本一般含有多种体裁,对于不同的体裁,其写作方式也不固定、不统 一。这就给文本分割带来了一定的难度。为了更好的分析文本,我们将文本分 割的对象限制在一个较小的范围内,这样我们所涉及到的文本就会有一种比较 一致的格式,在试验中我们一般以记叙文、说明文、议论文为主要的刘象体 裁,这样的文章一般有主题明确、段落清晰、结构严谨等特点,而且在实际生 活中这些文本也是最主要的处理对象,所以选择这些文本有一定的代表性和实 用性。而且在这些题材中,我们习惯使用的词汇也基木一致,所以我们可以这 样认为,在上述的体裁的文本中词汇的分布基本一致,这也是我们选用这些题 材的原因。 1 . 6 . 3子主题跳转问题 一篇文章往往由一个核心主题和一些为核心主题服务的子主体组成,核心 主体确定了这篇文章的讨论范围和文章架构。在核心主体的荃础上,作者会根 据其所要讨论题目的具休情况选用例证、引用、对比等具体手法以产生相应的 子主题。但在文本分割中,这种子主题的跳转往往不具有客观的评价标准。往 往在两个相邻的子主题之间既存在着相似性,也存在着区别性。应根据区别程 度的大小将这两个相邻的段落划分开,但这其中的闽值很难确定。除此之外, 相似度的计算也是一个决定切分位置的决定性因素。不同的相似度计算方法必 然会产生不同的切分结果,究竟哪种切分或者说那种相似度计算方法更适合文 本分割? 一种统一的相似度计算方法能否适用于所有文本?这些都是有待研究 的问题,也正是文本分割所要处理的最主要的问题川 。 一5一 东北大学硕士学位论文第一章文本分割简介 1 . 7文本分割的研究现状及发展 文本分割目 前尚不如分类的研究更为普遍,尤其是中文的文本分割尚处 在起步阶段,因此对于中文的文本分割中的技术细节可借鉴的文章较少。 国际上文本分割在9 0 年代初期己经有较为著名的文章发表,且取得了一定的 研究成果和完成了一批初见成效的 试验系统。 其中 著名 t e x t t i l i n g 方法就是那 时h e a r s t 在9 3 的一篇文章中提出的。自 h e a r s t 之后很多人又将其他的模型引入文 本分割,如:指数模型最大墒模型。 作为文本处理的一个任务,如何将现有的分类模型和统计模型应用于文本 分割以成为国际上研究的趋势。利用文本分割领域特有的信息和限制,尤其是 小样本理论中统计学习的一些成熟定理可以很大程度上解决或者解释文本分割 中的 现象。为文本分割领域的发展提供了 坚实的理论基础。 1 . 8文本分割的相关工作 1 . 8 . 1 t e x t t il in g 方法 在文本分割领域h e a r s t 应该是一个较为著名的人物。他在9 4 年提出 的 t e x t t i lin g 方法 z 3 1是较早的 将统计技术 应用于自 动文本分割的方法。 后续 研究文本分割的学者常引用他的 试验作为对比。 而且t e x t t i l i n g 方法算法简单、 易于实现,且具有一定的效果,对当时的文本分割研究作出了重要的贡献。 因为本文试验的需要, 刘于 t e x tt i l in g 方法的 介绍将放在试验一章, 此处就 不在重复。 1 . 8 .2动态规划方法 因为对于文本分割我们需要遍历所有可能的分割方式寻找最优解,所以这 样的时间复杂度是相当高的。如果我们能够将分割看成是一个序列,每一个分 割都与其前面的分割有一定的关系,则分割的时候就可以 运用动态规划的方法 进行处理。 动态规划是优化中经典的方法,其方法的优点在于可以将指数级别的复杂 度问题降低成线性级别的复杂度问题。而且如果一个问题可以 被归纳成动态规 划问题,则算法求得的极优解一定是最优解。有了这样的优点,在处理文本分 一6_ 东北大学硕士学位论文第一章文本分割简介 1 . 7文本分割的研究现状及发展 文本分割目 前尚不如分类的研究更为普遍,尤其是中文的文本分割尚处 在起步阶段,因此对于中文的文本分割中的技术细节可借鉴的文章较少。 国际上文本分割在9 0 年代初期己经有较为著名的文章发表,且取得了一定的 研究成果和完成了一批初见成效的 试验系统。 其中 著名 t e x t t i l i n g 方法就是那 时h e a r s t 在9 3 的一篇文章中提出的。自 h e a r s t 之后很多人又将其他的模型引入文 本分割,如:指数模型最大墒模型。 作为文本处理的一个任务,如何将现有的分类模型和统计模型应用于文本 分割以成为国际上研究的趋势。利用文本分割领域特有的信息和限制,尤其是 小样本理论中统计学习的一些成熟定理可以很大程度上解决或者解释文本分割 中的 现象。为文本分割领域的发展提供了 坚实的理论基础。 1 . 8文本分割的相关工作 1 . 8 . 1 t e x t t il in g 方法 在文本分割领域h e a r s t 应该是一个较为著名的人物。他在9 4 年提出 的 t e x t t i lin g 方法 z 3 1是较早的 将统计技术 应用于自 动文本分割的方法。 后续 研究文本分割的学者常引用他的 试验作为对比。 而且t e x t t i l i n g 方法算法简单、 易于实现,且具有一定的效果,对当时的文本分割研究作出了重要的贡献。 因为本文试验的需要, 刘于 t e x tt i l in g 方法的 介绍将放在试验一章, 此处就 不在重复。 1 . 8 .2动态规划方法 因为对于文本分割我们需要遍历所有可能的分割方式寻找最优解,所以这 样的时间复杂度是相当高的。如果我们能够将分割看成是一个序列,每一个分 割都与其前面的分割有一定的关系,则分割的时候就可以 运用动态规划的方法 进行处理。 动态规划是优化中经典的方法,其方法的优点在于可以将指数级别的复杂 度问题降低成线性级别的复杂度问题。而且如果一个问题可以 被归纳成动态规 划问题,则算法求得的极优解一定是最优解。有了这样的优点,在处理文本分 一6_ 东北大学硕士学位论文第一章 文本分割简介 割的时候很多问题在这样的方法下得到了解决a , 5 1 1 . 8 . 3指数模型 指数模型常被统计中用以描述寿命,我们周围的很多事物都是可以计算寿 命的,并用指数模型描述之。对于文本分割,当我们把每一个语义段落的长度 看成一种寿命时,这时我们就可以用指数模型对其进行描述。而指数模型中唯 一要确定的就时一个参数人 ,在获得一组统计样本之后,我们就能根据样本所提 供的信息确定对应于当前指数模型的参数。 但对于文本分割而言,不同类型的文本对应于不同的参数取值,如何确定 这样的参数在这篇文章里给出了一种方法,使得我们使用指数模型时有了一定 的参考b , 7 1 1 . 8 . 4在中文中的文本分割 在中文中也有人尝试着在中文演讲稿中作文木分割。其主要使用的是图论 的思想,即将一篇文本映射成一张图的形式,在图的各个节点之间存在着一定 的转换关系。其中心思想是如何利用图的结构和这种转换关系确定分割。 当然对于图中关系较弱的边是可以被切断的,然后通过切断边将图分成若 干个相互独立的簇。每一个独立的簇可以被看成一个语义段落。这样就可以完 成文本分割的任务了g . 9 1 . 8 . 5隐马尔科夫模型 ( h i d d e n ma r k o v mo d e l , h mm)方法 将文本的段落之间的关系映射成一个标记序列,而h mm方法可以对标记序 列的分割有较好的效果。因为h n i m方法中的状态转移概率和发生概率是需要在 语料中统计得到的,所以对于这样的方法也是需要一定量的训练语料作为支持 的1 1 0 , 川。 对于h mm模型而言,近些年已经提出了一种模型称为条件随机场 对h m m进行改进。其效果在很多文本处理上超越了 h m m模型的性能。对 于条件随机场我们可以使用h m m的抽象文本格式,然后判断分割将得到由 于h mm的分割结果。 一 7一 东北大学硕士学位论文第一章 文本分割简介 割的时候很多问题在这样的方法下得到了解决a , 5 1 1 . 8 . 3指数模型 指数模型常被统计中用以描述寿命,我们周围的很多事物都是可以计算寿 命的,并用指数模型描述之。对于文本分割,当我们把每一个语义段落的长度 看成一种寿命时,这时我们就可以用指数模型对其进行描述。而指数模型中唯 一要确定的就时一个参数人 ,在获得一组统计样本之后,我们就能根据样本所提 供的信息确定对应于当前指数模型的参数。 但对于文本分割而言,不同类型的文本对应于不同的参数取值,如何确定 这样的参数在这篇文章里给出了一种方法,使得我们使用指数模型时有了一定 的参考b , 7 1 1 . 8 . 4在中文中的文本分割 在中文中也有人尝试着在中文演讲稿中作文木分割。其主要使用的是图论 的思想,即将一篇文本映射成一张图的形式,在图的各个节点之间存在着一定 的转换关系。其中心思想是如何利用图的结构和这种转换关系确定分割。 当然对于图中关系较弱的边是可以被切断的,然后通过切断边将图分成若 干个相互独立的簇。每一个独立的簇可以被看成一个语义段落。这样就可以完 成文本分割的任务了g . 9 1 . 8 . 5隐马尔科夫模型 ( h i d d e n ma r k o v mo d e l , h mm)方法 将文本的段落之间的关系映射成一个标记序列,而h mm方法可以对标记序 列的分割有较好的效果。因为h n i m方法中的状态转移概率和发生概率是需要在 语料中统计得到的,所以对于这样的方法也是需要一定量的训练语料作为支持 的1 1 0 , 川。 对于h mm模型而言,近些年已经提出了一种模型称为条件随机场 对h m m进行改进。其效果在很多文本处理上超越了 h m m模型的性能。对 于条件随机场我们可以使用h m m的抽象文本格式,然后判断分割将得到由 于h mm的分割结果。 一 7一 东北大学硕士学位论文 第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国氧化锌光催化剂行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国氟橡胶行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国气味控制单元(OCUs)行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国服装、皮革及相关产品行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国有机着色剂行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国晶体行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国昆虫蛋白行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国无线VOC表行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国旅居车行业发展现状及发展趋势与投资风险研究报告
- 2025-2030年中国数字货币转账和汇款行业市场现状供需分析及投资评估规划分析研究报告
- 加州驾照考试题及答案
- 肺癌EGFR靶向治疗
- 2025年起草离婚协议书模板
- 气管切开非机械通气患者气道护理团体标准课件
- 人教版一年级下册数学第一单元《认识图形(二)》作业设计
- 《经典常谈》各章测试题
- 职业教育教师数智素养指标体系构建
- 访问学者 申请书
- 《燕京啤酒公司基于杜邦分析法的企业财务能力分析案例》15000字
- 2025年杭州市萧山区国有企业招聘笔试参考题库含答案解析
- 2024年校园食品安全检测服务协议3篇
评论
0/150
提交评论