




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)基于nmf的中文文本分类方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨t 稗人学硕十学伊论文 摘要 近年来,网上电子文档的数量以指数级的速度增长,这使得文本分类在 信息检索、信息过滤以及信息管理等应用中变得越来越重要。 向量空间模型是常用的文本表示方法之一,但这种方法存在空间维数过 大和缺乏语义解释的缺点。 为了解决上述问题,本文结合潜在语义索引的思想,将非负矩阵分解应 用于中文文本分类中。非负矩阵分解是一种崭新的特征抽取方法。由于对分 解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局 部特征,因而更接近人们的认知习惯,并具有很高的可解释性和预测性。 本文重点介绍了非负矩阵分解的基本思想和基本算法。然后,从理论上 将非负矩阵分解算法与当下较为经典的奇异值分解方法进行比较。在理论分 析基础上,本文分别应用非负矩阵分解算法和奇异值分解算法分解词一文本 矩阵,获取词语之间的相关性,有效地解决了向量空间模型中同义词和多义 词的影响。实验表明,与基于奇异值分解的潜在语义索引方法相比,该方法 具有计算速度快、占用存储空间较少的优点。并且,在潜在语义数目降低较 大的情况下,非负矩阵分解方法具有更好的分类精度。 关键词:文本分类:非负矩阵分解;奇异值分解 哈尔滨t 稃大学硕十学位论文 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h e r a p i dg r o w t ho fo n l i n ei n f o r m a t i o n ,t h e t e x t c l a s s i f i c a t i o ni sb e c o m i n gm o r ea n dm o r ei m p o r t a n ti nt h ef i e l do fi n f o r m a t i o n r e t r i e v a l ,i n f o r m a t i o nf i l t r a t i o na n dm e m o r ym a n a g e m e n ta n ds oo n v e c t o rs p a c em o d e li st h et r a d i t i o n a lm o d e lf o rr e p r e s e n t i n gt e x td o c u m e n t s a sv e c t o r s h o w e v e r ,t h i sm e t h o dh a ss o m el i m i t a t i o n ss u c ha s l a r g e d i m e n s i o n a l i t ya n dp o o rs e m a n t i cu n d e r s t a n d i n g i nt h i sp a p e r ,f o rr e s o l v i n ga b o v ep r o b l e m s ,i tc o m b i n e st h ei d e ao fl a t e n t s e m a n t i ci n d e x i n g ( l s i ) a n du s e sn o n - n e g a t i v em a t r i xf a c t o r i z a t i o n ( n m f ) i n c h i n e s et e x tc l a s s i f i c a t i o n n m fi san e wm e t h o df o rf e a t u r ee x t r a c t i o n b e c a u s e t h en o n n e g a t i v el i m i t a t i o nf o rt h er e s u l t so ff a c t o r i z a t i o n ,t h ef e a t u r e sb a s e do n n m fr e f l e c tm o r el o c a l i z e dc h a r a c t e r i s t i c so ft h es a m p l e s ,a n ds oc o r r e s p o n d m o r et oh u m a nc o g n i t i o n t h e r e f o r e ,t h ef e a t u r ev e c t o r se x t r a c t e db yn m fa r e e a s i e rt oe x p l a i na n df o r e c a s t t h eb a s i cp r i n c i p l ea n da l g o r i t h mo fn m fa l ei n t r o d u c e di m p o r t a n t l yi nt h i s p a p e r t h e n ,i tc o m p a r e sn m f 晰t i ls i n g u l a rv a l u ed e c o m p o s i t i o n ( s v d ) ,w h i c h i sac l a s s i c a lm e t h o dn o wi nt h e o r y o nt h eb a s i so ft h et h e o r y ,n m fa n ds v da l e u s e dr e s p e c t i v e l yt od e c o m p o s et h et e r m d o c u m e n tm a t r i xa n dt or e v e a lt h e r e l a t i o n s h i pb e t w e e nt e r m s t h e s em e t h o d ss o l v et h ep r o b l e mo fs y n o n y ma n d p o l y s e m yi nv e c t o rs p a c em o d e le f f e c t i v e l y c o m p a r e dw i t hl s ib a s e do ns v d , t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h i sp r e s e n t e dm e t h o dh a sf a s t e rc o m p u t i n g s p e e da n dl e s sm e m o r yo c c u p a n c y f u r t h e r m o r e ,i tc a ni m p r o v ec l a s s i f i c a t i o n p r e c i s i o nw h e n t h en u m b e ro fl a t e n ts e m a n t i ci n d e xi sr e d u c e dp r o n o u n c e d l y k e yw o r d s :t e x tc l a s s i f i c a t i o n ;n m f ;s v d 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :确夥溺辣 日期: - - 撕o , f 年j 月么j 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 时在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) 7 百暖并 日期:砌9 年f 月fe t 导师( 签字) :年盔 吲年1 月e l 哈尔滨t 羊n 大学硕十学何论文 1 1目的禾口壹义 第1 章绪论 当今,随着信息技术与互联网的迅速发展,信息容量速度飞速增长,使 得信息传播从依靠如报纸、杂志等传统的纸质媒体更多的转移到计算机可以 直接访问的电子媒体上来,网络资源已经成为一个普遍的全球信息宝库,它 作为一个开放的分布式信息空间,网络中的信息量也以指数级的速度增长, 而在这些信息中,大部分是非结构和半结构化的文本信息。 网络信息量的激增丰富了人们的视野,也改变了人们获取信息的方式, 但是,在这些杂乱的海量信息中找到我们真正感兴趣的信息需要花费很多的 时间和精力,庞大的信息量和人们获取所需信息的能力之间的矛盾就变得日 益突出。为了解决这种信息杂乱的现象,使人们能够以更高效的方式获取自 己所需要的信息,各种信息组织和管理的技术被提出来,如文本检索、文本 分类、主题概念识别等等。其中文本分类可以在较大程度上解决信息杂乱问 题,方便准确地定位所需信心和分流信息,因此文本分类就成为文本信息检 索、文本信息数据挖掘的重要的基础与前提条件,也是组织和管理数据的重 要手段。 到目前为止,文本分类作为一项基础性研究,在信息技术领域的应用越 来越广泛,已经被应用到基于受控词典的自动文摘、文本过滤、词义消歧和 文档组织等领域。此外,文本分类在以下领域有着广泛的应用前景。 ( 1 ) 邮件分类 这种应用主要是对用户收到的电子邮件进行分类,如:麻省理工学院为白 宫开发的邮件分类系统,能自动地确定每天发送给总统的大量的电子邮件所 属的类别,以安排适当的人员对信件内容进行答复。 ( 2 ) 电子会议意见分类 哈尔溟i 柙大学硕十学何论文 电子会议是一种新兴的会议方式,所有与会者通过网络电脑系统举行会 议,与会者是匿名的,便于形成平等的气氛,以调动与会者的积极性,因此 产生大量的意见和建议,接下来再由分类系统对这些意见进行分类和组织, 最后确定进一步讨论的主题。 ( 3 ) 智能检索 实际使用过搜索引擎的人想必都有过这种体会:想查找的东西查不着,不 相关的东西倒是很多。在搜索引擎的构建过程中,可以利用文本分类技术来 进行概念区别,改进相关度排序,对被检索的信息按照一定的分类体系进行 自动分类。 ( 4 ) 网络信息过滤及萃取 用户每一天都会得到大量的网上信息,网络信息过滤可以根据用户所关 心的信息过滤网上信息,然后主动形成用户需要的信息。网络信息萃取是根 据某种需要,自动分析网页信息,萃取某一特定内容,进行分析。 ( 5 ) 文本库的建立与重建 机构或个人都会面临建立文本库或重新归类大文本的任务,这就需要根 据指定的一些文本和类别结构,自动地将所有的文本归于合适的类。若是将 新的文本加入合适的文本类别中也要采用文本分类技术。 ( 6 ) 文献自动标引 标引是指用一个或若干个词来表示文献内容特征的过程。用于标引的关 键词和词组属于一个专业词典,如果把该词典的条目看成不同类别,标引的 过程就是一个文本分类的过程,这种文献自动标引功能在数字化图书馆中非 常重要。 ( 7 ) 文本过滤 文本过滤通过滤除掉不感兴趣的文本,提供有用的信息给用户。过滤的 过程可以看成是一个单一类别的文本分类,输入文本被分类成两种,相关的 和不相关的。 ( 8 ) 词义排歧 哈尔滨r :稃大学硕十学何论文 词义排歧就是在遇到多义词时,根据当前环境判断出其正确意义。把该 词出现的语言环境如句子或段落作为待分类的文本,该词的几种词义作为类 别,词义排歧过程就是一个文本分类的过程。显然这是一种单一类别的分类。 这对于在机器翻译中遇到多义词时,选择一个正确的词义是非常有用的。 国际上,对文本分类的研究主要是针对英文瞄1 。但是,中文是世界上使 用人数最多的语言,是联合国指定的官方语言之一。随着计算机处理中文的 一些关健技术的解决,互联网上中文信息量急剧增加,流通范围迅速扩大。 而且,随着中国经济的迅速发展,中文在世界的影响力越来越大。对大规模 中文文本信息进行处理和研究是促进我国经济发展和民族文化复兴的迫切要 求,具有重要的现实意义。 本论文就是基于此而提出来的。它有两个目标:一是将国际上的文本分 类研究成果应用于中文文本,二是根据中文的语义特征复杂的特点,在语义 层面开展面向中文的文本分类研究,推动中文语言在网络信息时代的应用、 传播和发展。 1 2 文本分类技术的研究现状 自动分类研究始于2 0 世纪5 0 年代,h p l u h n 在这一领域进行了开创性 研究,他提出词频统计思想并主要用于自动分类。 文本自动分类主要经历了四个发展阶段:第一阶段( 1 9 5 8 1 9 6 4 ) 主要进行 自动分类的可行性研究:第二阶段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验研究。在 这一时期,模式识别和信息检索相继发展成为一门学科。m a r o n 和k u h n s 提 出概率标引( p r o b a b i l i s t i ci n d e x i n g ) 模型,并应用于信息检索( i n f o r m a t i o n r e t r i e v a l ,i r ) 中p 1 :1 9 6 2 年,r o s e n b l a t t 设计了感知机( p e r c e p t r o n ) ,通过 具有阈值的神经元处理二分类问题;g e r a l ds a l t o n 提出了向量空间模型 ( v e c t o rs p a c em o d e l ,v s m ) 用于对文本进行描述一1 。第三阶段( 1 9 7 5 1 9 9 8 ) 进 入实用化阶段。这一阶段主要是采用传统的知识工程( k n o w l e d g e 哈尔滨i i 程大学硕十学位论文 e n g i n e e r i n g ) 技术,根据专家提供的知识形成规则,手工建立分类器。这实 际上是专家系统。h a y e s 等的c o n s t r u e p l 是典型的代表。在这一时期,信 息检索技术逐渐成熟应用,为文本分类提供了许多技术支持,最著名的i r 系 统是s a l t o n 的s m a r t t 引。第四阶段( 1 9 9 0 年至今) 因特网自动分类研究阶段。 互联网技术的发展,对文本分类提出了迫切要求。在这一时期,文本分类的 主要特点是采用统计机器学习方法,自动建立分类器。 目前所说的文本分类主要是指第四阶段的基于机器学习的文本分类。因 此,文本分类的研究严格来说只有十几年的历史。在开始时期,研究的重点 是将机器学习、信息检索等相关领域中的成果应用到文本分类中p 。随着研 究的深入,文本分类问题被进一步细化,研究人员对各个子问题进行深入研 究,例如:分类方法,特征降维,性能评价,大、小样本学习,分类性能推 广,语言知识利用等。试图在对文本内容更多理解的基础上,提高文本分类 的效烈0 1 。文本自动分类在邮件分类、电子会议、信息过滤等方面取得了较 为广泛的应用。 我国开展自动分类研究起步较晚。国内的研究基本上是在英文文本分类 研究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中文之 上,继而形成中文文本自动分类研究体系。很多学者在基于知识和统计的两 种方法上对中文文本分类进行了大量的研究工作,主要有基于词典的自动分 类系统和基于专家系统的分类系统。 目前大量的统计方法和机器学习方法被应用于文本自动分类系统。文本 分类可以被看作是一个特定的模式识别问题,在文本中使用模式识别的机器 学习方法能够取得很好的效果。文本自动分类中应用较早的机器学习方法是 朴素贝叶斯( n a t i v eb a y e s ,n b ) 方法d 引。目前,几乎所有重要的机器学习算 法在文本自动分类领域都得到了应用,支持向量机( s u p p o r t v e c t o r m a c h i n e , s v m ) 酣,最大熵算法( m a x i m u me n t r o p y ) ,神经网络( n e u r a ln e t s ) m 1 和k 近邻算、法【眦1 1 ( kn e a r e s tn e i g h b o r ,州) ,类中心向量法嘲2 3 1 等。在这些分类 算法中,大多数都是基于向量空间模型的。基于向量空间模型的算法作为一 4 哈尔滨t 稗人学硕十学何论文 1 种简单、有效的算法,在信息分类中引起广泛关注,并且取得了很好的成果。 但是,当系统达到一定的性能后,无论怎样改进分类算法,性能提高甚微。 究其原因主要在于单纯的以词语、汉字或短语为特征项的文本表示方法,难 以提供复杂的语义信息,无法满足基于内容和理解的文本处理的需求。现实 文本中普遍存在一词多义、多词一义等现象。针对这种现象,基于语义层面 的文本分类是目前文本处理领域研究的热点问题。 特征抽取技术是一种常用的获取语义的矩阵降维方法之一,主要的特征 抽取方法有:特征词聚类伫删以及潜在语义索引法田铡等。特征词聚类得到的 特征相关信息大部分是偶然的,没有获得特征之间语义上的相关信息。另外, 这种方法不能解决数据稀疏问题。而潜在语义索引方法通过控制语义空间的 维数,可以得到较大的降维度。潜在语义索引将原特征空间中的信息进行重 新组合,很少丢失信息。但是,潜在语义的计算复杂度高,在大规模数据集 上进行奇异值分解非常困难。非负矩阵分解是近年来一种新的基于语义的特 征抽取方法,与上两种方法相比,非负矩阵分解方法对分解结果的非负限制 使得该方法具有实现上的简便性、分解形式和分解结果上的可解释性的优点。 目前,非负矩阵分解已广泛地应用于文本的检索、过滤和图像识别等领域, 取得了更好的效果p 引。本文将阐述非负矩阵分解作为特征抽取方法的优点, 同时与潜在语义分析方法作对比,将其应用于中文文本分类领域,以期进一 步提高文本分类的处理效果。 哈尔滨t 科大学硕+ 学位论文 1 3 文本分类的系统框架 图1 1 文本分类系统框架 如图1 1 所示,本文设计的中文文本分类的过程大致可以分为以下几个 部分: 首先需要获取训练样本集。训练样本选择是否合适对文本分类器的性能 有较大影响。训练样本集应该能够广泛地代表分类系统所要处理的客观存在 的各种文本信息类中的样本。一般地,训练样本集应该是公认的经人工分类 的语料库。国外文本分类研究都使用共同的测试样本库,这样就可以比较不 同分类方法和系统的性能。在此基础上构造一个文本集的特征词典: 然后,需要建立文本的表示模型。由于计算机没有类似人类的智能,人 阅读完一篇文章之后可产生对自身对文章的理解,而计算机却没有这样的能 力。为了便于计算机的处理,文本必须表示为计算机可以识别的格式,也就 是选用什么样的语言要素( 或者说文本特征) 和用怎样的数学形式组织这些语 言要素来表征文本信息,也就是如何词典中的特征项投影到向量空间,用向 量空间中的向量表示文本集中的向量是文本分类中的一个重要问题。 其次,就是选择合适的文本特征项。由于向量空间模型中基于词与词之 6 哈尔滨t 稃火学硕十学位论文 间相互独立的假设在实际环境中很难满足;另外,在自然语言中包含大量的 同义词与多义词等词语意义上的问题在向量空间中也很难解决,这也就对中 文文本中语义信息的复杂性就更显得无能为力。因此,本文将利用一种崭新 的特征抽取技术:n m f 来获取词之间的相关性,把向量空l 日j 投影到语义空间, 以期很好的解决语义的影响。同时为了比较n m f 的优越性,将其与另一种 特征抽取方法:s v d 方法做了比较。 再次就是选择分类方法。也就是用什么方法建立从文本特征到文本类别 的映射关系,这也是文本分类的一个核心问题。 最后对所设计的分类器进行性能评估。即如何评估分类方法和系统的性 能或者说分类结果。真正反映文本分类内在特征的性能评估模型可以作为改 进和完善分类系统的目标函数。在文本分类中,到底使用什么评价参数取决 于具体的分类问题。 1 4 论文的研究内容及章节安排 根据上节给出的框架结构,本文各章的内容组织如下: 第1 章绪论介绍课题研究的目的和意义,该领域的国内外的研究现状 以及本文所设计的中文文本分类的框架和实现过程。 第2 章向量空间模型介绍了构建向量空间模型的过程,并通过实验证 明,虽然向量空间模型是一种简单快捷的文本表示方法,但是它所表示的文 本矩阵维数过大,矩阵数据稀疏,另外,这种方法基于词之间相互独立的假 设很难消除同义词和多义词的影响。 第3 章概念语义空间详细介绍了两种基于语义的矩阵分解方法:s v d 和n m f 的原理,并通过实验证明,二者均能够达到解决矩阵维数过大和数 据稀疏以及由语义带来的歧义影响等问题,但是,在计算时间、可解释性以 及存储空间上,n m f 是一种比s v d 方法更好的特征抽取方法。 第4 章文本分类与实验分析本章主要介绍了类中心向量法的主要原 7 哈尔滨i i 程大学硕十学何论文 理。并对在不同潜在语义空间维度下,基于s v d 和基于n m f 方法的中文文 本分类进行了两组对比实验。实验表明,与s v d 方法相比,基于n m f 的中 文文本分类方法具有存储开销少、计算速度快、可解释性强等特点。并且, 在维数降低较大的情况下,基于n m f 的分类方法具有较高的分类精度。 哈尔滨t 稃人学硕+ 学位论文 第2 章向量空间的构建 通常情况下,文本分类所要处理的文本是采用自然语言描述的,计算机 并不能够理解这些文本的内容。如果在分类之前没有将这些文本转化为计算 机能够直接处理的形式,那么将很难对它们作自动分类的处理。计算机可以 处理的内容一般为统一且格式化的,所以在自动文本分类中,首先要完成的 一步就是对文本进行形式化的处理,即采用一种简化、统一的方式来实现对 文本内容的描述,以适应计算机处理的需要,通常把这个过程称为文本的表 示。由s a l t o n 等在1 9 6 8 年提出的向量空间模型( v e c t o rs p a c em o d e l v s m ) 是信息检索领域最为经典的计算机模型之一。s a l t o n 提出的向量空间模型最 早成功应用于信息检索领域,后来又在文本分类领域得到了广泛的运用。向 量空间模型的一个基本假设是,一份文档所属的类别仅与某些特定的单词或 词组在该文档中出现的频数有关,而与这些单词或词组在该文档中出现的位 置或顺序无关。也就是说,如果将构成文本的各种语义单位( 如单词、词组) 统称为“词项”,以及词项在文本中出现的频数称为“词频”,那么一份文 档中蕴涵的各个词项的词频信息足以用来对其进行正确的分类。 在v s m 中,主要涉及到以下几个概念: ( 1 ) 文档:通常指一篇文章。 ( 2 ) 项:也称特征项,一般指文档中的词或短语。给文档分类主要是依 据特征项,即一些特殊的项,可以起到代表文档的作用。 ( 3 ) 项的权重:假设一个系统包含有疗个文档、m 个不同的项,则 口= ( t t , t 2 ,乙) ( 1 f 疗) ,表示一个文档;给其中的项( 1 k 聊) 赋值, 记为,表示它在文档中的重要程度,通常称为项乙的权重。 ( 4 ) 向量空间模型:由( 3 ) 得到一个含值的文档表示,记作: d t = ( t l w z ,岛w 2 ,o ) 。由于,乞,0 互不相同,可以把它们看作是聊维欧 氏空间的m 个坐标,把w i ,看作是m 维欧氏空间的向量。这样,称 9 哈尔滨t 稗大学硕十学何论文 d ,= ( t t w x ,如心,胂) 为文档p 的向量表示。t 为特征项词条,w 为对应坐 标值,即特征项权值。 获取向量空i b j 的流程图如图2 1 所示。本文将在以下两节对向量空间的 构建过程进行详细的介绍。 2 1 特征词典生成 2 1 1中文文本分词 l文本集 i 上 分词 上 l 去停用词 上 表征词典 上 特征项加权 上 v s m 图2 1获取向量空间流程图 在文本分类中,文本通常以“词 为语言单位进行表示,无论分类算法 是基于词的还是基于语义的,在预处理阶段都需要首先对文本进行分词。同 西文相比,中文的词与词之间没有明显的分割符号,因此对中文文本需要首 先进行分词处理。 中文文本的分词技术是文本分类中最基础的工作,分词系统的好坏直接 影响着文本分类的结果。同时,中文文本的分词又是一项复杂和困难的工作, 例如:分词规范问题,切分歧义问题,未登录词识别问题等等。如何提高中 1 0 哈尔滨t 稃火学硕十学何论文 文文本分词的精度,速度以及适应能力认识当前的研究热点之一。目前的分 词算法主要有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基 于统计的分词方法。 国内的研究机构,如中科院计算技术研究所、北大计算语言所等都在中 文词法分析方面做了很多优秀的工作。到目前为止,有许多分词系统无论在 精度上还是速度上都能满足文本分类等工作的需要。本文将采用n o t e t a b l i g h t 分词软件进行中文文本分词。 2 1 2 停用词的影响 在文本分类中对文本进行分词后,文本就变为词集,但是词集中有很多 虚词,这些词在文章中仅起到结构作用,不表示实际意义,比如介词,副词 等等。另外还有一些词在整个语料中出现频率高而在每篇文档中出现概率大 致相等,对分类来说作用不大,把这些词合称为停用词。对于这些词,应该 从特征集中去掉。 停用词的选取对词集的大小、分类的准确率都有影响。停用词的选择原 则:第一,删除停用词后,应不降低分类准确率:第二,删除停用词后能够达 到粗降维的目的。 因此,为了改善文本表示的质量,同时也为了缩小表征词典的规模,提 高文本分类的训练和分类效率,在将文档转化为特征向量之前,通常要对词 典先进行“去停用词等处理,得到文本的表征词典。 词语中究竟哪些是停用词,哪些不是停用词,文本分类领域尚未形成一 个一致的意见。根据文本分类涉及到的具体领域不同,研究者的喜好不同, 停用词表少则包含1 0 0 多个词语,多则拥有上千个词汇。本文根据所选取实 验语料库中的文本类别特征,从中选取了具有停用词特征的2 1 8 4 个词语来构 成停用词表。 哈尔滨t 稃人学硕十学佗论文 表2 1停用词表中的部分停用词 按并使 从 称作的 而 按照并能从而称谓的确而不 安排并以从此初的话 而且 表 并为从事初步的时候 而异 必须并对从其初级等 而后 必需并行从中初次等人而非 必要 并未从这初期等等而义 必然 并不是从未警现等丁而论 必将 并不能从事于 出 等级而使 必定并没有从古剑今出来等地而应 必将 不 除出现对而是 必要性不会 除了 出发 对于而言 必须的不变除非 出口 对外而且 必然会 不了除外 出自 对在而异 必不可少 不仅 除应出得 对应 而有 并 不计才出丁对其 而要 并把 不大 才能 出了对此而以 并按 不曾 才是存在 对了 而来 并从不在才算朝对待而作 并用 不再 才会朝着对公 还 并就不过才可彻底多 并不不高才有成多的二次 并由不低采用成为多半二者 并对不停 产生 成了多么二是 并己不能产生了成不了多达 二年 并与 不但 充分 成一个 多数二十多 并在不及 充当 成千上万多种 夫 并非 不可 充满着成年累月多家方法 并且不唯称此多了方面 表2 1 是实验中所建立的停用词表中的部分停用词语。从表中可以看出 本文所构建的停用词表选出的正是一些在文章中仅起到结构作用,而没有实 际语言意义的介词、助词和副词等功能词。这样,在实验中,我们按照所构 1 2 哈尔滨f :稃大学硕十学何论文 建的停用词表对所选取的训练语料和测试语料进行停用词剔除,不会降低文 本分类的准确率,同时也能够达到粗降维的目的。进行停用词处理后,本文 选取了8 1 0 9 个词来构成文本的特征词典。 2 2 权重的计算方法 在向量空间模型中,为了突显不同的特征项对文档的重要程度和区分度 的影响是不同的,系统在对文本进行形式化处理的时候,需要对特征项进行 加权处理。常用的特征项权重计算函数有以下几种:布尔函数、t f 函数、i d f 函数、t f i d f 公式法。 2 2 1布尔权重 布尔权重也叫二值权重或二元权重( b i n a r yw e i g h t i n g ) ,是最简单的权 重计算方法,计算公式如下: = 辉: 亿, 其中:w ,表示特征项i 在文档中的权重,表示特征项i 在文档中出现的 次数。 在这种方法中,特征权重只有“0 、“1 ”两个值,描述很粗糙,丢失 了文本中大量的信息。布尔权重主要用在特征只有两个状态的分类器中,例 如:决策树分类器,概率分类器等。在与其他的分类方法的比较中,采用二 元权重方法的分类器都没有取得令人满意的分类效果,通常作为其他方法的 比较基准p 4 1 。 2 2 2t f 权重 t f ( t e r mf r e q u e n c y ) 是词频,或称特征项频率。不同类别的文档,在 1 3 哈尔滨t 稗大学硕十学伊论文 特征项的出现频率上有很大差异,因此特征项频率信息是文本分类的重要参 考之一。一般t f 较大的特征项在该类文档中具有较高的权重。也就是说如 果一个词在某类文档中经常出现,那么说明这个词对该类文档具有代表性。 t f 越大,表示这个词对文档的越重要,如“政治”这个词在政治类的文档 中出现的频率显然要高于教育类的文档。在最初的文本自动分类中,文档向 量就是用t f 来构造的。它的计算公式为: 厂 t f # = j _ l j ( 2 2 1 乃 其中,z 表示词f 在文档j 中的出现次数,力,表示文档包含的词的个数 由于考虑了词频信息,使各特征项之间的权重有了较大差别,比均权法 有了明显进步,但这种仅考虑词频信息的方法会造成对高频词的过度依赖并 且抛弃了那些带有很大信息量的低频词。 2 2 3id f 权重 i d f ( i n v e r s ed o c u m e n tf r e q u e n c y 反文档频率) 以出现特征词的文本数 为参数,构建特征项的权重。i d f 权值法的出发点是一个特征词文档频数越 高,也就是说,如果含有该词的文档数越多,那么,该词所包含的类别信息 就越低,因此也就越不重要。i d f 应用时经常采用对数形式,其计算方法定 义如下: 厂 i d f ( t i ) = 1 0 9 ( 蓑+ 三) ( 2 - 3 ) 其中,的取值通过实验来确定( 通常取o 0 1 ) ,n 为文档集中的总文档数, m 为出现特征项f ,的文档数 i d f 算法的核心思想是,在大多数文档中都出现的特征项不如只在小部 分文档中出现的特征项重要。也就是说,如果一个词在一篇文档中出现,并 且同时它也出现在很多类别的文档中,那么这个词就不具有很强的类别区分 1 4 哈尔滨t 稃大学硕十学何论文 能力,例如,“科学”在社会科学类与自然科学类的文档中出现的频率都很 高,对区别两类文档的帮助就不大。i d f 算法能够弱化些在大多数文档中 都出现的高频特征项的重要度,同时增强一些在小部分文档中出现的低频特 征项的重要度。 2 2 4t fid f 权重 t f i d f 是在文本处理领域使用最广泛的权重计算方法,它最初用在信息 检索中p 5 1 。计算公式为: t f i d f ( t j ) = 弼,i d f ( t i ) ( 2 4 ) 其中,珥,和i d f ( t ,) 的计算方法由公式( 2 2 ) 、( 2 - 3 ) 给出。 t f i d f 权重算法的主要思想是:如果某个词在一类文档中出现的频率t f 高,同时在其他类的文章中很少出现,则认为该词具有很好的类别区分能力。 用t f 与i d f 相乘本质上就是一种试图抑制噪音的加权,加权的结果是使向 量在特征空间中向有用单词所代表的那些维旋转了一个角度,使噪音被抑制, 有用单词被加强。 2 3向量空间模型分析 按照公式( 2 4 ) 的权重计算方法对特征词典中的8 1 0 9 个特征项分别进行 加权计算,从而得到这8 1 0 9 个特征项在向量空间模型中的向量表示方法。表 2 2 是从这8 1 0 9 个特征向量中选取的- 4 , 部分,我们将根据表2 2 来分析向 量空间模型的一些优缺点。 由表2 2 可以看出向量空间模型在知识表示上有巨大的优势。在该模型 中,文档的内容被形式化为多维空间中的一个点,通过向量的形式来给出。 也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领 域中各种成熟的计算方法得以采用,极大地提高了自然语言文档的可计算性 和可操作性。 l5 哈尔滨t 稃大学硕十学何论文 表2 2向阜= 空间模型中的部分特征向量 0 0 0 0 4 1 1 9 10 0 0 0 0 0 0 0 00 0 0 3 5 3 8 6 30 0 0 0 51 6 0 30 0 0 0 6 38 3 90 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 1 7 4 1 4 00 0 0 1 9 6 4 4 50 0 0 1 3 6 0 0 l0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 6 9 8 2 50 0 0 0 0 0 0 0 0 0 0 0 51 6 9 5 90 0 0 0 1 0 6 5 90 0 0 0 5 3 5 7 8 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 4 9 6 7 4 00 。0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 。0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 4 4 0 3 3 90 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 2 2 0 1 6 90 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 2 37 3 4 60 0 0 1 3 3 8 7 40 0 0 7 41 4 5 30 0 0 0 0 0 0 0 00 0 0 l8 3 9 2 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 7 1 3 9 8 70 0 0 4 4 8 6 2 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 4 3 4 1 6 80 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0o 0 0 1 1 0 0 8 50 0 0 0 0 0 0 0 00 0 0 l8 3 3 8 00 0 0 0 0 0 0 0 00 0 0 0 6 3 3 5 3 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 7 3 7 710 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 4 2 4 5 4 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 15 2 4 7 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 6 5 4 4 0 20 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 1 0 9 1 5l0 0 0 0 0 0 0 0 00 0 0 1 4 4 4 0 30 0 0 0 9 0 7 3 3 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 8 9 9 6 20 0 01 1 3 0 5 2 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 1 2 9 7 4 50 0 2 1 4 0 11 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 2 9 0 0 5 00 0 0 3 2 7 2 01 0 0 0 6 7 9 5 7 20 0 0 0 0 0 0 0 0o 0 0 1 4 9 8 4 20 0 0 0 0 0 0 0 0 s a l t o n 等人提出的向量空间模型的概念,即用向量表示文本,并成功应 用于著名的s m a r t 系统中。该模型及相关的技术在文本分类、自动索引、 信息检索等领域得到了广泛的应用,向量空间模型己逐渐成为最简便最高效 1 6 哈尔滨丁程入学硕十学位论文 的文本表示模型之一。 众多学者的研究表明:向量空间模型是大规模语料库较好的表示模型之 一,并且在大规模真实文本处理方面( 例如,文本分类和文本摘要等方面) 具 有较强的优势p 州。在向量空间模型中,文本不再是由字或词符号顺序连接的 字符串,而是成为了方便于计算机处理的向量,语料库中所有的文本都统一 在向量空间模型中表示出来,使得不被计算机理解的自然语言能够用计算机 可以识别的向量表示出来,从而可以利用计算机快捷地处理它们。 虽然文本的向量化丢失了原先蕴涵的大量信息,但通过实践证明,在文 本分类等文本信息处理领域中,基于向量空间模型的信息处理系统仍然能够 达到较高的性能p n 。 但是,由表2 2 也能够看出由此得到的词一文本矩阵是一个由8 1 0 9 个词 向量构成的高维矩阵,高维矩阵的存储、处理和更新需要耗费大量的机器资 源。同时,在这个矩阵中含有大量的零值元素,使得矩阵十分稀疏并且含有 大量的冗余和噪音,匹配过程易受噪声影响。这些都会影响到特征向量的表 示效力,并且向量空间维数过大使得这些问题更为突出。向量空间中的这些 缺陷会带来以下的问题: ( 1 ) 一些在低维空间上具有良好性能的分类算法在计算复杂度上变得不 可行。如r o c c h i o 算法和k 近邻算法都用到了距离公式,而在高维的向量空 间中找最近点是很困难的,而且计算的复杂度与维数的增长是成j 下比的。分 类器的算法和实现的复杂度随着维数的增加呈指数级增长,不能满足实际的 性能要求。 ( 2 ) 对于高维的特征空间,一方面,包含的信息比较多;另一方面,也 会包含无用的信息。这样,并不是所有的特征词都对分类有效,或者说它们 对分类的作用是有主次之分的,如果次要的特征词很多,则主要的特征词将 有很可能会被覆盖。所以维数太大对分类来说并不有效甚至是有害的,如果 个特征向量中无用的词较多,在执行分类算法中的公式计算时就会导致结 果的偏差。 1 7 哈尔滨丁稃人学硕十学位论文 ( 3 ) 在训练样本容量一定的前提下,特征维数的增加将使得样本统计特 性的评估变得更加困难,从而降低分类器的推广能力或者说是泛化能力,呈 现所谓的“过学习”的现象。 另外,词出现在某一篇文章中的概率是很偶然的,这就会使得矩阵相当 稀疏,这点从表中含有大量的零元素可以看出。 重要的是,虽然向量空间模型具有简便快捷的优势,但当系统达到一定 程度后,无论怎样改进分类算法,分类性能提高甚微。究其原因主要在于向 量空间模型关于词间关系相互独立的基本假设( j 下交假设) 在实际环境中很 难满足,文本中出现的词往往存在定的相关性,在某种程度上会影响计算 的结果。同时,这种基于关键字的文本处理方法,主要依据词频信息,两个 文本的相似度取决于它们拥有的共同词汇的数量,因而无法分辨自然语言的 语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行资管考试题目及答案
- 银行职级面试题库及答案
- 银行选拔考试题目及答案
- 养猪专业试题及答案
- 养殖专业试题及答案
- 财务相关专业试题及答案
- 绿化专业面试题及答案
- 甘肃省金太阳2026届高三9月开学联考(26-1002C)物理(含答案)
- 飞机多学科优化设计MDO提纲
- 火电燃料专业试题及答案
- 酒精性肝病诊疗指南
- 学习解读《调查研究的重要论述》专题PPT
- 领导干部个人有关事项报告表(模板)
- 《中国近现代史纲要》 课件 第十一章 中国特色社会主义进入新时代
- 《最优化方法》研究生配套教学课件
- EN61238-1额定电压36kV电力电缆用压接和机械连接器 试验方法和要求
- 专利法全套ppt课件(完整版)
- 自动插件机操作指导书
- 培智三年级上册生活数学全册教案
- 高考作文卷面书写
- 船舶驾驶台资源管理bridge team management
评论
0/150
提交评论