




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)概率主题模型在文本分类中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的 情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽 略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况, 仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程 度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面, 得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很 难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用 中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产 生重要影响。我们结合l d a ( l a t e md i r i c h l e ta l l o c a t i o n ) 概率主题模型,针对上 述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利 用l d a 概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得 比传统方法更好的效果。 本文的主要工作和特色如下: 首先,提出了种基于l d a 概率主题模型的文本生成方法。首先采用g i b b s 抽样算法从训练文本集中抽取l d a 模型,然后利用l d a 模型的生成过程思想构 造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集有较 高的相似性,同时也不存在过度拟合现象。 其次,针对文本分类中的数据偏斜现象,结合l d a 概率主题模型,提出了 一种新的数据偏斜文本分类方法。该方法不但解决了传统过采样方法不可避免的 过度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数 据集上面的实验结果表明,该方法比其他数据偏斜处理方法更适用于文本分类问 题。 最后,提出了一种利用l d a 概率主题模型处理噪声的文本分类方法。根据 类别熵对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一 步减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验表 明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍然 能够提供较好的分类结果。 通过详细的理论分析和实验验证表明,概率主题模型的引入能够很好的提取 并利用文档集合中包含的语义信息,使得文本分类方法在复杂应用中获得更好的 效果。 关键词:文本分类,概率主题模型,数据偏斜,类别不平衡,噪声,类别熵 a b s t r a c t a b s t r a c t d a t as k e wa n dn o i s es a m p l e sa r ef r e q u e n t l ye n c o u n t e r e di nt e x tc l a s s i f i c a t i o n a p p l i c a t i o n s i ns k e w e dd a t a ,t h es a m p l e sc a n n o tc o r r e c t l y r e f l e c tt h er e a ld a t a d i s t r i b u t i o na n dt h ec l a s s i f i e rm a yi g n o r et h er a r ec l a s so v e r w h e l m e db yt h el a r g e c l a s ss a m p l e s m o s tc l a s s i f i c a t i o nm e t h o d sa r ed e s i g n e df o rb a l a n c e dd a t a ,s ot h e y c a n n o ta c h i e v ep e r f e c tp e r f o r m a n c ef o rs k e w e dd a t a o nt h eo t h e rh a n d ,t h e p e r f o r m a n c eo fc l a s s i f i e r si sm o s t l yd e t e r m i n e db yt h eq u a l i t yo ft r a i n i n gc o r p u s h o w e v e r , i nr e a la p p l i c a t i o n ,e s p e c i a l l yw i t hl a r g es c a l eo fd a t a ,t h eq u a l i t yo ft r a i n i n g c o r p u si s u n r e l i a b l ea n dn o i s ys a m p l e sa r eu n a v o i d a b l e ,w h i c hw i l lh i n d e rt h e p e r f o r m a n c eo fc l a s s i f i e r s f o rs u c hs i t u a t i o n s ,at e x t c l a s s i f i c a t i o nm e t h o da n da n o i s ep r o c e s s i n gm e t h o dw i t hl d a ( l a t e n td i r i c h l e ta l l o c a t i o n ) p r o b a b i l i s t i ct o p i c m o d e la r ep r o p o s e d u s i n gt h eg l o b a ls e m a n t i ci n f o r m a t i o nt og e n e r a t et e x t s a r t i f i c i a l l y ,c l a s s i f i c a t i o nm e t h o d sc a na c h i e v eb e t t e rp e r f o r m a n c e t h ec o n t r i b u t i o no fo u rw o r ki sl i s t e da sf o l l o w s : f i r s t ,al d a b a s e dt e x tg e n e r a t i o nm e t h o di sp r o p o s e d l d am o d e l s a r e e x t r a c t e df r o mt r a i n i n gc o r p u sb yg i b b ss a m p l i n g ,a n dt h e nt e x t sa r eg e n e r a t e dw i t h t h eg e n e r a t i v ep r o c e s so fl d a e x p e r i m e n tr e s u l t ss h o wt h a tt h eg e n e r a t e dt e x t d o c u m e n t sh a v eg o o ds i m i l a r i t yt ot h eo r i g i n a lt e x td o c u m e n t sw i t h o u ti n c u r r i n g o v e r - f i t t i n g s e c o n d ,f o rs k e w e dd a t a ,an o v e lt e x tc l a s s i f i c a t i o na p p r o a c hb a s e do nl d a m o d e li sp r o p o s e d t h i sa p p r o a c hc a ni n c r e a s et h ea m o u n to fi n s t a n c e sb e l o n g i n gt o r a r ec l a s s e si nt h et r a i n i n gc o r p u sb e s i d e sa v o i d i n gt h eo v e r - f i t t i n ge n c o u n t e r e di n t r a d i t i o n a lm e t h o d s e x p e r i m e n t a lr e s u l t so nr e a ld a t as e t ss h o w st h a t i ti sm o r e s u i t a b l et h a no t h e rm e t h o d sf o rt e x tc l a s s i f i c a t i o n f i n a l l y , w ep r o p o s ean o i s ep r o c e s s i n gm e t h o df o rc l a s s i f i c a t i o nu s i n gl d a i n o u rm e t h o dn o i s ys a m p l e sa r ef i l t e r e da c c o r d i n gt oc l a s se n t r o p y t h e nt h ed a t ai s s m o o t h e du s i n gt h eg e n e r a t i v ep r o c e s so ft o p i cm o d e lt of u r t h e rw e a k e nt h ei n f l u e n c e o fn o i s ys a m p l e s m e a n w h i l et h eo r i g i n a ls i z eo ft r a i n i n gc o r p u si sk e p tu n c h a n g e d e x p e r i m e n t a lr e s u l t so nr e a l w o r l dd a t as h o wt h a ti ti sr o b u s tt ot h ed i s t r i b u t i o no f n o i s ea n dh a sar e l a t i v e l yg o o dp e r f o r m a n c eo nd a t as e t sw i t hh i g hn o i s er a t i o t h ed e t a i l e d e x p e r i m e n t s a n dt h e o r e t i c a la n a l y s i ss h o wt h a tt h es e m a t i c i n f o r m a t i o ni nt h et r a i n i n gc o r p u sc a nb ee x t r a c t e da n de x p l o i t e db yp r o b a b i l i s t i c i l a b s t r a c t t o p i cm o d e ls ot h a tb e t t e rt e x tc l a s s i f i c a t i o np e r f o r m a n c ei ni n t r i c a t ep r a t i c a ls i t u a t i o n s c a nb ea c h i e v e d k e yw o r d s :t e x tc l a s s i f i c a t i o n ,p r o b a b i l i s t i ct o p i cm o d e l ,d a t as k e w , c l a s si m b a l a n c e , n o i s e ,c l a s se n t r o p y i i i 中国科学技术大学学位论文原创,陛和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:五缸咯逝 矿卞7 年f 月一 日 暨形 w 夕 钐卯 肛九 第l 章绪论 1 1 研究背景 第1 章绪论 2 0 世纪9 0 年代以来,互联网作为一个分布式的、开放的信息平台得到了快 速发展,互联网上的信息以指数级的方式增长,使得人们处于一个“知识爆炸 的时代。一方面,飞速增长的互联网资源给人们带来了极大的便利,包括技术文 献、新闻报道、商业广告、影音媒体等各种信息资源,只要拥有一台连接互联网 的电脑,所有的资源都是触手可得;另一方面,面对海量的信息资源,人们往往 感到无所适从,出现了所谓的“信息过载 和“信息迷向 现象( 李威,2 0 0 5 ) 。 为了提高用户信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 的质量和效率( 焦玉英, 2 0 0 3 ) ,网上陆续出现了很多功能强大的信息检索工具搜索引擎( 例如g o o g l e , y a h o o ,百度等) 。搜索引擎在给人们带来很大便利的同时,也暴露出以关键词为 基本索引单位的搜索技术的很多不足:一方面,无论用户提交什么样的关键词, 都会返回过多的结果,其中用户真正需要的信息往往只占很小一部分,用户不得 不花费相当多的时间对这些结果进行人工筛选;另一方面,许多与查找主题有关 一的文档可能不包含用户输入的关键词,导致搜索引擎不能找出这些文档( 李敏, 2 0 0 6 ) 。对信息进行自动分类是解决上述问题的一种有效途径,可以在较大程度 上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查 询结果。因此,对信息资源进行自动分类成为信息检索领域中具有较大实用价值 的关键技术,也是信息产业面临的新的挑战和新的发展机遇。 信息检索的内容包含文本、图形、图像和声音等类型( 周宁等,2 0 0 4 ) ,由 于目前网上信息的表现形式大多数为文本,l t , 女n 电子邮件、电子杂志、技术报告、 新闻及网上图书馆等等,并且文本也是广大用户所习惯接受的媒体形式,因此本 文以文本分类的方法和应用为研究背景。 目前基于文本分类技术,在短期内可能有所突破的研究工作主要有以下几个 方面( c h u r c h ,1 9 9 5 ) : a ) 冗余过滤 斯坦福大学教授n a r a y a n a ns h i v a k u m a r ( 2 0 0 0 ) 对互联网上w e b 进行统计的结 果表明,相似网页数占总网页数的比例高达2 2 ,快速检测出这些冗余文档并删 除冗余,能够节省大量的存储空间,提高信息检索质量。冗余文档可分为两种类 型:一种是重复文档,是没有一点改动的拷贝,不同的只是文件的的物理位置、 建立和修改的时间或者格式;另一种是近似( n e a r - - r e p l i c a s ) 文档,只存在微 第1 章绪论 小的修改,例如新闻标题、正文略作修改就被大量转载。文本分类技术可以分析 文档之间的相似度,如果文档的相似度超过某一阈值,就可以认为是相似的。 b ) 信息管理 对信息进行加工和整理能够使人们更好地使用信息。在搜索引擎上,随便输 入一个查询词,就能得到成千上万个返回结果,如果想对这些结果作一个全局了 解,智能逐篇阅读。一种可行的解决方案就是对获得的大量信息进行条理化,将 页面分类到不同的类目当中( 卢增祥,1 9 9 9 ) 。y a h o o 采用人工分类的方法来管 理其分类类目,而g o o g l e 则利用文本分类技术自动维护其分类类目。很难比较 这两个分类体系的优劣差别,不过g o o g l e 收录的网站个数远远多于y a h o o 收录 的网站个数。因此,使用文本分类技术辅助信息资源的组织和管理,不仅能够节 省大量的人力,而且能够处理更多的数据。 c ) 智能检索 目前很多著名的搜索引擎,比如g o o g l e 、y a h o o 、e x c i t e 等,尽管搜索能力 已经非常有强大,但还不能解决所有问题。实际上使用过搜索引擎的人都有过这 种经历:想找的东西找不到,不相关的东西倒是很多。设计更好的信息检索系统 仍然是研究人员努力的方向。在搜索引擎的构建过程中,可以利用文本分类技术 改进相关度排序,也可以对被检索的信息按照一定的分类体系进行自动分类。 d ) 用户个性化服务 每个用户都有自己特定的信息需求,很多时候用户希望能够像订阅报纸一样, 可以订阅互联网上的信息。信息过滤系统可以利用文本分类技术,根据一个初始 命令发现信息,然后通过用户反馈来调整其兴趣变化,或者直接由某种机制从用 户的浏览历史行为中学习出用户的兴趣,进而使用这些信息需求组成过滤条件, 对信息资源进行过滤,就能把符合条件的信息抽取出来进行服务。这种信息过滤 系统可以提供个性化、主动化的“信息找人 服务( c h oe ta l ,2 0 0 0 ) 。个性化的 实质是针对性地对不同的用户采取不同的策略,提供不同的服务内容;主动服务 的实质是不需要用户做什么,系统会自动按照用户的需求来提供相应的服务。 上面介绍的只是文本分类技术应用的几个方面,它们还可以用在元数据提取、 构建索引、歧义消解、文本过滤等领域。因此,意大利科学家f a b r i z i os e b a s t i a n i ( 1 9 9 9 ) 认为文本分类技术是所有基于内容的文本信息管理的基础。由此可以看 出文本分类技术在信息处理领域的重要性。 2 第1 章绪论 1 2 文本分类技术 1 2 1 发展阶段 文本分类系统的任务是:给定分类体系,根据文本的内容自动地确定关联的 类别。从数学角度来看,文本分类是一种映射的过程,将未标明类别的文本映射 到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为一篇文 本可以同多个类别相关联。其数学公式表示如下: f :aj b 其中,彳为待分类的文本集合,层为分类体系中的类别集合 文本分类的映射规则是系统根据已经掌握的每类若干样本的信息,总结出分类的 规律而建立的判别公式和判别规则。然后在遇到新文本时,根据判别规则,确定 文本相关的类别。 文本分类技术的发展主要有兰个阶段:基于知识工程的人工文本分类、基于 统计方法和机器学习的自动文本分类、基于自然语言理解和背景知识的智能型文 本分类。 i 基于知识工程的人工文本分类 基于知识工程的人工文本分类方法要求在领域专家的指导下对每一个分类 的特征进行人工的判定,制定分类的规则。这是一个极其耗时耗力的工作,效果 的好坏取决于所制定的规则的质量,并且当类别发生变化时,需要专家重新制定 规则。随着信息资源的增长,分类应用范围越来越广泛,并且所需判断类别也在 不断变化,基于知识工程的方法已经无法满足新的需求。 i i 基于统计方法和机器学习的文本自动分类 目前,很多统计方法和机器学习方法已被应用到文本分类中,取得了不错的 效果,其中包括向量空间模型( v e c t o rs p a c em o d e l ,v s m ) ( s a l t o ne ta l ,1 9 7 5 ) 、 最近k 邻居方法( k - n e a r e s tn e i g h b o r ,k n n ) ( 孙丽华等,2 0 0 2 ) 、决策树方法 ( d e c i s i o nt r e e ) ( a p t ee ta l ,1 9 9 8 ) 、n a i v eb a y e s 模型( a n d r e we ta l ,1 9 9 8 ) 、 支持向量机( s u p p o r tv e c t o rm a c h i n e ) ( 王建芬等,2 0 0 1 ) 和神经网络( n e u r a l n e t w o r k ) ( y a n g ,1 9 9 9 ) 等。与比前一种方法相比,基于统计方法和机器学习的 分类方法的优点在于: 自动化程度高:不需要手- o n 定规则,基本上不需要专家的介入,只需 要一些学习样本; 适应性强:对已经构建好的分类器,当移植到一个新的应用领域时,只 需要额外进行一下训练,就可以得到在这个领域的分类器,而不像人工 分类中需要完全重新制定分类规则; 第1 章绪论 性能稳定:人工分类中,分类器的效果很大程度上取决于专家所制定规 则的好坏,而基于统计方法和机器学习的技术不会受到专家水平的影响, 能够保证分类的稳定性: 更高效:相对人为制定的规则来说,机器学习方法在统计上对训练文档 进行训练,得到具有统计意义的分类方法,在一定程度上能够做到更高 效。 i i i 智能型文本分类 从1 9 9 0 年代开始出现的语义网( s e m a n t i cw e b ) 的概念使得基于语义的信息 处理得到越来越多的重视。人们提出了基于语义的智能型文本分类( 李敏,2 0 0 6 ) , 使用自然语言理解和背景知识处理的方法,对文档进行分类。相对基于统计方法 和机器学习的分类方法来说,该方法能够把握住文档的整体信息,从根本上保证 信息的准确度,从而更有可能获得更好的效果。 l 。2 2 存在的不足 目前人们使用最多的是基于统计和机器学习的文本分类方法。虽然相对手工 制定规则的分类方法来说有很多优点,但也存在很多的不足( s e b a s t i a n i ,1 9 9 9 ) 。 抗干扰能力 机器学习的方法本身需要针对训练文档进行训练才能得到分类器。这种方法 需要一些很精确的训练文档,能够准确地表达出这些类别文档的统计信息,从而 得到最后的分类器。这就决定了分类器的抗干扰能力比较弱,文档中的噪声数据 会导致分类器的性能下降; 分类复杂度 为了保证统计信息的完整性,往往需要保留很多的特征信息,这就使得分类 器中需要处理的信息量大大增加,很大程度上增加了分类器运算的时间及空间复 杂度; 一 信息丢失 向量空间模型是目前文本分类方法中比较流行并且被证明比较有效的表示 模型。模型中的特征向量是用“特征项 的对应权重来表示。在文本分类的研究 中很多方法都直接使用词来表示向量空间中对应特征项,仅仅使用单词本身的拼 写特征来表达文档的信息,忽略了文档中的单词顺序信息,更忽略了文档中一些 单词的自有含义。而作为文章的表示,特征向量不能完全代表文档所表达的意思, 存在一定程度上的信息丢失。采用词作为特征项、以向量空间模型作为数学模型 的文本分类方法,在达到一定程度的分类效果之后,就没有进一步的提高( 刘祖 根,2 0 0 2 ) 。 而在智能型文本分类上,主要有两种思路,一种是从自然语言理解的角度进 4 第1 章绪论 行文本分类,这种方法重视文档的整体内容和具体含义,强调对文章内容的理解, 理论上这种方法很完美,但自然语言理解技术的不成熟使得具体实现上存在不少 困难;另外一种是利用领域背景知识来进行文本分类,侧重于利用领域背景知识, 目前使用较多的有语义词典、本体o n t o l o g y 和统计理论等方法,在这方面的基 础工作已经有了初步的成效并仍然处于进一步的发展当中,比如美国p r i n c e t o n 大学认知实验室m i l l e r 等人( 1 9 9 3 ) 就已经开发出英文“语义”辞典w o r d n e t , 同时很多国家也展开了语义辞典的研究。但是从总体上来说,领域知识实际上也 是知识工程的一个分支,它也存在知识工程方法的很多缺点。 1 3 本文主要工作和贡献 本文基于统计和机器学习的文本分类方法,研究了以l d a 模型为代表的概 率主题模型在文本分类任务中的运用。从训练文本集的文本人工生成、数据偏斜 条件下的文本分类及训练集存在噪声样本环境下的文本分类三个方面,分别研究 了概率主题模型的对文本分类结果的影响。主要工作和特色如下: a ) 提出了一种基于l d a 概率主题模型的文本生成方法。首先采用g i b b s 抽样 算法从训练文本集中抽取l d a 模型,然后利用l d a 模型的生成过程思想构 造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集 有较高的相似性,同时也不存在过度拟合现象。 b ) 针对文本分类中的数据偏斜现象,结合l d a 概率主题模型,提出了一种新 的数据偏斜文本分类方法。该方法不但解决了传统过采样方法不可避免的过 度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在 2 0 n e w s g r o u p s 、r e u t e r s 2 1 5 7 8 等数据集上面的实验结果表明,该方法比其他 数据偏斜处理方法更适用于文本分类问题。 c ) 提出了一种利用l d a 概率主题模型处理噪声的文本分类方法。根据类别熵 对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一步 减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验 表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况 下仍然能够提供较好的分类结果。 1 4 论文组织结构 本文结构如下: 第一章:引言。介绍了文本分类的背景和当前的发展状况、当前分类方法中 5 第1 章绪论 存在的一些问题,然后介绍了本文的主要工作和贡献。 第二章:文本分类概述。首先介绍了文本分类的定义、要解决的问题,然后 着重介绍了文本分类任务中的一些关键问题,以及常用的文本分类算法,最 后介绍了文本分类研究中常用的一些评价标准。 第三章:基于概率主题模型的文本生成方法。简要介绍了概率主题模型的概 念及相关的几个常用模型,然后重点介绍了l d a 模型的数学描述及抽取方 法,接着介绍l d a 模型用于人工文本生成的具体方法,最后通过实验验证 了该方法的有效性。 第四章:基于概率主题模型的数据偏斜文本分类。首先介绍了数据偏斜分类 的研究现状,接着针对文本分类应用提出了基于l d a 概率主题模型的数据 偏斜处理方法,通过从文本集上抽取出对应的概率主题模型,利用模型所反 映的文本全局语义信息来提高数据偏斜下的文本分类效果,最后在多个数据 集上进行对该方法进行实验及分析。 第五章:基于概率主题模型的噪声处理方法研究。本章先描述训练文本集中 的噪声现象,接着提出一种基于l d a 概率主题模型的噪声处理方法,通过 类别熵噪声过滤和数据平滑两种策略,减弱噪声对分类结果的影响。最后设 计相关实验,实验表明,这种方法对噪声样本的分布具有较好的鲁棒性,在 噪声比例较大的情况下仍然能够提供较好的分类结果。 6 第2 章文本分类概述 第2 章文本分类概述 2 1 文本分类的一般性描述 分类是人类认识世界、分辨客观事物的一种思维活动,也是根据事物的“共 性 与“特性 聚集相同事物、区分不同事物的手段。人们既通过分类来认识与 区分事物,也可通过分类使大量的繁杂事物条理化和系统化,为进一步探讨事物 本质、开展科学研究创造条件。文本分类就是对给定的文本,根据其内容自动或 手动地给它加上一个类别标签的过程。通过对文本进行分类,用户不但能够更加 准确地查找所需信息,还可以很大程度上方便信息浏览。作为组织和管理数据的 一种有力手段,文本分类可被用于文本过滤、基于控制词汇的自动文本索引、词 义排歧、类y a h o o ! 方式的对w e b 资源进行层次管理以及其它的一些要求文件管 理或文件选择性发送的领域等。 文本自动分类是一个有监督的学习过程。根据给定的训练文档集合,通过某 种方法构建文档特征与文档类别之间的关系模型,然后利用这个关系模型对给定 的未知类别文档进行类别判断。 文本分类系统的任务是:给定分类体系,根据文本的内容自动地确定关联的 类别。从数学角度来看,文本分类是一个映射的过程,将未标明类别的文本映射 到已有的类别中,这种映射可以是一一映射,也可以是一对多的映射,因为一篇 文本可以同多个类别相关联。 文本分类的映射规则是系统根据已经掌握的每类若干样本的信息,归纳总结 出分类的规律而建立的判别公式和判别规则。然后在遇到新文本时,根据这些判 别规则,确定文本相关的类别。 总体上来说,文本的自动分类包含五个步骤:获取训练文档集、建立文档表 示模型、获得文档特征、分类模型的建立、分类性能评测。除了选择合适的分类 器,构建性能良好的文本分类系统的关键因素还有训练文本集的构建、文本的表 示模型、特征选择等。下一节将对文本分类任务中这些影响分类器性能的关键问 题进行介绍。 7 第2 章文本分类概述 2 2 文本分类的关键问题 2 2 1 训练文本集 训练文本集的质量对基于统计和机器学习的分类器性能有很大的影响。训练 文本集必须能够准确地代表分类系统所需要处理的各个文本,要求训练文本能够 准确地反映出该分类所属领域完整的文本统计信息。一般来说,文本分类研究中 使用的文本集应该是公认的经人工分类的语料库。国外文本分类研究都使用共同 的训练以及测试文本库,这样可以比较准确地比较不同分类方法和系统的优劣。 目前英文文本分类中使用较多的文本集包括w e b k b ,r e u t e r s 2 1 5 7 8 ,r e u t e r s c o r p u sv o l u m n l ( r c v l ) ,2 0 n e w s 等。其中w e b k b 数据集由卡耐基梅隆大学的 文本学习小组( c m ut e x tl e a r n i n gg r o u p ) 的w o r l dw i d ek n o w l e d g eb a s e 项目完 成,包括从几个大学的计算机系网站获得的网页资料;r e u t e r s 2 1 5 7 8 文本集包含 自1 9 8 7 年在路透社出现过的文本,由路透社手工完成文本的索引编制和类别划 分;r c v l 数据集也是来自路透社,主要用于多标签的文本分类研究;2 0 n e w s 数据集则包含了2 0 0 0 0 篇从2 0 新闻集团( 2 0n e w s g r o u p ) 获得的文本。 2 2 2 文本的表示模型 建立文本表示模型是一个重要的技术,关系到文本是如何被应用到分类系统 中的。在实际的分类过程中,文本本身不可能直接被用来分类,必须将文本表示 为某种方便机器处理的数学模型。文本的表示模型主要有布尔模型和向量空间模 型,目前信息处理领域主要采用的是向量空间模型。 在实际处理当中,由于涉及到的文本向量或者词频矩阵非常庞大,并且单词 之间的依赖性会使得文本信息的处理几乎无法完成,因此在现阶段处理过程中, 一般都假设单词与单词之间是互相独立,以此来降低文本信息处理的复杂度。虽 然这个假设与实际情况相违背,但对于文本分类来说,计算的复杂度大大的降低 了,并且分类效果也因为计算复杂度降低而得到显著的提高。因此,许多分类算 法都是以这个假设作为前提的。这种方法称为“朴素 ( n a i v e ) 的方法或“词袋 模型( b a g so fw o r d s ) 。统计出每个单词在每篇文本中出现的频率是算法建模的 基础,统计所有单词在所有文本中出现的频率就得到了单词文本的词频统计矩 阵。将基于自然语言的难以用数字来描述的文本信息表示为数学的矩阵形式,可 以根据矩阵的运算来进行文本的处理。 布尔模型简单地将单词的出现频率使用二值表示,如果文本中出现了该单词, 则文本向量中相应分量的值为l ,否则为0 。由于二值表示法无法细致地反应单 8 第2 章文本分类概述 词在文本中的重要程度,这种方法逐渐被更精确的词频表示法代替。词频分为绝 对词频和相对词频两种。绝对词频表示法指使用单词在文本中出现的次数作为文 本向量中对应分量上的值,而相对词频则采用归一化的词频,主要的计算方法为 t f i d f ( b l u me ta l ,1 9 9 7 ) 公式。 绝对词频表示法 直接使用单词出现的频率作为向量对应分量上的值。假设文本集合为 d = d r ,d 2 , ,划,集合辟p t 2 , ,t m 表示所有出现在d 中的单词集合。用纸妙 表示单词t i 在文本d j 中出现的次数。使用绝对词频表示法时文本d i 可以表示为向 量:t d , = ( t f ( t l ,嘎) ,t f ( t 2 ,西) ,t f ( t 脚,吐) ) 相对词频表示法 与绝对词频表示法不同,该方法通过使用一个修正因子来削弱一些在所有文 本中都出现的单词的频率来保证单词的重要程度不丢失。常用的t f - i d f 方法公式 如下: t f i d f ( t , d j ) :下丝型些丝坠錾 ( 2 1 ) 嗣 矿( f j ,t ) l o g ( n i n , + 0 0 1 ) 2 其中t f ( t i , d j ) - 与前面意义一样,n 表示所有文本的数目,n 。表示训练文本中出现t 的文本数,分母为归一化因子。我们用驴c l f ( t , ,d j ) 代替绝对词频表示法中的t f ( t i ,d j ) , 文本向量表示被修正为: 驴( 疣) = ( t f i d f ( t l ,d i ) ,t f i d f ( t 2 ,d i ) ,t f i d f ( t m ,旃) ) ( 22 ) 2 2 3 特征选择 文本的特征表示是文本挖掘工作的基础,对从文本中抽取出的元数据( 特征项) 进行量化,以一定的特征项表示文本信息。对于普通文本,提取词频信息作为分 类的特征项,然而文本的词汇数量是相当大的,因此需要进行维数压缩,主要原 因有两个:第一,为了提高运行速度,提高分类器的效率:第二,不同的词汇对 文本分类的价值是不同的,一些通用的、各含类别都普遍存在的词汇对分类的贡 献小,而在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的 贡献大,为提高分类精度,对于每一类,我们应去除那些表现力不强的词汇,筛 选出针对该类的特征项集合,或者削弱那些表现力不强的词汇的权重信息,从而 突出分类的有效特征。 从概念层次上来说,文本的特征表述分为两个主要的步骤:决定使用哪些特 征以及怎样使用这些特征。因此,选择相关特征,同时去除不相关的特征是文本 分类方法的关键问题之一。 9 第2 章文本分类概述 在实际中,我们希望分类算法能够在某些存在很多不相关特征的领域中具有 较好的适应性。更确切地说,我们希望样本复杂度( s a m p l ec o m p l e x i t y ) 或者说为 了达到某个准确度所需要的训练样本的个数,能够随着特征数的增加而仅仅是缓 慢增加,而实际上并不需要这么多的训练样本来达到这个准确度( c h a w l ae ta l , 2 0 0 4 ) 。例如,在文本分类中,特征数目往往能够达到1 0 4 到1 07 个,但实际上真 正关键的特征只是其中很小的一部分。因此,我们需要从这庞大的特征空间中找 出我们需要的特征子空间。 目前文本的特征提取主要有两种思路。一种是过滤( f i l t e r ) 方式,通过选取 原始特征集合的一个子集作为新的特征集合。通过衡量单词对分类的重要性来决 定单词是否需要被保留为最终的特征。判定单词重要性的方法主要有:特征词的 文档频率法( d o c u m e n tf r e q u e n c y ,d f ) 、信息增益法( i n f o r m a t i o ng a i n ,i g ) 、互 信息法( m u t u a li n f o r m a t i o n ,m i ) 、x 2 统计法( c h i ) 、特征词强度法( t e r ms t r e n g t h , t s ) 等( b l u me ta l ,1 9 9 7 ) 。特征选取的大致思路如下: 1 ) 初始时,特征集合包括所有在该文档集中出现过的单词: 2 ) 对于每个单词,计算该单词对于分类的重要性,得出一个重要性指数t i ; 3 ) 根据重要性指数对初始特征集中的所有单词进行排序; 4 ) 按照排序的结果,选择所需要的数量的特征或者选择重要性大于制定阂 值的特征作为最终的特征集; 5 ) 将文档转化为最终特征集合向量空间上的特征向量。 另外一种是w r a p p e r 方式,通过空间转换将原始高维空间上的数据映射到一 个新的低维空间上,低维空间上每一维的值由原始空间经过线性或非线性转换得 到。与前面所述方法最大的不同之处在于该方法并不是直接通过计算单词的重要 性然后决定该单词是否保留作为最终的特征,而是使用线性或者非线性的变换将 冗余或者无效的信息映射到相对较弱的维度上,从而保证特征提取的效果。最典 型的方法有潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) ( s c o t te ta l ,1 9 9 0 ) 、 主成分分析( p r i m a r yc o m p o n e n t a n a l y s i s ,p c a ) 、因子分析( f a c t o r a n a l y s i s ,f a ) 、 p r o j e c t i o np u r s u i t 、独立组件分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 、随机 映射( r a n d o mp r o j e c t i o n ,r p ) 等( t o r k k o l a ,2 0 0 3 ,f o d o r ,2 0 0 2 ,a a se ta l , 1 9 9 9 ) 。这类方法的特征抽取方式大致思路如下: 1 ) 初始时,特征集合包括所有在该文档集中出现过的单词; 2 ) 将所有的训练文档向量化,构成一个向量矩阵; 、 3 ) 使用某种方法( 如l s i ) 将这个向量矩阵变换成一个小的矩阵,此时新 的矩阵所在空间即为新的特征空间,然后进行分类器训练; 4 ) 将待分类文档转换成原始特征空间的向量,然后通过对应的转换方式将 1 0 第2 章文本分类概述 g ( f ) = 一p , ( q ) l o gp ,( q ) + 所( ,) p a c , it ) l o g p ,( qit ) + p ,( - ) p ,( qi t ) l o g p ,( qi ;) 其中,p ,( t ) 表示t 出现的概率,所p ) 表示t 不出现的概率,所( qi ,) 表示包含 殴 ,。 。引 差d ( e ,i ) 和方差的均值e ( d ,i ) 。显然,前者可以表示单词在各个类别中的分散程 第2 章文本分类概述 单词在各个类别中的权重均值相差较大,说明该单词能够更好地区分各个类别的 文档;而较小的e ( d ,i ) 则表示该单词在各个类别中的权重方差的均值较小,说明 该单词在各个类别中都能够保持一致的聚合度,那么该单词应该能够更好地表达 各个类别的区分信息。通过衡量每个单词的d ( e ,i ) 和e ( d ,i ) ,或者将两者相结合 的度量值木d ( e ) e ( 巩) ,即可确定单词的重要程度,然后通过设定阈值或者 选择固定数目特征的方法来选定最终的特征。 主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s 。p c a ) 主成份分析方法( j o l l i f f e ,1 9 8 6 ) 属于w r a p p e r 方法的一种,也被称为 k a r h u n e n l o e v e 转换。该方法主要是在均方差的概念上使数据在低维空间得到最 优的表达,转换为由训练数据协方差矩阵最大的本征值所对应的本征向量。在信 息检索领域与之对应是我们所熟悉的潜在语义索i ji ( l s i ) 。 首先得到初始训练文本集的文档单词矩阵,也就是最初的特征空间上的矩阵。 该矩阵乘上它的转置可得到一个矩阵,矩阵中的每一项即对应训练文档中同时出 现的单词对。矩阵中的本征向量对应文档集合中的强势单词。这些组合就可以称 为“主题 或者“语义概念”。由这些本征向量所构成的转换矩阵即可将一个文 档向量映射到这些“潜在语义概念 上,这个新的低维空间上的表达即由映射的 主体构成。具体的矩阵分解可以由稀疏变量的奇异值分解( s p a r s ev a r i a n to f s i n g u l a rv a l u ed e c o m p o s i t i o n ) 来完成( t o r k k o l a ,2 0 0 3 ) 。 假设d 代表文档t * d 的文档一单词矩阵,矩阵的每一行代表一个文档向量,假 设d 的秩为r 。d 的奇异值分解可以表示为: d :u e v t 其中是一个r * r 的矩阵,其中的每个值对应d 的奇异值,u 是一个由左奇 异列向量( 1 e f ts i n g u l a rc o l u m nv e c t o r ) 构成的t 奉r 的矩阵,而v 是由右奇异列向量 ( r o g h ts i n g u l a rv e c t o r ) 构成的d * r 的矩阵。仅保留k 个最大的奇异值以及相应的奇 异值向量,我们可以得到截断后的近似的d :皿= 玑罗。巧。这个值就是d 的 最优k 近似。 现在,t * k 的矩阵以可以用来将t 木l 的文档那个列向量d 映射到k 维的表示 向量上:矾= 醒d 。使用这些转换得到的向量,现在的文档向量即可以进行正常 的训练以及分类了。 l s i 引入的目的在于提高准确率和召回率,在一些信息检索任务中,l s i 被 证明是非常有效的。但在实际的分类问题中,l s i 并不是最好的表示方式, l s i p c a 是完全无指导的,也就是说,它完全忽略了训练文档的类别标签,只是 在均方差的意义上在低维空间中寻找原始数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高级会计实务试题及答案
- 肿瘤靶向药管理办法
- 社会团体管理办法
- pdca企业管理办法
- 老旧散小区管理办法
- 箱包厂管理办法规定
- 规范监狱资产管理办法
- 贸易交通走廊管理办法
- 不良事件资料管理办法
- 自动化物料管理办法
- 灌注桩后注浆施工记录
- 光伏2021施工上岗证考核答案
- 2023高效制冷机房系统应用技术规程
- 食品样品的采集和预处理-食品样品的采集与制备
- 昆明元朔建设有限公司高速收费岗位笔试题
- 《哲学与人生》 课程标准
- 发展汉语初级口语I-第15课课件
- Unit2Grammarfocus4C语法讲解课件人教版英语九年级全册
- 住宅大门经典对联带横批100条-最佳大门风水对联
- 生产安全事故应急预案评审会议纪要范文
- 三年级上册劳动教案 福建教育出版社(已排版好,可直接打印)
评论
0/150
提交评论