




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)中文文本分类中互信息特征选择方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j1、iq 一;。 ! i i ii ii ii ii ii ii ii i iiii 、t18 8 2 5 9 3 目录 摘要i a b s t r a c t i i i 第1 章绪论1 1 1 研究背景与意义l 1 2 国内外研究现状2 1 2 1 文本分类简介2 1 2 2 特征选择简介2 1 2 3 特征选择算法的研究现状3 1 2 4 文本分类的研究现状4 1 3 研究内容及组织安排5 1 3 1 本文的主要研究工作5 1 3 2 本文的组织安排6 1 4 本章小结6 第2 章文本分类技术7 2 1 文本分类的定义及特点7 2 1 1 文本分类的定义7 2 1 2 文本分类的特点8 2 2 文本分类的主要技术9 2 2 1 预处理技术9 2 2 2 文本表示。1 1 2 2 3 特征选择方法1 2 2 2 4 特征权鼋估算方法1 3 2 2 5 文本分类方法1 4 2 2 6 分类性能评估方法1 9 2 3 本章小结2 0 第3 章特征选择方法研究。2 3 3 1 特征选择方法概述2 3 3 1 1 特征选择定义2 3 3 1 2 特征选择步骤2 4 3 2 常用特征选择方法介绍2 4 3 2 1 文档频率2 4 3 2 2 信息增益。2 5 3 2 3 互信息2 5 3 2 4 c h i 统计2 6 3 2 5 期望交叉熵2 7 3 2 6 文本证据权2 7 3 3 特征选择方法的比较与评价2 7 3 4 本章小结2 8 第4 章基于文本词频的互信息特征选择方法2 9 4 1 互信息方法分析2 9 4 1 1 传统的互信息方法2 9 4 1 2 互信息方法存在的不足31 4 2 基于文本词频的互信息特征选择方法3 2 4 2 1 类内特征频度3 2 4 2 2 类内分散度3 3 4 2 3 最小词频3 3 4 2 4 类内文本频率。3 4 4 2 5 最小特征冗余3 4 4 3 基于文本词频的互信息特征选择方法3 4 4 4 本章小结3 8 第5 章实验3 9 5 1 中文文本分类系统框架。3 9 5 1 1 文本预处理4 0 5 1 2 特征选择4 1 5 1 3 文本分类4 2 5 2 数据来源与实验设置4 2 5 2 1 数据来源4 2 5 2 2 实验设置4 3 5 3 文本分类实验结果分析4 3 5 3 1 总体查全率与查准率4 4 5 3 2 类别查全率、查准率4 4 5 4 本章小结4 6 第6 章总结与展望4 9 6 1 总结4 9 6 2 展望5 0 参考文献5 1 致谢5 5 研究生期间发表的论文5 6 2 摘要 随着计算机技术与网络技术的不断发展与大规模普及,人们可以获得的信息越来越多, 这些信息大部分是以文本的形式存在的。如何从这些海鼍繁杂的文本数据中获得用户需要的 有用的信息逐渐成为了人们关注的重点。文本自动分类作为处理和组织大量文本数据的关键 技术,满足了人们对于内容搜索的查准、查全等方面的要求,逐渐成为了人们获取知识信息 的有效手段。文本分类技术最大的难点和特点之一就是特征向量空间的高维性。特征选择作 为特征向量空间降维常用的方法,由于其计算复杂度低而得到了广泛的应用。 特征选择方法的好坏会直接影响文本分类的效果。许多研究表明,互信息方法是一种比 较好的特征选择度量方法。互信息方法可以表示任意两个随机变量之间的统计相关性,并且 具有空间转换的不变性。在文本分类中,互信息特征选择方法仍然存在以f 问题:( 1 ) 互信 息方法只考虑了词条在文本集合中出现的文档频率,而没有考虑词条在文本集合的各个类别 中的每个文本里发生的频度问题。( 2 ) 互信息方法考虑的是词条与类别之间的相关性,而没 有考虑文本词条之间的关联性。( 3 ) 由互信息方法的特征评价公式可以看出,文本集合的各 个类别中的文本数量对于词条互信息值的计算也有一定的影响。部分研究学者针对互信息方 法存在的问题进行了研究并提出了改进方法。谭金波等哺羽针对互信息方法没有考虑词条在文 本中发生的频度问题,从局部选词的角度进行特征选择,给互信息加上了表征词条出现概率 的函数,提升高频词的权重。秦进等h 3 1 针对文本集合的各个类别中的文本数量对词条互信息 值的影响,引入了类别文本量占整个文本集的比例来进行修正,排除了当每个类别中的文本 量不相等时对词条互信息值的影响。 针对互信息方法存在的不足,本文通过引入类内特征频度和类内分散度两个指标,同时 限定词条在文本中出现的最小词频,引入m r m r 模型中的最小特征冗余度量方法,提出了一种 基于文本词频的互信息特征选择度量方法。本文的另外一个工作就是,设计并实现了一个中 文文本分类系统,用于文本预处理、特征选择和文本分类。也就是说该系统分为文本预处理、 特征选择和文本分类二个模块,每个模块之间是相互独立并且具有统一接口的,模块之间的 调用十分方便。 为了验证本文所提出的基于二文本词频的互信息特征选择方法的可行性与有效性,本文在 两南声:学硕十学位论文 中文文本分类系统上进行厂对比实验。对比实验的结果表明:通过本文方法进行特征选择, 得到的文本分类结果,无论从总体的查全率、查准率、f 1 值还是从各个类别的查全率、查准 率、f l 值来看,都比使用传统的互信息特征选择方法和已有的一些改进的互信息特征选择方 法进行特征选择得到的文本分类的效果有所提高,从而证明了本文所提出的互信息特征选择 方法的可行性与有效性。 i l 关键词:文本分类特征选择互信息 a b s t r a c t s t u d y o fm u t u a li n f o r m a t i o nf e a t u r e ,、 j j 1 j _憎- s e i e c t l o nl nl n l n e s et e x tc l a s s i l i c a t i o n m a j o r :c o m p u t e r s o f t w a r ea n dt h e o r ya u t h o r :c a i f e n gd e n g s u p e r v i s o r :p r o f e s s o ry a nt a n g a b s t r a c t w i t ht h ea d v e n to fc o m p u t e rt e c h n o l o g ya n di n t e m e tt e c h n o l o g y , p e o p l ec a l lg a i nm o r ea n d m o r ei n f o r m a t i o n , w h i c he x i s t si nt e x tf o r ma l lm o s t i ti st h ek e yd i s c u s s i o nt h a th o wt oa c c u r a t e l y , c o m p r e h e n s i v e l ya n dq u i c k l ym i n et h eu s e r si n t e r e s t e di n f o r m a t i o ni ns u c hm a s s i v ed o c u m e n td a t a t e x tc a t e g o r i z a t i o nt e c h n o l o g y , w h i c hi so n eo ft h ek e yt e c h n o l o g i e st os o l v et h i sp r o b l e m ,h a s b e c o m ea ne f f e c t i v em e t h o do f o b t a i n i n gi n f o r m a t i o n r e d u c i n g t h ed i m e n s i o n so f h i g h - d i m e n s i o n a lf e a t u r es e ti so n eo ft h ed i f f i c u l t i e so ft e x tc a t e g o r i z a t i o n f e a t u r es e l e c t i o nh a s b e e ne f f e c t i v e l ya p p l i e di nt e x tc l a s s i f i c a t i o n ,b e c a u s eo fi t sl o wc o m p l e x i t yo fc o m p u t i n g f e a t u r es e l e c t i o nm e t h o di sad i r e c ti m p a c t0 1 1t h er e s u l to ft e x tc a t e g o r i z a t i o n m a n y r e s e a r c h e ss h o wt h a tm u t u a li n f o r m a t i o ni sag o o df e a t u r es e l e c t i o nm e t h o d t h em ih a st w om a i n p r o p e r t i e st h a td i s t i n g u i s hi tf r o mo t h e rd e p e n d e n c ym e a s u r e s :f i r s lt h ec a p a c i t yo fm e a s u r i n ga n y k i n do fr e l a t i o n s h i pb e t w e e nv a r i a b l e s ;s e c o n d ,i t si n v a r i a n c eu n d e rs p a c et r a n s f o r m a t i o n s b u tt h e t r a d i t i o n a lm u t u a li n f o r m a t i o na p p r o a c hs t i l lh a st h ef o l l o w i n gd i s a d v a n t a g e s :( 1 ) m u t u a l i n f o r m a t i o nm e t h o do n l yc o n s i d e r st h ed o c u m e n tf r e q u e n c yo f t e r mi nt h ec o r p u s ,w i t h o u tt a k i n g i n t oa c c o u n tt h et e r mf r e q u e n c yi ne a c hc a t e g o r yo ft h ec o r p u s ( 2 ) m u t u a li n f o r m a t i o nm e t h o d f o c u s e so nt h ec o r r e l a t i o nb e t w e e nt e r m sa n dc a t e g o r i e s ,w i t h o u tc o n s i d e r i n gt h ec o n n e c t i o n s b e t w e e nt e r m s ( 3 ) t h en u m b e ro f t e x t si ne a c hc a t e g o r yi nc o r p u sa l s oh a sa ni n f l u e n c eo nt h ev a l u e o fm u t u a li n f o r m a t i o n s o m er e s e a r c h e r sh a v ep r o p o s e de n h a n c e m e n ta b o u tt h e s ed i s a d v a n t a g e s t a nj i n b oe n h a n c e dt h ew e i g h to fh i g h - f r e q u e n c yw o r dt h r o u g hp r o p o s i n gaf u n c t i o na b o u t p r o b a b i l i t yo ft e r m st h a ta p p e a r si nc o r p u sa n ds e l e c t i n gf e a t u r e sf r o me a c hc l a s s q i nj i nr e d u c e d i n f l u e n c ew h e nt h ea m o u n to ft e x ti ne a c hc a t e g o r yi sd i f f e r e n tt h r o u g hi n t r o d u c i n gc o r r e c t i o n f a c t o r t or e m e d y i n gt h ed e f e c t so ft r a d i t i o n a lm u t u a li n f o r m a t i o nm e t h o d ,t h i sa r t i c l ei m p r o v e d m e a s u r eo fm u t u a li n f o r m a t i o nb yi n t r o d u c i n gt h ef e a t u r ef r e q u e n c yi nc l a s sa n dt h ed i s p e r s i o no f f e a t u r ei nc l a s s ,l i m i t i n gt h em i n i m u mt e r mf r e q u e n c y , i n t r o d u c i n gam i n i m u mf e a t u r er e d u n d a n c y t t l 两南大学硕t 产伊论文 m e a s u r em e t h o di nm o d e lm r m r a n o t h e rw o r ko ft h i sa r t i c l ei s ,t ob u i l dae x p e r i m e n t a lp l a t f o r m b yc o n s t r u c t i n gac h i n e s et e x tc l a s s i f i c a t i o ns y s t e m w h i c hc a l lb eu s e df o rt e x tp r e p r o c e s s i n g , f e a t u r es e l e c t i o na n dt e x tc l a s s i f i c a t i o n t h a tm e a n st h i ss y s t e mi sd i v i d e di n t ot h r e em o d u l e s e a c h m o d u l ei si n d e p e n d e n ta n dh a sau n i f i e di n t e r f a c e t ov e d f ye f f i c i e n c ya n df e a s i b i l i t yo ft h en e wi m p r o v e df e a t u r es e l e c t i o na p p r o a c h , am u l t i - s e t o fe x p e r i m e n t sb a s eo nt h ec h i n e s et e x tc a t e g o r i z a t i o nt e s ts y s t e mp l a t f o r mh a v eb e e nt a k e n r e c a l l , p r e c i s i o na n df 1a r eu s e da st h ee v a l u a t i n gi n d i c a t o r so fe x p e r i m e n t sr e s u l t s t h er e s u l t ss h o wt h a t t h en e wf e a t u r es e l e c t i o na p p r o a c hh a sam o r ee x c e l l e n te f f e c to fr e d u c i n gd i m e n s i o nt h a nt h e 蠢 t r a d i t i o n a lm u t u a li n f o r m a t i o na p p r o a c ha n ds o m ei m p r o v e da p p r o a c h e s t h i sp r o v e st h a tt h e i m p r o v e dm u t u a li n f o r m a t i o nf e a t u r es e l e c t i o na p p r o a c hi sf e a s i b l ea n d e f f e c t i v e w k e yw o r d s :t e x tc l a s s i f i c a t i o n f e a t u r es e l e c t i o nm u t u a li n f o r m a t i o n 第l 章绪论 第1 章绪论 1 1 研究背景与意义 目前,人类社会已经进入到了一个信息大爆炸的时代。网络技术和数据库技 术的发展与普及,为世界范围内的信息技术革命提供了技术性的保证与平台。人 类的大部分信息已经从传统的纸质载体过渡到了电子载体,i n t e m e t 已经成为了全 球最大的信息资源库。截至2 0 0 5 年底【l j ,g o o g l e 收录的全球网页达到了8 2 亿, 百度收录的中文网页达到了1 0 亿。根据最新统计数据,自2 0 0 6 年以来1 2 1 ,全球 的网站数量达到了约9 千万个,平均每个月的增长数量超过了2 0 0 万,而网站的 数量还在持续强劲地增长。就中国而言,截至2 0 0 8 年 3 1 ,中国网页数为8 4 7 亿 个,年增长率达到了8 9 4 ,网络信息资源的增长速度非常迅猛。从网页内容上 看,大部分信息仍是以文本的形式存在,占网页总数的8 7 8 。截至2 0 0 6 年3 月 3 1 日,世界上所有的网络用户数量约为1 0 4 亿,网民平均普及率为1 6 。越来 越多的网络用户希望能够准确地找到自己所需要的信息,并且想要获得的信息量 也越来越多。信息爆炸和信息过载带来了互联网时代的新挑战。如何从这些海量 的文本信息中获取有用的信息,并且快速有效地管理和使用这些文本数据成为了 信息处理领域里面亟待解决的问题。 文本分类( t e x tc a t e g o r i z a t i g n ) 4 1 可以在大规模的文本集合当中对文本进行高 效率的组织和管理,已成为一项具有较高实用价值的技术。文本分类按照预先定 义的主题类别,根据文档的内容或属性,将文档集中的文档归到一个或者多个类 别中。通过文本分类系统将文本进行归类,可以更好地帮助人们找到需要的知识 和信息,能够使网络上的资源得到有效的共享利用,从而提高工作效率,对更进 一步普及i n t e m e t 具有极其现实的意义。近年来,文本自动分类技术已经逐渐与 搜索引擎( s e a r c he n g i n e ) 、信息推送( i n f o r m a t i o np u s h ) 、信息过滤( i n f o r m a t i o n f i l t e r i n g ) 等信息处理技术相结合,有效地提高了信息服务的质量。 由于电子文本数据大部分是非结构化或者半结构化的,所以表示文本数据的 特征向量空间就会有高达几万维甚至是几十万维。即使经过初略的筛选,还是会 有很多高维度的特征向量留下,使得文本分类算法运行效率低,分类的精度和准 确度受到很大的影响。因此,特征降维在文本分类中的作用就显得尤为重要,对 特征选择方法进行研究具有重要的意义。 文本分类技术最早诞生于2 0 世纪6 0 年代,它的任务是:在给定的文本分类系统 中,根据每一个类别的样本内容或属性,建立对应的判定公式和规则并总结出分 类规律;然后根据这些规律把待分类的文本划分到相应的类别中去。本质上来说, 文本分类是一种特定的模式识别问题。 文本分类的一般流程是:首先对文本进行预处理,将非结构化或半结构化的文 本数据进行结构化处理,即文本表示;然后进行特征选择,从总的特征集合中选 出最能代表文本内容的特征项,从而降低特征向量空间维数;接着使用训练文本 集合构造并训练分类器;最后使用构造的分类器对测试文本进行分类处理。 文本分类的相关知识将在第二章中进行详细阐述。 1 2 2 特征选择简介 在有的文献中,特征选择被称为属性选择( a t t r i b u t es e l e c t i o n ) 或者变量 选择( v a r i a b l es e l e c t i o n ) 。本文采用大多数文献和学者对特征选择的理解,约 定特征选择是指在输入特征集中选择一个与目标概念最相关特征子集的过程呻1 。 在某些文献中,经常还会看到特征提取( f e a t u r ee x t r a c t i o n ) 这个词,它是维 数约简的另一类方法,跟特征选择是不一样的n 1 。特征提取指的是采用映射的方 法,将原始特征进行组合或者变换得到新的特征。两者的区别在于有没有对特征 空间进行变换。常用的特征提取方法有主成分分析、f i s h e r 线性判别分词以及潜 在语义索引方法等。 随着文本分类、遗传学和组合化学等领域数据的快速增长,特征选择逐渐发 展成为了一个具有挑战性的研究课题,越来越受到人们的重视。这些领域的数据 集大部分都包含了成百上千的特征,而在这些特征中有很多都是冗余的或者不相 关的特征。由于领域知识的缺乏,这些多余的特征仍然被包括在数据集中。由于 最初的分类技术在设计时没有考虑到如何处理这些不相关的特征,所以特征选择 技术作为维数约简方法中计算复杂度较低的常用的技术逐渐发展了起来,弥补了 文本分类的这一技术空白陋,。 中文文本分类处理的对象是中文文本。而中文跟英文存在很大的差别,特别 是分词处理上。中文文本经过分词处理得到的渊条数量非常大,即使去掉一些常 2 第l 章绪论 用的停用词,即去掉在文本中存在的对分类没有意义的词语,仍然会有大量的测 条剩下来。当进行文本表示时,向量空间的维数就会很高,通常会达到万维甚至 几十万维。高维度的向量空间使得在进行分类时需要花费很多的时间来进行分类 算法学习,同时也降低了分类的效率和精度,所以研究特征选择在中文文本中的 应用显得十分必要。特征选择的目的在于减小文本的特征向量维数,去除冗余特 征,保留有区分能力的特征,提高文本分类系统分类的效率和精度。 特征选择的相关知识将在第三章中进行详细阐述。 1 2 3 特征选择算法的研究现状 特征选择的研究开始于2 0 世纪6 0 年代,这一时期的研究都是在一个假设上 进行的,即特征之间是相互独立的。到2 0 世纪7 0 年代,特征选择得到了比较系 统的发展,寻找可行的特征选择算法逐渐成为了国际上的研究热点,这类特征选 择算法也是数据挖掘的主要理论课题之一。 目前国际上进行特征选择研究的着眼点主要放在搜索策略和评价标准这两个 选择优化特征集合所需要的主要步骤七。国际上在特征选择方面进行了大量的工 作,其中c m u 的y a n gy n l h l g | 9 1 教授的论点较具代表性。在y a n g 的论文中,她 对目前存在的常用的特征选择方法进行了总结与归纳。她的实验研究表明,特征 选择的主要功能是在不损伤分类精度的情况下尽量减少要处理的词条数,降低向 量空间的维数,从而提高分类的速度和效率。 国内对特征选择的研究尚未成熟,同时由于中文与英文存在较大的差异,特 别在对中文进行分词处理问题上,会遇到很难的问题,而目前也还没有找到一种 十分完美的解决方法。目前在中文信息处理中,使用的文本特征主要是词或 n g r a m 。 近年来,特征选择已成为众多领域研究者的热门研究课题。从分类的结果看, 现有的特征选择方法对特征的维数都有不同程度的降低,对分类器的效率和分类 精度也都有一定程度的提高。人们针对一些比较经典成熟的特征选择算法,提出 了很多新的算法【9 l 【l o j 【l l 】。这些新的算法大致可以分为两类,一类是基于统计的算 法,如信息增益i g ( i n f o r m a t i o ng a i n ) 、互信息m i ( m u t u a li n f o r m a t i o n ) 、卡方统计 c h i 、交叉熵( c r o s se n t r o p y ) 、证据权值( w e i g h to fe v i d e n c e ) 等等;另一类是基于 字典的算法。基于字典的算法对精度要求很高,但是需要字典的支持,并且与领 域相关,所以使用得比较少。而基于统计的算法,无需建立字典,也与领域知识 无关,尽管它对精度的要求相对来说比较低,但是现在仍然使用得比较广泛。 基于统计的特征选择算法很多是基于词频、位置或者信息理论的。除此之外, 有的学者还把特征频度、特征熵、特征强度等用于特征选择的统计量。目前,国 3 两南尺学硕士学位论文 内外义提出了一些新颖的基于统计鼍的特征选择算法,比如支持向量机( s v m ) 的特征选择算法【1 2 1 、期望交叉熵( e x p e c t e dc r o s se n t r o p y ) 、几率e l ( o d d s ) 、频率 差特征选择算法等。 总的来说,目前国内外的研究学者在特征选择领域的研究和努力方向主要集 中在以下两个方面。 ( 1 ) 寻找一个公认的比较优秀的统计量,可以用来衡量词条的区分度,以便 度量一个候选特征词条所携带的对文本分类有价值的信息量的大小,确实有效地 衡量词条对分类的贡献。 ( 2 ) 研究如何确定文本选择的比例。对于一个文本集合,很难有一个比较通 用的经验值来确定到底要选择多少比例的原始词条作为最优特征子集合。对于如 何来衡量这个问题,还需要通过大量的研究比较【1 3 l 。 1 2 4 文本分类的研究现状 分类是数据分析的基本问题之一,受到了机器学习、模式识别、统计学和数 据挖掘等领域研究者的关注,并且广泛应用于银行、金融、保险、交通、通信、 市场营销、经济分析、生物信息等诸多领域。 在2 0 世纪8 0 年代以前,由于计算机硬件技术的强有力发展,文本分类逐渐 发展成为了信息系统学科的一个专业子领域。对于文本分类技术的研究也只停留 在理论方面,对于文本分类技术的应用主要是在信息检索方面。从2 0 世纪8 0 年 代到9 0 年代,信息检索技术发展逐渐成熟,为文本分类提供了很多技术支持。最 有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统,需 要大量的领域专家参与。其中比较典型的应用就是卡内基集团为路透社开发的 c o n s t r u e 系统n4 | 。 直到2 0 世纪9 0 年代初期,随着电子文本的急剧增加,知识工程方法越来越 不能满足实际应用的需要,于是基于机器学习的自动文本分类系统开始兴起,其 分类效果明显超过了基于知识工程的方法,成为了文本分类的主流技术。它是从 预先分好类的文本集合中学习类别的特征信息,根据分类算法生成分类器。这种 自动分类方法适应能力强,方便移植,不需要知识专家或者领域专家的过多干预, 节省了大量的人力物力,分类效率和准确率都有很大的提高。 目前所说的文本分类都是基于机器学习的文本分类。所谓机器学习,就是指由 计算机代替人,学习关于认识世界、改造世界的知识。现在,文本分类成为了机 器学习与信息检索的一个交叉学科,它与文本信息提取和文本挖掘有很多相同的 特征。文本挖掘用于分析大量文本并构建有用的模型,从而提取出有用的信息, 从这个角度来讲,文本分类是文本挖掘的一个分支别。到目前为止,国外关于文 4 进入了实用化阶段。文 了较为广泛的应用n 6 3 。 我国对文本分类技术的研究起步较晚。由于中文跟英文之间存在的差异,国 外的研究成果不能完全适应中文文本分类。于是,开发实用化的中文文本自动分 类系统就显得十分必要。国内对文本分类的研究开始于2 0 世纪8 0 年代初期。早 期对中文文本的分类研究比较少,采用的技术也主要是把英文文本分类的技术应 用到中文文本分类当中。十九世纪八十年代,侯汉清教授对计算机在中文文本分 类工作中的应用进行了探讨。2 0 世纪9 0 年代后期,国内着重研究了中文文本分 类技术,结合中文文本的特点,陆续研制出一批中文文本分类系统,在中文文本 分类技术的研究方面取得了不小的成果n 训。 中文文本分类是中文信息处理的经典研究方向之一,有着非常重要的实用价 值。中文文本分类的核心技术是构建一个具有高准确度和高速度的分类器,它从 文本训练集合中学习文字属性和分类标号之间的关系,从而实现对新的中文文本 的分类。目前,中文文本分类在中文信息检索、档案管理和中文新闻主题追踪等 方面部有着非常重要的应用价值。2 0 0 5 年,第一届中国分类技术及应用学术会议 召开。2 0 0 7 年5 月,召开了第二届会议。 随着研究的逐渐深入,文本分类的应用越来越广泛,分类方法研究的主要趋 势有:( 1 ) 对传统经典分类方法的改进;( 2 ) 不断涌现新的分类方法;( 3 ) 多种分 类方法的综合运用。随着数据挖掘、人工智能和机器学习等技术的深入研究,将 在很大程度上促进文本分类技术的发展。 1 3 研究内容及组织安排 1 3 1 本文的主要研究工作 针对文本分类的相关技术,本文进行了比较全面的研究,包括文本预处理技 术、特征选择技术、文本分类技术等。特征选择作为中文文本分类的关键技术之 一,对分类效果和效率有着直接的影响,所以本文研究的主要内容就是特征选择。 本文主要研究了互信息特征选择方法在文本分类中存在的不足,并针对相关不足 进行了相应的改进。为了验证改进的互信息方法的可行性和有效性,本文设计实 现了一个中文文本分类系统,在此系统上进行了对比实验。 本文的主要研究内容如下: ( 1 ) 对文本分类中的互信息特征选择方法进行深入研究分析,总结出互信息 方法存在的一些不足之处,即互信息方法没有考虑词条在文本中出现的频率,特 别倚重低频词;没有考虑词条之间的相关性,没有考虑文本集数量的不同对词条 权重计算的影响。 5 西南犬9 v 硕十学位论文 ( 2 ) 针对且信息特征选择方法存在的不足,本文提出一种基于文本词频的互 信息特征选择方法,引入了类内特征频度和类内分散度两个指标,同时通过限定 词条在文本中出现的最小词频和引入m r m r 模型中的最小特征冗余度量方法, 对传统的互信息方法进行了改进。 ( 3 ) 设计并实现了一个集中文文本预处理、特征选择、文本分类功能于一体 的中文文本分类系统,采用相同的文本数据集、相同的文本分类算法、相同的实 验参数,在文本分类系统上,将本文所提出的基于文本词频的互信息特征选择方 法与传统的互信息特征选择方法以及其他改进的互信息特征选择方法进行对比实 验。通过对分类实验结果的比较分析,验证了本文所提特征选择方法的町行性和 有效性。 1 3 2 本文的组织安排 本文共有六章,文章结构内容安排如下: 第一章是绪论,主要介绍了文本分类技术、特征选择技术的发展背景和研究 现状,给出了本文的主要研究方向和研究内容,并给出了本文的整体组织结构。 第二章主要是介绍文本分类技术。对文本分类的定义、特点以及文本分类所 涉及到的各种技术包括文本预处理技术、文本表示方法、文本分类方法等进行了 详细地介绍。 第三章主要介绍了文本分类中的特征选择技术,对特征选择的定义、步骤以 及目前常用的一些特征选择方法进行了详细介绍,并对常用的特征选择方法进行 了分析比较。 第四章着重介绍了特征选择方法中的互信息方法,分析了传统互信息方法存 在的不足并针对这些不足提出了基于文本词频的互信息特征选择方法。 第五章是实验。设计并实现了一个中文文本分类系统,并在该系统上将本文 提出的基于文本词频的互信息特征选择方法、传统的互信息特征选择方法和其他 的互信息改进方法进行了对比实验,通过实验验证本文方法的可行性和有效性。 第六章是对本文工作的总结,并对需要进一步研究的工作进行了展望。 1 4 本章小结 本章介绍了文本分类技术和文本分类的特征选择技术的发展背景和研究现 状,简单陈述了本文的主要研究方向和研究内容,最后给出了本文的整体组织结 构安排。 6 文本划分到一个或多个类别的过程。从数学的角度来看,文本分类实际上是一个 映射过程,它将未标注类别的文本根据一定的规则映射到预定义的类别,这个映 射可以是一一映射,也可以是一对多的映射旧3 。用数学语言可以描述为: f :a _ b ,其中,a = o m ,0 2 ,o n 是待分类的文本集合,b = c 1 ,c 2 ,巳) 为 预定义类别的分类体系下,所有文档类别的集合。 文本分类的形式化定义为n 引:对于给定的文本集合( 乃,q ) d x c , d = 盔,吐,以) ,d j 表示第,个文本,d 由刀个文本组成;c = q ,c i 。,i 是预先 定义好的文本类别,钠表示类别,文本集合c 总共有lc1 个类别。客观来说,在 yy 待分类文本集与预定义类别之间存在一个目标函数,表示为: y :d xc - - t ,f )( 1 1 ) 其中( d ,q ) d c ,如果文档d , 于类另。l jc , ,则将 的值为f 。被称为分类器( c l a s s i f i e r ) 或者分 类模型( m o d e l ) ,能够将文本正确地分到预定义的类别中,即对于d 中的文档d 来说,e p ( d ) 的已知的,即( t ,q d xc 的布尔值是已知的。 文本分类的任务是通过对文本分类的训练文本集的有指导的学习,找到一个 函数: :d xc 一口,f )( 1 2 ) 使函数( 1 2 ) 尽量逼近未知的目标函数( 1 1 ) 。找到分类模型。之后,就可以将 待分类文本以的分类结果表示成e a ( d ) 。文本分类系统的设计实现与文本分类学 习的共同目的就是找到一个与分类模型最相似的分类模璎中,使得他们的值尽 可能多地相互接近,用公式表示为: m i 珂( ,= l 1 0 1 ,、v 、d ,) 一( z ) ) ) ( 1 3 ) 7 两南人学硕十学伊论文 !i i 曼皇曼曼皇曼曼曼曼曼曼曼曼曼曼曼曼曼量曼曼曼曼曼曼曼曼曼曼曼曼曼量曼曼曼曼曼曼曼曼曼曼曼曼曼曼皇曼量鼍量鼍舅皇曼量曼量曼笪曼曼曼量寡曼曼曼曼曼皇皇曼曼曼皇 其中i d i 表示待分类文本集的大小,f 表示判断和是否相似的评估函数旧1 。通 常情况下一般将多类映射问题转化为一对二映射问题进行研究,例如对垃圾邮件 的判定就是一个一对二的分类映射。 2 1 2 文本分类的特点 文本分类实际上是一个模式分类任务,很多模式分类的方法都可以应用到文 本分类中来。由于文本分类是模式分类和自然语言处理的一个交叉学科,与文本 的语义相关。所以,与普通的模式分类相比,文本分类具有自己的特点n 引。 ( 1 ) 特征空间高维性 在中文文本分类中,文本经过分词处理后得到的词条数量非常大,即使去掉 了停用词,仍然会有大量的词条剩下来。当用文本向量空间模型表示文本时,向 量空间的维数就会很高,通常会达到万维甚至几十万维。 ( 2 ) 特征语义相关性 设定绝大多数特征词条之间是相互独立的,那么在使用特征选择方法选取彼 此没有关联的特征词条,就可以很好地解决文本分类中特征词条维数高的问题。 但实际上,在文本分类中,特征词条之间并不是毫无关联的。通常,文本分类中 的许多特征词条之间都有一些相互依赖的关系。 ( 3 ) 特征同义和多义现象 文本分类中通常使用词条、短语等来作为表征文本语义的特征项。但是这些 特征往往很难清晰地表达一种含义。一个特征词条可能有很多种含义,即多义现 象,比如:“杜鹃 这个词既可以表示杜鹃花的含义,也可以表示杜鹃鸟的含义。 同时,不同的特征又可以描述相同的含义,即同义现象,比如:“电脑”和“计算 机”这两个特征都表示相同的含义。 ( 4 ) 特征的分布稀疏性 文本分类时,用特征词条表示文档的特征,维数非常高,而文本中出现的特 征词条只占总特征词条的较小一部分。因此,多数特征词条的出现频率都为零, 导致了特征空间向量中大部分特征词条的权值都为零,特征的分布非常稀疏。 ( 5 ) 基本线性可分 在文本分类中的大多数文本类别之间是不存在双螺旋结构的,大部分文本类 别是线性可分的。一些复杂的、在其他模式分类中应用成功的方法,在文本分类 中未必能够取得很好的效果。 目前,在基于机器学习的文本分类研究当中,按照文本分类学习方式对分类 技术进行划分可以分为三大类。一类是比较经典的有监督分类;通常简称为文本 分类( t e x tc a t e g o r i z a t i o n ) ,它的思想是从训练集中学习模型,然后根据待分类文本 8 第2 章文本分类技术 内容或属性判定类别。另一类是无监督分类,称为文本聚类( c l u s t e r i n g ) ,文本聚 类按照某一种标准对文本集合进行划分,使相似的文本划分到同一组中。第三类 是半监督学 - - ( s e m i s u p e r v i s e dl e a r n i n g ) ,介于有监督分类和无监督分类之间,它 是在已标记和末标记文本上共同学习,同时对未标记的文本进行标记。 中文文本分类方法主要有两大类:基于外延的分类方法和基于语义的分类方 法。基于外延的分类方法主要是根据文本的外在特征进行分类,不关心特征的语 义。目前国内的中文文本分类都倾向于这种方法。基于语义的分类方法依据的是 文本特征的语义,根据全部或者部分理解文本的语义进行分类,但这一类方法的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年统计人员考试题及答案
- 文武教育笔试题目及答案
- 2025年殡葬国企考试题目及答案
- 收房子购房合同(标准版)
- 盆景护理知识题库及答案
- 道教入门考试真题及答案
- 约束带应急预案
- 公文处理知识题库及答案
- 【语文+答案】浙南名校联盟2025-2026学年高三上学期10+月联考语文试题-A4答案卷尾
- 有机兔肉生产创新创业项目商业计划书
- 2025年国家能源集团宁夏煤业有限责任公司招聘笔试考试题库+答案
- 父母情+养育恩-2025-2026学年高二上学期感恩教育主题班会
- 2025年物流行业审核合规性提升方案
- 安徽省九师联盟2026届高三9月开学联考英语(含答案)
- 高校实验室安全基础(华东理工大学)学习通网课章节测试答案
- 女生青春期性教育核心知识框架
- 日常膝关节护理
- 概率论与数理统计课后答案及概率论与数理统计(第五版)习题答案
- ppt模板:我不是药神电影鉴赏报告模板
- GB/T 5013.3-2008额定电压450/750V及以下橡皮绝缘电缆第3部分:耐热硅橡胶绝缘电缆
- GB/T 25728-2010粮油机械气压磨粉机
评论
0/150
提交评论