已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用 中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这 些应用往往就是为了预测其中很少出现却很重要的文本,这就是所谓的文本分类不平衡 问题。传统方法对少数类的识别率较低,如何有效的提高少数类的分类性能成为机器学 习和模式识别领域亟待解决的问题。因此,本课题的研究具有重要的理论意义和良好的 应用前景。 本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理 的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化 性能,即先对文本的训练集进行预处理,再用处理过的数据集训练分类器。提出一种改 进的过抽样方法,在少数类中提取该类若干文本中的任意段落,再将提取出的段落添加 至此类原始文本末尾,产生新的合成少数类样本。其主要思想是通过增加一些文本使各 类中所含文本数量达到平衡。通过实验表明,该系统有效地提高了小类别文本分类的正 确率。 关键词文本分类不平衡数据集文本特征 分类器 a b s t r a c t a b s t r a c t h o wt oo r g a n i z ea n dm a n a g et h em a s so fi n f o r m a t i o ne f f e c t i v e l yb e c o m e so n eo ft h eh o t s p o tt o p i c s a sw ek n o wt h et e x ta u t o m a t i cc l a s s i f y i n gi s t h ef o c u sa n dc o r et e c h n o l o g yo f i n f o r m a t i o nr e t r i e v a la n dd a t am i n i n gd o m a i nr e s e a r c h h o w e v e r , i np r a c t i c a la p p l i c a t i o n , s o m ek i n d so ft e x ta r em a n y , w h i l eo t h e r sa r ef e wi nt e x ts a m p l e s i nt h e s es a m p l e s ,p e o p l e u s u a l l yi n t e r e s tt h et e x t st h a td o n tp r e s e n tu s u a l l yb u tv e r yi m p o r t a n t t h i si sc a t e g o r i z a t i o n i m b a l a n c e do ft e x tw h i c hi sau n i v e r s a lp r o b l e mi no u rl i f e b u tt r a d i t i o n a la p p r o a c h e su s u a l l y l e a dal o wr e c o g n i t i o nr a t e ,h o wt oe f f e c t i v e l yi m p r o v et h ec l a s s i f i c a t i o np e r f o r m a n c eo fa s m a l ln u m b e ro fc a t e g o r i e sh a sb e c o m et h ef i e l dp r o b l e mo fm a c h i n el e a r n i n ga n dp a t t e r n r e c o g n i t i o nt ob es e t t l e du r g e n t l y t h e r e f o r e ,t h ew o r ki n t h i sp a p e ri sac h a l l e n g i n gp a t t e m r e c o g n i t i o np r o b l e mo fg r e a tp r a c t i c a li m p o r t a n c e t h i sp a p e ra i m sa ti m p r o v i n gt h ec a t e g o r i z a t i o np e r f o r m a n c eo ft h es m a l ln u m b e ro f s a m p l e si nt h ei m b a l a n c ed a t a s e t s ,a n dd e a l i n g w i t hd a t ar e s a m p l i n gf r o mt h ep e r s p e c t i v eo f d a t a w eu s e dt h em e t h o do fr a n d o ms a m p l i n gt oi m p r o v et h eg e n e r a l i z a t i o np e r f o r m a n c eo f 也ec l a s s i f i e ro nt h ei m b a l a n c ed a t as e t s ,t h a ti s ,w ed op r e t r e a t m e n to nt h et r a i n i n gs e t so f t e x t ,a n dt h e nt r a i nt h ec l a s s i f i e rb yt h ed a t as e t sw h i c hh a v eb e e np r o c e s s e db e f o r e w e p r o p o s e da ni m p r o v e do v e r - s a m p l i n gm e t h o d s ,a n d i nas m a l ln u m b e ro fc a t e g o r i e sw e e x t r a c t e da na r b i t r a r yn u m b e ro ft e x tp a r a g r a p h s ,a f t e rt h a t ,w ea d d e dt h ep a r a g r a p h sb e e x t r a c t e dt ot h et h e i ro r i g i n a lc a t a g o r i e s ,s oas m a l ln u m b e ro fn e ws a m p l e sw e r es y n t h e s i z e d t h em a i ni d e ai st om a k et h en u m b e ro fv a r i o u st y p e so ft e x t sb yi n c r e a s i n gs o m et e x t s t h e e x p e r i m e n t i n d i c a t e st h a tt h es y s t e mh a si m p r o v e dt h ea c c u r a c yo ft e x t c a t e g o r i z a t i o n e f f e c t i v e l y k e yw o r d s t e x tc a t e g o r i z a t i o ni m b a l a n c e dd a t a s e t s t e x tf e a t u r ec l a s s i f i e r i l 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了致谢。 作者签名: 主缉 日期:毕上月上日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“”) 保护知识产权声明 本人为申请河北大学学位所提挛的题目为堕孑弹匆放劫誓镜) 始燃 的学位论文,是我个人在导师( 福) 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费 资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定 的各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人一j 聋日期:j 驾l 年二月三日 作者签名: 缉 导师签名:耋汹 日期:上乒年上月上二日 日期:迎2 年厶月丝日 第1 章引言 第1 章引言 1 1 研究背景和意义 随着信息技术的发展,人们可以获得越来越多的数字信息。有研究报告指出【l 】,2 0 0 6 年全球每年制造、复制出的数字信息量共计1 6 1 0 亿g b ;而受“富媒体”、用户创建内容 和十几亿网民这三大因素的推动,到2 0 1 0 年,全球数字信息量预计为9 8 8 0 亿g b ,从 2 0 0 6 年至2 0 1 0 年,全球信息量增幅为6 倍。 数字信息的泛滥将为信息管理带来巨大的压力。目前的数字信息资源一般由文字、 声音、图片、视频等多媒体资源构成,而文本信息在数字信息中占有相当大的比重,因 而,对文本信息的分类处理成为信息管理中重要的一环。 1 2国内外研究现状 国内外对于文本分类技术的研究均已开展较长的时间,总体上来说,文本分类技术 已经有了较为完善的发展。但是,值得注意的是,在实际应用中,文本分类中数据集的 不均衡问题是一个普遍存在的问题。随着机器学习、信息检索从发展到成熟,数据集的 不均衡( i m b a l a n c e ) 或偏斜( s k e w e d ) i 口- j 题就成为一个新的重要的问题【2 1 。数据集的不均衡问 题,即类别间样本的数量可能存在数量级的差距,这是导致分类效果很不理想的一个重 要因素。在数据不均衡的情况下,分类器容易被大类淹没而忽略小类口,3 1 。 数据集的不均衡问题已渐渐成为一个研究的热点,国际上举办过两个专门针对这个 问题的研讨会( w o r k s h o p _ 卜2 0 0 0 年在a a a i 上和2 0 0 3 年在i c m l 上分别设了针对 该主题的研讨【4 1 。 针对不均衡数据集问题其自身的特点,如何在不影响整体分类性能的基础上,提高 少数类文本的分类效果是解决不均衡数据集问题的基本要求。 y y a n g ,p e d e r s e nj o 【5 】针对平面文本分类问题,分析和比较了文档频率( d f ) ,信息 增益( i g ) ,互信息( m i ) 等特征选择方法,结合l l s f 和k n n 分类器,得出d f 和i g 在 文本分类中表现得较好,m i 相对较差。该方法强调了特征选择的重要性。 dm l a d e n i c ,mg r o b e l n k1 6 j 针对等级文本分类问题( 数据集很不均衡) ,分析和比较 了信息增益,期望交叉熵,文本证据权及优势率等方法,结合贝叶斯分类器,实验结果 表明二元优势率是最好的特征选择方法,而i g 相对较差。该方法倾向于高频词条。但 1 河北大学t 学硕士学位论文 对于不均衡数据集而言,倾向于高频词条的i g 却未得到好的分类效果。因为考虑到词 条未发生时的情况,即一个特征( 词条) 未出现对分类的贡献。实验表明,这种贡献往 往小于考虑词条不出现情况所带来的干扰。 s h o u s h a nl i ,c h e n g q i n gz o n g l 7 】提出了使用类别区分词或使用强类别信息的方法, 这些方法也都得到了较高的分类性能。根据不均衡数据集问题其自身的特点,在不影响 整体分类性能的基础上,提高稀有类别的分类效果是解决此问题的基本要求。 徐燕等【8 l 提出了解决不均衡数据集问题的一个途径构造形如d f i c f 的特征选 择方法。从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分 类性能的关键。一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词 的趋势。通过在r e u t e r s 语料上进行实验,结果表明该特征选择方法的效果比i g 、d f 都 要好,特别是在微平均指标上。类似的,文献9 。1 0 】也提出了使用类别区分词或使用强类 别信息的方法,这些方法也都得到了较高的分类性能。 徐燕等【1 1 】提出了一个新的特征选择函数k g ( k n o w l e d g eg a i n ) 。在文本分类中,已 有的特征选择函数性能的评估均是通过实验验证的方法,是基于经验的方法。而特征选 择是选择部分最有区分类别能力的特征,给出了两个特征选择函数需满足的基本约束条 件,并提出了一种构造高性能特征选择的通用方法。依此方法构造了一个新的特征选择 函数k g ( k n o w l e d g eg a i n ) 。分析发现,i g 和k g 完全满足该构造方法,在 r e u t e r s 2 1 5 7 8 ,o h s u m e d 和n e w s g r o u p 这3 个语料集上的实验表明,i g 和k g 性 能最好,在两个语料集上,k g 甚至超过了i g 。实验表明高性能特征选择函数方法的 有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准。 李正欣,赵林度提出了一种集成方法s m o t e b o o s t s v m ,通过s m o t e 技术人工 生成增加少数类样本量,以具有较强分类性能和泛化性能的s v m 作为弱分类器,并以 a d a b o o s t 算法构建集成分类器。通过该方法得到的s m o t e b o o s t s v m 集成分类器比单 纯运用s m o t e 技术、a d a b o o s t 算法以及s v m 分类器,在非均衡数据集的分类预测中 具有更好的效果。 马月德,杜掂等1 1 3 1 提出了一种新的模糊支持向量机隶属度函数设计方法,通过区分 样本对分类面的贡献和设计合理的隶属度函数,以减弱其对噪声点或野值点的敏感,从 而降低支持向量机对不平衡数据的倾向性影响,使支持向量机技术可以在更广阔的领域 内使用。 2 第1 章引言 孙蕾,周明全等【1 4 1 提出了一种改进的支持向量机算法,即d f p s v m 算法。d f p s v m 算法是通过将约束性数学规划问题转换为无约束性规划问题来实现的,能减弱多样本类 对少样本类的影响,提高对少数类文本的分类能力。 韩慧,王路i l5 】提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽 可能多地保留多数类的有用信息:其次,对于被初分类预测为少数类的样本进行再次分 类,以有效地提高少数类的分类性能。并与合成少数类过抽样算法、欠抽样方法进行了 实验比较,实验表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其 他两种算法。 张启蕊,张凌等”6 】提出了一种类别均衡法对训练集进行处理。将所有小类合并成一 个或几个与与多数类具有同等数量级的较大类别,在此基础上进行训练,得到一级分类 器。在将原有的少数类集合别组成一个小的训练集,进行训练,得n - 级分类器。当对测 试集合进行分类时,先用一级分类器对其进行判断,若分类结果为原有的类别,则把该 结果作为文档类别;若分类结果为组合成的新类别,则需要用二级分类器对该文档进行 第二次分类,二级分类器的分类结果为文档最终类别。 综上所述,对不平衡数据文本集合的分类是当前文本分类系统的一项技术难点,是 一个亟待解决的问题,对文本的信息检索及管理形成了阻碍。 1 3 本文的工作 本文对中文文本分类中所涉及的各项技术进行了全面的论述,并介绍了一种基于不 平衡数据集的文本分类方法。当给定文本类的数量相差过大时,使用这种方法进行分类, 能起到一定效果。全文主要包含以下六个章节: 第1 章引言。介绍基于不平衡数据集的文本分类方法的研究意义、背景和研究现 状、趋势,主要研究内容以及文章的组织安排。 第2 章文本分类技术。简要介绍了在文本分类过程中涉及到的中文文本分词、向 量空间模型、特征选择函数和分类器算法等方面的内容。 第3 章不平衡数据集上的文本分类技术。对处理不平衡数据集上的文本分类问题 做了相关介绍。本系统将采用数据抽样对训练集文本进行操作,故主要对这一部分的理 论做了相关介绍。 第4 章文本分类系统。描述了系统各组成部分,并对所要面临的困难作了分析。 河北大学t 学硕十学位论文 第5 章实验过程及结果分析。首先对实验中使用的数据集进行介绍,之后给出了 性能评价标准,随后对真实文本进行分类测试,并对测试结果进行了分析,最后是对本 次实验的小结。 第6 章结束语。总结本课题所做的工作和得出的结论以及对未来研究工作的建议。 第2 章文本分类技术 第2 章文本分类技术 这里所说的中文文本自动分类技术,是指依据中文文本的内容,由计算机根据某种 自动分类算法,将给定文本判定为预先定义好的类别中去【1 7 1 。例如可以分类为法律、体 育、经济类,分类的模式也可以根据实际情况分为二类问题,即属于或不属于;也可以 分为多类问题,即属于多类中可能的哪一类。当然,多类问题最终还是可以看成多个二 类问题的组合来解决。 中文文本分类大致可以分为四个步骤:文本分词,向量模型表示,特征选择,分类 器训练。本章就文本分类中的这些常用技术进行讨论,为后面的实验部分奠定理论基础。 2 1中文文本分词 中文文本不像英文文本,单词之间没有用空格来分隔,因此在对中文文本进行读取 前,要做分词处理,即在词条之间加入分隔符,使文本由单个的字变成具有一定类别属 性的词。 分词的准确性对文本分类技术来说是十分重要的,同时在保证准确性的前提 下尽量提高分词的速度,为后续环节打下良好的基础。 2 2 向量空间模型 在对文本进行分词处理之后,要将文本数据转化成计算机能够处理的模式,即将非 结构化的文本用一定的特征表示出来,并使之易于提取。文本结构化的过程主要包括两 部分:特征表示和特征提取。特征表示就是分类模型的构造过程,之后采用特征选择方 法对此分类模型进行选择或变换,提取其中具有代表性的特征向量,并计算与各文本向 量的相似度。较为常用而且效果较好的表示方法是向量空间模型( v e r t o rs p a c em o d e l , v s m ) ,其主要研究如何确定项及计算项的权重这两个方面f 1 8 】。 v s m 的基本思想是:将文本空间看做是由一组正交向量组成的向量空间,文本d i 可表示为向量空间中的一个n 维向量( t i l ,w ( t i l ) ,t i 2 ,w ( t i 2 ) ,t i 。,w ( t i n ) ) ,其中t i l , t i 2 ,t i 。即文本的n 个特征,w ( t i k ) ,k = 1 ,2 ,n 表示第k 个特征在该文档中的权重。 通过比较不同向量的特征,来判定它们之间的相似度,从而可以判定文本所属的类别。 2 3 特征选择方法 在上述处理之后特征向量的维数会很高,将达到数万维。因此需要在尽量不损失分 河北大学t 学硕十学位论文 类信息的情况下对特征空间进行降维,选取对文本类别最具代表性的特征。常用的几种 特征选择方法有信息增益( i g ) 、互信息( m i ) 、,统计量( c h i ) f 1 9 】。这些方法的基本思想都 是对每一个特征( 即中文词语) ,计算某种统计量,然后设定一个阈值几把度量值小 于丁的那些特征过滤掉,剩下的即认为是有效特征f 1 7 1 。下面分别对这些方法做简要的介 绍。 2 3 1 信息增益 信息增益( i n f o r m a t i o ng a i n ,i g ) 假定在不知道该特征词的条件下,所有的类有一个 平均无条件信息熵【2 0 1 ;在知道这个特征词之后,所有的类有一个平均条件( 条件就是知 道该特征词) 信息熵,那么这两个信息熵的差就表示了该特征词所携带的信息量,即信 息增益,当信息增益小于某个特定的值时,就要去掉该词。 对于词条t 和文档类别c ,i g 考察c 中出现和不出现t 的文档频数来衡量t 对于c 的信息增益。这里采用如下的定义式: 删= 一排抛m + 川拇川。眺| f ) h ) + 尸( f ) :。p ( c ,lt ) l o gp ( c 小) 其中p ( c i ) 表示c i 类文档在语料中出现的概率,p ( t ) 表示语料中包含词条t 的文 档的概率,p ( c i l t ) 表示文档包含词条t 时属于c i 类的条件概率,p ( t ) 表示语料中不包含 词条t 的文档的概率,p ( c i it ) 表示文档不包含词条t 时属于c i 的条件概率,m 表示类 别数。 在对在语料中出现的每个词条计算其信息增益值之后,从原始特征空间中移除低于 特定阈值的词条,保留高于阈值的词条作为表示文档的特征。 i g 考虑了一个词条中出现与否,即考虑了正例和反例。该方法是倾向于大类的。 对于不均衡数据集问题,i g 的缺点在于考虑了词条未发生时的情况,即一个特征( 词 条) 未出现对分类的贡献,实验表明,对于少数类而言,这种贡献往往小于考虑词条不 出现情况所带来的干扰【2 1 。2 2 1 。 2 3 2 ,统计量 ,统计方法度量文档类别c 与词条,之间的相关度,假设c 和,之间符合具有一 阶自由度的,分布【2 3 1 。当词条t 某类,统计值越大时,词条与该类之间的独立性就越 第2 章文本分类技术 小,即它们之间相关性越大,所包含的类别信息越多,因此,较小的词将被去掉。这里 定义t 对于c 的c h i 值的表达式如下: x 2 ( t ,c ) = 石面面n * 五( a 涵d - 再c b 河) 2 :瓦面 ( 5 ) 其中,表示训练文本中的总文本数,彳表示特征f 和第c 类文档共同出现的次 数,召表示特征f 出现而第c 类文档不出现的次数,c 表示第c 类文档出现而特征f 不出现的次数,d 表示第c 类文档和特征r 均不出现的次数。 对于多类问题,分别计算f 对于每个类别的c h i 值,再用下式计算词条f 对于整个 语料的c h i 值,分别进行检验: ) c 乙( t ) = m a x i t m _ _ lx 2 ( t ,c i ) ( 6 ) 其中m 为类别数。从原始特征空间中移除低于特定阈值的词条,保留高于该阈值的 词条作为文档表示的特征。另一种方法是将词条对于各个类别的平均c h i 值作为它对所 有类别的c h i 值,但是它的表现不如( 3 ) 式。 2 3 3互信息 互信息( m u t u a li n f o r m a t i o n ,m i ) 主要应用于统计语言模型中2 4 1 。互信息用于表征两 个变量的相关性,常被用来作为文本特征相关的统计模型及其相关应用的标准。如果用 a 表示包含词条t 且属于类别c 的文档频数,b 为包含t 但是不属于c 的文档频数,c 表 示属于c 但是不包含t 的文档频数,n 表示语料中文档总数,t 和c 的互信息可由下式计 算: m i ( t ,c ) l 。g 两酉a * 丽n 面 ( 7 ) 如果t 和c 无关( 即p ( t c ) = p ( t ) x p ( c ) ) ,i ( t ,c ) 值自然为零。为了将互信息应用于多个 类别,与c h i 统计的处理类似,由下式计算t 对于c 的互信息: m i 一( t ) = m a x ;li ( t ,c i ) ( 8 ) 其中m 为类别数。将低于特定阈值的词条从原始特征空间中移除,降低特征空间的 维数,保留高于阈值的词条。但是,m i 的特征分值受临界特征的概率影响较大,当特 征的p ( tc ) 值相等时,稀有词比普通词的分值要高,因此,频率相差太大的文本特征 分值不具有可比性。 河北大学t 学硕十学佗论文 2 4 分类器算法 分类器的构造是文本分类问题中的一个关键技术,分类系统从提取出的文本特征中 获取必要的信息,构造分类器,并利用此分类器将待分类文本划分到对应的类别中。在 目前存在的文本分类算法中,k 近邻算法和s v m 算法是应用较多的两种方法,下面对 其做简单的介绍。 2 4 1k 近邻算法( 州) k n n 是一种传统的模式识别方法【2 5 。2 矾,通过对给定类别的文本的训练,从而寻找 出与待分类文本最为相似的k 个文本,使用文本向量间的余弦来度量文本间的相似性: s i m ( x + ,寻) :毒塑0 ( 9 ),y ) = _ ( 9 ) | ix 扩| | y | i k n n 方法的原理是与文本向量邻近的向量进行比较,因而当待分类文本的域存在 交叉或重叠时,该算法的性能较好。但是,由于要将待分文本与所有已知类别的文本都 进行一次比较,使用k n n 算法的计算量较大。而且,当文本数据不均衡时,新的输入 文本向量可能会被误分到其邻居中文本数量较多的那一类,影响分类的准确性。因此, 在本系统中并不使用这种分类算法。 2 4 2 支持向量机算法( s 蛆) 在诸多文本分类算法中,最具代表性的是支持向量机( s u p p o r tv e c t o r sm a c h i n e , s v m ) f 2 7 1 。通过学习算法,s v m 在训练样本中寻找具有最好区分能力的样本点集。在分 类阶段,s v m 利用这些支持向量对未知类别样本的类别属性做出预测。 s v m 是以结构风险最小化原则为理论基础,从线性可分情况下的最优分类面发展 而来的,假定将给定的数据点分为两类( 如图2 1 ) 【2 8 1 。图中的“和“+ ”表示两类不同的 训练样本,考虑线性可分的情况,通过一条直线将两个类分开。当分类线不但能将两类 样本分开时,且使得两个类的分类间隔最大时,即最优分类线。可见,分类线。为该分 类问题的最优分类线,因为虽然其余分割线也能下确的将两类样本分开,即都能保证使 经验风险最小( 这样的分类线还有无穷多个) ,但是只有分类线。能够保证其距两类样 本的间隙最大。如若将之推广到更高维的空间,最优分类线就成为最优分类面。 8 - 第2 章文本分类技术 图2 - 1s v m 最优分类面 此外,在处理线性不可分的情况时,可以构造一个变换,将输入空间中的样本点映 射到一个高维的特征空间,使其在这个新空间中是线性可分的。 综上,支持向量机的基本思想可以概括为:首先将输入空间变换到一个新空间,然 后在这个新空间中求取最优线性分类面。 河北大学t 学硕十学位论文 第3 章不平衡数据集上的文本分类技术 3 1 数据不平衡问题 在文本分类的研究中,通常都假定用于训练的文本集合是平衡的,即不同类别间的 文本数量大致相等。然而,在现实问题中对文本数据进行处理时通常会发现,某一类或 几类中的文本数量相对较少,而此类文本又相对重要,这就是所谓不平衡数据集问题, 而这样的数据集就被称之为不平衡数据集。其中,文本数量多的类称为多数类,文本数 量少的则称为少数类。 不平衡数据集在实际生活中是普遍存在的【1 1 】。例如在对非法网页的检测中,正常网 页样本数量远大于非法网页,即非法网页属于少数类。将合法网页误分为非法网页,要 投入额外的人力与物力来对其进行验证;但是,一旦将非法网页误分为合法网页,所带 来的经济损失,以及不良影响比上一种情况要大得多。而若使用传统的分类方法对这样 的文本集合进行分类,对少数类文本的识别效率并不理想。从上述网页分类的例子中可 以看出,在这种文本数据分布不平衡的情况下,通常少数类文本的分类效率对系统来讲 恰是至关重要的,其被错误分类所带来的代价往往要比多数类样本被错误分类高的多。 若分类不当,将为用户带来难以估量的损失。因此,在某些领域中,如何将少数类文本 高效而准确的识别出来成为研究的重点。 常用的不平衡数据集分类方法一般可以分为两类:基于数据层的分类和对已有分类 器进行改进。基于数据层的分类方法是从给定的文本集入手,改变不平衡数据的分布, 从而降低不同类别间文本数量的不平衡程度;而基于分类器算法的方法是针对数据集的 特点,对传统的分类器进行改进,从而达到一个比较好的分类效果。由于改进的分类器 往往只针对某些特定的数据集,其适用性较小,而相对于对数据集进行的操作,对分类 器的改进需要花费更多的成本。 这里我们采用基于数据层的方法对不平衡数据进行分类。其主要目的就是:通过这 种数据处理,来减轻数据集的不平衡程度,从而提高少数类的分类性能。基于数据层的 分类主要是对数据集进行处理,通常采用数据抽样的方法。 3 2 基于数据层的方法 对于不平衡数据而言,如何进行数据抽样,使得各类样本中文本数量相对保持平衡, 1 0 第3 章不平衡数据集上的文本分类技术 从而得到一个能较好反映真实情况的数据样本是在进行文本分类前的一个关键问题。在 对所有文本数据进行训练之前,根据需要,先对数据进行预处理,即数据抽样。数据抽 样方法的不同对训练结果模型的精度有很大影响,因此要采用合适的数据抽样方法,抽 取样本数据进行建模实验。 本文针对不平衡数据集上的文本分类问题,提出了采用分层抽样和过抽样相结合的 方式对给定的文本集合进行处理,从而提高对少数类文本的分类效率。下面先简单介绍 一下几种不同的数据抽样的方法。 3 2 1 数据抽样 从抽样原理上来看,数据抽样主要分为以下几种【2 9 】: 1 简单随机抽样( s i m p l er a n d o ms a m p l i n g ) 这种方法的基本原则是每个抽样单元被抽中选入样本的机会是相等的。使用抽签法 或随机数字表随机抽取数据组成新的样本。其优点是操作简单,但用于抽样使得样本含 量变小,则所得样本代表性变差。 2 系统抽样( s y s t e m a t i cs a m p l i n g ) 按照一定顺序,机械地每隔一定数量的单位抽取一个单位形成新的样本。每次抽样 的起点必须是随机的,因此又称机械抽样、等距抽样,即先将总体的观察单位按某- - j 1 0 j i , 序号分成n 个部分,再从第一部分随机抽取第k 号观察单位,依次用相等问距从每一部 分各抽取一个观察单位组成样本。系统抽样代表性较好,易于理解、简便易行。但当总 体有周期或增减趋势时,易产生偏性。 3 整群抽样( c l u s t e rs a m p l i n g ) 先将总体样本依照一种或几种特征分为几个子类,每一个子类称为一层,然后从每 一层中随机抽取一个子样本,将它们合在一起,形成新的样本。其优点是便于组织,但 抽样误差大于单纯随机抽样。而且整群抽样要求群间的变异越小越好,否则抽样误差较 大,不能提供总体的可靠信息。 4 分层抽样( s t r a t i f i e ds a m p l i n g ) 从分布不均匀的样本中抽取有代表性样本的一种方法,先将总体样本按其属性特征 分成若干层,然后从每层中抽取一定量的样本构成新的样本类的方法。所谓分层是以某 一相关标志为标准,以此来划分该类数据在所属的层次。分层抽样的临界点不容易确定, 河北火学:1 :学硕十学位论文 层与层之间应尽可能地扩大层间方差、降低层内方差,因此需要有一个合理分层临界点。 在处理时,就要求对每一个一级样本单位的分布特征进行认真研究,并定出不同的划分 标准,方能准确地加以计算。 分层抽样又分为两类:一类叫按比例分配分层随机抽样,即各层内抽样比例相同; 另一类叫最优分配分层随机抽样,即各层抽样比例不同,内部变异小的层抽样比例小, 内部变异大的层抽样比例大,此时获得的样本均数或样本率的方差最小。分层抽样要求 层内变异越小越好,层间变异越大越好,因而可以提高每层的精确度,而且便于层间进 行比较。 由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查 样本。该方法适用于总体情况复杂,各类别之间差异较大( 比如垃圾邮件非垃圾邮件的 差异) ,类别较多的情况。其样本代表性好,抽样误差减少。 从数据集中的样本的数量变化上来看,数据抽样又可分为欠抽样和过抽样。 1 欠抽样( u n d e rs a m p l i n g ) 欠抽样方法通过去掉多数类样本,以降低数据不平衡的程度。但是由于数据量的减 少,这种方法可能会去掉一些潜在的对分类有用的样本,从而影响分类效率。 2 过抽样( o v e rs a m p l i n g ) 过抽样方法通过增加少数类样本来提高少数类的分类性能,最简单的过抽样方法是 复制少数类样本,但是这种方法没有给少数类增加任何新的信息,反而会使分类器学到 的决策域变小,导致过学习。若文本数据中的多数类与少数类的样本数量相差很大时, 少数类样本需要过抽样很多倍才能达到要求,从而增大计算量,降低系统效率。 3 2 2 改进的抽样方法 通过上述几种抽样方法,都能达到改变训练文本集合数量的目的,但是效果并不令 人满意。若是单纯通过减少多数类样本来缩小类的规模,会丢失该类中的一些重要信息, 影响分类效果。因此,在处理不平衡数据集上的分类问题时,人们提出了许多改进的过 抽样方法。例如,在少数类中加入随机高斯噪声,或者产生新的合成少数类样本等方法 可以在一定程度上避免随机过抽样中出现的过学习问题【3 0 1 ;去掉远离分类边界或者引起 数据重叠的多数类样本,得到的分类效果会比随机欠抽样理想【3 1 1 。对已有的分类算法, 通过调节不同类样本之间的成本函数、改变概率密度、调整分类边界等措施使其更有利 第3 章不平衡数据集l 的文本分类技术 于少数类的分类【3 2 - 3 4 】;文献f 3 5 1 介绍的学习算法只对少数类样本进行训练,其目标是从测 试样本中识别出感兴趣的少数类样本,而不是对少数类和多数类进行区分。文献【1 5 】介绍 了基于初分类的过抽样算法,利用初分类与二次分类,既保留了多数类的有用信息,又 更大程度地提高了少数类的分类性能。 图3 - l训练集处理过程 本文采用的是分层抽样和过抽样相结合的方式对文本集进行处理。其原理是在少数 类中间插入“人造”文本,增加少数类的虚拟样本,人为扩展少数类的数量。从而对少 数类文本数据进行扩充,达到类别间的平衡。 在对给定文本进行分类之前,先对文本的训练集进行处理,如图3 1 。以层为单位, 在同一层中( 即同一类别的文本集合) 进行过抽样,提取该类中若干文本中的任意段落, 依次添加至此类原始文本的末尾,形成新的文本集合。再用处理过的数据集训练分类器, 河北大学t 学硕十学何论文 这样就提高了分类器在非平衡数据集上的泛化性能,同时也提高了少数类的分类性能。 这里需要注意的是,在使用抽样策略时,抽样策略的选择主要是依据不同的分类目 的和数据集的不同特性而定的。在分类过程中为了确保采用抽样能达到预期的效果,应 考虑到以下几个方面的问题: 1 文本集中的文本数量 样本量是决定抽样后分类结果的正确性和分类效率的重要因素之一。样本量大,正 确性高,效率低;样本量小,正确性低,效率高。因此在抽样过程中,尽量避免减少样 本的数量。 2 抽样的效率 在分类过程中,所处理的数据越多,得到结果就越精确,但降低了效率;反之,当 处理的数据量比较少时,效率增加了,但降低了正确性。所以,在决定实施抽样之前, 必须对抽样所带来的额外开销与其所带来的效率作比较,避免既降低分类的正确性,又 降低了效率。 3 数据的可靠性 必须采用合理的抽样方法来得到可靠性数据。通过对文本集进行抽样之后,所得新 的文本集必须具有代表性,具有与原先文本集合相似的类别特性,从而保证分类结果的 准确性。 第4 章不平衡数据集卜的文本分类系统 第4 章不平衡数据集上的文本分类系统 针对不平衡数据集上文本分类技术的研究是模式识别领域中一个具有挑战性的课 剧3 6 1 ,其中少数类的分类性能的提高更令人们关注。本文提出了一种分层抽样和过抽样 相结合的方法对训练文本集合进行处理。为了提高少数类的分类性能,在进行分类之前, 对同一层上的文档进行改进的过抽样,增大其学习域,更好地提高分类器对少数类的分 类性能。下面将对该系统做简要的介绍。 4 1系统组成 图4 1 给出了本文研究的不平衡数据集上的文本分类系统的步骤,其可分为两大部 分,即训练过程和测试过程。 训练过程:首先针对训练集进行抽样,形成相对“平衡”的文本集合,然后对这个 新生成的训练文本进行特征选择,并生成文档向量,构建分类模型。最后进入训练分类 器的阶段。 测试过程:将测试文本集向量化之后,使用在上一过程中生成的分类器对向量化的 文本集合进行分类,最后对分类结果进行评估。 从整个系统来看,在文本分类过程中,主要是包括以下几个关键部分: 1 训练集处理 由于训练文本集合的不平衡性,将对分类的结果产生一定的影响,因此先要对训练 集合进行预处理,之后再用处理过的文本集训练分类器。这罩使用数据抽样的方法来提 高分类器在非平衡数据集上的泛化性能,产生新的少数类文本,使之与多数类中的文本 数量达到一致,从而形成大体“平衡”的文本集。 2 文本向量化 在系统中,分类器只能处理向量化的文本。首先应对对文本进行分词和词性标注。 根据分词字典对初始字串进行全切分,找出最佳的切分路径形成切分集,对最佳路径中 的词串进行标注。之后通过词频和语义相似度计算,以互相关信息为基础,将文本向量 化。 3 特征提取 通过对大规模的语料库的学习,对训练文档进行词条切分和词频统计并根据词频分 1 5 河北大学丁学硕十学位论文 布提取出代表文档类的特征项集及相应权值生成特征向量表,得到类别特征,在后面的 步骤中将利用其对测试结果进行分类。其中,类别特征主要是指一些词和短语,这些词 和短语的选择主要是由语义重要度和词频来决定的;分类模型集:将类别训练集,采用 k n n 和s v m 算法的学习算法来进行处理,就可以获得分类模型。 4 文本分类 在分类模块中,通过输入向量化过的文本信息和分类模型集,对给定的测试文本集 进行分类,得到集合中每个文本所属的类别。需要说明的是,文本存在兼类属于正常现 象,即一篇文章实际上可以属于类别体系中的多个类别,但是,由于本文所采用的试验 语料中的每篇文本只被标识了一个类别,考虑到对分类结果进行性能评价时的合理性, 本系统中使用的分类器设计为单分类器,即文本最终只被指定为一个类别。 5 分类评价算法测试 分类评价部分对分类性能进行评价,同时给出反馈信息进行学习,从而对分类特征 进行不断的修正。计算分类结果准确率数据以及分类测试结果的统计图,并将分类结果 返回给用户,由用户对分类结果进行确认或者修正,从而进一步提高分类效率。 在文本分类中,由于中文文本的特殊性以及分类过程,决定了特征提取和文本分类 中的分类器构造将成为其中的关键步骤。 第4 章不平衡数据集上的文本分类系统 图4 - 1 文本分类系统步骤图 4 2 技术难点 文本分类技术虽然发展较快,但是在实际应用中,还存在一定的技术难点,主要是 以下个方面: 1 与英文文本分类不同,对中文文本进行分析的一个前提条件是对中文文本进行 分词处理,这也是进行中文信息处理的一个难点。 河北大学t 学硕十学位论文 2 在文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应 用往往就是为了预测其中很少出现却很重要的文本,当出现这种文本中数据不平衡时, 小类问题的分类效果往往不尽如人意。 中文文本的上述特点使得对文本分类是一个复杂的技术过程,这里根据以上分类模 型实现了一个文本自动分类系统,在下面的章节中将以此系统为基础,对在前几章中所 讨论的问题进行试验测试,并对实验结果进行比较分析。 第5 章实验结果分析 第5 章实验结果分析 5 1 实验数据集 实验所采用的文本集合为复旦大学分类语料库。从中选取七类文本进行训练和测 试,且只考虑单标签文档( 即一个文档只属于一个类别) 。总计包括8 2 1 3 篇文档,分为七 个类,即:历史、医学、农业、经济、军事、政治、体育。其中训练集包含2 7 3 3 篇文 档,测试集包含5 4 8 0 篇文档。同时,该语料库类别分布极不均衡,最大的类别包含近 6 0 0 篇文档,最小的类别仅包含2 9 篇文档。 为了说明训练集对文本分类性能的影响,对给定文本的训练集进行不同的操作,并 在此基础上进行实验对比。集合1 中所用训练集是原始数据集,类的分布是非平衡的, 即其中两个类所包含的文本数量较少,而其余各类中所含文本数量大体相等。集合2 、3 的训练集是对集合1 进行数据抽样,使之达到“平衡”。其中集合2 中的训练样本是对 原始数据中的小类样本进行重复采样,从而使其数量与大类样本大致相等。对于集合3 所使用的训练集,随机提取小类文本中任意段落,将之添加至该类各原始文本末尾组成 新的文本。重复此次操作直至该小类中所包含文本数量达到平衡。训练文本实验数据见 表1 。 表1 实验数据 癸 医学农业经济军事政治体育历史文档总数 样k 集合1 2 95 1 95 2 86 45 185 2 65 4 92 7 3 3 集合25 5 25 1 95 2 85 2 25 1 85 2 65 4 93 7 1 4 集合3 5 5 25 1 95 2 8 5 2 2 5 1 85 2 65 4 93 7 1 4 测试样本 3 31 0 2 21
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年四川应用技术职业学院单招职业倾向性测试必刷测试卷及答案解析(夺冠系列)
- 2026年乌海职业技术学院单招职业适应性考试题库及答案解析(夺冠系列)
- 2026年天门职业学院单招职业技能测试题库及答案解析(名师系列)
- 多模式智能运输
- 房屋强制清场协议书
- 房屋改造报价协议书
- 房屋机械拆除协议书
- 房屋火灾社区协议书
- 房屋租赁置换协议书
- 房屋维修家具协议书
- 隐私协议书模板
- 精液常规分析的步骤及注意事项
- GB/T 18376.1-2001硬质合金牌号第1部分:切削工具用硬质合金牌号
- GB/T 15687-2008动植物油脂试样的制备
- 工业管道安装作业指导书
- 2023年深圳市南山区网格员招聘笔试模拟试题及答案解析
- 2023年陕西金融资产管理股份有限公司招聘笔试题库及答案解析
- 生活中的小创意课件
- 恩诺沙星缓释注射液的研制及在猪体内的药动学研究幻灯片
- 合同履行情况(自查)检查记录表
- 人教版高中英语全部单词表(常用)
评论
0/150
提交评论