不平衡数据的处理_第1页
不平衡数据的处理_第2页
不平衡数据的处理_第3页
不平衡数据的处理_第4页
不平衡数据的处理_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、不平衡数据的处理一、什么是不平衡数据?一个病例对照研究,其中病例10人,对照99人0,建立了一个回归模型,并对模型进行了内部验证,发现正确为99,%难道这个模型可以发到高分的杂志上?然而,进一步发现,改模型不管怎么预测,都得到正常的结果,所谓的99正%确,原来是建立在1个病例都发现不了的基础上。从这个例子我们可以看出,当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,而使少数类样本的分类性能下降。因为这些算法大多数建立在各类数据分布平衡的假设之下,以寻求数据总体分类准确率为最大目标。其实不平衡数据广泛存在于各个领域中,在二分类问题中尤其常见,表现为一个类(大类)所

2、占的比例远远大于另一个类(小类),或者数据集当中一个响应变量的比例远远大于另一个。例如:一个自动产品质量检测机每天会检测工厂生产的产品,你会发现次品率是远远低于合格率的;在银行信用卡欺诈检测中,违规交易是远远少于合法交易的。那么多大的比例叫做不平衡数据呢?在实际应用中,该比例可以达到1:1、001:1、0甚0至0更大。有文献对该比例与分类性能之间的关系进行了深入的研究,研究结果表明很难明确地给出何种比例会降低分类器的性能,这是因为分类器的性能还与样本数和样本的可分性有关。在某些应用下,1:3的5比例就会使某些分类方法无效,甚至1:1的0比例也会使某些分类方法无效。那么当碰到不平衡数据集的时候,

3、我们该怎么处理呢?本文就将向大家介绍一些处理不平衡数据的方法,但在具体方法介绍前,先向大家介绍一些可以用来评价分类器的可选度量以及曲线。二、分类器性能评价方法1.可选度量表1二类分类问题的混淆矩阵预测的类实际的类由于准确率度量将每个类看得同等重要因此它可能不适合用来分析不平衡数据。我们可以考虑以下度量:精度分类器预测为正类的那部分观测中实际为正类的观测所占的比例,精度越高,分类器的假正类错误率就越低:召回率被分类器正确预测为正类观测的比例,具有高召回率的分类器很少将正类观测误分为负类观测:T度量精度和召回率合并而成的一个度量,表示召回率和精度的调和均值:接受者操作曲线上述可选度量虽都可作为分类

4、器的评价测度,但都只是评价了分类器的部分性能,比如,精度只针对预测为正类的那部分观测,召回率也只针对实际正类观测的分类结果。而曲线是显示分类器真正率,也称灵敏度,和假正率。也即一特异度,一之间折中的一种方法。等于召回率的值,曲线上的任意一点都代表了单个分类器在一个给定分布上的表现。曲线下面积提供了评价模型平均性能的方法,如果模型是完美的,则等于,如果模型仅仅是简单的随机猜测,则等于,如果一个模型好于另一个模型,则它的较大。三、针对不平衡数据的处理方法现有的不平衡数据处理方法主要分两方面:1)数据层次的方法:欠采样、过采样、混合采样算法层次的方法:代价敏感学习、基于的集成学习。今天,主要向大家介

5、绍4中处理方法,包括:欠采样法、过采样法、人工数据合成法、以及代价敏感学习法。.欠采样法主要应用于大规模数据情况下的不平衡数据分类,并对其中的大类进行处理,减少大类观测数来使数据集平衡,因为它降低了训练样本量,所以有助于减少时间、存储开销。最简单的方法是通过随机地删除一部分大类的观测直至数据平衡,缺点是丢失大类的一些重要信息,不能充分利用已有信息。考虑到随机欠采样法的这个缺点,人们提出一类有信息的欠采样法,包括:简易集成算法和平衡级联算法C简易集成算法:从大类中有放回的随机采样次,每次选取与小类观测数目近似的样本,那么可以得到个样本集合记作,然后其中的每一份与小类样本结合组成个训练样本,每一个

6、训练集上得到一个模型,最后取多数分类器的分类结果为预测结果。平衡级联算法C首先生成多个分类器,在基于一定规则系统地筛选哪些大类观测应该被保留。有兴趣可以去看看基于聚类的欠采样算法,算法。.过采样法通过增加小类观测来提高小类的分类性能。最简单的方法是随机复制小类观测,和欠采样类似,也有改进的有信息的过采样法。该方法虽然没有损失任何信息,但是由于只是增加了小类的重复样本而没有增加任何新的信息,可能会导致过度拟合,而且由于引入了额外的训练数据,会延长构建分类器所需要的时间,储存开销也增加不少。.人工数据合成法理论上,还是一种过采样法,但不是简单地复制小类观测,而是通过内插的方式人工生成新的小类观测。

7、该方法通过在特征空间上进行操作,而不是在数据空间上进行,新样本按如下方式生成:取当前考虑的一个小类观测和它最近邻的差值,再用0到1之间的一个随机数乘以这个差值,最终把这个值加到先前那个观测上。该方法有效得使得小类样本决策区域变得更加容易泛化。.代价敏感学习上文中提到,在现实生活中,小类的识别率往往比大类的更重要,即小类的错分代价远远大于大类。代价敏感学习就是在这样的现实意义下应运而生,它考虑不同的错分代价。混淆矩阵仅仅描述了分类模型的正确和不正确预测的实例数目,并没有考虑到不同类错分的代价不同,所以这里我们引入一个形式类似的代价矩阵。表2二分类问题的代价矩阵预测的类实际的类+实际的类+C(FN)C(FP)显然,我们做了正确分类是不会蒙受任何损失的,但是不同的错误分类却很可能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论