不平衡数据分类的几种方法_第1页
不平衡数据分类的几种方法_第2页
不平衡数据分类的几种方法_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不平衡数据分类的几种方法

1错分率的计算随着我们日常生活的复杂性,社会生活变得越来越复杂。因此,分类已经成为我们生活中随处可见的管理模式。比如,银行会分出高风险客户与低风险客户分别进行管理,从而降低银行的贷款风险。又比如,超市会分出忠实客户与非忠实客户,分别对他们实行不同的促销方式。在这其中有两个很重要的问题就是,什么样的分类才是最好的?用什么方法进行分类更好?以一个两个类别分类的问题为例,如果以错分率作为评价标准。那么这时错分率是这样两部分之和,一部分是把1类分为2类发生的错误,另一部分是把2类分为1类发生的错误。但是有时这个错分率越小却不能说明这个分类就好。比如:有一个两分类的总体,两个类在总体中的比例为(0.10,0.90),有一个分类器的错分率为:0.19,两个类各自的类内错分率为(0.9,0.1),另一个分类器的错分率为:0.22,两个类各自的类内错分率为(0.4,0.2)。第一个分类器的错分率相比第二个分类器的错分率更小,但是它把第一个类中的样品几乎都分错了。第二个分类器虽然错分率稍大,但是在两个类中的错分率都比较小。由此可见,用总的错分率来评价分类器的好坏此时已经不妥。而之所以会出现这种问题的根本原因就是这种数据的每个类在总体中的比例差别很大,有的类占了总体的90%,而其他类却只占了总体的10%。我们在对这样的数据建立模型时,不管是什么方法,此时模型都会向数据多的一方偏离。因此,对数据少的类来说这样的模型是“不公平”的。实际生活中我们也会遇到很多这样的数据。研究者们就想到为什么不同时减小每个类内部的错分率,而不仅仅是减小所有类的错分率。也就是说我们需要消除两个类之间的不平等性。2非启发式学习本文主要介绍采用外部方法来处理不平衡数据的重抽样方法。Chawla,Lazarevic,Hall和Bowyer提出将SMOTE技术与boosting技术结合的一种算法SMOTEBoost(2003)。Qiao和Liu提出一种对每个类的样品错分率迭代加权的方法(2008)。这类方法都是在试图通过调整各个类数据的比例来提高少数类数据的信息含量,降低多数类数据的信息冗余度。Hulse,Khoshgoftaar和Napolitano(2007)中提到现有的调整各个类在总体中的比例的技术有8种。包括:随机少抽样,随机多抽样,单方选择,基于聚类的多抽样,改进的Wilson’sediting,合成少数类样品SMOTE,borderline-SMOTE,基于聚类的少抽样。随机少抽样。这是一个非启发式的学习方法,通过随机的丢弃一些多数类的数据来建立分类器。这个方法可以平衡多数类数据与少数类数据的数据量。但是它的缺点是这样很有可能损失掉了一些重要的信息。机器学习算法大都在自主地通过样本估计目标总体的分布,但是真实的分布总是未知的。SotirisKotsiantis等人(2006)认为,随机地丢弃一些多数类数据以后再通过数据估计目标总体时,数据不再是随机的了,因此,此时分类器学习中对总体分布的估计就不再可靠了。随机多抽样。在建立分类器的时候随机的多抽样一些少数类数据。也就是重复一些少数类的数据,从而使得多数类数据和少数类数据的数据量尽可能的接近。这也是一个非启发式的学习方法。单方选择。事先在多数类数据中去掉一些“冗余”数据,或者说是相互有信息重复的数据,然后再建立分类器。这样的办法看起来也有可能损失一些信息。基于聚类的多抽样。此方法认为数据的不平衡有两个方面。一是多数类数据和少数类数据之间的不平衡性,二是每个类数据内部的不平衡性。因此,在随机多抽样之前,将数据先进行聚类,然后在小的类数据中重复抽样来建立分类器。基于聚类的少抽样(SBC)。该方法也是在建立分类器之间先将数据聚成小类,然后对多的类数据随机丢弃一些数据来建立分类器。改进的WE方法。该方法是K-近邻分类方法的改进。K-近邻方法是通过找出每个待分类样品最近的K个训练集中的样品,然后根据这K个训练集中样品的大多数样品的类别作为待分类样品的预测类别。而Wilson提出的WE方法则是不只是对测试集样品进行分类,还对训练集进行K-近邻分类。每次将一个待分类样品通过K-近邻方法分好类以后,然后对所有已知类别的样品(训练集中的样品),再进行一次K-近邻分类,删除掉数据中预测类别和预测前类别不同的样品,再对此次待分类样品进行一次K-近邻分类。Wilson证明了这样作的K-近邻在大样本的情况下也是有渐进性质的。Barandela等人则在2004年将WE改进,在每次删除数据的时候只删除多数类的数据,这样起到提高分类器在少数类数据上的预测精度的作用。SMOTE方法,全称为采用抽样技术合成少数类数据。该方法和随机多抽样不同的地方在于,该方法不仅仅是复制出更多的少数类数据,而是采用最近邻的方法产生出更多的少数类数据,从而进行分类。该方法因为要采用最近邻来合成数据,因此该方法的计算量比较大。borderline-SMOTE方法。该方法是SMOTE的一种扩展。它沿用了抽样合成技术,只是这里主要针对边界附近的数据进行合成。3多元分类器预测精度分析对于一般的分类问题来说,如果对数据事先分好了训练集和测试集,那么可以直接计算在测试集上的预测误差(推广误差),从而进行模型的比较。如果数据事先没有分好训练集、测试集,则采用交叉验证的方法来计算预测误差,进行模型的比较。在不平衡数据上的模型评价标准只是计算所有类的预测误差是不够的。一般还采用下面的统计量来进行评价。以两分类的数据为例。用+1(阳性类)和-1(阴性类)来记号两个不同的类,假设-1类是少数类。用TP和TN表示+1类和-1类分别预测分类正确的个案数目,用FN和FP表示+1类和-1类分别预测分类错误的个案数目。总的分类误差=(FN+FP)/(FN+FP+TN+TP)总的准确度=1-总的分类误差=(TN+TP)/(FN+FP+TN+TP)多数类(阳性类)的预测准确度=Sensitivity(敏感度)=TP率(Recall)=TP/(FN+TP)少数类的预测分类误差=FP率=FP/(FP+TN)少数类的预测准确度=specificity(特异度)=TN/(FP+TN)前面四个度量是经常用到的分类器的错分率的评价统计量。从总的错分率、准确度和各个类内部的错分率的大小来评价分类器的好坏。准确度实际上是和总的分类误差是同一个评价度量。F值是不常用的一个统计量,其中β是用来权衡总的预测精度和多数类误差之间重要性的一个参数,一般都设置为1。G-均值的值越大说明分类器更好。通常会以如下的表格来展示+1类和-1类的实际情况和预测的情况。除了这些统计量评价分类器的好坏以外,一般还用ROC曲线和ROC曲线下面的面积AUC来评价模型的好坏。一般采用不同的抽样比例来生成ROC曲线,或者采用不同的损失来生成。ROC曲线以上面表格中的真阳率(也称敏感度),也即是多数类的预测准确度的度量作为纵坐标,以假阳率(少数类的预测分类误差)作为横坐标,在多数类与少数类样品不同比例的情况下将得到一条曲线来评价此时的分类方法。曲线上越接近左上角的点代表相应情况下的预测效果更好,曲线位置越是靠近左上角越是代表此时的预测方法效果更好。可见,ROC曲线可以同时考虑到多数类数据和少数类数据分别的预测情况,因此,在不平衡数据的分类评价中,ROC曲线就显得比较重要了。有一类的处理不平衡数据的方法就直接以AUC作为损失来建立分类方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论