从重采样到数据合成:如何处理机器学习中的不平衡分类问题_第1页
从重采样到数据合成:如何处理机器学习中的不平衡分类问题_第2页
从重采样到数据合成:如何处理机器学习中的不平衡分类问题_第3页
从重采样到数据合成:如何处理机器学习中的不平衡分类问题_第4页
从重采样到数据合成:如何处理机器学习中的不平衡分类问题_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从重采样到数据合成:如何处理机器学习中的不平衡分类如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalancedclassdistribution)。这种情况是指:属于某一类别的观测样本的数量显著少于其它类别。这个问题在异常检测是至关重要的的场景中很明显,例如电力盗窃、银行的欺诈交易、罕见疾病识别等。在这种情况下,利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。发生这种情况的原因是机器学习算法通常被设计成通过减少误差来提高准确率。所以它们并没有考虑类别的分布/比例或者是类别的平衡。这篇指南描述了使用多种采样技术来解决这种类别不平衡问题的各种方法。本文还比较了每种技术的优缺点。最后,本文作者还向我们展示了一种让你可以创建一个平衡的类分布的方法,让你可以应用专门为此设计的集成学习技术(ensemblelearningtechnique)。目录.不平衡数据集面临的挑战.处理不平衡数据集的方法.例证.结论一、不平衡数据集面临的挑战当今公用事业行业面临的主要挑战之一就是电力盗窃。电力盗窃是全球第三大盗窃形式。越来越多的公用事业公司倾向于使用高级的数据分析技术和机器学习算法来识别代表盗窃的消耗模式。然而,最大的障碍之一就是海量的数据及其分布。欺诈性交易的数量要远低于正常和健康的交易,也就是说,它只占到了总观测量的大约1-2%。这里的问题是提高识别罕见的少数类别的准确率,而不是实现更高的总体准确率。当面临不平衡的数据集的时候,机器学习算法倾向于产生不太令人满意的分类器。对于任何一个不平衡的数据集,如果要预测的事件属于少数类别,并且事件比例小于5%,那就通常将其称为罕见事件(rareevent)。.不平衡类别的实例让我们借助一个实例来理解不平衡类别。例子:在一个公用事业欺诈检测数据集中,你有以下数据:总观测=1000欺诈观测=20非欺诈观测=980罕见事件比例=2%这个案例的数据分析中面临的主要问题是:对于这些先天就是小概率的异常事件,如何通过获取合适数量的样本来得到一个平衡的数据集?.使用标准机器学习技术时面临的挑战面临不平衡数据集的时候,传统的机器学习模型的评价方法不能精确地衡量模型的性能。诸如决策树和Logistic回归这些标准的分类算法会偏向于数量多的类别。它们往往会仅预测占数据大多数的类别。在总量中占少数的类别的特征就会被视为噪声,并且通常会被忽略。因此,与多数类别相比,少数类别存在比较高的误判率。对分类算法的表现的评估是用一个包含关于实际类别和预测类别信息的混淆矩阵(ConfusionMatrix)来衡量的。ActualPredictedPositiveClassNegativeClassPositiveClassTruePositive(TP)False(FN)NegativeNegativeClassFalsePositive(FP)Tine(TN)Negative如上表所示,模型的准确率=(TP+TN)/(TP+FN+FP+TP)然而,在不平衡领域时,准确率并不是一个用来衡量模型性能的合适指标。例如:一个分类器,在包含2%的罕见事件时,如果它将所有属于大部分类别的实例都正确分类,实现了98%的准确率;而把占2%的少数观测数据视为噪声并消除了。.不平衡类别的实例因此,总结一下,在尝试利用不平衡数据集解决特定业务的挑战时,由标准机器学习算法生成的分类器可能无法给出准确的结果。除了欺诈性交易,存在不平衡数据集问题的常见业务问题还有:识别客户流失率的数据集,其中绝大多数顾客都会继续使用该项服务。具体来说,电信公司中,客户流失率低于2%。医疗诊断中识别罕见疾病的数据集自然灾害,例如地震.使用的数据集这篇文章中,我们会展示多种在高度不平衡数据集上训练一个性能良好的模型的技术。并且用下面的欺诈检测数据集来精确地预测罕见事件:总观测=1000欺诈观测=20非欺诈性观测=980事件比例=2%欺诈类别标志=0(非欺诈实例)欺诈类别标志=1(欺诈实例)二、处理不平衡数据集的方法1.数据层面的方法:重采样技术处理不平衡数据集需要在往机器学习算法输入数据之前,制定诸如提升分类算法或平衡训练数据的类(数据预处理)的策略。后者因为应用范围广泛而更常使用。平衡分类的主要目标不是增加少数类的的频率就是降低多数类的频率。这样做是为了获得大概相同数量的两个类的实例。让我们一起看看几个重采样(resampling)技术:(1)随机欠采样(RandomUnder-Sampling)随机欠采样的目标是通过随机地消除占多数的类的样本来平衡类分布;直到多数类和少数类的实例实现平衡,目标才算达成。总观测=1000欺诈性观察=20非欺诈性观察=980事件发生率=2%这种情况下我们不重复地从非欺诈实例中取10%的样本,并将其与欺诈性实例相结合。随机欠采样之后的非欺诈性观察=980x10%=98结合欺诈性与非欺诈性观察之后的全体观察=20+98=118欠采样之后新数据集的事件发生率=20/118=17%优点它可以提升运行时间;并且当训练数据集很大时,可以通过减少样本数量来解决存储问题。缺点它会丢弃对构建规则分类器很重要的有价值的潜在信息。被随机欠采样选取的样本可能具有偏差。它不能准确代表大多数。从而在实际的测试数据集上得到不精确的结果。(2)随机过采样(RandomOver-Sampling)过采样(Over-Sampling)通过随机复制少数类来增加其中的实例数量,从而可增加样本中少数类的代表性。总观测=1000欺诈性观察=20非欺诈性观察=980事件发生率=2%这种情况下我们复制20个欺诈性观察20次。非欺诈性观察=980复制少数类观察之后的欺诈性观察=400过采样之后新数据集中的总体观察=1380欠采样之后新数据集的事件发生率=400/1380=29%优点与欠采样不同,这种方法不会带来信息损失。表现优于欠采样。缺点由于复制少数类事件,它加大了过拟合的可能性。(3)基于聚类的过采样(Cluster-BasedOverSampling)在这种情况下,K-均值聚类算法独立地被用于少数和多数类实例。这是为了识别数据集中的聚类。随后,每一个聚类都被过采样以至于相同类的所有聚类有着同样的实例数量,且所有的类有着相同的大小。总观测=1000欺诈性观察=20非欺诈性观察=980事件发生率=2%多数类聚类1.聚类1: 150

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论