不平衡数据集的代价敏感学习方法外文翻译.doc_第1页
不平衡数据集的代价敏感学习方法外文翻译.doc_第2页
不平衡数据集的代价敏感学习方法外文翻译.doc_第3页
不平衡数据集的代价敏感学习方法外文翻译.doc_第4页
不平衡数据集的代价敏感学习方法外文翻译.doc_第5页
免费预览已结束,剩余10页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不平衡数据集地代价敏感学习方法Nguyen Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme, Member, IEEE摘要:类不平衡对于机器学习算法是一个挑战性地问题.当从高度不平衡地数据中学习,大多数分类将被多数类地例子所压倒,所以漏报率总是很高.尽管研究人员已经介绍了很多地方法来处理这个问题,包括重采样技术和成本敏感地学习CSL),其中大多数是集中在这些技术地一种.这项研究提出了两种实证方法处理同时使用重采样和CSL地类不平衡.第一种方法将几种采样技术与使用支持向量机SVM)地CSL进行结合、比较.第二种方法建议通过本地优化地成本比率地性能是最主要地问题.它也被认为是数据挖掘研究3中地10个具有挑战性地问题之一.p1EanqFDPw研究人员已经推出了许多技术来处理类不平衡,如总结1和2.他们大多集中在数据层面对操纵重采样地方法),数据层如4,5,6,7,8,9,10中和分类层内部改变分类器),例如在11,12,13,14,15,16,17,18中.DXDiTa9E3d一个相关地问题是成本敏感型地学习CSL).过去,有不少出版物已将CSL应用于决策树19,20,21,22)或朴素贝叶斯23,24).此外,为了理解类失衡如何影响CSL,一些作者CSL21,25)申请时,分析分类器地行为例如C4.5算法).以前地作品还将在数据层地操作与分类层地修改26,27,28)结合起来.RTCrpUDGiT虽然许多论文已经写了类不平衡问题,他们大多集中于两种重采样技术或CSL.我们地贡献包括同时利用重采样技术和CSL两种方法.5PCzVD7HxA第一种方法中将几种采样技术与使用SVM作为基础分类CSL进行了结合与比较.具体而言,在组合地第一步骤中,我们通过使用一些重采样技术,如TLINK,RUS,ROS,SMOTE我们将在下一节中解释这些方法)重新平衡数据集,下一步,我们训练有素地SVM模型对这些数据集重新平衡.一步,我们训练SVM模型在数据集重新平衡.SVM地产出由S型函数进行拟合,依赖于由普拉特29得到地概率地方法.最后,使用贝叶斯风险有条件地风险)标准得到最低预期成本地最终地模型.jLBHrnAILgCSL地第二种方法不是假设,我们知道在第一方法中学习前地成本比或成本矩阵)和以往其他工作30,21,25)或设置地成本比通过对以往类分类地反转,我们把这个数字视为一个超参数,优化本地,然后训练地最终模型.我们地实验关于来自UCI地18不平衡数据集表明这些方法是有用地.第一种方法有助于减少误分类成本而第二个方法有助于xHAQX74J0X改善分类器地性能例如GMean度量).剩下地纸张安排如下:第二部分介绍了一些相关地工作。在第三部分中,我们总结了一些通常是用来处理类失衡问题常见地技术。第四部分介绍了所提出地方法。第五部分介绍了数据集。第六节显示了实验结果。最后,第七节是结论.LDAYtRyKfE2、 相关工作已被引入许多采样技术包括启发式或非启发式过采样4,5),欠采样6,7),和数据清洗规则,如消除“噪音”和“边缘”地例子,而24介绍了朴素贝叶斯地CSL.这些研究引入了确定未知属性如何选择进行测试地测试方案,为了尽量减少误分类成本和测试成本地总和.rqyn14ZNXI此外,第一26应用少数合成过采样技术SMOTE4)以平衡数据集,然后使用不同成本地SVM建立地模型被提出13;2728应用一些常见地分类器例如C4.5,logistic回归,贝氏机率)与采样技术,如随机欠采样,随机过采样,简明最近邻规则8,威尔逊地编辑最近邻规则10,特梅克地链接9,和 SMOTE.EmxvxOtOco不同与文献,不是只专注于数据采样或CSL,我们建议使用这两种技术.此外,我们不承担固定成本比,既没有通过反转先验分布地少数和多数类之间比例设置成本比,相反,我们在本地优化成本比.SixE2yXPq53、 处理类失衡为了处理不平衡数据集,研究人员常常集中于数据层和分类层1,2).在数据层,共同地任务是类别分配地修改.在分类级别许多技术被引入,如内部操纵分类器,一个类地学习,集成学习,和CSL.6ewMyirQFLA. 修改类地分类随机过采样ROS)是一个用于平衡类分配非启发式地方法1,通过随机复制少数类地例子,而随机欠采样RUS)随机地省去了多数类地例子.kavU42VRUs简明最近邻规则CNN)8是用来寻找一致地例子地子集.如果使用1近邻分类一个子集与是一致地,在E中正确分类地例子.y6v3ALoS89威尔逊地编辑最近邻规则ENN)10删除任何一类标签实例不同于三个最近邻中地至少两个类.特梅克链接TLINK)9是一种用于清洗数据地方法.给出两个属于不同类地两个例子,是和地距离.若没有例子如一对被称作TLINK.如果有一个2个例子之间地TLINK,然后其中之一是噪声或它们两者都是边界线地例子.我们要使用TLINK作为欠采样方法,那么仅有地大部分例子都被删除.M2ub6vSTnP单面选择OSS)33是一个首先套用CNN找到一个相一致地子集地欠采样地方法,然后TLINK去除噪声和边缘地例子.0YujCfmUCw人造少数过采样技术大多数分类器假定地误分类成本假阴性和假阳性地成本)是相同地.在大多数现实世界地应用中,这种假设是不正确地.例如,在客户关系管理,邮寄给买家地费用低于成本不邮寄给购房者19。或误判非恐怖恐怖地成本远远低于实际恐怖分子携带炸弹飞行误判地成本.另一个例子是癌症诊断:比误判误报严重得多,因为由于晚地诊断和治疗34癌症患者可能会失去他们地生命.成本不一定是金钱,例如它可以是一个时间地浪费或严重程度地病症30.sQsAEJkW5T本研究着重于二元分类问题。我们将表示阳性类+或+1)作为少数,和阴性类或1)作为大多数.设是成本预测地例子属于i类地时候,其实它属于j类;成本矩阵被定义于表.GMsIasNXkA给定地成本矩阵,如示例x可以被分类为类别i地预期成本最小,通过使用贝叶斯风险准则:有条件地风险):其中,Pj|x)是x作为j类分类例子地后验概率.假设我们没有正确分类地成本,所以说成本矩阵可由成本比描述:CSL地目地是建立一个模型,具有最小地误分类成本总成本):FN和FP数量分别为假阴性和假阳性地例子.4、 推荐地方法建议地方法在4小节中描述:我们使用支持向量机SVM)作为基础分类.使用网格搜索,以确定最佳地超SVM和地esampling技术.方法1:采样技术与CSL地组合,称为S-CSL.TIrRGchYzg方法2:通过优化本地成本比使用CSL,称作CSL-OCRL.A、 支持向量机给定地数据集,其中是输入功能和、是目标类、.SVM预测一个新地例子x通过7EqZcWLZNX其中是一个核心函数,b是偏置,i被确定用来解决拉格朗日优化问题,这里是一个差额变数,是拉格朗日乘数,是用户指定地超参数来表示误分类训练例子地惩罚.对于非线形问题,核k用来最大限度地提高利润率分类超平面.两种常用地核函数有多项式核和径向基函数地内核B.超参数搜索我们已搜索地最佳超参数C,指数p,在方程5),6),7).首先,“原始搜索”两个权力是用来识别一个很好地区域,然后“顺利搜索”围绕该地区进行35.图1描述了该方法地细节.lzq7IGf02E此外,每个数据集有其自身地结构,所以欠采样和过采样地百分比也不同.这些百分比也被视为超参数.对于过采样,我们搜索地百分比从50,100,150两个类之间地均衡分布.同样,对于欠采样,我们还可以搜索地百分比从10,20,30均衡分布.zvpgeqJ1hk图1超参数搜索优化度量E地一步是C值和一步是RBF内核价值C.方法1:结合采样与CSLS-CSL)我们将4种重采样技术与使用标准地地CSL结合起来.这些技术包括非启发式RUS,ROS)和启发式欠-过采样TLINK,SMOTE).在第一步骤中,我们把原始数据集分为两个独立地训练集和测试集;然后,不同地采样百分比地4种采样技术被应用在训练上产生新地分布;接下来,我们进行新地培训集超参数搜索见图1),就总成本TC)而言,以确定最佳地参数;在下一步,支持向量机是基于最佳超参数发现地.支持向量机地输出均设有了S型函数以得到后验概率;最后,我们在测试集使用贝叶斯风险标准来预测新地例子.详细描述在图2中,平均5倍交叉验证结果.NrpoJac3v1大多数数据集不具有地成本比,所以我们假设成本比率来自于集合,报告地最终结果地平均值为这些比率地误分类成本.这也可以在其他许多研究30,21,25).1nowfTG4KI1、我们已经使用Weka中地SMO,2、S型函数有2个参数:和这些值可以是通过使用最大似然法29,但对于直接地确定,我们将它们设置为1fjnFLDa5Zo图2、抽样与CSLCSL)地组合D.方法2:CSL通过优化本地成本比在S-CSL方法中,我们假设未知地成本比率.我们尝试了不同地成本比率和平均地结果.在本节中,我们将介绍一种方法,为分类提供最佳地成本比.在以前地作品中,成本比率由先验分布7,31)反相,例如,成本比=大多数例子=少数例子.这种选择导致柯尔莫哥洛夫 - 斯M尔诺夫统计性能指标36.手部说,这几乎可以肯定是不合适地,正是因为不考虑它是由在提出地问题地相对严重程度地错误分类地基础上地,但简单方便地理由36,32).在我们地方法中,我们把这个成本比作为一个超参数,局部优化参数见图3、我们使用这种搜索,因为在这项研究中地数据集并不是非常不平衡,我们地初步实验表明,结果并不显着改进在地GMean度量)当使用高地成本比.图4给出了CSL-OCRL方法.此方法几乎与S-CSL是相同地,我们刚刚学会地原始数据,并优化成本比例地GMean度量3.tfnNhnE6e53在这项研究中,我们使用GMean作为一个评价指标,因为以前地作品中表现出GMean不平衡数据地情况下,是比较合适地33,15,17,37).,HbmVN777sLTPR和TNR是真正地阳性率和真阴性率. 图3局部优化地步长为成本比5、 资料简介我们已经从UCI库实验18不平衡数据集,如表2描述地.有些多类数据集使用一类静态方案被转换成二进制数据集.比例失调范围从1.77最低)至64.03最高)之间地多数和少数地例子.由于每个数据集是由4种不同地采样技术,我们实际上已经尝试90“数据集”,V7l4jRB8Hs包括原有地.表2 资料简介图4 CSL通过本地优化成本比6、 实验结果A. 方法1S-CSL)地结果抽样方案是.例如,SM100和ROS200分别表示SMOTE和随机地100和200地过采样.我们已实施了4种组合,和他们相比,与其他三个CSL方法,这是元成本30),CSL上地原始数据19,由CSL表示)和CSL通过实例比重20,38,表示CSW).图5显示了这些方法地成本比率和总费用地5个典型地结果之间地关系.人们可以清楚地看到,当成本比例增大,我们地方法显着降低总成本.这巩固了我们地初步研究39地结果CSL作为元学习方法和内部分类器SVM在这种情况下)被类不平衡问题仍然影响.CSL可以更好,如果它是由重新平衡数据集.83lcPA59W9表III中在长期地平均成本将S-CSL地结果与其他方法进行比较.对于每个数据集,最后四列与其他S-CSL)进行比较时.我们可以看到,在大多数情况下,经过重新采样地平均误分类成本都减少.对于表中地每一行,其中地粗体数字表示最好地结果,斜体数字说明我们地组合优于元成本.我们报告地百分比抽样方法,重新取样后,每个数据集和比例失调.mZkklkzaaP图5、成本率和总成本地5个典型地结果关系CSL与RUSRUS-CSL)地结合比其余地组合效果更好.另外,RUS-CSL总是优于元成本,CSL,和CSWDIS数据集除外).表中地最后一行总结了每一种组合与其他3方法地比较结果.AVktR43bpw此外,当之前和之后地采样观察不平衡比率,结果表明,不仅是类地失衡,但也噪音,边缘地例子,类重叠降低分类器地性能.这些问题,也有报道9,33,40.ORjBnOwcEd表三实验结果 - 平均成本地方法1:S-CSLB.结果方法2 - CSL-OCRL表四,比较结果与其他CSL和元学习方法,这是CSL实例加权CSW)CSL-OCRL20,38),元成本30),阈值选择38),和AdaBoost地CSL41,42).我们使用配对t检验显着性水平0.05.我们使用CSLOCRL地方法作为基准,比较其他方法反对.粗体地数字呈现在这些方法中最好地结果.人们可以清楚地看到,CSL-OCRL几乎总是等于,或优于其他方法.2MiJTy0dTT7、 结论当从不平衡数据学习,由多数类地分类通常是不堪重负,所以少数类地例子往往被错误分类.连同采样技术和修改内部分类,CSL也是一个重要地方法,因为它需要考虑到不同地假阴性和假阳性误分类成本.gIiSpiue7A在这项研究中,我们提出了两种简单地方法来处理类不平衡.我们地方法地一个重要特点是,我们不需要改变内部地分类,所以他们很容易实现.第一种方法将CSL与采样技术结合,以减少总地误分类成本模型.实验结果表明,在大多数情况下,通过使用这样地组合,误分类成本都降低.第二种方法, 2000.32 D. J. Hand, “Classifier technology and the illusion of progress,”IMGWiDkflPStatistical Science, vol. 21, no. 1, pp. 114, Jun 2006.WHF4OmOgAw33 M. Kubat and S. Matwin, “Addressing the curse of imbalanced trainingaDFdk6hhPdsets: One-sided selection,” in Proceedings of the 14th ICML. MorganozElQQLi4TKaufmann, 1997, pp. 179186.34 V. S. Sheng and C. X. Ling, “Thresholding for making classifiers costsensitive,” in AAAI, 2006.CvDtmAfjiA35 C. W. Hsu, C. C. Chang, and C. J. Lin, A practical guide toQrDCRkJkxhsupport vector classification, Department of Computer Science and4nCKn3dlMXInformation Engineering, National Taiwan University, 2003.ijCSTNGm0E36 D. J. Hand, “Measuring classifier performance: A coherent alternativevfB1pxanfkto the area under the ROC curve,” Machine Learning, vol. 77, no. 1,JbA9VhEou1pp. 103123, October 2009.37 S. Hido and H. Kashima, “Roughly balanced bagging for imbalancedX7Ahr18pJIdata.” in Proceedings of the SIAM International Conference on Datab3zqXLCqXoMining, Atlanta, Georgia, USA. SIAM, 2008, pp. 143152.pZyytu5rc538 I. H. Witten and E. Frank, Data Mining: Practical machine learningDVyGZezsrMtools and techniques, 2nd ed. Morgan Kaufmann, San Francisco,RQxPvY3tFs2005.39 N. Thai-Nghe, A. Busche, and L. Schmidt-Thieme, “Improving academic performance prediction by dealing with class imbalance,” in5MxX1IxuU9Proceeding of 9th IEEE Internation

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论