代价敏感决策树讲解_第1页
代价敏感决策树讲解_第2页
代价敏感决策树讲解_第3页
代价敏感决策树讲解_第4页
代价敏感决策树讲解_第5页
已阅读5页,还剩7页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用于欺诈检测的一种代价敏感决策树方法Yusuf Sah in a, Serol Bulkanb, Ekrem Duma nDepartme ntDepartme ntof Electricalof In dustrial& Electr on icsEngin eeri ng,Marmara Uni versity, Kadikoy,34722 Ista nbul, TurkeyEngineering,Marmara University,Kadikoy, 34722 Istanbul,TurkeycDepartme nt of In dustrial Engin eeri ng, Ozyeg

2、 in, Cekmekoy, 34794 Ista nbul, Turkey关键词:代价敏感建模信用卡欺诈检测决策树分类可变误分类代价摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常见的欺诈类型,比如在虚拟POS机上的信用卡欺诈使用,或者是所谓的在线信用卡欺诈邮购。 所以,欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。在此次研究中,提出了一种全新的代价敏感决策树方法,它将在每个非叶节点选择分裂属性时最小化误分类代价之和,其在现实世界信用卡数据集上的性能

3、可以与那些众所周知的传统分 类模型相比较。在这种分类方法中, 误分类代价将取不同的值。结果表明,在给定的问题集上使用已知的性能指标, 比如准确度和真阳性率, 此代价敏感决策树算法胜过现有公知的方 法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。因此,通过在欺诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。1. 引言欺诈可以被定义为为了取得财务或个 人利益的非法或刑事欺骗。两种避免由于诈 骗活动导致欺诈和损失的机制是欺诈预防 以及欺诈检测系统。欺诈预防是以防止欺诈 行为发生为目标的主动机制。欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个 欺诈交易时发挥作用。

4、有关欺诈领域以及检 测 技术的 综述可 以在 Bolton and Hand (2002), Kou, Lu, Sirwon gwatta na,andHua ng (2004), Phua, Lee, Smith, and Gayler (2005), Sah in and Duma n (2010) 的研究中找到。其中最知名的欺诈领域是信 用卡系统。可以通过许多方法进行信用卡欺 诈,如简单盗窃,申请欺诈,伪造卡片,从 未达卡问题(NRI)以及在线诈骗(在持卡 人不存在的情况下)。在网络诈骗中,交易 是通过远程完成的,并且只需要信用卡信 息。由于网络的国际可用性和易用性,用户可以在互联网交易

5、中隐藏自身位置以及身 份,所以通过该媒介发生的欺诈行为正在快 速增长。信用卡欺诈检测有很多以前已经完成 的研究。关于信用卡系统以及欺诈领域非技 术性知识的一般背景可以分别从Ha naga ndi,Dhar, and Buescher (1996) and Ha nd and Blunt (2001)学习。在这个领域中,最常用 的欺诈检测方法有规则归纳技术,决策树, 人工神经网络(ANN,支持向量机(SVM, 逻辑回归以及诸如遗传算法的启发式算法。 这些技术可以单独使用,也可以通过集成以及元学习技术协同使用来构建分类器。大多数信用卡欺诈检测系统在使用监督算法, 比 如神经网络(Brause, L

6、angsdorf, & Hepp, 1999; Dorronsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Ha nd, Whitrow, & Westo n, 2008; Quah & Sriga nesh, 2008;Schi ndeler, 2006; She n, To ng, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Cha n,1997; Stolfo, Fa n, Lee,Prodromidis, & Chan, 1999; Syeda, Zha ng, & Pan, 2

7、002; Prodromidis,Chan, & Stolfo,2000),ID3、C4.5和C&RT一类的决策树技 术(Che n, Chiu, Hua ng, &Chen, 2004; Che n, Luo, Liang,& Lee, 2005;Mena, 2003;Wheeler & Aitke n, 2000)以及支持向量机(Gartner Reports, 2010;Leonard,1993)。信用卡欺诈检测是一个非常困难,但也很受欢迎的亟待解决的问题。总是仅有有限 数量有关犯罪交易的数据。同时,也有可能 存在诈骗者进行符合正常(合法)行为模式(Aleskerov, Freisleb

8、e n, & Rao, 1997)的交易通过的情况。此外,该问题还有很多 限制。首先,正常和诈骗行为的表现不断地 改变。其次,新欺诈检测方法的发展变得更 加困难是由在欺诈检测中交换思想的事实 造成的,尤其是信用卡欺诈检测因为安全和 隐私问题被严格限制。 第三,数据集不一定 是可用的,其结果往往是截尾的,这使得它们难以评估。甚至,一些研究使用合成产生 的数据进行(Brause 等,1999; Dorronsoro 等,1997 )。第四,信用卡欺诈数据集是高 度倾斜集。最后,该数据集正在不断发展, 使得正常和诈骗行为的表现总是在变化(Bolt on & Hand, 2002; Kou 等,200

9、4; Phua et al., 2005; Sahi n & Duma n, 2010)。因此,信用卡欺诈检测仍然是一个流行的,具 有挑战性以及困难的研究课题。Visa关于欧 洲国家的信用卡欺诈报告指出在2008年,大约50%勺信用卡欺诈损失是由于在线欺诈(Ghosh & Reilly, 1994)。许多文献报道了大量不同国家的损失(Bolton & Hand,2002; Dahl, 2006; Schindeler, 2006)。因此,新方法提高了在这一领域的分类器性 能兼有经济意义与研究贡献。基于这个领域 的特性,定义一个新的代价敏感方法是改善 的最佳途径之一。虽然传统的机器学习技术在许多

10、分类 问题上一般是成功的,但是具有高准确度或 最小化误分类误差并不总是开发分类器的 目标。在现实世界的机器学习问题领域的应 用中,有各种类型的代价参与,Turney定义 了其中的九种主要类型( Turney, 2000 )。 然而,大多数机器学习文献并不采取任何这 些代价的考虑,仅仅剩下的一小部分考虑了 误分类代价。Turney还指出误分类误差的代 价在分类中具有独特的地位(Turney, 2000)。而根据 ML-netll项目(EuropeanNetwork of Excelle neeinMach ineLearning )的技术路线图,代价敏感学习据 称是在机器学习研究的未来中一个非常

11、流 行的课题(Saitta, 2000; Zhou & Liu, 2006)。因此,通过构建代价敏感分类器来 改善分类器在欺诈检测系统中的性能是一 个使大量经济损失恢复的最好办法。此外, 客户的忠诚度和信任度也将有所增加。并且代价敏感分类器已经被证明能够有效处理 类不平衡问题(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006 )。大量过去的研究是在恒定的误分类代 价矩阵或者由一些恒定的合成误分类代价 组成的代价矩阵上进行的;然而,每个假阴 性(FN具有它固有的独特的误分类代价。 因此,每个假阴性(FN)应当以某种方式排 列

12、来显示误分类代价的差异。例如,具有较 大交易量的或者更大可用额度的欺诈交易 应该比具有较小数量或可用额度的更需要 被检测。恒定代价矩阵或者不变代价矩阵的 组合不能描述这个场景。所以,本研究是在可变误分类代价的分类问题工作中,将这样的情况纳入考虑的开拓者之一。这项研究的目的是填补信用欺诈检测文献的一项空白。在此研究中,开发了一个新的代价敏感 决策树归纳算法,它将在树的每个非叶节点 选择分裂属性时最小化误分类代价之和,并且分类性能可以与那些无论是代价不敏感 还是代价敏感的具有固定误分类代价率的 传统分类方法相比较,比如传统决策树算 法,人工神经网络和支持向量机。结果表明,就诈骗交易的辨别和防止可能

13、的损失量而 言,这个代价敏感决策树算法在我们现实世 界数据集上的表现优于现有公知的方法。在信用卡欺诈检测中,误分类代价以及欺诈的优先序基于个人记录来区别不同。其结果是,常见的性能指标,如准确率,真阳 性率(TPR或者甚至曲线下面积(AUC并 不适合评估模型的性能,因为它们接受每个欺诈是具有相同优先级,不管欺诈交易量或 者当时交易中用卡的可用信用额度是多少。 应该使用一个使用有意义的方式按序排列 欺诈交易以及检查模型在最小化总经济损 失时性能的全新性能指标。一旦诈骗者得到使用信用卡进行诈骗交易的机会,他们通常消耗完一张信用卡的可用信用额度。因此, 一个欺诈交易的经济损失可以假定为交易 前卡的可用

14、信用额度,而不是交易的数量。 这样,模型在测试集上的性能比较可以使用 新定义的代价敏感性能指标挽回损失率(SLR),也就是从欺诈交易中信用卡可用额 度之和的潜在经济损失中挽回的百分比。 为 了显示我们观点的正确性,在模型性能的比较中,代表模型性能的真阳性率( TPR的 值也会给出。本文的其余部分安排如下:第二章节给 出机器学习中代价敏感方法的回顾;第三章节给出对于信用卡数据的结构的一些见解; 第四章节给出新开发的代价敏感决策树算 法的细节;第五章节给出结果以及对结果的 简短讨论;第六章节总结本研究。2. 机器学习中的代价敏感方法有不同方法用于构建将代价敏感性考 虑在内的分类模型。第一个通过改变

15、过采样 或欠采样的训练数据分布来建立代价敏感 分类模型,使得该集合中数据的代价可以表 现出例子的形态。一些研究试图通过分层来 克服误分类代价问题;以及当数据集不平衡 时复 制或丢弃样本(Japkowicz, 2000; Kubat & Matwi n, 1997)。然而,这些研究人员假设代价矩阵的内容是固定的数字,而不是依赖记录的值。研究人员如 Domi ngos 试图建立像MetaCost的机制去将代价不敏 感分类器转换为代价敏感分类器(Domi ngos,1999; Elka n, 2001)。根据一些研究报告,过采样对于不平衡 数据集的学习是有效的(Japkowicz & Stephe

16、n, 2002; Japkowicz et al., 2000; Maloof, 2003 )。但是,过采样增加了训练 的时间,并且因为它创建了不少较小类样本 的拷贝,所以可能会导致过拟合问题(Chawla, Bowyer, & Kegelmeyer, 2002; Drummond & Holte, 2003 )。不同于过采样, 欠采样试图减少较多类的样本数量,以便于实现训练集数据关于类分布的平衡。一些研究表明欠采样善于处理不平衡数据问题(Drummond & Holte, 2003; Japkowicz & Stephe n, 2002; Japkowicz et al., 2000; Ma

17、loof, 2003 )。第二种方法是当建立分类模型时将代 价敏感性考虑在内,调整廉价类的阈值使得 昂贵类样本的误分类更加困难以此最小化 误分类代价(Langford & Beygelzimer, 2005; Maloof, 2003; She ng & Ling, 2006; Zhou& Liu, 2006 )。过采样,欠采样和调整阈值 不会更改算法,因此可以被用于几乎所有的 算法(Ma, So ng, Hu ng, Su, & Hua ng, 2012 )。 然而,前两者会改变模型算法的输入, 而后 者会改变由该算法构建的模型的输出(Zhou& Liu, 2006 )。就如调整阈值,在学习

18、算法 中对昂贵类增加学习速率,如果这样,可以 使模型更多地学习高代价的样本,而不是低代价的(Kukar & Kononenko, 1998; Wan, Wang, & Ti ng, 1999)。最后一种考虑代价敏感性的方法是修 改代价不敏感学习算法或定义一个新的代 价敏感算法。如果该算法是一个基于决策树 的,这可以通过要么使用代价敏感方式分裂 或用代价敏感方法剪枝或提供额外的代价 调整函数来完成。虽然许多研究人员使用不 同的启发式方法来建立代价敏感决策树(Breiman, Friedman, Olshen, & Stone, 1984; Brodley, 1995; Draper, Brodl

19、ey, & Utgoff, 1994),有些人使用不同的技术来剪枝使用误分类代价按传统方法建立的决 策树(Bradford, Kunz, Kohavi, Brunk, &Brodley, 1998;K noil, Nakhaeizadeh, & Tausend, 1994 )。3. 信用卡数据的结构在这项研究中使用的信用卡数据是从 一个银行的信用卡数据仓库中使用所需的 权限获取的。信用卡数据仓库中的以往数据 被用来形成表示客户卡使用情况的数据集 市。数据集市中的数据被用于形成在建模阶 段使用的训练集和测试训练模型阶段使用 的测试集。原始数据的时间区间共有12个月,用于形成具有大约22万条信用卡

20、交易的训练集。这个数据关于正常和欺诈交易的分布是 高度倾斜的。这12个月期间,用于建立我 们样本数据包括 978条诈骗记录以及大约 22万条正常记录,这个比例大概是1:22500。 所以,为使模型能够学习这两类样本,我们使用分层抽样去下采样合法记录到一个有 意义的数字。我们试着采样到不同的合法/欺诈比值。此外,所有属于过去 6个月时间 段的数据,包括含有484条欺诈交易的大约 11344000条交易记录直接包含在测试集中。 测试集中的所有交易都通过分类方法得分。 训练和测试集的数据分布在表1中给出。每一张信用卡的交易数量都与其它的 不同,但是每条交易记录都是相同的固定长 度,并且包含相同的字段

21、。Hand和Blunt给出了一个信用卡数据特点的描述(Hand&Blunt, 2001)。虽然一些客户可能拥有超过一张的信 用卡,但是每张卡被视为一个独特的配置文 件,因为拥有超过一张卡的客户出于不同的 目的,通常在不同的客户配置文件中使用每 张卡。每张卡的配置文件中包含了能够透露 用卡行为特征的变量。 这些变量可以表示针 对位置,时间或者交易发生地点类型的信用 卡交易模式。欺诈检测系统使用分类模型通 过鉴别与给出卡使用的配置文件的显著偏 差去检测诈骗活动。这些变量不仅从交易本 身,而且还从卡过往的交易历史中派生。我 们的内容将提及使用的变量类型,但是出于对隐私,保密性和安全性的担忧,我们是不

22、被允许谈论变量的完整列表。这些变量是五 个主要变量类型中的一个:所有的交易统 计,地区统计,商户类型统计,基于时间交 易额的统计以及基于时间的交易数量统计。 一些变量可以表述为交易类型,商户类别 码,POS俞入模式,PIN输入能力,卡类型, 卡域以及卡使用国家。所有交易统计类型中的变量大体上透 露了持卡人使用卡的一般信息。区域统计类 型的变量给出有关地理区域的持卡人消费习惯。属于商户类型统计的变量显示持卡人 在不同商户类别使用卡的情况。基于时间的统计类型变量鉴别出卡关于使用额度或使 用频率与时间范围关系的使用信息。当评估信用卡的一个新交易时,通过这些变量可以 鉴别出其与卡正常使用信息的偏差,从

23、而给出欺诈使用的信号。所以,对于每一张卡的 每一笔交易,这些变量每一个都需要计算, 并且包含在测试集中。4. 代价敏感决策树方法对现实世界分类问题进行建模的最大 问题之一是数据分布不平衡,而且在信用卡 欺诈检测的情况下,识别属于较少类的记录 比识别属于较多类的记录更为重要。 解决该 问题的一个有效方法是代价敏感建模, 使得 误分类较少类记录的代价比误分类较多类 的记录更大。在本文中,给出了开发一个代价敏感决 策树算法去识别信用卡欺诈交易的细节。在公知的决策树算法中,分裂条件要不是对代价和类分布不敏感,就是代价固定为恒定比 率,如此使得将欺诈交易分类为正常(假阴 性,FN)的代价是将正常交易分类

24、为欺诈(假阳性,FP)的N倍。此外,在这些算法中, 误分类的代价仅在剪枝过程中纳入考虑,而归纳过程并不考虑。这里有一些以前针对代 价敏感树归纳做的研究,其中误分类的代价仅仅依赖于类(Drummond & Holte, 2000a;Drum mond& Holte, 2000b; Li ng, She ng, & Ya ng, 2006; Liu, 2009),或者是个别样本表1关于类别的数据分布 集合记录自身(Duma n& ?z?elik, 2011; Li ng, Yang, Wang, & Zhang, 2004 )。就我们所知,这是 在信用卡欺诈检测中使用不同的误分类代 价来探索代价敏

25、感决策树归纳算法特定应 用组合的第一项工作。实际记录数量集合中记录数量训练集正常220000008802欺诈978978测试集正常1364400013644000欺诈484484在信用卡交易中,每次欺诈交易会产生 一个不同的代价,所以对每一笔欺诈交易使 用一个固定的误分类代价并不适合我们的 问题。从而,我们对每笔交易使用一个不同 的代价,这是它们自身固有的。 除非诈骗者 提交的第一笔欺诈交易没有被检测到,否则他们在获得使用卡进行交易的可能后,通常在随后的交易中花完信用卡里所有可用的 信用额度。他们一般设法用平均四到五次交 易来实现这个目标(Duman & ?z?elik, 2011 )。因此,

26、将欺诈交易鉴定为合法的实 际代价就和交易中信用卡使用的可用信用 额度一样大。故而,一笔欺诈记录的误分类 代价被定义为交易中信用卡使用的可用信 用额度,而不是交易量和预先定义的固定的 代价值。另外,这个假设在代价和每笔欺诈交易 之间做出了区分。换句话说,检测出使用有 高额可用信用额度的卡进行的欺诈交易比 使用有低额可用信用额度的卡进行的欺诈 交易能挽救更多的损失。如此,检测到的第 一笔欺诈交易的优先级比第二笔高。因此, 每个假阴性都有不同的误分类代价,同时, 对于模型性能的,应该使用代价敏感指标评 价而不是基于检测到欺诈数量的指标,如式(1)中给出的新定义的能够反映挽回的所 有可用信用额度所占百

27、分比的指标SLF。k(CFN)jSLR 二导二(CFN ) i i =1其中k表示被检测到的欺诈数,f表示欺诈的总数,(Gn)j表示FN的误分类代价(1)经典的决策树模型并不适用于依据个 别交易确定可变误分类代价的情况。因此, 我们开发了一种新的代价敏感决策树算法, 其决策树学习算法中的分裂条件受各个误 分类代价改变的影响。我们算法使用的代价指标在表2中给出。对于正常交易的误分类代价(Op),我们的算法假定一个固定的误分类代价是由 一些特定的程序和采访银行工作人员与领 域专家找到的。该算法取交易中所用卡在交 易前的可用信用额度作为欺诈交易的误分 类代价(Gn)。这里新定义的代价敏感决策树学习算

28、 法选择一个节点分裂变量的方法是如果一 个分裂是可能的,那么一定是基于总误分类 代价的减少,而不是杂质的减少。我们假设 FP是实际上是正常的交易被错误分类为欺 诈的,而FN是实际上是欺诈的交易被错误 分类为合法的。开始时,训练集中所有的交 易都被分配给树的根节点。首先,计算该节点的代价。在决策树中,一个节点上的所有 交易都可以被分类为要不是欺诈的,那么就是合法的。因此,无论是将节点上的交易标 记为欺诈(O)的总误分类代价,还是将交 易标记为正常的(Cn)总误分类代价,都需 要计算。为了计算法G和Cn,我们使用四种 不同的方法:CS-直接代价(CS - Direct Cost ) , CS 类概

29、率 (CS - Class Probability ), CS-基尼(CS - Gini )和 CS-信息增益(CS - In formation Gai n)。在CS-直接代价方法中,我们在代价计 算函数中不整合任何不纯性度量,并且仅通过使用独立降低总期望分类代价的方法来 寻找最佳分裂。这种代价方法是从Ling等(2004), Zubek and Dietterich (2002), Grei ner, Grove, and Roth (2002) 处受到 的启发。这种方法选择能够最大程度上减少 总误分类代价的变量来替代使用不纯性度 量寻找分裂变量。在将交易标记为正常 (Cn)的情况下,总误

30、分类代价是该节点每个欺诈表2使用的代价指标实际值预测值阳性(欺诈)阴性(合法)阳性(欺诈)真阳性(TP) (误分类代价=0)假阴性(FN) (误分类代价=CFn)阴性(合法)假阳性(FP) (误分类代价 =CFp)真阴性(TN)(误分类代价=0)记录的可用信用额度 (CFN)i)之和。将合法 交易标记为欺诈只会造成一个对于每个合 法交易相同的观测代价(Gp)。因此,在该方法中,只有误分类代价在树归纳和分类中 使用。假设有“ f ”个欺诈记录和“ n”个正 常(合法)记录,它们落在一个节点上,那 么“ N ( N = f + n )给出该节点记录总数, O和G的计算在下面的式(2)和式(3)中

31、给出:fCn 二 (Cfn )i( 2)i总CP 二 n * CFP( 3)不同于CS-直接代价方法不管数据的类分 布以及节点的不纯性,仅仅使用期望的总误 分类代价去寻找当前节点的最佳分裂的情 况,传统的决策树归纳技术使用类分布或者 在某些方面使用不纯性度量来寻找下一层 的分裂。因此,使用下面的方法在代价敏感 分裂机制的节点上添加类分布以及不纯性 的影响,我们使用从著名的传统决策树算法 ID3 , C5.0和C&RT中得到的启发,修改寻找 分裂的误分类代价计算。这些传统的决策树方法使用不纯性度量去选择分裂属性和分裂值。ID3(Prodromidis 等,2000 )使用熵和信息增 益,而之后的

32、C5.0使用增益比,C&RT(Wheeler & Aitke n, 2000)则使用基尼用于不纯性度量。对于二类问题,期望信息(熵)与基尼的计算方法在下面的式(4)中给出:2a. Entropy f (-Pi * Iog2( Pi)i=122b. Gini = 1 -、(- Pi)i 二其中p表示类i的相对频率(4)在CS-类概率方法中, 类的相对频率(类概 率)被集成到代价计算函数中,用于增加类 分布对该节点代价的影响。由于该节点上某类的相对频率增大,那么在该节点就会有更 多的记录属于这个类。因此,若使用如ID3和C5.0决策树方法中的相应不纯性度量, 该节点上的记录将会被分配给此类。又因为

33、我们决定根据误分类代价标签该节点,所以我们应该将该类的代价与它类的相对频率 相乘,这样使得我们将更多的降低拥有更高 相对频率类的代价。故而,我们将减少选择 有较高频率类的代价。顺便说一下,我们倾 向于在节点上用更高频率的类。在CS类概率方法中,G和CN的计算方法由下面的式(5)和式(6)给出:ffCn =(二(CFN)i)*()( 5)yn+ fnCp =()*n *Cfp(6)n f在CS-基尼方法中,受到 C&RT中使用的基 尼不纯性度量的启发,类概率的平方被集成 到代价计算函数中,以另外一种方法来增加 类分布对于节点代价的影响。我们将一个类的代价与它类相对频率的平方相乘,从而比CS-类概

34、率方法能更多的降低高相对频率 类的代价。在 CS-基尼方法中,O和Cn的 计算方法由下面的式(7)和式(8)给出:ff 2CN=C (CFN)i)*()2( 7)yn+ fn 2cp = n*CFP*()(8)n十f在CS-信息增益方法中,受到ID3使用的信 息增益不纯性度量的启发,相对类概率的负对数被集成在代价计算函数中,以另外一种方式来增加类分布对于节点代价的影响。因为相对频率的对数是非正值,所以我们乘以 负1使其变为非负。在 CS-信息增益方法 中,O和CN的计算方法由下面的式(9)和 式(10)给出:fCn = -log()*(二(CFN)i)( 9)f i 4Cp =-|og()*n

35、 * cfp(10)n + f在每一种情况下计算误分类代价之后,如式(11)所示,选择具有最小代价的情况作为 该节点误分类代价。 节点上的交易被分配给 具有最小总期望误分类代价的类(N= 正常, F=欺诈)。由于将欺诈标记为欺诈和将合法 标记为合法的误分类代价为0,所以它们是不会被包括在误分类代价的计算中。该节点被标记为具有最小总误分类代价的标记类, 见式(12)。C Node = mi n( CN,Cp)( 11)Labehde =If (Cn ::Cp)the nN,else P( 12)在找到每个类的误分类代价之后,被发现是欺诈的或是正常的类概率如下面的式(13)和式(14)所示。因为分

36、类算法基于误分类 代价,所以当一个类的误分类代价更大时, 成为另一个类的概率越大。因此,这导致误 分类代价越小的类将被选择作为该节点的 类。在一个节点,一个类的误分类代价越大, 那么该节点上的记录属于该类的可能性越 小。故而,在一个类误分类代价和该类可能 性(P)之间存在某种反比关系。PNMde =Cf/(Cn Cf)( 13)PF -Node - CN /(CN CF)( 14)从根节点开始,每一个节点都会检查在该节 点分裂中最适合使用的变量,如果一个分裂是可能的,那么将会尽可能的减少总误分类 代价。根据变量类型分裂一个节点的方法如 下:多分裂用于特征,而二元分裂用于数值 (范围)变量。在发

37、现上述每个子节点 (CCn) 的代价之后,分裂后子层的总代价(Ct)就如式(15)所示(假设分裂后有 m个子节点)。 相比使用诸如增益率的公式,我们更喜欢在 分裂之后直接划分子节点的数目,因为(Liu,2009; She ng等,2006 )表示这样做不仅克 服了信息增益的缺点,同时建立了面向增益 比的实际问题。mCt =(二(CcN)i)/m( 15)i绍分裂之后,子节点代价之和除以子节点 的数目使得相比导致更少分裂节点的变量, 不会偏向选择造成更多分裂节点的变量。如果子层的总代价比父节点的代价要小,那么就会有误分类代价的减少,这个分裂就是要 使用的候选。针对每个输入变量, 使用每一 个可能

38、的分裂在候选分裂中寻找最佳代价 降低,并且在子层给出最佳代价降低的分裂 将被选为该节点的分裂。如果没有能造成代 价降低的候选分裂,或者一个节点上的交易 数目低于允许的最小交易数目,那么父节点将会被标记为一个叶节点。 通过节点的误分 类代价计算,不仅仅是该节点的类, 还有该 节点上的交易是欺诈还是正常的概率也会 被发现。5. 结果和讨论在真实世界的例子中,大多数信用卡操 作管理部门只有有限的员工来监测欺诈警 报。所以,许多欺诈检测系统应该展示其在 一个固定数量欺诈警报情况下的最佳性能。 就我们而言,我们的数据供应商银行仅仅检 查所有交易的8%因此,我们根据分类模型 给出的记录欺诈可能性, 对记录

39、在测试集中 进行排序,并在测试集前8%勺风险交易中比 较模型的性能。因为每个欺诈记录的代价是不同的,所以每一个每一笔欺诈应该根据其代价进行 优先排序。从而,检测一个具有高代价的欺 诈应该比检测一个低代价的欺诈更为重要。 于是,应该根据误分类代价来评估模型的性 能,也就是说比如准确度或精度(或真阳率 TPR 一类的常见性能指标并不适合评 价像这种情况一样拥有不同误分类代价的 模型的性能。这就是为什么在测试集上使用 挽回损失率(SLR来比较性能,其表示从 欺诈交易用卡的可用信用额度的潜在经济 损失中挽回的百分比。为了表明我们观点的 正确性,模型性能的TPR值与SLR值一同给 出。表3 ANN模型性

40、能的统计学分析ModelNMea nStd.dev.Std.error meanGroup statisticsSLRDyn amic1086.892.859860.90437Quick1087.601.320770.41767TPRDyn amic1090.620.833730.26365Quick1090.600.543650.17192In depe ndent samples testLevene equality ofvaria ncess test fort-test for equality of mea nsFSig.tdfSig.Mea nStd. error95%Con f

41、ide nee(2-tailed)differe neediffere neein tervalof thediffere neeLowerUpperSLREqual varia nces assumed16.8190.001-0.71318.0000.485-0.710000.99615-2.802841.38284Equal varia nces not assumed-0.71312.6720.489-0.710000.99615-2.867731.44773TPREqual varia nces assumed4.5470.0470.06418.0000.9500.020000.314

42、75-0.641260.68126Equal varia nces not assumed0.06415.4820.9500.020000.31475-0.649060.68906在本次研究中,在使用相同方法和不同 参数开发的模型中,选择表现出最佳性能的 模型,并且将它们的性能与本研究中定义的 使用代价敏感决策树算法建立的模型性能 相比较。于是,在 SPSSPASWModeler中使 用传统决策树方法建立的模型中选择六种 模型。这些模型是使用 C5.0,CART CHAID 带有固定代价比5:1的CHAID (误分类一个 欺诈记录的代价是误分类合法记录的5倍),Exhaustive CHAID

43、 ( CHAID 一个详细展现预 测变量合并和测试的扩展),以及带有5:1 代价比率的 Exhaustive CHAID。在人工神经网络模型中,两个性能最佳的模型是在SPSSPASWModeler中使用动态 和快速网络建立的。在这个快速的方式中, 训练了一个单隐层前馈 BP神经网络。默认 情况下,该网络具有一个最多包含 (3 * (ni+ n。)/ 20 )神经元的隐藏层,其中 m表示 输入神经元的数量,no表示输出神经元的数 量。该网络采用反向传播方法训练。在动态方法中,又训练了一个单隐层前馈神经网 络,然而,网络的拓扑结构在训练时发生了 改变,神经元不断加入以提升性能直到该网 络达到期望的

44、准确率。有两个地方需要动态 训练:寻找拓扑结构和训练最终网络。对于不同的10个测试结果中的每一个,动态和 快速方法在测试集上的性能统计是最好的。 在TPR和 SLR方面,并没有发现这两种人工 神经网络方法的性能有统计学意义上的差 别。详细的分析在表 3中给出。同时还在使用SVM方法建造的模型中选 择一个有最佳性能的模型。所有被选择模型 的性能在表4中给出。在使用传统方法建造的被选择模型中,人工神经网络模型在欺诈捕获或TPR方面表现出了最佳性能,并且其中一个在 SLR方面 有最佳性能。然而,在 TPR和 SLR方面,三 个代价敏感决策树模型的性能优于所有其 它模型。我们的CS-直接代价方法仅仅使

45、用误 尽管以前的研究指出只使用预期误分类代 价的方法性能优于许多传统的代价敏感方 法(Ling等,2004 ),图1和图2给出的我 们的结果表示我们不能仅仅使用误分类代 价去分类,而且应该描绘类分布和数据不纯 性在某些方面对我们代价计算的影响。分类代价去建造树,故表现出最差的性能。表4模型性能模型TPTPRSLR动态-平均43990.686.9动态-最佳44591.990.7动态-最差43389.583.7快速-平均:43990.687.6快速-最佳44391.589.6快速-最差43389.586.0C5.043590.085.0C&RT43189.084.7CHAID43589.984.7

46、Exhaustive CHAID43589.984.7SVM (多项式)40283.178.3CS-直接代价(CFp=30 )36174.673.3CS-类概率(CFp=50 )44692.194.9CS-基尼(Gp=5)44992.895.8CS-信息增益(CFp=25 )44892.695.2Gp表示假阳性的代价。图1和图2给出了在 TPR和 SLR这两方 面,使用如此组合构建的代价敏感决策树模 型表现出最佳性能。 对于人工神经网络模型 和代价敏感决策树模型,虽然性能TPR十分 接近,欺诈捕获的差别也十分小,但在模型性能SLR上有巨大的差别,也就是说通过这 些模型,能恢复的经济损失量有巨大的不 同。此外,因为不将任何类分布和不纯性度 量纳入考虑,CS-直接代价显示出在 TPR和 SLR上有最差性能。通过图1和图2给出的代价敏感决策树 模型和其它模型的性能对比,我们可以清楚 地发现除了 CS-直接代价以外的代价敏感 方法比其它方法可以挽救更多的经济财产。 金融机构普遍担心总的经济损失或恢复,而不是欺诈交易被检测到的数量。所以,该使用代价敏感方法建立的模型将满足他们在 总恢复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论