数据挖掘模型评价课件_第1页
数据挖掘模型评价课件_第2页
数据挖掘模型评价课件_第3页
数据挖掘模型评价课件_第4页
数据挖掘模型评价课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘模型评估2023/6/61一、评估分类法的准确率2023/6/62评估分类法准确率的技术有保持(holdout)和k-折交叉确认(k-foldcross-validation)方法。另外,还有两种提供分类法准确率的策略:装袋(bagging)和推进(boosting)。1、保持和k-折交叉在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。2023/6/63“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。K—折交叉确认在k—折交叉确认(k—foldcross—validation)中,初试数据被划分成k个互不相交的子集或“折”,每个折的大小大致相等。训练和测试k次。在第i次迭代,第i折用作测试集,其余的子集都用于训练分类法。准确率估计是k次迭代正确分类数除以初始数据中的样本总数。2023/6/642、提高分类法的准确率2023/6/65装袋2023/6/66推进即使用相同的分类器,各个分类器不是独立的;使用同一个算法对样本迭代训练,后建立的分类器关注于先前建立的分类器不能更好处理的部分数据;最终的输出为各个分类器的加权投票。

3、灵敏性和特效性度量假定你已经训练了一个分类法,将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确,但是如果实际只有3—4%的训练样本是“cancer”会怎么样?显然,90%的准确率是不能接受的——该分类法只能正确的标记“non_cancer”(称作负样本)样本。但我们希望评估该分类能够识别“cancer”(称作正样本)的情况。2023/6/67为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。2023/6/68其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数,t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负(“non_cancer”)样本数,而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数2023/6/69灵敏性特效性精度2023/6/610预测值1(实际“cancer”)0(实际no_cancer)1(预测“cancer”)000(预测“no_cancer”)1090二、数据挖掘模型评估的错误观念传统评估分类预测模型时,通常使用的是“准确度”。它的功能是评估模型分类实物是否正确。准确度越高模型就越好。但事实上,这样评估出来的模型并不是最好的。2023/6/611例:某家银行发行现金卡,风险控管部门主管决定建立DM模型,利用申请人申请当时的所填的资料,建立违约预测模型,来作为核发现金卡以及给予额度的标准。该银行邀请两家DM公司来设计模型,评比的标准是根据模型的“准确度”。根据此标准,A公司所建模型的准确度92%,B公司的准确度是68%。银行和A公司签约。2023/6/612利用A公司的模型后,结果发现里面只有一条规则,那就是“所有的人都不会违约”。为什么?A:所有的人都不会违约,因此它错误的只有8%的违约分类错误(违约误判为不违约),因此准确率是92%。B:在根据评分由高至低筛选出来前40%的名单中,可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户,因此准确率只有68%。哪一家的模型更好呢?由上可以发现,不能使用准确率来评判模型的优劣。2023/6/613为什么会出现这样的结果?原因在于两类错误,忽略了“错误不等价”。如果把一个“会违约的人判断成不会违约”,这家银行损失20~30万元的现金卡卡金,但是如果将一个“不会违约的人错判成违约”,只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。因此两种误判所造成的效益影响是不等价的。2023/6/614所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获利或严重损失的事件。由于小概率事件发生概率很小,如果针对所有客户采取行动,就会形成浪费,因此,需要利用预测的技术将小概率事件找出来。那么,只针对预测的小概率事件采取行动就会避免浪费。DM的价值就在于能够利用历史资料找出“小概率事件”。2023/6/615小概率事件:因此,评估数据挖掘模型的第一步就必须从错误状态的分类入手。这需要建立分类矩阵,通过分类矩阵来查看所有错误的分布。2023/6/616H0

为真H0

为假真实情况所作判断接受H0拒绝H0正确正确弃真错误取伪错误两类错误犯第一类错误是弃真错误;犯第二类错误是取伪错误

。2023/6/617三、分类矩阵对于DM来说,通常第二类错误的损失或收益要比第一类高。因此,我们需要确定哪一个状况是我们所关心的小概率事件。把对这个事件的误判会造成极大损失的情况,作为第二类错误。例,把一个好账的人当作呆账是第一类错误,把一个呆账的人当作好账是第二类错误。2023/6/618预测值1(实际“会违约”)0(实际“不会违约”)1662801857212023/6/619表中,预测为会违约且实际也会违约的有66人,预测不会违约且实际没有违约的有721人,这些是分类正确者。表中,预测为会违约且实际没有违约的有28人,预测不会违约且实际违约的有185人,这些是预测模型判断错误的部分。其中,后者还会造成比较严重的损失,是值得关注的部分。该如何使用分类矩阵的信息呢?2023/6/620主要看三个指标,即回应率、反查率以及间距缩减。Responserate=预测会违约且实际会违约/所有预测会违约=66/(66+28)=70.21%预测模型回应率的高低须和总体回应率比较:总体responserate=总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1%2023/6/621预测值1(实际“会违约”)0(实际“不会违约”)166280185721回应率(responserate):在预测的名单中找出有多少小概率事件(在预测违约的名单中,真正违约的所占比例是多少)。可以发现,原始回应率为25.1%,运用数据挖掘模型提升为70.21%,因此回应率提升了2.8倍。回应率讲究的是模型“宁缺勿滥”的能力。回应率高并不代表一定是好模型,因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客,结果回应率是100%,但是却漏掉了大多数会买产品的顾客,因此,还得参考“反查率”这个指标。2023/6/622Recall=预测会违约且实际违约/所有实际会违约=66/(66+185)=26.29%它的意义在于:预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高,表明犯第二类错误的可能性越小,那么模型越好。2023/6/623预测值1(实际“会违约”)0(实际“不会违约”)166280185721反查(recall):预测出来的小概率事件占总体小概率事件的比例是多少。完美的预测模型反查率是100%,但是反查率与回应率是互相矛盾的。recall=67/(67+184)>66/(66+185)Responserate=67/(67+38)<66/(66+28)2023/6/624预测值1(实际“会违约”)0(实际“不会违约”)167380184711预测值1(实际值)0(实际值)166280185721Rangereduce=预测会违约/总体=(66+28)/(66+28+721+185)=9.4%间距缩减代表的是根据模型执行活动时的成本,当如果名单量没有有效缩减时,执行的总成本会很高,因此间距缩减越低越好。2023/6/625预测值1(实际值)0(实际值)166280185721间距缩减(rangereduce):通过DM模型来找出小概率事件时,名单缩小了多少。从上述三个指标来看,这个预测模型可以让名单缩减至原来的9.4%,但是却只包含了总体26.29%会违约的人(反查率),让回应率提升了原先的2.8倍。2023/6/626注意:很少有模型同时能够满足上述三个指标的要求,当回应率很高时,一定是筛选高概率族群,因此名单间距缩减一定会变低,但是会遗漏掉低概率族群必定会造成反查降低,所以若只看分类矩阵,找不出最好的模型。分类矩阵是根据一个概率阀值将顾客分作两种情况,过度简化了实际的结果。因为所有的演算法除了预测结果之外,同时还会提供概率值作为排序的基准。2023/6/627四、增益图(灵敏性分析)2023/6/628横轴百分比代表根据DM模型根据概率由高到低排序后的名单占总体百分比。纵轴则是在这批名单中小概率事件的人数占总体小概率事件人数的百分比。45度线表示随机的状态,代表当筛选一半的名单去检查违约状况时,刚好会包含全体名单一半的违约户数量。正常模型的增益图要比45度线向第二象限弯曲,越向上弯曲表示模型效果越好。理想模型线:在增益图的最上方两段直线所构成的,表示完美预测的结果。AUC(areaundercurve):模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。AUC越接近于1,表示模型的预测能力越高。吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积基尼系数?吉尼系数越接近1,表示模型的预测能力越高。2023/6/629AUC与Gini系数对应的模型分辨能力AUCGini模型预测能力=50%0无预测能力50%-70%0-0.4极差70%-80%0.4-0.6可以接受80%-90%0.6-0.8非常良好90%-100%0.8-1过度完美2023/6/630五、收益图从收益的角度来看,DM有两种类型:回应模型(直效行销):预测的小概率事件能够为企业带来大量获利。损失模型:预测的小概率事件为企业带来大量损失。2023/6/631上述两个模型都没有包含整个公司的固定成本,不管成功案例多、少,都必须付出的成本。收益图:首先在成本获利参数的输入对话框中,要输入:总体(?)固定成本(?)单位成本(?)每个收益(?):每个小概率事件发生时所得到的获利或是减少的损失。2023/6/6321、回应模型假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是250元;而每成功销售一通的话第一年可以为公司净赚1000元。所以每打出去一通电话:销售成功:1000—250=收益750(即正确预测稀有事件)销售失败:损失250元2023/6/633直效行销设定:总体:50000;固定成本:200000;单位成本:250;每个收益:10002023/6/6346000005000004000003000002000000-100000—15万535万假设行销活动针对全体客户进行,获利为-15万从图上看,在概率最高的前34%-39%之间名单进行行销,可以获利的最高点是535万元。横轴表示模型会根据行销成功概率由高至低将客户排序纵轴表示行销收益2、损失模型下面来看信用评级的预测模型,预测的目标是违约客户,假设每个客户第一年带来的信用卡刷卡手续费以及利息收入为6000元,每个信用卡违约客户违约时金额为20000元。所以每预测一个客户违约状态:违约户:损失为20000—6000=损失14000元正常户:获利6000元2023/6/635信用评等模型设定:总体:50000;固定成本:200,000;单位成本:—6,000;每个收益:—20,0002023/6/6366000005000004000003000002000000-100000横轴表示模型会根据违约概率由高至低将客户排序本例最低点为35%,因此,建议该银行针对违约概率最高的35%客户拒绝发给信用卡因为前半段都是高违约率客户,因此损失曲线是直线下降纵轴表示行销收益六、散布图增益图和收益图都是用来评估类别变量预测问题的,如果遇到连续变量如何评估?此时需要散布图。如果预测的变量是连续型变量时,前面的分类矩阵、增益图和收益图都无法使用。此时,在SQL中“增益图”会自动切换到“散布图”。2023/6/6372023/6/6386000005000004000003000002000001000000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论