使用决策树的预测建模_第1页
使用决策树的预测建模_第2页
使用决策树的预测建模_第3页
使用决策树的预测建模_第4页
使用决策树的预测建模_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、使用决策树的预测建模TOC t Heading 2,72.1问题和数据探索2.2建模问题和数据难点2.3生生成和解解释决策策树 PAGEREF _Toc5761474 h .2.1问问题和数数据探索索内容:问题和数数据初步数据据探索问题和数数据a. 预预测建模模问题一家金融融服务公公司为其其客户提提供房屋屋净值信信贷额度度。该公公司曾把把该项贷贷款扩展展给了数数千客户户,其中中的许多多接收者者(大约约20%)有贷贷款欺诈诈行为。该公司司希望使使用地理理信息、人口信信息、和和经济状状况信息息变量建建立一个个模型预预测一个个申请人人将来会会不会欺欺诈。b. 输输入数据据源 在对数据据进行了了分析之

2、之后,该该公司选选择了112个预预测变量量来建立立每一个个申请人人是否欺欺诈的模模型。输输出变量量(或目目标)变变量(BBAD)表示申申请人在在房屋净净值信贷贷中是否否有欺诈诈活动。这些变变量及其其模型角角色、测测量水平平、变量量描述列列表如下下。表 2.1 SSAMPPSIOO.HMMEQ 数据集集合的变变量 NameeModeel RRoleeMeassureemennt LLeveelDesccripptioonBADTarggetBinaary1=deefauulteed oon lloann, 00=paaid bacck lloannREASSONInpuutBinaaryHome

3、eImpp=hoome impprovvemeent, DeebtCCon=debbt cconssoliidattionnJOBInpuutNomiinallSix occcupaatioonall caateggoriiesLOANNInpuutInteervaalAmouunt of loaan rrequuesttMORTTDUEEInpuutInteervaalAmouunt duee onn exxisttingg moortggageeVALUUEInpuutInteervaalValuue oof ccurrrentt prropeertyyDEBTTINCCInpuutInt

4、eervaalDebtt-too-inncomme rratiioYOJInpuutInteervaalYearrs aat ppressentt joobDEROOGInpuutInteervaalNumbber of majjor derrogaatorry rrepoortssCLNOOInpuutInteervaalNumbber of traade linnesDELIINQInpuutInteervaalNumbber of dellinqquennt ttradde llineesCLAGGEInpuutInteervaalAge of olddestt trradee liin

5、e in monnthssNINQQInpuutInteervaalNumbber of reccentt crrediit iinquuiriies需要的结结果信信用评分分模型该信用评评分模型型给每一一个贷款款申请人人计算还还贷欺诈诈的概率率。在此此要设定定一个阈阈值,欺欺诈概率率超过阈阈值的那那些申请请人将建建议不批批准。建立项目目和数据据初步探探索建造简单单的过程程流(FFloww)假定Myy Prrojeect 项目的的Proojecct1框框图是开开着的,通过从从工具条条上(或或Toools标标签)拖拖动Innputt Daata Souurcee节点到到diaagraam工作作区把

6、节节点加到到Proojecct1框框图中。把Mulltipplott 节点点工作区区Inpput Datta SSourrce 节点的的右边. 你的的框图看看起来如如下图连接工作作区的两两个节点点:开始时最后调用输入入数据这个例子子使用SSAMPPSIOO文件夹夹的HMMEQ 数据集集合. 要指定数数据集合合,双击击Inpput Datta SSourrce节节点,或或右击该该节点并并选择OOpenn. Datta 标标签处于于激活状状态. 你的窗窗口如下下: 点击Seelecct来来选择数数据集合合. 或者者把数据据集合的的名称键键入进来来。SASUUSERR 文件件夹是缺缺省文件件夹. 要

7、浏览览SAMMPSIIO文件件夹的数数据集合合, 点击击并从这这些文件件夹里选选择SAAMPSSIO从SAMMPSIIO文件件夹的数数据集合合里选择择HMEEQ然后后选OKK. 下面面的对话话框打开开:可以看到到该数据据集合里里有 55,9660 个个观测(行)和和 133个变量量 (列). SAMMPSIIO.HHMEQQ 是源源数据. 注意意在右下下角指示示的是mmetaadatta(元元数据)样本大大小为22,0000.所有分析析包必须须决定在在分析中中如何使使用变量量. EEM使用用元数据据对如何何使用每每一个变变量作一一个初步步的评估估。按缺缺省方式式,它从从感兴趣趣的数据据集合里里

8、随机抽抽取2,0000 个观观测记录录,并使使用这里里的信息息为每一一个变量量确定其其模型中中的作用用和变量量类型。要抽取取一个较较大的样样本,你你得选择择对话框框右下角角Chaangee按钮钮.点击Vaariaablees标签签可看到到所有的的变量及及其相关关的指定定. 点击第一一列的标标头,NNamee,这些些变量就就按名称称的顺序序排列。把窗口口拉大你你会看到到所有的的变量。下表显显示了113 个个变量的的部分信信息.注意有两两列显灰灰色。这这些列代代表这个个节点里里不能改改变的SSAS 数据集集合的信信息。TTypee 或者者是字符符型(chaar)或者是是数值型型(num) ,它对对

9、一个变变量如何何被使用用有影响响。2,0000元数据据样本的的Typpe 的的值和不不重复数数值个数数用于确确定模型型以及测测量水平平.第一个变变量 BBAD是是目标变变量.尽管BAAD 是是数据集集合里的的一个数数值变量量,EMM把它认认作biinarry(二元变变量)因因为在元元数据样样本里它它只有两两个不同同的非缺缺失值。所有二二元变量量的模型型角色的缺缺省设置置都是输输入变量量(innputt)。在做做分析之之前你需需要把BBAD 的模型型角色改为为目标变变量。The nexxt ffivee vaariaablees (CLAAGE thrrouggh DDEROOG) havve

10、tthe meaasurremeent levvel inttervvalbbecaausee thhey aree nuumerric varriabbless inn thhe SSAS datta sset andd haave morre tthann 100 diistiinctt leevells iin tthe mettadaata sammplee. TThe moddel rolle ffor alll innterrvallvarriabbless iss seet tto iinpuut bby ddefaaultt. The varriabbless JOOB aan

11、d REAASONN arre bbothh chharaacteer vvariiablles in thee daata sett, bbut theey hhavee diiffeerennt mmeassureemennt lleveels. REEASOON iis bbinaary beccausse iit hhas onlly ttwo disstinnct nonnmisssinng lleveels in thee meetaddataa saamplle. Thee moodell roole forr JOOB, howweveer, is nomminaal bbec

12、aausee itt iss a chaaraccterr vaariaablee wiith morre tthann twwo lleveels.For thee puurpoose of thiis aanallysiis, treeat thee reemaiininng vvariiablles as inttervval varriabbless. At timmes, vaariaablees ssuchh ass DEEROGG annd DDELIINQ willl bbe aassiigneed tthe moddel rolle oof oordiinall. AA va

13、ariaablee iss liisteed aas oordiinall whhen it is a nnumeericc vaariaablee wiith morre tthann twwo bbut no morre tthann teen ddisttincct nnonmmisssingg leevells iin tthe mettadaata sammplee. TThiss offtenn occcurrs wwithh coounttingg vaariaablees, succh aas aa vaariaablee foor tthe nummberr off chhi

14、lddrenn. BBecaausee thhis asssignnmennt ddepeendss onn thhe mmetaadatta ssampple, thhe mmeassureemennt lleveel oof DDEROOG oor DDELIINQ forr yoour anaalyssis migght be sett too orrdinnal. Alll oordiinall vaariaablees aare sett too haave thee innputt moodell roole; hoowevver, yoou ttreaat tthesse vva

15、riiablles as inttervval inpputss foor tthe purrposse oof tthiss annalyysiss.确定目标标变量BAD 是这个个分析的的反应变变量,因因此要把把BADD的模型型作用改改为taargeet. 要改变模模型作用用信息,方法如如下:把光标头头指向BBAD 行的Moodell Roole 一栏并并右击。从弹出菜菜单选择择Sett Moodell Roolettargget.检查分布布你可以检检查元数数据样本本里每一一个变量量的数值值分布。要查看看BADD的分布布:把光标头头指向BBAD 变量Naame 栏. 右击鼠标标,你可可以按名

16、名称给变变量排序序、找变变量、或或者查看看BADD的分布布. 选择Viiew Disstriibuttionn off BAAD查看看BADD的分布布To oobtaain addditiionaal iinfoormaatioon, sellectt thhe tthe Vieew IInfoo toool, , froom tthe tooolbaar aat tthe topp off thhe wwinddow andd cllickk onn onne oof tthe barrs. Entterpprisse MMineer ddispplayys tthe levvel andd

17、 thhe ppropporttionn off obbserrvattionns rreprreseenteed bby tthe barr. TThesse pplotts pprovvidee ann innitiial oveerviiew of thee daata. Foor tthiss exxampple, appprooximmateely 20% off thhe oobseervaatioons werre lloanns wwherre tthe cliientt deefauulteed. Beccausse tthe ploots aree baasedd onn

18、thhe mmetaadatta ssampple, thhey mayy vaary sliighttly duee too thhe ddifffereencees iin tthe sammpleed oobseervaatioons, buut tthe barr foor BBAD=1 sshouuld reppressentt appprooximmateely 20% off thhe ddataa. CClosse tthe Varriabble Hisstoggramm wiindoow wwhenn yoou aare finnishhed insspecctinng tt

19、he ploot. Youu caan eevalluatte tthe disstriibuttionn off ottherr vaariaablees aas ddesiiredd.修改变量量信息保证余下下变量的的模型作作用和测测量水平平信息是是正确的的。如果果必要,可以把把DERROG的的测量水水平改为为inttervval. 要修修改测量量水平信信息:把光标头头指向DDEROOG行的的测量(Meaasurremeent)栏,并并右击鼠鼠标从弹出菜菜单选择择Sett Meeasuuremmenttinttervval查看描述述统计量量元数据可可用来计计算描述述统计量量。选择择Intte

20、rvval Varriabbless标签你可以查查看连续续变量的的最小值值、最大大值、均均值、标标准差、缺失记记录的百百分数、偏度和峰度。根根据数据据的商务务知识,查看最最小值和和最大值值指的是是有没有有异常值值。注意意DEBBTINNC变量量的缺失失值百分分数很高高(211%).选择类别别变量CClasss VVariiablles标标签查看数据据的水平平级数、缺失值值百分数数、以及及变量的的排序方方式。注注意BAAD变量量是降序序,而其其它变量量是升序序。这是是因为它它是二元元目标变量量。通常常对于二二元变量量当事件件发生时时编码为为1否则为为0 。降降序排序序使得11 成为为第一个个水平

21、,是二元元变量的的目标变变量。在在回归模模型里把把其它类类似编码码的二元元变量按按降序排排列对于于解释参参数估计计也是有有用的。关闭 Inpput Datta SSourrce 节点,并存储储这些改改变。其它的数数据探索索EM的其其它工具具可让你你进一步步探索数数据。工工具之一一是Muultiiploot(多图)节节点. Mulltipplott 节点点建立一一系列的的直方图图和条形形图可使使你检查查输入变变量和二二元目标标变量的的关系。右击 MMulttipllot 节点并并选择RRun.在出现的的弹出框框里选YYes浏浏览结果果.通过使用用键盘上上的Paage Dowwn ,你可以以浏览关

22、关于该数数据的直直方图。从这个直直方图你你可以知知道许多多的欺诈诈贷款是是由债务务收入比比高或者者债务收收入比未未知的购购房者造造成的。2.2数数据划分分了解Daata Parrtittionn(数据划划分)节节点查看数据据划分节节点的缺缺省设置置把Datta PParttitiion节节点放到到框图里里.把Datta PParttitiion 节点和和 CRRSSAAMP.HMEEQ 节节点连起起来.打开Daata Parrtittionn 节点点,或者者通过双双击节点点或者右右击鼠标标并选择择Opeen.选择标签签左上部部的划分分方法.按缺省方方式,EEM在输输入数据据中抽取取简单随随机样

23、本本并划分分为训练练数据、验证数数据和测测试数据据.如要进行行分层抽抽样,选选择Sttrattifiied 圆钮并并使用SStraatiffiedd 标签签中的选选择项建建立各个个层次.如要进行行用户自自定义的的抽样,选择UUserr Deefinned 圆钮并并使用UUserr Deefinned标标签中的的选择项项挑选出出数据集集合中的的某个变变量,该该变量确确定划分分.在启动抽抽样过程程前你可可以在标标签的左左下部分分指定一一个随机机种子。计算机机程序的的随机化化过程经经常始于于某种种种子。如如果你在在不同的的挖掘流流程使用用相同的的数据集集合和相相同的种种子,你你会得到到相同的的数据划

24、划分。注注意对数数据的重重新排序序会导致致数据的的不同的的顺序,因此导导致不同同的数据据划分,这有可可能会产产生不同同的挖掘掘结果.该标签的的右边你你可以指指定数据据划分到到训练数数据、验验证数据据和测试试数据的的百分数数.划分 HHMEQQ数据集集合用于于建模. 根据据现有的的数据创创建训练练数据和和验证数数据集合合,忽略略测试数数据.分布设置置Traain, Vaaliddatiion, 和 Teest 为 677, 333, 和 0.关闭Daata Parrtittionn节点,选择YYes把把所做的的改动存存起来.2.3生生成和解解释决策策树目标:学习EMM可用的的决策树树模型类类型生

25、成决策策树模型型检查模型型结果和和解释这这些结果果理论和实实证角度度选择决决策阈值值要完成第第一个框框图的第第一阶段段,需把把一个TTreee 节点点和一个个Asssesssmennt 节节点加到到工作区区并连接接如下:检查决策策树的缺缺省设置置.双击打开开Treee节点点.查看Vaariaablees 标标签以确确保所有有的变量量具有适适当的状状态、模模型作用用以及测测量水平平.如果变量量的模型型角色或或者测量量水平信信息不正正确,在在这个节节点里是是不能修修改的。你必须须返回到到输入数数据源(inpput datta ssourrce)节点去去修正.选择Baasicc.以前讨论论的生成成决

26、策树树的选择择项均在在此标签签中.可用的裂裂分标准准依赖于于目标变变量的测测量水平平。对于于二元或或者名义义目标变变量,缺缺省的裂裂分标准准是chhi-ssquaare检检验,显显著性水水平为00.2. 如果果不用缺缺省设置置,你可可以用eentrropyy 减少少或者GGinii(基尼尼数)减减少的方方法作为为裂分标标准。对对于有序序目标变变量,只只有enntroopy 或者基基尼数方方法。对对于连续续型目标标变量,你有两两个裂分分标准供供选择:缺省 F 检检验或者者方差减减少。这一标签签的其它它选择项项影响树树的生长长和大小小。按照照缺省,只有二二元裂分分可用,树的最最大深度度是6个个层次

27、,树叶中中最小的的观测记记录数是是1. 然而,还有一一个节点点裂分所所需要的的观测记记录数的的设置。这个数数值的缺缺省值是是训练数数据里所所有的记记录数除除以1000.关闭 TTreee 节点点.从 Trree节节点运行行框图。右击Trree节节点并选选择Ruun.选择弹出出框的YYes查查看结果果.当查看树树节点的的结果时时, AAll 标签处处于活动动状态,界面展展示了后后面几个个子标签签的总结结。从右下角角的图形形我们知知道训练练数据集集合最初初生成的的是188个树叶叶的树,然后根根据验证证数据集集合被修修剪成有有8个树叶叶的树。左下角角的表告告诉我们们这个88个树叶叶的树在在验证数数据

28、上的的精度是是89.02%.通过选择择菜单条条VieewTrree查查看树.以下是树树的一部部分.尽管这棵棵树应该该有个个树叶,但这些些树叶并并不都能能看到。根据缺缺省,决决策树浏浏览器只只显示层. 要修改可可浏览的的层数,操作如如下:选择ViiewTTreee Opptioons.在 Trree deppth dowwn 区区域键入入6.选择OKK. 检查一下下所有个树叶叶是否都都能看到到. The collorss inn thhe ttreee riing diaagraam aand thee deecissionn trree itsselff inndiccatee noode p

29、urrityy byy deefauult. Iff thhe nnodee coontaainss alll ooness orr alll zzeroos, thee noode is colloreed rred. Iff thhe nnodee coontaainss ann eqquall miix oof ooness annd zzeroos, it is colloreed yyelllow. You cann chhangge tthe colloriing schhemee ass foolloows:Seleect TooolsDDefiine Collorss.Sele

30、ect thee Prropoortiion of a ttargget vallue raddio butttonn.Seleect 0 inn thhe SSeleect a ttargget vallue tabble. Seelecctinng zzeroo ass thhe ttargget vallue makkes thee leeavees wwithh alll zzeroos ggreeen aand thoose witth nno zzeroos (thaat iis, alll onnes) reed. In othher worrds, leeavees tthat

31、t inncluude onlly iindiividdualls wwho willl ddefaaultt onn thheirr looan willl bbe rred.Seleect OK.Insppectt thhe ttreee diiagrram to ideentiify thee teermiinall noodess wiith a hhighh peerceentaage of badd looanss (ccolooredd reed) andd thhosee wiith a hhighh peerceentaage of goood lloanns (collor

32、eed ggreeen).你还可以以改变树树节点统统计量的的显示.选择ViiewSStattistticss.要关闭CCounnt pper claass(每类别别的数量量),右右击Coountt peer cclasss 行行的Seelecct 列列。在弹弹出菜单单里选择择Sett SeelecctNoo.同样方法法关闭 N iin nnodee, PPreddictted Vallue, Trrainningg Daata, 以及及 Noode ID 行,你你的屏幕幕上可以以看到更更多的树树叶.选择OKK.注意第一一次裂分分发生在在DEBBTINNC变量量上。以以下步骤骤可用来来决定哪哪一

33、个分分枝包含含缺失值值:把光标头头指在树树图根节节点下的的变量名名DEBBTINNC上.右击并选选择Viiew commpettingg spplitts. CComppetiing Spllitss(可选选择裂分分)窗口口打开。该表列列出了按按worrth的的测量值值排列的的前个个可考虑虑用于裂裂分的变变量.选择 DDEBTTINCC.选择Brrowsse rrulee. MModiify Inttervval Varriabble Spllitttingg Ruule (修正正连续变变量裂分分法则)窗口打打开.该表给出出了每一一个分枝枝的变量量数值范范围以及及包含缺缺失值的的分枝号号。在目

34、目前情况况下,包包含445.118488的变量量值的分分枝包含含缺失值值.关闭 MModiify Inttervval Varriabble Spllitttingg Ruule 窗口, Coompeetinng SSpliits 窗口,以及树树图.使用树选选择项你可以调调整缺省省树算法法以便生生成不同同的树。这些改改变并不不一定改改进树的的分类性性能,但但可以改改进其可可解释性性.Treee 节点点按缺省省裂分为为二分为为两个节节点 (被称为为binnaryy spplitts). 理论论上使用用多方向向裂分的的树并不比使使用biinarry sspliits的的树更灵灵活或者者更有效效果。

35、其其主要目目的是加加强最终终结果的的可解释释性. 考虑生成成一个可可允许方向裂裂分的树树. 点击框图图上的树树名称,把它改改为Deefauult Treee.在工作区区加入另另一个树树节点.连接Daata Parrtittionn节点和和这个 Treee 节节点. 连接这个个Treee 节节点和 Asssesssmennt(评评价)节节点.打开这个个新的 Treee 节节点.选择Baasicc标签.在Maxximuum nnumbber of braanchhes froom aa noode(一节点点最多分分叉数)处输入入4. 这个个选项允允许2,3,44个分叉叉.关闭这个个Treee节点点

36、,并在在弹出框框中同意意存储改改动.在弹出框框中输入入DT44wayy作为模模型的名名称。看看到它你你会想到到你指定定的是44-方向向裂分树树. 选择OKK.从这个树树节点运运行挖掘掘流并浏浏览结果果.这棵树树树叶的数数量从88 增加加到 333. 这棵树树是否比比二分树树更容易易为人理理解只是是个人的的偏好而而已。增增加的树树叶数量量可以增增加模型型较低层层次的解解释力。在验证证数据上上的分类类精度只只增加了了0.225%虽虽然模型型的复杂杂度增加加了许多多.如果你看看树图,你会发发现许多多节点只只包括几几个申请请人。你你可以使使用其它它的生成成选择去去限制这这一现象象.关闭 RResuul

37、tss 窗口口.限制树的的生长各种停止止或者阻阻止法则则(也被被成为预预剪枝)可以用用来限制制决策树树的生长长。例如如,人们们通常会会认为一一个节点点的记录录500就不再再裂分、或者要要求每一一个节点点的记录录至少为为25.修改最后后创建的的Treee 节节点,并并采用这这些终止止法则以以阻止生生成太多多的终端端节点.打开 TTreee 节点点.选择Baasicc标签.在minnimuum nnumbber of obsservvatiionss inn a leaaf区域域键入225,然然后点击击Entter.在 nuumbeer oof oobseervaatioons reqquirre

38、d forr a spllit seaarchh区域键键入500,然后后点击EEnteer.Thee Deecissionn Trree nodde rrequuirees tthatt (OObseervaatioons reqquirred forr a spllit seaarchh) 2(MMiniimumm nuumbeer oof oobseervaatioons in a lleaff). In thiis eexammplee, tthe obsservvatiionss reequiiredd foor aa spplitt seearcch mmustt bee grrea

39、tter thaan 2225=50. A nodde wwithh feewerr thhan 50 obsservvatiionss caannoot bbe sspliit iintoo twwo nnodees wwithh eaach havvingg att leeastt 255 obbserrvattionns. If youu sppeciify nummberrs tthatt viiolaate thiis rrequuireemennt, youu wiill nott bee abble to cloose thee wiindoow.关闭Trree节节点并存存储所做

40、做的改动动.在关闭时时如果TTreee节点没没有弹出出对话框框让你存存储改动动,这说说明原有有的设置置没有被被修改,这是你你要重新新打开这这个节点点并重新新修改设设置.重新运行行Treee节点点并浏览览结果.这个最佳佳树有 8 个个树叶。在验证证数据上上的精度度略有下下降,为为88.56%. 选择ViiewTTreee看树图图.注意在DDEBTTINCC上的第第一个裂裂分下面面有4个个分枝.浏览后关关闭树图图及节点点窗口.比较模型型Asseessmmentt 节点点用于比比较模型型.要从Asssesssmeent 节点运运行框图图, 右击击Asssesssmennt 节节点并选选择Ruun.在

41、弹出的的对话框框中选YYes查查看结果果.在 Asssesssmeent Toool 窗窗口, 点击并并拖拽鼠鼠标把两两个模型型都选上上.选择TooolssLifft CCharrt.右击Toool Namme框内内空白处处,选择择forrmatt,选择择moddel namme缺省给出出的是一一个 CCumuulattivee %RRespponsse(累累积因变变量)图。根据据缺省,人群按按预测的的因变量量概率划划分为110个等等分组,然后画画出实际际的因变变量百分分数(即即轴)。要看看实际值值,点击击Vieew IInfoo工具然然后点击击模型对对应的折折线。点点击靠近近图形左左上角的的

42、Treee-22 线,得到%Ressponnse 为 822.066, 含含义是什什么呢?要解释CCumuulattivee %RRespponsse 图图,需知知道它是是如何生生成的.就这个例例子而言言,响应应人(rresppondder)被定义义为一个个欺诈贷贷款的人人 (BBAD=1). 对每每一个人人,拟和和的模型型(在此此是一个个决策树树)给出出了此人人将来会会欺诈贷贷款的概概率预测测。把所所有的记记录按响响应的预预测概率率从大到到小排序序.把人分成成有序组组,每一一组包含含大约110% 的数据据记录.使用目标标变量BBAD, 计算算每一组组实际响响应人的的百分数数c. 如果模型型有

43、用,响应者者(欺诈诈者)的的比例在在响应预预测概率率高的组组将会相相对高。前面给给出的累累积响应应曲线显显示了前前10%, 220%, 300%等实实际响应应者的百百分数。在前 110%的的组里, 800% 多多的人是是贷款欺欺诈者;在前 10%的组里里, 欺诈诈者的比比例下降降到只有有72%. 水平平线代表表的是用用于比较较的基准准比率(大约220%), 这个个比率是是你随机机抽样时时预期的的欺诈者者百分数数的估计计. 上图图给出的的累积百百分数,但你还还可以选选择图形形左边NNon-Cummulaativve旁边边的圆钮钮查看每每一个组组里响应应者的比比例.选择 NNon-Cummulaa

44、tivve 旁旁边的圆圆钮并查查看图形形.Cumuulattivee %RRespponsseNon-Cummulaativve %RessponnseNon-Cummulaativve 图图形表明明一旦预预测概率率的值在在前200%以外外,欺诈诈率要比比你选一一个随机机样本所所期望的的欺诈率率要低.选择Cuumullatiive然然后选LLiftt Vaaluee. 提升升图描画画的在不不同标度度上的相相同信息息。记得得总体的的响应率率大约为为20%。提升升图可通通过把每每一个小小组的响响应率除除以总体体响应率率得到。因此提提升图描描绘的是是基于基基础线的的相对改改进. Cumuulatti

45、vee %RRespponsseCumuulattivee Liift Vallue我们知道道在按预预测概率率排序的的前100% 的的组里欺欺诈者比比例为882.006%. 822.066% 除除以200% (basseliine ratte) 得到略略大于44的数, 这表明明你在这这个组里里会得到到比相同同人数的的简单随随机样本本里4 倍多的的欺诈者者.你可能会会提出这这样的问问题:每一个个组里响响应者占占全部响响应者的的百分数数是多少少? 。这个个百分数数是用Cappturred Ressponnse计计算的。要查看看计算结结果,选选择%CCapttureed RRespponsse旁边边

46、的圆钮钮。用 Vieew IInfoo 工具具评价模模型的性性能。你可以看看到如果果你拒绝绝申请者者的百分分数为20%, 你可可能挑出出了大约约70% 将会会欺诈的的人(提升比比例是 3.55!).40%,你可能能挑出了了大约880% 将会欺欺诈的人人(提升比比例大于于2!).关闭Liift Chaart和和Asssesssmennt TTooll窗口.In oordeer tto cchooose thee appproopriiatee thhressholld tto cclasssiffy oobseervaatioons possitiivelly oor nnegaativvely

47、y, tthe cosst oof mmiscclasssifficaatioon mmustt bee coonsiiderred. Inn thhe hhomee eqquitty llinee off crrediit eexammplee, yyou aree moodellingg thhe pprobbabiilitty oof aa deefauult, whhichh iss coodedd ass a 1. Theerefforee, EEnteerprrisee Miinerr seets up thee prrofiit mmatrrix as shoown aboove

48、.Assuume thaat eeverry ttwo dolllarrs lloanned retturnns tthreee ddolllarss iff thhe bborrroweer ddoess noot ddefaaultt. RRejeectiing a ggoodd looan forr twwo ddolllarss foorgooes thee exxpecctedd doollaar pproffit. Acccepptinng aa baad lloann foor ttwo dolllarrs fforggoess thhe ttwo-dolllarr looan

49、itsselff (aassuuminng tthatt thhe ddefaaultt iss eaarlyy inn thhe rrepaaymeent perriodd).The cossts of missclaassiificcatiion aree shhownn inn thhe ttablle.One wayy too deeterrminne tthe appproppriaate thrreshholdd iss a theeoreeticcal appproaach. Thhis appproaach usees tthe pluug iin BBayees rrulee

50、. UUsinng ssimpple deccisiion theeoryy, tthe opttimaal tthreeshoold is givven by .Usinng tthe cosst sstruuctuure deffineed ffor thee hoome equuityy exxampple, thhe ooptiimall thhressholld iis 11/(11+(22/1) = 1/3. Thaat iis, rejjectt alll aappllicaatioons whoose preedicctedd prrobaabillityy off deefa

51、uult excceedds 00.333.You cann obbtaiin tthe samme rresuult usiing thee Asssesssmeent nodde iin EEnteerprrisee Miinerr byy ussingg thhe pproffit mattrixx too sppeciify thee prrofiit aassoociaatedd wiith thee leevell off thhe rrespponsse bbeinng mmodeeledd (iin tthiss caase, a loaan ddefaaultt orr a

52、1). Ass a bonnus, yoou ccan esttimaate thee frracttionn off looan apppliccatiionss yoou mmustt reejecct wwhenn ussingg thhe sseleecteed tthreeshoold.选择决策策阈值首先考虑虑从理论论上决定定的决策策阈值 返回到项项目Prrojeect11 流程程图,打打开Deefauult Treee节点点,并选择择打分(Scoore)标签选择 TTraiininng, Vallidaatioon, andd Teest旁旁的选箱箱,这样样预测值值被加到到数据集集合。关闭树节节点,并并保存改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论