使用决策树的预测建模.doc

上传人：努*** IP属地：江西上传时间：2019-12-24 格式：DOC 页数：32 大小：754.50KB 积分：9.6 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Chapter 2 使用决策树的预测建模2.1问题和数据探索2.2建模问题和数据难点2.3生成和解释决策树.2.1 问题和数据探索内容：问题和数据初步数据探索问题和数据a. 预测建模问题一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户，其中的许多接收者（大约20%）有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。b. 输入数据源在对数据进行了分析之后，该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量（或目标）变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。表 2.1 SAMPSIO.HMEQ 数据集合的变量 NameModel RoleMeasurement LevelDescriptionBADTargetBinary1=defaulted on loan, 0=paid back loanREASONInputBinaryHomeImp=home improvement, DebtCon=debt consolidationJOBInputNominalSix occupational categoriesLOANInputIntervalAmount of loan requestMORTDUEInputIntervalAmount due on existing mortgageVALUEInputIntervalValue of current propertyDEBTINCInputIntervalDebt-to-income ratioYOJInputIntervalYears at present jobDEROGInputIntervalNumber of major derogatory reportsCLNOInputIntervalNumber of trade linesDELINQInputIntervalNumber of delinquent trade linesCLAGEInputIntervalAge of oldest trade line in monthsNINQInputIntervalNumber of recent credit inquiries需要的结果信用评分模型该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值，欺诈概率超过阈值的那些申请人将建议不批准。建立项目和数据初步探索建造简单的过程流（Flow）1. 假定My Project 项目的Project1框图是开着的，通过从工具条上（或Tools标签）拖动Input Data Source节点到diagram工作区把节点加到Project1框图中。2. 把Multiplot 节点工作区Input Data Source 节点的右边. 你的框图看起来如下图连接工作区的两个节点:开始时最后调用输入数据这个例子使用 SAMPSIO文件夹的 HMEQ 数据集合. 1. 要指定数据集合，双击Input Data Source 节点，或右击该节点并选择 Open. Data 标签处于激活状态. 你的窗口如下: 2. 点击 Select 来选择数据集合. 或者把数据集合的名称键入进来。3. SASUSER 文件夹是缺省文件夹. 要浏览 SAMPSIO 文件夹的数据集合, 点击并从这些文件夹里选择SAMPSIO4. 从SAMPSIO 文件夹的数据集合里选择HMEQ 然后选OK. 下面的对话框打开：5. 可以看到该数据集合里有 5,960 个观测（行）和 13个变量 (列). SAMPSIO.HMEQ 是源数据. 注意在右下角指示的是metadata（元数据）样本大小为2,000.所有分析包必须决定在分析中如何使用变量. EM使用元数据对如何使用每一个变量作一个初步的评估。按缺省方式，它从感兴趣的数据集合里随机抽取2,000 个观测记录，并使用这里的信息为每一个变量确定其模型中的作用和变量类型。要抽取一个较大的样本，你得选择对话框右下角Change 按钮.1. 点击 Variables 标签可看到所有的变量及其相关的指定. 2. 点击第一列的标头，Name, 这些变量就按名称的顺序排列。把窗口拉大你会看到所有的变量。下表显示了13 个变量的部分信息.注意有两列显灰色。这些列代表这个节点里不能改变的SAS 数据集合的信息。Type 或者是字符型(char)或者是数值型(num) ，它对一个变量如何被使用有影响。2,000元数据样本的Type 的值和不重复数值个数用于确定模型以及测量水平.第一个变量 BAD是目标变量.尽管BAD 是数据集合里的一个数值变量，EM把它认作binary（二元变量）因为在元数据样本里它只有两个不同的非缺失值。所有二元变量的模型角色的缺省设置都是输入变量（input）。在做分析之前你需要把BAD 的模型角色改为目标变量。 The next five variables (CLAGE through DEROG) have the measurement level interval because they are numeric variables in the SAS data set and have more than 10 distinct levels in the metadata sample. The model role for all interval variables is set to input by default. The variables JOB and REASON are both character variables in the data set, but they have different measurement levels. REASON is binary because it has only two distinct nonmissing levels in the metadata sample. The model role for JOB, however, is nominal because it is a character variable with more than two levels.For the purpose of this analysis, treat the remaining variables as interval variables. !At times, variables such as DEROG and DELINQ will be assigned the model role of ordinal. A variable is listed as ordinal when it is a numeric variable with more than two but no more than ten distinct nonmissing levels in the metadata sample. This often occurs with counting variables, such as a variable for the number of children. Because this assignment depends on the metadata sample, the measurement level of DEROG or DELINQ for your analysis might be set to ordinal. All ordinal variables are set to have the input model role; however, you treat these variables as interval inputs for the purpose of this analysis.确定目标变量BAD 是这个分析的反应变量，因此要把BAD的模型作用改为target. 要改变模型作用信息，方法如下：1. 把光标头指向BAD 行的Model Role 一栏并右击。 2. 从弹出菜单选择 Set Model Role target.检查分布你可以检查元数据样本里每一个变量的数值分布。要查看BAD的分布:1. 把光标头指向BAD 变量Name 栏. 2. 右击鼠标，你可以按名称给变量排序、找变量、或者查看BAD的分布. 3. 选择 View Distribution of BAD 查看BAD的分布To obtain additional information, select the the View Info tool, , from the toolbar at the top of the window and click on one of the bars. Enterprise Miner displays the level and the proportion of observations represented by the bar. These plots provide an initial overview of the data. For this example, approximately 20% of the observations were loans where the client defaulted. Because the plots are based on the metadata sample, they may vary slightly due to the differences in the sampled observations, but the bar for BAD=1 should represent approximately 20% of the data. Close the Variable Histogram window when you are finished inspecting the plot. You can evaluate the distribution of other variables as desired.修改变量信息保证余下变量的模型作用和测量水平信息是正确的。如果必要，可以把DEROG的测量水平改为 interval. 要修改测量水平信息:1. 把光标头指向DEROG行的测量（Measurement）栏，并右击鼠标 2. 从弹出菜单选择Set Measurement interval 查看描述统计量元数据可用来计算描述统计量。选择Interval Variables标签你可以查看连续变量的最小值、最大值、均值、标准差、缺失记录的百分数、偏度和峰度。根据数据的商务知识，查看最小值和最大值指的是有没有异常值。注意DEBTINC变量的缺失值百分数很高(21%).选择类别变量Class Variables 标签查看数据的水平级数、缺失值百分数、以及变量的排序方式。注意BAD变量是降序，而其它变量是升序。这是因为它是二元目标变量。通常对于二元变量当事件发生时编码为1否则为0 。降序排序使得1 成为第一个水平，是二元变量的目标变量。在回归模型里把其它类似编码的二元变量按降序排列对于解释参数估计也是有用的。关闭 Input Data Source 节点，并存储这些改变。其它的数据探索EM的其它工具可让你进一步探索数据。工具之一是Multiplot（多图）节点. Multiplot 节点建立一系列的直方图和条形图可使你检查输入变量和二元目标变量的关系。 1. 右击 Multiplot 节点并选择 Run.2. 在出现的弹出框里选Yes 浏览结果.通过使用键盘上的Page Down ，你可以浏览关于该数据的直方图。从这个直方图你可以知道许多的欺诈贷款是由债务收入比高或者债务收入比未知的购房者造成的。2.2数据划分了解Data Partition（数据划分）节点查看数据划分节点的缺省设置 1. 把Data Partition节点放到框图里.2. 把Data Partition 节点和 CRSSAMP.HMEQ 节点连起来.3. 打开Data Partition 节点，或者通过双击节点或者右击鼠标并选择Open.选择标签左上部的划分方法. 按缺省方式，EM在输入数据中抽取简单随机样本并划分为训练数据、验证数据和测试数据. 如要进行分层抽样，选择Stratified 圆钮并使用Stratified 标签中的选择项建立各个层次. 如要进行用户自定义的抽样，选择User Defined 圆钮并使用User Defined标签中的选择项挑选出数据集合中的某个变量，该变量确定划分.在启动抽样过程前你可以在标签的左下部分指定一个随机种子。计算机程序的随机化过程经常始于某种种子。如果你在不同的挖掘流程使用相同的数据集合和相同的种子，你会得到相同的数据划分。注意对数据的重新排序会导致数据的不同的顺序，因此导致不同的数据划分，这有可能会产生不同的挖掘结果.该标签的右边你可以指定数据划分到训练数据、验证数据和测试数据的百分数.划分 HMEQ数据集合用于建模. 根据现有的数据创建训练数据和验证数据集合，忽略测试数据.4. 分布设置 Train, Validation, 和 Test 为 67, 33, 和 0.5. 关闭Data Partition节点，选择Yes 把所做的改动存起来.2.3生成和解释决策树目标：学习EM可用的决策树模型类型生成决策树模型检查模型结果和解释这些结果理论和实证角度选择决策阈值要完成第一个框图的第一阶段，需把一个Tree 节点和一个Assessment 节点加到工作区并连接如下:检查决策树的缺省设置.1. 双击打开Tree 节点.2. 查看Variables 标签以确保所有的变量具有适当的状态、模型作用以及测量水平.!如果变量的模型角色或者测量水平信息不正确，在这个节点里是不能修改的。你必须返回到输入数据源（input data source）节点去修正.3. 选择 Basic.以前讨论的生成决策树的选择项均在此标签中.可用的裂分标准依赖于目标变量的测量水平。对于二元或者名义目标变量，缺省的裂分标准是chi-square检验，显著性水平为0.2. 如果不用缺省设置，你可以用entropy 减少或者Gini（基尼数）减少的方法作为裂分标准。对于有序目标变量，只有entropy 或者基尼数方法。对于连续型目标变量，你有两个裂分标准供选择：缺省 F 检验或者方差减少。这一标签的其它选择项影响树的生长和大小。按照缺省，只有二元裂分可用，树的最大深度是6个层次，树叶中最小的观测记录数是1. 然而，还有一个节点裂分所需要的观测记录数的设置。这个数值的缺省值是训练数据里所有的记录数除以100.4. 关闭 Tree 节点.5. 从 Tree节点运行框图。右击Tree 节点并选择 Run.6. 选择弹出框的Yes 查看结果.当查看树节点的结果时， All 标签处于活动状态，界面展示了后面几个子标签的总结。从右下角的图形我们知道训练数据集合最初生成的是18个树叶的树，然后根据验证数据集合被修剪成有8个树叶的树。左下角的表告诉我们这个8个树叶的树在验证数据上的精度是89.02%.7. 通过选择菜单条View Tree 查看树.以下是树的一部分.尽管这棵树应该有个树叶，但这些树叶并不都能看到。根据缺省，决策树浏览器只显示层. 要修改可浏览的层数，操作如下:1. 选择View Tree Options.2. 在 Tree depth down 区域键入 6.3. 选择 OK. 4. 检查一下所有个树叶是否都能看到. The colors in the tree ring diagram and the decision tree itself indicate node purity by default. If the node contains all ones or all zeros, the node is colored red. If the node contains an equal mix of ones and zeros, it is colored yellow. You can change the coloring scheme as follows:1. Select Tools Define Colors.2. Select the Proportion of a target value radio button.3. Select 0 in the Select a target value table. Selecting zero as the target value makes the leaves with all zeros green and those with no zeros (that is, all ones) red. In other words, leaves that include only individuals who will default on their loan will be red.4. Select OK.Inspect the tree diagram to identify the terminal nodes with a high percentage of bad loans (colored red) and those with a high percentage of good loans (colored green).你还可以改变树节点统计量的显示.1. 选择 View Statistics.2. 要关闭Count per class（每类别的数量），右击Count per class 行的Select 列。在弹出菜单里选择Set Select No.3. 同样方法关闭 N in node, Predicted Value, Training Data, 以及 Node ID 行，你的屏幕上可以看到更多的树叶.4. 选择 OK.注意第一次裂分发生在DEBTINC变量上。以下步骤可用来决定哪一个分枝包含缺失值:1. 把光标头指在树图根节点下的变量名DEBTINC上.2. 右击并选择 View competing splits. Competing Splits（可选择裂分）窗口打开。该表列出了按worth的测量值排列的前个可考虑用于裂分的变量.3. 选择 DEBTINC.4. 选择 Browse rule. Modify Interval Variable Splitting Rule （修正连续变量裂分法则）窗口打开.该表给出了每一个分枝的变量数值范围以及包含缺失值的分枝号。在目前情况下，包含45.1848的变量值的分枝包含缺失值.5. 关闭 Modify Interval Variable Splitting Rule 窗口， Competing Splits 窗口,以及树图.使用树选择项你可以调整缺省树算法以便生成不同的树。这些改变并不一定改进树的分类性能，但可以改进其可解释性.Tree 节点按缺省裂分为二分为两个节点 (被称为 binary splits). 理论上使用多方向裂分的树并不比使用binary splits的树更灵活或者更有效果。其主要目的是加强最终结果的可解释性. 考虑生成一个可允许方向裂分的树. 1. 点击框图上的树名称，把它改为Default Tree.2. 在工作区加入另一个树节点.3. 连接Data Partition节点和这个 Tree 节点. 4. 连接这个Tree 节点和 Assessment（评价）节点.5. 打开这个新的 Tree 节点.6. 选择 Basic 标签.7. 在Maximum number of branches from a node（一节点最多分叉数）处输入4. 这个选项允许2,3,4个分叉.8. 关闭这个Tree节点，并在弹出框中同意存储改动.9. 在弹出框中输入 DT4way 作为模型的名称。看到它你会想到你指定的是4-方向裂分树. 10. 选择 OK.11. 从这个树节点运行挖掘流并浏览结果.这棵树树叶的数量从8 增加到 33. 这棵树是否比二分树更容易为人理解只是个人的偏好而已。增加的树叶数量可以增加模型较低层次的解释力。在验证数据上的分类精度只增加了0.25% 虽然模型的复杂度增加了许多.如果你看树图，你会发现许多节点只包括几个申请人。你可以使用其它的生成选择去限制这一现象.12. 关闭 Results 窗口.限制树的生长各种停止或者阻止法则（也被成为预剪枝）可以用来限制决策树的生长。例如，人们通常会认为一个节点的记录50就不再裂分、或者要求每一个节点的记录至少为25.修改最后创建的Tree 节点，并采用这些终止法则以阻止生成太多的终端节点.1. 打开 Tree 节点.2. 选择 Basic 标签.3. 在 minimum number of observations in a leaf 区域键入25,然后点击Enter.4. 在 number of observations required for a split search 区域键入50，然后点击Enter.!The Decision Tree node requires that (Observations required for a split search) 2*(Minimum number of observations in a leaf). In this example, the observations required for a split search must be greater than 2*25=50. A node with fewer than 50 observations cannot be split into two nodes with each having at least 25 observations. If you specify numbers that violate this requirement, you will not be able to close the window.5. 关闭Tree节点并存储所做的改动.!在关闭时如果Tree节点没有弹出对话框让你存储改动，这说明原有的设置没有被修改，这是你要重新打开这个节点并重新修改设置.6. 重新运行Tree节点并浏览结果.这个最佳树有 8 个树叶。在验证数据上的精度略有下降，为88.56%. 7. 选择 View Tree 看树图.注意在DEBTINC上的第一个裂分下面有4个分枝.8. 浏览后关闭树图及节点窗口.比较模型Assessment 节点用于比较模型.1. 要从Assessment 节点运行框图, 右击Assessment 节点并选择Run.2. 在弹出的对话框中选 Yes查看结果.3. 在 Assessment Tool 窗口, 点击并拖拽鼠标把两个模型都选上.4. 选择Tools Lift Chart.l 右击Tool Name框内空白处，选择format，选择model name缺省给出的是一个 Cumulative %Response（累积因变量）图。根据缺省，人群按预测的因变量概率划分为10个等分组，然后画出实际的因变量百分数（即轴）。要看实际值，点击View Info 工具然后点击模型对应的折线。点击靠近图形左上角的Tree-2 线，得到%Response 为 82.06, 含义是什么呢？要解释Cumulative %Response 图，需知道它是如何生成的. 就这个例子而言，响应人（responder）被定义为一个欺诈贷款的人 (BAD=1). 对每一个人，拟和的模型（在此是一个决策树）给出了此人将来会欺诈贷款的概率预测。把所有的记录按响应的预测概率从大到小排序. 把人分成有序组，每一组包含大约10% 的数据记录. 使用目标变量BAD, 计算每一组实际响应人的百分数c. 如果模型有用，响应者（欺诈者）的比例在响应预测概率高的组将会相对高。前面给出的累积响应曲线显示了前10%, 20%, 30%等实际响应者的百分数。在前 10%的组里, 80% 多的人是贷款欺诈者；在前 10%的组里, 欺诈者的比例下降到只有72%. 水平线代表的是用于比较的基准比率（大约20%）, 这个比率是你随机抽样时预期的欺诈者百分数的估计. 上图给出的累积百分数，但你还可以选择图形左边Non-Cumulative旁边的圆钮查看每一个组里响应者的比例.选择 Non-Cumulative 旁边的圆钮并查看图形.Cumulative %ResponseNon-Cumulative %ResponseNon-Cumulative 图形表明一旦预测概率的值在前20%以外，欺诈率要比你选一个随机样本所期望的欺诈率要低.选择 Cumulative 然后选 Lift Value. 提升图描画的在不同标度上的相同信息。记得总体的响应率大约为20%。提升图可通过把每一个小组的响应率除以总体响应率得到。因此提升图描绘的是基于基础线的相对改进. Cumulative %ResponseCumulative Lift Value我们知道在按预测概率排序的前10% 的组里欺诈者比例为82.06%. 82.06% 除以20% (baseline rate) 得到略大于4的数, 这表明你在这个组里会得到比相同人数的简单随机样本里4 倍多的欺诈者.你可能会提出这样的问题：每一个组里响应者占全部响应者的百分数是多少？。这个百分数是用Captured Response计算的。要查看计算结果，选择%Captured Response旁边的圆钮。用 View Info 工具评价模型的性能。你可以看到如果你拒绝申请者的百分数为 20%, 你可能挑出了大约70% 将会欺诈的人(提升比例是 3.5!). 40%,你可能挑出了大约80% 将会欺诈的人(提升比例大于2!). 关闭Lift Chart 和Assessment Tool窗口.In order to choose the appropriate threshold to classify observations positively or negatively, the cost of misclassification must be considered. In the home equity line of credit example, you are modeling the probability of a default, which is coded as a 1. Therefore, Enterprise Miner sets up the profit matrix as shown above.Assume that every two dollars loaned returns three dollars if the borrower does not default. Rejecting a good loan for two dollars forgoes the expected dollar profit. Accepting a bad loan for two dollars forgoes the two-dollar loan itself (assuming that the default is early in the repayment period).The costs of misclassification are shown in the table.One way to determine the appropriate threshold is a theoretical approach. This approach uses the plug in Bayes rule. Using simple decision theory, the optimal threshold is given by q.Using the cost structure defined for the home equity example, the optimal threshold is 1/(1+(2/1) = 1/3. That is, reject all applications whose predicted probability of default exceeds 0.33.You can obtain the same result using the Assessment node in Enterprise Miner by using the profit matrix to specify the profit associated with the level of the response being modeled (in this case, a loan default or a 1). As a bonus, you can estimate the fraction of loan applications you must reject when using the selected threshold.选择决策阈值首先考虑从理论上决定的决策阈值 1. 返回到项目Project1 流程图，打开 Default Tree 节点,并选择打分（Score）标签 2. 选择 Training, Validation, and Test旁的选箱，这样预测值被加到数据集合。3. 关闭树节点，并保存改动。4. 在Default Tree 节点后加入一个Insight节点。5. 打开 Insight .6. 点击Dat

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

使用决策树的预测建模.doc

文档简介

温馨提示

最新文档

评论

使用决策树的预测建模.doc

文档简介

温馨提示

最新文档

评论

相关文档