不错的Clementine的例子.doc

上传人：柠*** IP属地：江西上传时间：2020-02-13 格式：DOC 页数：24 大小：4.55MB 积分：18 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

依据1.1.2节中提到的“五C和1S个人信用评级模型”，我们尝试对前20个字段尝试归类，如下表所示:表3一1样本集合字段归类Character(特征)信贷期限、信贷历史纪录、贷款目的、贷款款金额、其他分期付款方式、在本银行现有的信贷纪录数Capacity(能力)现有支票账户、分期付款金额占可支配收入的比率、工作、法律规定需要扶养的人数Capital(资本)储蓄存款账户Collateral(抵押担保)其他债务人/保证人、资产Condition(环境和条件)年龄、个人身份和性别Stability(稳定性)现任工作时间、在目前住址居住时间、住房、电话注册、是否外国国籍可见，这20个字段均为个人信用评价系统中影响个人信用的比较重要的因素。考虑到指标选择的全面性和决策树算法的特性，我们先将这个20个字段全部纳入我们即将建立的模型的指标体系，作为样本纪录的特征属性，等待下一步检验处理。有关“好”客户和“差”客户的定义3，通俗的说，“好”客户就是授信机构愿意为其提供消费信用的客户，授信机构预期这些客户能够按时还本付息;“差”客户则是授信机构预期这些客户不能按期还本付息而不愿意为其提供消费信用。商业银行对于好差客户的评判没有统一的标准，通常情况下是根据在一定的观测期内客户的拖欠还贷的时间来区分。在我们所取得的数据中，银行己经根据自己的内部标准和客户的信贷表现情况将客户分为“好客户”和“差客户”两类，记录于最后一个字段中。因此我们直接将其作为样本纪录的类别属性(Class)。3.2数据预处理高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤，同时也是数据挖掘中最为耗时和繁琐的过程。因为现实世界中经过初步采集后的数据依然多半是不完整的、有噪声的和不一致的并且可能存在冗余的，所以在获取数据源后，需要对它们进行清洗和转换，使其符合数据挖掘算法的要求，并能够产生最为可靠和准确的结果。数据的不完整性主要体现在样本某些属性存在空缺值。而数据的不一致性则包括字段类型的不一致、字段长度的不一致、实体处理(例如各部门对相同的字段采用不同的输入方式)的不一致等。由于我们所取得的数据集是己经做过某些相关处理筛选的，经观察统计，不存在空缺值和数据不一致性现象，因此我们做的主要工作是对噪声数据的处理和对冗余数据的处理。3.2.1噪声数据的处理噪声是指一个测量变量中的随机错误或偏差。噪声的存在不仅增加了数据挖掘的难度，而且直接影响到建立的模型的准确性。因此对噪声数据的有效处理是建模前的一项重要准备工作。对噪声数据的检验主要可以通过范围检验、枚举清单、相关检验三种方式来进行。范围检验主要针对连续性数据。该方法检查一个字段内的数据是否在预期合理的范围之类。例如:若年龄字段出现负值或者大于100的数值，则可认定为不合理的噪声数据。又如若现有信贷纪录数字段出现远大于其他样本平均值的数值，则认定为噪声数据。枚举清单主要是针对离散性数据。该方法对照数据字段可接受的离散值的清单检验该字段的值。例如:“是否外国国籍”字段的值只能是“是”或者“否”，若出现其他值，则必为噪声数据。相关检验是将一个字段中的值与另一个字段中的值进行对比。例如:若某个样本的“现任工作时间”字段为“失业”，则其“工作”字段的值必为“失业/普通员工(非本地常驻居民)”。在找出噪声数据之后，就要对噪声数据进行处理。对于噪声数据的处理主要有以下几种手段:(l)根据合理性和经验常识人工进行判断修改。(2)先按一定的属性对数据集进行分类，或将具有相同特征的数据聚集起来，然后计算有噪声的记录所属的类中所有该属性值的平均值，以该平均值代替噪声数据。对于离散属性值，直接用包含噪声的纪录所属的类中所有样本中该属性的最常见的值代替噪声数据即可。(3)利用多元回归技术平滑噪声数据。二元线性回归涉及两个变量，可以找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。多元线性回归则是二元线性回归的扩展，它涉及两个以上的变量，使得变量之间存在“最佳”的多维面，在这个面上，能够利用其他变量进行另一个变量的预测。使用回归技术，找出适合数据的数学方程式，能够帮助消除噪声。由于我们所获得的数据集合大部分的字段取值为离散值，因此我们对噪声的处理以前两种方法为主，以第三种方法辅助。3.2.2冗余数据的处理冗余数据预处理的另一个重要问题，其目的是除去重复的信息，精简数据集，减少数据挖掘的工作量。主要包括:处理元组冗余，处理属性冗余。所谓元组，也就是集合中的纪录。一个元组也就是一条记录。元组冗余是指对于同一数据集，存在两条或多条相同的记录。我们利用计算机程序对样本数据集合进行检验，未发现元组冗余现象。属性冗余是指数据样本中存在多余的属性或者属性值。对冗余属性的处理可以使用相关性分析。相关分析是研究变量间密切程度的一种常用统计方法。线性相关分析研究两个变量间线性关系的强弱程度和方向。相关系数r是描述这种线性关系强弱程度和方向的统计量。其中，n是元组个数，和分别是A和B的平均值，分别是A和B的标准差。如果，则表明A和B是正相关的，该值越大，一个属性蕴涵另一个的可能性越大。相关系数越接近于1说明A和B存在的相关性就越大，这两个属性有一个相对来说就是冗余的。如果，说明A和B没有相关性。说明这两个属性是负相关的。经过对20个特征属性的相关性检测，我们没有发现明显的正相关或者负相关现象，因此暂时不需要去除任何特征属性。处理属性冗余还包括对冗余属性值的合并。这主要是针对离散属性进行，大致步骤如下:先根据属性的不同取值将样本数据集合分组，有几个离散值就分为几组。然后统计各个分组中样本的数量和好差客户数量之比。最后根据以下准则合并属性值。(1)若某些分组好差客户数量之比十分接近，则可以考虑将这些分组的属性值合并。(2)若某些分组的样本数量相对于该属性的其他分组过少，则直接将该分组的属性值合并到其他相近分组的属性值中。例如:在样本数据集合中，我们发现“个人身份和性别”字段中，取值为“单身女性”的样本数量只有5个，因此我们将其与属性值“女性:离婚/结婚”合并，形成新的“女:单身/结婚/离婚”属性值。这样，“个人身份和性别”字段的取值个数就由原来的5个减少为4个。3.2.3数据变换与计算机存储在进行过以上对样本数据集合的处理之后，我们为每个字段编号，并且将字段的每个取值转化为“字母+数字”形式的示意字符串存储于计算机之中。最终得到的用于建模的样本数据集合相关信息如下表所示:表3一2经过处理后的样本数据集合字段信息字段编号字段名称类型取值取值说明C1现有支票离散All，A12A13，A14All:透支A12:=200DM顺薪时间=l年A14:没有支票账户C2信贷期限（月）连续4，72C3信贷历史纪录离散A30，A31，A32，A33， A34A30:无贷款纪录/所有贷款均按时还款A31:在该银行的贷款均按时还款A32:到目前为止现有的贷款均按时还款A33:曾经逾期还款A34:危险账户或者其他危险信用记录存在(不在本银行)C4贷款目的离散A40，A41，A42，A43，A44，A45，A46，A48，A49，A410A40:车(新)A41:车(二手)A42:家具/设备A43:电器A44:家庭用具A45:修理A46:教育A48:技能培训A49:商业目的A410：其他C5贷款金额连续250,18424C6储蓄存款账户离散A61，A62，A63，A64，A65A61:=100DM AND =500DM AND=1000DMA65:不明/无储蓄账户C7现任工作的时间离散A71，A72，A73，A74，A75A71:失业A72:=1年AND 二4年AND=7年C8分期付款金额占可支配收入的比率离散A8l，A82，A83，A84A81:=10%AND20%AND40%C9个人身份和性别离散A9l，A92，A93，A94A9l:男:离婚/分居A92:女:单身/结婚/离婚A93:男:单身A 94:男:结婚C10其他债务人/ 保证人离散A101，A102，A103A101:没有A102:联合中请者A103:保证人C11在目前住址居住时间离散A11，A112，A113，A114Al1:=10年All2:=6年All3:=2年All4:COST(B)以减少A类错误。为了确定最佳的成本矩阵，我们采取多次试验比较结果的方法。在其他模型参数均为默认值的前提下，我们将COST(B)固定为1，把COST(A)设定为大于等于1的一个值，并且不断的提高它，进行多次试验，建立不同的决策树模型，根据其对训练样本和测试样本分类预测结果挑选COST(A)的最佳值。挑选的标准如下:(l)对训练样本和测试样本，总错误率不能明显高于COST(A)取其他值时的模型，并且总错误率越低越好。(2)在总错误率达到标准的前提下，A类错误率越低越好。(3)当对训练样本的分类错误率相差不是很多时，优先考虑对测试样本的错误分类率，选择对测试样本表现较好的模型的COST(A)。表3-6 COST(A)取不同值时决策树模型的分类错误率COST(A)12345训练样本总错误率（%）14.6414.5215.1425.4125.66错误率（%）36.111.622.11.661.66B类/错误率（%）5.3720.7920.7935.6656.3测试样本总错误率（%）31.8430.3539.841.7943.28A类/错误率（%）71.232.240.6828.8130.5B类/错误率（%）15.529.5839.4447.1848.6从表3-6中的数据可以看出，随着COST(A)的不断增大，无论是对训练样本，还是对测试样本中，模型的总错误率是不断上升的，而A类错误率却呈现出下降的趋势。虽然个别数据会出现异常波动现象，但这并不影响数据整体变化的趋势。这说明通过对cosT(A)的设定的确能减少A类错误发生的概率，不过是以总错误率的增加为代价的。接下来我们依据建模目标和选择标准，通过分析比较，找出COST(A)的最佳值。(l)当COST(A)3时，模型的错误率明显偏大，对训练样本的总错误率超过25%，比COST(A)=2时高出了10%以上;对测试样本的总错误率超过40%，比COST(A)=2时高出了近11%以上。这显然不符合我们的选择标准。因此将COST(A)设置为大于3的值都是不适合的。(2)比较COST(A)分别为l、2、3时的情况，很明显当COST(A)=2时，不仅总错误率最小，而且A类错误率也最小。因此COST(A)=2是相对比较合适选择。由此可以到的建立决策树模型的成本矩阵:实际类别预测类别C211.0(好客户)2.0（差客户）1.0（好客户）2.0（差客户）3.3.4剪枝程度的选取剪枝是一种克服噪声的技术，它有助于提高决策树对新数据的准确分类能力，同时能使决策树得到简化，使其更容易理解，加快分类速度。“欠剪枝”会造成决策树过于复杂，比并且对噪声过于敏感，降低对新数据的预测能力;而“过度剪枝”则会造成决策树对训练样本的拟合程度不够，降低分类的精度。因此选择合适的剪枝程度对构建一个合理高效的决策树模型起着非常重要的作用。这一点在实际问题的处理中显得更为重要。在第二章已经提到过，C4.5/C5.0方法中，对决策树的剪枝程度是通过CF值来控制的。而在SPSS Clementine软件的C5.0模型中是通过“修建严重性”指标来表示，修剪严重性=(1-CF)l00，默认值为75(也就相当于CF的默认值0.25)。增加该指标值可获得一个更简洁的小型树。减小该值可获得一个更精确的树。我们选取树的节点的个数作为衡量一颗决策树复杂程度的标准。在上一节确定的成本矩阵的基础之上，通过为“修建严重性”指标设置不同的值，观察所生成一列决策树的分类错误率和复杂程度。我们的建模目标是:避免过度拟合现象发生，并且在保证模型精度的前提下，尽量使构造的决策树更简单。因此对于“修建严重性”指标的选取标准，除了包含3.3.2节中对C0ST(A)的选取标准中的三条准则之外，还应当增加一条:在其他条件相当或者相差不大的情况下，选择使生成的决策树节点数目更少(复杂度更低)的“修建严重性”指标值。从上表中的数据中可以发现的明显规律是:随着“修建严重性”指标值的增加，生成的决策树的节点个数逐渐减少，树的复杂度越来越低。同时，在训练样本中，决策树模型的总错误率和A类错误率均呈现上升的趋势。而测试样本中情况要稍微复杂一些，我们采取分段分析的方法。(1)当修剪严重性丛75时，总错误率和A类错误率均处于一个较高的水平，与训练样本中极低的总错误率形成了鲜明的反差。这说明了对决策树修剪的不足而产生了“过拟合”现象，进而造成生成的决策树模型虽然在训练样本中有很高的精度，但是对测试样本的分类准确率却不高，两者之间差距比较明显。(2)当修剪严重性=75或者80时，测试样本的总错误率和A类错误率下降到相对的最低的水平，同时训练样本中的错误率处于相对的中等水平。(3)当修剪严重性全85时，测试样本的总错误率和A类错误率又开始有所回升。并且此时训练样本中的错误率逐渐上升到最高点。这说明了对决策树修剪过度而造成决策树模型对样本的拟合度欠缺，精度达不到标准。基于以上3点分析，根据指标的选取标准，将“修剪严重性”设定为75或者是80是相对合适的选择。由于两者对训练样本和测试样本的分类错误率差距不大，基本上可以视为处于同一水平，我们根据选取标准的第四条，选择复杂度较低的具有118个节点的决策树模型，即将“修剪严重性”设定为80。3.3.5对Boosting技术的实际效果的分析Boosting作为C5.0的一项重要技术，能够非常有效的提升决策树模型的准确率。但是在实际运用中，建模是依据于训练样本，任何使模型对训练样本分类准确率提高的方法都或多或少存在着使模型产生“过度拟和”的风险。为了观察Boosting在实际问题建模中的效果，我们在以上确定的模型参数基础之上，于决策树模型的构建过程中加入Boosting技术，迭代次数设置为默认的10次。根据2.3.1节中对Boosting的主要过程的描述，训练样本集合共799个样本，因此n=799。在这里我们设定的迭代次数为10次，即T=10。第一次迭代过程如下:(l)在第一次迭代过程中，所有样本的初始权重值均为 (2)进一步计算得到归一化的权重值。可见在首次迭代过程中所有样本的权重值是相同的。（3）为每个样本赐予归一化的权重值，并且在此概率分布基础之上构建第一次迭代过程中的决策树模型C1。 (4)计算C1的错误率。被C1正确分类的样本数为680，被C1错误分类的样本数为119，而所有的样本在第一次迭代过程中权重值均为，因此199=0.249。 (5)因为0.5，继续计算 (6)为下一次迭代更改样本权重值:在完成第一次迭代过程后，继续用同样的方法从计算归一化的权重值步骤开始继续下一次的迭代过程。整个Boosting过程总共经历了10次迭代，共生成了10个决策树(C1，C2，C10)。在对样本进行分类预测时，我们对每个决策树赋予相应的权重值log(1/t)，然后通过投票的方式决定整个模型对样本的分类结果。同样的，在实际计算过程中，我们利用SPSS Clementine软件进行迭代，生成模型。由此得到的使用Boosting技术的决策树模在训练样本和测试样本中的表现如下表所示:表3-8使用Boosting技术的决策树模型的分类错误率相比较表.3-7中“修剪严重性”为80那一列的数据，在使用了Boosting技术之后，训练样本中的总错误率和A类错误率都有非常明显的下降，分别从14.89%下降到4.63%，从14.110k下降到0.8%。但是在测试样本中，总错误率和A类错误率都有所上升，分别从29.85%上升到31.34%，从32.2%上升到37.29%。这种现象说明了，Boosting技术的确能够很有效的提升决策树模型对训练样本数据的拟合程度，使其对训练样本的分类准确率大大提高，但对模型对测试样本的精度却没有改善。决策树模型在训练样本和测试样本中表现的差距进一步加大说明了“过拟合”现象的发生，这增加了模型的不稳定性。因此在本文的模型构建中，我们更倾向于在建模过程中不使用Boosting技术。3.3.6调整后的模型与预测分类结果经过以上几个小节的分析处理，我们最终确定的C5.0参数设置如下图所示:图3一3调整后的决策树建模参数设置其中，使用误分类损失也就是误判成本值。其他的一些设置诸如:“群体字符”、“辨别属性”等等由于不是建模的关键性因素，为了简单起见，均采用默认设置。由此生成的决策树模型以及对训练样本和测试样本的分类预测结果分别如图3-4、表3-9、表3-10所示:从上表中的数据可以看出，对于训练样本，调整后的模型总错误率基本与初步模型基本保持一致，但是A类错误率比初步模型下降了21.99%。对于测试样本，调整后的模型的总错误率比初步模型下降了大约2%，而A类错误率下降了38.99%。这种结果与我们的建模目标是基本吻合的。3.3.7模型评估与分析对于模型评估，我们主要依据以下几个指标来衡量模型的质量:精确度。该指标由模型的总错误率反映，包括训练样本中的错误率和测试样本中的错误率。总错误率越高，模型精确度越低;总错误率越低，模型精确度越高。风险成本。该指标由A类错误率反映。同样包括训练样本中的A类错误率反映和测试样本中的A类错误率。A类错误率越高，表示将一个差客户误判为好客户的概率越大，则风险成本越高;反之，A类错误率越低，表示将一个差客户误判为好客户的概率越小，风险成本越低。稳定性。该指标由模型在训练样本和测试样本中表现结果的差距所反映。训练样本和测试样本的错误率相差越大，则模型的稳定性越差;反之，若训练样本和测试样本的错误率相差越小，则模型越稳定，即证明用该模型在新的数据集合上会产生同样的分类和预测效果。对于一个模型来说，精度越高，风险成本越低，稳定性越强，则模型越好;反之，精度越低，风险成本越高，越不稳定，则模型越差。根据以上标准，我们对建立的基于决策树的个人信用评级模型进行评估总结如下:模型优点:(1)模型的精确度比较高。尤其是对训练样本的分类效果很好，错误率在15%以下，令人满意。(2)模型风险成本比较低。经过参数调整后，训练样本和测试样本的A类错误率分别降到14.11%和32.2%。说明成本值较高的误判发生的概率得到了很好的控制。(3)模型的可控性和适应性比较好。使用者可以通过调整模型的诸多参数，使模型满足不同情况下的建模需求。例如:对风险承受能力较差的银行，可以通过设置更高的误判成本值，以达到严格控制不良贷款。存在的问题和注意事项:(l)虽然我们在建模过程中使用的数据来源于国外的商业银行，但是以上建模方法同样适用于国内商业银行建立个人信用评级模型，并且可以得到类似的结果。(2)我们建立的决策树模型对训练样本和测试样本的总错误率以及A类错误率差距比较大，反映了模型存在着不稳定性。这在实际运用中，应十分注意。因为新的贷款申请人总体可能与建模总体有一定的差异，模型的不稳定性可能会造成错误分类率较高。所以在实际建模过程中，训练样本的数量一定要充足，能够具有广泛的代表性，同时要在使用数据前对训练样本进行充分的数据预处理。4 与其他主要建模方法的对比分析除了决策树方法之外，可以用于建立个人信用评级模型的方法还有很多。在本章，我们选取了另外两种比较具有代表性的方法传统统计学中的Logistic回归方法和数据挖掘技术中新兴的神经网络算法，分别建立个人信用评级模型，并将其分类预测结果与上一章中用决策树方法建立的模型进行比较，以得出不同方法的特点和各自优势。4.1基于Logistic回归的个人信用评级模型4.1.1属性的编码与建模变量的生成训练样本集合包含20个特征属性(Cl-C20)，其中有16个为离散属性，不能直接作为自变量用于建立Logistic回归模型，需要引入虚拟变量的方法来表示特征属性的取值。这就是对特征属性的编码。我们采取最常用的一种编码方式离差编码25(indicator coding)。即描述特征属性取值的虚拟变量的个数比特征属性取值的个数少一个，并且每个虚拟变量只取0和1两种值。例如:特征属性Cl(现有支票账户)一共有4个离散取值:All，A12，A13，A14。则对其编码时，我们引入3个虚拟变量vl，v2，v3如下表所示:对于剩下的4个连续属性，不需要再特别引入虚拟变量对其编码，可以直接作为自变量用于Logistic建模。但是经过观察，我们发现特征属性C5(贷款金额)的均值远远大于其他连续属性的均值，为了避免在回归方程中产生过小的系数，我们将样本中CS字段的所有值除以1000，代替原有的值。这样做并不会影响到建模结果。对于类别属性C21，由于只分为2个类别，因此可对其编码如下:经过上述处理后，一共产生53个变量(VAR01I

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

不错的Clementine的例子.doc

文档简介

温馨提示

最新文档

评论

不错的Clementine的例子.doc

文档简介

温馨提示

最新文档

评论

相关文档