数据挖掘-分类综合案例hmeq_第1页
数据挖掘-分类综合案例hmeq_第2页
数据挖掘-分类综合案例hmeq_第3页
数据挖掘-分类综合案例hmeq_第4页
数据挖掘-分类综合案例hmeq_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类综合案该模型将基于近期申请人的数据,这些申请通过当前承保的处理给予申请人信用。模型HMEQ数据集包含了5960笔近期住房的基本信息和表现情况目标变(BAD)是一个二元变量取值为1表示申请人最终违约或严重拖欠这些不利的结果发生在1189(20%(一) 打开SASEnterpriseMiner(以下简称EM),创建一个新的项目homeloan,并将该项目存放 SAS编辑器中执行以下命令新建数据集HMEQ:Datadata.hmeq;SetSASEMinputdatasourceinputdatasource或点击右键选择openSelect选择上述新建数据集data..HMEQ。13个变量(列2000个。EM使用元数据是为了对如何使用每一个变量做初步估计。在默认的情况下,EM2000个随机样本并用样本信modelrolemeasurementlevel.EM同时也根据这一样本打开显示窗口中的Variable,我们看到了13个变量的情况。观察Name和Type(numBADBAD变量是一个数值型变量,但由于在元数据样BADEM将其视为一个二元变量(binary)。(interval这三个数值型变量在元数据样本中均拥有超过10个不同的数值。所有区间变量的Modelroleinput。变量REASON和JOB都是字符型变量而度量方式(measurement)却不同。变量REASONJOB(nominalModelroleinput。(ordinal(argetvariable操作过:BAD的modelrole,在弹出的菜单中选择SetModelRole,再在弹出target.:BAD的Name列,在弹出的菜单中选择Viewdistribution。变量BAD的状图如下图所示。之后可以用鼠标左键单击ViewInfo图标(,再用左键单击每个柱(BAD=1source查看描述性统计数据描述性统计数据源于元数据样本首先选择IntervalVariables。查看每个变量的分类数量,缺失数据百分比和排列次序。变量BAD(descending(ascendingDatapartition窗口左上方显示了三种不同的分割方法。默认情况下的方法为简单随机抽简单随机抽样法(SimpleRandomSampling)为默认设置,数据集中每一个观察值被抽SamplingDefined,选择你可以在aron的下角指定一个随开始抽样过程。电脑序的随机化常始于某类型的果在不的流程使用同数据集相同的ee=0除,此的右侧显示了将数据分为训练数据集检验数据集和测试数据集的比例但是无建立一个默认设置的回归模型。在datapartition节点之后添加并连接一个Regression节点。Estimates以条形图方式展示了各变量的effectT-scoresEstimates(参数估计和所有的建模节点均包含一个ModelManagerassessmentchartsreports,功能和assessment节点一样。但是在modelmanager中我们只能查看本模型,而assessment节点却可以用来比较各个建模节点所产生的模型。右键单击回归节点并选择ModelManager选项。在弹出的窗口中选择Tools,再选择LiftChart,或者通过点击图标来实现。弹出liftchart为一个cumulativeResponse如果这个回归模型是可用的,那么拖欠的那一部分客户将会在靠前的十分位组上有在DataPartition节点后连接一个Replacement节点,再添加一个Regression节点和一个出的窗口中选择Tools,再选择LiftChart,或者通过点击图标来实现。用鼠标左键单首先,对于这个案例而言,theResponseofinterest为拖欠,因此,respondents就(BAD=1(Descending如果这个模型是可用的,那么相对靠前的有序组(拖欠的客户的预测概率相对高)Non-Cumulative来查看每一我们也可以通过选择LiftValue选项查看各个有序组的lift值。实际上,CumulativeResponseCumulativeLiftValue的图表形状完全一致,只是刻度不一Non-cumulativeResponseNon-cumulativeLiftValue的图表也是一致的。Responserate21%responserate21%即可得到lift值。%CapturedResponse代表了某一有序组中包含的拖欠的客户数量占全部客户的百分比。如果我们随机抽取10%的客户,那么将有10%的拖欠的客户在这一抽样中被抽线在Cumulative%CapturedResponse图表中为45°Non-cumulative%CapturedResponse图表中为一条水平直线。下面计算lift值。20%的客户中,拖欠的客户数量占拖欠的全部客户数量的50%,用50%除以20%即得到相对lift2.5LiftValue图表显示的数值一致。随着选取的客户数量逐渐增多,lift值lift值的那个模型相对较好。但是要注意的是,一个模型在一个十分位距上的表现比另一个LiftassessmentView,ModelResults来查看此Replacement节点之后,变量DELINQ,DEROG,NINQ和CLAGE成为四个最重要的预测变量(predictorvariablesDataPartitionInsightInsightrunYes查看结果。结果的一部Insight节点并返回到工作流设计区。右键单击Insight节点选择open选项。Data被打开。Description表明被选用的数据集为训练数据集,此训练数据集的名称为EMDATA.TRN8YJKH(TRN8YJKHTRN,节点产生的是一个样本大小为2000随机为12345的源于训练数据集的随机抽样样本。右侧的Properties2384个观察值和13个变量。2384HMEQ596040%(在DataPartition节点中已InsightSettingSelectDataPartition前面的+SAS_DATA_SETS前面的+号,得到如下图示:(TRNYJH(AL6W7UWOK确认修改。本例中不做修改。我们也可以使用整个训练数据集来运行InsightInsight节点使用适当大小的样本时它就足能很好的数据而及其大的样本是没有必要的在InsightSettings窗口中选择右下角的EntiredatasetYes保存修改。InsightYesEMDATA.TRN8YJKH弹出窗口。接下来查看各变量的分布情况选择最上方菜单的yze选项在弹出菜单中选择Distribution(Y)。选出窗口中左侧的所有变量,再点击Y,最后选择OK。以上操作使我们得到了各个变YOJ变量DEROG为0的观察值Transform节点,并从DataPartitionTransformVariableopen,或直接双击此节点。弹出的窗口(如下图)10个区间变量的描述性统计数据,这些数据是从元样本中计算TransformVariable节点可以通过标准转换立即对各区间变量进行变换,也可以创建新Keep一列允许被修改。transformationYOJTransformationlog。No00取对数没有定义。接下来查看新变量的分布情况:DELINQDEROG 在弹出框中选择右侧的Define框的下方输入公式DEROG>0对于一个观察值而言,如果DEROG>0,则INDEROG=1;如果DEROG<0,则INDEROG=0。如果DEROG是缺失值,则INDEROG=0。点击OK关闭此框。对变量DELINQ做类似的操作,结果如下图。DEROGDELINQINDEROGINDELINQ,原变(Keep=esNINQNINQ首先,创建一个包含三组的分组变量,鼠标NINQ一行,选择Transform,再Bin1Value=0.5(注意此变量为计数变量,输入任何01之间的数值与0.5的结果一样)Bin2Value=1.5。即得到如下图示。关闭此框,保存修改,返回到TransformVariable框。如下图所示,新变量查看新变量NINQ_RUA10%的缺失值比率。关闭所有框并返回到数据流设计区。DataReplacementtraining,选中Entiredata打开Replacement节点选择Data确认在inputs子subtraining,选中Entiredata然后选择Defaults,选中第三行的Createimputedindicatorvariables,这一选项将会imputation前来识别那些拥有缺失值的变量。在这一框中选择ImputationMethods子。默认情况下,区间变量的(mean(classvariable)imputation方法为取最高频率法(mostfrequentvalue(count),即缺失值EMtreeimputation方法,即用决策树方法估计替换值。在两个Methodtreeimputation。(StatusYOJ也不在此表内。Numericvariables0,在CharactervariablesUnknowndefaultconstant作为再更改变量DELINQimputationImputationMethod列,选择SelectMethod,再选择setvalue,在弹出的框中输入替换值0。DEROGimputationImputationMethodDEROGDELINQimputation方法,但是它们子中设定的值变量DEROG的defaultconstant将被改变而变量DELINQ不受影响。打开ClassVariables,发现变量BAD的状态为don’tuse,说明此变量的缺失值将REASONImputationMethodSelectMethoddefaultconstantUnknown。OK更改变量JOBImputationMethodSelectMethod,再选择setvalue。在弹出的框中选择DataValue一栏,并在下拉菜单中选择OK查看OutputReplacement(四)型建立与评ReplacementAssessmentRegressionTools,再选择InteractionBuilder默认情况下,回归节点使用所有的effects来建模。这里我们保留默认设置,关闭框。量默认情况下节点不执行变量选择即所有的effects都被包含在最终的模型中。MethodStepwise。打开此框右下角的Criteria子,撤销选择左上角的Defaults,将左下角的Stepwisestopcriteria一栏修改为14(即在逐步回归停止之前,最多进行14步),将右侧的StaySignificantLevel0.025。 AssessmentAssessmentRegression节点,因此显示的结果中有两行,NameUntitledUntitled将DefReg。同时选中这两行,选择ToolsLiftChart。想要查看每一条线属于哪一个模型,选择FormatModelName。我们看到与右下角对应的两条曲线基本一致。我们知道,在创建默认设置的回归模型时,effectselectionmethodnone。也就是说,effectseffectsStepReg中呢?关LiftChart窗口,返回到AssessmentToolStepReg这一行,之后在主菜单中选择View再选择ModelResults。弹出窗口的Output显示了逐步logistic回归过程的每一13WaldChi-Squaretestcriterion删除了最后一个effect(变量VALUEVALUEMORTDUE的所有变量。关闭所有Tree节点与DatapartitionReplacementTree节点能够直接对缺失值进行处理而不需要对缺失值进行替换。我们也没有将Tree节点与Transformation节点相连,是因为Transformation节点对区间变量的单调变换(monotonicbins,相接下来要查看LiftChart。默认情况下,将要生成的LiftChart是建立在检验数据oolalidation如果你看不到ModelName中所有的模型名称,你可以将窗口最大化,或者通过使用图标和图标修改图表的位置和大小。additionaltermsinteractionseffectspolynomialeffects。第二,决策树模型能够对缺All自动弹出,这一事实上是Summary,TreeRing,TableAll下方的Assessmenttable和assessmentplot显示了所有子树对训练数据集和检验数据集的评价效果,这些评价揭示了一棵树究竟要多大才能够足够拟合,overfitting的问overfitting的问题在训练数据集中就不存在。默认地,对检验数据集拥有最高评价值和最少613个叶子的子树,它们的检验数据集misclassificationrate(0.1214)6片叶子的子树成为最佳的选择。All左上方的Summary图表总结了分类目表变量每一级的预测情况对于已经选定的分类;在检验数据集中,大约14%的拖欠者和74%的非违约客户被正确的分类。点击主菜单的Tools,再选则DefineColors。在Selectatargetvalue表中选择0。选择0作为目 这个默认设置下的数为二叉树,我们也可以通过修改节点最大分支数(Basicumnumberofbranchesfromanode)在修改的Replacement节点后添加并连接一个NeuralNetwork节点并与MLP默认地,弹出窗口的Tables显示了拟合模型的各种统计数据errorAssessmentDefNN。选中这四个模LiftChart进行比较。indicators能够使回归模型和神经网络模型区分那些本来就存在缺失值的观察值我们已经在之前的操作中在修改的Replacement节点内选择了添加这些indicators。现在我们来打开修改的回归模型(StepReg)来查看这些indicators。在Variables显indicators。Assessment(StepReg)LiftChartindicator对所产生的影响。(五)使用模型对新数据进行分ScoringCodeScore节点能够被用来评价保存以及从不同的模型中将scoringcode在本例中,score。打开Score节点,Settings中共有四个选项②Applytrainingdatascorecodetoscoredataset——③Accumulatedatasetsbytype——和输出先前节点产生的数据集。若果在含有Groupprocessing节点的路径中使用这一选项,则输出的数据集都是相连的。④Mergedatasetsbytype——合并先前节点产生的数据集。例如,我们可以使用这一选项将ScoreCode显示了每接到Score节点的模型节点的评分编码。因为这里的codescoringcode被修改,可以将其保存。右键单击左侧列出的回归模型,在弹出框中选择Save。在新弹出的框中将这codeMyregressioncodeOK保存。Export,输入保存名称和地址进行保存。ScoringusingBASESASbaseSASscoringcodebaseSASSASEM对SAS SAMPSIO内的DMAHMEQ数据集进行评分。这一数据集包含所有对模型的WindowEditorFileOpenProgramcode.sasSAS的程序编辑器中,如下所示:数据集_PREDICT_SCORE代表了将要被评分的数据⑷对SAS馆中SAMPSIO内的DMAHMEQ数据集进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论