




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS Institute ChinaPage 1 2013 年中国高校 SAS 数据分析大赛 决赛考题决赛考题 2013 年 11 月 9 日 赛仕软件 北京 有限公司赛仕软件 北京 有限公司 北京市东城区东长安街 1 号 东方广场东一办公楼 E1 18 层 邮编 100738 Tel 86 010 5913 2888 Fax 86 010 5913 2999 2013 年中国高校 SAS 数据分析大赛 The material contained in the present response and any material or information disclosed during discussions of the proposal represents proprietary confidential information pertaining to SAS Institute products and methods By accepting this response Client agrees that the information in the document will not be disclosed outside of the organization and will not be duplicated used or disclosed for any purpose other than to evaluate this proposal This proposal is subject to a mutually approved agreement or contract specifying full terms and conditions SAS is a registered trademark of SAS Institute Inc in the USA and other countries indicates USA registration Copyright 2005 SAS Institute Inc All rights reserved 版本信息 创建者赛仕软件 北京 有限公司赛仕软件 北京 有限公司 日期Nov 9th 2013 2013 年中国高校 SAS 数据分析大赛 目录目录 一 一 决赛提交材料决赛提交材料 1 二 二 决赛题目决赛题目 1 2013 年中国高校 SAS 数据分析大赛 一 一 决赛提交材料决赛提交材料 详细的建模报告 格式内容不限 详细的建模报告 格式内容不限 模型开发的全部程序模型开发的全部程序 二 二 决赛题目决赛题目 商业银行在审批消费信贷业务时广泛使用了信用评分模型 它能够根据申请人提供的 申请信息 如年龄 学历 婚姻状态 收入和工作年限等 给出评估其风险高低的分数 这个分数也叫做信用评分 其基本应用是 银行审批政策管理层首先根据风险控制的要求 估计并设定一个取舍点 cut off 如果申请人的分数高于取舍点 则可以获得审批 反之 则该申请人被拒绝 下面我们列举一个信用评分模型的简单例子来说明其作用 假如某银行的信用评分模 型只考虑三个特征因素 年龄 性别和收入 该银行对这些因素做了特殊的处理 比如把 连续变量划分为若干个离散的区间 把水平数太多的离散变量做合并 模型的最终结果 以评分卡的形式展现 评分模型对不同的因素特征赋予不同的分数 这个分数是以统计分 析为基础 在考虑如特征因素的预测强度 特征因素间的关系和可操作性等多方面因素之 后得到的 分数的总和就是表明消费者信用风险大小的度量 分数高的表明风险低 分数 低的表明风险高 表 1 评分卡样例 特征名字品质属性评分 年龄 126 岁以下 100 年龄 226 35 岁 120 年龄 335 37 岁 185 年龄 437 岁以上 225 性别 1女 180 性别 2男 90 收入 11000 元以下 120 SAS Institute ChinaPage 2 收入 21001 3000 元 140 收入 33001 5000 元 160 收入 45001 10000 元 200 收入 510001 元以上 240 银行的风险经理会事先估计出最合适的临界值 假设在这个例子中 这个恰当的临界 值为 480 分 假如该银行新来了两个申请人甲和乙 甲是 32 岁的女士 月收入为 2000 元 则她可获得的分数为 120 180 140 440 分 低于临界值 480 分 因此银行就拒绝了她的申 请 乙是 40 岁的男士 月收入为 15000 元 则他得到的评分为 225 90 240 555 分 远远 的高于临界值 480 分 因此银行就批准了他的申请 这种评分卡格式的模型非常容易解释 即使并不精通统计和数据挖掘的人也能接受 这使得银行可以用一种简单的商业术语对客户 审计员和监管机构人员等来解释拒绝 低 分 高分的原因 而不是给出一个 黑盒子 这就使得评分卡成为了备受推崇的信用风 险模型风险的主要格式 信用评分模型的本质就是计算每一位申请人在未来成为坏客户的条件概率 这个条件概率也称为违约概率 Probability of Default 简称 PD 其 1 tt xyP 中表示成为坏客户 就是在评分模型中作为解释变量的若干个特征因素 1 t y t x dttt xxx 21 信用评分模型的一般建模中 对于变量的分组处理非常关键 也就是如何对连续变量 做离散化处理 对于取值水平太多的变量做归并处理 通常 对于每一个变量 分成不多 于五段 对变量分组主要依赖于 WOE 这个统计量 WOE 的计算方法如下 表 2 WOE 计算样例表 SAS Institute ChinaPage 3 其中 WOE 的计算公式为 例如 23 26 属性的 WOE 为 信息量 Information Value 以下简称 IV 是对于每个变量的预测能力的一个度量 计 算公式如下 其中 n 是变量的取值被分成若干个区间的段数 变量分组处理中最关键的就是对临界值的选择 比如为什么把 18 22 岁分为一组 23 26 分为一组呢 在信用评分领域 通常会把变量先进行细分组 比如分成 50 组或者 20 组 如果是属性分类变量 就取原始的分类水平值 计算出每个分组的 WOE 值 然后把 WOE 相近的组进行合并 合并时保证 IV 值损失的最小损失的最小 直到不再能合并 通常 最后的分组不多于五个 评分卡模型主要采用 Logistic 回归 在创建评分卡模型时可以直接把每个变量在每一 个分组上的 WOE 值作为新的建模变量参与建模 比如一个年龄在 20 岁的客户 他的 WOE 值为 108 98 创建 logsitic 回归不再用 20 这个年龄变量的取值而是用 108 98 这个年 龄变量的 WOE 值作为解释变量 因此 每个变量在不同取值上的评分为 SAS Institute ChinaPage 4 其中 表示模型中第 i 个解释变量的权重 表示该解释变量第 j 个分组的 WOE 值 表示模型中的截距项 表示模型中解释变量的个数 Factor 20 ln 2 28 8539 Offset 600 28 8539 ln 50 487 123 请参考上述原理 利用数据集 final 开发一张房贷业务的信用评分卡 如表 所示 信用评分卡 如表 所示 其 中 GB MO 为因变量 1 表示坏客户 0 表示好客户 其余变量为可选的解释变量 采 用哪几个变量作为解释变量可以自行选择变量选择方法 对于开发出的信用评分卡将根据 K S 统计量和 ROC 统计量作为评优的准则 K S 统统 计量和计量和 AUC 统计量可以自己编程写 也可以利用统计量可以自己编程写 也可以利用 SAS 过程步 过程步 附附 录录 1 K S 统计量 K S 统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力 是表现模型区分 能力的验证指标 首先利用模型会预测全体样本的信用评分或者 PD 值 然后将全体样本按正常 客户和违约客户分为两组样本 然后用 K S 统计量来检验这两组样本信用评分或者 PD 值的分布 是否有显著差异 有效的模型能够区别出违约客户和正常客户之间的差异 违约客户的评分或者 PD 分布应当不同于正常客户的评分或 PD 分布 当正常客户和违约客户两个子样本的累积百分比 的差异非常小 且差异为随机时 则可以认为两样本的评分或 PD 分布是一致的 反之当两个子 样本的累积百分比的差异非常大时 则可以认为两样本的评分或 PD 分布不一致 通常 如果模 型的 K S 统计量越大 表明模型区分正常客户和违约客户的能力越强 SAS Institute ChinaPage 5 K S 统计量除了用上图所示的图形表示以外 也可以有统计表的形式表现 这也是近似计算 K S 统计量的一个常用方法 PD 等级等级 of Defaults of Goods of Cumulative Defaults of Cumulative GoodsGapKS 在 K S 统计量的近似计算中 PD 等级这一列可以是 PD 的区间范围 也可以是客户的评级 PD 区间的划分主要依据建模样本中的情况 of defaults 这一列表示验证样本中违约客户的百分比 of goods 这一列表示验证样本中正常客户的百分比 of Cumulative defaults 这一列表示验证样 本中违约客户的累积百分比 of Cumulative goods 这一列表示验证样本中正常客户的累积百分 比 Gap 这一列表示验证样本中正常客户的累积百分比和违约客户的累积百分比之差 而 K S 就是最大的 Gap 值 2 AUC 统计量 ROC 曲线及 AUC 统计量主要用来检验模型对客户进行正确排序的能力 ROC 曲线描述了在一 定累计好客户比例下的累计坏客户的比例 模型的分别能力越强 ROC 曲线越往左上角靠近 AUC 统计量表示 ROC 曲线下方的面积 AUC 统计量越高 模型的风险区分能力越强 SAS Institute ChinaPage 6 最佳模型 预测模型 随机模型 命 中 率 误警率 最佳模型 预测模型 随机模型 命 中 率 误警率 ROC 曲线的图形表示如上图 具体绘制步骤如下 1 制作模型预测的结果交叉分类表 预测 实际 违约正常 违约Y1 DD TDY2 DN TD 正常X1 ND TNX2 NN TN 给定一个截断点 那么 预测违约概率大于截断点 视为违约户 预测违约概率小于截断点 视为正常户 ROC 曲线为不同截断点下 Y1 与 X1 之间的关系 Y1 命中率 DD TD 含义为在给定临界值 下正确划分为违约客户所占的比例 X1 误警率 ND TN 含义为在给定临界值下 错误的把 非违约客户归类为违约客户的比例 如 则 命中率等于 218 335 65 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气缸活塞模型课件
- 少儿口才资料课件
- 打地鼠幼儿课件
- 汽车技术面试试题及答案
- 广播电台技术岗位试题及答案
- 辅警法制培训课件
- 湖北省孝感市2025-2026学年高二上学期9月月考考试历史试卷
- 中国银行2025酒泉市秋招笔试英语题专练及答案
- 建设银行2025九江市秋招结构化面试经典题及参考答案
- 工商银行2025嘉峪关市秋招半结构化面试题库及参考答案
- 蒙台梭利教学法(学前教育专业)全套教学课件
- 无犯罪证明委托书模板
- 朗文3000词汇表大全
- YYT 1898-2024 血管内导管导丝 亲水性涂层牢固度试验方法
- 铅锌矿开采中的环境影响评估与风险防范
- 旅游咨询服务培训课件
- 铁路交通事故调查处理-铁路交通事故救援
- 妇科宫腔镜诊治规范课件
- 除尘布袋更换应急救援预案
- 肩关节病护理查房
- 美甲艺术全套教学课件
评论
0/150
提交评论