




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据风控建模标准流程精品文档,仅供参考大数据风控建模标准流程 一、风控建模标准过程 (一)数据采集汇总 1、以客户为维度组织搜集信息(人口属性、交易信息、交易渠道、风险评估、产品偏好、经营信息) 2、评估数据真实性和质量,数据质量好的变量进入后续步骤 (二)模型设计 1、时间窗和好坏客户定义 时间窗:根据获取数据的覆盖周期,将数据分为用来建模的观察期数据,和后面用来验证表现的表现期数据; 好坏客户定义:分析客户滚动和迁移率,来定义什么程度逾期的为“坏客户”,例如定义m3为坏客户就是定义逾期3个月的才是坏客户; 2、样本集切分和不平衡样本处理 样本集切分:切分为训练集和测试集,一般7/3或8/
2、2比例; 不平衡样本:最理想样本为好坏各50%,实际拿到的样本一般坏客户占比过低,采取过采样或欠采样方法来调节坏样本浓度。 3、模型选择 评分卡模型以逻辑回归为主。 (三)数据预处理及变量特征分析 1、变量异常值、缺失值处理:使用均值、众数等来平滑异常值,来填补缺失,缺失率过高的变量直接丢弃; 2、变量描述性统计:看各个变量的集中或离散程度,看变量的分布是否对样本好坏有线性单调的相关性趋势; (四)变量筛选 1、变量分箱:变量取值归入有限个分组中,一般5个左右的分箱数量,来参加后面的算法模型计算。分箱的原则是使得各箱内部尽量内聚,即合并为一箱的各组坏样本率接近; 使得相邻分箱的坏样本率呈现单调
3、趋势。从方法上一版采取先机器分箱,后人工微调。 2、定量计算变量对于识别坏样本的贡献度(woe和iv) (1)woe是统计一个变量的各分箱区间之间的好占总好比值坏占总坏之比,不同分箱之间差异明显且比例成单调趋势,说明分箱的区分度好; (2)iv是在woe基础上进一步加权计算这个变量整体上对于区分好坏样本的识别度,也就是变量影响因子。数越大说明用这个变量进行区分的效果越好,但iv值过大容易引起模型过拟合,即模型过于依赖单一变量,造成使用过程中平衡性健壮性不好; 3、计算变量之间的相关性或多重共线性,相关性高于0.5甚至0.7的两个变量里,就要舍弃一个,留下iv值较高的那个。例如“近一个月查询次数
4、”、“近三个月查询次数”、“近六个月查询次数”这三个变量显然明显互相相关度高,只保留其中一个变量进入模型即可。 (五)变量入模计算 1、以最终选定的若干变量,进入回归模型算法,机器自动计算 其中每一个x就是一种变量,这个计算就是为了算出每种变量的最终权重,也就是算出所有的b。 2、客户违约概率映射为客户分数。以上公式一旦计算确定,则给出一个确定的客户,就可以算出其违约概率,下面公式是把概率进一步再映射计算成一个客户总评分。 3、计算确定每种变量每个分箱所应该给的得分 某一变量在一个分箱的得分该组woe (六)模型验证与评价 1、模型区分好坏客户能力评价 (1)roc值及绘图 用来评价模型的灵敏
5、度,横坐标是好人被错杀的概率,纵坐标是坏人被正确挑出的概率,所以曲线越向左上角偏越好,曲线下方面积就是auc值,一般达到0.75以上说明灵敏度好。 (2)k-s值及绘图 评价模型区分好坏客户的能力,并得到最大化通过好客户、拒绝坏客户的极值点。横坐标是评分,纵坐标是累计百分比,红线是坏人被正确识别的累计概率,蓝线是好人被错杀的累计概率,灰线是红蓝数值之差,则灰线最高点为ks极值点,通常ks大于0.4为良好的模型。 2、模型稳定性评价 因为模型是使用过去的一批客户训练出来的,稳定性测试是为了证明训练出来的模型不依赖于训练样本的某些特异属性,而是能抓住业务面对客户的共同特点规律,在未来实际业务使用中能够健壮稳定地识别新客户的好坏。主要是模型在训练集和测试集中识别率表现应该基本一致,对全样本的不同时段切片应该表现基本一致,对样本内数据和样本外数据应该表现基本一致。 3、模型压力测试 压力测试是评估模型承受“罕见但是仍然可能”的宏观经济冲击或重大金融事件过程,进行压力测试一般用量化模型,用以衡量在经济环境变化导致样本大幅偏移
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海科创职业技术学院《园艺植物病虫害防治》2023-2024学年第一学期期末试卷
- 安微省2024年数学七上期末教学质量检测试题含解析
- 2024年福建省福州市鼓楼区福州第一中学数学七上期末达标检测模拟试题含解析
- 2024年重庆市铜梁区教育事业单位应届毕业公费师范生招聘考试真题
- 2024年大庆市杜尔伯特县经济开发区服务中心招聘消防人员考试真题
- 教育技术创新在特殊学校的应用案例
- 打造教育技术创新生态促进教育现代化
- 城市规划培训
- 郑州电力高等专科学校《指挥法基础》2023-2024学年第一学期期末试卷
- 浙江师范大学行知学院《花鸟画临摹》2023-2024学年第一学期期末试卷
- 单元体吊装方案优质资料
- 安霸A12-凌度A12行车记录仪使用说明书
- 个人竞聘报告ppt范文
- MT/T 198-1996煤矿用液压凿岩机通用技术条件
- LY/T 1787-2016非结构用集成材
- GB/T 39560.702-2021电子电气产品中某些物质的测定第7-2部分:六价铬比色法测定聚合物和电子件中的六价铬Cr(Ⅵ)
- GB/T 3880.3-2012一般工业用铝及铝合金板、带材第3部分:尺寸偏差
- GB/T 28267.1-2012钢丝绳芯输送带第1部分:普通用途输送带的设计、尺寸和机械要求
- GB/T 12729.1-2008香辛料和调味品名称
- GB/T 12334-2001金属和其他非有机覆盖层关于厚度测量的定义和一般规则
- GB 4404.3-2010粮食作物种子第3部分:荞麦
评论
0/150
提交评论