




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程 郑宇庭 谢邦昌 程兆庆 台湾政治大学资料采矿中心 *1 报告大纲 n研究目的 n分析工具 n建模流程 n结论与建议 nQ&A Date2 研究目的 n有效地筛选出偿债能力不佳的个人信用卡客 户,依此开发出一套信用风险系统,以帮助 银行做出正确的核卡决策。 n这个系统的开发、维护、与更新的成本预期 将比银行现有系统的成本低。 Date3 分析工具 nMicrosoft SQL Sever 2005 价格 自动化以及开发延伸程度 目前SPSS跟微软之间是采取合作的态度 Date4 建模流程:CRISP-DM DATA MININGDATA MINING 执行阶段执行阶段 商业理解商业理解资料理解资料理解 资料准备资料准备 建模建模 评估评估 发布发布 资料源资料源 DATA DATA MININGMINING 处理流程处理流程 2019/1/155图表来源:杨自强 企业如何应用商业智慧来提升 执行力与竞争力 微软商业智慧解决方案 SSIS 分析服务 报表服务 分析服务 (Data Mining) 资料来源检视 表(Data Source View) 整合性 服务 (SSIS) 商业理解资料理解 资料准备 建模 评估 发布 资料源 资料源 2019/1/156图表来源:杨自强 企业如何应用商业智慧来提升 执行力与竞争力 资料采矿无处不在 商业问题业问题 Microsoft 算法 预测类别变 量,例如营销响应、顾客流失、违约预测 (巴塞尔资本协定IRB) 决策树 贝氏机率分类 群集 类神经网络 罗吉斯回归 预测连续变 量,例如预测销 售量、预测客户价值变 动、预测金融商品价格波动. 回归树 时间序列 类神经网络 预测序列,例如找出网站使用者的点选路径模式、客 户缴款行为模式、商品购物顺序 时序群集 找出产品交叉销售关联性,又称为购物篮分析关联规则 决策树 找出潜在相似性,例如市场区隔、侦测晶圆瑕疵分配 、文件分类、保险浮滥理赔侦测 、伪卡侦测 群集 时序群集 Date7 商业理解(Business Understanding) n厘清商业问题 目前呆帐率是多少? 信用卡审核流程? n信用卡评分模型=分类模型 Date8 资料理解(Data Understanding) n资料来源 某银行2000.1.12002.6.30的信用卡资料 n数据内容 申请数据文件 缴款纪录文件 总共有1220个变数,502,333笔原始资料 n违约户定义 缴款期间曾经有逾期60天以上未缴之卡户 Date9 建模流程图 选择2001.42001.6 原始资料 清除遗漏值、异常值 数据转换 误差抽样 训练组测试组 建模 评估 评估 Date10 资料准备(Data Preparation) n选择合理的建模变量 基本数据 n性别、教育程度、职业别 联合征信中心(JCIC)的资料 n被查询总家数、延迟月数比率 与银行往来的资料 n申请卡别类型、有没有使用扣款服务 Date11 资料准备(Data Preparation) n选择合理的建模时间 时间间隔取为12个月至18个月 n清除遗漏值、异常值 n数据转换 连续型转成离散型:被查询总家数 合并变项太多之变量:职业别 n衍生新的变数 Date12 类型变量名称数据类型 个人资料教育别类别型(2类) 性别旗标型 行业别类别型(3类) 职称别类别型(3类) 工作年资类别型(5类) 紧急联络人与正卡关系类别型(4类) 与银行往来纪录是否申请结余代偿旗标型 扣款账号旗标型 金融联合征信中心延迟月数比率连续型 循还月数比率连续型 近一年M2次数整数型 近期是否逾期旗标型 负债所得比连续型 有效卡张数类别型(3类) 被查询总家数类别型(4类) Date13 建模(Modeling) n误差抽样(Over-Sampling) 将稀有事件透过抽样的方式将其比重提高 n多的少抽(Reduce):正常户抽取率0.1 违约户抽取率1 n将资料分成训练组与测试组 避免过度学习(Over-fitting) n建模方法选择 罗吉斯回归、决策树、类神经网络 Date14 Data Mining Model Evaluation *15 Data Mining Model Evaluation n分类矩阵 横轴为预测结果,纵轴为实际结果 n增益图 横轴为名单百分比,纵轴为累积占全体之百分比 n收益图 根据成本以及销售成功利润,并计算出累积利润 图 n散布图 针对连续变量,可以利用此功能了解实际值与预 测值间之差异性以及预测之趋势变动情形 Date16 选择“vTargetMail(dbo)” 勾选需要比较之模型 Data Mining Model Evaluation 说明: 在进行模型效益评估前必 须先选入数据表,并在模 型中勾选要进行评估比较 之模型 Date17 Data Mining Model Evaluation 分类矩阵 藉由分类矩阵进一步比较,判别两模型的预测能力,由 决策树模型发现,预测正确的资料有 7103+5857=12960;而群集分析模型的正确预测数 据为5395+5308=10703,也可看出决策树分类结果 较群集分析分类结果好 Date18 Data Mining Model Evaluation 增益图 增益图: 主要展现在整体的百分 上所累积的效益状况 Date19 Data Mining Model Evaluation 收益图 收益图: 可根据所设定之固定成本、单位成 本以及单位营收加以计算,找出最 佳获利点 Date20 Data Mining Model Evaluation 散布图 散布图: 了解各模型之预测值、 预测趋势以及实际值 Date21 评估(Evaluation) n增益图(lift chart) Date22 评估(Evaluation) n分类矩阵(classification matrix) n衡量指标 Precise = a/a+b Recall = a/a+c Accuracy = a+d/a+b+c+d 实际 预测 违约户 正常户 违约户ab 正常户cd Date23 发布(Deployment) n产生预测的违约机率值 单一查询 整批查询 Date24 结论与建议 n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版天然气运输碳排放交易服务合同
- 2025二手房屋买卖居间合同含物业接管及维修责任条款
- 2025年度车辆购置担保协议合同
- 2025年城市综合体项目房屋拆迁及补偿安置合同样本
- 2025电子支付安全风险评估与合规性审核合同
- 2025年生猪养殖与肉制品深加工企业合作采购合同
- 2025年度物流企业临时仓储管理人员合同
- 2025年二手房交易房屋租赁合同终止补充协议范本
- 2025年新能源车辆运输合同模板
- 2025版水电设施维修保养及应急预案合同范本
- 2023柔性棚洞防护结构技术规程
- 浙江工业大学学生综合测评分细则
- 河流地貌的发育 - 侵蚀地貌
- 离网光伏发电系统详解
- 英语初高中衔接音标
- 广告文案写作(第二版)全套教学课件
- 《国家电网公司电力安全工作规程(配电部分)》
- 金融学黄达ppt课件9.金融市场
- GB/T 3758-2008卡套式管接头用锥密封焊接接管
- GA/T 1105-2013信息安全技术终端接入控制产品安全技术要求
- 一中第一学期高一年级组工作计划
评论
0/150
提交评论