版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、风控业务背景互联网金融相对于传统金融出现更多机遇和挑战。如何将机器学习、 深度学习等前沿人工智能技术赋能于金融风控领域,打造金融科技(FINTECH),已经成为大家关注的焦点。高性能、高可靠、易维 护的风控模型是支持风控策略迭代的基础。本文主要探讨一种适用 于大数据风控的建模框架,并尝试分析功能模块设计、优势与不足、 解决方案。目录Part 1.大数据风控的特点和挑战Part 2.传统评分卡的优势和不足Part 3.机器学习的优势和不足Part 4.大数据信贷风控模型架构Part 5.总结1Part 1.大数据风控的特点和挑战互联网金融相对于传统金融在业 务模式上具有诸多不同点:传统金融的订单
2、数少、订单金额高、贷 款期限长、客群资质好、风控预算高。互联网金融订单数多、订单金额低、贷款期限短、客群资质差、风 控预算低。互联网金融相对于传统金融在风控上具有更多挑战,这 包括:长尾劣质客群更加不稳定,这容易导致样本波动,加大风控建模难 度。.互金市场波动剧烈,需加快模型迭代更新周期。例如,2018年6、7月份的“P2P暴雷潮。.数据源采集上种类更多,弱相关数据更多,处理难度更大。这就需要人工智能技术。.政策合规要求,数据采集和使用更加规范化。例如,近期国家对数据非法爬取的集中整治。随着监管趋严和行业愈加规范化,大数据风控,尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞争力。数据
3、是风控的基础,只有对借款人全方位的理解,我们才能做好风控。一般可将风控数据分为四部分:.资质类数据:包括真实的身份信息、学历(大专、本科、研究生等)、 收入、职业(白领、蓝领等)、人脉信息等。.信贷类数据:包括央行征信报告、内部信贷历史(申请、还款、催 收)、第三方征信数据、第三方多头借贷数据等。.消费类数据:包括电商消费记录、信用卡账单、借记卡流水等。.行为类数据:包括埋点行为(前端、后端)、设备App、活动轨迹、 内容偏好(浏览商品、新闻)等。自上而下,这些数据与逾期信用风险的相关性逐渐降低。通常,我 们也称为强金融属性和弱金融属性数据。2Part 2.传统评分卡的优势和不足传统评分卡一直
4、在银行信贷业务中成功实践了几十年,禁得起时间的检验。因此,我们必然要取其 精华。传统评分卡的优势在于:.泛化性强:简单模型泛化性能相对复杂模型更强。.稳定性好:通过WOE分箱技术提高了变量的鲁棒性。.可解释性强:线性模型,变量系数可以判断对最终结果的影响。.小样本学习:信贷样本相对更少,利用较少样本就可以训练模型。 其劣势在于:.特征要求强相关,这就强依赖建模人员的业务经验。线性特征对于挖掘的信息价值相对有限。.通常需要分群建模,这将带来很多额外工作量。(可参考:利用 样本分群提升风控模型性能)3Part 3.机器学习的优势和不足随着大数据的出现,机器学习慢慢焕发出其生命力。其优势在于:.引入
5、了非线性因素,模型拟合能力更强,能从海量的、贫瘠的数据中挖掘出数据价值。.通过集成学习可将弱模型打造出强模型,如随机森林、GBDT、XGBoost、LightGBM 等。.支持更多弱特征入模,而不必像评分卡模型需要花大量时间筛选特征。其劣势在于:.由于引入了大量的非线性因素,模型可解释性降低。样本量较少的情况下容易产生过拟合现象。 复杂模型参数过多,调参依赖于人工经验。Part 4.大数据信贷风控模型架构我们认识到了传统评分卡和现代 机器学习各自的优势和不足,自然会萌生一种朴素的想法:能不能 将两者取长补短,有机结合起来? 目前业内主要有三个探索方向:方向一:利用数据挖掘算法构建特征,再使用评
6、分卡模型。方向二:保持传统风控特征筛选的严格标准,但使用机器学习模型。 方向三:大规模样本结合机器学习,保证模型的稳定和泛化。本文借鉴了以上思路,提出一种大数据信贷风控模型架构,如图1 所示。自底向上可分为六个层次:1.原始据域:主要包括运营商、通讯录、电商、公积金、设备、短信、自填信息、夕卜部数据等数据域(domain)。数据挖掘层:结合各类数据源的特点,利用相应的数据挖掘算 法提取信息。例如,利用NLP处理文本类数据;利用图算法处理社 交类数据。结构化特征:最终可用的特征往往是结构化的。同时,需做好 特征数据集市管理,线上线下一致性比对等工作。模型算法库:在掌握模型机理的前提下,选择多种合
7、适的机器学习算法来建模。机器学习子模型分数据域选择合适的算法,建立多个子模型。评分卡主模型:将子模型分数作为新的特征,输入评分卡模型。评分卡 |主展型NLP图鼻法RF颁合深度学奇H他算法文本特征关系特征特征外部特征情捕噌雅单|汗三方扯( 设尚XGB&nstGBDT外部 子模型文本 子模型RFM 子模型其他 子模型美系 子模型原蜡 散据域杭器学习 子模型模型 算法库数据挖掘 算法雄构化 特征评分卡主程型文本SS掘杜空散据消耕数棍其他外部粉据胜址运m图1 -大数据风控模型架构该框架在大数据风控上具有核心优势,可归纳为以下几个亮点:1.可解释 性:在数据域粒度上具有一定的可解释性。传统评分卡具有良好
8、的 可解释性,变量权重系数代表了自变量对因变量的贡献强弱。分数 据源建立子模型的框架,虽然牺牲了单变量粒度的可解释性,但保 留了数据域粒度上的解释性。根据如下所示的评分卡Reason Code,我们可以迅速定位到用户在哪个数据域上得分过低、过高、缺失, 进一步回溯至数据域上定位到具体变量。也就是顺藤摸瓜,定位原 因。Characteristic name=device_submodel_score baselineScore= 10 2.集成学习:利用机器学习提取弱信息,降低人工构造特征门槛。传统评分卡是线性模型,虽然可以通过WOE变换能解决部分的非 线性问题,但人工构造强业务特征的门槛仍然很
9、高。该模型架构属 于集成学习,底层机器学习子模型能帮助自动合成深度特征(子模 型分数)。因此,在业务经验相对不足的情况下,我们可批量构造RFM特征(可参考风控特征一时间滑窗统计特征体系)。当然 这并不是教你偷懒,基于对业务和数据的理解去构造特征仍然是最重要的。3.缺失处理:利用WOE变换解决据缺失问题。在学习WOE变换时,我们提到过一个重要的知识点:WOE变换可以处理缺失值。(可参考WOE与IV指标的深入理解应用)由于不同 数据域的样本覆盖率存在差异,当我们完成分数据域建模,在关联 至全量放贷样本上生成特征宽表时,就会出现部分样本的子模型分 缺失问题。此时,可通过对子模型分数进行WOE变换。如
10、图2所 示,该数据域子模型分数的覆盖率约为50%,但通过WOE变换, 一是保证了鲁棒性,二是解决了缺失问题。图2 -机器学习子模型分数WOE变换4.多样性:保证多个数据 域特征入模,丰富变量的维度。如果我们将所有数据域的特征直接 输入机器学习模型,再根据特征重要性粗筛,将会发现一个常见的 问题:某些金融属性相对较强的数据域变量将牢牢占据Top N的位 置,导致某些数据域变量根本无法入模。而分数据域建模,可保证 各数据域中相对较强的变量都能强制入模,从而弓1入了维度的多样 性。多维度的数据帮助我们从不同角度衡量借贷人的风险。5.模块 化:子模型支持“搭积杞式灵活组装,提高复用性。实际项目中, 我
11、们很可能会遇到这样的难题:最近国家对爬虫数据、第三方征信 数据集中整治,导致很多依赖外部数据的平台纷纷忙着调整策略。考虑到某块数据源未来可能无法采集的风险,我们一般都会采取模 型降级方案。按传统建模方法,我们通常需输入所有的变量重新训 练模型。这是一个非常繁琐的工作,因为需要再次开展特征筛选、 一致性比对、上线部署等工作。模块化意味着具有良好的可扩展性。 此时,我们就只需剔除相应的子模型,利用剩下的子模型重新组装 评分卡即可。这能很好适应风云变幻的互联网金融市场。图3 -模块化自由组装6.并行化:在大型风控建模项目中易于分工协作。在大型风控建模项目中,往往需要团队多人协作。由于各数据域之间相互
12、独立,可以分发给多个建模同学并行化作业,更加 专注于某块数据域的数据清洗、特征工程、子模型构建等,从而保 证项目进度,实现快速迭代。专注的人才能做好专业的事。这种方 式更能保证对弱数据的挖掘更加深入,也更能提升效率。图4 -分数据域协作建模当然,该模型架构同样存在一些不足之处, 但我们可以有针对性地去改善。1.牺牲了部分的可解障性。底层机 器学习子模型仍然是黑盒模型,或者一些特征变量(如embedding 特征)并不具备可解释性。如果风控策略和模型用到相同的变量, 策略调整变量阈值后,对结果的影响难以预估。解决方案:.控制入模变量一般不超过40个,便于在模型不稳定时快速定位到变量。研究SHAP
13、、LIME等机器学习可解释性工具的落地实践。2.增加了上线和维护成本。由于将整个流程拆分成串联的几部分,需要上线多个模型。为了保证能及时定位问题,需对变量层、子模 型层、主模型层都加以监控。解决方案:制定模型监控报告标准化 模板,同时从技术上开发相应平台,提高模型监控部署效率。可参考风控模型监控报告系统设计。3.协同建模增加对接成本。由 于不同建模同学的经验存在差异,如果建模过程不统一,那么在最 终对接时会产生很多问题,甚至引起重复返工。解决方案:需要制 定标准化的建模流程,统一建模脚本,包括特征筛选、缺失值处理、 过程文档记录等。可参考风控建模流程标准化。4.分数据域产 生数据孤岛。如果只是分数据源建模,那么就会造成数据孤岛。也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郴州2025年湖南郴州市安仁县事业单位招聘79人笔试历年参考题库附带答案详解
- 衢州浙江衢州江山市双塔街道社区卫生服务中心招聘编外护士笔试历年参考题库附带答案详解
- 牡丹江2025年黑龙江牡丹江市中医医院招聘14人笔试历年参考题库附带答案详解
- 文山2025年云南文山丘北县第五批城镇公益性岗位招聘14人笔试历年参考题库附带答案详解
- 山东2025年山东省地质矿产勘查开发局所属事业单位招聘64人笔试历年参考题库附带答案详解
- 职业人群智能健康干预的知情同意简化策略-1-1
- 周口2025年河南周口市商水县城区学校选调教师233人笔试历年参考题库附带答案详解
- 云浮2025年广东云浮新兴县委党校招聘紧缺人才笔试历年参考题库附带答案详解
- 院感及职业暴露培训课件
- 耳鼻喉科治疗知情同意沟通策略
- 品牌管理指南的建模指南
- 气动安全知识培训课件
- 采购违规管理办法
- DB32/T 3392-2018灌溉水系数应用技术规范
- 股东清算解散协议书
- 产后腰背疼康复治疗
- 2025年商业物业抵押贷款合同范本
- 2024用电信息采集系统技术规范第1部分:专变采集终端
- 浙江省杭州市2024年中考语文试卷(含答案)
- 期末达标测试卷(试题)-2024-2025学年人教PEP版英语四年级上册
- DLT 1563-2016 中压配电网可靠性评估导则
评论
0/150
提交评论