量化派基于Hadoop、Spark、Storm的大数据风控架构_第1页
量化派基于Hadoop、Spark、Storm的大数据风控架构_第2页
量化派基于Hadoop、Spark、Storm的大数据风控架构_第3页
量化派基于Hadoop、Spark、Storm的大数据风控架构_第4页
量化派基于Hadoop、Spark、Storm的大数据风控架构_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

量化派是一家金融大数据公司 为金融机构提供数据服务和技术支持 也通过旗下产品 信 用钱包 帮助个人用户展示经济财务等状况 撮合金融机构为用户提供最优质的贷款服务 金融的本质是风险和流动性 但是目前中国对于个人方面的征信行业发展落后于欧美国家 个人消费金融的需求没有得到很好的满足 按照央行最新数据 目前央行征信中心的数据 覆盖人口达到 8 亿人 1 但其中有实际征信记录的只有 3 亿人左右 有 5 亿人在征信系统 中只是一个身份证号码 此外 我国还有 5 亿人跟银行从来没有信贷交易关系 这 5 亿人 对金融部门来说是陌生人 这样算下来 有征信记录的人只占到全国人口数的 23 7 远 低于美国征信体系对人口的 85 的覆盖率 如何在信用记录缺失的情况下 做好多个人用 户的风险定价 是个棘手的难题 量化派通过基于机器学习和互联网化的风险定价 整合 互联网及传统数据源 对个人在消费金融应用场景里的信用风险进行评估 这篇文章就主 要介绍一下量化派的大数据平台 以及机器学习在量化派的应用 一 互联网化的风控创新一 互联网化的风控创新 量化派及 信用钱包 的核心任务是让用户可以凭借其良好的信用 而无需抵押或者担保就 可以贷款 也就是说 用户仅凭信用即可开启财富之门 为了达到这个目的 信用钱包需 要把用户个性化的需求与信贷产品信息精准匹配到一起 在帮助用户找到合适自己的信贷 产品的同时 也帮助信贷产品公司找到了最合适的贷款用户 从而实现信贷消费者和信贷 产品提供者的双赢 为了确保贷款的高成功率 为了更好的掌握用户需求以及对个人进行 信用评级 我们需要大数据平台的支持 目前 可以接入央行征信中心的金融机构仅仅只有银行 持牌照的第三方征信服务商以及 部分地区的小贷公司 绝大多数的 P2P 平台还无法接入央行的征信数据 这无疑加大了 P2P 平台的风控难度 在征信思路上 传统征信是用昨天的信用记录来判断今天的信用价 值 这未见得就是最合理的 在征信技术上 传统的方法是从线下采集信用数据 效率比 较低 可以说 传统的线下征信技术限制了数据来源和信用评估思路 而互联网的技术 工具和思维则具备了改变这一切的可能性 回归到征信的本质 其实就在于解决两方面问 题 信用能力和信用意愿 换而言之 即解决个人的还款能力和还款意愿 再追根溯源一 点 即解决坏账和逾期两个问题 2 量化派公司基于大数据的用户征信和传统征信殊途同 归 所不同的是 传统征信中 数据依赖于银行信贷数据 而大数据征信的数据并不仅仅 包括传统的信贷数据 同时也包括了与消费者还款能力 还款意愿相关的一些描述性风险 特征 这些相关性描述风险特征的抽取与筛选是量化派的技术核心 相比于传统征信数据 的强相关性 这些大数据征信的数据与消费者的信用状况相关性较弱 量化派就利用大数 据技术 通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力 这样就使大数据征信不依赖于传统信贷数据 就可以对传统征信无法服务的人群进行征信 实现对整个消费者人群的覆盖 3 我们的数据来源如下图所示 图一图一 量化派的数据来源量化派的数据来源 二 量化派的大数据平台架构二 量化派的大数据平台架构 量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结 构化数据 还有第三方的接入数据 系统运行产生的日志数据等等 数据的形式多种多样 如何保护好 利用好这些数据 是公司重中之重的任务 量化派的业务也决定了公司是数 据驱动型的 为了更好的满足公司日益增长变化的业务 在大数据平台建设中全面拥抱开 源的基础上 进行了不停迭代设计 对数据平台中采用的开源软件进行了深度应用开发 同时还开发了很多契合业务需求的工具软件 很好的支撑我们去实现普惠金融的理想 量 化派公司的数据平台架构如图二所示 图二图二 量化派的数据平台架构量化派的数据平台架构 相比我国的网民数量 信贷用户只占其中的一小部分 所以我司产品的用户基数并不是非 常大 但是 为了给信贷用户更准确的信用评级 对于每个信贷用户我们都会从多个渠道 获取大量的有效数据 这些数据聚合起来也是海量数据规模 公司发展伊始 几乎将所有 的数据都存放在 Mysql 关系数据库中 工程师使用标准 SQL 语句来存储或者调用数据资 源 Mysql 很快就遇到了性能瓶颈 虽然可以通过不停地优化整个 Mysql 集群以应对数据 的快速增长 但是面对复杂的数据业务需求 Mysql 显然无法提供最优的解决方案 所以 我司最终决定将数据迁移到大数据平台上 Mysql 仅用来存储需要经常变化的状态类数据 除了系统运行日志直接存放在 HDFS 之中 大量的数据利用 HBase 来进行管理 HBase 中的数据按照不同的数据源存放在不同的表中 每张表按照业务和存储需求对 rowkey 进 行精心设计 确保海量数据中查询所需数据毫秒级返回 根据业务的不同特点 对于常规的数据 ETL 处理 我们使用 MapReduce 4 框架来完成 BI 和数据挖掘这些工作都放到了 Spark 5 上 这样一来 依赖不同任务或不同计算框架间 的数据共享情况在所难免 例如 Spark 的分属不同 Stage 的两个任务 或 Spark 与 MapReduce 框架的数据交互 在这种情况下 一般就需要通过磁盘来完成数据交换 而 这通常是效率很低的 为了解决这个问题 我们引入了 Tachyon 6 中间层 数据交换实际 上在内存中进行了 而且 使用了 Tachyon 之后还解决了 Spark 任务进程崩溃后就要丢失 进程中的所有数据的问题 因为此时数据都在 Tachyon 里面了 从而进一步提升了 Spark 的性能 Tachyon 自身也具有较强的容错性 Tachyon 集群的 master 通过 ZooKeeper 7 来管理 down 机时会自动选举出新的 leader 并且 worker 会自动连接到新的 leader 上 多维度的征信大数据可以使得量化派可以融合多源信息 采用了先进机器学习的预测模型 和集成学习的策略 进行大数据挖掘 不完全依赖于传统的征信体系 即可对个人消费者 从不同的角度进行描述和进一步深入地量化信用评估 公司开发了多个基于机器学习的分 析模型 对每位信贷申请人的数千条数据信息进行分析 并得出数万个可对其行为做出测 量的指标 这些都在数秒之内完成 三 不同场景的机器学习方法三 不同场景的机器学习方法 上部分说到量化派首先需要对用户进行信用风险的评估 为了让用户可以仅凭信用 而无 需抵押和担保就可贷款成功 美国有着很完善的征信体系 以及成熟的信用评估系统 通 过几十年的发展 美国的三大征信局 8 对 85 的公民有着详细的信用记录 包括信用卡 房贷 以往的住址 工作等情况都有记录在案 而且在找工作 租房时候也会查询个人信 用记录 如果有违约等不良行为也会反馈给征信局 Fair Issac 公司的 FICO 评分是业界应 用最为广泛的评分 是建立在详细的个人征信记录上的预测系统 FICO 从最开始的用图 表画出的评分 到后来演化为 logistic regression 类的回归算法 用来预测用户在未来一段 时间内违约的可能性 近年来 在 predictive analytics 方面的发展 deep learning 在 supervised learning 里面得到了广泛应用 中国由于在征信方面的数据缺失 需要通过更为自由的模式来创新和跨越式发展 宜信 9 作为国内最大的 p2p 机构 拥有多年的业务积累 以及一流的风控团队 传统上是通过线 下风控的手段 对用户进行详尽的背景调查 收集用户的资料例如他们有的曾提交过信用 报告 联系人信息 教育水平 工资单 银行流水等一系列传统征信数据 这样的贷款审 核流程耗时较长 贷款申请人往往需要少则几天 多则数月的等待 时间成本过大 流程 繁琐 是用户痛点所在 造成了潜在贷款用户的大量流失 提高审核效率 优化贷款流程 把申请人贷款体验做到极致 最终做到极速放贷是大势所趋 到目前 宜信也开始从传统 的线下业务 开始往线上做业务拓展 宜信的瞬时贷通过大数据进行实时授信 用户授权 系统读取信用卡账单邮箱 电商 运营商相关记录信息 得到有关你性格 消费偏好的个 人画像 同时进行交叉验证形成风控机制 进而计算出每一个用户的风险评分 最终判断 是否应该放款 以及该用户的授信额度 还款周期等并最快达到 10 分钟放款 另外 蚂 蚁金服的芝麻信用 10 根据个人淘宝 支付宝等交易数据以及其他授权数据 对个人进 行信用评分 芝麻信用综合考虑了个人用户的信用历史 行为偏好 履约能力 身份特质 人脉关系等五个纬度的信息得出的 于此同时 腾讯系的腾讯征信都会考虑到一些信贷之 外的一些信息 除了微信支付 QQ 钱包绑定的银行卡外 腾讯还能够从更大范围获取数 据 比如很多银行都在微信上开通了公众号 向用户发送消费数据 微信的社交状况也能 够对个人的资质进行有效的评估 量化派对用户的信息整合也包括了用户的社交信息 不光包含了用户的画像 性别 职业 爱好等等 也包含了用户之间的关系 如果说每个人是图中的一个节点 那么人与环境 所形成的关系就是两点间的线 当把 点和线 综合起来分析时 我们对个人的性格特征 信用状况 财富属性都会有更深层 更全面的理解 Google 的 PageRank 算法考虑到了 web 页面的相关性来提高页面的质量 例如权重高的页面指向链接的页面对应的权重相对 来说会比较高 类似来说 信贷风险低的用户的常用联系人的小圈子 个人资质的也应该 是比较好的 另一个方面 信用钱包 需要把用户个性化的需求与信贷产品信息精准匹配到一起 帮助 用户找到合适自己的信贷产品 实现信贷消费者和信贷产品提供者的双赢 我们对信贷产 品向用户做了基于协同过滤的和基于产品信息匹配的推荐 在对用户做了较为准确的信用 评价之后 我们的分发平台 如图三所示 会根据贷款用户的贷款需求来分派给相应的贷 款产品 这样就出现了一个客户面对多款信贷产品的情况 我们会根据批贷额度 贷款利 率 承诺放款速度等因素在多个信贷产品中选出最适合用户的产品 图三图三 分单平台系统分单平台系统 四 美国的风控系统案例四 美国的风控系统案例 打造一流的风控系统不是光靠数据分析师团队能够做到的 整个风控是需要在公司的 DNA 里面 美国的 Capital One 是最早利用大数据分析来判断个人借款还款概率的公司 本文 的作者都曾经在 Capital One 工作过 并在金融危机发生的时候也在那边 目睹了他是如 何发展壮大成第五大银行的 在危机开始的时候 非常果断的把有潜在问题的 GreenPoint Mortgage 整体出售 并在危机发生的时候 谨慎挑战风险政策来控制风险 并在危机发生的时候以非常低廉的价格收购华盛顿地区的 Chevy Chase 银行 ING Direct HSBC Card 北美分部 并完善其 Local Banking Global Lending 的策略 Capital One 的风控系统是通过多年的积累和演变而形成的 Capital One 的 Analytics 部 门里面分为几个种类 Data Analyst Business Analyst Statistician Modeler 不仅仅是分 析师专注的做模型 做风控来对模型进行大数据分析 所有的决策者 包括商务的总监 运营副总等 所有的决策都会有大量的数据分析 模型策略做支撑 Capital One 在各个业务部门都有很多的决策引擎和模型来支撑 在获取用户时 根据不同 的业务线 prime subprime 汽车金融等 有专门的 customer model risk model 等 在用 户关系管理方面 有 cross sell model customer contact model 等 除此还有专门的反欺 诈模型 包含 identify fraud model payment fraud model 等等 不同的业务线有着这么多 种类的模型 对于这些模型的监管也都是有一套系统的流程的 对于每个模型 模型开发 人员会对模型开发写出详细的文档 有着一套类似于 code review unit test 的检验机制 公司层面 部门设有专门的中高级别 scoring officer 模型官 负责定期对模型进行监管 和监测 除了对于整体模型的效果的监管 整体评分的分布的稳定性 还包括在变量层面 的监管 监测模型的重要变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论