量化派基于Hadoop、Spark、Storm的大数据风控架构

上传人：神*** IP属地：江西上传时间：2020-03-29 格式：DOCX 页数：6 大小：147.23KB 积分：12 举报 版权申诉

免费预览已结束，剩余1页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

量化派是一家金融大数据公司为金融机构提供数据服务和技术支持也通过旗下产品信用钱包帮助个人用户展示经济财务等状况撮合金融机构为用户提供最优质的贷款服务金融的本质是风险和流动性但是目前中国对于个人方面的征信行业发展落后于欧美国家个人消费金融的需求没有得到很好的满足按照央行最新数据目前央行征信中心的数据覆盖人口达到 8 亿人 1 但其中有实际征信记录的只有 3 亿人左右有 5 亿人在征信系统中只是一个身份证号码此外我国还有 5 亿人跟银行从来没有信贷交易关系这 5 亿人对金融部门来说是陌生人这样算下来有征信记录的人只占到全国人口数的 23 7 远低于美国征信体系对人口的 85 的覆盖率如何在信用记录缺失的情况下做好多个人用户的风险定价是个棘手的难题量化派通过基于机器学习和互联网化的风险定价整合互联网及传统数据源对个人在消费金融应用场景里的信用风险进行评估这篇文章就主要介绍一下量化派的大数据平台以及机器学习在量化派的应用一互联网化的风控创新一互联网化的风控创新量化派及信用钱包的核心任务是让用户可以凭借其良好的信用而无需抵押或者担保就可以贷款也就是说用户仅凭信用即可开启财富之门为了达到这个目的信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起在帮助用户找到合适自己的信贷产品的同时也帮助信贷产品公司找到了最合适的贷款用户从而实现信贷消费者和信贷产品提供者的双赢为了确保贷款的高成功率为了更好的掌握用户需求以及对个人进行信用评级我们需要大数据平台的支持目前可以接入央行征信中心的金融机构仅仅只有银行持牌照的第三方征信服务商以及部分地区的小贷公司绝大多数的 P2P 平台还无法接入央行的征信数据这无疑加大了 P2P 平台的风控难度在征信思路上传统征信是用昨天的信用记录来判断今天的信用价值这未见得就是最合理的在征信技术上传统的方法是从线下采集信用数据效率比较低可以说传统的线下征信技术限制了数据来源和信用评估思路而互联网的技术工具和思维则具备了改变这一切的可能性回归到征信的本质其实就在于解决两方面问题信用能力和信用意愿换而言之即解决个人的还款能力和还款意愿再追根溯源一点即解决坏账和逾期两个问题 2 量化派公司基于大数据的用户征信和传统征信殊途同归所不同的是传统征信中数据依赖于银行信贷数据而大数据征信的数据并不仅仅包括传统的信贷数据同时也包括了与消费者还款能力还款意愿相关的一些描述性风险特征这些相关性描述风险特征的抽取与筛选是量化派的技术核心相比于传统征信数据的强相关性这些大数据征信的数据与消费者的信用状况相关性较弱量化派就利用大数据技术通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力这样就使大数据征信不依赖于传统信贷数据就可以对传统征信无法服务的人群进行征信实现对整个消费者人群的覆盖 3 我们的数据来源如下图所示图一图一量化派的数据来源量化派的数据来源二量化派的大数据平台架构二量化派的大数据平台架构量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据还有第三方的接入数据系统运行产生的日志数据等等数据的形式多种多样如何保护好利用好这些数据是公司重中之重的任务量化派的业务也决定了公司是数据驱动型的为了更好的满足公司日益增长变化的业务在大数据平台建设中全面拥抱开源的基础上进行了不停迭代设计对数据平台中采用的开源软件进行了深度应用开发同时还开发了很多契合业务需求的工具软件很好的支撑我们去实现普惠金融的理想量化派公司的数据平台架构如图二所示图二图二量化派的数据平台架构量化派的数据平台架构相比我国的网民数量信贷用户只占其中的一小部分所以我司产品的用户基数并不是非常大但是为了给信贷用户更准确的信用评级对于每个信贷用户我们都会从多个渠道获取大量的有效数据这些数据聚合起来也是海量数据规模公司发展伊始几乎将所有的数据都存放在 Mysql 关系数据库中工程师使用标准 SQL 语句来存储或者调用数据资源 Mysql 很快就遇到了性能瓶颈虽然可以通过不停地优化整个 Mysql 集群以应对数据的快速增长但是面对复杂的数据业务需求 Mysql 显然无法提供最优的解决方案所以我司最终决定将数据迁移到大数据平台上 Mysql 仅用来存储需要经常变化的状态类数据除了系统运行日志直接存放在 HDFS 之中大量的数据利用 HBase 来进行管理 HBase 中的数据按照不同的数据源存放在不同的表中每张表按照业务和存储需求对 rowkey 进行精心设计确保海量数据中查询所需数据毫秒级返回根据业务的不同特点对于常规的数据 ETL 处理我们使用 MapReduce 4 框架来完成 BI 和数据挖掘这些工作都放到了 Spark 5 上这样一来依赖不同任务或不同计算框架间的数据共享情况在所难免例如 Spark 的分属不同 Stage 的两个任务或 Spark 与 MapReduce 框架的数据交互在这种情况下一般就需要通过磁盘来完成数据交换而这通常是效率很低的为了解决这个问题我们引入了 Tachyon 6 中间层数据交换实际上在内存中进行了而且使用了 Tachyon 之后还解决了 Spark 任务进程崩溃后就要丢失进程中的所有数据的问题因为此时数据都在 Tachyon 里面了从而进一步提升了 Spark 的性能 Tachyon 自身也具有较强的容错性 Tachyon 集群的 master 通过 ZooKeeper 7 来管理 down 机时会自动选举出新的 leader 并且 worker 会自动连接到新的 leader 上多维度的征信大数据可以使得量化派可以融合多源信息采用了先进机器学习的预测模型和集成学习的策略进行大数据挖掘不完全依赖于传统的征信体系即可对个人消费者从不同的角度进行描述和进一步深入地量化信用评估公司开发了多个基于机器学习的分析模型对每位信贷申请人的数千条数据信息进行分析并得出数万个可对其行为做出测量的指标这些都在数秒之内完成三不同场景的机器学习方法三不同场景的机器学习方法上部分说到量化派首先需要对用户进行信用风险的评估为了让用户可以仅凭信用而无需抵押和担保就可贷款成功美国有着很完善的征信体系以及成熟的信用评估系统通过几十年的发展美国的三大征信局 8 对 85 的公民有着详细的信用记录包括信用卡房贷以往的住址工作等情况都有记录在案而且在找工作租房时候也会查询个人信用记录如果有违约等不良行为也会反馈给征信局 Fair Issac 公司的 FICO 评分是业界应用最为广泛的评分是建立在详细的个人征信记录上的预测系统 FICO 从最开始的用图表画出的评分到后来演化为 logistic regression 类的回归算法用来预测用户在未来一段时间内违约的可能性近年来在 predictive analytics 方面的发展 deep learning 在 supervised learning 里面得到了广泛应用中国由于在征信方面的数据缺失需要通过更为自由的模式来创新和跨越式发展宜信 9 作为国内最大的 p2p 机构拥有多年的业务积累以及一流的风控团队传统上是通过线下风控的手段对用户进行详尽的背景调查收集用户的资料例如他们有的曾提交过信用报告联系人信息教育水平工资单银行流水等一系列传统征信数据这样的贷款审核流程耗时较长贷款申请人往往需要少则几天多则数月的等待时间成本过大流程繁琐是用户痛点所在造成了潜在贷款用户的大量流失提高审核效率优化贷款流程把申请人贷款体验做到极致最终做到极速放贷是大势所趋到目前宜信也开始从传统的线下业务开始往线上做业务拓展宜信的瞬时贷通过大数据进行实时授信用户授权系统读取信用卡账单邮箱电商运营商相关记录信息得到有关你性格消费偏好的个人画像同时进行交叉验证形成风控机制进而计算出每一个用户的风险评分最终判断是否应该放款以及该用户的授信额度还款周期等并最快达到 10 分钟放款另外蚂蚁金服的芝麻信用 10 根据个人淘宝支付宝等交易数据以及其他授权数据对个人进行信用评分芝麻信用综合考虑了个人用户的信用历史行为偏好履约能力身份特质人脉关系等五个纬度的信息得出的于此同时腾讯系的腾讯征信都会考虑到一些信贷之外的一些信息除了微信支付 QQ 钱包绑定的银行卡外腾讯还能够从更大范围获取数据比如很多银行都在微信上开通了公众号向用户发送消费数据微信的社交状况也能够对个人的资质进行有效的评估量化派对用户的信息整合也包括了用户的社交信息不光包含了用户的画像性别职业爱好等等也包含了用户之间的关系如果说每个人是图中的一个节点那么人与环境所形成的关系就是两点间的线当把点和线综合起来分析时我们对个人的性格特征信用状况财富属性都会有更深层更全面的理解 Google 的 PageRank 算法考虑到了 web 页面的相关性来提高页面的质量例如权重高的页面指向链接的页面对应的权重相对来说会比较高类似来说信贷风险低的用户的常用联系人的小圈子个人资质的也应该是比较好的另一个方面信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起帮助用户找到合适自己的信贷产品实现信贷消费者和信贷产品提供者的双赢我们对信贷产品向用户做了基于协同过滤的和基于产品信息匹配的推荐在对用户做了较为准确的信用评价之后我们的分发平台如图三所示会根据贷款用户的贷款需求来分派给相应的贷款产品这样就出现了一个客户面对多款信贷产品的情况我们会根据批贷额度贷款利率承诺放款速度等因素在多个信贷产品中选出最适合用户的产品图三图三分单平台系统分单平台系统四美国的风控系统案例四美国的风控系统案例打造一流的风控系统不是光靠数据分析师团队能够做到的整个风控是需要在公司的 DNA 里面美国的 Capital One 是最早利用大数据分析来判断个人借款还款概率的公司本文的作者都曾经在 Capital One 工作过并在金融危机发生的时候也在那边目睹了他是如何发展壮大成第五大银行的在危机开始的时候非常果断的把有潜在问题的 GreenPoint Mortgage 整体出售并在危机发生的时候谨慎挑战风险政策来控制风险并在危机发生的时候以非常低廉的价格收购华盛顿地区的 Chevy Chase 银行 ING Direct HSBC Card 北美分部并完善其 Local Banking Global Lending 的策略 Capital One 的风控系统是通过多年的积累和演变而形成的 Capital One 的 Analytics 部门里面分为几个种类 Data Analyst Business Analyst Statistician Modeler 不仅仅是分析师专注的做模型做风控来对模型进行大数据分析所有的决策者包括商务的总监运营副总等所有的决策都会有大量的数据分析模型策略做支撑 Capital One 在各个业务部门都有很多的决策引擎和模型来支撑在获取用户时根据不同的业务线 prime subprime 汽车金融等有专门的 customer model risk model 等在用户关系管理方面有 cross sell model customer contact model 等除此还有专门的反欺诈模型包含 identify fraud model payment fraud model 等等不同的业务线有着这么多种类的模型对于这些模型的监管也都是有一套系统的流程的对于每个模型模型开发人员会对模型开发写出详细的文档有着一套类似于 code review unit test 的检验机制公司层面部门设有专门的中高级别 scoring officer 模型官负责定期对模型进行监管和监测除了对于整体模型的效果的监管整体评分的分布的稳定性还包括在变量层面的监管监测模型的重要变

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

量化派基于Hadoop、Spark、Storm的大数据风控架构

文档简介

温馨提示

最新文档

评论

量化派基于Hadoop、Spark、Storm的大数据风控架构

文档简介

温馨提示

最新文档

评论

相关文档