




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融风控行业大数据分析报告2
CONTENTS目录理解金融科技价值开发金融风控模型创新金融风控体系0102033PART1理解金融科技价值44.34.34.95.98.412.715.129.61.11.01.01.01.31.71.72.0-0.52.005102520153020102011201220132014201520162020E不良贷款余额(千亿人民币)不良贷款率(%)
近几年,银行业的不良贷款规模和不良贷款率大幅攀升•近年来,中国宏观经济正面临严峻挑战,银行业不良资产规模迅速攀升。截至2016年第四季度,
商业银行不良贷款余额达15122亿元,预计到2020年,这一数字将上升至3万亿元。
2010-2016年,商业银行不良贷款规模和不良贷款率
年增速1.5
18%1.052.43.04.66.97.88.29.418.30.010.0
5.020.015.020102011201220132014201520162020E年增速
18%
非银金融机构的潜在不良资产也浮出水面•非银金融近年来也迎来了蓬勃发展,但由于其业务“高风险、高收益”的特性突出,加之风控方
面相对薄弱,因而面临的不良资产风险更甚于商业银行。预计2020年非银不良贷款规模将达到
约1.8万亿元。
2010-2016年,非银金融机构不良贷款规模(千亿人民币)
现在金融科技来了,它将改变传统金融模式•
互联网金融仅是匆匆过客,金融科技才是终极风口。
互联网科技•
互联网科技仅仅只是一把尖刀,只会对金融行业
进行漫无目的分解,最终不仅让人大汗淋漓,而
且无法真正解决金融行业本身的痛点和难题。•
以风控为例,互联网金融时代之所以会有诸多乱
象主要是因为行业和用户发生了变化而风控方式
没有发生改变所导致的。
金融科技•
真正与金融行业深度融合的金融科技则具备破解
金融行业痛点和难题的潜质,并有望将金融行业
的发展带入到一个全新的发展阶段。•
通过将大数据、智能科技的手段应用到金融行业
的风控环节当中就能够达到这样的效果,海量的
数据样本为我们提供了丰富的用户和项目标本,
通过这些数据,我们不仅能够实现用户与项目的
完美对接,而且能够让预判到项目的风险等级,
提前对项目运行做出预判,提升金融行业的安全
性。而智能科技的应用则能够减少人力成本,提
升金融行业的运行效率,通过建立智能风控的模
型,我们用智能机器人或智能模型来代替大部分
的人工,从而进一步提升金融行业的效率。
67金融科技正在推动金融服务领域创新与重塑改变玩法1•
将移动装置、社交媒介、分
布式分类帐系统等技术和新
方法应用于金融服务领域•
如:加密货币、智能合约、
机器学习/人工智能工具,运
用社交网络来预测市场动向挑战中介2•
运用新技术和新工具,旨在
通过金融脱媒,提高客户独
立性•
如:买方对买方网络、P2P
外汇和贷款平台、帮助投资
者自主进行交易决策的认知
智能工具改良赋能3•
帮助金融机构克服传统的结
构性障碍和工作流程挑战•
如:更好触达,更好运营,
更好体验
客户关系管理工具供应商、
债券匹配代理商、KYC/AML
(了解你的客户/反洗钱)工
具、分析、监控和网络安全
工具改变玩法型企业将成为颠覆式
创新的重要组成力量颠覆式创新的业务模式将逐渐成为金融机构核心业务模式的
重要推动因素金融科技应用主要覆盖八大领域
支付支付处理,转帐,移动支付,外汇,信用卡,预付费卡,奖励计划
数据&分析大数据解决方案,数据可视化,预测分析,数据提供商
保险经纪,承保,理赔,风险管理工具
借贷/众筹众筹平台,社交借贷,抵押&企业贷款
区块链
投资&交易区块链协议开发,数字货币,
投资管理,机器人咨询,智能合同,区块链支付&结
交易定价&算法,交易IT,算,资产&身份管理
交易平台,经纪,清算
规划业务流程自动化,客户关系管理,合规&了解客户,库存&供应链管理
安全数字身份,身份验证,欺诈管理,网络安全,数据加密
89金融科技涵盖大数据、人工智能等更高层次技术
人工智能
大数据
互联技术分布式技术
安全移动互联
云计算生物识别物联网区块链
加密金融大数据在信贷领域有广泛的应用,重点是风控••••大数据覆盖信贷领域各个流程,重点是获客、身份验证和授信环节获客环节建立用户画像跟踪用户完整生命周期身份验证环节,通过活体识别等技术解决申请人是否本人的问题,关联分析则是利用图关联技术,找出欺诈团伙授信环节汇聚多方数据源,通过建模进行风险定价,金融科技服务商输出信用评分给机构使用
获客用户画像智能营销智能客服生命周期管理
10身份验证
反欺诈活体识别关联分析
授信风险定价信用评分
贷中监控交易反欺诈
贷后管理智能催收11大数据与其它技术的融合将显著提升风控效果
算法大数据
风控
算力云计算增强计算能力
AI技术提升
算法能力
数据物联网和区块链解决数据问题•
大数据、AI技术的融合和优化,提升大数据风控•
活体识别、OCR、声纹识别、虹膜识别等多种技术融
合,提供更加全面的身份识别,降低欺诈风险的发生•
通过算法调优和计算能力提升,半监督学习等技术正在应
用到反欺诈等风控场景,降低对专家经验和数据的依赖•
区块链技术使数据共享成为可能,彻底解决数据孤岛问题•
区块链技术解决了数据共享的信任问题,规定了数据使用
的边界,保证了数据的一致性。通过区块链建立多方数据
共享平台,解决数据孤岛问题,将降低金融机构获取数据
的门槛与成本•
物联网提供线下数据,丰富数据纬度•
通过传感器等设备采集线下数据,如车联网数据,将丰富
车险驾驶行为数据维度,从而实现风险定价•
建立金融云平台,毫秒级响应•
通过金融云平台,金融机构可以处理PB级数据,同时应
对百万流量,极大提高风控系统的响应速度12PART2开发金融风控模型133.1特征衍生3.2特征抽象
3.3特征缩放
3.4特征选择4.1处理样本不平
衡4.2构建分类器进行训
练5.1交叉验证+搜索调优参
数5.2性能评估1.
场景解析2.
数据预处理3.
特征工程4.
模型训练5.
模型评估与
优化1.1项目背景1.2场景分析
2.1数据获取
2.2缺失值处
理2.3数据过滤
贷款违约预测模型-总体架构•
以贷款违约预测为例,开发金融大数据风控模型。
贷款违约预测模型14贷款违约预测模型-1.场景解析1.1项目背景•
作为一家个人对个人的借贷公司--ABC公司成立于2006年。与传统借贷机构最大的不同是,ABC利用网络技术打造的
这个交易平台,直接连接了个人投资者和个人借贷者,通过此种方式,缩短了资金流通的环节,尤其是绕过了传统的
大银行等金融机构,使得投资者和借贷者都能得到更多实惠、更快捷。对于投资者来说可以获得更好的回报,而对于
借贷者来说,则可以获得相对较低的贷款利率。•
本项目通过利用P2P平台Lending
Club的贷款数据,进行机器学习,构建贷款违约预测模型,对新增贷款申请人进行预测是否会违约,从而决定是否放款。1.2场景分析•
贷款申请人向ABC平台申请贷款时,业务平台通过线上或线下让客户填写贷款申请表,收集客户的基本信息,这里包
括申请人的年龄、性别、婚姻状况、学历、贷款金额、申请人财产情况等信息,通常来说还会借助第三方平台如征信
机构的信息。通过这些信息属性来做线性回归
,生成预测模型,业务平台可以通过预测判断贷款申请是否会违约,从
而决定是否向申请人发放贷款。•
通过用户的历史行为(如历史数据的多维特征和贷款状态是否违约)来训练模型,通过这个模型对新增的贷款人“是
否具有偿还能力,是否具有偿债意愿”进行分析,预测贷款申请人是否会发生违约贷款。这是一个监督学习的场景,
采用逻辑斯谛算法开发两分类模型。贷款违约预测模型-2.数据预处理
2.1数据获取•
首先,通过内置包读取数据
-data
=
pd.read_csv('LoanStats_20
17Q2.csv'
,
encoding='latin-
1',skiprows
=
1)
2.2缺失值处理•
其次,我们查看变量缺失值的情
况
-objectColumns
=
loans.select_dtypes(include
=["object"]).columns
loans[objectColumns].isnull
().sum().sort_values(ascen
ding=False)•用pandas.fillna()处理文本变量缺失值,为分类变量缺失值创建一个分类“Unknown”•对数值型变量的缺失值,我们采用均值插补的方法来填充缺失值
2.3数据过滤•
第三步,对数据进行过滤,将重复
性属性或对构建预测模型没有意
义的属性进行删除
-objectColumns
=
loans.select_dtypes(include
=["object"]).columns
var
=
loans[objectColumns].colum
ns
for
v
in
var:
print('\nFrequency
count
for
variable
{0}'.format(v))
print(loans[v].value_counts
())
loans[objectColumns].shape
1516贷款违约预测模型-3.特征工程
3.1特征衍生•
特征衍生是指利用现有的
特征进行某种组合生成新
的特征。在风险控制方
面,传统银行获得企业的
基本财务报表(资产负债
表、利润表以及现金流量
表),借助于现代成熟的
财务管理体系,在不同业
务场景的需求下,利用企
业财务报表各种项目之间
的组合,就可以衍生不同
新特征反映企业不同的财
务状况
3.2特征抽象•
特征抽象是指将数据转换
成算法可以理解的数据
-def
coding(col,
codeDict):
colCoded
=
pd.Series(col,
copy=True)
for
key,
value
in
codeDict.items():
……
3.3特征缩放•
特征缩放是指将变量数据
经过处理之后限定到一定
的范围之内。特征缩放本
质是一个去量纲的过程,
同时可以加快算法收敛的
速度。目前,将不同变量
缩放到相同的区间有两个
常用的方法:归一化和标
准化
3.4特征选择•
特征选择是从给定的集合
中选择出相关特征子集的
过程。通常来说,对特征
集合做选择主要有2个原
因:首先,优先选择与目
标相关性较高的特征,不
相关特征可能会降低分类
的准确率。其次,去除不
相关特征可以降低学习的
难度17贷款违约预测模型-4.模型训练
4.1处理样本不平衡•
非平衡样本常用的解决方式有2种:1、过采
样,增加正样本使得正、负样本数目接近,然
后再进行学习。2、欠采样,去除一些负样本使
得正、负样本数目接近,然后再进行学习。本
次处理样本不平衡采用的方法是过采样,具体
操作使用SMOTE
-sm
=
SMOTE(random_state=42)
X,
y
=
sm.fit_sample(X,
y)
print('通过SMOTE方法平衡正负样本后')
n_sample
=
y.shape[0]
n_pos_sample
=
y[y
==
0].shape[0]
n_neg_sample
=
y[y
==
1].shape[0]
print('样本个数:{};
正样本占{:.2%};
负样本占{:.2%}'.format(n_sample,
n_pos_sample
/
n_sample,
n_neg_sample
/
n_sample))
4.2构建分类器进行训练•
先初始化分类器,然后查看预则结果的准确
率,接着借助混淆矩阵进一步比较。混淆矩阵
会对分类器产生不同类型的正误数量的统计,
为了更加直观,我们对混淆矩阵进行可视化。
热图颜色越浅代表数量越多。根据混淆矩阵,
我们可以分别计算precision、recall、f1-
score的值,这里我们采用sklearn.metrics子
模块classification_report快速查看混淆矩阵
precision、recall、f1-score的计算值。
-from
sklearn.metrics
import
roc_auc_score
roc_auc1
=
roc_auc_score(y,
predicted1)
print("Area
under
the
ROC
curve
:
%f"
%
roc_auc1)18贷款违约预测模型-5.模型评估与优化
5.1交叉验证+搜索调优参数•
采用交叉验证法划分数据集,将数据划分为3部
分:训练集、验证集和测试集。让模型在训练
集进行学习,在验证集上进行参数调优,最后
使用测试集数据评估模型的性能•
模型调优我们采用网格搜索调优参数,通过构
建参数候选集合,然后网格搜索会穷举各种参
数组合,根据设定评定的评分机制找到最好的
那一组设置
5.2性能评估•
根据模型在不同参数组合下跑出的分数热力
图,来寻找参数调优的方向,进一步选择更优
的参数。而实际操作中,模型调参是一个反复
迭代的过程。接下来,使用经过训练和调优的
模型在测试集上测试•
经过对模型进行训练和参数调优后,模型的精
确率表现更稳定,同时模型的准确率和AUC分
数都有很大的提升19PART3创新金融风控体系20创新金融风控体系分三步走完善标准优化制度创新流程21完善金融大数据标准
基础类标准•
基础类标准对金融业大数据
标准体系的适用范围、目标
进行界定。基础类标准包括
术语、标准化工作指南、从
业人员基本要求和大数据能
力成熟度评价指标等4个子
类。•
术语子类标准用于规范和统
一各类专业名词。标准化工
作指南子类标准明确金融业
大数据标准化工作的任务、
标准体系、以及标准编制、
实施和改进的主要内容和基
本要求。从业人员基本要求
和大数据能力成熟度评价指
标用于对开展数据管理工作
的人员、金融机构提出基础
性和框架性要求。
业务类标准•
业务类标准从金融监管、金
融服务视角,按照不同的大
数据分析应用场景,对传统
金融机构、互联网金融企
业、以及其他外部单位需要
报送或共享的数据范围和格
式进行规范,使数据采集、
数据传输、数据处理等各环
节的使用者对数据的含义、
标识、用途等有统一的理
解。•
根据不同的大数据分析应用
场景,业务类标准包括综合
统计业务子类、反洗钱业务
子类、征信业务子类、资管
业务子类和其他子类等。
治理类标准•
治理类标准用于指导金融机
构开展将数据治理工作,以
确保数据资产能长期有序
地、可持续地得到管理。治
理类标准应该是一套经过行
业实践检验的最佳方法论,
它包括两个维度的内容:组
织架构和治理领域。•
组织架构子类用于规范金融
机构大数据战略、组织架
构、制度和流程等。数据治
理领域包括数据标准、数据
模型、元数据、数据生命周
期、数据安全、数据架构、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村土地简易承包3篇
- 孩子抚养协议书范文3篇
- 建筑劳务分包合同样本3篇
- 成功签订采购合同的技巧3篇
- 办理土地证委托书范本的意义3篇
- 企业劳务外包合同3篇
- 体检结果证明3篇
- 安全请假责任书3篇
- 商铺合同终止协议书版3篇
- 廉政协议招投标智慧3篇
- 理综答题“秘诀”课件
- 中学生的人际交往主题班会
- 高一下学期期中家长会课件(28张PPT)
- 【大学语文-精】管晏列传课件
- DB4413-T 19-2020《惠州市建筑二次供水工程设计、施工及验收规范》-(高清现行)
- 不间断电源装置(UPS)试验及运行质量检查表
- 医院第一季度全成本核算分析报告
- Rational-Rose-用例图、顺序图、活动图、类图、状态机图-实例
- 《马说》-教学设计【教学参考】
- 华为智慧园区解决方案
- 世界银行集团简介课件(PPT 48页)
评论
0/150
提交评论