下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于lightgbm的银行信用卡违约研究 张国庆 昌宁摘 要:随着全球经济的变化和我国金融制度的改革,信用卡借贷业务在金融行业中发展的十分迅猛,为银行带来了巨大的收益。但是,高收益往往伴随着高风险,信用卡借贷隐藏着巨大的风险。如何在已有的信用卡数据基础上,利用科学的方法来鉴别风险,是各个银行急需解决的问题。该文主要研究lightgbm在银行信用卡违约问题中的作用,通过实验,与lr、svm、随机森林等几个常用模型的对比,发现lightgbm模型的准确率最高,说明lightgbm模型效果较好,有一定的实用价值。关键词:信用卡违约
2、160; 金融欺诈 lightgbm:f832 :a :1672-3791(2019)04(c)-0008-021 信用卡违约研究的背景随着经济全球
3、化和我国金融体制的改革,国内外各大银行都不断的扩展自己的业务规模,出现了许多新型的线上交易。以金融机构来讲,支付宝、微信支付等侵占了大量的市场;以个体来讲,不论是稳定的余额宝、理财通,或者是风险较大的股票等,各种理财方式逐渐被大家所接受。所以说,我国银行业面临巨大的困难。依靠传统的方式难以改变银行业目前的状况,管理者们需要改变银行的经营策略。银行卡业务是金融市场中最有前景的产品之一,数据显示,工商银行的信用卡到2018年6月末为止,共发卡1.56亿张,授信总额为13.98万亿元,环比增长9.09%1。信用卡业务给银行带来了巨大的利润。同时,信用卡也给银行带来了巨大的风险。随着信用卡数量的增加,
4、银行在获利的同时,也会存在一些“赖账”用户,这些不遵守规定的用户给管理者带来了很大的困难。如何利用已存在的借贷数据来辨别用户是否违约便成了一个关键问题,既要获得最大的利润,同时又要减小违约所带来的损失。因此,关于信用卡违约的研究是一个值得研究的问题。2 国内外研究现状人们现在普遍认为,信用卡最早在19世纪末出现,但是当时仅仅是一种短期的借贷行为,没有形成正规化的授信额度。1952年,franklin national bank第一次公开发行信用卡,于是关于信用卡欺诈的研究便有了开端。在国外,brauser等在1999年通过关联规则和神经网络来研究信用卡欺诈问题,得到的结果有较高的辨
5、识度,且误报率较低2。quahjts和sriganeshm在2007年通过自组织映射网络的方法,来研究用戶的行为,并进行了实时欺诈检测的研究3。2016年,florentinbutaru等比较了逻辑回归、决策树和随机森林三种方法,结果表明,不同的银行适用于不同的模型,没有一种模型适合所有的银行4。在国内,2008年,杨玺等使用支持向量机来研究银行的欺诈问题,可以有效的检测高风险的交易行为5。2013年,杨屹等使用adaboost来研究银行的欺诈问题6。2016年,王纯杰等使用kmeans将客户分为不同的类别,通过多值有序的logistic回归模型来研究银行的欺诈问题7。3 ligh
6、tgbm介绍microsoft在2016年末提出了轻量级梯度提升机,它是基于决策树算法的梯度提升框架,可用作分类、排序等许多机器学习的任务中8。gbdt9梯度提升决策树,和随机森林类似,都是多棵决策树的一种集成。所不同的是,gbdt所生成的树是有序的,下一棵树的输入是上一棵树所预测的结果,由此不断迭代。以下举例说明gbdt的基本思想,假设小明的真实年龄为18岁,第一棵树得到的结果是10岁,与真实的年龄相差8岁,那么第二棵树就会在残差8岁的基础上去学习,以此类推。每一轮迭代,拟合的误差都会减小。lightgbm是更为优化的gbdt算法框架,它采用按叶子生长的策略来构建决策树,并且会限制其最大深度
7、,不仅能过保证效率,还能预防过拟合。lightgbm具备一下优点:(1)训练效率高,低内存使用;(2)支持并行学习,可处理大规模数据;(3)优化了对类别特征的支持。4 实验该文所使用的数据是来自uci上的german credit dataset,一共包含1000条数据,其中违约样本300条,正常样本700条。样本特征包含借贷金额、年龄、个人资产、婚姻状况等信息。该数据集已经做了很好的预处理,包括特征选择、异常值的筛选和缺失值的填充等。为了防止量纲的不同导致的差异,该文采用min-max方法对数据进行标准化处理。该文选取lr、svm、随机森林三种模型与lightgbm进行对比,四种
8、模型均使用python实现。该文将数据集随机划分为两部分,其中训练集占70%,测试集占30%。lr模型对测试集预测结果的混淆矩阵如表1所示,此时模型的准确率为76.67%。svm模型对测试集预测结果的混淆矩阵如表2所示,此时模型的准确率为77.33%。svm和lr所预测的结果在各部分的数值大致相同,准确率也相近。随机森林模型对测试集预测结果的混淆矩阵如表3所示,此时模型的准确率为77.33%,值得一提的是,使用随机森林在训练集上的准确率高达99%,这里可能是由于训练数据不足,导致了过拟合。在lightgbm中,学习率设置为0.01,决策树棵树设置为20棵,树的最大深度设置为6,样本采样比例为0
9、.75。lightgbm模型对测试集预测结果的混淆矩阵如表4所示,此时模型准确率为82%。5 结语从实验中可以得出,lightgbm模型较优于其他三个常用的模型,采用lightgbm可以帮助银行更好的鉴别违约客户,从而使银行获得更多利润。参考文献1 http:/2 brause r,langsdorf t,hepp m.neural data mining for credit card fraud detectionc/ieee international conference on tools with artificial intelligence, 1999:103-106
10、.3 quah j t s, sriganesh m. real time credit card fraud detection using computational intelligencec/ international joint conference on neural networks. ieee,2007:863-868.4 butaru f, chen q, clark b, et al. risk and risk management in the credit card industryj. journal of banking & finance,2016(72):218-239.5 楊玺.基于支持向量机的信用卡欺诈检测研究d.四川师范大学,2008.6 杨屹.基于稀有类分类的信用卡欺诈识别研究d.北京工商大学,2013.7 王纯杰,李群,董小刚,等.基于k-均值聚类的多值有序logistic回归模型在信用卡信用评级中的应用研究j.吉林师范大学学报:自然科学版,2016,37(3):72-81.8 https:/9 ye j, chow j h, chen j, et al. stochastic gradient boosted distribute
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东佛山顺德区乐从镇琴湖幼儿园招聘笔试备考题库及答案解析
- 2026宁夏师范大学银川附属中学招聘1人笔试参考题库及答案解析
- 2026年吉林大学第二医院医生招聘(244人)笔试备考题库及答案解析
- 2026新疆图木舒克市商砼站招聘1人笔试备考题库及答案解析
- 2026广东汕头市消防救援支队消防技术服务人员招录5人笔试备考试题及答案解析
- 2026中国联通安龙县分公司招聘4人考试备考试题及答案解析
- 2026贵州毕节市七星关区融媒体中心招聘事业单位人员10人考试备考试题及答案解析
- 吉安新庐陵智城数据运营管理有限公司2026年绿色通道招聘笔试模拟试题及答案解析
- 2026浙江省台州学院招聘85人考试备考题库及答案解析
- 2025年湖北生物科技职业学院单招综合素质考试试题及答案解析
- 第一单元第1课《辉煌成就》课件-七年级美术下册(人教版)
- 2025年春季学期三年级语文下册教学计划及教学进度表
- 板材加工项目可行性研究报告
- 2025年派出所教导员履职述职报告范文
- GB/T 33130-2024高标准农田建设评价规范
- 《创新方法及技巧》课件
- 基本医疗保险异地就医备案个人承诺书【模板】
- 泌尿外科品管圈
- 对外汉语教育学引论
- 2024智能旅客检查系统
- 人教版九年级全册英语Unit 11大单元整体教学设计
评论
0/150
提交评论