大型电商平台消费贷产品风控模型的构建.docx_第1页
大型电商平台消费贷产品风控模型的构建.docx_第2页
大型电商平台消费贷产品风控模型的构建.docx_第3页
大型电商平台消费贷产品风控模型的构建.docx_第4页
大型电商平台消费贷产品风控模型的构建.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第31卷第5期021年9月武汉理工大学学报创:会科学版)WUnIiTKO53tycllaHT:±5/ktiiSijgIfcftir?大型电商平台消费贷产品风控模型的构建*汪晓曦。马颖2<L无锡职业技术学院管理学院,江苏无物214121;2.武汉理工大学管理学院,武汉43E)摘要:信用评分模型的构建及应用实施是学术界及工业界不断研究创新的重要课题。从机器学习模型的构建出发从建模指标、模型构建、模型上线后预期表现儿个角度说明了模型应用策略。在建模指标处理方面,采用原始变虫wje变换作为XGIiMX.等模型的输入变埴,并验证了模型效果提升;在模型构建上,创新采用多种算法单独建模,用X

2、CFfcg.算法拟合各单模型输出结果,证明复合模型效果有明显提升在模型上线后预期表现方面提出了确定模型切分点的方法即从授信额度、风险级别以及群体分布三个维度预测即将进件群体的坏账率。本研究最后结合模型表现及业务模式给出实施建议即对于部署难度高的复合模型可采用预授信的模式而LR评分卡模型部署可延用申清我信的模式。关键词:信用评分;风控模型;XGIMm;机器学习;模型应用策略中图分类号:文献标识码:/DOT:103交*j.ELl5n&177幺Zl.CB.CIM近6年来随着电商平台的迅猛发展消费金融产品层出不穷。这些产品依托电商平台的天然流量优势迅猛发展从商城内扩展到商城外不断拓展使用场景抢

3、占市场。在版图的不断扩张中,信贷审批模型、模型在具体商业模式中的应用也随着用户流量的扩张、业务场景的拓展不断更新迭代°。目前,在信贷审批模型中,算法称旦秘依然是最为普及的,在-些特定的用户群体和场景下依然有难以替代的地位依据该算法建立的评分模型规则简单、逻辑清晰、解释性强便于用户理解。然而,LR模型并不能保证在各种场景、用户群体中都有良好表现。比如从模型稳定性考虑,LR模型用到的变量维度一般不超过15个,在整体自变量与因变量相关性都不高的情况下,有限的变量数量难以达到较好的模型表现。模型表现不够理想直接影响到通过率及日后坏账风险会对商城信贷收益产生直接影响。在本研究项日中,商城平台主

4、要信贷模型算法采用的就是LR模型,当前IR模型的应用在风控能力及通过率表现方面能基本达成一个平衡但客户仍然希望尝试新的模型算法通过提升模型效果达到保证坏账率不增长的前提下提高模型通过率的目的此外客户尤其强调好的模型需要应用于生产线产生实际效益若一个模型太过复杂导致部署周期长、出错率高而难以实施也是没有意义的。根据用户的上述2个要求项目组从模型构建出发提出确定模型切分点预测坏账率的方法,并针对平台实际不同业务场景及业务要求确立模型应用的方法。首先在信贷风控模型构建上笔者参考了如下学者提出的方法并将该方法应用在商城平台上再根据平台数据特点以及模型表现作数据特征提取及模型算法的改善。近年来信贷风控领

5、域较受青睐的分类算法模型包括ITtimItsej以i策树、SVMCc持向量机11、btrrbrnHzrcst睡机森林)、GROT哪度提升决策树)、*»蔓京6及度梯度提升算法)、神经网络算法地gQE等。R14年,箫超武等在实证分析中将随机森林组合分类算法与KNN、SVM等单分类器模型以及组合模型_虫号丁比较,发现前者具有更高的精确度及稳定性小。Z)17年将神经网络极限学习算法收稿日期ilEFOKK作者简介:汪晓曦(9,女,湖北武汉人.无锡职业技术学院管理学院助教,通信与信息系统/市场营销双硕L,主要从申互联网金融、数字金融等研究.通讯作者:马颖国女,山东烟台人.武汉理T大学管理学院教授

6、.博I:生导师.博I:立要从事营销管理、风险管理研究。玉基金项目:义卫1年度无锡职业技术学院校级社科类课题氐年无锡职业技术学院“宵蓝蓝工程”肖年教师培养项目0l±t|_<5A,l<M-«tiTiS.I>liciToItfxriIVt<Jifo-O«Jt7r11aniriiJJ1.1-t.S/FloiiswitiiArpliqi,心J17做心$.BJIroCLixi,WliIWljIALlrpIAnK»<J】fcr'Ooiit.SterigLtigQctitIULit.SAEmjl.RW-wiHAntkzliiTscl

7、'ArtifiiihitcUiT<dl7>G5PydTO.lifl陈秋华,杨慈荣,崔恒建.变量筛选后的个人信贷评分模型与统计学习CrtxJ.数理统计与管理,fckOHOJ.皿x13=tr/j.ola.?-it03黄志刚,刘志患,朱建林.多源数据信用评级普适模型栈框架的构建与应用Er.数鼠经济技术经济研究,多19,3603SrinSYHKJin11YnnHwitlT_yyyk>4sti_:rQ4O*i"JL/iTUcclSzft.Can-«4巴81643用>1皿M宋捷.商业银行信用卡数字化转型的路径分析国.金融科技时代任k>bG)*14.

8、启I?clcyA'TheiHEfcrtheaQxircAFieROCcLiAeEilhEuAtiiLrticncrnixJTiplQTritNetFzLrIJLUcrnKlV<r)0):1H541).16周蜿萍.基于机器学习方法的个人信用评价研究口.金融理论与实践&DK3您)18.IffRRtJHLiriiVfeMirIhO.IXeiMr»>4will1Ll<fcii1Ltees-llwayatx_iAnJkttiTzuiLmGJcCSarfesjnNfcx-ciiitoltrctjliiiti<JAilifiiiirleUtecji?匕Lli

9、icii1WxkJStijXifi必IB18SzntnK.r*.,DivEko:>S.mJAjy>V.Ir>XMifiHTcerywrcHsctieIc3.F'fevIJUNT11FIean-gmK)CTmT.Cf7j<ziiJotrcW»>tijy4onM<4*ecTACMSIGKI1)iTtootxiiCooxo5KmvkmDwcxoyfiTlDtoMH'S*InnxitoKI、J.2DK5.0liinriiTxnJ11Kir«Vftmirj&ypKTKhrrXim7净cfcrCko:qEnitkip才一/m*

10、cTSlr<i4if201,29白):lg42忍.,陈战勇.珠联璧合淫于机器学习的网络借贷信用评分卡模型研究武汉金融goG)Hg.好邓大松.我国jfij业银行小微企业申请评分卡构建及驶证研究厅.投资研究>2576):pmw.就任编辑文格)LeanRodLcfconLapEcmrnataFklErnRWANGXmd1,MA¥4宣(,9991 oflVkrvynsXiVVurcifcKitLlscjfTaJiTii/»WciKi214121JiLfyj4_iOtbtx2 SciTsiofMLiTntWLiTi-iMIO'HUxiqmix)z->lizc

11、tmE?a:j-KtrcclintiTdjqjlkzJtin<17tFocrodlLterxinxr±±isoninxxxtonL.5iiEl_<£cfn-tin_ri_krcy«xcinexndinFCxtmtiiTdncLFiry.ffemthnctj-rfrcclxnitf=cItt-oIsFtrir皿rnorteljliTtrtideoDbir-FiliiE?nrrtelFppfcFtja-!stmtejrfronnriii±<xji5tixrtxiiixlojxelttlcnlirx?nntlinerfctiifci

12、to.IntcniscCinoctiig丘rdttlo«r2t<tcj5*3r目,tlr?(词rtilvertUc?wjottn1isl«jl!<astfr?ir匚丈ertL5k?crXGI1jl>1_trrdclltf1rri±±s»triJiLvunfxjdtpE?iinixcxcinLrl.cirtkonrx±±cfficL;iriUtl?irri±±c£TKtrx_diTi>c2txxiclyciZizritlFTTwzroctAnr-jXC2FtwjsuEodl

13、ofiLtoo_ljiMLTO-suhufkiinsi、*?nrr±i>vdihwKprcxccliIthLli-ocfforLcf、Uinj顼c?mnrHxfjk海矿ifBndyinarKerLIbebpFtirrwitfcnislirt,it.prepeesei.methodlocfetermipliiE?clJbcfTpriTtcrthenrxH01JUiEtclclijt.rstocf'tJr?itKJiiirg陵ffdiitfr?tfiGDciiioticnscf'aoJtlirr>tri5j<loxitriJcfeb±i_4i1

14、1.Ir1tfiispkpomijUMJcrtkiitr<_1ctJcyrrtretc?irrrxtljaJyccjm-lrurlwithinrjc±ipEEtfcxirtrLicXidIzt-binxiiisuiyjk£ntrl£:ti:Ti54_yticr«:lExcrjryjkcKwact;ctctiLsszto»rfeKcnTtrcLiinii;XGBoeL.;ntchfrqJGEmir目;nrrbLe(LM)用于消费信贷风险管理,通过实验发现该算法有计算量小、精准度高的特点°。为17年,LjlqCtixjL采用UJSV

15、M、深度信念网络63N)算法进行信贷违约预测,发现O3N具有最好的预测效果心。羽9年,陈秋华等探讨了不同连接函数下广义线性模型的分类问题,将线性模型评价指标与只F、SVM、*33tm等模型进行分析比对,发现广义线性模型中IR模型与SVM预测效果最佳山。R19年,黄志刚等人提出多源数据普适模型栈的概念,通过数据分类的自由选择采用X由菱AL.算法生成子评分模型,再将子评分模型转换为评分卡,通过实测证实有效凶。在参考上述学者选用的算法并结合商城平台数据特点,本文最终选用了LR算法、决策树算法、算法建立单模型。在LR模型变量交互方而,参比陈秋华5提出的变量相乘的交互方式,本文提出了用相关系数法寻找交互

16、变量的方法,并验证了该方法的有效性。受黄志刚也】多源数据普适模型栈的想法启发,借用不同数据特点采用不同模型算法最后用XGIE:模型整合的思路,本文采取首先用多种算法建立单模型,再用各单模型的结果输出作为复合模型的输入建立复合模型的方法经验证复合模型效果较单模型有明显提升。虽然学术界对风控模型算法的讨论十分热烈然而对于客户提出的第二点要求模型在生产线上的实际应用方面却略显单薄。本文花了大量篇幅讨论模型的应用问题。首先传统LR模型、复杂机器学习模型在实际部署应用方面各有优劣1JR模型部署通常借用风控决策引擎来完成,优势为部署门槛低、部署时间短、结果可靠性强但模型效果不及复杂机器学习模型而复杂机器学

17、习模型虽在模型效果上更有优势但在部署方面由于受模型复杂程度、数据量级、部署场景、上线时间紧迫等因素制约不是都能满足工程上的要求成功上线。所以,目前工业界在风控模型部署上,仍是主流复杂机器学习模型部署还在不断尝试发展中不同体量的电商平台复杂机器学习模型实施的普及程度也不一样。对于本项目商城平台刚开始尝试复杂机器学习模型的部署,文章给出了两者并举的保守方案。本文首先提出风控模型在应用实施中不同切分点对应的预测坏账率然后比较并验证了在相同风险前提下1R模型与XC壮Sr.复合模型实际通过率差异,并结合具体业务模式及业务需求给出模型选择的依据及部署方式。一、模型效果指标评价模型评价指标是用来评估模型对数

18、据的拟合能力二元分类的模型算法有很多但无论是哪种模型算法都可以使用AUCtol和KS这两个指标来衡量。AUC的取值为0.5LAUC值越高代表该算法对模型整体拟合能力越强,AUC等于05代表模型没有区辨能力,但大于0.9则模型拟合过于完美考虑异常,AUC在0.70.9之间的模型被视为可用。AUC在0.7与08之间代表模型有较好的区辨能力ALJC大于08代表模型有非常好的拟合能力。AUC取值与模型区辨能力对应关系如表1所示。表1AIJC值对应的模型区辨能力AUC05O5P.7OT'O-BO.9l.O模型区辨能力无区辨能力区筑能力较差可接受的区辨能力非常好的区辨能力老虑模型异常KS是评价模型

19、优劣的另外一个常用指标同样KS值越大代表模型对数据拟合能力越强通常KS取值在CX20/75之间。与AUC不同的是,AUC是反应模型整体对数据的拟合能力,而KS则指出在某一区段模型对目标变量的辨识度最高。KS取值与模型区辨能力对应关系如表2所示。表2KS值对应的模型区辨能力KS<OJ2CX20.40.405050.75>0.75模型区辨能力无区辨能力可接受的区辨能力较好的区辨能力非常好的区辨能力考虑模型异常本文分析比较的4个模型IR模型、决策树模型、XGHE单模型及土复合模型的效果均采用AUC值及KS值这两个指标来进行评价。二、建模实证分析建模数据构成及变量预处理目前该平台信贷产品申

20、请用户为在平台商城近1年内有过历史交易记录的用户该产品运营己超过I年有充足的坏用户积累。建模用户群体我们选择授信前1年内在平台商城内有较为活跃表现的用户,授信后612个月内出账次数大于等于6的用户确立建模样本。y定义方面通过分析逾期天数与回款率关系,以及通过逾期用户坏账滚动率分析后确定的跖。相同样本,不同y定义,最终AUC和FS模型评价指标会有较大差异。通常y定义越严格,模型指标AUC及KS表现越好比如把进入M4的用户定义为坏用户比把进入M2的用户定义为坏用户有更好的模型表现。然而考虑到该评分卡是建立申请用户审批模型,目的不是把最坏的用户排除,而是把有可能进入M3或M4的用户拦截在外。所以,y

21、用户定义采用进入22或M3的用户,但由于M3用户数量有限所以把多次进入M2的用户列为坏用户。经过多次尝试,得到y定义为至少有2次出账且2次出账的逾期天数均大于3D天曲入M2)的用户为坏用户,其余为好用户。X变量共珏个,为用户申请消费贷前平台商城的历史行为数据。从分类来看,可将X变量分为用户基本信息、用户申请渠道、用户信用资质、平台活跃度、平台交易信息、收货方式、收货人她址澹息等类别。数据样本共lUKT个观测值,其中坏用户为1±13个±七比9:1。采用分层抽样的方式将数据切分为7:3两部分,前者用作模型训练及验证,后者用于模型测试。在数据预处理环节对每个X变量作单变量分析进行

22、变量-致性、完整性、准确性检验剔除变量缺失率高于刍宓的变量;对变量进行w*转换并计算其2值,预测每个自变量X与因变量y的相关程度。在作变量心转换时,对自变量排序后切分为1。等分进行粗分箱,然后对变量分箱进行合并,合并时确保变量g值为单调趋势,各分箱观测值数量不低于空个,且相邻分箱的g值有较大差异。最后计算变量iv值,结果如图1所示。细分箱后ivffi0.40|0.350.300.25o2o.o2o.UJZrWMn盘pooSAqrq«C38!>&E2IS8U:*poovEa4J£spoowa.C38t>&d-sx'luoglvtl8EBCI

23、S£4ve*ISAI-wnooipMg£uo£#c-mncssvJPPCpu”csSISsAEcolunlM«CBVnpovEMO房I7Jwwlficoe7«c8vl>salwvl£COCA#”一s-SI5H8l£»coewl?2-C38l>sWWIXVW0S3IVJ198#点-Mr一MIEVUI«c38l*xxel>mAJEgvluWImuoE7rl|UDfurSIc8wl%s& UJCPIMdIrxdrsmuoEKItelEncDIPUMhtaddcIsqluoUJn-

24、9;sc-三SIM97V1MgwlPUMIS£uo房言冬-岳g房nX£eQEMfr>ls«304 sl?xff%wluoW91HJ§,pu&Rxdrstyuoutf器忐一UM!lpu>dzlsuluo房9J138pu§vs£luo£!ltJ*C981>&«C8VX1OEXWCOC3#tlZ«3ICM3OC38l£S£l£$CA-S8ISAIc38lcovial£«8c3l7cn8u0909ddr£luoutfM5

25、050I1oo.o.o.UUlUIlllllliiiiniLm图1心转换后变呈*值汇总仁)I单模型筛选出iv值大于0.1的经过心转换的自变量作为模型输入变量,采用逐步回归法筛选变量,模型置信度设为95%,y变量共2个取值,代表好用户,1”代表坏用户,以。”为目标构建模型。在模型变量调整上通过计算自变量的相关性使相关性较大的变量组合尽可能避免同时出现在模型中。根据模型输出结果删除变量系数为正或者系数过小的变量以减小共线性对模型效果的影响。检查进入模型的x变量分类确保模型尽可能覆盖到每个分类。检查模型评分确保评分均匀分布。当出现超过样本量5%的观测值对应同一个评分时找到是哪个变量造成的用别的变量加

26、以替换。最后确认模型,入模变量及模型参数如表3所示,模型变量分别为收货人数量、近2个月的货到付款次数、近3个月的货到付款次数、近2个月拒收次数、近日个月每个月都有交易的月份数、近3个月交易金额、近3个月信用卡支付金额、近3个月借记卡支付次数、近3个月使用g登录平台次数、用户婚姻状况、用户性别以及用户进件渠道。表3LR模型参数及最大似然估计分析结果参数估计标准误差卡方Ft、卡方bntoccpt0.0125715一fiR<0.0001-OJ320.161OJ38O.CD13LtCccjlI|圣;cxxjLrO.G50.192.05O.GUUF5LkLBrirTlFiccnLl-0.773zl

27、lO.GOVkH-coEh-0.91O.K8.13<o.cmiLt=Linr-08O.CD31K<O.OJD1fesLLirrrtl-KarnLj*-ON0.124.7550.0535ktl.)Wicc口yrnitu、-030.1559O.Q>14ct:pyO.&0.1033.71<O.(JUD1Lti.3rrtIHscci_ttLj-ORO.GB-O.RO.k323.在<o.onoitoco:'O.JC2S.41<O.OJD1ctiircJj-Uo.a?<O.CJUD11点变量交互。在不改变入模变量数量的前提下将入模变量与待选变量做交

28、互以达到提升模型整体效果的目的。通常待选变量W值过小难以进入模型,但待选变量与模型变量涵盖信息不同,LL与之交互的模型变量相关性低。为寻找待选变量,采用对需要交互的两变量计算相关系数的办法,最后发现两组可以通过变量交互提升模型的变量。第一组,授信渠道”、商城卡包提取标志”进行变量交互替代原模型中技信渠道”变量;第二组,'婚姻状况”、'客单价”进行变量交互替代原模型中'客单价”变量交互后模型效果提升如下表所示,可以石出交互前后AUC没有显著提升但模型KS值约有6%。的提升。交互变量的加入可以小幅度提升模型效果,如表4所示。表4LR单模型变量交互结果数据集指标未做变量交互交

29、互组一交互组二训练集_AlJCC.TiBO.77BO.77S)测试集TWOO.THDO.THDO.7HD训练集KS0.4310.400.5测试牝KSOZH50.120.132决策树单模型。在决策树模型构建过程中使用了两种叶节点分裂的算法,一个是埔分裂标准,另一个是gnwrEJnitEV食且CHAID)分裂标准,剪枝过程中均采用误判率、最小叶子数作为剪枝标准心。两模型输入变量前者是原始变量,后者为经过g旧转换后的变量。本模型采用SASHOCHI王JT完成,通过对laWte奸节点最小观测数)、最小叶子数量、m水决QK嗷大树深)、11日也0!±1很大分枝数)参数调整完成决策树的构建。对每片

30、叶子目标变量预测概率排序,通过计算每个概率分箱中累计好坏用户的占比,得到AUC及KS值。结果如表5所示。表5决策树算法结果模型变虽输入分裂标准训练集测试集KSALJCKSAUC模型1原始变量炳0.714027O.7L2模型2WJE3变®IkLOIAJD0230.703O.C5J53 XGRt菱耳单模型。XCHjexL算法是由dm®基于FHcHrtnS'提出的*rfaithrEi飞?模型设计并对其优化。史的思想是不断通过种树去迭代以减少上一轮的误差,最终达到分类的目的。每一次迭代就是增加一颗新的树对上次残差进行拟合。每颗树的叶节点对应一个分数将每棵树对应的分数相加得到

31、样本的预测值。模型输入变量为原始变量中定距TtcrvEil)变量,以及定类Nzmirol)、定序Ccfrul)变量经过g变换的变量。调参过程中,首先确定函哮习率)和rxnutctixte代次数)进行粗调,再确定ntjxC01H以及S33cl>最后采用网格搜索法对SLtKEIlplO'CCisaiplo进行调参,用CV交叉验证M1osdjcxncfe寻找最好迭代次数,最后微调eta和mi确定最后参数。参数结果为:41a=0.1,rmxi_cb|jtK=1,SB3d=35,5<tHxr|zJeO.40.7>n_m_m_nzts一0.5,此参数下对应的训练集、测试集AUG及

32、KS指标如表6所示。表6单模型结果数据集KSAUC训练集OzSD0.793测试集4 *131式乩复合模型。将原变量、心转换后的变量作为输入Jxgst匕单模型、XGAjhaL单模型、决策树模型的输出结果作为复合模型*3ir«L的输入,进行模型训练,输入指标如图2所示。*33复合模型输入指标包括5个单模型的输出结果、原始变量以及经过心转化后的变量,其中5个单模型的输出结果包含2种算法的决策树预测概率、逻辑回归模型预测概率及评分、MB单模型的预删概率。上述模型输入用一个润模型整合得到最后的输出结果。复合模型调参步骤与单模型类似,参数为feiF=C).1rrElrir5='dti&#

33、39;,ntiT?r3,mi-icHkl1>nriKcklh=0.7>rijrn_i<jLrri513D>tiTtiii=1,5。模型重要性指标如图3所小,.重要性最高的为单模型预测概率,其次为LR模型预测概率及转换评分。模型结果如表7所示。xgb_pred_OtotalscorePuser.unitprice1ast_3months_appexpend_antlast_3months_applogon_countlast_6months_appexpend_anitlast_6months_applogon_countlast_6<nonth_cancel_co

34、untlast_12»onths_aj)pexpend_aatmeiBbcr_v_countlast_12month_cc_pay_amttree.ch.pOfurnigoods_amt_l12mlast_12months_expcnd_anit0510152025303540图3XZB.Y夏合模型变量更要性表".工短合模型结果数据集KSGiriAUC训练集0.473O.CEDO.H15测试集0.456O.CD0X05模型指标比较与评价。比较上述模型KS及指标发现所有模型区辨能力都在诃接受及之上在木数据中决策树模型表现最差,在可接受区辨能力边缘LR模型和331菱以单模型AU

35、C有较好的表现,其中XGH"E单模型比IR模型KS高出1.7%、AIJC高出1.5%,整体表现略优于IR模型荣现最好的是XGHzE:复合模型,AUC达到03),进入非常良好的区辨能力这一档。模型在使用中需要确定切分分数线即该分数线以I、的用户需要被排除。所以在模型评估中需要比较不同分数段坏账率及累计坏账率。将生产实际中运用最为广泛的IR模型、效果最优的又由变丸复合模型进行比较,对比的数据集为训练集+测试集。对预测概率进行从小到大排序,切分为1O等分,每一等分用户数量大致相同。为便于比较均使用预测概率表明分段范围。两模型结果如表8、表9所示。从分段坏账率来看土复合模型比LR模型第一分段

36、高4.2%,如果切分分数线划在第一段,则XGI*t有明显优势;从累计坏账率来看,假设坏账率差异小于1%就认为模型效果无明显差别,则模型切分点设在第三段时两模型抓坏人”能力相同,LJR模型、gWt模型对应切分概率分别为和O.9CB。表XLR模型分段表现预测概率分段坏用户好用户KS分段坏账率/%案计坏账率/%分段概率范围数量分段占累计占LL/%数量分段占tt/%累计占比/%1OlSlC.TtTB3537257J272.OJ3B13353壬322缶.78958.916.10395123.32783PH132«.O9H39.6穷.7OZTiB13323.04C.9RB1O193783101/

37、110.135»O.-3519319.65635.683.9KBl1050*375.66O.SE51O.G17575.1&.Oion10.735.95.070.619£514.6KTrl1OJ5G7.4035184.613.48353J2AY231127850.1心3.1112.0921l.SJ<JB.7K以310.7O.C1也1.910.91OC.raO1513KT)KTB1OJ=?1GDo.crm1.410.0总计1±1S1GD1G0E121GDQ.O表少复合模型分段表现预测概率.分段坏用户好用户分段坏累计坏分段概率范围数量分段占世%累计占Lt/

38、%数底分段占粉累计占比/%KS账率/%账率/%1OSll0.72R5I3D56.76.7023D53DJ522312D.70X215J50.443520.73D.13OELHO.9CB213812372.5QO9.7玉30.4727以32124O.9Q32O.<jr>l958.681.11OZ2ION35.4O.d5JO8.62D35O.QD1f5.GKT551OJ5佑.9O.<H55.617.46企<1).5KJiB10.73B.6033)13«815.17354.9<55.410.6宓24.913.68232.1KW510.97B.12.11229O

39、.9735O.£HI>161.4£8.9LICE11.0国QO.CEE21.411.01OO.9HJD'O.<il21巴1.11GD.O11GB11.0KJD.OO.GOUD1.110.0总计U1SKIXOICUHKJD.OOz4Z)KXO三、模型选择及部署实施探索L)风险评估评分模型在风控策略中有两个重要作用:-个是确立拒绝分数线即小于某预测概率评分的用户拒绝授信另一个是根据预测概率评分划分风险等级、确定授信额度。评分模型设立的目的是为了让坏账率在可控范围内那如何利用评分模型预测进件用户的坏账率便成了关键。电商平台消费贷产品通常是分期的,根据消费贷产品

40、设计,若用户在某一期还款截止日io天内未还清账款,账户自动冻结。账款催收方面,逾期9天以内的账款由平台内部催收部门催收,逾期超过90天槌入Ml)的账户因账款难以回收故采用外包形式催问金额与外包公口J按比例分成。所以这里我们把进入Ml逾期天数9D天)的用户记为环账用户,未还清金额包括已出账、未出账)记为坏账余额,表现时长取1年。由于使用余额、坏账余额是一个动态平衡的过程这里选取时点数据来定义以账户成功授信之日起1年为时间节点,坏账率定义为坏账余额与使用余额之比。在作风险评估方面,需要用到2个群体己授信群体和即将进件群体。已授信群体定义为成功授信且表现期满1年的用户:即将进件群体定义为近一个月内申

41、请授信的用户。将UR模型、XCltoM复合模型分别运用到2个群体上得到每个用户的预测概率。根据模型坏账率划分风险等级,并将风险等级、用户授信额度等级绘制成交叉表,如表Q所示。单元格内坛、营甄分别是己授信群体的坏账余额、使用余额以及用户数量,其中脚标3代表授信额度等级8代表风险等级。表K)风险额度交叉表授信额度额虹等级不同预测概率/风险等级卜的坏账余额、余额、用广数6.91»1风险等级16用Q.9i风险等级2风险等级3风险等级4Jq.tzV风险等级5&ooD,Kiir)0ibii七11<4Hbig»<Ji31>11<-114<41!<

42、;J152CJzi1212111drs<K»bCfars3卜,是lai迅&EEuod»hdod>4b”H_l|iK_|nbizh3<-l>3Hl”bi1i1<115JibGar)<«r)5t>3iCJfu氐353t>311051CJT5BBR,将模型运用于进件用户群体,进件用户群体的用户数量记为Q麻,这里云荣分别为额度等级、风险等级,等级划分方式如表1O所示。风险等级1为最低,风险等级5为最高。坏账率记为BRiii9有:Z晶冬")i-is-i6假设坏账率最高不超过某一值,记为BR”、,计算BRmWB

43、Rg的最大m值,大于m的风险等级用户即为需要拒绝的用户。以此确定模型拒绝用户的切分点,记为Peu白)通过率评估通过率评估是将评分模型应用到当前进件用户模拟进件用户通过率的方式。通常业务部门与风控部门为通过率博弈,业务部门要求更高的通过率,风控部门则通过模型优化在保证风险的前提下提高通过率但模型评价指标越好并不意味着使用该模型就一定有更高的通过率。本文采用传统IR单模型、心«七复合模型进件通过率的模拟验证以上观点。设计思路为上述两模型应用于1C史N名即将进件用户群体,并计算其预测概率。分别对两模型预测概率进行从小到大排序每一个预测概率对应与风控模型中累计坏用户数对应而预测概率在该进件用

44、户群体的分位数即为拒绝率进而计算得到进件群体的通过率。本文通过作图的方法比较LR模型与XGISUlkL复合模型相同风控效果对应的通过率。以累计坏用户数作为横轴,进件用户通过率拒绝率炸为纵轴分别对两模型作散点图结果如图4所示。从图4中可以看出两模型头尾几乎是重合的只在中间段看出差异。通过计算得到在'抓坏人”能力相同条件下两模型通过率最大差异为7.9%,对应的IR模型和XCBtK复合模型通过率分别为4KS%和渚业务部门要求715%以上的通过率敏设容差为2%),且风险在可以接受范国内,两模型则在风险能力控制和通过率上几乎没有差别。如表11所示。模型部署实施评估与建议对于传统LR模型部署一般是

45、线上实施审批采用风控决策引擎部署。主流的风控决策引擎包括FICO公司的13皿和丽gm公司的SMG3。风控决策引擎负责入参、出参的配置,以及结果调用。风控决策引擎使操作简单易学,门槛低,上手快,例如LR模型1O15个变量的配置,1个小时就能完成。然而对于复杂的机器学习算法上百个模型变量上千次的学习迭代以及复杂的预测概率计算,图4LR模型与复合模型通过率最大无异表11LR模型与合模型通过率对比累计坏用户数LR模型通过率/%复合模型通过率/%通过率相差仪91R-1.077用2.0毕一717.918117.52.0-1.0若在决策引擎上部署就变得难以实施。当下对于复杂机嚣学习模型部署方式还在探索中。目

46、前,-般采用预测模型标准语言NM1.),该语言可以在不同数据挖掘工具和不同应用系统之间交换挖掘模型,实现模型的部署。虽然,在机器学习模型应用方面的应用实施还在发展中,除了不同的数据挖掘厂商支持的模型类型有限外,FMMI,在执行过程中还出现数据厂商生成的PMMK与标准定义的Sthcnm有偏差导致最终结果的偏差等问题。然而,纵有这么多问题,模型效果的优势是不容置疑的,而且机器学习的发展己成为趋势。综上所述,在模型应用选择方面,无论是应用最为广泛的模型还是上面提到的类似*33复合模型的机器学习模型都是有利有弊的。前者部署门槛低部署高效,模型本身有较好的解释性但模型应用效果不及后者后者模型效果整体优于前者但对于部署人员来说门槛较高且部署过程中产生的各种问题还在不断尝试解决中。然而模型的应用、部署实施上线并不是一个二选一的问题。本文建议模型选取要结合具体业务指标、风控指标、模型效果还有具体商业模式来确定。在线实施审批的风控模型一定要上生产线但机器学习的模型应用不一定要上生产线可以采用离线方式部署其对应的商业模式为预授信。预授信模式是从待选的用户池中筛选出优质用户为其打上授信标签,包括是否授信及授信额

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论