下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、vol. 29 no. 11computer engineering and designjune 20xx基于数据挖掘技术的信用卡审批模型研究花蒋(南务工南学院计算机系,广东广州510507)摘 要:针对分关探泌建模敏摇的非对群1±提出一种&于神蛭网路和决哀树技术姑合的非册称帽敏据集合顼测分类建模 方法.建立了信用卡审批模堑.时果说明:用加侦治类标识决策.,!!后,在用不同比例的建模敬挞集更立的所有模型中.比 例为33.33% .66.67%的救拷集建立的神经网络模型最好,模里的换殖率达刑88.49%.关覆词:敬据花探;信用卡:神经网倍:决策树:模型中图法分关号:tp391
2、文献标i只码:a文章编号:1000-7024 (20xx)11 -2989-03research on credit card approval models based on data mining technologyhua bci(computer department, nanhua college of industry and commerce, guangzhou 510507, china)abstract: because the unbalance of the data sets of building model would afycct the credit card
3、 classified prediction, it is raised that the predictive classified building model nwthod of unbalance data seis is based on the combination of dectsinn tree and neural net and (he model of credit card approval are built. the result shows that after added predict field among all models which arc hui
4、k using diftcrcm data sets, the neural net model with the 33.33%: 66.67% data set has the best performance. the accuracy rate of the model is 88.49%. key words: data mining: credit card: neural net; decision tree: model收sjh 期:2007-06-10 l-mail: qunbumi税 i63 <r«r介:花蒂(i962-),女,上湖人,ffi±,工程
5、师,俩充方向为欲抿挖堀部, 2989 o引w过去对信用卡中堵的资信评估主要是洒过专家假椎经皴 判断和统计狡术(如 分析)做出的,竣而随着电*前务的 开展,信用卡的使用者和交易m也将迅速增加,导致信息;急 剧扩大,仅凭个人径险巳很堆有效的做出正确判断,而判那么分 析所做的戕设条件又常常无法潘足,由此需要引入先进的信 息处理技术为决策者拗供决策支持”、本文结合决策树和神 经网络技术,对信用卡申谐进行有效、智能的判断,对决策假设 提供有效的决策支持,并针对建模数据集合的非对称性会影 响分类检测建模何®.研究用不同比例的建模敬据集进行建 模,以获得显优的校型.i数据琪处理ii输入变虽和目标变
6、虽本文实验用的故据是某银行提供纶的业务奴据,来源 信用卡业务系统,主妥包括客户资料、客户中谙资料、信用卡 资料、咪户资料、历史交易数抿等,其包含loo多张大约 湘omb的故据hh通过查阅大m的文献等,最后聚集成一张 记录数为2奶的分析表,再通过对敌据的分析及预处理气最 后进入建模的输入变m为:a suinovcrdraniimit授佶粒度总 和、age 年龄、marricdcodc 婚否.qjhomcpomcodc 邮纳、 ®avgbalancc 平均账(ft)余嚣、6 cardnum p 数、avgday- consume 11 均消 tftmm<sjmaxaccoun(us
7、cmon(hs h< 长使用 *账户 时何 * | !>:avgdayovcrdraftainount 半均每夭透支额、ixcavgtransac- tionamount平均每笔交易的金额11 avgoverdraftdays f-均每笔 透支天敖、哩sexcode性别代码,目林变jft定义为cusiomeivhss 客户类所,把2 999个样本中的信用卡持有者分成两类:类标 号为v的ft客9(2 959个样本)和类标号为寸的留客户 (40个样本).在建立了戏住模型后,在侑用中,如果槟 型刈断为-好'客户,那么批准发绐信川卡,如果判断为 w 客 户测拒绝发给信用卡。12数据
8、比例的山干在最后的您筏敖抿衣惜中,客尸类制决策硬性c略. (omerdass的类标号为t fijv的记录是非对探的,而零对林 的建模敖据象会影响建模的结果,有时甚至街到的是错误的 结果,夜后面的实捡分析中可以看出,如果用非对称故据集 (未经明蜷比例的建模数据驱),那么得不宜正确的预测。因此, 在本ctx l作如下调整:在建模故据集(2000条记录中提取所有的美捅号为v的汜呆f,共32条记 录;在刺余的或据中随机提取4组记录:“其中, nf.-nf4frj组有32条记录;利用未经调整比例的建模数据集 直接进行建模。形成下面的5个划分(数据集):f与任1个nf(i =1.23.4) 结合在一起,形
9、成比例为50知50%致据集;f与任2个不可 ffl nf(i = 123,幻结合在一起,形成比例为33.33依:66.67啜敏相 果;(l)f与任3个不同的nf.(i = 1.23.4)合在一起,形成比例为 25%:75%»|km;®f与4个nf.(i= 1.2.3,4)结合在起,形成比 例为2<m:8o%敖宙集;未经调整比例的建模数据集,其比例 为2信用卡审批模型建立21建立模型所用方法论文用决策树5和神经网络方法w建立快型。2.1.1 c5.0算法少决策树分类方法姓伸有指导的学习力.法.决策树是 个类似于流程图的用结构,首先极抿训携样本数据见生成。如 果该,不能对
10、所有对蟹做出正瑜的分类,那么选择-些例外 的样本参加到捋中,重复源过程一直到形成正输的分类觊那么 集(决策情)虬址终结果的决策树中,叶结点代表类型或者类 型分布,内都结点对应于-个届性的测试.您个分枝代表-个 测试的输出,从根到叶结点的一条路径就对应假设,条,晚那么”最 为典型的决策树学习系统是id3,它采川自顶向卜.递归的各个 击破方式来构造决策统,算法c4.5和c5.0都龙1d3的扩展, 它们将分类领域从类别税性扩展到数值型(性。c5.0决策树采用增益率(gainrmq来构造,堪益率采用绘 合的炳值来度81.炳e(s)衡做数据集的无序程度,见式,其 中数抿集s包含类别clc2. -.cm.
11、 p(s)表示类别c在效据 集s中出现的概率取=-刃15。&心)0)设树性a具4 v个不舛的ffluaq、aj,可以用帽性a将 s划分为v个了集&s”斗 ,&1分别为t集&中各个类别 样本数的和冏为s中的样本总故,信副堵益(inform而睥gam) 用来度hl序散改道的结果,见式(2)gamlaelsi s 昌k)增益中包含把敬据集划分为更小有 序子集的属性a的保 差.要m少这个佚差,采用splidnfo来计算您个变妆相对于它 的m个变h值的俯,见式(3)字吹x5d = -£昌胰骨垠益军(gainr如o)采用gain除以splillnfo计算«
12、;到,见式 ,这样计小较大值敖据集的佩差5心=诚黔c5.0算法是通过在使增益辛触大化的时性上划分数据集 来构建一棵决策树。2.12神经网络算法最流行伯神经网络弃法是20世麹80年代提出他后向传 播律法后向传播逸过迭代增处理一组训练样本,将每个样 本的物络以测与实际如逍的类标弁比拟,i2行学习。对于每个训缘佯本,修改权,使得阳魅预测和实际类之间 的均方误差最小这种修改,后向进行.即由输出层,经由 每个ej畿层,到第一个隐皴层(因此称作后向传插)般来说 权将最终收敛,学习过程停止。算法描述如下所示:算法:后向传播。使用后向传播算法的神经向培分类学习一 2990- 输a:训练样本sample,学习率
13、】,多层前馈网络顷work. 籀出:一个训嫁的、对样本分英的神经网斜 方法:初始化xmw*伯权和偏置.祯讹终止条件不满足for siftphi中的每个训炼样本x (向前传播输入fm隐藏或输出层每个单元jli尸z尸以招;"相对于前一 层i,计算单元j的净输入 j 计算每个神经元j的稔出"后向传播误差for输出层每个单元j£>r=(xi-ox7:-q); 计算误差foi ilih后一个到第一个隐藏层,对于隐藏层每个单元j 饥=以1一。)£协叫;计算关于下一个较高层k 的误差for/rmjr*中句个权也(ah;=(a&r« 权增值=权更
14、新fornwur*中每个供贸妃m=(a£h; 精置增值 伊罗&?;) 偏置更新2.2梗型建立步骤论文用决策鸠和神经网络技术的结合使用来建立投型(1)酉先利用上俪数据依处理一节中介绍的不司比例的建 憧敬推集和输入变h珅山探变h逆行决策树和神经网洛建模, 然后分别逢出最正确的决策徊和神经网第模型.(2)分所以上述最正确的决策将(或神经网络)模型产生的依 测类标识厩性 $c-customcrclass( t»<$n-customcrc!ass> 如上晚来 的12个输入质性作为神经物胳(或决策树)校型的愉入域性,在 不同比例的建埃散推集上建立增加侦测类标识属性后
15、的神经 1可锵(或决策用)校塑,然后选出斌佳神经网路(或决策树戏型.3模型结果分析用上述不同比例的数据驱将增加镇测类标讥娜性的后的 决策树模型与神经网路校型的俱测结果通行比拟.模型预测 能力的比拟将从模型的总预测准瑜率和两类惜误率西个方面 进行不同比例效抿集建立的增加象测类标识决策蜩性前w和神经网络模型的,.表1所示由表知:比例为50%:50%、33.33%:66.67%和25%:71%的牧据集 增加预测类标识决策阳性后对神税网络和决策用松塑的准确 率耶有提有。比例为2*:80%和的数据集增加风性 后准确率几乎没有什么变化,这说明敖招集的数据越对祢那么 增加预测类标识决策熨性能提高模箜的准确率
16、坨加依胡类标识决策械性后,比例为33.33凭:66.67%的 数据琅建立的神经网络校塑虻好(准确率为&u猝),它比没付 时将到的奴好模型准确率(85.69%)提述了 2.80%(类型i错误 率不变前梃下人表1罕加同性帽的不同比例决策骨、神经格模型两关锚误中和准确书顿坚类型1 uti乂年r5inw;x增加技删关怵供 决策械性后1;前后决 策n比 例50*50*25.0012.5018.6718.6781 2«8143333:6647%25.0025.1)0如92d.4xms25:75%25.0025.0014.2312.6183 6987.2920% mi%5d.im)51)1
17、)08.4mk.4h91.1991.19l<k:6l.s%h7.5oh7.5o0.20ft2099.1099.10种 经 m 络比50:50%25.0025.0031.6915.44位.3784.4s33333:66.67%25.0025.0029.7711.4070.2788.4925:75%25.0025.0038.9511.6061.16源20:80%50.0050.006.666.8692.9992.7906l5%kk>im>87.5000.2099 2099.10(3)用原始比例数拥集(惴;61.5%)进行建sl"加预测关 标识决策信性后,不育是用决策树建
18、立的模型还是神经网 络建立的模型,都不可用.因类型i ffi®率(#客户错误地 划分为好”客户效目占实际”坏,客户故目的比例)均为 875%,这说明用具右相斜的数据如绝大局部数抿为.站客 户)建立的模型,那么检测的结果也几乎都为 w 客广.因此, 对于非对称数抿集 > 如果不进行敌抿集的比例调整 > 那么徉不到 正确的结果。4结束语木文利用决策树技术和神径网络技木研究了银行信用卡 审批何ss,并利用银行的实除蛟框,对校曳的效果进行了枪脸 和比拟,结果说明:(口增加预测类标识决策网性后的缺好模型比增加顶利美 标识决策阴性前(没有增加推测矣标识决策同性时)的岐好校 型准的率提
19、高了 2.80%(类型i请误率不支前提下 wft.w 当了信用卡市批准确率.(2)如果模型注立在一个极不对称的数据集上州很可能 得不到正赠的tsfflo这可能发生主要是因为那些被拒匏的申 谛者可能不会包含在构建模型的教据年中,因此就没有时机 (上抽第2988页)日甬,该痕成系统框架巳经在山西省电网公司山西省电 力科学研究院项日”电力企业标担化信息管理平台”中得到了 鹿用。该系统很好地将企业原有的人w管理、保险管理、对务 管理等多项异构数据库管理系统诳行了整合,搭建了一个在 办公自动化管理基砒上表达标准化的适合电力企业自身实际 需求的开放式的信恩管理平台,从而实现管理过程的自动化 和标准化。通过
20、实践应用证明.通过该系统框架对企业原有 异构欲推咚系统进行集成.可以高效现葩地实现异构敬据资 源的共享和系统何信息通讯,具有广泛的应用价<«.参考文献:hi 高发先专家论佶恩孤岛* i eb/0l.hup:/w 来偷知他们的信用价值件。因而,样本将会是有偏的(也就是 不同于一般总体),其中良好的客户大大的徊到了表现。使用 这一样本得到的模型通常将无法在完全的总体中表现良好, 用为用于购地模型的数据与将模型应用到的数据存在差异(3) 由丁炯加依测类插识决策属性后的最好梭堕的类型i 错设率为25侥,显然梏误率还是比拟高的,这说明在信用卡中 请审批方面还存在一定的监险,目前的审批政策
21、还比拟觅松, 还有需要改良和加强的地方.参考文献:iii karel komorad. on credit scoringcstimationldl. berlin: humboldt university. 2002. 邹权*于数据挖据的值用卡申ml者信用评分松型研究1dl西 南财经大学,2004.131很凌思,马少平j世焕玲.银行信用卡分类挖掘敬1k的fs处理u1 汁 i?机工程.2003.29(11): 195 197.4 salvatoiv j stolfo. david w fan. wenke lee.et al. credit card fiaud detection using
22、 nie(a*leaming: issues aiki initial fesultslc). proceedings of lhe aaai«97 w<wkslk>p <m m approaches (o fraud oclcclion and risk management mcnb parkca: aaai press j 997: 83-90.|5) lewis frey. douglas fisher. loannis tsamardiix>s. ci al. identifying maikov blanker with decision uee iikiik-t>on|c|. piocee- dingsofdw third i bee inlernaiinnul conference on daui mining. melbourne. florida: ieee computer society.2003:59-66.161 jiawci han. micbclinc kambcr,数据挖掘慨念与技术ml 范 明.滋4喊.洋.北京:机械工业出社如1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰采购制度流程
- 规避集中采购制度
- 设备设施采购处置制度
- 试验仪器采购管理制度
- 财务部采购付款制度范本
- 采购归口制度
- 采购报销各部门签字制度
- 采购晋级制度
- 采购档案管理相关制度
- 采购消毒液管理制度
- 《美丽的小兴安岭》新课标课件(第二课时)
- 内衬特氟龙不锈钢风管安装作业指导书
- 2024年信息技术基础考试复习题库(含答案)
- 环境监测行业环境监测与治理方案
- TCAPC 011-2024 零售药店经营自体嵌合抗原受体T细胞(CAR-T)治疗药品服务规范
- 《电子商务基础》课件-电子商务概念
- 小学数学课程标准(2022)解读
- 牧场上的家童声合唱谱小荧星
- 联芳园区规划小学新建工程项目
- 02324 离散数学 密训资料
- NB-T 10993-2022 风力发电机组 焊接机架
评论
0/150
提交评论