(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf_第1页
(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf_第2页
(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf_第3页
(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf_第4页
(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机应用技术专业论文)svdd算法研究及在信用卡欺诈检测中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 随着全球信用卡欺诈交易数量的惊人增长,信用卡欺诈手法的不断翻新,主 要表现为:冒用他人信用卡交易和恶意透支、伪造信用卡诈骗、使用作废信用卡 诈骗等,由此带来的损失也日益增加。如何能有效、快速、准确地识别出信用卡 欺诈交易已成为目前金融界普遍关心的问题。 数据挖掘技术的应用为信用卡欺诈提供了智能型的检测方法。已有方法主要 是将数据挖掘中的分类方法如贝叶斯算法、决策树算法和神经网络算法应用于信 用卡欺诈检测模型中。基于这三类算法的欺诈检测模型存在以下问题:因为是有 监督的欺诈检测,所以检测不出新类型的欺诈;建立模型所需数据集都属于银行 的保密资料,所用的代表欺诈信息的数据很难找到;因为合法交易往往比欺诈交 易多的多,所以存在严重的类别不平衡问题,这种不平衡会导致误分类,以至于 分类精度不高。针对以上存在的问题,本文提出将单值分类方法一支持向量数据 描述算法( s u p p o r tv e c t o rd a t ad e s c r i p t i o n ,s v d d ) 应用到欺诈检测模型的建立中。 单值分类方法属于无监督分类方法,只用一类数据建模,能够检测出新类型的欺 诈,并且也不存在类别不平衡问题。研究高效的s v d d 方法、如何将该方法应 用到欺诈检测模型中是本文研究的两个关键点。本文的工作如下: ( 1 ) 对支持向量数据描述分类方法进行分析,指出s v d d 方法的优缺点,分 析了将其应用于信用卡欺诈检测模型建立中的优势和不足。 ( 2 ) 提出一种k - m e a n s 聚类与改进的s v d d 算法结合的新的分类算法 ( k m d s v d d ) 。基于分而治之并行计算的思想,先用k - m e a n s 聚类将整个数据集 划分为k 个簇,再用改进的s v d d 算法并行训练k 个簇,最后再对获得的k 个局 部支持向量集训练,即得到最终的全局决策边界。讨论了聚类个数k 对训练时间 的影响,并给出了k 的选择方法。在合成数据和实际数据集上的实验结果表明, 所提算法具有高效率和高分类精度。 ( 3 ) 提出基于蚁群算法的k r n d s v d d 参数寻优方法。实验表明,k m d s v d d 算法中正则化参数c 和核参数仃的确定对其性能影响很大,为进一步提高分类 精度,将蚁群算法应用于k m d s v d d 参数的寻优中。首先由专家经验来确定这 两个参数的有效位,c 和仃在蚁群系统中由节点值体现,激素物质遗留在蚂蚁所 江苏大学硕士学位论文 走过的每个节点上,用k - f o l d 交叉验证平均分类错误率作为目标函数值来更新信 息素的浓度,这样搜索出来的最终路径代表模型此时具有最好的建模精度。与直 接采用交叉验证方法比较,证明了该方法能够进一步提高分类精度。 ( 4 ) 提出基于k m d s v d d 算法的两阶段信用卡欺诈检测模型。该模型利用整 群有相似消费行为的持卡人来取代原先单一的持卡人,克服了采用单一持卡人时 交易记录数据不足的缺陷。通过与其他模型比较,验证了该模型的有效性。 关键词:数据挖掘,欺诈检测,单值分类,支持向量数据描述,k - m e a n s 聚类, 参数优化 i i 江苏大学硕士学位论文 a b s t r a c t w i t ht h eg l o b a lg r o w t ho ft h ec r e d i tc a r df r a u dt r a n s a c t i o n ,c r e d i tc a r df r a u d t e c h n i q u e sa r ec o n s t a n t l yd e v i s e d m a i n l ya sf o l l o w s :f r a u d u l e n tu s eo fc r e d i tc a r d so f o t h e r s ,c o u n t e r f e i t i n gc r e d i tc a r d sf o rf a d i n g ,u s i n go fi n v a l i dc r e d i tc a r da n ds oo n t h el o s s e sc a u s e db yt h ec r e d i tc a r df r a u da r ei n c r e a s i n g h o wt oe f f e c t i v e l y , q u i c k l y a n da c c u r a t e l yi d e n t i f yf r a u d u l e n tc r e d i tc a r dt r a n s a c t i o n sh a sb e c o m et h ec o m m o n c o n c e r ni nt h ef i n a n c i a ls e c t o r d a t am i n i n gt e c h n o l o g yp r o v i d ei n t e l l i g e n td e t e c t i o nm e t h o df o rc r e d i tc a r df r a u d m o s to ft h ee x i s t i n gm e t h o d sm a i n l ya p p l yt h ec l a s s i f i c a t i o na l g o r i t h ms u c ha s b a y e s i a nc l a s s i f i c a t i o na l g o r i t h m ,d e c i s i o nt r e ea n dn e u r a ln e t w o r kt oc r e d i tc a r d f r a u dd e t e c t i o nm o d e l s t h ef r a u dd e t e c t i o nm o d e l sb a s e do nt h e s et h r e et y p e so f a l g o r i t h m s h a v et h e f o l l o w i n gp r o b l e m s :t h e s e sa l g o r i t h m s a r e s u p e r v i s e d c l a s s i f i c a t i o na l g o r i t h m s ,s os o m en e wt y p e so ff r a u dc a l ln o tb ed e t e c t e d ;d a t as e t s r e q u i r e df o rt h em o d e l sb e l o n gt ob a n k i n gs e c r e c yi n f o r m a t i o n ,s oi ti sv e r yd i f f i c u l t t of i n ds a m p l e so nb e h a l fo ff r a u di n f o r m a t i o n ;b e c a u s el e g a lt r a n s a c t i o n sa r eo f t e n m u c hm o r et h a nt h ef r a u d u l e n tt r a n s a c t i o n s ,c l a s si m b a l a n c ep r o b l e mi ss e r i o u sa n di t m a y l e a dt om i s c l a s s i f i c a t i o n ,s ot h ec l a s s i f i c a t i o na c c u r a c yi sl o w t os o l v et h ea b o v e p r o b l e m s ,t h i sp a p e rp r o p o s e s t h a tw ec o u l d a p p l yo n e c l a s s c l a s s i f i c a t i o n m e t h o d s u p p o r tv e c t o rd a t ad e s c r i p t i o n ( s v d d ) t ot h em o d e lo ff r a u dd e t e c t i o n o n e c l a s sc l a s s i f i c a t i o nm e t h o d sa r eu n s u p e r v i s e dc l a s s i f i c a t i o n , t h e yb u i l dm o d e l s o n l yu s i n go n ec l a s sd a t a , s os o m en e wt y p e so ff r a u dc o u l db ed e t e c t e da n dc l a s s i m b a l a n c ep r o b l e mi s s o l v e d r e s e a r c h i n go nt h es v d da l g o r i t h mf o rf i n d i n ga m e t h o dw i t hh i g he f f i c i e n c ya n dh o wt oa p p l yi tt ot h em o d e lo f 行a i i dd e t e c t i o na r e t h et w ok e yp o i n t si nt h i sp a p e r t h ec o n t r i b u t i o no ft h ep a p e ri sa sf o l l o w s : ( 1 ) a n a l y z et h es u p p o r tv e c t o rd a d ad e s c r i p t i o na l g o r i t h m a n ds p e c i f yi t s a d v a n t a g e sa n dd i s a d v a n t a g e s ,t h e np o i n tt h es t r e n g t h sa n dw e a k n e s s e si na p p l y i n g t h i sa l g o r i t h mt os e tu pt h em o d e lo fc r e d i tc a r df r a u dd e t e c t i o n ( 2 ) p r o p o s ean e wc l a s s i f i c a t i o na l g o r i t h mk - m e a n sc l u s t e r i n gc o m b i n e dw i t h i m p r o v e ds v d d ( k m d s v d d ) b a s e do nt h ei d e a o fd i v i d e a n d c o n q u e ra n d i i i 江苏大学硕士学位论文 p a r a l l e lc o m p u t i n g , i tf i r s td i v i d e st h ew h o l ed a t as e ti n t okc l u s t e r su s i n gk - m e a n s c l u s t e r i n ga l g o r i t h m t h e n ,i tt r a i n st h ekc l u s t e r si np a r a l l e lb yi m p r o v e ds v d d f i n a l l y , i tt r a i n s t h eko b t a i n e dl o c a ls u p p o r tv e c t o rs e t sa n dg e t st h ef i n a lo v e r a l l d e c i s i o nb o r d e r i na d d i t i o n ,i td i s c u s s e st h en u m b e ro fc l u s t e r sko nt h ei m p a c to f t r a i n i n gt i m ea n dg i v e st h em e t h o do fh o wt oc h o o s e 幺s y n t h e t i cd a t aa n dr e a ld a t a e x p e r i m e n t a lr e s u l t ss h o w st h a tt h ep r o p o s e dm e t h o dh a sh i g he f f i c i e n c ya n dh i g h c l a s s i f i c a t i o na c c u r a c y ( 3 ) p r o p o s eap a r a m e t e r so p t i m i z a t i o nm e t h o df o rk m d s v d da l g o r i t h mb a s e d o na n tc o l o n ya l g o r i t h m e x p e r i m e n t ss h o w st h a tr e g u l a r i z a t i o np a r a m e t e rca n d k e r n e lp a r a m e t e r 仃i nt h ek m d - s v d da l g o r i t h mh a v eag r e a ti n f l u e n c eo ni t s p e r f o r m a n c e ,t of u r t h e ri m p r o v et h ec l a s s i f i c a t i o na c c u r a c y , i ta p p l i e sa n tc o l o n y a l g o r i t h mt op a r a m e t e r so p t i m i z a t i o nf o rk m d s v d d f i r s to fa l l ,d e t e r m i n et h e e f f e c t i v eb i to ft h e s et w op a r a m e t e r sb yt h ee x p e r i e n c eo fe x p e r t s ,ca n d 仃a r e r e f l e c t e db yt h en o d ev a l u ei nt h ea n tc o l o n ys y s t e m p h e r o m o n ei sl e f to nt h ee a c h n o d et r a v e r s e db yt h ea n t s u s et h ek - f o l dc r o s s v a l i d a t i o na v e r a g ec l a s s i f i c a t i o ne r r o r r a t ea st h eo b j e c t i v ef u n c t i o nv a l u et ou p d a t et h ec o n c e n t r a t i o no fp h e r o m o n e i nt h i s w a y , t h eu l t i m a t ep a t hs e a r c h e do u tr e p r e s e n t sm o d e l 、析t ht h eh i g h e s ta c c u r a c y c o m p a r e 、航mu s i n gc r o s s - v a l i d a t i o nm e t h o dd i r e c t l y , t h em e t h o dp r o p o s e di nt h i s p a p e rc a nf u r t h e ri m p r o v et h ec l a s s i f i c a t i o na c c u r a c y ( 4 ) p r o p o s eat w o s t a g e m o d e lo fc r e d i tc a r df r a u dd e t e c t i o nb a s e do n k m d - s v d da l g o r i t h m t h i sm o d e lu s e st h ee a r d h o l d e r st h a th a v es i m i l a rc o n s u m i n g b e h a v i o ri np l a c eo ft h eo r i g i n a ls i n g l ec a r d h o l d e r t h u s ,i tc o u l do v e r c o m et h ed e f e c t o fl a c k i n go ft r a n s a c t i o nd a d aw h e nu s i n gas i n g l ec a r d h o l d e r i tv e r i f i e st h ev a l i d i t y o ft h em o d e lb yc o m p a r i n gw i t ho t h e rm o d e l s k e yw o r d s :d a t am i n i n g ,f r a u dd e t e c t i o n ,o n e - c l a s sc l a s s i f i c a t i o n ,s u p p o r tv e c t o rd a t a d e s c r i p t i o n ,k - m e a n sc l u s t e r i n g ,p a r a m e t e ro p t i m i z a t i o n i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密电 学位论文作者签名:安i l 轴扛 如f o 年石月g 日 指删撇:首彪 纱f 。年月7 日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 纠帕如 日期:w f o 年石月8e t 江苏大学硕士学位论文 1 1 研究背景和意义 第一章绪论 信用卡作为一种先进的金融支付工具,因其方便、快捷、安全的结算特点而 倍受青睐,预计到2 0 1 3 年,我国信用卡将成为仅次于房贷的第二大零售信贷产 品,占零售信贷利润总额的2 2 ,占整个银行业利润的1 4 左右【l 】。信用卡的普 及应用也诱发了各类违法交易事件的孪生,信用卡欺诈使持卡客户、商家、商业 银行等利益相关者饱受经济侵害。欺诈风险控制问题已经成为制约我国信用卡业 务进一步发展的一大因素。 在信用卡的欺诈识别研究上,金融机构最早利用经验知识进行人工手动识 别,随后利用统计方法或专家系统,对资料进行分析,选取一定量的指标,比较 计算j x l 险得分或进行信用评分。但是,专家系统所面临的一些困难和问题也随着 研究的进一步深入而逐步暴露出来了。专家系统中的知识库和知识都是由人工提 取,归纳总结后用适合机器存储的应用方式表达出来,也就是说机器所具有的知 识是由人工灌输给机器的,因此专家系统只是一个模式匹配系统。知识的获取和 知识的有效表达形式成为影响专家系统的一个“瓶颈问题。面对复杂多样的欺 诈手段,专家知识往往不全面不精确;另一方面,专家仅仅集中分析已知的欺诈 方式,所以无法检测出新的欺诈手段,需要时间去学习新的欺诈方式,因此,对 新欺诈方式的检测延时太大。这些都影响了专家系统在欺诈检测领域的应用和发 展。 随着信息技术的发展和数据挖掘方法的推进,学者们开始致力于将数据挖掘 的方法应用到欺诈识别和侦测上来。从单一的模式识别方法如神经网络、决策树 到组合方法,再到分布式数据挖掘,这些都为定制智能型反欺诈策略提供了科学 的依据。虽然该智能检测方法克服了专家系统知识获取方面的缺陷,但同时也存 在以下问题:这些用于欺诈识别的方法都是有监督的分类方法,都是用已经标记 好的交易记录训练得出的模型,所以同样检测不出来新类型的欺诈;这些有监督 的分类方法都需要欺诈和j 下常交易两类数据,这些资料都属于银行的保密资料, 代表欺诈信息的数据很难得到;以上方法还存在严重的类别不平衡问题,这种不 平衡会导致误分类,以至于分类精度不高。为了克服以上问题,我们试图寻找一 江苏大学硕士学位论文 种方法,可以只用一类数据( 正常交易记录) 建立欺诈识别模型。 单值分类方法只用一类样本数据就能建立起分类模型,特别适合于一类样本 数据很容易得到而另一类样本数据由于经济或其他方面的原因很难甚至不能得 到的场合。因而,本文提出将单值分类方法应用于信用卡的欺诈检测模型中,仅 仅依靠正常交易的样本就可以建立起欺诈检测分类器,对欺诈交易进行识别。支 持向量数据描述算法( s u p p o r tv e c t o rd a t ad e s c r i p t i o n ,s v d d ) 是近几年研究发展 起来的一种单值分类方法,现已成功应用在语音识别、图像处理、计算机入侵检 测等领域。由于该方法利用比较少的样本就可以得到较好的效果,跟其他方法( 如 神经网络方法) 相比,具有计算速度快、鲁棒性强、分类效果好、可有效处理小 样本数据等优点,完全可以满足在线监测的要求。因此,本文将聚类方法和改进 的s v d d 方法结合提出一种高分类精度的单值分类算法k m d s v d d ,并将其应 用于欺诈检测模型的建立中。这为研究欺诈识别提供了新的方法,在实际应用中 可以减少欺诈交易误分类为正常交易带来的损失。因此,该方法在欺诈识别领域 具有重要的推广价值和广泛的应用前景。 1 2 欺诈检测的发展现状 1 2 1 国外研究现状 在国外,信用卡交易方面的数据挖掘研究工作开展的比较早。在学术界取得 了不少关于信用卡交易欺诈风险检测研究成果。 1 单一分类方法 ( 1 ) 决策树 信用卡消费记录与一般的交易资料并不相同,其资料之间存在某种程度的关 联性。例如,背景资料相近的消费者,可能具有相似的消费习惯,同一位消费者 所产生的消费记录,大多种类相似或金额相近;每件商品通常拥有固定的消费群。 在利用关联规则找出消费者基本资料和消费行为之间的关系后,就可以利用决策 树来进行欺诈识别。 k o k k i n a k i t 2 1 使用决策树和布尔逻辑函数去勾勒出每一位合法顾客的行为,从 一般情况出发,结合聚类分析侦测出合法交易与欺诈交易的区别,从而根据规律 来区分出每一位合法顾客的信用卡交易。t s a i 等3 l 贝, t j 介绍了一个欺诈模式挖掘算 2 江苏大学硕士学位论文 法,该算法由a p r i 耐【4 】修改而来,挖掘一个一般的信用卡欺诈数据的形式。 ( 2 ) 神经网络 神经网络算法是信用卡欺诈识别领域研究最多的算法,取得的研究成果也是 最多的,主要有g h o s h 等【5 1 ,b r a u s e 等1 6 1 ,a l e s k e r o v 等7 1 ,以及s y e d a 等【8 1 。文 献【5 使用一个三层反向传播的径向基( r a d i a lb a s i cf u n c t i o n ,i m f ) 神经网络,并可 以在一笔新的信用卡交易后两小时立即计算出一个欺诈分数,从而来判断该笔是 否为欺诈交易;文献 6 】用自动结合的神经网络一一个隐藏层、相同数量的输入 和输出神经元来识别每一个信用卡账户的合法交易;文献【7 】提出在并行的机器 上,对特殊客户的信用卡欺诈交易,使用模糊神经网络找出欺诈规律,并指出模 糊神经网络可以快速地产生该规律。 ( 3 ) b a y e s 网络 m a e s 等 9 1 对神经网络和贝叶斯网络进行比较研究,结合贝叶斯算法和神经 网络算法应用到信用卡交易欺诈侦测,经过数据试验得出贝叶斯网络更准确,训 练速度更快,但学习速度比较慢。 ( 4 ) 其他单一分类方法 d o r r o n s o r o 等f l o 】在不需要知道每个交易的类别的基础上使用非线性判别分 析算法,最小化了类别内的和类别间的距离。由于并不是每一个信用卡账户过去 的交易都有记录,所以将交易数据按照不同的地理位置来划分。作者还指出该侦 测系统的f p 比较低,成本大大节约,计算效率也非常快;w h e e l e r 等【1 1 】应用案 例推理,认为一些最难分析处理的例子在现有的算法和技术下会被错误分类,诊 断有用的多种选择标准( 概率曲线,最佳匹配,错误选择、密度选择、违约) 和方 法策略( 连续r e s o l u t i o n d e f a u l t 、b e s tg u e s s 和组合置信) ,c b r 比一般的算法有高 2 0 的t p 和f p ;b e n t l e y 等【1 2 】使用遗传规划和模糊逻辑来产生规则进行分类, 并将其应用到信用卡交易数据来识别欺诈交易。 ( 5 ) 多种分类方法结合 r i c h a r d 等【1 3 1 曾对一般信用卡持卡者,利用申请背景材料及使用者的缴款资 料,先利用决策树找出破产相关因子,再利用遗传神经网络预测信用卡持卡者的 破产时机,从而判断欺诈交易;p e t e r 等【1 4 1 利用改进后的模糊系统从信用卡交易 数据侦测出欺诈类和非欺诈类。使用遗传规划和模糊逻辑来侦测欺诈和非欺诈交 江苏大学硕士学位论文 易,描述了一个针对新问题的委员会决策制定系统;k i m 等f 1 5 】建议用决策树来 划分输入空间,t a n h 函数作为权重产生欺诈密度,再使用b p 神经网络产生有权 重的欺诈分数进行欺诈识别;b r a u s e 等【6 】也曾提出用r b f 神经网络和关联规则 结合来进行欺诈监测;m a e s 等 9 1 采用神经网络和贝叶斯网络进行比较研究,使 用s t a g e 算法( 贝叶斯) 和b p 算法( 神经网络) 应用到信用卡交易欺诈侦测,经过 数据试验得出贝叶斯网络更准确,训练速度更快,但学习速度比较慢。 2 组合分类器 s t o l f o 等和s t o l f o 等基于局部使用不同的欺诈识别工具的基础上,产 生了一个更加精确的全局方法,构建了一个用元学习分类系统来识别信用卡欺 诈;c h a n 等【1 8 】对该模型又进行了进一步的改进,描述了一个更加符合实际的价 值模型,得出了不同的分类结果,他们使用朴素贝叶斯、c 4 5 、c a r t 和r i p p e r 作为元分类器利用s t a c k i n g 算法组合分类器结果说明该模型成本大大减少、效率 提高;w h e e l e r 等也利用多种分类方法结合进行欺诈侦测和识别;f a n i 例,w a n g 等【2 0 】描述了剪枝后的分类器算法c 4 5 ,对每个元分类器赋予权重,根据期望和 平均输出进行结果评价,发现在信用卡的欺诈识别上组合分类器要比单个的分类 器效果好。而银行间分布式的欺诈交易是以不同形式存储的,从而阻碍了银行不 同类型的软件之间的数据交换。信用卡欺诈模式侦测的协作式欺诈模式挖掘服 务。利用d i v i d ea n dc o n q u e r 与n e t w o r k 的方式,来对多个分散地点( s i t e s ) 的资料, 分享信息并建立多个m e t a - c l a s s i f i e r 。 1 2 2 国内研究现状 在国内,由于信用卡业务起步较晚,对于信用卡欺诈的潜在风险缺乏足够的 认识,远未形成一套完善、高效的规避风险的防控机制。 黄棕盛【2 1 】采用聚类和分类结合的方法,根据个人持卡消费行为,分别对持卡 人资料和消费行为资料聚类,再利用决策树进行分类,并找出彼此间的相关行, 新的信用卡交易就可以根据这种相关性来判断究竟是合法交易还是欺诈交易。 盛昭瀚,柳炳祥两人口2 1 将粗集和神经网络结合,首先通过粗集减少信息表达 的属性数量,去掉冗余信息,使训练集简化,减少神经网络系统的复杂性和训练 时间,再利用神经网络优良的并行处理、逼近和分类能力来对欺诈类交易和非欺 诈类交易进行区分识别。当然,粗集的目的是约简属性,他们还使用了基于距离、 4 江苏大学硕士学位论文 案例推理等方法进行欺诈识别。 吴婷【2 3 】在解决样本分布不平衡基础上采用了支持向量机和决策树的组合分 类器对单个客户的交易历史数据的规律学习,进而利用建立的模型对新的交易记 录检测是否为欺诈,并分别与支持向量机和决策树的单分类器作了比较,发现组 合分类器在性能上比单分类器高。 纵观国i x 多, 1 - 关于信用卡欺诈识别方面的参考文献,学者们特别是国外的已取 得了大量的研究成果,主要是集中在分类识别的模型和方法上,从单一的模式识 别方法如神经网络、决策树到组合方法,再到分布式数据挖掘,这些都为制定智 能型反欺诈策略提供了科学的依据。但是上述的方法也存在以下几个问题: ( 1 ) 以上方法大都是用标记好的正常的交易记录和欺诈的交易记录集进行 训练,得出模型检测新交易的类型,即有监督的欺诈检测,所以这种方法检测不 出新类型的欺诈。 ( 2 ) 需要对建立模型所用的数据的类别非常自信,但是我们在很多情况下很 难得到欺诈交易的信息,因为这些资料都属于银行的保密资料,所以建立分类模 型所用的代表欺诈信息的数据很难得到。 ( 3 ) 以上方法中还面临严重的类别不平衡问题,因为合法交易往往比欺诈交 易多的多,这种不平衡会导致误分类,以至于分类精度不高。 通过分析国内外学者在解决欺诈识别上存在的问题,采用单值分类器对数据 建立模型,只利用一类正常的交易数据训练模型,不仅避免了类别不平衡问题, 而且还能检测出新类型的欺诈。 1 2 3 单值分类方法的提出 单值分类是一种较为特殊的模式分类问题2 4 1 ,在单值分类问题中,需要作出 的判断是某个模式属于或者不属于单个类别。把这个较为特殊的类别以及区分该 类别的模式类分别叫做正常类和异常类。 正常类:该类别的模式样本一般被认为是具有某个分布,而且用于训练单值 分类器的样本也全部来自该类别。训练样本集不一定需要满足正常类的样本分 布,但是训练样本集至少可以反映出正常类的区域分布。异常类:该类别的样本 分布未知,也有可能是该类别的样本很难获取,或者是要付出较高的代价才可以 获取到。单值分类器不对该类别的样本进行训练,只是在判断时鉴别出新样本是 江苏大学硕士学位论文 否属于正常类( 不属于正常类即意味着属于异常类) 。如果把正常类看成一个集 合,那么异常类就恰好是正常类的补集。由于训练样本仅来自正常类,因此这种 分类器被称作为单值分类器。 比如要对苹果和梨子进行分类,那么我们就遇到了一个两类分类问题,该问 题可以用多种常用模式识别方法解决。接着如果我们需要处理其前提问题,就是 判断一种水果是否属于苹果和梨子组成的集合,这就产生了一个单值分类问题。 在这个新问题中,我们需要判断的是一种水果究竟是属于还是不属于苹果和梨子 这个类别。该问题与前面的两类问题的区别在于:在训练阶段,可以获得很多的 苹果和梨子样本,但是不管怎么获取其他水果的样本,都不足以表达异常类的分 布( 不可能把世界上所有除梨子和苹果的水果罗列出来) ,或者异常类根本就不存 在某种分布。这就形成了一个单值分类问题,而对于两类分类问题,苹果和梨子 的训练样本可以提供很多。 单值分类器由于其特殊性,一般可以用于解决如下问题: ( 1 ) 类别样本数目不平衡问题:比如两个训练类别中的样本数目比例高至9 : l ; ( 2 ) 异常样本获取代价高的问题:比如某些故障诊断,要获取故障样本所付 出的代价太高,不可能为了获取故障样本而特意让机器出现故障; ( 3 ) 异常样本数目几乎无穷问题:比如既不是苹果也不是梨子的水果多的数 不清,根本就不清楚该拿哪些水果样本来训练。 本文中的欺诈检测就是适合单值分类处理的问题,信用卡交易数据存在严重 的类别不平衡问题,并且很容易获得正常交易的数据集,很难获取欺诈交易所形 成的异常类中的样本来满足异常类的分布情况。所以本文试图用单值分类算法来 建立欺诈检测模型。 1 3 主要研究内容 本文的主要内容是首先对单值分类方法一支持向量数据描述算法( s u p p o r t v e c t o rd a t ad e s c r i p t i o n ,s v d d ) 研究,降低其计算复杂度,提高分类精度,在此 基础上将其应用到信用卡的欺诈检测模型中,主要从以下几个方面进行研究: ( 1 ) 简要概述了信用卡相关知识、欺诈风险管理及数据挖掘技术的功能、过 6 江苏大学硕士学位论文 程和发展前景,着重介绍了支持向量数据描述单值分类算法,指出支持向量数据 描述算法的优缺点,并提出将其应用于欺诈检测模型的思想: ( 2 ) 提出一种新的分类方法k m d s v d d 。为提高算法效率和分类精度,基 于分而治之并行计算的思想提出一种k - m e a n s 聚类与改进的s v d d 结合的新的分 类算法( k i n d s v d d ) 。因为分类边界完全由支持向量决定,所以先用k - m e a n s 聚 类将整个数据集划分为k 个簇,再用改进的s v d d 算法并行训练k 个簇,最后再 对获得的k 个局部支持向量集训练,即得到最终的全局决策边界;然后讨论聚类 个数k 对训练时间的影响,并给出k 的选择方法;最后在合成数据和实际数据集 上进行实验,并与相关算法比较,验证所提算法具有高效率和高分类精度; ( 3 ) 提出基于蚁群算法的k m d s v d d 参数寻优算法。正则化参数c 和核参 数盯的确定对k m d s v d d 算法性能影响很大,通过实验分别说明两个参数是如 何影响分类性能的。基于蚁群算法具有并行性、正反馈性、求解精度高、鲁棒性 强等优点,提出将蚁群算法应用与k m d s v d d 算法的参数寻优,同时优化这两 个参数。首先由专家经验来确定这两个参数的有效位,c 和仃在蚁群系统中由节 点值体现,激素物质遗留在蚂蚁所走过的每个节点上,用k - f o l d 交叉验证平均分 类错误率作为目标函数值来更新信息素的浓度,这样搜索出来的最终路径代表模 型此时具有最好的建模精度。通过实验将基于蚁群算法进行参数寻优的算法性能 与直接采用k - f o l d 交叉验证方法的算法性能进行比较,验证所提算法的有效性。 ( 4 ) 提出基于k m d s v d d 算法的信用卡欺诈检测模型。由于单一持卡人的 过去消费行为通常数量不多,甚至如果是一位新的持卡人,其根本不会有所谓的 历史资料,因而提出利用整群有相似消费行为的持卡人来取代原先单一的持卡 人,提出两阶段欺诈检测模型。即先用k - m e a n s 聚类算法将所有持卡人聚类,分 到同一簇中的持卡人具有相似的消费行为,然后根据所要检测的交易记录,取出 对应的同一个簇中持卡人的所有交易记录采用k m d s v d d 单值分类算法建立交 易风险检测模型,若该交易被模型接受那么该交易为正常交易,此次交易继续进 行,否则该交易为欺诈交易,终止此次交易。在建模之前,根据信用卡数据的特 点及所用数据挖掘方法对数据的要求对信用卡数据进行预处理。最后通过实例验 证所提模型的有效性,并与已有模型比较其性能。 7 江苏大学硕士学位论文 1 4 论文的组织结构 本文由如下几部分组成: 第一章绪论:简要介绍了本文研究背景意义和国内外发展现状,并讨论了 现有方法存在的缺点,引出将单值分类方法- - s v d d 方法应用于欺诈识别模型 中,对本文的研究内容进行了简要介绍,给出文章的组织结构; 第二章信用卡欺诈检测相关技术:对信用卡相关知识、欺诈风险和数据挖 掘方法作了简要概述,着重介绍了支持向量数据描述方法( s v d d ) 单值分类方 法,并分析了s v d d 方法的优缺点。 第三章k - m e a n s 聚类与s v d d 结合的新的分类算法( k m d s v d d ) :为了 s v d d 的分类精度,引入局部疏密度提出了改进的s v d d 算法,提高了分类精 度,但增加了计算复杂度。为此,采用k - m e a n s 聚类先将整个数据集划分为k 个 簇,再用改进的s v d d 算法并行训练k 个簇,最后再对获得的k 个局部支持向量 集训练得到最终的全局决策边界。理论和实验证明所提算法能够提高分类精度和 算法效率。 第四章k m d s v d d 算法的参数选择:首先介绍了s v d d 算法中正则化参 数c 和核宽度参数仃选择的意义和已有方法,用实验的方法说明两个参数对分 类边界的影响,进而提出用蚁群优化算法来对两个参数进行优化,实验结果表明 所提方法进一步提高了算法的分类准确率。 第五章基于单值分类的信用卡欺诈检测模型研究:基于k m d s v d d 算法 提出了两阶段信用卡欺诈检测模型,通过实证研究,针对本课题进行数据预处理, 并对该模型的检测结果与其他研究进行对比,验证该模型的可行性。 第六章总结与展望:对以上五章工作进行总结,分析不足并拓展未来的研 究方向。 8 江苏大学硕士学位论文 第二章信用卡欺诈检测相关技术 2 1 信用卡定义 所谓信用卡,是指银行、金融机构或专营公司向资信良好的单位、个人签发 的,可以在指定的商店或场所进行直接消费的,并可在发卡银行或联营机构的营 业点存取款、办理转账结算的一种信用凭证和支付工具。按国际通行惯例的解释, 它具有循环信贷、转账结算、存取现金等功能和“先消费,后还款 、无须担保 人和保证金、可按最低还款额分期还款等特点。 随着信用卡业务的发展,信用卡的种类不断增多,概括起来,一般有广义信 用卡和狭义信用卡之分。 从广义上说,凡是能够为持卡人提供信用证明、持卡人可凭卡购物、消费或 享受特定服务的特制卡片均可称为信用卡。广义上的信用卡包括贷记卡、准贷记 卡、借记卡等。 从狭义上说,信用卡主要是指由银行或其它财务机构发行的贷记卡,即无需 预先存款就可贷款消费的信用凭证和支付工具。贷记卡是指发卡行给予持卡入一 定的信用额度,持卡人可在信用额度内先消费、后付款的信用卡。准贷记卡是指 持卡人须先按发卡行要求交存一定金额的备用金,当备用金账户余额不足支付 时,可在发卡行规定的信用额度内透支的信用卡。借记卡按功能不同分为转帐卡、 专用卡、储值卡,借记卡不具备透支功能【2 5 】。 2 2 信用卡风险管理概述 近年来,随着经济的发展与世界各国金融市场的开放趋势,我国政府积极推 动各种有关金融自由化与国际化的措施,导致国内信用卡市场不断成长,以信用 卡为媒介的交易行为不断激增,已有超过现金及票据交易的趋势。信用卡业务也 成为银行一个重要的业务收入来源。各家银行为了提高发卡量,除了以多项优惠 活动吸引顾客申办信用卡外,还降低申请资格门槛,以较宽松的信用卡授权原则 办理信用卡核发。在如此激烈的竞争环境下,持有多卡便于消费者的消费活动, 但也有潜在的风险问题,难免会导致信用卡逾期比率提高,催收成本增加,发卡 9 江苏大学硕士学位论文 银行所承受的风险加大。 2 2 1 信用卡欺诈风险的概念和特点 信用卡欺诈风险是指以非法占有、骗取财物为目的,偷窃、骗领、冒用或使 用伪造、变造、作废的信用卡,欺诈发卡行、受理行和特约商户等所造成的风险。 目前此风险造成的损失的大部分由发卡行来承担。这种风险形式多样,性质恶劣, 是国有商业银行最难防范的风险。近年来,信用卡欺诈的发展呈现出以下几方面 的特点: ( 1 ) 信用卡欺诈的国际性趋势逐渐突出。主要表现在:许多信用卡欺诈的手 法都是从境外传入的,境内外罪犯联手作案比例高,且基本上均是由境外的罪犯 预谋策划,境内罪犯具体实施诈骗。 ( 2 ) 信用卡欺诈案件发案率逐年上升。全球范围内的贷记卡( 信用卡) 和借 记卡应用中,不法欺诈行为持续增长,连创历史新高。 ( 3 ) 信用卡欺诈案件所涉案值增大。根据中国人民银行粗略估算,我国目前 每年银行卡案件涉及金额在1 亿元左右,并呈现出逐年上升的趋势。 ( 4 ) 信用卡欺诈犯罪手段逐步智能化、多样化。从目前破获的类似案件来看, 采取i n t e m e t 、a t m 、手机短信等方式的欺诈犯罪,已经成为信用卡欺诈犯罪的 重要方式。 2 2 2 信用卡欺诈风险来源 以欺诈者在交易中的不同角色进行分类,欺诈来源可以分为商家欺诈、持卡 人欺诈和第三方欺诈f 2 6 】: ( 1 ) 商家欺诈。商家欺诈来源于合法商家的不法雇员或者与欺诈者勾结的不 法商家。在现实中,商家雇员有条件接触到顾客的卡信息,甚至持卡离开顾客的 视线,这都给不法雇员带来了复制或保留卡信息的机会。在互联网与m o t o ( 邮 购与电话购物) 环境,商家可能会对客户数据库进行加密与防火墙保护,但也难 免泄露给本单位的雇员。不法商家通过互联网可以更加隐蔽地伪装自己,通过与 知名商店相近的域名或者邮件引导消费者登录自己的网址。消费者难以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论