已阅读5页,还剩56页未读, 继续免费阅读
(工商管理专业论文)基于分类技术的电子支付平台作弊财户的识别模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江工业大学硕士学位论文 基于分类技术的电子支付平台作r 摘要 随着电子支付平台交易量、虚拟货币的发行和流通量越来越大,涉及的账户 越来越多,导致沉淀资金、洗钱、套现、作弊等信用问题愈加突出,已逐渐成为 制约电子商务发展的最大瓶颈。由于信用违约的行为形式多样,技术手段高明而 隐蔽,具有很大的差异性和与时俱进。目前电子支付公司采用一系列的安全产品 更多的是防范,而缺少主动出击,单靠经验和人工审核办法还很难以捕捉。因此, 电子支付公司需要加强技术,主动有效地防范和化解信用风险,提高企业信用甄 别与风险管理的水平和能力。 本文从“作弊用户希望用较少的钱、短时间把信誉提高”的心理角度考虑,给 出了作弊账户定义,并对作弊账户和正常账户相比更具有批量注册、交易金额非 常低、交易的时间非常集中等特点。 针对作弊帐户识别问题,l a c h ( 1 9 9 9 ) 指出可以利用数据挖掘中基于i d 3 和 c 4 5 的树分类技术识别和理解的作弊行为模式,定位高作弊嫌疑的账户,缩小 范围后再通过人工审核,从而较精确捕捉到作弊账户。并基于一电子商务公司作 弊的简单实例数据,利用树算法i d 3 ( m i t c h e l l ,1 9 9 7 ) 和c 4 5 ( q u i n l a n ,1 9 9 3 ) ,建立 识别模型。虽然i d 3 和c 4 5 算法对训练样本集的学习中尽可能多地挖掘信息, 但生成树分枝较多,规模较大。为了简化树算法,提高效率,又出现了根据g i n i 系数作为分裂规则的c a r t 算法,其结构简单、易于理解的二叉树。再考虑到现 实中的数据质量问题,鉴于树算法对孤立点有免疫力和自动处理缺失数据的优 点,所以选择c a r t 树算法作为主要建模工具。另外,单一c a r t 树会具有不 稳定性的缺点,可以通过组合技术,提高稳定性和精度,所以便有了多树的 t r e e n e t 算法( f r i e d m a n ,2 0 0 2 ) 。 本文以电子支付平台数据集作为实例,把作弊账户和正常账户进行对比分 析,基于逻辑回归、c a r t 和t r e e n e t 算法建立识别模型,通过在验证数据集上 比较,发现属于非参数方法的c a r t 和t r e e n e t 算法好于属于参数方法的逻辑回 归算法,多树t r e e n e t 模型在性能上好于单一树c a r t 模型,但模型解释性没有 这么好。考虑到系统的实现和业务解读,通常在不牺牲精度的情况会优先选择 c 舢玎模型。 最终模型的结果可以翻译成通用语言( 比如c 和j a v a 语言) ,整合到营销 平台和相应的分析报告中,以便日后的分析和日常运营决策。 关键词:信用风险,作弊,数据挖掘,分类技术,c a r t ,t r e e n e t 浙江工业大学硕士学位论文 基于分类技术的电子支付平台作弊账户的识别模型研究 i i 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 a b s t r a c t a st h ev o l u m eo ft r a n s a c t i o n s ,s u p p l yo fv i r t u a lc u r r e n c ya n dn u m b e ro fa c c o u n t s i n v o l v e do ne - p a y m e n tp l a t f o r m sa r e 伊o w i n gv e r yr a p i d l y , t h ec r e d i t - r e l a t e di s s u e s , s u c h 豁r e d u n d a n tc a p i t a l ,m o n e yl a u n d r y , c a s hi na n df r a u da r ee m e r g i n g 鼬t h e b i g g e s tb o t t l e n e e k st h a tc u r bt h ed e v e l o p m e n to fe c o m m e r c e t h e r ea r et r e m e n d o u s d i f f e r e n c e sa m o n gv a r i e t yo ff o r m so fc r e d i tr i s k sh i d d e nb ys h r e w dt e c h n i q u e st h a t e v o l v eo v e rt i m e c u r r e n t l y , e - p a y m e n tc o m p a n i e su s u a l l ya d o p ts a f e t yp r o d u c t st h a t o n l yp r o v i d ed e f e n s i v ef u n c t i o n s ,b u tl a c ko f f e n s i v em e c h a n i s m i ti ss t i l lv e r y d i f f i c u l tt oa c c u r a t e l yi d e n t i f ya n dc a p t u r et h e s er i s k so n l yb ye x p e r i e n c e sa n dm a n u a l i n s p e c t i o n s h e n c e e - p a y m e n tc o m p a n i e sn e e dt os t r e n g t h e nt l l e i rt e c h n o l o g i e st o p r o a c t i v e l ya n de f f e c t i v e l yp r e v e n ta n dc o n t a i n c r e d i tr i s k s a n de n h a n c et h e i r c a p a b i l i t yo fc r e d i ti d e n t i f i c a t i o na n dr i s km a n a g e m e n t i nt h i sa r t i c l e ,b a s e do nt h ep s y c h o l o g i c a lm o t i v a t i o n st h a tf r a u d u l e n tu s e r s i n t e n dt ou s el i t t l em o n e ya n dt i m et op r o m o t em e i rc r e d i t s ,w em a k et h e c l e a r d e f i n i t i o no ff r a u d u l e n ta c c o u n t s ,a n dc o n d u c ts i n g l ev a r i a b l ea n a l y s i so nb o t h f r a u d u l e n ta n dn o r m a la c c o u n t s w bd i s c o v e rt h a tf r a u d u l e n tu s e r sh a v et h e c h a r a c t e r i s t i c so fb a t c hr e g i s t r a t i o n s ,v e r yl o wt r a n s a c t i o na m o u n ta n dv e r yh i g h c o n c e n t r a t i o no ft r a n s a c t i o nt i m e r e g a r d i n gt h ep r o b l e mo fi d e n t i f i c a t i o no ff r a u d u l e n ta c c o u n t s ,l a c h ( 19 9 9 ) i n d i c a t e st h a td a t am i n i n gt e c h n o l o g yc a l lb eu s e dt oi d e n t i f ya n du n d e r s t a n dt h e p a t t e r no ff r a u d u l e n tb e h a v i o r , a n dc e r t a i na c t i o n sc a nb et a k e nt or e d u c ef r a u d u l e n t r a t e s t w ot r e ea l g o r i t h m s :d 3 ( m i t c h e l l ,19 9 7 ) a n dc 4 5 ( q u i n l a n ,19 9 3 ) a r ea p p l i e d t oas i m p l ef r a u dd a t a s e tf r o ma ne - c o m m e r c ec o m p a n y t h o u g hi d 3a n dc 4 5 a t t e m p tt oe x t r a c ti n f o r m a t i o na sm u c ha sp o s s i b l e ,t h er e s u l t i n gt r e e so r e nh a v et o o m a n yb r a n c h e sa n dt h es i z eo ft r e e si st o ob i g c a r tb a s e do ng i n is p l i t t i n gr u l ew a s i n v e n t e dt os i m p l i f yt r e ea l g o r i t h ma n de n h a n c ee f f i c i e n c y c a r to f f e r s s i m p l e - s t r u c t u r e da n de a s y - t o - u n d e r s t a n db i n a r ys p l i t t i n gt r e e w h e nd a t aq u a l i t y i s s u ei nr e a l i t yi sa l s ot a k e ni n t oa c c o u n t w ec h o o s ec a r ta st h em o d e l i n gt o o l , g i v e nt h a tt r e ea l g o r i t h mi si n l m u n et oo u t l i e r sa n dc a l ld e a l 谢廿lm i s s i n gv a l u e s a u t o m a t i c a l l y i na d d i t i o n ,s i n c es i n g l ec a r t t r e eh a st h ed i s a d v a n t a g eo fi n s t a b i l i t y , b o o s t i n gt e c h n i q u ec a nb eu s e dt oi m p r o v es t a b i l i t ya n da c c u r a c y t h e r e f o r e ,m u l t i p l e t r e e sa l g o r i t h m ,t r e e n e t ( f r i e d m a n ,2 0 0 2 ) w a si n v e n t e d i nt h i sa r t i c l e ar e a ld a t a s e tf r o ma ne c o m m e r c ep l a t f o r mi su s e da sa l le x a m p l e t oc o n d u c tc o m p a r i s o na n a l y s i sb e t w e e nf r a u d u l e n ta c c o u n t sa n dn o r m a la c c o u n t s 。 a f t e re x p e r i m e n t i n gw i t hl o g i s t i cr e g r e s s i o n , c a r ta n dt r e e n e ta l g o r i t h m s ,w e d i s c o v e rt h a t t h e n o n - p a r a m e t r i cm e t h o d s ,c a r ta n dt r e e n e to u t p e r f o r mt h e p a r a m e t r i cm e t h o d ,l o g i s t i cr e g r e s s i o n ,a n dt h em u l t i p l e t r e e sm e t h o d ,t r e e n e t m 塑垩三些奎兰堡主兰垡论文 基于分类技术的电子支付平台作弊账户的识别模型研究 p e r f o r mb e t t e rt h a ns i n g l et r e em e t h o d , c a r tm o d e l ,b u tc a n n o tp r o v i d ec o m p a r a b l e e x p l i c a b i l i t y t a k i n g i n t oa c c o u n tt h es y s t e m si m p l e m e n t a t i o na n d i n t e r p r e t a t i o n s e r v i c e s ,u s u a l l yw i t h o u ts a c r i f i c i n ga c c u r a c yi nt h ec a s ew i l lg i v ep r i o r i t yt om e c a r tm o d e l m o d e l sc a nb et r a n s l a t e di n t og e n e r i c l a n g u a g e s ( s u c ha sca n dj a v a ) ,a n dt h e n i n c o r p o r a t e di n t om a r k e t i n gp l a t f o r m sa n dc o r r e s p o n d i n ga n a l y t i c a lr e p o r t sf o r 也e f u t u r ea n a l y s i sa n dr o u t i n eo p e r a t i o n a ld e c i s i o nm a k i n gn e e d s k e y w o r d s :c r e d i t r i s k ;f r a u d ;d a t am i n i n g ;c l a s s i f i c a t i o nt e c h n i q u e ;c a r t ; t r e e n e t 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 1 绪论 1 1 研究的背景和意义 二十一世纪是电子商务的世纪,作为网络时代一种新的生产力,以其特有的 低成本,跨地域、随时地以及个性化的优势,正以一种前所未有的方式改变着传 统商务活动的模式格局。随着电子商务等对网上支付的需求增强,第三方支付市 场在需求和资本推动的双重作用下,获得了前所未有的发展,形成一种新型产业, 引起人们更多的关注。相比较于传统网络支付,第三方支付平台提供了更丰富的 支付手段和可靠的服务保证,因而其支付平台账户规模增长极其迅速。从2 0 0 5 年到2 0 1 0 年,电子支付交易额连年翻番:2 0 0 8 年中国电子支付的市场规模为2 7 4 3 亿元,2 0 0 9 年为5 7 6 6 亿元,2 0 1 0 年达到1 0 8 5 8 亿元,环比增长9 6 。据艾瑞咨 询预测,到2 0 1 2 年,中国电子支付行业交易规模将超2 万亿元。目前活跃在国 内网上支付市场的第三方网上支付平台有支付宝、腾讯财富通、上海快钱、首信 易支付、环迅、网银在线等几十余家【lj : 随着网上支付平台交易量、虚拟货币的发行和流通量越来越大,涉及的用户 越来越多,导致沉淀资金、洗钱、套现、作弊等信用问题愈加突出,并且手段不 断翻新,作弊行为也层出不穷,电子支付平台作弊操作属于信用风险范畴,大多 时候正是由于银行与非金融支付机构在反作弊管理的意识、技术和机制上存在漏 洞和不足给不法分子留下了可趁之机。网上交易由于作弊欺诈造成的损失比率今 年呈现稳定增长,比率在1 4 左右,损失的金额不断上升,仅2 0 0 7 年就损失了 3 6 亿美元,2 0 0 8 年损失了4 0 亿美元,高出传统的商务模式约2 5 。电子支付平 台作弊问题已逐渐成为制约电子商务发展的最大瓶颈【2 引。 另外,在目前的用户基数中,到底有多少真实的用户,到底有多少作弊用户, 无法用一个具体的数据来很衡量。由于这些账户的存在,一方面,恶意套取积分 以及营销活动奖励,使公司的财产受到一定的损失,而正常的用户却享受不到公 司给他们带来的好处,另一方面这些用户的存在也误导了公司的决策。 面对电子支付平台作弊问题,一方面,需要加强社会管理,进一步完善相关 法律法规;另一方面,电子支付公司需要加强技术,有效地防范和化解信用风险, 提高企业信用甄别与风险管理的水平和能力。目前主要的作弊行为包括身份冒 用、账户冒用、银行卡冒用、交易欺诈、交易劫持、信用卡套现等,由于信用违 约的行为形式多样,技术手段高明且隐蔽,因此解决方案也很复杂。电子支付作 弊问题主要的难点在于电子支付的基础是信息技术系统,其运行空间主要是在开 1 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 放的计算机网络,潜在的作弊行为在空间上具有一定的广泛性。另外,由于互联 网是2 4 d , 时开放的,网络犯罪分子可以在一天的任何一个时间进行网上支付诈骗 等不法活动,超出了传统的管理经验范围。并且具有很高的隐蔽性。如何解决复 杂多变的电子支付平台作弊问题,已成为一个难点问题。 解决电子支付平台作弊账户问题的一个比较好的思路是从分析客户信息和 交易记录的海量数据入手,建立信息库,从中发现不良客户的异常行为,从而提 前采取措施,减少信用违约行为的发生。从技术角度讲,目前比较有效的防范信 用违约的方法就是利用数据挖掘的分类技术防范违约,数据挖掘技术是目前国际 上数据库和信息决策领域中最前沿的方向之一。一些领域内已有成功的应用,如 金融、保险、医疗和电信等领域,它是指从大量的、不完全的、有噪声的、模糊 的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程,确切地说,数据挖掘过程是一种决策支持过程,主要 是基于人工智能、机器学习、统计学等技术,高度自动化地分析生产业务中原有 的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企 业的决策者调整策略,减少风险,做出正确的决策。 综上所述,通过数据挖掘技术对作弊的账户特征进行分析,建立一系列的识 别规则,进行较为准确的识别,根据作弊用户触犯的规则及数量和严重程度来相 应的用户打上相应的标记,为营销决策和了解会员真实现状提供一个可靠的依 据。研究电子支付平台作弊账户问题具有重要的学术价值、现实意义和广泛的应 用前景。 1 2 国内外研究现状 1 2 1 国外研究现状 美国e b a y 是全球网上交易的领军企业,每天有上千万人在e b a y 平台上进行 交易。随着交易量直线上升,卖家和买家的身份、素质越来越复杂,作弊问题开 始多起来。e b a y 请美国宇航局的专家专门研发的反作弊模型,可以自动将可疑 的用户和交易记录“抓到相应的文件夹中。这样的记录一般都会同时具有多个 犯罪特征,但这并不表示用户就一定是作弊犯,他们中绝大部分可能是新来的用 户,或者是为了急于达成交易的违规者,此时就需要“人脑”再进行判断。并成 立反作弊侦破小组,通过对用户注册资料、交易记录和用户行为习惯进行分析, 最后决定是“放行还是“封杀 ,作弊率可以做到控制在万分之几。 技术方面看,b a k e r ( 1 9 9 9 ) 提出,虽然有许多不同的方法防止作弊行为,但缺 2 浙江工业大学硕士学位论文 基于分类技术的电子支付平台作弊账户的识别模型研究 乏协调和统一的方法解决,需要系统化的方法来应对电子商务中存在的问题,建 立账户信息文件,然后利用这些知识来提取作弊模式,才能更好地适应的不断演 变的模式【4 】ol a c h ( 1 9 9 9 ) 指出可以利用数据挖掘中基于i d 3 和c 4 5 的树分类技术 识别和理解的作弊行为模式,定位高作弊嫌疑的账户,缩小范围后再通过人工审 核,从而较精确捕捉到作弊账户。并基于一个公司的事务的电子商务作弊的实例 数据,利用树的分类技术i d 3 ( m i t c h e l l ,1 9 9 7 ) 垆j 和c 4 5 ( q u i n l a n ,1 9 9 3 ) 巾j ,建立识 别模型【7 1 。m o n k o l ,a e n j a m i n ,n a r c i s o ,r o d g e r ( 2 0 0 1 ) 就作弊问题提出了基于数据挖 掘的解决方案,并且根据实际案例比较了i d 3 和c 4 5 算法,发现效果上无论是 训练数据和验证数据集c 4 5 都好于i d 3 。同时也指出虽然i d 3 和c 4 5 算法对i ) l i 练样本集的学习中尽可能多地挖掘信息,但生成树分枝较多,数据量比较小的话, 数据很快就学完了,也会导致树的不稳定性【引。m a r a n z a t o ( 2 0 1 0 ) 等基于买卖账户 是否来自同一机器、同口地址一天登陆次数、交易后评价时间等七个变量建立 信用作弊逻辑回归识别模型,前十分位精度可以达到9 8 ,但也指出逻辑回归算 法非常注重在线数据质量问题p j 。 1 2 2 国内研究现状 作为国内最大的电子商务交易平台,2 0 1 1 年淘宝网推出了基于规则的反作 弊系统,其算法包括有几个部分: 一、对买家账户的监测 1 ) 买家账户是否都是新开账户。淘宝网新开账户的定义是在最近1 3 个月 内注册并通过审核。 2 ) 买家账户是否都集中在同一个地域。这一点通过交易时的口地址来判断。 3 ) 买家账户的行为特征分析,即是否有购买此类物品的行为历史。举例来 说,一个买家一年内3 次购买过数码内产品( u 盘、数码相机、液晶显示器) ,那 么今天购买一个笔记本电脑者是可信的交易。 二、好评的监测 1 ) 发布好评的口地址是否都集中在同一个地域。 2 ) 发布好评是否过于及时。总是在发货的2 、3 天内完成。 3 ) 好评内容是否过度重复。 三、对卖家的监测 1 ) 段时间内,某一单品的销售太大( 占到总销售的8 0 ) 、间隔时间段, 完全脱离实际。 2 ) 卖家没有通过阿里旺旺工具与买家交流过。 浙江工业大学硕士学位论文 基于分类技术的电子支付平台作弊账户的识别模型研究 3 ) 卖家信用的提升发展得太快,采用技术性警告或封禁来试探店主的回应。 基于规则的系统一般来自一些现有的知识库,包括相关交易信息的阈值和制约关 系。通过反作弊系统过滤出的账户,再进行人工审核,另外还公布了严厉的处罚 条例,用以防范作弊。基于规则的系统通常要维护大量的知识库,需要定期进行 知识库的反作弊规则更新,而且对负责更新的人员的专业知识和相关领域经验要 求非常高,要能够按着应用业务当前的需要制定出有效的反作弊规则。但由于作 弊模式形式多样,具有的很大的差异性和与时俱进,靠经验规则还是很难比较精 确捕捉,补丁式的增量添加规则的滞后性较为明显。 不难看出,对于尚不成熟的国内电子支付平台信用风险管理需要消化吸收国 外经验和技术,并需要结合国内和自身的特点,主动有效地防范和化解信用风险, 提高企业信用甄别与风险管理的水平和能力。这就需要用到数据挖掘中的分类技 术。考虑到在线的数据质量问题,需要选择对孤立点有免疫力和自动处理缺失数 据的算法。同时为了简化树算法,提高效率,所以把g i n l 分裂规则的c a r t 树 算法作为主要建模工具,并和属于参数方法的逻辑回归作一个比较。 1 3 本文的研究内容 本文以电子支付平台数据集作为实例,需要结合其自身的特点,分析作弊案 例,明确作弊账户定义,提炼有效的账户数据和行为数据,以反映作弊用户的的 消费行为习惯,作为建模的预测变量。通过利用逻辑回归、树的c a r t 和t r e e n e t 分类技术模型对作弊账户进行识别,定位具有作弊倾向的账户。所做的创新性工 作如下: 1 ) 明确作弊用户定义。在整个建模的框架中,很重要的一个环节就是设定 模型的目标变量。考虑作弊用户的心理层面,总是希望用较少的钱、短时间把信 誉提高,恶意套取积分以及营销活动奖励等,定义欺诈用户; 2 ) 分析作弊账户案例,提炼能反映作弊用户的的消费行为习惯的预测变量, 包括账户e m a i l ,注册p ,注册m a c ,注册填写的证件号,查询密码,支付密 码,激活状态,密码保护问题及答案,用户类型,证件类型,注册来源,交易笔 数,交易金额,交易对象,交易来源,交易创建时间,付款时间,交易类型等 2 0 个; 3 ) 剔除孤立点,利用c a r t 技术填补缺失数据,建立逻辑回归模型,分析 作弊的线性模式; 4 ) 针对实际数据质量问题,出现孤立点和缺失现象,选择用基于树的分类 技术,因为较其他一些分类方法,树算法具有对孤立点有免疫力和利用替代技术 处理缺失数据的优点等: 4 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 5 ) 利用单一树c a r t 模型建立了作弊账户识别模型,考虑预测变量之间的 相互作用,生成i f t h e n 分类规则,易于理解作弊账户特征; 6 ) 首次以t r e e n e t ( 随机梯度提升) 算法建立了作弊账户识别模型,综合评判 账户,给出连续的作弊概率分,根据分数值,可以筛选出高风险作弊账户,并给 出各个变量对于目标变量的相对重要性影响和偏相关依赖图,得到当日注册会员 中注册口重复出现次数大于5 次、某个域名d o m a i n 和特殊方式的用户名组合 顺序a s s e m b l eo r d e r 等账户作弊嫌疑较大。 1 4 本文组织结构 论文由五章组成,围绕着电子支付平台作弊账户识别的技术展开研究。具体 的章节安排如下: 第一章介绍了本文的研究背景和意义,国内外研究现状和研究内容。 第二章阐述文中用到的相关知识,包括数据挖掘和分类技术。 第三章提出作弊账户的识别模型,明确作弊账户定义,详细介绍建立模型 所需要的分类技术和相应的模型结构。 第四章以电子支付平台数据集作为实例,对作弊账户和正常账户进行特征 分析,基于逻辑回归、c a r t 和t r e e n e t 算法建立识别模型,并对三个模型效果 进行了比较和模型部署的工作,以此验证本研究的可行性及应用性。 第五章对论文进行了总结,并展望了未来的研究重点。 塑垩三些奎兰婴主兰竺笙苎基于分类技术的电子支付平台作弊账户的识别模型研究 _ 二_ 二二:二: 6 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 2 相关理论与技术 由于电子支付平台的作弊模式形式多样,具有的很大的差异性和与时俱进, 靠经验还是很难比较精确捕捉,采用人工审核的办法也非常低效,如何有效识别 形式多样且技术手段高明而隐蔽的作弊行为,数据挖掘中分类技术是进行分析的 有力工具。本章主要介绍数据挖掘所涉及的基本内容和分类技术。 2 1 数据挖掘 随着近些年来各个领域对于海量数据进行知识发现的需求迅速增长,数据挖 掘技术作为商业智能技术的重要组成部分,为解决非常复杂的商业决策问题提供 了强有力的技术支持。所谓的数据挖掘,是利用数理统计、机器学习等先进技术 手段对大量数据进行分析,识别数据中的模式,帮助人们发现隐藏的信息和知识, 为科学决策提供强有力的支持【l0 1 。数据挖掘的模式有很多种,按功能可以分有两 大类:预测型模式和描述型模式;在实际应用中,根据模式的作用可以细分为: 关联模式、聚类模式、分类模式、回归模式、序列模式等【1 1 1 。 虽然对于数据挖掘流程的描述有各种版本,但是实际上数据挖掘领域已经形 成相对标准化的流程,各种版本基本上大同小异【l2 1 。这里我们提供了一个流程图: 第一阶段:数据准备 图2 1 数据挖掘项目流程 7 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 以下我们着重介绍整个流程中的几个关键步骤: 1 ) 数据挖掘问题的理解并确定模型目标。这是整个数据挖掘项目最初的一 步。这一初始阶段主要从实务的角度考虑,对管理决策的需求进行理解,明确研 究对象以及所要实现的目标。 2 ) 确定模型适用范围并建立模型框架。这个阶段需要明确模型所适用的用户 是哪些,同时需要把实务理解转化为数据挖掘模型框架,而这个转化过程的关键 是定义模型中恰当的目标变量。需要明确目标变量是类别型变量或者是数值型变 量,同时还需要明确可用于建模的预测变量有哪些。 3 ) 数据采集和数据预处理。在制定好模型框架之后,就需要根据模型框架采 集相应数据。如果有完备的数据仓库支持,采集效率会比较高,数据质量也会比 较好。这里需要说明的一点是,数据仓库并不是数据挖掘可行性的先决条件,如 果没有现有的数据仓库支持,通过人工采集也能够提供数据挖掘所需的数据,只 是效率和数据质量会受到影响。原始的建模数据采集完毕之后,就可以开展对于 原始数据的预处理工作,包括数据的合并、数据的清理、新变量的衍生、缺失值 的处理等。 4 ) 建立模型。基于历史数据利用数据挖掘算法进行分析。首先建立初级模型, 仅包含数量不多的变量,然后添加更多的变量,建立更为复杂的模型。得到的最 终模型将可以有两种模式:规则模式和分数模式。 5 ) 验证模型。模型建立之后,需要对模型进行检验。可利用预留的历史数据 进行模型性能检验,也可以利用未来的数据进行跟踪测试。 安装模型并和现有系统整合。通常有两种可选模型安装模式:一、可使用建模工 具内置模型直接对数据进行内部打分,得到e x c e l 等格式的预测结果;二、将模 型以其它程序语言( 例如c 、j a v a 等) 函数包的形式输出,通过生成脚本,以 批处理的模式可控地部署在服务器上。 6 ) 模型更新维护。模型正式得到部署之后,通过自动化报告持续跟踪模型的 表现。可每一季度进行一次系统维护和检查,也可根据移动方面的要求,随时对 模型进行检查。如果系统出现问题,可以紧急启用历史模型库中的表现较好模型。 当模型性能出现衰减时,需要对模型进行更新。根据需要和实际情况,模型可以 每隔一段时间更新一次,可以是3 0 天,也可以是9 0 天,而频率最高的更新可以 每2 4 小时进行一次。 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 2 2 数据预处理 数据预处理对于数据挖掘是一个重要的问题,因为现实中的数据多半是不完 整的、有噪声的和不一致的。数据质量是数据挖掘最核心的。有一句行话“垃圾 入,垃圾( g a r b a g ei n ,g a r b a g eo u t ) ” 1 3 】。所以有必要对数据进行预处理。数 据预处理通常包含四个部分:数据清理、集成和变换、规约以及概念分层等【1 4 1 。 数据清理又包含:缺失值处理、噪声数据处理以及不一致数据的处理三类。 1 ) 对于大型数据库而言,要分析的某一维的某个属性中数据有缺失是再正常 不过的事情了,对于这种情况,有如下处理办法:删除该元组、人工填写、使用 一个全局常量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同 一类的所有样本的平均值、使用最可能的值填充缺失值。在此最常用的也是最合 理的一种方法,缺失值可以通过回归分析、贝叶斯形式方法或判定树等推出。 2 ) 噪声数据:正如自然界有很多噪声一样,数据也会参杂很多杂质,除噪声 的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后 用合理的数值替换原先数据,致使出去原数据中的噪声;聚类技术是通过“距离” 等判别把数据进行概念分层,过渡到更高一级的层次;回归技术则是利用回归模 型,用模型预测值代替原有数据。 3 ) 不一致数据:可以通过查资料进行手动更正。 数据集成和变换:数据集成顾名思义是把多个原数据中的数据结合、存放到 一个数据存储。如数据仓库。其中要考虑三个问题:实体识别、数据冗余和数据 值冲突检测与处理。数据变换是数据处理的必然结果,主要有平滑、聚集、数据 泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛 化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有 最大最小规范化、0 值规范化和小数定标规范化。此外还可以构造新的属性来使 数据集成。 数据规约:当你面临大型数据库中的海量数据时,要分析这些数据是个很庞 大的工程,如果对所有数据进行分析和挖掘,将要耗费很长的时间。如果我们能 把握主要数据,那么分析起来将快捷很多。此类技术主要有如下几类:数据方聚 集、维规约( 检测并删除不相关、弱相关或冗余的属性或维) 、数据压缩( 小波 或傅立叶变换以及主成分分析) 、数值规约( 用替代的、较小的数据表示替换或 估计数据) :主要有回归、直方图、聚类、选样等操作;还有概念分层。 9 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 2 3 分类技术 分类问题有非常广阔的应用背景,包括金融业、电信业、生物医学、互联网 等领域都有着广泛的应用。之所以被称为分类问题,是因为研究的目标变量是一 个类别变量【l 扪。比如金融业,银行希望知道它的信用卡客户是否会有违约拖欠的 风险,因此会将信用卡用户分类为两类,违约用户和没有违约的用户,可以用 i 0 或y e s n o 的二元变量来标识。然后就可以针对这个二元的类别目标变量进 行建模工作。通常在大多数统计分类建模应用中,类别目标变量都是二元类别变 量:比如信用风险管理问题、电信客户的流失问题、医学方面肿瘤的恶性和良性 判断等等。当然分类问题的目标变量也可以是多元的类别变量,比如某种蕨类植 物品种的分类问题,该蕨类植物有三个品种,通过对植物的花瓣大小等特征的分 析,可以建立分类模型,区分三种类型的蕨类植物。 建立分类模型有许多种方法,包括逻辑回归、神经网络、决策树等方法【l 6 1 。 2 4 分类器的评估标准 目前,分类器性能评估标准很多,其中比较常用的主要有准确率或错误率、 查全率、查准率和f l 等1 7 1 。下面介绍一下混淆矩阵( c o n f u s i o nm a t r i x ) 。 以一个二分类问题作为研究对象,表2 1 的混淆矩阵显示了一个分类器可能 会遭遇的所有情况,其中行( t r u e f a l s e ) 对应于实例实际所属的类别,列 ( p o s i t i v e n e g a t i v e ) 表示分类的正确与否 表2 1 混淆矩阵 预测类 实际类 p o s i l i v en e g a l i v i e i r u e 正确的正例1 1 p错误的负例f n f a l s e 错误的正例f p正确的负例1 n 在混淆矩阵中,主对角线上分别是被正确分类的正例个数( t p 个) 和被正确 分类的负例个数( t n 个) ,次对角线上依次是被错误分类的负例的个数( f n 个) 和被错误分类的正例个数( f p 个) 。那么,实际正例数( p ) = t p 刑,实际负例 的个数( = f p + t n ,实例总数( c ) = p + n 。一个混淆矩阵已经能够显示出评 价分类器性能的一些必要信息。f p 和f n 就是我们常说的第一类错误与第二类 l o 浙江工业大学硕士学位论文 基于分类技术的电子支付平台作弊账户的识别模型研究 错误,以这四个基本指标可以衍生出多个分类器评价指标。为了方便地比较不同 分类器的性能,以这四个基本指标可以衍生出多个分类器评价指标,从混淆矩阵 中总结得出一些常用的数字评价标准。 1 ) 准确度( a c c u r a c y ) :定义为正确分类的实例个数占实例总数的比例,即 a c c u r a v y = ( t p + t g ) c 2 ) 错误率( e r r o rr a t e ) :定义为错误分类的测试实例个数占测试实例总数的 比例,即 e r r o r r a t e = l a c c u r a c y = 1 一( t p + t n ) c = ( ,:p + f n ) c 3 ) 查准率( p r e c i s i o n ) :定义为正确分类的正例个数占分类为正例的实例个 数的比例,即 p r e c i s i o n = 口( 四十f p ) 4 ) 查全率( r e c a l l ) :定义为正确分类的正例个数占实际正例个数的比例, 即 r e c a l l = t p | p 5 ) f l :查全率与查准率的调和平均数,即 互= 2 木r e c a l l 木p r e c i s i o n ( r e c a l l + p r e c i s i o n ) 这些评价标准可以对分类器进行评估,尤其是其中的准确度或错误率,是比 较常用的分类器性能评价标准。 以上这些都属于静态的指标,当正负样本不平衡时它会存在着严重的问题。 极端情况下比如正负样本比例为1 :9 9 ( 这在有些领域并不少见) ,那么一个基准 分类器只要把所有样本都判为负,它就拥有了9 9 的精确度,但这时的评价指标 是不具有参考价值的。另外就是,现代分类器很多都不是简单地给出一个0 或1 的分类判定,而是给出一个分类的倾向程度,比如贝叶斯分类器输出的分类概率。 对于这些分类器,当你取不同阈值,就可以得到不同的分类结果及分类器评价指 标,依此人们又发明出来r o c 曲线以及a u c ( 曲线包围面积) 指标来衡量分类 器的总体可信度。 r o c 曲线最初源于2 0 世纪7 0 年代的信号检测理论,描述的是分类混淆矩 阵中f p r t p r 两个量之间的相对变化情况 18 1 。如果二元分类器输出的是对正样 本的一个分类概率值,当取不同阈值时会得到不同的混淆矩阵,对应于r o c 曲 线上的一个点。那么r o c 曲线就反映了f p r 与t p r 之间权衡的情况,通俗讲, 即在t p r 随着f p r 递增的情况下,谁增长得更快,快多少的问题。t p r 增长得 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 越快,曲线越往上屈,a u c 就越大,反映了模型的分类性能就越好。当正负样 本不平衡时,这种模型评价方式比起一般的精确度评价方式的好处尤其显著。一 个典型的r o c 曲线如图2 2 所示 2 5 建模工具简介 图2 2r o c 曲线 目前,世界上很多商业公司开发出了各自的数据挖掘工具,功能和使用简易 性也在不断提高,比如,s a s 公司的e n t e r p r i s em i n e r ,s p s s 公司的c l e m e n t i n e , m m 公司的i t e l l i g e n tm i n e ,s a l f o r d s 公司的s p m 等。 e n t e r p r e i s em i n e r 是一个图形化界面,菜单驱动的、拖拉式操作的、对用户 非常友好且功能强大的数据挖掘集成环境。它支持s a s 统计模块,使之具有杰 出的力量和影响,它还通过大量数据挖掘算法增强了那些模块。s a s 使用它的 s e m m a 方法学以提供一个能支持包括关联、聚类、决策树、神经元网络和统计 回归在内的广阔范围的模型数据挖掘工具。e n t e l p r i s em i l l e r 设计为被初学者和有 经验的用户使用。它的g u i 界面是数据流驱动的,且它易于理解和使用。它允 许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图 建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多 种模型,所以e n t e r p r i s em i n e r 允许用户比较( 评估) 不同模型并利用评估结点选择 最适合的。另外,e n t e r p r i s em i n e r 提供了一个能产生被任何s a s 应用程序所访 问的评分模型的评分结点。 s a l f o r d s 公司创建于1 9 8 3 年,提供最先进的数据挖掘和商业智能软件和咨询 1 2 浙江工业大学硕士学位论文基于分类技术的电子支付平台作弊账户的识别模型研究 服务。获奖软件被成功使用在复杂数据分析,包括预测建模和分割方面,并应用 于信用风险评分、目标市场营销、分析型的客户关系管理( c 蹦) 、欺诈和非法侵 入检测、网站个性化、药品研发、制造业质量控制。使用s a l f o r ds y s t e m s 产品和 服务的行业包括银行业、金融服务、保险、电信、交通、医药品、保健、制造业、 法律的实施和安全、零售和目录销售和教育。世界范围有超过4 ,5 0 0 个站点,其 中包括3 0 0 个重要大学,均安装s a l f o r ds y s t e m s 软件。公司主要客户规模大小不 同,其中不少是f o r t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年度一级建造师试题预测试卷含答案详解【模拟题】
- 2024-2025学年度六盘水职业技术学院单招《职业适应性测试》高频难、易错点题带答案详解(满分必刷)
- 2024-2025学年度火电电力职业鉴定过关检测试卷【全优】附答案详解
- 2024-2025学年度注册核安全工程师题库(夺冠)附答案详解
- 2024-2025学年度电梯考试模拟题库附完整答案详解(典优)
- 2024-2025学年咨询工程师预测复习含完整答案详解(必刷)
- 2024-2025学年山东电子职业技术学院电视播音主持期末考试考前冲刺练习【达标题】附答案详解
- 2024-2025学年天津铁道职业技术学院单招《职业适应性测试》经典例题附答案详解(预热题)
- 2024-2025学年度公务员(省考)题库检测试题打印附参考答案详解(培优)
- 2024-2025学年度临床执业医师考试综合练习附参考答案详解【典型题】
- 0~3岁婴幼儿营养与喂养(高职)全套教学课件
- 新闻写作的真实性原则
- 产业经济学-王俊豪主编
- 2023年北京天文馆招考聘用笔试题库含答案解析
- 海岸工程海岸防护概论
- 静态与动态分析指标
- 《铁路技术管理规程》普速铁路部分
- YS/T 690-2009天花吊顶用铝及铝合金板、带材
- GB/T 4937.3-2012半导体器件机械和气候试验方法第3部分:外部目检
- GB/T 4456-2008包装用聚乙烯吹塑薄膜
- 散打裁判规则与裁判法
评论
0/150
提交评论