




已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的电信客户欺诈预测模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 当今,随着国内电信业的重组改革和通信技术的发展以及基础设施建设的完 善,各运营商在客户和业务等领域展开了激烈的竞争。电信运营商的经营模式逐 渐从技术驱动向市场驱动、客户驱动转化,这就要求运营商要采取以客户为中心 的策略,客户资源成为了运营商竞争的焦点。在客户资源的争夺战中,各家运营 商的市场竞争导致入网门槛降低,给予客户实惠以吸引客户,使得客户市场迅速 扩大。在客户市场扩大的同时恶意欠费用户群体也随之扩大,在所有电信客户中, 虽然恶意欠费的客户群体只占总群体的很小一部分,但是这一群体的客户给电信 业造成的损失是巨大的,各电信运营商为了避免、挽回或减轻这部分的损失不得 不采取各种措施,减少此类欺诈行为的发生。 本文的目的就是建立并实现一个准确率高、有效性强的电信行业客户欺诈预 测模型。模型依据数据挖掘原理,利用数据挖掘软件s p s sc l e m e n t i n e8 1 ,以大连 海事大学和东软股份有限公司电信部协作开发的“江西联通经营分析系统二期”项 目为依托,以c r i s p d m 建模过程为框架,逐步按照商业理解,数据理解,数据 准备,建立模型,模型评估与发布的步骤,实现了电信行业客户欺诈预测系统。 本文采用了决策树的方法进行建模。首先通过客户通话帐单的历史记录构造 满足一定比例的欺诈用户数与非欺诈用户数的训练集,然后运用基于决策树分类 的方法构建出欺诈预测模型,最后用测试集数据进行模型验证,结果表明,此模 型具有较好的预测准确率。 本文的意义在于采用决策树方法构建了一个高效的欺诈预测模型,为改变我 国大部分电信运营商主要采用行政手段防欺诈的现状,提供了一条有效、可行的 技术途径。 关键词:客户欺诈预测;决策树分类;0 5 0 算法;数据挖掘:恶意欠费 英文摘要 ac u s t o m e rf r a u dd e t e c t i o nm o d e l s t u d yb a s e d o nd a t am i n i n gi n r n le l e c o m m u m c a t i o nb u s i n e s s a b s tr a c t t o d a y , r e f o r m i n gw i t hc o r r e s p o n d i n gb yt h ec o m m u n i c a t i o nt e c h n i c a ld e v e l o p m e n t a n df o u n d a t i o nf a c i l i t i e sd e v e l o p m e n t sp e r f e c ta l o n gw i t ht h er e o r g a n i z a t i o no ft h e t e l e c o m m u n i c a t i o ni n d u s t r y , e a c ht e l e c o m m u n i c a t i o nc o m p a n yl a u n c h e dt h ev i g o r o u s c o m p e t i t i o na m o n gb u s i n e s sa n dc u s t o m e rr e a l m s t h eo p e r a t i n gm o d e li sg r a d u a l l y t r a n s f e r r i n gf r o mt e c h n o l o g y d r i v e nt om a r k e t - d r i v e na n dc u s t o m e r d r i v e n ,t h a t d e m a n d st e l e c o mo p e r a t o r sm a k et h es t r a t e g yo fr e g a r d i n gt h ec u s t o m e r sa st h ec e n t e r s oc u s t o m e r sr e s o u r c e sa r eb e c o m i n gt h ec o m p e t i n gf o c u so fb u s i n e s se n t e r p r i s e s i n c u s t o m e r sr e s o u r c e sc o m p e t i t i o nw a r , e a c ht e l e c o m m u n i c a t i o n c o m p a n y sm a r k e t c o m p e t i t i o nr e s u l t e di n t ol o w e rn e tt h r e s h o l d ,w h i c hg a v et h ec u s t o m e rt h em o r e b e n e f i t st oa t t r a c tc u s t o m e rf o rt h ep u r p o s eo fi n c r e a s i n gt h es h a r eo fm a r k e t i na l l t e l e c o m m u n i c a t i o n sc u s t o m e la l t h o u g ht h em a l i c eo w e so c c u p i e do n l yv e r ys m a l lp a r t o fc u s t o m e r st o t a lc o m m u n i t y , t h el o s so ft h eg r o u pt h a tc u s t o m e rr e s u l t e di nt h e t e l e c o m m u n i c a t i o ni n d u s t r yi se n o r m o u s ,e a c ht e l e c o m m u n i c a t i o nc o m p a n yi no r d e rt o a v o i d ,s a v eo ra l l e v i a t et h i sp a r to fl o s s e sh a v et oa d o p t e v e r yk i n do fm e a s u r e t h ep u r p o s eo ft h i sp a p e ri st or e s e a r c ha n di m p l e m e n t a t i o nac u s t o m e rf r a u d d e t e c t i o nm o d e li nt e l e c o m m u n i c a t i o n i tm u s th a v eb e t t e ra c c u r a c ya n de f f e c t i v e n e s s t h e o r i e so fd a t am i n i n ga n dr e l a t i v ea r i t h m e t i ca r ei n t r o d u c e d t h e no nt h eb a s i so fa a c t u a lp r o j e c t ,t h ed e s i g na n di m p l e m e n t a t i o no ff r a u dd e t e c t i o ns y s t e ma r er e a l i z e d a c c o r d i n gt ot h ec r i s p d mf r a m e w o r k t h es e q u e n c eo fd e m o n s t r a t i o ni sb u s i n e s s u n d e r s t a n d i n g ,d a t au n d e r s t a n d i n g ,d a t ap r e p a r a t i o n ,m o d e l i n g ,e v a l u a t i o na n d d e v e l o p m e n t d u r i n gt h em o d e lc o n s t r u c t i o no ft h es t u d y , t h ed e c i s i o nt r e ea p p r o a c hw a s a d o p t e d f i r s t l y ,t r a i n i n gs u b s e tw i t had e s i r e dc l a s sr a t i ow a sc r e a t e da c c o r d i n gt ot h e c h e a t c u s t o m e r s h i s t o r yt e l e c o md a t a s u b s e q u e n t l y , b a s e do nt h el a a i n i n gs u b s e t ,t h e d e t e c t i o nm o d e lw a se s t a b l i s h e db yu s i n gc 5 0a l g o r i t h m f i n a l l y , a no v e r a l lp r e d i c t i o n m o d e lw a sv a l i d a t e db yu s i n gt h et e s td a t a s e t t h er e s u l td e m o n s t r a t e dt h a tt h em o d e l h a sh i g hp r e d i c t i o na c c u r a c y 英文摘要 t h em a i nc o n t r i b u t i o no ft h i ss t u d yi st op r o v i d ea1 1 i g h i ye f f i c i e n tf r a u dd e t e c t i o n m o d e lc o n s t r u c t e db yd e c i s i o nt r e em e t h o d a n dm e a n w h i l e ,i ta l s op r o v i d e sa ne f f i c i e n t a n df e a s i b l et e c h n o l o g ym e t h o dt os o l v et h ep r o b l e mo fc u s t o m e rf r a u df o rm o s t c h i n e s et e l e c o m m u n i c a t i o nc o m p a n i e st h a tc a n n o t g e ts a t i s f i e d s o l u t i o n st h r o u g h a d m i n i s t r a t i v em e t h o d s k e yw o r d s :c u s t o m e rf r a u dd e t e c t i o n ;d e c i s i o nt r e e ;c 5 0a l g o r i t h m ; d a t am i n i n g ;m a l i c eo w e s 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文 ! 基王数量控塑鲍鱼篮窒庄趑迮亟型撞型硒窒= = 。除论文 中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文 中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公 开发表或未公开发表的成果。 栌啪擀托由嚣名:多协砌年乡月上争日 论文作者签名:伊皑么嬲年乡月声7 日 ff 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 本学位论文属于:保密口 不保密口( 请在以上方框内打“ ) 论文作者签名:钏迤亥导师签名:岁仁妣乙 日期:筇年弓月矽同 日期:。l 彩协秒年弓月二尹同 基于数据挖掘的电信客户欺诈预测模型研究 第1 章绪论 1 1 选题的背景和意义 据中国信息产业部资料统计,2 0 0 3 年中国因盗用通信设施和用户恶意欠费的 损失超过2 4 0 亿元人民币,户均6 0 元以上【4 0 】。而且这个数字还以每年2 0 递增。 尤其随着市场不断扩大和外资的流入,国内电信行业的竞争也越发激烈,运营商 为了吸引客户不断的主动或被动降低入网门槛,从而给了不法分子以可乘之机。 与之而来的就是国内电信业欺诈现象日益严重,例如国际电话伪装成市话的收费 欺诈,盗打电话,拖欠拒交话费,公用电话被盗打,i p 电话卡被盗打,利用电话 盗打器盗打电话,伪造身份注册实施欺诈等等,且欺诈手段应有尽有。据统计, 在各类欠费的案件中,恶意欠费者占欠费用户的3 0 - 4 0 ,其拖欠费用则占了8 5 以上。在国际上,电信欺诈现象也普遍存在,据统计,全球每年由于电信客户欺 诈造成的损失约占电信营业收入总额的5 。在欧洲,电信公司每年因此损失近 1 7 0 亿英镑。目前,电信欺诈已经给电信运营商带来了极大的经济损失,严重影响 了电信业务的进一步发展。 为此各大电信运营商不得不采取各种措施来防范电信欺诈,其总体上分成两 类:一类是从行政上采取措施进行防范,即行政防范,它主要是指电信运营商采 取政策调控,组织电信行业联盟,依靠法律和行业互助来限制这种不良行为的做 法,这在一定程度上起到了积极的作用,但是这种方式具有事后性,且工作量巨 大,效率太低,并且是对所有用户一视同仁,这样也很容易影响到忠诚的客户。 另一类是从技术方面入手,利用数据挖掘等技术从历史数据中挖掘出欺诈用户的 行为特征,形成规则,用于防范欺诈,它的优点是能防患于未然。两者相比,显 然利用技术手段是目前电信运营商最佳的防欺诈手段。 由于电信的欺诈行为形式多样,技术手段高明而且隐蔽,因此解决方案也很 复杂。其中一个比较好的思路就是从分析客户信息和话费清单的海量数据入手, 建立规则库,从中发现不良客户的异常行为,从而提前采取措施,减少欺诈行为 的发生。从技术角度来讲,目前比较有效的防范欺诈的方法就是利用数据挖掘的 分类技术进行电信防欺诈。数据挖掘技术( d a t am i n i n g ) 是目前国际上数据库和信息 第1 章绪论 决策领域中最前沿的方向之一,在一些领域内已有成功的应用,如零售业、银行、 医疗等行业,它是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用 数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程【l 】。确切地说,数据挖掘过程是一种决策支持过程,主要基于人工智能、机器 学习、统计学等技术,高度自动化地分析生产业务中原有的数据,做出归纳性的 推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策 略,减少风险,做出正确的决策【2 】。而分类是数据挖掘中的一种主要技术,其方法 是构造一个分类函数或分类模型( 也称作分类器) ,通过分类函数,把数据库中的元 组映射到给定类别中的某一个,即要发现一些指定的商品或事件是否属于某一特 定数据子集的规则【3 1 。 而分类技术中又以决策树分类方法较为常见,且技术成熟。决策树分类是一 个基于类似流程图的树结构的分类算法,它是通过对每个样本的属性值进行测试 生成一条从根节点到叶子节点的路径来对样本进行分类的。它具有高准确率、容 易转换成分类规则和容易解释的特点,目前在医疗、博弈论、商务等领域有广泛 应用,但在电信领域中的成熟应用尚不多见【。因此利用决策树方法研究一种有效 的电信防欺诈预测模型是很有实际意义的。 本文正是基于这样一个背景,结合大连海事大学和东软股份有限公司电信部 协作开发的“江西联通经营分析系统二期”项目下展开的,使用数据挖掘中的决策树 方法,整合客户历史海量数据,通过对客户基本自然属性与历史行为属性的数据 进行深入分析,提炼出欺诈客户属性特征来建立客户欺诈预测模型,从而预测未 来客户发生欺诈的可能性及其原因,为市场决策人员和客户管理部门人员采取有 效措施提供依据。 1 2 国内外研究现状 纵观国内外,在电信防欺诈研究方面,许多电信运营商更倾向于采用技术手 段而非行政手段。目前,靠技术手段建立防欺诈管理系统已成为许多发达国家电 信运营商的首要措施,有的还成立了专门的反诈骗部门。 在国内外众多的防欺诈案例中,实践证明较为成功的主要包括: 基于数据挖掘的电信客户欺诈预测模型研究 ( 1 ) n c r 公司开发的t e r a d a t a 数据仓库。自从问世以来,它就一直在电信运营 商防范欺诈的过程中发挥着重大作用【3 3 , 3 4 , 3 5 , 3 6 】。据统计,全美i 0 0 强公司中超过2 5 的企业和全球1 0 0 强公司中超过2 2 9 6 的企业都在使用t e r a d a t a 的解决方案。在 全球1 3 大的电信公司中有1 0 家采用了t e r a d a t a 数据仓库,包括美国西南贝尔电 信公司( s b c ) 、澳大利亚电信( t e l s t r a ) 、v o d a f o n e 和a t & t 等。另外,t e r a d a t a 数据仓库几乎占据了中国台湾市场,拥有中华电信、台湾大哥大、远传电信以及 和信电信等客户。 n c r 公司推出的基于t e r a d a t a 数据仓库的防欺诈解决方案能迅速识别现有客 户和新客户在开户或使用通信服务时所作的欺诈行为。这套解决方案以t e r a d a t a 数据仓库为基础,建立详尽的客户档案,对客户行为活动进行分析,建立复杂的 行为模式,并描述行为模式,全面监察可能的欺诈活动。 利用t e r a d a t a 数据仓库的防欺诈解决方案,电信运营商可以对已知的欺诈性 客户和非欺诈性客户进行有关的数据分析,发现可以影响欺诈的因素,比如年龄、 性别、居所、租用购买、欠费金额以及1 2 个月平均话费趋势等。根据对以上因 素的分析和统计,从而为客户的欺诈概率记分,或用于针对信用卡的新申请,以 预测欺诈的可能性。统计表明,t e r a d a t a 数据仓库可以发现8 0 的手机客户欺诈, 减少5 0 的欠费欺诈客户,挽回3 0 - - 5 0 的欺诈收入损失,减少1 0 的客户流失率。 随着t e r a d a t a 数据仓库在电信行业的不断应用,其取得巨大成功的事例也随 之增多,如:中国台湾远传电信拥有4 0 0 万移动客户和3 5 万互联网客户,率先 于1 9 9 8 年启用t e r a d a t a 数据仓库的话费流失预防系统( f r a u ds e n t r y ) ,并获得 了巨大的经济效益和社会效益。实践证明,该系统能侦侧出许多恶意欠费的客户, 及时避免了经济损失。现在远传电信是台湾岛内话费流失最低的电信公司,其话 费流失和坏账的金额大大低于同行业的平均水平。采用t e r a d a t a 电信业数据仓库 解决方案,使远传电信从1 9 9 8 年1 月正式营业以来,一举成为台湾成长最快的移 动电话服务民营公司,在激烈的市场竞争中占据了有利地位。图卜1 为台湾远传 电信采用的话费流失预防数据仓库系统框架图。系统框架介绍:最上层是数据源, 包括在计费系统内的客户档案、计价后的详细通话记录、交换机的详细通话记录、 漫游文件等;第二层是经由数据抽取和转换工具将数据源中有效的数据转换成数 第1 章绪论 据库系统要求的信息格式后加载入数据仓库内;第三层建立以客户、通话记录、 通话行为为主题的中央数据仓库;第四层是运行基于规则的侦侧方法和神经网络 智能技术的运算法则以产生通话行为智能库,同时运行前端数据挖掘和分析工具 以便反欺诈小组人员对各种问题进行动态的分析和预侧;最下层是反欺诈小组人 员利用第四层的两种技术、前端数据挖掘和分析工具建立反欺诈分析模型。 撩作数据舟琢数据 数据装抉 中央数据仓库 汁费系统客户信息 c d r 授游信息 严= = 。二= = := 三二二:二二二二:二二。二- ij j j c - _ i 二= :二_ 1 l ! 童燮黧裂鞲熏墨一一一一 数据挖掘信息存 取工具分类统计人工智能决策树 业务用户 f 目i;臼?f 口 i _ il - _ l f _ 自一4 毒霉黧豢黧霉誉漱,旗荤篱鞲露震垂鑫,蠢篓豢篱嚣嚣荔& 图1 1 话费流失预防数据仓库系统框架图 f i g 1 1t h ef l a m eo ff r a u ds e n t r yd a t aw a r e h o u s es y s t e m ( 2 ) 惠普公司也提供了世界上应用比较广泛的反欺诈管理系统解决方案【3 刀。该 产品的特点是:通过过滤、简化和组织大量的通话详细记录,把数据转变为信 息以适应欺诈管理的要求;系统具有智能化识别与管理欺诈相关事件的能力, 其中侦测组件能够在大量的电话记录或用户记录中寻找到可疑的欺诈活动;系 统能够把重要的事件聚集为案例( 案例是适合进行欺诈管理的信息包,它与告警、 用户信息、用途和个人用户的档案信息相关联) ;系统在运营商的方针的基础上 对每一个案例向欺诈分析员提出针对欺诈的相应对策。 基丁数据挖掘的电信客户欺诈预测模型研究 ( 3 ) 爱立信凭借其在电信领域的经验,历经多年研究,开发了欺诈管理系列产 品一f r a u d o f f i c e 【3 8 1 。该产品为运营商和服务提供商应对多变的欺诈行为提供了 从应用软件、硬件平台到系统集成、欺诈管理咨询和培训的全程服务,形成了 套完整的端到端的解决方案,帮助运营商降低因欺诈而造成的损失和不便。 以上都是一些电信防欺诈研究方面的典型案例,但由于涉及知识产权,核心 技术都未公开,但其总体思路为在数据仓库的基础上建立起相关规则库,再根据 规则库对客户的行为进行匹配识别欺诈,同时不断的分析客户的新行为得出新的 规则,加入到规则库中的这样一个过程。 与此同时,针对国内大部分地区防欺诈主要还是用行政手段,而技术手段还 基本处于人机结合数据分析阶段的现状,国内已经有许多学者正在积极研究电信 欺诈问题,以期开发出具有自主知识产权的防欺诈系统,但总体上来说还是处于 起步阶段。如:有的学者采用聚类算法对电信欺诈中的一些特定的电话进行了研 究【5 j ( 这些特定电话主要是指从电信公司获取提成的电话号码,如股票推荐及金融 投资热线、声讯电话等) 。通过聚类算法进行分析,找出正常的拨打行为、欺诈行 5 动的行为模式来对可能发生的欺诈行为进行预测;有的研究人员针对移动通信领 域恶意欠费欺诈情况( 主要是短时间内的高额花费) 提出了一种侦测方案【6 】。该方 法利用孤立点分析方法来侦测欺诈客户,通过客户的欺诈行为属性和已确定的欺 诈行为特征比较,对可能的欺诈客户进行预警;还有些研究人员利用朴素贝叶斯 方法对固定电话中的个人用户的欺诈行为进行预测【4 】等等。 总体来说,目前我国在电信欺诈研究方面已经开展了很多积极有效的工作, 各界学者也采用了不少的数据挖掘技术进行研究,如:朴素贝叶斯方法,贝叶斯 网络方法,聚类方法等,但都存在一定的不足,如朴素贝叶斯方法有类条件独立 的前提,即给定类,各个属性之间相互独立的假设,而这种假设在实际应用中往 往是不成立的;聚类、贝叶斯网络方法虽好但其结果难于解释,不利于模型的推 广等。相反,在利用结果容易解释、易转化成规则集、预测准确率高的决策树分 类方法上,具体的预测欺诈研究却不多见,本文也正是在这样的背景下,结合大 连海事大学和东软股份有限公司电信部协作开发的“江西联通经营分析系统二期” 项目,提出采用决策树分类方法来开发客户欺诈预测模型的。 第1 章绪论 1 3 论文的主要研究工作 本文的工作是基于大连海事大学和东软股份有限公司电信部协作开发的“江 西联通经营分析系统二期”项目展开的,主要工作如下: ( 1 ) 阐述了课题的研究背景及其重要意义,分析了国内外电信防欺诈问题的研 究现状,从中得出了解决电信防欺诈问题的大体思路。 ( 2 ) 学习了数据挖掘的基本理论和主要技术,研究了它的几种挖掘算法,并在 结合电信行业数据量大、数据更新速度快的特点的基础上,选用了建模速度快、 预测准确率高的决策树分类算法来进行欺诈预测模型的建立。 ( 3 ) 重点研究了决策树算法,尤其是c 5 0 算法。并且发现如果训练数据中各 类数据之间分布很不对称,很可能导致生成“空”树的结果【3 9 1 ,即会将所有未知 类标号样本预测为属于训练集中占大比例的类。现实中欺诈客户数据和忠实客户 数据的分布就很不对称,为此本文采用将欺诈用户和忠实用户以l :l 的比例构造 训练集来训练决策树,然后再由决策树对独立测试集中的客户进行预测,判断欺 诈与否。实验数据表明这种方法产生的决策树的预测效果很好。 ( 4 ) 研究了数据挖掘的处理流程和电信业的诸多业务,熟悉了c l e m e n t i n e 8 1 工具的使用,并在结合项目所获得的大量数据的基础上,对欺诈行为、欺诈业 务、欺诈用户进行了定义和分析,提出了在网时长、职业、信用度等能反映欺诈 用户行为特征的5 个属性,并与欺诈标识一起构成了训练集样本字段,训练集数 据则由获得的数据中与欺诈有关的客户自然属性数据和2 0 0 4 年8 月至1 2 月间5 个月的消费数据导入s p s s 公司开发的c l e m e n t i n e8 1 平台后,经过进行仔细 地清理、转化、离散化等步骤后整理得到的,然后用其建模得到所需的欺诈预测 模型。 ( 5 ) 模型的验证和评估 按照预测准确率、速度、强壮性、可伸缩性、可解释性的标准,利用保持( h o l d o u t ) 的方法,从预测查准率和查全率的角度来评价模型的预测性能。 1 4 论文的组织与结构 本论文一共包括5 章: 基于数据挖掘的电信客户欺诈预测模型研究 第1 章绪论。说明了论文选题的背景和意义,国内外研究发展状况及论文的 主要研究内容和方法。 第2 章数据挖掘理论与技术。主要介绍了数据挖掘的特点、数据挖掘技术的 分类和主要算法、数据挖掘的知识表示及挖掘方法、数据挖掘的流程、数据挖掘 应用领域及挖掘工具等有关数据挖掘知识。 第3 章决策树分类。重点介绍决策树分类和c 5 o 算法。 第4 章客户欺诈预测模型的建立及实现。基于东软电信部提供的客户数据进 行实证研究。在商业理解、数据理解、数据准备、建立模型、模型评估、模型发 布六个步骤上进行了分析与实现,最终实现了一个完整的模型。 第5 章结论及展望。概括了本文的主要工作,并且提出了下一阶段的研究方 向。 第2 章数据挖掘理论与技术 第2 章数据挖掘理论与技术 2 1 数据挖掘基本概念和特点 2 1 ,1 数据挖掘的定义 数据挖掘一词,英文是d a t am i n i n g 。1 9 9 5 年在美国计算机年会( a s s o c i a t i o nf o r c o m p u t i n gm a c h i n e r y , a c m ) 上被首次提出,并迅速在世界范围内成为研究热点。 数据挖掘是源于数据库中的知识发现的一项以人工智能为基础的数据分析技术, 其主要功能是在大量数据中自动发现潜在有用的知识【7 ,8 1 。在传统的决策支持系统 中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数 据挖掘的任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识 的过程。对于那些决策者明确了解的信息,可以用查询、联机分析处理( o l a p ) 或 其它工具直接获取,比如“列出各子公司在上个月的销售情况”。而另外一些隐 藏在大量数据中的,即使是管理这些数据的专家也不能发现的关系和趋势就可以 用数据挖掘来发现,从而为决策者提供有力的支持。 一种比较公认的定义是由w j f r a w l e y ,qp i a t e t s k y s h a p i r o 等人提出的。数 据挖掘就是从大型现有的数据库( d b s ) 或数据仓库( d m 中的数据中提取人们感 兴趣的知识。这些知识是隐含的,事先未知的潜在有用信息i l 】。这种定义把数据挖 掘的对象定义为数据库。而更广义的说法是:数掘挖掘意味着在一些事实或观察数 据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是传统的关系数据库, 也可以是文件系统,还可以是数据仓库或其它任何组织在一起的数据集合,例如 w w w ( w o r l d w i d ew e b ) 信息资源。数据挖掘发现的知识通常用以下形式表示:概念 ( c o n c e p t s ) 、规贝j j ( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、约束( c o n s t r a i n t s ) 、 可视化( v i s u a l i z a t i o n s ) 。这些知识可以直接提供给决策者,用以辅助决策过程;或 者提供给领域专家,修正专家己有的知识体系;也可以作为新的知识转存到应用 系统的知识存储机构中,比如专家系统( e x p e r ts y s t e m ) 、规则库( r u l eb a s e ) 等。 2 1 2 数据挖掘的特点 归纳起来,数据挖掘有如下特点: 基于数据挖掘的电信客户欺诈预测模型研究 ( 1 ) 处理的数据规模十分庞大。 ( 2 ) 由于用户不能形成精确的查询要求,因此需要通过数据挖掘技术来寻找其 可能感兴趣的东西。 ( 3 ) 数据挖掘对数据的迅速变化做出快速响应,以提供决策支持信息。 ( 4 ) 数据挖掘既要发现潜在规则,还要管理和维护规则,随着新数据地不断加 入,规则需要随着新数据更新。 ( 5 ) 数据挖掘中规则的发现基于统计规律,发现的规则不必适合于所有数据, 因此当达到某一阈值时,便认为有此规则。 2 2 数据挖掘技术的分类 数据挖掘涉及的学科领域和方法很多,从不同角度看就有不同的分类标准。 根据挖掘对象可以分为:关系数据库、面向对象数据库( o b j e c t o r i e n t e d d a t a b a s e ) 、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、 遗产数据库以及w e b 等对象的挖掘。 根据发现知识的种类分为:广义型知识挖掘、特征型知识挖掘、分类知识挖 掘、聚类知识挖掘、关联知识挖掘、预测型知识挖掘、偏差知识挖掘等。 根据采用的技术分类:人工神经网络、遗传算法、决策树、聚类分析、回归 分析、最近邻技术、规则归纳、可视化、统计方法、近似推理和不确定性推理方 法、粗糙集方法等。 这些分类方法从不同角度刻画了数据挖掘研究的策略和范畴,他们是相互交 叉和相互补充的。 2 3 数据挖掘的知识表示及挖掘方法 数据挖掘的目的是发现知识,知识要通过一定的方法或者模式给出,而可用 于数据挖掘系统的知识表示方法又是丰富多样的,所以接下来我们就介绍一下目 前常用的一些知识表示模式,以期通过对它们及其所采用方法的分析来更清楚地 了解数据挖掘系统的特点,以便于结合项目数据的具体情况,选出适合于本文的 知识表示模式。 ( 1 ) 广义知识 第2 章数据挖掘理论与技术 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、 带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质, 是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多种,如数 据立方体、面向属性的归约方法等。 ( 2 ) 关联知识 关联知识是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多 项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 关联可分为简单关联、时序关联、因果关联、数量关联等。最为著名的关联规则 方法是r a g r a w a l 提出的a p r i o r i 算法。 ( 3 ) 分类知识 分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特 征知识。分类的目的是学会一个分类模型,该模型能把数据集合中的数据项映射 到给定类别中。要构造分类模型,需要有一个训练样本数据集作为输入,这些数 据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识, 进而也可以预测未来数据的类别。分类知识可以用分类规则、概念树、或学习后 的分类网络等形式表示出来。最为典型的分类方法是基于决策树的分类方法。它 是从实例集中构造决策树,是一种有监督的学习方法。数据分类还有遗传算法、 神经网络、粗糙集( r o u g hs e t ) 等方法。 ( 4 ) 聚类知识 聚类知识是依照相似性和差异性把一组数据归成若干类别。其目的是使得属 于同一类别的数据间的相似性尽可能大,而不同类别中的数据间的相似性尽可能 小。聚类与分类方法不同,聚类是在没有给定划分类的情况下,如没有预定的分 类表、没有预定的类目、根据信息相似度进行信息聚集的方法,是一种无监督的 学习方法。 ( 5 ) 预测型知识 预测型知识是根据时间序列型数据,由历史的和当前的数据去推测未来的数 据的知识,也可以认为是以时间为关键属性的关联知识。目前时间序列预测方法 有经典的统计方法、神经网络和机器学习等。 基于数据挖掘的电信客户欺诈预测模型研究 ( 6 ) 偏差型知识 偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如 标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层 次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户 不同层次决策的需要【9 1 。 在了解了数据挖掘最终生成的知识的表示方法后,接下来我们就需要具体研 究一下在一般实际应用中,产生这些知识表示的各种挖掘算法的大体原理和特点, 从而确定本文所采用的建模算法。 2 4 数据挖掘的主要算法 电信挖掘系统根据要挖掘的任务来分析,主要可以分为描述和预测两个模式 类型,各种挖掘算法研究的核心也就是这两种模式。在实际应用一般用到了下面 几种挖掘算法: ( 1 ) 分类方法 从大的方面可以把分类分为机器学习方法、统计方法、神经网络方法等。机 器学习方法包括决策树法和规则归纳法;统计方法包括贝叶斯法;神经网络方法主 要是b p 算法【10 1 。分类算法在实际应用中一般分为两步走,第一步是利用训练数据 集进行学习的过程( 见图2 1 ) ,第二步是进行模型评估,降低模型噪音并投入实际 运行的过程( 见图2 2 ) 。 第2 章数据挖掘理论与技术 ,一一u _ 。 - , 一一 t r a i n i n g d a t a 爹 心谚j 蟋曩;爨爨! 鹪奠翳i 荔鬻豢鬻霉琴羁鬻鬣t i e n u r e d j mi k e a s s i s t a n tpt o f3n0 ma r y a s s i s t a l 3 tpr o f 7 y e 5 b pr o f e s s or2 y e s j i ma s s o c i a t epr o f7 y e s d a v eas s i s t a l 3 tpr o f6n0 anne a s s o c i a t epr o f 3 n0 4 一h 一一一一 c l a s s i f i c e ( m o d a l ) 、。一 一一 图2 1 分类过程第一步:模型构建 f i g 2 1c l a s s i f i c a t i o np r o c e s s ( 1 ) :m o d e lc o n s t r u c t i o n n 焱m e段焱n k i j 雾鬻鬻缀雾i麓e 磊爱s彳e n h r e d t o ma s s i s t a n tp r o f2n 0 m e r l i s aa s s o c i a t ep r o f7 n 0 g e o r g ep r o f e s s o r 5 y e s j o s e p ha s s i s t a n tp r o f 7 y e s 一一 一一。 一”2 n e wd a t a ( j e f f , p r o f e s s o r ,4 ) 7 r e n u r e d ”j j 鞫,。 漱 图2 2 分类过程第二步:模型预测 f i g 2 2c l a s s i f i c a t i o np r o c e s s ( 2 ) :m o d e lp r e d i c t i o n 决策树分类算法,典型的有i d 3 ,c 4 5 ,i b l e 等算法。i d 3 算法是利用信息论中 信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,并根据 蝻 基于数据挖掘的电信客户欺诈预测模型研究 字段的不同取值建立树的分枝,在每个分枝子集中重复建树的下层节点和分枝的 过程,建成决策树;c 4 5 算法是i d 3 算法的后继版本,使用训练样本估计每个规 则的准确率,由于这将导致对规则的准确率的乐观估计,c 4 5 使用一种悲观估计 来补偿偏差,作为选择,也可以使用一组独立于训练样本的测试样本来评估准确 性【1 2 】;i b l e 算法是通过利用信息论的信息容量寻找数据库中的信息量从大到小的 多个字段的取值来建立决策规则树的。由于决策树可以将数据规则可视化,也不 需要长时间的构造过程,输出结果容易理解,精度较高,因此在知识发现系统中 应用较广。然而,采用决策树方法也有其缺点:决策树方法很难基于多个变量组 合发现规则;不同决策树分支之间的分裂也不平滑。【1 3 】 贝叶斯分类算法是在贝叶斯定理的基础上发展起来的,它有几个分支,例如 朴素贝叶斯分类和贝叶斯信念网络算法。朴素贝叶斯算法假定一个属性值对给定 类的影响独立于其它属性的值,这一假定称作类条件独立【l 】。做此假定是为了简化 所需计算,并在此意义下称为“朴素的”。贝叶斯信念网络算法是网状图形,有点 类似神经网络,它的主要优点是能表示属性子集间的依赖关系,缺点是模型构建 耗时长,结果难于解释。 b p 算法构建的模型是指在前向反馈神经网络上学习得到的模型,它本质上是 一种非线性判别函数,适合于在那些普通方法无法解决、需要用复杂的多元函数 进行非线性映照的数据挖掘环境下,用于完成半结构化和非结构化的辅助决策支 持过程【l4 1 ,但是在使用过程中要主意避开局部极小的问题。 ( 2 ) 关联方法 在关联规则发现算法中典型的是a p r i o r i 算法,是挖掘顾客交易数据库中项集 间的关联规则的重要方法,其核心是基于两阶段频集思想的递推算法。所有支持 度大于最小支持度的项集称为频繁项集,简称频集【1 5 】。基本思想是首先找出所有 的频集,这些项集出现的频繁性至少和预定义的最小支持度一样;然后由频集产 生强关联规则,这些规则必须满足最小支持度和最小可信度。它的缺点是容易在 挖掘过程中产生瓶颈,需重复扫描代价较高的数据库。而在多值属性关联算法中 典型的m a g a 算法,它是将多值关联规则问题转化为布尔型关联规则问题,然后 利用已有的挖掘布尔型关联规则的方法得到有价值的规则。若属性为类别属性。 第2 章数据挖掘理论与技术 则先将属性值映射为连续的整数,并使意义相近的取值相邻编号。另外在约束性 关联算法中典型的有s e p a r a t e 算法,它则是一种求取符合约束条件的频繁项目集 的算法。 ( 3 ) 聚类方法 聚类方法包括统计分析算法、机器学习算法、神经网络算法等。 在统计分析算法中,聚类分析是基于距离的聚类,如欧氏距离,海明距离等。 这种聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定 类的划分。 在机器学习算法中,聚类是无监督的学习。在这里,距离是根据概念的描述 来确定的,故此聚类也称概念聚类。当聚类对象动态增加时,概念聚类则转变为 概念形成。 在神经网络算法中,自组织神经网络方法可用于聚类,如a r t 模型、k o h o n e n 模型等,它是一种无监督的学习方法,即当给定距离阈值后,各样本按阈值进行 聚类。它的优点是能非线性学习和联想记忆,但也存在一些问题,如不能观察中 间的学习过程;最后的输出结果较难解释,从而影响结果的可信度及可接受程度。 其次,神经网络需要较长的学习时间,对大数据量而言,其性能会出现严重问题。 ( 4 ) 预测序列方法 指数平滑算法是在移动平均法基础上发展起来的一种时间序列分析预测法,它 是通过计算指数平滑值,配合定的时间序列预测模型对现象的未来进行预测的。 在预测算法中指数平滑算法是比较有用的一种【1 6 】。它能减少随机因素引起的波动 和检测器错误。具体应用:证券投资战略的预测方面、一般销售预测分析方面等。 灰色预测算法是建立在灰色预测理论的基础上的,在灰色预测理论看来,系 统的发展有其内在的一致性和连续性,该理论认为,将系统发展的历史数据进行 若干次累加和累减处理,所得到的数据序列将呈现某种特定的模式( 如指数增长模 式等) ,挖掘该模式然后对数据进行还原,就可以预测系统的发展变化。灰色预测 法是一种对含有不确定因素的系统进行预测的常用定量方法。通常说来,在宏观 经济的各行业中,由于受客观政策及市场经济等各方面因素影响,可以认为这些 系统都是灰色系统,均可以用灰色预测法来描述其发展、变化的趋势。灰色预测 基于数据挖掘的电信客户欺诈预测模型研究 是对既含有确定信息又含有不确定信息的系统进行预测,也就是对在一定范围内 变化的、与时间序列有关的灰色过程进行预测。尽管灰色过程中所显示的现象是 随机的,但毕竟是有序的,因此我们得到的数据集合具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八马普洱茶考试题及答案
- 市政管道建设进度控制方案
- 幕墙工程验收与整改过程管理方案
- 钢结构防腐与涂装技术方案
- 智能制造产业园区厂房租赁与智能工厂建设合同
- 创新性离婚协议书中房产过户及债务清算范本
- 离异双方子女抚养权变更与生活费用支付合同
- 离婚后房产分配及子女教育资助协议
- 石灰石运输合同范本(含碳排放管理)
- 特种设备操作人员保密及责任承担合同范本
- 软件系统维护合同范本
- 路拌冷再生基层施工方案
- 桥架购销合同范本4篇
- 2025年江西省高考物理试卷真题(含答案)
- 2025年政策影响诊断人工智能在体育产业应用政策导向与市场趋势分析方案
- 涉旅安全培训讲话课件
- 2025年大麻酚油(CBD油)行业研究报告及未来行业发展趋势预测
- 白皮书政策解读-2025年国防科技与国家安全政策趋势分析方案
- 退休业务办理培训课件
- 2025-2026学年沪教版(五四学制)(2024)小学体育与健康三年级(全一册)教学设计(附目录)
- 2025-2026学年苏少版七年级美术上册(全册)教学设计(附目录)
评论
0/150
提交评论