




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘技术的电信客户流失预测模型的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据挖掘技术的电信客户流失预测模型的研究与应用 中文摘要 基于数据挖掘技术的电信客户 流失预测模型的研究与应用 中文摘要 数据挖掘技术是利用己知的数据通过建立数学模型的方法找出隐含的业务规 则。在国内随着对数据挖掘技术的重视,数据挖掘技术的应用研究也越来越广,其中 对电信行业的客户流失分析就是一大热点。客户流失分析是通过对以往流失客户的历 史数据进行分析,找出可能离网用户的特征,及时采取相应的措施,减少客户流失的 发生。这对企业降低运营成本,提高经营业绩有着极为重要的意义。 本文从提高数据挖掘的效率和精度的目的出发,对b p 神经网络预测模型进行了 有益的改善,同时给出了基于粗糙集理论的属性约简和b p 神经网络相结合的客户流失 预测方法。通过属性约简技术对神经网络的输入属性空间进行约简,采用神经网络对 约简后的数据进行挖掘。此方法充分发挥了粗糙集理论在约简知识方面的能力和神经 网络预测精度高的特点,应用于电信客户流失预测技术研究中,取得了较好的效果。 在上述研究的基础上,本文根据数据挖掘建模过程建立电信客户流失预测模型, 给出电信客户流失行为预测的解决方案。并对预测模型进行性能评估。评估结果表明 本文建立的预测模型是可行的。本文构建的预测模型对解决电信客户流失预测方面的 问题具有应用价值。 关键词:客户流失,数据挖掘,神经网络,粗糙集 作者:罗烨 指导老师:吕强 t h es t u d ya n da p p l i c a t i o no f ap r e d i c t i o nm o d e lo f t e l e c o mc u s t o m e rc h u mb a s e do nd a t am i n i n gt e c h n o l o g y t h e s t u d ya n da p p l i c a t i o no f ap r e d i c t i o nm o d e lo f t e l e c o mc u s t o m e rc h u r nb a s e do nd a t am i n i n g t e c h n o l o g y a b s t r a c t d a t am i n i n gt e c h n o l o g ym a k e su s eo fe x i s t e dd a t at of i n do u tt h eu n d e r l i n gb u s i n e s s r u l e b ye s t a b l i s h i n g m a t h e m a t i c a lm o d e l t h e p r e d i c t i o n o fc u s t o m e rc h u mi n t e l e c o m m u n i c a t i o ni n d u s t r yi sv e r yi m p o r t a n t t h ep r e d i c t i o no fc u s t o m e rc h u mi st o a n a l y z et h ec h u r n e dc u s t o m e r sh i s t o r i c a ld a t a s ot h a tt h er e a s o n sw h yt h e yl e rm i g h tb e f o u n do u t i tw i l lh e l pt h et e l e c o mc o m p a n yt oa d o p tm e a s u r e se a r l yt or e d u c ec u s t o m e r c h u m i th a sav e r yi m p o r t a n ts i g n i f i c a n c ef o re n t e r p r i s e st or e d u c eo p e r a t i n gc o s t sa n d e n h a n c eo p e r a t i n gp e r f o r m a n c e i no r d e rt oi m p r o v et h ee f f i c i e n c yo fd a t am i n i n g ,t h et h e s i sp r o p o s e sad a t am i n i n g m e t h o db a s e do nr o u g hs e ta n da r t i f i c i a ln e u r a ln e t w o r k b yr e d u c t i o np r o c e s s i n gt ot h e i m p o r ts p a c e ,t h i sm e t h o da d o p t sa r t i f i c i a ln e u r a ln e t w o r kf o rd a t am i n i n go nt h er e d u c e d t r a i n i n gd a t a t h em e t h o de x e r t st h ea b i l i t yo fr o u g hs e t sr e d u c t i o nk n o w l e d g ea n dt h e b j g l lp r e c i s i o nf e a t u r eo fa r t i f i c i a ln e u r a ln e t w o r k i tg a i n sav e r yg o o dr e s u l tt oa p p l yt h i s m e t h o dt ot h ep r e d i c t i o no ft e l e c o mc u s t o m e rc h u m t h et h e s i sb u i l d sat e l e c o mc u s t o m e rc h u mp r e d i c t i o nm o d e l ,g u i d e db yt h ea b o v e d a t am i n i n gt e c h n i q u e s a n dap r o t o t y p ei si m p l e m e n t e da n de v a l u a t e do nr e a ld a t a t h e r e s u l t so fe v a l u a t i o ns h o wt h a tt h ep r e d i c t i o nm o d e li sf e a s i b l e t h ep r e d i c t i o nm o d e lh e l p s t op r e d i c tc u s t o m e r - c h u mb e h a v i o ri nt h et e l e c o m m u n i c a t i o ni n d u s t r i e s k e yw o r d s :c u s t o m e rc h u m ,d a t am i n i n g , a r t i f i c i a ln e u r a ln e t w o r k ,r o u g hs e t i i w r i t t e nb y :l u oy e s u p e r v i s e db y :l vq i a n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:盟日 学位论文使用授权声明 凝:沙g n 口 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:p 艮争日期:出谚十p 铷签名:盟日期:7 移一一修7 1 基于数据挖掘技术的电信客户流失预测模型的研究与应用第一章引言 第一章引言弟一早jl 曰 本章主要介绍了基于数据挖掘技术电信客户流失预测模型的研究背景和意义, 研究现状,本文的主要工作,最后给出本文的结构。 1 1 研究背景和意义 面对中国加入w t o 之后具有世界性挑战的市场竞争环境,随着中国电信行业体制 的改革与重组,中国电信业的市场环境发生了根本性的变化,中国电信服务市场逐步 形成了从最初个别运营商垄断市场到数家大运营商主导、多家小运营商参与、新运营 商不断加入的电信市场竞争的新格局。目前,我国电信业的市场格局是由中国电信、 中国移动、中国联通、中国网通、中国卫通、铁通公司6 家主要基础电信运营商以及 4 0 0 0 多家增值电信企业组成的。经历多年的高速发展,我国电信运营市场近年来呈现 平稳发展态势,电信业务收入不断提高,但增长速度开始放缓。因为竞争的急速加剧 使得各电信企业忙于“圈地运动 开拓市场、发展客户,而对已有客户的流失管 理似乎大部分都重视不够;或者是注意到了又找不到好的方法,显得有点无能为力。 一方面企业投入大量时间、人力、财力去发展新客户( 而且新客户往往是低端客户) , 另一方面因客户流失管理的不完善导致现有客户由于不满意而流失。对各大运营商来 讲,即在大量客户入网的同时,又有大批客户离网,每月注册客户数与在网活动客户 数相差悬殊,业务与收入总量增长相对趋缓,甚至出现“增量不增收”的情况,即每 月用户人数不断增加,但用户每月人均话费收入a p r u 值却在下降n 3 。 在通信普及率已经很高的情况下,在继续努力发展新客户的同时,如何维持现有 客户群,避免客户流失,成为电信企业越来越关注的焦点。客户流失是移动经营面临 的一个基本问题,也是影响经营状况的重要因素。客户流失一方面会造成收入的下降, 市场占有率下降,营销成本增加、收入降低的问题;另一方面,恶意流失会造成客户 恶意欠费,带来不必要的经济损失。移动市场竞争日趋激烈,中国移动、中国联通之 间对市场的争夺战愈演愈烈,小灵通的异军突起更加剧了市场争夺的残酷性,三家之 间的争夺加剧了客户的流失。 客户是企业生存发展的基础, 哈佛商业评论的一项研究报告指出:再次光临 的客户可带来2 5 一8 5 的利润,争取l 位新客户的成本是保住1 位老客户的5 倍甚至更 多,而且电信市场的二次性决定了这样的特点:客户加入的时间越长,对电信运营商 第一章引言 基于数据挖掘技术的电信客户流失预测模型的研究与应用 的价值越高。所以衡量电信企业是否成功的标准将不再仅仅是企业的投资收益率和市 场份额,而是该企业的客户流失率、客户份额及客户资产收益率等指标。可见,客户 挽留,即忠诚客户的价值体现在增加企业的盈利、降低企业的成本以及提高企业的竞 争力等方面,在保持原有与开辟新生之间,保持显得愈加重要,可以说:保持就是发 展。面对当前的市场状况,电信企业必须在发展新客户的同时,着手进行客户保持管 理的研究,预测客户流失情况,留住有价值的客户,支持企业经济效益的不断增长。 面对激烈的市场竞争,各大运营商正在寻找一种最有效的方法,通过维护与客户 的关系,创造客户价值来保留和竞争优质客户。要想预测将要流失的客户,进而成功 对其进行挽留,首先要掌握全面的客户信息。电信行业经过几十年的飞速发展,已经 逐渐积累了大量成熟的数据库应用系统,这些系统产生了大量的业务处理数据。这些 业务数据已经达到几十甚至上百t b ,但是原来的数据库管理系统只能实现数据的录 入、查询、统计等功能,无法发现数据中存在的关系和规则,更无法根据现有的数据 预测未来的发展趋势。所以这些数据虽然如实地记录了企业的业务状况,隐含了许多 有用的模式和知识,但对电信企业来说毫无意义。面对“数据丰富,但知识贫乏”的 现象,我们迫切地需要一种能够对强有力的数据进行分析的工具,能够帮助我们把那 些被信息淹没的、有用的知识挖掘出来。而数据挖掘技术的蓬勃发展解决了这一问题, 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。 客户流失预测,就是使用数据挖掘的方法,整合客户历史海量数据,通过对客户 基本状态属性与历史行为属性等数据进行深入分析,提炼出已流失客户在流失前具有 的特征,建立流失模型,预测出将在近期流失的客户。我国电信运营商在多年的业务 支撑系统( b o s s ) 建设中,积累了大量原始的业务数据。这些数据涉及到用户话单、通 信计费、客户缴费、市场营销、业务收入、客户服务、销售渠道、网络优化等各个方 面,从数据挖掘技术的观点来看,这些大量的历史数据中存储了巨大的潜在有用信息。 利用这些已有的数据,用数据挖掘技术分析出已发生流失的客户在流失前的通话行 为,找出引起流失的一些规律性知识。电信企业可以根据这些规律有针对性地制定相 应的决策,在客户流失之前预先采取行动,来减少或消除这些客户发生流失的可能性。 客户流失预测给电信企业的经营决策提供了大量信息。客户流失预测是一个系统 的工程,需要对企业的市场情况进行深入分析,如竞争对手分析、客户群细分,客户 2 基于数据挖掘技术的电信客户流失预测模型的研究与应用 第一章引言 心理研究,并对企业的历史经营数据进行深入的数据挖掘。客户流失预测提供给企业 的并不仅仅是一个流失预测名单,还会给企业带来大量有价值的市场信息。 客户流失预测能显著提高企业的赢利能力。通过客户流失预测,电信企业开展有 针对性的市场营销活动,可以提高大客户挽留的成功率,降低客户流失率,降低挽留 服务的成本,做到有的放矢,减少由于客户流失带来的收入损失。 客户流失预测能显著地提高企业的市场竞争力。通过客户流失预测,企业能开展 有真针对性的市场营销活动,能极大地提高客户满意度,从而提高企业的市场竞争力。 1 2 国内外应用和研究现状 数据挖掘从2 0 世纪9 0 年代以来发展速度很快,在商业领域中的应用是日趋增加。 在国外的许多行业中,数据挖掘技术的应用给企业带来了巨大的经济效益:g u s 日用品 零售商店需要准确的预测未来的商品销售量,降低库存成本,通过数据挖掘的方法使 库存成本比原来减少了3 8 ;汇丰银行需要对不断增长的客户群进行分类,对每种产 品找出最有价值的客户,营销费用减少了3 0 ;美国国防财务部需要从每年上百万笔 的军火交易中发现可能存在的欺诈现象,通过数据挖掘发现可能存在欺诈的交易,并 进行深入调查,节约了大量的调查成本。 数据挖掘在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失 分析,客户消费模式分析,市场推广分析等。国外的电信行业已经越来越多地应用数 据挖掘技术来保持用户、获取用户、提升客户价值和客户忠诚度,比如英国电信发布 一种新的产品,需要通过直邮的方式向客户推荐这种产品,通过数据挖掘对此类客户 的定位,使得直邮的回应率提高了1 0 0 ;美国的西南贝尔、v a n g u a r dc e l l u l a r ,a t & t w i r e l e s s 等公司都逐步开始使用客户流失行为预测技术对客户流失进行管理和控制, 实施差异化、一对一的营销。 在国内,数据挖掘的研究起步较晚,实际采用数据挖掘软件的企业很少,近年来, 有一些公司进行了有益的尝试,但主要是引入国外的软件产品。比较典型的是s a s 公 司的s a se n t e r p r i s em i n e r ,被用于上海宝钢的配矿系统热轧质量控制系统。国内一 些电信企业也开始使用i n t e l l i g e n tm i n e r 或者c l e m e n t i n e 进行客户流失预测分析。 国内自主知识产权的数据挖掘软件主要有复旦大学的复旦德门软件和中科院的 m s m i n e r 等。虽然有像复旦德门、华院分析、创智科技、亚信科技等机构逐步开始将 第一章引言基于数据挖掘技术的电信客户流失预测模型的研究与应用 数据挖掘应用到实际的电信行业中,但无论在理论上还是应用上都是处于初步发展阶 段。 目前大部分研究将客户流失预测当作一个模式识别问题,利用统计分析和数据 挖掘中的分类算法建立客户流失预测模型。分类是一种有监督的学习方法,它通过 在包含了已流失和未流失的客户样本集上进行模型训练,得到能够区分客户是否具 有流失倾向的分类器,然后用于预测客户未来的流失倾向。在客户流失预测的分类 算法中,运用最广泛的是决策树算法乜瑚,决策树算法建模简单,分类准确率高,而且 能导出简明易懂的( 如i ft h e n 形式) 分类规则,适合客户流失预测问题。文献h 1 中提 出了基于c 5 0 决策树的客户流失分析方法并且证明了神经网络方法完全适用于电 信客户流失分析,文献脚蚴口1 提出用神经网络方法应用于预测模型,此外,l o g i s t i c 回归跚和贝叶斯网络嘲等方法也在该问题上得到了有益的尝试。这些方法在进行客 户流失预测时都取得了一定的成功,有力地推动了客户流失预测的发展。然而这些 方法在客户流失预测方面仍有一些不足: ( i ) 对挖掘对象的数据理解、准备不够充分,在选择相关挖掘变量属性方面 存在缺少或无用属性冗余的情况。 ( 2 ) 基本都采用单个数据挖掘方法进行预测,这样往往会训练出相似的模式, 当应用到新的数据时,没有稳定的预测效果。 ( 3 ) 理论研究未能很好的指导实践活动。大部分研究都只得出模型预测的准 确率,没有利用预测结果来指导企业的实践。我们知道数据挖掘是一个与行业实际 情况紧密相连的应用,特别是客户流失预测。目前客户流失预测理论研究已取得了 一些进展,但在客户流失预测的应用方面尚存在很多不足,例如仅仅得出流失客户 的名单,导致很多流失预测不能对电信企业的经营活动带来实实在在的效果。 对于电信客户流失预测未来的发展趋势是单一的预测方法已经不能满足要求, 需要采用多种数据挖掘方法。 人工神经网络( a n n ) 方法是近几年发展起来的新方法,其中多层神经网络技术 的飞速发展给流失预测研究提供了新的方法。多层神经网络能够不断学习新知识并 处理复杂的非线性映射,其中b p 模型是使用最成熟和最有效的模型。m o z e r 3 将收 益计算方法引入客户流失预测中,利用人工神经网络技术对美国某电信公司的客户 4 基于数据挖掘技术的电信客户流失预测模型的研究与应用 第章引言 进行流失预测,并通过与决策树和l o g i s t i c 回归相比,发现采用人工神经网络来 预测潜在的流失客户能获得更大的收益。 归纳学习是数据挖掘的一个重要手段,传统的示例学习算法需要将数据集划分 为概念的正例集和反例集,通过对正例集的概括过程及排除反例的特殊化过程归纳 出不同概念的判断规则。由于这些算法需要将数据集划分为精确的正例集和反例 集,因此它们仅仅适用于从精确集( j 或经过删除噪声数据后的精确集) 中发现知识。 但精确集往往是不存在的,现实中,具有相同特征的数据有些属于正例概念,有些 属于反例概念,称这样的数据集为粗糙集。造成粗糙集的一个重要原因是信息不完 全。在信息不完全情况下,粗糙集无法转变为精确集,但粗糙集中仍然存在大量对 决策有帮助的信息,因此面向粗糙集的数据挖掘技术在信息系统领域具有重要的研 究价值,也开始尝试于电信客户流失预测问题。 基于国内电信运营商在客户流失管理方面的应用现状和现有客户流失预测方 法的不足,结合前人的研究成果,本文提出将粗糙集理论和神经网络算法相结合对 电信客户流失预测行为进行预测。 1 3 本文工作 本文结合电信行业的特殊性,提出了基于粗糙集和神经网络的客户流失预测模 型。采取基于粗糙集理论的属性约简技术,提出了改进的属性约简算法,选择影响客 户流失的特征属性,以便提高挖掘效率,同时删除了一些无关属性,大大缩小了属性 空间,优化了神经网络结构;选取样本集对神经网络进行训练,以提高预测精度。神 经网络算法采用附加动量法和自适应调整学习率相结合的b p 算法,以期能提高模型预 测的精度,同时为我国电信业客户流失预测研究提供一定的参考。 在实践方面,本文利用数据挖掘技术,对江苏电信常州分公司的客户基本数据、 客户行为数据等消费数据进行深层次的挖掘,通过建立客户流失预测模型,得出客户 离网的概率,探讨客户离网的原因,从而可以降低客户的离网率,减少企业的损失。 因此,该模型对电信企业来说有着重要的意义。 1 4 本文结构 本文共分六章。 第一章引言主要阐述了论文选题的背景、当前国内外研究状况以及本文的主要 第一章引言基于数据挖掘技术的电信客户流失预测模型的研究与应用 工作,同时介绍了本文的组织结构。 第二章对数据挖掘技术的相关理论和技术进行了简单介绍,扼要阐述了与电信 客户流失分析相关的数据挖掘方法,以及数据挖掘在电信客户关系管理中的应用。 第三章研究和分析现有的基于粗糙集理论的属性约简算法,为提高预测模型的 学习效率,将类特征矩阵引入到属性约简算法中,使其对属性空间和规则的约简更有 益于模型进行预测和流失分析。 第四章在深入分析和研究人工神经网络在数据挖掘方面优势的基础上,本文对 b p 神经网络预测模型在学习速率调整等方面进行了有益的改善,并结合第三章的研究 结果,充分利用神经网络和基于粗糙集理论的属性约简的优点,给出一种基于粗糙集 理论的属性约简和b p 神经网络相结合的客户流失预测方法。 第五章建立电信客户流失预测模型,并对模型预测效果进行评估。 第六章结论与展望。 6 基于数据挖掘技术的电信客户流失预测模型的研究与应用第二章数据挖掘及其相关理论 第二章数据挖掘及其相关理论 本章介绍了数据挖掘的基本理论,包括数据挖掘的定义任务和过程,分析了与 电信客户流失相关的数据挖掘方法。 2 1 数据挖掘的定义 数据挖掘是一门多学科综合的产物,目前还没有一个标准的定义。人们提出了多 种数据挖掘的定义,其中比较全面的定义是:数据挖掘( d a t am i n i n g ,d m ) 就是从大 量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。 2 2 数据挖掘的产生和发展 数据挖掘是数据库领域中最重要的课题之一,国际上第一次关于数据挖掘与知识 发现的研讨会于1 9 8 9 年在美国的底特律召开,在此会议上第一次提出了知识发现一 词。1 9 9 5 年国际第一届知识发现与数据挖掘学术会议。会议上明确定义了知识发现。 目前数据挖掘己成为研究的热点和焦点,一批数据挖掘系统开发出来,在商业、经济、 金融、管理等领域都取得了应用性的成果。k d d ( k n o w l e d g ed i s c o v e r yd a t a b a s e s ) 研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多 种学科之间的相互渗透。世界上比较有影响的典型数据挖掘系统有:s a s 公司的 e n t e r p r i s em i n e r ,i b m 公司的i n t e l l i g e n tm i n e r ,s o l 公司的s e tm i n e r ,s p s s 公司 的c l e m e n t i n e ,s y b a s e 公司的w a r e h o u s e s t u d i o ,r u l e q u e s tr e s e a r c h 公司的s e e 5 、 还有c o v e r s t o r y ,e x p l o r a ,k n o w l e d g ed i s c o v e r yw o r k b e n c h ,m i n e r q u e s t 等。 与国外相比,国内此领域的研究稍晚,没有形成整体力量。目前,国内的许多科 研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位研究主要集 中在对模糊方法在知识发现中的应用,对数据立方体代数的研究,对关联规则开采算 法的优化和改造,非结构化数据的知识发现以及w e b 数据挖掘等。 数据挖掘在2 0 世纪9 0 年代以后发展速度很快,作为一个新兴的多学科交叉应用领 域,正在各行各业的决策支持活动扮演着越来越重要的角色。随着计算机硬件和软件 的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋, 如何有效利用这一丰富数据海洋的宝藏为人类服务,也已成为广大信息技术工作者的 7 第二章数据挖掘及其相关理论基于数据挖掘技术的电信客户流失预测模型的研究与应用 所重点关注的焦点之一。与目趋成熟的数据管理技术与软件工具相比,人们所依赖的 数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而 形成了一种独特的现象“数据泛滥,知识贫乏 。数据挖掘技术的发展,解决了这一 问题。数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将 这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各 业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为 是数据管理与分析技术的自然进化产物。 当前,对数据挖掘的研究方兴未艾,其研究与开发的总体水平相当于数据库技术 在上世纪7 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系统和s q l 查询语言等 理论和方法的指导,才能使数据挖掘的应用得以普遍推广,预计在本世纪,数据挖掘 的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面: ( 1 ) 数据挖掘应用领域的探索和扩张,特别是与嵌入式系统、移动系统以及普 适计算设备融合的应用研究:而开发针对特定应用的数据挖掘系统更是目前的一种趋 势。 ( 2 ) 高效率和可伸缩的算法研究,特别是交互式的挖掘算法,有着广阔的研究 空间。 ( 3 ) 数据挖掘语言的标准化:目前,还没有统一的标准化挖掘语言,类s q l 语言 的研究,将会极大地促进数据挖掘的应用与推广。 ( 4 ) w e b 挖掘:w e b 挖掘的研究是当前的热点,主要集中在内容挖掘、结构挖掘 和使用记录挖掘等三个方面,随着x m l 语言的兴起,高效的挖掘方法、搜索工具以及 个性化的服务将是研究的主题。 ( 5 ) 文本挖掘:文本挖掘是当前的另一个研究热点,随着数字图书馆等的研究 的兴起,将会变的越来越重要。 ( 6 ) 复杂数据类型和数据源的挖掘:空间数据、多媒体数据、时序数据等的挖掘 研究远还没有进入实际的应用,而普适计算模式的研究,使得异构的数据源有着较大 的增长,如何进行数据挖掘,仍是未来的主要研究课题。 ( 7 ) 可视化挖掘:随着可视化技术的进一步发展,开发可视化的数据分析工具成 为一种基本的功能构成,更为人性化和实用性是未来的研究重点。 基于数据挖掘技术的电信客户流失预测模型的研究与应用第二章数据挖掘及其相关理论 ( 8 ) 挖掘过程中的数据安全性:隐私保护和信息安全越来越成为人们关注的焦 点,研究更为有效的方法将是数据挖掘的重要课题。 2 3 数据挖掘的任务 数据挖掘的任务就是从数据集中发现隐含的、有意义的模式,按功能可分为描述 性挖掘和预测性挖掘。描述性挖掘主要是刻画数据库中数据的一般特性,预测性数据 挖掘主要是在当前任务上进行推断,以进行预测。在实际应用中往往根据模式的实际 情况又分为关联分析、时序模式、聚类、分类、偏差检测和预测几类n 们。 ( 1 ) 关联分析 关联规则挖掘是由r a k e s h ,a p w a l 等人首先提出的。两个或两个以上变量的取值之 间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现 的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中 隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性。它反映一 个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么 其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是 r a g r a w a l 提出的a p r i o r i 算法1 。关联规则的发现可分为两步。第一步是迭代识别所 有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值:第二步是从频 繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集 是关联规则发现算法的核心,也是计算量最大的部分。 ( 2 ) 时序模式 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它 也是用已知的数据预测未来的值,但这些数据的类别是变量所处时间的不同。 ( 3 ) 聚类 聚类是把数据按照相似性归纳成若干个类别,同一类中的数据彼此相似,不同类 中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数 据属性之间的相互关系。 ( 4 ) 分类 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内 涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练 9 第二章数据挖掘及其相关理论基于数据挖掘技术的电信客户流失预测模型的研究与应用 数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。 ( 5 ) 偏差检测 偏差包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数 据存在的异常情况是非常重要的。偏差检测的基本方法就是寻找观察结果与参照之间 的差别。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外 的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现。 并随着概念层次的提升,从微观到中观到宏观,以满足不同用户不同层次决策的需要。 ( 6 ) 预测 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及 特征进行预测。典型的预测方法是回归分析。预测关心的是精度和不确定性,通常用 预测方差来度量。 2 4 数据挖掘的过程 数据挖掘就是从杂乱无章的数据中找出规律,是把数据转化为信息的一个过程, 它的目标是在数据中发现有价值的规则或者模式并用于指导实际应用。目前,实现数 据挖掘的过程基本上大同小异。一般说来,数据挖掘项目要经历的过程包括:问题的 理解,数据的理解,收集和准备,建立数据挖掘模型,评价所建的模型,应用所建的 模型等一系列任务。例如,数据挖掘讨论组从挖掘环境的角度入手,提出确定业务 对象、数据准备、数据挖掘、结果分析、知识的同化五个过程;史忠植n 2 1 从知识发现 的观点出发,把挖掘过程分为三个阶段:数据准备、数据挖掘、结果解释和评价:s p s s 从建模的角度出发,提出数据挖掘过程的5 a 模型:a s s e s s ,a c c e s s ,a n a l y z e ,a c t , a u t o m a t e ;s a s 提出了s e m t a 模型( s a m p l e ,e x p l o r e ,m o d i f y ,m o d e l ,a s s e s s ) :数据 挖掘特别兴趣小组则提出了“数据挖掘交叉行业标准过程c r i s p - d m ( c r o s s - i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) n 朋。 在这些模型中,5 a 模型强调的是支持数据挖掘过程的工具应具有的功能和能力, 它是对支持数据挖掘工具的定义。s e m m a 强调的是结合s a s 公司的挖掘工具进行应用开 发的方法。c r i s p d m 贝f j 从进行数据挖掘方法学的角度强调实施数据挖掘项目的方法和 步骤,并独立于每种具体数据挖掘算法和数据挖掘系统,所提出的过程模型均在实际 项目中得到实践和验证,因此具有一定的代表性n 引。 基于数据挖掘技术的电信客户流失预测模型的研究与应用第二章数据挖掘及其相关理论 2 4 1c ris p - d m 数据挖掘过程模型的产生 1 9 9 6 年末,在当时尚为年轻和不成熟的数据挖掘市场中,三位市场上的“老战士” 设想、构思t c r i s p d m n 钉。d a i m l e r c h r y s l e r 公司先于各个工商业组织,早已经在其 商业运作中成功地运用了数据挖掘。s p s s 公司早在1 9 9 0 年就开始提供基于数据挖掘的 服务,并于1 9 9 4 年开发了第一个数据挖掘的工作平台叫1 e m e n t i n e 。n c r 公司建立 了包括数据挖掘咨询顾问以及技术专家在内的团队,为客户提供咨询服务,并把它作 为旨在为其使用t e r a d a t a 数据集的客户提供增值服务的一个组成部分。 一年后,三家公司成立了委员会,创建了以c r o s s i n d u s t r ys t a n d a r dp r o c e s s f o rd a t am i n i n g 首字母缩写的名字,并获得了欧洲委员会提供的基金,开始实施使 c r i s p - d m 成为一个在工业运用、工具性以及应用方面都没有偏颇的中立性模型。为此 不得不获得来自尽可能宽泛领域内的从业者们的帮助( 例如,数据集的提供者和管理 顾问) ,同时这些从业者还要对数据挖掘具有一定的兴趣。为了获得这些帮助,成立 了c r i s p - d m 的专门兴趣小组,并吸引了很多对数据挖掘技术感兴趣的专业人事的参 加。 在接下来的两年半时间里,c r i s p d m 专门兴趣小组着手于c r i s p d m 的进一步开发 和研制工作,并在m e r c e d e s - b e n z 公司和o h r a 公司的大规模数据挖掘实践项目中,进 行试验。此外,还进行了c r i s p - d m 与商业数据挖掘工具的整合工作。1 9 9 9 年中期, c r i s p - d m1 o 问世。随后,s p s s 和n c r 公司的专业服务组已经采纳了c r i s p - d m ,并在 大量的涉及许多工商业问题的消费者应用中,成功了运用了c r i s p d m 。 c r i s p - d m 之所以成功,就在于它建立在人们进行数据挖掘项目的实践的和真实 的经验的基础之上。 2 4 2c ris p - d m 数据挖掘过程参考模型 c r i s p - d m 数据挖掘过程参考模型概括描述了数据挖掘过程中的各个阶段、任务以 及结果,并对一个数据挖掘项目需要做什么进行了介绍。其步骤如下图2 1 所示n 们 第二章数据挖掘及其相关理论基于数据挖掘技术的电信客户流失预测模型的研究与应用 图2 1c r i s p - d m 数据挖掘过程 图2 - i 展示了数据挖掘过程的各个阶段,这些阶段之间的顺序并不固定,在不同 阶段之间来回流动往往是非常有必要的。究竟下一步要执行哪个阶段或者哪一个特定 的任务,都取决于每一个阶段的结果。图中的箭头表明了阶段之间最重要和最频繁的 依赖关系。六个阶段为:商业理解( b u s i n e s su n d e r s t a n d i n g ) ,数据理解( d a t a u n d e r s t a n d i n g ) ,数据预处理( d a t ap r e p a r a t i o n ) ,建立模型( m o d e l l i n g ) ,模型评 估( e v a l u a t i o n ) ,模型发布( d e p l o y m e n t ) 。 这个数据挖掘的程序模型,为数据挖掘项目的生命周期提供了一个综合的描绘。 它包括了一个数据挖掘项目所要经历的各个阶段,各阶段的任务以及这些任务之间的 相互关系。从描绘的层面来看,是不可能鉴别出所有这些任务之间的关系的。但本质 上看,这些任务之间是否存在关系,取决于使用者的目的,背景及其利益所在,与此 同时,更重的还在于数据。 下面简要介绍一下各个阶段所做的一些工作。 在商业理解( b u s i n e s su n d e r s t a n d i n g ) 阶段,首先需要明确商业应用所要达 到的目的和成功标准。接着对应用的资源和风险做估算。然后确定数据挖掘的目 标和成功标准。最后产生项目计划。注意应用要达到的目的和数据挖掘的目的是 不一样的。后者偏向于技术层次。在这一阶段,要把应用问题转换成数据挖掘的 问题。 c r i s p 把数据挖掘问题分为六类: 类型1 数据描述和概要问题。主要使用到的工具是简单统计,o l a p 等等。 类型2 数据划分问题。把现有的数据划分成几类,主要技术有聚类,神经 网络,可视化等等。 类型3 概念描述。对数据的理解,数据类的特性描述,主要技术有规则提 取( 特征规则) ,以及概念聚类等。 1 2 基于数据挖掘技术的电信客户流失预测模型的研究与应用第二章数据挖掘及其相关理论 类型4 5 分类和预测。两类很类似。不同之处在于前者的类属性是离散的, 后者是连续的。主要技术有规则提取( 分类规则) ,决策树,s v m ,线性回归和神经 网络等。 类型6 依赖分析。描述数据项或者属性之间的依赖关系。分析的结果也可 以用于预测。典型的技术如关联规则,b a y e s 网络等。 从应用领域转换成数据挖掘问题,就是把应用问题划分到上述的六种类型之 中,从而初步选取应该使用的技术。 在数据理解( d a t au n d e r s t a n d i n g ) 阶段,首先要收集相关的数据,接着对数据 进行描述,然后对数据进行检查,最后确认数据的质量。每一步都产生相应的报 告。这一步的目的是对数据的本质和质量有所了解,例如是否存在噪音,缺失值, 冗余属性,数据不一致,数据过少或过多等。 在数据预处理( d a t ap r e p a r a t i o n ) 阶段,包括数据选择,数据清理,数据合成, 数据合并及数据格式化等方法。其中数据选择包括属性选择,属性合成,实例选 择等。数据清理去除噪音,缺失值。数据合成是生成新的属性或记录,如果这样 做更能代表原数据的话。数据合并将几个数据集合并在一起。数据格式化处理数 据中的不一致情况。 在数据预处理后,就到了建立模型( m o d e l l i n g ) 阶段。根据数据及应用的性质, 首先选择合适的建模算法,以及该算法的参数。算法选定后,则设计适当的测试 方案。接着就是模型的训练了。在训练完毕后,使用测试方案对模型评估。 模型评估( e v a l u a t i o n ) 阶段评估得到的模型。评价的标准因应用类型而异。 如果结果不理想,则返回前一阶段甚至重新开始。否则到下一阶段。 在得到满意的评估效果后,就进入模型发布( d e p l o y m e n t ) 阶段。对如何部署 该模型作出计划,包括模型的维护和效果的监视。并产生最终项目报告。 2 5 与电信客户流失分析有关的数据挖掘方法 数据挖掘面对的是海量的数据,需要挖掘的数据可能具有不完全的、有噪声的、 随机的、数据结构复杂、维数大的特点。数据挖掘的大部分方法都不是专为解决某个 问题而特制的,一般来说并不存在所谓的最好的算法,在最终决定选取哪种模型或算 法之前,各种模型都试一下,然后再选取一个较好的。各种算法在不同的数据环境中, 第二章数据挖掘及其相关理论 基于数据挖掘技术的电信客户流失预测模型的研究与应用 优劣会有所不同。与电信客户流失分析有关的数据挖掘方法有n 5 1 : ( 1 ) 神经网络 神经网络由于其本身良好的健壮性、自组织自适应性、并行处理、分布存储和高 容错性等特点,近年来越来越受到人们的关注。典型的神经网络模型主要分为三大类: 用于分类、预测和模式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模 型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以a r t 模型、 k o h o l o n 模型为代表的,t 用于聚类的自组织映射方法。神经网络的知识体现在网络连 接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计 算上( 包括反复迭代或累加计算) 。运用神经网络的方法产生许多分类器,通过学习进 行模式识别。神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而成的 计算机系统,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络算法的 缺点是“黑箱”性,人们难以理解网络的学习和决策过程。 ( 2 ) 决策树 决策树是一种常用于分类和预测的算法,它通过将大量数据按照一定规则进行分 类,从中找到一些有价值的、潜在的信息。决策树是一个类似于流程图的树结构,其 中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个叶节 点代表类或类分布。它的基本思想是使用有属性描述的训练数据,根据属性构造决策 树。从根节点到叶节点为一条生成规则。整棵树就代表着决策集的树形结构。用这棵 树( 或由这棵树形成的规则集) 就可以对测试样本进行分类预测。 利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一 个结点,再根据字段的不同取值建立树的分支:在每个分支子集中重复建树的下层结 点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树的q u i u l a n 研制 的i d 3 方法n 引,数据库越大这种方法运行的效果越好。在i d 3 方法的基础上,又产 生了许多决策树方法。 决策树的每一层代表了对数据集的一个分割。该分割的选取方式是查看数据在各 个属性上所有可能的分割,然后选取其中最佳的分割方式( 取决于各个子集上类分布 的信息处理尺度) 。这个选择过程将在决策树的每一个层次上继续下去,直到对数据 的进一步分段不能到任何益处为止。 基于数据挖掘技术的电信客户流失预测模型的研究与应用第二章数据挖掘及其相关理论 它的主要优点是描述简单,分类速度快,特别适合于大规模的数据处理。 ( 3 ) 近邻算法 将数据集合中每一个记录进行分类的方法。其中具有代表性的是k 最近邻算法。 这种方法通过k 个邻居的平均数据来预测该特定数据的某个属性或行为。这种方法 可用作聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区治安应急知识培训课件
- 可爱情侣合同范本
- 光纤铺设合同范本简报
- 保洁合同范本清扫垃圾
- 废纸销售维修合同范本
- 迈瑞保修合同范本
- 绿化栽植承揽合同范本
- 社区应急知识培训课件
- 车辆销售代购合同范本
- 个人车位销售合同范本
- 高中英语高考读后续写肢体动作描写(手、肩、胳膊、心脏、背、腿、膝、脚等细化描)
- GB/T 32911-2016软件测试成本度量规范
- 广东省特种设备检测研究院东莞检测院招考【共500题含答案解析】模拟检测试卷
- 《压力容器安全技术监察规程》
- 独股一箭2010年20w实盘
- 数控加工中心培训课件
- 自动控制原理全套ppt课件(完整版)
- 智慧燃气安全监管平台建设方案
- 学校及附属设施建设施工方案 (1)
- 公共关系策划(共47页).ppt
- 卒中相关性肺炎-
评论
0/150
提交评论