(计算机系统结构专业论文)朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第1页
(计算机系统结构专业论文)朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第2页
(计算机系统结构专业论文)朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第3页
(计算机系统结构专业论文)朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第4页
(计算机系统结构专业论文)朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘要 随着国内外电信市场竞争的加剧。客户流失现象成为企业关注的问题之一。 面对日益严藿的客户流失状况,电信企业需要用数据挖掘技术来分析客户的流失 特性,以便采取措施挽留有价值的客户,从而减少客户流失以降低企业的经济损 失。因此电信客户流失预测已成为电信行业面l 临的重要问题。 本文重点研究数据挖掘中的朴素贝叶斯分类算法,并将该算法应用到电信行 业的客户流失分析中。其主要内容如下: ( 1 、针对属性冗余而导致朴素贝叶斯分类性能降低这一问题,提出了一种改 进的选择性朴素贝叶斯算法。该算法先按照属性信息增益值的大小对属性进行排 序,然后再对属性进行选择,从而提高了分类的准确率。 ( 2 1 针对不同级别、不同数量的客户离网后给电信企业带来的离网预测的问 题,提出了一种基于最大价值量的朴素贝叶斯算法。该算法通过建立价值量的概 念,调整价值敏感属性的价值系数因子,使得离网客户名单中的价值量达到最大。 实验仿真结果表明该算法在保持一定的准确率的同时,能预测更多高价值的离网 客户。 ( 3 ) 以上述两算法为基础,数据挖掘过程为线索,构建了电信客户流失预测 模型。该模型通过改进的选择性朴素贝叶斯算法对属性进行选择,然后利用基于 最大价值量的朴素贝叶斯算法进行分类预测,实验仿真结果表明该模型具有较好 的分类预测性能。 关键词:数据挖掘;客户流失:分类;朴素贝叶斯;最大价值量;属性选择 竺重銎兰塑茎鎏丝蚤垒皇篁釜:鎏查坌堡:竺坚里墼塞 a b s t r a c t w i t ht h er a m p a n t c o m p e t i t i o n i nt h ed o m e s t i ca n di n t e r n a t i o n a lw i r e l e s s t e l e c o m m u n i c a t i o n si n d u s t r y ,t h ec u s t o m e rc h u r n i n gh a sb e c o m eo n eo fm a t t e r so f c o n c e r nt ot h ee n t e r p r i s e f a c e dw i t ht h ei n c r e a s i n g l ys e r i o u ss i t u a t i o ni nc u s t o m e r c h u r n i n g ,t e l e c o me n t e r p r i s e sn e e dd a t am i n i n gt e c h n o l o g yt oa n a l y z et h ec h u r n i n g i no r d e rt ot a k em e a s u r e st om a i n t a i nv a l u a b l ec u s t o m e r s ,a n dr e d u c ec u s t o m e r s c h u r n i n gt ol o w e re c o n o m i cl o s s e s t h e r e f o r et h ep r e d i c t i o no fc u s t o m e rc h u r n i n g h a sb e c o m ea ni m p o r t a n ti s s u ei nt e l e c o m m u n i c a t i o n si n d u s t r y t h i st h e i sw ef o c u so nt h er e s e a r c ho fn a i v eb a y e sc l a s s i f i c a t i o na l g o r i t h m , t h e nu s et h ea l g o r i t h mt o a n a l y z e t h ep r e d i c t a t i o no fc u s t o m e r c h u r n i n g i n t e l e c o m m u n i c a t i o n t h em a i nc o n t e n t si n c l u d e : ( 1 ) a ni m p r o v e d s e l e c t i v en a i v eb a y e s a l g o r i t h m i s p r o p o s e d b e c a u s e c o r r e l a t e df e a t u r e sc o u l dr e d u c et h ep e r f o r m a n c eo ft h en a i v eb a y e sc l a s s i f i c a t i o n a tf i r s tt h ea l g o r i t h mo r d e r st h ef e a t u r e sb yi r a f o r m a t i o ng a i n ,t h e ns e l e c t st h e f e a t u r e si no r d e rt oi m p r o v e sa c c u r a c y ( 2 ) an e wc h u r np r e d i c t i o ni s s u ei sb r o u g h tt ot h et e l e c o mc o m p a n yd u et o d i f f e r e n tc o s tt a k e na f t e rd i f f e r e n tn u m b e r sa n dl e v e l so fc u s t o m e r sc h u r n ,an a i v e b a y e sa l g o r i t h mb a s e do nt h em a x i m u mv a l u ei sp r o p o s e d i n t h i s p a p e r t h e a l g o r i t h mc a nm a k et h ev a l u eo ft h ec h u r n e dc u s t o m e rl i s t r e a c hm a x i m i z a t i o nb y e s t a b l i s h i n g t h e c o n c e p to fv a l u ea n da d j u s t i n g t h ec o e f f i c i e n to ft h ev a l u e s e n s i t i v i t ya t t r i b u t e e x p e r i m e n t sr e s u l ts h o wt h a tt h en e wa l g o r i t h mc a np r e d i c t m o r ea n dm o r ev a l u a b l ec h u r n e dc u s t o l n c r sw i t hm a i n t a i n i n gc e r t a i na c c u r a c y ( 3 ) t a k i n gt h ea b o v et w oa l g o r i t h m sa st h ef o u n d a t i o n ,t h ep r o c e s so f d a t a m i n i n ga st h ec l u e ,h a se s t a b l i s ht h em o d e lo ft h ep r e d i c a t i o no fc u s t o m e rc h u r n i n g s e l e c tt h ea t t r i b u t e sb yt h ei m p r o v e da l g o r i t h mo fs e l e c t i v en a i v eb a y e s ,t h e n c l a s s i f yb yn a i v eb a y e sa l g o r i t h mb a s e do nt h em a x i m u mv a l u e e x p e r i m e n t sr e s u l t s h o wt h a tt h em o d e lh a v eag o o dp r e d i c t i n gp e r f o r m a n c e k e yw o r d s :d a t a m i n i n g ;c u s t o m e rc h u r n ;c l a s s i f i c a t i o n ;n a i v eb a y e s ; m a x i m u mv a l u e ;a t t r i b u t es e l e c t i n g 硕十学位论文 插图索引 图2 1 数据挖掘受多学科的影响9 图2 2 数据挖掘的步骤1 2 图3 1 朴素贝叶斯分类算法的训练流程和分类流程一2 0 图3 2 朴素贝叶斯模型2 1 图3 3 相关属性删除贝叶斯模型2 2 图3 4s e m i n b 模型2 2 图3 5t a n 模型2 3 图3 6a n b 模型一2 3 图3 7a o d e 模型一2 4 图3 8h n b 模型2 4 图4 1 最大价值量的n a i v eb a y e s 分类算法流程图3 6 图4 2n b 算法与p n b 算法的价值量变化图3 7 图5 1 客户流失中的时间窗口4 5 图5 2 利用s o n b 算法对客户流失中的属性选择过程4 7 图5 3 客户流失预测模型的过程4 8 v i 朴素贝叶斯算法及其在电信客户流失分析中的成用研究 附表索引 表2 1 数据挖掘的主要技术方法对比1 1 表4 1 一个两分类问题的混合矩阵2 9 表4 2 电信行业中客户流失分析中的混合矩阵3 3 表4 3p n b 算法中价值量最大值的搜索过程3 7 表5 i 用户基本信息表4 1 表5 2 用户月信息表4 1 表5 3 用户状态异动表一4 4 表5 4 分类结果4 8 表5 5 分类性能评价4 9 湖南大学; 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作晶。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:再h 称溽日期:弦醇年r 月j6 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密囝。 ( 请在以上相应方框内打“”) 作者签名; 导师签名: e t 期:渺占年f 月“日 日期:8 年r 月“e t 硕士学位论文 1 1 研究背景 第1 章绪论 目前随着现代社会的不断发展进步,电信行业发展潜力非常巨大。据统 计,到2 0 0 5 年,我国城乡移动用户数将接近4 亿,在2 0 1 0 年底这个数预计 将超过6 亿。在行业中运营商之间的竞争又十分激烈。据中国电信业统 计截至到2 0 0 6 年6 月,中国联通、中国移动、中国电信、中国网通的用户 数分别为1 3 7 亿、2 8 3 亿、2 1 8 亿、1 1 9 4 亿,所占比例分别为1 8 、3 7 3 6 、 2 8 7 8 、1 5 7 6 。 国内电信行业随着改革的深化,各大运营商在企业大客户、长途业务、 i p 业务、移动业务等领域展开了激烈的竞争。从直接降价、业务捆绑到服务 内容、服务方式、服务质量、服务意识的改变,进而到内部运营管理机制的 改进,都进行了一番激烈地角逐。目前电信运营商逐渐从“以业务为中心” 向“以客户为中心”转变,这种转变使企业对客户资源的重视程度超过任何 时候,同时关注客户对各种业务的满意情况以及对客户行为的预测识别。从 电信运营商自身的角度来看,客户保持是企业生存发展的需要。预计在近五 年中,这种战略转移将成为潮流。因此,在开发新用户的同时,尽量减少老 用户的流失( 降低用户流失率) ,已成为电信运营企业急需要解决的问题【”。 移动电话市场的客户流失( c h u r n l 【1 】是这一行业运营商面对的重要问题。 c h u r n 是无线电信行业的术语,是指客户取消无线通讯公司的某项服务,而 接受竞争者提供的类似的服务。客户流失这一名词在移动电话业中是指客户 从一个运营商转向另一个运营商,由于高度不稳定发展的电信市场和有限制 的竞争,许多客户从原来运营商流失到新的运营商那里,经常是为了得到成 为新客户而得到的更好的利益。 当前美国移动电话公司的月流失率平均2 3 。在美国获得每个客户要 花费3 0 0 到6 0 0 美元,用在销售服务、市场营销、广告和回扣上,因此失去 这些客户的代价是昂贵的。按照这个比例,移动电话公司第一年在新客户身 上不可能赚钱,而第二年,新客户可能己经流失【2 1 。中国的电信行业也面临 同样的问题,现在中国移动和中国联通新吸收的客户主要是预付费的低端客 户,他们的价值远没有老客户的价值高。移动和联通的a r p u 一直在下降是 一个很明显的标志。 如果能够建立一个估计客户流失的预测模型,通过将处于流失危险的客 户定为目标,对其进行一对一的营销,就可能保留住客户。例如,设想一个 拥有5 0 万客户的中等规模电话公司有2 的流失率,它获得客户的花费是3 0 0 朴素贝叶斯算法及其在电信客户流失分析中的应用研究 万美元。如果它可以设计预测模型以帮助它降低5 0 的客户流失,就可以节 约1 5 0 万美元。 传统上国外移动运管商认为新客户在最初两个月内流失的概率最大,大 约为1 0 左右,所以运营商会建立一个呼叫中心,在客户使用移动电话一个 月左右后,主动和客户联系。但是这样的方法是不合算的。再后来有一些运 营商开始用传统的数理统计模型来分析客户资料,希望能够发现一些规律, 但是效果不好。 如何才能预防、减少客户的流失? 数据挖掘技术的蓬勃发展为解决这一 类问题指明了方向。电信行业存在着大量现时的和历史的操作型数据f 如用 户信息数据库、呼叫数据库和帐单数据库等多种数据库) ,利用这些数据, 采用数据挖掘技术分析已发生流失的客户在流失前的通话行为,找出引起流 失的一些规律性知识,电信企业可以根据这些规律有针对性的制定相应的策 略,在客户流失之前预先采取行动,来减少或消除这些客户发生流失的可能 性。由此可见,利用数据挖掘技术能为决策者提供重要的、极有价值的信息, 从而产生潜在的经济效益。在电信行业的应用领域,数据挖掘可以分析客户 关系管理、客户欺诈分析、客户流失分析、客户消费模式分析和市场推广分 析等问题。 经过几年的发展。企业内部已建立起相对完善的客户数据库,积累了大 量的数据,这些激增的数据背后隐藏着许多重要的信息。将数据挖掘技术这 个目前数据仓库领域最为强大的数据分析手段有效运用于电信企业客户流 失预测中,将为企业解决这一难题。 综上所述,如何利用数据挖掘技术有效获取预离网客户名单具有非常重 要的应用意义。本文所做的工作,正是在上述课题背景的驱动下建立和实旖 的。 1 2 研究现状及发展 1 2 1 国外研究现状及发展 国外电信公司参与市场竞争地较早,因此对于数据挖掘技术在电信业务 中的应用也有较早的研究【3 1 。 美国西部电信公司( u sw e s n ,作为美国最大的长途电信公司之一,拥 有2 0 0 0 万以上客户。该公司使用s a s 研究所的企业挖掘器( e n t e r p r i s em i n e r ) 软件以进一步扩大其己获成功的目标市场。 m c i 是美国第二大电信公司,在对用户消费习惯进行数据挖掘的基础 上,针对用户的消费特点,推出了环球亲友计划,允许用户选择一定数量的 亲友,给他们打电话时享受特殊条件的优惠,但前提是其亲友也必须是m c i 硕士学位论文 公司的用户,通过这个策划,m c i 争取到许多客户,扩大了市场份额。 英国电信采用数据挖掘手段,建立模型来确定潜在客户的购买倾向和他 们变为用户之后可能的价值。建立精确的客户特征以后,英国电信打算开发 针对于特定客户群的产品。英国电信还通过其预测模型来预测对那些不能及 时交费的用户,以便采取措旖使公司的损失最小。全世界的任何一家电信运 营公司都会遇到一些不能及时付清帐单的用户。英国电信针对这一经常发生 的情况,利用机器学习技术,建立了自动预测模型,将历史的做法制成案斜; 成为训练的样本,来预测采取何种措施效益最好。 m t & t 公司是加拿大最著名的电信公司,与其他国家的电信公司一样, m t & t 在加拿大电信史上一直居于垄断地位。直到最近几年,8 0 年代影响 北美的电信分离改变了加拿大电信的运转轨迹,首先是长途展开竞争,紧跟 其后,本地电话也卷入了竞争大战。在争夺市场份额的激烈竞争中,m t & t 采用了强有力的手段一一数据挖掘软件来取得竞争优势。该软件是s a s 公 司开发的企业挖掘者( e n t e r p r i s em i n e r ) ,它根据公司拥有的大量的数据分析 趋势,并挖掘模型,发现市场机会,为决策者提供新的思路。利用数据挖掘, m t t 公司能准确的进行客户定位,并及时了解发现客户的需要,公司在事 实的基础上做出准确的决策,摆脱了以前凭经验猜测的状态。不仅在财政预 算上得到了节约,更重要的是市场份额不断增加,公司发展迅速。 v o d ol o n e 公司利用数据挖掘技术建立模型研究客户流失的原因,并从 不同的角度来进行市场细分。 法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销 售等各方面都取得了很多成果。 n t t 在自己的c r m 系统c o m w a r e 中使用数据挖掘的方法来分析数 据,以提高对客户的管理水平。 韩国s k t e l e c o m 公司的c r m 中,应用数据挖掘技术分析客户的通话行 为,预测通话中的断线情况。 比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓 库拥有超过1 万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检 测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大 经济损失之前终止这种欺骗行为。 从上面的描述可以看出,国外知名的电信运营企业均利用数据挖掘技术 建立起了自己的商业智能系统。通常这种系统是通过两种方法实现的:( 1 ) 商业上各种通用的数据挖掘软件产品;( 2 ) 高校和科研机构的学者建立特定的 模型。下面从这两方面介绍: 朴素贝叶斯算法及其在电信客户流失分析中的应用研究 f 1 1 商业上各种通用的数据挖掘软件产品 数据挖掘技术的广阔前景吸引了国内外众多研究人员和商业机构,一大 批新的研究成果、应用系统和原型被开发出来,如i b mi n t e l l i g e n tm i n e r 、 s a se n t e r p r i s em i n e r 、s p s sc l m e n t i n e 、d b m i n e r 4 j 等。 i b mi n t e l l i g e n tm i n e r :由美国i b m 公司开发的数据挖掘软件,是一种 分别面向数据库和文本信息进行数据挖掘的软件系列,它可以挖掘包含在数 据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通 文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为 监测及客户联系管理等。 s a se n t e r p r i s em i n e r :这是一种在我国的企业中得到采用的数据挖掘工 具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的 应用。它是一种通用的数据挖掘工具,按照“抽样一探索一转换一建模一评 估”的方法进行数据挖掘。可以与s a s 数据仓库和o l a p 集成,实现从提 出数据、抓住数据到锝到解答的“端到端”知识发现。 s p s sc l m e n t i n e :是一个开放式数据挖掘工具,曾两次获得英国政府 s m a r t 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、 评估到最终部署的全部过程,还支持数据挖掘的行业一一c r i s p d m 。 c l e m e n t i n e 的可视化数据挖掘使得思路分析成为可能,即将集中精力在要解 决的问题本身,而不是局限于完成一些技术性工作( 比如编写代码) 。提供了 多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径 找到问题的最终解决办法。 这些系统大都实现了多种数据挖掘算法的工具,但是和特定的商业应用 没有紧密结合。当前数据挖掘研究重点逐渐从发现方法转向系统应用,注重 多种发现策略和技术的集成,以及多种学科之间的相互渗透,通用的数据挖 掘工具已经不再适应数据挖掘应用发展的需求。因此如何将数据挖掘技术与 应用相结合,同时又保持系统的可扩展性和灵活性,是数据挖掘系统研制需 要解决的问题之一。 ( 2 ) 各科研机构的研究人员建立特定的分类模型来更好地解决客户流失问 题。 m o z e r 5 i 结合了客户的基本信息、通信消费信息、客户欠费信息、对预 离网用户的干涉费用等信息,利用逻辑回归,决策树,神经网络等模型对电 信行业中的客户流失问题进行了预测;y a n 在非稳定的环境中建立预测模型, 从而提高了客户流失的预测精度【6 l ;l u 采用生存分析法建立客户流失预测模 型【7 1 ;r o s s e t 在所建数据挖掘模型中,引入客户价值来预测潜在的流失客户 【8 】;g u p t a p 9 】和s c o t t 1 0 j 在2 0 0 3 年d u k e 数据中心的流失预测模型比赛中, 硕士学位论文 采用决策树、a n n 等方法对未来的客户流失率进行了精确的预测。 1 2 2 国内研究现状及发展 随着中国移动运营业的分拆重组的完成,移动运营市场竞争在所难免, 由于移动运营市场竞争的不断加剧,移动运营业务支撑系统的建设愈加显得 重要,目前国内各主要运营商都在将投资重点逐渐从网络基础设施和业务基 础设施转向到支撑系统的建设上。紧锣密鼓地规划和建设新一代的业务运营 支撑系统o s s ( o p e r a t i o ns u p p o r ts y s t e m ) 、b s s ( b u s i n e s ss u p p o r ts y s t e m ) , 如中国移动的b o s s 2 、中国联通的u n i c r m 等,移动运营业务运营支撑 系统的建设正进入一个新的发展时期,可以相信业务运营支撑系统将在各运 营商参与市场竞争中扮演非常重要的角色。 这种激烈的竞争加速了业务运营支持系统( b o s s ) 的更新换代,如对话费 系统、客户服务系统、财务管理系统的开发和完善。在这些系统的建设中, 积累了大量的原始业务数据。这些系统中保留着大量的客户通话行为数据、 账单、投诉咨询和客户基本信息数据。由于电信企业忙于业务扩张,所以无 暇顾及对这些数据的挖掘分析。如何有效的利用这些已有的数据? 近一两年 来,一些有实力的电信企业也开始考虑到挽留高价值客户的必要,逐步着手 对这些历史数据进行挖掘。 在当前电信业发展的背景之下,客户流失管理作为一套专门的管理理论 和技术,开始走进了国内电信企业,很多顾问公司和软件厂商也提出自己的 解决方案。但是,在具体如何实施客户流失管理的技术细节上,却是八仙过 海、各显神通,没有统一的定论。由于都只是试探性的建立简单的模型,有 的还处于调研与可行性分析阶段,并没有实际可用的成熟产品投入使用。目 前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、”九五”计划等,但还没有关于国内数据挖掘产品的报道。 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。 所涉及的研究领域很多,一般集中于算法的研究、数据挖掘的实际应用以及 有关数据挖掘理论方面的研究。 文献【1 1 】结合a d t r e e 模型和逻辑回归模型的优点,提出了一种树逻辑模 型( t r e e l o g i t m o d e l ) 预测客户离网倾向,利用a d t r e e 模型对客户信息进行分 类,逻辑回归模型对分类结果进行优化,从而找到具有准确性较高的优化分 类结果;文献i “1 根据先验知识的因果推理和基于贝叶斯网络的因果推理进行 流失客户的分析,挖掘导致流失的因素,从而辅助市场经营人员制订相应的 策略;文献【”1 结合采用k 2 和m c m c 算法构建贝叶斯网络从而进行客户流 失的分析。 因此,现阶段的主要目标是提出改进的算法来对客户流失预测分析模型 朴素贝叶斯算法及其在电信客户流失分析中的心用研究 进行优化、完善。同时,由于国内的电信市场与国外的电信市场存在着很大 的差异,将国外的模型应用到国内之前必须进行调整以适应国内电信市场的 要求。客户流失分析作为经营分析系统中的一个重要主题。主要任务是根据 流失客户和没有流失的客户性质和消费行为,进行挖掘分析,建立客户流失 预测模型,分析哪些客户的流失率最大,流失客户的消费行为如何,客户流 失的其他相关因素。通过建立客户流失预测模型,使企业能够预测客户流失 的可能性,并通过对客户流失原因的分析,提出相应的挽留政策,从而降低 客户流失率,减少企业的运营成本。因此,该模型的建立对企业来说有着极 为重要的意义。 1 3 本文主要工作 本文对基于朴素贝叶斯的分类算法进行了探讨与研究,主要工作总结如 下: 介绍了国内外客户流失预测的发展概况。介绍了数据挖掘的基础理论, 对数据挖掘算法中的常用分类算法进行了分析和研究。为本文后续章节的研 究提供理论基础。 针对属性冗余而导致朴素贝叶斯分类性能降低这一问题,提出了一种改 进的选择性朴素贝叶斯算法。该算法先按照属性信息增益值的大小对属性进 行排序,然后再对属性进行选择,从而提高了分类的准确率。 针对不同级别、不同数量的客户离网后给电信企业带来的离网预测的问 题,提出了一种基于最大价值量的朴素贝叶斯算法。该算法通过建立价值量 的概念,调整价值敏感属性的价值系数因子,使得离网客户名单中的价值量 达到最大。实验结果表明,该算法在保持一定的准确率的同时,能预测更多 高价值的离网客户。 以上述两算法为基础,数据挖掘过程为线索,构建了电信客户流失预测 模型。该模型通过改进的选择性朴素贝叶斯算法对属性进行选择,然后利用 基于最大价值量的朴素贝叶斯算法进行分类预测,实验结果表明该模型具有 较好的分类预测性能。 1 4 本文的内容安排 全文主要由如下部分组成: 第1 章绪论 主要内容包括:介绍课题背景及意义,本文主要研究内容以及所做 的主要工作。 第2 章数据挖掘理论及常用分类算法概论 硕士学位论文 主要内容包括:介绍数据挖掘的基本理论,如数据挖掘的概论、 功能、算法分类及过程。介绍常用的分类算法模型。 第3 章一种改进的朴素贝叶斯属性选择算法 主要内容包括:介绍贝叶斯理论与朴素贝叶斯分类方法。介绍基于 贝叶斯的各种改进算法及对比情况。介绍选择贝叶斯分类算法并在 其基础上提出了改进的选择贝叶斯分类算法。 第4 章最大价值量的朴素贝叶斯分类算法 主要内容包括:介绍了目前分类器的性能评价指标。根据电信客户 流失应用的需要,提出了新的性能评价指标价值量,并给出了p n b 算法的分类公式,算法描述及流程,最后通过实验验证其性能并分 析实验结果。 第5 章电信客户流失预测模型的实现 主要内容包括:通过商业理解、数据理解、数据准备、建立模型、 模型评估等步骤建立了电信客户流失预测模型的实现。 结论 总结全文,并对下一步研究工作做出展望。 朴素贝叶斯算法及在电信客户流失分析中的应用研究 第2 章数据挖掘理论与常用分类算法概述 2 1 引言 本章介绍了数据挖掘的基础理论,对数据挖掘算法中的常用分类算法进 行了分析和研究,为本文后续章节的研究提供理论基础。 2 2 数据挖掘理论 近年来,数据挖掘技术引起了信息产业界的极大关注。主要原因是人们 利用信息技术生产和搜集数据的能力大幅度提高,数千万个数据库被用于商 业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展 下去。于是,一个新的挑战被提了出来:如何将这些数据转换成有用的信息 和知识,提高信息利用率呢? 要想使数据真正成为一个公司的资源,只有充 分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能 成为包袱,甚至成为垃圾。因此,数据挖掘和知识发现f k d d ) 技术应运而生, 并得以蓬勃发展,越来越显示出其强大的生命力。麻省理工学院的科技评 论杂志提出未来5 年对人类产生重大影响的十大新兴技术,“数据挖掘” 位居第三。据国外专家预测,随着数据量的日益积累和计算机的广泛应用, 在今后的5 至1 0 年内,数据挖掘将在中国形成一个新型的产业【1 4 】。 2 2 1 数据挖掘概况 数据挖掘r d a t a m i n i n g ) ,在1 9 8 9 年8 月美国底特律市召开的第十一界国 际联合人工智能学术会议上正式形成。从1 9 9 5 年开始,每年举行一次知识发 现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 国际学术会议,把对数据挖掘 和知识发现的研究推入高潮。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。“数据挖掘包含了一系列旨在从数据集中发现有用而尚未发 现的模式的技术”。确切地说,数据挖掘是一种知识发现的过程,它主要基 于统计学、人工智能、机器学习等技术,高度自动化地分析数据,做出归纳 性的推理,从中挖掘出潜在的、有价值的知识、模型或规则,并对未来情况 进行预测,辅助决策者评估风险、做出正确的决策。对于企业而言,数据挖 掘可以有助于发现业务发展的趋势,揭示己知的事实,预测未知的结果,并 帮助企业分析出完成任务所需的关键因素,以达到增加收入、降低成本,使 企业处于更有利的竞争位置的目的。 岳 硕士学位论文 广义地讲,数据和信息是知识的表现形式。但在数据挖掘中,更多地是 把概念、规则、模式规律和约束等看成知识。原始数据可以是结构化的,如 关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚 至是分布在网络上的异构型数据。这些数据可以存放在数据库、数据仓库或 其他信息存储中。发现知识的方法可以是数学的或非数学的、演绎的或归纳 的。数据挖掘所发现的知识可被用于信息管理、查询优化、决策支持、过程 控制等。 总之,数据挖掘是一个交叉学科领域,受多个学科影响( 如图2 1 所示) , 包括数据库系统、统计学、机器学习、可视化和信息科学等。数据挖掘方法 使用了多个其他学科的技术,如神经网络、模糊或粗糙集理论、知识表示、 归纳逻辑程序设计或高性能计算。此外,数据挖掘还可能集成了空间数据分 析、信息检索、模式识别、图象分析、信号处理、计算机图形学、经济、商 业、生物信息学或心理学领域的技术 图2 1 数据挖掘受多学科的影响 数据挖掘技术最初就是面向应用的,尤其是在银行、电信、保险、交通、 零售( 如超级市场) 等商业领域。数据挖掘所能解决的典型商业问题有:客户 关系管理( c u s t o m e r r e l a t i o nm a n a g e m e n t ,c r m ) 、数据库营销( d a t a b a s e m a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o n c l a s s i f i c a t i o n ) 、交叉销售 f c r o s s s e l l i n g ) 等市场分析行为,以及客户流失分析( c h u r na n a l y s i s ) 、客户信 用记分( c r e d i ts c o r i n g ) 及欺诈发现等等。 2 2 2 数据挖掘功能 数据挖掘的任务就是发现隐藏在数据中的模式,其可以发现的模式一般 分为两大类:描述型( d e s e r i p t i v e ) 希l 预测g c j ( p r e d i c t i v e ) 模式。描述型模式是对 对当前数据中存在的事实做规范描述,刻画当前数据的一般特性;预测型模 朴素贝叶斯算法及其柚:电信客户流失分析中的应用研究 式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值去 预测其未来的值。根据模式特征,可将模式大致细分如下: 1 关联模式( a s s o c i a t i o n ) 关联模式是数据项之间存在的关联规则,即在同一事件中出现的不同项 之间的相关性,比如顾客在同一次购买活动中所购买的不同商品之间的相关 性。 最著名的关联规则挖掘算法是有a g r a w a l 等于1 9 9 4 年提出的a p r i o r i 算 法。a p r i o r i 算法的基本思想是:统计多种商品在一次购买中共同出现的频数, 然后将出现频数多的搭配转换为关联规则。a p r i o r i 算法的核心是:用前一次 扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索的效率。其后 人们又提出了诸多关联规则挖掘算法,主要工作是如何提高项集的生成效率 和降低计算代价。 2 聚类分析( c l u s l e r i n 9 1 聚类就是将数据项分组成多个类或簇,类之间的数据差别应尽可能大, 类内的数据差别应尽可能小,即为“最小化类问的相似性,最大化类内的相 似性”原则,与分类模式不同的是,聚类中要划分的类别是未知的,它是一 种不以来预先定义的类和带类标号的训f 练数据集的非监督学习( u n s u p e r v i s e d l e a r n i n g ) ,无需背景知识,其中类的数量由系统按照某种性能指标自动确定。 3 分类( c l a s s i f i c a t i o n ) 分类就是构造一个分类函数f 分类模型) ,把具有某些特征的数据项映射 到某个给定的类别上。该过程由两步构成:模型创建和模型使用。模型创建 是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型 对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就 是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则, 决策树或数学表达式的形式给出。 4 回归模式( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散 预测值( 例如类标号) ,而回归模式采用连续的预测值。在这种观点下,分类 和回归都是预测问题。但在数据挖掘业界,大家普遍认为:用预测法预测类 标号为分类,预测连续值r 例如使用回归方法) 为预测。许多问题可以用线性 回归解决,对于许多非线性问题可以通过对变量进行变化,从而转换为线性 问题来解决。 5 序列模式( s e q u e n t i a l ) 序列模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其 建模。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别 硕士学位论文 是变量所处时间的不同。序列模式将关联模式和时问序列模式结合起来,重 点考虑数据之间在时间维上的关联性。 6 偏差模式( d e v i a t i o n l 偏差模式是对差异和极端特例的表述,如聚类外的离群值。大部分数据 挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数 据可能比正常的数据更有用。偏差检验的基本方法就是寻找观察结果与参照 之问的差别。 2 2 3 数据挖掘算法分类 数据挖掘中的算法较多,可分为传统统计型方法、机器学习方法、神经 网络方法和数据库方法【”l 。 ( 1 ) 统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析 ( 多元回归、逻辑回归等) 、判别分析( 贝叶斯判别、费歇尔判别、非参数判别 等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主元分析法、相关分 析法等1 。 ( 2 ) 机器学习包括归纳学习方法( 决策树、规则归纳等) 、基于范例学习、 遗传算法、粗糙集等。粗糙集能够对不确定、不完整的信息进行处理,而遗 传算法具有全局最优搜索的能力。 ( 3 ) 神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络 的常用算法包括前向神经网络( r b f 、b p 算法等) 、自组织神经网络( 自组织特 征映射、竞争学习等、等。 ( 4 ) 数据库方法主要是多维数据分析或o l a p 方法。o l a p 系统的数据 库为高效存储静态数据构建。其存储结构的设计是为了高效检索数据,尤其 是聚合数据,比如求总和或是其它运算。 表2 1 数据挖掘的主要技术方法对比 技术方法 主要功能及特点应用领域 决镱树 归纳分类:可理解性 电信、医学和零售业等 遗传算法 聚类、优化;高效性金融业、保险业和农业等 粗糙集 不确定性分类零售业、金融业和制造业等 神经网络 预测、分类和聚类;解释性差电信业、保险业和制造业等 贝叶斯判别 分类、聚类和预测;易解释医学、制造业和电信等 关联规则 分类、聚类零售业、保险业和制造业等 统计分析 聚类;结果精确、易理解金融业、制造业和医学等 支持向量机分类;误差小医学、电信和金融业等 朴素贝叶斯算法及j 在电信客户流失分析中的应用研究 上述算法中,大部分都不是专为解决某个问题而特制的,算法之间也并 不互相排斥,不能说一个问题一定要采用某种算法,别的就不行。一般来说, 并不存在所谓最好的算法,在最终决定选取哪种模型或算法之前,各种模型 都需试一下,然后再选取一种挖掘结果较好的。各种算法在不同的数据环境 中,优劣会有所不同。如神经网络为解决大复杂度问题提供了一种相对比较 有效的简单方法,可以很容易地解决具有上百个参数的问题,但挖出的结果 却很难解释,挖掘时所耗的资源也是最大的;而决策树相对来说,其结构和 规则推理的过程是开放的、清楚的,可浏览的。 数据挖掘的应用中,最终的目标都是发现有价值的知识和信息,有共同 的思路和步骤,但也存在很大的差异和区别。由于各种方法都有自身的功能 特点以及应用领域f 见表2 1 ) t “】,数据挖掘技术的选择将影响最后结果的质量 和效果,通常是将多种技术结合使用,形成优势互补。 2 2 4 数据挖掘过程 数据挖掘过程如图2 2 所示,它不是一个线性的过程,而是一个多次的循 环反复的过程,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重 新调整,重新执行。因此,在每一个过程中,都需要不同专业的人员参与, 包括业务分析人员、数据分析人员和数据管理人员等。 图2 2 数据挖掘的步骤 在设计和部署特定的数据挖掘应用之前,都需要先明确问题的任务和确 定数据挖掘的对象,包括确定应用的范围,了解用户的需求,确定最后的挖 掘目标等。 一般来说,数据挖掘的过程大致可分为以下几个阶段。 1 数据的选择和清洗 在确定了数据挖掘的对象之后,需要搜索所有与业务对象有关的内部和 外部数据,从中选出适合于挖掘应用的数据。但是真实世界中的数据都会有 不完全的、含噪音的、不一致的数据,因此需要数据清洗过程填充空缺的值, 硕士学位论文 识别孤立点、消除噪声,并纠正数据中的不一致。 对于空缺值,使用的方法有:( 1 ) 忽略有空缺值的记录,但如果缺少记录 太多会丢失很多有用的数据:但) 人工填写空缺值,该方法很费时,并且当数 据集很大、缺少很多值时,该方法可能行不通;( 3 ) 使用一个固定值填充空缺 值,比如用“u n k n o w n ”替换空缺值,但挖掘程序可能误以为它们形成了一 个有趣的概念,4 因此该方法也不推荐。( 4 ) 用属性的平均值填充空缺值。( 5 ) 使用属于相同类的所有记录的平均值。( 6 ) 用最可能的值填充空缺值,这需要 用到回归技术、贝叶斯形式化方法或决策树来归纳。 对于噪声数据,使用的方法有:( 1 ) 分箱,通过考察周围的值来平滑存储 数据的值。( 2 ) 聚类,将类似的值组织成群或“聚类”,落在聚类集合之外的 值则被视为孤立点。( 3 ) 计算机检查和手工检查相结合,通过计算机和人工检 查结合的办法来识别孤立点。( 4 ) 回归,找出适合数据的数学方法,消除噪声。 对于不一致的数据,可以使用其他材料人工加以改正,也可以使用知识 工程工具来检测违反限制的数据。 。 2 数据集成和变换 数据分析中通常要涉及到数据集成,数据集成将多个数据源中的数据结 合起来存放在一个一致的数据存储中。这些数据源可能包括数据库、数据立 方体或一般文件。 在数据集成时,需要考虑三个重要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论