（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：62 大小：1.83MB 积分：0 举报 版权申诉

（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第2页

（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第3页

（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第4页

（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf_第5页

已阅读5页，还剩57页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

硕士学位论文摘要随着国内外电信市场竞争的加剧。客户流失现象成为企业关注的问题之一。面对日益严藿的客户流失状况，电信企业需要用数据挖掘技术来分析客户的流失特性，以便采取措施挽留有价值的客户，从而减少客户流失以降低企业的经济损失。因此电信客户流失预测已成为电信行业面l 临的重要问题。本文重点研究数据挖掘中的朴素贝叶斯分类算法，并将该算法应用到电信行业的客户流失分析中。其主要内容如下： ( 1 、针对属性冗余而导致朴素贝叶斯分类性能降低这一问题，提出了一种改进的选择性朴素贝叶斯算法。该算法先按照属性信息增益值的大小对属性进行排序，然后再对属性进行选择，从而提高了分类的准确率。 ( 2 1 针对不同级别、不同数量的客户离网后给电信企业带来的离网预测的问题，提出了一种基于最大价值量的朴素贝叶斯算法。该算法通过建立价值量的概念，调整价值敏感属性的价值系数因子，使得离网客户名单中的价值量达到最大。实验仿真结果表明该算法在保持一定的准确率的同时，能预测更多高价值的离网客户。 ( 3 ) 以上述两算法为基础，数据挖掘过程为线索，构建了电信客户流失预测模型。该模型通过改进的选择性朴素贝叶斯算法对属性进行选择，然后利用基于最大价值量的朴素贝叶斯算法进行分类预测，实验仿真结果表明该模型具有较好的分类预测性能。关键词：数据挖掘；客户流失：分类；朴素贝叶斯；最大价值量；属性选择竺重銎兰塑茎鎏丝蚤垒皇篁釜：鎏查坌堡：竺坚里墼塞 a b s t r a c t w i t ht h er a m p a n t c o m p e t i t i o n i nt h ed o m e s t i ca n di n t e r n a t i o n a lw i r e l e s s t e l e c o m m u n i c a t i o n si n d u s t r y ，t h ec u s t o m e rc h u r n i n gh a sb e c o m eo n eo fm a t t e r so f c o n c e r nt ot h ee n t e r p r i s e f a c e dw i t ht h ei n c r e a s i n g l ys e r i o u ss i t u a t i o ni nc u s t o m e r c h u r n i n g ，t e l e c o me n t e r p r i s e sn e e dd a t am i n i n gt e c h n o l o g yt oa n a l y z et h ec h u r n i n g i no r d e rt ot a k em e a s u r e st om a i n t a i nv a l u a b l ec u s t o m e r s ，a n dr e d u c ec u s t o m e r s c h u r n i n gt ol o w e re c o n o m i cl o s s e s t h e r e f o r et h ep r e d i c t i o no fc u s t o m e rc h u r n i n g h a sb e c o m ea ni m p o r t a n ti s s u ei nt e l e c o m m u n i c a t i o n si n d u s t r y t h i st h e i sw ef o c u so nt h er e s e a r c ho fn a i v eb a y e sc l a s s i f i c a t i o na l g o r i t h m ， t h e nu s et h ea l g o r i t h mt o a n a l y z e t h ep r e d i c t a t i o no fc u s t o m e r c h u r n i n g i n t e l e c o m m u n i c a t i o n t h em a i nc o n t e n t si n c l u d e ： ( 1 ) a ni m p r o v e d s e l e c t i v en a i v eb a y e s a l g o r i t h m i s p r o p o s e d b e c a u s e c o r r e l a t e df e a t u r e sc o u l dr e d u c et h ep e r f o r m a n c eo ft h en a i v eb a y e sc l a s s i f i c a t i o n a tf i r s tt h ea l g o r i t h mo r d e r st h ef e a t u r e sb yi r a f o r m a t i o ng a i n ，t h e ns e l e c t st h e f e a t u r e si no r d e rt oi m p r o v e sa c c u r a c y ( 2 ) an e wc h u r np r e d i c t i o ni s s u ei sb r o u g h tt ot h et e l e c o mc o m p a n yd u et o d i f f e r e n tc o s tt a k e na f t e rd i f f e r e n tn u m b e r sa n dl e v e l so fc u s t o m e r sc h u r n ，an a i v e b a y e sa l g o r i t h mb a s e do nt h em a x i m u mv a l u ei sp r o p o s e d i n t h i s p a p e r t h e a l g o r i t h mc a nm a k et h ev a l u eo ft h ec h u r n e dc u s t o m e rl i s t r e a c hm a x i m i z a t i o nb y e s t a b l i s h i n g t h e c o n c e p to fv a l u ea n da d j u s t i n g t h ec o e f f i c i e n to ft h ev a l u e s e n s i t i v i t ya t t r i b u t e e x p e r i m e n t sr e s u l ts h o wt h a tt h en e wa l g o r i t h mc a np r e d i c t m o r ea n dm o r ev a l u a b l ec h u r n e dc u s t o l n c r sw i t hm a i n t a i n i n gc e r t a i na c c u r a c y ( 3 ) t a k i n gt h ea b o v et w oa l g o r i t h m sa st h ef o u n d a t i o n ，t h ep r o c e s so f d a t a m i n i n ga st h ec l u e ，h a se s t a b l i s ht h em o d e lo ft h ep r e d i c a t i o no fc u s t o m e rc h u r n i n g s e l e c tt h ea t t r i b u t e sb yt h ei m p r o v e da l g o r i t h mo fs e l e c t i v en a i v eb a y e s ，t h e n c l a s s i f yb yn a i v eb a y e sa l g o r i t h mb a s e do nt h em a x i m u mv a l u e e x p e r i m e n t sr e s u l t s h o wt h a tt h em o d e lh a v eag o o dp r e d i c t i n gp e r f o r m a n c e k e yw o r d s ：d a t a m i n i n g ；c u s t o m e rc h u r n ；c l a s s i f i c a t i o n ；n a i v eb a y e s ； m a x i m u mv a l u e ；a t t r i b u t es e l e c t i n g 硕十学位论文插图索引图2 1 数据挖掘受多学科的影响9 图2 2 数据挖掘的步骤1 2 图3 1 朴素贝叶斯分类算法的训练流程和分类流程一2 0 图3 2 朴素贝叶斯模型2 1 图3 3 相关属性删除贝叶斯模型2 2 图3 4s e m i n b 模型2 2 图3 5t a n 模型2 3 图3 6a n b 模型一2 3 图3 7a o d e 模型一2 4 图3 8h n b 模型2 4 图4 1 最大价值量的n a i v eb a y e s 分类算法流程图3 6 图4 2n b 算法与p n b 算法的价值量变化图3 7 图5 1 客户流失中的时间窗口4 5 图5 2 利用s o n b 算法对客户流失中的属性选择过程4 7 图5 3 客户流失预测模型的过程4 8 v i 朴素贝叶斯算法及其在电信客户流失分析中的成用研究附表索引表2 1 数据挖掘的主要技术方法对比1 1 表4 1 一个两分类问题的混合矩阵2 9 表4 2 电信行业中客户流失分析中的混合矩阵3 3 表4 3p n b 算法中价值量最大值的搜索过程3 7 表5 i 用户基本信息表4 1 表5 2 用户月信息表4 1 表5 3 用户状态异动表一4 4 表5 4 分类结果4 8 表5 5 分类性能评价4 9 湖南大学；学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作晶。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：再h 称溽日期：弦醇年r 月j6 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1 、保密口，在年解密后适用本授权书。 2 、不保密囝。 ( 请在以上相应方框内打“”) 作者签名；导师签名： e t 期：渺占年f 月“日日期：8 年r 月“e t 硕士学位论文 1 1 研究背景第1 章绪论目前随着现代社会的不断发展进步，电信行业发展潜力非常巨大。据统计，到2 0 0 5 年，我国城乡移动用户数将接近4 亿，在2 0 1 0 年底这个数预计将超过6 亿。在行业中运营商之间的竞争又十分激烈。据中国电信业统计截至到2 0 0 6 年6 月，中国联通、中国移动、中国电信、中国网通的用户数分别为1 3 7 亿、2 8 3 亿、2 1 8 亿、1 1 9 4 亿，所占比例分别为1 8 、3 7 3 6 、 2 8 7 8 、1 5 7 6 。国内电信行业随着改革的深化，各大运营商在企业大客户、长途业务、 i p 业务、移动业务等领域展开了激烈的竞争。从直接降价、业务捆绑到服务内容、服务方式、服务质量、服务意识的改变，进而到内部运营管理机制的改进，都进行了一番激烈地角逐。目前电信运营商逐渐从“以业务为中心” 向“以客户为中心”转变，这种转变使企业对客户资源的重视程度超过任何时候，同时关注客户对各种业务的满意情况以及对客户行为的预测识别。从电信运营商自身的角度来看，客户保持是企业生存发展的需要。预计在近五年中，这种战略转移将成为潮流。因此，在开发新用户的同时，尽量减少老用户的流失( 降低用户流失率) ，已成为电信运营企业急需要解决的问题【”。移动电话市场的客户流失( c h u r n l 【1 】是这一行业运营商面对的重要问题。 c h u r n 是无线电信行业的术语，是指客户取消无线通讯公司的某项服务，而接受竞争者提供的类似的服务。客户流失这一名词在移动电话业中是指客户从一个运营商转向另一个运营商，由于高度不稳定发展的电信市场和有限制的竞争，许多客户从原来运营商流失到新的运营商那里，经常是为了得到成为新客户而得到的更好的利益。当前美国移动电话公司的月流失率平均2 3 。在美国获得每个客户要花费3 0 0 到6 0 0 美元，用在销售服务、市场营销、广告和回扣上，因此失去这些客户的代价是昂贵的。按照这个比例，移动电话公司第一年在新客户身上不可能赚钱，而第二年，新客户可能己经流失【2 1 。中国的电信行业也面临同样的问题，现在中国移动和中国联通新吸收的客户主要是预付费的低端客户，他们的价值远没有老客户的价值高。移动和联通的a r p u 一直在下降是一个很明显的标志。如果能够建立一个估计客户流失的预测模型，通过将处于流失危险的客户定为目标，对其进行一对一的营销，就可能保留住客户。例如，设想一个拥有5 0 万客户的中等规模电话公司有2 的流失率，它获得客户的花费是3 0 0 朴素贝叶斯算法及其在电信客户流失分析中的应用研究万美元。如果它可以设计预测模型以帮助它降低5 0 的客户流失，就可以节约1 5 0 万美元。传统上国外移动运管商认为新客户在最初两个月内流失的概率最大，大约为1 0 左右，所以运营商会建立一个呼叫中心，在客户使用移动电话一个月左右后，主动和客户联系。但是这样的方法是不合算的。再后来有一些运营商开始用传统的数理统计模型来分析客户资料，希望能够发现一些规律，但是效果不好。如何才能预防、减少客户的流失? 数据挖掘技术的蓬勃发展为解决这一类问题指明了方向。电信行业存在着大量现时的和历史的操作型数据f 如用户信息数据库、呼叫数据库和帐单数据库等多种数据库) ，利用这些数据，采用数据挖掘技术分析已发生流失的客户在流失前的通话行为，找出引起流失的一些规律性知识，电信企业可以根据这些规律有针对性的制定相应的策略，在客户流失之前预先采取行动，来减少或消除这些客户发生流失的可能性。由此可见，利用数据挖掘技术能为决策者提供重要的、极有价值的信息，从而产生潜在的经济效益。在电信行业的应用领域，数据挖掘可以分析客户关系管理、客户欺诈分析、客户流失分析、客户消费模式分析和市场推广分析等问题。经过几年的发展。企业内部已建立起相对完善的客户数据库，积累了大量的数据，这些激增的数据背后隐藏着许多重要的信息。将数据挖掘技术这个目前数据仓库领域最为强大的数据分析手段有效运用于电信企业客户流失预测中，将为企业解决这一难题。综上所述，如何利用数据挖掘技术有效获取预离网客户名单具有非常重要的应用意义。本文所做的工作，正是在上述课题背景的驱动下建立和实旖的。 1 2 研究现状及发展 1 2 1 国外研究现状及发展国外电信公司参与市场竞争地较早，因此对于数据挖掘技术在电信业务中的应用也有较早的研究【3 1 。美国西部电信公司( u sw e s n ，作为美国最大的长途电信公司之一，拥有2 0 0 0 万以上客户。该公司使用s a s 研究所的企业挖掘器( e n t e r p r i s em i n e r ) 软件以进一步扩大其己获成功的目标市场。 m c i 是美国第二大电信公司，在对用户消费习惯进行数据挖掘的基础上，针对用户的消费特点，推出了环球亲友计划，允许用户选择一定数量的亲友，给他们打电话时享受特殊条件的优惠，但前提是其亲友也必须是m c i 硕士学位论文公司的用户，通过这个策划，m c i 争取到许多客户，扩大了市场份额。英国电信采用数据挖掘手段，建立模型来确定潜在客户的购买倾向和他们变为用户之后可能的价值。建立精确的客户特征以后，英国电信打算开发针对于特定客户群的产品。英国电信还通过其预测模型来预测对那些不能及时交费的用户，以便采取措旖使公司的损失最小。全世界的任何一家电信运营公司都会遇到一些不能及时付清帐单的用户。英国电信针对这一经常发生的情况，利用机器学习技术，建立了自动预测模型，将历史的做法制成案斜；成为训练的样本，来预测采取何种措施效益最好。 m t & t 公司是加拿大最著名的电信公司，与其他国家的电信公司一样， m t & t 在加拿大电信史上一直居于垄断地位。直到最近几年，8 0 年代影响北美的电信分离改变了加拿大电信的运转轨迹，首先是长途展开竞争，紧跟其后，本地电话也卷入了竞争大战。在争夺市场份额的激烈竞争中，m t & t 采用了强有力的手段一一数据挖掘软件来取得竞争优势。该软件是s a s 公司开发的企业挖掘者( e n t e r p r i s em i n e r ) ，它根据公司拥有的大量的数据分析趋势，并挖掘模型，发现市场机会，为决策者提供新的思路。利用数据挖掘， m t t 公司能准确的进行客户定位，并及时了解发现客户的需要，公司在事实的基础上做出准确的决策，摆脱了以前凭经验猜测的状态。不仅在财政预算上得到了节约，更重要的是市场份额不断增加，公司发展迅速。 v o d ol o n e 公司利用数据挖掘技术建立模型研究客户流失的原因，并从不同的角度来进行市场细分。法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销售等各方面都取得了很多成果。 n t t 在自己的c r m 系统c o m w a r e 中使用数据挖掘的方法来分析数据，以提高对客户的管理水平。韩国s k t e l e c o m 公司的c r m 中，应用数据挖掘技术分析客户的通话行为，预测通话中的断线情况。比利时国家电信经纪人使用数据仓库建立的顾客信息系统，其中数据仓库拥有超过1 万亿字节的数据，包括四个多月的电话通信记录。通过欺骗检测功能，能够很快发现反常电话以及欺骗性的打电话方式，并能在造成重大经济损失之前终止这种欺骗行为。从上面的描述可以看出，国外知名的电信运营企业均利用数据挖掘技术建立起了自己的商业智能系统。通常这种系统是通过两种方法实现的：( 1 ) 商业上各种通用的数据挖掘软件产品；( 2 ) 高校和科研机构的学者建立特定的模型。下面从这两方面介绍：朴素贝叶斯算法及其在电信客户流失分析中的应用研究 f 1 1 商业上各种通用的数据挖掘软件产品数据挖掘技术的广阔前景吸引了国内外众多研究人员和商业机构，一大批新的研究成果、应用系统和原型被开发出来，如i b mi n t e l l i g e n tm i n e r 、 s a se n t e r p r i s em i n e r 、s p s sc l m e n t i n e 、d b m i n e r 4 j 等。 i b mi n t e l l i g e n tm i n e r ：由美国i b m 公司开发的数据挖掘软件，是一种分别面向数据库和文本信息进行数据挖掘的软件系列，它可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息，帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等。 s a se n t e r p r i s em i n e r ：这是一种在我国的企业中得到采用的数据挖掘工具，比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。它是一种通用的数据挖掘工具，按照“抽样一探索一转换一建模一评估”的方法进行数据挖掘。可以与s a s 数据仓库和o l a p 集成，实现从提出数据、抓住数据到锝到解答的“端到端”知识发现。 s p s sc l m e n t i n e ：是一个开放式数据挖掘工具，曾两次获得英国政府 s m a r t 创新奖，它不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业一一c r i s p d m 。 c l e m e n t i n e 的可视化数据挖掘使得思路分析成为可能，即将集中精力在要解决的问题本身，而不是局限于完成一些技术性工作( 比如编写代码) 。提供了多种图形化技术，有助理解数据间的关键性联系，指导用户以最便捷的途径找到问题的最终解决办法。这些系统大都实现了多种数据挖掘算法的工具，但是和特定的商业应用没有紧密结合。当前数据挖掘研究重点逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相互渗透，通用的数据挖掘工具已经不再适应数据挖掘应用发展的需求。因此如何将数据挖掘技术与应用相结合，同时又保持系统的可扩展性和灵活性，是数据挖掘系统研制需要解决的问题之一。 ( 2 ) 各科研机构的研究人员建立特定的分类模型来更好地解决客户流失问题。 m o z e r 5 i 结合了客户的基本信息、通信消费信息、客户欠费信息、对预离网用户的干涉费用等信息，利用逻辑回归，决策树，神经网络等模型对电信行业中的客户流失问题进行了预测；y a n 在非稳定的环境中建立预测模型，从而提高了客户流失的预测精度【6 l ；l u 采用生存分析法建立客户流失预测模型【7 1 ；r o s s e t 在所建数据挖掘模型中，引入客户价值来预测潜在的流失客户【8 】；g u p t a p 9 】和s c o t t 1 0 j 在2 0 0 3 年d u k e 数据中心的流失预测模型比赛中，硕士学位论文采用决策树、a n n 等方法对未来的客户流失率进行了精确的预测。 1 2 2 国内研究现状及发展随着中国移动运营业的分拆重组的完成，移动运营市场竞争在所难免，由于移动运营市场竞争的不断加剧，移动运营业务支撑系统的建设愈加显得重要，目前国内各主要运营商都在将投资重点逐渐从网络基础设施和业务基础设施转向到支撑系统的建设上。紧锣密鼓地规划和建设新一代的业务运营支撑系统o s s ( o p e r a t i o ns u p p o r ts y s t e m ) 、b s s ( b u s i n e s ss u p p o r ts y s t e m ) ，如中国移动的b o s s 2 、中国联通的u n i c r m 等，移动运营业务运营支撑系统的建设正进入一个新的发展时期，可以相信业务运营支撑系统将在各运营商参与市场竞争中扮演非常重要的角色。这种激烈的竞争加速了业务运营支持系统( b o s s ) 的更新换代，如对话费系统、客户服务系统、财务管理系统的开发和完善。在这些系统的建设中，积累了大量的原始业务数据。这些系统中保留着大量的客户通话行为数据、账单、投诉咨询和客户基本信息数据。由于电信企业忙于业务扩张，所以无暇顾及对这些数据的挖掘分析。如何有效的利用这些已有的数据? 近一两年来，一些有实力的电信企业也开始考虑到挽留高价值客户的必要，逐步着手对这些历史数据进行挖掘。在当前电信业发展的背景之下，客户流失管理作为一套专门的管理理论和技术，开始走进了国内电信企业，很多顾问公司和软件厂商也提出自己的解决方案。但是，在具体如何实施客户流失管理的技术细节上，却是八仙过海、各显神通，没有统一的定论。由于都只是试探性的建立简单的模型，有的还处于调研与可行性分析阶段，并没有实际可用的成熟产品投入使用。目前进行的大多数研究项目是由政府资助进行的，如国家自然科学基金、8 6 3 计划、”九五”计划等，但还没有关于国内数据挖掘产品的报道。国内从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。所涉及的研究领域很多，一般集中于算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。文献【1 1 】结合a d t r e e 模型和逻辑回归模型的优点，提出了一种树逻辑模型( t r e e l o g i t m o d e l ) 预测客户离网倾向，利用a d t r e e 模型对客户信息进行分类，逻辑回归模型对分类结果进行优化，从而找到具有准确性较高的优化分类结果；文献i “1 根据先验知识的因果推理和基于贝叶斯网络的因果推理进行流失客户的分析，挖掘导致流失的因素，从而辅助市场经营人员制订相应的策略；文献【”1 结合采用k 2 和m c m c 算法构建贝叶斯网络从而进行客户流失的分析。因此，现阶段的主要目标是提出改进的算法来对客户流失预测分析模型朴素贝叶斯算法及其在电信客户流失分析中的心用研究进行优化、完善。同时，由于国内的电信市场与国外的电信市场存在着很大的差异，将国外的模型应用到国内之前必须进行调整以适应国内电信市场的要求。客户流失分析作为经营分析系统中的一个重要主题。主要任务是根据流失客户和没有流失的客户性质和消费行为，进行挖掘分析，建立客户流失预测模型，分析哪些客户的流失率最大，流失客户的消费行为如何，客户流失的其他相关因素。通过建立客户流失预测模型，使企业能够预测客户流失的可能性，并通过对客户流失原因的分析，提出相应的挽留政策，从而降低客户流失率，减少企业的运营成本。因此，该模型的建立对企业来说有着极为重要的意义。 1 3 本文主要工作本文对基于朴素贝叶斯的分类算法进行了探讨与研究，主要工作总结如下：介绍了国内外客户流失预测的发展概况。介绍了数据挖掘的基础理论，对数据挖掘算法中的常用分类算法进行了分析和研究。为本文后续章节的研究提供理论基础。针对属性冗余而导致朴素贝叶斯分类性能降低这一问题，提出了一种改进的选择性朴素贝叶斯算法。该算法先按照属性信息增益值的大小对属性进行排序，然后再对属性进行选择，从而提高了分类的准确率。针对不同级别、不同数量的客户离网后给电信企业带来的离网预测的问题，提出了一种基于最大价值量的朴素贝叶斯算法。该算法通过建立价值量的概念，调整价值敏感属性的价值系数因子，使得离网客户名单中的价值量达到最大。实验结果表明，该算法在保持一定的准确率的同时，能预测更多高价值的离网客户。以上述两算法为基础，数据挖掘过程为线索，构建了电信客户流失预测模型。该模型通过改进的选择性朴素贝叶斯算法对属性进行选择，然后利用基于最大价值量的朴素贝叶斯算法进行分类预测，实验结果表明该模型具有较好的分类预测性能。 1 4 本文的内容安排全文主要由如下部分组成：第1 章绪论主要内容包括：介绍课题背景及意义，本文主要研究内容以及所做的主要工作。第2 章数据挖掘理论及常用分类算法概论硕士学位论文主要内容包括：介绍数据挖掘的基本理论，如数据挖掘的概论、功能、算法分类及过程。介绍常用的分类算法模型。第3 章一种改进的朴素贝叶斯属性选择算法主要内容包括：介绍贝叶斯理论与朴素贝叶斯分类方法。介绍基于贝叶斯的各种改进算法及对比情况。介绍选择贝叶斯分类算法并在其基础上提出了改进的选择贝叶斯分类算法。第4 章最大价值量的朴素贝叶斯分类算法主要内容包括：介绍了目前分类器的性能评价指标。根据电信客户流失应用的需要，提出了新的性能评价指标价值量，并给出了p n b 算法的分类公式，算法描述及流程，最后通过实验验证其性能并分析实验结果。第5 章电信客户流失预测模型的实现主要内容包括：通过商业理解、数据理解、数据准备、建立模型、模型评估等步骤建立了电信客户流失预测模型的实现。结论总结全文，并对下一步研究工作做出展望。朴素贝叶斯算法及在电信客户流失分析中的应用研究第2 章数据挖掘理论与常用分类算法概述 2 1 引言本章介绍了数据挖掘的基础理论，对数据挖掘算法中的常用分类算法进行了分析和研究，为本文后续章节的研究提供理论基础。 2 2 数据挖掘理论近年来，数据挖掘技术引起了信息产业界的极大关注。主要原因是人们利用信息技术生产和搜集数据的能力大幅度提高，数千万个数据库被用于商业管理、政府办公、科学研究和工程开发等等，并且这一势头仍将持续发展下去。于是，一个新的挑战被提了出来：如何将这些数据转换成有用的信息和知识，提高信息利用率呢? 要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，数据挖掘和知识发现f k d d ) 技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。麻省理工学院的科技评论杂志提出未来5 年对人类产生重大影响的十大新兴技术，“数据挖掘” 位居第三。据国外专家预测，随着数据量的日益积累和计算机的广泛应用，在今后的5 至1 0 年内，数据挖掘将在中国形成一个新型的产业【1 4 】。 2 2 1 数据挖掘概况数据挖掘r d a t a m i n i n g ) ，在1 9 8 9 年8 月美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成。从1 9 9 5 年开始，每年举行一次知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ，k d d ) 国际学术会议，把对数据挖掘和知识发现的研究推入高潮。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。“数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模式的技术”。确切地说，数据挖掘是一种知识发现的过程，它主要基于统计学、人工智能、机器学习等技术，高度自动化地分析数据，做出归纳性的推理，从中挖掘出潜在的、有价值的知识、模型或规则，并对未来情况进行预测，辅助决策者评估风险、做出正确的决策。对于企业而言，数据挖掘可以有助于发现业务发展的趋势，揭示己知的事实，预测未知的结果，并帮助企业分析出完成任务所需的关键因素，以达到增加收入、降低成本，使企业处于更有利的竞争位置的目的。岳硕士学位论文广义地讲，数据和信息是知识的表现形式。但在数据挖掘中，更多地是把概念、规则、模式规律和约束等看成知识。原始数据可以是结构化的，如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。这些数据可以存放在数据库、数据仓库或其他信息存储中。发现知识的方法可以是数学的或非数学的、演绎的或归纳的。数据挖掘所发现的知识可被用于信息管理、查询优化、决策支持、过程控制等。总之，数据挖掘是一个交叉学科领域，受多个学科影响( 如图2 1 所示) ，包括数据库系统、统计学、机器学习、可视化和信息科学等。数据挖掘方法使用了多个其他学科的技术，如神经网络、模糊或粗糙集理论、知识表示、归纳逻辑程序设计或高性能计算。此外，数据挖掘还可能集成了空间数据分析、信息检索、模式识别、图象分析、信号处理、计算机图形学、经济、商业、生物信息学或心理学领域的技术图2 1 数据挖掘受多学科的影响数据挖掘技术最初就是面向应用的，尤其是在银行、电信、保险、交通、零售( 如超级市场) 等商业领域。数据挖掘所能解决的典型商业问题有：客户关系管理( c u s t o m e r r e l a t i o nm a n a g e m e n t ，c r m ) 、数据库营销( d a t a b a s e m a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o n c l a s s i f i c a t i o n ) 、交叉销售 f c r o s s s e l l i n g ) 等市场分析行为，以及客户流失分析( c h u r na n a l y s i s ) 、客户信用记分( c r e d i ts c o r i n g ) 及欺诈发现等等。 2 2 2 数据挖掘功能数据挖掘的任务就是发现隐藏在数据中的模式，其可以发现的模式一般分为两大类：描述型( d e s e r i p t i v e ) 希l 预测g c j ( p r e d i c t i v e ) 模式。描述型模式是对对当前数据中存在的事实做规范描述，刻画当前数据的一般特性；预测型模朴素贝叶斯算法及其柚：电信客户流失分析中的应用研究式则是以时间为关键参数，对于时间序列型数据，根据其历史和当前的值去预测其未来的值。根据模式特征，可将模式大致细分如下： 1 关联模式( a s s o c i a t i o n ) 关联模式是数据项之间存在的关联规则，即在同一事件中出现的不同项之间的相关性，比如顾客在同一次购买活动中所购买的不同商品之间的相关性。最著名的关联规则挖掘算法是有a g r a w a l 等于1 9 9 4 年提出的a p r i o r i 算法。a p r i o r i 算法的基本思想是：统计多种商品在一次购买中共同出现的频数，然后将出现频数多的搭配转换为关联规则。a p r i o r i 算法的核心是：用前一次扫描数据库的结果产生本次扫描的候选项目集，从而提高搜索的效率。其后人们又提出了诸多关联规则挖掘算法，主要工作是如何提高项集的生成效率和降低计算代价。 2 聚类分析( c l u s l e r i n 9 1 聚类就是将数据项分组成多个类或簇，类之间的数据差别应尽可能大，类内的数据差别应尽可能小，即为“最小化类问的相似性，最大化类内的相似性”原则，与分类模式不同的是，聚类中要划分的类别是未知的，它是一种不以来预先定义的类和带类标号的训f 练数据集的非监督学习( u n s u p e r v i s e d l e a r n i n g ) ，无需背景知识，其中类的数量由系统按照某种性能指标自动确定。 3 分类( c l a s s i f i c a t i o n ) 分类就是构造一个分类函数f 分类模型) ，把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成：模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型；模型使用是指使用分类模型对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的，也就是说在分类之前，要划分的类别是已经确定的。通常分类模型是以分类规则，决策树或数学表达式的形式给出。 4 回归模式( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似，主要差别在于分类模式采用离散预测值( 例如类标号) ，而回归模式采用连续的预测值。在这种观点下，分类和回归都是预测问题。但在数据挖掘业界，大家普遍认为：用预测法预测类标号为分类，预测连续值r 例如使用回归方法) 为预测。许多问题可以用线性回归解决，对于许多非线性问题可以通过对变量进行变化，从而转换为线性问题来解决。 5 序列模式( s e q u e n t i a l ) 序列模式是描述基于时间或其他序列的经常发生的规律或趋势，并对其建模。与回归一样，它也是用已知的数据预测未来的值，但这些数据的区别硕士学位论文是变量所处时间的不同。序列模式将关联模式和时问序列模式结合起来，重点考虑数据之间在时间维上的关联性。 6 偏差模式( d e v i a t i o n l 偏差模式是对差异和极端特例的表述，如聚类外的离群值。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能比正常的数据更有用。偏差检验的基本方法就是寻找观察结果与参照之问的差别。 2 2 3 数据挖掘算法分类数据挖掘中的算法较多，可分为传统统计型方法、机器学习方法、神经网络方法和数据库方法【”l 。 ( 1 ) 统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析 ( 多元回归、逻辑回归等) 、判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主元分析法、相关分析法等1 。 ( 2 ) 机器学习包括归纳学习方法( 决策树、规则归纳等) 、基于范例学习、遗传算法、粗糙集等。粗糙集能够对不确定、不完整的信息进行处理，而遗传算法具有全局最优搜索的能力。 ( 3 ) 神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络的常用算法包括前向神经网络( r b f 、b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学习等、等。 ( 4 ) 数据库方法主要是多维数据分析或o l a p 方法。o l a p 系统的数据库为高效存储静态数据构建。其存储结构的设计是为了高效检索数据，尤其是聚合数据，比如求总和或是其它运算。表2 1 数据挖掘的主要技术方法对比技术方法主要功能及特点应用领域决镱树归纳分类：可理解性电信、医学和零售业等遗传算法聚类、优化；高效性金融业、保险业和农业等粗糙集不确定性分类零售业、金融业和制造业等神经网络预测、分类和聚类；解释性差电信业、保险业和制造业等贝叶斯判别分类、聚类和预测；易解释医学、制造业和电信等关联规则分类、聚类零售业、保险业和制造业等统计分析聚类；结果精确、易理解金融业、制造业和医学等支持向量机分类；误差小医学、电信和金融业等朴素贝叶斯算法及j 在电信客户流失分析中的应用研究上述算法中，大部分都不是专为解决某个问题而特制的，算法之间也并不互相排斥，不能说一个问题一定要采用某种算法，别的就不行。一般来说，并不存在所谓最好的算法，在最终决定选取哪种模型或算法之前，各种模型都需试一下，然后再选取一种挖掘结果较好的。各种算法在不同的数据环境中，优劣会有所不同。如神经网络为解决大复杂度问题提供了一种相对比较有效的简单方法，可以很容易地解决具有上百个参数的问题，但挖出的结果却很难解释，挖掘时所耗的资源也是最大的；而决策树相对来说，其结构和规则推理的过程是开放的、清楚的，可浏览的。数据挖掘的应用中，最终的目标都是发现有价值的知识和信息，有共同的思路和步骤，但也存在很大的差异和区别。由于各种方法都有自身的功能特点以及应用领域f 见表2 1 ) t “】，数据挖掘技术的选择将影响最后结果的质量和效果，通常是将多种技术结合使用，形成优势互补。 2 2 4 数据挖掘过程数据挖掘过程如图2 2 所示，它不是一个线性的过程，而是一个多次的循环反复的过程，每一个步骤一旦与预期目标不符，都要回到前面的步骤，重新调整，重新执行。因此，在每一个过程中，都需要不同专业的人员参与，包括业务分析人员、数据分析人员和数据管理人员等。图2 2 数据挖掘的步骤在设计和部署特定的数据挖掘应用之前，都需要先明确问题的任务和确定数据挖掘的对象，包括确定应用的范围，了解用户的需求，确定最后的挖掘目标等。一般来说，数据挖掘的过程大致可分为以下几个阶段。 1 数据的选择和清洗在确定了数据挖掘的对象之后，需要搜索所有与业务对象有关的内部和外部数据，从中选出适合于挖掘应用的数据。但是真实世界中的数据都会有不完全的、含噪音的、不一致的数据，因此需要数据清洗过程填充空缺的值，硕士学位论文识别孤立点、消除噪声，并纠正数据中的不一致。对于空缺值，使用的方法有：( 1 ) 忽略有空缺值的记录，但如果缺少记录太多会丢失很多有用的数据：但) 人工填写空缺值，该方法很费时，并且当数据集很大、缺少很多值时，该方法可能行不通；( 3 ) 使用一个固定值填充空缺值，比如用“u n k n o w n ”替换空缺值，但挖掘程序可能误以为它们形成了一个有趣的概念，4 因此该方法也不推荐。( 4 ) 用属性的平均值填充空缺值。( 5 ) 使用属于相同类的所有记录的平均值。( 6 ) 用最可能的值填充空缺值，这需要用到回归技术、贝叶斯形式化方法或决策树来归纳。对于噪声数据，使用的方法有：( 1 ) 分箱，通过考察周围的值来平滑存储数据的值。( 2 ) 聚类，将类似的值组织成群或“聚类”，落在聚类集合之外的值则被视为孤立点。( 3 ) 计算机检查和手工检查相结合，通过计算机和人工检查结合的办法来识别孤立点。( 4 ) 回归，找出适合数据的数学方法，消除噪声。对于不一致的数据，可以使用其他材料人工加以改正，也可以使用知识工程工具来检测违反限制的数据。。 2 数据集成和变换数据分析中通常要涉及到数据集成，数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中。这些数据源可能包括数据库、数据立方体或一般文件。在数据集成时，需要考虑三个重要

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机系统结构专业论文）朴素贝叶斯算法及其在电信客户流失分析中的应用研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档