已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河北工业大学硕士学位论文基于数据挖掘的电信客户流失分析研究姓名:李茹申请学位级别:硕士专业:计算机应用技术指导教师:沈西挺20091101 河北工业大学硕士学位论文基于数据挖掘的电信客户流失分析研究摘 要文章主要研究了基于数据挖掘算法在电信行业中的客户流失问题。如何更准确的利用海量数据通过挖掘算法建立客户流失预测模型是该课题的关键。即根据流失客户和非流失的客户性质和消费行为,通过数据挖掘技术在海量的历史数据中实施挖掘分析,搭建客户流失预测模型,分析出哪些用户的流失概率最大,并根据流失客户的消费行为及客户流失的其他相关因素,给市场营销提供决策支持。文章采用理论研究和实证研究相结合的方法,以某移动分公司的客户数据为基础,构建了基于决策树和神经网络的D-N混合模型。详细阐述了包括属性、数据的准备、模型的构建以及模型的评价和应用的整个过程。文章采用数值化指标和图形化指标对模型进行评估,使评估更加客观,研究结果表明混合模型在预测精度和命中率方面都有所改善,从整体性能来看也要优于该公司现有的客户流失分析方法。文章利用D-N混合模型的结果,在分析该移动分公司在网用户未来一个月的流失概率的基础上,探讨了流失概率高的客户月消费额、在网时长、性别、通话次数等属性,总结了客户流失的原因,并提出了相应的客户挽留措施。最后,对所做的主要研究工作进行了总结,并针对以后的研究内容提出了方向和思路。关键词:客户流失,数据挖掘,决策树,神经网络i 基于数据挖掘的电信客户流失分析研究THE ANALYSIS AND STUDY OF CUSTOMER CHURNBASED ON DATA MINING TECHNOLOGY IN THETELECOMMUNICATION INDUSTRYABSTRACTMajor research in this paper is the problem of customer churn based on data miningtechnology in the telecommunication industry. The key issue is how to make good use of a largenumber of data through data mining technology to build customer churn model. Namely,according to the consumption behaviors and natures of customers who are lost or not lost,through data mining technology to analyse, and build the customer churn prediction model. Ananalysis of customers who have the greatest probability to lose, and according to the loss ofcustomer behaviors and other related factors, to provide decision support for market.In this paper, a theoretical research and empirical study method is used. Based on a mobilebranchs customer data, this paper builds D-N hybrid model, including a detailed explanation ofthe whole process such as attributes choosing, data preparation, construction of the model andmodel evaluation and application. In this paper,a more reasonable evaluation method-numericalindicators and the graphic indicators are used to evaluate the result of the model. The resultindicates that the hybird model has better accuracy and hit rates. Meanwhile, the D-N modelpresents better results than the existing method used by this company at home.Then using theresults of the D-N model, this paper analyses the probability of the mobile branchs customerchurn in the next month, and the churning customers characteristics, such as average fee,length of service, gender, the number of calls and so on, and sum up the reason for the loss ofcustomers, and give the corresponding measures to retain customers.Finally, in this article I summarizes the research work, and proposed the content of thefuture research direction and ideas.KEY WORDS: customer churn, data mining, decision tree, neural netii 原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:日期:关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:日期:日期:导师签名: 河北工业大学硕士学位论文第一章绪论对一个企业而言,既想要在市场的竞争中处于高姿态又想要不断提升企业的营业利润,最先要解决的问题就是要保证自身具备一套良好的营销策略以及科学的经营理念。针对这个问题我们可以从不同的角度加以分析,首先要掌握市场的第一手资料,不断提升对市场分析与自我调整的步伐与敏捷度;另外我们都知道在这个信息大爆炸的时代,信息数据比以往的任何时候都更具意义和价值,因此妥善管理企业内部数据并将其有效地转换成有意义有价值的信息也是非常关键的;再有要不断跟进企业自身的建设,更好地完善业务需求与业务流程,有效地促进企业在市场中的占有率及商业进程;最后我们要不断开展客户调研工作,拉近与客户间的距离,明确客户需求。然后随着科技的发展和人类对信息产业的追求,如何在如云的数据中有效地挖掘出对人们有用的信息早已成为人们关注的焦点。然而数据挖掘作为一项能够很好地支持整个决策流程的详细信息架构,给人们带来了更大的喜悦,它可以很好地满足企业对这方面的需求。 1-1课题的研究背景及意义 随着电信深度重组、3G拍照的发放,各运营商进入全业务竞争时期,运营商之间的竞争日趋激烈,这一趋势在国内移动通信业中表现得尤为突出。中电信利用 C 网和丰富的信息化应用,向中移动高端用户以及集团用户业务发起大规模挑战;中联通提出统一的“WO”品牌战略,也向中移动的用户市场发起进攻,中移动也针对自己的短板,提出了动力 100的集团信息化品牌战略,应对新电信以及新联通的竞争。如何继续保持收入持续增长、迎接未来多样化竞争都成为摆在各运营商面前的难题。 运营商在应对竞争上,往往采用话费促销、存赠费打折等用成本换市场的竞争手段,同时扩大广告宣传投入。运营商在广告宣传方面,从 G3到天翼到之后的 WO,运营商铺天盖地的广告构成了经济危机中最亮丽的一道风景线,挽救了电视、挽救了报纸、挽救了中国的传统媒体与广告产业。然而这些措施往往也存在一些弊端。首先,低价格的市场行为和主题不明确的广告是最有可能被竞争对手效仿的。与此同时,所谓的“价格战”过分的提高了消费预期,并且通过这种方式吸引入网的用户,忠诚度普通偏低,这部分用户流失的风险也随之提高,造成企业成本的浪费。有关数据表明,发展一位新用户的所需花费的成本是挽留一位老用户所需花费成本的大约 4-5倍。因此,如何科学而合理地制定有效的经营方案和服务策略,最大程度地降低用户的流失率,尤其是优质用户和各类大用户,变得尤为突出。所以预测用户在未来期间的流失趋势和流失原因并有针对性地提供相应的服务和挽留措施,已经成为降低企业用户离网率的重点1。面对大规模的数据量,想要对数据进行科学的分析并且预测出潜在的离网用户,还要对流失的趋势进行合理的判断,对市场的营销政策进行支撑,制定出有效的挽留政策和用户关怀服务,更加科学和更加合理地分析和预测出用户在未来时期内的流失趋势、流失用户所具备的特征以及如何更加有效并有针对性地对流失用户进行关怀服务以避免用户流失所造成的损失,传统的人工分析或者通过经验判断已经1 基于数据挖掘的电信客户流失分析研究不能满足在海量数据下的分析,因此我们必须找到一种高效的数据挖掘方法以及更有力的手段。运营商要想提高企业内部用户的保有和实现企业利润的最大化,就一定要采用先进的数据挖掘技术并加以分析研究,以提高对用户行为的预测能力从而更大的获取企业利润。课题的研究主题就是以此为背景展开的。文章以某移动公司的实际需求为背景,采用挖掘算法进行合理分析,结合 3G拍照发放后激烈的市场竞争环境,对大规模的用户数据进行分析,找出影响用户流失的潜在因素和规律,搭建潜在用户流失预测模型,对用户离网做出预警并提供决策支持,在激烈竞争环境下给移动公司针对用户挽留工作提供解决方案。实践证明文章提出的预测模型最终也是合理有效的,取得了阶段性成果。潜在流失用户预测分析的基本原理为,通过建立数据模型,对在网用户的大量数据进行训练,对已经流失的用户的用户属性及消费行为进行分析,找出用户属性及消费行为与用户流失的相关点,发现流失用户的共同特征并建立数学模型,在这个数学模型上用新的数据进行验证,找出潜在的流失用户。通过这种方式,我们只要得到获取用户的基本信息以及消费信息,就可以分析出用户是否可能流失。通过数据支撑一线营销人员采取有针对性的措施。用户流失预警系统可以和移动 MAS进行整合,提前设置流失阈值参数,如果可以流失度达到预警阈值,会自动通知相关营销主管。第一时间对市场情况作出反应,在激烈的市场竞争中赢得先机,防止用户流失的产生,降低用户离网率2。电信重组使通信市场出现一个崭新的竞争格局,在电信运营商市场出现三大全业务主导运营商,这些运营商都具有全业务的经营权,而且经济实力相当,在每个局部市场都具有三个运营商竞争,而在移动市场竞争更加激烈。另外 3G拍照发放后,各运营商都投入了 3G网络的基础建设,大规模的网络建设使各运营商的成本日渐紧张。粗旷式的营销方式已经不适应当前的竞争环境,我们的营销成本也对市场营销提出了更高的要求。无论在经营管理还是经营理念上,尤其是在客户挽留方面,我们都需要进行更新,学习国外先进的经营理念或者求助于最新的科学技术。总之需要我们需要注重精细化的营销,之前也已经提到,发展一个新用户的成本大约是挽留用户成本的 4-5倍,由于挽留用户的低成本以及高效性,各运营商对用户挽留的重视达到了一个前所未有的高度,尤其是在移动公司这样的优势地位运营商。如何继续保持竞争优势,保留市场份额,关键就是要保持客户。如何应对竞争对手日渐成熟的营销方式,以及国家非对称管制的政策带来的压力,移动公司应积极采取适当的应对措施。市场竞争变得越来越激烈,运营商的 ARPU 值和利润空间都面临着巨大的挑战。用户需求也变得多样化、差异化,对电信业务、服务的要求日趋理性和严格,对电信服务的整体质量也提出了更高要求,各个运营商都已认识到客户就是生命。随着 3G时代的即将来临,运营商只有深入分析用户消费行为,精确识别、细分用户市场,针对不同层次用户进行服务营销,方能使得各方价值发挥到最大,实现共赢。站在移动运营商的视角来分析,企业要想获得良好的发展,就一定要加强用户流失的管理,做好用户挽留工作。通过对相关数据的分析,可以清楚地显示出3:(1) 客户忠实度降低 5%,企业利润则降低大约 25%;(2) 为新客户推荐产品的成功概率大约为 15%左右,然而为现有老客户推荐产品的成功概率则大约是 50%左右;(3) 根据计算若将每年的客户关系保持率加大约 5%左右,则会使企业的利润增加大约 85%;(4) 向新客户推销产品所需花销的费用是向现有老客户推销所需花销费用的 5倍左右;(5) 若企业对本身所造成的服务过失加以高度关注,那么将近 70%的客户还会一如既往地与其保持2 河北工业大学硕士学位论文合作关系;(6) 据统计来自现有老客户的推荐可使企业增加大约 60%的新客户资源;(7) 若仅仅一位客户对企业的服务产生不满,那么他会将他的不满感受传递给其他 8-10个人,但是倘若一位客户对企业的服务质量非常满意,他只会将他的满意感受传递给其他 2-3人,我们可以看到这其中的差异程度,因此企业的服务质量也是其长期生存的命脉之一;(8) 基于电信市场本身的特性,我们可以得出:客户进入一个电信运营商的时间越长,那么对该企业所产生的价值也就越高。通过以上数据的分析显示,客户是当前任何商业活动的重中之重,他直接关系到企业利润的高低,因此衡量一个企业成功与否的标准已经不再仅仅是企业的投资收益率和其所占有的市场份额,而是该企业的客户资产收益率、客户份额以及客户流失率等指标。可见,客户挽留,即忠诚客户的价值表现在企业利润的增加、企业成本的降低以及企业竞争力的提高等诸多方面。在保持老客户和增加新客户中,保持老客户则显示了更加突出的地位与重要性,可以毫不犹豫地说:保持就是发展。如何系统的进行用户挽留工作,减少用户流失,使企业的利润和效益最大化。我们通常采用数据挖掘技术,也是未来的发展趋势。通过数据挖掘技术提炼出关键信息来指导我们的市场营销活动。在未来的社会环境下,信息和数据充斥着生活的各个角落,要想从纷杂的信息中快速的找到有用的数据,就要依靠先进的数据挖掘技术。因此,数据挖掘技术受到了国内各行各业的广泛的关注,成为当前计算机信息技术领域理论研究的热门和焦点。数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的挖掘过程。它在很多行业,诸如金融领域已经获得了很广泛的应用,有很多成功案例值得我们借鉴。在电信领域应用点也很多,主要包括用户关系管理,潜在流失用户预测,用户消费行为分析,欠费风险控制以及市场营销中目标用户精准定位等多个方面4,5。在潜在用户流失预测中,根据聚类分析找出流失用户的共同属性和特征,如用户的入网时间、ARPU、话费结构等等、通过用户属性的各个维度,找出关联点,进行数据建模,搭建流失用户预测模型。根据系统理论的挖掘算法计算出用户流失的概率,并通过该模型搭建的应用系统对全网用户进行监控,一旦发现健康度不够的潜在离网用户,就可以有针对性地实施挽留策略,降低其离网意愿,通过促销捆绑的手段稳定用户继续在网。这种方式使企业在发展新用户的同时,保持原来的老用户,降低了企业的成本,提高了企业的利润率6。然而问题的关键所在是当面对巨大的客户资料时,应如何才能从中抽取出有用的信息以用来判断客户流失的状况和趋势。在这里,数据挖掘技术提供的数据探索能力发挥了充分的作用。课题即阐述了数据挖掘技术在客户流失预测分析中的应用过程。 1-2客户流失问题的国内外研究现状 1-2-1客户流失国外研究现状在国外,像欧洲和北美,由于其电信市场已经成熟,电信运营商的经营理念与经营模式已经由传统的“技术驱动”演变成了“客户驱动”和“市场驱动”的运营模式。这在某种程度上大大推进了客户流失行为预测技术的发展。很多知名的电信企业通过数据挖掘技术为本企业大大提升了利润空间,在产品活动的生命周期中盯3 基于数据挖掘的电信客户流失分析研究准客户,以明确不断变化的市场趋势并有效改善它在不同市场划分中的洞察力,大大提升了企业投资回报率。在客户流失分析中存在很多成功的利用数据挖掘技术赢得企业大丰收的案例,尤其是在当今这个竞争极为激烈的移动通信市场领域,如美国的 BT、AT&T Wireless、Vanguard Cellular等公司通过搭建流失客户的预测模型对客户流失进行控制和管理,对具有高流失概率的客户实施针对性的市场挽留策略,这样就可以大大减少在网客户的流失概率。因此,在欧洲和北美,对于客户流失行为预测技术的分析研究早被人们所广泛关注。在客户流失行为预测技术的研究过程中,所采取的流失预测挖掘模型主要包括神经网络、决策树、聚类、逻辑回归、关联性分析等,其中大部分流失模型利用决策树技术进行建模,如 C4.5 及其扩展、CART等模型。与其它算法模型相比,其特征主要表现在可以同时对连续数据、离散数据进行建模,且建模结果容易观察,易于进行相关的业务解释和分析。如英国 Light bride公司的 Churn Prophet决策树模型、SPSS公司 Clementine的决策树模型等都已经成功地将其应用于电信客户流失预测分析之中。目前分析客户流失问题主要采取以下几种分类方法:神经网络、决策树、遗传算法、Logistic回归、贝叶斯分类、粗糙集等算法等。1-2-2客户流失国内研究现状在国内,随着几次电信改革,各运营商也都注意到了用户保有的重要意义。都分别引进了经营分析平台来辅助决策和营销。然而当前大多数的经分平台只是简单的停留在数据汇总及统计的层面上,仅仅是帮助营销决策人员从生产数据中采集数据并做展示,没有对数据进行二次处理和分析。这些分析性工作多为手工完成,对数据的分析处理也没有上升到理论高度,多为凭经验进行处理和判断。以某移动公司为例子,从 2005年就引入了经分平台,然而经分中提供的功能却不尽人意,多为企业当前生产经营状况的一个汇总展示,是宏观维度的数据报表。数据深度不够,无法提供清单级数据,数据最多提供到县级汇总层面,如提供某县级别的 0次通话用户数。营销人员的营销政策仍然是粗放式的,无法提供点到点的用户关怀服务。移动公司的营销人员也意识到了数据挖掘的重要性,开始了这方面的相关工作,然而由于是刚刚起步,公司内部并没有专门的数据挖掘分析岗位和人员,数据分析及统计多是通过简单的临时统计来完成,缺少科学理论的支撑,数据质量很难保证。因此国内各运营商的首要任务是投入足够的人力物力对数据挖掘工作进行深入研究,这些研究型工作多为起步阶段以及试探性的应用和实验,国内的大多数电信运营商现有的面向事务的数据在完整性、质量和一致性上均存在很多问题。因此,我国国内运营商和国外先进运营商还存在着一定的差距。无论是在数据挖掘的理论学习分析上,还是在经营理念、管理模式以及目标用户竞争定位上都有很大的不足,需要我们进一步努力去弥补和提高。 1-3课题的主要研究内容 第一章主要阐述了课题的研究背景,以及国内外在这个领域的研究现状。第二章主要分析客户流失问题的必要性,以及目前主要流行的数据挖掘技术及其对比分析,并针对文章所要采用的两种挖掘算法进行重点分析,对其优缺点实施分析比对。重点对客户流失预测集成算4 河北工业大学硕士学位论文法(D-N)的可行性进行分析。第三章主要分析了客户流失混合模型的设计思路。首先对文章所采用的两种单个算法分别进行分析设计,然后通过实证分析将两种算法有效地结合起来生成 D-N 混合算法,并详细阐述了该混合算法的具体设计思想。第四章主要给出了文章构建的客户流失预测混合模型(D-N)的框架,详细阐述了建模过程中各个模块的具体操作,并针对该公司的实际需要对所采用的挖掘工具进行分析与选择。第五章以某移动分公司为背景,对其客户数据进行了实证研究。具体分析了建模过程中的每一个阶段,以及对模型的评估过程。并利用模型结果对流失概率高的客户进行特征分析和原因分析,最后有针对性地制定流失策略和挽留措施。第六章是对文章所做工作的一个总结,并给出有待进一步研究的方向和思路。5 基于数据挖掘的电信客户流失分析研究第二章数据挖掘技术分析及客户流失预测集成算法的可行性研究在数据库领域中数据挖掘技术是最重要的课题之一,它是基于知识发现的一种过程,主要是基于机器学习、人工智能、统计学等技术,通过高度自动化地分析研究数据,做出总结和归纳性的推理,从大量数据中发现隐含的、有用的知识、模型或规则,并对未来所可能出现的状况进行预测分析,以帮助企业决策者评估潜在风险并做出准确的决策。对企业来说,数据挖掘技术的价值在于挖掘出业务的发展趋势,揭晓已知的事实并预测未知的结果,帮助企业分析出完成任务所需的关键性要素,以达到扩大利润、降低企业成本,使企业处于更有利的竞争地位这一明确的目标7。我们首先分析什么是客户流失问题,以及进行客户流失分析的重要性。其次对目前主流的数据挖掘技术进行了阐述,对课题所采用的两种挖掘算法的优缺点进行分析比较,并针对这两种算法进行集成可行性分析。 2-1关于客户流失问题的分析 客户关系管理中的一个最重要问题就是客户流失问题,伴随着市场竞争的日益加剧,当前企业面临的一个普遍性难题也是客户流失问题,在当前的国际国内形势下,预测客户的流失趋势并提出有效的客户挽留策略对于企业来说至关重要。2-1-1客户流失问题及客户关系管理目前,几乎所有企业都已经意识到客户和市场在竞争中的重要地位,要想在这场竞争的浪潮中掌握先机就必须首先掌握优质的客户资源。所以企业正在从“以产品为中心”向“以客户为中心”转移,逐步搭建一种以客户和市场为导向的管理和经营策略。在“客户中心论”主导、消费者个性化需求、关系营销盛行日益突出的背景下,客户关系管理已逐渐成为一个热门焦点被企业所关注。CRM(Customer Relationship Management),又称客户关系管理,它的经营策略是以客户为中心,以信息技术为途径,对相关的业务需求进行重新安排与设计,并且对相关工作流程进行重新组合,以达到吸引新客户、留住现有客户、提高企业客户利润贡献度的目的8。CRM 的目的是首先通过提高更周到和快速的高品质服务吸引和保持更多的客户,其次是对业务流程的全方位管理以降低企业成本增加利润。CRM既是一种概念,也是一套管理技术和软件。通过 CRM系统,企业通过追踪可以收集、分析每一个客户的有关信息,从而知道他们究竟是谁,做什么而且需要什么,并把客户所想要的信息传递到他们手中。CRM 还能分析和观察客户自身的行为对企业收益所造成的影响,使客户与企业的关系得到最优化,同时使企业的所得利润得到最大化。尽管 CRM到目前为止还没有特别统一的定义,但总的来说,CRM 是一种旨在改善和加强企业与客户之间关系的新型管理机制,它应用于企业市场营销、服务与技术支持等与客户关系相关的领域。客户关系管理最早是由Gartner Group提出9,其目的在于搭建一个系统,使企业在市场竞争、客户服务、销售及支持等方面形6 河北工业大学硕士学位论文成彼此协调的全新的关系实体,能够为企业赢得长久的竞争优势10。一开始的 CRM系统是在 20世纪 90年代初期投入使用,它们是“独立”的解决方案,如客户服务和支持(CSS)以及销售队伍自动化(SFA)。为了满足日益激烈的竞争需要,它利用对企业业务流程的重组来整合用户的信息资源,同时还融合了呼叫中心技术和电子商务技术,以便更有效的来管理客户关系,它需要一个崭新的以客户为中心的综合商业模式,并有一整套应用系统来做支持,这套系统是集成了前台和后台的完整办公系统,从而确保了企业客户的满意,这也直接关系到企业的利润-企业的根本目标。客户作为企业的重要资源,具有生命周期和其本身的价值。客户生命周期指的是从企业与客户建立起业务关系直至完全终止这种关系的全过程,是客户关系水平随时间变化的发展历程,它动态地描述了客户关系在不同时期不同阶段的总体发展特征。客户生命周期可分为以下四个阶段,即考察期、形成期、稳定期和流失期。其中流失期是关系发展过程中关系水平逆转的阶段。众所周知,企业中客户流失的发生会给企业带来巨大的损失。客户流失、客户忠实度、客户保留都是相互联系的,低的客户流失率意味着企业已经具备了较高的客户保留率和客户忠实度,而客户流失率则是衡量客户忠实度的一个重要指标,在客户关系管理中客户流失分析也是其中较为重要的一个子环节。根据各行业统计的平均值显示,大概每年会有约为 75%的客户保留下来,也就意味着会有 25%的客户会流失掉。客户流失分析,就是企业通过数据挖掘的方法,对客户的基本资料,客户的消费行为资料等进行统计分析,从中分析出可能流失的客户信息,并针对可能流失的客户采取相应地挽留策略,以达到保留客户稳定企业利润的目标。同时也要尽可能发现导致客户流失的真正原因,以达到事先预测的效果。针对企业客户流失问题,一般可将客户分为“流失用户”和“未流失用户”两大类。及时判断出可能流失的客户群,并准确预测出该客户群未来可能发生的行为变化特征,这将是企业合理调整竞争策略与经营方案以有效降低客户流失率的首要环节。2-1-2客户流失问题分析的必要性随着 21世纪的到来,今后的市场竞争将会变得更加激烈,这就致使我们根本就无法避免客户流失的发生。对于企业来说,面对市场的竞争要求,及时采取对客户的流失进行管理是必要的。伴着竞争的愈演愈烈及其变幻莫测,用户离开问题对于一个企业而言,所造成的影响将会慢慢加强。通过分析,用户流失所带来的弊端主要体现在为以下几点11,12。(1)会造成企业效益的减少对公司而言,客户就是上帝,效益就是生命,而客户的流失一定会引起企业的市场占有率和营业收入的减少,从而导致企业效益的不断下降。(2)会引起企业费用的增加通常情况下,企业吸纳新用户的手段,一般是利用打折、赠礼品、优惠等方式进行的。一旦由于企业的某种疏忽而造成客户离网的话,那消耗在这些离网用户身上的费用就将没有办法收回,同时还需要重复消耗新的费用来吸纳更多新用户以获取新资源维持企业利润。这仅仅是其中的一个方面,它还会使企业失去从老用户身上获取的隐藏效益。(3)会使企业精心打造的品牌效应受到冲击7 基于数据挖掘的电信客户流失分析研究每个企业都会有相当数量的老客户,通过老用户的口碑传播通常比企业的主动营销更显效果和成果,所以老客户的流失给企业形象所带来的冲击是非常大的。客户是目前商业活动的中心,衡量一个企业是否成功的标准将不再仅仅是企业的投资收益率和市场份额,而且还要包括企业的客户流失率、客户份额及客户资产收益率等指标。因此,能否采取有效的措施减少客户流失已经成为经营成败的关键策略之一。 2-2数据挖掘技术及主要算法的优缺点分析数据挖掘作为一个多学科交叉领域,广泛应用于各个行业各个领域,是数据库研究、分析、开发和应用最活跃的分支之一。它被许多业内人士所看好,它不但融合了知识库系统、信息检索、模式识别、数据库技术、人工智能等技术,而且还融合了机器学习、高性能计算、神经网络、统计学、知识获取和数据可视化等前沿技术的成果。经过行业专家几十年的共同努力和研究,数据挖掘的概念和方法已经逐步清晰,而且它的发展方向已经变得更深入更实际更具体。数据挖掘技术从它的诞生就注定是面向应用的一门技术。它可以通过对数据库所检索到的数据进行微观乃至宏观的推理、统计以及综合分析,用来指导生活中的实际问题,并企图挖掘出其中的相互联系,以便进行求解,而且可以利用当前的已有数据对未来的某些问题或发展方向进行有效地预测13-15。2-2-1数据挖掘技术的特征对于数据挖掘的学科划定目前还没有一个极为精确的定义,其实用句最简单最容易理解的话来说,数据挖掘技术就是从海量的数据中挖掘出人们感兴趣的信息以用来指导实践。从而为企业获取更高的利润和用户资源,使得在这场充满激烈竞争的市场浪潮中取得不败之地。数据挖掘有它自己的特点16-18,主要表现在以下几个方面:第一,数据挖掘的数据量常常是庞大的。所以,如何高效率地存取数据,如何依据一定应用领域找到数据关系即高效算法以及是使用全部数据还是使用一部分随机或有目的地选择出的数据子集,都成为数据挖掘工作者要考虑的问题。第二,数据挖掘面临的数据常常是为其他目的而采集好的数据,这就为数据挖掘提出了一个问题,即采集数据时,可能有一个或几个重要的变量未被采集,而这些变量在后来做数据挖掘时被证实是有用的,甚至是至关重要的。第三,数据挖掘的另一个特征是数据挖掘工作者常常不愿把先验知识预先嵌入算法内,因为这样就等于做“假设检验”。数据挖掘常常要求算法主动性地提示一些数据内在的关系。新颖性是衡量一个数据挖掘好坏的一个重要的标准。随着科技的发展时代的进步,在当前复杂多变的环境下,信息已经作为一种商品成为世界上最有价值的东西,人们对信息获取的渴望程度已经超过了以往的任何时候,但是通过挖掘技术获取的信息将会比任何信息任何财富更加有用更加珍贵。挖掘技术已经能够应用到世界上各个行业各个领域中。比如说保险业、电信业、制造业、科研机构等等。它的出现为我们带来了机遇同时也带来了挑战。数据挖掘在通信行业客户关系管理中也得到了广泛地应用,它可以应用到以客户为中心的企业决策8 河北工业大学硕士学位论文分析和客户关系管理的各个同领域和阶段。客户流失分析就是数据挖掘在客户关系管理应用中的一个重要方面19-21。不管怎样,需求牵引与市场推动是永恒的,数据挖掘技术将首先满足信息时代用户的急需,大量的基于数据挖掘技术的决策支持软件产品将会问世。只有从数据中有效地抽取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。2-2-2主要挖掘算法及其对比分析我们所选择的数据挖掘技术,实际上代表的就是数据挖掘的算法,也是数据挖掘处理程序的核心,可以决定数据挖掘模型事例的分析方式。数据挖掘模型算法提供处理数据的方式,以便在处理数据挖掘列时将数据分类、分区、进行相关设置与分析,提供有关事例集的预测、变动与机率的信息等。数据挖掘中各种算法在不同的数据环境中,优劣会有所不同。如神经网络为解决大复杂度问题提供了一种相对来说比较有效的简单方法,神经网络可以很容易的解决具有上百个参数的问题,但挖出的结果却很难解释,挖掘时所耗的资源也是最大的;而决策树相对来说,其结构和规则推理的过程是开放的、清楚的、可浏览的22-24。数据挖掘模型是通过一些算法来创建的。当算法应用于一个数据结构时,该结构的填充数据从某种意义上来讲反映了存在原始数据集内部的关联和模式。所以对于数据挖掘来说在处理某一具体问题的时候,选择合适的算法可以收到事半功倍的效果。数据挖掘算法主要有以下几种25-27。(1) 神经网络方法神经网络的研究是基于试图去激发生物的神经系统。神经网络以其自身良好的协调适应性、分布存储以及极大的容错性能等一系列特性对于有效地实施数据挖掘工作显得非常有效,所以,神经网络算法越来越被业内人士及专业人员所重视。神经网络模型大致分为以下几类:第一类是以 BP反向传播模型以及函数型网络为主要代表的,用于预测、分类以及识别的前馈式神经网络模型;第二类是以 hopfield模型为代表的,用于优化计算以及想象记忆的反馈式神经网络模型;第三类就是以 art和 koholon模型为代表的。神经网络的许多优点让人们对它产生了极大的兴趣,但同时它的难理解性却让人们有一种望而不及的感觉28。(2) 遗传算法遗传算法作为一种仿生全局优化方法,基于的是生物的自然选择以及遗传理念的随机搜索算法。遗传算法的应用也比较广泛,这是由于它具有与其他模型容易结合以及具备良好的隐藏同时性等优点。遗传算法的最大优点就是问题求解与初始条件没有关系,搜索最优解的能力特别强。遗传算法需要完成两种数据转化工作,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码工作;在算法完成之后,需要进行从基因型到表现型的转换,是前者的反方向操作,为译码工作,即将遗传空间中的染色体或个体转换成解空间中的最优解。(3) 决策树方法决策树算法是一种常用的数据挖掘算法,它是从机器学习领域中逐渐发展起来的一种分类函数逼近方法。决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。9 基于数据挖掘的电信客户流失分析研究决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由 Quinlan提出的著名的基于信息熵的 ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如 Schlimmer和 Fisher设计了 ID4递增式学习算法,以及 C4.5及其扩展等。(4) 粗糙集方法它是一种处理含糊性和不确定性的数学工具,它把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。粗糙集理论主要特点是它可以以不完全信息或知识去处理一些不分明现象。经过 20余年的研究和发展,它已经在信息分析、决策支持系统、数据挖掘以及模式识别等方面取得了很多的成功应用。(5) 贝叶斯分类算法贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在。而贝叶斯概率则是人的认识,是个人主观的估计,随个人的主观认识的变化而变化。比方事件的贝叶斯概率只指个人对该事件的置信程度,因此是一种主观概率。贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,如 TAN(Tree Augmented Bayes Network)。(6) 关联规则方法关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等人于 1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。(7) 支持向量机支持向量机(SVM)是数据挖掘中的一个新方法,能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器 .他们也可以认为是提克10 河北工业大学硕士学位论文洛夫规则化(Tikhonov Regularization)方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类器。由于各种方法都有自身的功能特征以及应用领域29-31,挖掘技术的选择将影响最后结果的质量和效果,通常是将多种技术结合使用,形成优势互补。表 2.1对这几种较为流行的挖掘技术进行了对比分析。表 2.1 数据挖掘的主要技术方法对比Table 2.1 The comparison of the main method of data mining技术方法决策树主要功能及特征归纳分类;可理解性聚类、优化;高效性不确定性分类应用领域电信、医学和零售业等金融业、保险业和农业等零售业、金融业和制造业等通信行业、保险业和制造业等医学、制造业和电信等零售业、保险业和制造业等医学、电信和金融业等遗传算法粗糙集神经网络贝叶斯网络关联规则支持向量机预测、分类和聚类;解释性差分类、聚类和预测;易理解分类、聚类分类;误差小选择合适的算法是数据挖掘系统的关键,国内外学者针对应用数据挖掘技术进行电信客户流失分析已有相当程度的研究,使用相对较多的算法有人工神经网络、决策树及贝叶斯定理等,其中普遍结论以决策树及人工神经网络算法相对准确率较高。由于预测没办法做到绝对的准确,所以通过各类适用算法得出的客户流失预测结果必然不尽相同,使用单一算法准确率并不高,一对一营销的指导意义也相对较弱。所以,在硬件资源相对富裕的状况下,通过多种算法分别分析再将结果按照一定的规律进行组合来提高预测的准确率,如采取人工神经网络、决策树及贝叶斯分类器分别得出预测结论,在不考虑客户保留成本的状况下,可以通过并集的方式得出最终需要进行政策维系的客户群,反之可通过交集的方式得出。当然也可通过各类算法所需求的输入数据不一致的状况,通过不同算法进行互补,如决策树模型对于数值类参数(如网间通话数、每月充值费用等)分析不尽完全,人工神经网络算法则可进行弥补。总之,数据挖掘算法是数据挖掘的核心问题。不管如何使用数据挖掘技术,最关键的问题就是算法的选择与实现。2-2-3挖掘算法的选择及所选算法的优缺点分析众所周知,数据挖掘算法通常采用以下几种:决策树算法、神经网络算法、遗传算法等等。有研究表明,对类似上述常用算法进行横向对比,在潜在用户流失预测问题中,神经网络算法表现的最为突出,有着最高的准确率。另外国内一些行业专家结合电信运营商的市场进行实地考察也发现,采用不同的挖掘算法对客户流失建立数学模型,决策树和神经网络算法同样有着最优的准确率和最稳定的性能。因此文章决定利用这两种挖掘算法来建立流失预测模型。下面重点对这两种算法的优缺点进行分析。各种算法均有其自身的优点和不足,决策树算法和神经网络算法也不例外。针对客户流失预测这一具体问题而言,决策树算法所得出的模型很容易被人们所理解,但是对预测客户流失率的细分群时却11 基于数据挖掘的电信客户流失分析研究表现出较低的精确度;而对神经网络来说,它可以产生很好的预测模型,但是所建立的模型通常让人们很难理解,它的黑盒性总是让人有种望而止步的感觉。表 2.2所示是对两种算法的比较。表 2.2 决策树算法和神经网络算法的比较Table 2.2 Comparison of decision tree and neural net algorithm决策树神经网络可以生成可理解的规则;有良好的自组织、自学习和自适应能力;面对复杂多变的外界系统它可以通过其良好的抗干扰能力去除冗余
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 相亲会所写了协议合同
- 物业管理保险合同范本
- 租快艇合同协议书模板
- 绿化苗木购货合同范本
- 美容物品出售合同范本
- 美团骑手签的合同协议
- 酒店厨师招聘合同范本
- 维修翻新升级合同范本
- 物业水管维修合同范本
- 物业店铺防盗合同范本
- (高清版)DB11∕T 2455-2025 微型消防站建设与管理规范
- 国家职业标准 -碳排放管理员
- 微型党课评比活动方案
- 2025民用无人机驾驶员合格审定规则
- 2025年液体闪烁仪市场发展现状
- 建筑工程质量员课件
- 2025年山东滨州市无棣县丰达建设工程集团有限公司招聘笔试参考题库含答案解析
- 风电项目前期手续办理流程
- 统编版语文三年级上册习作《这儿真美》 课件
- 《高级氧化技术》课件
- 运维公司保密管理制度
评论
0/150
提交评论