数据挖掘在电信行业精准营销的应用研究_第1页
数据挖掘在电信行业精准营销的应用研究_第2页
数据挖掘在电信行业精准营销的应用研究_第3页
数据挖掘在电信行业精准营销的应用研究_第4页
数据挖掘在电信行业精准营销的应用研究_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第73页毕业论文数据挖掘在电信行业精准营销的应用研究院别专业名称班级学号学生姓名指导教师年月日第PAGEI页数据挖掘在电信行业精准营销的应用研究摘要21世纪以来,快速增长着的数据为企业和学者在各个领域的研究提供了丰富的资源,为了从这些海量数据中提取出有用的信息,数据挖掘应运而生;与此同时,越来越多的企业意识到传统的营销方式已经不适合现在的市场,企业纷纷由原来的以产品和服务为中心的营销模式转换为以客户需求为中心的营销模式,因此产生了精准营销的理念。本文的研究工作涉及两方面内容,一是数据挖掘,二是精准营销,考虑到电信行业数据资源丰富的特点,本文即对二者在电信行业的应用展开研究。首先借助SPSSClementine工具利用数据挖掘中的聚类技术,根据电信行业用户的通话时间、通话次数、通话习惯等对用户进行聚类;其次利用关联规则算法得出用户通话规律之间的关联关系;最后根据聚类后的群体特征,对不同类别的用户进行分类营销,并根据关联关系进行捆绑销售和交叉销售,这两种方法均实现了精准营销,从而达到提高企业收益,同时满足用户需求的双赢目的。关键词:电信行业,精准营销,数据挖掘,SPSSClementine

ResearchonDataMiningApplicationinTelecommunicationsPreciseMarketingAbstractSincethe21stcentury,thedatagrowingatanunprecedentedrateprovidesawealthofresourcesfortheresearchofenterpriseandscholarsinvariousfields.Inordertoextractusefulinformationfromthesemassivedata,dataminingcameintobeing.Atthesametime,moreandmoreenterpriseshaverealizedthattraditionalmarketingmethodsarenotsuitableforthecurrentmarket,somostofthemaretransformingthemarketingmodelfromtheoriginalproductandservice-centrictocustomer-centric,whichistheprecisemarketing.Thepaperwillfinishtwoparties:First,datamining,andsecond,precisemarketing.Consideringthereisawealthofdataresourcesinthetelecommunicationsindustry,thispaperwillhavearesearchandapplicationaboutthetwomethodsabove-mentionedinthetelecommunicationsindustry.Firstly,thispaperwilluseclusteringalgorithm,oneofthedataminingalgorithms.Thisalgorithmcanmakethetargetdatadividedintoseveralkindsofgroups,whichisbasedonthebehaviorsofcustomerswhentheyusethetelephone.Secondly,thispaperwillusethealgorithmofassociationrulestodiscovertherelationshipbetweentheregularpatternwhenusersusethetelephone.Finally,thispaperachievesprecisemarketingprocessthroughmakingdifferentmarketingstrategybyanalyzingthebasisofclusteringanalysisandassociationrules.Thetwowaysabovearetheso-calledprecisemarketing,andtheybothachieveawin-winofimprovingtheprofitsofenterpriseandmeetingtheneedsofcustomers.Keywords:TelecommunicationsIndustry,PreciseMarketing,DataMining,SPSSClementine.

目录1绪论 11.1课题来源及研究背景介绍 11.2研究目的和意义 11.2.1研究目的 11.2.2研究意义 11.3国内外研究现状 21.4研究内容和组织结构 41.4.1主要研究内容 41.4.2研究方法 41.4.3论文组织结构 52数据挖掘及精准营销理论基础 62.1数据挖掘基本理论 62.1.1数据挖掘定义及过程 62.1.2数据挖掘工具及选择 72.1.3数据挖掘的未来 92.2精准营销基本理论 92.2.1精准营销的概念 92.2.2精准营销的特点 102.2.3精准营销的实施策略 112.3本章小结 113数据挖掘与精准营销的结合应用 123.1应用模型 123.2应用领域 143.3应用中可能存在的问题及对策 153.4本章小结 164数据挖掘在电信行业精准营销的实例研究 174.1实例背景介绍 174.2使用方法介绍 174.2.1聚类分析 174.2.2关联规则发现 194.3需求分析 204.4数据准备 214.4.1数据选择 224.4.2数据预处理 224.5聚类分析 234.5.1K-means算法 234.5.2TwoStep算法 284.5.3判断聚类依据 314.5.4查看用户归属类别 344.6关联规则分析 354.7制定精准营销策略 404.7.1细分客户 404.7.2交叉销售和捆绑销售 414.8本章小结 42结论 43致谢 44参考文献 45附录 47附录A 47附录B 52

第1页1绪论1.1课题来源及研究背景介绍近些年,随着互联网和移动终端的发展,人们对电信行业的依赖和需求日益增加,急剧地促进了电信行业的发展。随着电信行业的不断发展,电信业务有了很大的改变,并且由于许多国家电信业的开放和新兴技术的发展,电信市场正在迅速扩张并越发竞争激烈[1]。与此同时,电信行业的发展使得电信企业与客户的交互也发生了巨大的变化。因为客户有了更多的选择,电信企业只有深入了解客户的需求,并为客户提供精准的营销服务,更好地满足客户物质和心理上的双重需求,才能保留住自己的客户并吸引更多的客户。精准营销在电信行业的应用应运而生。21世纪以来,各种快速增长着的数据充斥着人们的生活,但是由于出现了“数据丰富,但知识匮乏”的现象,人们需要一个强有力的工具对数据进行分析,并从大量数据中提取出有效的信息即“知识”,因此产生了数据挖掘(DataMining,DM),也称知识发现(KnowledgeDiscoveryinDatabase,KDD)。1.2研究目的和意义1.2.1研究目的本文的目的在于探讨数据挖掘技术在电信行业精准营销的应用,即利用数据挖掘中的聚类技术,根据电信行业用户的通话时间、通话次数、通话习惯等对用户进行聚类,帮助电信企业对不同类别的用户进行分类营销,同时利用关联规则算法得出用户通话规律之间的关联关系,进行捆绑销售和交叉销售,这两种精准营销方式可以达到提高企业收益,同时满足用户需求的双赢目的。1.2.2研究意义众所周知,在营销过程中了解客户的消费习惯并挖掘其潜在需求,制定出有针对性的营销策略,就可以有效地增加客户的终身价值,提高营销成功的概率[2]。而数据挖掘技术可以很好地满足上述要求,显然数据挖掘技术和精准营销的结合在任何营销过程中的应用都是意义非凡的。随着手机等移动终端的不断发展,人们对于移动终端的需求和依赖性也日益增长,电信业在为人类提供便捷、娱乐的同时也积累了大量的客户数据,这些数据无疑是一笔宝贵的财富,只有尽早意识到这一点,并利用现代技术对这些数据加以挖掘和利用,创造出数据本身之外的价值,企业乃至整个行业才能拥有自己的核心竞争力。同时,随着现代生活水平的不断提高,各行各业竞争压力巨大,各式各样的营销手段铺天盖地包围着人们的生活。原有的营销手段和大众的营销方式早已让客户感到厌倦且不再适应市场,而精准营销可以准确地了解客户真实需求,以客户需求为出发点设计出真正让客户满意的产品,对不同群体的客户提供一对一和差异化的服务,提高企业利润和降低企业成本,同时帮助企业更好地应对竞争,脱离“价格战”的泥潭[2]。1.3国内外研究现状目前,数据挖掘技术和知识已经发展成为计算机科学界乃至各行各业的研究热点。国外数据挖掘的最新发展主要有对知识发现方法的进一步研究,如近年来提出多种对Bayes(贝叶斯)方法和Boosting方法的研究和改进;KDD与数据库的紧密结合等。数据挖掘的开发应用也得到许多计算机公司和研究机构的高度重视[3]。例如由IBM公司研究开发的多任务数据挖掘系统Quest面向大型数据库系统,包括序列模式、相似序列、关联规则和分类规则等[4]。国内相比于国外对数据挖掘开始研究的时间较晚,研究成果也没有国外成熟。当前,我国对于数据挖掘的研究项目多是政府资助进行的,如国家自然科学基金,九八五计划等[3]。数据挖掘是一个多学科领域,它融合了多种最新技术的研究成果,其应用领域得到了广泛的拓展,精准营销便是一个很好的实例。通过学校图书馆各类相关书籍、电子期刊数据库等多种渠道查找国内外相关论文资料,尤其重视对相关博士、硕士优秀毕业论文的参考学习,整理出本次论文的参考文献,并以此为基础完成本次论文写作。通过对参考资料的研究,以及对“中国知网”提供的文献数量进行统计,可以发现,数据挖掘相关论文以及数据挖掘技术在各行业精准营销应用的相关论文数量随年递增。图1.1和1.2显示了在“中国知网”数据库分别以“数据挖掘”和“数据挖掘和精准营销”为关键字搜索出的文献数量随年份增长的趋势。可以看出,近5-10年,国内学者对这两种技术的研究在文献数量上有了突飞猛进的发展。图1.1“数据挖掘”相关文献数量变化图图1.2“数据挖掘和精准营销”相关文献数量变化图但是,数据挖掘技术与精准营销结合应用的相关论文多为高校教师和学生撰写,利用这两种技术在商业和企业中解决实际问题的实质性论文较少,说明目前国内在该方向的研究主要基于高校的假想性研究。同样以高校发表论文为主,近些年也出现了利用数据挖掘技术设计与实现精准营销的信息系统,如浙江大学陈秋阳发表的《基于数据挖掘技术的精准营销系统的设计与实现》。1.4研究内容和组织结构1.4.1主要研究内容本论文主要的研究内容如下:1、数据挖掘理论数据挖掘作为本论文核心研究工具,是本论文的主要研究内容之一。它是一个包括问题界定、数据收集与预处理、数据挖掘过程执行以及对结果的分析和解释,最后得出合理结论的综合性、系统性过程。2、数据挖掘算法挖掘算法众多,每一种算法在不同应用方面都有其独有的优势。针对本文的实际情况,选择了聚类算法中的K-means和TwoStep两种算法及关联规则中的Apriori算法,利用聚类和关联规则两种不同的思路对用户数据进行处理。3、电信行业的精准营销理论模型有了强有力的工具,就要应用在生活中去解决实际的问题。在经历了传统营销之后,精准营销的优势越来越明显,结合电信行业数据资源丰富的特点,本文即以电信行业的精准营销为主要研究内容。1.4.2研究方法本文在借鉴多篇国内外相关文献的基础上,选择了聚类技术和关联规则作为前期技术对客户进行精准营销,基于该思路,本文采用了以下研究方法:1、理论学习的方法由于自身所学知识限制,进行论文写作前对数据挖掘和精准营销的知识只是有大概的了解。通过阅读大量文献和相关书籍,了解了数据挖掘和精准营销的基本理论,为论文的完成做好了前期准备。2、比较分析的方法一方面,在确定K-means聚类数目时,比较分析了当聚类数目分别为3、4、5、6、7时的迭代次数,在选择TwoStep聚类数目时,比较分析了自动确定和手动确定两种方式,从而确定了最佳聚类数目。另一方面,对K-means和TwoStep两种方法聚类后的标准差进行比较,最终选择了K-means聚类结果对用户进行分类。3、建模的方法本文通过创建K-means、TwoStep及Apriori模型对数据进行挖掘,根据模型结果制定精准营销策略。1.4.3论文组织结构各章的安排内容如下:第一章是绪论,介绍了课题的研究背景、研究目的及意义,国内外的研究现状以及行文结构;第二章是理论基础,对数据挖掘和精准营销的基本理论进行阐述;第三章将数据挖掘与精准营销两种方法相结合,介绍了二者结合后的应用模型、应用领域、应用过程中可能存在的问题及对策;第四章为本文的核心部分,即借助实例完成数据挖掘和精准营销的过程;结论总结了在本次论文完成过程中我所做的工作,并对下一步工作进行了展望。

2数据挖掘及精准营销理论基础2.1数据挖掘基本理论2.1.1数据挖掘定义及过程近些年来,随着各行各业的不断发展,人们在日常生活中产生的数据以前所未有的速度增长着,但出现了“数据丰富,而知识匮乏”的现象。因此需要一个强有力的数据分析工具从海量数据和大量繁杂信息中提取出对人们有用的知识。由此数据挖掘相应的研究逐步展开。就技术层面来说,数据挖掘最权威同时也是最常见的定义是“数据挖掘就是从大量不完全的、随机的、模糊的、有噪声的实际应用数据中,提取隐含在其中的人们事先不知道的、但又是潜在有用的信息和知识的过程”[5]。其中随机性是指事件发生与否的不确定性,而模糊是指事物本身从属概念的不确定性。由于数据挖掘已经被广泛应用于现代商业的各个领域,因此可以将数据挖掘理解为一种新的商业信息处理技术,其重点是对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理,从中得出关键性数据,以辅助商业决策。知识发现的过程如图2.1所示。图2.1数据挖掘流程图根据纪希禹主编的《数据挖掘技术应用案例》一书中介绍,数据挖掘的四个过程描述如下[6]:1、问题界定任何研究都是在一个特定的背景下展开的,数据挖掘也不例外。在数据挖掘之前首先要对挖掘的目的进行分析和界定。比如本文是在电信行业中利用数据挖掘技术达到精准营销的目的,而精准营销的方式有很多,如本文使用的细分客户和捆绑销售,因此本文着重采用了数据挖掘方法中的聚类和关联规则技术。2、数据准备阶段数据准备阶段包括对数据进行选择、集成、清洗等工作,这是由于数据挖掘要处理的数据来自不同的数据源,并且有大量噪声数据和冗余数据。数据准备阶段在数据挖掘过程中起着十分关键的作用,因为数据准备是数据挖掘工作的基础。3、数据挖掘阶段通过数据准备阶段的一系列操作,基本上就可以拥有一个高质量、可操作的数据集合了。下面就该进行最核心的步骤——数据挖掘了。通过问题界定可以确定数据挖掘要发现的任务是什么,由此判断属于哪种挖掘类型,并选择合适的数据挖掘算法和工具。目前流行的数据挖掘工具有很多,如SAS、SPSS等,这些都是国外经典的数据挖掘工具,算法齐全,实用性高。中国也有一些自主知识产权的软件,如MSMiner[7]。最后,利用工具,按照选择的算法在数据集合中完成数据挖掘的操作。4、结果评价经过数据挖掘的一系列过程,得出的结果应有助于决策,如将所有用户进行聚类并针对不同类别的用户实施不同的营销手段。对挖掘结果的评价依赖于此次挖掘的任务,由本领域的专家对所挖掘结果的实用性和有效性进行评价。经过专家或机器的评估后,将不满足任务的结果返回到前面的步骤去反复处理,直到挖掘出有效、准确的知识;另外如果在数据挖掘的过程中发现数据不能产生期望的结果,则要重新处理数据甚至重新选择数据。总之,数据挖掘是一个需要不断反馈与改进的闭环过程。2.1.2数据挖掘工具及选择数据挖掘理论的不断发展使得数据挖掘工具得到广泛应用,只有通过合适的工具才能从海量的数据中提取出人们想要的信息,得到人们想要的结论,将理论付诸实践。事实上,数据挖掘工具有很多如SASEnterpriseMiner、IntelligentMiner、Darwin等,在此仅对本文使用的工具SPSSClementine进行介绍[8]。SPSS是一款功能齐全且强大的统计工具,包含数据录入、整理、分析及数据探索、发布和集成等功能,适用于多种操作系统,支持脚本功能,支持多种数据类型,鼓励人工参与和改进,比较容易掌握,性价比较高。Clementine是SPSS公司的代表产品,拥有功能强大的数据挖掘算法和良好的用户界面。图2.2和2.3分别是该软件12.0版本的启动界面和主界面。图2.2SPSSClementine12.0启动界面图2.3SPSSClementine12.0主界面那么如何在众多工具中选择最适合自己的是一个企业或学者在数据挖掘之前必须要考虑的,同时这是一个非常具有挑战性的工作,因为工具的选择决定了数据挖掘结果的质量。由于各个公司的技术水平、文化背景、财务水平都不尽相同,对数据挖掘的要求和目的也不尽相同,到目前为止,可供参考的权威评估标准少之又少,因此一般可从两个角度考虑,一个是工具的角度,另一则是从公司的角度。从工具的角度来说[8]:应考虑数据挖掘工具的功能、简易性、开放性及可视化是否能满足用户需求;从公司的角度来说[9],要考虑公司的数据挖掘需求时间长短,公司的数据状态、预算以及数据挖掘经验和水平等。然而,上述介绍的这些标准都是一些比较权威和常见的,至于具体到一个企业到底选择何种数据挖掘工具还要具体问题具体分析,判断的标准当然也不止局限于此,要结合企业自身各个方面的条件和要求综合考评选择一款性价比最高的软件进行数据挖掘,从而为企业创造更多未知的价值,这才是数据挖掘真正的目的。2.1.3数据挖掘的未来就目前来看,数据挖掘的研究热点主要包括以下几点:生物信息或基因的数据挖掘及其文本的数据挖掘、网站的数据挖掘。目前数据挖掘已成功应用于社会生活的各个方面,大多数研究者目前采用的有效技术是将多种理论与方法的合理整合,相比来说,数据挖掘未来的发展趋势主要体现在以下几个方面:探索数据挖掘过程中的可视化方法,即人机交互;网络与分布式环境下的KDD问题;数据挖掘语言的标准化描述;数据挖掘与数据库系统和Web数据库系统的集成[3];应用领域的不断扩充,如在生物医学、电信业的应用;与特定数据存储类型的适应问题,与数据库和数据仓库系统的紧耦合是未来数据挖掘系统的理想体系结构[10]。2.2精准营销基本理论2.2.1精准营销的概念随着时代的发展和科技的不断进步,21世纪的人们无论是消费理念还是消费模式都发生了巨大的变化,越来越多的企业也逐步意识到传统的营销方式已经不适合现在的市场,企业纷纷由原来的以产品和服务为中心的营销模式转换为以客户需求为中心的营销模式,精准营销的理念应运而生。世界级营销大师菲利普·科特勒在2005年第一次提出精准营销的概念:“公司需要更精准、可衡量和高投资回报的营销沟通,需要更注重结果和行动的营销传播计划,还有越来越注重对直接销售沟通的投资。”这是精准营销理论的正式起源[11]。该理论一提出,便得到了社会各界的广泛关注和认可,各行各业开始尝试利用该理论指导实践。通过长期实践证明,精准营销可以很好地为客户提供一对一和差异化服务,真正实现在合适的时间和地点替客户所想,为客户所需,增强了产品价值的适应性,为企业带来更大的利益,因此精准营销能够很好地实现企业与客户之间的共赢。目前,我国著名的精准营销学者徐海亮提出了一个比较权威的定义,他认为:“精准营销就是以精准定位为核心,依托现代信息技术手段,建立个性化的顾客沟通体系,实现企业可度量的低成本扩张”。由此可知精准营销必须具备的条件有:精准定位,可度量和高效益[11]。2.2.2精准营销的特点精准营销的概念一经提出,便受到了各个行业的重视,企业纷纷尝试这种营销方式并取得了良好的效果,这是因为精准营销有非常多的特点,下面就几个主要方面进行讨论。1、营销对象的针对性精准营销最大的特点是精准和准确,对目标对象进行细分是实施精准营销的前提,选择对最有可能购买自己产品或服务的那一部分消费者进行营销活动[11],这样的针对性营销大大减少了营销的成本,提高了营销的收益,从而实现低投资高回报的营销目的。2、营销效果的可衡量性精准营销另一个显著特点就是对效果的可衡量和可评估。就传统营销方式而言,如电视媒体、平面广告,由于受众人数和对象无法确定,营销效果也无法评估和改进。而在精准营销方式中,无论是搜索引擎的竞价排名,还是广告联盟等,它们都因事先了解受众人群的年龄、性别和学历等基本信息,对营销效果可以进行较好的评估,同时可以根据评估结果改进营销策略,从而取得更优的效果。3、营销策略的高效性基于以上两个特点,可以看出精准营销具有高效性。这种高效性既体现在企业信息对目标客户的传播上,也体现在企业产品和服务的销售上。由于营销之前对顾客有充分的了解,顾客也更容易接受企业的产品和服务,使企业的营销活动起到预期的作用。4、营销过程的动态性精准营销的“精准程度”本身是动态的、相对的,是指现在的营销方式比过去更“精准”了,而未来会比现在更“精准”[12]。2.2.3精准营销的实施策略精准营销发展至今,实施策略非常丰富,归结起来可以分为三大类[12]。1、基于数据库的营销方法进行精准营销的重要基础是要建立一个相关信息比较完备的潜在消费者数据库,但由于其耗时、任务艰巨,需要企业持续努力、不断积累。企业如果一时难以建立起自己的消费者数据库,可以参考其他组织的消费者数据库,从中选择满足企业自身需要的消费者信息,以开展自己的营销活动。2、基于互联网的营销方法互联网的快速发展使得现代人们生活的方方面面都离不开网络,相关企业可以充分利用这一点,通过研究网民在互联网的行为特征,开展针对性很强的精准营销活动。目前,基于互联网的精准营销方法也有很多,除了门户网站广告、博客、E-mail这些常见的方式,也有关键词搜索、电子优惠券、来电广告等诸多不常见的方式。3、基于第三方渠道的营销方法在初始阶段,一些企业难以确定自己的潜在消费者的特性,但其他成熟的企业(通常是非竞争性企业)可能与自身的潜在客户群相同。因为两个企业的产品或服务虽然不同,但正好针对相同的目标客户群,如中年女性。这样通过第三方的渠道就能够很好地把握目标客户并展开营销活动。这里需要强调的是精准营销不是要否定传统的营销理论和方法,而是要推广和发展他们。精准营销是目前营销界的热点话题,我们相信随着各类营销理论的不断发展和实践,精准营销的理论也将会得到更好地阐释和实施。2.3本章小结良好的理论基础是技术实施的有力保障,本章对数据挖掘和精准营销理论进行了详细阐述,为后文的写作打下了扎实的基础。数据挖掘部分具体介绍了数据挖掘的定义及过程、工具及选择,以及数据挖掘的未来;精准营销部分阐述了精准营销的概念、特点和实施策略。

3数据挖掘与精准营销的结合应用3.1应用模型精准营销相比于传统粗放型营销方式,营销思维发生了很大的变化,它是在客户信息和行为的基础上,利用数据挖掘细分市场并制定精准化的营销策略。进行精准营销不但可以帮助企业节省营销成本,以低投资高回报的方式开展营销活动;更能有效地提升用户的感知和满意度,提高企业的核心竞争力。根据传统营销策略(如4P、4C理论)的思想,精准营销模式可以概括为5W营销分析框架,即在恰当的时机(When),将合适的业务(Which),通过正确的渠道(Where),采取正确的行动(What),营销给需要的客户(Who)。“以客户为中心”的理念贯穿整个精准营销过程,这也是精准营销的核心所在[12]。事实上,精准营销的模型有很多,不同行业的精准营销模型都是不同的,电信行业由于受到资金、人才以及相关软件产品等因素的制约,很多企业目前并没有在精准营销方面建立专门的系统。本文在此介绍一种以数据挖掘作为精准营销的前期技术且行之有效、简单易用的精准营销模型。模型结构如图3.1。图3.1精准营销模型图1、需求分析和确定目标不同的精准营销目标决定了不同的精准营销方法和过程,因此,在进行精准营销之前要对精准营销的目标进行明确界定,是为了降低客户流失率还是为了挖掘潜在客户,还是为了提高市场占有率等等。对于不同的目标,所采用的数据挖掘方法和算法也不同。本文所涉及的领域为电信行业,目前这一行业在国内有着其他行业不具备的显著特点即由联通、电信、移动三大支柱产业完全垄断市场,三者都拥有各自庞大的客户群,实力相当、竞争激烈,电信企业纷纷寻求一种方式,想要在留住现有客户的同时吸引更多客户。本文通过数据挖掘的聚类技术将客户划分到不同类别,针对不同类别的客户采取不同的营销手段。同时根据关联规则技术找出用户通话规律之间的关系,为其推荐或定制差异化的产品,让客户的需求得到更好地满足,提高客户忠诚度的同时吸引更多客户。2、选择业务变量由于电信行业自身的特点,无论是企业还是个人,每天都在为电信行业提供着大量的数据,且由于每个人的通话习惯和需求不同,电信行业涉及的业务数据极其复杂,要想选择有效的变量进行数据挖掘就需要前期的比较分析和筛选。3、数据准备在确定目标变量之后,我们需要对数据样本进行提取,并对数据进行清理和预处理,我们称之为数据准备阶段。之所以要进行这步工作,是由于虽然有海量数据,但是这些数据不同于可用的信息,要想完成精准营销的目标,需要对数据进行筛选,去除噪声数据和冗余数据,以免影响挖掘结果。这部分的工作量较大,将占到整个工作量的50%左右。4、建模和调优数据准备好了,就要实现挖掘,也就是完成数据挖掘最为关键的工作。在这一阶段,我们要依照挖掘任务和目标变量的特征,选择合适的数据模型。模型建立之后,需要判断模型是否有效,判断规则要遵循以下原则:(1)达到最高盈利规模,我们都知道,营销是市场经济的产物,而精准营销更加注重用最低的成本创造最大的价值,因此只有达到了最高的盈利规模才能实现精准营销的价值;(2)目标需求有明显差异,这也是精准营销的前提所在。只有目标客户群体的需求有明显差异,进行市场细分才是有意义的;也只有目标客户需求有明显差异,才便于我们识别,从而利用数据挖掘的聚类方法实现细分;(3)市场开发具有可行性,要开发市场,我们必须能够接触到这个市场,对其施加一定的影响,从而提高市场占有率或者加强客户忠诚度。5、结果描述和特征归纳数据挖掘工具将数据挖掘的结果直接地展现给我们,但要想得出什么样的结论需要研究者理性的思维加工过程,对结果进行描述。例如在聚类分析中,数据挖掘工具只是将全部用户分类,我们要找出不同群体之间的差异,提炼出关键的要素,即分群的依据,并根据这些依据给每个群起一个简短且能反映该群特征的名字,便于在后续营销过程中使用。在电信行业,我们就可以根据客户的消费特征和消费习惯将客户分为本地繁忙组,指绝大部分通话业务集中在本地,漫游少;漫游组,指通话集中在漫游业务上,漫游业务量大。6、制定对应的营销策略精准营销是一个闭环循环过程。在精准营销的过程中,数据挖掘技术对用户数据进行处理只是第一个步骤,依据数据挖掘结果制定精准营销策略并实施,最终根据从市场获得的反馈不断改进营销策略才是完成了整个精准营销的过程。这里反馈是指根据从营销活动执行过程中收集到的数据以及客户的反应程度,对营销活动的执行、渠道、产生和广告进行评价,找出有待改进和优化的地方,总结在执行期间遇到的相关问题及经验教训,为下一次的营销活动奠定良好的基础。3.2应用领域1、潜在用户挖掘随着国内外电信市场竞争的日趋激烈,各大运营商为了提高自身核心竞争力,已经从原来的被动式营销改为主动式营销。虽然现在国内电信行业呈现几大巨头企业完全垄断市场的局面,各自拥有庞大的客户群,但从商家频繁推出各类促销形式吸引顾客来看,彼此之间竞争是十分激烈的,如何从大量客户中,挖掘出潜在客户,将竞争对手的客户转变为自己的客户,扩大市场占有率是电信行业主要考虑的问题之一。可通过建立各类数据挖掘预测模型,预测潜在用户使用该业务的可能性大小,为运营商实行主动性和精确化营销提供依据。2、客户流失预测很长一段时间,由于我国各电信运营商进行价格竞争,客户不得不频繁地更换运营商,这种现象导致客户流失成为中国电信企业发展中面临的一个日趋严重的问题。因此要在客户流失之前做出相关预测,并采取相应营销手段挽留客户。可以利用数据挖掘技术建立客户流失预测模型,找出即将离开该模型的用户,也就是即将流失的客户,并通过预测分析过程中的相关数据确定用户类型,依据此类型的用户特征采用挽留的营销手段[13]。3、客户消费模式分析由于电信消费具有长期性和持续性的特点,可以对电信行业逐日积累的海量客户数据,如客户的个人信息、历年来长话、市话、集中通话时段等等数据进行关联分析,从消费行为和习惯等方面对客户的消费模式展开研究,这样有利于电信运营商的营销人员在进行营销活动时可以从客户行为和客户心理双重层面上把握客户的消费习惯和潜在消费可能性,也有利于营销人员争取到更多优质的客户资源。4、客户欺诈行为分析通过数据挖掘技术,不仅可以得出正常的顾客消费规律,也能得到各种骗费、欠费的行为规律。可利用这类数据建立一套欠费和欺诈行为的规则库。当某一客户的消费行为与规则库的某条规则匹配时,系统就会提示运营商提高警惕并采取相关措施,从而降低损失的风险。3.3应用中可能存在的问题及对策1、数据质量不高电信行业由于其自身的行业特点,拥有庞大的数据资源,但是这些海量的数据资源中不乏很多的脏数据和缺失数据,反而一些有用的数据无法收集,例如客户的基本信息,如性别和年龄[14]。因为不同的性别和年龄消费模式和习惯必定不同,知道客户的基本信息可以很好地将广大用户进行初步分类以辅助后续营销策略的制定。因此应注重数据的收集过程,提高数据的收集质量,并建立一个统一的数据库平台,为企业应用提供数据服务。值得强调的是数据库建设本身是一个长期的、渐进的项目,企业应做好持续努力的准备。2、缺乏专业的数据建模人员虽然数据挖掘已成为近年来的热门话题,但电信行业企业内部即可利用数据挖掘技术解决企业实际问题的情况并未普及,这是因为利用数据挖掘方法建模,需要很强的专业知识,包括数据库、数据仓库以及机器学习等等,另外能否选择合适的挖掘工具和算法是决定挖掘结果是否能引导营销人员得出正确结论的关键因素;与此同时,又需要扎实的业务知识,可以将挖掘结果进行分析比较,从而得出有效的结论并作用于企业。因此要求建模人员既要有专业的数据挖掘背景同时对企业的业务了然于胸,简单地依赖某些数据挖掘工具,脱离实际的应用背景,会使数据挖掘的效果事倍功半。因此企业只有从一开始就有针对性地培养数据挖掘人才,使其具备行业背景的同时深知数据挖掘原理和操作,才能使数据挖掘成功地应用于企业并为自身创造价值。总之,精准营销是近些年来营销界热门的话题,因为精准营销相比原来的传统式营销可以节约成本,提高效率,扩大市场占有率。利用数据挖掘技术进行数据分析和统计,可以在很大程度上辅助营销策略的制定,这一做法已经成为精准营销领域普遍采取的方法。电信行业由于其自身行业特征拥有海量数据,我们可以充分利用这些数据,为企业和行业创造价值。3.4本章小结本章在第二章的基础上,将两种概念相结合,对二者在电信行业的结合应用进行了理论阐述,具体介绍了二者结合应用的应用模型、应用领域以及在应用过程中可能出现的问题及对策。本章为第四章的实例研究提供了理论依据。

4数据挖掘在电信行业精准营销的实例研究4.1实例背景介绍近些年,移动终端的不断发展极大地促进了世界各地电信业务突飞猛进的发展。据统计,2012年8月,中国移动新增移动电话用户512.2万户,同比增速-11.34%;中国电信新增移动电话用户251万户,同比增长-3.09%;中国联通新增移动电话用户340.5万户,同比增长44.04%。就该数据来看,在新增用户中中国移动仍然占较大比重,达到46.85%,但这一比重呈下滑趋势。研究中国电信行业用户消费行为,并提供精准化的营销服务,降低客户流失率的同时增强客户忠诚度,成为目前电信行业亟待解决的问题。本文的实例研究以2012年中国某地区移动用户的通话记录作为原始数据集,该数据集包含了共65500个用户的个人信息和长达六个月的通话记录。本文将利用这些数据进行聚类和关联规则两种数据挖掘方法,根据挖掘结果制定有针对性的营销策略,从而实现精准营销的过程,而精准营销可以很好地帮助电信行业解决降低客户流失率和增强客户忠诚度的问题。4.2使用方法介绍在整个数据挖掘过程中最为关键的便是数据挖掘算法,而算法的选择取决于挖掘的目的和任务。从任务层面来说,常见的数据挖掘技术主要分为三类,分别是关联规则发现,分类分析以及聚类分析。下面分别结合本文使用的算法予以简要介绍。4.2.1聚类分析聚类分析是指将一个集合划分成为由相似的对象组成的对象类(即簇)的一个过程,聚类分析也称为群分析[15]。它与分类有一个明显不同的特点,即分类中数据的类别是已知的,通过这些数据类型构建模型并对未知数据进行预测;而聚类中所有的数据类型以及有几个数据类型都是未知的,要对所有对象进行分组,而分组的依据是对象之间的相似程度。最终使得一个组内的数据对象尽可能相似,而不同组中的数据对象不相似[16]。1、K-means聚类算法K-means算法是最为经典的聚类算法之一。该算法是把对象集合X划分为一组聚类{C1,C2,...,Ck},这里k是最终的聚类个数。首先随机选取初始聚类中心,通过计算各个点到初始聚类中心的距离对所有数据点进行分类,然后计算每个聚类的平均值调整聚类中心,以此不断地迭代循环。最终使每个对象归属一个类,并满足同一类内的对象尽可能相似,类间对象不相似。通常,采用目标函数是平方误差函数,见公式4.1。E=i=1kp∈c这里,E是表示数据集中所有对象的平方误差和,p为一个数据对象,mi是聚类Ci的中心,这个目标函数使得生成的簇尽可能地紧凑和独立。K-means聚类算法用流程图和示意图分别表示为图4.1和图4.2。图4.1K-means算法流程图K-means算法之所以成为聚类的经典算法,主要因为其算法简洁、快速的优点。另外,这种算法面对大规模数据集时具有较高的效率,这正好符合本文涉及行业的特点。但是这种算法有一个很大的缺点,就是要求事先人为地给出要生成的簇的数目并指定各聚类的中心。由于初始聚类中心的选择对聚类效果有较大的影响,如果选择不合适,会出现局部最优解,而这是我们不希望得到的结果。图4.2K-means算法示意图2、TwoStep聚类算法这里所指的TwoStep聚类算法是二阶段群集算法(TwoStepCluster)的简写。二阶段群集算法是一种分层群集算法,目前多用于资料统计采矿与多元统计的交叉领域,其算法适合于任何尺度的变数。此算法可自动确定类的数目,也能由使用者自己设定聚类数目,能够处理连续变量和分类变量的混合数据。TwoStep算法是分前后两步进行的,也即“两步”或“二阶段”的意义所在。第一步使用的是分层群集中针对大样本群集产生的Birch算法,将样本分成许多子类。该算法是传统分层群集算法的改进,其实质是层次群集方法与其他群集方法相结合的多阶段群集。第二步使用对数似然函数作为距离测量公式,利用第一步的结果对每个样本再次群集,对在一定范围的每个群集成员计算一些判别值,并用来估计类的最初数目。我们常用的算法是分层群集算法。4.2.2关联规则发现关联规则发现是另一类数据挖掘算法。关联规则的挖掘是在数据库中发现数据间强关联特征的模式,目的是以有效的方式提取最有趣的模式[17]。关联规则在市场营销领域主要可以解决精准营销的两类问题:一是交叉销售,即对用户进行产品推荐;二是捆绑销售,即分析哪些商品在一起销售更好,著名的“啤酒与尿布”就是这类问题的典型应用。Apriori是关联规则最经典的算法之一。其基本思想是首先从事件集中寻找所有频繁出现的事件子集,然后在这些频繁事件子集中发现可信度较高的规则。关联规则有两个重要的评价指标:支持度和可信度。支持度是指事物A、B同时发生的可能性,用来衡量关联规则的重要性程度。而可信度是指事物A发生的同时B发生的可能性,用来衡量关联规则的准确度。图4.3为Apriori算法流程图。图4.3Apriori算法流程图4.3需求分析开发任何项目之前,都要进行需求分析,数据挖掘因涉及的项目领域、工具、算法众多,更加需要需求分析。一个标准的数据挖掘需求分析模型应由功能、数据和方法三部分组成,在此结合本文研究实例进行分析:1、功能部分既是目标又是结果。本文的目标是对电信用户进行精准营销,一般来说精准营销的内容包括:客户流失预测、潜在客户挖掘、客户欺诈行为分析等;2、任何一个数据挖掘模型都离不开数据部分。数据的准备和预处理是产生真实有效的挖掘模式的保证;3、方法部分是模型的核心部分。通过功能部分可以清楚地知道数据挖掘的目标和期望得到的结果,由此决定选择哪一种挖掘方法。本文希望对不同消费特征的用户采取精准营销策略,因此首先需要将海量客户进行区分,而由于事先难以确定各类客户的特征,这里选用了无监督模式的聚类分析。在聚类分析中,本文采用了K-means和TwoStep两种算法。同时为了挖掘客户通话规律之间的关联关系,又采用了关联规则算法中最为经典的Apriori算法。4.4数据准备数据准备是数据挖掘过程中非常重要的环节,因为在该阶段要将最初的、未加工的原始数据转换为最终可以进行数据挖掘的数据集,而优质的数据集是数据挖掘的基础和保障。数据准备阶段工作量较大,占到整个数据挖掘过程中工作量的50%左右。4.4.1数据选择据挖掘数据部分的第一个步骤是数据选择,也称为数据获取。数据选择是指初步获取数据挖掘过程中所用的数据集合,目的是选择挖掘任务的操作对象,即目标数据。数据选择的方法有很多,在本文实例中,如果能够从实际生活中直接获取到某一地区电信运营商在某一阶段的真实通信数据,则能够将数据挖掘的结果作用于该地区电信运营商的实际分析当中,但限于行业机密,这一做法并不容易实现。本文所使用的数据是由某权威科研数据共享平台提供的科研数据。依靠国家科技部的大力支持,并通过与国内外著名科研机构、高等院校的通力合作,该平台积累了丰富的科研数据资源。本文使用的数据是2012年中国某地区移动用户通信记录的数据集。该数据集中包含了大量信息,就属性字段而言,共有用户ID、姓名、年龄、职业、通信时长、本地接听次数、本地市话拨打次数、本地长途次数、漫游接听次数、漫游拨打次数、呼叫联通次数、呼叫电信次数、呼叫联通时长、呼叫电信时长、本地接听时长、本地市话拨打时长、本地长途拨打时长、漫游接听时长、漫游拨打时长、本地基本通话费(主叫)、本地基本通话费(被叫)、漫游主费用、联通联系次数、电信联系次数共24个属性。数据记录条数高达65500条,海量的数据信息和较高的可信度和真实度为本次数据挖掘提供了良好的保障。4.4.2数据预处理虽然拥有如此多的数据,但是一般情况下这些原始数据中存在着大量的不完整、冗余性和模糊性的数据,无法满足数据挖掘算法的要求,严重影响了数据挖掘算法的执行,因此在真正挖掘工作之前,需要进行数据预处理。常见的数据预处理方法有:数据抽取、数据集成、数据清洗、数据转换和数据归约。1、数据抽取又称数据采集,就是从不同的数据源中抽取数据。由于实际问题的需要,往往要从不同数据源中获取数据,而这些数据大部分是没有联系的,如果不进行数据抽取,将所有数据进行数据挖掘,一般挖掘算法都可以在这些不相关的数据中也挖掘出“规律”来,而这并不是我们需要的,因此数据抽取显得尤为重要。2、数据集成数据集成广义上是指将多个数据源系统数据合并存放在一个统一的数据存储中,统一业务规则和编码规则,消除数据本身的冗余等,数据集成一般来说涉及2个问题[18]:(1)模式集成,涉及实体识别,即同一个实体在不同数据集中用不同的属性来表示,通常借助于数据库或数据仓库中元数据的查询来解决这一问题;(2)冗余,数据集成往往导致数据冗余,如同一个属性命名不一致或者同一个属性多次出现等情况,利用相关分析可以检测到属性间冗余,然后删除即可。3、数据清洗数据清洗主要包括处理空缺值、平滑噪声数据(脏数据)。空缺值是指某个或某些数据的缺失,可以利用回归、贝叶斯等方法填充空缺值;噪声是指一个数据集中的随机错误或偏差,包括错误的值或偏离期望的孤立点值,可以利用平滑技术处理噪声数据。空缺值和噪声数据在实际数据集中都是无法避免的,数据清洗可以提高数据质量,大大减少了数据变换过程异常处理的工作量[18,19]。4、数据转换数据转换就是对数据进行规范化,从而使数据转换成一个适合数据挖掘的形式。数据转换一般包括以下内容:(1)平滑处理,就是再次进行噪声处理;(2)数据泛化处理,用更抽象或更高层次的概念来取代低层次的对象;(3)属性构造,指根据已有属性构造新的属性,以辅助数据挖掘的过程。5、数据归约数据归约是指在尽可能保证数据完整性的基础上,获得数据的简化表示,以减少数据存储空间,使挖掘过程更有效,数据规约的概念很大,数据挖掘中常用和有效的是维归约,也称变量简约[20]。按照上述数据预处理原理,考虑到聚类和关联规则算法都只是对客户通话记录进行数据挖掘,因此客户姓名、年龄、职业等信息显然是冗余信息,在进行数据预处理时笔者删除了这些信息,并对数据集中的空缺数据和噪声数据都进行了处理,至此得到了质量较高,可以进行挖掘的优质数据集。4.5聚类分析4.5.1K-means算法通过前文介绍,我们已经清楚地知道,本次数据挖掘的背景和任务,并且得到了经过预处理的优质数据集,下面就可以在SPSSClementine中实现数据挖掘。首先我们实现K-means算法的聚类分析。1、由于数据集以Excel形式存储,而SPPSClementine提供了与多种源文件形式的接口,因此可以直接以Excel文件形式读取数据集,如图4.4所示。图4.4导入数据2、在接入其他运算节点之前,需要先检验刚刚读取的数据是否正确或者确认将要聚类的属性都有哪些,因此接入Table节点(图4.5-4.6),即以表格的形式查看接入的数据集(图4.7)。图4.5选择Table节点图4.6接入Table节点图4.7查看数据3、确定之后接入类型节点,在字段选项中选择“类型”节点,即Type节点。如图4.8所示。图4.8接入Type节点双击该节点,设置该节点的值。在K-means算法中,要求所有参与聚类的属性“方向值”都必须为“输入”(In),设置结果如图4.9所示。图4.9设置字段属性4、选择模型:选择聚类分析中最为经典的K-means模型,如图4.10所示;构建好的模型整体示意图如图4.11所示。图4.10选择K-means模型图4.11接入K-means模型5、设置K-means属性,尤其是聚类数,如图4.12所示;设置好聚类数后执行算法,图4.13为执行过程。图4.12设置模型属性图4.13模型执行过程图聚类数目的选择是K-means算法的关键,这里采用比较分析的方法确定聚类数目。根据经验,一般情况下聚类数目为5类左右,因此这里分别设置聚类数目为3、4、5、6、7并执行算法。图4.14表示当聚类数目不同时,迭代次数和误差值也不同。图4.14聚类数目不同时的迭代次数比较图从上图可以看出,当聚类数目为3或4时,迭代次数少,聚类效果好,结合实际情况考虑,最终选择4作为聚类数目,即将所有数据聚为4类。每类的记录条数及百分比如图4.15和图4.16所示。图4.15各聚类记录条数示意图图4.16各聚类记录百分比示意图SPSSClementine12.0使用方差分析的F检验方法识别变量的均值是否存在显著差异,查看器为我们提供了各属性值对每一类的重要性程度,如图4.17所示。图4.17属性重要程度示意图4.5.2TwoStep算法1、在Type节点之后接入两步模型,如图4.18所示。图4.18TwoStep模型图2、由于该算法可以自己设定聚类数目,我们先按此方法执行模型,如图4.19所示。图4.20为模型执行过程。图4.19设置模型属性图4.20模型执行过程图图4.21各聚类记录条数示意图3、如图4.21和4.22,查看执行结果可知该算法将全部用户聚类2类,通过查看器(图4.23)可知,所有属性对聚类1的重要程度为1.00,对聚类2的重要程度为0.00,这显然是不符合实际情况的。因此该算法执行结果不列入比较结果中。图4.22查看器结果图图4.23各属性对聚类的影响程度示例图4、显然本文使用的数据并不适合让Twostep算法自动确定聚类数目,因此为了提高算法的有效性,也为了更好地与K-means算法进行比较,在这里将两步模型的聚类数目手动设置为4,并执行,如图4.24所示。图4.24设置模型属性5、对比该执行结果与K-means结果(图4.25),可以发现,TwoStep每个聚类中属性的标准差普遍大于K-means的标准差,我们都知道,标准差越小,聚类效果越好,因此可得出在本例中K-means的聚类效果明显优于TwoStep的结论,究其原因,可能是因为K-means这种算法面对大规模数据集时具有较高的效率。图4.25两种聚类算法对比图4.5.3判断聚类依据根据查看器中的重要性程度指标我们可以判断出每一个属性主要影响的聚类类别,综合这些属性便可以得出每个聚类的特征。下面举例说明:根据图4.26可以很明显看出,“呼叫电信次数”这一属性对聚类4的重要性程度为0.97,代表“重要”,而对其他三类重要性程度小于0.9代表“不重要”,因此,“呼叫电信次数”这一属性影响聚类4的属性特征。将每一个属性按照上述方法分析,即可得出每个类的属性特征,由此判断出算法聚类的依据。表4.1表示了每个属性对各个类是否重要,重要用“√”表示,不重要用“×”表示。图4.26各属性对聚类的影响程度示例图表4.1各属性对聚类的影响程度判断表聚类1聚类2聚类3聚类4呼转“电信”次数×××√呼转“电信”时长×××√呼转“联通”时长×××√呼转“联通”次数√××√本地基本通话费(主叫)√√××本地基本通话费(被叫)√××√本地市话拨打时长√√××本地市话拨打次数√√××本地接听时长√√××本地接听次数√√××本地长途拨打时长×√××本地长途拨打次数×√××漫游总费用√×××漫游拨打时长××√×漫游拨打次数××√×漫游接听时长××√×漫游接听次数√××ד电信”联系次数√√×ד联通”联系次数√√××通信时长√√××由表4.1可以看出,聚类1区别于其他类的类别特征影响因素主要是本地业务,再由SPSSClementine查看器(图4.27)可知,聚类1的被叫通话费用超过了主叫通过费用,因此把该组称为“被动呼叫组”;图4.27类1的聚类依据图图4.28类2的聚类依据图聚类2区别于其他类的类别特征影响因素也主要是本地业务,但是该组主叫费用明显多于被叫费用(图4.27),且在本地各项业务中该类别业务量都最大(图4.28),因此将该组称为“本地繁忙组”;聚类3只有三个属性影响其特征,即“漫游拨打时长”、“漫游拨打次数”、“漫游接听时长”,说明该组的业务都集中在漫游上,因此称该组为“漫游组”;聚类4有5个属性影响其特征,区别其他类别,选出关键影响因素,可以看出该组与“联通”、“电信”用户联系频繁(图4.29),因此称为“联通电信组”。由此给出了4个聚类各自的关键特征。图4.29类4的聚类依据图4.5.4查看用户归属类别在Type节点之后接入K-means聚类结果,并在之后接入Table节点(图4.30),可以知道每个用户分别归属于哪个聚类(图4.31)。可以看出图4.31比图4.7多了两列,分别表示每个用户归属的聚类类别以及每个用户与其所在类的类中心的距离,距离越近,表示它聚在该类的效果越好。至此,利用聚类K-means算法进行数据挖掘的全部过程都已完成。图4.30接入Table节点图4.31聚类结果图4.6关联规则分析1、替换数据关联规则是挖掘事件A发生时事件B或C发生的可能性,为了便于关联规则分析的进行,这里需要将原数据的属性进行筛选和修改。选取有关时长的字段,包括通信时长、本地接听时长、本地市话拨打时长、本地长途拨打时长、漫游接听时长和漫游拨打时长共六个字段进行关联分析,并在Excel中借助IF函数将数值大于其所在组平均值的定义为通话时间长,数值小于其所在组平均值的定义为通话时间短。同时关联规则算法要求一次最多运行250条数据,为了提高运算效率,这里从原始数据中随机抽取了200条进行修改。2、在模型中接入数据源节点和Table节点,并查看数据,如图4.32和4.33。图4.32接入Table节点图4.33查看数据3、接入Type节点,并设置数据方向值(图4.34),在这里将不需要进行分析的属性方向值更改为None(无),要分析的属性方向值更改为Both(两者),因为关联规则分析的是两个属性间的关系,每个属性既作为模型的输入又作为模型的输出,因此属性方向是双向的,且是离散型的数据。图4.34设置字段属性4、接入模型:SPSSClementine12.0提供了三种关联规则算法,在这里我们选用最为经典的Apriori算法,如图4.35接入模型,图4.36设置属性并执行。图4.35接入Apriori模型图4.36设置模型属性5、查看模型执行结果(图4.37),可以得出前项与后项的支持度和置信度,例如“本地接听时长”长和“通信时长”长同时发生的可能性是41.206%,当已知“本地接听时长”长时,“通信时长”长的可能性是81.707%。图4.37模型结果图图4.38接入Web图节点6、关联规则分析的结果还可以以各类图形的方式表示出来,这也是SPSSClementine12.0的一大优势,即提供了良好的图形化界面,便于用户对结果的观察与分析。在Type节点后接入Web图节点,如图4.38所示,并设置节点属性(图4.39)。图4.39设置节点属性图4.40划杆值为18的Web结果图7、分析图形化结果。图4.40—4.42为模型执行结果图。图4.40是一张全连图,任意两个属性之间都有线连接,但线的粗细不同,代表二者关联程度不同,这里我们设定线越粗关联程度越大,另外还可以调节划杆,缩小属性范围,留下关联程度较大的属性。图4.40—4.42分别是划杆值为18、40、66时的情况。可以看出本地接听时长与通信时长的关联度最强,这与上面第6步得出的结论是相符的。另外,Web图还提供文字化结果,给出了强链接、中等链接和弱链接三种情况下属性的关联关系以及有多少用户符合这种关联规则,如图4.43所示。图4.41划杆值为40的Web结果图图4.42划杆值为60的Web结果图4.7制定精准营销策略4.7.1细分客户划分好客户群后,就可以根据每个群的特征制定针对性的营销策略,由于数据集是中国移动客户数据,这里以中国移动为例进行具体阐述:聚类1“被动呼叫组”,由于该组被叫通话费用超过了主叫通过费用,因此要向其推荐全国接听免费等类似服务,同时为了吸引其增加主叫时长和费用,可推荐其选择含有最低消费的相关业务,即主叫时长达到某一水平时可积分或优惠的活动;图4.43文字化的Web图结果图聚类2“本地繁忙组”,可以看出该组主叫费用明显多于被叫费用,且在本地各项业务中业务量都很大,说明该组有着很大的市场需求和市场占有率,因此应作为精准营销的主要目标客户群体。可向其推荐性价比较高、涵盖业务种类较广的套餐;另一方面由于业务量大,企业中任何新推出的活动都应积极向该组用户推荐介绍,如亲情号码、闲时优惠等,以满足客户各个方面的需求;与此同时,对该类客户还应进行捆绑销售,让其考虑为家人购买合适套餐,如“神州行夕阳红”,一款特别为老年人定做的移动套餐等;聚类3“漫游组”,作为本次数据挖掘结果聚类数目最多,群体特征最明显的一个簇,可以推断出该组用户由于生活或工作的原因经常各地奔波,漫游业务使用频繁,因此应向其推荐漫游类优惠套餐如“全球通”等;聚类4“联通电信组”,该组与“联通”、“电信”用户联系频繁,对于该类用户则应向其推荐亲情号码,同时为了吸引其他企业客户,可推出若能将联系频繁的用户都更换为中国移动用户,通信更加优惠的活动。4.7.2交叉销售和捆绑销售关联规则分析也叫购物篮分析,最早用于零售行业。利用关联规则算法,通过分析顾客的销售记录,可知哪两种或几种商品同时被购买的机率大,便将这几种商品摆放在一起销售,这种做法称为捆绑销售,根据分析结果对顾客进行产品推荐的行为叫做交叉销售,二者都是关联规则算法在精准营销领域主要解决的问题。在4.6节笔者利用SPSSClementine对数据源数据执行Apriori算法,结果用数值和图形两种方式展示,都表示“本地接听时长”和“通信时长”的关联程度最大。由于关联规则中属性间的关系是双向的,因此可知通信时长较长的用户,本地接听时长很有可能较长,同样,本地接听时长长的用户,通信时长也会较长。利用这一点,可以推断出本地接听时长长的用户可能整体通话业务量都很大,因此可以为其推荐适合业务量大的人群的套餐,如满定额按比例返话费等,定额越高,返利越多,而这种业务对于通话时长一般的人群来说显然是不合适的,这样便实现了交叉销售。或者为该类人群推出一款业务,接听免费,但整体通话业务量要有保证,即最低消费,满足消费下限后便可按比例返话费,从而实现了捆绑销售。这里需要指出的是,在实际生活中,考虑到全国各省市电信行业发展水平不同,对于上述模型思路不可一概而论,因此在实际业务推广中应首先选择一个试点进行测试,并随时了解模型应用的收益情况。若在一段时间内,收益有明显提高,则可考虑大范围推广,若收益并无增长,则考虑修正模型并再次测试。总之,电信行业实现精准化营销是一个涉及客户洞察、客户细分、产品研发、市场营销,以及营销结果评估的闭环过程,只有不断追踪市场反应、企业收益并以此修正营销策略才是精准营销的真正意义所在。4.8本章小结有了第二章和第三章的理论综述,本章为论文的核心部分,即完成实例的数据挖掘和精准营销过程。首先介绍了实例的背景和使用的数据挖掘算法;然后进行了需求分析和数据准备,数据准备包括数据选择和数据预处理;之后从聚类和关联规则两个方面对数据进行挖掘,聚类结果将所有用户聚类4类,针对每类用户的聚类特征制定了不同的营销策略,关联规则挖掘出两个属性的强关联关系,利用该强关联关系进行交叉销售和捆绑销售,实现了精准营销的过程。

结论本文到此主体内容已经完成,经过几个月的努力,笔者对本文涉及的相关理论和算法应用都有了深入的了解,现对本文内容从以下两个方面进行总结:1、理论方面:良好的理论基础是技术实施的有力保障,本文共涉及两大方面的理论知识,数据挖掘和精准营销。数据挖掘方面,具体介绍了数据挖掘的定义及过程、工具及选择,以及数据挖掘的未来;精准营销部分阐述了精准营销的概念、特点和实施策略,并将两种概念相结合,对二者的结合应用进行了理论阐述。这些内容为应用部分打下了良好的理论基础。2、应用方面:依据前三章的理论综述,在本文第四章节,实现了两个方面的应用。一是利用工具对真实数据源实现了完整的数据挖掘过程,包括数据准备、数据预处理及数据挖掘;二是通过对数据挖掘结果的分析,制定了有针对性的营销策略,实现了精准营销,完成了由理论到实践的过程。下一步工作:1、事实上数据挖掘方法主要有三类,本文只采用了其中的两类,即聚类算法和关联规则,没有使用分类技术。该技术在电信行业的精准营销上有很多应用实例,例如利用决策树算法构建客户流失预测模型,从而预测客户流失情况;2、本文由于借助工具实现数据挖掘过程,无法将算法结合实际情况进行改进,例如改进K-means计算变量之间距离的公式。要想达到这一目的,应使用Java编程语言完成数据挖掘过程;3、利用JSP、Servlet等技术可创建一个聚类分析的应用系统,包括用户登录与管理、聚类分析等模块,可以通过该系统选择不同聚类方法和指标参数,直接对数据进行挖掘。

致谢经过一段时间的努力,本论文至此已接近尾声,回忆过去的这段时间,需要感谢的人有很多,特此致谢。首先感谢我的导师丁老师。丁老师作为信管专业授课门数最多的老师,教授了我们很多专业知识,陪伴我们走过了三年的学习路程。老师平日里工作繁多,但在我们撰写论文期间,每周都会与我们开会讨论论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论