电信帐单数据挖掘_第1页
电信帐单数据挖掘_第2页
电信帐单数据挖掘_第3页
电信帐单数据挖掘_第4页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档电信帐单数据挖掘。1欢迎下载精品文档一概述 .11.1项目背景 .11.2数据挖掘和相关概念 .11.2.1数据挖掘的概念和过程 .11.2.2数据挖掘在电信管理中的应用 .21.3项目计划 .31.3.1项目目标 .31.3.2时间安排 .41.3.3人员组织 .5二项目实施.62.1选择数据挖掘工具 .62.2建立数据库表建立和数据清理 .72.3建立数据多维存储 .82.3.1维度创建 .82.3.2 OLAP存储创建 .92.3.3 OLAP数据分析 .102.4数据挖掘 .122.4.1决策树计算(月用户数量分析) .132.4.2用户分类(聚类分析) .14三总结 .15。

2、2欢迎下载精品文档一概述1.1 项目背景随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动 ”向 “市场驱动 ”、“客户驱动 ”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理( CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。1.2 数据挖掘和相关概念1.2.1 数据挖掘的概念和过程1数据挖掘的概念数据挖掘是

3、根据企业的既定业务目标和存在的问题, 对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。数据挖掘是建立在数据仓库基础上的高层应用, 但数据挖掘跟数据仓库的其它一些应用如 OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析; 而前者则是在业务问题和目标明确但考察的问题不清楚时, 对数据进行探索, 揭示隐藏其中的规律性, 进而将其模型化。2数据挖掘过程数据挖掘是一个循环往复的过程, 通常涉及数据准备、 建立模型、评估和解释模型、运用和巩固模型等步骤。(1)数据准备:数据准备工作包括数据的选择(选择相关和合

4、适的数据) 、探索(了解数据分布情况和异常数据等) 、修正(包括缺失数据的插值等)和变。1欢迎下载精品文档换(离散值数据与连续值数据的相互转换,数据的分组分类, 数据项的计算组合等)。(2)建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。(3)评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。(4)运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。1.2.2 数据挖掘在电信管理中的应用电信运营商拥有许多熟的数据库应用系统,如网管系统、财务系统、计费

5、账务系统、 112 障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合, 就能充分利用这些宝贵的数据,体现信息的真正价值。数据挖掘技术在电信行业主要应用领域如下:(1)客户消费模式分析客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、 数据以及客户档案资料等相关数据进行关联分析,结合客户的。2欢迎下载精品文档分类,可以从消费能力、 消费习惯、 消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。(2)客户市场推广分析客户市场推广分析(如优惠策略预测仿真)是利

6、用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账, 其仿真结果可以揭示优惠策略中存在的问题, 并进行相应的调整优化, 以达到优惠促销活动的收益最大化。(3)客户欠费分析和动态防欺诈通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。 当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。(4)客户流失分析根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系, 并给出明确的数学公式。然后根据此模型来监控客户流失的可能性,如果客户流失

7、的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。 这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。1.3 项目计划1.3.1 项目目标电信公司每个月的帐单有数百万条,牵涉到千家万户,这些数据中有很多宝贵的东西,可以从这些资料中获得宝贵的资料。电信的产品非常多, 主要有以下一些种类:普通电话(市内电话) 、长途电话、小灵通和宽带业务,这些业务是电信业务的主体;电信公司的帐单目前按自然月开帐,每个月给用户邮寄帐单;电信公司具有划分为多个区域包括(区局、分局)。项目的目标之一就是对这些数据进行分类统计,按照产品/ 时间 / 区域等对数据

8、进行分类统计(建立三个维度),如本地、长途、宽带、小灵通用户数;本地(长途和小灵通)通话次数和。3欢迎下载精品文档平均时长,语音 ARP(平均用户收入)值,宽带 ARP值,小灵通 ARP值等。决策树分析,统计月收入的变化情况, 对用户进行聚类分析, 将用户分为不同的等级。项目目标之二是进一步加深对数据挖掘的认识,通过上课,我们已经初步了解了数据挖掘的基本原理和基本算法, 通过电信数据挖掘这个实践, 可初步掌握数据挖掘的一般过程和工具, 对数据挖掘有更深刻的认识, 这对今后的工作是有非常大的好处的。 通过项目也可以促进项目组人员之间的了解, 取长补短,共同提高技能。1.3.2 时间安排初步时间安

9、排为三周时间时间安排备注第一周项目需求系统分析人员分工选择数据挖掘工具建立数据库表结构建立挖掘模型第二周数据清理,转换成数据库表建立多维度 OLAP数据存储模型OLAP数据分析第三周数据挖掘知识发现编写课题报告和演示报告,演示成果。4欢迎下载精品文档1.3.3 人员组织。5欢迎下载精品文档二项目实施2.1 选择数据挖掘工具目前市场上的数据挖掘工具比较多,一般而言,目前市场上这些数据挖掘工具又可分成两类 企业型工具以及小型工具。企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/ 服务器结构。它通常可以直接连接一些复杂的数据管理系统 (

10、 不像普通文本文件 ) ,并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。企业数据挖掘工具的实例有 IBM的 IntelligentMiner 和 SASEnterprise Miner ,SPSSClementine等。小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解 决方 案。比 如 Oracle 公 司的 Darwin , Insightful公司的Insightful Miner,等等。本次项目选择的工具为Microsoft Analysis Se

11、rvice优点 掌握快,易上手,适合初学者和本次项目 支持多种数据库,支持ODBC接口 成本低, SQL Server2000 自带的 Service Pack 包缺点 只能做很简单的挖掘工作,过于傻瓜 只支持基于维度的数据挖掘 只支持决策树和聚类分析。6欢迎下载精品文档2.2 建立数据库表建立和数据清理根据电信帐单数据挖掘项目的要求,选择比较简单的ACCESS数据库存储数据, ACCESS的操作比较简单,由于数据库的通用性,今后也可以扩展到大型数据库,如 ORACLE,SYBASE,DB2等,建立如下的表结构如下:1电信帐单事实表该表记录了电信的帐单2产品表3区域表4时间表由于电信帐务数据库

12、非常复杂,结构繁多,不利于数据挖掘,因此必须首先。7欢迎下载精品文档进行数据清理,规范化数据。利于挖掘的数据库应该是星型或雪花形的数据结构,我们的数据库表的关联关系如图所示:数据清理后得到以下的数据:总共建立计费数据事实表,数据总量为 132762 条;建立从 2003-2004 年的时间表;建立区局 - 分局的对应关系表,总共 13 个区局和 180 个分局;建立产品表(普通电话,长途电话,小灵通和宽带) 。2.3 建立数据多维存储2.3.1 维度创建数据多维存储是OLAP(在线事物处理) 的存储形式, 不同于数据库的关系结构,采用了立方体的存储结构,更利于数据的快速汇总和查找。立方体的结构

13、以数据维度为基础,为此我们建立了三个维度,时间、区域和产品,有些维度分等级, 如时间和区域就分两级维度,因为时间可以分到年 / 月,区域这里分为区局和分局两级。如图所示区域维的结构:。8欢迎下载精品文档同样可创建其它维度, Analysis Service可根据多种表结构创建数据维度,如同一张表内创建,表内的自关联创建,父子表的创建等。2.3.2 OLAP存储创建根据 Analysis Service的向导可以创建数据的多维存储,生成较容易分析的多维存储结构,在本例中,帐单事实表的大小约为30MB,经过 AnalysisService的处理生成 OLAP存储后数据可以大大压缩,并以文件形式保存

14、,减少了分析的时间,特别适合统计工作。9欢迎下载精品文档2.3.3 OLAP数据分析利用 OLAP分析工具和生成的OLAP存储文件, 可以对数据进行初步的分析工作,如图所示:。10欢迎下载精品文档由上图可见各年度,各区局,各种相关产品的统计情况,可进行上钻和下钻的操作,如先看每年的情况,下钻后可以看到每月的情况,粒度更细微,为分析提供的数据更详细, 同理也可只看某一区局的数据,通过下钻可以看到更细的分局的数据。还可以通过不同维度的排列组合,获得所需要分析的数据, 满足不同用户对数据分析的需求。 此外还可以提供钻取功能, 直接看到数据库的原始记录,更方便分析。如图钻取数据库的原始数据:。11欢迎

15、下载精品文档2.4 数据挖掘数据挖掘基于 OLAP,但是 OLAP只是数据挖掘的基础,而本身并不是数据挖掘。数据挖掘有一些方法:如关联分析、分类和预测、聚类分析等,每一种类方法又有许多不同的算法: 如分类预测就包括判定树、 贝叶斯分类、后向传播分类、回归算法等。目前 Microsoft Analysis Service仅支持聚类分析和决策树算法,决策数算法可以根据以下例子说明:市场部想分析当前销售事务并找出客户统计信息(性别、婚姻状况、年收入等等)和所申请会员卡(金卡 / 银卡 / 普通卡)之间的模式。然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。可能得到如下的决策树:10 万金卡男

16、性5-10 万银卡30-40 岁40-50 岁50 岁12 万金卡4 万普通卡女性20-40 岁.40 岁根据以上决策树,我们可以判断客户选卡的模式,男性30-40 岁年收入大于10 万的比较偏好选择金卡。根据决策树所构造的结果是实现我们并不知道的一个结果,就象关联分析中我们并不知道尿布和啤酒是关联商品, 往往用户会同时。12欢迎下载精品文档购买一样,决策树的分枝是有数据和决策树算法决定的,如果使用现成工具进行决策树的挖掘,我们无法预料能产生什么样的决策结果。2.4.1 决策树计算(月用户数量分析)根据以上算法计算一个决策树,判断各月的收入情况,可以得到以下的分析结果:可以看到某些月份用户数量

17、比较多,而有些月份用户数量比较少。这样市场部就可以根据用户数量在淡季进行有针对性的促销活动。13欢迎下载精品文档2.4.2 用户分类(聚类分析)我们要求对用户进行分类,但我们并不知道要怎么样分类,我们将数据交Anaylise Service处理, Anaylise Service为我们得到一个分类,可以作为用户分类的依据。分类结果如下表所表示:月话费用户数百分比13000.7585236.4%全部132762100%可见用户大多数还是以低端用户为主 (数据经过处理),高端用户也有 6.4%,主要是企业用户。14欢迎下载精品文档三总结通过对该项目的初步挖掘, 产生了一些挖掘结果, 但由于考虑到电

18、信安全性,因此数据经过了一些处理, 可能与实际情况并不十分符合。 而且由于工具的缺乏,也可能导致挖掘结果的不够完善。真正的电信数据挖掘也还存在以下一些问题:(1) 数据质量和完备性:电信公司不象移动公司,用户和手机是绑定的,有比较完善原始数据,电信公司的一个电话是好多人同时使用的,因此无法对用户的通信行为模式进行详细的分析。 目前很多分析只是数据报表,还没有上升到数据挖掘的高度,不能从大量数据中得到真正的金子。(2) 国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型, 从而导致客户价值模型有效性的降低。(3) 相应的人员素质:在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员, 必将导致分析系统与现实脱钩,无法达到预期效果。(4) 应用周期:数据挖掘存在一个较长的应用周期。技术本身不能给使用者解决任何问题,只能从数据中把一些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论