(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf_第1页
(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf_第2页
(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf_第3页
(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf_第4页
(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)面向电信客户流失管理的数据仓库原型研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 电信市场竞争的加剧使得各电信企业客户的流失现象日益严重,建立高效的 客户管理系统成为电信企业的必要选择。本论文以东软股份有限公司电信事业部 开发的电信企业客户流失管理系统及江西联通经营分析系统为背景,阐述如何应 用数据仓库技术原理设计面向电信客户流失管理的数据仓库模型,并尝试使用大 型数据库开发工具o r a c l e9 i 开发设计该数据仓库原型。 本论文主要围绕电信客户流失和数据仓库两个方面进行研究。对于电信业务 研究主要涉及对电信业客户流失的现状、流失客户类型及流失客户属性特征的分 析。 在数据仓库方面,本文研究了数据仓库概念原理及数据仓库开发方法,对数 据仓库开发模型进行重点研究,并设计出以电信客户流失管理为主题事实的数据 仓库星型开发模型。运用大型数据库开发工具o r a c l e 建立数据仓库原型,实现星 型模型中的维度表及事实表的立方拓扑结构。最后,总结了论文的主要工作,阐 述了进一步研究方向。 本文做的研究工作为电信企业高层决策提供支持,对基于数据仓库技术进行 的电信企业客户管理系统开发提供借鉴,对于电信企业管理有重要意义。 关键词:电信;客户流失;数据仓库;星型模型;o r a c l e 英文摘要 r e s e a r c ha n d a p p l i c a t i o no nt h ea n t e t y p eo f d a t aw a r e h o u s e o ft e l e c o m m u n i c a t i o nc u s t o m e rc h u r n a b s t r a c t w i mt h eb a dp h e n o m e n o no ft d e c o mc u s t o m e rc h u r n , f o u n d i n gt h ee f f i c i e n c y c u s t o m e rm a n a g e m e n ts y s t e mb e c o m et h en e c e s s a r yc h o i c e t i l i sp a p e rb a s e so nt h e m a n a g e m e n ts y s t e mo ft e l e c o mc u s t o m e ra n dj i a n g x iu n i c o r nm a n a g e m e n ta n d a n a l y s i ss y s t e mw h i c hd e v e l o p e db yn e u s o f lt e l e e o md e p a r t m e n t i ti sm a i n l ya b o u t h o wt od e s i g nt h ed a t aw a r e h o u s em o d e lo nt h em a n a g e m e n to f t e l e c o mc u s t o m e rc h u m b yd o i n gr e s e a r c ho nd a t aw a r e h o u s e t h e n , t r y i n gt of o u n dt h ed a t aw a r e h o u s ei nt h e m a n a g e m e n ts y s t e mo f t e l e c o mc u s t o m e rc h u m 1 1 坨p a p e rm o s t l yd or e s e a r c h0 1 1t e l e c o ma n dd a t aw a r e h o u s e n er e s e a r c ha b o u t t e l e c o mr e f e r st os t a t u sq u oo ft e l e c o mc u s t o m e rc h u r n , s t y l eo ft e l e c o mc m s t o m e rc h u m a n da n a l y s i so ft h ec u s t o m e r s a t t r i b u t e a n dt h ep a p e ra l s oh a sb r i e fi n t r o d u c t i o nt ot h e w h o l em a n a g e m e n ts y s t e mo ft e l e c o m a b o u td a t aw a r e h o u s e , t h ep a p e rd os o m er e s e a r c ho nt h e o r ya n dd e v e l o p m e n t m e t h o d so fd a t aw a r e h o u s e b u tt h em a i nr e s e a r c hi ss t r e s s e do nt h em o d e lo fd a t a w a r e h o u s ea n dt h ed e s i g n i n go ft h es t a r l i k em o d e lt ot h ed a t aw a r e h o u s eo ft e l e c o m c u s t o m e rm a n a g e m e n ts y s t e m t h ep a p e ra l s of o u n dt h ew a r e h o u s eu s i n go r a c l e w h i c hi sav e r yu s e f u ld a t a b a s ed e v e l o p m e n tt o o la n dr e a l i z et h ec u b es t r u c t u r eo f d i m e n s i o n a l i t yt a b l e sa n dr e a l i t yt a b l e s i nt h ee n d ,t h ep a p e rs u m su pt h em a i nw o r ka n dt e l l st h ei m p o r t a n tm e a n i n gt ot h e t e l e c o mm a n a g e m e n ts y s t e mw i t hd o i n gm o r er e s e a r c h0 1 1t h et e c h n o l o g yo fd a t a w a r e h o u s e k e yw o r d s :t e l e c o m ;c u s t o m e rc h u r n ;d a t aw a r e h o u s e :s t a r l i k em o d e l :o r a c l e 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文= = 亘囱皇值查庄速塞筐堡笪麴握全痊遂型硒塞生虞嗣:。 除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体 已经公开发表或未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名: 哪年办月a 7 日 圣t1 1 韦杪 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法一,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 粼豫裟霉麓0 妄 懈 同期:矽3 年;月卅日 面向电信客户流失管理的数据仓库原型研究与应用 第1 章绪论 1 1 选题的背景和意义 当今全球电信市场正在逐渐走向开放和自由化,客户需求在不断变化和增加, 业务的复杂程度日益提高,新技术的日新月异,市场竞争方式推陈出新,电信运 营商面临日益激烈和复杂的竞争环境。如何提供高质量的服务来吸引和留住客户 n 1 ,扩大市场份额,以及如何通过有效管理降低经营成本,向管理层要效益已经成 为企业的选择,已经成为全球电信业决策者们共同关注的课题。 从电信企业所处的外部环境来看,随着电信市场垄断局面的打破,市场上的 厂商获利由垄断时期的高额利润降至市场平均利润水平。在这种情况下,客户保 持均衡的重要性就在竞争中凸现出来。从电信运营商自身的角度来看,客户保持 是企业生存发展的需要。统计表明,争取、吸引一个新客户的费用是保住现有客户 费用的5 - 1 5 倍。预计在近5 年中,这种战略转移将成为潮流。因此,在开发新客户 的同时,尽量减少已有客户的流失问题( 降低用户流失率) ,就摆到了电信运营企业 面前。一组数据可以很好地说明问题:客户忠诚度下降5 ,则企业利润下降2 5 , 向新客户推销产品的成功率是1 5 ;虽然从向现有客户推销某个业务的单独统计来 看存在客户流失,但对公司整体而言客户没有流失d j ,6 】。当然,公司内的客户转 移也会影响公司的收入,这是电信业发展过程中不可避兔的。客户流失带来的是 对营业收入的影响,由于客户流失势必减少收入的来源,从而带来营业收入的减 少。重新获得流失用户的成本比获得新用户的成本高,因此大量、频繁的客户流 失会带来运营成本提高。整个市场流失的状态能够导致市场份额的变化,对每个 运营商来说这都是提高市场份额的机会。通过对用户价值的调查评估,相当高比 例的低价值用户使用客户服务等成本较大的支持服务频度较高,因此某些低价值 客户的流失可以提高运营商的利润率。另外,故意转网换取优惠的客户流失可以 减少不必要的营销费用。 商业竞争使得企业的营销能力成为决定企业竞争力的最重要因素,而营销能 力则建立在对客户的购买行为、消费行为、服务要求、营销参与等方面信息了如 第1 章绪论 指掌的基础之上,而为了掌握客户行为就必须要收集、整合、存储客户在购买、 消费、服务、营销等方面的海量数据。比如某电信企业有千万级的电信客户,每 个客户每月几百次的本地电话和上百分钟的长途电话,上t b 级的数据使得传统数 据库的数据存储、分析和处理能力力不从心曲1 。于是数据仓库的概念随之被引进数 据存储过程中。简单地说,数据仓库就是为了保证数据查询和分析的效率,按照 主题将所有的数据分门别类进行存储,在以后需要的时候,再按主题提取数据并 进行了进一步的分析处理。 如果电信业要同时达成降低经营成本、提高客户满意度、增加经营利润、扩大 市场份额四项相互矛盾的指标,必须有一套完整的管理机制才能实现。电信行业 是大量数据密集的行业,如何从海量业务数据中提取有效信息,建立综合的信息资 源平台,传统的数据库管理技术已不能胜任,数据仓库技术正是应对这一挑战的锐 利武器,a t & t 、美国西南贝尔、b e l ls o u t h 、s p r i n t 、g t e 、南新英格兰电信、 比利时电信、法国电信、巴西b c p 电信、台湾远传电、台湾中华电信、台湾大哥 大电信等几十家全球著名大型电信运营商u 一1 ,就是在激烈的市场竞争中,纷纷采 用数据仓库解决方案获得巨大收益的成功典范。 本文的工作正是基于大连海事大学和东软股份电信部商协作开发的电信市场 模型及智能决策支持系统为背景展开的,通过分析客户的基本数据、交易数据和 行为属性,设计面向电信客户流失管理的数据仓库原型。 1 2 研究现状及发展趋势 数据仓库的概念的提出者及相关技术的主要倡导者是美国著名信息工程学家 w i l l i a ni n m o l l 博士。数据仓库是面向主题的、集成的、稳定的和随时间变化的数 据集合,主要用于决策制定( b i l li n m o n ,b u i l d i n gt h ed a t aw a r e h o u s e ) 。数据仓 库的这些特点决定了它与传统的面向事物处理的数据库有着本质不同。作为一个 新兴的研究领域,数据仓库发展得很快,国外许多大学和公司都在这个领域进行 着广泛深入地研究,其中尤以斯坦福大学、i b ma l m a d e n 研究中心、威斯康辛大 面向电信客户流失管理的数据仓库原型研究与应用 学、微软和a t & t 的研究最具代表性n 3 m1 9 1 。 国内许多专家也已经开始研究数据仓库及相关技术。数据仓库技术目前在我 国属于起步阶段,许多学校和科研部门投入人力和资金主要研究数据仓库的实施 方案。应用数据挖掘和数据仓库技术跟踪预测银行客户地发展动向,为银行业务 策略、市场开拓提供定量化地依据。还有很多销售和生产等大型企业为了跟踪市 场地信息动态、预测企业未来发展趋势,也积极研究实现数据仓库的方案。 国内外许多实例已经证实数据仓库是解决大型d b s 信息集成、处理和预测的 最好方案。n c r 公司是全球关系管理技术( r e l a t i o n s h i pt e c h n o l o g y ) 解决方案领导供 应商,为全球零售、金融、传讯、制造、旅游、交通及保安等客户提供服务n 8 剐。 n c r 公司的关系管理技术解决方案有能确保数据保密的t e r a d a t a 数据仓库,n c r 公 司数据仓库事业部t e r a d a t a 所提供的数据仓库解决方案在全球的电信用户已达一 百多个,在电信行业数据仓库建设方面具有丰富的经验。 远传电信( f a r e a s t o n e ) 是台湾远东集团和美国a t & t 合资于1 9 9 7 年成立的经 营无线运营业务的民营公司,台湾9 7 年开放岛内电信市场后,市场竞争日趋白热 化,远传电信运营不久就率先采用n c r 公司的电信业数据仓库解决方案e l d m a n a g e m e n t ( 收益管理系统) ,借助数据仓库系统,在竞争中脱影而出,获得有利 的竞争地位。1 9 9 8 年远传电信在岛内启用n c r 的话费流失预防系统 ( f r a u d s e n t r y ) ,获得巨大的经济效益和社会效益。通过系统的监测,已经识别 出许多恶意欠费的客户,并及时避免了经济损失,现在远传电信是台湾岛内话费 流失最低的电信公司,其话费流失和坏帐的金额大大低于业界的平均水平。国内 的电信业者除远传电信外,中华电信也已选用n c r 资料仓储解决方案,藉以提升 市场竞争优势与营运收入。 n c r 数据仓库系统解决方案包括三大部分:数据源系统部分、中央数据仓库系 统部分、应用系统部分。n c r 的电信资料仓储解决方案能协助业者在客户管理上做 到客户区分( c u s t o m e rs e g m e n t a t i o n ) 、客户特性描述( c u s t o m e rp r o f i l e ) 以及计算客户 之贡献度,使每一个客户的消费特性浮现。而在行销管理方面,针对这些不同类 第l 章绪论 型的消费行为,即可推出不同的促销案并评估各项促销案之效益,并进行产品管 理、市场需求分析以及行销通路管理,以达到提高收入、建立客户忠诚度等目标。 世界各地众多无线运营商正经历着不同程度的客户流失,仅以1 9 9 9 年为例 4 3 4 4 , 4 7 ,欧洲的客户流失率为2 5 ,美国为3 0 ,亚洲则达到4 8 。对于世界各地 已经建立真正竞争机制的市场而言,电信业的客户流失现象由于若干原因而不可 避免,国外对电信客户流失方面的研究已经有六、七年的时间,而且已经研究出 较为成熟的解决方案,投入到市场应用之中。一些国内电信企业也意识到挽留高 价值客户的必要,开始逐步着手对历史数据进行收集、整合、分析、挖掘。但是, 大部分都只是试探性的建立简单的模型,有的还处于调研与可行性分析阶段,并 没有实际可用的成熟产品投入使用。由于国内的电信市场与国外的电信市场存在 者很大的差异,若将国外的模型应用到国内电信市场,必须进行调整以适应国内 电信市场的要求。 1 3 本文的主要研究内容 本文的主要研究内容是通过客户属性( 自然属性和行为属性) 分析并结合数 据仓库理论,设计面向电信客户流失的数据仓库。既针对电信客户流失分析需求, 为大量已知的无序离散的客户信息历史数据建立数据仓库原型。运用数据仓库的 理论和设计方法对样本数据集进行分析,分析流失客户群的特征建立数据模型, 确定数据仓库的粒度级别,使用o r a c l e 开发工具实现数据仓库中物理表的结构设 计。 本文首先对电信客户流失现状进行介绍,分析影响客户流失的主要因素,制 定合理的客户流失需求;并研究从不同的角度对电信业保存着的海量的历史数据 ( 客户自身的相关信息,客户不同时间的呼叫、短信、计费等大量的数据) 进行 分析,然后从客户和业务量方面分析和设计指标体系,从自然属性、用户属性等 方面分析和设计维度体系,从时间属性方面设计粒度体系,最后设计实现面向电 信客户流失的数据仓库。 在其中更重要的是研究数据仓库理论及数据仓库的开发过程: 面向电信客户流失管理的数据仓库原型研究与应用 木数据仓库的定义及面向电信客户流失管理的数据仓库特征: 木数据仓库相关概念:粒度,分割,元数据,维度划分,多维数据集: 木研究面向电信客户流失管理的数据仓库的模型设计:在建立面向电信客户流 失管理的数据仓库时,需要使用各种数据模型对该数据仓库进行描述。该数据仓 库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。使 开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好的适应性, 且易于修改。当数据仓库用户的需求改变时,仅对模型做出相应的变化就能反映 这个改变。 木使用0 r a e l e 等相关开发工具建立面向电信客户流失管理的数据仓库。 1 4 本文的组织结构 本课题首先对当前电信企业在c r m 中应用的技术进行了分析,针对有关客户 流失管理的问题进行了研究。课题实现部分也开发了一个原型系统,用以验证方 案设计的可行性。 论文结构共包括六章,分别为: 第一章简述选题的背景和意义,国内外研究发展状况,给出论文的主要研究 内容、研究方法等。 第二章主要介绍电信客户流失现状,分析电信客户流失需求以及客户属性数 据,对客户进行详细划分,说明建立面向电信客户流失管理的数据仓库的必要性。 第三章主要介绍数据仓库基本原理、主要特征及相关概念。 第四章对数据仓库开发过程、实施策略、以及相关数据仓库技术做深入研究 与分析。 第五章研究使用o r a c l e 开发工具建立面向电信客户流失管理的数据仓库,简 述该过程中的关键技术及关键步骤。 第六章总结本文所做的研究工作,对未来趋势提出问题和展望。 第2 章电信客户流失分析 第2 章电信客户流失分析 2 1 电信客户流失现状 近年来国内电信业的分割、电信体制的激烈变革以及竞争的急速加剧使得各 电信企业忙于开拓市场发展客户,对于已有客户的流失管理重视不够,虽然注意 到了却又找不到好的方法。一方面企业投入大量人力和财力去发展新客户,另一 方面因客户流失管理的不完善导致现有客户由于各种原因而流失,导致运营商在 努力发展新客户的同时原有客户流失不断增加局面的出现。 在电信行业的应用领域中主要有客户分析和渠道分析,客户分析又包括客户 流失和客户评估两方面。随着电信市场竞争的不断加剧,如何保持现有的客户吸 引更多的潜在客户,是电信企业面临的重要问题。 2 2 电信客户流失需求 只有充分了解客户的行为,预知客户的消息,并针对不同类型客户做出相应 的营销策略,才能牢牢地把握市场需求,在激烈的市场竞争中取得领先地位。为 了使用更好的市场营销策略,必须采用智能化的解决方案,比如利用数据挖掘技 术帮助了解客户的消费行为,由于数据挖掘需要从大量的历史数据中提取有用的 信息,而传统的数据库技术已经不适合存储管理如此海量的数据,所以电信公司 在近几年建设中,已采用了数据仓库等技术手段,对市场、客户等做了一些 o l 心( 联机分析处理) 分析,为了从更多的历史数据中,发现客户的消费行为及规 律,希望采用数据挖掘技术,理解客户的行为,按客户行为进行分类,控制高价 值客户的流失等。 2 2 1 业务问题定义 根据业务可将应用面向电信客户流失管理的数据仓库的用户群大致分为两类 哺1 :一类是业务系统分析员,第二类是部门经理或决策人员。 业务系统分析员可以利用该系统进行业务数据的分析及报表分析,决策人员 可以把该系统的分析结果作为其决策的依据。 面向电信客户流失管理的数据仓库原型研究与应用 由于电信业的激烈竞争,很多因素如时尚、宽带、终端、业务、消费行为、 资费、方便性、行业应用等都会成为流失的诱因,而吸引新客户的费用远比留住 老客户的费用高很多。因此,减少流失率,将会给企业带来更大的收益。针对客 户流失的不同种类分别定义业务问题,进而区别处理。 电信领域的客户流失有三方面的含义:一是指客户从本运营商转网到其他运 营商,这时流失分分析的重点;二是指客户使用服务的品牌发生改变,从高价值 品牌转向低价值品牌;三是指用户每月平均消费量降低,从高价值客户转为低价 值客户。 客户流失包含两个方面川:主动流失与被动流失。 主动流失,即自愿流失,是指客户由于自身原因而与运营商解除合同的一种 行为或趋势。出现这种状况的原因有很多,如合同到期、工作地变更、服务质量、 业务竞争、专业流失、技术更改、法律法规变更等等。总之,一切不属于非自愿 流失的客户流失都被认为是自愿流失。被动流失,亦称为非自愿流失,是指客户 流失责任在于运营商的一种流失行为。出现这种情况,是因为公司出于某种原因 而决定终止向客户提供服务,通常是由于客户的资信问题。 图2 1 简单说明了客户流失的类型、比率与主要原因。对于主动流失的客户, 应该分析原因,及时制定保留计划,以防止进一步流失。对于被动流失的客户, 运营商应及早发现,并消除其影响或强迫其流失,以避免更多的损失。 主动流失的高价值的客户,是我们真正想保持的客户。需要明确定义客户流 失所涉及到的一些关键指标,并将这些指标转化为电信数据仓库建设所需要的需 求变量。 第2 章电信客户流失分析 被动流失斗破产 广欠费 ( 2 5 )k 敷:诈 2 2 2 客户流失分析的研究目标 在日常的运营过程中,电信企业收集了有关客户的大量信息,这些客户信息 包括客户的静态特征、接触渠道特征、消费行为特征等。然而,这些信息从单一 方面独立的反映了企业客户的特征,难以使企业从整体上理解客户因此,以了 解、服务客户为目标,基于独立客户信息所进行的综合分析将能够提供企业运营 所需的客户知识。电信企业所发现的客户知识将让企业清楚在产品和服务上努力 的方向,便于企业有效整合现有的资源,从计划、设计、生产、营销、销售、服 务等各个环节保证在满足客户需求下的高效率的运作。 客户流失分析主要是发现因为竞争或过失原因造成的易流失群体,特别是高 端易流失客户群体,提供客户维系的基础,最大限度地保留客户和降低企业的损 失。通过综合分析客户不同时期的基本属性、客户的帐务属性、客户的业务使用 属性,分析流失客户数据属性潜在特征,对客户流失进行分析,为市场部针对不 同类型易流失客户制定不同的客户挽留策略提供信息支持。 2 2 3 客户流失分析的研究策略 议 香 建 外韩r 隰 因 胭 嚣 鬻 辚 鬻 砷。 呵 面向电售客户流失管理的数据仓库原型研究与应用 为了更好地适应当前的竞争环境,适应不断变化的客户需求和期望,企业必 须不断地更新和创造新的客户知识并使用它。新的客户知识意味着新的机会。企 业从客户那里获取和生成越多的客户知识,企业就会在新产品开发、技术特色、 降低销售成本等方面获得越明显的竞争优势。 为企业组织内协同工作的各种人员提供的客户知识,可以区分为企业战略决 策层和战术决策层知识。战略层面包括客户细分、客户识别和客户评估三个方面 的内容,是与客户有关的战略决策,是客户发展战略的指导思想,战略决策用来 解决面向客户“做什么一等长效性的问题;战术层是系统创新的客户知识在使用 中产生的能力,包括解决客户流失、欺诈、欠费、服务、关怀等方面问题,反映 企业了战术决策的能力,战术决策解决的是面向客户“怎么做静的问题,具有时 效性。在客户分析的指导下,企业完全成为以客户知识为驱动力的互动体,客户 知识是企业运作的核心。企业根据客户分析结果,将客户知识分发给需要的职能 部门或人员,达到以客户为中心的协同工作的目的。 2 3 电信流失客户属性分析 2 3 1 流失客户分类 作为电信运营商,其盈利模式就是发展客户,并为他们提供电信服务,同时收取 服务费。但是由于种种原因,现有的客户会减少使用本企业的服务,或停止使用本 企业的服务,这就是客户流失。前者是隐性的( 减少使用) ,后者是显性的。根据实 际的经验,隐性的客户流失往往会发展成为显性的流失。并且,一个离网用户往往 是从对某电信企业提供的服务存在某方面的不满开始的。为了对客户流失进行分 析,这里首先按照通话的费用情况,对各种流失客户进行分类。 话费流失客户用户的月消费额比以往月份呈下降趋势的用户。为了研究方 便,这里将话费流失的客户再进一步分为a 、b 、c 三类,这三类用户的月话费以不 同的规律下降,其具体特征如下:a 类流失用户的月账单金额呈逐月下降的趋势,每 月都比上月少,并严格保持这种下降趋势。这种用户在逐渐减少使用某电信企业手 机进行通话,这种用户很可能正在考虑离网,对某方面不满;b 类流失用户的月账单 第2 章电信客户流失分析 金额出现突然下降的情况。这类用户显然由于某方面的原因,已经基本上不用某电 信企业手机进行通话,肯定对某电信企业提供的通讯服务存在严重不满,很可能已 经开始使用替代品;c 类流失用户的月话费额处于一个下降通道中,话费( 包括月租 和通话费) 逐月呈波浪式下降。这种用户的话费虽然也是逐月下降,但存在一个明 显的下降通道,说明用户并不是没有犹豫。这种用户即使是准备离网,也存在着挽 留的可能。 休眠用户冬眠用户休眠用户是指只有月租费而没有通话费( 或通话极少) 的用户。这种用户已经完全不用某电信企业手机进行通话,有少量用户是由于某种 原因暂时停用还可能重新启用,但是绝大多数的此类用户是不会再使用了已经真 正地流失了。冬眠用户是指既没有月租费也没有通话费的用户。由于某电信企业 规定在没有通话费3 个月后就不再收取月租费,所以,这种用户都是3 个月都没有 通话的用户。 退网用户到营业厅办理正式的退网手续并交清所欠费用的用户就叫退网用 户。由用户的使用发展规律可以推断出各种用户之间的发展规律。首先通常话费 流失的用户,会呈现出各种不同的流失规律。有的话费下降的快些,有的话费下降 的慢些,有的还会起伏不定。由于用户每次通话在公司的计费系统中都有详细的记 录,所以通过上述分类及消费情况分析,可以对各种流失客户进行识别。其次,正常 用户、话费流失用户、休眠用户以及离网用户之间存在着一定的相互关系。研究 这种相互关系,对采取措施防止正常用户变成话费流失用户或离网用户有着重要 的作用。 2 3 2 流失客户特征 1 流失用户和正常用户的客户特征分析心j i o 客户信息特征是指客户在入网 登记时所填写的用户资料所反映出的各种信息,以及由这些信息进行统计而得出 的各种特征,这些特征是反映用户基本情况的基础性资料。 性别比例特征性别比例特征是指一个用户群体中,用户资料显示为女性或者 男性的用户数量占该用户群用户总数的百分比。通过分析各类用户中的性别比例, 面向电信客户流失管理的数据仓库原型研究与应用 可以具体分析不同性别的用户在流失的过程中有什么特点。 年龄特征年龄特征指一个用户群体中用户资料所反映出的,该用户群中1 9 6 0 岁的用户分别在该用户群中所占的比例。不同年龄阶段的用户有着自身的特点, 这里通过研究不同类型用户群中的各年龄段用户的比例,然后和正常用户的各年 龄段用户的比例进行比较,从而可以得到各类用户群在年龄构成上具有的特点,然 后进一步分析出用户年龄对用户流失的影响。 在网时长特征指一个用户群体中用户资料所反映出的,该用户群中以入网的 时间长短( 以月为单位) 为特征,将用户群进行细分,然后统计各个在网时长的用户 数占该用户群的用户数的比例。每一位用户从入网开始都会有一些共同的情况,而 有些情况会和用户在网的时间长短有关。统计各类用户群中各种在网时长的用户 的比例,然后和正常用户进行比较就可以发现各类用户群中各种在网时长的用户 在本类用户中所占比例的特点,这样就可以进一步研究在网时长对于用户流失的 影响程度。 2 流失用户和正常用户的消费行为分析伍j 2 1 对于电信行业的用户,消费行 为就是指用户使用电信服务的行为。对移动通信运营商而言,用户的消费行为也就 是使用手机进行通信的过程。可以分以下几个个特征来研究各种类型的用户在消 费行为上存在的特征。为了减少单个用户分析的偶然性,所以,这里的分析都是针 对一类用户的消费行为进行分析的。 主叫比例移动用户的通话分为主叫和被叫通话,主叫比例是指用户的主叫通 话次数在总的通话次数中所占的比例。具体公式:主叫比例= 主叫次数( 主叫次数+ 被叫次数) ,这个指标可以反映用户主动使用手机通话意愿的强烈程度。把各类流 失用户的指标与正常用户的指标进行对比,就可以发现流失用户在主动使用手机 通话的愿望上与正常用户的区别。 呼转通话比例呼转通话比例是指用户一个月的通话记录中呼转通话次数占 总通话次数的百分比。通常在用户开始使用其他电信运营商的移动通信服务的初 期,为了保持通信的连续性,用户会把手机关闭,同时把新号码设为呼叫转移的号 码。通过监测用户呼叫转移比例,可以发现用户的转网动向。 第2 章电信客户流失分析 漫游通话比例漫游通话比例是指一个月内用户的各种漫游通话的次数在用 户通话总数中所占的比例。漫游通话比例比较高的用户,商务活动和私人的活动比 较频繁,这样的用户往往属于高端用户,对网络的要求比较高。同时处于漫游状态 的移动手机在通话时技术上更为复杂,发生问题的几率也比较大。所以分析各类用 户的漫游通话比例,然后与正常用户进行比较,可以评估漫游通话对于用户流失的 影响。 长途通话比例长途通话比例是指一个月中用户的长途通话次数占用户所有 通话次数的百分比。长途通话费用比本地通话要高,是电信运营商的重要收入来 源。长途通话比例较高的用户属于优质用户,该类用户对于资费优惠有特殊的要求, 应该单独研究能够拉动这些用户消费的资费套餐。 通话伙伴比例每一次通话,至少会有两个通话方。对于联通的用户,其一必然 是联通,而对方就有四种可能:中国联通,中国电信,中国移动,中国铁通。用同种移 动用户通话的次数除以总通话次数,就得到移动通话伙伴的通话份额。由于联通和 移动都对网内通话进行不同程度的优惠,所以如果某用户群的通话伙伴中国移动 用户比例较高,那么该用户群的离网倾向也可能比较高:反之,如果某用户群的通 话伙伴中国联通用户比例较高,那么该用户群的稳定性也可能比较高。 2 4 小结 电信企业在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低 客户流失率,常用的方法就是利用数据挖掘技术分析流失客户数据特征,及时挽 留即将流失的客户。数据挖掘可为大量电信业务需求提供答案,而数据挖掘需要 从海量的数据中分析提取有用的信息,这些有关于电信业务的海量数据的存储管 理就需要数据仓库技术的支持。本文在以后的章节里会结合电信客户流失管理的 需求建立相应的数据仓库模型,并尝试用o r a c l e 实现该数据仓库的雏形。 面向电信客户流失管理的数据仓库原型研究与应用 第3 章数据仓库基本原理及相关概念 随着计算机技术的迅速发展,信息处理技术也得到了长足的发展,从7 0 年代中 期的m i s 系统发展到现代的数据仓库( d a t aw a r e h o u s e ) 技术。许多厂商都在开发自 已的数据仓库解决方案,并通过各种渠道大力推广。对数据仓库最大的误解可能是 把它当作一个现成的可以直接买来使用的产品。事实上,数据仓库和数据库不同, 它不是现成的软件或者硬件产品。比较确切地说,数据仓库是一种解决方案,是对 原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析 这些信息从而作出策略性的决策。因此,在很多场合,我们也把数据仓库系统称为 决策支持系统。由于这个原因,数据仓库的用户不是类似银行柜员的终端操作人员, 而是针对各个业务部门的用户和有关决策人员。因此,数据仓库的用户比传统的 o l t p ( 联机事务处理:o n 1 i n et r a n s a c t i o np r o c e s s i n g ) 用户少得多。 3 1 数据仓库简介 3 1 1 数据仓库定义及特征 数据仓库一个比较公认的定义跪她咖:数据仓库( d a t aw a r e h o u s e ) 是一个面 向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策 面向主题主题可理解是某个具体的业务。例如:主题可以是产品的销售情况, 客户的财务状况,资产负责表,现金流量表等。面向主题说明数据仓库的数据集 中了这些主题的所有相关数据,或者说据仓库的数据是为这些主题而组织的( 当 然这之间包含数据抽取、清理、转换、装载的过程) 。面向主题说明了数据仓库 的业务特性,数据仓库关注着数据的业务关系和业务含义。相对于操作性数据, 关注数据的逻辑关系和事务处理。例如:一个客户信息,对于操作性数据最重要 的是这个客户的i d ,通过客户i d 就可以找到相关信息,而对于客户的性别、年龄 等或许根本就不影响o l t p 的运行。而对于o l a p ,客户的性别、年龄却很重要,因 为正是这些信息影响分析的结论。 第3 章数据仓库基本原理及相关概念 产品维 图3 1 主题 f i g 3 1t h e m e 墨 集成性集成则说明了数据仓库数据的多元性和一致性。为了获取某个主题全 面的数据,数据仓库可能需要获取不同事务处理系统的数据,甚至是从文件、 i n t e r n e t 获取数据。然而这些数据不是拿过来就可以用的,这些异构的数据必须 进行一致性处理( 进行数据清理) 。例如:以某产品的销售情况作为主题,产品 的原材料、制造过程等数据在制成管理系统中,客户数据在客户管理系统中,销 售额、销售成本在帐务管理系统中,而这些数据是相对独立,不一致的。集成就 是要保证这些信息的完整和一致。 相对稳定相对的对象是o l t p ,稳定指的更新的速度。说明数据仓库不是实 时的( 已经有实时数据仓库的提法,这个定义快过时了) 。也就是说数据仓库要 隔一定时间在去抽取数据,或者需要时才去抽取数据。另一层含义是指,数据被 抽取之后就不被修改,将长期保存( 完全的不做修改不大可能,很多0 l a p 都提供 回写功能) 。 反应历史变化反应历史变化说明了数据仓库数据的连续性。大部分的操作型 数据都有当前问、历史区别,他们只关心当前数据,对于历史数据将被封存、甚 至被删除。而对于数据仓库数据是连续的不存在当前数据和历史数据的区别,只 属于某个时间点。数据的变化轨迹能连续的展示。 面向电信客户流失管理的数据仓库原型研究与应用 用于支持管理决策其实数据仓库并不仅仅用于d s s ,对不同的需求有着不同的 用途。有的用数据仓库技术仅仅是为了提高数据查询性能。数据仓库的最大任务 是:为d s s 提供全面、一致、准确的数据,d s s 对这些数据进行加工处理以合理 的方式展示给相关人员,把数据变成信息或者深加工形成知识。 3 i 2 数据仓库与传统数据库的区别 简单地说,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一 般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设 计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数 据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题 的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询 的数据,同时有维的d 。 任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。 数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记 录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平 台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如, 某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多, 消费交易又多,那么该地区就有必要设立a t m 了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实 时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据 库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内 所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能 够提供有效的分析数据就达到目的了。数据仓库,是在数据库已经大量存在的情 况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的大型 数据库。 第3 章数据仓库基本原理及相关概念 传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据l l 刈; 而数据仓库侧重于数据分析工作,是按照主题存储的1 。 数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决 策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。 数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是 历史信息,并不是很多数据库处理的那种日常事务数据( 有的数据库例如电信计费 数据库甚至处理实时信息) 。因此,数据仓库中的数据是极少或根本不修改的;当 然,向数据仓库添加数据是允许的。 数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管 理系统来管理的,数据库、数据仓库相辅相成、各有千秋。 数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗 余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下 几点优点,否则是失败的数据仓库方案。 效率足够高客户要求的分析数据一般分为日、周、月、季、年等,可以看出, 日为周期的数据要求的效率最高,要求2 4 小时甚至1 2 小时内,客户能看到昨天 的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问 题,延迟1 - 3 日才能给出数据,显然不行的。 数据质量客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少 分为3 步,2 次e t l ,复杂的架构会更多层次,那么由于数据源有脏数据或者代码 不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决 策,造成损失,而不是效益。 扩展性之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3 - 5 年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运 行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数 据流有足够的缓冲,不至于数据量大很多,就运行不起来了。 面向电信客户流失管理的数据仓库原型研究与应用 3 2 数据仓库概念 3 2 1 分割 数据分割是数据仓库设计一项重要内容,是提高数据仓库性能的一项重要技 术。数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的 物理单元( 称为分片) 进行存储,以便于重构、重组和恢复,以提高创建索引和 顺序扫描的效率。 数据的分割使数据仓库的开发人员和用户具有更大的灵活性。选择适当的数据 分割的标准,一般要考虑以下几方面因素:数据量( 而非记录行数) 、数据分析处 理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数 据分割和如何分割的主要因素:数据分析处理的要求是选择数据分割标准的一个 主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到 所选择的数据分割标准应是自然的、易于实施的,同时也要考虑数据分割的标准 与粒度划分层次是适应的,最常见的是以时间进行分割:如商品每年的销售情况 可分别独立存储嘲。 3 2 2 元数据 按照传统的定义,元数据( m e t a d a t a ) 鲢观删是关于数据的数据。在数据仓库 系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到 他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可 将其按用途的不同分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据 ( b u s i n e s sm e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据 仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义, 以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 第3 章数据仓库基本原理及相关概念 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数 据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系 统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂一数据仓库中的 数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对 象名和属性名:访问数据的原则和数据的来源;系统所提供的分析方法以及公式 和报表的信息;具体包括以下信息: 企业概念模型这是业务元数据所应提供的重要的信息,它表示企业数据模型 的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数 据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 多维数据模型这是企业概念模型的重要组成部分,它告诉业务分析人员在数 据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论