(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf_第1页
(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf_第2页
(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf_第3页
(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf_第4页
(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于昆明电信的客户流失分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做 出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢 意。本声明的法律结果由本人承担。 学位论文作者签名:高套 、 日 期:时口月u 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:堑躐论文储张高苏 日 期:羔! 趟垒丝月型旦 昆明理工大学硕士论文 基于昆明电信的客户流失分析 摘要 本文以昆明电信决策支撑系统为背景,通过在昆明电信一年半时间的领域调 研和课题研发,为论文工作奠定了充分的领域知识和相关理论及工程经验,以此 为基础,使用了数据仓库、统计分析和数据挖掘的技术,对p a s 客户流失主题 进行了较为完善、深入的分析与研究,为昆明电信经营分析系统作了有益的尝试 与探索。 针对p a s 客户流失分析主题,本文选取了2 0 0 5 年3 个月的p a s 流失用户 及其流失前的历史消费信息为样本。依据昆明电信o d s 数据的实际,确定了个 体样本影响流失的基本特征向量和目标变量。样本数据的获取和预处理对于数据 挖掘的优劣是一个极其重要的基础性工作,本论文为此付出了大量的时间,通过 对大量相关技术和统计方法的研究,最终确定了采用o l a p 以及因子分析、交 互作用分析、相关性分析及多种判别分析等分析方法,实现了样本空间中特征量 的取舍、影响度、补全预测等预处理工作,给出了向量空间较好的样本集,建立 了p a s 客户流失分析主题的数据仓库,为数据挖掘提供了良好的基础。在建立 了数据挖掘“宽表”的基础之上,采用了聚类方法分别对各类特征分量进行分类, 以确定流失用户在客户价值区间、自然属性、地域区间等各种特征分量在空间上 的分布特性,以此得到流失用户的共性特征,并结合领域知识经验,获取决镶树 的生成规则,指导决策树的生成。 实践证明,本论文整体的技术路线是可行的,其中间结果对于昆明电信的流 失分析已经起到了一定的作用,所发现的知识具有一定的合理性和参考价值,对 相关领域的研究起到了一定的推动作用。 关键词;决策支撑系统、数据仓库、e t l 、统计分析、数据挖掘 电信客户流失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文 a b s t r c t t h ea r t i c l eu s es o m et e c h n o l o g ys u c ha sd a t aw a r e h o u s e ,s t a t i s t i c a la n a l y s i s , d a t am i n i n g ,e r e a n dd e e p l ya n ds o p h i s t i c a t e dr e s e a r c ht h es u b j e c to ft h ep a s c u s t o m e rm i s s i n go fk u n m i n gt e l e c o m t h ea u t h o rh a ss u r v e y e da n ds t u d i e di n k u n m i n gt e l e c o ma l m o s to n ea n dah a l fy e a r s ,a n da c c u m u l a t em u c he x p e r i e n c e , t h e o r ya n df i e l dk n o w l e d g e a i m e da tt h ep a sc u s t o m e rm i s s i n g ,t h ea r t i c l et a k e ss o m ec u s t o m e rm i s s i n g i n f o r m a t i o nw h i c ho c c u r r e di n3m o n t h so f 2 0 0 5a ss a m p l e a n da c c o r d i n gt of a c to f t h ek t m m i n gt c l e e o m so d sd a t a ,t h ea r t i c l em a d ec e r t a i no fb a s i n gc h a r a c t e r i z e d v e c t o ra n dt a r g e tv a r i a b l e ,i n d i v i d u a ls a m p l ei n f l u e n c e dm i s s i n g t h ea c q u i r i n ga n d p m p r o e e s so fs a m p l ed a t ai sav e r yi m p o r t a n tw o r kt od a t am i n i n g t h ea r t i c l eh a s s p e n dm u c ho f t i m ei nr e s e a r c ho f r e l a t i v e l yt e c h n o l o g ya n ds t a t i s t i c a lm e t h o d , a tl a s t w ed e c i d eap r o j e c tw h i c hu s eo l a lf a c t o ra n a l y s i s ,i n t e r a c t i o na n a l y s i s ,r e l a t i v i t y a n a l y s i s ,s e v e r a lj u d g m e n ta n a l y s i s t h i si n c l u d i n gp r e p r o e e s ss u c ha sa c q u i r i n g c h a r a c t e r i z e dv e c t o ro fs a m p l es p a c e ,i n f l u e n c e ,f i x i n ga n df o r e c a s t i n g t h e n ,t h e a r t i c l eo f f e r sag o o ds a m p l es e t , a n db u i l d sad a t aw a r e h o u s eb a s e do nt h es u b j e c to f p a sc u s t o m e rm i s s i n g b a s e do nb u i l da w i d et a b l e ”,w eu s ec l u s t e r i n gm e t h o dt o c l a s s i f yt h ec h a r a c t e r i z e dv e c t o r , d e t e r m i n et h ed i s t r i b u t ec h a r a c t e r i s t i co fm a n y c h a r a c t e rw e i g h ts u c ha sc u s t o m sv a l u ez o n e ,n a t u r a la t t r i b u t e ,t e r r az o n e a n ds u i t i u pm u c hc o n l m o m l e s s ,a n dc o m b i n ef i e l de x p e r i e n c e ,o b t a i nd e c i s i o nt r e e sc r e a t e c o n d i t i o n ,a n dg i l i d et h eb u i l d i n go f d e c i s i o nt r e e s t h ep r a c t i c ep r o v e d ,t h et e c h n o l o g yo f t h ea r t i c l eu s e di sf e a s i b l e ,t h em i dr e s c l t t a k es o m ee f f e c tt om i s s i n ga n a l y s i so fk u m n i n gt e l e c o m ,t h ek n o w l e d g ew e d i s c o v e r e dh a ss o m er a t i o n a l i t ya n dr e f e r e n c ev a l u e k e y w o r d s :d s s ,d a t a w a r e h o u s e ,e t l , s t a t i s t i c a l a n a l y s i s ,d a t am i n i n g 电信客户流失的分析与研究作者:高敏导师:胡建华王清心 - 2 - 昆明理工大学硕士论文 第一章绪论 本章介绍了电信行业的发展背景、信息系统现状;同时,简要地说明了论文 的项目研究背景、论文的研究内容及研究意义。 1 1 电信行业的发展背景 中国电信行业的体制变革 在计划体制下,中国电信有两个基本特征:一是高度集中,企业的经营管理 权属于中央政府;二是高度垄断,价格的确定和市场资源的分配完全由垄断者支 配 “。随着电信行业的政企分开,移动、联通等竞争对手的出现,以及已经完成 的对中国电信的垂直性肢解,中国电信独一无二的垄断地位受到了威胁。 电信行业国内市场的竞争 来自信息产业部的消息:电信市场竞争格局发生变化,主导运营企业的市场 占有率下降,新兴电信企业的市场份额逐步上升。我国各大基础电信运营企业 2 0 0 0 年所占业务收入的市场份额:中国电信为5 2 3 、中国移动为3 9 1 、中国 联通为1 0 6 、其他( 如中国卫星和铁通公司) 约占0 2 5 ;2 0 0 1 年在电信业务 收入的市场占有率,中国电信为5 0 7 ,中国移动为3 7 7 ,中国联通为1 0 ,6 , 其他约占1 ;到2 0 0 3 年6 月底,中国电信为3 1 1 、中国网通为1 6 6 、中国 移动为3 4 、中国联通为1 3 4 、中国卫星和铁通公司为1 5 1 2 1 3 。 外资电信在中国状况 随着中国加入wto ,信息产业部部长吴基传已签署命令,宣布在1 9 9 3 年 9 月1 1 日发布的从事放开经营电信业务审批管理暂行办法和1 9 9 5 年1 1 月 1 0 日发布的放开经营的电信业务市场管理暂行规定t l2 0 0 1 年1 2 月1 1 日即 中国加入wto 之日起废止。之后,中国将严格按照服务贸易承诺减让有关电信 方面的内容,逐步对外资开放中国电信市场1 4 】。 许多有实力的外资电信公司已陆续在我国设立了办事机构,正积极地在我国 寻找市场机会【5 1 ,并已经初步开展一些行动: 2 0 0 1 年a t & t 和上海电信合资成立上海信天,上海信天于2 0 0 1 年3 月获 得营运牌照。 电信客户滤失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文 夺 6 夺 夺 2 0 0 2 年英国沃达丰买下中国移动香港上市公司3 2 7 的股份,并称要在 5 年内力争控股2 0 。 2 0 0 3 年s k 电讯携手中国联通成立联通时科。 2 0 0 4 年法国电信与中国电信的北京研发中心浮出水面。 2 0 0 4 年6 月3 0 日深圳“深大电话有限公司”宣布成立并入深圳电信。 新加坡电信在北京、上海和广州三地设立办事处。 1 2 电信行业的信息系统现状 国内电信行业的信息系统 电信行业内早有大量成熟的数据库应用系统,现有的信息系统主要包括五个 部分:“九七”营业受理系统、交换传输及网管系统、计费账务系统、客户服 务系统和财务统计系统。 从电信业现有系统所涵盖的数据流程来看,要查询一次历史数据时,费时费 力,更不用说把不同业务部门的数据来关联比较分析了,同时也会遇到像数据类 型不匹配、数据定义不同、数据不一致、数据冗余等问题【6 】。 从业务流程来看,一般电信运营商缺乏对客户需求的科学分析,在发展新业 务时可能会冒很大的风险。 从客户关系管理的观念来看,电信公司的首要任务是如何争取客户并且提高 客户的忠诚度。信息系统必须以客户为中心,了解不同客户的不同消费模式,针 对不同的用户采取不同的策略以达到个性化服务的目标。 电信行业信息系统的发展趋势 近些年,电信市场内的竞争日剧,电信运营企业有电信、联通、移动、网通、 吉通、铁通等。在各个业务领域内已初步形成多元化的竞争局面,同时,随着中 国加入w t o ,国外的电信公司也会进入中国市场。在这样的形势下,作为行业老 大的中国电信,正确及时的决策将是企业生存与发展最重要的环节,而要作好决 策工作,就要利用最近几年才快速发展起来的数据仓库技术以及基于此技术的商 业智能,深层次、多角度地挖掘,分析当前和历史的生产业务数据、客户信息、 竞争对手的信息等相关环境的多种数据,发现其内在的规律,从而得到宝贵的决 策支持信息,才能快速、准确地分析商业问题,并且对企业未来的生产计划和长 电信客户流失的分析与研究作者:高敏导师:胡建华壬清心 昆明理工大学硕士论文 远规划提供理论指导。唯有这样,中国电信才能在激烈的竞争中,高瞻远瞩,永 不出局【7 】。 目前,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资回报, 已经成为大多数成功企业的共识 8 1 1 9 1o 】【1 1 舭】。作为当今发展最快,吸收新技术最 快的电信企业,原始数据正在快速地积累和膨胀,如何保存并利用好这些珍贵的 资源,将其中蕴藏的信息转化为生产力,将成为业内人士所关注的又一个技术熟 点。因此数据仓库、数据分析和数据挖掘的技术成为电信行业信息系统的发展趋 势。 国外电信行业的信息系统 目前,世界上已有多个国家的电信公司正在利用数据仓库技术提升利润空 间。 比利时国家电信经纪入使用数据仓库建立的顾客信息系统,其中数据仓库拥 有超过1 万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能, 能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前 终止这种欺骗行为。 此外,英国电信公司采用数据仓库应用系统保证了关键性业务的处理【1 2 】。 n c r 联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能 准确识别豁免税购买,一年能节省1 0 0 万美元营业税;通过在部分铁轨上提速, 每月节省3 0 万美元。应用系统在可支付帐目、设备维护、市场营销以及汽车和 火车头调动等方面提高了操作效率,改进了服务质量【1 2 l 。 1 3 论文的项目研究背景、研究内容及意义 论文的项目研究背景 本文是基于中国电信昆明分公司经营分析支撵系统项目为背景来展开的。 昆明电信经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持 续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使 庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解 市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分 析结果及时调整政策而开发的分析系统, 电信客户流失韵分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文 目前该项目首期已结束,2 0 0 4 年的帐务数据已导入、核对完毕,数据仓库已 初步建立,为后续工作的开展奠定了基础。 论文的研究内容 本文针对昆明电信p a s 流失客户,从时间、地域、产品类型、在网时长、用 户状态、城乡标识、行业、年龄等角度进行分析,通过构建数据仓库模型得到数 据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于p a s 客户流失的 决策树,找出p a s 客户流失的特征和规律,来辅助昆明电信制定营销政策。 论文的研究意义 经营分析支撑系统的建设成为昆明电信分公司经营分析的有力辅助工具,从 海量客户数据中细分客户、进行深入分析,进行针对性的后续营销,为公司的经 营决策寻找最佳路径提供有力支撑,有利于提高整体经营管理水平。 在昆明电信的业务中,p a s p h s ( 小灵通) 占有重要的位置【3 】。如下图i _ i 所示: 图i _ i2 0 0 3 年l 1 2 月电信收入比例( 来自信息产业部) 根据调查机构的数据显示,“用户保持率”增加5 ,就有望为运营商带来 8 5 的利润增长,发展一位新客户的成本是挽留一个老客户的4 倍;客户忠诚度 下降5 ,则企业利润下降2 5 :向新客户推销产品的成功率是1 5 ,然而,向老 客户推销产品的成功率是5 0 f 3 】【引。这些数据表明:如何防范老客户流失必须要 引起高度重视。因此进行p a s 用户的客户流失分析是极为重要的。 本论文是为5 1 7 电信日制订p a s 营销政策提供辅助服务的。 电债客户流失的分析与研究作者;高敏导师t 胡建华王溥心 昆明理工大学碗士论文 键。 第二章研究的主要内容及拟采取的主要技术路线 本章详细介绍了论文的主要内容、拟采用的技术路线和涉及到的主要技术关 2 1 论文的主要内容 本文是基于中国电信昆明分公司经营分析支撑系统项目为背景来展开的是 为昆明电信制定“5 1 7 电信日”活动的p s 营销政簧提供辅助服务的。 针对p a s 客户流失分析主题,将从昆明电信原有数据库系统中抽取与p a s 有关的数据,经过抽取、清洗、转换等过程后进入数据仓库,从行业、用户状态、 地域、费率类型、营销统计属性、城市标识、v i p 客户标识等方面建立p a s 客户 流失主题立方体,运用o l a p 分析p a $ 客户流失的基本特征,同时进行数据挖 掘的样本数据的采集,建立数据挖掘模型得到p a s 客户流失的特征和规律,其 体系结构如图21 所示: 图21 队s 客户流失系统体系结构 在p a s 客户流失分析中,存储p a s 信息的数据表较多,关系比较复杂,如 表a c c t 存储了p a s 客户的帐务信息,表s e r v 存储了p a s 客户的资料信息等, 其数据模型如图2 _ 2 所示: 其数据模型如图2 _ 2 所示: 电信客户流失的分析与研究作者;高域导师:胡建华王清心 一一一一一一一 昆明理工大学硕士论文 图2 7p a s 客户流失数据模型 2 2 拟采用的技术路线 针对p a s 客户流失分析主题,进行数据仓库模型的设计,其中概念模型设 计阶段要确定与p a s 客户流失分析主题有关的因素、需要描述的问题( 如:p a s 流失用户数和用户流失前的消费额) ;逻辑模型设计阶段拟采用实体关系建模和 维度建模方法分别建立p a s 客户流失分析的实体关系模型和维度模型;物理模 型设计阶段确定建立p a s 客户流失分析时采用的存储结构、索引策略、存储策 略( 使用表合并和表分割) ,运用缓冲池的技术进行存储分配优化。 基于p a s 客户流失分析主题建立数据仓库模型。根据设计的内容,建立时 间维、流失时间维、部门维、产品维、v i p 客户维、统计属性维、属地维、地处 维、费率类型维、使用类型维、在网时长区间维、客户价值区间维等维度,同时 构建p a s 客户流失分析主题事实数据表,从而得到p a s 客户流失分析的数据仓 库模型。 数据的采集与清理需要补全年龄数据,拟采用统计分析中的因子方差分析和 电信客户流失的分析与研究作者:高敏导师:胡建华王清心 1 0 昆明理工大学硕士论文 交互作用分析排除与年龄无关的属性型的因素,确定与年龄有关的因素,同时利 用相关性分析确定数值型数据是否与年龄有关,并利用这些因素运用判别分析方 法对未知的年龄进行预测。 在构造补全年龄需要用的数据( 如:月平均消费、月平均话务量) 时,需要 找出客户流失前1 2 个月每个月的消费和话务量,然后找出产生费用和话务量的 月份的个数( 因为有中间新增用户和停机保号用户) 。本文将利用o l a p 来提取 这些数据,简化运算过程。当数据补全后重新生成数据仓库模型,因此,数据仓 库是一个不断反复和不断完善的过程。 运用数据仓库中的数据,构建数据挖掘宽表,拟采用o l a p 对宽表的样本 数据进行采集,并对目标维变量进行检验,从而确定目标维变量;用聚类算法构 造出p a s 客户流失分析主题的挖掘模型,由于聚类算法具有无监督性,使用因 子统计分析方法找到相关特征分量,对聚类模型改进,进而完成p a s 流失客户 的分类,找到客户流失的共性特征;把与目标维变量有关的特征向量分别与目标 维变量结合构建聚类模型,得到各特征向量对流失特征的影响频度;用决策树算 法构造出关于p a s 流失客户的决策树,为客户流失的预测做准备,由于决策树 算法的不稳定性,用聚类的结果以及电信领域知识来指导决策树的节点和节点 值,进而指导决策树的生成,最终得到较为合理的客户流失的规律和特征。 2 3 主要的技术关键 统计分析 在数据采集和清理过程中,e t l 是一个相当复杂的过程,但因为有经营分析 系统的项目背景,在本文开始进行时,e t l 已不再是难点,而数据的补全是本文 进行过程中的一个技术关键。本论文将为此付出大量的时间,通过对大量相关技 术和统计方法的研究,最终确定拟采用o l a p 以及因子分析、交互作用分析、 相关性分析及多种判别分析等分析方法,来实现样本空间中特征量的取舍、影响 度、补全预测等预处理工作。 数据仓库、o l a p 无论是在数据采集和清理中,还是在数据挖掘的样本数据集的构造过程中, 数据仓库和o l a p 分析都将贯穿始终,起到重要的作用。建立数据仓库模型和 电信客户漉失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文 进行o l a p 分析,不仅要对系统有全面的了解,而且要对进行分析的内容即p a s 客户流失主题的业务熟悉,才能合理完成数据仓库模型设计的各个阶段,得到与 p a s 客户流失有关的特征分量,恰当利用o l a p 的分析功能,得到向量空间较好 的样本集。 数据挖掘 在建立数据挖掘“宽表”的基础之上,拟采用聚类方法对特征分量进行分类, 鉴于聚类算法的无监督性,拟结合因子分析方法进行聚类,得到流失客户的共性 特征;把各个特征分量与目标维变量结合进行聚类,得到各特征分量对客户流失 的影响频度;拟利用聚类的中间结果共性特征和影响频度分别指导决策树的节点 和节点值,并结合领域知识和经验,获取决策树的生成规则,指导决策树的生成。 因为数据挖掘是比较先进的技术,本论文将花费大量的精力寻找应用此技术的路 线,合理地使用聚类的结果结合领域知识对决策树的生成进行指导,得到合理的 流失特征和规律。 电信客户斑失构分析与研究作者t 高敏导师:胡建华王清心 昆明理工大学硕士论文 第三章p a $ 客户流失分析主题数据仓库模型 本章针对p a s 客户流失分析主题介绍了构建数据仓库模型过程,在逻辑设 计阶段描述了维度、事实表的构建,给出了p a s 流失分析的实体关系模型和维 度模型。 数据模型的构造无疑是数据仓库的建设过程中最关键的一步饥。数据模型的 影响是深远的。它决定了数据仓库所能够进行的分析的类型、分析的细致程度、 分析的效率以及响应时间。不同的模型会导致不同的存储空间以及数据更新策 略,并直接影响着数据仓库项目的投资【l 4 】【l5 1 。可以说,模型设计是系统的基础 和成败的关键,数据仓库模型的好坏,决定了数据仓库项目的成功与否。 数据仓库模型的设计大体需要经过以下过程: 概念模型设计 逻辑模型设计 物理模型设计 3 1p a s 客户流失分析主题的概念模型设计 数据仓库是面向决策分析的数据库,无法在数据仓库设计的最初就得到详细 而明确的需求,但是一些基本的方向性的需求还是需要解决的。 在本系统中,需要解决的问题是小灵通( p a s p h s ) 的客户流失问题。由“图 21p a s 客户流失系统体系结构”可知,与p a s 的客户流失相关因素的数据可来 源于“帐务中心”、“9 7 系统”、“联创系统”、“1 0 0 0 0 号”、“网络中心”、“”智能 网、“非结构化数据”。但由于客观原因,系统的样本选择受到了限制。本系统的 数据基本上只来自于“帐务中心”,而且由于项目中现有的硬件资源有限,p a s 详单的数据量太大,无法放入系统中。 主题域是围绕小灵通的客户流失来进行的,在此,从两个方面来对小灵通的 客户流失进行描述:流失用户数和用户流失前的费用。 对于流失用户数和费用的主题域,可以根据流失用户的属性来分别确定不同 地域、不同产品类型、不同部门、不同费率类型等方面的流失用户数及流失前的 费用,从而找出它们之间的关系,进而可以得到小灵通流失客户的特征。 电信客户漉失的分析与研兜作者t 高敏导师t 胡建华王清心 昆明理工大学硬士论文 3 2p a s 客户流失分析主题的逻辑模型设计 逻辑建摸是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需 求,同时对系统的物理实施有着重要的指导作用【7 l 【9 】【加1 【1 4 】【15 1 。目前较常用的两种 建模方法:实体关系建模( e n t i t y r e l a t i o n s h i pm o d e l i n g ) 和维建模 ( d i m e n s i o nm o d e l i n g ) 。下面将针对昆明电信p a s 客户流失分析分剐给出实体 关系模型和维度模型。 3 2 1 实体关系建模 实体关系建模通过两个概念( “实体”和“关系”) 构造特定的数据模型7 1 4 】【1 5 】。 实体关系模型是一种抽象的工具,能够简化企业中复杂的数据关系,并把它用规 范的方式表示出来,使其易于理解。 在本系统中,需要对p a s 流失客户的数据进行分析,从现有数据库数据中选 取以下实体模型3 :设备、资源、帐户、客户、出帐一收入等。 设备( s e r v ) :其属性包含计费帐务系统中的用户资料信息; 资源( s e r vp r o d u c t ) :其属性包含计费帐务系统中的用户占用资源信息; 帐户( a c c t ) :其属性包含计费帐务系统中的帐务信息; 客户( c u s t ) :其属性包含计赞帐务系统中的客户信息表信息; 出帐一收入( a c ef e e ) :其属性包含计费帐务系统中的出帐及收入信息。 根据以上各实体及其属性可以褥出“流失客户”实体,使其属性包含流失客 户的各种特征信息。 现建立实体关系模型如图3 _ l 所示: 电信客户流失豹分析与研究作者:高敏导师:胡建华王漓心 昆明理工大学硕士论文 3 2 2 维度建模 图3 - 1 流失主题部分实体关系模型 维度建模用于数据仓库的设计中。其目的是组织数据以提高旨在分析和汇总 大量数据的查询的效掣7 l 【1 4 】【1 5 】【1 6 】。星型结构或雪花型结构是数据仓库的典型逻 辑结构。而两种结构相比较,星型结构比雪花型结构包含的用于信息检索的连接 少,更容易管理,所以在本系统中,着重采用了星型结构。 星型模式是一种多维的数据关系,它由一个事实表( f a c tt a b l e ) 和一组维表 ( 1 ) i m e n si o nt a b l e ) 组成【1 6 】。每个维表都有一个维作为主键。所有这些维则 组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。 维度的构建 在p a s 客户流失分析中,使用常规维度的星型架构和父子维度。下面举例 说明不同类型维度的构建。 电信客户流失的分析与研究作者:高敏导师:胡建华王清心 1 5 昆明理工大学硕士论文 当维表中的数据字段为时间类型时,可构建时间维度。如系统中的时间维和 流失时间维均建为时间维度并在层次结构上使用了“年、月”的分层。 采用星型架构的标准维度方式可以构建普通或有层次的维度,如在p a s 客 户流失分析中,维度“v i p 客户”即为无层次的维度,而维度“使用类型”则为 有层次的维度,它首先把使用类型分为“计费、免费、自用”,而免费又可按合 同号分为“合同号1 0 0 至5 0 0 、合同号小于5 0 0 ”。 在p a s 客户流失分析中,如维度“部门”是采用了父子维度的创建方式的, 字段“a r e a _ i d ”即为成员键列,s u p 为父键列,标识a r e a j d 的父代,从而可 以构建多重层次关系。 表3 _ 1 详细描述了该分析主题的维度设计及构建。 模型名称:p a s 客户流失分析 模块功能:用于p a s 客户流失消费构成分析 对应的事实表if a c t p a s l s f e e 度量:收入 数据粒度:在事实表中记录流失用户相关信息及其在流失前每月的费用信息 相关的维度: ( 1 ) 时间维( 层次:年、月) ( 2 ) 流失时间维( 层次;年、月) ( 3 ) 部门维( 3 层) ,层次关系如下: ,觋业大客户罄 l 现业商业客户部 j 公话业务部 弋增值业务部 l f - - 邦县台计。安宁局、呈霞局、宜良曷、石林禺、晋宁局、嵩明禺、 l 全局合计l富民局、功禄局、东川局、寻甸局、官渡禺、西山局 1 l 现业合计;营销中心、东区局、南区局、西区局、北区局 ( 4 ) 产品维( p a s 专号、虚拟p a s ) ( 5 ) v i p 客户维( v i p 用户、非v i p 用户) ( 6 ) 营销属性维 电信客户流失的分析与研究作者:高敏导师r 胡建华王清心 表3 _ 1p a s 客户流失分析维度设计说明书 事实表的构建 每个数据仓库或数据集市都包括一个或多个事实数据表。星型架构或雪花型 架构的中心是一个事实数据表,用以捕获衡量单位业务运作的数据。事实数据表 不应包含描述性信息,也不应包含数字度量字段以及使事实与维度表中的对应项 相关的索引字段之外的任何数据。p a s 客户流失分析主题中事实表构建如表3 j 所示: 事实表( f a c t p a s l s f e e ) 原表 字段名数据类型备寝名字段名数据类型 注 s e r vi dv a r c h a r ( 1 0 )a c c f e 吼s _ p a ss e r vi d n u m e r i c ( 9 ) a c c ti d v a r c h a r ( 1 0 ) a c cf e el sp a s惦c ti d n u m e r i c ( 9 ) 伽s ti d v a r e h a r ( 1 0 )a c c ,f e e k s p a s c u s ti d t u r m e r i c ( 9 ) s e r v j y p e - i dv a r c h a r ( 1 0 ) 维s e r n j j 娶j k s s e r v t y p e _ i dv a r c h a r ( 6 ) j l d a t e s m a l l d a t e t i m e维 a c c j e e 土s j k sj f _ d a t e s m a l l d a t e t i ( 4 )m e ( 4 ) l s j f _ d a t e s m a l l d a t e t i m e维 s e r v j 3 土s _ p a sl s j f _ d a t e s m a l l d a t e t i “)m e ( 4 ) n l q jc h a r ( 4 ) 维 s e r v j j 、s j k sn l 叮c h a r ( 4 ) t r a d et y p ei dv a r c h a r ( 1 0 )维 s e r v _ t j l s p a st r a d e t y p e _ i d v a r c h a r ( 1 0 ) 电信客户流失的分析与研究作者:高敏导师:胡建华王清心 昆明理工大学硬士论文 t r a i f f _ g r o u p _ i dv a r c h a r ( 5 ) 维s 嘣j j 上s _ m a s t r a i f f _ 6 r o i p i d a r e i dc h a r ( 4 )维 艇烈j 1 上s _ p a s a r e ai dv a r c h a r ( 1 0 ) i s c i t yc h a r ( 4 )维 鹱黜j 3 j 玉j k s i s c i t y c h a r ( 4 ) v i pc h a r ( 4 )维s e r 、j 3 j s j k s v l p c h a r ( 4 ) p r e _ i t e mt y p e i d v a r c h a r ( 5 )维s e r v _ t j _ l sp a s p r e i t e g t y p e v a r c h a r ( 5 ) i d 蹦 y a r c h a r ( 1 0 ) 维 髓删j j 工s _ p a s a i l e a _ i d 、赋值v a r c h a r ( 1 0 ) c u s t j y p e i d - y x c h a r ( 4 )维 疑删j 3 上s p a sd e v d e p t _ i d ( 左 c h a r ( 4 ) 一位) c u s t t y p l i d - t j c h a r ( 4 ) 维 s e r v 3 1 磷i j s d e v d e p ti d ( 右c h a r ( 4 ) 一位) z 1 s cc h a r ( 4 ) s e r v _ t j _ l sp a s z w s c c h a r ( 4 ) z w s c q jc h a r ( 4 ) 维 鼬勰j 】j s j 嗡 z w s c q j c h a r ( 4 ) a c cn b rv a r c h a r ( i s ) a c c f e e l s 。p a s a c c r v a r c h a r ( 1 0 ) v ld e c i m a l ( 9 )度a c c _ f e e _ l s _ p a s v a l n u m e r i c ( 9 ) 量 值 表32p a s 流失客户分析主题事实表数据转换规则 注:表“a c c _ f e e - l s _ p a s ”和表“s e r v _ t j _ l s _ p a s ”通过字段“s e r v _ i d ” 相关联,另外,表“a c c f e e l s p a s ”和表“s e r v 5 j - l s p a s ”都不是原始数据 库中的表,而是经过很多处理得到的。 p a s 客户流失分析的数据仓库模型 根据已经构建出的维度和事实表,建立出来的p a s 客户流失分析的数据仓库 如图3 所示: 电信客户流失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文 图3 _ 2p a s 客户流失分析的数据仓库模型 3 3p a s 客户流失分析主题的物理模型设计 在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数 据存储策略、数据的存储分配优化等问题。 根据需要,在p a s 客户流失分析中对数据的存储结构选用r a i d 5 ,数据的 索引策略使用微软的s q ls e r v e r 提供的两种索引:聚集索引( c l u s t e r e di n d e x , 也称聚类索引、簇集索引) 和非聚集索引( n o n e l u s t e r e x i i n d e x ,也称非聚类索引、 非簇集索引) 相结合的方式,如在表a c c f e e l s p a s 中对字段j f _ d a t e 进 行聚合索引,以增加查询的速度。而在表s e r v t j l s p a s 中对主键s e r v i d 建立聚集索引,同时对字段t a r i f f _ g r o u p _ i d 、u s e r s t a t e 、a r e a _ i d 、 d e v d e p t i d 、i s c i t y 、p r e _ i t e m _ t y p e _ i d 建立非聚集索引。 在系统中,经常需要为电信业务人员提取数据,对于重要程度高、经常存取 并对响应时间要求高的数据,采取的存储方式是把它整合进在线数据库中,以便 于以后的数据提取;而对于使用频率低或对存取响应时间要求低的数据,不放入 电倌霉户流失的分析与研究作者t 高敏导师:胡建华王清心 昆明理工大学硕士论文 在线数据库中。 使用合理的存储策略可以提高系统的i o 效率,在本系统中,采用以下的存 储优化方法: 表合并 表合并是按照常用访问序列确定表的物理存放位置的方法。如:经常需要统 计用户从去年到今年每个月份的消费额,则需要从表a c cf e e2 0 0 4 0 1 、 a c c _ f e e _ 2 0 0 4 0 2 a c c f e e 一2 0 0 5 0 3 中分别求得,需要做1 5 次操作,相当 复杂,由于表的数据结构相同可以把这些表合并成一个表a c cf e e ,再进行 类似操作时就相当方便了。另外如话务量的表也采用相同的处理方法:把表 a c c _ s t a t2 0 0 4 0 1 、a c c _ s t a t _ 2 0 0 4 0 2 a c c _ s t a t _ 2 0 0 5 0 3 合并成一个表 a c c _ s t a t 。 表分割 为了便于数据的访问,可以在逻辑设计中对大表进行分割。需要访问大表中 某类数据时,只需访问分割后的对应小表从而提高访问效率。在本系统中,表 e q u i p _ a c c 包含了计费帐务系统中从2 0 0 2 年至现在的出帐及收入信息,此类 信息在每个月大约有6 0 0 万条记录,所以当需要在这样庞大的一个表( 约2 3 4 亿条记录) 中查询信息时,将是非常痛苦的。这时采用表分割的方法,使得一年 的数据放入一个表中,即把表分割成表:e q u i p _ a c c _ _ 2 0 0 2 、e q u i p _ a c c2 0 0 3 、 e q u i p _ a c c _ 2 0 0 4 和表e q u i p - a c c _ 2 0 0 5 t 另外,数据的存储分配优化采用s q ls e r v e r2 0 0 0 提供的缓冲池技术。 电信客户镳失舳分析与研究作者t 高敏导师t 胡建华王清心 昆明理工大学硕士论文 第四章数据的采集和清理 本章介绍了数据的采集及清理过程中e t l 模型的建立,举例给出了数据抽 取、转换和加载过程中包的模型及代码;以年龄数据为例,详细描述了数据清洗 中需要做的清除噪音数据及补全数据的过程,并介绍了数据噪音清除和补全时采 用的统计分析算法。 4 1e t l 模型 e t l 即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系 统向数据仓库加载的主要过程。e t l 过程关系到数据的质量,是数据仓库应用的 基石。根据目前建设数据仓库的经验,这个过程一般占到这个过程时间的5 0 以上。 本系统中采用s q ls e r e r2 0 0 0 的d t s 工具完成e t l 过程,如:p a s 流失 客户基本信息的转换包及转换代码如下所示: 包s e r vt jp a s 图41 包s e r v t j p a s 转换代码: s e l e c to n l i n e t e s t a c c f e ei n f o _ 2 0 0 4 0 5 a c c t _ i d , o n l i n e t e s t a c cf e ei n f o _ 2 0 0 4 0 5 ,a c c t j d , o n l i n e t e s t a c c f e ei n f o _ 2 0 0 4 0 5 c u s t _ i d , 电信窖声流失的分析与研究作者,高敏导师t 胡建华王清心 昆明理工大学硕士论文 o n l i n e t e s t a c c f e ei n f o _ 2 0 0 4 0 5 a c c _ n b r , o n l i n e t e s t a c c f e ei n f o _ 2 0 0 4 0 5 s e r v _ t y p ei d , o n l l n e t e s t s e r v t a r i f f _ o r o u pi d ,o n l l n e t e s t s e r v b i l l i n g _ t y p e _ i d , o n l i n e t e s t s e r v i n s t a m e ,o n l i n e t e s t s e r v w o r k _ i d , o n l l n e t e s t a c cf e e1 n f o _ 2 0 0 4 0 5 a c c t _ w o r k _ i d , o n l i n e t e s t c u s 一r e a _ 2 0 0 4 0 5 a r e a _ i d , o n l i n e t e s t c u s t _ a r e a _ 2 0 0 4 0 5 a r e a i d ,2 0 0 4 5 - 2 6 a sj f _ t i m e f r o mo n l i n e t e s t a c cf e ei n f o _ 2 0 0 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论