(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf_第1页
(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf_第2页
(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf_第3页
(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf_第4页
(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)联通经营分析系统的构建与套餐分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着电信市场的开放,电信运营商之间的竞争将越来越激烈,利润的降低使 得各运营商必须从粗放的经营转变到集约的经营。为了适应日趋激烈的市场竞争 环境,发挥自身的综合优势,实现灵活多变的市场营销策略,为客户提供更具有 针对性的满意服务,同时为了最大限度地合理配置和优化自己的资源,降低运营 成本,增强核心竞争力,需要尽快建立一个包含数据仓库和数据分析技术的一套 完整的面向决策分析的经营分析系统。 本文以某市联合通信公司的经营分析系统为背景,从数据仓库和o l a p 这两 个方面论述了数据仓库系统的构建,着重阐述了该系统中e t l 部分的设计和实 现。该系统自实际运行以来,能够帮助分析人员从大量庞杂的数据源中获得及时 准确的业务信息,效果稳定,对类似系统的设计也有很好的借鉴作用。在针对通 信行业套餐业务问题,本文采用聚类分析和关联分析等技术,构建套餐分析模型。 首先对聚类分析和关联分析技术进行了深入的分析,接着提出了一种基于a p r i o r i 算法和k m e a n s 算法的套餐分析模型,详细说明了模型的建立流程。针对用户数 据量巨大所造成的分析速度较慢的问题,本文在套餐分析模型的构造过程中,使 用改进的a p r i o r i 算法和k - m e a n s 算法,改善了模型性能。最后,文章对获得的 模型做了测试,结果表明这种基于聚类分析和关联分析的套餐分析模型达到了较 高的精确度。通过该模型获得的关联规则能够准确地反映用户的套餐消费习惯, 对新套餐的设计和发布起到了辅助决策作用,达n - f 商业使用的要求。 关键词:经营分析系统;数据仓库;联机分析处理;聚类分析;关联分析; a p r i o r i 算法;k - m e a n s 算法 a bs t r a c t w i t ht h eo p e n i n go ft h em a r k e to ft e l e c o m m u n i c a t i o n ,t h ec o m p e t i t i o nb e t w e e n t h et e l e c o m m u n i c a t i o no p e r a t o r sw i l lb ef i e r c e ra n df i e r c e r ,t h er e d u c i n go ft h ep r o f i t m a k e se v e r yo p e r a t o rc h a n g ef r o me x t e n s i v em a n a g e m e n tt oi n t e n s i v em a n a g e m e n t , i no r d e rt om e e tt h ef i e r c ec o m p e t i t i v ee n v i r o n m e n to fm a r k e td a yb yd a y ,g i v ep l a yt o o n e so w nc o m p r e h e n s i v ea d v a n t a g e ,r e a l i z et h ef l e x i b l ea n dc h a n g e a b l em a r k e t i n g t a c t i c s ,o f f e rs a t i s f a c t i o nw i t hm o r ep e r t i n e n c es e r v i c ef o rc u s t o m e r ;d i s p o s ea n do p - t i m i z eo n e so w nr e s o u r c e s r a t i o n a l l yt ot h em a x i m u me x t e n ta tt h es a m et i m e ,r e d u c e t h eo p e r a t i o nc o s t ,s t r e n g t h e nk e yc o m p e t i t i v e n e s s ,n e e d ,s e tu po n ei n c l u d ed a t u m w a r e h o u s ea n dd a t aa n a l y s i so n ef a c i n gb u s i n e s sa n a l y s i ss y s t e mt h a td e c i s i o na n a - l y z e si n t a c to ft e c h n o l o g ya ss o o na sp o s s i b l e w i t hb u s i n e s sa n a l y s i ss y s t e m ( b a s ) o ft h et i a n j i nu n i o nc o m m u n i c a t i o n c o m p a n ya st h er e s e a r c hb a c k g r o u n d ,a n de l a b o r a t e st h eb u i l d i n go fd a t aw a r e h o u s e s y s t e mf r o md a t aw a r e h o u s ea n do l a pt h et w op a r t ,e s p e c i a l l yt o l dt h ed e s i g na n d o p e r a t i o np r o c e s so fe t lp a r t t h es y s t e mh e l p st h ea n a l y s t st og e tb u s i n e s si n f o r m a t i o ne f f e c t i v e l ya n dt i m e l yf r o mh u g ed a t as o u r c e i th a ss t e a d i l ye f f e c ta f t e rb e i n g u s e d ,t h i si sag o o dm o d e lf o rt h ed e s i g no fl i k e l ys y s t e m a n da c c o r d i n gt op a c k a g e s e r v i c ep r o b l e mo fu n i o nc o m m u n i c a t i o nv o c a t i o n ,t h i st h e s i sa d o p t sc l u s t e r i n g a n a l y s i sa n da s s o c i a t i o na n a l y s i st e c h n i q u et os e tu pp a c k a g ea n a l y s i sm o d e l f i r s t l y , t h ea r t i c l ed e e p l ya n a l y z e st h ec l u s t e r i n ga n a l y s i sa n da s s o c i a t i o na n a l y s i st e c h n i q u e , a f t e r w a r d st h ea r t i c l eb r i n g sf o r w a r dap a c k a g ea n a l y s i sm o d e lb a s e do na p r i o r ia l g o - f i t h ma n dk - m e a n sa l g o r i t h m ,a n dn a r r a t e st h ep r o c e s so fm o d e le s t a b l i s hi nd e t a i l a i m i n ga ts l o ws p e e dp r o b l e mi np r o c e s s i n gb e c a u s eo fl a r g ed a t as e t ,t h i sp a p e ri m p r o v e so nt h ea p r i o r ia n d k - m e a n sa l g o r i t h m ,i n c r e a s e sm o d e lc a p a b i l i t y f i n a l l y , t h e a r t i c l eg i v e st h et e s tf o rt h em o d e l t h et e s tr e s u l td e m o n s t r a t e st h a tt h em o d e lc o m e s t oah i g h e ra c c u r a c ya n dc a nr e a c tc u s t o m e r s c o n s u m eh a b i t i ti n d i c a t e st h a tt h ed e - s i g no fp a c k a g ea n a l y s i sm o d e li ss u c c e s s f u la n dt h em o d e lc o m e st ot h er e q u e s to f b u s i n e s su s a g e k e yw o r d s :b u s i n e s sa n a l y s i ss y s t e m ;d a t aw a r e h o u s e ;o l a p ;c l u s t e r i n g a n a l y s i s ;a s s o c i a t i o na n a l y s i s ;a p r i o r ia l g o r i t h m ;k - m e a n sa l g o r i t h m 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特另j 1 ) j n 以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丞洼王些太堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名:触啦失签字日期:懈月z o f t 学位论文版权使用授权书 本学位论文作者完全了解丞洼王些太堂有关保留、使用学位论文的规定。 特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:敞畹昊 导师签名: 杨逝碳 签字日期:z 潲年月矽e t 签字日期:z o o g 年月o 日 学位论文的主要创新点 一、论文通过对原有离散的、独立的各类业务数据进行采集、抽取、转换、 加载,建立了一个面向主题的、集成的、稳定的、能够承载多维历史数据的数据 仓库。 二、论文采用元数据组织和描述整个数据仓库的组织结构,以星型模型建立 起以关系数据库表示和存取的多维数据库。 三、本文提出一种结合聚类分析和关联分析的套餐分析模型,将挖掘多值关 联规则问题转化为挖掘布尔型关联规则问题,然后利用已有的挖掘布尔型关联规 则的算法得到有价值的规则。 第一章前言 1 1 项目背景 第一章前言 在我国正式加入w t o 以后,国外资本逐步进入我国电信市场,国际化的市 场环境要求国内的电信运营企业在经营管理上能够迅速赶上国外的先进水平,以 迎接电信运营业的国际化竞争。同时随着国内电信行业改革和重组的不断深化, 国内电信业务的市场环境渐趋合理,竞争将日益加剧。国内、国际电信业的竞争 态势,对电信运营企业的服务意识、服务内容、服务方式、服务质量、以及经营 管理水平等均提出了严峻的挑战,要求国内的电信运营企业在经营理念、管理模 式上能有一个较高层次的飞跃,以求在电信运营业日益残酷的国际化竞争中立于 不败之地;同时,也要求国内电信运营企业传统的以产品为中心,以营业窗口为 基础的运营模式,逐步向以客户为中心、以数据为中心、以信息为基础的模式转 变。 如何以客户为导向进行企业的经营运作,使企业在激烈的竞争中立于不败之 地,成为电信运营商的经营管理者必须面临的严峻课题。在企业中运用数据仓库 技术建立经营分析系统,能充分利用业务支撑系统产生的大量宝贵的数据资源, 从这些大量的业务数据中提取出有用的信息,实现对信息的智能化加工和处理, 为市场经营工作提供及时、准确、科学的决策依据。 本文所述的系统来自于中国联通某市分公司的实际需求。该公司拥有大量的 业务数据,但由于存在过多冗余数据和数据的不一致,这些数据变得难以访问和 管理,随着数据量的成倍增长,这个问题显得越来越突出。对数据的失控,使信 息中心的开发应用变得非常复杂,在这种情况下,迫切需要通过数据仓库来汇总 这些信息,并支持数据挖掘、多维数据分析以及传统的查询和报表功能,把大量 的数据转换成可靠的、商用的信息,以便于决策支持。 1 2 国内外发展现状 1 数据仓库的应用 随着全球经济一体化进程的推进和中国加入1 | j y t 0 ,大多数行业的市场竞争格 局都发生了重大变化,信息成为了市场竞争的最重要的武器。随着技术的进步、 第一章前言 客户需求的增长和竞争的加剧,企业的运营模式从“以产品为中心向“以客户 为中心演进。以客户为中心的业务模式脱胎于现代营销理论的市场营销观念, 以企业的目标客户和他们的不同需求为导向指定产品和服务,企业资源围绕客户 的价值周期进行分配和组织。忠诚度高和价值高的用户获得企业更多的关心和 更周到的服务,而不忠诚或价值低的客户则获得低档的服务。实现这一业务模式 的关键是:发掘和了解不同客户的行为与需求,利用了解到的信息指示确定、开 发和提供适当的产品和服务。 数据仓库系统为企业提供了准确而完善的信息,为实现以客户为中心的业务 策略提供了技术上的可行性。现阶段数据仓库技术已经越来越多的被人们尝试运 用到企业的信息系统建设中去,尤其是在金融、证券、电信行业。 数据仓库的作用体现在决策支持、客户分段和评价以及市场的自动化等方 面。数据仓库系统提供各种业务数据,用户可以利用各种访问工具从数据仓库获 取决策信息,了解业务的运营情况。关键性能指标( k p i ,k e yp e r f o r m a n c e i n d i c a t o r ) 用来量化企业的运营情况,它可以反映企业在赢利、效率、发展等各 方面的表现。数据仓库系统为用户提供k p i 数据,并且能帮助用户进行销售渠道 规划、市场评估、竞争对手评估、策略的制定与分析心1 。 综上所述,数据仓库系统已经成为现代化企业必不可少的基础设施之一,它 是现代企业运营支撑体系的重要组成,是企业对市场需求快速准确响应的有力保 证。 2 目前市场产品 作为数据管理市场的热点,近年来有很多公司投入数据仓库市场的角逐并有 自己的解决方案和已经成型的数据仓库产品,如国外知名的c a 的d e c i s i o nb a s e 、 i b m 的d b 2u d b 、o r a c l e 的o r a c l e1 0 9 数据仓库核心、s y b a s e 的w a r e h o u s es t u d i o 、 i n f o r m i x 的i n f o r m i xd a t a s t a g e 、s a g e n t 的s a g e n t 业务智能应用平台、微软 的s o ls s e r v e r2 0 0 0 、c o g n o s 的c o g n o sp l a t f o r m 和n c r 的可扩展数据仓库等。 这些主要分为3 大类:解决特定功能的产品、提供部分解决方案的产品和提供全 部解决方案的产品。 国内的数据仓库只是刚刚起步,还存在着很多不足之处,主要表现在: ( 1 ) 信息化基础设备不够完善,数据积累不充分。目前我国除了银行、电信 等少数企业外,数据积累都不够充分。 ( 2 ) 企业的竞争意识和服务意识还不够强。一些大型企业特别是长期垄断经 营的企业,思想上没有产生危机感和竞争意识,对提高企业的经营管理和服务质 量不够重视,因而,对企业经营管理的决策分析需求还不迫切。 ( 3 ) 技术部门不能与业务部门很好地协调。数据仓库的提出和应用通常都是 2 第一章前言 技术部门在其中扮演重要角色,业务部门参与较少。但实际上,没有业务部门与 技术部门之间的很好协调,数据仓库是不可能应用成功的。因为数据仓库技术是 管理科学、计算机科学、网络科学和分析手段的大融合,数据仓库技术上的实现 并不困难,而关键在于怎样使用它。 ( 4 ) 管理不规范,缺乏经验。数据仓库使用时的重要问题是建立模型,这就 要求使用者对相关的业务非常熟悉并具备相应的管理和分析能力,否则得出的结 论就很可能是无用的。对我国大部分企业而言,恰好缺少的就是这种经验,而且 企业经营管理中的不规范也为数据仓库的应用成功增加了难度。 目前,电信企业已经具备了建立数据仓库的基础条件:基本上以省为单位对 业务进行了综合化,并实现了b s s ( b u s i n e s ss u p p o r ts y s t e m ,电信运营支撑系 统) 等生产系统以省为单位的集中化,这就为建设数据仓库做好了充分的数据准 各工作。另外,数据仓库及其相关技术已经发展得比较成熟,在国内银行、证券 等领域和国外一些知名的电信运营商那里都得到了成功应用,更证明了该技术的 可行性。经过我国通信企业多年的努力,通过不同业务系统的开发,企业i t 基 础架构已经具备一定的规模,而且也已经初步培养锻炼出一批有知识、懂专业技 术、具有丰富工程经验的队伍。 数据仓库的建设过程是复杂的,企业在制定实施数据仓库解决方案时,不能 自目地选择产品供应商。因为每个行业都有自己的运行特点,都有自己特定的业 务范围和历史数据。因此,在建立数据仓库时,必须紧密结合本行业的特点和业 务发展需求,参照产品提供商的技术特点和他们的成功案例,认真比较后再做出 恰当的选择。 本文所述系统针对某市联合通信公司的特点,充分利用业务支撑系统产生的 大量宝贵的数据资源,结合相关支撑系统提供的信息,构建经营分析中心和分析、 挖掘、使用平台,从而对信息进行智能化加工、处理,并最终为市场决策管理者 和市场经营工作提供及时、准确、科学的辅助决策依据的计算机应用系统。 1 3 论文的主要工作 本文主要研究了数据仓库在实际企业中的应用问题。首先介绍了数据仓库的 基本理论,然后以某市联通公司的经营分析系统为背景,论述了该系统的设计和 实现,重点对其中e t l ( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g ,数据抽取、 转换和装载) 部分进行了阐述。e t l 部分连接着数据源和数据仓库,涉及数据的 抽取、转换和装载的问题,影响着最终的数据质量,是整个数据仓库系统中的重 要部分。针对实际情况,着重论述了e t l 的实现方法和策略,以及为提高装载速 3 第一章前言 度而采取的并行处理方法和运行过程。该系统在实际中使客户能及时获得市场综 合情况,制定出相应对策,获得了良好的效益。 针对联通公司推出的套餐业务,采用基于a p r i o r i 关联分析算法和k - m e a n s 聚类分析算法相结合的技术建立套餐分析模型。通过对以往特定地区、特定客户 群套餐消费情况的分析,对特定条件下套餐的发布效果进行预测,为公司推出更 合理的套餐业务提供决策依据。鉴于数据量巨大所造成的模型训练时间较长这个 问题,提出了a p r i o r i 算法和k - m e a n s 算法的改进算法,提高了模型的性能。 本文对模型的准确性、a p r i o r i 改进算法以及k - m e a n s 改进算法对性能的提高 做出- f n 试,然后对套餐分析模型的应用效果进行了评估,通过这几个方面的工 作证明了模型已经达到设计目标。 1 4 论文结构 第一章:主要描述论文所述项目的背景、国内外发展现状,并归纳了本文的 主要工作。 第二章:主要介绍经营分析系统的设计。 第三章:主要介绍经营分析系统的实现。 第四章:按照数据挖掘流程,设计和实现面向套餐分析的数据挖掘过程。针 对模型中所采用的a p r i o r i 算法和k - m e a n s 算法的缺陷提出了具体的改进方法。 第五章:结束语,对论文所述系统进行总结。 4 第二章经营分析系统设计 第二章经营分析系统设计 项目建设遵循“整合业务数据、面向经营分析 的原则。“整合业务数据 是指经营分析系统必须构造面向主题的、集成的、稳定的、随时间而变化的数据 仓库系统;“面向经营分析是指系统必须智能地从数据中提取与企业经营相关 的信息和知识,为市场经营和决策人员制定客户服务、业务发展和市场竞争等策 略提供科学、准确、及时的依据。 目前此经营分析系统实现的目标是以多维分析为主,辅以数据挖掘技术,建 立一个统一和集中的数据仓库平台,通过提取生产数据中价值信息,为企业经营 分析提供科学有效的支撑。初步的建设将重点对客户分群、市场竞争、业务收益、 营销策划新业务和数据业务等主题进行分析,并利用数据挖掘技术对相关专题进 行分析作为补充。 2 1 系统概况 2 1 1 系统功能要求 数据来源是o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ,联机事务处理) 系 统及其它相关的外部数据源,通过对这些数据源的抽取、转换、净化、整合而形 成具有海量历史数据的数据仓库。所实现的所有功能都基于对这些历史数据的分 析与数据挖掘,以通信业务及市场为核心进行经营分析。 主题分析涵盖了客户发展分析、业务发展分析、收益情况分析、大客户分析、 营销管理分析、市场竞争分析、服务质量分析、新业务与数据业务分析、合作服 务方分析等,可以针对以上各分析主题提供多种分析方法如:多维分析、趋势分 析、聚类分析、意外分析、比较分析、排名分析等。 专题分析主要针对客户、营销、竞争对手、合作服务等方面的业务热点和难 点问题,进行细化和深入的分析,如:网络分析、客户分群、收益分析、话费回 收分析、客户流失分析、v p n ( v i r t u a lp r i v a t en e t w o r k ,虚拟专用网络) 用户 分析、营销渠道分析、竞争对手分析、产品推广分析、信用度分析等。 5 第二章经营分析系统设计 2 1 2 系统整体结构 该经营分析系统分为数据获取层、数据存储层和数据访问层三层,其中数据 获取层又分为数据来源、抽取转换力载两个子层;数据访问层又分为展示方式 和分析人员两个子层,如图2 - 1 所示。 图2 一l 系统架构图 l - 数据获取层 该系统三层结构中的数据获取层功能是将数据从数据源经过必要的处理后 加载到数据仓库系统中。数据获取层包括:源数据分析、源数据映射、e t l 及数 据审计。 系统与源系统的传输方式为接e l 文件方式。源数据映射是指将源数据分析之 后,根据数据仓库系统物理数据模型的需要,将源数据同目的数据进行匹配的过 程。在每个数据加载周期中,通过数据审计保证数据仓库系统同业务系统中数据 在业务上的一致性及数据的准确性。 2 数据存储层 数据存储层包括数据仓库和复制传播组件。数据仓库组件定义了信息的逻 辑和物理存储。复制和传播组件从企业数据仓库中存储的数据创建从属的数据集 市。在数据仓库的实施过程中,对主题的业务分析采用数据集市的方式对数据进 行进一步的组织。所以在数据仓库的基础之上根据分析需求会创建相应的从属的 数据集市。 3 数据访问层 6 第二章经营分析系统设计 数据访问层的主要功能是使经营分析系统使用人员通过报表和图形的方式, 简便、快捷地访问经营分析系统中的各种数据并进行各种分析预测操作。数据访 问层提供多种预测访问方法,包括预定义报表、o l a p ( o n l i n ea n a l y t i c a l p r o c e s s i n g ,联机分析处理) 分析、数据挖掘等。数据访问层提供一个统一的门 户入口,实现上述功能的无缝连接,并提供集成化的认证、信息发布和管理环境, 使经营分析系统使用人员无需关心具体的技术实现途径,即可实现对经营分析系 统数据的访问和分析。 2 2 数据仓库设计 2 2 1 确定主题 数据仓库的一个重要特征是按主题来组织的,主题构成企业运作的框架,是 企业信息在较高层次上的综合与归类,主题的划分是以业务系统的信息模型为依 据的。这种划分综合各种业务系统的信息模型,并进行宏观的归并,得到企业范 围内的高层数据视图,并加以抽象,来划定主题范围1 3 j 。 1 用户主题 ( 1 ) 用户发展分析:对不同用户进行入网渠道分析;对不同用户进行业务、 子业务定购种类分析;对不同用户选择套餐种类分析;以发现用户的自然属性和 入网渠道、子业务定购、套餐选择的关系。 ( 2 ) 用户状态分析:按日分析,数据按日提供,对定购不同业务的用户进行 构成分析,以切现用户自然属性与业务定购之间的联系。对不同入网渠道进行用 户发展分析,以发现用户自然属性与用户入网时选择入网渠道的偏好联系,供市 场部在制定用户发展策略时参考。同时也可以作为评价经销商、代理商业绩的依 据。对不同入网方式的用户构成进行分析,以发现用户定购与入网方式的联系。 ( 3 ) 用户流失分析:按月分析,数据按月提供,从业务类型、用户基本特征、 话费分档、在网时问、离网原因、投诉类别等角度分析在某一时间段内用户离网 数的变化,找出用户离网原因( 现有系统部分用户离网时不能得到用户离网原 因) 。 2 使用主题 ( 1 ) 用户通话行为分析:用户通话行为分析,从时间、地域、话费分档、通 话时长等不同角度分析用户的话费及其变化,预i 贝0 其在一定条件下的变化趋势, 为提高收入,制定合理的市场营销策略提供科学、有效的依据。 ( 2 ) 短消息使用分析:按日提供和分析数据,对短消息业务使用进行分析。 7 第二章经营分析系统设计 ( 3 ) i p 使用分析:按日提供和分析数据,对i p 使用进行分析。 ( 4 ) 1 9 3 使用分析:按日提供和分析数据,对1 9 3 业务使用进行。 ( 5 ) 1 x 使用分析:按日分析,数据按日提供,对1 x 业务使用情况进行分析。 ( 6 ) 1 x 流量分析:按日分析,数据按日提供,对1 x 业务的流量进行分析。 3 套餐主题 ( 1 ) 套餐数量分析:按日提供和分析数据,分析套餐的使用情况。 ( 2 ) 套餐转换分析:按日提供和分析数据,对用户使用资费套餐的情况进行 跟踪统计,分析套餐用户的变化,为资费套餐的推广及发展变化提供事实依据。 4 收入主题 ( 1 ) 业务应收统计:按日提供和分析数据,反映某项业务对公司的盈利作用。 ( 2 ) 业务实收分析:按日提供和分析数据,反映某项业务对公司的盈利作用, 重点是实际收入情况。 ( 3 ) 新业务收入分析:按月分析,数据按月提供,分析不同s p c p 类型的收 入情况,从而发现新业务增长点。 5 缴费主题 ( 1 ) 业务缴费分析:按日分析,数据按日提供,反映某项业务的不同类型的 用户通过不同的渠道进行缴费的及时性。 ( 2 ) 业务欠费分析:按日分析,数据按日提供,从多种角度分析联通公司不 同时间欠费的用户数及欠费金额。分析的角度包括话费的结构、用户特征、缴费 方式、欠费的时间、是否有担保、是否已销号、是否已停机,可以通过以上这些 分类去组合而形成各种考查的方式,来达到全面分析欠费情况由此对今后的欠费 的回收、坏账准备形成指导。 6 资源主题:对卡状态、卡号发放、卡号使用情况进行分析。 7 渠道优化主题:按业务类型、用户类型、用户属性对不同渠道发展的用 户进行统计分析,量化各渠道发展用户的能力,为优化用户发展渠道提供有说服 力的数据依据。 2 2 2 粒度的确定 所谓粒度就是数据仓库中数据单元的详细程度和级别。数据越详细,粒度越 小,级别也就越低:数据综合度越高,粒度越大,级别也就越高1 4 j 。 在数据仓库设计中,确定合适的数据粒度是一个复杂的问题。因为粒度的确 定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。在确定 数据仓库的粒度时,可以采用多种方法来达到既能满足用户决策分析的需要,又 能减少数据仓库的数据量。如果主题分析的时间范围较小,可以保持较少时间的 8 第二章经营分析系统设计 细节数据1 5 j 。 对于客户基本信息表,由于它属于增长较为缓慢的信息,随着客户数量的增 长、客户业务信息的变更该表会增长,我们可以使用单一的数据粒度。 如果客户数量很大,每个月生成一张客户信息表将浪费很大的空间,因为只 有客户信息变化了或者新增加了客户,才需要修改原先的客户信息表。我们可以 增加一个“当前标志字段,用于标识客户的当前信息。另外,非常重要的一点 就是增加合适的时间字段,这里我们选择“数据变更日期 作为时间字段。 如果客户的信息发生变更,可以为该客户在客户信息表中增加一条新纪录, 并填写上相应的修改时间和当前标志。如表2 - i 所示。 表2 1 客户信息表 属性名类型 主键 说明 c u s t o m e r _ n o n u m b e r ( 1 0 )p k 客户编号 k i n dc o d ev a r c 姒r 2 ( 5 ) 客户类型 哟r k t y p e y a r c h a r 2 ( 5 )职业类型 c u s t o m e r _ n a m e v a r c h a r 2 ( 6 0 )客户姓名 i dt y p ev a r c h a r 2 ( 5 )证件类型 s e xv a r c h a r 2 ( 1 )客户性别 c u s t o m e r p o s t n u m b e r ( 6 )客户邮编 c u s t o m e r j d v a r c h a r 2 ( 2 0 )客户证件 i da d d r e s sv a r c h a r 2 ( 6 0 )证件地址 l i n k n a m e v a r c h a r 2 ( 6 0 )联系人姓名 l i n k p h o n e v a r c h a r 2 ( 2 0 )联系人电话 l i n k 盥d r e s s v a r c h a r 2 ( 6 0 )联系地址 e m a i lv a r c h 躲2 ( 4 0 ) 电子邮件 f a x v a r c h a r 2 ( 4 0 )传真 c o m p a n y a m ev a r c h a r 2 ( 6 0 )公司名称 c o m p a n ya d d r e s s v a r c h a r 2 ( 6 0 )公司地址 c o m p a n y p o s tm j m b e r ( 6 )公司邮编 c o m p a n l p h o n e v a r c h a r 2 ( 2 0 )公司电话 l o c a ln e t v a r c h a r 2 ( 6 )本地网 c r e a t e d a t ed a t e 建档时间 d e s t r o y _ d a t e d a t e 销档时间 9 第二章经营分析系统设计 对于客户的套餐信息,每个月一个客户号码只在套餐信息中对应一条记录, 因此数据本身主带有一定的综合性。详细情况见表2 - 2 所示。 表2 - 2 用户套餐代码表( d i n n e r _ u s e r ) 属性名类型主键说明 u s e r _ d i n n e r v a r c h a r 2 ( 5 ) p k 用户套餐 t e l et y p ev a r c h a r 2 ( 8 )电信类型 b u s i n e s s d i n n e r v a r c h a r 2 ( 4 ) 业务套餐 b i l l _ d i n n e r v a r c h a r 2 ( 2 5 6 ) 话费套餐 r e n t _ d i n n e r v a r c h a r 2 ( 5 ) 月租套餐 f f - d in n e r v a r c h a r 2 ( 5 ) f f 套餐 c r e d i t _ d i n n e rv a r c h a r 2 ( 5 )信用控制套餐 s p e c _ d i n n e rv a r c h a r 2 ( 5 )特服套餐 r o a m s t a t u s v a r c h a r 2 ( 5 )初始漫游状态 c a l l _ l e v e l v a r c h a r 2 ( 5 )通话级别 p r e p a y t y p ev a r c h a r 2 ( 5 )预交款类型 p r e p a yc h a r g en u m b e r ( 1 2 ,2 )预交款金额 p r o m _ t y p e v a r c h a r 2 ( 5 )赠款类型 p r o m _ c h a r g en u m b e r ( i x ,2 ) 赠款金额 p r o md a ym j m b e r ( 4 ) 赠款有效时间 f l a gp a y v a r c h a r 2 ( 1 )付费方式 is a c t i v e v a r c h a r 2 ( 1 )套餐是否有效 r e m a r k sv a r c h a r 2 ( 6 0 ) 套餐描述 l o c a ln e t v a r c h a r 2 ( 6 ) p k本地网 h o i 。o _ m o n t h sn 啪e r ( 4 )保持月数 d i n n e r d a t e d a t e o p e r 。d a t e d a t e d in n e r _ t y p e v a r c h a r 2 ( 6 ) i s d i s t r i b u t e v a r c h a r 2 ( 1 ) 在将业务系统中的表对应到数据仓库中时,一定要注意以下几点: 1 去除纯操作数据: 2 增加合适的时间段; 1 0 第二章经营分析系统设计 3 增加合适的导出数据。比如,按季度对每个用户进行综合得到的表、按 照季度对不同收费类型进行综合得到的表、按照年份对不同收费类型进行综合得 到的表常常可以作为导出表。 4 呼n q 计费数据是数据量最大的部分,对于一个用户数特别多的公司来说, 每天都可能产生上千万条记录,因此可以采用双重呼叫粒度来记载呼d q 计费数 据。 5 对于近几个月的细节呼n q 计费数据,我们保留在数据仓库中,并定期聚 合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数据腾出空间。 2 3o l 廿的设计 2 3 1o l a p 的类型 根据存储数据的方式不同,可以将o l a p 分为两种:r o l a p ( r e l a t i o n a lo l a p ) 、 m o l a p ( m u l t i d i m e n s i o n a lo l a p ) 。 r o l a p 是表示基于关系数据库的o l a p 实现,以关系数据库为核心,以关系 型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结构划分为两类 表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少 使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关 键字和外关键字联系在一起,形成了“星型模式”。它的优点是数据存储没有大 小限制,缺点是响应速度相对来说比较慢。 m o l a p 是基于多维数据库的o l a p 实现,它以多维数据库为核心,以多维数 据来表示数据的存储,多维数据在存储中将形成“立方块( c u b e ) ”的结构。它的 优点是性能好、响应速度快,缺点是数据存储的大小受到限制,难以达到t b 级 ( 只能l o - 2 0 g ) ,不适应大型系统的建i 受1 6 1 。 本文选用r o l a p 形式。 2 3 2 主题的维度设计 先分析问题中可能涉及的所有维度( 总体维度分析) ,针对每一个主题定义关 系模式,从而形成一个星型结构【7 1 。在这个星型结构的基础上,可以生成多维数 据表。 第二章经营分析系统设计 不同的主题需要从总体维度分析表中选择需要的维度。其中客户发展主题的 维度设计如图2 - 2 。 ( 客户详细资料维) c u s t _ i d ( 客户性别维) s e x i d ( 客户年龄层次维) a g e l e v e l i d ( 客户信用积分层次维) c r e d i t v a l u e l e v e l i d ( 客户在网时间维) i n s e w t i m e l e v e l _ i d ( 消费层次维) l a y l e v e l _ i d ( 客户信用度层次维) c r e d i t l e v e l _ i d ( 客户发展事实表) c u s ti d s e xi d a g e l e v e l i d b r a n d _ i d b e v i pi d p a y t y p e _ i d c r e d i t v a l u e l e v e li d i n s e r v t i m e l e v e li d g e oi d p a y l e v e l i d c h u r n l e v e li d d e t a i n v a l u e l e v e li d b e v i p l e v e li d c r e d i t l e v e li d c u s t n u m b e r 图2 2 客户发展主题的维度设计 2 3 3 基于w e b 的o l a p 展现方式 ( 成为大客户概率层次维) b e v i p l e v e l j d ( 交费类型维) p a y t y p e _ i d ( 地理维) g e oi d ( 客户流失概率层次维) c h u r n l e v e l _ i d ( 客户挽留价值层次维) d e t a i n v a l u e l e v e l _ i d ( 品牌维) b r a n di d ( 是否大客户维) b e p j d 传统的o l a p 应用是客户机服务器两层结构体系。随着近年来w e b 应用的发 展,o l a p 的前端展现方式也向着w e b 发展,相当多的o l a p 应用都向三层客户机 服务器发展( 三层结构是在客户端和数据仓库之间增加了应用服务器) ,并且大 都选择w e b 作为其前端展现的平台。这是因为w e b 有着很好的跨平台性,客户只 需利用浏览器而无需其它的终端软件就可以浏览丰富多彩的信息1 8 j 。 通过这种应用服务器与数据仓库的交互,执行必要的计算,最后将结果发送 给客户端。w e b 服务器负责完成浏览器与o l a p 应用及数据库服务器之间的通信 连接。一般来说,w e b 服务器通过使用c g i 脚本、w e b 服务器a p i 、应用a p i 和 数据库a p i 等,管理浏览器与数据库服务器及其应用间的通信。在客户端,则需 1 2 第二章经营分析系统设计 要组织h t m l 、j a v a a p p l e t s 、a c t i v e x 控件、j a v a s c r i p t 来完成与用户的交互和 控制。o l a p 的w e b 展现方式的结构如图2 3 所示。 2 4e t l 的设计 图2 30 l a p 展现结构图 e t l 是e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g 的缩写,指的是数据抽取、 转换和装载,是数据仓库实现过程中,进行数据由业务系统向数据仓库加载的主 要方法,是数据仓库建设的关键部分【9 1 。从功能上看,整体包括三个部分: 1 数据抽取,从业务系统或外部数据中抽取数据仓库系统需要的数据。 2 数据转换,将从数据源获取的数据转换成数据仓库要求的形式,包括运 用条件、净化、合并等技术手段,对数据进行转换。 3 数据加载,将数据装入数据仓库。在整个过程中,必须充分考虑异常情 况的处理。 2 4 1e t l 的方法及策略 建立数据仓库系统首先需要考虑的是数据来源问题。对于电信行业,从数据 源来看,业务系统包括计费系统、营业账务系统、客户服务系统、网管系统、市 场营销系统等。外部数据包括市场促销活动、市场占有情况、竞争对手信息等。 1 数据抽取与数据抽取接口 数据抽取就是根据数据仓库系统对数据模型的需求,从相应的业务系统、外 数据源等中抽取需要的数据【1 0 l 。抽取出来的数据可能需要经过转换,采取同步或 异步的方式加载到数据仓库系统中。 源数据接口主要提供数据仓库的数据来源,包括源数据系统平台、结构等。 典型的源数据接口包括数据库接口( o d b c ,j d b c 、专用数据库驱动接口) 和文件接 口。对于不同平台、不同形式、不同业务以及不同数据量的源数据,将采取不同 的数据抽取接1 2 1 。在数据抽取时需要重点考虑数据抽取的效率i l 。对数据抽取接 口的选择必须重点考虑数据平台、源数据形式、业务系统的性能要求以及业务量 第二章经营分析系统设计 和数据量大小。根据抽取的源数据形式,选择数据抽取接口的原则建议为以下几 点: ( 1 ) 对于数据形式为关系型数据库的系统,建议采用o d b c 、j d b c 或专用数据 库驱动接口方式。 ( 2 ) 对于数据形式是文件方式的源数据,一般直接进入转换和加载流程。 ( 3 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论