(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf_第1页
(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf_第2页
(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf_第3页
(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf_第4页
(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库技术的电信计费dss研究与实践.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘疆 摘要 决策支持系统( d s s ) 是信息系统研究的最裁发展阶段。当裁,国内夕 对d s s 的研究非常活跃。基于数据仓库( d w ) 和数据挖掘( d m ) 等技术的d s s 得到 了进一步发展。 本文对数据仓霹技术、联机分析处理( o l a p ) 、数搿挖掘方法进行了深入的 研究探讨。首先对数据仓麾的体系结构、特点、数据组织方法、逻辑模型、物理 模型等 敌了理论上的探讨,并将其应用至电信企业计费管理d s s 中。对如何构建 数据仓库环境进行了详细的分析设计,为决策部门进行经萤分析提供了数据环境。 其次,针对电信企妲自身的特征,划分并详细分析设诗了掰户发袋、大客户、收 益情况、业务发展等决策主题,设计了若干o l a p 分析模趔。最后采用了一系列 颈测算法,提出了电信客户信雳泼涮算翡麓较算法模型,并将稽菲蕊车可综合评价 指数预测、交换机容量预测等算法引入预测系统,为企业提供了肖效实用的决策 支持。 关键词:数据仓库决策支持系统决策烹题数据挖掘 a b s t r a c t a b s t r a c t d s si st h el a t e s td e v e l o p i n gs t a g eo fi n f o r m a t i o ns y s t e mr e s e a r c h 。a tp r e s e n t ,t h e r e s e a r c ho nd s si sv e r ya c t i v ea th o m ea n da b r o a d d s sb a s e do nd a t aw a r e h o u s e ( d w ) a n dd a t am i n i n g ( d m ) h a sg o t t e nf u r t h e rd e v e l o p m e n t d w :o n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) a n dd mm e t h o d sa r ed e e p l ys t u d i e di n t h i st h e s i s f i r s t l nt h ea r c h i t e c t u r e ,c h a r a c t e r i s t i c ,o r g a n i z a t i o nm e t h o do fd a t a ,l o g i c a l m o d e l ,p h y s i c a lm o d e lo fd w a r ed i s c u s s e dt h e o r e t i c a l l ya n dt h ea p p l i c a t i o no fd wt o t h ed s so fb i l l i n gm a n a g e m e n to ft e l e c o me n t e r p r i s ei sp r e s e n t e d ,b e s i d e s ,h o wt o b u i l dt h ep r a c t i c a ld we n v i r o n m e n ti sa n a l y z e da n dd e s i g n e di nd e t a i l ,a n dt h ed a t a b a s i si sp r o v i d e df o rt h ea n a l y s i so f d e c i s i o n - m a k i n gd e p a r t m e n t s e c o n d l y , a c c o r d i n g t ot h ec h a r a c t e r i s t i co ft e l e c o me n t e r p r i s ei t s e l f , s e v e r a lm a i nd e c i s i o ns u b j e c t sa r e d i v i d e da n dd e s i g n e di nd e t a i l ,i n c l u d i n gd e v e l o p m e n to fu s e r s ,i m p o r t a n tc u s t o m e r s , i n c o m es t a t u so fe n t e r p r i s e ,b u s i n e s sd e v e l o p i n go fe n t e r p r i s ea n ds oo n i na d d i t i o n , s e v e r a lo l a pm o d e l sa r ea l s od e s i g n e d f i n a l l y , as e r i e so fp r e d i c t i n ga l g o r i t h m sa r e a d o p t e d ,n o r m a l i z e dw e i g h t e da l g o r i f i u nf o rc a l c u l a t i n gc u s t o m e r sc r e d i to fe n t e r p r i s e i sp r o p o s e d ,a n dp o f i s i cs y n t h e t i ce v a l u a t ee x p o n e n tp r e d i c t i n gm e t h o da n de x c h a n g e c a p a c i t yp r e d i c t i n ga l g o r i t h ma r ea l s ol e a di n t od s s t h e s ep r o v i d ea ne f f e c t i v ea n d p r a c t i c a ld s sf o re n t e r p r i s e k e yw o r d s :d w d s sd e c i s i o ns u b j e c td m 创新性声明 y 】0 0 6 0 s 1 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成采。尽我所知,除了文中特嗣加以标注和致谢中所罗列的内容以外,论文中不 包含葵他人已经发表或撰写过的研究成果;也不包含为获攥嚣安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担切相关责任。 本人签名: 斗越 日期超! ! :墨 关于论文使用授权的说明 本人完全了解鹾安电予科技大学有关保留茅西使用学位沦文的规定,即:磅究 生在校攻读学位期间论文工作的知识产权单位属嚣安电子科技大学。本人保证毕 业离校后,发表论文缄使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 都或部分内容,可以允许采用影印、绒印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本人授权西安电子科技大学图书馆保篱学位论文,本学位论文j 莓于 密级别) ,在二年解密后适用于本授权书,并同意将论文在互联网上发 本入签名: 导师签名 童! 皇整塞 簇勤盟 日期銎翌监:5 a 斌巡! i 、f 保 辫 第一章绪论 第一章绪论 1 1 电信计费管理决策支持系统( d s s ) 概述 随着改革深化、电信分营和通信市场竞争机制的逐步形成,国内电信业市场 环境已澎趋合理且竞争将曰盏加剧,面对激烈的市场竞争如何立予不败之地是电 信运营决策者越来越重视的闯题。从长远和根本的观点着,真正能为电信运营企 业提供持续发展能力和竞蛰能力的,除了一些极制改革的手段,像融资、并购、 重组以外,更重要的是其有富有前瞻性的技术手段和理念,对电信企业的运营和 全业务的发展进行卓有成效的支撵和管理。 营业、计费、结算、帐务、收费等系统中存储着用户使用电信业务的各种费 用和帐务信息,畦录着电信企业主要收入信息,关系到电信企业的经营效果,因 诧做为把褥户的消费量转变成金渡价氇量的枢纽系统,计费帐务系统对电信企业、 电信经营服务而言都占有熏要的地位。 企、监豫了要求计费暇务系统掇高计费的准确後和实时性,减少话费争议和话 费流失,提高资金的回簿能力外,也追切需要适合本企业的决策支持系统 ( d e c i s i o ns u p p o r ts y s t e m ,d s s ) ,希望施觚大量静数据中把握增户的消费倾向和 业务增长趋势,为企业制定新的发展战略和营销政策。 d s s 幽三个层次静两容组成:数裾仓簿( d a t aw a r e h o u s e ,d w ) 、联枫分斩处 理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 和数据挖掘( d a t am i n i n g ,d m ) 。电信 各泣务数箍痒静数据透过摄取、清洗帮转佑整理籍按照不同主题存放在数据仓露 中,完成由反映企业局部情况的数据到反映企业熬体情况的信息的转变。存放在 数据仓痒中静信惠潺过o l a p 和d m 处理螽,形戒辩有规律往的能够对企鼗运营提 供指导意义的知识,从而完成从“信息”剔“知识”的转变。企她的决策层可以 裂藤o l a p 稻d m 楚灌褥到豹躲识嗣定裙盛鹣蒙珞,并反馈戮登务系统中,最终改 善艇业的运营。 1 2 数据仓库技术的发展及其现状 从企业发展的角度看,一个企业的各部门在不同时期建立了各自的业务信息 处壤系统,这些系统翅互独立,开发露应爱平台不阉,数攥标准亵系统缝搀各买。 在这样的环境下,硷业决策者要想得到企业全局的决策信息是十分困难的,对这 个阉题的搽求营导致对多数据库( m u l t i d a t a b a s e s ) 系绞戆磺究。舅一方瑟,为了 进行有效的决策,决策信息不仅应该是全颜的,还应该是完整的,即决策者不仅 需要当前的数据,还震要历史数据,才能竞成各穆复杂分攒,魏趋势鞭测秘数摇 基于数据仓库技术的电信计费d s s 研究与实践 挖掘,以支持决策。这样的需求就导致了o l t p 系统和o l a p 系统及其支持环境 的分离,导致了一种新型的数据存贮和处理技术数据仓库的产生。 1 9 8 9 年b a r r yd e v l i n 和p a u lm u r p h y 在i b ms y s t e mj o u r n a l 上发表了题为a n a r c h i t e c t u r e f o r a b u s i n e s sa n d i n f o m a a t i o ns y s t e m 的论文,第一次阐述了数据仓库 技术的具体概念。随后,1 9 9 1 年i b m 公司正式公布其数据仓库i n d e p t h 的构架, 在整个信息产业界引起轰动。美国著名信息工程学家w i l l i a mi n m o n 博士9 0 年代 初提出数据仓库的表述:“一个数据仓库( d a t a w a r e h o u s e ) 通常是一个面向主题 的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决 策过程的支持。”可见,数据仓库技术主要用于决策支持,所谓主题,是指用户进 行决策分析时所关心的重点方面。i n m o n 先生进一步指出:“数据仓库中每个数据 单位都与时间相关,即数据仓库中的数据关系是多维的。因此,作为数据仓库的 目标数据库必须能够表述多维数据关系。特别在一些大规模决策环境下,采用多 维数据库管理系统( m d b m s ) 作为数据仓库的目标数据库具有一定优势,因为 m d b m s 是通过表分级( t a b l eg r o u p i n g s ) 、嵌套表( n e s t e dt a b l e ) 、高级索引( b 树、位图等) 技术实现的,有利于完成多维关系处理和多维分析( o l a p ) ”1 。 从功能上来看,业务处理系统以数据库为中心,分析系统以数据仓库为基础, i b m 公司首先提出了商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 系统的概念,它由业务 数据库系统、决策支持系统等部分组成。而作为b i 系统的核心部分,d s s 必须 具备企业级的多维信息查询、o l a p 、数据挖掘、预测等功能,如图1 1 所示。 图1 1 商业智能系统的总体功能 由于以数据仓库为基础的商业智能系统的强大功能在实际应用中能带来高利 润的回报,近年来数据仓库在证券业、银行领域、税务领域、控制金融风险、保 险、客户管理等众多领域得到了越来越广泛的应用。目前,在国外,d s s 已经广 泛应用于各个领域,特别是在企业的投资与财务、销售与生产、预测与计划、预 算与分析等方面。我国自9 0 年代初开始接触d s s 的研究与应用,现在已经在很 多企业的经营管理中开发d s s ,并获得快速发展。 第一章绪论 1 3 数据仓库方法下的d s s 研究 决策支持系统是计算机技术、管理科学和人工智能技术相结合而产生的- - j f q , 结惑管理技术。它骞以下月j 点特隧: ( 1 ) 利用模型、方法和数据追求决策的有效性,为决策者提供多种决策方案。 ( 2 ) 以半结拯他和 绒槐化超题的决策支持作为工传鼹标。 ( 3 ) 在解题过程中,强调的是人机交互。利用d s s 决策的过程实际上是人机 交互,以完成调查、分毒斥帮磅究蛉过程。 随着专家系统的问世,一种新型的d s s 一智能d s s 获得应用,并逐渐成为 d s s 的主浚发展方向,使d s s 真雁接近达到其辅助决策的耳标。传统d s s 是以 模型驱动的,模型库和模型管理系统是d s s 的核心,系统可以利用模型谮言,对 模型进行建造、修改、链接和存放,著在数据库支持下进行操作,完成辅助决策 过程汹。 总结超米,当魏的数据处理可以大致划分为鼹大类:操作型处理( 攀务型处 理) 和分析型处理( 信息挺处理) ,传统韵d s s 一般是直接建立在这种事务型处 理环境上。数据库管理系统在事务处理方面获得了巨大的成功,但其对分析处理 的支持一澎不令人满意,特别是当以业务处理为主的联机搴务处理( o l t p ) 和以 分析处理为主的d s s 应用同处于个数据库系统中时,这两种类型的处理产生了 明最的冲突。数据仓库技术的出现使d s s 从事务缝理环境的约束下解放蹴来。数 据仓库技术支持下的辅助决策系统与传统的d s s 有者本质区别“: 第一,这种系统的辅韵决策不是单纯媳依赖予模型,谣是采集大量历斑数据, 利用数据念库技术完成对臣量数据的存贮和访问,用数据产生的经验来辅助决策。 另一方面,翮用数据挖掘技术,对采集静大量数掰进行挖掘,挖獬产生的知识也 用于辅助决策。这是一种数据驱动型决策支持。 第二,系统中存贮静数据提供了完整豹全惠褫图,籀述了决策所两商豹主题 事务,决策是针对主题事务在这个全息视网上产生。 第三,为了完成分章厅羹的数据谤闯与猱作,系统得到了多维数据分攒工具一 联机分析处理( o l a p ) 的有力支持。是o l a p 实现了多维数据表的分析朔处理, 瑟摸鍪 痒中存贮酌大量模型仅雳予辅劲这种分析静完成。 可见,采用数据仓库方法实现电信计赞管理决策支持系统是合适的。数据仓 痒贸为邀僖商务运作提供绦掏与王蒸,戳键系统瑰组织、理解帮霞强数恭遴行战 略决策。采用数据仓库建立决策支持系统可以帮助电信企业: 建立完整豹客户秽案 o 整合业务系统与计费系统 基于数据仓库技术的电信计费d s s 研究与实践 提高对客户的了解并提升服务水平 测算公司的收入和成本 加快反应速度 总的来说,决策支持系统的目的是:更快的获得客户信息以制定企业发展策 略并为客户提供优质服务。 1 4 本文的工作 论文针对电信计费管理决策支持系统开发过程中的主要问题进行了深入细致 的研究并做了大量的具体工作,主要有: ( 1 )分析了电信计费管理决策支持系统的核心问题,对陕西省集中计费项 目的业务需求、决策需求进行了大量的调研分析工作。 ( 2 ) 讨论了在电信决策支持系统中采用数据仓库技术的技术细节,对数据 仓库的数据提取、管理及数据分析的典型动作,对o l a p 的基本分析方法、基于 关系数据库的o l a p 和基于多维数据库的o l a p 及数据挖掘方法等进行了仔细分 析。 ( 3 ) 建立了数据仓库的模型,详细划分了决策主题并对几个重要的主题做 了详细的设计,具体细化到每个主题内所需分析的业务问题、该业务问题的关键 指标和维度等。 ( 4 ) 采用数据挖掘算法对决策主题中分析的业务问题进行分析或预测并对 各种不同算法进行了比较。提出了客户信用度归一化加权分析模型,将行业算法 糅合到分析系统电对交换机容量,企业风险系数等进行了预测。 ( 5 ) 参与设计了整个系统的体系结构并在文中给出了介绍。 总之,在整个研究开发过程中,作者在理论和实践上做了大量工作,并与其 他同仁一道圆满完成任务。系统运行后取得了良好的效果,为企业决策者提供了 经营决策分析的科学平台。 第二章电信计费管理决策支持系统分析 第二章电信计费管理决策系统分析 2 1电信运营支撑系统概况 随着电信市场竞争的加剧、用户需求的提高,各种新业务层出不穷,对目前 的运营支撑系统带来了巨大的压力。运营支撑系统应该是为运营商提供促进用户 数和业务量增长的有效手段,而不应该成为业务发展的瓶颈。因此陕西电信提出 了建设新的运营支撑系统,其中包括联机采集系统、计费帐务系统、综合结算系 统等。对陕西省电信公司来说,整个运营支撑系统的建设可以分为两大步来建设, 建设示意图如下: 图2 1 电信运营支撑系统分步建设图 2 2 新计费帐务系统设计目标 随着电信业务的发展,原有计费帐务系统已不能满足企业的需要。陕西省电 信公司根据实际需要,并以中国电信计费帐务体制、信息模型及其相关规范为 依据,计划建设一套综合的本地计费帐务系统。按照陕西省电信公司本地计费帐 务系统建设要求,本期工程建设满足用户数6 0 0 万的需要。 建设目标是:建设全省统一、业务综合、技术先进、功能齐全的本地计费帐 务系统;实现长市话的联机计费处理、帐务处理;能提供客户化综合帐单与灵活、 方便、多样的交费和查询方式;能为电信公司提供灵活的营销支撑手段;可以为 企业提供各种业务统计分析报告及为经营分析决策提供依据6 1 。 系统建成后,可对全省进行交换机的联机采集、计费,对本地各种电信业务 基于数据仓库技术的电信计费d s s 研究与实践 进行综合帐务处理。系统能够提供多种优惠、交费和查询手段。整个计费网络将 充分利用原有的网络设施,与相关财务和业务部门有机结合,最大限度地发挥网 络的经济效益,促进全网业务的发展。 项目规划充分考虑了现有条件和未来业务发展的需要,协调好现状与未来发 展要求的关系。新系统具有足够的发展空间,能够满足未来5 年内电信业务的i t - 费要求,大量采用先进技术,保证系统在技术上的领先优势,系统的开放性构架 能够适应于未来的新业务的计费需求。 计费帐务中心负责电信业务的计费、帐务、销帐,同时具备用户资料管理( 与 “九七”系统相结合) 、业务规则与计费数据结合,生成计费帐务数据,合成客户 化综合帐单、资料管理、数据备份、整个系统监控、系统管理、统计管理等。 系统支持联机分析处理( o l a p ) ,支持数据仓库的建立,要求能够实现数据 的快速装载、高效的并发处理和交互式查询,以达到信息深层挖掘的目的,涉及 到数据索引、数据压缩、交互式数据查询等方面的技术。向省公司相关管理部门 提供各种电信业务的经营分析和业务预测资料及数据,同时与其它专业的计费结 算中心( 如数据计费系统、智能网、无线市话业务综合管理系统、固网短信系统) 、 大客户综合管理系统、“九七”g - 线管理综合系统、网管中心、异地容灾备份中,1 1 , 、 全省联网企业外部系统( 如银行、邮储等) 、各种专业计算机平台、相关管理部门 相连,形成覆盖全省的计算机广域网。同时,能够提供与现有其他业务平台接口 的解决方案,比如i n t e m e t 网上收费系统、委托投注系统、1 7 0 1 7 9 话费查询催 缴系统、自动停复机系统、智能网电话缴费卡系统、信息台业务系统。 2 3 全省集中计费系统整体结构 根据陕西省当前电信计费帐务系统的特点,全省集中计费系统采用集中计费、 分布营帐的模式,在全省范围内设立一个省计费结算中心和每个地市一套帐务营 收中心。 全省的采集系统均设立在各个地市局,由各地市局传送数据到省计费结算中 一1 1 , 。全省的计费结算均集中在省计费结算中心处理。然后根据需要将计完费用的 清单下发至各个地市帐务营收中一1 1 , ,由地市帐务营收中心进行帐务处理和相应的 营业收费。各个地市的营业点通过d c n 网络或“9 7 n 络”原有平台连入各个地市 帐务营收中心,进行销帐、查询。 部分集中方式较全省大集中方式其优势在于营收时大用户并发的压力可以大 大缓减,在体制管理上利于地市级的统一,各地市能够更好地执行本地区的资费 政策。不足在于各个地市自行帐务营收,全省只能做到部分集中管理( 集中计费) 。 第二章电信计费管理决策支持系统分析 根据陕西省电信公司的九地市( 咸阳、渭南、宝鸡、铜川、漩中、安康、商 洛、延安、梭林) 分公司已于1 9 9 9 年建成了本地网嶷中帐务营收系统,茵嶷审分 公司帐务营收系统翻前分为西安市与郊县两套应用系统的实际情况,以及近两年 各地市仍需实施灵涵的营销策略的实际情提,可以采用如下过渡的思路建设: 陕西省电信公司建一个集中计赞结算中心;西安市电信分公司建一套本地网 集中的帐务营收系绞;其锻地市髫藤剥用殿有设备器建一襄帐务营收系统: 最终全省的计赞帐务系统都平滑并入省中心的集中计赞帐务系统,各地市的 硬 孛设善逐可以骰镶张、蠢谗鼹务器菠曩,分接省中心营救鼹务器汝并发访润压 力。集中计赞、分布帐务营收模式按下图2 2 方式组网: 隧2 。2 系统整体组网结构鬻 s 蕊予数攥念痒援术懿电信诗赞d s s 磷究与实筏 省中心数撼淳服务器一台受责计费、一台受麦采集,嚣台数据库暇务器双枫热 备份。计完费的清单下发各地市。地市中心数据库服务器一台负责帐务和营收、 一台佟为盛用搬务器_ 秘w e b n 务器,鼹鸯数据鼹服务器双机热餐份。网管工馋站运 行网管应用软件,负责监控主机性能、网络状态等,同时对于异常情况进行辫警。 嚣台数撂疼溅务然通过壹逶方式与滋盘黪残和磁喾痒楣恣。殛台交换极互为 冗余备份,避免了网络连接的单点故障。通j 过防火墙设备隔离业务支撑中心和外 阚豹连接,进一步臻绦了业务支撑中心熬安全性。 2 。4 集中计费系统各功能模块 ( 一) 诗费处理 计费处理模块处理对象是话单和跳次,主凝功能魑:预处理、分拣话单、批 徐处理、计费处理的审核校验、异誊落单处理、告警鄹纠错处理、计费资料管理、 日志功能。 ( 二) 搬务整理 帐努处理是对计费处理后的清单数据,计赞系统传送的汁费清单数据与用户 资料数撵相结合,完成合襁与优惠处疆,形成糟户张肇数弦。襁务楚壤酶费稻种 类分为:租费,业务使用费,附加费,税。 ( 三) 销帐处理 销藩楚理楚指鞭务楚理部门在援定游阔内怼用户经矮电镕照务豹纛缴费建进 行的收取、核算等一系列事务。销帐的目的是对各项电信资费进行正确计费帐务 葶噩及霹溷牧,英主要内容毯瑟感壤戳蠹懿毅费退费、袈统链壤、网煮缝算、汇慧 稽核、银行托收、银行划帐、银行对帐、财务统计等所有与财务相关的事务。销 壤楚瑗鹣主要功麓包援牧费、欠费楚骥( 包拯鹱缴、箨复极、爨规销户、环啜处 理等) 、调帐处理、反销帐处理、用户资料及信用度管理、帐单寄送和舜地交费等 凌戆。t ( 四) 资料管理 对用户资毕斗、计费资料、大客户演料、用户信用度进行管理,对资料的每次 变动进行日恚酝录。系统提供友好的图形界西孙助资料管理,同时也提供了严格 的审核校验手段和安全管理措施,保诫对资料数据的修改安全可靠。 ( 五) 攀核校骏 第二章电信计费管理决策支持系统分拆 9 对系统数据处理的各个环节遴行监督和管理,保证系统正确、可靠遮行。校 验方式包括抽样处理和统计处理,本系统的审核校验功能包括:( 1 ) 提供系统全 过程的详细处理翻志并对日志记泵进行统计和查询。( 2 ) 及时发现和处璎系统各 环节产生的异常数据弗产生告警。( 3 ) 提供模拟处理功能来模拟数据采集、计费 姥理、襁务处理和销襁鲶疆等各主要环节。( 4 ) 耱够较攒历史数獭,对每月的暇 务数据的正确性进行评估。 ( 六) 查询服务 壹鹚缀务提供给弱产、上级主管嫠门或萁 龟电癌帮门,骞不潺鹣查询权疆陵 制,可有多种查询方式,系统为每个用户的私人信息提供密码傈护;提供人工查 丧j 、电话粪 丧j 、传爽查询秘e m a i l 查遘等多耱查溺手段:j c 幸套谗冁务进行霹恚记 录,系统对每一次查询操作都在f 1 志中进行记录; ( 七) 统计分析 系统熬够根据租费、邋话费、帐务期销蜈、业务量、用户资燃等统计要素灵 活生成业务量、话务量、用户数量、营收情况等统计数据并进行相应的分析处理。 系统舆有辅助决策功能,剥用数据仓痒技术,翦端展现工具o l a p 和数据挖 掘手段,满足决策者统计分析需要,辅助决策者作出符合企业发展方向的经营决 策。例如,对于毅执行鲍策项优惠政策,系统一方面可以统计出执行耨的优惠政 策后在短期内造成的收入减少幅度,另方面,可以根稻当前情况对业务的未来 发展及其收入进行预测,通过对这蕊方面的数据对比与投衡,系统可对新优惠政 策的可行性进行评估,为决策者键供正确的决策依据。 ( j k ) 数撂管理 数据镣理主要是对系统数据和应用数据进行锯份和恢复。数据备份可采用自 动残手工方式,支持磁盘、磁带和光盘等奔质,搿有备份操作帮後复襟髂都有秘 志记录。 ( 九) 系统管理 系统罄理功筑主要毯矮诗费系统管璞、安全镑理襄砖凌燕密。操作爨霹 冀遴 过图形管理界面对整个系统进行集中管理。 2 5电信计费管理的决策主题划分 图2 4 展示了一个电信企业的大概模裂。根据图中电信企业模型中的各功能 部门的业务积运营需求,可以将呶信公司决策管理涉及的主题划分为下瑟几秘: 0 基于鼗撂仓瘁技本熬龟信诗赞d s s 疆懿与实黢 圈2 4 电信企业简单模型 客户发展、收益分析、呼h q 特征分析、监务发展、营销管瑗、市场竞争、服 务质量、网络优化管理。 噬上分幸厅的主题之褥是耜互联系醵,如客户发震、收益分车斤、呼i q 特征和遮 几个主题之间就肖密切的联系,客户发展和营销管理以及市场竞争间也是如此。 弱矫不阏电信公嗣在工程上巅分主题静方法不尽稻圊。 针对上述主题,电依公司决策管理常见的分析问题有: 客户信瑁度分析、客户侨餐分析、客户流失分拆、客户欺诈分袄、收益情凝 分析、呼叫特征分析、营销管理分析、业务发展分析、市场竞争分析、服务质黛 分桥、网络饶纯管理。 以上主题和分析问题将在系统的设计实现部分详细讲解。 2 6 计费管理决策支持系统的复杂度分析 通过前面几节的论述,基本清楚了电信计费的各功能模块和决策主题,但还 要考瘗始嚣将土述夔定性窝定藿分辑麴纳汇惑,诗费分叛孛豹客户嚣分辑、收 益分析、营销分析等都需要在企业的大量历史数据中进行反复计算,又要根据 历史趋势预测漆来炊援,嗣酵,决策人员总是希望对影响企鼗牧a 发展匏各耪 因素进行更深朦信息的挖掘,以发现鼹否还存在一些潜在因素,对企妲效益构 残潜在浆损害,来更好她鳙爨瞧薅垒她决蒙。赝以,计费管爨决策支持具有摆 第二章电信计费管理决策支持系统分析 当的复杂度。 前面讲过,计费帐务系统作为把用户的消费量转变成企业价值量的枢纽系统, 要求计算和处理快速、准确,它在电信业务系统中占有重要地位。 首先计费帐务处理本身很复杂,包括采集、分拣、批价、审核校验、合帐、 优惠处理、销帐、日志管理、告警和纠错等。数据仓库中的数据要在计费帐务的 各个阶段生成,因此,各阶段都要将自己的细节数据和汇总数据进行抽取、转化、 清洗和装载。下面举几个主要步骤的数据。 数据采集阶段生成的格式标准化数据及异常数据等。 计费处理阶段生成的各种业务的计费清单数据及其异常数据等。 帐务处理阶段生成的各种设备的明细帐数据,用户明细帐数据,无主用户 数据,用户帐务数据,优惠处理数据及其相应的异常数据等。 用户的各种信息数据( 基本信息,业务信息,计费信息,帐户信息,用户 信用度数据) ,用户的变更数据等。 其次由于计费和呼叫数据是电信公司最大量的数据,支持决策的数据仓库内 数据量非常庞大。并且交换机型号各异,数据类型繁多,转换处理复杂。 再次决策支持系统所涉的分析预测模块繁多,各分析预测模块要选用适合于 自己的算法和展现方式。 最后,数据仓库的日常维护与管理也是一个艰巨的任务。 基于数据仓库控零戆电薅谵费d s s 疆突与实践 第三耄计费辅嚣秀决策的数据仓库方法 3 t 针费辅助决策的基本点 市场竞争,褥商梳者旌! 邀蔷企娩霉不麓象遵去都棒垒等客户寒办理盈务, 月底年底制作报表,而必须主动去分析话务量、分析客户、分析业务、分析市场、 徽统计损表,黠电话黼内话务流量懿分布,对客户港赞行为、消费心蘧、蓿焉瘦、 忠诚媵以及地理分布等,对业务发展前景,对市场占有率及其变化越势等进行深 入仔绥懿分聿嚣,馥到蠢鸵藏炙,并麓定狸应戆金韭发袋策略,发震瑟客户,蘩佳 老客户,增大市场占肖比例,为企业创出更大的经济效益,为用户掇供更满懑的 获务。 3 2 数据仓瘴的定义及其棚关壤念 3 。2 t 数攥仓露豹壤念及其定义 数据仓库概念的定义很多,较权威的是w i l l i a m i n m o n 博士于9 0 年代给出的。 数据仓库:通常怒一个面向主题的、集成的、随时间变化的、假信息本身相 对稳定的数掇集合,用于对管理决策过程的支持。 所谓主题,是指用户使用数据仓库进行决策时所关心的霆点方面。电信系统 中如褰户情况、呼叫帻况、业务发展情况、收盏情况等;所谓近阿主题,是指数 据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。而对 于某个主题的数据常常分布农不同的她务数摄库中,如果直接使用业务系统避行 决策支持,需要访问几个库才能获得信息,不仅极大地浪费系统处璎的时间和效 率,掰且数据之间不致和不同步,也影响决策的可靠性。数据仓瘁将这些数据 集中于个遗方,这样决策者可以报方便地谯数据仓库中一个位置稳索包含某个 主题的所有数据o ,。 如图3 1 装示了电信计费管理系统中的谳向主鼷的数据仓库与渡务数据库的 关系。图3 1 中,选撵收益、客户、市场3 个主题。收益主题可以从计费数据库 和帐务数据库中了解公司各项业务的收入情况;客户主题可以从计费数据瘁、帐 务数据库、客户服务数据库中获得客户消费、交费、咨询等全方位的信息;市场 主题可以获市场信息数据库分析市场的发展憨势。 第三章计费辅助决策的数据仓库方法 图3 1 面向土题的数据仓厍 所谓集成的,是指数据仓库中的信息不是从各个业务处理系统中简单抽取出 来的,而是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企业 的一致的全局信息。要实现数据的集成,就必须对数据进行清洗和转化,将不一 致的数据格式、不统一的测量单位、含义混乱的数据代码、数据名称等统一起来。 如果更进一步考虑,d s s 需要的不是静态的集成,而是动态的集成。静态集成的 最大缺点在于数据集成后数据源中的数据发生的变化不能反映给决策者,导致决 策者使用的是过时的数据。因此数据仓库必须能够使集成数据以一定的周期进行 刷新。 所谓随时间变化的,是指数据仓库内的信息并不只是关于企业当时或某一时 点的信息,而是系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息。即记录系统的各个瞬态,并通过将各个瞬态连接起来 形成动画,从而在数据分析的时候再现系统运动的全过程,并以此对企业的发展 历程和未来趋势作出定量分析和预测。图3 2 示意了数据随时间变化的特点,数 据提取的周期决定了动画间隔的时间,周期越短,动画速度越快。 图3 2 数据仓库数据随时间变化的特点 1 4 麓于数据仓库技术静电信计爨d s s 研究与实践 聪瑟谨壤感本奏楱慰稳定,是指旦菜令数据进入数据仓痒以爱,一般壤提 下将被长期保瞬,也就是数据仓库中一般有大量的插入和查询操作,但修改和删 除操搀缀少。效l o 号翔户1 奠份交费方式为“瑷金”,2 月份变更为“缀行托收”, 这一信息在业务数据麾中被更新了。但是在数据仓库中( 假定数据仓库每月进行 一次数摄提取) ,l 胃份提取到记录x x ,说明l o 号用户的交费方式为“现金”,在 执行2 月份的数据提取工作后,原先的记录x x 并没有发生任何改变,而是在数据 仓库中增热了条新记录y y ,说明l o 号用户交费方式为“银行托收”。 3 2 2 数据仓库体系结构 数据仓库的体系锚构可以用图3 3 来表示。由于数据仓库和数掘库针对的应 惹不憨,数援仓瘁穗教立于数务鼗撂疼系统,毽又圈照务数豢疼惠怠籀关“3 。逛 就是说,数据仓库不是简单地对数据进行存储,而是对数据谶行“再组织”。 图3 - 3 数撰仓痒的钵系结构 3 2 3 数据仓席中的棚关概念 ( 1 ) 数据提取( d a t ae x t r a c t i o n ) 逶常,数攒仓库按照分耩鹣主题来维缓数獾,我稻只需褥敬警系统分辑搽须 的那部分数据。 ( 2 ) 数据清洗( d a t ac l e a n i n g ) 第三章计费辅助决策的数据仓库方法 所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或 删除,以免影响决策支持系统决策的正确性。 ( 3 ) 数据转化( d a t a t r a n s f o r m a t i o n ) 将各业务数据库中不同的数据格式转换成统一的数据格式,便于计算比较。 ( 4 ) 提取仓库( e x t r a c t i o ns t o r e ) 由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在将数据 放进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取 仓库。 ( 5 ) 提取日志( e x t r a c t i o n l o g ) 提取日志详细记录了数据的来源、转化过程等,是数据仓库元数据的重要组 成部分,对于保证数据质量非常重要,并且便于数据管理员验证数据的质量。 ( 6 ) 数据管理员 数据管理员是数据仓库中的重要角色。他不同于数据库管理员,数据库管理 员负责数据库系统的数据备份、恢复、性能优化等工作,系统管理员负责操作系 统级的维护和管理,而数据管理员是数据导入时负责管理数据质量的专业人员”。 他负责查阅提取日志,发现其中记载的数据提取中出现的错误,有时还要检测源 于业务系统的错误,如业务系统中的程序或者不正确的数据项造成的错误。 ( 7 ) 外部数据源( e x t e r n a ls o u r c e ) 一个好的决策支持系统必须综合考虑系统内部和外部的相关数据。外部数据 源就是从系统外部获取的同分析主题相关的数据。 ( 8 ) 数据仓库存储( d a t a r e p o s i t o r y ) 数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。数据存储方 式主要有3 中:多维数据库、关系型数据库以及两种存储方式的结合。 ( 9 ) 数据 业务系统中提取的或从外部数据源中导入的数据经清洗、转化后成为数据仓 库的原始数据,它们是数据仓库数据的一部分,不是全部。由于需要数据仓库进 行o l a p 分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,如进行 大量的预运算,建立多维数据库,以求迅速地展现数据。 ( 1 0 ) 元数据 “元数据”是描述数据的数据,它提供了有关数据的环境。元数据主要包含 两类数据:第一类是为了从操作型环境向数据仓库环境转换而建立的元数据,它 包括所有元数据项的名称、属性及其在提取仓库中的转化;第二类元数据是用来 与最终用户的多维商业模型和前端工具之间建立映射的,这类数据成为决策支持 系统元数据,它包括: 数据仓库中信息的种类、存储位置、存储格式; 基于数锯念库技术豹电信计费d s s 研究与实践 信崽之闽静关系、臻惑翔鼗务瓣关系、数掇使用酶嬗努籁翊; 数撼模整; 数撵模鳌纛数撂仓瘁斡关系。 通常,散稻仓席将建立专沼的凭数据瘁采存放和管理元数据8 。 ( 1 1 ) 数搬集枣( d a t a m a r k e t ) 数据仓簿申存放静蹩整个企韭静销患,数据按照不丽静主题来缝织。实际使 用巾往往是禁令部f l 霞蠲莱令竣菜糖姆定主题豹数掇,瑟不露要检索憋个数攫仓 库鹃匿董数据,毽诧褥数搽按主题在逻辑土或凌璎上划分开,这种嚣淘垒业中静 某个部门( 主题) 嚣在逻辑上或物瑷上划分出来的数据仓露中的数撰子集栋为数 据繁市。数据篡枣瑟淘金监中瓣某个部门,只存款了莱个主题霉要的信息,其基 豹愚减少数搌处理凝,使壤息静利用更快撼、灵活0 1 。 ( 1 2 ) 数掇颡粒度 数搌颗粒发是数据仓瘁中很重要款概念,针对予o l a p 鄹d m 它鸯不尉含义。 0 l a p 粒一个羹要功能壤是粒瘸户望现不露综合程度黪数攥。针对予o l a p 的数 据粒度就是对数据念摩中数撰综合程度高度的一个艘嶷。数据的综合程度不网, 其数据量将耀燕投大。数摄粒发越小,售息越细节,数据爨越大。鞠反,数据技 度越大,数据嶷越小。如图3 4 所示,按照“每月”和按照“每次”统计的客户 呼n q 数据,题者的数掇量摆菠极大。设设每个字段占用8 个字节,每个用户平均 每天进行五次通话,则一个客户1 个月的呼叫细节数据的数据量为:8 6 3 0 x 5 = 7 2 0 0 字节,瓶一个客户1 个月的孵叫汇总数据豹数攘量为8x 4 = 3 2 字节。 数据用途不同要求的数据综合程度也不同,对多维查询来说,细节数据邋合 手缎节查询,两综念数器适金予综念凌谗,因此在数据仓熙中多重豹数据粒度是 必不霹少豹。但是,幽予数撄仓蓐最主要熬鼹豹是反浃企业熬体信息和d s s 分捞, 霞答综合程嶷较高瓣溺遥。翔栗为了窝答诲多维节淘麓,聪使系绞豹数据燕极度 图3 4 按“月”统计的秣户呼叫数据和按每次呼叫记载的客户呼叫数据 第三章计费辅助决策的数据仓库方法 膨胀,从而降低了系统的运营效率,就背离了系统建设的初衷。实际的工程项目 中,可以将综合程度较高的数据存放在访问速率较高的磁盘上,而将细节数据定 期导出到低速的磁带上。 数据粒度的第二种形式是针对数据挖掘的。数据挖掘常常使用计算复杂度较 高的算法( 如神经元网络) ,如果用数据仓库中存放的巨量数据直接运算,则计算 时间和空间复杂度将太高,使系统难于承受。因此在进行数据挖掘时,需要对数 据仓库中的数据进行抽样。数据粒度的第二种形式是指抽样率,即以一定的抽样 率对数据仓库中的数据进行抽样后得到一个进行数据挖掘的样本数据库。抽样中, 需要注意确定合适的抽样率和抽样方法。过大的抽样率将浪费系统的计算资源; 过小的抽样率可能使得样本数据集合太小,而不能反映源数据特征。经验证明, 在源数据量很大的情况下,抽样率可以选择为1 1 0 0 或1 1 0 0 0 ,源数据的数据量 越大,抽样率可以越低”“。 ( 1 3 ) 数据分割 数据分割是指将数据分散到各自的物理单元中以便能够独立处理,提高处理 效率。数据分割后的数据单元称为分片。分割没有固定标准,分割的方法和粒度 应根据实际情况确定。常常选择时间、地点、业务领域来划分。按时间分割符合 数据仓库数据随时间变化的特点,且分割后的数据较均匀,是最常用的分割方法。 分割使得数据更容易索引、监控和顺序扫描,且重构、重组简单。重构是分 割的反面,而重组是对分割的数据进行新的组合“”。 3 3 联机分析处理一o l a p 3 3 1o l a p 的基本概念 关系数据库之父e f c o d d 于1 9 9 3 年提出了联机分析处理( o l a p ) 的概 念,同时提出关于o l a p 的1 2 条准则,描述了信息处理技术的一个崭新领域。 o l a p 是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的 方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者“。下面介 绍一些与o l a p 相关的基本概念。 ( 1 ) 变量 变量是从现实系统中抽象出来的,用于描述数据的实际含义,即描述数据“是 什么”。比如变量“年龄”,指人从出生到当前的时长。变量都有一定的取值范围, 蓉于数据仓痒技术瓣电倍谵赞d s s 蕾舞究与实践 魏年龄鼹一般取篷为o 一1 0 0 岁。取馕范围实际上是其体趣题对变量的约束。 ( 2 ) 维 终是人们观察数掇豹特定蹙度,也是与絷事件提美的因素在关系模型的抽 象。比如客户打电话谴一事件中包含密户、时间、穗点、业务提供商、业务类型 等与分析阅题霄关的因素。 ( 3 ) 维的层次性 对应于数据的粒发,维媳存在着屡次性阀题。维的层次性是人们观察数据的 某个维的细致程度不黼的多个描述方面。如时闻维可糟“同”作为苹位刻度,也 可用“周”、“月”、“年”等作为单位刻度。维度层次的确定需要分析具体问题。 ( 4 ) 维成员 维的一个驳值称为该维的个维成员。若一个维是多层次的,则该维的维员 是在不同维蘑次取值的组合。俩如,辩间维鬃有目朝、胃份、年这三个层次,分 别在翻期、月份、年上各取个值组合起来,就得到了时间维的一个维成员,即 “某年菜月某麓”。一个维成员并不一定在每个维层次上都要取僮,翻麴“菜年菜 月”、“某月某闷”、“菜年”等都是时间维的维成员。 ( 5 ) 缭静分类 维不但存在层次性,而且为了分析需要常常要定义“类”。类就怒按照一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论