(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf_第1页
(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf_第2页
(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf_第3页
(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf_第4页
(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(信号与信息处理专业论文)数据仓库及其在电信经营分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

明 独创性( 或创新性) 声明: 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:鳓 关于论文使用授权的说明: 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 本人虢盼孑嗍缈所f j 目肜闫 一名埃( 玮e 町嗍洲、川础, 声 数据仓库及其存电信经营分析中盼应用 工程硕上论文 摘要 数据仓库技术及其方法论,正以一种全新的概念改变着我们利用数据的方式。 经过十几年的研究和实践,数据仓库技术已经融合了许多学科的最新研究成果, 并形成各具特色的研究分支,如数据挖掘、商业智能、联机分析等。目前数据仓 库的研究正处于蓬勃发展时期,国内大型企业如电信、银行、电力公司等,纷纷 开始了建设企业数掘仓库,并在数据仓库上开展经营分析系统应用,为分析决策 人员提供决策分析支撑。数据仓库技术通过与企业战略结合,可以提供企业市场 营销活动的驱动力。中国电信m r ( 市场营销再造) 项目的主要任务之一( i d m ) 就是探索数据挖掘与中国电信市场营销活动相结合的方法。结合本人的工作实践 和知识背景,我们开展了数据仓库技术及其在经营分析系统的应用这一课题有关 探索研究工作。 本文的主要内容是企业数据仓库体系建设、经营分析系统数据质量保障体系 建设以及基于电信市场营销活动的数据挖掘研究等。通过对企业的业务支撑系统、 数据管理流程、经营分析需求的分析,进行了电信企业数据仓库体系建设研究, 论文对数据仓库体系的总体概要设计、数据抽取设计、e t l 调度系统设计、系统 安全设计进行了论述。我们认为,数据仓库是一个自底而上,逐步迭代的过程, 通常从面向某个主题的部门级数据集市开始。结合实践工作,本文以市场部门的 需求主题为背景,进行了数据部署和数据抽取过程的设计研究,考虑到星型建模 模式更符合决策分析人员的思维方式,容易理解和运用,因此数据建模的方式采 取了星型建模方式,并对建模方法进行了论述。 数据仓库体系和经营分析系统建立起来后,它所提供的数据质量就成了系统 的生命。针对经营分析系统数据质量的焦点问题,本文进行了深层次的成因分析, 总结出影响数据质量的主要因素。在此基础上,开始了经营分析系统数据质量保 障体系的研究,重点对总量稽核、分量稽核、规则稽核、程序处理过程稽核等关 键数据质量保障环节的处理流程和方法进行研究。 在进行集中的数据管控和宏观分析的时候,我们发现目前电信企业的业务支 撑系统有一个普遍的缺点,就是源系统的数据遵循着各自不同的编码规则,我们 把业务支撑系统的这些编码规则、维度编码、属性取值通称为基础编码。本文研 究了这些基础编码的数据模型特点,提出了实时在线的基础编码管理系统技术方 案研究,并在实践中实施,取得了良好的效益。 论文最后对数据挖掘在电信市场营销活动的驱动作用进行了研究,对数据挖 掘在市场营销中的应用进行了初步探索,着重论述数据挖掘的方法论在市场营销 业务应用中的指导作用,并对聚类分析、关联分析、决策树分析等常用的数据挖 掘方法进行了研究。 总之,本文是既重视数据仓库技术的研究,也重视经营分析业务方面的研究, 重点论述了数据仓库方法沦在企业经营分析和运营管理工作中的作用。 数据仓库及其在电信经营分析中的应用工程石贞士论文 关键词:数据仓库,数据集市,数据挖掘,经营分析,星型建模,数据 质量,基础编码,知识发现。 a bs t r a c t d a t aw a r e h o u s et e c h n o l o g ya n di t sm e t h o d o l o g y , w h i c hc h a n g e st h ew a yo fo u r m a k i n gu s eo ft h ed a t aw i t hak i n do fn e wc o n c e p t a f t e rm o r et h a nt e ny e a r sr e s e a r c h a n d p r a c t i c e ,d a t aw a r e h o u s et e c h n o l o g yh a sb l e n d st h e1 a t e s tr e s e a r c hr e s u l to f m a n yc o u r s e s ,c o m i n gi n t ob e i n gac h a r a c t e r i s t i cr e s e a r c hb r a n c h ,s u c ha sd a t am i n i n g , b u s i n e s si n t e l l i g e n c e ,o l a pe t c t o d a y , d a t aw a r e h o u s er e s e a r c hi s b e i n gi nt h e b o o m i n gd e v e l o p m e n tp e r i o d ,m a n yi n t e r n a ll a r g e b u s i n e s s e n t e r p r i s e ,s u c h a s t e l e c o m m u n i c a t i o n ,b a n k ,p o w e rc o m p a n y e t c ,s t a r t i n gt ob u i l dd a t aw a r e h o u s e u s i n g i tt o s u p p o r t s t h e m a n a g e m e r i ta n a l y s i s ,t os u p p o r td e c i s i o na n d a n a l y s i s i n t e g r a t i n gd a t aw a r e h o u s et e c h n o l o g yw i t hb u s i n e s se n t e r p r i s es t r a t e g y , i tc a n p r o v i d em a r k e t i n ga c t i v i t yo fse n t e r p r i s e o n eo ft h em a i nt a s ko ft h ec h i n a t e l e c o m m u n i c a t i o nc o m p a n y sm a r k e tr e - e n g i n e e r i n g ( m 鼬p r o j e c ti st os e a r c ht h e w a y sb e t w e e nd a t am i n i n ga n dm a r k e t i n g b e c a u s eo fm yw o r k i n gp r a c t i c e sa n dm y k n o w l e d g eb a c k g r o u n d ,w es t a r tt os t u d yd a t aw a r e h o u s et e c h n o l o g ya n di t s a p p l i c a t i o ni nm a n a g e m e n ta n a l y z i n g t h em a i nc o n t e n t so ft h ea r t i c l ei sa b o u th o wt ob u i l d i n gd a t aw a r e h o u s e ,h o wt o b u i l d i n gt h eg u a r a n t e e ss y s t e mo fd a t aq u a n t i t y , a n dt h er e s e a r c ho fd a t am i n i n g i nm a r k e ta c t i v i t y ,e t c b yt h ea n a l y s i so ft h ec o m p a n y sb u s s n e s ss u p p o r ts y s t e m ,a n d t h ep r o c e d u r eo fd a t am a n a g e m e n t ,t h ed e m a n do fm a n a g e m e n ta n a l y s i s ,e t s w e f i n i s h e dt od i s s e r t a t eh o wt o b u i l d i n gd a t aw a r e h o u s e id i s s e r t a t et h es u m m a r yo fd a t aw a r e h o u s ed e s i g n ,o fd a t ae t l p r o g a r m ,o fe t l a d j u s ts y s t e m ,o fs y s t e m ss a f e t y i no u ro p i n i o n ,t h ed a t aw a r e h o u s ei sap r o c e s sw h i c h i so f f r o mb o t t o mt ot o p ,g r a d u a l l yr e p l a c e d i nu s u a l l y , w eb u i l dd a t am a r tm a tf a c et oa c e r t a i nt o p i ca c c o r d i n gt om a r k e td e m a n d s ot h a t t h ep a p e rd e s c r i b et h ed e m a n do f t h em a r k e ts e c t i o n ,p r o c e e d i n gt h ed a t ad e p l o y m e n ta n dt h ed e s i g no ft h ed a t ae t l ,t h e s t a rs c h e m am a t c h e st h ew a yo f a n a l y s i sp e r s o n n e l sm e t h o dw h i c hi se a s i l yt o u n d e r s t a n d ,t ou s ei t ,t h u s ,o u rw a y so fd a t am o d e l i n gi st ou s et h es t a rs c h e m a ,a n dw e s t u d yt h ew a yo f d a t am o d e l i n g a f t e rw ef i n i s h e dt ob u i l dd a t aw a r e h o u s es y s t e m ,i t sd a t aq u a n t i t yb e c a m et h el i f e o ft h es y s t e m f o c u so nt h ep r o b l e mo ft h em a n a g e m e n ta n a l y s i ss y s t e m t h ep a p e r d e e p l yd i s s e r t a t et h er e a s o no fd a t aq u a n t i t y , s u m m a r i z i n gt h em a i nf a c t o ro fd a t a 2 数据仓库及其在电信经营分析中的应用 工程硕士论文 q u a n t i t y b a s i n go i lt h er e s u l t ,w es t a r tt 0s t u d yh e w t ob u i l dt h ed a t aq u a n t i t yg u a r a n t e e s s y s t e m ,p o i n t i n gt ot h e s ew a y ss u c ha s t o t a lm e a s u r e ,p a r tm e a s u r e ,r u l ea u d i t o r , p r o c e d u r ep r o c e s s i n g a u d i t o re t c i nm a c r oa n a l y s i s ,w ed i s c o v e rt h es i g n i f y p r o b l e mo ft h eb u s i n e s ss u p p o r t s y s t e m ,w h i c hi st h ed a t ao f t h es o u r c es y s t e mt of o l l o wd i f f e r e n tb a s i cc l a s s ,w en 锄e t h e s ec o d i n g s e sa n dr u l ea sb a s i cc l a s s i nt h i sp a p e r ,w es t u d yt h ed a t am o d e l c h a r a c t e r i s t i c so fb a s i cc l a s s ,a n dw eo f f e rt h ep r o j e c tw h i c hi si l a r n eb a s i cc l a s s m a n a g e m e n ts y s t e m a n dt h e n ,w ep l a yi n t op r a c t i c ea n do b t a i n i n gt h eg o o da d v a n t a g e f i n a l l yi nt h ep a p e r , w es t u d y d a t am i n i n gm a di t s a p p l y m e n ti nm a r k e t , e m p h a s i z e o nt h em e t h o d o l o g yo fd a t am i n i n gi nm a r k e t ,s u c ha s t h ew a yo f c l u s t e r i n g ,o f a s s o c i a t i o nm o d e l ,o fd e c i s i o nt r e e a l t o g e t h e r , t h ep a p e r n o t o n l ye m p h a s i z e s o nt h e t e c h n o l o g y o fd a t a w a r e h o u s e ,b u ta l s ot h eb u s i n e s s ,e m p h a s i z e se s p e c i a l l yo nt h ea p p l i c a t i o no ft h e m e t h o d o l o g yo f d a t aw a r e h o u s ei ne n t e r p r i s em a n a g e m e n ta n da n a l y s i s k e y w o r d s d a t aw a r e h e u s e ,d a t am a r t ,d a t am i n i n g ,m a n a g ea n a l y s i s s t a rs c h e m a ,d a t aq u a l i t y ,b a s i cc l a s s ,k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e 数据仓库及其在电信经营分析中的应用 工程硕十论文 第一章绪论 目前,电信运营商之间竞争激烈,价格战愈演愈烈,但不可否认的是,广大 用户对电信的价格诱惑也逐渐产生了免疫力,如何从低层次的价格竞争解脱出来, 加强市场经营工作的精确化管理,提升企业的核心竞争力,从而实施企业战略转 型,已成为电信运营商做大做强的必由之路。 电信运营商提倡精确管理的思想,精确管理的核心是科学管理。精,就是要 做深、做透、做到位做出高水平;确,就是明确、具体、可操作、可控制、可衡 量;精确管理要求企业要用数据说话,降低数据离差率,并贯穿于企业市场经营、 网络运营、财务及人力资源等综合管理的全过程。实施精确管理的精髓是数据, 近年来,数据仓库技术的发展为企业整合数据、挖掘知识提供了正确的方向。 1 1 研究背景 电信企业选择建设数据仓库是有着其必然性的。 首先,电信的垄断格局已经被打破,电信运营商之间业务相似、甚至雷同, 而不同的产品、业务的替代性也明显起来。其次,市场竞争日趋激烈,“价格战” 愈演愈烈,常常造成两败俱伤的局面,第三,电信用户在多个运营商可以选择的 情况下,要求越来越高的服务质量,而几乎所有的运营商都十分的重视服务质量。 这样,外部市场环境的变化就要求企业积极去变革、去面对。 电信企业在多年的生产运营中,由于业务和技术的飞速发展,生产系统的软 件升级、改造、扩容在不断的进行中,海量电子数据不断的生产出来。然而,这 些数据却常常存在于各个不同业务支撑系统的“信息孤岛”中,造成“数据爆炸 但知识贫乏”的局面。如何在复杂数据源的情况下整合数据,构建企业的数据仓 库,提供经营分析和决策支撑,已成为电信运营商的共识。 1 2 拟解决的问题 为解决“数据爆炸但知识贫乏”的问题,挖掘数据的信息,使海量的电子数 据真正转化为信息,需要构建企业数据仓库。电信企业的数据仓库是一个自底而 上、逐步迭代的过程,一般先从部门级的数据集市建设入手。根据笔者数据仓库 建设工作的实践,以及对经营分析模型和数据挖掘算法的研究。本文拟解决的问 题如下: ( 一) 根据电信市场经营分析的业务需求,调研电信业务支撑系统的应用现 状、数据管理流程,结合电信经营分析的需求和目前软硬件技术的发展,进行电 信数据仓库建设的没计,从而构建电信公司的数据仓库体系,并根据市场部门的 应用需求出发,给出一个面向市场主题的数据集市的实例。 ( 二) 分析研究电信数据仓库建设、经营分析应用的重点难点问题,亦即数 数据仓库及其在电信经营分析中的应用 工程硕士论文 据质量问题,总结出数据仓库的数据质量问题的原因;并进行了建立数据质量保 障体系的研究和实践,从管理手段和技术手段方面着手解决数据质量的问题。 ( 三) 根据电信市场经营工作的精确化管理要求,探索数据挖掘与市场营销 活动相结合的方法,进行数据挖掘方面的实践。并利用聚类分析方法进行客户细 分、利用关联算法进行产品捆绑营销分析、利用决策树算法进行投资效益分析等 方面进行了具体研究探索。 1 3 创新性工作 数据仓库和经营分析系统是业务和技术紧密结合的系统,对技术、业务和管 理要求都非常高。针对经营分析系统建设的重点和难点,笔者从以下两个方面进 行了创新性的工作: ( 1 ) 生产系统基础编码的在线实时管理研究和实践。 目前电信支撑系统维度编码信息的特点是繁多、复杂、分散,各个支撑系统 存在着不同的客户、产品、业务的编码方案,系统间数据模型差异很大。我们把 业务支撑系统的这些编码规则、维度编码、属性划分通称为基础编码。如何在集 团、省公司层面屏蔽这些不同名称相同内涵的编码带来的复杂性,进行正确的经 营分析和决策支撑活动,是一项相当艰巨复杂的工作。笔者进行了在线实时基础 编码管理系统的设计实践,保证了基础编码在分析系统的一致性和实时性,使之 成为数据e t l 过程、统计分析口径的最重要依据。 ( 2 ) 数据质量保障体系的建设 当数据进入数据仓库以后,数据质量的保障体系就会显得十分重要,业务人员 往往发现了数据质量的严重问题,而技术人员却根本无法进行事先排除,也难以 在事后进行差异解释,相关的元数据管理往往不是很完善。根据数据的特点和业 务特性,笔者对数据质量保障体系进行了探索实践。 1 4 文档内容以及组织结构 本文的主要研究内容是以建设电信公司的数据仓库和经营分析系统的需求为 背景,论述数据仓库以及数据挖掘在电信经营分析中的应用。概述了面向主题的 电信企业数据仓库的构建方法,并根据电信经营分析系统的数据质量问题,重点 论述了数据质量保障体系的实施方案。本文对经营分析工作的收入分析、用户分 析、多维分析等主题模型的构造方法也进行了探讨,在数据挖掘研究中,讨论了 聚类分析、关联分析、决策树分析等数据挖掘方法论在市场营销活动的应用。 本文第一章介绍了绪论有关内容,对研究背景、拟解决的问题、创新性工作等 进行了说明,第二章介绍了数据仓库有关概念、数据挖掘技术及方法等内容,第 三章对电信企业的业务支撑系统、数据管理现状以及经营分析需求进行分析,提 出构建企业数据仓库的方案,并在构建的数据仓库中进行了面向市场主题的数据 数据仓库及其在电信经营分析中的应用工程硕士论文 集市设计。第四章对数据质量原因进行分析,论述了数据质量保障体系建设的方 案,创新性的提出在线实时的基础编码管理方案,第五章对数据挖掘方法论在市 场营销活动的驱动力作用进行了论述,重点探讨了聚类分析、关联分析、决策树 分析的分析方法和分析流程,第六章对全文进行总结并对电信数据仓库建设和决 策支撑系统的建设进行了展望。 本文各章节的组织机构图如下 1 5 本章小节 本章介绍了数据仓库和经营分析系统研究的意义和背景、论文的主要研究内 容和创新性工作等,概括性描述了文档内容以及组织结构图。 数据仓库技术和有关方法论,正以一种全新的概念改变着我 f f n 用数据的方 式。经过十几年的研究和实践,数据仓库技术已经融合了许多学科的最新研究成 果,并形成各具特色的研究分支,如数据挖掘、联机分析等。目前的数据仓库研 究正处于蓬勃发展时期,其研究内容是极其丰富的。作为工程硕士论文,笔者在 充分了解基本概念和主要技术发展状况的前提下,重点结合了工程工作的研究实 践,对数据仓库的基本设计、数据流程和处理、经营分析系统应用、基于市场营 销活动的数据挖掘等方面进行了初步探索,应用数据仓库的方法论解决了当前工 作的一些问题,并产出了一定的效益。 数据仓库及其在电信经营分析中的应用 工程硕士论文 本文的特点是业务和技术的研究并重,着重于数据仓库方法论在生产运营和 管理工作中的利用。 数据仓库及其在电信经营分析中的应用 工程硕上论文 第二章数据仓库技术概要 2 。1 数据仓库概论 什么是数据仓库? 数据仓库概念创始人w h i l m 3 1 0 n 将其定义为:“数据仓库是 支持管理决策过程的,面向主题的、集成的、稳定的、随时间变化的数据集台”。 从广义上讲数据仓库是指存储大量历史数据的数据库。每一个记录代表特殊时间 点上的一个数据。它是一种把收集的各种数据转变成有商业价值的信息技术,并 把收集的信息体现在报告中。包括收集数据,过滤数据,存储数据,之后把数据 应用于分析、报告等应用程序。数据仓库目标是确认数据结构,寻找趋势,辅助 决策,为经营管理提供决策信息。 本章主要对数据仓库的关键概念如维度、粒度、元数据等进行了解释,也对 数据挖掘有关概念、方法、处理过程等进行了论述,是建立数据仓库实践的必备 知识。 2 1 1 基本概念 2 1 1 。1 维度 维度是用来反映业务的一类属性,这类属性的集合构成一个维度。如时间、 地理位置或产品。维度是数据仓库和经营分析经常用到的概念,在确立数据仓库 维度规划时,属性的划分并做到属性不交叉是做好数据仓库数据组织和规范经营 分析口径的关键。在电信经营分析中,最常提及的维度包括时间、地点、业务、 产品、渠道、客户、付费方式、用户性质等等。 2 1 1 。2 粒度 粒度是指数据仓库的数据单元中保存数据的细化或综合程度的级别,细化程 度与粒度级别的反比关系。粒度将直接决定所构建仓库系统能够提供决策支持的 细节级别。粒度越高表示仓库中的数据较粗,反之,较细。粒度是与具体指标相 关的,具体表现在描述此指标的某些可分层次维的维值上。例如,时间维度,时 间可以分成年、季、月、周、日等。t 2 1 。1 3 元数据 按照传统的定义,元数据( m e t i t d a t a ) 是关于数据的数据。在数据仓库系统中, 元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关 心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用 途的不同分为两类:技术元数据:t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s s 数据仓库及其在电信经营分析中的应用 工程硕上论文 m e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的 定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇 总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实 际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库 中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、 对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公 式和报表的信息;具体包括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据 模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基 础,不懂数据库技术和s q l 语句的业务人员对数据仓库中的数据也能做 到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员 在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合 规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形 式。 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出 了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据 库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有 所体现。 与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要 工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,o l a p 分析和数据挖掘等。它的典型结构由操作环境层、数据仓库层和业务层等组成。 元数据管理在数据仓库中起到了承上启下的作用,具体体现在以下几个方面: ( 一) 元数据是进行数据集成所必需的 数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据 上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数 据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系 数据仓库及其在电信经营分析中的应用 工程硕士论文 及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中, 直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数 据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不 过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘 蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数 据仓库中时就会比较顺利:相反,如果在建设数据集市的过程中忽视了元数据管 理,那么最后的集成过程就会很困难,甚至不可能实现。 ( 二) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因 此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数 据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式 “翻译”出来,从而帮助最终用户理解和使用数据。 ( 三) 元数据是保证数据质量的关键 数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据 的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者 很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的 来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据 具有信心;当然也可便捷地发现数据所存在的质量问题。 ( 四) 元数据可以支持需求变化 随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何 构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问 题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远 远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有 效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。 2 1 1 4o l a p 和o i j p o l t p 是o n l i n et r a n s a c t i o np r o c e s s i n g ( 联机事务处理) 的简称,主要是为自 动化生产、精简工作任务和高速采集数据服务的。它是事务驱动的、面向应用的。 它的根本任务就是及时地、安全地将当前事务所产生的记录保存下来。 联机分析处理( o l a p ) 是以海量数据为基础的复杂分析技术。它支持各级 管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多 维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。o l a p 使用的逻辑数据模型为多维数据模型。常用的o l a p 多维分析操作有上卷、下钻、 切片、切块、旋转等。 多维数据模型在物理实现时,主要有三种方式:r o l a p 结构、m o l a p 结构 和h o l a p 结构。其中r o l a p 是基于关系数据库的o l a p 实现, m o l a p 是基 数据仓库及其在电信经营分析中的应用 工程硕士论文 于多维数据组织的o l a p 实现,h o l a p 是基于混合数据组织的o l a p 实现。下图 是r o l a p 和m o l a p 的数据组织形式示意图。 下表是r o l a p 和m o l a p 的优缺点比较 r o l a pm o l a p 优点:优点: 支持人量数据d s s 性能最优、优化访问 支持动态连接大虽函数 支持更新对预定访问模式的优化 熟悉的关系型结构易_ 二切片切块 缺点:缺点: 性能较差处理数据量受限 难以优化访问加载时间长、不能更新 胖客户端可扩展性差 不支持动态连接 h o l a p 是基于混合数据组织的o l a p 实现,综合了r o l a p 和m o l a p 的优 点,并尽可能的避免两者的缺点o l a p 实现。 o l a p 具有以下特性: 快速性:对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用 户的大部分分析要求做出反应。 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和 分析,包括对层次维和多重层次维的完全支持。 数据仓库及其在电信经营分析中的应用工程硕士论文 信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及 时获得信息,并且管理大容量信息。 2 1 1 5e t l e t l 是指数据抽1 仅( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n s i n g ) 、装载( l o a d ) 的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数 据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 2 1 2 数据仓库与数据库 数据库和数据仓库之间有区别也有很多联系,数据仓库的实现要借助数据库 技术,而数据库却不等同于数据仓库。最明显的区别是在数据仓库环境中并不进 行一般意义上的数据更新,它们之间的区别可以用下图简单说明: 数据仓库与传统的数据库系统相比有着本质的区别。它们的区别主要表现在 ( 1 ) 建立方式不同 数据库是一种通用平台,建立于严格的数学模型之上,用来管理企业数据, 进行事务处理,完成相关业务。目前电信企业普遍采用的o r a c l e 、s y b a s e 等 数据库产品都是大型的关系型数据库管理系统,它们的数据严格按照关系模型的 规贝0 组织。而数据仓库没有严格的数据理论,更偏向于工程,它不是花钱就可购 买到的成品,而是企业一个日积月累的建立过程。一般现在的数据仓库系统其数 据源都来自企业的数据库系统,经过一定的清洗、转换、汇总、格式化后自h 入到 数据仓库中。因此数据仓库是更高一个层次上的数据系统。 ( 2 ) 包含数据不同 数据库系统包含的数据都是操作型数据,有时又称为o l t p ( 联机事务处理) 数据、原始数据、初始数据和联机数据;而数据仓库系统包含的是分析型数据, 数据仓库及其在电信经营分析中的应用 工程硕士论文 有时也称为信息性数据、决策支持数据、导出数据、提取数据和总结数据。 这两种数据在使用方面有着显著区别: 操作型数据表示业务处理的动态情况,数据在存取的瞬间是正确的而分析 型数据表示业务处理的静态情况,代表过去的数据。 操作型数据可由操作人员通过应用软件更新,而分析型数据一般不可更 新,终端用户的访问权限常常是只读的。 操作型数据处理细节问题,它有许多事务,每个事务影响数据的一小部分, 而分析型数据更多关注的是结论性的数据,是综合的,或是提炼的。它有 数目不多的一些查询,但每个查询可访问大量的数据。 操作型数据操作需求事先可知道,系统可按预计的工作量进行优化,而分 析型数据操作需求事先不知道,系统不能确定下一步用户要做什么。 操作型数据有许多事务,每个事务影响数据的一小部分操作型数据对性能 要求高,而分析型数据对性能要求宽松。 因此这两种数据不应该保存在一起。一个好的操作型数据库不能很好地支持 分析决策,一个好的分析型数据库也不能高效地为业务处理服务,因此,应将它 们分开,分别组织起操作数据环境和分析数据环境。 ( 3 ) 应用对象层次不同 数据库系统面向应用,支持日常操作,使用者主要是企业的业务操作人员, 用户不必理解数据库,他们只是输入数据或按照设定好它的业务逻辑对数据进行 变动。而数据仓库系统面向分析,支持管理需求。使用者是企业的业务管理者和 经营决策人员,用户需要理解数据仓库的组织结构,从而更好地发掘有价值的信 息。 ( 4 ) 支撑的应用不同 数据库支持的应用主要是联机事务处理( o l t p ) ,即可能大量发生,又要求快 速响应的事件。如本地网计费的销帐系统,9 7 的业务受理系统,民航的定票系统 等。数据仓库主要为联机分析处理( o l a p ) 和数据挖掘( d a t a m i n i n g ) 等技术的 实现提供基础,进而帮助企业实现决策支持系统( d s s ) 和客户关系管理系统 ( c r m ) 。 2 2 数据仓库体系结构 数据仓库系统一般是一个包含四个层次的体系结构,如下图表示。 数据仓库及其在电信经营分析中的应用丁程硕士论文 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企 业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和 各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键 是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同 时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓 库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据, 进行抽取、清理,并有效集成,按照主题进行组织。具有多重粒度性,包含历史 细节数据和综合性数据。根据分析的主题组织,数据仓库按照数据的覆盖范围可 以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 ( 3 ) o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之 中,聚合数据存放于多维数据库中。 ( 4 ) 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖 掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主 要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 数据仓库体系结构追求性能和功能的平衡,一般数据仓库不具有快速反应的 特征。常常通过数据集市的调节平衡作用。 数据仓库内部的数据表多采用星型连接,包括事实表( 大量数据、商业度量、 数值数据) 、维表( 少量数据、用于分析和决策的特性) 、文本数据、为决策支持 系统的处理优化数据等。数据之间采用了数据预连接,并有选择的进行了数据冗 余。 数据仓库及其在电信经营分析中的应用工程硕士论文 2 3 数据挖掘技术 2 3 1 数据挖掘定义及含义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的 先进有效的方法。 2 3 2 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据 集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面 会讲到的,数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入 数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且 所有的数据不一致的问题都已经被你解决了。 数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理 上单独的数据库。 2 3 3 数据挖掘和在线分析处理( o l a p ) 数据挖掘和o l a p 是完全不同的工具,基于的技术也大相径庭。 o l a p 是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都 有什么( w h a th a p p e n e d ) ,o l a p 则更进一步告诉你下一步会怎么样( w h a tn e x t ) 、 和如果我采取这样的措施又会怎么样( w h a ti f ) 。用户首先建立一个假设,然后用 o l a p 检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导 致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后 用o l a p 来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负 债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到 找到他想要的结果或放弃。也就是说,o l a p 分析师是建立一系列的假设,然后通 过o l a p 来证实或推翻这些假设来最终得到自己的结论。o l a p 分析过程在本质 上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用 o l a p 手动分析验证这些假设将是一件非常困难和痛苦的事情。 数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模式( 模 型) 的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。 比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘 数据仓库及其在电信经营分析中的应用工程硕士论文 工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些 分析师从来没有想过或试过的其他因素,比如年龄。 数据挖掘和o l a p 具有一定的互补性。在利用数据挖掘出来的结论采取行动 之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么 o l a p 工具能回答你的这些问题。 2 3 4 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖 掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 2 3 4 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题, 数据挖掘使用过去有关促销b 的数据来寻找未来投资中回报最大的用户,其它可 预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 2 3 4 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论