(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf_第1页
(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf_第2页
(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf_第3页
(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf_第4页
(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库与olap技术在电信领域应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 目前,数据仓库技术正处于快速发展时期,基于数据仓库的联机分析处理系 统也正在成为i t 行业新的增长点。数据仓库技术起源于对大量数据进行处理的需 要,是随着业务应用的需要而产生的。与传统的数据库技术相比,数据仓库为决 策分析提供了更好的支持,跳出了传统联机事务处理的范畴。因此近几年来,数 据仓库技术发展很快,并在各个行业都得到了很多的应用。相对于国外大中型企 业,我国企业的数据仓库建设目前还处于起步和探索阶段,在电信企业这样大型 的信息化产业内部建设数据仓库应用,对技术更是提出了更高的要求。目前介 绍数据仓库和o l a d ,技术的书籍和资料在概念和结构方面讨沦较多,本文希望通 过讨论在设计和具体实现数据仓库,以及基于数据仓库的o l a p 的过程中遇到的一 些比较实用和细节的问题,达到从实际出发、突出实用性和集成性的特点。本文 首先阐述了数据仓库的和联机分析处理的概念和发展历史,以及当前我国电信行 业对传统数据库的应用情况;接下来从理沦上分析了数据仓库和多维分析与传统 数据库应用的不同之处,重点阐述了对数据进行多维分析的概念和方法,并提出 了一种能够有效提高多维查询效率的实体化视图算法。在应用分析部分,针对数 据仓库建设的各个重点环节进行分析和讨论,结合理论知识和实际经验得出最适 合当前电信行业应用的处理方案或建议,并讨论了当前可应用数据仓库和联机分 析处理技术的领域。最后给出了一个数据仓库的应用实例一电信话单分析系统, 通过该系统的从建模到数据抽取,到多维分析应用,展示了如何从现有业务系统 上建立数据仓库应用和多维分析方法。 建设数据仓库系统能够极大地提高国内电信企业的业务支撑能力,丰富企业 的业务应用内容,提高企业的市场竞争力,缩短与国际电信企业在运营管理能力 方面的差距。为迎接进入w t o 后更开放的、竞争更激烈的电信市场做好技术准备。 关键词:数据仓库、多维分析、联机分析处理、决策支持系统、关系数据库 电子科技大学硕士学位论文 a b s t r c t a tp r e s e n t ,t h ed a t aw a r e h o u s et e c h n o l o g yi sb e i n gi nt h ef a s td e v e l o p m e n tt i m e , a n do n l i n ea n a l y s i sp r o c e s s i n gs y s t e mb a s e do nt h ed a t aw a r e h o u s et e c h n o l o g yi s b e c o m i n gan e wg r o w i n gp o i n to ft h ei tp r o f e s s i o n t h ed a t aw a r e h o u s et e c h n o l o g y o r i g i n si nc a r r i e s0 1 2p r o c e s s i n gt ot h em a s sd a t a , i ti sa l o n gw i t ht h es e r v i c ea p p l i c a t i o n n e e d c o m p a r e sw i t ht h e t r a d i t i o n a ld a t a b a s et e c h n o l o g y , t h ed a t aw a r e h o u s eh a s p r o v i d e dab e r e rs u p p o r tf o rt h ed e c i s i o na n a l y s i sa n dj u m p e do u tt h ec a t e g o r i e si n t r a d i t i o n a lo n - l i n eb u s i n e s sp r o c e s s e s t h e r e f o r e ,d a t aw a r e h o u s e s t e c h n o l o g i c a l d e v e l o p m e n ti sv e r yq u i c ki nt h el a s tf e wy e a r s ,a n dp e o p l e sh a v ed e v e l o p e dm a n y a p p l i c a t i o n s i ne a c hp r o f e s s i o n c o m p a r et ot h eo v e r s e a sm i d d l eo rl a r g es c a l e e n t e r p r i s e so u rc o u n l l ye n t e r p r i s e s d a t aw a r e h o u s ec o n s t r u c t i o ni ss t i l li nt h e e x p l o r a t i o ns t a g ea tp r e s e n t i nl a r g e s c a l ea n di n f o r m a t i o nb a s e de n t e r p r i s e sl i k et h e t e l e c o m m u n i c a t i o nc o m p a n i e si nc h i n a ,b u i l d i n gd a t aw a r e h o u s ea p p l i c a t i o ni sa h i g h - l e v e lr e q u e s tt ot h et e c h n o l o g yu s e r s a tp r e s e n t ,b o o k sa n dt h ea r t i c l e sw h i c h i n t r o d u c e dt h ed a t aw a r e h o u s ea n dt h eo l a pt e c h n o l o g yd i s c u s sm a n yi nt h ec o n c e p t a n dt h es t r u c t u r ea s p e c t ,t h i sa r t i c l eh o p e dt h r o u g ht h ed i s c u s s i o ni nt h ed e s i g na n dt h e s p e c i f i ci m p l e m e n t a t i o nd a t aw a r e h o u s e ,a n do l a pb a s e do n d a t aw a r e h o u s ei n p r a c t i c a la n dd e t m lw a y , a c h i e v e de m b a r k s ,p r o m i n e n tu s a b l ef r o mt h er e a l i t ya n dt h e i n t e g r a t i o nc h a r a c t e r i s t i c t h i sa r t i c l ef i r s te l a b o r a t e dt h ed a t aw a r e h o u s ea n dt h eo n l i n e a n a l y s i sp r o c e s s i n gc o n c e p ta n dt h e i rd e v e l o p m e n th i s t o r i e s ,a n dt h e nd e s c r i b e dt h e s i t u a t i o no ft h et r a d i t i o n a ld a t a b a s e a p p l i c a t i o n i i lo u rc u r r e n t c o u n t r y t e l e c o m m u n i c a t i o np r o f e s s i o n ;m e td o w nt h i sa r t i c l e t h e o r e t i c a l l ya n a l y z e d t h e d e f e r e n c eb e t w e e nt h ed a t aw a r e h o u s ea n dt h em u l t i d i m e n s i o n a la n a l y s i st e c h n o l o g yt o t h et r a d i t i o n a ld a t a b a s ea p p l i c a t i o n s ,a n de l a b o r a t e dw i t he m p h a s i st h ec o n c e p ta n dt h e m e t h o do ft h em u l t i d i m e n s i o n a la n a l y s i st ot h ed a t a ,a n dp r o p o s e da a l g o r i t h mw h i c h c o u l de f f e c t i v e l ye n h a n c et h em u l t i d i m e n s i o n a li n q u i r ye f f i c i e n c y - t h es n b s t a n t i a l i z e d v i e wa l g o r i t h m i nt h ea p p l i c a t i o na n a l y s i sp a r t ,c a r r i e do nt h ea n a l y s i sa n dt h e d i s c u s s i o ni nv i e wo fd a t aw a r e h o u s ec o n s t r u c t i o ni ne a c hk e yp o i n t ,t r yt oo b t a i n st h e w a yw h i c hm o s ts u i t st h ec u r r e n tt e l e c o m m u n i c a t i o np r o f e s s i o na p p l i c a t i o nw i t ht h e o r y k n o w l e d g em a dt h ep r a c t i c a le x p e r i e n c e ,t h e nd i s c u s s e ds e v e r a lp o s s i b l ed o m a i nw h i c h t h ed a t aw a r e h o u s ea n dt h eo n l i n ea n a l y t i c a lp r o c e s s i n gt e c t m o l o g yc a l lb eu s e d f i n a l l y 摘要 i nt h i sa r t i c l eh a sp r o d u c e dad a t aw a r e h o u s ea p p l i c a t i o ne x a m p l e t e l e c o m m u n i c a t i o n t e l e p h o n er e c o r d sa n a l y s i ss y s t e m ,t h r o u g ht h em o d e l i n gp r o c e s s ,d a t ae x t r a c t ,t ot h e m u l t i d i m e n s i o n a la n a l y s i sa p p l i c a t i o n ,h a dd e m o n s t r a t e dh o wt oe s t a b l i s had a t a w a r e h o u s ea p p l i c a t i o na n dt h em u l t i - d i m e n s i o n a la n a l y s i sb a s e do nt h e e x i s t i n g b u s i n e s sp r o c e s s i n gs y s t e m s b u i l dd a t aw a r e h o u s es y s t e mc a ne n o r m o u s l ye n h a n c et h es e r v i c e a b i l i t yo f d o m e s t i ct e l e c o m m u n i c a t i o ne n t e r p r i s ea n de n r i c h e n t e r p r i s e ss e r v i c ea p p l i c a t i o n c o n t e n t ,i ta l s oc a ne n h a n c e st h ec o m p e t i t i v ep o w e ri nm a r k e t ,r e d u c e st h ed i s t a n c ew i t h i n t e r n a t i o n a lt e l e c o m m u n i c a t i o ne n t e r p r i s e u s i n gd a t aw a r e h o u s ef o rt h em a r k e tw h i c h m o r eo p e n i n ga n dt h ec o m p e t i t i o n sw h i c hm o r ei n t e n s i o n sa f t e re n t e r e dt h ew t o k e y w o r d s :d a t aw a r e h o u s e ,m u l t i d i m e n s i o n a la n a l y s i s ,o n l i n ea n a l y s i sp r o c e s s i n g , d e c i s i o ns u p p o r ts y s t e m ,r e l a t i o n a ld a t a b a s e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,堪不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:啦整日期:伽年f 月j 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:泐 导师签名:查! 虽兰叁 日期:e 年1 月,e t 第一章绪论 1 1 研究背景 第一章绪论 1 1 1 数据仓库和o l a p 技术的发展 随着以服务为中心的第三产业在经济中所占比重的日益增大,面向工业制造 业的传统管理模式已不适应人们的需要。管理学家p e t e r d r u c k e r 提出了知识 管理革命概念,指出企业成功的关键在于能有效地获取和管理知识。企业从本质 上说是利用知识为用户解决问题的机构,有用的知识存在于大量的原始数据中, 计算机的使用使得数据得以有效的保存和组织。计算机系统的功能从数值计算扩 展到数据管理距今已有三十多年。最初的数据管理形式主要是文件系统,少量的 以数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问 必须依赖于特定的程序,数据的存取方式是固定的、死板的。 到了1 9 6 9 年,e f c o d d 博士发表了他著名的关系数据模型的论文。此后, 关系数据库的出现开创了数据管理的一个新时代。二十多年来,大量新技术、新 思路涌现出来并被用于关系数据库系统的开发和实现:客户n 务器体系结构、存 储过程、多线索并发内核、异步i 0 代价优化,等等,这一切足以使得关系数 据库系统的处理能力毫不逊色于传统封闭的数据库系统。而关系数据库在访问逻 辑和应用上所带来的好处则远远不止这些,数据库查询语言( s o l ) 的使用已成为 一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关 系数据库最终成为联机事务处理系统的主宰。整个8 0 年代直到9 0 年代初,联机 事务处理( 0 l t p ) 一直是数据库应用的主流。然而,应用在不断地进步。当联机事 务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统 已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相 关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务数据包 括历史业务数据进行分析才能得到。进入2 l 世纪以来随着计算机上数据库技术 的成熟和广泛应用,类似电信等公共服务企业内部积累了大量的数据,这些数据 包括以往的业务历史记录以及用户资料等。长期以来,在主要进行联机事务处理 ( 0 l t p ) 的操作型数据库环境下,上述数据仅用于业务流程的支持和历史数据的保 电子科技大学硕士学位论文 存,无疑是对资源的一种浪费。著名的数据仓库专家r a l p hk i m b a l l 写道:“我们 花了二十多年的时问将数据放入数据库,如今是该将它们拿出来使用的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易: 第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并 不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个 数据库在理论上都难以做到两全;第二,业务数据往往被存放于分散的异构环境 中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合 非计算机专业人员进行业务上的分析和统计。因此有人感叹:2 0 年前查询不到数 据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题, 人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理 系统中来、从异构的外部数据源来、从脱机的历史业务数据中来这个数据中 心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满 足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库( d a t a w a r e h o u s e ) 。这个概念在9 0 年代初被提出来,并在信息领域迅速兴起。对于数据 仓库的具体定义,目前还存在较大争议。数据仓库之父b 订1i n m o n 在 b u i l d i n g t h ed a t aw a r e h o u s e 一书中指出:“数据仓库是支持企业或组织的决策分析处理 的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合”。在实际应 用中,也存在毋一种更加明晰的阐述了数据仓库和事务处理型数据库之间韵关系 的定义:“数据仓库是为了查询( o u e r y i n g ) 和报告( r e p o r t i n g ) 而专门构造的事务 处理型数据的副本”。数据仓库定义的核心就是要支持面向主题的决策分析,数 据仓库所要研究和解决的问题就是如何从数据库中获取更多、更有用的信息。 联机分析处理( o l a p ) 是专门设计用于对储存在数据仓库中的数据进行复杂 操作的技术。它是针对特定问题的联机数据访问和分析。通过对信息的多个角度 ( 维) 进行快速、一致、稳定地交互访问,使决策分析人员可以深入地进行观察。 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出 的,他同时提出了关于o l a p 的1 2 条准则。o l a p 的目标是满足决策支持或者满足 在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。“维”是人 们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系, 这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维 ( d i m e n s i o n ) ,使用户能对不同维上的数据进行比较。因此o l a p 也可以说是多维 第一章绪论 数据分析工具的集合。 1 1 2 国内电信行业背景情况 从上世纪八十年代开始,我国电信企业开始进行大规模的信息化建设,在近 二十年的时间中,电信企业已全面实现了生产及服务过程信息化。随着业务不断 趋于多样化,各电信企业都针对不同业务建立了多个生产管理系统,如中国电信 建设的生产系统就包括了进行业务受理、配线配号、工单管理的“9 7 ”系统;进 行计费、帐务及欠费处理的计费系统:1 1 4 、1 1 2 、1 8 0 、1 8 9 等专业系统:2 0 1 、 i c 等卡类管理系统;基于互联网信息管理韵数据业务管理系统以及交换、传输、 网管系统等。中国移动也建设了综合业务支撑( b o s s ) 系统;用于梦网短信接入 的短信网关、彩信网关、g p r s 网关等各专业管理系统。目前,电信企业建设的项 目仍然以生产支撑系统为主。通过这些支撑系统的建设,规范了电信企业内部管 理流程,大大提高了电信企业的工作效率,增强了业务水平,提高了企业的竞争 力。 但是在进入2 1 世纪以后,面临迅速膨胀的业务量,电信行业在信息管理方面 面临新的挑战。一方面,业务支撑系统日益复杂化,并且不断地画分为各个生产 子系统,使得业务分析人员获取有效数据的难度加大;另一方面,由于业务量的 迅速发展,支撑系统的各生产子系统处理负担日益加重,而统计日益复杂,仍以 传统的方式,在叟声系统中进行统计分析,向市场营销丸晶及时提供充足、准确 的经营信息而又雨嚣晌生产系统的处理效率已不现实。街上两点,有必要实现操 作数据与经营数据隗分离,形成统一的经营信息数据源,j 在服务支撑系统中为统 计分析等经营信息赧务建设专门的处理子系统:生产子系统视本身情况,周期地 备份并清理历史数据;而经营信息服务子系统所需的大量历史数据不能直接依赖 于生声子系统,必须周期性地从生产子系统中抽取,独立积累、独立存储、独立 管理。- 糍f 着市场竞争的不断加剧,对客户资源的争夺也迸晨了白热讫的阶段,如 何发展新用户,扩大自己的用户群;如何设计出更适合用煮需要的业务,将用户 绑定在自己的网络上:如何合理地设定资费在用序可以接受的水平:一个个新问 题摆在了电信运营商的面前。 在激烈的市场竞争面前,要想科学的决策,离不开数据的支持,从企业对于 数据分析的应用已经从简单的营业报表走向了经营分析系统并进一步提出了对决 策支持系统( d s s ) ,经理信息系统( e i s ) 的需求;从简单的客户资料统计走向了 电子科技大学硕上学位论文 客户关系管理( c r y ) ,这些新2 代的分析决策系统都需要一个稳定可靠的,独立于 生产系统数据的信息平台。基于以上需求,电信行业建立基于数据仓库的分析平 台已是势在必行。 1 2 研究目的 基于上述研究背景,本文的研究目的主要是以下几点: 1 对数据仓库和o i 。a p 技术在理论上同传统数据库技术的不同之处和技术难点 进干亍探讨和分析。 2 对于多维查询的概念和方法进行深入分析,对技术难点提出理论解决方案。 3 对电信企业如何实施数据仓库和运用o l a p 技术进行分析的方法要素进行阐 述和分析,并提出建议。 4 1 对数据仓库和0 l a p 应用系统的实现过程和应用方式进行实践。 1 3 论文结构 本文第章为绪论部分,第二章主要对帽关理论进行参数和探讨,重点分析 基于数据仓库的多维查询的理论要点,并提出以一种可提高多维查询效率的理论 算茫。第三章盘要分析数据仓库和o l a p 技术在电信行业应用上的技术要点,第四 章是应用实践的例子分析。 章是虚用实践的例子分析。 4 第二章多维数据查词的理论分析 第二章多维数据查询的理论分析 数据仓库和多维数据分析的创新之处在于其完全不同于传统关系数据库的数 据组织和获取方式。在关系数据库模式下,数据表之间以主外键等方式进行简单 的关联,其查询结果绝大多数是以二维方式来组织的,本章试宙从理论角度阐述 为什么要从二维表转向多维视图,以及论述在此转化中的一些容易遇到的问题之 解决方法。 2 1 事务处理与决策支持处理的差别 购买、销售、生产、发行都是日常操作商业活动中的典型例子,而资源计划、 财务预算、策略制定和市场企划则是一些生产和使用基于分析、面向决策信息的 商业活动的典型例子。这些事务性操作和面向决策的分析是所有商业活动的孩心, 无论其大小、行业、法律形式或者历史情况,图2 1 显示了以电信行业为例的一 些常见的事务操作和向关分析活动的内容。 事务活动面向决策的分析 电话、数据通信业务受理增加新业务取消现有业务 对用户通话进行计费、费用收取制定、调整资费策略 大客户业务受理定位客户级别、信用等级 采购并应用新设备确定应该采用的设备类型和数量 图2 1 相关的事务活动和分析活动 操作性的软件活动往往以一种相对稳定的速率进行( 除了某些营业高峰期) ,其更 新和读取数据一样频繁,每次处理的数据代表了事物当前的一个快照,当前的查 询只涉及一小部分信息,并且操作性的查询往往是在输入的原始数据上进行的, 同时查询的种类和内容易于理解且遵循业务流程。 不同于面向操作的信息活动,管理者和分析师会提出一些更高层次的分析型 问题,比如: 电子科技大学硕士学位论文 今年的营、叱中,那种业务是利润最高的? 今年以来有没有那种业务的盈利比去年有所下降? 那种类型的客户是最忠诚的使用者? 那种新业务的利润增长最为迅速? 等等,这种问题的答案就是典型的基于分析面向决策( a d b o p ) 的信息。 图2 2 显示了事务操作和基于分析的决策活动之问的关系。 图2 2 费用收取过程中的业务和分析活动 不同于操作性的软件活动,基于分析面向决策的软件活动量在一天中会波 动得很大,平均来说更多的是数据的读取而不是写入,即使需要写入也往往是采 用批量更新的方式。数据可以代表现在、过去和计划中的状态,同时常常一次数 据操作就会立刻牵涉很多部分的信息。分析型的的查询常常会在派生数据上进行, 而且查询的内容往往是事先不可知的。例如,一个社区经理可能会以各个业务种 类普及率的分步来开始他的分析活动,每一个普及率的数值可能是由成千上万的 原始数据汇集而成的,由于业务数据没有记录单个业务销售额与潜在客户群之问 的关系,从营业数据和计费数据都无法得到这种统计信息。从这个意义上来说这 些数值是较高层的综合信息,而且是派生的信息。如果有些普及率看起来比较异 第二章多维数据查询的理论分析 常或者与销售计划有较大出入,社区经理就可以及时向管理层反映情况。 图2 3 总结了操作型和基于分析的面向决策的信息处理活动的比较 操作性活动基于分析的面向决策的活动 比较频繁相对不频繁 容易预见不容易预见 一每次查询的数据较少每次查询的数据量很犬 查询酌是原始数据查询的基本是经整理活汇总的派生数据 一 需要过去、现在和计划中的数据大多数情况下只需要当前数据 很少有复杂的派生很多复杂的派生 图2 2 操作型和a d b o p 活动的比较 由于操作性和a d b o p 活动之间存在着这些差别,大多数成熟韵大中型企业都 在不同的硬件平台上运行着不同的软件产品,分别用于日常事务和分析,这样做 是非常必要的,原因在于: ( 1 ) 大中型企业需要软件在进行事务处理和分析决策处理的时候都拥有最高 的效率。 ( 2 ) 高效的事务处理需要快速更新数据库,而高效的面向分析的处理需要快 速的查询计算,两者需要的数据索引方式显然是互斥的。 ( 3 ) 在进行a d b o p 活动的时候,不应该对事务操作数据库产生性能上的影响 和风险性。( 这种影响和风险对于生产库来说是致命的) 专注于商业中事务处理的软件产品,基本上都是架构于大型的数据库系统之 上,并被人们称为联机事务处理系统( o l t p ) 。在过去数十年中,o l t p 软件的发展 遵循了一条非常清晰的路线,其发展目标就是能够处理更对大量的数据,每单位 时间能够处理更多的事务,能够支持更多的并发用户,以及具有更好的系统健壮 性。 与之形成对照的是专注于支持a b d o p 的软件的发展还处于分散状态,上世纪 7 0 年代就已经出现的面向分析师的决策支持系统( d s s ) ,8 0 年代后期出现的经理 信息系统( e i s ) ,以及当今市场上的各种o l a p 软件包都是对a d b o p 的多种实现方 式。 2 2 如何进行多维分析与查询 电子科技人学硕士学位论文 2 2 1 相关简介 数据仓库的应用使得企业能够日常交易数据储存在个整合的系统中,使数 据具备有历史性的参考价值。有了这些数据作为决策分析的来源依据,决策者就 可以透过一。些分析工具进行资料的分析,或者是通过数据挖掘( 胁t a m i n i n g ) 等 技术,让原本单纯的历史性资料转变成强而有力的企业竞争优势之一。因此,在 数据仓库系统中所储存的庞大历史性完整数据即是决策分柝工具的主要资料来 源。决策者通过联机分析处理:( o l a p ) 可对数据仓储中的数据进行复杂的分析查 询与资料聚集等工作,而联机分析处理往往也俱各提供不同层次的分析报表能力。 在讨论多维分析与查询之前需要把相关的几个关键技术作一简要介绍。 2 2 1 一星型模型与立方 为了让o l a p 系统可以缩短查询响应时间与回答高度复杂的查询指令,在数据 仓库中常采用采用我们称之为星型模型( s t a rs c h e m a ) 的数据架构t 图2 3 ) 。 图2 3 星型模型 在星型模型中数据表主要是事实表( f a c tt a b l e ) 与维表( d i m e n s i o nt a b l e s ) 所组成。每个维表中的主键在事实表中都以一个外键连接的形式存在。而o l a p 的查询对象主要是以事实表中的数据项为主。例如:决策者希望取得各个地区的 销售总金额时,就可以通过下面一条查询命令对事实表进行操作: 第二章多维数据查询的理论分析 事实表是由一组决策凼素( 如:产品编号、销售日期、销售地区) 或属性与 一组度量值( m e t r i c - ) ( 销售量、销售金额) 所构成。决策因素的选定与度量值的 选取则是依据企业决策的具体需求,相当定的弹性。储存在事实表中的每一条 记录都是独一无二的。维表的存在是为了存放维度成员的具体信息,可以弥补事 实表所记载的资料不够详尽。 通过维表的使用,o l a p 可以取得更详尽的资料。例如:我们想取得每一避货 商在每一季的销售量时,可利甩下面一句查询指令完成: 在这个查询中,由于事实表中并没有储存任何有关进货商的数据,因此o l a p 系统就会同过产品维来进行连接操作,进而取得进货商的数据。对于事实表中的 决策因素,我们可以进行任意的组合来进行数据的分类统计,比如:跟据产品编 号与销售地区来进行资料分内汇总( g r o u pb y 产品编号,销售地区) ;跟据销售 日期( g r o u pb y 销售日期) 来统计每日的销售量等。因此,每一种决策因素的组 合都可被看成是事实表的一个视图( v i e w ) ,所谓视图实体化即是将决策者所关切 的决策度量值根据决策因素进行分类并给予预先计算,并将这些计算而获得的数 值结果储存起来,往后再次查询到该视图的数据时,就不必再次重新计算。这些 被实体化的视图集合我们称之为立方( c u b e s ) 。因此立方可说是将数据仓库中的 数据进行预先计算与处理,使联机分析处理( o l a p ) 所需要处理的数据量尽量减 少,进而快速的将查询结果展现给使用者。关于视图实体化的一些优化处理策略, 将在后面的章节详细讨论。 22 1 2o l a p 的两种模型 电子科技火学硕士学位论文 立方的储存方式可以采用关系数据表来储存。在这种情况下,这些关系数据 表我们称为概要表( s u m m a r yt a b l e s ) ,因为它正储存着一些汇总的数据。采用关 系数据表为立方的储存方式的联机分析处理系统,我们就称之为r o l a p ( r e l a t i o n a lo n 一1 i n ea n a l y t i c a lp r o c e s s i n g ) 。r o l a p 有着传统关系数据库表 的特性二对于资料的分析和获取,可以同过结构化数据库查询语言( s q l ) 来遴行。 对于o l a p 所需的分析来源资料,除了可从立方中取得之外,也可以直接从数据 仓库中取得,而不需要额外构建特殊的数据储存结构。 而另一种储存立方数据的方式则是采用多维数组的数据结构,却所谓多。维数 据结构,我们称它为m o l a p ( m u i t i d i m e n s i o n a lo n 一1 i n ea n a l y t i c a lp r o c e s s i n g ) 。 相较于r o l a p ,m o l a p 有着计算较快速的特性,但对于m o l a p 查询时的数据来源 需要有额外的空间来存放这| 个多维度数据库。 丝固罔 0 l t pd a t a b a s e 图2 4r o l a p 和m o l a p 的架构 r o l a p 的要发展先于m o l a p ,其结构较为灵活,技术相对简单,在实际应用中 已有很多成功案例,但由于r o i ,a p 系统在逻辑结构上的复杂性,和性能上的瓶颈, 目前o l a p 已经逐渐向m o l a p 方向发展。 第二章多维数据查洵的理论分析 2 2 2 多维空间中的数据查询 2 2 2 1 在传统表格上显示多维数据集 超立方体是指大于三维的立方体,理解超立方体是理解多维查询的基础。多 维软件中的超立方体与数据库中的表相对应,多维软件的浏览、报表、分析都是 在超立方体上进行的。我们可以这样描述一个超立方体的维度:1 n 个定位缨度 和具有l n 个度量韵度量维度。 图2 5 是一个按照月份组织的有5 列销售和成本信息的二维表格,这个表格 有4 列数据,每个字段代表了一个销售或者成本数据,最后一列是汇总信息。按 照维度的描述方法,这个数据集也可以被看作只有两个维度:一个行上的月份维 度和一个列上的度量维度 月份销售成本利润 1 月 7 9 05 9 02 0 0 2 月8 5 06 5 02 0 0 3 月 9 0 06 7 02 3 0 4 月 9 l o7 4 01 7 0 5 月 8 6 07 2 01 4 0 6 月 8 3 05 9 02 4 0 图2 5 按照月份组织的销售额、成本和利润 度量维度的每一个成员或者元素就是一个具体的度量值,也就是我们要跟踪 的内容:与此相对应,月份代表了我们组织数据的方式,虽然我们没有跟踪月份 的值,但使用了月份将销售额和成本信息隔离开来。即月份是一个定位维度。 当我们在这个具有一个定位维度和一个度量维度的表格中添加第三个维度: 产品维度的时候会发生什么呢? 我们可以用一个立方体来可视化这种维度结构 ( 图2 6 ) 电子科技大学硕士学位论文 变量 崴 销售 a 产品 b 产品 c 产品 d 产品 1 月2 月3 月4 月 月份 图2 6 三维立方体 为了将三维数据集展现在计算机屏幕上,可以通过在二维数据集的基础上添 加一个页标签,代表第三个产品维度,也就是所谓的页维度。 行 月份销售成本利润 1 月 7 9 05 9 0 2 0 0 2 月8 5 0 6 5 0 2 0 0 3 月 9 0 06 7 02 3 0 4 月 9 1 07 4 01 7 0 5 月8 6 0 7 2 0 1 4 0 6 月8 3 0 5 9 0 2 4 0 图2 7 三维表格的显不方法 但是加入产品维度还是与其他两个维度有所区别,因为计算机屏幕只能显示 二维的图像,页维度对于用户能看到的部分只有一个显示,要在计算机上显示多 维数据,必须将显示的数据本身和可视化数据的象征物相分离。如图2 7 显示的 内容其实是三维数据立方体的一个切片。 当进一步假设用户需要跟踪不同的产品在不同的商店中每月的度量情况,那 么所面对的是一个四维的数据集,此时如果仍然用立方体来作为可视化象征物的 话,整个可视化将会变得杂乱无章,而当纬数增加到五维、六维乃至n 维的时候, 其可视化的复杂程度将会迅速增加,导致用户完全无法理解,由此产生了多维可 视化中的另个需要解决的问题:逻辑维度和物理维度之间的差别。为了解决这 第二,章多维数据查询的理论分析 个问题,必须对多维立方体进行更细致的研究。 2 2 2 2 多维类型结构 通过进一步的分析,我们可以发现多维立方体与数据事件生成的两个重要的 共同特征: 特征之一:在任何一点上,所有的维度都是共同存在的。正加在三维空间中, 任何一点的坐标都是由x ,y ,z 轴的值唯一的确定的,对于每一个销售事件,总是 能够得到销售的产品、金额和日期、地点。 特征之二:所有共存的维度都是彼此独立的,在立方体中,从点( x o ,y o ,z o ) 总是能够直接变换到点( x 1 3 ,y n ,z r ) ,对应到数据生成事件,意味着任何产品总是 可以在任何时间地点进行销售 那么,是什么导致了立方体不能够很好的进行高维度( 3 ) 的可视化呢? 答 案在于立方体和数据生成事件之问存在某些不同的结构特征。在儿何学中,x 轴、 y 轴、z 轴是相互垂直的,这三个彼此垂直的坐标很好的对应了现实世界中的长宽 高;但是在上例中度量、商店、产品和时间之间无论说那两者是相互垂直的都是 毫无意义的,即是说,立方体中存在维度之问的角度关系并不是必要的,一个有 用的数据可视化表示方法只需要满足维度逻辑上的共存性和独立性,而不是物理 上的限制( 因为我们的现实世界中只存在三个彼此独立的垂直的维度,所以用立 方体不能可视化大于三维的维度) 。 任何象征物只要具有一致的维度独立性和共存性,就能够用于高维度的可视 化。为此我们引入一种新的表示数据生成事件的象征物,使得最终o l a p 的元数据 不再基于带有角度关系的维度,从而能够表示任意数量的事件维度,我们把这种 象征物称为多维类型结构( m t s ) 。当采用这种新的象征物来表示图2 6 中的数据 生成事件和数据立方体时,每个维度都用一条线段来表示,维度中的每个成员都 用该线段上的一个单位区间来表示。在处理具有三个维度的例子时,我们可以使 用三个线段分别表示时间、产品和度量。从三个线段中分别取出一个区间之后形 成的一个组合就对应了数据生成事件和数据立方体中的个元素。例如图2 8 用 m t s 显示了5 月份的a 类产品销售情况,就想与之对应的数据立方一样,数据生 成事件可以在m t s 的每个维度上独立的移动。 电子科技大学硕士学位论文 图2 8 用m t s 表示事件 在上面例子中,假设存在m 个时间段,n 个产品和q 个度量,所以一共有m 永n 丰q 个超立方体交叉点。 当我们想要在m t s 的原有模型上添加第四个维度的时候,只需要在原有的三 条线段基础上增加一条叫商店的线段就行了( 图2 9 ) o m t s 显示了从数据生成事件 中抽取出来的数据店数量以及它1 1j 的逻辑组织,并显示了我们能够浏览的所有维 度以及每个维度的范围。 销售 成本 利润 利润 商店 商店 商店 商店 商店 商店 图2 9 用m 1 s 表示4 个维度 2 22 3 多维数据集的显示 在引入了多维类型结构作为多维数据集的逻辑结构的可视化象征物之后,我 们还需要解决如何将多个逻辑维度映射到二维的计算机屏幕卜的问题,图2 7 显 1 4 第二章多维数据奇询的理论分祈 示了三维数据的展示界面,但足如何将4 个或者更多的逻辑维度映射到行、列和 页面这3 个显示维度上呢? 我们将进一步考察如何将多个逻辑维度组织到同一个 显示维度上。 销售成本利润 产品a产品a 的产品a 的产品a 的 销售成本利润 产品b产品b 的产品b 的产品b 的 销售成本利润 图2 1 0 二维图表 考虑一个简单的二维表格中的内容,其每一格数据都是由行维度和列维度的 成员组成,在图2 1 0 中,通过将一个维度嵌套在另一个维度中,创建了2 * 3 个一 个二维交叉点的一维版本,这种列表在产品和度量维度上的卷动方式可以看作一 个两层的循环:f o r ( 9 r o d u c t s = lt on ) 1 f o rv a r i a b l e s = lt on o u t p u t ) 。 当维度从2 维增加到n 维时,同样可以采用维度嵌套的方式,将多个维度合 并到行、列和页面,我们把这种显示方式叫做多维网格显示。多维分析查询就是指 对以多维网格显示出来的数据采取切片( s l i c e ) 、切块( d i c e ) 、下钻( d r i l l d o w n ) 、 上滚( r o l 卜u p ) 、旋转( p i v o t ) 等各种查询动作。下图搜索方格的形式,说明其 中几种操作类型。 产冀惑。:运笋 产品、商店、辩售 产品一曹期、销售,墨:”。 ;,+ 商店、艄售、:乙:。+ 产品、销售 、 ; , 。一 、毒。p 电子科技人学硕士学位论文 图2 1 2 显示了一个6 维度的m t s ,由上可知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论