




已阅读5页,还剩55页未读, 继续免费阅读
(计算机软件与理论专业论文)一个数据仓库系统的体系结构及实现方案.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:猩羔茧日期:窭望2 :s 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定1 论文作者签名:避导师签名 蘩甏 电力行业纳营销决策主螫怒基于电力黄销管理系统积累的r 常业务数据来 进行鲸,涉及沟数据董大,诗冀过程复杂。我们筱疆魄力营销的行邋特点,建立 电力鬻镑数援仓库系统( e m d w s ) ,以便更好的支持电力营销的决繁分析,提意电 力营销决策的效率与准确度。数攥仓库的本联怒将摄取收集到的数据,谶行智能 化分析,揭示企业运作和市场情7 兄,帮助管理层作出正确明智的经营决定。数据 仓簿熬建立苓莰莰是定义数掇摸黧瑟o l a ps e r v e r ,还有诲多嚣黉考憨浆邋素, 如为了更好的支持数据仓霹的应用,需要对数掰仓库系统的数据簿瑷和体系结构 送行磁究,嚣出更逶合数瓣仓露懿数据管理方法及髂系结穆。 数据仓麾运行过程中,数据铸理在协调数据仓库各部分数据难确流向的基础 上,提高系统运行的效窭,绦证系统嘉效的晌艨用户请求。我们在体系续李句懿支 持下,罐撼了释统一警联数掭仓库和源数据库鼗据的数据管瑗方法。该方法基 于毅鹣数援攫墼( 对象麓霉葱混合弱模型) ,扩建了r d b m s 靛功熊( 毽摄扩震其 数据类型与数据模型两方面) 。它不但能够管理普通关系型数据库的数据,还能 够商效的存取像多媒体数攒这样的关系型数据库很难处理的数据,同时提高了数 据仓黪秘鼗捺痒系统懿捻絮效率。透过定萋帮宠淫颟耱分辑方式,浅袋证硝了该 方法不但楚可行的,丽且能够使得系统具有搿效的捡索效率,满足数援仓库系统 静綦本簧求。 数据仓库体系结构不仅要为系统其余各部分提供谗行的平台,保证系统畅通 的运行,翌纛嚣瓣是使褥鬃绞具有爨豹运写亍效率、可扩充牲等特点。本文遵过对 以往系统体系结构的研究,并裰嚣我们要建立系统的特点,提出了一种熬于e s 结掏秘d 8 o d s d w 缝稳静羧据仓黪 搴系结构。建链约分辑该薅系缡稳褒鞠;该结 构不但能够支撑系统其氽备部分( 包括客户端工具和服务器端各功能模块) 的正 常运行,还能满足统一管理的要求,两且使得系统具荫高度豹伸缨性、可扩充性 等特瞧,筵繁簧静莛它搜褥系统蕊有赢静运行效率。 另磬t 系统客户端同服务器端媳通信也蕊是c s 结构豹一个夔簧润题。我 们褥浅了种鏊于w i n d o w s s o c k e t 机制的通信方式,基于s o c k e t 的c s 系统服 务器端都魁聚用命令解析的工作方式:客户端通过向服务器发送包含在数撂块中 山东大学硕士学位论文 的命令码和命令参数,发送相应的服务请求;服务器端提取出数据块中的命令信 息,分析命令码,进行相应的处理,并将处理结果返回客户端。它提供了一种多 链路、流式的通讯服务,还提供文件、字节流的传送功能,极大地简化了应用程 序的网络编程。 全文共分为四章,第一章介绍数据仓库的技术,并引出研究问题;第二章叙 述该系统的关键技术及解决方法;第三章系统的设计方案;最后为本论文的总结 和展望。 关键字:数据仓库,体系结构,数据管理,套接字 a b s t r a c t t h em a r k e t i n gd e c i s i o n so fe l e c t r i cp o w e ri n d u s t r y , w h i c hi n v o l v et r e m e n d o u s v o l u m ed a t aa n dc o m p l i c a t e dc a l c u l a t i o n ,m a i n l yb a s eo nd a l l yc o l l e c t e do p e r a t i o n a l d a t ao ft h ee l e c t r i cm a r k e ts y s t e m s a c c o r d i n gt ot h ee l e c t r i ci n d u s t r i a lc h a r a c t e r s ,w e a r et os e tu pe l e c t r i cm a r k e t i n gd a t aw a r e h o u s es y s t e m ( e m d w s ) t os u p p o r te l e c t r i c m a r k e t i n gd e c i s i o n a n d a n a l y s i sb e t t e r , a n d t h u st oa d v a n c et h ee f f i c i e n c y a n d a c c u r a c v t h ee s s e n c eo fd a t aw a r e h o u s ei s t oe x t r a c tc o l l e c t e dd a t a ,t om a k e i n t e l l i g e n ta n a l y s i s ,t oo p e n o u tt h e e n t e r p r i s e s o p e r a t i o n a l a n d m a r k e t i n g e n v i r o n m e n t sa n dt oh e l pt h em a n a g e r sm a k ep r o p e ra n dw i s em a n a g e m e n t d e c i s i o n s t h ec o n s t r u c t i o no fd a t aw a r e h o u s ei sn o to n l yt od e f i n ed a t am o d e la n do l a p s e r v e r ,b u ta l s ot ot a k ea c c o u n to fs o m eo t h e rf a c t o r s ,s u c ha sd o i n gt h er e s e a r c ho f d a t a m a n a g e m e n t a n da r c h i t e c t u r eo fd a t aw a r e h o u s e s y s t e m t o s u p p o r t t h e a p p l i c a t i o no f d a t aw a r e h o u s eb e t t e r , a n di nt h ee n dc o m i n gu pw i t hd a t am a n a g e m e n t m e t h o d sa n da r c h i t e c t u r e sm o r ea d a p t i v et od a t aw a r e h o u s e d u r i n g d a t aw a r e h o u s eo p e r a t i n g ,d a t am a n a g e m e n te n h a n c e st h eo p e r a t i o n a l e f f i c i e n c ya n de n s u r e sr a p i dr e s p o n s et ot h eu s e r s a sw e l la sh a r m o n i z i n ge v e r y p a r tt o w o r k s m o o t h l y w ep u t f o r w a r dad a t a m a n a g e m e n t m e t h o dt o m a n a g e d a t a w a r e h o u s ea n ds o u r c ed a t a b a s e s u n i f o r m l y w i t ht h e s u p p o r t o fo l l r p r o p o s e d a r c h i t e c t u r e t h i sm e t h o dh a s e i t l a r g e d t h ef u n c t i o n so fr d b m si n c l u d i n gt h e e n l a r g e m e n to f d a t at y p ea n dd a t am o d e lo nt h eb a s i so fn e wd a t am o d e l am i x e d m o d e lo f o b j e c ta n ds n o w f l a k em o d e l ,i tc a ne f f i c i e n t l ym a n a g e n o to n l yt h ed a t ao f o r d i n a r yr e l m i o n a ld a t a b a s e ,b u ta s ot h ed a t ad i s p o s e dh a r db yr e l a t i o n a ld a t a b a s e s u c ha st h em u l t i m e d i ad a t a ,a tt h es a m et i m ei ta d v a n c e st h er e t r i e v ee f f i c i e n c yo ft h e d a t aw a r e h o u s ea n dt h e d a t a b a s e s b yt h em e a n so fq u a n t i t a t i v ea n dq u a l i t a t i v e a n a l y s i s ,w ep r o v et h a tt h em e t h o di sf e a s i b l e ,m a k et h es y s t e mi np o s s e s s i o no f h i g h r e t r i e v ee f f i c i e n c ya n dm e e tt h ee l e m e n t a r yd e m a n d so f t h ed a t aw a r e h o u s e s y s t e m t h ea r c h i t e c t u r eo fd a t aw a r e h o u s e i sn o to n l yt os u p p l y r u n n i n gp l a tf o rt h eo t h e r p a r t so ft h es y s t e m ,b u ta l s ot om a k et h es y s t e mo w nt h ec h a r a c t e r so ft h e h i g h 3 尘蠢盔兰翌圭兰垒鲨塞 一 _ _ _ h _ _ _ _ - _ - - - - “w - _ _ _ h _ - _ _ - _ h _ _ _ 一。 r u n n i n ge f f i c i e n c ya n de x t e n s i b i l i t y 。o n t h eb a s i so f c h a r a c t e r so f t h es y s t e mw e a r et o c o n s t r u c t ,t h i st h e s i ss e t sf o r t had a t aw a r e h o u s ea r c h i t e c t u r ea c c o r d i n g t oo u rr e s e a r c h o fp r e v i o u sa r c h i t e c t u r e s , w h i c hb a s e so nc ss t r u c t u r ea n dd b o d s d wt h r e e t i e r s t r u c t u r e t h eq u a l i t a t i v ea n a l y s i so ft h ea r c h i t e c t u r es u g g e s t st h a tn o to n l yc a nt h e a r c h i t e c t u r eu p h o l dt h ew e l t o b a l a n c e do p e r a t i n go f t h ev a r i o u sc o m p o n e n t s ,w h i c ha r e c o n s i s t e do fa l lk i n d so fc l i e n tt o o l sa n dm u l t i f a r i o u ss e r v e rm o d u l e s ,a n dm e e tt h e n e e d so fu n i f ym a n a g e m e n t ,b u ta l s oi tc a nm a k et h es y s t e mh o l dh i g he x t e n s i b i l i t y a n d e x p a n s i b i l i t y , a n d m o r ei m p o r t a n ti tm a k et h es y s t e mm n e f f i c i e n t l y a m o n g o t h e rt h i n g s ,t h ec o m a l t m i c a t i o nb e t w e e nt h ec l i e n t sa n dt h es e r v e rh a s b e e na s i g n i f i c a n tp r o b l e m i nc ss t r u c t u r e w e b r i n g f o r w a r dak i n do f c o m m u n i c a t i o nm e a n so nt h eb a s i so fw i n d o w ss o c k e t t h ew o r k i n gm o d eo ft h e s e r v e rb a s e do hs o c k e ti nc ss t r u c t u r eo r i e n t sc o m m a n d i n t e r p r e t a t i o nt h a tt h ec l i e n t s e n d si t ss e r v i c er e q u e s tt ot h es e r v e rb ys e n d i n gd a t ab l o c k sc o n t a i n i n go p e r a t i o n a l c o m m a n d sa n dt h e i rc o r r e s p o n d i n gp a r a m e t e r s ,a n dt h es e v e re x t r a c t so p e r a t i o n a l c o m m a n d sf r o mt h e s ed a t ab l o c k s ,a n a l y s i st h e s ec o m m a n d s ,p r o c e s s e st h e ma n dt h u s r e t u r n st h er e s u l t st ot h ec l i e n t s i th a ss u p p l i e dak i n do fm u l t i l i n k e da n ds t r e a m c o m m u n i c a t i o ns e r v i c ea n dt h et r a n s m i t t a lf u n c t i o no ff i l ea n dt h eb y t es t r e a m s ,a n d r i m si ts i m p l i f i e st h en e t w o r k p r o g m m m i n go f a p p l i c a t i o ng r e a t l y t h et h e s i sc o n s i s t so ff o u r c h a p t e r s ,t h ef i r s tc h a p t e r i n t r o d u c e st h ed a t a w a r e h o u s e t e c h n i q u ea n d f e t c ho u tt 1 1 er e s e a r c h q u e s t i o n t h es e c o n dc h a p t e ra c c o u n t s f o rt h ek e y t e c h n i q u e sa n d t h e i rr e s o l u t i o nm e t h o d so f t h e s y s t e m t h et h i r dc h a p t e ri s t h es y s t e m sd e s i g ns c h e m a ,t h el a s to n es u m m a r i z e sa n dv i e w st h i s p a p e r k e y w o r d s :d a t a w a r e h o u s e ,a r c h i t e c t u r e ,d a t am a n a g e m e n t ,s o c k e t 4 符号说明 简称萸文垒称中文翻译 d bd a t ab a s e数据库 d wd a t aw a r e h o u s i n g数据仓疼技寒 e m d w se 1e c t r i cm a r k e t i n gd a t aw a r e h o u s es y s t e m 电力营销数据仓库系统 d s sd e c i s i o ns u p p o r t i n gs y s t e m 决策支持系统 o l t po n l i n et r a n s a c t i o n a lp r o c e s s i n g 联枧事务处理技术 o l a po n l i n ea n a l y t i c a lp r o c e s s i n g 联巍努辑处理鼓零 d md a t am i n i n g 数据挖掘技术 c sc 1i e n t s e r v e r 客户端服务器结构 b sb r o w s e r s e r v e r 浏览器服务器结构 豫一d wd a t ab a s e - d a t aw a r e h o u s e 数据库一数据仓麝缍擒 e t le x t r a c t t r a n s f o r m l o a d 数据豁拯取,转换热载 e r e n t i t yr e l a t i o n实体关系模型 r d b m s r e l a t i o n a ld a t ab a s em a n a g e m e n ts y s t e m 关系数据库管联系统 s q ls t r u c t u r e dq u e r yl a n g u a g e 结构化查询语京 d a t d a t aa c c e s st i m e 数撂存取辩凌 c q t tc ii e n tq u e r yt r a n s m i tt i m e 客户端查询传输时阊 s r d ts e r v e rr e a d i n gd a t at i m e 服务器端读取数据时间 s a f t s e r v e ra c c e s sf i l et i m e 服务器端存取文件时间 n t tn e t w o r kt r a n s m i tt i m e 溷终转羧野闯 c w tc 1 i e n tw r i t i n gt i m e 客户端写爵闯 d b o d s d wd a t ab a s e o p e r a t i o n a ld a t as t o r e d a t aw a r e h o u s e 数据库操作 数据存储一数据仓库结构 第一章绪论 近年来,随着数据库技术的应用和发展,人们尝试对数据库( d a t ab a s e , 简称d b ) 中的数据进行再加工,形成一个综合的、面向分析的环境,以更好的 辅助管理层做出明智及时的决策,从而形成了数据仓库技术( d a t aw a r e h o u s i n g , 简称d w ) 。 本章首先叙述了数据仓库的发展历史,然后论述了数据仓库技术,特别是体 系结构与数据仓库管理系统方面的研究现状与存在的问题。 1 1 数据仓库技术概述 数据库从运行至今已经积累了大量的业务数据,于是人们想利用已积累的业 务数据进行决策分析,得出企业或组织下一步工作的趋势和信息,也就是利用已 有的数据建立决策支持系统( d e c i s i o ns u p p o s i n gs y s t e m ,简称d s s ) 。数据库技 术一直力图使自己能胜任从事务处理、批处理到分析处理各种类型的信息处理任 务,尽管在事务处理方面取得了巨大的成功,但它对分析处理的支持一直不能令 人满意,尤其是当以业务处理为主的联机事务处理应用与以分析处理为主的d s s 应用共存于同一个数据库系统中时,这两种类型的处理发生了明显的冲突。事务 处理环境不适宜d s s 应用,主要表现在如下方面:事务处理和分析处理的性 能特性不同,前者面向o l t p ,后者面向o l a p :d s s 的数据是动态集成的,事 务处理环境拥有丰富的细节数据,不具备动态集成数据的能力;d s s 需要历史数 据,事务处理环境一般只保存当前数据或者只存储短期数据,而没有对历史数据 的详细分析,是难以把握企业发展趋势的;d s s 需要综合的数据,事务处理系统 中积累了大量的细节数据,一般而言,d s s 并不对这些细节数据进行分析,事务 系统不具备对细节数据进行不同程度综合的能力。数据仓库本质上是对事务处理 系统中这些问题的回答,但是数据仓库的主要驱动力并不是过去的缺点,而是市 场商业经营行为的改变,市场竞争要求捕获和分析事务级的业务数据。要提高分 析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据分 离,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织 技术。 6 坐奎盔堂堡主堂垡笙塞 1 1 1 什么是数据仓库 w h i n m o n 在其b u i l d i n g t h ed a t aw a r e h o u s e ,即建立数据仓库【2 j 一书 中,给出如下的数据仓库定义:数据仓库就是一个用以更好的支持企业或组织的 决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集 合。数据仓库具有四个基本特征:数据仓库的数据是面向主题的、数据仓库的数 据是集成的、数据仓库的数据是不可更新的、数据仓库的数据是随时间不断变化 的。 数据仓库的数据是面向主题的,主要是指与传统的面向应用进行组织数据的 方式相对应,面向主题更能体现数据仓库与数据库的原本意图( 数据与数据处理 的分离,将数据从数据处理或应用中独立出来,组成一个与具体应用独立的数据 世界) 。主题是对应某一分析领域的分析对象,它的抽取是按照分析的要求来确 定的,应该具有独立性与完备性等特点。 数据仓库汇集了不同数据结构、处理规划、算法及过程,是一个集成的信息 源,它也集成了多个专业应用系统。数据仓库的数据是集成的,它是从原有分散 的数据源数据中抽取来的,它的每一个主题所对应的源数据在原有的各分散数据 源中有许多重复和不一致的地方,而且数据仓库的综合数据不能从原有的数据库 系统直接得到。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作,反映的是一段相当长时间内历史数据的内容, 是不同时点数据源数据快照的集合,以及基于这些快照进行统计、综合和重组的 导出数据,而不是联机处理的数据。 数据仓库中的数据不可更新是针对应用来说的,也就是说数据仓库的用户进 行分析处理时是不进行数据更新操作的。但并不是说在从数据集成输入数据仓库 开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变 的,主要表现在:数据仓库随时间变化不断增加新的数据内容、数据仓库随时间 变化不断删去旧的数据内容、数据仓库中包含大量的综合数据,这些综合数据很 多跟时间有关,要随着时间的变化不断的进行重新综合。 1 1 2 数据仓库的数据组织 图1 1 是典型的数据仓库数据的组织结构图”,在图中我们看到数据分为四 个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合 后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合 级乃至高度综合级,老化的数据将进入早期细节级。 图1 - 1 数据仓库的数据组织结构 臼高度综合级 轻度综合级 勺当前细节级 臼早期细节级 从数据仓库的数据组织可以看出,数据仓库数据存在着不同的综合级别,我 们称之为“粒度”。粒度越大,表示细节程度越低、综合程度越高。级别的划分 是根据粒度进行的。在数据仓库中,多重粒度是必不可少的。 我们在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最 常见的,如对某一时间或某一时段数据的分析;对某一地区数据的分析;对特定 业务领域数据的分析等等。如果我们将具有这种相关性的数据组织在一起,无 疑将会提高效率,这就需要数据的分割技术。所谓分割,就是指将数据分散到各 自的物理单元中以便能分别独立处理。 数据仓库中还有一部分数据是元数据。元数据( m e t a d a t a ) 是“关于数据的数 据”,它描述了数据的结构、内容、码、索引等项内容,如传统数据库中的数据 字典就是一种元数据。在数据仓库环境中,主要有两种元数据:第一种是为了从 操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数据项名、属 性及其在数据仓库中的转换。第二种元数据在数据仓库中是用来与终端用户的多 维商业模型前端工具之间建立映射,此种元数据称为d s s 元数据,常用来开发 更先进的决策支持工具。 1 2 数据仓库技术的发展及研究现状 数据库技术自从诞生以来,经历了突飞猛进的发展【3 _ l 刚,特别是2 0 世纪8 0 年代以来发展更是迅猛。整个8 0 年代直到9 0 年代初,联机事务处理一直是数据 库应用的主流。然而,应用在不断地进步。当联机事务处理系统发展到一定阶段 后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需 要对其自身业务的运作以及整个市场相关行业的情况进行分析,从而做出有利的 决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在 如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称为 联机分析处理,比以往任何时候都显得更为重要。如果说传统联机事务处理强调 的是更新数据库向数据库中添加信息,那么联机分析处理就是从数据库中获取 信息、利用信息。因此,著名的数据仓库专家r a l p hk i m b a l l 写道【l l 】:“我们花了 二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” 9 0 年代以来,计算机技术,尤其是数据库技术的发展为d s s 提供了技术支 持:激烈的市场竞争促进了高层次决策人员对d s s 的实际需求。两方面的共同 作用,促成了以d w l l 2 - 1 4 为核心,以o l a p 和d m 工具为手段建设d s s 的可行 方案。 在过去的几年,数据仓库经历了突飞猛进的发展,在大量的行业中得到了应 用,包括零售业、金融服务业、交通、电信、公用事业以及健康业等。同时数据 仓库技术也有了迅速的发展【1 3 ,表现在数据仓库体系结构( d a t aw a r e h o u s e a r c h i t e c t u r e ) 、数据仓库实现( d a t a w a r e h o u s e i m p l e m e n t ) 、数据仓库维护( d a t a w a r e h o u s em a i n t e n a n c e ) 、数据仓库数据模型( d a t aw a r e h o u s e m o d e l i n g ) 、数据 仓库前端工具( d a t aw a r e h o u s ef r o n te n dt o o l s ) 、数据仓库数据管理( d a t a w a r e h o u s ed a t am a n a g e m e n t ) 、数据仓库数据操作( d a t aw a r e h o u s e o p e r a t i o n a l i s s u e s ) 以及查询优化( o p t i m i z a t i o n ) 等技术方面。 在体系结构方面【1 1 【1 3 1 ,但就数据仓库来说主要有d b d w 体系结构和 d b o d s - d w 体系结构,前者将数据库与数据仓库分裂开来,后者在数据仓库与 数据库之间增加一操作数据存储层;数据仓库主要采用数据库的体系结构 1 5 - 1 9 : 山东大学硕士学位论文 这个系统的体系结构 2 0 - 2 2 1 主要采用c s 体系结构以及b s 体系结构等,前者实现 比较简单,一定程度减少了计算机系统的各种瓶颈问题,后者灵活性比较大,能 提高系统的安全性,使得维护比较简单。 数据仓库数据主要是通过规则从数据源对其进行抽取、转换( 清洗) 并加载 ( e t l ) 到数据仓库中的【13 1 。数据的抽取是指根据相应的规则到数据源中将所需 数据取出;数据的转换是指根据规则将取出的数据进行格式等的转换,并对转换 的数据进行一致性检查等操作;数据的加载是指将转换后的数据添加到数据仓库 中。数据仓库的更新有两种模式:阻塞式与非阻塞式,前者是当对数据仓库数据 进行更新时,数据仓库所有的其他应用都停止运行,例如可以在夜间无人使用数 据仓库时进行;但是有时数据仓库的使用是连续的,这样我们采用后者,它的实 现机制主要是多版本控制方式。 o l a p 前端工具【l3 】的研究主要集中在如何为用户提供简单方便全面的数据展 示工具,快速灵活的满足用户需求。影响前端工具的概念模型是数据仓库数据的 多维视图( 用数据方体表示数据,方体的各个面表示维) ,如图1 2 所示。在这 种概念模型基础上实现对数据仓库数据的存取。前端工具主要包括电子制表工 具。 电价分类 1 工业用电 2 农业用电 3 生活用电 4 其他用电 元) 图1 - 2 多维数据模型 e r ( e n t i t yr e l a t i o n ) 模型和维模型是在数据仓库环境中使用的两种基本建 模技术,e r 模型可以更好地理解现实世界中实体以及实体之间的关系,应用范 围很广,而维模型( 星型与雪花模型) 则能很好地表示商业用户的需求,更能满 足数据仓库建模的需要,在数据仓库系统中使用的更多一些。相应地,它们在语 义的表示上也就不同,但是它们也有许多相似之处,例如,维模型使用与e r 模 型同样的术语:实体、关系、属性、主码等。 山东大学硕士学位论文 在数据仓库实现方面1 1 3 】,现在绝大部分都在数据库管理系统上实现数据仓 库。数据仓库的实现主要有多维型和关系型两种方式,目前大多数数据仓 库系统的实现都是以关系模型为基础的,包括i n f o m i x 、o r a c l e 、s y b a s e 等关系 数据库商家的数据仓库产品。多维模型能够清晰的表达数据仓库中数据的特点, 逻辑视图同数据方体有着严密的对应关系,并且它是随着数据仓库的诞生而出现 的,在实现数据仓库方面有着不可比拟的优势。但是由于多维数据库的发展很不 成熟,目前采用多维数据库实现数据仓库的系统很少。关系模型概念单一,其所 有的联系都用关系来表示,因此它的数据结构简单、清晰,便于理解和使用,操 作简便;而且因为当前数据库的主流技术是关系数据库,采用这种模型的数据仓 库跟源数据库可以很容易的做到平稳的连接,多数关系数据库的技术也可以直接 使用。因此数据仓库的实现多采用关系型实现,同时以多维模型的逻辑形式呈现 给用户。 数据仓库含有大容量的数据,为了快速的得到查询响应,采用有效的存取方 法和高效的查询处理技术是必要的。目前往往采耿如下措施:利用冗余结构 例如索引( 包括位图索引和连接索引等) 和物化视图;并行处理以及优化复杂的 查询等。 另外数据仓库数据的管理和元数据的管理也是十分重要的。数据仓库数据的 管理主要通过数据库管理系统进行管理。元数据主要采用数据字典、x m l 等描 述方式,对它的管理主要通过数据库管理系统或者x m l 的管理机制实现。 1 3 数据仓库管理系统的研究现状与存在问题 数据的存储和管理是数据仓库的关键。数据仓库的组织管理方式决定了它有 别于传统数据库的特性,但是目前主要采用数据库管理系统对数据仓库的数据进 行管理和组织,有两种类型的数据库管理系统用于对数据仓库的数据进行管理和 组织,即多维数据库管理系统( h y p e r i o n 的e s s b a s e ) 和关系数据库管理系统 ( o r a c l e 、s q ls e r v e r 等) 。 在数据仓库发展的早期,人们发现采用关系数据库去实现这种多维查询模式 非常低效、查询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,它不是关系 型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。 多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥 有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。这样 的状态直到“星型模式”在关系数据库设计中得到广泛的应用才彻底改变。由于 关系数据库系统是适应数据库应用而出现的,因此在数据仓库的应用方面还是存 在不足,例如数据存取效率比较低,不能很好的满足用户的需求。 另外,关系数据库管理系统没有提供足够多的数据类型来支持用户的需求, 例如多媒体数据类型,虽然有的关系数据库管理系统能够提供方法来支持这种多 媒体数据的存取,但是存取速率仍然不高。 尽管关系数据库管理系统有很多不足,但是目前数据仓库的实现还是以关系 数据库管理系统为主。 1 4 体系结构的研究现状与存在问题 一个系统的体系结构是保证系统能够高效运行的关键技术之一,成为数据仓 库研究的热点盼2 9 1 。 我们从两个角度来探讨系统的体系结构,一是目前大多数数据仓库系统都是 采用数据库与数据仓库相分离的体系结构。这种体系结构明确提出了数据处理的 两种不同类型,并将两者在实现中区分开来,建立起d b d w 相对独立的体系结 构,如图l 3 所示。但是这种体系结构并不能涵盖企业所有的数据处理要求。 因为企业的数据处理虽然可以较为粗略的划分为操作型和分析型两部分,但是这 两种处理类型并不是泾渭分明的。实际上数据处理往往是多方面要求的,也就是 说有些处理是操作型的,但不适合在操作性d b 种进行,而又存在着一些分析型 处理,但不适合在d w 中进行。例如电力公司的设备部经理经常要解决这样的 问题:某电器设备是否要进货? 他首先清楚该设备的存货是否充足,还要了解该 设备近期的工作情况,还需从资金的情况出发等,也就是说,要根据这些数据的 综合信息才能做出较为合理、可行的决策,如果将这一决策过程放到原有面向应 用的分散d b 系统中去完成,不一定能得到每个部门的准确一致信息,而需要进 行部门间的协调配合,工作量很大,但将其放在数据量巨大的d w 中去处理, 显然会较费时,且涉及许多不必要的数据检索。这样采用这种体系结构( 图1 一 3 ) 薤不麓镶好豹满足数据驱动的要求。兔了满麓这静纛袋,我们提毽了一耱赣 的体系结构( 统一管理数据仓库和源数据库) ,在该结构的支持下,数据管理模 块来统一管理整个系统的数据,新的体系结构具有可以将中阔结果提供绘溺户的 特点,用户可以根据需要提出需求,系统通过分析用户的需求,可以从d b 中综 合出信息,同时也可以根据需要从d w 中取出信息,将两者综台递交给用户, 所瞄这一特性能够旗足上述数掇驱动需求。更重要的是新的蒋系结构能够节约资 源,简化管理,方便用户使用,并能够进步提高系统的效率。 翻】- 3d b - d w 搭篆缕梅瓣 另一方面是目前数摄仓库系统的体系结构大酃采用c s 结构、b i s 结构、多 a g e n t 或者是它 f j 静混合;韪麓我们的系统是采用c s 缍撬,主要愿瓣是c s 结构比较简单、易于实现、便于扩充,能够方便的处理多媒体数据等。还由于我 们兹系统嚣前只楚起多,鉴于c s 静这些特征,我们能够受溪静实现。鼗稍毵提 出的体系结构具有灵活性和可扩展性,能够在其上扩展b s 结构和多a g e n t 结 梅,这稀为系统黻后的发怒留下了余地。 1 5 本文的工作 奉论文共分为瑟牵,疆绕建立数据仓霹系统平台的设计方案,对它避行详绍 的叙述和较为深入的研究,所做的主要工作有: 1 在眈较各体系结构优缺点的基础上,提出了一种新的体系结构,为系统 其他部分提供运行的平台,该俸蓉结构g 够锻到统一管璎,弱露叙述了数攒怠疼 系统的数据管理机制,并提出了一种数据仓库与数据库统一管理的数据管理方 法: 2 具体的给出了扩展r d b m s 的功能与命令; 3 一谨细的列出了我们提供盼蒸手s o c k e t 杌制的通信命令及数据结构: 4 针对电力营销决策的特点与要求,设计了系统的实现方案。 1 6 小结 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来自于其它数据源的。数据仓库的建立并不是要取代数据库,它在建 立一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理 数据库在企业的信息环境中承担的是日常操作性的任务馥女据仓库是数据库技术 的一种新的应用,而且到目前为止,数据仓库还主要是用关系数据库管理系统来 管理其中的数据。 本章在叙述了数据仓库技术研究现状的基础上,具体的分析了目前在数据管 理方法与数据仓库体系结构方面存在的问题,并叙述了本文的研究工作与主要贡 献。 第二章e m d w s 体系结构的关键技术 本章着重论述了我们所建立的数据仓库体系结构中的关键技术,包括体系结 幸句中的数据管理方法、扩展的r d b m s 以及通信机制等。 数据仓库遇到静一个很大的润题是对大量数据的存储鞫管理。数据仓库所涉 及的数据量比传统事务处理大得多,而且随时间的推移而积累。关系数据库经过 透3 0 年懿发展,占摄了绝大部分市场份凝,# 菸它数撰篱理系统可毙。嚣兹不 少关系数据库系统已经支持数据分割技术,能够将一个大的数据库表分散在多个 甥蓬存德设备中,送一步增强了系统管理大数据爨豹扩袋辘力。缀然关系数据瘁 能够管理数百个g b 甚至到t b 的数据,但是数据库管理系统在管理数据仓库时 电遇到了些困难,例如数据的存取效率问题。我们针对这些阔题提出了一种基 于r d b m s 的数据管理方法,该管理方法不但能够管理多媒体数据,而且比以往 的关系数据库管理系统的多媒体数据存取具有更简的效率;我们在关系模型基础 上提出了新的数据模型,不但齄够提高数据仓库数据的检索效率,而且在源数据 库系统采用该模型时,也能够提高源数据库系统数据的检索效率;我们还提供新 的数据掇 乍,满足数据仓库系绞援户豹多萃孛震求。 通过对各种数据库管理系统性能功能的比较,我们决定采用o r a c l e 公司的 o r a c l e 8 1 6 作为我稍静数据仓露管理系统。在关系模鼙的一个袭串,稻瞬值熬 两个记录被看作同一条记录。许多应用中定义某个或某几个属性为主关键字来区 分不同盼记录。主关键字只在该裘内唯一标志一条记录,而不是全局唯一。这有 定的局限性。比如用地送编号张标志她送,但不围供电竭鲍地骥编号可姥格式 不同,同一供电局的不同时期编号格式也可能不一样。所以用属性值来标志实体 或多或少商局限瞧e 本文目前栗曩lo r a c l e8 提供熬r o wi d ( 嚣标识) 终必荬全 局唯一的对象标识符,但j 鼙有些不产生混淆的情况下采用浅的主关键字来区分不 同豹蔻象。 另外系统的通信机制也是相巍重要的,我们采用s o c k e t 机制。采用该通信机 箭眈较簿肇,它在满足用户通信的基本需求的基础上能够尽快的蜜现系统。如果 采用当前存在的一些中间件技术,虽然能够满足我们的要求,但是时闻和财力不 允许,为此我们决定采用s o c k e t 机制。 山东大学硕士学位论文 2 1 统一管理方法 下面定义本节及以后使用的一些术语: 定义2 1 数据仓库数据源:是指数据仓库数据的来源,通过对数据源数据 的抽取、转换、清洗最终加载到数据仓库中,数据源的类型多种多样,既包括结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 税法的考试题库及答案
- 华西护理考试题库及答案
- 《机械员》考试题库含答案(轻巧夺冠)
- 安全环保职业卫生消防考试试题及答案
- 2025年数据分析师招聘考试模拟题及答案集
- 2025年政府会计准则制度实操考试题库及解析
- 2025年【G1工业锅炉司炉】作业考试题库及G1工业锅炉司炉考试试题(含答案)
- 2025年教育系统事业单位招聘考试教材及模拟题集
- 2026届上海市北郊高级中学化学高二上期中达标测试试题含解析
- 2025年基础气象观测知识点详解及模拟题解析初级版
- 人教PEP版(2024)新四年级上册 教材解读
- 纪念中国人民抗日战争暨世界反法西斯战争胜利80周年
- 2025四川省高级人民法院招聘聘用制审判辅助人员30人考试备考题库及答案解析
- 加气块砌筑知识培训课件
- 智慧养老服务与管理课件
- 2025年湖南安全技术职业学院招聘考试笔试试题(含答案)
- 配电带电作业工考试试卷与答案
- 保密教育培训课件内容
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 2024-2025学年人教版数学五年级下学期期末试卷(含答案)
- 清欠工作管理制度管理办法
评论
0/150
提交评论