(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf_第1页
(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf_第2页
(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf_第3页
(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf_第4页
(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf_第5页
已阅读5页,还剩122页未读 继续免费阅读

(计算机软件与理论专业论文)基于时间轮转机制的数据仓库若干关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学博士学位论文摘薹 基于时间轮转机制的数据仓库若干关键技术的研究 摘要 信息处理包括事务型处理和分析型处理两种类型,前者是以业务处理为主的 联机事务处理( o l t p ) 应用,后者则主要完成对信息的联机分析处理( o l a p ) 、数据 挖掘( d m ) ,以及实施综合的决策支持系统s s ) 。经过长期的积累,许多企业和组 织都收集和存储了大量与自身生存、发展相关的外部数据和日常业务处理系统产 生的内部数据,如何对其进行有针对性地开发,并从中挖掘出有价值的信息和规 律,以便有效指导企业的技术、生产和经营决策就显得越来越重要,由此产生了 数据仓库技术。数据仓库是一个能更好支持企业或组织的决策分析处理的、面向 主题的、集成的、不可更新的及随时间不断变化的数据集合,它以传统数据库技 术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信 息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。目前数 据仓库技术及基于数据仓库的各类应用技术( 如联机分析处理和数据挖掘) 是学 术界和工业界研究的热点问题。 本文围绕数据仓库体系结构、数据仓库设计、数据抽取和数据仓库维护等几 个关键问题进行了深入细致的研究,提出了基于时间轮转机制的数据仓库和操作 型数据仓的逻辑模型,并以此为基础,研究了网络环境下数据的抽取和传输、历 史数据备份和有效数据重构等策略。 本文首先介绍了数据仓库系统的基本概念及数据仓库和o l a p 的主要研究内 容:在此基础上,提出了本文研究的内容和关键技术。结合我国目前信息化建设 的现状,从需求方和和开发方两个方面对数据仓库系统的设计与开发提出了一系 列合理化建议。 在分析数据仓库一般设计方法的基础上,提出了一种用于构建数据仓库的基 本时间轮转模型和扩展时间轮转模型;定义了时间轮转、时间基、轮转时间集与 粗时间集、轮转周期、抽象属性集、广义抽象属性集、非广义抽象属性的依赖实 体型、时域及抽象属性的时域拓展等基本概念;详细研究了基于时间轮转模型的 数据仓库逻辑模型构造方法、分类、数据构造的相关性为和该模型的基本特征。 与传统数据仓库模型比较,时间轮转模型对联机分析处理、数据挖掘和决策支持 系统具有更好的可用性,且在数据抽取效率和便利性方面都有较大提高。 为满足信息处理的多层次要求,本文对d b o d s d w 三级体系结构进行了广 东北大学博士学位论文摘要 泛讨论,给出了o d s 的定义,介绍了o d s 的性质、功能、类型,以及为实现o d s 的数据获取所引入的o d s 记录系统和记录系统定义的概念;描述了通过数据初装 和数据追加两种手段完成向o d s 的数据填充过程;提出了即时o l a p 的设计目标、 设计要求和基于时间轮转机制的o d s 模型构造方法,以及建立在o d s 模型基础 上的弱d s s 的基本理念,可较好满足企业对信息的分析处理实时需求。 针对网络环境下的数据仓库系统,本文重点研究了网络环境下基于时间轮转 机制的数据仓库数据的抽取策略和传输规则,提出了一种通用的基于x m l 技术的 传输数据构造形式和数据传输的实时规则、定时主动规则、定时被动规则及非定 时规则。在全局数据文件字典和中心节点数据文件字典的支持下,提出了正常传 输、定时传输和后台传输三种策略,较好解决了数据仓库在网络环境下的数据集 成问题。 针对数据仓库中历史有效数据的备份问题,在定义数据有效期、数据分析期 和数据生存期的基础上,提出了主文件和代码文件、相关文件集、主属性和附加 属性、代码回替、有效依赖集、数据熏各、数据熏写等基本概念;详细论述了数 据仓库中备份数据字典的构造及管理维护方法:提出了基于时间轮转机制的备份 数据组织策略、备份文件的管理及历史数据备份方法,对数据仓库的维护和历史 数据的使用奠定了良好基础。 为满足特殊o l a p 、d m 需求及历史数据查询需求,对数据仓库的历史有效数 据重构问题进行了深入细致的研究。分析了生存数据和分析数据在结构上和非结 构上的差异:提出了代码等价、代码相容、代码不相容、代码还原、代码提取、 代码重置及代码扩充等基本概念;给出了全局代码字典和全局主文件目录的定义、 组织及维护方式。在此基础上,提出了基于时间轮转机制的有效数据重构一般过 程,以及基于代码等价、代码相容和代码不相容的有效数据重构策略。很好地满 足了特殊o l a p 、d m 及历史数据查询实用程序集对历史数据的访问需求。 数据仓库系统是一个非常复杂的系统,其中涉及许多复杂的概念和技术。本 文仅对数据仓库系统设计及维护过程中的几个关键技术进行了研究,并在几个实 际数据仓库系统的设计中进行了应用。 关键词:数据仓库,数据集市,操作型数据仓,基本时间轮转,扩展时间轮转 数据传输策略,历史数据备份,有效数据重构 东北大学博上学位论文 a b s t r a c t s t u d y o ns o m ek e yt e c h n i q u e si nd a t aw a r e h o u s e b a s e do nt i m er o t a t i o nm e c h a n i s m a b s t r a c t i n f o r m a t i o np r o c e s s i n gi n c l u d e dt r a n s a c t i o np r o c e s s i n gt h a tm a i n l yp e r f o r m e do n l i n et r a n s a c t i o np r o c e s s i n ga p p l i c a t i o n sa n da n a l y t i c a lp r o c e s s i n gt h a tm a i n l ye x e c u t e d o nl i n ea n a l y t i c a lp r o c e s s i n g ,d a t am i n i n ga n dd e c i s i o ns u p p o r t i n g f o ral o n gt i m e a c c u m u l a t i n g ,m a n ye n t e r p r i s e sa n do r g a n i z a t i o n sh a v ec o l l e c t e da n ds t o r e dag r e a td e a l o fe x t e r n a ld a t aw h i c hc o r r e s p o n d e dw i t ht h er u n n i n ga n dd e v e l o p p i n gf o rt h e m s e l v e s a n di n t e r n a ld a t ap r o d u c e db yd a i l yo p e r a t i o np r o c e s s i n gs y s t e m s h o wt oe x p l o i tt h e s e k i n d so fd a t ap e r t i n e n t l ya n dm i n es o m ev a l u a b l ei n f o r m a t i o n sa n dr u l e sf r o mt h e mi s v e r yi m p o r t a n tt og u i d et h et e c h n o l o g y , p r o d u c t i o na n dm a n a g e m e n td e c i s i o n - m a k i n g o ft h ee n t e r p r i s ee f f i c i e n t l y t h e nt h ed a t aw a r e h o u s ew a sc o m et ob r i n g t h ed a t a w a r e h o u s ei sas u b j e c to r i e n t e d ,i n t e g r a t e d ,n o n v o l a t i l ea n dt i m ev a r i a n td a t as e tt h a t c a nb e u s e dt od e c i s i o nm a k i n ga n da n a l y t i c a l p r o c e s s i n g f o r e n t e r p r i s e sa n d o r g a n i z a t i o n s i tu s e st h et r a d i t i o n a ld a t a b a s et e c h n i q u e sa st h eb a s i cf a c i l i t yt os t o r ea n d m a n a g ed a t a ,t h es t a t i s t i c sa n da n a l y s et e c h n i q u e sa st h ee f f i c i e n tm e t h o d st oa n a l y z e t h ed a t aa n dt oe x t r a c tt h ei n f o r m a t i o n ,t h ea r t i f i c i a li n t e l l i g e n c et e c h n o l o g i e sa st h e s c i e n t i f i cw a yt om i n et h ek n o w l e d g e so rt od i s c o v e rt h er u l e s n o w , t h ed a t aw a r e h o u s e a n di t sa p p l i c a t i o n ss u c ha so nl i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n ga r et h e h o t s p o t sf o rt h ea c a d ea n di n d u s t r i e sc o m m u n i t i e s s o m ek e yt e c h n i q u e ss u c h 硒a r c h i t e c t u r e ,d e s i g n ,d a t ae x t r a c t i o na n dm a i n t e n a n c e o fd a t aw a r e h o u s ea r es t u d i e di nd e t a i l ,a n dt h el o g i c a lm o d e l so fd a t aw a r e h o u s ea n d o p e r a t i o n a ld a t a s t o r eb a s e do nt i m er o t a t i o nm e c h a n i s ma r e p r o p o s e d i nt h i s d i s s e r t a t i o n t h e nt h ed a t ae x t r a c t i o na n dt r a n s m i s s i o ni nn e t w o r ke n v i r o n m e n t , h i s t o r i c a ld a t ab u c k u pa n de f f e c t i v er e c o n s t r u c t i o ns t r a t e g i e sa r ed i s c u s s e dd e t a i l e d b a s e do nt i m er o t a t i o nm o d e l f i r s t l y ,a f t e ri n t r o d u c i n gt h eb a s i cc o n c e p t so fd a t aw a r e h o u s ea n dt h ep r i m a r y r e s e a r c h i n gc o n t e n t so fd a t aw a r e h o u s ea n do nl i n ea n a l y t i c a lp r o c e s s i n g ,s o m ek e y t e c h n i q u e sa n dm a i ni s s u e so ft h i sd i s s e r t a t i o na r ep r o p o s e d c o m b i n e dw i t ht h e a c t u a l i t yi no u rc o u n t r y , s o m ev a l u a b l es u g g e s t i o n st od a t aw a r e h o u s i n ga r ep r o p o s e d 1 i t 东北大学博士学位论文 a b s t r a c t f o rb o t hu s e r sa n dd e v e l o p e r s a f t e ra n a l i z i n gt h ec o m m o na p p r o a c h e so fd a t aw a r e h o u s ec o n s t r u c t i o n ,t h i s d i s s e r t a t i o np r o p o s e sab a s i ca n de x t e n d e dt i m er o t a t i o nm o d e lu s e dt oc o n s t r u c td a t a w a r e h o u s e s o m eb a s i cc o n c e p t ss u c ha st i m er o t a t i o n ,t i m eb a s e r , r o t a t i o nt i m es e ta n d r o u 【g ht i m es e t ,r o t a t i o nc y c l e ,a b s t r a c ta t t r i b u t es e t ,g e n e r a l i z e da b s t r a c ta t t r i b u t es e t , e n t i t yt y p e o fn o n g e n e r a l i z e da b s t r a c ta t t r i b u t e s e t ,t i m er a n g ea n dt i m er a n g e e x t e n d i n g o fa b s t r a c ta t t r i b u t ea r ed e f i n e d t h ec o n s t r u c t i o n a p p r o a c h e s o fd a t a w a r e h o u s e ,r e l a t e do p e r a t i o n so fd a t ac o n s t r u c t i o na n db a s i cc h a r a c t e r i s t i c sb a s e do n t h e s et w om o d e l sa r ed i s c u s s e d c o m p a r e dw i t hs o m et r a n d i t i o n a lm o d e l so fd a t a w a r e h o u s e ,t i m er o t a t i o nm o d e lc a l ls u p p l i e db e t t e ru s a b i l i t yf o ro nl i n ea n a l y t i c a l p r o c e s s i n g ,d a t am i n i n ga n dd e c i s i o ns u p p o r ts y s t e m ,a n dd a t ae x t r a c t i o ne f f i c i e n c ya n d c o n v e n i e n c yc a nb ei m p r o v e do b v i o u s l y t os a t i s f yt h em u l t i l e v e lr e q u i r e m e n t so fi n f o r m a t i o np r o c e s s i n g ,t h i sd i s s e r t a t i o n d i s c u s s e st h et h r e e l e v e la r c h i t e c t u r eo fd b o d s d w 1 1 1 ed e f i n i t i o n ,p r o p e r t i e s , f u n c t i o n s ,t y p e so fo d s ,0 d sr e c o r ds y s t e ma n dr e c o r ds y s t e md e f i n i t i o nt h a tu s e dt o d a t ao b t a i n i n ga r ei n t r o d u c e d t h ed i s s e r t a t i o na l s od e s c r i b e sd a t al o a d i n gp r o c e s sb y u s i n gt w om e t h o d s ,d a t ai n i t i a ll o a d i n ga n dd a t aa p p e n d i n g t h ea i m sa n dr e q u i r e m e n t s o fu p t o t h es e c o n do l a p d e s i g n ,c o n s t r u c t i o nm e t h o d so fo d sb a s e do nt i m er o t a t i o n m o d e la n db a s i cc o n c e p to f w e a kd s sb a s e do no d sm o d e la r ep r o p o s e d ,a n dt h er e a l t i m ea n a l y t i c a lp r o c e s s i n gr e q u i r e m e n t sf o ri n f o r m a t i o no fe n t e r p r i s e sc a nb es a t i s f i e d p r e f e r a b l y t h i sd i s s e r t a t i o na l s of o c u s e so nt h es t u d yo fd a t ae x t r a c t i o ns t r a t e g ya n dd a t a t r a n s m i s s i o nr u l e so fd a t aw a r e h o u s eb a s e do nt i m er o t a t i o nm e c h a n i s mi nc o m p u t e r n e t w o r ke n v i r o n m e n t ,p r o p o s e sac u r r e n tt r a n s m i s s i o nd a t ac o n s t r u c t i o nf o r mb a s e do n x m l ,r e a l t i m er u l e ,a c t i v et i m i n gr u l e ,p a s s i v et i m i n gr u l ea n dn o n t i m i n gr u l eo fd a t a t r a n s m i s s i o n b yu s i n gt h eg l o b a ld a t af i l ed i c t i o n a r ya n dc e n t e rn o d ed a t af i l e d i c t i o n a r y , t h r e es t r a t e g i e so fn o r m a lt r a n s m i s s i o n ,t i m i n gt r a n s m i s s i o na n db a c k g r o u n d t r a n s m i s s i o na r ep r o p o s e d ,s ot h ei s s u eo fd a t ai n t e g r a t i o ni nd a t aw a r e h o u s ec a nb e p r e f e r a b l ys o l v e di nc o m p u t e rn e t w o r ke n v i r o n m e n t a i m e da th i s t o r i c a la v a i l a b l ed a t ab a c k u pi nd a t aw a r e h o u s e ,t h i sd i s s e r t a t i o nf i r s t d e f i n e st h ed a t aa v a i l a b l ep e r i o d ,d a t aa n a l y t i c a lp e r i o da n dd a t al i f ep e r i o d ,a n dt h e n p r o p o s e ss o m eb a s i cc o n c e p t ss u c ha s h o s tf i l e ,c o d ef i l e ,c o r r e l a t i o nf i l es e t ,h o s t r v 东北大学博士学位论文 a b s t r a c t a t t r i b u t e ,a d d i t i o n a la t t r i b u t e s ,c o d er e p l a c e m e n t ,e f f i c i e n td e p e n d e n ts e t ,d a t ad u m p i n g a n dd a t ar e w r i t i n g t h ec o n s t r u c t i o n ,m a n a g e m e n ta n dm a i n t e n a n c eo fb a c k u pd a t a d i c t i o n a r yi nd a t aw a r e h o u s e ,t h eo r g a n i z a t i o ns t r a t e g i e so fb a c k u pd a t ab a s e dt i m e r o t a t i o nm e c h a n i s m ,m a n a g e m e n to f b a c k u pf i l ea n dh i s t o r i c a ld a t ab u c k u pm e t h o d sa r c i n t r o d u c e d ,s ot h eb e t t e rf o u n d a t i o no fd a t aw a r e h o u s em a i n t e n a n c ea n dh i s t o r i c a ld a t a u s i n gi se s t a b l i s h e d t h ei s s u eo fh i s t o t i c a la v a i f a b l ed a t ar e c o n s t r u c t i o ni nd a t aw a r e h o u s ei ss t u d i e di n t h i sd i s s e r t a t i o n ,a n dt h es t r u c t u r a la n dn o n - s t r u t u r e a ld i f f e r e n c e sb e t w e e nl i f ed a t aa n d a n a l y t i c a l d a t aa r cd i s c u s s e d s o m ec o n c e p t ss u c ha sc o d e se q u i v a l e n c e ,c o d e s c o m p a t i b i l i t y , c o d e si n c o m p a t i b i l i t y , c o d er e v e r s i o n ,c o d ee x t r a c t i o n ,c o d er e s e t t i n g ,a n d c o d ee x t e n s i o na r ed e f m e d t h ed e f i n i t i o n ,o r g a n i z a t i o na n dm a i n t e n a n c es t r a t e g i e so f t h eg l o b l ec o d ed i c t i o n a r ya n dg l o b l eh o s tf i l ed i c t i o n a r ya r ed e s c r i b e d ,a n dt h ec o l n n l o n p r o c e s sa n ds t r a t e ;g yo fa v a i l a b l ed a t ar e c o n s t r u c t i o nb a s e do nt i m er o t a t i o nm e c h a n i s m , c o d ee q u i v a l e n c e ,c o d ec o m p a t i b i l i t ya n dc o d ei n c o m p a t i b i l i t ya r ed i s c u s s e dd e t a i l e d , t h e nt h ea c c e s s i n gr e q u i r e m e n t so fh i s t o r i c a ld a t af o rs p e c i a lo l a p , d m a p p l i c a t i o n s a n dh i s t o r i c a ld a t aq u e r yp r o g r a m sc a nb es a t i s f i e dp e r f e c t l y f i n a l l y , ad a t aw a r e h o u s es y s t e mi sac o m p l e xs y s t e m ,i nw h i c hm a n yc o n c e p t sa n d t e c h n i q u e sa r ci n v o l v e d t h i sd i s s e r t a t i o no n l ys t u d i e do ns e v e r a lk e yt e c h n i q u e sa b o u t d a t aw a r e h o u s i n ga n dd a t aw a r e h o u s em a i n t e n a n c ea n dm a n a g e m e n ti nd a t aw a r e h o u s e s y s t e m m o s to ft e c h n i q u e sd i s c u s s e di nt h i sd i s s e r t a t i o nh a v e b e e na p p l i e di nd e s i g no f s o m ed a t aw a r e h o u s es y s t e r n k e y w o r d s d a t aw a r e h o u s e ,d a t am a r t s ,o p e r a t i o n a ld a t as t o r e ,b a s i ct i m er o t a t i o n , e x t e n d e dt i m er o t a t i o n ,d a t at r a n s m i s s i o ns t r a t e 舀e s ,h i s t o r i c a ld a t ab a c k u p , a v a i l 曲1 ed a t ar e c o n s t r u c t i o n v 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成 果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也 不包括本人为获得其它学位而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示谢意。 学位论文作者签名:震鸯啐 日期:m f 罗f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规 定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论 文被查阅和借阅,本人授权东北大学可以将学位论文的全部或部分内容编入有关 数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名: 签字日期: 导师签名: 签字目期: 东北大学博士学位论文 第1 章前言 第1 章前言 信息技术的不断推广应用,将企业带入了一个信息爆炸时代。长期以来,如 何有效管理并充分利用企业在经营过程中自身业务处理系统所产生的大量内部数 据或通过各种方式收集的与自身生存、发展息息相关的大量外部信息,一直是信 息管理人员所面临的一个重要问题。数据仓库及建立在其之上的联机分析、数据 挖掘技术的出现,为企业管理和使用大量数据并将其转化成为可靠和具有商用价 值的信息用于决策支持,提供了广阔的前景。 1 1 数据仓库基本概念 为满足实时、高效的事务性处理要求,在传统的联机事务处理( o l t p ,o nl i n e t r a n s a c t i o np r o c e s s i n g ) 系统中只能保存当前有效的业务数据,对长期所积累的大 量历史有效数据往往进行两种处理,其一是直接删除,以便提高当前o l t p 系统的 运行效率和降低存储代价;其二是将其备份到其它存储介质中,以便今后能够作 为档案数据进行简单的查询,或者使用专门的应用程序集甚至一个相对独立的小 型信息处理系统实现与当前有效数据一起作简单的综合统计和对比。但随市场竞 争的加剧和世界市场一体化进程的推进,企业为了适应社会需求以谋求自身的生 存和发展,用户不再仅仅满足于简单的事务性数据查询,而是需要收集大量与自 身业务相关的外部信息和内部业务处理系统所产生的历史有效数据,在充分分析 处理的基础上,能够从中发现和挖掘出某些决策信息,来指导企业或组织的经营 活动。 传统的o l t pd b 中仅仅存储了联机事务处理所需的且当前有效的细节数据和 少量为了满足曰常业务报表而必须的汇总数据,因而不可能从其中获得更多为企 业决策人员使用的辅助决策支持信息,因为这些信息需要对大量的业务数据,特 别是历史业务数据进行分析才能得到。有效管理并充分利用这些信息进行决策分 析的必然趋势是建立企业级的数据仓库( d w ,d a t aw a r e h o u s e ) 系统 i n r n 9 3 1 ,而在 d w 上进行的基于大量业务数据( 特别是历史数据) 的决策分析,就称之为联机分析 处理( o l a p ,o n l i n e a n a l y t i c a l p r o c e s s i n g ) ”。 著名的数据仓库专家w h 1 i l r f l o n 在其著作( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一 书中给出了如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m e 东北大学博士学位论文 第1 覃前言 v a r i a n t ) 的数据集合,用于支持管理决策【”。 虽然不排除在没有任何信息处理系统的基础上直接创建数据仓库系统的特殊 情况,企业数据仓库的建设通常以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以艇理归纳和重组,并及时提供给相应的管理决策人员,正是数据仓库的根本 任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程,或者 说是一种解决问题的方法,而不是一种产品。下面给出数据仓库系统的一些基本 定义3 羽。 定义1 1 :数据仓库( d w ,d a t aw a r e h o u s e ) 。数据仓库是为达到支持企业决 策分析目的,而从企业内部或外部数据源中抽取出来的、按照主题组织的、逻辑 相关的细节数据和汇总数据的集合,它具有主题性、集成性、时变性和只读性四 个特征。 性质1 :主题性。主题性是指数据仓库中的数据是按照主题来组织的,面向主 题性是数据仓库中数据组织的基本原则。主题是一个抽象的概念,是在较高层次 上将企业信息系统中的数据综合、归类并可进行分析利用的抽象。在逻辑意义上, 主题是对企业中某一宏观分析领域所涉及的分析对象。所谓较高层次是相对面向 应用的数据组织方式而言,是指按照主题进行数据组织的方式具有更高的数据抽 象级别。通常,主题的选取应该是按照分析的要求来确定的,虽然不同主题之间 存在内容上的重叠,但这种重叠是逻辑上的重叠,而不是同一数据内容的重复物 理存储。另外,主题之间的重叠仅仅表现在细节级上,因为在不同主题中存在多 种不同的综合方式,所表现出来的综合信息形式并不相同,因而在综合级别上的 重叠也就无从谈起。 主题具有独立性和完备性等特点,它是一个在较高层次上对数据的抽象,这 使得面向主题的数据组织可以独立于数据的处理逻辑,因而可以在这种数据环境 上方便地开发新的分析型应用。同时,这种独立性也是建设企业全局数据库( 在其 之上进行全局的o l t p 功能) 系统所要求的,所以面向主题不仅是适应于分折型数 据环境的数据组织方式,也是适应于建设企业全局数据库的数据组织方式。 性质2 :集成性。集成性是指数据仓库的数据是集成的,因而可向用户提供全 局统一的数据视图,使数据仓库的使用者( 或分析处理程序) 能够获得一致的、准确 的数据。虽然数据仓库中的数据是从原有分散的o l t p d b 中抽取而来,但它与操 作型数据仍然存在较大差别。数据仓库中的每一个主题所对应的源数据在原有的 查j ! 查兰堡主兰竺丝苎蔓! 兰萱童 各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都 和各自不同的应用逻辑捆绑在一起,因而数据仓库中的综合数据不能从原有的数 据库系统中直接得到,在进入数据仓库之前,必然要经过统一与综合。 性质3 :只读性。只读性又称非易失性,是指数据仓库的数据是不可更新的。 数据仓库的数据主要供企业分析决策之用,因而从本质上说,所涉及的数据操作 主要是数据查询,般情况下并不进行数据的修改操作。数据仓库的数据反映的 是一段相当长的时间内历史数据的内容,是不同时、点的数据库快照的集合,以 及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数 据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存储的数 据已经超过存储期限,这些数据将从当前的数据仓库中删除。 性质4 :时变性。时变性是指数据仓库的数据是随时间不断变化的。数据仓库 中的数据不可更新是针对应用而言,即数据仓库的用户进行分析处理时不进行数 据的更新操作,但绝对不是说,从数据集成输入到数据仓库开始到最终被删除的 整个数据生存周期内,所有数据仓库中的数据都是永远不变的。数据仓库随时间 变化不断增加新的数据内容,它不断捕捉o l t p 数据库中变化的数据,追加到数据 仓库中去,即不断生成o l t p 数据库的快照,经统一集成后增加到数据仓库中去, 但不会对原来的数据快照进行修改。同时,为保持数据的有效性和数据分析的效 率,数据仓库会随时间变化不断删除旧的数据内容。另外,数据仓库中包含有大 量的综合数据,这些综合数据大多与时间有关,数据会经常按时间段进行综合, 或按照一定的时间片进行抽样等,这些数据随时间的变化不断进行重新综合。 性质5 :集合性。集合性是指数据仓库的数据是以某种数据集合的形式进行存 储。目前数据仓库所采用的数据集合方式主要包括按照多维数据库方式进行存储 的多维模式、以关系数据库方式进行存储的关系模式和以两者相结合的方式进行 存储的混合模式。 性质6 :决策支持。建立数据仓库的根本目的和出发点就是能为用户提供决策 分析信息。其中不同层次的管理者都可以利用数据仓库进行不同程度、不同角度 及满足不同目的的决策分析,以提高自身工作的管理决策质量和效果。通常,数 据仓库的实际用户包括高层企业决策者、中层管理者和基层业务处理者,他们进 行日常决策的层次、决策分析的类型不同,因而也就要求数据仓库能够满足不同 层次用户的需求。 广义上讲,数据仓库是一个大的数据中心,囊括了企业多年来积累的大量当 前的及一个时期内的历史数据,这些数据可能来自于企业自身o l t p 系统的日积月 东北大学博士学位论文 第1 章前言 累,也可能包含了以往遗留系统( l e g a c ys y s t e m ) 积攒下来的数据,还可能存在一部 分通过各种手段收集的、能够对企业自身决策分析颇有帮助的外部数据。按照主 题对这些数据进行重新集成和组织后,能够向合法用户提供统一的数据视图,能 够在其之上进行o l a p 和d m 操作。 定义1 2 :数据仓库管理系统( d w m s ,d a t aw a r e h o u s em a n a g e m e n ts y s t e m ) 。 负责对数据仓库进行管理的软件集合,用于实现数据抽取、转换、加载、存储、 查询、维护、任务调度及元数据管理等功能。数据仓库管理系统通常是一个逻辑 概念,在实际应用中,通常由一组完成特定功能的数据仓库工具加上传统的o l t p 数据库管理系统组成。 定义1 3 :数据仓库系统( d w s ,d a t aw a r e h o u s es y s t e m ) 。数据仓库和负责 对其进行管理的数据仓库管理系统,统称为一个数据仓库系统。广义地讲,数据 仓库系统还可能包括前端的开发系统。如数据挖掘工具、报表生成工具及o l a p 工具等。 定义1 4 :数据仓库应用系统( d w a s ,d a t aw a r e h o u s ea p p l i c a t i o ns y s t e m ) 。 在数据仓库系统之上开发的用于支持企业决策分析的应用系统,称之为数据仓库 应用系统。例如,财务分析、销售分析、产品质量分析等数据仓库应用系统。 1 2 数据仓库和o l a p 的主要研究内容 数据仓库是一个环境,而不是一件产品,向用户提供用于决策支持的当前的 历史的、内部的外部的、综合的细节的( 在具有依赖型数据集市的体系结构 中,数据仓库更注重细节级数据的存储) 数据,这些数据在传统的操作型数据库中 很难或不可能得到。数据仓库技术就是为了有效的把操作型数据集成到一个统一 的环境中以提供决策型数据访问的各种技术和功能模块的总称,所做的一切都是 为了让用户更快、更方便地查询所需要的信息,以便为他们提供决策支持。 数据仓库的主要研究内容包括数据仓库的建模方法、数据抽取清洗和加载、 数据仓库的数据更新和性能优化、元数据的管理、数据立方计算,以及基于数据 仓库的数据分析技术等问题 6 】。 数据仓库的建模一般是指为o l a p 建模在数据仓库的基础数据之上,建 立数据立方和数据集市的方法。常用的数据仓库的建模方法有星型模式、雪花模 式、星座模式等【7 j 。许多文献提出了针对不同数据仓库( 或o l a p ) 的概念建模方法 峰1 “,还有许多文献提出了数据仓库建模框架和从企业操作型系统的数据模型导出 东北大学博士学位论文 第1 章前言 数据仓库模型的方法【l ” 。 数据仓库系统的体系结构也是数据仓库领域的一个研究重点,理论上讲,数据 仓库系统的体系结构包括数据源、后端工具、元数据中心、数据仓库( 含数据集市、 数据立方) 、前端工具、o l a p 服务器、数据仓库管理及信息发布系统( 参见图1 1 ) ”。 但在实施过程中,仍有许多可以选择的设计方案。只要企业能够从自己的实 外部数据 操作型数槲 数据源 后端【其 数揣集市 前端工具 图1 1 数据仓库系统体系结构 f i g 1 1a r c h i t e c t u r eo f d a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论