(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf_第1页
(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf_第2页
(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf_第3页
(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf_第4页
(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf_第5页
已阅读5页,还剩144页未读 继续免费阅读

(计算机软件与理论专业论文)支持高效杳询的数据立方构建技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-1、i , d i s s e r t a t i o nf o rt h ed e g r e eo fd o c t o ri n c o m p u t e rs o f t w a r ea n dt h e o r y , s t u d y o nt h ec o n s t r u c t i o no fd a t ac u b e s s u p p o r t i n g e f f i c i e n tq u e r i e s b yl e n gf a n g l i n g s u p e r v i s o r :p r o f e s s o ry u g e n o r t h e a s t e r nu n i v e r s i t y m a y2 0 0 8 舢4舢8洲6 唧4啪4 舢8iiii- iiii- y 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :也 思。 学位论文作者签名:给隽衿 日期: 2 彻驴t 、a 口 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年d一年半口两年口 学位论文作者签名:泠剪诠 签字日期: a 叼伊j 、铷 导师签名:于曳 签字日期: 砌p 厂二口 1 , k 东北大学博士学位论文摘要 支持高效查询的数据立方构建技术研究 摘要 随着数字技术和计算机信息化的普及和发展,许多单位和部门都采用了计算机进行 管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监 控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成 了一个巨大的“宝藏”,如何有效地管理这些数据,从中挖掘规律性知识,指导制定生产 和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是 目前学术界和工业界研究开发的热点问题之一。随着网络时代的到来,网络技术的飞速 发展,已经而且正在继续改变着人们的生活及思维方式。每个人、每个企业可以在充分 利用全世界信息资源的前提下做出自己的决策,人们不仅仅是在普通地查询和访问数 据,更重要的是从数据中获取信息和知识,进而支持科学的决策。数据仓库及其之上的 o l a p 分析技术和数据挖掘技术提供了获取信息和知识的手段。 数据仓库和0 l a p 技术都是基于多维模型的。多维数据模型是面向分析应用而提出 来的一种直观的概念模型,可以直接地表达分析目标。该模型将数据看作数据立方体形 式。而建立数据仓库进行o l a p 处理的最终目的都是服务于决策分析的,需要的是对用 户查询的快速而准确的响应,这就要求针对数据立方的查询结果要准确、响应要快速, 因此数据立方的构建问题就变得极其重要。因此本文研究数据立方的构建等相关技术, 具体包括以下几个方面的内容。 ( 1 ) 针对数据仓库的物化视图选择问题,提出了一种基于查询模式的动态物化视 图选择算法。物化视图的选择和调整不但考虑了视图物化所需的空间限制,还参照了用 户以往的查询模式来调整其计算参数,每个视图都被赋予了一个权重,视图被查询的次 数越多,其权重越大,则该视图被物化的可能性就越大。与传统的物化视图选择算法相 比,基于查询模式的动态物化视图选择算法的查询命中率大大提高。 ( 2 ) 针对高维低基数的数据立方的计算和查询问题,提出了一种基于压缩位图的 索引结构,以及两个相应的高维数据集上数据立方计算和查询的算法。压缩位图索引的 位“与”运算速度非常快,引入“起始有效指针”和“结束有效指针”大大降低了位“与”运算 的次数和内存消耗。与f r a g c u b i n g 算法相比,压缩位图索引算法计算数据立方的时间 开销节省了3 0 ,存储空间节省了2 5 以上。 ( 3 ) 针对消除前缀冗余和后缀冗余的语义压缩数据立方结构d w a r f 的存储问题, - i i 摘要 区策略的加速查询的聚簇算法。递归聚簇算法考虑了点查询对 先顺序查询的特点进行聚簇,层次聚簇算法考虑了范围查询对 d w a r f 节点进行广度优先顺序查询的特点进行聚簇。采用逻辑聚簇的机制来保证聚簇特 性。与d w a r f 原来的聚簇相比,递归聚簇算法更适合于点查询,层次聚簇算法适用于范 围查询,查询时间和i o 时间的性能都有很大提高。 ( 4 ) 针对数据立方中对度量值进行实时动态泛化统计分析的查询需求,提出了一 种适合动态泛化统计分析的数据立方模型。数据泛化是通过将相对较低层次的值( 如属 性a g e 的数值) 用较高层次的概念( 如青年、中年和老年) 置换来得到汇总数据的过程。 新模型通过对传统数据立方模型的维和事实表的定义进行扩展,解决了传统方法对动态 泛化统计分析实现的不灵活性和无法对动态泛化统计分析下的数据立方进行预先物化 而造成查询性能过低等缺点。针对动态泛化分析查询,新模型在查询时间、用户满意度 和操作灵活性等方面都优于传统模型。 ( 5 ) 最后根据对d w a r f 上点查询和范围查询的特点的分析和对w i n d o w s 磁盘管理 子系统的分析,提出了一个加速数据立方查询的自定义缓冲机制,在基于自定义缓冲区 的查询系统中,在聚簇d w a r f 的基础上对维排序属性进行了重新选择,将一部分经常被 查询到的d w a r f 节点放在自定义的缓冲区中以减少i o 次数加快查询速度,自定义缓冲 机制对查询性能的提升十分显著。 总之,本文研究了数据仓库中关于数据立方构建的相关问题,提出了基于物化视图 策略、索引策略、语义压缩策略和缓冲策略的新的数据立方构建算法,设计了一种适合 动态泛化统计分析的数据立方模型,有效地解决了一系列数据立方构建和查询的相关问 题,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将 对今后数据仓库中数据立方的构建和查询等研究工作打下良好的基础,同时也对基于数 据仓库的决策支持系统的建设与开发具有一定的参考价值。 关键词:数据仓库;数据立方;在线分析处理;物化视图;位图索引;聚簇d w a r f ;泛 化分析;自定义缓冲区 i i i 一 s t u d yo nt h ec o n s t r u c t i o no fd a t ac u b e ss u p p o r t i n ge f f i c i e n t q u e r i e s a bs t r a c t w i t ht h ed e v e l o p m e n to ft h ed i g i t a lt e c h n o l o g ya n dt h ep o p u l a r i z a t i o no ft h ec o m p u t e r a p p l i c a t i o n s ,m a n ye n t e r p r i s e sa n do r g a n i z a t i o n sh a v eb e e nu s i n gc o m p u t e r sa n do t h e rr e l a t e d i n f o r m a t i o nt e c h n i q u e st om a n a g et h e i rd a t a t h ec o m p u t e r sh a v es 仃o n ga b i l i t i e so f c o l l e c t i n g , s t o r i n g ,a n dp r o c e s s i n gd a t a t h ed a t ac o l l e c t e da n da c c u m u l a t e df r o mo p e r a t i o n a ls y s t e m s y e a rb yy e a r ,s u c ha sp r o d u c t i o nm o n i t o r i n gd a t a , m e d i c a ld a t a , v i t a ls t a t i s t i c sd a t a , f i n a n c e a n de c o n o m i c sd a t a , a n dm a r i n ed a t a , a r et h ea s s e t so ft h ee n t e r p r i s e s h o wt o e f f i c i e n t l ya n d e f f e c t i v e l ym a n a g et h ed a t aa n dm i n eo u tp a t t e r n sf r o mt h ed a t at os u p p o r td e c i s i o nm a k i n go f p r o d u c t i o na n dm a r k e t i n gb e c o m e sm o r ea n dm o r ei m p o r t a n t s o ,t h ed a t aw a r e h o u s e t e c h n o l o g yo c c u r r e d t h ed a t aw a r e h o u s et e c h n o l o g ya n dt h ea p p l i c a t i o n sb a s e do nd a t a w a r e h o u s e sa r et h eh o tt o p i c so fa c a d e m i ca n di n d u s t r yc o m m u n i t i e s w i t ht h ec o m i n go f n e t w o r ka g e ,t h ef a s td e v e l o p m e n to ft h en e t w o r kh a sc h a n g e da n dc o n t i n u e st oc h a n g et h e l i v e sa n dt h et h i n k i n gm a n n e r so fp e o p l e e v e r yo n ea n de v e r ye n t e r p r i s ec a nm a k et h e d e c i s i o nu s i n gt h ei n f o r m a t i o nr e s o u r c e sa l lo v e rt h ew o r l d p e o p l en o to n l ys e a r c ha n da c c e s s d a t ab u tf i n di n f o r m a t i o na n dk n o w l e d g ei nd a t at os u p p o r td e c i s i o nm a k i n g t h e t e c h n o l o g i e s o fo l a pa n dd a t a m i n i n gb a s e do nd a t aw a r e h o u s ec a np r o v i d em e a n sf o rg a i n i n g i n f o r m a t i o na n dk n o w l e d g e t h ed a t aw a r e h o u s ea n do l a pt e c h n o l o g i e sa r ea l lb a s e do nam u l t i d i m e n s i o n a ld a t a m o d e l t h em u l t i d i m e n s i o n a ld a t am o d ei sac o n c e p tm o d e lf a c i n ga n a l y s i sa p p l i c a t i o n s , w h i c hc a l le x p r e s st h ea n a l y s i sg o a l sd i r e c t l y t h i sm o d e lv i e w sd a t ai nt h ef o r mo fad a t a c u b e t h ef i n a l l ya i mo ft h ed a t ew a r e h o u s ea n do l a pa r es e r v i n gt h ed e c i s i o nm a k i n g , w h i c hr e q u i r e st h ef a s ta n de x a c tr e s p o n s et ot h eq u e r i e so nd a t ac u b e s s ot h ec o n s t r u c t i o no f d a t ac u b e sb e c o m e si m p o r t a n t t h i sd i s s e r t a t i o ns t u d i e st h ec o n s t r u c t i o no fd a t ac u b e sa n dt h e r e l a t e dt e c h n o l o g i e s i ti sf o c u s e do nt h ed i s c u s s i o n sa b o u tt h ef o l l o w i n gi s s u e s : f i r s t l y ,t h i sd i s s e r t a t i o np r o p o s e sad y n a m i cm a t e r i a l i z e dv i e ws e l e c t i o na l g o r i t h mb a s e d o nq u e r yp a t t e r n s ( b q p ) a i m i n ga tt h em a t e r i a l i z e dv i e w ss e l e c t i o np r o b l e m si nc u r r e n td a t a w a r e h o u s es y s t e m s i nt h e b q pa l g o r i t h mt h es e l e c t i o n sa n dt h ea d j u s t m e n t so ft h e - 东北大学博士学位论文a b s t r a c t m a t e r i a l i z e dv i e w sc o n s i d e rt h es p a c el i m i t a t i o na n dt h eu s e r s q u e r yp a t t e r n sb e f o r e e v e r y v i e wh a saw e i g h t t h em o r et h ev i e wi sa c c e s s e d ,t h eb i g g e rt h ew e i g h ti s ,a n dt h eh i g h e r p r o b a b i l i t yt h ev i e wi sm a t e r i a l i z e d c o m p a r e d 、析廿lt h et r a d i t i o n a lm a t e r i a l i z e dv i e w s s e l e c t i o na l g o r i t h m ,t h eh i tr a t eo ft h eb q pa l g o r i t h mi si m p r o v e dg r e a t l y s e c o n d l y ,t h ed i s s e r t a t i o np r o p o s e sa ni n d e x i n gt e c h n i q u ec o n s i s t i n go fac o m p r e s s e d b i t m a pi n d e xa n dt w oa l g o r i t h m sf o rc u b ec o n s t r u c t i n ga n dq u e r y i n g ,w h i c hd e a l s 晰mt h e h i g hd i m e n s i o n a la n dl o wc a r d i n a l i t y d a t a s e t s t h eb i t a n do p e r a t i o nb a s e do nt h e c o m p r e s s e db i t m a pi n d e xi sv e r yf a s t ;t h ei n t r o d u c i n go ft h es t a r tv a l i dp o i n t e ra n dt h ee n d v a l i d p o i n t e rc a ng r e a t l yr e d u c et h eo p e r a t i o n so fb i t - a n d i n ga n dt h em e m o r yc o n s u m p t i o n c o m p a r e dw i mt h ef r a g - c u b i n ga l g o r i t h m t h ec o m p u t a t i o nt i m eo ft h ea l g o r i t h mb a s e do n c o m p r e s s e db i t m a pi n d e xi ss a v e db y3 0 ,a n dt h es t o r a g es p a c ei ss a v e db ym o r et h a n2 5 t h i r d l y ,t h ed i s s e r t a t i o np r e s e n t st w on o v e lc l u s t e r i n ga l g o r i t h m sb a s e do np a g i n g p a r t i t i o ns t r a t e g yo fd w a r f , w h i c hi sah i g h l yc o m p r e s s e dc u b ec o n s t r u c t i o na l g o r i t h mb y e l i m i n a t i n gt h ep r e f i xa n ds u f f i xs t r u c t u r a lr e d u n d a n c i e s ,t os p e e du pq u e r i e s t h er e c u r s i o n c l u s t e r i n ga l g o r i t h mo p t i m i z e st h ep o i n tq u e r i e s ,w h i c hs e a r c ht h ed w a r f 而t l lt h em a n n e ro f d e p t h f i r s ts e a r c h t h eh i e r a r c h i c a lc l u s t e r i n ga l g o r i t h mo p t i m i z e st h er a n g eq u e r i e s ,w h i c h s e a r c ht h ed w a r f 、) i ,i t l lt h em a n n e ro fb r e a d t h f i r s ts e a r c h al o g i c a lc l u s t e r i n gm e c h a n i s mi s d e s i g n e dt of a c i l i t a t eu p d a t i n ga n dm a i n t a i nt h ec l u s t e r s c o m p a r e d 、析t 1 1d w a r f , t h er e c u r s i o n c l u s t e r i n ga l g o r i t h mi ss u i t a b l ef o rp o i n tq u e r i e s ,a n dt h eh i e r a r c h i c a lc l u s t e r i n ga l g o r i t h mi s s u i t a b l ef o rr a n g eq u e r i e s ,a n dt h ep e r f o r m a n c eo fr e s p o n s et i m ea n di ot i m e sa r eb o t h i m p r o v e d f o u r t h l y ,an e w d a t ac u b em o d e lf a c i n gt h ed y n a m i cg e n e r a l i z a t i o na n a l y s i si sp r o p o s e d , w h i c hi st oi m p l e m e n tt h ed y n a m i cg e n e r a l i z a t i o na n a l y s i sq u e r i e s d a t ag e n e r a l i z a t i o ni sa p r o c e s st h a ta b s t r a c t sal a r g es e to ft a s k r e l e v a n td a t af r o mar e l a t i v e l yl o wc o n c e p t u a ll e v e l , s u c ha st h ev a l u e so fa g e s ,t oh i g h e rc o n c e p t u a ll e v e l s ,s u c ha sy o u t h ,m i d d l ea g e ,a n d a g e d n e s s 。s i n c et h et r a d i t i o n a lm o d e lc a nn o td ot h ed y n a m i cg e n e r a l i z a t i o na n a l y s i sq u e r i e s f l e x i b l ya n dc a nn o tp r e c o m p u t e dm a t e r i a l i z e dv i e w st oa c c e l e r a t et h ea n s w e r so ft h e d y n a m i cg e n e r a l i z a t i o na n a l y s i sq u e r i e s t h en e wm o d e le x t e n d st h ed e f i n i t i o n so ft h e d i m e n s i o n sa n dt h ef a c tt a b l e si nt h et r a d i t i o n a lm o d e li no r d e rt og e to v e rt h e s es h o r t c o m i n g s t h en e wm o d e li sb e t t e rt h a nt h et r a d i t i o n a lm o d e li nt h er e s p o n s et i m e ,t h es a t i s f a c t i o n d e g r e eo fu s e r sa n dt h ef l e x i b i l i t i e sf o rt h ed y n a m i cg e n e r a l i z a t i o na n a l y s i sq u e r i e s f i n a l l y ,b a s e do nt h ea n a l y s i so ft h ec h a r a c t e r i s t i c so fp o i n tq u e r i e sa n dr a n g eq u e r i e so n v l】、1 ,卜rl厂4 i 一 l - r 东北大学博士学位论文 目录 独创性声明i 摘要i i a b s t r a c t i v 第1 章绪论。1 1 1 问题的提出1 1 2 数据仓库技术。1 1 2 1 数据仓库的概念及特点3 1 2 2 数据仓库的体系结构4 1 2 3 数据集市7 1 3 多维数据模型9 1 3 1 数据立方9 1 3 2 多维数据模型的模式分类1 0 1 3 3 数据立方的预计算1 1 1 4o l a p 技术1 2 1 4 1o l a p 的概念和特点。1 2 1 4 2o l a p 的基本操作1 3 1 4 3o l a p 的实现类型1 4 1 5 本文的主要研究内容与组织结构16 1 5 1 主要研究内容1 6 1 5 2 本文组织结构1 7 第2 章数据立方的构建技术1 9 2 1 引言1 9 2 2 物化视图l9 2 2 1 物化视图的概念1 9 2 2 2 物化视图的作用2 0 2 2 3 物化视图的选择2 1 2 2 4 物化视图的维护2 2 2 2 5 物化视图的查询重写2 3 2 3 索引策略2 3 v i i 东北大学博士学位论文 目 录 2 - 3 1 倒排索引2 4 2 3 2 简单位图索引2 4 2 3 3 编码位图索引2 5 2 3 4b 树索引2 7 2 4 语义压缩。2 8 2 4 1 数据立方中的数据冗余2 8 2 4 2c o n d e n s e dc u b e 3 0 2 4 3q u o t i e n tc u b e 和q c - t r e e 31 2 4 4d w a r f 3 2 2 4 ! ;h i e r a r c h i c a ld w a r f 3 4 2 5 小结3 5 第3 章基于查询模式的动态物化视图选择算法3 7 3 1 引言3 7 3 2 相关工作3 9 3 3 算法的设计3 9 3 3 1 简单贪心算法3 9 3 3 2 排序算法4 0 3 3 3 代价模型4 2 3 3 4 基于查询模式的动态算法4 4 3 4 存储结构的设计4 7 3 4 1 查询的存储结构。4 7 3 4 2 格的存储结构4 8 3 5 实验分析5 0 3 6 ,j 、结5 2 第4 章数据立方上的压缩位图索引5 3 4 1 引言5 3 4 2 相关工作5 3 4 3 压缩位图索引方法5 5 4 3 1 压缩的位图索引5 5 4 3 2 数据立方构建算法5 8 4 3 3 查询算法5 9 4 4 性能分析6 1 v i i i 1 ,i 1 囊 东北大学博士学位论文 目 录 4 5 硝、结: :6 3 第5 章数据立方的聚簇d w a r f 结构6 5 5 1 引言6 5 5 2 相关工作:6 5 5 3 递归聚簇:6 7 5 4 层次聚簇7 0 5 5d w a r f 的物理结构7 2 5 5 1 页面分区策略7 2 5 5 2 页内碎片7 4 5 5 3 逻辑聚簇机制一7 6 5 6 性能分析7 7 5 6 1d w a r f 的构建7 8 5 6 2d w a r f 的查询:8 0 5 7 小结8 3 第6 章泛化数据立方模型8 5 6 1 引言8 5 6 2 相关工作8 6 6 3 传统数据立方模型8 8 6 4 泛化数据立方模型9 l 6 4 1 基本概念9 1 6 4 2 维定义的扩展- 9 1 6 4 3 事实表定义的扩展9 2 6 4 4 等宽序列边界和概率表二9 3 6 5 模型的建立和运行9 3 6 5 1 模型的建立9 3 6 5 2 模型中的视图物化策略9 4 6 5 3 新模型中的统计分析操作,。9 6 6 6 性能分析9 6 6 7 小结9 8 第7 章加速数据立方查询的自定义缓冲机制9 9 7 1 引言9 9 7 2d w a r f 上查询的分析。1 0 1 、一一 目 录 :1 0 1 1 ( ) :2 1 ( ) z 10 4 :j 1 ( ) 5 1 ( ) ! ; 1 0 7 1 0 7 7 5 基于自定义缓冲区的查询系统的设计。1 1 0 7 6 实验结果与性能分析1 1 1 7 7 小结。1 1 3 第8 章结论1 l5 8 1 本文的主要贡献与结论11 5 8 2 进一步的工作“6 参考文献1 17 致谢1 2 7 攻博期间发表的论文1 2 9 攻博期间参与的项目1 3 1 作者简介1 3 3 x , r , 东北大学博士学位论文第1 章绪论 1 1 问题的提出 第1 章绪论 随着数字技术和计算机信息化的普及和发展,许多企事业单位的各个部门都采用了 计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能 力。在信息化、i n t e m e t 高速发展的网络时代,信息资源的经济价值和社会价值越来越 明显。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月 累的数据形成了一个巨大的“宝藏”,如何对其进行有针对性的开发,挖掘出有价值的信 息,形成企业知识,指导企业的技术决策和经营决策,对于企业的生存和发展将发挥举 足轻重的作用。因此,如何有效地管理这些数据,从中挖掘规律性知识,指导制定生产 和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是 目前学术界和工业界研究开发的热点问题之一。 随着网络时代的到来,世界经济全球化已经变成一种共识。经济的全球化必然带来 信息的全球化,如何搭建信息高速公路,需要许多专业人士的共同努力,数据仓库的出 现和发展是网络时代的数据特征。网络技术的飞速发展,已经而且正在继续改变着人们 的生活及思维方式。网络让这个世界变得很小:地域已经不是人和人,部门与部门之间 沟通的瓶颈,人们可以在同一时间享有同一信息。网络又让这个世界变得很大:每个人、 每个企业可以在充分利用全世界信息资源的前提下做出自己的决策,现在的世界已经发 展到离开信息就无法生存和进化的时代,人们不仅仅是在普通地查询和访问数据,更重 要的是从数据中获取信息和知识,进而支持科学的决策。数据仓库及其之上的o l a p 分 析技术和数据挖掘技术提供了获取信息和知识的手段。 1 2 数据仓库技术 数据仓库技术是数据库技术发展的必然产物。可以说数据仓库是在数据库发展的基 础上产生的,与数据库有着密不可分的联系。在数据库应用的早期,所要解决的是传统 手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统和企业的管理系统,它 们都属于典型的联机事务处理( o nl i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 系统。随着企 业的成长,企业积累了大量的、不同格式的内部历史数据。随着计算机应用的不断发展, 企业中建立起来的决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 需要对大量的业务数 据( 包括历史业务数据) 进行分析,以探索业务活动的规律和市场的运作趋势,帮助企 ,- 东北大学博士学位论文第1 章绪论 业为市场竞争做出重要的决策。这种基于业务数据的决策分析,称为联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 【l 】。技术的进步使企业的信息管理方式从传统的基于 文件的方式,进化到以d b m s 为核心的信息管理系统;由于企业的发展,企业内部的 业务模型和数据模型发生了变迁,导致了新增或删除了某些字段;由于企业间的兼并, 产生了外来数据。这些原因导致了历史数据的异构特性。通常来说这些异构的历史数据 都是海量的,因为这是长时间积累的结果,如果以记录条数来衡量,它们通常都是百万 甚至千万数量级的。这么海量的数据,无疑是企业的信息财富,如果能够通过一定的手 段挖掘出蕴含在这海量数据中的信息,将会对企业的决策产生重大的帮助。例如:超市 的经营者希望将经常被同时购买的商品放在一起,以增加销售:保险公司想知道购买保 险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种 疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。对于以上问题,现有的以 d b m s 为核心的信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计 还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包 含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提 供更高层次的数据分析功能。因此,需要为业务的统计分析建立一个数据中心,其数据 可以从联机的事务处理系统、异构的外部数据源和脱机的历史业务数据中得到;它是一 个联机的系统,专门为统计分析和决策支持应用服务,可提供决策支持和联机分析应用 所要求的一切数据。这个数据中心就是数据仓库( d a t aw a r e h o u s e ,d w ) ,它是一种 作为决策支持系统和联机分析应用数据源的结构化数据环境【z j 。 数据仓库的目的是要建立一种体系化的数据存储环境,将分析决策所需的大量数据 从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信 息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信息, 发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取 更多的经营效益。数据仓库的建立给用户提供了一个统一、一致的分析环境。用户可以 从数据仓库中进行利润增长分析,了解产品和服务间的关系、利润、产品线等,这有利 于指导决策,提高效益

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论