




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨理t 大学t 学硕 学位论文 基于数据仓库实视图自维护的研究 摘要 随着计算机技术的飞速发展和企业界不断提出的新要求,建立在一个全 面而完善的信息应用基础之上的数据仓库技术应运而生。数据仓库中收集和 保存了大量来自于多个分散的、不同种类数据源中的数据。通常,数据以实 视图的形式存储,以便能快速访问这些集成的数据。然而,当数据源发生变 化时,数据仓库中的视图需要与基数据保持一致,并且视图必须得到维护。 实视图通过物理上的预先存储,加快了用户的查询响应时间,对于实视 图的使用和研究大大提高了数据仓库的性能。虽然目前实视图的维护技术取 得了一些研究成果,但是由于实视图维护的一致性特点,对于实视图的维护 还存在很多难点。本文对于实视图的维护进行深入研究,对于实视图的维护 的方法、实视图的优点、实视图的维护的过程进行了分析和总结,详细的分 析了实视图维护的策略。本文采用增量视图维护的策略,结合增量视图维护 中的辅助视图的自维护方法,提出了一种实视图自维护的算法,并用这种算 法进行了实例检测,其结果表明该算法有较高的效率,大大地节省了实视图 的存储空间。 考虑到并不是所有的视图都是可以自维护的,本文结合判断视图自维护 的检测算法,提出了一种视图相关更新的检测算法u d 算法。这种u d 算法通过查询辅助视图来避免网络传输并保证实视图与基数据源相一致,这 有助于改善查询响应时间,提高系统性能。 由于在数据仓库中存储实视图需要很大的空间,本文基于降低实视图存 储空间的思想,提出了一种可计算模型,并给出了相应的优化更新的过程。 这个可计算模型通过其中的策略模块,把那些不必要的视图进行物理性地删 除。 关键词数据仓库;实视图:自维护;可计算模型 坠玺堡矍三查兰三兰堡:兰竺丝圣 r e s e a r c ho nm a t e r i a l i z e dv i e w ss e l f - m a i n t e n a n c e b a s e do nd a t aw a r e h o u s e a b s t r a c t w i t ht h ef a s t d e v e l o p m e n to fc o m p u t e rt e c h n o l o g i e s a n de n t e r p r i s e i n c r e a s i n gn e e d s ,d a t aw a r e h o u s i n gt e c h n o l o g i e sc o m eo u t ,w h i c ha r eb a s e do na c o m p r e h e n s i v ea n dp r e f e c ti n f o r m a t i o nm a n a g e m e n ts y s t e m ad a t aw a r e h o u s e c o l l e c t sa n dm a i n t a i n sal a r g eo fd a t af r o ms e v e r a ld i s t r i b u t e da n dh e t e r o g e n e o u s d a t as o u r c e s a n do f t e nt h ed a t ai ss t o r e di nt h ef o r mo fm a t e r i a l i z e dv i e w si n o r d e rt op r o v i d ef a s ta c c e s st ot h ei n t e g r a t e dd a t a h o w e v e r , w h e nt h es o u r c e s c h a n g e ,t h ev i e w si nt h ew a r e h o u s em u s tb ec o n s i s t e mw i t ht h eb a s ed a t a ,a n dt h e v i e w sm u s tb em a i n t a i n e d t h eq u e r yr e s p o n d i n gt i m ec a nb es p e e d e db yp r e s t o r i n g t h ep e r f o r m a n c e o ft h ed a t aw a r e h o u s eh a sb e e ni m p r o v e db yu s i n ga n ds t u d y i n gm a t e r i a l i z e d v i e w s a l t h o u g hg r e a ta c h i e v e m e n t so ft e c h n o l o g i e so fm a t e r i a l i z e d v i e w s m a i n t e n a n c er e s e a r c hh a v eb e e nm a d e ,t h e r ea r em a n yp r o b l e m so fm a t e r i a l i z e d v i e w sm a i n t e n a n c et e c h n o l o g yb e c a u s eo ft h ec o n s i s t e n c yo fm a t e r i a l i z e dv i e w s c h a r a c t e r i s t i c s t h i sp a p e rf o c u s e so nt h em a t e r i a l i z e dv i e w sm a i n t e n a n c e ,s u m s u pt h e m e t h o dm a t e r i a l i z e dv i e w s ,t h ea d v a n t a g eo fm a t e r i a l i z e dv i e w s ,t h e m a i n t e n a n c e p r o c e s s e s o fm a t e r i a l i z e dv i e w s ,a n a l y z e st h es t r a t e g i e so f m a t e r i a l i z e dv i e w si nd e t a i l i nt h ed i s s e r t a t i o nt h e r e a d o p t si n c r e m e n t a l m a i n t e n a n c et e c h n i q u e s c o m b i n e d 谢t ht h es e l f - m a i n t e n a n c em e t h o da c c o r d i n g t oa u x i l i a r yv i e w s ,p r o p o s e sa na l g o r i t h mo fm a t e r i a l i z e dv i e w ss e l f - m a i n t e n a n c e , a n dw i t ht h ea l g o r i t h mt h ee x a m p l ed e t e c t i o ne f f i c i e n c yi sm a d e t h e i rr e s u l t s s h o wi ti sh i g he f f i c i e n ta n dc a nl a r g e l ys a v el o t so fs p a c eo fm a t e r i a l i z e dv i e w s c o n s i d e r i n gn o ta l lt h ev i e w sc a nb es e l f - m a i n t a i n e d ,c o m b i n e dw i t ht h e d e t e c t e da l g o r i t h mo f j u d g i n gw h e t h e rv i e w sc a nb es e l f - m a i n t a i n e do rn o t ,t h i s p a p e rp r o p o s e sad e t e c t e du da l g o r i t h mi nr e l a t i o nw i t hv i e w su p d a t e t h i su d a l g o r i t h mc a na v o i d n e t w o r kt r a n s m i s s i o n sa n dm a k es a r et h ea c c o r d a n c e - l i - 坠堡堡矍三查兰三耋堡! :兰堡丝兰 b e t w e e nm a t e r i a l i z e dv i e w sa n db a s ed a t as o u r c e sa g c o r d i n gt ov i s i t i n ga u x i l i a r y v i e w s ,w h i c hc a nh e l pt oi m p r o v et h er e p l yt i m ea n ds y s t e mp e r f o r m a n c e b e c a u s ei tn e e d sal a r g eo fs p a c et os t o r em a t e r i a l i z e dv i e w s ,t h i sp a p e r p r o p o s e sac o m p u t a b l em o d e la n ds h o wi t so p t i m i z e da n du p d a t e dp r o c e s s ,b a s e d o nr e d u c i n gt h es p a c eo fm a t e r i a l i z e dv i e w s t h i sm o d e lc a n p h y s i c a l l yd e l e t et h e u s e l e s sv i e w s ,a c c o r d i n gt ot h es t r a t e g ym o d u l eo f t h em o d e l k e y w o r d sd a t aw a r e h o u s e ;m a t e r i a l i z e dv i e w s ;s e l f - m a i n t e n a n c e ;c o m p u t a b l e m o d e l 1 1 1 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于数据仓库实视图白维护 的研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立迸行 研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发 表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中 以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:饧彩日期:岬彳f 哈尔滨理工大学硕士学位论文使用授权书 基于数据仓库实视图自维护的研究系本人在哈尔滨理工大学攻读硕士 学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工 大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔 滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交 论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用 影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密口,在年解密后适用授权书。 不保密日。 ( 请在以上相应方框内打4 ) 作者签名:坜勿 日期:口己哆, 导师签名:阂w 绵 日期:弘一7 厶1 1 竺尘堡矍三奎兰三兰竺:兰堡丝兰 1 1 课题研究背景 第1 章绪论 面对竞争日趋激烈与瞬息万变的市场,面对不同层次的大量信息,企业各 级管理人员将如何应用,以便在企业的经营和管理中迅速做出正确的决策? 数 据仓库就是针对上述问题而产生的一种技术方案l l 】。市场需求是技术发展的源 动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统 手工业务自动化的问题。当时单位容量的联机存储介质比现在昂贵得多,相对 于市场竞争的压力,将大量的历史业务数据长时间联机保存取用于分析显然是 过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业 务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有 积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个8 0 年代 直到9 0 年代初数据库应用的主流。 然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候, 企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势; 他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做 出有利的决策。这些决策需要对大量的业务数据包括历史业务数据进行分析才 能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理口】。 如果说传统联机事务处理强调的是更新数据库向数据库中添加信息,那么 联机分析处理就是要从数据库中获取信息、利用信息。 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然 的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容 易。第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并 不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一 个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环 境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚 设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述 方式并不适合非计算机专业人员进行业务上的分析和统计p j 。于是,有人感叹 2 0 年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多 了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据 哈尔滨理t 大学t 学硕f 学位论文 可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得 到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满 足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库1 4 1 。 如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统 和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就 是从数据库中获取信息口i 。 在数据仓库中,由于具有统一的模式和集成的数据,所以其优点是显而易 见的【6 1 : 1 查询效率高。大多数查询结果都可以从数据仓库中直接取得,无需访 问源数据库,这样就节省了数据库问的相互转换代价和通信开销。 2 系统可用性好。由于数据都是事先从源数据库中抽取,因而源数据库 系统的故障和性能不会影响到仓库系统的使用。 3 系统开销小。当重复查询相同的数据时,可以直接从数据仓库中提 取。与常规集成系统相比,节省了多次访问源数据库的开销。 4 以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、 存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为 用户提供经过处理后的有用信息的应用系统。 在此背景下,数据仓库在决策支持系统中得到了广泛的应用。 1 2 国内外研究状况 数据仓库的概念的形成是以p r i s ms o l u t i o n s 公司副总裁w h i n m o n 在 1 9 9 2 年出版的建立数据仓库为标志的。数据仓库的提出是以关系数据库、 并行处理技术和分布式技术的飞速发展为基础的,它是解决信息技术在发展过 程中虽然拥有大量数据却缺乏有用信息的综合方案。 目前数据仓库技术是即因特网技术的第二大热点。目前,i b m 、o r a c l e 、 s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 和s a s 等有实力的公司都拥有自己 的数据仓库技术。 o r a c l e 公司提供了o r a c l e 9 i 数据库、s q l * l o a d e r 工具、o r a c l ee x p r e s s 、 o r a c l ed i s c o v e r e r 等集成工具。其中,o r a c l e 9 i 数据库在一些关键领域实现数据 库自助管理、流程化并改进了操作管理过程,提供有效的管理工具和技巧减少 管理数据库所需要的任务和时间。使用这些工具能够为数据仓库开发和管理人 员提供有力的帮助,并且可以通过数据仓库中的数据进行数据挖掘和支持决策 哈尔演理丁大学t 学硕 :学位论文 支持。 i b m 公司提供了一套基于可视数据仓库的商业智能( b i ) 解决方案,包 括v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2o l a ps e r v e r5 0 、i b md b 2u d b , 以及来自第三方的前端数据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。其 中,v w 是一个功能很强的集成环境,既可用于数据仓库建模和元数掘管理, 又可用于数据抽取、转换、装载和调度。e s s b a s e d b 2o l a ps e r v e r 支持 “维”的定义和数据装载。e s s b a s e d b 2o l a ps e r v e r 不是r o l a p ( r e l a t i o n a l o l a p ) 服务器,而是一个( r o l a p 和m o l a p ) 混合的h o l a p 服务器,在 e s s b a s e 完成数据装载后,数据存放在系统指定的d b 2u d b 数据库中。 s y b a s e 公司企业级关系数据库通过多线索体系、并行操作以及对系统的内 存、处理器和磁盘资源使用进行控制,增强了资源利用率,为超大规模数据仓 库提供了行业中的强大性能;通过资源平衡,a d a p t i v e s e r v e r e n t e r p r i s e 使一个 单一的查询、连接、扫描和聚集等可以同时被多个处理器处理。这一技术使性 能得到显著提高。 a d a p t i v e s e r v e r l q 是s y b a s e 专为数据仓库设计的关系型数据库,为高性能 决策支持和数据仓库的建立而进行了优化。除了具有a d a p t i v e s e r v e r e n t e r p r i s e 的优点外,i o 采用了以下关键技术纵向数据存储( 通过列而不是通过行来进 行) 可以减少磁盘i o 高达9 8 ,消除表扫描并提供高达1 0 0 倍以上的查询响 应;获得专利的b i t w i s e 索引技术可以高速进行访问、汇总、分组和比较操 作;优秀的数据压缩技术使数据只占到传统数据库规模的2 0 左右。 数据仓库是用来进行存储查询和分析的集成化信息仓库,它的数据来源于 数据库和其它信息源。随着数据仓库应用的不断扩展和深入,数据仓库从脱机 维护到联机维护,从面向单用户到为多用户服务,是一个必然的过程。在这一 发展过程中,数据仓库的实视图维护是保证整个系统可用性和可靠性的一个关 键问题。实视图是指在数据仓库为用户提供服务的同时,在数据库的原始数据 发生改变时,实时地将这种变化反映到数据仓库中,使相应的实视图得到及时 的刷新。实视图是由原始数据根据需要事先集成并冗余存放在数据仓库中的视 图。对于这一问题的研究大致可以分成三类:第一类为单个视图的有效修改, 如何使它们是自维护的或用辅助视图避免基本关系访问:第二类是在视图修改 过程中尽可能最小化离线时间;第三类是处理数据一致性【7 】。 实体化视图( 以下简称实视图) 存储来自分散数据库表中的一个或多个对 象的查询结果,当数据库中的数据发生变化时,实视图中的相关数据也必须随 之发生改变。由于源数据库的结构以及数据的差异和网络开销等的问题,实视 哈尔滨理丁大学t 学硕1 :学位论文 图维护比传统的数据库管理系统中的视图维护要复杂得多。人们针对视图的一 致性维护问题做了大量的研究,提出了许多的视图维护算法。a g u p t a 等人提 出了数据仓库自维护的概念,即通过使用某些易于获取的源数据库的信息和附 加的实视图,在不访问源数据库的前提下,在数据仓库内部使用视图维护的算 法实现实视图的维护。这种维护视图的方法是以增加数据仓库中实视图的数量 为代价,在仓库的设计阶段就保证了它是自维护的。n h u y n 则扩展了自维护 的概念,进一步利用在运行时间的某些特定的信息( 如更新操作、基数据的增 量、当前视图的状态) 来实现数据仓库的自维护,但是这种方法不能保证实视 图在所有的时刻都是可自维护的f 8 l 。 1 3 数据仓库的技术趋势 数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方 面。 在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互联、 转换、复制、调度、监控等纳入标准化的统一管理,以适应数据仓库本身或数 据源的变化,使系统更加便于管理和维护。 在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,并 作为服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的 并行关系数据库将最具发展潜力。 在数据表现方面,数理统计的算法和功能将被普遍集成到联机分析产品 中,同时与i n t e r n e t w e b 技术紧密结合,推出适用于i n t r a n e t 、终端免维护 的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库用户前端 软件将形成产品,并作为数据仓库解决方案的一部分。数据仓库实现过程的方 法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计 的必备部分。 计算机应用发展的数据仓库倾向,是数据仓库发展的推动力。传统的联机 事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能 却早有需求。因此,许多事务处理系统近年来陷入一个两难的境地【9 】。在现有 系统上增加有限的联机分析功能,包括复杂的报表和数据汇总操作,这样一方 面严重影响了事务处理联机性能,另一方面,统计分析又因系统结构上的种种 限制而不能得到充分体现。因此,应用技术是朝着更加细化、更加专业的方向 发展。 哈尔滨理t 大学t 学硕 :学位论文 在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑之 中,联机分析将被应用于普遍的事务处理系统之中。在数据管理上,联机事务 处理和数据仓库在应用中相对独立,联机事务处理系统本身将更加简洁高效, 同时分析统计也更为便利。面向行业的数理统计学向更为普遍的应用发展,并 集成到应用系统的数据仓库解决方案中。它们将立足于数据仓库所提供的丰富 信息,更好地为业务决策服务。 1 4 实现数据仓库的意义及其研究方法 数据仓库概念始于本世纪8 0 年代中期,首次出现是在“数据仓库之父” w i i 锄h i n m o n 的建立数据仓库一书中。随着人们对大型数据系统研 究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业 信息的经验之后,为数据仓库给出了更精确的定义,即。数据仓库是在企业管 理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合j 。” 面对竞争日趋激烈与瞬息万变的市场,面对不同层次的大量信息,企业各 级管理人员将如何应用,以便在企业的经营和管理中迅速做出正确的决策? 并 且传统的数据库应用系统并不能很好地支持决策。由于传统的数据库应用系统 是面向业务操作设计的,简化了具体操作人员的劳动强度,而企业的中高层领 导却没有相应的系统。企业需要新的技术来弥补原有数据库系统的不足,需要 把已经广泛收集到的数据集成到数据仓库中,以便从业务数据中提取有用的信 息,帮助他们在业务管理和发展上做出及时、正确的判断。数据仓库应运而 生,成为信息技术领域非常热门的话题之一。数据仓库的真正关键是数据的存 储和管理。数据仓库的管理包括安全和特权管理;跟踪数据的更新;数据质量 检查;管理和更新元数据:审计和报告数据仓库的使用和状态;删除数据;复 制、分割和分发数据;备份和恢复;存储管理;视图的维护等】。同时,数据 仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据 的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数 据仓库的技术特点着手分析。 在数据仓库使用中,实视图的维护问题备受关注。数据仓库存储实视图是 为了快速访问数据,这些数据是由多个分散的数据源集成的。数据源或许是不 同种类的,或许是在远程数据仓库中。视图维护可以采用重新计算和增量式计 算这两种方法,增量式维护比重新计算的性能要好,而且增量式视图维护的研 究已取得了很多成果。本文在基于关系的数据库模型下,提出了一种实视图的 坠堡堡矍三查差三兰至! :兰堡丝兰 自维护的模型及其算法。它既能保证视图的可维护性,又可以节省大量的信息 空间。 哈尔滨理t 大学丁学硕 。学位论文 第2 章数据仓库系统的结构及相关概念 2 1 数据仓库的概念解析及特征 数据仓库是什么? 不同的研究人员会给出不同的答案。数据仓库就是针对 一些问题而产生的一种技术方案,它是基于大规模数据库的决策支持系统环境 的核心。数据仓库之父h w i r l n o n 是这样定义数据仓库的:数据仓库是一个 面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管 理人员的决策。 我们常常会认为,数据仓库是一个或一组产品,可以帮助我们得到问题的 答案,或帮助我们提高决策能力。其实数据仓库并不是这么简单,它虽然可以 帮助我们得到答案以便更好地做出决策,但这只是其全局过程的一部分。并且 数据仓库和数据库是不一样的概念。数据仓库是一个综合的解决方案,而数据 库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱 动。与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工 程。 数据仓库具有以下四个主要特征 1 2 1 : 1 数据仓库是面向主题的传统的数据库是面向应用设计的,它的数据只是 为处理具体应用而组织在一起的。主题是在较高层次将数据归类的标准,每一 个主题基本对应一个宏观的领域,如政策、市场分析、价格趋势等。 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、 归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领 域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方 式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描 述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之 间的联系。 目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或 逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上 是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可 能会增加一些数据冗余。 2 数据仓库是集成的在数据仓库中,使用一致的命名规定、度量、物理 哈尔滨理t 大学t 学硕l 坞 位论文 属性和语义来统一来自异构数据源的经营数据。也就是说,当数据进入数据仓 库时,必须使用一些例程对数据进行修改,为它指派一个统一的编码。数据 仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数 据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有 数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些 数据适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处 理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主 题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些 数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。 否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出 科学的决策。 对源数据的集成是数据仓库建设中最关键、最复杂的一步。 3 数据仓库是稳定的稳定性是指数据仓库是只读的,用户不能回写。数 据经集成进入数据仓库后极少或者根本不更新,因此,常用的操作是追加和历 史查询。但不是说,数据从进入数据仓库以后就永远不变。从数据的使用方式 上看,数据仓库的数据不可更新,这是指当数据被存放到数据仓库中以后,最 终用户只能通过分析工具进行查询、分析,而不能修改其中存储的数据,也就 是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询数据量 往往很大,所以对数据查询、查询界面的友好和数据的表示提出了很高提出了 更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他们 是所在领域的专家,但对计算机却不一定熟悉。 从数据的内容上看,数据仓库存储的是企业当前的和历史的数据,在一定 的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远 的、查询率低的数据的需要从数据仓库脱离到廉价慢速设备( 如磁带) 上,对 分析处理不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员 来做,或由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定 的。 4 数据仓库是随时间变化的数据仓库中存储了大量的历史数据、当前数 据和综合数据等,这些数据表示的是某一时刻的数据。对于大多数的管理决策 而言,时间是非常重要的;只有掌握准确的数据,才能制定出适时的决策。数 据仓库中的数据随时间变化而定期地被更新,每隔一段固定的时问间隔后,运 作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过 去版本仍被保留在数据仓库中,如同“定期摄影术”每隔一周、一月或适当的 哈尔滨理t 大学t 学硕 学位论文 间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断综合,以适 应趋势分析的要求:当数据超过数据仓库的存储期限,或对分析不在有用时, 这些数据将从数据仓库中删去。 2 2 数据仓库系统的构成 2 2 1 数据仓库基本体系结构 数据仓库的基本体系结构如图2 1 所示: 数据集市 o l a p 服务器 前端工具 报表工具 分析工具 数据挖掘工具 图2 - 1 数据仓厍系统体系结构 f i g 2 - 1t h ea r c h i t e c t u r eo f d a t aw a r e h o u s es y s t e m 数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各 类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等 p 3 1 。 数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时 也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓 库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数 据,进行抽取、清理,并有效集成,按照主题进行组织l l “。数据仓库按照数据 的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集 市) 。 日日曰口一 哈尔演理t 大学t 学硕1 :学位论文 o l a p 服务器对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放 于r d b m s 之中,聚合数据存放于多维数据库中。 前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要 针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 2 2 数据仓库系统的工具层 o l a p 的查询分析型工具、d s s 的分析预测型工具与数据挖掘型工具共同 构成了数据仓库系统的工具层。它们各自的侧重点不同,适用范围和针对的用 户也不相同。数据仓库系统具备了这三种工具,人们才能真正高效地利用其中 蕴藏的大量宝贵的信息。 1 联机分析处理( o l a p ) 联机分析处理主要通过多维的方式对数据进 行分析、查询和报表【1 5 i 。它不同于传统的联机事物处理( o l t p ) 应用。o l t p 应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等,通 常要进行大量的更新操作,同时对响应时间要求比较高。而o l a p 应用主要是 对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用 卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操 作,对时间的要求不太严格。 目前常见的o l a p 主要有基于多维数据库的m o l a p 及基于关系数据库的 r o l a p 。在数据仓库应用中,0 l a p 应用一般是数据仓库应用的前端工具,同 时o l a p 工具还可以与数据挖掘工具、统计分析工具配合使用,增强决策分析 功能。 2 决策支持系统( d s s ) 决策支持系统( d s s ) 和数据仓库的目标用户相 同,都是面向企业的中高层领导,它们执行的都是决策和趋势分析类的应用。 d s s 中的一些技术可以很好地集成到数据仓库中,并使数据仓库的分析能力更 加强大。例如d s s 中的传统统计分析模型可以帮助用户对数据仓库中的数据 进行更加有效、更加深入的分析,从而更好地掌握和利用信息。而一些智能决 策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示 哈尔演理t 大学t 学硕i j 学位论文 了强大的功能。这些d s s 的核心技术在数据仓库中的应用,不但会大大提高 数据仓库的决策支持能力,同时也使d s s 的应用范围更加广泛。 3 数据挖掘数据挖掘不一定需要建立在数据仓库的基础上,但是如果 将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而 提高数据挖掘的效率。并且因为数据仓库的数据来源于整个企业,保证了数据 挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要 也是相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到 数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实 现难度较大。此外,数据挖掘技术还可以与可视化技术、地理信息系统、统计 分析系统等相结合,丰富数据挖掘技术及工具的功能与性能。 2 2 3 数据仓库系统的作用 现代企业的运营很大从程度上依赖于信息系统的支持,以客户为中,i i , 的业 务模式需要强大的数据仓库系统提供信息支持,在业务处理流程中,数据仓库 的作用体现在决策支持、客户分析和评价以及市场自动化等方面。 数据仓库系统的最大优点在于它能把网络中不同信息岛上的业务数据集中 到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统 计、分析,并且允许各个业务系统共享数据,更快、更好地做出决策提供更加 准确、完整的信息。在数据集中后,数据仓库与数据挖掘自然提上日程。利用 数据仓库技术,可以使原本分散、孤立的信息相互之间建立良好的联系。 目前数据仓库已经成为现代化企业必不可少的基础设施之一,它是现代企 业营运支撑体系的重要组成,是企业对市场需求快速准确响应的有力保证。 2 3 数据仓库中的概述 2 3 1 基本问题与概念 1 视图视图是从一个或几个基本表( 或视图) 导出来的表,它与基本表不 同,是一个虚表1 。数据库中只存放视图的定义,而不存放视图对应的数据, 这些数据是仍存放在原来的基本表中。所以基本表中的数据发生变化,从视图 中查询出的数据也就随之改变了。视图其实就像一个窗口,透过它可以看到数 据库中自己感兴趣的数据及其变化。 坠堡堡垩三查兰三兰至! :兰堡竺三 2 实视图数据仓库针对o l a p 可能的查询对原始数据进行投影、连接、 分组等预处理,建立许多“实视图”0 7 1 。它的存储来自分散数据库表中的一个 或多个对象的查询结果,当数据库中的数据发生变化时,实视图中的相关数据 也必须随之发生改变。它与数据库的“视图”概念不同之处在于它不是“虚 拟”的,而是已经过计算,含有大量数据,并存储在数据仓库中的一张实实在 在的表s j 。使用实视图有很多优点:o l a p 基本上不再需要对源数据进行复杂 处理,而只需要在实视图的基础上进行一些简单的计算;实视图可以完成复杂 的查询,从而大大地提高了系统性能,缩短了数据仓库的响应时间;提供自动 的安全保护模式。实视图的机制使得可以针对不同的用户制定不同的实视图, 通过在用户实视图上可以自动屏蔽机密数据;为数据库重构提供一定的逻辑独 立性。如果只是通过实视图来存取数据库中的数据,数据库管理员可以选择地 改变构成实视图的基本表,而不用考虑那些通过实视图引用数据的应用程序的 改动。 3 实视图的自维护如果只使用视图本身和基更新进行视图维护,则视图 的聚集被称为在基更新下的自维护。视图的自维护性是在不依赖于视图实例和 基更新实例的具体内容的条件下实现的【l ”。 在现代的信息环境中,数据仓库被设想成能够比传统的结构改善遇到的需 求,提供更高效的查询,这对我们也提出了新的挑战。尽管视图维护问题在过 去曾经被考虑过,但是,传统的研究采取了一个完全不同的成本定义。在这些 研究中认为基数据的存取比视图的存取消耗要小。在数据仓库中通过对比我们 认为数据源中存取基数据比在数据仓库中存取视图更加耗费资源。数据仓库与 传统结构的比较如图2 2 所示: 用户查询用户查询用户查询 国圄昌 数据仓库结构 数据仓库负责视图刷新 查询仲裁结构 基于当前数据l 口j 答 监控结构 数据源负责视图的刷新 图2 - 2 数据仓库与传统结构的比较 f j g 2 - 2c o m p a r i s o no f d a t aw a r e h o u s ea n dt r a d i t i o n a ls t r u c t u r e 哈尔滨理t 大学t 学硕1 j 学位论文 2 3 2 数据仓库的数据组织 一个典型的数据仓库的数据组织存在着不同的细节级: 1 早期细节级( 通常是备用的、批量的存储) 。 2 当前细节级。 3 轻度综合数据级( 数据集市) 。 4 高度综合数据级。 数据是由操作型环境导入数据仓库的。相当数量的数据转换通常发生在由 操作型级别向数据仓库级别传输过程中。一旦数据过期,就由当前细节级进入 早期细节级。综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综 合数据级进入高度综合数据级。 2 3 3 数据仓库的数据组织形式 数据仓库中有许多其他的数据组织形式,最常用的是: 1 简单堆积。 2 轮转综合。 3 简单直接。 4 连续。 数据仓库中最简单最常用的数据组织形式也许是简单堆积结构,表示了从 操作型环境中取出行。这里的事务处理是以天来进行综合。换句话说,对一个 顾客的一个帐号的每天的事务处理,然后综合成数据仓库记录,这个综合可根 据顾客、帐目或者任何组织到数据仓库的主题领域来进每天的所有活动进行合 计,并在一天一天的基础上输入数据仓库。 轮转综合数据存储是简单逐日堆积数据的一种变种,数据用与前面相同的 处理方法从操作型环境输入到数据仓库环境中。只是在轮转综合文件中的数据 才被输入到不同的结构形式中。第一周的七天中的活动被逐一综合到七个每日 相应的位置,到第八天,将七个每日位置的数据加到一起,放入第一周的数据 位置中。然后,第八天的每日总计加到第一个每日数据位置。 数据仓库数据的另外一种组织形式是简单直接文件,数据仅仅是从操作型 环境拖入数据仓库环境中,并没有任何累积。另外,简单直接文件不是在每天 的基础上组织的,而是以较长时间为单位的,比如一个星期或一个月。因此, 简单直接文件是间隔一定时间的操作型数据的一个快照。 哈尔滨理丁大学t 学硕i 哮位论文 依据两个或更多的简单直接文件能生成一种连续文件。当然,连续文件也 可以通过把一个快照追加到一个以前生成的连续文件上来创建。 2 3 4 数据仓库的粒度 粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单 位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相 反,细化程度越低,粒度级就越大。 在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存 放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。在 数据仓库中的数据量大小与查询的详细程度之间要做出权衡。 显然,如果数据仓库的空间很有限的话( 数据量总是数据仓库中的首要问 题) ,用高粒度级表示数据将比用低粒度级表示数据的效率要高得多。高粒度 级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。然而数据量 大小和原始空间问题不是仅有的应考虑的问题。为了访问大量数据,其处理能 力的大小同样也是应考虑的一个因素。当提高数据粒度级时,数据所能回答查 询的能力就会随之降低。换句话说,在一个很低的粒度级上你实际可以回答任 何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。 2 3 5 数据仓库的分割 分割是数据仓库中数据的第二个主要的设计问题( 在粒度问题之后) 。数据 分割是指把数据分散到各自的物理单元中去,它们能独立地处理。小的物理单 元能为操作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。 当数据存放在大的物理单元中时,尤其不能达到: 1 容易重构。 2 自由索引。 3 顺序扫描( 若需要) 。 4 容易重组。 5 容易恢复。 6 容易监控。 简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块的数 据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分 割。当结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物化学模拟习题(含参考答案)
- 消控员证书题目及答案
- 2025房屋租赁合同的基本协议
- 曹阳二中分班考试试卷及答案
- 2025港口物流运输合同
- 藏医解剖技术考试题库及答案
- 2025终止的工程承包合同
- 仓管员的入职考试题目及答案
- 2025年基层眼科试题及答案解析
- 2025建筑工程合同样本
- 河南省开封市西北片区2023-2024学年九年级英语第一学期期末达标检测模拟试题含解析
- ISO9001-2015-质量管理体系过程关系图
- 数字经济前沿八讲
- 数字经济概论-完整全套教学课件
- 《数字媒体基础与实践》数字媒体技术概述
- 直接抒情与间接抒情
- 中电联理论试卷A(无答案)
- 红岩优秀读后感800字5篇
- GB/T 2679.7-2005纸板戳穿强度的测定
- 文化政策与法规(第一课)
- 色彩基础知识ppt
评论
0/150
提交评论