




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库与olap技术研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着数据库技术的发展和数据库规模的日益扩大,人们希望从已 有的数据中提炼出有用的信息服务于决策者,决策支持系统应运而 生。数据仓库技术、联机分析处理技术( o l a p ) 和数据挖掘技术对决 策支持系统的有力支持使它们成为数据库技术领域研究的一个热点 和重点 o l a p 按照数据立方体模型组织多维数据,从而方便了查询。o l a p 查询通常是针对非常大数据的复杂查询,从原始数据上直接进行分析 查询的性能是难以接受的,解决这个问题的办法是在数据仓库中存储 物化视图来预选聚集数据避免对原始数据的访问从而加速查询。论文 主要研究数据仓库物理设计的一个方面:物化视图的选择问题,提出 了用于构建数据仓库时物化视图选择算法。 论文对一种物化视图选择算法一贪婪算法进行了详细的分析,将 视图选取分为视图路径选取与视图计算两阶段,采用基于数据立方体 层次搜索的方式选取视图,从而将贪婪算法的时问复杂度由0 ( k n 2 ) 降为0 ( k n 1 0 9 n ) 。经过实验分析与测试表明,该算法取得良好的效 果和效率。 , 然后,论文给出了o l a p 在一个销售系统中的应用实例,设计并 实现了基于m ss q ls e r v e ra n a l y s i ss e r v i c e s 的o l a p 系统原型。 以星型模型设计了实例数据库的多维数据模型,对多维数据集的生成 和访问技术作了讨论,用 i d 墨a d 0m d 技术实现了对多维数据的查询, 通过对商业数据的分析,为决策人员提供决策的依据。 关键词数据仓库,o l a p ,物化视图,贪婪算法 a b s t r a c t w i t ht h ed e v e l o p m e n to fd a t a b a s et e c h n o l o g ya n dt h ee x p a n d i n go f d a t a b a s es c a l e ,p e o p l eh o p et or e f i n et h eu s e f u li n f o r m a t i o nf r o me m s t i n g d a t at os e r ef o rd e c i s i o n ;t h e r e f o r e ,d e c i s i o ns u p p o r ts y s t e me m e r g e sa s t h et i m er e q u i r e t h e r eh a v eb e e ng r o w i n gi n t e r e s t si nt h et e c h n i q u e so f d a t aw a r e h o u s e ,o n - l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n gs i n c et h e y s u p p o r tt h ed e c i s i o n - m a k i n g o l a po r g a n i z e sm u l t i d i m e n s i o n a ld a t aa g a i n s td a t ac u b em o d e l , w h i c hi sc o n v e n i e n tt oq u e r i e s o l a pu s u a l l yi n v o l v e sc o m p l e xq u e r i e s o nv e r yl a r g em u l t i d i m e n s i o n a ld a t a s e t s r u n n i n ga n a l y t i c a l q u e r i e s d i r e c t l ya g a i n s tt h eh u g el a wd a t av o l u m eo fad a t aw a r e h o u s er e s u l t si n u n a c c e p t a b l eq u e r yp e r f o r m a n c e t h es o l u t i o nt ot h i sp r o b l e mi sg o r i n g m a t e r i a l i z e dv i e w si nt h ew a r e h o u s e ,w h i c hp r e - a g g r e g a t et h ed a t aa n d t h u sa v o i dl a wd a t aa c c e s sa n ds p e e du pq u e r i e s t i l i st h e s i sw o r k so na l l i m p o r t a n ta s p e c to f p h y s i c a ld e s i g n i n go f d a t aw a r e h o u s e :t h es e l e c t i o no f m a t e r i a l i z e dv i e w s a l g o r i t h m st ob eu s e dw h i l eb u i l d i n gt h ed a t a w a r e h o u s ea r ep r e s e n t e d 。t h i st h e s i ss t u d i e sag r e e d ya l g o r i t h mo fv i e w ss e l e c t i o n w ed i v i d e t h ea l g o r i t h mi n t oav i e w sp a t hs e l e c t i o np h 鹤ea n dav i e w sc o m p u t a t i o n p h a s ea n ds e l e c tv i e w sb a s e do ns e a r c h i n gv i e wi nt h el a y e ro f d a t ac u b e s om ea l g o r i t h mc o m p l e x i t yd e c r e a s e sf r o m0 ( k i l z ) t o0 皿n 1 0 9 n ) t h e a n a l y s i sa n de x p e r i m e n t a ls t u d ys h o wt h a tt h ea l g o r i t h mh a sb e 懈 s o l u t i o na n dh i g he f f i c i e n c y t h e n , t h i st h e s i sp u t so u ta l la p p l i c a t i o ni l l u s t r a t i o ni nas a l es y s t e m , d e s i g n sa n di m p l e m e n t sa no l a ps y s t e mp r o t o t y p eb a s e do nm ss q l s e r v e ra n a l y s i ss e r v i c e s 1 1 l em u l t i d i m e n s i o n a ld a t am o d e lo ft h es a m p l e d a t a b a s ei sd e s i g n e da ss t a rs c h e m a t h et e c h n i q u e so fe s t a b l i s h m e ma n d a c c e s sf o rm u l t i d i m e n s i o n a ld a t a s e ta r ed i s c u s s e d w e i m p l e m e n t m u l t i d i m e n s i o n a lq u e r i e sb yt h et e c h n i q u eo fm d x , a d om d ,w h i c h r e a l i z e sab a s i sf o rt h ea n a l y s i so fc o m m e r c i a ld a t aa n ds u p p l i e ss t r a t e g i c d e c i s i o n sf o rt h ed e c i s i o n m a k e r k e yw o r d sd a t aw a r e h o u s e ,o l a p , m a t e r i a l i z e dv i e w , g r e e d ya l g o r i t h m n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名: 日期:趟s 年翌月碍 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即;学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文 作者签名:三睦丸导师签名燃日期:丛年覃月拿目 年 硕士学位论文第一章绪论 第一章绪论 1 1 选题背景 数据库系统作为数据管理手段,从它诞生开始,就主要用于事务处理。经过 数十年的发展,在这些数据库中己经保存了大量的日常业务数据。传统的业务系 统一般直接建立在这种事务处理环境上,它以数据库为中心,从事事务处理、批 处理和部分相对简单的决策分析等数据处理工作。随着技术的进步,人们试图让 计算机担任更多的工作,希望计算机更多地参与数据分析与决策制定领域,实现 商业智能:而数据库技术也一直力图使自己能胜任从事务处理、批处理到复杂的 决策分析处理等各种类型的信息处理任务。然而人们逐渐认识到,事务处理和分 析处理具有不同的特征,事务处理系统无法解决分析处理系统必须解决的数据集 成、动态集成、历史数据和数据综合等问题,直接使用事务处理环境来支持决策 是行不通的。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操 作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照 d s s ( d e c i s i o ns u p p o r ts y s t e m ,决策支持系统) 处理的需要进行重新组织,建立 单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一 种数据存储和组织技术。 。 与传统的操作型系统不同,数据仓库中,概要的、总体的数据比细节的、单 条的记录更重要,其数据可能来源于多个操作型数据库,包含大量的( g 级甚至,r 级) 历史数据,支持即席的、复杂的查询,这些查询通常需要访问大量记录,进 行复杂的连接、聚合运算,因此,在数据仓库中,查询吞吐量和查询响应时间比 事务吞吐量显得更重要。数据仓库技术的提出引起了学术界和工业界的广泛关 注,s t a n f o r d 大学、w i s c o n s i n 大学、i b ma l m a d e n 研究中心等研究机构纷纷立 项从事数据仓库技术的研究,研究的方向覆盖了数据仓库的方方面面,如数据仓 库的设计、数据清洗、查询优化、元数据管理等。许多著名的数据库厂商,如 i b m ,h p , o r a c l e 等纷纷推出了自己的数据仓库产品,解决方案,一些小企业也 在该领域找到商机,推出了一些有用的数据仓库工具,这些产品为大型零售业、 制造业等企业所采用,已有不少成功案例,财富5 0 0 强中己经有8 5 的企业建成 或正在建立数据仓库,数据仓库与i n t e r n e t 一样,正在成为最快的i t 增长点 1 9 9 6 年,全球企业在数据仓库上的投资达到1 6 8 亿美元,并且每年以1 9 1 的 速度增长据i d c 调查,数据仓库的平均投资回报率为4 0 1 。而在国内,诸如金 融、证券、电信等计算机应用较早、较成熟的行业也已经意识到采用数据仓库技 术能够对数据进行更好的加工处理,发现其内在的规律性,帮助决策者指导企业 决策和发掘企业的竞争优势,它们也纷纷建立了自己的数据仓库系统。 硕士学位论文第一章绪论 o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 技术使数据仓库能够快速响应重复 而复杂的分析查询,从而使数据仓库能有效地用于联机分析。o l a p 的多维数据 模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形 工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史 数据查询的回答后,经常需要进行进一步查询。o l a p 系统如图i - i ,可以快速 灵活地为分析人员提供实时支持。 、 1 析职转换装载l o u 垆 _ 叫 商业用户 吲 溉 图l _ io l p 系统结构图 视图实体化( v i e wm a t e r i a l i z e d ) 技术是数据仓库系统中的一个关键性技 术,它是一种将视图所对应数据加以实际物理存储的技术。其目的是通过预计算 来加快数据仓库系统对用户查询的响应速度。然而视图的实体化既需要占用可观 的磁盘空问,又需要耗费大量的系统资源以对其进行维护,所以如何选择一组合 适的视图集合加以实体化,从而使系统能够利用有限的资源,最大限度的提高数 据仓库系统对用户查询的响应速度,是一个极为重要的问题。目前,学术界和工 业界对这个问题已经进行了大量的研究工作,并取得了丰硕的成果。 1 2 本文的主要研究内容 本文主要研究数据仓库中物化视图选取算法与o i a p 技术在销售分析系统中 应用。 数据仓库中的物化视图选择这一课题,是要在满足预计算存储空间大小的限 制条件下,基于数据立方进行视图选择,使得一个给定的查询集合的执行代价最 小,以提高联机分析处理服务器的查询效率。b p u s 贪婪算法是目前基于数据立 方体物化视图选择算法,基于线性代价模型,在给定预计算空间大小的限制下 b p u s 算法按照数据立方格中视图代价大小来选择视图。但该算法时间复杂度较 高,在实际中难以应用。网格模型能够比较有效的对多维数据模型中的视图及视 图之问的关系进行描述,它是研究多维数据模型下物化视图选择算法的一种有效 工具,本文对该模型下的代价模型进行研究,结合其他算法思想对该算法进行了 2 硕士学位论文 第一章绪论 改进,最后用j a v a 语言编程实现了一个算法测试系统,并用该系统测试算法, 得到算法的实验结果。 本文还针对目前用户对系统多维分析功能的需求,结合基于多维数据结构的 0 l a p 技术,围绕一个销售0 l a p 系统原型的设计和实现,详细地阐述了所采用的 数据仓库和0 l a p 技术。以星型模型设计了实例数据库的多维数据模型,建立d t s 包完成源数据的抽取、转换、加载过程。并根据销售管理人员对销售数据分析的 需求,利用m i c r o s o f t 提供的a n a l y s i ss e r v i c e st 具,根据数据集市的维度模 型建立多维数据集,用m d x ,a d om d 技术实现了0 l a p 前端对多维数据集的显示, 满足了用户多维分析的需求。 i 1 3 本文组织 全文共分为五章,各章节的内容安排如下: 第一章是绪论,介绍选题背景、研究意义,并简要介绍本文将要进行的工作 第二章是数据仓库与0 l a p 技术概论,详细介绍数据仓库的一些概念。其中 主要包括数据仓库的来历,数据仓库数据的组织,数据仓库的视图机制以及0 l a p 相关技术等。 第三章是物化视图的选取,将详细介绍物化视图的作用,相关的研究领域。 重点将介绍b p u s 算法与p b s 算法,研究视图网络模型中的相互关系,在线形 代价评估模型的基础上提出基于层次选取的改进l g 算法,并对b p u s 算法与 l g 算法进行深入的实验分析。 第四章是销售系统0 l a p 实例应用研究,介绍了0 l a p 在销售系统中的应用, 研究并实现了对多维数据集的访闯,在此基础上,实现了一个0 l a p 的原型系统, 开发了客户端,对多维数据的可视化查询分析,并实现了灵活的图形显示功能。 第五章是结束语,对论文的研究工作进行简单总结,并以此为基础提出进一 步工作的展望。 硕士学位论文第二章数据仓库与0 l a p 技术 第二章数据仓库与o l a p 技术 2 1 数据仓库的定义与特征 2 1 1 数据仓库的定义 数据仓库已被多种方式定义,使得很难给出一种严格的定义。宽松地来讲, 数据仓库是一个数据库,它与组织机构的操作数据库分别维护,数据仓库系统允 许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,为信息 处理提供支持。 下面给出数据仓库之父w h i r m o n 对数据仓库的定义嘲:数据仓库是面向主 题的、集成的、相对稳定的、反映历史变化的数据集合,用于经营管理中的决策 支持。 随着数据库技术的应用和发展,人们尝试对d b ( 数据库,d a t a b a s e ) 中的数 据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而 形成了数据仓库技术。其中,作为决策支持系统,数据仓库系统如图2 - 1 包括: 1 数据仓库技术 2 联机分析处理技术 3 数据挖掘技术 图2 - 1 数据仓库系统结构图 4 f j 硕士学位论文第二章数据仓库与0 l p 技术 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式 是固定的、死板的。到了1 9 6 9 年,e f c o d d 博士发表了他著名的关系数据模 型的论文。此后,关系数据库的出现开创了数据管理的一个新时代。 近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的 开发和实现:客户服务器( c s ) 系统结构、存储过程、多线索并发内核、异步i o 、 代价优化等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭 的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这 些,s q l ( s t r u c t u r e dq u e r yl a n g u a g e ,结构化查询语言) 的使用已成为一个不 可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据 库最终成为联机事务处理系统的主宰 数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据 处理密集型行业国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。那么,什么样 的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一,该行业有较为成熟 的联机事务处理系统,它为数据仓库提供客观条件:第二,该行业面临市场竞争 的压力,它为数据仓库的建立提供外在的动力。 2 1 2 数据仓库的特征 数据仓库的四个主要特征。 1 面向主题( s u b j e c t - o r i e n t e d ) 数据仓库中的数据是根据面向主题的方式组织的。主题是用户所关心的数据 对象,每个主题对应一个客观分析领域,如客户、商店等在o l t p 系统中数据 是根据业务流程进行组织的,同一主题的数据往往存放在多个数据表中,用户查 询时需要在不同的数据表之间切换。而在数据仓库中数据是根据主蹶组织的,同 一主题的数据往往在一个事实表中,并且只有符合主题的数据才可进入数据仓 库。 2 集成( i n t e g r a t e d ) 指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库 的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从 面向应用向面向主题的转变。通常构造数据仓库是将多个数据源,如关系数据库、 文件和一些外部数据源,集成在一起。使用数据清理和数据集成技术,确保命名 约定、编码结构、属性度量等的一致性 3 时变( t i m e - v a r i a n t ) 数据仓库是不同时间的数据集合,数据存储从历史的角度提供信息( 如过去 硕士学位论文 第二章数据仓库与o l a p 技术 5 - 1 0 年) 它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且 数据仓库中的数据都要标明该数据的历史时期。数据仓库中的关键结构显式或隐 式地包含时间元素。, 4 稳定的( n o n v o l a t i l e ) 数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。 由于这种分离,数据仓库不需要事务处理、故障恢复和并发控制机制。通常,它 只需要两种数据访问:数据的初始化装入和数据查询,数据经加工和集成进入数 据仓库后是极少或根本不修改的。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建 立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处 理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技 术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管 理其中的数据。 2 。2 数据仓库中的数据组织 2 2 1 数据仓库的数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进 一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节 级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度 越大,表示细节程度越低,综合程度越高嘲 数据仓库中还有一种重要的数据一元数据( m e t a d a t a ) 元数据是。关于数据 的数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数 据,包含了所有源数据项名、属性及其在数据仓库中的转化:第二种元数据在数 据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数 据称之为d s s 元数据,常用来开发更先进的决策支持工具 2 2 2 粒度与分割 粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据 仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多 少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少 的。由于数据仓库的主要作用是d s s 分析,因而绝大多数查询都基于一定程度的 综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快 6 硕士学位论文 第二章数据仓库与o l a p 技术 速设备如磁盘上,小粒度数据存于低速设备如磁带上。 还有一种粒度形式,即样本数据库它根据给定的采样率从细节数据库中抽 取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的, 而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综 合程度。 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将 数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准 可供参考:如日期、地域、业务领域等等,也可以是其组合一般而言,分割标 准总应包括日期项,它十分自然而且分割均匀。 2 2 3 数据仓库的数据组织形式 这里简要介绍数据仓库中常见的数据组织形式: 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储起 来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一个 星期的七天中,数据被逐一记录在每日数据集中:然后,七天的数据被综合并记 录在周数据集中:接下去的一个星期,日数据集被重新使用,以记录新数据。同 理,周数据集达到五个后,数据再一次被综合并记入月数据集。依此类推。轮转 综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细 节为代价的,越久远的数据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快 照( d a t a b a s es n a p s h o t ) ,比如每隔一星期或一个月做一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件,它 是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接 文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠。表”这种最基 本的结构。 2 2 4 数据仓库的数据追加 r 一。如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓 库的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在上一 次追加过程之后新生成的。常用的技术和方法有: ,i 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中加 7 更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含 有时标。 2 d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用 7 硕士学位论文第二章数据仓库与o l a p 技术 d e l t a 文件效率很高,它避免了扫描整个数据库,但同样的问题是生成d e l t a 文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据 时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很 难实现。 3 前后映象文件的方法:在抽取数据前后对数据库各作一次快照,然后比较 两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无 多大实际意义。 4 日志文件:最可取的技术大概是利用日志文件了,因为它是d b 的固有机 制,不会影响o l t p 的性能。同时,它还具有d e l t a 文件的优越性质,提取数据 只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依 据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。 比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来:而对于数 据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。 2 3 数据仓库中的视图管理 2 3 1 数据仓库中的物化视图 在传统数据库中,视图是从一个或多个基表导出的表。视图被认为是一个逻 辑上的概念。数据库中一般只存储视图的定义,而不存储视图中的数据 数据仓库中存储的数据是由底层数据库或其他数据源中的数据经提炼、加工 而成的。从这个角度来看,它类似于数据库系统中视图的概念。但数据仓库系统 中的视图与传统数据库中的视图概念又不尽相同,它不仅仅是一个逻辑上的概 念,同时也是物理存在的。 在数据仓库系统中,不仅存储着视图的定义信息,同时也物理地存储着视图 中的数据,我们称这种视图为物化视图或者实体化视图。 数据仓库中视图物化的主要目的之一是为了提高复杂查询的速度。它通过预 先将底层数据库中一部分数据物理地备份到数据仓库的物化视图中,来把对底层 数据库的复杂查一询简化为对数据仓库中物化视图的查询,从而达到了提高查询 速度的目的。 但视图的物化也给数据仓库的管理带来了许多新的问题,其中最重要的问题 是:物化视图的选取问题与一致性维护问题。即:如何选取视图,使视图查询维护 代价最低;当底层数据库中的内容发生变化时,数据仓库中的实体化视图将如何 更新,才能与底层数据库保持数据的一致性。 硕士学位论文第二章数据仓库与0 l p 技术 2 3 2 数据仓库的多层视图结构 数据仓库中保存着来自多个底层数据库或其他数据源的数据。由于底层数据 源之间存在着异构性和自治性,因此在数据仓库系统中,必须采用多级视图机制, 下面我们给出了数据仓库系统中一种典型的多层视图结构。 根据应用的需求,首先需要确定数据仓库中视图的信息来源:在底层数据库 中建立局部视图。局部视图经翻译器翻译后转化为一种能被集成器所理解的通用 的视图结构即中间视图,然后交集成器合并、集成。由于局部视图来自不同的数 据源,因此可能会出现重复的和非一致性的数据问题。在集成的过程中必须解决 数据的不致性和冲突问题。 集成后的视图中的数据被存储在数据仓库中,即将视图实体化,如图2 - 2 。 张雠99 一参参 图2 - 2 数据仓库中多层视图结构 2 3 3 数据仓库中视图管理与常规视图管理的比较 由于数据仓库中的多层视图结构和对专门应用支持的需要,其实体化视图的 管理与传统数据库中的视图管理相比,存在着许多有待解决的特殊问题: 1 在数据仓库中,由于各个数据源之间,以及数据源和数据仓库之间可能是 用不同的数据模型表示的,因此必须首先将它们转换成同一种模式,而这种转换 是比较复杂的。 2 在多数据源的情况下,需要对多视图进行合并和集成。这时,可能会出现 重复的和非一致性的数据问题。如同异构式多数据库系统一样,当同一个数据来 自不同的数据源时,它们在数据结构或者是语义上存在着冲突因此,在数据仓 库系统的视图管理中,必须能解决数据的不一致性和冲突问题这些问题在常规 9 硕士学位论文第二章数据仓库与o l a p 技术 视图管理中是不存在的。 3 根据应用的需要,数据仓库必须对源数据进行再加工,生成面向分析的, 供决策用的综合型数据。因此,数据仓库必须提供复杂的数据变化如聚合、汇总 和采样等功能。 4 当底层数据库中的内容发生改变时,数据仓库中实体化视图中的数据也应 随之变化,由于源数据分别处于网络中不同位置上的各异构数据库中,因而这个 变化过程是很复杂的。 5 在常规数据库的视图管理中,视图的处理与基本数据的处理紧密祸合,它 们可以同属于一个事务:而在数据仓库系统中,由于源场地的自治性,上层不能 对数据源进行过多的控制,它们是松散偶合的,因而难以进行同步控制和一致性 控制。 2 4 联机分析处理o l a p 数据仓库创建以后,企业的经理、主管和商业分析员就开始使用各种方法对 数据仓库进行操作。其中应用较多的是一些复杂的数据查询,这些查询应该是多 角度的、多视图模式的、下钻上卷的、可旋转的。完成这些查询仅拥有大量数据 的数据仓库是不够的,必须依靠一种工具、一种接口,才能够轻松自如地在数据 仓库的数据海洋中畅游。比如:决策者可能想知道:“东部地区和西部地区今年6 月份和去年6 月份在销售总额上的对比情况。”这个问题比较有代表性,决策者 所需数据总与一些统计指标( 如销售额) 、观察角度( 如销售区域、时间) 和不同级 别( 如地区、时间划分) 的统计有关,我们把观察数据的角度称之为维,因此可以 说决策数据是多维数据,决策分析是决策的主要内容。因此,一种新的基于多维 分析的技术联机分析处理o l a p 技术应运而生。 2 4 1o l a p 的定义和特征 联机分析处理是一类软件技术,它使分析人员、管理人员通过对信息的多种 可能的观察角度进行快速、一致和交互性的存取以获得对信息的深入理解,这些 信息从原始数据转换而来,反应了用户所能理解的企业的真实的“维”。目前所 指的联机分析处理,是对数据的一系列交互的查询过程,这些查询过程要求对数 据进行多层次、多阶段的分析处理,获得高度归纳的信息。归纳信息要从最底层 的明细数据开始,经过多个层次、多个阶段的数据处理,包括数据汇总、整理、 归纳、排除奇异数据样本等环节,最终得到用户所需要的经过归纳抽象的信息。 o l a p 力图处理数据仓库中浩瀚如烟的数据,并将之转化为有用的信息,从而实 现对数据的归纳、分析和处理,帮助企业完成决策。o l a p 支持最终用户进行动 态多维分析,其中包括跨维、在不同的层次之间跨成员地计算和建模:在时间序 i o 硕士学位论文 第二章数据仓库与o l a p 技术 列上的趋势分析、预测分析:切片和切块并在屏幕上显示,从宏观到微观,对数 据进行深入分析:可查询底层地细节数据:在观察区域中旋转,进行不同维之间的 比较。 二十世纪8 0 年代,e f c o d d 提出了o l t p 数据库的十二条准则,被广泛的 作为管理公司日常运作( 事务) 的数据库标准。1 9 9 3 年,e f c o d d 规定了o l a p 的十二条准则如下圆: 1 o l a p 模型必须提供多维概念视图: 2 透明性准则: 3 存取能力准则: 4 稳定的报表性能: 5 智能化的客户服务器体系结构: 6 维的等价性和通用性: 7 动态稀疏数据矩阵处理; 8 支持多用户: 9 支持非限定的交叉维操作; 1 0 能直接访问数据: 1 1 具有随机灵活的报表机制: 1 2 提供不受限制的维和聚集级别: 然而e f c o d d 提出的o l a p 的十二条准则并没有得到广泛的承认,大多数专 家认为o l a p 并不需要遵守这些准则,准则只是提供了一种数据技术的观点,而 不是基准。但是术语o l a p 被用来很好的描述为推动公司决策制定、分析而设计 的数据库。o l a p 通常是指使得数据仓库的数据能被很容易访问的工具。 o l a p 技术主要有两个特点:一是在线性( o n - l i n e ) ,表现为对用户请求的快速 响应和交互操作:二是多维分析( m u l t i - a n a l y s i s ) ,这也是o l a p 技术的核心所 在。 o l a p 的最显著特征是它能提供数据的多维概念视图( m u l t i d i m e n s i o n a l ) 。 在o l a p 数据模型中,多维信息被抽象为一个立方体( c u b e ) ,它包括维( d i m e n s i o n ) 和度量( m e a s u r e ) 。维就是我们所说的观察角度,而度量则是上面说的指标值。 多维结构是o l a p 的核心,o l a p 展现在用户面前的就是一幅幅多维视图。这些多 维视图能使最终用户从多角度、多侧面、多层次直观的考察数据仓库中的数据, 从而深入地理解包含在数据中的信息及其内涵。以多维视图的形式把数据提供给 用户,既迎合了人的思维模式又减少了概念上的混淆,同时降低了出现错误解释 的可能性。 o l a p 的第二个特性是它能快速响应( f a s t ) 用户的分析需求一般认为o l a f 硕士学位论文 第二章数据仓库与o l a p 技术 系统应在几秒内对用户的分析请求做出响应。如果终端用户在3 0 秒内没有得到 系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量 的数据分析要达到这个速度并不容易,因此就更需要一些技术上的支持,如专门 的数据存储格式、大量的事先运算、特别的硬件设计等。 o l a p 的第三个特征是它的分析功能( a n a l y s i s ) 。o l a p 系统应该能处理与应 用有关的任何逻辑分析和统计分析。尽管系统可以事先编程,但并不意味着系统 定义了所有的应用。在应用o l a p 的过程中,用户无需编程就可以定义新的专门 计算,将其作为分析的一部分,且以用户所希望的方式给出报告。用户可在o l a p 平台上进行数据分析,也可连接到其他外部分析工具上,如时间序列分析工具、 成本分析工具、意外报警、数据挖掘等。o l a p 的基本分析操作有切片( s l i c e ) 、 切块( d i c e ) 、钻取( d r i l l d o w n ) 、卷取( d r i l l - u p ) 及旋转( r o t a t e ) 。 o l a p 的第四个特征是它的信息性( i n f o r m a t i o n ) 。无论数据量有多大,也不 管数据存储在何处,o l a p 系统应能及时获得信息,并且管理大容量信息。这里 有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、o l a p 产品的性 能以及与数据仓库的结合度等。 2 ,4 2o l a p 的基本概念 o l a p 是针对特定问题的联机数据访问和分析。通过对信息的很多种可能的观 察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入 观察。为了对o l a p 技术有更深入的了解,本节主要介绍在o l a p 中常用的一些基 本概念。 1 变量 变量是数据的实际意义,即描述数据“是什么”。例如,数据1 0 0 本身并没 有意义或者说意义未定,它可能是一个学校的学生人数,也可能是某产品的单价, 还可能是某商品的销售量等等。一般情况下,变量总是一个数值度量指标,例如 人数、单价、销售量等都是变量,而1 0 0 则是变量的一个值。 一 2 维 维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间 推移而产生的变化情况,这时是从时间的角度来观察产品的销售,所以时间是一 个维( 时间维) 。企业也时常关心自己的产品在不同地区的销售分布情况,这时是 从地理分布的角度来观察产品的销售,所以地理分布也是一个维( 地理维) 其他 还有如产品维、顾客维等。 3 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个 描述方面,我们称这多个描述方面为维的层次一个维往往具有多个层次,例如 硕士学位论文第二章数据仓库与o l p 技术 描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月 份、季度、年等就是时间维的层次:同样,城市、地区、国家等构成了地理维的 层次。 4 维成员 维的一个取值称为该维的一个维成员如果一个维是多层次的,那么该维的 维成员是由各个不同维层次的取值组合而成。例如,我们考虑时间维具有日期、 月份、年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到了 时间维的一个维成员,即“某年某月某日”。一个维成员并不一定在每个维层次 上都要取值,例如“某年某月“某月某日”、。某年”等等都是时间维的维成员。 对应一个数据项来说,维成员是该数据项在某维中位置的描述。例如对一个销售 数据来说,时间维的维成员“某年某月某日”就表示该销售数据是“某年某月某 日”的销售数据,“某年某月某日”是该销售数据在时间维上位置的描述。 5 多维数组 ,一个多维数组可以表示为:( 维1 ,维2 ,o l - 9 维1 1 ,变量) 。例如,若日用品 销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额, 就组成了一个多维数组( 地区,时间,销售渠道,销售额) ,如果我们在此基础上 再扩展一个产品维,就得到一个四维的结构,其多维数组为( 产品,地区,时间, 销售渠道,销售额) 。 6 数据单元 多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这 些维成员的组合就惟一确定了一个变量的值。那么数据单元就可以表示为( 维l 维成员,维2 维成员,维n 维成员,变量的值) 。例如,我们在产品地区、 时间和销售渠道上各取维成员。牙膏”、“上海”、“1 9 9 8 年1 2 月”和“批发”, 就惟一确定了变量“销售额”的一个值( 假设为1 0 0 0 0 0 ) ,则该数据单元可表示 为( 牙膏,上海,1 9 9 8 年1 2 月,批发,1 0 0 0 0 ) 。 2 4 30 l a p 的多维分析 o l a p 的多维分析是指对多维数据集中的数据用切片、切块、旋转、钻取和 卷取等分析方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数 据。这样才能深入地了解数据仓库中数据所蕴涵在后面的信息,才能使用户深入 地挖掘隐藏在数据背后的商业模式。 1 切片 在多维分析过程中,如果要对多维数据集的某个维选定一维成员,这种选择 操作,就可以称为切片( s l i c e ) 。也就是说如果有( 维1 ,维2 ,维i , 维n ,观察变量) 多维数据集,对维i 选定了某个维成员,那( 维l ,维2 , 硕士学位论文第二章数据仓库与0 l a p 技术 维i 成员,维n ,观察变量) 就是多维数据集( 维i ,维2 ,维i , 维n ,观察变量) 在维工上的一个切片。这种切片的数量完全取决于维上的成员 个数,如果维数越多,可以做的切片越多。很显然,这个切片,不一定是我们想 象中的一个二维的“平面”切片。切片的维数取决于原来多维数据集的维数。只 有在多维数据集是三维的情况下,才能获得一个二维的“平面”切片。在切片的 概念中,有两个重要的概念必须掌握:一个是多维数据集的切片数量多少是由所 选定的那个维的维成员数量的多寡所决定的,另一个是进行切片操作的目的是使 人们能够更好地了解多维数据集,通过切片的操作可以降低多维数据集的维度, 使人们能将注意力集中在较少的维度上进行观察。 2 切块 与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操 作可以称为切块( d i c e ) 即在( 维l ,维2 ,维i ,维k ,维n ,观 察变量) 多维数据集上,对维i ,维k ,选定了维成员,那( 维1 ,维2 , 维i 成员,维k 成员,维n ,观察变量) 就是多维数据集( 维l ,维 2 ,维i ,维k ,维n ,观察变量) 在维i ,维k 上的一个切块。 很显然,在i = k 时,切块操作就退化成切片操作。实际上,切块操作也可以看成 进行多次切片操作以后,将每次切片操作所得到的切片重叠在一起而形成的。 3 钻取和卷取 钻取是对数据进行更为细节性的观察,卷取是对数据进行更为宏观的观察。 钻取和卷取的深度与维所划分的层次相对应。如图2 - 3 所示,在表中存放的是 1 9 9 8 年各地区的销售值。如从时间维的季度层察看时,得到1 9 9 8 年各个季度中 各地区的销售数据,则执行的操作为钻取。反之,则执行的操作就是卷取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 形体礼仪课程课件
- 幼儿感官探索课件
- 二零二五年度跨境电商进出口合同清单
- 二零二五年度防火门产品安全标准制定合同
- 二零二五年度工衣采购与职业培训合作合同
- 二零二五年度建筑材料运输合同标准范本
- 二零二五版智慧城市照明系统升级补充合同范本大全
- 高三试卷:重庆南开中学高2025届高三第三次质量检测数学
- 高三试卷:辽宁省点石联考(辽宁县级协作体)2024-2025学年度上学期2025届高三年级期中考试数学试卷
- 高三试卷:江西省赣州市十八县(市、区)二十四校2025届11月期中联考数学试卷高三11月联考数学
- 70周岁换证三力测试题,老人反应能力驾考模拟测试题
- 美容注射操作规范培训课件
- 新进人员院感培训
- 2024年外包合同模板(通用)(附件版)
- 妇科质控中心半年工作总结
- 手术并发症报告表
- 沥青路面工程监理实施细则
- 美国RAZ分级读物目录整理
- 高一开学第一课-好玩的数学(纯课件版)
- 数学分析(1)期末考试试卷(B卷)
- 传染病标本的采集、保存、运送管理规范
评论
0/150
提交评论