已阅读5页,还剩74页未读, 继续免费阅读
(计算机软件与理论专业论文)实时数据仓库环境中分区技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
嬲必 at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e rs o f t w a r ea n d t h e o r y , r e s e a r c ha n d a p p l i c a t i o no ft h ep a r t i t i o nt e c h n o l o g yi n r e a l t i m ed a t a 彤叠r e h o u s e b yz h a oh o n g b o s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚 挚的谢意。 学位论文作者签名:司丛亥馋 签字日期:删石为 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口一年半口 学位论文作者签名:赵未铹 签字日期:厶力p 多加 两年e s 导师签名:旁童影金 签字日期:分否,印 妇 产 、一 东北大学硕士学位论文摘要 实时数据仓库环境中分区技术的研究与应用 摘要 随着企业对数据的实时性的要求的提高,传统的数据仓库技术已无法满足实时性 需求。实时数据仓库技术的出现,为企业或组织提供了实时或近实时的数据信息。由 于数据实时性的提高,每天都有海量的数据被保存到计算机中,如何在实时数据仓库 环境中高效地管理数据的问题也暴露出来。基于数据库的管理技术实现高效的数据管 理是解决这一问题的途径之一。 , 本文针对实时数据仓库的特点,以提高实时数据仓库的存储和查询效率为目标, 研究了分区技术对实时数据仓库中查询效率的贡献,以及对增量数据的分区存储的问 题。从传统的数据库模式特点出发,提出了基于分区表的分区模型和系统化建模流程, 包括模型建立、模式抽取和数据迁移等,并从理论依据、实验依据、通用性和扩展性 等几个角度详细的论证了此分区表的优越性。针对实时数据仓库的特点,提出了改进 的水平分区算法和基于服务器端改进算法,并详细论证了此方法对查询效率的提升。 在此基础上,设计了以上述分区技术为核心的分区引擎,并且将其应于到国家海洋环 境数据仓库的开发过程。 实验表明,本文所提出的基于分区表的分区策略以及动态分区算法在数据存储和 查询领域具有优越的性能,达到了预期的目标。 气 关键词:实时数据仓库;数据管理;分区策略;动态分区;数据存储;数据查询 一i i v 一 、 东北大学硕士学位论文 a b s t r a c t r e s e a r c ha n da p p l i c a t i o no fp a r t i t i o nt e c h n i q u ei nr e a l t i m e d a t aw a r e h o u s e a b s t r a c t w i t l lt h e i n c r e a s i n go fr e a l t i m ep r o c e s s i n gd a t ar e q u i r e m e n t s i ne n t e r p r i s e s ,t h e t r a d i t i o n a ld a t aw a r e h o u s et e c h n i q u eh a sb e e nu n a b l et om e e tt h er e q u i r e m e n t s t h e a p p e a r a n c eo fr e a l t i m ed a t aw a r e h o u s et e c h n i q u ep r o v i d e sr e a l t i m eo rn e a rr e a l - t i m ed a t a i n f o r m a t i o nf o re n t e r p r i s e sa n do r g a n i z a t i o n s a st h ei m p r o v e m e n to fr e a l t i m ed a t a , t h ed a i l y m a s so fd a t ai ss t o r e di nt h ec o m p u t e r , s ot h ep r o b l e mh o wt oe f f i c i e n t l ym a n a g et h ed a t ai n d a t aw a r e h o u s ei se m e r g e d i ti so n eo ft h ea p p r o a c h e ss o l v i n gt h ep r o b l e mt oi m p l e m e n tt h e e f f i c i e n td a t am a n a g e m e n tb a s e do nd a t a b a s em a n a g e m e n tt e c h n i q u e s i nt h i st h e s i s ,f o rt h ec h a r a c t e r i s t i c so fr e a l - t i m ed a t aw a r e h o u s ea n dt h ep u r p o s e i m p r o v i n gs t o r a g ea n dq u e r ye f f e c t i v i t y o fd a t aw a r e h o u s e s ,t h ec o n t r i b u t i o no fp a r t i t i o n t e c h n i q u ef o rs t o r a g ea n dq u e r ye f f e c t i v i t yo f r e a l - t i m ed a t aw a r e h o u s e sa n dt h ep r o b l e mo f p a r t i t i o ns t o r a g ef o ri n c r e m e n td a t aa r es t u d i e d f r o mt h et r a d i t i o n a lc h a r a c t e r i s t i c so f t h e d a t a b a s em o d e l ,t h ep a r t i t i o nm o d e lb a s e do nz o n i n gd i s t r i c tt a b l ea n ds y s t e m a t i cm o d e l i n g p r o c e s s e sa r ep r o p o s e d ,i n c l u d i n gm o d e lc r e a t i o n ,t h em o d e e x t r a c t i o na n dd a t am i g r a t i o n t h ea d v a n t a g eo ft h ep a r t i t i o nt a b l ei sp r o v e nf r o mt h et h e o r e t i c a lb a s i s ,e x p e r i m e n t a lb a s i s , u n i v e r s a la n de x p a n s i b i l i t y a i ma tt h ec h a r a c t e r i s t i c so fr e a l t i m ed a t aw a r e h o u s e ,a n i m p r o v e da l g o r i t h mo fh o r i z o n t a lp a r t i t i o na n da ni m p r o v e da l g o r i t h mb a s e do ns e r v e r - s i d e a r ep r o p o s e d ,a n dt h ei m p r o v e m e n tf o rq u e r ye f f e c t i v i t yi sd i s c u s s e d m o r e o v e r , t h ep a r t i t i o n e n g i n eb a s e do na b o v ep a r t i t i o nt e c h n i q u e si sd e s i g n e da n du t i l i z e d i nt h ed e v e l o p m e n tf o r d a t aw a r e h o u s ei nn a t i o n a lm a r i n ee n v i r o n m e n t t h ee x p e r i m e n t ss h o wt h a tp a r t i t i o ns t r a t e g yb a s e do np a r t i t i o nt a b l ea n dt h ed y n a m i c p a r t i t i o na l g o r i t h mi nd a t as t o r a g ea n dq u e r yh a ds u p e r i o rp e r f o r m a n c ea n da c h i e v e dt h e e x p e c t e dg o a l s k e y w o r d s :r e a l - t i m ed a t aw a r e h o u s e ;p a r t i t i o ns t r a t e g y ;p a r t i t i o na l g o r i t h m ;d y n a m i c p a r t i t i o n ;d a t as t o r a g e ;d a t aq u e r y - i i i - 一 , , 东北大学硕士学位论文 目录 目录 独创性声明。i 摘要i i a bs t r a c t i i i 第一章绪论1 1 1 课题来源 1 2 研究背景 1 3 相关工作 1 4 本文组织结构 第二章数据仓库与分区策略7 2 1 数据仓库7 2 1 1 数据仓库的特征。7 2 1 2 数据仓库的体系结构。8 2 2 实时数据仓库9 2 3 分区策略1 1 2 3 1 水平分区1 2 2 3 2 垂直分区1 2 2 4 本章小节13 第三章基于分区表的外部分区模型1 5 3 1 问题的提出1 5 3 2 外部分区15 3 2 1 外部分区的定义1 5 3 2 2 必要条件1 6 3 3p t m 模型的定义1 7 3 3 1 相关定义1 7 3 3 2 非分区模式分区化映射18 3 3 3p t m 模型1 9 3 4p t m 建模2 0 3 4 1n p m 建模2 0 3 4 2 映射的实现2l 一一 东北大学硕士学位论文目录 3 4 3g p m 建模2 1 3 4 4 获取f q g 策略:,2 1 3 4 5 模式抽取2 2 3 4 6 基于映射模型数据迁移技术2 3 3 5 外部分区模型测试2 4 3 5 1 理论依据2 4 3 5 2 实验依据二2 5 3 6 通用性和扩展性2 8 。 3 6 1 统一管理2 8 3 6 2 方便数据导出2 8 3 6 1 3 简化数据库向整合数据库迁移过程2 8 3 7 本章小结2 9 第四章实时环境下的动态区间分区算法3 1 4 1 问题的提出3 1 4 1 1 问题描述3 l 4 1 2 传统的区间分区算法3 2 4 2 非等量区间分区算法n e p 3 4 4 2 1 适用范围3 4 。4 2 2n e p 算法的初始化部分3 5 4 2 3n e p 算法的执行部分3 6 4 2 4 基于服务器端的算法改进3 7 4 3 性能分析3 8 4 3 1 三种分区算法的效率对比3 9 4 3 2 浮动因子对n e p 的影响一4 0 4 3 3 实验结论4 1 4 4 本章小结4 2 第五章分区引擎的构建及其在实时数据仓库中的应用4 3 5 1 实现分区引擎的具体技术4 3 5 1 1j a v a 语言概述4 3 5 1 2 组件技术概述4 4 5 1 3 设计模式概述4 4 5 1 4j d b c 和连接池概述4 5 5 2 总体设计4 5 5 3 组件设计4 6 一v 一 东北大学硕士学位论文目录 5 3 1f q g 生成组件4 6 5 3 2 模式抽取组件 _ 4 7 5 3 3 动态分区计算组件4 7 5 3 4s q l 语句生成组件4 7 5 3 5 日志组件4 8 5 3 6 变更管理组件4 8 5 4 系统实现过程中解决的若干问题4 9 5 4 1 数据预处理4 9 5 4 2 数据的迁移5 0 5 4 3 分区的调度策略5 0 5 4 4 初装完成后的数据追加阶段5 0 5 5 本章小结5 2 第六章成功案例5 3 6 1 海洋数据仓库简介5 3 6 2 分区技术海洋数据仓库中的应用5 4 6 2 1 基于分区表的分区策略的应用5 4 6 2 2 内分区策略的应用5 5 6 3 应用评价5 6 6 4 本章小结5 6 第七章结论和展望5 7 7 1 本论文的主要贡献5 7 7 2 进一步的工作5 7 参考文献5 9 t 致谢6 3 、 攻读硕士期间参加的项目及发表的论文6 5 一v i 东北大学硕士学位论文第一章绪论 1 1 课题来源 第一章绪论帚一早珀。了匕 “海洋数据体系规划和海洋数据仓库构建技术( 9 0 8 0 3 0 6 0 1 ) ”是东北大学软件与 l 理论研究所和国家海洋信息中心合作的国家重点项目。由于科学技术的发展以及采集手 段的提高,国家现已在海洋领域采集到了多方面多种类的海量数据,分析和研究这些数 【 据会给海洋的建设提供宝贵信息。因此,如何规划和管理如此多而复杂的海洋数据,便 成了一个迫在眉睫的问题。于是,海洋数据体系规划和海洋数据仓库构建技术的研究课 题( 9 0 8 0 3 0 6 0 1 ) 应运而生。 国家海洋信息中心工作的对象包含海洋水文、海洋表面气象、海洋生物、海洋化学、 海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋 经济、海洋资源等数据内容,数据总量多达千亿字节以上全球范围的海洋各学科领域的 科学数据。并且海洋领域的前端采集工具的实效性的提高,决策者需要根据当前的数据 做出相应的判断。 基于此,本文将就如何提高数据仓库对数据的管理效率进行深入的研究,并抽象出 一套在实时环境下针对较大的数据量行之有效的存储、管理数据方法。并将其应用到海 洋数据体系中,以达到预期的效果。 1 2 研究背景 随着信息时代的到来,数据之多使人如坠烟海。现代企业在发展过程中,积累了大 量纷繁复杂的数据。这些数据是关于企业生产、经营经验的真实记录。经过长期的积累, 它们必然能反映出企业生产经营过程中规律性的知识和信息,然而这些知识和信息往往 、 无法从数据的表面上得到。这些成年累月堆积如山的数据形成了一个有待开垦的巨大宝 藏,如何利用这些数据,指导企业的决策,是企业能否在竞争中立于不败之地、取得最 大效益的关键。传统的数据库技术显然已无法满足需求,在此背景下,一种用于支持管 理决策过程的、面向主题的、集成的、稳定的、随时间变化的数据信息处理技术数 据仓库技术应运而生。 传统的数据仓库( t r a d i t i o n a ld a t aw a r e h o u s e ,t d w h ) 定义认为数据仓库是面向主 题的、集成、持久的、随时间而改变的,只追加新记录和归档过时的数据,而不会频繁 东北大学硕士学位论文第一章绪论 地更新记录。传统的数据仓库假设【l 】:( 1 ) 数据仓库中的数据除了在夜间加载更新时是 静态的不变的;( 2 ) 其中的e t l 工具是在给定的时间窗内( 如凌晨0 :0 0 6 :0 0 点) 执行 更新处理,而不必担心破坏用户的主动查询会话,因为假设这期间用户不会执行查询分 析操作:( 3 ) 前端的查询工具假设在运行一个需要执行多次s q l 语句的复杂查询时, 数据仓库中的数据是不会在其执行到中间时发生变化的,因此前端查询工具可以采用缓 冲技术提高查询执行效率。 然而,实时数据仓库技术打破了这些潜在的规则,并挑战上述假设。所以实时数据 仓库的实现面临下面的几个挑战【2 】:( 1 ) 数据的捕获和传递加载。t d w h 中的e t l 工 具不论是购买的工具还是自编程实现的,都是在前端分析停止时以批处理的方式运行 的,通常是以天或周为周期。r t d w h 中认为的实时是,在不中断用户对系统的访问的 情况下,一天内对所有或部分数据进行了更新、加载或刷新。( 2 ) 数据建模问题。例如, 数据仓库中的数据一般在时间维上进行了不同粒度的聚集。这样可能产生聚集数据与实 时数据不同步的情况。数据建模的最主要的问题是实时数据是否需要存储,并且如何将 实时数据与数据模型的其它部分连接。( 3 ) 实时性对前端分析工具的影响,造成分析结 果的不一致。在一个复杂的需要执行多个s q l 语句的运行过程中更新了数据,致使分 析的开始和中间乃至结束时针对的基本数据不一致。( 4 ) 查询竞争( q u e r yc o n t e n t i o n ) 和可扩展性问题。r t d w h 中,前端分析工具对数据表的读和后端更新部件对相同数据 表的写操作导致对同一个数据表的操作竞争问题。( 5 ) 按需报警。t d w h 中只有在晚上 数据仓库更新结束之后,才通过e m a i l 发布报警信息,而在r t d w h 中有了可用的实时 数据后,就需要及时报警。 随着科学技术的发展,测量仪器的精度越来越高,采集量越来越大,每天都有海量 t 的数据被保存到计算机中,在实时的环境下如何基于数据库高效的管理数据成为突出的 矛盾。数据库的效率主要分为存储效率和访问效率,存储效率主要和服务器硬盘以及所 , 选用的数据库系统相关;而访问效率则包括:查询效率,更新效率等。目前关于查询效 率的研究有很多,但大多数集中在物理层,侧重索引、分片以及优化s q l 语句等研究。 但是针对从数据库设计的概念层的研究并不多见,并且优化的数据库模式可以更有效存 储和管理数据。 对于海量的数据,数据库的管理者通常采用分区的技术来降低数据管理海量数据复 杂性,提升系统性能,但实时数据仓库给分区算法带来了新的挑战。随着数据量不断增 加,需要在最短时间内对数据进行分区或重分区以满足应用的分析性能。重分区在一些 一2 一 东北大学硕士学位论文第一章绪论 数据库管理系统上可以通过分区的合并和分裂实现,但数据量难以均衡,而且也需要先 计算合理的划分。实时环境下要求分区算法应该是高效的,而传统的区间分区算法随着 分区个数增加时间复杂度线性增长,海量数据环境下给系统带来沉重负担,且难以满足 实时性要求。因此海量实时数据仓库环境下需要一种更为直接和高效的分区算法,以迅 速的完成分区过程,满足用户实时决策的需要。 基于此,本文将完成以下四个方面工作: 首先,从传统的数据库模式特点出发,提出基于分区表的分区模型和系统化的建模 流程,其中包括:模型建立、模式抽取和数据迁移等,并从理论依据、实验依据、通用 性和扩展性等几个角度详细的论证此分区表的优越性。 其次,针对实时数据仓库的特点,本文从数据库的物理设计入手,以提高数据的查 询效率为出发点,提出改进的水平分区算法和基于服务器端改进算法,并详细论证此方 法对查询效率的提升。 再次,设计以上文提到的分区技术为核心的分区引擎,并解决在设计分区引擎过程 中遇到的主要问题。 最后,论证本文提出的分区策略在海洋环境下,应用此分区策略是一套行之有效的、 有一定通用性的分区方法。 1 - 3 相关工作 ? 数据库分区技术存在大量研究,在主流的商业数据库以及开源数据库中都有普遍的 应用,在o l a p 系统中实际应用的最广泛。最近相关研究人员主要研究在分布式系统和 并行系统中的分区技术,分区技术是应对海量数据的一个有效手段。本文主要从实际应 ”用的角度研究了如何能更有效的进行数据仓库表的分区。 分区技术的研究最早是基于集中式关系数据库,8 0 年代研究人员开始寻求从物理结 构设计方向提升数据库的性能,因为v o 性能是影响数据库性能的重要方面。文献 2 0 2 1 开始了分区技术的研究,文献 2 2 1 2 3 1 贝, u 分别论述了水平分区及垂直分区技术,这些研 究都希望通过合理的物理设计在查询时减少扫描不相关的数据从而获得更好的性能。数 据仓库往往存储大量的数据,文献 2 4 1 研究了分区技术在数据仓库上的应用。并行数据 库执行时要将数据分割成不相关的部分,分区技术正好能促进并行执行的能力,文献 2 5 在这方面做了研究。文献 2 6 研究了内存数据库的分区技术。这些研究对本文提出的算 法起到很好的指导作用,然而本文更关注海量实时数据仓库下的分区效率问题。 一3 一 东北大学硕士学位论文第一章绪论 目前,与实时数据仓库概念密切相关的术语有零延迟数据仓库( z e r ol a t e n c yd a t a w a r e h o u s i n g ,z l d w h ) 2 7 】、主动数据仓库( a c t i v ed a 矗w a r e h o u s i n g ,a d w h ) 2 8 , 2 9 。 实际上这两者都可以认为是实时数据仓库。因为z l d w h 是一种能够完成下述功能的 数据仓库:能够在最小的延迟内完成完整的商务智能过程,包括事件的观察浏览、理解、 预测、做出反应、重组、监控、自动反馈控制口7 1 。而主动数据仓库基于主动数据库中的 l e c a 规则,将主动机制和数据仓库环境的集成分析能力相结合,使系统具有反应能力 【2 8 】。另外,同实时数据仓库一样可以实时处理数据的是操作型数据存储( o p e r a t i o n a ld a t a。 s t o r e ,o d s ) 。o d s 包含近期( n e a rc u r r e n t ) 的操作型数据的集成存储。为了保证操作 型数据的近实时的视图,o d s 的数据抽取例程也不断地从数据源捕获新的数据。但是 o d s 同r t d w h 还是存在本质的区别,o d s 中包含了非常细节的近期数据,并设计 用于支持需要近期数据的战术型决策 3 0 】。这些种类的数据仓库都为本文提出的分片算法 提供了理论基础和应用环境。 分区技术的理论研究成果在实际的商业数据库和数据仓库上获得了广泛使用, o r a c l e 1 1 1 、d b 2 3 、s q ls e r v e r 3 2 1 无一不支持分区技术,近年来这些商业数据库每个新 的版本都增强了已有的分区功能或增加了新的分区方式,成为海量数据处理的一个重要 手段。本文主要从实际应用的角度研究了如何能更有效的进行数据库表的分区。 1 4 本文组织结构 根据本文的研究工作,全文组织结构如下: 第一章,引言部分,主要叙述了项目来源、实时数据仓库面临的挑战以及本文重点 研究的问题。 第二章,主要介绍数据仓库、实时数据仓库的概念以及特点、分区策略,并对目前 , 分区的技术进行简要的概括。 第三章,首先从传统数据库的模式特点出发,提出基于分区表的外部分区模型p t m 及模型使用范围,并分析p t m 的模式抽取问题,最后详细地从理论和实验数据两个方 面讨论基于分区表的外部分区对海量数据处理的效率的提升。 第四章,首先介绍水平分区和区间分区的形式化定义,在这个基础上介绍t e p 算法; 然后提出一种改进的区间分区算法n e p 算法和其服务器端改进算法n e p s ;最后通过 实验对两种算法在效率上进行对比;。 第五章,给出以第三章、第四章作为理论基础的分区引擎的设计和实现。 一4 一 东北大学硕士学位论文第一章绪论 第六章,描述本文的分区方法在国家环境海洋数据仓库上实际运用的成功案例。 第七章,总结所做的工作,并提出为完善分区方法要做的后继研究工作。 一5 一 东北大学硕士学位论文第一章绪论 一6 一 东北大学硕士学位论文第二章数据仓库与分区策略 第二章数据仓库与分区策略 本章主要介绍数据仓库及实时数据仓库以及针对数据库的分区策略。 2 1 数据仓库 关于数据仓库的定义有多种不同的看法。但业界公认的数据仓库概念创始人 w h i n m o n 的定义为:数据仓库是一个面向主题的、集成的、稳定的、随时间变化的、 用来支持管理人员决策的数据集合【3 j 。 2 1 1 数据仓库的特征 从数据仓库的定义中,可以看出它的四个基本特征: ( 1 ) 数据仓库的数据是面向主题的 传统的信息系统中的数据组织方式是面向应用的,数据库模式与实际业务处理流程 中所设计的单据或文档有较好的对应关系,如物资仓库管理中的进仓单、出仓单,在物 资仓库管理信息系统的数据库模式中具有直接的对应部分。但这种方式使数据围绕着业 务处理过程,不便于对数据作高层抽象的分析。 数据仓库中数据以面向主题方式组织。主题是某一分析领域所涉及的分析对象,例 如商场销售分析系统中“商品 是一个主题分析对象,有关“商品”分析需要的数 据围绕着这一主题组织,包括商品的基本信息、采购信息、销售信息、库存信息等。面 向主题的数据组织方式就是在较高层次上对分析对象的数据作一个完整、一致的描述, 能有效地刻画出分析对象所涉及的各项数据及数据间的联系。这种数据组织方式更适合 于较高层次的数据分析,便于发现数据中蕴涵的模式和规律。 ( 2 ) 数据仓库的数据是集成的 数据仓库的数据是从原有的、分散的事务处理系统数据库中抽取得来。联机事务处 理系统中的操作型数据和决策支持系统中的分析型数据有着较大的差别。数据仓库中每 一主题对应的源数据在原有的各分散数据库中可能是重复出现的、不一致的,数据仓库 中的数据不能从原有数据库系统直接得到,事务处理系统中的操作型数据在进入数据仓 库之前,必须经过统一和综合,演变为分析型数据。这是数据仓库建设中最复杂的一步, 需要完成的工作包括:统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单 位不统一、长度不一致等;对源数据进行综合和计算,生成面向主题分析的高层、综合 一7 一 东北大学硕士学位论文第二章数据仓库与分区策略 的数据,例如根据商品销售原始数据,计算生成每天、每月的销售综合数据等。 ( 3 ) 数据仓库的数据是非易失的 数据仓库中存放的是供分析决策用的历史数据,而不是联机处理的当前数据,涉及 的数据操作主要是数据查询,一般不进行数据的删、改操作,业务系统中的数据经集成 进入数据仓库之后极少或根本不再更新。如果对数据仓库中的数据进行了修改,就失去 了统计分析正确性的基础数据的真实性。由于数据仓库中的数据量往往很大,因此 数据仓库系统要采用各种复杂的索引技术,以提高数据查询的性能。 ( 4 ) 数据仓库的数据是随时间变化的 数据仓库的数据不可更新是对数据仓库的应用而言,即数据仓库的用户在进行分析 处理时不进行数据更新操作,但这不是说数据仓库数据是永远不变的。数据仓库数据是 随时间变化的,数据仓库系统需要不断获取联机事务处理( o u p ) 系统不同时刻点的 数据,经集成后追加到数据仓库中,因此数据仓库中数据的码( 键) 都包含时间项,以 表明数据的历史时期,并可在时间维度上对数据进行分析;另外,数据仓库中的数据也 有时间期限,在新数据不断进入的同时,过期的数据也要从数据仓库中排除出去。 2 1 2 数据仓库的体系结构 数据仓库并不是一个静态的概念,它以业务数据库的数据为基础,对数据加以整理 归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。为了能将已 有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库 的基本体系结构中应有以下几个基本组成部分,包括数据源、后端工具、数据仓库、元 数据中心库和前端工具,如图2 1 所示。 数据源 后端工具 数据集市 图2 1 数据仓库体系结构 f i g 2 1a r c h i t e c t u r eo fd a t aw a r e h o u s e 一8 一 。黾 东北大学硕士学位论文第二章数据仓库与分区策略 数据源:是数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部信息 和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文档数据。外 部信息包括各类法律法规、市场信息和竞争对手的信息等等; 后端工具,它是指将各种数据源中的数据经过抽取、清洗 4 1 和转化后装入数据仓库, 并根据数据仓库要求对数据进行重新组织和力n - r _ ,装载到数据仓库的目标数据库中,周 期性地刷新数据仓库中的数据。 元数据中心库【5 】:用于存储数据模型和元数据,其中元数据描述了数据仓库中源数 量 据和目标数据本身的信息,定义了从源数据到目标数据的转换过程。 数据仓库,其中的数据按主题组织,包括细节数据、汇总数据表( 如数据立方体和 数据集市) 。细节数据记录了企业详细的历史数据。 汇总数据表又称为数据立方,是为了能够实时地对数据从多个角度( 维) 进行汇总 分析。 数据集市是为了满足各种需要从细节数据导出的数据表,特别是为了一些需要经常 善 在多个表间进行的查询、分析处理而设置的数据表。 数据仓库和数据集市的目标数据库:存储经检验、整理、加工和重新组织后的数据, 数据集市即部门级规模的数据仓库。 o l a p 服务器:提供功能强大的数据操作引擎,支持多维数据结果操作,为前端工 具提供多维数据视图及服务。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及 各种基于数据仓库或数据集市的应用开发工具,其面向不同种类的最终用户满足用户的 各种决策要求。 从以上所述的数据仓库的体系结构,可以看出数据仓库系统的一般应用过程:从业 务处理信息系统等外部数据源获取数据,经加工整理后进入数据仓库,根据数据分析挖 掘的需求特性对数据进行建模和组织,用户利用各种前端数据分析和挖掘工具,或直接 访问数据仓库,或通过o l a p 服务器,对数据仓库中的数据作各种查询、分析、挖掘工 作。数据仓库的主要研究内容包括数据仓库的建模方法、数据抽取清洗和加载、数据仓 库的数据更新和性能优化、元数据的管理、数据立方的计算以及基于数据仓库的数据分 析技术等问题【6 】。 2 2 实时数据仓库 一9 一 东北大学硕士学位论文第二章数据仓库与分区策略 实时数据仓库是指一个数据源的任何改变都自动,且立即反映到数据仓库中。这个 定义是指当数据变化发生实时数据仓库更新的技术层面的问题1 7 j 。事实上,实时数据仓 库是实时行为和数据仓库两种特性的组合。实时行为是一种即时发生的行为。行为可以 是任何事情,如热轧生产中的一个钢卷( 板) 轧制行为。一旦一个行为完成,在数据仓 库中就有关于它的数据可用。实时数据仓库在生产( 或商业) 行为发生时就能够捕获相 应的数据,当生产( 或商业) 行为完成时,相关数据就已经进入到数据仓库并且能立即 使用。即在实时数据仓库中,只要行为发生、数据变得可用时,就能从中获得信息。 这里所说的“实时”是指减少数据产生到数据可用之间的延迟,传统的以批处理方式 周期性更新的数据仓库系统的数据可用性延迟最少是2 4 小时( 即以一天作为更新周期) , 而实时数据仓库中尽可能减少这种延迟,但是做到零延迟是不可能的。因此,实时数据 仓库是一种近实时( n e a rr e a l t i m e ) 系统。即在用户发出分析查询时,在其之前发生 的行为产生的数据应该可用,这样一次查询分析可以利用到目前为止最新的数据。 从信息供应链( i n f o r m a t i o ns u p p l yc h a i n ) 的时间角度看,实时数据仓库中的“实时” 具有多种含义,包括准时( o n t i m e ) 、模拟实时( s i m u l a t e d ) 、近实时( r i g h t t i m eo r n e a r r e a lt i m e ) 和实时( r e a lt i m e ) 【8 j 。准时是指数据的更新和递交是根据策略、服务水平 协议或多数协议来确定的。通常由业务部门告诉i t 组他们需要更新和存取数据的频率, i t 组根据这个时间表传递数据,多用在库存管理中。模拟实时意味着数据的更新是以批 处理的方式进行的,但是数据存取是交互式地进行的。给用户一种及时得到答案的感觉, 即使数据并不是新鲜的。这种方式下,以实时的方式存取访问数据( 即在用户可以容忍 的时间内得到分析或查询的响应) ,而更新则不是实时的。在这种方式下,用户所需要 的计算结果是预先计算出来并存储在数据仓库中,在交互式查询或分析时可以在容忍的 时间内得到结果,相当于实时进行的计算。这种方式多用于客户推荐。近实时比准时和 模拟实时更进一步,是近实时的,且依赖特定的技术。例如,利用e t l 工具或存储转 发机制( 如消息代理) 从日志( l o g ) 和连续的发布中进行变化数据的捕获( c h a n g ed a t a c a p t u r e ,c d c ) 。w e b 日志分析属于此种情况。实时意味着一个进程中的资源( 如数据 库、网络和c p u 等) 被同步加锁直到运行到一个提交点,从此提交点开始其他并发进 程或处理才可以执行。这样系统中的数据反映了系统的每个时刻的业务状态。此种方式 中绝对是根据最新的数据得到信息,例如欺诈检测。 实时数据仓库为企业或组织提供了实时的或近实时的数据信息。因此,从需求角度 看,实时数据仓库扩展了传统数据仓库的使用范围,可以为企业或组织提供战略和战术 一10 东北大学硕士学位论文第二章数据仓库与分区策略 决策支持。实时数据仓库能够帮助企业更快速地接近和了解客户、优化供应链、产品质 量控制、精确物流跟踪、计划和管理商业活动等,进而为决策者进行实时决策提供支持。 总之,任何涉及贸易、动态定价、需求感知( d e m a n ds e n s i n g ) 、安全、风险、欺诈检 测、补给和与用户进行交互等形式的应用,都是时间关键型的过程,并且需要实时处理 【9 1 。这是网络和新经济时代的高速生产经营节奏和保障安全所需要的,从而引起了人们 对实时数据仓库的研究兴趣【1 0 】。一些大的数据库产品供应商,如o r a c l e 公司和n c r 公司 1 2 】已经在其数据库产品中有支持变化数据捕获的组件或模块,提供了构建实时数据 仓库的组件。 通常的实时数据仓库的基本结构如图2 2 所示。其中的主要组件有连续数据集成组 件、数据传输组件、转换引擎、数据仓库实时动态分区和静态分区、增量聚集器、数据 传播器。连续数据集成组件负责完成对数据源数据的监控,捕获数据源的变化数据,通 过数据传输组件传送到数据仓库端,经过转换引擎转换成数据仓库中表所需的形式,存 放到实时动态分区中,再以周期的或延迟方式由增量聚集器将其聚集到静态分区中,并 将变化数据传播到数据集市中。如果要求真正的实时,则捕获的数据直接添加到数据仓 库中,中间不设置实时动态分区。 数据源 连续数据集成实时数据仓库 数据集市 图2 2 典型的实时数据仓库体系结构 f i g 2 2t y p i c a la r c h i t e c t u r eo fr e a l t i m ed ws y s t e m 2 3 分区策略 在关系型数据仓库中,表是元组的集合,集合中的元组是没有顺序的,从而获取一 个元组平均要扫描集合中一半的元组,随着集合中元组的增多,获取一个元组需要的时 间越来越多。针对上面的问题,通常会对关系表的候选码以及区分度很高的属性建立b 树索引,从而使对建立了索引的属性查询少量元组极为迅速,即使是在表变得很大的情 况下【1 3 , 1 4 】。然而b 树索引是有局限性的,当从一个大的关系表中获取比较多的满足一定 条件的元组时,索引会引起更多的磁盘读,所以效率要比全表扫描低一些,在o l a p 系 统中就常常会遇到这种情况。 一】一 东北大学硕士学位论文第二章数据仓库与分区策略 分区技术是一种有效的改善海量数据处理性能的技术,目前是解决这个问题比较好 的手段【1 5 ,1 6 1 ,并且分区有助于并行执行 1 7 , 1 8 1 。对大表进行分区有多种方法,区间分区是 比较常用的。在实际进行分区操作前要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年北京版(新教材)二年级上册第二单元“表内乘法(一)”达标试卷(附参考答案)
- 百色站交通组织提升改造工程项目环境影响报告表
- 河南体育高考试卷及答案
- 2025-2026学年度云南省昭通市威信县第三高级中学高二上学期期中考试历史试题(含答案)
- 苏州生物会考2025年试卷及答案
- 2025年内蒙建行面试真题及答案
- 南岸监狱面试真题及答案
- 2025年浙江邮政考试题库及答案
- 航天宏图考试题库及答案
- 社区居家养老考试题及答案
- 乌孜别克族课件
- 2025年树枝工艺品项目可行性研究报告
- smt考试试题及答案
- 2025年中国邮政集团工作人员招聘考试笔试试题(含答案)
- 人教版初中化学九年级上册第六单元《碳和碳的氧化物》课题1《金刚石、石墨和C60》第二课时《单质碳的化学性质》教学设计
- 救护车合作协议书合同
- 【西安交通大学】2025年电力人工智能多模态大模型创新技术及应用报告
- 《妇产科宫颈癌》课件
- 上下楼梯安全课件
- 养猪场成本核算流程
- 老年患者安全用药
评论
0/150
提交评论