(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的信息系统设计技术及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

abs tract t h e o p e r a t i o n d a t a c o l l e c t e d b y a m a n u f a c t u r e c a n o n l y p r o v i d e e l a b o r a t e d e t a i l e d in f o r m a t i o n f o r a d m i n i s t r a t o r s , w h i c h c a n h e l p t h e m c o m p l e t e d a i l y o p e r a t i o n m a n a g e m e n t . h o w e v e r , p e o p l e a l w a y s d o n t p l a c e m u c h e m p h a s i s o n h o w t o m i n e p o t e n t i a l d e c i s i o n in f o r m a t i o n fr o m t h e s e d e t a i l e d d a t a . i t p r o v i d e d e ff e c t i v e t h e o r i e s a n d t e c h n o l o g y s u p p o r t f o r s o l v i n g a b o v e t as k w it h d a t a w a r e h o u s e a n d o n - l i n e a n a l y t i c a l p r o c e s s i n g t e c h n o l o g y . d a t a w a r e h o u s e i s a n e w d a t a b a s e t e c h n o l o g y t h a t h as b e e n d e v e l o p i n g s o f as t r e c e n t l y . b y b u i l d i n g a m o d e l o f e n t e r p r i s e d a t a w a r e h o u s e , w e c a n s t o r e a m as s o f p r e - a g g r e g a t e d d a t a i n t o t h e d a t a w a r e h o u s e , u s e o l a p t e c h n o l o g y t o f a s t p r o c e s s h i s t o r i c a l d a t a , r u n v a r i o u s d a t a m e r g e n c e o p e r a t i o n s , v i s u a l i z e q u e ry a n d a n a l y s i s r e s u l t s , p r e d i c t e n t e r p r i s e t r e n d , a n d p r o v i d e u s e f u l i n f o r m a t i o n f o r d e c i s i o n s u p p o r t i n t h i s t h e s i s , w e e x p l o r e d t h e o ry t e c h n o l o g y o f d a t a w a r e h o u s e a n d o l a p . b y u s i n g n e w d a t a b as e t e c h n o l o g y a n d d a t a a n a l y s i s m e t h o d s , i n t e l l i g e n t i n f o r m a t i o n a n a l y s i s m e t h o d s a n d d e c i s i o n s u p p o r t t o o l s a r e i n t r o d u c e d a n d e x p a n d e d . t h e m a i n r e s e a r c h wo r k i s l i s t e d f o l l o ws : 今 s u m m a r i z e d p r i m a r y c o n c e p t o f d a t a w a r e h o u s e a n d t h e o r e t i c a l k n o w l e d g e , s o m e k e y t e c h n o l o g i e s f o r b u i l d i n g a d a t a w a r e h o u s e a r e i n t r o d u c e d . 令 e x p l o re d b as i c t h e o r e t i c a l i n f o r m a t i o n o f d e c i s i o n s u p p o rt a n d o n - l i n e a n a l y t i c a l p r o c e s s i n g t e c h n o l o g y a n d k e y t e c h n o l o g i e s . 令 d e s i g n e d a n d r e a l i z e d t r a d it i o n a l s t a t i s t i c a l d b ms , c o m p l e t e d c o m p u t e r t r a n s a c t i o n s u c h as d a t a i n p u t , q u e ry a n d d a t a r e p o r t . s i m u l t a n e o u s l y w i t h i d e a o f d a t a w a r e h o u s e , d e s i g n o f t r a d i t i o n a l mi s b as e d o n d a t a w a r e h o u s e as w e l l as s o m e c o n s i d e r a t i o n s a r e p r o p o s e d . 令 a c c o r d i n g t o t h e n e e d s o f d e c i s i o n - m a k e r , a m e d i a a d v e r t i s e m e n t i n f o r m a t i o n a n a l y s i s s y s t e m b a s e d o n d a t a w a r e h o u s e i s d e s i g n e d . i t c o n s i s t s o f o p e r a t i o n t r a n s a c t i o n , d e c i s i o n s u p p o r t a n d d a t a m a n a g e m e n t . t h i s s y s t e m i n c l u d e s d a t a i n p u t , i n t e l l i g e n t q u e ry , s t a t i s t i c a n a l y s i s , p r e d i c t i o n a n d c u s t o m a n a l y s i s f u n c t i o n s , w h i c h p r o v i d e s u s e f u l i n f o r m a t i o n f o r e n t e r p r i s e d e c i s i o n s u p p o r t . r e s e a r c h e s in t r o d u c e d i n t h i s p a p e r h a v e t h e o r e t i c a l s i g n i f i c a n c e a n d a p p l i c a t i o n m a r k e t . we a r e d e d i c a t i n g t o d e e p r e s e a r c h . k e y w o r d s : d a t a w a r e h o u s e , o n - l i n e a n a l y t i c a l p r o c e s s i n g ( o l a p ) , d e c i s i o n s u p p o rt s y s t e m , d a t a m i n i n g , d a t a m e r g e n c e 绪 论 绪论 现实社会中,企业从各个方面获取来的数据( 用户数据, 市场信息, 竟争对手 资料) 正在以 指数阶增长。 纽约时报由6 0年代的 1 0. 2 0 版扩张至现在的 1 0 0 2 0 。 版, 最高曾达1 5 7 2 版; 北京青年报也已 是1 6. 4 0 版; 市场营销报 已达 1 0 0 版。 然而, 数据虽然越来越多, 但企业从这些数据中获取知识的能力却 停滞不前。 面对激增的数据, 人们无法发现其中存在的关系, 规则和隐藏的商机, 无法根据现有的数据预测未来的发展趋势。 从而导致了所谓 “ 数据爆炸但知识贫 乏”的现象。 计算机系统的功能从数值计算扩展到数据管理距今己 有三十多年了。 最初的 数据管理形式主要是文件系统, 少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库, 但数据的访问必须依赖于特定的程序, 数据的存取方式 是固定的、死板的。到了1 9 6 9 年,e .f .c o d d 博士发表了他著名的关系数据模型 的论文。此后,关系数据库的出现开创了数据管理的一个新时代。 近几十年来, 大量新技术、 新思路的涌现出来并被用于关系型数据库系统的 开发和实现: 客户/ 服务器系统结构、 存储过程、多线索并发内核、异步1 l 0 、代 价优化, 等等, 这一切足以 使得关系数据库系统的处理能力毫不逊色于传统封闭 的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这 些, s q l的 使用己 成为一个不可阻 挡的 潮流, 加上 近些 年来计 算 机硬件的 处理 能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个 8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而, 应用在不 断地进步。 当联机事务处理系统应用到一定阶段后, 用户便发现单靠拥有联机事 务处理已 经不足以 获得市场竞争的 优势, 他们需要对其自 身业务的 运作以 及整个 市 场相关行业的 情况进行分析, 而做出有利的决策。 这种决策需要对大量的 业务 数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下, 这种基于业务数据的决策分析, 我们把它称为联机分析处理, 比以 往任何时候都 显得更为重要。 如果说传统联机事务处理强调的是更新数据库一 向 数据库中添加 信息, 那么联机分析处理就是从数据库中获取信息、 利用信息。因此, 著名的数 据仓库专家r a l p h k i m b a l l 写道:11我们花了二十多 年的时间 将数据放入数据库, 如今是该将它们拿出来的时候了。” 事实上, 将大量的 业务数据应用于分析和统计原本是一个非常简单和自 然的 想法。 但在实际的 操作中, 人们却发现要获得有用的 信息并非如想象的那么容易, 知识作为信息社会的基石, 其地位已 经等同于上个世纪的资本。 如果无法充分发 现和利用知识, 那么企业就无法在激烈的竞争中生存发展。 这样, 如何从数据中 绪论 及时发现有用的知识并为己所用就成为了企业能否立足社会的关键问题。 正是在 这样的背景下, 数据仓库和数据挖掘技术应运而生, 并显示出 强大的生命力。 数据仓库是近年来兴起的一种新的数据库应用。 在各大数据库厂商纷纷宣布 产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时, 业界掀起了 数据库热。 比如i n f o r mi x g o n g s i d e公司的、 o r a c l e公司的数据仓库解决 方案; s y b as e 公司的 交互式数 据仓库 解决方 案等 等。 这同 时 也引 起了 学术界的 极 大兴趣,国际上许多重要的学术会议, 如超大型数据库国际会议 ( v l d b ) , 数 据工程国际会议 ( d a t a e n g i n e e r i n g )等,都出现了 专门 研究数据仓库 ( d a t a w a r e h o u s i n g ,简记为d w) 、 联机分析处理 ( o n - l i n e a n a l y t i c a l p r o c e s s i n g , 简记 为o l a p ) 、 数 据挖掘( d a t a m i n i n g , 简记为d m) 的 论 文。 对 我国 许多 企业 而言, 在建立或发展自己的信息系统常常困扰于这样的问题。 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、 批处理、 决策分析等各种数据处理工作, 主要划分为两大类: 操作型处理和分析 型处理( 或信息型处理) 。 操作型处理也叫事务处理,是指对数据库联机的日常 操作,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性; 分析型处理则用于管理人员的决策分析, 经常要访问大量的历史数据. 而传统数 据库系统优于企业的日常事务处理工作, 而难于实现对数据分析处理要求, 己经 无法满足数据处理多样化的要求。 操作型处理和分析型处理的分离成为必然。 近年来, 随着数据库技术的 应用和发展, 人们尝试对d b中的数据进行再加 工, 形成一个综合的, 面向分析的环境, 以更好支持决策分析, 从而形成了 数据 仓库技术( d a t a w a r e h o u s i n g ,简称 d w ) 。作为决策支持系统( d e c i s i o n - m a k i n g s u p p o rt s y s t e m, 简称d s s ) , 数据仓库系统包括: 数据仓库技术: 联机分析处 理技术 ( o n - l i n e a n a ly t i c a l p r o c e s s i n g , 简称o l a p ) ; 数 据挖掘技术( d a t a m i n i n g , 简 称d m ) ; 数 据仓库弥补了 原 有的数 据库的 缺点, 将原 来的以 单 一数 据库为中 心的 数据 环境发展为一种新环境:体系化环境。如图1 . 1 所示: 操作型环境全局级部门级个人级 寸 峡竺擅翌尘尹 注:“ , “ 表示数据的抽取方向 日。, 曰 局 ,库曰 、, : :个 : 局郁仓库数据仓库操作型环境个人仓库 图i数据仓库体系化环境 绪 论 目前, 数据仓库和在线分析处理 ( o l a p ) 技术的技术热潮, 从研究到投入使 用是非常迅速的, 有些技术本身就是从实际中产生的。 在国外, 尤其是美国,各 大公司纷纷积极参与数据仓库技术的开发和研究, 将公司企业数据纳入数据仓库 系统进行统一管理,为企业管理和企业决策提供企业信息己成为企业界的共识。 在国内学术界, 数据仓库技术己引起了有关科研人员的广泛关注和兴趣, 在国内 企业界也己对数据仓库技术给予了越来越大的重视。 一些大型跨国公司己经投入巨资基于此类技术建立了自己的数据分析与挖 掘系统,经过了较短的时间后, 这些企业便开始从中受益。大量原来观望的企业 也变为积极投入, 使建立数据仓库和数据挖掘系统成为大势所趋, 在西方发达国 家蔚然成风。目前, 在国内, 一些思想先进的企业领导者, 也己注意到这一新兴 领域的价值。并开始了自己 在这方面的探索,以 保持与国际同步。 从单纯的利益角度来讲, 企业在这方面的 投资会很快收回。i d c 1 9 9 7年的 一次对9 0 年代前期进行的6 2 个数据仓库项目的调查结果表明: 进行数据仓库项 目 开发的公司在平均2 - - 3 年的时间内获得了 平均为3 2 1 %的投资回报率。9 8 年 的调查显示超过9 0 % 的大中型公司年内 将建立仓库,大约8 0 % 己 投资于数据仓库 的公司都认为他们己经获得了巨大成功。 从1 9 9 7 年到2 0 0 2 年, 整个数据仓库市 场的年平均增长速度竟高达年2 1 %0 从更深层次来看, 开发自 己的数据分析与挖掘系 统是对公司商誉的一次大幅 提升, 它能让投资者看到企业不满足于现状, 敢于创新的精神; 看到企业财力人 力方面的雄厚实力; 更能让人们体会到企业领导者在事业上的雄心壮志和远见卓 识。工 d g的分析还表明,在不远的将来,这样的一套系统对于公司的价值将与现 在的电脑系统对于公司的价值一样重要。 所以 对于数据挖掘和数据仓库与其到时 候,被动的接受,还不如及早动手,走在潮流的前头。 截至目 前, 国外对于数据仓库技术和在线分析处理技术的研究已经有很多的 成果, 许多大公司如h p , s y b a s e , o r a c l e 等都有自己的一套数据仓库解决方案, 国内 对于这方面的研究也不少, 但真正与企业具体实际情况相结合的数据仓库系 统却不是很多。 第一章 数据仓库 技术简介 第一章 数据仓库技术简介 1 . 1 数据仓库的产生 数据库系统作为数据管理手段, 主要用于事务处理。 在这些数据库中己经保 存了大量的日常业务数据。尽管数据库在事务处理方面的应用获得了巨大的成 功, 但它对分析处理的支持一直不能令人满意, 尤其是当以业务处理为主的联机 事务处理 ( o l t p ) 应用与以分析处理为主的d s s 应用共存于同一个数据库系统 时, 这两种类型的处理发生了明显的冲突。 人们逐渐认识到, 事务处理和分析处 理具有极不同的性质,直接使用事务处理环境来支持d s s 是行不通的。 具体来说, 事务处理环境不适宜d s s 应用的原因概括起来主要有以 下几条: . 事务处理和分析处理的性能特性不同。 在事务处理环境中, 用户的行为特点是数据的存取操作频率高而每次操作处 理的是时间短, 因此, 系统可以 允许多个用户按分时方式使用系统资源,同时保 持较短的响应时间,o l t p 是这种环境下的典型应用。 在分析处理环境中,用户的行为模式与此完全不同,某个d s s应用程序可 能需要连续运行几个小时, 从而消耗大量的系统资源。 将具有如此不同处理性能 的两种应用放在同一个环境中运行显然是不适当的。 . 数据集成问 题。 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提, 相关数据收集得越完整, 得到的结果就越可靠。 因此, d s s 不仅需要整个企业内 部各部门的相关数据,还需要企业外部、 竞争对手等处的相关数据。 事务处理的目 的在于使业务处理自 动化, 一般只需要与本部门业务有关的当 前数据。 而对整个企业范围内 集成应用考虑很少。 当 前经大部分企业内 数据的真 正 状况是分散而非集成的。 造成这种分散的原因有多 种, 主要有事务处理应用分 散、 “ 蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。 对于需要集成数据的d s s应用来说, 必须自己 在应用程序中对这些纷杂的 数据进行集成。 可是, 数据集成是一项十分繁杂的工作, 都交给应用程序完成会 大大增加程序员的负担。 并且, 每做一次分析, 都要进行一次这样的集成, 将会 导致极低的处理效率。 d s s 对数据集成的迫切需要可能是数据仓库技术出现的最 重要动因。 . 数据动态集成问题。 由于每次分析都进行数据集成的开销太大, 一些应用仅在开始对所需数据进 行了集成, 以后就一直以 这部分集成的数据作为分析的基础, 不再与数据源发生 第一章 数据仓库技术简介 联系, 我们称这种方式的集成为静态集成。 静态集成的最大缺点在于, 如果在数 据集成后数据源中数据发生了改变, 这些变化将不能反映给决策者, 导致决策者 使用的是过时的数据。 对于决策者来说, 虽然并不要求随时准确的探知系统内的 任何数据变化, 但也不希望他所分析的是几个月以前的情况。因此, 集成数据必 须以一定的周期进行刷新, 我们称其为动态集成。 显然, 事务处理系统不具有动 态集成的能力。 . 历史数据问 题。 事务处理一般只需要当前数据, 在数据库中一般也只存储短期数据, 且不同 数据的保存期限也不一样,即使有一些历史数据保存下来了, 也被束之高阁, 未 得到充分利用。 但对于决策分析而言, 历史数据是相当 重要的, 许多分析方法必 须以大量的历史数据为依托。 没有对历史数据的详细分析, 是难以把握企业的发 展趋势的。 . 数据的综合问题。 在事务处理系统中积累了大量的细节数据, 一般而言, d s s 并不对这些细节 数据进行分析。 这主要有两个原因, 一是细节数据数量太大, 会严重影响分析的 效率; 二是太多的细节数据不利于分析人员将注意力集中于有用的信息上。 因此, 在分析前, 往往需要对细节数据进行不同程度的综合。 而事务处理系统不具备这 种综合能力, 根据规范化理论, 这种综合还往往因为是一种数据冗余而加以限制。 以上这些问题表明,建立在事务处理环境上的分析系统无法达到这一要求。 要提高分析和决策的效率和有效性, 分析型处理及其数据必须与操作型处理及其 数据相分离。 必须把分析型数据从事务处理环境中 提取出 来, 按照d s s处理的 需要进行重新组织, 建立单独的分析处理环境, 数据仓库正是为了构建这种新的 分析处理环境而出现的一种数据存储和组织技术。 1 . 2 数据仓库的定义 业界公认的数据仓库概念创始人 w .h .i n m o n在 b u i l d i n g t h e d a t a w a r e h o u s e 一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、 不 可 更 新的 ( 稳定 性 ) 、 随 时 间 不 断 变 化 ( 不同 时 间) 的 数 据 集 合, 用以 支 持 经 营 管理中的决策制定过程。 数据仓库中的 数据面向主题, 与传统数据库面向 应用相对应。 主题是一个在 较高层次上将数据归类的标准, 侮一个主题对应一个宏观的分析领域: 数据仓库 的集成特性是指在数据进入数据仓库之前, 必须经过数据加工和集成, 这是建立 数据仓库的关键步骤, 首先要统一原始数据中的矛盾之处, 还要将原始数据结构 做一个从面向应用向面向主题的转变; 数据仓库的稳定性是指数据仓库反映的是 历史数据的内容, 而不是日 常事务处理产生的数据, 数据经加工和集成进入数据 第一章 数据仓库技术简介 1 . 3 . 5数据集市 数据仓库是广义的数据存储器, 它包括许多主题区域。另一方面, 数据集市 一般只注意商业的一个较狭窄的范围。它通常只包含一个主题区域和/ 或一种分 析。 例如, 公司的数据仓库可能包括销售、 财务和人力资源的信息, 而该公司也 维护着许多数据集市,其中某个数据集市可用于通过零售渠道分析产品的走向, 位于地区总部的另一个数据集市则用于分析公司在该地区的销售情况, 公司还有 一个数据集市可用于分析人事的流动。 数据集市主要在提供高性能地分析支持时提供经营过程的解决方案。 它主要 用于满足一个经营过程,比企业数据仓库便宜得多。 最后, 它可用作公司完成一 个完整的企业数据仓库的方式。 尽管数据集市看起来较小, 但它们在公司中发挥 策略功能时,除了略小一些外,其他都能胜任。 但最好明确, 数据仓库工程不必 是一个数据集市, 或一个没有中间领域的数据仓库。 从一个原始的数据集市策略 转换到最后的数据仓库的过程是许多大型公司和小公司在构造一个数据仓库和 数 据 集 市 过 程中 关 键的 竞 争 策略。 f3 p 1 1 12 1 1 . 4数据仓库中的数据组织 数据仓库中数据的四个基本特征在前面己经介绍过了, 那么数据仓库究竟存 储哪些数据呢?数据如何组织、 存储?组织形式有哪些?等等。 通过对数据仓库 中存放的数据内容及其组织形式的介绍, 这部分将对这些问题做出回答, 以加深 对数据仓库数据四个基本特征的理解。 1 . 4 . 1数据仓库的 数据组织结构 一个典型的 数据仓库的数据组织结构如图1 - 4 所示: 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高 度综合级。 源数据经过综合后, 首先进入当前细节级, 并根据具体需要进行进 一步的综合, 从而进入轻度综合级乃至高度综合级, 老化的数据将进入早期细节 级由 此可见, 数据仓库中 存在着不同的综合级别, 一般称之为 粒度“ 。 粒度越大, 表示细节程度越低,综合程度越高。 数据仓库中 还有一 种重要的 数 据一元 数据( m e t a d a t a ) 。 元数据是“ 关于数据 的数据“ ,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了 从操作性环境向数据仓库转化而建立的元数 据, 包含了所有源数据项名、 属性及其在数据仓库中的转化; 第二种元数据在数 据仓库中是用来和终端用户的多维商业模型/ 前端工具之间建立映射,此种元数 据称之为d s s 元数据,常用来开发更先进的决策支持工具。 第一章 数据仓库技术简介 元数据 当前细节级 早期细节级 图1 - 4 d w数据组织结构 1 .4 .2数据仓库的数据组织形式 这里简单介绍数据仓库中常见的数据组织形式: 1 .简单堆积文件: 它将每日由数据库中提取并加工的数据逐天积累并存储 起来。 2 .轮转综合文件: 数据存储单位被分为日、周、月、年等几个级别。在一 个星期的七天中,数据被逐一记录在每日 数据集中:然后, 七天的数据被综合并 记录在周数据集中;接下去的一个星期,日 数据集被重新使用,以记录新数据。 同理, 周数据集达到五个后,数据再一次被综合并记入月数据集。以 此类推.轮 转综合结构十分简捷, 数据量较简单堆积结构大大减少。 当 然, 它是以 损失数据 细节为代价的,越久远的数据,细节损失越多。 3 .简化直接文件: 它类似于简单堆积文件,但它是间隔一定时间的数据库 快照,比如每隔一星期或一个月作一次。 4 .连续文件: 通过两个连续的简化直接文件,可以生成另一种连续文件, 它是通过比较两个简单直接文件的不同而生成的。 当然, 连续文件同新的简单直 接文件也可生成新的连续文件。 对于各种文件结构的最终实现, 在关系数据库中 仍然要依靠“ 表“ 这种最基本 的结构。 1 . 4 .3 数据分割 分割是指将数据分散到各自的物理单元中去以便能分别独立处理, 以提高数 据处 理 效率。 (1 1 数 据分 割 后的 数 据单 元 称为 分 片。 进 行 数 据 分 割的 理由 是, 我 们 在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最常见的, 第一章 数据仓库技术简介 如对某一时间或某一时段的数据的分析、 对某一地区的数据的分析、 对待定业务 领域的数据的分析等。 如果我们将具有这种相关性的数据组织在一起, 无疑会提 高效率。 数据分割的标准可以根据实际情况来确定, 通常可选择按日期、 地域或 业务领域等来进行分割, 也可以按多个分割标准的组合来进行。 分割之后,小单 元内的数据相对独立, 处理起来更快,更容易。 数据分割使数据更适于重构、索 引、重组、恢复、监控和顺序扫描。 1 .4 . 4 数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道, 数据仓 库的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在上一 次追加过程之后新生成 的。常用的技术和方法有: 时标方法:如果数据含有时标, 对新插入或更新的数据记录, 在记录中加 更新时的时标, 那么只需根据时标判断即可。 但并非所有的数据库中的数据都含 有时标。 d e l t a 文件: 它是由 应用生成的, 记录了 应用所改变的 所有内 容。 利用 d e l t a 文件效率很高, 它避免了扫描整个数据库, 但同样的问题是生成d e l t a 文 件的应用并不普遍。 此外, 还有更改应用代码的方法, 使得应用在生成新数据时 可以自 动将其记录下来。 但应用成千上万, 且修改代码十分繁琐, 这种方法很难 实现。 前后映象文件的方法: 在抽取数据前后对数据库各作一次快照, 然后比较 两幅快照的不同从而确定新数据。 它占 用大量资 源, 对性能影响极大, 因此并无 多大实际意义。 日 志文件: 最可取的技术大概是利用日 志文件了,因为它是d b 的固有机 制,不会影响0 up 的性能。同时,它还具有d e l t a 文件的优越性质,提取数据 只要局限日 志文件即可,不用扫描整个数据库。当 然, 原来日 志文件的格式是依 据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。 比如, 对一个记录的多次更新,日 志文件将全部变化过程都记录下来; 而对于数 据仓库,只需要最终结果。但比 较而言,日 志文件仍然是最可行的一种选择。 1 . 5数据仓库的关键技术 与关系数据库不同, 数据仓库在技术上可以 根据它的工作过程分为: 数据的 抽取、存储和管理、数据表现三个方面。 1 . 5 . 1数据的抽取 数据的抽取是数据进入仓库的入日。由于数据仓库是一个独立的数据环境, 第一章 数据仓库技术简介 它需要通过抽取过程将数据从联机事务处理系统、 外部数据源、 脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。 数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行。 . 在技术发展上, 数据抽取所涉及的单个技术环节都已相对成熟,目 前市场上 所提供的大多是数据抽取工具. 这些工具通过用户选定源数据和目 标数据的 对应关系,会自 动生成数据抽取的代码。但数据抽取工具支持的数据种类是 有限的;同时数据抽取过程涉及数据的转换,它是一个与实际应用密切相关 的部分,其复杂性使得不可嵌入用户编程的抽取工具往往不能满足要求。因 此,实际的数据仓库实施过程中往往不一定使用抽取工具。 1 .5 .2数据的存储和管理 数据仓库的真正关键是数据的存储和管理。 数据仓库的组织管理方式决定了 它有别于传统数据库的 特性, 同时也决定了其对外部数据表现形式。 数据仓库遇 到的第一个问 题是对大量数据的存储和管理。 这里所涉及的数据量比传统事务处 理大得多, 且随时间的推移而累积。 从现有技术和产品来看, 只有关系数据库系 统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储和管理方面已 经 非常成熟,非其它数据管理系统可比。 数据仓库要解决的第二个问题是并行处理。 在传统联机事务处理应用中, 用 户访问系统的特点是短小而密集; 对于一个多处理机系统来说, 能够将用户的请 求进行均衡分担是关键, 这便是并发操作。 而在数据仓库系统中, 用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务, 将 该请求并行处理。因此,并行处理技术在数据仓库中比以 往更加重要。 数据仓库的第三个问题是支持多维分析的查询模式。 用户在使用数据仓库时 的访问 方式与 传统的关系数据库有很大的不同。 对于数据仓库的访问 往往不是简 单的表和记录的查询, 而是基于用户业务的分析模式, 即 联机分析。 如图1 - 5 所 示, 它的特点是将数据想象成多维的立方体, 用户的查询便相当于在其中的部分 维( 棱) 上施加条件, 对立方体进行切片、 分割, 得到的结果则是数值的矩阵或向 量,并将其制成图表或输入数理统计的算法。 图 1 - 5联机分析数据处理示意图 第一章 数据仓库技术简介 关系数据库本身没有提供这种多维分析的查询功能, 多维数据库是一种以多 维数据存储形式来组织数据的数据管理系统, 它不是关系型数据库, 在使用时需 要将数据从关系数据库中转载到多维数据库中方可访问。 1 .5 .3数据的表现 数据表现主要集中在多维分析、 数理统计和数据挖掘方面。 多维分析是数据 仓库的重要表现形式, 由于mo l a p 系统是专用的, 因此, 关于多维分析领域的 工具和产品大多是r o l a p 工具;数理统计原本与数据仓库没有直接的联系, 但 在实际的应用中, 客户需要通过对数据的统计来验证他们对某些事物的假设, 以 进行决策。与数理统计相似, 数据挖掘与数据仓库也没有直接的联系。 而且这个 概念在现实中有些含混;数据挖掘强调的不仅仅是验证人们对数据特性的假设, 而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人, 但在实现上却有很大的出入。 市场上许多数据挖掘工具其实不过是数理统计的应 用。 它们并不是真正寻找出 数据的规律, 而是验证尽可能多的 假设, 其中包括许 多毫无意义的组合, 最后由 人来判断其合理性。 因此, 在当前的数据仓库应用中, 有效地利用数理统计就已经能够获得可观的效益。 1 . 6 小结 本章主要介绍了 数据仓库的产生及其定义, 并且分析了数据仓库与传统数据 库的区别, 以及数据仓库的体系结构和数据组织, 最后介绍了构建数据仓库所需 要的一些关键技术。 通过本章的介绍, 我们对数据仓库有了一个大体的了解, 他 并不是要取代传统数据库,而是建立在一个较全面和完善的信息应用基础之上, 用于支持高层决策与分析。 第二章 o l a p 技术概览 第二章 o l a p 技术概览 建立数据仓库, 可在整个公司中支持一致的数据视图。 但实际上, 数据仓库 中的多数报表都不是特定报表。数据仓库的用户倾向于一遍又一遍执行同一查 询, 仓库的真正优势并没有充分显示出 来。 对这些重复性要求, o l a p 为用户提 供快速响应时间及高度的灵活性,而且 o l a p工具的设计易于使用,且有丰富 的报表功能。 2 . 1 决策支持 决策支持可简单地定义为一个系统, 它允许指定更灵便的决策, 联机分析处 理( o l a p ) 是一种决策支持工具。 与此形式类似地有r o l a p , mo l a p 和h o l a p . 1 3 1 1 o l t p 系统中的数据处理是高度结构化的数据操作, 每一次事务处理通常只 涉及一两张表, 并且只对一行记录进行操作。 这说明复杂的表关系不会影响到系 统的性能; d s s 处理正相反, 它的一次 操作要涉及几百张表的上千行数据。 在这 种情况下, 复杂的表连接会严重影响性能。 所以, 性能是系统的实体一 关系 ( e r ) 模型不能满足决策支持环境的重要原因。 由于传统的 数据分析软件不适用于动态数据分析, 而关系数据库虽然具有一 定的数据视图选取、比较和综合的能力, 但它仍然受到数据分析能力的制约, 所 以 针对特定问 题的联机数据访问 和数据分析的 技术, e .f . c o d d 提出了“ o l a p 技术。 2 .2 o l a p技术 o l a p 是o n - l i n e a n a l y t i c a l p r o c e s s i n g ( 联机 分析处理) 的首 字母缩写, 它 是 从o l t p ( o n - l in e t r a n s a c t i o n p r o c e s s i n g : 联 机 事务 处 理 ) 基 础 上 发 展 起来的 一 种数据分析技术。 根据o l a p 委员会的定义, o l a p 是使分析人员、 管理人员或 执行人员能够从多种角度对从原始数据中转化出 来的、能 够真正为用户所理解 的、 并真实反映企业特性的信息进行快速、 一致、 交互地存放, 从而获得对数据 更深入了 解地一类软件技术12 0 1 o l ” 具 有下列五 个特征 14 3 1 , 这些 特征从另 一个角 度定 义了o l ” 应用系统 的概念。 .o l a p的最显著特征是能提供数据的多维概念视图。 数据的多维视图使 最终用户能多角度、 多侧面、 多层次地考察数据库中的数据, 从而深入地理解包 第二章 o l a p 技术概览 含在数据中的信息及其内涵 ( 维是人们观察数据的特定角度) 。 o l a i 的第二个特征是能快速响应用户的分析请求。 o l a p的第三个特征是其分析功能。 这是指o l a p系统可以提供给用户 : 强大的统计、分析 ( 包括时间序列分析、 多维结构的随机变化等) 、报表处理功能。 成本分配、货币兑换、非过程化建模、 此外, o l a p系统还具有回答 “ 假设 分析”( w h a t - i f )问题的功能及进行趋势预测的能力。o l a p的基本分析操 作有切片( s l i c e ) 、 切块( d i c e ) 、 细化( d ri l l d o w n ) 、 综合( r o l l u p ) 和旋转( r o t a t e ) . .o l a p的第四个特征是共享特性。这是指 o l a p系统应有很高的安全 ,性。例如,当多个用户同时向 o l a p服务器写数据时,系统应能在适当的粒度 级别上加更新锁。 .o l a p的第五个特征是它的信息性。 这是指o l a p分析所需的数据及导 出的有用信息。 2 . 2 . 1 o l a p中常用术语 1 )维 ( d i m e n t i o n ) 维是人们观察数据的特定角度。 例如, 企业常常关心产品销售数据随着时间 推移而产生的变化情况, 这时它是从时间的角度来观察产品的销售, 所以时间就 是一个维 ( 时间维) 。企业也时常关心自己的产品在不同地区的销售分布情况, 这时它是从地理分布的角度来观察产品的销售的, 所以地理分布也是一个维( 地 理维) 。 2 )维的层次 人们观察数据的某个特定角度 ( 即某个维) 还可以存在细节程度不同的多个 描述方面, 这多个描述方面称为维的层次。 一个维往往具有多个层次, 例如描述 时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、 季度、 年等就是时间维的 层次; 同 样, 产品名、 产品小类、 产品大类等构成了一 个产品维的多个层次。 3 )维成员 维的一个取值称为该维的一个维成员。 如果一个维是多层次的, 那么该维的 维成员是在不同维层次的取值的组合。 例如, 考虑时间维具有日期、 月份、 年这 三个层次, 分别在日期、月份、 年上各取一个值组合起来,就得到了时间维的一 个维成员,即“ 某年某月某日” 。对应一个数据项来说,维成员是该数据项在某 维中位置的描述。 例如对一个销售数据来说, 时间维的维成员表示的是“ 某年某 月某日”的销售数据, “ 某年某月某日” 是该销售数在时间维上位置的描述。 4 )测度 ( m e a s u r e ) 测度是数据的实际意义,即描述时间 “ 是什么” 。一般情况下,测度是一个 第二章 o l a p 技术概览 数值度量指标,例如: “ 单价” 、 “ 销售量” 、 “ 销售额” 等都是测度。如果说 “ 本 季度的销售额维 1 0 0 0 0 元” ,则 “ 1 0 0 0 0 ”是测度 “ 销售额”的一个值。 5 )多维数组 一个多维数组可以表示为:( 维 1 ,维2 ,,维n ,变量) 。例如,产品销 售数据是按时间、地区和销售渠道组织起来的三维立方体,加上测度 “ 销售额” 就组成了一个多维数组 ( 地区,时间,销售渠道,销售额) 。 6 )数据单元 多维数组的取值称为数据单元。 当多维数组的各个维都选中一个维成员, 这 些维成员的组合就唯一确定了一个测度的值。 例如, 如果在地区、 时间和销售渠 道上各取维成员 “ 天津” 、 2 0 0 2 年 1 季度”和 “ 零售” ,就唯一确定了测度 “ 销 售额”的一个值 ( 假设为 1 0 0 0 0 ) ,则该数据单元可表示维:( 天津, 2 0 0 2年 i 季度,零售,1 0 0 0 0 ) . 2 .2 . 2 o l a p常用的分析操作 o l a p 的多维分析是指对以多维形式组织起来的数据, 采取切片、 切块、 旋 转等各种分析操作, 以求剖析数据, 使最终用户能从多个角度、 多侧面地观察数 据库中的 数据, 从而深入地了 解包含在数据中的信息和内 涵。常见的 o l a p分 析操作 包括: 切片 ( s l i c e ) 、 切 块( d i c e ) 、 旋转 ( r o t a t e ) 、 综合 ( r o l l u p ) 和细 化( d r i l l d o w n ) 。 下面给出各操作的定义描述: . 切片( s l i c e ) 切片有两个定义,它们分别反映了不同的观察角度 ( 这两个定义不等价) 。 定义 1 . 在多维数组的某一维上选定一维成员的操作称为切片,即在多维数 组 ( 维 i , 维2 ,, 维n , 变量) 中选一维,即维i , 并取其一维成员 ( 设为“ 维 成员v i ) , 所得的多维数组的子集 ( 维1 , , 维成员v i ,二, 维n , 变量) 称 为在维i 上的一个切片。 定义2 . 选定多维数组的一个二维子集的动作称为切片, 即选定多维数组( 维 1 , 维2 , , 维n , 变量) 中 的 两 个维: 维i 和 维7 , 在 这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论