数据仓库介绍_第1页
数据仓库介绍_第2页
数据仓库介绍_第3页
数据仓库介绍_第4页
数据仓库介绍_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouse

数据仓库概念、设计及应用报告人:曹顺良2001年11月12日提纲1.为什么要建立数据仓库2.

数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用事务处理环境不适宜DSS应用的原因

事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短;

在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题

抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层数据仓库的概念

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。[WilliamH.Inmon]与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性

面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换

数据仓库设计中的几个重要概念

ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。典型型的的元元数数据据包包括括::数据据仓仓库库表表的的结结构构数据据仓仓库库表表的的属属性性数据据仓仓库库的的源源数数据据((记记录录系系统统))从记记录录系系统统到到数数据据仓仓库库的的映映射射数据据模模型型的的规规格格说说明明抽取取日日志志访问问数数据据的的公公用用例例行行程程序序数据据仓仓库库设设计计中中的的几几个个重重要要概概念念(续续))DataMart数据据集集市市--小小型型的的,,面面向向部部门门或或工工作作组组级级数数据据仓仓库库。OperationDataStore操作作数数据据存存储储——ODS是能能支支持持企企业业日日常常的的全全局局应应用用的的数数据据集集合合,是是不不同同于于DB的一一种种新新的的数数据据环环境境,是是DW扩展展后后得得到到的的一一个个混混合合形形式式。。四四个个基基本本特特点点::面面向向主主题题的的(Subject-Oriented)、、集成成的的、、可可变变的的、、当当前前或或接接近近当当前前的的。。datamodel数据据模模型型--(1)逻逻辑辑数数据据结结构构,,包包括括由由DBMS为有有效效进进行行数数据据库库处处理理提提供供的的操操作作和和约约束束;;((2)用用于于表表示示数数据据的的系系统统((例例如如,,ERD或关关系系型型模模型型))。。artifact人工工关关系系--在DSS环境境中中用用于于表表示示参参照照完完整整性性的的一一种种设设计计技技术术。。企业业数数据据模模型型到到数数据据仓仓库库数数据据模模型型的的转转换换除去去纯纯粹粹用用于于操操作作型型环环境境的的数数据据在企企业业键键码码结结构构中中增增加加时时间间元元素素增加加导导出出数数据据创建建人人工工关关系系数据据模模型型的的规规范范化化/反反规规范范化化为了了减减少少程程序序在在表表中中的的跳跳转转、、节节省省I/O,,需将将多多个个相相关关的的表表合合并并;;引入入冗冗余余数数据据;;当访访问问概概率率有有很很大大悬悬殊殊时时,,要要对对数数据据做做进进一一步步分分离离;;在物物理理数数据据库库的的设设计计中中引引入入导导出出数数据据可可以以减减少少I/O;;建立立所所谓谓的的““创创造造的的””索索引引或或创创造造的的简简要要记记录录((如如卷卷中中的的前前十十名名顾顾客客是是————))数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。

(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操操作作型型的的现现存存系系统统到到数数据据仓仓库库中中数数据据转转换换工工作作的的难难点点现有有系系统统缺缺乏乏数数据据集集成成,,跨跨越越不不同同应应用用的的数数据据集集成成性性很很差差存取取现现存存系系统统的的效效率率,,扫扫描描已已有有文文件件成成了了数数据据仓仓库库体体系系结结构构设设计计者者主主要要面面对对的的问问题题时基的变化数据要浓缩概念:数据周期、简简要记录数据周期:是指从操作型型数据发生改改变起,到这这个变化反映映到数据仓库库中所用的时时间。从操作型环境境知道数据的的改变到这个个变化反映到到数据仓库中中至少应该经经历24小时时。简要记录:或聚集记录,,是把不同操操作型数据的的详细信息聚聚集在一个记记录中而形成成的记录。好处:①减少少数据量;②为用户的访访问和分析提提供了一种紧紧凑的方便的的数据组织形形式;缺点:信息的的详细程度将将会降低。数据仓库的建建模数据模型所有的实体都都是平等关系系。仅仅从数据模模型的角度来来着手设计数数据仓库会产产生一种“平平面”效应。。星型连接事实表:位于星型连接接的中央,它它是被大量载载入数据的实实体。维表:周围的的其它实体。。在很多情况下下:文本数据据与数值数据据是分离开的的。通过数据预连连接和建立有有选择的数据据冗余,设计计者为访问和和分析过程大大大简化了数数据。星型连接应用用于设计数据据仓库中很大大的实体,而而数据模型则则应用于数据据仓库中较小小的实体。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建模的十十条戒律①必须回答紧紧迫的问题;;②必须有正确确的事实表;;③将有正确的的维表,描述述必须按最终终用户的业务务术语表达;;④必须理解数数据仓库所影影响的公司过过程或影响数数据仓库的公公司过程;⑤对于事实表表,应该有正正确的“粒度度”;⑥根据需要存存储正确长度度的公司历史史数据;⑦以一种对于于公司有意义义的方式来集集成所有必要要的数据;⑧创建必要的的总结表;⑨创建必要的的索引;⑩能够加载数数据仓库数据据库并使它以以一种适宜的的方式可用。。数据集市外部数据用自顶向下的的方法构建数数据仓库数据集市建造企业数据据仓库建设中心数据据模型一次性的完成成数据的重构构工作最小化数据冗冗余度和不一一致性存储详细的历历史数据从企业数据仓仓库中建造数数据集市得到大部分的的集成数据直接依赖于数数据仓库的可可用性操作数据问题投资效益的时时间?建设中心数据据模型的必要要性和可能性性?初始费用?企业数据仓库用自底向上的的方法构建数数据仓库数据集市建立部门数据据集市限制在一个主主题区域快速投资收益益区域自治––设计的可可伸缩性强对相关部门的的应用容易复复制对每个数据集集市需要数据据重构存在一定的冗冗余及不一直直性逐步扩展到企企业数据仓库库(EDW)把建造EDW作为一个长期期的目标存在的问题:数据集市的数数据都是可用用的吗?能生成数据模模型吗?如何解决不一一致性?外部数据操作数据(全局)&操作数据(局部)操作数据(局部)数据集市企业数据仓库库数据仓库的开开发过程建立或获得企企业的数据模模型;定义记录系统统;设计数据仓库库并按主题领领域进行组织织;设计和建立操操作型环境中中的记录系统统和数据仓库库之间的接口口,这些接口口能保证数据据仓库的载入入工作能有序序的进行;开始载入第一一个主题领域域,进入载入入和反馈过程程,数据仓库库中的数据在在此过程中也也在不断地改改变。数据模型的内内容标识主要主题题领域。各个主要主题题之间的各种种关系。清晰地定义模模型的边界。。把原始数据和和导出数据分分离。每个主题领域域需要标识键码属性属性分组之间间的关系多重出现的数数据数据的类型表达数据模型型的最好数据据最实时最准确最完备与外部数据源源最近最具结构兼容容性定义记录系统统就是找出现现存系统所具具有的最好的的数据将数据模型变变为数据仓库库要做的主要要工作如果原先没有有时间元素的的话,时间元元素必须加入入到键码结构构中必须清除所有有的纯操作型型数据需要将参照完完整性关系转转换成“人工工关系”将经常需要用用到的到处数数据假如到设设计中对数据的结构构进行调整增加数据阵列列增加数据冗余余在合适的情况况下进一步分分离数据在合适的时候候合并数据表表需要做数据的的稳定性分析析在接口中需完完成的工作数据抽取对来自操作型型、面向应用用型环境的数数据的集成数据时基的变变更数据压缩对现存系统环环境的有效扫扫描数据仓库开发发成功的关键键关键:是数据据体系结构设设计者和DSS分析者之间的的反馈循环。。有几点观察结结果对数据仓仓库环境的成成功建立是至至关重要的问问题:DSS分析人员一定定要严格遵循循“给我我所所要的东西,,然后我能告告诉你我真正正需要的东西西”的工作模模式;反馈循环的周周期越短,越越有可能成功功;需要调整的数数据量越大,,反馈循环所所需要的周期期就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论