数据仓库概念设计及应用_第1页
数据仓库概念设计及应用_第2页
数据仓库概念设计及应用_第3页
数据仓库概念设计及应用_第4页
数据仓库概念设计及应用_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouse

数据仓库概念、设计及应用报告人:曹顺良2001年11月12日提纲1.为什么要建立数据仓库2.数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用事务处理环境不适宜DSS应用的原因

事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短;

在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题

抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层数据仓库的概念

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。[WilliamH.Inmon]与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性

面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换

数据仓库设计中的几个重要概念

ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。典型的元数数据包括::数据仓库表表的结构数据仓库表表的属性数据仓库的的源数据((记录系统统)从记录系统统到数据仓仓库的映射射数据模型的的规格说明明抽取日志访问数据的的公用例行行程序数据仓库设设计中的几几个重要概概念(续)DataMart数据集市--小小型的,面面向部门或或工作组级级数据仓库库。OperationDataStore操作数据存存储—ODS是能支持企企业日常的的全局应用用的数据集集合,是不不同于DB的一种新的的数据环境境,是DW扩展后得到到的一个混混合形式。。四个基本本特点:面面向主题的的(Subject-Oriented)、集成的、可可变的、当当前或接接近当前的的。datamodel数据模型--(1)逻辑数据据结构,包包括由DBMS为有效进行行数据库处处理提供的的操作和约约束;(2)用用于于表表示示数数据据的的系系统统((例例如如,,ERD或关关系系型型模模型型))。。artifact人工工关关系系--在DSS环境境中中用用于于表表示示参参照照完完整整性性的的一一种种设设计计技技术术。。企业业数数据据模模型型到到数数据据仓仓库库数数据据模模型型的的转转换换除去去纯纯粹粹用用于于操操作作型型环环境境的的数数据据在企企业业键键码码结结构构中中增增加加时时间间元元素素增加加导导出出数数据据创建建人人工工关关系系数据据模模型型的的规规范范化化/反反规规范范化化为了了减减少少程程序序在在表表中中的的跳跳转转、、节节省省I/O,,需将将多多个个相相关关的的表表合合并并;;引入入冗冗余余数数据据;;当访访问问概概率率有有很很大大悬悬殊殊时时,,要要对对数数据据做做进进一一步步分分离离;;在物物理理数数据据库库的的设设计计中中引引入入导导出出数数据据可可以以减减少少I/O;;建立立所所谓谓的的““创创造造的的””索索引引或或创创造造的的简简要要记记录录((如如卷卷中中的的前前十十名名顾顾客客是是————))数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。

(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操操作作型型的的现现存存系系统统到到数数据据仓仓库库中中数数据据转转换换工工作作的的难难点点现有有系系统统缺缺乏乏数数据据集集成成,,跨跨越越不不同同应应用用的的数数据据集集成成性性很很差差存取取现现存存系系统统的的效效率率,,扫扫描描已已有有文文件件成成了了数数据据仓仓库库体体系系结结构构设设计计者者主主要要面面对对的的问问题题时基基的的变变化化数据据要要浓浓缩缩概念念:数据据周周期期、、简简要要记记录录数据据周周期期::是指指从从操操作作型型数数据据发发生生改改变变起起,,到到这这个个变变化化反反映映到到数数据据仓仓库库中中所所用用的的时时间间。从操操作作型型环环境境知知道道数数据据的的改改变变到到这这个个变变化化反反映映到到数数据据仓仓库库中中至至少少应应该该经经历历24小小时时。。简要要记记录录::或聚聚集集记记录录,,是是把把不不同同操操作作型型数数据据的的详详细细信信息息聚聚集集在在一一个个记记录录中中而而形形成成的的记记录录。。好处处::①①减减少少数数据据量量;;②为用户户的访问问和分析析提供了了一种紧紧凑的方方便的数数据组织织形式;;缺点:信信息的详详细程度度将会降降低。数据仓库库的建模模数据模型型所有的实实体都是是平等关关系。仅仅从数数据模型型的角度度来着手手设计数数据仓库库会产生生一种““平面””效应。。星型连接接事实表::位于星型型连接的的中央,,它是被被大量载载入数据据的实体体。维表:周周围的其其它实体体。在很多情情况下::文本数数据与数数值数据据是分离离开的。。通过数据据预连接接和建立立有选择择的数据据冗余,,设计者者为访问问和分析析过程大大大简化化了数据据。星型连接接应用于于设计数数据仓库库中很大大的实体体,而数数据模型型则应用用于数据据仓库中中较小的的实体。。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建建模的的十条条戒律律①必须须回答答紧迫迫的问问题;;②必须须有正正确的的事实实表;;③将有有正确确的维维表,,描述述必须须按最最终用用户的的业务务术语语表达达;④必须须理解解数据据仓库库所影影响的的公司司过程程或影影响数数据仓仓库的的公司司过程程;⑤对于于事实实表,,应该该有正正确的的“粒粒度””;⑥根据据需要要存储储正确确长度度的公公司历历史数数据;;⑦以一一种对对于公公司有有意义义的方方式来来集成成所有有必要要的数数据;;⑧创建建必要要的总总结表表;⑨创建建必要要的索索引;;⑩能够够加载载数据据仓库库数据据库并并使它它以一一种适适宜的的方式式可用用。数据集集市外部数数据用自顶顶向下下的方方法构构建数数据仓仓库数据集集市建造企企业数数据仓仓库建设中中心数数据模模型一次性性的完完成数数据的的重构构工作作最小化化数据据冗余余度和和不一一致性性存储详详细的的历史史数据据从企业业数据据仓库库中建建造数数据集集市得到大大部分分的集集成数数据直接依依赖于于数据据仓库库的可可用性性操作数据问题投资效益的的时间?建设中心数数据模型的的必要性和和可能性?初始费用?企业数据仓库用自底向上上的方法构构建数据仓仓库数据集市建立部门数数据集市限制在一个个主题区域域快速投资收收益区域自治––设计计的可伸缩缩性强对相关部门门的应用容容易复制对每个数据据集市需要要数据重构构存在一定的的冗余及不不一直性逐步扩展到到企业数据据仓库(EDW)把建造EDW作为一个长长期的目标标存在的问题题:数据集市的的数据都是是可用的吗吗?能生成数据据模型吗?如何解决不不一致性?外部数据操作数据(全局)&操作数据(局部)操作数据(局部)数据集市企业数据仓仓库数据仓库的的开发过程程建立或获得得企业的数数据模型;;定义记录系系统;设计数据仓仓库并按主主题领域进进行组织;;设计和建立立操作型环环境中的记记录系统和和数据仓库库之间的接接口,这些些接口能保保证数据仓仓库的载入入工作能有有序的进行行;开始载入第第一个主题题领域,进进入载入和和反馈过程程,数据仓仓库中的数数据在此过过程中也在在不断地改改变。数据模型的的内容标识主要主主题领域。。各个主要主主题之间的的各种关系系。清晰地定义义模型的边边界。把原始数据据和导出数数据分离。。每个主题领领域需要标标识键码属性属性分组组之间的的关系多重出现现的数据据数据的类类型表达数据据模型的的最好数数据最实时最准确最完备与外部数数据源最最近最具结构构兼容性性定义记录录系统就就是找出出现存系系统所具具有的最最好的数数据将数据模模型变为为数据仓仓库要做做的主要要工作如果原先先没有时时间元素素的话,,时间元元素必须须加入到到键码结结构中必须清除除所有的的纯操作作型数据据需要将参参照完整整性关系系转换成成“人工工关系””将经常需需要用到到的到处处数据假假如到设设计中对数据的的结构进进行调整整增加数据据阵列增加数据据冗余在合适的的情况下下进一步步分离数数据在合适的的时候合合并数据据表需要做数数据的稳稳定性分分析在接口中需完完成的工作数据抽取对来自操作型型、面向应用用型环境的数数据的集成数据时基的变变更数据压缩对现存系统环环境的有效扫扫描数据仓库开发发成功的关键键关键:是数据据体系结构设设计者和DSS分析者之间的的反馈循环。。有几点观察结结果对数据仓仓库环境的成成功建立是至至关重要的问问题:DSS分析人员一定定要严格遵循循“给我我所所要的东西,,然后我能告告诉你我真正正需要的东西西”的工作模模式;反馈循环的周周期越短,越越有可能成功功;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论