数据仓库的概念设计及应用_第1页
数据仓库的概念设计及应用_第2页
数据仓库的概念设计及应用_第3页
数据仓库的概念设计及应用_第4页
数据仓库的概念设计及应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouse

数据仓库概念、设计及应用报告人:曹顺良2001年11月12日提纲1.为什么要建立数据仓库2.数据仓库的概念及特性3.数据仓库的结构4.数据仓库的设计5.数据仓库的开发过程6.数据仓库的典型应用事务处理环境不适宜DSS应用的原因

事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短;

在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题

抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层数据仓库的概念

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。[WilliamH.Inmon]与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性

面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换

数据仓库设计中的几个重要概念

ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。典型的元元数据包包括:数据仓库库表的结结构数据仓库库表的属属性数据仓库库的源数数据(记记录系统统)从记录系系统到数数据仓库库的映射射数据模型型的规格格说明抽取日志志访问数据据的公用用例行程程序数据仓库库设计中中的几个个重要概概念(续)DataMart数据集市市--小型型的,面面向部门门或工作作组级数数据仓库库。OperationDataStore操作数据据存储——ODS是能支持持企业日日常的全全局应用用的数据据集合,是不同同于DB的一种新新的数据据环境,是DW扩展后得得到的一一个混合合形式。。四个基基本特点点:面向向主题的的(Subject-Oriented)、、集成的、、可变的的、当当前或接接近当前前的。datamodel数据模型型--(1)逻辑数数据结构构,包括括由DBMS为有效进进行数据据库处理理提供的的操作和和约束;;(2)用于表表示数据据的系统统(例如如,ERD或关系型型模型))。artifact人工关系系--在DSS环境中用用于表示示参照完完整性的的一种设设计技术术。企业数据据模型到到数据仓仓库数据据模型的的转换除去纯粹粹用于操操作型环环境的数数据在企业键键码结构构中增加加时间元元素增加导出出数据创建人工工关系数据模型型的规范范化/反反规范化化为了减少少程序在在表中的的跳转、、节省I/O,,需将多个个相关的的表合并并;引入冗余余数据;;当访问概概率有很很大悬殊殊时,要要对数据据做进一一步分离离;在物理数数据库的的设计中中引入导导出数据据可以减减少I/O;;建立所谓谓的“创创造的””索引或或创造的的简要记记录(如如卷中的的前十名名顾客是是——))数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。

(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操作型型的现存存系统到到数据仓仓库中数数据转换换工作的的难点现有系统统缺乏数数据集成成,跨越越不同应应用的数数据集成成性很差差存取现存存系统的的效率,,扫描已已有文件件成了数数据仓库库体系结结构设计计者主要要面对的的问题时基的变变化数据要浓浓缩概念:数据周期期、简要要记录数据周期期:是指从操操作型数数据发生生改变起起,到这这个变化化反映到到数据仓仓库中所所用的时时间。从操作型型环境知知道数据据的改变变到这个个变化反反映到数数据仓库库中至少少应该经经历24小时。。简要记录录:或聚集记记录,是是把不同同操作型型数据的的详细信信息聚集集在一个个记录中中而形成成的记录录。好处:①①减少数数据量;;②为用户户的访问问和分析析提供了了一种紧紧凑的方方便的数数据组织织形式;;缺点:信信息的详详细程度度将会降降低。数据仓库库的建模模数据模型型所有的实实体都是是平等关关系。仅仅从数数据模型型的角度度来着手手设计数数据仓库库会产生生一种““平面””效应。。星型连接接事实表::位于星型型连接的的中央,,它是被被大量载载入数据据的实体体。维表:周周围的其其它实体体。在很多情情况下::文本数数据与数数值数据据是分离离开的。。通过数据据预连接接和建立立有选择择的数据据冗余,,设计者者为访问问和分析析过程大大大简化化了数据据。星型连接接应用于于设计数数据仓库库中很大大的实体体,而数数据模型型则应用用于数据据仓库中中较小的的实体。。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建模模的十条条戒律①必须回回答紧迫迫的问题题;②必须有有正确的的事实表表;③将有正正确的维维表,描描述必须须按最终终用户的的业务术术语表达达;④必须理理解数据据仓库所所影响的的公司过过程或影影响数据据仓库的的公司过过程;⑤对于事事实表,,应该有有正确的的“粒度度”;⑥根据需需要存储储正确长长度的公公司历史史数据;;⑦以一种种对于公公司有意意义的方方式来集集成所有有必要的的数据;;⑧创建必必要的总总结表;;⑨创建必必要的索索引;⑩能够加加载数据据仓库数数据库并并使它以以一种适适宜的方方式可用用。数据集市市外部数据据用自顶向向下的方方法构建建数据仓仓库数据集市市建造企业业数据仓仓库建设中心心数据模模型一次性的的完成数数据的重重构工作作最小化数数据冗余余度和不不一致性性存储详细细的历史史数据从企业数数据仓库库中建造造数据集集市得到大部部分的集集成数据据直接依赖赖于数据据仓库的的可用性性操作数据据问题投资效益益的时间间?建设中心心数据模模型的必必要性和和可能性性?初始费用用?企业数据仓库用自底向向上的方方法构建建数据仓仓库数据集市市建立部门门数据集集市限制在一一个主题题区域快速投资资收益区域自治治–设设计的的可伸缩缩性强对相关部部门的应应用容易易复制对每个数数据集市市需要数数据重构构存在一定定的冗余余及不一一直性逐步扩展展到企业业数据仓仓库(EDW)把建造EDW作为一个长长期的目标标存在的问题题:数据集市的的数据都是是可用的吗吗?能生成数据据模型吗?如何解决不不一致性?外部数据操作数据(全局)&操作数据(局部)操作数据(局部)数据集市企业数据仓仓库数据仓库的的开发过程程建立或获得得企业的数数据模型;;定义记录系系统;设计数据仓仓库并按主主题领域进进行组织;;设计和建立立操作型环环境中的记记录系统和和数据仓库库之间的接接口,这些些接口能保保证数据仓仓库的载入入工作能有有序的进行行;开始载入第第一个主题题领域,进进入载入和和反馈过程程,数据仓仓库中的数数据在此过过程中也在在不断地改改变。数据模型的的内容标识主要主主题领域。。各个主要主主题之间的的各种关系系。清晰地定义义模型的边边界。把原始数据据和导出数数据分离。。每个主题领领域需要标标识键码属性属性分组之之间的关系系多重出现的的数据数据的类型型表达数据模模型的最好好数据最实时最准确最完备与外部数据据源最近最具结构兼兼容性定义记录系系统就是找找出现存系系统所具有有的最好的的数据将数据模型型变为数据据仓库要做做的主要工工作如果原先没没有时间元元素的话,,时间元素素必须加入入到键码结结构中必须清除所所有的纯操操作型数据据需要将参照照完整性关关系转换成成“人工关关系”将经常需要要用到的到到处数据假假如到设计计中对数据的结结构进行调调整增加数据阵阵列增加数据冗冗余在合适的情情况下进一一步分离数数据在合适的时时候合并数数据表需要做数据据的稳定性性分析在接口中需需完成的工工作数据抽取对来自操作作型、面向向应用型环环境的数据据的集成数据时基的的变更数据压缩对现存系统统环境的有有效扫描数据仓库开开发成功的的关键关键:是数数据体系结结构设计者者和DSS分析者之间间的反馈循循环。有几点观察察结果对数数据仓库环环境的成功功建立是至至关重要的的问题:DSS分析人员一一定要严格格遵循“给给我我所要要的东西,,然后我能能告诉你我我真正需要要的东西””的工作模模式;反馈循环的的周期越短短,越有可可能成功;;需要调整的的数据量越越大,反馈馈循环所需需要的周期期就越长数据仓库的的应用在证券业的应应用:可处理客户户分析、帐帐户分析、、证券交易易数据分析析、非资金金交易分析析等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论