二章数据仓库开发模型_第1页
二章数据仓库开发模型_第2页
二章数据仓库开发模型_第3页
二章数据仓库开发模型_第4页
二章数据仓库开发模型_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DW的设计是一个复杂的过程:现实环境→抽象模型→具体实现。上述过程实现的期间,使用了诸多的数据模型,……§1引言§2概念模型§3逻辑模型§4物理模型§5元数据模型§6粒度模型§7聚集模型第二章数据仓库开发模型§1引言创建DW时,需用用各种数据模型型对DW进行描述述。DW的开发者者依据这这些数据据模型,,才能开开发出一一个满足足用户需需求的DW。为了使开开发人员员能够将将注意力力集中在在数据仓仓库开发发的主要部分分,模型要要有很好好的适应应性,更更易于修修改,且且,当用用户的需需求改变变时,仅仅对模型型做出相相应的变变化就能能反映这这个改变变。CH2模型是对现实实世界进进行抽象象的工具具。信息管理理中,需需要将现现实世界界的事物物及其有有关特征征转换为为信息世世界的数数据才能能对信息息进行处处理与管管理,这这就需要要依靠数据模型型作为这种种转换的的桥梁。。上述的转换一般需要要经历从从现实到概念模型型,从概念模型型到逻辑模型型,从逻辑模型型到物理模型型的转换过过程。CH2现实世界概念世界逻辑世界计算机世界信用张三客户客户与产品特性属性列(字段、数据项)个体实体记录整体同质总体表文件整体间联系异质总体数据库现实世界与各个数据模型之间的关系CH2此外,数数据仓库库的开发发过程中中,还要要使用下下述很重重要的几几个数据据模型——元数据模模型和数据粒度度和聚集模型型。DW开发过程程中,各各个数据据模型间间的关系系如下图图所示。。现实世界概念模型逻辑模型物理模型数据仓库元数据模型聚集模型数据粒度和DW的灵魂!!指导DW开发。CH2§2概念模型型概念模型型是对真真实世界界中问题题域内的的事物的的描述,,包括::记号、、内涵、、外延,,其中记记号和内内涵(视视图)最最具实际际意义。。和业务处理理系统一样,数数据仓库库构建过过程中,,也可以以用E-R图来表示概概念模型型——这样做的的直接好好处是,,数据仓仓库与业业务处理理系统能能够得到到很好的的协调。。CH2①改进进的E-R图与业务处处理系统统中的数数据库概概念设计计一样,,数据仓仓库也可可以用三三个层次次的数据据模型来来描述——高层模型型(E-R图)、中层模型型(逻辑层层)和底层模型型(物理层层)。但要注注意两者者之间的的差异::数据据类型的的差异DW中不包含含操作型数数据,只包含含用户感感兴趣的的分析数据据(如,商商品的销销量、企企业的利利润等))、描述数据据(如,销销售时间间、地点点)CH2以及细节数据据(如,所所销售商商品的详详情、客客户详情情等)。数据据的历史史变迁性性业务处理理系统中,一般般只包含含当前数数据而不不含历史史数据;;数据仓库库中,为了了反映出出组织的的历史变变迁、业业务的发发展等,,需要增增加时间间属性进进行描述述(即把把时间作作为关键键字的一一部分))。数据据的概括括性为了提高高使用的的性能,,往往在在数据仓库库中增加一一些由基基本数据据导出的的衍生数数据,它它们在业业务处理理系统中中是不存存在的。。为此,对对传统的的E-R图进行了了一些改改进:把实体扩扩展成三三类——指标实体体(事实实实体)、、维实体和详细类别别实体。CH2其中:指标实体体指标实体体处于概概念模型型的中心心,是DW活动的中中心;是现实世世界中的的某一业业务处理理或某一一事件((销售、、服务等等)的逻逻辑表示示;体现了现现实世界界中的事事务处理理的值(从业务务处理系系统获取取的),,每个值只与每个个相关维维的一个个点对应应,是管管理人员员衡量业业务好坏坏及其处处理难度度的基础础。CH2随着时间间的推移移,以及及数据仓仓库需求求的变化化,指标标实体中中的数据据量会日日益膨胀胀,因此此,指标标实体是是数据仓仓库管理理的重点点。其主要特性性如下:是是分析中中心,提提供基本本数据;;包含多多个数据据访问路路径;包包含标准准数据;;能扩充充成很大大的表——以容纳日日益增长长的数据据。CH2维实体主要用于于对实体体的过滤滤和重新新组织,,可将用户户的查询询结果按按维指标标进行筛筛选,可可在指标标实体之之间以及及指标实实体与详详细类别别实体之之间建立立联系,,使用户户对DW的使用更更轻松。。其主要特性性:访问并并过滤指指标实体体;是非非标准实实体(含含完整的的维体系系编码、、关键词词及相关关运算));引导导用户及及进行查查询分析析等等。。CH2详细类别别实体与现实世世界的某某一实体体(一个个客户/一个产品品/一个销售售点)对对应,为为用户提提供更为为详细的的分析数数据。其主要特特性为::含参考考数据及及有助于于完成指指标数据据职能的的支持信信息;与与事务结结构有映映射关系系;是标标准的数数据结构构;数据据量比指指标实体体少,比比维实体体多。CH2②反规规范化处处理业务处理理系统中中的数据据库设计计,是以以规范化数据模型型为目标标的,如如,RDBMS中的3NF等,规范范化数据据模型具具有存储储的高效效性和灵灵活性的的特点。。数据仓库库中,若仍仍采用规规范化数数据模型型的话,,就会存存在一系系列“小小”表,,在进行行大量的的数据处处理时,,会频繁繁地与这这些小表表进行动动态连接接,从而而产生大大量的I/O操作。CH2反规范化化处理,就是为为了减少少I/O次数而把把上述的的诸多““小”表表合并在在一起的的处理方方法。可见,反反规范范化处理理是以增增加数据据的冗余余为代价价来减少少I/O次数的——由于数据据仓库中中要进行行海量的的数据处处理,因因此,这这种以““空间换换时间””的尝试试,在数数据仓库库应用中中是值得得的,也也是易于于被用户户所接受受的。CH2③星形形模型仅从概念设计计的角度来来看,右右图给出出了一个个简单的的ER图,其中中的五个实体体相互间间是平等关系系。然而而,从管理决策策的角度看看,这五五个实体体绝对不不会是““平等关关系”,,例如,,决策者者真正关关心的是是“订单单”,其其他实体体(供应应商、产产品、客客户等))只是针针对“订订单”的的诸多说说明。CH2进而,实实际应用用中,会会有大量量数据载载入订单实体,其其他实体体只有少少量数据据载入——因此需要要一种有有别于传统ER图的数据模模型来描描述某个个实体需需载入大大量数据据的结构——星形模型型就是这样样的模型型之一。。CH2一个星形模型型包含一个个对应于于某个主主题的事实表和若干个个非正规规化描述述事实的的维表。星形模模型具有有以下特特性:事实实表的数数据描述述特定的的商务事事件,一一般可以添添加不许许修改;;维表表存放事事实表中中数据的的特征值值,利用用维关键字字通过事事实表的的外键约约束于事事实表的某一一行,因因此,事事实表的的外键不不许为空(一一般DB则可)——优点?;每个个维表通通过一个个主键与与事实表表链接;;通过过事实表表可以关关联各个个维表。。CH2④雪花花模型雪花模型型是对星星形模型型的扩展展——每个维表表均可向向外链接接多个详细类别别表,以对事事实表进进行详细细描述——减小了事事实表。。CH2注:雪花模型型中,维表被标标准化、、正规化化了——改善了查询的性性能;由于采用用了标准准化以及及低粒度度,所以以雪花模型型提高了了数据仓仓库应用用的灵活活性。CH2§3逻辑模型型逻辑模型型是三层层模型中中的中层层模型,,它是对对高层模模型(概概念模型型)的细细化,如如下图。。CH2①逻辑辑模型的的基本结结构逻辑模型型有四种种基本结结构:基基本数据据组、二二级数据据组、连连接数据据组和类类型数据据组。CH2基本数据据组其中存在在着唯一一的主要主题题域。基本数数据组在在每个主主题域中中只出现现一次,,包含属属性和键键码。二级数据据组基本数据据组中,,有一组组链接指向二级级数据组组,表示示主要主主题域所所具有的的属性,,有多少少个属性性就有多多少个二二级数据据组。CH2连接数据据组用于本组组主要主题题域与其他主主要主题题域间的的关联,,体现了了概念模模型中实实体间的的联系。一般,,它是一一个主题题的公共码主主键。类型数据据组用于指明明数据的的类型,,主要有有超类型型和子类类型两种种。除了连接接数据组组外,其其他三类类数据组组的数据据具有不不同的稳稳定性,,由高到到低依次次为基本本数据组组、二级级数据组组、类型型数据组组。CH2②逻辑辑模型实实例CH2可见:中层(逻逻辑)模模型向用户提提供了更更为详细细的设计计结果,,用户能能够借此此了解数数据仓库库可以给给他提供供一些什什么信息息;逻辑辑模型设设计中,,DW开发者关关心的是是DW结构的完完整性——数据仓库库中的所所有数据据元素都都应该包包含在逻逻辑模型型中——至于如何何获取数数据,在在此并不不感兴趣趣。CH2③事实实表模型型设计A.事实表的的设计确定了中中层模型型之后,,就要设设计事实实表模型型了。例例如,根根据上例例,可以以设计出出以下事事实模型型:客户户事实表表客户基本本情况表表(账号int9,姓名ch12,客户类型型ch20,初次交易易时间date8,,……))客户变动动情况表表(账号int9,住址ch50,文化程度度ch10,电话int11,邮政编码码ch6,………)CH2客户户交易事事实表商品交易易情况表表(账号int9,商品编号号ch10,交易量r10.2,,交易时间间date8,,……))服务交易易情况表表(账号int9,服务时间间date8,,服务编号号int10,服务费用用,……)客户反馈馈记录表表客户反馈馈记录表表(账号int9,反馈类型型ch5,反馈内容容memo,记录人ch8,………)客户信用用状况表表客户信用用状况表表(账号int9,最大信用用额r15.2,,最近信用用发生时时间date8,,……))CH2B.事实表中中的事实实特性事实实指标的的可加性;完全可加加性,半半可加性性,非可可加性派生事实实可加性的的派生事事实,不不可加性性的派生生事实总之,事事实表是是DW中的最大大表,要要尽可能能设计得得小(思思考:哪哪些方法法?),,同时还还要考虑虑数据的的精度和和粒度。。CH2④维模模型设计计维,是人人们观察察某个数数据集合合的特定定角度,,是以对对数据某某个共性性的提取取为前提提的。例例如,前前例中,,可设计计出客户户主题的的维表模模型如下下:时间维表表(年date,月date,日date);地点维表表(省ch20,市ch20,县ch20,街道ch20);;交易维表表(现金交易易ch20,信用交易易ch20)关于维的的讨论,,将在OLAP一章进行行。CH2§4物理模型型所谓物理模型型,就是中中层(逻逻辑)模模型(包包括事实实表和维维表)的的物理实实现。具具体包括括以下内内容:确定存储储结构((一般用用RAID);确定定索引类类型(位位图/广义索引引);物理理模型的的优化((表合并并,建立立数据序序列,引引入冗余余,表的的物理分分割,生生成衍生生数据等等)。RAID是“RedundantArrayofIndependentDisk”的缩写,,中文意意思是独独立冗余余磁盘阵阵列。CH2实际应用用中,DW设计者不不必直接设计物理理模型,,只需借借助于现现成的工工具(如如,某个个DBMS)设计即即可。此时,,需考虑虑的问题题有:全面了解解所选用用的DBMS,特别是是其存储结构构和存取方法法;了解数据据环境、、数据的的使用频频度、使使用方式式、数据据规模以以及响应应时间要要求等——平衡、优优化时间间和空间间效率的的重要依依据;了解外部部存储设设备的特特性,如如分块原原则,块块大小的的规定,,设备的的I/O特性等。。CH2§5元数据模模型DW中元数据据定义了了许多对对象——表、列、、查询、、商业规规则以及及DW内部的数数据转移移等。元数据是是DW的重要构构件,是是DW的指示图图。一般,元元数据的的来源有有:数据源的的元数据据;数据模型型的元数数据;数据源与与数据仓仓库映射射的元数数据;数据仓库库应用的的元数据据。CH2①元数数据的类类型与组组成元数据通通常分为为静态元元数据和和动态元元数据两两类,其其组成如如下表所所示:静态元数据名称描述格式数据类型关系生成时间来源索引类别域业务规则动态元数据入库时间更新周期数据质量统计信息状态处理存储位置存储大小引用处CH2②元数数据的作作用A.元数据的的重要性性导航(DW的使用));描述并记记录数据从业业务系统统的操作作型环境境到DW的转换,以便利利用其((灵活地地、可变变地)管管理数据据的转换换以及进进行数据回溯溯等。管理数据据,包括::粒度划划分、数数据分割割、索引引;不同同时期的的数据内内容及形形式;主主题的增增加及删删除——这些管理理工作均均需在元元数据中中有相应应的描述述。CH2B.元数据在在DW开发期间间的作用用DW的应用管理理,比如,,捕获数数据转化化、净化化、概括括、聚集集的规则则(商业业规则与与处理规规则)等等;向用用户提供大量的数据关系系;从历历史数据据抽取数据的规则;存储抽取、求求精、重重构过程程中数据据源到DW的映射关系系(以便确认数据据质量、实现同步化及及刷新、建立数据与商商业规则则间的映射关系系)。CH2C.元数据在在数据抽抽取中的的作用确定数据源——每个主题题源于哪哪些数据据源;跟踪历史数据据的数据据结构的的变化——保证各个个时期的的历史数数据可以以正确地地转换到到DW中;实现现属性到到属性的的映射——元数据的的属性信信息可以以保证多多个数据据源的相相同数据据映射到到一起;;属性性的转换。CH2D.元数据在在求精与与重构中中的作用用数据的分分割——以元数据据形式(下同))保存分分割方案案;数据据的概括括——保存概括括中的数数据关系系;预算算与推导导——保存预算算与推导导的算法法;转换换与再映映射——保存(从从关系模模型到星星形或雪雪花型模模型的))转换与与再映射射的方案案。CH2③元数数据的收收集A.数据源元元数据可以通过过程序自动扫描(数数据源物物理结构构以及表表结构))或手工方式获得得。一般般,手工工获得的的量较少少,可容容易地编编辑成文文档。B.数据模型型元数据据元数据库库中保存DW数据模型型;保存存企业数数据模型型及元数数据与DW数据模型型的映射关系系;把数数据源元元数据移入DW元数据库库。CH2从数据模模型收集元数据,,可借助助于CASE工具自动实现现,但重要要的数据据模型与与元数据据的对应应关系的的确认,,最好通通过手工方式完成成。C.数据源与与数据仓仓库映射射的元数数据该映射包包括抽取取、转换换、加载载等过程程。若手工完成,则则需以数数据库或或电子表表格方式式定义上上述映射射并存于于元数据据库中;;若由由DW开发工具具完成,则则,除了了把映射射存于元元数据库库之外,,还要提提供访问问该映射射的方式式与工具具。CH2D.数据仓库库应用的的元数据据——元数据模模型构造造中最后后、最困困难、最最重要的的内容。。其主要工作作是:确定定DW中各个使使用对象象被使用用的频率率——高频率者者,可建建立数据据集市或或增加概概括数据据;低频频率者,,可释放放相应的的概括、、聚集数数据,回回收它们们占据的的磁盘空空间。上述工作作一般通通过手工方式式完成。CH2§6粒度模型型所谓粒度,可定义义成DW记录数据据/对数据进进行综合合时使用用的时间间段参数数——该参数越越小,粒粒度级别别越低,,数据越越详细;;反之之,粒度度级别越越高,数数据也也越综合合(细节节损失得得也越多多)。根据粒度度的划分分标准,,可以以将数据据划分为为:详细数据据、轻度总结结、高度总结结三级或更更多级粒粒度。粒粒度的的具体划划分将直直接影响响到数据据仓库中中的数据据量以及及查询质质量。CH2①数据据粒度的的划分最低级别别的粒度可可定义成成数据仓仓库中数数据细节节的最低低层次,,如事务务层次。。这种数数据层次次是高度度细节化化的,能能使用户户按所需需的任何何层次进进行汇总总,但它它受外存存空间以以及响应应时间的的制约。。涉及到时时间和空空间,自自然与各各个表的的“体积积”以及及索引文文件的大大小密切切相关——所以划分分粒度的的最终依依据是表表的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论