二章数据仓库原理_第1页
二章数据仓库原理_第2页
二章数据仓库原理_第3页
二章数据仓库原理_第4页
二章数据仓库原理_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据仓库原理本章学习目标:掌握数据仓库的定义,四个基本特征掌握数据集市的概念,与数据仓库区分掌握数据仓库中数据组织方式掌握数据处理过程EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET第2章数数据据仓库原原理2.1数数据仓仓库定义义2.2数数据集集市2.3数数据组组织结构构和形式式2.4数数据抽抽取E、、转换T和装载载L(ETL))EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.1数数据仓仓库定义义WilliamH..Inmon::数据仓仓库是一一个面向主题题的、集成的、非易失的的且随时间变变化的数据集合合,用于于支持管管理人员员的决策策。数据仓库库之父--BillInmonEvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET四个基本本特征数据仓库库的数据据是面向向主题的的数据仓库库的数据据是集成成的数据仓库库的数据据是非易易失的数据仓库库的数据据是随时时间不断断变化的的EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题主题(Subject):特特定的数数据分析析领域与与目标。。面向主题题:为特特定的数数据分析析领域提提供数据据支持。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题为特定数数据分析析领域提提供的数数据与传传统数据据库中的的数据是是有不同同的。传传统数据据库中的的数据是是原始的的、基础础的数据据,而特特定分析析领域数数据则是是需要对对它们作作必要的的抽取、、加工与与总结而而形成。。数据仓库库是面向向分析、、决策人人员的主主观要求求的,不不同的用用户有不不同的要要求,同同一个用用户的要要求也会会随时间间而经常常变化,,因此,,数据仓仓库中的的主题有有时会因因用户主主观要求求的变化化而变化化的。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题示例例:一个个面向事事务处理理的“商商场”数数据库系系统,其其数据模模式如下下采购子系系统:订单(订订单号,,供应商商号,总总金额,,日期))订单细则则(订单单号,商商品号,,类别,,单价,,数量))供应商((供应商商号,供供应商名名,地址址,电话话)销售子系系统:顾客(顾顾客号,,姓名,,性别,,年龄,,文化程程度,地地址,电电话)销售(员员工号,,顾客号号,商品品号,数数量,单单价,日日期)EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题示例库存管理理子系统统:领料单((领料单单号,领领料人,,商品号号,数量量,日期期)进料单((进料单单号,订订单号,,进料人人,收料料人,日日期)库存(商商品号,,库房号号,库存存量,日日期)库房(库库房号,,仓库管管理员,,地点,,库存商商品描述述)人事管理理子系统统:员工(员员工号,,姓名,,性别,,年龄,,文化程程度,部部门号))部门(部部门号,,部门名名称,部部门主管管,电话话)EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题示例上述数据据模式基基本上是是按照企企业内部部的业务务活动及及其需要要的相关关数据来来组织数数据的存存储的,,没有实实现真正正的数据据与应用用分离,,其抽象象程度也也不够高高。如果按照照面向主主题的方方式进行行数据组组织,首首先应该该抽取主主题,即即按照管管理人员员的分析析要求来来确定主主题,而而与每个个主题相相关的数数据又与与有关的的事务处处理所需需的数据据不尽相相同。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET主题一::商品商品固有有信息::商品号号,商品品名,类类别,颜颜色等商品采购购信息::商品号号,供应应商号,,供应价价,供应应日期,,供应量量等商品销售售信息::商品号号,顾客客号,售售价,销销售日期期,销售售量等商品库存存信息::商品号号,库房房号,库库存量,,日期等等EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET主题二::供应商供应商固固有信息息:供应应商号,,供应商商名,地地址,电电话等供应商品品信息::供应商商号,商商品号,,供应价价,供应应日期,,供应量量等EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET主题三::顾客顾客固有有信息::顾客号号,顾客客名,性性别,年年龄,文文化程度度,住址址,电话话等顾客购物物信息::顾客号号,商品品号,售售价,购购买日期期,购买买量等EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题在每个主主题中,,都包含含了有关关该主题题的所有有信息,,同时又又抛弃了了与分析析处理无无关或不不需要的的数据,,从而将将原本分分散在各各个子系系统中的的有关信信息集中中在一个个主题中中,形成成有关该该主题的的一个完完整一致致的描述述。面向向主题的的数据组组织方式式所强调调的就是是要形成成一个这这样一致致的信息息集合。。不同的主主题之间间也有重重叠的内内容,但但这种重重叠是逻逻辑上的的,而不不是物理理存储上上的重叠叠;是部部分细节节的重叠叠,而不不是完全全的重叠叠。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET面向主题题每个主题题所需数数据的物物理存储储:多维数据据库(MDDB—Multi-DimensionalDataBase)用用多维数数组形式式存储数数据。关系数据据库。用一组关关系来组组织数据据的存储储,同一一主题的的一组关关系都有有一个公共的关关键字,存放的的也不是是细节性性的业务务数据,,而是经经过一定定程度的的综合形形成的综综合性数数据。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET集成的数据是分分散的;;由于事事务处理理应用分分散、蜘蜘蛛网问问题、数数据不一一致问题题、外部部数据和和非结构构化数据据。数据仓库库中的数数据是为为分析服服务的,,而分析析需要多多种广泛泛的不同同数据源源以便进进行比较较、鉴别别,因此此数据仓仓库中的的数据必必须从多多个数据据源中获获取,这这些数据据源包括括多种类类型数据据库、文文件系统统以及Internet网上上数据等等,它们们通过数数据集成成而形成成数据仓仓库中的的数据。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET集成的集成的方方法:统一:消消除不一一致的现现象综合:对对原有数数据进行行综合和和计算需要考虑虑的问题题:数据格式式计量单位位数据代码码含义混混乱数据名称称混乱EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET非易失的的数据仓库库中的数数据是经经过抽取取而形成成的分析析型数据据,不具具有原始始性,主主要供企企业决策策分析之之用,执执行的主主要是‘‘查询’’操作,,一般情情况下不不执行‘‘更新’’操作。。同时,,一个稳稳定的数数据环境境也有利利于数据据分析操操作和决决策的制制订。但这也不不等于数数据仓库库中的数数据不需需要‘更更新’操操作。在需要进进行新的的分析决决策时,,可能需需要进行行新的数数据抽取取和‘更更新’操操作数据仓库库中的一一些过时时的数据据,也可可以通过过‘删除除’操作作丢弃掉掉。因此数据据仓库的的存储管管理相对对于DBMS来说要简简单得多多。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET随时间不不断变化化数据仓库库中的数数据必须须以一定定时间段段为单位位进行统统一更新新。不断增加加新的数数据内容容不断删去去旧的数数据内容容更新与时时间有关关的综合合数据EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.2数数据集集市(DataMart))建立数据据集市的的原因数据仓库库是一种种反映主主题的全全局性数数据组织织。但是是,全局性数数据仓库库往往太太大,在在实际应应用中将将它们按按部门或或个人分分别建立立反映各各个子主主题的局局部性数数据组织织,它们即是是数据集市市。因此,,有时我我们也称称它为部门数据据仓库。例:在有有关商品品销售的的数据仓仓库中可可以建立立多个不不同主题题的数据据集市::商品采购购数据集集市库房使用用数据集集市商品销售售数据集集市EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据集市市类型按照数据据获取来来源:独立型::直接从从操作型型环境获获取数据据。从属型::从企业业级数据据仓库获获取数据据。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET建设途径径从全局数据据仓库到数据集市市从数据集市市到全局数据据仓库EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据仓库库VS数据据集市数据仓库库与数据据集市的的关系类类似于传传统关系系数据库库系统中中的基表与视图的关系。。数据集市市的数据据来自数数据仓库库,它是是数据仓仓库中数数据的一一个部分分与局部部,是一一个数据据的再抽抽取与组组织的过过程。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.3数数据组组织结构构和形式式典型的数数据仓库库的数据据组织结结构高度综合合级轻度综合合级当前细节节级早期细节节级EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据粒度度粒度是指指数据仓仓库的数数据单位位中保存存数据的的细化或或综合程程度的级级别。粒度问题题是设计计数据仓仓库的一一个最重重要方面面。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET粒度的一一个例子子能回答,,但需要要一定量量的检索索不能回答答,缺少少细节信信息EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET粒度权衡衡EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据分割割数据分割割是指把把数据分分散到各各自的物物理单元元中去,,它们能能独立地地处理。。分割是数数据仓库库中数据据的第二二个主要要的设计计问题分割问题题的焦点点不是该不该分割而是是如何去分割的问问题。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据分割割例子处理集A处理集BEvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据分割割的本质质数据分割割的本质质之一就就是灵活活地访问问数据。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据分割割标准数据分割割的标准准是严格格地由开开发人员员来选择择的。时间。商业线。。地理位置置。组织单位位。所有上述述标准。。然而,按按日期几几乎总是是分割标标准中的的一个必必然组成成部分。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据组织织形式数据仓库库中有多多种数据据组织形形式:简单堆积积数据结结构轮转综合合数据结结构简单直接接文件连续文件件EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET简单堆积积数据结结构每日从数数据库中中提取并并加工数数据逐天天积累。。最简单最最常用的的数据组组织形式式EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET轮转综合合数据结结构简单逐日日堆积数数据的一一种变种种。数据用与与前面相相同的处处理方法法从操作作型环境境输入到到数据仓仓库环境境中,只只是在轮轮转综合合文件中中的数据据才被输输入到不不同的结结构形式式中。每日事物物处理每日综合合天周月年123456712345。。。。。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET简单堆积积VS轮转转综合轮转综合合数据结结构与数数据的简简单堆积积结构相相比,仅仅处理非非常少的的数据单单元。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET简单直接接文件数据仅仅仅是从操操作型环环境拖入入数据仓仓库环境境中,并并没有任任何累积积。是间隔一一定时间间的操作作型数据据的一个个快照。。不是在在每天的的基础上上组织的的,而是是以较长长时间为为单位的的,比如如一个星星期或一一个月。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET连续文件件通过两个个连续的的简单直直接文件件,可以以生成另另一个连连续文件件连续文件件也可以以通过把把一个快快照追加加到一个个以前生生成的连连续文件件上来创创建EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET连续文件件连续文件件也可以以通过把把一个快快照追加加到一个个以前生生成的连连续文件件上来创创建EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据存储储虚拟存储储方式基于关系系表的存存储方式式多维数据据库组织织EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET虚拟存储储方式没有专门门的数据据仓库数数据存储储,数据据仓库中中的数据据仍然在在源数据据库中。。只是根根据用户户的多维维需求及及形成的的多维视视图临时时在源数数据库中中找出所所需要的的数据,,完成多多维分析析。优点:组织方式式简单、、花费少少、使用用灵活;;缺点:只有当源源数据库库的数据据组织比比较规范范、没有有数据不不完备及及冗余,,同时又又比较接接近多维维数据模模型时,,虚拟数数据仓库库的多维维语义才才容易定定义。而在一般般的数据据库应用用中,这这很难做做到。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET基于关系系表的存存储方式式将数据仓仓库的数数据存储储在关系系数据库库的表结结构中,,在元数数据的管管理下完完成数据据仓库的的功能。。实体关系系(ER)模型一般般用于关关系型数数据库设设计,而而数据仓仓库采用用星型雪片型事实星座座EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET星型模式式数据仓库库中包含含(1)一一个大的的包含大大批数据据和不冗冗余的事事实表((中心表表);(2)一一组小的的附属表表,称为为维表。。每维一一个。事实表中中每条元元组都含含有指向向各个维维表的外外键和一一些相应应的测量量数据,,事实表表的记录录数量很很多,维维表中记记录的是是有关这这一维的的属性。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET星型模式式示例时间键产品键地区键sales(事实表)销售量销售价time时间键年季度月星期天产品键产品类产品名型号itemlocation地区键国家省市维表EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET雪花模式式雪花模型型对星型型模型的的维表进进一步层层次化原来的各各维表可可能被扩扩展为小小的事实实表,形形成一些些局部的的“层次次”区域域。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET雪花模式式示例time时间键年季度月星期天产品键产品类产品名型号item时间键产品键地区键sales(事实表)销售量销售价location地区键国家省键省键省名市键市键市名provincecityEvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET星型模式式VS雪花花模式雪花模式式的维表表可能是是规范化化的,以以便减少少冗余。。这种表表易于维维护,并并节省存存储空间间。实际上,,与巨大大的事实实表相比比,这种种空间的的节省可可以忽略略。由于执行行查询需需要更多多的连接接操作,,雪花结结构可能能降低浏浏览的性性能。在数据仓仓库设计计中,雪雪花模式式不如星星型模式式流行。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET事实星座座模式多个事实实共享相相同的维维表EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET事实星座座模式示示例time时间键年季度月星期天产品键产品类产品名型号item时间键产品键地区键sales(事实表))销售量销售价location地区键国家省市ship(事实表表)产品键时间键起运点终止点运价EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据仓库库的数据据追加时标法前后映像像文件方方法DELTA文件件日志文件件EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET时标法基本思想想:为记记录数据据增加一一个时间间标记。。如果数据据含有时时标,对对新插入入或更新新的数据据记录,,在其上上添加更更新时的的时标,,那么只只需根据据时标判判断即可可。但并非所所有数据据库中的的数据都都含有时时标。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET前后映像像文件方方法在抽取数数据前后后对数据据库各做做一次快快照,然然后比较较两幅快快照从而而确定新新数据。。它占用大大量资源源,对性性能影响响极大,,因此无无实际意意义。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NETDELTA文件件DELTA文件件视图从从能够感感知数据据变化的的应用程程序来生生成追加加文件利用DELTA文件效效率很高高,它避避免扫描描整个数数据库。。但因应用用系统常常由不同同的软件件开发商商开发,,生成DELTA文件件的应用用并不普普遍。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET日志文件件日志是DMBS的固有有机制系统日志志能把数数据库服服务器所所执行的的所有操操作详细细记录下下来,通通过分析析日志获获取数据据变化情情况。它还具有有DELTA文文件的优优越性质质,提取取数据只只要局限限日志文文件即可可,不用用扫描整整个数据据库。固有机制制,不影影响OLTP性性能。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.4数数据抽抽取、转转换和加加载数据仓库库需要将将这些源源数据经经过抽取取、转换换和装载载的过程程,存储储到数据据仓库的的数据模模型中。。ETL过过程抽取(Extraction)转换(Transform))装载(Load)EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.4..1数数据抽取取确认数据据源数据抽取取技术EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET确认数据据源列出对事事实表的的每一个个数据项项和事实实列出每一一个维度度属性对于每个个目标数数据项,,找出源源数据项项一个数据据元素有有多个来来源,选选择最好好的来源源确认一个个目标字字段的多多个源字字段,建建立合并并规则确认一个个目标字字段的多多个源字字段,建建立分离离规则确定默认认值检查缺失失值的源源数据EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据抽取取技术当前值::源系统中中存储的的数据都都代表了了当前时时刻的值值。当商商业交易易时,这这些数据据是会发发生变化化的。周期性的的状态::这类数据据存储的的是每次次发生变变化时的的状态。。例如,,对于每每一保险险索赔,,都经过过索赔开开始、确确认、评评估和解解决等步步骤,都都要考虑虑有时间间说明。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.4..2数数据转换换T数据转换换的基本本功能数据转换换类型数据整合合和合并并如何实施施转换EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据转换换的基本本功能选择:从源系统统中选择择整个记记录或者者部分记记录。分离/合合并:对源系统统中的数数据进行行分离操操作或者者合并操操作。转化:对源系统统进行标标准化和和可理解解化。汇总:将最低粒粒度数据据进行汇汇总。清晰:对单个字字段数据据进行重重新分配配和简化化。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据转换换类型(1)格格式修正正(2)字字段的解解码(3)计计算值和和导出值值(4)单单个字段段的分离离(5)信信息的合合并(6)特特征集合合转化(7)度度量单位位的转化化(8)关关键字重重新构造造(9)汇汇总(10))日期//时间转转化EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据整合合和合并并数据整合合和合并并是将相相关的源源数据组组合成一一致的数数据结构构,装入入数据仓仓库。实体识别别问题。。数据来源源于多个个不同的的客户系系统,对对相同客客户可能能分别有有不同的的键码,,将它们们组合成成一条单单独的记记录。多数据源源相同属属性不同同值的问问题。不同系统统中得到到的值存存在一些些差别,需要给给出合理理的值。。EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET如何实施施转换自己编写写程序实实现数据据转换使用转换换工具EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET2.4..3数据装载载L数据装载载方式数据装载载类型EvaluationWarning:ThedocumentwascreatedwithSpire.Presentationfor.NET数据装载载方式基本装载载。按照装载载的目标标表,将将转换过过的数据据输入到到目标表表中去。。追加。如果目标标表中已已经存在在数据,,追加过过程在保保存已有有数据的的基础上上增加输输入数据据。破坏性合合并。用新输入入数据更更新目标标记录数数据。建设性合合并。保留已有有的记录录,增加加输入的的记录,,并标记记为旧记记录的替替代。EvaluationWarning:ThedocumentwascreatedwithSpire.Pr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论