第2章 数据仓库的数据存储与处理_第1页
第2章 数据仓库的数据存储与处理_第2页
第2章 数据仓库的数据存储与处理_第3页
第2章 数据仓库的数据存储与处理_第4页
第2章 数据仓库的数据存储与处理_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘第2章数据仓库的数据存储与处理22.1数据仓库的三层数据结构2.2数据仓库的数据特征2.3数据仓库的数据ETL过程2.4多维数据模型主要内容32.1数据仓库的三层数据结构数据元数据源数据数据仓库中的数据数据集市中的数据4DataWarehouseExtractTransformLoadRefreshOLAP服务器AnalysisQueryReportsDataminingMonitor&IntegratorMetadata数据源前端工具ServeDataMartsOperational

DBsothersources数据仓库服务器OLAPServer操作型(元)数据数据仓库(元)数据数据集市(元)数据52.2数据仓库的数据特征2.2.1、状态数据与事件数据

描述对象的状态即为状态数据,描述对象发生的事件即为事件数据,两者关系为:状态数据

事件数据

状态数据例如:银行取款事件K

帐户A余额S1

银行取款事件K

帐户A余额S2上述数据(含状态数据和事件数据)均可以存储在数据库中。如:事件数据:日期帐户取款标示取款金额

2010.2.2043472150000状态数据:帐户日期存/取金额帐户余额

………

434722010.1.25存款7000193000(S1)434722010.2.20取款5000143000(S2)62.2.2、当前数据与周期数据商品名称2008-7-252008-7-25100200A品牌方便面B品牌衣服A001B002更新日期现有库存量商品名称商品编号2008-7-262008-7-262008-7-2685210300A品牌方便面B品牌衣服C品牌矿泉水A001B002C003更新日期现有库存量商品编号简化的库存表(当前数据类型)1天后简化的库存表(当前数据类型)

当前数据只保留当前的最新数据,现存的最新记录将改变以前记录中的内容;即历史数据将被破坏。如下表。7商品名称2008-7-252008-7-251550A品牌方便面B品牌衣服A001B002销售日期日销售量商品名称商品编号2008-7-252008-7-252008-7-262008-7-2615503025A品牌方便面B品牌衣服C品牌矿泉水A品牌方便面A001B002C003A001销售日期日销售量商品编号简化的销售日报表(周期数据类型)1天后简化简化的销售日报表(周期数据类型)

周期数据不仅保留当前的最新数据,而且保留历史数据。作为每条记录,都有一个日期时间戳表示其发生日期。如下表。82.2.3数据仓库中的元数据

元数据就是定义数据的数据,也就是说明数据仓库对象的数据.可以分成技术元数据与业务元数据。

数据仓库结构的描述。如仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容业务系统、数据仓库和数据集市的体系结构和模式汇总用的算法由操作环境到数据仓库的映射技术元数据9

操作元数据:包括数据血统(datalineage,即数据来源)、数据类别(currencyofdata),对象名,属性名等访问数据的原则和数据的来源商务元数据:商务术语和定义、数据拥有者信息系统所提供的分析方法和公式、报表等信息业务元数据从业务角度描述数据仓库的数据10表2-3元数据举例Table逻辑名学生姓名定义学校的主要成员,主要进行学习任务物理存储Student.table(数据库表)建立日期2006年9月13日最后更新日期2007年9月13日更新周期每月表逻辑程序名STUDENT(程序名称)11传统的异种数据库集成-查询驱动在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器;局部查询集成为全局回答。缺点:复杂的信息过滤和集成处理,竞争资源数据仓库-更新驱动将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析高性能2.3数据仓库的数据ETL过程12传统的异种数据库集成:数据仓库:更新驱动.......查询转换/集成子结果/子查询异种数据库.......查询查询数据归集异种数据库132.3数据仓库的数据ETL过程ETL概念数据ETL是用来实现异构数据源的数据集成,即完成数据的如下工作:抓取/抽取(Capture/Extract)清洗(Scrubordatacleansing)转换(Transform)装载与索引(LoadandIndex)等数据集成工作

14数据具有的特点:

详细的历史的规范化的2.3.1ETL的目标

ETL过程的目标:为决策支持应用提供一个单一的、权威的数据源。可以理解的即时的质量可控制的152.3.1ETL的目标

操作性数据的特点:

即时的,而非历史的规范程度不一,依赖于数据来源限制在特定的应用范围质量较差,例如不一致等162.3.2数据的ETL过程描述172.3.3数据抽取(Capture/Extract)定义:从源文件或者源数据库获取相关数据用于填充数据仓库,称为数据抽取。静态抽取增量抽取注意事项:数据命名的透明度业务规则的完整性与准确性数据数据格式:跨数据源的统一数据格式源文件或者源数据库数据仓库协调可以使用SELECTFROM......INTO......语句实现182.3.3数据清洗(Scrub/Cleaning)定义:使用模式识别和其他技术将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。1)空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值。为数据解码重新格式化、改变数据类型增加时间戳度量单位转换为表的每一行产生主码找到缺失数据…192.3.3数据清洗(Scrub/Cleaning)1)空缺值(续)引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载(不能恢复)空缺值要经过推断而补上20如何处理空缺值忽略元组:假定挖掘任务设计为分类或描述时,缺少类标号的元组通常被忽略。元组中属性缺少值比较多时,挖掘算法的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局常量填充空缺值:比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用Bayesian公式或判定树等基于推断的方法确定。212)噪声数据噪声:一个测量变量中的随机错误或偏差。引起不正确属性值的原因:数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致22处理噪声数据方法1、分箱(binning)先排序数据,并将他们分到等深(宽)的箱中然后对每箱使用平均值平滑、中值平滑和边界平滑等方法23数据平滑的分箱方法price的排序后数据:4,8,15,21,21,24,25,28,34划分为(等深的)箱箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱边界平滑箱1:4,4,15箱2:21,21,24箱3:25,25,34用箱平均值平滑箱1:9,9,9箱2:22,22,22箱3:29,29,29平均值平滑-箱中每个值被平均值替换中值平滑-箱中每个值被中值(排序后出现次数最多的值)替换边界平滑-最小最大值视为边界,箱中每个值被靠近的边界值替换24如何处理噪声数据(续)

2、聚类将联系松散的数据当作孤立点,监测并且去除孤立点。聚类集合之外的点即为孤立点。25如何处理噪声数据(续)

3、回归通过让数据适应回归函数来平滑数据(线性回归或多线性回归)。xy=x+1X1yY1Y1’26如何处理噪声数据(续)

4、计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断。272.3.4数据转换(Transform)定义:将数据从源操作型业务系统的格式转换到企业数据仓库的数据格式。两种类型的数据转换记录级-选择、连接、规范化和聚集字段级-单字段和多字段单字段转换的基本方法:算法和查找表注意:连接的复杂性。1)不是关系情形2)不同域情形3)源数据有错误情形282.3.4数据转换(Transform)1)数据集成数据集成:将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中。

○模式集成-实体识别问题匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no?○冗余问题

同一属性在不同的数据库中会有不同的字段名;一个属性可以由另外的属性导出,即两个属性是相关的。如:工资、基本工资、加班工资

29

Σ[(A-A平)(B-B平)]RA,B=

(n-1)σAσB如果RA,B〉0,则A和B是正相关的;该值越大,则A涵盖B的可能性越大。如果A,B相关性大,分析时就可以删除其中一个。相关分析:讨论两个属性的相关性。A平=ΣA/nσA=SQRT[Σ(A-A平)2/(n-1)]

其中A平、B平分别是A、B的平均值;σA、σB分别是A、B的标准差。30○检测并解决数据值的冲突不同的数据表示,不同的度量等等。例如:对现实世界中的同一实体,来自不同数据源的属性值可能是不同的(如价格的单位:元、千元)。1)数据集成(续)312)数据变换

平滑:去除数据中的噪声。如分箱、聚类、回归。聚集:对数据进行聚集和汇总,数据立方体的构建。数据概化:沿概念分层向上汇总。规范化:将数据按比例缩放,使之落入一个小的特定区间。最小-最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性,并添加到属性集中。32数据变换——规范化maxA,minA:属性A的最大与最小值new_maxA,new_minA:属性A变换后区间的最大与最小值※最小-最大规范化:对原始数据进行线性变换,使得数据落在new_maxA,new_minA区间内。

例:(一般映射到[0,1]区间)工资在700~12000之间,则工资7830规范化后为:

V’=(7830-700)/(12000-700)*(1-0)+0=0.743033数据变换——规范化※z-score规范化:基于属性A的平均值和标准差规范化。

※小数定标规范化:通过移动属性A的小数点位置进行规范化。其中j是使得max(|v‘|)<1的最小整数。343)数据归约数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间。数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果。数据归约策略:35(1)数据立方体聚集最底层的方体对应于基本方体基本方体对应于感兴趣的实体(基本事实表)在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体(基本方体,注意数据立方体的晶格结构)在可能的情况下,对于汇总数据的查询应当使用数据立方体(item)(city)(year)(city,item)(city,year)(item,year)(city,item,year)36(2)维归约通过删除不相干的属性(或维)减少数据量属性子集选择方法目标:找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布。好处:减少出现在发现模式上的属性的数目,使得模式更易于理解。启发式的(探索性的\贪心算法)方法逐步向前选择:从空集开始,逐步添加逐步向后删除:从整个属性集开始,逐步删除向前选择和向后删除相结合判定归纳树:如ID3和C4.5算法37(3)数据压缩有损压缩VS.无损压缩字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩,压缩精度可以递进选择有时可以在不解压整体数据的情况下,重构某个片断两种有损数据压缩方法:小波变换和主要成分分析382.数据索引:位图索引和连接索引2.3.6数据加载和索引(Load/Index)1.数据加载:将数据写入数据仓库或数据集市的过程。刷新方式:在定期间隔对目标数据进行批量重写-全部更新加载。更新方式:只将源数据中的数据改变写进数据仓库的方法,但不覆盖或删除以前的记录而是通过时间戳来区分-部分更新加载。SQL命令,例如:INSERT或UPDATE数据仓库供应商或第三方提供专门的加载工具由数据仓库管理员编写自定义程序3.手段传统索引:将给定列上的值映射到具有该值的行表上。连接索引:登记来自两个关系数据库的可连接行。例如:R(RID,A)和S(B,SID)在属性A和B上连接,其连接索引为(RID,SID)。连接索引举例:402.4多维数据模型导出数据的特征:1.详细数据和聚集数据并存。2.为特定用户和特定应用定制的数据,并为之提供快速响应。3.数据模型为星型模式。EDW、ODS选择、格式化、聚集数据集市调和数据导出数据导出数据层的存储方式:

1.存储在多维数据库中,即按照多维数组方式存储,对应MOLAP。2.存储在关系数据库中,采用星型模式及其变体,对应ROLAP。412.4.1多维数据模型及其相关概念

1、多维数据模型的相关概念维:是人们观察数据的特定角度,是考虑问题时的一类属性,此类属性的集合构成一个维度。(1)从时间角度观察产品的销售,则时间是一个维(时间维)。(2)从地理分布角度观察产品的销售,则地理分布是一个维(地理维)。维类别(维分层):同一维度可以存在细节程度不同的各个类别属性。例如:时间维包括年、月、日;地理维包括省、市、县。维属性:维的一个取值。度量:多维数据空间中的单元格,用于存放数据,也叫事实。粒度:是对数据仓库中数据的综合程度高低的一个衡量。分割:将数据分散到各自物理单元中以便能分别处理并提高数据处理效率。2.4多维数据模型422、数据仓库的概念模型星型模式(Starschema)

事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflakeschema)

星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中,模式图形成类似于雪花的形状。事实星座(Factconstellations)多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)

43星型模式实例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTable

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch44雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTable

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycitylocation维表包含属性集:{location_key,street,city,province_or_state,country}例如:Vancouver和Victoria都是加拿大不列颠哥伦比亚省的城市,此时location维表中这些城市实体的该属性有冗余。45事实星座模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_key

item_key

shipper_key

from_location

to_location

dollars_cost

units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper46数据综合级别早期细节级当前细节级轻度综合级高度综合级数据的粒度-衡量综合级别的指标数据粒度越小→信息越细节→数据粒度级别越低→数据量越大数据粒度越大→综合度越高→数据粒度级别越高→数据量越小3、数据综合级别与粒度确定粒度级别需要考虑的因素分析类型数据最低粒度存储数据量

47当前细节级轻度综合级高度综合级最近3个月(2001年1月-2001年3月)客户呼叫详细数据1995-2001年按月统计的客户呼叫信息1995-2001年按季度统计的客户呼叫信息1995-2001年按年统计的客户呼叫信息2001年1月以前的呼叫详细数据2001/3数据仓库中数据的状态最近3个月(2001年2月-2001年4月)客户呼叫详细数据1995-2001年按月统计的客户呼叫信息1995-2001年按季度统计的客户呼叫信息1995-2001年按年统计的客户呼叫信息2001年2月以前的呼叫详细数据2001/4数据仓库中数据的状态早期细节级482.4.2多维数据模型的实现

多维数据库(MDDB)

数据存储在大量的多维数组中,而不是关系表中,与之相对应的是多维联机分析处理(MOLAP)。

关系数据库

存储OLAP数据的另一种主要方式,与之对应的是关系联机分析处理(ROLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将数据的多维结构划分为两类表:事实表和维表。492.4.3多维建模技术简介

满足不同层次、用户的需求兼顾查询效率与数据粒度的需求支持用户需求的变化避免对业务运营系统的性能影响提供可扩展性

创建数据仓库数据模型考虑的因素:502.4.3多维建模技术简介

由Inmon提出的企业级数据仓库模型基于3NF,先建立企业级数据仓库,再在其上开发具体应用。优点:信息全面、系统灵活。Kimball提出的多维模型以分析主题为基本框架组织数据,基于事实表和维表,事实表的主码由维表的所有主码组成。

1、主流建模技术512.4.3多维建模技术简介

2、基于关系数据库的多维数据建模星型模式雪花模式事实星座模式521)星型模式由一个事实表和一系列维表组成

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTable

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch53雪花模式中维表是规范的time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesF

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论