数据仓库与数据挖掘课件_第1页
数据仓库与数据挖掘课件_第2页
数据仓库与数据挖掘课件_第3页
数据仓库与数据挖掘课件_第4页
数据仓库与数据挖掘课件_第5页
已阅读5页,还剩452页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据仓库与数据挖掘概述,第1章,1.1数据仓库的兴起1.2数据挖掘的兴起1.3数据仓库和数据挖掘的结合,1.1数据仓库的兴起,1.1.1从数据库到数据仓库1.1.2从OLTP到OLAP1.1.3数据字典与元数据1.1.4数据仓库的定义与特点,May28,2020,DataMining:ConceptsandTechniques,4,1.1.1从数据库到数据仓库,1960s:Datacollection,databasecreation,IMSandnetworkDBMS1970s:Relationaldatamodel,relationalDBMSimplementation1980s:RDBMS,advanceddatamodels(extended-relational,OO,deductive,etc.)Application-orientedDBMS(spatial,scientific,engineering,etc.),May28,2020,DataMining:ConceptsandTechniques,5,1.1.1从数据库到数据仓库,2000sStreamdatamanagementandminingDatamininganditsapplicationsWebtechnology(XML,dataintegration)andglobalinformationsystems,1.1.1从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,沃尔玛数据仓库系统,美国的沃尔玛(Wal*Mart)是世界最大的零售商。沃尔玛的创始人萨姆沃尔顿:“我总是喜欢尽快得到那些数据、我们越快得到那些信息、我们就能越快据此采取行动,这个系统已经成为我们的一个重要工具”。Wal*Mart上世纪80年代建立了基于NCRTeradata数据仓库的决策支持系统。88年数据是12GB。硬盘容量20MB89年升级为24GB。96年达到7.5TB97年为圣诞节市场预测,达到了24TB现在已经达到了170TB,沃尔玛数据仓库系统,美国的沃尔玛(Wal*Mart)是世界最大的零售商,Wal*Mart建立了基于NCRTeradata数据仓库的决策支持系统,它是世界上第二大的数据仓库系统,总容量达到170TB以上。强大的数据仓库系统将世界4000多家分店的每一笔业务数据汇总到一起,让决策者能够在很短的时间里获得准确和及时的信息,并做出正确和有效的经营决策。沃尔玛的创始人萨姆沃尔顿:“我总是喜欢尽快得到那些数据、我们越快得到那些信息、我们就能越快据此采取行动,这个系统已经成为我们的一个重要工具”。,利用数据仓库,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒!按常规思维,尿布与啤酒风马牛不相及,若不是借助于数据仓库系统,商家决不可能发现隐藏在背后的事实。沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒的销量双双增长。,沃尔玛数据仓库系统,每天要处理并更新2亿条记录,要对来自6000多个用户的48,000条查询语句进行处理。销售数据、库存数据每天夜间从4,000多个商店自动采集过来,并通过卫星线路传到总部的数据仓库里。利用数据仓库,进行决策支持分析,具体表现为:,沃尔玛数据仓库系统,存储数据的数据库和数据仓库,有什么不同?,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,2.数据仓库用于决策分析,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,3.数据库与数据仓库对比,1.1.2从OLTP到OLAP,1.联机事务处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事务处理(OLTP),联机事务处理(OnLineTransactionProcessing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。,1.联机事务处理(OLTP),OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。,2.联机分析处理(OLAP),决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。E.F.Codd在1993年提出了多维数据库和多维分析的概念,即联机分析处理(OnLineAnalyticalProcessing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。,2.联机分析处理(OLAP),OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,3.OLTP与OLAP的对比,1.1.3数据字典与元数据,1.数据库的数据字典2.数据仓库的元数据,1.数据库的数据字典,数据字典是数据库中各类数据描述的集合。(1)数据项(2)数据结构(3)数据流(4)数据存储(5)处理过程,2.数据仓库的元数据,在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。元数据(metadata)定义为描述数据及其环境的数据。两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1)关于数据源的元数据(2)关于抽取和转换的元数据(3)关于最终用户的元数据,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:,()描述哪些数据在数据仓库中;()定义要进入数据仓库中的数据和从数据仓库中产生的数据;()记录根据业务事件发生而随之进行的数据抽取工作时间安排;()记录并检测系统数据一致性的要求和执行情况;()衡量数据质量,1.1.4数据仓库的定义与特点,1.数据仓库定义(1)W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2.数据仓库特点,(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量很大大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统,1.2数据挖掘的兴起,1.2.1从机器学习到数据挖掘1.2.2数据挖掘含义1.2.3数据挖掘与OLAP的比较1.2.4数据挖掘与统计学,1.2.1从机器学习到数据挖掘,学习是人类具有的智能行为,主要在于获取知识。机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。机器学习是人工智能领域中的重要研究方向。20世纪60年代开始了机器学习的研究。,(1)1980年在美国召开了第一届国际机器学习研讨会;明确了机器学习是人工智能的重要研究方向(2)1989年8月于美国底特律市召开的第一届知识发现(KDD)国际学术会议;首次提出知识发现概念(3)1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;首次提出数据挖掘概念(4)我国于1987年召开了第一届全国机器学习研讨会。,1.2.2数据挖掘含义,知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人该知识覆盖了所有亚州人的记录。,1.2.3数据挖掘与OLAP的比较,1.OLAP的多维分析OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。2.数据挖掘数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。,1.2.4数据挖掘与统计学,统计学与国家政治有紧密的关系。支配着社会现象的法则和方法是概率论。通过对全部对象(总体)进行调查,为制定计划和决策提供依据。,统计学中应用于数据挖掘的内容,(1)常用统计(2)相关分析(3)回归分析(4)假设检验(5)聚类分析(6)判别分析(7)主成份分析,统计学与数据挖掘的比较,统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。,1.3数据仓库和数据挖掘的结合,1.3.1数据仓库和数据挖掘的区别与联系1.3.2基于数据仓库的决策支持系统1.3.3数据仓库与商业智能,1.3.1数据仓库和数据挖掘的区别与联系,1.数据仓库与数据挖掘的区别2.数据仓库与数据挖掘的关系3.数据仓库中数据存储特点4.数据仓库中数据挖掘特点,1.数据仓库与数据挖掘的区别,数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。,2.数据仓库与数据挖掘的关系,数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。,数据挖掘用于数据仓库实现决策支持:(1)预测客户购买倾向;(2)客户利润贡献度分析;(3)分析欺诈行为;(4)销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。,3.数据仓库中数据存储特点,由于数据仓库不同于数据库,数据挖掘也随之发生变化。(1)数据存储方式的不同(2)数据存储的数据量的不同(3)数据存储的结构不同,4.数据仓库中数据挖掘特点,(1)数据挖掘从数据仓库中挖掘更深层次的信息(2)数据仓库为数据挖掘提出了新要求数据挖掘需要可扩展性数据挖掘方法需要能挖掘多维知识,1.3.2基于数据仓库的决策支持系统,数据仓库的决策支持功能有:(1)对当前和历史数据完成查询和报表处理(2)可以用不同方法进行“如果,将怎样(what-if)”分析(3)从综合数据到细节数据,深入追踪钻取查询,寻找问题出现原因(4)认清过去的发展趋势,并将其应用于对未来结果的分析,数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。,1.3.3数据仓库与商业智能,1.商业智能的概念2.商业智能辅助制定更好更快的决策,1.商业智能的概念,商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。商业智能与新决策支持系统从组成和目标来看是一致的。但是,商业智能是一种技术,新决策支持系统是解决实际决策问题的一个系统。可以理解为:新决策支持系统是利用商业智能技术来解决实际决策问题的系统。,2.商业智能辅助制定更好更快的决策,(1)信息共享(2)实时反馈分析(3)鼓励用户找出问题的根本原因(4)使用主动智能(5)实时智能,52,第二章数据仓库原理,2.1数据仓库结构体系2.2数据仓库的数据模型2.3数据抽取、转换和装载2.4元数据,53,第二章数据仓库原理,2.1数据仓库结构体系,2.1.1数据仓库结构2.1.2数据集市及其结构2.1.3数据仓库系统结构2.1.4数据仓库运行结构,54,55,数据仓库与数据库的区别:面向主题与面向事务。,2.1.1数据仓库结构,56,数据仓库与数据库的区别:面向事务:围绕公司功能性应用进行组织。如:保险公司可能的应用有汽车保险,人寿保险,健康保险,财产保险等。,2.1.1数据仓库结构,57,数据仓库与数据库的区别:面向主题:公司面对的对象。如:保险公司可能的对象(主题域)是顾客,保险单,保险费,与索赔。生产商可能的对象(主题域)是:产品,销售商等;零售商可能的对象(主题域)是:顾客,商品,库存,销售,等;,2.1.1数据仓库结构,58,数据仓库与数据库的区别:集成性:数据仓库需要把原始数据集成。如性别:,2.1.1数据仓库结构,59,数据仓库与数据库的区别:集成性:数据仓库需要把原始数据集成。如销售额:,2.1.1数据仓库结构,60,数据仓库与数据库的区别:非易失:很少删除、修改。,2.1.1数据仓库结构,61,近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。,2.1.1数据仓库结构,数据综合,62,全国,区域,商店,省/市,城市,如:公司的销售额可以如下综合,1.数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。数据仓库需要大型计算机,或超级计算机服务器,或并行结构平台;数据集市windows普通服务器提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。,64,2.1.2数据集市及其结构,数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。DataMarts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。,65,2.数据集市概念,3.数据集市与数据仓库差别,(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。,66,1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库,67,4.数据集市的特性,独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart),68,2.1.2数据仓库系统结构,数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。,69,70,1、仓库管理,(1)数据建模数据建模是建立数据仓库的数据模型。数据模型包括数据结构和数据操作。数据结构的任务是确定:数据类型、内容、数据间的关系,描述的是数据的静态特征。数据操作的任务是确定对数据仓库中数据所允许的操作。如检索、计算等,71,1、仓库管理,(1)数据建模数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。结果是产生了冗余!,(2)数据抽取、转换、装载,数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。数据抽取Extraction、转换Transformation、装载loading(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。,72,(1)查询工具数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。,73,2、分析工具,(2)多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。,74,2、分析工具,(3)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(DataMining)工具。,75,2、分析工具,76,2.1.4数据仓库的运行结构,数据仓库应用是一个典型的客户/服务器(C/S)结构形式:客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。,77,OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。,OLAP的三层C/S结构,78,对一个零售企业,它关心哪些主题?关心经营时,销售额(金额或数量)关心客户数量时,顾客与经营额有关的实体有:商品,地域,销售时间,销售额,2.2数据仓库的数据模型,79,数据仓库存储采用多维数据模型。数据一般是数值,2.2数据仓库的数据模型,果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1234567,城市维,日期维,维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的地区组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。,80,2.2数据仓库的数据模型,大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。包含大批数据的中心表。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。,81,2.2.1星型模型,大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。包含大批数据的但没有冗余的中心表。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。,82,2.2.1星型模型,星型模型:一个中心表,一组维表,每维一个表,每个表包含一组属性。星型模型数据如下图:,83,2.2.1星型模型,84,星型模型数据存储情况示意图,86,2.2.2雪花模型雪花模型对星型模型的维表进一步层次化,原来的各维表为了减少冗余,进一步分解,形成一些局部的“层次”区域。在上面星型模型的数据中,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。,87,88,2.2.3星网模型星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。,地区键,事务键,用户键,时间键,状态键,时间键用户键事务键地区键电话费用,时间键用户键状态键电话余额,电话公司星网模型实例,2.2.4第三范式,范式实际上是传统的关系数据库的设计理论。数据仓库可以按第三范式进行逻辑数据建模。它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,按第三范式组织数据。它减少了维表中的键和不必要的属性。著名的NCR数据仓库公司采用了第三范式的逻辑数据模型。,90,星型模型在进行多维数据分析时,速度是很快的。但是增加维度将是很困难的事情。第三范式对于海量数据(如TB级),且需要处理大量的动态业务分析时,就显示了它的优势。,91,2.3数据抽取、转换和装载,数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。,92,231数据抽取,(1)确认数据源(2)数据抽取技术,93,1.确认数据源,列出对事实表的每一个数据项和事实列出每一个维度属性对于每个目标数据项,找出源数据项一个数据元素有多个来源,选择最好的来源确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立分离规则确定默认值检查缺失值的源数据,94,2.数据抽取技术,当前值。源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。周期性的状态。这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。,95,232数据转换,1.数据转换的基本功能2.数据转换类型3.数据整合和合并4.如何实施转换,96,1.数据转换的基本功能,选择:从源系统中选择整个记录或者部分记录。分离/合并:对源系统中的数据进行分离操作或者合并操作。转化:对源系统进行标准化和可理解化。汇总:将最低粒度数据进行汇总。清晰:对单个字段数据进行重新分配和简化。,97,2.数据转换类型,(1)格式修正(2)字段的解码(3)计算值和导出值(4)单个字段的分离(5)信息的合并(6)特征集合转化(7)度量单位的转化(8)关键字重新构造(9)汇总(10)日期/时间转化,98,3.数据整合和合并,数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。(1)实体识别问题数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。(2)多数据源相同属性不同值的问题不同系统中得到的值存在一些差别,需要给出合理的值。,99,4.如何实施转换,自己编写程序实现数据转换使用转换工具,100,233数据装载,(1)数据装载方式(2)数据装载类型,101,1.数据装载方式,基本装载按照装载的目标表,将转换过的数据输入到目标表中去。追加如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。破坏性合并用新输入数据更新目标记录数据。建设性合并保留已有的记录,增加输入的记录,并标记为旧记录的替代。,102,2.数据装载类型,最初装载这是第一次对整个数据仓库进行装载。增量装载由于源系统的变化,数据仓库需要装载变化的数据。完全刷新这种类型的数据装载用于周期性重写数据仓库。,103,2.3.4ETL工具,数据转换引擎代码生成器通过复制捕获数据,104,24元数据,241元数据的重要性242关于数据源的元数据243关于数据模型的元数据244关于数据仓库映射的元数据245关于数据仓库使用的元数据,105,241元数据的重要性,最基本的元数据相当于数据库系统中的数据字典。元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。,106,107,这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率,以及由谁或那个过程更新的说明。(4)每个数据项的有效值。,2.4.2关于数据源的元数据,108,这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。这种的元数据可以支持用户从数据仓库中获取数据。,2.4.3关于数据模型的元数据,例如,雇员与技能之间的关系如图2.13表示。,109,110,元数据描述如下:,111,这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。,2.4.4关于数据仓库映射的元数据,1抽取工作之间的复杂关系,一个数据的抽取要经过许多步骤。如图所示:,112,2源数据与目标数据之间的映射,(1)抽取工作(2)抽取工作步骤(3)抽取表映射(4)抽取属性映射(5)记录筛选规则,113,114,这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。,2.4.5关于数据仓库使用的元数据,第三章联机分析处理OLAP,第3章联机分析处理OLAP,3.1OLAP概念3.2OLAP的数据模型3.3多维数据的显示3.4多维数据分析3.5OLAP的结构与分析工具,联机分析处理(OnLineAnalyticalProcessing,OLAP)在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,3.1OLAP概念,OLAP是在OLTP的基础上发展起来的。OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理,属于日常业务系统。OLAP是以数据仓库为基础的数据分析处理,面向管理者的决策支持系统。它有两个特点:一是在线性(OnLine),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。,3.1.1OLAP定义,1.OLAP理事会给出的定义联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。,2.OLAP的简单定义,联机分析处理OLAP是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。,1993年,E.F.Codd提出OLAP的12条准则,其主要的准则有:多维数据分析;客户/服务器结构;多用户支持;一致的报表性能等。,3.1.2OLAP准则,1.多维概念视图,企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。,果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1234567,城市维,日期维,1.多维概念视图,用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。,果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1234567,城市维,日期维,4.一致稳定的报表性能,报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。,5客户/服务器体系结构,OLAP是建立在C/S体系结构上的。多维数据库服务器能够被不同的应用和工具所访问。客户端负责应用逻辑及用户界面。,8多用户支持能力当多个用户要在同一分析模式上并行工作,OLAP工具应能够提供并发访问等功能。11灵活的报表生成报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。,OLAP是针对特定问题的联机数据访问和分析。(1)变量:变量是数据的实际意义,即描述数据“是什么”。如“人数”、“单价”、“销售量”等。(2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维、地区维等。(3)维的层次:维的层次是指观察数据的不同细节程度。如日、月、季、年是时间维的层次。(4)维成员:是指维的一个取值。如“某年某月某日”是时间维的一个成员。,3.1.3OLAP的基本概念,(5)多维数组:一个多维数组可以表示为:(维1,维2,维n,变量)一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。(6)数据单元(单元格):多维数组的取值称为数据单元。如:4维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)。,OLAP的基本概念(续),OLAP的基本概念(续),果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1234567,城市维,日期维,103015458109,3.2OLAP的数据模型,3.2.1MOLAP数据模型3.2.2ROLAP数据模型3.2.3MOLAP与ROLAP的比较3.2.4HOLAP数据模型,3.2.1MOLAP的数据模型,MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。例如,二维MDDB(数组,即矩阵)的数据组织见表3.1所示。,表3.1MDDB(二维)数据组织,MDDB(多维)数据组织,3.2.2ROLAP数据模型,ROLAP是基于关系数据库的OLAP。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型。,表3.3关系数据库RDBMS数据组织,3.2.3MOLAP与ROLAP的比较,1.数据存取速度2.数据存储的容量3.多维计算的能力4.维度变化的适应性5.数据变化的适应性6.软硬件平台的适应性7.元数据管理,1.数据存取速度,ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP的响应时间较长。MOLAP在数据存储速度上性能好,响应速度快。,2.数据存储的容量,ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。MOLAP通常采用多平面叠加成立体的方式存放数据。当数据量超过操作系统最大文件长度时,需要进行数据分割。多维数据库的数据量级难以达到太大的字节级。,3.多维计算的能力,MOLAP能够支持高性能的决策支持计算。ROLAP无法完成多行的计算和维之间的计算。,4.维度变化的适应性,MOLAP增加新的维度,则多维数据库通常需要重新建立。(建立多维数据库前确定各个纬度及其层次)ROLAP对于维表的变更有很好的适应性。(维度仅仅和表相连),5.数据变化的适应性,当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。(看表3.2)在ROLAP中灵活性较好,对于数据变化的适应性高。,6.软硬件平台的适应性ROLAP对软硬件平台的适应性很好,而MOLAP相对较差。7.元数据管理目前在元数据的管理,MOLAP和ROLAP都没有成形的标准。,MOLAP和ROLAP的对比简表,3.2.4HOLAP数据模型,HOLAP(HybridOLAP),即混和OLAP介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。在HOLAP的多维数据表中的数据维度少于MOLAP中的维度表,数据存储容量也少于MOLAP方式。HOLAP在数据存取速度上又低于MOLAP。,3.3多维数据的显示,3.3.1多维数据显示方法332多维类型结构(MTS)333多维数据的分析视图,3.3.1多维数据显示方法,多维数据的显示只能在平面上展现出来。三维数据无法在平面上展现出来。三维数据显示见表3.6所示。,332多维类型结构(MTS),表示方法是:每一个维度用一条线段来表示。维度中的每一个成员都用线段上的一个单位区间来表示。例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构如图3.3所示。,图3.3三维MTS例,在图3.3多维类型结构(MTS)中,指定时间维成员是3月,产品维成员是鞋,指标维成员是销售量,这样它代表了三维数据总得一个空间数据点,如图3.4所示。,图3.4多维类型结构中的空间数据点,333多维数据的分析视图,在平面的屏幕上显示多维数据,是利用行、列和页面三个显示组来表示的。例如,对上例的四维MTS实例,在页面上选定商店维度中“商店3”,在行中选定时间维的“1月、2月、3月”共3个成员,在列中选定产品维中的“上衣、裤、帽子”三个成员,以及指标维中的“固定成本、直接销售”二个成员。该四维数据的显示如图3.6所示。,图3.6四维数据的显示,对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。在页面上可以选定多个维度,但每个维度只能显示一个成员。在行或者列中一般只选择二个维,每个维可以多个成员。例如,对6个维度数据,它的MTS如图3.7所示。,图3.7六维维MTS例,对以上6维数据中,设定页面维度为商店的成员是“商店3”,客户维度成员是“老年”。行维度含时间维和产品维共2个维度,其中时间维中成员为“1月、2月、3月”。产品维中成员为“桌子、台灯”。列维度含指标维和场景维共2个维度,其中指标维中成员为“直接销售、间接销售、总销售”。场景维中成员为“实际、计划”。具体的显示数据如图3.8所示。,图3.8六维数据的显示,34OALP的多维数据分析,341多维数据分析的基本操作342广义OLAP功能343多维数据分析实例,例如,以“产品、城市、时间”三维数据,如图,3.4.1多维数据分析的基本操作,1.切片对三维数据,通过“切片”,分别从城市和产品等不同的角度观察销售情况:,2.切块,(1)在多维数组的某一个维上选定某一区间的维成员的操作切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。(2)选定多维数组的一个三维子集的操作在多维数组(维1,维2,维n,变量)中选定3个维,维i、维j、维k,在这3个维上分别取一个区间,或任意维成员,而其它维都取定一个维成员。,图3.11三维数据切块,3.钻取,钻取有向下钻取(drilldown)和向上钻取(drillup)操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上钻取获取概括性的数据。,钻取:例如,2005年各部门销售收入表如下:,对时间维进行下钻操作,获得新表如下:,4.旋转,通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个),旋转,旋转前的数据,实例,旋转后的数据,旋转后再切片,3.4.2广义OLAP功能,1、基本代理操作当系统处于某种特殊状态时“代理”提醒分析员。(1)示警报告定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。(2)时间报告按日历和时钟提醒分析员。(3)异常报告当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。,2数据分析模型,(1)绝对模型通过比较历史数据值或行为来描述过去发生的事实。绝对模型只能对历史数据进行比较,并且利用回归分析等一些分析方法得出趋势信息。能回答“某种商品今年的销售情况与往年相比有怎样的变化?今后的趋势怎样”,(2)解释模型,利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。假设今年销售量下降,那么解释模型应当能找出原因,即下滑与时间、地区、商品及销售渠道四者中的何种因素有关。,(3)思考模型,说明在一维或多维上引入一组具体变量或参数后将会发生什么。例如该公司决策者为了了解某商品的销售量是否与顾客的年龄有关,引入了行变量年龄,即在当前的多维视图上增加了顾客的年龄维。,(4)公式模型,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。公式模型自动完成上述变量引入工作,从而最终找出与销量有关的全部因素,并给出了引入后的结果。,3.商业分析模型,(1)分销渠道的分析模型(2)客户利润贡献度模型(3)客户关系(信用)优化模型(4)风险评估模型,(1)分销渠道的分析模型,通过客户、渠道、产品或服务三者之间的关系,了解客户的购买行为、客户和渠道对业务收入的贡献、哪些客户比较喜好由什么渠道在何时和银行打交道。为此,银行需要建立客户购买倾向模型和渠道喜好模型等。,(2)客户利润贡献度模型,通过该模型能了解每一位客户对银行的总利润贡献度。知道哪些利润高的客户需要留住,采用什么方法留住客户,交叉销售改善客户的利润贡献度,哪些客户应该争取,完成个性化服务。,(3)客户关系(信用)优化模型,银行对客户的每一笔交易中,知道客户需要什么产品或服务,例如,定期存款是希望退休养老使用,申请信用卡需要现金消费,询问放贷利息需要住房贷款等。通过模型计算,主动地对客户沟通并进行交叉销售,达到留住客户和增加利润的目标。,(4)风险评估模型,模拟风险和利润间的关系,建立风险评估的数学模型,在满足高利润、低风险客户需求的前提下,达到银行收益的极大化。,假设有一个5维数据模型,5个维分别为:商店,方案,部门,时间,销售。1多维数据存储在指定“商店=ALL,方案=现有”情况的三维表(行为部门,列为时间和销售量),3.4.3多维数据分析实例,指定商店、方案后的三维表,2、向下钻取对汽车部门向下钻取出具体项目的销售情况和利润增长情况。,3、切片表切片(Slice)操作是除去一些列或行不显示,4、旋转表这次旋转操作得到2005年的交叉表方案为:现有、计划、差量、差量%。,35OLAP结构与分析工具,351OLAP结构352OLAP的Web结构,351OLAP结构,1OLAP逻辑结构,2OLAP物理结构,图3.14OLAP的C/S物理结构图3.15OLAP的三层C/S物理结构,3.5.2OLAP的Web结构,3.5.3OLAP工具及评价,目前许多公司已经推出了相应的OLAP支持工具,如ORACLE、IBM、BusinessObject、SAS、NCR、Microsoft等。OLAP服务器和工具可以按以下五个方面来进行评价:特征和功能、访问性能、OLAP服务引擎、管理以及全局结构视图。用户可以从这五个方面分析市场上的OLAP产品,也可以把它们作为应用系统中OLAP需求分析指标。,OLAP服务器和工具应能完成以下功能:,支持多维和维中的层次;聚集、概括、预计算和导出数据;提供计算逻辑、公式和分析过程;提供比较分析能力;进行跨维计算;沿单个或多个维的轴以及交叉表等来进行细剖和浏览。,第4章数据仓库的设计与开发(一),4.1数据仓库分析与设计4.2数据仓库开发4.3数据仓库技术与开发的困难,4.1数据仓库分析与设计,4.1.1需求分析4.1.2概念模型设计4.1.3逻辑模型设计4.1.4物理模型设计4.1.5数据仓库的索引技术,4.1.1需求分析,1.确定主题域2.支持决策的数据来源3.数据仓库的成功标准和关键性能指标4.数据量与更新频率,1.确定主题域,(1)明确对于决策分析最有价值的主题领域有哪些?如一个商业企业确定客户和商品为主题。而商品对商场更为重要。(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?,2.支持决策的数据来源,(1)哪些源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?,3.数据仓库的成功标准和关键性能指标,(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?,4.数据量与更新频率,(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?,通过需求分析,需要的数据包括:,1.数据源(1)可用的数据源(2)数据源的数据结构(3)数据源的位置(4)数据源的计算机环境(5)数据抽取过程(6)可用的历史数据,2.数据转换数据仓库中的数据是为决策分析服务,而源系统的数据为业务处理服务。需要决定如何正确地将这些源数据转换成适合数据仓库存储的数据。,3.数据存储数据仓库所需要的数据的详细程度,包括足够的关于存储需求的信息,估计数据仓库需要多少历史和存档数据。,4.决策分析(1)向下层钻取分析(2)向上层钻取分析(3)横向钻取分析(4)切片分析(5)特别查询报表,4.1.2概念模型设计,把用户需求抽象为信息结构,就是概念模型。概念模型常用的表示方法是实体-关系法,即E-R图,4.1.2概念模型设计,概念模型的特点是:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论