数据仓库与数据挖掘第1~3章课件_第1页
数据仓库与数据挖掘第1~3章课件_第2页
数据仓库与数据挖掘第1~3章课件_第3页
数据仓库与数据挖掘第1~3章课件_第4页
数据仓库与数据挖掘第1~3章课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、复旦大学软 件 学 院2019年4月数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MINING)1复旦大学软 件 学 院2019年4月数据仓库与数据挖掘1主要内容数据仓库与数据挖掘概述 (2学时)数据仓库的数据模型与数据组织 (4学时)数据仓库的设计 (4学时)数据加载技术 (4学时)数据仓库系统的体系结构与实现技术 (4学时)数据挖掘中的常用方法 (4学时)关联规则挖掘 (6学时)分类和预测 (6学时)聚类分析 (4学时)时序数据和序列数据的挖掘 (4学时)Web数据挖掘 (4学时)数据挖掘的应用 (4学时)2主要内容数据仓库与数据挖掘概述 (2学时)2教学方式与考

2、核方式教学方式本课程以课堂教学为主,以电子教案的内容为主线课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。 考核方式及要求撰写课程论文一篇课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际应用。课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。获得优秀成绩的课程论文必须进行大组报告与交流。3教学方式与考核方式教学方式3教材与参考书电子教案W. H. Inmon , Building the Data Warehouse,王志海等译,机械工业出版社,2000.5,25.00元,228页San Anahory and

3、Dennis Murray , Data Warehousing in the Real World (原版书,国内未发行,434页)W. A. Giovinazzo, Object-Oriented Data Warehouse Design,潇湘工作室译,人民邮电出版社,2000.12,28.00元,193页Lou Agosta, The Essential Guide to Data Warehouse,潇湘工作室译,人民邮电出版社,2000.11,45.00元,322页T.Y.Lin and N.cercone, Rough Sets Data Mining (原版书,国内未发行,43

4、6页)康晓东等 基于数据仓库的数据挖掘技术,机械工业出版社,2019.01Tom Hammergren著,曹增强等译:数据仓库技术,中国水利水电出版社Lou Agosta,数据仓库技术指南,人民邮电出版社Jiawei Han,Micheline Kambr,DATA MINING CONCEPTS AND TECHNIQUES(影印版),高等教育出版社邵峰晶等,数据挖掘原理与算法,中国水利水电出版社,2019.08林杰斌等,数据挖掘与OLAP理论与实务,清华大学出版社,2019.01康博创作室:SQL SERVER 2000数据仓库设计和使用指南,清华大学出版社(美)C. Seidman:SQ

5、L SERVER 2000数据挖掘技术指南,机械工业出版社,2019.01因特网上有关参考资料和文献学术刊物上有关论文 4教材与参考书电子教案4第1章 数据仓库与数据挖掘概述本章要点数据仓库的发展数据仓库的基本概念数据挖掘的发展数据挖掘的基本概念数据仓库与数据挖掘的集成5第1章 数据仓库与数据挖掘概述本章要点5数据仓库的发展自从NCR公司为Wal Mart建立了第一个数据仓库。2019年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划

6、分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。6数据仓库的发展自从NCR公司为Wal Mart建立了第一个数数据仓库的发展IBM: 在其DB2UDB发布一年后的2019年9月发布5.2版,并于2019年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。Informix公司: 在其动态服

7、务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。7数据仓库的发展IBM: 在其DB2UDB发布一年后的2019数据仓库的发展微软公司: 在其SQL Server7.0以及SQL Server2000中集成了代号为Plato

8、的OLAP服务器。Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio 。PLATINUM: 提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。 ; Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。 8数据仓库的发展微软公司: 在其SQL Server7.0以及数据仓库的我国的发展现状:数据仓库的概念已经

9、被国内用户接受多年,但在应用方面的收效仍很有限。原因:尚不存在可靠的、完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等);由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。9数据仓库的我国的发展现状:数据仓库的概念已经被国内用户接受多数据仓库的我国的发展前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:由于银行商业化的

10、步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。10数据仓库的我国的发展前景:随着计算机技术的发展,尤其是分布式数据挖掘的发展数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们

11、积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的”现象。自80年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生。11数据挖掘的发展数据挖掘是与数据仓库密切相关的一个信息技术新数据挖掘的发展数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数

12、据库中知识发现”的主题;2019年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。 12数据挖掘的发展数据挖掘(Data Mining,简记为DM)从数据库到数据仓库数据库应用的规模和深度点 线 面 互联网 在线分析处理(OLAP) 在线事务处理 决策支持(DS) (OLTP) 数据挖掘(Data Mining)13从数据库到数据仓库数据库应用的规模和深度13事务型处理与分析型处理事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。事务型处理的应用程

13、序和数据是紧紧围绕着所管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。14事务型处理与分析型处理事务型处理:即操作型处理,是指对数据库分析型处理分析型处理:用于管理人员的决策分析,例如DSS、 EIS、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用的信息。分析型处理过程中经常用到外部数据,这部分数据不

14、是由事务型处理系统产生的,而是来自于其他外部数据源。15分析型处理分析型处理:用于管理人员的决策分析,例如DSS、 事务型处理数据和分析型处理数据的区别 事务型处理数据 分析型处理数据细节的 综合的,或提炼的在存取瞬间是准确的 代表过去的数据可更新 不可更新,只读的操作需求事先可知道 操作需求事先不知生命周期符合SDLC完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元一个时刻操作一个事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求16事务型处理数据和分析型处理数据的区别事务型处理数据 数据库系统的局限性数据库适于存储高度结构化的日常事务

15、细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。 决策分析型数据是多维性,分析内容复杂。 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。17数据库系统的局限性数据库适于存储高度结构化的日常事务细节数据数据库系统的局限性(续)当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 决策型分析数据的数据量大,这些数据有来

16、自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。18数据库系统的局限性(续)当事务型处理环境和分析型处理环境在同多库系统的限制(续)可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥;系统开销: 每次查询要启动多个局部系统, 通信和运行开销大。 19多库系统的限制(续)可用性:源站点或通信

17、网络故障将导致系统瘫数据仓库(Data Warehouse)的定义数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。20数据仓库(Data Warehouse)的定义数据仓库用来保数据仓库的适用范围信息源中的数据变化稳定或

18、可预测应用不需要最新的数据或允许有延迟 应用要求有较高的查询性能 而降低精度要求21数据仓库的适用范围信息源中的数据变化稳定21数据仓库中数据的特点 面向主题 集成性 稳定性 时变性22数据仓库中数据的特点 面向主题22面向主题主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应

19、用的分离。23面向主题主题:是一个抽象的概念,是在较高层次上将企业信息系统集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。 24集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其稳定性数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数

20、据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。25稳定性数据仓库中的数据反映的是一段时间内历史数据的内容,是不时变性时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并

21、且还需要按规定的时间段增加综合数据。26时变性时变性:许多商业分析要求对发展趋势做出预测,对发展趋势支持管理决策数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。27支持管理决策27数据仓库的技术要求大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安全

22、性和数据完整性。复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持:提供各种分析应用工具。28数据仓库的技术要求大量数据的组织和管理:包含了大量的历史数据数据挖掘的定义数据挖掘(Data Mining,简记为DM):是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程。模式

23、:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。 29数据挖掘的定义数据挖掘(Dat

24、a Mining,简记为DM)数据挖掘的类型数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘30数据挖掘的类型数据挖掘的任务是从大量的数据中发现模式。根据数预测模型预测模型(Predictive Modeling):所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析线性模型关联规则决策树预测遗传算法神经网络31预测模型预测模型(Predictive Modeling):关联分析关联(Association)分析:

25、关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。另外,对于大规模、分布在

26、不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。32关联分析关联(Association)分析:关联规则描述了一分类分析分类(Classification)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也

27、可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。分类分析的常用方法:约略(Rough)集决策树神经网络统计分析法33分类分析分类(Classification)分析:所谓分类是聚类分析聚类(Clustering)分析:所谓聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析

28、的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。聚类分析的常用方法:随机搜索聚类法特征聚类CF树34聚类分析聚类(Clustering)分析:所谓聚类是指一组彼序列分析序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。35序列分析序列(Seq

29、uence)分析:序列分析主要用于分析数偏差检测与模式相似性挖掘偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。36偏差检测与模式相似性挖掘偏差检测(Deviation DetWeb数据挖掘Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中

30、包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应

31、用的研究等。37Web数据挖掘Web数据挖掘:万维网是一个巨大的、分布广泛的第2章数据仓库的数据模型与数据组织本章要点数据仓库的数据模型概念模型逻辑模型物理模型数据仓库数据组织的基本概念粒度维度元数据数据分割数据仓库的数据组织数据仓库的数据组织方式数据仓库的数据存储组织38第2章数据仓库的数据模型与数据组织本章要点38数据仓库中的数据组织高度综合级轻度综合级当前综合级早期细节级多级数据39数据仓库中的数据组织高度综合级轻度综合级当前综合级早期细节级数据仓库的数据模型与数据库系统数据模型的区别数据仓库的数据模型中不包含纯操作型数据。数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。数

32、据仓库的数据模型中增加了一些面向主题的导出数据。40数据仓库的数据模型与数据库系统数据模型的区别数据仓库的数 星型图模型 物理数据模型概念模型逻辑模型物理模型面向用户的需求细 化层次更详细的技术细节数据仓库的数据模型信息包图41 概念模型逻辑模型物理模型面向用户的需求细 化层信息包图(概念模型)信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。工作:确定系统边界:决策类

33、型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息42信息包图(概念模型)信息包图:是数据仓库的数据模型的第一层或信息包图信息包: 维度类别空白信息包图样式指标和事实43信息包图信息包: 指标和事实信息包图例试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别

34、,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。 44信息包图例试画出销售分析的信息包图。44销售分析的信息包图日期销售地点销售产品年龄组别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实:预测销售量、

35、实际销售量、预测偏差信息包: 销售分析维度类别45销售分析的信息包图日期销售地点销售产品年龄组别性别年(10)星型图模型(逻辑模型)星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。星形图包括了三种逻辑实体:指标维度详细类别46星型图模型(逻辑模型)星型图:数据仓库的数据模型的第二层是向星型图模型(逻辑模型)例销售分析的星型图模型。时间维产品维地区维组别维其他维销售分析: 实际销售 预测销售 预测偏差47时间维产品维地区维组别维其他维销售分析:47物理数据模

36、型物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。48物理数据模型物理数据模型:数据模型的第三层,它是星型图模型在粒度第一种形式粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 粒度越小,综合程度越低,回答查询的种类越多;

37、 粒度越高,综合程度越高,查询的效率也越高。 在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。49粒度第一种形式粒度:对数据仓库中的数据综合程度高低的一个度粒度第二种形式:样本数据库样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高

38、分析效率,又有助于抓住主要因素和主要矛盾。50粒度第二种形式:样本数据库样本数据库:在分析过程中,有许多维度维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。例如:一个销售系统中的数据可分为时间维、产品维和地理位置维等;一个财务系统中的数据可分为时间维、支出维和收入维等;一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。 51维度维度:是一个物理特性(如时间、地点、产品等),它是表达数聚合在数据仓库技术中,每一维

39、可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。52聚合在数据仓库技术中,每一维可包括多个层次,这些层次反过来可分解与合成分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据

40、分解的过程。而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。53分解与合成53分割及其标准 分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描54分割及其标准 分割:将数据分散到各自的物理单元中去以便能分别数据分割的方法垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。水平分割:

41、水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。图解分割:经由多个分布系统把一个图分解成两部分。可以从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。这种类型的分割被用来把小的、静止的表从不稳定的、越变越大的表中分割出来。55数据分割的方法垂直分割:垂直分割就是把一个表垂直分成两部分。元数据元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。

42、56元数据元数据:是用来描述数据的数据。它描述和定位数据组件、它元数据的种类转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。DSS元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为DSS元数据,常用来开发更先进的决策支持工具。57元数据的种类转换元数据:为了从事务处理型环境向数据仓库中转换数据仓库中的元数据的内容与数据库的数据字典中相似的内容数据仓库的主题描述外部数据和非结构化数据的描述记录系统定义逻辑模型的定义数

43、据进入数据仓库的转换规则数据的提取历史粒度的定义数据分割的定义广义索引有关存储路径和结构的描述关于源数据的元数据:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。关于数据仓库映射的元数据。用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。关于系统安全的元数据。描述系统中用户、权限组及用户权限信息。与设计时采用的具体技术以及具体应用环境有关的内容。58数据仓库中的元数据的内容与数据库的数据字典中相似的内容58与传统数据库系统的数据字典中相似的内容。数据

44、仓库的主题描述。外部数据和非结构化数据的描述。记录系统定义。逻辑模型的定义。数据进入数据仓库的转换规则。数据的提取历史。粒度的定义。数据分割的定义。广义索引。有关存储路径和结构的描述。59与传统数据库系统的数据字典中相似的内容。59数据仓库的数据组织为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和

45、综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度综合级,老化的数据将进入早期细节级。 60数据仓库的数据组织为了提高分析和决策的效率和有效性,分析型处数据仓库的数据组织方式虚拟存储方式:数据仓库数据的虚拟存储方式是指在数据仓库中实际上并没有具体的数据存储,数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成多维分析。这种组织方式比较简单、花

46、费少、使用灵活,但同时它也存在一个致命的弱点:即只有当源数据库的组织比较规范、数据完备并没有冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义。而一般数据库的组织关系都比较复杂,数据库中的数据存在许多冗余和相互矛盾的地方,数据的净化、提取、集成需要花费大量的时间,在实际应用中这种方式难以建立起有效的、为决策服务的数据支持。61数据仓库的数据组织方式虚拟存储方式:数据仓库数据的虚拟存储方数据仓库的数据组织方式基于关系表的存储方式:基于关系表的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的管理下完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数

47、据的提取:首先要提供一种可视化的操作界面,使决策分析人员能对源数据库的内容进行选择,定义多维数据模型;然后再编制程序把数据库中的数据提取到数据仓库的数据库中。这种方式的主要问题是在多维数据模型定义好后,从数据库中提取数据往往需要编制独立、复杂的程序,因此,通用性较差,且很难维护。多维数据库存储方式:多维数据库的组织方式是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构文件进行存储,并有维索引及相应的元数据与其对应。62数据仓库的数据组织方式基于关系表的存储方式:基于关系表的存储数据仓库中文件的存储方式简单堆积文件:它将每天从数据库中

48、提取加工后的数据逐日积累的存储起来。按这种方式存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的效率较低。轮转综合文件:它将数据按不同的期限轮转地存储。 例如,可将每一天的数据记录在一个日记录集中,当到达一个星期后再将这七天的数据进行综合然后存储在一个周记录中,同时将原来日记录集中的数据清空开始对新一周的每一天的数据进行记录;同理,当到达一个月后,将周记录集中的数据进行综合然后存储在一个月记录中,而周记录中又开始新一个月的每一周的记录,以此类推。按这种形式存储的数据较按简单堆积文件形式存储的数据其数据量大大减少,但是它是以损失细节程度为代价的,时间越久的数据,细节程度越低。 63数

49、据仓库中文件的存储方式简单堆积文件:它将每天从数据库中提取数据仓库的数据组织形式简化直接文件:数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不过这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期、一个月)为单位的。因此,简单直接文件是按一定时间操作型数据库的一个快照,即按一定所时间间隔对数据库的采样。连续文件:它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件。例如:通过比较两个简单文件“1月份顾客表”和“2月份顾客表”生成一个连续文件“12月份顾客表”,然后再通过比较连续文件“12月份顾客表”和另一个

50、简单直接文件“3月份顾客表”生成一个相等连续文件“13月份顾客表”等。 64数据仓库的数据组织形式简化直接文件:数据是从操作型环境直接装第3章数据仓库的设计本章要点数据仓库设计与数据库设计的区别数据仓库的设计步骤高层设计技术准备工作中层设计低层设计数据仓库生成65第3章数据仓库的设计本章要点65数据仓库的设计数据仓库是企业体系化环境的核心,它是建立决策支持系统的基础。一个企业在实施其数据仓库战略时,数据仓库体系结构的选择是关系到数据仓库成功与否的关键问题。为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,而且数据仓库需要通过

51、不断地理解用户的分析需求,向用户提供更准确、更有用的决策信息,所以数据仓库对灵活性和扩展性有较高的要求,它的建立是一个动态、循环和反馈的过程。66数据仓库的设计数据仓库是企业体系化环境的核心,它是建立决策支 数据仓库的设计与数据库设计的区别系统设计的目标不同:数据库是面向事务型处理的,所以事务型处理性能是系统设计的一个主要目标。而数据仓库是为了支持决策分析而建立的一种数据存储集合,在系统设计时,更关心的是建立起一个全局一致的分析型处理环境来支持企业的决策分析。面向的需求不同:数据库系统是面向应用的,所以在系统设计时应以此为出发点和基础。而在决策分析时,决策者分析问题的角度多种多样,所以数据处理

52、流和信息流不固定,甚至决策者对所要进行的分析处理都不太明了,数据的分析处理的需求更灵活。这就决定了在数据仓库系统设计时,不可能从用户需求出发来进行设计。67 数据仓库的设计与数据库设计的区别系统设计的目标不同:数据数据仓库的设计与数据库设计的区别数据来源不同:数据库系统中数据是从企业外部通过输入得到的,所以系统设计时就是设计如何与外部对话得到数据,如何存储这些数据,它关心的是数据的安全性和完整性等。数据仓库中的数据大部分是从企业内部的数据库系统得到的,还有一部分是企业外部的非结构化数据,这些数据都是安全可靠且正确有效的,所以在系统设计时它关心的不是数据的安全性和完整性,而是数据的完整一致性。6

53、8数据仓库的设计与数据库设计的区别数据来源不同:数据库系统中数据仓库的设计与数据库设计的区别数据的处理类型不同:数据库系统支持的是事务型处理,主要指数据的增、删、改、查等等,系统 计时都是针对某一具体应用。数据仓库是面向分析的,它的数据处理大都是对数据的复杂查询,所以在设计时考虑的是如何更好的面向主题,如何提高查询的效率等。设计方法不同:由于在数据库系统中业务过程和规则比较规范固定,系统设计人员能清楚的知道应用需求和数据流程,所以系统设计一般采用系统生命周期法(Systems Development Life Cycle ,SDLC)。在决策分析时,决策人员往往无法给决策需求一个规范的说明,只

54、能给出一个模糊的描述,对这种需求不确定的开发过程,设计方法有很大的不同,采用与SDLC相反的CLDS法。69数据仓库的设计与数据库设计的区别数据的处理类型不同:数据 收集应用需求 分析应用需求 构建数据库 数据仓库建模 数据获取与集成 构建数据仓库 系统实施 应用编程 系统测试 DSS应用编程 系统测试 理解需求DB应用B应用ADBDB 外部数据DW SDLC方法 CLDS方法70 收集应用需求 分析应用需求 构建数据库 数据仓库建模 数据仓库设计的技术要求对大量数据的组织和管理。数据仓库中包含了大量的历史数据,它是一段较长时间内的数据。另外,数据仓库中的数据是从数据库中提取得来的,所以不必关

55、心它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的数据库系统的性能特别是并行处理能力提出了挑战。对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各种分析应用工具,一个庞大的数据仓库是毫无意义的

56、。这些工具的设计对于开发一个完整的数据仓库及其应用体系是致关重要的。71数据仓库设计的技术要求对大量数据的组织和管理。数据仓库中包含数据仓库的设计步骤高层设计技术准备工作中层设计低层设计数据仓库生成72数据仓库的设计步骤高层设计72高层设计(概念模型设计)高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图。创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。分析用户需求(确定系统边界):确定用户要做的决策类型确定用户决策时需要的信息确定原始信息决定数据仓库所需要的信息的级别,采用多级信息包图定义关键性能指标(确定主要的

57、主题域):主题域的公共键码主题域间的联系充分代表主题的属性73高层设计(概念模型设计)高层设计:主要考虑商业过程和商业需求高层设计(概念模型设计)定义维度:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路径。定义类别:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。74高层设计(概念模型设计)定义维度:每一个维代表一个统一的访问高层设计(概念模型设计)创建信息包

58、图:确定涉及的主题域,例如:时间、顾客、地位置和产品。设计可以跟踪的确定一个事件怎样被完成和运行的关键指标。决定在给定的用户分析或查询中实际包含了多少数据。确定用户如何按层次聚合数据和移动数据。决定数据层次。估计数据仓库的大小。确定一个数据仓库里数据的更新频率。定义如何访问数据。决定数据如何被传递给仓库的用户。75高层设计(概念模型设计)创建信息包图:75技术准备工作技术评估管理大数据量数据的能力;进行灵活数据存取的能力;根据数据模型重组数据的能力;透明的数据发送和接收能力;周期性成批装载数据的能力;可设定完成时间的作业管理能力。技术环境准备预期在数据仓库上分析处理的数据量有多大?如何减少或减

59、轻竞争性存取程序的冲突?数据仓库的数据量有多大?进出数据仓库的数据通信量有多大?确定软硬件的配备要求直接存取设备网络操作系统数据仓库管理软件与查询、分析工具76技术准备工作技术评估76中层设计(逻辑模型设计)中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包图转换成星形图模型。主要工作:定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的星和信息包。维度实体在指标实体中表示。定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型图模型转换为雪花图模型。设计成果:适当的粒度划分合理的数据分割策略适当的表划分定义适当的数据源77中层设计(逻辑模型设计)中层设计:建立数据仓库的逻辑模型,对低层设计(物理数据模型设计)低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。设计人员需要了解和考虑的问题:所选用的数据库系统,特别是存储结构和存取方法;数据环境、数据的使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论