决策支持系统第四讲数据挖掘概述OLAP课件_第1页
决策支持系统第四讲数据挖掘概述OLAP课件_第2页
决策支持系统第四讲数据挖掘概述OLAP课件_第3页
决策支持系统第四讲数据挖掘概述OLAP课件_第4页
决策支持系统第四讲数据挖掘概述OLAP课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲

决策支持的新技术第一节数据仓库技术

4.1.1数据仓库的基本知识

4.1.2数据仓库系统的结构

4.1.3数据仓库的运行结构4.1.4数据集市的结构第二节数据挖掘技术4.2.1数据挖掘概述4.2.2数据挖掘基本过程与步骤4.2.3数据挖掘的任务与挖掘方法4.2.4数据挖掘与数据仓库的关系4.1.1数据仓库的基本知识一.从数据库到数据仓库事务处理环境不适宜决策应用的主要原因:1.事务处理环境和分析处理的性能、特性不同2.数据集成问题3.数据动态集成问题4.历史数据问题5.数据的综合问题6.不同的使用对象4.1.1数据仓库的基本知识二.数据仓库的概念

1.W.H.Inmon是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持经营管理中的决策制定过程。面向主题集成稳定随时间变化

2.SAS软件研究所的观点DB数据DW数据细节的在存取时准确的可更新的操作需求事先可知道事务驱动面向应用一次操作数据量小支持日常操作综合或提炼的代保过去的数据不更新操作需求事先不知道分析驱动面向分析一次操作数据量大支持决策需求三.数据仓库的特点1.数据仓库是面向主题的。2.数据仓库是集成的。3.数据仓库是稳定的。4.数据仓库是随时间变化的。5.数据仓库中的数据量很大。6.数据仓库软硬件要求较高。四.数据库与数据仓库的区别1.数据库是面向业务的,使用者是企业的一般业务人员,进行企业日常数据处理和维护工作。2.数据仓库是面向决策的,使用者是企业的高层管理人员,它也是使用关系数据库,当数据仓库不负责处理业务。3.数据库注重的是企业运行的当前数据,任务是收集和记录企业的原始业务数据,而DW面对的是非即时性的历史数据,通过从业务数据中提取,加工处理后提供给决策人员。4.1.2数据仓库系统的结构关系数据库数据文件其他数据数据仓库管理工具抽取转换转载元数据库数据建模工具综合数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具二.数据仓库的结构构成

1.数据仓库的构成高度综合数据层轻度综合数据层当前基本数据层历史基本数据层二.数据仓库的结构构成

2.数据仓库的元数据(1)关于数据源的元数据数据源中所有的物理数据结构,包括所有的数据项和数据类型;所有数据项的业务定义;每个数据项更新频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其他系统中具有相同业务含义的数据项的清单。

2.数据仓库的元数据(2)关于数据模型的元数据I/O对象:支持数据仓库I/O操作的各种对象;关系:两个I/O对象之间的关联;关系成员:描述每个关系中两个I/O对象的具体角色、关系度以及约束条件;关系关键字:描述两个I/O对象如何建立关联。

2.数据仓库的元数据(4)关于数据仓库使用的元数据元数据告诉数据仓库中有什么数据,它们是从哪儿来的,即如何按主题查看数据仓库的内容;元数据提供已有的可重复利用的查询语言信息。

2.数据仓库的元数据(5)元数据的作用——DW的核心定位数据仓库的目录作用;数据从业务环境向数据仓库传送时数据的目录内容;指导从当前基本数据到轻度综合数据、轻度综合数据到高度综合数据的综合算法的选择。三.数据仓库的工具集

1.分析工具(1)查询工具(2)可视化工具

2.挖掘工具

2.建立DW的步骤收集和分析业务需求建立数据模型和数据仓库的物理设计(包括划分粒度和数据分割两部分内容)定义数据源选择DW技术和平台从操作型DB中提取、转换、净化并加载到DW中选择访问和报表工具选择DB连接软件选择数据分析和数据展示软件更新DW4.1.3数据仓库的运行结构DW服务器客服端客服端DW服务器OLAP服务器两层C/S结构:三层C/S结构:4.1.4数据集市的结构一.数据集市的概念数据集市是指具有特定应用的数据仓库,主要针对某个具体战略意义的应用或具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或找到进入新市场的具体解决方案。三.数据集市与数据仓库的关系

1.数据集市不等于数据仓库,多个数据集市合并起来不能成为数据仓库。各个数据集市之间对详细数据和历史数据的存储存在大量冗余;同一个问题在不同的数据集市的查询结果可能不一致,甚至相互矛盾;各数据集市之间以及与源数据库系统之间难以管理。

2.数据仓库与数据集市的区别(1)DW是基于整个企业的数据模型建立的,它面向企业范围内的主题,而数据集市是按照某一特定部门的数据模型建立的,也称为部门级别DW。(2)数据仓库中存储整个企业内的详细数据,而数据集市中的数据的详细程度要低一些,包含的概要和累加数据要多一些。(3)数据集市的数据组织一般采用星形模型,而大型数据仓库的数据组织采用第三范式。4.2.1数据挖掘概述一.案例——NBA通过数据挖掘取得飞跃二.数据挖掘的概念

DM也称为数据库中的知识发现(KDD),是从大量数据集中提取出隐含的、非平凡的、潜在有用的信息或模式的高级处理过程。数据挖掘是知识发现的核心步骤。

DM的技术基础是AI、机器学习和统计学。被提取的知识的类型可以是总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识可表示为概念、规则、规律、模式等形式;知识的类型。集成目标数据预处理数据模式数据知识源数据预处理数据挖掘评价与解释数据准备数据挖掘评价与解释数据选择三.数据挖掘的优点与缺点

1.优点(1)减少了用户的工作量。(2)使用户得到意外的信息。(3)对数据的迅速变化可作出快速响应,以提供决策支持信息。三.数据挖掘的优点与缺点

2.缺点(1)对计算机的性能要求高。(2)意外的信息不可靠。(3)即使发现一个潜在的可以利用的关系,其实际使用价值也可能不太明显。

4.2.2数据挖掘基本过程与步骤一.数据挖掘的基本过程

1.数据准备(1)数据集成:从操作型环境中提取并集成数据,解决语义二义性问题。(2)数据选择:确定发现任务的操作对象;(3)数据预处理:消除噪音、推导计算缺值数据、完成数据类型的转换,削减数据维数或降维。一.数据挖掘的基本过程

2.数据挖掘(1)确定数据挖掘的任务或目的;(2)根据不同的数据的特点,用户和实际运行系统的要求决定要使用的数据挖掘的算法;(3)实施数据挖掘,获取有用的模式。

一.数据挖掘的基本过程

3.数据表述与评价(1)将获取的信息以便于用户理解和观察的方式反映给用户;(2)用评价指标对获取的信息评价,发现不满足用户需求的模式,并返回到DM的前面阶段,重新实施DM。二.进行数据挖掘的步骤

1.问题定义

2.发现信息

3.制定计划

4.采取行动

5.检测结果4.2.3数据挖掘的任务与挖掘方法一.数据抽取:对数据进行浓缩,给出它的紧凑描述。

1.多维数据分析方法:是一种数据仓库技术,它把汇集操作结果预先计算并存贮起来,供DSS使用。

2.面向对象的归纳方法:对用户感兴趣的数据视图进行泛化,从较高层次上总结了在低层次上的原始关系。二.分类发现分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。三.聚类聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。四.关联规则发现用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据。事实上人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则,需要给定两个阀值:最小支持度和最小可信度。4.2.4数据挖掘与数据仓库的关系1.DM比DW的汇总型分析处理要详细和深入得多;2.DW的发展是促进DM发展的一个重要原因,DM经常被看成是DW的后期市场产品,DW中具有最丰富的资源可供挖掘;3.DW不是DM的必要条件,当DW可为DM的数据集成和数据准备提供一种好的方法;4.DM可能是DW的一个逻辑上的子集,而非一定得是物理上单独的数据库。用户查询请求信息发布、查询分类、解释查询协同管理业务系统及其他系统异构数据源DM技术模型库管理方法库管理KMDW数据导入、转移与质量保障工具其他信息分析工具KB知识共享平台4.3.1基本概念一.OLAP的概念

1.OLAP理事会:一种软件技术,它是分析人员能迅速、一致、交互地从各个方面(维)观察信息,以达到深入理解数据的目的。一.OLAP的概念

2.OLAP的简单定义:

是共享多维信息的快速分析。(1)快速性(2)可分析性(3)多维性——关键和核心属性(4)信息性二.OLAP的其他基本概念1.变量2.维:观察数据的特定角度。3.维的层次:从某个特定角度观察数据时的不同细节程度。4.维成员:维的取值。5.多维数组6.数据单元(单元格):多维数据的取值就是数据单元。三.OLAP与OLTP的关系与比较OLTPOLAP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次处理的数据量小一次处理数据量大对响应时间的要求高响应时间合理用户数量大用户相对较少面向操作人员,支持日常操作面向决策人员,支持管理需要面向应用,事物驱动面向分析,分析驱动4.3.2OLAP的数据组织一.ROLAP(RelationOLAP)基于关系数据库存贮方式建立;将多维数据映像成平面型的关系表中的行。代表:星型模式。将基本信息存贮在一个单独的“事实表”中,有关维的支持信息放在其他表中。特征:由一个很强的SQL生成器,对应目标DB,能对SQL进行优化,通过元数据指导查询,有区分客户、服务器及中间件的能力。二.MOLAP(Multi-dimensionOLAP)基于多维数据库存贮方式建立;多维数据库由许多经压缩的、类似于数组的对象构成;每个对象由聚集成组的单元块组成,每个单元块按类似于多维数组的结构存贮,通过直接偏移计算进行存取。三.两种组织方式的比较MOLAPROLAP固定维可变维维交叉计算DW的多维视图行级计算超大型数据库读、写应用维数据变化速度快数据集市DW4.3.3OLAP的多维分析方法一.切片1.在多维数组的某一维上,选定一维成员的方法;2.选定多维数组(维1、维2、…、维n,变量)中的两个维,如维i和维j,在这两个维上取某一区间或任意维成员,将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i,维j,变量)。

二.切块选定多维数组(维1、维2、…

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论