数据仓库与数据挖掘概述.ppt_第1页
数据仓库与数据挖掘概述.ppt_第2页
数据仓库与数据挖掘概述.ppt_第3页
数据仓库与数据挖掘概述.ppt_第4页
数据仓库与数据挖掘概述.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学控制与计算机学院 数据仓库与数据挖掘 DATAWAREHOUSINGANDDATAMINING 参考书 1 数据仓库与数据挖掘 作者 陈志泊主编 清华大学出版社2 数据挖掘概念与技术 JiaweiHanMichelineKamber著范明等译 机械工业出版社 数据处理技术的发展数据库与数据库技术数据仓库的发展联机分析处理技术 OLAP 数据挖掘技术数据仓库的定义数据仓库的体系结构从传统数据库到数据仓库数据仓库的基本特性联机分析处理技术 OLAP 数据挖掘技术数据挖掘的定义数据挖掘的过程数据挖掘的类型数据挖掘应用 第1章数据仓库与数据挖掘概述 第1章数据仓库与数据挖掘概述 数据爆炸问题随着信息技术的不断推广和应用 许多企业都已经在使用管理信息系统处理管理事务和日常业务 这些管理信息系统为企业积累了大量的信息 从数据中获得知识企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持 因此 产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要 解决方法 数据仓库技术和数据挖掘技术数据仓库 DataWarehouse 和在线分析处理 OLAP 数据挖掘 在大量的数据中挖掘感兴趣的知识 规则 规律 模式 约束 数据处理技术的发展 1960s和以前 文件系统1970s 层次数据库和网状数据库1980s早期 关系数据模型 关系数据库管理系统 RDBMS 1980s晚期 各种高级数据库系统 面向应用的数据库系统 空间数据库时序数据库 多媒体数据库等等 1990s 数据挖掘 数据仓库 2000s 基于各种应用的数据挖掘 XML数据库和整合的信息系统 数据库与数据库技术 1 数据库系统数据库是按一定组织方式存储在计算机中的相互关联的数据集合 数据库的建立独立于程序 数据库管理系统是一个管理数据库的软件系统 它为用户提供了描述数据库 操纵数据库和维护数据库的方法和命令 并且能自动控制数据库的安全以及数据完整 2 数据库系统的特点1 数据的结构化2 数据的共享性3 数据的独立性4 数据统一由DBMS管理和控制 1 数据的安全性 2 数据的完整性 3 并发控制 4 数据库恢复 数据仓库的发展 从传统数据库到数据仓库随着市场竞争的加剧 信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据 而是需要信息 能够支持决策的信息 去帮助管理决策 这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术 传统数据库系统无法承担这一责任 因为传统数据库的处理方式和决策分析中的数据需求不相称 这些不相称性主要表现在决策处理中的系统响应问题 决策数据需求的问题和决策数据操作的问题 数据库处理的两大应用1 联机事务处理 OLTP 2 决策支持系统 DSS 联机事务处理 OLTP 操作型处理 为企业的特定应用服务是对数据库的联机的日常操作 通常是对一个或一组记录的查询和修改人们关心的是响应时间 数据的安全性和完整性处理的是当前的数据 数据仓库的发展 决策支持系统 DSS 分析型处理 用于管理人员的决策分析经常需要访问大量的历史数据数据操作的特点 只查询 不更新 数据仓库 联机分析处理 数据挖掘 DW OLAP DM DSS 数据仓库的发展 传统数据库在联机事物处理中取得了较大的成功 但在基于事物处理的数据库帮助决策分析时却产生了很大的困难 主要原因是传统数据库的处理方式和决策分析中的数据需求不相称 导致传统数据库无法支持决策分析活动 这些不相称主要体现在如下几个方面 1 决策处理的系统响应问题 2 决策数据需求的问题 3 决策数据操作的问题 数据仓库的发展 数据仓库的发展 联机分析处理技术 OLAP 联机分析处理OLAP On LineAnalyticalProcessing 应用是不同于与联机事务处理 OLTP 的一类应用 它专门设计用于支持复杂的分析操作 侧重对分析人员和高层管理人员的决策支持 可以应分析人员的要求快速 灵活地进行大数据量的复杂查询处理 并且以一种直观易懂的形式将查询结果提供给决策制定人 以便他们准确掌握企业 公司 的经营状况 了解市场需求 制定正确方案 增加效益 数据挖掘技术 数据挖掘 DataMining 简记为DM 是从关系数据库 数据仓库 WEB数据库以及其他文件系统中发现重要的数据模式 规律的过程 因此又称为数据库中的知识发现 KnowledgeDiscoveryinDatabase 简记为KDD 它是OLAP的高级阶段 自20世纪80年代起 开始了数据挖掘技术的研究 1989年在美国召开的国际学术会议上包含了 从数据库中知识发现 的主题 1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议 从数据库到数据仓库 在线分析处理 OLAP 在线事务处理决策支持 DSS OLTP 数据挖掘 DataMining 数据仓库的定义 数据仓库用来保存从多个数据库或其它信息源选取的数据 并为上层应用提供统一的用户接口 完成数据查询和分析 数据仓库是作为DSS服务基础的分析型DB 用来存放大容量的只读数据 为制定决策提供所需要的信息 数据仓库是与操作型系统相分离的 基于标准企业模型集成的 带有时间属性的 面向主题及不可更新的数据集合 数据仓库的定义数据仓库就是一个面向主题的 集成的 不可更新的 随时间不断变化的数据集合 它用以支持企业或组织的决策分析处理 数据仓库的定义 数据仓库中数据的特点面向主题集成性不可更新的随时间不断变化 数据仓库的定义 1 面向主题 主题是一个抽象的概念 是在较高层次上将企业信息系统中的数据综合 归类 在逻辑上 它对应于企业中某一宏观分析领域所涉及的分析对象 主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的 数据仓库的定义 19 可编辑 数据仓库的特点 面向主题 2 集成的数据仓库中的数据是从原有分散的源数据库中提取出来的 其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致 且与不同的应用逻辑相关 为了创建一个有效的主题域 必须将这些来自不同数据源的数据集成起来 使之遵循统一的编码规则 因此 数据仓库在提取数据时必须经过数据集成 消除源数据中的矛盾 并进行数据综合和计算 经过数据集成后 数据仓库所提供的信息比数据库提供的信息更概括 更本质 数据集成过程 数据提取 数据仓库的数据是从原有的分散数据库数据中抽取来的净化 转换 消除数据表述的不一致性 数据的清洗 装载数据的综合 数据仓库的定义 数据仓库的特点 集成 3 不可更改的数据仓库中的数据反映的是一段时间内历史数据的内容 主要供企业高层决策分析之用 所涉及的数据操作主要是查询 一般情况下并不进行修改操作 即数据仓库中的数据是不可实时更新的 仅当超过规定的存储期限 才将其从数据仓库中删除 提取新的数据经集成后输入数据仓库 数据仓库的主要数据操作是查询 分析不进行一般意义上的数据更新 过期数据可能被删除 数据仓库强化查询 淡化并发控制和完整性保护等技术 数据仓库的定义 数据仓库的特点 数据不可更改 4 随时间变化的时变性 许多商业分析要求对发展趋势做出预测 对发展趋势的分析需要访问历史数据 因此数据仓库必须不断捕捉OLTP数据库中变化的数据 不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项 以标明数据的历史时期 数据仓库的定义 数据仓库的特点 随时间变化 数据仓库的技术要求 大量数据的组织和管理 包含了大量的历史数据 它是从数据库中提取得来的 不必关心数据的完整性 复杂分析的高性能体现 涉及大量数据的聚集 综合等 在进行复杂查询时经常会使用多表的联接 累计 分类 排序等操作 对提取出来的数据进行集成 数据仓库中的数据是从多个应用领域中提取出来的 在不同的应用领域和不同的数据库系统中都有不同的结构和形式 所以如何对数据进行集成也是构建数据仓库的一个重要方面 对进行高层决策的最终用户的界面支持 提供各种分析应用工具 数据仓库的体系结构 数据仓库的概念结构从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 数据挖掘的定义 数据挖掘 DataMining 简记为DM 从大量的数据中挖掘哪些令人感兴趣的 有用的 隐含的 先前未知 有潜在应用价值的模式或知识的处理过程 模式 即知识 它给出了数据特性或数据之间的关系 是对数据所包含的信息更抽象的描述 按功能可以分为预测型模式和描述型模式 在实际应用中 可以细分为关联模式 分类模式 聚类模式和序列模式等 数据挖掘是一门交叉性学科 它涉及到机器学习 模式识别 统计学 智能数据库 知识获取 数据可视化 高性能计算 专家系统等多个领域 可广泛地应用于信息管理 过程控制 科学研究 决策支持等许多方面 数据挖掘的过程 数据挖掘 知识挖掘的核心 数据挖掘的步骤 数据清理 这个可能要占全过程60 的工作量 数据集成数据选择数据变换数据挖掘 选择适当的算法来找到感兴趣的模式 模式评估知识表示 数据挖掘的类型 数据挖掘的任务是从大量的数据中发现模式 根据数据挖掘的任务可分为多种类型 其中比较典型的有 概念描述预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘 数据挖掘研究方向 1 专门用于知识发现的形式化和标准化的数据挖掘语言 2 数据挖掘过程中的便于用户理解的及人机交互的可视化方法 3 网络环境下的数据挖掘技术 4 各种非结构化数据的挖掘 数据挖掘应用实例 小结 数据处理技术的发展数据库与数据库技术数据仓库的发展联机分析处理技术 OLAP 数据挖掘技术数据仓库的定义数据仓库的体系结构从传统数据库到数据仓库数据仓库的基本特性联机分析处理技术 OLAP 数据挖掘技术数据挖掘的定义数据挖掘的过程数据挖掘的类型 思考题 1 为什么不能依靠传统的业务处理系统进行决策分析 2 在将数据源中的数据加载到数据仓库之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论