




免费预览已结束,剩余60页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库篇 第一章数据仓库原理第二章联机分析处理 OLAP 第三章数据仓库开发第四章数据仓库应用案例数据挖掘篇 第一章数据挖掘介绍第二章描述性挖掘第三章分类与预测第四章数据挖掘应用案例 课程内容 数据仓库与数据挖掘 数据仓库与数据挖掘 考核方式 80 考试成绩 20 平时成绩 其中考试成绩 卷面 50 论文 50 平时成绩 上课 10 讨论 10 专题讨论成绩评定 基本分80 结论正确 5 结论错误 5 PPT做得好 5 讲述效果好 10 参考资料 数据仓库技术 1 美 WilliamH Inmon 数据仓库 第四版 机械工业出版社 2 王丽珍 数据仓库与数据挖掘原理及应用 清华大学出版社 3 安淑芝 数据仓库与数据挖掘 清华大学出版社 4 徐洁磐 数据仓库与决策支持系统 科学出版社 5 陈京民 数据仓库与数据挖掘技术 电子工业出版社 6 池太崴 数据仓库结构设计与实施 电子工业出版社 7 朱德利 SQLServer2005数据挖掘与商业智能完全解决方案 电子工业出版社 8 李雄飞 数据仓库与数据挖掘 机械工业出版社 9 李雄飞 数据挖掘与知识发现 高等教育出版社 第一章数据仓库原理 1 1数据仓库基本概念1 1 1从数据库到数据仓库1 1 2什么是数据仓库1 1 3数据仓库的体系结构1 1 4数据仓库的数据组织 1 1数据仓库的基本概念 面对不断增加的如潮水般的数据 人们提出了深层次的问题 能不能从数据中提取信息或者知识为决策服务 就数据库技术而言已经显得无能为力了 这就急需有新的方法来处理这些海量般的数据 主讲 武第一章数据仓库原理 主讲 武在这种情况下出现了数据仓库 世界上最早的数据仓库是1981年NCR公司为沃尔玛建立的 而最早提出数据仓库概念的是W H Inmon 数据仓库是面向主题的 集成的 稳定的 随时间变化的数据集合 用于支持管理决策过程 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 1从数据库到数据仓库 一 蜘蛛网问题 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 1从数据库到数据仓库 一 蜘蛛网问题 引发 1 数据分析的结果缺乏可靠性 2 数据处理的效率很低 3 难以将数据转化成信息 1 1数据仓库的基本概念 第一章数据仓库原理 1 1 1从数据库到数据仓库 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1从数据库到数据仓库 二 事务型系统和分析型系统的分离 要解决 蜘蛛网 问题 必须将用于事务处理的数据环境和用于分析处理的数据环境分离开 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 1从数据库到数据仓库 二 事务型系统和分析型系统的分离 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 1从数据库到数据仓库 二 事务型系统和分析型系统的分离 数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术 数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一 数据仓库的主要驱动力并不是过去的缺点和问题 而是市场商业经营行为的改变 市场竞争要求捕获和分析事务级的业务数据 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 数据仓库是面向主题的 集成的 稳定的 随时间变化的数据集合 用于支持管理决策过程 该定义指出了数据仓库面向主题 集成 稳定 随时间变化的4个最重要的特征 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 一 面向主题 与传统数据库面向应用进行数据组织的特点相对应 数据仓库中的数据是面向主题进行组织的 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 一 面向主题 什么是主题 主题是一个抽象的概念 是在较高层次上将企业信息系统中的数据综合 归类后进行分析利用的抽象 在逻辑意义上 它是企业中某一宏观分析领域所涉及的分析对象 是针对某一决策问题而设置的 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 一 面向主题 面向主题的数据组织方式 就是在较高层次上对分析对象的数据的一个完整 一致的描述 能完整 统一地刻画各个分析对象所涉及的企业的各项数据 以及数据之间的联系 所谓较高层次是相对面向应用的数据组织方式而言的 是指按照主题进行数据组织的方式具有更高的数据抽象级别 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 一 面向主题 例1 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 一 面向主题 例2 属于相同主题域的数据集合 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 二 集成 数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来 但并不是原有数据的简单复制 而是经过统一并综合 原因 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 二 集成 全面而正确的数据是有效地分析和决策的首要前提 相关数据收集得越完整 得到的结果就越可靠 对源数据的集成是数据仓库建设中最关键 也是最复杂的一步 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 三 稳定性 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 2什么是数据仓库 四 随时间而变化 数据仓库中数据是批量载入的 是稳定的 这使得数据仓库中的数据总是拥有时间维度 从这个角度 数据仓库实际是记录了系统的各个瞬态 并通过将各个瞬态连接起来形成动画 从而在数据分析的时候再现系统运动的全过程 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 一 体系结构 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 1 ETL 数据抽取 转换 装载 ETL过程包括 数据抽取 数据转换 数据清洗和数据装载 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 1 ETL 数据抽取 转换 装载 1 数据提取 从数据仓库的角度来看 并不是业务数据库中的所有数据都是决策支持所必需的 通常 数据仓库按照分析的主题来组织数据 我们只需提取出系统分析必需的那一部分数据 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 1 ETL 数据抽取 转换 装载 2 数据清洗 所谓 清洗 就是将错误的 不一致的数据在进入数据仓库之前予以更正或删除 以免影响决策支持系统决策的正确性 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 1 ETL 数据抽取 转换 装载 3 数据转化 出于业务系统可能使用不同的数据库厂商的产品 比如IBMDB2 Infomix Sybase Sqlsrever NCRTeradata等 各种数据库产品提供的数据类型可能不同 因此需要将不同格式的数据转换成统一的数据格式 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 1 ETL 数据抽取 转换 装载 4 数据装载 数据装载部件负责将数据按照物理数据模型定义的表结构装入数据仓库 这些步骤包括清空数据域 填充空格 有效性检查等 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 2 数据仓库存储 数据仓库存储就是用于存放数据仓库数据和元数据的存储空间 数据的存储方式主要有3种 多维数据库 关系型数据库以及前两种存储方式的结合 1 1数据仓库的基本概念 第一章数据仓库原理 业务系统中提取的或者从外部数据源中导入的数据经过清洗 转化后成为数据仓库的原始数据 需要注意的是 它们是数据仓库数据的一部分 但不是全部 由于需要数据仓库进行OLAP分析和数据挖掘 因此需要在原始数据的基础上增加冗余信息 比如进行大量的预运算 建立多维数据库 以求迅速的展现数据 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 2 数据仓库存储 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 2 数据仓库存储 数据仓库中存储的另一部分数据叫元数据 数据是对事物的描述 元数据 就是描述数据的数据 它提供了有关数据的环境 用于构造 维持 管理和使用数据仓库 1 1数据仓库的基本概念 第一章数据仓库原理 数据仓库的元数据主要包含两类数据 管理元数据 数据仓库设计人员和管理人员使用的描述数据仓库的数据的信息 用于执行数据仓库开发和管理任务 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 2 数据仓库存储 数据源信息 转换描述 数据仓库中信息的种类 存储位置 存储格式 数据清洗和数据增加的规则 数据映射操作 访问权限 备份历史 存档历史 信息传输历史 数据获取历史 数据访问等 1 1数据仓库的基本概念 第一章数据仓库原理 1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 2 数据仓库存储 用户元数据 帮助用户查询信息 理解结果及了解数据仓库中的数据和组织 1 主题区和信息对象类型 包括查询 报表 图像 音频 视频等 2 Internet主页 8 支持数据仓库的其他信息 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 3 数据集市 我们把面向企业中的某个部门 主题 而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市 数据仓库面向整个企业 而数据集市则是面向企业中的某个部门 数据仓库中存放了企业的整体信息 而数据集市只存放了某个主题需要的信息 其目的是减少数据处理量 使信息的利用更快捷 灵活 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 4 OLAP OLAP是针对某个特定的主题进行联机数据访问 处理和分析 通过直观的方式从多个维度 多种数据综合程度将系统的运营情况展现给使用者 1 1数据仓库的基本概念 第一章数据仓库原理 1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 4 数据挖掘 数据仓库提供来自种类不同的信息系统的集成化和历史化的信息 为有关部门或企业进行全局范围的战略决策和长期趋势分析提供了有效支持 1 1数据仓库的基本概念 第一章数据仓库原理 1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 4 数据挖掘 数据挖掘是一种有效利用信息的工具 主要基于人工智能 机器学习 统计学等技术 高度自动化地分析 组织原有的数据 进行归纳性的推理 从中挖掘出潜在的模式 预测客户行为 帮助组织的决策者正确判断即将出现的机会 调整策略 减少风险 进行正确决策 1 1数据仓库的基本概念 第一章数据仓库原理 1 1 3数据仓库的体系结构 二 数据仓库中的关键名词 4 数据挖掘 因此 将数据仓库与数据挖掘有机结合必将大大提高企业对信息进行组织和利用的能力 使得信息能够更好地为决策服务 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 一 数据仓库的数据组织结构 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 二 数据粒度与数据分割 1 数据粒度 数据粒度是数据仓库中极其重要的概念 粒度可以分为两种形式 一种是对数据仓库中的数据的综合程度高低的一个度量 它既影响数据仓库中数据量的多少 也影响数据仓库中数据的用途 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 二 数据粒度与数据分割 1 数据粒度 续 粒度的第二种形式是指抽样率 即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库 这种样本数据库中的粒度不是根据综合程度的不同来划分的 而是由抽样率的高低来划分的 抽样粒度不同的样本数据库可以具有相同的数据综合程度 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 二 数据粒度与数据分割 2 数据分割 数据的分割是数据仓库中的又一重要概念 所谓数据分割是指数据分散到各自的物理单元中以便独立处理 以提高数据处理的效率 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 1 简单堆积文件 简单堆积文件就是将每天由业务数据库提取并处理后的数据逐天存储起来 还有一种形式被称为简单直接文件 它同简单堆积文件非常类似 只是按照一定的时间间隔对业务数据库进行快照并存储 但是时间间隔不一定是每天 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 1 简单堆积文件 续 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 2 定期综合文件 在定期综合文件这种方式中 数据存储单位被分成日 周 月 季 年等多个级别 首先数据被逐一添加到每天的数据集合中 当一个星期过去了 每天数据被综合成周数据 依此类推 周数据被综合成月数据 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 2 定期综合文件 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 2 定期综合文件 续 定期综合文件的组织方式使得数据量比简单堆积文件方式大大减少 但是由于数据被进行了综合 使得数据的细节在综合中丢失 因此 定期综合文件的形式是牺牲数据的细节信息换取数据量级的减少 1 1数据仓库的基本概念 第一章数据仓库原理 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 3 连续文件 主讲 武1 1 4数据仓库的数据组织 三 数据仓库的数据组织形式 3 连续文件 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 数据的组织结构和组织形式解决的是数据仓库数据的存储问题 而数据追加解决的是数据仓库初始数据装载后 如何再向数据仓库输入数据的问题 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 续 如果数据库中的数据没有发生变化 则不需要对数据仓库进行追加 因此 数据追加实际上只增加在上次数据输入后数据库中变化了的数据 要完成数据追加的工作 最关键的是 捕获 数据变化 并将数据的变化记录下来 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 续 1 时标法 时标法 的思想是为数据记录增加一个时间标记 当数据在上次数据导入完成后发生了变化 则修改这条记录的时间标记 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 1 时标法但是 在业务的数据库系统中 通常没有专门的时间标记 数据库应用的设计者主要是从实现事务处理的功能角度来考虑问题 因此 数据库应用的设计者通常不会增加时间标记列 因为该列对于事务处理系统来说是不必要的 由于这些原因 时标法虽然简单 很难得到应用 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 2 前后快照比较法 其想法很简单 将上次执行完数据追加任务的数据库快照记录下来 同要执行新的数据追加任务前的数据库快照进行比较 比较这两次快照的不同 来生成追加的内容 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 2 前后快照比较法 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 2 前后快照比较法 这种方法简单 但是如果数据库的数量级很大 进行这样全数据库的比较将会耗费大量的系统资源和时间 所以这种方法并不实用 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 3 DELTA文件法 其基本思想是 数据的变化是由数据库应用程序引发的 因此数据库应用程序应当知道它修改了哪些数据 应用程序可以将它执行成功的修改操作记录下来 形成DELTA文件作为追加的内容 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 3 DELTA文件法 数据库的应用程序主要是为了完成事务处理而设计的 要使所有的应用程序都支持DELTA文件的功能在实际的工程应用中很难 因此 这种方法也没有得到实用化 1 1数据仓库的基本概念 第一章数据仓库原理 主讲 武1 1 4数据仓库的数据组织 四 数据仓库的数据追加和清理 1 数据追加 4 日志文件法 如果数据库开启了系统日志 数据库服务器将会把它所执行的所有操作详细地记录下来 我们可以通过分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度赛车活动场地租赁及事故预防与应急处理合同
- 2025年保密场所隐蔽操作安全监管评估与改进合同
- 2025年医疗体系实习生实训协议及综合职业培训合同
- 2025年互联网企业核心竞争力培训定制方案合同
- 环境工程借款合同
- 2025年度企业财税代理服务及区块链技术应用战略合同
- 2025年创意办公空间租赁合同模板:定制化创业园区租赁范本
- 2025年度高层建筑避雷装置安装与定期检修合同
- 2025高端出版物印刷合同:艺术品印刷与制作专业服务协议
- 2025年度直播平台网红主播独家签约合同范本
- 小学1530安全教育
- 牢记教师初心不忘育人使命作新时代合格人民教师课件
- 门窗工程采购相关知识
- 2025风电机组无人机巡检技术方案
- 浙江省台州市住在室内装修施工合同书
- 2025年高压电工资格考试国家总局模拟题库及答案(共四套)
- 《服务器安装与维护》课件
- 金蝶K3供应链操作手册
- 老年患者护理心理护理
- 《食品经营许可证》延续申请书
- 电缆中间接头防火整改方案
评论
0/150
提交评论