




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 2 14 数据仓库与数据挖掘 1 第1章数据仓库的概念与体系结构 主讲 张莉Email zhangliml 历史数据的处理方法 删除已经失效的历史数据介质备份后删除建立数据仓库系统 2020 2 14 数据仓库与数据挖掘 2 2020 2 14 数据仓库与数据挖掘 3 1 1数据仓库的概念 特点与组成 数据仓库的概念数据仓库就是一个面向主题的 SubjectOriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 通常用于辅助决策支持 DDS 2020 2 14 数据仓库与数据挖掘 4 1 1数据仓库的概念 特点与组成 数据仓库的特点 面向主题数据仓库中的数据是按照一定的主题域进行组织的集成数据仓库中的数据是在对原有分散的数据库数据作抽取 清理的基础上经过系统加工 汇总和整理得到的 2020 2 14 数据仓库与数据挖掘 5 1 1数据仓库的概念 特点与组成 数据仓库的特点 相对稳定数据操作主要是数据查询和定期更新数据加载后 将作为数据档案长期保存反映历史变化数据仓库中的数据通常包含较久远的历史数据 2020 2 14 数据仓库与数据挖掘 6 1 1数据仓库的概念 特点与组成 数据仓库的组成 数据仓库数据库 数据抽取工具 元数据 技术元数据与业务元数据 访问工具 数据集市 DataMarts 数据仓库管理 信息发布系统 2020 2 14 数据仓库与数据挖掘 7 数据仓库的组成 数据仓库数据库核心是数据信息存放的地方对数据提供存取和检索支持数据抽取工具提取数据 进行转换 整理 再存放转换的内容 删除对决策分析没有意义的数据转换到统一的数据名称和定义计算统计和衍生数据填补缺失数据统计不同的数据定义方式 2020 2 14 数据仓库与数据挖掘 8 数据仓库的组成 元数据描述数据仓库数据的结构和建立方法的数据技术元数据设计和管理人员用于开发和管理数据仓库时使用的元数据业务元数据从单位业务的角度描述数据仓库的元数据 2020 2 14 数据仓库与数据挖掘 9 数据仓库的组成 访问工具为用户访问数据仓库提供的手段数据集市 DataMarts 为特定的应用目的 从数据仓库中独立出来的一部分数据 也称为部门数据或者主题数据 2020 2 14 数据仓库与数据挖掘 10 数据仓库的组成 数据仓库管理安全与权限的管理数据更新的跟踪数据质量的检查元数据的管理与更新 信息发布系统把数据仓库中的数据或其他相关数据发给不同的地点或用户 2020 2 14 数据仓库与数据挖掘 11 1 2数据挖掘的概念与方法 数据挖掘的概念数据挖掘 DataMining 就是从大量数据中获取有效的 新颖的 潜在有用的 最终可理解的模式的非平凡过程 简单的说 数据挖掘就是从大量数据中提取或 挖掘 知识 又被称为数据库中的知识发现 KnowledgeDiscoveryinDatabase KDD 2020 2 14 数据仓库与数据挖掘 12 1 2数据挖掘的概念与方法 数据挖掘的方法 直接数据挖掘对某个变量建立一个模型包括分类 估值和预测间接数据挖掘在所有的变量中建立起某种关系如相关性分组或关联规则 聚集聚类 描述和可视化 及复杂数据挖掘 2020 2 14 数据仓库与数据挖掘 13 1 2数据挖掘的概念与方法 数据仓库与数据挖掘的关系若将数据仓库 DataWarehouse 比作矿井 那么数据挖掘 DataMining 就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术 2020 2 14 数据仓库与数据挖掘 14 1 3数据仓库的技术 方法与产品 联机事务处理 OLTP 与联机分析处理 OLAP 的比较 2020 2 14 数据仓库与数据挖掘 15 1 3数据仓库的技术 方法与产品 OLAP技术的有关概念多维数据集 一个数据集合维度 一个实体的一些重要属性定义为维dimension度量值 度量指标 是多维数据集中的一组数值多维分析 对以 维 形式组织起来的数据采取切片 切块 钻取和旋转等各种分析动作 以求分析数据 2020 2 14 数据仓库与数据挖掘 16 1 3数据仓库的技术 方法与产品 OLAP根据其存储数据的方式可分为三类 ROLAP relationalOLAP事实表 维表MOLAP multidimensionalOLAPHOLAP hybridOLAPOLAP工具针对特定问题的联机数据访问与分析 通过多维的方式对数据进行分析 查询和报表 2020 2 14 数据仓库与数据挖掘 17 1 3数据仓库的技术 方法与产品 数据仓库实施中的三个关键环节数据抽取 数据存储与管理数据表现 2020 2 14 数据仓库与数据挖掘 18 数据仓库实施中的三个关键环节 数据抽取数据进入数据仓库的入口抽取技术包括 互连 复制 增量 转换 调度和监控实现抽取专业的数据抽取工具直接开发抽取接口程序 2020 2 14 数据仓库与数据挖掘 19 数据仓库实施中的三个关键环节 数据存储与管理数据仓库面对的是大量数据的存储和管理并行处理针对决策支持查询的优化支持多维分析的查询模式 2020 2 14 数据仓库与数据挖掘 20 数据仓库实施中的三个关键环节 数据表现数据仓库的展示界面数据表现的工具多维分析统计分析数据挖掘 2020 2 14 数据仓库与数据挖掘 21 1 3数据仓库的技术 方法与产品 数据仓库实施方法论数据仓库不是简单的数据或产品堆砌 它是一个综合集成解决方案和系统工程 在数据仓库的实施过程中 技术决策至关重要 技术选择或决策错误很可能导致项目实施失败 2020 2 14 数据仓库与数据挖掘 22 1 3数据仓库的技术 方法与产品 常用数据仓库产品比较常用OLAP工具介绍 各数据仓库厂商提供的解决方案IBM Oracle NCR Microsoft SAS等 2020 2 14 数据仓库与数据挖掘 23 2020 2 14 数据仓库与数据挖掘 24 1 4数据仓库系统的体系结构 典型的数据仓库系统数据源数据存储和管理OLAP服务器前端工具和应用 2020 2 14 数据仓库与数据挖掘 25 1 4数据仓库系统的体系结构 数据仓库系统的体系结构的分类两层架构 GenericTwo LevelArchitecture 独立型数据集市 IndependentDataMart 依赖型数据集市和操作型数据存储 DependentDataMartandOperationalDataStore 逻辑型数据集市和实时数据仓库 LogicalDataMartandReal TimeDataWarehouse 2020 2 14 数据仓库与数据挖掘 26 1 4数据仓库系统的体系结构 两层数据仓库体系结构 两层数据仓库体系结构 构造步骤数据是从各种内外部的源系统文件或数据库中抽取得到的不同源系统中的数据在加载到数据仓库之前需要被转换和集成建立为决策支持服务的数据库用户通过SQL查询语言或分析工具访问数据仓库 结果又会反馈到数据仓库和操作型数据库中 2020 2 14 数据仓库与数据挖掘 27 2020 2 14 数据仓库与数据挖掘 28 1 4数据仓库系统的体系结构 基于独立数据集市的数据仓库体系结构 基于独立数据集市的数据仓库体系结构 独立型数据集市架构的局限性包括 高代价的冗余数据和重复处理工作数据集市可能是不一致的没有能力下钻到更小的细节或其他数据集市有关的事实或者共享的数据信息库规模扩大的成本高 2020 2 14 数据仓库与数据挖掘 29 2020 2 14 数据仓库与数据挖掘 30 1 4数据仓库系统的体系结构 基于依赖型数据集市和操作型数据存储 ODS 的数据仓库体系结构 2020 2 14 数据仓库与数据挖掘 31 1 4数据仓库系统的体系结构 逻辑型数据集市和实时数据仓库的体系结构 逻辑型数据集市和实时数据仓库的体系结构 特征逻辑数据集市并不是物理上分离的数据库数据被放到数据仓库而不是分离的分段传输区域中新的数据集市可以非常快速地创建数据集市总是最新的 2020 2 14 数据仓库与数据挖掘 32 2020 2 14 数据仓库与数据挖掘 33 1 5数据仓库的产生 发展与未来 数据仓库的产生数据库关系数据库联机事务处理联机分析处理 2020 2 14 数据仓库与数据挖掘 34 数据仓库的产生 数据仓库的产生联机事务处理系统 业务系统 刚上线时 查询不到数据是因为数据太少了 而几十年后查询不到有关数据是因为数据太多了专门为业务数据的统计分析建立一个数据中心 它的数据从联机事务处理系统中来 从异构的外部数据源来 或从脱机的历史业务数据中来 这个数据中心也是一个联机系统 它专门为分析统计和决策支持应用服务 通过它可获取决策支持和联机分析应用所需要的一切数据 这个数据中心就叫做数据仓库数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境 数据仓库要研究和解决的问题就是从数据库中获取信息的问题 数据仓库的产生 数据仓库与数据库的关系关系数据库系统是数据仓库的核心数据环境关系数据库是针对联机事务处理数据仓库是针对联机分析处理 2020 2 14 数据仓库与数据挖掘 35 2020 2 14 数据仓库与数据挖掘 36 1 5数据仓库的产生 发展与未来 数据仓库的发展以报表为主以分析为主以预测模型为主以营运导向为主以实时数据仓库 自动决策应用为主 2020 2 14 数据仓库与数据挖掘 37 1 5数据仓库的产生 发展与未来 数据仓库的未来数据抽取方面未来的技术发展将集中在系统集成化方面将互连 转换 复制 调度 监控纳入标准化的统一管理以适应数据仓库本身或数据源可能的变化使系统更便于管理和维护 2020 2 14 数据仓库与数据挖掘 38 1 5数据仓库的产生 发展与未来 数据仓库的未来数据管理方面未来的发展将使数据库厂商明确推出数据仓库引擎 作为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学招教常考题目及答案
- 初中生春节作文900字8篇
- 观千与千寻有感650字(11篇)
- 家庭农场生产经营与资源利用合同
- 时间日期变更课件
- 企业生产成本控制及管理工具
- 媒体采购推广合作合同
- 早期胃癌课件
- 航空航天技术研发投入统计表
- 农民利用自然资源合同
- 2025版商业综合体物业服务合同招标文件3篇
- 建设工程降低成本、提高经济效益措施
- 课程思政融合深度学习的“实变函数与泛函分析”课程教学体系构建
- 助听器与辅听设备基本性能及使用建议的专家共识
- 2025年日历表( 每2个月一张打印版)
- 网络安全和信息化领导小组职责
- 四年级下册数学200道竖式计算
- 中职班主任管理培训
- 高三冲刺毕业家长会课件2024-2025学年
- 运维或技术支持岗位招聘笔试题与参考答案(某大型央企)2024年
- 粮油食材配送投标方案(大米食用油食材配送服务投标方案)(技术方案)
评论
0/150
提交评论