




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章数据仓库和数据挖掘 1 第六章数据仓库和数据挖掘 第一节数据仓库的原理第二节数据仓库体系结构第三节数据仓库的开发第四节联机分析处理OLAP第五节数据挖掘技术第六节数据挖掘的方法和工具 2 第一节数据仓库的原理 一 数据仓库的基本定义1 基本定义数据仓库专家W H Inmon的描述 数据仓库是一个面向主题的 SubjectOriented 集成的 Integrate 相对稳定的 Non Volatile 随时间不断变化 TimeVariant 的数据集合 用于支持管理决策 3 第一节数据仓库的原理 一 数据仓库的基本定义Informix公司的负责人定义数据仓库为 数据仓库将分布在企业网络中不同职能部门的业务数据集成 并存储在一个单一的集成关系型数据库中 利用这种集成信息 可方便用户对信息的访问 更可使决策人员对一段时间的历史数据进行分析 研究事物发展走势 4 第一节数据仓库的原理 2 数据仓库中的一些基本概念 粒度粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别 分割就是将数据分散到各自的物理单元中去 使它们能被独立地处理 维是人们观察数据的特定角度 是数据的视图 5 第一节数据仓库的原理 二 数据仓库的特点 面向主题的 集成的 相对稳定的 随时间变化的 6 第一节数据仓库的原理 面向主题的数据仓库中的数据是按一定的主题进行组织的 为按主题进行决策的过程提供信息 集成的数据仓库中数据是来源于分散的数据库数据 它们进入数据仓库中时必须通过一定的方法来使之在数据仓库中有统一的形式和含义 a 集成 7 第一节数据仓库的原理 相对稳定的也称为非易失性 数据仓库的数据主要供企业决策分析之用 某个数据一旦进入数据仓库 只要它没有数据仓库的数据存储期限 一般就不会被更新 插入 删除 访问 修改 数据库 抽取 载入 时间维 数据仓库 b 非易失性 8 第一节数据仓库的原理 随时间变化的数据仓库随着时间的变化 不断增加新的数据 支持决策系统数据仓库组织的根本目的在于对决策的支持 9 第一节数据仓库的原理 三 数据仓库中的层次结构一个典型的企业数据仓库系统3层结构 数据获取层 数据存储与管理层 数据访问层 10 第一节数据仓库的原理 数据获取层对MIS 网管和其他外部数据源中的数据进行抽取 清洗 转换 并加载到数据仓库 数据存储与管理层实现对数据仓库中数据和源数据的集中存储与管理 进行抽取 清理和有效集成 按照主题进行组织 并可根据需求建立面向部门和主题的部门级数据仓库 或称为数据集市 采用在线分析处理 OnLineAnalysisProcessing OLAP 服务器技术对数据进行有效集成和组织 以便进行多角度 多层次的分析 并发现趋势 11 第一节数据仓库的原理 数据访问层通过多样化的前端分析展示工具 主要包括各种报表工具 查询工具 数据分析工具 数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具 实现对数据仓库中数据的分析和处理 形成市场经营和决策工作所需要的科学 准确 及时的业务信息和知识 12 第一节数据仓库的原理 四 数据仓库与数据库的区别 13 第二节数据仓库体系结构 一 数据仓库的体系结构通常包括4个部分 源数据 管理部分 数据仓库和应用部分 14 第二节数据仓库体系结构 二 数据仓库体系结构中的重要组件1 数据抽取 转换 装载工具ETL Extract Transformation Load 它是把数据从不同的操作型数据库中拿出来 进行必要的转化 整理 再存放到数据仓库内 15 第二节数据仓库体系结构 2 元数据元数据在数据仓库中的用途有 起到辅助决策分析过程中定位数据仓库的目录作用 数据从业务环境向数据仓库环境传送时数据仓库的目录内容 指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择 16 第二节数据仓库体系结构 3 数据集市 DataMarts 为了特定的应用目的或应用范围 而从数据仓库中独立出来的一部分数据 也可称为部门数据或主题数据 Subjectdata 4 数据仓库管理工具数据仓库管理工具的主要内容有 安全和特权管理 跟踪数据的更新 数据质量检查 管理和更新元数据 审计和报告数据仓库的使用和状态 删除数据 复制 分割和分发数据 备份和恢复 存储管理 17 第三节数据仓库的开发 一 数据仓库的数据模式1 星式模式一个简单的星式模式 StarSchema 是由一个事实表和多个维表组成 复杂的星式模式包含若干个事实表和维表 18 第三节数据仓库的开发 2 雪花模式雪花模式 SnowFlakeSchema 是对星式模式的扩展 它的每个维表都可以向外面连接多个维 19 第三节数据仓库的开发 二 数据仓库的设计方法在设计数据仓库时一般采用的方法有自顶向下方法 自底向上方法 自顶向下和自底向上综合的方法 1 自顶向下方法自顶向下方法是从商业需求出发直接构建全局数据仓库 即从原来分散存储的已有的企业OLTP数据库中通过数据提取 净化 转换和聚集等处理建立全局数据仓库 20 第三节数据仓库的开发 2 自底向上方法自底向上方法是从实验和基于技术的原型入手 选择一个部门或特定商业问题的数据集市开始 全局数据仓库则建立在数据集市的基础上 21 第三节数据仓库的开发 三 数据仓库的设计过程1 需求分析了解用户建立数据仓库的商业目标 使用数据仓库的操作环境 数据仓库应具有的功能 特征和开发投资 2 概念模型设计确定各个主题域的内容以及它们之间的关系 建立E R图 3 逻辑模型设计将概念模型转换为逻辑模型 主要工作有分析主题域 确定粒度划分层次 确定数据分割策略 确定关系模式 定义记录系统 4 物理模型的设计确定数据的存储结构 索引策略 数据的存储位置和存储分配 22 第三节数据仓库的开发 四 数据仓库生命周期数据仓库的整个生命周期 调查需求 分析环境 确定体系结构 数据仓库具体设计 数据仓库的运行和数据管理 23 第三节数据仓库的开发 5个过程可分为两大阶段 数据仓库生成阶段这一阶段的工作主要是将数据从操作型的数据库系统装载到数据仓库中来 如何正确抽取 综合 转换数据是要考虑的主要问题 数据仓库的运行和维护阶段 24 第四节联机分析处理OLAP 一 OLAP的基本概念联机分析处理 是一种使分析人员能迅速 一致 交互地从各个方面观察信息 以达到深入理解数据的目的的软件技术 是一种基于关系数据库并对数据进行分析的交互式决策方法 25 第四节联机分析处理OLAP OLAP的功能特征 具有多维数据库OLAP给出了数据仓库中数据的多维逻辑视图 这种视图通过一种更为直观的分析模型 使得模型设计和分析就像是在层次之间与层次内部的计算一样便利 26 第四节联机分析处理OLAP 交互式的快速响应查询OLAP采用了细剖较低层的详细数据或统揽较高层的概括性和聚集数据来进行交互式查询 同时为了提高查询和响应速度 它还采用了数据的矩阵存储技术和一系列的数据压缩技术 动态数据分析OLAP则是侧重于动态数据的分析 并可以在其内部对数据进行自动转换 使得用户可以在交互过程中获得明确的分析结果切片功能 钻探功能 27 第四节联机分析处理OLAP 多维检索功能OLAP能检索并显示二维或三维表格 图表和图表中的数据 并能容易地变换为基准轴 从而能综合不同角度分析到的数据 更好地支持决策 28 第四节联机分析处理OLAP 二 OLAP实例 29 第四节联机分析处理OLAP 二 OLAP实例 30 第四节联机分析处理OLAP 三 OLAP和OLTP的区别 31 第五节数据挖掘技术 一 数据挖掘的基本概念1 数据挖掘的定义数据挖掘就是从大量的 不完全的 有噪声的 模糊和随机的实际应用数据中提取隐含的 目前未知但潜在有用的模式的非平凡过程 数据挖掘作为知识发现过程的一个特定步骤 它是对大容量数据和数据间关系进行考察和建模的方法集 它的目标是将大容量数据转化为有用的知识信息 这些信息对预测趋势和决策行为是至关重要的 32 第五节数据挖掘技术 2 数据挖掘的过程数据挖掘的过程一般由3阶段组成 数据准备 数据挖掘 结果的解释评估 数据挖掘可以描述为这3个阶段的反复 33 第五节数据挖掘技术 3 数据挖掘的分类根据数据挖掘的任务分 预测模型挖掘 总结规则挖掘 关联规则挖掘 聚类规则挖掘 趋势分析 偏差分析等 根据数据挖掘的对象分 关系数据库 面向对象数据库 空间数据库 时态数据库 文本数据源 多媒体数据 异质数据库 遗产 legacy 数据库 以及Web数据源 根据数据挖掘的方法分 决策树法 人工神经网络方法 统计分析方法 遗传方法和数据库方法 34 第五节数据挖掘技术 二 数据挖掘的功能自动预测趋势和行为关联分析聚类概念描述偏差检测 35 第五节数据挖掘技术 三 数据挖掘与OLAP数据挖掘和OLAP是两种不同基于数据仓库的应用工具 它们的用途不同 基于的技术也大相径庭 OLAP是验证式的工具 OLAP分析过程是一个演绎推理的过程 数据挖掘与OLAP不同的地方是 数据挖掘不是用于验证某个假定的模型的正确性 而是在数据库中自己寻找模型 数据挖掘过程是一个归纳的过程 36 第六节数据挖掘的方法和工具 一 数据挖掘的方法数据挖掘的方法大致可分为4类 机器学习方法 归纳学习方法 基于范例的推理CBR 遗传算法 贝叶斯信念网络等统计方法 回归分析 判别分析 探索性分析 以及模糊集 粗糙集 支持向量机等方法神经网络方法 前向神经网络 自组织神经网络数据库方法 基于可视化的维数据分析或OLAP方法 37 第六节数据挖掘的方法和工具 二 数据挖掘的系统EnterpriseMiner SAS公司 IntelligentMiner IBM公司 SetMiner SGI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南省衡阳市衡山县星源学校2025-2026学年七年级上学期开学数学试题(无答案)
- 2024-2025学年湖北省荆州市石首市八年级(上)期末数学试卷(含答案)
- 环境形象题目及答案高中
- 扣分安全驾驶培训课件
- 2025年广电摄影考试题目及答案
- 2025年残疾工作考试题目及答案
- 2025年驾照考试科三题目及答案
- 卫生健康职业技能竞赛(危重新生儿救治项目)理论及技能操作知识考试题库(含答案)
- 情绪管理课件教学
- 画技法考试题目及答案
- 展览会现场清洁方案
- 钣金安全生产培训
- 老年人口腔护理宣教
- 2024年度电商分销一件代发合作协议
- 神州数码在线测评题答案
- 小学数学三年级(多位数乘一位数)连打版 2000题
- DL∕T 1917-2018 电力用户业扩报装技术规范
- 《环境与资源保护法(第5版)》全套教学课件
- 模态逻辑的本体论含义
- 顶楼违建房买卖协议书
- 医学伦理与道德规范
评论
0/150
提交评论