版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,人工智能 数据挖掘之数据仓库,目 录,一、什么是数据挖掘? 二、什么是数据仓库?数据仓库的特征。 三、数据仓库设计 四、从数据仓库到数据挖掘,2020年7月8日星期三,数据挖掘:概念与技术,3,什么是数据挖掘,数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式 数据挖掘: 用词不当? 其它名称: 数据库中知识发现 (Knowledge discovery in databases, KDD) 知识提取 (knowledge extraction) 数据/模式分析 (data/pattern analysis) 数据考古
2、 (data archeology) 数据捕捞 (data dredging) 信息收获 (information harvesting) 商务智能 (business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序,2020年7月8日星期三,数据挖掘:概念与技术,4,数据挖掘:在数据中发现知识 /模式,2020年7月8日星期三,数据挖掘:概念与技术,5,数据挖掘过程,数据库,文件,数据仓库,清理与集成,选择与变换,数据挖掘,模式评估,知识,什么是数据仓库,用不同的方法定义, 但不是严格的 是一个决策支持数据库, 它与
3、组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理. 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的平台, 为决策提供支持. W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 建立数据仓库(Data warehousing): 构造和使用数据仓库的过程,2020/7/8,数据仓库与OLAP技术,6,数据仓库的特征,面向主题的 (subject-o
4、riented) 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常操作和事务处理. 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 集成的 (integrated) 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事务处理记录, 集成在一起 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、属性度量等的一致性 当数据装入数据仓库时, 数据将被转换,2020/7/8,数据仓库与OLAP技术,7,数据仓库的特征(续),时变的 (time-variant) 数据存储从历史的角度 (例如过去5
5、-10年) 提供信息. 操作数据库数据: 当前值数据 数据仓库中的关键结构, 隐式或显式地包含时间元素 非易失的 (nonvolatile) 数据仓库总是物理地分离存放数据; 这些数据源于操作环境下的应用数据 由于这种分离, 数据仓库不需要事务处理、恢复和并发控制机制.通常, 它只需要两种数据访问操作: 数据的初始化装入和数据访问,2020/7/8,数据仓库与OLAP技术,8,如何使用数据仓库中的信息,数据仓库用于商务决策活动, 包括 增加顾客关注 包括分析顾客购买模式, 如喜爱买什么、购买时间、预算周期、消费习惯 根据季度、年和地区的营销情况比较, 重新配置产品和管理产品的投资, 调整生产策
6、略 分析运营情况和查找利润源 管理顾客关系、进行环境调整、管理公司资产开销,2020/7/8,数据仓库与OLAP技术,9,数据仓库 vs. 操作数据库,OLTP (on-line transaction processing, 联机事务处理) 传统关系 DBMS的主要任务 日常事务处理: 购买, 库存, 银行, 制造, 工资单, 注册, 记帐等. OLAP (on-line analytical processing, 联机分析处理) 数据仓库系统的主要任务 数据分析和决策制定,2020/7/8,数据仓库与OLAP技术,10,数据仓库 vs. 操作数据库(续),不同的特点 (OLTP vs.
7、OLAP): 用户和系统的面向性: 顾客 vs. 市场 OLTP是面向顾客的, 用于办事员、客户、和信息技术专业人员的事务和查询处理 OLAP是面向市场的, 用于知识工人 (包括经理、主管、和分析人员) 的数据分析 数据内容: 当前的, 细节的 vs. 历史的, 合并的 OLTP系统管理当前数据 这种数据太琐碎, 很难用于决策 OLAP系统管理大量历史数据, 提供汇总和聚集机制, 并在不同的粒度级别上存储和管理信息 这些特点使得数据更容易用于决策,2020/7/8,数据仓库与OLAP技术,11,数据仓库 vs. 操作数据库(续),2020/7/8,数据仓库与OLAP技术,12,数据仓库设计,数
8、据仓库为商务分析提供了什么 拥有数据仓库可以提供竞争优势 通过提供相关信息, 据此测量性能并作出重要调整, 以帮助战胜其它竞争对手 数据仓库可以提高企业生产力 因为它能够快速有效地搜集准确描述组织机构的信息 数据仓库有利于顾客的联系管理 因为它跨越所有商务、所有部门和所有市场, 提供了顾客和商品的一致视图 数据仓库可以带来费用的降低 通过以一致和可靠的方式长期跟踪趋势、模式和异常,2020/7/8,数据仓库与OLAP技术,13,数据仓库设计(续),四种视图 自顶向下视图 使得我们可以选择数据仓库所需的相关信息. 这些信息能够满足当前和未来商务的需求 数据源视图 揭示被操作数据库系统捕获、存储和
9、管理的信息 通常, 数据源用传统的数据建模技术, 如实体-联系模型或CASE 工具建模 数据仓库视图 包括事实表和维表. 它们提供存放在数据仓库内部的信息, 包括预计算的总和与计数, 以及增加的提供历史背景的关于源、原来的日期和时间等信息 商务查询视图 从最终用户的角度透视数据仓库中的数据,2020/7/8,数据仓库与OLAP技术,14,数据仓库设计(续),建立和使用数据仓库是一项复杂的任务, 需要商务技巧、技术技巧和程序管理技巧 商务技巧 建立数据仓库涉及 理解系统如何存储和管理数据; 如何构造一个提取程序, 将数据由操作数据库转换到数据仓库; 如何构造一个仓库刷新软件, 合理地保持数据仓库
10、中的数据相对于操作数据库中数据的当前性 使用数据仓库涉及 理解它所包含的数据的含义 理解商务需求并将它转换成数据仓库查询,2020/7/8,数据仓库与OLAP技术,15,数据仓库设计(续),技术技巧 数据分析需要 理解如何由定量信息作出估价 如何根据数据仓库中的历史信息得到的结论推导事实 这些技巧包括发现模式和趋势, 根据历史推断趋势和发现异常或模式漂移, 并根据这种分析提出相应的管理建议的能力 程序管理技巧 涉及与许多技术人员、经销商和最终用户交往, 以便以及时和合算的方式提交结果,2020/7/8,数据仓库与OLAP技术,16,数据仓库设计(续),数据仓库可以使用自顶向下方法、自底向上方法
11、, 或二者结合的混合方法设计 自顶向下方法 由总体设计和规划开始 当技术成熟并且已经掌握, 对必须解决的商务问题清楚并且已经很好理解时, 这种方法是有用的 自底向上方法 以实验和原型开始 在商务建模和技术开发的早期阶段, 这种方法是有用的 混合方法 既能利用自顶向下方法的规划和战略特点, 又能保持象自底向上方法一样快速实现和立即应用,2020/7/8,数据仓库与OLAP技术,17,数据仓库设计(续),典型的数据仓库设计过程 选取待建模的商务处理 例如, 订单、发票、出货、库存、记帐管理、销售或一般分类帐 选用数据仓库模型 vs. 选择数据集市 选取商务处理的粒度 该粒度是基本的, 在事实表中是
12、数据的原子级 例如, 单个事务、一天的快照等 选取用于每个事实表记录的维 典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态 选取将安放在事实表中的度量 典型的度量是可加的数值量, 如dollars_sold和units_sold,2020/7/8,数据仓库与OLAP技术,18,三层数据仓库结构,2020/7/8,数据仓库与OLAP技术,19,三层数据仓库结构(续),底层是仓库数据服务器 一般是关系数据库系统 使用后端工具和实用程序, 由操作数据库或其他外部数据源 (如由外部咨询者提供的顾客侧面信息) 提取数据, 放入底层 这一层还包括元数据库, 存放关于数据仓库和它的内容的信息 中间层
13、是OLAP服务器 关系OLAP (ROLAP) 模型 即扩充的关系DBMS, 它将多维数据上的操作映射为标准的关系操作 多维OLAP (MOLAP) 模型 即专门的服务器, 它直接实现多维数据和操作 顶层是前端客户层 包括查询和报告工具、分析工具和/或数据挖掘工具,2020/7/8,数据仓库与OLAP技术,20,三种数据仓库,企业仓库 (enterprise warehouse) 搜集了跨越整个组织的关于主题的所有信息 提供企业范围内的数据集成 数据集市 (data mart) 包含企业范围数据的一个子集,对于特定的用户是有用的 根据数据的来源不同,数据集市分为独立的和依赖的两类 独立的数据集
14、市: 数据来自一个或多个操作的系统或外部信息提供者, 或者来自在一个特定的部门或地域局部产生的数据 依赖的数据集市中的数据直接来自企业数据仓库 虚拟仓库 (virtual warehouse) 是操作数据库上视图的集合. 为了有效地处理查询, 只有一些可能的汇总视图被物化 虚拟仓库易于建立, 但需要操作数据库服务器具有剩余能力,2020/7/8,数据仓库与OLAP技术,21,数据仓库开发: 一种推荐的方法,以递增、进化的方式实现数据仓库,2020/7/8,数据仓库与OLAP技术,22,数据仓库的使用,通常,数据仓库使用时间越长,它进化得越好 数据仓库应用的三种类型 信息处理 支持查询, 基本统计分析, 使用交叉表, 表, 图表和图进行报告 分析处理 数据仓库数据的多维分析 支持基本的 OLAP 操作, 切片-切块, 上下钻, 转轴 数据挖掘 隐藏模式的知识发现 支持关联, 构造分析模型, 进行分类和预测, 并使用可视化工具提供挖掘结果.,2020/7/8,数据仓库与OLAP技术,23,OLAP与数据挖掘,OLAP向数据挖掘走近了一步 它可以由用户选定的数据仓库子集,在多粒度上导出汇总的信息。这种描述等价于类/概念描述 数据挖掘系统能挖掘更一般的类/概念描述 数据挖掘比传统的OLAP前进了一步 OLAP是数据汇总/聚集工具,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京社会管理职业学院单招职业技能测试题库含答案详解(完整版)
- 2026年内江职业技术学院单招职业适应性考试题库及一套参考答案详解
- 2026年内蒙古化工职业学院单招职业倾向性测试题库及答案详解(典优)
- 2026年保定理工学院单招综合素质考试题库及答案详解(易错题)
- 2026年北海康养职业学院单招职业技能考试题库带答案详解(a卷)
- 2026年克拉玛依职业技术学院单招职业技能测试题库带答案详解
- 2026年厦门华天涉外职业技术学院单招职业技能测试题库附参考答案详解(研优卷)
- 2026年厦门华天涉外职业技术学院单招职业技能考试题库带答案详解ab卷
- 2026年内蒙古化工职业学院单招职业倾向性测试题库及一套完整答案详解
- 2026年信阳涉外职业技术学院单招职业倾向性测试题库及完整答案详解
- 智能网联汽车感知技术与应用 课件 项目1 智能网联汽车感知技术概述
- 2026年沈阳职业技术学院单招职业技能考试题库及答案详解一套
- 港口复工复产安全培训课件
- 2025年本科院校基建处招聘笔试预测试题及答案
- 2023年高考历史真题新课标卷及解析
- 歌颂内蒙古的诗歌
- uom理论考试题库及答案2025
- 2025年文字排版与设计考试试题及答案
- 不良资产差额配资合作协议6篇
- 新能源充电桩施工方案
- 2015-2024年十年高考地理真题分类汇编专题03 地球上的大气(原卷版)
评论
0/150
提交评论