已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘 第第 1 1 章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述 第1章 1.1 数据仓库概述 1.2 数据挖掘概述 1.3 数据仓库和数据挖掘的结合 1.1 数据仓库概述 1.1.1 从数据库到数据仓库 1.1.2 从OLTP到OLAP 1.1.3 数据字典与元数据 1.1.4 数据仓库的定义与特点 1.1.1 1.1.1 从数据库到数据仓库从数据库到数据仓库 (1)“数据太多,信息不足”的现状 (2)异构环境的数据的转换和共享 (3)利用数据进行数据处理转换为利用数据支 持决策 1.数据库用于事务处理 n数据库作为数据资源用于管理业务中的事务处 理。它已经成为了成熟的信息基础设施。 n数据库中存放的数据基本上是保存当前数据, 随着业务的变化随时在更新数据库中的数据。 n不同的管理业务需要建立不同的数据库。例如 ,银行中储蓄业务、信用卡业务分别要建立储 蓄数据库和信用卡数据库。 2.数据仓库用于决策分析 n数据库用于事务处理,数据仓库用于决策分析 n数据库保持事务处理的当前状态,数据仓库既 保存过去的数据又保存当前的数据 n数据仓库的数据是大量数据库的集成 n对数据库的操作比较明确,操作数据量少。对 数据仓库操作不明确,操作数据量大 3.数据库与数据仓库对比 1.1.2从OLTP到OLAP n1.联机事物处理(OLTP) n2.联机分析处理(OLAP) n3.OLTP与OLAP的对比 1.联机事物处理(OLTP) n联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下 的事务处理工作,以快速的响应和频繁 的数据修改为特征,使用户利用数据库 能够快速地处理具体的业务。 nOLTP应用要求多个查询并行,以便将每 个查询分布到一个处理器上。 nOLTP的特点在于事务处理量大,但事务处理 内容比较简单且重复率高。 nOLTP处理的数据是高度结构化的,涉及的事 务比较简单,数据访问路径是已知的,至少是 固定的。 nOLTP面对的是事务处理操作人员和低层管理 人员。 2.联机分析处理(OLAP) n决策分析需要对多个关系数据库共同进行大量 的综合计算才能得到结果。 nE.F.Codd在1993年提出了多维数据库和多维 分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。 nOLAP的基本思想是决策者从多方面和多角度 以多维的形式来观察企业的状态和了解企业的 变化。 3.OLTP与OLAP的对比 OLTPOLAP 细节细节 性数据综综合性数据 当前数据历历史数据 经经常更新不更新,但周期性刷新 一次性处处理的数据量小一次处处理的数据量大 对对响应时间应时间 要求高响应时间应时间 合理 面向应应用,事务驱动务驱动面向分析,分析驱动驱动 1.1.3 数据字典与元数据 1. 数据库的数据字典 2.数据仓库的元数据 1. 数据库的数据字典 数据字典是数据库中各类数据描述的集合 。 (1) 数据项 (2) 数据结构 (3) 数据流 (4) 数据存储 (5) 处理过程 2.数据仓库的元数据 n在数据仓库中引入了“元数据”的概念, 它不仅仅是数据仓库的字典,而且还是 数据仓库本身信息的数据。 n元数据(metadata)定义为关于数据的 数据(data about data),即元数据 描述了数据仓库的数据和环境。 数据仓库的元数据除对数据仓库中数据的 描述(数据仓库字典)外,还有以下三 类元数据 : (1) 关于数据源的元数据 (2) 关于抽取和转换的元数据 (3) 关于最终用户的元数据 1.1.41.1.4数据仓库的定义与特点数据仓库的定义与特点 1.数据仓库定义 (1)W.H.Inmon在建立数据仓库一书中,对数 据仓库的定义为: 数据仓库是面向主题的、集成的、稳定的,不同 时间的数据集合,用于支持经营管理中决策制定过程 。 (2)SAS软件研究所观点: 数据仓库是一种管理技术,旨在通过通畅 、合理、全面的信息管理,达到有效的决策 支持。 2. 2. 数据仓库特点数据仓库特点 (1 1)数据仓库是面向主题的)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一 个宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽 取同一客户的数据整理而成。 在DW中分析客户数据,可决定是否继续给予贷款 。 (2 2)数据仓库是集成的)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成 。 对不同的数据来源进行统一数据结构和编码。 统一原始数据中的所有矛盾之处,如字段的同名异 义,异名同义,单位不统一,字长不一致等。 将原始数据结构做一个从面向应用到面向主题 的大转变。 (3 3)数据仓库是稳定的(不更新的)数据仓库是稳定的(不更新的) 数据仓库中包括了大量的历史数据。数据经集 成进入数据仓库后是根本不更新或极少更新的。 (4 4)数据仓库是随时间变化的)数据仓库是随时间变化的 数据仓库内的数据有时限,如510年,故数据 的键码包含时间项,标明数据的历史时期,这适合 DSS进行时间趋势分析。 而数据库只包含当前数据,即存取某一时间的 正确的有效的数据。 (5)数据仓库的数据量很大 大型DW是一个TB(1000GB)级数据库问题( 一般为10GB级相当于一般数据库100MB的100 倍) (6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统 1.2 数据挖掘概述 1.2.1 从机器学习到数据挖掘 1.2.2 数据挖掘含义 1.2.3 数据挖掘与OLAP的比较 1.2.4 数据挖掘与统计学 1.2.1 从机器学习到数据挖掘 n学习是人类具有的智能行为,主要在于获取知 识。 n机器学习是研究使计算机模拟或实现人类的学 习行为,即让计算机通过算法自动获取知识。 n机器学习是人工智能领域中的重要研究方向。 n20世纪60年代开始了机器学习的研究。 1.2.1 从机器学习到数据挖掘 (1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向 (2) 1989年8月于美国底特律市召开的第一届知识发现( KDD)国 际学术会议; 首次提出知识发现概念 (3) 1995年在加拿大召开了第一届知识发现和数据挖掘( DM)国际学术会议; 首次提出数据挖掘概念 (4) 我国于1987年召开了第一届全国机器学习研讨会。 1.2.2数据挖掘含义 知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为: (头发=黑色)(眼睛=黑色)亚洲人 该知识覆盖了所有亚州人的记录。 1.2.3 数据挖掘与OLAP的比较 1. OLAP的多维分析 OLAP的典型应用,通过商业活动变化的查询 发现的问题,经过追踪查询找出问题出现的原 因,达到辅助决策的作用。 2. 数据挖掘 数据挖掘任务在于聚类(如神经网络聚类)、 分类(如决策树分类)、预测等。 1.2.4 数据挖掘与统计学 n统计学与国家政治有紧密的关系。 n支配着社会现象的法则和方法是概率论。 n通过对全部对象(总体)进行调查,为制定 计划和决策提供依据。 统计学中应用于数据挖掘的内容 (1)常用统计 (2)相关分析 (3)回归分析 (4)假设检验 (5)聚类分析 (6)判别分析 (7) 主成份分析 统计学与数据挖掘的比较 n统计学主要是对数量数据(数值)或连续值数 据(如年龄、工资等),进行数值计算(如初 等运算)的定量分析,得到数量信息。 n数据挖掘主要对离散数据(如职称、病症等) 进行定性分析(覆盖、归纳等),得到规则知 识。 n统计学与数据挖掘是有区别的。但是,它们之 间是相互补充的。 1.3 数据仓库和数据挖掘的结合 1.3.1 数据仓库和数据挖掘的区别与联系 1.3.2 基于数据仓库的决策支持系统 1.3.3 数据仓库与商业智能 1.3.1 数据仓库和数据挖掘的区别与联系 1. 数据仓库与数据挖掘的区别 2.数据仓库与数据挖掘的关系 3.数据仓库中数据存储特点 4.数据仓库中数据挖掘特点 1. 数据仓库与数据挖掘的区别 n数据仓库是一种存储技术,它能适应于 不同用户对不同决策需要提供所需的数 据和信息。 n数据挖掘研究各种方法和技术,从大量 的数据中挖掘出有用的信息和知识。 2.数据仓库与数据挖掘的关系 n数据仓库与数据挖掘都是决策支持新技术。 但它们有着完全不同的辅助决策方式。 n在数据仓库系统的前端的分析工具中,数据 挖掘是其中重要工具之一。它可以帮助决策 用户挖掘数据仓库的数据中隐含的规律性。 n数据挖掘用于数据仓库实现决策支持,如: (1)预测客户购买倾向; (2)客户利润贡献度分析; (3)分析欺诈行为; (4)销售渠道优化分析等。 n数据仓库和数据挖掘的结合对支持决策会起更 大的作用。 3.数据仓库中数据存储特点 由于数据仓库不同于数据库,数据挖掘也 随之发生变化。 (1)数据存储方式的不同 (2)数据存储的数据量的不同 (3)数据存储的结构不同 4.数据仓库中数据挖掘特点 (1)数据挖掘从数据仓库中挖掘更深层次 的信息 (2)数据仓库为数据挖掘提出了新要求 数据挖掘需要可扩展性 数据挖掘方法需要能挖掘多维知识 1.3.2 基于数据仓库的决策支持系统 数据仓库的决策支持功能有: (1) 对当前和历史数据完成查询和报表处理 (2) 可以用不同方法进行“如果,将怎样 (what-if)”分析 (3) 从综合数据到细节数据,深入追踪钻取查 询,寻找问题出现原因 (4) 认清过去的发展趋势,并将其应用于对未 来结果的分析 n数据仓库中有大量的综合数据,为决策者提供了综合 信息。数据仓库保存有大量历史数据,通过预测模型 计算可以得到预测信息。 n联机分析处理(OLAP)对数据仓库中的数据进行多维 数据分析,即多维数据的切片、切块、旋转、钻取等 ,得到更深层中的信息和知识。 n数据挖掘(DM)技术能获取关联知识、时序知识、聚 类知识、分类知识等。 n数据仓库(DW)、联机分析处理(OLAP)、数据挖 掘(DM)等结合,形成决策支持系统。 1.3.3数据仓库与商业智能 n1. 商业智能的概念 n2. 商业智能辅助制定更好更快的决策 1. 商业智能的概念 n商业智
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁商贸职业学院教师招聘考试备考题库及答案解析
- 2026湖南衡阳市消防救援局面向社会招聘政府专职消防员99人农业笔试备考题库及答案解析
- 2026年大庆职业学院教师招聘考试备考试题及答案解析
- 市政管道清淤施工方案
- 2026年大连理工大学城市学院教师招聘考试备考试题及答案解析
- 2026年项目合同管控方案
- 2025-2026湖南长沙中南大学专职辅导员招聘农业考试参考题库及答案解析
- 2026年黄冈职业技术学院教师招聘笔试备考试题及答案解析
- 2026年河南机电职业学院教师招聘考试备考试题及答案解析
- 2026年徐州生物工程职业技术学院教师招聘考试备考题库及答案解析
- 2026年3年级竞赛试题及答案
- 2026山西晋中市寿阳县国有资本运营有限公司及下属公司中高层管理人员招聘12人考试备考题库及答案解析
- 2026年3月15日九江市五类人员面试真题及答案解析
- 2026“蓉漂人才荟”成都东部新区事业单位公开招聘事业人员(30人)笔试参考题库及答案解析
- 机械类专职安全生产管理人员(C1)题库
- 第5课艰辛探索与曲折发展(教学课件)
- 飞机维护技术基础
- PLC基础知识教学课件
- 湖北2025年农业专业技术中级职务水平能力考试(农学)试题及答案
- 消防设施操作员中级监控题库附答案
- 食源性疾病培训考试试题及答案
评论
0/150
提交评论