已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库和数据挖掘技术复习提纲一数据库、数据库管理系统与数据仓库1从传统数据库到数据仓库、宏观原因(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策微观原因(1). 系统响应问题(2).数据集成问题(3)历史数据问题4)数据的综合问题5)数据的访问问题1 数据仓库与传统数据库的区别。数据库数据仓库面向应用面向主题数据是详细的数据是综合或提炼的保持当前数据保存过去和现在的数据数据是可更新的数据不更新操作需求事先可知操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询的是原始数据查询的是经过加工的数据事务处理需要的是当前数据决策分析需要过去现在的数据很少有复杂的计算很多复杂的计算支持事务处理支持决策分析2数据仓库的定义及其基本特征。数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。特征:(1)数据仓库的数据是面向主题的(2)数据仓库是集成的(3)数据仓库是不可更新的(4)数据仓库是随时间变化的5)数据仓库的数据量很大6)数据仓库软、硬件要求较高2 数据仓库与数据挖掘的联系和区别。联系(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源(2)数据仓库为数据挖掘提供了新的支持平台(3)数据仓库为更好地使用数据挖掘工具提供了方便(4)数据挖掘为数据仓库提供了更好的决策支持(5)数据挖掘对数据仓库的数据组织提供了更高的要求(6)数据挖掘数据仓库提供了广泛的技术支持区别1数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含大量的历史数据、当前的详细数据以及综合数据,能为不同用户的不同决策需求提供所需的数据和信息。2数据挖掘是从人工智能机器学习中发展起来的,研究各种方法和技术,从大量的数据中挖掘有用的信息和知识3数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。4在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。二数据仓库原理1 数据仓库概念结构、总体层次结构及其结构模式。从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具.数据仓库的总体层次结构应该由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成数据仓库的结构模式(1)数据仓库的自顶向下结构,(2)数据仓库的自底向上结构,2 数据集市概念、结构及其特性。概念:是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据进行管理决策。是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径特性:1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库结构3 数据仓库系统的组成。(源数据)数据仓库,仓库管理,分析工具4 数据仓库的数据组织。一般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据五部分5 粒度。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。数据量越多,细化程度越高,粒度级就越小;综合级别越低。6 数据仓库模型、星型模型、物理模型的性能问题。在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型ER图(ERD)。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据物理数据模型是依据中间层的逻辑数据模型而创建的,它通过确定模型的键码属性和模型的物理特性,扩展中间层数据模型而建立。此时,物理数据模型就由一系列表所构成,其中最主要的是事实表模型和维表模型采用以下技术进行数据仓库的物理数据模型设计(1合并表2简历数据序列3引入冗余4表的物理分割5生成导出数据6建立广义索引7 元数据的定义、分类及作用。定义为关于数据的数据,即元数据描述了数据仓库的数据和环境作用:(1)改善与系统的交互(2)提高数据质量(3)支持系统集成(4)支持系统的分析、设计和维护(5)增加灵活性按元数据的类型分类:(1)关于基本数据的元数据(2)用于数据处理的元数据(3)关于企业的组织结构的元数据按对象级别分类(1)概念级 2)逻辑级 3)物理级从用户的角度分类1)业务元数据 (2)技术元数据从来源的角度分类(1)工具产生的元数据 (2)源提供的元数据 (3)企业模型 4)系统导入的元数据 5)特定的用户产生的元数据;从元数据的目的角度分类1)用于信息的元数据 2)用于控制的元数据三数据仓库设计与开发1 数据仓库需求分析、逻辑模型设计的主要工作,星型模型设计的步骤。需求分析1.确定主题域2.支持决策的数据来源逻辑模型设计主要工作为:(1)进行概念模型(ER图)到逻辑模型(星型模型)的转换(2)粒度层次划分3)关系模式定义(4)定义记录系统星型模型的设计步骤如下:(1)确定决策分析需求(2)从需求中识别出事实(3)确定维4)确定数据汇总水平5)设计事实表和维表6)随着需求变化修改设计方案2 数据仓库开发过程。分析与设计【需求分析-概念设计-逻辑设计-物理设计】-数据获取【据抽取-数据转换-数据装载】-决策支持【信息查询-知识探索】-维护与评估【数据仓库增长-数据仓库维护-数据仓库评估】四联机分析处理On Line Analytical Processing1 OLAP 的相关概念及主要特征。OLAP是在OLTP的基础上发展起来的。OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。 OLAP是以数据仓库为基础的数据分析处理。它有两个特点:一是在线性(On Line),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。特征:快速性,多维性,可分析性,信息性,共享性基本概念:(1)变量 :变量是数据的实际意义,即描述数据“是什么”。 (2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。 (3)维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。 (4)维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。 (6)数据单元(单元格): 多维数组的取值称为数据单元。2 OLAP的数据模型。建立OLAP的基础是多维数据模型,MOLAP和ROLAP是OLAP的两种主要形式,其中MOLAP是基于多维数据库的OLAP,简称多维OLAP;ROLAP是基于关系数据库的OLAP,简称关系OLAPMOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构。二维MDDB(数组,即矩阵)的数据组织北京上海广州衣服600700500鞋800900700帽子10020080 MDDB的数据组织形式不同于关系数据库的组织形式,关系数据库是以“属性元组”形式组织数据关系数据库RDBMS数据组织产品名地区销售量衣服北京600衣服上海700衣服广州500鞋北京800鞋上海900鞋广州700帽子北京100帽子上海200帽子广州80n 多维数据库比关系数据库表达清晰且占用的存储少。n 对于多维数据库的综合数据项明显比关系数据库的综合更有效果。ROLAP是基于关系数据库的OLAP。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型。星型模型完全用二维关系表示了数据的多维概念 MOLAP和rolap比较:MOLAP数据存储速度性能好,响应速度快。ROLAP使用的传统关系数据库的发在存储容量上基本没有限制,但常常构造大量的中间表,带来了冗余数据。MoLap能够支持高性能的决策支持计算,包括复杂的跨为计算、行级的极端,而在OLAP中SQL无法完成部分计算,无法完成多行的计算和维之间的计算。ROLAP对维表有更好的适应性。ROLAP灵活性较好,对数据变化的适应性高,对软硬件平台的适应性好。MOLAP将元数据作为内在数据,rOLAP将元数据作为应用开发的一部分,由设计者来定义处理。MOLAP以多维数据库为核心,在数据存储和综合上有明显的优势,但她不适应太大的数据存储,特别是对有大量稀疏数据的的存储将会浪费打量的存储空间。ROLAP以RDBMS为基础,利用成熟的技术为用户的使用和管理带来方便.HOLAP,即混和OLAP介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。 3 举例说明什么是OLAP 的切片、上探、下钻操作。三维数据,通过“切片” ,分别从城市和产品等不同的角度观察销售情况切块就是将完整的数据立方体切取一部分数据而得到的新的数据立方体向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上钻取获取概括性的数据数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据五数据仓库的管理和应用1 休眠数据的定义、产生途径、查找及其解决方案。休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。休眠数据的产生在数据仓库中输入了过多的近期基本数据。 过多的增加了不必要的综合数据。超过预测需求的历史数据均是休眠数据 查找休眠数据的最好方法是监视用户查询数据仓库的活动。 监视用户查询的SQL语句。监视返回给用户的查询结果数据集处理(1)直接删除休眠数据(2)对休眠数据归档存储3)邻线存储2 脏数据的定义。脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据3 数据仓库的决策支持方式。1查询与报表(使决策者了解目前发生了什么)2多维分析与原因分析(让决策者了解为什么会发生)3预测未来(使决策者了解将要发生什么)4实时决策(解决当前的实际问题)5自动决策*(达到希望发生什么)六. 数据挖掘1 什么是数据挖掘。数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的。提取的知识表示为概念、规则、规律、模式等形式2 数据挖掘的步骤、主要功能。步骤:数据准备、数据挖掘、结果表述和解释功能:关联分析,时序模式,聚类,分类,偏差检测,预测3 数据挖掘的对象。主要是关系数据库和数据仓库,逐步扩大到半结构化或非结构化数据(主要是文本数据,图像与视频数据以及WEB数据等)4 关联规则的基本原理、挖掘过程、分类。关联规则的挖掘一般分为两个过程:(1)找出所有的频繁项集:找出支持度大于最小支持度的项集,即频繁项集。2)由频繁项集产生关联规则:根据定义,这些规则必须满足最小支持度和最小可信度5 Apriori 算法的基本思想,性质、执行过程。性质:频繁项集的所有非空子集都必须也是频繁的6 分类的定义、分类的步骤、分类方法的评估标准。所谓分类,就是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规则进行分类。步骤:第一步,在已知训练数据集上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学人教六年级下册期末综合测试试题(比较难)及答案解析
- 2026届福州第一中学化学高二第一学期期末教学质量检测试题含答案
- 借款设备建投资合同
- 肇庆日常审计服务合同
- 商场店铺长期租赁合同
- 核酸采集点建设合同
- 云浮市第二学期小学四年级数学期末试卷
- 山东省菏泽市牡丹区三年级下学期语文反问句强化训练
- 亚马逊卖家与工厂合同
- 重庆市江津区小学二年级上学期数学期中测试卷
- 从教走向学讲课件
- 大型储罐拆除专项施工方案
- 品管圈提高首台择期手术开台准点率
- 水利监理大纲
- 防爆电机知识培训总结课件
- 2025秋期版国开电大本科《理工英语4》一平台综合测试形考任务在线形考试题及答案
- 2025年四川省公职人员时事政治考试试题(附含答案)
- 我国抽水蓄能开发情况及储能支撑新型电力系统构建的认识与思考
- 工程结算审核工作方案(3篇)
- 计量法培训课件
- 2025关于石油供应的合同协议书
评论
0/150
提交评论