数据仓库与数据挖掘期末综合复习_第1页
数据仓库与数据挖掘期末综合复习_第2页
数据仓库与数据挖掘期末综合复习_第3页
数据仓库与数据挖掘期末综合复习_第4页
数据仓库与数据挖掘期末综合复习_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据挖掘最终综合审查第一章1、数据仓库是面向主题、集成、相对稳定、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和构建方法的数据,它提供用于访问数据仓库的信息目录,数据仓库的元数据可以根据数据用途分为技术元数据和业务元数据。3、数据处理一般分为联机事务和联机分析处理两类。4、多维分析是指通过允许由“维”组成的数据(立方)执行各种分析任务(如切片、切片、钻取和旋转)来从不同的角度和角度观察数据仓库中的数据,从而深入了解立方中的信息。5、ROLAP是基于关系数据库的OLAP实现,MOLAP是基于多维数据结构组织的OLAP实现。OLAP技术概念:根据存储数据的方式,OLAP可以分为三类:ROLAP、MOLAP和HOLAP6、数据仓库根据开发过程执行数据提取、数据存储和管理、数据性能等关键元素。7、数据仓库系统的体系结构可以根据应用程序要求分为两层体系结构、独立数据收集、后续数据合并和基于操作的数据存储、逻辑数据集和实时数据仓库四种类型。8、生产数据存储实际上也称为集成主题导向、可更新、当前值(但可以是“易失性”)、企业级、详细数据库、生产数据存储。9、“实时数据仓库”在源数据系统、决策支持服务和仓库之间以接近实时的速度交换数据和业务规则。10、从应用角度来看,数据仓库的发展演变可以概括为五个阶段:基于报告、基于分析、基于预测模型、以操作为中心、实时数据仓库和自动决策。11、什么是数据仓库?数据仓库的主要特征是什么?数据仓库通常是指非一种产品的数据库环境,它提供用户用于支持决策的当前数据和历史数据。此数据通常不能在现有数据库中轻松使用。数据仓库是反映面向主题、集成、相对稳定、过去更改的数据集合,通常支持决策支持(如果有)数据仓库具有以下特征:(1)主题导向。生产数据库中的数据组织是一项面向事务的任务,其中每个业务系统都是独立的。数据仓库中的数据按特定主题域进行组织。(2)整合。面向事务的生产数据库通常与特定的相互独立、异构的应用程序相关。也就是说,存储在数据仓库中的数据必须使用一致的命名规则、格式、编码结构和相关属性进行定义。(3)相对稳定。生产数据库中的数据通常实时更新,而且数据会根据需要及时更改。数据仓库中的数据主要用于单元决策分析,主要执行与数据查询和加载相关的数据操作,将数据加载到数据仓库中后,通常存储为很少进行修改和删除操作的数据文件。也就是说,对于数据仓库,通常有很多查询操作和少量定期加载(或刷新)操作。(4)反映历史变化。生产数据库(OLTP)主要关心一段时间内的数据,而数据仓库中的数据通常包含过时的历史数据,因此始终包含允许您调查趋势和更改的时间维。通常,数据仓库系统记录从过去的特定时间点到当前时间点的所有时间段的信息,例如,数据仓库系统开始激活的时间点,从而可以定量分析和预测单元的发展历史和未来趋势。12、数据挖掘的概念数据挖掘是从大量数据中获取有效的、新的、潜在的、有用的、最终可理解的模式的非凡过程,简单地说,数据挖掘也称为从大量数据中提取知识或“挖掘”数据库中的知识发现。数据挖掘方法:直接数据挖掘、间接数据挖掘。13、数据仓库和数据挖掘关系数据仓库与矿山相比,数据挖掘是矿山开采工作。数据挖掘是在数据仓库中查找有用信息的过程和技术。14、数据仓库系统体系结构分类(1)第二层体系结构(Generic Two-Level Architecture)。(2)独立数据集市。(3)依赖型数据集市和基于操作的数据存储库(dependent data mart and operational data store)。(4)逻辑数据集市和实时数据仓库(logical data mart and real-time data warehouse)。15、数据仓库的未来(1)在数据提取方面,未来的技术发展将集中在系统集成上。它将互连、转换、复制、调度、监视与数据仓库本身或数据源可能的更改相集成,从而使系统更易于管理和维护。(2)随着数据管理方面的未来发展,数据库供应商将明确推出与数据库服务器同步的数据仓库引擎,作为数据仓库服务器产品。在这方面,具有决策支持扩展的并行关系数据库最有可能发展。(3)在数据性能方面,数学统计的算法和功能通常集成到在线分析产品中,与internet/web技术紧密集成。按行业应用功能细分的数据仓库用户前端软件将使产品成为数据仓库解决方案的一部分。数据仓库实施过程的方法将更加普遍,成为数据库设计的可靠分支,对管理信息系统设计将是必不可少的列出16、3种数据仓库产品,并说明其优缺点。(1)IBM基于可视数据仓库的业务智能(BI),其中包括Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB、BO等第三方前端数据显示工具,以及SAS等数据挖掘工具其中,VW是一个功能强大的集成环境,可用于数据仓库建模和元数据管理,以及数据提取、转换、装载和调度。Essbase/DB2 OLAP Server支持维的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是混合了ROLAP和MOLAP的HOLAP服务器。Essbase完成数据装载后,数据将保留在系统指定的DB2 UDB数据库中。前端数据显示工具包括Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility中选择。多维分析工具支持Arbor Software的Essbase和IBM(与Arbor共同开发)的DB2 OLAP服务器。统计分析工具使用SAS系统。(2)Oracle数据仓库解决方案主要包括两个部分:Oracle Express和Oracle Discoverer。Oracle Express包含四个工具:Oracle Express Server是多维OLAP(OLAP)服务器,可以利用多维模型存储和管理多维数据库或多维高速缓存,以及访问各种关系数据库。Oracle express web代理通过CGI或web插件支持动态的基于web的多维数据显示。Oracle Express Objects前端数据分析工具(当前仅支持Windows平台)提供图形建模和假设分析功能,支持可视化开发和事件驱动编程技术,支持OCX和OLE提供与支持的Visual Basic语法兼容的语言。Oracle Express Analyzer是适用于最终用户的报告和分析工具(当前仅支持Windows平台)。Oracle Discoverer即席查询工具专门为最终用户设计,分为最终用户版本和管理员版本。实施Oracle数据仓库解决方案时,概要数据通常存储在Express多维数据库中,详细数据存储在Oracle关系数据库中,如果需要详细数据,Express Server将构建SQL语句以访问关系数据库。(3)Microsoft将包括四个部分的OLAP功能集成到SQL Server数据库中,如图1.1所示:BI平台、BI终端工具、BI门户和BI应用程序。 BI平台包括ETL平台SQL server 2005 integration Service(ssis)、数据仓库引擎SQL Server 2005 RDBMS和多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报告管理引擎SQL Server最终用户通常通过Analysis Service的OLAP服务和数据挖掘服务与最终用户工具交互来使用多维数据集和数据挖掘模型,该工具允许使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。 BI门户提供了允许各种用户访问BI信息的统一门户。BI门户是合并来自不同系统的相关信息的数据集合。用户可以开发个性化的个人门户,以选择与自己最相关的数据,并提高信息访问和使用的效率。 BI应用程序是构建在BI平台、BI最终用户工具和BI统一门户上以满足特定业务需求(例如零售业务分析、企业项目管理组合分析等)的应用程序第二章1、协调数据是存储在企业级数据仓库和基于操作的数据存储中的数据。2、提取、转换、加载过程的目的是为决策支持应用程序提供一个权威的数据源。因此,ETL流程生成的数据(即调整数据层)必须具有详细、历史、规范、可理解、即时和质量控制能力。3、数据提取的两种常见类型是静态提取和增量提取。静态提取用于初始填充数据仓库,增量提取用于维护数据仓库。4、粒度是数据仓库中数据整合程度的度量。粒度越小,详细程度越高;集成级别越低,回答查询的种类越多。5、使用星型模式可以在一定程度上提高查询效率。这是因为星形模式下的数据组织经过预处理,关键数据位于大规模事实表中。6、维表通常由主键、分类级别和说明属性组成。对于主键,可以选择两种方法:主键和代理键。7、雪花方案通过星型模式维表的其他层次结构和规范化消除重复数据。8、数据仓库中有不同级别的数据。通常,数据分为四个级别:初始详细等级、当前详细等级、轻微综合等级和高综合等级。9、(1)状态数据和事件数据前者描述对象的状态,后者描述对象发生的事件。(以前的图像)“状态数据”“事件数据”“状态数据”(2)当前和周期数据当前数据仅保留最新数据,现有最新记录更改旧数据。周期数据相反。保存后,数据不会物理更改或删除。通常,每个生命周期数据记录都包含时间戳以及日期和时间。(3)数据仓库的元数据子技术元数据和业务元数据。技术元数据是描述数据仓库技术详细信息的数据,包括对数据仓库结构的说明、业务系统、数据仓库和数据集市的体系结构和模式、摘要算法,以及引导操作业务环境的数据仓库环境的映射。10、业务元数据是从业务角度描述数据仓库中的数据的,它提供了用户和系统的语义层,允许非技术人员“读取”仓库中的数据。包含:(1)用户的业务属于所表示的数据类型、对象名和属性名。(二)数据访问的原则和数据来源;(3)系统提供的分析方法和公式和报告信息。也就是说,元数据是数据仓库的帮助和导航图表11、什么是数据仓库的三层数据结构?数据将根据企业(或其他组织)的数据模型和元数据库调整数据,形成中间数据层,然后根据分析要求,将数据从调整数据层移动到导出数据层(例如,满足各种分析要求的数据集市)的企业数据仓库或基于操作的数据存储库。12、数据仓库中的数据ETL进程是什么?数据的ETL过程是将生产数据转换为调整数据的过程。由于这两种数据之间存在明显的差异,因此数据协调是一个数据仓库部署中最困难、技术最苛刻的部分。在填充企业数据仓库中的数据的过程中,数据调整可以分为两个阶段:首次创建企业数据仓库(EDW)时的原始加载。第二个是下一次定期修改,以保持EDW当前的效率和可扩展性。整个过程包括四个阶段:提取、清理、转换、加载和索引。实际上,这些步骤可以由其他组合组成。例如,数据提取和清洗可以合并为一个过程,也可以合并清洗和转换。通常,在清理过程中发现的拒绝数据信息将被发送回源生产业务系统,并在源系统上进行处理,以便以后重新提取。13、什么是明星模式?其特点是什么?在星形模式下,事实表居中,多个维表呈放射状分布,并与事实表相关联。位于星形中心的实体是事实表,事实表是为数据仓库中的查询操作提供定量数据的用户最关心的基本实体和查询操作的中心。星型模式周围的实体是限制和筛选用户查询结果以缩小访问范围的维实体。每个维表都有自己的属性,维表和事实表通过关键字链接。14,为什么时间总是数据仓库或数据集市的维?信息包图表(也称为用户信息要求表)描述了平面表中元素的多维度,每个维由表示通用维(如时间、位置、产品和客户)的平面表中的一列表示。细分此列的对象为类别。例如,可以将时间维的类别细分为年、月、日或小时。平面表中表示超级立方单元的最后一行是指标度量值,如产品在特定年份的特定销售点的实际销售情况。创建数据包图表时,必须确定最高和最低层的信息要求,以创建最终设计中包含各种层要求的数据仓库。简而言之,信息包方法是自上而下的数据建模方法。即,从用户的角度开始设计(用户的角度与用户交换意见),从管理员的角度关注企业中的一个或多个主题,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论