《数据仓库与数据挖掘》复习_第1页
《数据仓库与数据挖掘》复习_第2页
《数据仓库与数据挖掘》复习_第3页
《数据仓库与数据挖掘》复习_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2011春季数据仓库与数据挖掘回顾概述1、业务智能请参阅:BI是用户积累和大量数据的解决方案转换为易于理解的业务信息以支持决策。成语。2、定义Kimball的数据仓库请参阅:DW只是组成它的数据集市的联合。成语。3、定义数据仓库的Inmon请参阅:面向主题,合并,随时间变化,非易失性支持管理决策过程的数据集合。成语。4、ETL 请参阅:数据提取、转换和装载、数据预处理和安装在DW上。成语。5、数据仓库总线矩阵请参阅:此矩阵将公司业务流程映射到参与这些流程的实体或对象。矩阵中的每行对应于业务进程,每列描述对象并参与各种业务进程。成语。6,事实参阅:衡量某些事件的结果。成语。7,维请参阅:维是描述业务对象的维模型的基础。成语。8、粒度请参阅:事实表包含信息的详细程度。成语。9,维度模型请参阅:中央事实表格(或多个事实表格),以及与其相关的维度。工作维模型称为星形模式,因为实际表位于中心,所有维表都围绕星形结构。成语。10、业务流程维模型请参阅:业务流程的维模型集合。成语。11、多维数据集(也称为数据多维数据集)是多维分析结构,由OLAP的维和一个或多个度量组组成12、部署请参阅:将多维数据集的定义发布到OLAP服务器的过程。成语。13、OLAP联机分析处理使用多维数据结构和层次作为导航来汇总数据并支持决策。14,代理密钥请参阅:DW/BI系统需要数据仓库数据库中的一系列和事务处理源系统中的关键点分离的全新关键点称为代理关键点。数据仓库的ETL中与业务密钥无关的手动密钥15,渐变维请参阅:属性值可以更改的维。分为值的变更需要追踪,不需要追踪物种。成语。16、聚合请参阅:预先计算的汇总表,提高查询性能的主要目标。成语。17、星型模型请参阅:数值表和多个维表组成的模型。事实上,表和维表是一对多关系。事实表位于中心,所有维表都围绕在周围,类似于星形结构。成语。18、雪花模型请参阅:雪花模型是将维表中的字段与查找表相关联所得到的结果。成语。19、数值星座模型通过共享维形成的多个星形模型或雪花模型的多个数值表多维表的模型20、多维数据库请参阅:将数据存储为多维数据组,主要用于存储OLAP服务器上的数据存储结构。成语。21,SQL Server 2005中的维级别22、SQL Server 2005中的属性层次结构SQL Server Analysis Service默认为由每个维中的每个属性组成的单个层次结构23、数据挖掘参考答案:从大量数据中提取有趣的模式或知识(有趣的是暗示,不平凡,事先不知道,潜在有用的东西)24、数据挖掘的两个一般功能类别参考答案:描述数据挖掘和预测数据挖掘。前者用于描述数据集的一般特性,后者推断现有数据以对新实例(属性的值)进行预测。成语。25,OLAM 参考答案:联机分析管理、联机分析挖掘、OLAP和数据挖掘相结合的数据导航分析是未来基于数据仓库的数据分析的趋势。26、简要了解关联分析(也称为关联规则挖掘或购物车分析)、分类、回归和集群分析功能关联:在事务处理数据库中发现不同商品(要素)之间的关联分类:预测分散式属性的值回归:预测连续属性值丛集分析:将资料分类为其他类别或丛集27、在数据仓库(如ETL)的所有方面拥有最高市场份额的企业请参阅(1)OLAP市场,Microsoft第一家;(2)ETL市场的三大主流:Powercenter(美国信息公司)-ETL市场的老板;DataStage(IBM公司);ETL Automation(数据仓库)老板美国Teradata公司。DI(Data Integrator(BO公司)28、数据库和数据仓库之间的差异参考答案:(1)应用程序用途不同:数据库主要用于建立连接自动生成新数据的机器转换(OLTP)系统。每个事务处理通常涉及的记录(record)较少。数据仓库主要用于构建基于分析的决策支持系统,而不创建从OLTP系统或其他数据源生成的新数据。(2)数据持续时间不同:数据库通常保存新的业务数据。数据仓库将历史业务数据保留5-10年。(3)数据的业务范围不同:数据库系统通常侧重于本地业务范围的事务。数据仓库通常侧重于整个企业的整个业务。(4)使用的设计技术不同。数据库是面向事务的,使用三种范式(3NF)建模。数据仓库是面向主题的,使用三种范式(3NF)或维模型进行建模。(5)主要技术差别:数据库系统具有大量数据查询和数据更新,应重点关注多种数据处理技术,包括数据更新和并发控制技术,数据仓库以数据查询为主,数据更新较少,因此应考虑提高数据查询性能,而不过度考虑数据更新和并发控制。成语29、数据仓库的两大技术学校和主要区别。请参阅:Inmoon和Kimball .(1)数据仓库定义的差异:Bill Inmon将数据仓库定义为“面向主题、集成、随时间变化的数据集合,用于支持管理决策过程”。Ralph Kimball说:“数据仓库只是构成它的数据集市的联合。”(2)关于如何构建数据仓库的争议:enmen的“Building the Data Warehouse”(构建数据仓库)引入了top-down(top-down)方法,倡导了3范式的数据仓库模型设计,他生命中的好朋友Ralph KimballEnmen认为星形模型仅适用于数据集市,而不适用于数据仓库(星形模型适合于数据集市)。(3)了解数据集市的差异: Inmon:用于部门的小型数据仓库BPR,Kimball:用于业务流程(Process)的小型数据仓库3354BPM。成语30,Kimball学派主张用基于哪四个主要原则的迭代方法构建数据仓库系统请参阅:(1)事业中开始起点。(2)构建信息基础结构设计一个集成、易于使用、高效的基于信息的平台,以满足企业内部的各种要求;(3)在时间表中,对应于6-12个月的每个期间,将根据业务价值划分优先级。(4)完整解决方案发布提供的DW只是一个开始,还提供了即席查询、报告、OLAP、DW等BI应用程序。成语31,多对多维(或多值维)如何表示?包括哪两类?【参考答案:多对多的需要添加桥表以表示。这包括两类:维表和事实表之间的多对一、维表和维表之间的多对一。前者将桥接表连接到事实表,后者将其中一个维表连接到事实表。成语使用32、22矩阵确定每个业务流程相应子项的优先级的方法。注:优先级划分流程是包括DW/BI团队、DW/BI项目的业务发起人以及公司各部门的其他主要高级管理人员的计划会议。会议将说明企业需求收集过程中确定的业务流程,以便每个人都了解每个业务流程的可能性。参加此次会议需要准备PowerPoint演示文稿以说明每个业务流程,列出要支持的相关分析的一些示例,以提高对这些分析业务价值的感性认识,包括为实现业务流程(可行性)而做出的努力的级别。描写要尽可能清晰明了。将演示时间控制在2小时以内。描述每个业务流程时,还说明了提供所需数据所涉及的努力。如果每个人都了解业务流程和术语,就可以休息一会儿。会议后半部分包括区分业务流程的优先级。引导会议组将每个苛刻的业务流程注释放置在2-2 (two-by-two)网格中。成语。33、SQL SERVER 2005的三个版本之间的差异。【参考】:标准版、企业版和开发版。关于多数人小型和中型实施,标准版也可能足够。如果数据卷度量为50GB或更小的无索引数据,则不需要在企业版中使用可扩展属性。根据增量加载的卷、频率和正常运行时间的要求,最高250GB的中等大小数据量实施也可以在标准版中运行。对于大型、实时或其他困难的实施,应计划企业版。无论使用哪个版本,开发人员都必须使用开发版本。除了在标准或企业之间进行选择外,还需要确定是使用32位平台还是64位平台。成语。34、SQL SERVER 2005中的活动缓存技术。参考:对于低延迟资料库,作用中的快取拓朴针对实时立方体(或接近实时的立方体)。使用者设定作用中快取时,Analysis Services会监视测量群组的分割关联来源,并要求在资料变更时自动执行增量处理。成语。事实上,表分为哪三类?有什么区别吗?请参阅:事务处理、周期快照和累计快照。提到现在为止大多数事实表属于事务处理类型。事务处理事实表跟踪在非连续时间点发生的每个事务处理。周期快照事实表捕获特定时间间隔的累积性能,对于在同一值链的多个业务流程中组合数据非常有用。期间快照数值还在时间间隔内聚合了大量数值,并为用户提供了获取数值总数的快速方法。月末关闭后,累积快照是在特定时间点获取快照的位置,例如,随着时间的推移经常更新。累积快照通常由日期字段组成,当问题中的项目通过值链中的每个业务流程或里程碑时,捕获日期。累计快照提供延迟传送的订单的状态和已完成订单的历史记录,以详细查看历史记录,以便进行感兴趣的衡量。成语。36、BI行业2007-2008年最多3个企业收购案例,并列出当前4大主要企业。【注意事项:Oracle (Oracle、Oracle)收购了Hyperion、happoron,SAP收购了boajie software corporation(Business Objects,Objects)IBM、Oracle、SAP、Microsoft。成语。37、定义业务要求的主要步骤(1)定义初始项目范围、业务范围(2)定义企业业务需求(3)确定需求优先级(4)项目计划(5)定义项目业务需求38、企业业务需求定义流程的主要阶段参阅:(1)准备;(2)销售人员和IT访谈人(3)采访摘要和分析主题;(4)数据审核/数据记录;(5)确定支持分析主题的业务流程。(6)建立初始DW总线矩阵;(7)生成全局需求文档。成语。39,典型数据仓库/业务智能(DW/BI)系统三层体系结构。请参阅:数据收集层(ETL)、数据存储层(ODS和数据仓库)和数据演示层(即时查询、报表、OLAP和数据挖掘)。成语40、使用三种可选模式(mollap,OLAP数据库数据的物理存储)简要介绍数值数据和维数根据可以采取的存储模式和每个模式的数据存储位置。在这三种模式中,哪种模式最节省存储空间?请参阅:mollap:树叶数据和聚合存储在Analysis Services中的mollap格式。HOLAP:叶数据存储在关系数据库中,聚合存储为MOLAP格式。ROLAP:树叶数据和聚合都存储在源关系数据库中。MOLAP最节省存储空间。成语41、维建模的主要阶段和每个阶段的主要结果(或检查点)。请参阅:第一个是高级维模型设计会话/流程(session),它定义了业务流程维模型的边界。然后是详细模型开发阶段,包括以表格形式填充属性列表,解决各种问题和不确定性。最后一步是审阅、重新设计和验证

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论