数据仓库与数据挖掘考试习题汇总_第1页
数据仓库与数据挖掘考试习题汇总_第2页
数据仓库与数据挖掘考试习题汇总_第3页
数据仓库与数据挖掘考试习题汇总_第4页
数据仓库与数据挖掘考试习题汇总_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章1、数据仓库是面向主题、集成、相对稳定、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和构建方法的数据,它提供用于访问数据仓库的信息目录,数据仓库的元数据可以根据数据用途分为技术元数据和业务元数据。3、数据处理一般分为联机事务和联机分析处理两类。4、多维分析是指通过允许由“维”组成的数据(立方)执行各种分析任务(如切片、切片、钻取和旋转)来从不同的角度和角度观察数据仓库中的数据,从而深入了解立方中的信息。5、ROLAP是基于关系数据库的OLAP实现,MOLAP是基于多维数据结构组织的OLAP实现。6、数据仓库根据开发过程执行数据提取、管理和数据性能等关键元素。7、数据仓库系统的体系结构可以根据应用程序要求分为两层体系结构、独立数据收集、后续数据合并和基于操作的数据存储、逻辑数据集和实时数据仓库四种类型。8、生产数据存储实际上也称为集成主题导向、可更新、当前值(但可以是“易失性”)、企业级、详细数据库、生产数据存储。9、“实时数据仓库”在源数据系统、决策支持服务和仓库之间以接近实时的速度交换数据和业务规则。10、从应用角度来看,数据仓库的发展演变可以概括为五个阶段:基于报告、基于分析、基于预测模型、以操作为中心、实时数据仓库和自动决策。第二章1、协调数据是存储在企业级数据仓库和基于操作的数据存储中的数据。2、提取、转换、加载过程的目的是为决策支持应用程序提供一个权威的数据源。因此,ETL流程生成的数据(即调整数据层)必须具有详细、历史、规范、可理解、即时和质量控制能力。3、数据提取的两种常见类型是静态提取和增量提取。静态提取用于初始填充数据仓库,增量提取用于维护数据仓库。4、粒度是数据仓库中数据整合程度的度量。粒度越小,详细程度越高;集成级别越低,回答查询的种类越多。5、使用星型模式可以在一定程度上提高查询效率。这是因为星形模式下的数据组织经过预处理,关键数据位于大规模事实表中。6、维表通常由主键、分类级别和说明属性组成。可以为主键选择两种方法。一种是使用主键,另一种是使用代理主键。7、雪花方案通过星型模式维表的其他层次结构和规范化消除重复数据。8、数据仓库中有不同级别的数据。通常,数据分为四个级别:初始详细等级、当前详细等级、轻微综合等级和高综合等级。第三章1、SQL Server SSAS作为现有报告、在线分析处理、关键性能指标记分卡和数据挖掘的基础,提供了对所有业务数据的同意合并尝试。2、数据仓库的概念模型通常使用信息打包方法设计,该方法需要对五个组件(包括名称、维、类别、层次结构和度量)进行全面说明。3、数据仓库中的逻辑模型通常使用星形图表方法设计,必须完全描述星形类型的所有逻辑实体。4、根据事实表中度量的可加性,可以将与事实表相对应的事实分为四种类型:事务处理事实、快照事实、线性条目事实和事件事实。5、确定数据仓库的粒度模型后,还必须根据支持要求设计聚合模型,以提高数据仓库的使用性能。6、在项目实施中,根据事实表的性质和支持的查询要求,可以选择不同的数据分区类型,例如时间、业务类型、区域和子组织。7,如果维表的主键没有与事实表中的外键相关联,则此维称为退化维。事实表格没有关系,但查询限制有时需要订单编号、出货编号等。8、维可以根据更改速度分为三类:元更改维、慢更改维和急剧更改维。9 .通常,数据仓库中的数据量很大,数据很少更新,因此可以设计和优化索引结构以提高数据访问性能。10、数据仓库数据库的典型存储优化方法包括表合并和群集文件、反向规范化引入重复项,以及表的物理分区(分区)。第四章1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grown算法更有效。2,L2=a,b、a,c、a,d、b,c、b,d连接生成的C3=a,b,c,a,b,d,a,c,d,b,c,d重新修剪,C3=a,b,c,a,b,d3,supmin=50%设置,以下事务处理集然后L1=A,B,C L2=A,CT1 A B CT2 A CT3 A DT4 B E F第五章1、分类过程包括数据导入、预处理、分类器设计和分类决策。2、分类器设计阶段包括数据集分割、分类器配置和分类器测试三个过程。3、分类问题中常用的评价标准为准确度、合格率和合格率及聚合平均值。4、支持向量机中常用的内核函数是多项式内核函数、radial basis函数和s-core函数。第六章1、聚类分析包括连续、二进制离散、多值离散和混合类型四类描述属性的相似性计算方法。2、连续属性的数据样本之间的距离是欧几里得距离、曼哈顿距离和闵可夫斯基距离。3、聚类数据集的分割聚类方法,选择用作数据样本减少相似度度量的距离,选择评价聚类性能的基准函数,选择初始分类,然后使用迭代方法获取聚类结果,以便评价聚类的基准函数获得最佳值。4、分层聚类方法包括凝聚和分解两种分层聚类方法。填空20分,单答25分,计算问题2(25分),综合问题30分1、配置数据仓库?P2数据仓库数据库、数据提取工具、元数据、访问工具、数据集市、数据仓库管理、信息发布系统2、数据挖掘技术对群集分析的要求是什么?P131可扩展性;处理不同类型属性的能力发现任意形状聚类的能力;减少对预先知识和自定义参数的依赖。处理噪声数据的能力解释性和实用性3、数据仓库在存储和管理方面的特点和关键技术?P7数据仓库面临大量数据存储和管理并行处理优化决策支持查询支持多维分析的查询模式4、一般的聚类算法可以分为几类?P132基于分割的群集算法、基于层次的群集算法、基于密度的群集算法、基于网格的群集算法、基于模型的群集算法等5、典型的数据仓库系统配置?P12数据源、数据存储和管理、OLAP服务器、前端工具和应用程序6、数据仓库的一般存储优化方法?P71表合并和群集文件;逆向标准化,引入冗余;表格的实体分割。7、数据仓库开发和演化的五个阶段?P20主要使用报告以分析为主基于预测模型以执行向导为主的实时数据仓库,应用自动决策8、ID3算法的主要缺点?P116(1)ID3算法在选择根节点和每个内部节点的分支属性时,使用信息增益作为评估基准。信息增益的缺点是倾向于选择更多值的属性,在某些情况下,这些属性可能不会提供太多有价值的信息。(2)ID3算法只能为属性为离散属性的数据集配置决策树。9、概述数据仓库ETL软件的主要功能以及创建数据的目标要求。P30ETL软件的主要功能:数据提取、数据转换、数据加载数据生成的目标要求:详细的、历史的、标准化的、可理解的、即时的、质量控制的10、简述了分类器设计阶段包含的三个过程。数据集分割、分类器配置、分类器测试11、什么是数据清洗?P33数据清洗是在使用模式识别和其他技术将原始数据转换和移动到数据仓库之前升级原始数据质量的技术。12、支持和置信度计算公式和数据计算(P90)查找所有规则X Y,使支持和可靠性分别大于阈值支持。事务处理的X和Y同时发生的比率,p (x y)置信度:发生要素集X时Y同时发生的条件概率P(Y|X)Example:13、使用信息包图设计数据仓库概念模型需要确定的三个方面。P57标识指示器,确定维,确定类别14,K-最近折叠分类方法的操作步骤,包括算法的输入和输出。P12815、什么是技术元数据,主要包括哪些内容?P29技术元数据是描述数据仓库技术详细信息的数据,适用于DW的开发、管理和维护,包括:l DW结构的说明,如DW的模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容l业务系统、DW和数据集市的体系结构和模型l聚合算法。包括度量和维定义算法,如数据粒度、主题区域、聚合、聚合和预定义查询和报表。l从生产业务环境映射到数据仓库业务环境。包括源数据和内容、数据分区、数据提取、清理、转换规则和数据刷新规则,以及安全性(用户授权和访问控制)16、主要包含业务元数据的内容?P29业务元数据:从业务角度描述DW中的数据,提供用户和物理系统之间的语义层次,主要包括:l用户的业务属于表示的数据模型、对象名称和属性名称l访问数据的原则和数据的来源l系统提供的分析方法和公式和报告信息。17,K-means算法的基本操作步骤,包括算法的输入和输出。P13818、将数据从装配区域加载到数据仓库的主要方法?P36L SQL命令(例如Insert或Update)L DW供应商或第三方提供的特殊加载工具L DW管理员创建用户程序19、多维数据模型的基本概念:维、维类别、维属性、粒度P37l维:人们查看数据的特定透视。这是考虑时间维或产品维等问题的属性类型l维类别:也称为维分层。也就是说,时间维度可以具有详细资讯层级不同的每个类别属性,例如年、季和月l维属性:维的值,是维中数据线位置的说明。l粒度:DW的数据合成水平测量。粒度低,细节优秀,对查询种类的回答很多-嗯?-嗯?20、Apriori算法的基本操作步骤P93C Apriori使用一种称为分层搜索的迭代方法,用于导航K 1项目集。c此方法是基于候选策略减少候选人数量C Apriori修剪原则:如果不经常使用要素集,则不应经常使用其超集(无需创建和测试超集)c该原则基于以下支持的特点:c电子项目集不超过子集e支持功能的抗单调功能:如果集合未通过测试,则所有相应的超集也无法通过相同的测试。c命令k=1创建c长度为1的频繁项目集c循环,直到生成新的频繁要素集在e长度为k的频繁要素集中创建长度为k 1的候选频繁要素集h链接步骤:对要素集中的要素进行排序,前k-1个要素相同e候选频繁子集包含长度为k的不频繁子集时修剪h修剪步骤:使用支持属性原则扫描e数据库以计算每个候选频繁集的支持程度e删除不频繁的项目,保留频繁的项目什么是数据仓库?数据仓库是主体导向、整合、时变和非易失性数据的集合,用于支持管理过程的决策过程排除数据仓库并提供对决策没有帮助的数据的特定主题的简明视图。整合和配置多个异构数据源数据仓库始终在物理上分离数据,在生产环境中应用数据操纵的数据更新不会发生在数据仓库环境中。2线上交易处理线上交易处理(OLTP)现有关系DBMS的主要任务他们涵盖了一个组织的大部分日常运营,如采购、库存、制造、银行、工资、登记、簿记等。线上分析处理线上分析处理(OLAP)数据仓库系统的主要任务数据分析和决策OLTP和OLAP之间的差异面向用户和系统的:OLTP面向客户,而OLAP面向市场数据内容:OLTP系统管理当前数据,而OLAP管理历史数据。数据库设计:OLTP系统采用物理连接(ER)模型和面向应用程序的数据库设计,OLAP系统通常使用star和snowflake模型视图:OLTP系统主要关注一个企业或部门中的当前数据,而OLAP系统主要关注汇总的合并数据。访问模式:OLTP访问主要由短原子事务处理组成,但是对OLAP系统的访问可能是复杂的查询,但这是只读操作数据仓库和OLAP工具基于多维数据模型。此模型将数据视为数据立方体。数据立方体使您可以从多维模型化和观察数据。由维持和平事实定义。3应用最广泛的数据仓库数据模型是可以以星形模式、雪花模式或数值星座模式形式存在的多维模型。建立资料仓储模型:维度和计量星形模型:最常见的模型示例是数据仓库中具有(1)大量数据、无重复的中心表(数值表)的星形模式。(2)一组较小的子表(维表),每个维对应一个子表。中间是连接一系列维表的事实表雪花模式:雪花模式是星形模式的一种变体,其中某些维表已规范化,数据已进一步分解为其他维表,其图形与雪花的外观类似事实上,星座表:多个事实表共享维表,这种模式可以通过星形模式和来查看,因此称为银河模式或事实星座数据立方度量是一个数值函数,用于评估数据立方空间中的每个点。针对指定点的每个维度-值配对聚总资料,以计算该点的计量值。根据使用的聚集函数类型,度量可以分为三个类别:分布、代数和整体。概念层次定义了将低级概念映射到更一般的高级概念的映射序列。使用多维数据模型的OLAP(1)上圈:上圈作业会沿着一个维度的概念分层往上移,或透过维度提供聚总资料立方结构。(2)深入:深入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论