计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷2_第1页
计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷2_第2页
计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷2_第3页
计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷2_第4页
计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷2_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机三级数据库技术(数据仓库与数

据挖掘)机试模拟试卷2

一、选择题(本题共15题,每题1.0分,共15分。)

1、设有m个的用户集合US={ul,…,um},现对他们的行为数据进行处理,使

得每个用户ui对应一个n维向量Vi=[vil,…,vin],用于表示用户ui的特征。设

有函数sim(Vi,Vj)用于判定用户ui与用户uj之间的相似性。若有算法A,能根据

用户间的相似性,将US划分成k个子集合,并使属于同一子集合的客户间的相似

性尽可能大,不属于同一子集合的客户间的相似性尽可能小。则算法A属于一种

()

A、聚类算法

B、分类算法

C、关联分析算法

D、回预测法

标准答案:A

知识点解析:聚类将一个数据集中的数据进行分组,使得每一组内的数据尽可能相

似而不同组间的数据尽可能的不同。它与分类的一个不同点在于,它强调同一个组

中的对象有较高的相似度,不同组中的对象之间差别很大。分类和聚类的区别在

于,分类事先知道有哪些类别可以分。聚类,事先不知道将要分成哪些类,需有聚

类算法来自动确定。综上可知,算法A属于聚类算法。

2、下面说法正确的是()

A、数据仓库是从数据库中导入的大量数据,并对结构和存储进行组织以提高查询

效率

B、使用数据仓库的目的在于对已有数据进行高速的汇总和统计

C、数据挖掘采用适当的算法,从数据仓库的海量数据中提取具有潜在价值的信息

和知识

D、OLAP技术为提高处理效率,必须绕过DBMS直接对物理数据进行读写

标准答案:C

知识点解析:数据仓库是一个面向主题的、集成的、非易失的,且随时间变化的数

据集合,用来支持管理人员的决策。建立数据仓库的主要目的:根据决策需求对企

业的数据采取适当的手段进行集成,形成一个综合的、面向分析的数据环境,用于

支持企业的信息型、决策型的分析应用。数据挖掘采用适当的算法,从数据仓库的

海量数据中提取具有潜在价值的信息和知识。因此A和B错误,C正确。OLAP

(on-lineanalyticalprocessing)是联系分析处理的英文缩写,它仍使用DBMS存取数

据,即D的描述错误。

3、现有一个基于SQLServer2008的数据仓库系统,其数据均来源于生产系统,生

产系统每天将新数据导入仓库系统,导入后的数据只读。下列有关该数据仓库应设

置的恢复模式,最恰当的是()。

A、完整恢复模式

B、大容量日志恢复模式

C、简单恢复模式

D、关键日志恢复模式

标准答案:C

知识点解析:SQLServer2008支持三种恢复模式:简单恢复模式、完整恢复模式

和大容量日志恢复模式。其中,简单恢复模式只年于测试和开发数据库,或用于

主要包含只读数据的数据库(如数据仓库)。因此选择C选项。

4、某电子商务平台为实现精准营销,提高向用户推荐商品的成功率,欲建立数据

仓库系统,作为数据挖掘程序的数据源。假设业务型数据主要存放于销售数据表

T1中,用户信息存放于用户表T2中。数据仓库将近5年的销售细节数据存放在数

据表T3中,并在数据仓库中根据需要存放一些汇总数据。为达到这些要求,有如

下一些方案:I.T3与T1实时更新,即每产生一条销售记录,同时写到T1和

T3中,并触发数据挖掘程序运行,以增加数据挖掘结果的准确性D.用户每次产

生新的销售记录,触发数据挖掘程序执行并得到制对该用户的推荐商品列表,然后

写回T2中。T3每天定时从T1进行批量更新ID.T3与T1实时更新,每天定时运

行数据挖掘程序,将运行结果,也就是针对用户的推荐商品列表写回数据仓库的用

户商品推荐表中W.T3每天做一次批量更新,并在数据仓库中生成相应的汇总数

据,数据挖掘程序以细节数据或汇总数据作为数据源,将运行结果即针对用户的推

荐商品列表写回数据仓库的用户商品推荐表中上述方案中不合理的是()。

A、仅I和W

B、仅□和W

C、仅I、II和W

D、仅I、n和m

标准答案:D

知识点解析:数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织

的新技术。它的建立能充分利用已有的数据资源,把数据转换为信息,从中挖掘出

知识,最终创造出效益。数据仓库有若干基本特征,包括不可更新性和随时间变化

性。所谓不可更新性就是用户在提取仓库中的数据进行分析时并不会同时对数据仓

库中的数据进行更新操作,而数据变化性是数据仓库每隔一段时间进行数据的更新

和处理。综上可以看出,数据仓库的更新与时间间隔有关,所以不会实时更新,即

排除A、C,又因为对用户进行推荐时要结合以往的历史数据而不是仅通过当前数

据分析,即B错。故选择D选项。

5、关于商场的DBAS,设有如下数据内容I.数据库结构说明H.顾客名单

n.数据清洗规则w.订单细节数据v.商品分类销售汇总数据上述选项中是元

数据的是()

A、仅I、口、in和w

B、仅I、口、HI和V

c、仅i和m

D、全部都是

标准答案:c

知识点。析:元数据是关于数据的数据,或者叫做描述数据的数据。元数据描述了

数据的结构、内容、链和索引等项内容。在关系数据中,这种描述就是对数据库、

表、列等其他对象的定义。因此可推出,I、HI属于元数据。选C。

6、下列关于OLAP和OLTP的说法,错误的是()。

A、OLAP系统一般需要处理大量事务,且执行的事务内容比较简单且重显率高

B、OLTP系统是生成数据的系统,OLAP系统则是利用数据的系统

C、OLTP系统一般面向企业外部人员和企.业内部基础.业务人员,而OLAP主要面

向企业内部各层次决策人员

D、OLTP系统主要面向企业基础业务,OLAP主要面向企业的数据分析利用需求

标准答案:A

知识点解析:OLTP系统一般需要处理大量事务,且执行的事务内容比较简单且重

复率高,而A选项叙述的是OLAP,错误。故答案为A项。

7、数据集成是数据仓库建立的重要环节,下列关于数据集成的说法,错误的是

()o

A、数据集成就是把企业里的所有数据集成到数据仓库中

B、数据集成不仅涉及技术问题,也经常涉及管理问题

C、集成时需要将来自不同数据源的数据按目标要求进行格式转换

D、数据集成的一个重要目的是合理地组织企业数据,实现企业级数据视图

标准答案:A

知识点解析:数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等

操作载入数据仓库的过程,用户只有从数据源中抽取出所需数据,再经过数据清

洗.并加载到按照先前所设计的数据仓库中以后,才能对数据仓库中的数据进行报

表分析、多维分析和数据挖掘等,而并不是把企业里的所有数据集成到数据仓库

中。故答案为A项。

8、关于数据仓库、数据挖掘、决策支持系统和机器学习的相关概念或说法,下列

说法一般情况下错误的是()。

A、数据仓库是服务于决策支持的数据集合

B、决策支持系统是指辅助需要决策的人或系统进行决策的系统

C、数据挖掘一般是指数据分析师根据个人经验针对细节数据进行分析总结,挖掘

出有用的知识的过程

D、机器学习是指机器采用一些方法或模型从数据中习得知识的过程

标准答案:C

知识点解析:数据仓库是一个面向主题、集成的、非易失的、且随时间变化的数据

集合,用来支持管理人员决策。决策支持系统是辅助决策者通过数据、模型和知

识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。数据挖掘就

是从数据库中的所有数据记录中归纳总结出知识,让人们从抽象复杂的数据中看到

客观规律,以便做出决策。数据挖掘是从人工智能机器学习中发展起来的。它研究

各种方法和技术,从大量的数据中挖掘出有用的信息和知识。机器学习是研究便计

算机模拟或实现人类的学习行为,即让计算机自动获取知识。故答案为C选项。

9、在数据挖掘或机器学习概念中,有监督学习、无监督学习和强化学习是常见的

学习方法,下列学习任务属于有监督学习的是()。

A、将未知类别的一组数据,采用聚类方法,分成不同的组

B、机器人在动态环境中自主学习掌握行走方法

C、根据样本数据,采用分类算法,训练分类器

D、不基于人类历史棋谱数据,训练出下围棋的智能软件

标准答案:C

知识点解析:监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到

所要求性能的过程,也祢为监督训练或有教师学习。常见应用场景如分类问题和回

归问题。本题中A选项根据样本数据,采用分类算法,训练分类器属于监督学

习。故答案为C选项。

10、设有某电子商务平台,该平台业务繁忙。为实现面向用户的精确营销,提高向

用户推荐商品的成功率,需要建立数据仓库系统,并将数据仓库作为数据挖掘应用

程序的数据源。设电子商务平台的OLTP环境中有销售数据表T1和用户信息表

T2o数据仓库用表T3保存近5年的销售细节数据,同时有用户信息表T4和用户

商品推荐表T5。下列方案一般情况下最为合理的是()

A、实时更新T3,即每产生一条销售记录,就将该记录同时写到T1和T3中,并

触发数据挖掘程序运行,以增加数据挖掘结果的准确性和实时性

B、当一个销售事务完成并生成销售记录后,触发数据挖掘程序在T1上执行并得

到针对该用户的商品推荐列表,然后将商品推荐列表写到T5中。每隔数小时从T1

获取新数据批量更新T3

C、根据T1的变化实时更新T3,每天定时运行数据挖掘程序,生成用户商品推荐

列表,并将其写到T5中

D、每天根据T1对T3做一次批量更新,数据挖掘程序根据新数据生成用户商品推

荐列表,并将其写到T5中

标准答案:D

知识点解析:数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织

的新技术。它的建立能充分利用已有的数据资源,把数据转换为信息,从中挖掘出

知识,最终创造出效益。数据仓库有若干基本特征,包括不可更新性和随时间变化

性。所谓不可更新性就是用户在提取仓库中的数据进行分析时并不会同时对数据仓

库中的数据进行更新操作,而数据变化性是数据仓库每隔一段时间进行数据的更新

和处理。综上可以看出,数据仓库的更新与时间间隔有关,所以不会实时更新,即

排除A、C,又因为对用户进行推荐时要结合以往的历史数据而不是仅通过当前数

据分析,即B错。综上可知,选项D正确。

II、在超市所从事的信息活动中,下列属于挖掘时间序列模式的是()

A、针对匿名客户,记录其购买某种商品时,与该商品有关的优惠

B、针对注册用户,分析他们的购买,向他们设定下次可能购买的优惠规则

C、针对所有客户,对其篮子里的商品进行分析

D、针对注册用户,进行客户分类,确定重要客户及服务对策

标准答案:B

知识点解析:时间序列分析也可以称为数据演变分析,描述行为对象随时间变化的

规律或趋势,并进行建模的数据挖掘方法。B项中记录客户当前的购买,指定下次

的优惠规则,属于描述对象随着时间的变化规律。

12、设某数据库中一组客户数据,表示具有m个客户的集合CS={cl,…,cm}。

客户数据经过处理后,每个客户ci对应有一个n维向量Vi=[vil,…,vin],用于

表示客户ci的特征。设有函数sim(Vi,Vj)用于判定ci与cj之间的相似性。若有

算法A,能根据客户间的相似性,将CS划分成k个子集合,并使属于同一子集合

的客户间的相似性尽可能大,不属于同一子集合的客户间的相似性尽可能小。则算

法A属于()。

A、分类算法

B、回归预测法

C、关联分析算法

D、聚类算法

标准答案:D

知识点解析•:聚类就是将一个数据集中的数据进行分组,使得每一组内的数据尽可

能地相似而不同组间的数据尽可能地不同它强调同一个组中的对象之间具有较高的

相似度,而在不同组中的对象之间有很大的差别。本题中算法A符合聚类算法的

思想,故答案为D项。

13、设某应用环境有一组关于某设备的状态样本集S,其数据模式为(al,

a2,an,x),其中ai(i=l…n)为设备的基础属性,属性x的取值范围为{正常,

不正常}c现有算法A.将*作为输入,并最终得到一个程序c.C能根据实时检测

到的设备状态数据的n个基础属性的取值,判定设备的状态为正常或不正常。则A

和C分别是()。

A、聚类算法、分类器

B、分类算法、分类器

C、聚类算法、聚类工具

D、回归分析算法、预测模型

标准答案:B

知识点解析:分类的过程一般分为两个步骤:首先是通过已知数据集(训练集),建

立分类函数,构造分类器;其次是利用所获得的分类函数对未知类别标记的数据项

进行分类操作。在构造分类器时,需要一个训练样本数据集作为输入。训练集由一

组数据库记录或元组构成,每个元组是一个由有关字段(属性或特征)值组成的特征

向量。故答案为B项。

14、在数据仓库设计中,数据的粒度级设计是一个重要的问题。在粒度级设计中,

设有下列考虑因素:I.用户查询所涉及数据的最低细节程度n.高粒度数据所

需的存储空间w.用户查询的平均性能需求w.系统的可用存储空间v.低粒度

级数据的规模VI.用户查询所涉及的数据的最高粒度级在以上因素中,属于次要

或不需要考虑的因素是()。

A、仅I和川

B、仅W和V

C、仅I和VI

D、仅II和VI

标准答案:D

知识点解析:在数据仓库环境中,粒度是一个重要的设计问题,它影响到数据仓库

的数据量以及系统能回答的查询的类型。在进行粒度级设计时,在可用的存储空间

中保存粗细程度不同的主题数据,以尽可能满足各种应用的多角度、多层次数据查

询要求,同时在总体上提高查询的设计效率。粒度越小,则细节程度越高,综合程

度就越低,回答查询的类型也越多,数据量比较大,空间代价也大。用户查询所涉

及的数据的最低细节程度、用户查询的平均性能需求、系统的可用存储空间、低粒

度级数据的规模都属于主要考虑的因素。故答案为D选项。

15、设有某网购平台业务系统与大数据平台,其中存在如下各种数据或文档:

I.商品清单表口.厂家清单表HI.业务系统与大数据平台的ER图及说明文档

W.业务系统中DBMS中的数据字典V.销售数据明细VI..业务系统数据与大数

据平台数据的对应关系数据皿.客服聊天记录以上各类数据,属于元数据的是()

A、仅m、w和vi

B、仅I、口和VI

c、仅I、n、w和w

D、仅W、v和vn

标准答案:A

知识点解析;元数据描述了数据的结构、内容、链和索引等项内容。①在传统的

数据库中,元数据描述了数据库中的各个对象,如数据库中的数据字典就是一种元

数据。②在关系数据库中,元数据描述对数据库、表、列等其他对象的定义。③

在数据仓库中,元数据定义了数据仓库中许多对象-表、歹I」、查询、商业规则及数

据仓库内部的数据转移等。因此可推出川、w和VI属于元数据。故答案为A项。

二、应用题(本题共72题,每题1.0分,共12分。)

16、数据仓库是一个面向主题、集成的、时变的、非易失的数据集合,支持管理部

门的决策过程,数据仓库通过数据转移从多个数据源提取数据,为了解决不同数据

源格式上的不统一,需要进行的数据操作是0

标准答案:转换

知识点解析:数据仓库的数据来自多种数据源。不同的数据源可能由不同的平台开

发,使用不同的数据库管理系统,数据格式也可能不同。源数据在被装载到数据仓

库之前,需要进行一定的数据转换。数据转换的主要任务是对数据粒度以及不一致

的数据进行转换。

17、在数据仓库设计和建设过程中,设计者需要调查用户的决策或数据处理需求,

并将功能相近且需要相关联数据支持的需求进行归类,得到不同的需求集合,并在

企业数据模型中寻找能够满足各个需求集合的数据集合,然后针对各个数据集合开

展数据仓库数据模型的没计。这种设计方法称为的设计方法。

标准答案:面向主题

知识点解析:面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个

完整并同一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间

的联系。所谓较高层次是相对面向应用的数据组织方式而言的,即按照主题进行数

据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特

点相对应,数据仓库中的数据面向主题进行组织。例如,一个生产企业的数据仓库

所组织的主题可能有产品订货分析和货物发运分析等。

18、粒度是反映数据库系统中综合程度的指标。设有表T1(商品标识,销售时间,

销售量)、T2(商品标识,日期,总销售量)和T3(商品类别,月份,总销售量),其

中粒度最大的表是O

标准答案:T3

知识点解析:粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数

据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相

反,细化程度越低,粒度级就越大。由题意可知,粒度最大的表应是T3。

19、数据仓库的数据模型一般被划分为概念模型、模型和物理模型。

标准答案:逻辑

知识点解析:数据仓库的结构采用三级数据模型的方式,具体如下:概念模型:

也就是业务模型.由企业决策者、商务领域知识专家和IT专家共同企业级地跨领

域业务系统需求分析的结果。逻辑模型:用来构建数据仓库的数据库逻辑模型。

根据分析系统的实际需求决策构建数据库逻辑关系模型.定义数据库物理结构及其

关系。它关联着数据仓库的逻辑模型和物理模型这两头。物理模型:构建数据仓

库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模

式。

20、在数据仓库的数据组织中,描述数据的综合或细节程度的指标称为。

标准答案:粒度

知识点解析:在数据仓库的数据组织中,描述数据的综合或细节程度的指标称为粒

度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。

21、在数据仓库中,元数据一般分成技术型元数据和_______型元数据。

标准答案:业务或business

知识点解析:在数据仓库中,元数据分为技术型元数据和业务型元数据。技术元数

据是存储关于商业智能系统技术细节的数据,是用于开发和管理商业智能系统使用

的数据。业务元数据从业务角度描述了商业智能系统中的数据,是介于使用者和真

实系统之间的语义层,使得不懂计算机技术的业务人员也能够“理解”商业智能系统

中的数据。故答案为业务或business。

22、在企业数据仓库中,操作型数据存储层(ODS),一般用以支撑即时OLAP和

________型OLTP应用。

标准答案:全局或跨专业或综合

知识点解析:在ODS上可实行的全局应用大致可分为:实现企业全局的OLTP操

作、实现即时的OLAP操作。故答案为全局或跨专业或综合。

23、在数据仓库中,元数据主要分为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论