版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机三级数据库技术(数据仓库与数
据挖掘)机试模拟试卷3
一、选择题(本题共15题,每题1.0分,共15分。)
1、某网上书店根据用户的历史购书记录,采用某种数据挖掘算法分析出用户最可
能属于某一类书的爱好者,应该采用()
A、关联分析
B、分类分析
C、时间序列分析
D、回归分析
标准答案:B
知识点解析:常见的数据挖掘任务包括分类、估计、预测、相关性分组或关联规
则、聚类和描述、可视叱以及复杂数据类型挖掘(Text、Web、图形图像、视频和
音频等)等。分类分析首先从数据中选出已经分好类的训练集,在该训练集上运用
数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。该需求要求
根据购书记录将用户映射到倾向于喜欢某种书的顾客特性中,而分类挖掘模型能把
数据库中的数据项映射到给定类别的某一个中。
2、某大型超市的数据库应用系统中,设有下列数据:I.商品清单口.商品销售
细节数据皿.DBMS中的数据字典W.数据库结构说明文档V.前端应用程序表
中数据项的定义及说明文档VI.商品分类销售汇总数据以上数据中,一般不属于
元数据的是()
A、仅I、III和VI
B、仅口、V和VI
C、仅I、口和VI
D、仅U、W和V
标准答案:C
知识点解析:元数据被定义为描述数据及其环境的数据,是关于数据的数据。元数
据用于描述数据仓库内数据的结构和建立方法,可将其按用途的不同分为技术元数
据和业务元数据。一般来说,它有两个主要的用途:首先能够提供基于用户的信
息,其次能支持系统对数据的管理和维护。在传统的数据库中,元数据描述了数据
库中的各个对象,如数据库中数据字典就是一种元数据,在关系数据库中,这种描
述就是对数据库、表、列等对象的定义。DBMS数据字典、数据库结构证明文
档、前端应用程序表中数据库的定义及说明文档都是元数据。而I、II和VI都是提
供了基于用户数据的信息,与元数据的定义不符,因此I、口、VI不属于元数据。
3、现有一个具有多个分店的大型连锁超市,该连锁超市使用统一的连锁业务经营
管理系统管理其口常业务。已知其中的销售数据明细表结构为(销售记录ID,商品
ID,价格,数量,总金额,销售时间,分店ID),该表数据量很大。为了提高数据
访问效率,系统将每年每个分店的销售数据划分成独立的数据表,这种划分方式被
称为()
A、轮转划分
B、范围划分
C、散列划分
D、多维划分
标准答案:D
知识点解析:轮转法:对关系顺序扫描,将第i个元组存储到标号为Dimod的磁盘
上,该方式保证了元组在多个磁盘上均匀分布。散列划分:选定一个值域为{0,
1,…,n-l}的散列函数,对关系中的元组基于划分属性进行散列,如果散列函数
返回i,则将其存储到第i个磁盘。范围划分:根据表中某个属性取值区间划分成
不同的子区间,然后根据表中的属性值属于的不同区间将表分成不同的子表。多维
划分:维是人们观察事物的加度,同样的数据从不同的维进行观察可能会得到不同
的结果,如从各个分店的角度、各种商品的角度(商品ID)等,而每个维度又可按粒
度的不同划分成多个层次,称为维度成员。本题中将总表按分店号与时间划分成不
同的子表,属于多维划分,所以选D。
4、数据挖掘可以简单地理解为从大量的数据中发现或挖掘知识。设某公司的客户
关系管理系统中有客户表A(CID,vl,v2,vn)o给定一个训练集S(vl,
v2,vn,c),其中c为客户类别、vi(i=l…n)为客户其他属性。若对表A中任
一客户x,要使系统能判定x所属的客户类别,较合理的方案是()
A、将x对应的元组中的特征向量(vl,v2,vn)与训练集S中的元组进行也
配,从而判定x所属的客户类别
B、对训练集S设计适当的算法,构造一个分类器M,将x对应的特征向量(vl,
v2,...»vn)作为M的输入,用M判定x所属的客户类别
C、采用关联规则挖掘算法构成一个关联式分类器M,用M判定x所属的类别
D、采用适当的聚类算法,对表A中的所有元组进行聚类,将每个元组归入训练集
S各元组的c列所给出的客户类别中,从而实现x所属客户类别的判定
标准答案:B
知识点解析•:对于训练集S,测试集A利用数据挖掘中的分类算法,通过训练集构
建一个分类器,将测试集A作为分类器输入,经过分类器后会得到相应的类别
号。即使相同的类别编号的训练集也可能对应不同的属性集,所以单纯的通过对属
性集差别的比较来识别类别不准确,故A错。关联规则挖掘是发现交易数据库中
不同商品之间的联系,而木题是对数据进行分类,与题意不符,故C错。D项属
于无监督学习算法,对类别并没有规定明确的前提条件,与本题所给的条件无关。
综上可知,选项B正确。
5、给定如下三个关系表:销售明细表(商品标识,销售时间,单价,数量,金额)
日销售表(商品标识,销售日,总数量,总金额)月销售额(商品标识,销售月份,
总数量,总金额)下列说法正确的是()
A、销售明细表的数据粒度最大,数据量最大
B、日销售表的数据粒度最大,数据量最小
C、月销售表的数据粒度最大,数据量最小
D、月销售表的数据粒度最小,数据量最小
标准答案:C
知识点解析:数据粒度划分标准可以将数据仓库中的数据划分为详细数据、轻度总
结、高度总结三级或更多级。确立粒度的原则:细化程度越高,粒度越小;细化程
度越低,粒度越大,综合程度越高。如果数据仓库不保存低粒度的数据而只有粗粒
度的数据,则需要存储的数据量就较少。所以A、D错。B项中已是最小粒度,所
以没有最大、最小之分。C中月销售表可以分成粒度更小的日销售表。
6、下列关于数据仓库、数据挖掘、机器学习与决策支持系统中的相关概念或说
法,错误的是()。
A、数据仓库是服务于决策支持的数据集合
B、数据挖掘是从大量数据中提取或挖掘知识的方法或过程
C、机器学习是指机器采用一些方法或模型根据数据去习得知识的过程
D、决策支持系统一般是指企业中以数据为基础对重要业务或事务实施决策的信息
系统
标准答案:D
知识点解析:决策支持系统一般是指企业中以数据为基础对重要业务或事务实施辅
助决策的信息系统。故答案为D项。
7、在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数
据。下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是()。
A、顾客表、商品类别表
B、门店表、销售人员表
C、商场商品销售表、电信公司通话详单
D、商品清单、商品类别表
标准答案:C
知识点。析:快照是关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据
在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副
本,也可以是数据的一个复制品。它反映的是某个时间点内的数据,该数据具有不
可以改变性。而商场商品销售表、电信公司通话详单属于动态数据,不适合用快照
的方式获取数据。故答案为C项。
8、下列关于企业数据仓库环境中数据特点的说法,错误的是()。
A、数据按面向决策支持应用主题的方法进行组织
B、数据经常以批量方式访问
C、数据可以直接修改
D、数据可用性要求相比OLTP环境较为宽松
标准答案:C
知识点解析:数据仓库是一个面向主题的、集成的、非易失的,且随时间变化的数
据集合,用来支持管理人员的决策,有面向主题性、集成性、不可更新性和时间特
性等几个重要特性。不可更新并不意味着不向数据仓库中追加新的数据,只是表示
一般不再对进入数据仓库中的原始数据进行修改。故答案为C选项。
9、数据仓库是服务于决策支持的数据集合,面向主题是其中的一个重要特征。下
列关于面向主题的理解,一般情况下错误的是()。
A、面向主题要求进行数据仓库数据模型设计和组织时需要针对特定主题的决策支
持需求集进行
B、面向主题是指进行数据仓库的应用开发和部署时要采用面向主题的开发工具和
实施平台
C、面向主题一般会要求数据仓库中必须集成企业或组织机构中多个来源的数据集
D、面向主题中的主题是指一组决策支持需求的集合
标准答案:B
知识点解析:在传统的OLTP环境下,数据库系统的数据一般是以面向企业基本业
务应用的方式进行组织的。在数据仓库中数据是以面向主题的方式进行组织的,主
题是一个抽象的概念,主题也可以称为分析主题或分析领域,用于表达某一宏观的
分析领域所涉及的对象,以及与对象有关的数据集合。故答案为B选项。
10、在对某商场的顾客进行流失预测分析时,先取得一个顾客样本集S,其模式为
(id,al,a2,…an,c),其中id为顾客的唯一标识,ai(i=L2,…,n)为顾客的
属性,如年龄、性别、消费时间间隔等,c的取值为{流失,未流失}。现有算法A
对样本S进行处理,输出结果为P,P能根据该样本集外的顾客u的n个属性,确
定u的c属性值,以对顾客的流失作出预测。那么,A和P分别是()
A、聚类算法,聚类工具
R、分类算法,分类器
C、关联规则算法,规则集
D、多维分析算法,OLAP工具
标准答案:B
知识点解析:由于有样本集和测试集之分,又有已有的类别标签,所以属于监督学
习。分类:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的
类标号y。分类属于监督学习。聚类:根据在数据中发现的描述对象及其关系的信
息,将数据对象分组,组内的对象相互之间是相似的,而不同组中的对象则不同。
组内的相似性越大,组间差别越大,聚类就越好,属于无监督学习。关联规则挖
掘:发现隐藏在大型数据集中的有意义的联系。多维分析是指各级管理决策人员从
木同的角度、快速灵活地对数据仓库中的数据进行复杂查询多维分析处理。根据题
意显然是符合分类。所以选B。
11、设某企业的在线事务处理(OLTP)系统中有销售记录表T1,它每天约产生50万
条新记录,OLTP系统保存半年数据。在企业的数据仓库中,用表T2保存近2年
的销售细节数据,用表T3保存5年内每日各个商品销售汇总数据。为了实现从
OLTP系统到数据仓库的销售数据的集成,一般情况下,下列方案最为合理的是
()。
A、每天将表T1的数据全部复制到表T2中,并根据表T2的内容重新计算表T3
B、每天将表T1的数据全部复制到数据仓库中,根据复制的数据与表T2的区别,
生成变化数据,并根据变化数据重新计算表T3
C、在OLTP系统中采用技术手段记录表T1的所有新记录NT,每天将NT复制到
数据仓库中,将NT1合并到表T2中,根据表T2重新计算表T3
D、在OLTP系统中采用技术手段记录表T1的所有新记录NT,每天将NT复制到
数据仓库中,将NT合并到表T2中,根据NT和表T3重新计算表T3
标准答案:D
知识点解析:联机事务处理系统(OLTP)能对数据进行即时更新或其他操作,系统
内的数据总是保持在最新状态。数据仓库主要功能仍是将组织透过资讯系统之联机
事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储
存架构,做有系统的分析整理。根据题意,销售记录表T1每天产生50万条新记
录,而且都是最新产生的数据,所以最适合存放在OLTP系统中用NT表保存,当
新记录NT表中数据超过半年,就需要将表中数据复制到数据仓库中,也就是将
NT表中的数据合并到T2(保存近2年的销售细节数据)。当新记录NT表中数据超
过2年,那就需要存放到T3表中,T3表需要重新计算。故答案为D选项。
12、为了进行数据分析;将OLTP系统中数据利用抽取程序抽取出来的最主要原因
是()。
A、减轻OLTP系统的数据存储负担,将数据转移出OLTP系统
B、通过建立数据的独立性来确保数据分析应用的安全性
C、解决OLTP应用与分析型应用之间的性能冲突问题
D、解决企业整体信息系统的数据体系存在的蛾一网问题
标准答案:C
知识点解析;为了进行数据分析,将OLTP系统中数据利用抽取程序抽取出来的最
主要原因是解决OLTP应用与分析型应用之间的性能冲突问题。故答案为C项。
13、分类算法服务于数据挖掘或机器学习中分类任务,下列算法中不属于分类算法
的是()。
A、SVM算法
B、BP神经网络算法
C、决策树算法
D^K-means算法
标准答案:D
知识点解析:分类器的沟造方法有统计方法、机器学习方法、神经网络方法等。统
计方法包括贝叶斯法和非参数法;机器学习方法包括决策树法和规则归纳法;神经
网络方法主要是BP算法。K-means属于聚类算法。故答案为D选项。
14、在企业数据仓库设计中,数据的粒度级设计是一个重要的问题,在粒度级设计
中,设有下列考虑因素:I.用户查询所涉及的数据的最低细节程度U.高粒度
级数据所需的存储空间m.用户查询的平均性能需求w.系统的可用存储空间
v.低粒度级数据的规模W.用户查询所涉及的数据最高粒度级在以上因素中,
属于设计时需要考虑的主要因素是()
A、仅I和川
B、仅I、m、w和v
c、仅w和v
D、仅I、HI和VI
标准答案:B
知识点解析:在数据仓库环境中,粒度是一个重要的设计问题,它影响到数据仓库
的数据量以及系统能回答的查询的类型。在进行粒度级设计时,在可用的存储空间
中保存粗细程度不同的主题数据,以尽可能满足各种应用的多角度、多层次数据查
询要求,同时在总体上提高查询的设计效率。粒度越小,则细节程度越高,综合程
度就越低,回答查询的类型也越多,数据量比较大,空间代价也大。用户查询所涉
及的数据的最低细节程度、用户查询的平均性能需求、系统的可用存储空间、低粒
度级数据的规模都属于主要考虑的因素。故答案为B选项。
15、设数据仓库平台中有三个物化视图(实体化视图)VI、V2和V3,若有分别针对
这三个视图进行的查询QI、Q2和Q3,查询过程或结果有如下现象:I.Q1查
询到的是VI视图所对应原始数据的4小时前的数据n.Q2每次查询到的都是V2
视图所对应原始数据的1分钟前的数据HI.Q3查询V3时、发现V3不是最新数
据,实时启动对V3的更新程序,刷新后得到最新数据有关VI、V2和V3所采用
的物化视图更新维护策略的说法,正确的是()。
A、对VI采用的是快照维护策略,V2是实时近实时维护策略,V3是延时维护策
略
B、对VI、V2和V3都采用的是延时维护策略
C、对VI和V2采用的是快照维护策略,V3是延时维护策略
D、对VI和V2采用的是延时维护策略,V3是实时近实时维护策略
标准答案:A
知识点解析:数据仓库中的数据维护策略分为3种:实时维护、延时维护和快照维
护。实时维护在数据源发生变化时,立即更新数据仓库中数据。实时维护操作的触
发条件是数据源进行了数据的更新操作。这种策略能够保证用户总查到最新的数据
(V2)o延时维护工作并不是在数据源的更新事务中完成,而是在数据仓库中的视图
被查询时完成更新(V3)。延时维护操作的触发条件是用户在数据源发生变化后首次
对数据仓库执行查询操作。快照维护策略定期对数据仓库进行维护,维护操作的触
发条件是时间。这种策略不会给源数据的更新事务或者数据仓库的查询事务增加任
何负担,但通常无法提供最新的数据(VI)。故答案为A选项。
二、应用题(本题共72题,每题1.0分,共12分。)
16、知识发现主要由三个步骤组成,它们是、数据挖掘、结果的解释评
估。
标准答案:数据准备
知识点解析:知识发现指的是从数据集中识别出有效的、新颖的、潜在有用的以及
最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴
藏的知识金块,将为知'只创新和知识经济的发展作出贡献,也是所谓“数据挖掘''的
一种更广义的说法。知史发现过程由以下三个阶段组成:数据准备、数据挖掘、结
果的解释评估。
17、数据仓库是一个面向的、集成的、非易失的、且随时间变化的数据集
合。
标准答案:主题
知识点解析:数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织
技术,基本特征包括:数据是面向主题的、集成的、非易失的、随时间不断变化
的。主题是一个在较高层次上对数据的抽象,这使得面向主题的数据组织可以独立
于数据的处理逻辑,因而可以在这种数据环境上方便地开发新的分析型应用。
18、在数据仓库设计和建设过程中,设计者需要调查用户的决策或数据处理需求,
并将功能相近且需要相关联数据支持的需求进行归类,得到不同的需求集合,并在
企业数据模型中寻找能够满足各个需求集合的数据集合,然后针对各个数据集合开
展数据仓库数据模型的没计。这种设计方法称为的设计方法。
标准答案:面向主题
知识点解析:面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个
完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间
的联系。所谓较高层次是相对面向应用的数据组织方式而言的,即按照主题进行数
据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特
点相时应,数据仓库中的数据面向主题进行组织。例如,一个生产企业的数据仓库
所组织的主题可能有产品订货分析和货物发运分析等0
19、数据从操作型环境转移到数据仓库过程中所用到ETL工具通常需要完成的处
理操作包括抽取、转换和o
标准答案:装载或装入或加载
知识点解析:ETL是实现数据集成的主要技术,即填充更新数据仓库的数据把
取、转换、装载的数据采集过程。
20、时间序列分析也可以称为数据演变分析,它能描述行为随变化的对象
的规律或趋势,并对其进行建模。
标准答案:时间
知识点解析:时间序列分析也可以称为数据演变分析,它能描述行为随时间变化的
对象的规律或趋势,并对其进行建模。
21、在数据仓库环境中,数据的设计是一种重要的设计问题,它会影响到
数据仓库中数据量以及系统能回答的查询的类型。
标准答案:粒度或granularity
知识点解析:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。
细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度
一直是一个设计问题。在数据仓库环境中粒度之所以是主要的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年非遗传承师舞蹈方向中级笔试题
- 2026年安全生产防火知识培训
- 2026年小学语文阅读理解仿真题
- 2026年大学生急救知识调查
- 2026年艾滋防控知识竞赛活动策划方案
- 2026年电视基础知识入门
- 2026年中国航天笔试模拟试卷
- 2026年财会初级会计职称模拟试卷
- 2026年平面设计艺术基础知识
- 2026浙江宁波慈溪市招聘卫技人员70人考试参考试题及答案解析
- DL∕T 1151.10-2012 火力发电厂垢和腐蚀产物分析方法 第10部分:二氧化硅的测定
- 海关代理服务费合同
- 2024燃煤电厂深度调峰设备安全防护技术导则
- 中国蚕丝绸文化智慧树知到期末考试答案章节答案2024年浙江大学
- 邮政营销摊派报告
- 计算机辅助设计AutoCAD绘图-课程教案
- Unit6Craftsmanship+Listening+an课件-中职高教版(2021)基础模块2
- 影视美学-课件
- 中文版-ASTM-A123-A123M-02-铁和钢制品镀锌层
- 血液透析室(中心)的人员配置及职责
- GB/T 12642-2013工业机器人性能规范及其试验方法
评论
0/150
提交评论