2022大数据技术知识考核试题与答案_第1页
2022大数据技术知识考核试题与答案_第2页
2022大数据技术知识考核试题与答案_第3页
2022大数据技术知识考核试题与答案_第4页
2022大数据技术知识考核试题与答案_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术知识考核试题

一、选择题

1.大数据的本质是(\[单选题]*

A.洞察

B.搜集

C.联系

D.挖掘V

2.网络安全与信息化领导小组成立的时间是:()[单选题]*

A.2015

B.2012

C.2013

D.2014V

3.智能健康手环的应用开发,体现了()的数据采集技术的应用。[单选题]*

A.统计报表

B.网络爬虫

C.API接口

D.传感器V

4.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。[单选

题]*

A.关联规则挖掘V

B.分类与回归

C.聚类分析

D.时序预测

5.企业在面向客户制定运营策略和营销策略时,希望能针对不同客户推行不同策略,

即希望对客户群体进行细分,这个问题属于()[单选题]*

A.关联规则挖掘

B.回归问题

C.聚类分析,

D.时序预测

6.对本月股票走势进行预测,属于()[单选题]*

A.关联规则挖掘

B.回归问题

C.聚类分析

D.时序预测V

7.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为(1

[单选题]*

A.无序规则

B.穷举规则

C.互斥规则V

D.有序规则

8.支撑大数据业务的基础是(>[单选题]*

A.数据科学

B.数据应用

C.数据硬件

D.数据人才V

9.以下关于Python用于数据分析的包,说法错误的是()[单选题]*

A.seaborn是用于作统计图的包

B.sklearn是用于进行机器学习的包

C.Tensorflow是进行深度学习的包

D.numpy是python环境自带的包,不需要用pip命令安装V

10.以下关于数据分析平台,说法正确的是()[单选题]*

A.Python常用的数据分析平台是JupyterNotebook.

B.Python环境下安装外来包的命令是installV

C.JupyterNotebook是一个交互式的数据分析平台。

D.JupyterNotebook是一个基于解释器的运行环境。

11.以下不属于数据分析任务的是()[单选题]*

A.用网络爬虫爬取数据

B.用一个特定值将数据集中的缺失数据填充

C.清理电脑里的垃圾数据V

D.作图探索和选择合适的数据分析方法

12.下列国家的大数据发展行动中,集中体现"重视基础、首都先行"的国家是(\

[单选题]*

A.美国

B.日本

C.中国

D.韩国V

13.关于相关分析,以下说法错误的是()[单选题]*

A.相关系数的取值在-1至!]+1之间。

B.相关系数取值为负数,表示两列数据之间不相关。V

C.相关系数取值为0,表示两列数据之间不相关。

D.可以用热图来表现数据集的相关系数矩阵。

14.一般情况下,()越高,说明有更多的正类样本被模型预测正确,模型的效果越好。

[单选题]*

A.查准率

B.错误发现率

C.召回率Truepositiverate(TPR,Recall)V

D.阴性预测值

15.数据仓库的最终目的是(X[单选题]*

A.收集业务需求

B.建立数学模型的需要

C.改写各种算法的需要

D.为用户和业务部门提供决策支持V

16.数据挖掘常见的工具或算法,不包括(\[单选题]*

A.聚类

B.分类

C.排序V

D.预测

17.衡量某一关联规则有两个指标:关联规则的支持度(support)和(I[单选题]*

A.准确度

B.精密度

C.置信度V

D.精确度

18.()是均方误差的算术平方根。[单选题]*

A.标准差(SD,StandardDeviation)

B,平均绝对误差(MAE,MeanAbsoluteError)

C.均方根误差(RMSE,RootMeanSquareError)V

D.均方误差(MSE,MeanSquaredError)

19.在()关联规则中,只涉及数据的一个维度,即处理单个属性中的关系。[单选题]

A.单维V

B.多维

C.单因素

D.多因素

20.云计算是对()技术的发展与运用[单选题]*

A.并行计算

B.网络计算

C.分布式计算

D.三个选项都是V

21.以下做法错误的是:()[单选题]*

A.涉密存储介质淘汰、报废时,可以当作废品出售V

B.从互联网上下载资料应采用单向导入方式以确保安全

C.用于联接互联网的计算机,任何情况下不得处理涉密信息

D.严禁在联接互联网计算机与内部计算机之间混用优盘等移动存储介质

22.国务院办公厅是在()印发的《关于促进和规范健康医疗大数据应用发展的指导意

见》?[单选题]*

A.2014年

B.2015年

C.2013年

D.2016年V

23.数据清洗的方法不包括(I[单选题]*

A.缺失值处理

B.噪声数据清除

C.一致性检查

D.重复数据记录处理,

24.关于人工神经网络,以下说法错误的是()[单选题]*

A.人工神经元是人工神经网络处理信息的基本单元。

B.Relu是一种激活函数

C.人工神经网络是解决聚类问题的算法。V

D.BP算法是一种典型的人工神经网络算法。

25.可以用来表示时间变化趋势的可视化手段是()[单选题]*

A.折线图V

B.饼图

C.条形图

D.马赛克图

26.()是在没有给定划分类的情况下,根据信息相彳以度进行操作的一种方法,因此又

称为无指导的学习。[单选题]*

A.回归

B.聚类V

C.分类

D.关联规则

27.下列关于计算机存储容量单位的说法中,错误的是(X[单选题]*

A.1KB<1MB<1GB

B.基本单位是字节(Byte)

C.一个汉字需要一个字节的存储空间V

D.一个字节能够容纳一个英文字符

28.以下关于回归分析,说法正确的是()[单选题]*

A.线性回归也叫作Logistic回归。

B.回归和分类问题是同一类问题,预测的结果都是离散值。

C.回归诊断的作用是帮助评价回归模型的好坏。V

D.回归属于无监督学习算法。

29.下列关于箱线图的描述中,正确的是()[单选题]*

A.箱线图是用来表现离散数据分布的统计图。

B.箱线图中可以反映出一组数据的平均数。

C.箱线图中可以表现出缺失值。

D.箱线图中可以表现数据的分布状况。V

30.根据资料显示,以下哪项不属于数据挖掘的内容()?[单选题]*

A.建立道路拥堵概率与拥堵趋势变化模型

B.多维分析统计用户出行规律

C.微软开发的WindowslO操作系统V

D.补充与完善路网属性

31.阿兰•图灵在哪一年提出图灵测试的概念(X[单选题]*

A.1952年

B.1954年

C.1950年V

D.1955年

32.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范

化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为(\

[单选题]*

A.0.821

B.1.22

C.1.58

D.0.716V

33.关于回归分析,以下说法错误的是()[单选题]*

A.逻辑回归是线性回归的加强版本,一定能够改进线性回归的性能。

B.回归诊断不是回归分析必须进行的工作。

C.回归分析可以用来进行预测新的数据。7

D.逻辑回归的输出结果是一个连续数据。

34.ARIMA(p,d,q)称为差分自回归移动平均模型,P是(I[单选题]*

A.自回归项V

B.移动平均

C.时间序列成为平稳时所做的差分次数

D.移动平均项数

35.下列错误的是()。[单选题]*

A.由于网络是虚拟世界,所以在网上不需要保护个人的隐私V

B.虽然网络世界不同于现实世界,但也需要保护个人隐私

C.网络时代,隐私权的保护受到较大冲击

D.可以借助法律来保护网络隐私权

36.在保护个人隐私方面,吴军博士并没有提到以下哪种方法()?[单选题]*

A.法律的方法

B.技术的方法

C.文化的方法V

D.双向监督的方法

37.下列关于舍恩伯格对大数据特点的说法中,错误的是(1[单选题]*

A.数据规模大

B.数据类型多样

C.数据处理速度快

D.数据价值密度高V

38.假设12个销售价格记录组已经排序如下5,10,11,13,15,35,50,55,72,92,204,

215使用如下每种方法将它们划分成四个箱。等频(等深龙J分时,15在第几个箱子内(X

[单选题]*

A.第一个

B.第二个V

C.第三个

D.第四个

39.2012年全国各城市支付宝人均支出排名中,位居第一位的是()[单选题]*

A.嘉兴市

B.杭州市

C.嘉义市V

D.高雄市

40.以下大数据分析的实际问题,能够应用聚类方法建模的是()[单选题]*

A.财政收入影响因素分析

B.航空公司客户价值分析V

C.商品零售购物篮分析

D.门禁的人脸识别系统

41.如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则

为(1[单选题]*

A.无序规则

B.穷举规则,

C.互斥规则

D.有序规则

42.关于大数据在社会综合治理中的作用,以下理解不正确的是(X[单选题]*

A.大数据的运用有利于走群众路线

B.大数据的运用能够维护社会治安

C.大数据的运用能够杜绝抗生素的滥用V

D.大数据的运用能够加强交通管理

43.标准偏差(SD,StandardDeviation)越小,这些值偏离平均值就越少。所以,标

准差能反映一个数据集的(1[单选题]*

A.平稳程度

B.变化建

C.精密程度

D.离散程度V

44.概念分层图是()图。[单选题]*

A.无向无环

B.有向无环V

C.有向有环

D.无向有环

45.在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,

那么它的类型是(\[单选题]*

A.基于图的凝聚度

B.基于原型的凝聚度

C.基于原型的分离度V

D.基于图的凝聚度和分离度

46.活字印刷术是由()发明的。[单选题]*

A.商鞅

B.鲁班

C.蔡伦

D.毕昇,

47.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务()?

[单选题]*

A.探索性数据分析V

B.建模描述

C.预测建模

D.寻找模式和规则

48.()年,部分计算机专家首次提出大数据概念。[单选题]*

A.2010

B.2011

C.2006

D.2008V

49.算法不属于聚类算法的是(\[单选题]*

A.K-Means算法

B.K-中心算法

C.Apriori算法V

D.CUOUE算法

50没有()就没有国家安全,没有信息化就没有现代化。[单

选题]*

A.网络安全V

B.信息安全

C.基础网络

D.互联网

51."()大数据交易所"2015年4月14日正式运营,目前,交易所已有包括京东、

华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。[单选题]*

A.贵阳V

B.遵义

C.毕节

D.安顺

52.ABC分类中畅销的、库存周转率高的高价值商品为()[单选题]*

A.B类

B.C类

(:小类。

D.都不属于

53.下列关于网络用户行为的说法中,错误的是(X[单选题]*

A.网络公司能够捕捉到用户在其网站上的所有行为

B.用户离散的交互痕迹能够为企业提升服务质量提供参考

C.数字轨迹用完即自动删除V

D.用户的隐私安全很难得以规范保护

54.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维中的(1

[单选题]*

A.定量思维

B.相关思维V

C.因果思维

D.实验思维

55.以下指标和分类算法性能无关的是()。[单选题]*

A,平均绝对误差MAEV

B.均方误差MSE

C.残差Residual

D.均方根误差RMSE

56.可视化模型有助于理解可视化的具体过程,常用的可视化模型不包括(X[单选

题]*

A.循环模型

B.分析模型

C.递进模型V

D.顺序模型

57.数据挖掘的经典案例"啤酒与尿布试验"最主要是应用了()数据挖掘方法。[单

选题]*

A.分类

B.预测

C.关联规则V

D.聚类

58.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是(\[单选题]*

A.JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。

B.JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。

C.JP聚类是基于SNN相似度的概念。

D.JP聚类的基本时间复杂度为O(m)oV

59.数据挖掘是一个交叉学科,但是,下列哪一个领域的研究成果和学术思想,不是数

据挖掘的主要学科来源()。[单选题]*

A.统计分析

B.人应工程V

C.机器学习

D.人工智能

60.商品分析中的重点商品选择可以借助()方法[单选题]*

A.回归分析

B.相关分析

C.漏斗分析

D.ABC分类V

61.大数据的价值是通过数据共享、()后获取最大的数据价值[单选题]*

A.算法共享

B.应用共享

C.平台共享

D.交叉复用。

62.下列国家的大数据发展行动中,集中体现"重视基础、首都先行"的国家是(X

[单选题]*

A.美国

B.日本

C.中国

D.韩国V

63.根据数据专家所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。[单

选题]*

A.21

B.30

C.25

D.38V

64.下面关于数据粒度的描述不正确的是(1[单选题]*

A.粒度是指数据仓库小数据单元的详细程度和级别

B.数据越详细,粒度就越小,级别也就越高

C.数据综合度越高,粒度也就越大,级别也就越高V

D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量

65.平均停留时长和跳失率都是()的分析内容[单选题]*

A.交易分析

B.流量分析V

C.访客分析

D.商品分析

66.目前有多种成熟的知识可视化工具,下面()不属于这类可视化工具。[单选题]*

A.概念图

B.思维导图

C.认知地图

D.趋势图V

67.雷达图适用于()数据,且每个维度必须可以排序。[单选题]*

A.一维

B.二维

C.三维

D.多维V

68.下列四项中,不属于数据库特点的是(1【单选题]*

A.数据共享

B.数据完整性

C.数据冗余很高V

D.数据独立性高

69.()是位于用户与操作系统之间的一层数据管理软件,它属于系统软件,它为用户

或应用程序提供访问数据库的方法。数据库在建立、使用和维护时由其统一管理、统一控制。

[单选题]*

A.DBMSV

B.DB

C.DBS

D.DBA

70.在SQL中,建立表用的命令是(\[单选题]*

A.CREATESCHEMA

B.CREATETABLEV

C.CREATEVIEW

D.CREATEINDEX

71.SQL的视图是从()中导出的。[单选题]*

A.基本表

B.视图

C.基本表或视图V

D.数据库

72.下列哪个不是sql数据库文件的后缀(1[单选题]

A..mdf

B..Idf

C..tifV

D..ndf

73.数据定义语言的缩写词为(\[单选题]*

A.DDLV

B.DCL

C.DML

D.DBL

74.目前()数据库系统已逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的

商用数据库系统。[单选题]*

A.关系V

B.面向对象

C.分布

D.面向应用

75.下列关于舍恩伯格对大数据特点的说法中,错误的是(X[单选题]*

A.数据规模大

B.数据类型多样

C.数据处理速度快

D.数据价值密度高V

76.流量质量评估采用()作为衡量流量有效性的宏观指标[单选题]*

A.访客数

B.转化率V

C.浏览量

D.浏览时长

77.据WardM0(2010)的研究,超过()的人脑功能用于视觉信息的处理,视觉信

息处理是人脑的最主要功能之一。[单选题]*

A.30%

B.50%V

C.70%

D.40%

78.当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视

化工具的是().[单选题]*

A.Tableau

B.Datawatch

C.Platfora

D.PhotoshopV

79.数据挖掘常见的工具或算法,不包括(1[单选题]*

A.聚类

B.分类

C.排序V

D.预测

80.从宏观角度看,数据可视化的功能不包括(\[单选题]*

A.信息记录

B.信息的推理分析

C.信息清洗V

D.信息传播

1.切片是指维的位置互换。[判断题]*

错V

2.旋转是指选择维中特定区间的数据或者某批特定值进行分析。[判断题]*

错V

3.RFM模型的F值越大表示客户交易越频繁。[判断题]*

对V

4.多维数据模型是从多角度多层次进行数据查询和分析的的数据库模型。[判断题]*

对V

5.RFM模型是根据客户活跃程度和交易金额的贡献,进行客户价值细分的方法。[判

断题]*

对V

6.数据可视化的本质就是借助于图形等各种手段,清晰有效地传达与沟通信息。[判断

题]*

对V

7.在可视化图形中,应该尽量使用3D图形,因为更加立体好看![判断题]*

错V

8.数据墨水比的比值越低,说明图表中越多的视觉编码被用于传递真正的信息,而不

是出现冗余,或者用于描述一些其他的东西[判断题]*

错V

9.格式塔原则的核心是整体决定部分的性质,部分依从于整体?[判断题*]

对V

10.本质上,可视化是一个抽象的过程,是把数据映射到了几何图形和颜色上。从技术

角度看,这很容易做到。难点在于,要知道什么形状和颜色是最合适的、画在哪里以及画

多大。[判断题]*

对V

11.数据可视化,是关于数据视觉表现形式的科学技术研究。[判断题]*

对V

12.MAP软件和Tableau软件,都属于无需编程语言的可视化工具。[判断题]*

对V

标题[判断题]*

对V

13.散点图既可以展示数值分布又可以表示数据之间的关联。[判断题]*

对V

14.箱线图中箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包

含了50%的数据。[判断题]*

对V

15.饼图不足在于分类过多,则扇形越大,无法展现图表[判断题]*

错V

16.热力图,也可以称为热图、热量表、密度表,主要用于展示数据的分布情况。[判

断题]*

对V

17.柱状图的局限在于它仅适用于中小规模的数据集,当数据较多时就不易分辨。[判

断题]*

对V

18.方差是总体各标志值与其算数平均数的离差的平方和的算数平均数。[判断题]*

对V

19.方差和标准差在离散趋势中表达的内容完全相同。[判断题]*

错V

20.分位数可以用来描述离散程度,最常用的是四分位数。[判断题]*

对V

1、根据大数据分析与挖掘课程数据中的数据探索性分析,请使用合适工具,合适方法

完成下述分析内容:[填空题]

答案解析:(1)简述数据探索性分析的基本步骤。

数据探索性分析,首先需要确定数据的类别,是数值型数据还是类别数据。

对于类别数据,一般需要看类别数据各取值的频数分布,可以采用直方图或者饼图。

对于数值型数据,如果需要看数据的分布,可以采用箱线图、直方图;如果需要看数据

两两之间的相关性,可以采用相关函数corr(),用热图展现两两之间的相关系数,或者用散

点图矩阵展现两两之间的相关性。

对于时间序列数据,可以用折线图展现数据随时间而变化的趋势。

(2)至少罗列三种常用可视化分析工具,并说明个工具使用场合。

条形图:用于展现类别数据的频数分布。

饼图:用于展现类别数据的频数分布。

直方图:用于展现数值数据的分布情况。

散点图:用于展现两列数值数据的分布情况和关联情况。

折线图:用于展现时间序列数据随时间变化的趋势。

(3)对上述三种工具列出关键代码?

条形图:plt.bar(x,y)

饼图:plt.pie(x)

直方图:plt.hist(x)

散点图:plt.scatter(x,y)

折线图:plt.plot(x,y)

2、什么异常值分析?箱形图在识别异常值方面有什么优越性?[填空题]

答案解析:1)异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也

称为离群点,异常值的分析也称为离群点的分析。

2)异常值分析是检验数据是否有异常值。忽视异常值的存在是十分危险的,不加剔除

地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分

析其产生的原因,常常成为发现问题进而改进决策的契机。

3)箱形图依据实际数据绘制,不需要事先假定数据服从特定的分布形式,没有对数据

作任何限制性要求,它只是真实直观地表现数据分布的本来面貌;另一方面,箱形图判断异

常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据

可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图

识别异常值的结果比较客观。由此可见,箱形图在识别异常值方面有一定的优越性。

3、某公司采用信息化系统对经营活动进行管理,建立如下数据表的语句如下:

dropdatabaseifexistsemps;

createdatabaseemps;

useemps;

createtableemp(

EMPNOINT,-员工号

ENAMEVARCHAR(IO),-员工姓名

JOBVARCHAR(9),-工作岗位

MGRint,-经理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论