版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试题说明
本套试题共包括1套试卷
每题均显示答案和解析
大数据开发基础练习题及答案15(500题)
大数据开发基础练习题及答案15
1.[单选题]语义网络表达知识时,有向弧AKO链、ISA链是用来表达节点知识的()o
A)无悖性
B)可扩充性
C)继承性
答案:C
解析:
2.[单选题]()算法假设聚类结构能通过样本分布的紧密程度确定
A)原型聚类
B)密度聚类
C)层次聚类
答案:B
解析:
3.[单选题]根据《大数据风控平台项目操作手册》,从【集团客户管理】节点路径进入集团图谱
,在正常模式下的集团图谱页面中新增子节点客户,新增的子节点客户状态为()O
A)核心企业
B)B.行内客户已认定
C)C.行内客户认定中
D)D.行内手动添加
答案:D
解析:
4.[单选题]对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,则下
列叙述正确的是()。
A)没有问题,神经网络会正常开始训练
B)神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西
C)神经网络不会开始训练,因为没有梯度改变
D)以上选项都不对
答案:B
解析:
5.[单选题]下列关于模型能力(modelcapacity,指神经网络模型能拟合复杂函数的能力)的描述正
确的是()。
A)隐藏层层数增加,模型能力增加
B)Dropout的比例增加,模型能力增加
C)学习率增加,模型能力增加
D)以上都不正确
答案:A
解析:Dropout比例增加,可能会丢失过多参数影响模型能力;学习率过大,梯度下降可能会越过最
低点,无法收敛。
6.[单选题]下列哪个应用领域不属于深度学习算法应用()
A)人脸识别
B)机器翻译
0肿瘤诊断
D)自动控制
答案:D
解析:
7.[单选题]下面哪个工具可以从RDBMS将数据导入到HDFS()
A)Sqoop
B)Flume
C)HDFS
D)Hive
答案:A
解析:
8.[单选题]关于类和对象的关系,下列描述正确的是()o
A)类是面向对象的核心
B)类是现实中事物的个体
C)对象是根据类创建的,并且一个类只能对应一个对象
D)对象描述的是现实的个体,它是类的实例
答案:D
解析:
9.[单选题]大数据解决方案中的哪一层可以帮助定义和分类各个必要的组件?
A)业务层
B)网络层
C)服务层
D)逻辑层
答案:D
解析:
10.[单选题]根据《大数据应用推动考核办法》,总行每月拿出()元考核资金作为考核款。
A)5000
B)10000
C)15000
D)20000
答案:B
解析:
11.[单选题]关于Python语言的注释,以下选项中描述错误的是:
A)python语言有两种注释方式:单行注释和多行注释
B)python语言的单行注释以#开头
Opython语言的单行注释以单引号开头
D)Python语言的多行注释以'''(三个单引号)开头和结尾
答案:C
解析:
12.[单选题]scipy.io模块可以实现(_)0
A)计算kmeans
B)计算knn
C)粒子群计算
D)数据输入输出
答案:D
解析:
13.[单选题]使用()关键字创建自定义函数。
A)function
B)func
Odef
D)lambda
答案:C
解析:
14.[单选题]下面与HDFS类似的框架是()?
A)NTFS
B)FAT32
C)GFS
D)EXT3
答案:C
解析:
15.[单选题]字符串中,成员资格判断使用的关键字是()
A)limit
B)to
C)in
D)len
答案:C
解析:
16.[单选题]以下关于数据科学描述正确的是
A)数据科学是统计学的一部分
B)数据科学就是机器学习
C)天文学与数据科学无关
D)数据科学家倾向于用探索数据的方式来看待周围的世界
答案:D
解析:
17.[单选题]指出下面正确的说法①基于像素的图像增强方法是一种非线性灰度变换。②基于像素的
图像增强方法是基于空域的图像增强方法的一种。③基于频域的图像增强方法由于常用到傅里叶变
换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高。④基于频域的图像增强方法可以获
得和基于空域的图像增强方法同样的图像增强效果。
A)①②
B)①③
C)③④
D)②④
答案:D
解析:
18.[单选题]在HBase中,删除整个表结构的命令是()
A)truncate
B)drop
C)delete
D)以上都不正确
答案:B
解析:
19.[单选题]下列选项中,使用名称为cursojstudent的游标,将查询出的信息存入s_name和s_
gender,写法正确的是()。一
A)FETCHcursor_studentTOs_name,s_gender;
B)SETcursor_studentINTOs_name,s_gender;
C)FETCHcursor_studentINTOs_name,s_gender;
D)SETcursor_studentTOs_name,sgender;
答案:C
解析:
20.[单选题]以下不能创建一个字典的语句是
A)dictl={}
B)dict2={3:5}
C)dict3={[1,2,3]:"uestc”}
D)dict4={(1,2,3):"uestc”}
答案:C
解析:
21.[单选题]()不适合使用机器学习方法解决
A)判断电子邮件是否是垃圾邮件
B)判断给定的图中是否有环
C)是否给指定用户办理信用卡
D)咱对滴滴拼车乘客分簇
答案:B
解析:
22.[单选题]以下python注释代码,不正确的是。()
A)#python注释代码
B)#python注释代码1#python注释代码2
C)""“python文档注释"””
D)//python注释代码
答案:D
解析:
23.[单选题]下列不属于数据科学跨平台基础设施和分析工具的是()。
A)微软Azure
B)Google云平台
C)阿里云
D)Adobephotoshop
答案:D
解析:
24.[单选题]下面与Zookeeper类似的框架是?
A)Protobuf
B)Java
C)Kafka
D)Chubby
答案:D
解析:Zookeeper和Chubby的内存数据模型都类似于传统文件系统,由树形的层级目录结构构成,其
中的节点称为Znode,其可以是文件或是目录。
25.[单选题]物联网的核心和基础是()
A)RFID
B)计算机技术
C)人工智能
D)互联网
答案:D
解析:
26.[单选题]自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。
A)循环神经网络
B)卷积神经网络
C)多层神经网络
D)单层神经网络
答案:A
解析:循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具
有一定优势。循环神经网络在自然语言处理,例如语音识别、语言建模、机器翻译等领域有应用
,也被用于各类时间序列预报,如股票交易和气象预测。卷积神经网络主要用于图像处理。多层神
经网络主要用于分类任务,单层神经网络只能实现简单的逻辑,如与、或、非,若不加激活函数甚
至无法实现异或。
27.[单选题]下列描述说法错误的是?()
A)SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执
行操作。
B)Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行
安装使用。
C)VMwareWorkstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系
统。
D)SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。
答案:D
解析:
28.[单选题]下列关于Spark的描述,错误的是哪一项?
A)使用DAG执行引擎以支持循环数据流与内存计算析
B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中
C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过SparkShell进行交互式编程
D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中
答案:C
解析:
29.[单选题]0GG软件是一种基于(一)的结构化数据复制软件。
A)数据流
B)配置文件
C交互
D)日志
答案:D
解析:
30.[单选题]hadoop集群不可以在()进行。
A)联机模式
B)单机模式
C)虚拟分布模式
D)完全分布模式
答案:A
解析:
31.[单选题]若a=range(100),以下哪个操作是非法的()。
A)a[-0.3]
B)a[2:13]
C)a[::3]
D)a[2-3]
答案:A
解析:
32.[单选题]在淘宝网购物时,当你购买了“汽车防盗锁”之后,淘宝网会自动提示你与你购买相
同物品的其他客户还购买了汽车坐垫。这个案例体现了大数据思维的()
A)大数据强调因果性
B)大数据强调相关性
C)大数据强调精确性
D)大数据强调抽样
答案:B
解析:
33.[单选题]在Hadoop的组件中可用于实现各种经典的机器学习算法的组件是(一)。
A)HDFS
B)Hive
OPig
D)Mahout
答案:D
解析:
34.[单选题]离散程度的测度值愈大,则()。
A)反映变量值愈分散,算术平均数代表性愈差
B)反映变量值愈集中,算术平均数代表性愈差
C)反映变量值愈分散,算术平均数代表性愈好
D)反映变量值愈集中,算术平均数代表性愈好
答案:A
解析:离散程度的测度值愈大,则反映变量值愈分散,算术平均数代表性愈差。
35.[单选题]离散程度的测度值愈大,则()。
A)映变量值愈分散,算术平均数代表性愈差
B)映变量值愈集中,算术平均数代表性愈差
C)映变量值愈分散,算术平均数代表性愈好
D)映变量值愈集中,算术平均数代表性愈好
答案:A
解析:
36.[单选题]下列关于SparkStreaming和Streaming比较说法不正确的是?
A)SparkStreaming是一个微批处理框架,事件需要积累到一定量时才进行处理
B)Streaming的执行逻辑是即时启动,运行完后再回收
C)SparkStreaming的吞吐量大约是Streaming的2-5倍
D)SparkStreaming事件处理时延比Streaming更高
答案:B
解析:
37.[单选题]下列关于分类算法的准确率、召回率、F1值的描述错误的是()。
A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全
率
C)正确率、召回率和F1值取值都在0和1之间,数值越接近0,查准率或查全率就越高
D)为了解决准确率和召回率冲突问题,引入了F1分数
答案:C
解析:正确率、召回率、F1值取值都在0和1之间,数值越接近1,查准率或查全率就越高。
38.[单选题]np.linalg.svd()函数可以实现什么功能?
A)计算协方差矩阵
B)实现奇异值分解
C)计算方差
D)计算均值
答案:B
解析:
39.[单选题]下面哪一项不是云数据库的特性?()
A)动态可扩展
B)高成本
C)易用性
D)大规模并行处理
答案:B
解析:
40.[单选题]假设拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的
数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。
现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为
定位车辆在照片中的位置,则应采取的方法是()。
A)除去神经网络中的最后一层,冻结所有层然后重新训练
B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C)使用新的数据集重新训练模型
D)所有答案均不对
答案:B
解析:由于神经网络浅层网络主要提取图像的低维特征,对于相近领域进行迁移学习时,这些低维特
征相同,因此只需要对最后几层进行微调,而检测位置相当于回归任务。
41.[单选题]与科学可视化相比,(_)更关注抽象且应用层次的可视化问题。
A)信息可视化
B)可视化理论
C)可视分析学
D)数据可视化
答案:A
解析:
42.[单选题]考察一个由三个卷积层组成的CNN:kernel=3X3,stride=2,padding=SAMEo最低
层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是
200X300的RGB图片,总参数的数量是多少?
A)903400
B)2800
C)180200
D)720400
答案:A
解析:
43.[单选题]若依据一个视图创建另一个视图,那么添加()选项,视图的数据操作会进行级联检查。-
A)DEFINER
B)CASCADED
C)LOCAL
D)以上选项都不正确
答案:B
解析:
44.[单选题]()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快
捷地创建智能应用程序。
A)Mahout
B)Flume
C)Sqoop
D)HBase
答案:A
解析:
45.[单选题]下列关于大数据预测的说法中,错误的是()
A)人类的生活正在被大数据预测深刻改变
B)预测性分析是大数据最核心的功能
C)分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据的最大区别
D)大数据预测是基本大数据集和预测模型去预测过去某件事情的概率
答案:D
解析:
46.[单选题]下列方法中,可以将元组转换为Multilndex对象的是()
A)from_tuples()
B)from_arrays()
C)from_product()
D)from_list()
答案:A
解析:
47.[单选题]创建视图的命令是()
A)alterview
B)altertable
C)createtable
D)createview
答案:D
解析:
48.[单选题]下列关于分词的说法正确的是?
A)中文句子字之间没有空格,无法分词
B)一个句子的分词结果是唯一的
C)中文分词是将一系列无空格间隔字符串分割成一系列单词的过程
D)分词没有实际应用价值
答案:C
解析:
49.[单选题]SEQUENCEFILE是HadoopAPI提供的一种()进制文件支持,其具有使用方便、可分割
、可压缩的特点
A)二
B)八
C)十
D)十六
答案:A
解析:
50.[单选题]print。是通过参数(一)来设定以什么结尾。
A)objects
B)sep
C)end
D)file
答案:C
解析:
51.[单选题]以下不属于判别式模型的是:
A)决策树
B)BP神经网络
C)高斯混合模型
D)支持向量机
答案:C
解析:
52.[单选题]以下说法不正确的是()
A)HadoopStreaming使用Unix中的流与程序交互
B)HadoopStreaming允许我们使用任何可执行脚本语言处理数据流
C)采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUT
D)Reduce没有设定,上述命令运行会出现问题
答案:D
解析:
53.[单选题]在Hadoop中,哪个用于机器学习。
A)Hive
B)Pig
OHBase
D)Mahout
答案:D
解析:
54.[单选题]()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记
A)支持向量机
B)间隔最大化
C)线性分类器
D)贝叶斯判定准则
答案:D
解析:
55.[单选题]以下关于NoSQL数据库描述错误的是:()
A)NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称
B)NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系
模型
ONoSQL数据库有固定的表结构,通常存在较多连接操作
D)与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储
答案:C
解析:
56.[单选题]下面哪个进程负责MapReduce任务调度。()
A)NameNode
B)Jobtracker
C)TaskTracker
D)secondaryNameNode
答案:B
解析:
57.[单选题]下面哪个函数可以计算两个日期之间的差()
A)DateFormat
B)DatePart
ODateDiff
D)SystemDatetime
答案:C
解析:
58.[单选题]ApacheHadoop是使用哪个协议发布的()
A)ApacheLicense2.0
B)Shareware
C)MozillaPublicLicense
D)Commercial
答案:A
解析:
59.[单选题]下列哪个选项可用于查询ElasticSearch的索引?
A)curl-XGET"http://ip:httpport/_cluster/health?pretty'
B)B.curl-XGET'http://ip:httpport/name/type/indexlD?pretty'
C)C.curl-XPOSThttp://ip:httpport/name/type/indexlD?pretty-H'Content-
Type:application/ison'_d'{}'
D)D.curl-XGEThttp://ip:httpport/_cat/indices?'
答案:B
解析:
60.[单选题]假设已从标准库functools导入reduce()函数,那么表达式reduce(lambda
x,y:x+y,[1,2,3])的值为()。
A)None
B)6
03
D)9
答案:B
解析:reduce()是聚合函数,该操作完成数组求和功能。
61.[单选题]下列关于Hadoop中MapReduce的说法正确的是()。
A)可以没有Reduce任务
B)Reducer输入为随机输入
OShufe主要实现数据可视化功能
D)一个Reducer只能从一个Map复制所需要的partition
答案:A
解析:MapReduce中的Reduce并不是必须存在的。
62.[单选题]下列不属于RDBMS常用的数据库软件有()
A)Oracle
B)SQLServer
C)MySQL
D)redis
答案:D
解析:
63.[单选题]Hadoop具有特性不包括()。
A)高可靠性
B)高效性
C)高可扩展性
D)低容错性
答案:D
解析:
64.[单选题]关于“与/或”图表示知识的叙述,错误的有()o
A)用“与/或”图表示知识方便使用程序设计语言表达,也便于计算机存储处理。
B)“与/或”图表示知识时一定同时有“与节点”与“或节点”。
0“与/或”图能方便地表示陈述性知识与过程性知识。
D)能用“与/或”图表示的知识不适宜用其他方法表示。
答案:D
解析:
65.[单选题]以下变量名中正确的是(一)。
A)global
B)pass
C)except
D)letter
答案:D
解析:
66.[单选题]下列关于Spark的描述,错误的是哪一项?
A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
B)Spark在2014年打破了Hadoop保持的基准排序纪录
C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
D)Spark运行模式单一
答案:D
解析:
67.[单选题]下列关于漏斗图的说法中,错误的是()
A)漏斗图往往适用于业务流程上的顺序关系
B)漏斗图可以通过漏斗中梯形的大小,清晰地展示出不同数值的大小
C)漏斗图与饼图同样适用于表示占比的情况
D)漏斗图不适用于表示无逻辑顺序的分类对比情况
答案:C
解析:漏斗图不适合表示无逻辑顺序的分类对比,如果要表示无逻辑顺序的分类对比情况,请使用柱状
图。漏斗图也不适合表示占比情况,如果要表示占比情况,请使用饼图。
68.[单选题]Hive是建立在()之上的一个数据仓库
A)HDFS
B)MapReduce
C)Hadoop
D)HBase
答案:C
解析:
69.[单选题]下面哪个协议用于SecondaryNamenode和Namenode之间的通信()
A)DatanodeProtocol
B)NamenodeProcotol
C)ClientProtocol
D)ClientDatanodeProtocol
答案:B
解析:A、DatanodeProtocol【DataNode与NameNode通信的信息接口】
B、NamenodeProcotol[SecondaryNamenode与NameNode通信】
C、Clientprotocol【表示安装在客户端实例上的网络协议】
D、ClientDatanodeProtocol【用户进程(包括客户端进程与Datanode进程)与Namenode进程之间进
行通信所使用的协议】
70.[单选题]按照班级进行分组()
A)ORDERBYCLASSES
B)DORDERCLASSES
C)GROUPBYCLASSES
D)GROUPCLASSES
答案:C
解析:
71.[单选题]Maxcompute的命令行工具odpscmd可以使用()参数调用某个文件中的命令集。
A)k
B)e
Of
D)c
答案:C
解析:
72.[单选题]下列哪些选项不是HBase为null的列不占用存储空间的原因?
A)Region分裂
B)列存储
C)行存储
D)Key-Value结构
答案:D
解析:
73.[单选题]在HDFS中,NameNode的主要功能是什么?
A)维护了blockid到datanode本地文件的映射关系
B)存储文件内容
C)文件内存保存在磁盘中
D)存储元数据
答案:D
解析:
74.[单选题]下列滤波器中对图像中的椒盐噪声滤波效果最好的是()。
A)中值滤波
B)均值滤波
C)最大值滤波
D)最小值滤波
答案:A
解析:
75.[单选题]关于Spark中SparkSQL描述不准确的是?
A)SparkSQL使用场景包括毫秒级实时查询
B)SQL语句通过SparkSQL模块解析为DAG,交给SparkCore执行
C)通过Sparksession提交SQL语句,任务像Spark应用一样,提交到集群中分布式运行。
D)SparksQL是Spark用来处理结构化数据的一个模块,可以在spark应用中接使用SQL语句对数据进行
操作。
答案:A
解析:
76.[单选题]HDFS寻求帮助的命令格式是什么?
A)$hadoopfs-h命令名
B)$hadoopfs-help命令名
C)$hadoopfsh命令名
D)Shadoopfshelp命令名
答案:B
解析:
77.[单选题]下列哪个程序通常与NameNode在一个节点启动?
A)SecondaryNameNode
B)DataNode
C)TaskTracker
D)Jobtracker
答案:D
解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和
tasktracker属于slave,master只有一个,而slave有多个。
JobTracker对应于NameNode;
TaskTracker对应于DataNode。
78.[单选题]requests库的get()函数执行后会返回一个Response类型的对象,其text属性以()形式
存储响应内容
A)网页
B)字符串
C)整数
D)文本
答案:B
解析:
79.[单选题]执行以下代码段t=(l,2,4,3)print(t[l:3])时,输出为()。
A)(1,2)
B)(1,2,4)
0(2,4)
D)(2,4,3)
答案:C
解析:
80.[单选题]在以下代码片段中:i=lwhilei
A)10次
B)9次
C)0次
D)以上都不对
答案:B
解析:
81.[单选题]个性化推荐系统是建立在海量数据挖据基础上的一种高级商务智能平台,以帮助(
)为其顾客购物提供完全个性化的决策支持和信息服务。
A)公司
B)单位
C)电子商务网站
D)跨国企业
答案:C
解析:
82.[单选题]关于HDFS的文件写入,正确的是。。
A)支持多用户对同一文件的写操作
B)用户可以在文件任意位置进行修改
C)默认将文件复制成三份存放
D)复制的文件块默认存在同一机架上
答案:C
解析:
83.[单选题]阿里云MaxCompute中,用于在关系表达式中匹配任意一个字符的是:()。
A)
B)
O*
D)'\'
答案:D
解析:
84.[单选题]数据湖探索(DataLakeInsight,简称DLI)是支持以下()形式的大数据计算分析
服务。
A)流式处理
B)批处理
C)流批一体
D)都不支持
答案:C
解析:
85.[单选题]以下关于文件的描述,错误的是:
A)二进制文件和文本文件的操作步骤都是“打开-操作-关闭”
B)openO打开文件之后,文件的内容并没有在内存中
C)open()只能打开一个已经存在的文件
D)文件读写之后,要调用close。才能确保文件被保存在磁盘中了
答案:C
解析:
86.[单选题]下面对"ORDERBYpno,level”描述正确的是()。—
A)先按level全部升序后,再按pno升序
B)先按level升序后,相同的level再按pno升序
0先按pno全部升序后,再按level升序
D)先按pno升序后,相同的pno再按level升序
答案:D
解析:
87.[单选题]np.abs()函数可以实现什么功能?
A)计算绝对值
B)计算相反数
C)计算方差
D)计算均值
答案:A
解析:
88.[单选题]以下关于降维的表述,错误的是()。
A)降维过程中可以保留原始数据的所有信息
B)多维缩放的目标是要保证降维后样本之间的距离不变
C)线性降维方法目标是要保证降维到的超平面能更好地表示原始数据
D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结
构丢失
答案:A
解析:降维过程中尽量保留原始数据的信息,但不能保留原始数据的全部信息。
89.[单选题]当我们需要在一张图表中加上文字标注,达到提醒读者的目的时,需要用至1](_)函数。
A)pit.axvspan()
B)pit.axhspan()
C)pit.annotate()
D)plt.text()
答案:D
解析:
90.[单选题]行业应用解决的是行业()问题,并为企业应用提供基础平台。
A)单一
B)共性
C)基础
D)根本
答案:B
解析:
91.[单选题]下列关于数据重组的说法错误的是()。
A)数据重组是数据的重新生产和重新采集
B)数据重组能够使数据焕发新的光芒
C)数据重组实现的关键在于多源数据融合和数据集成
D)数据重组有利于实现新颖的数据模式创新
答案:A
解析:数据重组将数据库内各数据的相关信息重新组织。
92.[单选题]当图像通过信道传输时,噪声一般与()无关。
A)、信道传输的质量
B)、出现的图像信号
C)、是否有中转信道的过程
D)、图像在信道前后的处理
答案:B
解析:
93.[单选题]以下哪一项不是Spark框架可以满足的大数据分析场景?
A)批处理
B)即席查询
C)流处理
D)大批量shuffle的实时需求
答案:D
解析:
94.[单选题]K-Means算法无法聚类()形状的样本。
A)圆形分布
B)螺旋分布
C)带状分布
D)凸多边形分布
答案:B
解析:
95.[单选题]可以从foohs2019bar提取hs2019的正确语句是
A)selectregexpreplace('foohs2019bar','hs[0-9]{3}','')
B)selectregexp_replace('foohs2019bar','hs[0-9]{4}','')
C)selectregexp_extract('foohs2019bar',"(hs[0-9]{4})',0)
D)selectregexp_extract('foohs2019bar','(hs[0-9]{4})',1)
答案:D
解析:
96.[单选题]下列关于数据可视化的描述,哪个是错误的?()
A)数据可视化是指将大型数据集中的数据以图形图像形式表示
B)利用数据分析和开发工具发现其中未知信息的处理过程
C)数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示
D)将数据的各个属性值以一维数据的形式表示
答案:D
解析:
97.[单选题]当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化
性能下降,这种现象称为()
A)欠拟合
B)过拟合
C)拟合
D)以上答案都不正确
答案:B
解析:
98.[单选题]大数据计算服务中,日志表ods_order是一张非分区表,结构如下:createtable
ods_order(order_idstring,order_datestring,order_amtdecimal);fact_order是一张按日
期分区的表,结构如下:createtablefact_order(order_idstring,order_amtdecimal)
partitionedby(order_dtstring);现在需要将数据从ods_order加载到fact_order表中,并且按
照order_date进行分区,执行了以下SQL:insertoverwritetablefact_order
partition(order_dt)selectorder_id,order_amt,order_dateasorder_dtfromods_order;
ods_order表中的order_date有部分记录取值为NULL,对执行结果描述正确的是:()。
A)语句可以正常执行,其中order_date为NULL的记录会被放入order_dt='BAD'的分区
B)语句可以正常执行,在提交时会报语句错误
C)语句可以正常执行,其中的order_date为NULL值的记录会被丢弃
D)语句无法正常执行,系统会抛异常
答案:B
解析:
99.[单选题]大数据的特点不包括下面哪一项o
A)巨大的数据量
B)多结构化数据
C)增长速度快
D)价值密度高
答案:D
解析:大数据的显著特征不包括数据价值密度高;大数据的显著特征数据规模大、数据类型多样、数
据处理速度快
100.[单选题]MaxCompute的命令行工具odpscmd可以使用()参数调用某个文件中的命令集。
A)e
B)k
Of
D)c
答案:C
解析:
101.[单选题]数据安全不只是技术问题,还涉及()。
A)人员问题
B)管理问题
C)行政问题
D)领导问题
答案:B
解析:
102.[单选题]()是一个类似Facebook的scribe的分布式,高可靠,高可用,高校的数据收集器
O
A)Oozie
B)Flume
C)Sqoop
D)Hue
答案:B
解析:
103.[单选题]长短时记忆网络属于一种()
A)全连接神经网络
B)门控RNN
C)BP神经网络
D)现向RNN
答案:B
解析:
104.[单选题]Spark是用以下()编程语言实现的。
A)C
B)C++
C)JAVA
D)Scala
答案:D
解析:
105.[单选题]FusioninsightHD使用HBase客户端批量写入10条数据,某个regionserver节点上包含
该表的2个region,分别A和B,10条数据中有两条属于A,4条属于B,请问写入这10条数据需要向该
regionserver发送几次RPC请求?
A)A1
B)B2
C)C6
D)D10
答案:A
解析:
106.[单选题]HBase虚拟分布式模式需要()个节点?
A)1
B)2
03
D)最少3个
答案:A
解析:
107.[单选题]参数估计又可分为()和区间估计。
A)线型估计
B)点估计
C)回归估计
D)二维分析
答案:B
解析:参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看
,区分为点估计与区间估计。
108.[单选题]下面关于数据科学与统计学的关系描述不正确的有(_)。
A)数据科学是统计学的主要基础理论之一
B)数据科学的工具往往来自于统计学
C)统计学家在数据科学的发展中做出过突出贡献
D)第一篇以“数据科学”为标题的论文是由统计学家完成的
答案:A
解析:
109.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入(_)。
A)线性回归
B)线性判别分析
C)正则化项
D)偏置项
答案:C
解析:
110.[单选题]在马尔科夫随机场中,(_)个变量之间的联合概率分布能基于团分解为多个因子的
乘积。
A)2
B)3
04
D)多
答案:D
解析:
111.[单选题]下列哪一种命令格式是不正确的()
A)get
B)scan
C)alter
D)put
答案:B
解析:
112.[单选题]在HBase中,查看所有记录的命令是()
A)selectfrom'表名称'
B)select'表名称'
C)scan'表名称'
D)select*from'表名称'
答案:C
解析:
113.[单选题]执行以下代码段importrandomprint(random,choice('sun'))时,输出为()0
A)sun
B)s或u或n
C)除了s、u、n的任一字符
D)s
答案:B
解析:
114.[单选题]对于线性回归模型,包括附加变量在内,以下可能正确的是()1)R-Squared和
AdjustedR呵uared都是递增的2)R-Squared是常量的,AdjustedR叫uared是递增的R-Squared是递减
的,AdjustedR-squared也是递减的R-Squared是递减的,AdjustedR-Squared是递增的
A)1和2
B)1和3
02和4
D)以上都不是
答案:D
解析:
115.[单选题]Python内置函数()可以返回列表、元组、字典、集合、字符串以及range对象中元素
个数
A)dim
B)len
C)set
D)compute
答案:B
解析:
116.[单选题]执行以下代码段classMyGraph():def—init_(self,nodes,edges):self,nodes
=nodes[:]self,edges=edges[:]def_eq_(self,g):ifsorted(self,nodes)!=
sorted(g.nodes):returnFalseifsorted(self,edges)!=sorted(g.edges):returnFalse
returnTruegl=MyGraph(['A','B',"C'],edges=[('A','B'),("B','C')])g2=
MyGraph(['A','C','B'],edges=L('B','C'),('A','B')])print(gl==g2)时,输出为
(一)o
A)True
B)False
ONone
D)Error
答案:A
解析:
117.[单选题]()可以为远程客户端提供执行Hive查询服务。
A)MetastoreServer
B)HiveServer2
C)BeelineCLI
D)MySQL
答案:B
解析:
118.[单选题]OTS单个分片下所有行的大小总和不能超过()。
A)无限制
B)1G
C)1M
D)1T
答案:B
解析:
119.[单选题]MaxCompute底层存储使用的文件格式为:()。
A)CHUNK
B)GFS
C)CFILE
D)MFC
答案:D
解析:
120.[单选题]以下可以用于比较运算的函数是()。-
A)RAND0
B)P0W()
OCEILO
D)IN()
答案:D
解析:
121.[单选题]1104报表系统是向那个部门报送的行业监管平台
A)中国人民银行
B)国家外汇管理局
C)省联社
D)银监会
答案:D
解析:
122.[单选题]print(type('abc'))打印结果为
A)str
B)int
C)float
D)list
答案:A
解析:
123.[单选题]下面关于数据科学与机器学习的关系描述不正确的有(_)。
A)机器学习为数据科学中充分发挥计算机的自动数据处理能力提供了重要的手段
B)机器学习是数据科学的主要理论基础之一
C)机器学习为数据科学中扩展人的数据处理能力提供了重要的手段
D)机器学习的基础理论包含数据科学
答案:D
解析:
124.[单选题]Shufile阶段中哪一步是可选的?()
A)排序
B)分区
C)分组
D)规约
答案:D
解析:
125.[单选题]在MaxComputeSQL中,常量定义100BD表示的含义是:()。
A)数值为100的DECIMAL
B)数值为100的Bigint
C)数值为100的String
D)数值为100的Double
答案:A
解析:
126.[单选题]下面不属于NewSQL的有(_)。
A)memsql
B)trafodion
C)mariaDB
D)objectivity
答案:D
解析:
127.[单选题]下列关于推荐系统的描述错误的是()o
A)推荐系统是自动联系用户和物品的一种工具
B)和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算
C)推荐系统可以发现用户的兴趣点,帮助用户从海量信息中发掘自己潜在的需求
D)推荐系统是一种只能通过专家进行人工推荐的系统
答案:D
解析:
128.[单选题]在MapReduce中,。阶段,Mapper执行maptask,将输出结果写入中间文件。
A)Shuffle
B)Map
C)Reduce
D)Sort
答案:B
解析:
129.[单选题]大数据4V特征不包括
A)规模性(Volume)
B)有效地(Valid)
C)多样性(Varity)
D)高速性(Velocity)
答案:B
解析:
130.[单选题]主节点程序()o
A)NameNode
B)DataNode
C)SecondaryNameNode
D)Jobtracker
答案:A
解析:
131.[单选题]根据《大数据风控平台项目操作手册》,担保圈链模块,用户可在页面右侧的关联筛
选选项卡中,基于()筛选条件,控制图谱展示的担保关联最高层级数。
A)快速定位
B)B.层级选择
c)c.客户筛选
D)D.担保筛选
答案:B
解析:
132.[单选题]下列关于构造函数说法错误的是(—)。
A)python中如果子类有自己的构造函数,不会自动调用父类的构造函数
B)如果需要用到父类的构造函数,则需要在子类的构造函数中显式的调用
C)如果子类没有自己的构造函数,则会直接从父类继承构造函数
D)无论子类有没有构造函数,子类都会自动调用父类的构造函数
答案:D
解析:
133.[单选题]对于ADS的连接方式,以下说话正确的是:()。
A)以上都是
B)安装了php-mysql-5.1.x模块的php环境
C)使用版本为5.4系列的mysql-jdbc驱动
D)mysql5.6的客户端
答案:A
解析:
134.[单选题]()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概
率计算,又不至于彻底忽略了比较强的属性依赖关系。
A)贝叶斯判定准则
B)贝叶斯决策论
C)朴素贝叶斯分类器
D)半朴素贝叶斯分类器
答案:D
解析:
135.[单选题]属于深度学习框架的是()。
A)Tensorow
B)Caffe
C)PyTorch
D)以上答案都正确
答案:D
解析:Tensorow、Caffe、PyTorch都是流行的深度学习框架。
136.[单选题]()模块是Python标准库中最常用的模块之一。通过它可以获取命令行参数,从
而实现从程序外部向程序内部传递参数的功能,也可以获取程序路径和当前系统平台等信息。
A)sys
B)platform
Omath
D)time
答案:A
解析:sys模块用来获取命令行参数,从而实现从程序外部向程序内部传递参数的功能,也可以获
取程序路径和当前系统平台等信息。
300
137.[单选题]Hadoop()中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并
到输出。
A)应用场景
B)分布式计算
C)分阶段计算
D)高效处理
答案:B
解析:
138.[单选题]IBMCloud为我们提供的是以下哪种服务?
A)SaaS
B)PaaS
C)laaS
D)DaaS
答案:B
解析:
139.[单选题]关于数据组织的维度描述正确的是
A)二维数据由对等关系的有序或无序数据构成
B)高维数据由关联关系数据构成
OCSV是一维数据
D)一维数据采用线性方式存储
答案:D
解析:
140.[单选题]某企业准备上线一个项目,去搜集国内主要门户、论坛中和本公司相关的消息,一旦
有符合预定义类型的消息出现,将第一时间反馈给公司的公共关系部,该场景属于典型的()。
A)流计算
B)在线计算
O0LTP
D)离线计算
答案:A
解析:
141.[单选题]根据《促进大数据发展行动纲要》(国发(2015)51号)制定的主要任务,下列
()不是“公共服务大数据工程”中的四大工程之一。
A)医疗健康服务大数据
B)社会保障服务大数据
C)新兴产业大数据
D)交通旅游服务大数据
答案:C
解析:
142.[单选题]以下不是测试方法的是()
A)留出法
B)交叉验证法
0自助法
D)全量法
答案:D
解析:
143.[单选题]要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域
,主要研究计算机如何自动获取知识与技能,实现自我完善,这门研究分支学科叫()O
A)专家系统
B)机器学习
C)神经网络
D)模式识别
答案:B
解析:
144.[单选题]事件A在另外一个事件B已经发生条件下的发生概率,称为(_)。
A)先验概率
B)后验概率
C)条件概率
D)统计概率
答案:C
解析:
145.[单选题]下列不是距离度量需要满足的基本性质的是。
A)非负性
B)同一性
C)对称性
D)传递性
答案:D
解析:
146.[单选题]关于Flink的角色,下列哪-项说法是错误的?
A)TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。
B)Cient是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处
理。
C)JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。
D)TaskManager是实际负责执行计算的Worker.
答案:A
解析:
147.[单选题]如果需要在select语句中根据某列的结果进行判断处理,Hive支持在select语句中使
用()的判断子句
A)casewhenthen
B)casewherethen
C)casewhilethen
D)casehowthen
答案:A
解析:
148.[单选题]下面哪个不属于循环神经网络的输出模式
A)单输出
B)多输出
C)同步多输出
D)异步多输出
答案:C
解析:
149.[单选题](一)是分类错误的样本数占样本总数的比例。
A)精度
B)错误率
C)正确率
D)误差
答案:B
解析:
150.[单选题]MaxCompute中,()命令可以查看角色role_test的权限。
A)descrolerole_test
B)listrolerole_test
C)showgrantsforrolerole_test
D)showaclforrolerole_test
答案:A
解析:
151.[单选题]下列对大数据4V特征的说法中,错误的是
A)数据规模大
B)数据价值密度高
C)数据类型多样
D)数据处理速度快
答案:B
解析:
152.[单选题]如下:strl="Runoobexample....wow!!!"str2="exam";Print(strl.find(str2,
5))打印的结果是
A)6
B)7
C)8
D)-l
答案:B
解析:
153.[单选题]决策树中的叶结点对应于(_)。
A)属性
B)样本
C)决策结果
D)标签值
答案:C
解析:
154.[单选题]下列关于特征编码的叙述中,不正确的是0。
A)特征编码是将非数值型特征转换成数值型特征的方法
B)数字编码与特征的排序无关
C)0ne-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征
D)哑变量编码解决了One-Hot编码中存在线性关系的问题
答案:B
解析:数字编码与特征的排序有关,先出现的优先排序。
155.[单选题]下列数据类型中适合存储PDF文档的是()。-
A)CHAR
B)VARCHAR
C)VARBINARY
D)BLOB
答案:D
解析:
156.[单选题]下列对于查全率的描述,解释正确的是(__)。
A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。
B)先统计分类正确的样本数,然后除以总的样例集D的个数。
C)预测为正的样例中有多少是真正的正样例
D)样本中的正例有多少被预测正确
答案:D
解析:
157.[单选题]在做CNN时,输入图片大小为37X37,经过第一层卷积层(有25个卷积核,每个卷积核的
大小为5X5,不做填充,步长为1),与池化层(Maxpooling大小为3X3,不做填充,步长为1),输
出图片再通过一次卷积层(有100个卷积核,每个卷积核的大小为4X4,不做填充,步长为1),与池
化层maxpooling(Maxpooling大小为2X2,不做填充,步长为D,最终输出特征图大小为()。
A)2X2
B)3X3
04X4
D)5X5
答案:C
解析:
158.[单选题]属于无监督学习的是()
A)、随机森林
B)、朴素贝叶斯
C)、主成分分析
D)、支持向量机
答案:C
解析:
159.[单选题]Oracle实例是
A)Oracle内存结构
B)OracleI/O结构
C)Oracle后台进程
D)以上都是
答案:D
解析:
160.[单选题]y=lOwhiley:y-=Iprint(y)请问输出的y是多少()
A)-l
B)1
C)0
D)while构成无限循环
答案:C
解析:
161.[单选题]以下对Python程序设计风格描述错误的选项是:
A)Python中允许把多条语句写在同一行
B)Python语句中,增加缩进表示语句块的开始,减少缩进表示语句块的退出
OPython可以将一条长语句分成多行显示,使用续航符“\”
D)Python中不允许把多条语句写在同一行
答案:D
解析:
162.[单选题]下列用于关闭文件的是()。
A)read()
B)tell()
C)seek()
D)close()
答案:D
解析:read()函数为读取操作;tell()函数用于判断文件指针当前所处的位置操作;
Seek()函数为用于将文件指针移动至指定位置操作;close()函数为关闭文件操作。
163.[单选题]在Hadoop配置文件中,以下属于core-site.xml文件主要内容的是()
A)用于定义系统级别的参数,如HDFSURL、Hadoop的临时目录等。
B)名称节点和数据节点的存放位置、文件副本的个数文件读取权限等。
C)配置ResourceManager,NodeManager的通信端口,web监控端口等。
D)包括JobHistoryServer和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用
内存的默认上下限等。
答案:A
解析:
164.[单选题]将闵可夫斯基距离和(_)结合即可处理混合属性。
A)ValueDifferenceMectric
B)k-means
C)k近邻
D)SVM
答案:A
解析:
165.[单选题]如果一个split文件中有3行内容,贝^MapReduce框架将为其分配一个任务进程
MapTask,MapTask调用()次map函数。
A)1
B)2
03
D)4
答案:C
解析:
166.[单选题]在概率图模型中,(_)模型是一种判别式无向图模型。
A)马尔可夫随机场
B)隐马尔可夫模型
C)条件随机场
D)逆误差传播
答案:C
解析:
167.[单选题]Hive的数据最终存储在()中。
A)HDFS
B)HBase
C)RDBMS
D)MetaStore
答案:A
解析:Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统HDFS中
168.[单选题]当一个MapReduce应用程序被执行时,如下()动作是map阶段之前发生的。
A)split
B)combine
C)partition
D)sort
答案:A
解析:
169.[单选题]以下关于隐马尔科夫模型中,叙述错误的是(—兀
A)是一种有向图模型
B)是一种无向图模型
C)是一种结构简单的动态贝叶斯网络
D)常被应用于时序数据建模
答案:B
解析:
170.[单选题]某公司计划上线新系统,数据库工程师使用Hive数据仓库进行数据分析,现在界面提
示:"。:jdbc:hive2:〃192.168.0.186:2181/〉"信息,现已完成数据库的创建工作,那么他将如何继
续开始数据库的使用?
A)usedatabase
B)startdatabase
C)restartdatabase
D)continuedatabase
答案:A
解析:
171.[单选题]Spark的()组件用于支持实时计算需求。
A)SparkSQL
B)SparkStreaming
C)SparkGraphX
D)SparkMLLib
答案:B
解析:SparkStreaming组件用于实时处理。
172.[单选题]假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函
数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。
A)仍然能正确分类数据
B)不能正确分类
C)不确定
D)以上均不正确
答案:A
解析:采用更大的C,误分类点的惩罚就更大,因此决策边界将尽可能完美地分类数据。
173.[单选题]关于大数据在社会综合治理中的作用,以下理解不正确的是()o
A)大数据的应用能够杜绝抗生素的滥用
B)大数据的应用能够维护社会治安
C)大数据的应用有利于走群众路线
D)大数据的应用能够加强交通管理
答案:A
解析:
174.[单选题]下图展示了StructuredStreaming的计算模型。通过观察可以得出最终T3的计算
结果是?
style="width:auto;"class="fr-ficfr-filfr-dibcursor-hover">
A)Dog1,owl1
B)Cat2,dog4,owl2
C)Cat2,dog3,owl1
D)Cat1,cat1,dog2,dog2,owl2
答案:B
解析:
175.[单选题]返回当前日期的函数是()
A)curtime()
B)adddate()
C)curnow()
D)curdate()
答案:D
解析:
176.[单选题]以下哪项关于决策树的说法是错误的()。
A)冗余属性不会对决策树的准确率造成不利的影响
B)子树可能在决策树中重复多次
C)决策树算法对于噪声的干扰非常敏感
D)寻找最佳决策树是NP完全问题
答案:C
解析:决策树算法对于噪声的干扰具有相当好的鲁棒性。
177.[单选题]HFile数据格式中的Metaindex字段用于()。
A)Meta块的长度
B)Meta块的结束点
C)Meta块数据内容
D)Meta块的起始点
答案:D
解析:index索引地址的意思就是起始点。
178.[单选题](_)是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。
A)数据化
B)数据可视化
C)数据存储
D)数据加工
答案:A
解析:
179.[单选题]下面与HDFS类似的框架是_____?
A)NTFS
B)FAT32
OGFS
D)EXT3
答案:C
解析:与hdfs类似的框架是GFS,GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大
量数据进行访问的应用。
180.[单选题]下列不是NoSQL数据库的是()。
A)MongoDB
B)BigTable
OHBase
D)Access
答案:D
解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的
NoSQL产品有DangaInteractive的Memcached、lOgen的MongoDB、Facebook的Cassandra、
Google的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet,
CouchDB和Redis等。
181.[单选题]以下关于过拟合与欠拟合说法正确的是(—)
A)欠拟合无法彻底避免
B)过拟合可采取的方法有:在决策树学习中扩展分支等
C)过拟合模型表现为在训练集上具有高方差和低偏差
D)泛化误差是模型响应训练数据而变化的程度
答案:C
解析:
182.[单选题]执行数据块复制的任务时,是什么和什么在进行通信()
A)clientandnamenode
B)clientanddatanode
C)namenodeanddatanode
D)datanodeanddatanode
答案:D
解析:数据块复制:数据和数据之间的复制(我瞎说的)
183.[单选题]对a=(l,2,3,4,5),下面操作正确的是()
A)a0=(l,2,3,4)
B)a⑴=4
C)a[0:2]
D)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论