版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试题说明
本套试题共包括1套试卷
答案和解析在每套试卷后
大数据CDA考试练习题及答案2(500题)
大数据CDA考试练习题及答案2
L[单选题[Streaming主要通过ZOOkeePer提供以下的哪项实现事件侦听?
A)分布式锁机制
B)Watcher
C)Checkpoint
2.[单选题]关于HadOOP单机模式和伪分布式模式的说法正确的是()。
A)两者都起守护进程,且守护进程运行在一台机器上
B)单机模式不使用HDFS,但加载守护进程
C)两者都不与守护进程交互,避免复杂性
D)后者比前者增加了HDFS输入输出以及可检查内存使用情况
3.[单选题]为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于Leader
Partition和FolloWPartition的描述错误的是()
A)Kafka针对Partition的制需要选出一个Leader。由该Leader负责Partition的读写操作。其他
的副本节点只是负责数据同步
B)由于LeaderServer承载了全部的请求压力。因此从集群的整体考虑,Kafka会将Leader,均衡的
分散在每个实例上,来确保数据均衡
C)一个Kafka集群各个节点间不可能互为Leader和FIoWer
D)如果Leader失效。那么将会有其他foilOWer来接管(成为新的Leader)
4.[单选题]下列论据中,能够支撑“大数据无所不能”的观点的是0。
A)互联网金融打破了传统的观念和行为
B)大数据存在泡沫
C)大数据具有非常高的成本
D)个人隐私泄露与信息安全担忧
5.[单选题]以下关于一元线性回归分析中(y=bθ+blx+ε),描述错误的是()。
A)一元线性回归中F检验的作用与t检验是一致的
B)一元线性回归中F检验的检验统计量与t检验是一致的
C)即便建立了一元线性回归,也不能直接认为X是y的原因
D)如果用来预测的X,与样本中的自变量偏差很大,那么预测得到y的可靠性也会很低。
6.[单选题]找出这组数据:23、29、20、32、24、21、33、25的中位数。()
A)23
B)24
C)27
D)29
7.[单选题]kafka-clustermirroring工具可以实现以下那些功能?()
A)kafka集群数据同步方案
B)kafka单集群内数据备份
Okafka单集群内数据恢复
D)以全部不对
8.[单选题]关于HBaSe下面说法正确的是()。
A)HBaSe是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列
B)每个值是一个未经解释的字符串,没有数据类型,程序员要自己去对它进
C)用户在表中存储数据,每一行都有一个可排序的行键和任意多的列
D)以上说法都正确
9.[单选题]马斯洛需求理论将人的需求从低到高依次排序是()。
A)生理需求安全需求社交需求自我实现需求尊重需求
B)生理需求安全需求尊重需求社交需求自我实现需求
C)安全需求生理需求尊重需求自我实现需求社交需求
D)生理需求安全需求社交需求尊重需求自我实现需求
10.[单选题]以下关于继承的叙述正确的是()
A)在JaVa中类只允许单一继承
B)在JaVa中一个类只能实一个授口
C)在JaVa中一个类不能同时继承一个类和实现个接口
D)在JaVa中接口只允许单一继承
IL[单选题]关于数据分析报告错误的是()。
A)展示分析结果
B)验证分析质量
C)展示分析过程
D)提供决策依据
12.[单选题]Spark原生开发语言是()。
A)Scala
B)Java
C)PyPhtthon
D)R语
13.[单选题]以下哪个语句不能查询出结果
A)select
B)select
C)select
D)select
14.[单选题]Hbase的某张表的ROWkey划分SPIitkey为9.E.a.2.请问表里面有几个Region?
A)6
B)3
05
D)4
15.[单选题]在Jinjia2模板引擎中实现模板的继承,使用的关键词是()。
Λ)extend
B)extends
C)from
D)import
16.[单选题]万维网之父是()。
A)彼得•德鲁克
B)舍恩伯格
C)蒂姆•伯纳斯-李
D)斯科特•布朗
17.[单选题]FusioninsightHD系统审计日志不可以记录下面哪些操作?
A)手动清除告警
B)启停服务实例
C)查询历史监控
D)除服务实例
18.[单选题]Spark自带的资源管理框架是?()
A)Standalone
B)MesoS
C)YARN
D)Docker
19.[单选题]相较于电话和面访调查,下面不属于自填式问卷调查弱点的是()
A)问卷的返回率比较低
B)不适合结构复杂的问卷
C)调查周期比较长
D)调查的成本较高
20.[单选题]17、19、22、24、25、28、34这组数的四分位差是()。
A)24
B)12
C)9
D)D17
21.[单选题]关于DataSet,下列说法不正确的是?
A)Dataset不需要反序列化就可执行大部分操作
B)Dataset是一个由特定域的对象组成的强类型集合
ODataset与RDD高度类似性能比RDD好
D)Dataset执行Sort,filter,ShUffIe登操作需要进行反序列化
22.[单选题]以下选项中主节点和从节点配置的端口都是0。
Λ)9000
B)1000
C)7000
D)8000
23.[单选题]满足最小支持度阈值(minsup)的所有项集称为0。
A)项
B)项集
C)频繁项集
D)频繁K项集
24.[单选题]小王为了运用逻辑回归进行反欺诈识别,直接从数据库中运用简单随机抽样的方法进行
抽样,并得到了IOOOO条样本,其中7000作为训练,3000作为测试,在测试集中小王的正负样本整体
预测准确率为99.7%,下面表述错误的是()
A)模型的整体预测准确率很高,因此可以认为模型结果是可靠的
B)有必要进一步查看混淆矩阵
C)有必要查看正负样本比例
D)反欺诈问题中,运用简单随机抽样是欠妥的
25.[单选题]在JaVa中,一个类可同时定义许多同名的方法,这些方法的形式参个数、类型或顺序各
不相同,传回的值也可以不相同。这种面向对象程序的特性称为
A)隐藏
B)覆盖
C)重载
D)Java不支持此特性
26.[单选题]关于Kafka的基本概念描述错误的是()?
A)Kafka集群包含一个或多个服务实例,这些服务实例被称为Broker
B)每条发布到Kafka集群的消息都有一个类别,这个类别被称为ToPiC
C)每个ConSUmer属于多个的ConsumerGroup
D)Kafka将TOPiC分成一个或者多个PartitiOn,每个Partition在物理上对应一个文件夹,该文件夹
下存储这个Partition的所有消息
27.[单选题]回归分析首要解决的问题是([0
A)确定解释量和被解释变量
B)确定回归模型
C)建立回归方程
D)进行检验
28.[单选题]下列选项中,哪个是对分类器效果验证指标中准确率的正确表述。)
A)预测为正的数据在总数据中的比例
B)预测正确的数据在总数据中的比例
C)预测为正的数据中实际为正的数据所占比例
D)实际为正的数据中被预测为正的数据所占比例
29.[单选题]为什么要在类神经网络中计算误差值?()
A)调整输入值
B)调整隐藏层个数
C)调整权重(Weight)
D)调整真实值
30.[单选题]下面属于有监督学习的是?
A)数据统计
B)分类
C)聚类
D)关联分析
31.[单选题]以下哪个关键字可以用来为对象加互斥锁?
A)transient
B)static
C)serialize
D)synchronized
32.[单选题]检验单总体方差的过程中,检验统计量服从()。
A)标准正态分布
B)正态分布
C)卡方分布
D)t分布
33.[单选题]以下哪个部分不是一篇数据分析报告必须有的。()
A)标题
B)正文
C)结论与建议
D)附录
34.[单选题]关于逻辑回归(LogiStiCregrssion)因变量和自变量的说法中,正确的是()。
A)逻辑回归的因变量为数值变量
B)逻辑回归的因变量为定性变量
C)逻辑回归的自变量是定性变量
D)逻辑回归的因变量只能有两种取值
35.[单选题]以下对于ZookeePer中的角色描述错误的是。
A)Leader:负责进行投票的发起和决议。
B)FolloWer:接受客户请求并向客户端返回结果
OObserver:接收客户端请求,参加投票
D)CIient:请求发起方
36.[单选题]创建LOader作业时哪个步骤中设置MaP数?
A)输出
B)输入设置
C)转换
D)基本信息
37.[单选题]下面哪种数据属于面板数据()。
A)2018年某网站日访问量数据
B)2008-2018年各省市自治区的绿化面积的月环比数据
C)2009-2019年中国GDP数据
D)2018年国庆长假各5A景区累积接待游客数据。
38.[单选题]设计分布式数仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什
么操作。
A)分桶
B)分区
C)索引
D)分表
39.[单选题]时间序列模型不能应用到以下哪种情况。()
A)系统描述
B)预测未来
C)决策和控制
D)行业分析
40.[单选题]HFile数据格式中的MetaIndeX字段用于()。
A)Meta块的长度
B)Meta块的结束点
C)Meta块数据内容
D)Meta块的起始点
41.[单选题]逻辑回归模型中计算得到的发生概率p,一般作为()
A)绝对概率
B)相对概率
C)绝对概率的自然对数
D)相对概率的自然对数
42.[单选题]在FUSiOninSight产品中,关于创建Kafka的ToPiC,以下哪些描述是正确的?
A)在创建Kafka的ToPiC时,必须设置Partition个数
B)在创建Kafka的topic时,必须设置PartitiOn副本个数
C)设置多副本可以增强Kafka服务的容灾能力
D)以上全都正确
43.[单选题]查询StUdent表中记录数可以使用如下语句()
A)select
B)select
C)select
D)select
44.[单选题]某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据分
析的哪类问题?
A)关联规则发现
B)聚类
C)分类
D)自然语言处理
45.[单选题]针对聚类分析,下面说法错误的是0。
A)一定存在一个最优的分类
B)聚类分析是无监督学习
C)聚类分析可以用于判断异常值
D)聚类分析即:物以类聚,人以群分
46.[单选题]如果多元线性回归模型中残差不等于0,而是一个常数,那么()
A)这个常数应该包含在常数项
B)应该去除常数项
C)应该去除残差项
D)模型有效
47.[单选题]以下对众数的说法中,不对的是()。
A)众数是出现的次数
B)众数是一组数据中出现次数最多的数据数
C)一组数据中的众数可能不存在
D)D一组数据中可能存在多个众数
48.[单选题]Hbase的主MaSter是如何选举的?
A)由RegiOnSerVer进行裁决
B)MaSter为双模式,不需要进行裁决
C)通过ZOokeePer进行裁决
D)随机选举
49.[单选题]某数据分析员希望展示某网站10年来月度访问量数据,采用以下哪个图形比较合适?
A)散点图
B)饼图
C)盒须图
D)折线图
50.[单选题]KafkaClusterMirrOring工具可以实现以下哪项功能?
A)Kafka跨集群数据同步方式
B)Kafka单集群内数据备份
C)Kafka单集群内数据恢复
D)以上全不正确
51.[单选题]已知中国的成人平均身高服从正态分布。则在一次抽样中,取到的身高小于等于中位数
的概率为()。
A)5%
B)50%
C)小于50%
D)无法计算
52.[单选题]Hadoop集群中存在的最主要瓶颈是(
A)CPU
B)网络
C)磁盘IO
D)内存
53.[单选题]在使用Flask-WTF自定义表单类时,对字段添加验证函数,使用的参数是()。
A)validators
B)submit
C)validator_on_submit
D)validator
54.[单选题]以下哪个不是HDFS的守护进程
A)SecondaryNameNode
B)NameNode
C)MrappMasterZYarnChild
D)DataNode
55.[单选题]已知表StUdent,字段如下:
IDCourselcourse!course3
Id60÷390÷370<j
80÷370÷j90<J
3d30÷38(XJ60÷J
4“60÷j90÷J80÷J
.......P.......P.......C
>取出COUrSe1,course2,COUrSe3三门成绩均超过60分的记录,可以使用如下查询语句()
A)select
B)select
C)select
D)select
56.[单选题]Hadoop组件在企业应用中,能用于数据挖掘的产品有()。
A)Hive
B)Pig
C)Mahout
D)Hbase
57.[单选题]在使用Flask-WTF自定义表单类时,自定义的类需要继承自()。
A)FlaskForm
B)FlaskForms
OFlaskWTF
D)Forms
58.[单选题]Kafka集群中,Kafka服务端的角色是?
A)Broker
B)Consumer
C)Zookeeper
D)Producer
59.[单选题]随机抽取一家企业的25个产品样品,测得样品长度为60厘米。已知产品长度分布服从正
态分布,且总体标准差为5厘米。那么该批产品平均长度的置信区间为()注:置信水平为
95%,zθ.025=1.96
A)(58.04,
B)(55,
C)(54.45,
D)(54.46,
60.[单选题]Hadoop-2.x集群中的HDFS的默认的副本块的个数是?
A)3
B)2
Ol
D)4
61.[单选题]下列属于定量数据的是()?
A)一个消费者调查中鞋子的品牌
B)一次考试的成绩
C)一篇文章的等级
D)一个篮球队员衣服上的数字
62.[单选题]某个保险公司发现,其投保人年龄分布的偏态系数为5.83,那么下面表述正确的是()
A)这是一组极度左偏的数据
B)偏态系数在0附近,所以只是轻微的左偏
C)偏态系数在0附近,所以只是轻微的右偏
D)这是一组极度右偏的数据
63.[单选题]关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?
A)用于存储Kafka数据的磁盘配置(如磁盘数目、磁盘大小等)无法满足当前业务数据流里,导致
磁盘使用率达到上限
B)数据保存时间配置过长,数据累积达到磁盘使用率上限
C)业务规划不合理,导致数据分配不均,使部分盘达到使用率上限
D)Broker节点故障导致
64.[单选题]以下不属于消费者购买行为分析的产品因素的是()
A)便利信息
B)偏好信息
C)价格信息
D)评价信息
65.[单选题]下面对Streaming的特性说法正确的是()?
A)如果并不要求每个消息必须被处理(允许在处理过程中丢失一些信息),那么可以关闭消息的可
靠处理机制,从而可以获取较好的性能。
B)关闭消息的可靠处理机制意味着系统中的消息数不会减少。
C)将参数Config.TOPOLOGY一ACKERS设置为1可以关闭消息的可靠性处理机制
D)SPOUt发送个消息时,使用指定消息messageID的接口进行发送可以关闭消息的可靠性处理机制
66.[单选题]以下哪个不是DataStream的组成部件()?
A)Datasource
B)Transformations
C)Channel
D)Datasink
67.[单选题]使用"select*from表1innerjoin表2On表L员工id=表2.员工id”语句对下
边两个表进行查询,查询结果中应有几行数据
客户id客户姓名员工id
"cθl林二__________-a≡
^c02钱二-a002^-
c03张三a001
>表1
>
A)2
B)3
04
D)5
68.[单选题]以下关于HiVeSQL基本操作描述正确的是?()
表2
订单id订单金额员工id
a001I
ol40
o25θ"a001
a003I
o360
A)创建外部表必须要指定LoCatiOn信息
B)创建外部表使用external关键字,创建普通表需要指定internal关键字
C)加教数据到HiVe时源数据必列是HDFS的一个路径
D)创建表时可以指定列分割符
69.[单选题]Zookeeper的SCheme认证方式不包括以下哪项?()
A)digest
B)sasl
C)auth
D)world
70.[单选题]下列哪个类的声明是正确的?()
A)abstractfinalclassHI)
B)abstractprivatemove(0
C)protectedprivatenumber;
D)publicabstractclassCar{}
71.[单选题]识别垃圾邮件属于。
A)预测建模
B)聚类分析
C)关联分析
D)异常检测
72.[单选题]在方差分析中,我们如下输出
>上表有?号的空格数值是多少()
A)32
B)33
064
D)66
SUMMARY
组求和平均方差
列133108933374
列233115535374
差异来源高差平方和自由度平均平方和F
细司66
组内239369
总计24002
73.[单选题]假设检验中显著性水平是()。
A)推断时犯取伪错误的概率
B)推断时取伪弃真的概率
C)正确推断的概率
D)是推断的可信度
74.[单选题]使用余弦相似度时,结果等于1表示两个向量()
A)完全相同
B)完全相反
C)完全相关
D)不确定
75.[单选题]下列关于逻辑回归介绍错误的是()
A)逻辑回归是无监督学习
B)逻辑回归是有监督学习
C)逻辑回归是非线性回归
D)逻辑回归的输出是介于O到1之间的值
76.[单选题]数据分析8个层次中的最高层次是()
A)预报
B)优化
C)报警
D)统计分析
77.[单选题]根据一定的标准把一群对象划分成若干个分组,组内对象之间具有很高的相似度,而不
同组的对象之间存在显著差异,这种分析方法叫做。
A)自然语言处理
B)回归分析
C)聚类分析
D)关联分析
78.[单选题]以下关于K-MeanS算法错误的是()。
A)K值无法预先判断,只适用于球形类的形状的聚类
B)算法可能收敛到局部最优点
C)算法对极值点及噪点较为敏感
D)中心点的个数,通常值是在8-10个之间
79.[单选题]如果希望某个变量只可以被类本身访问和调用,则应该使用下列那一种访问控制修饰
符
A)private
B)protected
C)privateprotected
D)public
80.[单选题]在FUSioninSiehtaanarer界面中,对LOader的操作不包括下列哪个选项新)
A)切换LOader主备节点
B)启动Loader实例
C)配置LOader参数
D)查看Loader服务状态
81.[单选题]以下关于HiVe操作描述不正确的是0。
A)HiVe是一个建立在hadoop文件系统上的数据仓库架构,可以用其对HDFS上
B)HiVe依赖于MaPRedUCe处理数据
C)HiVe的加载数据时候,可以用IOCaI进行修饰,表示从某个本地目录下加载数据
D)HiVe一般可以用于实时的查询分析
82.[单选题]如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个
每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)
A)200
B)40000
0400
D)1200
83.[单选题]数据仓库的最终目的是()
A)收集业务需求
B)开发数据仓库的应用分析
C)建立数据仓库逻辑模型
D)为用户和业务部门提供决策支持
84.[单选题]关于中位数描述错误的是()。
A)在有极端数值出现时,中位数作为分析现象中集中趋势的数值,比平均数更有代表性
B)主要用于顺序数据,也可用数值型数据,但不能用于分类数据
C)各变量值与中位数的离差绝对值之和最小
D)中位数一般与算数平均值接近
85.[单选题]Hadoop系统中关于客户端向HDFS文件系统上传文件说法正确的是?
A)客户端的文件数据经过NameNode传递给DataNode
B)客户端将文件分为多个BoCk,根据DataNode的地址信息,按顺序写入每一个DataNOde中
C)客户端根据DataNode的地址信息,按顺序将整个文件写入每一个DataNode中,然后由DataNode
将文件划分为多个Block
D)客户端只上传数据到一个DataNOde,然后由Namenode负责Bock复制
86.[单选题]关于HBaSeSheIl命令,哪个命令是使表无效。()
A)alert
B)disable
C)drop
D)以上都不是
87.[单选题]在因子分析中,为了帮助解释因子,我们可以使用()
A)因子得分
B)因子负载
C)因子旋转
D)主成分分析
88.[单选题]Hive不适用于以下哪个场景
A)非实时分析,例如日析
B)数据挖掘,例如用户析,区域展示
C)数据汇总,例如母天,每击数,点击排行
D)实时在线数
89.[单选题]在测试FIaSk项目时,使用。模块可以根据需求产生不同类型和数量的虚拟数据O
A)demo
B)faker
C)test
D)faker_data
90.[单选题]关于层次聚类,下列说法正确的是()
A)层次聚类之前需要先给出聚类的数量
B)层次聚类之前需要先给出各个类别的初始类中心
C)层次聚类之后,模型能给出唯一的分类类别数量
D)层次聚类之后,类别数量需要参考聚类过程给出
91.[单选题]字段“贷款人姓名”,下列方法最适宜的是()
A)需要编码为数值变量
B)需要编码为字符变量
C)需要编码为二分变量
D)需要编码为分类变量
92.[单选题]hbase的底层数据以()的形式存在的?
A)kevvalue
B)列存储
C)行存储
D)实时存储
93.[单选题]HBase依赖()提供强大的计算能力
A)Zookeeper
B)Chubby
ORPC
D)MapReduce
94.[单选题]下列哪个命令是从HDFS下载日录/文件到本地的?()
A)dfs-put
B)dfs-cat
C)dfs-get
D)dfs-mkdir
95.[单选题]关于HiVe与HadooP其他组件的关系。以下描述错误的是?()
A)HiVe最终将数据存储在HDFS中
B)Hive是HadOOP平台的数据仓库工具
C)HQL可以通过MaPredUCe执行任务
D)Hive对HbaSe有强依赖
96.[单选题]以下哪些选项属于HiVe的数据存储模型?
A)桶
B)数据库
C)分区
D)表
97.[单选题]关于HDFS集群中的DataNode的描述不正确的是?
A)一个DataNOde上存储的所有数据块可以有相同的
B)存储客户端上传的数据的数据块
C)DataNOde之间可以互相通信
D)响应客户端的所有读写数据请求为客户端的存储和读取数据提供支撑
98.[单选题]如果需要由数据生产者决定数据发送给目标BOlt的某一个确定的Task,应选择以下哪种
消息发布策略()?
A)局部字段分组
B)广播分组
C)直接分组
D)全局分组
99.[单选题]在进行模板渲染时,需要从flask中导入()。
A)flask
B)templates
C)url_for
D)render_tempIates
100.[单选题]下列选项中,关于ZookeePer可靠性含义说法正确的是?
A)可靠性通过主备部署模式实现
B)可靠性是指更新更新只能成功或失败没有中间状态
C)可靠性是指无论个SerVer,对外展示的均是同一个视图
D)可靠性是指一个消息被一个Server它将被所有的SerVer接受
101.[单选题]以下哪个不属于数据分析报告的开篇部分。()
A)索弓I
B)前言
C)目录
D)标题
102.[单选题]RDD⅛Transformation和ACtiOn算子,下列属于ACtiOn算子的是?()
A)map
B)SaveASTexFile
C)FiIter
D)reducebykey
103.[单选题]在HadooP生态组件中,个产品可用于复杂的批量数据处理。()
A)MapReduce>Hive
B)Impala
C)Storm
D)Mahout
104.[单选题]下面哪种数据属于面板数据()。
A)2010-2018年某网站年访问量数据
B)2010-2017年全国各乡镇绿化面积年度数据
C)2016年五一期间北京市地铁旅客接待总数
D)2010-2017年某航空公司接待乘客人数的月度数据
105.[单选题]Java编程所必须的默认引用包为()
A)java.SyS包
B)java.Iang包
C)java,util包
D)以上都不是
106.[单选题]从数据表中查找记录用以下哪一项()
A)UPDATE
B)FIND
C)SELECT
D)CREATE
107.[单选题]HDFS中的数据块[block]默认保存几份?()
A)3份
B)2份
C)I份
D)不确定
108.[单选题]在JaVa中,“456”于()类的对象。
ʌ)int
B)String
C)Integer
D)Stri
109.[单选题]有一款产品的尺寸标准长度为IOCm,现在分别用A和B两台设备来生产这一产品,分别
各随机抽取IOO个样品,A设备生产的样本长度标准差为0.01,B设备生产的样本长度标准差为
0.011,现在需要比较两台设备在产品长度指标上的稳定性是否有显著差异?我们应该选择()
A)单侧t检验
B)双侧t检验
C)单侧F检验
D)双侧F检验
110.[单选题]传统数据处理的数据单位?
A)TB
B)EB
C)PB
D)GB
IlL[单选题]下面的数据是一家企业科研投入与专利产出的相关性描述,根据表格信息,下列选项
中正确的是()。
专利产出d
皮尔逊相关系期0.03"
科研投入d
显著性d0.76÷j
>
A)专利产出与科研投入高度线性相关
B)专利产出与科研投入相关性不显著
C)专利产出与科研投入存在线性相关性,但是相关性较弱
D)加大科研投入就能够提高专利的产出
112.[单选题]字段”户籍所在省份”,下列方法最适宜的是()
A)需要编码为数值变量
B)需要编码为字符变量
C)需要编码为二分变量
D)需要编码为分类变量
113.[单选题]分析师小A在建立了多元线性回归模型后,发现残差出现了异方差,那么小A可以考虑(
)
A)对因变量取自然对数
B)对自变量取自然对数
C)将模型的常数项强制为0
D)对因变量乘以某一个系数A进行放大或者缩小
114.[单选题]关于相关关系有误的是()。
A)按相关的程度分为完全相关、不完全相关和不相关
B)按相关的特点分为单相关和多相关
C)按相关的方向分为正相关和负相关
D)按相关的形式分为线性相关和非线性相关。
115.[单选题]下面不属于面访式问卷调查优势的是()
A)可提高调查的回答率
B)可提高调查数据的质量
C)能调节数据搜集所花费的时间
D)适合于样本单位十分分散的情况
116.[单选题]下列有关C4.5算法的说法中不正确的是()
A)每个节点的分支度只能为2
B)使用gainratio作为节点分割的依据
C)可以处理数值型态的字段
D)可以处理空值的字段
117.[单选题]在使用对应分析方法时,()会帮助提升结果的有效性
A)采用卡方检验作为预分析
B)精简变量
C)异常值处理
D)以上都是
118.[单选题]以下哪类数据不属于半结构化数据?
A)HTML
B)XML
C)二维表
D)JSON
119.[单选题]HBase中如果发生一个RegiOn的SPIit,一个HFile文件真正分开到两个Region的
过程发生在以下什么阶段?
A)Split过程中
B)Flush过程中
C)Compaction过程中
D)HFile分开过程中
120.[单选题]Hadoop中MaPRedUCe组件擅长处理哪种场景的计算任务?
A)迭代计算
B)离线计算
C)实时交互计算
D)流式计算
121.[单选题]下图横轴为X,纵轴为Y,则关于下图描述错误的是()
0e102030405060To
-1L-
>
A)X和Y之间很大可能是非线性关系
B)这些散点中存在异常点
C)X和Y之间是正相关的
D)分析两者之间的关系可用逻辑回归模型
122.[单选题]一群人中,吃东北大米的占60虬吃原阳大米的占45%,两种均吃的30%,随机抽一人。则
至少吃一种米的概率为()。
A)0.82
B)0.85
00.8
D)0.75
123.[单选题]Spark组件中哪个选项不属于transformation操作?
A)Join
B)distinct
C)reduceByKey
D)reduce
124.[单选题]以下表述错误的是()。
A)冗余属性不会对决策树的准确率造成不利的影响
B)子树可能在决策树中重复多次
C)决策树算法对于噪声的干扰非常敏感
D)寻找最佳决策树是NP完全问题
125.[单选题]神经网络是()算法的一种。
A)分类
B)聚类
C)关联
D)回归
126.[单选题]下哪种不是HiVe支持的数据类型O。
A)truct
B)nt
C)ap
D)ong
127.[单选题]使用JAVAAPl进行HBaSe操作,以下命令输写正确的是()。
A)HBaseTestCase.get(tablename);
B)HBaseTestCase.get(tablename,'rowl';
C)HBaseTestCase.delete(tablename,'rowl','row2');
D)HBaseTestCase.scan(tablename,'rowl''row2');
128.[单选题]Hbase的Region是由个服务进程来管理的?()
A)HRegionserver
B)Zookeeper
C)HMaster
D)DataNode
129.[单选题]人工神经网络(ANN)是基于模大脑神经网络结构和功能而建立的一种信息处理系统。
下列选项中,有关人工神经网络的描述不正确的是()
A)神经网络对训练数据中的噪声非常鲁棒
B)可以处理冗余特征
C)训练ANN是一个很耗时的过程
D)至少含有一个隐藏层的多层神经网络
130.[单选题]关于fusioninsightmaster界面hive日志收集的描述中,哪个不对?
A)可指定实例进行日志收集,比如指定收集metastore的日志
B)可指定节点ip进行下载某个ip的日志
C)可指定特定用户进行日志收集,例如仅下载用户的日志
D)可指定时间进行日志收集,如:只收集2016TT到20161TO的日志
131.[单选题]在SPark生态组件中,哪个产品可用于基于实时数据流的数据处理()。
A)SparkCore
B)SparkSal
C)SparkStreaming
D)MLlib
132.[单选题]Hadooptnryarnschedulercapacity.root.Queueafinim.m-user-limit-PerCent设
置为50,下面说法错误的是?
A)一个用户提交任务,可以使用QUeUe的100%的资源。
B)如果QUeUe中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。
OQueue中必须保障每个用户至少得到50%的资源
D)ueuea中的每个用户最多只能获得50%的资源
133.[单选题[fusioninsight对于管理操作,下列错误的是?
A)可对服务进行启停重启
B)可以添加和卸载服务
C)常用服务隐藏或显示
D)可查看服务的当前状态
134.[单选题]下列哪一个关键字用于实现接口来定义类?
ʌ)extends
B)implements
C)abstract
D)interface
135.[单选题]WTForms中用来验证数据是否有效使用的是
A)DataRequiredO
B)Required
C)InputRequiredO
D)Optional()
136.[单选题]设X为float型变量,y为double型变量,a为int型变量,b为IOng型变量,c为Char型变量
,则表达式x+y*a∕x+b∕y+c的值为()类型。
A)int
B)long
C)double
D)char
137.[单选题]下面与ZOokeePer类似的框架是?
A)Protobuf
B)Java
C)Kafka
D)Chubby
138.[单选题]执行语句inti=l,j=++i;后i与j的值分别为
A)I与1
8)2与1
C)I与2
D)252
139.[单选题]使用多个分类器的预测来提高分类准确率的技术称为()。
A)集成(ensemble)
B)聚集(aggregate)
C)合并(combination)
D)投票(voting)
140.[单选题IFusioninsightHD中LOader从SFTP服务器导入文件时,不需要做编码转换和数据转
换且速度最快的文件类型是以下哪项?
A)graph-file
B)binary-file
C)text-file
D)sequence-file
141.[单选题]一家电商抽取了36个消费者年龄作为随机样本,得到样本均值为40,样本标准差为6。
该电商客户年龄90%的置信区间为()zO、05=1、65
A)(34,46)
B)(38、35,41、65)
C)(39、1,40、9)
D)(39、15,40、95)
142.[单选题]HBase的物理存储单元是什么?
A)Region
B)ColumnFamily
C)Column
D)ROW
143.[单选题]是SPark集成的机器学习库。
A)Hadoop
B)BigTable
C)Mahout
D)MLlib
144.[单选题]在进行缺失值填补时,若数据呈明显的偏态分布,则可考虑采用下列哪种方法?()
A)将存在缺失值的样本删除
B)将存在缺失值的变量删除
C)中位数填补
D)均值填补
145.[单选题]在FIink技术架构中,以下哪项是流处理和批处理的计算引擎?
A)Standalone
B)Runtime
C)FlinkCore
D)Datasteam
146.[单选题]关于hive建表基本描述正确的是()
A)不可再修改表名
B)可再增加新列
C)创建外部表需要制定extemal关键字
D)不可再修改列名
147.[单选题]以下不属于分类模型评估中基于比率维度的指标是()。
A)KS值
B)特异性
C)KaPPa统计量
D)Lift值
148.[单选题]一个gzip文件大小75MB,客户端设置BlOCk大小为64MB,请问其占用几个Block?
A)3
B)2
04
D)l
149.[单选题]HBase来源哪篇博文?
A)TheGoogleFileSystem
B)MapReduce
OBigTable
D)Chubby
150.[单选题]定义问题时通常使用以下哪种方法。()
A)波特五力竞争分析
B)5W2H分析法
C)描述性统计分析
D)决策树
151.[单选题]Java中关于父子类描述正确的是
A)一个子类可以有多个父类,一个父类也可以有多个子类
B)一个子类可以有多个父类,但一个父类只可以有一个子类
C)一个子类可以有一个父类,但一个父类可以有多个子类
D)上述说法都不对
152.[单选题]请问以下哪个命令组成是错误的?
A)sbin/stop-dfs.sh
B)sbin/hdfsdfsadmi∏-report
C)bin∕hadoopnamenode-format
D)bin∕hadoopfs-cat∕hadoopdata∕my.txt
153.[单选题IFusioninsightManager用户权限管理不支持个配置?
A)给用户配置角色
B)给用户组配置角色
C)给角色配置权限
D)给用户组配置权限
154.[单选题]查看kafka某ToPiC的PartitiOn详细信息时,使用如下那个命令?
A)bin/kakfa-topicsSh--create
B)bin/kakfa-topicssh--delete
C)bin/kakfa-topics.sh-list
D)bin/kakfa-topicssh-describe
155.[单选题]关于下表阐述错误的是()
方驯_____________________________
碧源SSdfMSFP-valueFcrit
邮I11047471110474782.410251.42E-143.940163
触128692.4961340.546
就239167.197
A)这是单因素方差分析的输出结果
B)有3个分类水平
C)结果显示不同的分类对于数值变量是有显著影响的
D)表中的组间均方差显著大于组内均方差
156.[单选题]使用JAVAAPl进行HBaSe整表扫描操作,以下命令输写正确的是()。
A)table.getScanner(scan);
B)table,scan(table)
C)table,get(table).scan();
D)table.Scanner(get);
157.[单选题]为AB类的一个无形式参数无返回值的方法methiod书写方法头,使得使用类名AB作为
前级就可以调用它,该方法头的形式为0。
A)staticvoidmethod()
B)publicvoidmethod()
C)finalvoidmethod0
D)abstractvoidmethod()
158.[单选题]在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在ShUffIe操作时,会大大
增加hash分桶数,严重影响性能。FUSiOninSight中,针对小文件的场景通常采用()算子,来对Table
中的小文件生成的PartitiOn进行合并,少PartitiOn数,从而避免在ShUffle的时候,生成过多的
hash分桶,提升性能?
A)groupby
B)Coalease
C)connect
D)join
159.[单选题]HFile数据格式中的MagiC字段用于()。
A)存储随机数,防止数据损坏
B)存储数据的起点
C)存储数据块的起点
D)指定字段的长度
160.[单选题]YARN中默认的资源调度器是?
A)FIFO调度器
B)容量调度器
C)Fair调度器
D)以上全不是
161.[单选题]用于展示文本信息出现频率比较高的关键词的图形是(
A)词云图
B)气泡图
C)热力图
D)散点图
162.[单选题]HBase分布式模式最好需要O个节点?
A)l
B)2
03
D)最少
163.[单选题]下列关于数据交易市场的说法中,错误的是()。
A)数据交易市场是大数据产业发展到一定程度的产物
B)商业化的数据交易活动催生了多方参与的第三方数据交易市场
C)数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
D)数据交易市场是大数据资源化的必然产物
164.[单选题]若要对比各个国家之间的人均收入与人均支出的离散程度,应使用以下哪种统计量(
)。
A)方差
B)离差
C)离散系数
D)相关系数
165.[单选题]大数据时代,数据使用的关键是()
A)数据收集
B)数据存储
C)数据分析
D)数据再利用
166.[单选题]()图形主要用于表示一个样本中各组成部分的数据占全部数据的比例,多用于研究结构
性问题。
A)饼图
B)条形图
C)折线图
D)堆积图
167.[单选题]Java的字符类型采用的是UniCode编码方案,每个UniCode码占用O个比特位。
A)8
B)16
032
D)64
168.[单选题]HBase表中每个CeII的多版本是通过()表示的。
A)timestamp
B)rowkey
C)blockid
D)eellid
169.[单选题]下面的数据是一家电商企业的网页浏览量与销售量之间的相关性描述,根据表格信息
,下列选项中正确的是()
⅞⅛i
0.87_______
Q怫
>
A)提高浏览量是提高销售量的直接原因
B)浏览量与销售量存在显著相关性
C)浏览量每增加1个单位,销售量增加0.008个单位
D)提高销售量是提高浏览量的直接原因
170.[单选题]()表示在先决条件X发生的情况下,由关联规则“X-Y”推出Y的概率。即在含有X的项
集中,含有Y的可能性。
A)置信度
B)支持度
C)关联度
D)以上都不是
171.[单选题]三个逻辑回归模型A、B、C,AUC分别为0.53,0.72,0.8»那么我们一般认为这三个模
型哪个的预测能力更强()
A)A
B)B
OC
D)无法判断
172.[单选题]以下不属于因子分析计算过程的步骤有()
A)估计因子载荷矩阵
B)进行因子旋转
C)估计特殊因子得分
D)估计公共因子(因子得分)
173.[单选题]对一元线性回归y=bθ+blxl+£进行F检验,其结果与对回归系数bl做t检验得到的结果(
)
A)相同
B)相反
C)无关
D)相同的概率与R2呈正比
174.[单选题]以下更新HBaSe表中数据的语法,输写正确的是()。
A)updateuser,xiaoming'setinfo,age=l
B)update'users','xiaoming'info,age','29
C)putusers'xiaoming',infoage
D)put'users','xiaoming''infoage','29
175.[单选题]假设一组数据的取值从923到899。数据中最大绝对值为923。因此,我们用IOOO除每个
值。因此,923被规范化为0、923,而899被规范化为0、899,这种数据规范化被称为()。
A)小数定标规范化
B)Z-Seore规范化
C)对数规范化
D)归一化规范化
176.[单选题]一组数据为1、3、5、7、9,它们的样本方差为()
A)8
B)10
012
D)14
177.[单选题]变量的量纲比如以分或者元为单位对下面哪种方法会有影响。)
A)方差分析
B)回归分析
C)聚类分析
D)主成分分析
178.[单选题]以下一项不属手创建Loader作业时必选项?
A)优先级
B)名称
C)连接
D)类型
179.[单选题]大数据的核心价值是(0
A)数据交易
B)数据分析
C)数据融合
D)数据处理
180.[单选题]一元回归分析与多元回归分析的主要区别是(
A)因变量个数不同
B)建立回归模型的计算量不同
C)回归分析原理不同
D)回归分析步骤不同
181.[单选题]以下哪个方法用于定义线程的执行体?
A)start()
B)init()
C)run()
D)synchronized()
182.[单选题]在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有5个不同的选项,但
是有70%左右的客户这一项的数据没有填写,那么那一项的处理方式更合理()?
A)建模前先将这个变量删除
B)将这一项没有填写的客户归为第6类
C)用前5项的众数替换缺失值
D)提出这部分未填写爱好的客户信息
183.[单选题]部署FUSiOninSightHD时,同一集群内的FlumeServer节点建议至少部署几个?
A)7
B)3
04
D)2
184.[单选题]下面声明数组的写法错误()。
A)inta[];
B)int[]a;
C)int[3][]a;
D)int[][3]a;
185.[单选题]以下哪个不是SPark的分布式部署方式?(
A)standalone
B)sparkonmesos
C)sparkonYARN
D)Sparkonlocal
186.[单选题]为了保障流应用的快照存储的可靠性,快照主要存储在哪里?
A)jobmanager的内存中
B)可靠性高的单机数据库中
C)本地文件系统中
D)hdfs中
187.[单选题]对StUdentl和StUdent2两张表进行innerjoin连接后,形成的新表中()
A)一定包含StUdentl中的所有行,不一定包含StUdent2中的所有行
B)不一定包含StUdentl中的所有行,一定包含StUdent2中的所有行
C)一定包含StUdentl中的所有行,一定包含StUdent2中的所有行
D)不一定包含StUdentl中的所有行,不一定包含StUdent2中的所有行
188.[单选题]下面哪一个操作符的优先级最高?
A)&&
B)ll
0!
D)0
189.[单选题]以下算法中,不属于基于原型的聚类算法的是()。
A)EM算法
B)模糊C均值
OSOM
D)CLIQUE
190.[单选题]HDFS中的block默认保存几个备份。
A)3份
B)2份
C)I份
D)不确定
191.[单选题]存在关联规则为A-B,此规则的ConfidenCe为80%,则代表()。
A)买B商品的顾客中,有80%的顾客会同时购买A
B)同时购买A,B两商品的顾客,占所有顾客的80%
C)买A商品的顾客中,有80强的顾客会同时购买B
D)两商品A,B在交易数据库中同时被购买的机率为80%
192.[单选题]将复杂的通讯地址简化成东、南、西、北、中五个类别,是在()进行?
A)数据正规化
B)数据一般化
C)数据离散化
D)数据整合
193.[单选题]以下关于Flink关键特性描述不正确的是?
A)Sparkstreaming与Flink相比,时延更低
B)Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能
C)与FUSiOninghtHD中的Streaming相比,Flink具有更高的吞吐量
D)checkpoint实现了FIink的容错
194.[单选题]在Flink的运行流程中,负责申请资源的角色是?
A)Resourcemanager
B)Jobmanager
C)Client
D)Taskmanager
195.[单选题]将巧克力藏在不透明的容器里,将无花果、开心果等健康零食放在透明玻璃罐里。7周
内职员少摄入310万卡路里。这属于()的案例。
A)关联规则
B)聚类规则
C)分类规则
D)不能确定
196.[单选题]层次聚类中,聚类的变量类型是()
A)连续变量
B)分类变量
C)两者都可以
D)不确定
197.[单选题]以下哪一项属于时间序列可以解决的问题?()
A)信用卡发卡银行发掘出的潜在的卡奴
B)基金经理人针对某股票做出未来价格预测
C)移动公司将用户区分为数个群体
D)以上均不是
198.[单选题]下列关于数据挖掘说法正确的是()。
A)数据挖掘更加注重预测
B)数据挖掘在方法论上与统计模型没有区别
C)数据挖掘更加注重对于前期各种假设的检验
D)数据挖掘不属于数据分析范畴
199.[单选题]下图横轴为X,纵轴为Y,则关于下图描述错误的是()
>
A)X和Y之间存在明显的非线性关系
B)这些散点中没有明显的异常点
C)X和Y之间是正相关的
D)无论对X和Y如何处理,都不适合用线性回归来分析两者之间关系
200.[单选题]HBase的RegiOn组成中,必须要有以下一项。
A)StoreFiIe
B)MemStore
250
OHFile
D)MetaStore
201.[单选题]关于HiVe与HadooP其他组件的关系,以下描述错误的是?
A)Hive最终将数据存储在HDFS中
B)HiveSQL其本质是执行MapReduce任务
C)Hive是HadooP平台的数据仓库工具
D)hive对HBase有强依赖
202.[单选题]Flume支持多级级联的Sink类型是()?
A)hdfssink
B)avrosink
C)filerollsink
D)hbasesink
203.[单选题]以下有关聚类算法中K-means和DBSCAN说法错误的是()。
A)K均值会丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
204.[单选题]什么是KDD?()
A)数据挖掘与知识发现
B)动态知识发现
C)文档知识发现
D)领域知识发现
205.[单选题]下面这些类型的应用,那个不使用JaVa语言来编写?
A)JavaScript
B)Applet
C)Servlet
D)JavaSwing
206.[单选题]Flink的数据转换操作在以下哪些环节中完成O?
A)channel
B)Transformation
C)sink
D)source
207.[单选题]下列有关回归分析的说法,错误的是()。
A)回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业
知识对两事物之间是否存在因果关系作出合理解释和结论。
B)在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量X都是符合总体正态的随机
变量。
C)回归直线不要随意外延
D)所有非线性回归都可以转化为线性回归
208.[单选题]常用的分箱方法错误的是()。
A)等深分箱法
B)等宽分箱法
C)等距分箱法
D)用户自定义区间法
209.[单选题]Spark是用以下那种编程语言实现的?
A)C
B)C++
C)java
D)Scala
210.[单选题]使用SQLAIChemy完成指定规则过滤记录的方法是
A)filter()
B)groupθ
C)limit(
D)order_by(
211.[单选题]以下关于主键的描述正确的是()。
A)标识表中唯一的实体
B)创建唯一的索引,允许空值
C)只允许以表中第一字段建立
D)表中允许有多个主键
212.[单选题]下列哪种异常是检查型异常,需要在编写程序时声明()
A)NulIPointerException
B)ClassCastException
C)FiIeNotFoundException
D)IndeXoUtofBOUndSEXCePtion
213.[单选题]数据挖掘中NaiVeBayeS于什么方法?()
A)聚类
B)分类
C)时间序列
D)关联规则
214.[单选题]实际应用中,如果想要研究单个指标的方差对结果的影响,在做主成分分析的时候应
该选择使用()
A)协方差矩阵
B)相关系数矩阵
C)关联矩阵
D)三者皆可
215.[单选题]在查看中国电商市场的交易数据时,会发现由于双11的存在,中国电商市场的交易额
会在每年第四季度有很大的增幅。这一特征体现了电商市场成交数据的()
A)长期趋势变动
B)季节变动
C)周期变动
D)以上都是
216.[单选题]下表为一交易数据,请问a-*c的支持度(SUPPOrt)为()。TIDItemsBoughtl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年视力保健健康指导及宣教
- 2026年医学实验室质量指标(质量目标)设定与监测
- 上海立信会计金融学院《安全与危机管理》2025-2026学年第一学期期末试卷(B卷)
- 上海科技大学《阿拉伯各国概况》2025-2026学年第一学期期末试卷(B卷)
- 上海科技大学《安全防范系统工程》2025-2026学年第一学期期末试卷(A卷)
- 上海科技大学《AutoCAD 绘图》2025-2026学年第一学期期末试卷(B卷)
- 北方工业大学《走进中国》2025-2026学年第一学期期末试卷(A卷)
- 上海科技大学《Access 数据库技术》2025-2026学年第一学期期末试卷(A卷)
- 北方工业大学《舒缓医学》2025-2026学年第一学期期末试卷(A卷)
- 上海科学技术职业学院《Android 系统与开发》2025-2026学年第一学期期末试卷(B卷)
- 精神科安全检查及病房巡回
- 《DCS常见故障分析》课件
- 事业单位财务报销培训
- SJ∕T 11706-2018 半导体集成电路现场可编程门阵列测试方法
- 2024高考英语天津卷历年作文范文衡水体临摹字帖(描红无参考线) (二)
- 轮式智能移动操作机器人技术与应用-基于ROS的Python编程 课件 第11章 服务机器人应用
- SYLD显示屏培训资料
- 中国莫干山象月湖国际休闲度假谷一期项目环境影响报告
- 幼儿园获奖课件大班社会《遵守规则》
- 2022年浙江衢州市大花园集团招聘31人上岸笔试历年难、易错点考题附带参考答案与详解
- 劳动纠纷应急预案
评论
0/150
提交评论