大数据CDA考试(习题卷8)_第1页
大数据CDA考试(习题卷8)_第2页
大数据CDA考试(习题卷8)_第3页
大数据CDA考试(习题卷8)_第4页
大数据CDA考试(习题卷8)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据CDA考试大数据CDA考试(习题卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据CDA考试第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下面这些类型的应用,那个不使用Java语言来编写?A)JavaScriptB)AppletC)ServletD)JavaSwing答案:A解析:[单选题]2.下列有关回归分析的说法,错误的是()。A)回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。B)在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量x都是符合总体正态的随机变量。C)回归直线不要随意外延D)所有非线性回归都可以转化为线性回归答案:D解析:[单选题]3.解压.tar.gz结尾的HBase压缩包使用的Linux命令是?A)tar-zxvfB)tar-zXC)tar-sD)tar-nf答案:A解析:[单选题]4.大数据至少为以下哪种存储量级?A)EBB)PBC)TBD)ZB答案:B解析:[单选题]5.下面哪种数据属于面板数据()。A)2010-2018年某网站年访问量数据B)2010-2017年全国各乡镇绿化面积年度数据C)2016年五一期间北京市地铁旅客接待总数D)2010-2017年某航空公司接待乘客人数的月度数据答案:B解析:面板数据,是指在时间序列上取多个截面。[单选题]6.Hive是以()技术为基础的数据仓库。A)HDFSB)MAPREDUCEC)HADOOPD)HBASE答案:C解析:[单选题]7.下列哪个命令是从HDFS下载日录/文件到本地的?()A)dfs-putB)dfs-catC)dfs-getD)dfs-mkdir答案:C解析:[单选题]8.下面语句在编译时不会出现警告或错误的是()A)floatf=3.14:B)charc="c?;C)Booleanb=null;D)inti=10.0;答案:C解析:[单选题]9.下列不可作为java语言标识符的是A)a1B)$1C)_1D)11答案:D解析:[单选题]10.以下关于Zookeeper关键特性中的原子说法正确的是?A)客户端发送的更新会按照他们被发送的顺序进行应用B)更新只能全部完成或失败,不会部分完成C)一条消息被一个server接收,将被所有server接收D)集群中无论哪台服务器,对外示均是同答案:B解析:[单选题]11.下列关于HDFS的描述正确的是?A)NameNode磁盘元数据不保存Block的位置信息B)DataNode通过长连接与NameNode保持通信C)HDFS集群支持数据的随机读写D)如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作答案:A解析:[单选题]12.某班级同学在一个月后的期末考试成绩前50%将参加某项学科竞赛,现组织同学进行测验,小郑考了84分,他希望评估自己是否有希望参加学科竞赛,因此将他的成绩与班级成绩()进行比较是最合理的。A)平均数B)中位数C)众数D)四分位差答案:B解析:中位数是指中间位置的数,即50%。[单选题]13.以下哪个不属于Hadoop中Mapreduce组件的特点?A)高容错B)良好的扩展性C)实时计算D)易手编程答案:C解析:[单选题]14.变量的量纲比如以分或者元为单位对下面哪种方法会有影响。)A)方差分析B)回归分析C)聚类分析D)主成分分析答案:C解析:[单选题]15.FusioninsightHD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?A)graph-fileB)blnary-fileC)text-fileD)sequence-file答案:B解析:[单选题]16.DBSCAN算法的过程是()。①删除噪声点。②每组连通的核心点形成一个簇。③将所有点标记为核心点边界点和噪声点。④将每个边界点指派到一个与之关联的核心点的簇中。⑤为距离在Eps之内的所有核心点之间赋予一条边。A)①②④⑤③B)③①⑤②④C)③①②④⑤D)①④⑤②③答案:B解析:[单选题]17.下列关于逻辑回归介绍错误的是()A)逻辑回归是无监督学习B)逻辑回归是有监督学习C)逻辑回归是非线性回归D)逻辑回归的输出是介于0到1之间的值答案:A解析:逻辑回归是有监督学习的算法。[单选题]18.Kafka集群在运行期间,直接依赖于下面哪些组件?A)sparkB)zookeeperC)hdfsD)hbase答案:B解析:[单选题]19.以下哪个SQL函数可以完成对数字的四舍五入()。A)floorB)ceilingC)roundD)truncate答案:C解析:floor(x)表示返回小于x的最大整数值(去掉小数取整),ceiling(x)表示返回大于x的最小整数值(进一取整),round(x,y)表示返回参数x的四舍五入的有y位小数的值(四舍五入),truncate(x,y)表示返回数字x截短为y位小数的结果。[单选题]20.在进行模板渲染时,需要从flask中导入()A)flaskB)templatesC)url_forD)render_templates答案:D解析:[单选题]21.是Spark集成的机器学习库。A)HadoopB)BigTableC)MahoutD)MLlib答案:D解析:[单选题]22.以下针对缺失值的处理方法中,当一个连续变量缺失值超过85%,则哪种最合理?()A)直接使用该变量B)根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C)使用多重插补的方法进行缺失值填补D)直接删除该变量答案:B解析:[单选题]23.分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做()。A)训练集B)测试集C)已知数据D)未知数据答案:B解析:[单选题]24.存在什么情况时,Wald检验不再有效()A)变量过多B)共线性C)异方差D)过拟合答案:B解析:当变量存在共线性时,Wald检验结果不可靠。[单选题]25.执行语句inti=1,j=++i;后i与j的值分别为A)1与1B)2与1C)1与2D)252答案:D解析:[单选题]26.基于规则的分类器有Aprior、随机森林,还有()。A)C4.5B)KNNC)NaiveBayesD)ANN答案:A解析:[单选题]27.ROC曲线是验证模型的常用方法,曲线凸向哪个角,代表模型效果越理想?()A)左上角B)右上角C)左下角D)右下角答案:A解析:[单选题]28.在Jinjia2模板引擎中创建block后要使用()表示结束。A){%endblock%)B){%end%}C){{endblock))D){{end}}答案:A解析:[单选题]29.LSM结构的数据首先存储在()。A)硬盘上B)内存中C)磁盘阵列中D)闪存中答案:B解析:[单选题]30.Hadoop组件在企业应用中,能用于数据挖掘的产品有()。A)HiveB)PigC)MahoutD)Hbase答案:C解析:[单选题]31.Spark是用以下哪种编程语言实现的()?A)CB)C++C)JAVAD)Scala答案:D解析:[单选题]32.以下哪种不是Hive支持的数据类型?A)StructB)IntC)MapD)Long答案:D解析:[单选题]33.以下哪个不是DataStream的组成部件()?A)DatasourceB)TransformationsC)ChannelD)Datasink答案:C解析:[单选题]34.以下哪种说法是错误的。()A)聚类的部分步骤与分类相似,但度量维度的不同会导致结果不同;B)由于聚类是无监督学习,对聚类的结果没有严格意义的好坏之分C)应通过与理想相似矩阵比较,看分类效果D)对样本数据进行预处理时,对数据进行标准化会影响聚类结果答案:C解析:[单选题]35.找出这组数据:23、29、20、32、24、21、33、25的中位数。()A)23B)24C)27D)29答案:B解析:[单选题]36.有一款产品的尺寸标准长度为10cm,现在分别用A和B两台设备来生产这一产品,分别各随机抽取100个样品,A设备生产的样本长度标准差为0.01,B设备生产的样本长度标准差为0.011,现在需要比较两台设备在产品长度指标上的稳定性是否有显著差异?我们应该选择()A)单侧t检验B)双侧t检验C)单侧F检验D)双侧F检验答案:D解析:是否有显著差异=双侧,比较方差用F。[单选题]37.使用JAVAAPI进行HBase操作,以下命令输写正确的是()。A)HBaseTestCase.get(tablename);B)HBaseTestCase.get(tablename,'row1?;C)HBaseTestCase.delete(tablename,'row1','row2');D)HBaseTestCase.scan(tablename,'row1''row2');答案:B解析:[单选题]38.以下不属于对应分析的优点的选项有()A)结果直观B)图形化C)没有复杂的中间过程D)信息保留完整答案:D解析:在进行对应分析时,由于进行了降维展示,因此原来的信息会受到一定程度的损失。[单选题]39.缺失数据(NullValue)的具体处理方法有很多种,下列哪种方法可得到较准确的结果?()A)填入一个通用的常数值,例如填入未知/UnknownB)把填补遗缺值的问题当作是分类或预测的问题C)填入该属性的整体平均值D)填入该属性的整体中位数答案:B解析:[单选题]40.HBase中如果发生一个Region的Split,一个HFile文件真正分开到两个Region的过程发生在以下什么阶段?A)Split过程中B)Flush过程中C)Compaction过程中D)HFile分开过程中答案:C解析:[单选题]41.关于相关关系有误的是()。A)按相关的程度分为完全相关、不完全相关和不相关B)按相关的特点分为单相关和多相关C)按相关的方向分为正相关和负相关D)按相关的形式分为线性相关和非线性相关。答案:B解析:[单选题]42.以下选项中,不属于信息时代的定律的是()A)吉尔德定律B)摩尔定律C)麦特卡尔夫定律D)达律多定律答案:A解析:[单选题]43.使用JAVAAPI进行HBase表数据添加操作,以下命令输写正确的是()。A)HTable.add(newPut(Bytes.toBytes(row));B)HTable.insert(newPut(Bytes.toBytes(row));C)HTable.put(newPut(Bytes.toBytes(row));D)HTable.update(newPut(Bytes.toBytes(row));答案:C解析:[单选题]44.关于HDFS集群中的DataNode的描述不正确的是?A)一个DataNode上存储的所有数据块可以有相同的B)存储客户端上传的数据的数据块C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求为客户端的存储和读取数据提供支撑答案:A解析:[单选题]45.关于hive建表基本描述正确的是()A)不可再修改表名B)可再增加新列C)创建外部表需要制定external关键字D)不可再修改列名答案:C解析:[单选题]46.以下关于Hive操作描述不正确的是()。A)Hive是一个建立在hadoop文件系统上的数据仓库架构,可以用其对HDFS上B)Hive依赖于MapReduce处理数据C)Hive的加载数据时候,可以用local进行修饰,表示从某个本地目录下加载数据D)Hive一般可以用于实时的查询分析答案:D解析:[单选题]47.以下哪个语句不能查询出结果A)selectB)selectC)selectD)select答案:B解析:本题考查SQL语句中and的用法。and是求交集,同时需要满足前后两个条件才能返回结果,所以不可能存在销售数量大于五同时又小于四的记录,所以正确答案为B第2部分:多项选择题,共29题,每题至少两个正确答案,多选或少选均不得分。[多选题]48.以下关于DBSCAN算法说法正确的是()。A)可以对任意形状的稠密数据集进行聚类B)样本集的密度不均匀时,聚类质量较好C)可以在聚类的同时发现异常点,对数据集中的异常点不敏感D)聚类结果没有偏倚答案:ABC解析:[多选题]49.下面哪些是Hadoop2.x的组件?A)SparkB)HiveC)HBaseD)GFS答案:ABC解析:[多选题]50.大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?A)数据很大B),构成复杂C)变化很快D)蕴含大价值答案:ABCD解析:[多选题]51.以下是Spark中executor的作用是()A)保存计算的RDD分区数据B)向Driver反向注册C)接受Driver端发送来的任务Task,作用在RDD上进行执行D)做资源调度任务答案:ABC解析:[多选题]52.SQL中的HAVING用法,正确的有()。A)HAVING子句必须与GROUPBY子句同时使用,不能单独使用B)使用HAVING子句的同时不能使用WHERE子句C)使用HAVING子句的同时可以使用WHERE子句D)使用HAVING子句的作用是限定分组的条件答案:ACD解析:[多选题]53.以下关于主成分分析的描述正确的有()A)主成分分析的本质就是找到解释变量的公共因子和特殊因子B)在主成分分析中,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向C)我们一般只保留的前k个主成分,其对应主成分特征根之和大于1就可以了D)我们一般使得保留的前k个主成分累计能够解释数据80%以上的变异答案:BD解析:寻找公共因子是因子分析的目的,在主成分分析算法中,我们一般要求最后一个主成分对应的不应小于1。[多选题]54.聚类模型构建时,通常采用的相似性统计量计算方法为()。A)绝对距离B)欧式距离C)夹角余弦D)相关系数答案:AB解析:[多选题]55.Zookeeper可以为FusionInsight哪些提供分布式管理支持?A)HiveB)loaderC)hbaseD)Spark答案:ACD解析:[多选题]56.以下哪几种数据结构被AutoreleasePoolPage使用()A)数组B)字典C)链表D)栈答案:CD解析:[多选题]57.MLlib包括A)分类模型B)聚类模型C)特征抽取D)统计模型答案:ABCD解析:[多选题]58.下列属于Flume数据监控的指标是?A)Sink写入数据量B)Datanode数量C)Channel缓存数据量D)Source接受数据量答案:ACD解析:[多选题]59.关于SecondaryNameNode哪项是正确的?A)它是NameNode的热备B)它对内存没有要求C)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D)SecondaryNameNode应与NameNode部署到一个节点答案:AC解析:[多选题]60.nodemaager的内存和CPU的数量,是通过下列哪些选项进行配置?A)Yamsceduler.capacity.root.Queueamaximum-capacityB)Yarnnodemanager.resourcecpu-vcoreC)arnnodemanager.vmem-pmom-ratioD)Yarn.modemanager.resource.memory-mb答案:BCD解析:[多选题]61.以下叙述正确的是。A)目标变量(标签)是离散值,称为分类任务B)目标变量(标签)是连续值,称为回归任务C)垃圾邮件识别属于回归任务D)预测房屋价格属于回归任务答案:ABD解析:[多选题]62.关于HadoopHDFS块的概念,下面说法正确的是(A)块是HDFS的核心概念,HDFS为了分摊磁盘读写的开销,也就是在大量数B)Hadoop1.x中,默认为64MB可以调大,但不是越大越好,块的大小设C)Hadoop1.x中,默认为128MB,可以调大,越大越好,块的大小设定不受D)HDFS的一个块通常要比普通文件大的多答案:ABD解析:[多选题]63.以下属于时间序列建模步骤的有()A)平稳性检验B)模型识别C)参数估计D)模型检验答案:ABCD解析:[多选题]64.下列哪项可以作为集群的管理?A)PuppetB)PdshC)ClouderaManagerD)Zookeeper答案:ABD解析:[多选题]65.收集整理信息时的竞争分析包含哪些内容。()A)确定行业中主要竞争者B)收集竞争对手的相关信息C)收集行业关键技术信息D)搜集产业链上下游主要环节答案:AB解析:[多选题]66.以下关于Zookeeper的Leader选举说法正确的是?A)当实例n为奇数时,假定n=2x+1,则成为leader节点需要x+1票B)Zookeeper选举1eader时,需要半数以上票数C)当实例数为8时则成为leader容灾能力为4D)当实例数n为奇数时,假定n=2x+1,则成为leader节点需要X票答案:AB解析:[多选题]67.Spark适用于以下哪些场景?A)交互式查询B)实时流处理C)批处理D)图计算答案:ABCD解析:[多选题]68.常见的确定性时间序列模型有()A)加法模型B)减法模型C)乘法模型D)除法模型答案:AC解析:[多选题]69.下列关于BloomFilter的描述正确的是?A)是一个很长的二进制向量和一系列随机映射函数B)没有误算率C)有一定的误算率D)可以在BloomFilter中删除元素答案:AC解析:[多选题]70.小张为了进行客户价值评估,建立了多元线性回归模型,为了对残差的正态分布进行检验,他可以对残差进行()A)绘制频数分布图B)绘制P-P图C)进行KS检验D)绘制Q-Q图答案:ABCD解析:四个方法都可以,ABD是定性方法,C是定量方法。[多选题]71.SPSS中,数据整理的功能主要集中在【)等菜单中A)数据B)直销C)分析D)转换答案:AD解析:[多选题]72.Hadoop的HBase主要特点有哪些?A)高可靠性B)高性能C)面向列D)可伸缩答案:ABCD解析:[多选题]73.大数据产生的经历了哪些阶段。()A)数据积累阶段B)运营式系统阶段C)用户原创内容阶段D)感知式系统阶段答案:BCD解析:[多选题]74.下列模型中,可用于平稳时间序列的拟合的是()。A)线性随机模型B)ARMA模型C)混合自回归模型D)趋势模型答案:ABC解析:[多选题]75.大数据的主要特征表现为()。A)数据容量大B)商业价值高C)处理速度快D)数据类型多答案:ABCD解析:[多选题]76.以下统计指标,不受极值影响的是()。A)平均数B)四分位差C)极差D)D众数答案:BD解析:第3部分:判断题,共24题,请判断题目是否正确。[判断题]77.BP网络是目前应用最广泛的神经网络模型之一,是一种按误差逆传播算法训练的多层前馈网络。A)正确B)错误答案:对解析:[判断题]78.因为甲公司的工资平均数比乙公司高,所以甲公司的工资水平比乙公司高。A)正确B)错误答案:错解析:[判断题]79.变异系数越小,变异(偏离)程度越小,风险也就越小。A)正确B)错误答案:对解析:[判断题]80.定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。A)正确B)错误答案:对解析:[判断题]81.colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据迁移带来的大量网络开销()A)正确B)错误答案:对解析:[判断题]82.HDFS中每个数据节点会定期向名称节点发送信息,向名称节点报告自己的状态A)正确B)错误答案:对解析:[判断题]83.分层抽样是将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的抽样方式。A)正确B)错误答案:错解析:[判断题]84.任何Java程序都必须以类的形式出现A)正确B)错误答案:对解析:[判断题]85.HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论