大数据开发基础(习题卷22)_第1页
大数据开发基础(习题卷22)_第2页
大数据开发基础(习题卷22)_第3页
大数据开发基础(习题卷22)_第4页
大数据开发基础(习题卷22)_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷22)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共145题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Hadoop作者A)MartinFowlerB)KentBeckC)Dougcutting[单选题]2.如果要回滚一个事务,则要使用()语句。A)committransactionB)begintransactionC)revokeD)rollbacktransaction[单选题]3.HDFS上block默认保存几份?A)1B)2C)3D)4[单选题]4.下列不属于Action操作的是()。A)collectB)filterC)reduceD)count[单选题]5.Flink的数据转换操作在以下哪些环节中完成?A)channelB)TransformationC)sinkD)source[单选题]6.deletefromemployee语句的作用是()A)删除当前数据库中整个employee表,包括表结构B)删除当前数据库中employee表内的所有行C)由于没有where子句,因此不删除任何数据D)删除当前数据库中employee表内的当前行[单选题]7.()试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模型[单选题]8.以下哪些选项为真?A)线性回归误差值必须正态分布,但是在Logistic回归的情况下,情况并非如此B)逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此C)线性回归和逻辑回归误差值都必须正态分布D)线性回归和逻辑回归误差值都不能正态分布[单选题]9.按照姓名升序序排列()A)ORDERBYNAMEASCB)ORDERBYASCNAMEC)ORDERBYNAMEDESCD)ORDERBYDESCNAME[单选题]10.Hadoop中节点之间的进程通信是通过什么协议来实现的()A)HTTPB)SMTPC)SSHD)RPC[单选题]11.下面说法正确的是A)基于像素的图像增强方法是一种线性灰度变换B)基于像素的图像增强方法是基于空间域的图像增强方法的一种C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高D)基于频域的图像增强方法比基于空域的图像增强方法的增强效果好[单选题]12.Spark生态系统组件SparkStreaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理[单选题]13.大数据产业全景图中包含以下选项(__):1.基础设施;2.企业应用;3.分析工具;4.行业行为;5.开源工具;6.数据资源;7.跨平台基础设施和分析工具;8.数据源和APPs。A)1234B)12345678C)2345678D)5678[单选题]14.数据仓库软件Hive的计算引擎采用的是什么?A)PregelB)SparkC)MapReduceD)Dryad[单选题]15.下面关于Zookeeper的特性描述错误的是:()。A)客户端所发送的更新会按照他们被发送的顺序进行应用B)一条消息要被超过半数的Server接收,他将可以成功写入磁盘C)消息更新只能成功或失败,没有中间状态D)Zookeeper节点数必须为奇数个[单选题]16.关于HDFS的文件块的描述不准确的是?A)文件块越大寻址时间越知短。B)文件块(片)被存在哪个集群;谁有权限查看.修改这个文件等信息放在元数据Metadata中。C)文件块的大小设置原则:最大化寻址开销。D)HDFS文件块的大小在1.0版本时是64,在2.0的时候是128M。[单选题]17.ADS中,对批量导入的表,()分区模式是可取的。A)list+listB)list+hashC)hash+hashD)hash+list[单选题]18.以下关于过拟合与欠拟合说法正确的是(___)A)欠拟合无法彻底避免B)过拟合可采取的方法有:在决策树学习中扩展分支等C)过拟合模型表现为在训练集上具有高方差和低偏差D)泛化误差是模型响应训练数据而变化的程度[单选题]19.Concatenate函数的功能是()A)把一个字符串按照指定字符串分隔成数组B)提取出和正则表达式匹配的所有字符串组成数组C)从一个字符串中截取特定长度的子串D)把多个字符串按次序连接成一个字符[单选题]20.在K均值算法中,()可用于获得全局最小A)尝试为不同的质心(centroid)初始化运行算法B)调整迭代的次数C)找到集群的最佳数量D)以上答案都正确[单选题]21.以下说法正确的是()。A)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则B)寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式C)数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好地完成描述数据、预测数据等任务D)在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差[单选题]22.下列程序执行后可以查看Python版本的是()。A)importsystemprint(system.version)B)importsysPrint(sys.version)C)importsystemprint(system.Version)D)importsysPrint(sys.Version)[单选题]23.创建数据库使用以下哪项()A)createmytestB)createtablemytestC)databasemytestD)createdatabasemytest[单选题]24.以下()不属于线性分类器最佳准则?A)感知准则函数B)贝叶斯分类C)支持向量机D)Fisher准则[单选题]25.以下哪些情景可以使用机器学习技术?()A)记录过去一段时间内某移动运营商客户转移到竞争对手的案例B)统计电商网站某类别商品在一定时间内的销量均值C)统计某零售超市一个月内哪类牛奶的销量最大D)为携程在线旅游公司的客户推荐度假产品[单选题]26.某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型ywyMMdd,那么可以使用以下哪一项作为字段类型?A)IntB)doubleC)stringDD)varcahr[单选题]27.下列有关数据基本单位换算错误的是()A)1Byte=8bitB)1KB=1024BytesC)1MB=1024GBD)1GB=1024MB[单选题]28.大数据时代,数据使用的关键是()。A)数据收集B)数据存储C)数据分析D)数据再利用[单选题]29.大数据整合要保证各个数据源之间的()。A)一致性、协调性B)差异性、协调性C)一致性、差异性D)一致性、相容性[单选题]30.下列不是SVM核函数的是A)多项式核函数B)logistic核函数C)径向基核函数D)Sigmoid核函数[单选题]31.(__)是将低层次数据转换为高层次数据的过程。A)数据化B)数据整理C)数据加工D)数据整齐化[单选题]32.下列关于分词的说法正确的是?A)中文句子字之间没有空格,无法分词B)一个句子的分词结果是唯一的C)中文分词是将一系列无空格间隔字符串分割成一系列单词的过程D)分词没有实际应用价值[单选题]33.Sigmoid函数作为神经元激活函数的特点是()。A)连续但不光滑B)不连续但光滑C)连续且光滑D)不连续且不光滑[单选题]34.下列哪个语句在Python中是非法的?A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y[单选题]35.创建数据同步任务后,对于增量同步中的任务,可以通过:()来增加或者移除同步数据库和表,并提交同步任务。A)删除同步对象B)编辑同步对象C)创建同步对象D)返回同步对象[单选题]36.下列关于雷达图的说法中,错误的是()A)雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图等B)雷达图不适合展现某个数据集的多个关键特征C)雷达图中不同坐标的点之间以直线相连接D)雷达图常用于多项指标的全面分析,具有完整、清晰和直观的优点[单选题]37.为了防止个人信息泄露,下列做法不正确的是()。A)关闭电脑摄像头B)不下载不明APPC)抖音发布个人地址D)手机设置多重密码[单选题]38.下列选项中,用于触发异常的是()。A)tryB)catchC)raiseD)except[单选题]39.Redis中适合存储对象的数据类型是?()A)StringB)ListC)HashD)Set[单选题]40.()不是Spark服务层的功能。A)SQL查询B)实时处理C)机器学习D)内存计算[单选题]41.假设一共有10篇文档,其中某个词A在其中10篇文章中都出现过,另一个词B只在其中3篇出现。根据逆文档频率,()比较关键。A)无B)AC)BD)A和B[单选题]42.?落伍者?是影响MapReduce总执行时间的主要影响因素之一。为此,MapReduce中采用()A)推测性执行的任务备份机制B)惰性计算C)急性/热情计算D)分布式计算[单选题]43.最早被提出的循环神经网络门控算法是()A)长短期记忆网络B)门控循环单元网络C)堆叠循环神经网络D)双向循环神经网络[单选题]44.下列关于大数据的说法中,错误的是()A)大数据具有体量大、结构单一、时效性强的特征B)处理大数据需采用新型计算架构和智能算法等新技术C)大数据的应用注重相关分析而不是因果分析D)大数据的目的在于发现新的知识与洞察并进行科学决策[单选题]45.在HDFS文件系统根目录下创建一个名为mydir的文件夹的命令是()。A)hdfs.create(newPath(?hdfs:/mydir?))B)hdfs.open(newPath(?hdfs:/mydir?))C)hdfs.mkdirs(?hdfs:/mydir?)D)hdfs.mkdirs(newPath(?hdfs:/mydir?))[单选题]46.下列Maxcompute的()函数可以用在查询的where子句中。A)userdefinedtablefunctionB)userdefinedaggregationfunctionC)userdefinedscalarfunctionD)userdefinedfunction[单选题]47.Hive架构中使用()语言对数据进行自动化管理和处理。A)SQLB)JavaC)CD)类SQL[单选题]48.下面不属于数据科学中特有的管理方法有(__)。A)关系数据库B)NewSQLC)NoSQLD)关系云[单选题]49.距离超平面最近的几个训练样本称为支持向量,两个异类支持向量到超平面的距离之和为()。A)间隔B)误差C)距离D)偏差[单选题]50.公司在我国境内收集和产生的个人信息和重要数据,要在境内存储,并定期开展检测评估的频率是()。A)每月一次B)每季度年一次C)每半年一次D)每年一次[单选题]51.Hive的启动依赖于()的启动,因此必须先启动它A)JavaB)数据库C)HadoopD)tomcat[单选题]52.下列哪个神经网络结构会发生权重共享?A)卷积神经网络B)循环神经网络C)全连接神经网络D)选项A和B[单选题]53.()以上地方人民政府有关部门的网络安全保护和监督管理职责,按照国家有关规定确定A)乡级B)县级C)市级D)省级[单选题]54.下列关于split叙述正确的一项是()。A)当单个StoreFile大小小于一定的阙值后触发B)把当前的Region分裂成2个子RegionC)子Region会被Master分配到不同的RegionServer上D)是HBase提供的超载机制[单选题]55.构造了一个词表:{1.?小明?2.?喜欢?3.?踢?4.?看?5.?足球?6.?篮球?7.?电影?},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示[()]。A)1101001B)1111111C)1111100D)1110100[单选题]56.以下可以用于处理决策树归纳中的过拟合的方法(__)。A)先剪枝B)使用确认集C)结合模型复杂度D)使用再代入估计[单选题]57.以下哪个选项对Redis数据读写流程描述是正确的?(A)ServerA节点返回集群拓扑-客户端选择集群任意一个serverA节点连接客户端计算Key归属的槽位以及对应ServerB节点并连接-Servere节点返回业务操作结果B)客户端选择集群任意一个ServerA节点连接-Servera节点返回集群拓扑客户端计算Key归属的槽位以及对应serverB节点并连接--ServerB节点返回业务操作结果C)ServerA节点返回集群拓扑-喜户端计算Key归属的槽位以及对应ServerB节点并连接户端选择集群任意一个ServerA节点连接-eerB节点返回业务操作结果D)客户端选择集群任意一个Servera节点连接客户端计算Key归属的槽位以及对应ServerB节点并连接-ServerA节点返回集群拓扑-ServerB节点返回业务操作结果[单选题]58.数据科学是一门以?数据?,尤其是?大数据?为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算等活动的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系[单选题]59.从日常工作月度考核奖中提取()%用于奖励部门负责人A)20B)25C)30D)35[单选题]60.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A)平方欧几里德距离B)余弦距离C)直接相似度D)共享最近邻[单选题]61.下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?A)GFS与HDFS相对应B)GFS与Zookeeper相对应C)MapReduce与HadoopMapReduce相对应D)Chubby与Zookeeper相对应[单选题]62.plt.plot()函数的功能是()。A)展现变量的趋势变化B)寻找变量之间的关系C)设置x轴的数值显示范围D)设置x轴的标签文本[单选题]63.数据中台建设工作中,以需求为导向,基于(),有针对性地按需开展数据接入与整合,逐步实现主数据共建共享,提升数据价值挖掘支撑能力。A)统一数据模型B)电网资源模型C)数据服务能力D)统一价值模型[单选题]64.ADS中两个普通表关联,对于joinkey,()说法是不正确的。A)如果两张表的joinkey都没有hashmap索引,则会报错,修正方法为:至少一个joinkey上手工添加hashmap索引,且修改过的表需要重新加载数据,重新进行关联B)两张表的Hash分区数必须一致,且分区列一致C)两张表的JoinKey至少有一列建立了HashMap索引D)如果选择只在一张表上建HashMap索引的话,推荐建立在数据量较大表的一侧[单选题]65.今年,大数据分析将出现革命性的新方法从前的很多算法和基础理论可能会产生理论级别的突破。而哪项技术将继续成为大数据智能分析的核心技术()?A)机器学习B)智能物流C)脑科学D)智能终端[单选题]66.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7x7,具有零填充且步幅为1该层的输入图片的维度是224x224x3那么该层输出的维度是()A)217x217x3B)217x217x8C)218x218x5D)220x220x7[单选题]67.关于Python语言的注释,以下选项中描述错误的是:A)python语言有两种注释方式:单行注释和多行注释B)python语言的单行注释以#开头C)python语言的单行注释以单引号开头D)Python语言的多行注释以???(三个单引号)开头和结尾[单选题]68.Redis中String数据类型不含以下哪种操作?A)MgetB)sizeC)strlenD)append[单选题]69.HDFS中的主备仲裁,是由哪个组件控制的?A)ZooleeperFailoverControllerB)NodeManagerC)ResourceManagerD)HDFSClient[单选题]70.sys模块中未定义以下哪个功能()。A)sys.platformB)sys.pathC)sys.readlineD)sys.argv[单选题]71.下列关于bootstrap说法正确的是()。A)从总的M个特征中,有放回地抽取m个特征(m<M)B)从总的M个特征中,无放回地抽取m个特征(m<M)C)从总的N个样本中,有放回地抽取n个样本(n<N)D)从总的N个样本中,无放回地抽取n个样本(n<N)[单选题]72.当前社会中,最为突出的大数据环境是()A)互联网B)物联网C)综合国力D)自然资源[单选题]73.在FusionInsightManager界面中,对Loader的操作不包括下列哪个选项?A)切换Loader主备节点B)启动Loader实例C)配置Loader参数D)查看Loader服务状态[单选题]74.在HBase访问接口中,Pig主要用在哪个场合?A)适合HadoopMapReduce作业并行批处理HBase表数据B)适合HBase管理使用C)适合其他异构系统在线访问HBase表数据D)适合做数据统计[单选题]75.关于Kerberos的TGT以下说法错误的是?A)TGT全称为票据授权票据,主要由KDC服务器生成B)TGT一次生成之后,可以无限期使用C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及[单选题]76.下列哪项具体任务不属于情感分析?()A)情感分类B)观点抽取C)观点问答D)段落匹配[单选题]77.下列关于缺失值的说法错误的是()。A)可以利用统计量对缺失值进行填补B)可以利用K近邻值对缺失值进行填补C)只要有缺失值就必须把对应记录删除D)对于缺失值较多的属性可以考虑删除[单选题]78.如下哪个不是最近邻分类器的特点()。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边界[单选题]79.下列哪一点不是云计算的特点()A)通过网络为用户提供服务B)需要用到虚拟化技术C)非常昂贵D)可动态扩展和压缩[单选题]80.在Hadoop的分区阶段,默认的Partitioner是()。A)RangePartitionerB)PartitionerC)HashPartitionerD)用户自定义的Partitioner[单选题]81.数据科学是一门以()为主要研究任务的独立学科。A)"数据驱动"{(数据业务化""数据洞见""数据产品研友"和(或)"数据生态系统的建设"B)数据研发C)数据处理D)数据洞见[单选题]82.AUC是衡量()模型优劣的一种评价指标。A)回归B)分类C)二分类D)聚类[单选题]83.国网互联网部关于加强数据管理的工作安排中,按照公司关于加快形成跨部门、跨专业、跨领域一体化数据资源体系,推进数据汇集融合共享的要求,遵循()的总体思路。A)?盘、规、治、用?B)?盘、放、治、用?C)?盘、归、治、用?D)?盘、规、理、用?[单选题]84.关于Python循环结构,以下选项中描述错误的是A)遍历循环中的遍历结构可以是字符串、文件、组合数据类型和range()函数等B)break用来跳出最内层for或者while循环,脱离该循环后程序从循环代码后继续执行C)每个continue语句只有能力跳出当前层次的循环D)Python通过for、while等保留字提供遍历循环和无限循环结构[单选题]85.以下说法错误的是()A)Logistic回归可用于预测事件发生概率的大小B)Logistic回归的目标函数是最小化后验概率C)SVM的目标的结构风险最小化D)SVM可以有效避免模型过拟合[单选题]86.关于SecondaryNameNode下面哪项是正确的______。A)它是NameNode的热备B)它对内存没有要求C)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D)SecondaryNameNode应与NameNode部署到一个节点[单选题]87.实现One-Hot编码可以用pandas中什么函数()A)groupbyB)mergeC)get_dummiesD)fillna[单选题]88.下列选项中,关于HDFS说法错误的是()A)HDFS是Hadoop的核心之一B)HDFS源于Google的GFS论文C)HDFS用于存储海量大数据D)HDFS是用于计算海量大数据[单选题]89.大数据的()体现在大数据是基于互联网的实时动态数据,而不是历史的或严格控制环境下产生的内容A)社会性B)广泛性C)公开性D)动态性[单选题]90.数据科学家采用()方法判断数据是否?干净?。A)、数据处理B)、数据加工C)、数据审计D)、数据化[单选题]91.下列哪一种不属于BI工具数据集的数据字段类型?()A)文本B)数值C)日期D)整型[单选题]92.执行以下代码段age=input("Howoldareyou?")print(type(age))时,输出为()。A)class'str'B)class'float'C)class'bool'D)class'int'[单选题]93.以下哪项不属于Apache顶级项目?A)FlinkB)StormC)EclipseD)Spark[单选题]94.()能反映出X和Y之间的强相关性A)相关系数为0.9B)对于无效假设,卢bO的p值为0.0001C)对于无效假设,?=O的t值为30D)以上说法都不对[单选题]95.下列关于连接数组的描述不正确的是()。A)concatenate()连接沿现有轴的数组序列B)stack()沿着新的轴加入一系列数组C)vstack()水平堆叠序列中的数组(列方向)D)hstack()3D堆叠序列中的数组(行方向)[单选题]96.kNN最近邻方法在()情况下效果较好。A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布[单选题]97.print(type('abc'))打印结果为A)strB)intC)floatD)list[单选题]98.多用于展示两地点间数据流转(如迁徙)的图表是?()A)地图(面积)B)地图(气泡)C)地图(迁徙)D)地图[单选题]99.对Base集群架构组成部分描述错误的是()。A)正常HBase表只有一个Region,随着数据增多Region不断分裂变成多个,Region的拆分非常慢。B)Client包含访问HBase的接口,同时缓存维护已经访问过的Region的位置信息。C)HMaster主要负责表和Region的管理工作,Region的负戴均衡D)HRegionServer是Base的数据服务进程,负奏处理用户的数据读写请求。[单选题]100.下面关于棱镜门事件描述错误的是:()A)棱镜计划(PRISM)是一项由美国国家安金局(NSA)自2007年起开始实施的绝密电子监听计划B)在该计划中,美国国家安金局和联邦调査局利用平台和技术上的优势,开展全球范围内的监听活动C)该计划的目的是为了促进世界和平与发展D)该计划对全此界重点地区、部门、公司甚至个人进行布控[单选题]101.聚类算法的性能度量可称为()A)密度估计B)异常检测C)有效性指标D)分布结构[单选题]102.配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A)hadoop-default.xmlB)hadoop-env.shC)hadoop-site.xmlD)configuration.xsl[单选题]103.scipy.stats模块中累积分布的反函数是()。A)pdfB)ppfC)rvsD)sf[单选题]104.现有一张score表,我想要实现先按照班级class_name进行分桶,再按照学生学号stu_id进行升序排序,下列语句书写正确的是()A)SELECTFROMscoreCLUSTERBYclass_name,stu_id;B)SELECTFROMscoreCLUSTERBYclass_namesortbystu_idasc;C)SELECTFROMscoreDISTRIBUTEBYclass_nameSORTBYstu_id;D)SELECTFROMscoreDISTRIBUTEDBYclass_nameSORTBYstu_idasc;[单选题]105.在机器学习中,不属于常用的冲突消解策略是()A)投票法B)排序法C)元规则法D)加权法[单选题]106.Flink不包含以下哪些数据处理场景?A)毫秒级低时延B)高可靠性C)高并发D)图形分析[单选题]107.Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。A)内存、MapReduceB)HBase、YarnC)HDFS、TezD)HDFS、Yarn[单选题]108.对于运行在MapReduce平台上的应用程序,此应用程序所依赖的jar包会被放到()。A)HIVEB)HBASEC)HDFSD)DB[单选题]109.下列关于数据可视化的描述,哪个是错误的?()A)数据可视化是指将大型数据集中的数据以图形图像形式表示B)利用数据分析和开发工具发现其中未知信息的处理过程C)数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示D)将数据的各个属性值以一维数据的形式表示[单选题]110.以下不属于高维数据可视化类别的是()。A)平行坐标图B)降维投影图C)散点图矩阵D)河流图[单选题]111.以下关于turtle库的描述,正确的是:A)在importturtle之后就可以用circle()语句,来画一个圆圈B)要用fromturtleimportturtle来导入所有的库函数C)home()函数设置当前画笔位置到原点,朝向东D)seth(x)是setheading(x)函数的别名,让画笔向前移动x[单选题]112.查找数据库中所有的数据表用以下哪一项()A)SHOWDATABASEB)SHOWTABLESC)SHOWDATABASESD)SHOWTABLE[单选题]113.以下表述正确的是?A)if语句总是与else成对出现;B)if语句总是与elif成对出现;C)if语句分支嵌套实现多分支;D)if语句只能实现二分支。[单选题]114.Sqoop是一种用于在Hadoop和()之间传输数据的工具。A)HiveB)OracleC)关系型数据库D)MySQL[单选题]115.下面关于增强学习描述不正确的是(__)。A)增强学习主要研究如何协助自治Agent的学习活动B)增强学习基本思路是当Agent在环境中做出每个动作时,施教者会提供奖赏或者惩罚信息,以表示结果状态的正确与否C)增强学习中的Agent需要具备环境交互能力和自治能力D)基于马尔可夫决策不属于增强学习[单选题]116.下列函数中,用于返回元素中最小的值的是()A)lenB)maxC)minD)tuple[单选题]117.np.arraysplit()函数的作用是(__)。A)沿着它的水平轴分割B)沿着纵向的轴分割C)允许指定沿哪个轴分割D)按深度方向分割[单选题]118.当合适的样本容量很难确定时,可以使用的抽样方法是()。A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样[单选题]119.关于数据相关性,以下说法错误的是()。A)相关性体现了大数据的灵魂B)相关性思维实现了从"为什么"到"是什么"的思维转变C)相关性关注事物的因果关系D)相关性关注事物的相关关系[单选题]120.在新建采集元数据任务中,配置数据源信息参数?选择集群?仅数据源类型为:()时呈现此参数。A)DWSB)CSSC)MRSHBaseD)DIS[单选题]121.在关系数据库中,用来表示实体之间联系的是___________。A)网结构B)二维表C)线性表D)树结构[单选题]122.以下哪一项不是Spark框架可用的数据源?A)IndexFSB)HDFSC)S3D)Cassandra[单选题]123.聚类是一类重要的机器学习算法,以下哪些场景属于聚类问题?A)判断一个网络访问是否为入侵访问。B)某网商对客户的购物行为进行分析,从而为不同组用户推荐商品C)根据学生的成绩,给出学生的名次。D)对数据库的论文根据内容主题的不同做划分[单选题]124.下列哪个程序通常与NameNode在一个节点启动?A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker[单选题]125.HDFS中的block默认保存几份?A)3份B)2份C)1份D)不确定[单选题]126.()是表示数据分布是否为对称性的统计量。A)方差B)中位数C)偏态D)峰态[单选题]127.Scikit-Learn中,()可以更好帮助参数调优和选择模型。A)均值算法B)均方根算法C)最小二乘法D)交叉验证[单选题]128.以下选项中,哪个程序负责HDFS数据存储()。A)NameNodeB)DataNodeC)SecondaryNameNodeD)ResourceManager[单选题]129.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称为()。A)欠拟合B)过拟合C)拟合D)以上答案都不正确[单选题]130.(__)通过构建并结合多个学习器来完成学习任务。A)支持向量机B)贝叶斯分类器C)神经网络D)集成学习[单选题]131.构成状态空间的4个要素是:()。A)开始状态、目标状态、规则与操作B)初始状态、中间状态、目标状态与操作C)空间、状态、规则与操作D)开始状态、中间状态、结束状态与其他状态[单选题]132.下面关于数据产品开发相关描述正确的有(__)。A)数据科学家的主要职责是?数据的管理?B)数据科学家一定是科学家C)?数据码农?可以胜任数据科学家D)数据科学家是为解决现实世界中问题提供直接指导、依据或参考的高级专家[单选题]133.关于数猎云中的数据落地操作,不正确说法的是()A)落地表名只能是字母、数字、点、下划线的组合,且只能字母开头B)创建落地对象是由系统创建可用于存储落地数据的表对象C)创建落地对象时,若弹出已经存在落地表,说明数据库中已经存在与所设置的落地表名一致的表D)数猎云中不能设置批量落地,只能逐个创建落地对象[单选题]134.在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述步骤。这个过程称为(__)。A)规则学习B)直推学习C)强化学习D)序贯覆盖[单选题]135.下列哪项通常是集群的最主要瓶颈()。A)内存B)CPUC)网络D)磁盘I/O[单选题]136.Flume传输的基本单元是()。A)数据流B)源C)块D)Flume事件[单选题]137.下列做法中,对个人信息安全威胁最大的是()。A)课堂手工签到B)手机恶意APPC)钉钉共享编辑D)共享加密文件[单选题]138.下列描述中不属于数据治理内容的是()。A)理解自己的数据B)行为规范的制定C)岗位职责的定义D)获得更多的数据[单选题]139.信息系统安全等级保护是指()。A)对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护。B)对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的信息安全产品实行按等级管理。C)对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的信息安全产品实行按等级管理,对信息系统中发生的信息安全事件分等级响应和处置。D)对国家安全、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中发生的信息安全事件分等级响应和处置。[单选题]140.Scipy通常与()同时使用。A)PandasB)Scikit-learnC)NumpyD)Jieba[单选题]141.执行下列语句后,结果是>>>defsaving(a,b,c):ifa>b:print(a+b+c)else:print(a-b+c)>>>saving(10,10,9)A)29B)9C)19D)0[单选题]142.数据、信息与知识三者之间的变化趋势是()A)宏课程B)大课程C)小课程D)微课程[单选题]143.下列关于对Zookeeper的cons命令描述正确的是()。A)列出所有服务器客户端的连接统计信息B)重置连接统计信息C)重置服务器统计信息D)列出服务器上所有观察的摘要信息[单选题]144.(__)是将?现实生活中的问题?转换为?数据世界中的问题?,然后采用数据科学的理念、原则、方法、技术、工具,通过将数据、尤其的大数据,转换为知识和智慧。A)数据工程师B)数据码农C)数据科学家D)科学家第2部分:多项选择题,共62题,每题至少两个正确答案,多选或少选均不得分。[多选题]145.Cloudera提供哪几种安装CDH的方法?A)ClouderamanagerB)TarballC)YumD)Rpm[多选题]146.HBase访问接口类型包括哪些?A)NativeJavaAPIB)HBaseShellC)ThriftGatewayD)RESTGateway[多选题]147.协同过滤主要包括:()A)基于用户的协同过滤B)基于物品的协同过滤C)基于模型的协同过滤D)基于分类的协同过滤[多选题]148.MapReDuce更适合以下哪种大数据处理业务A)ETLB)迭代挖掘算法C)图挖掘算法D)统计[多选题]149.关于HDFS中NameNode的作用描述的正确的是?A)管理HDFS的名称空间(NameSpace)B)执行数据块的读/写操作C)配置副本策略通常为3份D)处理客户端读写请求[多选题]150.以下场景中,适合使用MaxCompute解决的是:()。A)电子商务网站的在线交易B)PB级离线曰志分析C)基于海量数据的用户特征和兴趣挖掘D)大型互联网企业的数据仓库和BI分析[多选题]151.下列哪些措施,可以显著提升ElasticSearch的性能。A)禁用swapB)增加EsMasterC)减EsMasterD)修改副本数量[多选题]152.5.Hadoop的特性主要包括:()A)高可靠性B)高可扩展性C)高容错性D)成本高[多选题]153.MaxcomputeSQL支持的Join操作类型包括:()。A)INNERJOINB)LEFTOUTERJOINC)FULLOUTERJOIND)RIGHTOUTERJOIN[多选题]154.下列哪些类型是数值型的数据()A)setB)doubleC)mediumintD)float[多选题]155.字典的遍历正确的有()A)forin变量i,字典:使用i遍历所有的键,有键就可以通过变量访问其值B)for变量iin字典:使用i遍历所有的键,有键就可以通过变量访问其值C)for变量i,变量jin字典.items():使用变量i遍历所有键,通过变量j遍历所有值D)forin变量i,变量j字典.items():使用变量i遍历所有键,通过变量j遍历所有值[多选题]156.关于检索结果排序,正确的是()A)关键字DESC表示降序,ASC表示升序B)如果指定多列排序,只能在最后一列使用升序或降序关键字C)如果指定多列排序,可以在任意列使用升序或降序关键字D)关键字ASC表示降序,DESC表示升序[多选题]157.关于神经网络,下列说法正确的是()。A)增加网络层数,可能会增加测试集分类错误率B)增加网络层数,一定会增加训练集分类错误率C)减少网络层数,可能会减少测试集分类错误率D)减少网络层数,一定会减少训练集分类错误率[多选题]158.Flume由哪三部分组成?A)MasterB)SinkC)SourceD)Channel[多选题]159.机器学习中L1正则化和L2正则化的区别是?()A)使用L1可以得到稀疏的权值B)使用L1可以得到平滑的权值C)使用L2可以得到稀疏的权值D)使用L2可以得到平滑的权值[多选题]160.DGI定义的数据治理任务包括()。A)数据质量的评估B)主动定义或序化规则C)为数据利益相关者提供持续跨职能的保护与服务D)应对并解决因不遵守规则而产生的问题[多选题]161.TextRank首先会提取词汇,形成();然后依据词汇的关联,建立()。A)节点B)词表C)链接D)句子[多选题]162.(__)可以传递给下一个数组。A)冒号B)数组C)标量D)代码[多选题]163.总部各业务部门及公司各单位负责确定本部门及本单位重要数据(),加强专业指导和督促检查,全面落实公司数据安全保护管理和技术要求,落实数据使用安全责任。A)保护对象B)范围C)涉密等级D)使用方式[多选题]164.根据《促进大数据发展行动纲要》(国发〔2015〕50号),以下()等信息库被列为大力推进的基础数据资源。A)人口基础信息库B)法人单位信息资源库C)自然资源和空间地理基础信息库D)宏观经济数据库[多选题]165.可以从哪些维度评价数据价值:()A)数据样本量B)数据品种C)数据完整性D)数据实时性[多选题]166.在金融领域的大数据批量离线处理平台中,以下描述准确的选项是。A)金融领域的数据应用层面均是面向金融机构内部的,如监管报表系统,精准营销、B应用等,完全不对外或对其他下屋机构开放。B)金融领域的外部数据来源可以是征信信息、社交网络和电商等。C)金融领域的内部数据来源均是结构化数据,包括信贷数据、信用卡数据和收单数据等。D)在数据集成模块,可以分为数据采集、数据操控和数据加载3个阶段。[多选题]167.下列属于可视化高维数据技术的有()。A)矩阵B)平行坐标系C)星形坐标系D)散布图[多选题]168.Spark的程序执行过程中,以下说法正确的是()A)Application是由用户编写的Spark应用程序,其中包括dirverprogram和executorB)SparkContext是Spark运行的核心模块,由DriverProgram创建C)Shuffle操作只有在窄依赖的时候才会触发D)Stage具体到RDD中每个分区的执行[多选题]169.为TIME类型字段添加(),其插入数据库中的时间为48:20:50。--A)'482050'B)482050C)'200:20:50'D)以上答案都不正确[多选题]170.下列说法正确的有()。A)网站服务器可以识别你使用的访问软件,因为在发送访问请求中有特定位置的字符串和软件类型相关B)低级别的代理服务器十分容易被识别C)可以通过修改opener的proxy来模拟浏览器访问D)爬取图片的流程被中断时,之前所有爬取的信息都将被自动删除[多选题]171.下面有关HBase的描述正确的是()。A)Hbase中每个区域由它所属于的表中它所包含的第一行及其最后一行来表示B)在初始阶段,一个表只有一个区域C)在初始阶段,一个表会随机划分为多个区域D)Hbase中的每个区域由表中行的子集构成[多选题]172.numpy中提供的数组排序算法包括(__)。A)np.sort()B)np.msort()C)np.sort_somplex()D)np.lexsort()[多选题]173.获取当前登录服务器的主机地址及用户名使用()函数。--A)USER()B)SYSTEM_USER()C)SESSION_USER()D)CURRENT_USER()[多选题]174.下列关于Pandas层次化索引说法正确的是()A)层次化索引是指Pandas对象在一个轴方向上具有多层索引B)使用from_tuples()方法可以将元组列表转换为MultiIndex对象C)使用from_arrays()方法可以将数组列表转换为MultiIndex对象D)层次化索引不可以排序[多选题]175.下列既可以用于分类,又可以用于回归的机器学习算法有()。A)k近邻B)逻辑回归C)决策树D)线性回归[多选题]176.以下是正确的字符串A)?abc?ab?B)?abc?ab?C)?abc?ab?D)?abc\?ab?[多选题]177.下面关于CNNConvolution操作与FullyConnected的关系描述正确的是?()A)CNNConvolution输入图像和滤波器内积操作得到的矩阵的每一个元素将对应于FullyConnectedNetwork中每个神经元的输B)CNNConvolution操作filter(滤波器)中每一个元素对应FullyConnectedNetwork中要更新的参数w和bC)CNNConvolution操作得到的FeatureMap的所有元素共同sharedweightsD)CNNConvolution神经网络输入为一个3D-张量[多选题]178.落实国家大数据安全保护要求需完善安全保密管理措施,切实加强对涉及()等信息的保护。A)国家利益B)公共安全C)商业秘密D)个人隐私[多选题]179.下列对RDBMS描述正确是()。A)RDBMS可以保持数据的一致性B)RDBMS可以实现高并发的读写需求C)对于数据量巨大的网站,RDBMS可以实现高效的查询需求D)RDBMS以标准化为前提,数据更新的开销很小[多选题]180.下列关于sigmoid函数描述正确的是()A)取值范围为(0,1),他可以将一个实数映射到(0,1)的区间,看做概率值B)只能做二分类C)阈值一般设置在0.5,大于该值的概率表示正例D)只有该函数能将实数映射到(0,1)区间[多选题]181.以下关于MaxComputeSQL中多路输出描述正确的是:()。A)多路输出是指MaxComputeSQL可以支持在一个语句中插入到不同的结果表或者分区B)一般情况下,单个SQL里最多可以写128路输出C)在一个multiinsert中,对于分区表,同一个目标分区不可以出现多次;对于未分区表,该表不能出现多次D)对于同一张分区表的不同分区,不能同时有insertoverwrite和insertinto操作,否则报错返回[多选题]182.Maxcomputetask类型包括:()。A)jointaskB)maptaskC)localworkD)reducetask[多选题]183.下列关于ROC曲线描述正确的是(__)。A)ROC曲线又叫等感受曲线B)ROC曲线离纯机遇线越远,表明被试的辨别力越强C)辨别力不同的被试的ROC曲线也不同。D)辨别力不同的被试的ROC曲线相同。[多选题]184.以下说法正确的是()A)二项分布的方差为p*(1-p)B)PDF是连续变量特有的C)伯努利分布分布的期望为npD)PMF是连续随机变量特有的[多选题]185.下面关于CNNMaxPooling功能描述正确的是:()A)SubsamplingthepixelswillnotchangetheobjectB)对Convolutionallayer提取的特征进一步降维C)AlphaGoCNN中没有包含MaxPoolingD)同一特征的强度信息丢失[多选题]186.提升企业经营绩效方面,2019年重点开展()、()、实物ID推广应用、基建全过程综合数字化管理平台建设和现代(智慧)供应链体系构建等5项工作。A)数字化审计B)多维精益管理体系变革C)泛在电力物联网营销服务系统D)网上电网应用构建[多选题]187.下列关于L1正则化与L2正则化描述正确的是(__)。A)L1范数正则化有助于降低过拟合风险B)L2范数正则化有助于降低过拟合风险C)L1范数正则化比L2范数正则化更有易于获得稀疏解D)L2范数正则化比L1范数正则化更有易于获得稀疏解[多选题]188.Spark的关键技术包括()。A)RDDB)SchedulerC)StorageD)Shuffle[多选题]189.MapReduce框架负责任务的()和()。A)计算B)存储C)调度D)监控[多选题]190.Streaming的处理节点Bolt中,可以完成以下哪些操作?A)连接运算B)过滤(Filter)C)连接数据库D)业务处理[多选题]191.以下关于Zookeeper的Leader选举说法正确的是?A)当实例n为奇数时,假定n=2x+1,则成为leader节点需要x+1票B)Zookeeper选举leader时,需要半数以上的票数C)当实例数为8时,则成为leader节点需要5票,容灾能力为4D)当实例数n为奇数时,假定n=2x+1,则成为leader节点需要x票[多选题]192.(__)不属于元分析方法。A)加权平均法B)优化方法C)时序法D)关联法[多选题]193.噪声数据处理的方法主要有:()A)分箱B)聚类C)关联分析D)回归[多选题]194.下列对流式计算的链路描述正确的是:()。A)流计算全链路整体上更加强调数据的实时性B)链路包括数据实时采集、数据实时计算、数据实时集成C)一个流计算作业必须至少使用一个流数据作为源D)流计算将计算的结果数据支持写入目的数据[多选题]195.关于相关与线性关系,下列说法正确的是()A)相关不一定是线性关系,可能是非线性关系B)相关一定是线性关系,不可能是非线性关系C)相关时若有相关系数r为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系D)相关系数为0是两个变量独立的必要不充分条件[多选题]196.大数据时代的五个无处不在,具体指的是()、服务无处不在。A)网络无处不在B)计算无处不在C)大数据无处不在D)软件无处不在[多选题]197.MapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内的广泛关注,并被大量应用到各种商业场景中。以下场景中,()适合用MapReduce来实现。A)交互式查询:基于海量数据的透视分析,用户可以通过上卷、下钻、切片等交互操作,了解数据集细节B)机器学习:监督学习、无监督学习、分类算法如决策树、SVM等C)文本统计分析:比如词频TFIDF分析;学术论文、专利文献的引用分析和统计;维基百科数据分析等D)Web访问日志分析;分析和挖掘用户在web上的访问、购物行为特征,分析用户访问行为[多选题]198.()类型的字段可以作为MaxCompute的分区键。A)stringB)datetimeC)bigintD)double[多选题]199.下列关于Flink中Transformation的说法正确的是?A)可以通过window设定时间窗口B)Filtor操作是对每个元素执行boolean函数C)flatMap可以对文本进行切分D)keyBy是将源头数据按照key进行分组,以保证同一个key的元数据分到同样的组中[多选题]200.Web内容挖掘实现技术()A)文本总结B)文本分类C)文本聚类D)关联规则[多选题]201.大数据常见的计算方式有三种:离线计算、流计算以及在线计算,关于这几种计算方式的说法正确的有:()。A)流计算是消息驱动的,数据更新一般是定时更新B)离线计算的数据更新以定期的批量更新为主C)在线计算一般在用户发起请求时(比如查询)发生D)流计算可以应用于实时数值统计、实时事件预警等领域[多选题]202.Hive支持多种类型的Join,并且每种连接都有各自的特性,下面对Join的描述中哪一项描述是片面的、不客观的?()A)在使用写有OUTERJOIN中操作的查询语句时有一条原则:应该将条目少的表/子查询放在JOIN操作符的右边。B)尽量使用并行多JOIN(AJOINJOINC…)。因为不论多少张表,如果连接的Key相同,Hive会自动优化成一个MapReduceJob。C)Hive不支持非等值的连接,主要是因为非等值连接非常难转化到Map/Reduce任务。D)Hive支持多于2个表的连接,Hive总是会对每对JOIN连接对象启动一个MapReduce任务。[多选题]203.下列对NoSQL的描述正确的是()。A)NoSQL可以保持数据的一致性B)NoSQL可以高度组织化结构化数据C)NoSQL具有易扩展的特点D)在大数据量下,NoSQL具有非常高的读写性能[多选题]204.下列选项中,属于判断语句的是()。--A)IFB)WHILEC)CASED)ITERATE[多选题]205.关于CAP理论说法正确的是()。A)一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B)一致性主要指强一致性C)一致性、可用性和分区容错性中的任何两个特征保证(争取)可能导致另一个特征的损失(放弃)中D)可用性指每个操作总是在"给定时间"之内得到返回"所需要的结果"[多选题]206.传统数据密集型行业积极探索和布局大数据应用的表现是()A)投资入股互联网电商行业B)打通多源跨域数据C)提高分析挖掘能力D)自行开发数据产品E)实现科学决策与运营第3部分:判断题,共42题,请判断题目是否正确。[判断题]207.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。A)正确B)错误[判断题]208.Flink处理数据是无状态的,处理一个事件与之前的事件无关。A)正确B)错误[判断题]209.列表对象的append()方法属于原地操作,用于在列表尾部追加一个元素。A)正确B)错误[判断题]210.安全域是指基于相同安全防护需求、可采用相似安全策略且不改变维护界面等原则划分的区域。A)正确B)错误[判断题]211.Hbase的BloomFiliter是用来过滤数据。A)正确B)错误[判断题]212.离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处理对处理时间要求不高。A)正确B)错误[判断题]213.一般而言,分布数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库,因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点A)正确B)错误[判断题]214.为字段插入的数据不在合法的取值范围内时,则自动转换为该类型范围内的最大值或最小值。--A)正确B)错误[判断题]215.牛顿法是用来对函数求根的A)正确B)错误[判断题]216.主键用于唯一标识表中的记录。--A)正确B)错误[判断题]217.建立自动增长的字段必须是主键。--A)正确B)错误[判断题]218.假设random模块已导入,那么表达式randomA)正确B)错误[判断题]219.由于异常处理结构tryA)正确B)错误[判断题]220.如果只需要math模块中的sin()函数,建议使用frommathimportsin来导入,而不要使用importmath导入整个模块。A)正确B)错误[判断题]221.表达式{}==None的值为True。A)正确B)错误[判断题]222.表达式3<5>2的值为_1A)正确B)错误[判断题]223.Flume在多路传输数据过程中,如果下一跳的Flume节点故障或者数据接受异常时,可以自动切换到另外-路上继续传输。A)正确B)错误[判断题]224.在函数中yield语句的作用和return完全一样。A)正确B)错误[判断题]225.Hive中的元数据包括表的名字,表的列(字段名、数据类型)、分区及表的用户权限等。A)正确B)错误[判断题]226.集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。()A)正确B)错误[判断题]227.()ALTERTABLE语句可以修改表中各列的先后顺序。A)正确B)错误[判断题]228.不管输入什么,Python3A)正确B)错误[判断题]229.表达式'C:\\windows\\notepadA)正确B)错误[判断题]230.在没有大数据的条件下,人才的发现与选拔都很难做到?全信息?,大数据能够帮助人们解决这个问题。A)正确B)错误[判断题]231.Redis采用Master-Slave架构,由Master节点管理Slave工作。A)正确B)错误[判断题]232.家庭分户信息对于大数据自动授信审批没有任何意义A)正确B)错误[判断题]233.数据可视化可以便于人们对数据的理解。A)正确B)错误[判断题]234.谷歌翻译这所以更好,因为它拥有一个更好的算法机制,而不是因为增加了各种各样的数据A)正确B)错误[判断题]235.列表可以作为集合的元素。A)正确B)错误[判断题]236.Python字典中的?值?不允许重复。A)正确B)错误[判断题]237.KNN可以较好地避免样本的不平衡问题。()A)正确B)错误[判断题]238.商业银行的内部审计应当具有充分的独立性,实行全行系统的横向管理。A)正确B)错误[判断题]239.根据《信息安全技术个人信息安全规范》规定,如果产品或服务的提供者提供工具供个人信息主体使用,提供者不对个人信息进行访问的,则不属于本标准所称的收集行为A)正确B)错误[判断题]240.假设正则表达式模块re已导入,那么表达式reA)正确B)错误[判断题]241.定义函数时,带有默认值的参数必须出现在参数列表的最右端,任何一个带有默认值的参数右边不允许出现没有默认值的参数。A)正确B)错误[判断题]242.已知当前文件夹中有一个文件readmeA)正确B)错误[判断题]243.数学建模:是数学的一个分支,理论上是根据实际问题来建立数学模型,对数学模型来进行求解,然后根据结果去解决实际问题。()A)正确B)错误[判断题]244.当作为条件表达式时,[]与None等价。A)正确B)错误[判断题]245.HLL类型的存储长度是固定的。A)正确B)错误[判断题]246.Flume架构中,一个source可以连接多个Channel。A)正确B)错误[判断题]247.实时流处理对时延的要求不高。A)正确B)错误[判断题]248.Hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。()A)正确B)错误第4部分:问答题,共11题,请在空白处填写正确答案。[问答题]249.Hive创建桶表关键字(clusteredby),且Hive默认分桶数量是1。[问答题]250.当Map任务完成时,()接收到位置和大小的更新信息,并推送给Reduce任务。[问答题]251.在YARN的任务调度中,一旦ApplicationMaster申请到资源后,使与对应的ResourceManager通信,要求它启动任务A)TRUEB)FALSE[问答题]252.map任务将其输出写入到()[问答题]253.Hadoop集群启动成功后,通过端口()监控Yarn集群。[问答题]254.在Spark中,reduce算子属()算子。[问答题]255.(namenode)是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中(datanode)主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。二、[问答题]256.在Hadoop1.x版本中,MapReduce是由一个()和多个TaskTracker组成。[问答题]257.格式化HDFS系统的命令为()[问答题]258.()组件的作用就是对Map阶段的输出的重复数据先做一次合并计算,然后把新的(key,value)作为Reduce阶段的输入。[问答题]259.创建一个表示国际象棋棋盘的8*8数组,其中,棋盘白格用0填充,棋盘黑格用1填充。[单选题]260.下面关于大数据伦理的描述,错误的是:()A)大数据伦理属于科技伦理的范畴B)大数据伦理问題是指由于大数据技术的产生和使用而引发的社会问题C)一种新的技术,大数据技术像其他所有技术一样,其本身是无所谓好坏的,而它的D)?善?与?恶?全然在于对大数据技术的使用者E)大数据技术本身就存在?善?和?恶?的1.答案:C解析:a.MartinFowler【敏捷开发方法论-软件开发教父】b.KentBeck【极限编程,测试驱动开发,实现模式】c.Dougcutting√【Hadoop作者,道格·卡廷】2.答案:D解析:3.答案:C解析:4.答案:B解析:Action常用的函数为reduce、collect、count、take、first、foreach等。5.答案:B解析:6.答案:B解析:7.答案:D解析:8.答案:A解析:9.答案:A解析:10.答案:D解析:A、HTTP【超文本传输协议】B、SMTP【简单邮件传输协议】C、SSH【是建立在应用层和传输层基础上的安全协议】D、RPC【是客户端与服务端之间的通信接口,它定义了服务器端对外提供的服务接口】11.答案:B解析:12.答案:D解析:13.答案:B解析:14.答案:C解析:15.答案:D解析:16.答案:A解析:17.答案:D解析:18.答案:C解析:19.答案:D解析:20.答案:D解析:21.答案:C解析:关联规则挖据过程是发现满足最小支持度的所有项集代表,再利用代表生成需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好地完成描述数据、预测数据等任务。在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越好。22.答案:B解析:查看Python版本可以通过调用操作系统模块sys,语句print(sys.version)实现。23.答案:D解析:24.答案:B解析:25.答案:D解析:26.答案:C解析:27.答案:C解析:28.答案:D解析:29.答案:D解析:30.答案:B解析:31.答案:C解析:32.答案:C解析:33.答案:C解析:34.答案:B解析:35.答案:B解析:36.答案:B解析:37.答案:C解析:38.答案:C解析:39.答案:C解析:40.答案:D解析:Spark服务层主要提供面向特定类型的计算服务,如SQL查询、实时处理、机器学习以及图计算。41.答案:C解析:42.答案:A解析:43.答案:A解析:44.答案:A解析:45.答案:D解析:46.答案:D解析:47.答案:D解析:48.答案:A解析:49.答案:A解析:50.答案:D解析:51.答案:C解析:52.答案:D解析:53.答案:B解析:54.答案:B解析:55.答案:D解析:56.答案:A解析:57.答案:B解析:58.答案:B解析:59.答案:A解析:60.答案:D解析:SNN相似度通过共享最近邻的个数考虑了对象的环境,因此可以处理两个对象相对接近却不属于同一类的情况。61.答案:B解析:62.答案:A解析:plot是折线图,用于展现变量的趋势变化。63.答案:A解析:64.答案:D解析:65.答案:A解析:66.答案:C解析:67.答案:C解析:68.答案:B解析:69.答案:A解析:70.答案:C解析:71.答案:C解析:72.答案:A解析:73.答案:A解析:74.答案:D解析:75.答案:B解析:76.答案:D解析:77.答案:C解析:缺失值可以通过删除、填补等方法进行处理。78.答案:C解析:79.答案:C解析:80.答案:C解析:Hadoop中默认的Partitioner是HashPartitioner。81.答案:A解析:82.答案:C解析:83.答案:A解析:84.答案:C解析:85.答案:B解析:86.答案:C解析:A.它是NameNode的热备【SecondaryNameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。1、辅助NameNode,分担其工作量。2、定期合并fsimage和fsedits,并推送给NameNode。】B.它对内存没有要求【肯定对内存有要求】C.它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间c.【确实,起到辅助NameNode功能】D.SecondaryNameNode应与NameNode部署到一个节点【不能部署到一个节点,因为单节点内存大小有物理限制】87.答案:C解析:88.答案:D解析:89.答案:D解析:90.答案:C解析:91.答案:D解析:92.答案:A解析:93.答案:C解析:94.答案:A解析:95.答案:D解析:hstack()为数组水平拼接。96.答案:B解析:97.答案:A解析:98.答案:C解析:99.答案:A解析:100.答案:C解析:101.答案:C解析:102.答案:B解析:hadoop配置103.答案:B解析:ppf分位点函数是累积分布函数cdf的反函数104.答案:C解析:105.答案:D解析:106.答案:D解析:107.答案:D解析:108.答案:C解析:109.答案:D解析:110.答案:D解析:111.答案:C解析:112.答案:B解析:113.答案:C解析:114.答案:C解析:115.答案:D解析:116.答案:C解析:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论