版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷53)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.()算法可以用于特征选择A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:[单选题]2.Hive不适用于以下哪个场景A)非实时分析,例如日志分析,统计分析B)数据挖掘,例如用户行为分析,兴趣分析,区域展示C)数据汇总,例如每天,每用户点击数,点击排行D)实时在线数据分析答案:D解析:[单选题]3.下列的处理过程与Reduce处理过程相似的是()。A)ShuffleB)CombinerC)PartitionD)Map答案:C解析:[单选题]4.下面代码的输出结果是a=1000000b="-"print("{0:{2}^{1},}\n{0:{2}>{1},}\n{0:{2}A)1,000,0001,000,0001,000,000B)1,000,0001,000,0001,000,000C)1,000,0001,000,0001,000,000D)1,000,0001,000,0001,000,000答案:D解析:[单选题]5.Kafka日志数据文件默认保留的最长时间是多少小时?A)96B)48C)24D)168答案:D解析:[单选题]6.专家系统是一个复杂的智能软件,它处理的对象是用符号表示的知识,处理的过程是()的过程。A)思维B)思考C)推理D)递推答案:C解析:[单选题]7.哪种不是Flink提供的部署方式?A)ClusterB)CloudC)VMD)Local答案:C解析:[单选题]8.执行以下代码段cars=['bmw','audi','toyota','subaru']cars.sort()print(cars)时,输出为()。A)['audi','bmw','subaru','toyota']B)['toyota','subaru','bmw','audi']C)['bmw','audi','toyota','subaru']D)['bmw','toyota','audi','subaru']答案:A解析:[单选题]9.Hive中的内部表的数据的生命周期受()控制A)视图B)数据表C)数据集D)以上都不对答案:B解析:[单选题]10.下面程序的运行结果是()deffunc(a,b):a=a+breturnab=func(10,30)print(b)A)10B)20C)30D)40答案:D解析:[单选题]11.下面哪个RDD操作是窄依赖()A)joinB)filterC)groupByKeyD)sort答案:B解析:[单选题]12.图表中对已有字段信息进行重新分组的功能是?()A)新增分组字段B)新增计算字段C)筛选器D)条件样式答案:A解析:[单选题]13.下列函数中,用于返回元素中最小的值的是()A)lenB)maxC)minD)tuple答案:C解析:[单选题]14.如下哪个不是最近邻分类器的特点()。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边界答案:C解析:[单选题]15.下列模型中与文本分类相关的是()。A)决策树B)神经网络C)KNN算法D)以上都对答案:D解析:决策树、神经网络、KNN算法都属于统计学习方法,是文本分类领域的主流。[单选题]16.下面哪行代码最适合接受系统输入的一个整数?()A)num=input()B)num=input(?6?)C)num=int(input())D)num=float(input())答案:C解析:[单选题]17.用户可通过()提供的一些接口查看作业运行状态。A)TaskTrackB)TaskC)ClientD)JobTracker答案:C解析:[单选题]18.以下哪项不提供交互式查询服务?A)PrestoB)ImpalaC)EchartD)Kylin答案:C解析:[单选题]19.以下关于模块说法错误的是A)一个xx.py就是一个模块B)任何一个普通的xx.py文件可以作为模块导入C)模块文件的扩展名不一定是.pyD)运行时会从制定的目录搜索导入的模块,如果没有,会报错异常答案:C解析:[单选题]20.使用Maxcompute动态分区时,SELECT的分区列放在列表的()位置。A)中间B)开始C)任意位置D)结尾答案:D解析:[单选题]21.关于Streaming的拓扑(Topology),下面描述错误的是:()。A)一个Topology是由一组Spout组件和Bolt组件通过StreamGroupings进行连接的有向无环图(DAG)B)Topology会一直运行,直到它被显式killC)业务逻辑都被封装Topology中D)一个Topology只可以指定启动一个Worker进程答案:D解析:[单选题]22.IDF采用了IWF的几次平方?()A)一次B)二次C)三次D)四次答案:A解析:[单选题]23.将一副图像进行分割后,分割出的区域彼此之间()重叠A)可以B)不可以C)根据任务需要确定是否可以D)根据分割方法确定是否可以答案:B解析:[单选题]24.以下变量名中不是关键字的是()。A)messageB)nonlocalC)assertD)lambda答案:A解析:[单选题]25.以下acl授权里,()是对MaxCompute的表赋予select权限。A)grantreadontabletable_nametouser<full_name>B)grantselectontabletable_nametouser<full_name>C)grantreadonprojectproject_nametouser<fule_name>D)grantdesconprojectproject_nametouser<fule_name>答案:B解析:[单选题]26.()是指对于数据局部不良行为的非敏感性,它是探索性分杭且求的主要目标之一。A)鲁棒性B)稳定性C)可靠性D)耐抗性答案:D解析:[单选题]27.摩尔定律指出,当价格不变时,集成电路上可容纳的晶体管数目,约每隔()便会增加一倍,性能也将提升一倍。A)6个月B)18个月C)12个月D)24个月答案:B解析:[单选题]28.Python中对变量描述错误的选项是:A)Python不需要显式声明变量类型,在第一次变量赋值时由值决定变量的类型B)变量通过变量名访问C)变量必须在创建和赋值后使用D)变量PI与变量Pi被看作相同的变量答案:D解析:[单选题]29.对于数据3,3,2,3,6,3,10,3,6,3,2,得出以下结论:①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;@准组数据的平均数与众数的数值相等。其中正确结论的个数为()。A)lB)2C)3D)4答案:B解析:[单选题]30.大数据最大的来源是:A)互联网B)物联网C)信息门户D)历史档案答案:B解析:[单选题]31.HDFS以()访问模式来存储超大文件,运行于商用硬件集群上。A)数据B)字节C)流式数据D)数组答案:C解析:[单选题]32.将基础设施作为服务的云计算服务类型是()A)IaaSB)SaaSC)PaaSD)三个选项都是答案:A解析:[单选题]33.下列选项哪一个不属于HIVE的工作内容?A)表结构元数据管理B)HQL语句命令解析C)分布式文件底层数据管理D)数据结构以及函数的定义答案:C解析:[单选题]34.若a=np.array([5,1,2,3]),a.sort(),则数组a的结果是()。A)[5,1,2,3]B)[1,2,3,5]C)[3,2,1,5]D)11答案:B解析:sort()函数默认在原地按最后一个轴从小到大排序。290[单选题]35.以下哪个不属于长短时记忆网络的优点A)结构简洁B)解决了梯度消失的问题C)利于学习长距离依赖D)以上均不是答案:A解析:[单选题]36.下列哪一项不属于NoSQL的四大类型:()A)文档数据库B)图数据库C)列族数据库D)时间戳数据库答案:D解析:[单选题]37.以下代码会打印多少次?ILovePython??while'':print('ILovePython')print('ILovePython')A)0B)100C)程序错误不执行D)1答案:D解析:[单选题]38.有数组arr=Numpy.array([1,2,3,4]),执行arr.dtype后输出结果为()。A)int32B)int64C)float32D)float64280答案:A解析:从列表中创建数组时,Numpy会自动判断元素的类型从而确定数组的类型,此处都为整数,则类型确定为int32,如果将元素1改为1.0,则会确定为float64。[单选题]39.在HBase访问接口中,Pig主要用在哪个场合?A)适合HadoopMapReduce作业并行批处理HBase表数据B)适合HBase管理使用C)适合其他异构系统在线访问HBase表数据D)适合做数据统计答案:D解析:[单选题]40.以下内容符合物体识别任务的是()。A)不能对图像进行压缩或剪裁B)遵守误差最小准则和最佳近似准则C)可以不指定分类的类别数量D)事先给定样本的分布特征答案:B解析:[单选题]41.以下关于文件的描述错误的选项是:A)readlines()函数读入文件内容后返回一个列表,元素划分依据是文本文件中的换行符B)read()一次性读入文本文件的全部内容后,返回一个字符串C)readline()函数读入文本文件的一行,返回一个字符串D)二进制文件和文本文件都是可以用文本编辑器编辑的文件答案:D解析:[单选题]42.HBase的哪个进程负责处理用户的读写请求?A)HMasterB)RegionServerC)ThriftServerD)Region答案:B解析:[单选题]43.对arr=np.arange(9).reshape(3,3),反转二维数组arr的行进行的操作是()。A)arr[::-1]B)arr[::-2]C)arr[::1]D)arr[::0]答案:A解析:使用arr[::-1]进行反转,当只有一个参数代表索引行,若反转列应使用Arr[:,::-1]。[单选题]44.下列代码中输出结果是False的是()。A)>>>5isnot4B)>>>5!=4C)>>>False!=0D)>>>5is5答案:C解析:False在内置表达式中为0。[单选题]45.用户输入的数据直接拼接到SQL语句中会发生()问题。--A)XSS攻击B)CSRF攻击C)SQL注入D)以上答案全部正确答案:C解析:[单选题]46.专家系统的正向推理是以()作为出发点,按照一定的策略,应用知识库中的知识,推断出结论的过程。A)需要解决的问题B)已知事实C)证明结论D)表示目标的谓词或命题答案:B解析:[单选题]47.英文如何分词?()A)利用空格对句子分词B)利用逗号分词C)根据英文短语分词D)根据词性分词答案:A解析:[单选题]48.()选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则A)嵌入式B)过滤式C)包裹式D)一体式答案:C解析:[单选题]49.计算单个特征跟类别变量之间的关系的方法不包括()A)Pearson相关系数B)方差C)Gini-index(基尼指数)D)IG(信息增益)答案:B解析:[单选题]50.下列代码的作用是?Stringvertexld=getVertexldByProperty(api.graphName,"person","name","marko");api.queryVertex(vertexld,graphName);A)查询点B)查询属性C)查询边D)以上全不正确答案:B解析:[单选题]51.下列传统并行计算框架,说法错误的是哪一项?A)刀片服务器、高速网、SAN,价格贵,扩展性差上B)共享式(共享内存/共享存储),容错性好C)编程难度高D)实时、细粒度计算、计算密集型答案:B解析:[单选题]52.下面关于大数据安全问題,描述错误的是:()A)大数据的价值并不单纯地来源于它的用途,而更多地源自其二次利用B)对大数据的收集、处理、保存不当,会加剧数据信息泄露的风险C)大数据成为国家之冋博弈的新战场D)大数据对于国家安全没有产生影响答案:D解析:[单选题]53.内外部合作单位和供应商的数据安全管理过程中,应确保内部合作单位开发测试环境与互联网(),严禁外部合作单位、技术支持单位和供应商在对互联网提供服务的网络和信息系统中存储或运行公司商业秘密数据和重要数据。A)物理隔离B)逻辑隔离C)相互连接D)间接连接答案:A解析:[单选题]54.CART决策树使用?基尼指数?来选择划分属性时,使划分后基尼指数()的属性为最优划分属性。A)最大B)最小C)随机选择D)按序选择答案:B解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.存储网关的特点()A)直接提供超大硬盘存储空间B)提供有限缓存空间C)需要客户二次开发D)提供标准的iSCSI和NFS接口答案:ABCD解析:[多选题]56.云计算根据服务类型大致可以分为哪几类()?A)IaaSB)PaaSC)SaaSD)效用运算答案:ABC解析:[多选题]57.下面那些函数属于常用的激活函数。()A)SigmoidB)TanhC)MeanD)Relu答案:ABD解析:[多选题]58.在FusionInsight集群中,Spark主要与以下哪些组件进行交互?A)HDFSB)YARNC)HiveD)ZooKeeper答案:ABCD解析:[多选题]59.以下属于聚类算法的是()A)K均值B)DBSCANC)AprioriD)Jarvis-Patrick(JP)答案:ABD解析:[多选题]60.医疗领域如何利用大数据?()A)临床决策支持B)个性化医疗C)社保资金安全D)用户行为分析答案:ABCD解析:[多选题]61.()是Spark比MapReduce计算快的原因。A)基于内存的计算B)基于DAG的调度框架C)基于Lineage的容错机制D)基于分布式计算的框架答案:ABC解析:Spark比MapReduce计算快的原因包括基于内存计算、使用基于Lineage的容错机制和基于DAG的调度框架。[多选题]62.大数据人才整体上需要具备以下()等核心知识。A)特定业务领域的知识B)数学与统计知识C)马克思主义知识D)计算机相关知识答案:ABD解析:[多选题]63.数据资产生成管理过程中,业务部门梳理本专业数据资产生成方式,结合业务需要和技术条件,按照(),制定本专业数据自动采集需求,提交数据资产管理归口部门审核。A)数据自动采集范围B)数据采集频度C)数据精度要求D)采集时间答案:ABC解析:[多选题]64.大数据的顶层设计要坚持的理念是()A)数据是资源B)安全是保障C)应用是核心D)产业是目的答案:ABCD解析:[多选题]65.下列哪些属于TF-IDF的应用?A)搜索引擎B)关键词提取C)文本相似性D)数据降维答案:ABC解析:[多选题]66.数据产品?以数据为中心?的特征不仅体现在?以数据为核心生产要素?,而且还表现在以下哪些方面()。A)数据驱动B)数据密集型C)数据范式D)知识范式答案:ABC解析:[多选题]67.以下哪些选项属于FusionInsight数据安全性?A)操作系统安全加固B)组件数据加密C)数据完整性校验D)用户权限认证管理答案:BC解析:[多选题]68.下面对HBase的描述哪些是正确的?A)不是开源的B)是面向列的C)是分布式的D)是一种NoSQL数据库答案:BCD解析:A项HBase是一个分布式的、面向列的开源数据库[多选题]69.文档类型的数据文件一般有()A)CSVB)ExcelC)WeblogD)XML答案:ABCD解析:[多选题]70.Redis的AOF持久化中,写命令同步的时机有以下哪几项?A)appendfsyncnoneB)appendfsynceverysecC)appendfsyncnoD)appendfsyncalways答案:BCD解析:[多选题]71.Configuration类的addResource()方法提供了哪几种方式加载指定的配置信息()【选三项】A)String:加载指定文件名的配置文件,该文件须在Hadoop的classpath中B)Path:直接加载本地文件系统上以该参数为完整路径的配置文件C)HTTP:指定配置文件的Http路径并加载D)InputStream:从输入流中反序列化所得到的配置对象答案:ABD解析:[多选题]72.()是通过对元标记训练样本的学习来进行分类的A)密度估计B)异常检测C)线性回归D)聚类分析答案:ABD解析:[多选题]73.以下有关卸载CentOS-7中MySQL相关的依赖相关命令描述正确的有()【选两项】A)可以使用#rpm-qagrepmysql命令查看安装的MySQL依赖B)设置开机启动项的命令为#chkconfigmysqlonC)显示数据库的命令为showdatabase;D)可以使用#servicemysqlstart命令启动MySQL服务答案:BD解析:[多选题]74.下列关于函数的递归调用的描述正确的有()。A)必须有一个明确的结束条件B)每次进入更深一层递归时,问题规模相比上次递归都应有所减少C)递归调用效率不高,递归层次过多会导致栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧D)由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出答案:ABCD解析:关于函数的递归调用要求必须有一个明确的结束条件,每次进入更深一层递归时,问题规模相比上次递归都应有所减少,递归调用效率不高,递归层次过多会导致栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧,由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出。[多选题]75.主要面向或关注过去的数据分析过程有()。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:AB解析:Gartner分析学价值扶梯模型认为,从复杂度及价值高低两个维度,可以将数据分析分为描述性分析、诊断性分析、预测性分析和规范性分析四种,其中描述性分析和诊断性分析关注和面向的是过去的时间点。[多选题]76.基于内容的推荐生成推荐的过程主要依靠()A)内容分析器B)推荐系统C)文件学习器D)过滤部件答案:ACD解析:[多选题]77.主动勾选、主动点击()等行为属于?明示同意?A)同意B)注册C)发送D)拨打答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.不可以在同一台计算机上安装多个Python版本。A)正确B)错误答案:错解析:[判断题]79.对于N(N>1)副本储存的文件,HDFS客户端发起读取文件请求,如果所读副本节点故障,直接返回失败,不会转到其他副本节点进行读取。A)正确B)错误答案:对解析:[判断题]80.增加卷积核的尺寸,一定能提高卷积神经网络的性能A)正确B)错误答案:错解析:[判断题]81.在处理HiveSQL出现的数据倾斜问题时,可以尝试着设置参数hive.map.aggr为true,此时生成的查询计划会有两个MRJob,可实现数据何倾斜时负载均衡。A)正确B)错误答案:对解析:[判断题]82.MapTask进程的工作过程经历了输入阶段和Map阶段这2个部分。()A)正确B)错误答案:对解析:[判断题]83.Flink中无界流的数据都可以被排序,所以并不需要有序读取。A)正确B)错误答案:错解析:[判断题]84.UPDATE语句属于SQL的数据库定义语言。--A)正确B)错误答案:错解析:[判断题]85.Oracle数据库依据它自身的发布形态,既可以做OLAP也可以做OLTP.A)正确B)错误答案:对解析:[判断题]86.包含列表的元组可以作为字典的?键?。()A)正确B)错误答案:错解析:[判断题]87.文本多进多出是对文本类型的数据进行转换加工,处理的对象是一个文本字符串,处理完的输出结果也是一个文本字符串。A)正确B)错误答案:对解析:[判断题]88.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。以上说法()。A)正确B)错误C)无法确定D)模型效果差别不大答案:对解析:当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中班主任工作总结
- 四年级思品教育教学的工作总结
- 2026护理教学基本方法与技巧解读
- 解一元一次不等式(第1课时)课件2025-2026学年苏科版数学七年级下册
- 2026年医药卫生级反应釜行业分析报告及未来发展趋势报告
- 精准落位“核”力启航!华能海南昌江核电3号机组首次装料圆满收官
- 2026年伤口胶带行业分析报告及未来发展趋势报告
- 2026年互联网科技创新平台行业分析报告及未来发展趋势报告
- 2026年VOIPIP网络电话机行业分析报告及未来发展趋势报告
- 丁型肝炎临床管理总结2026
- 万达广场运营管理制度
- 老年共病个体化诊疗的指南更新策略
- 2025-2026学年天津市河北区九年级(上)期末英语试卷
- (2025)中国甲状腺疾病诊疗指南
- 2025年储能电站运维员实操技能真题及答案
- JJG3662004接地电阻表高清晰版
- 2025-2026学年广东省广州八十六中七年级(上)期中英语试卷
- 2025江苏南京市交通集团相关财务岗位公开招聘57人笔试历年常考点试题专练附带答案详解试卷2套
- 国企基层管理人员竞聘面试题6套和专业题120问及答案
- 雨课堂学堂云在线《解密3D打印(西北工大 )》单元测试考核答案
- 《防止电力建设工程施工安全事故三十项重点要求》宣贯与解读
评论
0/150
提交评论