




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷37)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.数据管理成熟度模型--DMM将一个机构的数据管理工作抽象成6个关键过程域,即数据战略、()、数据质量、平台与架构、数据操作以及辅助性过程。A)数据管理B)数据治理C)数据策略D)数据安全答案:B解析:DMM模型将一个机构的数据管理工作抽象成6个关键过程域,即数据战略、数据治理、数据质量、平台与架构、数据操作以及辅助性过程。[单选题]2.StructuredStreaming不支持以下哪种计算时间?A)处理时间B)事件时间C)结束时间D)注入时间答案:C解析:[单选题]3.下列关于模块的说法不正确的是()。A)Python模块(Module)是一个Python文件,以.py结尾,包含了Python对象定义和Python语句B)使用模块能够有逻辑地组织Python代码段C)把相关的代码分配到一个模块里能让代码更好用、更易懂D)模块不能定义类答案:D解析:模块中可以定义类。[单选题]4.关于Hive建表基本操作描述正确的是?A)创建外部表时需要指定external关键字B)一旦表创建好,不可再修改表名C)一旦表创建好,不可再修改列名D)一旦表创建好,不可再增加新列答案:A解析:[单选题]5.大数据的4V特征中的Variety是指()。A)价值密度低B)处理速度快C)数据类型繁多D)数据体量巨大答案:C解析:[单选题]6.numpy中计算矩阵的协方差矩阵使用什么函数?A)np.mean()B)np.std()C)np.cov()D)np.var()答案:C解析:[单选题]7.下列关于函数的说法中,描述错误的是()。A)函数可以减少重复的代码,使得程序更加模块化B)不同的函数中可以使用相同名字的变量C)调用函数时,实参的传递顺序与形参的顺序可以不同D)匿名函数与使用关键字def定义的函数没有区别答案:C解析:[单选题]8.在Maxcompute表T中添加一个新的列col,类型为bigint,最简单易行的办法是:()。A)将表T删掉重建B)altertabletaddcolumns(cbigint)C)新建一张表,将原有数据插入D)altertableaddcbigint答案:B解析:[单选题]9.下面有关NameNode和secondaryNameNode通信协议说法错误的是()A)secondaryNameNode使用NamenodeProtocol协议与NameNode进行通信B)如果文件系统处于安全模式,那么关闭当前日志并打开新的日志操作会失败C)如果旧的编辑日志丢失了,那么滚动fsImage日志会失败D)secondaryNameNode可以从NameNode中得到任何datanode的块及其位置答案:D解析:SecondaryNameNode不同于NameNode,它不接受或者记录任何实时的数据变化,但是,它会与NameNode进行通信,以便定期地保存HDFS元数据的快照[单选题]10.下列方法中,不可以使用类名访问的是()。A)实例方法B)类方法C)静态方法D)以上3项都不符合答案:A解析:[单选题]11.数据中台建设工作中,以需求为导向,基于(),有针对性地按需开展数据接入与整合,逐步实现主数据共建共享,提升数据价值挖掘支撑能力。A)统一数据模型B)电网资源模型C)数据服务能力D)统一价值模型答案:A解析:[单选题]12.个人贷款风险评价应以分析借款人()为基础,采取定量和定性分析方法,利用大数据技术,全面、动态地进行贷款审查和风险评估。A)学历B)现金收入C)固定资产D)抵(质)押物答案:B解析:[单选题]13.下面代码运行后,a、b、c、d四个变量的值,描述错误的是()。importcopya=[1,2,3,4,['a','b']]b=ac=copy.copy(a)d=copy.deepcopy(a)a.append(5)a[4].append('c')A)a==[1,2,3,4,['a','b','c'],5]B)b==[1,2,3,4,['a','b','c'],5]C)c==[1,2,3,4,['a','b','c']]D)d==[1,2,3,4,['a','b',?c?]]答案:D解析:[单选题]14.商业秘密数据脱离本单位(含网络、信息系统及各种介质)环境须经()业务主管部门和保密部门审批。A)公司部门级及以上单位B)市级及以上单位C)省级及以上单位D)国家级单位答案:C解析:[单选题]15.在Numpy中,数组拼接的函数不包括()。A)append()B)insert()C)vstack()D)where()答案:D解析:append()函数可向数组横纵坐标添加数组,insert()函数可向一维数组后添加数据,vstack()函数可以进行数组拼接,where()函数是对数据进行条件筛选。[单选题]16.DataX是阿里集团发起的开源项目,是一种离线数据同步的工具,支持多种异构数据源之间的高效数据同步。使用DataX将存储在对象存储OSS中的数据同步至阿里云端大数据计算服务(MaxCompute,原ODPS)时,以()为粒度进行切分实现并发处理。A)没有任何切分B)OSS的objectC)OSS的endpointD)OSS的Bucket答案:B解析:[单选题]17.将字符串分隔使用什么函数()A)splitB)stripC)encodeD)print答案:A解析:[单选题]18.下面关于云计算数据中心的描述正确的是:A)数据中心是云计算的重要载体,为各种平台和应用提供运行支撑环境B)数据中心就是放在企业内部的一台中心服务器C)每个企业都需要建设一个云计算数据中心D)数据中心不需要网络带宽的支撑答案:A解析:[单选题]19.下面关于类和对象的说法中,错误的是()。A)调用函数会执行函数体代码,返回的是函数体执行的结果B)类有两大用途:对属性的操作、实例化对象C)类有三种属性:数据属性、函数属性、方法属性D)调用类会产生对象,返回的是对象答案:C解析:[单选题]20.以下关于MaxCompute授权的说法,正确的是:()。A)当项目空间的owner授权给一个用户时,MaxCompute会先检验该用户是否实际存在,如果不存在,则无法授权B)当一个用户被项目空间owner从项目中移除时,所有的授权信息都将被清除,该用户无法再访问当前项目空间中的任何对象C)当项目空间的Owner决定对另一个用户授权时,需要先将该用户添加到自己的项目空间中来。只有添加到项目空间中的用户才能够被授权D)MaxCompute中的角色是一组访问权限的组合。项目创建成功后,自动生成两个角色owner和admin,可以通过命令listroles看到答案:C解析:[单选题]21.以下关于NoSQL数据库描述错误的是:()A)NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称B)NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型C)NoSQL数据库有固定的表结构,通常存在较多连接操作D)与关系数据库相比,NoSQL具有灵活的水平可扩展性.可以支持海量数据存储答案:C解析:[单选题]22.通常,()主要指的是关系数据库中存储、计算和管理的数据。A)结构化数据B)海量数据C)半结构化数据D)非结构化数据答案:A解析:[单选题]23.结构化程序设计中,下面对goto语句使用描述正确的是___________。A)禁止使用goto语句B)应避免滥用goto语句C)goto语句最好用,不容易造成结构体程序混乱D)使用goto语句程序效率高答案:B解析:[单选题]24.商品的()用于在搜索和浏览列表时更准确的找到该商品。--A)关键词B)描述C)提示D)详情答案:A解析:[单选题]25.()是目前数据库系统中最常用的一种数据模型A)关系模型B)层次模型C)网状模型D)面向对象模型答案:A解析:[单选题]26.下列不属于数据科学开源工具的是()。A)MapReduceB)ERPC)HadoopD)Spark答案:B解析:ERP系统是企业资源计划(EnterpriseResourcePlanning)的简称,是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手段的管理平台。[单选题]27.HDFS是Hadoop平台上的分布式文件系统,那么它是由()构成的。A)由一个NameNode和多个DataNode组成B)由一个DataNode和多个NameNode组成C)由多个NameNode和多个DataNode组成D)由一个NameNode和一个DataNode组成答案:A解析:HDFS由一个NameNode、一个SecondaryNameNode和多个DataNode组成。[单选题]28.在面积图中,面积是指()A)坐标系中不同的点围成的最大图形面积B)坐标系中不同的点所连成的折现投影于纵轴的面积C)坐标系中不同的点所连成的折现投影于横轴的面积D)坐标系中不同的点围成的最小图形面积答案:C解析:[单选题]29.互联网思维核心()A)用户思维B)迭代思维C)流量思维D)平台思维答案:A解析:[单选题]30.Redis中List列表是什么数据结构实现的?A)双向链表B)平衡二叉树C)红黑树D)循环链表答案:A解析:[单选题]31.下列哪一项不属于HDFS采用抽象的块概念带来的好处?A)简化系统设计B)支持大规模文件存储C)强大的跨平台兼容性D)适合数据备份答案:C解析:[单选题]32.聚类算法已经默认所有的记录都是()的实体A)相关联B)有备份C)不独立D)独立答案:C解析:[单选题]33.以下哪项属于Flume的基本数据单位?A)ObjectB)SubjectC)TopicD)Event答案:D解析:[单选题]34.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A)活性B)惰性C)实时D)非实时答案:B解析:Spark的所有Transformation操作采取的都是"情性计算模式"。[单选题]35.基于大数据的谷歌广告体现的大数据思维方式是()A)全样而非抽样B)效率而非精确C)相关而非因果D)以数据为中心答案:D解析:[单选题]36.()试图学得一个属性的线性组合来进行预测的函数A)决策树B)贝叶斯分类器C)神经网络D)线性模型答案:D解析:[单选题]37.当闵可夫斯基距离公式中的系数p值为2时,可得到(__)的公式。A)欧氏距离B)曼哈顿距离C)街区距离D)切比雪夫距离答案:A解析:[单选题]38.卷积神经网络中池化层的作用是()。A)寻找图像中的细节特征B)输入图片C)减少下一层的计算,防止过拟合D)输出图片答案:C解析:[单选题]39.以下是字符转换成字节的方法是A)decode()B)encode()C)upper()D)rstrip()答案:B解析:[单选题]40.在连接互联网的计算机上()处理、存储涉及国家秘密和企业秘密信息。A)可以B)只要网络环境是安全的,就可以C)不确定D)严禁答案:D解析:[单选题]41.x=123.4567,语句print("{:5.3e}".format(x))的输出结果是()。A)123.457B)1.235e+02C)1.24e+02D)1.23e+02答案:B解析:[单选题]42.从事前风险管理角度看,大数据背景下的贷款损失准备金是与(),相对应的一个概念。A)非预期损失B)预期损失C)特定损失D)不确定答案:B解析:[单选题]43.若要对图片进行检索,-般选择什么工具较好?A)MysQLB)HDFSC)ElasticSearchD)Hive答案:C解析:[单选题]44.对ElasticSearch检索流程描述正确的是()。A)分片节点汇总结果发送给客户端B)检索节点汇总结果发送给客户端C)检索节点不需要汇总结果直接把结果发送给客户端D)分片节点不需要汇总结果直接把结果发送给客户端答案:B解析:[单选题]45.以下选项中Python用于异常处理结构中用来捕获特定类型的异常的保留字是A)exceptB)doC)passD)while答案:A解析:[单选题]46.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。A)数据仓库B)关系云C)数据库系统D)文件系统答案:B解析:关系云是在云计算环境中部署和虚拟化的关系数据库,进而使传统关系数据库具备云计算的弹性计算、虚拟化、按需服务和高经济性等特征。关系云代表了数据管理的一个重要发展方向。[单选题]47.删除用户账号命令是()A)DROPUSERB)DROPTABLEUSERC)DELETEUSERD)DELETEFROMUSER答案:A解析:[单选题]48.(__)是将低层次数据转换为高层次数据的过程。A)数据化B)数据整理C)数据加工D)数据整齐化答案:C解析:[单选题]49.以下变量名中正确的是()。A)globalB)passC)exceptD)letter答案:D解析:[单选题]50.()一般采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。A)推断统计B)预测分析C)描述统计D)诊断分析答案:C解析:[单选题]51.执行以下代码段i=0whilei<3:print(i,end='')i+=1else:print(0)时,输出为()。A)01230B)0120C)012D)Error答案:B解析:[单选题]52.点击率的预测是一个数据比例不平衡问题(如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是()。A)模型的准确率非常高,我们不需要进一步探索B)模型不好,我们应建一个更好的模型C)无法评价模型D)以上答案都不正确答案:C解析:对于失衡数据,模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据,为更好地评估模型效果,可以用灵敏度、特异度、F-measure来判断。[单选题]53.(__)是指对已有数据在尽量少的先验假设条件下进行探索,并通过作图,制表等手段探索数据结构和规律的一种方法。A)统计分析B)验证性分析C)数据洞见D)探索性数据分析答案:D解析:[单选题]54.在一个线性回归问题中,我们使用R平方(R-Squared)来判断拟合度。此时、如果增加一个特征,模型不变,则下面说法正确的是()。A)如果R-Squared增加,则这个特征有意义B)如果R-Squared减小,则这个特征没有意义C)仅看R-Squared单一变量,无法确定这个特征是否有意义D)以上说法都不对答案:C解析:单独看R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征,R-Squared可能变大也可能保持不变,两者不一定呈正相关。第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.为大数据提供基础设施服务,有(__)和数据计算、数据管理与监控、集群服务、众包等。A)数据存储B)数据加工C)数据治理D)app开发答案:ABCD解析:[多选题]56.许多功能更为强大的非线性模型可在线性模型基础上通过引入()而得。A)层级结构B)高维映射C)降维D)分类答案:AB解析:[多选题]57.定量变量就是通常所说的连续量,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,以下属于定量变量的有()A)性别B)长度C)产量D)职业答案:BC解析:[多选题]58.关于继承,以下陈述错误的是()。A)一个类的受保护成员可以被继承B)继承类称为子类C)一个类的私有成员可以被继承和访问D)继承是OOP的功能之一答案:ABD解析:[多选题]59.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢?A)使用sigmod函数容易出现梯度消失B)sigmod的导数形式较为复杂C)双曲正切更简单D)sigmoid函数实现较为复杂答案:AB解析:[多选题]60.GraphBase能够处理海量数据的原因是什么?A)图机制特性B)基于HBase的分布式存储机制C)基于Elasticsearch的索引机制D)基于Spark的分布式内存计算技术答案:BCD解析:[多选题]61.Zookeeper是一个很好的集群管理工具,被大量用于分布式计算,它主要提供什么服务?A)配置维护B)域名服务C)分布式同步D)负载均衡服务答案:ABC解析:[多选题]62.在Hive架构中支持对数据的操作有()。A)插入B)查询C)删除D)分析答案:BD解析:[多选题]63.以下哪两个场景最适合使用ZooKeeper?A)配置推送B)主备选举C)热点访问D)流式计算答案:AB解析:[多选题]64.Maxcomputetask类型包括:()。A)jointaskB)maptaskC)localworkD)reducetask答案:ABD解析:[多选题]65.Hive的优点包括()A)内置丰富的通用操作算子和计算函数B)使用类SQL描述的数据处理流程C)数据操作灵活D)提供实时的在线查询和记录级的更新答案:AB解析:[多选题]66.下列关于非频繁模式的说法正确的有()。A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感答案:AD解析:非频繁模式是一个项集或规则,其支持度小于阈值。绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及数据中的负相关时。非频繁模式对异常数据项敏感。[多选题]67.关于Maxcompute中的admin角色,以下()说法是正确的。A)包含的权限只有owner可以调整B)可以修改项目空间的鉴权模型C)不能将admin权限指派给用户D)不能设定项目空间的安全配置答案:CD解析:[多选题]68.NoSQL数据库优势主要体现在()。A)易于数据分散存储与处理B)频繁操作代价低C)适用于模型不断变化场景D)具备关系型数据库功能答案:ABCD解析:[多选题]69.Spark的特点主要包括:()A)运行速度快B)容易使用C)通用性D)运行模式单一答案:ABC解析:[多选题]70.如何培养适应泛在电力物联网建设和发展需要的人才队伍A)优化新兴业务和产业公司管理模式B)优化市场化用工策略C)加大人才引进力度D)建立激励措施答案:ABCD解析:[多选题]71.一个交叉验证将数据集分成两个互补的子集,分别是(__)和(__)。A)训练集B)测试集C)子集D)补集答案:AB解析:[多选题]72.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有()。A)MapReduceB)SparkC)HDFSD)HBase答案:CD解析:[多选题]73.建设泛在电力物联网的原因包括():A)公司深入贯彻落实习近平新时代中国特色社会主义思想的政治担当B)公司深入贯彻落实中央领导同志最新要求的实际行动C)公司加快新旧动能转换、突破发展瓶颈的主动抉择D)公司新一届领导班子坚持守正创新、坚定不移做强做优做大公司的战略选择答案:ABCD解析:[多选题]74.以下关于FusionInsight中CarbonData说法正确的有?A)使用Carbon的目的是对大数据即席查询提供超快速响应。B)Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%-80%数据存储空间,大大节省硬件存储成本。C)Carbon是一种新型的ApacheHadoop本地文件格式,使用先进的列式存储.索引.压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更换的交互查询D)Carbon也是一种将数据源与Spark集成的高性能分析引擎。答案:ABCD解析:[多选题]75.对HBaseBloomFilter描述不正确的是?A)用于优化随机写的场景B)用于优化Scan场景C)误判率由哈希函数个数k位数组大小m数据量n共同确定D)判断结果一定正确答案:ABD解析:[多选题]76.Feigenbaum等人在著名的《人工智能手册》中将机器学习划分为机械学习和(_)四种。A)深度学习B)示教学习C)类比学习D)归纳学习答案:BCD解析:[多选题]77.循环神经网络的输出模式包含()A)多输出B)单输出C)同步多输出D)异步多输出答案:ABD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.创建ElasticSearch索引前,要先判断索引是否存在。A)正确B)错误答案:对解析:[判断题]79.表达式(i**2foriinrange(100))的结果是个元组。A)正确B)错误答案:错解析:[判断题]80.已知列表x中包含超过5个以上的元素,那么语句x=x[:5]+x[5:]的作用是将列表x中的元素循环左移5位。A)正确B)错误答案:错解析:[判断题]81.本实验的网站日志数据需要存放到HDFS。A)正确B)错误答案:对解析:[判断题]82.大数据时代的数据分析方法要注重提高算法的精确性,其次才是提高算法效率。A)正确B)错误答案:错解析:[判断题]83.MySQL的默认字符集latin1是单字节编码的字符集。--A)正确B)错误答案:对解析:[判断题]84.定义类时实现了__pow__()方法,该类对象即可支持运算符**A)正确B)错误答案:对解析:[判断题]85.ElastioSearch倒排索引是通过关键词查询对应的文档编号,再通过文档编号找文档。A)正确B)错误答案:对解析:[判断题]86.Hadoop的MapReduce与Spark都可以进行数据计算,而相比于MapReduce,Spark的速度更快并且提供的功能更加丰富。A)正确B)错误答案:对解析:[判断题]87
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 休闲农业与乡村旅游融合发展2025年乡村旅游与旅游产业市场拓展分析报告
- 城市轨道交通智慧运维系统建设2025:智能化检修与设备管理研究报告
- 工程法规常见考点试题及答案分析
- 公司经营合伙协议书
- 工程法规法律条款理解试题及答案
- 合作办学合同协议书
- 加沙立即停战协议书
- 土地安置转让协议书
- 单位厨房外包协议书
- 劳务受伤赔偿协议书
- 无人机系统数据链
- 食堂阿姨培训课件
- 对口升学课件
- 基于蓝牙的无线温湿度监测系统的设计与制作
- 某EPC项目技术标投标文件
- 中医诊所医疗废弃物处理方案
- 诊所安全消防履职清单范本
- 模具维护保养记录表
- 260吨汽车吊地基承载力验算
- 湖北省武汉市汉阳区2023~2023学年第二学期四年级英语期末调研测试试题(PDF版含答案及听力原文无音频)
- 高中语文第4单元家乡文化生活4.3参与家乡文化建设课时作业部编版必修上册
评论
0/150
提交评论