2023年大数据智能办公系统知识考试历年真摘选题含答案_第1页
2023年大数据智能办公系统知识考试历年真摘选题含答案_第2页
2023年大数据智能办公系统知识考试历年真摘选题含答案_第3页
2023年大数据智能办公系统知识考试历年真摘选题含答案_第4页
2023年大数据智能办公系统知识考试历年真摘选题含答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年大数据智能办公系统知识考试历年真摘选题含答案(图片大小可自由调整)第1卷一.参考题库(共100题)1.用private关键字修饰,带有此标记的成员仅在包含了成员定义的类或对象内部可见,同样的规则还适用内部类2.以下单词不可当做变量名的是()A、varB、valC、forD、hello3.下面与HDFS类似的是()A、EXT3B、FAT32C、GFSD、NTFS4.函数必须有名字5.storm系统和spark?streaming系统最大的区别是哪个?(?)()A、科学统计支持B、是否具有schemaC、是否是真正的实时计算框架D、不同公司的产品6.channel起到一个什么作用()A、缓冲B、结构化C、收集D、发送7.以下哪个算子是懒执行的()A、mapB、foreachC、countD、reduce8.类默认是()级别的A、publicB、privateC、protectedD、以上都不是9.数组的下标从1开始10.下列spark算子中可以将数据持久化到硬盘上的算子是哪些()A、persistB、checkpointC、cacheD、map11.partition的哪些属性是在spark进行数据切分的时候决定的()A、partition大小B、partition个数C、partiton的所有者D、parrtition的一切12.spark架构中哪些架构可以相互转化()A、sparkcoreB、sparksqlC、sparkstreamingD、sparkR13.以下的计算结果选项中那个正确varlist=List(1,2,3,4,5)varjs=list.fold(100)(_+_)println(js)()A、115B、15C、5D、8514.Hive架构建立在Hadoop之上的,所有Hive中数据都是存储在HDFS中15.下列选项中,哪些是scala中到的关键字()A、AnyB、AnyIntC、AnyRefD、AnyVal16.mapreduce整个生命周期由以下哪几部分组成()A、map端B、reduce端C、shufferD、maps17.以下关于List的定义。正确的是?()A、vallist=List(4,7,3)B、vallist=List[Int](1,2,3)C、vallist=List[String](‘a’,’b’,’c’)D、vallist=List[Int]("a","b")18.以下选项属于rdd特性的是()A、冗余性B、一致性C、rdd之间具有依赖性D、每个rdd都会提供一批最优的计算位置19.for循环中的yield会把当前的元素记下来,保存在集合中20.继承会继承父类的所有属性和方法,Scala只允许继承一个父类21.以下哪些属于持久化算子?()A、cacheB、persistC、checkpointD、count22.hive是shark的前身,shark是sparkSql的前身23.flume中channel组件有什么作用()A、计算数据B、缓存数据C、输出数据D、清理数据24.spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理()数据集A、单机B、集中式C、分布式D、NOSQL25.在scala中属于匿名函数()A、=>B、=》C、26.spark是基于()运行的计算框架A、内存B、磁盘C、内存加磁盘D、网络27.关于scala中的类和它的伴生对象,以下说法不正确的是()A、类和它的伴生对象定义在同一个文件中B、类和它的伴生对象可以有不同的名称C、类和它的伴生对象的名称必须相同D、类和它的伴生对象可以互相访问私有特性28.spark中的实时计算系统是哪个()A、spark?coreB、spark?streamingC、mlbaseD、Grophx29.在Spark中以下算子属于执行算子的是()A、mapB、foreachC、flatmapD、join30.Spark也可以不依赖于第三方的资源管理和调度器,它实现了()作为其内置的资源管理和调度框架A、StandaloneB、YARNC、MesosD、redis31.spark的源码由下面选项中哪几种语言编写完成的()A、javaB、scalaC、goD、r32.在scala中所有类型都继承自Object33.使用大部分语言编写的程序都可以和kafka服务器通信34.flume在读取文本文件时,一行文本数据对应的是一个?()A、agentB、eventC、sourceD、float35.以下选项中可以在spark中编写sql的框架是()A、sparkcoreB、sparkstreamingC、mlbaseD、sparksql36.reverse会将所给的对象的顺序反转,请说出下列程序输出结果为valarr=Array(1,2,3,4,5)//带下标的for循环for(i<-(0to4).reverse)print(arr(i)+"")()A、54321B、43215C、32154D、1234537.Spark是在Scala语言中实现的,它将Scala用作其应用程序框架38.spark架构中会出现控制算子的原因是以下哪个选项()A、spark备份的安全原因B、spark用户的要求C、兼容hiveD、兼容hbase39.spark切分完的partition的个数必须与block一致40.和spark中执行算子相对应的那个()A、jobB、taskC、driverD、stage41.Rdd不能够转换成DataFrame42.spark本身能够读取到hdfs中的数据43.Scala中,如果没有指定任何的修饰符,则默认为public44.spark任务执行中的driver作用包括和worker建立相应连接45.distinct算子对源RDD进行去重后返回一个新的RDD46.在scala中对于以下2个列表的操作,那些说法说法正确vart=List(1,2,3)vart2=List(4,5)()A、vart3=t++t2得到List(1,2,3,4,5)B、vart3=List.concat(t,t2)得到List(1,2,3,4,5)C、vart3=t:::t2得到List(1,2,3,4,5)D、vart3=t.:::(t2)得到List(1,2,3,4,5)47.scala语言中集合说法正确的包括如下选项()A、List集合中数据可以重复B、Set集合中数据可以重复C、Map集合是键值对的形式存储的数据D、Set集合和List集合没有区别48.AnyVal是scala中基本类型的父类49.hadoop架构中的主要用InputFormats进行数据切分,哪一个是默认值()A、TextInputFormatB、KeyValueInputFormatC、SequenceFileInputFormatD、FileInputFormat50.下面那些对于lazy关键字说法正确的选项包括如下几个?()A、Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)B、惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量C、如果不使用lazy关键字对变量修饰,那么变量是立即实例化的D、变量加上lazy后,与没有加上lazy没有区别51.下面哪个组件与mesos是相类似的组件()A、yarnB、hdfsC、mapreduceD、以上都不对52.scala和java一样,变量都不可以懒加载53.Spark中,以下哪些是rdd的特性()A、partition大小B、partition个数C、partiton的所有者D、parrtition的一切54.worker组件在spark的任务调度中具有以下哪个作用()A、计算数据B、存储数据C、运送数据D、心跳检测55.spark的核心框架是()A、sparkcoreB、sparkstreamingC、mlbaseD、Grophx56.var?factor?=?3???val?multiplier?=?(i:Int)?=>?i?()?factor??这里我们引入一个自由变量?factor,这个变量定义在函数外面,这就是闭包57.下面那个说法正确对于flume必须运行在哪个jdk之上()A、jdk1.6B、jdk1.7C、jdk1.8D、jdk1058.DataFrames配合JDBC,它还可以读取外部关系型数据库系统59.spark架构中的任务调度中的driver具有以下哪些作用()A、action算子B、转换算子C、控制算子D、触发算子60.do-while语句中循环体代码至少会执行一次61.下列数组定义与其他一致的是?()A、vala=Array[Int](0,0)B、vala=Array(0,0)C、vala=newArray[Int](2)D、vala=Array[Int](1,1)62.valsite:List[String]=List("Runoob","Google","Baidu")println(site.head+site.tail)可以知道head返回列表第一个元素,tail返回除第一个元素外的所有元素63.以下哪个组件和Tachyon是类似的组件()A、hdfsB、yarnC、sparkD、mapreduce64.union算子对源RDD和参数RDD求并集后返回一个新的RDD65.以下算子中可以遍历List的是()A、foreachB、countC、mapD、flatmap66.flume中的三大组件为source、channel、sinks67.Linux操作系统的特性有:开放性、多用户、多任务、良好的用户界面等68.hdfs与tachyon的主要区别是()A、存储的位置不同B、可序列化C、可修改D、可持久化69.创建rdd可以有如下几种?()A、由外部存储系统的数据集创建,包括本地的文件系统B、由一个已经存在的Scala集合创建C、比如所有Hadoop支持的数据集,比如HDFS、Cassandra、HbaseD、以上说法都不对70.对于以下列表的操作,那些说法说法正确varc=List(1,2,3,4,5,99,101)vargs=c.count(_>3)()A、变量gs的结果为4B、count表示按照括号内的函数进行计算,本题表示在列表中元素大于3的个数计算C、count表示按照括号内的函数进行求和计算,本题表示在列表中元素大于3的个数求合计,其结果为299D、以上答案都不对71.在scala语言中对于方法的定义以下说法正确的是()A、sorted将会把数组按升序进行重新排序B、sorted将会把数组按降序进行重新排序C、sortWith(_>_)表示降序排序D、sortWith(_<_)表示升序排序72.以下哪些是rdd的特性()A、cache算子是persist算子的一个子集B、persist算子是cache算子的一个子集C、persist算子包含cache算子D、cache算子包含persist算子73.以下选项属于spark的运行模式的是()A、本地(local模式)B、stanalone模式C、yarn模式D、mesos模式74.下面有关类中变量说法正确的是()A、varage=18字段必须得初始化B、varage=20底层编译器会自动为私有的age添加get和set的公有方法,可以理解为伪public类型C、像以下变量定义private[this]vargender="male"表明private[this]只有该类的this可以使用D、valheight=170变量只有get方法,在初始化后不能变更75.hadoop中的mapreduce是基于什么运行的计算框架()A、内存B、磁盘C、内存加磁盘D、网络76.在日志收集系统flume中最小的运行单元是?()A、agentB、eventC、sourceD、channel77.flume在配置文件中操作有如下几个()A、配置sourceB、配置sinkC、配置channelD、将source、channel、sink连接起来78.sparkSql可以读取json格式的数据79.flume是什么()A、消息中间件B、日志收集系统C、缓冲组件D、以上都不对80.SortedMap为Map的子类,其中有排序的特点81.下面对于spark的特点描述正确的是()A、良好的容错性:在分布式数据集计算时通过checkpoint来实现容错,当某个运算环节失败时,不需要从头开始重新计算B、开发便捷性:spark通过scala,java,pythonapi及交互式shell提供丰富的使用方式C、不适合细粒度更新操作:Spark的运算是面向集合的,不适用于需要异步细粒度更新状态的应用,例如web服务的DAO层或web爬虫等D、以上答案都不符合其特性82.函数不能作为其他函数的参数83.DataFrames可以像sql一样注册成一个临时表,然后写关系型sql与君一样通过sql的语言进行分析,其中采用那个方法去注册临时表?()A、registerTempTableB、registerTableC、createTempTableD、addTempTable84.Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等85.在linux中命令查看文件的内容,然后显示在屏幕上的命令是()A、catB、lsC、llD、wq86.spark程序无法连接和访问mysql中的数据87.对于以下代码描述有误的是?valdata=Map(1->"One",2->"Two")valres=for((k,v)1))yieldv()A、运行后res的结果为List("Two")。B、运行后res的结果为List("One","Two")。C、对映射data中的每一个(键,值)对,k被绑定对键,而v则被绑定到值。D、其中的if(k>1)是一个守卫表达式。88.spark任务调度中driver具有哪些作用()A、javaB、scalaC、goD、r89.在scala中关于高阶函数描述错误的是:()A、在程序中应该首先被定义的函数B、将函数作为参数其他函数的参数使用C、执行时间长的函数D、函数的方法体比较长90.Hadoop之父DougCutting曾曰Spark迟早会把mapreduce给取代,意味着hadoop已经走向没落,会被取代逐渐淘汰91.Kafka是由哪个组织研的组件()A、googleB、apacheC、sunD、oracle92.sparkAPI支持哪种语言()A、masterB、workerC、applicationD、driver93.以下关于Scala中函数的描述错误的是?()A、函数是“头等公民”,就和数字一样。B、可以将函数赋值给变量,如valfun=scala.math.ceil。C、支持非具名函数,也即匿名函数。D、可以将函数作为参数,传递给其它函数。94.spark架构中persist算子属于以下哪种特性的算子()A、延迟执行B、立即执行C、等待执行D、陈列执行95.spark的源码是由哪几种语言编写完成的()A、acheSpark是一种快速、通用、可扩展的大数据分析引擎B、spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集C、spark强调一站式解决方案,集批处理、实时流处理、交互式查询与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费D、spark可以将数据分析过程的中间输出保存在内存中,从而不需要从外部持久化存储中反复读写数据,相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景96.kafka主要组成部分是source、sink和channel97.有关插值器说法如下不正确的是()A、print方法中的s,f代表插入器下面的操作为字符串链接操作B、$符具有在String中直接拼接字符串和数字等类型C、以下代码输出为Ilovebawayvartemp="baway"println(f"Ilove$temp%s")D、插值器f表示是Float的输出98.下列不属于scala数据类型的是()A、initB、IntC、IntegerD、String99.groupByKey算子在一个(K,V)的RDD上调用,返回一个(K,Iterator[V])的RDD100.spark中的弹性分布式数据集相当于java中的()概念A、类B、接口C、方法D、内部类第1卷参考答案一.参考题库1.正确答案:正确2.正确答案:A,B,C3.正确答案:C4.正确答案:错误5.正确答案:C6.正确答案:A7.正确答案:A8.正确答案:A9.正确答案:错误10.正确答案:A,B11.正确答案:A,B12.正确答案:A,B,C13.正确答案:A14.正确答案:正确15.正确答案:A,C,D16.正确答案:A,B17.正确答案:A,B18.正确答案:C,D19.正确答案:正确20.正确答案:正确21.正确答案:A,B,C22.正确答案:正确23.正确答案:B24.正确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论