2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案_第1页
2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案_第2页
2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案_第3页
2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案_第4页
2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“人人文库”水印下载源文件后可一键去除,请放心下载!(图片大小可任意调节)2024年知识竞赛-大数据智能办公系统知识笔试参考题库含答案“人人文库”水印下载源文件后可一键去除,请放心下载!第1卷一.参考题库(共75题)1.spark于以下哪年年诞生于AMPLab()A、2009B、2010C、2018D、20122.一个或多个()组成了spark程序A、jobB、driverC、ageD、worker3.spark架构中的persist算子在源码中最多有()备份A、2B、3C、4D、14.用scala求10以内的偶数下面那些写法正确()A、for(i5.sparkSql不支持查询原生的RDD6.List集合中的数值是有次序的7.spark框架中,整合机器学习库,并对外提供接口的框架是()A、sparkcoreB、sparkstreamingC、mlbaseD、sparksql8.在scala中定义一个List,以下语法正确的是()A、vallist=List(4,7,3)B、vallist=List[Int](1,2,3)C、vallist=List[String](‘a’,’b’,’c’)D、vallist=List[Int]("a","b")9.以下关于scala语言中的函数的说法中,其中正确的是()A、一等公民B、可以独立定义C、不能独立定义D、函数不能赋值给变量10.scala中,类和它的伴生对象说法错误的是()A、类和它的伴生对象定义在同一个文件中B、类和它的伴生对象可以有不同的名称C、类和它的伴生对象的名称必须相同D、类和它的伴生对象可以互相访问私有特性11.以下哪些属于数值类型?()A、IntB、StringC、FloatD、Long12.SparkStreaming结果也能保存在很多地方比如如下那些选项?()A、HDFSB、数据库C、DashboardsD、zookeeper13.通过如下程序块可以知道其输出结果为varlist=List(1,2,99,4,100)varjs=list.reduceRight(_min_)println(js)()A、100B、1C、206D、以上答案都不对14.在scala中,对保护(Protected)成员的访问比java更严格一些。因为它只允许保护成员在定义了该成员的的类的子类中被访问15.在scala中的所有基础类型中只有String是继承自AnyRef16.spark中出现控制算子的原因()A、spark备份的安全原因B、spark用户的要求C、兼容hiveD、兼容hbase17.在scala中定义方法的是使用哪个关键字()A、defB、classC、objectD、abstract18.spark中的rdd相当于java中的()概念A、类B、接口C、方法D、内部类19.sparkSql可以读取json格式的数据20.sortByKey算子在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD21.spark框架中,机器学习库的框架是哪个()A、hadoopB、spark?streamingC、mlbaseD、RDD22.spark架构中的控制算子算子作用()A、使程序在内存中运行B、使程序触发执行C、使程序具有一致性D、数据持久化23.Scala程序设计通配符为如下那个()A、_B、J5a24.下列语句中能够输出1-30之内所有奇数的是()A、vari=1;while(i25.scala中所有类的父类是下列哪个选项()A、AnyB、AnyIntC、AnyRefD、AnyVal26.关于for循环中的to和until说法正确的是()A、to关键字表示变量可以取到两边的数值B、to关键字表示变量只能取到左边数值,取不到右边数值C、until关键字表示变量只能取到左边数值,取不到右边数值D、until关键字表示变量可以取到两边的数值27.spark中,可以运行sql脚本的框架是哪个()A、spark?coreB、hdfsC、hadoopD、spark?sql28.以下选项中正确的是varlbiao=List(1,2,3,4,5)varjs=lbiao.foldRight(100)(_-_);println(js)()A、foldRight第一个参数为种子的初始值,计算过程会从右往左拿第一个数减去种子数得到的数据,拿第二个数再减去刚才的合计值,依次类推B、foldRight与fold没有区别C、foldRight表示数据从右往左进行迭代按括号内的逻辑进行操作D、fold表示数据从左往右进行迭代按括号内的逻辑进行操作,与foldRight是一个相反的过程29.以下关于sparkstreaming说法正确的是()A、sparkstreaming分布式微批架构B、sparkstreaming实时存储架构C、sparkstreaming是普通存储架构D、sparkstreaming分布式实时计算架构30.varlist=List(1,2,3,4,5)varjs=list.foldRight(100)(_-_)println(js)()A、15B、115C、-97D、8531.高阶函数不能自动推断参数类型32.以下选项组合后能够执行spark程序的是,换句话说spark程序计算结果必须包含哪几个算子?()A、转换算子,action算子B、转换算子,控制算子C、转换算子,tracform算子D、转换算子33.join算子在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD34.zookeeper临时节点和持久化节点的区别()A、临时节点不能存储数据,持久化节点可以存储数据B、临时节点能存储数据,持久化节点可以存储数据C、临时节点的数据在会话结束后会自动删除,而持久化节点数据不会自动删除D、会话结束后,持久化节点数据进而临时节点数据都会删除35.valsite:List[String]=List("Runoob","Google","Baidu")println(site.head+site.tail)可以知道head返回列表第一个元素,tail返回除第一个元素外的所有元素36.SparkStreaming数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算37.对于以下代码描述有误的是?valdata=Map(1->"One",2->"Two")valres=for((k,v)1))yieldv()A、运行后res的结果为List("Two")。B、运行后res的结果为List("One","Two")。C、对映射data中的每一个(键,值)对,k被绑定对键,而v则被绑定到值。D、其中的if(k>1)是一个守卫表达式。38.rdd是spark中个哪个架构提出的概念()A、sparkcoreB、sparkstreamingC、mlbaseD、Grophx39.在scala中如果使用for循环,其格式必须如下for(vari=0;i<10;i++){}40.Spark有如下特性()A、ScalaB、javaC、python41.flume的source可以获取哪些数据()A、某个端口的文本数据B、指定目录内的数据变更C、基于http的数据源D、其他agent传送过来的数据42.yarn中nodemanager的作用()A、管理集群中整体节点的资源情况B、管理本机节点的资源C、存储数据D、读取数据43.spark程序无法连接和访问mysql中的数据44.sparkcore组件中的核心概念是()A、rddB、datasetC、dataframeD、data45.关于java集合说法,哪几个是正确的()A、List集合中数据可以重复B、Set集合中数据可以重复C、Map集合是键值对的形式存储的数据D、Set集合和List集合没有区别46.下面哪些系统可以和Kafka集成()A、FlumeB、StromC、SparkD、ElasticSearch47.SparkStreaming有高吞吐量和容错能力强等特点48.spark本身具有读取hdfs数据的方法49.以下和spark中一个action算子对应的是()A、jobB、taskC、driverD、stage50.在scala中所有的基础类型都是继承自AnyRef51.sortWith会将所给的对象进行给定升降序排序,请说出下列程序输出结果为vala3=Array(4,5,100,7)B22valcs=a3.sortWith(_>_);for(jA、100754B、457100C、754100D、54100752.在flume当中,基本的事务单位和基本存储单位是?()A、agentB、eventC、sourceD、channel53.以下选项中是spark的核心框架的是()A、sparkcoreB、sparkstreamingC、mlbaseD、Grophx54.在scala中对于列表的操作,那些说法说法正确vart=List(1,2,3)vart2=List(4,5)()A、vart3=t++t2得到List(1,2,3,4,5)B、vart3=List.concat(t,t2)得到List(1,2,3,4,5)C、vart3=t:::t2得到List(1,2,3,4,5)D、vart3=t2.:::(t)得到List(1,2,3,4,5)55.定义类ClassPerson(privatevalname:String){},以下说法正确是?()A、name是对象私有字段B、name是类私有字段,有私有的getter方法C、name是类公有字段,有公有的getter和setter方法D、name是类私有字段,可以在类内部被改变56.ApacheSpark是一种快速、通用、可扩展的()分析引擎A、大数据B、电商C、J2EED、查询57.在scala中关于高阶函数描述错误的是:()A、在程序中应该首先被定义的函数B、将函数作为参数其他函数的参数使用C、执行时间长的函数D、函数的方法体比较长58.AnyVal是scala中所有类的父类59.在scala中引用数据类型的空值是哪个()A、nothingB、NullC、0D、false60.spring中关于bean的说法正确的是()A、rdd是由一组partition够成的B、rdd之间都是独立的,没有依赖C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置61.以下关于List的定义。正确的是?()A、vallist=List(4,7,3)B、vallist=List[Int](1,2,3)C、vallist=List[String](‘a’,’b’,’c’)D、vallist=List[Int]("a","b")62.countByKey为针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数63.在scala中所有类型都继承自Object64.安装HBase前必须先安装哪个选项()A、Java?CodeB、JDKC、Shell?ScriptD、tomact65.spark中管理本机资源的节点是worker66.sparkSql是基于hive的67.spring的核心控制器是ActionServlet68.take算子返回一个由数据集的前n个元素组成的数组69.在scala语言中,关于类和它的伴生对象,说法不正确的是()A、类和它的伴生对象定义在同一个文件中B、类和它的伴生对象可以有不同的名称C、类和它的伴生对象的名称必须相同D、类和它的伴生对象可以互相访问私有特性70.继承会继承父类的所有属性和方法,Scala只允许继承一个父类71.Flume中配置一个Agent,需要配置的有哪些?()A、配置sourceB、配置sinkC、配置channelD、将source、channel、sink连接起来72.以上是spark组件的是?()A、基于standalone模式到的运行B、基于yarn的运行模式C、基于mesos模式的运行D、基于java的运行模式73.zookeeper只有一种数据模型74.kafka是中的partition是最小的存储单元75.cogroup算子在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD第2卷一.参考题库(共75题)1.以下关于特征的说法正确的是()A、类可以实现任意数量的特质B、特质可以要求实现它们的类具备特定的字段、方法或超类C、与Java接口(Interface)相同,Scala特质也可以提供方法和字段的实现D、当将多个特质叠加在一起时,顺序很重要——其方法先被执行的特质排在更后面2.以下属于spark启动后进程的是()A、rdd是由一系列的partition组成的B、原子性C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置3.scala中没有静态的成员与静态方法,可以采用如下那种达到同样效果?()A、objectB、varC、valD、class4.rdd是由一系列的什么组成的()A、jobB、driverC、partitionD、worker5.下列选项中是spark组件的有?()A、sparkcoreB、sparkstreamingC、GrophxD、sparksql6.以下关于集合的说法不正确的是()A、Set是一组没有先后次序的值。B、Map是一组(键,值)对偶。C、List中的值是有先后次序的D、为了顾及安全性问题,Scala仅支持不可变集合而不支持可变集合。7.spark的源码由下面选项中哪几种语言编写完成的()A、javaB、scalaC、goD、r8.spark架构中cache算子应具有以下哪些特性?()A、spark?coreB、spark?streamingC、GrophxD、spark?sql9.Spark也可以不依赖于第三方的资源管理和调度器,它实现了()作为其内置的资源管理和调度框架A、StandaloneB、YARNC、MesosD、redis10.spark?API支持哪种语言()A、javaB、scalaC、goD、r11.和spark中执行算子相对应的那个()A、jobB、taskC、driverD、stage12.mesos与下面哪个组件相类似()A、yarnB、hdfsC、mapreduceD、以上都不对13.flume的配置文件不能给多个agent使用14.spark中的弹性分布式数据集相当于java中的()概念A、类B、接口C、方法D、内部类15.Scala里,final修饰符的描述正确的是?()A、类的声明上添加final修饰符确保成员不被子类重载B、类的声明上添加final修饰符把整个类声明为final,这个类不能被继承C、类的声明上添加final修饰符确保成员只能被子类重载一次D、以上说法都是错误的16.关于元组Tuple,哪种说法是错误的()A、元组的可以包含不同类型的元素B、元组是不可变的C、访问元组第一个元素的方式为?pair._1D、元组最多只有2个元素17.下面关于override修饰符的描述错误的是?()A、Scala里所有重载了父类具体成员的成员都需要这样的修饰符B、Scala里如果子类成员实现的是同名的抽象成员则这个修饰符是可选的C、Scala里如果子类中并未重载或实现什么基类里的成员则禁用这个修饰符D、Scala里如果子类是抽象类则子类的同名成员不可以使用这个修饰符18.TaskSet是DAG调度器的运行结果,它会将结果传给哪个阶段()A、WorkerB、MasterC、DAGD、Task调度器19.kafka是一个日志收集系统20.standalone组件在spark中的角色是其自带的()A、任务调度框架B、任务模式C、资源调度框架D、任务整合21.spark任务执行中的driver作用包括和worker建立相应连接22.以下算子中属于执行算子的是()A、线上版本稳定B、社区文档多C、成熟的运维D、软件是否是国内的23.在scala中以下哪个类型属于引用数据类型()A、ListB、CharC、BooleanD、Long24.以下对map函数说法错误的是()A、对传入的每个元素都进行映射,返回一个处理后的元素B、对每个元素都处理,没有返回值C、对传入元素进行条件判断,必须返回布尔值D、对传入元素进行条件判断,没有返回值25.dataFrame和RDD类似,也是一个分布式数据容器26.关于spark中cache算子与persist算子关系叙述正确的是()A、_useDiskB、_useMemoryC、_useOffHeapD、_useDes27.spark本身能够读取到hdfs中的数据28.下面有关集合说法错误的是?()A、Set是最简单的一种集合。集合中的对象不按特定的方式排序,并且没有重复对象B、Map是一种把键对象和值对象映射的集合,它的每一个元素都包含一对键对象和值对象C、元组是不同类型的值的集合D、元组下标与别的一样也是从0开始29.yarn组件中的resourceManager的作用是()A、存储数据B、为nodemanager的管理进行调度C、数据接口D、以上都不是30.hive架构中的元数据存储默认在derby中,将元数据的存储在MySQL中主要的原因是()A、没区别B、多会话C、支持网络环境D、以上都不对31.有关scala集合说法正确的是()A、Scala集合分为可变的和不可变的集合B、可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素C、而不可变集合类,相比之下,永远不会改变D、不可变集合你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改变32.基于maven的项目,有且必须有一个pom.xml文件33.在Spark中以下算子属于执行算子的是()A、mapB、foreachC、flatmapD、join34.spark架构中的的cache算子想要正常使用,必须使用action算子触发执行35.对于以下2个列表的操作,那些说法说法不正确vart=List(1,2,3)vart2=List(4,5)()A、vart3=t++t2得到List(1,2,3,4,5)B、vart3=List.concat(t,t2)得到List(1,2,3,4,5)C、vart3=t:::t2得到List(1,2,3,4,5)D、vart3=t.:::(t2)得到List(1,2,3,4,5)36.一个application就是一个spark程序37.Hive架构建立在Hadoop之上的,所有Hive中数据都是存储在HDFS中38.scala提供了许多方法如max,min,sum能自动得到比如集合中的最大最小与合计,不用自己再去写方法做计算39.scala中的object描述下列那些正确()A、object是scala的关键字B、scala中的object和java中的object是一样的C、object本身就是一个单例对象D、scala中的object是一个伴生对象40.storm和sparkstreaming最大的区别()A、科学统计支持B、是否具有schemaC、是否是真正的实时计算框架D、不同公司的产品41.spark中以下哪些特性是rdd的特性()A、计算移动B、数据不移动C、数据移动D、计算不移动42.sparkSql不能够连接jdbc43.关于元组Tuple说法错误的是?()A、元组的可以包含不同类型的元素B、元组是不可变的C、访问元组第一个元素的方式为pair._1D、元组最多只有2个元素44.hadoop中的hdfs是分布式()A、计算框架B、存储系统C、中介系统D、网络系统45.kafka是一个关于什么的中间件()A、消息B、传输C、操作D、事物46.flume中的agent包含四大组件分别为source、task、channel、sink47.spark切分完的partition的数量和block一致的48.数组的下标从1开始49.RDD特性包含如下哪些?()A、一组分片(Partition),即数据集的基本组成单位B、一个计算每个分区的函数C、RDD之间的依赖关系D、一个列表,存储存取每个Partition的优先位置(preferredlocation)50.flume中数据以Dstream的形式进行传输51.var:声明可变的变量52.spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理()数据集A、单机B、集中式C、分布式D、NOSQL53.在scala语言中对于方法的定义以下说法正确的是()A、sorted将会把数组按升序进行重新排序B、sorted将会把数组按降序进行重新排序C、sortWith(_>_)表示降序排序D、sortWith(_54.下列关于kafka在进行消费数据消费时候的叙述正确的是()A、消费者主动拉取数据消费B、kafka推送数据到消费者进行消费C、kafka在进行消费数据的时候是延时的D、以上说法都不对55.下面那些对于lazy关键字说法正确的选项包括如下几个?()A、Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)B、惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量C、如果不使用lazy关键字对变量修饰,那么变量是立即实例化的D、变量加上lazy后,与没有加上lazy没有区别56.一定要在第一行调用主构造器57.mapPartitions算子类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]58.以下组件哪个不是Flume的组成部分()A、sourceB、sinkC、channelD、topic59.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度60.union算子对源RDD和参数RDD求并集后返回一个新的RDD61.下列spark算子中可以将数据持久化到硬盘上的算子是哪些()A、persistB、checkpointC、cacheD、map62.与RDD类似,DataFrame也是一个分布式数据容器63.在scala中如果方法没有返回值,则需要使用哪个关键字()A、UnitB、UntilC、voidD、null64.flatMap类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素),所有元素会被压瘪65.spark中persist算子具有以下哪个特性()A、懒执行B、立即执行C、一致性D、冗余性66.以下属于flume的组件的是:()A、sourceB、ChannelC、GridFSD、Sink67.2个数组,调用zip函数会将2个数组变成元组,这就是函数zip拉链的含义,请说出下列程序输出结果为varkey1=Array("java","oracle","c++","dephile")vargrade1=Array(1,2,3,4)varclass2Grade=key1.zip(grade1)for(jA、(java,1)(oracle,2)(c++,3)(dephile,4)B、(1,java)(2,oracle)(3,c++)(4,dephile)C、(java,1,oracle,2,c++,3,dephile,4)D、以上答案都不对68.flume架构中的sink组纪检能够将数据存储到hbase中69.spark中的程序必须有以下哪几种算子构成()A、转换算子,action算子B、转换算子,控制算子C、转换算子,tracform算子D、转换算子70.下列关于zookeeper自身特性说法正确的是()A、zookeeper是一个被动协调服务组件B、zookeeper是一个计算组件C、zookeeper是一个主动协调服务D、zookeeper是一个存储模型71.sparkSql仅仅支持查询原生的RDD,其他方式的查询都不支持72.zookeeper的默认端口号是()A、2181B、2180C、8888D、898973.yarn中的resourceManager的作用()A、存储数据B、为nodemanager的管理进行调度C、数据接口D、以上都不是74.下面选项中哪个是scala中所有类的父类()A、AnyB、AnyIntC、AnyRefD、AnyVal75.spark中的count算子属于什么算子()A、action算子B、转换算子C、控制算子D、触发算子第1卷参考答案一.参考题库1.参考答案:A2.参考答案:A3.参考答案:A4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论