HCIA-大数据试题与答案_第1页
HCIA-大数据试题与答案_第2页
HCIA-大数据试题与答案_第3页
HCIA-大数据试题与答案_第4页
HCIA-大数据试题与答案_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精选优质文档-----倾情为你奉上精选优质文档-----倾情为你奉上专心---专注---专业专心---专注---专业精选优质文档-----倾情为你奉上专心---专注---专业HCIA-大数据试题与答案1.下列选项中无法通过大数据技术实现的是?()*[单选题]*A.商业模式发现B.信用评估C.商品推荐D.运营分析(正确答案)2.FusionInsightManager的主要功能有以下哪些?()*[单选题]*A.数据集成B.系统管理C.安全管理(正确答案)D.服务治理(正确答案)(正确答案)3.假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,QueueA.minimum-user-limit-percent=24。则以下说法错误的是?()*[单选题]*A.第3个用户提交任务时,每个用户最多获得33.33%的资源B.第2个用户提交任务时,每个用户最多获得50%的资源C.第4个用户提交任务时,每个用户最多获得25%的资源D.第5个用户提交任务时,每个用户最多获得20%的资源(正确答案)4.华为大数据解决方案中平台架构包括以下哪些组成部分?()*[单选题]*A.Hadoop层B.FusioInghtManager(正确答案)C.GaussDB200D.DataFram(正确答案)(正确答案)5.Spark自带的资源管理框架是?()*[单选题]*A.StandaloneB.MesosC.YARND.Docker(正确答案)6.关于RDD,下列说法错误的是?()*[单选题]*A.RDD具有血统机制(Lineage)B.RDD默认存储在磁盘C.RDD是一个只读的,可分区的分布式数据集D.RDD是Spark对基础数据的抽象(正确答案)7.关于SparkSQL&Hive区别与联系,下列说法正确的是?()*[单选题]*A.SparkSQL依赖Hive的元数据B.SparkSQL的执行引擎为Sparkcore,Hive默认执行引擎为MapReduceC.SparkSQL不可以使用Hive的自定义函数(正确答案)D.SparkSQL兼容绝大部分Hive的语法和函数(正确答案)(正确答案)8.在FusionInsight集群中,Spark主要与以下哪些组件进行交互?()*[单选题]*A.HDFSB.YARN(正确答案)C.HiveD.ZooKeeper(正确答案)(正确答案)9.关于Hive在FusionInsightHD中的架构描述错误的是?()*[单选题]*A.只要有一个HiveServer不可用,整个Hive集群便不可用B.MotaStore用于提供元数据服务,依赖于DBServiceC.在同一时间点,HiveServer只要一个处于Active状态,另一个则处于Standby状态D.HiveServer负责接收客户端请求.解析.执行HQL命令并返回查询结果(正确答案)10.通常情况下,Hive以文本文件存储的表会以回车作为其行分隔符,在华为FusionInsightHive中,可以指定表数据的输入和输出格式处理。()*[单选题]*A.TRUEB.FALSE(正确答案)11.以下关于HBase中HMaster的功能描述哪些是正确的?()*[单选题]*A.Region负载均衡,Region分裂以及分裂后的Region分配B.负责建表/修改表/删除表(正确答案)C.负责RegionServer的负载均衡(正确答案)D.RegionServer失效后的Region迁移(正确答案)(正确答案)12.Nimbus在Streaming架构中的功能包括?()*[单选题]*A.监控任务执行状态B.任务调度(正确答案)C.启动/关闭工作进程D.资源分配(正确答案)(正确答案)13.Topology在任务完成后会自动结束运行。()*[单选题]*A.TRUEB.FALSE(正确答案)14.下面关于flink窗口的描述错误的是()*[单选题]*A.滚动窗口在时间上是重叠的B.滚动窗口在时间上是不重叠的C.滑动动窗口之间时间点不存在重叠(正确答案)D.滑动窗口之间时间点存在重叠(正确答案)15.在FusionInsightManager界面中,对Loader的操作不包括下列哪个选项?()*[单选题]*A.切换Loader主备节点B.启动Loader实例C.配置Loader参数D.查看Loader服务状态(正确答案)16.创建Loader作业中,可以在以下哪个步骤中设置过滤器类型?()*[单选题]*A.输入设置B.转换C.基本信息D.输出(正确答案)17.以下哪些数据源可以通过Loader实现与FusionInghtHD的数据交换?()*[单选题]*A.NoSQLB.FTPServer(正确答案)C.SFTPServer(正确答案)D.MySQL(正确答案)(正确答案)18.Kafka日志的清理方式有两种:delete和compact。默认值是delete。()*[单选题]*A.TRUEB.FALSE(正确答案)19.kafka-clustermirroring工具可以实现以下那些功能?()*[单选题]*A.kafka集群数据同步方案B.kafka单集群内数据备份C.kafka单集群内数据恢复D.以全部不对(正确答案)20.fusioninsightHD产品中,一个典型的kafka集群包含若干个producer若干个consummer和一个zookeeper集群?()*[单选题]*A.trueB.false(正确答案)21.ZKFC进程部署在hdfs中的以下那个节点上?()*[单选题]*A.activenamenodeB.standbynamenode(正确答案)C.datanodeD.以上全部不对(正确答案)22.以下关于KafkaPartition偏移量的描述不正确的是?()*[单选题]*A.每条消息在文件中的位置称为offset(偏移量)B.消费者通过(offset.partition.topic)跟踪记录C.唯一标记一条消息D.Offset是一个String型字符串(正确答案)23.Channel的作用类似队列,用于临时缓存进来的数据,当Sink成功地将数据发送到下一跳的Channel或最终目的,数据会从Channel移除()*[单选题]*A.TRUEB.FALSE(正确答案)24.Zookeeper中的数据节点znode分为哪几种类型?()*[单选题]*A.semi-persistentB.ephemeralC.temporaryD.persistent(正确答案)(正确答案)25.HDFS联邦环境下,NameSpace(命名空间)包含以下哪些内容?()*[单选题]*A.目录B.文件(正确答案)C.块(正确答案)D.以上全不正确(正确答案)26.HDFS存储数据时,关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改DataNode的存储策略,系统可以将数据强制保存在指定的节点组中。()*[单选题]*A.TRUEB.FALSE(正确答案)27.RDD有Transformation和Action算子,下列属于Action算子的是?()*[单选题]*A.mapB.saveAsTextFileC.FilterD.reduceByKey(正确答案)28.SparkonYarn-client适合用于生产环境是因为可以更快的看到APP的输出。()*[单选题]*A.TRUEB.FALSE(正确答案)29.以下关于HiveSQL基本操作描述正确的是?()*[单选题]*A.创建外部表必须要指定location信息B.创建外部表使用external关键字,创建普通表需要指定internal关键字C.加载数据到Hive时源数据必须是HDFS的一个路径D.创建表时可以指定列分割符(正确答案)30.在Streaming中,消息可靠性级别中精确一次是通过ACK机制来实现的。()*[单选题]*A.TRUEB.FALSE(正确答案)31.Flume适用于以下哪些场景的数据收集?()*[单选题]*A.Thrift,Avro,Syslog,Kafka等数据源上收集数据B.本地文件数据采集(正确答案)C.应用系统产生的日志采集(正确答案)D.大量数据的实时数据采集(正确答案)32.在Zookeeper和Yarn的协同工作中,当ActiveResourceManager产生故障时,StandbyResourceManager会从以下哪些目录中获取Application相关信息?()*[单选题]*A.metastoreB.StatestoreC.StoreageD.Warehouse(正确答案)33.ZooKeeper所有节点都可以处理读请求。()*[单选题]*A.TRUEB.FALSE(正确答案)34.HDFS的副本放置策略中,同一机架不同的服务器之间的距离是()*[单选题]*A.3B.2C.1D.4(正确答案)35.下列哪些措施是为了保障数据的完整性()*[单选题]*A.元数据可靠性保证B.重建失效数据盘的副本数据(正确答案)C.安全模式(正确答案)D.集群数据均衡(正确答案)(正确答案)36.Zookeeper的Scheme认证方式不包括以下哪项?()*[单选题]*A.digestB.saslC.authD.world(正确答案)37.MapReduce过程中,以下属于Shuffle机制的是?()*[单选题]*A.CopyB.PartitionC.CombineD.Sort/Merge(正确答案)(正确答案)38.FusionInsightManager可以对哪些项目进行健康检查?()*[单选题]*A.角色B.主机(正确答案)C.服务(正确答案)D.实例(正确答案)(正确答案)39.FusionInsightManager与外部管理平台对接时,支持哪些接口?()*[单选题]*A.VPNB.SyslogC.FTP(正确答案)D.SNMP(正确答案)(正确答案)40.下列选项中适合MapReduce的场景有?()*[单选题]*A.实时交互计算B.迭代计算C.流式计算D.离线计算(正确答案)41.以下关于FusionInsight中CarbonData说法正确的有?()*[单选题]*A.使用Carbon的目的是对大数据即席查询提供超快速响应。B.Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%-80%数据存储空间,大大节省硬件存储成本。(正确答案)C.Carbon是一种新型的ApacheHadoop本地文件格式,使用先进的列式存储.索引.压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更换的交互查询。(正确答案)D.Carbon也是一种将数据源与Spark集成的高性能分析引擎。(正确答案)(正确答案)42.HDFS联邦机制下,各NameNode间元数据是不共享的。()*[单选题]*A.TRUEB.FALSE(正确答案)43.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。()*[单选题]*A.TRUEB.FALSE(正确答案)44.在YARN的任务调度中,一旦ApplicationMaster申请到资源后,使与对应的ResourceManager通信,要求它启动任务()*[单选题]*A.TRUEB.FALSE(正确答案)45.如图所示,下列哪些选项属于宽依赖()

*[单选题]*A.groupby:A->BB.map:C->DC.union:D&E->FD.join:B&F->G(正确答案)(正确答案)46.HFS的出现解决了需要在HDFS中存储大量的小文件(10MB以下)。同时也要存储一些大文件(10MB以上)的混合的场景()*[单选题]*A.TRUEB.FALSE(正确答案)47.下列哪个命令是从HDFS下载目录/文件到本地的?()*[单选题]*A.dfs-putB.dfs-catC.dfs-getD.dfs-mkdir(正确答案)48.以下选项中,属于HDFS架构关键特性的是?()*[单选题]*A.HA高可靠性B.健壮机制(正确答案)C.元数据持久化机制(正确答案)D.多方式访问机制(正确答案)(正确答案)49.HBase的主HMaster是如何选举的?()*[单选题]*A.由RegionServer进行裁决B.HMaster为双主模式,不需要进行裁决C.通过ZooKeeper进行裁决D.随机选举(正确答案)50.关于Hive与Hadoop其他组件的关系。以下描述错误的是?()*[单选题]*A.Hive最终将数据存储在HDFS中B.Hive是Hadoop平台的数据仓库工具C.HQL可以通过MapReduce执行任务D.Hive对HBase有强依赖(正确答案)51.Hive不支持超时重试机制。()*[单选题]*A.TRUEB.FALSE(正确答案)52.FusionInsight中,HiveServer将用户提交的HQL语句进行编译,解析成对应的Yarn任务.Spark任务或者HDFS操作,从而完成数据转换,分析。()*[单选题]*A.trueB.False(正确答案)53.HBase的Region是由哪个服务进程来管理的?()*[单选题]*A.HRegionServerB.ZooKeeperC.HMasterD.DataNode(正确答案)54.Streaming的处理节点Bolt中,可以完成以下哪些操作?()*[单选题]*A.连接运算B.过滤(Filter)(正确答案)C.连接数据库(正确答案)D.业务处理(正确答案)(正确答案)55.Flume传输的可靠性是指Flume在传输数据过程中,当下一跳的Flume节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输?()*[单选题]*A.TrueB.False(正确答案)56.FusionInsightHD集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?()*[单选题]*A.HDFSB.NameNodeC.DataNode(正确答案)D.HBase(正确答案)57.FusionInsightHD系统中使用Streaming客户端Shell命令提交了拓扑之后,使用StormUI查看发现该拓扑长时间没有处理数据,可能原因有?()*[单选题]*A.查看客户端异常堆栈,判断是否客户端使用问题B.查看主Nimbus的运行日志,判断是否Nimbus服务端异常(正确答案)C.查看Supervisor运行日志,判断是否Supervisor异常(正确答案)D.查看Worker运行日志(正确答案)(正确答案)58.假设HDFS在写入数据是只存2份,那么在写入过程中,HDFSClient先将数据写入DataNode1,再将数据写入DataNode2。()*[单选题]*A.TrueB.False(正确答案)59.容力量调度器在尽心资源分配,现有同级的2个队列Q1和Q2,他们的容量均为30,期中Q1已使用8.Q2已使用14,则会优先将资源分配Q1。()*[单选题]*A.TrueB.False(正确答案)60.HBase中包含的一些典型的Filter有哪些?()*[单选题]*A.SingleColumnValueFilterB.FilterList(正确答案)C.RowFilter(正确答案)D.KeyOnlyFilter(正确答案)(正确答案)61.Flink流式处理的数据源类型包括?()*[单选题]*A.CollectionsB.JDBC(正确答案)C.Socketstreams(正确答案)D.Files(正确答案)(正确答案)62.server.channels.ch1.transactionCapacity表示事务大小,即当前channel支持事务处理的事件个数,可和source的batchsize设置为同样大小,但不能小于batchsize。()*[单选题]*A.TrueB.False(正确答案)63.Flume架构中,一个sink可以连接多个channel。()*[单选题]*A.TrueB.False(正确答案)64.以下关于Flink关键特性描述不正确的是?()[单选题]*A.SparkStreaming与Flink相比,时延更低*(正确答案)B.Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能C.与FusionInghtHD中的Streaming相比,Flink具有更高的吞吐量D.checkpoint实现了Flink的容错65.FusionInsight是华为企业级大数据存储,查询,分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。()*[单选题]*A.TrueB.False(正确答案)66.KafkaClusterMirroring工具可以实现以下哪项功能?()*[单选题]*A.Kafka跨集群数据同步方式B.Kafka单集群内数据备份C.Kafka单集群内数据恢复D.以上全不正确(正确答案)67.FusionInsightTool是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点,服务的健康状态,中潜在的问题。并生成健康检查报告。方便技术支持工程和维护工程师快速了解系统的健康状况。()*[单选题]*A.TRUEB.FALSE(正确答案)68.FusionInsight产品中,关于Kafka说法不正确的是?()*[单选题]*A.Kafka强依赖于ZooKeeperB.Kafka的服务端可以产生消息C.Kafka部署的实例个数不得小于2D.Consumer作为kafka的客户端角色专门进行消息的消费。(正确答案)69.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeaderPartition和FollowerPartition的描述错误的是()*[单选题]*A.Kafka针对Partition的复制需要选出一个Leader。由该Leader负责Partition的读写操作。其他的副本节点只是负责数据同步B.由于LeaderServer承载了全部的请求压力。因此从集群的整体考虑,Kafka会将Leader均衡的分散在每个实例上,来确保数据均衡C.一个Kafka集群各个节点间不可能互为Leader和FlowerD.如果Leader失效。那么将会有其他follower来接管(成为新的Leader)(正确答案)70.Kafka是一个高吞吐.分布式.基于发布订阅的消息系统,利用Kafka技术可在廉价PCServer上搭建起大规模消息系统。()*[单选题]*A.TRUEB.FALSE(正确答案)71.flink是一个批处理和流处理结合的统一计算框架,其核心是一个数据分发以及并行计算的流数据处理引擎()*[单选题]*A.TrueB.False(正确答案)72.HBase集群定时执行Compaction的目的是什么?()*[单选题]*A.减少同一个Region同一个ColumnFamily下的文件数目B.减少同一个Region的文件数目C.提升数据读取性能(正确答案)D.提升数据写入能力(正确答案)(正确答案)73.下列关于Flinkbarrier描述错误的是?()*[单选题]*A.一个barrier将本周期快照的数据与下一个周期快照的数据分隔开来B.barrier是Flink快照的核心C.在插入barrier的时候,会暂时阻断数据流D.barrier周期性插入到数据流中,并作为数据流的一部分随之流动(正确答案)74.Flume进程级联时,以下哪些Sink类型用于接收上一跳Flume发送过来的数据?()*[单选题]*A.NullSinkB.thriftsinkC.HivesinkD.avrosink(正确答案)(正确答案)75.Flink可以基于以下哪些窗口进行统计?()*[单选题]*A.时间窗口B.滑动窗口(正确答案)C.会话窗口(正确答案)D.countWindow(正确答案)(正确答案)76.关于FusionInsightHDStreaming的Supervisor描述正确的是?()*[单选题]*A.Supervisor是在Topology中接受数据然后执行处理的组件B.Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的Worker进程C.Supervisor负责资源分配和任务调度D.Supervisor是运行具体处理逻辑的过程(正确答案)77.Hadoop中,如果yarn.scheduler.capacity.root.QueueA.minim.m-user-limit-percent设置为50,下面说法错误的是?()*[单选题]*A.一个用户提交任务,可以使用QueueA的100%的资源。B.如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。C.QueueA中必须保障每个用户至少得到50%的资源。D.QueueA中的每个用户最多只能获得50%的资源。(正确答案)78.关于Flume,下列说法错误的是?()*[单选题]*A.Flume级联节点之间的数据传输支持加密B.Flume支持多级联和多路复用C.Source到Channel到Sink等进程内部有加密的必要D.Flume级联节点之间的数据传输不支持压缩(正确答案)(正确答案)79.以下关于Kafkalogs中segmentfile的说法正确的是?()*[单选题]*A.通过索引信息可以快速定位messageB.稀疏存储,即将原来的完整数据,只间隔的选择多条进行存储(正确答案)C.是index元数据全部映射到memory,可以避免segmentfile的index数据IO磁盘操作D.索引文件稀疏存储,可以大幅度降低index文件元数据占用空间大小(正确答案)(正确答案)80.Streaming主要通过zookeeper提供以下的哪项实现事件侦听?()*[单选题]*A.分布式锁机制B.WatcherC.CheckpointD.ACK(正确答案)81.Zookeeper在分布式应用中的主要作用不包括一下哪些选项?()*[单选题]*A.选举Master节点B.保证各节点上数据的一致性C.分配集群资源D.存储及群中服务器信息(正确答案)82.Hadoop集群规模很大时,数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是否扩容,数据是否需要做负载均衡等,fusionInsight资源分布监控说法正确的是?()*[单选题]*A.可以帮助用户快速聚焦在最关键的资源消耗上。B.通过每个服务主业的资源分布查看界面,看到关键的资源分布情况。(正确答案)C.通过Dashboard界面,可以查看到主机资源分不清哪个矿,例如内存占用率在50-75%的主机列表,并提供链接跳转。(正确答案)D.帮助用户迅速找到资源消耗最高的点,采取适当的措施。(正确答案)(正确答案)83.以下关于华为大数据解决方案说法正确的是()*[单选题]*A.GaussDB是一款开源数据库产品B.Farmer是数据服务框架(正确答案)C.FusionInsightManager是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群(正确答案)D.FusionInsightHD是基于开源大数据软件Hadoop的增强版本(正确答案)(正确答案)84.下图展示了文件A,B,C的存放位置。其中文件A和D具有关联性,它们的存储位置符合Colocation同分布策略()*[单选题]*A.TRUEB.FALSE(正确答案)85.HDFS中Namenode的主备仲裁,是由哪个组件控制的()*[单选题]*A.HDFSClientB.NodeManagerC.ResourceManagerD.ZooKeeperFailoverController(正确答案)86.SparkStreaming计算基于DStream将流式计算分解成一系列短小的批处理作业()*[单选题]*A.TRUEB.FALSE(正确答案)87.导入数据到Hive表时,不会检查数据合法性,只会在读取数据时候检查。()*[单选题]*A.TRUEB.FALSE(正确答案)88.Topology的处理逻辑都在Bolt中()*[单选题]*A.TRUEB.FALSE(正确答案)89.安装FusionInsightHD的Streaming组件是,Nimbus角色要求安装几个节点?()*[单选题]*A.4B.3C.2D.1(正确答案)90.Flume的tertises配置文件中可以配置多个channel来传输数据()*[单选题]*A.TrueB.False(正确答案)91.驱动型source是flume周期性主动去获取数据()*[单选题]*A.TrueB.False(正确答案)92.FusionInsightHD数据高可靠性体现在以下哪些方面?()*[单选题]*A.硬盘热插拔B.关键数据掉电保护(正确答案)C.跨数据中心容灾(正确答案)D.第三方备份系统集成(正确答案)(正确答案)93.FusionInsightHD系统审计日志不可以记录下面哪些操作?()*[单选题]*A.手动清除告警B.启停服务实例C.查询历史监控D.删除服务实例(正确答案)94.下图展示了HDFS的标签存储策略,观察下图,HBase的数据会被存储到哪些数据节点上()?*[单选题]*A.DataNodeAB.DataNodeB(正确答案)C.DataNodeED.DataNodeF(正确答案)95.HBase的数据文件HFile中一个KeyValue格式包含Key,Value,TimeStamp,KeyType等内容()*[单选题]*A.TRUEB.FALSE(正确答案)96.在有N个节点FusionInsightHD集群中部署HBase时,推荐部署()个HMaster进程,()个RegionServer进程()?*[单选题]*A.3,NB.N,NC.2,ND.2,2(正确答案)97.Flink的数据转换操作在以下哪些环节中完成()?*[单选题]*A.channelB.TransformationC.sinkD.source(正确答案)98.Kafka消息传输保障通常有以下哪几种()?*[单选题]*A.仅有一次(ExactlyOnce)B.最少一次(AtLeastOnce)(正确答案)C.最多三次(AtMostThreeTimes)D.最多一次(AtMostOnce)(正确答案)(正确答案)99.KafkaLogssegment文件命名规则是partion全局的第一个segment从0开始,后续每个segment文件名为上一个全局partion事务最大offset(偏移message数)。()*[单选题]*A.TRUEB.FALSE(正确答案)100.HBase的主要特点有哪些?()*[单选题]*A.面向列B.高性能(正确答案)C.可伸缩(正确答案)D.高可靠性(正确答案)(正确答案)101.YARN中,“从”节点负责以下哪些工作?()*[单选题]*A.集群中所有资源的统一管理和分配B.监督container的生命周期管理C.监控每个Container的资源使用(内存、CPU等)情况(正确答案)D.管理日志和不同应用程序用到的附属服务(正确答案)102.Spark有哪些特点?()*[单选题]*A.快B.灵(正确答案)C.轻(正确答案)D.巧(正确答案)(正确答案)103.Hive中“Groupby”指的是通过一定的规则将每一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理()*[单选题]*A.TrueB.False(正确答案)104.Flink适用于高并发处理数据、毫秒级时延的应用()*[单选题]*A.TrueB.False(正确答案)105.与开源sqoop相比,loader具有哪些增强特性?()*[单选题]*A.高可靠性B.高性能(正确答案)C.安全性(正确答案)D.图形化(正确答案)(正确答案)106.FusionInsightHDloader可以将HDFS数据导出到以下哪些目标端?()*[单选题]*A.orale数据库B.SFTP服务器(正确答案)C.BD2数据库(正确答案)D.FTP服务器(正确答案)(正确答案)107.FusionInsightHD的Loader在创建作业时,连接器有以下哪些作业?()*[单选题]*A.配置作业与内部数据源连接方式B.配置作业与外部数据源连接方式(正确答案)C.确定有转换(正确答案)D.提供优化参数,提高数据导入导出性能(正确答案)(正确答案)108.当zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的?()*[单选题]*A.3B.4C.5D.以上全不正确(正确答案)109.FusionInsight家族包含下列哪些子产品?()*[单选题]*A.FusionInsightFarmerB.FusionInsightMiner(正确答案)C.FusionInsightHD(正确答案)D.GaussDB200(正确答案)(正确答案)110.FusionInsightManager用户权限管理不支持哪个配置?()*[单选题]*A.给用户配置角色B.给用户组配置角色C.给角色配置权限D.给用户组配置权限(正确答案)111.Yarn调度器分配资源的顺序,下面哪一个描述的正确?()*[单选题]*A.任意机器——>本地资源——>同机架B.任意机器——>同机架——>本地资源C.本地资源——>同机架——>任意机器D.同机架——>任意机器——>本地资源(正确答案)112.以下哪个不属于Hadoop中MapReduce组件的特点?()*[单选题]*A.高容错B.良好的扩展性C.实时计算D.易于编程(正确答案)113.Hbase的最小存储单元是Region。()*[单选题]*A.TRUEB.FALSE(正确答案)114.Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有几个Region?()*[单选题]*A.6B.3C.5D.4(正确答案)115.根据数据流如何在两个TransFormation之间传输数据,数据流可以分为那些类型?()*[单选题]*A.一对一流B.distributing流C.一对多流(正确答案)D.redistributig流(正确答案)116.为了保障流应用的快照存储的可靠性,快照主要存储在哪里?()*[单选题]*A.jobManager的内存中B.可靠性高的单机数据库中C.本地文件系统中D.hdfs中(正确答案)117.在fusionlnsight产品中,关于kafka的topic.以下描述不正确的是?()*[单选题]*A.topic的partition数量可以创建时配置B.每个topic只能被分成一个partition区C.每条发布到kafka的消息都有一个类别,这个类别被称为topic.也可以理解为一个存储消息的队列D.每个partition在存储层面对应一个log文件,log文件中记录了所有的消息数据(正确答案)118.Kafa集群在运行期间,直接依赖于下面哪些组件?()*[单选题]*A.sparkB.zookeeperC.hdfsD.hbase(正确答案)119.关于fusioninsightmanager界面hive日志收集的描述中,哪个不对?()*[单选题]*A.可指定实例进行日志收集,比如指定收集metaStore的日志B可指定节点ip进行日志收集,例如仅下载某个ip的日志C.可指定特定用户进行日志收集,例如仅下载user用户的日志D.可指定时间端进行日志收集,不如只收集2016-1-1到2016-1-10的日志(正确答案)120.fusioninsightmanager对于管理操作,下列错误的是?()*[单选题]*A.可对服务进行启停重启B.可以添加和卸载服务C.可设置不常用服务隐藏或显示D.可查看服务的当前状态(正确答案)121.为减少写入磁盘的数据量,mapreduce支持对MOF(mapoutfile)进行压缩后再写入。()*[单选题]*A.TrueB.False(正确答案)122.ResourceManager采用高可用方案,当Activeresourcemanager发现故障时,只能通过内置的zookeeper来启动standby的resourcemanager,将其状态切换为active。()*[单选题]*A.TrueB.False(正确答案)123.Hive是一种数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询功能,所有Hive的数据都存储在HDFS中。()*[单选题]*A.TrueB.False(正确答案)124.在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作?()*[单选题]*A.执行HiveDDL操作。B.运行MapReduce任务C.运行HiveHQL任务D.以上全都正确(正确答案)125.Flink的兼容性体现在以下哪些方面?()*[单选题]*A.YARN能够作为F1ink集群的资源调度管理器B.能够与Hadoop原有的Mappers和Reducers混合使用(正确答案)C.能够使用Hadoop的格式化输入和输出口(正确答案)D.能够从本地获取数据(正确答案)(正确答案)126.KafkaConsumer写数据总体流程是,Consumer连接指定TopicPartition所在的LeaderBroker.用主动获取方式从Kafka中获取消息。()*[单选题]*A.trueB.false(正确答案)127.图形化的健康巡检工具FusionInsightTool由FusionCare和SysChecker两部分组成。()*[单选题]*A.trueB.false(正确答案)128.FusionInsightManager界面上,当收到Kafka磁盘容量不足告警,且该告警的原因已经排除硬硬件故障时,系统管理员需要考虑扩容解决此问题。()*[单选题]*A.trueB.false(正确答案)129.如图所示,Flink流式理接口DataStreamAPI支持的语言包括?()*[单选题]*A.JavaB.C语言C.Scala(正确答案)D.Python(正确答案)130.以下关于HBase的文件存储模块(HBaseFileStream,简称HFS)描述正确的有?()*[单选题]*A.应用在FusionInsightHD的上层应用B.HFS封装了HBase与HDFS的接口(正确答案)C.为上层应用提供文件的存储.读取.删除等功能(正确答案)D.HFS是HBase的独立模块(正确答案)(正确答案)131.若在消息处理过程中允许部分信息丢失,关闭消息可靠性处理机制的方式有以下哪些?()*[单选题]*A.将参数Config.Topology_ACKKRS设置为0B.将参数Config.Topology_ACKKRS设置为FalseC.Spout发送消息时,使用不指定消息messageID的接口进行发送(正确答案)D.Bolt发送消息时使用Unanchor方式发送(正确答案)(正确答案)132.在Flink技术架构中,以下哪项是流处理和批处理的计算引擎?()*[单选题]*A.StandaloneB.RuntimeC.FlinkCoreD.DataSteam(正确答案)133.下图为Flume数据传输架构,图中“?”号处的组件是?()*[单选题]*A.InterceptorB.ChannelProcessorC.ChannelSelectorD.以上全不正确(正确答案)134.采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,可以使用以下哪种Channel类型?()*[单选题]*A.MemoryChannelB.JDBCChannelC.FileChannel(正确答案)D.HDFSChannel(正确答案)135.华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台,其安全性现在以下哪些方面?()*[单选题]*A.系统安全B.权限认证C.数据安全D.以上全都正确(正确答案)136.在华为大数据解决方案中,hadoop底层包含以下那些组件?()*[单选题]*A.finkB.hive(正确答案)C.minerD.spark(正确答案)(正确答案)137.spark的核心模块是?()*[单选题]*A.sparkstreamingB.sparkcoreC.mapreduceD.sparksql(正确答案)138.关于hbase存储模型的描述正确的是?()*[单选题]*A.即使是key值相同,qualifier也相同的多个keyvalue.也可能有多个,此时使用时间戳来区分B.同一个key值可以关联多个value(正确答案)C.keyvalue中期有时间戳,类型等关键信息(正确答案)D.每一个keyvalue都有一个qualifier标识(正确答案)(正确答案)139.hbase的底层数据以()的形式存在的?()*[单选题]*A.keyvalueB.列存储C.行存储D.实时存储(正确答案)140.二级索引为hbase提供了按照某些列的值进行索引的能力,二级索引先查索引表,再定位到数据表中的位置,不用全表扫描()*[单选题]*A.trueB.false(正确答案)141.colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据迁移带来的大量网络开销()*[单选题]*A.trueB.false(正确答案)142.fusioninsightHD集群包含多种服务,每种服务又有若干个角色组成,下面那些是角色?()*[单选题]*A.namenodeB.hbaseC.datanode(正确答案)(正确答案)143.fusininsightHD平台中,那些组件支持对列表加密?()*[单选题]*A.HDFSB.FlinkC.hbaseD.hive(正确答案)(正确答案)144.Hadoop系统中,如果HDFS文件系统的备份因子是3,那么MapReduce每次允许task都是从3个有副本的机器上传输需要处理的文件.()*[单选题]*A.TrueB.False(正确答案)145.YARN容量调度器的主要特点有哪些?()*[单选题]*A.容量保证B.动态更新配置文件(正确答案)C.灵活性(正确答案)D.多重租赁(正确答案)(正确答案)146.KafkaClusterMirroring工具可以实现以下哪些功能?()[单选]*[单选题]*A.Kafka跨集群数据同步方案B.Kafka单集群内数据备份C.Kafka但集群内数据恢复D.以上全不正确(正确答案)147.硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制。默认情况下,一份文件,HDFS会存()份?*[单选题]*A.3B.5C.2D.4(正确答案)148.现有3个机架,有一个文件需要存3份,其中副本1和副本2存放在与client相同的机架且不同的服务器上。根据HDFS的副本放置策略一定要存放在其他机架。()*[单选题]*A.TRUEB.FALSE(正确答案)149.Flume架构中,一个Source可以连接多个Channel。()*[单选题]*A.TRUEB.FALSE(正确答案)150.FusionInsightHD的HBase中保存了一张用户信息表msg_table,RowKey为用户id,其中一类为用户昵称,现在按先后顺序往这列写keyValue:001:Li,001:Mary,001:Lily,请问scan‘msg_table’,(VERSIONS=>2)会返回哪几条数据?()*[单选题]*A.1:LiB.1:LilyC.001:Li,001:Mary,001:LilyD.001:Mary,001:Lily(正确答案)151.Kafka中partitionreplication之间同步数据,从partition的leader复制数据到follower需要线程(replicationFetcherThread),Follower(一个follower相当于consumer)主动从leader批量拉取消息的,这极大提高了吞吐量。()*[单选题]*A.TrueB.False(正确答案)152.以下哪些选项属于FusionInsight数据安全性?()[多选]*[单选题]*A.操作系统安全加固B.组件数据加密C.数据完整性校验(正确答案)D.用户权限认证管理(正确答案)153.NodeManager的内存和CPU的数量,是通过下列哪些选项进行配置?()*[单选题]*A.Yarn.scheduler.capacity.root.QueueA.maximum-capacityB.Yarn.nodemanager.resource.cpu-vcoreC.Yarn.nodemanager.vmem-pmom-ratio(正确答案)D.Yarn.modemanager.resource.memory-mb(正确答案)(正确答案)154.下列选项中,哪些是MapReduce一定会有的过程?()*[单选题]*A.CombineB.MapC.Reduce(正确答案)D.Partition(正确答案)(正确答案)155.下列选项中,哪些是Spark的重要角色()*[单选题]*A.NodemanagerB.ResourceManager(正确答案)C.DataNodeD.Driver(正确答案)(正确答案)156.以下属于HiveSQL中DDL(数据定义语言)的是?()*[单选题]*A.修改表B.删除表(正确答案)C.数据导入D.建表(正确答案)(正确答案)157.关于HIVE的描述不正确的是?()*[单选题]*A.Hive最佳使用场景是大数据集的批处理作业B.Hive可以实现在大规模数据集上实现低延迟快速的查询、C.ive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在作业提交和调度的时候需要大量的开销D.Hive查询操作过程严格遵循HadoopMapReduce的作用执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduceHadoop集群上(正确答案)158.在Flink中,checkpoint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的()*[单选题]*A.TRUEB.FALSE(正确答案)159.Hive中的“Groupby”指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理。()*[单选题]*A.TrueB.False(正确答案)160.Hive中~UNIONALL~操作符用于合并两个或多个select语句的结果集,结果集中,不允许有重复的值。()*[单选题]*A.TrueB.False(正确答案)161.StructuredStreaming在OutPut阶段可以定义不同的数据写入方式,包括以下哪些方式?()*[单选题]*A.GeneralModeB.AppendMode、C.ompleteMode(正确答案)D.UpdateMode(正确答案)(正确答案)162.Flume数据采集的过程中,下列选项中能对数据进行过滤和修饰的是?()*[单选题]*A.SinkB.ChannelC.ChannelselectorD.Interceptor(正确答案)163.以下关于FusionInsightCTBase的描述不正确的是?()*[单选题]*A.CTBase的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解释B.CTBase是基于HBase的聚簇表开发框架C.CTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度D.CTBase的javaAPI提供一套HBase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。(正确答案)164.Kafka是一个高吞吐,分布式,基于发布订阅的消息系统,利用Kafka技术可在廉价PCServer上搭建起大规模消息系统。()*[单选题]*A.TRUEB.FALSE(正确答案)165.YARN中设置队列QueueA的最大使用资源量,需要配置哪个参数?()*[单选题]*A.yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentB.yarn.scheduler.capacity.root.QueueA.maximum-capacityC.yarn.scheduler.capacity.root.QueueA.minimum.user-limit-factorD.yarn.scheduler.capacity.root.QueueA.state(正确答案)166.如果某些Containers的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的NodeManager内存阈值,那么内存使用过多的containers仍可以继续运行。()*[单选题]*A.TrueB.False(正确答案)167.下图为Spark&MapReduce的性能对比数据,可以得出结论,与MapReduce计算相比,Spark用的资源,获得倍性能?()*[单选题]*A.1/10,4B.1/8,3C.1/8,4D.1/10,3(正确答案)168.FusionInsightHD系统中,HBase支持动态扩展列。()*[单选题]*A.TrueB.False(正确答案)169.以下哪些选项属于Hive的数据存储模型?()*[单选题]*A.桶B.数据库C.分区D.表E.以上全都正确(正确答案)170.Hive中的这条命令”ALTERTABLEemployeelADDcolumns(columnlstring).”是什么含义?()*[单选题]*A.创建表B.删除表C.添加列D.修改文件格式(正确答案)171.下列关于SparkStreaming和Streaming比较说法不正确的是?()*[单选题]*A.SparkStreaming是一个微批处理框架,事件需要积累到一定量时才进行处理B.Streaming的执行逻辑是即时启动,运行完后再回收C.SparkStreaming的吞吐量大约是Streaming的2-5倍D.SparkStreaming事件处理时延比Streaming更高(正确答案)172.以下关于Flink与其它组件交互说法正确的是?()*[单选题]*A.Flink任务的运行依赖Yarn来进行资源的调度管理B.Flink的checkpoint的实现依赖于Zookeeper(正确答案)C.Flink可以将接收的组件发送给Kafka(正确答案)D.Flink在HDFS文件系统中读写数据(正确答案)(正确答案)173.创建Loader作业时,可以在以下哪个步骤中设置Map数?()*[单选题]*A.输出B.输入设置C.转换D.基本信息(正确答案)174.Channels支持事务,提供较弱的顺序保证,可以连接任何数量的Source和Sink。()*[单选题]*A.TrueB.False(正确答案)175.Kafka集群中,Kafka服务端的角色是?()*[单选题]*A.BrokerB.ConsumerC.ZooKeeperD.Producer(正确答案)176.KafkaProducer读数据总体流程是,Producer连接任意存活的Broker,请求制定Topic、Partition的Leader元数据信息,然后直接与对应的Broker直接连接,发布数据。()*[单选题]*A.TrueB.False(正确答案)177.下图所示的Map阶段,是描述哪个过程?()*[单选题]*A.PartitionB.SortC.Splill/MergeD.combine(正确答案)178.Spark根据RDD的依赖关系来划分Stage,调度器从DAG图末端出发,逆向遍历整个依赖关系链,遇到窄依赖就断开,遇到宽依赖就将其加入当前Stage。()*[单选题]*A.TRUEB.FALSE(正确答案)179.关于DataSet,下列说法不正确的是?()*[单选题]*A.DataSet不需要反序列化就可执行大部分操作B.DataSet是一个由特定域的对象组成的强类型集合C.DataSet与RDD高度类似,性能比RDD好D.DataSet执行sort,filter,shuffle登操作需要进行反序列化(正确答案)180.Hbase中OpenScanner的过程,会创建两种不同的Scanner来读取HFile和MemStore的数据,HFile对应的Scanner为StoreFileScanner,MemStore对应的Scanner为MemStoreScanner。()*[单选题]*A.TRUEB.FALSE(正确答案)181.执行HBase读取数据业务,需要读取哪几部分数据?()*[单选题]*A.HMasterB.HFileC.HlogD.MemStore(正确答案)(正确答案)182.使用HBase客户端批量写入10条数据,某个HRegionServer节点上包含该表的2个Region,分别为A和B,10条数据中有6条属于A,4条属于B,请问写入这10条数据需要向该HRegionServer发送几次RPC请求?()*[单选题]*A.10B.6C.2D.1(正确答案)183.Hive不适用于以下哪个场景()*[单选题]*A.非实时分析,例如日志分析,统计分析B.数据挖掘,例如用户行为分析,兴趣分析,区域展示C.数据汇总,例如每天,每用户点击数,点击排行D.实时在线数据分析(正确答案)184.关于Hive建表基本操作,描述正确的是()*[单选题]*A.一旦表建好,不可再修改表名B.一旦表建好,不可再增加新列C.创建外部表时需要制定external关键字D.一旦表创建好,不可再修改列名(正确答案)185.FusionInsightHD系统中Hive支持的存储格式包括?()*[单选题]*A.TextFileB.SequenceFile(正确答案)C.RCFile(正确答案)D.HFile(正确答案)186.在Flink的运行流程中,负责申请资源的角色是?()*[单选题]*A.ResourceManagerB.JobManagerC.ClientD.TaskManager(正确答案)187.在FuisonInsightHD中,创建Loader作业的进行数据转换的正确步骤是?()*[单选题]*A.输入设置,转换,输出B.抽取,转换,输出C.加载,转换,输出D.加载,转换,抽取(正确答案)188.Flume用于收集数据,其传输的数据基本单位是?()*[单选题]*A.SplitB.BlockC.EventD.Packet(正确答案)189.FusionnInsigetHD系统中,Flume数据流在节点内不需要经过哪个组件?()*[单选题]*A.SourceB.SinkC.TopicD.Channel(正确答案)190.传统数据处理的数据规模的单位是?()*[单选题]*A.TBB.EBC.PBD.GB(正确答案)191.下列哪个命令是删除文件的?()*[单选题]*A.dfs-clearB.dfs-lsC.dfs-rmD.dfs-del(正确答案)192.下图为HDFS分级存储的配置,如果Block的副本数为4,则以下说法错误的是?()*[单选题]*A.第1个Block副本将写入RAM_DISK,其余副本写入DISKB.如果是第1个副本之外的其他副本写入失败,则尝试写入“副本的备选存储策略”指定的存储策略C.如果第1个Block副本写入RAM_DISK失败,则尝试写入”备选存储策略”的存储类型D.4个Block都将写入RAM_DISK(正确答案)193.Hadoop平台中,要查看YARN服务中一个application的信息,通常需要使用什么命令?()*[单选题]*A.containerB.jarC.application-attemptD.Application(正确答案)194.Spark适用于以下哪些场景?()*[单选题]*A.交互式查询B.实时流处理(正确答案)C.批处理(正确答案)D.图计算(正确答案)(正确答案)195.下图展示了StructuredStreaming的计算模型。通过观察可以得出最终T3的计算结果是?()*[单选题]*A.Dog1,owl1B.Cat2,dog4,owl2C.Cat2,dog3,owl1D.Cat1,cat1,dog2,dog2,owl2(正确答案)196.SparkStreaming容错机制是指RDD中任意的Partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。()*[单选题]*A.TRUEB.FALSE(正确答案)197.HBase元数据MetaRegion路由信息保存在哪里?()*[单选题]*A.ZookeeperB.Meta表C.HMasterD.Root表(正确答案)198.Hbase的BloomFiliter是用来顾虑数据的?()*[单选题]*A.TRUEB.FALSE(正确答案)199.执行HBase读数据业务,需要读取哪几部分数据?()*[单选题]*A.HLogB.HMasterC.HFileD.MemStore(正确答案)(正确答案)200.FusionInsight中Hive包含2个角色,HiverServer和MetaStore?()*[单选题]*A.TRUEB.FALSE(正确答案)201.Colocation同分布文件级的同分不实现文件的快速访问,避免了因数据迁移带来的大量网络开销()*[单选题]*A.TRUEB.FALSE(正确答案)202.关于Hive与传统数据仓库的对比,以下描述错误的是?()*[单选题]*A.Hive元数据存储独立于数据存储之外,从而解耦合元数据和数据,灵活性高,而传统数据仓库数据应用单一,灵活性低B.Hive基于HDFS存储,理论上存储量可无限扩展,而传统数据仓库存储量会有上限C.由于Hive的数据存储在HDFS中,所以可以保证数据的高容错,高可靠D.由于Hive基于大数据平台,所以查询效率比传统数据仓库快(正确答案)203.YARN的基于标准调度,是对下列选项中的哪个进行标签化?()*[单选题]*A.AppMasterB.ResourceManagerC.NodeManagerD.Container(正确答案)204.对于Hive中关于普通表和外部表描述不正确的是?()*[单选题]*A.默认创建普通表B.删除外部表时,只删除外部表数据而不删除元数据C.外部实质是将已存在于HDFS上的文件路径跟表关联起来D.删除普通表时,元数据和数据同时被删除(正确答案)205.在FusionInsight产品中,关于创建Kafka的Topic,以下哪些描述是正确的?()*[单选题]*A.在创建Kafka的Topic时,必须设置Partition个数B.在创建Kafka的Topic时,必须设置Partition副本个数C.设置多副本可以增强Kafka服务的容灾能力D.以上全都正确(正确答案)206.Zookeeper的增强性包括在审计日志中添加ephemeralnode被删除的审计日志()*[单选题]*A.TRUEB.False(正确答案)207.下列选项中,关于Zookeeper可靠性含义说法正确的是?()*[单选题]*A.可靠性通过主备部署模式实现B.可靠性是指更新更新只能成功或者失败,没有中间状态C.可靠性是指无论哪个server,对外展示的均是同一个视图D.可靠性是指一个消息被一个Server接收,它将被所有的Server接受(正确答案)208.华为FusionInsightHD行业成功案例都有哪些?()*[单选题]*A.数字政府B.智慧园区(正确答案)C.智慧交通(正确答案)D.金融(正确答案)(正确答案)209.FusionInsightManager会定时备份哪些元数据?()*[单选题]*A.OMSB.LDAPServer(正确答案)C.DBService(正确答案)D.Namenode(正确答案)(正确答案)210.YARN中默认的资源调度器是?()*[单选题]*A.FIFO调度器B.容量调度器C.Fair调度器D.以上全不是(正确答案)211.假设在写入数据时只存2份,那么写入过程中,HDFSClient现将数据写入DataNode1,再将数据写入Datanode2()*[单选题]*A.TRUEB.FALSE(正确答案)212.Yarn-Client和Yarn-Cluster主要区别是ApplicationMaster进程的区别()*[单选题]*A.TRUEB.FALSE(正确答案)213.部署FusionInsightHD时,同一集群内的FlumeServer节点建议至少部署几个?()*[单选题]*A.1B.3C.4D.2(正确答案)214.以下哪些是Kafka实际的应用场景?()*[单选题]*A.网站活性跟踪B.日志收集(正确答案)C.聚合统计系统运营数据(监控数据)(正确答案)D.资源管理(正确答案)215.FusionInsightHD系统中,下面哪个方法不能查看到Loader作业执行的结果()*[单选题]*A.通过LoaderUI界面查看B.通过YARN任务管理查看C.通过NodeManager查看D.通过Manager的告警查看(正确答案)216.如图,以下关于Kafka消息消费者Consumer读取消息的描述,错误的有?()*[单选题]*A.Consumer使用Offset来记录读取的位置B.图片中的蓝色框为Kafka的一个Topic,即可以理解为一个队列,每个格子代表一条消息。C.生产者产生的消息逐条放到Topic的末尾D.消费者从右至左顺序读取消息(正确答案)217.在大数据时代,企业所面临的挑战有以下哪些?()*[单选题]*A.企业各部门间数据分散,相同数据在各部门内部存储格式不一致。B.数据结构多样化。(正确答案)C.竞争对手的技术进步。(正确答案)D.数据存在噪音、缺失、存储类型不规范等问题,需要进行大量的数据预处理工作。(正确答案)(正确答案)218.FusionInsightHD中HBase默认使用什么组件作为其底层文件存储系统?()*[单选题]*A.FileB.KafkaC.HDFSD.Memory(正确答案)219.在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。FusionInsight中,针对小文件的场景通常采用()算子,来对Table中的小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提升性能?()*[单选题]*A.groupbyB.coalosceC.connectD.join(正确答案)220.下列关于Worker(工作进程)、Executor(线程)、Task(任务)说法正确的是?()*[单选题]*A.每个Executor(线程)可以运行多个Task(任务)B.每个Worker可以运行多个Executor(线程)(正确答案)C.每个Worker只能为一个拓扑运行Executor(线程)D.每个Executor(线程)可以运行不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论