华为大数据练习(习题卷2)

上传人：1*** IP属地：重庆上传时间：2024-04-30 格式：DOCX 页数：67 大小：74.59KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：华为大数据练习华为大数据练习(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages华为大数据练习第1部分：单项选择题，共127题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.要级联删除用户创建的表等数据库对象，使用关键字（）。A)STRICTB)CASCADEC)USAGE[单选题]2.大数据技术的4V特征不包含以下哪项?（）A)VelocityB)VirtualC)VarietyD)Volume[单选题]3.以下关于DWS数据库透明加密的特点，错误的是：（）。A)支持行存表数据加密，不支持列存表加密B)支持集群级别配置C)使用KMS服务加密D)加密密钥层次结构有三层[单选题]4.关于Hive在FusionInsightHD中的架构描述错误的是：（）。A)只要有一个HiveServer不可用，整个Hive集群便不可用B)MotaStore用于提供元数据服务，依赖于DBServiceC)在同一时间点、HiveServer只要一个处于Active状态，另一个则处于Standby状态D)HiveServer负责接收客户端请求.解析.执行HQL命令并返回查询结果[单选题]5.创建数据同步任务后，对于增量同步中的任务，可以通过:（）来增加或者移除同步数据库和表，并提交同步任务。A)删除同步对象B)编辑同步对象C)创建同步对象D)返回同步对象[单选题]6.flume传输数据过程中，为了防止数据不丢失，使用的Channel类型是？（）A)MemoryChannelB)FileChannelC)JDBCChannelD)HDFSChannel[单选题]7.Flume当前不支持的source有（）A)HDFSsourceB)avrosourceC)HTTPsourceD)Kafkasource[单选题]8.TOPN操作最适合采用哪种Redis数据结构?（）A)SetB)HashC)ListD)SortedSet[单选题]9.为保证流应用的快照存储的可靠性，快照主要存储在:（）。A)本地文件系统中B)JobManager的内存中C)HDFS中D)可靠性高的单击数据库中[单选题]10.在增量同步阶段，源数据库和目标数据库之间的同步有时会存在一个时间差，称为:（），单位为秒。A)延误B)延后C)延迟D)时延[单选题]11.HBase为什么适用于海量数据存储?()A)HDFS做底层存储B)多列簇特C)支持列存表D)集群规模小[单选题]12.关于DataSet，下列说法不正确的是:（）。A)DataSet不需要反序列化就可以执行大部分操作B)DataSet是一个由特定域的对象组成的强类型集合C)DataSet与RDD高度类似，性能比RDD好D)DataSet执行sort，filter，shuffle登录需要进行反序列化[单选题]13.执行引擎的类型包括：（）。A)行执行引擎B)向量化执行引擎C)行列混合执行引擎D)以上都是[单选题]14.关于Spark中RDD的描述不准确的是?（）A)RDD可以从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建B)Spark的所有Transform操作都是基于RDD来实现的。C)RDD是只读和可分区的。要想对RDD进行操作，只能重新生成一个新的RDD。D)当前RDD默认是存储于内存，当内存不足时，RDD也不会溢出到磁盘中。[单选题]15.对于HBase表设计描述错误的是?（）A)一张表可以创建多个ColumnFamilyB)TTL默认为一天C)Region建议预先创建D)MaxVersion无法人为修改[单选题]16.当Spark发生Shuffle时，MapTask的运算结果会通过（）的形式把运算结果分发到对应的任务上去。()A)序列化B)键值化C)二进制D)RDD[单选题]17.有如下存储过程，CREATEORREPLACEPROCEDUREprc_1(param1ININTEGERDEFAULT3，param2INOUTINTEGER)ASBEGINParam2：=paraml+param2；RETURN：END：调用如上存储过程callprc_1(2，1)，结果是()?A)1B)2C)4D)3[单选题]18.DLI支持以下（）字符码的数据。A)UTF-8B)ASCIIC)GB2312D)Base64[单选题]19.YARN调度器分配资源的顺序是:（）。A)任意机器--本地资源--同机架B)任意机器--同机架--本地资源C)本地资源--同机架--任意机器D)同机架--任意机器--本地资源[单选题]20.使用DLI的正确操作顺序为：（）。A)1.准备数据2.编辑并提交作业3.购买队列4.查看作业状态B)1.准备数据2.购买队列3.编辑并提交作业4.查看作业状态C)1.购买队列2.准备数据3.编辑并提交作业4.查看作业状态D)1.编辑并提交作业2.准备数据3.购买队列4.查看作业状态[单选题]21.在Flink的运行过程中，负责申请资源的角色是:（）。A)ResourceManagerB)JobManagerC)ClientD)TaskManager[单选题]22.Action是RDD的算子的一个类型，不可以将结果写入（）A)磁盘B)HDFSC)数据库D)CPU[单选题]23.以下关于Zookeeper关键特性中的原子性说法正确的是:（）。A)客户端发送的更新会按照他们发送的顺序进行应用B)鞥新只能全部完成或失败，不会部分完成C)一条消息被一个server接受，将会被所有的server接受D)集群中无论那台服务器，对外展示的均是统一视图[单选题]24.HBase的主HMaster是：（）选举的。A)由RegionServer进行裁决B)HMaster为双主模式，不需要进行裁决C)通过ZooKeeper进行裁决D)随机选举[单选题]25.Kafka中Consumer使用什么方式来记录读取位置？(D)A)时间信息B)用户信息C)设备信息D)偏移量信息[单选题]26.以下（）组件负责控制系统资源的分配，防止过量业务负载对系统的冲击而导致业务拥塞。A)GTMB)WLMC)CND)DN[单选题]27.关于GaussDB200的数据并行导出，下列说法正确的是()?A)Remote模式效率受网络带宽影响。B)Local模式效率受网络带宽影响。C)Remote模式是指将数据导出到集群本地服务器上。D)Local模式是指导出文件到本地电脑。[单选题]28.Kafka集群在运行期间，直接依赖于下列（）组件。A)sparkB)zookeeperC)hdfsD)hbase[单选题]29.以下关于FusionInsightCTBase的描述不正确的是:（）。A)CTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程序中进行合并和解析B)CTBase是基于Hbase的聚簇表开发框架C)CTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度D)CTBase的javaAPI提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难度[单选题]30.关于Hive自定义UDF描述错误的是?（）A)普通的UDF，用于操作单个数据行，且产生一个数据行作为输出。B)永久函数，可以在多个会话中使用，不需要每次创建。C)用户定义表生成函数UDTF，用于接受多个输入数据行，并产生一个输出D)临时函数，只能在当前会话使用，重启会话后需要重新创建。[单选题]31.关于Kerberos的TGT以下说法错误的是:（）。A)TGT全称为票据授权服务票据，主要由KDC服务器生成B)TGT一次生成之后，可以无限期使用。C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。[单选题]32.以下（）不是订阅数据包含的内容。A)服务IDB)数据库类型C)表名D)库名[单选题]33.以下哪个不是离线批处理的核心诉求?（）A)处理数据格式多样B)处理数据量巨大C)支持SQL类作业和自定义作业D)处理时间要求高[单选题]34.Kafka消息默认保存时间为多少天?()A)14天B)30天C)1天D)7天[单选题]35.下面这条GaussDB200语句?calldbms_erval(1，'sysdate+1.0/24')；?的意思是()A)修改Job1的Interval为每隔1小时执行一次。B)修改Job1的Interval为每隔1/24小时执行一次。C)修改Job1的Interval为每隔24分钟执行一次。D)修改Job1的Interval为每隔24小时执行一次。[单选题]36.元数据采集任务的启动方式不包括：（）。A)循环执行B)定时执行C)手动执行D)定时立即执行[单选题]37.Flink快照机制的核心是barriers不包含以下哪个特点?()A)会阻断数据流，重量级元组B)严格的按照线性流动C)将前后周期快照数据分隔D)携带所属快照周期的ID[单选题]38.GaussDB200有两张相同字段结构和数据量的表table_1和table_2，tab1e_1是行存表，table_2是列存表，执行SQL语句?selectnamefromtable_namewherenum=1?，table_1查询了()数据量，table_2查询了()数据量(一个单元格为一个数据量)。（）A)9，6B)3，9C)3，6D)9，9[单选题]39.HBase中一个Region进行Split操作时，将一个HFile文件真正分开到两个Region的过程发生在以下（）阶段。A)Split过程中B)Flush过程中C)Compaction过程中D)HFile分开过程中[单选题]40.ETL工具工作过程不包含以下哪项?（）A)清洗B)传递C)心加载D)转换[单选题]41.solr中定义以下哪种字段支持后期自定义增加字段（）A)dynamicFieldB)copyFieldC)FieldD)以上都是[单选题]42.查看Kafka某Topic的partition详细信息时，使用如下（）命令。A)bin/kafka-topic.sh--createB)bin/kafka-topic.sh--deleteC)bin/kafka-topic.sh--listD)bin/kafka-topic.sh--describe[单选题]43.GaussDB200在创建表时，需要注意以下哪些事项()?A)创建列存表之后，后续可以修改为行存表。B)创建列存表时压缩级别默认为HIGH。C)如果指定表空间为普通表空间，创建表时默认是行式存储。D)创建一个行存表之后，后续可以修改为列存表。[单选题]44.下面（）不是二进制类型。A)BLOBB)RAWC)BYTEAD)TEXT[单选题]45.当前传统关系型数据库主要面临的挑战是()?A)数据量爆炸式增长，要求数据处理平台具备弹性扩展能力。B)数据处理时效性需求提高，要求数据处理平台速度够快。C)多类型数据融合，要求数据处理平台功能更加强大。D)以上全都正确。[单选题]46.安全Kafka集群中，关于Kafka组的说法错误的是（）A)kafkaadmin组拥有Topic的所有权限B)kafka组用户被授予Topic相关权限后，只有使用新API才能访问；C)Kafkasuper组用户默认具有所有的Topic的读写权限D)kafka组用户被授予Topic相关权限后，一定可以访问[单选题]47.Client在HDFS上进行文件写入时，NameNode根据文件大小和配置情况，返回部分datanode信息，（）负责将文件划分为多个Block,根据DataNode的地址信息，按顺序将块写入到每一fDataNode。A)ClientB)ActiveNameNodeC)DataNodeD)StandbyNameNode[单选题]48.Hadoop中MapReduce组件擅长处理（）场景的计算任务。A)迭代计算B)离线计算C)实时交互计算D)流式计算[单选题]49.对GaussDB200描述不正确的是?（）A)并行架构B)易运维，安全可靠C)行列不能混存D)节点多，易扩展[单选题]50.关于HDFS的文件块的描述不准确的是?（）A)文件块越大寻址时间越短。B)文件块(片)被存在哪个集群；谁有权限查看、修改这个文件等信息放在元数据Metadata中C)文件块的大小设置原则：最大化寻址开销。D)HDFS文件块的大小在1.0版本时是64M，在2.0的时候是128M。[单选题]51.下列关于存储过程的特点说法正确的是()A)编写的SQL存储在数据库中，因此执行速度快。B)创建时编译，执行时调用，因此开发效率高。C)用户创建的存储过程或自定义函数可以重复调用，因此数据传输量少。D)通过指定存储过程的访问权限，因此安全系数高。[单选题]52.若要修改HBase表，下列API哪个最先被调用?()A)createConnection()B)getAdmin()C)getTable()D)getConnect()[单选题]53.华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台，其安全性体现在以下（）方面。A)系统安全B)权限认证C)数据安全D)以上全部正确[单选题]54.在MapReduce的应用程序开发中，下列（）JAVA类负责管理和运行一个计算任务。A)lobB)ContextC)FileSystemD)Configuration[单选题]55.Spark是用以下（）编程语言实现的。A)CB)C++C)JAVAD)Scala[单选题]56.大数据应用开发流程不包含以下哪项?（）A)需求分析B)可行性分析C)应用推广D)技术选型[单选题]57.下面（）子句专用于GroupBy操作中的条件过滤功能。A)WHERE子句B)HAVING子句C)LIMIT子句D)ORDERBY子句[单选题]58.哪个不是ElasticSearch生态圈中的技术?（C）A)beatsB)LogstashC)FlumeD)kibana[单选题]59.GaussDB200支持几种数据并行导入策略?()A)2B)1C)4D)3[单选题]60.关于FusionInsightHDStreaming的Supervisor描述正确的是：（）。A)Supervisor是在Topology中接受数据然后执行处理的组件B)Supervisor负责接受Nimbus分配的任务，启动和停止属于自己管理的Worker进程C)Supervisor负责资源分配和任务调度D)Supervisor是运行具体处理逻辑的过程[单选题]61.在FusioninsightHD的客户端，执行kinit｛账号｝命令是为了得到KDC的（）内容。A)Krb5.confB)TGTC)STD)jaas.conf[单选题]62.Elasticsearch采用的搜索方式是?()A)倒排索引B)快速索引C)正排索引D)慢索引[单选题]63.以下哪个选项属于大数据消息系统?（）A)SparkB)KafkaC)HBaseD)Zookeeper[单选题]64.离线批处理方案的应用场景不包括?()A)占用计算存储资源多B)快速高效，实时的数据处理C)数据处理格式多样D)处理大规模数据[单选题]65.在Zookeeper和Yarn的协同工作中，当ActiveResourceManager产生故障时,StandbyResourceManager会从（）目录中获取Application相关信息。A)metastoreB)StatestoreC)StoreageD)Warehouse[单选题]66.在进行整库迁移时源端数据源类型为Oracle，目的端数据类型不支持:（）。A)RDSforMySQLB)MRS(Hive)C)CSSD)DWS[单选题]67.Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中，并在随后由()调用执行。()A)内存、MapReduceB)HDFS、YarnC)HBase、YarnD)HDFS、MapReduce[单选题]68.在网络日志数据分析场景中，日志服务器通过1og4j将数据传给()，()会对数据进行简单的处理过滤，然后将数据按照日期存储到()上。()A)Flume、Flume、HDFSB)Hive、Flume、LoaderC)HDFS、Flume、FlumeD)Spark、Sqoop、Flume[单选题]69.()是一个实现了文件系统的抽象类，继承自org.apache.hadoop.conf.Configured，并实现了C1oseable接口，可以适用于多种文件系统。()A)FSDataInputStreamB)FileConfigurationC)FSDataOutputStreamD)FileSystem[单选题]70.以下哪项不属于Apache顶级项目?（）A)SparkB)StormC)FlinkD)Eclipse[单选题]71.以下两种描述分别对应:（）两种分类算法的评价标准。A)Precision，RecallB)Recall，PrecisionC)Precision，RocD)Recall，Roc[单选题]72.华为8.0数据中台架构贴源层数据存储产品是：（）。A)MRSB)GBase8AC)DWSD)DAYU[单选题]73.以下哪个不是大数据的数据计算引擎?（）A)SparkB)MapReduceC)FlumeD)Flink[单选题]74.MapReduce任务最终是在下列（）中被执行的。A)NodeManagerB)containerC)ResourceManagerD)AppMaster[单选题]75.关于创建api，以下描述正确的是:（）。A)创建api只能通过脚本模式创建B)创建api只能通过向导模式创建C)创建api可以通过脚本模式和向导模式两种方式创建D)以上说法均不正确[单选题]76.下来（）Redis命令属于原子操作。A)INCR（将储存的数字值增一）B)HINCRBY（为哈希表key中的域field的值加上增量increment）C)LPUSH（对链表的push操作）D)以上都是[单选题]77.Hadoop平台中HBase的Region是由:（）服务进程来管理。A)HMasterB)DataNodeC)RegionServerD)ZooKeeper[单选题]78.Flink的窗口，按窗口行为划分不包含以下哪种?(A)A)容量窗口B)滑动窗口C)滚动窗口D)会话窗口[单选题]79.DAYU数据开发中，以下不属于作业优先级是:（）。A)高B)中C)极高D)低[单选题]80.一般来说，以下哪项不是大数据应用开发必备的能力？()A)理解相关业务背景B)掌握机房硬件运维技巧C)具备JAVA/Scala编程能力，熟悉SQLD)熟悉LinuxShell命令[单选题]81.下列关于Flinkbarrier描述错误的是:（）。A)barrier周期性的插入到数据流中，并作为数据流的一部分随之流动B)barrier是Flink快照的核心C)一个barrier将本周期快照的数据与下一周期快照的数据分隔开来D)在插入barrier的时候，会暂时阻断数据[单选题]82.在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致数据异常，用户可以通过?异常数据?页签查看，以帮助异常写入的排查。下列同步过程中，支持异常诊断的是:（）。A)Postgres->GaussDBB)Oracle->RDSforMySQLC)Mysql->GaussDB(forMySQL)D)Postgres->GaussDB[单选题]83.HDFS的副本放置策略中，同一机架不同的服务器之间的距离是：（）。A)3B)2C)1D)4[单选题]84.消息系统Kafka如何保证高吞吐能力?（）A)多订阅者机制B)Partition机制C)持久性机制D)冗余备份机制[单选题]85.Kafka集群中，Kafka服务端的角色是:（）。A)BrokerB)ConsumerC)ZookeeperD)Producer[单选题]86.创建一个存储过程proc_addCREATEORREPLACEPROCEDUREproc_add(param1inINTEGER，param2outINTEGER，param3inINTEGER)ASBEGINParam2：=param1+param3;END;,创建一个存储过程proc_testCREATEORREPLACEPROCEDUREproc_test(resultoutINTEGER)AsDECLAREInput1INTEGER：=1;Input2INTEGER：=2;StatementVARCHAR2(200)：Param2INTEGER：BEGIN--声明调用语句Statement：=?callproc_add(：co1_1，：co1_2，：co1_3)?；--执行语句EXECUTEIMMEDIATEstatementUSINGINinput1，OUTparam2，INinput2;Result：=param2;END;执行语句callproc_test(10)，结果是()。A)3B)无返回值C)4D)2[单选题]87.HDFS集群跟目录下存在一个文件text.txt,下列（）命令可以查到此文件所存储的DatNode节点信息。A)hdfsfsck/test.txt-filesB)hdfsfsck/text.txt-locationsC)hdfsfsck/test.txt-blocksD)hdfsfsck/test.txt-list-corruptfileblocks[单选题]88.数据质量以（）为监控对象，目前支持对离线数据的监控。A)数据群B)数据集C)数据列D)数据模块[单选题]89.部署FusionInsightHD时，同一集群内的FlumeServer节点建议至少部署（）个。A)1B)3C)4D)2[单选题]90.以下哪项是Spark2.x程序统一入口?()A)StreamingContextB)SqlContextC)HiveContextD)SparkSession[单选题]91.数据订阅功能将数据库中关键业务的数据变化信息缓存并提供统一的SDK接口，方便下游业务订阅、获取、并消费,关于数据订阅服务开发环境使用的JAVA版本SDK版本，描述正确的是:（）。A)JDK1.5以上版本B)JDK1.8以上版本C)JDK1.7以上版本D)JDK1.6以上版本[单选题]92.关于Spark中RDD的描述不正确的是？()A)RDD可以从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建B)当前RDD默认是存储于内存，当内存不足时，RDD也不会溢出到磁盘中。C)Spark的所有Transform操作都是基于RDD来实现的。D)RDD是只读和可区分的。要想对RDD进行操作，只能重新生成一个新的RDD[单选题]93.Loader页面是基于开源()的图形化数据迁移管理工具()A)HadoopB)HueC)KettleD)Sqoop[单选题]94.Loader特点不包含?（）A)图形化B)实时性C)高性能D)安全[单选题]95.SDK是消费者在调用API时，需要在请求Header头中添加身份认证信息，而这个操作比较繁琐，故我们为使用者提供了SDK，简化用户操作。目前华为SDK支持:（）种语言的支持。A)7B)8C)9D)10[单选题]96.在线迁移新建任务配置时，在?场景选择?页面，不属于源数据库来源的是:（）。A)本地自建库B)本云云数据库C)本云ECS自建库D)本地云上数据库[单选题]97.为了提高Kafka的容错性，Kafka支持Partition的复制策略，以下关于LeaderPartition和FollowerPartition的描述错误的是：（）。A)Kafka针对Partition的复制需要选出一个Leader。由该Leader负责Partition的读写操作。其他的副本节点只是负责数据同步B)由于LeaderServer承载了全部的请求压力。因此从集群的整体考虑，Kafka会将Leader均衡的分散在每个实例上，来确保数据均衡C)一个Kafka集群各个节点间不可能互为Leader和FlowerD)如果Leader失效。那么将会有其他follower来接管(成为新的Leader)[单选题]98.数据中台功能架构中数据接入包含：（）能力。A)数据交换B)监控告警C)链路监测D)任务调度[单选题]99.以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:（）。A)仅写入内存B)同时写入硬盘和内存C)先写入内存再写入硬盘D)先写入硬盘再写入内存[单选题]100.以下不是EXPLAIN命令选项的是：（）。A)performanceB)prettyC)analyzeD)verbose[单选题]101.哪个不是Hbase的操作语法？（）A)create?my_tb?,?info?B)listC)createtabletb1(idint,namestring)D)scan?my_tb?[单选题]102.哪个是实时检索解决方案的数据源?（）A)流数据B)以上都是C)文件数据D)图数据[单选题]103.下面哪个数据类型不是GaussDB200支持的数据类型()?A)JSON类型B)货币类型C)数值类型D)XML类型[单选题]104.以下选项不属于Flume的特点的是?()A)支持定制各类方数据发送B)支持结构化、非结构化数据源C)支持多级联操作D)支持数据实时检索[单选题]105.以下哪项不提供交互式查询服务？()A)PrestoB)ImpalaC)EchartD)Kylin[单选题]106.Kafka中每种消息类别被称为什么?()A)TopicB)ObjectC)SubjectD)Theme[单选题]107.以下（）工具可以实现大量数据的快速导入和导出。A)gsqlB)GDSC)DataStudioD)DSC[单选题]108.下面关于ACID解释错误的是:（）。A)A-atomictty原子性：事务的所有操作要么全部完成，要么全部不完成B)C-consistency一致性：事务始终保证系统处于一致性的状态，不影响一致性C)I-Isolation隔离性：事务执行是隔离的，3个隔离级别D)D-Durability持久性：事务的结果是持久的[单选题]109.以下哪个选项不能做为Kafka的Consumer?()A)Real-timeMonitoringB)FrontEndC)DataWarehouseD)Hadoop[单选题]110.下列关于批量数据迁移系统级限制和约束的说法错误的是：（）。A)批量数据迁移系统不会自动备份用户的作业配置，需要用户通过作业的导出功能进行备份。B)集群创建好以后支持修改规格。C)文件迁移时，单个任务支持千万数量的文件，如果待迁移目录下文件过多，建议拆分到不同目录并创建多个任务。D)不支持集群自动升级到新版本，需要用户通过作业的导出和导入功能，实现升级到新版本。[单选题]111.在GaussDB200中，关于Schema和Database，下面说法正确的是()?A)二者都能实现资源隔离。B)Database之间无法直接访问，但通过权限授予可以访问数据。C)相比于Database，Schema的隔离更加的彻底。D)Schema和用户强相关的，通过权限控制语法可以实现不同用户对各Schema的权限。[单选题]112.关于Hive与Hadoop其他组件的关系，以下描述错误的是：（）。A)Hive最终将数据存储在HDFS中B)Hive是Hadoop平台的数据仓库工具C)HQL可以通过MapReduce执行任务D)Hive对HBase有强依赖[单选题]113.YARN中设置队列QueueA的最大使用资源量，需要配置（）参数。A)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentB)yarn.scheduler.capacity.root.QueueA.maximum-capacityC)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-factorD)yarn.scheduler.capacity.root.QueueA.state[单选题]114.gateway在ElasticSearch中的含义是?()A)网关B)索引的存储方式C)rpc请求接口D)索引快照的存储方式[单选题]115.将数据块存储大小设置为128M,HDFS客户端在写文件时，当写入一个100M大小的文件，实际占用储存空间为:（）。A)128MB)100MC)64MD)50M[单选题]116.以下（）不属于开源数据湖解决方案。A)DLIB)IcebergC)HudiD)OpenDelta[单选题]117.Spark的中间数据放在()中，对于迭代运算的效率更高，进行批处理时更高效.（）A)SparkCoreB)磁盘C)HDFSD)内存[单选题]118.下面关于GaussDB200的跨集群协同分析，说法正确的是（）？A)跨集群所指的集群是GaussDB集群。B)跨集群过程中只需要输入集群IP地址和端口就可以访问其他集群的数据。C)跨集群协同分析支持SQL算子下推。D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群，供目标集群查询。[单选题]119.以下关于数据收集工具的描述，不准确的是?（）A)Loader是实现FusionInsightHD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。B)Loader提供了本集群内部HDFS和HBase之间的数据导入或导出。C)Saoop是一款开源的工具，主要用于在Hive与传统的数据库间进行数据的传递，可以将关系型数据库中的数据导入到Hadoop的HDFS中，也可将HDFS的数据导出到关系型数据库中。D)Kett1e是一款国外开源的ETL工具，纯java编写，目前仅可以在Linux上运行，数据抽取高效稳定。[单选题]120.当ElasticSearch集群有节点加入或退出时，集群数据会发生什么动作?()A)数据重载B)数据分布C)数据更新D)数据重建[单选题]121.Hive常被用来处理（）场景。A)事务性处理B)批量计算C)实时性计算D)流计算[单选题]122.通过HDFS的Shell命令来操作HDFS，表示删除文件的命令是？()A)hdfsdfs-catB)hdfsdfs-rmC)hdfsdfs-mkdirD)hdfsdfs-put[单选题]123.在新建采集元数据任务中，配置数据源信息参数?选择集群?仅数据源类型为:（）时呈现此参数。A)DWSB)CSSC)MRSHBaseD)DIS[单选题]124.某开发小组计划利用GraphBase实现一些功能，以下哪些功能可以实现?()A)物流最优路径规划B)社交分析C)金融反欺诈D)以上全都正确[单选题]125.Zookeeper在分布式应用中的主要作用不包括：（）选项。A)选举Master节点B)保证各节点上数据的一致性C)分配集群资源D)存储及群中服务器信息[单选题]126.Agg算子的实现策略有：（）。A)4B)3C)2D)1[单选题]127.Flume中基于WAL(预写式日志Write-AheadLog)实现Channel持久化的是?()A)MemoryChannelB)KafkaChannelC)FileChannelD)JDBCChannel第2部分：多项选择题，共83题，每题至少两个正确答案,多选或少选均不得分。[多选题]128.在FusioninsightHD中，使用SparkSQL时，可以通过()方式（或工具）执行SQL语句。A)JDBCB)spark-beelineC)spark-sql[多选题]129.FusionInsightHD的HBase服务包含：()进程。A)HMasterB)SlaveC)RegionServerD)DataNode[多选题]130.Flink支持的时间操作类型包括：以下()选项。A)结束时间B)处理时间C)采集时间D)事件时间[多选题]131.随着大数据越来越被重视，数据采集的挑战也变的尤为突出，常见的挑战包括?()A)数据量大B)数据源多种多样C)数据采集的可靠性保障D)避免重复数据[多选题]132.下列选项中，()是MapReduce一定会有：的过程。A)CombineB)MapC)ReduceD)Partition[多选题]133.在产品选型时，数据中台逻辑架构中分析层要重点关注产品的特点包含：()方面。A)批量删除能力B)强资源隔离能力C)高并发的查询能力D)强大的OLTP能力[多选题]134.下面哪些关键词是kafka的特点（）A)高吞吐B)分布式C)消息持久化D)支持消息的随机读写[多选题]135.以下选项对GraphBase概念描述正确的是?()A)Edge：边，用于表示关系度B)VertexLabel：节点的标签，用于表示现实世界中的实体类型C)Vertex：节点/顶点，用于表示现实世界中的实体对象D)EdgeLabel：边的标签，用于表示现实世界中的关系类型[多选题]136.Loader可以实现以下()转换规则。A)长整型时间转换B)增量转换C)拼接转换D)空值转换[多选题]137.Hive的自定义函数包括?（）A)UDAFB)UDCFC)UDTFD)UDF[多选题]138.关于Redis特点，下面描述正确的是：()。A)低时延B)丰富的数据结构C)丰富的数据结构D)支持SQL查询接口[多选题]139.Flink能够通过哪几种方式提供容错机制?()A)窗口B)事件时间C)流重放D)状态快照[多选题]140.采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，可以使用：()Channel。A)memoryChannelB)JDBCChannelC)FileChannelD)HDFSChannel[多选题]141.以下关于Redis中set数据类型srandmemberkey[count]命令的描述哪些是正确的?()A)如果count为负数，那么命令返回一个数组，数组中的元素可能会重复出现多次，而数组的长度为count的绝对值。B)如果count为正数，且小于集合基数，那么命令返回一个包含count个元素的数组，数组中的元素各不相同。C)如果count大于等于集合基数，那么返回整个集合。D)如果count为负数，那么命令返回一个数组，数组中的元素各不相同，且数组的长度小于count的绝对值。[多选题]142.KafkaConsumer跟踪消费记录需要以下哪几个选项的信息?()A)offsetB)producerC)partitionD)topic[多选题]143.在哪些场景下不能使用HBase作为存储系统（）？A)需要ACID特性B)海量数据存储C)主键查询D)大文件，视频等[多选题]144.StructuredStreaming在OutPut阶段可以定义不同的数据写入方式，包括：以下()方式。A)GeneralModeB)AppendModeC)CompleteModeD)UpdateMode[多选题]145.Spark有：()特点。A)快B)灵C)轻D)巧[多选题]146.HBase中HMaster主要负责什么?()A)用户数据读写B)表的增删改查C)Regionserver负载均衡D)Region分布调整[多选题]147.华为大数据产品FusionInsightHD中的Streaming具有：()关键特性。A)容灾能力B)灵活性C)消息可靠性D)可伸缩性[多选题]148.Flume可以从以下哪些数据源上采集数据?()A)实时日志B)SyslogC)KafkaD)本地文件[多选题]149.下列关于Worker、Executor、Task说法正确的是：()。A)每个Executor可以运行多个TaskB)每个Worker可以运行多个ExecutorC)每个Worker只能为一个拓扑运行ExecutorD)每个Executor可以运行不同组件的Task[多选题]150.在大数据时代，企业所面临的挑战有：()。A)企业各个部门间数据分散，相同数据在各个部门内部存储格式不一致B)数据结构多样化C)竞争对手的技术进步D)数据在噪音、缺失、储存不规范等问题，需要进行大量的数据预处理工作[多选题]151.与开源的sqoop相比，Loader具有：()增强特性。A)高可靠性B)高性能C)安全性D)图形化[多选题]152.FusionlnsightHD中，在使用Streaming的ACK机制时，说法正确的是：()。A)启用了Acker之后，Streaming会识别发送失败的Tuple并自动重发，无需人为干预。B)Acker会标识处理超时或者处理失败的消息为faiLC)从spout开始，形成的Tuple树中任何一个环节失败都会标记整棵树失败。D)应用需要在spout的fail()接口方法中实现消息重发逻辑。[多选题]153.CDM支持对已创建的连接进行()操作。A)编辑B)测试连通性C)备份连接D)删除连接[多选题]154.YARN中从节点主要负责()工作。A)集群中所有：资源的统一管理和分配B)监督container的生命周期C)监控每个Container的资源使用情况D)管理日志和不同应用程序用到的附属服务[多选题]155.API网关是：华为云提供的一个API托管的应用服务，API网管包括的功能有：()。A)API全生命周期的管理B)权限控制C)访问控制D)流量控制[多选题]156.国网数据中台能力架构中数据管理包含：()。A)模型管理B)数据质量管理C)数据资产D)标签管理[多选题]157.Flume进程级联时，()sink类型用于接收上一跳Flume发送过来的数据。A)avrosinkB)thriftsinkC)HDFSsinkD)NullSink[多选题]158.FusioninsightHD中，在使用Streaming的ACK机制时，说法正确的是：()。A)启用了Acker之后，Streaming会识别发送失败的Tuple并自动重发，无需人为干预B)Acker会标识处理超时或者处理失败的消息为faiLC)从spout开始，形成的Tuple树中任何一个环节失败都会标记整棵树失败D)应用需要在spout的fail()接口方法中实现消息重发逻辑[多选题]159.数据仓库数据分层的优点包括?（）A)减少重复开发B)把复杂问题简单化C)隔离原始数据D)减少数据仓库存储空间[多选题]160.在产品选型时，数据中台逻辑架构中共享层要重点关注产品的特点包含：()方面。A)高效的访问能力B)支持数据发放能力C)支持高效的数据更新、删除能力D)智能的资源回收能力[多选题]161.哪些是离线批处理的特点？()A)处理数据量巨大，PB级B)处理时间要求高C)容易产生资源抢占D)多个作业调度复杂[多选题]162.Hive执行查询的时候会调用哪些模块?（）A)complierB)executorC)optimizerD)MetaStore[多选题]163.Hive支持下列()类型。A)分区表B)分桶表C)倾斜表D)分区+分桶表[多选题]164.数据质量定义模块包括：()。A)质量维度定义B)检验类别管理C)度量规则管理D)检核方法管理[多选题]165.下列选项中，()是Spark的重要角色。A)NodeManagerB)ResourceManagerC)DataNOdeD)Driver[多选题]166.在金融领域的大数据批量离线处理平台中，以下描述正确的是？()A)金融领域的外部数据来源可以是征信信息、社交网络和电商等B)在数据集成模块，可以分为数据采集、数据操控和数据加载3个阶段C)金融领域的内部数据来源均为结构化数据，包括信贷数据、信用卡数据和收单数据等D)金融领域的数据应用层面均是面向金融机构内部的，如监管报表系统，精确营销、BI应用等，完全不对外或对其他下属机构开放。[多选题]167.DWS支持的隔离级别包括：()。A)读已提交B)读未提交C)可重复读D)可串行化[多选题]168.在Kafak中，如下关于Producer发送数据的说法错误的是：()。A)Producer负责生产数据，Consumer负责消费数据，Producer和Consumer之间需要建立Socket连接B)Producer既可以发送数据到Broker上，又可以发送数据到Consumer上C)Producer作为消息生产者，可直接将数据写入ZooKeeperD)Producer连接任意一个正常的Broker实例就可以生产数据[多选题]169.大数据离线批处理场景中常见的数据源包括？()A)数据库B)批量文件数据C)流式数据Socket流D)网页日志流[多选题]170.ZooKeeper在HBase中主要起什么作用?（）A)存储表结构数据B)管理元数据C)存储用户表数据D)主备切换[多选题]171.在HA模式下，HDFS里包含哪些组件?()A)DataNodeB)TaskManagerC)NameNodeD)SecondaryNameNode[多选题]172.关于Hbase存储模型的描述正确的是：()。A)即使是：key值相同，qualifier也相同的多个KeyValue也可能有：多个，此时使用时间戳来区分B)同一个key值可以关联多个valueC)keyvalue中期有：时间戳，类型等关键信息D)每一个keyvalue都有：一个qualifier标识[多选题]173.FusioninsightHD中，Hive客户端()参数是用来控制reduce并发度的。A)hive.exec.reducers.bytes.per.reducerB)hive.exec-ducers.maxC)hive.exec.max.dynamic.partitionsD)hive.exec.max.dynamic.partitions.pemode[多选题]174.以下哪些选项是ElasticSearch主节点EsMaster功能?()A)参与文档数据变更B)参与文档数据搜索C)参与新建索引D)参与删除索引[多选题]175.Spark适用于以下()场景。A)交互式查询B)实时流处理C)批处理D)图计算[多选题]176.FusionlnsightHD中，关于Ooze的作业管理，对于己暂停的作业可以进行()操作。A)killB)runC)resumeD)submit[多选题]177.关于Kafka的Peoducer,如下说法正确的是：()。A)Producer是：消息生产者B)Producer生产数据需要指定TopicC)可以同时起多个Producer进程向同一个Topic进行数据发送D)Producer生产数据时需要先连接ZooKeeper,而后才连接Broker[多选题]178.FusionlnsightHD中，属于Streaming的数据分发方式有：()。A)ShuffleGroupingB)FieldGroupingC)LocalGroupingD)DirectGrouping[多选题]179.常用的数据结构类型是?（）A)结构化数据B)无结构化数据C)半结构化数据D)非结构化数据[多选题]180.Google发布的三篇论文是哪些？（）A)GFSB)HDFSC)MapReduceD)BigTable[多选题]181.对HBase的列族，可以设置()属性。A)VersionsB)TTLC)CoprocessorD)Compression[多选题]182.HBase读写用户表数据时需要下列哪些角色参与?()A)RegionServerB)HMasterC)ZooKeeperD)Region[多选题]183.关于表扫描算子的说法正确的是()?A)对于点查或者范围扫描等过滤太量数据的查询，如果使用SeqScan全表扫描会比较快。B)表的数目比较少的时候，使用Seqscan效率更高。C)SQL的执行计划第一步就是从表扫描算子开始的。D)SeqScan是指顺序扫描表的所有信息。[多选题]184.FusionInsightHD系统中Hive支持的存储格式包括：()。A)TextFileB)SequenceFileC)RCFileD)Hfile[多选题]185.ElasticSearch具有什么特点?()A)支持集群拓展B)支持结构化数据检索C)支持非结构化数据检索D)支持事务机制[多选题]186.下面哪些是GaussDB200的特点()?A)支持集群在线扩容。B)支持就地升级。C)支持自动降级。D)支持标准SQL。[多选题]187.Redis使用场景包含以下哪些特点?()A)支持持久化B)丰富数据结构存取C)低时延D)高性能[多选题]188.大数据计算框架Spark中除了RDD，还有哪些数据类型？()A)DataSetB)DataFrameC)DataTypeD)DataSchema[多选题]189.对于HBaserowkey的设计原则，如下描述正确的是：()。A)访问权重高的属性值放在RowKey前面B)访问权重高的属性值放在Rowkey后半部分C)离散度好的属性值放在Rowkey前半部分D)离散度好的属性值放在Rowkey后半部分[多选题]190.计算10分钟内的单词，每5分钟更新一次。若程序在11：00开始运行，在12：07收到的一个数字。这个数字应该对应于以下哪些窗口的计数?()A)12：00-12：10B)11：55-12：05C)12：05-12：15D)12：10-12：20[多选题]191.SparkSQL使用场景丰富，可以处理的数据源包括?()A)JsonB)HiveC)文本文件D)RDD[多选题]192.大数据计算框架Flink的支持哪些资源调度方式?()A)DockerB)YARNC)StandaloneD)Mesos[多选题]193.下列关于聚集算子的说法正确的是()？A)当聚集缩减率较大时使用Hashagg。B)Hashagg性能最佳，一般聚集算子尽量都用Hashagg。C)通过设置enable_sort=off，可以关闭Sort+GroupAgg。D)聚集算子需要所有聚集列都支持排序。[多选题]194.执行Hbase读取数据业务，需要从：()读取。A)HmasterB)HfileC)HlogD)MetaStore[多选题]195.以下属于控制算子的有：()。A)HashJoinB)AppendC)AggD)RecursiveUnoin[多选题]196.对GaussDB200CUDesc机制描述正确的是?（）A)CUDesc为列存表B)采用Min/Max稀疏索引C)列存表的辅助表D)每条记录对应一个CU(60Krows)[多选题]197.ElasticSearch支持的gateway类型有?()A)AmazonS3B)本地文件系统C)HDFSD)AmazonS5[多选题]198.以下()措施能提高HBase的查询性能。A)预分region,使region分布均匀，提高并发B)查询频繁属性放在rowkey前面部分C)使用二级索引，适应更多查询场景D)同时读取的数据存放在同一个cell中[多选题]199.创建数据库可以指定兼容()参数。A)MySQLB)OraC)TDD)SQLServer[多选题]200.下面关于FusionInsightLibrADM的支持平台描述正确的有：()。A)可以运行在SUSE11.3系统上B)需要运行在InternetExplorer9.0及以上版本C)JDK需要1.6及以上版本D)操作系统需要预留2G内存，10G磁盘空间[多选题]201.整库迁移支持的源端数据源类型有：()。A)MySQLB)OracleC)HiveD)DWS[多选题]202.创建API时，需要填写()信息。A)API名称B)API目录C)请求PathD)请求方法[多选题]203.gs_dump和gs_dumpa11的异同点是()A)二者都支持纯文本格式数据的导出。B)ds_dump只支持纯文本格式的数据导出，ds_dumpa11支持多种数据格式的数据导出。C)二者都支持公共全局对象的数据导出。D)ds_dump针对的是单个数据库，ds_dumpa11针对的是所有数据库。[多选题]204.Flume中以下哪些选项属于SinkProcessor的类型?()A)FailoverSinkProcessorB)BlankSinkProcessorC)DefaultSinkProcessorD)LoadbalanceSinkProcessor[多选题]205.()属于CLOG日志记录的状态。A)CommittedB)AbortedC)Sub-CommittedD)Inprogress[多选题]206.创建GaussDB200的索引时，应注意以下哪些事项()A)索引的设计与业务强相关，与数据无关。B)一般在经常排序的字段上添加索引。C)索引的设计与数据强相关，与业务无关。D)一般在热点数据上添加索引。[多选题]207.下面哪些关键词是Kafka的特点？()A)高吞吐B)分布式C)消息持久化D)支持消息随机读取[多选题]208.GaussDB200支持的语法包括（）A)DQL(数据查询语言)B)DDL(数据定义语言)C)DML(数据操作语言)D)DCL(数据控制语言)[多选题]209.YARN容量调度器的主要特性有：()。A)容量保证B)动态更新配置文件C)灵活性D)多重租赁[多选题]210.以下哪些情况下可以采用Replication方式存储数据()?()A)存储的表的数据量较小B)需要较高的并发分析能力C)存储的表的数据量较大D)以上全都正确第3部分：判断题，共28题，请判断题目是否正确。[判断题]211.Kafak所有消息都会被持久化到硬盘中，同时Kafka通过对TopicPartition设置Replication来保障数据的可靠性。A)正确B)错误[判断题]212.Flink适用于高并发处理数据、毫秒级时延应用。A)正确B)错误[判断题]213.Hbase的BloomFiliter是用来过滤数据。A)正确B)错误[判断题]214.Hive中groupby指的是通过一定规则将一个数据集划分成若干个小的数据集，然后针对若干个小的数据集进行分组处理。A)正确B)错误[判断题]215.采用Nestloop算子实现连接操作没有限制。A)正确B)错误[判断题]216.Flume传输数据的过程中，Sink取走数据并写入目的地后，会将events从channel中删除。A)正确B)错误[判断题]217.数据质量监控DQC（DataQualityControl）模块是对数据库里的数据质量进行质量管理的工具。A)正确B)错误[判断题]218.用户权限管理基于角色的访问控制，提供可视化的多组统一的集群中用户权限管理。A)正确B)错误[判断题]219.Flume架构中，一个source可以连接多个Channel。A)正确B)错误[判断题]220.Zookeeper的增强性包括在审计日志中添加ephemeralnode被删除的审计日志。A)正确B)错误[判断题]221.Hive是一种数据仓库处理工具，使用类似SQL的HiveSQL语言实现数据查询功能，所有Hice的数据存储都存储在HDFS中。A)正确B)错误[判断题]222.元数据按用途的不同分为三类：技术元数据、业务元数据和应用元数据。A)正确B)错误[判断题]223.DWS采用计算分布、数据分布的MPP架构。A)正确B)错误[判断题]224.数据中台汇聚数据类型包括结构化、非结构化、采集量测。A)正确B)错误[判断题]225.Append算子可能存在左右子节点。A)正确B)错误[判断题]226.HLL类型的存储长度是固定的。A)正确B)错误[判断题]227.数据湖探索（DataLakeInsight，简称DLI）兼容标准SQL。A)正确B)错误[判断题]228.执行引擎的主要功能是解析用户输入的SQL查询，生成执行计划。A)正确B)错误[判断题]229.导入数据字典的excel中，字典类型代码在系统中不存在且在excel中不存在，否则导入失败。A)正确B)错误[判断题]230.Hive中unionall操作符用于合并两个或多个select语句的结果集，结果集中，不允许有重复值。A)正确B)错误[判断题]231.二级索引为Hbase提供了按照某些列的值进行索引的功能，二级索引先查表索引，在定位到数据表中的位置，不需要全表扫描。A)正确B)错误[判断题]232.对高价值高度聚合的信息和知识的批次处理是大数据行业主要商业诉求。A)正确B)错误[判断题]233.在线迁移中可能因外部因素导致迁移暂时故障，用户根据迁移日志信息解决问题后，可以通过续传功能继续迁移。A)正确B)错误[判断题]234.HDFS采用的是?一次写入、多次读取''的文件访问模型。所以推荐一个文件经过创建、写入和关闭之后，就不要再去修改。A)正确B)错误[判断题]235.数据订阅成功后，如果不及时进行消费，新产生的数据最多保留3天。A)正确B)错误[判断题]236.数据实时标签依赖的技术是Hadoop、Storm、Spark、Impala等计算框架和HDFS、HBase、MongoDB等数据存储服务。A)正确B)错误[判断题]237.FusionlnsigtHD中，用户想通过HBaseshell操作来查询某个HBase表中的内容，这种场景下推荐管理员给这个用户分配一个机机账号。A)正确B)错误[判断题]238.FULLJOIN和CROSSJOIN结果等同。A)正确B)错误第4部分：问答题，共22题，请在空白处填写正确答案。[问答题]239.Spark2.0中引入了SparkSession的概念，为用户提供了一个统一的切入点来使用Spark的各项功能。（）A)对B)错[问答题]240.实时流处理计算框架中实时性最好的是StructuredStreaming。（）A)TRUEB)FALSE[问答题]241.批处理优先推荐使用Spark或SparkSQL模式，也可以使用MapReduce或Hive模式。两种批处理模式可以同时使用。(A)A)TRUEB)FALSE[问答题]242.Sqoop主要用来做实时流处理。（）A)对B)错[问答题]243.下列创建propertyKey的代码正确吗?()PropertyKeypropertyKey=newProperty.Key()；PropertyKey.setDataType(DataType.String)；PropertyKey.setName(?name?);Api.addPropertyKey(propertyKey)：A)TRUEB)FALSE[问答题]244.Hadoop回收站trash，若开启需要修改配置文件core-site.xml。（）A)对B)错[问答题]245.CTID的值是增量增加的。（）A)TRUEB)FALSE[问答题]246.基于ForeignTable的连接可以连接任何同构和异构数据库。（）A)对B)错[问答题]247.Flink是一个批处理和流处理结合的统一计算框架。（）A)TRUEB)FALSE[问答题]248.Kettle中有两种脚本文件transformation(转换ktr结尾)和job(任务kjb结尾)。（）A)TRUEB)FALSE[问答题]249.Kafka中每个Topic都由一个或者多个Partitions构成，Partition数量决定了每个Consumergroup中并发消费者的最大数量。()A)TRUEB)FALSE[问答题]250.不同Family可以设置不同的TTL属性（T/F）[问答题]251.Redis的数据持久化是如何做的？[问答题]252.应用开发需要进行需求分析，包括需求调研和市场调研。（）A)对B)错[问答题]253.Loader不能提供图形化操作。（）A)对B)错[问答题]254.kafka是如何保障数据可靠的？[问答题]255.Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。（）A)TRUEB)FALSE[问答题]256.Redis是个多线程模型，客户端的命令是异步执行的。()A)TRUEB)FALSE[问答题]257.FusionlnsightSparkSQL默认采用（），可同时兼容SQL99和hiveql。[问答题]258.大数据技术的解决方案思路是聚焦在单台机器上，思考如何提升单机的性能，寻找更贵更好的服务器。()A)TRUEB)FALSE[问答题]259.Redis采用Master-Slave架构，由Master节点管理S1ave工作。（）A)TRUEB)FALSE[问答题]260.请列举出至少3种hive支持的文件格式；1.答案:B解析:2.答案:B解析:3.答案:A解析:4.答案:A解析:5.答案:B解析:6.答案:B解析:7.答案:A解析:A（由于Flume主要是为了将集群外的数据导入到集群内，而如果数据已经存在HDFS中，那么数据已经在集群内，所以没有提供从HDFS中读取数据的HDFSSource)8.答案:D解析:9.答案:C解析:10.答案:D解析:11.答案:A解析:12.答案:D解析:13.答案:D解析:14.答案:D解析:15.答案:D解析:16.答案:B解析:17.答案:D解析:18.答案:A解析:19.答案:C解析:20.答案:C解析:21.答案:B解析:22.答案:C解析:Action（执行）：触发Spark作业运行，真正触发转换算子的计算；Action操作会对RDD计算出一个结果，并把结果返回到驱动器程序Driver中，或把结果存储到外部存储系统（如HDFS，磁盘，cpu等）中。23.答案:B解析:24.答案:C解析:25.答案:D解析:26.答案:B解析:27.答案:A解析:28.答案:B解析:29.答案:B解析:30.答案:B解析:31.答案:B解析:32.答案:B解析:33.答案:D解析:34.答案:D解析:35.答案:A解析:36.答案:A解析:37.答案:A解析:38.答案:A解析:39.答案:C解析:40.答案:B解析:41.答案:A解析:42.答案:D解析:43.答案:C解析:44.答案:D解析:45.答案:D解析:46.答案:D解析:47.答案:B解析:48.答案:B解析:49.答案:C解析:50.答案:C解析:51.答案:D解析:52.答案:A解析:53.答案:D解析:54.答案:A解析:55.答案:D解析:56.答案:C解析:57.答案:B解析:58.答案:C解析:59.答案:D解析:为了使得数据能够正确、不重复地分配给各DN，保证入库数据的唯一性，GaussDB200对应提供了三种策略：1、Normal策略：利用高斯数据服务工具GDS(GaussDataService)来管理用户数据，将集群之外主机上的数据导入到集群中。2、Shared策略：利用网络文件系统NFS(NetworkFileSystem)服务，将存放用户数据的服务器统一挂载到各DN所在主机的相同路径下，将集群之外主机上的数据导入到集群中。3、Private策略：用户自行将数据文件上传到各DN所在主机。60.答案:B解析:61.答案:B解析:62.答案:A解析:63.答案:B解析:64.答案:B解析:65.答案:B解析:66.答案:C解析:67.答案:D解析:68.答案:A解析:69.答案:C解析:70.答案:D解析:71.答案:A解析:72.答案:A解析:73.答案:C解析:74.答案:B解析:75.答案:C解析:76.答案:D解析:77.答案:C解析:78.答案:A解析:79.答案:C解析:80.答案:B解析:81.答案:D解析:82.答案:B解析:83.答案:B解析:84.答案:B解析:85.答案:A解析:86.答案:A解析:87.答案:B解析:88.答案:B解析:89.答案:D解析:90.答案:D解析:91.答案:D解析:92.答案:B解析:RDD具有容错机制，并且只读不能修改，可以执行确定的转换操作创建新的RDD。具体来讲，RDD具有以下几个属性。只读：不能修改，只能通过转换操作生成新的RDD。分布式：可以分布在多台机器上进行并行处理。弹性：计算过程中内存不够时它会和磁盘进行数据交换。基于内存：可以全部或部分缓存在内存中，在多次计算间重用。93.答案:D解析:94.答案:B解析:95.答案:C解析:96.答案:D解析:97.答案:C解析:98.答案:A解析:99.答案:D解析:100.答案:B解析:101.答案:C解析:102.答案:B解析:103.答案:D解析:104.答案:D解析:105.答案:C解析:Presto是一个facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Echarts是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。ApacheKylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。106.答案:A解析:107.答案:B解析:108.答案:C解析:109.答案:B解析:110.答案:B解析:111.答案:D解析:112.答案:D解析:113.答案:B解析:114.答案:D解析:gateway的主要职责是用来对数据进行长持久化(持久化了之后加上版本信息，不就可以自由的往还于过去未来之间了吗？)，另外，整个集群重启之后可以通过gateway重

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

华为大数据练习(习题卷2)

文档简介

温馨提示

最新文档

评论

华为大数据练习(习题卷2)

文档简介

温馨提示

最新文档

评论

相关文档