华为大数据练习练习题及答案1-2023-背题版

上传人：无*** IP属地：河北上传时间：2024-01-17 格式：PDF 页数：102 大小：12.59MB 积分：12 举报 版权申诉

已阅读5页，还剩97页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

每题均显示答案和解析

华为大数据练习练习题及答案1（500题）

华为大数据练习练习题及答案1

1.［单选题］hdfsdfs命令中的-get和-put命令操作对象是（）

A）文件

B）目录

C）两者都是

答案:C

解析：

2.［单选题］要级联删除用户创建的表等数据库对象，使用关键字（）。

A）STRICT

B）CASCADE

C）USAGE

答案:B

解析：

3.［单选题］表设计时选择分布列的原则包括：（）。

A）作为分布列的字段尽量聚集

B）选择查询中关联条件作为分布列

C）尽量选择在查询中存在形如col=10001过滤条件的字段

答案:B

解析：

4.［单选题］GaussDB200的高可用主要体现在哪些方面（）？

A）数据融合

B）分析融合

C）计算融合

D）以上全都正确

答案:D

解析：

5.［单选题］假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,Queue

A.minimum-user-1imit-percent=24o则以下说法错误的是：（）。

A）第3个用户提交任务时，每个用户最多获得33.33%的资源

B）第2个用户提交任务时每个用户最多获得50%的资源

C）第4个用户提交任务时，每个用户最多获得25%的资源

D）第5个用户提交任务时，每个用户最多获得20%的资源

答案:D

解析：

6.［单选题］在用户验证权限时，应当在“服务列表”中选择数据复制服务，进入DRS主界面，单击右

上角（），尝试购创建迁移任务。

A）修改迁移任务

B）创建迁移任务

C）查阅权限

D）删除迁移任务

答案:B

解析：

7.［单选题］以下（）组件负责生成和维护全局事务ID、事务快照、时间戳等全局唯一信息。

A）GTM

B）WLM

C）CN

D）DN

答案:A

解析：

8.［单选题］在表/文件迁移的任务中，CDM支持定时执行作业，重复周期单位不能按：（）。

A）秒

B）小时

C）天

D）月

答案:A

解析：

9.［单选题］关于Fusioninsightmanager界面Hive日志收集的描述中不正确的是：（）。

A）可以指定实例进行日志收集

B）可以指定节点IP进行收集

C）可以指定用户进行日志收集

D）可以指定时间段进行日志收集

答案:C

解析：

10.［单选题］Kafka中数据从Producer到Broker和Broker到Consumer分别是哪种传递方式

?（）

A）push,push

B）pull,pull

C)pull,push

D)push,pull

答案:D

解析：

11.［单选题］TOPN操作最适合采用哪种Redis数据结构？()

A)Set

B)Hash

OList

D)SortedSet

答案:D

解析：

12.［单选题］下列()命令是从HDFS下载目录/文件到本地。

A)dfs-put

B)dfs-cat

C)dfs-get

D)dfs-mkdir

答案:C

解析：

13.［单选题］flume传输数据过程中，为了防止数据不丢失，使用的Channel类型是？()

A)MemoryChannel

B)FileChannel

C)JDBCChannel

D)HDFSChannel

答案:B

解析：

14.［单选题］Kafka集群在运行期间，直接依赖于下列()组件。

A)spark

B)zookeeper

Ohdfs

D)hbase

答案：B

解析：

15.［单选题］第三次信息化浪潮标志不包含以下哪项？()

A)互联网

B)云计算

C)大数据

D)物联网

答案:A

解析：

16.［单选题］执行引擎的类型包括：（）。

A）行执行引擎

B）向量化执行引擎

C）行列混合执行引擎

D）以上都是

答案：D

解析：

17.［单选题］GraphBase能够处理海量数据的原因是什么？（）

A）基于Elasticsearch的索引机制

B）基于HBase的分布式存储机制

C）基于Spark的分布式内存计算技术

D）图机制特性

答案:B

解析：

18.［单选题］在网络日志数据分析场景中，日志服务器通过log4j将数据传给（），（）会对数据进

行简单的处理过滤，然后将数据按照日期存储到（）上。（）

A）Flume、Flume、HDFS

B）Hive、Flume、Loader

C）HDFS,Flume、Flume

D）Spark,Sqoop、Flume

答案:A

解析：

19.［单选题］创建数据同步任务后，对于增量同步中的任务，可以通过：（）来增加或者移除同步数

据库和表，并提交同步任务。

A）删除同步对象

B）编辑同步对象

C）创建同步对象

D）返回同步对象

答案：B

解析：

20.［单选题］Hadoop系统中YARN资源的抽象是用：（）表示。

A）内存

B）CPU

C）Container

D）磁盘空间

答案:c

解析：

21.［单选题］哪个是实时检索解决方案的数据源？（）

A）流数据

B）以上都是

C）文件数据

D）图数据

答案：B

解析：

22.［单选题］Hive创建（）时，会将数据移动到数据仓库指向的路径;创建（），仅记录数据所在的路

径，不对数据的位置做任何改变（）

A）内部表、外部表

B）内部表、元数据

C）原元数据、外部表

D）外部表、托管表

答案:A

解析：

23.［单选题］下面关于GaussDB200列存表的压缩说法正确的是（）?（0

A）列存表支持LZ4、ZLIB、ZIP等压缩算法。

B）列存表不指定压缩级别时，默认是NULL。

C）能够根据数据特征自适应的选择压缩算法。

D）平均压缩比10：lo

答案:C

解析：

24.［单选题］Insert事务使用的锁模式是：（）。

A）AccessShareLock

B）RowExclusiveLock

C）ShareUpdateExclusiveLock

D）ExclusiveLock

答案:B

解析：

25.［单选题］GaussDB200有两张相同字段结构和数据量的表table」和table_2,table_l是

行存表，tabled是列存表，执行SQL语句"selectnamefromtable_namewherenum=l”,

table_l查询了（）数据量，table_2查询了（）数据量（一个单元格为一个数据量）。（）

A）9,6

B）3,9

03,6

D)9,9

答案:A

解析：

26.［单选题］GaussDB200的SQL自诊断在Monitor模式下，可识别下列哪个IssuePattern()?

A)多列统计信息未收集

B)大表等值关联NestLoop

C)数据倾斜

D)HashJoin中大表做内表

答案:A

解析：

27.［单选题］Redis中String数据类型不含以下哪种操作？()

A)mget

B)size

C)strlen

D)append

答案:B

解析：

28.［单选题］FusioninsightManager对服务的管理操作，下面说法错误的是：()。

A)可以设置不常用的服务隐藏显示

B)可以添加和卸载服务

C)可以对服务进行启停操作

D)可以查看服务的当前状态

答案:A

解析：

29.［单选题］Flume当前不支持的source有()

A)HDFSsource

B)avrosource

C)HTTPsource

D)Kafkasource

答案:A

解析:A(由于Flume主要是为了将集群外的数据导入到集群内，而如果数据已经存在HDFS中，那么

数据已经在集群内，所以没有提供从HDFS中读取数据的HDFSSource)

30.［单选题］在有N个节点FusioninsightHD集群中部署HBase时、推荐部署()个HMaster进程

,()个RegionServer进程。

A)3、N

B)N、N

02,N

D)2、2

答案:C

解析：

31.［单选题］创建一个存储过程proc_addCREATEORREPLACEPROCEDUREproc_add(param1in

INTEGER,param2outINTEGER,param3inINTEGER)ASBEGINParam2：=param1+param3；

END；，创建一个存储过程proc_testCREATEORREPLACEPROCEDUREproc_test(resultout

INTEGER)AsDECLAREInput1INTEGER：=1；Input2INTEGER：=2；StatementVARCHAR

2(200)：Param2INTEGER：BEGIN一声明调用语句Statement：='callproc_add(：co1_1,

：co1_2,：co1_3),；一执行语句EXECUTEIMMEDIATEstatementUSINGINinput1,OUT

param2,INinput2；Result：=param2；END；执行语句callproc_test(10),结果是()。

A)3

B)无返回值

D)2

答案:A

解析：

32.［单选题］StructuredStreaming中持续地查询最新计算结果至写出。这个过程叫做什么？。

A)continousquery

B)querystring

C)matchquery

D)matchphrase

答案:A

解析：

33.［单选题］某公司要建立资料库，该资料库要用ElasticSearch进行检索。请问下列哪些选项()

A)Word文档

B)公司宣传视频

C)产品设计图

D)以上全都正确

答案:D

解析：

34.［单选题］在FusioninsightHD中，可以在()查看MapReduce应用程序的运行结果。

A)FusioninsightManager的web界面

B)LoaderWeb界面

C)Solrweb界面

D)YamWeb界面

答案：D

解析：

35.［单选题］Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于

HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中

,并在随后由0调用执行。()

A)内存、MapReduce

B)HDFS、Yarn

C)HBase、Yarn

D)HDFS、MapReduce

答案：D

解析：

36.［单选题］Redis中数据排序的性能优化不包含以下哪个选项？()

A)减少待排序键中元素的数量

B)增加集群中Master节点

C)如果要排序的数据数量很大，尽可能使用store参数将结果缓存

D)使用limi参数只获取需要的数据

答案:D

解析：

37.［单选题］()是一个实现了文件系统的抽象类，继承自

org.apache,hadoop.conf.Configured,并实现了Closeable接口，可以适用于多种文件系统。

()

A)FSDatalnputStream

B)FileConfiguration

C)FSDataOutputStream

D)FileSystem

答案:C

解析：

38.［单选题］关于Kerberos的TGT以下说法错误的是：()。

A)TGT全称为票据授权服务票据，主要由KDC服务器生成

B)TGT一次生成之后，可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

答案:B

解析：

39.［单选题］FusioninsightHDHBase默认使用()作为其底层文件存储系统。

A)HDFS

B)Hadoop

C)Memory

D)MapReduce

答案:A

解析:

40.［单选题］MapReduce任务最终是在下列()中被执行的。

A)NodeManager

B)container

C)ResourceManager

D)AppMaster

答案:B

解析：

41.［单选题］Flume数据采集过程中，下列选项中能对数据进行过滤和修饰的是：()。

A)Sink

B)Channel

C)ChannelSelector

D)Interceptor

答案:D

解析：

42.［单选题］HBase不支持哪些SQL操作?()

A)HiveSQL

B)SparkSQL

C)MySQL

D)PhoenixSQL

答案:C

解析：

43.［单选题］以下关于数据服务API开放方使用流程，描述正确的是：()。

A)创建api并发布api

B)获取API

C)调用API

D)创建应用并获取授权

答案:A

解析：

44.［单选题］下面关于ACID解释错误的是：()。

A)A-atomictty原子性：事务的所有操作要么全部完成，要么全部不完成

B)C-consistency一致性：事务始终保证系统处于一致性的状态，不影响一致性

C)I-Isolation隔离性：事务执行是隔离的，3个隔离级别

D)D-Durability持久性：事务的结果是持久的

答案:C

解析：

45.［单选题］关于批量数据处理组件的描述不正确的是？（）

A）Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处

理速度较慢

B）SparkSQL：新型SQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效。

0Spark：新型批处理引擎，可以用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适

合海量数据，处理速度高效。

D）MapReduce：传统批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业

,使用广泛，海量数据下表现不稳定.但是处理建度较快。

答案：D

解析:MapReduce：大数据批处理引擎，用于处理海量数据，但是处理速度较慢

46.［单选题］假设现在要做一个可以根据线索指导运维人员进行排障的功能，你建议选择下列哪个工

具实现该功能？（）

A)Lucene

B)HBase

C)ElasticSearch

D)GraphBase

答案:C

解析：

47.［单选题］Spark的中间数据放在（）中，对于迭代运算的效率更高，进行批处理时更高效.（）

A）SparkCore

B）磁盘

OHDFS

D）内存

答案：D

解析：

48.［单选题］Hive常被用来处理（）场景。

A）事务性处理

B）批量计算

C）实时性计算

D）流计算

答案:B

解析：

49.［单选题］FusioninsightManager对服务的配置功能说法不正确的是:（）。

A）服务级别的配置可对所有实例生效

B）实例级别的配置只针对本实例生效

C）实例级别的配置对其他实例也生效

D）配置保存后需要重启服务才能生效

答案:C

解析:

50.［单选题］下列（）不属于创建Loader作业时必须项。

A）优先级

B）名称

C）连接

D）类型

答案:A

解析：

51.［单选题］关于表连接算子的说法错误的是（）？

A）聚合操作如groupby会触发NergeJoin.

B）表连接算子主要有Nestloop,MergeJoin,MinorJoin,HashJoin.

C）算子的选择是SQL根据逻辑自行选择的，与人为无关。

D）默认情况下，执行效率来说HashJoin最高。

答案:D

解析：

52.［单选题］HDFS中Namenode的主备仲裁，是由：（）组件控制的。

A）HDFSClient

B）NodeManager

C）ResourceManager

D）ZooKeeperFailoverController

答案：D

解析：

53.［单选题］数据中台功能架构中运营管理包含：（）能力。

A）内存计算

B）标签管理

C）任务调度

D）服务目录

答案:C

解析：

54.［单选题］下列（）HDFS命令可用于检测数据块的完整性。

A）hdfsfsck/

B）hdfsfsck-delete

C）hdfsdfsadmin-report

D）hdfsbalancer-threshold1

答案:A

解析：

55.［单选题］GaussDB200支持什么格式的数据存储？()

A)行存储

B)列存储

C)行列混存

D)以上都对

答案:D

解析：

56.［单选题］有如下存储过程，CREATEORREPLACEPROCEDUREprc_l(paramllNINTEGERDEFAULT

3,param2IN0UTINTEGER)ASBEGINParam2：=param1+param2；RETURN：END：调用如上

存储过程callprc_l(2,1),结果是()？

A)1

B)2

D)3

答案:D

解析：

57.［单选题］以下关于常见数据库描述正确的是？()

A)HBase：基于ZooKeeper,Hadoop,适合非结构化数据存储，是高可靠性、高性能、面向行、

可伸缩的分布式存储系统。

B)Oracle：关系型数据库，行式存储，支持SQL,中量级数据分析、存储、不可分布式，开源

软件。

ORedis：开源key-value数据库，读写性能极高，数据类型丰富，可以与Storm结合进行实时

查询分析。

D)Mysql：关系型数据库，列式存储，支持SQL,轻量级数据分析、存储，仅有商业版本。

答案:C

解析：

58.［单选题］硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一份

文件，HDFS会存放()份。

A)3

B)5

D)1

答案:A

解析：

59.［单选题］当ElasticSearch集群有节点加入或退出时，集群数据会发生什么动作？()

A)数据重载

B)数据分布

C)数据更新

D)数据重建

答案：B

解析：

60.［单选题］以下哪些选项不属于大数据计算框架？()

A)TensorFlow

B)ApacheHadoop

C)FusioninsightHD

D)ClouderaCDH

答案:A

解析：

61.［单选题］FusioninsightManager用户权限管理不支持()配置。

A)给用户配置角色

B)给用户组配置角色

C)给角色配置权限

D)给用户组配置权限

答案:D

解析：

62.［单选题］对于HBaseKeyValue存储模型描述不正确的是？()

A)同一个Key值只能关联一个Value

B)拥有时间戳、类型等关键信息

C)KeyValue具有特定的格式

D)时间戳来区分多个记录版本

答案:A

解析：

63.［单选题］HDFS集群跟目录下存在一个文件text.txt,下列()命令可以查到此文件所存储的

DatNode节点信息。

A)hdfsfsck/test,txt-files

B)hdfsfsck/text,txt-locations

C)hdfsfsck/test.txt-blocks

D)hdfsfsck/test,txt-list-corruptfileblocks

答案：B

解析：

64.［单选题］下面哪个Flume功能可以给Event添加Header信息。()

A)Selector

B)Channel

C)Interceptor

D)Sink

答案:c

解析：

65.［单选题］Redis不适用于以下哪个应用场景？（）

A）获取PB级Value数据

B）获取TOPN操作

C）获取手机验证码

D）获取最新N个数据的操作

答案:A

解析：

66.［单选题］Action是RDD的算子的一个类型，不可以将结果写入（）

A）磁盘

B）CPU

C）HDFS

D）数据库

答案:D

解析：

67.［单选题］以下关于FusioninsightCTBase的描述不正确的是：（）。

A）CTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程

序中进行合并和解析

B）CTBase是基于Hbase的聚簇表开发框架

OCTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度

D）CTBase的javaAPI提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难

度

答案:B

解析：

68.［单选题］资源注册页面，点击solr增量索引的作用是：（）。

A）创建索引

B）增加索引

C）更新索引

D）删除说因

答案:C

解析：

69.［单选题］下面哪个数据类型不是GaussDB200支持的数据类型（）？

A）JS0N类型

B）货币类型

C）数值类型

D）XML类型

答案:D

解析：

70.［单选题］下列哪个不是Explain的关键字()？

A)Tablescan

B)HashJoin

C)Filter

D)Seqscan

答案:C

解析：

71.［单选题］ElasticSearch进行全文检索一般需要哪几个步骤？()

A)清洗、分词、建立索引

B)清洗、分词

C)清洗、建立索引

D)清洗、建立索引、分词

答案:A

解析：

72.［单选题］下列选项中，关于Zookeeper可靠性含义说法正确的是：()。

A)可靠性通过主备部署模式实现

B)可靠性是指更新只能成功或者失败，没有中间状态

C)可靠性是指无论哪一个server,对外展示的均是同一个视图

D)可靠性是指一个消息被一个server接受，它将被所有的server接受

答案：D

解析：

73.［单选题］关于GaussDB200的EC跨集群访问，下列说法正确的是()？

A)通过EC(ExtensionConnector)的方式实现跨集群访问，适用于任何集群。

B)通过EC(ExtensionConnector)的方式实现跨集群访问，适用于同构/异构集群。

C)通过EC(ExtensionConnector)的方式实现跨集群访问，只能适用于异构集群。

D)通过EC(ExtensionConnector)的方式实现跨集群访问，只能适用于同构集群。

答案:B

解析：

74.［单选题］以下哪种Hive的方法可以用来对数据求和？()

A)trim

B)data

C)avg

D)sum

答案：D

解析：

75.［单选题］Hbase中的Region是由：()服务进程来管理的。

A)HRegionServer

B)Zookeeper

C)Hmaster

D)DataNode

答案:A

解析：

76.［单选题］FusioninsightHD中Hbase默认使用()组件作为其底层文件存储系统。

A)File

B)Kafka

C)HDFS

D)Memory

答案:C

解析：

77.［单选题］以下关于DWS数据库透明加密的特点，错误的是：()。

A)支持行存表数据加密，不支持列存表加密

B)支持集群级别配置

C)使用KMS服务加密

D)加密密钥层次结构有三层

答案:A

解析：

78.［单选题］关于GaussDB200的数据导入导出下列说法正确的是()？

A)使用gsql元命令和COPY命令在使用和用法上是一样的。

B)GDS在数据导入时可以做预处理，比如非法字符替换、容错处理、数据聚合等。

OC0PY方式使用简单，一般用在大量数据的导入导出中。

D)INSERT数据写入适合数据量不大，并发度不高的场景。

答案:B

解析：

79.［单选题］以下()不属于开源数据湖解决方案。

A)DLI

B)Iceberg

OHudi

D)OpenDelta

答案:A

解析：

80.［单选题］HBase中Region的物理存储单元是:()。

A）Region

B）ColumnFamily

C）Column

D）Row

答案:B

解析：

81.［单选题］以下不属于CN自动剔除约束的是：（）。

A）设置CN心跳超时时间的值大于0

B）集群中的CN总数必须大于等于3

C）多CN故障时只能剔除一个CN

D）CN剔除以后，逻辑集群的创建、删除、扩容、缩容、回滚、显示操作可以执行

答案:D

解析：

82.［单选题］MULTIXACT日志存储的内容针对的是记录（）。

A)xmin

B)xmax

C)data

D)cid

答案:B

解析：

83.［单选题］安全Kafka集群中，关于Kafka组的说法错误的是（）

A）kafkaadmin组拥有Topic的所有权限

B）kafka组用户被授予Topic相关权限后，只有使用新API才能访问;

C）Kafkasuper组用户默认具有所有的Topic的读写权限

D）kafka组用户被授予Topic相关权限后，一定可以访问

答案:D

解析：

84.［单选题］元数据采集任务的启动方式不包括：（）。

A）循环执行

B）定时执行

C）手动执行

D）定时立即执行

答案:A

解析：

85.［单选题］对ElasticSearch检索流程描述正确的是？（）

A）检索节点汇总结果发送给客户端

B）分片节点汇总结果发送给客户端

C)检索节点不需要汇总结果直接把结果发送给客户端

D)分片节点不需要汇总结果直接把结果发送给客户端

答案:A

解析：

86.［单选题］FusioninsightHD系统中HBase的最小处理单元是Region,UserRegion和

RegionServer之间的路由信息是保存在()。

A)ZooKeeper

B)HDFS

C)Master

D)meta表

答案:D

解析：

87.［单选题］Flink的数据转换操作在：()环节中完成。

A)channel

B)Transformation

C)sink

D)source

答案:B

解析：

88.［单选题］以下()工具可以实现大量数据的快速导入和导出。

A)gsql

B)GDS

C)DataStudio

D)DSC

答案:B

解析：

89.［单选题］Gremlin中查询单个点的信息该用什么命令？()

A)gV().hasLabel(ntestn).values("age")

B)gV(),hasLabel("test").valueMap(MString_list","age")

C)gV().hasLabel("test")

D)gV(13464736).valueMap()

答案:D

解析：

90.［单选题］Spark的核心概念不包括？()

A)RDD

B)Hlog

C)宽窄依赖

D）Shuffle

答案:B

解析：

91.［单选题］ElasticSearch是怎么实现Master选举的？（）

A）借助ZooKeeper选举

B）内部自行选举

C）随机生成

D）自行指定

答案:A

解析：

92.［单选题］FusioninsightHDV100R002c60中，关于Hive的Python接口类型，以下描述不正确的是

：（）o

A）要求Python版本不低于2.6.6,不高于2.7.0

B）客户端必须装有setuptools,且版本不低于5.0

C）hive_python_client脚本提供了直接执行SQL的功能，如hive_python_client"showtables5

D）Python二次开发不支持安全集群

答案:D

解析：

93.［单选题］数据质量支持从完整性、（）、及时性、一致性、准确性、唯一性六个维度进行单列

、跨列、跨行和跨表的分析。自定义质量规则时，请对此规则进行维度匹配。

A）交叉性

B）共享性

C）时效性

D）有效性

答案:D

解析：

94.［单选题］查询集合操作中，表示交集的是：（）。

A）INTERSECT

B）MINUS

OEXECPT

D）UNION

答案:A

解析：

95.［单选题］下列关于GaussDB200的说法正确的是（）？

A）RETURNNEXT表示返回下一个

B）存储过程需要返回值时使用RETURN关键字。

C）RETURNQUERY用于返回集合

D）RETURN用于返回存储过程调用结果。

答案:C

解析：

96.［单选题］Loader特点不包含?（）

A）图形化

B）实时性

C）高性能

D）安全

答案:B

解析：

97.［单选题］当zookeeper集群节点数为5时，请问集群的容灾能力和（）节点时等价的。

A）3

B）4

D）以上全不正确

答案:B

解析：

98.［单选题］HBase中一个Region进行Split操作时，将一个HFile文件真正分开到两个Region的过程

发生在以下（）阶段。

A）Split过程中

B）Flush过程中

C）Compaction过程中

D）HFile分开过程中

答案:C

解析：

99.［单选题］Kafka中Consumer使用什么方式来记录读取位置？（D）

A）时间信息

B）用户信息

C）设备信息

D）偏移量信息

答案:D

解析：

100.［单选题］Spark是用以下（）编程语言实现的。

A）C

B）C++

C）JAVA

D）Scala

答案:D

解析：

101.［单选题］在很多小文件场景下，Spark会起很多Task,当SQL逻辑中存在shuffle操作时，会大大

增加hash分桶数，严重影响性能，Fusioninsight中，针对小文件的场景通常采用（）算子来对

Table中的小文件生成的Partition进行合并，减少partition数，从而避免在shuffle的时候，生成

过多的hash分桶，提升形成。

A）groupby

B）coalesce

C）connect

D）join

答案:D

解析：

102.［单选题］下列关于Flinkbarrieer描述错误的是：（）。

A）一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来

B）621'1'161'是尸11位快照的核心

C）在插入barrier的时候，会暂时阻断数据流

D）barrier周期性插入到数据流中，并作为数据流的一部分随之流动

答案:C

解析：

103.［单选题］银行进行客户购买力分析，首先获取客户历史账单，确定其中各项商品的计算权重

,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项

目数据流程设计。（）

A）数据可视化-＞数据源-＞数据落地-＞数据处理

B）数据源-＞数据落地—＞数据处理-〉数据可视化

C）数据源-＞数据处理-＞数据落地-＞数据可视化

D）数据可视化-＞数据源-＞数据处理-＞数据落地

答案:C

解析：

104.［单选题］FusioninsightHD中Loader从SFTP服务器导入文件时，不需要做编码转换和数据转换

且速度最快的文件类型是：（）。

A）graph-file

B）binary-file

C）text-file

D）sequence-file

答案:B

解析：

105.［单选题］Hbase元数据MetaRegion路由器信息存放在（）。

A）Zookeeper

B）Meta表

C）HMaster

D）Root表

答案:B

解析：

106.［单选题］关于Hive建表基本操作，描述正确的是：（）。

A）一旦表建好，不可再修改表名

B）一旦表建好，不可再增加新列

C）创建外表时需要指定external关键字

D）一旦表建好，不可再修改列名

答案:C

解析：

107.［单选题］创建Loader作业时，可以在以下（）步骤中设置Map数。

A）输出

B）输入设置

C）转换

D）基本信息

答案:A

解析：

108.［单选题］大数据应用开发流程不包含以下哪项？（）

A）需求分析

B）可行性分析

C）应用推广

D）技术选型

答案:C

解析：

109.［单选题］StructuredStreaming不支持以下哪种计算时间？（）

A）处理时间

B）事件时间

C）结束时间

D）注入时间

答案:C

解析：StructuredStreaming支持处理时间和事件时间，同时支持watermark机制处理滞后数据。

1处理时间：处理时间是指每台机器的系统时间，当流程序采用处理时间时，将使用各个

实例的机器时间。

1注入时间IngestionTime,表示数据到达流式系统时间，简而言之就是流式处理系统接收

到数据的时间；

1事件时间：是指事件在其设备上发生的时间，这个时间在事件进入Structured

Streaming之前已经嵌入事件，然后StructuredStreaming可以提取该时间。

110.［单选题］GaussDB200支持实例故障发生时，业务不中断。因此()。

A)不用担心实例故障带来的影响，无需处理故障问题。

B)在实例恢复或主备切换成功之后，能够继续提供服务。

C)不用担心CN故障导致SQL执行失败，保证SQL100%执行成功。

D)实例故障之后GaussDB200会自动重启，无需人为关注。

答案：B

解析：

111.［单选题］通过HDFS的Shell命令来操作HDFS,表示删除文件的命令是？()

A)hdfsdfs-cat

B)hdfsdfs-rm

C)hdfsdfs-mkdir

D)hdfsdfs-put

答案:B

解析：

112.［单选题］以下哪个不是离线批处理的核心诉求？()

A)处理数据格式多样

B)处理数据量巨大

C)支持SQL类作业和自定义作业

D)处理时间要求高

答案：D

解析：

113.［单选题］CREATETABLEAS创建表，后面需要添加查询语句类型是：()。

A)INSERT

B)UPDATE

C)SELECT

D)DELETE

答案:C

解析：

114.［单选题］Kafka中每种消息类别被称为什么？()

A)Topic

B)Object

C)Subject

D)Theme

答案:A

解析：

115.［单选题］在进行整库迁移时源端数据源类型为Oracle,目的端数据类型不支持：（）。

A）RDSforMySQL

B）MRS（Hive）

C)CSS

D)DWS

答案:C

解析：

116.［单选题］第三次信息化浪潮标志不包含以下哪项？（）

A）云计算

B）物联网

C）大数据

D）互联网

答案:D

解析:

117.［单选题］大数据技术的4V特征不包含以下哪项？（）

A）Velocity

B）Virtual

C）Variety

D）Volume

答案:B

解析：

118.［单选题］下列关于Flinkbarrier描述错误的是：（）。

A）barrier周期性的插入到数据流中，并作为数据流的一部分随之流动

B）barrier是Flink快照的核心

C）一个barrier将本周期快照的数据与下一周期快照的数据分隔开来

D）在插入barrier的时候，会暂时阻断数据

答案：D

解析：

119.［单选题］以下（）选项不属于数据中台三层架构。

A）贴源层

B）轻度汇总层

C）共享层

D）分析层

答案:B

解析：

120.［单选题］下列关于GaussDB200的数据类型转换说法正确的是（）？

A)如果需要保留空字符串时，需要新建兼容性为Postgres的数据库。

B)不同数据类型比较或转换时，使用强制类型转换，以防隐式类型转换结果与预期不符。

C)在ORACLE兼容模式下，在导入数据时，空字符串会自动过滤。

D)在查询中，对常量不需要显式指定数据类型。

答案：D

解析：

121.［单选题］solr中定义以下哪种字段支持后期自定义增加字段()

A)dynamicField

B)copyField

OField

D)以上都是

答案:A

解析：

122.［单选题］Client在HDFS上进行文件写入时，NameNode根据文件大小和配置情况，返回部分

datanode信息，()负责将文件划分为多个Block,根据DataNode的地址信息，按顺序将块写入到每

一fDataNodeo

A)Client

B)ActiveNameNode

C)DataNode

D)StandbyNameNode

答案：B

解析：

123.［单选题］在Flink框架中，下列()是流处理和批处理的计算引擎。

A)standalone

B)Runtime

C)FlinkCore

D)DataStream

答案:B

解析：

124.［单选题］网站在运营过程中，会有用户访问并产生行为数据，要想对这些数据进行处理挖掘

,如果是离线批处理下的方案配置，描述不正确的是()

A)数据导入导出，Loader

B)数据采集传输：Flume

C)数据计算，Storm

D)数据存储.HDFS或MySql

答案:C

解析：

125.［单选题］下列哪个选项可用于查询ElasticSearch的索引？()

A)cur1-XGET'http：//ip：httpport/name/type/indexID?pretty'

B)cur1-XPOST'tp：//ip：httpport/name/type/indexID?pretty'-H'Content-Type：

app1ication/json'-d'{}'

C)cur1-XGET'http：//ip：httpport/cat/indices?v

D)cur1-XGET"http：//ip：httpport/_cluster/health?pretty

答案:C

解析：

126.［单选题］以下属于Hive的架构组件的是？()

A)HLog

B)Driver

C)Hmaster

D)NameNode

答案:B

解析：

127.［单选题］以下()组件不是华为产品的。

A)CDM

B)DRS

C)RDS

D)SG-ETL

答案:D

解析：

128.［单选题］Elasticsearch中构建一个query需要用到下列哪个代码？()

A)QueryBuilders.createQuery()

B)QueryBuilders.putQuery()

C)QueryBuilders.getQuery()

D)QueryBuilders.matchQuery()

答案:D

解析：

129.［单选题］在FusioninsightHD中，以下()不属于Hive的流控特性。

A)支持对已建立的总连接数做阈值控制

B)支持对每个用户已经建立的连接数做阈值控制

C)支持对某个特定用户已建立的连接数做阈值控制

D)支持对单位时间内所建立的连接数做阈值控制

答案:C

解析：

130.［单选题］以下哪个选项不能做为Kafka的Consumer?()

A)Real-timeMonitoring

B)FrontEnd

C)DataWarehouse

D)Hadoop

答案:B

解析：

131.［单选题］关于GaussDB200的逻辑架构，下列说法正确的是。？

A)DN是实际数据节点，所以只负责存储数据。

B)CN是协调节点，协助CM管理整个集群。

OCM是集群的管理模块，那么负责集群的日常管理和运维。

D)GTM是全局事务控制器，负责生成和维护全局事务ID等全局唯一信息。

答案:D

解析：

132.［单选题］在HBase写数据的业务逻辑实现过程中，如下()接口或类是不需要涉及的。

A)Put

B)HTable

C)HBaseAdmin

D)PutList

答案:C

解析：

133.［单选题］在GaussDB200的存储过程中，语句number=0的意思是()？

A)声明一个变量number,并初始化值为0。

B)判断number的值是否为0。

C)修改变量number的值为0。

D)比较number和0的大小。

答案:A

解析：

134.［单选题］常用的数据收集工具不包括？()

A)Spark

B)Loader

C)Sqoop

D)Kettle

答案:A

解析：

135.［单选题］在FusioninsightLibrA中，下列()命令可以用于创建复制表。

A)createtableregionl(ctid_valueint)distributebyreplication

B)createtableregionl(ctid_valueint)；

C)Createtableregionl(ctid_valueint)replication；

D)以上都不正确；

答案:A

解析：

136.［单选题］对于ElasticSearch描述不正确的是？()

A)对Lucene进行了扩展

B)不支持结构化数据存储

C)能够水平扩展

D)基于Lucene的全文检索服务

答案:B

解析：

137.［单选题］GaussDB200数据并行导入Shared策略支持的数据格式是？()

A)CSV

B)Text

C)FIXED

D)Seq

答案：B

解析：

138.［单选题］Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有()个Region。

A)6

B)5

D)3

答案:B

解析：

139.［单选题］创建存储过程,CREATEORREPLACEPROCEDUREproc_whileloop(maxvalin

integer)ASDECLAREIint：=maxval/2；BEGINWHILEi<maxvalLOOPRaiseinfo'%',i；

I：=i+l；ENDLOOP：END：下面循环语句在Messages内的输出是()CALLproc_while_loop(9)

A)5678

B)456789

056789

D)45678

答案:D

解析：

140.［单选题］公安行业中实时检索不适用于以下哪个场景？()

A)车辆信息查询

B）快速信息汇集

C）评估嫌疑人犯罪概率

D）实时布控

答案:C

解析：

141.［单选题］下列对图数据库描述正确的是？。

A）以“图”数据结构存储和查询数据的数据库

B）存储图片的数据库

C）与关系型数据库类似的数据库

D）数据仓库的一种

答案:A

解析：

142.［单选题］决策树中不包含：（）结点。

A）根结点（rootnode）

B）内部结点（internalnode）

C）外部结点（externalnode）

D）叶结点（leafnode）

答案:C

解析：

143.［单选题］数据中台功能架构中数据接入包含：（）能力。

A）数据交换

B）监控告警

C）链路监测

D）任务调度

答案:A

解析：

144.［单选题］Hadoop中MapReduce组件擅长处理（）场景的计算任务。

A）迭代计算

B）离线计算

C）实时交互计算

D）流式计算

答案:B

解析：

145.［单选题］在GraphBase上，创建一个新的图，必须使用的参数是？（）

A）edge

B）graphName

C）label

D）vertex

答案:B

解析：

146.［单选题］某项目小组接到一个大数据实时分析项目，且对实时性要求很高。请问以下哪种大数

据计算框架最合适？（）

A）MapReduce

B）HRase

C）Spark

D）Flink

答案:D

解析：

147.［单选题］DAYU数据开发中，以下不属于作业优先级是：（）。

A）高

B）中

C）极高

D）低

答案:C

解析：

148.［单选题］以下哪个不是大数据的数据计算引擎？（）

A）Spark

B）MapReduce

C）Flume

D）Flink

答案:C

解析：

149.［单选题］离线批处理方案的应用场景不包括？（）

A）占用计算存储资源多

B）快速高效，实时的数据处理

C）数据处理格式多样

D）处理大规模数据

答案：B

解析：

150.［单选题］在数据添加过滤规则后，在源库执行更新操作的处理原则，应以：（）为首要目标。

A）数据一致

B）数据规范

C）数量相同

D）数据唯一

答案:A

解析：

151.［单选题］在Fusioninsight产品中，关于创建Kafka的Topic,以下描述正确的是：（）。

A）在创建Kafka的Topic时，必须设置Partition

B）在创建Kafka的Topic时，必须设置Partition副本数

C）设置多副本可以增强Kafka服务的容灾能力

D）以上全部正确

答案:C

解析：

152.［单选题］Flume的基础架构不包含以下哪部分？（）

A）Channel

B）Broker

C）Source

D）Sink

答案：B

解析：

153.［单选题］进行场景迁移的前提条件说法错误的是：（）。

A）该用户必须拥有管理员权限

B）已获取待连接数据源的用户名

C）已获取待连接数据源的密码

D）已获取待连接数据源的地址

答案:A

解析：

154.［单选题］以下关于HDFS适合做什么描述正确的是？（）

A）低延迟读取

B）大文件存储

C）大量小文件存储

D）随机写入

答案:B

解析:hdfs其除具备其它分布式文件系统相同特性外，HDFS还有自己特有的特性：

1、高容错性：认为硬件总是不可靠的。

2、高吞吐量：为大量数据访问的应用提供高吞吐量支持。

3、大文件存储：支持存储TB-PB级别的数据。

HDFS不适合做什么？

1、大量小文件存储

2、随机写入

3、低延迟读取

155.［单选题］下面这段代码的作用是什么？()HttpEntityentity=new

NStringEntity(jsonString,ContentType.APPLICATION_JSON)；Responseresponse=null；Try{

Response=restClient.performRequest("PUT"/"+index,params,entity)；

Assert.assertEquals(response.getStatusLine(),getStatusCode(),HttpStatus.SCOK)；LOG.info

("createlndexWithShardNum,response

entityls：n+EntityUtils.toString(response.getEntity()))；}catch(Exceptione){

Assert,fail()；}

A)更新索引

B)创建索引

C)维护索引

D)删除索引

答案:B

解析：

156.［单选题］下列()选项属于Hive的数据存储模型。

A)桶

B)数据库

C)分区

D)以上全都正确

答案:D

解析：

157.［单选题］用户可以通过表的数据预览模块，预览当前表的业务数据；根据列的分类信息，支持

对预览的数据进行实时脱敏。下列选项中不属于数据预览支持的数据源类型为：()。

A)DWS

B)DLI

C)Oracle

D)Mysql

答案:C

解析：

158.［单选题］关于创建api,以下描述正确的是：()。

A)创建api只能通过脚本模式创建

B)创建api只能通过向导模式创建

C)创建api可以通过脚本模式和向导模式两种方式创建

D)以上说法均不正确

答案:C

解析：

159.［单选题］以下哪个选项对Redis数据读写流程描述是正确的？()

A)ServerA节点返回集群拓扑---客户端选择集群任意一个ServerA节点连接----客户端计算

Key归属的槽位以及对应ServerB节点并连接一ServerB节点返回业务操作结果

B)客户端选择集群任意一个ServerA节点连接---ServerA节点返回集群拓扑----客户端计算

Key归属的槽位以及对应ServerB节点并连接一ServerB节点返回业务操作结果

C)ServerA节点返回集群拓扑一客户端计算Key归属的槽位以及对应ServerB节点并连接

---客户端选择集群任意一个ServerA节点连接一ServerB节点返回业务操作结果

D)客户端选择集群任意一个ServerA节点连接---客户端计算Key归属的槽位以及对应ServerB节

点并连接---ServerA节点返回集群拓扑---ServerB节点返回业务操作结果

答案:B

解析：

160.［单选题］FusioninsightHD系统中，用户登录到客户端，请求服务端的某个应用，客户端需要

先向认证服务器请求消息获取如下()。

A)TGT

B)ST

OPT

D)TOKEN

答案:A

解析：

161.［单选题］以下关于Flink关键特性描述不正确的是：()。

A)SparkStreaming与Flink相比，时延更低

B)Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能

C)checkpoint实现了Flink的容错

D)与FusionlnghtHD中的Streaming相比，Flink具有更高的吞吐量

答案:A

解析：

162.［单选题］对于运行在MapReduce平台上的应用程序，此应用程序所依赖的jar包会被放到()。

A)HIVE

B)HBASE

OHDFS

D)DB

答案:C

解析：

163.［单选题］GaussDB200的EXECUtEIMEDIATE语法和OPENFOR语法都可以实现动态语句的执

行，那么二者的异同是0?

A)EXECUTEIMMEDIATE没有返回值，OPENFOR有返回值。

B)当需要将查询的结果保存在一个数据集时，可使用OPENFOR实现动态查询。

C)EXECUTEIMMEDIATE通过动态执行SELECT语句，OPENFOR结合了游标的使用。

D)EXECUTEINMEDIATE可以调用存储过程，OPENFOR则不行。

答案：B

解析：

164.［单选题］在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下()操作。

A)执行HiveDDL操作

B)运行MapReduce任务

C)运行HiveSQL任务

D)以上全部正确

答案:D

解析：

165.［单选题］哪个不是ElasticSearch生态圈中的技术？(C)

A)beats

B)Logstash

C)Flume

D)kibana

答案:C

解析：

166.［单选题］对GaussDB200描述不正确的是？()

A)并行架构

B)易运维，安全可靠

C)行列不能混存

D)节点多，易扩展

答案:C

解析：

167.［单选题］YARN的基于标准调度，是对下列选项中的()进行标签化。

A)AppMaster

B)ResourceManager

C)NodeManager

D)Container

答案:C

解析：

168.［单选题］以下哪项不属于批量数据采集工具？()

A)MapReduce

B)Flume

C)Sqoop

D)其他ETL工具

答案:A

解析：

169.［单选题］用户Region和RegionServer之间的路由信息，保存在哪个模块中？()

A)Master

B)HDFS

C)Meta表

D)Zookeeper

答案:C

解析：

170.［单选题］以下两种描述分别对应：()两种分类算法的评价标准。

A)Precision,Recall

B)Recall,Precision

C)Precision,Roc

D)Recall,Roc

答案:A

解析：

171.［单选题］FusioninsightHD中，如果需要查看当前登录HBase的用户和权限组，可以在HBase

shell中执行()命令。

A)user_permission

B)whoami

C)who

D)get_user

答案:B

解析：

172.［单选题］以下关于数据收集工具的描述，不准确的是？。

A)Loader是实现FusionlnsightHD与关系型数据库、文件系统之间交换数据和文件的数据加载工

具。

B)Loader提供了本集群内部HDFS和HBase之间的数据导入或导出。

OSaoop是一款开源的工具，主要用于在Hive与传统的数据库间进行数据的传递，可以将关系

型数据库中的数据导入到Hadoop的HDFS中，也可将HDFS的数据导出到关系型数据库中。

D)Kettle是一款国外开源的ETL工具，纯java编写，目前仅可以在Linux上运行，数据抽

取高效稳定。

答案:D

解析：

173.［单选题］以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是

：()O

A)仅写入内存

B)同时写入硬盘和内存

C)先写入内存再写入硬盘

D)先写入硬盘再写入内存

答案:D

解析:

174.［单选题］下列关于HBase的BloomFilter特性理解正确的是：()。

A)用来过滤数据

B)用来优化随机读取的性能

C)会增加存储的消耗

D)可以准确判断某条数据不存在

答案:C

解析：

175.［单选题］关于Spark中SparkSQL描述不准确的是？()

A)通过SparkSession提交SQL语句。任务像普通Spark应用一样，提交到集群中分布式运行。

B)SparkSQL是Spark用来处理结构化数据的一个模块，可以在Spark应

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

华为大数据练习练习题及答案1-2023-背题版

文档简介

温馨提示

最新文档

评论

华为大数据练习练习题及答案1-2023-背题版

文档简介

温馨提示

最新文档

评论

相关文档