2025年《hadoop基础练习》核心考点速记速练题(附答案)_第1页
2025年《hadoop基础练习》核心考点速记速练题(附答案)_第2页
2025年《hadoop基础练习》核心考点速记速练题(附答案)_第3页
2025年《hadoop基础练习》核心考点速记速练题(附答案)_第4页
2025年《hadoop基础练习》核心考点速记速练题(附答案)_第5页
已阅读5页,还剩75页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《hadoop基础练习》核心考点速记速练题(附答案)

单选题

1.在启动hadoop集群以后,查看jps进程有几个?

A、3个

B、4个

C、5个

D、6个

参考答案:D

2.在进行Hive组件配置时,JAR包冲突导致异常,出现以下错

误信息()

A、FailedtosetsetXIncludeAware(true)forparser

B、mkdir:inputJ:Nosuchfileordirectory

C、E45:'readonly'optionisset(add!tooverride)

D、ERRORtool.TmportTool:TmportedFailed:Character8216isa

nout-of-rangedelimiter

参考答案:A

3.在高阶数据处理中,往往无法把整个流程写在单个MapReduce

作业中,下列关于链接MapReduce作业的说法,不正确的是

A、Job和JobControl类可以管理非线性作业之间的依赖

B、ChainMapper和ChainRcducer类可以用来简化数据预处理和

1st

后处理的构成

C、使用ChainReducer时,每个mapper和reducer对象都有一

个本地JobConf对象

D、ChainReducer.addMapper()方法中,一般对键/值对发送设

置成值传递,性能好且安全性高

参考答案:D

4.在大数据项目规划阶段中,()阶段确认大数据项目范围和建

设目标。

A、需求调研

B、业务调研

C、数据需求

D、项目规划

参考答案:A

5.在Python中Excel解析,读写操作分别需要安装的模块是

A、读使用xlwt模块,写使用xlrd模块

B、写使用xlwt模块,读使用xlrd模块

C、读使用read模块,写使用write模块

D、读使用write模块,写使用read模块

参考答案:B

6.在Python中,以下xml数据格式正确的是

A、<studentid=,,noln><name>Tom</student></name>

B、<student><name>Tom</name></studentid=,,nol,r>

2nd

C、<studentid=wnoln><nameid=,'nol,,>Tom</studentX/na

me>

D、<studentid=,,nolnXname>Tom</nameX/student>

参考答案:D

7.在Python中,下面代码的输出结果是print(0.1+0.2=0.3)

A、FALSE

B、TRUE

C、FALSE

D、TRUE

参考答案:C

8.在Python中,下列是Flask的Request对象的form属性的作

用的是O

A、记录请求的数据,并转换为字符串

B、记录请求中的表单数据

C、记录请求中的查询参数

D、记录请求中的cookie信息

参考答案:B

9.在Python中,网络框架Flask是()

A、支持快速建站的框架

B、企业级开发框架

C、高并发处理框架

D、以上全都不是

3rd

参考答案:A

10.在Python中,可以采用“模块”的方式来组织代码,以下描

述不正确的是:

A、一个.py文件就称之为一个模块(Module)。模块的名字就是

文件的名字。

B、Python中也可以使用“包”来管理各种模块文件。可使月工

具创建包或在文件夹中创建“—init—・py”文件产生包。

C、使用模块将相同功能的函数分别放到不同的文件里。

D、使用模块将不同功能的函数分别放到不同的文件里。

参考答案:C

H.在Python中,Python程序使用自带的哪个模块操作目录

A、0S模块

B、10模块

C、file模块

D、dir模块

参考答案:A

12.在Python中,pymysql连接数据库获取数据库连接时,数据

库名不正确的堆栈信息是?

A、Unknowndatabase'test,

B、Accessdeniedforuser*root,localhost1(usingpassword:

YES)

C、NoneType1objecthasnoattribute1encoding1

4th

D、Can*tconnecttoMySQLserveron1localhostf([WinErrorlOO

61]

参考答案:A

13.在Python中,pymysql连接数据库获取数据库连接时,端口

号错误的堆栈信息是?

A、Unknowndatabase*test'

B、Accessdeniedforuser1root'@1localhostr(usingpassword:

YES)

C、NoneType1objecthasnoattribute1encoding1

D、Can1tconnecttoMySQLserveron1localhost1([WinErrorlOO

61]

参考答案:D

14.在Python中,()语句隐藏了一个包含了关闭的逻辑,类似

try…catch

A、where

B、with

C、yield

D、contextlib

参考答案:B

15.在MapReduce中,Map数取决于()的总量

A、任务数

B、输入数据

5th

C、输出数据

D、以上都不对

参考答案:B

16.在MapReduce计算架构中,()组件运行在NameNode节点上,

提供集群资源的分配和工作调度管理。

A、Client

B、JobTracker

C、TaskTracker

D、Task

参考答案:B

17.在Linux中,在使用匿名登录ftp时,用户名为()

A、Guest

B、user

C、root

D、anonymous

参考答案:D

18.在Linux中,用户可以对vim进行设置,如何对vim文件进

行修改?

A、vim/etc/vim.init

B、vim/etc/sysconfig/vimrc

C、vim/etc/profile.d/vimrc

D、vim/etc/vimrc

6th

参考答案:D

19.在Linux中,更新防火墙规则,使月的命令如下

A、firewall-cmd--reload

B、firewal1-cmd--get-active-zones

C、firewall-cmd-help

D、firewall-cmd-state

参考答案:A

21.在Java中,以下哪个最准确描述synchronized关键字?

A、允许两线程并行运行,而且互相通信;

7th

B、保证在某时刻只有一个线程可访问方法或对象;

C、保证允许两个或更多处理同时开始和结束;

D、保证两个或更2同时开始和结束

参考答案:B

22.在Java中,以下不是产生死锁的必要条件的是

A、开启了多个线程

B、线程间存在多个共享资源

C、使用了线程同步

D、继承了Thread类

参考答案:D

23.在Java中,线程是Java的()机制

A、检查

B、解释执行

C、并行

D、并发

参考答案:D

24.在Java中,现有一条XPath匹配规则如下a//productName

[contains(text()/手机')],对于这条匹配规则的说法正

确的是

A、可以查找所有内容等于'手机'的productName标签

B、可以查找所有内容以‘手机'开头的productName标签

C、可以查找所有内容包含'手机’的productName标签

8th

D、可以查找所有内容以‘手机'结尾的productName标签

参考答案:C

25.在Java中,为了从文本文件中逐行读取内容,应该使用哪个

处理流对象?

A、BufferedReader

B、BufferedWriter

C、BufferedInputstream

D、Bufferedoutputstream

参考答案:A

26.在Java中,使用字节流读取文件时,如果已经读到文件末尾

会返回

A、null

B、0

C、-1

D、空字符

参考答案:C

27.在Java中,使用D0M4J解析Xml时,获取一个元素下所有子

元素的方法是

A、children()

B、list()

C、elements()

D、以上都不是

9th

参考答案:C

28.在Java中,实现线程的创建有()方法

A、一种

B、两种

C、三种

D、四种

参考答案:B

29.在Java中,关于Xpath描述错误的是

A、Xpath即Xml路径语言

B、Xpath可以快速定位、获取所需要的节点

C、可以使用selectNodes("表达式”)方法查找相应节点

D、在使用Xpath时,不需要导入相应的jar包

参考答案:D

30.在Java中,关于Xml的文档结构描述错误的是

A、一个基本的Xml文档通常由序言和文档元素两部分组成

B、Xml文档中的序言可以包括Xml声明、处理指令和注释

C、Xml文档中的元素以树形结构排列

D、Xml文档的声明必须要写

参考答案:D

31.在Java中,File类中哪个方法可以判断文件是否存在?

A、exists()

B、isFile()

10th

C、isDirectory()

D、isHidden()

参考答案:A

32.在Java的File类的方法中,用于列举某个目录下所有子目

录及子文件名的方法是

A、length()

B、getName()

C、list()

D、listFiles()

参考答案:C

33.在Java程序中,使用TCP套接字编写服务器端程序的套接字

类是

A、Socket

B、ServerSocket

C、DatagramSocket

D、DatagramPacket

参考答案:B

34.在HDFS中,默认一个块多大?

A、64MB

B、32KB

C、128KB

D、16KB

llth

参考答案:A

35.在HBase的组件中,哪一个负责日足记录()

A、HRegion

B、HFile

C、MemStore

D、WAL

参考答案:D

36.在Hadoop配置文件中,以下属于core-site,xml文件主要内

容的是()

A、用于定义系统级别的参数,如HDFSURL、Hadoop的临时目录

等。

B、名称节点和数据节点的存放位置、文件副本的个数、文件读

取权限等。

C、配置ResourceManager,NodeManagcr的通信端口,web监控

端口等。

D、包括JobHistoryServer和应用程序参数两部分,如reduce

任务的默认个数、任务所能够使用内存的默认上下限等。

参考答案:A

37.在CentoOS中,系统默认的对整个系统拥有完全控制权的用

户是:

A、root

B、B.guest

12th

C、C.administrator

D、D.supervisor

参考答案:A

38.以下选项哪个命令可以查看主机信息(A)

A、nmclidev

B、nmcliconsh

C、ifupteamO

D、teamdctlteamOst

参考答案:A

39.以下哪一项不属于Hadoop可以运行的模式()

A、单机(本地)模式

B、伪分布式

C、互联网模式

D、分布式模式

参考答案:C

40.以下哪个组件可以指定对key进行Reduce分发的策略?

A、RecordReader

B、Combiner

C、FilelnputFormat

D、Partitioner

参考答案:D

41.以下哪个技术与大数据无关

13th

A、云技术

B、B.分布式处理技术

C、C.存储技术

D、D.物联网技术

参考答案:D

42.一个gzip文件大小75MB,客户端设置Block大小为64MB,

请我其占用几个Block?

A、1

B、2)

C、3

D、4

参考答案:B

43.写入数据到HDFS的Sink组件是()。

A、HivcSink

B、HBaseSink

C、HDFSSink

D、HadoopSink

参考答案:C

44.现在在hadoop集群当中的配置文件中有这么两个配置,请问

假如集群当中有一个节点宕机,主节点namenode需要多长时间

才能感知到?<name>dfs.heartbeat,interval</name><valu

e>3</value><name>heartbeat.recheck,interval</name><

14th

value>2000</value>

A、26秒

B、30秒

C、34秒

D、20秒

参考答案:C

45.显示当前所在目录的命令是()

A、pwd

B、Is

C、cd

D、mkdir

参考答案:A

46.下面与HDFS类似的框架是()

A、NTFS

B、FAT32

C、GFS

D、EXT3

参考答案:C

47.下面哪项是Hadoop的作者?

A、MartinFowler

B、Dougcutting

C、MarkEl1iotZuckerberg

15th

D、KentBeck

参考答案:B

48.下面哪项是Hadoop的作者?()

A、MartinFowler

B、Dougcutting

C、MarkEl1iotZuckerberg

D、KentBeck

参考答案:B

49.下面哪个程序奂责HDFS数据存储

A、2份

B、1份

C、3份

D、4份

参考答案:C

50.下面哪个不是lladoopl.0的组件:

A、HDFS

B、MapReduce

C、YARN

D、NameNode和DataNode

参考答案:C

51.下面关于Shuffle过程描述正确的是()

A、Job作业必须要实现Combiner过程。

16th

B、分组操作发生在溢写过程

C、分组的目的是提高Job执行效率。

D、压缩目的是提高效率。

参考答案:D

52.下列有关MapReduce中,说法是正确的是()。

A、它提供了资源管理能力

B、它是开源数据仓库系统

C、它是Hadoop数据处理层

D、它可用于查询和分析存储在Hadoop中的大型数据集

参考答案:C

53.下列选项中那些是Hadoop2.x版本独有的进程

A、JobTracker

B、TaskTracker

C、NodeManager

D、NameNode

参考答案:C

54.下列选项中那些是Hadoop2.x版本独有的进程()

A、JobTracker

B、TaskTracker

C、NodeManager

D、NameNode

参考答案:C

17th

55.下列选项中,哪一个命令用于删除文件?

A、hadoopfs-rmr/he11o.txt

B、hadoopfs-rm/hello.txt

C、hadoopfs-cat/hello.txt

D、hadoopfs-mkdir/hello.txt

参考答案:B

56.下列选项中,关于HBase特性描述不正确的一项是()。

A、高可靠性

B、高性能

C、面向行

D、可伸缩

参考答案:C

57.下列说法错误的是?

HadoopMapRcduce是MapReduce的开源实现,后者比前者使

用门槛低很多

B、MapReduce采用非共享式架构,容错性好

C、MapReduce主要用于批处理、实时、计算密集型应用

D、MapReduce采用“分而治之”策略

参考答案:C

58.下列说法错误的是()

A、JobServer是用户作业和JobTracker交互的主要接口

B、JobClient为用户提供提交作业功能

18th

C、Jobclient提供访问子任务报告和E志功能

D、JobClient提供获取MapReduce集群状态信息功能

参考答案:A

59.下列哪一种命令格式是不正确的()

A、get表行健列旗

B、scan表时间戳起始行健结束行健

C、alter表列族

D、put表行键列族:列值

参考答案:B

60.下列哪个属性是hdfs-site.xml中的配置

A、fs.defaultFS

B、dfs.replication

C、mapreduce,framework,name

D、yarn,rcsourccmanager.address

参考答案:B

61.下列哪个程序通常与NameNode在一个节点启动?

A、SecondaryNameNode

B、DataNode

C、TaskTracker

D、Jobtracker

参考答案:D

62.下列关于数据处理流程,说法有误的是?

19th

A、在传统的数据处理流程中,存储的数据是旧的

B、在传统的数据处理流程中,需要用户主动发出查询来获取结

C、传统的数据处理流程,需要先采集数据并存储在关系数据库

等数据管理系统中

D、流计算的处理流程一般包含三个阶段:数据实时采集、数据

批量计算、实时查询服务

参考答案:D

63.下列关于Storm和Hadoop架构组件功能对应关系,哪个是错

误的?

A、HadoopJob对应StormTopology

B、HadoopTaskTracker对应StormSupervisor

C、HadoopJobTracker对应StormSpout

D、HadoopReduce对应StormBolt

参考答案:C

64.下列关于MapReduce的说法,哪个描述是错误的?

A、MapReduce具有广泛的应用,比如关系代数运算、分组与聚

合运算等

B、MapReduce将复杂的、运行于大规模集群上的并行计算过程

高度地抽象到了两个函数

C、编程人员在不会分布式并行编程的情况下,也可以很容易将

自己的程序运行在分布式系统上,完成海量数据集的计算

20th

D、不同的Map任务之间可以进行通信

参考答案:D

65.下列关于MapReduce1.0的描述,错误的是?

A、JobTracker"大包大揽”导致任务过重

B、不存在单点故障

C、容易出现内存溢出(分配资源只考虑MapRoducc任务数,不

考虑CPU、内存)

D、资源划分不合理(强制划分为slot,包括Mapslot和Reduc

eslot)

参考答案:B

66.下列关于HDFS为存储MapReduce并行切分和处理的数据做的

设计,错误的是()

A、FSDatalnputStream扩展了DatalnputStream以支持随机读

B、为实现细粒度并行,输入分片(InputSplit)应该越小越好

C、一台机器可能被指派从输入文件的任意位置开始处理一个分

D、输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数

据的物理分割

参考答案:B

67.下列关于HadoopAPI说法错误的是()

A、hadoop的文件API不是通用的,只用于HDFS文件系统

B、Configuration类的默认实例化方法是以IIDFS系统的资源配

21st

置为基础

C、Filestatus对象存储文件和目录的元数据

D、FSDatalnputStream是java.io.DatalnputStream的子类

参考答案:A

68.下列关于BigTable的描述,哪个是错误的

A、爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储

到BigTable里

B、BigTable是一个分布式存储系统

C、BigTable起初用于解决典型的互联网搜索问题

D、网络搜索应用查询建立好的索引,从BigTable得到网页

参考答案:A

69.下列不属于分布式数据库系统的是()。

A、HBase

B、BigTable

C、NoSQL

D、SQLServer

参考答案:D

70.下列不属于HBase基本元素的一项是()

A、表

B、记录

C、行键

D、单元格

22nd

参考答案:B

71.狭义的Hadoop是一个适合大数据分布式存储和分布式计算

的平台,不包括下面哪个组件?

A、HDFS

B、MapReduce

C、Yarn

D、HBase

参考答案:D

72.为销售报表展示开发一个MapReduce作业,Mapper输入数据

的Key是年份(IntWritable),Value表示商品标识(Text)。

下列哪一项决定该Mapper的数据类型?

A、JobConf.setMapInputKeyClass与JobConf.setMapInputVal

uesClass

B.IIADOOP_MAP_DATATYPES环境变量

C、随作业一起提交的mapper-specification,xml文件

D、InputFormat格式类

参考答案:D

73.数据建模中,()模型,考虑数据的存储实现方式,包括数据

拆分、数据表单位、数据集成。

A、概念

B、数据

C、逻辑

23rd

D、物理

参考答案:D

74.使用jar操作运行Hadoop中自带的jar进行单词的统计()

A、cd-jarhadoop/share/hadoop/mapreduce/

B、cdhadoop/share/hadoop/mapreduce/

C、cdjar/hadoop/share/hadoop/mapreduce/

D、cd/hadoop/share/hadoop/mapreduce/

参考答案:B

75.启动ZooKeeper服务的命令是什么?

A、zk.sh

B、zkServer-all.sh

C、zkServer.sh

D、zkServer.shstart

参考答案:D

76.配置Hadoop时,JAVAJIOME包含在哪一个配置文件中

A、hadoop-default.xml

B、hadoop-env.sh

C、hadoop-site.xml

D、configuration,xs

参考答案:B

77.哪个模块负责IIDFS数据的存储?

A、NameNode

24th

B、DataNode

C、ZooKeeper

D、JobTracker

参考答案:B

78.禁用ipv6需要修改的是哪个配置文件()

A、/etc/sysctl.conf

B、/etc/profile

C、~/・bashrc

D、/etc/networks

参考答案:A

79.结构化的数据,先有()再有().

A、数据结构

B、结构数据

C、内容结构

D、结构内容

参考答案:B

80.关于培训的总案目标、定制培训课程和内容和培训形式,以

下说法正确的是(K

A、系统使用人员的培训目的是使其可以独立完成大数据平台的

日常维护,解决一般问题。

B、培训过程中将针对不同的用户和不同的培训内容采用相同的

培训方案,以达到最佳的培训效果。

25th

C、实践培训主要针对于技术开发人员及系统维护和客户。

D、培训形式包括集中培训、现场培训、针对性培训。

参考答案:D

81.关于基于Hadoop的MapReduce编程的环境配置,下面哪一步

是不必要的()

A、配置java环境变量

B、配置Hadoop环境变量

C、配置Eclipse

D、配置ssh

参考答案:C

82.关于ZooKeeper的特性说法错误的是?

A、能改变ZooKeeper服务器状态的操作称为事务操作

B、是版本机制有效避免了数据更新时b现的先后顺序问题

C、当节点发生变化时,通过watchor机制,可以让客户端得到

通知

D、watch能触发多次

参考答案:D

83.关于QJM的写入过程,以下描述正确的是。

A、在Hadoop中,NmeNode只会把Editlog写入到本地中。

B、写入本地,由配置参数1hdfs.namenode.name.dir1控制。

C、写入JouralNode,由配置参数'hdfs.journalnode.name,dir

‘控制。

26th

D、在写Editlog时,会有两个不同的输出流来控制日志的写入

过程。

参考答案:D

84.关于MapReduce的描述错误的是()

A、MapReduce框架会先排序map任务的输出

B、通常,作业的输入输出都会被存储在文件系统中

C、通常计算节点和存储节点是同一节点

D、一个Task通常会把输入集切分成若干独立的数据块

参考答案:D

85.关于Hive和传统关系数据库的对比分析,下面描述错误的

是:

A、Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖

于本地文件系统

B、传统的关系数据库可以针对多个列构建复杂的索引,Hive不

支持索引

C、Hive和传统关系数据库都支持分区

D、传统关系数据库很难实现横向扩展,Hive具有很好的水三扩

展性

参考答案:B

86.关于HDFS集群中的DataNode的描述不正确的是?

A、DataNode之间都是独立的,相互之间不会有通信

B、存储客户端上传的数据的数据块

27th

C、响应客户端的所有读写数据请求,为客户端的存储和读取数

据提供支撑

D、一个DataNode上存储的所有数据块可以有相同的

参考答案:D

87.二次排序是在什么阶段()

A、分区

B、分组

C、压缩

D、溢写

参考答案:B

88.大数据是指不用随机分析法这样的捷径,而采用()的方法

A、所有数据

B、绝大部分数据

C、适量数据

D、少量数据

参考答案:A

89.大数据技术不包括()。

A、数据计算

B、数据存储

C、数据冗余

D、数据采集

参考答案:C

28th

90.从节点程序()o

A、NameNode

B、DataNode

C、SecondaryNameNode

D、Jobtracker

参考答案:B

91.测试Sqoop是否能够正常连接MySQL数据库命令是()

A、sqooplist-database一一connectjdbc:mysql://127.0.0.1:33

06/一usernameroot-P

B、sqooplist-databases--connectionjdbc:mysql://127.0.0.

1:3306/--usernameroot-P

C、sqooplist-databases--connectjdbc:mysql://127.0.0.1:3

306/一usernameroot-L

D、sqooplist-databases一一connectjdbc:mysql://127.0.0.1:3

306/一usernameroot-P

参考答案:D

92.编写MapReduce必须继承()类

A、Configured

B、Donfigured

C、Aonfigured

D、Writable

参考答案:A

29th

93.安装Hadoop集群时,在哪个文件指定从机是哪些机器?

A、datanode

B、slaves

C、yarn-site,xml

D、core-site.xml

参考答案:B

94.ZooKeeper需要的相关家暴一共有几个?

A、5

B、6

C、7

D、8

参考答案:C

95.YARN哪种调度器采用的是单队列?

A、CapacitySchedu1er

B、FairScheduler

C、FIFOScheduler

D、以上都不是

参考答案:C

96.YARN的调度算法不包括以下哪种?

A、FIFOScheduler

B、StackScheduler

C、FairScheduler

30th

D、CapacityScheduler

参考答案:B

97.SequenceFile用于合并HDFS中的大量小文件,下列关于Se

quenceFile的描述错误的是()。

A、在SequenceFile中,每一对被看作一条Record

B、记录压缩是对每条记录进行压缩

C、SequenceFile主要是由一个Header和多个Record组成

D、Header中包含存储压缩算法

参考答案:A

98.NameNode在启动时自动进入安全模式,在安全模式阶段,说

法错误的是

A、安全模式目的是在系统启动时检查各个DataNode上数据块的

有效性

B、根据策略对数据块进行必要的复制或删除

C、当数据块最小百分比数满足最小副本数条件时,会自动退出

安全模式

D、文件系统允许有修改

参考答案:D

99.MySQL数据库驱动文件放置于hive哪个目录下()

A、jar

B、lib

C、bin

31st

D、sbin

参考答案:B

100.MapReduce的Shuffle过程中哪个噪作是最后做的?

A、溢写

B、合并

C、分区

D、排序

参考答案:B

101.MapReduce处理流程中Reduce如何获取Map端结果()

A、Map端发送

B、Reduce端获取

C、Map端发送到中间管理节点,Reduce统一获取

D、随机发送

参考答案:B

102.LSM的读操作和写操作是独立的?

A、是。

B、否。

C、LSM并不区分读和写

D、LSM中读写是同一种操作

参考答案:A

103.HMaster的主要作用是()

A、用于启动任务管理多个IIRegionServer

32nd

B、负责响应用户I/O请求,向HDFS文件系统读写数据

C、负责协调集群中的分布式组件

D、最终保存HBase数据行的文件

参考答案:A

104.Hive查询语言和SQL的一个不同之处在于哪一个操作?

A、Group

B、Join

C、Partition

D、Union

参考答案:C

105.HFile数据格式中的KeyValue数捱格式中Value部分是()。

A、拥有复杂结构的字符串

B、字符串

C、二进制数据

D、压缩数据

参考答案:C

106.HDFS是基于流数据模式访问和处理超大文件的需求而开发

的,默认的最基本的存储单位是64M,具有高容错、高可靠性、

高扩展性、高吞吐率等特征,适合的读写任务是

A、一次写入,少次读写

B、多次写入,少次读写

C、一次写入,多次读写

33rd

D、多次写入,多次读写

参考答案:C

107.HDFS默认的块大小是多少()

A、32MB

B、64MB

C、128MB

D、256MB

参考答案:B

108.HDFS采用了什么模型?

A、分层模型

B、主从结构模型

C、管道-过滤器模型

D、点对点模型

参考答案:B

109.hdfs-site.xml中参数和解释不能对应的是()

A、dfs.namenode.name,dir:是本地磁盘目录NN存储的是fsim

age文件的地方

B、dfs.namenode,handler,coun:t设置更多的NameNode线程,

处理从DataNode发出的大量RPC请求

C、dfs.datanode.data,dir:设置是本地磁盘目录,HDFS数据

应该存储Block的地方

D、dfs.replication:设置大型文件系统的HDFS的块大小。

34th

参考答案:D

UO.HBase依赖()提供强大的计算能力

A、Zookeeper

B、Chubby

C、RPC

D、MapReduce

参考答案:D

HLHBase是分布式列式存储系统,记录按什么集中存放

A、列

B、列族

C、行

D、不确定

参考答案:B

112.Hbase的主要作用是()

A、是一个分布式的、面向列的开源数据库

B、是一种编程模型,用于大规模数据集(大于1TB)的并行运

C、是Hadoop集群当中的资源管理系统模块

D、将要储存的文件分散在不同的硬盘上,并记录他们的位置

参考答案:A

113.Hadoop中节点之间的进程通信是通过什么协议来实现的()

A、HTTP

35th

B、SMTP

C、SSH

D、RPC

参考答案:D

114.Hadoop完全分布模式配置免密登录是要?

A、实现主节点到其他节点免密登录

B、实现从节点到主节点的免密登录

C、主节点和从节点任意两个节点之间免密登录

D、以上都不是

参考答案:C

115.Hadoop的储存框架叫什么()

A、Lustre

B、MooseFS

C、MogileFS

D、HDFS

参考答案:D

116.Hadoop2.7.1下,以下哪一项是DataNode的职责?()

A、管理文件系统命名空间

B、根据客户端的请求执行读写操作

C、存储元数据

D、定期对NameNode中的内存元数据进行更新和备份

参考答案:B

36th

117.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?

A、32M

B、64M

C、256M

D、128M

参考答案:D

118.hadoop2.0与hadoopl.0区别()

A、增加MapReduce2

B、增加YARN

C、增加HDFS2

D、增加容错机制

参考答案:B

119.hadoop()中将海量数据分割于多个节点,由每个节点并行

计算,将得到的结果归并到输出。

A、应用场景

B、分布式计算

C、分阶段计算

D、高效处理

参考答案:B

120.()是用来解决海量大数据文件存储问题的,是目前应月最

广泛的分布式文件系统。

A、HDFS

37th

B、HBase

C、Hive

D、Kafka

参考答案:A

多选题

L在思维方式方面,大数据完全颠覆了传统的思维方式?

A、全样而非抽样

B、效率而非精确

C、相关而非因果

D、演绎推理而非归纳总结

参考答案:ABC

2.在实际应用中,大数据处理主要包括以下哪三个类型?

A、复杂的批量数据处理:通常时间跨度在数十分钟到数小时之

B、基于历史数据的交互式查询:通常时间跨度在数十秒到数分

钟之间

C、基于实时数据流的数据处理:通常时间跨度在数十秒到数分

钟之间

D、基于实时数据流的数据处理:通常时间跨度在数百毫秒到数

秒之间

参考答案:ABD

38th

3.在Python中,以下哪一个选项是不合法的布尔表达式

A、xinrange(6)

B、3二a

C、e>5and4==f

D、(x-6)=5

参考答案:BD

4.在Python中,以下哪些字符串是正确的

A、'abc"ab”

B、'abc"ab'

C、“abc”ab”

D、“abc\"ab”

参考答案:BD

5.在Python中,使用Flask框架模板有哪些好处?()

A、视图函数只负责业务逻辑和数据处理

B、模板可以获取视图函数的数据结构进行展示

C、代码结构清晰,耦合度低

D、代码结构清晰,耦合度高

参考答案:ABC

6.在Python中,python中以下说法正确的是:

A、如果子类重写了init方法,那么在实例化对象的时候,默认

调用子类构造方法

B、如果子类重写了init方法,那么在实例化对象的时候,默认

39th

调用父类构造方法

C、当子类重写init方法,在实例化对象的时候,调用父类的i

nit方法的方式:super().__init__()

D、当子类重写init方法,在实例化对象的时候,调用父类的i

nit方法的方式:init—()

参考答案:AC

7.在Linux中,CentOS启动界面的启动项有

A、正常启动

B、还原启动

C、安全启动

D、救援启动

参考答案:AD

8.在Java中,以下哪些方法是线程类Thread提供的方法

A、wait()

B、sleep()

C、yield()

D、join()

参考答案:BCD

9.在Java中,下面属于创建型模式的有

A、工厂模式

B、抽象工厂模式

C、单例模式

40th

D、代理模式

参考答案:ABC

10.在Java4中,网络通信的三要素是哪三个

A、IP地址

B、端口号

C、协议

D、子网掩码

参考答案:ABC

11.云计算的服务模式和类型主要包括哪三类?

A、软件即服务(SaaS)

B、平台即服务(PaaS)

C、基础设施即服务(laaS)

D、数据采集即服务(DaaS)

参考答案:ABC

12.以下属于Hive的基本数据类型是:

A、TINYINT

B、FLOAT

C、STRING

D、BINARY

参考答案:ABCD

13.以下哪些选项是Hive支持的数据类型?

A、Struct

41st

B、Int

C、Map

D、Long

参考答案:ABC

14.以下哪些图表可以用Echarts来进行展示

A、折线图

B、B.饼状图

C、C.雷达图

D、D决策树

参考答案:ABC

15.以下哪个命令不能将普通用户转换成超级用户:

A、super

B、B.passwd

C、C.tar

D、D.su

参考答案:ABC

16.以下关于文件块的说法正确的是?

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配

置的。

D、HDFS将文件存储成块序列。

42nd

参考答案:ABCD

17.以下关于SSH免密码配置的描述正确的选项有哪个?

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是SecureShell的缩写,则IETF的网络工作小组制定。

C、SSH是建立在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉

需要输入密码才能登录的步骤。

参考答案:ABCD

18.以下关于HDFS的设计理念描述正确的有()。

A、支持超大文件存储

B、流式数据访问

C、简单的一致性模型

D、硬件故障的检测

参考答案:ABCD

19.下面哪个属于不断完善的Hadoop生态系统中的组件?

A、Pig

B、Tez

C、Kafka

D、DN8

参考答案:ABC

2。下面哪个是Hadoop2.0的组件?

A、ResourceManager

43rd

B、JobTracker

C、TaskTracker

D、NodeManager

参考答案:AD

21.下面关于网桥的说法,正确的是()

A、网桥工作在数据链路层,对网络进行分段,并将2个物理网

络连接层1个逻辑网络

B、B网桥可以通过对不要传递的数据进行过滤,并有效的阻止

广播风暴

C、C.网桥可以连接数据链路层协议不同的局域网

D、D.网桥要处理其收到的数据,增加了传输时延

参考答案:ACD

22.下面对Partioner分区描述正确的是()

A、MapReduce框架默认使用IlashPartioner

B、MapReduce的分区是决定map由哪个Reduce执行。

C、Partioner分区没有什么实质意义

D、开发者必先实现自己的分区.

参考答案:AB

23.下面对LSM描述正确的是()

A、顺序存储

B、直接写硬盘

C、需要将数据Flush到硬盘

44th

D、是一种搜索平衡树

参考答案:AC

24.下面对HBase的描述哪些是正确的?

A、不是开源的

B、是面向列的

C、是分布式的

D、是一种NoSQL数据库

参考答案:BCD

25.下列选项中,属于Hive数据模式的是()。

A、表

B、分区

C、桶

D、外部表

参考答案:ABCD

26.下列选项中,属于Hadoop的优势的是()。

A、Hadoop可以运行在一般商业机器构成的大型集群上

B、通过增加集群节点,可以线性地扩展性能

C、可以处理通用计算平台上出现的硬件失效的情况

D、用户可以快速写出高校的并行分布式代码

参考答案:ABCD

27.下列选项中,哪些属于Iladoopl.0的核心组件的不足之处?

A、实时性差(适合批处理,不支持实时交互式)

45th

B、资源浪费(Map和Reduce分两阶段执行)

C、执行迭代操作效率低

D、难以看到程序整体逻辑

参考答案:ABCD

28.下列说法正确的是:

A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储

B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个H

adoop平台上

C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖Ma

pReduce处理数据

D、HiveQL语法与传统的SQL语法很相似

参考答案:BCD

29.下列说法正确的是()

A、Reducer基类中没有run()方法。

B、Map中的run():相当于MapTask的驱动。

C、Map中的run()首先调用setup()方法进行初始化操作.

D、Map中的run()方法提供了setup()-->map()-->clean

up()的执行模板

参考答案:BCD

30.下列描述错误的是()

A、write()是把每个对象反序列化到输出流。

B、readFields()是把输入流字节序列化。

46th

C、重写hashCode()、equals()方法是为咯java对象比较。

D、重写compareT。()是为咯java对象的比较。

参考答案:AB

31.下列理解正确的是()

A、一个block有可能对应一个分片。

B、一个分片可能对应二个blocko

C、一个分片可能对应三个block

D、分片大小不能设置。

参考答案:AB

32.下列理解错误的是()

A、mapreduce程序一定需要map

B、Mapreduce可以不用map

C、Mapreduce一定需要reduce

D、Mapreduce程序不需要configuration类

参考答案:BD

33.下列关于流处理系统与传统的数据处理系统的描述,正确的

有?

A、流处理系统处理的是实时的数据,而传统的数据处理系统处

理的是预先存储好的静态数据

B、用户通过流处理系统获取的是实时结果,而通过传统的数据

处理系统,获取的是过去某一时刻的结果

C、流处理系统无需用户主动发出查询,实时查询服务可以主动

47th

将结果推送给用户

D、传统的数据处理系统系统无需用户主动发出查询,批量查询

服务可以主动将结果推送给用户

参考答案:ABC

34.下列关于SparkStreaming与Storn的描述,哪些是正确的

的?

A、SparkStreaming无法实现毫秒级的流计算

B、Storm可以实现毫秒级响应件

C、Storm无法用于实时计算

D、SparkStreaming采用的小批量处理的方式使得它可以同时兼

容批量和实时数据处理的逻辑和算法

参考答案:ABD

35.下列关于Region服务器工作原理的描述,哪些是正确的?

A、每个Region服务器都有一个自己的IILog文件

B、每次刷写都生成一个新的StoreFile,数量太多,影响查找

速度

C、合并操作比较耗费资源,只有数量达到一个阈值才启动合并

D、Store是Region服务器的核心

参考答案:ABCD

36.下列关于RDBMS和MapReduce说法正确的是()。

A、二者都支持批处理数据

B、RDBMS是非线性扩展的,MapReduce支持线性扩展

48th

C、RDBMS支持多次读写,而MapReduce支持一次写、多次读

D、二者都可以处理PB级别的数据

参考答案:ABC

37.下列关于Hadoop的描述,哪些是错误的?

A、只能支持一种编程语言

B、具有较差的跨平台特性

C、可以部署在廉价的计算机集群中

D、曾经被公认为行业大数据标准开源软件

参考答案:AB

38.网络适配器又称

A、NetworklnterfaceCard

B、B.NIC

C、C.iis

D、D.net

参考答案:AB

39.数据库事务具有ACID四性,下面哪几项属于四性?

A、原子性

B、持久性

C、间断性

D、一致性

参考答案:ABD

40.启动HDFS后,jps能看到哪些守护进程?

49th

A、DataNode

B、NameNode

C、NodeManager

D、SecondaryNameNode

参考答案:ABD

41.企业大数据应用中,maprcduce很容易做()

A、数据的统计,即counto

B、人工自能分析

C、数据对比,即join。

D、模拟爆破实验

参考答案:AC

42.目前,Storm中的StreamGroupings有如下哪几种方式?

A、AllGrouping:广播发送,每一个Task都会收到所有的Tupl

e

B、GlobalGrouping:全局分组,所有的Tuple都发送到同一个

Task中

C、FieldsGrouping:按照字段分组,保证相同字段的Tuple分

配到同一个Task中

D、DirectGrouping:随机分组,随机分发Stream中的Tuple,

保证每个Bolt的Task接收Tuple数量大致一致

参考答案:ABC

43.客户端上传文件的时候哪项是正确的?()

50th

A、数据经过NameNode传递给DataNode

B、客户端端将文件切分为多个Block,依次上传

C、客户端只上传数据到一台DataNode,然后由NameNode负责B

lock复制工作

D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。

参考答案:BD

44.客户端上传文件的时候哪项是正确的?()()

A、数据经过NameNode传递给DataNode

B、客户端端将文件切分为多个Block,依次上传

C、客户端只上传数据到一台DataNode,然后由NameNode负责B

lock复制工作

D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。

参考答案:BD

45.关于mapreduce能处理的web日志,说法正确的有()

A、Web日志由Web服务器产生,可能是Nginx,Apache,Tomea

t等

B、从Web日志中,可获取网站每个页面的PV值(PageView,页

面访问量)、独立IP数

C、计算用户所检索的关键词排行榜、用户停留时间最高的页面

D、构建广告点击模型.、分析用户行为特征等等

参考答案:ABCD

51st

46.关于HBase二级索引的描述,哪些是正确的?

A、核心是倒排表

B、二级索引概念是对应Rowkey这个“一级”索引

C、二级索引使用平衡二叉树

D、二级索引使用LSM结构

参考答案:AB

47.关系数据库已经无法满足Web2.0的需求,主要表现在以二几

个方面?

A、无法满足海量数据的管理需求

B、无法满足数据高并发的需求

C、无法满足高可才展性和高可用性的需求

D、使用难度高

参考答案:ABC

48.对roducotask理解正确的是()

A、从map端远程读取数据

B、Reduce引擎

C、对数据排序

D、将分组数据传递给用户编写的reduce()

参考答案:ABCD

49.对mapper基类描述正确的是()

A、setup():对MapTask进行一些预处理

B、map():每次接受一个Key-Value对并对其进行处理,再分

52nd

发处理

C、cleanup():对MapTask进行一些处理后的工作

D、Mapper基类中一般用最常用的是断言语法

参考答案:ABC

50.大数据的两个核心技术是什么?

A、分布式存储

B、分布式应用

C、分布式处理

D、集中式存储

参考答案:AC

51.传统数据仓库面临哪些挑战:

A、无法满足快速增长的海量数据存储需求

B、无法有效处理不同类型的数据

C、具有很强的扩展性

D、计算和处理能力不足

参考答案:ABD

52.传统大数据质量清洗的特点有()

A、确定性

B、强类型性

C、协调式的

D、非确定性

参考答案:ABC

53rd

53.操作HDFS有哪几种方式?

A、JAVAAPI

B、B.WebUI

C、C.Shell

D、D.VNC

参考答案:ABC

54.ZooKeeper的节点类型有?

A、临时节点

B、持久节点

C、顺序节点

D、监控节点

参考答案:ABC

55.Storm具有以下哪些特点?

A、整合性:Storm可方便地与队列系统和数据库系统进行整合

B、简易的API:Storm的API在使用上即简单又方便

C、容错性:Storm可自动进行故障节点的重启、任务的重新分

D、可扩展性:Storm的并行特性使其可以运行在分布式集群中

参考答案:ABCD

56.Spark支持哪三种不同类型的部署方式?

A、Standalone(类似于MapReducel.0,slot为资源分配单位)

B、SparkonMesos(和Spark有血缘关系,更好支持Mesos)

54th

C、SparkonYARN

D、SparkonHDFS

参考答案:ABC

57.Spark运行架构具有以下哪些特点?

A、每个Application都有自己专属的Executor进程,并且该进

程在Application运行期间一直驻留

B、Executor进程以多线程的方式运行Task

C、Spark运行过程与资源管理器无关,只要能够获取Executor

进程并保持通信即可

D、Task采用了数据本地性和推测执行等优化机制

参考答案:ABCD

58.RPC是分布计算中C/S模型的一个应用实例,对于好hadoop

而言,它有以下哪些特点O

A、重用性,由于hadoop的特点门兄可以一直使用。

B、透明性,远程-凋用其他机器上的程序,对用户来说就像调用

本地的方法一样

C、高性能,rpcserver能够处理多个来自client的请求。

D、可控性,hadooprpc实现了自定义的rpc框架。

参考答案:BCD

59.Map阶段理解正确的有()

A、一行一行读取文本中内容

B、可以进行一行数据的拆分。

55th

C、不能进行统计。

D、必须要有reduce阶段

参考答案:AB

60.Mapreduce程序理解正确()

A、它能处理所有场景的问题

B、它能解决大量的统计、join数据

C、它不能对所处理数据排序

D、适合处理已经落地的日志

参考答案:BD

61.Linux中重启系统的命令有()

A、initO

B、initl

C、shutdown-rnow

D、reboot

参考答案:CD

62.Impala主要由哪几个部分组成:

A、Impalad

B、StateStore

C、CLI

D、Hive

参考答案:ABC

63.HFile数据格式中的KeyValue数据格式,下列选项描述E确

56th

的是()。

A、是byte口数组

B、没有固定的结阂

C、数据的大小是定长的

D、有固定的结构

参考答案:AD

64.1IDFS数据块多副本存储具备以下哪些优点?

A、加快数据传输速度

B、容易检查数据错误

C、保证数据可靠性

D、适合多平台上运行

参考答案:ABC

65.HDFS副本技术是分布式计算的重要组成部分,下列关于副本

技术描述正确的有()。

A、降低访问效率

B、负载均衡

C、提高系统可靠性

D、避免HDFS发生故障

参考答案:BCD

66.HDFS访问方式有哪些

A.HDFSshell

B、JavaAPI

57th

C、RESTAPI

D、thrift实现的python.PHP等语言访问

参考答案:ABCD

67.HDFSFederation相对于HDFS1.0的优势主要体现在哪里?

A、能够解决单点故障问题

B、HDFS集群扩展性

C、性能更高效

D、良好的隔离性

参考答案:BCD

68.HDFS1.0主要存在哪些问题?

A、单点故障问题

B、不可以水平扩展

C、单个名称节点难以提供不同程序之间的隔离性

D、系统整体性能受限于单个名称节点的吞吐量

参考答案:ACD

69.HBase官方版本可以安装在什么操作系统上?

A、CentOS

B、Ubuntu

C、RedHat

D、Windows

参考答案:ABC

70.HBase构建二级索引的实现方式有哪些?

58th

A、MapReduce

B、Coprocessor

C、BloomFilter

D、Filter

参考答案:AB

71.HBasc的实现包括哪三个主要的功能组件?

A、库函数:链接到每个客户端

B、一个Master主服务器

C、许多个Region服务器

D、廉价的计算机集群

参考答案:ABC

72.HBase的三层结构中,三层指的是哪三层?

A、Zookeeper文件

B、-ROOT-表

C、META.表

D、数据类型

参考答案:ABC

73.hadoop分布式集群和伪分布式模式有所不同,在集群中各个

机器会承担不同角色,在集群中文件的存储主要一下那两个角色

()

A、Namenode

B、Datanode

59th

C、slave

D、master

参考答案:AB

74.Hadoop大数据有哪两大核心技术?

A、分布式存储

B、数据采集

C、可视化

D、分布式处理

参考答案:AD

75.hadoop创建多级目录(如:/a/b/c)的命令为()

A、hadoopfs-mkdir-p/a/b/c

B、hadoopfs-mkdir/a/b/c

C、hdfsfs-mkdir-p/a/b/c

D、hdfsfs-mkdir/a/b/c

参考答案:AC

76.Hadoop2.x有哪些核心组件组成。

A、HDFS

B、YARN

C、MAPREDUCE

D、Hive

参考答案:ABC

77.Hadoop2.0之前,MapReduce是由()所组成。

60th

A、客户端

B、作业管理器

C、任务管理器

D、任务

参考答案:ABCD

78.Cloudera提供哪几种安装CD1I的方法?

A、Clouderamanager

B、Tarball

C、Yum

D、Rpm

参考答案:ABCD

79.()是大数据运用的基础

A、有用的数据

B、覆盖率

C、隐私问题

D、数据统计有效性

参考答案:ABCD

判断题

1.在整个数据传输的过程中,Flume将流动的数据封装到一个e

vent(事件)中,它是Flume内部数据传输的基本单元。

A、正确

61st

B、错误

参考答案:A

2.在分区内对键值对进行排序,默认按照key-value键值对的k

ey依据字典升序来排序。

A、正确

B、错误

参考答案:A

3.在大数据框架中,批处理系统一般不适用于对延时要示较高的

场景

A、正确

B、错误

参考答案:A

4.在YARN之上可以部署Spark

A、正确

B、错误

参考答案:A

5.在UNIX用例下,Hadoop还拥有“conf”目录

A、正确

B、错误

参考答案:A

6.在Linux的安装过程中不可以进行网络配置。

A、正确

62nd

B、错误

参考答案:B

7.在internet网络中,tcp/ip网络协议只能提供面向无连接服

A、正确

B、错误

参考答案:B

8.在Hadoop集群中,NameNode负责管理所有DataNode0

A、正确

B、错误

参考答案:A

9.在HadoopHA中,Zookeeper集群为每个NameNode都分配了一

个故障恢复控制器,该控制器用于监控NameNode的健康状态。

A、正确

B、错误

参考答案:A

10.在/etc/hosts文件映射ip和主机名称

A、正确

B、错误

参考答案:A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论