2026年大数据技术专业能力检测往年题考附答案详解_第1页
2026年大数据技术专业能力检测往年题考附答案详解_第2页
2026年大数据技术专业能力检测往年题考附答案详解_第3页
2026年大数据技术专业能力检测往年题考附答案详解_第4页
2026年大数据技术专业能力检测往年题考附答案详解_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术专业能力检测往年题考附答案详解1.MongoDB属于以下哪种类型的NoSQL数据库?

A.键值对数据库(Key-ValueStore)

B.列族数据库(Column-FamilyStore)

C.文档型数据库(DocumentStore)

D.图数据库(GraphDatabase)【答案】:C

解析:本题考察NoSQL数据库的分类。MongoDB以JSON格式的“文档”为基本存储单元,属于文档型数据库;键值对数据库(A)如Redis,以简单键值对存储;列族数据库(B)如HBase,按列族组织数据;图数据库(D)如Neo4j,以节点和边的图结构存储。因此正确答案为C。2.ApacheSpark相比MapReduce的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.仅支持批处理作业

C.采用DAG执行引擎优化任务调度

D.可同时处理批处理和流处理【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的核心优势包括:①基于内存计算,减少磁盘IO,处理速度远超MapReduce;②采用DAG执行引擎优化任务依赖关系;③支持流批一体(SparkStreaming+StructuredStreaming)。而MapReduce仅支持批处理,Spark在此基础上扩展了更多能力。选项B“仅支持批处理作业”是MapReduce的特点,而非Spark的优势,故B为错误选项。3.以下数据库中,属于文档型数据库的是?

A.MongoDB

B.HBase

C.Redis

D.Neo4j【答案】:A

解析:本题考察NoSQL数据库的类型分类。MongoDB是典型的文档型数据库,以JSON/BSON格式存储灵活结构的文档。选项B(HBase)是列族数据库;选项C(Redis)是键值型数据库;选项D(Neo4j)是图数据库,故A正确。4.在大数据处理流程中,用于去除数据噪声、填补缺失值的环节是?

A.数据采集

B.数据清洗

C.数据存储

D.数据分析【答案】:B

解析:本题考察大数据处理流程各环节的功能。数据清洗(B选项)是数据预处理的核心步骤,主要任务包括去除重复数据、处理缺失值(如均值填充、删除)、识别并修正异常值(噪声),确保数据质量。数据采集(A选项)是获取原始数据的过程;数据存储(C选项)是将清洗后的数据持久化;数据分析(D选项)是基于清洗后的数据进行统计或挖掘。因此正确答案为B。5.在大数据数据处理流程中,‘先抽取数据,加载到目标系统后再进行转换操作’的模式被称为?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL+ELT混合模式

D.实时ETL(Extract-Transform-LoadinReal-time)【答案】:B

解析:本题考察ETL与ELT的概念差异。ETL(A选项)是先抽取(Extract)、转换(Transform)、再加载(Load)的传统流程;ELT(B选项)则是先抽取数据,直接加载到目标系统(如数据仓库),再在目标系统中进行转换,因大数据场景下目标系统(如Hadoop、数据仓库)的计算能力更强,ELT可减少数据传输和IO开销。C选项无此标准混合模式;D选项“实时ETL”并非ELT的定义,ELT更侧重批处理场景。6.HBase作为典型的分布式数据库,其数据模型属于哪种NoSQL类型?

A.键值型

B.列族型

C.文档型

D.图状结构型【答案】:B

解析:本题考察NoSQL数据库的分类,正确答案为B。HBase基于列族(ColumnFamily)存储模型,将数据按列族分组,支持稀疏存储和多维度扩展,适用于海量结构化数据(如日志、时序数据)。选项A(键值型)代表如Redis,以键值对直接存储;选项C(文档型)代表如MongoDB,以JSON/BSON文档为基本单位;选项D(图状结构型)代表如Neo4j,以节点和边存储复杂关系网络,均不符合HBase的列族存储特征。7.以下哪项不属于大数据的4V核心特征?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)【答案】:D

解析:本题考察大数据4V特征的知识点。大数据的4V核心特征是Volume(数据规模大)、Velocity(数据产生速度快)、Variety(数据类型多样)和Value(数据价值密度低)。而Veracity(数据真实性)是后续衍生的扩展特征,不属于4V核心范畴。因此错误选项A、B、C均为4V特征,D为干扰项。8.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;YARN是资源管理器,负责集群资源调度;MapReduce是分布式计算框架;Hive是基于Hadoop的数据仓库工具。因此正确答案为A。9.以下哪种工具主要用于大数据的离线批处理和SQL查询?

A.Hive

B.HDFS

C.Kafka

D.Flume【答案】:A

解析:本题考察大数据技术栈的工具定位。Hive是基于Hadoop的数据仓库工具,支持类SQL的HQL语法,用于离线批处理和复杂数据分析。选项B(HDFS)是分布式文件系统,选项C(Kafka)是高吞吐消息队列,选项D(Flume)是日志收集工具,均不符合题意,故正确答案为A。10.Hadoop生态系统中,负责存储海量结构化和半结构化数据的核心分布式文件系统是以下哪一个?

A.MapReduce

B.HDFS

C.YARN

D.Hive【答案】:B

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为B。11.在分布式系统CAP定理中,字母“C”代表的是?

A.Consistency(一致性)

B.Availability(可用性)

C.Partitiontolerance(分区容错性)

D.Continuity(连续性)【答案】:A

解析:本题考察分布式系统理论CAP定理。CAP定理指出分布式系统只能同时满足三个要素中的两项:C(Consistency,一致性:所有节点在同一时间看到相同的数据)、A(Availability,可用性:每个请求都能得到成功或失败的响应)、P(Partitiontolerance,分区容错性:允许节点间网络分区);B选项对应“A”,C选项对应“P”,D选项为干扰项(非CAP定理术语)。12.以下哪个工具通常用于Hadoop环境下的数据仓库查询和分析?

A.Hive(数据仓库工具)

B.HBase(分布式列存储数据库)

C.Spark(内存计算引擎)

D.Flume(日志收集工具)【答案】:A

解析:本题考察Hadoop生态系统工具定位的知识点。Hive(选项A)是基于Hadoop的数据仓库工具,支持类SQL的HQL查询语言,适用于大数据量的结构化数据仓库分析;HBase(选项B)是分布式列存储数据库,用于海量随机读写场景;Spark(选项C)是内存计算引擎,侧重实时计算和迭代计算;Flume(选项D)是日志收集工具,用于采集和传输日志数据。因此正确答案为A。13.以下哪个工具主要用于构建实时高吞吐、低延迟的数据流处理管道?

A.Kafka

B.Flink

C.SparkStreaming

D.HadoopStreaming【答案】:A

解析:本题考察大数据流处理工具特性知识点。Kafka是分布式消息队列,专为高吞吐、低延迟的实时数据流管道设计,提供消息持久化和实时传输能力。Flink和SparkStreaming是流处理计算框架(需依赖数据源如Kafka),HadoopStreaming是MapReduce的流处理API,不直接构建数据流管道,因此A选项正确。14.以下哪个大数据流处理框架采用纯流处理架构,支持事件时间处理和精确一次(Exactly-Once)语义,是实时计算的主流选择?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafkaStreams【答案】:B

解析:本题考察流处理框架特性。Flink是原生流处理框架,基于事件时间语义处理,支持状态管理和精确一次语义,适用于低延迟实时计算;SparkStreaming是微批处理框架(将流数据按批次处理,本质是批处理);Storm是早期实时流处理框架,但在状态管理和语义保证上不如Flink;KafkaStreams是轻量级流处理库,需依赖Kafka。因此正确答案为B。15.在Hadoop分布式文件系统(HDFS)中,默认情况下,一个文件被分成块后,每个块会被存储在多少个数据节点上以保证高可用性?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS副本机制知识点。HDFS默认副本数为3,目的是通过冗余存储提升数据可靠性,防止单点故障导致数据丢失。A选项2是部分场景下的非默认配置;C、D选项4和5均高于HDFS默认的冗余策略,因此正确答案为B。16.在数据仓库维度建模中,以下哪种模型属于典型的维度建模结构?

A.星型模型

B.雪花模型

C.星座模型

D.三范式模型【答案】:A

解析:本题考察维度建模与范式建模的区别。星型模型是维度建模的核心,以单个事实表为中心,关联多个维度表(如销售事实表关联客户、产品维度表),结构简单且查询高效;B选项“雪花模型”虽属于维度建模但更接近规范化设计(维度表可进一步拆分),复杂度高于星型;C选项“星座模型”是多个事实表共享维度表的星型扩展,非维度建模的基础结构;D选项“三范式模型”是关系型数据库的规范化设计,与维度建模(反范式化)方向不同。17.数据仓库的核心特性是?

A.面向操作型事务处理

B.面向主题

C.数据实时更新

D.数据冗余度低【答案】:B

解析:本题考察数据仓库的定义与特性。数据仓库是面向主题的(围绕特定业务主题组织数据)、集成的、非易失的、时变的数据集,用于支持管理决策。选项A错误,操作型事务处理是OLTP(联机事务处理)的特点;选项C错误,数据仓库的数据一旦加载后通常不实时更新,以保证分析数据的一致性;选项D错误,数据仓库为提高查询效率,通常会整合冗余数据。因此正确答案为B。18.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心参数知识点。HDFS的块大小是文件系统的重要参数,默认值为128MB。HDFS通过将大文件分割为固定大小的块,实现数据的并行存储与容错(如副本机制)。选项A(64MB)是HDFS早期版本的块大小,非当前默认;选项C(256MB)和D(512MB)均超出HDFS标准默认配置,通常用于特殊场景。19.Spark作为分布式计算框架,相比MapReduce的主要优势是?

A.基于内存计算,迭代效率高

B.仅支持批处理任务

C.仅适用于实时流处理场景

D.不支持SQL查询操作【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark采用内存计算模式,避免了MapReduce基于磁盘I/O的低效问题,尤其在迭代计算(如机器学习、图计算)中效率显著提升;MapReduce支持批处理,但Spark也支持批处理,且扩展了实时流处理(SparkStreaming)和SQL查询(SparkSQL);选项B、C、D均错误。因此正确答案为A。20.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS核心配置知识点。HDFS为提高数据可靠性和容错性,默认将文件存储为3个副本(副本因子),分别存储在不同节点上。当一个节点故障时,其他副本可替代使用。选项A(2)为部分场景下的简化配置,C(4)和D(5)均高于默认值,不符合HDFS标准设置。21.数据仓库设计中,哪种模型是将维度表直接与事实表相连,且维度表不进行规范化拆分?

A.星型模型

B.雪花模型

C.星座模型

D.雪花星型混合模型【答案】:A

解析:本题考察数据仓库模型的结构特点。星型模型以事实表为中心,维度表直接与事实表相连,无中间表,结构简单且查询效率高;雪花模型是维度表规范化拆分后的结构(如地理维度表拆分为国家、省、市三级),虽符合范式但查询复杂度增加;C选项“星座模型”是多个事实表共享维度表的设计;D选项非标准术语。因此星型模型符合题意,选A。22.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础配置知识点。HDFS默认块大小为128MB(在Hadoop2.x及之前版本中),这一设计旨在平衡存储效率和读写性能。选项A(64MB)是早期HDFS的可选配置,并非默认值;选项C(256MB)和D(512MB)通常用于特定高性能场景或Hadoop3.x的大文件优化,但不属于默认配置。23.CAP定理是分布式系统设计的核心理论,其中字母“P”代表的是?

A.Consistency(一致性)

B.Availability(可用性)

C.Partitiontolerance(分区容错性)

D.Performance(性能)【答案】:C

解析:本题考察分布式系统基础理论CAP定理。CAP中三个字母分别对应:C(Consistency,一致性)、A(Availability,可用性)、P(Partitiontolerance,分区容错性)。选项A对应“C”,选项B对应“A”,选项D不属于CAP定理的核心要素。24.大数据最显著的特征是以下哪一项?

A.数据量大(Volume)

B.处理速度快(Velocity)

C.数据类型多样(Variety)

D.价值密度低(Value)【答案】:A

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据准确性)、Value(价值密度低)。其中,“数据量大”是大数据最直观、最显著的特征,其他特征是伴随数据量增长衍生的特性,因此A选项正确。B、C、D虽为大数据特征,但并非“最显著”的核心特征。25.Spark相比MapReduce的显著优势是?

A.基于内存计算,减少磁盘IO操作

B.仅支持批处理计算模式

C.只能处理结构化数据

D.对硬件资源要求更低【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark将中间数据存储在内存中(支持RDD缓存),避免了MapReduce中大量的磁盘读写(MapReduce需多次写磁盘),因此计算速度提升显著;B错误,Spark支持批处理和流处理(StructuredStreaming);C错误,Spark支持JSON、CSV、Parquet等多种格式,包括半结构化/非结构化数据;D错误,Spark对内存/CPU资源要求更高(如内存不足会导致频繁GC)。26.ApacheFlink与其他流处理框架(如Storm、SparkStreaming)相比,最显著的优势在于?

A.支持Exactly-Once语义

B.只能处理批处理数据

C.不支持状态管理

D.仅适用于低延迟场景【答案】:A

解析:本题考察流处理框架的核心特性。Flink通过Checkpoint+Savepoint机制实现端到端的Exactly-Once语义,确保数据不丢失、不重复,这是其相比Storm(At-Least-Once)、SparkStreaming(默认At-Least-Once)的显著优势,故A正确。选项B错误(Flink以流处理为核心,批处理是其特殊场景);选项C错误(Flink提供KeyedState、OperatorState等强大状态管理);选项D错误(Flink支持毫秒级低延迟和分钟级高吞吐场景)。27.在Kafka分布式消息系统中,负责将消息持久化到磁盘的核心组件是?

A.Producer(生产者)

B.Consumer(消费者)

C.Broker(代理节点)

D.ZooKeeper(协调服务)【答案】:C

解析:Kafka中,Broker是服务节点,负责接收、存储消息并持久化到本地磁盘。Producer发送消息,Consumer消费消息,ZooKeeper管理集群元数据,故C正确。28.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:A

解析:本题考察Hadoop生态核心组件知识点。HDFS是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责并行处理任务;YARN是资源管理器,管理集群资源分配;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。29.大数据的“4V”特征中,描述数据规模巨大(包括结构化、半结构化和非结构化数据)的是哪个特征?

A.Volume(数据量大)

B.Velocity(数据产生速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度高)【答案】:A

解析:本题考察大数据核心特征知识点。大数据的4V特征中,Volume特指数据规模巨大,涵盖结构化(如数据库表)、半结构化(如XML)和非结构化(如文本、图片)数据的总量;Velocity强调数据产生和处理速度快(如传感器实时数据);Variety指数据来源和格式多样;Value则指数据价值密度低,需通过分析挖掘。因此正确答案为A。30.大数据环境下,对数据全生命周期进行管理和控制的过程称为?

A.数据清洗

B.数据集成

C.数据治理

D.数据脱敏【答案】:C

解析:本题考察数据治理的定义。数据治理是对数据资产全生命周期(采集、存储、处理、使用、销毁等)的规划、控制与监督,确保数据质量和合规性;数据清洗是处理脏数据(如缺失值、异常值)的过程;数据集成是合并多源异构数据的操作;数据脱敏是通过替换敏感信息为假数据保护隐私的技术,属于数据治理中的安全措施。因此正确答案为C。31.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此正确答案为A。32.Hadoop生态系统中,不属于其核心组件的是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(内存计算框架)

D.YARN(资源管理器)【答案】:C

解析:Hadoop核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)和YARN(资源调度)。Spark是独立的开源计算框架,虽可与Hadoop集成,但不属于Hadoop核心组件,故C错误。33.Kafka默认的消息投递语义是?

A.最多一次

B.至少一次

C.精确一次

D.不确定【答案】:B

解析:本题考察Kafka消息投递语义。Kafka默认通过acks=1配置(仅等待leader副本确认),生产者发送消息后无需等待所有副本同步,消费者处理消息时需提交偏移量。若消费者处理失败,下次会重新读取未提交偏移量的消息,导致重复消费,因此默认语义为“至少一次”(不丢失但可能重复);“最多一次”需acks=0配置(生产者不等待确认,可能丢失消息);“精确一次”需生产者幂等性+消费者事务等复杂配置,非默认情况。因此正确答案为B。34.SparkStreaming采用的核心处理模型是?

A.微批处理模型

B.实时流处理模型

C.纯内存计算模型

D.分布式存储模型【答案】:A

解析:本题考察SparkStreaming处理模型知识点。SparkStreaming基于微批处理(Micro-batch)模型,将实时数据流分割为小批量数据按批处理。实时流处理是Flink的核心特性,纯内存计算是Spark整体优势而非Streaming模型,分布式存储模型属于HDFS等组件特性。因此正确答案为A。35.在Hadoop分布式文件系统(HDFS)中,负责管理文件系统元数据(如文件目录结构、权限、块位置等信息)的核心节点是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:本题考察HDFS核心节点的功能。NameNode是HDFS的主节点,负责管理整个文件系统的元数据,维护文件和目录的树状结构及块位置映射。DataNode是从节点,仅存储实际数据块;SecondaryNameNode主要用于合并元数据日志,减轻NameNode负担;ResourceManager是YARN资源管理器,与HDFS无关。36.Flume作为大数据日志采集工具,其核心组件是?

A.Source、Channel、Sink

B.Input、Output、Store

C.Collector、Processor、Sink

D.以上都不是【答案】:A

解析:本题考察Flume核心架构知识点。Flume采用三层架构:Source(数据接收端,如日志文件、网络端口)、Channel(数据缓存通道,如内存队列、文件存储)、Sink(数据输出端,如HDFS、Kafka);B选项“Input/Output/Store”是通用表述,非Flume特定术语;C选项“Collector/Processor”是其他工具(如Flink)的概念;正确答案为A。37.在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Spark【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于在集群中存储海量数据,采用块(Block)存储和副本机制确保高容错性。MapReduce(B选项)是分布式计算框架,负责并行处理数据;YARN(C选项)是资源管理器,负责集群资源的分配与调度;Spark(D选项)是独立的内存计算引擎,并非Hadoop生态的核心存储组件。因此正确答案为A。38.在数据仓库设计中,星型模型的特点是?

A.以事实表为中心,维度表直接关联

B.维度表会进行规范化处理(雪花模型特征)

C.包含多个独立存储的事实表

D.每个维度表均独立于事实表【答案】:A

解析:本题考察数据仓库星型模型知识点。星型模型以事实表为核心,所有维度表直接与事实表关联,结构简单、查询高效;B描述的是雪花模型(维度表进一步规范化拆分);C错误,星型模型通常包含一个事实表;D错误,维度表必须直接关联事实表。39.Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS的块大小默认值为128MB(Hadoop2.x及以后版本),主要为平衡磁盘读写效率与内存利用率。64MB是Hadoop1.x的早期默认值;256MB和512MB为非默认配置或特定场景(如超大规模集群)使用,因此正确答案为A。40.以下哪种数据库系统最适合存储非结构化数据(如JSON文档、图片元数据等)?

A.MySQL(关系型数据库)

B.MongoDB(文档型数据库)

C.Redis(键值型数据库)

D.HBase(列族型数据库)【答案】:B

解析:本题考察NoSQL数据库的类型与适用场景。MongoDB作为文档型数据库,采用类似JSON的BSON格式存储数据,天然支持嵌套结构和灵活的非结构化数据。选项A(MySQL)是关系型数据库,依赖表结构,适合结构化数据;选项C(Redis)是键值型数据库,仅支持简单键值对,不支持复杂非结构化数据;选项D(HBase)是列族型数据库,适合海量结构化数据(如时序数据),不直接支持文档型结构。41.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS的默认块大小为128MB,这一设计平衡了大文件存储的容错性(块过小会增加元数据开销,过大则降低并行处理效率)和IO效率。错误选项分析:B选项64MB是HDFS早期版本(如0.19.x)的块大小,已被淘汰;C选项256MB因块过大,在频繁访问时会增加磁盘IO压力,不适合HDFS的分布式存储场景;D选项512MB属于超大规模块设置,会进一步降低并行处理能力和数据可靠性。42.以下关于数据湖(DataLake)的描述,正确的是?

A.仅存储结构化数据(如关系型数据库表)

B.强调数据的标准化和一致性,适合BI分析

C.通常基于数据仓库架构构建,数据需预先清洗

D.可存储原始数据(结构化/半结构化/非结构化),支持灵活分析【答案】:D

解析:本题考察数据湖与数据仓库的概念区分。数据湖的核心特征是存储未经处理的原始数据(包括结构化、半结构化、非结构化),并支持灵活的分析需求(如机器学习、复杂查询),无需预先标准化。A错误(数据湖支持多类型数据);B错误(标准化是数据仓库特征);C错误(数据湖独立于数据仓库,数据仓库通常从数据湖提取清洗后构建)。43.K-means聚类算法属于以下哪种机器学习类别?

A.监督学习

B.无监督学习

C.强化学习

D.深度学习【答案】:B

解析:本题考察机器学习算法分类。K-means是典型的无监督学习算法,通过数据自身特征自动划分簇(Cluster),无需人工标注标签。选项A(监督学习)需训练数据带标签(如分类、回归);选项C(强化学习)通过与环境交互学习最优策略(如AlphaGo);选项D(深度学习)是基于神经网络的多层模型,属于监督/无监督学习的子方法。因此正确答案为B。44.根据CAP定理,在分布式系统中‘当网络分区发生时,系统仍能对外提供服务,但可能导致数据暂时不一致’的行为违反了哪个原则?

A.Consistency(一致性)

B.Availability(可用性)

C.Partitiontolerance(分区容错性)

D.None(未违反任何原则)【答案】:A

解析:本题考察分布式系统CAP定理的核心原则。CAP定理指出,分布式系统无法同时满足“一致性(所有节点数据相同)”“可用性(系统正常响应请求)”和“分区容错性(网络分区时系统仍运行)”。题目中“分区发生时仍提供服务”表明系统选择了“可用性”和“分区容错性”,但“数据暂时不一致”说明放弃了“一致性”,因此违反了Consistency原则。选项B(可用性)是系统主动选择的目标,未被违反;选项C(分区容错性)是分布式系统必须具备的基础能力,题目中系统正常运行即满足。45.在MapReduce计算框架中,负责将Map任务输出的中间结果按照key进行分区并分发到对应Reduce节点的核心阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Combine阶段【答案】:B

解析:本题考察MapReduce执行流程的知识点。MapReduce中,Map阶段负责数据分片和初步处理,Combine阶段是Map端的局部聚合(非必需),Reduce阶段负责接收Shuffle后的结果并聚合计算。而Shuffle阶段是核心分发环节,通过分区、排序、合并等操作将Map输出分发到Reduce节点,因此正确答案为B。46.在数据仓库的维度建模中,以下哪个属于事实表?

A.客户表

B.产品表

C.销售记录表

D.员工表【答案】:C

解析:本题考察数据仓库维度建模的基础概念。事实表记录业务事件及度量值(如销售金额、数量),包含维度表的外键;维度表存储描述性属性(如客户信息、产品分类)。选项A(客户表)、B(产品表)、D(员工表)均为维度表,用于描述事实表的上下文;选项C(销售记录表)包含“销售额”“订单量”等度量值,属于事实表。47.以下哪个是Hadoop分布式文件系统?

A.HDFS

B.HBase

C.MapReduce

D.YARN【答案】:A

解析:本题考察Hadoop生态系统核心组件。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责存储海量数据;B选项HBase是分布式NoSQL数据库;C选项MapReduce是分布式计算框架;D选项YARN是Hadoop资源管理器。因此正确答案为A。48.在数据仓库设计中,以下哪种是常用的维度建模方法?

A.星型模型

B.雪花模型

C.星座模型

D.以上都是【答案】:D

解析:本题考察数据仓库维度建模方法。星型模型以单个事实表为中心,关联多个维度表,结构简单直观;雪花模型是星型模型的扩展,维度表进一步规范化为子表,减少数据冗余;星座模型(事实星座)是多个事实表共享维度表的建模方式,适用于复杂业务场景。三者均为数据仓库维度建模的典型方法,因此正确答案为D。49.ApacheFlink与ApacheStorm在流处理中的核心差异在于?

A.Flink支持有状态计算,Storm不支持

B.Flink仅适用于批处理,Storm仅适用于流处理

C.Flink的吞吐量远低于Storm

D.Flink仅处理无界流,Storm仅处理有界流【答案】:A

解析:本题考察流处理框架的核心特性。Flink支持有状态计算(如窗口操作、状态后端管理),Storm是无状态的实时流处理;B选项错误,Flink同时支持流处理和批处理(统一处理引擎);C选项错误,Flink吞吐量更高,适合高并发场景;D选项错误,两者均支持无界流,Storm也可处理有界流(如从文件读取)。因此正确答案为A。50.以下哪项不属于Hadoop的核心组成部分?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:D

解析:本题考察Hadoop核心组件知识点。Hadoop的核心三部分为HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),负责数据存储、计算和资源调度。ZooKeeper是分布式协调服务,属于Hadoop生态扩展组件而非核心组成部分,因此D选项错误。51.在数据仓库设计中,用于存储业务事件度量值(如销售额、订单量)的表通常称为?

A.维度表

B.事实表

C.星型模型

D.雪花模型【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量数据(数值型),如“销售订单表”中的订单金额、数量等;维度表存储描述性属性(如时间、地区),用于解释事实表的上下文;星型模型和雪花模型是数据仓库的表组织模式(非表类型)。因此正确答案为B。52.MongoDB属于以下哪种NoSQL数据库模型?

A.键值对(Key-Value)模型

B.文档(Document)模型

C.列族(Column-Family)模型

D.图(Graph)模型【答案】:B

解析:本题考察NoSQL数据库的分类,正确答案为B。MongoDB以JSON格式的“文档”(Document)为基本存储单元,支持嵌套文档和灵活的模式,属于文档模型;A典型代表为Redis、DynamoDB;C代表为HBase、Cassandra;D代表为Neo4j。53.MongoDB属于哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB以文档模型存储数据,每个文档类似JSON格式,支持嵌套结构和灵活模式,属于文档型数据库。选项A错误,键值型数据库(如Redis)以简单键值对存储;选项B错误,列族型数据库(如HBase)按列族组织数据;选项D错误,图型数据库(如Neo4j)用于存储实体关系图。54.Spark相比MapReduce的主要优势是?

A.支持内存计算,处理速度更快

B.仅支持批处理场景,不支持流处理

C.必须依赖磁盘存储中间结果

D.无法进行复杂数据挖掘算法计算【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势在于内存计算,中间结果无需频繁写入磁盘,因此处理速度显著快于MapReduce(后者依赖磁盘I/O)。选项B错误,Spark通过StructuredStreaming等组件支持流处理;选项C错误,Spark优先使用内存存储数据;选项D错误,Spark支持复杂算法(如机器学习MLlib)和复杂数据处理。55.Spark相比MapReduce的主要优势在于?

A.内存计算

B.磁盘计算

C.批处理模式

D.实时流处理【答案】:A

解析:本题考察Spark与MapReduce的计算模型差异。Spark采用内存计算模型,通过RDD(弹性分布式数据集)实现数据在内存中的多次迭代,避免了MapReduce基于磁盘的多次读写,显著提升计算速度;MapReduce是基于磁盘的批处理框架,速度较慢。Spark支持批处理和流处理,但核心优势是内存计算;实时流处理并非Spark独有的核心优势(如Flink更擅长)。因此正确答案为A。56.以下哪个流处理框架支持低延迟的流处理和精确一次(Exactly-Once)语义?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheStorm

D.ApacheKafkaStreams【答案】:A

解析:本题考察主流流处理框架特性。ApacheFlink是流批统一的框架,支持毫秒级低延迟处理和精确一次语义(确保数据不重复、不丢失)。错误选项B(SparkStreaming)是微批处理模型,依赖RDD实现,延迟较高;C(Storm)虽支持纯流处理,但不支持精确一次语义;D(KafkaStreams)需依赖Kafka存储层实现语义,自身不提供统一的精确一次语义支持。57.Hadoop分布式文件系统(HDFS)默认的副本数是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS的基本配置知识点。HDFS默认副本数为3,主要目的是通过多副本机制实现数据冗余,防止单点故障导致数据丢失。选项A(2)通常为非默认场景下的调整值,选项C(4)和D(5)超出HDFS默认配置范围,故正确答案为B。58.以下哪种数据库属于文档型NoSQL数据库?

A.MongoDB

B.HBase

C.Redis

D.MySQL【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式存储数据;HBase是列族型数据库(如Hadoop生态的结构化存储);Redis是键值型内存数据库;MySQL是关系型数据库(非NoSQL)。因此正确答案为A。59.MongoDB数据库的核心数据模型是以下哪种类型?

A.关系型

B.文档型

C.键值型

D.列族型【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式的文档存储数据,支持灵活的模式设计;关系型数据库(如MySQL)以表和行存储;键值型数据库(如Redis)存储键值对;列族型数据库(如HBase)按列族组织数据。因此MongoDB属于文档型数据库,正确答案为B。60.以下哪项不属于数据仓库的基本特性?

A.面向主题

B.实时性

C.集成性

D.时变性【答案】:B

解析:本题考察数据仓库特性。数据仓库核心特性包括面向主题、集成性、非易失性、时变性,而实时性通常是OLTP(联机事务处理)系统的特点,数据仓库主要用于历史数据分析,非实时处理。因此B选项不属于数据仓库特性,正确答案为B。61.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对(Key-Value)数据库

B.文档型(Document)数据库

C.列族(Column-Family)数据库

D.图(Graph)数据库【答案】:B

解析:本题考察NoSQL数据库分类。MongoDB以JSON格式的文档为基本存储单元,属于典型的文档型数据库。A错误,键值型数据库如Redis;C错误,列族型数据库如HBase、Cassandra;D错误,图数据库如Neo4j,用于存储实体关系网络。62.Spark相比MapReduce的核心优势不包括以下哪项?

A.支持内存计算,减少磁盘I/O操作

B.采用DAG执行模型,优化任务依赖关系

C.仅支持批处理任务,不支持流处理

D.提供更简洁的API,开发效率更高【答案】:C

解析:本题考察大数据处理框架的技术对比。Spark的核心优势包括内存计算(A正确,速度更快)、DAG执行模型(B正确,减少磁盘I/O)和简洁API(D正确)。而C错误,Spark不仅支持批处理,还通过SparkStreaming、StructuredStreaming支持流处理,这是MapReduce(仅批处理)的显著劣势。因此正确答案为C。63.Spark相比MapReduce在迭代计算场景中更高效的核心原因是?

A.内存计算模型减少磁盘IO

B.支持磁盘存储计算

C.仅支持批处理模式

D.实时流处理能力强【答案】:A

解析:本题考察Spark与MapReduce的计算模型差异。Spark采用内存计算框架,中间结果默认存储在内存中,迭代计算时无需重复读写磁盘,大幅降低IO开销(MapReduce需多次磁盘IO)。错误选项分析:B选项“磁盘存储”是MapReduce的典型特征,Spark虽支持磁盘存储但非核心优势;C选项“批处理”是两者共有的基础能力,非Spark独有的迭代优势;D选项“实时流处理”是SparkStreaming的功能,与迭代计算的高效性无关。64.以下哪种数据处理方式适用于实时分析场景(如实时监控系统的异常检测)?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线处理(OfflineProcessing)

D.混合处理(HybridProcessing)【答案】:B

解析:本题考察数据处理类型的应用场景。流处理针对连续实时数据流(如传感器数据、日志流),支持低延迟处理和实时分析(如实时告警);批处理(A)处理历史数据,耗时较长;离线处理(C)等同于批处理,通常用于T+1报表生成;混合处理(D)是批流结合,但核心实时场景由流处理承担。因此正确答案为B。65.MongoDB属于哪种类型的NoSQL数据库?

A.键值对(Key-Value)型

B.文档型(Document)

C.列族(Column-Family)型

D.图(Graph)型【答案】:B

解析:本题考察NoSQL数据库类型知识点。MongoDB以类JSON的BSON格式存储文档,支持复杂嵌套结构,属于文档型数据库。键值型如Redis(仅存储简单键值对);列族型如HBase(按列族组织数据,适用于结构化数据);图型如Neo4j(存储节点与关系数据)。因此正确答案为B。66.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心配置知识点,正确答案为B。HDFS默认块大小为128MB,这一设置平衡了存储效率和IO效率:较大的块可减少NameNode元数据压力(块数量少),同时避免小文件过多导致的IO频繁问题;而64MB块会增加NameNode内存占用,256MB/512MB则可能降低IO效率(单次读写数据量大,网络传输耗时增加)。67.以下哪个框架特别擅长处理高吞吐量的实时流数据?

A.SparkStreaming(微批处理框架)

B.ApacheFlink(流处理框架)

C.ApacheStorm(实时计算框架)

D.ApacheHive(数据仓库工具)【答案】:B

解析:本题考察流处理框架的特点。Flink是专为流处理设计的框架,支持低延迟、高吞吐的数据处理,具备精确一次(Exactly-Once)语义和强大的状态管理能力,适合实时流数据场景。ASparkStreaming基于微批处理,本质是“准实时”,延迟较高;CStorm虽支持实时计算,但在状态管理和容错性上弱于Flink;DHive是数据仓库工具,主要用于批处理分析,非流处理框架。68.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础架构知识点。HDFS默认块大小为128MB,这一设计是为了平衡磁盘读写效率与内存利用率(小文件过多会增加元数据管理开销,大文件会导致单次IO耗时过长)。选项A(64MB)是早期Hadoop版本的可选配置或特定场景优化值;选项C(256MB)常见于高性能存储集群的优化设置;选项D(512MB)因文件过大可能导致MapReduce任务拆分困难,故非默认值。69.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心特性,正确答案为C。HDFS默认将文件块复制3份以提供容错能力和数据冗余,3个副本既能保证数据可靠性(避免单点故障),又能平衡存储成本与读取效率。选项A(1个副本)无容错能力,数据丢失后无法恢复;选项B(2个副本)容错能力较弱,单点故障仍可能导致数据不可用;选项D(4个副本)会增加存储开销,超出HDFS默认优化的存储效率范围。70.以下关于Spark与MapReduce的核心差异描述,正确的是?

A.Spark只能处理内存数据,MapReduce只能处理磁盘数据

B.Spark的RDD是惰性计算,MapReduce是立即执行

C.Spark支持内存计算,MapReduce主要基于磁盘迭代

D.Spark比MapReduce运行速度快10倍以上(绝对数值)【答案】:C

解析:本题考察分布式计算框架的技术特性。Spark的核心优势是内存计算(RDD默认缓存在内存),而MapReduce需通过磁盘读写中间结果,导致I/O开销大。选项A错误,Spark和MapReduce均可处理磁盘数据(Spark也支持持久化到磁盘);选项B错误,两者均采用惰性计算(Spark的DAG执行引擎延迟调度,MapReduce的作业需显式触发);选项D错误,Spark速度提升倍数因场景而异(通常5-100倍),无绝对10倍以上的通用结论。71.关于Hadoop分布式文件系统(HDFS)的核心作用,以下描述正确的是?

A.提供高容错性的分布式文件存储

B.负责大数据的批处理计算任务

C.管理集群资源分配与调度

D.实现数据仓库的ETL(抽取、转换、加载)流程【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式存储系统,其核心作用是通过多副本机制实现高容错性的海量数据存储,因此A正确。B选项是MapReduce的功能;C选项是YARN(资源管理器)的职责;D选项通常由Hive、Impala等数据仓库工具实现,故错误。72.MongoDB数据库属于以下哪种类型的NoSQL数据库?

A.键值(Key-Value)型

B.列族(Column-Family)型

C.文档(Document)型

D.图(Graph)型【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以JSON/BSON格式存储文档,属于文档型数据库。错误选项A(键值型)如Redis以键值对存储;B(列族型)如HBase以列族+行键组织数据;D(图型)如Neo4j以节点和边的关系模型存储。73.以下哪种文件格式常用于大数据场景下的列式存储,以提高查询效率?

A.CSV

B.JSON

C.Parquet

D.XML【答案】:C

解析:本题考察大数据存储格式。Parquet是列式存储格式,适合大数据场景下的高效查询(仅读取所需列)和压缩。CSV、JSON、XML均为行式文本格式,查询时需扫描大量无关数据,效率较低。因此正确答案为C。74.关于数据湖(DataLake)的正确描述是?

A.仅存储结构化数据,用于业务分析

B.存储原始数据,支持多种数据类型和处理方式

C.是传统数据仓库的升级,仅存储历史数据

D.只能通过ETL工具访问数据【答案】:B

解析:本题考察数据湖的核心定义。数据湖是存储原始数据(结构化、半结构化、非结构化)的集中式平台,支持多种数据类型(如文本、日志、图像等),并能通过批处理、流处理、AI训练等多种方式处理数据。选项A错误,数据湖不局限于结构化数据;选项C错误,数据湖存储原始数据而非仅历史数据;选项D错误,数据湖数据可通过多种工具(如Spark、Flink、AI框架)直接访问,无需依赖ETL工具。因此正确答案为B。75.下列关于数据仓库(DataWarehouse)的描述,哪项是正确的?

A.主要用于存储企业海量原始数据,支持各种数据类型

B.通常按主题域组织,面向分析型应用,存储结构化数据

C.仅支持实时数据处理,不支持离线分析

D.只能存储非结构化数据,如日志、图片等【答案】:B

解析:本题考察数据仓库的核心特点。数据仓库是面向主题、集成的、相对稳定的、反映历史变化的结构化数据集合,主要用于离线分析;A选项描述的是数据湖的特征(存储原始多类型数据);C选项错误,数据仓库支持离线分析为主,也可通过ETL实现部分实时数据整合;D选项错误,数据仓库仅存储结构化数据,非结构化数据需数据湖存储。因此正确答案为B。76.Spark相比MapReduce的主要优势是?

A.内存计算,减少磁盘IO开销

B.完全依赖磁盘存储中间结果

C.仅支持批处理任务

D.不支持实时计算场景【答案】:A

解析:本题考察主流大数据处理框架对比。Spark的核心优势在于基于内存计算,中间结果直接保存在内存中,避免了MapReduce需频繁读写磁盘的IO瓶颈,因此处理速度远快于MapReduce。选项B错误(Spark优先内存计算);选项C错误(Spark支持批处理和流处理);选项D错误(SparkStreaming支持实时计算)。77.数据仓库中,哪个特性是指数据随时间变化以反映业务发展趋势?

A.面向主题

B.集成性

C.非易失性

D.时变性【答案】:D

解析:本题考察数据仓库的核心特性。数据仓库的四个关键特性中:A(面向主题)指围绕特定业务主题组织数据;B(集成性)指整合多源异构数据;C(非易失性)指数据仅添加不删除;D(时变性)特指数据随时间推移而积累变化,用于历史趋势分析。其他选项均不符合“随时间变化”的定义。78.以下哪种大数据存储系统最适合存储和处理海量结构化数据,支持高并发随机读写操作?

A.HDFS

B.HBase

C.MongoDB

D.Redis【答案】:B

解析:本题考察大数据存储系统的应用场景。HBase是基于HDFS的分布式列式数据库,专为海量结构化数据设计,支持高并发随机读写(如电商订单、用户行为日志等);A选项HDFS是分布式文件系统,不适合结构化数据的随机查询;C选项MongoDB是文档型NoSQL数据库,适合非结构化数据,但超大规模场景下性能不及HBase;D选项Redis是内存数据库,无法支持海量数据长期存储。因此正确答案为B。79.大数据的5V特征通常指的是以下哪一组?

A.Volume,Velocity,Variety,Veracity,Value

B.Volume,Viscosity,Variety,Veracity,Value

C.Volume,Velocity,Variety,Variability,Value

D.Volume,Velocity,Viscosity,Veracity,Value【答案】:A

解析:本题考察大数据的5V特征知识点。大数据的5V特征是指Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。选项B中的Viscosity(粘度)是流体力学概念,非大数据特征;选项C中的Variability(可变性)和选项D中的Viscosity(粘度)均为错误替换,因此A为正确答案。80.大数据系统中的元数据(Metadata)主要作用是?

A.记录数据的来源、转换和血缘关系

B.对数据进行加密和解密操作

C.实现数据的实时清洗和过滤

D.对海量数据进行压缩存储【答案】:A

解析:本题考察元数据的功能。元数据记录数据的全生命周期信息(来源、转换过程、存储位置等),形成数据血缘关系,帮助理解数据质量和追溯;数据加密属于安全模块,实时清洗是ETL或流处理任务,数据压缩是存储优化技术。因此A正确。81.根据CAP定理,在分布式系统中发生网络分区(Partition)时,为了保证系统可用性(Availability),通常优先选择的两个特性是?

A.一致性(Consistency)和可用性(Availability)

B.可用性(Availability)和分区容错性(PartitionTolerance)

C.一致性(Consistency)和分区容错性(PartitionTolerance)

D.只能保证一致性或可用性,无法同时保证【答案】:B

解析:本题考察分布式系统CAP定理的核心内容。CAP定理指出分布式系统中三个特性不可兼得:一致性(所有节点同时看到相同数据)、可用性(每个请求都能得到响应)、分区容错性(系统在网络分区时仍能工作)。其中分区容错性(P)是分布式系统的固有需求,因此系统必须满足P。此时,只能在C(一致性)和A(可用性)中选择一个:为保证可用性,需优先选择A和P(可用性和分区容错性),允许不同分区的节点提供不同版本数据(最终一致性)。因此正确答案为B。82.下列关于ApacheFlink的描述,错误的是?

A.支持事件时间处理

B.统一流处理与批处理框架

C.仅支持内存计算,不支持磁盘计算

D.提供精确一次(Exactly-Once)语义【答案】:C

解析:本题考察Flink的核心特性。Flink是统一的流处理和批处理框架(B正确),支持事件时间处理(A正确,解决数据乱序问题)和精确一次语义(D正确,通过两阶段提交协议保证数据一致性);C选项错误,Flink既支持内存计算(如状态管理),也支持磁盘计算(如大型数据集的磁盘缓存),并非“仅支持内存计算”。因此正确答案为C。83.以下关于数据仓库(DW)的描述,正确的是?

A.数据仓库的数据是实时更新的

B.数据仓库通常采用星型或雪花型模型

C.数据仓库只存储当前数据

D.数据仓库的主要操作是事务处理【答案】:B

解析:本题考察数据仓库的核心定义与特性。数据仓库是面向分析的集成化历史数据集合,其模型设计以星型(中心事实表+维度表)或雪花型(维度表层级细分)为主,便于复杂查询和聚合分析。选项A错误,数据仓库采用批处理更新(T+1或更长周期),非实时更新;选项C错误,数据仓库包含历史数据(如过去5年的业务数据),用于趋势分析;选项D错误,数据仓库主要支持查询与分析(OLAP操作),事务处理(OLTP)是数据库的核心功能。84.HBase属于以下哪种NoSQL数据库类型?

A.文档型

B.列族型

C.键值型

D.图数据库【答案】:B

解析:本题考察NoSQL数据库类型及典型应用。HBase是典型的列族数据库,以列族(ColumnFamily)为基本存储单位,适合海量结构化数据的随机读写。选项A(文档型)如MongoDB,选项C(键值型)如Redis,选项D(图数据库)如Neo4j,均不符合HBase的存储模型,故正确答案为B。85.ApacheFlink作为流处理框架,其核心特性是?

A.基于微批处理模型,实现低延迟流处理

B.支持高吞吐、低延迟的实时流处理

C.仅支持离线批处理,不擅长流处理

D.依赖Spark引擎实现内存计算【答案】:B

解析:本题考察Flink核心特性。Flink专注实时流处理,支持低延迟(毫秒级)和高吞吐(每秒数十万事件),具备精确一次语义。A选项是SparkStreaming的微批处理模型,C选项与Flink支持流批一体矛盾,D选项错误(Flink是独立框架,不依赖Spark)。86.MongoDB在NoSQL数据库中属于哪种类型?

A.键值对数据库(Key-Value)

B.列族数据库(Column-Family)

C.文档型数据库(Document)

D.图数据库(Graph)【答案】:C

解析:本题考察NoSQL数据库类型及代表产品。MongoDB以JSON格式文档存储数据,属于文档型数据库;键值对数据库如Redis、Memcached;列族数据库如HBase;图数据库如Neo4j。因此正确答案为C。87.Hadoop分布式文件系统(HDFS)的默认数据块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点。Hadoop分布式文件系统(HDFS)的默认数据块大小为128MB(可配置),其设计目的是平衡磁盘IO效率与元数据管理开销。选项A(64MB)是HDFS早期版本的默认配置;C(256MB)和D(512MB)因过大导致随机IO开销剧增,不符合实际生产场景需求。88.Hadoop生态系统中,负责分布式数据存储的核心组件是以下哪一个?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;ZooKeeper是分布式协调服务,提供配置管理和状态同步。因此正确答案为A。89.在大数据预处理阶段,对于含有缺失值的数据,以下哪种方法不属于常用的缺失值处理策略?

A.使用均值/中位数填充缺失数值

B.直接删除含有缺失值的记录

C.通过KNN算法基于相似样本预测缺失值

D.忽略缺失值直接进行数据分析【答案】:D

解析:本题考察数据预处理中的缺失值处理知识点。常用策略包括:删除(记录或特征)、填充(均值、KNN、回归等);D选项“忽略缺失值直接分析”会导致数据偏差和统计结果不准确,属于不推荐的做法。A、B、C均为常见且合理的处理方法。因此正确答案为D。90.以下哪项是Hadoop分布式文件系统(HDFS)中NameNode的主要功能?

A.存储实际数据块

B.存储文件系统元数据

C.执行数据处理任务

D.管理DataNode之间的数据传输【答案】:B

解析:NameNode的核心功能是存储文件系统的元数据(如文件目录结构、权限信息、文件与数据块的映射关系等);A错误,实际数据块由DataNode存储;C错误,数据处理任务由MapReduce或Spark等计算框架执行;D错误,NameNode通过心跳机制与DataNode通信,但“管理DataNode之间的数据传输”并非其主要功能。91.在流处理技术中,哪种框架以低延迟、高吞吐和精确一次(Exactly-Once)语义为核心特性,适用于实时数据处理场景?

A.ApacheSparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafkaStreams【答案】:B

解析:本题考察流处理框架的核心特性。Flink是实时流处理框架,基于事件驱动模型,支持状态管理和精确一次语义,延迟低且吞吐高;SparkStreaming是微批处理框架(DStream),本质是批处理,延迟较高;Storm是实时流处理但缺乏状态管理和精确语义;KafkaStreams基于Kafka,适合简单流处理但生态较单一。因此Flink符合题意,选B。92.Hadoop生态系统中,负责数据分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大数据存储设计,将数据分散存储在多台服务器上,提供高容错性和高吞吐量。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源分配;ZooKeeper是分布式协调服务,用于配置管理和集群状态监控。因此正确答案为A。93.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责在集群中存储海量数据;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此,负责分布式文件存储的是HDFS,A选项正确。94.大数据的5V特性中,描述数据产生和处理速度快的是?

A.Volume(数据规模)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Value(数据价值)【答案】:B

解析:大数据5V特性:Volume(规模)、Velocity(速度,数据产生/处理速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。描述速度的是Velocity,选B。95.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.支持实时事务处理

B.面向业务分析需求

C.数据实时动态更新

D.存储高频访问的热数据【答案】:B

解析:本题考察数据仓库核心特性知识点。数据仓库是面向分析的集成数据集合,用于历史数据整合与决策支持。A错误(实时事务处理是OLTP系统的特点);C错误(数据仓库数据通常按周期批量加载,非实时更新);D错误(高频访问热数据存储在数据库,数据仓库侧重冷数据存储)。因此正确答案为B。96.在Hadoop分布式文件系统(HDFS)中,默认的块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS基础配置知识点。HDFS默认块大小为128MB(适用于Hadoop2.x及主流版本),主要为平衡存储效率与数据传输开销。选项B(64MB)可能是早期HDFS版本或特定场景下的配置;选项C(256MB)和D(512MB)通常为特殊优化配置而非默认值,因此正确答案为A。97.Spark相比MapReduce的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持迭代计算和交互式查询

C.不支持SQL语法,仅依赖MapReduce编程模型

D.采用DAG执行引擎优化任务执行计划【答案】:C

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势包括:A项基于内存计算,速度远快于MapReduce的磁盘IO;B项支持迭代计算(如机器学习)和交互式查询(SparkShell);D项通过DAG(有向无环图)引擎优化执行计划,减少冗余计算。而C项错误,Spark通过SparkSQL完全支持SQL语法,且其编程模型不仅限于MapReduce的Map/Reduce函数,支持更灵活的转换操作。因此正确答案为C。98.K-means聚类算法属于以下哪种机器学习类型?

A.监督学习

B.无监督学习

C.半监督学习

D.强化学习【答案】:B

解析:本题考察机器学习算法类型。K-means无需标注数据(无监督),通过相似度将数据分组;监督学习需要标签(如分类、回归);半监督学习结合少量标签数据;强化学习通过奖励机制学习策略。因此正确答案为B。99.在Hadoop分布式文件系统(HDFS)中,默认的副本因子(ReplicationFactor)是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的基础配置知识点。HDFS默认副本因子为3,原因是通过冗余存储实现数据容错(如副本丢失时可快速恢复),同时平衡可用性与存储成本。选项A(1个副本)容错能力极低,丢失后数据永久损坏;选项B(2个副本)仅能容忍1个节点故障,高可用性不足;选项D(4个副本)冗余度过高,会导致存储资源浪费,不符合HDFS默认设计。100.关于数据仓库(DataWarehouse)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储非结构化数据,数据湖主要存储结构化数据

B.数据仓库需要ETL流程,数据湖通常采用ELT流程

C.数据仓库面向业务分析,数据湖仅用于大数据量存储

D.数据仓库中的数据是经过清洗和整合的,数据湖中的数据是原始未处理的【答案】:D

解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向主题的集成数据集合,数据需经ETL(抽取-转换-加载)清洗整合后存储;数据湖则直接存储原始数据(结构化、半结构化、非结构化),保留原始数据形态以支持探索性分析。选项A错误(数据仓库以结构化数据为主,数据湖支持多种格式);选项B错误(数据仓库和数据湖均可采用ETL/ELT流程,非绝对区分);选项C错误(数据湖不仅用于存储,也支持深度分析)。因此D为正确答案。101.Spark相比MapReduce的主要优势是?

A.基于内存计算,速度更快

B.仅支持批处理任务

C.只能处理结构化数据

D.不支持复杂数据结构【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark采用内存计算(RDD缓存),减少磁盘IO操作,大幅提升批处理速度;B选项错误,Spark同时支持批处理和流处理(StructuredStreaming);C选项错误,Spark支持多种数据结构(如DataFrame、Dataset),且可处理非结构化数据(如文本、JSON);D选项错误,Spark通过RDD、DataFrame等抽象支持复杂数据结构(如嵌套结构、数组)。102.MapReduce分布式计算框架的核心设计思想是?

A.分而治之(DivideandConquer)

B.实时流处理

C.内存计算优先

D.数据本地性优化【答案】:A

解析:本题考察MapReduce的核心原理。MapRe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论