2026年大数据技术专业能力测试备考题附答案详解【能力提升】_第1页
2026年大数据技术专业能力测试备考题附答案详解【能力提升】_第2页
2026年大数据技术专业能力测试备考题附答案详解【能力提升】_第3页
2026年大数据技术专业能力测试备考题附答案详解【能力提升】_第4页
2026年大数据技术专业能力测试备考题附答案详解【能力提升】_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术专业能力测试备考题附答案详解【能力提升】1.Spark相比MapReduce,其核心优势在于?

A.内存计算速度更快

B.磁盘IO效率更高

C.支持实时流处理

D.仅需单机部署即可运行【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark采用内存计算架构,将数据缓存在内存中进行迭代计算,避免了MapReduce中频繁的磁盘IO操作,因此在迭代计算、交互式查询场景下速度远超MapReduce。选项B(磁盘IO效率更高)错误,MapReduce本身依赖磁盘存储中间结果,而Spark的优势正是减少磁盘依赖;选项C(支持实时流处理)是SparkStreaming的功能,属于扩展特性,非核心优势;选项D(仅需单机部署)错误,Spark需分布式集群支持,且MapReduce同样支持分布式部署。2.下列关于Hive的描述,正确的是?

A.Hive是实时流处理引擎

B.Hive使用HiveQL(HQL)进行查询

C.Hive仅支持结构化数据处理

D.Hive的元数据默认存储在HDFS中【答案】:B

解析:Hive是基于Hadoop的数据仓库工具,通过HiveQL(HQL)实现类SQL查询,B正确。A错误,Hive是批处理工具,实时流处理引擎如Flink;C错误,Hive支持半结构化数据(如JSON);D错误,元数据默认存储在MySQL等关系型数据库。3.Spark相比MapReduce的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持迭代计算和交互式查询

C.不支持SQL语法,仅依赖MapReduce编程模型

D.采用DAG执行引擎优化任务执行计划【答案】:C

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势包括:A项基于内存计算,速度远快于MapReduce的磁盘IO;B项支持迭代计算(如机器学习)和交互式查询(SparkShell);D项通过DAG(有向无环图)引擎优化执行计划,减少冗余计算。而C项错误,Spark通过SparkSQL完全支持SQL语法,且其编程模型不仅限于MapReduce的Map/Reduce函数,支持更灵活的转换操作。因此正确答案为C。4.ApacheFlink作为流处理框架,其核心特性是?

A.基于内存计算,仅支持批处理

B.低延迟流处理,支持状态管理

C.需固定窗口大小,无法处理动态数据

D.基于SparkRDD模型实现流处理【答案】:B

解析:本题考察Flink的核心特性。Flink是开源流处理框架,支持低延迟的实时流处理(毫秒级延迟),并提供强大的状态管理能力(如KeyedState、WindowState),支持Exactly-Once语义。选项A错误,Flink既支持流处理也支持批处理;选项C错误,Flink窗口大小灵活且支持动态数据处理;选项D错误,Flink采用自己的DataFlow模型,与SparkRDD无关。因此正确答案为B。5.Kafka默认的消息投递语义是?

A.最多一次

B.至少一次

C.精确一次

D.不确定【答案】:B

解析:本题考察Kafka消息投递语义。Kafka默认通过acks=1配置(仅等待leader副本确认),生产者发送消息后无需等待所有副本同步,消费者处理消息时需提交偏移量。若消费者处理失败,下次会重新读取未提交偏移量的消息,导致重复消费,因此默认语义为“至少一次”(不丢失但可能重复);“最多一次”需acks=0配置(生产者不等待确认,可能丢失消息);“精确一次”需生产者幂等性+消费者事务等复杂配置,非默认情况。因此正确答案为B。6.Hadoop分布式文件系统(HDFS)的默认数据块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点。Hadoop分布式文件系统(HDFS)的默认数据块大小为128MB(可配置),其设计目的是平衡磁盘IO效率与元数据管理开销。选项A(64MB)是HDFS早期版本的默认配置;C(256MB)和D(512MB)因过大导致随机IO开销剧增,不符合实际生产场景需求。7.Spark相比MapReduce,在大数据处理中的核心优势是?

A.仅支持批处理,不支持流处理

B.基于内存计算,迭代任务执行速度更快

C.只能处理结构化数据,无法处理非结构化数据

D.完全依赖磁盘IO进行数据读写,减少内存占用【答案】:B

解析:本题考察主流大数据计算框架的特点。Spark是内存计算框架,将数据缓存在内存中(可选择持久化到磁盘),避免了MapReduce中频繁的磁盘IO操作,因此在迭代计算(如机器学习算法)和交互式查询中速度远快于MapReduce。选项A错误,Spark同时支持批处理、流处理(StructuredStreaming);选项C错误,Spark可通过DataFrame/SparkSQL处理结构化数据,通过MLlib处理非结构化数据;选项D错误,Spark优先使用内存,而非依赖磁盘IO,MapReduce才是基于磁盘的。因此正确答案为B。8.Spark相比MapReduce的主要优势是?

A.内存计算,减少磁盘IO开销

B.完全依赖磁盘存储中间结果

C.仅支持批处理任务

D.不支持实时计算场景【答案】:A

解析:本题考察主流大数据处理框架对比。Spark的核心优势在于基于内存计算,中间结果直接保存在内存中,避免了MapReduce需频繁读写磁盘的IO瓶颈,因此处理速度远快于MapReduce。选项B错误(Spark优先内存计算);选项C错误(Spark支持批处理和流处理);选项D错误(SparkStreaming支持实时计算)。9.Kafka在大数据生态系统中主要承担的角色是?

A.实时计算引擎

B.分布式消息队列

C.批处理框架

D.分布式存储系统【答案】:B

解析:本题考察Kafka的功能定位。Kafka是高吞吐量的分布式消息队列,主要用于在分布式系统中传递数据流,解耦生产者与消费者;Flink/SparkStreaming是实时计算引擎;MapReduce/Spark是批处理框架;HDFS是分布式存储系统。因此正确答案为B。10.以下哪个场景最适合使用ApacheFlink进行实时数据处理?

A.每天批量处理10TB历史日志数据

B.实时分析电商平台每秒百万级交易数据

C.对海量非结构化图片进行离线特征提取

D.定期统计月度用户行为报表【答案】:B

解析:本题考察流处理框架的典型应用场景。Flink以低延迟(毫秒级)、高吞吐、精确一次(Exactly-Once)语义著称,适合实时性要求极高(如高频交易、实时风控)且数据吞吐量极大的场景。选项A(历史日志批处理)适合MapReduce/Spark批处理;选项C(离线图片特征提取)属于非实时批处理任务;选项D(月度报表统计)是周期性批处理任务,与Flink的实时特性不符。11.以下哪个数据库系统不属于列族(Column-family)存储类型?

A.HBase

B.Cassandra

C.Bigtable

D.MongoDB【答案】:D

解析:本题考察NoSQL数据库类型知识点。列族存储以列族为基本单元,支持高扩展性和稀疏数据存储,HBase、Cassandra、Bigtable均属于典型列族存储。MongoDB是文档型(Document)NoSQL数据库,以JSON/BSON文档格式存储数据,与列族存储结构不同,因此D选项错误。12.Spark相比MapReduce,其显著优势在于?

A.内存计算,速度更快

B.仅支持批处理任务

C.必须依赖磁盘存储中间结果

D.不支持迭代计算【答案】:A

解析:本题考察Spark与MapReduce的对比知识点。Spark采用内存计算模型,中间结果可缓存于内存,避免MapReduce中大量磁盘I/O操作,因此迭代计算和实时分析速度更快;B选项错误,Spark支持批处理、流处理等多种任务;C选项错误,Spark以内存计算为主,非必须依赖磁盘;D选项错误,Spark擅长迭代计算(如机器学习)。正确答案为A。13.ApacheSpark相比MapReduce的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.仅支持批处理作业

C.采用DAG执行引擎优化任务调度

D.可同时处理批处理和流处理【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的核心优势包括:①基于内存计算,减少磁盘IO,处理速度远超MapReduce;②采用DAG执行引擎优化任务依赖关系;③支持流批一体(SparkStreaming+StructuredStreaming)。而MapReduce仅支持批处理,Spark在此基础上扩展了更多能力。选项B“仅支持批处理作业”是MapReduce的特点,而非Spark的优势,故B为错误选项。14.根据CAP理论,分布式系统中无法同时满足的是哪两个特性?

A.一致性(Consistency)和可用性(Availability)

B.一致性(Consistency)和分区容错性(Partitiontolerance)

C.可用性(Availability)和分区容错性(Partitiontolerance)

D.分区容错性(Partitiontolerance)和一致性(Consistency)【答案】:A

解析:本题考察CAP理论的核心内容。CAP理论指出分布式系统必须满足分区容错性(Partitiontolerance,P),而在一致性(C)和可用性(A)之间只能选择其一(即CP或AP),无法同时满足C和A。B、C、D错误,因为分区容错性(P)是分布式系统的基本要求,无法被放弃,因此无法同时满足的是C和A。正确答案为A。15.数据仓库中,哪个特性是指数据随时间变化以反映业务发展趋势?

A.面向主题

B.集成性

C.非易失性

D.时变性【答案】:D

解析:本题考察数据仓库的核心特性。数据仓库的四个关键特性中:A(面向主题)指围绕特定业务主题组织数据;B(集成性)指整合多源异构数据;C(非易失性)指数据仅添加不删除;D(时变性)特指数据随时间推移而积累变化,用于历史趋势分析。其他选项均不符合“随时间变化”的定义。16.ApacheKafka的主要应用场景是?

A.实时流数据传输与存储

B.分布式文件系统

C.批处理计算框架

D.数据仓库ETL工具【答案】:A

解析:本题考察流处理技术组件Kafka的定位知识点。Kafka是分布式流处理平台,专为高吞吐量的实时消息传递设计,支持消息持久化和实时数据传输;B选项是HDFS的功能;C选项是MapReduce/Spark的批处理定位;D选项是Hive/ETL工具的职责。因此A选项正确。17.以下哪种系统通常属于联机分析处理(OLAP)系统?

A.电商订单交易系统

B.银行实时转账系统

C.企业财务数据分析平台

D.物联网实时监控系统【答案】:C

解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)主要用于数据分析和决策支持,如财务分析、市场趋势分析等;OLTP(联机事务处理)面向业务操作,如电商订单、银行交易、物联网监控等实时事务处理场景。因此企业财务分析平台属于OLAP系统,正确答案为C。18.MongoDB属于哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB以文档模型存储数据,每个文档类似JSON格式,支持嵌套结构和灵活模式,属于文档型数据库。选项A错误,键值型数据库(如Redis)以简单键值对存储;选项B错误,列族型数据库(如HBase)按列族组织数据;选项D错误,图型数据库(如Neo4j)用于存储实体关系图。19.以下哪个大数据流处理框架采用纯流处理架构,支持事件时间处理和精确一次(Exactly-Once)语义,是实时计算的主流选择?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafkaStreams【答案】:B

解析:本题考察流处理框架特性。Flink是原生流处理框架,基于事件时间语义处理,支持状态管理和精确一次语义,适用于低延迟实时计算;SparkStreaming是微批处理框架(将流数据按批次处理,本质是批处理);Storm是早期实时流处理框架,但在状态管理和语义保证上不如Flink;KafkaStreams是轻量级流处理库,需依赖Kafka。因此正确答案为B。20.在数据仓库中,以下哪类表用于记录业务事件的度量数据(如订单金额、数量等)?

A.产品表

B.客户表

C.订单表

D.部门表【答案】:C

解析:本题考察数据仓库中事实表与维度表的定义。事实表是数据仓库的核心,记录业务事件(如订单、交易)的度量值及关联维度外键,例如订单表包含订单ID、用户ID、订单金额等核心业务数据。错误选项分析:A、B、D均为维度表,用于描述事实表的属性(如产品表描述订单表的商品信息,客户表描述订单表的用户信息,部门表描述订单表的组织归属),不直接记录业务事件的度量数据。21.根据分布式系统的CAP理论,当系统面临网络分区(Partition)时,为保证系统可用性(Availability),必须放弃的特性是?

A.分区容错性(Partitiontolerance)

B.一致性(Consistency)

C.可用性(Availability)

D.原子性(Atomicity)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论中,分区容错性(P)是分布式系统的固有特性(必须支持),因此无法放弃;当网络分区发生时,系统只能在一致性(C)和可用性(A)中选择其一。为保证系统可用(A),必须放弃一致性(C),即系统可能出现数据不一致但仍对外提供服务。D选项“原子性”是事务特性,非CAP理论范畴,故正确答案为B。22.以下关于Spark和MapReduce的描述,正确的是?

A.Spark仅支持批处理,MapReduce支持流处理

B.Spark默认使用内存计算,MapReduce以磁盘IO为主

C.Spark不支持迭代计算,MapReduce适合迭代计算

D.Spark的编程模型比MapReduce更复杂【答案】:B

解析:本题考察分布式计算框架的核心差异。Spark的核心优势是内存计算(默认将中间结果缓存于内存,减少磁盘IO),而MapReduce需频繁读写磁盘存储中间结果,故B正确。选项A错误(Spark通过StructuredStreaming支持流处理,MapReduce仅支持批处理);选项C错误(Spark因内存缓存特性,非常适合迭代计算如机器学习);选项D错误(Spark提供RDD、DataFrame等简洁API,编程模型更直观)。23.下列哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题

B.实时更新数据

C.存储原始业务数据

D.支持联机事务处理(OLTP)【答案】:A

解析:本题考察数据仓库核心特性。数据仓库的核心特征是“面向主题”,即围绕特定业务主题(如销售、财务)组织数据,支持分析决策。错误选项B(实时更新)错误,数据仓库以批处理更新为主,不支持实时事务;C(存储原始业务数据)错误,数据仓库需经过清洗、整合、汇总;D(支持OLTP)错误,OLTP是事务处理系统的核心,数据仓库主要用于OLAP分析。24.以下哪个工具通常用于Hadoop环境下的数据仓库查询和分析?

A.Hive(数据仓库工具)

B.HBase(分布式列存储数据库)

C.Spark(内存计算引擎)

D.Flume(日志收集工具)【答案】:A

解析:本题考察Hadoop生态系统工具定位的知识点。Hive(选项A)是基于Hadoop的数据仓库工具,支持类SQL的HQL查询语言,适用于大数据量的结构化数据仓库分析;HBase(选项B)是分布式列存储数据库,用于海量随机读写场景;Spark(选项C)是内存计算引擎,侧重实时计算和迭代计算;Flume(选项D)是日志收集工具,用于采集和传输日志数据。因此正确答案为A。25.Spark作为分布式计算框架,相比MapReduce的主要优势是?

A.基于内存计算,迭代效率高

B.仅支持批处理任务

C.仅适用于实时流处理场景

D.不支持SQL查询操作【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark采用内存计算模式,避免了MapReduce基于磁盘I/O的低效问题,尤其在迭代计算(如机器学习、图计算)中效率显著提升;MapReduce支持批处理,但Spark也支持批处理,且扩展了实时流处理(SparkStreaming)和SQL查询(SparkSQL);选项B、C、D均错误。因此正确答案为A。26.Flume作为大数据日志采集工具,其核心组件是?

A.Source、Channel、Sink

B.Input、Output、Store

C.Collector、Processor、Sink

D.以上都不是【答案】:A

解析:本题考察Flume核心架构知识点。Flume采用三层架构:Source(数据接收端,如日志文件、网络端口)、Channel(数据缓存通道,如内存队列、文件存储)、Sink(数据输出端,如HDFS、Kafka);B选项“Input/Output/Store”是通用表述,非Flume特定术语;C选项“Collector/Processor”是其他工具(如Flink)的概念;正确答案为A。27.以下关于数据集市的描述,正确的是?

A.数据集市是面向整个企业的综合性数据仓库

B.数据集市的数据来源于企业数据仓库

C.数据集市仅支持实时数据处理

D.数据集市的数据默认存储在HDFS中【答案】:B

解析:本题考察数据集市的定义。数据集市是企业数据仓库的子集(B选项正确),它针对特定业务部门(如销售、财务)或应用场景,提供更聚焦的数据服务,数据来源于企业级数据仓库。A选项错误,因为面向整个企业的是数据仓库而非数据集市;C选项错误,数据集市支持批处理和实时处理,并非仅支持实时;D选项错误,数据集市的数据存储方式多样(如关系型数据库),HDFS仅为Hadoop生态中的存储组件,并非数据集市的默认存储方式。因此正确答案为B。28.Spark相比MapReduce的主要优势在于?

A.基于内存计算中间结果

B.仅支持批处理任务

C.只能处理实时流数据

D.依赖磁盘存储数据【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是采用内存计算中间结果,避免了MapReduce中基于磁盘的IO操作,显著提升计算速度;MapReduce同样支持批处理任务,SparkStreaming可处理实时流数据,而分布式存储是HDFS的功能(非Spark核心优势)。因此A为正确选项。29.ApacheSpark相比HadoopMapReduce的核心优势主要体现在?

A.基于内存计算,大幅减少磁盘IO操作

B.仅支持批处理任务,不支持实时数据处理

C.必须依赖HDFS存储数据,无法独立运行

D.仅适用于结构化数据处理,对非结构化数据支持弱【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心设计是内存计算(如RDD缓存),避免MapReduce中频繁的磁盘读写,显著提升计算速度;B选项错误,Spark通过StructuredStreaming支持实时处理;C选项错误,Spark可独立运行(如Local模式)或结合其他存储系统;D选项错误,Spark支持JSON、CSV等非结构化/半结构化数据处理。30.与传统MapReduce相比,ApacheSpark的主要优势在于?

A.基于磁盘计算,适合大规模批处理

B.基于内存计算,减少磁盘IO开销

C.仅支持实时流处理,不支持批处理

D.依赖HDFS存储所有中间结果【答案】:B

解析:本题考察Spark的技术特点。Spark的核心优势是利用内存存储数据和计算,减少磁盘IO操作,从而大幅提升计算速度;MapReduce是基于磁盘的迭代计算,速度较慢。Spark既支持批处理也支持流处理,且依赖内存而非仅依赖HDFS存储中间结果。因此正确答案为B。31.在Hadoop分布式文件系统(HDFS)中,负责管理文件系统元数据(如文件目录结构、权限、块位置等信息)的核心节点是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:本题考察HDFS核心节点的功能。NameNode是HDFS的主节点,负责管理整个文件系统的元数据,维护文件和目录的树状结构及块位置映射。DataNode是从节点,仅存储实际数据块;SecondaryNameNode主要用于合并元数据日志,减轻NameNode负担;ResourceManager是YARN资源管理器,与HDFS无关。32.Spark相比MapReduce的主要优势在于?

A.基于内存计算,速度更快

B.仅支持批处理任务

C.依赖磁盘存储中间结果

D.不支持复杂数据结构处理【答案】:A

解析:本题考察Spark与MapReduce的核心差异。Spark采用内存计算模型,避免了MapReduce中频繁的磁盘I/O操作,大幅提升计算速度;B错误,Spark同时支持批处理和流处理;C错误,Spark以内存计算为主,中间结果优先存储在内存而非磁盘;D错误,Spark支持丰富的数据结构(如RDD、DataFrame)。因此正确答案为A。33.以下哪项不属于大数据的核心特征(4V)?

A.Volume

B.Velocity

C.Value

D.Variety【答案】:C

解析:本题考察大数据4V特征知识点。大数据核心特征通常定义为Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性),而Value(价值)不属于标准4V特征。A、B、D均为4V的核心要素,C为干扰项。34.在大数据隐私保护中,将用户身份证号替换为‘110101********1234’的操作属于以下哪种技术?

A.数据加密

B.数据删除

C.数据脱敏

D.数据备份【答案】:C

解析:数据脱敏通过变形处理敏感数据(如隐藏部分字符)实现隐私保护,保留格式和可用性;A错误,数据加密需密钥解密,与“替换部分字符”操作不同;B错误,数据删除会破坏数据完整性;D错误,数据备份仅用于容灾恢复,不涉及隐私保护。35.以下哪种数据库属于列族(Column-family)类型的NoSQL数据库?

A.MongoDB

B.Redis

C.HBase

D.Neo4j【答案】:C

解析:本题考察NoSQL数据库类型分类。HBase是典型的列族型数据库,采用“行键-列族-列-时间戳”四层存储模型,适合海量结构化数据(如日志、时序数据)的随机读写。错误选项分析:A选项MongoDB是文档型数据库,以JSON格式存储半结构化数据;B选项Redis是键值型数据库,支持多种数据结构(如字符串、哈希、列表);D选项Neo4j是图数据库,以节点和边的关系模型存储数据,适用于社交网络、路径分析等场景。36.大数据的“4V”特征中,描述数据规模巨大(包括结构化、半结构化和非结构化数据)的是哪个特征?

A.Volume(数据量大)

B.Velocity(数据产生速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度高)【答案】:A

解析:本题考察大数据核心特征知识点。大数据的4V特征中,Volume特指数据规模巨大,涵盖结构化(如数据库表)、半结构化(如XML)和非结构化(如文本、图片)数据的总量;Velocity强调数据产生和处理速度快(如传感器实时数据);Variety指数据来源和格式多样;Value则指数据价值密度低,需通过分析挖掘。因此正确答案为A。37.以下哪项属于典型的实时流处理框架?

A.HadoopMapReduce

B.SparkStreaming

C.ApacheStorm

D.ApacheFlink【答案】:C

解析:本题考察大数据处理框架的分类。实时流处理框架用于处理连续到达的数据流。ApacheStorm是最早的纯实时流处理框架,采用“Spout-Bolt”模型,支持毫秒级延迟和高吞吐量的实时计算。HadoopMapReduce是经典的批处理框架,处理离线数据;SparkStreaming基于微批处理(Micro-batch),将流数据按时间窗口拆分为批处理任务,虽属于流处理但本质是“准实时”;ApacheFlink是新一代流处理框架,支持流批统一,但题目要求“典型实时流处理框架”,Storm是更基础的纯实时代表。因此正确答案为C。38.在Hadoop分布式文件系统(HDFS)中,默认的副本因子是?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心配置知识点。HDFS默认将文件块(Block)复制3份以平衡数据可靠性与存储成本:3个副本可确保任意节点故障时数据仍可恢复,且相比2个副本容错性更高,相比4个副本更节省资源。选项A(1)仅1份数据,单点故障即丢失;选项B(2)容错能力有限;选项D(4)会过度消耗存储和带宽资源,不符合HDFS设计初衷。39.在Hadoop分布式文件系统(HDFS)中,默认情况下一个文件会被存储为多少个副本以保证高可用性?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心特性——数据冗余机制。HDFS默认将文件存储为3个副本,这是基于容错性和资源利用率的平衡设计:3个副本既能有效应对单点故障(如一个副本所在节点宕机,剩余副本可继续提供服务),又避免了过多副本导致的存储资源浪费。选项A(1个副本)无冗余能力,无法容错;选项B(2个副本)冗余度不足,单点故障时可能丢失数据;选项D(4个副本)虽增加冗余但超出默认配置且非必要,会浪费存储空间。40.HBase作为典型的NoSQL数据库,其数据模型属于以下哪种类型?

A.列族数据库

B.文档数据库

C.键值数据库

D.图数据库【答案】:A

解析:本题考察NoSQL数据库类型。HBase基于列族(ColumnFamily)组织数据,核心结构为行键(RowKey)、列族、列限定符(ColumnQualifier),支持稀疏存储与高吞吐量读写;B选项(如MongoDB)以JSON文档为核心;C选项(如Redis)以键值对直接存储;D选项(如Neo4j)以节点-关系图结构存储。41.ApacheKafka主要用于以下哪种场景?

A.分布式批处理计算

B.实时消息传递与事件流处理

C.关系型数据库全量备份

D.分布式文件系统存储【答案】:B

解析:本题考察Kafka的核心定位。Kafka是高吞吐量的分布式消息系统,设计用于实时数据流的发布与订阅,典型场景包括日志收集、实时数据管道、事件驱动架构。选项A(分布式批处理计算)对应Spark、Flink等批处理/流处理框架;选项C(关系型数据库备份)通常使用mysqldump、XtraBackup等工具;选项D(分布式文件系统存储)是HDFS的功能。因此正确答案为B。42.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS为保障数据高容错性,默认将每个文件块复制3份并存储在不同节点,以防止单点故障导致数据丢失。选项A(1份)无容错性,选项B(2份)容错性不足,选项D(4份)超出默认设置,因此C为正确答案。43.处理连续型数值数据的缺失值时,以下哪种方法最为常用?

A.直接删除包含缺失值的记录

B.使用该字段的均值进行填充

C.使用该字段的众数进行填充

D.使用该字段的最大值进行填充【答案】:B

解析:本题考察大数据数据清洗中的缺失值处理。连续型数值(如温度、销售额)的缺失值处理需保持数据分布特性:均值填充(选项B)是最常用方法,能保留数据的统计特性;众数(选项C)适用于类别型数据(如颜色、性别);直接删除(A)可能导致样本量不足或偏差;最大值(D)会高估数据分布,影响后续分析。44.以下哪项是Hadoop分布式文件系统(HDFS)的主要功能?

A.分布式数据存储

B.分布式计算任务调度

C.分布式资源管理

D.分布式内存计算【答案】:A

解析:本题考察Hadoop核心组件HDFS的功能。HDFS是Hadoop生态系统的分布式文件系统,主要负责海量数据的分布式存储;B选项“分布式计算任务调度”是YARN的功能;C选项“分布式资源管理”同样属于YARN;D选项“分布式内存计算”是Spark的核心特性。因此正确答案为A。45.MapReduce计算框架的核心设计思想是?

A.分而治之

B.实时计算

C.内存计算

D.并行存储【答案】:A

解析:本题考察MapReduce的基础原理。MapReduce通过Map阶段将任务分解为多个子任务并行处理,Reduce阶段合并结果,核心思想是“分而治之”。选项B(实时计算)错误,MapReduce是批处理框架,延迟较高;选项C(内存计算)非核心思想,MapReduce早期依赖磁盘I/O;选项D(并行存储)属于分布式文件系统(如HDFS)的特性,与MapReduce的计算逻辑无关。46.在Hadoop分布式文件系统(HDFS)中,默认情况下文件块的副本数量是?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS的核心参数知识点。HDFS为了保证数据可靠性和容错性,默认将每个文件块存储3个副本,分布在不同的DataNode节点上。选项A(2)通常用于低冗余场景或早期配置,选项C(4)和D(5)均超出HDFS默认配置范围,因此正确答案为B。47.以下哪个系统通常用于实时流数据处理?

A.Kafka(消息队列)

B.ApacheFlink

C.Hadoop(分布式计算框架)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察流处理技术的应用场景。ApacheFlink是专为实时流数据处理设计的框架,支持低延迟、高吞吐的流计算;选项A(Kafka)是消息队列,主要用于存储和传输流数据,常作为Flink的数据源而非独立处理系统;选项C(Hadoop)以批处理为主,适合离线数据计算;选项D(Hive)是基于Hadoop的数据仓库工具,用于批量分析历史数据。48.Spark中的RDD(弹性分布式数据集)具有多种特性,其中哪一项特性保证了其高效的并行计算和容错能力?

A.不可变性

B.可分区性

C.惰性计算

D.分布式存储【答案】:A

解析:本题考察RDD的核心特性。RDD的不可变性(Immutability)指其创建后无法修改,每次转换操作会生成新RDD,旧RDD保持不变。这种特性支持了“谱系(Lineage)”记录,即通过记录RDD的转换操作链,在数据丢失时可通过重算恢复,从而实现容错。可分区性是RDD并行计算的基础,但仅分区无法直接保证容错;惰性计算(LazyEvaluation)是指RDD转换操作延迟执行,仅在Action触发时才计算,提高资源利用率,但与容错无关;分布式存储是RDD的数据存储方式,并非特性。因此正确答案为A。49.数据仓库(DataWarehouse)与数据湖(DataLake)的核心区别是?

A.存储的数据类型

B.构建的技术工具

C.数据的更新频率

D.数据的访问速度【答案】:A

解析:本题考察数据仓库与数据湖的概念差异。数据仓库以结构化数据为主,通过ETL(提取-转换-加载)构建面向分析的多维模型;数据湖存储原始数据(结构化、半结构化、非结构化),支持全量数据存储。两者的核心区别在于数据类型(结构化vs多类型),而非构建工具(均可使用多种工具)、更新频率(均以批处理为主)或访问速度(均需优化)。因此正确答案为A。50.在大数据数据预处理中,处理缺失值的常用方法不包括以下哪种?

A.删除包含缺失值的记录

B.使用均值/中位数进行插补

C.使用KNN算法进行插补

D.直接忽略缺失值【答案】:D

解析:本题考察数据预处理中缺失值处理的最佳实践。缺失值处理需遵循“减少偏差、保留信息”原则:A正确,当缺失比例低且无特殊业务含义时,删除记录是常用方法;B正确,数值型数据常用均值/中位数插补;C正确,KNN算法通过相似样本的特征值预测缺失值,适用于小比例缺失场景。选项D错误,“直接忽略”会导致数据分布偏差(如某特征缺失值过多时,模型训练会因样本量不足或分布失真而失效),属于不规范的处理方式。51.以下哪个是Hadoop分布式文件系统的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,因此正确答案为A。52.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心配置知识点,正确答案为B。HDFS默认块大小为128MB,这一设置平衡了存储效率和IO效率:较大的块可减少NameNode元数据压力(块数量少),同时避免小文件过多导致的IO频繁问题;而64MB块会增加NameNode内存占用,256MB/512MB则可能降低IO效率(单次读写数据量大,网络传输耗时增加)。53.以下哪个工具主要用于构建实时高吞吐、低延迟的数据流处理管道?

A.Kafka

B.Flink

C.SparkStreaming

D.HadoopStreaming【答案】:A

解析:本题考察大数据流处理工具特性知识点。Kafka是分布式消息队列,专为高吞吐、低延迟的实时数据流管道设计,提供消息持久化和实时传输能力。Flink和SparkStreaming是流处理计算框架(需依赖数据源如Kafka),HadoopStreaming是MapReduce的流处理API,不直接构建数据流管道,因此A选项正确。54.MapReduce分布式计算框架中,‘Map’阶段的主要作用是?

A.将输入数据分割为键值对,进行并行映射处理

B.对Map输出的中间结果按key排序并合并

C.将数据从分布式存储系统加载到本地内存

D.将最终计算结果聚合并输出到分布式文件系统【答案】:A

解析:本题考察MapReduce的执行流程。MapReduce分为Map和Reduce两个核心阶段:Map阶段负责“分”,将输入数据(如键值对)分解为多个并行任务,对每个数据项进行映射转换(如计算局部结果);Reduce阶段负责“合”,对Map输出的中间结果按key分组、排序并聚合。选项A准确描述Map阶段的“并行映射”功能;B是Reduce阶段的任务,C是数据读取(非Map核心),D是Reduce阶段的输出环节。55.数据仓库的核心特征不包括以下哪项?

A.面向主题的

B.集成的

C.易失性的

D.时变的【答案】:C

解析:本题考察数据仓库的定义特征。数据仓库的核心特征是“四性”:面向主题(Subject-oriented)、集成的(Integrated)、非易失的(Non-volatile,即数据一旦写入不可随意修改)、时变的(Time-variant,随时间变化)。选项C的“易失性的”与“非易失性”矛盾,因此错误。56.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心参数知识点。HDFS的块大小是文件系统的重要参数,默认值为128MB。HDFS通过将大文件分割为固定大小的块,实现数据的并行存储与容错(如副本机制)。选项A(64MB)是HDFS早期版本的块大小,非当前默认;选项C(256MB)和D(512MB)均超出HDFS标准默认配置,通常用于特殊场景。57.以下哪个是实时流处理计算框架的典型代表?

A.ApacheFlink

B.ApacheSparkBatch

C.HadoopMapReduce

D.ApacheHive【答案】:A

解析:本题考察流处理框架的典型代表。ApacheFlink是专为实时流处理设计的框架,支持毫秒级延迟和高吞吐;B选项SparkBatch是批处理框架;C选项MapReduce是离线批处理框架;D选项Hive是基于Hadoop的SQL查询工具,主要用于数据仓库。因此正确答案为A。58.以下关于数据湖(DataLake)的描述,正确的是?

A.仅存储结构化数据(如关系型数据库表)

B.强调数据的标准化和一致性,适合BI分析

C.通常基于数据仓库架构构建,数据需预先清洗

D.可存储原始数据(结构化/半结构化/非结构化),支持灵活分析【答案】:D

解析:本题考察数据湖与数据仓库的概念区分。数据湖的核心特征是存储未经处理的原始数据(包括结构化、半结构化、非结构化),并支持灵活的分析需求(如机器学习、复杂查询),无需预先标准化。A错误(数据湖支持多类型数据);B错误(标准化是数据仓库特征);C错误(数据湖独立于数据仓库,数据仓库通常从数据湖提取清洗后构建)。59.在Hadoop生态系统中,负责集群资源管理和作业调度的核心组件是?

A.YARN(YetAnotherResourceNegotiator)

B.HDFS(HadoopDistributedFileSystem)

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件功能。YARN是Hadoop的资源管理器,负责节点资源分配和作业调度。B错误,HDFS是分布式文件系统,负责数据存储;C错误,MapReduce是分布式计算框架,负责任务执行;D错误,Hive是数据仓库工具,基于HDFS和MapReduce实现数据仓库功能。60.MongoDB属于以下哪种类型的NoSQL数据库?

A.键值对数据库(Key-ValueStore)

B.列族数据库(Column-FamilyStore)

C.文档型数据库(DocumentStore)

D.图数据库(GraphDatabase)【答案】:C

解析:本题考察NoSQL数据库的分类。MongoDB以JSON格式的“文档”为基本存储单元,属于文档型数据库;键值对数据库(A)如Redis,以简单键值对存储;列族数据库(B)如HBase,按列族组织数据;图数据库(D)如Neo4j,以节点和边的图结构存储。因此正确答案为C。61.以下关于数据仓库(DW)的描述,正确的是?

A.数据仓库的数据是实时更新的

B.数据仓库通常采用星型或雪花型模型

C.数据仓库只存储当前数据

D.数据仓库的主要操作是事务处理【答案】:B

解析:本题考察数据仓库的核心定义与特性。数据仓库是面向分析的集成化历史数据集合,其模型设计以星型(中心事实表+维度表)或雪花型(维度表层级细分)为主,便于复杂查询和聚合分析。选项A错误,数据仓库采用批处理更新(T+1或更长周期),非实时更新;选项C错误,数据仓库包含历史数据(如过去5年的业务数据),用于趋势分析;选项D错误,数据仓库主要支持查询与分析(OLAP操作),事务处理(OLTP)是数据库的核心功能。62.HBase属于以下哪种NoSQL数据库类型?

A.文档型

B.列族型

C.键值型

D.图数据库【答案】:B

解析:本题考察NoSQL数据库类型及典型应用。HBase是典型的列族数据库,以列族(ColumnFamily)为基本存储单位,适合海量结构化数据的随机读写。选项A(文档型)如MongoDB,选项C(键值型)如Redis,选项D(图数据库)如Neo4j,均不符合HBase的存储模型,故正确答案为B。63.在MapReduce计算模型中,Map阶段的主要作用是?

A.对数据进行聚合计算

B.对中间结果进行分发

C.对输入数据进行转换处理

D.对最终结果进行合并输出【答案】:C

解析:本题考察MapReduce计算流程知识点。Map阶段负责将输入数据解析为键值对,并通过用户定义的映射函数对每个键值对执行转换操作(如过滤、特征提取),生成中间结果。A(聚合)是Reduce阶段的核心任务;B(数据分发)属于Shuffle阶段;D(合并输出)是Reduce阶段的最终步骤。因此正确答案为C。64.大数据的‘多样性(Variety)’特征主要体现在以下哪个方面?

A.数据产生的速度快,可实时生成

B.数据规模达到PB级甚至EB级

C.数据类型包括结构化、半结构化和非结构化数据

D.数据存储需要分布式集群支持【答案】:C

解析:本题考察大数据5V特征的概念。大数据的5V特征包括:Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。选项A对应Velocity(速度),选项B对应Volume(规模),选项D描述的是数据存储的技术需求而非多样性特征。选项C明确指出数据类型的多样性,符合Variety的定义,因此正确答案为C。65.大数据环境下,对数据全生命周期进行管理和控制的过程称为?

A.数据清洗

B.数据集成

C.数据治理

D.数据脱敏【答案】:C

解析:本题考察数据治理的定义。数据治理是对数据资产全生命周期(采集、存储、处理、使用、销毁等)的规划、控制与监督,确保数据质量和合规性;数据清洗是处理脏数据(如缺失值、异常值)的过程;数据集成是合并多源异构数据的操作;数据脱敏是通过替换敏感信息为假数据保护隐私的技术,属于数据治理中的安全措施。因此正确答案为C。66.数据仓库的核心特性是?

A.面向操作型事务处理

B.面向主题

C.数据实时更新

D.数据冗余度低【答案】:B

解析:本题考察数据仓库的定义与特性。数据仓库是面向主题的(围绕特定业务主题组织数据)、集成的、非易失的、时变的数据集,用于支持管理决策。选项A错误,操作型事务处理是OLTP(联机事务处理)的特点;选项C错误,数据仓库的数据一旦加载后通常不实时更新,以保证分析数据的一致性;选项D错误,数据仓库为提高查询效率,通常会整合冗余数据。因此正确答案为B。67.Spark相比MapReduce在计算效率上的主要优势是?

A.内存计算

B.批处理能力

C.分布式存储

D.实时流处理【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心设计是基于内存的计算引擎,避免了MapReduce中频繁的磁盘IO操作,大幅提升计算速度;MapReduce也支持批处理但依赖磁盘IO;分布式存储由HDFS提供而非Spark;实时流处理是Flink/Storm等框架的专长,SparkStreaming是其流处理模块但核心优势仍是内存计算。因此正确答案为A。68.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为A。69.在Hadoop分布式文件系统(HDFS)中,负责管理文件系统元数据(如文件目录结构、权限等)的核心组件是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:本题考察HDFS架构中各组件的职责。NameNode是HDFS的主节点,负责存储文件系统的元数据(如文件路径、权限、块位置等),并维护文件系统的命名空间。DataNode是从节点,负责存储实际数据块并响应读写请求。SecondaryNameNode是NameNode的辅助节点,主要用于合并EditLog和FsImage,减轻NameNode负担,并非元数据主管理者。ResourceManager是YARN资源管理器,与HDFS无关。因此正确答案为A。70.ApacheFlink与ApacheStorm在流处理中的核心差异在于?

A.Flink支持有状态计算,Storm不支持

B.Flink仅适用于批处理,Storm仅适用于流处理

C.Flink的吞吐量远低于Storm

D.Flink仅处理无界流,Storm仅处理有界流【答案】:A

解析:本题考察流处理框架的核心特性。Flink支持有状态计算(如窗口操作、状态后端管理),Storm是无状态的实时流处理;B选项错误,Flink同时支持流处理和批处理(统一处理引擎);C选项错误,Flink吞吐量更高,适合高并发场景;D选项错误,两者均支持无界流,Storm也可处理有界流(如从文件读取)。因此正确答案为A。71.在大数据处理的ETL流程中,字母‘T’代表的操作是?

A.Extract(抽取)

B.Transform(转换)

C.Load(加载)

D.Analyze(分析)【答案】:B

解析:本题考察ETL流程的核心步骤。ETL即Extract(数据抽取)、Transform(数据转换)、Load(数据加载),其中‘T’代表数据转换,包括清洗、整合、格式转换等操作。选项A是‘E’,选项C是‘L’,选项D不属于ETL标准流程,故正确答案为B。72.在数据仓库维度建模中,最常用的模型是?

A.星型模型

B.雪花模型

C.星座模型

D.星群模型【答案】:A

解析:本题考察数据仓库维度建模知识点。星型模型是维度建模中最常用的结构,以事实表为中心,周围连接多个维度表,结构简单、查询效率高;雪花模型是星型模型的规范化扩展,维度表可进一步拆分为子表,虽数据冗余少但查询复杂;星座模型是多个星型模型的组合,适用于复杂业务场景,非最常用;D选项“星群模型”非标准术语。因此A选项正确。73.Spark相较于MapReduce的主要优势在于?

A.磁盘IO操作更少,计算速度更快

B.仅支持批处理任务,不支持流处理

C.完全依赖磁盘存储中间结果

D.编程模型更复杂,学习成本高【答案】:A

解析:本题考察分布式计算框架的对比。Spark的核心优势是内存计算(将数据缓存在内存中,减少磁盘IO),因此计算速度远快于MapReduce(MapReduce依赖磁盘存储中间结果,多次IO操作导致性能瓶颈)。选项B错误,Spark支持批处理和流处理(SparkStreaming);选项C错误,Spark通过内存缓存减少磁盘依赖;选项D错误,Spark提供了更简洁的API(如DataFrame),编程模型更简单。因此正确答案为A。74.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.面向主题,整合多源数据

B.实时响应业务操作需求

C.直接存储原始业务系统数据

D.仅保留最新时刻的数据快照【答案】:A

解析:本题考察数据仓库的核心特征。数据仓库面向主题(如销售、财务),整合企业多源数据(如业务系统、外部数据),具有非易失性(数据长期存储)和时变性(随时间积累历史数据);而实时响应是OLTP(联机事务处理)的特点,原始数据存储于操作型数据库,数据仓库是经过清洗、整合后的结构化数据。因此正确答案为A。75.在Hadoop分布式文件系统(HDFS)中,默认的块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS基础配置知识点。HDFS默认块大小为128MB(适用于Hadoop2.x及主流版本),主要为平衡存储效率与数据传输开销。选项B(64MB)可能是早期HDFS版本或特定场景下的配置;选项C(256MB)和D(512MB)通常为特殊优化配置而非默认值,因此正确答案为A。76.Hadoop分布式文件系统(HDFS)默认的副本数是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS的基本配置知识点。HDFS默认副本数为3,主要目的是通过多副本机制实现数据冗余,防止单点故障导致数据丢失。选项A(2)通常为非默认场景下的调整值,选项C(4)和D(5)超出HDFS默认配置范围,故正确答案为B。77.下列哪项是Hadoop生态系统中的分布式文件系统?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。78.在HadoopMapReduce计算模型中,Map阶段的主要功能是?

A.对中间结果进行数据聚合

B.对输入数据进行映射转换并输出键值对

C.对数据进行全局排序

D.对数据进行分布式合并【答案】:B

解析:本题考察MapReduce的执行流程,正确答案为B。Map阶段负责将输入数据(如文件行)解析为键值对,通过用户定义的映射函数(如过滤、转换)生成中间键值对,是数据处理的“提取与初步加工”环节;A为Reduce阶段功能,C属于Shuffle阶段的全局排序,D不属于Map阶段核心功能。79.在数据仓库设计中,用于存储业务事件度量值(如销售额、订单量)的表通常称为?

A.维度表

B.事实表

C.星型模型

D.雪花模型【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量数据(数值型),如“销售订单表”中的订单金额、数量等;维度表存储描述性属性(如时间、地区),用于解释事实表的上下文;星型模型和雪花模型是数据仓库的表组织模式(非表类型)。因此正确答案为B。80.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS默认块大小为128MB,该设计主要为减少NameNode元数据存储压力并优化数据传输效率。错误选项B(64MB)是Hadoop1.x版本的默认块大小,C(256MB)通常用于大数据存储密度优化的特殊场景,D(512MB)超出HDFS标准配置范围。81.Spark相比MapReduce,其显著优势主要体现在?

A.内存计算为主

B.以磁盘I/O操作为主

C.仅支持结构化数据处理

D.完全依赖Hadoop生态【答案】:A

解析:本题考察Spark的核心特性。Spark采用内存计算模型,避免频繁磁盘I/O,大幅提升处理速度;B错误,MapReduce以磁盘I/O为主;C错误,Spark支持结构化、半结构化和非结构化数据;D错误,Spark可独立运行,无需完全依赖Hadoop。因此正确答案为A。82.下列关于ApacheFlink的描述,错误的是?

A.支持事件时间处理

B.统一流处理与批处理框架

C.仅支持内存计算,不支持磁盘计算

D.提供精确一次(Exactly-Once)语义【答案】:C

解析:本题考察Flink的核心特性。Flink是统一的流处理和批处理框架(B正确),支持事件时间处理(A正确,解决数据乱序问题)和精确一次语义(D正确,通过两阶段提交协议保证数据一致性);C选项错误,Flink既支持内存计算(如状态管理),也支持磁盘计算(如大型数据集的磁盘缓存),并非“仅支持内存计算”。因此正确答案为C。83.以下哪个不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.MySQL(关系型数据库管理系统)【答案】:D

解析:本题考察Hadoop生态系统的核心组件。HDFS是Hadoop分布式存储的基础,负责海量数据的可靠存储;MapReduce是分布式计算框架,实现任务并行处理;YARN是资源管理系统,协调集群资源分配。而MySQL是传统关系型数据库,不属于Hadoop生态系统,通常用于结构化数据的事务性存储。84.MongoDB数据库属于哪种NoSQL数据库类型?

A.键值数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB是典型的文档型数据库,以JSON格式存储半结构化数据,支持复杂查询和嵌套结构。选项A(如Redis)以键值对存储,B(如HBase)以列族组织数据,D(如Neo4j)以图结构存储关系,均与MongoDB特性不符。85.下列关于数据仓库(DataWarehouse)的描述,哪项是正确的?

A.主要用于存储企业海量原始数据,支持各种数据类型

B.通常按主题域组织,面向分析型应用,存储结构化数据

C.仅支持实时数据处理,不支持离线分析

D.只能存储非结构化数据,如日志、图片等【答案】:B

解析:本题考察数据仓库的核心特点。数据仓库是面向主题、集成的、相对稳定的、反映历史变化的结构化数据集合,主要用于离线分析;A选项描述的是数据湖的特征(存储原始多类型数据);C选项错误,数据仓库支持离线分析为主,也可通过ETL实现部分实时数据整合;D选项错误,数据仓库仅存储结构化数据,非结构化数据需数据湖存储。因此正确答案为B。86.在大数据隐私保护中,用于对敏感数据进行非可逆替换以消除隐私风险的技术是?

A.数据脱敏

B.数据加密

C.访问控制

D.数据备份【答案】:A

解析:本题考察大数据隐私保护技术知识点。数据脱敏通过不可逆变换(如替换、屏蔽)将敏感数据转为非敏感数据,消除隐私风险;数据加密是可逆过程(需密钥解密);访问控制是权限管理,数据备份是容灾手段。题目强调“非可逆变换”,因此正确答案为A。87.关于Hadoop分布式文件系统(HDFS)的核心作用,以下描述正确的是?

A.提供高容错性的分布式文件存储

B.负责大数据的批处理计算任务

C.管理集群资源分配与调度

D.实现数据仓库的ETL(抽取、转换、加载)流程【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式存储系统,其核心作用是通过多副本机制实现高容错性的海量数据存储,因此A正确。B选项是MapReduce的功能;C选项是YARN(资源管理器)的职责;D选项通常由Hive、Impala等数据仓库工具实现,故错误。88.以下哪项是数据仓库中事实表的典型特征?

A.主要用于存储描述性维度属性(如时间、地区)

B.存储业务事件的度量数据(如销售额、订单量)

C.仅包含关键字段,无冗余数据

D.用于定义数据仓库的整体逻辑结构【答案】:B

解析:本题考察数据仓库中事实表与维度表的核心区别。事实表的典型特征是存储业务事件的度量数据(如订单金额、用户点击量等),通常关联多个维度表。选项A描述的是维度表(如时间维度表包含日期、季度等属性);选项C过于绝对,事实表可能因关联维度表存在冗余;选项D错误,数据仓库的逻辑结构由元数据和表关系定义,非事实表职责。89.在Hadoop分布式文件系统(HDFS)中,默认情况下,一个文件被分成块后,每个块会被存储在多少个数据节点上以保证高可用性?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS副本机制知识点。HDFS默认副本数为3,目的是通过冗余存储提升数据可靠性,防止单点故障导致数据丢失。A选项2是部分场景下的非默认配置;C、D选项4和5均高于HDFS默认的冗余策略,因此正确答案为B。90.数据仓库维度建模中,星型模型的核心特点是?

A.以事实表为中心,直接连接多个维度表

B.以维度表为中心,连接规范化的事实表

C.所有维度表均为非规范化设计

D.严格遵循第三范式(3NF)设计【答案】:A

解析:本题考察数据仓库星型模型的结构。星型模型以事实表为中心,周围直接连接多个维度表(维度表无冗余);雪花模型是星型模型的规范化版本(维度表进一步拆分)。星型模型属于反范式设计,不严格遵循3NF,且核心是事实表而非维度表。因此A正确,B、C、D描述均错误。91.以下哪项是数据仓库的核心特点?

A.面向主题

B.实时性

C.高并发

D.低延迟【答案】:A

解析:本题考察数据仓库的核心特性。数据仓库的四大核心特点是:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化)。而“实时性”“低延迟”通常是数据库或流处理系统的特性,“高并发”更多是事务型数据库的设计目标,均不符合数据仓库的核心特点。因此正确答案为A。92.数据仓库设计中,哪种模型是将维度表直接与事实表相连,且维度表不进行规范化拆分?

A.星型模型

B.雪花模型

C.星座模型

D.雪花星型混合模型【答案】:A

解析:本题考察数据仓库模型的结构特点。星型模型以事实表为中心,维度表直接与事实表相连,无中间表,结构简单且查询效率高;雪花模型是维度表规范化拆分后的结构(如地理维度表拆分为国家、省、市三级),虽符合范式但查询复杂度增加;C选项“星座模型”是多个事实表共享维度表的设计;D选项非标准术语。因此星型模型符合题意,选A。93.以下哪项不属于大数据的4V核心特征?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Veracity(真实性)【答案】:D

解析:本题考察大数据4V特征的知识点。大数据的4V核心特征是Volume(数据规模大)、Velocity(数据产生速度快)、Variety(数据类型多样)和Value(数据价值密度低)。而Veracity(数据真实性)是后续衍生的扩展特征,不属于4V核心范畴。因此错误选项A、B、C均为4V特征,D为干扰项。94.关于数据仓库(DataWarehouse)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储非结构化数据,数据湖主要存储结构化数据

B.数据仓库需要ETL流程,数据湖通常采用ELT流程

C.数据仓库面向业务分析,数据湖仅用于大数据量存储

D.数据仓库中的数据是经过清洗和整合的,数据湖中的数据是原始未处理的【答案】:D

解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向主题的集成数据集合,数据需经ETL(抽取-转换-加载)清洗整合后存储;数据湖则直接存储原始数据(结构化、半结构化、非结构化),保留原始数据形态以支持探索性分析。选项A错误(数据仓库以结构化数据为主,数据湖支持多种格式);选项B错误(数据仓库和数据湖均可采用ETL/ELT流程,非绝对区分);选项C错误(数据湖不仅用于存储,也支持深度分析)。因此D为正确答案。95.在数据仓库星型模型中,用于描述事实表上下文信息(如时间、地区等)的表称为?

A.事实表

B.维度表

C.度量表

D.指标表【答案】:B

解析:本题考察数据仓库星型模型结构。星型模型包含中心事实表(存储度量值和外键)和维度表(存储描述性属性,如时间、地区)。A选项是核心度量表,C/D非标准术语,维度表通过外键关联事实表,提供多维度分析上下文。96.关于ApacheFlink,以下哪项描述是正确的?

A.采用微批处理模型

B.支持流处理和批处理统一的引擎

C.只能处理实时流数据

D.仅适用于离线数据处理【答案】:B

解析:本题考察流处理框架的技术特性。Flink的核心优势是流批一体,支持同一引擎同时处理实时流数据和离线批处理任务,通过统一的状态管理和时间语义实现低延迟计算。选项A(微批处理)是SparkStreaming的设计模型;选项C(仅实时)和D(仅离线)均错误,Flink同时支持流和批处理场景。97.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础配置知识点。HDFS默认块大小为128MB(在Hadoop2.x及之前版本中),这一设计旨在平衡存储效率和读写性能。选项A(64MB)是早期HDFS的可选配置,并非默认值;选项C(256MB)和D(512MB)通常用于特定高性能场景或Hadoop3.x的大文件优化,但不属于默认配置。98.关于Spark中RDD(弹性分布式数据集)的描述,错误的是?

A.RDD是不可变的分布式集合

B.RDD通过分区实现并行计算

C.RDD的转换操作是惰性执行的

D.RDD的action操作不会触发计算【答案】:D

解析:RDD特性:不可变(A正确)、分区并行(B正确)、转换操作惰性执行(仅定义逻辑)、action操作触发计算(如count、collect),因此D错误。99.以下哪种算法属于典型的线性分类模型?

A.决策树

B.逻辑回归

C.K-均值聚类

D.支持向量机(SVM)【答案】:B

解析:本题考察数据挖掘算法类型。逻辑回归(B)基于线性假设,通过Sigmoid函数映射概率,是典型线性分类模型。决策树(A)是非线性模型;K-均值(C)是无监督聚类算法;SVM(D)可线性或非线性分类,但“典型线性分类模型”中逻辑回归更具代表性。因此正确答案为B。100.在MapReduce计算框架中,负责将Map任务输出的中间结果按照key进行分区并分发到对应Reduce节点的核心阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Combine阶段【答案】:B

解析:本题考察MapReduce执行流程的知识点。MapReduce中,Map阶段负责数据分片和初步处理,Combine阶段是Map端的局部聚合(非必需),Reduce阶段负责接收Shuffle后的结果并聚合计算。而Shuffle阶段是核心分发环节,通过分区、排序、合并等操作将Map输出分发到Reduce节点,因此正确答案为B。101.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量结构化和非结构化数据;YARN是资源管理器,负责集群资源调度与任务分配;MapReduce是分布式计算框架,实现大数据并行处理;ZooKeeper是分布式协调服务,提供配置管理、命名服务等功能。因此正确答案为A。102.以下哪种文件格式常用于大数据场景下的列式存储,以提高查询效率?

A.CSV

B.JSON

C.Parquet

D.XML【答案】:C

解析:本题考察大数据存储格式。Parquet是列式存储格式,适合大数据场景下的高效查询(仅读取所需列)和压缩。CSV、JSON、XML均为行式文本格式,查询时需扫描大量无关数据,效率较低。因此正确答案为C。103.Hadoop生态系统中,负责分布式数据存储的核心组件是以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论