2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解_第1页
2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解_第2页
2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解_第3页
2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解_第4页
2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力考前冲刺测试卷【典型题】附答案详解1.HDFS默认情况下,一个数据块的副本数量是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错能力,默认每个数据块存储3个副本,分别放置在本地节点、同机架其他节点和不同机架节点,以应对节点或机架故障。选项A(1个副本)易因单点故障丢失数据;选项B(2个副本)在机架故障时可能丢失数据;选项D(4个副本)冗余度过高,会浪费存储资源。2.MongoDB数据库属于以下哪种类型的数据库?

A.关系型数据库(如MySQL、Oracle)

B.列族型数据库(如HBase)

C.文档型数据库(如JSON格式存储)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察主流数据库类型分类,正确答案为C。MongoDB以类似JSON(BSON)的文档格式存储数据,支持灵活模式,适合非结构化/半结构化数据。错误选项分析:A选项关系型数据库以表结构和SQL查询为核心;B选项列族型数据库(如HBase)强调列级存储;D选项图数据库(如Neo4j)以节点和关系为核心,均与MongoDB模型不同。3.在大数据数据处理流程中,ETL和ELT是两种常见的数据抽取、转换和加载策略,以下关于两者的描述正确的是?

A.ETL是先加载数据到目标系统,再进行转换

B.ELT是先加载数据到目标系统,再进行转换

C.ETL通常在源系统资源紧张时使用

D.ELT通常在目标系统资源有限时使用【答案】:B

解析:本题考察ETL与ELT的概念及适用场景知识点。ETL(Extract-Transform-Load)的流程是先从源系统抽取数据,在源系统或独立转换节点完成数据清洗、转换,再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中完成数据转换。ELT的优势在于可利用目标系统(如数据仓库)的计算资源进行转换,适合数据量大、源系统资源有限的场景;而ETL更适合源系统计算能力较强、目标系统资源有限的场景。选项A描述的是ELT流程,错误;选项C、D对两者适用场景描述颠倒。因此正确答案为B。4.在Hadoop分布式文件系统(HDFS)中,负责管理文件元数据(如目录结构、文件信息、块的位置等)的核心节点是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:HDFS采用主从架构,NameNode是主节点,负责管理整个文件系统的元数据,包括文件和目录的创建、删除、重命名等操作,以及块的位置信息。DataNode是从节点,负责存储实际的数据块。SecondaryNameNode是辅助节点,主要用于周期性合并FsImage和EditLog,减轻NameNode负担,并非核心元数据管理者。ResourceManager是YARN的资源管理器,与HDFS无关。因此正确答案为A。5.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责在多节点集群中存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此正确答案为A。6.在Flink流处理中,“处理时间(ProcessingTime)”与“事件时间(EventTime)”的核心区别是?

A.处理时间基于系统当前时间,事件时间基于数据自带的时间戳

B.处理时间仅用于批处理,事件时间仅用于流处理

C.处理时间是数据到达时的时间,事件时间是数据生成时的时间

D.处理时间需依赖窗口,事件时间无需依赖窗口【答案】:A

解析:本题考察Flink时间语义的核心概念。处理时间指数据在Flink系统中被处理的系统时间,事件时间指数据本身携带的业务时间戳(如订单创建时间)。错误选项分析:B选项错误,Flink同时支持流处理和批处理,且两种时间语义均适用;C选项错误,事件时间是数据生成时的时间,处理时间是系统处理时的时间,二者定义方向正确但选项表述未明确核心差异;D选项错误,Flink窗口计算既支持处理时间窗口也支持事件时间窗口,与时间语义无关。7.在数据仓库的维度建模中,用于描述业务事件和度量值的表是?

A.事实表

B.维度表

C.关系表

D.事务表【答案】:A

解析:本题考察数据仓库维度建模的核心概念。事实表在维度建模中存储业务事件的度量值(如销售额、订单量)和与维度表关联的外键,是分析的核心数据载体。维度表(B选项)主要存储描述性属性(如时间、地区);关系表(C选项)是通用数据库表结构术语,非维度建模专属;事务表(D选项)通常指业务系统原始交易表,非数据仓库维度建模中的术语。因此正确答案为A。8.以下关于SparkRDD的描述,错误的是?

A.RDD是Spark的核心抽象,代表一个不可变的分布式数据集

B.RDD的分区数量在创建后不可修改

C.RDD支持惰性计算,只有在Action操作触发时才会执行计算

D.RDD的转换操作(Transformation)是延迟执行的【答案】:B

解析:本题考察SparkRDD核心特性。RDD的分区特性是可调整的,通过`coalesce`(减少分区)或`repartition`(增加分区)方法可动态修改分区数,因此选项B错误。选项A正确,RDD本质是不可变的分布式数据集;选项C正确,惰性计算是Spark性能优化的关键(仅Action触发真正计算);选项D正确,转换操作仅记录逻辑,不立即执行。9.在Hadoop生态系统中,负责资源管理和任务调度的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:C

解析:本题考察Hadoop核心组件知识点。HDFS是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责批处理任务;YARN(YetAnotherResourceNegotiator)是资源管理器,核心功能是资源调度和任务分配;Hive是基于Hadoop的数据仓库工具,用于SQL类查询。因此正确答案为C。10.在Hadoop生态系统中,负责分布式数据存储的核心组件是以下哪一项?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储大规模数据,支持高容错性和高吞吐量。B选项MapReduce是分布式计算框架,负责数据处理逻辑;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于维护配置信息和同步管理。因此正确答案为A。11.与HadoopMapReduce相比,ApacheSpark的主要优势不包括以下哪项?

A.内存计算

B.DAG执行引擎

C.支持迭代计算

D.优化磁盘IO密集型任务【答案】:D

解析:本题考察Spark与MapReduce的核心差异。Spark的优势包括:①内存计算(减少磁盘IO,提升速度);②DAG执行引擎(有向无环图优化任务依赖关系);③支持迭代计算(如机器学习场景,避免重复读写磁盘)。而MapReduce本身依赖磁盘IO(Map和Reduce阶段多次读写HDFS),Spark通过内存计算减少磁盘操作,因此“优化磁盘IO密集型任务”并非Spark的优势,反而MapReduce更依赖磁盘IO优化。正确答案为D。12.在Hadoop分布式文件系统(HDFS)中,数据块(Block)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。正确答案为C,HDFS为保证数据可靠性和容错能力,默认将每个数据块存储3个副本,防止单点故障导致数据丢失。错误选项解释:A选项1个副本无法容错,单点故障会直接丢失数据;B选项2个副本容错能力不足,仅能应对1个节点故障;D选项4个副本超出HDFS默认配置标准,属于冗余配置。13.下列哪种流处理框架以“低延迟、高吞吐、支持Exactly-Once语义”为核心优势,适用于实时数据处理场景?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.KafkaStreams【答案】:B

解析:本题考察流处理框架特点。ApacheFlink是专为流处理设计的框架,支持低延迟(毫秒级)、高吞吐,且通过Checkpoint机制实现Exactly-Once语义(数据不重复、不丢失),适合实时数据处理。A选项SparkStreaming基于微批处理,存在秒级延迟;C选项Storm虽实时性高但缺乏状态管理;D选项KafkaStreams依赖Kafka且生态较窄。因此正确答案为B。14.大数据的哪个特征强调数据产生和处理的速度快,通常要求毫秒级甚至亚秒级响应?

A.Volume(数据量大)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Veracity(数据准确性)【答案】:B

解析:本题考察大数据5V特征的概念。大数据特征中,Velocity(速度)特指数据产生和处理的速度快,实时性要求高,通常需毫秒级甚至亚秒级响应。A选项Volume指数据量庞大,通常以PB/EB级衡量;C选项Variety指数据类型多样(结构化、半结构化、非结构化);D选项Veracity指数据的准确性和可信度,用于保障分析结果可靠。因此正确答案为B。15.Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,支持高容错、高吞吐量的文件存储;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。16.在大数据ETL流程中,用于捕获数据库增量变化数据的技术是?

A.CDC(ChangeDataCapture)

B.SQL注入

C.数据清洗

D.数据脱敏【答案】:A

解析:本题考察ETL流程中“抽取”阶段的核心技术。CDC(ChangeDataCapture)通过捕获数据库的插入、更新、删除操作(如基于日志或触发器)实现增量数据抽取,是ETL中高效获取变化数据的关键手段。B错误,SQL注入是安全攻击行为,与数据抽取无关;C错误,数据清洗属于“转换(Transform)”阶段,用于处理数据质量问题(如去重、补全);D错误,数据脱敏是对敏感字段的替换/加密,可在抽取或转换阶段进行,但非抽取阶段的核心技术。17.Spark相比MapReduce的显著优势是?

A.基于内存计算,处理速度更快

B.只能处理批处理任务

C.必须依赖HDFS存储数据

D.不支持实时流处理【答案】:A

解析:本题考察Spark与MapReduce核心差异。Spark的核心优势是内存计算,减少磁盘IO操作,处理速度远快于MapReduce(MapReduce需多次磁盘读写)。B选项错误,Spark同时支持批处理和流处理;C选项错误,Spark支持内存存储,无需强制依赖HDFS;D选项错误,SparkStreaming可实现实时流处理。18.在数据仓库建设中,‘先将数据加载到目标数据库,再进行数据转换和清洗’的流程是以下哪种?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL与ELT的混合流程

D.仅适用于关系型数据库的ETL流程【答案】:B

解析:本题考察ETL与ELT的流程差异。ELT(Extract-Load-Transform)的核心是先加载原始数据到目标存储,再在目标系统中完成转换清洗。正确答案为B。错误选项分析:A选项错误,ETL是先转换再加载;C选项错误,题干描述为单一流程而非混合;D选项错误,ELT同样适用于关系型数据库(如Snowflake等工具)。19.在数据仓库设计中,以下哪项通常属于事实表?

A.用户基本信息表(包含用户ID、姓名、年龄等属性)

B.订单明细表(包含订单ID、产品ID、购买数量、金额等)

C.产品类别表(包含类别ID、类别名称、父类别ID等)

D.用户地址表(包含用户ID、省、市、街道等)【答案】:B

解析:本题考察数据仓库中事实表与维度表的区别知识点,正确答案为B。事实表是记录业务事件的数据表,包含可度量值(如数量、金额)和关联维度的外键;订单明细表记录具体订单的购买信息(包含数量、金额等度量值),属于事实表。A、C、D均为描述性属性表(维度表),用于提供事实表的上下文(如用户基本信息描述订单中的用户)。因此选B。20.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-Family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以JSON格式存储数据,属于文档型数据库(DocumentDatabase),通过键值对组织文档结构。选项A(键值型)典型代表为Redis、RocksDB;选项B(列族型)典型代表为HBase、Cassandra;选项D(图型)典型代表为Neo4j,用于存储复杂关系网络。21.大数据的4V特征中,体现数据生成和处理速度的是以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Variety(数据类型多样)

D.Veracity(数据准确性)【答案】:B

解析:本题考察大数据的4V特征知识点。大数据的4V特征中,Velocity(速度)特指数据生成和处理的快速性,包括实时或准实时的数据采集与分析需求。A选项Volume指数据规模庞大,C选项Variety指数据类型多样(结构化、半结构化、非结构化),D选项Veracity指数据的真实性与可靠性。因此正确答案为B。22.在Hadoop分布式文件系统(HDFS)中,默认情况下文件会被复制到多少个数据节点以保证高可用性?

A.1个

B.2个

C.3个

D.4个【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS默认的副本因子为3,这是为了在单个数据节点故障时仍能通过其他副本恢复数据,确保数据可靠性和高可用性。选项A(1个)仅适用于本地存储场景,无法满足分布式系统容错需求;选项B(2个)容错能力不足,易因双节点故障丢失数据;选项D(4个)超出HDFS默认配置,会增加额外存储开销且无必要。23.以下哪种数据库类型适合存储半结构化数据(如JSON/XML文档),并支持灵活的模式设计?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.键值型数据库(如Redis)

D.列族型数据库(如HBase)【答案】:B

解析:本题考察NoSQL数据库类型知识点。关系型数据库(A)基于表结构,模式固定;文档型数据库(B)以JSON/文档为基本单元,支持动态字段和灵活模式;键值型(C)仅存储键值对,结构简单;列族型(D)适合高维稀疏数据(如时序数据)。半结构化数据(如嵌套JSON)需灵活模式,故正确答案为B。24.以下哪个流处理框架是Apache顶级项目,支持高吞吐低延迟的实时数据处理?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheKafkaStreams

D.ApacheStorm【答案】:A

解析:本题考察流处理框架的特性。ApacheFlink是Apache顶级项目,以高吞吐、低延迟、精确一次(Exactly-Once)语义为核心优势,支持事件时间窗口、状态管理和复杂计算。B选项SparkStreaming基于微批处理模型,本质是批处理框架的扩展,延迟较高;C选项KafkaStreams是基于Kafka的轻量级流处理库,功能较单一;D选项Storm虽支持实时处理,但在状态管理和事件时间处理上不如Flink完善。因此正确答案为A。25.大数据的核心特征“4V”不包含以下哪个选项?

A.Volume(数据量)

B.Velocity(处理速度)

C.Variety(数据类型)

D.Value(数据价值)【答案】:D

解析:本题考察大数据的基本特征知识点。大数据的“4V”核心特征通常定义为Volume(数据规模)、Velocity(处理速度)、Variety(数据类型多样性)、Veracity(数据准确性),而“Value(数据价值)”是后续扩展的第五个V(部分教材提出“5V”概念时加入Value),但标准“4V”定义中不包含Value,因此D选项不属于4V特征。26.SparkStreaming的核心抽象是以下哪一项?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。SparkStreaming将连续数据流按时间片(如1秒)分割为微批处理,每个时间片生成一个RDD,这些RDD组成DStream(离散流),是SparkStreaming的核心抽象。选项A(RDD)是Spark的基础数据结构,适用于所有Spark应用;选项C(DataFrame)和D(Dataset)是结构化数据API,与Streaming无关。27.在大数据ETL/ELT流程中,‘先加载后转换(ELT)’模式的核心优势是?

A.减少数据传输量,适合跨地域数据仓库

B.转换逻辑在数据源端完成,降低目标系统负载

C.支持实时数据转换,无需批处理窗口

D.仅适用于结构化数据,对非结构化数据兼容性差【答案】:A

解析:本题考察ETL/ELT流程差异。ELT(Extract-Load-Transform)是先将原始数据加载到目标系统(如数据仓库),再在目标系统中执行转换。其核心优势是利用目标系统的计算资源(如MPP数据库的并行能力),减少数据传输量(尤其适合跨地域/高带宽成本场景)。选项B错误(转换在目标系统,非数据源);选项C错误(ELT本质仍是批处理,实时需流处理框架);选项D错误(ELT兼容半结构化数据,如JSON文档)。28.在数据仓库技术中,用于支持多维数据分析、在线分析处理(OLAP)的核心技术是?

A.ETL(数据抽取、转换、加载)

B.OLAP(联机分析处理)

C.OLTP(联机事务处理)

D.HiveQL(Hive查询语言)【答案】:B

解析:本题考察数据仓库核心技术。OLAP(OnlineAnalyticalProcessing)即联机分析处理,通过多维模型(如星型模型、雪花模型)和多维度分析工具(如Cube立方体),支持复杂的聚合查询和趋势分析,是数据仓库的核心分析能力。A选项ETL是数据仓库数据加载的过程,非分析技术;C选项OLTP(OnlineTransactionProcessing)是面向事务处理的系统(如银行交易),强调实时性和事务一致性,与分析型的OLAP相反;D选项HiveQL是Hive的数据查询语言,用于Hadoop平台的SQL操作,属于数据仓库工具的一部分,而非技术本身。因此正确答案为B。29.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。30.下列哪个大数据处理框架主要用于实时流数据处理?

A.Flink

B.SparkSQL

C.HBase

D.Hive【答案】:A

解析:本题考察主流大数据处理框架的应用场景。ApacheFlink是专为实时流数据处理设计的开源框架,支持低延迟、高吞吐的流处理任务,适合实时分析场景。SparkSQL(B选项)是基于Spark的SQL查询工具,侧重批处理和交互式查询;HBase(C选项)是NoSQL分布式数据库,用于存储海量结构化数据;Hive(D选项)是基于Hadoop的数据仓库工具,用于批处理分析。因此正确答案为A。31.Hadoop分布式文件系统(HDFS)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS为提高数据可靠性和容错能力,默认将文件存储为3个副本,分布在不同节点上,即使单个节点故障也能恢复数据。选项A(1个副本)易因单点故障导致数据丢失;选项B(2个副本)虽有冗余但可靠性低于3副本;选项D(4个副本)为非默认配置,会增加存储开销。因此正确答案为C。32.Spark相比MapReduce,其主要优势不包括以下哪项?

A.内存计算,减少磁盘I/O

B.支持DAG执行引擎,优化任务依赖

C.仅支持批处理计算

D.丰富的API生态(Scala/Python/Java等)【答案】:C

解析:本题考察Spark核心优势知识点。Spark的优势包括内存计算(减少磁盘I/O,提升速度)、DAG执行引擎(优化任务调度和依赖关系)、多语言API支持(Scala/Python/Java等);而Spark不仅支持批处理,还能通过SparkStreaming(微批处理)、StructuredStreaming(流处理)处理实时数据,因此“仅支持批处理计算”是错误描述。正确答案为C。33.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。34.在数据仓库构建流程中,先将数据从源系统抽取到目标数据仓库,再在数据仓库内部进行转换的流程称为?

A.ETL(抽取-转换-加载)

B.ELT(抽取-加载-转换)

C.ETL+ELT混合流程

D.以上都不是【答案】:B

解析:本题考察ETL/ELT流程定义。ETL是先转换(Transform)再加载(Load),将数据清洗后加载到目标表;ELT是先抽取(Extract)后加载(Load),直接将原始数据加载到目标表再进行转换,可减少源系统计算压力;不存在C选项的混合流程,因此正确答案为B。35.在MapReduce计算模型中,Map阶段的主要作用是?

A.将输入数据分割为键值对并进行初步转换

B.合并相同键的中间结果并输出最终结果

C.从分布式存储中读取原始数据并直接返回

D.实时聚合所有节点的计算结果【答案】:A

解析:本题考察MapReduce的核心计算流程。Map阶段负责将输入数据(如文本文件)分割为键值对(Key-ValuePair),通过用户定义的Map函数对每个键值对进行处理(如过滤、转换),输出中间结果。B选项是Reduce阶段的核心功能(合并相同键的中间值);C选项描述的是输入阶段(非Map阶段);D选项是Reduce阶段的聚合过程,非Map阶段。因此正确答案为A。36.Spark作为主流的分布式计算框架,相比MapReduce,其显著的性能优势主要体现在以下哪个方面?

A.支持多种编程语言(Scala/Java/Python等)

B.基于内存计算,减少磁盘I/O操作

C.原生支持SQL查询(通过SparkSQL)

D.提供更高的任务吞吐量(适用于超大规模数据)【答案】:B

解析:本题考察Spark与MapReduce的性能对比知识点。MapReduce基于磁盘存储中间结果,需频繁进行磁盘I/O操作,导致计算效率较低;而Spark的核心优势是基于内存计算,将中间结果暂存于内存中,仅在必要时写入磁盘,大幅减少了磁盘I/O耗时。选项A、C是Spark的功能特性,但并非相比MapReduce的“显著性能优势”;选项D描述不准确,MapReduce在特定场景下也可通过优化实现高吞吐量,而Spark的优势核心是内存计算。因此正确答案为B。37.下列关于ApacheSpark的描述,哪项是其核心优势?

A.必须依赖磁盘进行中间结果存储,保证可靠性

B.支持内存计算,中间结果无需频繁写入磁盘

C.仅适用于批处理任务,无法处理实时流数据

D.计算逻辑必须显式使用Map和Reduce两个步骤【答案】:B

解析:本题考察Spark分布式计算框架的核心特性。Spark的核心优势是基于内存计算,中间结果可缓存在内存中(或堆外内存),避免了MapReduce中频繁将中间结果写入磁盘的I/O开销,因此处理速度比MapReduce快数倍。A错误,Spark优先使用内存而非依赖磁盘;C错误,Spark同时支持批处理(RDD/SparkSQL)和流处理(StructuredStreaming);D错误,Spark的计算逻辑更简洁,无需显式调用Map/Reduce步骤,支持多种算子组合。38.Kafka中分区(Partition)的主要作用是?

A.提高数据吞吐量

B.降低消息延迟

C.增加数据存储量

D.减少数据丢失风险【答案】:A

解析:本题考察Kafka分区机制。Kafka通过分区并行存储和处理消息,每个分区由一个Leader副本负责读写,多个Follower副本同步数据,分区越多,并行度越高,整体吞吐量越大。B选项延迟与分区数无直接关联;C选项分区不会增加数据总量(仅分散存储);D选项数据丢失风险由副本数决定,与分区无关。因此正确答案为A。39.Hadoop分布式文件系统(HDFS)的核心作用是?

A.提供分布式存储服务

B.负责集群资源管理

C.执行分布式计算任务

D.提供分布式协调服务【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,核心作用是提供海量数据的分布式存储服务。选项B中负责集群资源管理的是YARN(YetAnotherResourceNegotiator);选项C中执行分布式计算任务的是MapReduce或Spark等计算框架;选项D中提供分布式协调服务的是ZooKeeper。因此正确答案为A。40.在Hadoop分布式文件系统(HDFS)中,默认的副本因子(副本数)是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS分布式文件系统的核心特性,正确答案为C。HDFS为保证数据可靠性和高可用性,默认将每个文件块(Block)复制3份存储在不同数据节点上,既避免单节点故障导致数据丢失,又通过多副本并行读取提升性能。错误选项分析:A选项1份副本无法应对节点故障;B选项2份副本在双节点故障时仍有风险;D选项4份副本会显著增加存储和IO开销,不符合资源优化设计。41.以下哪个流处理框架以“事件时间(EventTime)”处理和“精确一次(Exactly-Once)”语义为核心特性?

A.SparkStreaming

B.KafkaStreams

C.ApacheFlink

D.ApacheStorm【答案】:C

解析:ApacheFlink是专为流处理设计的框架,支持事件时间窗口计算和精确一次语义(确保数据处理一致性)。A选项SparkStreaming是微批处理模型,事件时间支持较弱;B选项KafkaStreams依赖Kafka,事件时间处理能力不如Flink;D选项Storm侧重实时处理但缺乏事件时间和精确一次语义。42.Hadoop生态系统中负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式数据存储的核心组件,采用块(Block)形式存储海量数据并支持高容错性。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于管理集群元数据和协调分布式任务。因此正确答案为A。43.在Hadoop分布式文件系统(HDFS)中,默认的副本因子(ReplicationFactor)是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:HDFS默认副本因子为3,目的是通过冗余存储提高数据可靠性,同时平衡存储开销与容错能力。若副本因子为1(A选项),数据单点故障时无法恢复;2(B选项)虽能提供一定冗余,但可靠性低于3;4(D选项)会显著增加存储资源消耗且无必要。44.SparkStreaming的核心执行引擎是?

A.DStream

B.ResilientDistributedDataset(RDD)

C.FlinkJobManager

D.KafkaStreams【答案】:B

解析:本题考察SparkStreaming的底层架构。SparkStreaming基于RDD模型,将流数据按微批处理,每个微批对应一个RDD。选项ADStream是SparkStreaming中对流数据的抽象,基于RDD实现;选项CFlinkJobManager是Flink的核心组件,与Spark无关;选项DKafkaStreams是独立流处理框架,非SparkStreaming的执行引擎。45.大数据处理中,解决数据倾斜问题的常用优化手段是?

A.预聚合

B.分库分表

C.使用SparkSQL

D.增加计算节点【答案】:A

解析:本题考察数据倾斜的优化方法,正确答案为A。数据倾斜指某一key的数据量远大于其他key,预聚合可在数据处理前对高频key进行局部聚合,减少数据量;分库分表是分布式存储的扩容手段,SparkSQL不直接解决倾斜问题,增加节点仅能分摊压力,无法从根本上消除倾斜。46.在数据仓库中,以下哪类表主要用于记录业务过程中的度量值(如销售额、订单量)和关联维度的外键?

A.事实表

B.维度表

C.宽表

D.汇总表【答案】:A

解析:本题考察数据仓库中表的核心分类。事实表以数值型度量值为核心,通过外键关联维度表,描述业务事件的具体发生情况(如“某订单”对应“用户”“商品”等维度)。错误选项分析:B选项维度表用于描述维度属性(如用户表的“地区”“性别”);C选项宽表通常指整合多维度数据的宽表结构,非标准数据仓库术语;D选项汇总表是事实表的聚合结果,属于事实表的特例而非基础分类。47.ApacheFlink作为流处理框架,其相比其他流处理技术(如SparkStreaming)的核心优势之一是对哪种语义的原生支持?

A.高吞吐率

B.低延迟

C.精确一次(Exactly-Once)语义

D.状态管理能力【答案】:C

解析:本题考察Flink的核心优势。Flink通过Checkpoint机制和两阶段提交协议,能够严格保证数据处理的“精确一次(Exactly-Once)”语义,即数据既不重复处理也不丢失,这是其在实时流处理中区别于其他框架(如SparkStreaming的At-Least-Once)的关键优势。A、B是流处理的通用目标,但非Flink独有的核心优势;D“状态管理”是Flink的能力之一,但“精确一次语义”是其在一致性保障上的标志性特性。48.关于数据仓库(DW)和数据湖(DataLake)的描述,以下正确的是?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析决策,数据湖面向原始数据存储

C.数据仓库支持实时分析,数据湖仅支持批处理分析

D.数据仓库无需ETL,数据湖需复杂ETL【答案】:B

解析:本题考察数据仓库与数据湖的核心差异。数据仓库(DW)通过ETL整合结构化数据,面向业务分析决策;数据湖(DataLake)直接存储原始数据(结构化/非结构化/半结构化),保留数据原始性,支持灵活查询。选项A错误,数据湖也可存储结构化数据;选项C错误,两者均可通过工具扩展支持实时分析;选项D错误,数据仓库需ETL,数据湖通常采用ELT(提取-加载-转换)模式。因此正确答案为B。49.Spark作为内存计算框架,其显著提升性能的核心原因是?

A.基于内存计算,减少磁盘I/O操作

B.支持SQL查询和关系型数据处理

C.兼容Hadoop生态系统所有组件

D.采用MapReduce作为底层计算引擎【答案】:A

解析:本题考察Spark的技术特性。Spark的核心优势在于基于内存计算,将数据缓存在内存中(支持RDD弹性分布式数据集),避免了MapReduce中大量的磁盘读写操作,从而大幅提升计算速度。B选项SQL查询是Hive、SparkSQL的功能,但非Spark性能优势的核心;C选项兼容性是生态特性,与性能无关;D选项MapReduce是Spark的前身,Spark采用DAG执行引擎而非直接依赖MapReduce。因此正确答案为A。50.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.实时性高,支持事务处理

B.面向主题,集成历史数据

C.直接存储原始业务数据

D.支持实时数据写入与更新【答案】:B

解析:本题考察数据仓库特点。数据仓库以“面向主题、集成性、非易失性、时变性”为核心特点:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化反映历史趋势)。A、D是OLTP(事务处理系统)特点,C是原始数据库特征。因此正确答案为B。51.HBase作为典型的NoSQL数据库,其最适合存储的场景是?

A.高并发、低延迟的实时随机读写海量结构化数据

B.存储非结构化日志文件

C.存储超大规模的全文检索数据

D.作为关系型数据库的备份存储【答案】:A

解析:本题考察HBase的技术特性与适用场景。HBase是**列式存储、随机读写**的分布式数据库,基于HDFS构建,适合**海量结构化数据**(如用户行为日志、物联网传感器时序数据)的高并发、低延迟访问。B选项错误,非结构化数据(如文本、图片)通常通过HDFS+Elasticsearch等组合存储,HBase更擅长结构化数据;C选项错误,全文检索是Elasticsearch的核心优势;D选项错误,HBase是独立的NoSQL存储系统,并非关系型数据库的备份工具。52.在数据仓库的维度建模中,以下哪项是星型模型的核心特征?

A.事实表与多个维度表通过外键关联,且所有维度表围绕一个中心事实表展开

B.事实表与维度表是多对多关系

C.所有表都通过主键-外键关系形成严格的星型结构

D.仅包含一个事实表和一个维度表【答案】:A

解析:本题考察数据仓库维度建模的星型模型特征。星型模型的核心是存在一个中心事实表,多个维度表(如时间、地区维度)通过外键与事实表关联,维度表间无直接关联。正确答案为A。错误选项分析:B选项错误,星型模型中事实表与维度表是一对多关系;C选项错误,维度表间无主键-外键关联;D选项错误,星型模型包含一个事实表和多个维度表。53.数据仓库中,存储与业务事件直接相关的可量化数据(如销售额、订单量)的表类型是?

A.维度表

B.事实表

C.宽表

D.星型表【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量值(如销售额、订单量),通常包含外键关联维度表。A选项维度表用于存储描述性数据(如客户、产品信息);C选项宽表是冗余存储结构,非标准表类型;D选项星型表是数据仓库模型结构(事实表关联维度表),非表类型。因此正确答案为B。54.在大数据数据仓库构建中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的核心区别在于?

A.ETL在数据加载后进行转换,ELT在加载前转换

B.ETL先抽取、转换后加载,ELT先抽取、加载后转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL需实时处理,ELT支持批量处理【答案】:B

解析:ETL流程是抽取(Extract)→转换(Transform)→加载(Load),即先转换数据再写入目标系统;ELT则是抽取(Extract)→加载(Load)→转换(Transform),即先将原始数据加载到目标存储(如数据仓库),再在目标系统中进行转换。ELT因数据先入仓库,可减少数据传输量,更适合大数据场景;A选项描述颠倒;C选项两者均可处理结构化/半结构化数据;D选项两者均支持批处理,ELT更适合实时流数据场景。55.以下哪种数据脱敏方式适用于开发测试环境,且脱敏后的数据无法恢复原始数据?

A.动态脱敏

B.静态脱敏

C.可逆脱敏

D.字段脱敏【答案】:B

解析:本题考察数据脱敏技术的类型及应用场景。静态脱敏是在数据存储阶段(如生产环境)预先对敏感字段进行不可逆脱敏(如替换为随机字符串、掩码处理),脱敏后的数据可直接用于开发测试环境,且无法恢复原始数据。A错误,动态脱敏是实时脱敏(如查询时替换敏感字段),用于生产环境的实时数据访问;C错误,可逆脱敏通过加密算法实现,脱敏后可恢复原始数据,不适用于测试环境;D错误,“字段脱敏”是脱敏的操作粒度(针对特定字段),非独立类型,与题干描述的“不可逆且用于测试环境”无关。56.Hadoop分布式文件系统(HDFS)的主要作用是?

A.分布式数据存储

B.分布式计算框架

C.集群资源管理

D.数据挖掘与分析【答案】:A

解析:HDFS是Hadoop生态系统的分布式存储组件,核心功能是可靠存储海量数据;B选项MapReduce是分布式计算框架;C选项YARN负责集群资源管理;D选项数据挖掘通常由Hive、机器学习库等工具完成,不属于HDFS核心功能。57.MongoDB作为典型的NoSQL数据库,其数据模型主要采用以下哪种结构?

A.键值对(Key-Value)

B.文档型(Document)

C.列族(Column-Family)

D.图结构(Graph)【答案】:B

解析:本题考察NoSQL数据库的典型数据模型。MongoDB以BSON(BinaryJSON)格式存储文档,支持嵌套结构和灵活的模式,属于文档型数据库。错误选项分析:A选项键值对典型代表为Redis、Memcached;C选项列族典型代表为HBase;D选项图结构典型代表为Neo4j。58.HDFS(Hadoop分布式文件系统)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的基础配置知识点。HDFS为提高数据可靠性和容错能力,默认将每个文件块复制3份存储在不同节点,当一个节点故障时仍能通过其他副本恢复数据。选项A(1)仅1份数据,容错能力极低;选项B(2)冗余度不足,故障恢复概率较高;选项D(4)会导致过多磁盘空间浪费,超出默认冗余需求。59.数据仓库(DataWarehouse)的核心特点是?

A.面向操作处理(OLTP)

B.数据随时间累积与变化(时变性)

C.支持实时事务处理

D.仅存储当前最新数据【答案】:B

解析:本题考察数据仓库的核心特性。数据仓库是用于决策支持的集成数据集合,其核心特点包括:面向主题、集成性、非易失性(数据不轻易修改)、时变性(历史数据随时间累积)。选项A错误,面向操作处理是联机事务处理(OLTP)的特点;选项C错误,数据仓库侧重历史数据分析,不支持实时事务;选项D错误,数据仓库存储历史数据而非仅当前数据。因此正确答案为B。60.数据湖相比数据仓库,其主要特点不包括以下哪项?

A.支持存储非结构化数据

B.存储原始数据而非预处理数据

C.主要存储结构化数据

D.支持多种数据处理工具集成【答案】:C

解析:本题考察数据湖与数据仓库的核心区别。数据湖的核心特点是存储原始数据(结构化、半结构化、非结构化),支持多种数据类型和工具集成(如A、B、D所述);而数据仓库主要面向结构化数据,通过ETL进行预处理。选项C“主要存储结构化数据”是数据仓库的特点,而非数据湖,因此正确答案为C。61.Hadoop生态系统中,负责资源管理和任务调度的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)【答案】:C

解析:本题考察Hadoop核心组件功能。HDFS(A)是分布式文件系统,负责海量数据存储;MapReduce(B)是分布式计算框架,实现并行计算;YARN(C)是资源管理器,负责集群资源的分配、调度和任务管理;ZooKeeper(D)是分布式协调服务,提供一致性协调能力。因此负责资源管理和调度的是YARN。62.根据CAP理论,在分布式系统设计中,以下哪项是正确的原则?

A.为保证强一致性(Consistency),必须牺牲分区容错性(PartitionTolerance)

B.分区容错性(P)是分布式系统的固有属性,需优先保证

C.当系统面临网络分区时,必须选择CP模式(一致性优先)

D.系统必须同时满足一致性(C)、可用性(A)和分区容错性(P)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论指出分布式系统只能同时满足‘一致性(C)’、‘可用性(A)’、‘分区容错性(P)’中的两项,无法三者兼得。其中,‘分区容错性(P)’是分布式系统的固有属性(如网络故障必然导致分区),因此需优先保证(B正确)。A错误,因P是必须的,只能在C和A中取舍;C错误,网络分区时通常选AP(牺牲一致性换取可用性);D错误,三者不可同时满足。63.在Hadoop生态系统中,负责集群资源分配、节点管理和应用程序调度的组件是?

A.HDFS

B.MapReduce

C.YARN

D.HBase【答案】:C

解析:本题考察Hadoop生态系统中YARN的功能。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器,负责节点资源监控、应用程序资源分配和任务调度;HDFS负责分布式存储;MapReduce是旧版计算框架;HBase是分布式NoSQL数据库。因此正确答案为C。64.HDFS分布式文件系统中,默认的块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基本特性。HDFS(Hadoop分布式文件系统)的块大小是可配置的,默认情况下,Hadoop2.x及以上版本的块大小为128MB,这一设计可降低寻址时间、优化并行处理效率。选项A(64MB)是HDFS1.x的默认块大小,选项C、D均非HDFS默认块大小。因此正确答案为B。65.ApacheFlink作为实时流处理框架,其核心优势之一是支持的计算语义为?

A.At-Least-Once

B.At-Most-Once

C.Exactly-Once

D.At-Least-Exactly【答案】:C

解析:本题考察实时计算框架Flink的特性知识点,正确答案为C。Flink通过Checkpoint和Savepoint机制实现精确一次(Exactly-Once)语义,确保数据处理的准确性(无重复、无丢失);At-Least-Once(至少一次)是早期SparkStreaming等框架的常见语义(可能重复);At-Most-Once(最多一次)可能导致数据丢失;“At-Least-Exactly”非标准术语。因此选C。66.以下技术中,最适合进行实时流数据处理的是?

A.ApacheFlink

B.ApacheSparkBatch

C.Hive

D.ApacheHBase【答案】:A

解析:本题考察流处理技术选型。A正确:Flink专为低延迟、高吞吐实时流处理设计,支持事件时间窗口、状态管理等核心特性;B错误:SparkBatch是批处理框架,用于离线数据计算;C错误:Hive是基于HDFS的数据仓库工具,依赖批处理查询;D错误:HBase是NoSQL数据库,用于存储海量结构化数据,非流处理工具。67.Hadoop分布式文件系统(HDFS)的主要功能是?

A.提供分布式数据存储服务

B.负责并行计算任务的调度与资源管理

C.实现离线批处理计算逻辑

D.处理实时流数据的计算与分析【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,核心功能是分布式数据存储与管理;选项B是YARN(资源管理器)的职责;选项C是MapReduce(分布式计算框架)的用途;选项D是SparkStreaming或Flink等流处理框架的功能。因此正确答案为A。68.以下哪种系统主要用于企业级数据分析和决策支持?

A.OLTP系统

B.OLAP系统

C.关系型数据库

D.分布式文件系统【答案】:B

解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)系统面向决策支持,通过数据仓库整合多源数据,支持复杂分析查询(如钻取、切片)。A错误:OLTP(联机事务处理)系统面向业务操作(如电商订单、银行转账),强调事务一致性;C错误:关系型数据库(如MySQL)属于OLTP系统的典型载体,而非专门的分析系统;D错误:分布式文件系统(如HDFS)仅负责数据存储,不提供分析能力。因此正确答案为B。69.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式文件存储的核心组件,采用分块存储和副本机制实现高容错性和高吞吐量。B选项MapReduce是分布式计算框架,用于并行处理大数据;C选项YARN是资源管理器,负责集群资源的分配与调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。70.大数据的核心特征(4V)不包括以下哪一项?

A.Volume

B.Velocity

C.Value

D.Veracity【答案】:C

解析:本题考察大数据4V特征知识点。大数据标准4V特征为Volume(数据规模)、Velocity(数据生成速度)、Variety(数据多样性)、Veracity(数据真实性)。选项C的“Value”虽为大数据的潜在价值,但不属于传统4V特征范畴,因此正确答案为C。71.Spark相比MapReduce的主要优势在于?

A.采用内存计算,减少磁盘I/O

B.仅支持Java语言开发

C.必须基于磁盘存储中间结果

D.无法处理迭代计算任务【答案】:A

解析:本题考察Spark与MapReduce的技术差异。A正确:Spark基于内存计算RDD,迭代计算时无需反复读写磁盘,性能远优于MapReduce;B错误:Spark支持Scala、Java、Python、R等多语言开发;C错误:MapReduce依赖磁盘存储中间结果,Spark优先内存存储;D错误:Spark擅长迭代计算(如机器学习算法),MapReduce则不适合。72.以下关于HDFS的描述,正确的是?

A.默认数据块副本数为3

B.数据块大小固定为128MB

C.HDFS不支持跨机架副本存储

D.NameNode直接存储实际数据块【答案】:A

解析:本题考察HDFS核心特性。A正确:HDFS默认数据块副本数为3,用于容错和高可用性;B错误:HDFS数据块大小在不同版本中可能调整(如旧版本64MB,新版本128MB),非固定值;C错误:HDFS支持机架感知,默认副本分布在不同机架以提升可靠性;D错误:NameNode仅存储元数据(如文件路径、块位置),实际数据块存储在DataNode。73.Spark相比MapReduce在计算性能上的主要优势是?

A.基于内存计算,减少磁盘IO开销

B.仅支持Java语言开发

C.批处理能力更强

D.必须依赖HDFS存储数据【答案】:A

解析:本题考察Spark与MapReduce的核心差异,正确答案为A。Spark采用内存计算模型,将中间结果缓存在内存中(而非MapReduce的磁盘读写),大幅降低IO开销,从而显著提升计算速度。B选项错误,Spark支持Scala、Python、Java等多语言开发;C选项错误,MapReduce同样支持批处理,且Spark的批处理性能提升源于内存计算而非“更强”;D选项错误,Spark可使用多种存储系统(如HDFS、S3、Cassandra),并非必须依赖HDFS。74.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。75.数据仓库(DW)与数据湖(DataLake)的核心区别是?

A.DW存储结构化数据,DataLake仅存储非结构化数据

B.DW需先经过ETL处理,DataLake直接存储原始数据

C.DW面向历史分析,DataLake仅支持实时查询

D.DW需元数据管理,DataLake无需元数据【答案】:B

解析:本题考察数据仓库与数据湖的架构差异。选项A错误,数据仓库以结构化数据为主,但也支持半结构化;数据湖可存储结构化、半结构化、非结构化数据。选项B正确,数据仓库需ETL(提取-转换-加载)处理原始数据,数据湖直接存储原始数据(如日志、JSON、图片等)。选项C错误,数据仓库和数据湖均可支持历史分析和实时查询。选项D错误,两者均需元数据管理。76.在实时流处理场景中,能够提供毫秒级延迟、支持状态管理和Exactly-Once语义的开源框架是?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheStorm

D.ApacheKafkaStreams【答案】:A

解析:本题考察主流流处理框架的技术特性。ApacheFlink是实时流处理框架,以毫秒级延迟、强大的状态管理和Exactly-Once语义著称(A正确);B选项SparkStreaming基于微批处理,延迟通常在秒级;C选项Storm虽然实时性较高,但状态管理和Exactly-Once支持较弱;D选项KafkaStreams更轻量,适合简单场景但不具备Flink的复杂状态管理能力。因此正确答案为A。77.以下哪项属于数据质量的核心维度?

A.及时性

B.冗余性

C.可扩展性

D.可移植性【答案】:A

解析:本题考察数据质量的关键指标。数据质量维度通常包括完整性(数据是否缺失)、准确性(数据是否正确)、及时性(数据是否新鲜)、一致性(数据是否统一)等。B选项“冗余性”是数据存储中的冗余设计,非质量维度;C选项“可扩展性”是系统架构特性;D选项“可移植性”是数据或系统的迁移能力,均不属于数据质量维度。因此正确答案为A。78.关于HDFS的描述,正确的是?

A.HDFS采用单副本存储以节省存储空间

B.HDFS文件块默认大小为128MB

C.NameNode负责存储实际数据块

D.HDFS仅支持文本格式文件存储【答案】:B

解析:本题考察HDFS的特性。A选项错误,HDFS默认采用3副本机制以提高容错性和可靠性;B选项正确,HDFS文件块(Block)默认大小为128MB,可根据需求调整;C选项错误,NameNode负责存储文件元数据(如目录结构、块位置等),实际数据块由DataNode存储;D选项错误,HDFS支持二进制、文本等多种格式文件存储。因此正确答案为B。79.下列哪一项不属于大数据的5V特征?

A.Volume

B.Visibility

C.Velocity

D.Veracity【答案】:B

解析:本题考察大数据的5V特征知识点。大数据的5V特征具体指Volume(数据规模)、Velocity(数据产生速度)、Variety(数据多样性)、Veracity(数据真实性)、Value(数据价值)。选项B的Visibility(可见性)不属于5V特征,因此正确答案为B。80.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析场景,数据湖面向原始数据存储

C.数据仓库支持实时查询,数据湖仅支持离线分析

D.数据仓库采用列式存储,数据湖仅采用行式存储【答案】:B

解析:本题考察数据仓库与数据湖的概念差异。B正确:数据仓库整合结构化数据用于业务分析(如OLAP),数据湖存储原始数据(结构化/半结构化/非结构化),支持灵活扩展;A错误:数据仓库可存储半结构化数据,数据湖也包含结构化数据;C错误:两者均可支持实时查询(如数据湖用Presto);D错误:存储格式与类型无关,两者均支持列/行式存储。81.在Hadoop生态系统中,负责分布式数据存储的核心组件是

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为大规模数据存储设计,支持高容错性和高吞吐量;选项AMapReduce是分布式计算框架,负责数据处理逻辑;选项CYARN是资源管理系统,调度集群资源;选项DHive是基于Hadoop的SQL工具,用于数据仓库分析。因此负责分布式存储的核心组件为HDFS,正确答案为B。82.以下哪项是Hadoop的核心组件?

A.HDFS(分布式文件系统)

B.Hive(数据仓库工具)

C.HBase(NoSQL数据库)

D.HiveMQ(消息队列)【答案】:A

解析:本题考察Hadoop核心组件知识点。Hadoop的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce、资源管理器YARN和公共工具类Common。选项B的Hive是基于Hadoop的数据仓库工具,属于Hadoop生态扩展而非核心组件;选项C的HBase是Hadoop生态中的NoSQL数据库,同样不属于核心组件;选项D的HiveMQ是消息队列系统,与Hadoop无关。因此正确答案为A。83.一致性哈希算法在分布式系统中的主要优势是?

A.避免因节点变化导致的大规模数据迁移

B.提供强一致性保障,确保数据绝对一致

C.显著提高哈希函数的计算速度

D.自动修复数据冗余和副本丢失问题【答案】:A

解析:一致性哈希通过环形空间和虚拟节点减少节点变化时的数据迁移量,仅影响相邻节点的数据;B错误,一致性哈希不保证强一致性(如Paxos/Raft);C错误,哈希计算速度与算法本身复杂度有关,非一致性哈希的核心优势;D错误,数据冗余和副本修复通常由副本机制或分布式存储系统(如HDFS副本)实现。84.在实时流处理系统中,Kafka的主要作用是?

A.提供分布式计算能力

B.存储实时计算结果

C.作为数据源接收和转发实时数据流

D.负责数据的持久化存储【答案】:C

解析:本题考察实时流处理系统中Kafka的角色。A选项错误,分布式计算能力由Flink、SparkStreaming等框架提供;B选项错误,实时计算结果通常存储于HBase、Redis等存储系统,Kafka不直接负责结果存储;C选项正确,Kafka是高吞吐量消息队列,作为流处理系统的核心数据源,负责接收、存储和转发实时数据流,实现上下游系统的解耦;D选项错误,Kafka虽支持消息持久化,但核心作用是数据传输而非通用持久化存储。因此正确答案为C。85.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以BSON(类似JSON)格式存储文档,支持嵌套结构和灵活模式,属于文档型数据库。选项A(键值对)如Redis,以键值对存储简单数据;选项B(列族)如HBase,按列族组织稀疏数据;选项D(图数据库)如Neo4j,存储节点与关系数据(如社交网络)。86.数据仓库中,ODS层的核心作用是?

A.存储原始业务数据

B.进行数据清洗与转换

C.构建用户画像与标签

D.提供业务分析报表数据【答案】:A

解析:本题考察数据仓库分层结构。ODS(OperationalDataStore)即操作数据存储层,主要作用是直接存储原始业务数据(未经过加工的),为后续清洗、转换提供基础;B选项描述的是DWD层(数据明细层)的功能,C是ADS层(应用服务层),D是业务报表数据。因此正确答案为A。87.在大数据处理中,ApacheSpark相比HadoopMapReduce的主要性能优势在于?

A.基于内存计算,减少磁盘IO操作

B.支持更强的批处理能力

C.原生支持分布式存储

D.仅适用于实时流处理场景【答案】:A

解析:本题考察Spark与MapReduce的技术对比。Spark的核心设计是内存计算,通过将数据缓存在内存中进行计算,避免了MapReduce中大量的磁盘IO操作,尤其在迭代计算(如机器学习)中效率显著提升。B错误:两者均支持批处理,MapReduce本身就是经典的批处理框架;C错误:分布式存储由HDFS提供,并非Spark的优势;D错误:Spark既支持批处理(SparkCore)也支持流处理(SparkStreaming),且“仅适用于”表述错误。因此正确答案为A。88.Hive的元数据(Metadata)默认存储在哪个组件中?

A.HDFS

B.HBase

C.Derby

D.MySQL【答案】:C

解析:本题考察Hive元数据存储。Hive默认使用内嵌式Derby数据库存储元数据(表结构、分区信息等),适合单机测试场景。A选项HDFS是数据存储层,非元数据存储;B选项HBase是NoSQL数据库,与Hive元数据无关;D选项MySQL是可选的外部元数据存储(需手动配置)。因此正确答案为C。89.星型模型是数据仓库维度建模的典型结构,其核心特点是?

A.中心为事实表,周围环绕维度表

B.中心为维度表,周围环绕事实表

C.仅包含单一事实表,无维度表

D.包含多个独立事实表【答案】:A

解析:本题考察星型模型的结构定义,正确答案为A。星型模型以事实表为中心,事实表存储度量值(如销售额、数量),周围环绕多个维度表(如时间、产品、地区),维度表通过外键关联事实表;维度表在中心的是雪花模型的特点,单一表或多事实表均不符合星型模型定义。90.下列关于ApacheSpark的描述,正确的是?

A.基于磁盘的计算框架,仅支持批处理

B.SparkStreaming采用微批处理模型处理流数据

C.不支持迭代计算,需重复读取数据

D.仅支持Java语言开发【答案】:B

解析:Spark是内存计算框架,支持批处理与流处理。选项A错误,Spark基于内存计算,且SparkStreaming支持实时流处理;选项B正确,SparkStreaming通过将流数据分割为小批量(微批)进行处理,是其核心流处理模型;选项C错误,Spark通过RDD持久化和内存缓存支持高效迭代计算;选项D错误,Spark支持Scala、Java、Python、R等多种编程语言。因此答案为B。91.以下哪种流处理框架以低延迟和“精确一次”(Exactly-Once)语义为主要特点?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafka【答案】:B

解析:本题考察流处理框架特性。ApacheFlink是专为流处理设计的框架,支持亚秒级低延迟和“精确一次”语义(确保数据仅处理一次)。A选项SparkStreaming基于微批处理,延迟较高且语义为“至少一次”;C选项Storm实时性好但缺乏精确语义;D选项Kafka是消息队列,非流处理框架。因此正确答案为B。92.ETL与ELT的核心区别在于数据转换发生的阶段,正确描述是?

A.ETL先转换后加载,ELT先加载后转换

B.ETL先加载后转换,ELT先转换后加载

C.两者转换阶段完全相同

D.ETL适用于结构化数据,ELT适用于非结构化数据【答案】:A

解析:本题考察ETL/ELT流程知识点。正确答案为A,ETL(Extract-Transform-Load)的流程是先提取数据,经过转换后再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,后者更适合大数据量场景,可利用目标系统的分布式计算能力。错误选项解释:B选项混淆了ETL和ELT的顺序;C选项两者转换阶段不同;D选项转换阶段与数据结构无关,仅与目标系统计算能力有关。93.以下哪项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(开源集群计算框架)

D.YARN(资源管理器)【答案】:C

解析:本题考察Hadoop生态系统的核心组件知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),三者共同构成了Hadoop的基础架构。而Spark是独立的开源集群计算框架,虽常与Hadoop结合使用,但不属于Hadoop生态系统的核心组件。因此正确答案为C。94.MongoDB数据库采用的是哪种类型的NoSQL数据模型?

A.文档型

B.键值型

C.列族型

D.图数据库【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB以类JSON的文档(Document)形式存储数据,属于文档型数据库;键值型数据库(如Redis)以键值对存储;列族型数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构存储实体关系。因此正确答案为A。95.以下哪项不属于大数据的典型特征?

A.高容量(Volume)

B.高速度(Velocity)

C.高价值密度(ValueDensity)

D.真实性(Veracit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论