2026年大数据技术能力检测卷包及完整答案详解【考点梳理】_第1页
2026年大数据技术能力检测卷包及完整答案详解【考点梳理】_第2页
2026年大数据技术能力检测卷包及完整答案详解【考点梳理】_第3页
2026年大数据技术能力检测卷包及完整答案详解【考点梳理】_第4页
2026年大数据技术能力检测卷包及完整答案详解【考点梳理】_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力检测卷包及完整答案详解【考点梳理】1.在大数据处理中,ApacheSpark相比HadoopMapReduce的主要性能优势在于?

A.基于内存计算,减少磁盘IO操作

B.支持更强的批处理能力

C.原生支持分布式存储

D.仅适用于实时流处理场景【答案】:A

解析:本题考察Spark与MapReduce的技术对比。Spark的核心设计是内存计算,通过将数据缓存在内存中进行计算,避免了MapReduce中大量的磁盘IO操作,尤其在迭代计算(如机器学习)中效率显著提升。B错误:两者均支持批处理,MapReduce本身就是经典的批处理框架;C错误:分布式存储由HDFS提供,并非Spark的优势;D错误:Spark既支持批处理(SparkCore)也支持流处理(SparkStreaming),且“仅适用于”表述错误。因此正确答案为A。2.在分布式数据库中,用于保证数据一致性的经典算法是?

A.Paxos算法

B.Kafka分区机制

C.HBase存储模型

D.MapReduce计算框架【答案】:A

解析:本题考察分布式系统一致性算法。Paxos算法是分布式一致性协议的经典代表,用于解决多副本节点间的数据一致性问题(如ZooKeeper、分布式数据库等场景)。选项B错误,Kafka分区机制是基于分区复制实现高可用,不直接解决一致性;选项C错误,HBase是列式存储数据库,依赖底层HDFS,自身不提供一致性算法;选项D错误,MapReduce是计算模型,与一致性算法无关。3.以下哪项不属于数据质量的核心维度?

A.准确性

B.完整性

C.安全性

D.及时性【答案】:C

解析:本题考察数据质量的关键要素。数据质量的核心维度包括准确性(数据真实反映业务)、完整性(无缺失值)、及时性(数据时效性)、一致性(多源数据一致)等;A、B、D均属于数据质量维度。C选项“安全性”属于数据安全范畴(如数据加密、权限控制),与数据质量维度无关。因此正确答案为C。4.以下哪种算法属于无监督学习?

A.K-means聚类算法

B.支持向量机(SVM)分类算法

C.线性回归预测算法

D.决策树分类算法【答案】:A

解析:本题考察机器学习算法类型。无监督学习无需标签数据,通过数据内在特征分组。K-means是典型无监督聚类算法,通过距离度量划分数据簇。支持向量机(SVM)、线性回归、决策树均需标注数据(如类别标签或数值目标),属于监督学习。正确答案为A。5.数据仓库(DataWarehouse)的核心特点是?

A.面向操作处理(OLTP)

B.数据随时间累积与变化(时变性)

C.支持实时事务处理

D.仅存储当前最新数据【答案】:B

解析:本题考察数据仓库的核心特性。数据仓库是用于决策支持的集成数据集合,其核心特点包括:面向主题、集成性、非易失性(数据不轻易修改)、时变性(历史数据随时间累积)。选项A错误,面向操作处理是联机事务处理(OLTP)的特点;选项C错误,数据仓库侧重历史数据分析,不支持实时事务;选项D错误,数据仓库存储历史数据而非仅当前数据。因此正确答案为B。6.大数据处理中,ETL与ELT的核心区别是?

A.数据转换与数据加载的执行顺序不同

B.数据存储位置(内存/磁盘)不同

C.数据处理的并发度不同

D.仅ETL支持增量更新,ELT不支持【答案】:A

解析:本题考察数据集成流程的技术差异。ETL(Extract-Transform-Load)是先提取数据,转换后再加载到目标库;ELT(Extract-Load-Transform)是先将原始数据加载到目标库,再在目标库中完成转换。选项B(存储位置)非核心区别;选项C(并发度)与技术类型相关,非ETL/ELT的本质差异;选项D错误,ELT也支持增量更新。7.MongoDB数据库采用的是哪种类型的NoSQL数据模型?

A.文档型

B.键值型

C.列族型

D.图数据库【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB以类JSON的文档(Document)形式存储数据,属于文档型数据库;键值型数据库(如Redis)以键值对存储;列族型数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构存储实体关系。因此正确答案为A。8.以下哪种数据库类型通常用于存储半结构化数据,支持灵活的模式,并且适合存储文档、JSON等格式的数据?

A.关系型数据库(如MySQL)

B.键值型数据库(如Redis)

C.文档型数据库(如MongoDB)

D.列族型数据库(如HBase)【答案】:C

解析:本题考察NoSQL数据库类型的特点知识点。文档型数据库(如MongoDB)以“文档”为基本存储单元,支持类似JSON的半结构化数据格式,每个文档可包含不同字段,模式灵活,适合存储博客文章、产品详情等非严格结构化数据。关系型数据库(A)依赖固定表结构和SQL语言,数据格式严格;键值型数据库(B)仅存储“键-值”对,结构最简单;列族型数据库(D)(如HBase)适合海量结构化数据(如时序数据、日志数据),按列族组织数据,不适合半结构化文档。因此正确答案为C。9.以下哪种NoSQL数据库类型最适合存储和处理具有高并发读写需求的社交平台用户行为数据(如点赞、评论)?

A.键值对数据库(Key-ValueStore)

B.列族数据库(Column-FamilyStore)

C.文档数据库(DocumentStore)

D.图数据库(GraphDatabase)【答案】:A

解析:本题考察NoSQL数据库的类型与应用场景。键值对数据库(如Redis)通过简单键值映射支持极高并发读写,适合存储结构化、非结构化且访问模式简单的数据。正确答案为A。错误选项分析:B选项错误,列族数据库(如HBase)更适合海量数据列级查询;C选项错误,文档数据库(如MongoDB)并发性能弱于键值对;D选项错误,图数据库(如Neo4j)适合复杂实体关系查询(如社交网络)。10.Spark中的RDD(弹性分布式数据集)最核心的特性是?

A.可变性(允许直接修改数据)

B.不可变性(数据创建后不可修改)

C.分布式存储在磁盘而非内存

D.仅支持单次迭代计算【答案】:B

解析:本题考察SparkRDD的核心特性,正确答案为B。RDD通过不可变性保证数据一致性和容错性:数据创建后不可修改,修改需生成新RDD,旧RDD的“血统(Lineage)”记录支持故障恢复。错误选项分析:A选项违背RDD不可变原则;C选项错误,RDD优先内存存储以提升性能;D选项错误,RDD支持多次转换和迭代计算。11.以下关于HDFS的描述,正确的是?

A.默认数据块副本数为3

B.数据块大小固定为128MB

C.HDFS不支持跨机架副本存储

D.NameNode直接存储实际数据块【答案】:A

解析:本题考察HDFS核心特性。A正确:HDFS默认数据块副本数为3,用于容错和高可用性;B错误:HDFS数据块大小在不同版本中可能调整(如旧版本64MB,新版本128MB),非固定值;C错误:HDFS支持机架感知,默认副本分布在不同机架以提升可靠性;D错误:NameNode仅存储元数据(如文件路径、块位置),实际数据块存储在DataNode。12.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能,正确答案为A。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,均不负责文件存储。13.在NoSQL数据库中,适合存储具有复杂嵌套结构(如用户多属性、日志多字段)且需要灵活查询的场景的数据库类型是?

A.文档型数据库

B.列族型数据库

C.键值型数据库

D.图数据库【答案】:A

解析:文档型数据库(如MongoDB)以文档(通常为JSON/BSON格式)为基本存储单元,天然支持复杂嵌套结构,可灵活存储和查询文档内的字段,适合存储用户信息、日志等半结构化数据。列族型数据库(如HBase)适合结构化的行列数据,如时序数据或高维稀疏矩阵;键值型数据库(如Redis)仅支持简单的键值对存储,结构单一;图数据库(如Neo4j)专注于存储和查询实体间的关系,不适合复杂嵌套结构。因此正确答案为A。14.以下哪项是Hadoop生态系统中负责分布式存储的核心组件?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:A

解析:本题考察Hadoop核心组件的功能,正确答案为A。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式存储的核心组件,通过将文件分割成块并分布在多个节点上实现高容错和高吞吐量。MapReduce是基于Map和Reduce的分布式计算框架,YARN负责集群资源的分配与管理,Hive则是基于Hadoop的数据仓库工具,用于数据仓库构建和查询。15.在Hadoop生态系统中,负责存储海量分布式数据的核心组件是?

A.Hive(数据仓库工具)

B.HDFS(分布式文件系统)

C.MapReduce(分布式计算框架)

D.YARN(资源管理器)【答案】:B

解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,通过多副本机制保障数据可靠性;Hive是基于Hadoop的数据仓库工具,用于数据查询与分析;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度。因此存储数据的核心组件是HDFS,正确答案为B。16.在大数据处理流程中,数据清洗的核心目的是?

A.去除数据中的重复记录

B.处理数据中的缺失值和异常值

C.提高数据质量,保证后续分析结果的准确性

D.对数据进行标准化和归一化处理【答案】:C

解析:本题考察数据清洗的核心目的。数据清洗是处理原始数据质量问题的关键步骤,包括去重、补全、异常处理等操作,其核心目的是提升数据质量,确保分析结果可靠。选项A、B、D均为数据清洗的具体手段,而非最终目的。因此正确答案为C。17.MongoDB数据库按数据模型分类,属于以下哪种NoSQL类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库的分类及典型代表。MongoDB以BSON(BinaryJSON)格式存储半结构化文档数据,支持嵌套字段和灵活的模式设计,属于文档型数据库。A错误,键值型数据库(如Redis)仅存储简单键值对,无嵌套结构;C错误,列族型数据库(如HBase)按列族组织数据,适用于海量结构化数据(如时序数据);D错误,图数据库(如Neo4j)以节点和边存储关系数据,与MongoDB的文档模型无关。18.MongoDB属于哪种类型的NoSQL数据库?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:MongoDB以“文档”(类似JSON)为基本存储单元,属于文档型数据库。A选项键值型如Redis,以键值对存储;C选项列族型如HBase,按列族组织数据;D选项图数据库如Neo4j,以图结构存储节点和关系。19.在Hadoop分布式文件系统(HDFS)中,为保证数据可靠性和容错性,文件块(Block)的默认副本存储策略是?

A.仅存储在本地节点,避免跨节点冗余

B.优先存储在同机架的多个节点,最后跨机架节点

C.优先存储在本地机架节点,其次同机架不同节点,最后跨机架节点

D.默认存储在3个不同的随机节点,不考虑机架位置【答案】:C

解析:本题考察HDFS副本存储策略知识点。HDFS为防止单点故障(如机架断电或节点故障),默认将文件块副本分布在不同物理位置:优先存储在本地节点(减少网络传输),其次同机架其他节点(利用机架内带宽),最后跨机架节点(避免同机架整体故障)。选项A仅本地存储会导致单点故障;选项B未明确本地优先;选项D随机跨机架无法保证同机架内的冗余,故正确答案为C。20.数据仓库(DataWarehouse)的核心特征不包括以下哪项?

A.面向主题

B.集成性

C.实时性

D.非易失性【答案】:C

解析:数据仓库的核心特征包括:面向主题(围绕业务主题组织数据)、集成性(整合多源数据并消除冲突)、非易失性(数据仅追加不修改,用于历史分析)、时变性(数据随时间积累,反映历史趋势)。“实时性”是OLTP系统(联机事务处理)的典型特征,数据仓库主要用于离线分析和历史趋势挖掘,不强调实时性,因此答案为C。21.Hadoop生态系统中,负责资源管理、调度和集群资源分配的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x及以上版本的核心组件,负责集群资源(CPU、内存等)的管理和作业调度;HDFS是分布式存储系统,MapReduce是分布式计算框架,Hive是基于Hadoop的数据仓库工具,因此A、B、D错误。22.在数据仓库建设中,‘先将数据加载到目标数据库,再进行数据转换和清洗’的流程是以下哪种?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL与ELT的混合流程

D.仅适用于关系型数据库的ETL流程【答案】:B

解析:本题考察ETL与ELT的流程差异。ELT(Extract-Load-Transform)的核心是先加载原始数据到目标存储,再在目标系统中完成转换清洗。正确答案为B。错误选项分析:A选项错误,ETL是先转换再加载;C选项错误,题干描述为单一流程而非混合;D选项错误,ELT同样适用于关系型数据库(如Snowflake等工具)。23.以下哪种数据库类型适合存储半结构化数据且支持灵活的文档结构?

A.HBase(列族数据库)

B.MongoDB(文档型数据库)

C.Redis(键值型数据库)

D.MySQL(关系型数据库)【答案】:B

解析:本题考察不同NoSQL数据库的适用场景。MongoDB是典型的**文档型数据库**,以JSON/BSON格式存储半结构化数据,支持灵活的文档结构(字段可动态扩展)。选项A的HBase是列族数据库,基于HDFS,适合结构化数据的随机读写和海量存储;选项C的Redis是键值型数据库,以键值对存储,适合高频访问的简单数据;选项D的MySQL是关系型数据库,基于表结构,不适合半结构化数据的灵活扩展。因此正确答案为B。24.以下哪项不属于Hadoop2.x的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:D

解析:本题考察Hadoop核心组件的识别。Hadoop2.x的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce和资源管理器YARN。Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询,属于Hadoop生态系统的扩展工具而非核心组件。因此正确答案为D。25.在数据仓库的维度建模中,以下哪种模型的事实表通常与多个维度表通过外键关联,且每个维度表结构相对简单,类似于星星的形状?

A.星型模型

B.雪花模型

C.星座模型

D.星环模型【答案】:A

解析:本题考察数据仓库维度建模的知识点。星型模型是维度建模的经典结构,其特点是事实表位于中心,与多个维度表直接关联,每个维度表结构简单(如只包含维度属性和主键),整体呈现类似“星星”的形状。雪花模型是星型模型的扩展,维度表可能进一步分解为子维度表(如将“地区”维度表拆分为“国家-省-市”多级结构),结构更复杂;星座模型是多个星型模型共享事实表的组合模型;数据仓库中无“星环模型”这一标准术语。因此正确答案为A。26.数据治理中,元数据管理的核心作用不包括以下哪项?

A.实现数据血缘追踪,记录数据流转路径

B.校验数据质量,识别异常值和缺失值

C.辅助数据安全审计,明确数据访问权限

D.转换数据存储格式,优化数据存储效率【答案】:D

解析:元数据管理的核心是“描述数据的数据”,主要作用包括:记录数据血缘(A正确),帮助理解数据来源和流转;支持数据质量校验(B正确,如通过元数据中的字段定义、业务规则校验数据有效性);辅助数据安全审计(C正确,通过元数据中的数据敏感级别、访问权限配置实现审计)。而数据存储格式转换属于ETL/数据处理工具的功能,元数据仅描述数据结构和来源,不负责执行格式转换操作。因此正确答案为D。27.大数据的核心特征不包括以下哪一项?

A.Veracity

B.Volume

C.Velocity

D.Variety【答案】:A

解析:本题考察大数据的核心特征知识点。大数据的核心特征通常指“4V”:Volume(数据容量大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Value(数据蕴含价值)。选项A的Veracity(真实性)并非大数据的核心特征,因此正确答案为A。选项B、C、D均为大数据的核心特征,故排除。28.下列哪个大数据处理框架主要用于实时流数据处理?

A.Flink

B.SparkSQL

C.HBase

D.Hive【答案】:A

解析:本题考察主流大数据处理框架的应用场景。ApacheFlink是专为实时流数据处理设计的开源框架,支持低延迟、高吞吐的流处理任务,适合实时分析场景。SparkSQL(B选项)是基于Spark的SQL查询工具,侧重批处理和交互式查询;HBase(C选项)是NoSQL分布式数据库,用于存储海量结构化数据;Hive(D选项)是基于Hadoop的数据仓库工具,用于批处理分析。因此正确答案为A。29.在大数据ETL/ELT流程中,‘先加载后转换(ELT)’模式的核心优势是?

A.减少数据传输量,适合跨地域数据仓库

B.转换逻辑在数据源端完成,降低目标系统负载

C.支持实时数据转换,无需批处理窗口

D.仅适用于结构化数据,对非结构化数据兼容性差【答案】:A

解析:本题考察ETL/ELT流程差异。ELT(Extract-Load-Transform)是先将原始数据加载到目标系统(如数据仓库),再在目标系统中执行转换。其核心优势是利用目标系统的计算资源(如MPP数据库的并行能力),减少数据传输量(尤其适合跨地域/高带宽成本场景)。选项B错误(转换在目标系统,非数据源);选项C错误(ELT本质仍是批处理,实时需流处理框架);选项D错误(ELT兼容半结构化数据,如JSON文档)。30.下列关于数据湖的描述,错误的是

A.数据湖可存储结构化、半结构化和非结构化数据

B.数据湖通常采用ELT(提取-加载-转换)流程处理数据

C.数据湖的核心目标是存储原始数据并支持灵活分析

D.数据湖仅支持面向分析的结构化数据存储,与数据仓库无本质区别【答案】:D

解析:本题考察数据湖与数据仓库的核心区别知识点。数据湖与数据仓库的本质区别在于:数据湖支持存储结构化、半结构化、非结构化等全类型原始数据,而数据仓库以结构化数据为主。选项A、B、C均符合数据湖的特性(支持全类型数据、ELT流程、原始数据存储与分析);选项D错误,数据湖与数据仓库的核心区别在于存储数据类型和处理目标,数据湖并非仅支持结构化数据,且与数据仓库定位不同。故正确答案为D。31.Hadoop生态系统中负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式数据存储的核心组件,采用块(Block)形式存储海量数据并支持高容错性。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于管理集群元数据和协调分布式任务。因此正确答案为A。32.Spark的核心计算引擎是什么,负责内存计算和批处理任务的调度?

A.SparkCore

B.Flink

C.HadoopMapReduce

D.KafkaStreams【答案】:A

解析:本题考察Spark的核心架构。SparkCore是Spark的基础计算引擎,基于内存优化实现高效的RDD(弹性分布式数据集)操作,支持批处理和迭代计算;Flink是独立的流批一体框架;HadoopMapReduce是基于磁盘的分布式计算框架;KafkaStreams是消息队列Kafka的流处理库。因此正确答案为A。33.SparkStreaming的核心执行模型是?

A.微批处理(Micro-batchProcessing)

B.实时流处理(Real-timeStreamProcessing)

C.批处理(BatchProcessing)

D.内存计算(In-memoryComputing)【答案】:A

解析:本题考察流处理框架特性。SparkStreaming基于微批处理模型,将数据流按固定时间窗口(如1秒)分割为微批数据,以批处理方式执行计算;Flink支持真正的实时流处理(B),MapReduce等属于传统批处理(C),内存计算(D)是Spark的通用特性,非流处理模型核心。因此正确答案为A。34.ApacheHadoop生态系统中的HDFS(HadoopDistributedFileSystem)主要负责什么核心功能?

A.分布式数据存储

B.分布式计算任务调度

C.数据仓库建模与查询

D.实时流数据处理与分析【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS是分布式文件系统,专为存储海量数据设计,提供高容错性和高吞吐量的分布式存储能力,因此A正确。B是YARN(资源管理器)的核心功能;C是Hive等数据仓库工具的功能;D是SparkStreaming、Flink等流处理框架的应用场景。35.以下哪项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(开源集群计算框架)

D.YARN(资源管理器)【答案】:C

解析:本题考察Hadoop生态系统的核心组件知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),三者共同构成了Hadoop的基础架构。而Spark是独立的开源集群计算框架,虽常与Hadoop结合使用,但不属于Hadoop生态系统的核心组件。因此正确答案为C。36.HDFS默认情况下,一个数据块的副本数量是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错能力,默认每个数据块存储3个副本,分别放置在本地节点、同机架其他节点和不同机架节点,以应对节点或机架故障。选项A(1个副本)易因单点故障丢失数据;选项B(2个副本)在机架故障时可能丢失数据;选项D(4个副本)冗余度过高,会浪费存储资源。37.在实时流处理系统中,Kafka的主要作用是?

A.提供分布式计算能力

B.存储实时计算结果

C.作为数据源接收和转发实时数据流

D.负责数据的持久化存储【答案】:C

解析:本题考察实时流处理系统中Kafka的角色。A选项错误,分布式计算能力由Flink、SparkStreaming等框架提供;B选项错误,实时计算结果通常存储于HBase、Redis等存储系统,Kafka不直接负责结果存储;C选项正确,Kafka是高吞吐量消息队列,作为流处理系统的核心数据源,负责接收、存储和转发实时数据流,实现上下游系统的解耦;D选项错误,Kafka虽支持消息持久化,但核心作用是数据传输而非通用持久化存储。因此正确答案为C。38.在ETL数据处理流程中,‘L’代表的步骤是?

A.提取(Extract)

B.转换(Transform)

C.加载(Load)

D.清洗(Cleanse)【答案】:C

解析:本题考察ETL流程的核心步骤。ETL全称为Extract(提取)→Transform(转换)→Load(加载),其中‘L’对应加载步骤,即将转换后的数据导入目标系统(如数据仓库)。选项A是‘E’步骤,选项B是‘T’步骤,选项D(清洗)属于转换步骤的子过程,非ETL标准步骤名称。39.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-Family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以JSON格式存储数据,属于文档型数据库(DocumentDatabase),通过键值对组织文档结构。选项A(键值型)典型代表为Redis、RocksDB;选项B(列族型)典型代表为HBase、Cassandra;选项D(图型)典型代表为Neo4j,用于存储复杂关系网络。40.关于Spark中RDD(弹性分布式数据集)的特性,描述错误的是?

A.RDD具有不可变性

B.RDD支持分区操作

C.RDD的转换操作是延迟执行的

D.RDD必须在内存中进行计算【答案】:D

解析:本题考察SparkRDD的核心特性。RDD是Spark的基础抽象,具有不可变性(A正确)、可分区(B正确)、转换操作惰性执行(仅在动作操作触发时计算,C正确);RDD支持内存和磁盘混合存储,当内存不足时会自动落盘,并非“必须在内存中进行”,D错误。41.Hadoop分布式文件系统(HDFS)的核心组件不包括以下哪一项?

A.NameNode

B.DataNode

C.ResourceManager

D.SecondaryNameNode【答案】:C

解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(元数据备份)。而ResourceManager是YARN(YetAnotherResourceNegotiator)的核心组件,负责资源调度和集群管理,不属于HDFS。42.Spark相比MapReduce的主要性能优势体现在?

A.采用内存计算,减少磁盘IO开销

B.仅支持批处理任务,不支持流处理

C.依赖HDFS存储所有中间结果

D.无法处理非结构化数据【答案】:A

解析:本题考察Spark与MapReduce的技术对比知识点。Spark的核心优势是基于内存计算(In-MemoryComputing),可将中间结果暂存于内存而非频繁读写磁盘,大幅降低IO延迟。选项B错误,SparkStreaming支持实时流处理;选项C错误,Spark可通过内存缓存或外部存储(如Redis)存储中间结果,并非必须依赖HDFS;选项D错误,Spark支持JSON、XML等非结构化数据处理。43.下列哪个大数据流处理框架支持毫秒级低延迟的精确一次(Exactly-Once)语义?

A.SparkStreaming

B.ApacheFlink

C.KafkaStreams

D.StormSpout【答案】:B

解析:本题考察流处理框架核心特性。正确答案为B,ApacheFlink是专为流处理设计的框架,通过Checkpoint机制和状态管理,天然支持毫秒级低延迟和精确一次语义,能保证数据处理的准确性和一致性。错误选项解释:A选项SparkStreaming基于微批处理,延迟通常为秒级,精确一次语义需依赖外部存储;C选项KafkaStreams是基于Kafka的流处理API,虽支持流处理,但精确一次语义需结合Kafka的事务特性,且框架本身不直接提供毫秒级低延迟;D选项Spout是Storm的组件,仅负责数据接入,非完整流处理框架。44.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责在多节点集群中存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此正确答案为A。45.以下哪种数据库类型适合存储半结构化数据(如JSON/XML文档),并支持灵活的模式设计?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.键值型数据库(如Redis)

D.列族型数据库(如HBase)【答案】:B

解析:本题考察NoSQL数据库类型知识点。关系型数据库(A)基于表结构,模式固定;文档型数据库(B)以JSON/文档为基本单元,支持动态字段和灵活模式;键值型(C)仅存储键值对,结构简单;列族型(D)适合高维稀疏数据(如时序数据)。半结构化数据(如嵌套JSON)需灵活模式,故正确答案为B。46.一致性哈希算法在分布式系统中的主要优势是?

A.避免因节点变化导致的大规模数据迁移

B.提供强一致性保障,确保数据绝对一致

C.显著提高哈希函数的计算速度

D.自动修复数据冗余和副本丢失问题【答案】:A

解析:一致性哈希通过环形空间和虚拟节点减少节点变化时的数据迁移量,仅影响相邻节点的数据;B错误,一致性哈希不保证强一致性(如Paxos/Raft);C错误,哈希计算速度与算法本身复杂度有关,非一致性哈希的核心优势;D错误,数据冗余和副本修复通常由副本机制或分布式存储系统(如HDFS副本)实现。47.在数据治理中,用于记录数据从产生到消费全生命周期流转路径的元数据属于?

A.技术元数据(描述数据存储位置、格式等)

B.业务元数据(描述数据业务含义、术语等)

C.操作元数据(描述数据访问频率、更新规则等)

D.血缘元数据(数据血缘关系元数据)【答案】:D

解析:数据血缘元数据专门记录数据的来源、转换、加工和使用过程,即全生命周期流转路径;A技术元数据侧重存储技术细节;B业务元数据侧重业务上下文;C操作元数据侧重数据使用和质量规则;因此D为正确答案。48.以下哪种流处理框架以低延迟和“精确一次”(Exactly-Once)语义为主要特点?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafka【答案】:B

解析:本题考察流处理框架特性。ApacheFlink是专为流处理设计的框架,支持亚秒级低延迟和“精确一次”语义(确保数据仅处理一次)。A选项SparkStreaming基于微批处理,延迟较高且语义为“至少一次”;C选项Storm实时性好但缺乏精确语义;D选项Kafka是消息队列,非流处理框架。因此正确答案为B。49.MongoDB作为NoSQL数据库的典型代表,其数据模型属于哪种类型?

A.关系型数据库

B.文档型数据库

C.键值对数据库

D.列族型数据库【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB以JSON格式的文档(Document)为基本数据单元,属于文档型数据库。关系型数据库(A)如MySQL以表和行存储;键值对数据库(C)如Redis以键值对存储;列族型数据库(D)如HBase以列族组织数据。因此正确答案为B。50.关于ApacheFlink的特性,以下描述正确的是?

A.仅支持流处理,不支持批处理

B.基于磁盘存储状态数据

C.支持有状态的流处理

D.无法处理事件时间窗口数据【答案】:C

解析:本题考察Flink的核心能力。Flink是流批一体的计算框架,支持有状态流处理(如窗口计算、状态聚合)。选项A错误,Flink通过统一执行引擎支持批处理;选项B错误,Flink优先使用内存存储状态数据,仅在必要时落盘;选项D错误,Flink支持事件时间窗口(EventTime)和处理时间窗口(ProcessingTime)。51.MongoDB数据库属于以下哪种类型的数据库?

A.关系型数据库(如MySQL、Oracle)

B.列族型数据库(如HBase)

C.文档型数据库(如JSON格式存储)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察主流数据库类型分类,正确答案为C。MongoDB以类似JSON(BSON)的文档格式存储数据,支持灵活模式,适合非结构化/半结构化数据。错误选项分析:A选项关系型数据库以表结构和SQL查询为核心;B选项列族型数据库(如HBase)强调列级存储;D选项图数据库(如Neo4j)以节点和关系为核心,均与MongoDB模型不同。52.ETL与ELT的核心区别在于数据转换发生的阶段,正确描述是?

A.ETL先转换后加载,ELT先加载后转换

B.ETL先加载后转换,ELT先转换后加载

C.两者转换阶段完全相同

D.ETL适用于结构化数据,ELT适用于非结构化数据【答案】:A

解析:本题考察ETL/ELT流程知识点。正确答案为A,ETL(Extract-Transform-Load)的流程是先提取数据,经过转换后再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,后者更适合大数据量场景,可利用目标系统的分布式计算能力。错误选项解释:B选项混淆了ETL和ELT的顺序;C选项两者转换阶段不同;D选项转换阶段与数据结构无关,仅与目标系统计算能力有关。53.在Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本因子为3,目的是通过多副本实现数据容错(如某节点故障时可从其他节点读取副本)。选项A(1)为单副本,仅适用于特殊场景且非默认;选项B(2)可能在特定配置中使用,但非HDFS默认值;选项D(4)会大幅增加存储成本,不符合HDFS默认设计目标。54.与MapReduce相比,Spark的主要优势在于?

A.仅支持批处理任务

B.基于内存计算,速度更快

C.不需要集群资源即可运行

D.只能处理结构化数据【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的核心优势是基于内存计算(内存存储数据),避免了MapReduce中频繁的磁盘IO操作,因此处理速度更快。选项A错误,Spark同时支持批处理和流处理(StructuredStreaming);选项C错误,Spark运行仍需集群资源;选项D错误,Spark支持结构化、半结构化和非结构化数据处理。因此正确答案为B。55.以下哪项不属于大数据的5V特征?

A.Volume

B.Velocity

C.Variety

D.Storage【答案】:D

解析:大数据的5V特征是指Volume(数据量巨大)、Velocity(数据产生与处理速度快)、Variety(数据类型多样,含结构化、半结构化、非结构化数据)、Veracity(数据真实性与准确性)、Value(数据价值密度低但潜在价值高)。选项A、B、C均为5V特征中的核心要素,而D选项“Storage(存储)”并非5V特征之一,因此答案为D。56.大数据的哪个特征强调数据产生和处理的速度快,通常要求毫秒级甚至亚秒级响应?

A.Volume(数据量大)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Veracity(数据准确性)【答案】:B

解析:本题考察大数据5V特征的概念。大数据特征中,Velocity(速度)特指数据产生和处理的速度快,实时性要求高,通常需毫秒级甚至亚秒级响应。A选项Volume指数据量庞大,通常以PB/EB级衡量;C选项Variety指数据类型多样(结构化、半结构化、非结构化);D选项Veracity指数据的准确性和可信度,用于保障分析结果可靠。因此正确答案为B。57.下列哪种存储模型是HBase采用的核心数据模型?

A.行式存储模型

B.列式存储模型

C.文档型存储模型

D.键值对存储模型【答案】:B

解析:本题考察HBase的存储特性。HBase是基于HDFS的分布式列族数据库,采用列式存储模型(按列族组织数据),支持高维度数据压缩和稀疏数据存储(如物联网传感器数据)。A错误:行式存储(如MySQL)按行组织数据,适合事务性查询;C错误:文档型存储(如MongoDB)以文档为单位存储结构化数据;D错误:键值对是HBase的访问接口(如通过RowKey定位),但核心存储模型是列式(列族)。因此正确答案为B。58.HDFS(Hadoop分布式文件系统)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的基础配置知识点。HDFS为提高数据可靠性和容错能力,默认将每个文件块复制3份存储在不同节点,当一个节点故障时仍能通过其他副本恢复数据。选项A(1)仅1份数据,容错能力极低;选项B(2)冗余度不足,故障恢复概率较高;选项D(4)会导致过多磁盘空间浪费,超出默认冗余需求。59.HDFS分布式文件系统中,默认的块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基本特性。HDFS(Hadoop分布式文件系统)的块大小是可配置的,默认情况下,Hadoop2.x及以上版本的块大小为128MB,这一设计可降低寻址时间、优化并行处理效率。选项A(64MB)是HDFS1.x的默认块大小,选项C、D均非HDFS默认块大小。因此正确答案为B。60.Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,支持高容错、高吞吐量的文件存储;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。61.在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大规模数据存储设计,通过多副本机制保证数据可靠性和高容错性。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,提供SQL查询接口。因此正确答案为A。62.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库的分类。MongoDB以BSON(二进制JSON)格式存储文档,属于文档数据库;键值对数据库(如Redis)以“键-值”对存储数据;列族数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以节点和边的关系存储数据。因此正确答案为C。63.在Flink流处理中,“处理时间(ProcessingTime)”与“事件时间(EventTime)”的核心区别是?

A.处理时间基于系统当前时间,事件时间基于数据自带的时间戳

B.处理时间仅用于批处理,事件时间仅用于流处理

C.处理时间是数据到达时的时间,事件时间是数据生成时的时间

D.处理时间需依赖窗口,事件时间无需依赖窗口【答案】:A

解析:本题考察Flink时间语义的核心概念。处理时间指数据在Flink系统中被处理的系统时间,事件时间指数据本身携带的业务时间戳(如订单创建时间)。错误选项分析:B选项错误,Flink同时支持流处理和批处理,且两种时间语义均适用;C选项错误,事件时间是数据生成时的时间,处理时间是系统处理时的时间,二者定义方向正确但选项表述未明确核心差异;D选项错误,Flink窗口计算既支持处理时间窗口也支持事件时间窗口,与时间语义无关。64.在数据仓库设计中,以下哪项通常属于事实表?

A.用户基本信息表(包含用户ID、姓名、年龄等属性)

B.订单明细表(包含订单ID、产品ID、购买数量、金额等)

C.产品类别表(包含类别ID、类别名称、父类别ID等)

D.用户地址表(包含用户ID、省、市、街道等)【答案】:B

解析:本题考察数据仓库中事实表与维度表的区别知识点,正确答案为B。事实表是记录业务事件的数据表,包含可度量值(如数量、金额)和关联维度的外键;订单明细表记录具体订单的购买信息(包含数量、金额等度量值),属于事实表。A、C、D均为描述性属性表(维度表),用于提供事实表的上下文(如用户基本信息描述订单中的用户)。因此选B。65.Spark相比MapReduce,其主要优势不包括以下哪项?

A.内存计算,减少磁盘I/O

B.支持DAG执行引擎,优化任务依赖

C.仅支持批处理计算

D.丰富的API生态(Scala/Python/Java等)【答案】:C

解析:本题考察Spark核心优势知识点。Spark的优势包括内存计算(减少磁盘I/O,提升速度)、DAG执行引擎(优化任务调度和依赖关系)、多语言API支持(Scala/Python/Java等);而Spark不仅支持批处理,还能通过SparkStreaming(微批处理)、StructuredStreaming(流处理)处理实时数据,因此“仅支持批处理计算”是错误描述。正确答案为C。66.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。67.关于Spark和Flink的技术特点,以下描述错误的是?

A.Spark是内存计算框架,支持批处理和流处理

B.Flink擅长低延迟、高吞吐的实时流处理

C.SparkStreaming采用微批处理模型,延迟较高

D.Flink仅支持流处理,无法处理批处理任务【答案】:D

解析:本题考察流处理与批处理框架的技术差异。选项A正确,Spark通过内存计算和DStream支持批处理(SparkSQL)和流处理(StructuredStreaming);选项B正确,Flink是流处理框架,以事件时间窗口和状态管理实现低延迟实时计算;选项C正确,SparkStreaming基于微批处理,典型延迟在秒级;选项D错误,Flink通过DataStreamAPI可同时支持流处理和批处理(将批处理视为有限流)。68.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是分布式计算框架,用于数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群管理。因此正确答案为A。69.在数据仓库的维度建模中,用于存储业务度量值(如销售额、订单量)的表是?

A.维度表

B.事实表

C.雪花表

D.星型表【答案】:B

解析:本题考察数据仓库的维度建模。事实表存储业务事件的度量值(如“订单金额”)和关联维度表的外键(如“客户ID”“产品ID”),描述业务过程的量化结果。选项A(维度表)存储描述事实表的属性(如时间、地区、客户详情);选项C(雪花表)和D(星型表)是维度表的设计形式(星型表为单层维度表,雪花表为多层维度表),非度量值存储表。70.ApacheSpark作为主流大数据处理框架,其核心优势主要体现在?

A.基于内存计算,执行速度快

B.必须依赖分布式文件系统存储数据

C.仅支持实时流处理,不支持批处理

D.只能在磁盘上进行数据计算【答案】:A

解析:Spark的核心特性是内存计算模型,通过缓存数据减少磁盘I/O,大幅提升处理速度;B选项Spark支持多种存储系统(HDFS、S3等),非必须依赖;C选项Spark既支持批处理(SparkBatch)也支持流处理(SparkStreaming);D选项Spark优先使用内存计算,仅在内存不足时落盘,并非“只能磁盘计算”。71.MapReduce框架的核心数据处理模型是什么?

A.仅支持文本格式

B.仅支持二进制格式

C.键值对(Key-Value)

D.列表结构【答案】:C

解析:本题考察MapReduce的工作原理。MapReduce的核心是将任务分解为Map(映射)和Reduce(归约)两个阶段,所有输入输出均以键值对(Key-Value)形式处理。选项A、B错误,因为MapReduce支持多种数据格式(如SequenceFile、Avro等),并非仅支持文本或二进制;选项D错误,列表结构无法满足MapReduce的并行计算模型需求。因此正确答案为C。72.以下哪项属于大数据实时数据采集工具?

A.Flume

B.Kafka

C.Hive

D.Sqoop【答案】:B

解析:本题考察大数据数据采集工具知识点。Kafka是分布式消息队列,专为实时数据流设计,支持高吞吐和低延迟的数据传输。A选项Flume侧重离线日志聚合;C选项Hive是数据仓库工具,用于批处理分析;D选项Sqoop是关系数据库与Hadoop间的批量数据导入工具。73.在大数据数据仓库构建中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的核心区别在于?

A.ETL在数据加载后进行转换,ELT在加载前转换

B.ETL先抽取、转换后加载,ELT先抽取、加载后转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL需实时处理,ELT支持批量处理【答案】:B

解析:ETL流程是抽取(Extract)→转换(Transform)→加载(Load),即先转换数据再写入目标系统;ELT则是抽取(Extract)→加载(Load)→转换(Transform),即先将原始数据加载到目标存储(如数据仓库),再在目标系统中进行转换。ELT因数据先入仓库,可减少数据传输量,更适合大数据场景;A选项描述颠倒;C选项两者均可处理结构化/半结构化数据;D选项两者均支持批处理,ELT更适合实时流数据场景。74.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。75.星型模型是数据仓库维度建模的典型结构,其核心特点是?

A.中心为事实表,周围环绕维度表

B.中心为维度表,周围环绕事实表

C.仅包含单一事实表,无维度表

D.包含多个独立事实表【答案】:A

解析:本题考察星型模型的结构定义,正确答案为A。星型模型以事实表为中心,事实表存储度量值(如销售额、数量),周围环绕多个维度表(如时间、产品、地区),维度表通过外键关联事实表;维度表在中心的是雪花模型的特点,单一表或多事实表均不符合星型模型定义。76.OLAP(联机分析处理)主要应用于以下哪种场景?

A.在线交易系统(如电商订单处理)

B.企业级数据分析与多维报表生成

C.实时监控传感器数据流

D.数据采集与清洗(ETL流程)【答案】:B

解析:本题考察数据仓库技术中OLAP的应用场景。OLAP通过多维分析、切片钻取等操作实现复杂业务分析,典型应用如财务报表、销售趋势分析等。选项A(在线交易)是OLTP(联机事务处理)的场景;选项C(实时监控)通常由流处理框架(如Flink)实现;选项D(数据采集)属于ETL流程中的Extract环节,与OLAP无关。77.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,具有高容错性和高吞吐量。MapReduce(B选项)是分布式计算框架,YARN(C选项)是资源管理器,Hive(D选项)是基于Hadoop的数据仓库工具,均不负责分布式文件存储。因此正确答案为A。78.在数据仓库的维度建模中,以下哪项是星型模型的核心特征?

A.事实表与多个维度表通过外键关联,且所有维度表围绕一个中心事实表展开

B.事实表与维度表是多对多关系

C.所有表都通过主键-外键关系形成严格的星型结构

D.仅包含一个事实表和一个维度表【答案】:A

解析:本题考察数据仓库维度建模的星型模型特征。星型模型的核心是存在一个中心事实表,多个维度表(如时间、地区维度)通过外键与事实表关联,维度表间无直接关联。正确答案为A。错误选项分析:B选项错误,星型模型中事实表与维度表是一对多关系;C选项错误,维度表间无主键-外键关联;D选项错误,星型模型包含一个事实表和多个维度表。79.与传统MapReduce相比,ApacheSpark的主要优势在于?

A.基于磁盘存储数据

B.内存计算,迭代效率高

C.仅支持批处理任务

D.适用于全量数据全场景处理【答案】:B

解析:本题考察Spark的核心特性。Spark采用内存计算模型,支持迭代式计算(如机器学习、图算法),相比MapReduce的磁盘IO操作大幅提升效率。选项A错误,Spark优先使用内存存储数据,仅在内存不足时落盘;选项C错误,Spark支持流处理(StructuredStreaming)和批处理;选项D错误,Spark更擅长内存计算和迭代任务,全量数据处理需结合具体场景选择框架。80.在MapReduce计算模型中,Map阶段的主要作用是?

A.将输入数据分割为键值对并进行初步转换

B.合并相同键的中间结果并输出最终结果

C.从分布式存储中读取原始数据并直接返回

D.实时聚合所有节点的计算结果【答案】:A

解析:本题考察MapReduce的核心计算流程。Map阶段负责将输入数据(如文本文件)分割为键值对(Key-ValuePair),通过用户定义的Map函数对每个键值对进行处理(如过滤、转换),输出中间结果。B选项是Reduce阶段的核心功能(合并相同键的中间值);C选项描述的是输入阶段(非Map阶段);D选项是Reduce阶段的聚合过程,非Map阶段。因此正确答案为A。81.大数据数据清洗中,处理数值型数据缺失值时最常用的方法是?

A.直接删除整行数据

B.使用均值/中位数填充

C.用众数填充

D.忽略缺失值不处理【答案】:B

解析:本题考察数据清洗技术。数值型数据缺失值常用均值、中位数或线性插值填充,以保留数据分布特征。选项A删除整行可能丢失大量信息;选项C众数用于类别型数据(如颜色、性别);选项D忽略会导致统计偏差,故正确答案为B。82.在数据挖掘中,K-Means算法属于以下哪种学习类型?

A.监督学习(SupervisedLearning)

B.无监督学习(UnsupervisedLearning)

C.半监督学习(Semi-SupervisedLearning)

D.强化学习(ReinforcementLearning)【答案】:B

解析:本题考察数据挖掘算法分类知识点。K-Means是典型的无监督聚类算法,核心是通过距离度量(如欧氏距离)将无标签数据自动划分成K个簇,无需人工标注样本标签。监督学习(A)需标签训练(如分类算法SVM);半监督学习(C)需少量标签+大量无标签数据,与K-Means无直接关联;强化学习(D)通过环境反馈优化策略,与聚类无关。故正确答案为B。83.下列关于数据仓库与数据湖的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖可存储结构化、半结构化和非结构化数据

B.数据仓库和数据湖均仅支持结构化数据存储

C.数据仓库和数据湖均需预先定义严格的数据模型

D.数据仓库适合实时分析,数据湖仅适合离线分析【答案】:A

解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向分析的结构化数据集合,需预先定义星型/雪花型模型;数据湖则存储原始数据(结构化、半结构化、非结构化),支持灵活扩展和按需建模。选项B错误,数据湖可存储非结构化数据(如日志、图片);选项C错误,数据湖无需预定义模型,适合原始数据存储;选项D错误,数据仓库和数据湖均可通过工具支持实时分析(如数据仓库+Flink、数据湖+Presto)。84.在Hadoop的MapReduce计算模型中,负责将Map阶段产生的中间结果进行分区、排序、合并等操作的阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Output阶段【答案】:B

解析:本题考察MapReduce执行流程知识点,正确答案为B。Map阶段负责并行处理输入数据生成中间键值对;Shuffle阶段是Map与Reduce之间的关键环节,核心功能是对中间结果进行分区、排序、合并等数据整理操作;Reduce阶段基于Shuffle结果执行聚合计算;Output阶段负责输出最终结果。因此选B。85.与HadoopMapReduce相比,ApacheSpark的主要优势不包括以下哪项?

A.内存计算

B.DAG执行引擎

C.支持迭代计算

D.优化磁盘IO密集型任务【答案】:D

解析:本题考察Spark与MapReduce的核心差异。Spark的优势包括:①内存计算(减少磁盘IO,提升速度);②DAG执行引擎(有向无环图优化任务依赖关系);③支持迭代计算(如机器学习场景,避免重复读写磁盘)。而MapReduce本身依赖磁盘IO(Map和Reduce阶段多次读写HDFS),Spark通过内存计算减少磁盘操作,因此“优化磁盘IO密集型任务”并非Spark的优势,反而MapReduce更依赖磁盘IO优化。正确答案为D。86.在Hadoop分布式文件系统(HDFS)中,数据块(Block)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。正确答案为C,HDFS为保证数据可靠性和容错能力,默认将每个数据块存储3个副本,防止单点故障导致数据丢失。错误选项解释:A选项1个副本无法容错,单点故障会直接丢失数据;B选项2个副本容错能力不足,仅能应对1个节点故障;D选项4个副本超出HDFS默认配置标准,属于冗余配置。87.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心配置知识点。HDFS默认副本因子为3,目的是通过多副本存储实现数据容错和可靠性(即使某节点故障,其他副本仍可提供数据访问)。A选项“1”仅适用于本地单节点存储场景,不满足分布式系统容错需求;B选项“2”通常为非默认配置(如部分测试或低资源场景),并非HDFS标准默认值;D选项“4”会过度消耗存储空间和带宽,不符合HDFS资源优化原则。88.数据仓库中,ODS层的核心作用是?

A.存储原始业务数据

B.进行数据清洗与转换

C.构建用户画像与标签

D.提供业务分析报表数据【答案】:A

解析:本题考察数据仓库分层结构。ODS(OperationalDataStore)即操作数据存储层,主要作用是直接存储原始业务数据(未经过加工的),为后续清洗、转换提供基础;B选项描述的是DWD层(数据明细层)的功能,C是ADS层(应用服务层),D是业务报表数据。因此正确答案为A。89.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。90.以下哪项是OLAP(联机分析处理)的核心操作?

A.数据ETL(抽取、转换、加载)

B.维度建模(如星型模型设计)

C.切片与切块(Slicing&Dicing)

D.数据清洗与去重【答案】:C

解析:本题考察OLAP核心功能知识点。OLAP通过多维度分析数据,核心操作为切片(按某维度筛选数据)、切块(按多个维度组合筛选)、钻取(维度上下钻取)等。选项A(ETL)是数据仓库数据加载流程,非OLAP操作;选项B(维度建模)是数据仓库设计方法;选项D(数据清洗)是数据预处理环节,均不属于OLAP核心操作。91.在数据仓库设计中,用于描述分析场景的属性(如时间、地区、产品类别)的表称为?

A.事实表

B.维度表

C.宽表

D.星型模型【答案】:B

解析:本题考察数据仓库核心概念。事实表包含可度量的数值(如销售额)和关联维度表的外键,是分析的核心度量数据载体;维度表则存储描述性信息(如“2023年Q1”“北京市”),用于解释事实表数据。宽表是一种存储形式(非表类型),星型模型是数据仓库的一种架构,因此正确答案为B。92.在Hadoop分布式文件系统(HDFS)中,负责管理文件元数据(如目录结构、文件信息、块的位置等)的核心节点是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:HDFS采用主从架构,NameNode是主节点,负责管理整个文件系统的元数据,包括文件和目录的创建、删除、重命名等操作,以及块的位置信息。DataNode是从节点,负责存储实际的数据块。SecondaryNameNode是辅助节点,主要用于周期性合并FsImage和EditLog,减轻NameNode负担,并非核心元数据管理者。ResourceManager是YARN的资源管理器,与HDFS无关。因此正确答案为A。93.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式文件存储的核心组件,采用分块存储和副本机制实现高容错性和高吞吐量。B选项MapReduce是分布式计算框架,用于并行处理大数据;C选项YARN是资源管理器,负责集群资源的分配与调度;D选项Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。94.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式文件系统,专为海量数据存储设计,通过多副本机制保证数据可靠性;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;Hive是数据仓库工具,提供SQL查询接口。因此正确答案为A。95.在实时大数据处理场景中,以下哪种框架更适合低延迟、高吞吐的流数据处理?

A.ApacheHadoopMapReduce

B.ApacheFlink

C.ApacheSparkStreaming

D.ApacheHive【答案】:B

解析:本题考察实时流处理技术选型。ApacheFlink是专为流处理设计的框架,采用事件驱动模型,支持毫秒级低延迟和高吞吐(每秒百万级事件),并具备状态管理能力。选项A(MapReduce)是批处理框架,延迟高;选项C(SparkStreaming)基于微批处理(类似批处理),延迟通常在秒级;选项D(Hive)是数据仓库工具,主要用于离线分析。96.以下关于Spark与MapReduce的对比,说法正确的是?

A.Spark仅支持内存计算,无法处理磁盘数据

B.Spark的迭代计算性能优于MapReduce,因为减少了磁盘IO

C.MapReduce的内存使用效率比Spark更高

D.Spark不支持批处理,仅支持流处理【答案】:B

解析:本题考察Spark与MapReduce的技术特性差异。Spark基于内存计算框架,迭代计算时无需频繁读写磁盘,大幅减少IO开销,因此性能远优于MapReduce。正确答案为B。错误选项分析:A选项错误,Spark支持内存+磁盘混合计算;C选项错误,MapReduce因需多次磁盘Shuffle,内存效率低于Spark;D选项错误,Spark既支持批处理(SparkSQL)也支持流处理(SparkStreaming)。97.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以BSON(类似JSON)格式存储文档,支持嵌套结构和灵活模式,属于文档型数据库。选项A(键值对)如Redis,以键值对存储简单数据;选项B(列族)如HBase,按列族组织稀疏数据;选项D(图数据库)如Neo4j,存储节点与关系数据(如社交网络)。98.在数据治理中,确保数据在不同系统或版本间保持一致的特性称为?

A.数据准确性

B.数据一致性

C.数据及时性

D.数据完整性【答案】:B

解析:本题考察数据治理中数据质量维度知识点。数据一致性指数据在不同存储、处理系统或版本迭代中保持逻辑一致,例如用户ID在各系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论