2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解_第1页
2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解_第2页
2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解_第3页
2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解_第4页
2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力考前冲刺测试卷(综合题)附答案详解1.以下哪项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(开源集群计算框架)

D.YARN(资源管理器)【答案】:C

解析:本题考察Hadoop生态系统的核心组件知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),三者共同构成了Hadoop的基础架构。而Spark是独立的开源集群计算框架,虽常与Hadoop结合使用,但不属于Hadoop生态系统的核心组件。因此正确答案为C。2.以下哪项是数据仓库的核心特点之一?

A.数据面向具体业务应用(如事务处理)

B.数据随时间变化,保留历史数据(时变性)

C.数据实时存储在内存中,不允许长时间保留(易失性)

D.仅支持结构化数据,无法处理非结构化数据【答案】:B

解析:本题考察数据仓库核心特点知识点。数据仓库的四大核心特点为:面向主题(而非具体应用)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(数据随时间推移积累历史记录)。A选项“面向具体业务应用”是操作型数据库(OLTP)的特点;C选项“内存存储、易失性”与数据仓库非易失性(通常存储在磁盘,数据长期保留)相悖;D选项“仅支持结构化数据”错误,数据仓库可支持结构化、半结构化甚至非结构化数据。因此正确答案为B。3.Spark相比MapReduce的主要性能优势体现在?

A.采用内存计算,减少磁盘IO开销

B.仅支持批处理任务,不支持流处理

C.依赖HDFS存储所有中间结果

D.无法处理非结构化数据【答案】:A

解析:本题考察Spark与MapReduce的技术对比知识点。Spark的核心优势是基于内存计算(In-MemoryComputing),可将中间结果暂存于内存而非频繁读写磁盘,大幅降低IO延迟。选项B错误,SparkStreaming支持实时流处理;选项C错误,Spark可通过内存缓存或外部存储(如Redis)存储中间结果,并非必须依赖HDFS;选项D错误,Spark支持JSON、XML等非结构化数据处理。4.在数据治理中,用于记录数据从产生到消费全生命周期流转路径的元数据属于?

A.技术元数据(描述数据存储位置、格式等)

B.业务元数据(描述数据业务含义、术语等)

C.操作元数据(描述数据访问频率、更新规则等)

D.血缘元数据(数据血缘关系元数据)【答案】:D

解析:数据血缘元数据专门记录数据的来源、转换、加工和使用过程,即全生命周期流转路径;A技术元数据侧重存储技术细节;B业务元数据侧重业务上下文;C操作元数据侧重数据使用和质量规则;因此D为正确答案。5.以下哪项属于大数据实时数据采集工具?

A.Flume

B.Kafka

C.Hive

D.Sqoop【答案】:B

解析:本题考察大数据数据采集工具知识点。Kafka是分布式消息队列,专为实时数据流设计,支持高吞吐和低延迟的数据传输。A选项Flume侧重离线日志聚合;C选项Hive是数据仓库工具,用于批处理分析;D选项Sqoop是关系数据库与Hadoop间的批量数据导入工具。6.在Hadoop分布式文件系统(HDFS)中,负责存储文件元数据(如文件路径、权限、块位置等)的核心组件是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:本题考察HDFS核心组件功能。NameNode是HDFS的元数据管理者,负责维护文件系统的命名空间和元数据;DataNode是实际存储数据块的节点,B错误;SecondaryNameNode主要用于元数据的备份与合并,非核心元数据存储,C错误;ResourceManager是YARN资源管理器,与HDFS无关,D错误。7.ApacheHadoop生态系统中的HDFS(HadoopDistributedFileSystem)主要负责什么核心功能?

A.分布式数据存储

B.分布式计算任务调度

C.数据仓库建模与查询

D.实时流数据处理与分析【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS是分布式文件系统,专为存储海量数据设计,提供高容错性和高吞吐量的分布式存储能力,因此A正确。B是YARN(资源管理器)的核心功能;C是Hive等数据仓库工具的功能;D是SparkStreaming、Flink等流处理框架的应用场景。8.数据仓库(DataWarehouse)的核心特征不包括以下哪项?

A.面向主题

B.集成性

C.实时性

D.非易失性【答案】:C

解析:数据仓库的核心特征包括:面向主题(围绕业务主题组织数据)、集成性(整合多源数据并消除冲突)、非易失性(数据仅追加不修改,用于历史分析)、时变性(数据随时间积累,反映历史趋势)。“实时性”是OLTP系统(联机事务处理)的典型特征,数据仓库主要用于离线分析和历史趋势挖掘,不强调实时性,因此答案为C。9.在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大规模数据存储设计,通过多副本机制保证数据可靠性和高容错性。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,提供SQL查询接口。因此正确答案为A。10.OLAP(联机分析处理)主要应用于以下哪种场景?

A.在线交易系统(如电商订单处理)

B.企业级数据分析与多维报表生成

C.实时监控传感器数据流

D.数据采集与清洗(ETL流程)【答案】:B

解析:本题考察数据仓库技术中OLAP的应用场景。OLAP通过多维分析、切片钻取等操作实现复杂业务分析,典型应用如财务报表、销售趋势分析等。选项A(在线交易)是OLTP(联机事务处理)的场景;选项C(实时监控)通常由流处理框架(如Flink)实现;选项D(数据采集)属于ETL流程中的Extract环节,与OLAP无关。11.以下哪种NoSQL数据库类型最适合存储和处理具有高并发读写需求的社交平台用户行为数据(如点赞、评论)?

A.键值对数据库(Key-ValueStore)

B.列族数据库(Column-FamilyStore)

C.文档数据库(DocumentStore)

D.图数据库(GraphDatabase)【答案】:A

解析:本题考察NoSQL数据库的类型与应用场景。键值对数据库(如Redis)通过简单键值映射支持极高并发读写,适合存储结构化、非结构化且访问模式简单的数据。正确答案为A。错误选项分析:B选项错误,列族数据库(如HBase)更适合海量数据列级查询;C选项错误,文档数据库(如MongoDB)并发性能弱于键值对;D选项错误,图数据库(如Neo4j)适合复杂实体关系查询(如社交网络)。12.在大数据处理流程中,数据清洗的核心目的是?

A.去除数据中的重复记录

B.处理数据中的缺失值和异常值

C.提高数据质量,保证后续分析结果的准确性

D.对数据进行标准化和归一化处理【答案】:C

解析:本题考察数据清洗的核心目的。数据清洗是处理原始数据质量问题的关键步骤,包括去重、补全、异常处理等操作,其核心目的是提升数据质量,确保分析结果可靠。选项A、B、D均为数据清洗的具体手段,而非最终目的。因此正确答案为C。13.在大数据处理中,以下哪项属于数据质量方面的典型挑战?

A.数据采集速度过慢

B.数据存储成本过高

C.数据存在重复或缺失

D.数据处理框架选择困难【答案】:C

解析:数据质量问题包括数据重复、缺失、格式不一致等,是大数据处理中需优先解决的问题。A选项属于数据采集效率挑战,B属于存储资源挑战,D属于技术选型挑战,均不属于数据质量范畴。14.在MapReduce计算模型中,哪个阶段负责将Map输出的中间结果进行数据传输、排序和合并,以便Reduce阶段高效处理?

A.Map阶段

B.Reduce阶段

C.Sort阶段

D.Shuffle阶段【答案】:D

解析:本题考察MapReduce的执行流程。Map阶段负责并行处理输入数据并输出中间键值对;Reduce阶段基于Shuffle结果进行汇总计算;Sort阶段是Shuffle的子过程,并非独立阶段。Shuffle阶段的核心功能是数据传输、排序、分组与合并,为Reduce阶段提供有序的中间结果。因此正确答案为D。15.ApacheFlink流处理框架支持的时间语义不包括以下哪一项?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.系统时间(SystemTime)【答案】:D

解析:本题考察Flink的时间语义特性。Flink支持事件时间(基于数据生成时间)、处理时间(基于数据到达时间)、摄入时间(基于Flink接收时间),D选项“系统时间”并非Flink定义的标准时间语义,属于干扰项。16.数据集市(DataMart)在大数据架构中的定位是?

A.企业级综合数据存储与分析平台

B.部门级小型数据仓库,服务特定业务需求

C.实时流数据处理的核心存储系统

D.仅用于存储结构化数据的关系型数据库【答案】:B

解析:数据集市是数据仓库的子集,针对特定业务部门(如销售、财务)构建,提供部门级数据服务;A是企业级数据仓库(EDW)的定义;C选项流数据存储通常由Kafka、FlinkState等实现;D选项数据集市可存储结构化/半结构化数据,且非仅关系型数据库(如MongoDB也可作为数据集市存储)。17.Hadoop分布式文件系统(HDFS)的主要作用是?

A.分布式数据存储

B.分布式计算框架

C.集群资源管理

D.数据挖掘与分析【答案】:A

解析:HDFS是Hadoop生态系统的分布式存储组件,核心功能是可靠存储海量数据;B选项MapReduce是分布式计算框架;C选项YARN负责集群资源管理;D选项数据挖掘通常由Hive、机器学习库等工具完成,不属于HDFS核心功能。18.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库的分类。MongoDB以BSON(二进制JSON)格式存储文档,属于文档数据库;键值对数据库(如Redis)以“键-值”对存储数据;列族数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以节点和边的关系存储数据。因此正确答案为C。19.在Hadoop分布式文件系统(HDFS)中,为保证数据可靠性和容错性,文件块(Block)的默认副本存储策略是?

A.仅存储在本地节点,避免跨节点冗余

B.优先存储在同机架的多个节点,最后跨机架节点

C.优先存储在本地机架节点,其次同机架不同节点,最后跨机架节点

D.默认存储在3个不同的随机节点,不考虑机架位置【答案】:C

解析:本题考察HDFS副本存储策略知识点。HDFS为防止单点故障(如机架断电或节点故障),默认将文件块副本分布在不同物理位置:优先存储在本地节点(减少网络传输),其次同机架其他节点(利用机架内带宽),最后跨机架节点(避免同机架整体故障)。选项A仅本地存储会导致单点故障;选项B未明确本地优先;选项D随机跨机架无法保证同机架内的冗余,故正确答案为C。20.ETL与ELT的核心区别在于数据转换发生的阶段,正确描述是?

A.ETL先转换后加载,ELT先加载后转换

B.ETL先加载后转换,ELT先转换后加载

C.两者转换阶段完全相同

D.ETL适用于结构化数据,ELT适用于非结构化数据【答案】:A

解析:本题考察ETL/ELT流程知识点。正确答案为A,ETL(Extract-Transform-Load)的流程是先提取数据,经过转换后再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,后者更适合大数据量场景,可利用目标系统的分布式计算能力。错误选项解释:B选项混淆了ETL和ELT的顺序;C选项两者转换阶段不同;D选项转换阶段与数据结构无关,仅与目标系统计算能力有关。21.MongoDB数据库采用的是哪种类型的NoSQL数据模型?

A.文档型

B.键值型

C.列族型

D.图数据库【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB以类JSON的文档(Document)形式存储数据,属于文档型数据库;键值型数据库(如Redis)以键值对存储;列族型数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构存储实体关系。因此正确答案为A。22.在数据仓库的维度建模中,用于存储业务度量值(如销售额、订单量)的表是?

A.维度表

B.事实表

C.雪花表

D.星型表【答案】:B

解析:本题考察数据仓库的维度建模。事实表存储业务事件的度量值(如“订单金额”)和关联维度表的外键(如“客户ID”“产品ID”),描述业务过程的量化结果。选项A(维度表)存储描述事实表的属性(如时间、地区、客户详情);选项C(雪花表)和D(星型表)是维度表的设计形式(星型表为单层维度表,雪花表为多层维度表),非度量值存储表。23.在数据仓库的ETL流程中,“Transform”(转换)步骤的主要作用是?

A.从源系统提取原始数据

B.将处理后的数据加载到目标系统

C.对数据进行清洗、格式转换和计算

D.实时监控数据变化【答案】:C

解析:ETL中,Transform是核心步骤,负责数据清洗(去重、补全)、格式转换(如日期标准化)、计算衍生指标等。A选项是Extract(提取)的功能,B选项是Load(加载)的功能,D选项属于实时数据处理或CDC(变更数据捕获)范畴,非ETL的Transform步骤。24.在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.Hive

B.HDFS

C.HBase

D.YARN【答案】:B

解析:本题考察Hadoop生态系统核心组件。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为存储海量数据设计,是数据存储层的核心。A选项Hive是数据仓库工具;C选项HBase是分布式NoSQL数据库;D选项YARN是资源管理器。因此正确答案为B。25.数据治理中,元数据管理的核心作用不包括以下哪项?

A.实现数据血缘追踪,记录数据流转路径

B.校验数据质量,识别异常值和缺失值

C.辅助数据安全审计,明确数据访问权限

D.转换数据存储格式,优化数据存储效率【答案】:D

解析:元数据管理的核心是“描述数据的数据”,主要作用包括:记录数据血缘(A正确),帮助理解数据来源和流转;支持数据质量校验(B正确,如通过元数据中的字段定义、业务规则校验数据有效性);辅助数据安全审计(C正确,通过元数据中的数据敏感级别、访问权限配置实现审计)。而数据存储格式转换属于ETL/数据处理工具的功能,元数据仅描述数据结构和来源,不负责执行格式转换操作。因此正确答案为D。26.下列关于数据仓库与数据湖的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖可存储结构化、半结构化和非结构化数据

B.数据仓库和数据湖均仅支持结构化数据存储

C.数据仓库和数据湖均需预先定义严格的数据模型

D.数据仓库适合实时分析,数据湖仅适合离线分析【答案】:A

解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向分析的结构化数据集合,需预先定义星型/雪花型模型;数据湖则存储原始数据(结构化、半结构化、非结构化),支持灵活扩展和按需建模。选项B错误,数据湖可存储非结构化数据(如日志、图片);选项C错误,数据湖无需预定义模型,适合原始数据存储;选项D错误,数据仓库和数据湖均可通过工具支持实时分析(如数据仓库+Flink、数据湖+Presto)。27.在数据仓库建设中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的主要区别在于?

A.ETL需要先转换再加载,ELT先加载再转换

B.ETL只能处理结构化数据,ELT只能处理非结构化数据

C.ETL的数据转换在ETL工具中完成,ELT在数据仓库中完成

D.ETL适用于实时处理,ELT适用于批处理【答案】:A

解析:本题考察数据仓库ETL流程的核心逻辑。ETL的执行顺序是**先抽取数据→转换数据(清洗、标准化等)→加载到目标仓库**;ELT则是**先抽取数据→直接加载到目标仓库→在仓库内进行转换**。B选项错误,ETL和ELT均可处理结构化/非结构化数据(仅工具适配性差异);C选项错误,ELT的转换并非“仅在数据仓库中”,而是在加载后,而ETL的转换是在抽取后、加载前,两者均涉及转换步骤;D选项错误,ETL和ELT均适用于批处理,实时处理通常采用流处理架构(如Flink),与ETL/ELT无关。28.在数据仓库的维度建模中,用于记录业务事件及关联度量值(如销售额、订单量)的表类型是?

A.事实表

B.维度表

C.宽表

D.星型模型【答案】:A

解析:本题考察数据仓库的核心表类型。事实表记录业务事件和可量化的度量值(如“2023年Q1北京地区手机销售额”);维度表用于描述事实表的上下文属性(如时间、地区、产品维度);宽表是数据集市中常见的整合表结构,星型模型是维度建模的一种具体结构(包含事实表和维度表)。因此正确答案为A。29.以下哪项属于数据仓库中事实表的典型特征?

A.存储描述性信息(如产品名称、地区名称)

B.包含大量可加性度量值(如销售额、订单数量)

C.通常不包含与其他表关联的外键

D.数据规模较小,结构相对稳定【答案】:B

解析:事实表主要存储可量化的业务度量值(如销售额、数量)和关联维度表的外键,具有可加性(如“求和”);A是维度表特征(描述性信息);C错误,事实表需通过外键关联维度表;D错误,事实表通常因包含大量度量值而规模较大。30.下列哪个大数据处理框架主要用于实时流数据处理?

A.Flink

B.SparkSQL

C.HBase

D.Hive【答案】:A

解析:本题考察主流大数据处理框架的应用场景。ApacheFlink是专为实时流数据处理设计的开源框架,支持低延迟、高吞吐的流处理任务,适合实时分析场景。SparkSQL(B选项)是基于Spark的SQL查询工具,侧重批处理和交互式查询;HBase(C选项)是NoSQL分布式数据库,用于存储海量结构化数据;Hive(D选项)是基于Hadoop的数据仓库工具,用于批处理分析。因此正确答案为A。31.在大数据实时流处理中,SparkStreaming的核心抽象是?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。DStream(离散流)是SparkStreaming的核心抽象,将连续的数据流分割为多个小批量RDD进行处理;RDD是Spark批处理的核心抽象,DataFrame/Dataset是Spark结构化数据API。因此正确答案为B。32.Spark中的RDD(弹性分布式数据集)最核心的特性是?

A.可变性(允许直接修改数据)

B.不可变性(数据创建后不可修改)

C.分布式存储在磁盘而非内存

D.仅支持单次迭代计算【答案】:B

解析:本题考察SparkRDD的核心特性,正确答案为B。RDD通过不可变性保证数据一致性和容错性:数据创建后不可修改,修改需生成新RDD,旧RDD的“血统(Lineage)”记录支持故障恢复。错误选项分析:A选项违背RDD不可变原则;C选项错误,RDD优先内存存储以提升性能;D选项错误,RDD支持多次转换和迭代计算。33.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式存储的核心组件,通过多副本机制实现数据可靠性和高容错性。B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是基于Hadoop的数据仓库工具,均不负责存储,因此正确答案为A。34.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,具有高容错性和高吞吐量。MapReduce(B选项)是分布式计算框架,YARN(C选项)是资源管理器,Hive(D选项)是基于Hadoop的数据仓库工具,均不负责分布式文件存储。因此正确答案为A。35.在实时流处理场景中,能够提供毫秒级延迟、支持状态管理和Exactly-Once语义的开源框架是?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheStorm

D.ApacheKafkaStreams【答案】:A

解析:本题考察主流流处理框架的技术特性。ApacheFlink是实时流处理框架,以毫秒级延迟、强大的状态管理和Exactly-Once语义著称(A正确);B选项SparkStreaming基于微批处理,延迟通常在秒级;C选项Storm虽然实时性较高,但状态管理和Exactly-Once支持较弱;D选项KafkaStreams更轻量,适合简单场景但不具备Flink的复杂状态管理能力。因此正确答案为A。36.在大数据平台中,为保护敏感数据(如用户身份证号、手机号)不被泄露,以下哪种技术属于数据脱敏范畴?

A.数据加密(如AES加密)

B.数据脱敏(如替换为随机字符串)

C.数据压缩(如gzip)

D.数据清洗(如去重)【答案】:B

解析:本题考察大数据安全技术,正确答案为B。数据脱敏是通过对敏感数据进行变形处理(如替换、屏蔽、打乱),使其在非授权场景下无法识别原始信息,属于数据安全的“数据匿名化”手段。A选项“数据加密”是对数据进行可逆/不可逆转换,通常用于存储或传输中的加密保护,与“脱敏”不同;C选项“数据压缩”用于减少存储/传输体积,D选项“数据清洗”用于去除噪声/异常数据,均与敏感数据保护无关。37.以下哪种数据脱敏方法是在数据存储阶段对敏感数据进行处理,以保护数据安全?

A.静态脱敏

B.动态脱敏

C.实时脱敏

D.脱敏算法【答案】:A

解析:本题考察数据脱敏技术的分类。静态脱敏是在数据存储阶段(如ETL过程中)对敏感数据进行脱敏处理,生成脱敏后的数据存储,适用于离线分析场景(A正确);动态脱敏是在数据访问时实时处理(如查询过程中),适用于在线场景;C选项“实时脱敏”属于动态脱敏的一种细分,并非独立分类;D选项“脱敏算法”是脱敏的技术手段而非方法类型。因此正确答案为A。38.以下哪项属于OLAP(联机分析处理)的典型应用场景?

A.电商订单实时结算

B.企业财务报表自动生成

C.数据清洗与格式转换

D.客户行为实时追踪【答案】:B

解析:本题考察OLAP与OLTP的区别。OLAP核心是支持复杂多维分析(如财务报表、销售趋势分析),侧重决策支持。A和D属于OLTP(联机事务处理),强调实时事务处理(如订单支付、用户行为追踪);C属于ETL流程中的数据预处理环节。因此正确答案为B。39.SparkStreaming的核心抽象是以下哪一项?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。SparkStreaming将连续数据流按时间片(如1秒)分割为微批处理,每个时间片生成一个RDD,这些RDD组成DStream(离散流),是SparkStreaming的核心抽象。选项A(RDD)是Spark的基础数据结构,适用于所有Spark应用;选项C(DataFrame)和D(Dataset)是结构化数据API,与Streaming无关。40.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:HDFS作为Hadoop的核心组件,采用块(Block)机制优化数据存储与读取效率。在Hadoop2.x及后续版本中,HDFS的默认块大小为128MB(早期Hadoop1.x版本默认块大小为64MB)。选项A为早期版本的块大小,C、D均非HDFS标准默认值,因此正确答案为B。41.在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN(YetAnotherResourceNegotiator)

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS是Hadoop的分布式文件系统,通过多副本机制实现数据冗余存储,是大数据分布式存储的核心组件。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群状态管理。因此正确答案为A。42.以下哪项不属于Hadoop2.x的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:D

解析:本题考察Hadoop核心组件的识别。Hadoop2.x的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce和资源管理器YARN。Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询,属于Hadoop生态系统的扩展工具而非核心组件。因此正确答案为D。43.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题,集成历史数据

B.支持实时事务处理

C.仅存储原始未加工数据

D.实时更新业务操作数据【答案】:A

解析:本题考察数据仓库的核心定义。数据仓库是面向主题(如销售、财务)、集成多个数据源、非易失性(历史数据长期存储)、时变性(反映历史变化)的结构化数据集合;B选项错误,数据仓库通常采用批处理更新,而非实时事务处理;C选项错误,数据仓库存储的是经过清洗、整合后的结构化数据,而非原始数据;D选项错误,实时更新业务数据是OLTP(事务处理系统)的特点,数据仓库侧重历史分析。因此正确答案为A。44.在数据治理中,确保数据在不同系统或版本间保持一致的特性称为?

A.数据准确性

B.数据一致性

C.数据及时性

D.数据完整性【答案】:B

解析:本题考察数据治理中数据质量维度知识点。数据一致性指数据在不同存储、处理系统或版本迭代中保持逻辑一致,例如用户ID在各系统中唯一且关联;数据准确性是指数据真实反映客观事实;数据及时性是指数据更新频率满足业务需求;数据完整性是指数据无缺失、无冗余(或冗余合理)。因此正确答案为B。45.以下哪种算法属于无监督学习?

A.K-means聚类算法

B.支持向量机(SVM)分类算法

C.线性回归预测算法

D.决策树分类算法【答案】:A

解析:本题考察机器学习算法类型。无监督学习无需标签数据,通过数据内在特征分组。K-means是典型无监督聚类算法,通过距离度量划分数据簇。支持向量机(SVM)、线性回归、决策树均需标注数据(如类别标签或数值目标),属于监督学习。正确答案为A。46.ApacheSpark相比传统MapReduce计算框架,显著提升处理速度的核心原因是?

A.基于内存计算,减少磁盘I/O开销

B.仅支持批处理,不支持流处理

C.只能处理结构化数据,灵活性低

D.依赖HDFS存储所有数据,稳定性差【答案】:A

解析:本题考察Spark的技术特性。Spark采用内存计算模型,优先将数据缓存在内存中,避免MapReduce依赖磁盘I/O的低效问题,A正确;Spark同时支持批处理和流处理(StructuredStreaming),B错误;Spark支持Scala、Java、Python等多语言,且可处理非结构化数据(如JSON、图片),C、D错误。47.数据仓库中,存储与业务事件直接相关的可量化数据(如销售额、订单量)的表类型是?

A.维度表

B.事实表

C.宽表

D.星型表【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量值(如销售额、订单量),通常包含外键关联维度表。A选项维度表用于存储描述性数据(如客户、产品信息);C选项宽表是冗余存储结构,非标准表类型;D选项星型表是数据仓库模型结构(事实表关联维度表),非表类型。因此正确答案为B。48.大数据数据脱敏的主要目的是什么?

A.提升数据处理速度

B.防止敏感数据泄露

C.优化数据存储容量

D.增强数据完整性校验【答案】:B

解析:本题考察数据安全技术中的脱敏概念。数据脱敏通过对敏感信息(如手机号、身份证号)进行处理(如替换、加密),使其无法直接识别个人身份,从而在不影响业务使用的前提下防止数据泄露,因此B正确。A“提升处理速度”是数据压缩或计算优化的目标;C“优化存储容量”是数据压缩的作用;D“增强完整性校验”是校验工具(如哈希)的功能,均与脱敏无关。49.在Hadoop分布式文件系统(HDFS)中,默认情况下文件会被复制到多少个数据节点以保证高可用性?

A.1个

B.2个

C.3个

D.4个【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS默认的副本因子为3,这是为了在单个数据节点故障时仍能通过其他副本恢复数据,确保数据可靠性和高可用性。选项A(1个)仅适用于本地存储场景,无法满足分布式系统容错需求;选项B(2个)容错能力不足,易因双节点故障丢失数据;选项D(4个)超出HDFS默认配置,会增加额外存储开销且无必要。50.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-Family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以JSON格式存储数据,属于文档型数据库(DocumentDatabase),通过键值对组织文档结构。选项A(键值型)典型代表为Redis、RocksDB;选项B(列族型)典型代表为HBase、Cassandra;选项D(图型)典型代表为Neo4j,用于存储复杂关系网络。51.Spark相比MapReduce的主要优势是?

A.基于内存计算,减少磁盘I/O

B.仅支持批处理任务

C.完全依赖HDFS存储数据

D.不支持实时流处理【答案】:A

解析:本题考察Spark的核心特性。Spark的关键优势在于内存计算,通过将数据缓存在内存中减少磁盘I/O操作,处理速度远快于MapReduce;B选项错误,Spark同时支持批处理和流处理(如SparkStreaming);C选项错误,Spark可基于多种存储系统(如内存、S3等),并非依赖HDFS;D选项错误,SparkStreaming支持实时流处理。因此正确答案为A。52.下列哪个技术框架以低延迟、高吞吐的实时流数据处理能力著称?

A.Spark

B.Hadoop

C.Flink

D.Hive【答案】:C

解析:本题考察流处理技术框架知识点。Flink是专门的实时流处理引擎,具备低延迟、高吞吐、精确一次语义等特性,适用于实时数据场景。Spark(A)以批处理和微批流处理为主;Hadoop(B)以批处理框架为核心;Hive(D)是数据仓库工具,不负责流处理。因此正确答案为C。53.大数据处理中,解决数据倾斜问题的常用优化手段是?

A.预聚合

B.分库分表

C.使用SparkSQL

D.增加计算节点【答案】:A

解析:本题考察数据倾斜的优化方法,正确答案为A。数据倾斜指某一key的数据量远大于其他key,预聚合可在数据处理前对高频key进行局部聚合,减少数据量;分库分表是分布式存储的扩容手段,SparkSQL不直接解决倾斜问题,增加节点仅能分摊压力,无法从根本上消除倾斜。54.在大数据处理中,ApacheSpark相比HadoopMapReduce的主要性能优势在于?

A.基于内存计算,减少磁盘IO操作

B.支持更强的批处理能力

C.原生支持分布式存储

D.仅适用于实时流处理场景【答案】:A

解析:本题考察Spark与MapReduce的技术对比。Spark的核心设计是内存计算,通过将数据缓存在内存中进行计算,避免了MapReduce中大量的磁盘IO操作,尤其在迭代计算(如机器学习)中效率显著提升。B错误:两者均支持批处理,MapReduce本身就是经典的批处理框架;C错误:分布式存储由HDFS提供,并非Spark的优势;D错误:Spark既支持批处理(SparkCore)也支持流处理(SparkStreaming),且“仅适用于”表述错误。因此正确答案为A。55.以下哪项不属于大数据的5V特征?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)和Value(价值)。选项D的Validity(有效性)不属于5V特征,因此正确答案为D。56.在Hadoop生态系统中,负责集群资源分配、节点管理和应用程序调度的组件是?

A.HDFS

B.MapReduce

C.YARN

D.HBase【答案】:C

解析:本题考察Hadoop生态系统中YARN的功能。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器,负责节点资源监控、应用程序资源分配和任务调度;HDFS负责分布式存储;MapReduce是旧版计算框架;HBase是分布式NoSQL数据库。因此正确答案为C。57.在数据治理中,用于描述数据来源、结构、血缘关系的元数据属于?

A.技术元数据

B.业务元数据

C.操作元数据

D.管理元数据【答案】:A

解析:本题考察元数据分类。A正确:技术元数据包含数据结构、字段定义、数据血缘(来源系统)等技术层面信息;B错误:业务元数据描述数据业务含义(如“客户年龄”代表的业务价值);C错误:操作元数据记录数据访问频率、存储位置等操作行为信息;D错误:管理元数据涉及数据质量、安全策略等管理规则。58.以下哪种技术更适合进行低延迟的实时流数据处理?

A.ApacheKafka

B.SparkStreaming

C.ApacheFlink

D.Hive【答案】:C

解析:本题考察流处理技术选型。选项A的Kafka是分布式消息队列,主要用于数据传输,不直接处理数据;选项B的SparkStreaming是基于微批处理的流处理框架,虽支持流处理但延迟相对较高;选项C的ApacheFlink是专为低延迟、高吞吐的实时流处理设计的框架,支持流批一体,具备毫秒级延迟能力;选项D的Hive是基于Hadoop的数据仓库工具,主要用于批处理分析。因此正确答案为C。59.HDFS默认情况下,一个数据块的副本数量是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错能力,默认每个数据块存储3个副本,分别放置在本地节点、同机架其他节点和不同机架节点,以应对节点或机架故障。选项A(1个副本)易因单点故障丢失数据;选项B(2个副本)在机架故障时可能丢失数据;选项D(4个副本)冗余度过高,会浪费存储资源。60.在大数据ETL/ELT流程中,‘先加载后转换(ELT)’模式的核心优势是?

A.减少数据传输量,适合跨地域数据仓库

B.转换逻辑在数据源端完成,降低目标系统负载

C.支持实时数据转换,无需批处理窗口

D.仅适用于结构化数据,对非结构化数据兼容性差【答案】:A

解析:本题考察ETL/ELT流程差异。ELT(Extract-Load-Transform)是先将原始数据加载到目标系统(如数据仓库),再在目标系统中执行转换。其核心优势是利用目标系统的计算资源(如MPP数据库的并行能力),减少数据传输量(尤其适合跨地域/高带宽成本场景)。选项B错误(转换在目标系统,非数据源);选项C错误(ELT本质仍是批处理,实时需流处理框架);选项D错误(ELT兼容半结构化数据,如JSON文档)。61.适用于存储用户社交关系网络(如好友列表、关注关系)的数据库类型是?

A.键值型数据库(如Redis)

B.文档型数据库(如MongoDB)

C.列族型数据库(如HBase)

D.图数据库(如Neo4j)【答案】:D

解析:本题考察NoSQL数据库类型的适用场景。选项A键值型数据库适合简单KV映射(如缓存、会话存储);选项B文档型数据库适合存储嵌套结构数据(如JSON文档);选项C列族型数据库适合海量结构化数据(如时序数据、日志);选项D图数据库(D)通过节点和边的关系模型,天然适合存储社交关系网络、知识图谱等复杂关联数据,因此正确。62.在数据仓库设计中,星型模型的核心特点是?

A.维度表完全规范化(拆分至最小粒度)

B.事实表与维度表直接相连,无冗余存储

C.以事实表为中心,维度表围绕事实表展开

D.所有数据均存储在单一宽表中【答案】:C

解析:本题考察数据仓库的星型模型与雪花模型的区别。星型模型的核心特点是以**事实表为中心**,周围连接多个维度表(如用户、商品、时间等),维度表直接关联事实表,减少表间连接复杂度。选项A描述的是雪花模型(维度表规范化拆分);选项B错误,星型模型因维度表直接关联,可能存在数据冗余(如重复存储相同维度属性);选项D描述的是宽表模型(非星型模型)。因此正确答案为C。63.数据仓库设计中,‘星型模型’的核心特点是?

A.包含一个中心事实表和多个维度表

B.所有表均通过外键关联,结构复杂

C.仅适用于小规模数据仓库,扩展性差

D.支持复杂的多表嵌套查询,性能优异【答案】:A

解析:本题考察数据仓库的星型模型特性。星型模型的核心是由一个中心事实表(存储业务度量数据,如销售额、订单量)和多个维度表(存储描述性信息,如时间、用户、产品)组成,通过主键-外键关联,结构简单直观。B选项错误,星型模型结构简单,无复杂外键嵌套;C选项错误,星型模型因结构清晰,适合大规模数据仓库;D选项错误,星型模型因连接简单,查询性能优异,但复杂多表连接能力弱于雪花模型(雪花模型通过维度表分层实现多表连接)。因此正确答案为A。64.SparkStreaming的核心执行模型是?

A.微批处理(Micro-batchProcessing)

B.实时流处理(Real-timeStreamProcessing)

C.批处理(BatchProcessing)

D.内存计算(In-memoryComputing)【答案】:A

解析:本题考察流处理框架特性。SparkStreaming基于微批处理模型,将数据流按固定时间窗口(如1秒)分割为微批数据,以批处理方式执行计算;Flink支持真正的实时流处理(B),MapReduce等属于传统批处理(C),内存计算(D)是Spark的通用特性,非流处理模型核心。因此正确答案为A。65.以下哪种工具是基于Hadoop构建的,用于支持复杂的多维分析和OLAP操作?

A.Hive

B.HBase

C.Kafka

D.HDFS【答案】:A

解析:本题考察数据仓库工具知识点。Hive是基于Hadoop的数据仓库工具,提供类SQL的HQL语法,支持复杂的多维分析和OLAP操作;HBase是列族式NoSQL数据库,用于随机读写高并发场景;Kafka是分布式消息队列,用于数据传输;HDFS是分布式文件系统,仅负责数据存储。因此正确答案为A。66.Hadoop分布式文件系统(HDFS)的核心组件不包括以下哪一项?

A.NameNode

B.DataNode

C.ResourceManager

D.SecondaryNameNode【答案】:C

解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(元数据备份)。而ResourceManager是YARN(YetAnotherResourceNegotiator)的核心组件,负责资源调度和集群管理,不属于HDFS。67.在数据仓库的维度建模中,以下哪项通常作为事实表的核心指标?

A.产品名称

B.销售金额

C.客户地址

D.订单日期【答案】:B

解析:本题考察数据仓库维度建模的核心概念。维度建模中,事实表记录业务事件的度量值和关联的维度表外键,维度表记录描述性属性。A选项“产品名称”属于维度表(产品维度)的属性;B选项“销售金额”是业务事件的度量值,属于事实表的核心指标;C选项“客户地址”属于维度表(客户维度)的属性;D选项“订单日期”属于维度表(时间维度)的属性。因此正确答案为B。68.Hive的元数据(Metadata)默认存储在哪个组件中?

A.HDFS

B.HBase

C.Derby

D.MySQL【答案】:C

解析:本题考察Hive元数据存储。Hive默认使用内嵌式Derby数据库存储元数据(表结构、分区信息等),适合单机测试场景。A选项HDFS是数据存储层,非元数据存储;B选项HBase是NoSQL数据库,与Hive元数据无关;D选项MySQL是可选的外部元数据存储(需手动配置)。因此正确答案为C。69.HDFS分布式文件系统中,默认的块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基本特性。HDFS(Hadoop分布式文件系统)的块大小是可配置的,默认情况下,Hadoop2.x及以上版本的块大小为128MB,这一设计可降低寻址时间、优化并行处理效率。选项A(64MB)是HDFS1.x的默认块大小,选项C、D均非HDFS默认块大小。因此正确答案为B。70.Hadoop分布式文件系统(HDFS)的核心作用是?

A.提供分布式存储服务

B.负责集群资源管理

C.执行分布式计算任务

D.提供分布式协调服务【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,核心作用是提供海量数据的分布式存储服务。选项B中负责集群资源管理的是YARN(YetAnotherResourceNegotiator);选项C中执行分布式计算任务的是MapReduce或Spark等计算框架;选项D中提供分布式协调服务的是ZooKeeper。因此正确答案为A。71.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。72.以下哪项是数据仓库(DataWarehouse)的典型应用场景?

A.实时处理电商订单交易

B.支持企业级复杂业务分析查询

C.存储原始日志数据不做处理

D.仅支持结构化数据存储【答案】:B

解析:本题考察数据仓库核心特征。数据仓库是面向分析的集成数据集合,用于支持企业级复杂分析查询(如OLAP操作)。A是OLTP(联机事务处理)的应用场景;C错误,数据仓库通常经过ETL/ELT处理,非原始数据;D错误,现代数据仓库可支持半结构化数据(如JSON)。因此正确答案为B。73.与传统MapReduce相比,Spark的显著优势主要体现在?

A.必须基于磁盘进行数据处理,确保数据可靠性

B.支持内存计算,减少磁盘I/O操作

C.仅适用于批处理场景,无法处理流数据

D.编程模型仅支持Java语言,开发效率低【答案】:B

解析:Spark采用内存计算架构,将中间结果缓存在内存中,避免了MapReduce多次磁盘读写的性能瓶颈。A选项错误,Spark主要基于内存而非磁盘;C选项错误,SparkStreaming可处理流数据;D选项错误,Spark支持Scala、Python、Java等多语言编程。74.在ApacheSpark中,以下哪个操作属于RDD(弹性分布式数据集)的转换操作(Transformation)?

A.count()

B.collect()

C.map()

D.saveAsTextFile()【答案】:C

解析:本题考察SparkRDD操作类型。RDD的转换操作(Transformation)是“惰性执行”的,仅记录操作逻辑而不立即计算,例如`map()`(对每个元素应用函数)、`filter()`等。而A(count())、B(collect())、D(saveAsTextFile())均为行动操作(Action),会触发计算并返回结果或输出到存储。因此C是正确的转换操作。75.在维度建模中,事实表(FactTable)的核心特征是?

A.存储描述性属性(如用户ID、产品名称)

B.存储可度量的数值数据(如销售额、订单数量)

C.存储维度表的外键关系以实现关联

D.存储维度表的层级关系(如地区-城市-街道)【答案】:B

解析:本题考察数据仓库维度建模知识点。事实表以度量值(数值型指标)为核心,通过维度键关联维度表。选项A是维度表的特征(存储描述性属性);选项C和D描述的是维度表中存储的外键和层级关系,属于维度表范畴;事实表的核心是可量化的业务指标。76.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。77.以下关于SparkRDD的描述,错误的是?

A.RDD是Spark的核心抽象,代表一个不可变的分布式数据集

B.RDD的分区数量在创建后不可修改

C.RDD支持惰性计算,只有在Action操作触发时才会执行计算

D.RDD的转换操作(Transformation)是延迟执行的【答案】:B

解析:本题考察SparkRDD核心特性。RDD的分区特性是可调整的,通过`coalesce`(减少分区)或`repartition`(增加分区)方法可动态修改分区数,因此选项B错误。选项A正确,RDD本质是不可变的分布式数据集;选项C正确,惰性计算是Spark性能优化的关键(仅Action触发真正计算);选项D正确,转换操作仅记录逻辑,不立即执行。78.在实时大数据处理场景中,以下哪种框架更适合低延迟、高吞吐的流数据处理?

A.ApacheHadoopMapReduce

B.ApacheFlink

C.ApacheSparkStreaming

D.ApacheHive【答案】:B

解析:本题考察实时流处理技术选型。ApacheFlink是专为流处理设计的框架,采用事件驱动模型,支持毫秒级低延迟和高吞吐(每秒百万级事件),并具备状态管理能力。选项A(MapReduce)是批处理框架,延迟高;选项C(SparkStreaming)基于微批处理(类似批处理),延迟通常在秒级;选项D(Hive)是数据仓库工具,主要用于离线分析。79.以下哪项是数据仓库区别于传统关系型数据库的关键特征?

A.面向主题的设计

B.支持实时事务处理

C.仅存储结构化数据

D.具备行级并发控制【答案】:A

解析:本题考察数据仓库的核心特性,正确答案为A。数据仓库是面向分析主题(如销售、用户行为等)组织的数据集合,强调数据的集成性、一致性和历史回溯性,而传统数据库(如MySQL)主要面向事务处理(OLTP),以行级事务和实时响应为目标。B选项“实时事务处理”是OLTP数据库的典型特征;C选项“仅存储结构化数据”错误,数据仓库也可存储半结构化/非结构化数据;D选项“行级并发控制”是传统数据库保障事务一致性的机制,非数据仓库特征。80.以下哪个流处理框架是Apache顶级项目,支持高吞吐低延迟的实时数据处理?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheKafkaStreams

D.ApacheStorm【答案】:A

解析:本题考察流处理框架的特性。ApacheFlink是Apache顶级项目,以高吞吐、低延迟、精确一次(Exactly-Once)语义为核心优势,支持事件时间窗口、状态管理和复杂计算。B选项SparkStreaming基于微批处理模型,本质是批处理框架的扩展,延迟较高;C选项KafkaStreams是基于Kafka的轻量级流处理库,功能较单一;D选项Storm虽支持实时处理,但在状态管理和事件时间处理上不如Flink完善。因此正确答案为A。81.以下关于数据仓库的描述,正确的是?

A.主要用于实时事务处理(OLTP)

B.面向分析型数据,支持决策支持

C.存储结构以行式表为主,强调低延迟

D.数据更新频繁且实时性强【答案】:B

解析:本题考察数据仓库的核心特点。数据仓库面向分析型数据,用于企业决策支持,具有集成性、非易失性(历史数据不频繁修改)、时变性(随时间累积历史数据);选项A错误(实时事务处理是OLTP系统);选项C错误(数据仓库以列存储为主,面向分析而非低延迟);选项D错误(数据仓库数据更新频率低,非实时)。82.Spark相比MapReduce的主要优势不包括以下哪项?

A.支持内存计算,迭代任务效率更高

B.采用DAG执行引擎,减少磁盘IO

C.必须依赖磁盘进行中间结果存储

D.提供更丰富的API和数据处理模型【答案】:C

解析:本题考察Spark与MapReduce的技术特性对比。Spark的核心优势在于内存计算(减少磁盘IO)、DAG执行引擎优化任务依赖、丰富的API(如DataFrame、Dataset)。选项A正确描述了Spark内存计算的优势;选项B指出Spark通过DAG减少磁盘IO,符合其特性;选项D说明Spark支持更灵活的数据处理模型。而选项C“必须依赖磁盘进行中间结果存储”是MapReduce的特点(MapReduce基于磁盘读写),并非Spark的优势,因此错误。正确答案为C。83.在数据仓库建设中,‘先将数据加载到目标数据库,再进行数据转换和清洗’的流程是以下哪种?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL与ELT的混合流程

D.仅适用于关系型数据库的ETL流程【答案】:B

解析:本题考察ETL与ELT的流程差异。ELT(Extract-Load-Transform)的核心是先加载原始数据到目标存储,再在目标系统中完成转换清洗。正确答案为B。错误选项分析:A选项错误,ETL是先转换再加载;C选项错误,题干描述为单一流程而非混合;D选项错误,ELT同样适用于关系型数据库(如Snowflake等工具)。84.数据仓库中,哪种模型通过将维度表规范化减少数据冗余?

A.星型模型

B.雪花模型

C.星座模型

D.层次模型【答案】:B

解析:本题考察数据仓库模型知识点。正确答案为B,雪花模型是星型模型的扩展,通过将维度表进一步拆分为更小的子维度表(规范化),减少数据冗余,但会增加查询时的表连接复杂度。错误选项解释:A选项星型模型将所有维度表直接连接到事实表,冗余度高但查询简单;C选项星座模型是多个事实表共享维度表的集合模型;D选项层次模型属于数据库表结构设计,非数据仓库主流模型。85.MongoDB数据库属于以下哪种类型的NoSQL数据库?

A.键值对数据库(如Redis)

B.列族数据库(如HBase)

C.文档数据库(如MongoDB)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以“文档”形式存储数据(类似JSON格式),属于文档型数据库;键值对数据库(如Redis)以键值对形式存储;列族数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构(节点和边)存储数据。因此MongoDB属于文档数据库,正确答案为C。86.在数据仓库的分层设计中,负责存储原始业务数据、未经任何清洗和转换的数据层是?

A.ODS层

B.DWD层

C.DWS层

D.ADS层【答案】:A

解析:本题考察数据仓库分层知识点。数据仓库典型分层包括:ODS(操作数据存储,存储原始数据,未清洗)、DWD(数据明细层,经过清洗和标准化)、DWS(数据汇总层,多维度聚合)、ADS(应用数据服务层,面向业务应用)。选项B“DWD层”已完成数据清洗,C“DWS层”为汇总层,D“ADS层”为应用输出层,均不符合“原始数据未清洗”的描述。87.关于数据仓库与数据集市的描述,错误的是?

A.数据仓库是面向企业级全局数据的集成存储

B.数据集市是面向部门级特定业务需求的数据子集

C.数据集市是数据仓库的超集

D.数据仓库通常包含结构化、半结构化数据【答案】:C

解析:本题考察数据仓库与数据集市的概念。选项A正确,数据仓库面向企业全局数据,集成多源数据;选项B正确,数据集市是数据仓库的子集,针对特定部门(如销售、财务)的业务需求;选项C错误,数据集市是数据仓库的子集而非超集,它从数据仓库中抽取数据,聚焦特定主题;选项D正确,数据仓库通常包含结构化(如关系表)、半结构化(如日志)数据。因此正确答案为C。88.关于HDFS的描述,正确的是?

A.HDFS采用单副本存储以节省存储空间

B.HDFS文件块默认大小为128MB

C.NameNode负责存储实际数据块

D.HDFS仅支持文本格式文件存储【答案】:B

解析:本题考察HDFS的特性。A选项错误,HDFS默认采用3副本机制以提高容错性和可靠性;B选项正确,HDFS文件块(Block)默认大小为128MB,可根据需求调整;C选项错误,NameNode负责存储文件元数据(如目录结构、块位置等),实际数据块由DataNode存储;D选项错误,HDFS支持二进制、文本等多种格式文件存储。因此正确答案为B。89.在大数据数据仓库构建中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的核心区别在于?

A.ETL在数据加载后进行转换,ELT在加载前转换

B.ETL先抽取、转换后加载,ELT先抽取、加载后转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL需实时处理,ELT支持批量处理【答案】:B

解析:ETL流程是抽取(Extract)→转换(Transform)→加载(Load),即先转换数据再写入目标系统;ELT则是抽取(Extract)→加载(Load)→转换(Transform),即先将原始数据加载到目标存储(如数据仓库),再在目标系统中进行转换。ELT因数据先入仓库,可减少数据传输量,更适合大数据场景;A选项描述颠倒;C选项两者均可处理结构化/半结构化数据;D选项两者均支持批处理,ELT更适合实时流数据场景。90.关于Spark和Flink的技术特点,以下描述错误的是?

A.Spark是内存计算框架,支持批处理和流处理

B.Flink擅长低延迟、高吞吐的实时流处理

C.SparkStreaming采用微批处理模型,延迟较高

D.Flink仅支持流处理,无法处理批处理任务【答案】:D

解析:本题考察流处理与批处理框架的技术差异。选项A正确,Spark通过内存计算和DStream支持批处理(SparkSQL)和流处理(StructuredStreaming);选项B正确,Flink是流处理框架,以事件时间窗口和状态管理实现低延迟实时计算;选项C正确,SparkStreaming基于微批处理,典型延迟在秒级;选项D错误,Flink通过DataStreamAPI可同时支持流处理和批处理(将批处理视为有限流)。91.在数据仓库技术中,用于支持多维数据分析、在线分析处理(OLAP)的核心技术是?

A.ETL(数据抽取、转换、加载)

B.OLAP(联机分析处理)

C.OLTP(联机事务处理)

D.HiveQL(Hive查询语言)【答案】:B

解析:本题考察数据仓库核心技术。OLAP(OnlineAnalyticalProcessing)即联机分析处理,通过多维模型(如星型模型、雪花模型)和多维度分析工具(如Cube立方体),支持复杂的聚合查询和趋势分析,是数据仓库的核心分析能力。A选项ETL是数据仓库数据加载的过程,非分析技术;C选项OLTP(OnlineTransactionProcessing)是面向事务处理的系统(如银行交易),强调实时性和事务一致性,与分析型的OLAP相反;D选项HiveQL是Hive的数据查询语言,用于Hadoop平台的SQL操作,属于数据仓库工具的一部分,而非技术本身。因此正确答案为B。92.以下哪个大数据处理框架是专为实时流数据处理设计,具备低延迟和状态管理能力?

A.SparkStreaming(微批处理)

B.Flink(实时流处理)

C.KafkaStreams(微批处理)

D.SparkSQL(批处理查询)【答案】:B

解析:本题考察实时流处理框架特性。SparkStreaming基于微批处理(将流数据切分为小批次),延迟较高;Flink是真正的流处理框架,支持低延迟、状态管理和精确一次语义;KafkaStreams是消息队列Kafka的流处理API,本质是微批处理;SparkSQL主要用于批处理场景的SQL查询。因此正确答案为B。93.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式文件系统,专为海量数据存储设计,通过多副本机制保证数据可靠性;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;Hive是数据仓库工具,提供SQL查询接口。因此正确答案为A。94.以下哪项不属于YARN(YetAnotherResourceNegotiator)的核心组件?

A.ResourceManager

B.NodeManager

C.ApplicationMaster

D.NameNode【答案】:D

解析:本题考察YARN组件结构。YARN是Hadoop的资源管理系统,核心组件包括ResourceManager(全局资源管理)、NodeManager(节点资源管理)、ApplicationMaster(应用资源调度);而NameNode是HDFS的元数据管理组件,不属于YARN。因此正确答案为D。95.以下关于HDFS的描述,正确的是?

A.默认数据块副本数为3

B.数据块大小固定为128MB

C.HDFS不支持跨机架副本存储

D.NameNode直接存储实际数据块【答案】:A

解析:本题考察HDFS核心特性。A正确:HDFS默认数据块副本数为3,用于容错和高可用性;B错误:HDFS数据块大小在不同版本中可能调整(如旧版本64MB,新版本128MB),非固定值;C错误:HDFS支持机架感知,默认副本分布在不同机架以提升可靠性;D错误:NameNode仅存储元数据(如文件路径、块位置),实际数据块存储在DataNode。96.在MapReduce或Spark等分布式计算任务中,以下哪种情况最容易导致数据倾斜?

A.数据中存在大量空值

B.数据中存在大量重复的“热点Key”(如某商品ID被高频访问)

C.数据中存在较多缺失值

D.数据总量过大且分布均匀【答案】:B

解析:本题考察大数据处理中数据倾斜的成因知识点,正确答案为B。数据倾斜指部分计算节点负载过高(如某Reduce任务数据量远超其他),通常由“热点Key”导致——某Key值出现频率极高,所有含该Key的数据被分配到同一节点,造成负载失衡。A、C的空值/缺失值对倾斜影响较小;D中数据分布均匀则不会倾斜。因此选B。97.在ETL数据处理流程中,‘L’代表的步骤是?

A.提取(Extract)

B.转换(Transform)

C.加载(Load)

D.清洗(Cleanse)【答案】:C

解析:本题考察ETL流程的核心步骤。ETL全称为Extract(提取)→Transform(转换)→Load(加载),其中‘L’对应加载步骤,即将转换后的数据导入目标系统(如数据仓库)。选项A是‘E’步骤,选项B是‘T’步骤,选项D(清洗)属于转换步骤的子过程,非ETL标准步骤名称。98.数据仓库中常用的维度建模结构是?

A.星型模型

B.关系模型

C.树状模型

D.环形模型【答案】:A

解析:本题考察数据仓库模型知识点。星型模型是数据仓库维度建模的典型结构,以事实表为中心,周围环绕多个维度表,维度表包含描述性属性,事实表记录业务事件数据,结构清晰且易于分析查询;关系模型是数据库的基础模型,非数据仓库特有;树状模型和环形模型不是数据仓库的标准建模结构。因此正确答案为A。99.在数据仓库的维度建模中,用于描述业务事件和度量值的表是?

A.事实表

B.维度表

C.关系表

D.事务表【答案】:A

解析:本题考察数据仓库维度建模的核心概念。事实表在维度建模中存储业务事件的度量值(如销售额、订单量)和与维度表关联的外键,是分析的核心数据载体。维度表(B选项)主要存储描述性属性(如时间、地区);关系表(C选项)是通用数据库表结构术语,非维度建模专属;事务表(D选项)通常指业务系统原始交易表,非数据仓库维度建模中的术语。因此正确答案为A。100.与MapReduce相比,Spark的主要优势在于?

A.仅支持批处理任务

B.基于内存计算,速度更快

C.不需要集群资源即可运行

D.只能处理结构化数据【答案】:B

解析:本题考

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论