2026年大数据技术能力检测卷讲解【研优卷】附答案详解_第1页
2026年大数据技术能力检测卷讲解【研优卷】附答案详解_第2页
2026年大数据技术能力检测卷讲解【研优卷】附答案详解_第3页
2026年大数据技术能力检测卷讲解【研优卷】附答案详解_第4页
2026年大数据技术能力检测卷讲解【研优卷】附答案详解_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力检测卷讲解【研优卷】附答案详解1.以下哪项属于数据仓库中事实表的典型特征?

A.存储描述性信息(如产品名称、地区名称)

B.包含大量可加性度量值(如销售额、订单数量)

C.通常不包含与其他表关联的外键

D.数据规模较小,结构相对稳定【答案】:B

解析:事实表主要存储可量化的业务度量值(如销售额、数量)和关联维度表的外键,具有可加性(如“求和”);A是维度表特征(描述性信息);C错误,事实表需通过外键关联维度表;D错误,事实表通常因包含大量度量值而规模较大。2.以下关于Spark与MapReduce的对比,说法正确的是?

A.Spark仅支持内存计算,无法处理磁盘数据

B.Spark的迭代计算性能优于MapReduce,因为减少了磁盘IO

C.MapReduce的内存使用效率比Spark更高

D.Spark不支持批处理,仅支持流处理【答案】:B

解析:本题考察Spark与MapReduce的技术特性差异。Spark基于内存计算框架,迭代计算时无需频繁读写磁盘,大幅减少IO开销,因此性能远优于MapReduce。正确答案为B。错误选项分析:A选项错误,Spark支持内存+磁盘混合计算;C选项错误,MapReduce因需多次磁盘Shuffle,内存效率低于Spark;D选项错误,Spark既支持批处理(SparkSQL)也支持流处理(SparkStreaming)。3.在实时流处理场景中,以低延迟、高吞吐和‘精确一次’(Exactly-Once)语义著称的开源框架是?

A.Storm

B.Flink

C.SparkStreaming

D.KafkaStreams【答案】:B

解析:本题考察实时流处理框架的特性。Flink是Apache顶级项目,以低延迟、高吞吐和‘精确一次’语义为核心优势,支持事件时间窗口、状态管理等复杂流处理逻辑。A选项Storm虽支持实时处理,但语义通常为‘最多一次’或‘至少一次’;C选项SparkStreaming依赖微批处理,语义弱于Flink;D选项KafkaStreams是基于Kafka的轻量级流处理库,功能较Flink更单一。因此正确答案为B。4.在数据仓库设计中,以下哪项通常属于事实表?

A.用户基本信息表(包含用户ID、姓名、年龄等属性)

B.订单明细表(包含订单ID、产品ID、购买数量、金额等)

C.产品类别表(包含类别ID、类别名称、父类别ID等)

D.用户地址表(包含用户ID、省、市、街道等)【答案】:B

解析:本题考察数据仓库中事实表与维度表的区别知识点,正确答案为B。事实表是记录业务事件的数据表,包含可度量值(如数量、金额)和关联维度的外键;订单明细表记录具体订单的购买信息(包含数量、金额等度量值),属于事实表。A、C、D均为描述性属性表(维度表),用于提供事实表的上下文(如用户基本信息描述订单中的用户)。因此选B。5.在Hadoop分布式文件系统(HDFS)中,为保证数据可靠性和容错性,文件块(Block)的默认副本存储策略是?

A.仅存储在本地节点,避免跨节点冗余

B.优先存储在同机架的多个节点,最后跨机架节点

C.优先存储在本地机架节点,其次同机架不同节点,最后跨机架节点

D.默认存储在3个不同的随机节点,不考虑机架位置【答案】:C

解析:本题考察HDFS副本存储策略知识点。HDFS为防止单点故障(如机架断电或节点故障),默认将文件块副本分布在不同物理位置:优先存储在本地节点(减少网络传输),其次同机架其他节点(利用机架内带宽),最后跨机架节点(避免同机架整体故障)。选项A仅本地存储会导致单点故障;选项B未明确本地优先;选项D随机跨机架无法保证同机架内的冗余,故正确答案为C。6.在Hadoop分布式文件系统(HDFS)中,负责存储文件元数据(如文件路径、权限、块位置等)的核心组件是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:本题考察HDFS核心组件功能。NameNode是HDFS的元数据管理者,负责维护文件系统的命名空间和元数据;DataNode是实际存储数据块的节点,B错误;SecondaryNameNode主要用于元数据的备份与合并,非核心元数据存储,C错误;ResourceManager是YARN资源管理器,与HDFS无关,D错误。7.在数据仓库的维度建模中,星型模型的典型结构特征是?

A.以事实表为中心,周围关联多个维度表

B.以维度表为中心,周围关联多个事实表

C.事实表与维度表通过多对多关系直接关联

D.所有表均无冗余字段,采用完全规范化设计【答案】:A

解析:星型模型是数据仓库维度建模的核心结构,以事实表为中心(事实表存储业务度量值,如销售额、订单量),周围关联多个维度表(维度表存储描述性信息,如产品维度、时间维度),每个维度表仅通过主键与事实表关联,结构简单直观。选项B颠倒了主次;选项C错误,星型模型中维度表与事实表是一对多关系;选项D错误,星型模型为提升查询效率,存在适度冗余(维度表重复存储维度属性),并非完全规范化。因此正确答案为A。8.在Hadoop生态系统中,负责资源管理和任务调度的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:C

解析:本题考察Hadoop核心组件知识点。HDFS是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责批处理任务;YARN(YetAnotherResourceNegotiator)是资源管理器,核心功能是资源调度和任务分配;Hive是基于Hadoop的数据仓库工具,用于SQL类查询。因此正确答案为C。9.以下哪项不属于Hadoop2.x的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:D

解析:本题考察Hadoop核心组件的识别。Hadoop2.x的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce和资源管理器YARN。Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询,属于Hadoop生态系统的扩展工具而非核心组件。因此正确答案为D。10.在NoSQL数据库中,适合存储具有复杂嵌套结构(如用户多属性、日志多字段)且需要灵活查询的场景的数据库类型是?

A.文档型数据库

B.列族型数据库

C.键值型数据库

D.图数据库【答案】:A

解析:文档型数据库(如MongoDB)以文档(通常为JSON/BSON格式)为基本存储单元,天然支持复杂嵌套结构,可灵活存储和查询文档内的字段,适合存储用户信息、日志等半结构化数据。列族型数据库(如HBase)适合结构化的行列数据,如时序数据或高维稀疏矩阵;键值型数据库(如Redis)仅支持简单的键值对存储,结构单一;图数据库(如Neo4j)专注于存储和查询实体间的关系,不适合复杂嵌套结构。因此正确答案为A。11.关于Spark和Flink的技术特点,以下描述错误的是?

A.Spark是内存计算框架,支持批处理和流处理

B.Flink擅长低延迟、高吞吐的实时流处理

C.SparkStreaming采用微批处理模型,延迟较高

D.Flink仅支持流处理,无法处理批处理任务【答案】:D

解析:本题考察流处理与批处理框架的技术差异。选项A正确,Spark通过内存计算和DStream支持批处理(SparkSQL)和流处理(StructuredStreaming);选项B正确,Flink是流处理框架,以事件时间窗口和状态管理实现低延迟实时计算;选项C正确,SparkStreaming基于微批处理,典型延迟在秒级;选项D错误,Flink通过DataStreamAPI可同时支持流处理和批处理(将批处理视为有限流)。12.Hadoop生态系统中,负责资源管理、调度和集群资源分配的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x及以上版本的核心组件,负责集群资源(CPU、内存等)的管理和作业调度;HDFS是分布式存储系统,MapReduce是分布式计算框架,Hive是基于Hadoop的数据仓库工具,因此A、B、D错误。13.以下哪项是数据仓库区别于传统关系型数据库的关键特征?

A.面向主题的设计

B.支持实时事务处理

C.仅存储结构化数据

D.具备行级并发控制【答案】:A

解析:本题考察数据仓库的核心特性,正确答案为A。数据仓库是面向分析主题(如销售、用户行为等)组织的数据集合,强调数据的集成性、一致性和历史回溯性,而传统数据库(如MySQL)主要面向事务处理(OLTP),以行级事务和实时响应为目标。B选项“实时事务处理”是OLTP数据库的典型特征;C选项“仅存储结构化数据”错误,数据仓库也可存储半结构化/非结构化数据;D选项“行级并发控制”是传统数据库保障事务一致性的机制,非数据仓库特征。14.Hadoop分布式文件系统(HDFS)的核心组件不包括以下哪一项?

A.NameNode

B.DataNode

C.ResourceManager

D.SecondaryNameNode【答案】:C

解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(元数据备份)。而ResourceManager是YARN(YetAnotherResourceNegotiator)的核心组件,负责资源调度和集群管理,不属于HDFS。15.ApacheFlink相比其他流处理框架的核心优势之一是?

A.支持至少一次(At-Least-Once)语义

B.仅支持批处理,不支持流处理

C.支持精确一次(Exactly-Once)语义

D.必须依赖Spark进行计算【答案】:C

解析:ApacheFlink是流处理与批处理统一的计算引擎,核心优势包括低延迟、高吞吐和精确语义保证。选项A错误,“至少一次”是SparkStreaming早期的默认语义,Flink已实现更高级的“精确一次”;选项B错误,Flink同时支持流处理和批处理;选项C正确,Flink通过两阶段提交等机制实现数据处理的精确一次(Exactly-Once)语义,是其核心优势;选项D错误,Flink是独立计算引擎,无需依赖Spark。因此答案为C。16.在数据仓库的维度建模中,以下哪项通常作为事实表的核心指标?

A.产品名称

B.销售金额

C.客户地址

D.订单日期【答案】:B

解析:本题考察数据仓库维度建模的核心概念。维度建模中,事实表记录业务事件的度量值和关联的维度表外键,维度表记录描述性属性。A选项“产品名称”属于维度表(产品维度)的属性;B选项“销售金额”是业务事件的度量值,属于事实表的核心指标;C选项“客户地址”属于维度表(客户维度)的属性;D选项“订单日期”属于维度表(时间维度)的属性。因此正确答案为B。17.Spark与MapReduce相比,其显著优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持流处理、SQL等多种计算模型

C.仅支持批处理计算模式

D.提供更丰富的API(如RDD、DataFrame)【答案】:C

解析:本题考察Spark与MapReduce的核心差异。A选项正确,Spark基于内存计算,避免了MapReduce的磁盘IO开销,速度更快;B选项正确,Spark支持批处理(SparkCore)、流处理(SparkStreaming)、SQL(SparkSQL)等多种计算模式;C选项错误,Spark支持多种计算模型,而MapReduce主要局限于批处理,因此“仅支持批处理”是MapReduce的特点而非Spark的优势;D选项正确,Spark提供RDD、DataFrame、Dataset等丰富API,而MapReduce主要依赖Map和Reduce函数。因此正确答案为C。18.在MapReduce计算模型中,哪个阶段负责将Map输出的中间结果进行数据传输、排序和合并,以便Reduce阶段高效处理?

A.Map阶段

B.Reduce阶段

C.Sort阶段

D.Shuffle阶段【答案】:D

解析:本题考察MapReduce的执行流程。Map阶段负责并行处理输入数据并输出中间键值对;Reduce阶段基于Shuffle结果进行汇总计算;Sort阶段是Shuffle的子过程,并非独立阶段。Shuffle阶段的核心功能是数据传输、排序、分组与合并,为Reduce阶段提供有序的中间结果。因此正确答案为D。19.在Hadoop分布式文件系统(HDFS)中,负责管理文件元数据(如目录结构、文件信息、块的位置等)的核心节点是?

A.NameNode

B.DataNode

C.SecondaryNameNode

D.ResourceManager【答案】:A

解析:HDFS采用主从架构,NameNode是主节点,负责管理整个文件系统的元数据,包括文件和目录的创建、删除、重命名等操作,以及块的位置信息。DataNode是从节点,负责存储实际的数据块。SecondaryNameNode是辅助节点,主要用于周期性合并FsImage和EditLog,减轻NameNode负担,并非核心元数据管理者。ResourceManager是YARN的资源管理器,与HDFS无关。因此正确答案为A。20.下列实时流处理框架中,以低延迟(毫秒级)和Exactly-Once语义为核心特性的是

A.SparkStreaming(微批处理框架)

B.ApacheFlink(流处理框架)

C.HadoopStreaming(管道式计算工具)

D.KafkaStreams(基于Kafka的实时处理)【答案】:B

解析:本题考察实时计算框架特性知识点。ApacheFlink是专为流处理设计的开源框架,核心特性包括低延迟(毫秒级响应)、高吞吐和Exactly-Once语义(确保数据处理准确性)。选项ASparkStreaming基于微批处理,存在秒级延迟且语义为At-Least-Once;选项CHadoopStreaming是MapReduce的扩展工具,主要用于批处理而非实时流处理;选项DKafkaStreams依赖Kafka作为数据源,虽支持流处理但延迟和语义特性弱于Flink。故正确答案为B。21.以下哪种系统主要用于企业级数据分析和决策支持?

A.OLTP系统

B.OLAP系统

C.关系型数据库

D.分布式文件系统【答案】:B

解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)系统面向决策支持,通过数据仓库整合多源数据,支持复杂分析查询(如钻取、切片)。A错误:OLTP(联机事务处理)系统面向业务操作(如电商订单、银行转账),强调事务一致性;C错误:关系型数据库(如MySQL)属于OLTP系统的典型载体,而非专门的分析系统;D错误:分布式文件系统(如HDFS)仅负责数据存储,不提供分析能力。因此正确答案为B。22.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB以JSON格式的文档(Document)为基本存储单元,属于文档型数据库,支持嵌套结构与灵活查询。A选项键值型如Redis(Key-Value对);C选项列族型如HBase(按列族组织数据);D选项图数据库如Neo4j(存储实体与关系)。因此正确答案为B。23.Spark相比MapReduce的核心优势是?

A.支持SQL查询功能

B.基于内存计算,执行速度更快

C.仅能处理批处理任务

D.仅支持Java语言开发【答案】:B

解析:本题考察大数据计算框架对比。Spark核心设计为内存计算(中间结果存内存而非磁盘),大幅减少IO开销,执行速度远快于MapReduce(依赖磁盘读写)。选项A中SQL查询可通过SparkSQL或Hive实现,非Spark独有;选项C错误,Spark同时支持批处理和流处理;选项D错误,Spark支持Scala、Java、Python等多语言,故正确答案为B。24.在数据治理中,用于记录数据从产生到消费全生命周期流转路径的元数据属于?

A.技术元数据(描述数据存储位置、格式等)

B.业务元数据(描述数据业务含义、术语等)

C.操作元数据(描述数据访问频率、更新规则等)

D.血缘元数据(数据血缘关系元数据)【答案】:D

解析:数据血缘元数据专门记录数据的来源、转换、加工和使用过程,即全生命周期流转路径;A技术元数据侧重存储技术细节;B业务元数据侧重业务上下文;C操作元数据侧重数据使用和质量规则;因此D为正确答案。25.在ApacheFlink中,“Exactly-Once”语义的主要作用是?

A.确保数据处理的低延迟,亚秒级响应

B.保证流数据处理中每条记录被精确处理且不多次处理

C.支持动态调整并行度以优化资源利用

D.允许在处理过程中实时更新数据字典【答案】:B

解析:本题考察流处理框架的核心语义。“Exactly-Once”是流处理中的关键特性,确保数据在故障恢复后既不丢失也不重复,每条记录仅被处理一次。选项A描述的是Flink的低延迟窗口特性(如毫秒级处理),与Exactly-Once无关;选项C是Flink的动态资源调度能力;选项D属于元数据更新,与数据处理语义无关。26.在数据仓库的维度建模中,以下哪种模型的事实表通常与多个维度表通过外键关联,且每个维度表结构相对简单,类似于星星的形状?

A.星型模型

B.雪花模型

C.星座模型

D.星环模型【答案】:A

解析:本题考察数据仓库维度建模的知识点。星型模型是维度建模的经典结构,其特点是事实表位于中心,与多个维度表直接关联,每个维度表结构简单(如只包含维度属性和主键),整体呈现类似“星星”的形状。雪花模型是星型模型的扩展,维度表可能进一步分解为子维度表(如将“地区”维度表拆分为“国家-省-市”多级结构),结构更复杂;星座模型是多个星型模型共享事实表的组合模型;数据仓库中无“星环模型”这一标准术语。因此正确答案为A。27.在数据仓库的维度建模中,通过将维度表设计为层级结构以减少数据冗余的模型是?

A.星型模型

B.雪花模型

C.星座模型

D.事实星座模型【答案】:B

解析:本题考察数据仓库维度建模类型。雪花模型通过拆分维度表为层级结构(如“国家-省-市”),避免重复存储维度属性,B正确;星型模型的维度表为扁平结构,直接关联事实表,A错误;星座模型(FactConstellation)是多个事实表共享维度表的组合模型,C错误;事实星座模型属于星座模型的别称,D错误。28.以下哪项属于数据质量的核心维度?

A.及时性

B.冗余性

C.可扩展性

D.可移植性【答案】:A

解析:本题考察数据质量的关键指标。数据质量维度通常包括完整性(数据是否缺失)、准确性(数据是否正确)、及时性(数据是否新鲜)、一致性(数据是否统一)等。B选项“冗余性”是数据存储中的冗余设计,非质量维度;C选项“可扩展性”是系统架构特性;D选项“可移植性”是数据或系统的迁移能力,均不属于数据质量维度。因此正确答案为A。29.HDFS分布式文件系统中,默认的块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基本特性。HDFS(Hadoop分布式文件系统)的块大小是可配置的,默认情况下,Hadoop2.x及以上版本的块大小为128MB,这一设计可降低寻址时间、优化并行处理效率。选项A(64MB)是HDFS1.x的默认块大小,选项C、D均非HDFS默认块大小。因此正确答案为B。30.下列关于ApacheSpark的描述,哪项是其核心优势?

A.必须依赖磁盘进行中间结果存储,保证可靠性

B.支持内存计算,中间结果无需频繁写入磁盘

C.仅适用于批处理任务,无法处理实时流数据

D.计算逻辑必须显式使用Map和Reduce两个步骤【答案】:B

解析:本题考察Spark分布式计算框架的核心特性。Spark的核心优势是基于内存计算,中间结果可缓存在内存中(或堆外内存),避免了MapReduce中频繁将中间结果写入磁盘的I/O开销,因此处理速度比MapReduce快数倍。A错误,Spark优先使用内存而非依赖磁盘;C错误,Spark同时支持批处理(RDD/SparkSQL)和流处理(StructuredStreaming);D错误,Spark的计算逻辑更简洁,无需显式调用Map/Reduce步骤,支持多种算子组合。31.下列关于ApacheSpark的描述,正确的是?

A.基于磁盘的计算框架,仅支持批处理

B.SparkStreaming采用微批处理模型处理流数据

C.不支持迭代计算,需重复读取数据

D.仅支持Java语言开发【答案】:B

解析:Spark是内存计算框架,支持批处理与流处理。选项A错误,Spark基于内存计算,且SparkStreaming支持实时流处理;选项B正确,SparkStreaming通过将流数据分割为小批量(微批)进行处理,是其核心流处理模型;选项C错误,Spark通过RDD持久化和内存缓存支持高效迭代计算;选项D错误,Spark支持Scala、Java、Python、R等多种编程语言。因此答案为B。32.在Kafka消息队列中,当一个消费者组内的消费者数量超过分区数量时,会出现什么情况?

A.所有消费者均能消费到数据(负载均衡)

B.只有部分消费者能消费到数据(多余消费者空闲)

C.所有消费者均无法消费到数据(冲突错误)

D.消费者数量自动调整为分区数量(动态扩容)【答案】:B

解析:本题考察Kafka分区与消费者组的分配机制,正确答案为B。Kafka中每个分区仅被组内一个消费者独占消费,若消费者数量>分区数,多余消费者将无分区可消费,处于空闲状态。错误选项分析:A选项违背分区独占原则;C选项错误,仅多余消费者空闲;D选项错误,消费者数量由用户配置,Kafka不自动调整。33.在数据仓库建设中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的主要区别在于?

A.ETL需要先转换再加载,ELT先加载再转换

B.ETL只能处理结构化数据,ELT只能处理非结构化数据

C.ETL的数据转换在ETL工具中完成,ELT在数据仓库中完成

D.ETL适用于实时处理,ELT适用于批处理【答案】:A

解析:本题考察数据仓库ETL流程的核心逻辑。ETL的执行顺序是**先抽取数据→转换数据(清洗、标准化等)→加载到目标仓库**;ELT则是**先抽取数据→直接加载到目标仓库→在仓库内进行转换**。B选项错误,ETL和ELT均可处理结构化/非结构化数据(仅工具适配性差异);C选项错误,ELT的转换并非“仅在数据仓库中”,而是在加载后,而ETL的转换是在抽取后、加载前,两者均涉及转换步骤;D选项错误,ETL和ELT均适用于批处理,实时处理通常采用流处理架构(如Flink),与ETL/ELT无关。34.MongoDB数据库按数据模型分类,属于以下哪种NoSQL类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库的分类及典型代表。MongoDB以BSON(BinaryJSON)格式存储半结构化文档数据,支持嵌套字段和灵活的模式设计,属于文档型数据库。A错误,键值型数据库(如Redis)仅存储简单键值对,无嵌套结构;C错误,列族型数据库(如HBase)按列族组织数据,适用于海量结构化数据(如时序数据);D错误,图数据库(如Neo4j)以节点和边存储关系数据,与MongoDB的文档模型无关。35.在Hadoop分布式文件系统(HDFS)中,默认的副本因子(ReplicationFactor)是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:HDFS默认副本因子为3,目的是通过冗余存储提高数据可靠性,同时平衡存储开销与容错能力。若副本因子为1(A选项),数据单点故障时无法恢复;2(B选项)虽能提供一定冗余,但可靠性低于3;4(D选项)会显著增加存储资源消耗且无必要。36.在数据仓库的维度建模中,星型模型的核心特征是?

A.所有维度表通过中间表关联事实表

B.以事实表为中心,维度表直接关联事实表

C.维度表存在多层嵌套的层级结构

D.所有表均采用第三范式规范化设计【答案】:B

解析:本题考察数据仓库星型模型的概念。星型模型是维度建模的典型结构,以事实表为核心,周围直接连接多个维度表(如日期、产品、地区等),结构简单直观。选项A错误,星型模型维度表直接关联事实表,无需中间表;选项C描述的是雪花模型(维度表有层级结构),与星型模型无关;选项D错误,星型模型不严格遵循第三范式,更注重查询效率而非规范化。因此正确答案为B。37.Hadoop分布式文件系统(HDFS)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS为提高数据可靠性和容错能力,默认将文件存储为3个副本,分布在不同节点上,即使单个节点故障也能恢复数据。选项A(1个副本)易因单点故障导致数据丢失;选项B(2个副本)虽有冗余但可靠性低于3副本;选项D(4个副本)为非默认配置,会增加存储开销。因此正确答案为C。38.在数据仓库的维度建模中,用于描述业务事件和度量值的表是?

A.事实表

B.维度表

C.关系表

D.事务表【答案】:A

解析:本题考察数据仓库维度建模的核心概念。事实表在维度建模中存储业务事件的度量值(如销售额、订单量)和与维度表关联的外键,是分析的核心数据载体。维度表(B选项)主要存储描述性属性(如时间、地区);关系表(C选项)是通用数据库表结构术语,非维度建模专属;事务表(D选项)通常指业务系统原始交易表,非数据仓库维度建模中的术语。因此正确答案为A。39.MongoDB是哪种类型的NoSQL数据库?

A.键值(Key-Value)型

B.列族(Column-Family)型

C.文档(Document)型

D.图(Graph)型【答案】:C

解析:本题考察NoSQL数据库的类型及代表。MongoDB以JSON(BSON)格式存储数据,属于文档型数据库,每个文档是一个独立的数据单元,支持嵌套结构和灵活的模式。A选项键值型如Redis、DynamoDB,以键值对存储;B选项列族型如HBase、Cassandra,按列族组织数据,适合稀疏数据;D选项图数据库如Neo4j,以节点和关系存储复杂网络数据(如社交关系)。MongoDB的核心是文档模型,因此正确答案为C。40.Spark与MapReduce相比,最显著的性能优势主要来源于以下哪个特性?

A.基于内存的计算模型

B.仅支持批处理任务

C.依赖分布式存储系统HDFS

D.专门针对实时流处理优化【答案】:A

解析:本题考察主流大数据处理框架的核心差异。Spark通过内存计算避免了MapReduce中频繁的磁盘IO操作,大幅提升计算速度。错误选项分析:B选项错误,MapReduce本身也支持批处理;C选项错误,HDFS是Hadoop生态的分布式存储,并非Spark独有的优势;D选项错误,SparkStreaming可处理流数据,但实时流处理的核心优势(如低延迟)并非Spark的基础特性。41.在数据仓库的维度建模中,以下哪项是星型模型的核心特征?

A.事实表与多个维度表通过外键关联,且所有维度表围绕一个中心事实表展开

B.事实表与维度表是多对多关系

C.所有表都通过主键-外键关系形成严格的星型结构

D.仅包含一个事实表和一个维度表【答案】:A

解析:本题考察数据仓库维度建模的星型模型特征。星型模型的核心是存在一个中心事实表,多个维度表(如时间、地区维度)通过外键与事实表关联,维度表间无直接关联。正确答案为A。错误选项分析:B选项错误,星型模型中事实表与维度表是一对多关系;C选项错误,维度表间无主键-外键关联;D选项错误,星型模型包含一个事实表和多个维度表。42.在数据仓库的分层设计中,负责存储原始业务数据、未经任何清洗和转换的数据层是?

A.ODS层

B.DWD层

C.DWS层

D.ADS层【答案】:A

解析:本题考察数据仓库分层知识点。数据仓库典型分层包括:ODS(操作数据存储,存储原始数据,未清洗)、DWD(数据明细层,经过清洗和标准化)、DWS(数据汇总层,多维度聚合)、ADS(应用数据服务层,面向业务应用)。选项B“DWD层”已完成数据清洗,C“DWS层”为汇总层,D“ADS层”为应用输出层,均不符合“原始数据未清洗”的描述。43.大数据的4V特征中,体现数据生成和处理速度的是以下哪一项?

A.Volume(数据量大)

B.Velocity(处理速度快)

C.Variety(数据类型多样)

D.Veracity(数据准确性)【答案】:B

解析:本题考察大数据的4V特征知识点。大数据的4V特征中,Velocity(速度)特指数据生成和处理的快速性,包括实时或准实时的数据采集与分析需求。A选项Volume指数据规模庞大,C选项Variety指数据类型多样(结构化、半结构化、非结构化),D选项Veracity指数据的真实性与可靠性。因此正确答案为B。44.以下哪种算法属于无监督学习?

A.K-means聚类算法

B.支持向量机(SVM)分类算法

C.线性回归预测算法

D.决策树分类算法【答案】:A

解析:本题考察机器学习算法类型。无监督学习无需标签数据,通过数据内在特征分组。K-means是典型无监督聚类算法,通过距离度量划分数据簇。支持向量机(SVM)、线性回归、决策树均需标注数据(如类别标签或数值目标),属于监督学习。正确答案为A。45.Hadoop分布式文件系统(HDFS)中,默认情况下一个文件被分割成的块(Block)大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数,HDFS的块大小是平衡存储效率与数据传输效率的关键配置。在Hadoop2.x及以后版本中,默认块大小为128MB(1.x版本曾为64MB,但目前主流场景已升级至128MB)。选项B为旧版本HDFS的默认配置,C、D不符合主流技术标准,因此正确答案为A。46.在大数据数据仓库构建中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的核心区别在于?

A.ETL在数据加载后进行转换,ELT在加载前转换

B.ETL先抽取、转换后加载,ELT先抽取、加载后转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL需实时处理,ELT支持批量处理【答案】:B

解析:ETL流程是抽取(Extract)→转换(Transform)→加载(Load),即先转换数据再写入目标系统;ELT则是抽取(Extract)→加载(Load)→转换(Transform),即先将原始数据加载到目标存储(如数据仓库),再在目标系统中进行转换。ELT因数据先入仓库,可减少数据传输量,更适合大数据场景;A选项描述颠倒;C选项两者均可处理结构化/半结构化数据;D选项两者均支持批处理,ELT更适合实时流数据场景。47.在大数据平台中,为保护敏感数据(如用户身份证号、手机号)不被泄露,以下哪种技术属于数据脱敏范畴?

A.数据加密(如AES加密)

B.数据脱敏(如替换为随机字符串)

C.数据压缩(如gzip)

D.数据清洗(如去重)【答案】:B

解析:本题考察大数据安全技术,正确答案为B。数据脱敏是通过对敏感数据进行变形处理(如替换、屏蔽、打乱),使其在非授权场景下无法识别原始信息,属于数据安全的“数据匿名化”手段。A选项“数据加密”是对数据进行可逆/不可逆转换,通常用于存储或传输中的加密保护,与“脱敏”不同;C选项“数据压缩”用于减少存储/传输体积,D选项“数据清洗”用于去除噪声/异常数据,均与敏感数据保护无关。48.以下哪种数据库适合存储大量非结构化数据(如JSON格式日志、半结构化文档)?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.键值型数据库(如Redis)

D.列族型数据库(如HBase)【答案】:B

解析:本题考察NoSQL数据库类型及适用场景。MongoDB是典型文档型数据库,支持存储和查询半结构化/非结构化的JSON文档;关系型数据库(A)擅长结构化数据事务处理,键值型数据库(C)适合缓存和简单键值场景,列族型数据库(D)适合结构化数据随机读写,因此正确答案为B。49.下列哪个技术框架以低延迟、高吞吐的实时流数据处理能力著称?

A.Spark

B.Hadoop

C.Flink

D.Hive【答案】:C

解析:本题考察流处理技术框架知识点。Flink是专门的实时流处理引擎,具备低延迟、高吞吐、精确一次语义等特性,适用于实时数据场景。Spark(A)以批处理和微批流处理为主;Hadoop(B)以批处理框架为核心;Hive(D)是数据仓库工具,不负责流处理。因此正确答案为C。50.在数据仓库构建流程中,‘先加载原始数据到目标数据仓库,再进行数据转换’的模式称为?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL+ELT混合模式

D.LT(Load-Transform)【答案】:B

解析:本题考察ETL与ELT的概念区别。ETL(A选项)是先抽取(Extract)、转换(Transform)、再加载(Load)到数据仓库;ELT(B选项)则是先将原始数据直接加载(Load)到数据仓库,再在仓库内进行转换(Transform),可利用目标端强大计算资源处理大数据量。C选项混合模式非标准术语;D选项LT未涵盖数据抽取环节。因此正确答案为B。51.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.实时性高,支持事务处理

B.面向主题,集成历史数据

C.直接存储原始业务数据

D.支持实时数据写入与更新【答案】:B

解析:本题考察数据仓库特点。数据仓库以“面向主题、集成性、非易失性、时变性”为核心特点:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化反映历史趋势)。A、D是OLTP(事务处理系统)特点,C是原始数据库特征。因此正确答案为B。52.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,具有高容错性和高吞吐量。MapReduce(B选项)是分布式计算框架,YARN(C选项)是资源管理器,Hive(D选项)是基于Hadoop的数据仓库工具,均不负责分布式文件存储。因此正确答案为A。53.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。54.大数据的核心特征不包括以下哪一项?

A.Veracity

B.Volume

C.Velocity

D.Variety【答案】:A

解析:本题考察大数据的核心特征知识点。大数据的核心特征通常指“4V”:Volume(数据容量大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Value(数据蕴含价值)。选项A的Veracity(真实性)并非大数据的核心特征,因此正确答案为A。选项B、C、D均为大数据的核心特征,故排除。55.Spark作为内存计算框架,其显著提升性能的核心原因是?

A.基于内存计算,减少磁盘I/O操作

B.支持SQL查询和关系型数据处理

C.兼容Hadoop生态系统所有组件

D.采用MapReduce作为底层计算引擎【答案】:A

解析:本题考察Spark的技术特性。Spark的核心优势在于基于内存计算,将数据缓存在内存中(支持RDD弹性分布式数据集),避免了MapReduce中大量的磁盘读写操作,从而大幅提升计算速度。B选项SQL查询是Hive、SparkSQL的功能,但非Spark性能优势的核心;C选项兼容性是生态特性,与性能无关;D选项MapReduce是Spark的前身,Spark采用DAG执行引擎而非直接依赖MapReduce。因此正确答案为A。56.MapReduce框架的核心数据处理模型是什么?

A.仅支持文本格式

B.仅支持二进制格式

C.键值对(Key-Value)

D.列表结构【答案】:C

解析:本题考察MapReduce的工作原理。MapReduce的核心是将任务分解为Map(映射)和Reduce(归约)两个阶段,所有输入输出均以键值对(Key-Value)形式处理。选项A、B错误,因为MapReduce支持多种数据格式(如SequenceFile、Avro等),并非仅支持文本或二进制;选项D错误,列表结构无法满足MapReduce的并行计算模型需求。因此正确答案为C。57.大数据数据清洗中,处理数值型数据缺失值时最常用的方法是?

A.直接删除整行数据

B.使用均值/中位数填充

C.用众数填充

D.忽略缺失值不处理【答案】:B

解析:本题考察数据清洗技术。数值型数据缺失值常用均值、中位数或线性插值填充,以保留数据分布特征。选项A删除整行可能丢失大量信息;选项C众数用于类别型数据(如颜色、性别);选项D忽略会导致统计偏差,故正确答案为B。58.关于Spark中RDD(弹性分布式数据集)的特性,描述错误的是?

A.RDD具有不可变性

B.RDD支持分区操作

C.RDD的转换操作是延迟执行的

D.RDD必须在内存中进行计算【答案】:D

解析:本题考察SparkRDD的核心特性。RDD是Spark的基础抽象,具有不可变性(A正确)、可分区(B正确)、转换操作惰性执行(仅在动作操作触发时计算,C正确);RDD支持内存和磁盘混合存储,当内存不足时会自动落盘,并非“必须在内存中进行”,D错误。59.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是分布式计算框架,用于数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群管理。因此正确答案为A。60.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。61.Kafka中分区(Partition)的主要作用是?

A.提高数据吞吐量

B.降低消息延迟

C.增加数据存储量

D.减少数据丢失风险【答案】:A

解析:本题考察Kafka分区机制。Kafka通过分区并行存储和处理消息,每个分区由一个Leader副本负责读写,多个Follower副本同步数据,分区越多,并行度越高,整体吞吐量越大。B选项延迟与分区数无直接关联;C选项分区不会增加数据总量(仅分散存储);D选项数据丢失风险由副本数决定,与分区无关。因此正确答案为A。62.Hadoop生态系统中,负责分布式存储的核心组件是?

A.YARN(资源管理器)

B.HDFS(分布式文件系统)

C.MapReduce(计算框架)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察Hadoop生态系统的核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责将数据分割成块并在多节点存储,实现高容错和高吞吐量的分布式存储。A选项YARN是Hadoop2.x的资源管理器,负责调度集群资源;C选项MapReduce是基于磁盘的分布式计算框架,现已被Spark等替代;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询和数据仓库构建。因此正确答案为B。63.适用于存储用户社交关系网络(如好友列表、关注关系)的数据库类型是?

A.键值型数据库(如Redis)

B.文档型数据库(如MongoDB)

C.列族型数据库(如HBase)

D.图数据库(如Neo4j)【答案】:D

解析:本题考察NoSQL数据库类型的适用场景。选项A键值型数据库适合简单KV映射(如缓存、会话存储);选项B文档型数据库适合存储嵌套结构数据(如JSON文档);选项C列族型数据库适合海量结构化数据(如时序数据、日志);选项D图数据库(D)通过节点和边的关系模型,天然适合存储社交关系网络、知识图谱等复杂关联数据,因此正确。64.以下哪项是Hadoop分布式文件系统(HDFS)的默认副本系数?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本系数为3,以平衡数据可靠性与存储成本。A选项1个副本易因单点故障丢失数据;B选项2个副本容错性不足,仍存在数据丢失风险;D选项4个副本会过度消耗存储空间,不符合经济存储原则。65.数据仓库设计中,‘星型模型’的核心特点是?

A.包含一个中心事实表和多个维度表

B.所有表均通过外键关联,结构复杂

C.仅适用于小规模数据仓库,扩展性差

D.支持复杂的多表嵌套查询,性能优异【答案】:A

解析:本题考察数据仓库的星型模型特性。星型模型的核心是由一个中心事实表(存储业务度量数据,如销售额、订单量)和多个维度表(存储描述性信息,如时间、用户、产品)组成,通过主键-外键关联,结构简单直观。B选项错误,星型模型结构简单,无复杂外键嵌套;C选项错误,星型模型因结构清晰,适合大规模数据仓库;D选项错误,星型模型因连接简单,查询性能优异,但复杂多表连接能力弱于雪花模型(雪花模型通过维度表分层实现多表连接)。因此正确答案为A。66.以下哪项是数据仓库(DataWarehouse)的典型应用场景?

A.实时处理电商订单交易

B.支持企业级复杂业务分析查询

C.存储原始日志数据不做处理

D.仅支持结构化数据存储【答案】:B

解析:本题考察数据仓库核心特征。数据仓库是面向分析的集成数据集合,用于支持企业级复杂分析查询(如OLAP操作)。A是OLTP(联机事务处理)的应用场景;C错误,数据仓库通常经过ETL/ELT处理,非原始数据;D错误,现代数据仓库可支持半结构化数据(如JSON)。因此正确答案为B。67.在数据治理中,用于描述数据来源、结构、血缘关系的元数据属于?

A.技术元数据

B.业务元数据

C.操作元数据

D.管理元数据【答案】:A

解析:本题考察元数据分类。A正确:技术元数据包含数据结构、字段定义、数据血缘(来源系统)等技术层面信息;B错误:业务元数据描述数据业务含义(如“客户年龄”代表的业务价值);C错误:操作元数据记录数据访问频率、存储位置等操作行为信息;D错误:管理元数据涉及数据质量、安全策略等管理规则。68.在数据挖掘中,K-Means算法属于以下哪种学习类型?

A.监督学习(SupervisedLearning)

B.无监督学习(UnsupervisedLearning)

C.半监督学习(Semi-SupervisedLearning)

D.强化学习(ReinforcementLearning)【答案】:B

解析:本题考察数据挖掘算法分类知识点。K-Means是典型的无监督聚类算法,核心是通过距离度量(如欧氏距离)将无标签数据自动划分成K个簇,无需人工标注样本标签。监督学习(A)需标签训练(如分类算法SVM);半监督学习(C)需少量标签+大量无标签数据,与K-Means无直接关联;强化学习(D)通过环境反馈优化策略,与聚类无关。故正确答案为B。69.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。70.Spark相比MapReduce的主要优势不包括以下哪项?

A.支持内存计算,迭代任务效率更高

B.采用DAG执行引擎,减少磁盘IO

C.必须依赖磁盘进行中间结果存储

D.提供更丰富的API和数据处理模型【答案】:C

解析:本题考察Spark与MapReduce的技术特性对比。Spark的核心优势在于内存计算(减少磁盘IO)、DAG执行引擎优化任务依赖、丰富的API(如DataFrame、Dataset)。选项A正确描述了Spark内存计算的优势;选项B指出Spark通过DAG减少磁盘IO,符合其特性;选项D说明Spark支持更灵活的数据处理模型。而选项C“必须依赖磁盘进行中间结果存储”是MapReduce的特点(MapReduce基于磁盘读写),并非Spark的优势,因此错误。正确答案为C。71.以下哪种数据脱敏方法是在数据存储阶段对敏感数据进行处理,以保护数据安全?

A.静态脱敏

B.动态脱敏

C.实时脱敏

D.脱敏算法【答案】:A

解析:本题考察数据脱敏技术的分类。静态脱敏是在数据存储阶段(如ETL过程中)对敏感数据进行脱敏处理,生成脱敏后的数据存储,适用于离线分析场景(A正确);动态脱敏是在数据访问时实时处理(如查询过程中),适用于在线场景;C选项“实时脱敏”属于动态脱敏的一种细分,并非独立分类;D选项“脱敏算法”是脱敏的技术手段而非方法类型。因此正确答案为A。72.Spark相比MapReduce的主要优势在于?

A.采用内存计算,减少磁盘I/O

B.仅支持Java语言开发

C.必须基于磁盘存储中间结果

D.无法处理迭代计算任务【答案】:A

解析:本题考察Spark与MapReduce的技术差异。A正确:Spark基于内存计算RDD,迭代计算时无需反复读写磁盘,性能远优于MapReduce;B错误:Spark支持Scala、Java、Python、R等多语言开发;C错误:MapReduce依赖磁盘存储中间结果,Spark优先内存存储;D错误:Spark擅长迭代计算(如机器学习算法),MapReduce则不适合。73.Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,支持高容错、高吞吐量的文件存储;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。74.在MapReduce或Spark等分布式计算任务中,以下哪种情况最容易导致数据倾斜?

A.数据中存在大量空值

B.数据中存在大量重复的“热点Key”(如某商品ID被高频访问)

C.数据中存在较多缺失值

D.数据总量过大且分布均匀【答案】:B

解析:本题考察大数据处理中数据倾斜的成因知识点,正确答案为B。数据倾斜指部分计算节点负载过高(如某Reduce任务数据量远超其他),通常由“热点Key”导致——某Key值出现频率极高,所有含该Key的数据被分配到同一节点,造成负载失衡。A、C的空值/缺失值对倾斜影响较小;D中数据分布均匀则不会倾斜。因此选B。75.Hive的元数据(Metadata)默认存储在哪个组件中?

A.HDFS

B.HBase

C.Derby

D.MySQL【答案】:C

解析:本题考察Hive元数据存储。Hive默认使用内嵌式Derby数据库存储元数据(表结构、分区信息等),适合单机测试场景。A选项HDFS是数据存储层,非元数据存储;B选项HBase是NoSQL数据库,与Hive元数据无关;D选项MySQL是可选的外部元数据存储(需手动配置)。因此正确答案为C。76.在数据仓库的维度建模中,用于存储业务度量值(如销售额、订单量)的表是?

A.维度表

B.事实表

C.雪花表

D.星型表【答案】:B

解析:本题考察数据仓库的维度建模。事实表存储业务事件的度量值(如“订单金额”)和关联维度表的外键(如“客户ID”“产品ID”),描述业务过程的量化结果。选项A(维度表)存储描述事实表的属性(如时间、地区、客户详情);选项C(雪花表)和D(星型表)是维度表的设计形式(星型表为单层维度表,雪花表为多层维度表),非度量值存储表。77.在实时流处理系统中,Kafka的主要作用是?

A.提供分布式计算能力

B.存储实时计算结果

C.作为数据源接收和转发实时数据流

D.负责数据的持久化存储【答案】:C

解析:本题考察实时流处理系统中Kafka的角色。A选项错误,分布式计算能力由Flink、SparkStreaming等框架提供;B选项错误,实时计算结果通常存储于HBase、Redis等存储系统,Kafka不直接负责结果存储;C选项正确,Kafka是高吞吐量消息队列,作为流处理系统的核心数据源,负责接收、存储和转发实时数据流,实现上下游系统的解耦;D选项错误,Kafka虽支持消息持久化,但核心作用是数据传输而非通用持久化存储。因此正确答案为C。78.数据仓库(DataWarehouse)的核心特征不包括以下哪项?

A.面向主题

B.集成性

C.实时性

D.非易失性【答案】:C

解析:数据仓库的核心特征包括:面向主题(围绕业务主题组织数据)、集成性(整合多源数据并消除冲突)、非易失性(数据仅追加不修改,用于历史分析)、时变性(数据随时间积累,反映历史趋势)。“实时性”是OLTP系统(联机事务处理)的典型特征,数据仓库主要用于离线分析和历史趋势挖掘,不强调实时性,因此答案为C。79.ApacheSpark相比传统MapReduce计算框架,显著提升处理速度的核心原因是?

A.基于内存计算,减少磁盘I/O开销

B.仅支持批处理,不支持流处理

C.只能处理结构化数据,灵活性低

D.依赖HDFS存储所有数据,稳定性差【答案】:A

解析:本题考察Spark的技术特性。Spark采用内存计算模型,优先将数据缓存在内存中,避免MapReduce依赖磁盘I/O的低效问题,A正确;Spark同时支持批处理和流处理(StructuredStreaming),B错误;Spark支持Scala、Java、Python等多语言,且可处理非结构化数据(如JSON、图片),C、D错误。80.下列哪个大数据流处理框架支持毫秒级低延迟的精确一次(Exactly-Once)语义?

A.SparkStreaming

B.ApacheFlink

C.KafkaStreams

D.StormSpout【答案】:B

解析:本题考察流处理框架核心特性。正确答案为B,ApacheFlink是专为流处理设计的框架,通过Checkpoint机制和状态管理,天然支持毫秒级低延迟和精确一次语义,能保证数据处理的准确性和一致性。错误选项解释:A选项SparkStreaming基于微批处理,延迟通常为秒级,精确一次语义需依赖外部存储;C选项KafkaStreams是基于Kafka的流处理API,虽支持流处理,但精确一次语义需结合Kafka的事务特性,且框架本身不直接提供毫秒级低延迟;D选项Spout是Storm的组件,仅负责数据接入,非完整流处理框架。81.Flink流处理框架中,“事件时间(EventTime)”的定义是?

A.Flink系统处理数据的本地系统时间

B.事件在数据源中实际产生的时间戳

C.事件被Flink算子处理的执行时间

D.事件在Kafka分区中的写入时间【答案】:B

解析:本题考察Flink事件时间处理知识点。事件时间是事件本身的产生时间,用于处理乱序数据或迟到数据(需结合水印机制)。选项A是“处理时间(ProcessingTime)”;选项C描述的是处理时间或算子执行时间;选项D混淆了事件时间与数据存储时间,事件时间是事件自身的时间戳,与分区写入时间无关。82.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式文件系统,专为海量数据存储设计,通过多副本机制保证数据可靠性;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;Hive是数据仓库工具,提供SQL查询接口。因此正确答案为A。83.在大数据处理中,以下哪项属于数据质量方面的典型挑战?

A.数据采集速度过慢

B.数据存储成本过高

C.数据存在重复或缺失

D.数据处理框架选择困难【答案】:C

解析:数据质量问题包括数据重复、缺失、格式不一致等,是大数据处理中需优先解决的问题。A选项属于数据采集效率挑战,B属于存储资源挑战,D属于技术选型挑战,均不属于数据质量范畴。84.在大数据数据处理流程中,ETL和ELT是两种常见的数据抽取、转换和加载策略,以下关于两者的描述正确的是?

A.ETL是先加载数据到目标系统,再进行转换

B.ELT是先加载数据到目标系统,再进行转换

C.ETL通常在源系统资源紧张时使用

D.ELT通常在目标系统资源有限时使用【答案】:B

解析:本题考察ETL与ELT的概念及适用场景知识点。ETL(Extract-Transform-Load)的流程是先从源系统抽取数据,在源系统或独立转换节点完成数据清洗、转换,再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中完成数据转换。ELT的优势在于可利用目标系统(如数据仓库)的计算资源进行转换,适合数据量大、源系统资源有限的场景;而ETL更适合源系统计算能力较强、目标系统资源有限的场景。选项A描述的是ELT流程,错误;选项C、D对两者适用场景描述颠倒。因此正确答案为B。85.在大数据分析中,K-means算法主要用于解决什么问题?

A.分类问题(如垃圾邮件识别)

B.聚类问题(如用户分群)

C.预测问题(如销售额预测)

D.关联规则挖掘(如购物篮分析)【答案】:B

解析:本题考察数据挖掘算法应用。K-means是经典的无监督聚类算法,用于将数据点划分为K个不同的簇(Cluster),实现用户分群等场景。A选项分类问题通常用决策树、SVM等;C预测问题用回归算法;D关联规则挖掘用Apriori算法。因此正确答案为B。86.关于HDFS的描述,正确的是?

A.HDFS采用单副本存储以节省存储空间

B.HDFS文件块默认大小为128MB

C.NameNode负责存储实际数据块

D.HDFS仅支持文本格式文件存储【答案】:B

解析:本题考察HDFS的特性。A选项错误,HDFS默认采用3副本机制以提高容错性和可靠性;B选项正确,HDFS文件块(Block)默认大小为128MB,可根据需求调整;C选项错误,NameNode负责存储文件元数据(如目录结构、块位置等),实际数据块由DataNode存储;D选项错误,HDFS支持二进制、文本等多种格式文件存储。因此正确答案为B。87.在数据仓库设计中,星型模型的核心特点是?

A.维度表完全规范化(拆分至最小粒度)

B.事实表与维度表直接相连,无冗余存储

C.以事实表为中心,维度表围绕事实表展开

D.所有数据均存储在单一宽表中【答案】:C

解析:本题考察数据仓库的星型模型与雪花模型的区别。星型模型的核心特点是以**事实表为中心**,周围连接多个维度表(如用户、商品、时间等),维度表直接关联事实表,减少表间连接复杂度。选项A描述的是雪花模型(维度表规范化拆分);选项B错误,星型模型因维度表直接关联,可能存在数据冗余(如重复存储相同维度属性);选项D描述的是宽表模型(非星型模型)。因此正确答案为C。88.在大数据实时流处理中,SparkStreaming的核心抽象是?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。DStream(离散流)是SparkStreaming的核心抽象,将连续的数据流分割为多个小批量RDD进行处理;RDD是Spark批处理的核心抽象,DataFrame/Dataset是Spark结构化数据API。因此正确答案为B。89.Spark中的RDD(弹性分布式数据集)最核心的特性之一是其______,即一旦创建后就不能被修改,只能通过转换操作生成新的RDD。

A.可修改性

B.不可变性

C.可变性

D.动态性【答案】:B

解析:本题考察SparkRDD特性知识点。RDD的核心特性包括不可变性(只能通过转换操作生成新RDD,原RDD数据不可修改)、分区性(数据分布在多个节点)、惰性计算(仅在Action操作触发时执行)。选项A“可修改性”和C“可变性”与RDD特性矛盾;D“动态性”非RDD核心定义。90.以下关于Spark与MapReduce相比的优势描述,错误的是?

A.Spark支持内存计算,大幅提升处理速度

B.Spark仅支持批处理计算,不支持流处理

C.Spark提供更丰富的API(如SparkSQL、DataFrame)

D.Spark支持多种数据处理模式(批处理、流处理、交互式查询)【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的显著优势包括内存计算(A正确)、丰富的API支持(C正确)、多处理模式(D正确)。而B选项错误,因为Spark不仅支持批处理,还通过SparkStreaming、StructuredStreaming等模块支持实时流处理,MapReduce则仅专注于批处理。因此错误选项为B。91.在大数据ETL流程中,用于捕获数据库增量变化数据的技术是?

A.CDC(ChangeDataCapture)

B.SQL注入

C.数据清洗

D.数据脱敏【答案】:A

解析:本题考察ETL流程中“抽取”阶段的核心技术。CDC(ChangeDataCapture)通过捕获数据库的插入、更新、删除操作(如基于日志或触发器)实现增量数据抽取,是ETL中高效获取变化数据的关键手段。B错误,SQL注入是安全攻击行为,与数据抽取无关;C错误,数据清洗属于“转换(Transform)”阶段,用于处理数据质量问题(如去重、补全);D错误,数据脱敏是对敏感字段的替换/加密,可在抽取或转换阶段进行,但非抽取阶段的核心技术。92.Spark中的RDD(弹性分布式数据集)最核心的特性是?

A.可变性(允许直接修改数据)

B.不可变性(数据创建后不可修改)

C.分布式存储在磁盘而非内存

D.仅支持单次迭代计算【答案】:B

解析:本题考察SparkRDD的核心特性,正确答案为B。RDD通过不可变性保证数据一致性和容错性:数据创建后不可修改,修改需生成新RDD,旧RDD的“血统(Lineage)”记录支持故障恢复。错误选项分析:A选项违背RDD不可变原则;C选项错误,RDD优先内存存储以提升性能;D选项错误,RDD支持多次转换和迭代计算。93.在大数据应用中,对用户身份证号、手机号等敏感信息进行脱敏处理的主要目的是?

A.提升数据存储压缩率

B.降低数据传输带宽消耗

C.满足数据隐私保护与合规要求

D.优化数据查询响应速度【答案】:C

解析:本题考察数据脱敏的核心目的。数据脱敏通过替换或屏蔽敏感信息,防止隐私泄露(如GDPR、《数据安全法》合规要求),C正确;A、B、D分别涉及数据压缩、传输优化、查询性能,均非脱敏的核心目标。94.在数据仓库构建流程中,‘ETL’的核心环节是?

A.数据抽取(Extract)、转换(Transform)、加载(Load)

B.数据清洗(Clean)、加密(Encrypt)、归档(Archive)

C.数据采集(Collect)、校验(Verify)、脱敏(Mask)

D.数据过滤(Filter)、压缩(Compress)、分发(Distribute)【答案】:A

解析:本题考察ETL的标准定义。ETL是数据仓库的核心流程,指从源系统抽取数据(Extract),经过转换(Transform,如清洗、整合)后加载(Load)到目标仓库。选项B中的加密、归档属于数据安全或运维操作;选项C中的校验、脱敏是转换环节的子集,非核心流程;选项D中的过滤、压缩、分发与ETL定义无关。95.以下哪个流处理框架以“事件时间(EventTime)”处理和“精确一次(Exactly-Once)”语义为核心特性?

A.SparkStreaming

B.KafkaStreams

C.ApacheFlink

D.ApacheStorm【答案】:C

解析:ApacheFlink是专为流处理设计的框架,支持事件时间窗口计算和精确一次语义(确保数据处理一致性)。A选项SparkStreaming是微批处理模型,事件时间支持较弱;B选项KafkaStreams依赖Kafka,事件时间处理能力不如Flink;D选项Storm侧重实时处理但缺乏事件时间和精确一次语义。96.在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.Hive

B.HDFS

C.HBase

D.YARN【答案】:B

解析:本题考察Hadoop生态系统核心组件。HDFS(HadoopDistributedFileSystem)是Hadoo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论