2026年大数据技术能力试题(得分题)附答案详解【完整版】_第1页
2026年大数据技术能力试题(得分题)附答案详解【完整版】_第2页
2026年大数据技术能力试题(得分题)附答案详解【完整版】_第3页
2026年大数据技术能力试题(得分题)附答案详解【完整版】_第4页
2026年大数据技术能力试题(得分题)附答案详解【完整版】_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力试题(得分题)附答案详解【完整版】1.在数据仓库的分层设计中,负责存储原始业务数据、未经任何清洗和转换的数据层是?

A.ODS层

B.DWD层

C.DWS层

D.ADS层【答案】:A

解析:本题考察数据仓库分层知识点。数据仓库典型分层包括:ODS(操作数据存储,存储原始数据,未清洗)、DWD(数据明细层,经过清洗和标准化)、DWS(数据汇总层,多维度聚合)、ADS(应用数据服务层,面向业务应用)。选项B“DWD层”已完成数据清洗,C“DWS层”为汇总层,D“ADS层”为应用输出层,均不符合“原始数据未清洗”的描述。2.在大数据系统中,对用户身份证号、手机号等敏感数据在数据库存储前进行不可逆替换(如用虚拟ID替代),以防止隐私泄露,这种数据脱敏方法属于

A.静态脱敏(数据写入前预处理)

B.动态脱敏(数据查询时实时处理)

C.数据加密(基于密钥的可逆转换)

D.匿名化(完全去除身份标识)【答案】:A

解析:本题考察数据脱敏技术知识点。静态脱敏是在数据写入存储系统前对敏感信息进行预处理(如替换、屏蔽),处理后的数据存储于数据库中,不可逆且无需实时计算;选项B动态脱敏是在数据查询时实时处理(如通过应用层动态替换),需依赖查询请求触发;选项C数据加密是通过密钥对数据加密(可逆),属于数据安全的另一种手段,与脱敏的“替换”逻辑不同;选项D匿名化是通过删除或修改身份标识信息(如去除用户ID)实现隐私保护,与“不可逆替换”的替换逻辑不符。故正确答案为A。3.Spark相比传统MapReduce计算框架,最显著的技术优势在于?

A.支持内存计算,减少磁盘IO开销

B.仅适用于批处理场景,无法处理流数据

C.必须依赖HDFS存储所有数据,扩展性差

D.仅支持结构化数据处理,灵活性低【答案】:A

解析:本题考察Spark与MapReduce对比知识点。Spark的核心优势是支持内存计算,可将中间结果缓存在内存中,大幅减少磁盘IO操作,从而显著提升计算速度;MapReduce基于磁盘IO进行数据读写,速度较慢。B选项错误,SparkStreaming支持实时流处理;C选项错误,Spark可从多种数据源读取数据,不限于HDFS;D选项错误,Spark支持结构化、半结构化和非结构化数据处理,灵活性高。因此正确答案为A。4.大数据数据脱敏的主要目的是什么?

A.提升数据处理速度

B.防止敏感数据泄露

C.优化数据存储容量

D.增强数据完整性校验【答案】:B

解析:本题考察数据安全技术中的脱敏概念。数据脱敏通过对敏感信息(如手机号、身份证号)进行处理(如替换、加密),使其无法直接识别个人身份,从而在不影响业务使用的前提下防止数据泄露,因此B正确。A“提升处理速度”是数据压缩或计算优化的目标;C“优化存储容量”是数据压缩的作用;D“增强完整性校验”是校验工具(如哈希)的功能,均与脱敏无关。5.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点。HDFS为优化大文件存储和并行读写,默认将文件分割为128MB的块(Block),该设计可减少NameNode内存占用并提高并行处理效率。选项A(64MB)是早期版本的默认块大小;选项C(256MB)和D(512MB)超出生产环境常见配置,易导致磁盘空间浪费或并行度不足。6.在Hadoop生态系统中,负责资源管理和任务调度的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:C

解析:本题考察Hadoop核心组件知识点。HDFS是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责批处理任务;YARN(YetAnotherResourceNegotiator)是资源管理器,核心功能是资源调度和任务分配;Hive是基于Hadoop的数据仓库工具,用于SQL类查询。因此正确答案为C。7.以下关于Spark和MapReduce的描述,正确的是?

A.Spark仅支持内存计算,无法进行磁盘操作

B.Spark的Shuffle过程比MapReduce更高效

C.MapReduce的迭代计算性能优于Spark

D.Spark的编程模型比MapReduce更复杂【答案】:B

解析:本题考察分布式计算框架对比知识点。选项A错误,Spark支持内存和磁盘混合计算;选项B正确,Spark通过优化Shuffle机制(如Sort-basedShuffle、Tungsten内存管理),减少磁盘I/O,比MapReduce的Shuffle更高效;选项C错误,Spark通过内存计算和DAG执行优化,迭代计算性能远超MapReduce;选项D错误,Spark提供更简洁的API(如DataFrame),编程模型比MapReduce更易用。8.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心配置知识点。HDFS默认副本因子为3,目的是通过多副本存储实现数据容错和可靠性(即使某节点故障,其他副本仍可提供数据访问)。A选项“1”仅适用于本地单节点存储场景,不满足分布式系统容错需求;B选项“2”通常为非默认配置(如部分测试或低资源场景),并非HDFS标准默认值;D选项“4”会过度消耗存储空间和带宽,不符合HDFS资源优化原则。9.以下哪项是数据仓库(DataWarehouse)的典型应用场景?

A.实时处理电商订单交易

B.支持企业级复杂业务分析查询

C.存储原始日志数据不做处理

D.仅支持结构化数据存储【答案】:B

解析:本题考察数据仓库核心特征。数据仓库是面向分析的集成数据集合,用于支持企业级复杂分析查询(如OLAP操作)。A是OLTP(联机事务处理)的应用场景;C错误,数据仓库通常经过ETL/ELT处理,非原始数据;D错误,现代数据仓库可支持半结构化数据(如JSON)。因此正确答案为B。10.以下哪种流处理框架以低延迟和“精确一次”(Exactly-Once)语义为主要特点?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafka【答案】:B

解析:本题考察流处理框架特性。ApacheFlink是专为流处理设计的框架,支持亚秒级低延迟和“精确一次”语义(确保数据仅处理一次)。A选项SparkStreaming基于微批处理,延迟较高且语义为“至少一次”;C选项Storm实时性好但缺乏精确语义;D选项Kafka是消息队列,非流处理框架。因此正确答案为B。11.以下哪种属于实时流处理技术?

A.MapReduce

B.SparkStreaming

C.ApacheFlink

D.Hive【答案】:C

解析:本题考察流处理技术知识点。ApacheFlink是专为实时流处理设计的开源框架,支持高吞吐、低延迟的数据处理,适合实时分析连续数据流;MapReduce是经典的批处理计算框架,处理历史数据;SparkStreaming是Spark的流处理模块,早期主要采用微批处理模型,更偏向批处理+流处理结合;Hive是基于Hadoop的数据仓库工具,用于批处理查询。因此正确答案为C。12.数据仓库(DW)与数据湖(DataLake)的核心区别是?

A.DW存储结构化数据,DataLake仅存储非结构化数据

B.DW需先经过ETL处理,DataLake直接存储原始数据

C.DW面向历史分析,DataLake仅支持实时查询

D.DW需元数据管理,DataLake无需元数据【答案】:B

解析:本题考察数据仓库与数据湖的架构差异。选项A错误,数据仓库以结构化数据为主,但也支持半结构化;数据湖可存储结构化、半结构化、非结构化数据。选项B正确,数据仓库需ETL(提取-转换-加载)处理原始数据,数据湖直接存储原始数据(如日志、JSON、图片等)。选项C错误,数据仓库和数据湖均可支持历史分析和实时查询。选项D错误,两者均需元数据管理。13.HDFS分布式文件系统中,默认的块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基本特性。HDFS(Hadoop分布式文件系统)的块大小是可配置的,默认情况下,Hadoop2.x及以上版本的块大小为128MB,这一设计可降低寻址时间、优化并行处理效率。选项A(64MB)是HDFS1.x的默认块大小,选项C、D均非HDFS默认块大小。因此正确答案为B。14.在Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本因子为3,目的是通过多副本实现数据容错(如某节点故障时可从其他节点读取副本)。选项A(1)为单副本,仅适用于特殊场景且非默认;选项B(2)可能在特定配置中使用,但非HDFS默认值;选项D(4)会大幅增加存储成本,不符合HDFS默认设计目标。15.数据湖相比数据仓库,其主要特点不包括以下哪项?

A.支持存储非结构化数据

B.存储原始数据而非预处理数据

C.主要存储结构化数据

D.支持多种数据处理工具集成【答案】:C

解析:本题考察数据湖与数据仓库的核心区别。数据湖的核心特点是存储原始数据(结构化、半结构化、非结构化),支持多种数据类型和工具集成(如A、B、D所述);而数据仓库主要面向结构化数据,通过ETL进行预处理。选项C“主要存储结构化数据”是数据仓库的特点,而非数据湖,因此正确答案为C。16.Spark相比MapReduce,在计算性能上的主要优势是?

A.内存计算

B.批处理能力

C.实时流处理

D.数据存储优化【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark的核心设计是基于内存计算,避免了MapReduce中频繁的磁盘IO操作,尤其在迭代计算场景下性能提升显著;MapReduce也支持批处理(但依赖磁盘),SparkStreaming虽支持实时处理但核心优势非实时,数据存储优化不属于计算框架的核心优势。17.在数据仓库的维度建模中,以下哪项是星型模型的核心特征?

A.事实表与多个维度表通过外键关联,且所有维度表围绕一个中心事实表展开

B.事实表与维度表是多对多关系

C.所有表都通过主键-外键关系形成严格的星型结构

D.仅包含一个事实表和一个维度表【答案】:A

解析:本题考察数据仓库维度建模的星型模型特征。星型模型的核心是存在一个中心事实表,多个维度表(如时间、地区维度)通过外键与事实表关联,维度表间无直接关联。正确答案为A。错误选项分析:B选项错误,星型模型中事实表与维度表是一对多关系;C选项错误,维度表间无主键-外键关联;D选项错误,星型模型包含一个事实表和多个维度表。18.在大数据应用中,对用户身份证号、手机号等敏感信息进行脱敏处理的主要目的是?

A.提升数据存储压缩率

B.降低数据传输带宽消耗

C.满足数据隐私保护与合规要求

D.优化数据查询响应速度【答案】:C

解析:本题考察数据脱敏的核心目的。数据脱敏通过替换或屏蔽敏感信息,防止隐私泄露(如GDPR、《数据安全法》合规要求),C正确;A、B、D分别涉及数据压缩、传输优化、查询性能,均非脱敏的核心目标。19.下列关于数据湖的描述,错误的是

A.数据湖可存储结构化、半结构化和非结构化数据

B.数据湖通常采用ELT(提取-加载-转换)流程处理数据

C.数据湖的核心目标是存储原始数据并支持灵活分析

D.数据湖仅支持面向分析的结构化数据存储,与数据仓库无本质区别【答案】:D

解析:本题考察数据湖与数据仓库的核心区别知识点。数据湖与数据仓库的本质区别在于:数据湖支持存储结构化、半结构化、非结构化等全类型原始数据,而数据仓库以结构化数据为主。选项A、B、C均符合数据湖的特性(支持全类型数据、ELT流程、原始数据存储与分析);选项D错误,数据湖与数据仓库的核心区别在于存储数据类型和处理目标,数据湖并非仅支持结构化数据,且与数据仓库定位不同。故正确答案为D。20.在Hadoop分布式文件系统(HDFS)中,默认情况下一个文件会被存储为多少个副本以保证高可用性?

A.1个

B.2个

C.3个

D.4个【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS默认通过`dfs.replication`参数配置文件副本数,默认值为3。选择3个副本可在单节点故障时通过其他副本恢复数据,同时避免过多副本导致的存储资源浪费。选项A(1个副本)无容错能力,数据丢失风险高;选项B(2个副本)容错能力弱于3个,仅能容忍1个节点故障;选项D(4个副本)超出默认配置,且会增加额外存储和网络传输成本。21.在Hadoop分布式文件系统(HDFS)中,为保证数据可靠性和容错性,文件块(Block)的默认副本存储策略是?

A.仅存储在本地节点,避免跨节点冗余

B.优先存储在同机架的多个节点,最后跨机架节点

C.优先存储在本地机架节点,其次同机架不同节点,最后跨机架节点

D.默认存储在3个不同的随机节点,不考虑机架位置【答案】:C

解析:本题考察HDFS副本存储策略知识点。HDFS为防止单点故障(如机架断电或节点故障),默认将文件块副本分布在不同物理位置:优先存储在本地节点(减少网络传输),其次同机架其他节点(利用机架内带宽),最后跨机架节点(避免同机架整体故障)。选项A仅本地存储会导致单点故障;选项B未明确本地优先;选项D随机跨机架无法保证同机架内的冗余,故正确答案为C。22.ApacheFlink作为实时流处理框架,其核心优势之一是支持的计算语义为?

A.At-Least-Once

B.At-Most-Once

C.Exactly-Once

D.At-Least-Exactly【答案】:C

解析:本题考察实时计算框架Flink的特性知识点,正确答案为C。Flink通过Checkpoint和Savepoint机制实现精确一次(Exactly-Once)语义,确保数据处理的准确性(无重复、无丢失);At-Least-Once(至少一次)是早期SparkStreaming等框架的常见语义(可能重复);At-Most-Once(最多一次)可能导致数据丢失;“At-Least-Exactly”非标准术语。因此选C。23.在数据挖掘中,K-Means算法属于以下哪种学习类型?

A.监督学习(SupervisedLearning)

B.无监督学习(UnsupervisedLearning)

C.半监督学习(Semi-SupervisedLearning)

D.强化学习(ReinforcementLearning)【答案】:B

解析:本题考察数据挖掘算法分类知识点。K-Means是典型的无监督聚类算法,核心是通过距离度量(如欧氏距离)将无标签数据自动划分成K个簇,无需人工标注样本标签。监督学习(A)需标签训练(如分类算法SVM);半监督学习(C)需少量标签+大量无标签数据,与K-Means无直接关联;强化学习(D)通过环境反馈优化策略,与聚类无关。故正确答案为B。24.以下关于数据仓库中事实表的描述,正确的是?

A.事实表主要存储业务过程中的度量值数据(如销售额、订单数量)

B.事实表包含大量的业务维度属性(如产品名称、客户地址)

C.事实表通常不包含任何维度表的外键引用

D.事实表的数据量通常小于维度表,以提高查询效率【答案】:A

解析:本题考察数据仓库维度建模中的事实表概念。事实表是数据仓库中存储业务度量值(如销售额、数量、次数等)的核心表,与具体业务过程紧密相关,且通过外键关联维度表。选项B错误,维度表才包含业务维度属性;选项C错误,事实表必须包含维度表的外键以关联维度数据;选项D错误,事实表因记录大量业务事件(如订单),数据量通常远大于存储描述性属性的维度表。25.在实时流处理系统中,Kafka的主要作用是?

A.提供分布式计算能力

B.存储实时计算结果

C.作为数据源接收和转发实时数据流

D.负责数据的持久化存储【答案】:C

解析:本题考察实时流处理系统中Kafka的角色。A选项错误,分布式计算能力由Flink、SparkStreaming等框架提供;B选项错误,实时计算结果通常存储于HBase、Redis等存储系统,Kafka不直接负责结果存储;C选项正确,Kafka是高吞吐量消息队列,作为流处理系统的核心数据源,负责接收、存储和转发实时数据流,实现上下游系统的解耦;D选项错误,Kafka虽支持消息持久化,但核心作用是数据传输而非通用持久化存储。因此正确答案为C。26.在MapReduce分布式计算框架中,负责将输入数据分割为多个并行处理任务的阶段是?

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Combine阶段【答案】:A

解析:本题考察MapReduce工作原理知识点。MapReduce分为Map、Shuffle、Reduce三个核心阶段:Map阶段负责将输入数据分割为mapper任务并行处理,生成中间键值对;Reduce阶段负责聚合Map输出结果;Shuffle阶段负责数据分区和传输;Combine阶段为Map后的局部聚合优化。只有Map阶段负责数据分割与并行处理。27.在MapReduce编程模型中,Map函数的主要作用是?

A.对输入数据进行分片和映射,生成中间键值对

B.对中间结果进行排序和合并(Shuffle阶段)

C.对最终结果进行聚合计算并输出

D.对数据进行压缩和解压以优化传输效率【答案】:A

解析:本题考察MapReduce核心流程知识点。Map函数负责将输入数据分解为键值对,通过映射规则(如过滤、转换)生成中间结果,是数据处理的源头环节。选项B是Shuffle阶段的核心功能(合并排序);选项C是Reduce函数的作用(聚合中间结果);选项D并非Map函数的职责,MapReduce的压缩主要在输入输出阶段配置,与Map函数无关。28.大数据的哪个特征强调数据产生和处理的速度快,通常要求毫秒级甚至亚秒级响应?

A.Volume(数据量大)

B.Velocity(数据速度)

C.Variety(数据多样性)

D.Veracity(数据准确性)【答案】:B

解析:本题考察大数据5V特征的概念。大数据特征中,Velocity(速度)特指数据产生和处理的速度快,实时性要求高,通常需毫秒级甚至亚秒级响应。A选项Volume指数据量庞大,通常以PB/EB级衡量;C选项Variety指数据类型多样(结构化、半结构化、非结构化);D选项Veracity指数据的准确性和可信度,用于保障分析结果可靠。因此正确答案为B。29.关于数据仓库与数据集市的描述,错误的是?

A.数据仓库是面向企业级全局数据的集成存储

B.数据集市是面向部门级特定业务需求的数据子集

C.数据集市是数据仓库的超集

D.数据仓库通常包含结构化、半结构化数据【答案】:C

解析:本题考察数据仓库与数据集市的概念。选项A正确,数据仓库面向企业全局数据,集成多源数据;选项B正确,数据集市是数据仓库的子集,针对特定部门(如销售、财务)的业务需求;选项C错误,数据集市是数据仓库的子集而非超集,它从数据仓库中抽取数据,聚焦特定主题;选项D正确,数据仓库通常包含结构化(如关系表)、半结构化(如日志)数据。因此正确答案为C。30.Hadoop分布式文件系统(HDFS)的默认数据副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心特性,HDFS为提高数据可靠性和容错性,默认将每个文件块复制3份,分布在不同节点以防止单点故障。选项A(1份)数据丢失风险极高;选项B(2份)冗余度不足,无法满足生产环境可靠性要求;选项D(4份)超过HDFS默认配置,会增加存储开销但非默认值。31.大数据的5V特征中,用于描述数据来源包含结构化、半结构化、非结构化等多种类型的是

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值)【答案】:C

解析:本题考察大数据5V特征知识点。大数据5V特征为:Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Veracity(数据真实性)、Value(数据价值)。选项A对应数据规模,B对应处理速度,D对应数据价值,均不符合“数据来源多样”的描述;选项C“Variety(多样性)”明确指向数据类型的多元性,故正确答案为C。32.Spark的核心数据抽象RDD(弹性分布式数据集)最关键的特性是?

A.可变性

B.不可变性

C.可合并性

D.可分割性【答案】:B

解析:本题考察SparkRDD特性。RDD是不可变的弹性分布式数据集,每次转换操作(如map、filter)都会生成新RDD实例,原RDD保持不变。不可变性是RDD实现内存优化、容错性(通过Lineage恢复)的核心基础。A选项错误,RDD不支持原地修改;C和D非核心特性(可分割性是分区的结果而非特性)。因此正确答案为B。33.大数据数据清洗中,处理数值型数据缺失值时最常用的方法是?

A.直接删除整行数据

B.使用均值/中位数填充

C.用众数填充

D.忽略缺失值不处理【答案】:B

解析:本题考察数据清洗技术。数值型数据缺失值常用均值、中位数或线性插值填充,以保留数据分布特征。选项A删除整行可能丢失大量信息;选项C众数用于类别型数据(如颜色、性别);选项D忽略会导致统计偏差,故正确答案为B。34.以下哪种NoSQL数据库类型最适合存储和处理具有高并发读写需求的社交平台用户行为数据(如点赞、评论)?

A.键值对数据库(Key-ValueStore)

B.列族数据库(Column-FamilyStore)

C.文档数据库(DocumentStore)

D.图数据库(GraphDatabase)【答案】:A

解析:本题考察NoSQL数据库的类型与应用场景。键值对数据库(如Redis)通过简单键值映射支持极高并发读写,适合存储结构化、非结构化且访问模式简单的数据。正确答案为A。错误选项分析:B选项错误,列族数据库(如HBase)更适合海量数据列级查询;C选项错误,文档数据库(如MongoDB)并发性能弱于键值对;D选项错误,图数据库(如Neo4j)适合复杂实体关系查询(如社交网络)。35.以下哪个流处理框架是Apache顶级项目,支持高吞吐低延迟的实时数据处理?

A.ApacheFlink

B.ApacheSparkStreaming

C.ApacheKafkaStreams

D.ApacheStorm【答案】:A

解析:本题考察流处理框架的特性。ApacheFlink是Apache顶级项目,以高吞吐、低延迟、精确一次(Exactly-Once)语义为核心优势,支持事件时间窗口、状态管理和复杂计算。B选项SparkStreaming基于微批处理模型,本质是批处理框架的扩展,延迟较高;C选项KafkaStreams是基于Kafka的轻量级流处理库,功能较单一;D选项Storm虽支持实时处理,但在状态管理和事件时间处理上不如Flink完善。因此正确答案为A。36.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:HDFS作为Hadoop的核心组件,采用块(Block)机制优化数据存储与读取效率。在Hadoop2.x及后续版本中,HDFS的默认块大小为128MB(早期Hadoop1.x版本默认块大小为64MB)。选项A为早期版本的块大小,C、D均非HDFS标准默认值,因此正确答案为B。37.以下哪项不属于大数据的5V特征?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)和Value(价值)。选项D的Validity(有效性)不属于5V特征,因此正确答案为D。38.与传统MapReduce相比,Spark的显著优势主要体现在?

A.必须基于磁盘进行数据处理,确保数据可靠性

B.支持内存计算,减少磁盘I/O操作

C.仅适用于批处理场景,无法处理流数据

D.编程模型仅支持Java语言,开发效率低【答案】:B

解析:Spark采用内存计算架构,将中间结果缓存在内存中,避免了MapReduce多次磁盘读写的性能瓶颈。A选项错误,Spark主要基于内存而非磁盘;C选项错误,SparkStreaming可处理流数据;D选项错误,Spark支持Scala、Python、Java等多语言编程。39.Hadoop分布式文件系统(HDFS)的核心组件不包括以下哪一项?

A.NameNode

B.DataNode

C.ResourceManager

D.SecondaryNameNode【答案】:C

解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(元数据备份)。而ResourceManager是YARN(YetAnotherResourceNegotiator)的核心组件,负责资源调度和集群管理,不属于HDFS。40.HDFS(Hadoop分布式文件系统)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的基础配置知识点。HDFS为提高数据可靠性和容错能力,默认将每个文件块复制3份存储在不同节点,当一个节点故障时仍能通过其他副本恢复数据。选项A(1)仅1份数据,容错能力极低;选项B(2)冗余度不足,故障恢复概率较高;选项D(4)会导致过多磁盘空间浪费,超出默认冗余需求。41.以下哪项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(开源集群计算框架)

D.YARN(资源管理器)【答案】:C

解析:本题考察Hadoop生态系统的核心组件知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),三者共同构成了Hadoop的基础架构。而Spark是独立的开源集群计算框架,虽常与Hadoop结合使用,但不属于Hadoop生态系统的核心组件。因此正确答案为C。42.在MapReduce计算模型中,Map阶段的主要作用是?

A.将输入数据分割为键值对并进行初步转换

B.合并相同键的中间结果并输出最终结果

C.从分布式存储中读取原始数据并直接返回

D.实时聚合所有节点的计算结果【答案】:A

解析:本题考察MapReduce的核心计算流程。Map阶段负责将输入数据(如文本文件)分割为键值对(Key-ValuePair),通过用户定义的Map函数对每个键值对进行处理(如过滤、转换),输出中间结果。B选项是Reduce阶段的核心功能(合并相同键的中间值);C选项描述的是输入阶段(非Map阶段);D选项是Reduce阶段的聚合过程,非Map阶段。因此正确答案为A。43.以下哪种工具是基于Hadoop构建的,用于支持复杂的多维分析和OLAP操作?

A.Hive

B.HBase

C.Kafka

D.HDFS【答案】:A

解析:本题考察数据仓库工具知识点。Hive是基于Hadoop的数据仓库工具,提供类SQL的HQL语法,支持复杂的多维分析和OLAP操作;HBase是列族式NoSQL数据库,用于随机读写高并发场景;Kafka是分布式消息队列,用于数据传输;HDFS是分布式文件系统,仅负责数据存储。因此正确答案为A。44.MongoDB属于以下哪种类型的数据库?

A.键值对(Key-Value)型数据库

B.文档型(Document)数据库

C.列族(Column-Family)型数据库

D.图(Graph)型数据库【答案】:B

解析:MongoDB以JSON格式的文档为基本存储单元,属于文档型数据库,适用于存储半结构化数据。A选项(如Redis)、C选项(如HBase)、D选项(如Neo4j)分别对应不同类型的NoSQL数据库,与MongoDB类型不符。45.在数据仓库建设中,‘先将数据加载到目标数据库,再进行数据转换和清洗’的流程是以下哪种?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL与ELT的混合流程

D.仅适用于关系型数据库的ETL流程【答案】:B

解析:本题考察ETL与ELT的流程差异。ELT(Extract-Load-Transform)的核心是先加载原始数据到目标存储,再在目标系统中完成转换清洗。正确答案为B。错误选项分析:A选项错误,ETL是先转换再加载;C选项错误,题干描述为单一流程而非混合;D选项错误,ELT同样适用于关系型数据库(如Snowflake等工具)。46.在Hadoop的MapReduce计算模型中,负责将Map阶段产生的中间结果进行分区、排序、合并等操作的阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Output阶段【答案】:B

解析:本题考察MapReduce执行流程知识点,正确答案为B。Map阶段负责并行处理输入数据生成中间键值对;Shuffle阶段是Map与Reduce之间的关键环节,核心功能是对中间结果进行分区、排序、合并等数据整理操作;Reduce阶段基于Shuffle结果执行聚合计算;Output阶段负责输出最终结果。因此选B。47.在Hadoop分布式文件系统(HDFS)中,数据块(Block)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。正确答案为C,HDFS为保证数据可靠性和容错能力,默认将每个数据块存储3个副本,防止单点故障导致数据丢失。错误选项解释:A选项1个副本无法容错,单点故障会直接丢失数据;B选项2个副本容错能力不足,仅能应对1个节点故障;D选项4个副本超出HDFS默认配置标准,属于冗余配置。48.Hadoop分布式文件系统(HDFS)中,默认的块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS默认块大小为128MB,这一设计主要为了平衡存储效率和读写性能(小文件过多会增加元数据管理开销,大文件会导致单次读写耗时过长)。选项B(64MB)是Hadoop早期版本的默认配置,选项C(256MB)和D(512MB)通常用于特定高性能存储场景或高容量集群优化配置,非默认值。49.关于Spark中RDD(弹性分布式数据集)的特性,描述错误的是?

A.RDD具有不可变性

B.RDD支持分区操作

C.RDD的转换操作是延迟执行的

D.RDD必须在内存中进行计算【答案】:D

解析:本题考察SparkRDD的核心特性。RDD是Spark的基础抽象,具有不可变性(A正确)、可分区(B正确)、转换操作惰性执行(仅在动作操作触发时计算,C正确);RDD支持内存和磁盘混合存储,当内存不足时会自动落盘,并非“必须在内存中进行”,D错误。50.Spark相比MapReduce的核心优势是?

A.基于内存计算,减少磁盘IO开销

B.仅支持批处理,不支持实时流处理

C.依赖磁盘存储中间结果,稳定性更强

D.必须使用HDFS作为唯一数据存储介质【答案】:A

解析:本题考察分布式计算框架的技术特点。Spark采用内存计算模型,将中间结果存储在内存而非磁盘,大幅降低IO开销,比MapReduce(基于磁盘迭代计算)速度提升10-100倍。选项B错误,Spark同时支持批处理和流处理(StructuredStreaming);选项C错误,MapReduce依赖磁盘存储中间结果,Spark的内存计算更高效;选项D错误,Spark支持多种数据源,不限于HDFS。51.Spark的核心计算引擎是什么,负责内存计算和批处理任务的调度?

A.SparkCore

B.Flink

C.HadoopMapReduce

D.KafkaStreams【答案】:A

解析:本题考察Spark的核心架构。SparkCore是Spark的基础计算引擎,基于内存优化实现高效的RDD(弹性分布式数据集)操作,支持批处理和迭代计算;Flink是独立的流批一体框架;HadoopMapReduce是基于磁盘的分布式计算框架;KafkaStreams是消息队列Kafka的流处理库。因此正确答案为A。52.在数据仓库设计中,星型模型的核心特点是?

A.维度表完全规范化(拆分至最小粒度)

B.事实表与维度表直接相连,无冗余存储

C.以事实表为中心,维度表围绕事实表展开

D.所有数据均存储在单一宽表中【答案】:C

解析:本题考察数据仓库的星型模型与雪花模型的区别。星型模型的核心特点是以**事实表为中心**,周围连接多个维度表(如用户、商品、时间等),维度表直接关联事实表,减少表间连接复杂度。选项A描述的是雪花模型(维度表规范化拆分);选项B错误,星型模型因维度表直接关联,可能存在数据冗余(如重复存储相同维度属性);选项D描述的是宽表模型(非星型模型)。因此正确答案为C。53.Hadoop生态系统中负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式数据存储的核心组件,采用块(Block)形式存储海量数据并支持高容错性。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于管理集群元数据和协调分布式任务。因此正确答案为A。54.以下关于SparkRDD的描述,错误的是?

A.RDD是Spark的核心抽象,代表一个不可变的分布式数据集

B.RDD的分区数量在创建后不可修改

C.RDD支持惰性计算,只有在Action操作触发时才会执行计算

D.RDD的转换操作(Transformation)是延迟执行的【答案】:B

解析:本题考察SparkRDD核心特性。RDD的分区特性是可调整的,通过`coalesce`(减少分区)或`repartition`(增加分区)方法可动态修改分区数,因此选项B错误。选项A正确,RDD本质是不可变的分布式数据集;选项C正确,惰性计算是Spark性能优化的关键(仅Action触发真正计算);选项D正确,转换操作仅记录逻辑,不立即执行。55.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值(Key-Value)存储

B.文档(Document)型存储

C.列族(Column-Family)存储

D.图(Graph)存储【答案】:B

解析:本题考察NoSQL数据库的分类。MongoDB以JSON/BSON格式存储文档,支持嵌套结构和灵活模式,属于文档型数据库。选项A(键值存储)如Redis,以键值对直接存储;选项C(列族存储)如HBase,按列族组织数据;选项D(图存储)如Neo4j,用于存储实体关系网络。56.SparkStreaming的核心执行模型是?

A.微批处理(Micro-batchProcessing)

B.实时流处理(Real-timeStreamProcessing)

C.批处理(BatchProcessing)

D.内存计算(In-memoryComputing)【答案】:A

解析:本题考察流处理框架特性。SparkStreaming基于微批处理模型,将数据流按固定时间窗口(如1秒)分割为微批数据,以批处理方式执行计算;Flink支持真正的实时流处理(B),MapReduce等属于传统批处理(C),内存计算(D)是Spark的通用特性,非流处理模型核心。因此正确答案为A。57.以下哪项是Hadoop分布式文件系统(HDFS)的默认副本系数?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本系数为3,以平衡数据可靠性与存储成本。A选项1个副本易因单点故障丢失数据;B选项2个副本容错性不足,仍存在数据丢失风险;D选项4个副本会过度消耗存储空间,不符合经济存储原则。58.Spark作为主流的分布式计算框架,相比MapReduce的主要优势在于?

A.基于内存计算,速度更快

B.仅支持磁盘IO优化,减少数据传输

C.专门针对实时流处理场景优化

D.批处理能力远优于MapReduce【答案】:A

解析:Spark的核心优势是内存计算,它将中间结果存储在内存中,避免了MapReduce中频繁的磁盘读写操作,从而显著提升计算速度,尤其适合迭代计算和交互式分析。MapReduce本身也支持磁盘IO优化(如Combine操作),但并非Spark独有;实时流处理通常由Flink等框架优化,SparkStreaming是批处理框架的流处理扩展;MapReduce在批处理领域同样成熟,两者批处理能力各有侧重,Spark的优势是内存计算而非批处理本身。因此正确答案为A。59.在Hadoop生态系统中,负责集群资源分配、节点管理和应用程序调度的组件是?

A.HDFS

B.MapReduce

C.YARN

D.HBase【答案】:C

解析:本题考察Hadoop生态系统中YARN的功能。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器,负责节点资源监控、应用程序资源分配和任务调度;HDFS负责分布式存储;MapReduce是旧版计算框架;HBase是分布式NoSQL数据库。因此正确答案为C。60.以下关于流处理框架Flink的描述,正确的是?

A.仅支持无状态的实时计算,不支持状态管理

B.不支持事件时间窗口,仅依赖处理时间

C.支持Exactly-Once语义,确保数据一致性

D.仅适用于离线批处理场景,不适用于流处理【答案】:C

解析:本题考察Flink流处理框架的核心特性。Flink是高吞吐、低延迟的流处理引擎,支持有状态计算、事件时间窗口、Exactly-Once语义等高级特性。选项A错误,Flink支持键控状态、算子状态等多种状态管理机制;选项B错误,Flink支持事件时间窗口(处理乱序数据)和处理时间窗口;选项D错误,Flink既支持流处理也支持批处理(通过DataSetAPI)。选项C“支持Exactly-Once语义”是Flink的核心优势之一,通过两阶段提交等机制确保数据一致性,因此正确。61.数据仓库中,哪种模型通过将维度表规范化减少数据冗余?

A.星型模型

B.雪花模型

C.星座模型

D.层次模型【答案】:B

解析:本题考察数据仓库模型知识点。正确答案为B,雪花模型是星型模型的扩展,通过将维度表进一步拆分为更小的子维度表(规范化),减少数据冗余,但会增加查询时的表连接复杂度。错误选项解释:A选项星型模型将所有维度表直接连接到事实表,冗余度高但查询简单;C选项星座模型是多个事实表共享维度表的集合模型;D选项层次模型属于数据库表结构设计,非数据仓库主流模型。62.关于Hadoop生态系统,以下哪个组件负责分布式数据存储?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务。因此正确答案为A。63.以下哪项不属于大数据的5V特征?

A.Volume

B.Velocity

C.Variety

D.Storage【答案】:D

解析:大数据的5V特征是指Volume(数据量巨大)、Velocity(数据产生与处理速度快)、Variety(数据类型多样,含结构化、半结构化、非结构化数据)、Veracity(数据真实性与准确性)、Value(数据价值密度低但潜在价值高)。选项A、B、C均为5V特征中的核心要素,而D选项“Storage(存储)”并非5V特征之一,因此答案为D。64.Spark相比MapReduce在计算性能上的主要优势是?

A.基于内存计算,减少磁盘IO开销

B.仅支持Java语言开发

C.批处理能力更强

D.必须依赖HDFS存储数据【答案】:A

解析:本题考察Spark与MapReduce的核心差异,正确答案为A。Spark采用内存计算模型,将中间结果缓存在内存中(而非MapReduce的磁盘读写),大幅降低IO开销,从而显著提升计算速度。B选项错误,Spark支持Scala、Python、Java等多语言开发;C选项错误,MapReduce同样支持批处理,且Spark的批处理性能提升源于内存计算而非“更强”;D选项错误,Spark可使用多种存储系统(如HDFS、S3、Cassandra),并非必须依赖HDFS。65.ApacheSpark作为主流大数据处理框架,其核心优势主要体现在?

A.基于内存计算,执行速度快

B.必须依赖分布式文件系统存储数据

C.仅支持实时流处理,不支持批处理

D.只能在磁盘上进行数据计算【答案】:A

解析:Spark的核心特性是内存计算模型,通过缓存数据减少磁盘I/O,大幅提升处理速度;B选项Spark支持多种存储系统(HDFS、S3等),非必须依赖;C选项Spark既支持批处理(SparkBatch)也支持流处理(SparkStreaming);D选项Spark优先使用内存计算,仅在内存不足时落盘,并非“只能磁盘计算”。66.在数据仓库中,以下属于事实表的是?

A.商品维度表

B.订单事实表

C.客户维度表

D.时间维度表【答案】:B

解析:本题考察数据仓库核心概念。事实表记录业务事件的度量数据(如订单金额、销量等),通常包含外键关联维度表。选项A、C、D均为维度表(描述事实表的上下文信息,如商品表、客户表、时间表),而订单事实表通过订单ID关联商品、时间等维度表,记录交易金额等可度量值,故正确答案为B。67.在数据仓库的维度建模中,星型模型的典型结构特征是?

A.以事实表为中心,周围关联多个维度表

B.以维度表为中心,周围关联多个事实表

C.事实表与维度表通过多对多关系直接关联

D.所有表均无冗余字段,采用完全规范化设计【答案】:A

解析:星型模型是数据仓库维度建模的核心结构,以事实表为中心(事实表存储业务度量值,如销售额、订单量),周围关联多个维度表(维度表存储描述性信息,如产品维度、时间维度),每个维度表仅通过主键与事实表关联,结构简单直观。选项B颠倒了主次;选项C错误,星型模型中维度表与事实表是一对多关系;选项D错误,星型模型为提升查询效率,存在适度冗余(维度表重复存储维度属性),并非完全规范化。因此正确答案为A。68.在数据质量管理中,以下哪项不属于数据质量的核心维度?

A.准确性(数据是否正确反映真实情况)

B.完整性(数据是否存在缺失值)

C.可扩展性(数据是否支持未来系统扩展)

D.一致性(数据在不同场景/来源下是否一致)【答案】:C

解析:本题考察数据质量核心维度,正确答案为C。数据质量维度包括准确性、完整性、一致性、及时性等,“可扩展性”是系统架构特性,与数据质量无关。错误选项分析:A、B、D均为数据质量核心维度,分别对应数据正确性、完整性、一致性要求。69.ApacheFlink是大数据流处理领域的重要框架,其核心优势不包括以下哪项?

A.支持低延迟的实时流处理

B.提供精确一次(Exactly-Once)语义保证

C.采用微批处理模型提高吞吐量

D.支持高吞吐、低延迟的流数据处理【答案】:C

解析:本题考察Flink流处理框架特点。Flink是原生流处理框架,支持低延迟、高吞吐、精确一次语义;而“微批处理模型”是SparkStreaming的核心特征(将流数据分成小批次处理),并非Flink。因此C选项描述错误,正确答案为C。70.MongoDB数据库按数据模型分类,属于以下哪种NoSQL类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库的分类及典型代表。MongoDB以BSON(BinaryJSON)格式存储半结构化文档数据,支持嵌套字段和灵活的模式设计,属于文档型数据库。A错误,键值型数据库(如Redis)仅存储简单键值对,无嵌套结构;C错误,列族型数据库(如HBase)按列族组织数据,适用于海量结构化数据(如时序数据);D错误,图数据库(如Neo4j)以节点和边存储关系数据,与MongoDB的文档模型无关。71.在数据仓库的ETL流程中,“Transform”(转换)步骤的主要作用是?

A.从源系统提取原始数据

B.将处理后的数据加载到目标系统

C.对数据进行清洗、格式转换和计算

D.实时监控数据变化【答案】:C

解析:ETL中,Transform是核心步骤,负责数据清洗(去重、补全)、格式转换(如日期标准化)、计算衍生指标等。A选项是Extract(提取)的功能,B选项是Load(加载)的功能,D选项属于实时数据处理或CDC(变更数据捕获)范畴,非ETL的Transform步骤。72.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。73.适用于存储海量非结构化日志数据(如服务器访问日志)的数据库类型是?

A.键值型(如Redis)

B.列族型(如HBase)

C.文档型(如MongoDB)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察NoSQL数据库的适用场景。文档型数据库(如MongoDB)支持半结构化/非结构化数据存储,以JSON/BSON等文档格式灵活存储日志数据,适合存储结构多变的日志。键值型(如Redis)适合简单键值对;列族型(如HBase)适合结构化数据(如时序数据);图数据库(如Neo4j)适合实体关系建模(如社交网络)。因此正确答案为C。74.在大数据平台中,为保护敏感数据(如用户身份证号、手机号)不被泄露,以下哪种技术属于数据脱敏范畴?

A.数据加密(如AES加密)

B.数据脱敏(如替换为随机字符串)

C.数据压缩(如gzip)

D.数据清洗(如去重)【答案】:B

解析:本题考察大数据安全技术,正确答案为B。数据脱敏是通过对敏感数据进行变形处理(如替换、屏蔽、打乱),使其在非授权场景下无法识别原始信息,属于数据安全的“数据匿名化”手段。A选项“数据加密”是对数据进行可逆/不可逆转换,通常用于存储或传输中的加密保护,与“脱敏”不同;C选项“数据压缩”用于减少存储/传输体积,D选项“数据清洗”用于去除噪声/异常数据,均与敏感数据保护无关。75.在数据治理中,用于描述数据来源、结构、血缘关系的元数据属于?

A.技术元数据

B.业务元数据

C.操作元数据

D.管理元数据【答案】:A

解析:本题考察元数据分类。A正确:技术元数据包含数据结构、字段定义、数据血缘(来源系统)等技术层面信息;B错误:业务元数据描述数据业务含义(如“客户年龄”代表的业务价值);C错误:操作元数据记录数据访问频率、存储位置等操作行为信息;D错误:管理元数据涉及数据质量、安全策略等管理规则。76.以下哪项属于OLAP(联机分析处理)的典型应用场景?

A.电商订单实时结算

B.企业财务报表自动生成

C.数据清洗与格式转换

D.客户行为实时追踪【答案】:B

解析:本题考察OLAP与OLTP的区别。OLAP核心是支持复杂多维分析(如财务报表、销售趋势分析),侧重决策支持。A和D属于OLTP(联机事务处理),强调实时事务处理(如订单支付、用户行为追踪);C属于ETL流程中的数据预处理环节。因此正确答案为B。77.在Hadoop生态系统中,负责分布式数据存储的核心组件是

A.MapReduce(分布式计算框架)

B.HDFS(分布式文件系统)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为大规模数据存储设计,支持高容错性和高吞吐量;选项AMapReduce是分布式计算框架,负责数据处理逻辑;选项CYARN是资源管理系统,调度集群资源;选项DHive是基于Hadoop的SQL工具,用于数据仓库分析。因此负责分布式存储的核心组件为HDFS,正确答案为B。78.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是分布式计算框架,用于数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群管理。因此正确答案为A。79.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式存储的核心组件,通过多副本机制实现数据可靠性和高容错性。B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是基于Hadoop的数据仓库工具,均不负责存储,因此正确答案为A。80.Kafka中分区(Partition)的主要作用是?

A.提高数据吞吐量

B.降低消息延迟

C.增加数据存储量

D.减少数据丢失风险【答案】:A

解析:本题考察Kafka分区机制。Kafka通过分区并行存储和处理消息,每个分区由一个Leader副本负责读写,多个Follower副本同步数据,分区越多,并行度越高,整体吞吐量越大。B选项延迟与分区数无直接关联;C选项分区不会增加数据总量(仅分散存储);D选项数据丢失风险由副本数决定,与分区无关。因此正确答案为A。81.ETL与ELT的核心区别在于数据转换发生的阶段,正确描述是?

A.ETL先转换后加载,ELT先加载后转换

B.ETL先加载后转换,ELT先转换后加载

C.两者转换阶段完全相同

D.ETL适用于结构化数据,ELT适用于非结构化数据【答案】:A

解析:本题考察ETL/ELT流程知识点。正确答案为A,ETL(Extract-Transform-Load)的流程是先提取数据,经过转换后再加载到目标系统(如数据仓库);ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,后者更适合大数据量场景,可利用目标系统的分布式计算能力。错误选项解释:B选项混淆了ETL和ELT的顺序;C选项两者转换阶段不同;D选项转换阶段与数据结构无关,仅与目标系统计算能力有关。82.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。83.下列关于ApacheSpark的描述,哪项是其核心优势?

A.必须依赖磁盘进行中间结果存储,保证可靠性

B.支持内存计算,中间结果无需频繁写入磁盘

C.仅适用于批处理任务,无法处理实时流数据

D.计算逻辑必须显式使用Map和Reduce两个步骤【答案】:B

解析:本题考察Spark分布式计算框架的核心特性。Spark的核心优势是基于内存计算,中间结果可缓存在内存中(或堆外内存),避免了MapReduce中频繁将中间结果写入磁盘的I/O开销,因此处理速度比MapReduce快数倍。A错误,Spark优先使用内存而非依赖磁盘;C错误,Spark同时支持批处理(RDD/SparkSQL)和流处理(StructuredStreaming);D错误,Spark的计算逻辑更简洁,无需显式调用Map/Reduce步骤,支持多种算子组合。84.Hadoop分布式文件系统(HDFS)中,默认情况下一个文件被分割成的块(Block)大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数,HDFS的块大小是平衡存储效率与数据传输效率的关键配置。在Hadoop2.x及以后版本中,默认块大小为128MB(1.x版本曾为64MB,但目前主流场景已升级至128MB)。选项B为旧版本HDFS的默认配置,C、D不符合主流技术标准,因此正确答案为A。85.在Hadoop分布式文件系统(HDFS)中,默认的副本因子(ReplicationFactor)是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:HDFS默认副本因子为3,目的是通过冗余存储提高数据可靠性,同时平衡存储开销与容错能力。若副本因子为1(A选项),数据单点故障时无法恢复;2(B选项)虽能提供一定冗余,但可靠性低于3;4(D选项)会显著增加存储资源消耗且无必要。86.根据CAP理论,在分布式系统设计中,以下哪项是正确的原则?

A.为保证强一致性(Consistency),必须牺牲分区容错性(PartitionTolerance)

B.分区容错性(P)是分布式系统的固有属性,需优先保证

C.当系统面临网络分区时,必须选择CP模式(一致性优先)

D.系统必须同时满足一致性(C)、可用性(A)和分区容错性(P)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论指出分布式系统只能同时满足‘一致性(C)’、‘可用性(A)’、‘分区容错性(P)’中的两项,无法三者兼得。其中,‘分区容错性(P)’是分布式系统的固有属性(如网络故障必然导致分区),因此需优先保证(B正确)。A错误,因P是必须的,只能在C和A中取舍;C错误,网络分区时通常选AP(牺牲一致性换取可用性);D错误,三者不可同时满足。87.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库的分类。MongoDB以BSON(二进制JSON)格式存储文档,属于文档数据库;键值对数据库(如Redis)以“键-值”对存储数据;列族数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以节点和边的关系存储数据。因此正确答案为C。88.MongoDB属于哪种类型的NoSQL数据库?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:MongoDB以“文档”(类似JSON)为基本存储单元,属于文档型数据库。A选项键值型如Redis,以键值对存储;C选项列族型如HBase,按列族组织数据;D选项图数据库如Neo4j,以图结构存储节点和关系。89.以下哪一项不属于大数据的4V特征?

A.Volume

B.Velocity

C.Variety

D.Value【答案】:D

解析:本题考察大数据的4V特征知识点。大数据的4V特征通常指Volume(数据规模)、Velocity(数据产生速度)、Variety(数据类型多样性)和Veracity(数据真实性),而“Value”(数据价值)不属于标准4V特征范畴。选项A、B、C均为4V的核心组成部分,因此正确答案为D。90.Flink流处理框架中,“事件时间(EventTime)”的定义是?

A.Flink系统处理数据的本地系统时间

B.事件在数据源中实际产生的时间戳

C.事件被Flink算子处理的执行时间

D.事件在Kafka分区中的写入时间【答案】:B

解析:本题考察Flink事件时间处理知识点。事件时间是事件本身的产生时间,用于处理乱序数据或迟到数据(需结合水印机制)。选项A是“处理时间(ProcessingTime)”;选项C描述的是处理时间或算子执行时间;选项D混淆了事件时间与数据存储时间,事件时间是事件自身的时间戳,与分区写入时间无关。91.以下哪种数据脱敏方式适用于开发测试环境,且脱敏后的数据无法恢复原始数据?

A.动态脱敏

B.静态脱敏

C.可逆脱敏

D.字段脱敏【答案】:B

解析:本题考察数据脱敏技术的类型及应用场景。静态脱敏是在数据存储阶段(如生产环境)预先对敏感字段进行不可逆脱敏(如替换为随机字符串、掩码处理),脱敏后的数据可直接用于开发测试环境,且无法恢复原始数据。A错误,动态脱敏是实时脱敏(如查询时替换敏感字段),用于生产环境的实时数据访问;C错误,可逆脱敏通过加密算法实现,脱敏后可恢复原始数据,不适用于测试环境;D错误,“字段脱敏”是脱敏的操作粒度(针对特定字段),非独立类型,与题干描述的“不可逆且用于测试环境”无关。92.一致性哈希算法在分布式系统中的主要优势是?

A.避免因节点变化导致的大规模数据迁移

B.提供强一致性保障,确保数据绝对一致

C.显著提高哈希函数的计算速度

D.自动修复数据冗余和副本丢失问题【答案】:A

解析:一致性哈希通过环形空间和虚拟节点减少节点变化时的数据迁移量,仅影响相邻节点的数据;B错误,一致性哈希不保证强一致性(如Paxos/Raft);C错误,哈希计算速度与算法本身复杂度有关,非一致性哈希的核心优势;D错误,数据冗余和副本修复通常由副本机制或分布式存储系统(如HDFS副本)实现。93.Spark相比MapReduce,在大数据处理中的核心优势是?

A.基于内存计算

B.仅支持磁盘计算

C.只能处理批处理任务

D.实时流处理能力【答案】:A

解析:Spark采用内存计算模型,中间结果无需频繁写入磁盘,大幅提升计算速度。B选项错误,MapReduce基于磁盘,Spark主要依赖内存;C选项错误,Spark既支持批处理也支持流处理;D选项错误,实时流处理是Flink/SparkStreaming的扩展特性,非Spark核心优势。94.以下哪种数据库类型通常用于存储半结构化数据,支持灵活的模式,并且适合存储文档、JSON等格式的数据?

A.关系型数据库(如MySQL)

B.键值型数据库(如Redis)

C.文档型数据库(如MongoDB)

D.列族型数据库(如HBase)【答案】:C

解析:本题考察NoSQL数据库类型的特点知识点。文档型数据库(如MongoDB)以“文档”为基本存储单元,支持类似JSON的半结构化数据格式,每个文档可包含不同字段,模式灵活,适合存储博客文章、产品详情等非严格结构化数据。关系型数据库(A)依赖固定表结构和SQL语言,数据格式严格;键值型数据库(B)仅存储“键-值”对,结构最简单;列族型数据库(D)(如HBase)适合海量结构化数据(如时序数据、日志数据),按列族组织数据,不适合半结构化文档。因此正确答案为C。95.SparkStreaming的核心抽象是以下哪一项?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。SparkStreaming将连续数据流按时间片(如1秒)分割为微批处理,每个时间片生成一个RDD,这些RDD组成DStream(离散流),是SparkStreaming的核心抽象。选项A(RDD)是Spark的基础数据结构,适用于所有Spark应用;选项C(DataFrame)和D(Dataset)是结构化数据API,与Streaming无关。96.在大数据数据仓库构建中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的核心区别在于?

A.ETL在数据加载后进行转换,ELT在加载前转换

B.ETL先抽取、转换后加载,ELT先抽取、加载后转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL需实时处理,ELT支持批量处理【答案】:B

解析:ETL流程是抽取(Extract)→转换(Transform)→加载(Load),即先转换数据再写入目标系统;ELT则是抽取(Extract)→加载(Load)→转换(Transform),即先将原始数据加载到目标存储(如数据仓库),再在目标系统中进行转换。ELT因数据先入仓库,可减少数据传输量,更适合大数据场景;A选项描述颠倒;C选项两者均可处理结构化/半结构化数据;D选项两者均支持批处理,ELT更适合实时流数据场景。97.在数据仓库设计中,用于描述分析场景的属性(如时间、地区、产品类别)的表称为?

A.事实表

B.维度表

C.宽表

D.星型模型【答案】:B

解析:本题考察数据仓库核心概念。事实表包含可度量的数值(如销售额)和关联维度表的外键,是分析的核心度量数据载体;维度表则存储描述性信息(如“2023年Q1”“北京市”),用于解释事实表数据。宽表是一种存储形式(非表类型),星型模型是数据仓库的一种架构,因此正确答案为B。98.在大数据实时流处理场景中,Kafka主要用于实现什么功能?

A.分布式文件存储

B.高吞吐量的消息队列

C.关系型数据库的事务管理

D.分布式缓存【答案】:B

解析:本题考察Kafka核心功能知识点。Kafka是分布式消息系统,专为高吞吐量、高可靠性的实时数据流传输设计,广泛用于日志收集、事件流处理等场景。选项A是HDFS的功能;选项C是MySQL等数据库的事务特性;选项D是Redis等缓存系统的功能。99.在数据仓库的维度建模中,以下哪种模型的事实表通常与多个维度表通过外键关联,且每个维度表结构相对简单,类似于星星的形状?

A.星型模型

B.雪花模型

C.星座模型

D.星环模型【答案】:A

解析:本题考察数据仓库维度建模的知识点。星型模型是维度建模的经典结构,其特点是事实表位于中心,与多个维度表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论