2026年大数据技术专业从业资格考试真题【能力提升】附答案详解_第1页
2026年大数据技术专业从业资格考试真题【能力提升】附答案详解_第2页
2026年大数据技术专业从业资格考试真题【能力提升】附答案详解_第3页
2026年大数据技术专业从业资格考试真题【能力提升】附答案详解_第4页
2026年大数据技术专业从业资格考试真题【能力提升】附答案详解_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术专业从业资格考试真题【能力提升】附答案详解1.大数据最显著的特征是以下哪一项?

A.数据量大(Volume)

B.处理速度快(Velocity)

C.数据类型多样(Variety)

D.价值密度低(Value)【答案】:A

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据准确性)、Value(价值密度低)。其中,“数据量大”是大数据最直观、最显著的特征,其他特征是伴随数据量增长衍生的特性,因此A选项正确。B、C、D虽为大数据特征,但并非“最显著”的核心特征。2.MongoDB属于哪种类型的NoSQL数据库?

A.键值对(Key-Value)型

B.文档型(Document)

C.列族(Column-Family)型

D.图(Graph)型【答案】:B

解析:本题考察NoSQL数据库类型知识点。MongoDB以类JSON的BSON格式存储文档,支持复杂嵌套结构,属于文档型数据库。键值型如Redis(仅存储简单键值对);列族型如HBase(按列族组织数据,适用于结构化数据);图型如Neo4j(存储节点与关系数据)。因此正确答案为B。3.HBase属于以下哪种NoSQL数据库类型?

A.文档型

B.列族型

C.键值型

D.图数据库【答案】:B

解析:本题考察NoSQL数据库类型及典型应用。HBase是典型的列族数据库,以列族(ColumnFamily)为基本存储单位,适合海量结构化数据的随机读写。选项A(文档型)如MongoDB,选项C(键值型)如Redis,选项D(图数据库)如Neo4j,均不符合HBase的存储模型,故正确答案为B。4.在数据仓库设计中,以下哪种模型通常以事实表为中心,维度表直接与事实表相连,结构简单且查询效率高?

A.星型模型

B.雪花模型

C.星座模型

D.星型+雪花混合模型【答案】:A

解析:本题考察数据仓库模型知识点。星型模型由一个事实表和多个维度表组成,维度表直接连接事实表,结构对称且查询路径短,效率高;雪花模型是星型模型的扩展,维度表存在层级结构,复杂度更高;星座模型是多个事实表共享维度表的组合模型。因此星型模型是结构简单且高效的典型,正确答案为A。5.数据仓库中,哪个特性是指数据随时间变化以反映业务发展趋势?

A.面向主题

B.集成性

C.非易失性

D.时变性【答案】:D

解析:本题考察数据仓库的核心特性。数据仓库的四个关键特性中:A(面向主题)指围绕特定业务主题组织数据;B(集成性)指整合多源异构数据;C(非易失性)指数据仅添加不删除;D(时变性)特指数据随时间推移而积累变化,用于历史趋势分析。其他选项均不符合“随时间变化”的定义。6.以下哪个框架特别擅长处理高吞吐量的实时流数据?

A.SparkStreaming(微批处理框架)

B.ApacheFlink(流处理框架)

C.ApacheStorm(实时计算框架)

D.ApacheHive(数据仓库工具)【答案】:B

解析:本题考察流处理框架的特点。Flink是专为流处理设计的框架,支持低延迟、高吞吐的数据处理,具备精确一次(Exactly-Once)语义和强大的状态管理能力,适合实时流数据场景。ASparkStreaming基于微批处理,本质是“准实时”,延迟较高;CStorm虽支持实时计算,但在状态管理和容错性上弱于Flink;DHive是数据仓库工具,主要用于批处理分析,非流处理框架。7.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心参数。HDFS默认块大小为128MB(旧版本为64MB),该设计用于平衡数据存储效率与MapReduce任务并行性。选项A是早期版本的默认块大小,选项C和D均大于HDFS标准默认值,因此正确答案为B。8.以下哪种NoSQL数据库适合存储社交关系(如用户-关注-用户的复杂关系)?

A.Redis(键值型)

B.MongoDB(文档型)

C.Neo4j(图数据库)

D.Cassandra(列族型)【答案】:C

解析:本题考察NoSQL数据库类型与应用场景。图数据库(如Neo4j)以节点和边存储实体及关系,适合社交关系(用户、关注、好友等)的建模;键值型(Redis)适合简单键值对存储;文档型(MongoDB)适合嵌套结构但非关系型数据;列族型(Cassandra)适合结构化行列数据。社交关系的核心是实体间的关联,图数据库最匹配。因此正确答案为C。9.Hadoop分布式文件系统(HDFS)的核心功能是?

A.提供分布式计算框架

B.存储海量结构化/非结构化数据

C.实现集群资源调度与管理

D.实时处理流数据与事件流计算【答案】:B

解析:本题考察HDFS的核心定位。HDFS是Hadoop生态的分布式存储组件,主要负责海量数据的可靠存储;A选项是MapReduce或Spark的功能,C是YARN的职责,D是Storm/Flink等流处理框架的应用场景。因此正确答案为B。10.在分布式系统CAP定理中,字母“C”代表的是?

A.Consistency(一致性)

B.Availability(可用性)

C.Partitiontolerance(分区容错性)

D.Continuity(连续性)【答案】:A

解析:本题考察分布式系统理论CAP定理。CAP定理指出分布式系统只能同时满足三个要素中的两项:C(Consistency,一致性:所有节点在同一时间看到相同的数据)、A(Availability,可用性:每个请求都能得到成功或失败的响应)、P(Partitiontolerance,分区容错性:允许节点间网络分区);B选项对应“A”,C选项对应“P”,D选项为干扰项(非CAP定理术语)。11.在数据仓库建模中,以下哪种模型通常用于分析型应用?

A.雪花模型(SnowflakeSchema)

B.星型模型(StarSchema)

C.星座模型(GalaxySchema)

D.层次模型(HierarchicalModel)【答案】:B

解析:本题考察数据仓库建模方式。星型模型是数据仓库维度建模的典型方式,由一个事实表和多个维度表组成,结构清晰、查询高效,广泛用于分析型应用(如OLAP分析)。A雪花模型是星型模型的扩展,通过维度表分层细化,但复杂度过高,适合特定场景;C星座模型是多个星型模型共享维度表,适用于大型企业级数据仓库;D层次模型是传统数据库的结构模型,非数据仓库主流分析模型。12.以下哪种数据处理方式适用于实时分析场景(如实时监控系统的异常检测)?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线处理(OfflineProcessing)

D.混合处理(HybridProcessing)【答案】:B

解析:本题考察数据处理类型的应用场景。流处理针对连续实时数据流(如传感器数据、日志流),支持低延迟处理和实时分析(如实时告警);批处理(A)处理历史数据,耗时较长;离线处理(C)等同于批处理,通常用于T+1报表生成;混合处理(D)是批流结合,但核心实时场景由流处理承担。因此正确答案为B。13.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源;ZooKeeper是分布式协调服务。因此正确答案为A。14.MongoDB数据库属于以下哪种类型的NoSQL数据库?

A.键值(Key-Value)型

B.列族(Column-Family)型

C.文档(Document)型

D.图(Graph)型【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以JSON/BSON格式存储文档,属于文档型数据库。错误选项A(键值型)如Redis以键值对存储;B(列族型)如HBase以列族+行键组织数据;D(图型)如Neo4j以节点和边的关系模型存储。15.以下哪种系统通常属于联机分析处理(OLAP)系统?

A.电商订单交易系统

B.银行实时转账系统

C.企业财务数据分析平台

D.物联网实时监控系统【答案】:C

解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)主要用于数据分析和决策支持,如财务分析、市场趋势分析等;OLTP(联机事务处理)面向业务操作,如电商订单、银行交易、物联网监控等实时事务处理场景。因此企业财务分析平台属于OLAP系统,正确答案为C。16.数据仓库维度建模中,星型模型的核心特点是?

A.以事实表为中心,直接连接多个维度表

B.以维度表为中心,连接规范化的事实表

C.所有维度表均为非规范化设计

D.严格遵循第三范式(3NF)设计【答案】:A

解析:本题考察数据仓库星型模型的结构。星型模型以事实表为中心,周围直接连接多个维度表(维度表无冗余);雪花模型是星型模型的规范化版本(维度表进一步拆分)。星型模型属于反范式设计,不严格遵循3NF,且核心是事实表而非维度表。因此A正确,B、C、D描述均错误。17.与传统MapReduce相比,Spark的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持多种计算模型(批处理、流处理等)

C.仅能进行批处理任务,无法处理实时数据

D.提供丰富的API(如SparkSQL、DataFrame等)【答案】:C

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势包括:A正确,基于内存计算(而非MapReduce的磁盘IO),大幅提升速度;B正确,Spark支持批处理(SparkCore)、流处理(SparkStreaming)、交互式查询(SparkSQL)等多种场景;D正确,Spark提供DataFrame、Dataset等统一数据抽象API,易用性强。选项C错误,Spark不仅支持批处理,更通过SparkStreaming、StructuredStreaming等模块支持实时流处理,而MapReduce仅能处理离线批处理任务。18.根据CAP理论,分布式系统中无法同时满足的是哪两个特性?

A.一致性(Consistency)和可用性(Availability)

B.一致性(Consistency)和分区容错性(Partitiontolerance)

C.可用性(Availability)和分区容错性(Partitiontolerance)

D.分区容错性(Partitiontolerance)和一致性(Consistency)【答案】:A

解析:本题考察CAP理论的核心内容。CAP理论指出分布式系统必须满足分区容错性(Partitiontolerance,P),而在一致性(C)和可用性(A)之间只能选择其一(即CP或AP),无法同时满足C和A。B、C、D错误,因为分区容错性(P)是分布式系统的基本要求,无法被放弃,因此无法同时满足的是C和A。正确答案为A。19.Hadoop生态系统中,负责数据分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大数据存储设计,将数据分散存储在多台服务器上,提供高容错性和高吞吐量。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源分配;ZooKeeper是分布式协调服务,用于配置管理和集群状态监控。因此正确答案为A。20.以下哪项是数据集市(DataMart)的典型特征?

A.面向企业级全业务主题的集成数据

B.存储原始业务系统的详细数据

C.通常针对特定部门需求构建

D.由多个独立数据仓库组成【答案】:C

解析:本题考察数据仓库体系中的数据集市概念。数据集市是数据仓库的子集,专注于特定业务部门(如销售、财务)需求,规模小且结构紧凑(C正确)。A是企业级数据仓库特征;B描述的是操作型数据库(OLTP)的原始数据存储;D混淆了数据集市与数据仓库的关系(数据集市从数据仓库提取数据)。因此正确答案为C。21.以下哪项是OLAP(联机分析处理)的典型应用场景?

A.实时处理电商订单支付

B.企业财务报表的多维数据分析

C.高并发用户登录验证

D.数据库日常事务性查询【答案】:B

解析:本题考察OLAP与OLTP的核心区别。OLAP用于支持复杂的数据分析和决策支持,通常处理历史数据的多维切片、钻取等操作,典型场景如企业财务报表分析、销售趋势预测等。A、C、D均属于OLTP(联机事务处理)的应用场景,即实时处理业务交易、高并发事务性操作(如订单支付、用户登录验证),强调短响应时间和高吞吐量。因此正确答案为B。22.HadoopYARN(YetAnotherResourceNegotiator)的主要功能是?

A.管理分布式文件系统的元数据

B.负责集群资源的分配与任务调度

C.实现数据仓库的ETL流程

D.提供实时流数据的消息队列服务【答案】:B

解析:本题考察YARN的核心职责。YARN是Hadoop2.x引入的资源管理器,负责集群资源(CPU、内存等)的统一管理、任务调度和资源隔离,为上层计算框架(如MapReduce、Spark)提供资源支持。A选项是HDFSNameNode的功能;C选项属于数据仓库工具(如Hive)的ETL流程;D选项是消息队列(如Kafka)的功能。因此正确答案为B。23.Spark相比MapReduce的主要优势在于?

A.内存计算

B.批处理能力

C.离线计算

D.仅适合大数据场景【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是基于内存计算,避免了MapReduce中频繁的磁盘I/O操作,尤其在迭代计算和交互式查询中性能远超MapReduce。“批处理能力”“离线计算”是MapReduce和Spark共同支持的基础能力,并非Spark独有优势;“仅适合大数据场景”表述错误,两者均适用于大数据,但Spark在内存计算上更高效。因此正确答案为A。24.ApacheFlink作为流处理框架,其典型特性是?

A.低延迟、高吞吐、精确一次语义

B.仅支持离线批处理

C.完全依赖Kafka进行数据存储

D.基于MapReduce架构实现【答案】:A

解析:本题考察Flink核心特性。Flink支持低延迟高吞吐的实时流处理,且提供精确一次(Exactly-Once)语义保证数据一致性;B错误,Flink是流处理框架,支持实时计算;C错误,Flink可从多种数据源读取数据,不依赖Kafka;D错误,Flink有独立的计算引擎架构,不基于MapReduce。25.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:A

解析:本题考察Hadoop生态核心组件知识点。HDFS是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责并行处理任务;YARN是资源管理器,管理集群资源分配;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。26.以下哪种算法属于数据挖掘中的分类算法?

A.K-Means聚类

B.Apriori关联规则

C.SVM支持向量机

D.PCA主成分分析【答案】:C

解析:本题考察数据挖掘算法类型。分类算法用于将数据映射到预定义类别。SVM(支持向量机)是典型的二分类/多分类算法,通过寻找最优超平面实现类别划分。K-Means是无监督聚类算法,用于将数据分为不同簇;Apriori是关联规则挖掘算法,用于发现项集间的关联关系(如“啤酒-尿布”);PCA是降维算法,通过线性变换减少特征维度,不涉及分类。因此正确答案为C。27.Spark相比MapReduce的主要优势是?

A.仅支持内存计算,不依赖磁盘存储

B.支持多种数据处理模型(批处理、流处理、交互式查询等)

C.必须基于磁盘存储数据,确保数据持久性

D.仅适用于离线批处理场景,无法处理实时数据【答案】:B

解析:本题考察Spark的技术特点。Spark的核心优势是支持多种数据处理模型,包括批处理(SparkCore)、流处理(SparkStreaming)、交互式查询(SparkSQL)等,而MapReduce仅支持批处理。A错误,Spark虽优先内存计算,但也支持磁盘存储;C错误,Spark以内存计算为核心,非必须基于磁盘;D错误,Spark支持实时数据处理(如StructuredStreaming)。28.在大数据数据清洗过程中,以下哪项属于数据清洗的主要任务?

A.处理数据中的缺失值

B.对数据进行格式转换

C.将数据加载到数据仓库

D.对数据进行聚合统计【答案】:A

解析:本题考察数据清洗的核心任务。数据清洗聚焦数据质量问题,包括缺失值填充/删除、异常值检测、重复数据处理等;B属于数据转换,C属于数据加载环节,D属于数据分析阶段。因此正确答案为A。29.Hadoop生态系统中,不属于其核心组件的是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.Spark(内存计算框架)

D.YARN(资源管理器)【答案】:C

解析:Hadoop核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)和YARN(资源调度)。Spark是独立的开源计算框架,虽可与Hadoop集成,但不属于Hadoop核心组件,故C错误。30.Spark相比MapReduce,其核心优势在于?

A.内存计算速度更快

B.磁盘IO效率更高

C.支持实时流处理

D.仅需单机部署即可运行【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark采用内存计算架构,将数据缓存在内存中进行迭代计算,避免了MapReduce中频繁的磁盘IO操作,因此在迭代计算、交互式查询场景下速度远超MapReduce。选项B(磁盘IO效率更高)错误,MapReduce本身依赖磁盘存储中间结果,而Spark的优势正是减少磁盘依赖;选项C(支持实时流处理)是SparkStreaming的功能,属于扩展特性,非核心优势;选项D(仅需单机部署)错误,Spark需分布式集群支持,且MapReduce同样支持分布式部署。31.SparkStreaming的核心处理模式是?

A.实时流处理

B.微批处理

C.全内存计算

D.分布式批处理【答案】:B

解析:本题考察流处理框架的技术特点。SparkStreaming基于微批处理(Micro-batch)模型,将流数据按固定时间窗口切割为小批量RDD进行处理;选项A是Flink等流处理框架的典型特征;选项C(全内存计算)是Spark的通用特性,但非SparkStreaming独有;选项D(分布式批处理)属于SparkRDD的基础模式,而非流处理核心。因此正确答案为B。32.以下哪个是Hadoop分布式文件系统的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的存储;MapReduce是分布式计算框架,用于并行处理海量数据;YARN是资源管理器,负责集群资源的分配与调度;ZooKeeper是分布式协调服务,提供配置管理、命名服务等。因此正确答案为A。33.大数据的‘多样性(Variety)’特征主要体现在以下哪个方面?

A.数据产生的速度快,可实时生成

B.数据规模达到PB级甚至EB级

C.数据类型包括结构化、半结构化和非结构化数据

D.数据存储需要分布式集群支持【答案】:C

解析:本题考察大数据5V特征的概念。大数据的5V特征包括:Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。选项A对应Velocity(速度),选项B对应Volume(规模),选项D描述的是数据存储的技术需求而非多样性特征。选项C明确指出数据类型的多样性,符合Variety的定义,因此正确答案为C。34.Spark相比MapReduce的显著优势是?

A.基于内存计算,减少磁盘IO操作

B.仅支持批处理计算模式

C.只能处理结构化数据

D.对硬件资源要求更低【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark将中间数据存储在内存中(支持RDD缓存),避免了MapReduce中大量的磁盘读写(MapReduce需多次写磁盘),因此计算速度提升显著;B错误,Spark支持批处理和流处理(StructuredStreaming);C错误,Spark支持JSON、CSV、Parquet等多种格式,包括半结构化/非结构化数据;D错误,Spark对内存/CPU资源要求更高(如内存不足会导致频繁GC)。35.在数据仓库的维度建模中,用于描述业务事件的表是?

A.维度表

B.事实表

C.宽表

D.雪花表【答案】:B

解析:本题考察数据仓库维度建模的核心概念。事实表存储业务事件的度量值(如销售额、订单量)和关联维度键,是描述业务事件的核心表。选项A(维度表)存储描述性信息(如客户名称、产品类别);选项C(宽表)是星型模型的一种实现形式(非标准术语);选项D(雪花表)是维度表的规范化结构,非业务事件描述表。36.MongoDB属于哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB以文档模型存储数据,每个文档类似JSON格式,支持嵌套结构和灵活模式,属于文档型数据库。选项A错误,键值型数据库(如Redis)以简单键值对存储;选项B错误,列族型数据库(如HBase)按列族组织数据;选项D错误,图型数据库(如Neo4j)用于存储实体关系图。37.以下哪种数据库属于文档型NoSQL数据库?

A.MongoDB

B.HBase

C.Redis

D.Cassandra【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型NoSQL数据库,以JSON格式存储数据,适合非结构化/半结构化数据;B选项HBase是列族型NoSQL数据库;C选项Redis是键值型数据库;D选项Cassandra是分布式列族型数据库。因此正确答案为A。38.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;YARN是资源管理器,负责集群资源调度;MapReduce是分布式计算框架;Hive是基于Hadoop的数据仓库工具。因此正确答案为A。39.以下关于数据湖(DataLake)的描述,正确的是?

A.仅存储结构化数据(如关系型数据库表)

B.强调数据的标准化和一致性,适合BI分析

C.通常基于数据仓库架构构建,数据需预先清洗

D.可存储原始数据(结构化/半结构化/非结构化),支持灵活分析【答案】:D

解析:本题考察数据湖与数据仓库的概念区分。数据湖的核心特征是存储未经处理的原始数据(包括结构化、半结构化、非结构化),并支持灵活的分析需求(如机器学习、复杂查询),无需预先标准化。A错误(数据湖支持多类型数据);B错误(标准化是数据仓库特征);C错误(数据湖独立于数据仓库,数据仓库通常从数据湖提取清洗后构建)。40.MongoDB在NoSQL数据库中属于哪种类型?

A.键值对数据库(Key-Value)

B.列族数据库(Column-Family)

C.文档型数据库(Document)

D.图数据库(Graph)【答案】:C

解析:本题考察NoSQL数据库类型及代表产品。MongoDB以JSON格式文档存储数据,属于文档型数据库;键值对数据库如Redis、Memcached;列族数据库如HBase;图数据库如Neo4j。因此正确答案为C。41.关于ApacheFlink,以下哪项描述是正确的?

A.采用微批处理模型

B.支持流处理和批处理统一的引擎

C.只能处理实时流数据

D.仅适用于离线数据处理【答案】:B

解析:本题考察流处理框架的技术特性。Flink的核心优势是流批一体,支持同一引擎同时处理实时流数据和离线批处理任务,通过统一的状态管理和时间语义实现低延迟计算。选项A(微批处理)是SparkStreaming的设计模型;选项C(仅实时)和D(仅离线)均错误,Flink同时支持流和批处理场景。42.ApacheFlink作为流处理框架,其核心特性是?

A.基于微批处理模型,实现低延迟流处理

B.支持高吞吐、低延迟的实时流处理

C.仅支持离线批处理,不擅长流处理

D.依赖Spark引擎实现内存计算【答案】:B

解析:本题考察Flink核心特性。Flink专注实时流处理,支持低延迟(毫秒级)和高吞吐(每秒数十万事件),具备精确一次语义。A选项是SparkStreaming的微批处理模型,C选项与Flink支持流批一体矛盾,D选项错误(Flink是独立框架,不依赖Spark)。43.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS核心配置知识点。HDFS为提高数据可靠性和容错性,默认将文件存储为3个副本(副本因子),分别存储在不同节点上。当一个节点故障时,其他副本可替代使用。选项A(2)为部分场景下的简化配置,C(4)和D(5)均高于默认值,不符合HDFS标准设置。44.在大数据隐私保护中,将用户身份证号替换为‘110101********1234’的操作属于以下哪种技术?

A.数据加密

B.数据删除

C.数据脱敏

D.数据备份【答案】:C

解析:数据脱敏通过变形处理敏感数据(如隐藏部分字符)实现隐私保护,保留格式和可用性;A错误,数据加密需密钥解密,与“替换部分字符”操作不同;B错误,数据删除会破坏数据完整性;D错误,数据备份仅用于容灾恢复,不涉及隐私保护。45.以下哪一项不是Hadoop的核心组成部分?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:D

解析:本题考察Hadoop核心组件知识点。Hadoop的核心组成部分为HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),三者共同构成Hadoop生态的基础架构。Hive是基于Hadoop的开源数据仓库工具,用于SQL风格的查询处理,属于Hadoop生态系统的扩展工具而非核心组件。46.在HDFS中,文件的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS文件存储特性。HDFS为保障数据可靠性,默认将文件存储为3个副本,分布在不同节点,防止单点故障导致数据丢失。选项A(1副本)数据可靠性低,B(2副本)为非默认配置,D(4副本)超出默认值。因此正确答案为C。47.Spark相比MapReduce在计算效率上的主要优势是?

A.内存计算

B.批处理能力

C.分布式存储

D.实时流处理【答案】:A

解析:本题考察Spark与MapReduce的技术差异。Spark的核心设计是基于内存的计算引擎,避免了MapReduce中频繁的磁盘IO操作,大幅提升计算速度;MapReduce也支持批处理但依赖磁盘IO;分布式存储由HDFS提供而非Spark;实时流处理是Flink/Storm等框架的专长,SparkStreaming是其流处理模块但核心优势仍是内存计算。因此正确答案为A。48.Spark相比MapReduce,其显著优势在于?

A.内存计算,速度更快

B.仅支持批处理任务

C.必须依赖磁盘存储中间结果

D.不支持迭代计算【答案】:A

解析:本题考察Spark与MapReduce的对比知识点。Spark采用内存计算模型,中间结果可缓存于内存,避免MapReduce中大量磁盘I/O操作,因此迭代计算和实时分析速度更快;B选项错误,Spark支持批处理、流处理等多种任务;C选项错误,Spark以内存计算为主,非必须依赖磁盘;D选项错误,Spark擅长迭代计算(如机器学习)。正确答案为A。49.以下哪个不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.MySQL(关系型数据库管理系统)【答案】:D

解析:本题考察Hadoop生态系统的核心组件。HDFS是Hadoop分布式存储的基础,负责海量数据的可靠存储;MapReduce是分布式计算框架,实现任务并行处理;YARN是资源管理系统,协调集群资源分配。而MySQL是传统关系型数据库,不属于Hadoop生态系统,通常用于结构化数据的事务性存储。50.以下哪个工具主要用于构建实时高吞吐、低延迟的数据流处理管道?

A.Kafka

B.Flink

C.SparkStreaming

D.HadoopStreaming【答案】:A

解析:本题考察大数据流处理工具特性知识点。Kafka是分布式消息队列,专为高吞吐、低延迟的实时数据流管道设计,提供消息持久化和实时传输能力。Flink和SparkStreaming是流处理计算框架(需依赖数据源如Kafka),HadoopStreaming是MapReduce的流处理API,不直接构建数据流管道,因此A选项正确。51.以下关于数据湖(DataLake)的描述,正确的是?

A.仅存储结构化数据,需ETL清洗后使用

B.通常存储原始数据,支持多种数据类型

C.数据已完成整合,可直接用于业务分析

D.只能通过批处理方式进行数据查询【答案】:B

解析:本题考察数据湖的核心特征。数据湖是原始数据的集中存储库,支持结构化、半结构化(如JSON)和非结构化(如视频)数据,无需提前ETL清洗。选项A错误,数据湖不限制数据类型;选项C错误,数据湖的数据需后续处理才能用于分析;选项D错误,现代数据湖支持实时分析(如Flink+数据湖架构)。52.Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小通常是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础架构知识点。HDFS的块大小默认值为128MB(Hadoop2.x版本),这一设计平衡了磁盘随机读取效率与文件寻址速度。64MB(A)是早期版本的块大小;256MB(C)或512MB(D)会因文件过大增加随机访问的I/O开销,降低系统性能。因此正确答案为B。53.在数据仓库的维度建模中,以下哪个属于事实表?

A.客户表

B.产品表

C.销售记录表

D.员工表【答案】:C

解析:本题考察数据仓库维度建模的基础概念。事实表记录业务事件及度量值(如销售金额、数量),包含维度表的外键;维度表存储描述性属性(如客户信息、产品分类)。选项A(客户表)、B(产品表)、D(员工表)均为维度表,用于描述事实表的上下文;选项C(销售记录表)包含“销售额”“订单量”等度量值,属于事实表。54.在Hadoop分布式文件系统(HDFS)中,默认情况下一个文件会被存储为多少个副本以保证高可用性?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心特性——数据冗余机制。HDFS默认将文件存储为3个副本,这是基于容错性和资源利用率的平衡设计:3个副本既能有效应对单点故障(如一个副本所在节点宕机,剩余副本可继续提供服务),又避免了过多副本导致的存储资源浪费。选项A(1个副本)无冗余能力,无法容错;选项B(2个副本)冗余度不足,单点故障时可能丢失数据;选项D(4个副本)虽增加冗余但超出默认配置且非必要,会浪费存储空间。55.在Hadoop分布式文件系统(HDFS)中,默认的块大小通常是多少?

A.128MB

B.64MB

C.256MB

D.32MB【答案】:A

解析:本题考察HDFS的基础配置知识点。HDFS默认块大小为128MB(2012年后版本),主要为平衡存储利用率和读写效率。选项B(64MB)是HDFS早期版本的默认配置;选项C(256MB)需手动调整为高容量集群的可选配置,非默认值;选项D(32MB)过小,会导致文件元数据开销过大,不符合HDFS设计目标。56.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题

B.实时事务处理

C.高并发读写

D.支持实时查询【答案】:A

解析:本题考察数据仓库基本概念。数据仓库的核心特征包括面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据加载后一般不修改)、时变性(随时间维度分析)。选项B(实时事务处理)是操作型数据库(OLTP)的典型特征;选项C(高并发读写)属于OLTP的性能需求;选项D(支持实时查询)更偏向实时数据仓库或OLAP系统的特性,而非数据仓库的核心定义。因此正确答案为A。57.Spark相比MapReduce,其核心优势主要体现在?

A.内存计算,速度更快

B.仅支持批处理任务

C.只能运行在磁盘上

D.不支持流处理应用【答案】:A

解析:本题考察Spark与MapReduce的技术对比知识点。Spark采用内存计算框架,中间结果优先存储在内存中,避免MapReduce的大量磁盘I/O操作,因此处理速度更快。B错误(Spark既支持批处理也支持流处理,如SparkStreaming);C错误(Spark优先使用内存,仅在内存不足时落盘);D错误(SparkStreaming可实现流处理)。因此正确答案为A。58.大数据环境下,对数据全生命周期进行管理和控制的过程称为?

A.数据清洗

B.数据集成

C.数据治理

D.数据脱敏【答案】:C

解析:本题考察数据治理的定义。数据治理是对数据资产全生命周期(采集、存储、处理、使用、销毁等)的规划、控制与监督,确保数据质量和合规性;数据清洗是处理脏数据(如缺失值、异常值)的过程;数据集成是合并多源异构数据的操作;数据脱敏是通过替换敏感信息为假数据保护隐私的技术,属于数据治理中的安全措施。因此正确答案为C。59.MongoDB数据库的核心数据模型是以下哪种类型?

A.关系型

B.文档型

C.键值型

D.列族型【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式的文档存储数据,支持灵活的模式设计;关系型数据库(如MySQL)以表和行存储;键值型数据库(如Redis)存储键值对;列族型数据库(如HBase)按列族组织数据。因此MongoDB属于文档型数据库,正确答案为B。60.SparkStreaming的核心处理模式是?

A.微批处理

B.实时流处理

C.全量批处理

D.内存计算【答案】:A

解析:本题考察SparkStreaming的处理模型。SparkStreaming基于微批处理架构,将数据流分割为小批量(通常1-10秒)进行处理,属于“准实时”处理;而实时流处理是Flink等框架的核心模式;全量批处理是MapReduce的典型场景;内存计算是Spark的底层特性,非处理模式。因此正确答案为A。61.MongoDB属于以下哪种NoSQL数据库模型?

A.键值对(Key-Value)模型

B.文档(Document)模型

C.列族(Column-Family)模型

D.图(Graph)模型【答案】:B

解析:本题考察NoSQL数据库的分类,正确答案为B。MongoDB以JSON格式的“文档”(Document)为基本存储单元,支持嵌套文档和灵活的模式,属于文档模型;A典型代表为Redis、DynamoDB;C代表为HBase、Cassandra;D代表为Neo4j。62.下列关于Spark与MapReduce相比的显著优势,说法错误的是?

A.内存计算

B.DAG执行引擎

C.迭代计算优化

D.仅支持批处理【答案】:D

解析:本题考察Spark的核心优势。Spark相比MapReduce的优势包括:A选项内存计算(Spark将数据缓存在内存中,减少磁盘IO)、B选项DAG执行引擎(支持复杂的管道式操作,优化任务执行顺序)、C选项迭代计算优化(通过内存缓存避免重复计算,迭代效率远高于MapReduce);而D选项错误,Spark不仅支持批处理,还支持流处理(SparkStreaming)、交互式查询(SparkSQL)等多种计算模式,因此“仅支持批处理”是错误描述。63.在数据仓库中,用于记录业务事件(如销售金额、订单数量等度量值)的表类型是?

A.维度表

B.事实表

C.分层表

D.分区表【答案】:B

解析:本题考察数据仓库表结构。事实表记录业务事件的度量值(如销售额、订单数),并关联维度表提供上下文;维度表(A)用于描述事实表的分析角度(如时间、地区),属于描述性表;分层表(C)和分区表(D)是数据存储优化手段,非表类型分类。因此正确答案为B。64.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础架构知识点。HDFS默认块大小为128MB,这一设计是为了平衡磁盘读写效率与内存利用率(小文件过多会增加元数据管理开销,大文件会导致单次IO耗时过长)。选项A(64MB)是早期Hadoop版本的可选配置或特定场景优化值;选项C(256MB)常见于高性能存储集群的优化设置;选项D(512MB)因文件过大可能导致MapReduce任务拆分困难,故非默认值。65.处理连续型数值数据的缺失值时,以下哪种方法最为常用?

A.直接删除包含缺失值的记录

B.使用该字段的均值进行填充

C.使用该字段的众数进行填充

D.使用该字段的最大值进行填充【答案】:B

解析:本题考察大数据数据清洗中的缺失值处理。连续型数值(如温度、销售额)的缺失值处理需保持数据分布特性:均值填充(选项B)是最常用方法,能保留数据的统计特性;众数(选项C)适用于类别型数据(如颜色、性别);直接删除(A)可能导致样本量不足或偏差;最大值(D)会高估数据分布,影响后续分析。66.大数据的5V特征中,不包括以下哪一项?

A.Volume(数据量)

B.Velocity(处理速度)

C.Variety(数据多样性)

D.Validity(数据有效性)【答案】:D

解析:本题考察大数据的核心特征知识点。大数据的5V特征是:Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)、Value(数据价值密度低)。选项D的“Validity(数据有效性)”不属于5V特征,因此错误。67.以下哪个系统通常用于构建实时流处理应用(如实时计算、实时分析)?

A.Kafka

B.Storm

C.Hive

D.HBase【答案】:B

解析:本题考察流处理技术的典型工具。流处理系统需支持低延迟、高吞吐的数据实时处理:B正确,Storm是开源的实时流处理框架,基于“元组(Tuple)”模型,支持毫秒级延迟的实时计算(如实时统计在线用户数)。选项A错误,Kafka是分布式消息队列,主要用于存储和传递流数据(如日志、事件流),自身不直接提供流处理能力;选项C错误,Hive是基于Hadoop的离线数据仓库工具,仅支持批处理查询;选项D错误,HBase是分布式NoSQL数据库,用于海量结构化数据存储,非流处理框架。68.以下关于Spark框架特点的描述,正确的是?

A.Spark仅支持内存计算,无法处理磁盘数据

B.Spark基于MapReduce架构实现分布式计算

C.Spark的RDD(弹性分布式数据集)具有不可变性

D.Spark不支持实时流处理场景【答案】:C

解析:本题考察Spark核心特性。Spark的RDD是不可变的分布式数据集合,这是其保证数据一致性和容错性的关键设计。A错误,Spark支持内存与磁盘混合计算;B错误,Spark采用独立的DAG执行引擎,与MapReduce架构无关;D错误,SparkStreaming模块可支持实时流处理。69.Spark相比MapReduce的主要技术优势是?

A.支持内存计算,减少磁盘IO

B.仅支持批处理任务

C.依赖分布式存储系统

D.仅适用于离线数据处理【答案】:A

解析:本题考察Spark与MapReduce技术差异知识点。Spark的核心优势是支持内存计算,可将中间结果缓存在内存中,大幅减少磁盘IO操作,计算速度远快于MapReduce;MapReduce虽也支持批处理,但依赖磁盘读写,效率较低。B选项错误,Spark同时支持批处理和流处理;C选项错误,两者均依赖分布式存储(如HDFS);D选项错误,Spark也支持实时流处理(如StructuredStreaming)。因此A选项正确。70.以下哪项是联机分析处理(OLAP)的典型应用场景?

A.电商平台实时订单交易记录存储

B.企业财务部门日常记账系统

C.银行核心账户余额查询系统

D.企业销售数据多维分析与决策支持【答案】:D

解析:本题考察OLAP(联机分析处理)的应用场景。OLAP主要用于对历史数据进行多维分析、聚合计算,支持复杂查询以辅助决策;OLTP(联机事务处理)专注于实时事务处理(如A、B、C均为交易、记账、账户查询等实时操作)。因此正确答案为D。71.ApacheKafka的主要应用场景是?

A.实时流数据传输与存储

B.分布式文件系统

C.批处理计算框架

D.数据仓库ETL工具【答案】:A

解析:本题考察流处理技术组件Kafka的定位知识点。Kafka是分布式流处理平台,专为高吞吐量的实时消息传递设计,支持消息持久化和实时数据传输;B选项是HDFS的功能;C选项是MapReduce/Spark的批处理定位;D选项是Hive/ETL工具的职责。因此A选项正确。72.MapReduce分布式计算框架的核心设计思想是?

A.分而治之(DivideandConquer)

B.实时流处理

C.内存计算优先

D.数据本地性优化【答案】:A

解析:本题考察MapReduce的核心原理。MapReduce通过将大规模任务分解为多个独立的Map任务(数据分片处理)和Reduce任务(结果汇总),体现“分而治之”的思想。选项B是流处理框架(如Flink/SparkStreaming)的特性,选项C是Spark的优势,选项D是HDFS的优化策略,均不符合MapReduce的核心思想,因此正确答案为A。73.Hadoop分布式文件系统(HDFS)默认的副本数是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS的基本配置知识点。HDFS默认副本数为3,主要目的是通过多副本机制实现数据冗余,防止单点故障导致数据丢失。选项A(2)通常为非默认场景下的调整值,选项C(4)和D(5)超出HDFS默认配置范围,故正确答案为B。74.根据CAP定理,在分布式系统中,以下哪项组合是无法同时满足的?

A.一致性、可用性、分区容错性

B.一致性和可用性

C.一致性和分区容错性

D.可用性和分区容错性【答案】:B

解析:本题考察分布式系统CAP定理。CAP定理指出分布式系统只能同时满足“一致性(C)”“可用性(A)”“分区容错性(P)”中的两项,其中分区容错性(P)是分布式系统的固有特性(必须满足),因此一致性(C)和可用性(A)无法同时满足。其他选项均存在错误,正确答案为B。75.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对(Key-Value)型

B.列族(Column-Family)型

C.文档(Document)型

D.图(Graph)型【答案】:C

解析:本题考察NoSQL数据库的分类及典型代表。MongoDB是文档型数据库,以类似JSON的键值对文档形式存储数据,支持动态模式(schema-less),适合存储半结构化数据(如日志、用户信息)。选项A键值型代表为Redis、Memcached;选项B列族型代表为HBase、Cassandra;选项D图数据库代表为Neo4j。因此正确答案为C。76.在Kafka分布式消息系统中,负责将消息持久化到磁盘的核心组件是?

A.Producer(生产者)

B.Consumer(消费者)

C.Broker(代理节点)

D.ZooKeeper(协调服务)【答案】:C

解析:Kafka中,Broker是服务节点,负责接收、存储消息并持久化到本地磁盘。Producer发送消息,Consumer消费消息,ZooKeeper管理集群元数据,故C正确。77.下列哪项是Hadoop生态系统中的分布式文件系统?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。78.数据仓库的核心特征不包括以下哪项?

A.面向主题的

B.集成的

C.易失性的

D.时变的【答案】:C

解析:本题考察数据仓库的定义特征。数据仓库的核心特征是“四性”:面向主题(Subject-oriented)、集成的(Integrated)、非易失的(Non-volatile,即数据一旦写入不可随意修改)、时变的(Time-variant,随时间变化)。选项C的“易失性的”与“非易失性”矛盾,因此错误。79.以下哪项不属于Hadoop的核心组成部分?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:D

解析:本题考察Hadoop核心组件知识点。Hadoop的核心三部分为HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器),负责数据存储、计算和资源调度。ZooKeeper是分布式协调服务,属于Hadoop生态扩展组件而非核心组成部分,因此D选项错误。80.Spark作为大数据处理框架,相比MapReduce的主要优势是?

A.支持内存计算,减少磁盘IO

B.仅支持批处理任务,不支持流处理

C.必须依赖HDFS存储数据

D.无法进行复杂的数据清洗操作【答案】:A

解析:Spark的核心优势是内存计算,将中间结果保存在内存中,大幅减少磁盘读写操作,提升处理速度;B错误,Spark同时支持批处理(SparkCore)和流处理(SparkStreaming);C错误,Spark可从多种数据源读取数据(如Hive、Kafka等),不限于HDFS;D错误,Spark提供丰富的Transformation和ActionAPI,支持复杂的数据清洗、转换操作。81.在大数据数据预处理中,对于含有缺失值的数值型特征,以下哪种方法通常不适用?

A.使用均值填充缺失值

B.使用KNN算法基于近邻样本预测填充

C.直接删除缺失值比例超过阈值的样本

D.使用唯一值(如-999)填充所有缺失值【答案】:D

解析:本题考察缺失值处理方法。均值填充(A)、KNN预测(B)和阈值删除(C)是常用策略。D错误,数值型特征使用唯一值(如-999)填充会引入虚假模式,无法反映数据分布规律,可能误导后续分析(如分类算法误判为特殊类别)。正确做法是选择均值、中位数或合理删除无效样本。因此正确答案为D。82.在数据仓库星型模型中,用于描述事实表上下文信息(如时间、地区等)的表称为?

A.事实表

B.维度表

C.度量表

D.指标表【答案】:B

解析:本题考察数据仓库星型模型结构。星型模型包含中心事实表(存储度量值和外键)和维度表(存储描述性属性,如时间、地区)。A选项是核心度量表,C/D非标准术语,维度表通过外键关联事实表,提供多维度分析上下文。83.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对(Key-Value)型

B.列族(Column-Family)型

C.文档(Document)型

D.图(Graph)型【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB以JSON/BSON格式存储文档,属于文档型数据库;A(如Redis)、B(如HBase)、D(如Neo4j)分别对应键值型、列族型、图数据库。因此正确答案为C。84.关于K-means聚类算法,以下描述正确的是?

A.属于无监督学习,需预先指定簇的数量K

B.必须已知数据的类别标签才能进行聚类

C.适用于数据分布为线性可分的场景

D.计算复杂度低,适用于任意规模的大数据集【答案】:A

解析:本题考察数据挖掘算法的基本概念。K-means是典型的无监督聚类算法,需用户指定簇数量K;选项B错误,无监督学习无需类别标签;选项C错误,K-means基于欧氏距离,对非线性可分数据(如环形分布)效果较差;选项D错误,K-means复杂度较高(O(nkT),n为样本量,k为簇数,T为迭代次数),大规模数据需结合采样或近似算法。因此正确答案为A。85.以下哪一项不属于Hadoop的核心组件?

A.HDFS

B.YARN

C.MapReduce

D.Kafka【答案】:D

解析:本题考察Hadoop核心组件知识点。Hadoop的核心三大组件为分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。Kafka是分布式消息队列系统,属于大数据生态但并非Hadoop核心组件。因此正确答案为D。86.MongoDB属于哪种类型的NoSQL数据库?

A.键值型

B.文档型

C.列族型

D.图数据库【答案】:B

解析:本题考察NoSQL数据库的分类。MongoDB以JSON/BSON格式存储文档,属于文档型数据库,支持灵活的模式设计;键值型数据库(如Redis)以键值对存储,列族型(如HBase)按列族组织数据,图数据库(如Neo4j)用于存储图结构数据。因此正确答案为B。87.在MapReduce计算框架中,负责将Map任务输出的中间结果按照key进行分区并分发到对应Reduce节点的核心阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Combine阶段【答案】:B

解析:本题考察MapReduce执行流程的知识点。MapReduce中,Map阶段负责数据分片和初步处理,Combine阶段是Map端的局部聚合(非必需),Reduce阶段负责接收Shuffle后的结果并聚合计算。而Shuffle阶段是核心分发环节,通过分区、排序、合并等操作将Map输出分发到Reduce节点,因此正确答案为B。88.MapReduce计算框架中,负责将输入数据分割为多个独立分片(Split)并分配给Map任务的阶段是?

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Merge阶段【答案】:A

解析:本题考察MapReduce执行流程。Map阶段的核心任务是将输入数据按Split(默认128MB)分割为多个独立数据块,每个数据块由一个Map任务并行处理(通过InputFormat实现分片逻辑)。错误选项分析:B选项Reduce阶段负责对Map输出的中间结果进行分区、排序和合并;C选项Shuffle阶段是Map与Reduce之间的数据传输环节(含分区、排序、合并等操作),不负责输入数据分割;D选项Merge阶段是Reduce端合并Map输出结果的子步骤,非核心输入分割环节。89.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心参数知识点。HDFS的块大小是文件系统的重要参数,默认值为128MB。HDFS通过将大文件分割为固定大小的块,实现数据的并行存储与容错(如副本机制)。选项A(64MB)是HDFS早期版本的块大小,非当前默认;选项C(256MB)和D(512MB)均超出HDFS标准默认配置,通常用于特殊场景。90.Spark相比MapReduce的主要优势在于?

A.基于内存计算,速度更快

B.仅支持批处理任务

C.依赖磁盘存储中间结果

D.不支持复杂数据结构处理【答案】:A

解析:本题考察Spark与MapReduce的核心差异。Spark采用内存计算模型,避免了MapReduce中频繁的磁盘I/O操作,大幅提升计算速度;B错误,Spark同时支持批处理和流处理;C错误,Spark以内存计算为主,中间结果优先存储在内存而非磁盘;D错误,Spark支持丰富的数据结构(如RDD、DataFrame)。因此正确答案为A。91.在大数据处理流程中,数据清洗环节的主要目标是?

A.将分散来源的原始数据采集到统一系统

B.去除数据噪声、填补缺失值,标准化数据格式

C.将数据转换为结构化格式并持久化存储

D.对数据进行聚合、关联等复杂计算操作【答案】:B

解析:本题考察大数据处理流程各环节职责。数据清洗是对原始数据进行预处理,核心任务包括去重、填补缺失值、处理异常值、标准化格式等,确保数据质量;A选项为“数据采集”(如Flume、Kafka);C选项为“数据存储与转换”(如Hive表加载);D选项为“数据计算”(如SparkSQL、Flink)。92.Hadoop分布式文件系统(HDFS)的默认块(Block)大小是?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS基础配置,HDFS默认块大小为128MB(Hadoop2.x及以上版本),该设置平衡了存储效率与I/O性能。A选项64MB是Hadoop早期版本的默认值;C选项256MB通常为特定场景下的优化配置,非通用默认值;D选项512MB超出常规集群存储需求,不符合HDFS设计初衷。93.Spark相比MapReduce的主要优势在于?

A.内存计算

B.磁盘计算

C.批处理模式

D.实时流处理【答案】:A

解析:本题考察Spark与MapReduce的计算模型差异。Spark采用内存计算模型,通过RDD(弹性分布式数据集)实现数据在内存中的多次迭代,避免了MapReduce基于磁盘的多次读写,显著提升计算速度;MapReduce是基于磁盘的批处理框架,速度较慢。Spark支持批处理和流处理,但核心优势是内存计算;实时流处理并非Spark独有的核心优势(如Flink更擅长)。因此正确答案为A。94.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式文件存储的核心组件,通过将数据分割成块并跨节点存储实现高容错性和高吞吐量;YARN是资源管理器,负责集群资源调度;MapReduce是分布式计算框架,用于并行处理海量数据;Hive是基于Hadoop的数据仓库工具,提供SQL查询功能。因此正确答案为A。95.在数据仓库的星型模型中,以下哪类表属于‘事实表’?

A.销售订单表(包含订单ID、产品ID、金额等)

B.产品表(产品ID、名称、类别等)

C.客户表(客户ID、姓名、地址等)

D.时间维度表(时间ID、日期、季度等)【答案】:A

解析:本题考察数据仓库星型模型的核心表类型。星型模型由事实表和维度表组成:事实表存储度量值(如金额)和关联维度表的外键,是分析的核心;维度表描述事实表的属性(如产品、客户、时间)。选项A的销售订单表包含‘金额’(度量值),符合事实表特征;B、C、D均为维度表(描述产品、客户、时间等属性)。96.根据分布式系统的CAP理论,以下哪种说法是正确的?

A.分布式系统可以同时满足一致性(Consistency)和可用性(Availability)

B.分区容错性(Partitiontolerance)是分布式系统必须满足的特性

C.一致性和可用性总是可以同时满足

D.分区容错性在任何情况下都无法满足【答案】:B

解析:本题考察CAP理论核心知识点。CAP理论指出分布式系统只能同时满足一致性(C)、可用性(A)、分区容错性(P)中的两项(CP或AP),其中分区容错性(P)是分布式系统的固有属性(网络分区不可避免),因此必须满足;A和C错误,因C和A无法同时满足(满足P时);D错误,分区容错性是分布式系统的基础特性。因此正确答案为B。97.下列关于Spark与MapReduce相比的主要优势描述正确的是?

A.Spark基于磁盘存储数据,MapReduce基于内存计算

B.Spark支持迭代计算和交互式查询,MapReduce效率较低

C.Spark只能处理批处理,MapReduce支持流处理

D.Spark的容错机制更复杂,MapReduce容错性更好【答案】:B

解析:本题考察Spark与MapReduce的技术对比知识点。Spark核心优势在于内存计算(而非磁盘存储),支持迭代计算(如机器学习算法)和交互式查询(如SQL、DataFrame操作),效率远高于MapReduce;A选项描述颠倒了存储方式;C选项错误,Spark既支持批处理也支持流处理(StructuredStreaming),MapReduce主要用于批处理;D选项错误,Spark基于RDD的Lineage机制容错性更优。因此正确答案为B。98.以下哪种文件格式常用于大数据场景下的列式存储,以提高查询效率?

A.CSV

B.JSON

C.Parquet

D.XML【答案】:C

解析:本题考察大数据存储格式。Parquet是列式存储格式,适合大数据场景下的高效查询(仅读取所需列)和压缩。CSV、JSON、XML均为行式文本格式,查询时需扫描大量无关数据,效率较低。因此正确答案为C。99.在数据仓库维度建模中,最常用的模型是?

A.星型模型

B.雪花模型

C.星座模型

D.星群模型【答案】:A

解析:本题考察数据仓库维度建模知识点。星型模型是维度建模中最常用的结构,以事实表为中心,周围连接多个维度表,结构简单、查询效率高;雪花模型是星型模型的规范化扩展,维度表可进一步拆分为子表,虽数据冗余少但查询复杂;星座模型是多个星型模型的组合,适用于复杂业务场景,非最常用;D选项“星群模型”非标准术语。因此A选项正确。100.SparkStreaming采用的核心处理模型是?

A.微批处理模型

B.实时流处理模型

C.纯内存计算模型

D.分布式存储模型【答案】:A

解析:本题考察SparkStreaming处理模型知识点。SparkStreaming基于微批处理(Micro-batch)模型,将实时数据流分割为小批量数据按批处理。实时流处理是Flink的核心特性,纯内存计算是Spark整体优势而非Streaming模型,分布式存储模型属于HDFS等组件特性。因此正确答案为A。101.在数据仓库中,以下哪类表用于记录业务事件的度量数据(如订单金额、数量等)?

A.产品表

B.客户表

C.订单表

D.部门表【答案】:C

解析:本题考察数据仓库中事实表与维度表的定义。事实表是数据仓库的核心,记录业务事件(如订单、交易)的度量值及关联维度外键,例如订单表包含订单ID、用户ID、订单金额等核心业务数据。错误选项分析:A、B、D均为维度表,用于描述事实表的属性(如产品表描述订单表的商品信息,客户表描述订单表的用户信息,部门表描述订单表的组织归属),不直接记录业务事件的度量数据。102.Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS的块大小默认值为128MB(Hadoop2.x及以后版本),主要为平衡磁盘读写效率与内存利用率。64MB是Hadoop1.x的早期默认值;256MB和512MB为非默认配置或特定场景(如超大规模集群)使用,因此正确答案为A。103.以下关于数据集市的描述,正确的是?

A.数据集市是面向整个企业的综合性数据仓库

B.数据集市的数据来源于企业数据仓库

C.数据集市仅支持实时数据处理

D.数据集市的数据默认存储在HDFS中【答案】:B

解析:本题考察数据集市的定义。数据集市是企业数据仓库的子集(B选项正确),它针对特定业务部门(如销售、财务)或应用场景,提供更聚焦的数据服务,数据来源于企业级数据仓库。A选项错误,因为面向整个企业的是数据仓库而非数据集市;C选项错误,数据集市支持批处理和实时处理,并非仅支持实时;D选项错误,数据集市的数据存储方式多样(如关系型数据库),HDFS仅为Hadoop生态中的存储组件,并非数据集市的默认存储方式。因此正确答案为B。104.Hadoop分布式文件系统(HDFS)的核心功能是?

A.分布式存储海量数据

B.分布式并行计算任务

C.实时流数据处理

D.数据清洗与转换【答案】:A

解析:本题考察HDFS的核心定位,HDFS是Hadoop生态系统的分布式文件系统,主要负责海量数据的分布式存储,提供高容错、高吞吐量的存储服务。B选项是MapReduce或YARN的任务调度功能;C选项是流处理框架(如Flink、SparkStreaming)的核心场景;D选项属于数据预处理工具(如Flume、Kafka)的功能范畴,因此正确答案为A。105.以下哪种数据库属于文档型NoSQL数据库?

A.MongoDB

B.HBase

C.Redis

D.MySQL【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式存储数据;HBase是列族型数据库(如Hadoop生态的结构化存储);Redis是键值型内存数据库;MySQL是关系型数据库(非NoSQL)。因此正确答案为A。106.在大数据数据处理流程中,‘先抽取数据,加载到目标系统后再进行转换操作’的模式被称为?

A.ETL(Extract-Transform-Load)

B.ELT(Extract-Load-Transform)

C.ETL+EL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论