2026年大数据技术专业通关试题库含答案详解【培优】_第1页
2026年大数据技术专业通关试题库含答案详解【培优】_第2页
2026年大数据技术专业通关试题库含答案详解【培优】_第3页
2026年大数据技术专业通关试题库含答案详解【培优】_第4页
2026年大数据技术专业通关试题库含答案详解【培优】_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术专业通关试题库含答案详解【培优】1.下列关于Spark与MapReduce相比的主要优势描述正确的是?

A.Spark基于磁盘存储数据,MapReduce基于内存计算

B.Spark支持迭代计算和交互式查询,MapReduce效率较低

C.Spark只能处理批处理,MapReduce支持流处理

D.Spark的容错机制更复杂,MapReduce容错性更好【答案】:B

解析:本题考察Spark与MapReduce的技术对比知识点。Spark核心优势在于内存计算(而非磁盘存储),支持迭代计算(如机器学习算法)和交互式查询(如SQL、DataFrame操作),效率远高于MapReduce;A选项描述颠倒了存储方式;C选项错误,Spark既支持批处理也支持流处理(StructuredStreaming),MapReduce主要用于批处理;D选项错误,Spark基于RDD的Lineage机制容错性更优。因此正确答案为B。2.Spark相比MapReduce,其核心优势主要体现在?

A.内存计算,速度更快

B.仅支持批处理任务

C.只能运行在磁盘上

D.不支持流处理应用【答案】:A

解析:本题考察Spark与MapReduce的技术对比知识点。Spark采用内存计算框架,中间结果优先存储在内存中,避免MapReduce的大量磁盘I/O操作,因此处理速度更快。B错误(Spark既支持批处理也支持流处理,如SparkStreaming);C错误(Spark优先使用内存,仅在内存不足时落盘);D错误(SparkStreaming可实现流处理)。因此正确答案为A。3.以下哪种系统通常属于联机分析处理(OLAP)系统?

A.电商订单交易系统

B.银行实时转账系统

C.企业财务数据分析平台

D.物联网实时监控系统【答案】:C

解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)主要用于数据分析和决策支持,如财务分析、市场趋势分析等;OLTP(联机事务处理)面向业务操作,如电商订单、银行交易、物联网监控等实时事务处理场景。因此企业财务分析平台属于OLAP系统,正确答案为C。4.在HDFS中,文件的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS文件存储特性。HDFS为保障数据可靠性,默认将文件存储为3个副本,分布在不同节点,防止单点故障导致数据丢失。选项A(1副本)数据可靠性低,B(2副本)为非默认配置,D(4副本)超出默认值。因此正确答案为C。5.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源;ZooKeeper是分布式协调服务。因此正确答案为A。6.ApacheFlink与ApacheStorm在流处理中的核心差异在于?

A.Flink支持有状态计算,Storm不支持

B.Flink仅适用于批处理,Storm仅适用于流处理

C.Flink的吞吐量远低于Storm

D.Flink仅处理无界流,Storm仅处理有界流【答案】:A

解析:本题考察流处理框架的核心特性。Flink支持有状态计算(如窗口操作、状态后端管理),Storm是无状态的实时流处理;B选项错误,Flink同时支持流处理和批处理(统一处理引擎);C选项错误,Flink吞吐量更高,适合高并发场景;D选项错误,两者均支持无界流,Storm也可处理有界流(如从文件读取)。因此正确答案为A。7.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题

B.实时事务处理

C.高并发读写

D.支持实时查询【答案】:A

解析:本题考察数据仓库基本概念。数据仓库的核心特征包括面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据加载后一般不修改)、时变性(随时间维度分析)。选项B(实时事务处理)是操作型数据库(OLTP)的典型特征;选项C(高并发读写)属于OLTP的性能需求;选项D(支持实时查询)更偏向实时数据仓库或OLAP系统的特性,而非数据仓库的核心定义。因此正确答案为A。8.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS的默认块大小为128MB,这一设计平衡了大文件存储的容错性(块过小会增加元数据开销,过大则降低并行处理效率)和IO效率。错误选项分析:B选项64MB是HDFS早期版本(如0.19.x)的块大小,已被淘汰;C选项256MB因块过大,在频繁访问时会增加磁盘IO压力,不适合HDFS的分布式存储场景;D选项512MB属于超大规模块设置,会进一步降低并行处理能力和数据可靠性。9.以下哪个是Hadoop分布式计算框架?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察Hadoop生态系统核心组件的知识点。Hadoop生态系统中,HDFS(选项A)是分布式文件存储系统,负责数据的持久化存储;YARN(选项C)是分布式资源管理器,负责集群资源调度;Hive(选项D)是基于Hadoop的数据仓库工具,提供类SQL查询接口;而MapReduce(选项B)是Hadoop原生的分布式计算框架,通过Map和Reduce两个阶段实现并行计算。因此正确答案为B。10.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务。因此正确答案为A。11.在MapReduce计算框架中,负责将Map任务输出的中间结果按照key进行分区并分发到对应Reduce节点的核心阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Combine阶段【答案】:B

解析:本题考察MapReduce执行流程的知识点。MapReduce中,Map阶段负责数据分片和初步处理,Combine阶段是Map端的局部聚合(非必需),Reduce阶段负责接收Shuffle后的结果并聚合计算。而Shuffle阶段是核心分发环节,通过分区、排序、合并等操作将Map输出分发到Reduce节点,因此正确答案为B。12.与传统MapReduce相比,ApacheSpark的主要优势在于?

A.基于磁盘计算,适合大规模批处理

B.基于内存计算,减少磁盘IO开销

C.仅支持实时流处理,不支持批处理

D.依赖HDFS存储所有中间结果【答案】:B

解析:本题考察Spark的技术特点。Spark的核心优势是利用内存存储数据和计算,减少磁盘IO操作,从而大幅提升计算速度;MapReduce是基于磁盘的迭代计算,速度较慢。Spark既支持批处理也支持流处理,且依赖内存而非仅依赖HDFS存储中间结果。因此正确答案为B。13.在Spark中,以下哪个操作属于RDD的“转换(Transformation)”操作?

A.count()

B.collect()

C.map()

D.take()【答案】:C

解析:本题考察SparkRDD操作类型知识点。RDD转换操作是惰性计算的“延迟执行”操作,返回新RDD但不触发计算,map()是典型转换操作(如将每个元素映射为新值)。而count()、collect()、take()均为行动操作(Action),会触发RDD计算并返回结果,因此C选项正确。14.关于Spark中RDD(弹性分布式数据集)的描述,错误的是?

A.RDD是不可变的分布式集合

B.RDD通过分区实现并行计算

C.RDD的转换操作是惰性执行的

D.RDD的action操作不会触发计算【答案】:D

解析:RDD特性:不可变(A正确)、分区并行(B正确)、转换操作惰性执行(仅定义逻辑)、action操作触发计算(如count、collect),因此D错误。15.与传统MapReduce相比,Spark的主要优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持多种计算模型(批处理、流处理等)

C.仅能进行批处理任务,无法处理实时数据

D.提供丰富的API(如SparkSQL、DataFrame等)【答案】:C

解析:本题考察Spark与MapReduce的技术对比。Spark的核心优势包括:A正确,基于内存计算(而非MapReduce的磁盘IO),大幅提升速度;B正确,Spark支持批处理(SparkCore)、流处理(SparkStreaming)、交互式查询(SparkSQL)等多种场景;D正确,Spark提供DataFrame、Dataset等统一数据抽象API,易用性强。选项C错误,Spark不仅支持批处理,更通过SparkStreaming、StructuredStreaming等模块支持实时流处理,而MapReduce仅能处理离线批处理任务。16.根据CAP定理,分布式系统中以下哪项组合是无法同时满足的?

A.一致性(Consistency)、可用性(Availability)、分区容错性(Partitiontolerance)

B.一致性、可用性、高吞吐量

C.一致性、分区容错性、低延迟

D.可用性、分区容错性、高并发【答案】:A

解析:本题考察CAP定理知识点。CAP定理指出分布式系统无法同时满足一致性(数据一致)、可用性(服务响应)和分区容错性(网络分区后可用),三者最多满足两项(通常必须选择分区容错性P)。高吞吐量、低延迟等不属于CAP核心要素。因此正确答案为A。17.以下哪种数据库属于文档型NoSQL数据库?

A.MongoDB

B.HBase

C.Redis

D.Cassandra【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型NoSQL数据库,以JSON格式存储数据,适合非结构化/半结构化数据;B选项HBase是列族型NoSQL数据库;C选项Redis是键值型数据库;D选项Cassandra是分布式列族型数据库。因此正确答案为A。18.以下哪项不属于数据仓库的基本特性?

A.面向主题

B.实时性

C.集成性

D.时变性【答案】:B

解析:本题考察数据仓库特性。数据仓库核心特性包括面向主题、集成性、非易失性、时变性,而实时性通常是OLTP(联机事务处理)系统的特点,数据仓库主要用于历史数据分析,非实时处理。因此B选项不属于数据仓库特性,正确答案为B。19.在数据仓库维度建模中,最常用的模型是?

A.星型模型

B.雪花模型

C.星座模型

D.星群模型【答案】:A

解析:本题考察数据仓库维度建模知识点。星型模型是维度建模中最常用的结构,以事实表为中心,周围连接多个维度表,结构简单、查询效率高;雪花模型是星型模型的规范化扩展,维度表可进一步拆分为子表,虽数据冗余少但查询复杂;星座模型是多个星型模型的组合,适用于复杂业务场景,非最常用;D选项“星群模型”非标准术语。因此A选项正确。20.MongoDB属于哪种类型的NoSQL数据库?

A.键值型

B.文档型

C.列族型

D.图数据库【答案】:B

解析:本题考察NoSQL数据库的分类。MongoDB以JSON/BSON格式存储文档,属于文档型数据库,支持灵活的模式设计;键值型数据库(如Redis)以键值对存储,列族型(如HBase)按列族组织数据,图数据库(如Neo4j)用于存储图结构数据。因此正确答案为B。21.Spark相比MapReduce的主要优势在于?

A.内存计算

B.磁盘计算

C.批处理模式

D.实时流处理【答案】:A

解析:本题考察Spark与MapReduce的计算模型差异。Spark采用内存计算模型,通过RDD(弹性分布式数据集)实现数据在内存中的多次迭代,避免了MapReduce基于磁盘的多次读写,显著提升计算速度;MapReduce是基于磁盘的批处理框架,速度较慢。Spark支持批处理和流处理,但核心优势是内存计算;实时流处理并非Spark独有的核心优势(如Flink更擅长)。因此正确答案为A。22.处理数值型数据缺失值时,以下哪种方法既能保留数据分布特征又操作简单?

A.删除包含缺失值的记录

B.使用均值填充缺失值

C.使用中位数填充缺失值

D.通过回归模型预测缺失值【答案】:C

解析:本题考察缺失值处理方法。A直接删除会丢失数据信息;B均值填充易受异常值影响,破坏数据分布;C中位数填充对极端值更稳健,能保留数据分布(如中位数位置特性)且操作简单;D回归预测需训练模型,复杂度高。因此正确答案为C。23.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.支持实时事务处理

B.面向业务分析需求

C.数据实时动态更新

D.存储高频访问的热数据【答案】:B

解析:本题考察数据仓库核心特性知识点。数据仓库是面向分析的集成数据集合,用于历史数据整合与决策支持。A错误(实时事务处理是OLTP系统的特点);C错误(数据仓库数据通常按周期批量加载,非实时更新);D错误(高频访问热数据存储在数据库,数据仓库侧重冷数据存储)。因此正确答案为B。24.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的核心配置知识点,正确答案为B。HDFS默认块大小为128MB,这一设置平衡了存储效率和IO效率:较大的块可减少NameNode元数据压力(块数量少),同时避免小文件过多导致的IO频繁问题;而64MB块会增加NameNode内存占用,256MB/512MB则可能降低IO效率(单次读写数据量大,网络传输耗时增加)。25.以下关于数据集市(DataMart)的描述,正确的是?

A.面向企业整体业务数据整合

B.面向特定部门或业务领域的数据集合

C.主要用于存储原始业务数据

D.数据存储规模通常远大于数据仓库【答案】:B

解析:本题考察数据仓库与数据集市的区别。数据集市是数据仓库的子集,面向特定部门或业务领域,从数据仓库中提取、整合特定需求的数据,供部门级分析使用。选项A描述的是企业级数据仓库的功能;选项C错误,原始数据通常存储在ODS(操作数据存储)层或源系统,数据集市存储的是经过清洗和整合的部门级数据;选项D错误,数据集市数据量通常小于企业级数据仓库。因此正确答案为B。26.下列哪项是Hadoop生态系统中的分布式文件系统?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。27.CAP定理是分布式系统设计的核心理论,其中字母“P”代表的是?

A.Consistency(一致性)

B.Availability(可用性)

C.Partitiontolerance(分区容错性)

D.Performance(性能)【答案】:C

解析:本题考察分布式系统基础理论CAP定理。CAP中三个字母分别对应:C(Consistency,一致性)、A(Availability,可用性)、P(Partitiontolerance,分区容错性)。选项A对应“C”,选项B对应“A”,选项D不属于CAP定理的核心要素。28.在Hadoop分布式文件系统(HDFS)中,默认的块大小通常是多少?

A.128MB

B.64MB

C.256MB

D.32MB【答案】:A

解析:本题考察HDFS的基础配置知识点。HDFS默认块大小为128MB(2012年后版本),主要为平衡存储利用率和读写效率。选项B(64MB)是HDFS早期版本的默认配置;选项C(256MB)需手动调整为高容量集群的可选配置,非默认值;选项D(32MB)过小,会导致文件元数据开销过大,不符合HDFS设计目标。29.ApacheFlink作为流处理框架,其核心技术特性是?

A.支持低延迟、高吞吐的实时流处理

B.通过微批处理模拟流处理(如SparkStreaming)

C.仅适用于离线批处理任务

D.依赖HDFS进行持久化存储【答案】:A

解析:本题考察Flink的核心定位。Flink是专为流处理设计的开源框架,支持事件驱动的实时流处理,具有低延迟(毫秒级)、高吞吐(每秒数十万事件)和精确一次(Exactly-Once)语义等特性。B选项错误,SparkStreaming是通过微批处理(将流数据分割为小批量)实现近似实时,而Flink是真正的流处理引擎;C选项错误,Flink既支持流处理也支持批处理;D选项错误,HDFS是存储系统,Flink本身不依赖HDFS进行持久化(可使用Checkpoint等机制)。因此正确答案为A。30.在分布式系统中,Raft协议主要解决的问题是?

A.数据一致性问题

B.负载均衡问题

C.节点故障检测

D.网络拥塞控制【答案】:A

解析:本题考察分布式系统一致性协议知识点。Raft是一种简化的分布式一致性算法,用于解决分布式系统中多副本数据的一致性问题(如主从节点数据同步);B选项负载均衡由专门的负载均衡算法(如Nginx)或分布式调度框架(如Kubernetes)处理;C选项节点故障检测属于心跳机制或故障转移机制(如ZooKeeper);D选项网络拥塞控制由TCP/IP协议栈或专用网络优化算法处理。正确答案为A。31.数据仓库设计中,哪种模型是将维度表直接与事实表相连,且维度表不进行规范化拆分?

A.星型模型

B.雪花模型

C.星座模型

D.雪花星型混合模型【答案】:A

解析:本题考察数据仓库模型的结构特点。星型模型以事实表为中心,维度表直接与事实表相连,无中间表,结构简单且查询效率高;雪花模型是维度表规范化拆分后的结构(如地理维度表拆分为国家、省、市三级),虽符合范式但查询复杂度增加;C选项“星座模型”是多个事实表共享维度表的设计;D选项非标准术语。因此星型模型符合题意,选A。32.关于数据仓库的星型模型与雪花模型,以下描述正确的是?

A.星型模型以事实表为中心,雪花模型将维度表规范化为多层结构

B.星型模型数据冗余度低,雪花模型数据冗余度高

C.雪花模型的查询效率更高,适合复杂分析场景

D.星型模型通过外键直接连接维度表与事实表,结构更复杂【答案】:A

解析:本题考察数据仓库模型设计。星型模型特点是事实表中心,维度表直接连接(结构简单但冗余度高);雪花模型是星型模型的维度表规范化(拆分子维度表,减少冗余但结构复杂)。B选项错误(星型冗余高、雪花冗余低);C错误(雪花模型因多表连接查询效率低);D错误(星型模型结构更简单)。因此正确答案为A。33.数据仓库中,哪个特性是指数据随时间变化以反映业务发展趋势?

A.面向主题

B.集成性

C.非易失性

D.时变性【答案】:D

解析:本题考察数据仓库的核心特性。数据仓库的四个关键特性中:A(面向主题)指围绕特定业务主题组织数据;B(集成性)指整合多源异构数据;C(非易失性)指数据仅添加不删除;D(时变性)特指数据随时间推移而积累变化,用于历史趋势分析。其他选项均不符合“随时间变化”的定义。34.在数据仓库设计中,星型模型的特点是?

A.以事实表为中心,维度表直接关联

B.维度表会进行规范化处理(雪花模型特征)

C.包含多个独立存储的事实表

D.每个维度表均独立于事实表【答案】:A

解析:本题考察数据仓库星型模型知识点。星型模型以事实表为核心,所有维度表直接与事实表关联,结构简单、查询高效;B描述的是雪花模型(维度表进一步规范化拆分);C错误,星型模型通常包含一个事实表;D错误,维度表必须直接关联事实表。35.ApacheFlink作为流处理框架,其核心特性是?

A.基于内存计算,仅支持批处理

B.低延迟流处理,支持状态管理

C.需固定窗口大小,无法处理动态数据

D.基于SparkRDD模型实现流处理【答案】:B

解析:本题考察Flink的核心特性。Flink是开源流处理框架,支持低延迟的实时流处理(毫秒级延迟),并提供强大的状态管理能力(如KeyedState、WindowState),支持Exactly-Once语义。选项A错误,Flink既支持流处理也支持批处理;选项C错误,Flink窗口大小灵活且支持动态数据处理;选项D错误,Flink采用自己的DataFlow模型,与SparkRDD无关。因此正确答案为B。36.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式文件存储的核心组件,通过将数据分割成块并跨节点存储实现高容错性和高吞吐量;YARN是资源管理器,负责集群资源调度;MapReduce是分布式计算框架,用于并行处理海量数据;Hive是基于Hadoop的数据仓库工具,提供SQL查询功能。因此正确答案为A。37.下列关于Hive的描述,正确的是?

A.Hive是实时流处理引擎

B.Hive使用HiveQL(HQL)进行查询

C.Hive仅支持结构化数据处理

D.Hive的元数据默认存储在HDFS中【答案】:B

解析:Hive是基于Hadoop的数据仓库工具,通过HiveQL(HQL)实现类SQL查询,B正确。A错误,Hive是批处理工具,实时流处理引擎如Flink;C错误,Hive支持半结构化数据(如JSON);D错误,元数据默认存储在MySQL等关系型数据库。38.以下哪项是Hadoop分布式文件系统(HDFS)的主要功能?

A.分布式数据存储

B.分布式计算任务调度

C.分布式资源管理

D.分布式内存计算【答案】:A

解析:本题考察Hadoop核心组件HDFS的功能。HDFS是Hadoop生态系统的分布式文件系统,主要负责海量数据的分布式存储;B选项“分布式计算任务调度”是YARN的功能;C选项“分布式资源管理”同样属于YARN;D选项“分布式内存计算”是Spark的核心特性。因此正确答案为A。39.在MapReduce编程模型中,Map函数的输出数据格式是?

A.键值对<key,value>

B.仅键值对中的key

C.仅键值对中的value

D.无序的字节流【答案】:A

解析:本题考察MapReduce工作原理。Map函数的输出是中间结果的键值对<key,value>,经过Shuffle阶段的分区、排序、合并后,由Reduce函数处理。选项B、C仅提取部分数据,不符合MapReduce中间结果格式;选项D(无序字节流)无结构,无法进行后续计算。因此正确答案为A。40.根据分布式系统的CAP理论,以下哪种说法是正确的?

A.分布式系统可以同时满足一致性(Consistency)和可用性(Availability)

B.分区容错性(Partitiontolerance)是分布式系统必须满足的特性

C.一致性和可用性总是可以同时满足

D.分区容错性在任何情况下都无法满足【答案】:B

解析:本题考察CAP理论核心知识点。CAP理论指出分布式系统只能同时满足一致性(C)、可用性(A)、分区容错性(P)中的两项(CP或AP),其中分区容错性(P)是分布式系统的固有属性(网络分区不可避免),因此必须满足;A和C错误,因C和A无法同时满足(满足P时);D错误,分区容错性是分布式系统的基础特性。因此正确答案为B。41.Kafka默认的消息投递语义是?

A.最多一次

B.至少一次

C.精确一次

D.不确定【答案】:B

解析:本题考察Kafka消息投递语义。Kafka默认通过acks=1配置(仅等待leader副本确认),生产者发送消息后无需等待所有副本同步,消费者处理消息时需提交偏移量。若消费者处理失败,下次会重新读取未提交偏移量的消息,导致重复消费,因此默认语义为“至少一次”(不丢失但可能重复);“最多一次”需acks=0配置(生产者不等待确认,可能丢失消息);“精确一次”需生产者幂等性+消费者事务等复杂配置,非默认情况。因此正确答案为B。42.关于ApacheFlink,以下哪项描述是正确的?

A.采用微批处理模型

B.支持流处理和批处理统一的引擎

C.只能处理实时流数据

D.仅适用于离线数据处理【答案】:B

解析:本题考察流处理框架的技术特性。Flink的核心优势是流批一体,支持同一引擎同时处理实时流数据和离线批处理任务,通过统一的状态管理和时间语义实现低延迟计算。选项A(微批处理)是SparkStreaming的设计模型;选项C(仅实时)和D(仅离线)均错误,Flink同时支持流和批处理场景。43.Spark相较于MapReduce的主要优势在于?

A.磁盘IO操作更少,计算速度更快

B.仅支持批处理任务,不支持流处理

C.完全依赖磁盘存储中间结果

D.编程模型更复杂,学习成本高【答案】:A

解析:本题考察分布式计算框架的对比。Spark的核心优势是内存计算(将数据缓存在内存中,减少磁盘IO),因此计算速度远快于MapReduce(MapReduce依赖磁盘存储中间结果,多次IO操作导致性能瓶颈)。选项B错误,Spark支持批处理和流处理(SparkStreaming);选项C错误,Spark通过内存缓存减少磁盘依赖;选项D错误,Spark提供了更简洁的API(如DataFrame),编程模型更简单。因此正确答案为A。44.在数据仓库设计中,星型模型与雪花模型的主要区别在于?

A.事实表的数量

B.维度表是否进行规范化处理

C.度量值的存储单位

D.是否包含事实表【答案】:B

解析:本题考察数据仓库模型设计知识点。星型模型的维度表通常不进行规范化(即直接关联事实表),而雪花模型将维度表进一步规范化,拆分为更小的子维度表(类似雪花的层级结构)。A选项事实表数量与模型类型无关;C选项度量值存储单位不是核心区别;D选项两者均包含事实表。因此正确答案为B。45.以下哪种系统主要用于企业的决策支持,通过多维度分析提供统计报表?

A.OLTP系统

B.OLAP系统

C.关系型数据库

D.分布式文件系统【答案】:B

解析:OLAP(联机分析处理)是面向决策支持的系统,支持多维度数据聚合和统计分析,常用于生成报表;A错误,OLTP(联机事务处理)面向日常业务操作(如订单处理),强调事务性和实时性;C和D是数据存储技术,无法直接提供决策支持分析。46.Spark相比传统MapReduce计算框架,其显著优势主要体现在哪里?

A.支持更多的数据处理算法

B.基于内存计算,大幅提升计算速度

C.只能处理批处理任务

D.对硬件资源要求更低【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark采用内存计算模式,避免了MapReduce中大量的磁盘IO操作,因此计算速度远快于MapReduce;A选项中两者均支持丰富算法,Spark在算法实现上更灵活但并非主要优势;C选项错误,Spark同时支持批处理和流处理;D选项错误,Spark对内存资源要求更高。因此正确答案为B。47.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对(Key-Value)数据库

B.文档型(Document)数据库

C.列族(Column-Family)数据库

D.图(Graph)数据库【答案】:B

解析:本题考察NoSQL数据库分类。MongoDB以JSON格式的文档为基本存储单元,属于典型的文档型数据库。A错误,键值型数据库如Redis;C错误,列族型数据库如HBase、Cassandra;D错误,图数据库如Neo4j,用于存储实体关系网络。48.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量结构化和非结构化数据;YARN是资源管理器,负责集群资源调度与任务分配;MapReduce是分布式计算框架,实现大数据并行处理;ZooKeeper是分布式协调服务,提供配置管理、命名服务等功能。因此正确答案为A。49.在Hadoop分布式文件系统(HDFS)中,默认情况下一个文件会被存储为多少个副本以保证高可用性?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心特性——数据冗余机制。HDFS默认将文件存储为3个副本,这是基于容错性和资源利用率的平衡设计:3个副本既能有效应对单点故障(如一个副本所在节点宕机,剩余副本可继续提供服务),又避免了过多副本导致的存储资源浪费。选项A(1个副本)无冗余能力,无法容错;选项B(2个副本)冗余度不足,单点故障时可能丢失数据;选项D(4个副本)虽增加冗余但超出默认配置且非必要,会浪费存储空间。50.K-means聚类算法属于以下哪种机器学习类别?

A.监督学习

B.无监督学习

C.强化学习

D.深度学习【答案】:B

解析:本题考察机器学习算法分类。K-means是典型的无监督学习算法,通过数据自身特征自动划分簇(Cluster),无需人工标注标签。选项A(监督学习)需训练数据带标签(如分类、回归);选项C(强化学习)通过与环境交互学习最优策略(如AlphaGo);选项D(深度学习)是基于神经网络的多层模型,属于监督/无监督学习的子方法。因此正确答案为B。51.Spark相比MapReduce的显著优势是?

A.基于内存计算,减少磁盘IO操作

B.仅支持批处理计算模式

C.只能处理结构化数据

D.对硬件资源要求更低【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark将中间数据存储在内存中(支持RDD缓存),避免了MapReduce中大量的磁盘读写(MapReduce需多次写磁盘),因此计算速度提升显著;B错误,Spark支持批处理和流处理(StructuredStreaming);C错误,Spark支持JSON、CSV、Parquet等多种格式,包括半结构化/非结构化数据;D错误,Spark对内存/CPU资源要求更高(如内存不足会导致频繁GC)。52.Hadoop生态系统中,负责存储海量数据的分布式文件系统是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,负责海量数据的分布式存储;B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是数据仓库工具,均不负责数据存储。53.Spark相比MapReduce,其显著优势在于?

A.内存计算,速度更快

B.仅支持批处理任务

C.必须依赖磁盘存储中间结果

D.不支持迭代计算【答案】:A

解析:本题考察Spark与MapReduce的对比知识点。Spark采用内存计算模型,中间结果可缓存于内存,避免MapReduce中大量磁盘I/O操作,因此迭代计算和实时分析速度更快;B选项错误,Spark支持批处理、流处理等多种任务;C选项错误,Spark以内存计算为主,非必须依赖磁盘;D选项错误,Spark擅长迭代计算(如机器学习)。正确答案为A。54.在大数据数据预处理中,对于含有缺失值的数值型特征,以下哪种方法通常不适用?

A.使用均值填充缺失值

B.使用KNN算法基于近邻样本预测填充

C.直接删除缺失值比例超过阈值的样本

D.使用唯一值(如-999)填充所有缺失值【答案】:D

解析:本题考察缺失值处理方法。均值填充(A)、KNN预测(B)和阈值删除(C)是常用策略。D错误,数值型特征使用唯一值(如-999)填充会引入虚假模式,无法反映数据分布规律,可能误导后续分析(如分类算法误判为特殊类别)。正确做法是选择均值、中位数或合理删除无效样本。因此正确答案为D。55.相比MapReduce,Spark的主要优势在于?

A.批处理能力更强

B.内存计算,迭代效率高

C.仅支持流处理

D.适用于超大规模数据存储【答案】:B

解析:本题考察主流计算框架的对比知识点。MapReduce是Hadoop原生的分布式计算框架,基于磁盘IO实现,迭代计算效率低;Spark(选项B)采用内存计算模式,将数据缓存在内存中,避免频繁磁盘IO,因此在迭代计算(如机器学习)和交互式查询中效率显著高于MapReduce。选项A错误,两者均支持批处理,Spark无明显批处理优势;选项C错误,Spark也支持批处理,实时流处理更依赖Flink;选项D错误,Spark是计算引擎,不直接负责数据存储,数据存储需依赖HDFS等组件。因此正确答案为B。56.根据CAP理论,在分布式系统中,以下哪项是不可能同时满足的?

A.一致性(Consistency)和可用性(Availability)

B.一致性(Consistency)和分区容错性(Partitiontolerance)

C.可用性(Availability)和分区容错性(Partitiontolerance)

D.一致性(Consistency)、可用性(Availability)和分区容错性(Partitiontolerance)【答案】:D

解析:本题考察分布式系统CAP理论。CAP理论指出,分布式系统无法同时满足一致性(C)、可用性(A)、分区容错性(P)三个特性。由于网络不可避免出现分区(P是必须满足的),因此系统只能在C和A中选择其一:满足P和A则放弃C(AP),或满足P和C则放弃A(CP)。选项D描述了三者同时满足的情况,这在实际分布式系统中不可能实现,因此正确答案为D。57.SparkStreaming采用的核心处理模型是?

A.微批处理模型

B.实时流处理模型

C.纯内存计算模型

D.分布式存储模型【答案】:A

解析:本题考察SparkStreaming处理模型知识点。SparkStreaming基于微批处理(Micro-batch)模型,将实时数据流分割为小批量数据按批处理。实时流处理是Flink的核心特性,纯内存计算是Spark整体优势而非Streaming模型,分布式存储模型属于HDFS等组件特性。因此正确答案为A。58.ApacheKafka主要用于以下哪种场景?

A.分布式批处理计算

B.实时消息传递与事件流处理

C.关系型数据库全量备份

D.分布式文件系统存储【答案】:B

解析:本题考察Kafka的核心定位。Kafka是高吞吐量的分布式消息系统,设计用于实时数据流的发布与订阅,典型场景包括日志收集、实时数据管道、事件驱动架构。选项A(分布式批处理计算)对应Spark、Flink等批处理/流处理框架;选项C(关系型数据库备份)通常使用mysqldump、XtraBackup等工具;选项D(分布式文件系统存储)是HDFS的功能。因此正确答案为B。59.Hive的核心功能及应用场景是?

A.通过HiveQL将SQL转换为MapReduce/YARN任务,实现结构化数据批处理

B.与Spark集成实现实时流数据处理,依赖HiveContext

C.提供分布式键值存储,支持高并发读写操作

D.作为数据挖掘引擎,直接训练机器学习模型【答案】:A

解析:本题考察Hive的技术定位。Hive是基于Hadoop的SQL数据仓库工具,核心组件包括HiveMetastore(元数据管理)和HiveQL(类SQL查询语言),通过将SQL转换为MapReduce/YARN任务实现结构化数据的离线批处理;B选项错误,HiveContext是Spark的组件,与Hive无直接关联;C选项描述的是HBase(NoSQL数据库)的功能;D选项错误,Hive不具备数据挖掘模型训练能力,需结合MLlib等工具。60.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专门用于在集群中存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为A。61.Spark相比MapReduce的主要优势是?

A.仅支持内存计算,不依赖磁盘存储

B.支持多种数据处理模型(批处理、流处理、交互式查询等)

C.必须基于磁盘存储数据,确保数据持久性

D.仅适用于离线批处理场景,无法处理实时数据【答案】:B

解析:本题考察Spark的技术特点。Spark的核心优势是支持多种数据处理模型,包括批处理(SparkCore)、流处理(SparkStreaming)、交互式查询(SparkSQL)等,而MapReduce仅支持批处理。A错误,Spark虽优先内存计算,但也支持磁盘存储;C错误,Spark以内存计算为核心,非必须基于磁盘;D错误,Spark支持实时数据处理(如StructuredStreaming)。62.在Kafka分布式消息系统中,负责将消息持久化到磁盘的核心组件是?

A.Producer(生产者)

B.Consumer(消费者)

C.Broker(代理节点)

D.ZooKeeper(协调服务)【答案】:C

解析:Kafka中,Broker是服务节点,负责接收、存储消息并持久化到本地磁盘。Producer发送消息,Consumer消费消息,ZooKeeper管理集群元数据,故C正确。63.MongoDB属于以下哪种NoSQL数据库模型?

A.键值对(Key-Value)模型

B.文档(Document)模型

C.列族(Column-Family)模型

D.图(Graph)模型【答案】:B

解析:本题考察NoSQL数据库的分类,正确答案为B。MongoDB以JSON格式的“文档”(Document)为基本存储单元,支持嵌套文档和灵活的模式,属于文档模型;A典型代表为Redis、DynamoDB;C代表为HBase、Cassandra;D代表为Neo4j。64.在Hadoop分布式文件系统(HDFS)中,默认情况下,一个文件被分成块后,每个块会被存储在多少个数据节点上以保证高可用性?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS副本机制知识点。HDFS默认副本数为3,目的是通过冗余存储提升数据可靠性,防止单点故障导致数据丢失。A选项2是部分场景下的非默认配置;C、D选项4和5均高于HDFS默认的冗余策略,因此正确答案为B。65.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.YARN

C.MapReduce

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;YARN是资源管理器,负责集群资源调度;MapReduce是分布式计算框架;Hive是基于Hadoop的数据仓库工具。因此正确答案为A。66.Hadoop分布式文件系统(HDFS)的默认数据块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点。Hadoop分布式文件系统(HDFS)的默认数据块大小为128MB(可配置),其设计目的是平衡磁盘IO效率与元数据管理开销。选项A(64MB)是HDFS早期版本的默认配置;C(256MB)和D(512MB)因过大导致随机IO开销剧增,不符合实际生产场景需求。67.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?

A.2

B.3

C.4

D.5【答案】:B

解析:本题考察HDFS核心配置知识点。HDFS为提高数据可靠性和容错性,默认将文件存储为3个副本(副本因子),分别存储在不同节点上。当一个节点故障时,其他副本可替代使用。选项A(2)为部分场景下的简化配置,C(4)和D(5)均高于默认值,不符合HDFS标准设置。68.在大数据隐私保护中,将用户身份证号替换为‘110101********1234’的操作属于以下哪种技术?

A.数据加密

B.数据删除

C.数据脱敏

D.数据备份【答案】:C

解析:数据脱敏通过变形处理敏感数据(如隐藏部分字符)实现隐私保护,保留格式和可用性;A错误,数据加密需密钥解密,与“替换部分字符”操作不同;B错误,数据删除会破坏数据完整性;D错误,数据备份仅用于容灾恢复,不涉及隐私保护。69.Spark相比MapReduce,其显著优势主要体现在?

A.内存计算为主

B.以磁盘I/O操作为主

C.仅支持结构化数据处理

D.完全依赖Hadoop生态【答案】:A

解析:本题考察Spark的核心特性。Spark采用内存计算模型,避免频繁磁盘I/O,大幅提升处理速度;B错误,MapReduce以磁盘I/O为主;C错误,Spark支持结构化、半结构化和非结构化数据;D错误,Spark可独立运行,无需完全依赖Hadoop。因此正确答案为A。70.Spark相比MapReduce,其核心优势不包括以下哪项?

A.内存计算,减少磁盘IO

B.迭代计算效率显著提升

C.批处理能力远超MapReduce

D.支持多种计算模式(批/流/SQL等)【答案】:C

解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势在于内存计算(A正确)、迭代计算效率高(B正确,因MapReduce基于磁盘,Spark基于内存)、支持多种计算模式(D正确,如批处理、流处理、SQL查询等)。而批处理能力并非Spark的“核心优势”,两者均支持批处理框架,且MapReduce本身就是经典批处理模型,Spark的批处理效率优势源于内存计算而非批处理能力更强,故C错误。71.以下哪项不属于大数据的核心特征(4V)?

A.Volume

B.Velocity

C.Value

D.Variety【答案】:C

解析:本题考察大数据4V特征知识点。大数据核心特征通常定义为Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性),而Value(价值)不属于标准4V特征。A、B、D均为4V的核心要素,C为干扰项。72.Hadoop生态系统中,负责分布式存储的核心组件是以下哪一个?

A.MapReduce

B.YARN

C.HDFS

D.Hive【答案】:C

解析:本题考察Hadoop核心组件的功能。MapReduce是分布式计算框架,YARN是资源管理器,HDFS是分布式文件系统(HadoopDistributedFileSystem),负责数据的分布式存储;Hive是数据仓库工具,用于数据查询和分析。因此正确答案为C。73.以下哪个系统通常用于实时流数据处理?

A.Kafka(消息队列)

B.ApacheFlink

C.Hadoop(分布式计算框架)

D.Hive(数据仓库工具)【答案】:B

解析:本题考察流处理技术的应用场景。ApacheFlink是专为实时流数据处理设计的框架,支持低延迟、高吞吐的流计算;选项A(Kafka)是消息队列,主要用于存储和传输流数据,常作为Flink的数据源而非独立处理系统;选项C(Hadoop)以批处理为主,适合离线数据计算;选项D(Hive)是基于Hadoop的数据仓库工具,用于批量分析历史数据。74.Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小通常是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础架构知识点。HDFS的块大小默认值为128MB(Hadoop2.x版本),这一设计平衡了磁盘随机读取效率与文件寻址速度。64MB(A)是早期版本的块大小;256MB(C)或512MB(D)会因文件过大增加随机访问的I/O开销,降低系统性能。因此正确答案为B。75.以下哪个是实时流处理计算框架的典型代表?

A.ApacheFlink

B.ApacheSparkBatch

C.HadoopMapReduce

D.ApacheHive【答案】:A

解析:本题考察流处理框架的典型代表。ApacheFlink是专为实时流处理设计的框架,支持毫秒级延迟和高吞吐;B选项SparkBatch是批处理框架;C选项MapReduce是离线批处理框架;D选项Hive是基于Hadoop的SQL查询工具,主要用于数据仓库。因此正确答案为A。76.Hadoop分布式文件系统(HDFS)的核心功能是?

A.分布式存储海量数据

B.分布式并行计算任务

C.实时流数据处理

D.数据清洗与转换【答案】:A

解析:本题考察HDFS的核心定位,HDFS是Hadoop生态系统的分布式文件系统,主要负责海量数据的分布式存储,提供高容错、高吞吐量的存储服务。B选项是MapReduce或YARN的任务调度功能;C选项是流处理框架(如Flink、SparkStreaming)的核心场景;D选项属于数据预处理工具(如Flume、Kafka)的功能范畴,因此正确答案为A。77.根据分布式系统的CAP理论,当系统面临网络分区(Partition)时,为保证系统可用性(Availability),必须放弃的特性是?

A.分区容错性(Partitiontolerance)

B.一致性(Consistency)

C.可用性(Availability)

D.原子性(Atomicity)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论中,分区容错性(P)是分布式系统的固有特性(必须支持),因此无法放弃;当网络分区发生时,系统只能在一致性(C)和可用性(A)中选择其一。为保证系统可用(A),必须放弃一致性(C),即系统可能出现数据不一致但仍对外提供服务。D选项“原子性”是事务特性,非CAP理论范畴,故正确答案为B。78.以下哪项是数据仓库中事实表的典型特征?

A.主要用于存储描述性维度属性(如时间、地区)

B.存储业务事件的度量数据(如销售额、订单量)

C.仅包含关键字段,无冗余数据

D.用于定义数据仓库的整体逻辑结构【答案】:B

解析:本题考察数据仓库中事实表与维度表的核心区别。事实表的典型特征是存储业务事件的度量数据(如订单金额、用户点击量等),通常关联多个维度表。选项A描述的是维度表(如时间维度表包含日期、季度等属性);选项C过于绝对,事实表可能因关联维度表存在冗余;选项D错误,数据仓库的逻辑结构由元数据和表关系定义,非事实表职责。79.以下哪个场景最适合使用ApacheFlink进行实时数据处理?

A.每天批量处理10TB历史日志数据

B.实时分析电商平台每秒百万级交易数据

C.对海量非结构化图片进行离线特征提取

D.定期统计月度用户行为报表【答案】:B

解析:本题考察流处理框架的典型应用场景。Flink以低延迟(毫秒级)、高吞吐、精确一次(Exactly-Once)语义著称,适合实时性要求极高(如高频交易、实时风控)且数据吞吐量极大的场景。选项A(历史日志批处理)适合MapReduce/Spark批处理;选项C(离线图片特征提取)属于非实时批处理任务;选项D(月度报表统计)是周期性批处理任务,与Flink的实时特性不符。80.以下哪项是联机分析处理(OLAP)的典型应用场景?

A.电商平台实时订单交易记录存储

B.企业财务部门日常记账系统

C.银行核心账户余额查询系统

D.企业销售数据多维分析与决策支持【答案】:D

解析:本题考察OLAP(联机分析处理)的应用场景。OLAP主要用于对历史数据进行多维分析、聚合计算,支持复杂查询以辅助决策;OLTP(联机事务处理)专注于实时事务处理(如A、B、C均为交易、记账、账户查询等实时操作)。因此正确答案为D。81.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型

B.文档型

C.列族型

D.图型【答案】:B

解析:本题考察NoSQL数据库的分类。MongoDB是典型的文档型数据库,以JSON类似的文档结构存储数据,支持灵活的模式定义。选项A(键值型)如Redis;选项C(列族型)如HBase;选项D(图型)如Neo4j,均为不同类型的NoSQL数据库。82.Hadoop生态系统中,负责分布式数据存储的核心组件是以下哪一个?

A.MapReduce

B.HDFS

C.YARN

D.ZooKeeper【答案】:B

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务。因此正确答案为B。83.以下关于Spark框架特点的描述,正确的是?

A.Spark仅支持内存计算,无法处理磁盘数据

B.Spark基于MapReduce架构实现分布式计算

C.Spark的RDD(弹性分布式数据集)具有不可变性

D.Spark不支持实时流处理场景【答案】:C

解析:本题考察Spark核心特性。Spark的RDD是不可变的分布式数据集合,这是其保证数据一致性和容错性的关键设计。A错误,Spark支持内存与磁盘混合计算;B错误,Spark采用独立的DAG执行引擎,与MapReduce架构无关;D错误,SparkStreaming模块可支持实时流处理。84.下列关于ApacheFlink的描述,错误的是?

A.支持事件时间处理

B.统一流处理与批处理框架

C.仅支持内存计算,不支持磁盘计算

D.提供精确一次(Exactly-Once)语义【答案】:C

解析:本题考察Flink的核心特性。Flink是统一的流处理和批处理框架(B正确),支持事件时间处理(A正确,解决数据乱序问题)和精确一次语义(D正确,通过两阶段提交协议保证数据一致性);C选项错误,Flink既支持内存计算(如状态管理),也支持磁盘计算(如大型数据集的磁盘缓存),并非“仅支持内存计算”。因此正确答案为C。85.下列关于Spark和MapReduce的描述中,正确的是?

A.Spark仅支持批处理,不支持流处理

B.Spark支持内存计算,相比MapReduce在迭代计算中性能更优

C.MapReduce比Spark更适合迭代计算任务

D.Spark的RDD是可变的,而MapReduce的中间结果是不可变的【答案】:B

解析:本题考察分布式计算框架的核心特性。Spark的内存计算模型使其在迭代计算(如机器学习、图算法)中性能远超MapReduce(MapReduce需多次读写磁盘)。选项A错误,Spark通过SparkStreaming支持实时流处理;选项C错误,MapReduce迭代计算需反复读写磁盘,效率极低;选项D错误,Spark的RDD(弹性分布式数据集)是不可变的,而MapReduce中间结果需写入磁盘(本质不可变但依赖磁盘存储)。86.在数据仓库设计中,以下哪种模型是事实表与维度表直接相连、无冗余的典型结构?

A.星型模型

B.雪花模型

C.星座模型

D.雪花星座混合模型【答案】:A

解析:本题考察数据仓库的表模型结构。星型模型以事实表为中心,维度表直接连接到事实表,无冗余(每个维度表仅含一个父维度表),结构简洁高效,是数据仓库中最常用的模型。雪花模型是星型模型的扩展,维度表可进一步拆分为多个子维度表(如“地区”拆分为“国家-省-市”),增加了规范化但降低了查询效率。星座模型(星座模式)是多个事实表共享维度表的结构,并非单一表模型。选项D为干扰项。因此正确答案为A。87.在数据仓库设计中,用于存储业务事件度量值(如销售额、订单量)的表通常称为?

A.维度表

B.事实表

C.星型模型

D.雪花模型【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量数据(数值型),如“销售订单表”中的订单金额、数量等;维度表存储描述性属性(如时间、地区),用于解释事实表的上下文;星型模型和雪花模型是数据仓库的表组织模式(非表类型)。因此正确答案为B。88.以下哪个框架是基于纯流处理模型设计的实时计算引擎?

A.SparkStreaming

B.ApacheFlink

C.ApacheStorm

D.ApacheKafkaStreams【答案】:B

解析:本题考察流处理框架的核心模型。ApacheFlink是唯一基于纯流处理模型(无批处理阶段)设计的实时计算引擎,支持毫秒级延迟和状态管理。选项A(SparkStreaming)本质是微批处理(将流拆分为小批次处理);选项C(Storm)虽支持实时流处理,但更偏向底层流处理API,未像Flink那样提供统一的流-批处理语义;选项D(KafkaStreams)依赖Kafka作为数据源,但其核心逻辑仍属于轻量级流处理工具,并非独立的“纯流处理框架”。89.以下哪种文件格式通常用于大数据场景下的列式存储,以提高查询效率?

A.CSV(逗号分隔值)

B.Parquet(列式存储格式)

C.JSON(JavaScript对象表示法)

D.XML(可扩展标记语言)【答案】:B

解析:本题考察大数据存储格式。Parquet是列式存储格式,按列而非行组织数据,支持高效压缩和复杂类型,可大幅减少IO操作,提升查询分析效率,广泛应用于Hadoop、Spark等大数据生态系统。ACSV和CJSON是行式半结构化格式,查询时需全表扫描;DXML是行式标记语言,同样不适合列式查询,且压缩率和查询效率远低于Parquet。90.ApacheFlink与其他流处理框架(如Storm、SparkStreaming)相比,最显著的优势在于?

A.支持Exactly-Once语义

B.只能处理批处理数据

C.不支持状态管理

D.仅适用于低延迟场景【答案】:A

解析:本题考察流处理框架的核心特性。Flink通过Checkpoint+Savepoint机制实现端到端的Exactly-Once语义,确保数据不丢失、不重复,这是其相比Storm(At-Least-Once)、SparkStreaming(默认At-Least-Once)的显著优势,故A正确。选项B错误(Flink以流处理为核心,批处理是其特殊场景);选项C错误(Flink提供KeyedState、OperatorState等强大状态管理);选项D错误(Flink支持毫秒级低延迟和分钟级高吞吐场景)。91.关于数据仓库(DataWarehouse)和数据湖(DataLake)的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库用于实时分析,数据湖仅用于离线分析

C.数据仓库面向分析场景,数据湖面向原始数据存储

D.数据仓库支持多源数据整合,数据湖不支持【答案】:C

解析:本题考察数据仓库与数据湖的核心区别。数据仓库(DataWarehouse)是面向分析场景的结构化数据整合平台,支持历史数据查询与BI分析;数据湖(DataLake)是原始数据存储中心,支持结构化、半结构化、非结构化数据的统一存储,便于后续挖掘;A选项错误,数据湖也可存储结构化数据;B选项错误,两者均可用于实时/离线分析;D选项错误,数据湖同样支持多源数据接入(如通过FlinkCDC同步)。92.在数据仓库中,用于记录业务事件(如销售金额、订单数量等度量值)的表类型是?

A.维度表

B.事实表

C.分层表

D.分区表【答案】:B

解析:本题考察数据仓库表结构。事实表记录业务事件的度量值(如销售额、订单数),并关联维度表提供上下文;维度表(A)用于描述事实表的分析角度(如时间、地区),属于描述性表;分层表(C)和分区表(D)是数据存储优化手段,非表类型分类。因此正确答案为B。93.以下哪项是数据集市(DataMart)的典型特征?

A.面向企业级全业务主题的集成数据

B.存储原始业务系统的详细数据

C.通常针对特定部门需求构建

D.由多个独立数据仓库组成【答案】:C

解析:本题考察数据仓库体系中的数据集市概念。数据集市是数据仓库的子集,专注于特定业务部门(如销售、财务)需求,规模小且结构紧凑(C正确)。A是企业级数据仓库特征;B描述的是操作型数据库(OLTP)的原始数据存储;D混淆了数据集市与数据仓库的关系(数据集市从数据仓库提取数据)。因此正确答案为C。94.以下哪种数据处理方式适用于实时分析场景(如实时监控系统的异常检测)?

A.批处理(BatchProcessing)

B.流处理(StreamProcessing)

C.离线处理(OfflineProcessing)

D.混合处理(HybridProcessing)【答案】:B

解析:本题考察数据处理类型的应用场景。流处理针对连续实时数据流(如传感器数据、日志流),支持低延迟处理和实时分析(如实时告警);批处理(A)处理历史数据,耗时较长;离线处理(C)等同于批处理,通常用于T+1报表生成;混合处理(D)是批流结合,但核心实时场景由流处理承担。因此正确答案为B。95.在MapReduce计算模型中,Map阶段的主要作用是?

A.对数据进行聚合计算

B.对中间结果进行分发

C.对输入数据进行转换处理

D.对最终结果进行合并输出【答案】:C

解析:本题考察MapReduce计算流程知识点。Map阶段负责将输入数据解析为键值对,并通过用户定义的映射函数对每个键值对执行转换操作(如过滤、特征提取),生成中间结果。A(聚合)是Reduce阶段的核心任务;B(数据分发)属于Shuffle阶段;D(合并输出)是Reduce阶段的最终步骤。因此正确答案为C。96.MongoDB数据库的核心数据模型是以下哪种类型?

A.关系型

B.文档型

C.键值型

D.列族型【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式的文档存储数据,支持灵活的模式设计;关系型数据库(如MySQL)以表和行存储;键值型数据库(如Redis)存储键值对;列族型数据库(如HBase)按列族组织数据。因此MongoDB属于文档型数据库,正确答案为B。97.以下哪个工具常用于实时流数据处理?

A.Flink

B.Hive

C.HBase

D.Sqoop【答案】:A

解析:本题考察大数据工具的应用场景。Flink是开源流处理框架,专为实时数据处理设计,支持流批一体;Hive是基于Hadoop的数据仓库工具,用于离线数据分析;HBase是列族数据库,用于海量结构化数据存储;Sqoop是数据导入导出工具,用于关系型数据库与Hadoop之间的数据传输。因此正确答案为A。98.MongoDB数据库按照NoSQL分类属于以下哪种类型?

A.键值对(Key-Value)数据库

B.列族(Column-Family)数据库

C.文档(Document)数据库

D.图(Graph)数据库【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以JSON/BSON格式存储文档数据,属于文档型数据库。A选项(如Redis)以简单键值对存储,B选项(如HBase)按列族组织结构化数据,D选项(如Neo4j)专注实体关系图存储,均不符合MongoDB的存储模型。99.以下关于Spark和MapReduce的描述,正确的是?

A.Spark仅支持批处理,MapReduce支持流处理

B.Spark默认使用内存计算,MapReduce以磁盘IO为主

C.Spark不支持迭代计算,MapReduce适合迭代计算

D.Spark的编程模型比MapReduce更复杂【答案】:B

解析:本题考察分布式计算框架的核心差异。Spark的核心优势是内存计算(默认将中间结果缓存于内存,减少磁盘IO),而MapReduce需频繁读写磁盘存储中间结果,故B正确。选项A错误(Spark通过StructuredStreaming支持流处理,MapReduce仅支持批处理);选项C错误(Spark因内存缓存特性,非常适合迭代计算如机器学习);选项D错误(Spark提供RDD、DataFrame等简洁API,编程模型更直观)。100.Spark作为大数据处理框架,相比MapReduce的主要优势是?

A.支持内存计算,减少磁盘IO

B.仅支持批处理任务,不支持流处理

C.必须依赖HDFS存储数据

D.无法进行复杂的数据清洗操作【答案】:A

解析:Spark的核心优势是内存计算,将中间结果保存在内存中,大幅减少磁盘读写操作,提升处理速度;B错误,Spark同时支持批处理(SparkCore)和流处理(SparkStreaming);C错误,Spark可从多种数据源读取数据(如Hive、Kafka等),不限于HDFS;D错误,Spark提供丰富的Transformation和ActionAPI,支持复杂的数据清洗、转换操作。101.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础配置知识点。HDFS默认块大小为128MB(在Hadoop2.x及之前版本中),这一设计旨在平衡存储效率和读写性能。选项A(64MB)是早期HDFS的可选配置,并非默认值;选项C(256MB)和D(512MB)通常用于特定高性能场景或Hadoop3.x的大文件优化,但不属于默认配置。102.MongoDB属于哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库分类。MongoDB以文档模型存储数据,每个文档类似JSON格式,支持嵌套结构和灵活模式,属于文档型数据库。选项A错误,键值型数据库(如Redis)以简单键值对存储;选项B错误,列族型数据库(如HBase)按列族组织数据;选项D错误,图型数据库(如Neo4j)用于存储实体关系图。103.以下哪个是Hadoop分布式文件系统?

A.HDFS

B.HBase

C.Map

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论