2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)_第1页
2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)_第2页
2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)_第3页
2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)_第4页
2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力考前冲刺练习题库及答案详解(必刷)1.MongoDB数据库属于以下哪种类型的NoSQL数据库?

A.键值对数据库(如Redis)

B.列族数据库(如HBase)

C.文档数据库(如MongoDB)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以“文档”形式存储数据(类似JSON格式),属于文档型数据库;键值对数据库(如Redis)以键值对形式存储;列族数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构(节点和边)存储数据。因此MongoDB属于文档数据库,正确答案为C。2.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库类型。MongoDB以JSON格式的文档(Document)为基本存储单元,属于文档型数据库,支持嵌套结构与灵活查询。A选项键值型如Redis(Key-Value对);C选项列族型如HBase(按列族组织数据);D选项图数据库如Neo4j(存储实体与关系)。因此正确答案为B。3.与HadoopMapReduce相比,ApacheSpark的主要优势不包括以下哪项?

A.内存计算

B.DAG执行引擎

C.支持迭代计算

D.优化磁盘IO密集型任务【答案】:D

解析:本题考察Spark与MapReduce的核心差异。Spark的优势包括:①内存计算(减少磁盘IO,提升速度);②DAG执行引擎(有向无环图优化任务依赖关系);③支持迭代计算(如机器学习场景,避免重复读写磁盘)。而MapReduce本身依赖磁盘IO(Map和Reduce阶段多次读写HDFS),Spark通过内存计算减少磁盘操作,因此“优化磁盘IO密集型任务”并非Spark的优势,反而MapReduce更依赖磁盘IO优化。正确答案为D。4.在MapReduce分布式计算框架中,负责将输入数据分割为多个并行处理任务的阶段是?

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Combine阶段【答案】:A

解析:本题考察MapReduce工作原理知识点。MapReduce分为Map、Shuffle、Reduce三个核心阶段:Map阶段负责将输入数据分割为mapper任务并行处理,生成中间键值对;Reduce阶段负责聚合Map输出结果;Shuffle阶段负责数据分区和传输;Combine阶段为Map后的局部聚合优化。只有Map阶段负责数据分割与并行处理。5.SparkStreaming的核心抽象是以下哪一项?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。SparkStreaming将连续数据流按时间片(如1秒)分割为微批处理,每个时间片生成一个RDD,这些RDD组成DStream(离散流),是SparkStreaming的核心抽象。选项A(RDD)是Spark的基础数据结构,适用于所有Spark应用;选项C(DataFrame)和D(Dataset)是结构化数据API,与Streaming无关。6.数据仓库的哪个特性体现了数据随时间推移反映系统历史变化的特性?

A.面向主题

B.集成性

C.时变性

D.非易失性【答案】:C

解析:本题考察数据仓库的核心特性。数据仓库的“时变性”(Time-Variant)明确指数据会随时间变化而被持续更新和维护,用于反映系统的历史发展趋势(如用户行为历史、业务指标变化)。A“面向主题”指数据围绕特定业务主题组织(如销售、财务);B“集成性”强调整合多源异构数据;D“非易失性”指数据一旦进入仓库,通常仅追加历史版本,不主动删除或修改。7.根据CAP理论,在分布式系统设计中,以下哪项是正确的原则?

A.为保证强一致性(Consistency),必须牺牲分区容错性(PartitionTolerance)

B.分区容错性(P)是分布式系统的固有属性,需优先保证

C.当系统面临网络分区时,必须选择CP模式(一致性优先)

D.系统必须同时满足一致性(C)、可用性(A)和分区容错性(P)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论指出分布式系统只能同时满足‘一致性(C)’、‘可用性(A)’、‘分区容错性(P)’中的两项,无法三者兼得。其中,‘分区容错性(P)’是分布式系统的固有属性(如网络故障必然导致分区),因此需优先保证(B正确)。A错误,因P是必须的,只能在C和A中取舍;C错误,网络分区时通常选AP(牺牲一致性换取可用性);D错误,三者不可同时满足。8.在数据仓库的维度建模中,通过将维度表设计为层级结构以减少数据冗余的模型是?

A.星型模型

B.雪花模型

C.星座模型

D.事实星座模型【答案】:B

解析:本题考察数据仓库维度建模类型。雪花模型通过拆分维度表为层级结构(如“国家-省-市”),避免重复存储维度属性,B正确;星型模型的维度表为扁平结构,直接关联事实表,A错误;星座模型(FactConstellation)是多个事实表共享维度表的组合模型,C错误;事实星座模型属于星座模型的别称,D错误。9.关于Spark中RDD(弹性分布式数据集)的特性,描述错误的是?

A.RDD具有不可变性

B.RDD支持分区操作

C.RDD的转换操作是延迟执行的

D.RDD必须在内存中进行计算【答案】:D

解析:本题考察SparkRDD的核心特性。RDD是Spark的基础抽象,具有不可变性(A正确)、可分区(B正确)、转换操作惰性执行(仅在动作操作触发时计算,C正确);RDD支持内存和磁盘混合存储,当内存不足时会自动落盘,并非“必须在内存中进行”,D错误。10.在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大规模数据存储设计,通过多副本机制保证数据可靠性和高容错性。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,提供SQL查询接口。因此正确答案为A。11.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析场景,数据湖面向原始数据存储

C.数据仓库支持实时查询,数据湖仅支持离线分析

D.数据仓库采用列式存储,数据湖仅采用行式存储【答案】:B

解析:本题考察数据仓库与数据湖的概念差异。B正确:数据仓库整合结构化数据用于业务分析(如OLAP),数据湖存储原始数据(结构化/半结构化/非结构化),支持灵活扩展;A错误:数据仓库可存储半结构化数据,数据湖也包含结构化数据;C错误:两者均可支持实时查询(如数据湖用Presto);D错误:存储格式与类型无关,两者均支持列/行式存储。12.数据仓库设计中,‘星型模型’的核心特点是?

A.包含一个中心事实表和多个维度表

B.所有表均通过外键关联,结构复杂

C.仅适用于小规模数据仓库,扩展性差

D.支持复杂的多表嵌套查询,性能优异【答案】:A

解析:本题考察数据仓库的星型模型特性。星型模型的核心是由一个中心事实表(存储业务度量数据,如销售额、订单量)和多个维度表(存储描述性信息,如时间、用户、产品)组成,通过主键-外键关联,结构简单直观。B选项错误,星型模型结构简单,无复杂外键嵌套;C选项错误,星型模型因结构清晰,适合大规模数据仓库;D选项错误,星型模型因连接简单,查询性能优异,但复杂多表连接能力弱于雪花模型(雪花模型通过维度表分层实现多表连接)。因此正确答案为A。13.在数据仓库的分层设计中,负责存储原始业务数据、未经任何清洗和转换的数据层是?

A.ODS层

B.DWD层

C.DWS层

D.ADS层【答案】:A

解析:本题考察数据仓库分层知识点。数据仓库典型分层包括:ODS(操作数据存储,存储原始数据,未清洗)、DWD(数据明细层,经过清洗和标准化)、DWS(数据汇总层,多维度聚合)、ADS(应用数据服务层,面向业务应用)。选项B“DWD层”已完成数据清洗,C“DWS层”为汇总层,D“ADS层”为应用输出层,均不符合“原始数据未清洗”的描述。14.Hadoop生态系统中负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式数据存储的核心组件,采用块(Block)形式存储海量数据并支持高容错性。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于管理集群元数据和协调分布式任务。因此正确答案为A。15.在大数据分析中,K-means算法主要用于解决什么问题?

A.分类问题(如垃圾邮件识别)

B.聚类问题(如用户分群)

C.预测问题(如销售额预测)

D.关联规则挖掘(如购物篮分析)【答案】:B

解析:本题考察数据挖掘算法应用。K-means是经典的无监督聚类算法,用于将数据点划分为K个不同的簇(Cluster),实现用户分群等场景。A选项分类问题通常用决策树、SVM等;C预测问题用回归算法;D关联规则挖掘用Apriori算法。因此正确答案为B。16.在数据仓库的维度建模中,以下哪个是事实表?

A.客户表

B.产品表

C.销售订单表

D.员工表【答案】:C

解析:本题考察数据仓库维度建模知识点。事实表包含度量值(如销售额、订单量)和关联维度的外键,销售订单表记录订单金额、数量等事实数据。A、B、D为维度表,用于描述数据的上下文信息(如客户表描述客户属性)。17.以下哪项属于数据质量的核心维度?

A.及时性

B.冗余性

C.可扩展性

D.可移植性【答案】:A

解析:本题考察数据质量的关键指标。数据质量维度通常包括完整性(数据是否缺失)、准确性(数据是否正确)、及时性(数据是否新鲜)、一致性(数据是否统一)等。B选项“冗余性”是数据存储中的冗余设计,非质量维度;C选项“可扩展性”是系统架构特性;D选项“可移植性”是数据或系统的迁移能力,均不属于数据质量维度。因此正确答案为A。18.大数据的核心特征不包括以下哪一项?

A.Veracity

B.Volume

C.Velocity

D.Variety【答案】:A

解析:本题考察大数据的核心特征知识点。大数据的核心特征通常指“4V”:Volume(数据容量大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Value(数据蕴含价值)。选项A的Veracity(真实性)并非大数据的核心特征,因此正确答案为A。选项B、C、D均为大数据的核心特征,故排除。19.在Hadoop的MapReduce计算模型中,负责将Map阶段产生的中间结果进行分区、排序、合并等操作的阶段是?

A.Map阶段

B.Shuffle阶段

C.Reduce阶段

D.Output阶段【答案】:B

解析:本题考察MapReduce执行流程知识点,正确答案为B。Map阶段负责并行处理输入数据生成中间键值对;Shuffle阶段是Map与Reduce之间的关键环节,核心功能是对中间结果进行分区、排序、合并等数据整理操作;Reduce阶段基于Shuffle结果执行聚合计算;Output阶段负责输出最终结果。因此选B。20.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。21.Hadoop分布式文件系统(HDFS)的默认块大小通常是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点,正确答案为B。HDFS的块(Block)是数据存储的基本单位,默认大小为128MB(现代主流配置)。块大小设计用于适配大文件存储、提高并行性和容错性(单个块损坏不影响其他块)。64MB为早期版本默认值,256MB/512MB超出当前主流标准。因此选B。22.MongoDB作为典型的NoSQL数据库,其数据模型主要采用以下哪种结构?

A.键值对(Key-Value)

B.文档型(Document)

C.列族(Column-Family)

D.图结构(Graph)【答案】:B

解析:本题考察NoSQL数据库的典型数据模型。MongoDB以BSON(BinaryJSON)格式存储文档,支持嵌套结构和灵活的模式,属于文档型数据库。错误选项分析:A选项键值对典型代表为Redis、Memcached;C选项列族典型代表为HBase;D选项图结构典型代表为Neo4j。23.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是分布式计算框架,用于数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群管理。因此正确答案为A。24.Spark相比MapReduce,在大数据处理中的核心优势是?

A.基于内存计算

B.仅支持磁盘计算

C.只能处理批处理任务

D.实时流处理能力【答案】:A

解析:Spark采用内存计算模型,中间结果无需频繁写入磁盘,大幅提升计算速度。B选项错误,MapReduce基于磁盘,Spark主要依赖内存;C选项错误,Spark既支持批处理也支持流处理;D选项错误,实时流处理是Flink/SparkStreaming的扩展特性,非Spark核心优势。25.下列哪个大数据处理框架主要用于实时流数据处理?

A.Flink

B.SparkSQL

C.HBase

D.Hive【答案】:A

解析:本题考察主流大数据处理框架的应用场景。ApacheFlink是专为实时流数据处理设计的开源框架,支持低延迟、高吞吐的流处理任务,适合实时分析场景。SparkSQL(B选项)是基于Spark的SQL查询工具,侧重批处理和交互式查询;HBase(C选项)是NoSQL分布式数据库,用于存储海量结构化数据;Hive(D选项)是基于Hadoop的数据仓库工具,用于批处理分析。因此正确答案为A。26.以下哪一项不属于Hadoop生态系统的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.ApacheFlink【答案】:D

解析:本题考察Hadoop生态系统组成。Hadoop生态系统的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce、资源管理器YARN等。选项D的ApacheFlink是独立的开源流处理框架,不属于Hadoop生态系统的核心组件。因此正确答案为D。选项A、B、C均为Hadoop生态的核心组件,故排除。27.在大数据平台中,为保护敏感数据(如用户身份证号、手机号)不被泄露,以下哪种技术属于数据脱敏范畴?

A.数据加密(如AES加密)

B.数据脱敏(如替换为随机字符串)

C.数据压缩(如gzip)

D.数据清洗(如去重)【答案】:B

解析:本题考察大数据安全技术,正确答案为B。数据脱敏是通过对敏感数据进行变形处理(如替换、屏蔽、打乱),使其在非授权场景下无法识别原始信息,属于数据安全的“数据匿名化”手段。A选项“数据加密”是对数据进行可逆/不可逆转换,通常用于存储或传输中的加密保护,与“脱敏”不同;C选项“数据压缩”用于减少存储/传输体积,D选项“数据清洗”用于去除噪声/异常数据,均与敏感数据保护无关。28.与传统MapReduce相比,ApacheSpark的显著优势在于?

A.基于内存计算,减少磁盘IO,处理速度更快

B.仅支持批处理任务,无法处理实时流数据

C.必须依赖HDFS存储所有数据,灵活性差

D.只能运行在独立集群上,无法与YARN集成【答案】:A

解析:本题考察Spark的技术特性。Spark采用内存计算和DAG执行引擎,避免了MapReduce中频繁的磁盘IO操作,因此处理速度远高于MapReduce;Spark不仅支持批处理,还支持流处理(StructuredStreaming);Spark可与YARN、Kubernetes等资源管理器集成,且数据存储不限于HDFS。选项B、C、D均描述了错误特性,正确答案为A。29.ApacheFlink在实时流处理场景中具有的关键特性是?

A.支持高吞吐量的批处理任务

B.提供低延迟和精确一次(Exactly-Once)语义

C.仅依赖本地磁盘缓存数据

D.自动完成资源的静态分配【答案】:B

解析:本题考察Flink的技术特性。Flink作为流处理框架,支持流与批处理统一,其核心优势包括低延迟(毫秒级)和精确一次(Exactly-Once)语义,确保数据一致性。A错误:Flink虽支持批处理,但“高吞吐量”非其核心优势,且批处理并非其唯一应用;C错误:Flink采用内存管理,数据缓存依赖内存而非本地磁盘;D错误:Flink基于YARN或独立集群,资源分配是动态的(如TaskManager自动扩缩容),而非静态。因此正确答案为B。30.Hadoop分布式文件系统(HDFS)的主要作用是?

A.分布式数据存储

B.分布式计算框架

C.集群资源管理

D.数据挖掘与分析【答案】:A

解析:HDFS是Hadoop生态系统的分布式存储组件,核心功能是可靠存储海量数据;B选项MapReduce是分布式计算框架;C选项YARN负责集群资源管理;D选项数据挖掘通常由Hive、机器学习库等工具完成,不属于HDFS核心功能。31.星型模型是数据仓库维度建模的典型结构,其核心特点是?

A.中心为事实表,周围环绕维度表

B.中心为维度表,周围环绕事实表

C.仅包含单一事实表,无维度表

D.包含多个独立事实表【答案】:A

解析:本题考察星型模型的结构定义,正确答案为A。星型模型以事实表为中心,事实表存储度量值(如销售额、数量),周围环绕多个维度表(如时间、产品、地区),维度表通过外键关联事实表;维度表在中心的是雪花模型的特点,单一表或多事实表均不符合星型模型定义。32.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以BSON(类似JSON)格式存储文档,支持嵌套结构和灵活模式,属于文档型数据库。选项A(键值对)如Redis,以键值对存储简单数据;选项B(列族)如HBase,按列族组织稀疏数据;选项D(图数据库)如Neo4j,存储节点与关系数据(如社交网络)。33.Spark相比MapReduce的核心优势是?

A.支持SQL查询功能

B.基于内存计算,执行速度更快

C.仅能处理批处理任务

D.仅支持Java语言开发【答案】:B

解析:本题考察大数据计算框架对比。Spark核心设计为内存计算(中间结果存内存而非磁盘),大幅减少IO开销,执行速度远快于MapReduce(依赖磁盘读写)。选项A中SQL查询可通过SparkSQL或Hive实现,非Spark独有;选项C错误,Spark同时支持批处理和流处理;选项D错误,Spark支持Scala、Java、Python等多语言,故正确答案为B。34.以下哪种数据库类型适合存储半结构化数据(如JSON/XML文档),并支持灵活的模式设计?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.键值型数据库(如Redis)

D.列族型数据库(如HBase)【答案】:B

解析:本题考察NoSQL数据库类型知识点。关系型数据库(A)基于表结构,模式固定;文档型数据库(B)以JSON/文档为基本单元,支持动态字段和灵活模式;键值型(C)仅存储键值对,结构简单;列族型(D)适合高维稀疏数据(如时序数据)。半结构化数据(如嵌套JSON)需灵活模式,故正确答案为B。35.数据仓库(DataWarehouse)的核心特征不包括以下哪项?

A.面向主题

B.集成性

C.实时性

D.非易失性【答案】:C

解析:数据仓库的核心特征包括:面向主题(围绕业务主题组织数据)、集成性(整合多源数据并消除冲突)、非易失性(数据仅追加不修改,用于历史分析)、时变性(数据随时间积累,反映历史趋势)。“实时性”是OLTP系统(联机事务处理)的典型特征,数据仓库主要用于离线分析和历史趋势挖掘,不强调实时性,因此答案为C。36.在大数据处理流程中,数据清洗的核心目的是?

A.去除数据中的重复记录

B.处理数据中的缺失值和异常值

C.提高数据质量,保证后续分析结果的准确性

D.对数据进行标准化和归一化处理【答案】:C

解析:本题考察数据清洗的核心目的。数据清洗是处理原始数据质量问题的关键步骤,包括去重、补全、异常处理等操作,其核心目的是提升数据质量,确保分析结果可靠。选项A、B、D均为数据清洗的具体手段,而非最终目的。因此正确答案为C。37.以下关于SparkStreaming的描述,错误的是?

A.基于微批处理的流处理框架

B.将数据分割为小批量(Batch)进行处理

C.属于纯实时流处理框架(无批处理环节)

D.依赖SparkCore实现底层计算【答案】:C

解析:本题考察SparkStreaming的技术特性。SparkStreaming是Spark生态中用于流处理的组件,其本质是**微批处理框架**,通过将实时数据流分割为小批量(通常1-10秒)进行处理,因此选项A和B描述正确;选项D正确,因为SparkStreaming依赖SparkCore实现RDD(弹性分布式数据集)的构建与计算;而选项C错误,因为SparkStreaming并非纯流处理框架,而是“微批”处理,实时性弱于Flink等纯流处理框架(Flink是基于流的连续处理)。因此错误选项为C。38.Kafka在大数据架构中的主要作用是?

A.高吞吐量的分布式消息队列

B.关系型数据库管理系统

C.实时流计算引擎

D.分布式文件系统【答案】:A

解析:本题考察Kafka的定位。Kafka是高吞吐量的分布式消息队列,用于解耦生产者(如日志产生)和消费者(如数据处理系统),实现削峰填谷;B选项错误,Kafka不是数据库;C选项错误,实时流计算引擎是Flink、SparkStreaming等;D选项错误,分布式文件系统是HDFS。因此正确答案为A。39.下列关于ApacheSpark的描述,哪项是其核心优势?

A.必须依赖磁盘进行中间结果存储,保证可靠性

B.支持内存计算,中间结果无需频繁写入磁盘

C.仅适用于批处理任务,无法处理实时流数据

D.计算逻辑必须显式使用Map和Reduce两个步骤【答案】:B

解析:本题考察Spark分布式计算框架的核心特性。Spark的核心优势是基于内存计算,中间结果可缓存在内存中(或堆外内存),避免了MapReduce中频繁将中间结果写入磁盘的I/O开销,因此处理速度比MapReduce快数倍。A错误,Spark优先使用内存而非依赖磁盘;C错误,Spark同时支持批处理(RDD/SparkSQL)和流处理(StructuredStreaming);D错误,Spark的计算逻辑更简洁,无需显式调用Map/Reduce步骤,支持多种算子组合。40.Hadoop分布式文件系统(HDFS)的核心作用是?

A.提供分布式存储海量数据的能力

B.实现分布式实时流数据处理

C.负责集群资源的调度与管理

D.执行分布式数据挖掘算法【答案】:A

解析:HDFS是Hadoop生态系统的分布式文件系统,核心功能是通过多节点分布式存储实现海量数据的可靠存储与访问。B选项是SparkStreaming或Flink的流处理功能;C选项是YARN的资源调度职责;D选项属于机器学习或数据挖掘工具(如Mahout)的功能,均非HDFS核心作用。41.在MapReduce编程模型中,Map函数的主要作用是?

A.对输入数据进行分片和映射,生成中间键值对

B.对中间结果进行排序和合并(Shuffle阶段)

C.对最终结果进行聚合计算并输出

D.对数据进行压缩和解压以优化传输效率【答案】:A

解析:本题考察MapReduce核心流程知识点。Map函数负责将输入数据分解为键值对,通过映射规则(如过滤、转换)生成中间结果,是数据处理的源头环节。选项B是Shuffle阶段的核心功能(合并排序);选项C是Reduce函数的作用(聚合中间结果);选项D并非Map函数的职责,MapReduce的压缩主要在输入输出阶段配置,与Map函数无关。42.以下哪项属于数据治理中的“技术元数据”?

A.数据字典(描述业务术语)

B.数据存储路径(如HDFS路径)

C.数据业务逻辑(如交易金额计算规则)

D.数据更新频率(如每日凌晨执行ETL)【答案】:B

解析:本题考察数据治理中元数据的分类。技术元数据描述数据的**技术属性**,如存储位置、数据格式、ETL脚本等。选项B的“数据存储路径”属于技术元数据。选项A的“数据字典”属于业务元数据(描述业务含义);选项C的“数据业务逻辑”属于业务元数据;选项D的“数据更新频率”属于操作元数据(记录数据生命周期管理信息)。因此正确答案为B。43.在MapReduce计算模型中,哪个阶段负责将Map输出的中间结果进行数据传输、排序和合并,以便Reduce阶段高效处理?

A.Map阶段

B.Reduce阶段

C.Sort阶段

D.Shuffle阶段【答案】:D

解析:本题考察MapReduce的执行流程。Map阶段负责并行处理输入数据并输出中间键值对;Reduce阶段基于Shuffle结果进行汇总计算;Sort阶段是Shuffle的子过程,并非独立阶段。Shuffle阶段的核心功能是数据传输、排序、分组与合并,为Reduce阶段提供有序的中间结果。因此正确答案为D。44.MongoDB数据库属于以下哪种类型的数据库?

A.关系型数据库(如MySQL、Oracle)

B.列族型数据库(如HBase)

C.文档型数据库(如JSON格式存储)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察主流数据库类型分类,正确答案为C。MongoDB以类似JSON(BSON)的文档格式存储数据,支持灵活模式,适合非结构化/半结构化数据。错误选项分析:A选项关系型数据库以表结构和SQL查询为核心;B选项列族型数据库(如HBase)强调列级存储;D选项图数据库(如Neo4j)以节点和关系为核心,均与MongoDB模型不同。45.在Hadoop生态系统中,负责集群资源分配、节点管理和应用程序调度的组件是?

A.HDFS

B.MapReduce

C.YARN

D.HBase【答案】:C

解析:本题考察Hadoop生态系统中YARN的功能。YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器,负责节点资源监控、应用程序资源分配和任务调度;HDFS负责分布式存储;MapReduce是旧版计算框架;HBase是分布式NoSQL数据库。因此正确答案为C。46.Spark与MapReduce相比,其显著优势不包括以下哪项?

A.基于内存计算,处理速度更快

B.支持流处理、SQL等多种计算模型

C.仅支持批处理计算模式

D.提供更丰富的API(如RDD、DataFrame)【答案】:C

解析:本题考察Spark与MapReduce的核心差异。A选项正确,Spark基于内存计算,避免了MapReduce的磁盘IO开销,速度更快;B选项正确,Spark支持批处理(SparkCore)、流处理(SparkStreaming)、SQL(SparkSQL)等多种计算模式;C选项错误,Spark支持多种计算模型,而MapReduce主要局限于批处理,因此“仅支持批处理”是MapReduce的特点而非Spark的优势;D选项正确,Spark提供RDD、DataFrame、Dataset等丰富API,而MapReduce主要依赖Map和Reduce函数。因此正确答案为C。47.以下哪项属于OLAP(联机分析处理)的典型应用场景?

A.电商订单实时结算

B.企业财务报表自动生成

C.数据清洗与格式转换

D.客户行为实时追踪【答案】:B

解析:本题考察OLAP与OLTP的区别。OLAP核心是支持复杂多维分析(如财务报表、销售趋势分析),侧重决策支持。A和D属于OLTP(联机事务处理),强调实时事务处理(如订单支付、用户行为追踪);C属于ETL流程中的数据预处理环节。因此正确答案为B。48.以下哪种数据库类型最适合存储和处理社交网络中的用户关系数据(如好友列表、关注关系等)?

A.键值数据库

B.列族数据库

C.图数据库

D.文档数据库【答案】:C

解析:本题考察NoSQL数据库适用场景知识点。图数据库以“节点-边”的图结构存储数据,擅长处理实体间的复杂关系(如社交网络中的用户-好友关系)。键值数据库(如Redis)适合简单KV存储;列族数据库(如HBase)适合结构化数据(如日志、电商订单);文档数据库(如MongoDB)适合半结构化文档(如JSON数据),均不擅长关系型网状结构存储。49.ApacheFlink流处理框架支持的时间语义不包括以下哪一项?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.系统时间(SystemTime)【答案】:D

解析:本题考察Flink的时间语义特性。Flink支持事件时间(基于数据生成时间)、处理时间(基于数据到达时间)、摄入时间(基于Flink接收时间),D选项“系统时间”并非Flink定义的标准时间语义,属于干扰项。50.数据仓库(DataWarehouse)的核心特点是?

A.面向操作处理(OLTP)

B.数据随时间累积与变化(时变性)

C.支持实时事务处理

D.仅存储当前最新数据【答案】:B

解析:本题考察数据仓库的核心特性。数据仓库是用于决策支持的集成数据集合,其核心特点包括:面向主题、集成性、非易失性(数据不轻易修改)、时变性(历史数据随时间累积)。选项A错误,面向操作处理是联机事务处理(OLTP)的特点;选项C错误,数据仓库侧重历史数据分析,不支持实时事务;选项D错误,数据仓库存储历史数据而非仅当前数据。因此正确答案为B。51.大数据处理中,解决数据倾斜问题的常用优化手段是?

A.预聚合

B.分库分表

C.使用SparkSQL

D.增加计算节点【答案】:A

解析:本题考察数据倾斜的优化方法,正确答案为A。数据倾斜指某一key的数据量远大于其他key,预聚合可在数据处理前对高频key进行局部聚合,减少数据量;分库分表是分布式存储的扩容手段,SparkSQL不直接解决倾斜问题,增加节点仅能分摊压力,无法从根本上消除倾斜。52.以下哪项是数据仓库区别于传统关系型数据库的关键特征?

A.面向主题的设计

B.支持实时事务处理

C.仅存储结构化数据

D.具备行级并发控制【答案】:A

解析:本题考察数据仓库的核心特性,正确答案为A。数据仓库是面向分析主题(如销售、用户行为等)组织的数据集合,强调数据的集成性、一致性和历史回溯性,而传统数据库(如MySQL)主要面向事务处理(OLTP),以行级事务和实时响应为目标。B选项“实时事务处理”是OLTP数据库的典型特征;C选项“仅存储结构化数据”错误,数据仓库也可存储半结构化/非结构化数据;D选项“行级并发控制”是传统数据库保障事务一致性的机制,非数据仓库特征。53.以下哪种数据脱敏方法是在数据存储阶段对敏感数据进行处理,以保护数据安全?

A.静态脱敏

B.动态脱敏

C.实时脱敏

D.脱敏算法【答案】:A

解析:本题考察数据脱敏技术的分类。静态脱敏是在数据存储阶段(如ETL过程中)对敏感数据进行脱敏处理,生成脱敏后的数据存储,适用于离线分析场景(A正确);动态脱敏是在数据访问时实时处理(如查询过程中),适用于在线场景;C选项“实时脱敏”属于动态脱敏的一种细分,并非独立分类;D选项“脱敏算法”是脱敏的技术手段而非方法类型。因此正确答案为A。54.在数据挖掘中,K-Means算法属于以下哪种学习类型?

A.监督学习(SupervisedLearning)

B.无监督学习(UnsupervisedLearning)

C.半监督学习(Semi-SupervisedLearning)

D.强化学习(ReinforcementLearning)【答案】:B

解析:本题考察数据挖掘算法分类知识点。K-Means是典型的无监督聚类算法,核心是通过距离度量(如欧氏距离)将无标签数据自动划分成K个簇,无需人工标注样本标签。监督学习(A)需标签训练(如分类算法SVM);半监督学习(C)需少量标签+大量无标签数据,与K-Means无直接关联;强化学习(D)通过环境反馈优化策略,与聚类无关。故正确答案为B。55.MongoDB数据库按数据模型分类,属于以下哪种NoSQL类型?

A.键值型(Key-Value)

B.文档型(Document)

C.列族型(Column-Family)

D.图数据库(Graph)【答案】:B

解析:本题考察NoSQL数据库的分类及典型代表。MongoDB以BSON(BinaryJSON)格式存储半结构化文档数据,支持嵌套字段和灵活的模式设计,属于文档型数据库。A错误,键值型数据库(如Redis)仅存储简单键值对,无嵌套结构;C错误,列族型数据库(如HBase)按列族组织数据,适用于海量结构化数据(如时序数据);D错误,图数据库(如Neo4j)以节点和边存储关系数据,与MongoDB的文档模型无关。56.下列实时流处理框架中,以低延迟(毫秒级)和Exactly-Once语义为核心特性的是

A.SparkStreaming(微批处理框架)

B.ApacheFlink(流处理框架)

C.HadoopStreaming(管道式计算工具)

D.KafkaStreams(基于Kafka的实时处理)【答案】:B

解析:本题考察实时计算框架特性知识点。ApacheFlink是专为流处理设计的开源框架,核心特性包括低延迟(毫秒级响应)、高吞吐和Exactly-Once语义(确保数据处理准确性)。选项ASparkStreaming基于微批处理,存在秒级延迟且语义为At-Least-Once;选项CHadoopStreaming是MapReduce的扩展工具,主要用于批处理而非实时流处理;选项DKafkaStreams依赖Kafka作为数据源,虽支持流处理但延迟和语义特性弱于Flink。故正确答案为B。57.数据仓库中,ODS层的核心作用是?

A.存储原始业务数据

B.进行数据清洗与转换

C.构建用户画像与标签

D.提供业务分析报表数据【答案】:A

解析:本题考察数据仓库分层结构。ODS(OperationalDataStore)即操作数据存储层,主要作用是直接存储原始业务数据(未经过加工的),为后续清洗、转换提供基础;B选项描述的是DWD层(数据明细层)的功能,C是ADS层(应用服务层),D是业务报表数据。因此正确答案为A。58.以下哪项不属于数据治理中的“元数据”管理范畴?

A.技术元数据(如数据字段的数据类型、存储位置)

B.业务元数据(如数据项的业务含义、数据负责人)

C.操作元数据(如数据的访问频率、更新周期)

D.数据加密算法(如AES、RSA加密规则)【答案】:D

解析:本题考察数据治理中“元数据”的定义。元数据是“关于数据的数据”,包括技术元数据(描述数据的技术属性)、业务元数据(描述数据的业务含义)、操作元数据(描述数据的使用情况)。选项D的数据加密算法属于数据安全措施,是对数据内容的保护手段,并非对数据的描述性信息,因此不属于元数据管理。59.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题,集成历史数据

B.支持实时事务处理

C.仅存储原始未加工数据

D.实时更新业务操作数据【答案】:A

解析:本题考察数据仓库的核心定义。数据仓库是面向主题(如销售、财务)、集成多个数据源、非易失性(历史数据长期存储)、时变性(反映历史变化)的结构化数据集合;B选项错误,数据仓库通常采用批处理更新,而非实时事务处理;C选项错误,数据仓库存储的是经过清洗、整合后的结构化数据,而非原始数据;D选项错误,实时更新业务数据是OLTP(事务处理系统)的特点,数据仓库侧重历史分析。因此正确答案为A。60.以下哪项属于大数据实时数据采集工具?

A.Flume

B.Kafka

C.Hive

D.Sqoop【答案】:B

解析:本题考察大数据数据采集工具知识点。Kafka是分布式消息队列,专为实时数据流设计,支持高吞吐和低延迟的数据传输。A选项Flume侧重离线日志聚合;C选项Hive是数据仓库工具,用于批处理分析;D选项Sqoop是关系数据库与Hadoop间的批量数据导入工具。61.数据仓库中,存储与业务事件直接相关的可量化数据(如销售额、订单量)的表类型是?

A.维度表

B.事实表

C.宽表

D.星型表【答案】:B

解析:本题考察数据仓库表类型。事实表存储业务事件的度量值(如销售额、订单量),通常包含外键关联维度表。A选项维度表用于存储描述性数据(如客户、产品信息);C选项宽表是冗余存储结构,非标准表类型;D选项星型表是数据仓库模型结构(事实表关联维度表),非表类型。因此正确答案为B。62.Hadoop分布式文件系统(HDFS)中,默认的块大小是多少?

A.128MB

B.64MB

C.256MB

D.512MB【答案】:A

解析:本题考察HDFS核心参数知识点。HDFS默认块大小为128MB,这一设计主要为了平衡存储效率和读写性能(小文件过多会增加元数据管理开销,大文件会导致单次读写耗时过长)。选项B(64MB)是Hadoop早期版本的默认配置,选项C(256MB)和D(512MB)通常用于特定高性能存储场景或高容量集群优化配置,非默认值。63.以下哪项不属于YARN(YetAnotherResourceNegotiator)的核心组件?

A.ResourceManager

B.NodeManager

C.ApplicationMaster

D.NameNode【答案】:D

解析:本题考察YARN组件结构。YARN是Hadoop的资源管理系统,核心组件包括ResourceManager(全局资源管理)、NodeManager(节点资源管理)、ApplicationMaster(应用资源调度);而NameNode是HDFS的元数据管理组件,不属于YARN。因此正确答案为D。64.在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce

C.YARN(YetAnotherResourceNegotiator)

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS是Hadoop的分布式文件系统,通过多副本机制实现数据冗余存储,是大数据分布式存储的核心组件。B选项MapReduce是分布式计算框架,负责并行数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群状态管理。因此正确答案为A。65.Hadoop分布式文件系统(HDFS)的主要功能是?

A.提供分布式数据存储服务

B.负责并行计算任务的调度与资源管理

C.实现离线批处理计算逻辑

D.处理实时流数据的计算与分析【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,核心功能是分布式数据存储与管理;选项B是YARN(资源管理器)的职责;选项C是MapReduce(分布式计算框架)的用途;选项D是SparkStreaming或Flink等流处理框架的功能。因此正确答案为A。66.Spark相比MapReduce的显著优势是?

A.基于内存计算,处理速度更快

B.只能处理批处理任务

C.必须依赖HDFS存储数据

D.不支持实时流处理【答案】:A

解析:本题考察Spark与MapReduce核心差异。Spark的核心优势是内存计算,减少磁盘IO操作,处理速度远快于MapReduce(MapReduce需多次磁盘读写)。B选项错误,Spark同时支持批处理和流处理;C选项错误,Spark支持内存存储,无需强制依赖HDFS;D选项错误,SparkStreaming可实现实时流处理。67.在数据仓库的维度建模中,星型模型的核心特征是?

A.所有维度表通过中间表关联事实表

B.以事实表为中心,维度表直接关联事实表

C.维度表存在多层嵌套的层级结构

D.所有表均采用第三范式规范化设计【答案】:B

解析:本题考察数据仓库星型模型的概念。星型模型是维度建模的典型结构,以事实表为核心,周围直接连接多个维度表(如日期、产品、地区等),结构简单直观。选项A错误,星型模型维度表直接关联事实表,无需中间表;选项C描述的是雪花模型(维度表有层级结构),与星型模型无关;选项D错误,星型模型不严格遵循第三范式,更注重查询效率而非规范化。因此正确答案为B。68.大数据数据清洗中,处理数值型数据缺失值时最常用的方法是?

A.直接删除整行数据

B.使用均值/中位数填充

C.用众数填充

D.忽略缺失值不处理【答案】:B

解析:本题考察数据清洗技术。数值型数据缺失值常用均值、中位数或线性插值填充,以保留数据分布特征。选项A删除整行可能丢失大量信息;选项C众数用于类别型数据(如颜色、性别);选项D忽略会导致统计偏差,故正确答案为B。69.Hadoop分布式文件系统(HDFS)的默认块大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:HDFS作为Hadoop的核心组件,采用块(Block)机制优化数据存储与读取效率。在Hadoop2.x及后续版本中,HDFS的默认块大小为128MB(早期Hadoop1.x版本默认块大小为64MB)。选项A为早期版本的块大小,C、D均非HDFS标准默认值,因此正确答案为B。70.Kafka中,能够保证消息“至少一次”投递的语义是?

A.At-Most-Once(最多一次)

B.At-Least-Once(至少一次)

C.Exactly-Once(恰好一次)

D.Zero-Once(零次)【答案】:B

解析:本题考察Kafka消息投递语义知识点。Kafka中,At-Least-Once通过生产者重试+消费者确认机制实现(消费者可能重复接收消息),默认配置下可达到该语义。选项A(最多一次)是不等待确认的直接发送,可能丢失消息;选项C(恰好一次)需结合事务消息和幂等性消费,实现复杂;选项D非标准语义。71.数据仓库(DataWarehouse)的核心特性是?

A.面向应用场景

B.面向主题

C.数据可实时更新

D.数据存储格式固定为JSON【答案】:B

解析:本题考察数据仓库的定义特性。数据仓库的核心特性是`面向主题`(Subject-Oriented),用于支持企业决策分析(如销售分析、用户画像等)。选项A错误,数据仓库是`面向主题`而非`面向应用`(后者是操作型数据库特点);选项C错误,数据仓库数据通常是历史快照,非实时更新(实时更新属于数据湖或流处理范畴);选项D错误,数据仓库存储格式通常为列式存储(如Parquet、ORC),非固定JSON格式。72.在数据仓库技术中,用于支持多维数据分析、在线分析处理(OLAP)的核心技术是?

A.ETL(数据抽取、转换、加载)

B.OLAP(联机分析处理)

C.OLTP(联机事务处理)

D.HiveQL(Hive查询语言)【答案】:B

解析:本题考察数据仓库核心技术。OLAP(OnlineAnalyticalProcessing)即联机分析处理,通过多维模型(如星型模型、雪花模型)和多维度分析工具(如Cube立方体),支持复杂的聚合查询和趋势分析,是数据仓库的核心分析能力。A选项ETL是数据仓库数据加载的过程,非分析技术;C选项OLTP(OnlineTransactionProcessing)是面向事务处理的系统(如银行交易),强调实时性和事务一致性,与分析型的OLAP相反;D选项HiveQL是Hive的数据查询语言,用于Hadoop平台的SQL操作,属于数据仓库工具的一部分,而非技术本身。因此正确答案为B。73.Hadoop分布式文件系统(HDFS)的核心组件不包括以下哪一项?

A.NameNode

B.DataNode

C.ResourceManager

D.SecondaryNameNode【答案】:C

解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(元数据备份)。而ResourceManager是YARN(YetAnotherResourceNegotiator)的核心组件,负责资源调度和集群管理,不属于HDFS。74.以下关于数据仓库的描述,正确的是?

A.主要用于实时事务处理(OLTP)

B.面向分析型数据,支持决策支持

C.存储结构以行式表为主,强调低延迟

D.数据更新频繁且实时性强【答案】:B

解析:本题考察数据仓库的核心特点。数据仓库面向分析型数据,用于企业决策支持,具有集成性、非易失性(历史数据不频繁修改)、时变性(随时间累积历史数据);选项A错误(实时事务处理是OLTP系统);选项C错误(数据仓库以列存储为主,面向分析而非低延迟);选项D错误(数据仓库数据更新频率低,非实时)。75.以下关于Spark与MapReduce相比的优势描述,错误的是?

A.Spark支持内存计算,大幅提升处理速度

B.Spark仅支持批处理计算,不支持流处理

C.Spark提供更丰富的API(如SparkSQL、DataFrame)

D.Spark支持多种数据处理模式(批处理、流处理、交互式查询)【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的显著优势包括内存计算(A正确)、丰富的API支持(C正确)、多处理模式(D正确)。而B选项错误,因为Spark不仅支持批处理,还通过SparkStreaming、StructuredStreaming等模块支持实时流处理,MapReduce则仅专注于批处理。因此错误选项为B。76.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值型(Key-Value)

B.列族型(Column-Family)

C.文档型(Document)

D.图型(Graph)【答案】:C

解析:本题考察NoSQL数据库类型知识点。MongoDB以JSON格式存储数据,属于文档型数据库(DocumentDatabase),通过键值对组织文档结构。选项A(键值型)典型代表为Redis、RocksDB;选项B(列族型)典型代表为HBase、Cassandra;选项D(图型)典型代表为Neo4j,用于存储复杂关系网络。77.在数据仓库的维度建模中,以下哪种模型的事实表通常与多个维度表通过外键关联,且每个维度表结构相对简单,类似于星星的形状?

A.星型模型

B.雪花模型

C.星座模型

D.星环模型【答案】:A

解析:本题考察数据仓库维度建模的知识点。星型模型是维度建模的经典结构,其特点是事实表位于中心,与多个维度表直接关联,每个维度表结构简单(如只包含维度属性和主键),整体呈现类似“星星”的形状。雪花模型是星型模型的扩展,维度表可能进一步分解为子维度表(如将“地区”维度表拆分为“国家-省-市”多级结构),结构更复杂;星座模型是多个星型模型共享事实表的组合模型;数据仓库中无“星环模型”这一标准术语。因此正确答案为A。78.以下关于Spark和MapReduce的描述,正确的是?

A.Spark仅支持内存计算,无法进行磁盘操作

B.Spark的Shuffle过程比MapReduce更高效

C.MapReduce的迭代计算性能优于Spark

D.Spark的编程模型比MapReduce更复杂【答案】:B

解析:本题考察分布式计算框架对比知识点。选项A错误,Spark支持内存和磁盘混合计算;选项B正确,Spark通过优化Shuffle机制(如Sort-basedShuffle、Tungsten内存管理),减少磁盘I/O,比MapReduce的Shuffle更高效;选项C错误,Spark通过内存计算和DAG执行优化,迭代计算性能远超MapReduce;选项D错误,Spark提供更简洁的API(如DataFrame),编程模型比MapReduce更易用。79.适用于存储海量非结构化日志数据(如服务器访问日志)的数据库类型是?

A.键值型(如Redis)

B.列族型(如HBase)

C.文档型(如MongoDB)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察NoSQL数据库的适用场景。文档型数据库(如MongoDB)支持半结构化/非结构化数据存储,以JSON/BSON等文档格式灵活存储日志数据,适合存储结构多变的日志。键值型(如Redis)适合简单键值对;列族型(如HBase)适合结构化数据(如时序数据);图数据库(如Neo4j)适合实体关系建模(如社交网络)。因此正确答案为C。80.在Hadoop分布式文件系统(HDFS)中,数据块(Block)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。正确答案为C,HDFS为保证数据可靠性和容错能力,默认将每个数据块存储3个副本,防止单点故障导致数据丢失。错误选项解释:A选项1个副本无法容错,单点故障会直接丢失数据;B选项2个副本容错能力不足,仅能应对1个节点故障;D选项4个副本超出HDFS默认配置标准,属于冗余配置。81.大数据的5V特征中,不包括以下哪项?

A.Viscosity(粘度)

B.Volume(容量)

C.Velocity(速度)

D.Variety(多样性)【答案】:A

解析:本题考察大数据5V特征知识点。大数据的5V特征标准定义为:Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。选项A“Viscosity(粘度)”并非大数据特征,属于干扰项。82.关于数据仓库(DW)和数据湖(DataLake)的描述,以下正确的是?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析决策,数据湖面向原始数据存储

C.数据仓库支持实时分析,数据湖仅支持批处理分析

D.数据仓库无需ETL,数据湖需复杂ETL【答案】:B

解析:本题考察数据仓库与数据湖的核心差异。数据仓库(DW)通过ETL整合结构化数据,面向业务分析决策;数据湖(DataLake)直接存储原始数据(结构化/非结构化/半结构化),保留数据原始性,支持灵活查询。选项A错误,数据湖也可存储结构化数据;选项C错误,两者均可通过工具扩展支持实时分析;选项D错误,数据仓库需ETL,数据湖通常采用ELT(提取-加载-转换)模式。因此正确答案为B。83.在数据治理中,用于记录数据从产生到消费全生命周期流转路径的元数据属于?

A.技术元数据(描述数据存储位置、格式等)

B.业务元数据(描述数据业务含义、术语等)

C.操作元数据(描述数据访问频率、更新规则等)

D.血缘元数据(数据血缘关系元数据)【答案】:D

解析:数据血缘元数据专门记录数据的来源、转换、加工和使用过程,即全生命周期流转路径;A技术元数据侧重存储技术细节;B业务元数据侧重业务上下文;C操作元数据侧重数据使用和质量规则;因此D为正确答案。84.适用于存储用户社交关系网络(如好友列表、关注关系)的数据库类型是?

A.键值型数据库(如Redis)

B.文档型数据库(如MongoDB)

C.列族型数据库(如HBase)

D.图数据库(如Neo4j)【答案】:D

解析:本题考察NoSQL数据库类型的适用场景。选项A键值型数据库适合简单KV映射(如缓存、会话存储);选项B文档型数据库适合存储嵌套结构数据(如JSON文档);选项C列族型数据库适合海量结构化数据(如时序数据、日志);选项D图数据库(D)通过节点和边的关系模型,天然适合存储社交关系网络、知识图谱等复杂关联数据,因此正确。85.SparkStreaming的核心执行引擎是?

A.DStream

B.ResilientDistributedDataset(RDD)

C.FlinkJobManager

D.KafkaStreams【答案】:B

解析:本题考察SparkStreaming的底层架构。SparkStreaming基于RDD模型,将流数据按微批处理,每个微批对应一个RDD。选项ADStream是SparkStreaming中对流数据的抽象,基于RDD实现;选项CFlinkJobManager是Flink的核心组件,与Spark无关;选项DKafkaStreams是独立流处理框架,非SparkStreaming的执行引擎。86.MapReduce框架的核心数据处理模型是什么?

A.仅支持文本格式

B.仅支持二进制格式

C.键值对(Key-Value)

D.列表结构【答案】:C

解析:本题考察MapReduce的工作原理。MapReduce的核心是将任务分解为Map(映射)和Reduce(归约)两个阶段,所有输入输出均以键值对(Key-Value)形式处理。选项A、B错误,因为MapReduce支持多种数据格式(如SequenceFile、Avro等),并非仅支持文本或二进制;选项D错误,列表结构无法满足MapReduce的并行计算模型需求。因此正确答案为C。87.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向业务分析,数据湖面向原始数据存储

C.数据仓库的数据需ETL后才能使用,数据湖的数据无需处理即可分析

D.数据仓库支持实时查询,数据湖仅支持批处理查询【答案】:B

解析:数据仓库通过ETL整合结构化数据,面向分析决策;数据湖存储原始多模态数据(结构化/非结构化),保留数据原貌。A选项错误,数据湖也可存储结构化数据;C选项错误,数据湖数据同样需清洗处理;D选项错误,两者均可支持实时/批处理,取决于工具选型。88.以下关于Spark与传统MapReduce相比的优势描述,**错误**的是?

A.采用内存计算,避免大量磁盘I/O操作

B.基于DAG执行引擎,支持更细粒度的任务调度

C.Shuffle过程优化,减少磁盘读写次数

D.仅支持批处理任务,不支持实时流处理场景【答案】:D

解析:本题考察Spark核心特性。Spark的内存计算(A正确)、DAG执行引擎(B正确)、Shuffle优化(C正确)均为其相比MapReduce的关键优势。而选项D错误,SparkStreaming(基于DStream)支持实时流处理,且SparkStructuredStreaming可处理高吞吐的流数据,而MapReduce仅擅长批处理。89.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,具有高容错性和高吞吐量。MapReduce(B选项)是分布式计算框架,YARN(C选项)是资源管理器,Hive(D选项)是基于Hadoop的数据仓库工具,均不负责分布式文件存储。因此正确答案为A。90.以下哪种工具是基于Hadoop构建的,用于支持复杂的多维分析和OLAP操作?

A.Hive

B.HBase

C.Kafka

D.HDFS【答案】:A

解析:本题考察数据仓库工具知识点。Hive是基于Hadoop的数据仓库工具,提供类SQL的HQL语法,支持复杂的多维分析和OLAP操作;HBase是列族式NoSQL数据库,用于随机读写高并发场景;Kafka是分布式消息队列,用于数据传输;HDFS是分布式文件系统,仅负责数据存储。因此正确答案为A。91.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统中负责分布式存储的核心组件,通过多副本机制实现数据可靠性和高容错性。B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是基于Hadoop的数据仓库工具,均不负责存储,因此正确答案为A。92.在大数据处理中,以下哪项属于数据质量方面的典型挑战?

A.数据采集速度过慢

B.数据存储成本过高

C.数据存在重复或缺失

D.数据处理框架选择困难【答案】:C

解析:数据质量问题包括数据重复、缺失、格式不一致等,是大数据处理中需优先解决的问题。A选项属于数据采集效率挑战,B属于存储资源挑战,D属于技术选型挑战,均不属于数据质量范畴。93.在ApacheFlink中,“Exactly-Once”语义的主要作用是?

A.确保数据处理的低延迟,亚秒级响应

B.保证流数据处理中每条记录被精确处理且不多次处理

C.支持动态调整并行度以优化资源利用

D.允许在处理过程中实时更新数据字典【答案】:B

解析:本题考察流处理框架的核心语义。“Exactly-Once”是流处理中的关键特性,确保数据在故障恢复后既不丢失也不重复,每条记录仅被处理一次。选项A描述的是Flink的低延迟窗口特性(如毫秒级处理),与Exactly-Once无关;选项C是Flink的动态资源调度能力;选项D属于元数据更新,与数据处理语义无关。94.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。95.关于Spark和Flink的技术特点,以下描述错误的是?

A.Spark是内存计算框架,支持批处理和流处理

B.Flink擅长低延迟、高吞吐的实时流处理

C.SparkStreaming采用微批处理模型,延迟较高

D.Flink仅支持流处理,无法处理批处理任务【答案】:D

解析:本题考察流处理与批处理框架的技术差异。选项A正确,Spark通过内存计算和DStream支持批处理(SparkSQL)和流处理(StructuredStreaming);选项B正确,Flink是流处理框架,以事件时间窗口和状态管理实现低延迟实时计算;选项C正确,SparkStreaming基于微批处理,典型延迟在秒级;选项D错误,Flink通过DataStreamAPI可同时支持流处理和批处理(将批处理视为有限流)。96.Spark相比MapReduce,在计算性能上的主要优势是?

A.内存计算

B.批处理能力

C.实时流处理

D.数据存储优化【答案】:A

解析:本题考察Spark与MapReduce的技术差异,正确答案为A。Spark的核心设计是基于内存计算,避免了MapReduce中频繁的磁盘IO操作,尤其在迭代计算场景下性能提升显著;MapReduce也支持批处理(但依赖磁盘),SparkStreaming虽支持实时处理但核心优势非实时,数据存储优化不属于计算框架的核心优势。97.以下哪项不属于大数据的5V特征?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)【答案】:D

解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)和Value(价值)。选项D的Validity(有效性)不属于5V特征,因此正确答案为D。98.Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS的基础架构知识点。HDFS将文件分割为固定大小的块(Block),默认块大小为128MB。选择该大小的核心原因是:机械硬盘的寻址时间(约10ms)占比较大,128MB的块能有效降低寻址时间在整体IO操作中的占比(提升IO效率),同时避免过小的块导致过多的块管理开销。早期HDFS版本(如0.20.x)块大小为64MB,256MB/512MB因块过大可能增加随机寻址时间占比,降低性能。因此A、C、D错误。99.Spark相比MapReduce的主要性能优势体现在?

A.采用内存计算,减少磁盘IO开销

B.仅支持批处理任务,不支持流处理

C.依赖HDFS存储所有中间结果

D.无法处理非结构化数据【答案】:A

解析:本题考察Spark与MapReduce的技术对比知识点。Spark的核心优势是基于内存计算(In-MemoryComputing),可将中间结果暂存于内存而非频繁读写磁盘,大幅降低IO延迟。选项B错误,SparkStreaming支持实时流处理;选项C错误,Spark可通过内存缓存或外部存储(如Redis)存储中间结果,并非必须依赖HDFS;选项D错误,Spark支持JSON、XML等非结构化数据处理。100.在Kafka消息队列中,当一个消费者组内的消费者数量超过分区数量时,会出现什么情况?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论