2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解2套试卷_第1页
2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解2套试卷_第2页
2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解2套试卷_第3页
2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解2套试卷_第4页
2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解2套试卷_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解(第1套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、在Hadoop生态系统中,负责管理分布式文件系统元数据的组件是?A.DataNodeB.NameNodeC.ResourceManagerD.NodeManager2、Spark中,以下哪种操作属于窄依赖?A.groupByKeyB.reduceByKeyC.mapD.join3、数据仓库中,维度建模的核心作用是?A.优化事务处理B.支持复杂查询C.提高数据更新效率D.简化ETL流程4、Hive中,分区字段需满足的条件是?A.必须为表的第一个字段B.必须为int类型C.必须在CREATETABLE语句中声明D.必须与数据文件字段对应5、Flink实现低延迟实时计算的关键机制是?A.批处理模式B.状态管理C.流批一体D.事件时间处理6、以下哪种NoSQL数据库适合存储社交网络的复杂关系数据?A.HBaseB.MongoDBC.RedisD.Neo4j7、Kafka消费者组中,分区分配的基本原则是?A.一个分区可被多个消费者订阅B.一个消费者可消费多个分区C.分区数必须大于消费者数D.消费者数必须小于副本数8、数据可视化中,桑基图(SankeyDiagram)最适合展示?A.趋势变化B.比例分布C.流量流向D.相关性9、在数据湖架构中,元数据中心的核心作用是?A.存储原始数据B.管理数据权限C.记录数据血缘D.执行数据清洗10、ClickHouse中,适合实时更新场景的表引擎是?A.MergeTreeB.ReplacingMergeTreeC.MemoryD.Log11、在Hadoop生态系统中,负责管理分布式文件系统元数据的核心组件是:A.DataNodeB.NameNodeC.ResourceManagerD.NodeManager12、若需在Flink中实现低延迟的流式数据处理,应选择:A.批处理模式B.微批处理模式C.事件时间模式D.处理时间模式13、HDFS中默认的数据块大小为?A.64MBB.128MBC.256MBD.512MB14、在HDFS中,负责管理文件系统命名空间和客户端访问的组件是?

A.NameNode

B.DataNode

C.JobTracker

D.HMaster15、关于MapReduce的Shuffle阶段,以下描述正确的是?

A.Map输出的中间结果直接写入磁盘

B.Reduce端通过拉取方式获取Map结果

C.Shuffle阶段包含排序和分组操作

D.Shuffle过程完全由Map端完成16、Spark中RDD的持久化级别MEMORY_AND_DISK表示?

A.数据优先存储在内存,内存不足时溢写到磁盘

B.数据同时存储在内存和磁盘

C.数据仅存储在内存,超出部分丢弃

D.数据默认存储在磁盘17、在分布式系统中,以下哪项技术用于解决数据一致性问题?

A.Paxos

B.Raft

C.Gossip

D.三者均是18、关于Kafka的分区(Partition)特性,以下说法正确的是?

A.同一主题的分区数量不可修改

B.分区内的消息严格有序

C.消费者组内消费者数量可超过分区数

D.每个分区只能被一个消费者组订阅19、HBase中RowKey设计的核心原则是?

A.长度越短越好

B.避免时间戳前缀导致热点

C.必须包含主键和复合键

D.确保数据均匀分布20、以下哪种技术适合实时流数据处理?

A.Flume

B.Sqoop

C.Flink

D.Hive21、数据仓库建模时,ODS层的核心作用是?

A.存储原子事实表

B.存储清洗后的明细数据

C.提供原始数据快照

D.支持即席查询22、在Hive中,分区字段的值来源于?

A.表的普通列

B.文件存储目录名

C.文件名

D.文件行内容23、关于SparkSQL和Hive的对比,以下正确的是?

A.SparkSQL依赖Hive元数据存储

B.SparkSQL支持ANSISQL标准

C.Hive支持交互式实时查询

D.SparkSQL的执行效率低于Hive24、HDFS中文件块的默认大小为?

A.64MB

B.128MB

C.256MB

D.512MB25、SparkRDD的转换操作是?

A.count()

B.take()

C.map()

D.foreach()26、Hive中实现左外连接的语法关键字是?

A.LEFTJOIN

B.LEFTOUTERJOIN

C.RIGHTJOIN

D.FULLOUTERJOIN27、HBase表设计时,行键设计原则不包括?

A.散列分布

B.高基数唯一性

C.长度越短越好

D.包含时间戳信息28、Flink的检查点机制(Checkpoint)主要用于?

A.数据缓存优化

B.状态一致性保障

C.动态资源分配

D.任务调度优先级29、Linux系统中查看CPU使用率的命令是?

A.top

B.df-h

C.iostat

D.netstat-an30、Java中String类的特性描述错误的是?

A.不可变性

B.线程不安全

C.常量池优化

D.支持正则表达式二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、关于Hadoop生态系统组件的功能,以下说法正确的是?A.HDFS负责分布式存储B.YARN负责资源调度C.MapReduce用于分布式计算D.Hive支持实时查询32、Spark与MapReduce的主要区别在于?A.内存计算提升效率B.DAG执行引擎优化任务流C.支持流式计算D.基于HDFS存储33、数据仓库设计中,以下符合范式要求的描述是?A.强调数据冗余以提升查询效率B.第三范式要求消除传递依赖C.维度建模包含事实表和维度表D.常用于实时事务处理34、实时数据处理框架的适用场景包括?A.股票交易异常检测B.日志聚合分析C.离线报表生成D.物联网传感器数据监控35、关于HBase数据库的特性,以下说法正确的是?A.列式存储结构B.支持强一致性读写C.基于分布式文件系统D.适用于复杂关联查询36、数据湖与传统数据仓库的区别体现在?A.数据结构化程度B.支持的数据类型多样性C.数据存储成本D.访问延迟要求37、ETL过程中,数据清洗的主要目标包括?A.去除噪声数据B.处理缺失值C.转换数据格式D.实现数据分片38、Kafka消息队列的特性包含?A.持久化存储消息B.支持消息回溯C.单副本保证高可用D.分区实现并行处理39、以下技术中可用于大数据可视化的是?A.ApacheSupersetB.TableauC.ElasticsearchD.Grafana40、大数据平台安全设计需考虑?A.数据传输加密B.基于角色的访问控制C.数据脱敏技术D.取消日志审计41、以下关于HDFS的描述正确的是?A.HDFS默认块大小为64MB;B.NameNode负责存储元数据;C.DataNode通过心跳机制与NameNode通信;D.HDFS适合存储大量小文件42、MapReduce框架的优化方向包括?A.使用Combiner减少网络传输;B.增加MapTask数量;C.启用推测执行机制;D.合并Mapper和Reducer逻辑43、以下属于Spark中RDD持久化级别的有?A.MEMORY_ONLY;B.DISK_ONLY;C.MEMORY_AND_DISK;D.OFF_HEAP44、数据仓库与数据库的主要区别体现在?A.数据更新频率;B.查询复杂度;C.数据冗余度;D.OLTP支持能力45、数据清洗阶段可能执行的操作是?A.删除缺失值;B.异常值检测;C.标准化字段;D.聚合计算指标三、判断题判断下列说法是否正确(共10题)46、Hadoop生态系统的核心组件包含HDFS和MapReduce。(正确/错误)47、数据仓库(DataWarehouse)主要用于实时交互式查询分析。(正确/错误)48、Spark流处理(Streaming)属于纯实时计算框架,可实现毫秒级延迟。(正确/错误)49、在Hive中,分区字段不能包含动态生成的列值。(正确/错误)50、数据倾斜问题可通过增加Reducer数量彻底解决。(正确/错误)51、Kafka的Topic分区数可动态调整,不影响消费者组状态。(正确/错误)52、HBase适合存储结构化数据,且支持SQL查询。(正确/错误)53、Lambda架构同时包含批处理层与速度层,保证数据最终一致性。(正确/错误)54、数据清洗环节仅需处理缺失值,无需关注重复值。(正确/错误)55、Flink的State机制支持Exactly-Once语义,无需依赖外部系统。(正确/错误)

参考答案及解析1.【参考答案】B【解析】NameNode存储文件系统的元数据,包括文件目录结构、块信息等,是HDFS的核心管理节点。DataNode负责实际存储数据块,ResourceManager和NodeManager是YARN架构的组件,负责资源调度。2.【参考答案】C【解析】窄依赖指父RDD的每个分区最多被子RDD的一个分区引用。map操作仅对单个元素处理,不涉及数据混洗,属于窄依赖。groupByKey、reduceByKey、join均需跨分区聚合,属于宽依赖。3.【参考答案】B【解析】维度建模通过事实表与维度表的星型结构,便于多维分析查询(如OLAP),符合分析场景需求。事务处理依赖关系型数据库设计,宽表模型可能简化ETL但牺牲更新效率。4.【参考答案】C【解析】Hive分区字段需在建表时通过PARTITIONEDBY声明,与字段位置、类型无关。分区值通过目录路径隐式存储,无需与数据文件字段重复对应。5.【参考答案】C【解析】Flink采用流批一体架构,将批处理视为流处理的特例,无需切换引擎即可实现毫秒级结果输出。状态管理和事件时间处理是流处理通用特性,批处理模式本身不降低延迟。6.【参考答案】D【解析】Neo4j是图数据库,通过节点和关系边高效处理多层关联查询。HBase适合宽表存储,MongoDB支持文档模型,Redis为内存键值数据库,均不擅长复杂关系遍历。7.【参考答案】B【解析】Kafka保证同一消费者组内每个分区仅被一个消费者消费,但单消费者可消费多个分区。消费者数超过分区数时,多余消费者将闲置;副本机制用于容错,与消费逻辑无关。8.【参考答案】C【解析】桑基图通过流线宽度直观表现能量、资金等流动量的分布与转移路径。趋势变化常用折线图,比例分布用饼图,相关性用散点图或热力图。9.【参考答案】C【解析】元数据中心存储数据的描述信息(如Schema、来源、转换路径),用于追踪数据血缘关系,支持数据治理。原始数据存储依赖对象存储服务,清洗通过计算引擎实现,权限管理由独立服务负责。10.【参考答案】B【解析】ReplacingMergeTree通过版本字段自动合并重复数据,支持实时更新。MergeTree仅追加写入,Memory将数据存储在内存,Log适用于小数据集的快速测试,均不支持高效更新。11.【参考答案】B【解析】NameNode存储HDFS的元数据(如文件目录树、数据块位置等),而DataNode负责存储真实数据块。ResourceManager属于YARN框架,负责资源调度。

2.【题干】Spark任务执行时,负责将用户程序转换为DAG(有向无环图)的组件是:

【选项】A.ExecutorB.DriverC.ClusterManagerD.Worker

【参考答案】B

【解析】Driver进程包含DAGScheduler,负责将RDD操作转换为Stage划分和任务调度。Executor负责执行具体任务,Worker管理节点资源。

3.【题干】数据仓库中,ODS层的核心作用是:

【选项】A.存储原子粒度明细数据B.存储清洗后的历史数据C.提供实时查询接口D.实现数据权限控制

【参考答案】A

【解析】ODS(操作数据存储)层保留最细粒度的原始数据,通常直接对接业务数据库,而DWD/DWS层负责数据清洗和聚合。

4.【题干】MapReduce计算模型中,Shuffle阶段的主要作用是:

【选项】A.合并本地小文件B.对Map输出进行排序和分区C.加载数据到内存缓存D.启动Reducer线程

【参考答案】B

【解析】Shuffle过程包括Map端的分区、排序、合并,以及Reducer端的拉取和归并,确保数据按Key分组传递给Reducer。

5.【题干】HBase中,RegionServer的主要职责是:

【选项】A.管理元数据表B.存储实际数据和处理读写请求C.协调分布式锁D.监控集群健康状态

【参考答案】B

【解析】RegionServer负责管理Region(数据分片),处理客户端读写请求;HMaster管理元数据和Region分配。12.【参考答案】D【解析】处理时间模式基于系统时间触发计算,延迟最低,但可能因事件乱序导致结果不一致。事件时间模式需等待数据全部到达,延迟较高。

7.【题干】数据挖掘中,K-Means算法属于:

【选项】A.关联规则学习B.分类算法C.聚类算法D.强化学习

【参考答案】C

【解析】K-Means通过迭代将数据划分为K个簇,属于无监督聚类算法;分类算法需预先标注数据标签。

8.【题干】在Linux系统中,查看文件最后100行内容的命令是:

【选项】A.head-n100B.tail-n100C.cat-n100D.grep-n100

【参考答案】B

【解析】tail命令默认显示文件末尾10行,-n参数可指定行数;head用于查看文件头部。

9.【题干】SQL查询中,GROUPBY子句的作用是:

【选项】A.排序结果集B.过滤数据C.分组聚合计算D.去除重复行

【参考答案】C

【解析】GROUPBY常与COUNT/SUM等聚合函数配合,按指定列分组统计;DISTINCT用于去重。

10.【题干】ZooKeeper的核心特性中,保证客户端操作顺序一致性的原理是:

【选项】A.顺序一致性B.全局有序性C.会话一致性D.原子广播

【参考答案】B

【解析】ZooKeeper通过ZAB协议实现全局写操作有序,所有事务请求经Leader节点协调,保证所有节点执行顺序一致。13.【参考答案】B【解析】HDFS默认块大小为128MB(Hadoop2.x版本),该设计平衡了寻道时间和传输时间,选项B正确。早期版本为64MB,但新版本已调整,需注意版本差异。

2.【题干】Spark中执行DAG切分的依据是?

【选项】A.宽窄依赖B.算子类型C.任务优先级D.资源分配

【参考答案】A

【解析】Spark通过检测RDD间的宽窄依赖关系切分DAG为Stage,窄依赖不触发切分,宽依赖(如shuffle)触发Stage划分,选项A正确。

3.【题干】MapReduce任务中,Reduce阶段的数目由什么决定?

【选项】A.输入分片数B.用户自定义C.默认为1D.集群节点数

【参考答案】B

【解析】Map阶段数目由输入分片决定,而Reduce数目需用户显式设置,默认值可能为1,但实际可通过setNumReduceTasks()配置,选项B正确。

4.【题干】以下属于HBase数据模型核心概念的是?

【选项】A.RegionB.PartitionC.SegmentD.Tablet

【参考答案】A

【解析】HBase表按行键范围划分为Region,是数据分发和负载均衡的基本单元;Partition为Kafka概念,Segment为Kafka日志文件分段,Tablet为Bigtable术语,选项A正确。

5.【题干】Kafka的消息持久化策略是?

【选项】A.内存缓存B.仅保留最新数据C.日志文件持久化D.Redis存储

【参考答案】C

【解析】Kafka使用基于磁盘的日志文件持久化消息,默认保留周期内所有数据,支持按时间/大小清理策略,选项C正确。内存存储需配合其他组件实现。

6.【题干】ZooKeeper的核心服务特性不包括?

【选项】A.顺序一致性B.原子性C.单一视图D.最终一致性

【参考答案】D

【解析】ZooKeeper保证强一致性(FLE算法),具有顺序一致性、原子性、单一视图特性,最终一致性为分布式系统弱一致性模型,与ZK不符,选项D正确。

7.【题干】Flink实现状态一致性保障的机制是?

【选项】A.微批处理B.检查点C.幂等写入D.事务日志

【参考答案】B

【解析】Flink通过分布式快照(检查点)实现端到端精确一次语义,结合Chandy-Lamport算法确保状态一致性,选项B正确。Spark通过RDD血缘关系实现容错。

8.【题干】Hive中执行MapJoin的触发条件是?

【选项】A.表为分区表B.小表自动触发C.使用hint语法D.静态配置开启

【参考答案】C

【解析】MapJoin需通过/*+MAPJOIN(table)*/语法显式触发,或通过参数hive.auto.convert.join自动转换,当小表内存足够时生效,选项C正确。

9.【题干】ClickHouse的MergeTree引擎特点不包括?

【选项】A.主键索引B.数据压缩C.并发写入D.分区合并

【参考答案】C

【解析】MergeTree支持分区、主键索引、数据压缩及后台合并,但写入时使用锁机制避免并发冲突,不支持高并发写入场景,选项C正确。

10.【题干】SparkSQL中DataFrame与RDD的根本区别是?

【选项】A.是否支持结构化数据B.是否运行在JVM上C.是否可序列化D.是否支持分布式计算

【参考答案】A

【解析】DataFrame基于Catalyst优化器,提供结构化数据处理接口,包含schema信息;RDD为泛型的分布式集合,无结构化语义,选项A正确。14.【参考答案】A【解析】NameNode是HDFS的核心组件,负责存储文件系统的元数据(如文件目录结构、权限、块信息等),并管理客户端对文件的访问请求。DataNode负责存储实际数据块,JobTracker是MapReduce的作业调度组件,HMaster是HBase的管理组件。15.【参考答案】C【解析】Shuffle阶段是MapReduce的数据传输核心,包含Map端的分区、排序、合并,以及Reduce端的拉取和归并。其中排序和分组在Map端完成,Reduce端通过HTTP服务拉取对应分区的数据。选项C正确,其余描述均不完整或错误。16.【参考答案】A【解析】MEMORY_AND_DISK是Spark的持久化策略之一,表示RDD分区优先存储在内存中,当内存不足时自动溢写到磁盘。其他常见级别如MEMORY_ONLY(纯内存)、DISK_ONLY(纯磁盘)。17.【参考答案】D【解析】Paxos和Raft是主流共识算法,用于保证分布式系统中节点间日志的一致性;Gossip协议通过节点间随机通信传播状态变更,间接提升一致性。三者均涉及一致性解决方案,因此选D。18.【参考答案】B【解析】Kafka的每个分区内部消息是严格有序的,但跨分区无序。分区数量创建后不可修改(A错误),消费者组内消费者数不能超过分区数(C错误),同一主题可被多个消费者组订阅(D错误)。19.【参考答案】D【解析】RowKey设计需遵循均匀分布和避免热点原则,比如通过加盐、哈希等方式打散时间戳或单调递增的键。长度短和包含主键是次要优化点,核心是分散数据到各RegionServer。20.【参考答案】C【解析】Flink是原生支持实时流处理的引擎,具备低延迟、高吞吐特性;Flume用于日志采集,Sqoop负责数据迁移,Hive基于HDFS的批处理。21.【参考答案】C【解析】ODS层(操作数据存储层)保留源系统的原始数据快照,用于后续ETL处理。明细层(DWD)负责数据清洗和标准化,汇总层(DWS)支持查询。22.【参考答案】B【解析】Hive的分区字段值由HDFS存储路径中的目录名决定,例如分区字段dt的值为路径/dt=2023-01-01中的2023-01-01。分区字段本身不存储在数据文件中。23.【参考答案】B【解析】SparkSQL兼容HiveQL语法,但支持更完整的ANSISQL标准;其元数据可通过HiveMetastore管理,但非强制依赖;Hive依赖MapReduce执行效率低,SparkSQL基于内存计算更快。交互式查询需SparkThriftServer或HiveLLAP支持。24.【参考答案】B【解析】Hadoop2.x版本默认HDFS块大小为128MB,相较于早期版本的64MB,更大块提升大数据集处理效率,但过大的块会增加寻址开销,需平衡存储与计算性能。25.【参考答案】C【解析】转换操作(如map、filter)生成新的RDD,惰性执行;而count、take、foreach属于行动操作,会触发实际计算。这是Spark核心编程模型的关键区别点。26.【参考答案】B【解析】Hive的QL语法要求外连接必须显式使用OUTER关键字,LEFTJOIN仅保留内连接部分,LEFTOUTERJOIN才能保留左表全量数据,区别于MySQL等数据库的写法。27.【参考答案】D【解析】行键设计需避免时序集中导致热点问题(应采用散列或反转时间戳),高基数保证唯一性,短长度优化存储,而显式包含时间戳可能破坏散列分布,属于反模式。28.【参考答案】B【解析】Checkpiont通过周期性快照保存状态信息,确保在任务失败时能从最近快照恢复,实现Exactly-Once语义,是流处理状态容错的核心机制,与调度、缓存无关。29.【参考答案】A【解析】top命令实时显示包括CPU、内存、进程在内的系统资源使用概况;df用于磁盘,iostat监控IO,netstat查看网络连接,均为基础运维命令。30.【参考答案】B【解析】String不可变且线程安全,其常量池减少重复对象,split/replace等方法支持正则,而StringBuffer才是线程安全的可变字符串类,选项B错误。31.【参考答案】ABC【解析】HDFS提供分布式文件存储(A正确),YARN管理集群资源(B正确),MapReduce是批处理框架(C正确)。Hive基于HDFS提供类SQL查询,但本质是MapReduce任务,延迟较高(D错误)。32.【参考答案】ABCD【解析】Spark通过内存计算加速数据处理(A正确),DAG引擎减少中间结果写磁盘(B正确),SparkStreaming支持流式计算(C正确),其底层仍依赖HDFS存储(D正确)。33.【参考答案】BC【解析】数据仓库设计通常采用维度建模(C正确),第三范式需满足非主属性完全依赖主键且无传递依赖(B正确)。范式化设计减少冗余(A错误),数据仓库主要用于分析而非事务处理(D错误)。34.【参考答案】ABD【解析】股票交易、物联网监控需要低延迟处理(ABD正确),离线报表属于批处理场景(C错误)。Kafka+SparkStreaming或Flink是常见实时处理技术栈。35.【参考答案】AC【解析】HBase按列存储(A正确),基于HDFS(C正确),支持最终一致性(B错误),其设计适用于海量数据单表查询而非复杂关联(D错误)。36.【参考答案】ABD【解析】数据湖存储原始格式数据(结构化程度低,AB正确),两者存储成本均较低(C错误),数据湖查询延迟通常更高(D正确)。数据仓库侧重结构化数据的高效分析。37.【参考答案】ABC【解析】清洗步骤需处理无效/缺失数据并统一格式(ABC正确)。数据分片属于存储优化策略(D错误),通常在加载阶段完成。38.【参考答案】ABD【解析】Kafka将消息持久化到磁盘(A正确),通过偏移量实现回溯(B正确),多分区支持水平扩展(D正确)。高可用依赖多副本机制(C错误)。39.【参考答案】ABD【解析】Superset、Tableau、Grafana均是专业可视化工具(ABD正确)。Elasticsearch主要用于日志搜索与分析(C错误)。40.【参考答案】ABC【解析】传输加密保护数据安全(A正确),RBAC实现权限管理(B正确),脱敏处理敏感信息(C正确)。日志审计是安全合规必要措施(D错误)。41.【参考答案】ABC【解析】HDFS块默认128MB(旧版本64MB),但选项A未标注版本按通用描述保留;NameNode存储元数据,DataNode定期发送心跳包,HDFS不适合处理小文件因元数据压力过大。42.【参考答案】ABC【解析】Combiner在Map端聚合数据,减少Shuffle阶段数据量;增加MapTask可提升并行度但不宜过多;推测执行处理慢节点;D项合并逻辑会破坏框架分治原则。43.【参考答案】ABCD【解析】Spark提供多种存储级别,包括仅内存、仅磁盘、混合存储及堆外内存(OFF_HEAP需Tachyon支持)。44.【参考答案】ABCD【解析】数据库支持高频事务更新、低冗余、简单查询和OLTP;数据仓库面向分析,低更新、高冗余、复杂查询且侧重OLAP。45.【参考答案】ABC【解析】清洗聚焦数据质量处理,如缺失值处理、异常检测、格式标准化;D项属于计算层而非清洗步骤。46.【参考答案】正确【解析】Hadoop1.0的核心由HDFS(分布式文件系统)和MapReduce(分布式计算框架)组成,负责存储与处理大规模数据,后续版本虽扩展了YARN等组件,但HDFS和MapReduce始终是基础架构核心。47.【参考答案】错误【解析】数据仓库的核心目标是支持决策分析(OLAP),通常处理复杂查询与批量计算,而实时交互式查询更依赖数据库(OLTP)或新型分析型数据库,二者定位不同。48.【参考答案】错误【解析】SparkStreaming采用微批处理(Micro-batch)模式,将实时数据流切分为小批次处理,延迟通常在秒级而非毫秒级,纯实时场景需使用Flink等流原生框架。49.【参考答案】错误【解析】Hive支持动态分区(DynamicPartition),允许根据某列实际值自动创建分区,但需设置参数`hive.exec.dynamic.partition.mode=nonstrict`,且分区字段需为表中最后一列。50.【参考答案】错误【解析】增加Reducer可能缓解局部倾斜,但无法根治。根本解决需结合具体场景:如Key分布不均时进行Salting、局部聚合等优化,或引入倾斜处理专用算法。51.【参考答案】正确【解析】Kafka允许通过命令行工具修改Topic分区数,但需注意:此操作仅对新增数据生效,旧数据仍分布于原分区;消费者组需重新分配分区,可能触发Rebalance,但不会丢失已提交的Offset。52.【参考答案】正确【解析】HBase为分布式NoSQL数据库,以表形式存储结构化数据(RowKey+列族+列),但原生接口为API。通过Phoenix等中间件可实现SQL查询,需注意其与传统RDBMS的语法差异。53.【参考答案】正确【解析】Lambda架构由批处理层(如Hadoop)处理全量数据,速度层(如SparkStreaming)处理实时流,二者结果在服务层合并,通过重放批处理修正速度层误差,实现最终一致性。54.【参考答案】错误【解析】数据清洗包含缺失值填充、重复值删除、异常值处理、格式标准化等多个维度。重复值可能导致统计偏差,需通过唯一标识符(如主键)或相似度计算(如模糊去重)处理。55.【参考答案】正确【解析】Flink通过Checkpointing与StateBackend实现分布式快照,结合Two-PhaseCommit(2PC)协议,可在算子状态中保障Exactly-Once语义,但需Source和Sink端支持事务回滚(如Kafka0.11+)。

2025四川虹信软件股份有限公司招聘大数据产品开发岗位测试笔试历年常考点试题专练附带答案详解(第2套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、HDFS中负责管理文件系统命名空间和客户端请求的是哪个组件?A.DataNodeB.NameNodeC.BlockD.JobTracker2、YARN中负责资源分配和任务调度的核心组件是?A.ApplicationMasterB.ResourceManagerC.NodeManagerD.Container3、MapReduce默认使用的分区方式是什么?A.哈希分区B.范围分区C.列表分区D.无分区4、SparkCore中RDD的不可变特性是指?A.数据只能读取不能修改B.转换操作生成新RDDC.执行操作后数据不可用D.存储位置固定5、数据仓库分层架构中,用于存储最细粒度原始数据的层级是?A.DWD层B.DWS层C.ODS层D.ADS层6、Flink实现状态管理的机制是?A.CheckpointingB.Write-AheadLogC.SnapshotD.内存缓存7、Hive中执行SQL查询时,最终转化为哪种计算框架执行?A.SparkB.MapReduceC.FlinkD.Presto8、Kafka的分区副本同步机制主要依赖哪种角色?A.LeaderReplicaB.FollowerReplicaC.ControllerD.ZooKeeper9、下列哪种场景最适合使用HBase?A.复杂多表关联查询B.高并发实时写入C.批量ETL处理D.OLAP分析10、数仓建模时,雪花模型与星型模型的主要区别是?A.是否存在事实表B.维度表是否规范化C.数据冗余量D.查询性能11、在Hadoop生态系统中,负责分布式存储的核心组件是?A.MapReduceB.HDFSC.YARND.ZooKeeper12、Spark中用于实现内存计算的核心抽象是?A.RDDB.DataFrameC.DatasetD.BroadCast13、处理大数据时,以下哪种方法不能有效解决数据倾斜问题?A.增加Shuffle分区数B.使用Salting技术C.两阶段聚合D.减少Mapper数量14、关于Kafka的描述,正确的是?A.支持批量消息压缩提高吞吐量B.消息持久化后不可重复消费C.采用Push模式保证实时性D.分区数量决定Consumer组的最大并行度15、数据仓库分层设计中,DWD层的主要作用是?A.存储原始日志数据B.进行轻度聚合和维度建模C.实现数据清洗和轻度聚合D.支持OLAP分析16、Flink中实现状态管理的机制是?A.CheckpointingB.BroadcastStateC.OperatorStateD.以上都是17、以下哪种算法适合高维稀疏数据的特征降维?A.主成分分析(PCA)B.线性判别分析(LDA)C.TF-IDFD.奇异值分解(SVD)18、Hive中执行查询时,以下哪种操作会触发MapReduce任务?A.SELECT*FROMtableB.SELECTCOUNT(*)FROMtableC.ALTERTABLEADDPARTITIOND.INSERTINTOLOCALDIRECTORY19、Lambda架构的核心特征是?A.采用单一实时流处理引擎B.批处理层与速度层分离C.使用Kappa架构替代流批一体D.依赖列式存储数据库20、关于数据可视化,以下说法错误的是?A.折线图适合展示时间序列趋势B.散点图用于观察变量间相关性C.桑基图可表示数据流动关系D.饼图适用于多分类占比对比21、HDFS中数据块默认大小为256MB的版本是?

A.Hadoop1.x

B.Hadoop2.x

C.Hadoop3.x

D.Hadoop4.x22、Spark任务中,决定Stage划分的关键因素是?

A.数据分区数量

B.宽依赖操作

C.窄依赖操作

D.Task超时时间23、HBase表设计中,以下说法正确的是?

A.必须预先定义所有列

B.列族数量越多越好

C.支持动态增加列

D.仅支持字符串类型数据24、Kafka实现高可用的核心机制是?

A.分区副本机制

B.Zookeeper协调

C.消息压缩算法

D.磁盘预写日志25、数据仓库分层架构中,ODS层的主要作用是?

A.存储原子事实数据

B.提供实时查询能力

C.存储原始业务数据

D.支持复杂多维分析26、MapReduce编程模型中,Reduce阶段的Shuffle过程包括?

A.溢写(Spill)

B.合并(Merge)

C.分区(Partition)

D.排序(Sort)27、以下哪项不是Flink的状态后端类型?

A.MemoryStateBackend

B.FsStateBackend

C.RedisStateBackend

D.RocksDBStateBackend28、Hive中执行INSERTOVERWRITE操作时,分区表需指定?

A.分区字段值

B.LIMIT子句

C.ORDERBY字段

D.分桶字段29、数据倾斜的典型解决方案包括?

A.增加JVM堆内存

B.使用随机前缀散列

C.启用推测执行

D.合并小文件30、SparkSQL中,关于DataFrame和RDD的描述正确的是?

A.DataFrame基于RDD构建

B.DataFrame序列化效率更低

C.RDD支持结构化操作

D.DataFrame仅适用于静态数据二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、在分布式计算框架中,以下哪些属于ApacheSpark的核心组件?A.SparkSQLB.HDFSC.SparkStreamingD.YARN32、关于HDFS架构,以下描述正确的是?A.DataNode负责元数据管理B.NameNode存储文件数据块C.SecondaryNameNode定期合并元数据D.数据副本策略默认为3份33、解决大数据处理中的“数据倾斜”问题,可采取的措施包括?A.增加Reducer数量B.调整数据分区策略C.使用Combiner预处理D.提高JVM内存34、数据仓库分层架构中,ODS层的核心作用是?A.存储原始操作数据B.提供实时分析能力C.支持复杂ETL流程D.进行数据清洗与整合35、以下哪些技术常用于实时数据处理场景?A.ApacheKafkaB.ApacheFlinkC.HiveD.ApacheStorm36、关于SparkRDD与DataFrame的对比,正确的说法是?A.RDD支持结构化数据B.DataFrame基于Catalyst优化器C.RDD序列化效率更高D.DataFrame执行计划自动优化37、数据清洗阶段需处理的对象包括?A.重复数据B.异常值C.缺失值D.数据库索引38、以下哪些属于分布式存储系统的特征?A.数据分片存储B.单点故障容忍C.强一致性D.水平扩展能力39、在Hadoop生态中,MapReduce的Shuffle阶段涉及?A.数据分区B.溢写排序C.合并小文件D.任务调度40、关于NoSQL数据库的适用场景,正确的选项是?A.高频写入操作B.严格事务控制C.动态数据模式D.单一表结构查询41、在Hadoop生态系统中,以下哪些组件与分布式数据存储直接相关?A.HDFSB.MapReduceC.YARND.HBase42、关于Spark与Hadoop的区别,以下说法正确的是?A.Spark支持内存计算B.Hadoop实时性更强C.Spark基于DAG执行任务D.Hadoop依赖HDFS存储43、以下哪些技术适用于实时流数据处理?A.KafkaB.FlinkC.HiveD.Storm44、大数据产品开发中,数据清洗阶段可能涉及以下哪些操作?A.去除重复值B.处理缺失值C.数据类型转换D.聚合计算45、关于数据仓库与数据湖的差异,以下描述正确的是?A.数据仓库存储结构化数据B.数据湖支持多种数据格式C.数据湖成本更高D.数据仓库适合实时分析三、判断题判断下列说法是否正确(共10题)46、HDFS不适合存储大量小文件,因为每个文件都会在NameNode中占用独立的内存空间。A.正确B.错误47、Spark的计算效率高于MapReduce,主要因为其基于内存的DAG执行引擎和减少磁盘IO。A.正确B.错误48、数据仓库中的星型模型包含一个事实表和多个维度表,且维度表之间无直接关联。A.正确B.错误49、Kafka作为流式处理系统,其分区(Partition)机制能保证消息的顺序性和并行消费能力。A.正确B.错误50、HBase适用于实时读写场景,但其底层存储依赖HDFS,因此无法独立部署。A.正确B.错误51、数据清洗阶段需处理缺失值,直接删除含缺失值的记录是唯一科学的方法。A.正确B.错误52、Flink的状态一致性保障依赖检查点(Checkpoint)机制,支持精确一次(Exactly-Once)语义。A.正确B.错误53、在分布式系统中,CAP定理表明一致性(Consistency)、可用性(Availability)、分区容忍(PartitionTolerance)可同时满足。A.正确B.错误54、Elasticsearch通过倒排索引实现全文检索,适用于日志分析、搜索建议等场景。A.正确B.错误55、数据可视化中,饼图比柱状图更适合展示多类别数据的占比差异。A.正确B.错误

参考答案及解析1.【参考答案】B【解析】NameNode是HDFS的核心管理节点,存储元数据信息(如文件目录结构、数据块位置等),负责接收客户端请求并协调数据读写。DataNode负责实际存储数据块,JobTracker是MapReduce1.0的组件且已被YARN取代,Block是数据存储单元而非组件。2.【参考答案】B【解析】ResourceManager(RM)是YARN的全局资源调度器,管理集群资源分配并协调应用运行。ApplicationMaster负责单个应用的任务调度,NodeManager管理单机资源并执行具体任务,Container是资源分配的最小单元。3.【参考答案】A【解析】MapReduce通过Partitioner接口实现分区,默认使用HashPartitioner,根据Key的哈希值对Reduce任务数量取模确定分区。范围分区需自定义排序边界,列表分区需明确指定规则。4.【参考答案】B【解析】RDD的不可变性体现在每次转换(如map/filter)都会生成新的RDD,而非修改原有数据。原始RDD的分区信息和血缘关系(Lineage)保留,保证了容错性,但执行行动操作(如count)后数据仍可访问。5.【参考答案】C【解析】ODS(OperationalDataStore)层存储从业务数据库同步的原始数据,保留最细粒度。DWD层进行轻度清洗和整合,DWS层构建主题宽表,ADS层面向应用提供汇总数据。6.【参考答案】A【解析】Flink通过CheckPointing机制定期持久化状态数据,保证故障恢复时状态一致性。Write-AheadLog用于Kafka等系统的持久化,Snapshot是CheckPoint的实现方式,内存缓存无法保障可靠性。7.【参考答案】B【解析】Hive默认执行引擎为MapReduce,近年可通过HiveonSpark切换至Spark。但作为常考点,原生HiveQL底层仍以MapReduce作业形式运行,Presto和Flink属于独立查询引擎。8.【参考答案】A【解析】LeaderReplica负责处理生产者和消费者的读写请求,并将数据同步至FollowerReplica。Controller处理分区Leader选举,ZooKeeper协调集群元数据,但副本同步直接由Leader主导。9.【参考答案】B【解析】HBase是分布式NoSQL数据库,擅长高吞吐写入和实时单行查询。多表关联需通过Phoenix扩展实现,批量处理更适合MapReduce,OLAP分析需结合ClickHouse等工具。10.【参考答案】B【解析】星型模型仅包含单一事实表和多张未规范化维度表,雪花模型对维度表进行规范化处理(如地区维度拆分为省-市-区层级)。规范化减少冗余但可能降低查询效率。11.【参考答案】B【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式存储层,采用主从架构,通过NameNode管理元数据,DataNode存储实际数据块,保障高容错性和横向扩展能力。12.【参考答案】A【解析】RDD(弹性分布式数据集)是Spark最基础的数据抽象,具备分区、可序列化、容错特性,支持转换和动作操作,是内存计算的核心载体。13.【参考答案】D【解析】减少Mapper数量会降低并行度,可能加剧数据倾斜。数据倾斜本质是数据分布不均,需通过预处理(如Salting)、调整分区策略或优化计算逻辑解决。14.【参考答案】A【解析】Kafka支持GZIP、Snappy等压缩算法降低网络开销;消息可存储并允许Consumer重复消费;采用Pull模式由Consumer主动拉取数据;Consumer组并行度受限于分区数。15.【参考答案】C【解析】DWD(DataWarehouseDetail)层承接ODS原始数据,进行ETL清洗、标准化、轻度聚合,形成明细宽表;DWS层(DataWarehouseSummary)负责维度建模和汇总。16.【参考答案】D【解析】Flink通过Checkpointing实现状态一致性保障,支持OperatorState(算子状态)和KeyedState(键控状态),广播状态用于广播变量共享,共同保障分布式状态的可靠性和灵活性。17.【参考答案】C【解析】TF-IDF(词频-逆文档频率)专为文本高维特征设计,通过统计词频和权重降低无意义高频词影响。PCA/SVD适用于稠密数据,LDA用于监督降维。18.【参考答案】B【解析】Hive的COUNT(*)需遍历全表聚合,触发MapReduce任务;SELECT*直接读取HDFS文件元数据,不触发计算;ALTER和INSERTINTOLOCALDIRECTORY为元数据操作或本地写入。19.【参考答案】B【解析】Lambda架构将数据流拆分为批处理层(离线计算)和速度层(实时计算),最终合并查询结果。批流一体是Kappa架构的特点。20.【参考答案】D【解析】饼图仅适合少量分类(通常≤5类)的占比展示,多分类时易导致视觉混淆;散点图矩阵可用于多变量相关性分析,桑基图适合流向分析,折线图表现时间维度变化。21.【参考答案】C【解析】Hadoop3.x版本将HDFS默认块大小从Hadoop2.x的128MB调整为256MB,通过纠删码技术提升存储效率,同时支持更高的容错能力。选项C正确。22.【参考答案】B【解析】Spark根据DAG划分Stage时,遇到宽依赖(如shuffle操作)会触发Stage断点。窄依赖仅在相同Stage内流水线处理。正确答案为B。23.【参考答案】C【解析】HBase是schema-free的NoSQL数据库,列族需预先定义但列可动态添加,支持多种数据类型。选项C正确。24.【参考答案】A【解析】Kafka通过分区多副本(Replica)实现容错,Leader副本处理读写,Follower副本同步数据。Zookeeper用于集群元数据管理,但非高可用核心机制。选项A正确。25.【参考答案】C【解析】ODS(OperationalDataStore)层直接对接业务数据库,存储未经加工的原始数据,具备临时缓冲作用。选项C正确。26.【参考答案】D【解析】Shuffle过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论