2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)_第1页
2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)_第2页
2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)_第3页
2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)_第4页
2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术能力考前冲刺测试卷及参考答案详解(模拟题)1.在大数据实时流处理中,SparkStreaming的核心抽象是?

A.RDD

B.DStream

C.DataFrame

D.Dataset【答案】:B

解析:本题考察SparkStreaming的核心概念。DStream(离散流)是SparkStreaming的核心抽象,将连续的数据流分割为多个小批量RDD进行处理;RDD是Spark批处理的核心抽象,DataFrame/Dataset是Spark结构化数据API。因此正确答案为B。2.在大数据平台中,为保护敏感数据(如用户身份证号、手机号)不被泄露,以下哪种技术属于数据脱敏范畴?

A.数据加密(如AES加密)

B.数据脱敏(如替换为随机字符串)

C.数据压缩(如gzip)

D.数据清洗(如去重)【答案】:B

解析:本题考察大数据安全技术,正确答案为B。数据脱敏是通过对敏感数据进行变形处理(如替换、屏蔽、打乱),使其在非授权场景下无法识别原始信息,属于数据安全的“数据匿名化”手段。A选项“数据加密”是对数据进行可逆/不可逆转换,通常用于存储或传输中的加密保护,与“脱敏”不同;C选项“数据压缩”用于减少存储/传输体积,D选项“数据清洗”用于去除噪声/异常数据,均与敏感数据保护无关。3.Spark相比MapReduce,其主要优势不包括以下哪项?

A.内存计算,减少磁盘I/O

B.支持DAG执行引擎,优化任务依赖

C.仅支持批处理计算

D.丰富的API生态(Scala/Python/Java等)【答案】:C

解析:本题考察Spark核心优势知识点。Spark的优势包括内存计算(减少磁盘I/O,提升速度)、DAG执行引擎(优化任务调度和依赖关系)、多语言API支持(Scala/Python/Java等);而Spark不仅支持批处理,还能通过SparkStreaming(微批处理)、StructuredStreaming(流处理)处理实时数据,因此“仅支持批处理计算”是错误描述。正确答案为C。4.在数据仓库技术中,用于支持多维数据分析、在线分析处理(OLAP)的核心技术是?

A.ETL(数据抽取、转换、加载)

B.OLAP(联机分析处理)

C.OLTP(联机事务处理)

D.HiveQL(Hive查询语言)【答案】:B

解析:本题考察数据仓库核心技术。OLAP(OnlineAnalyticalProcessing)即联机分析处理,通过多维模型(如星型模型、雪花模型)和多维度分析工具(如Cube立方体),支持复杂的聚合查询和趋势分析,是数据仓库的核心分析能力。A选项ETL是数据仓库数据加载的过程,非分析技术;C选项OLTP(OnlineTransactionProcessing)是面向事务处理的系统(如银行交易),强调实时性和事务一致性,与分析型的OLAP相反;D选项HiveQL是Hive的数据查询语言,用于Hadoop平台的SQL操作,属于数据仓库工具的一部分,而非技术本身。因此正确答案为B。5.MongoDB数据库属于以下哪种NoSQL数据库类型?

A.键值对数据库

B.列族数据库

C.文档数据库

D.图数据库【答案】:C

解析:本题考察NoSQL数据库类型。MongoDB以BSON(类似JSON)格式存储文档,支持嵌套结构和灵活模式,属于文档型数据库。选项A(键值对)如Redis,以键值对存储简单数据;选项B(列族)如HBase,按列族组织稀疏数据;选项D(图数据库)如Neo4j,存储节点与关系数据(如社交网络)。6.在数据仓库分层架构中,负责存储原始数据经过清洗、标准化后的明细数据的是哪个层级?

A.ODS层(操作数据存储)

B.DWD层(数据明细层)

C.DWS层(数据汇总层)

D.ADS层(应用数据服务层)【答案】:B

解析:本题考察数据仓库分层设计的核心概念。数据仓库分层通常包括:ODS(原始数据层,存储未经处理的原始数据)、DWD(数据明细层,对ODS数据清洗、标准化后的明细数据)、DWS(数据汇总层,基于DWD数据进行聚合计算)、ADS(应用数据服务层,面向业务应用的数据服务)。A选项ODS层仅存储原始数据,未经过清洗;C选项DWS层是汇总数据,而非明细;D选项ADS层是为业务系统提供的最终数据,不负责存储明细数据。7.以下哪项属于数据治理中的“技术元数据”?

A.数据字典(描述业务术语)

B.数据存储路径(如HDFS路径)

C.数据业务逻辑(如交易金额计算规则)

D.数据更新频率(如每日凌晨执行ETL)【答案】:B

解析:本题考察数据治理中元数据的分类。技术元数据描述数据的**技术属性**,如存储位置、数据格式、ETL脚本等。选项B的“数据存储路径”属于技术元数据。选项A的“数据字典”属于业务元数据(描述业务含义);选项C的“数据业务逻辑”属于业务元数据;选项D的“数据更新频率”属于操作元数据(记录数据生命周期管理信息)。因此正确答案为B。8.在Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本因子为3,目的是通过多副本实现数据容错(如某节点故障时可从其他节点读取副本)。选项A(1)为单副本,仅适用于特殊场景且非默认;选项B(2)可能在特定配置中使用,但非HDFS默认值;选项D(4)会大幅增加存储成本,不符合HDFS默认设计目标。9.在数据仓库设计中,用于描述分析场景的属性(如时间、地区、产品类别)的表称为?

A.事实表

B.维度表

C.宽表

D.星型模型【答案】:B

解析:本题考察数据仓库核心概念。事实表包含可度量的数值(如销售额)和关联维度表的外键,是分析的核心度量数据载体;维度表则存储描述性信息(如“2023年Q1”“北京市”),用于解释事实表数据。宽表是一种存储形式(非表类型),星型模型是数据仓库的一种架构,因此正确答案为B。10.在大数据处理流程中,数据清洗的核心目的是?

A.去除数据中的重复记录

B.处理数据中的缺失值和异常值

C.提高数据质量,保证后续分析结果的准确性

D.对数据进行标准化和归一化处理【答案】:C

解析:本题考察数据清洗的核心目的。数据清洗是处理原始数据质量问题的关键步骤,包括去重、补全、异常处理等操作,其核心目的是提升数据质量,确保分析结果可靠。选项A、B、D均为数据清洗的具体手段,而非最终目的。因此正确答案为C。11.MongoDB数据库属于哪种NoSQL数据库类型?

A.键值对型(Key-Value)

B.文档型(Document-Oriented)

C.列族型(Column-Family)

D.图数据库(GraphDatabase)【答案】:B

解析:本题考察NoSQL数据库分类。MongoDB以JSON格式的文档(Document)为基本存储单元,支持嵌套结构,属于文档型数据库。选项A(键值对型)如Redis、Memcached;选项C(列族型)如HBase、Cassandra;选项D(图数据库)如Neo4j、JanusGraph。因此正确答案为B。12.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,具有高容错性和高吞吐量。MapReduce(B选项)是分布式计算框架,YARN(C选项)是资源管理器,Hive(D选项)是基于Hadoop的数据仓库工具,均不负责分布式文件存储。因此正确答案为A。13.大数据系统中,数据脱敏技术的主要目的是?

A.防止数据丢失

B.防止数据泄露

C.提高数据处理速度

D.压缩数据存储【答案】:B

解析:本题考察数据脱敏的核心作用,正确答案为B。数据脱敏通过对敏感信息(如身份证号、手机号)进行变形(如替换、加密),在保留数据可用性的同时避免隐私泄露;防止数据丢失依赖备份与容灾,提高处理速度是计算优化的目标,压缩存储属于数据压缩技术,均非脱敏的目的。14.在数据质量管理中,以下哪项不属于数据质量的核心维度?

A.准确性(数据是否正确反映真实情况)

B.完整性(数据是否存在缺失值)

C.可扩展性(数据是否支持未来系统扩展)

D.一致性(数据在不同场景/来源下是否一致)【答案】:C

解析:本题考察数据质量核心维度,正确答案为C。数据质量维度包括准确性、完整性、一致性、及时性等,“可扩展性”是系统架构特性,与数据质量无关。错误选项分析:A、B、D均为数据质量核心维度,分别对应数据正确性、完整性、一致性要求。15.Hive的元数据(Metadata)默认存储在哪个组件中?

A.HDFS

B.HBase

C.Derby

D.MySQL【答案】:C

解析:本题考察Hive元数据存储。Hive默认使用内嵌式Derby数据库存储元数据(表结构、分区信息等),适合单机测试场景。A选项HDFS是数据存储层,非元数据存储;B选项HBase是NoSQL数据库,与Hive元数据无关;D选项MySQL是可选的外部元数据存储(需手动配置)。因此正确答案为C。16.MongoDB数据库属于以下哪种类型的数据库?

A.关系型数据库(如MySQL、Oracle)

B.列族型数据库(如HBase)

C.文档型数据库(如JSON格式存储)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察主流数据库类型分类,正确答案为C。MongoDB以类似JSON(BSON)的文档格式存储数据,支持灵活模式,适合非结构化/半结构化数据。错误选项分析:A选项关系型数据库以表结构和SQL查询为核心;B选项列族型数据库(如HBase)强调列级存储;D选项图数据库(如Neo4j)以节点和关系为核心,均与MongoDB模型不同。17.数据集市(DataMart)在大数据架构中的定位是?

A.企业级综合数据存储与分析平台

B.部门级小型数据仓库,服务特定业务需求

C.实时流数据处理的核心存储系统

D.仅用于存储结构化数据的关系型数据库【答案】:B

解析:数据集市是数据仓库的子集,针对特定业务部门(如销售、财务)构建,提供部门级数据服务;A是企业级数据仓库(EDW)的定义;C选项流数据存储通常由Kafka、FlinkState等实现;D选项数据集市可存储结构化/半结构化数据,且非仅关系型数据库(如MongoDB也可作为数据集市存储)。18.Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的存储;B选项MapReduce是分布式计算框架,用于数据处理;C选项YARN是资源管理器,负责集群资源调度;D选项ZooKeeper是分布式协调服务,用于集群管理。因此正确答案为A。19.以下技术中,最适合进行实时流数据处理的是?

A.ApacheFlink

B.ApacheSparkBatch

C.Hive

D.ApacheHBase【答案】:A

解析:本题考察流处理技术选型。A正确:Flink专为低延迟、高吞吐实时流处理设计,支持事件时间窗口、状态管理等核心特性;B错误:SparkBatch是批处理框架,用于离线数据计算;C错误:Hive是基于HDFS的数据仓库工具,依赖批处理查询;D错误:HBase是NoSQL数据库,用于存储海量结构化数据,非流处理工具。20.大数据的5V特征不包括以下哪一项?

A.Volume(数量)

B.Velocity(速度)

C.Variety(多样性)

D.Variability(可变性)【答案】:D

解析:本题考察大数据5V核心特征知识点。大数据的5V特征是Volume(数据规模大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)、Value(数据价值密度低但价值高)。选项D“Variability(可变性)”并非5V标准特征,属于干扰项。其他选项均为5V的核心组成部分。21.以下哪项属于大数据实时数据采集工具?

A.Flume

B.Kafka

C.Hive

D.Sqoop【答案】:B

解析:本题考察大数据数据采集工具知识点。Kafka是分布式消息队列,专为实时数据流设计,支持高吞吐和低延迟的数据传输。A选项Flume侧重离线日志聚合;C选项Hive是数据仓库工具,用于批处理分析;D选项Sqoop是关系数据库与Hadoop间的批量数据导入工具。22.ApacheFlink是哪种类型的大数据处理框架?

A.批处理框架

B.流处理框架

C.混合式存储框架

D.实时查询引擎【答案】:B

解析:本题考察Flink的技术定位,正确答案为B。ApacheFlink是专为流处理设计的开源框架,支持高吞吐、低延迟的实时数据处理,同时也能通过批处理API处理离线数据(即“有界流”场景)。A选项错误,Flink并非仅为批处理(批处理是其衍生能力);C选项错误,Flink是计算框架而非存储框架;D选项错误,实时查询引擎(如Impala)更侧重快速查询,Flink核心是流计算。23.以下哪项不属于数据质量的核心维度?

A.准确性

B.完整性

C.安全性

D.及时性【答案】:C

解析:本题考察数据质量的关键要素。数据质量的核心维度包括准确性(数据真实反映业务)、完整性(无缺失值)、及时性(数据时效性)、一致性(多源数据一致)等;A、B、D均属于数据质量维度。C选项“安全性”属于数据安全范畴(如数据加密、权限控制),与数据质量维度无关。因此正确答案为C。24.ApacheFlink作为流处理框架,其相比其他流处理技术(如SparkStreaming)的核心优势之一是对哪种语义的原生支持?

A.高吞吐率

B.低延迟

C.精确一次(Exactly-Once)语义

D.状态管理能力【答案】:C

解析:本题考察Flink的核心优势。Flink通过Checkpoint机制和两阶段提交协议,能够严格保证数据处理的“精确一次(Exactly-Once)”语义,即数据既不重复处理也不丢失,这是其在实时流处理中区别于其他框架(如SparkStreaming的At-Least-Once)的关键优势。A、B是流处理的通用目标,但非Flink独有的核心优势;D“状态管理”是Flink的能力之一,但“精确一次语义”是其在一致性保障上的标志性特性。25.在Hadoop分布式文件系统HDFS中,默认的副本系数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS核心参数知识点。HDFS默认副本系数为3,原因是3能在保证数据可靠性的同时平衡资源利用:副本系数1会导致单点故障风险,副本系数2冗余度不足(如机架故障时无法保证恢复),副本系数4会造成存储资源浪费(超出容错需求)。因此正确答案为C。26.在Flink流处理中,“处理时间(ProcessingTime)”与“事件时间(EventTime)”的核心区别是?

A.处理时间基于系统当前时间,事件时间基于数据自带的时间戳

B.处理时间仅用于批处理,事件时间仅用于流处理

C.处理时间是数据到达时的时间,事件时间是数据生成时的时间

D.处理时间需依赖窗口,事件时间无需依赖窗口【答案】:A

解析:本题考察Flink时间语义的核心概念。处理时间指数据在Flink系统中被处理的系统时间,事件时间指数据本身携带的业务时间戳(如订单创建时间)。错误选项分析:B选项错误,Flink同时支持流处理和批处理,且两种时间语义均适用;C选项错误,事件时间是数据生成时的时间,处理时间是系统处理时的时间,二者定义方向正确但选项表述未明确核心差异;D选项错误,Flink窗口计算既支持处理时间窗口也支持事件时间窗口,与时间语义无关。27.在大数据ETL流程中,用于捕获数据库增量变化数据的技术是?

A.CDC(ChangeDataCapture)

B.SQL注入

C.数据清洗

D.数据脱敏【答案】:A

解析:本题考察ETL流程中“抽取”阶段的核心技术。CDC(ChangeDataCapture)通过捕获数据库的插入、更新、删除操作(如基于日志或触发器)实现增量数据抽取,是ETL中高效获取变化数据的关键手段。B错误,SQL注入是安全攻击行为,与数据抽取无关;C错误,数据清洗属于“转换(Transform)”阶段,用于处理数据质量问题(如去重、补全);D错误,数据脱敏是对敏感字段的替换/加密,可在抽取或转换阶段进行,但非抽取阶段的核心技术。28.SparkStreaming的核心处理模型是?

A.微批处理(Micro-batch)

B.纯实时流处理(ContinuousProcessing)

C.传统批处理模型

D.内存计算模型【答案】:A

解析:本题考察流处理框架特性。SparkStreaming基于微批处理模型,将连续的数据流分割为固定时间间隔的小批次(Micro-batch),每个批次通过SparkRDD进行处理,兼具批处理的稳定性和流处理的低延迟。选项B是Flink的实时流处理模型;选项C错误,批处理模型(如MapReduce)无流处理能力;选项D错误,“内存计算”是Spark整体的技术特点,并非Streaming的专属模型。因此正确答案为A。29.在数据仓库的分层设计中,负责存储原始业务数据、未经任何清洗和转换的数据层是?

A.ODS层

B.DWD层

C.DWS层

D.ADS层【答案】:A

解析:本题考察数据仓库分层知识点。数据仓库典型分层包括:ODS(操作数据存储,存储原始数据,未清洗)、DWD(数据明细层,经过清洗和标准化)、DWS(数据汇总层,多维度聚合)、ADS(应用数据服务层,面向业务应用)。选项B“DWD层”已完成数据清洗,C“DWS层”为汇总层,D“ADS层”为应用输出层,均不符合“原始数据未清洗”的描述。30.Hadoop分布式文件系统(HDFS)的主要作用是?

A.分布式数据存储

B.分布式计算框架

C.集群资源管理

D.数据挖掘与分析【答案】:A

解析:HDFS是Hadoop生态系统的分布式存储组件,核心功能是可靠存储海量数据;B选项MapReduce是分布式计算框架;C选项YARN负责集群资源管理;D选项数据挖掘通常由Hive、机器学习库等工具完成,不属于HDFS核心功能。31.Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,支持高容错、高吞吐量的文件存储;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询。因此正确答案为A。32.在实时大数据处理场景中,以下哪种框架更适合低延迟、高吞吐的流数据处理?

A.ApacheHadoopMapReduce

B.ApacheFlink

C.ApacheSparkStreaming

D.ApacheHive【答案】:B

解析:本题考察实时流处理技术选型。ApacheFlink是专为流处理设计的框架,采用事件驱动模型,支持毫秒级低延迟和高吞吐(每秒百万级事件),并具备状态管理能力。选项A(MapReduce)是批处理框架,延迟高;选项C(SparkStreaming)基于微批处理(类似批处理),延迟通常在秒级;选项D(Hive)是数据仓库工具,主要用于离线分析。33.当需要存储海量非结构化日志数据(如服务器日志、用户行为日志)时,以下哪种技术更合适?

A.MySQL(关系型数据库)

B.HBase(分布式NoSQL数据库)

C.Redis(内存数据库)

D.MongoDB(文档型数据库)【答案】:B

解析:本题考察数据存储技术的场景适用性。HBase是基于HDFS的分布式NoSQL数据库,适用于海量、非结构化/半结构化数据的随机读写。选项A的MySQL是关系型数据库,适合结构化数据和事务性场景,但不适合海量非结构化数据;选项C的Redis是内存数据库,容量有限,不适合海量存储;选项D的MongoDB是文档型数据库,适合结构化数据存储,但在写入性能和扩展性上弱于HBase(尤其在PB级海量数据场景)。因此,存储海量非结构化日志数据应选HBase,正确答案为B。34.数据仓库设计中,‘星型模型’的核心特点是?

A.包含一个中心事实表和多个维度表

B.所有表均通过外键关联,结构复杂

C.仅适用于小规模数据仓库,扩展性差

D.支持复杂的多表嵌套查询,性能优异【答案】:A

解析:本题考察数据仓库的星型模型特性。星型模型的核心是由一个中心事实表(存储业务度量数据,如销售额、订单量)和多个维度表(存储描述性信息,如时间、用户、产品)组成,通过主键-外键关联,结构简单直观。B选项错误,星型模型结构简单,无复杂外键嵌套;C选项错误,星型模型因结构清晰,适合大规模数据仓库;D选项错误,星型模型因连接简单,查询性能优异,但复杂多表连接能力弱于雪花模型(雪花模型通过维度表分层实现多表连接)。因此正确答案为A。35.星型模型是数据仓库维度建模的典型结构,其核心特点是?

A.中心为事实表,周围环绕维度表

B.中心为维度表,周围环绕事实表

C.仅包含单一事实表,无维度表

D.包含多个独立事实表【答案】:A

解析:本题考察星型模型的结构定义,正确答案为A。星型模型以事实表为中心,事实表存储度量值(如销售额、数量),周围环绕多个维度表(如时间、产品、地区),维度表通过外键关联事实表;维度表在中心的是雪花模型的特点,单一表或多事实表均不符合星型模型定义。36.关于HDFS的描述,正确的是?

A.HDFS采用单副本存储以节省存储空间

B.HDFS文件块默认大小为128MB

C.NameNode负责存储实际数据块

D.HDFS仅支持文本格式文件存储【答案】:B

解析:本题考察HDFS的特性。A选项错误,HDFS默认采用3副本机制以提高容错性和可靠性;B选项正确,HDFS文件块(Block)默认大小为128MB,可根据需求调整;C选项错误,NameNode负责存储文件元数据(如目录结构、块位置等),实际数据块由DataNode存储;D选项错误,HDFS支持二进制、文本等多种格式文件存储。因此正确答案为B。37.下列关于ApacheSpark的描述,正确的是?

A.基于磁盘的计算框架,仅支持批处理

B.SparkStreaming采用微批处理模型处理流数据

C.不支持迭代计算,需重复读取数据

D.仅支持Java语言开发【答案】:B

解析:Spark是内存计算框架,支持批处理与流处理。选项A错误,Spark基于内存计算,且SparkStreaming支持实时流处理;选项B正确,SparkStreaming通过将流数据分割为小批量(微批)进行处理,是其核心流处理模型;选项C错误,Spark通过RDD持久化和内存缓存支持高效迭代计算;选项D错误,Spark支持Scala、Java、Python、R等多种编程语言。因此答案为B。38.在大数据应用中,对用户身份证号、手机号等敏感信息进行脱敏处理的主要目的是?

A.提升数据存储压缩率

B.降低数据传输带宽消耗

C.满足数据隐私保护与合规要求

D.优化数据查询响应速度【答案】:C

解析:本题考察数据脱敏的核心目的。数据脱敏通过替换或屏蔽敏感信息,防止隐私泄露(如GDPR、《数据安全法》合规要求),C正确;A、B、D分别涉及数据压缩、传输优化、查询性能,均非脱敏的核心目标。39.Hadoop生态系统中,负责资源管理、调度和集群资源分配的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:C

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x及以上版本的核心组件,负责集群资源(CPU、内存等)的管理和作业调度;HDFS是分布式存储系统,MapReduce是分布式计算框架,Hive是基于Hadoop的数据仓库工具,因此A、B、D错误。40.在Hadoop分布式文件系统(HDFS)中,为保证数据可靠性和容错性,文件块(Block)的默认副本存储策略是?

A.仅存储在本地节点,避免跨节点冗余

B.优先存储在同机架的多个节点,最后跨机架节点

C.优先存储在本地机架节点,其次同机架不同节点,最后跨机架节点

D.默认存储在3个不同的随机节点,不考虑机架位置【答案】:C

解析:本题考察HDFS副本存储策略知识点。HDFS为防止单点故障(如机架断电或节点故障),默认将文件块副本分布在不同物理位置:优先存储在本地节点(减少网络传输),其次同机架其他节点(利用机架内带宽),最后跨机架节点(避免同机架整体故障)。选项A仅本地存储会导致单点故障;选项B未明确本地优先;选项D随机跨机架无法保证同机架内的冗余,故正确答案为C。41.数据仓库(DW)与数据湖(DataLake)的核心区别在于?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析场景,数据湖面向原始数据存储

C.数据仓库支持实时查询,数据湖仅支持离线分析

D.数据仓库采用列式存储,数据湖仅采用行式存储【答案】:B

解析:本题考察数据仓库与数据湖的概念差异。B正确:数据仓库整合结构化数据用于业务分析(如OLAP),数据湖存储原始数据(结构化/半结构化/非结构化),支持灵活扩展;A错误:数据仓库可存储半结构化数据,数据湖也包含结构化数据;C错误:两者均可支持实时查询(如数据湖用Presto);D错误:存储格式与类型无关,两者均支持列/行式存储。42.以下关于Spark与MapReduce相比的优势描述,错误的是?

A.Spark支持内存计算,大幅提升处理速度

B.Spark仅支持批处理计算,不支持流处理

C.Spark提供更丰富的API(如SparkSQL、DataFrame)

D.Spark支持多种数据处理模式(批处理、流处理、交互式查询)【答案】:B

解析:本题考察Spark与MapReduce的核心差异。Spark的显著优势包括内存计算(A正确)、丰富的API支持(C正确)、多处理模式(D正确)。而B选项错误,因为Spark不仅支持批处理,还通过SparkStreaming、StructuredStreaming等模块支持实时流处理,MapReduce则仅专注于批处理。因此错误选项为B。43.以下哪项不属于Hadoop2.x的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:D

解析:本题考察Hadoop核心组件的识别。Hadoop2.x的核心组件包括分布式文件系统HDFS、分布式计算框架MapReduce和资源管理器YARN。Hive是基于Hadoop的数据仓库工具,用于数据仓库建模和查询,属于Hadoop生态系统的扩展工具而非核心组件。因此正确答案为D。44.HDFS默认情况下,一个数据块的副本数量是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错能力,默认每个数据块存储3个副本,分别放置在本地节点、同机架其他节点和不同机架节点,以应对节点或机架故障。选项A(1个副本)易因单点故障丢失数据;选项B(2个副本)在机架故障时可能丢失数据;选项D(4个副本)冗余度过高,会浪费存储资源。45.Spark相比MapReduce的主要优势在于?

A.采用内存计算,减少磁盘I/O

B.仅支持Java语言开发

C.必须基于磁盘存储中间结果

D.无法处理迭代计算任务【答案】:A

解析:本题考察Spark与MapReduce的技术差异。A正确:Spark基于内存计算RDD,迭代计算时无需反复读写磁盘,性能远优于MapReduce;B错误:Spark支持Scala、Java、Python、R等多语言开发;C错误:MapReduce依赖磁盘存储中间结果,Spark优先内存存储;D错误:Spark擅长迭代计算(如机器学习算法),MapReduce则不适合。46.以下关于SparkRDD的描述,错误的是?

A.RDD是Spark的核心抽象,代表一个不可变的分布式数据集

B.RDD的分区数量在创建后不可修改

C.RDD支持惰性计算,只有在Action操作触发时才会执行计算

D.RDD的转换操作(Transformation)是延迟执行的【答案】:B

解析:本题考察SparkRDD核心特性。RDD的分区特性是可调整的,通过`coalesce`(减少分区)或`repartition`(增加分区)方法可动态修改分区数,因此选项B错误。选项A正确,RDD本质是不可变的分布式数据集;选项C正确,惰性计算是Spark性能优化的关键(仅Action触发真正计算);选项D正确,转换操作仅记录逻辑,不立即执行。47.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心配置知识点。HDFS默认副本因子为3,目的是通过多副本存储实现数据容错和可靠性(即使某节点故障,其他副本仍可提供数据访问)。A选项“1”仅适用于本地单节点存储场景,不满足分布式系统容错需求;B选项“2”通常为非默认配置(如部分测试或低资源场景),并非HDFS标准默认值;D选项“4”会过度消耗存储空间和带宽,不符合HDFS资源优化原则。48.在数据仓库的维度建模中,星型模型的核心特征是?

A.所有维度表通过中间表关联事实表

B.以事实表为中心,维度表直接关联事实表

C.维度表存在多层嵌套的层级结构

D.所有表均采用第三范式规范化设计【答案】:B

解析:本题考察数据仓库星型模型的概念。星型模型是维度建模的典型结构,以事实表为核心,周围直接连接多个维度表(如日期、产品、地区等),结构简单直观。选项A错误,星型模型维度表直接关联事实表,无需中间表;选项C描述的是雪花模型(维度表有层级结构),与星型模型无关;选项D错误,星型模型不严格遵循第三范式,更注重查询效率而非规范化。因此正确答案为B。49.Flink流处理框架中,“事件时间(EventTime)”的定义是?

A.Flink系统处理数据的本地系统时间

B.事件在数据源中实际产生的时间戳

C.事件被Flink算子处理的执行时间

D.事件在Kafka分区中的写入时间【答案】:B

解析:本题考察Flink事件时间处理知识点。事件时间是事件本身的产生时间,用于处理乱序数据或迟到数据(需结合水印机制)。选项A是“处理时间(ProcessingTime)”;选项C描述的是处理时间或算子执行时间;选项D混淆了事件时间与数据存储时间,事件时间是事件自身的时间戳,与分区写入时间无关。50.以下哪项是数据仓库(DataWarehouse)的核心特点?

A.实时性高,支持事务处理

B.面向主题,集成历史数据

C.直接存储原始业务数据

D.支持实时数据写入与更新【答案】:B

解析:本题考察数据仓库特点。数据仓库以“面向主题、集成性、非易失性、时变性”为核心特点:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化反映历史趋势)。A、D是OLTP(事务处理系统)特点,C是原始数据库特征。因此正确答案为B。51.数据仓库(DataWarehouse)的核心特点是?

A.面向操作处理(OLTP)

B.数据随时间累积与变化(时变性)

C.支持实时事务处理

D.仅存储当前最新数据【答案】:B

解析:本题考察数据仓库的核心特性。数据仓库是用于决策支持的集成数据集合,其核心特点包括:面向主题、集成性、非易失性(数据不轻易修改)、时变性(历史数据随时间累积)。选项A错误,面向操作处理是联机事务处理(OLTP)的特点;选项C错误,数据仓库侧重历史数据分析,不支持实时事务;选项D错误,数据仓库存储历史数据而非仅当前数据。因此正确答案为B。52.以下哪个流处理框架以“事件时间(EventTime)”处理和“精确一次(Exactly-Once)”语义为核心特性?

A.SparkStreaming

B.KafkaStreams

C.ApacheFlink

D.ApacheStorm【答案】:C

解析:ApacheFlink是专为流处理设计的框架,支持事件时间窗口计算和精确一次语义(确保数据处理一致性)。A选项SparkStreaming是微批处理模型,事件时间支持较弱;B选项KafkaStreams依赖Kafka,事件时间处理能力不如Flink;D选项Storm侧重实时处理但缺乏事件时间和精确一次语义。53.以下哪种数据库类型适合存储半结构化数据且支持灵活的文档结构?

A.HBase(列族数据库)

B.MongoDB(文档型数据库)

C.Redis(键值型数据库)

D.MySQL(关系型数据库)【答案】:B

解析:本题考察不同NoSQL数据库的适用场景。MongoDB是典型的**文档型数据库**,以JSON/BSON格式存储半结构化数据,支持灵活的文档结构(字段可动态扩展)。选项A的HBase是列族数据库,基于HDFS,适合结构化数据的随机读写和海量存储;选项C的Redis是键值型数据库,以键值对存储,适合高频访问的简单数据;选项D的MySQL是关系型数据库,基于表结构,不适合半结构化数据的灵活扩展。因此正确答案为B。54.数据湖相比数据仓库,其主要特点不包括以下哪项?

A.支持存储非结构化数据

B.存储原始数据而非预处理数据

C.主要存储结构化数据

D.支持多种数据处理工具集成【答案】:C

解析:本题考察数据湖与数据仓库的核心区别。数据湖的核心特点是存储原始数据(结构化、半结构化、非结构化),支持多种数据类型和工具集成(如A、B、D所述);而数据仓库主要面向结构化数据,通过ETL进行预处理。选项C“主要存储结构化数据”是数据仓库的特点,而非数据湖,因此正确答案为C。55.HDFS(Hadoop分布式文件系统)默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的基础配置知识点。HDFS为提高数据可靠性和容错能力,默认将每个文件块复制3份存储在不同节点,当一个节点故障时仍能通过其他副本恢复数据。选项A(1)仅1份数据,容错能力极低;选项B(2)冗余度不足,故障恢复概率较高;选项D(4)会导致过多磁盘空间浪费,超出默认冗余需求。56.在大数据处理中,Spark相较于MapReduce的显著优势主要体现在?

A.支持SQL查询

B.基于内存计算,减少磁盘I/O

C.仅能处理结构化数据

D.只能运行在YARN上【答案】:B

解析:本题考察分布式计算框架的核心特性对比。Spark的核心优势是**基于内存计算**,将中间结果缓存在内存中,避免了MapReduce中频繁的磁盘读写操作(MapReduce需多次Shuffle并写入磁盘),从而大幅提升处理速度。A选项错误,MapReduce可通过Hive、Impala等工具支持SQL查询,并非Spark独有;C选项错误,Spark支持结构化、半结构化(如JSON)、非结构化(如文本)等多种数据类型;D选项错误,Spark可独立运行或基于YARN/Mesos/Kubernetes等集群管理器,并非仅依赖YARN。57.下列哪个技术框架以低延迟、高吞吐的实时流数据处理能力著称?

A.Spark

B.Hadoop

C.Flink

D.Hive【答案】:C

解析:本题考察流处理技术框架知识点。Flink是专门的实时流处理引擎,具备低延迟、高吞吐、精确一次语义等特性,适用于实时数据场景。Spark(A)以批处理和微批流处理为主;Hadoop(B)以批处理框架为核心;Hive(D)是数据仓库工具,不负责流处理。因此正确答案为C。58.Hadoop分布式文件系统(HDFS)的默认块大小通常是多少?

A.64MB

B.128MB

C.256MB

D.512MB【答案】:B

解析:本题考察HDFS核心参数知识点,正确答案为B。HDFS的块(Block)是数据存储的基本单位,默认大小为128MB(现代主流配置)。块大小设计用于适配大文件存储、提高并行性和容错性(单个块损坏不影响其他块)。64MB为早期版本默认值,256MB/512MB超出当前主流标准。因此选B。59.数据仓库的哪个特性体现了数据随时间推移反映系统历史变化的特性?

A.面向主题

B.集成性

C.时变性

D.非易失性【答案】:C

解析:本题考察数据仓库的核心特性。数据仓库的“时变性”(Time-Variant)明确指数据会随时间变化而被持续更新和维护,用于反映系统的历史发展趋势(如用户行为历史、业务指标变化)。A“面向主题”指数据围绕特定业务主题组织(如销售、财务);B“集成性”强调整合多源异构数据;D“非易失性”指数据一旦进入仓库,通常仅追加历史版本,不主动删除或修改。60.在数据挖掘中,K-Means算法属于以下哪种学习类型?

A.监督学习(SupervisedLearning)

B.无监督学习(UnsupervisedLearning)

C.半监督学习(Semi-SupervisedLearning)

D.强化学习(ReinforcementLearning)【答案】:B

解析:本题考察数据挖掘算法分类知识点。K-Means是典型的无监督聚类算法,核心是通过距离度量(如欧氏距离)将无标签数据自动划分成K个簇,无需人工标注样本标签。监督学习(A)需标签训练(如分类算法SVM);半监督学习(C)需少量标签+大量无标签数据,与K-Means无直接关联;强化学习(D)通过环境反馈优化策略,与聚类无关。故正确答案为B。61.Spark中,用于表示分布式、不可变、可分区数据集合的核心抽象是?

A.DataFrame

B.RDD

C.DStream

D.BlockManager【答案】:B

解析:本题考察Spark核心概念。RDD(ResilientDistributedDataset)是Spark的核心抽象,定义了分布式、不可变、可分区的数据集合,支持并行计算。A选项DataFrame是结构化数据集合,基于RDD构建;C选项DStream是SparkStreaming中的离散流抽象;D选项BlockManager是Spark存储系统组件。因此正确答案为B。62.大数据处理中,解决数据倾斜问题的常用优化手段是?

A.预聚合

B.分库分表

C.使用SparkSQL

D.增加计算节点【答案】:A

解析:本题考察数据倾斜的优化方法,正确答案为A。数据倾斜指某一key的数据量远大于其他key,预聚合可在数据处理前对高频key进行局部聚合,减少数据量;分库分表是分布式存储的扩容手段,SparkSQL不直接解决倾斜问题,增加节点仅能分摊压力,无法从根本上消除倾斜。63.MongoDB数据库采用的是哪种类型的NoSQL数据模型?

A.文档型

B.键值型

C.列族型

D.图数据库【答案】:A

解析:本题考察NoSQL数据库类型。MongoDB以类JSON的文档(Document)形式存储数据,属于文档型数据库;键值型数据库(如Redis)以键值对存储;列族型数据库(如HBase)按列族组织数据;图数据库(如Neo4j)以图结构存储实体关系。因此正确答案为A。64.以下哪项不属于大数据的典型特征?

A.高容量(Volume)

B.高速度(Velocity)

C.高价值密度(ValueDensity)

D.真实性(Veracity)【答案】:C

解析:本题考察大数据的核心特征(4V+Veracity)。大数据典型特征包括:高容量(海量数据)、高速度(数据产生和处理速度快)、高多样性(数据类型多样)、低价值密度(需从海量数据中挖掘价值)、真实性(数据准确性)。选项C中“高价值密度”不符合大数据特征,因原始数据价值密度通常较低,需通过清洗、分析等处理提升价值,故错误。65.大数据数据清洗中,处理数值型数据缺失值时最常用的方法是?

A.直接删除整行数据

B.使用均值/中位数填充

C.用众数填充

D.忽略缺失值不处理【答案】:B

解析:本题考察数据清洗技术。数值型数据缺失值常用均值、中位数或线性插值填充,以保留数据分布特征。选项A删除整行可能丢失大量信息;选项C众数用于类别型数据(如颜色、性别);选项D忽略会导致统计偏差,故正确答案为B。66.大数据的5V特征中,用于描述数据来源包含结构化、半结构化、非结构化等多种类型的是

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Value(价值)【答案】:C

解析:本题考察大数据5V特征知识点。大数据5V特征为:Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Veracity(数据真实性)、Value(数据价值)。选项A对应数据规模,B对应处理速度,D对应数据价值,均不符合“数据来源多样”的描述;选项C“Variety(多样性)”明确指向数据类型的多元性,故正确答案为C。67.MongoDB属于以下哪种类型的数据库?

A.键值对(Key-Value)型数据库

B.文档型(Document)数据库

C.列族(Column-Family)型数据库

D.图(Graph)型数据库【答案】:B

解析:MongoDB以JSON格式的文档为基本存储单元,属于文档型数据库,适用于存储半结构化数据。A选项(如Redis)、C选项(如HBase)、D选项(如Neo4j)分别对应不同类型的NoSQL数据库,与MongoDB类型不符。68.MapReduce框架的核心数据处理模型是什么?

A.仅支持文本格式

B.仅支持二进制格式

C.键值对(Key-Value)

D.列表结构【答案】:C

解析:本题考察MapReduce的工作原理。MapReduce的核心是将任务分解为Map(映射)和Reduce(归约)两个阶段,所有输入输出均以键值对(Key-Value)形式处理。选项A、B错误,因为MapReduce支持多种数据格式(如SequenceFile、Avro等),并非仅支持文本或二进制;选项D错误,列表结构无法满足MapReduce的并行计算模型需求。因此正确答案为C。69.以下哪种技术更适合进行低延迟的实时流数据处理?

A.ApacheKafka

B.SparkStreaming

C.ApacheFlink

D.Hive【答案】:C

解析:本题考察流处理技术选型。选项A的Kafka是分布式消息队列,主要用于数据传输,不直接处理数据;选项B的SparkStreaming是基于微批处理的流处理框架,虽支持流处理但延迟相对较高;选项C的ApacheFlink是专为低延迟、高吞吐的实时流处理设计的框架,支持流批一体,具备毫秒级延迟能力;选项D的Hive是基于Hadoop的数据仓库工具,主要用于批处理分析。因此正确答案为C。70.Spark作为主流的分布式计算框架,相比MapReduce,其显著的性能优势主要体现在以下哪个方面?

A.支持多种编程语言(Scala/Java/Python等)

B.基于内存计算,减少磁盘I/O操作

C.原生支持SQL查询(通过SparkSQL)

D.提供更高的任务吞吐量(适用于超大规模数据)【答案】:B

解析:本题考察Spark与MapReduce的性能对比知识点。MapReduce基于磁盘存储中间结果,需频繁进行磁盘I/O操作,导致计算效率较低;而Spark的核心优势是基于内存计算,将中间结果暂存于内存中,仅在必要时写入磁盘,大幅减少了磁盘I/O耗时。选项A、C是Spark的功能特性,但并非相比MapReduce的“显著性能优势”;选项D描述不准确,MapReduce在特定场景下也可通过优化实现高吞吐量,而Spark的优势核心是内存计算。因此正确答案为B。71.关于数据仓库(DW)和数据湖(DataLake)的描述,以下正确的是?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库面向分析决策,数据湖面向原始数据存储

C.数据仓库支持实时分析,数据湖仅支持批处理分析

D.数据仓库无需ETL,数据湖需复杂ETL【答案】:B

解析:本题考察数据仓库与数据湖的核心差异。数据仓库(DW)通过ETL整合结构化数据,面向业务分析决策;数据湖(DataLake)直接存储原始数据(结构化/非结构化/半结构化),保留数据原始性,支持灵活查询。选项A错误,数据湖也可存储结构化数据;选项C错误,两者均可通过工具扩展支持实时分析;选项D错误,数据仓库需ETL,数据湖通常采用ELT(提取-加载-转换)模式。因此正确答案为B。72.Hadoop分布式文件系统(HDFS)的默认副本数是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的副本机制知识点。HDFS为提高数据可靠性和容错能力,默认将文件存储为3个副本,分布在不同节点上,即使单个节点故障也能恢复数据。选项A(1个副本)易因单点故障导致数据丢失;选项B(2个副本)虽有冗余但可靠性低于3副本;选项D(4个副本)为非默认配置,会增加存储开销。因此正确答案为C。73.以下哪项是Hadoop分布式文件系统(HDFS)的默认副本系数?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS副本机制知识点。HDFS默认副本系数为3,以平衡数据可靠性与存储成本。A选项1个副本易因单点故障丢失数据;B选项2个副本容错性不足,仍存在数据丢失风险;D选项4个副本会过度消耗存储空间,不符合经济存储原则。74.ApacheSpark作为主流大数据处理框架,其核心优势主要体现在?

A.基于内存计算,执行速度快

B.必须依赖分布式文件系统存储数据

C.仅支持实时流处理,不支持批处理

D.只能在磁盘上进行数据计算【答案】:A

解析:Spark的核心特性是内存计算模型,通过缓存数据减少磁盘I/O,大幅提升处理速度;B选项Spark支持多种存储系统(HDFS、S3等),非必须依赖;C选项Spark既支持批处理(SparkBatch)也支持流处理(SparkStreaming);D选项Spark优先使用内存计算,仅在内存不足时落盘,并非“只能磁盘计算”。75.Spark作为主流的分布式计算框架,相比MapReduce的主要优势在于?

A.基于内存计算,速度更快

B.仅支持磁盘IO优化,减少数据传输

C.专门针对实时流处理场景优化

D.批处理能力远优于MapReduce【答案】:A

解析:Spark的核心优势是内存计算,它将中间结果存储在内存中,避免了MapReduce中频繁的磁盘读写操作,从而显著提升计算速度,尤其适合迭代计算和交互式分析。MapReduce本身也支持磁盘IO优化(如Combine操作),但并非Spark独有;实时流处理通常由Flink等框架优化,SparkStreaming是批处理框架的流处理扩展;MapReduce在批处理领域同样成熟,两者批处理能力各有侧重,Spark的优势是内存计算而非批处理本身。因此正确答案为A。76.在大数据分析中,K-means算法主要用于解决什么问题?

A.分类问题(如垃圾邮件识别)

B.聚类问题(如用户分群)

C.预测问题(如销售额预测)

D.关联规则挖掘(如购物篮分析)【答案】:B

解析:本题考察数据挖掘算法应用。K-means是经典的无监督聚类算法,用于将数据点划分为K个不同的簇(Cluster),实现用户分群等场景。A选项分类问题通常用决策树、SVM等;C预测问题用回归算法;D关联规则挖掘用Apriori算法。因此正确答案为B。77.下列关于数据仓库与数据湖的描述,正确的是?

A.数据仓库主要存储结构化数据,数据湖可存储结构化、半结构化和非结构化数据

B.数据仓库和数据湖均仅支持结构化数据存储

C.数据仓库和数据湖均需预先定义严格的数据模型

D.数据仓库适合实时分析,数据湖仅适合离线分析【答案】:A

解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向分析的结构化数据集合,需预先定义星型/雪花型模型;数据湖则存储原始数据(结构化、半结构化、非结构化),支持灵活扩展和按需建模。选项B错误,数据湖可存储非结构化数据(如日志、图片);选项C错误,数据湖无需预定义模型,适合原始数据存储;选项D错误,数据仓库和数据湖均可通过工具支持实时分析(如数据仓库+Flink、数据湖+Presto)。78.在数据仓库建设中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的主要区别在于?

A.ETL需要先转换再加载,ELT先加载再转换

B.ETL只能处理结构化数据,ELT只能处理非结构化数据

C.ETL的数据转换在ETL工具中完成,ELT在数据仓库中完成

D.ETL适用于实时处理,ELT适用于批处理【答案】:A

解析:本题考察数据仓库ETL流程的核心逻辑。ETL的执行顺序是**先抽取数据→转换数据(清洗、标准化等)→加载到目标仓库**;ELT则是**先抽取数据→直接加载到目标仓库→在仓库内进行转换**。B选项错误,ETL和ELT均可处理结构化/非结构化数据(仅工具适配性差异);C选项错误,ELT的转换并非“仅在数据仓库中”,而是在加载后,而ETL的转换是在抽取后、加载前,两者均涉及转换步骤;D选项错误,ETL和ELT均适用于批处理,实时处理通常采用流处理架构(如Flink),与ETL/ELT无关。79.在Kafka消息队列中,当一个消费者组内的消费者数量超过分区数量时,会出现什么情况?

A.所有消费者均能消费到数据(负载均衡)

B.只有部分消费者能消费到数据(多余消费者空闲)

C.所有消费者均无法消费到数据(冲突错误)

D.消费者数量自动调整为分区数量(动态扩容)【答案】:B

解析:本题考察Kafka分区与消费者组的分配机制,正确答案为B。Kafka中每个分区仅被组内一个消费者独占消费,若消费者数量>分区数,多余消费者将无分区可消费,处于空闲状态。错误选项分析:A选项违背分区独占原则;C选项错误,仅多余消费者空闲;D选项错误,消费者数量由用户配置,Kafka不自动调整。80.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件的功能,正确答案为A。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务,均不负责文件存储。81.关于Spark中RDD(弹性分布式数据集)的特性,描述错误的是?

A.RDD具有不可变性

B.RDD支持分区操作

C.RDD的转换操作是延迟执行的

D.RDD必须在内存中进行计算【答案】:D

解析:本题考察SparkRDD的核心特性。RDD是Spark的基础抽象,具有不可变性(A正确)、可分区(B正确)、转换操作惰性执行(仅在动作操作触发时计算,C正确);RDD支持内存和磁盘混合存储,当内存不足时会自动落盘,并非“必须在内存中进行”,D错误。82.根据CAP理论,在分布式系统设计中,以下哪项是正确的原则?

A.为保证强一致性(Consistency),必须牺牲分区容错性(PartitionTolerance)

B.分区容错性(P)是分布式系统的固有属性,需优先保证

C.当系统面临网络分区时,必须选择CP模式(一致性优先)

D.系统必须同时满足一致性(C)、可用性(A)和分区容错性(P)【答案】:B

解析:本题考察CAP理论的核心逻辑。CAP理论指出分布式系统只能同时满足‘一致性(C)’、‘可用性(A)’、‘分区容错性(P)’中的两项,无法三者兼得。其中,‘分区容错性(P)’是分布式系统的固有属性(如网络故障必然导致分区),因此需优先保证(B正确)。A错误,因P是必须的,只能在C和A中取舍;C错误,网络分区时通常选AP(牺牲一致性换取可用性);D错误,三者不可同时满足。83.大数据处理中,ETL与ELT的核心区别是?

A.数据转换与数据加载的执行顺序不同

B.数据存储位置(内存/磁盘)不同

C.数据处理的并发度不同

D.仅ETL支持增量更新,ELT不支持【答案】:A

解析:本题考察数据集成流程的技术差异。ETL(Extract-Transform-Load)是先提取数据,转换后再加载到目标库;ELT(Extract-Load-Transform)是先将原始数据加载到目标库,再在目标库中完成转换。选项B(存储位置)非核心区别;选项C(并发度)与技术类型相关,非ETL/ELT的本质差异;选项D错误,ELT也支持增量更新。84.在Hadoop分布式计算框架中,负责存储海量数据并提供高容错性的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive【答案】:C

解析:本题考察Hadoop生态核心组件功能。HDFS(Hadoop分布式文件系统)是分布式存储层,通过多副本机制保证高容错性;MapReduce是分布式计算框架,YARN是资源管理器(负责调度计算资源),Hive是基于HDFS的数据仓库工具(非存储核心)。因此负责存储的是HDFS,选C。85.ApacheFlink流处理框架支持的时间语义不包括以下哪一项?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.系统时间(SystemTime)【答案】:D

解析:本题考察Flink的时间语义特性。Flink支持事件时间(基于数据生成时间)、处理时间(基于数据到达时间)、摄入时间(基于Flink接收时间),D选项“系统时间”并非Flink定义的标准时间语义,属于干扰项。86.在实时流处理系统中,Kafka的主要作用是?

A.提供分布式计算能力

B.存储实时计算结果

C.作为数据源接收和转发实时数据流

D.负责数据的持久化存储【答案】:C

解析:本题考察实时流处理系统中Kafka的角色。A选项错误,分布式计算能力由Flink、SparkStreaming等框架提供;B选项错误,实时计算结果通常存储于HBase、Redis等存储系统,Kafka不直接负责结果存储;C选项正确,Kafka是高吞吐量消息队列,作为流处理系统的核心数据源,负责接收、存储和转发实时数据流,实现上下游系统的解耦;D选项错误,Kafka虽支持消息持久化,但核心作用是数据传输而非通用持久化存储。因此正确答案为C。87.关于数据仓库与数据集市的描述,错误的是?

A.数据仓库是面向企业级全局数据的集成存储

B.数据集市是面向部门级特定业务需求的数据子集

C.数据集市是数据仓库的超集

D.数据仓库通常包含结构化、半结构化数据【答案】:C

解析:本题考察数据仓库与数据集市的概念。选项A正确,数据仓库面向企业全局数据,集成多源数据;选项B正确,数据集市是数据仓库的子集,针对特定部门(如销售、财务)的业务需求;选项C错误,数据集市是数据仓库的子集而非超集,它从数据仓库中抽取数据,聚焦特定主题;选项D正确,数据仓库通常包含结构化(如关系表)、半结构化(如日志)数据。因此正确答案为C。88.在数据仓库构建流程中,‘ETL’的核心环节是?

A.数据抽取(Extract)、转换(Transform)、加载(Load)

B.数据清洗(Clean)、加密(Encrypt)、归档(Archive)

C.数据采集(Collect)、校验(Verify)、脱敏(Mask)

D.数据过滤(Filter)、压缩(Compress)、分发(Distribute)【答案】:A

解析:本题考察ETL的标准定义。ETL是数据仓库的核心流程,指从源系统抽取数据(Extract),经过转换(Transform,如清洗、整合)后加载(Load)到目标仓库。选项B中的加密、归档属于数据安全或运维操作;选项C中的校验、脱敏是转换环节的子集,非核心流程;选项D中的过滤、压缩、分发与ETL定义无关。89.Kafka在大数据技术体系中最典型的应用场景是?

A.实时流处理平台

B.离线批处理引擎

C.分布式关系型数据库

D.数据仓库ETL工具【答案】:A

解析:本题考察Kafka的核心应用场景。Kafka是高吞吐量的分布式消息队列,主要用于实时流数据的传输与处理(如与Flink/SparkStreaming结合实现实时计算);离线批处理通常使用MapReduce/Spark,分布式关系型数据库是HBase/MySQL,ETL工具(如Sqoop)负责数据抽取转换加载。因此正确答案为A。90.当需要存储海量非结构化数据(如日志、文档)且要求高写入性能时,优先选择的数据库类型是?

A.关系型数据库(如MySQL)

B.文档型数据库(如MongoDB)

C.键值型数据库(如Redis)

D.列族数据库(如HBase)【答案】:B

解析:本题考察NoSQL数据库的适用场景。A选项关系型数据库(MySQL)适合结构化数据,非结构化数据存储效率低,且写入性能有限;C选项键值型数据库(Redis)以内存存储为主,适合高频读写的缓存场景,不适合海量非结构化数据;D选项列族数据库(HBase)适合结构化、半结构化数据(如时序数据、物联网数据),但对非结构化数据支持较弱;B选项文档型数据库(MongoDB)支持存储JSON格式的半结构化/非结构化数据,具有高写入性能和灵活的schema设计,适合日志、文档等场景。因此正确答案为B。91.在MapReduce分布式计算框架中,负责将输入数据分割为多个并行处理任务的阶段是?

A.Map阶段

B.Reduce阶段

C.Shuffle阶段

D.Combine阶段【答案】:A

解析:本题考察MapReduce工作原理知识点。MapReduce分为Map、Shuffle、Reduce三个核心阶段:Map阶段负责将输入数据分割为mapper任务并行处理,生成中间键值对;Reduce阶段负责聚合Map输出结果;Shuffle阶段负责数据分区和传输;Combine阶段为Map后的局部聚合优化。只有Map阶段负责数据分割与并行处理。92.Hadoop分布式文件系统(HDFS)的核心作用是?

A.提供分布式存储服务

B.负责集群资源管理

C.执行分布式计算任务

D.提供分布式协调服务【答案】:A

解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,核心作用是提供海量数据的分布式存储服务。选项B中负责集群资源管理的是YARN(YetAnotherResourceNegotiator);选项C中执行分布式计算任务的是MapReduce或Spark等计算框架;选项D中提供分布式协调服务的是ZooKeeper。因此正确答案为A。93.在数据仓库的维度建模中,以下哪种模型的事实表通常与多个维度表通过外键关联,且每个维度表结构相对简单,类似于星星的形状?

A.星型模型

B.雪花模型

C.星座模型

D.星环模型【答案】:A

解析:本题考察数据仓库维度建模的知识点。星型模型是维度建模的经典结构,其特点是事实表位于中心,与多个维度表直接关联,每个维度表结构简单(如只包含维度属性和主键),整体呈现类似“星星”的形状。雪花模型是星型模型的扩展,维度表可能进一步分解为子维度表(如将“地区”维度表拆分为“国家-省-市”多级结构),结构更复杂;星座模型是多个星型模型共享事实表的组合模型;数据仓库中无“星环模型”这一标准术语。因此正确答案为A。94.Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;ZooKeeper是分布式协调服务,提供配置管理等。因此正确答案为A。95.在数据仓库的维度建模中,用于描述业务事件和度量值的表是?

A.事实表

B.维度表

C.关系表

D.事务表【答案】:A

解析:本题考察数据仓库维度建模的核心概念。事实表在维度建模中存储业务事件的度量值(如销售额、订单量)和与维度表关联的外键,是分析的核心数据载体。维度表(B选项)主要存储描述性属性(如时间、地区);关系表(C选项)是通用数据库表结构术语,非维度建模专属;事务表(D选项)通常指业务系统原始交易表,非数据仓库维度建模中的术语。因此正确答案为A。96.适用于存储海量非结构化日志数据(如服务器访问日志)的数据库类型是?

A.键值型(如Redis)

B.列族型(如HBase)

C.文档型(如MongoDB)

D.图数据库(如Neo4j)【答案】:C

解析:本题考察NoSQL数据库的适用场景。文档型数据库(如MongoDB)支持半结构化/非结构化数据存储,以JSON/BSON等文档格式灵活存储日志数据,适合存储结构多变的日志。键值型(如Redis)适合简单键值对;列族型(如HBase)适合结构化数据(如时序数据);图数据库(如Neo4j)适合实体关系建模(如社交网络)。因此正确答案为C。97.HBase作为典型的NoSQL数据库,其最适合存储的场景是?

A.高并发、低延迟的实时随机读写海量结构化数据

B.存储非结构化日志文件

C.存储超大规模的全文检索数据

D.作为关系型数据库的备份存储【答案】:A

解析:本题考察HBase的技术特性与适用场景。HBase是**列式存储、随机读写**的分布式数据库,基于HDFS构建,适合**海量结构化数据**(如用户行为日志、物联网传感器时序数据)的高并发、低延迟访问。B选项错误,非结构化数据(如文本、图片)通常通过HDFS+Elasticsearch等组合存储,HBase更擅长结构化数据;C选项错误,全文检索是Elasticsearch的核心优势;D选项错误,HBase是独立的NoSQL存储系统,并非关系型数据库的备份工具。98.在数据仓库的维度建模中,用于记录业务事件及关联度量值(如销售额、订单量)的表类型是?

A.事实表

B.维度表

C.宽表

D.星型模型【答案】:A

解析:本题考察数据仓库的核心表类型。事实表记录业务事件和可量化的度量值(如“2023年Q1北京地区手机销售额”);维度表用于描述事实表的上下文属性(如时间、地区、产品维度);宽表是数据集市中常见的整合表结构,星型模型是维度建模的一种具体结构(包含事实表和维度表)。因此正确答案为A。99.以下哪一项不属于H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论