2026年数据技术提分评估复习及答案详解(必刷)_第1页
2026年数据技术提分评估复习及答案详解(必刷)_第2页
2026年数据技术提分评估复习及答案详解(必刷)_第3页
2026年数据技术提分评估复习及答案详解(必刷)_第4页
2026年数据技术提分评估复习及答案详解(必刷)_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年数据技术提分评估复习及答案详解(必刷)1.以下哪种数据库系统主要用于支持企业的日常业务操作和事务处理?

A.关系型数据库(如MySQL)

B.数据仓库(如Teradata)

C.OLTP数据库

D.OLAP系统【答案】:C

解析:本题考察数据库系统的应用场景。选项C“OLTP数据库”(联机事务处理)专为日常业务操作(如订单管理、用户登录)设计,强调实时性和事务一致性。选项A“关系型数据库”过于宽泛(既可以是OLTP也可以是OLAP);选项B“数据仓库”用于历史数据分析和决策支持,非事务处理;选项D“OLAP系统”(联机分析处理)专注于复杂查询和多维度分析,不支持事务处理。因此选项C正确。2.以下哪项不属于Hadoop分布式文件系统(HDFS)的核心功能?

A.存储海量数据

B.提供高容错性的副本机制

C.负责分布式计算任务

D.管理文件元数据【答案】:C

解析:本题考察HDFS的核心功能知识点。HDFS是Hadoop生态的分布式存储系统,核心功能包括存储海量数据、通过副本机制保障容错性、管理文件元数据(如目录结构、权限等)。而分布式计算任务由Hadoop的MapReduce或YARN组件负责,并非HDFS的功能,因此选项C错误。3.在数据仓库建设中,‘从源系统提取数据到临时存储,经清洗、转换后加载到目标数据仓库’描述的是哪个过程?

A.ETL

B.ELT

C.ETL和ELT都包含

D.以上都不是【答案】:A

解析:本题考察ETL与ELT的定义。ETL(Extract,Transform,Load)是先提取数据,经过清洗、转换等处理后,再加载到目标数据仓库;ELT(Extract,Load,Transform)则是先将数据直接加载到目标系统,再在目标系统中进行转换。题干明确描述了‘先提取→转换→加载’的流程,符合ETL的定义。因此正确答案为A。4.数据仓库(DataWarehouse)的核心特点不包括以下哪项?

A.面向主题

B.集成性

C.实时性

D.非易失性【答案】:C

解析:本题考察数据仓库的核心特性。数据仓库的四大特点为:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据一旦存入不再被修改,仅追加历史数据)、时变性(随时间推移积累历史数据)。选项C“实时性”并非数据仓库的核心特点,数据仓库通常面向批处理分析,强调历史数据积累而非实时响应。因此正确答案为C。5.在数据处理流程ETL中,‘T’代表的关键步骤是?

A.Extract(抽取)

B.Transform(转换)

C.Load(加载)

D.Transfer(传输)【答案】:B

解析:本题考察ETL流程的核心步骤。ETL(抽取-转换-加载)的三个标准步骤中,‘T’代表Transform(转换),即对抽取的数据进行清洗、标准化、整合等处理;Extract是数据从源系统抽取,Load是将处理后的数据加载到目标存储;Transfer并非ETL标准术语。因此B为正确答案。6.在关系型数据库中,以下哪种索引结构在大数据量下适合范围查询且IO效率较高?

A.B树索引

B.B+树索引

C.哈希索引

D.红黑树索引【答案】:B

解析:本题考察数据库索引类型的特点。B+树索引的叶子节点通过指针连接,范围查询时只需遍历叶子节点链表,减少IO次数;同时所有数据存在叶子节点,非叶子节点仅存索引键,降低空间占用。A选项B树索引的叶子节点不相连,范围查询需遍历所有分支节点,IO效率低于B+树;C选项哈希索引仅适用于等值查询,无法支持范围查询;D选项红黑树是内存中的二叉平衡树,不适合磁盘存储的大数据量场景。7.在数据库事务的ACID特性中,“C”指的是事务的什么特性?

A.原子性(Atomicity)

B.隔离性(Isolation)

C.一致性(Consistency)

D.持久性(Durability)【答案】:C

解析:本题考察数据库事务ACID特性知识点。ACID是事务的四个核心特性:原子性(A)指事务要么全部执行,要么全部不执行;隔离性(I)指多个事务并发执行时互不干扰;一致性(C)指事务执行前后数据库始终处于合法状态;持久性(D)指事务提交后数据永久保存。正确答案为C,因为“C”对应一致性,即事务需保证数据从一个合法状态转换到另一个合法状态。8.关于ApacheSpark和ApacheFlink的技术特性,以下描述正确的是?

A.SparkStreaming基于微批处理,Flink基于纯流处理

B.Spark仅支持无状态流处理,Flink支持有状态流处理

C.Spark仅支持事件时间语义,Flink仅支持处理时间语义

D.Spark是离线计算框架,Flink是实时计算框架【答案】:A

解析:本题考察流处理框架的技术差异。SparkStreaming(现StructuredStreaming)基于微批处理模型,将流数据切分为小批量处理;Flink是纯流处理框架,基于事件时间语义处理实时流数据。选项B错误,Flink和Spark均支持有状态计算;选项C错误,两者均支持事件时间和处理时间语义;选项D错误,Spark可处理离线/实时计算(微批),Flink以实时计算为核心但也支持批处理。因此正确答案为A。9.数据库事务的ACID特性具体包括以下哪一组?

A.原子性、一致性、隔离性、持久性

B.原子性、完整性、隔离性、持久性

C.原子性、一致性、独立性、持久性

D.原子性、一致性、隔离性、安全性【答案】:A

解析:本题考察数据库事务的ACID特性知识点。ACID是数据库事务正确执行的四个基本特性:原子性(Atomicity,事务不可分割,要么全做要么全不做)、一致性(Consistency,事务执行前后数据符合业务规则)、隔离性(Isolation,多个事务互不干扰)、持久性(Durability,事务提交后数据永久保存)。错误选项中,B的“完整性”属于数据校验概念,非ACID特性;C的“独立性”混淆了事务隔离级别;D的“安全性”是数据保护措施,与ACID无关。10.以下哪项通常不属于数据仓库(DataWarehouse)的核心特征?

A.面向主题

B.集成性

C.实时性

D.时变性【答案】:C

解析:本题考察数据仓库的核心特征。数据仓库的四大特征为:面向主题(围绕特定业务主题组织)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(反映历史变化趋势)。实时性是流处理或OLTP系统的特征,数据仓库侧重批处理分析,不强调实时更新,因此C不属于其特征。正确答案为C。11.以下哪项属于数据治理中的元数据类型?

A.数据血缘关系

B.实时交易记录

C.数据存储容量

D.数据访问权限【答案】:A

解析:本题考察数据治理中元数据的分类。元数据是“描述数据的数据”,分为技术元数据(如数据结构、存储位置)、业务元数据(如业务规则、数据含义)、操作元数据(如访问日志、数据血缘)。选项A“数据血缘关系”属于操作元数据,描述数据从源头到最终应用的流转路径,是数据治理的核心内容;选项B“实时交易记录”是业务系统的原始操作数据,不属于元数据;选项C“数据存储容量”是数据库的技术指标,属于系统配置而非元数据;选项D“数据访问权限”属于数据安全策略,是数据治理的安全维度,而非元数据。因此正确答案为A。12.在Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.HBase(分布式NoSQL数据库)【答案】:C

解析:本题考察Hadoop核心组件功能。选项A错误,HDFS是分布式文件系统,负责海量数据存储;选项B错误,MapReduce是分布式计算框架,负责并行任务执行;选项C正确,YARN(YetAnotherResourceNegotiator)是资源管理器,核心作用是调度集群资源并分配给计算任务;选项D错误,HBase是分布式NoSQL数据库,用于结构化数据随机读写。13.元数据管理在数据治理中的主要作用是?

A.自动执行数据清洗和转换任务,提升数据质量

B.记录数据的来源、结构和业务含义,辅助理解数据

C.监控数据处理的实时性能指标,优化计算资源

D.直接对数据质量问题进行修复,无需人工干预【答案】:B

解析:本题考察元数据的核心功能。B正确,元数据(如数据字典、字段含义)的核心作用是描述数据,辅助理解数据上下文;A错误,元数据仅记录信息,不执行数据处理任务;C错误,元数据与性能监控无关,属于数据血缘或质量范畴;D错误,元数据无法直接修复数据问题,需结合数据清洗工具。14.以下哪项是数据治理的核心目标之一?

A.提高数据质量与数据可用性

B.降低数据存储成本

C.优化ETL工具的执行速度

D.提升数据抽取的效率【答案】:A

解析:本题考察数据治理的核心目标。数据治理通过规范数据全生命周期管理(如元数据管理、数据质量监控、数据安全合规),核心目标是确保数据质量(如准确性、完整性)和数据可用性(如数据可访问性、一致性);B、C、D选项均属于技术优化或工具性能提升范畴(如存储成本优化、ETL性能优化),不属于数据治理的核心目标。因此正确答案为A。15.与MapReduce相比,Spark的主要优势在于?

A.基于磁盘存储数据

B.支持高效的迭代计算

C.仅能处理结构化数据

D.仅适用于批处理场景【答案】:B

解析:本题考察Spark与MapReduce的技术差异。MapReduce基于磁盘进行迭代计算,效率较低;Spark采用内存计算框架,支持DAG执行引擎,能显著提升迭代计算(如机器学习、图计算)的效率。选项A“基于磁盘存储”是MapReduce的特点(MapReduce中间结果需写入磁盘);选项C“仅处理结构化数据”错误,Spark支持JSON、CSV、Parquet等多种格式,包括半结构化/非结构化数据;选项D“仅适用于批处理”错误,Spark还支持流处理(StructuredStreaming)和实时计算。因此正确答案为B。16.以下哪项不属于Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.MapReduce(计算框架)

C.MySQL(关系型数据库)

D.YARN(资源管理器)【答案】:C

解析:Hadoop生态系统核心组件包括HDFS(分布式存储)、MapReduce/YARN(计算与资源管理)、ZooKeeper(分布式协调)等。MySQL是独立的关系型数据库系统,不属于Hadoop核心组件。17.以下关于OLAP(联机分析处理)和OLTP(联机事务处理)的描述,错误的是?

A.OLTP系统主要用于日常业务操作,如订单处理

B.OLAP系统通常采用星型模型或雪花模型进行数据存储

C.OLTP系统强调数据的实时性和一致性,要求事务ACID特性

D.OLAP系统的数据通常是历史数据,更新频率高【答案】:D

解析:本题考察OLAP与OLTP的本质区别。OLAP(分析型)主要用于决策支持,数据多为历史快照,更新频率低(如按天/周追加);OLTP(事务型)强调实时性和一致性,用于日常业务操作。选项A正确,OLTP典型场景如电商订单处理;选项B正确,OLAP为优化分析常采用星型/雪花模型;选项C正确,OLTP事务需满足ACID特性。18.Spark中,用于表示分布式、不可变、可并行处理的数据集的核心抽象是?

A.RDD

B.DataFrame

C.SparkContext

D.DStream【答案】:A

解析:本题考察Spark核心概念。RDD(弹性分布式数据集)是Spark的核心抽象,定义了分布式、不可变、可并行计算的数据集,支持内存计算和容错;DataFrame是带有Schema的结构化数据集合,基于RDD实现但更强调数据结构;SparkContext是Spark应用的入口点,负责集群连接;DStream是SparkStreaming中的实时流抽象,用于处理实时数据流。因此A为正确答案。19.以下哪种算法属于无监督学习算法?

A.决策树分类(如ID3算法)

B.K-Means聚类算法

C.支持向量机(SVM)分类

D.逻辑回归分类【答案】:B

解析:本题考察机器学习算法的分类。无监督学习算法无需人工标注标签,通过数据自身特征发现模式,K-Means是典型的无监督聚类算法,用于将数据划分为不同簇。A、C、D选项均属于监督学习:决策树、SVM、逻辑回归均需训练数据包含输入特征和对应的标签(如类别),通过学习映射关系进行分类或回归预测。因此正确答案为B。20.在星型数据模型中,存储业务度量值(如订单金额、数量)的表是?

A.维度表

B.事实表

C.星座表

D.雪花表【答案】:B

解析:星型模型由事实表和维度表组成:事实表存储业务度量数据(如订单金额、数量)和关联维度表的外键;维度表存储描述性数据(如客户名称、产品类别),用于解释事实表数据;“星座表”是多个事实表共享维度表的模型,“雪花表”是维度表规范化后的变体。因此正确答案为B。21.Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统,负责将数据分割并存储在多台服务器上,实现高容错和高吞吐量的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN负责集群资源管理和调度;Hive是基于Hadoop的SQL查询工具,用于数据仓库分析。因此正确答案为A。22.与传统的MapReduce相比,Spark在大数据处理中具有显著优势,以下哪项不属于Spark的核心优势?

A.基于内存计算,大大减少了磁盘I/O操作

B.支持多种数据处理模式,包括批处理、流处理和交互式查询

C.只能处理结构化数据,无法处理半结构化或非结构化数据

D.提供了丰富的API(如Scala、Python、Java),易于编程【答案】:C

解析:本题考察Spark核心优势对比MapReduce。Spark优势包括:①内存计算减少磁盘I/O(A正确);②统一处理引擎支持批处理、流处理(StructuredStreaming)和交互式查询(SparkSQL)(B正确);③多语言API(Scala/Python/Java)降低开发门槛(D正确)。Spark支持结构化、半结构化(JSON/XML)和非结构化数据(文本/图片元数据),而MapReduce主要处理结构化数据。选项C错误描述了Spark能力,因此正确答案为C。23.以下哪项是数据仓库的核心特点之一?

A.实时更新以支持即时业务决策

B.面向特定业务流程而非全局主题

C.数据集成,整合来自多个数据源

D.主要用于事务处理而非分析【答案】:C

解析:本题考察数据仓库核心特点。数据仓库具有‘集成性’,即整合分散的数据源;‘面向主题’而非特定流程(排除B);‘非易失性’(数据一旦存入一般不修改,排除A);‘时变性’(数据随时间积累)。D错误,数据仓库主要用于分析而非事务处理(事务处理是OLTP系统的职责)。因此正确答案为C。24.ApacheKafka在流处理系统中的主要作用是?

A.提供低延迟的实时计算引擎

B.作为分布式存储系统存储历史数据

C.作为消息中间件缓冲和持久化数据流

D.实现数据仓库的ETL自动化流程【答案】:C

解析:本题考察Kafka核心功能。选项A错误,实时计算由Flink/SparkStreaming等框架提供;选项B错误,Kafka是消息队列,非分布式存储;选项C正确,Kafka作为高吞吐消息中间件,用于缓冲和持久化实时数据流;选项D错误,ETL流程由专门工具或框架实现,Kafka不负责ETL。25.以下哪个是开源的实时流处理计算框架?

A.ApacheFlink

B.ApacheHadoop

C.ApacheSpark

D.ApacheHive【答案】:A

解析:本题考察主流大数据框架的技术定位。ApacheFlink是专为实时流处理设计的开源框架,支持高吞吐、低延迟的流数据处理,兼具流处理和批处理能力;B选项Hadoop是分布式存储(HDFS)与批处理(MapReduce)的综合框架,非流处理;C选项Spark以批处理(SparkCore)和内存计算为核心,其流处理模块SparkStreaming本质是微批处理,非纯实时流处理;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。26.以下哪项是数据仓库的核心特点?

A.数据实时更新

B.面向主题

C.数据可随意修改

D.仅存储当前数据【答案】:B

解析:本题考察数据仓库特点。数据仓库特点包括:①面向主题(围绕业务主题组织数据,如销售、财务);②集成性(整合多源数据,消除数据冗余与不一致);③非易失性(数据一旦加载通常不被修改,仅追加历史数据);④时变性(随时间积累历史数据,支持趋势分析)。A选项“实时更新”是OLTP(联机事务处理)系统特点;C选项“数据可随意修改”违背非易失性原则;D选项“仅存储当前数据”忽略了数据仓库的时变性(历史数据存储)。因此正确答案为B。27.在数据预处理阶段,处理数值型数据缺失值时,以下哪种方法最为常用?

A.直接删除包含缺失值的记录

B.使用均值或中位数填充缺失值

C.使用众数填充缺失值(适用于类别型数据)

D.通过插值法(如线性插值)精确填充缺失值【答案】:B

解析:本题考察数据清洗中缺失值的处理方法。对于数值型数据,常用方法是均值或中位数填充(选项B),因其简单高效且能保留数据分布特征。选项A错误,直接删除记录可能导致样本量不足或引入偏差;选项C错误,众数是类别型数据的常用填充方法,不适用于数值型;选项D错误,插值法(如线性插值)属于更高级的填充技术,通常用于数据量小或对精度要求高的场景,非最常用方法。28.在MySQL数据库中,默认使用的索引类型是?

A.B+树索引

B.哈希索引(HashIndex)

C.R树索引(R-TreeIndex)

D.非聚簇索引(Non-ClusteredIndex)【答案】:A

解析:本题考察数据库索引类型。MySQL的InnoDB存储引擎默认使用B+树索引,其特点为:支持范围查询(如`WHEREidBETWEEN1AND100`)、有序性(索引数据按顺序存储)、适合磁盘存储(减少IO次数)。选项B“哈希索引”仅在Memory引擎中默认支持,且仅适用于等值查询(如`WHEREkey=value`);选项C“R树索引”主要用于空间数据索引(如GIS系统),非通用场景;选项D“非聚簇索引”是聚簇索引的对比概念,MySQL中InnoDB的主键索引为聚簇索引,非主键索引为非聚簇索引,但非聚簇索引并非默认类型,而是索引类型的分类描述。29.在关系型数据库中,关于主键(PrimaryKey)的描述,正确的是?

A.一个表可以有多个主键

B.主键字段的值可以为NULL

C.主键用于唯一标识表中的记录

D.主键只能由单个字段组成【答案】:C

解析:本题考察主键的基本概念。主键是唯一标识表中每条记录的字段或字段组合,具有唯一性和非空性。选项A错误:一个表只能有一个主键(复合主键是多字段组合,但仍视为一个主键约束);选项B错误:主键字段的值不允许为NULL,否则无法唯一标识;选项C正确:主键核心作用即唯一标识记录;选项D错误:主键可以是单个字段或多个字段组合(复合主键)。因此正确答案为C。30.以下哪项是数据仓库(DataWarehouse)的核心特点之一?

A.面向主题

B.实时事务处理

C.高并发写入

D.强实时查询【答案】:A

解析:数据仓库的核心特点包括面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(历史数据一般不频繁修改)和时变性(随时间变化的数据存储)。B“实时事务处理”是联机事务处理(OLTP)系统的特点;C“高并发写入”是OLTP数据库的性能需求;D“强实时查询”通常不是数据仓库的典型要求(数据仓库更侧重批量分析而非实时查询)。31.在数据集成过程中,ETL(Extract,Transform,Load)与ELT(Extract,Load,Transform)的主要区别在于?

A.ETL在数据加载前完成数据转换,ELT在加载后完成

B.ETL适用于大数据量,ELT适用于小数据量

C.ETL的数据转换仅在源系统完成,ELT在目标系统完成

D.ETL需要数据库支持,ELT不需要【答案】:A

解析:本题考察ETL与ELT的核心区别。ETL的流程是先抽取(Extract)数据,再在中间层完成转换(Transform),最后加载(Load)到目标系统;ELT则是先抽取后直接加载到目标系统,再在目标系统中进行转换。因此A正确。B错误,ELT因可利用目标系统并行处理能力,更适合大数据量;C错误,ETL的转换阶段可在中间系统完成,ELT的转换也可在中间层或目标系统完成,并非“仅在源/目标系统”;D错误,两者均依赖数据库存储目标数据。因此正确答案为A。32.关于ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)两种数据集成模式,以下描述正确的是?

A.ETL先进行数据转换再加载到目标系统,ELT反之

B.ETL仅适用于云端环境,ELT仅适用于本地部署

C.ETL更适合大数据量场景,ELT更适合小数据量场景

D.ETL对目标系统资源要求更高,ELT对源系统资源要求更高【答案】:A

解析:本题考察ETL与ELT的核心差异。选项A正确,ETL流程是先从源系统提取数据,转换清洗后加载到目标系统(如数据仓库);ELT则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,适合数据量大、目标系统资源充足的场景;选项B错误,两者均支持云端/本地部署;选项C错误,ELT更适合大数据量(减少数据传输),ETL适合小数据量或源系统资源有限的场景;选项D错误,ETL需源系统完成转换,对源系统资源要求高;ELT需目标系统存储原始数据,对目标系统存储要求高。33.关于MySQL中主键索引的描述,以下哪项是正确的?

A.主键索引是MySQL中唯一允许重复值的索引类型

B.InnoDB引擎的主键索引采用B+树结构,且是聚簇索引

C.创建主键索引会自动导致表中数据按哈希顺序存储

D.主键索引只能包含单个字段,不能是复合索引【答案】:B

解析:本题考察MySQL主键索引的核心特性。选项A错误,主键索引要求列值唯一且非空,不允许重复值;选项B正确,InnoDB引擎默认使用B+树结构的聚簇索引,数据物理存储顺序与主键顺序一致;选项C错误,主键索引数据存储顺序遵循B+树的有序结构,而非哈希顺序;选项D错误,主键索引支持复合索引(联合主键),可由多个字段组合定义。34.在数据仓库中,以下哪项通常用于存储业务事件和度量值(如销售额、订单量)?

A.维度表

B.事实表

C.数据集市

D.星型模型【答案】:B

解析:本题考察数据仓库的核心表类型。事实表(选项B)用于存储业务事件的度量值(可量化数据,如销售额、订单量),通常包含外键关联维度表和可聚合的数值字段。维度表(选项A)用于描述业务实体(如客户、产品),提供事实表的分析视角;数据集市(选项C)是面向特定部门的小型数据仓库,非表类型;星型模型(选项D)是数据仓库的一种逻辑模型结构,非表类型。35.在Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(Hadoop分布式文件系统)是Hadoop的分布式存储核心,负责海量数据的可靠存储;MapReduce是分布式计算框架,YARN负责资源管理和任务调度,Hive是基于Hadoop的数据仓库工具。因此正确答案为A。36.数据治理的核心目标是?

A.确保数据质量和数据标准的一致性

B.最大化数据存储系统的容量利用率

C.提升数据处理系统的运行速度

D.降低数据备份与恢复的频率【答案】:A

解析:本题考察数据治理的核心目标。数据治理围绕数据全生命周期管理,核心目标包括确保数据质量(准确性、完整性)、统一数据标准(格式、命名规范)、保障数据安全与合规等。B选项“存储容量利用率”属于存储优化,与数据治理无关;C选项“提升处理速度”属于性能优化,非数据治理范畴;D选项“降低备份频率”属于容灾备份策略,非数据治理核心。因此正确答案为A。37.在ETL数据处理流程中,对原始数据进行清洗、转换格式、统一编码等操作主要属于哪个步骤?

A.Extract(抽取)

B.Transform(转换)

C.Load(加载)

D.Archive(归档)【答案】:B

解析:ETL流程中,Extract是从源系统获取原始数据;Transform是对数据进行清洗、格式转换、字段映射等处理,使其符合目标数据仓库格式;Load是将处理后的数据加载到目标存储。Archive(归档)不属于标准ETL步骤,是数据生命周期管理的延伸。38.在数据存储架构中,数据仓库与数据湖的核心区别是?

A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据

B.数据仓库存储经过清洗和转换的数据,数据湖存储原始数据

C.数据仓库支持实时分析,数据湖仅支持批处理分析

D.数据仓库是面向分析的,数据湖是面向开发的【答案】:B

解析:本题考察数据仓库与数据湖的本质差异。正确答案为B。数据仓库是经过ETL(抽取、转换、加载)处理的结构化数据集合,面向企业级分析;数据湖则直接存储原始数据(结构化、半结构化、非结构化),保留数据原貌,后续可按需进行转换和分析。选项A错误,数据湖可存储结构化数据(如CSV、Parquet),数据仓库也可包含少量非结构化数据(如文档);选项C错误,两者均可支持批处理和实时分析(如数据湖通过Flink实时处理原始数据);选项D错误,两者均需面向分析场景,仅数据存储形态和处理阶段不同。39.在数据ETL流程中,数据从源系统到目标数据仓库的标准执行顺序是?

A.提取(Extract)→转换(Transform)→加载(Load)

B.提取(Extract)→加载(Load)→转换(Transform)

C.转换(Transform)→提取(Extract)→加载(Load)

D.加载(Load)→转换(Transform)→提取(Extract)【答案】:A

解析:本题考察ETL流程的标准步骤。ETL(Extract-Transform-Load)是数据从源系统到目标系统的核心流程:首先从源系统(如业务数据库)提取数据(Extract),然后对数据进行清洗、转换(如格式统一、缺失值填充、字段映射等)(Transform),最后将处理后的数据加载(Load)到目标系统(如数据仓库)。选项B错误,加载应在转换之后,否则数据未经过处理就直接加载会导致目标系统数据混乱;选项C和D顺序完全颠倒,不符合ETL的标准流程。40.在数据仓库设计中,星型模型与雪花模型的主要区别在于?

A.事实表是否与多个维度表关联

B.维度表是否进行规范化拆分(子表)

C.事实表是否包含度量值

D.维度表是否包含层次结构【答案】:B

解析:本题考察数据仓库模型的结构特点。星型模型的维度表是“扁平化”的,直接与事实表连接(无进一步拆分);雪花模型则将维度表规范化,拆分为多个子表(如国家→省份→城市的层级拆分),结构类似雪花。选项A错误,两者均支持事实表与多个维度表关联;选项C错误,事实表通常都包含度量值(如销售额);选项D错误,两者维度表均可包含层次结构。因此核心区别为维度表是否规范化拆分,正确答案为B。41.数据治理中,用于描述数据资产的技术属性(如数据存储位置、字段类型)和业务属性(如数据来源、字段含义)的是?

A.元数据

B.主数据

C.数据血缘

D.数据标准【答案】:A

解析:本题考察数据治理中核心概念的定义。元数据是“描述数据的数据”,包含技术元数据(如存储位置、字段类型)、业务元数据(如数据来源、字段含义)和操作元数据(如数据更新频率)。B选项主数据是核心业务实体数据(如客户、产品),非描述属性;C选项数据血缘描述数据从产生到消费的全生命周期路径,不直接描述属性;D选项数据标准是规范数据定义、格式的统一规则,非属性描述。42.以下哪项是数据仓库的核心特征?

A.面向应用场景

B.数据随时间变化而实时删除

C.数据冗余度高以支持多业务查询

D.面向主题且集成历史数据【答案】:D

解析:本题考察数据仓库的核心特征知识点。数据仓库的核心特征包括:①面向主题(围绕特定业务主题组织数据,如销售、财务);②集成性(整合多源数据,消除数据不一致);③非易失性(数据仅追加或更新,不轻易删除);④时变性(存储历史数据,支持趋势分析)。选项A错误,“面向应用”是操作型数据库(OLTP)的特点;选项B错误,数据仓库保留历史数据,不会“实时删除”;选项C错误,数据仓库通过整合和清洗减少冗余,以支持高效查询;选项D正确,“面向主题”和“集成历史数据”是数据仓库的核心定义。43.在关系型数据库中,主键(PrimaryKey)的主要作用是?

A.唯一标识表中的一行数据

B.允许表中存在重复数据

C.自动生成表中的所有数据

D.加快表的查询速度【答案】:A

解析:本题考察关系型数据库主键的核心概念。主键是表中用于唯一标识一行数据的字段或字段组合,其核心作用是确保数据的唯一性和可区分性。选项B错误,主键不允许表中存在重复数据;选项C错误,主键仅用于标识数据,而非生成数据;选项D错误,主键通过建立唯一索引间接优化查询效率,但“加快查询速度”是结果而非主键的主要作用。44.下列关于Spark和HadoopMapReduce的描述,正确的是?

A.Spark只能基于磁盘进行数据处理

B.Spark的DAG执行引擎相比MapReduce减少了磁盘IO

C.MapReduce比Spark更适合迭代计算

D.Spark不支持内存外的存储【答案】:B

解析:本题考察大数据计算框架的核心差异。Spark采用内存计算框架,通过DAG执行引擎优化任务路径,减少中间结果的磁盘IO;A选项错误,Spark优先使用内存计算,仅在内存不足时才落盘;C选项错误,MapReduce需频繁读写磁盘,迭代计算效率远低于Spark;D选项错误,Spark支持内存外存储(如Tachyon),适用于超大数据集。45.在Hadoop生态系统中,负责为集群提供资源管理和作业调度的核心组件是?

A.YARN

B.MapReduce

C.HDFS

D.ZooKeeper【答案】:A

解析:本题考察Hadoop核心组件功能。YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理器,负责节点资源分配、作业调度和任务执行管理。B选项MapReduce是分布式计算框架,专注于并行处理而非资源管理;C选项HDFS是分布式文件系统,负责数据存储;D选项ZooKeeper是分布式协调服务,用于集群一致性管理,不直接参与资源调度。46.数据仓库的核心特性是?

A.面向操作(Transaction-Oriented)

B.面向应用(Application-Oriented)

C.面向主题(Subject-Oriented)

D.面向用户(User-Oriented)【答案】:C

解析:本题考察数据仓库特性。数据仓库是为支持决策分析构建的集成化数据存储,核心特性包括:面向主题(围绕业务主题组织数据,如销售、财务)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化反映历史趋势)。选项A“面向操作”是OLTP系统(事务处理系统)的特点;选项B“面向应用”表述模糊,非数据仓库核心;选项D“面向用户”过于宽泛,数据仓库主要面向分析需求而非直接用户操作。47.以下哪项是微软推出的商业智能(BI)工具?

A.Tableau

B.PowerBI

C.QlikSense

D.Metabase【答案】:B

解析:本题考察数据可视化工具知识点。PowerBI是微软推出的BI工具,支持数据连接、可视化报表制作和交互式分析;Tableau是独立商业智能公司的产品;QlikSense是Qlik公司的BI工具;Metabase是开源BI工具,专注于数据查询和可视化。因此正确答案为B。48.下列关于数据仓库中星型模型的描述,正确的是?

A.事实表通过规范化的维度表间接连接

B.维度表会进一步拆分为子维度表

C.事实表直接与所有维度表相连,维度表间无直接关联

D.仅包含一个事实表和一个维度表【答案】:C

解析:本题考察星型模型特征。星型模型以事实表为中心,所有维度表直接与事实表关联,维度表间无冗余连接(区别于雪花模型的规范化拆分)。选项A错误,星型模型维度表不进行规范化拆分;选项B描述的是雪花模型特征;选项D错误,星型模型可包含多个维度表。正确答案为C。49.以下哪个工具是开源的ETL工具?

A.InformaticaPowerCenter

B.Kettle(PentahoDataIntegration)

C.OracleDataIntegrator

D.IBMInfoSphereDataStage【答案】:B

解析:本题考察主流ETL工具的开源属性。Kettle(现更名为PentahoDataIntegration,选项B)是开源的ETL工具,支持图形化拖拽配置,广泛用于数据抽取、转换和加载。选项A(Informatica)、C(OracleODI)、D(IBMDataStage)均为商业闭源ETL工具,需付费授权使用,仅提供开源社区版或试用版。50.以下哪种数据库系统不属于关系型数据库(RDBMS)?

A.MySQL

B.PostgreSQL

C.MongoDB

D.Oracle【答案】:C

解析:本题考察关系型数据库与非关系型数据库的区别。关系型数据库(RDBMS)以表格形式存储数据,通过SQL查询,典型代表包括MySQL、PostgreSQL、Oracle。而MongoDB是文档型非关系型数据库(NoSQL),以JSON-like文档存储数据,不支持SQL标准。因此正确答案为C。51.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为海量数据存储设计;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。因此正确答案为A。52.数据库事务的ACID特性中,‘确保事务中的所有操作要么全部成功,要么全部失败’描述的是哪个特性?

A.原子性(Atomicity)

B.一致性(Consistency)

C.隔离性(Isolation)

D.持久性(Durability)【答案】:A

解析:本题考察数据库事务ACID特性的定义。原子性(Atomicity)要求事务中的操作不可分割,要么全部执行成功,要么全部失败回滚;一致性(Consistency)指事务执行前后数据满足完整性约束;隔离性(Isolation)指多个事务并发执行时互不干扰;持久性(Durability)指事务提交后数据永久保存。题干描述的是原子性,因此正确答案为A。53.在数据仓库设计中,以下哪种模型通过将维度表进一步规范化,减少数据冗余?

A.星型模型

B.雪花模型

C.星座模型

D.事实星座模型【答案】:B

解析:本题考察数据仓库模型设计的知识点。雪花模型通过将星型模型中的维度表进一步规范化(如地理维度表拆分为国家、省份、城市三级),减少数据冗余;A选项星型模型是中心事实表+非规范化维度表,冗余度较高;C选项星座模型(事实星座)是多个事实表共享维度表,与冗余无关;D选项是星座模型的别称,核心仍为事实表关联维度表,未涉及规范化。54.在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.HDFS

C.YARN

D.ZooKeeper【答案】:B

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;MapReduce是分布式计算框架;YARN负责集群资源管理和任务调度;ZooKeeper是分布式协调服务。因此负责分布式文件存储的是HDFS,正确答案为B。55.在数据仓库中,以下哪项通常属于事实表的特征?

A.存储描述性信息(如客户名称、产品类别)

B.包含大量可度量的业务事件数据(如订单金额、交易数量)

C.作为数据仓库的‘骨架’,仅用于关联其他表

D.只能与一个维度表建立关联关系【答案】:B

解析:本题考察数据仓库中事实表与维度表的区别。选项A错误,描述性信息(如客户名称、产品类别)属于维度表特征;选项B正确,事实表存储业务事件的度量值数据(如订单金额、数量),是分析的核心数据;选项C错误,事实表不仅关联维度表,还直接存储可度量数据;选项D错误,事实表可与多个维度表关联(如订单表关联客户、产品、时间维度表)。56.数据库事务的ACID特性中,“一个事务中的所有操作要么全部执行,要么全部不执行”描述的是以下哪个特性?

A.原子性(Atomicity)

B.一致性(Consistency)

C.隔离性(Isolation)

D.持久性(Durability)【答案】:A

解析:本题考察数据库事务的ACID特性定义。正确答案为A。原子性(Atomicity)强调事务的不可分割性,即事务内的操作是一个整体,要么全部成功,要么全部失败回滚。选项B一致性(Consistency)指事务执行前后数据需满足业务规则和完整性约束,而非操作的原子性;选项C隔离性(Isolation)描述多个事务并发执行时的相互隔离程度,避免交叉干扰;选项D持久性(Durability)指事务提交后,修改的数据会永久保存,即使系统故障也不会丢失,与操作的整体性无关。57.以下哪项属于数据治理中的‘操作元数据’?

A.数据血缘关系(DataLineage)

B.数据每日访问次数统计

C.数据字段的业务含义定义

D.数据存储的物理文件格式【答案】:B

解析:本题考察数据治理中元数据分类。操作元数据记录数据的使用与操作情况。选项A错误,数据血缘关系属于技术元数据;选项B正确,数据每日访问次数统计属于操作元数据;选项C错误,数据字段业务含义属于业务元数据;选项D错误,数据存储格式属于技术元数据。58.在ETL流程中,以下哪个步骤负责将数据从源系统提取到临时存储?

A.Extract(抽取)

B.Transform(转换)

C.Load(加载)

D.Merge(合并)【答案】:A

解析:本题考察ETL流程的核心步骤。ETL即抽取(Extract)、转换(Transform)、加载(Load):Extract负责从源系统(如MySQL、日志文件)提取原始数据到临时区域;Transform对数据进行清洗、格式转换、关联等处理;Load将转换后的数据加载到目标系统(如数据仓库)。“Merge”不属于ETL标准步骤,因此正确答案为A。59.在Hadoop生态系统中,负责存储海量结构化数据的核心分布式文件系统是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop生态系统组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,采用分块和副本机制保障高容错性。B选项MapReduce是分布式计算框架,用于并行处理大数据;C选项YARN是资源管理器,负责调度计算资源;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。60.数据仓库中,星型模型的主要特点是?

A.包含冗余数据以简化查询

B.每个维度表进一步规范化为子表

C.仅包含一个事实表与多个维度表直接相连

D.维度表具有多层级的规范化结构【答案】:A

解析:本题考察数据仓库星型模型知识点。星型模型的核心是事实表与多个维度表直接相连,维度表为扁平结构,通常包含冗余数据以简化查询(如将重复的城市名称、地区名称直接存储在维度表中);而B、D描述的是雪花模型(维度表进一步规范化分解为子表,形成多层级结构);C错误,星型模型通常为一个事实表对应多个维度表,而非多个事实表。因此正确答案为A。61.以下哪种索引类型在MySQLInnoDB存储引擎中默认使用,并且支持范围查询效率较高?

A.B+树索引

B.B树索引

C.哈希索引

D.聚簇索引【答案】:A

解析:本题考察数据库索引类型及InnoDB存储引擎特性。MySQLInnoDB默认使用B+树索引,其特点是所有数据存在叶子节点,且叶子节点通过指针形成双向链表,既能支持高效的等值查询,又能通过链表快速进行范围查询(如ORDERBY和BETWEEN操作)。B选项B树索引虽然结构类似,但叶子节点可能存储数据,且范围查询效率不如B+树;C选项哈希索引仅支持等值查询,不支持范围查询;D选项聚簇索引是一种数据组织方式(InnoDB表数据即聚簇索引),而非独立索引类型。因此正确答案为A。62.在关系型数据库中,B+树索引相比B树索引的显著优势是?

A.支持更快的插入操作

B.所有叶子节点通过指针连接,便于范围查询

C.只能用于聚簇索引,而B树不能

D.叶子节点不存储实际数据,仅存储指针【答案】:B

解析:本题考察B+树与B树索引的技术差异。B+树的叶子节点通过指针连成链表,所有叶子节点包含完整数据且有序,支持高效范围查询(如`BETWEEN`操作);B树的叶子节点不相连,范围查询需遍历相邻节点,效率较低。A选项插入效率相近;C选项B+树和B树均可作为聚簇/非聚簇索引;D选项B+树叶子节点既存储数据指针也存储数据本身。因此正确答案为B。63.在数据ETL处理流程中,对原始数据进行清洗(如处理缺失值)、格式转换(如统一日期格式)等操作属于哪个阶段?

A.抽取(Extract)

B.转换(Transform)

C.加载(Load)

D.存储(Storage)【答案】:B

解析:本题考察ETL流程的核心阶段。ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写:抽取是从源系统(如数据库、日志文件)获取原始数据;转换是对数据进行清洗、格式转换、计算、关联等处理,使其符合目标数据模型要求;加载是将转换后的数据写入目标系统(如数据仓库、数据库);存储是数据仓库或数据库的底层存储环节,不属于ETL流程的独立阶段。因此,数据清洗和转换属于Transform阶段,选B。64.以下哪个是Hadoop生态系统中负责存储海量分布式数据的核心组件?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。65.数据库事务具有ACID特性,其中“原子性(Atomicity)”指的是?

A.事务中的所有操作要么全部执行成功,要么全部失败回滚

B.事务执行过程中,多个事务之间相互隔离,互不干扰

C.事务执行前后,数据库的完整性约束未被破坏

D.事务一旦提交,对数据库的修改将永久保存,即使系统故障也不会丢失【答案】:A

解析:本题考察数据库事务ACID特性的概念。原子性(Atomicity)要求事务中的所有操作是一个不可分割的整体,要么全部执行成功,要么全部失败回滚,对应选项A。选项B描述的是隔离性(Isolation);选项C描述的是一致性(Consistency);选项D描述的是持久性(Durability)。66.ETL流程中,“Transform”阶段的主要任务是?

A.从源系统提取原始数据(如数据库表)

B.将数据加载到目标数据仓库/数据集市

C.对数据进行清洗、转换和格式统一(如日期标准化)

D.建立数据备份和容灾机制【答案】:C

解析:本题考察ETL(Extract-Transform-Load)流程各阶段职责。ETL中:Extract(提取)负责从源系统获取原始数据;Transform(转换)负责对数据进行清洗(处理缺失值、异常值)、格式转换(如统一日期格式)、数据整合(如合并重复字段);Load(加载)负责将处理后的数据写入目标存储。选项A是Extract阶段任务;选项B是Load阶段任务;选项D属于数据运维范畴,非ETL核心流程。因此正确答案为C。67.以下哪种数据库系统通常不采用SQL作为查询语言?

A.MySQL

B.PostgreSQL

C.MongoDB

D.Oracle【答案】:C

解析:本题考察关系型与NoSQL数据库的区别。MySQL、PostgreSQL、Oracle均为关系型数据库,依赖SQL(结构化查询语言)进行数据操作;MongoDB是NoSQL数据库,采用类似JSON的BSON格式存储数据,使用MongoDB查询语言(而非SQL)进行数据检索和操作。因此C为正确答案。68.Hadoop分布式文件系统(HDFS)的核心作用是?

A.存储海量结构化数据

B.进行分布式并行计算

C.管理集群资源调度

D.负责任务调度与执行【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS是分布式文件系统,其核心作用是存储海量数据,支持结构化和半结构化数据的分布式存储;B选项“分布式并行计算”是MapReduce的核心功能;C和D选项“管理集群资源调度”和“任务调度执行”是YARN(YetAnotherResourceNegotiator)的职责。因此正确答案为A。69.以下哪种技术常用于实时流数据处理(如监控、日志分析)?

A.HadoopMapReduce

B.ApacheKafka

C.ApacheFlink

D.Hive【答案】:C

解析:本题考察实时流处理技术选型。选项A:MapReduce是批处理计算框架,基于磁盘IO,不适合实时处理;选项B:Kafka是分布式消息队列,主要用于消息存储和高吞吐数据传输,本身不直接处理流数据;选项C:Flink是开源流处理框架,支持高吞吐、低延迟的实时流处理,可处理有状态计算和事件时间窗口,适合监控、日志等实时场景;选项D:Hive是基于Hadoop的数据仓库工具,用于批处理分析,非实时处理。因此正确答案为C。70.数据质量维度中的“完整性(Completeness)”主要指的是?

A.数据是否准确反映现实世界实体的真实状态

B.数据是否包含所有必要的字段和记录

C.数据是否在规定时间内可用(如实时性)

D.数据是否与其他数据源的记录一致【答案】:B

解析:本题考察数据质量的核心维度定义。数据完整性指数据无缺失,需包含所有必要的字段和记录(如用户信息表中无关键字段为空、无重要用户记录被遗漏)。选项A对应“准确性”(数据是否真实);选项C对应“及时性”(数据是否及时更新);选项D对应“一致性”(数据在不同系统间无冲突)。因此正确答案为B。71.在现代数据仓库构建中,‘先提取数据,加载到目标系统后再进行转换’的ETL流程变种称为?

A.ETL

B.ELT

C.TLE

D.LATE【答案】:B

解析:本题考察ETL/ELT流程的定义。正确答案为B(ELT)。原因:ELT(Extract-Load-Transform)流程先将原始数据加载到目标数据库(如数据仓库),再利用数据库的并行计算能力进行转换,适合云数据仓库(如BigQuery、Snowflake)的场景。其他选项错误原因:A(ETL)是传统流程,先转换再加载,对资源要求高;C(TLE)和D(LATE)为错误术语,无实际定义。72.以下关于ApacheSpark和MapReduce的描述,正确的是?

A.Spark是基于内存计算的框架,相比MapReduce更适合迭代计算任务

B.MapReduce是基于内存计算的框架,Spark是基于磁盘计算的框架

C.Spark只能处理流数据,MapReduce只能处理批数据

D.MapReduce比Spark更适合实时数据处理场景【答案】:A

解析:本题考察大数据处理框架的核心区别。Spark采用内存计算模式,支持迭代计算和复杂算法,速度远快于MapReduce(基于磁盘,适合单次批处理),对应选项A。选项B错误,MapReduce基于磁盘,Spark基于内存;选项C错误,两者均支持批处理,Spark还可通过SparkStreaming处理流数据;选项D错误,SparkStreaming和Flink更适合实时场景,MapReduce以批处理为主。73.Spark与HadoopMapReduce相比,其显著优势在于?

A.仅能处理结构化数据

B.基于内存计算,速度更快

C.只能进行批处理任务

D.无需集群资源调度【答案】:B

解析:本题考察Spark与MapReduce的对比。Spark基于内存计算,减少了磁盘IO操作,因此在迭代计算、实时处理等场景下速度远超MapReduce(B正确)。A错误,Spark支持结构化、半结构化(如JSON)、非结构化(如文本)数据;C错误,Spark支持批处理、流处理(SparkStreaming)、交互式查询等;D错误,Spark同样依赖YARN或自身集群管理器进行资源调度。因此正确答案为B。74.以下哪种算法属于无监督学习?

A.决策树(用于分类)

B.K-Means聚类算法

C.支持向量机(SVM)分类

D.逻辑回归(用于回归预测)【答案】:B

解析:本题考察机器学习算法的分类知识点。无监督学习的目标是从无标签数据中发现模式(如聚类、降维),监督学习则基于有标签数据预测目标。选项A错误,决策树是典型的有监督分类算法,需依赖类别标签训练;选项B正确,K-Means通过距离度量将数据分组为无标签的簇,属于无监督学习;选项C错误,SVM(支持向量机)用于分类或回归,需有标签数据训练;选项D错误,逻辑回归是用于二分类/多分类的有监督模型,依赖目标变量标签。75.在数据仓库中,以下哪项通常用于描述事实表的上下文信息?

A.事实表

B.维度表

C.雪花表

D.星型模型【答案】:B

解析:本题考察数据仓库中维度表与事实表的关系。维度表用于描述事实表的上下文(如时间、地区、产品类别等),为事实表提供分析视角。选项A错误,事实表包含度量值(如销售额、订单量)和外键,不直接描述上下文;选项C错误,雪花表是维度表的一种扩展结构(维度表进一步拆分),并非独立的上下文描述类型;选项D错误,星型模型是数据仓库的一种模型结构(由事实表和维度表组成),非表类型。76.在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive【答案】:A

解析:本题考察Hadoop核心组件功能。HDFS(Hadoop分布式文件系统)是Hadoop的核心存储组件,用于在集群中分布式存储海量数据;MapReduce是分布式计算框架,负责数据处理逻辑;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,支持SQL查询,因此A为正确答案。77.关于Spark和Hadoop的比较,下列说法错误的是?

A.HadoopMapReduce基于磁盘进行计算,而Spark基于内存计算

B.Spark支持多种编程语言(如Scala、Python),而Hadoop主要使用Java

C.Hadoop的YARN是资源管理器,Spark只能运行在YARN上

D.Spark的DAG执行引擎可以优化计算任务,减少磁盘I/O【答案】:C

解析:本题考察Spark与Hadoop的核心区别。选项A正确,MapReduce因依赖磁盘读写导致性能较低,而Spark通过内存计算提升速度;选项B正确,Spark支持多语言API,Hadoop生态工具多基于Java开发;选项C错误,Spark不仅可运行在YARN上,还能独立部署或基于Mesos集群;选项D正确,Spark的DAG执行引擎可优化任务依赖关系,减少不必要的磁盘I/O。因此错误选项为C。78.在ETL(Extract-Transform-Load)数据处理流程中,字母“T”代表的操作是?

A.Extract

B.Transform

C.Load

D.Transfer【答案】:B

解析:本题考察ETL流程的核心步骤。ETL即“抽取(Extract)-转换(Transform)-加载(Load)”,其中“T”对应“Transform”,负责对数据进行清洗、转换、整合;“Extract”是“E”,“Load”是“L”,“Transfer”非ETL标准术语。因此正确答案为B。79.在数据集成流程中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的主要区别在于?

A.数据抽取的方式不同

B.数据转换的时机不同

C.数据加载的目标系统不同

D.数据清洗的步骤不同【答案】:B

解析:本题考察ETL与ELT的核心差异。ETL流程是先抽取(E)数据,再转换(T),最后加载(L)到目标系统(如数据仓库);ELT则是先抽取(E)数据,直接加载(L)到目标系统,再在目标系统中进行转换(T)。核心区别在于转换(Transform)的执行时机,而非抽取方式、目标系统或清洗步骤;A、C、D均非主要区别。因此正确答案为B。80.数据仓库中,用于存储业务度量值和事实记录的表是?

A.维度表

B.事实表

C.索引表

D.视图【答案】:B

解析:本题考察数据仓库核心表结构知识点。选项B的事实表是数据仓库中存储业务事件和度量值的表,通常包含大量数值型指标(如销售额、订单量);选项A的维度表用于提供分析维度(如时间、地区),以描述事实表中的数据;选项C的索引表和D的视图均不属于数据仓库核心表类型。因此正确答案为B。81.在数据仓库的模型设计中,关于星型模型和雪花模型的区别,以下说法正确的是?

A.星型模型的维度表之间存在父子关系,雪花模型无

B.雪花模型比星型模型查询性能更好,因为数据更紧凑

C.星型模型的事实表与维度表直接相连,雪花模型的维度表可能有层级结构

D.星型模型的数据冗余少于雪花模型【答案】:C

解析:本题考察数据仓库模型设计。星型模型以事实表为中心,维度表直接与事实表相连且结构扁平;雪花模型的维度表会按层级分解为多个子表(如地理维度分解为国家-省-市),因此C正确。A错误,星型模型维度表无父子关系,雪花模型才有;B错误,雪花模型因需多表连接,查询性能通常低于星型模型;D错误,星型模型数据冗余更高(维度表被多个事实表引用)。82.在数据可视化中,以下哪种图表最适合展示一段时间内某指标的变化趋势?

A.柱状图(BarChart)

B.折线图(LineChart)

C.饼图(PieChart)

D.散点图(ScatterPlot)【答案】:B

解析:本题考察数据可视化图表的适用场景。折线图通过连续的线条连接数据点,能清晰展示数据随时间或序列的变化趋势(如股票价格走势、气温变化)。选项A柱状图更适合比较不同类别数据的大小(如各产品销售额对比);选项C饼图用于展示整体中各部分的占比(如用户来源分布);选项D散点图用于观察两个变量间的相关性(如身高与体重的关系)。因此正确答案为B。83.关于数据库聚簇索引的特性,以下描述正确的是?

A.聚簇索引的键值与数据存储物理顺序一致

B.一个表只能创建一个聚簇索引

C.聚簇索引的叶子节点仅存储索引键值

D.InnoDB表的二级索引默认是聚簇索引【答案】:A

解析:本题考察聚簇索引原理。聚簇索引的核心是数据物理存储顺序与索引键值顺序一致(如InnoDB的主键索引)。选项B错误,部分数据库允许通过特殊配置创建多个聚簇索引,但通常仅主键对应一个;选项C错误,聚簇索引叶子节点直接存储数据记录,非聚簇索引存储指向数据的指针;选项D错误,InnoDB二级索引(非主键)是聚簇索引的逆映射,属于非聚簇索引。正确答案为A。84.在关系型数据库中,B+树索引的主要优点是?

A.支持高效的范围查询

B.仅支持精确匹配查询

C.适用于高并发写入场景

D.存储结构最紧凑【答案】:A

解析:本题考察B+树索引的技术特性。B+树索引的叶子节点按顺序排列并通过指针相连,天然支持范围查询(如“查询年龄18-25岁的用户”),且所有数据存在叶子节点,便于高效遍历。选项B“仅支持精确匹配”是哈希索引的特点(哈希索引通过散列函数直接定位,不支持范围);选项C“高并发写入”错误,B+树索引写操作(如插入、删除)需维护平衡树结构,性能低于哈希索引;选项D“存储结构最紧凑”错误,B+树因包含所有数据指针和冗余结构,存储效率通常低于哈希索引。因此正确答案为A。85.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向应用

B.数据实时更新

C.面向主题

D.数据易变【答案】:C

解析:本题考察数据仓库的特征。数据仓库的核心特征包括面向主题(针对特定业务领域,如销售、财务)、集成性(整合多源数据)、非易失性(历史数据不轻易修改)、时变性(随时间变化);A错误,数据仓库面向主题而非具体应用;B错误,数据仓库通常采用批处理更新,非实时;D错误,数据仓库数据“非易失”,一旦加载后保持历史状态,不轻易修改。因此正确答案为C。86.在数据治理中,以下哪项属于元数据的范畴?

A.数据血缘

B.数据清洗

C.数据脱敏

D.数据压缩【答案】:A

解析:本题考察数据治理中元数据的定义。元数据是“关于数据的数据”,数据血缘(描述数据的来源、流转路径)属于典型元数据。选项B错误,数据清洗是数据预处理操作(去除噪声、缺失值等);选项C错误,数据脱敏是隐私保护技术(对敏感数据加密/替换);选项D错误,数据压缩是存储优化手段(减少磁盘空间占用),均不属于元数据。87.以下哪项属于数据治理中的业务元数据?

A.数据存储的物理路径(如HDFS路径)

B.数据字段的业务含义说明(如“客户年龄”表示用户年龄)

C.数据更新的频率统计(如每日更新)

D.数据字典中的数据类型定义(如“VARCHAR(50)”)【答案】:B

解析:本题考察数据治理中元数据分类。业务元数据描述数据的业务含义和业务规则,“客户年龄”的含义属于业务元数据,因此B正确。A属于技术元数据(描述数据存储位置);C属于操作元数据(描述数据操作行为);D属于技术元数据(描述数据的技术属性)。88.数据仓库构建过程中,ETL流程的标准顺序是?

A.Extract→Transform→Load

B.Load→Transform→Extract

C.Transform→Extract→Load

D.Extract→Load→Transform【答案】:A

解析:本题考察ETL基础概念,ETL即数据抽取(Extract)、转换(Transform)、加载(Load),是数据从源系统到数据仓库的核心流程:先从源系统抽取原始数据,再对数据进行清洗、转换(如格式转换、去重),最后加载到目标数据仓库中。选项B顺序颠倒(先加载后抽取),C和D混淆了转换与抽取/加载的顺序,均错误。因此正确答案为A。89.以下哪项是数据仓库(DataWarehouse)的核心特性?

A.数据实时性更新能力强

B.面向主题组织数据

C.支持用户对数据的随机修改

D.数据仅来源于单一业务系统【答案】:B

解析:本题考察数据仓库的核心特性。数据仓库的核心特性包括面向主题(Subject-Oriented)、集成性、非易失性(数据一旦加载不轻易修改)和时变性。选项A错误,数据仓库是为分析决策服务的,强调数据的历史积累和分析能力,实时性更新是操作型数据库(OLTP)的特点;选项C错误,数据仓库数据通常只读,仅用于分析,不支持用户随机修改;选项D错误,数据仓库的数据来源于多个操作型系统(如ERP、CRM等),通过ETL整合,而非单一业务系统。90.在Hadoop生态系统中,哪个组件负责分布式文件存储?

A.MapReduce

B.YARN

C.HDFS

D.ZooKeeper【答案】:C

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的分布式存储。选项A错误,MapReduce是分布式计算框架;选项B错误,YARN是资源管理器,负责集群资源调度;选项D错误,ZooKeeper是分布式协调服务,用于管理集群状态。91.关系型数据库管理系统(RDBMS)中,ACID特性是保证数据一致性和可靠性的关键,其中“原子性(Atomicity)”的含义是?

A.事务中的所有操作要么全部成功,要么全部失败,不可分割

B.事务执行过程中,数据处于一致的中间状态

C.事务一旦提交,对数据库的修改就是永久的

D.事务只能看到已提交的事务结果,互不干扰【答案】:A

解析:本题考察数据库事务的ACID特性知识点。正确答案为A,原子性(Atomicity)要求事务是一个不可分割的整体,所有操作要么全部完成,要么全部不执行,如银行转账中“扣钱”和“加钱”必须同时成功或失败。B选项描述的是“一致性(Consistency)”,即事务执行前后数据状态必须符合业务规则;C选项描述的是“持久性(Durability)”,即事务提交后修改永久生效;D选项描述的是“隔离性(Isolation)”,即并发事务间互不干扰,通过隔离级别控制。92.以下关于ApacheSpark的描述,正确的是?

A.Spark仅支持内存计算,无法读写磁盘数据

B.Spark的核心数据抽象是RDD(弹性分布式数据集)

C.Spark只能运行在Hadoop集群上,不能独立部署

D.Spark的执行速度比MapReduce慢,因为需要磁盘I/O【答案】:B

解析:本题考察Spark的核心特性。Spark的核心数据抽象是RDD(弹性分布式数据集),支持内存计算、迭代计算和多种数据处理操作,因此B正确。A错误,Spark支持内存和磁盘混合计算(如持久化RDD到磁盘);C错误,Spark可独立部署(Standalone模式)或基于YARN、Kubernetes等集群运行;D错误,Spark因内存计算和DAG执行模型,速度通常比MapReduce快20-100倍。93.Hadoop生态系统中,负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(YetAnotherResourceNegotiator)

D.Hive(数据仓库工具)【答案】:C

解析:本题考察Hadoop核心组件的功能。Hadoop生态系统中:HDFS(A)负责分布式存储,是数据的底层存储层;MapReduce(B)是早期的分布式计算框架,但已被YARN调度;YARN(C)是专门负责资源调度和任务管理的核心组件,实现了计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论