版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据技术通关题库附参考答案详解(能力提升)1.在ETL(Extract-Transform-Load)数据处理流程中,字母“T”代表的操作是?
A.Extract
B.Transform
C.Load
D.Transfer【答案】:B
解析:本题考察ETL流程的核心步骤。ETL即“抽取(Extract)-转换(Transform)-加载(Load)”,其中“T”对应“Transform”,负责对数据进行清洗、转换、整合;“Extract”是“E”,“Load”是“L”,“Transfer”非ETL标准术语。因此正确答案为B。2.在数据可视化中,以下哪种图表最适合展示一段时间内某指标的变化趋势?
A.柱状图(BarChart)
B.折线图(LineChart)
C.饼图(PieChart)
D.散点图(ScatterPlot)【答案】:B
解析:本题考察数据可视化图表的适用场景。折线图通过连续的线条连接数据点,能清晰展示数据随时间或序列的变化趋势(如股票价格走势、气温变化)。选项A柱状图更适合比较不同类别数据的大小(如各产品销售额对比);选项C饼图用于展示整体中各部分的占比(如用户来源分布);选项D散点图用于观察两个变量间的相关性(如身高与体重的关系)。因此正确答案为B。3.在Hadoop生态系统中,哪个组件负责分布式文件存储?
A.MapReduce
B.YARN
C.HDFS
D.ZooKeeper【答案】:C
解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的分布式存储。选项A错误,MapReduce是分布式计算框架;选项B错误,YARN是资源管理器,负责集群资源调度;选项D错误,ZooKeeper是分布式协调服务,用于管理集群状态。4.以下关于ApacheSpark的描述,错误的是?
A.Spark支持内存计算,速度通常比MapReduce快
B.Spark只能处理批处理任务,无法处理流处理
C.Spark提供了多种API,如Scala、Python、Java等
D.Spark的核心是弹性分布式数据集(RDD)【答案】:B
解析:本题考察Spark的核心特性。Spark不仅支持批处理任务(如SparkBatch),还通过SparkStreaming、StructuredStreaming等模块支持实时流处理。选项A正确,Spark的内存计算模型使其处理速度远超基于磁盘的MapReduce;选项C正确,Spark提供多语言API以适配不同开发场景;选项D正确,RDD(弹性分布式数据集)是Spark的核心抽象,支持并行计算。5.在数据仓库中,以下哪项通常属于事实表的特征?
A.存储描述性信息(如客户名称、产品类别)
B.包含大量可度量的业务事件数据(如订单金额、交易数量)
C.作为数据仓库的‘骨架’,仅用于关联其他表
D.只能与一个维度表建立关联关系【答案】:B
解析:本题考察数据仓库中事实表与维度表的区别。选项A错误,描述性信息(如客户名称、产品类别)属于维度表特征;选项B正确,事实表存储业务事件的度量值数据(如订单金额、数量),是分析的核心数据;选项C错误,事实表不仅关联维度表,还直接存储可度量数据;选项D错误,事实表可与多个维度表关联(如订单表关联客户、产品、时间维度表)。6.以下哪项属于无监督学习中的聚类算法?
A.决策树(监督学习分类算法)
B.K-means(无监督聚类算法)
C.逻辑回归(监督学习分类算法)
D.SVM(监督学习分类算法)【答案】:B
解析:本题考察数据挖掘算法分类。A选项决策树属于监督学习中的分类算法,需有标签数据训练;B选项K-means是典型的无监督聚类算法,通过距离度量将无标签数据分组;C选项逻辑回归用于二分类问题,属于监督学习;D选项SVM(支持向量机)是监督学习中的分类/回归算法,需标签数据。因此正确答案为B。7.以下哪项是数据仓库(DataWarehouse)的核心特性?
A.面向主题
B.实时更新
C.分布式存储
D.关系型数据库【答案】:A
解析:数据仓库的核心特性包括面向主题(按业务主题组织数据,如销售、客户)、集成性(整合多源异构数据)、非易失性(数据一旦存入通常不被修改)、时变性(随时间变化存储历史数据);“实时更新”是OLTP系统的特点,数据仓库主要用于离线分析;“分布式存储”是Hadoop等技术的特性,非数据仓库核心;“关系型数据库”是存储技术,而非数据仓库特性。因此正确答案为A。8.以下哪种数据库属于文档型NoSQL数据库?
A.Redis(键值对)
B.HBase(列族型)
C.Neo4j(图状结构)
D.MongoDB(文档型)【答案】:D
解析:本题考察NoSQL数据库分类。NoSQL数据库按存储模型分为四类:A选项Redis是键值对数据库(Key-Value),以键值对存储;B选项HBase是列族型数据库(Column-Family),按列族组织数据,适合结构化数据;C选项Neo4j是图状数据库(Graph),以节点和边存储关系数据;D选项MongoDB是文档型数据库,以JSON/BSON格式存储半结构化文档,支持灵活的模式设计,符合文档型特征。9.在数据仓库设计中,以下哪种模型通过将维度表进一步规范化,减少数据冗余?
A.星型模型
B.雪花模型
C.星座模型
D.事实星座模型【答案】:B
解析:本题考察数据仓库模型设计的知识点。雪花模型通过将星型模型中的维度表进一步规范化(如地理维度表拆分为国家、省份、城市三级),减少数据冗余;A选项星型模型是中心事实表+非规范化维度表,冗余度较高;C选项星座模型(事实星座)是多个事实表共享维度表,与冗余无关;D选项是星座模型的别称,核心仍为事实表关联维度表,未涉及规范化。10.在数据仓库的维度建模中,关于事实表(FactTable)的描述,以下哪项是正确的?
A.事实表只包含业务度量值(如销售额、数量),不包含任何维度信息
B.事实表中的数据通常是高度汇总的,不存储明细数据
C.事实表的主键通常由多个维度表的外键组合而成
D.事实表必须包含一个自增的主键列,否则无法存储数据【答案】:C
解析:本题考察数据仓库维度建模中事实表的结构。事实表核心特点:①由维度表外键(维度键)和度量值组成,主键通常为多维度键的组合(如订单ID+产品ID+时间ID);②可存储明细数据(如交易流水)或汇总数据(如月度销售额);③无自增主键要求,复合维度键即可作为唯一标识。选项A错误(事实表包含维度键);选项B错误(事实表可存明细数据);选项D错误(无需自增主键)。因此正确答案为C。11.在数据处理流程ETL中,‘T’代表的关键步骤是?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Transfer(传输)【答案】:B
解析:本题考察ETL流程的核心步骤。ETL(抽取-转换-加载)的三个标准步骤中,‘T’代表Transform(转换),即对抽取的数据进行清洗、标准化、整合等处理;Extract是数据从源系统抽取,Load是将处理后的数据加载到目标存储;Transfer并非ETL标准术语。因此B为正确答案。12.与MapReduce相比,Spark的主要优势在于?
A.基于磁盘存储数据
B.支持高效的迭代计算
C.仅能处理结构化数据
D.仅适用于批处理场景【答案】:B
解析:本题考察Spark与MapReduce的技术差异。MapReduce基于磁盘进行迭代计算,效率较低;Spark采用内存计算框架,支持DAG执行引擎,能显著提升迭代计算(如机器学习、图计算)的效率。选项A“基于磁盘存储”是MapReduce的特点(MapReduce中间结果需写入磁盘);选项C“仅处理结构化数据”错误,Spark支持JSON、CSV、Parquet等多种格式,包括半结构化/非结构化数据;选项D“仅适用于批处理”错误,Spark还支持流处理(StructuredStreaming)和实时计算。因此正确答案为B。13.关系型数据库管理系统(RDBMS)中,ACID特性是保证数据一致性和可靠性的关键,其中“原子性(Atomicity)”的含义是?
A.事务中的所有操作要么全部成功,要么全部失败,不可分割
B.事务执行过程中,数据处于一致的中间状态
C.事务一旦提交,对数据库的修改就是永久的
D.事务只能看到已提交的事务结果,互不干扰【答案】:A
解析:本题考察数据库事务的ACID特性知识点。正确答案为A,原子性(Atomicity)要求事务是一个不可分割的整体,所有操作要么全部完成,要么全部不执行,如银行转账中“扣钱”和“加钱”必须同时成功或失败。B选项描述的是“一致性(Consistency)”,即事务执行前后数据状态必须符合业务规则;C选项描述的是“持久性(Durability)”,即事务提交后修改永久生效;D选项描述的是“隔离性(Isolation)”,即并发事务间互不干扰,通过隔离级别控制。14.以下哪项是关系型数据库(RDBMS)的典型特征?
A.支持键值对存储
B.遵循ACID特性
C.以非结构化数据为主
D.仅支持NoSQL查询语言【答案】:B
解析:本题考察关系型数据库与NoSQL数据库的区别。关系型数据库(如MySQL、Oracle)具有ACID特性(原子性、一致性、隔离性、持久性)、SQL查询支持和表结构存储;而“键值对存储”是NoSQL数据库的典型特征(如MongoDB、Redis),“非结构化数据”是文档型NoSQL的特点,“仅支持NoSQL查询”与关系型数据库使用SQL矛盾。因此正确答案为B。15.Hadoop生态系统中,负责分布式数据存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大规模数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;ZooKeeper是分布式协调服务,用于维护配置信息和实现分布式锁。因此正确答案为A。16.以下哪种技术适用于实时流数据处理,支持低延迟和高吞吐?
A.SparkBatch
B.FlinkStreaming
C.HadoopMapReduce
D.HiveSQL【答案】:B
解析:FlinkStreaming是ApacheFlink的流处理模块,专为实时流数据设计,支持低延迟、高吞吐的流处理;SparkBatch用于批处理任务(离线数据处理);HadoopMapReduce是早期分布式批处理框架,适合大规模离线计算;HiveSQL是基于Hadoop的数据仓库查询语言,主要用于批处理查询。因此正确答案为B。17.数据仓库的核心特点之一是?
A.面向主题(Subject-Oriented)
B.实时性(Real-Time)
C.易修改性(Modifiable)
D.分布式存储(DistributedStorage)【答案】:A
解析:本题考察数据仓库的特点。数据仓库是面向主题、集成的、非易失的、时变的结构化数据集合,其核心特点包括:面向主题(按业务主题组织数据,如销售、财务);集成性(整合多源数据);非易失性(数据一旦加载到仓库后不轻易修改);时变性(数据随时间变化,记录历史状态)。选项B错误,数据仓库以批处理为主,非实时;C错误,数据仓库数据具有非易失性,不支持频繁修改;D错误,分布式存储是Hadoop等大数据技术的特点,非数据仓库核心。正确答案为A。18.数据治理中,元数据(Metadata)的核心作用是?
A.描述数据的数据,帮助理解数据的结构、来源和质量
B.用于执行数据清洗和转换的算法
C.用于对数据进行加密和脱敏处理
D.用于压缩数据以节省存储空间【答案】:A
解析:本题考察元数据的定义与作用。元数据是“关于数据的数据”,例如字段含义、数据来源、更新频率、数据质量评分等,帮助数据使用者理解数据;B选项“数据清洗算法”属于数据治理中的操作流程,非元数据作用;C选项“加密脱敏”属于数据安全范畴;D选项“数据压缩”属于存储优化技术。因此正确答案为A。19.在关系型数据库中,B+树索引相比B树索引的显著优势是?
A.支持更快的插入操作
B.所有叶子节点通过指针连接,便于范围查询
C.只能用于聚簇索引,而B树不能
D.叶子节点不存储实际数据,仅存储指针【答案】:B
解析:本题考察B+树与B树索引的技术差异。B+树的叶子节点通过指针连成链表,所有叶子节点包含完整数据且有序,支持高效范围查询(如`BETWEEN`操作);B树的叶子节点不相连,范围查询需遍历相邻节点,效率较低。A选项插入效率相近;C选项B+树和B树均可作为聚簇/非聚簇索引;D选项B+树叶子节点既存储数据指针也存储数据本身。因此正确答案为B。20.关于Spark大数据处理框架的描述,错误的是?
A.支持内存计算,速度远快于MapReduce
B.基于RDD(弹性分布式数据集)模型,支持迭代计算
C.仅能处理批处理任务,无法支持流处理
D.内置MLlib库,可快速实现机器学习算法【答案】:C
解析:本题考察Spark的核心特性。Spark是通用的大数据处理引擎,支持批处理(SparkSQL)、流处理(StructuredStreaming)、机器学习(MLlib)等多种场景。选项A正确,Spark通过内存计算减少磁盘IO,提升性能;选项B正确,RDD是Spark的核心抽象,支持迭代计算;选项D正确,MLlib提供丰富的机器学习工具;选项C错误,SparkStreaming可实时处理流数据,而MapReduce仅支持批处理。因此正确答案为C。21.关于ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)两种数据集成模式,以下描述正确的是?
A.ETL先进行数据转换再加载到目标系统,ELT反之
B.ETL仅适用于云端环境,ELT仅适用于本地部署
C.ETL更适合大数据量场景,ELT更适合小数据量场景
D.ETL对目标系统资源要求更高,ELT对源系统资源要求更高【答案】:A
解析:本题考察ETL与ELT的核心差异。选项A正确,ETL流程是先从源系统提取数据,转换清洗后加载到目标系统(如数据仓库);ELT则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,适合数据量大、目标系统资源充足的场景;选项B错误,两者均支持云端/本地部署;选项C错误,ELT更适合大数据量(减少数据传输),ETL适合小数据量或源系统资源有限的场景;选项D错误,ETL需源系统完成转换,对源系统资源要求高;ELT需目标系统存储原始数据,对目标系统存储要求高。22.ETL流程中,负责将数据从源系统提取并初步整理的步骤是?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Merge(合并)【答案】:A
解析:本题考察ETL流程步骤。ETL是数据抽取、转换、加载的核心流程:Extract(抽取)负责从源系统(如MySQL、Excel)提取原始数据,并进行初步格式对齐、去重等整理;Transform(转换)对数据进行清洗、计算、格式转换(如统一日期格式、处理缺失值);Load(加载)将转换后的数据加载到目标系统(如数据仓库、数据集市)。选项D“Merge(合并)”非ETL标准步骤,故错误。23.以下哪个框架是专门针对实时流数据处理设计的?
A.SparkStreaming
B.ApacheFlink
C.HadoopStreaming
D.KafkaStreams【答案】:B
解析:本题考察流处理框架特性。Flink(B)是专为实时流处理设计的开源框架,支持高吞吐、低延迟的事件驱动型处理;SparkStreaming(A)基于微批处理模型,本质是批处理;HadoopStreaming(C)是Hadoop工具,用于连接MapReduce与非Java程序;KafkaStreams(D)是轻量级流处理库,通常与Kafka结合使用,但Flink更强调实时性和状态管理。因此正确答案为B。24.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的副本机制。HDFS为保证数据可靠性和容错性,默认将文件内容存储为3个副本(选项C),分布在不同的DataNode节点上。若副本因子为1(选项A),数据无冗余,单点故障即丢失数据;2(选项B)无法满足HDFS的高可用设计;4(选项D)会导致磁盘空间和带宽资源浪费,非默认配置。25.以下哪项不属于数据仓库的基本特征?
A.面向主题
B.集成性
C.实时更新
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特征。数据仓库具有面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(存储历史数据,不轻易修改)、时变性(数据随时间变化)四大特征。而“实时更新”是联机事务处理(OLTP)系统的典型需求,数据仓库主要用于历史数据分析,通常采用批量更新或定时加载,因此C不属于数据仓库特征。26.在Hadoop生态系统中,负责为集群提供资源管理和作业调度的核心组件是?
A.YARN
B.MapReduce
C.HDFS
D.ZooKeeper【答案】:A
解析:本题考察Hadoop核心组件功能。YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理器,负责节点资源分配、作业调度和任务执行管理。B选项MapReduce是分布式计算框架,专注于并行处理而非资源管理;C选项HDFS是分布式文件系统,负责数据存储;D选项ZooKeeper是分布式协调服务,用于集群一致性管理,不直接参与资源调度。27.在数据仓库中,以下哪项通常用于存储业务事件和度量值(如销售额、订单量)?
A.维度表
B.事实表
C.数据集市
D.星型模型【答案】:B
解析:本题考察数据仓库的核心表类型。事实表(选项B)用于存储业务事件的度量值(可量化数据,如销售额、订单量),通常包含外键关联维度表和可聚合的数值字段。维度表(选项A)用于描述业务实体(如客户、产品),提供事实表的分析视角;数据集市(选项C)是面向特定部门的小型数据仓库,非表类型;星型模型(选项D)是数据仓库的一种逻辑模型结构,非表类型。28.Hadoop生态系统中,负责存储海量分布式数据的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源;ZooKeeper是分布式协调服务。因此正确答案为A。29.在数据存储架构中,数据仓库与数据湖的核心区别是?
A.数据仓库仅存储结构化数据,数据湖仅存储非结构化数据
B.数据仓库存储经过清洗和转换的数据,数据湖存储原始数据
C.数据仓库支持实时分析,数据湖仅支持批处理分析
D.数据仓库是面向分析的,数据湖是面向开发的【答案】:B
解析:本题考察数据仓库与数据湖的本质差异。正确答案为B。数据仓库是经过ETL(抽取、转换、加载)处理的结构化数据集合,面向企业级分析;数据湖则直接存储原始数据(结构化、半结构化、非结构化),保留数据原貌,后续可按需进行转换和分析。选项A错误,数据湖可存储结构化数据(如CSV、Parquet),数据仓库也可包含少量非结构化数据(如文档);选项C错误,两者均可支持批处理和实时分析(如数据湖通过Flink实时处理原始数据);选项D错误,两者均需面向分析场景,仅数据存储形态和处理阶段不同。30.以下哪项是关系型数据库中最常用的索引结构?
A.B树索引
B.哈希索引
C.R树索引
D.红黑树索引【答案】:A
解析:本题考察关系型数据库索引类型。B树索引(尤其是B+树变体)是关系型数据库(如MySQL、Oracle)中最通用的索引结构,支持范围查询和高效排序;哈希索引(B)适用于等值查询,仅在部分数据库(如MySQLInnoDB)中存在;R树索引(C)多用于空间数据库;红黑树(D)非关系型数据库常见结构,且不适合大规模数据存储。因此正确答案为A。31.在Hadoop生态系统中,负责分布式计算任务调度与资源管理的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:C
解析:本题考察Hadoop生态系统核心组件的功能。HDFS是分布式文件系统,负责数据存储;MapReduce是分布式计算框架,用于处理海量数据计算任务;YARN(YetAnotherResourceNegotiator)是资源管理器,负责集群资源的分配与任务调度;ZooKeeper是分布式协调服务,用于维护集群配置和同步状态。因此正确答案为C。32.在星型数据模型中,存储业务度量值(如订单金额、数量)的表是?
A.维度表
B.事实表
C.星座表
D.雪花表【答案】:B
解析:星型模型由事实表和维度表组成:事实表存储业务度量数据(如订单金额、数量)和关联维度表的外键;维度表存储描述性数据(如客户名称、产品类别),用于解释事实表数据;“星座表”是多个事实表共享维度表的模型,“雪花表”是维度表规范化后的变体。因此正确答案为B。33.以下哪种算法属于无监督学习算法?
A.决策树
B.K-Means
C.SVM
D.逻辑回归【答案】:B
解析:本题考察机器学习算法分类。无监督学习无需标签数据,仅通过数据自身特征发现模式,典型算法包括聚类(如K-Means)、降维(如PCA);有监督学习需带标签数据(输入+输出),用于分类或回归。A选项决策树通过特征标签构建分类模型;C选项SVM(支持向量机)通过标签数据寻找最优分类超平面;D选项逻辑回归通过标签数据预测概率输出。K-Means通过距离度量将数据点自动聚为多个簇,无需标签,属于无监督学习。因此正确答案为B。34.Hadoop生态系统中,负责存储海量结构化、半结构化数据的核心分布式文件系统是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计;MapReduce是分布式计算框架,负责并行处理任务;YARN负责集群资源管理和任务调度;ZooKeeper提供分布式协调服务(如集群状态管理)。因此正确答案为A。35.与传统MapReduce相比,ApacheSpark的显著优势不包括以下哪项?
A.内存计算,处理速度更快
B.支持多种计算模式(批处理、流处理、交互式查询)
C.仅支持批处理任务,不支持实时计算
D.提供丰富的API(Scala、Python、Java等)【答案】:C
解析:本题考察Spark的核心优势。Spark的核心优势包括:基于内存计算,速度比MapReduce快100倍以上;支持多种计算模式(批处理SparkCore、流处理SparkStreaming、交互式查询SparkSQL);提供多语言API(Scala、Python、Java等)。而‘仅支持批处理,不支持实时计算’是错误描述,SparkStreaming正是用于实时流处理的模块。因此正确答案为C。36.关于MySQL中主键索引的描述,以下哪项是正确的?
A.主键索引是MySQL中唯一允许重复值的索引类型
B.InnoDB引擎的主键索引采用B+树结构,且是聚簇索引
C.创建主键索引会自动导致表中数据按哈希顺序存储
D.主键索引只能包含单个字段,不能是复合索引【答案】:B
解析:本题考察MySQL主键索引的核心特性。选项A错误,主键索引要求列值唯一且非空,不允许重复值;选项B正确,InnoDB引擎默认使用B+树结构的聚簇索引,数据物理存储顺序与主键顺序一致;选项C错误,主键索引数据存储顺序遵循B+树的有序结构,而非哈希顺序;选项D错误,主键索引支持复合索引(联合主键),可由多个字段组合定义。37.关于ApacheSpark的描述,以下哪项是错误的?
A.采用内存计算,比MapReduce处理速度更快
B.支持DAG(有向无环图)执行引擎,优化迭代计算
C.默认情况下,数据存储在内存中,不依赖磁盘
D.支持多种编程语言(Scala、Python、Java等)进行开发【答案】:C
解析:Spark的优势包括内存计算(比MapReduce的磁盘IO快)、DAG执行优化迭代计算。Spark支持多语言开发,但默认优先使用内存存储数据,内存不足时会自动溢写到磁盘,并非完全不依赖磁盘。因此选项C错误,“默认不依赖磁盘”的表述不准确。38.以下哪个是开源的ETL工具?
A.InformaticaPowerCenter
B.ApacheKettle(PentahoDataIntegration)
C.TalendCloud
D.ApacheNiFi【答案】:B
解析:本题考察ETL工具的开源属性。ApacheKettle(现名PentahoDataIntegration)是开源ETL工具,支持图形化开发和多数据源集成;A选项InformaticaPowerCenter为商业闭源工具;C选项TalendCloud是商业云服务,核心功能需付费;D选项ApacheNiFi是开源数据流平台,更偏向实时流处理而非传统ETL。39.在数据集成过程中,ETL与ELT的主要区别在于?
A.ETL先加载数据到目标系统,再进行数据转换
B.ETL在源系统完成数据转换,ELT在目标系统完成转换
C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据
D.ETL比ELT更节省存储空间【答案】:B
解析:本题考察ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的流程差异。选项A错误,ETL的正确流程是先提取(Extract)数据,再在源系统或中间层进行转换(Transform),最后加载(Load)到目标系统(如数据仓库);ELT则是先提取数据,直接加载到目标系统,再在目标系统中完成转换;选项B正确,ETL在源系统完成数据清洗、格式转换等操作(如统一日期格式、字段映射),减少目标系统数据量,适合中小规模数据;ELT先将原始数据加载到目标系统(如数据仓库),再在目标系统中利用分布式计算(如Spark)并行转换,适合大数据量场景,可避免重复计算;选项C错误,ETL和ELT均可处理结构化或非结构化数据,主要差异是转换时机而非数据类型(如JSON数据可通过ETL转换为结构化数据,也可通过ELT在目标系统中转换);选项D错误,ETL因转换后数据量小,可能节省存储空间,但ELT在大数据场景下可利用分布式计算并行处理,原始数据保留可能导致存储需求更大,且ETL需额外存储转换后的数据,因此无法一概而论谁更节省空间。因此正确选项为B。40.在数据仓库建设中,‘从源系统提取数据到临时存储,经清洗、转换后加载到目标数据仓库’描述的是哪个过程?
A.ETL
B.ELT
C.ETL和ELT都包含
D.以上都不是【答案】:A
解析:本题考察ETL与ELT的定义。ETL(Extract,Transform,Load)是先提取数据,经过清洗、转换等处理后,再加载到目标数据仓库;ELT(Extract,Load,Transform)则是先将数据直接加载到目标系统,再在目标系统中进行转换。题干明确描述了‘先提取→转换→加载’的流程,符合ETL的定义。因此正确答案为A。41.在数据集成流程中,ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的主要区别在于?
A.数据抽取的方式不同
B.数据转换的时机不同
C.数据加载的目标系统不同
D.数据清洗的步骤不同【答案】:B
解析:本题考察ETL与ELT的核心差异。ETL流程是先抽取(E)数据,再转换(T),最后加载(L)到目标系统(如数据仓库);ELT则是先抽取(E)数据,直接加载(L)到目标系统,再在目标系统中进行转换(T)。核心区别在于转换(Transform)的执行时机,而非抽取方式、目标系统或清洗步骤;A、C、D均非主要区别。因此正确答案为B。42.在数据集成过程中,‘先将数据加载到目标数据库,再进行数据转换’的操作流程称为?
A.ETL(Extract-Transform-Load)
B.ELT(Extract-Load-Transform)
C.ETL+ELT混合流程
D.数据清洗(DataCleansing)【答案】:B
解析:本题考察ETL与ELT的核心区别。ETL(A)是先提取数据,经过转换后再加载到目标系统;ELT(B)则是先提取数据并直接加载到目标数据库,后续在目标库中进行数据转换(通常目标库具备更强的计算能力)。选项C错误,不存在ETL+ELT的混合流程定义;选项D错误,数据清洗是预处理步骤,与加载顺序无关。因此正确答案为B。43.在Python数据科学库中,用于处理表格型数据(如CSV、Excel文件)并提供强大数据清洗功能的是?
A.NumPy
B.Pandas
C.Matplotlib
D.Scikit-learn【答案】:B
解析:本题考察Python数据科学库的功能。Pandas是基于NumPy的高级数据处理库,提供DataFrame和Series结构,专为表格型数据设计,支持数据清洗、转换、合并等操作;NumPy是基础数值计算库,侧重数组运算;Matplotlib用于数据可视化;Scikit-learn是机器学习库,用于算法实现。因此正确答案为B。44.数据仓库的核心特点不包括以下哪项?
A.面向主题
B.集成性
C.时变性
D.实时性【答案】:D
解析:本题考察数据仓库的核心特性。数据仓库用于存储历史数据支持分析决策,其核心特点包括“面向主题”(围绕业务主题组织数据)、“集成性”(整合多源数据)、“时变性”(存储不同时间周期的数据);“实时性”是数据仓库的非核心特性,数据仓库通常处理历史/离线数据,强调分析而非实时响应。因此正确答案为D。45.关于数据库索引的描述,错误的是?
A.索引可以加快数据查询的执行速度
B.索引会降低数据插入和更新的性能
C.一个表只能创建一个主键索引
D.索引会占用额外的存储空间【答案】:C
解析:本题考察数据库索引的核心概念。选项A正确,合理的索引(如B+树索引)可通过减少全表扫描提升查询效率,适用于基于索引列的条件查询;选项B正确,插入或更新数据时,数据库需维护索引结构(如调整指针、重建平衡树),导致额外IO开销,降低写入性能;选项C错误,一个表只能有一个主键索引(主键唯一且非空),但可创建多个唯一索引、普通索引或复合索引,例如对不同字段创建唯一索引;选项D正确,索引本质是独立的数据结构(如B+树),需存储索引键值及指向表数据的指针,会显著增加存储空间。因此错误选项为C。46.以下关于Hadoop与Spark的描述,错误的是?
A.HadoopMapReduce是分布式批处理框架
B.Spark支持内存计算,速度比MapReduce快
C.Spark只能处理批处理任务
D.Hadoop包含HDFS分布式文件系统和MapReduce计算框架【答案】:C
解析:本题考察大数据处理框架知识点。选项A正确,HadoopMapReduce是Hadoop生态中核心的分布式批处理框架;选项B正确,Spark采用内存计算模型,避免了MapReduce的磁盘IO开销,处理速度显著提升;选项C错误,Spark不仅支持批处理,还提供SparkStreaming(流处理)、SparkSQL(交互式查询)等多种计算模式,功能远超过单纯批处理;选项D正确,Hadoop生态包含HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理)等核心组件。47.以下哪项不属于Hadoop生态系统的核心组件?
A.HDFS(分布式文件系统)
B.YARN(资源管理器)
C.Spark(内存计算框架)
D.MapReduce(分布式计算框架)【答案】:C
解析:本题考察Hadoop生态系统的核心组件。Hadoop核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理),三者共同构成分布式计算基础设施。选项C错误,Spark是独立的内存计算框架,虽可与Hadoop生态集成,但不属于Hadoop核心组件。48.以下哪种索引类型在MySQLInnoDB存储引擎中默认使用,并且支持范围查询效率较高?
A.B+树索引
B.B树索引
C.哈希索引
D.聚簇索引【答案】:A
解析:本题考察数据库索引类型及InnoDB存储引擎特性。MySQLInnoDB默认使用B+树索引,其特点是所有数据存在叶子节点,且叶子节点通过指针形成双向链表,既能支持高效的等值查询,又能通过链表快速进行范围查询(如ORDERBY和BETWEEN操作)。B选项B树索引虽然结构类似,但叶子节点可能存储数据,且范围查询效率不如B+树;C选项哈希索引仅支持等值查询,不支持范围查询;D选项聚簇索引是一种数据组织方式(InnoDB表数据即聚簇索引),而非独立索引类型。因此正确答案为A。49.在Hadoop生态系统中,负责分布式并行计算任务的核心框架是?
A.HDFS(分布式文件系统)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:B
解析:Hadoop的核心组件中,HDFS(A)负责分布式存储海量数据;MapReduce(B)是分布式计算框架,用于并行处理大数据任务;YARN(C)负责集群资源管理和任务调度;Hive(D)是基于Hadoop的数据仓库工具,提供SQL查询能力。因此负责分布式计算的是MapReduce。50.数据仓库的“非易失性”(Non-volatile)特性指的是?
A.数据一旦进入数据仓库后,不会被修改或删除
B.数据需实时更新以满足业务实时需求
C.数据仅存储最近6个月的历史数据
D.数据加载时必须采用增量方式【答案】:A
解析:本题考察数据仓库的核心特性。数据仓库面向历史数据分析,数据一旦加载后,主要用于查询和趋势分析,不会被频繁修改或删除(非易失性)。选项B错误,实时更新是操作型数据库(OLTP)的特性,数据仓库侧重历史数据沉淀;选项C错误,数据仓库需存储长期历史数据(如数年),而非仅存最近6个月;选项D错误,增量加载是ETL数据加载的一种策略,与“非易失性”无关。因此正确答案为A。51.下列关于Spark和HadoopMapReduce的描述,正确的是?
A.Spark只能基于磁盘进行数据处理
B.Spark的DAG执行引擎相比MapReduce减少了磁盘IO
C.MapReduce比Spark更适合迭代计算
D.Spark不支持内存外的存储【答案】:B
解析:本题考察大数据计算框架的核心差异。Spark采用内存计算框架,通过DAG执行引擎优化任务路径,减少中间结果的磁盘IO;A选项错误,Spark优先使用内存计算,仅在内存不足时才落盘;C选项错误,MapReduce需频繁读写磁盘,迭代计算效率远低于Spark;D选项错误,Spark支持内存外存储(如Tachyon),适用于超大数据集。52.在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,专为存储海量数据设计,支持跨节点的文件冗余存储和高容错性;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度和任务管理;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。53.在MySQL数据库中,以下哪种索引结构对于范围查询(如BETWEEN、>、<)的效率更高?
A.B+树索引
B.哈希索引
C.全文索引
D.空间索引【答案】:A
解析:本题考察数据库索引类型的特点。B+树索引的叶子节点通过指针连接形成有序链表,天然支持范围查询(如BETWEEN、>、<),因此适合此类场景。哈希索引基于哈希表实现,仅适用于等值查询(如=),不支持范围查询;全文索引用于文本内容的关键词搜索,空间索引用于地理空间数据的索引,均与范围查询无关。因此正确答案为A。54.以下哪项是数据仓库(DataWarehouse)的核心特征?
A.面向应用
B.数据实时更新
C.面向主题
D.数据易变【答案】:C
解析:本题考察数据仓库的特征。数据仓库的核心特征包括面向主题(针对特定业务领域,如销售、财务)、集成性(整合多源数据)、非易失性(历史数据不轻易修改)、时变性(随时间变化);A错误,数据仓库面向主题而非具体应用;B错误,数据仓库通常采用批处理更新,非实时;D错误,数据仓库数据“非易失”,一旦加载后保持历史状态,不轻易修改。因此正确答案为C。55.Hadoop分布式文件系统(HDFS)默认的副本因子(ReplicationFactor)是?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的核心参数。HDFS为保证数据可靠性和容错性,默认采用3个副本因子(ReplicationFactor),通过多副本存储提高数据冗余和故障恢复能力。选项A(1)为单副本,通常仅用于测试;B(2)为非默认值;D(4)超出HDFS默认设计范围。因此正确答案为C。56.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。57.以下哪个是Hadoop生态系统中负责存储海量分布式数据的核心组件?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。58.数据库事务的ACID特性中,“I”代表的是以下哪项?
A.Atomicity(原子性)
B.Consistency(一致性)
C.Isolation(隔离性)
D.Durability(持久性)【答案】:C
解析:ACID是数据库事务的四个关键特性:Atomicity(原子性,事务中的操作要么全做要么全不做)、Consistency(一致性,事务执行前后数据满足约束)、Isolation(隔离性,多个事务并发执行互不干扰)、Durability(持久性,事务提交后结果永久保存)。因此“I”对应Isolation(隔离性)。59.Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.MapReduce
B.HDFS
C.YARN
D.Hive【答案】:B
解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为B。60.关于数据库聚簇索引的特性,以下描述正确的是?
A.聚簇索引的键值与数据存储物理顺序一致
B.一个表只能创建一个聚簇索引
C.聚簇索引的叶子节点仅存储索引键值
D.InnoDB表的二级索引默认是聚簇索引【答案】:A
解析:本题考察聚簇索引原理。聚簇索引的核心是数据物理存储顺序与索引键值顺序一致(如InnoDB的主键索引)。选项B错误,部分数据库允许通过特殊配置创建多个聚簇索引,但通常仅主键对应一个;选项C错误,聚簇索引叶子节点直接存储数据记录,非聚簇索引存储指向数据的指针;选项D错误,InnoDB二级索引(非主键)是聚簇索引的逆映射,属于非聚簇索引。正确答案为A。61.开源ETL工具Kettle(现更名为?)
A.PentahoDataIntegration
B.InformaticaPowerCenter
C.TalendOpenStudio
D.ApacheNiFi【答案】:A
解析:本题考察ETL工具认知。Kettle(KDEDataIntegration)于2008年被Pentaho收购,更名为PentahoDataIntegration(PDI)。选项B是商业ETL工具;选项C是Talend的开源分支,与Kettle无关;选项D是Apache的数据流处理工具,非ETL工具。正确答案为A。62.以下关于ETL和ELT的描述,正确的是?
A.ETL流程是先加载数据到目标系统,再进行数据转换
B.ELT流程是先对数据进行转换,再加载到目标系统
C.ETL更适合数据量较小的场景,ELT适合大数据量场景
D.相比ETL,ELT通常需要更多的存储空间和计算资源【答案】:C
解析:本题考察ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的区别。选项A错误,ETL是先转换(Transform)再加载(Load);选项B错误,ELT是先加载(Load)原始数据到目标系统,再进行转换(Transform);选项C正确,ETL在小数据量时可通过提前转换减少目标系统存储,而ELT在大数据量场景下,可利用目标系统(如数据仓库)的分布式计算能力直接加载原始数据后转换;选项D错误,ELT因直接加载原始数据到目标系统,通常需要更多初始存储空间,但转换在目标端完成,可能减少计算资源消耗。因此正确答案为C。63.在ETL数据处理流程中,对原始数据进行清洗、转换格式、统一编码等操作主要属于哪个步骤?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Archive(归档)【答案】:B
解析:ETL流程中,Extract是从源系统获取原始数据;Transform是对数据进行清洗、格式转换、字段映射等处理,使其符合目标数据仓库格式;Load是将处理后的数据加载到目标存储。Archive(归档)不属于标准ETL步骤,是数据生命周期管理的延伸。64.数据库事务ACID特性中,确保事务中的所有操作要么全部执行,要么全部不执行的是?
A.原子性(Atomicity)
B.一致性(Consistency)
C.隔离性(Isolation)
D.持久性(Durability)【答案】:A
解析:本题考察数据库事务ACID特性知识点。事务ACID分别代表:原子性(Atomicity)指事务的不可分割性,所有操作要么全做要么全不做;一致性(Consistency)指事务执行前后数据从一个一致状态变为另一个一致状态;隔离性(Isolation)指并发事务之间互不干扰;持久性(Durability)指事务提交后结果永久保存。因此正确答案为A。65.在现代数据仓库构建中,‘先提取数据,加载到目标系统后再进行转换’的ETL流程变种称为?
A.ETL
B.ELT
C.TLE
D.LATE【答案】:B
解析:本题考察ETL/ELT流程的定义。正确答案为B(ELT)。原因:ELT(Extract-Load-Transform)流程先将原始数据加载到目标数据库(如数据仓库),再利用数据库的并行计算能力进行转换,适合云数据仓库(如BigQuery、Snowflake)的场景。其他选项错误原因:A(ETL)是传统流程,先转换再加载,对资源要求高;C(TLE)和D(LATE)为错误术语,无实际定义。66.用户通过浏览器直接使用在线邮件服务(如Gmail),这种服务模式属于?
A.IaaS(基础设施即服务)
B.PaaS(平台即服务)
C.SaaS(软件即服务)
D.DaaS(数据即服务)【答案】:C
解析:本题考察云计算服务模式分类。SaaS(SoftwareasaService)直接向用户提供可访问的软件应用(如在线办公、邮件),用户无需管理底层基础设施;IaaS提供服务器、存储等硬件资源;PaaS提供开发平台和运行环境;DaaS是新兴概念,提供数据本身服务,非主流分类。因此正确答案为C。67.以下哪个框架以内存计算为核心,适合快速迭代计算和实时处理?
A.MapReduce
B.Spark
C.Flink
D.Hive【答案】:B
解析:本题考察大数据处理框架特性。Spark是基于内存计算的集群框架,通过内存缓存数据减少磁盘IO,支持迭代计算(如机器学习算法)和实时流处理(通过SparkStreaming),速度比MapReduce快10-100倍。选项A“MapReduce”是Hadoop的分布式计算框架,基于磁盘IO,适合批处理但速度较慢;选项C“Flink”侧重流处理(如实时计算、事件流),但核心优势是低延迟,而非内存迭代;选项D“Hive”是基于Hadoop的数据仓库工具,通过SQL查询HDFS数据,属于数据仓库分析工具,非计算框架。68.以下哪项不属于数据库事务的ACID特性?
A.原子性(Atomicity)
B.一致性(Consistency)
C.持续性(Durability)
D.并发性(Concurrency)【答案】:D
解析:本题考察数据库事务的ACID特性知识点。ACID是数据库事务正确执行的四个基本要素:原子性(Atomicity)指事务中的操作要么全部成功,要么全部失败;一致性(Consistency)指事务执行前后数据状态合法;隔离性(Isolation)指多个事务并发执行时互不干扰;持久性(Durability)指事务提交后结果永久保存。选项D的“并发性”是事务处理中对并发执行的控制需求,并非ACID的组成部分,因此D错误。69.在关系型数据库中,B+树索引的主要优点是?
A.支持高效的范围查询
B.仅支持精确匹配查询
C.适用于高并发写入场景
D.存储结构最紧凑【答案】:A
解析:本题考察B+树索引的技术特性。B+树索引的叶子节点按顺序排列并通过指针相连,天然支持范围查询(如“查询年龄18-25岁的用户”),且所有数据存在叶子节点,便于高效遍历。选项B“仅支持精确匹配”是哈希索引的特点(哈希索引通过散列函数直接定位,不支持范围);选项C“高并发写入”错误,B+树索引写操作(如插入、删除)需维护平衡树结构,性能低于哈希索引;选项D“存储结构最紧凑”错误,B+树因包含所有数据指针和冗余结构,存储效率通常低于哈希索引。因此正确答案为A。70.数据库事务具有ACID特性,其中“原子性(Atomicity)”指的是?
A.事务中的所有操作要么全部执行成功,要么全部失败回滚
B.事务执行过程中,多个事务之间相互隔离,互不干扰
C.事务执行前后,数据库的完整性约束未被破坏
D.事务一旦提交,对数据库的修改将永久保存,即使系统故障也不会丢失【答案】:A
解析:本题考察数据库事务ACID特性的概念。原子性(Atomicity)要求事务中的所有操作是一个不可分割的整体,要么全部执行成功,要么全部失败回滚,对应选项A。选项B描述的是隔离性(Isolation);选项C描述的是一致性(Consistency);选项D描述的是持久性(Durability)。71.在关系型数据库中,当需要对数据进行范围查询(如查询某字段值在10到100之间的数据)时,以下哪种索引结构性能最优?
A.哈希索引
B.B+树索引
C.全文索引
D.聚簇索引【答案】:B
解析:本题考察数据库索引类型的适用场景。哈希索引通过计算键值的哈希值定位数据,仅支持等值查询,不支持范围查询;B+树索引的叶子节点按顺序排列并通过指针连接,支持高效的范围查询(如BETWEEN、ORDERBY);全文索引用于文本内容的关键词搜索,与范围查询无关;聚簇索引是物理存储顺序与索引结构无关(InnoDB的主键聚簇索引结构为B+树),但其核心功能仍是等值查询。因此范围查询最优索引为B+树索引,正确答案为B。72.在Hadoop分布式文件系统(HDFS)中,默认情况下,一个文件被写入时会被存储为多少个副本?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错性,默认将文件存储为3个副本,分布在不同节点。选项A(1个副本)可靠性极低,仅适用于测试环境;选项B(2个副本)不符合HDFS默认配置;选项D(4个副本)超出默认冗余策略,会增加存储成本。正确答案为C。73.在数据仓库中,以下哪项通常用于描述事实表的上下文信息?
A.事实表
B.维度表
C.雪花表
D.星型模型【答案】:B
解析:本题考察数据仓库中维度表与事实表的关系。维度表用于描述事实表的上下文(如时间、地区、产品类别等),为事实表提供分析视角。选项A错误,事实表包含度量值(如销售额、订单量)和外键,不直接描述上下文;选项C错误,雪花表是维度表的一种扩展结构(维度表进一步拆分),并非独立的上下文描述类型;选项D错误,星型模型是数据仓库的一种模型结构(由事实表和维度表组成),非表类型。74.以下关于数据库主键索引的描述,正确的是?
A.主键索引允许表中存在多条记录具有相同的索引值
B.一个表中只能有一个主键索引
C.创建主键索引会显著降低数据插入性能
D.主键索引是普通索引的一种特殊类型【答案】:B
解析:本题考察数据库主键索引的特性。主键索引要求唯一且非空(A错误);一个表只能有一个主键(B正确);主键索引通过优化查询路径通常提升查询性能,“显著降低插入性能”表述不准确(C错误);主键索引属于唯一索引的一种(唯一且非空),但唯一索引不一定是主键(D错误)。因此正确答案为B。75.以下哪项不属于Hadoop生态系统的核心组件?
A.HDFS(分布式文件系统)
B.MapReduce(计算框架)
C.MySQL(关系型数据库)
D.YARN(资源管理器)【答案】:C
解析:Hadoop生态系统核心组件包括HDFS(分布式存储)、MapReduce/YARN(计算与资源管理)、ZooKeeper(分布式协调)等。MySQL是独立的关系型数据库系统,不属于Hadoop核心组件。76.在数据预处理阶段,处理数值型数据缺失值时,以下哪种方法最为常用?
A.直接删除包含缺失值的记录
B.使用均值或中位数填充缺失值
C.使用众数填充缺失值(适用于类别型数据)
D.通过插值法(如线性插值)精确填充缺失值【答案】:B
解析:本题考察数据清洗中缺失值的处理方法。对于数值型数据,常用方法是均值或中位数填充(选项B),因其简单高效且能保留数据分布特征。选项A错误,直接删除记录可能导致样本量不足或引入偏差;选项C错误,众数是类别型数据的常用填充方法,不适用于数值型;选项D错误,插值法(如线性插值)属于更高级的填充技术,通常用于数据量小或对精度要求高的场景,非最常用方法。77.以下哪项是数据仓库的核心特点之一?
A.实时更新以支持即时业务决策
B.面向特定业务流程而非全局主题
C.数据集成,整合来自多个数据源
D.主要用于事务处理而非分析【答案】:C
解析:本题考察数据仓库核心特点。数据仓库具有‘集成性’,即整合分散的数据源;‘面向主题’而非特定流程(排除B);‘非易失性’(数据一旦存入一般不修改,排除A);‘时变性’(数据随时间积累)。D错误,数据仓库主要用于分析而非事务处理(事务处理是OLTP系统的职责)。因此正确答案为C。78.Hadoop分布式文件系统(HDFS)的核心作用是?
A.存储海量结构化数据
B.处理实时流数据计算
C.提供低延迟的实时查询服务
D.执行分布式并行计算任务【答案】:A
解析:本题考察Hadoop生态系统中HDFS的核心功能。HDFS是Hadoop的分布式文件系统,主要用于存储海量数据,其设计目标是高吞吐量和高容错性。选项B(实时流数据计算)属于Storm/Flink等流处理框架;选项C(低延迟实时查询)通常由NoSQL数据库或OLAP系统实现;选项D(分布式并行计算)由MapReduce/YARN等计算框架负责。因此正确答案为A。79.数据库事务的ACID特性中,“事务中的所有操作要么全部成功执行,要么全部失败回滚”描述的是哪一项特性?
A.原子性(Atomicity)
B.一致性(Consistency)
C.隔离性(Isolation)
D.持久性(Durability)【答案】:A
解析:ACID特性中,原子性(A)强调事务的不可分割性,即操作要么全成功,要么全失败,失败时回滚到初始状态;一致性(B)要求事务执行前后数据满足业务规则;隔离性(C)确保多事务并发互不干扰;持久性(D)保证事务提交后数据永久保存。题干描述的是原子性。80.数据治理中,元数据(Metadata)的核心作用是?
A.仅用于存储原始数据
B.描述数据的数据,帮助理解数据结构和血缘
C.直接用于生成业务报表
D.优化数据库的查询性能【答案】:B
解析:本题考察元数据的定义与作用。元数据是描述数据的数据,例如数据字典(字段名称、类型)、数据血缘(数据来源和流转路径)等,核心作用是帮助理解数据结构、来源和质量;A错误,元数据不存储原始数据,而是描述数据;C错误,元数据需与业务系统结合生成报表,本身不直接生成报表;D错误,优化查询性能依赖索引、SQL优化等,元数据仅为辅助理解数据分布。因此正确答案为B。81.在大数据处理框架中,ApacheSpark相比HadoopMapReduce的显著优势主要体现在?
A.基于内存计算,减少磁盘IO操作,提高处理速度
B.仅支持批处理模型,无法处理实时流数据
C.必须依赖HDFS存储数据,无法使用其他分布式存储
D.仅适用于小规模数据处理,不适合大规模集群【答案】:A
解析:本题考察Spark与MapReduce的技术对比知识点。正确答案为A,Spark的核心优势是基于内存计算(RDD缓存),避免了MapReduce中多次磁盘读写的开销,大幅提升处理速度。B选项错误,Spark不仅支持批处理,还通过StructuredStreaming支持实时流处理;C选项错误,Spark支持多种存储系统(如HDFS、S3、MySQL等);D选项错误,Spark专为大规模数据集群设计,能高效处理PB级数据。82.以下哪项不属于大数据的核心5V特征?
A.Volume(规模)
B.Velocity(速度)
C.Variety(多样性)
D.Variance(方差)【答案】:D
解析:本题考察大数据5V特征知识点。大数据的5V特征为:Volume(数据规模巨大)、Velocity(数据产生与处理速度快)、Variety(数据类型多样,含结构化、半结构化、非结构化数据)、Value(数据蕴含价值,需挖掘)、Veracity(数据真实性与可靠性)。选项D“Variance(方差)”是统计学概念,并非大数据特征,故错误。83.以下哪项不属于数据仓库的核心特征?
A.面向主题
B.集成性
C.实时性
D.时变性【答案】:C
解析:本题考察数据仓库的核心特征。数据仓库是用于支持管理决策的结构化数据集合,其特征包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间积累历史数据)。而“实时性”是联机事务处理(OLTP)数据库的特征,数据仓库侧重批处理分析历史数据,非实时性。因此错误选项为C。84.下列哪项不属于数据仓库的核心特性?
A.面向主题
B.集成性
C.实时性
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特性。数据仓库的核心特性包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据一旦加载通常不被修改,仅追加历史数据)、时变性(存储历史数据,反映时间趋势)。而‘实时性’是OLTP(联机事务处理)系统的典型特征,数据仓库侧重历史数据分析,非实时处理。因此‘实时性’不属于数据仓库特性,正确答案为C。85.以下关于ETL和ELT的描述,正确的是?
A.ETL的数据转换在数据库外完成,ELT在数据库内完成
B.ETL仅适用于关系型数据库,ELT仅适用于数据湖
C.ETL比ELT的执行速度更快
D.ETL的数据冗余量比ELT更少【答案】:A
解析:本题考察ETL/ELT流程知识点。ETL(Extract-Transform-Load)的核心是先抽取数据,在数据库外完成转换后再加载;ELT(Extract-Load-Transform)则先加载原始数据,再在数据库内完成转换(A正确)。B错误,两者均可用于关系型数据库和数据湖;C错误,ELT因并行处理可能更优;D错误,ETL因转换后数据量小,冗余更少的描述不成立。86.以下哪种数据库系统不属于关系型数据库(RDBMS)?
A.MySQL
B.PostgreSQL
C.MongoDB
D.Oracle【答案】:C
解析:本题考察关系型数据库与非关系型数据库的区别。关系型数据库(RDBMS)以表格形式存储数据,通过SQL查询,典型代表包括MySQL、PostgreSQL、Oracle。而MongoDB是文档型非关系型数据库(NoSQL),以JSON-like文档存储数据,不支持SQL标准。因此正确答案为C。87.数据库事务的ACID特性具体包括以下哪一组?
A.原子性、一致性、隔离性、持久性
B.原子性、完整性、隔离性、持久性
C.原子性、一致性、独立性、持久性
D.原子性、一致性、隔离性、安全性【答案】:A
解析:本题考察数据库事务的ACID特性知识点。ACID是数据库事务正确执行的四个基本特性:原子性(Atomicity,事务不可分割,要么全做要么全不做)、一致性(Consistency,事务执行前后数据符合业务规则)、隔离性(Isolation,多个事务互不干扰)、持久性(Durability,事务提交后数据永久保存)。错误选项中,B的“完整性”属于数据校验概念,非ACID特性;C的“独立性”混淆了事务隔离级别;D的“安全性”是数据保护措施,与ACID无关。88.在数据治理中,以下哪项属于技术元数据?
A.业务术语定义
B.数据血缘关系
C.业务流程说明
D.用户访问权限记录【答案】:B
解析:本题考察元数据分类。技术元数据描述数据技术层面的信息,包括数据结构、数据血缘、ETL作业参数等。选项A(业务术语)属于业务元数据;选项C(业务流程)属于业务元数据;选项D(权限记录)属于操作元数据。数据血缘明确数据从产生到使用的流转路径,属于技术元数据。正确答案为B。89.数据仓库(DataWarehouse)的核心特点不包括以下哪项?
A.面向主题
B.集成性
C.实时性
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特性。数据仓库的四大特点为:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据一旦存入不再被修改,仅追加历史数据)、时变性(随时间推移积累历史数据)。选项C“实时性”并非数据仓库的核心特点,数据仓库通常面向批处理分析,强调历史数据积累而非实时响应。因此正确答案为C。90.Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS(HadoopDistributedFileSystem)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:A
解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统,负责将数据分割并存储在多台服务器上,实现高容错和高吞吐量的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN负责集群资源管理和调度;Hive是基于Hadoop的SQL查询工具,用于数据仓库分析。因此正确答案为A。91.数据仓库中,用于存储业务度量值和事实记录的表是?
A.维度表
B.事实表
C.索引表
D.视图【答案】:B
解析:本题考察数据仓库核心表结构知识点。选项B的事实表是数据仓库中存储业务事件和度量值的表,通常包含大量数值型指标(如销售额、订单量);选项A的维度表用于提供分析维度(如时间、地区),以描述事实表中的数据;选项C的索引表和D的视图均不属于数据仓库核心表类型。因此正确答案为B。92.在数据集成过程中,‘先将数据加载至目标数据存储系统,再进行数据转换操作’的流程属于哪种模式?
A.ETL
B.ELT
C.ETL+ELT混合模式
D.增量加载【答案】:B
解析:本题考察ETL与ELT的区别。ETL(Extract-Transform-Load)是先抽取、转换后加载;ELT(Extract-Load-Transform)是先抽取数据直接加载到目标存储,再在目标存储中完成转换。题目描述符合ELT的定义,因此选B。93.以下哪项是数据仓库的核心特征之一?
A.面向主题
B.实时性
C.高并发写入
D.支持事务处理【答案】:A
解析:本题考察数据仓库的核心特点。数据仓库的四大特征为“面向主题、集成性、非易失性、时变性”。“面向主题”指围绕特定业务主题组织数据(如销售、客户);“实时性”错误,数据仓库通常基于批处理,非实时;“高并发写入”错误,数据仓库以查询分析为主,写入操作少且非实时;“支持事务处理”是OLTP(联机事务处理)系统的特征。因此正确答案为A。94.Hadoop分布式文件系统(HDFS)的核心功能是?
A.提供分布式并行计算框架
B.存储和管理海量文件
C.实现数据仓库的时变性存储
D.管理分布式数据库元数据【答案】:B
解析:本题考察HDFS的核心功能知识点。HDFS是Hadoop生态中用于存储海量数据的分布式文件系统,其核心功能是存储和管理海量文件。A选项描述的是MapReduce或YARN的功能;C选项“时变性存储”是数据仓库的特性,与HDFS无关;D选项“管理分布式数据库元数据”是HiveMetastore的职责。因此正确答案为B。95.以下关于OLAP(联机分析处理)和OLTP(联机事务处理)的描述,错误的是?
A.OLTP系统主要用于日常业务操作,如订单处理
B.OLAP系统通常采用星型模型或雪花模型进行数据存储
C.OLTP系统强调数据的实时性和一致性,要求事务ACID特性
D.OLAP系统的数据通常是历史数据,更新频率高【答案】:D
解析:本题考察OLAP与OLTP的本质区别。OLAP(分析型)主要用于决策支持,数据多为历史快照,更新频率低(如按天/周追加);OL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 用户信息守秘与合理使用承诺书6篇
- 项目管理效果承诺书5篇
- 个人信息守秘及合规处理承诺书3篇
- 数据处理可靠完备保证函3篇
- 全国上海科教版初中信息技术七年级第一学期第一单元活动三《了解日新月异的信息技术》教学设计
- 本单元综合与测试教学设计小学劳动浙教版三年级下册-浙教版
- 数学必修 第一册5.2.2 同角三角函数的基本关系教学设计
- 宠物医院管理公司处方药调配规范管理制度
- 辽宁省本溪满族自治县高中地理 第二章 城市与城市化 2.2 不同等级城市的服务功能教学设计 新人教版必修2
- 第二课 南方地区教学设计-2025-2026学年初中历史与社会(人文地理)下册人教版(人文地理)
- 私有云存储的设计与实现
- 2024-2025学年湖北省华中师大一附中高一下学期期中考试化学试卷
- 交警拖车安全培训内容课件
- 2025年注册安全工程师考试《安全生产事故案例分析》真题及答案
- 2025年中级消防设施操作员证考试题库及答案(1000题)
- 索尼摄像机DCR-SR60E说明书
- 足疗护理课件
- 2025年辅警招聘考试真题含答案详解
- 2025年中国左炔诺孕酮片市场调查研究报告
- 修路工程占地赔偿协议书
- 工业废水处理工考核要素细目表与考核内容结构表(征求意见稿)
评论
0/150
提交评论