版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据技术通关提分题库参考答案详解1.在数据集成过程中,‘先将数据加载至目标数据存储系统,再进行数据转换操作’的流程属于哪种模式?
A.ETL
B.ELT
C.ETL+ELT混合模式
D.增量加载【答案】:B
解析:本题考察ETL与ELT的区别。ETL(Extract-Transform-Load)是先抽取、转换后加载;ELT(Extract-Load-Transform)是先抽取数据直接加载到目标存储,再在目标存储中完成转换。题目描述符合ELT的定义,因此选B。2.以下关于ApacheSpark的描述,正确的是?
A.Spark仅支持内存计算,无法读写磁盘数据
B.Spark的核心数据抽象是RDD(弹性分布式数据集)
C.Spark只能运行在Hadoop集群上,不能独立部署
D.Spark的执行速度比MapReduce慢,因为需要磁盘I/O【答案】:B
解析:本题考察Spark的核心特性。Spark的核心数据抽象是RDD(弹性分布式数据集),支持内存计算、迭代计算和多种数据处理操作,因此B正确。A错误,Spark支持内存和磁盘混合计算(如持久化RDD到磁盘);C错误,Spark可独立部署(Standalone模式)或基于YARN、Kubernetes等集群运行;D错误,Spark因内存计算和DAG执行模型,速度通常比MapReduce快20-100倍。3.在数据集成流程中,“先将数据加载到目标系统再进行转换”的方式被称为?
A.ETL
B.ELT
C.ETL+ELT
D.混合ETL【答案】:B
解析:本题考察ETL与ELT的流程差异。ELT(Extract,Load,Transform)流程特点是先将原始数据加载到目标系统(如数据仓库),再在目标系统中执行转换操作;而ETL(Extract,Transform,Load)是先转换后加载。选项C和D为非标准术语,数据集成中无“ETL+ELT”或“混合ETL”的常规定义。4.以下Python库中,主要用于数据可视化的是?
A.Pandas
B.NumPy
C.Matplotlib
D.Scikit-learn【答案】:C
解析:本题考察Python数据处理库的功能。Matplotlib是Python最基础的可视化库,支持折线图、柱状图等多种图表绘制,因此C正确。A(Pandas)是数据清洗与分析库;B(NumPy)是数值计算库;D(Scikit-learn)是机器学习库,均不用于数据可视化。因此正确答案为C。5.与传统的MapReduce相比,Spark在大数据处理中具有显著优势,以下哪项不属于Spark的核心优势?
A.基于内存计算,大大减少了磁盘I/O操作
B.支持多种数据处理模式,包括批处理、流处理和交互式查询
C.只能处理结构化数据,无法处理半结构化或非结构化数据
D.提供了丰富的API(如Scala、Python、Java),易于编程【答案】:C
解析:本题考察Spark核心优势对比MapReduce。Spark优势包括:①内存计算减少磁盘I/O(A正确);②统一处理引擎支持批处理、流处理(StructuredStreaming)和交互式查询(SparkSQL)(B正确);③多语言API(Scala/Python/Java)降低开发门槛(D正确)。Spark支持结构化、半结构化(JSON/XML)和非结构化数据(文本/图片元数据),而MapReduce主要处理结构化数据。选项C错误描述了Spark能力,因此正确答案为C。6.在数据预处理阶段,处理数值型数据缺失值时,以下哪种方法最为常用?
A.直接删除包含缺失值的记录
B.使用均值或中位数填充缺失值
C.使用众数填充缺失值(适用于类别型数据)
D.通过插值法(如线性插值)精确填充缺失值【答案】:B
解析:本题考察数据清洗中缺失值的处理方法。对于数值型数据,常用方法是均值或中位数填充(选项B),因其简单高效且能保留数据分布特征。选项A错误,直接删除记录可能导致样本量不足或引入偏差;选项C错误,众数是类别型数据的常用填充方法,不适用于数值型;选项D错误,插值法(如线性插值)属于更高级的填充技术,通常用于数据量小或对精度要求高的场景,非最常用方法。7.以下关于数据库主键索引的描述,正确的是?
A.主键索引允许表中存在多条记录具有相同的索引值
B.一个表中只能有一个主键索引
C.创建主键索引会显著降低数据插入性能
D.主键索引是普通索引的一种特殊类型【答案】:B
解析:本题考察数据库主键索引的特性。主键索引要求唯一且非空(A错误);一个表只能有一个主键(B正确);主键索引通过优化查询路径通常提升查询性能,“显著降低插入性能”表述不准确(C错误);主键索引属于唯一索引的一种(唯一且非空),但唯一索引不一定是主键(D错误)。因此正确答案为B。8.在数据仓库架构中,事实表的核心作用是?
A.存储描述性的业务维度信息
B.存储可量化的业务度量值及与维度表的关联键
C.存储数据仓库的元数据
D.存储数据仓库的历史版本数据【答案】:B
解析:本题考察数据仓库中事实表与维度表的区别。事实表用于存储可量化的业务事实(如销售额、订单量)及与维度表(如客户、产品表)的关联键;A选项是维度表的功能(存储描述性信息);C选项“元数据”由专门的元数据仓库管理;D选项“历史版本数据”通常通过时间分区或版本控制实现,非事实表核心作用。因此正确答案为B。9.以下关于数据仓库(DataWarehouse)与数据集市(DataMart)的描述,正确的是?
A.数据集市的数据来源于数据仓库,数据仓库仅从业务系统抽取数据
B.数据仓库面向企业整体业务,数据集市面向特定部门或业务线
C.数据集市的数据模型比数据仓库更复杂,需支持多业务场景
D.数据仓库和数据集市均不包含历史数据,仅存储当前数据【答案】:B
解析:本题考察数据仓库与数据集市的核心区别。A错误,数据集市可直接从业务系统抽取数据,数据仓库通常经过ETL整合多源数据;B正确,数据仓库面向全局业务,数据集市聚焦特定部门需求;C错误,数据集市因面向单一场景,数据模型更简单;D错误,两者均需存储历史数据以支持趋势分析。10.在实时流数据处理场景中,ApacheFlink相比SparkStreaming的主要优势是?
A.支持更高吞吐量
B.提供精确一次(Exactly-Once)语义保证
C.仅适用于批处理任务
D.必须依赖HDFS存储状态【答案】:B
解析:本题考察流处理框架的技术特性。Flink作为流处理引擎,核心优势在于“流批一体”和精确一次语义保证(确保数据处理的准确性,避免重复或丢失)。选项A错误,SparkStreaming通过微批处理也能实现高吞吐量;选项C错误,Flink既支持流处理也支持批处理;选项D错误,Flink的状态管理可基于内存、RocksDB等多种存储,不强制依赖HDFS。因此正确答案为B。11.以下哪项是数据仓库(DW)的典型特点?
A.支持实时事务处理
B.数据随时间变化
C.数据经常被修改
D.数据主要用于操作型场景【答案】:B
解析:本题考察数据仓库核心特性。数据仓库的特点包括面向主题、集成性、非易失性(数据不频繁修改)、时变性(随时间积累历史数据)。选项A“支持实时事务处理”是联机事务处理(OLTP)的特点,数据仓库主要用于分析(OLAP);选项C“数据经常被修改”违背数据仓库的“非易失性”(数据写入后一般不修改);选项D“主要用于操作”混淆了数据仓库(分析)和数据库(操作)的用途。因此正确答案为B。12.在星型数据模型中,存储业务度量值(如订单金额、数量)的表是?
A.维度表
B.事实表
C.星座表
D.雪花表【答案】:B
解析:星型模型由事实表和维度表组成:事实表存储业务度量数据(如订单金额、数量)和关联维度表的外键;维度表存储描述性数据(如客户名称、产品类别),用于解释事实表数据;“星座表”是多个事实表共享维度表的模型,“雪花表”是维度表规范化后的变体。因此正确答案为B。13.数据库事务ACID特性中,确保事务中的所有操作要么全部执行,要么全部不执行的是?
A.原子性(Atomicity)
B.一致性(Consistency)
C.隔离性(Isolation)
D.持久性(Durability)【答案】:A
解析:本题考察数据库事务ACID特性知识点。事务ACID分别代表:原子性(Atomicity)指事务的不可分割性,所有操作要么全做要么全不做;一致性(Consistency)指事务执行前后数据从一个一致状态变为另一个一致状态;隔离性(Isolation)指并发事务之间互不干扰;持久性(Durability)指事务提交后结果永久保存。因此正确答案为A。14.以下哪个是Hadoop生态系统中负责分布式文件存储的核心组件?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责大数据的分布式存储;MapReduce是分布式计算框架,用于并行处理海量数据;YARN是资源管理器,负责集群资源的分配与调度;ZooKeeper是分布式协调服务,提供配置管理、命名服务等功能。因此正确答案为A。15.在数据仓库中,以下哪项通常用于存储业务事件和度量值(如销售额、订单量)?
A.维度表
B.事实表
C.数据集市
D.星型模型【答案】:B
解析:本题考察数据仓库的核心表类型。事实表(选项B)用于存储业务事件的度量值(可量化数据,如销售额、订单量),通常包含外键关联维度表和可聚合的数值字段。维度表(选项A)用于描述业务实体(如客户、产品),提供事实表的分析视角;数据集市(选项C)是面向特定部门的小型数据仓库,非表类型;星型模型(选项D)是数据仓库的一种逻辑模型结构,非表类型。16.以下哪项不属于数据质量的核心维度?
A.准确性
B.完整性
C.可扩展性
D.及时性【答案】:C
解析:本题考察数据质量的核心维度。数据质量通常包含准确性(数据真实反映现实)、完整性(无缺失值)、一致性(同一数据在不同系统中一致)、及时性(数据更新及时)、有效性(符合业务规则)等。选项C“可扩展性”属于系统架构或技术层面的特性(如系统能否横向扩展),与数据本身的质量无关。因此正确答案为C。17.在关系型数据库中,主键(PrimaryKey)的主要作用是?
A.确保表中记录的唯一性和非空性
B.允许表中存在重复的记录值
C.自动为表中新增记录生成唯一的整数ID
D.用于建立表与表之间的外键关联【答案】:A
解析:本题考察关系型数据库主键的核心作用。主键的主要作用是唯一标识表中的每条记录,且不允许为空(非空约束),因此选项A正确。选项B错误,主键严格禁止重复记录;选项C错误,自动增长(如自增ID)是主键的一种实现方式,而非主键本身的作用;选项D错误,外键关联是引用其他表的主键,属于表间关系设计,与主键自身作用无关。18.以下哪项是数据仓库(DataWarehouse)的核心特点之一?
A.面向主题,整合企业内多源数据,支持决策分析
B.强调实时更新,满足业务系统的实时查询需求
C.主要用于存储日常交易数据,支持在线事务处理(OLTP)
D.仅存储结构化数据,不包含半结构化或非结构化数据【答案】:A
解析:本题考察数据仓库特点知识点。正确答案为A,数据仓库面向主题(如“销售分析”“财务报表”),整合分散在企业内的多源数据(如ERP、CRM、交易系统),通过历史数据支持决策分析。B选项错误,数据仓库侧重历史数据存储与分析,不强调实时更新(实时需求由OLTP系统满足);C选项错误,数据仓库服务于分析场景(OLAP),OLTP(在线事务处理)系统才用于存储日常交易数据;D选项错误,现代数据仓库支持多类型数据存储(结构化、半结构化、非结构化,如JSON、日志等)。19.数据仓库中,用于存储业务度量值和事实记录的表是?
A.维度表
B.事实表
C.索引表
D.视图【答案】:B
解析:本题考察数据仓库核心表结构知识点。选项B的事实表是数据仓库中存储业务事件和度量值的表,通常包含大量数值型指标(如销售额、订单量);选项A的维度表用于提供分析维度(如时间、地区),以描述事实表中的数据;选项C的索引表和D的视图均不属于数据仓库核心表类型。因此正确答案为B。20.Hadoop生态系统中,负责存储海量分布式数据的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源;ZooKeeper是分布式协调服务。因此正确答案为A。21.以下关于数据仓库雪花模型的说法,正确的是?
A.雪花模型是最简单的数据仓库模型,只有一个事实表
B.雪花模型通过将维度表规范化为多个表来减少数据冗余
C.雪花模型中每个维度表都必须包含多个层次的父维度
D.雪花模型相比星型模型,查询性能更高【答案】:B
解析:本题考察数据仓库星型模型与雪花模型的区别。雪花模型是星型模型的规范化扩展,通过将维度表拆分为多个子表(如地理维度表拆分为国家、省份、城市)减少数据冗余,因此B正确。A错误,星型模型才是最简单的模型,雪花模型因规范化而更复杂;C错误,雪花模型的维度表仅在需要时才拆分,并非“必须”包含多层父维度;D错误,雪花模型因需更多表连接,查询性能通常低于星型模型。因此正确答案为B。22.ETL(Extract,Transform,Load)与ELT(Extract,Load,Transform)的核心区别在于?
A.ETL在源系统完成数据转换,ELT在目标系统完成数据转换
B.ETL先加载数据到目标系统,ELT先转换数据再加载
C.ETL适用于结构化数据,ELT仅适用于非结构化数据
D.ETL需抽取数据到本地,ELT直接在云端完成所有操作【答案】:A
解析:本题考察ETL与ELT的流程差异。ETL流程为“抽取→转换→加载”,在数据从源系统抽取后,先在ETL工具中完成转换,再加载到目标系统(如数据仓库);ELT流程为“抽取→加载→转换”,先将原始数据加载到目标系统,再在目标系统中执行转换。B选项描述顺序错误;C选项两者均支持结构化数据,ELT对非结构化数据无特殊优势;D选项ELT的“云端操作”非核心区别。因此正确答案为A。23.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的副本机制。HDFS为保证数据可靠性和容错性,默认将文件内容存储为3个副本(选项C),分布在不同的DataNode节点上。若副本因子为1(选项A),数据无冗余,单点故障即丢失数据;2(选项B)无法满足HDFS的高可用设计;4(选项D)会导致磁盘空间和带宽资源浪费,非默认配置。24.以下哪项不属于数据仓库的基本特征?
A.面向主题
B.集成性
C.实时更新
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特征。数据仓库具有面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(存储历史数据,不轻易修改)、时变性(数据随时间变化)四大特征。而“实时更新”是联机事务处理(OLTP)系统的典型需求,数据仓库主要用于历史数据分析,通常采用批量更新或定时加载,因此C不属于数据仓库特征。25.以下关于ETL和ELT的描述,正确的是?
A.ETL流程是先加载数据到目标系统,再进行数据转换
B.ELT流程是先对数据进行转换,再加载到目标系统
C.ETL更适合数据量较小的场景,ELT适合大数据量场景
D.相比ETL,ELT通常需要更多的存储空间和计算资源【答案】:C
解析:本题考察ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的区别。选项A错误,ETL是先转换(Transform)再加载(Load);选项B错误,ELT是先加载(Load)原始数据到目标系统,再进行转换(Transform);选项C正确,ETL在小数据量时可通过提前转换减少目标系统存储,而ELT在大数据量场景下,可利用目标系统(如数据仓库)的分布式计算能力直接加载原始数据后转换;选项D错误,ELT因直接加载原始数据到目标系统,通常需要更多初始存储空间,但转换在目标端完成,可能减少计算资源消耗。因此正确答案为C。26.在数据管理领域,元数据(Metadata)的核心作用是?
A.描述数据的数据,用于管理和理解数据资产
B.存储原始业务数据,直接支持业务操作
C.定义数据仓库的物理存储结构,优化查询性能
D.实现数据的实时同步和复制,确保数据一致性【答案】:A
解析:本题考察元数据的定义与作用知识点。正确答案为A,元数据是描述数据的数据,用于解释数据的来源、结构、质量、血缘关系、业务含义等,帮助用户理解数据资产。B选项错误,原始业务数据是数据本身,元数据不存储原始数据;C选项错误,数据仓库物理存储结构属于“技术元数据”的一部分,但元数据的核心作用是“描述数据”而非“定义存储结构”;D选项错误,实时同步/复制属于数据复制或CDC(变更数据捕获)技术,与元数据无关。27.以下哪项通常不属于数据仓库(DataWarehouse)的核心特征?
A.面向主题
B.集成性
C.实时性
D.时变性【答案】:C
解析:本题考察数据仓库的核心特征。数据仓库的四大特征为:面向主题(围绕特定业务主题组织)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(反映历史变化趋势)。实时性是流处理或OLTP系统的特征,数据仓库侧重批处理分析,不强调实时更新,因此C不属于其特征。正确答案为C。28.在ETL(抽取-转换-加载)数据处理流程中,负责对原始数据进行清洗、转换和整合,使其符合目标数据格式的步骤是?
A.抽取(Extract)
B.转换(Transform)
C.加载(Load)
D.验证(Validate)【答案】:B
解析:本题考察ETL流程核心步骤。ETL三阶段功能:①抽取(Extract):从源系统(如数据库、日志文件)获取原始数据,不做处理;②转换(Transform):对抽取数据进行清洗(去重、补全缺失值)、格式转换(如日期统一为YYYY-MM-DD)、数据整合(合并多源数据),使其符合目标数据模型(如数据仓库表结构);③加载(Load):将转换后的数据写入目标存储(如数据仓库、数据集市)。D选项“验证”属于辅助步骤(如校验数据完整性),非ETL核心流程。因此正确答案为B。29.以下哪项不属于数据仓库的核心特征?
A.面向主题
B.集成性
C.实时性
D.时变性【答案】:C
解析:本题考察数据仓库的核心特征。数据仓库是用于支持管理决策的结构化数据集合,其特征包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间积累历史数据)。而“实时性”是联机事务处理(OLTP)数据库的特征,数据仓库侧重批处理分析历史数据,非实时性。因此错误选项为C。30.以下哪项不属于数据库事务的ACID特性?
A.原子性(Atomicity)
B.一致性(Consistency)
C.持续性(Durability)
D.并发性(Concurrency)【答案】:D
解析:本题考察数据库事务的ACID特性知识点。ACID是数据库事务正确执行的四个基本要素:原子性(Atomicity)指事务中的操作要么全部成功,要么全部失败;一致性(Consistency)指事务执行前后数据状态合法;隔离性(Isolation)指多个事务并发执行时互不干扰;持久性(Durability)指事务提交后结果永久保存。选项D的“并发性”是事务处理中对并发执行的控制需求,并非ACID的组成部分,因此D错误。31.在现代数据仓库构建中,‘先提取数据,加载到目标系统后再进行转换’的ETL流程变种称为?
A.ETL
B.ELT
C.TLE
D.LATE【答案】:B
解析:本题考察ETL/ELT流程的定义。正确答案为B(ELT)。原因:ELT(Extract-Load-Transform)流程先将原始数据加载到目标数据库(如数据仓库),再利用数据库的并行计算能力进行转换,适合云数据仓库(如BigQuery、Snowflake)的场景。其他选项错误原因:A(ETL)是传统流程,先转换再加载,对资源要求高;C(TLE)和D(LATE)为错误术语,无实际定义。32.数据库事务的ACID特性中,“一个事务中的所有操作要么全部执行,要么全部不执行”描述的是以下哪个特性?
A.原子性(Atomicity)
B.一致性(Consistency)
C.隔离性(Isolation)
D.持久性(Durability)【答案】:A
解析:本题考察数据库事务的ACID特性定义。正确答案为A。原子性(Atomicity)强调事务的不可分割性,即事务内的操作是一个整体,要么全部成功,要么全部失败回滚。选项B一致性(Consistency)指事务执行前后数据需满足业务规则和完整性约束,而非操作的原子性;选项C隔离性(Isolation)描述多个事务并发执行时的相互隔离程度,避免交叉干扰;选项D持久性(Durability)指事务提交后,修改的数据会永久保存,即使系统故障也不会丢失,与操作的整体性无关。33.在ETL(Extract-Transform-Load)流程中,数据清洗属于哪个环节?
A.抽取(Extract)
B.转换(Transform)
C.加载(Load)
D.校验(Validate)【答案】:B
解析:本题考察ETL流程知识点。ETL的三个核心环节:抽取(Extract)是从源系统获取原始数据;转换(Transform)是对数据进行清洗、格式转换、整合、关联等处理(数据清洗属于转换环节);加载(Load)是将处理后的数据写入目标系统(如数据仓库);校验(Validate)通常是可选的质量检查环节,不属于标准ETL的核心步骤。因此正确答案为B。34.关于ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)两种数据集成模式,以下描述正确的是?
A.ETL先进行数据转换再加载到目标系统,ELT反之
B.ETL仅适用于云端环境,ELT仅适用于本地部署
C.ETL更适合大数据量场景,ELT更适合小数据量场景
D.ETL对目标系统资源要求更高,ELT对源系统资源要求更高【答案】:A
解析:本题考察ETL与ELT的核心差异。选项A正确,ETL流程是先从源系统提取数据,转换清洗后加载到目标系统(如数据仓库);ELT则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,适合数据量大、目标系统资源充足的场景;选项B错误,两者均支持云端/本地部署;选项C错误,ELT更适合大数据量(减少数据传输),ETL适合小数据量或源系统资源有限的场景;选项D错误,ETL需源系统完成转换,对源系统资源要求高;ELT需目标系统存储原始数据,对目标系统存储要求高。35.在数据处理流程中,先将原始数据提取并加载到目标系统(如数据仓库),再进行数据转换的技术是?
A.ETL
B.ELT
C.ETL+ELT
D.数据集成【答案】:B
解析:本题考察ETL与ELT的区别。ETL(Extract-Transform-Load)是先提取数据,经转换后再加载到目标系统;ELT(Extract-Load-Transform)则是先将数据提取后直接加载到目标系统,再在目标系统中完成转换。ELT更适合大数据场景,因现代数据仓库(如云平台)可利用其计算资源高效完成转换。A选项ETL不符合“先加载后转换”的描述;C、D选项为干扰项。因此正确答案为B。36.在大数据处理框架中,ApacheSpark相比HadoopMapReduce的显著优势主要体现在?
A.基于内存计算,减少磁盘IO操作,提高处理速度
B.仅支持批处理模型,无法处理实时流数据
C.必须依赖HDFS存储数据,无法使用其他分布式存储
D.仅适用于小规模数据处理,不适合大规模集群【答案】:A
解析:本题考察Spark与MapReduce的技术对比知识点。正确答案为A,Spark的核心优势是基于内存计算(RDD缓存),避免了MapReduce中多次磁盘读写的开销,大幅提升处理速度。B选项错误,Spark不仅支持批处理,还通过StructuredStreaming支持实时流处理;C选项错误,Spark支持多种存储系统(如HDFS、S3、MySQL等);D选项错误,Spark专为大规模数据集群设计,能高效处理PB级数据。37.在数据治理体系中,负责制定数据标准、定义数据血缘和数据质量规则的关键角色是?
A.数据管理员(DataSteward)
B.数据库管理员(DBA)
C.数据分析师
D.系统管理员【答案】:A
解析:本题考察数据治理角色的职责。数据管理员(DataSteward)是数据治理的核心角色,负责制定数据标准、定义数据血缘关系、管理数据质量规则,并协调数据全生命周期管理。数据库管理员(DBA)主要负责数据库系统的运维与性能优化;数据分析师侧重数据建模与业务分析;系统管理员负责IT基础设施管理。因此正确答案为A。38.在数据仓库设计中,星型模型与雪花模型的主要区别在于?
A.事实表是否包含度量值
B.维度表是否进行规范化处理
C.事实表与维度表的连接方式
D.数据仓库是否包含多个事实表【答案】:B
解析:本题考察数据仓库的模型设计。星型模型和雪花模型的核心区别在于维度表的结构:星型模型的维度表是反规范化的,直接包含所有属性(如产品名称、类别等);雪花模型的维度表则是规范化的,将星型模型中的维度表拆分为多个子表(如产品类别表、产品名称表),通过外键关联。因此选项B正确。选项A错误,两者的事实表均包含度量值;选项C错误,两者均通过外键连接事实表与维度表;选项D错误,事实表数量与模型类型无关。39.以下哪项是数据治理的核心目标之一?
A.提高数据质量与数据可用性
B.降低数据存储成本
C.优化ETL工具的执行速度
D.提升数据抽取的效率【答案】:A
解析:本题考察数据治理的核心目标。数据治理通过规范数据全生命周期管理(如元数据管理、数据质量监控、数据安全合规),核心目标是确保数据质量(如准确性、完整性)和数据可用性(如数据可访问性、一致性);B、C、D选项均属于技术优化或工具性能提升范畴(如存储成本优化、ETL性能优化),不属于数据治理的核心目标。因此正确答案为A。40.以下关于ETL和ELT的描述,正确的是?
A.ETL的数据转换在数据库外完成,ELT在数据库内完成
B.ETL仅适用于关系型数据库,ELT仅适用于数据湖
C.ETL比ELT的执行速度更快
D.ETL的数据冗余量比ELT更少【答案】:A
解析:本题考察ETL/ELT流程知识点。ETL(Extract-Transform-Load)的核心是先抽取数据,在数据库外完成转换后再加载;ELT(Extract-Load-Transform)则先加载原始数据,再在数据库内完成转换(A正确)。B错误,两者均可用于关系型数据库和数据湖;C错误,ELT因并行处理可能更优;D错误,ETL因转换后数据量小,冗余更少的描述不成立。41.Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS(HadoopDistributedFileSystem)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:A
解析:本题考察Hadoop生态系统组件功能。HDFS是Hadoop的分布式文件系统,负责将数据分割并存储在多台服务器上,实现高容错和高吞吐量的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN负责集群资源管理和调度;Hive是基于Hadoop的SQL查询工具,用于数据仓库分析。因此正确答案为A。42.在数据治理过程中,用于描述数据定义、来源、血缘、质量等信息的元数据类型是?
A.技术元数据
B.业务元数据
C.操作元数据
D.管理元数据【答案】:B
解析:本题考察数据治理中元数据的分类。业务元数据(BusinessMetadata)用于描述数据的业务含义、定义、来源、数据血缘、质量规则等,帮助业务人员理解数据。A选项技术元数据描述数据的技术实现细节(如存储格式、字段类型、表结构);C选项操作元数据记录数据的访问和使用情况(如查询频率、用户操作日志);D选项管理元数据通常涉及数据安全、合规性等管理策略。因此正确答案为B。43.以下哪项是数据仓库(DataWarehouse)的核心特性?
A.数据实时性更新能力强
B.面向主题组织数据
C.支持用户对数据的随机修改
D.数据仅来源于单一业务系统【答案】:B
解析:本题考察数据仓库的核心特性。数据仓库的核心特性包括面向主题(Subject-Oriented)、集成性、非易失性(数据一旦加载不轻易修改)和时变性。选项A错误,数据仓库是为分析决策服务的,强调数据的历史积累和分析能力,实时性更新是操作型数据库(OLTP)的特点;选项C错误,数据仓库数据通常只读,仅用于分析,不支持用户随机修改;选项D错误,数据仓库的数据来源于多个操作型系统(如ERP、CRM等),通过ETL整合,而非单一业务系统。44.ApacheSpark相比HadoopMapReduce的核心优势是?
A.支持分布式存储(HDFS)
B.采用内存计算模型(内存迭代计算)
C.仅支持离线批处理任务
D.依赖磁盘I/O优化数据传输【答案】:B
解析:本题考察Spark与MapReduce的技术差异。HadoopMapReduce基于磁盘I/O进行数据读写,迭代计算时需频繁写入/读取磁盘,导致性能瓶颈;而Spark将数据缓存在内存中,通过内存迭代计算(如RDD弹性分布式数据集)大幅减少磁盘I/O,处理速度提升10-100倍。选项A错误,分布式存储是Hadoop(HDFS)的通用特性,非Spark独有;选项C错误,Spark不仅支持离线批处理,还支持实时流处理(SparkStreaming)和交互式查询;选项D错误,Spark正是通过避免磁盘I/O(依赖内存)实现优势,而非优化磁盘I/O。因此正确答案为B。45.在数据治理中,元数据(Metadata)按用途分类,以下哪类元数据用于描述数据的来源、转换规则和存储位置?
A.业务元数据
B.技术元数据
C.操作元数据
D.质量元数据【答案】:B
解析:本题考察数据治理中元数据的分类。选项A(业务元数据)描述数据的业务含义(如“用户年龄”表示年龄范围),属于语义层;选项B(技术元数据)记录数据的技术细节,包括数据血缘(来源)、存储位置、ETL转换规则等,是数据治理的核心;选项C(操作元数据)反映数据的访问频率、使用场景等操作信息;选项D(质量元数据)关注数据准确性、完整性等质量指标。46.在ETL数据处理流程中,数据清洗(如去除重复值、处理缺失值)主要属于哪个阶段?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Validate(验证)【答案】:B
解析:本题考察ETL流程的核心步骤。ETL分为三个阶段:Extract(抽取,从源系统获取原始数据)、Transform(转换,对数据进行清洗、格式转换、整合等处理)、Load(加载,将转换后的数据写入目标系统)。数据清洗是对数据质量的优化处理,属于转换阶段的关键操作。Validate(验证)并非ETL标准流程的核心步骤,因此正确答案为B。47.数据库事务具有ACID特性,其中“原子性(Atomicity)”指的是?
A.事务中的所有操作要么全部执行成功,要么全部失败回滚
B.事务执行过程中,多个事务之间相互隔离,互不干扰
C.事务执行前后,数据库的完整性约束未被破坏
D.事务一旦提交,对数据库的修改将永久保存,即使系统故障也不会丢失【答案】:A
解析:本题考察数据库事务ACID特性的概念。原子性(Atomicity)要求事务中的所有操作是一个不可分割的整体,要么全部执行成功,要么全部失败回滚,对应选项A。选项B描述的是隔离性(Isolation);选项C描述的是一致性(Consistency);选项D描述的是持久性(Durability)。48.在Hadoop分布式计算框架中,负责存储海量数据并提供高容错性的核心组件是?
A.HDFS
B.YARN
C.MapReduce
D.ZooKeeper【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS(分布式文件系统)是Hadoop的核心存储组件,采用分布式架构实现数据冗余存储,具备高容错性和高吞吐量,适合存储海量数据;YARN(资源管理器)负责集群资源调度与任务管理;MapReduce是分布式计算框架,用于并行处理大规模数据;ZooKeeper是分布式协调服务,提供一致性管理。因此正确答案为A。49.以下哪种算法属于无监督学习算法?
A.决策树(用于分类任务)
B.K-means聚类算法
C.线性回归(用于回归预测任务)
D.支持向量机(SVM,用于分类/回归任务)【答案】:B
解析:本题考察机器学习算法分类。无监督学习无需标签数据,通过数据内在结构分组,K-means是典型的无监督聚类算法,因此B正确。A(决策树)、C(线性回归)、D(SVM)均需标签数据(监督学习),分别用于分类、回归、分类/回归任务。50.以下哪项是数据仓库(DW)的核心特性?
A.实时性高,支持秒级数据更新
B.面向业务操作流程(OLTP)
C.数据具有非易失性,写入后极少修改
D.直接处理原始业务数据库的实时数据流【答案】:C
解析:本题考察数据仓库的核心特点。数据仓库是面向分析的集成数据集合,其核心特性包括非易失性(数据写入后通常只追加不修改,用于历史趋势分析)、面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)和时变性(随时间变化的历史数据)。A选项实时性高是操作型数据库(OLTP)的特点;B选项面向业务操作流程属于OLTP范畴;D选项直接处理实时数据流是流处理系统(如Flink)的功能。因此正确答案为C。51.Spark与HadoopMapReduce相比,其显著优势在于?
A.仅支持磁盘上的批处理计算
B.支持内存计算,减少磁盘I/O开销
C.不支持迭代计算任务
D.只能处理结构化数据【答案】:B
解析:本题考察Spark与MapReduce的技术差异。MapReduce依赖磁盘进行数据读写和计算,而Spark通过内存计算(如RDD缓存)大幅减少磁盘I/O,提升性能,因此选项B正确。选项A错误(Spark支持内存+磁盘混合计算);选项C错误(Spark天然支持迭代计算,如机器学习算法);选项D错误(Spark可处理结构化、半结构化和非结构化数据,如JSON、CSV、Parquet等)。52.在数据集成过程中,ETL与ELT的主要区别在于?
A.ETL先转换后加载,ELT先加载后转换
B.ETL仅适用于关系型数据库,ELT仅适用于NoSQL数据库
C.ETL的数据转换效率一定高于ELT
D.ETL必须在目标数据库外完成转换,ELT可在目标数据库内完成【答案】:A
解析:本题考察ETL与ELT的数据集成流程知识点。ETL(Extract-Transform-Load)是先从源系统提取数据,在独立环境中完成清洗、转换,再加载到目标系统;ELT(Extract-Load-Transform)则是先将原始数据直接加载到目标系统,再在目标系统中执行转换操作。选项B错误,ETL和ELT可根据场景适配不同数据库类型,无严格数据库类型限制;选项C错误,转换效率取决于数据量和系统性能,无绝对优劣;选项D错误,ELT的转换可在目标系统内(如数据仓库)完成,但ETL的转换也可在独立工具中完成,并非必须在“目标数据库外”;选项A正确,清晰描述了两者的核心流程差异。53.以下哪项不属于大数据的核心5V特征?
A.Volume(规模)
B.Velocity(速度)
C.Variety(多样性)
D.Variance(方差)【答案】:D
解析:本题考察大数据5V特征知识点。大数据的5V特征为:Volume(数据规模巨大)、Velocity(数据产生与处理速度快)、Variety(数据类型多样,含结构化、半结构化、非结构化数据)、Value(数据蕴含价值,需挖掘)、Veracity(数据真实性与可靠性)。选项D“Variance(方差)”是统计学概念,并非大数据特征,故错误。54.在数据集成过程中,ETL(Extract,Transform,Load)与ELT(Extract,Load,Transform)的主要区别在于?
A.ETL在数据加载前完成数据转换,ELT在加载后完成
B.ETL适用于大数据量,ELT适用于小数据量
C.ETL的数据转换仅在源系统完成,ELT在目标系统完成
D.ETL需要数据库支持,ELT不需要【答案】:A
解析:本题考察ETL与ELT的核心区别。ETL的流程是先抽取(Extract)数据,再在中间层完成转换(Transform),最后加载(Load)到目标系统;ELT则是先抽取后直接加载到目标系统,再在目标系统中进行转换。因此A正确。B错误,ELT因可利用目标系统并行处理能力,更适合大数据量;C错误,ETL的转换阶段可在中间系统完成,ELT的转换也可在中间层或目标系统完成,并非“仅在源/目标系统”;D错误,两者均依赖数据库存储目标数据。因此正确答案为A。55.以下哪项不属于数据库事务的ACID特性?
A.原子性(Atomicity)
B.一致性(Consistency)
C.隔离性(Isolation)
D.可扩展性(Scalability)【答案】:D
解析:本题考察数据库事务的ACID特性。ACID是事务的四大核心特性:原子性(事务要么全执行,要么全不执行)、一致性(事务前后数据状态合法,如金额转账后账户余额正确)、隔离性(多个事务并发执行时互不干扰)、持久性(事务提交后结果永久保存)。而“可扩展性”是系统架构的设计目标(如水平/垂直扩展能力),不属于事务的ACID特性,因此选D。56.以下哪种数据库通常采用键值对(Key-Value)结构存储数据?
A.MySQL
B.MongoDB
C.Redis
D.Oracle【答案】:C
解析:本题考察数据库类型及其存储模型。Redis是典型的键值对(Key-Value)存储数据库,以key:value形式直接存储数据;MongoDB是文档型数据库,采用类似JSON的文档结构;MySQL和Oracle均为关系型数据库,以二维表形式组织数据。因此正确答案为C。57.ETL数据处理流程中,‘T’代表的核心步骤是?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Transfer(传输)【答案】:B
解析:本题考察ETL流程的基本概念。ETL即数据抽取(Extract)、转换(Transform)、加载(Load)的缩写,其中‘T’代表数据转换步骤,负责清洗、格式转换、数据整合等操作。错误选项中,A是‘E’(抽取),C是‘L’(加载),D的‘传输’非ETL标准术语。58.在关系型数据库中,以下哪种索引结构在大数据量下适合范围查询且IO效率较高?
A.B树索引
B.B+树索引
C.哈希索引
D.红黑树索引【答案】:B
解析:本题考察数据库索引类型的特点。B+树索引的叶子节点通过指针连接,范围查询时只需遍历叶子节点链表,减少IO次数;同时所有数据存在叶子节点,非叶子节点仅存索引键,降低空间占用。A选项B树索引的叶子节点不相连,范围查询需遍历所有分支节点,IO效率低于B+树;C选项哈希索引仅适用于等值查询,无法支持范围查询;D选项红黑树是内存中的二叉平衡树,不适合磁盘存储的大数据量场景。59.以下哪种索引类型在MySQL中不常用于普通查询场景?
A.B+树索引
B.哈希索引
C.主键索引
D.唯一索引【答案】:B
解析:本题考察MySQL索引类型的应用场景。MySQL中默认的索引类型是B+树索引(选项A),适用于范围查询、排序等普通场景;主键索引(选项C)和唯一索引(选项D)本质上也是B+树索引的一种,用于快速定位和唯一性约束。哈希索引(选项B)仅适用于等值查询(如=),且在MySQL中仅在Memory存储引擎下支持,普通查询场景下因无法支持范围查询等操作而不常用。60.以下哪个大数据处理框架以低延迟、高吞吐的实时流处理能力著称,且支持事件时间(EventTime)和状态管理?
A.ApacheSpark
B.ApacheFlink
C.HadoopMapReduce
D.ApacheStorm【答案】:B
解析:本题考察主流大数据处理框架的特性。正确答案为B(ApacheFlink)。原因:Flink是专为实时流处理设计的框架,支持事件时间窗口、状态管理(如KeyedState)和精确一次(Exactly-Once)语义,适合低延迟、高吞吐的实时场景。其他选项错误原因:A(Spark)以内存计算和批处理为主,虽支持流处理但实时性弱于Flink;C(MapReduce)是早期批处理框架,仅支持离线计算;D(Storm)是基础流处理框架,但缺乏Flink的事件时间处理和状态管理能力。61.在MySQL数据库中,默认使用的索引类型是?
A.B+树索引
B.哈希索引(HashIndex)
C.R树索引(R-TreeIndex)
D.非聚簇索引(Non-ClusteredIndex)【答案】:A
解析:本题考察数据库索引类型。MySQL的InnoDB存储引擎默认使用B+树索引,其特点为:支持范围查询(如`WHEREidBETWEEN1AND100`)、有序性(索引数据按顺序存储)、适合磁盘存储(减少IO次数)。选项B“哈希索引”仅在Memory引擎中默认支持,且仅适用于等值查询(如`WHEREkey=value`);选项C“R树索引”主要用于空间数据索引(如GIS系统),非通用场景;选项D“非聚簇索引”是聚簇索引的对比概念,MySQL中InnoDB的主键索引为聚簇索引,非主键索引为非聚簇索引,但非聚簇索引并非默认类型,而是索引类型的分类描述。62.Hadoop生态系统中,负责分布式数据存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是基于Hadoop的数据仓库工具。正确答案为A,因HDFS专注于分布式存储,而MapReduce、YARN、Hive分别对应计算、资源管理和数据仓库工具,与“存储”功能不符。63.数据仓库中,能够反映数据随时间变化的特性是?
A.面向主题
B.集成性
C.时变性
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特性。时变性是数据仓库的关键特性,指数据包含历史信息,支持时间序列分析和趋势挖掘;面向主题强调数据围绕特定业务主题(如销售、客户)组织;集成性指整合多源数据并消除冗余;非易失性指数据一旦进入仓库,通常只追加/查询,不轻易修改。因此C为正确答案。64.在ETL(Extract-Transform-Load)数据处理流程中,负责清洗、转换数据格式的步骤是?
A.Extract
B.Transform
C.Load
D.Validate【答案】:B
解析:本题考察ETL各步骤的功能。ETL是数据集成的核心流程:Extract(A选项)负责从源系统(如数据库、日志文件)抽取原始数据;Transform(B选项)是关键步骤,对抽取的数据进行清洗(去重、补全)、格式转换(如类型转换、单位换算),以满足目标系统需求;Load(C选项)将转换后的数据加载到目标系统(如数据仓库);Validate(D选项)属于数据质量校验环节,非ETL标准步骤。因此正确答案为B。65.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Spark【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于存储海量数据;MapReduce是分布式计算框架,负责并行处理数据;YARN是资源管理器,负责集群资源调度;Spark是独立的快速计算系统,不属于Hadoop原生生态的存储组件。因此正确答案为A。66.数据质量维度中,“数据是否在规定时间内完成数据处理或交付”属于以下哪个维度?
A.准确性
B.及时性
C.完整性
D.一致性【答案】:B
解析:本题考察数据质量核心维度。及时性(B)指数据能按时满足业务需求,如实时处理或按时交付;准确性(A)强调数据无错误、真实可靠;完整性(C)指数据无缺失、覆盖必要字段;一致性(D)指数据在不同系统/版本间保持统一。因此正确答案为B。67.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.MapReduce
B.HDFS
C.YARN
D.ZooKeeper【答案】:B
解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;MapReduce是分布式计算框架;YARN负责集群资源管理和任务调度;ZooKeeper是分布式协调服务。因此负责分布式文件存储的是HDFS,正确答案为B。68.在Hadoop生态系统中,负责分布式并行计算任务的核心框架是?
A.HDFS(分布式文件系统)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:B
解析:Hadoop的核心组件中,HDFS(A)负责分布式存储海量数据;MapReduce(B)是分布式计算框架,用于并行处理大数据任务;YARN(C)负责集群资源管理和任务调度;Hive(D)是基于Hadoop的数据仓库工具,提供SQL查询能力。因此负责分布式计算的是MapReduce。69.以下哪项是关系型数据库(RDBMS)的典型特征?
A.支持键值对存储
B.遵循ACID特性
C.以非结构化数据为主
D.仅支持NoSQL查询语言【答案】:B
解析:本题考察关系型数据库与NoSQL数据库的区别。关系型数据库(如MySQL、Oracle)具有ACID特性(原子性、一致性、隔离性、持久性)、SQL查询支持和表结构存储;而“键值对存储”是NoSQL数据库的典型特征(如MongoDB、Redis),“非结构化数据”是文档型NoSQL的特点,“仅支持NoSQL查询”与关系型数据库使用SQL矛盾。因此正确答案为B。70.以下哪项不属于数据治理中的元数据范畴?
A.数据字典(描述字段含义、类型等)
B.数据血缘(记录数据从产生到使用的全链路)
C.数据质量规则(定义数据清洗标准)
D.业务流程文档(描述部门间协作流程)【答案】:D
解析:本题考察数据治理中元数据的定义。元数据是描述数据的数据,用于管理数据生命周期,主要分为业务元数据、技术元数据和操作元数据。选项A正确,数据字典记录字段名称、类型、长度、所属业务域等数据属性,属于业务元数据;选项B正确,数据血缘记录数据的来源(如原始系统)、转换步骤(如ETL规则)、应用路径(如被哪个报表使用),属于技术元数据,用于追踪数据质量和责任;选项C正确,数据质量规则定义数据的完整性、准确性、一致性标准(如“手机号必须11位”),属于操作元数据,用于指导数据清洗和校验;选项D错误,业务流程文档描述的是组织内部的业务逻辑和流程步骤(如“销售订单从创建到发货的审批流程”),属于业务流程范畴,而非数据本身的描述。因此不属于元数据的是D。71.以下哪种数据库类型通常用于存储非结构化或半结构化数据?
A.关系型数据库
B.NoSQL数据库
C.分布式数据库
D.内存数据库【答案】:B
解析:本题考察关系型数据库与NoSQL数据库的适用场景。关系型数据库(如MySQL、Oracle)以表结构存储结构化数据,依赖固定模式;NoSQL数据库(如MongoDB、Cassandra)支持非结构化(如文档、图片)或半结构化数据,灵活适配多变数据格式。A选项关系型数据库适合结构化数据,C选项分布式数据库多为关系型扩展,D选项内存数据库仅强调存储在内存中,与数据结构类型无关。因此正确答案为B。72.在数据仓库构建流程中,ETL(Extract,Transform,Load)与ELT(Extract,Load,Transform)的最主要区别在于?
A.数据抽取的方式不同
B.数据转换的执行位置不同
C.数据加载的目标系统不同
D.数据存储的格式不同【答案】:B
解析:本题考察ETL与ELT的核心区别。ETL是先从源系统抽取数据,在数据仓库外完成转换后再加载;ELT则是先抽取数据并直接加载到目标系统(数据仓库),再在目标系统内执行转换。因此区别在于转换的执行位置,正确答案为B。A项两者抽取方式类似;C项加载目标系统通常均为数据仓库;D项存储格式与转换前后一致,非核心差异。73.在关系型数据库中,主键(PrimaryKey)的主要作用是?
A.唯一标识表中每条记录
B.建立与其他表的外键约束关系
C.直接存储业务数据内容
D.加速表中数据的查询速度【答案】:A
解析:本题考察关系型数据库主键的核心作用。主键的核心作用是唯一标识表中的每条记录,确保数据的唯一性和不可重复性。选项B错误,外键(ForeignKey)才用于建立表间关系,主键本身不直接负责建立外键约束;选项C错误,存储业务数据的是表的列(字段),主键是约束列,其值由业务数据填充但本身不存储数据内容;选项D错误,主键可能自动创建索引从而加速查询,但“加速查询”是主键的衍生特性而非核心作用,核心作用是唯一性标识。74.用户通过浏览器直接使用在线文档编辑工具(如GoogleDocs),这种服务模式属于云计算的哪种类型?
A.IaaS
B.PaaS
C.SaaS
D.DaaS【答案】:C
解析:本题考察云计算服务模式。IaaS提供基础设施资源(如服务器、存储);PaaS提供开发/运行平台(如数据库、中间件);SaaS直接提供软件应用,用户无需安装,通过网络访问(如在线办公软件);DaaS提供数据访问而非完整软件。题目中在线文档属于软件应用,因此选C。75.关于ApacheSpark和ApacheFlink的技术特性,以下描述正确的是?
A.SparkStreaming基于微批处理,Flink基于纯流处理
B.Spark仅支持无状态流处理,Flink支持有状态流处理
C.Spark仅支持事件时间语义,Flink仅支持处理时间语义
D.Spark是离线计算框架,Flink是实时计算框架【答案】:A
解析:本题考察流处理框架的技术差异。SparkStreaming(现StructuredStreaming)基于微批处理模型,将流数据切分为小批量处理;Flink是纯流处理框架,基于事件时间语义处理实时流数据。选项B错误,Flink和Spark均支持有状态计算;选项C错误,两者均支持事件时间和处理时间语义;选项D错误,Spark可处理离线/实时计算(微批),Flink以实时计算为核心但也支持批处理。因此正确答案为A。76.数据库事务的ACID特性中,“C”代表的是?
A.Atomicity(原子性)
B.Consistency(一致性)
C.Isolation(隔离性)
D.Durability(持久性)【答案】:B
解析:本题考察数据库事务ACID特性的定义。ACID四个字母分别对应:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。其中,“C”(Consistency)指事务执行前后,数据库的完整性约束(如主键唯一性、外键关联)必须保持一致;选项A(原子性)对应事务的“不可分割”特性;选项C(隔离性)指并发事务互不干扰;选项D(持久性)指事务提交后数据永久保存。因此正确答案为B。77.以下哪项是数据仓库(DataWarehouse)的核心特性之一?
A.面向主题(Subject-Oriented)
B.实时事务处理(Real-timeTransactionProcessing)
C.支持高并发读写(HighConcurrencyRead/Write)
D.强事务一致性(StrongTransactionConsistency)【答案】:A
解析:数据仓库的核心特性包括面向主题(围绕分析主题组织数据)、集成性(整合多源数据)、非易失性(数据仅增不减)、时变性(历史数据随时间积累)。而实时事务处理、高并发读写、强事务一致性是传统数据库(如OLTP系统)的特点,数据仓库主要用于离线分析(OLAP),不强调实时事务。78.以下关于Hadoop与Spark的描述,错误的是?
A.HadoopMapReduce是分布式批处理框架
B.Spark支持内存计算,速度比MapReduce快
C.Spark只能处理批处理任务
D.Hadoop包含HDFS分布式文件系统和MapReduce计算框架【答案】:C
解析:本题考察大数据处理框架知识点。选项A正确,HadoopMapReduce是Hadoop生态中核心的分布式批处理框架;选项B正确,Spark采用内存计算模型,避免了MapReduce的磁盘IO开销,处理速度显著提升;选项C错误,Spark不仅支持批处理,还提供SparkStreaming(流处理)、SparkSQL(交互式查询)等多种计算模式,功能远超过单纯批处理;选项D正确,Hadoop生态包含HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理)等核心组件。79.在数据仓库建设中,‘从源系统提取数据到临时存储,经清洗、转换后加载到目标数据仓库’描述的是哪个过程?
A.ETL
B.ELT
C.ETL和ELT都包含
D.以上都不是【答案】:A
解析:本题考察ETL与ELT的定义。ETL(Extract,Transform,Load)是先提取数据,经过清洗、转换等处理后,再加载到目标数据仓库;ELT(Extract,Load,Transform)则是先将数据直接加载到目标系统,再在目标系统中进行转换。题干明确描述了‘先提取→转换→加载’的流程,符合ETL的定义。因此正确答案为A。80.在SQL中,LEFTJOIN操作的结果集包含以下哪项?
A.左表的所有记录,以及右表中与左表匹配的记录,右表无匹配时用NULL填充
B.右表的所有记录,以及左表中与右表匹配的记录,左表无匹配时用NULL填充
C.左表和右表中所有记录,无论是否匹配
D.左表和右表中仅匹配的记录【答案】:A
解析:本题考察SQL中LEFTJOIN的基本概念。LEFTJOIN(左连接)的核心是保留左表的所有记录,右表中只有与左表条件匹配的记录会被保留,若右表无匹配记录,则对应字段用NULL填充。选项B描述的是RIGHTJOIN(右连接)的行为;选项C是FULLJOIN(全连接)的结果;选项D是INNERJOIN(内连接)的结果,仅返回匹配记录。因此正确答案为A。81.在Python数据科学库中,用于处理表格型数据(如CSV、Excel文件)并提供强大数据清洗功能的是?
A.NumPy
B.Pandas
C.Matplotlib
D.Scikit-learn【答案】:B
解析:本题考察Python数据科学库的功能。Pandas是基于NumPy的高级数据处理库,提供DataFrame和Series结构,专为表格型数据设计,支持数据清洗、转换、合并等操作;NumPy是基础数值计算库,侧重数组运算;Matplotlib用于数据可视化;Scikit-learn是机器学习库,用于算法实现。因此正确答案为B。82.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于在集群中存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。83.以下哪项不属于数据质量的核心维度?
A.准确性
B.完整性
C.一致性
D.可扩展性【答案】:D
解析:本题考察数据质量的基础概念。数据质量的核心维度通常包括准确性(数据是否正确)、完整性(是否缺失关键信息)、一致性(数据在不同系统/时间是否统一)、及时性(数据是否最新)等;选项D的“可扩展性”是系统架构或数据存储的性能特征,与数据质量无关。因此正确答案为D。84.以下哪项不属于数据质量的核心维度?
A.准确性
B.完整性
C.安全性
D.及时性【答案】:C
解析:数据质量的核心维度包括准确性(数据真实反映业务事实)、完整性(数据无缺失/冗余)、一致性(数据在不同场景/系统中一致)、及时性(数据更新符合业务时效)。安全性属于数据安全范畴(如加密、权限控制),与数据质量(数据本身的可用性)是不同概念,因此不属于数据质量维度。85.下列哪项不属于数据仓库的核心特性?
A.面向主题
B.集成性
C.实时性
D.非易失性【答案】:C
解析:本题考察数据仓库的核心特性。数据仓库的核心特性包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据一旦加载通常不被修改,仅追加历史数据)、时变性(存储历史数据,反映时间趋势)。而‘实时性’是OLTP(联机事务处理)系统的典型特征,数据仓库侧重历史数据分析,非实时处理。因此‘实时性’不属于数据仓库特性,正确答案为C。86.在Hadoop分布式文件系统(HDFS)中,默认情况下,一个文件会被存储为几个副本以提高容错性和读取效率?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS副本机制知识点。HDFS默认将文件存储为3个副本,原因是:1个副本无法应对单点故障,2个副本容错能力有限,3个副本既能满足高容错性(允许最多2个节点故障),又能通过多副本并行读取提高效率。4个副本会显著增加存储开销,非默认配置。因此正确答案为C。87.Hadoop生态系统中,负责分布式存储的核心组件是以下哪项?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源的分配与调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询和数据分析。因此正确答案为A。88.以下哪个是Hadoop生态系统中负责存储海量分布式数据的核心组件?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源分配;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。89.在Hadoop生态系统中,HDFS(Hadoop分布式文件系统)的主要功能是?
A.分布式文件存储
B.分布式计算任务调度
C.集群资源管理
D.数据处理与分析【答案】:A
解析:本题考察Hadoop生态系统核心组件功能。HDFS是Hadoop的分布式文件系统,负责存储海量数据;B选项“分布式计算任务调度”是YARN(资源管理器)的功能;C选项“集群资源管理”同样属于YARN;D选项“数据处理与分析”是MapReduce或Spark的功能。因此正确答案为A。90.在数据ETL流程中,数据从源系统到目标数据仓库的标准执行顺序是?
A.提取(Extract)→转换(Transform)→加载(Load)
B.提取(Extract)→加载(Load)→转换(Transform)
C.转换(Transform)→提取(Extract)→加载(Load)
D.加载(Load)→转换(Transform)→提取(Extract)【答案】:A
解析:本题考察ETL流程的标准步骤。ETL(Extract-Transform-Load)是数据从源系统到目标系统的核心流程:首先从源系统(如业务数据库)提取数据(Extract),然后对数据进行清洗、转换(如格式统一、缺失值填充、字段映射等)(Transform),最后将处理后的数据加载(Load)到目标系统(如数据仓库)。选项B错误,加载应在转换之后,否则数据未经过处理就直接加载会导致目标系统数据混乱;选项C和D顺序完全颠倒,不符合ETL的标准流程。91.与传统MapReduce相比,ApacheSpark的显著优势不包括以下哪项?
A.内存计算,处理速度更快
B.支持多种计算模式(批处理、流处理、交互式查询)
C.仅支持批处理任务,不支持实时计算
D.提供丰富的API(Scala、Python、Java等)【答案】:C
解析:本题考察Spark的核心优势。Spark的核心优势包括:基于内存计算,速度比MapReduce快100倍以上;支持多种计算模式(批处理SparkCore、流处理SparkStreaming、交互式查询SparkSQL);提供多语言API(Scala、Python、Java等)。而‘仅支持批处理,不支持实时计算’是错误描述,SparkStreaming正是用于实时流处理的模块。因此正确答案为C。92.数据治理中,用于描述数据资产的技术属性(如数据存储位置、字段类型)和业务属性(如数据来源、字段含义)的是?
A.元数据
B.主数据
C.数据血缘
D.数据标准【答案】:A
解析:本题考察数据治理中核心概念的定义。元数据是“描述数据的数据”,包含技术元数据(如存储位置、字段类型)、业务元数据(如数据来源、字段含义)和操作元数据(如数据更新频率)。B选项主数据是核心业务实体数据(如客户、产品),非描述属性;C选项数据血缘描述数据从产生到消费的全生命周期路径,不直接描述属性;D选项数据标准是规范数据定义、格式的统一规则,非属性描述。93.以下哪种算法属于无监督学习?
A.决策树(用于分类)
B.K-Means聚类算法
C.支持向量机(SVM)分类
D.逻辑回归(用于回归预测)【答案】:B
解析:本题考察机器学习算法的分类知识点。无监督学习的目标是从无标签
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026 学龄前自闭症教师认知课件
- 自动化测试实践与经验
- 她是我的朋友1
- 2026 学龄前自闭症感统干预课件
- 女生节活动总结集合15篇
- 家长会代表发言稿(合集15篇)
- 寝室活动总结15篇
- 2025工程(瓷砖维修)合同
- 2026年销售人员大客户管理培训计划
- 薪酬福利管理管理办法
- 2025至2030全球及中国燃气轮机服务行业发展趋势分析与未来投资战略咨询研究报告
- 装卸平台升降平台施工方案
- 老年人保健急救知识培训课件
- 2025-2026学年重庆市渝北区数据谷中学校七年级上学期新生入学考试数学试卷
- 2025四川产业振兴基金投资集团有限公司招聘12人笔试参考题库附带答案详解
- 中国融通集团2025社招笔试题库
- 儿科急救药品用法及剂量
- 护士职业暴露课件
- GJB3165A-2020航空承力件用高温合金热轧和锻制棒材规范
- 有机合成化学第二版叶非课后答案
- 山东省青岛39中重点达标名校2026届中考英语押题试卷含答案
评论
0/150
提交评论