2026年数据技术考试题库附答案详解【综合题】_第1页
2026年数据技术考试题库附答案详解【综合题】_第2页
2026年数据技术考试题库附答案详解【综合题】_第3页
2026年数据技术考试题库附答案详解【综合题】_第4页
2026年数据技术考试题库附答案详解【综合题】_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年数据技术考试题库附答案详解【综合题】1.ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)的核心区别在于?

A.ETL需要更多的存储空间

B.转换操作发生的位置不同

C.ETL只能用于结构化数据,ELT仅用于非结构化数据

D.ETL由ETL工具完成,ELT由数据库直接完成【答案】:B

解析:本题考察ETL与ELT的区别。ETL流程是先抽取(Extract)数据,转换(Transform)后再加载(Load)到目标系统(如数据仓库);ELT流程是先抽取数据加载(Load)到目标系统,再在目标系统中进行转换(Transform)。核心区别在于数据转换发生的位置,而非存储需求、数据类型或工具来源。因此正确答案为B。2.在数据治理中,以下哪项属于元数据的范畴?

A.数据血缘

B.数据清洗

C.数据脱敏

D.数据压缩【答案】:A

解析:本题考察数据治理中元数据的定义。元数据是“关于数据的数据”,数据血缘(描述数据的来源、流转路径)属于典型元数据。选项B错误,数据清洗是数据预处理操作(去除噪声、缺失值等);选项C错误,数据脱敏是隐私保护技术(对敏感数据加密/替换);选项D错误,数据压缩是存储优化手段(减少磁盘空间占用),均不属于元数据。3.数据仓库中,能够反映数据随时间变化的特性是?

A.面向主题

B.集成性

C.时变性

D.非易失性【答案】:C

解析:本题考察数据仓库的核心特性。时变性是数据仓库的关键特性,指数据包含历史信息,支持时间序列分析和趋势挖掘;面向主题强调数据围绕特定业务主题(如销售、客户)组织;集成性指整合多源数据并消除冗余;非易失性指数据一旦进入仓库,通常只追加/查询,不轻易修改。因此C为正确答案。4.与传统的MapReduce相比,Spark在大数据处理中具有显著优势,以下哪项不属于Spark的核心优势?

A.基于内存计算,大大减少了磁盘I/O操作

B.支持多种数据处理模式,包括批处理、流处理和交互式查询

C.只能处理结构化数据,无法处理半结构化或非结构化数据

D.提供了丰富的API(如Scala、Python、Java),易于编程【答案】:C

解析:本题考察Spark核心优势对比MapReduce。Spark优势包括:①内存计算减少磁盘I/O(A正确);②统一处理引擎支持批处理、流处理(StructuredStreaming)和交互式查询(SparkSQL)(B正确);③多语言API(Scala/Python/Java)降低开发门槛(D正确)。Spark支持结构化、半结构化(JSON/XML)和非结构化数据(文本/图片元数据),而MapReduce主要处理结构化数据。选项C错误描述了Spark能力,因此正确答案为C。5.以下关于NoSQL数据库的描述,错误的是?

A.NoSQL数据库是非关系型数据库,通常不支持SQL查询

B.MongoDB是一种文档型NoSQL数据库,以JSON格式存储数据

C.Redis是一种键值型NoSQL数据库,常用于缓存场景

D.NoSQL数据库一定比关系型数据库在所有场景下性能更好【答案】:D

解析:本题考察NoSQL数据库的特性与适用场景。NoSQL数据库在高并发写入、海量数据存储等场景性能优势显著,但关系型数据库在事务一致性、复杂关联查询等场景更优。选项A正确,NoSQL以非关系模型(如键值、文档)为主,一般不支持SQL;选项B正确,MongoDB是典型文档型数据库;选项C正确,Redis是键值型数据库,广泛用于缓存。6.以下关于ETL和ELT的描述,正确的是?

A.ETL的数据转换在数据库外完成,ELT在数据库内完成

B.ETL仅适用于关系型数据库,ELT仅适用于数据湖

C.ETL比ELT的执行速度更快

D.ETL的数据冗余量比ELT更少【答案】:A

解析:本题考察ETL/ELT流程知识点。ETL(Extract-Transform-Load)的核心是先抽取数据,在数据库外完成转换后再加载;ELT(Extract-Load-Transform)则先加载原始数据,再在数据库内完成转换(A正确)。B错误,两者均可用于关系型数据库和数据湖;C错误,ELT因并行处理可能更优;D错误,ETL因转换后数据量小,冗余更少的描述不成立。7.开源ETL工具Kettle(现更名为?)

A.PentahoDataIntegration

B.InformaticaPowerCenter

C.TalendOpenStudio

D.ApacheNiFi【答案】:A

解析:本题考察ETL工具认知。Kettle(KDEDataIntegration)于2008年被Pentaho收购,更名为PentahoDataIntegration(PDI)。选项B是商业ETL工具;选项C是Talend的开源分支,与Kettle无关;选项D是Apache的数据流处理工具,非ETL工具。正确答案为A。8.关于数据库索引的描述,错误的是?

A.索引可以加快数据查询的执行速度

B.索引会降低数据插入和更新的性能

C.一个表只能创建一个主键索引

D.索引会占用额外的存储空间【答案】:C

解析:本题考察数据库索引的核心概念。选项A正确,合理的索引(如B+树索引)可通过减少全表扫描提升查询效率,适用于基于索引列的条件查询;选项B正确,插入或更新数据时,数据库需维护索引结构(如调整指针、重建平衡树),导致额外IO开销,降低写入性能;选项C错误,一个表只能有一个主键索引(主键唯一且非空),但可创建多个唯一索引、普通索引或复合索引,例如对不同字段创建唯一索引;选项D正确,索引本质是独立的数据结构(如B+树),需存储索引键值及指向表数据的指针,会显著增加存储空间。因此错误选项为C。9.数据库事务具有ACID特性,其中“原子性(Atomicity)”指的是?

A.事务中的所有操作要么全部执行成功,要么全部失败回滚

B.事务执行过程中,多个事务之间相互隔离,互不干扰

C.事务执行前后,数据库的完整性约束未被破坏

D.事务一旦提交,对数据库的修改将永久保存,即使系统故障也不会丢失【答案】:A

解析:本题考察数据库事务ACID特性的概念。原子性(Atomicity)要求事务中的所有操作是一个不可分割的整体,要么全部执行成功,要么全部失败回滚,对应选项A。选项B描述的是隔离性(Isolation);选项C描述的是一致性(Consistency);选项D描述的是持久性(Durability)。10.数据库中建立索引的主要目的是?

A.提高查询效率

B.增加数据存储量

C.保证数据唯一性

D.优化表结构设计【答案】:A

解析:本题考察数据库索引的功能。索引通过维护数据的有序结构(如B+树),减少查询时的全表扫描,直接定位目标数据,从而显著提升查询效率。选项B错误,索引仅增加少量存储开销(如索引文件),不会增加数据总量;选项C错误,数据唯一性由主键约束、唯一索引等实现,但这是索引的“附加功能”而非主要目的;选项D错误,索引不影响表结构设计(表结构由字段、约束等决定)。11.在ETL数据处理流程中,数据清洗(如去除重复值、处理缺失值)主要属于哪个阶段?

A.Extract(抽取)

B.Transform(转换)

C.Load(加载)

D.Validate(验证)【答案】:B

解析:本题考察ETL流程的核心步骤。ETL分为三个阶段:Extract(抽取,从源系统获取原始数据)、Transform(转换,对数据进行清洗、格式转换、整合等处理)、Load(加载,将转换后的数据写入目标系统)。数据清洗是对数据质量的优化处理,属于转换阶段的关键操作。Validate(验证)并非ETL标准流程的核心步骤,因此正确答案为B。12.在数据可视化中,以下哪种图表最适合展示一段时间内某指标的变化趋势?

A.柱状图(BarChart)

B.折线图(LineChart)

C.饼图(PieChart)

D.散点图(ScatterPlot)【答案】:B

解析:本题考察数据可视化图表的适用场景。折线图通过连续的线条连接数据点,能清晰展示数据随时间或序列的变化趋势(如股票价格走势、气温变化)。选项A柱状图更适合比较不同类别数据的大小(如各产品销售额对比);选项C饼图用于展示整体中各部分的占比(如用户来源分布);选项D散点图用于观察两个变量间的相关性(如身高与体重的关系)。因此正确答案为B。13.关于ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)两种数据集成模式,以下描述正确的是?

A.ETL先进行数据转换再加载到目标系统,ELT反之

B.ETL仅适用于云端环境,ELT仅适用于本地部署

C.ETL更适合大数据量场景,ELT更适合小数据量场景

D.ETL对目标系统资源要求更高,ELT对源系统资源要求更高【答案】:A

解析:本题考察ETL与ELT的核心差异。选项A正确,ETL流程是先从源系统提取数据,转换清洗后加载到目标系统(如数据仓库);ELT则是先将原始数据直接加载到目标系统,再在目标系统中进行转换,适合数据量大、目标系统资源充足的场景;选项B错误,两者均支持云端/本地部署;选项C错误,ELT更适合大数据量(减少数据传输),ETL适合小数据量或源系统资源有限的场景;选项D错误,ETL需源系统完成转换,对源系统资源要求高;ELT需目标系统存储原始数据,对目标系统存储要求高。14.以下哪项不属于数据仓库的核心特征?

A.面向主题

B.集成性

C.实时性

D.时变性【答案】:C

解析:本题考察数据仓库的核心特征。数据仓库是用于支持管理决策的结构化数据集合,其特征包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间积累历史数据)。而“实时性”是联机事务处理(OLTP)数据库的特征,数据仓库侧重批处理分析历史数据,非实时性。因此错误选项为C。15.在数据仓库的维度建模中,以下哪种模型是将维度表直接与事实表相连,无冗余但结构相对简单的设计?

A.星型模型(StarSchema)

B.雪花模型(SnowflakeSchema)

C.星座模型(ConstellationSchema)

D.层次模型(HierarchicalModel)【答案】:A

解析:本题考察数据仓库的维度建模类型。星型模型以事实表为中心,所有维度表直接与事实表相连,结构简单且查询效率高;雪花模型是星型模型的规范化扩展,维度表进一步拆分为子表(如地理维度拆分为国家-省-市层级),会增加查询复杂度;星座模型是多个事实表共享同一维度表的设计;层次模型是数据库早期的非规范化模型,与数据仓库维度建模无关。因此正确答案为A。16.以下哪个大数据处理框架以低延迟、高吞吐的实时流处理能力著称,且支持事件时间(EventTime)和状态管理?

A.ApacheSpark

B.ApacheFlink

C.HadoopMapReduce

D.ApacheStorm【答案】:B

解析:本题考察主流大数据处理框架的特性。正确答案为B(ApacheFlink)。原因:Flink是专为实时流处理设计的框架,支持事件时间窗口、状态管理(如KeyedState)和精确一次(Exactly-Once)语义,适合低延迟、高吞吐的实时场景。其他选项错误原因:A(Spark)以内存计算和批处理为主,虽支持流处理但实时性弱于Flink;C(MapReduce)是早期批处理框架,仅支持离线计算;D(Storm)是基础流处理框架,但缺乏Flink的事件时间处理和状态管理能力。17.在MySQL的InnoDB存储引擎中,默认使用的索引结构是?

A.哈希索引

B.B+树索引

C.全文索引

D.R树索引【答案】:B

解析:本题考察MySQL索引类型,InnoDB存储引擎默认采用B+树索引,B+树索引适合范围查询、顺序访问,且支持事务和聚簇索引;哈希索引主要用于等值查询,MySQL中仅Memory引擎默认支持且非InnoDB默认;全文索引用于文本内容的快速搜索,如MATCHAGAINST语法;R树索引多用于空间数据类型(如GIS数据),非InnoDB默认索引结构。因此正确答案为B。18.关于Spark大数据处理框架的描述,错误的是?

A.支持内存计算,速度远快于MapReduce

B.基于RDD(弹性分布式数据集)模型,支持迭代计算

C.仅能处理批处理任务,无法支持流处理

D.内置MLlib库,可快速实现机器学习算法【答案】:C

解析:本题考察Spark的核心特性。Spark是通用的大数据处理引擎,支持批处理(SparkSQL)、流处理(StructuredStreaming)、机器学习(MLlib)等多种场景。选项A正确,Spark通过内存计算减少磁盘IO,提升性能;选项B正确,RDD是Spark的核心抽象,支持迭代计算;选项D正确,MLlib提供丰富的机器学习工具;选项C错误,SparkStreaming可实时处理流数据,而MapReduce仅支持批处理。因此正确答案为C。19.ETL流程中,“T”代表的环节是?

A.Transformation(转换)

B.Transfer(传输)

C.Transaction(事务)

D.Temporary(临时存储)【答案】:A

解析:本题考察ETL流程的定义。ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写,其中“T”对应转换环节,负责对抽取的数据进行清洗、格式转换、数据整合等操作,以满足目标数据仓库或数据库的需求。选项B“Transfer”(传输)非ETL核心环节;C“Transaction”(事务)与数据抽取加载无关;D“Temporary”(临时存储)是中间过程,非ETL流程定义中的“T”。正确答案为A。20.以下哪种算法属于无监督学习算法?

A.线性回归(LinearRegression)

B.K-means聚类算法

C.决策树(DecisionTree)

D.逻辑回归(LogisticRegression)【答案】:B

解析:本题考察机器学习算法分类。无监督学习算法无需人工标注标签,通过数据自身特征进行模式识别,常见算法包括聚类(如K-means)、降维(如PCA)。选项A“线性回归”是用于预测连续值的监督学习算法(需标签);C“决策树”可用于分类或回归(监督学习);D“逻辑回归”是二分类监督学习算法。K-means通过计算数据点距离自动分组,属于无监督聚类算法。正确答案为B。21.在关系型数据库中,当需要对数据进行范围查询(如查询某字段值在10到100之间的数据)时,以下哪种索引结构性能最优?

A.哈希索引

B.B+树索引

C.全文索引

D.聚簇索引【答案】:B

解析:本题考察数据库索引类型的适用场景。哈希索引通过计算键值的哈希值定位数据,仅支持等值查询,不支持范围查询;B+树索引的叶子节点按顺序排列并通过指针连接,支持高效的范围查询(如BETWEEN、ORDERBY);全文索引用于文本内容的关键词搜索,与范围查询无关;聚簇索引是物理存储顺序与索引结构无关(InnoDB的主键聚簇索引结构为B+树),但其核心功能仍是等值查询。因此范围查询最优索引为B+树索引,正确答案为B。22.以下哪种索引类型在MySQLInnoDB存储引擎中默认使用,并且支持范围查询效率较高?

A.B+树索引

B.B树索引

C.哈希索引

D.聚簇索引【答案】:A

解析:本题考察数据库索引类型及InnoDB存储引擎特性。MySQLInnoDB默认使用B+树索引,其特点是所有数据存在叶子节点,且叶子节点通过指针形成双向链表,既能支持高效的等值查询,又能通过链表快速进行范围查询(如ORDERBY和BETWEEN操作)。B选项B树索引虽然结构类似,但叶子节点可能存储数据,且范围查询效率不如B+树;C选项哈希索引仅支持等值查询,不支持范围查询;D选项聚簇索引是一种数据组织方式(InnoDB表数据即聚簇索引),而非独立索引类型。因此正确答案为A。23.在关系型数据库中,主键(PrimaryKey)的主要作用是?

A.唯一标识表中每条记录

B.建立与其他表的外键约束关系

C.直接存储业务数据内容

D.加速表中数据的查询速度【答案】:A

解析:本题考察关系型数据库主键的核心作用。主键的核心作用是唯一标识表中的每条记录,确保数据的唯一性和不可重复性。选项B错误,外键(ForeignKey)才用于建立表间关系,主键本身不直接负责建立外键约束;选项C错误,存储业务数据的是表的列(字段),主键是约束列,其值由业务数据填充但本身不存储数据内容;选项D错误,主键可能自动创建索引从而加速查询,但“加速查询”是主键的衍生特性而非核心作用,核心作用是唯一性标识。24.在ETL流程中,‘Transform’阶段的主要作用是?

A.从源系统提取数据

B.对数据进行清洗、转换和整合

C.将处理后的数据加载到目标系统

D.对数据进行压缩和加密【答案】:B

解析:本题考察ETL流程各阶段的功能。ETL即Extract(提取)、Transform(转换)、Load(加载)。选项A是Extract阶段的作用;选项C是Load阶段的作用;选项D不属于ETL的核心功能。Transform阶段的核心是对提取的数据进行清洗(如去重、补全缺失值)、格式转换(如统一日期格式)和整合(如关联多源数据),因此选项B正确。25.在数据库事务中,确保事务执行前后数据状态始终符合业务规则和约束的特性是?

A.原子性(Atomicity)

B.一致性(Consistency)

C.隔离性(Isolation)

D.持久性(Durability)【答案】:B

解析:本题考察数据库事务ACID特性。原子性(A)强调事务“全做或全不做”;一致性(B)确保事务执行前后数据状态合法(如金额总和不变);隔离性(C)防止并发事务相互干扰;持久性(D)保证事务提交后结果永久保存。因此正确答案为B。26.关于Spark和Hadoop的比较,下列说法错误的是?

A.HadoopMapReduce基于磁盘进行计算,而Spark基于内存计算

B.Spark支持多种编程语言(如Scala、Python),而Hadoop主要使用Java

C.Hadoop的YARN是资源管理器,Spark只能运行在YARN上

D.Spark的DAG执行引擎可以优化计算任务,减少磁盘I/O【答案】:C

解析:本题考察Spark与Hadoop的核心区别。选项A正确,MapReduce因依赖磁盘读写导致性能较低,而Spark通过内存计算提升速度;选项B正确,Spark支持多语言API,Hadoop生态工具多基于Java开发;选项C错误,Spark不仅可运行在YARN上,还能独立部署或基于Mesos集群;选项D正确,Spark的DAG执行引擎可优化任务依赖关系,减少不必要的磁盘I/O。因此错误选项为C。27.以下关于OLAP(联机分析处理)和OLTP(联机事务处理)的描述,错误的是?

A.OLTP系统主要用于日常业务操作,如订单处理

B.OLAP系统通常采用星型模型或雪花模型进行数据存储

C.OLTP系统强调数据的实时性和一致性,要求事务ACID特性

D.OLAP系统的数据通常是历史数据,更新频率高【答案】:D

解析:本题考察OLAP与OLTP的本质区别。OLAP(分析型)主要用于决策支持,数据多为历史快照,更新频率低(如按天/周追加);OLTP(事务型)强调实时性和一致性,用于日常业务操作。选项A正确,OLTP典型场景如电商订单处理;选项B正确,OLAP为优化分析常采用星型/雪花模型;选项C正确,OLTP事务需满足ACID特性。28.以下哪项是数据仓库的核心特点?

A.数据实时更新

B.面向主题

C.数据可随意修改

D.仅存储当前数据【答案】:B

解析:本题考察数据仓库特点。数据仓库特点包括:①面向主题(围绕业务主题组织数据,如销售、财务);②集成性(整合多源数据,消除数据冗余与不一致);③非易失性(数据一旦加载通常不被修改,仅追加历史数据);④时变性(随时间积累历史数据,支持趋势分析)。A选项“实时更新”是OLTP(联机事务处理)系统特点;C选项“数据可随意修改”违背非易失性原则;D选项“仅存储当前数据”忽略了数据仓库的时变性(历史数据存储)。因此正确答案为B。29.与传统MapReduce相比,ApacheSpark的显著优势不包括以下哪项?

A.内存计算,处理速度更快

B.支持多种计算模式(批处理、流处理、交互式查询)

C.仅支持批处理任务,不支持实时计算

D.提供丰富的API(Scala、Python、Java等)【答案】:C

解析:本题考察Spark的核心优势。Spark的核心优势包括:基于内存计算,速度比MapReduce快100倍以上;支持多种计算模式(批处理SparkCore、流处理SparkStreaming、交互式查询SparkSQL);提供多语言API(Scala、Python、Java等)。而‘仅支持批处理,不支持实时计算’是错误描述,SparkStreaming正是用于实时流处理的模块。因此正确答案为C。30.ApacheKafka在流处理系统中的主要作用是?

A.提供低延迟的实时计算引擎

B.作为分布式存储系统存储历史数据

C.作为消息中间件缓冲和持久化数据流

D.实现数据仓库的ETL自动化流程【答案】:C

解析:本题考察Kafka核心功能。选项A错误,实时计算由Flink/SparkStreaming等框架提供;选项B错误,Kafka是消息队列,非分布式存储;选项C正确,Kafka作为高吞吐消息中间件,用于缓冲和持久化实时数据流;选项D错误,ETL流程由专门工具或框架实现,Kafka不负责ETL。31.以下哪项不属于数据仓库的核心特征?

A.面向主题

B.集成性

C.面向过程

D.时变性【答案】:C

解析:本题考察数据仓库的核心特征。数据仓库的核心特征包括:面向主题(围绕特定业务主题,如销售、财务)、集成性(整合多源异构数据)、非易失性(数据不频繁修改)、时变性(随时间变化记录历史数据);而“面向过程”是操作型数据库的特征(关注事务处理流程)。因此正确答案为C。32.在数据集成过程中,‘先提取数据到目标系统,再进行转换’的流程称为?

A.ETL

B.ELT

C.ETL+ELT混合

D.数据清洗【答案】:B

解析:本题考察数据集成流程(ETL与ELT)的区别。ETL(Extract-Transform-Load)流程是先提取数据,再进行转换,最后加载到目标系统;ELT(Extract-Load-Transform)则是先提取数据并直接加载到目标系统(如数据仓库),再在目标系统中完成转换。ELT更适合大数据场景,可利用目标系统的计算能力减少数据传输量。因此正确答案为B。33.以下哪项不属于数据质量的核心维度?

A.准确性

B.完整性

C.一致性

D.可扩展性【答案】:D

解析:本题考察数据质量的基础概念。数据质量的核心维度通常包括准确性(数据是否正确)、完整性(是否缺失关键信息)、一致性(数据在不同系统/时间是否统一)、及时性(数据是否最新)等;选项D的“可扩展性”是系统架构或数据存储的性能特征,与数据质量无关。因此正确答案为D。34.以下哪项是数据仓库的核心特征?

A.实时事务处理

B.面向主题

C.高并发写入

D.数据实时更新【答案】:B

解析:本题考察数据仓库的核心特征。数据仓库具有面向主题、集成性、非易失性、时变性四大核心特征,其中“面向主题”强调围绕业务主题组织数据;而“实时事务处理”“高并发写入”“数据实时更新”是操作型数据库(OLTP)的典型特征,数据仓库主要存储历史数据用于分析,不支持实时更新。因此正确答案为B。35.用户通过浏览器直接使用在线文档编辑工具(如GoogleDocs),这种服务模式属于云计算的哪种类型?

A.IaaS

B.PaaS

C.SaaS

D.DaaS【答案】:C

解析:本题考察云计算服务模式。IaaS提供基础设施资源(如服务器、存储);PaaS提供开发/运行平台(如数据库、中间件);SaaS直接提供软件应用,用户无需安装,通过网络访问(如在线办公软件);DaaS提供数据访问而非完整软件。题目中在线文档属于软件应用,因此选C。36.在数据仓库的维度建模中,关于事实表(FactTable)的描述,以下哪项是正确的?

A.事实表只包含业务度量值(如销售额、数量),不包含任何维度信息

B.事实表中的数据通常是高度汇总的,不存储明细数据

C.事实表的主键通常由多个维度表的外键组合而成

D.事实表必须包含一个自增的主键列,否则无法存储数据【答案】:C

解析:本题考察数据仓库维度建模中事实表的结构。事实表核心特点:①由维度表外键(维度键)和度量值组成,主键通常为多维度键的组合(如订单ID+产品ID+时间ID);②可存储明细数据(如交易流水)或汇总数据(如月度销售额);③无自增主键要求,复合维度键即可作为唯一标识。选项A错误(事实表包含维度键);选项B错误(事实表可存明细数据);选项D错误(无需自增主键)。因此正确答案为C。37.以下哪种数据库系统不属于关系型数据库(RDBMS)?

A.MySQL

B.PostgreSQL

C.MongoDB

D.Oracle【答案】:C

解析:本题考察关系型数据库与非关系型数据库的区别。关系型数据库(RDBMS)以表格形式存储数据,通过SQL查询,典型代表包括MySQL、PostgreSQL、Oracle。而MongoDB是文档型非关系型数据库(NoSQL),以JSON-like文档存储数据,不支持SQL标准。因此正确答案为C。38.在关系型数据库中,主键(PrimaryKey)的主要作用是?

A.唯一标识表中的每一行记录

B.外键关联其他表的字段

C.确保字段值不为空

D.自动为字段生成唯一数值【答案】:A

解析:本题考察关系型数据库主键的核心概念。主键的核心作用是唯一标识表中的每一行记录,确保数据的唯一性。选项B错误,外键才是用于关联其他表的字段;选项C错误,主键虽默认非空,但“确保非空”是约束效果而非主键定义的核心作用;选项D错误,“自动生成唯一数值”是主键的一种实现方式(如自增主键),而非主键的本质作用。39.在数据ETL流程中,数据从源系统到目标数据仓库的标准执行顺序是?

A.提取(Extract)→转换(Transform)→加载(Load)

B.提取(Extract)→加载(Load)→转换(Transform)

C.转换(Transform)→提取(Extract)→加载(Load)

D.加载(Load)→转换(Transform)→提取(Extract)【答案】:A

解析:本题考察ETL流程的标准步骤。ETL(Extract-Transform-Load)是数据从源系统到目标系统的核心流程:首先从源系统(如业务数据库)提取数据(Extract),然后对数据进行清洗、转换(如格式统一、缺失值填充、字段映射等)(Transform),最后将处理后的数据加载(Load)到目标系统(如数据仓库)。选项B错误,加载应在转换之后,否则数据未经过处理就直接加载会导致目标系统数据混乱;选项C和D顺序完全颠倒,不符合ETL的标准流程。40.在数据处理流程中,先将原始数据提取并加载到目标系统(如数据仓库),再进行数据转换的技术是?

A.ETL

B.ELT

C.ETL+ELT

D.数据集成【答案】:B

解析:本题考察ETL与ELT的区别。ETL(Extract-Transform-Load)是先提取数据,经转换后再加载到目标系统;ELT(Extract-Load-Transform)则是先将数据提取后直接加载到目标系统,再在目标系统中完成转换。ELT更适合大数据场景,因现代数据仓库(如云平台)可利用其计算资源高效完成转换。A选项ETL不符合“先加载后转换”的描述;C、D选项为干扰项。因此正确答案为B。41.关于数据库聚簇索引的特性,以下描述正确的是?

A.聚簇索引的键值与数据存储物理顺序一致

B.一个表只能创建一个聚簇索引

C.聚簇索引的叶子节点仅存储索引键值

D.InnoDB表的二级索引默认是聚簇索引【答案】:A

解析:本题考察聚簇索引原理。聚簇索引的核心是数据物理存储顺序与索引键值顺序一致(如InnoDB的主键索引)。选项B错误,部分数据库允许通过特殊配置创建多个聚簇索引,但通常仅主键对应一个;选项C错误,聚簇索引叶子节点直接存储数据记录,非聚簇索引存储指向数据的指针;选项D错误,InnoDB二级索引(非主键)是聚簇索引的逆映射,属于非聚簇索引。正确答案为A。42.在Hadoop生态系统中,HDFS(Hadoop分布式文件系统)的主要功能是?

A.分布式文件存储

B.分布式计算任务调度

C.集群资源管理

D.数据处理与分析【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS是Hadoop的分布式文件系统,负责存储海量数据;B选项“分布式计算任务调度”是YARN(资源管理器)的功能;C选项“集群资源管理”同样属于YARN;D选项“数据处理与分析”是MapReduce或Spark的功能。因此正确答案为A。43.在SQL中,若需对表中某列的值进行分组并计算每组内的排名,且允许并列排名并跳过排名序号(如1,1,3),应使用哪个窗口函数?

A.ROW_NUMBER()

B.RANK()

C.DENSE_RANK()

D.SUM()【答案】:B

解析:本题考察SQL窗口函数的排名逻辑。正确答案为B。RANK()函数在并列排名时会跳过后续序号(如前两名并列排名为1,下一名为3)。选项AROW_NUMBER()为严格排序,无并列,每个行都有唯一序号(如1,2,3);选项CDENSE_RANK()并列排名但不跳过序号(如前两名并列1,下一名为2);选项DSUM()是聚合函数,用于求和,并非排名函数,不符合题意。44.关系型数据库管理系统(RDBMS)中,ACID特性是保证数据一致性和可靠性的关键,其中“原子性(Atomicity)”的含义是?

A.事务中的所有操作要么全部成功,要么全部失败,不可分割

B.事务执行过程中,数据处于一致的中间状态

C.事务一旦提交,对数据库的修改就是永久的

D.事务只能看到已提交的事务结果,互不干扰【答案】:A

解析:本题考察数据库事务的ACID特性知识点。正确答案为A,原子性(Atomicity)要求事务是一个不可分割的整体,所有操作要么全部完成,要么全部不执行,如银行转账中“扣钱”和“加钱”必须同时成功或失败。B选项描述的是“一致性(Consistency)”,即事务执行前后数据状态必须符合业务规则;C选项描述的是“持久性(Durability)”,即事务提交后修改永久生效;D选项描述的是“隔离性(Isolation)”,即并发事务间互不干扰,通过隔离级别控制。45.以下关于Hadoop与Spark的描述,错误的是?

A.HadoopMapReduce是分布式批处理框架

B.Spark支持内存计算,速度比MapReduce快

C.Spark只能处理批处理任务

D.Hadoop包含HDFS分布式文件系统和MapReduce计算框架【答案】:C

解析:本题考察大数据处理框架知识点。选项A正确,HadoopMapReduce是Hadoop生态中核心的分布式批处理框架;选项B正确,Spark采用内存计算模型,避免了MapReduce的磁盘IO开销,处理速度显著提升;选项C错误,Spark不仅支持批处理,还提供SparkStreaming(流处理)、SparkSQL(交互式查询)等多种计算模式,功能远超过单纯批处理;选项D正确,Hadoop生态包含HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理)等核心组件。46.下列关于数据仓库中星型模型的描述,正确的是?

A.事实表通过规范化的维度表间接连接

B.维度表会进一步拆分为子维度表

C.事实表直接与所有维度表相连,维度表间无直接关联

D.仅包含一个事实表和一个维度表【答案】:C

解析:本题考察星型模型特征。星型模型以事实表为中心,所有维度表直接与事实表关联,维度表间无冗余连接(区别于雪花模型的规范化拆分)。选项A错误,星型模型维度表不进行规范化拆分;选项B描述的是雪花模型特征;选项D错误,星型模型可包含多个维度表。正确答案为C。47.以下哪项属于数据治理中的‘操作元数据’?

A.数据血缘关系(DataLineage)

B.数据每日访问次数统计

C.数据字段的业务含义定义

D.数据存储的物理文件格式【答案】:B

解析:本题考察数据治理中元数据分类。操作元数据记录数据的使用与操作情况。选项A错误,数据血缘关系属于技术元数据;选项B正确,数据每日访问次数统计属于操作元数据;选项C错误,数据字段业务含义属于业务元数据;选项D错误,数据存储格式属于技术元数据。48.Hadoop分布式文件系统(HDFS)默认的副本因子(ReplicationFactor)是?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的核心参数。HDFS为保证数据可靠性和容错性,默认采用3个副本因子(ReplicationFactor),通过多副本存储提高数据冗余和故障恢复能力。选项A(1)为单副本,通常仅用于测试;B(2)为非默认值;D(4)超出HDFS默认设计范围。因此正确答案为C。49.数据仓库中数据的核心特性不包括以下哪项?

A.面向主题

B.集成性

C.易失性

D.时变性【答案】:C

解析:本题考察数据仓库的四大特性。数据仓库是用于分析决策的结构化数据集合,核心特性包括:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据一旦加载不可随意修改,仅追加历史数据)、时变性(数据随时间累积更新)。选项C“易失性”描述错误,数据仓库数据具有非易失性,而事务型数据库(如MySQL)才具有数据易变的特点。因此正确答案为C。50.以下哪项是数据仓库(DataWarehouse)的核心特征?

A.面向主题

B.实时更新数据

C.存储原始细节数据

D.支持事务处理【答案】:A

解析:本题考察数据仓库的核心特征。数据仓库的四大核心特征为:面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(反映历史数据变化)。选项B错误(数据仓库以批处理更新为主,非实时);选项C错误(数据仓库存储汇总后的历史数据,细节数据通常保留在操作型数据库);选项D错误(事务处理是OLTP系统的核心,数据仓库主要用于分析决策)。51.数据库事务的ACID特性中,‘确保事务中的所有操作要么全部成功,要么全部失败’描述的是哪个特性?

A.原子性(Atomicity)

B.一致性(Consistency)

C.隔离性(Isolation)

D.持久性(Durability)【答案】:A

解析:本题考察数据库事务ACID特性的定义。原子性(Atomicity)要求事务中的操作不可分割,要么全部执行成功,要么全部失败回滚;一致性(Consistency)指事务执行前后数据满足完整性约束;隔离性(Isolation)指多个事务并发执行时互不干扰;持久性(Durability)指事务提交后数据永久保存。题干描述的是原子性,因此正确答案为A。52.在数据仓库建设中,‘从源系统提取数据到临时存储,经清洗、转换后加载到目标数据仓库’描述的是哪个过程?

A.ETL

B.ELT

C.ETL和ELT都包含

D.以上都不是【答案】:A

解析:本题考察ETL与ELT的定义。ETL(Extract,Transform,Load)是先提取数据,经过清洗、转换等处理后,再加载到目标数据仓库;ELT(Extract,Load,Transform)则是先将数据直接加载到目标系统,再在目标系统中进行转换。题干明确描述了‘先提取→转换→加载’的流程,符合ETL的定义。因此正确答案为A。53.Hadoop分布式文件系统(HDFS)的核心功能是?

A.提供分布式并行计算框架

B.存储和管理海量文件

C.实现数据仓库的时变性存储

D.管理分布式数据库元数据【答案】:B

解析:本题考察HDFS的核心功能知识点。HDFS是Hadoop生态中用于存储海量数据的分布式文件系统,其核心功能是存储和管理海量文件。A选项描述的是MapReduce或YARN的功能;C选项“时变性存储”是数据仓库的特性,与HDFS无关;D选项“管理分布式数据库元数据”是HiveMetastore的职责。因此正确答案为B。54.以下哪个是开源的实时流处理计算框架?

A.ApacheFlink

B.ApacheHadoop

C.ApacheSpark

D.ApacheHive【答案】:A

解析:本题考察主流大数据框架的技术定位。ApacheFlink是专为实时流处理设计的开源框架,支持高吞吐、低延迟的流数据处理,兼具流处理和批处理能力;B选项Hadoop是分布式存储(HDFS)与批处理(MapReduce)的综合框架,非流处理;C选项Spark以批处理(SparkCore)和内存计算为核心,其流处理模块SparkStreaming本质是微批处理,非纯实时流处理;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。55.以下哪种算法属于无监督学习算法?

A.决策树

B.K-Means

C.SVM

D.逻辑回归【答案】:B

解析:本题考察机器学习算法分类。无监督学习无需标签数据,仅通过数据自身特征发现模式,典型算法包括聚类(如K-Means)、降维(如PCA);有监督学习需带标签数据(输入+输出),用于分类或回归。A选项决策树通过特征标签构建分类模型;C选项SVM(支持向量机)通过标签数据寻找最优分类超平面;D选项逻辑回归通过标签数据预测概率输出。K-Means通过距离度量将数据点自动聚为多个簇,无需标签,属于无监督学习。因此正确答案为B。56.在ETL(抽取-转换-加载)数据处理流程中,负责对原始数据进行清洗、转换和整合,使其符合目标数据格式的步骤是?

A.抽取(Extract)

B.转换(Transform)

C.加载(Load)

D.验证(Validate)【答案】:B

解析:本题考察ETL流程核心步骤。ETL三阶段功能:①抽取(Extract):从源系统(如数据库、日志文件)获取原始数据,不做处理;②转换(Transform):对抽取数据进行清洗(去重、补全缺失值)、格式转换(如日期统一为YYYY-MM-DD)、数据整合(合并多源数据),使其符合目标数据模型(如数据仓库表结构);③加载(Load):将转换后的数据写入目标存储(如数据仓库、数据集市)。D选项“验证”属于辅助步骤(如校验数据完整性),非ETL核心流程。因此正确答案为B。57.在关系型数据库中,B+树索引的主要优点是?

A.支持高效的范围查询

B.仅支持精确匹配查询

C.适用于高并发写入场景

D.存储结构最紧凑【答案】:A

解析:本题考察B+树索引的技术特性。B+树索引的叶子节点按顺序排列并通过指针相连,天然支持范围查询(如“查询年龄18-25岁的用户”),且所有数据存在叶子节点,便于高效遍历。选项B“仅支持精确匹配”是哈希索引的特点(哈希索引通过散列函数直接定位,不支持范围);选项C“高并发写入”错误,B+树索引写操作(如插入、删除)需维护平衡树结构,性能低于哈希索引;选项D“存储结构最紧凑”错误,B+树因包含所有数据指针和冗余结构,存储效率通常低于哈希索引。因此正确答案为A。58.以下哪项不属于数据仓库的基本特征?

A.面向主题

B.集成性

C.实时更新

D.非易失性【答案】:C

解析:本题考察数据仓库的核心特征。数据仓库具有面向主题(围绕业务主题组织数据)、集成性(整合多源数据)、非易失性(存储历史数据,不轻易修改)、时变性(数据随时间变化)四大特征。而“实时更新”是联机事务处理(OLTP)系统的典型需求,数据仓库主要用于历史数据分析,通常采用批量更新或定时加载,因此C不属于数据仓库特征。59.数据治理中,用于描述数据资产的技术属性(如数据存储位置、字段类型)和业务属性(如数据来源、字段含义)的是?

A.元数据

B.主数据

C.数据血缘

D.数据标准【答案】:A

解析:本题考察数据治理中核心概念的定义。元数据是“描述数据的数据”,包含技术元数据(如存储位置、字段类型)、业务元数据(如数据来源、字段含义)和操作元数据(如数据更新频率)。B选项主数据是核心业务实体数据(如客户、产品),非描述属性;C选项数据血缘描述数据从产生到消费的全生命周期路径,不直接描述属性;D选项数据标准是规范数据定义、格式的统一规则,非属性描述。60.数据治理中,元数据(Metadata)的核心作用是?

A.描述数据的数据,帮助理解数据的结构、来源和质量

B.用于执行数据清洗和转换的算法

C.用于对数据进行加密和脱敏处理

D.用于压缩数据以节省存储空间【答案】:A

解析:本题考察元数据的定义与作用。元数据是“关于数据的数据”,例如字段含义、数据来源、更新频率、数据质量评分等,帮助数据使用者理解数据;B选项“数据清洗算法”属于数据治理中的操作流程,非元数据作用;C选项“加密脱敏”属于数据安全范畴;D选项“数据压缩”属于存储优化技术。因此正确答案为A。61.在ETL(Extract-Transform-Load)数据处理流程中,字母“T”代表的操作是?

A.Extract

B.Transform

C.Load

D.Transfer【答案】:B

解析:本题考察ETL流程的核心步骤。ETL即“抽取(Extract)-转换(Transform)-加载(Load)”,其中“T”对应“Transform”,负责对数据进行清洗、转换、整合;“Extract”是“E”,“Load”是“L”,“Transfer”非ETL标准术语。因此正确答案为B。62.关于ApacheSpark的描述,以下哪项是错误的?

A.采用内存计算,比MapReduce处理速度更快

B.支持DAG(有向无环图)执行引擎,优化迭代计算

C.默认情况下,数据存储在内存中,不依赖磁盘

D.支持多种编程语言(Scala、Python、Java等)进行开发【答案】:C

解析:Spark的优势包括内存计算(比MapReduce的磁盘IO快)、DAG执行优化迭代计算。Spark支持多语言开发,但默认优先使用内存存储数据,内存不足时会自动溢写到磁盘,并非完全不依赖磁盘。因此选项C错误,“默认不依赖磁盘”的表述不准确。63.Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(HadoopDistributedFileSystem)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.ZooKeeper(分布式协调服务)【答案】:A

解析:本题考察Hadoop生态系统核心组件的功能。HDFS是Hadoop的分布式文件系统,专门用于在廉价硬件上存储海量数据,是Hadoop数据存储的基础。选项B错误,MapReduce是分布式计算框架,负责数据处理而非存储;选项C错误,YARN是资源管理器,负责集群资源的调度与管理,不直接存储数据;选项D错误,ZooKeeper是分布式协调服务,用于维护集群状态和配置,不涉及数据存储。64.ApacheSpark相比HadoopMapReduce的核心优势是?

A.支持分布式存储(HDFS)

B.采用内存计算模型(内存迭代计算)

C.仅支持离线批处理任务

D.依赖磁盘I/O优化数据传输【答案】:B

解析:本题考察Spark与MapReduce的技术差异。HadoopMapReduce基于磁盘I/O进行数据读写,迭代计算时需频繁写入/读取磁盘,导致性能瓶颈;而Spark将数据缓存在内存中,通过内存迭代计算(如RDD弹性分布式数据集)大幅减少磁盘I/O,处理速度提升10-100倍。选项A错误,分布式存储是Hadoop(HDFS)的通用特性,非Spark独有;选项C错误,Spark不仅支持离线批处理,还支持实时流处理(SparkStreaming)和交互式查询;选项D错误,Spark正是通过避免磁盘I/O(依赖内存)实现优势,而非优化磁盘I/O。因此正确答案为B。65.以下关于ApacheSpark的描述,错误的是?

A.Spark支持内存计算,速度通常比MapReduce快

B.Spark只能处理批处理任务,无法处理流处理

C.Spark提供了多种API,如Scala、Python、Java等

D.Spark的核心是弹性分布式数据集(RDD)【答案】:B

解析:本题考察Spark的核心特性。Spark不仅支持批处理任务(如SparkBatch),还通过SparkStreaming、StructuredStreaming等模块支持实时流处理。选项A正确,Spark的内存计算模型使其处理速度远超基于磁盘的MapReduce;选项C正确,Spark提供多语言API以适配不同开发场景;选项D正确,RDD(弹性分布式数据集)是Spark的核心抽象,支持并行计算。66.以下哪种算法属于单向哈希函数,常用于数据完整性校验?

A.AES

B.RSA

C.MD5

D.DES【答案】:C

解析:本题考察数据安全中的加密算法类型。MD5(Message-DigestAlgorithm5)是单向哈希函数,输入任意长度数据输出固定长度哈希值,可用于校验数据完整性(如文件校验和);AES(高级加密标准)和DES(数据加密标准)是对称加密算法,支持数据加密和解密;RSA是非对称加密算法,用于密钥交换等。单向哈希函数无法反向解密,因此正确答案为C。67.在数据仓库建设中,“ETL”和“ELT”是两种常见的数据集成方式,其中“ETL”的处理顺序是?

A.抽取(Extract)→转换(Transform)→加载(Load)

B.抽取(Extract)→加载(Load)→转换(Transform)

C.转换(Transform)→抽取(Extract)→加载(Load)

D.加载(Load)→转换(Transform)→抽取(Extract)【答案】:A

解析:本题考察ETL与ELT的处理流程。ETL(Extract-Transform-Load)是先抽取数据(Extract),经过数据清洗和转换(Transform),再加载(Load)到目标数据仓库;而ELT(Extract-Load-Transform)是先抽取数据直接加载到数据仓库,再进行转换。选项A符合ETL顺序,选项B是ELT顺序,选项C和D顺序均错误。68.Hadoop分布式文件系统(HDFS)的核心特点不包括以下哪一项?

A.高容错性,通过多副本机制存储数据

B.适合大规模文件存储,支持GB到TB级数据

C.采用流式访问模式,优先读取连续数据块

D.支持实时事务处理,满足秒级数据读写响应【答案】:D

解析:本题考察HDFS核心特性。HDFS的设计目标是高吞吐量、高容错性和适合大文件存储,其特点包括:A选项正确,多副本(默认3副本)确保数据冗余和容错;B选项正确,HDFS针对大文件优化,小文件不适合其架构;C选项正确,流式访问(顺序读写)是HDFS设计初衷;D选项错误,HDFS为批处理优化,不支持实时事务(如ACID强一致性事务),实时事务需依赖如HBase等存储系统。69.数据库事务的ACID特性中,确保事务执行过程中多个并发事务之间相互隔离、互不干扰的是哪个特性?

A.原子性(Atomicity)-事务中的操作要么全部成功,要么全部失败

B.一致性(Consistency)-事务执行前后数据从一个合法状态转换到另一个合法状态

C.隔离性(Isolation)-多个并发事务执行时彼此操作互不影响

D.持久性(Durability)-事务完成后修改的数据会被永久保存【答案】:C

解析:本题考察数据库事务ACID特性的定义。原子性强调事务的不可分割性(A错误);一致性关注数据状态的合法性转换(B错误);隔离性明确多个并发事务执行时的独立性,确保互不干扰(C正确);持久性指事务结果的永久性(D错误)。70.以下哪项是关系型数据库中最常用的索引结构?

A.B树索引

B.哈希索引

C.R树索引

D.红黑树索引【答案】:A

解析:本题考察关系型数据库索引类型。B树索引(尤其是B+树变体)是关系型数据库(如MySQL、Oracle)中最通用的索引结构,支持范围查询和高效排序;哈希索引(B)适用于等值查询,仅在部分数据库(如MySQLInnoDB)中存在;R树索引(C)多用于空间数据库;红黑树(D)非关系型数据库常见结构,且不适合大规模数据存储。因此正确答案为A。71.数据仓库的核心特点不包括以下哪项?

A.面向主题

B.集成性

C.时变性

D.实时性【答案】:D

解析:本题考察数据仓库的核心特性。数据仓库用于存储历史数据支持分析决策,其核心特点包括“面向主题”(围绕业务主题组织数据)、“集成性”(整合多源数据)、“时变性”(存储不同时间周期的数据);“实时性”是数据仓库的非核心特性,数据仓库通常处理历史/离线数据,强调分析而非实时响应。因此正确答案为D。72.以下哪项是数据仓库(DataWarehouse)的核心特点之一?

A.面向主题,整合企业内多源数据,支持决策分析

B.强调实时更新,满足业务系统的实时查询需求

C.主要用于存储日常交易数据,支持在线事务处理(OLTP)

D.仅存储结构化数据,不包含半结构化或非结构化数据【答案】:A

解析:本题考察数据仓库特点知识点。正确答案为A,数据仓库面向主题(如“销售分析”“财务报表”),整合分散在企业内的多源数据(如ERP、CRM、交易系统),通过历史数据支持决策分析。B选项错误,数据仓库侧重历史数据存储与分析,不强调实时更新(实时需求由OLTP系统满足);C选项错误,数据仓库服务于分析场景(OLAP),OLTP(在线事务处理)系统才用于存储日常交易数据;D选项错误,现代数据仓库支持多类型数据存储(结构化、半结构化、非结构化,如JSON、日志等)。73.Hadoop分布式文件系统(HDFS)的核心作用是?

A.存储海量结构化数据

B.处理实时流数据计算

C.提供低延迟的实时查询服务

D.执行分布式并行计算任务【答案】:A

解析:本题考察Hadoop生态系统中HDFS的核心功能。HDFS是Hadoop的分布式文件系统,主要用于存储海量数据,其设计目标是高吞吐量和高容错性。选项B(实时流数据计算)属于Storm/Flink等流处理框架;选项C(低延迟实时查询)通常由NoSQL数据库或OLAP系统实现;选项D(分布式并行计算)由MapReduce/YARN等计算框架负责。因此正确答案为A。74.在数据集成过程中,ETL与ELT的主要区别在于?

A.ETL先加载数据到目标系统,再进行数据转换

B.ETL在源系统完成数据转换,ELT在目标系统完成转换

C.ETL仅适用于结构化数据,ELT仅适用于非结构化数据

D.ETL比ELT更节省存储空间【答案】:B

解析:本题考察ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的流程差异。选项A错误,ETL的正确流程是先提取(Extract)数据,再在源系统或中间层进行转换(Transform),最后加载(Load)到目标系统(如数据仓库);ELT则是先提取数据,直接加载到目标系统,再在目标系统中完成转换;选项B正确,ETL在源系统完成数据清洗、格式转换等操作(如统一日期格式、字段映射),减少目标系统数据量,适合中小规模数据;ELT先将原始数据加载到目标系统(如数据仓库),再在目标系统中利用分布式计算(如Spark)并行转换,适合大数据量场景,可避免重复计算;选项C错误,ETL和ELT均可处理结构化或非结构化数据,主要差异是转换时机而非数据类型(如JSON数据可通过ETL转换为结构化数据,也可通过ELT在目标系统中转换);选项D错误,ETL因转换后数据量小,可能节省存储空间,但ELT在大数据场景下可利用分布式计算并行处理,原始数据保留可能导致存储需求更大,且ETL需额外存储转换后的数据,因此无法一概而论谁更节省空间。因此正确选项为B。75.在大数据处理框架中,Spark相比MapReduce的主要优势是?

A.支持内存计算,减少磁盘IO

B.仅支持批处理,不支持流处理

C.只能在单节点运行,无法分布式

D.依赖HDFS存储数据,无法使用其他存储系统【答案】:A

解析:本题考察Spark的核心特性。正确答案为A,因为Spark的核心优势在于支持内存计算,将数据缓存在内存中进行操作,大幅减少了传统MapReduce的磁盘IO开销,提升了处理速度。选项B错误,Spark既支持批处理(SparkBatch)也支持流处理(StructuredStreaming);选项C错误,Spark支持分布式集群运行,可通过集群管理器(如YARN)实现多节点并行计算;选项D错误,Spark支持多种存储系统,包括HDFS、S3、HBase、MySQL等,并非仅依赖HDFS。76.Hadoop生态系统中,负责存储海量分布式数据的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper【答案】:A

解析:本题考察Hadoop生态系统核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,协调集群资源;ZooKeeper是分布式协调服务。因此正确答案为A。77.以下哪项属于无监督学习中的聚类算法?

A.决策树(监督学习分类算法)

B.K-means(无监督聚类算法)

C.逻辑回归(监督学习分类算法)

D.SVM(监督学习分类算法)【答案】:B

解析:本题考察数据挖掘算法分类。A选项决策树属于监督学习中的分类算法,需有标签数据训练;B选项K-means是典型的无监督聚类算法,通过距离度量将无标签数据分组;C选项逻辑回归用于二分类问题,属于监督学习;D选项SVM(支持向量机)是监督学习中的分类/回归算法,需标签数据。因此正确答案为B。78.数据质量维度中的“完整性(Completeness)”主要指的是?

A.数据是否准确反映现实世界实体的真实状态

B.数据是否包含所有必要的字段和记录

C.数据是否在规定时间内可用(如实时性)

D.数据是否与其他数据源的记录一致【答案】:B

解析:本题考察数据质量的核心维度定义。数据完整性指数据无缺失,需包含所有必要的字段和记录(如用户信息表中无关键字段为空、无重要用户记录被遗漏)。选项A对应“准确性”(数据是否真实);选项C对应“及时性”(数据是否及时更新);选项D对应“一致性”(数据在不同系统间无冲突)。因此正确答案为B。79.以下哪项不属于数据库事务的ACID特性?

A.原子性(Atomicity)

B.一致性(Consistency)

C.隔离性(Isolation)

D.可扩展性(Scalability)【答案】:D

解析:本题考察数据库事务的ACID特性。ACID是事务的四大核心特性:原子性(事务要么全执行,要么全不执行)、一致性(事务前后数据状态合法,如金额转账后账户余额正确)、隔离性(多个事务并发执行时互不干扰)、持久性(事务提交后结果永久保存)。而“可扩展性”是系统架构的设计目标(如水平/垂直扩展能力),不属于事务的ACID特性,因此选D。80.以下哪项不属于数据质量的核心维度?

A.准确性

B.完整性

C.安全性

D.及时性【答案】:C

解析:数据质量的核心维度包括准确性(数据真实反映业务事实)、完整性(数据无缺失/冗余)、一致性(数据在不同场景/系统中一致)、及时性(数据更新符合业务时效)。安全性属于数据安全范畴(如加密、权限控制),与数据质量(数据本身的可用性)是不同概念,因此不属于数据质量维度。81.数据仓库的核心特征之一是?

A.面向主题

B.实时更新

C.仅存储原始数据

D.不支持历史数据查询【答案】:A

解析:本题考察数据仓库的定义与特征。数据仓库是面向主题、集成的、非易失的(不可实时更新)、随时间变化的数据集合,用于支持决策分析。A选项“面向主题”是数据仓库的核心特征,数据按业务主题组织(如销售、财务);B选项“实时更新”错误,数据仓库通过批处理更新,非实时;C选项“仅存储原始数据”错误,数据仓库对原始数据进行清洗、集成和转换;D选项“不支持历史数据查询”错误,数据仓库重点是存储历史数据并支持多维度分析。因此正确答案为A。82.在关系型数据库中,主键(PrimaryKey)的主要作用是?

A.唯一标识表中的一行数据

B.允许表中存在重复数据

C.自动生成表中的所有数据

D.加快表的查询速度【答案】:A

解析:本题考察关系型数据库主键的核心概念。主键是表中用于唯一标识一行数据的字段或字段组合,其核心作用是确保数据的唯一性和可区分性。选项B错误,主键不允许表中存在重复数据;选项C错误,主键仅用于标识数据,而非生成数据;选项D错误,主键通过建立唯一索引间接优化查询效率,但“加快查询速度”是结果而非主键的主要作用。83.数据库事务的ACID特性中,'A'代表以下哪项?

A.原子性(Atomicity)

B.可重复性(Repeatability)

C.高可用性(Availability)

D.实时性(Real-time)【答案】:A

解析:本题考察数据库事务的ACID特性。ACID特性包括原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。选项B“可重复性”是数据库事务隔离级别的概念(如RepeatableRead),并非ACID特性;选项C“高可用性”是数据库集群的架构目标,与ACID无关;选项D“实时性”是数据处理的性能指标,不属于事务特性。因此正确答案为A。84.在数据质量管理中,确保数据记录无缺失、覆盖所有必要字段的是以下哪个维度?

A.准确性

B.完整性

C.一致性

D.及时性【答案】:B

解析:本题考察数据质量维度。数据质量的完整性维度强调数据记录无缺失,覆盖所有必要字段;准确性维度关注数据值是否符合实际业务规则;一致性维度要求同一数据在不同来源或系统中表现一致;及时性维度衡量数据更新的时效性。因此正确答案为B。85.以下哪种算法属于无监督学习算法?

A.决策树分类(如ID3算法)

B.K-Means聚类算法

C.支持向量机(SVM)分类

D.逻辑回归分类【答案】:B

解析:本题考察机器学习算法的分类。无监督学习算法无需人工标注标签,通过数据自身特征发现模式,K-Means是典型的无监督聚类算法,用于将数据划分为不同簇。A、C、D选项均属于监督学习:决策树、SVM、逻辑回归均需训练数据包含输入特征和对应的标签(如类别),通过学习映射关系进行分类或回归预测。因此正确答案为B。86.以下关于Hadoop与Spark的描述,错误的是?

A.Spark是基于内存计算的分布式计算框架

B.HadoopMapReduce主要用于批处理场景

C.Spark不支持流处理任务

D.HadoopMapReduce适合迭代次数较少的计算场景【答案】:C

解析:本题考察大数据处理框架的核心特性。选项A正确,Spark通过内存计算减少磁盘IO,提升数据处理速度,是主流的分布式计算框架;选项B正确,HadoopMapReduce是经典的批处理框架,适用于大规模数据的批量分析任务;选项C错误,Spark不仅支持批处理,还通过StructuredStreaming等组件支持实时流处理任务,而HadoopMapReduce因依赖磁盘IO和迭代执行模型,对流处理支持有限;选项D正确,HadoopMapReduce在迭代计算中需频繁读写磁盘,导致效率低下,更适合单次批处理而非迭代计算。因此错误选项为C。87.关于ETL(Extract-Transform-Load)与ELT(Extract-Load-Transform)的描述,以下说法正确的是?

A.ETL是先提取、转换,再加载到目标系统,更适合数据量较大的场景

B.ELT是先提取、加载到目标系统,再进行转换,更适合大数据场景

C.ETL中数据转换在目标系统(如数据库)内完成,而ELT在外部完成

D.ELT通常比ETL更节省存储空间【答案】:B

解析:ETL的流程是先提取、转换,再加载到目标系统,适合数据量较小且转换逻辑复杂的场景;ELT是先提取、加载到目标系统,再进行转换,因现代数据库支持高效并行计算,更适合大数据场景。A错误,ETL更适合小数据量;C错误,ETL的转换在外部完成,ELT在目标系统内;D错误,两者存储空间差异取决于转换逻辑,无固定节省关系。88.Hadoop生态系统中,负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(YetAnotherResourceNegotiator)

D.Hive(数据仓库工具)【答案】:C

解析:本题考察Hadoop核心组件的功能。Hadoop生态系统中:HDFS(A)负责分布式存储,是数据的底层存储层;MapReduce(B)是早期的分布式计算框架,但已被YARN调度;YARN(C)是专门负责资源调度和任务管理的核心组件,实现了计算资源的动态分配;Hive(D)是基于Hadoop的数据仓库工具,用于SQL查询和数据处理,不涉及资源管理。因此正确答案为C。89.在ETL(Extract-Transform-Load)数据处理流程中,负责清洗、转换数据格式的步骤是?

A.Extract

B.Transform

C.Load

D.Validate【答案】:B

解析:本题考察ETL各步骤的功能。ETL是数据集成的核心流程:Extract(A选项)负责从源系统(如数据库、日志文件)抽取原始数据;Transform(B选项)是关键步骤,对抽取的数据进行清洗(去重、补全)、格式转换(如类型转换、单位换算),以满足目标系统需求;Load(C选项)将转换后的数据加载到目标系统(如数据仓库);Validate(D选项)属于数据质量校验环节,非ETL标准步骤。因此正确答案为B。90.数据库事务的ACID特性中,“C”代表的是?

A.Atomicity(原子性)

B.Consistency(一致性)

C.Isolation(隔离性)

D.Durability(持久性)【答案】:B

解析:本题考察数据库事务ACID特性的定义。ACID四个字母分别对应:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。其中,“C”(Consistency)指事务执行前后,数据库的完整性约束(如主键唯一性、外键关联)必须保持一致;选项A(原子性)对应事务的“不可分割”特性;选项C(隔离性)指并发事务互不干扰;选项D(持久性)指事务提交后数据永久保存。因此正确答案为B。91.Hadoop分布式文件系统(HDFS)中,默认的副本因子是多少?

A.1

B.2

C.3

D.4【答案】:C

解析:本题考察HDFS的副本机制。HDFS为保证数据可靠性和容错性,默认将文件内容存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论