版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大数据技术专业练习试题及答案详解(考点梳理)1.MongoDB数据库属于以下哪种NoSQL数据库类型?
A.键值型
B.文档型
C.列族型
D.图型【答案】:B
解析:本题考察NoSQL数据库的分类。MongoDB是典型的文档型数据库,以JSON类似的文档结构存储数据,支持灵活的模式定义。选项A(键值型)如Redis;选项C(列族型)如HBase;选项D(图型)如Neo4j,均为不同类型的NoSQL数据库。2.Hadoop分布式文件系统(HDFS)默认的副本因子是多少?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的核心特性,正确答案为C。HDFS默认将文件块复制3份以提供容错能力和数据冗余,3个副本既能保证数据可靠性(避免单点故障),又能平衡存储成本与读取效率。选项A(1个副本)无容错能力,数据丢失后无法恢复;选项B(2个副本)容错能力较弱,单点故障仍可能导致数据不可用;选项D(4个副本)会增加存储开销,超出HDFS默认优化的存储效率范围。3.Spark相比MapReduce的主要技术优势是?
A.支持内存计算,减少磁盘IO
B.仅支持批处理任务
C.依赖分布式存储系统
D.仅适用于离线数据处理【答案】:A
解析:本题考察Spark与MapReduce技术差异知识点。Spark的核心优势是支持内存计算,可将中间结果缓存在内存中,大幅减少磁盘IO操作,计算速度远快于MapReduce;MapReduce虽也支持批处理,但依赖磁盘读写,效率较低。B选项错误,Spark同时支持批处理和流处理;C选项错误,两者均依赖分布式存储(如HDFS);D选项错误,Spark也支持实时流处理(如StructuredStreaming)。因此A选项正确。4.根据CAP定理,在分布式系统中‘当网络分区发生时,系统仍能对外提供服务,但可能导致数据暂时不一致’的行为违反了哪个原则?
A.Consistency(一致性)
B.Availability(可用性)
C.Partitiontolerance(分区容错性)
D.None(未违反任何原则)【答案】:A
解析:本题考察分布式系统CAP定理的核心原则。CAP定理指出,分布式系统无法同时满足“一致性(所有节点数据相同)”“可用性(系统正常响应请求)”和“分区容错性(网络分区时系统仍运行)”。题目中“分区发生时仍提供服务”表明系统选择了“可用性”和“分区容错性”,但“数据暂时不一致”说明放弃了“一致性”,因此违反了Consistency原则。选项B(可用性)是系统主动选择的目标,未被违反;选项C(分区容错性)是分布式系统必须具备的基础能力,题目中系统正常运行即满足。5.在大数据处理的ETL流程中,字母‘T’代表的操作是?
A.Extract(抽取)
B.Transform(转换)
C.Load(加载)
D.Analyze(分析)【答案】:B
解析:本题考察ETL流程的核心步骤。ETL即Extract(数据抽取)、Transform(数据转换)、Load(数据加载),其中‘T’代表数据转换,包括清洗、整合、格式转换等操作。选项A是‘E’,选项C是‘L’,选项D不属于ETL标准流程,故正确答案为B。6.关于Spark中RDD(弹性分布式数据集)的描述,错误的是?
A.RDD是不可变的分布式集合
B.RDD通过分区实现并行计算
C.RDD的转换操作是惰性执行的
D.RDD的action操作不会触发计算【答案】:D
解析:RDD特性:不可变(A正确)、分区并行(B正确)、转换操作惰性执行(仅定义逻辑)、action操作触发计算(如count、collect),因此D错误。7.以下哪项是数据仓库的核心特点?
A.面向主题
B.实时性
C.高并发
D.低延迟【答案】:A
解析:本题考察数据仓库的核心特性。数据仓库的四大核心特点是:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不轻易修改)、时变性(随时间变化)。而“实时性”“低延迟”通常是数据库或流处理系统的特性,“高并发”更多是事务型数据库的设计目标,均不符合数据仓库的核心特点。因此正确答案为A。8.在数据仓库设计中,星型模型的主要特点是?
A.以事实表为中心,维度表直接关联事实表
B.所有维度表均规范化为子表,形成层级结构
C.包含多个独立的事实表,覆盖不同业务主题
D.维度表之间存在父子层级关系,需显式指定关联路径【答案】:A
解析:本题考察数据仓库模型的知识点。星型模型以单一事实表为核心,所有维度表直接与事实表关联,结构简单直观;选项B描述的是雪花模型(维度表进一步规范化为子表);选项C错误,星型模型通常仅包含一个事实表;选项D描述的是雪花模型的层级关联特征。因此正确答案为A。9.在Hadoop生态系统中,负责集群资源管理和作业调度的核心组件是?
A.YARN(YetAnotherResourceNegotiator)
B.HDFS(HadoopDistributedFileSystem)
C.MapReduce
D.Hive【答案】:A
解析:本题考察Hadoop核心组件功能。YARN是Hadoop的资源管理器,负责节点资源分配和作业调度。B错误,HDFS是分布式文件系统,负责数据存储;C错误,MapReduce是分布式计算框架,负责任务执行;D错误,Hive是数据仓库工具,基于HDFS和MapReduce实现数据仓库功能。10.Hadoop生态系统中,负责数据分布式存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop核心组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专为大数据存储设计,将数据分散存储在多台服务器上,提供高容错性和高吞吐量。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源分配;ZooKeeper是分布式协调服务,用于配置管理和集群状态监控。因此正确答案为A。11.Hadoop生态系统中,不属于其核心组件的是?
A.HDFS(分布式文件系统)
B.MapReduce(分布式计算框架)
C.Spark(内存计算框架)
D.YARN(资源管理器)【答案】:C
解析:Hadoop核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)和YARN(资源调度)。Spark是独立的开源计算框架,虽可与Hadoop集成,但不属于Hadoop核心组件,故C错误。12.以下关于ApacheFlink流处理框架的描述,正确的是?
A.支持事件时间(EventTime)处理,允许处理迟到数据
B.仅支持对有界流(批处理)进行计算,不支持无界流
C.采用微批处理模型,任务延迟较高(秒级)
D.不支持状态管理,无法实现复杂状态的实时计算【答案】:A
解析:本题考察流处理框架Flink的核心特性。Flink是开源流处理框架,支持无界流与有界流统一处理,其核心优势包括精确一次(Exactly-Once)语义、事件时间(EventTime)处理(允许处理乱序或迟到数据)。选项A正确;B错误(Flink支持无界流);C错误(微批处理是SparkStreaming的特点,Flink为低延迟毫秒级);D错误(Flink提供丰富的状态后端,支持复杂状态管理)。13.以下哪项是Hadoop分布式文件系统(HDFS)的主要功能?
A.分布式数据存储
B.分布式计算任务调度
C.分布式资源管理
D.分布式内存计算【答案】:A
解析:本题考察Hadoop核心组件HDFS的功能。HDFS是Hadoop生态系统的分布式文件系统,主要负责海量数据的分布式存储;B选项“分布式计算任务调度”是YARN的功能;C选项“分布式资源管理”同样属于YARN;D选项“分布式内存计算”是Spark的核心特性。因此正确答案为A。14.以下哪项不属于大数据的核心特征(4V)?
A.Volume
B.Velocity
C.Value
D.Variety【答案】:C
解析:本题考察大数据4V特征知识点。大数据核心特征通常定义为Volume(规模)、Velocity(速度)、Variety(多样性)、Veracity(真实性),而Value(价值)不属于标准4V特征。A、B、D均为4V的核心要素,C为干扰项。15.以下哪项是Hadoop分布式文件系统(HDFS)的核心作用?
A.分布式数据存储
B.实时流数据处理
C.数据挖掘算法实现
D.分布式任务调度【答案】:A
解析:本题考察Hadoop生态系统核心组件HDFS的功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,核心作用是在多节点集群中存储海量数据;B选项描述的是流处理框架(如Flink/SparkStreaming)的功能;C选项数据挖掘算法通常由独立工具(如Weka)实现;D选项分布式任务调度是YARN(YetAnotherResourceNegotiator)的职责。16.大数据的5V特性中,描述数据产生和处理速度快的是?
A.Volume(数据规模)
B.Velocity(数据速度)
C.Variety(数据多样性)
D.Value(数据价值)【答案】:B
解析:大数据5V特性:Volume(规模)、Velocity(速度,数据产生/处理速度)、Variety(多样性)、Veracity(真实性)、Value(价值)。描述速度的是Velocity,选B。17.以下哪种数据处理方式适用于实时分析场景(如实时监控系统的异常检测)?
A.批处理(BatchProcessing)
B.流处理(StreamProcessing)
C.离线处理(OfflineProcessing)
D.混合处理(HybridProcessing)【答案】:B
解析:本题考察数据处理类型的应用场景。流处理针对连续实时数据流(如传感器数据、日志流),支持低延迟处理和实时分析(如实时告警);批处理(A)处理历史数据,耗时较长;离线处理(C)等同于批处理,通常用于T+1报表生成;混合处理(D)是批流结合,但核心实时场景由流处理承担。因此正确答案为B。18.Spark作为分布式计算框架,相比MapReduce的主要优势是?
A.基于内存计算,迭代效率高
B.仅支持批处理任务
C.仅适用于实时流处理场景
D.不支持SQL查询操作【答案】:A
解析:本题考察Spark与MapReduce的技术差异。Spark采用内存计算模式,避免了MapReduce基于磁盘I/O的低效问题,尤其在迭代计算(如机器学习、图计算)中效率显著提升;MapReduce支持批处理,但Spark也支持批处理,且扩展了实时流处理(SparkStreaming)和SQL查询(SparkSQL);选项B、C、D均错误。因此正确答案为A。19.以下属于ETL(Extract-Transform-Load)流程中的核心步骤是?
A.Extract,Transform,Load
B.Extract,Load,Transform
C.Load,Transform,Extract
D.Transform,Extract,Load【答案】:A
解析:本题考察ETL流程的基本逻辑知识点。ETL的核心流程严格遵循“抽取(Extract)→转换(Transform)→加载(Load)”的顺序:先从源系统抽取原始数据,再对数据进行清洗、整合等转换操作,最后加载到目标数据仓库。选项B、C、D均违背ETL的执行顺序逻辑,因此A为正确答案。20.在数据仓库的维度建模中,以下哪个属于事实表?
A.客户表
B.产品表
C.销售记录表
D.员工表【答案】:C
解析:本题考察数据仓库维度建模的基础概念。事实表记录业务事件及度量值(如销售金额、数量),包含维度表的外键;维度表存储描述性属性(如客户信息、产品分类)。选项A(客户表)、B(产品表)、D(员工表)均为维度表,用于描述事实表的上下文;选项C(销售记录表)包含“销售额”“订单量”等度量值,属于事实表。21.在MapReduce计算模型中,Map阶段的主要作用是?
A.对数据进行聚合计算
B.对中间结果进行分发
C.对输入数据进行转换处理
D.对最终结果进行合并输出【答案】:C
解析:本题考察MapReduce计算流程知识点。Map阶段负责将输入数据解析为键值对,并通过用户定义的映射函数对每个键值对执行转换操作(如过滤、特征提取),生成中间结果。A(聚合)是Reduce阶段的核心任务;B(数据分发)属于Shuffle阶段;D(合并输出)是Reduce阶段的最终步骤。因此正确答案为C。22.关于Hadoop分布式文件系统(HDFS)的核心作用,以下描述正确的是?
A.提供高容错性的分布式文件存储
B.负责大数据的批处理计算任务
C.管理集群资源分配与调度
D.实现数据仓库的ETL(抽取、转换、加载)流程【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS是Hadoop的分布式存储系统,其核心作用是通过多副本机制实现高容错性的海量数据存储,因此A正确。B选项是MapReduce的功能;C选项是YARN(资源管理器)的职责;D选项通常由Hive、Impala等数据仓库工具实现,故错误。23.ApacheFlink作为流处理框架,其核心技术优势是?
A.仅支持无状态的批处理任务
B.基于磁盘的高延迟计算
C.支持低延迟、高吞吐的有状态流处理
D.完全依赖Spark作为底层引擎【答案】:C
解析:本题考察Flink的技术特点。Flink是开源流处理框架,核心优势是低延迟(毫秒级)、高吞吐,支持有状态流处理(如状态管理、窗口计算);它不依赖Spark,且既支持流处理也支持批处理(通过批处理API)。选项A错误(Flink支持有状态处理),选项B错误(Flink基于内存计算,延迟低),选项D错误(Flink独立运行)。因此正确答案为C。24.MongoDB属于哪种类型的NoSQL数据库?
A.键值对(Key-Value)型
B.文档型(Document)
C.列族(Column-Family)型
D.图(Graph)型【答案】:B
解析:本题考察NoSQL数据库类型知识点。MongoDB以类JSON的BSON格式存储文档,支持复杂嵌套结构,属于文档型数据库。键值型如Redis(仅存储简单键值对);列族型如HBase(按列族组织数据,适用于结构化数据);图型如Neo4j(存储节点与关系数据)。因此正确答案为B。25.ApacheFlink主要用于处理哪种类型的大数据任务?
A.实时流处理任务
B.批处理任务
C.离线数据挖掘任务
D.分布式文件存储任务【答案】:A
解析:本题考察流处理框架特性。Flink是Apache开源的实时流处理引擎,擅长低延迟、高吞吐的实时数据流处理,同时支持批处理任务(统一流批处理)。Spark主要用于批处理,MapReduce也是批处理框架,分布式文件存储由HDFS承担,因此正确答案为A。26.以下哪项不属于数据仓库的基本特性?
A.面向主题
B.实时性
C.集成性
D.时变性【答案】:B
解析:本题考察数据仓库特性。数据仓库核心特性包括面向主题、集成性、非易失性、时变性,而实时性通常是OLTP(联机事务处理)系统的特点,数据仓库主要用于历史数据分析,非实时处理。因此B选项不属于数据仓库特性,正确答案为B。27.以下关于Spark和MapReduce的描述,正确的是?
A.Spark仅支持批处理,MapReduce支持流处理
B.Spark默认使用内存计算,MapReduce以磁盘IO为主
C.Spark不支持迭代计算,MapReduce适合迭代计算
D.Spark的编程模型比MapReduce更复杂【答案】:B
解析:本题考察分布式计算框架的核心差异。Spark的核心优势是内存计算(默认将中间结果缓存于内存,减少磁盘IO),而MapReduce需频繁读写磁盘存储中间结果,故B正确。选项A错误(Spark通过StructuredStreaming支持流处理,MapReduce仅支持批处理);选项C错误(Spark因内存缓存特性,非常适合迭代计算如机器学习);选项D错误(Spark提供RDD、DataFrame等简洁API,编程模型更直观)。28.Spark相比MapReduce,其核心优势在于?
A.基于磁盘的计算模型
B.内存计算框架
C.仅支持批处理
D.只能处理结构化数据【答案】:B
解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是采用内存计算框架,中间结果暂存内存以减少磁盘IO,大幅提升计算速度。选项A错误(MapReduce才是基于磁盘迭代处理);选项C错误(Spark同时支持批处理和流处理);选项D错误(Spark支持结构化、半结构化和非结构化数据),故正确答案为B。29.以下哪项是数据集市(DataMart)的典型特征?
A.面向企业级全业务主题的集成数据
B.存储原始业务系统的详细数据
C.通常针对特定部门需求构建
D.由多个独立数据仓库组成【答案】:C
解析:本题考察数据仓库体系中的数据集市概念。数据集市是数据仓库的子集,专注于特定业务部门(如销售、财务)需求,规模小且结构紧凑(C正确)。A是企业级数据仓库特征;B描述的是操作型数据库(OLTP)的原始数据存储;D混淆了数据集市与数据仓库的关系(数据集市从数据仓库提取数据)。因此正确答案为C。30.在数据仓库维度建模中,以下哪种模型属于典型的维度建模结构?
A.星型模型
B.雪花模型
C.星座模型
D.三范式模型【答案】:A
解析:本题考察维度建模与范式建模的区别。星型模型是维度建模的核心,以单个事实表为中心,关联多个维度表(如销售事实表关联客户、产品维度表),结构简单且查询高效;B选项“雪花模型”虽属于维度建模但更接近规范化设计(维度表可进一步拆分),复杂度高于星型;C选项“星座模型”是多个事实表共享维度表的星型扩展,非维度建模的基础结构;D选项“三范式模型”是关系型数据库的规范化设计,与维度建模(反范式化)方向不同。31.在数据挖掘中,‘根据客户消费行为特征将其自动分为高、中、低价值群体’属于哪种任务?
A.分类(Classification)
B.聚类(Clustering)
C.回归(Regression)
D.关联分析(AssociationAnalysis)【答案】:B
解析:本题考察数据挖掘核心任务的定义。聚类是无监督学习任务,通过特征相似度将数据对象自动分组,无需预先标签。题目中“自动分群体”符合聚类特征。选项A(分类)需已知类别标签(如“高价值”是预定义标签),属于有监督学习;选项C(回归)预测连续值(如销售额);选项D(关联分析)发现变量间关联规则(如“购买A的用户80%也购买B”),均不符合题意。32.以下数据库中,属于文档型数据库的是?
A.MongoDB
B.HBase
C.Redis
D.Neo4j【答案】:A
解析:本题考察NoSQL数据库的类型分类。MongoDB是典型的文档型数据库,以JSON/BSON格式存储灵活结构的文档。选项B(HBase)是列族数据库;选项C(Redis)是键值型数据库;选项D(Neo4j)是图数据库,故A正确。33.根据CAP理论,在分布式系统中,以下哪项是不可能同时满足的?
A.一致性(Consistency)和可用性(Availability)
B.一致性(Consistency)和分区容错性(Partitiontolerance)
C.可用性(Availability)和分区容错性(Partitiontolerance)
D.一致性(Consistency)、可用性(Availability)和分区容错性(Partitiontolerance)【答案】:D
解析:本题考察分布式系统CAP理论。CAP理论指出,分布式系统无法同时满足一致性(C)、可用性(A)、分区容错性(P)三个特性。由于网络不可避免出现分区(P是必须满足的),因此系统只能在C和A中选择其一:满足P和A则放弃C(AP),或满足P和C则放弃A(CP)。选项D描述了三者同时满足的情况,这在实际分布式系统中不可能实现,因此正确答案为D。34.Spark相比MapReduce,其核心优势不包括以下哪项?
A.内存计算,减少磁盘IO
B.迭代计算效率显著提升
C.批处理能力远超MapReduce
D.支持多种计算模式(批/流/SQL等)【答案】:C
解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势在于内存计算(A正确)、迭代计算效率高(B正确,因MapReduce基于磁盘,Spark基于内存)、支持多种计算模式(D正确,如批处理、流处理、SQL查询等)。而批处理能力并非Spark的“核心优势”,两者均支持批处理框架,且MapReduce本身就是经典批处理模型,Spark的批处理效率优势源于内存计算而非批处理能力更强,故C错误。35.HBase作为典型的分布式数据库,其数据模型属于哪种NoSQL类型?
A.键值型
B.列族型
C.文档型
D.图状结构型【答案】:B
解析:本题考察NoSQL数据库的分类,正确答案为B。HBase基于列族(ColumnFamily)存储模型,将数据按列族分组,支持稀疏存储和多维度扩展,适用于海量结构化数据(如日志、时序数据)。选项A(键值型)代表如Redis,以键值对直接存储;选项C(文档型)代表如MongoDB,以JSON/BSON文档为基本单位;选项D(图状结构型)代表如Neo4j,以节点和边存储复杂关系网络,均不符合HBase的列族存储特征。36.Hadoop分布式文件系统(HDFS)的核心功能是?
A.提供分布式计算框架
B.存储海量结构化/非结构化数据
C.实现集群资源调度与管理
D.实时处理流数据与事件流计算【答案】:B
解析:本题考察HDFS的核心定位。HDFS是Hadoop生态的分布式存储组件,主要负责海量数据的可靠存储;A选项是MapReduce或Spark的功能,C是YARN的职责,D是Storm/Flink等流处理框架的应用场景。因此正确答案为B。37.大数据最显著的特征是以下哪一项?
A.数据量大(Volume)
B.处理速度快(Velocity)
C.数据类型多样(Variety)
D.价值密度低(Value)【答案】:A
解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据准确性)、Value(价值密度低)。其中,“数据量大”是大数据最直观、最显著的特征,其他特征是伴随数据量增长衍生的特性,因此A选项正确。B、C、D虽为大数据特征,但并非“最显著”的核心特征。38.在数据仓库的维度建模中,用于存储业务事件度量值(如销售额、订单量)的表是?
A.事实表
B.维度表
C.汇总表
D.明细表【答案】:A
解析:本题考察数据仓库维度建模的基础概念,正确答案为A。事实表是维度建模的核心,记录业务事件的度量值(可量化指标)和关联维度表的外键,例如“销售事实表”包含销售额、订单数量等数值型度量值。选项B(维度表)用于提供上下文描述(如时间、产品、客户维度),不存储度量值;选项C(汇总表)是事实表的聚合结果,非原始度量值存储;选项D(明细表)是事实表的细化记录,本质仍属于事实表的一种,与问题中“度量值存储”的核心描述不符。39.下列哪项是Hadoop生态系统中的分布式文件系统?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop生态系统的分布式文件系统,负责数据的分布式存储;MapReduce是分布式计算框架,用于并行处理大数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。40.以下哪种数据库属于列族(Column-Family)数据库?
A.HBase
B.MongoDB
C.Redis
D.MySQL【答案】:A
解析:本题考察NoSQL数据库的类型。列族数据库以HBase为代表,按列族组织数据,适合高写入、低延迟场景;B选项MongoDB是文档型数据库;C选项Redis是键值型数据库;D选项MySQL是关系型数据库。因此正确答案为A。41.以下哪个工具常用于实时流数据处理?
A.Flink
B.Hive
C.HBase
D.Sqoop【答案】:A
解析:本题考察大数据工具的应用场景。Flink是开源流处理框架,专为实时数据处理设计,支持流批一体;Hive是基于Hadoop的数据仓库工具,用于离线数据分析;HBase是列族数据库,用于海量结构化数据存储;Sqoop是数据导入导出工具,用于关系型数据库与Hadoop之间的数据传输。因此正确答案为A。42.以下哪个流处理框架支持低延迟的流处理和精确一次(Exactly-Once)语义?
A.ApacheFlink
B.ApacheSparkStreaming
C.ApacheStorm
D.ApacheKafkaStreams【答案】:A
解析:本题考察主流流处理框架特性。ApacheFlink是流批统一的框架,支持毫秒级低延迟处理和精确一次语义(确保数据不重复、不丢失)。错误选项B(SparkStreaming)是微批处理模型,依赖RDD实现,延迟较高;C(Storm)虽支持纯流处理,但不支持精确一次语义;D(KafkaStreams)需依赖Kafka存储层实现语义,自身不提供统一的精确一次语义支持。43.ApacheSpark相比HadoopMapReduce的核心优势主要体现在?
A.基于内存计算,大幅减少磁盘IO操作
B.仅支持批处理任务,不支持实时数据处理
C.必须依赖HDFS存储数据,无法独立运行
D.仅适用于结构化数据处理,对非结构化数据支持弱【答案】:A
解析:本题考察Spark与MapReduce的技术差异。Spark的核心设计是内存计算(如RDD缓存),避免MapReduce中频繁的磁盘读写,显著提升计算速度;B选项错误,Spark通过StructuredStreaming支持实时处理;C选项错误,Spark可独立运行(如Local模式)或结合其他存储系统;D选项错误,Spark支持JSON、CSV等非结构化/半结构化数据处理。44.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,专门用于在集群中存储海量数据;MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此正确答案为A。45.以下哪个工具主要用于构建实时高吞吐、低延迟的数据流处理管道?
A.Kafka
B.Flink
C.SparkStreaming
D.HadoopStreaming【答案】:A
解析:本题考察大数据流处理工具特性知识点。Kafka是分布式消息队列,专为高吞吐、低延迟的实时数据流管道设计,提供消息持久化和实时传输能力。Flink和SparkStreaming是流处理计算框架(需依赖数据源如Kafka),HadoopStreaming是MapReduce的流处理API,不直接构建数据流管道,因此A选项正确。46.以下哪种大数据存储系统最适合存储和处理海量结构化数据,支持高并发随机读写操作?
A.HDFS
B.HBase
C.MongoDB
D.Redis【答案】:B
解析:本题考察大数据存储系统的应用场景。HBase是基于HDFS的分布式列式数据库,专为海量结构化数据设计,支持高并发随机读写(如电商订单、用户行为日志等);A选项HDFS是分布式文件系统,不适合结构化数据的随机查询;C选项MongoDB是文档型NoSQL数据库,适合非结构化数据,但超大规模场景下性能不及HBase;D选项Redis是内存数据库,无法支持海量数据长期存储。因此正确答案为B。47.MongoDB在NoSQL数据库中属于哪种类型?
A.键值对数据库(Key-Value)
B.列族数据库(Column-Family)
C.文档型数据库(Document)
D.图数据库(Graph)【答案】:C
解析:本题考察NoSQL数据库类型及代表产品。MongoDB以JSON格式文档存储数据,属于文档型数据库;键值对数据库如Redis、Memcached;列族数据库如HBase;图数据库如Neo4j。因此正确答案为C。48.大数据的“4V”特征中,描述数据规模巨大(包括结构化、半结构化和非结构化数据)的是哪个特征?
A.Volume(数据量大)
B.Velocity(数据产生速度快)
C.Variety(数据类型多样)
D.Value(数据价值密度高)【答案】:A
解析:本题考察大数据核心特征知识点。大数据的4V特征中,Volume特指数据规模巨大,涵盖结构化(如数据库表)、半结构化(如XML)和非结构化(如文本、图片)数据的总量;Velocity强调数据产生和处理速度快(如传感器实时数据);Variety指数据来源和格式多样;Value则指数据价值密度低,需通过分析挖掘。因此正确答案为A。49.Spark相比MapReduce,在大数据处理中的核心优势是?
A.仅支持批处理,不支持流处理
B.基于内存计算,迭代任务执行速度更快
C.只能处理结构化数据,无法处理非结构化数据
D.完全依赖磁盘IO进行数据读写,减少内存占用【答案】:B
解析:本题考察主流大数据计算框架的特点。Spark是内存计算框架,将数据缓存在内存中(可选择持久化到磁盘),避免了MapReduce中频繁的磁盘IO操作,因此在迭代计算(如机器学习算法)和交互式查询中速度远快于MapReduce。选项A错误,Spark同时支持批处理、流处理(StructuredStreaming);选项C错误,Spark可通过DataFrame/SparkSQL处理结构化数据,通过MLlib处理非结构化数据;选项D错误,Spark优先使用内存,而非依赖磁盘IO,MapReduce才是基于磁盘的。因此正确答案为B。50.在数据仓库建模中,以下哪种模型通常用于分析型应用?
A.雪花模型(SnowflakeSchema)
B.星型模型(StarSchema)
C.星座模型(GalaxySchema)
D.层次模型(HierarchicalModel)【答案】:B
解析:本题考察数据仓库建模方式。星型模型是数据仓库维度建模的典型方式,由一个事实表和多个维度表组成,结构清晰、查询高效,广泛用于分析型应用(如OLAP分析)。A雪花模型是星型模型的扩展,通过维度表分层细化,但复杂度过高,适合特定场景;C星座模型是多个星型模型共享维度表,适用于大型企业级数据仓库;D层次模型是传统数据库的结构模型,非数据仓库主流分析模型。51.Spark相比MapReduce的主要优势在于?
A.内存计算
B.磁盘计算
C.批处理模式
D.实时流处理【答案】:A
解析:本题考察Spark与MapReduce的计算模型差异。Spark采用内存计算模型,通过RDD(弹性分布式数据集)实现数据在内存中的多次迭代,避免了MapReduce基于磁盘的多次读写,显著提升计算速度;MapReduce是基于磁盘的批处理框架,速度较慢。Spark支持批处理和流处理,但核心优势是内存计算;实时流处理并非Spark独有的核心优势(如Flink更擅长)。因此正确答案为A。52.根据分布式系统的CAP理论,当系统面临网络分区(Partition)时,为保证系统可用性(Availability),必须放弃的特性是?
A.分区容错性(Partitiontolerance)
B.一致性(Consistency)
C.可用性(Availability)
D.原子性(Atomicity)【答案】:B
解析:本题考察CAP理论的核心逻辑。CAP理论中,分区容错性(P)是分布式系统的固有特性(必须支持),因此无法放弃;当网络分区发生时,系统只能在一致性(C)和可用性(A)中选择其一。为保证系统可用(A),必须放弃一致性(C),即系统可能出现数据不一致但仍对外提供服务。D选项“原子性”是事务特性,非CAP理论范畴,故正确答案为B。53.在Hadoop分布式文件系统(HDFS)中,默认的副本因子是?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的核心配置知识点。HDFS默认将文件块(Block)复制3份以平衡数据可靠性与存储成本:3个副本可确保任意节点故障时数据仍可恢复,且相比2个副本容错性更高,相比4个副本更节省资源。选项A(1)仅1份数据,单点故障即丢失;选项B(2)容错能力有限;选项D(4)会过度消耗存储和带宽资源,不符合HDFS设计初衷。54.在数据仓库维度建模中,最常用的模型是?
A.星型模型
B.雪花模型
C.星座模型
D.星群模型【答案】:A
解析:本题考察数据仓库维度建模知识点。星型模型是维度建模中最常用的结构,以事实表为中心,周围连接多个维度表,结构简单、查询效率高;雪花模型是星型模型的规范化扩展,维度表可进一步拆分为子表,虽数据冗余少但查询复杂;星座模型是多个星型模型的组合,适用于复杂业务场景,非最常用;D选项“星群模型”非标准术语。因此A选项正确。55.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?
A.64MB
B.128MB
C.256MB
D.512MB【答案】:B
解析:本题考察HDFS的基础架构知识点。HDFS默认块大小为128MB,这一设计是为了平衡磁盘读写效率与内存利用率(小文件过多会增加元数据管理开销,大文件会导致单次IO耗时过长)。选项A(64MB)是早期Hadoop版本的可选配置或特定场景优化值;选项C(256MB)常见于高性能存储集群的优化设置;选项D(512MB)因文件过大可能导致MapReduce任务拆分困难,故非默认值。56.ApacheFlink与ApacheStorm在流处理中的核心差异在于?
A.Flink支持有状态计算,Storm不支持
B.Flink仅适用于批处理,Storm仅适用于流处理
C.Flink的吞吐量远低于Storm
D.Flink仅处理无界流,Storm仅处理有界流【答案】:A
解析:本题考察流处理框架的核心特性。Flink支持有状态计算(如窗口操作、状态后端管理),Storm是无状态的实时流处理;B选项错误,Flink同时支持流处理和批处理(统一处理引擎);C选项错误,Flink吞吐量更高,适合高并发场景;D选项错误,两者均支持无界流,Storm也可处理有界流(如从文件读取)。因此正确答案为A。57.K-means聚类算法的核心特点不包括以下哪项?
A.基于距离的聚类算法
B.需要预先指定簇的数量K
C.对异常值敏感
D.属于层次聚类算法【答案】:D
解析:本题考察数据挖掘算法特性。K-means是划分式聚类算法,基于欧氏距离度量簇内相似度,需预先指定簇数量K,且均值计算易受异常值影响(异常值会拉低均值);而层次聚类(如AGNES、DIANA)通过构建树状结构逐步合并或分裂簇,与K-means的“划分”逻辑不同。因此D选项错误,K-means不属于层次聚类。58.在大数据数据预处理中,对于含有缺失值的数值型特征,以下哪种方法通常不适用?
A.使用均值填充缺失值
B.使用KNN算法基于近邻样本预测填充
C.直接删除缺失值比例超过阈值的样本
D.使用唯一值(如-999)填充所有缺失值【答案】:D
解析:本题考察缺失值处理方法。均值填充(A)、KNN预测(B)和阈值删除(C)是常用策略。D错误,数值型特征使用唯一值(如-999)填充会引入虚假模式,无法反映数据分布规律,可能误导后续分析(如分类算法误判为特殊类别)。正确做法是选择均值、中位数或合理删除无效样本。因此正确答案为D。59.HadoopYARN(YetAnotherResourceNegotiator)的主要功能是?
A.管理分布式文件系统的元数据
B.负责集群资源的分配与任务调度
C.实现数据仓库的ETL流程
D.提供实时流数据的消息队列服务【答案】:B
解析:本题考察YARN的核心职责。YARN是Hadoop2.x引入的资源管理器,负责集群资源(CPU、内存等)的统一管理、任务调度和资源隔离,为上层计算框架(如MapReduce、Spark)提供资源支持。A选项是HDFSNameNode的功能;C选项属于数据仓库工具(如Hive)的ETL流程;D选项是消息队列(如Kafka)的功能。因此正确答案为B。60.在大数据数据处理流程中,‘先抽取数据,加载到目标系统后再进行转换操作’的模式被称为?
A.ETL(Extract-Transform-Load)
B.ELT(Extract-Load-Transform)
C.ETL+ELT混合模式
D.实时ETL(Extract-Transform-LoadinReal-time)【答案】:B
解析:本题考察ETL与ELT的概念差异。ETL(A选项)是先抽取(Extract)、转换(Transform)、再加载(Load)的传统流程;ELT(B选项)则是先抽取数据,直接加载到目标系统(如数据仓库),再在目标系统中进行转换,因大数据场景下目标系统(如Hadoop、数据仓库)的计算能力更强,ELT可减少数据传输和IO开销。C选项无此标准混合模式;D选项“实时ETL”并非ELT的定义,ELT更侧重批处理场景。61.下列关于ApacheFlink的描述,错误的是?
A.支持事件时间处理
B.统一流处理与批处理框架
C.仅支持内存计算,不支持磁盘计算
D.提供精确一次(Exactly-Once)语义【答案】:C
解析:本题考察Flink的核心特性。Flink是统一的流处理和批处理框架(B正确),支持事件时间处理(A正确,解决数据乱序问题)和精确一次语义(D正确,通过两阶段提交协议保证数据一致性);C选项错误,Flink既支持内存计算(如状态管理),也支持磁盘计算(如大型数据集的磁盘缓存),并非“仅支持内存计算”。因此正确答案为C。62.以下关于数据集市(DataMart)的描述,正确的是?
A.面向企业整体业务数据整合
B.面向特定部门或业务领域的数据集合
C.主要用于存储原始业务数据
D.数据存储规模通常远大于数据仓库【答案】:B
解析:本题考察数据仓库与数据集市的区别。数据集市是数据仓库的子集,面向特定部门或业务领域,从数据仓库中提取、整合特定需求的数据,供部门级分析使用。选项A描述的是企业级数据仓库的功能;选项C错误,原始数据通常存储在ODS(操作数据存储)层或源系统,数据集市存储的是经过清洗和整合的部门级数据;选项D错误,数据集市数据量通常小于企业级数据仓库。因此正确答案为B。63.处理连续型数值数据的缺失值时,以下哪种方法最为常用?
A.直接删除包含缺失值的记录
B.使用该字段的均值进行填充
C.使用该字段的众数进行填充
D.使用该字段的最大值进行填充【答案】:B
解析:本题考察大数据数据清洗中的缺失值处理。连续型数值(如温度、销售额)的缺失值处理需保持数据分布特性:均值填充(选项B)是最常用方法,能保留数据的统计特性;众数(选项C)适用于类别型数据(如颜色、性别);直接删除(A)可能导致样本量不足或偏差;最大值(D)会高估数据分布,影响后续分析。64.关于数据仓库(DataWarehouse)和数据湖(DataLake)的描述,正确的是?
A.数据仓库主要存储非结构化数据,数据湖主要存储结构化数据
B.数据仓库需要ETL流程,数据湖通常采用ELT流程
C.数据仓库面向业务分析,数据湖仅用于大数据量存储
D.数据仓库中的数据是经过清洗和整合的,数据湖中的数据是原始未处理的【答案】:D
解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库是面向主题的集成数据集合,数据需经ETL(抽取-转换-加载)清洗整合后存储;数据湖则直接存储原始数据(结构化、半结构化、非结构化),保留原始数据形态以支持探索性分析。选项A错误(数据仓库以结构化数据为主,数据湖支持多种格式);选项B错误(数据仓库和数据湖均可采用ETL/ELT流程,非绝对区分);选项C错误(数据湖不仅用于存储,也支持深度分析)。因此D为正确答案。65.下列哪项是数据仓库(DataWarehouse)的核心特征?
A.面向主题
B.实时更新数据
C.存储原始业务数据
D.支持联机事务处理(OLTP)【答案】:A
解析:本题考察数据仓库核心特性。数据仓库的核心特征是“面向主题”,即围绕特定业务主题(如销售、财务)组织数据,支持分析决策。错误选项B(实时更新)错误,数据仓库以批处理更新为主,不支持实时事务;C(存储原始业务数据)错误,数据仓库需经过清洗、整合、汇总;D(支持OLTP)错误,OLTP是事务处理系统的核心,数据仓库主要用于OLAP分析。66.以下哪种数据库属于列族型数据库?
A.MySQL
B.HBase
C.MongoDB
D.Redis【答案】:B
解析:本题考察NoSQL数据库的类型。HBase是基于Hadoop的列族型数据库,以列族为单位组织数据,适合海量数据的随机读写和范围查询。选项A(MySQL)是关系型数据库,采用行式存储;选项C(MongoDB)是文档型数据库,以JSON文档为基本存储单元;选项D(Redis)是键值型数据库,以内存存储为主。因此正确答案为B。67.Spark相比MapReduce,其显著优势在于?
A.内存计算,速度更快
B.仅支持批处理任务
C.必须依赖磁盘存储中间结果
D.不支持迭代计算【答案】:A
解析:本题考察Spark与MapReduce的对比知识点。Spark采用内存计算模型,中间结果可缓存于内存,避免MapReduce中大量磁盘I/O操作,因此迭代计算和实时分析速度更快;B选项错误,Spark支持批处理、流处理等多种任务;C选项错误,Spark以内存计算为主,非必须依赖磁盘;D选项错误,Spark擅长迭代计算(如机器学习)。正确答案为A。68.在数据仓库建设中,ETL(Extract-Transform-Load)和ELT(Extract-Load-Transform)的核心区别在于?
A.ETL仅适用于结构化数据,ELT仅适用于非结构化数据
B.ETL在源系统完成数据转换,ELT在数据仓库完成数据转换
C.ETL比ELT更节省存储空间
D.ETL的执行速度比ELT更快【答案】:B
解析:本题考察数据处理流程的核心差异。ETL的核心是“先转换后加载”,即先从源系统提取数据,在ETL工具中完成清洗、转换后再加载到数据仓库;而ELT是“先加载后转换”,直接将原始数据加载到数据仓库,再在仓库内进行转换。选项A错误,两者均可处理结构化/非结构化数据;选项C错误,ELT因加载原始数据可能占用更多存储空间;选项D错误,ELT在大数据场景下(如Spark+ELT)因并行处理原始数据可能更高效。69.大数据处理流程中,用于实时流数据传输与缓冲的工具是?
A.HDFS
B.Kafka
C.Hive
D.HBase【答案】:B
解析:本题考察大数据处理各环节的技术工具。Kafka是分布式流处理平台,主要用于实时流数据的传输、存储和处理,支持高吞吐量和持久化。选项A(HDFS)是分布式文件存储系统,用于静态数据持久化;选项C(Hive)是数据仓库工具,用于批处理查询;选项D(HBase)是列族存储数据库,用于海量数据的随机读写。因此正确答案为B。70.下列关于Spark与MapReduce相比的显著优势,说法错误的是?
A.内存计算
B.DAG执行引擎
C.迭代计算优化
D.仅支持批处理【答案】:D
解析:本题考察Spark的核心优势。Spark相比MapReduce的优势包括:A选项内存计算(Spark将数据缓存在内存中,减少磁盘IO)、B选项DAG执行引擎(支持复杂的管道式操作,优化任务执行顺序)、C选项迭代计算优化(通过内存缓存避免重复计算,迭代效率远高于MapReduce);而D选项错误,Spark不仅支持批处理,还支持流处理(SparkStreaming)、交互式查询(SparkSQL)等多种计算模式,因此“仅支持批处理”是错误描述。71.Spark相比MapReduce,其显著优势主要体现在?
A.内存计算为主
B.以磁盘I/O操作为主
C.仅支持结构化数据处理
D.完全依赖Hadoop生态【答案】:A
解析:本题考察Spark的核心特性。Spark采用内存计算模型,避免频繁磁盘I/O,大幅提升处理速度;B错误,MapReduce以磁盘I/O为主;C错误,Spark支持结构化、半结构化和非结构化数据;D错误,Spark可独立运行,无需完全依赖Hadoop。因此正确答案为A。72.在数据仓库设计中,以下哪种模型是事实表与维度表直接相连、无冗余的典型结构?
A.星型模型
B.雪花模型
C.星座模型
D.雪花星座混合模型【答案】:A
解析:本题考察数据仓库的表模型结构。星型模型以事实表为中心,维度表直接连接到事实表,无冗余(每个维度表仅含一个父维度表),结构简洁高效,是数据仓库中最常用的模型。雪花模型是星型模型的扩展,维度表可进一步拆分为多个子维度表(如“地区”拆分为“国家-省-市”),增加了规范化但降低了查询效率。星座模型(星座模式)是多个事实表共享维度表的结构,并非单一表模型。选项D为干扰项。因此正确答案为A。73.MongoDB数据库属于以下哪种NoSQL数据库类型?
A.键值对(Key-Value)型
B.列族(Column-Family)型
C.文档(Document)型
D.图(Graph)型【答案】:C
解析:本题考察NoSQL数据库的分类及典型代表。MongoDB是文档型数据库,以类似JSON的键值对文档形式存储数据,支持动态模式(schema-less),适合存储半结构化数据(如日志、用户信息)。选项A键值型代表为Redis、Memcached;选项B列族型代表为HBase、Cassandra;选项D图数据库代表为Neo4j。因此正确答案为C。74.以下哪项是数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别之一?
A.数据湖支持结构化数据,数据仓库仅支持非结构化数据
B.数据湖存储原始数据,数据仓库存储经过清洗和转换的数据
C.数据湖不支持数据查询,数据仓库仅支持结构化查询
D.数据湖的数据更新频率远高于数据仓库【答案】:B
解析:本题考察数据仓库与数据湖概念知识点。数据仓库强调数据治理和质量,存储经过ETL处理的结构化整合数据;数据湖则存储原始数据(含结构化、半结构化、非结构化),保留原始数据形态,后续按需处理。A错误(数据湖支持多种数据类型),C错误(数据湖支持灵活查询),D错误(数据湖原始数据更新频繁但数据仓库因分析需求可能更新更规范),因此B选项正确。75.MongoDB属于以下哪种类型的NoSQL数据库?
A.键值对数据库(Key-ValueStore)
B.列族数据库(Column-FamilyStore)
C.文档型数据库(DocumentStore)
D.图数据库(GraphDatabase)【答案】:C
解析:本题考察NoSQL数据库的分类。MongoDB以JSON格式的“文档”为基本存储单元,属于文档型数据库;键值对数据库(A)如Redis,以简单键值对存储;列族数据库(B)如HBase,按列族组织数据;图数据库(D)如Neo4j,以节点和边的图结构存储。因此正确答案为C。76.在数据仓库设计中,以下哪种是常用的维度建模方法?
A.星型模型
B.雪花模型
C.星座模型
D.以上都是【答案】:D
解析:本题考察数据仓库维度建模方法。星型模型以单个事实表为中心,关联多个维度表,结构简单直观;雪花模型是星型模型的扩展,维度表进一步规范化为子表,减少数据冗余;星座模型(事实星座)是多个事实表共享维度表的建模方式,适用于复杂业务场景。三者均为数据仓库维度建模的典型方法,因此正确答案为D。77.在HadoopMapReduce计算模型中,Map阶段的主要功能是?
A.对中间结果进行数据聚合
B.对输入数据进行映射转换并输出键值对
C.对数据进行全局排序
D.对数据进行分布式合并【答案】:B
解析:本题考察MapReduce的执行流程,正确答案为B。Map阶段负责将输入数据(如文件行)解析为键值对,通过用户定义的映射函数(如过滤、转换)生成中间键值对,是数据处理的“提取与初步加工”环节;A为Reduce阶段功能,C属于Shuffle阶段的全局排序,D不属于Map阶段核心功能。78.根据分布式系统的CAP理论,以下哪种说法是正确的?
A.分布式系统可以同时满足一致性(Consistency)和可用性(Availability)
B.分区容错性(Partitiontolerance)是分布式系统必须满足的特性
C.一致性和可用性总是可以同时满足
D.分区容错性在任何情况下都无法满足【答案】:B
解析:本题考察CAP理论核心知识点。CAP理论指出分布式系统只能同时满足一致性(C)、可用性(A)、分区容错性(P)中的两项(CP或AP),其中分区容错性(P)是分布式系统的固有属性(网络分区不可避免),因此必须满足;A和C错误,因C和A无法同时满足(满足P时);D错误,分区容错性是分布式系统的基础特性。因此正确答案为B。79.在流处理技术中,哪种框架以低延迟、高吞吐和精确一次(Exactly-Once)语义为核心特性,适用于实时数据处理场景?
A.ApacheSparkStreaming
B.ApacheFlink
C.ApacheStorm
D.ApacheKafkaStreams【答案】:B
解析:本题考察流处理框架的核心特性。Flink是实时流处理框架,基于事件驱动模型,支持状态管理和精确一次语义,延迟低且吞吐高;SparkStreaming是微批处理框架(DStream),本质是批处理,延迟较高;Storm是实时流处理但缺乏状态管理和精确语义;KafkaStreams基于Kafka,适合简单流处理但生态较单一。因此Flink符合题意,选B。80.以下哪种文件格式常用于大数据场景下的列式存储,以提高查询效率?
A.CSV
B.JSON
C.Parquet
D.XML【答案】:C
解析:本题考察大数据存储格式。Parquet是列式存储格式,适合大数据场景下的高效查询(仅读取所需列)和压缩。CSV、JSON、XML均为行式文本格式,查询时需扫描大量无关数据,效率较低。因此正确答案为C。81.以下哪种计算框架通常被认为是内存计算,比MapReduce更高效?
A.MapReduce
B.Spark
C.Flink
D.HadoopStreaming【答案】:B
解析:本题考察主流计算框架特性。Spark采用内存计算模型,将中间结果存储在内存中,避免MapReduce的大量磁盘IO操作,迭代计算效率更高。MapReduce(A)依赖磁盘存储中间结果,效率较低;Flink(C)虽也支持内存计算,但题目问“通常被认为更高效”的典型代表是Spark;HadoopStreaming(D)是基于MapReduce的接口工具,非独立计算框架。因此正确答案为B。82.以下哪种数据库系统最适合存储非结构化数据(如JSON文档、图片元数据等)?
A.MySQL(关系型数据库)
B.MongoDB(文档型数据库)
C.Redis(键值型数据库)
D.HBase(列族型数据库)【答案】:B
解析:本题考察NoSQL数据库的类型与适用场景。MongoDB作为文档型数据库,采用类似JSON的BSON格式存储数据,天然支持嵌套结构和灵活的非结构化数据。选项A(MySQL)是关系型数据库,依赖表结构,适合结构化数据;选项C(Redis)是键值型数据库,仅支持简单键值对,不支持复杂非结构化数据;选项D(HBase)是列族型数据库,适合海量结构化数据(如时序数据),不直接支持文档型结构。83.K-means聚类算法最典型的应用场景是?
A.客户分群(CustomerSegmentation)
B.预测股票价格走势
C.检测信用卡欺诈交易
D.分析用户评论情感倾向【答案】:A
解析:本题考察K-means算法的应用。K-means是无监督聚类算法,通过相似度度量将数据自动分组,客户分群是典型场景(如电商用户按消费习惯分群)。选项B(时间序列预测)、C(异常检测)、D(情感分析)分别对应ARIMA、孤立森林、NLP分类模型,因此正确答案为A。84.以下哪项是数据仓库中事实表的典型特征?
A.主要用于存储描述性维度属性(如时间、地区)
B.存储业务事件的度量数据(如销售额、订单量)
C.仅包含关键字段,无冗余数据
D.用于定义数据仓库的整体逻辑结构【答案】:B
解析:本题考察数据仓库中事实表与维度表的核心区别。事实表的典型特征是存储业务事件的度量数据(如订单金额、用户点击量等),通常关联多个维度表。选项A描述的是维度表(如时间维度表包含日期、季度等属性);选项C过于绝对,事实表可能因关联维度表存在冗余;选项D错误,数据仓库的逻辑结构由元数据和表关系定义,非事实表职责。85.下列关于Spark与MapReduce相比的主要优势描述正确的是?
A.Spark基于磁盘存储数据,MapReduce基于内存计算
B.Spark支持迭代计算和交互式查询,MapReduce效率较低
C.Spark只能处理批处理,MapReduce支持流处理
D.Spark的容错机制更复杂,MapReduce容错性更好【答案】:B
解析:本题考察Spark与MapReduce的技术对比知识点。Spark核心优势在于内存计算(而非磁盘存储),支持迭代计算(如机器学习算法)和交互式查询(如SQL、DataFrame操作),效率远高于MapReduce;A选项描述颠倒了存储方式;C选项错误,Spark既支持批处理也支持流处理(StructuredStreaming),MapReduce主要用于批处理;D选项错误,Spark基于RDD的Lineage机制容错性更优。因此正确答案为B。86.在Hadoop分布式文件系统(HDFS)中,负责管理文件系统元数据(如文件目录结构、权限、块位置等信息)的核心节点是?
A.NameNode
B.DataNode
C.SecondaryNameNode
D.ResourceManager【答案】:A
解析:本题考察HDFS核心节点的功能。NameNode是HDFS的主节点,负责管理整个文件系统的元数据,维护文件和目录的树状结构及块位置映射。DataNode是从节点,仅存储实际数据块;SecondaryNameNode主要用于合并元数据日志,减轻NameNode负担;ResourceManager是YARN资源管理器,与HDFS无关。87.以下哪种算法属于无监督学习算法?
A.决策树(DecisionTree)
B.K-means聚类算法
C.线性回归(LinearRegression)
D.贝叶斯分类器(NaiveBayes)【答案】:B
解析:本题考察机器学习算法的类别。无监督学习无需标签数据,通过数据内在结构发现规律,K-means是典型的无监督聚类算法,将数据划分为不同簇;A、C、D均为监督学习算法:决策树和贝叶斯用于分类(需标签),线性回归用于回归预测(需标签)。因此选B。88.以下哪项是数据仓库(DataWarehouse)的核心特点?
A.面向主题,整合多源数据
B.实时响应业务操作需求
C.直接存储原始业务系统数据
D.仅保留最新时刻的数据快照【答案】:A
解析:本题考察数据仓库的核心特征。数据仓库面向主题(如销售、财务),整合企业多源数据(如业务系统、外部数据),具有非易失性(数据长期存储)和时变性(随时间积累历史数据);而实时响应是OLTP(联机事务处理)的特点,原始数据存储于操作型数据库,数据仓库是经过清洗、整合后的结构化数据。因此正确答案为A。89.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?
A.128MB
B.64MB
C.256MB
D.512MB【答案】:A
解析:本题考察HDFS核心参数知识点。HDFS默认块大小为128MB,该设计主要为减少NameNode元数据存储压力并优化数据传输效率。错误选项B(64MB)是Hadoop1.x版本的默认块大小,C(256MB)通常用于大数据存储密度优化的特殊场景,D(512MB)超出HDFS标准配置范围。90.MongoDB属于以下哪种NoSQL数据库模型?
A.键值对(Key-Value)模型
B.文档(Document)模型
C.列族(Column-Family)模型
D.图(Graph)模型【答案】:B
解析:本题考察NoSQL数据库的分类,正确答案为B。MongoDB以JSON格式的“文档”(Document)为基本存储单元,支持嵌套文档和灵活的模式,属于文档模型;A典型代表为Redis、DynamoDB;C代表为HBase、Cassandra;D代表为Neo4j。91.MongoDB数据库属于以下哪种NoSQL数据库类型?
A.键值对(Key-Value)型
B.列族(Column-Family)型
C.文档(Document)型
D.图(Graph)型【答案】:C
解析:本题考察NoSQL数据库分类。MongoDB以JSON/BSON格式存储文档,属于文档型数据库;A(如Redis)、B(如HBase)、D(如Neo4j)分别对应键值型、列族型、图数据库。因此正确答案为C。92.在分布式系统CAP定理中,字母“C”代表的是?
A.Consistency(一致性)
B.Availability(可用性)
C.Partitiontolerance(分区容错性)
D.Continuity(连续性)【答案】:A
解析:本题考察分布式系统理论CAP定理。CAP定理指出分布式系统只能同时满足三个要素中的两项:C(Consistency,一致性:所有节点在同一时间看到相同的数据)、A(Availability,可用性:每个请求都能得到成功或失败的响应)、P(Partitiontolerance,分区容错性:允许节点间网络分区);B选项对应“A”,C选项对应“P”,D选项为干扰项(非CAP定理术语)。93.以下关于Spark与MapReduce的核心差异描述,正确的是?
A.Spark只能处理内存数据,MapReduce只能处理磁盘数据
B.Spark的RDD是惰性计算,MapReduce是立即执行
C.Spark支持内存计算,MapReduce主要基于磁盘迭代
D.Spark比MapReduce运行速度快10倍以上(绝对数值)【答案】:C
解析:本题考察分布式计算框架的技术特性。Spark的核心优势是内存计算(RDD默认缓存在内存),而MapReduce需通过磁盘读写中间结果,导致I/O开销大。选项A错误,Spark和MapReduce均可处理磁盘数据(Spark也支持持久化到磁盘);选项B错误,两者均采用惰性计算(Spark的DAG执行引擎延迟调度,MapReduce的作业需显式触发);选项D错误,Spark速度提升倍数因场景而异(通常5-100倍),无绝对10倍以上的通用结论。94.Spark作为大数据处理框架,相比MapReduce的主要优势是?
A.支持内存计算,减少磁盘IO
B.仅支持批处理任务,不支持流处理
C.必须依赖HDFS存储数据
D.无法进行复杂的数据清洗操作【答案】:A
解析:Spark的核心优势是内存计算,将中间结果保存在内存中,大幅减少磁盘读写操作,提升处理速度;B错误,Spark同时支持批处理(SparkCore)和流处理(SparkStreaming);C错误,Spark可从多种数据源读取数据(如Hive、Kafka等),不限于HDFS;D错误,Spark提供丰富的Transformation和ActionAPI,支持复杂的数据清洗、转换操作。95.在Hadoop分布式文件系统(HDFS)中,默认的块(Block)大小是多少?
A.64MB
B.128MB
C.256MB
D.512MB【答案】:B
解析:本题考察HDFS的核心参数。HDFS默认块大小为128MB(旧版本为64MB),该设计用于平衡数据存储效率与MapReduce任务并行性。选项A是早期版本的默认块大小,选项C和D均大于HDFS标准默认值,因此正确答案为B。96.在Hadoop分布式文件系统(HDFS)中,默认情况下文件块的副本数量是?
A.2
B.3
C.4
D.5【答案】:B
解析:本题考察HDFS的核心参数知识点。HDFS为了保证数据可靠性和容错性,默认将每个文件块存储3个副本,分布在不同的DataNode节点上。选项A(2)通常用于低冗余场景或早期配置,选项C(4)和D(5)均超出HDFS默认配置范围,因此正确答案为B。97.以下哪种数据库属于文档型NoSQL数据库?
A.MongoDB
B.HBase
C.Redis
D.MySQL【答案】:A
解析:本题考察NoSQL数据库类型。MongoDB是典型的文档型数据库,以JSON格式存储数据;HBase是列族型数据库(如Hadoop生态的结构化存储);Redis是键值型内存数据库;MySQL是关系型数据库(非NoSQL)。因此正确答案为A。98.以下哪个框架特别擅长处理高吞吐量的实时流数据?
A.SparkStreaming(微批处理框架)
B.ApacheFlink(流处理框架)
C.ApacheStorm(实时计算框架)
D.ApacheHive(数据仓库工具)【答案】:B
解析:本题考察流处理框架的特点。Flink是专为流处理设计的框架,支持低延迟、高吞吐的数据处理,具备精确一次(Exactly-Once)语义和强大的状态管理能力,适合实时流数据场景。ASparkStreaming基于微批处理,本质是“准实时”,延迟较高;CStorm虽支持实时计算,但在状态管理和容错性上弱于Flink;DHive是数据仓库工具,主要用于批处理分析,非流处理框架。99.以下哪项是Hadoop分布式文件系统(HDFS)中NameNode的主要功能?
A.存储实际数据块
B.存储文件系统元数据
C.执行数据处理任务
D.管理DataNode之间的数据传输【答案】:B
解析:NameNode的核心功能是存储文件系统的元数据(如文件目录结构、权限信息、文件与数据块的映射关系等);A错误,实际数据块由DataNode存储;C错误,数据处理任务由MapReduce或Spark等计算框架执行;D错误,NameNode通过心跳机制与DataNo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 缺氧环境作业安全培训教育课件
- 2026届重庆市涪陵区第十九中学中考五模生物试题含解析
- 湖南省株洲市第十九中学2026届中考数学模拟预测题含解析
- 2026届四川省成都市青羊区中考五模生物试题含解析
- 2026年国开电大农业经济基础形考强化训练附答案详解【完整版】
- 2026年国开电大信息检索与利用形考通关试卷及参考答案详解【巩固】
- 2026年国开电大思维方式与方法形考练习题库含答案详解【巩固】
- 2026年中级注册安全工程师模拟试题及1套参考答案详解
- 2025年辽宁公务员考试申论试题及参考答案
- (2026年)南京市辅警招聘考试试题库附完整答案
- 牧运通官方兽医试题题库带答案详解(满分必刷)
- 2025水利部综合事业局公开招聘工作人员11人笔试历年常考点试题专练附带答案详解2套试卷
- 充电桩智能运维优化项目完成情况总结汇报
- 急诊护理中的人文关怀实践与案例
- 升压站砌筑工程施工方案
- 煤矿安全操作规程课件
- 医院放射卫生知识培训课件
- 2025-2030中国牦牛乳资源开发利用现状与商业价值评估
- 集团燃气事业部运营与管理细则解析
- 结膜囊冲洗技术操作标准流程
- 2025-2030儿童财商培训市场趋势分析与竞争态势及投资可行性评估报告
评论
0/150
提交评论