版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年高职大数据技术笔练习题库【培优B卷】附答案详解1.Spark相比MapReduce的主要优势是?
A.处理速度更快
B.仅支持结构化数据
C.必须依赖磁盘存储中间结果
D.资源消耗显著更高【答案】:A
解析:本题考察主流大数据计算框架的对比。Spark采用内存计算模型,减少磁盘IO操作,因此处理速度远快于基于磁盘迭代计算的MapReduce;B错误,Spark支持结构化(DataFrame)、半结构化(JSON)、非结构化(文本)等多种数据类型;C错误,Spark优先内存计算,仅在必要时持久化到磁盘;D错误,Spark内存计算虽对内存资源要求较高,但因避免重复磁盘读写,整体资源效率优于MapReduce。因此正确答案为A。2.大数据的5V特征中,强调数据产生和处理速度的是以下哪一项?
A.Volume(数据量大)
B.Velocity(数据产生和处理速度快)
C.Variety(数据类型多样)
D.Veracity(数据真实性)【答案】:B
解析:本题考察大数据5V特征的基本概念。选项AVolume指数据规模庞大,通常以TB/PB为单位;选项BVelocity强调数据产生和处理的速度,例如实时流数据处理;选项CVariety指数据类型多样,包括结构化、半结构化和非结构化数据;选项DVeracity指数据的准确性和可靠性。因此正确答案为B。3.大数据的“4V”特征中,体现数据产生和处理速度快的是以下哪一项?
A.Volume(数据量大)
B.Velocity(速度快)
C.Variety(多样性)
D.Veracity(真实性)【答案】:B
解析:本题考察大数据的核心特征“4V”,Volume指数据规模庞大,Velocity强调数据产生和处理的速度快,Variety表示数据类型多样(结构化、半结构化、非结构化),Veracity指数据的真实性和准确性。因此正确答案为B。4.以下哪种数据库属于列族型数据库?
A.MongoDB
B.Redis
C.HBase
D.Neo4j【答案】:C
解析:本题考察NoSQL数据库类型。列族型数据库(Column-FamilyDatabase)以列族为单位存储数据,典型代表为HBase;MongoDB属于文档型数据库(存储JSON格式文档),Redis属于键值型数据库(Key-Value存储),Neo4j属于图状型数据库(存储节点和边的关系)。因此选项A、B、D均不属于列族型,正确答案为C。5.HBase作为NoSQL数据库,与关系型数据库(如MySQL)相比,最显著的结构特点是?
A.基于列族的存储结构
B.仅支持关系型数据模型
C.采用行式存储而非列式存储
D.不支持高并发写入操作【答案】:A
解析:本题考察HBase存储结构知识点。HBase是列式存储的NoSQL数据库,采用列族(ColumnFamily)结构,适合海量稀疏数据存储;而MySQL是行式存储的关系型数据库。选项B错误,HBase不支持关系型数据模型;选项C错误,HBase是列式存储;选项D错误,HBase支持高并发写入(通过RegionServer多线程处理)。因此正确答案为A。6.大数据的5V特征中,描述数据类型多样(结构化、半结构化、非结构化数据并存)的是以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Veracity(真实性)【答案】:C
解析:本题考察大数据的5V特征知识点。大数据的5V特征中:A选项Volume指数据容量,通常以PB级衡量;B选项Velocity指数据产生和处理的速度,强调实时性;C选项Variety指数据类型的多样性,包括结构化(如数据库表)、半结构化(如XML)、非结构化(如文本、图片)数据;D选项Veracity指数据的准确性和可靠性,是数据质量的重要指标。因此正确答案为C。7.在大数据处理中,ETL流程的正确顺序是?
A.Extract→Load→Transform
B.Extract→Transform→Load
C.Load→Extract→Transform
D.Transform→Extract→Load【答案】:B
解析:本题考察大数据处理流程ETL的定义。ETL(Extract-Transform-Load)是指:先从源系统“Extract(抽取)”数据,再对数据进行“Transform(转换)”(如清洗、整合),最后“Load(加载)”到目标系统(如数据仓库)。选项A顺序错误(先加载后转换),选项C、D顺序完全颠倒。因此正确答案为B。8.以下哪项是Hadoop分布式文件系统(HDFS)的主要功能?
A.存储海量结构化和非结构化数据
B.负责大数据的并行计算任务
C.管理集群资源分配与调度
D.提供实时流数据处理能力【答案】:A
解析:本题考察Hadoop生态系统核心组件HDFS的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式存储系统,主要用于存储海量的结构化和非结构化数据,因此A选项正确。B选项描述的是MapReduce(Hadoop计算框架)的功能;C选项是YARN(资源管理器)的职责;D选项属于流处理框架(如Flink、Storm)的范畴,故排除。9.以下哪种数据库属于Hadoop生态中的非关系型数据库(NoSQL)?
A.HDFS
B.HBase
C.Hive
D.YARN【答案】:B
解析:本题考察Hadoop生态系统数据存储组件知识点。HBase是基于Hadoop的列族数据库(NoSQL),适用于海量结构化数据存储与随机读写;HDFS是分布式文件系统,Hive是数据仓库工具,YARN是资源管理器,均不属于NoSQL数据库,因此正确答案是B。10.Hadoop分布式文件系统(HDFS)的主要作用是?
A.存储海量结构化和非结构化数据
B.实现分布式并行计算任务调度
C.提供数据挖掘算法支持
D.处理实时流数据的计算与分析【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS是Hadoop的分布式文件系统,核心目标是存储海量数据,支持高吞吐量和高容错性,适用于结构化和非结构化数据。B选项是YARN(资源管理器)的功能;C选项属于Hive、Mahout等工具的范畴;D选项是SparkStreaming或Flink的典型应用场景,因此正确答案为A。11.大数据技术中,‘5V’特征是大数据的核心特性,以下哪项不属于‘5V’特征?
A.Volume(数据量大)
B.Velocity(数据产生速度快)
C.Viscosity(数据粘度)
D.Veracity(数据真实性)【答案】:C
解析:本题考察大数据的5V核心特征知识点。大数据的5V特征包括:Volume(数据量大)、Velocity(数据产生与处理速度快)、Variety(数据类型多样)、Veracity(数据真实性与可靠性)、Value(数据价值密度低)。选项C中的‘Viscosity(数据粘度)’并非5V特征,属于干扰项。因此正确答案为C。12.以下哪个工具常用于实时数据采集和日志聚合?
A.Flume(日志采集系统)
B.Kafka(消息队列)
C.Spark(内存计算框架)
D.HBase(分布式数据库)【答案】:A
解析:本题考察大数据数据采集工具知识点。Flume是Apache开源的分布式日志收集系统,专为日志采集和聚合设计,支持从多源(如服务器、应用程序)实时收集日志数据。选项BKafka是高吞吐量的消息队列,主要用于系统间数据传输和缓冲;选项CSpark是内存计算框架,用于批处理和流处理;选项DHBase是分布式NoSQL数据库,用于海量数据存储。因此正确答案为A。13.以下关于数据湖(DataLake)的描述,正确的是?
A.数据湖只能存储结构化数据
B.数据湖中的数据通常是经过清洗和转换的
C.数据湖是集中式存储结构化数据的仓库
D.数据湖可以存储原始数据,支持多种数据类型【答案】:D
解析:本题考察数据湖的核心定义。数据湖是一种存储原始数据的集中式存储架构,支持结构化、半结构化(如JSON)、非结构化(如日志、图片)等多种数据类型;数据仓库(如Hive)通常存储经过清洗、转换后的结构化数据;数据湖强调原始数据的存储与灵活性,而非直接处理后的数据。因此正确答案为D。14.在数据预处理中,将连续型数值(如年龄)通过分箱操作转换为离散区间(如0-20岁、21-40岁等),该操作属于以下哪种数据处理方法?
A.特征选择(FeatureSelection)
B.特征提取(FeatureExtraction)
C.特征转换(FeatureTransformation)
D.特征降维(FeatureDimensionalityReduction)【答案】:C
解析:本题考察数据预处理中特征工程的核心操作。A选项特征选择是从原始特征中筛选重要特征(如基于相关性);B选项特征提取是将原始特征转换为更简洁的表示(如PCA降维);C选项特征转换是对特征本身进行变换(如归一化、标准化、分箱),将连续型数据转为离散型属于典型的转换操作;D选项特征降维是减少特征数量(如主成分分析),与分箱操作无关。因此正确答案为C。15.在数据仓库分层设计中,用于存储从业务系统直接采集的原始数据的是哪个层?
A.ODS层(操作数据存储层)
B.DWD层(数据明细层)
C.DWS层(数据服务层)
D.ADS层(应用数据服务层)【答案】:A
解析:本题考察数据仓库分层架构。数据仓库通常分为ODS(操作数据存储)、DWD(数据明细)、DWS(数据汇总)、ADS(应用服务)四层。ODS层直接接收业务系统的原始数据,进行清洗前的暂存;DWD层对ODS数据进行清洗、转换后形成明细数据;DWS层基于DWD数据进行汇总和整合;ADS层面向具体业务应用提供数据服务。因此正确答案为A。16.MapReduce计算框架的核心处理阶段是?
A.Map阶段和Reduce阶段
B.Map阶段和Shuffle阶段
C.输入阶段和输出阶段
D.存储阶段和计算阶段【答案】:A
解析:本题考察MapReduce的执行流程知识点。MapReduce的核心分为两个主要阶段:Map阶段负责将输入数据分解为键值对并进行初步处理,Reduce阶段负责对Map输出的中间结果进行聚合和最终计算。选项B中的Shuffle阶段是Map与Reduce之间的数据传输和排序过程,属于中间环节而非核心阶段;选项C、D的描述过于笼统,未准确反映MapReduce的核心逻辑,因此正确答案为A。17.在数据预处理阶段,以下哪项操作属于数据清洗的范畴?
A.去除重复数据
B.特征选择
C.数据标准化
D.构建预测模型【答案】:A
解析:本题考察数据预处理的基本流程。选项A去除重复数据是数据清洗的典型操作,用于消除冗余信息;选项B特征选择属于特征工程(从原始数据中筛选有效特征);选项C数据标准化属于特征工程(对数据进行归一化/标准化处理);选项D构建预测模型属于数据建模阶段。因此正确答案为A。18.Hadoop分布式文件系统HDFS的核心组件不包括以下哪项?
A.NameNode(元数据节点)
B.DataNode(数据节点)
C.ResourceManager(资源管理器)
D.SecondaryNameNode(辅助元数据节点)【答案】:C
解析:本题考察HDFS核心组件知识点。HDFS的核心组件包括NameNode(存储元数据)、DataNode(存储实际数据)和SecondaryNameNode(辅助NameNode,防止元数据丢失);而ResourceManager是YARN(资源管理器)的核心组件,不属于HDFS。因此正确答案为C。19.以下哪种数据库系统属于NoSQL数据库,且以键值对形式存储数据?
A.Redis
B.MongoDB
C.MySQL
D.HBase【答案】:A
解析:Redis是典型的键值对(Key-Value)型NoSQL数据库;MongoDB是文档型NoSQL数据库,以JSON格式存储数据;MySQL是关系型数据库,基于表结构和SQL操作;HBase是列族型NoSQL数据库,适用于海量结构化数据存储。因此正确答案为A。20.以下哪项不属于大数据的5V特征?
A.速度(Velocity)
B.规模(Volume)
C.多样性(Variety)
D.稳定性(Stability)【答案】:D
解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Velocity(速度)、Volume(规模)、Variety(多样性)、Veracity(真实性)和Value(价值)。选项A、B、C均为5V特征中的核心要素;而选项D的‘稳定性’并非大数据的特征,大数据更强调数据的动态变化和快速处理能力,因此正确答案为D。21.以下关于数据仓库的描述,错误的是?
A.面向主题
B.集成性
C.不可更新
D.实时性【答案】:D
解析:本题考察数据仓库的基本特性知识点。数据仓库的核心特点包括:面向主题(围绕特定业务主题组织数据)、集成性(整合多源数据)、非易失性(数据写入后不可更新,仅支持追加)、时变性(存储历史数据,随时间变化)。选项A、B、C均为数据仓库的正确特征;而选项D的‘实时性’是联机事务处理系统(OLTP)的典型特征,数据仓库更侧重历史数据分析,因此‘实时性’不属于数据仓库特点,正确答案为D。22.在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,将数据分散存储在多台服务器上,提供高容错和高吞吐量。MapReduce是分布式计算框架,负责数据处理;YARN是资源管理器,负责集群资源调度;Hive是数据仓库工具,用于数据查询和分析。因此正确答案为A。23.Spark相比传统MapReduce的显著优势是?
A.仅支持批处理计算
B.基于磁盘进行数据处理
C.内存计算框架,速度更快
D.只能处理结构化数据【答案】:C
解析:本题考察Spark技术特点知识点。Spark是内存计算框架,优先利用内存处理数据,速度远快于MapReduce的磁盘计算;支持批处理、流处理(SparkStreaming)等多种场景,可处理结构化/半结构化/非结构化数据。选项A、B、D描述均为MapReduce或错误场景,因此正确答案为C。24.在数据仓库建设中,ETL流程的正确顺序是?
A.抽取→加载→转换
B.抽取→转换→加载
C.加载→抽取→转换
D.转换→抽取→加载【答案】:B
解析:本题考察ETL流程的核心逻辑。ETL(Extract-Transform-Load)是数据仓库的核心流程:首先从源系统(如业务数据库)抽取数据,然后对数据进行清洗、格式转换等处理,最后加载到目标数据仓库。A错误,加载在转换之后;C、D流程完全错误。ELT(Extract-Load-Transform)是另一种流程(先加载后转换),但题目明确问ETL,因此正确答案为B。25.以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?
A.数据仓库主要存储结构化数据,数据湖支持多类型数据
B.数据仓库仅用于离线分析,数据湖只能实时计算
C.数据仓库无需数据清洗,数据湖必须深度清洗
D.数据仓库适合非结构化数据,数据湖适合结构化数据【答案】:A
解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库(DW)面向结构化数据,经ETL处理后用于分析决策;数据湖(DataLake)可存储原始多类型数据(结构化/半结构化/非结构化)。选项B错误(两者均支持批处理/实时分析);选项C错误(均需数据清洗);选项D错误(数据仓库更适合结构化数据)。因此正确答案为A。26.Hive是基于Hadoop的数据仓库工具,其主要功能是?
A.提供类SQL的查询语言HQL
B.实时处理海量流数据
C.替代关系型数据库存储所有数据
D.仅支持存储非结构化数据【答案】:A
解析:本题考察Hive的核心功能,Hive通过类SQL语法(HQL)对HDFS中的结构化数据进行查询和分析;Hive是批处理工具,不支持实时流数据处理;Hive定位数据仓库,无法替代关系型数据库存储所有数据;Hive主要处理结构化数据,非结构化数据处理能力有限。因此正确答案为A。27.大数据的4V核心特征中,不包含以下哪一项?
A.Volume(数据规模)
B.Velocity(数据速度)
C.Variety(数据多样性)
D.Veracity(数据真实性)【答案】:D
解析:本题考察大数据核心特征(4V)知识点。大数据的4V特征指:Volume(数据规模,如PB级数据)、Velocity(数据产生与处理速度,如实时流数据)、Variety(数据类型多样,包含结构化/半结构化/非结构化数据)、Value(数据价值,即从海量数据中挖掘有用信息)。Veracity(数据真实性)属于数据质量评估指标,并非4V核心特征,因此答案为D。28.HBase数据库属于哪种类型的NoSQL数据库?
A.键值对数据库(Key-ValueStore)
B.列族数据库(Column-FamilyStore)
C.文档型数据库(DocumentStore)
D.图数据库(GraphDatabase)【答案】:B
解析:本题考察NoSQL数据库类型知识点。键值对数据库(A)如Redis,以键值对存储数据;列族数据库(B)以列族为核心,典型如HBase,支持海量结构化数据的稀疏存储(行键+列族+列限定符);文档型数据库(C)如MongoDB,以JSON/BSON文档为单位;图数据库(D)如Neo4j,以图结构存储实体关系。HBase基于列族模型设计,因此答案为B。29.Hadoop生态系统中,负责分布式存储的核心组件是?
A.HDFS(Hadoop分布式文件系统)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:A
解析:本题考察Hadoop生态系统的核心组件功能。选项AHDFS是Hadoop的分布式文件系统,用于存储海量数据;选项BMapReduce是分布式计算框架,负责数据处理逻辑;选项CYARN是资源管理器,负责集群资源调度;选项DHive是基于Hadoop的数据仓库工具,用于SQL查询。因此正确答案为A。30.以下哪个属于Hadoop的分布式计算框架?
A.MapReduce
B.HDFS
C.YARN
D.HBase【答案】:A
解析:Hadoop生态系统中,MapReduce是分布式计算框架,负责数据处理;HDFS是分布式文件系统,用于存储数据;YARN是资源管理器,负责集群资源调度;HBase是分布式NoSQL数据库,基于HDFS存储。因此正确答案为A。31.Hadoop分布式文件系统(HDFS)中,为平衡数据可靠性与存储资源利用,默认的文件副本存储数量是?
A.1
B.2
C.3
D.5【答案】:C
解析:本题考察HDFS副本机制,正确答案为C。HDFS默认副本数为3,副本可分布在不同节点,既能通过冗余提高数据容错性(避免单点故障),又能通过并行读取提升效率;若副本数设为1则无容错性,2个副本容错性不足,5个则会造成存储资源浪费。32.以下哪项不属于数据预处理阶段的操作?
A.数据清洗(去除噪声/缺失值)
B.数据集成(合并多源数据)
C.数据转换(格式转换/归一化)
D.数据挖掘(提取隐藏模式)【答案】:D
解析:本题考察大数据处理流程中数据预处理的阶段。数据预处理是在数据进入分析前对其进行清洗、集成、转换等操作以提升质量,属于数据准备阶段;而数据挖掘是从预处理后的数据中提取有价值模式的分析阶段,不属于预处理。因此正确答案为D。33.Spark中用于存储数据并支持迭代计算的核心抽象是?
A.RDD
B.DataFrame
C.Dataset
D.SparkContext【答案】:A
解析:本题考察Spark核心抽象知识点。正确答案为A,RDD(ResilientDistributedDataset)是Spark的核心抽象,具有分区、不可变、惰性计算等特性,适合迭代计算和内存计算场景。选项BDataFrame是结构化数据API,基于RDD实现;选项CDataset是强类型数据集合,Spark1.6后引入,属于更高层抽象;选项DSparkContext是Spark的上下文对象,负责连接集群和创建RDD,本身不存储数据。34.在Hadoop生态系统中,HDFS(分布式文件系统)的核心特点是?
A.支持多副本存储,提高容错性
B.仅支持存储小文件(≤1MB)
C.采用单节点存储,容量无扩展能力
D.读写速度远超本地文件系统(<1ms延迟)【答案】:A
解析:本题考察HDFS核心特性知识点。HDFS是分布式文件系统,其核心特点包括:支持多副本存储(默认3副本)以提高容错性(选项A正确);HDFS专为存储大文件设计(非小文件,选项B错误);采用分布式多节点存储(非单节点,选项C错误);虽然吞吐量高,但读写延迟通常高于本地文件系统(选项D错误)。因此正确答案为A。35.Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS(HadoopDistributedFileSystem)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.ZooKeeper(分布式协调服务)【答案】:A
解析:本题考察Hadoop核心组件知识点。Hadoop生态系统各组件功能:HDFS(A选项)是分布式文件系统,负责海量数据的分布式存储;MapReduce(B选项)是分布式计算框架,用于并行处理大数据;YARN(C选项)是资源管理器,负责集群资源调度;ZooKeeper(D选项)是分布式协调服务,用于集群状态管理。题目问“分布式存储”,正确答案为A。36.在数据预处理中,对于缺失值较多且数据分布偏态的数值型特征,常用的填充方法是?
A.均值填充
B.中位数填充
C.众数填充
D.直接删除记录【答案】:B
解析:本题考察数据预处理中缺失值处理方法。选项A“均值填充”受极端值影响大,不适用于偏态分布;选项B“中位数填充”对偏态数据稳健性强,适合处理缺失值较多的偏态特征;选项C“众数填充”适用于类别型数据;选项D“直接删除记录”会导致数据量大幅减少,可能引入偏差。因此正确答案为B。37.以下关于Spark与MapReduce的对比,描述错误的是?
A.Spark支持内存计算,速度更快
B.Spark仅支持批处理任务
C.Spark支持多种计算模型(批处理、流处理等)
D.Spark的DAG执行引擎优化了任务调度【答案】:B
解析:本题考察Spark与MapReduce技术特点。Spark优势包括内存计算(A正确)、DAG引擎优化调度(D正确),且支持批处理、流处理(StructuredStreaming)等多模型(C正确)。MapReduce仅支持批处理,而Spark并非仅支持批处理,因此B选项描述错误。38.大数据的5V特征不包括以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Variation(变化)【答案】:D
解析:本题考察大数据5V特征知识点。大数据5V特征指Volume(数据规模大)、Velocity(数据产生速度快)、Variety(数据类型多样)、Veracity(数据真实性高)、Value(数据价值密度低)。选项D“Variation(变化)”不属于5V特征,其他选项均为5V核心要素。39.MongoDB数据库属于以下哪种类型的NoSQL数据库?
A.键值型(Key-Value)
B.文档型(Document)
C.列族型(Column-Family)
D.图数据库(Graph)【答案】:B
解析:本题考察NoSQL数据库类型知识点。NoSQL数据库按存储模型分为四类:A选项键值型(如Redis)以键值对存储数据;B选项文档型以JSON/BSON格式存储完整文档,MongoDB是典型代表,支持嵌套文档和灵活查询;C选项列族型(如HBase)以列族为单位组织数据,适合海量结构化数据;D选项图数据库(如Neo4j)以图结构(节点和边)存储关系型数据。MongoDB通过文档模型存储数据,因此正确答案为B。40.以下关于HBase的描述,正确的是?
A.基于HDFS的分布式列存储数据库
B.关系型数据库,支持SQL查询
C.只能顺序读写,不支持随机读写
D.适用于全表扫描,不支持随机访问【答案】:A
解析:本题考察HBase分布式数据库的特性知识点。HBase是基于HDFS的分布式列存储NoSQL数据库,支持随机读写和高并发访问,适用于海量结构化数据存储。选项B错误,HBase是非关系型数据库(NoSQL),不支持SQL;选项C错误,HBase支持随机读写(通过RowKey定位数据);选项D错误,HBase通过RowKey实现随机访问,适合随机读写而非仅全表扫描。因此正确答案为A。41.以下哪项是OLAP(联机分析处理)系统的典型特征?
A.面向操作人员和日常事务处理
B.数据以汇总、分析为主,实时性要求低
C.存储原始、详细的业务交易数据
D.仅支持关系型数据库,不支持非结构化数据【答案】:B
解析:本题考察OLAP与OLTP的区别。OLAP(联机分析处理)用于数据分析决策,特点是数据汇总、多维度分析,实时性要求低(如按天/周/月统计)。选项A错误,这是OLTP(联机事务处理)的特点;选项C错误,原始详细数据是OLTP的存储特征;选项D错误,OLAP支持多种数据源和数据类型(如关系型、多维数据等),因此正确答案为B。42.Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.HBase
C.MapReduce
D.YARN【答案】:A
解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据;HBase是分布式NoSQL数据库,基于列存储;MapReduce是分布式计算框架;YARN是资源管理器。因此负责分布式文件存储的是HDFS,正确答案为A。43.以下哪种应用场景属于OLAP(联机分析处理)?
A.电商平台实时订单处理
B.企业财务报表多维度分析
C.社交媒体实时消息推送
D.在线支付交易实时校验【答案】:B
解析:本题考察OLAP与OLTP的区别知识点。正确答案为B,OLAP(联机分析处理)面向决策支持,用于复杂数据分析(如财务报表多维度汇总、趋势分析)。A、C、D均属于OLTP(联机事务处理),面向日常业务操作(如订单管理、实时交易、消息推送),强调事务的实时性和一致性。44.Spark作为大数据处理框架,与传统MapReduce相比,其显著优势是?
A.基于内存计算,处理速度更快
B.基于磁盘计算,稳定性更强
C.仅支持批处理任务,不支持流处理
D.必须依赖HDFS存储数据【答案】:A
解析:本题考察Spark技术特性。Spark采用内存计算模式,数据处理速度远快于MapReduce的磁盘IO模式;Spark同时支持批处理和流处理(StructuredStreaming),且可独立于HDFS运行;MapReduce才是依赖磁盘的批处理框架。因此正确答案为A。45.以下关于Spark和MapReduce的对比,正确的描述是?
A.Spark仅支持内存计算,无法处理磁盘数据
B.Spark的计算速度通常比MapReduce快
C.Spark只能处理实时流数据,不能处理批处理
D.Spark不支持SQL查询,仅支持Scala语言【答案】:B
解析:本题考察主流大数据处理框架知识点。Spark的核心优势是内存计算,避免了MapReduce多次磁盘IO的开销,因此计算速度通常更快,选项B正确。选项A错误,Spark也支持磁盘数据处理;选项C错误,Spark既支持批处理也支持流处理;选项D错误,Spark支持SQL查询(SparkSQL)且支持多种语言(Scala、Java、Python等)。46.Spark相比MapReduce的主要优势是?
A.仅支持离线批处理
B.基于内存计算,速度更快
C.不支持迭代计算
D.不依赖分布式存储【答案】:B
解析:Spark基于内存计算,避免了MapReduce多次读写磁盘的性能瓶颈,处理速度更快,尤其适合迭代计算任务。A选项错误,Spark同时支持离线批处理和实时流处理;C选项错误,Spark非常适合迭代计算;D选项错误,Spark依赖HDFS等分布式存储系统存储数据。因此正确答案为B。47.大数据的核心特征(4V)不包括以下哪个?
A.Volume(数据量)
B.Velocity(处理速度)
C.Variety(数据多样性)
D.Veracity(数据准确性)【答案】:D
解析:本题考察大数据的4V核心特征知识点。大数据的4V特征定义为:Volume(数据规模巨大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样,包括结构化、半结构化、非结构化数据)、Value(数据价值密度低但可挖掘)。Veracity(数据真实性)不属于4V标准特征,因此正确答案为D。48.在大数据预处理流程中,“去除重复数据、处理缺失值、修正异常值”属于以下哪种操作?
A.数据清洗
B.数据集成
C.数据变换
D.数据规约【答案】:A
解析:本题考察大数据预处理的基础操作定义。数据清洗是预处理的核心环节,主要任务包括处理重复数据、缺失值、异常值等噪声数据,确保数据质量。B选项数据集成是合并多个数据源;C选项数据变换是对数据格式或数值范围进行标准化/归一化;D选项数据规约是通过降维、抽样等方式减少数据规模,因此正确答案为A。49.Spark作为大数据计算框架,相比传统MapReduce,其主要优势在于?
A.基于内存计算,迭代效率高
B.仅能处理结构化数据
C.不支持SQL查询
D.需要频繁读写磁盘【答案】:A
解析:本题考察Spark与MapReduce的技术对比知识点。Spark的核心优势是基于内存计算,减少磁盘IO,对迭代计算(如机器学习、图计算)效率远高于MapReduce。Spark支持多种数据类型(结构化、半结构化、非结构化),并提供SQL查询接口(SparkSQL);而MapReduce因基于磁盘IO,迭代计算速度慢。因此A选项正确,B、C、D均为错误描述(B错误,Spark支持非结构化数据;C错误,Spark支持SQL;D错误,Spark以内存计算减少磁盘IO)。50.以下哪项是数据仓库的典型特点?
A.面向应用需求
B.支持实时数据更新
C.集成历史数据与多源数据
D.面向用户日常操作【答案】:C
解析:本题考察数据仓库的核心特点。数据仓库是面向主题、集成的、非易失的(历史数据)、时变的结构化数据集合,其核心特点包括数据集成(整合多源数据)和存储历史数据(非实时更新,保留历史变化)。而“面向应用需求”“面向用户日常操作”是操作型数据库(OLTP)的特点;“实时数据更新”不符合数据仓库非易失性(通常T+1更新)。因此正确答案为C。51.以下关于数据仓库(DW)和数据湖(DataLake)的描述,正确的是?
A.数据仓库仅存储在本地服务器,数据湖仅存储在云平台
B.数据仓库主要存储结构化数据,数据湖可存储多种类型数据
C.数据湖的数据是经过清洗整合后的高价值数据,数据仓库是原始数据
D.数据仓库和数据湖均需严格遵循三范式设计以保证数据一致性【答案】:B
解析:本题考察数据仓库与数据湖的核心区别知识点。数据仓库(DW)是面向主题、集成的结构化数据集合,用于分析决策;数据湖(DataLake)可存储原始/半结构化数据(文本、日志、图像等)。选项A错误(数据仓库可本地化/云化,数据湖同理);选项C错误(数据湖存储原始数据,数据仓库存储整合后数据);选项D错误(数据湖不强制三范式,仅数据仓库部分遵循)。52.MongoDB数据库属于以下哪种类型的NoSQL数据库?
A.键值对(Key-Value)型
B.文档(Document)型
C.列族(Column-Family)型
D.图状(Graph)型【答案】:B
解析:本题考察NoSQL数据库类型。MongoDB是文档型NoSQL数据库,以JSON格式的文档(Document)为基本存储单元,支持灵活的模式设计。选项A代表如Redis(键值对);选项C代表如HBase(列族);选项D代表如Neo4j(图状)。53.SparkStreaming相比MapReduce的优势,不包括以下哪项?
A.内存计算,减少磁盘IO开销
B.支持实时流处理
C.仅支持Java语言开发
D.DAG执行模型,优化计算任务【答案】:C
解析:本题考察Spark与MapReduce的技术对比。Spark的优势包括:内存计算(减少磁盘IO,提升速度)、支持实时流处理(SparkStreaming)、基于DAG执行模型优化计算任务。选项C“仅支持Java语言开发”是错误的,Spark支持Scala、Python、Java等多种语言开发,而MapReduce主要依赖Java开发。54.以下哪项不属于大数据的5V核心特征?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Variable(变量)【答案】:D
解析:本题考察大数据基础特征知识点。大数据的5V特征具体指:Volume(数据容量)、Velocity(处理速度)、Variety(数据类型多样性)、Veracity(数据真实性)、Value(数据价值)。Variable(变量)并非5V特征之一,因此正确答案为D。55.在数据挖掘算法中,以下哪项属于无监督学习(聚类算法)?
A.决策树(分类)
B.K-Means(聚类)
C.线性回归(预测)
D.Apriori(关联规则)【答案】:B
解析:本题考察数据挖掘算法的分类。无监督学习无需标签数据,通过数据自身特征分组。K-Means是典型的聚类算法,属于无监督学习;A选项决策树是有监督分类算法;C选项线性回归是有监督回归算法;D选项Apriori是关联规则挖掘(无监督),但题目明确指向“聚类算法”,因此正确答案为B。56.以下哪种数据库属于NoSQL数据库?
A.MySQL
B.Oracle
C.MongoDB
D.SQLServer【答案】:C
解析:本题考察数据库类型知识点。MySQL、Oracle、SQLServer均为关系型数据库(RDBMS),遵循ACID特性和表结构规范;MongoDB是非关系型数据库(NoSQL),以文档形式存储数据,支持灵活的数据模型,故正确答案为C。57.以下关于Spark的描述中,错误的是?
A.Spark支持内存计算,处理速度通常比MapReduce快
B.Spark采用DAG执行引擎,支持更复杂的计算逻辑
C.SparkStreaming通过微批处理实现实时流处理
D.Spark仅支持批处理,不支持实时处理【答案】:D
解析:本题考察Spark的特性。Spark是内存计算框架,支持内存中迭代计算,处理速度远快于MapReduce(A正确);Spark采用DAG有向无环图执行引擎,能更灵活地优化计算逻辑(B正确);SparkStreaming通过微批处理(将流数据分批次处理)实现准实时流处理(C正确);Spark不仅支持批处理,还通过SparkStreaming、StructuredStreaming等模块支持实时流处理,因此选项D“仅支持批处理,不支持实时处理”描述错误。58.以下哪个工具常用于在Hadoop与关系型数据库之间实现数据传输(如ETL过程中的数据抽取)?
A.Hive(数据仓库工具)
B.Sqoop(数据传输工具)
C.Flume(日志收集工具)
D.HBase(NoSQL数据库)【答案】:B
解析:本题考察大数据生态工具用途。Sqoop是专为Hadoop与关系型数据库(如MySQL、Oracle)之间批量数据传输设计的工具,支持ETL过程中的数据抽取与加载;Hive用于数据仓库查询分析,Flume用于日志/事件数据实时收集,HBase是分布式NoSQL数据库,故正确答案为B。59.Hive的查询语言是?
A.SQL
B.HQL
C.PigLatin
D.FlinkSQL【答案】:B
解析:Hive是基于Hadoop的数据仓库工具,其查询语言为HiveQL(简称HQL),语法与SQL类似但不完全相同;SQL是关系型数据库的标准查询语言,Hive不完全使用SQL语法;PigLatin是Pig的查询语言,与Hive不同;FlinkSQL是ApacheFlink的SQL查询接口,用于流处理场景。因此正确答案为B。60.Hadoop分布式文件系统(HDFS)默认的副本系数是多少?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS副本机制知识点。HDFS为提高数据可靠性和容错能力,默认将每个数据块复制3份并存储在不同节点,副本系数3可有效应对单点故障。选项A(1)无法容错,B(2)可靠性不足,D(4)超出默认设计,故正确答案为C。61.以下哪项是Hadoop生态系统中的分布式文件系统?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,用于存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,Hive是数据仓库工具。因此正确答案为A,其他选项分别对应不同组件功能。62.Hadoop分布式文件系统(HDFS)默认的副本数是多少?
A.1
B.2
C.3
D.4【答案】:C
解析:本题考察HDFS的基本配置知识点。HDFS为保障数据的高可用性和容错能力,默认采用3副本存储策略(即每个文件块在3个不同的DataNode节点上存储)。选项A(1副本)无法满足容错需求,选项B(2副本)是早期某些场景的配置但非默认,选项D(4副本)超出了HDFS默认设计的冗余级别,因此正确答案为C。63.以下哪项是数据仓库区别于操作型数据库的核心特点?
A.面向主题
B.实时事务处理
C.数据可直接修改
D.只存储当前数据【答案】:A
解析:本题考察数据仓库的特性,正确答案为A。数据仓库以“面向主题”为核心(围绕分析主题如销售、客户构建),而操作型数据库面向具体业务流程;B选项“实时事务处理”是操作型数据库的典型场景;C选项数据仓库数据具有非易失性,一般不直接修改历史数据;D选项数据仓库存储历史累积数据,非仅存储当前数据。64.Spark相比MapReduce计算框架的显著优势是?
A.支持内存计算,减少磁盘IO开销
B.仅支持批处理数据计算
C.必须依赖HDFS存储数据
D.只能在单机环境运行【答案】:A
解析:本题考察Spark与MapReduce的技术差异。Spark的核心优势是内存计算,中间结果直接保存在内存中,避免了MapReduce中多次读写磁盘的高IO开销,大幅提升计算速度;Spark既支持批处理也支持流处理,可运行在集群环境,且不依赖HDFS(但通常与HDFS配合使用),因此正确答案为A。65.ApacheSpark相比Hadoop的MapReduce,其主要优势在于?
A.处理速度更快
B.只能处理结构化数据
C.不支持迭代计算
D.仅能在单机环境运行【答案】:A
解析:本题考察Spark与MapReduce的对比,Spark基于内存计算,避免了MapReduce的磁盘IO瓶颈,处理速度显著更快;Spark支持结构化、半结构化和非结构化数据处理,并非仅处理结构化数据;Spark支持迭代计算(如机器学习),而MapReduce不适合;Spark可在集群环境分布式运行,而非仅单机。因此正确答案为A。66.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件的功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责海量数据的分布式存储;MapReduce是分布式计算框架,用于处理大规模数据计算任务;YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器,负责集群资源的调度与分配;Hive是基于Hadoop的数据仓库工具,提供类SQL查询能力。因此正确答案为A。67.以下哪项不属于Hadoop生态系统中的核心组件?
A.HDFS
B.MapReduce
C.YARN
D.SparkStreaming【答案】:D
解析:本题考察Hadoop生态系统知识点。Hadoop生态系统的核心组件包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器)。SparkStreaming是ApacheSpark生态系统的流处理组件,不属于Hadoop核心组件,因此正确答案为D。68.Hadoop生态系统中,负责分布式数据存储的核心组件是?
A.HDFS(分布式文件系统)
B.MapReduce(分布式计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:A
解析:本题考察Hadoop生态系统组件功能。HDFS(分布式文件系统)是Hadoop的分布式存储核心,用于存储海量数据;MapReduce是分布式计算框架,YARN负责集群资源管理,Hive是基于Hadoop的数据仓库工具,用于数据查询与分析,因此正确答案为A。69.Hadoop生态系统中,负责分布式数据存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.Hive【答案】:A
解析:本题考察Hadoop核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专门用于大规模数据的分布式存储;MapReduce是分布式计算框架,YARN负责集群资源管理,Hive是基于Hadoop的数据仓库工具(用于数据查询分析)。因此负责分布式存储的是HDFS,答案为A。70.大数据的5V特征中,代表数据多样性(不同来源、格式、结构)的是以下哪一项?
A.Volume
B.Velocity
C.Variety
D.Vibration【答案】:C
解析:本题考察大数据5V特征知识点。大数据5V特征包括:Volume(容量,数据规模大)、Velocity(速度,数据产生和处理速度快)、Variety(多样性,数据来源和格式多样)、Veracity(真实性,数据质量高)、Value(价值,数据蕴含价值)。选项A“Volume”指数据容量,选项B“Velocity”指数据处理速度,选项D“Vibration”并非5V特征之一,因此正确答案为C。71.SparkStreaming主要用于哪种数据处理模式?
A.批处理(BulkProcessing)
B.流处理(StreamProcessing)
C.混合处理(HybridProcessing)
D.离线处理(OfflineProcessing)【答案】:B
解析:本题考察数据处理模式知识点。批处理(A)通常指对大量历史数据进行批量计算(如MapReduce的离线批处理);流处理(B)指对实时产生的数据流进行低延迟处理;SparkStreaming是基于Spark的流处理框架,通过微批处理(Micro-batch)方式实现实时流数据处理,属于流处理范畴;C、D选项并非主流分类,且SparkStreaming不属于混合或纯离线处理。因此正确答案为B。72.以下哪种框架常用于实时流数据处理?
A.SparkStreaming
B.HadoopMapReduce
C.Hive
D.HDFS【答案】:A
解析:本题考察大数据处理框架的应用场景。SparkStreaming是Spark生态中的实时流处理框架,支持毫秒级延迟,可处理实时数据流;HadoopMapReduce是批处理框架,主要用于离线大规模数据计算;Hive是基于Hadoop的数据仓库工具,适用于离线分析查询;HDFS是分布式文件存储系统,不具备流处理能力。因此正确答案为A。73.Sqoop在大数据生态系统中的主要作用是?
A.实时数据采集
B.数据仓库ETL过程中的数据导入导出
C.分布式缓存
D.实时流处理【答案】:B
解析:本题考察Sqoop的功能定位。Sqoop是Hadoop与关系型数据库(如MySQL、Oracle)之间的数据传输工具,主要用于ETL流程中的数据导入(如将关系型数据导入HDFS/Hive)和导出(如从Hadoop导出数据到数据库)。A错误,实时数据采集由Flume/Kafka完成;C错误,分布式缓存通常由HBase或Redis实现;D错误,实时流处理由Flink/SparkStreaming负责。因此正确答案为B。74.Hive在大数据生态系统中的主要功能是?
A.提供分布式文件存储服务
B.提供类SQL查询接口进行数据仓库分析
C.实时处理高并发消息数据
D.实现内存中的快速数据计算【答案】:B
解析:Hive是基于Hadoop的数据仓库工具,通过HQL(类SQL)语法对存储在HDFS中的数据进行分析和查询。A选项“分布式文件存储”是HDFS的功能;C选项“实时处理高并发消息”由Kafka或Flink承担;D选项“内存快速计算”是Spark的核心能力。因此正确答案为B。75.在Hadoop生态系统中,用于将结构化数据转换为适合分析的表结构,并支持类SQL查询的工具是?
A.Hive
B.Pig
C.Sqoop
D.Flume【答案】:A
解析:本题考察Hadoop生态工具定位。Hive是基于Hadoop的SQL查询工具,通过HQL语法将SQL转换为MapReduce等任务,适合构建数据仓库;B项Pig是脚本语言用于复杂数据转换,但不支持类SQL;C项Sqoop用于数据导入导出;D项Flume用于日志收集。因此正确答案为A。76.以下哪项不属于大数据在商业领域的典型应用场景?
A.精准营销(基于用户行为数据推荐商品)
B.智慧城市(交通、能源、安防等资源优化)
C.科学计算(如天体物理、气候模拟等复杂运算)
D.风险控制(金融机构信用评估与欺诈检测)【答案】:C
解析:本题考察大数据应用场景知识点。精准营销(A)、智慧城市(B)、风险控制(D)均是大数据在商业/社会领域的典型应用(如电商、城市管理、金融风控);而C选项“科学计算”主要依赖高性能计算(HPC)或超级计算机,虽可能使用分布式计算框架,但核心目标是解决复杂科学问题(如物理模拟),不属于商业领域大数据应用范畴。因此正确答案为C。77.以下哪项是数据仓库(DataWarehouse)的核心特点?
A.面向主题,支持决策分析
B.实时更新,支持事务处理
C.存储原始业务数据,保留数据细节
D.仅用于存储结构化数据,不支持非结构化数据【答案】:A
解析:本题考察数据仓库的核心特征。数据仓库是面向分析主题(如销售、财务)的集成数据集合,用于支持决策分析。B错误,数据仓库侧重历史数据整合,实时性低,事务处理是OLTP(联机事务处理)的特点;C错误,数据仓库存储的是清洗后的整合数据,而非原始业务数据;D错误,数据仓库支持结构化、半结构化(如JSON)及非结构化(如日志)数据。因此正确答案为A。78.在大数据可视化分析中,下列哪项属于常用工具?
A.Tableau
B.Hive
C.Hadoop
D.Spark【答案】:A
解析:本题考察大数据可视化工具知识点。Tableau是专业的商业智能(BI)可视化工具,用于数据图表生成和分析;Hive是数据仓库工具,Hadoop是分布式计算框架,Spark是内存计算引擎,均不属于可视化工具,故正确答案为A。79.Hadoop生态系统中,负责资源管理和任务调度的核心组件是?
A.HDFS(分布式文件系统)
B.MapReduce(计算框架)
C.YARN(资源管理器)
D.Hive(数据仓库工具)【答案】:C
解析:本题考察Hadoop核心组件功能。HDFS是Hadoop的分布式文件系统,负责数据存储;MapReduce是分布式计算框架,处理并行任务;YARN是Hadoop2.x的核心组件,负责集群资源管理和任务调度;Hive是基于Hadoop的SQL查询工具。因此负责资源管理和调度的是YARN,答案为C。80.Hadoop分布式文件系统HDFS的主要作用是?
A.存储海量数据
B.处理海量数据
C.管理集群硬件资源
D.执行数据挖掘算法【答案】:A
解析:本题考察Hadoop生态系统核心组件的功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,核心作用是高效存储海量结构化/非结构化数据;B选项“处理海量数据”由MapReduce负责;C选项“资源管理”由YARN完成;D选项“数据挖掘”属于上层应用(如Hive/SparkMLlib),非HDFS的功能。因此正确答案为A。81.大数据处理流程中,对原始数据进行缺失值、噪声、重复数据处理的步骤是?
A.数据清洗
B.数据集成
C.数据转换
D.数据规约【答案】:A
解析:本题考察大数据数据预处理知识点。数据预处理是大数据处理的关键环节,其主要步骤包括:数据清洗(处理缺失、噪声、重复数据)、数据集成(合并多源数据)、数据转换(格式转换、标准化)、数据规约(减少数据规模)。题目中描述的“缺失值、噪声、重复数据处理”属于数据清洗的核心内容,因此正确答案为A。82.MongoDB属于哪种类型的数据库?
A.关系型数据库
B.文档型数据库
C.键值型数据库
D.列族型数据库【答案】:B
解析:本题考察NoSQL数据库类型知识点。关系型数据库(A)以表格结构存储数据(如MySQL);键值型数据库(C)以键值对存储(如Redis);列族型数据库(D)以列族为单位存储(如HBase);MongoDB是典型的文档型数据库(B),以类似JSON的文档格式存储数据,支持灵活的数据结构。因此正确答案为B。83.MapReduce的核心设计思想是?
A.分而治之
B.并行计算
C.分布式存储
D.实时处理【答案】:A
解析:本题考察MapReduce核心思想。MapReduce通过Map阶段拆分任务、Reduce阶段合并结果,实现“分而治之”的策略。B(并行计算)是实现手段而非核心思想,C(分布式存储)是HDFS的功能,D(实时处理)是流处理框架(如Flink)的特点,故正确答案为A。84.大数据的核心特征不包括以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Validity(有效性)【答案】:D
解析:本题考察大数据5V特征知识点。大数据的核心特征通常指Volume(数据量庞大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)、Value(数据价值密度低)。Validity(有效性)不属于5V特征,故正确答案为D。85.下列哪种工具主要用于将数据转化为交互式可视化图表?
A.Hive(数据仓库工具)
B.Flink(流处理框架)
C.ECharts(百度开源可视化库)
D.Kafka(消息队列)【答案】:C
解析:ECharts是百度开源的可视化库,支持折线图、柱状图等多种图表,通过JavaScript生成交互式可视化效果。Hive用于数据仓库查询,Flink是流处理框架,Kafka是消息队列,均非可视化工具,因此答案为C。86.Spark作为大数据处理框架,其相比MapReduce的主要优势不包括以下哪项?
A.基于内存计算,速度更快
B.支持DAG执行引擎,可优化任务依赖
C.仅支持批处理任务,不支持流处理
D.原生支持多种数据格式(如Parquet、JSON)【答案】:C
解析:本题考察Spark核心优势。A正确,Spark通过内存计算大幅提升处理速度;B正确,DAG执行引擎可优化任务调度和依赖关系;C错误,Spark不仅支持批处理(SparkCore),还支持流处理(SparkStreaming)和实时计算(StructuredStreaming);D正确,Spark内置对多种数据格式的读写支持。因此正确答案为C。87.大数据的5V特征中,通常被描述为“数据价值密度低”的是哪个特征?
A.Volume(数据量大)
B.Velocity(数据产生速度快)
C.Variety(数据类型多样)
D.Value(价值密度高)【答案】:D
解析:本题考察大数据5V特征知识点。大数据5V特征包括Volume(数据量大)、Velocity(数据产生和处理速度快)、Variety(数据类型多样)、Veracity(数据准确性)和Value(价值密度低)。选项A、B、C均为大数据的典型特征,而选项D中“价值密度高”与实际情况相反,大数据原始数据中价值密度通常较低,需通过处理挖掘价值,因此正确答案为D。88.以下哪个是Spark的核心特点?
A.基于内存计算,处理速度快
B.仅支持批处理任务
C.是HDFS的子模块
D.不支持流处理功能【答案】:A
解析:本题考察Spark核心特点知识点。Spark的核心特点是基于内存计算,相比MapReduce等框架处理速度更快(A正确);Spark既支持批处理(如SparkSQL)也支持流处理(如SparkStreaming)(B、D错误);Spark是独立的分布式计算框架,并非HDFS的子模块(C错误)。因此正确答案为A。89.Spark与MapReduce相比,其显著优势在于?
A.基于磁盘存储中间结果
B.内存计算,处理速度更快
C.仅支持批处理任务
D.不支持SQL查询【答案】:B
解析:Spark采用内存计算模式,将中间结果存储在内存中,避免了MapReduce多次读写磁盘的开销,因此处理速度更快;MapReduce是基于磁盘存储中间结果的批处理框架;Spark既支持批处理也支持流处理,且提供了类似SQL的DataFrameAPI和SparkSQL。因此正确答案为B。90.以下哪种数据库不属于关系型数据库(RDBMS)?
A.MySQL
B.MongoDB
C.Oracle
D.SQLServer【答案】:B
解析:本题考察关系型数据库与非关系型数据库的区别。MySQL、Oracle、SQLServer均为关系型数据库,基于表结构和SQL语言,支持事务和ACID特性。MongoDB是文档型NoSQL数据库,以JSON格式存储数据,无固定表结构,不支持SQL,属于非关系型数据库,因此正确答案为B。91.在大数据数据预处理阶段,以下哪种方法常用于处理缺失值?
A.直接删除记录
B.丢弃整个列
C.仅保留非缺失值
D.以上都是【答案】:D
解析:本题考察数据预处理中缺失值处理方法。处理缺失值的常见策略包括:直接删除记录(适用于缺失比例低且不影响整体数据分布的场景)、丢弃整个列(适用于某列缺失比例极高的情况)、通过均值/中位数填充或插值法补充(适用于数值型数据)等。选项A、B、C均为处理缺失值的有效方法,因此正确答案为D。92.SparkStreaming处理实时流数据的核心思想是?
A.实时流处理(无界流持续计算)
B.微批处理(将流分割为小批量处理)
C.分布式存储(依赖HDFS存储中间结果)
D.内存计算(基于内存的快速迭代)【答案】:B
解析:本题考察SparkStreaming核心原理知识点。SparkStreaming通过“微批处理”实现流数据处理:将无界流按时间窗口(如1秒)分割为有界小批,使用Spark批处理引擎计算。选项A是Flink的核心思想;选项C错误(分布式存储是HDFS职责,非SparkStreaming核心);选项D错误(内存计算是Spark整体特性,非Streaming特有)。93.Hive的查询语言是?
A.SQL
B.HQL
C.MapReduce
D.PigLatin【答案】:B
解析:本题考察Hive工具的核心知识点。Hive是基于Hadoop的数据仓库工具,其查询语言为HiveQL(HiveQueryLanguage,简称HQL),语法类似SQL但针对Hadoop分布式环境优化;SQL是通用结构化查询语言,Hive支持SQL语法但本质是HQL;MapReduce是Hadoop计算框架;PigLatin是另一种Hadoop脚本语言(Pig)的语法。因此正确答案为B。94.以下哪项不属于大数据的5V特征?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Value-added(增值)【答案】:D
解析:本题考察大数据的5V特征知识点。大数据的5V特征包括Volume(容量)、Velocity(速度)、Variety(多样性)、Value(价值)和Veracity(真实性),而选项D的“Value-added(增值)”并非5V特征之一,因此正确答案为D。95.在ETL(Extract,Transform,Load)数据集成流程中,数据转换(Transform)操作的位置是?
A.Extract(抽取)之后,Load(加载)之前
B.Load(加载)之后,Extract(抽取)之前
C.Extract(抽取)之前,Load(加载)之后
D.Load(加载)之后,Transform(转换)之后【答案】:A
解析:本题考察ETL流程的逻辑顺序。ETL的标准流程是:先从源系统抽取数据(Extract),然后对数据进行清洗、转换、整合(Transform),最后加载到目标数据仓库或数据集市(Load)。B、C、D均不符合ETL的执行顺序,其中ELT(Extract,Load,Transform)是先抽取后加载再转换,但题目明确为ETL,因此正确答案为A。96.在Hive中,用于创建数据表的SQL语句关键字是?
A.CREATETABLE
B.INSERTTABLE
C.SELECTTABLE
D.UPDATETABLE【答案】:A
解析:本题考察Hive基础语法知识点。HiveSQL中,CREATETABLE用于定义并创建新数据表;INSERTTABLE需结合SELECT使用(如INSERTINTOTABLE...SELECT...),单独INSERTTABLE语法不存在;SELECTTABLE语法错误(应为SELECT查询);UPDATETABLE在Hive中对内部表更新操作受限且非建表关键字。因此正确答案为A。97.在Hadoop生态系统中,负责分布式文件存储的核心组件是?
A.HDFS
B.MapReduce
C.YARN
D.ZooKeeper【答案】:A
解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责在多台服务器上存储海量数据;MapReduce是分布式计算框架,YARN是资源管理器,ZooKeeper是分布式协调服务。因此负责分布式文件存储的是HDFS,正确答案为A。98.大数据的5V特性中,不包括以下哪一项?
A.Volume(容量)
B.Velocity(速度)
C.Variety(多样性)
D.Validity(有效性)【答案】:D
解析:本题考察大数据的核心特性(5V)知识点。大数据的5V特性为:Volume(数据量巨大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)、Value(数据价值)。选项D中的Validity(有效性)不属于5V特性,因此正确答案为D。99.大数据的5V特征中,不包含以下哪一项?
A.Volume(数据容量)
B.Velocity(处理速度)
C.Variety(数据多样性)
D.Viscosity(数据黏度)【答案】:D
解析:本题考察大数据的5V特征知识点。大数据的5V特征是:Volume(数据量大)、Velocity(处理速度快)、Variety(数据类型多样)、Veracity(数据真实性)、Value(数据价值)。选项D的“Viscosity(黏度)”并非大数据的5V特征之一,因此正确答案为D。100.下列关于Spark的描述,正确的是?
A.基于磁盘存储,性能远低于MapReduce
B.仅支持批处理计算,不支持流处理
C.采用内存计算模式,速度快于MapReduce
D.是Hadoop2.x版本的内置子项目【答案】:C
解析:本题考察Spark技术特点。Spark是基于内存计算的快速通用计算引擎,采用内存存储中间结果,性能远超基于磁盘的MapReduce。选项A错误(Spark基于内存,非磁盘存储);选项B错误(Spark支持批处理、流处理、交互式查询等);选项D错误(Spark是独立开源框架,非Hadoop子项目)。101.在大数据数据采集中,常用于日志数据实时采集的工具是?
A.Kafka(消息队列)
B.Flume(日志收集框架)
C.Sqoop(数据同步工具)
D.Logstash(日志处理工具)【答案】:B
解析:本题考察数据采集工具的应用场景。Flume是Cloudera开发的分布式日志收集框架,专为日志数据采集设计,支持高可用和可扩展;A选项Kafka是高吞吐量消息队列,用于解耦系统间数据传输;C选项Sqoop用于关系型数据库与Hadoop之间的数据批量同步;D选项Logstash是ELK栈的日志处理工具(需配合Elasticsearch),但Flume更专注于日志采集场景。因此正确答案为B。102.以下哪种系统主要用于数据分析和决策支持?
A.OLTP系统
B.OLAP系统
C.关系型数据库
D.文件系统【答案】:B
解析:本题考察数据处理系统类型知识点。OLTP(联机事务处理)主要用于日常业务操作(如订单处理、账户管理),强调实时性和事务一致性;OLAP(联机分析处理)专注于多维度数据分析和决策支持,支持复杂查询和历史数据挖掘。关系型数据库和文件系统是数据存储工具,并非专门的分析系统。因此,用于数据分析的是OLAP系统,正确答案为B。103.以下哪项不属于大数据的5V特征?
A.Volume
B.Velocity
C.Validity
D.Veracity【答案】:C
解析:本题考察大数据的5V特征知识点。大数据的5V特征包括:Volume(数据规模)、Velocity(处理速度)、Variety(数据多样性)、Veracity(数据真实性)、Value(数据价值)。Validity(有效性)不属于5V特征,因此错误选项为C。104.大数据的核心特征不包括以下哪一项?
A.Volume(数据容量大)
B.Variety(数据类型多样)
C.Velocity(数据产生速度快)
D.Value(价值密度高)【答案】:D
解析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 复发性流产的诊断与治疗
- 2026年上半年教师资格证中学数学综合素质真题单套试卷
- 高考题海-语文模拟试题
- (2025年)事业单位公共基础知识考前必做题及答案解析
- (2025年)六安市霍邱县公安辅警招聘知识考试题库及答案
- 绥化市庆安县2025-2026学年第二学期五年级语文期末考试卷(部编版含答案)
- 锡林郭勒盟正镶白旗2025-2026学年第二学期二年级语文第八单元测试卷部编版含答案
- 铁岭市开原市2025-2026学年第二学期五年级语文第七单元测试卷(部编版含答案)
- 呼伦贝尔市根河市2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 大理白族自治州漾濞彝族自治县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 中考英语阅读理解练习与重点词汇汇编
- 《古蜀文明保护传承工程实施方案》
- 建筑垃圾资源化监理实施细则
- 2026年太原市高三下学期一模语文试卷和答案
- 2025-2030中国导电塑料市场投资风险及应用趋势预测研究报告
- 中国成人体重管理指南2025解读
- 2025年宁波能源实业有限公司招聘备考题库及完整答案详解一套
- 行政事业单位会计监督制度
- 宁波水务面试常见面试技巧解析
- 钻井液与钻井的关系
- 第八章 公关礼仪文体的写作
评论
0/150
提交评论