(2025年)大数据基础知识测试题附答案

上传人：1*** IP属地：广西上传时间：2026-04-07 格式：DOCX 页数：16 大小：25.62KB 积分：12 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(2025年)大数据基础知识测试题附答案一、单项选择题（每题2分，共40分）1.下列哪项不属于大数据“5V”特征？A.Volume（大量）B.Variety（多样）C.Velocity（高速）D.Value（价值）E.Veracity（真实）F.Visualization（可视化）答案：F2.以下哪项是Hadoop生态中用于分布式存储的核心组件？A.MapReduceB.HiveC.HDFSD.Spark答案：C3.关于Spark的RDD（弹性分布式数据集），下列描述错误的是？A.RDD是不可变的分布式对象集合B.RDD支持基于内存的计算C.RDD通过血统（Lineage）实现容错D.RDD默认存储在磁盘中答案：D4.流处理框架ApacheFlink的核心优势是？A.批处理性能优于SparkB.支持毫秒级低延迟实时计算C.仅支持事件时间窗口D.依赖Hadoop集群运行答案：B5.结构化数据与非结构化数据的主要区别在于？A.存储介质不同（磁盘/内存）B.是否有预定义的模式（Schema）C.数据量大小（GB/TB）D.处理工具是否开源答案：B6.以下哪个工具通常用于大数据场景下的日志收集？A.KafkaB.FlumeC.HBaseD.MLlib答案：B7.数据清洗的主要目的是？A.减少数据存储量B.消除数据中的错误、缺失或冗余C.提升数据可视化效果D.简化数据建模流程答案：B8.关于Hive的描述，正确的是？A.用于实时数据处理B.基于HDFS存储，通过SQL接口分析数据C.支持事务和行级更新D.底层计算引擎仅支持MapReduce答案：B9.以下哪项是Kafka的核心功能？A.分布式文件存储B.实时流数据订阅与发布C.关系型数据库查询D.机器学习模型训练答案：B10.数据倾斜（DataSkew）通常会导致？A.数据存储成本增加B.部分任务执行时间过长甚至失败C.数据可视化图表失真D.数据血缘分析困难答案：B11.以下哪种技术属于大数据分析中的预测分析？A.用户行为聚类B.销售趋势预测C.日志异常检测D.数据去重答案：B12.关于数据湖（DataLake）的描述，错误的是？A.存储原始数据（RawData）和处理后数据B.支持结构化、半结构化、非结构化数据C.通常采用关系型数据库存储D.适用于多场景分析（BI、AI、数据科学）答案：C13.以下哪个工具是Spark的机器学习库？A.GraphXB.MLlibC.SparkSQLD.StructuredStreaming答案：B14.实时数据处理与批量数据处理的主要区别在于？A.数据来源不同（传感器/数据库）B.处理延迟要求（毫秒级/小时级）C.存储介质不同（内存/磁盘）D.数据量大小（小数据/大数据）答案：B15.隐私计算（Privacy-PreservingComputation）的核心目标是？A.提升数据加密强度B.在不共享原始数据的前提下完成联合计算C.减少数据存储成本D.加速数据传输速度答案：B16.以下哪项是HBase的典型应用场景？A.海量日志的离线分析B.实时查询高并发的短文本数据（如用户信息）C.大规模图数据的遍历D.机器学习模型的分布式训练答案：B17.关于MapReduce计算模型，下列描述正确的是？A.适用于低延迟的实时计算B.分为Map和Reduce两个阶段，中间结果通过Shuffle传递C.仅支持Java语言开发D.计算过程中数据全部存储在内存中答案：B18.数据可视化设计中，“避免使用3D图表”的主要原因是？A.3D图表技术实现复杂B.3D效果可能扭曲数据真实比例C.用户更习惯2D图表D.3D图表不支持大数据量展示答案：B19.联邦学习（FederatedLearning）的主要应用场景是？A.跨机构数据联合建模，同时保护数据隐私B.提升单一机构内的模型训练速度C.简化数据清洗流程D.优化数据存储架构答案：A20.以下哪项是边缘计算（EdgeComputing）与大数据结合的典型场景？A.数据中心内的海量数据存储B.智能设备本地实时处理传感器数据，减少云端传输C.跨地域数据中心的负载均衡D.大数据平台的容灾备份答案：B二、填空题（每题2分，共30分）1.大数据的核心技术包括分布式存储、__________、数据管理与分析、数据可视化等。答案：分布式计算2.Hadoop生态中，__________是一个分布式资源管理框架，负责集群的资源调度和任务监控。答案：YARN3.Spark的核心抽象是RDD，其特性包括不可变性、__________、容错性（通过血统机制）。答案：分区性（或“可分区”）4.数据湖通常采用__________（如Parquet、ORC）存储格式，支持高效查询和分析。答案：列式5.流处理框架Flink中，时间类型分为事件时间（EventTime）、摄入时间（IngestionTime）和__________。答案：处理时间（ProcessingTime）6.Kafka的消息存储单元是__________，每个单元可以划分为多个分区以支持分布式。答案：主题（Topic）7.数据清洗的常见操作包括缺失值处理、__________、异常值检测、格式标准化等。答案：重复值删除（或“去重”）8.HBase基于__________模型存储数据，支持行键（RowKey）的快速随机读写。答案：列族（ColumnFamily）9.实时计算中，__________窗口（TumblingWindow）是固定大小、不重叠的时间窗口。答案：滚动10.隐私计算的典型技术包括安全多方计算（MPC）、__________（如Google的差分隐私库）和联邦学习等。答案：差分隐私11.数据血缘（DataLineage）用于记录数据从产生到最终使用的__________，帮助追溯数据来源和处理过程。答案：全生命周期路径12.机器学习中，__________（如SparkMLlib的Pipeline）用于封装数据预处理、特征工程、模型训练等步骤，提升可复用性。答案：机器学习流水线（或“MLPipeline”）13.数据仓库（DataWarehouse）通常面向__________（OLAP），支持复杂查询和决策分析。答案：联机分析处理14.分布式系统中，__________（如ZooKeeper）用于解决集群协调问题（如主节点选举、分布式锁）。答案：协调服务15.联邦学习按数据分布差异可分为横向联邦（样本特征相同）、纵向联邦（样本重叠少但特征不同）和__________（样本和特征均不同）。答案：联邦迁移学习三、简答题（每题5分，共30分）1.简述HDFS（Hadoop分布式文件系统）的设计特点及适用场景。答案：HDFS设计特点：①适合存储大文件（GB级以上）；②采用主从架构（NameNode管理元数据，DataNode存储数据块）；③数据块冗余存储（默认3副本）保障容错；④支持“一次写入、多次读取”的流式访问模式。适用场景：海量日志存储、离线批处理（如MapReduce任务输入）、数据湖的底层存储。2.对比MapReduce与Spark的计算模型差异。答案：①计算方式：MapReduce基于磁盘（中间结果写入磁盘），Spark基于内存（RDD可缓存到内存）；②延迟：MapReduce适合小时级批处理，Spark适合秒级或亚秒级计算（如迭代计算、交互式分析）；③编程模型：MapReduce仅支持Map和Reduce两个阶段，Spark支持RDD的多种转换（Transformations）和动作（Actions），灵活性更高；④适用场景：MapReduce适合离线大规模数据处理，Spark适合需要多次迭代的任务（如机器学习、图计算）。3.什么是数据倾斜？简述其常见解决方案。答案：数据倾斜指分布式计算中，部分任务处理的数据量远大于其他任务，导致任务执行时间过长甚至失败。常见解决方案：①预处理阶段：对倾斜键添加随机前缀，分散数据；②计算阶段：使用Spark的repartition或Hive的skewjoin参数优化；③存储阶段：调整分区策略（如按哈希分区替代范围分区）；④业务层面：分析倾斜原因（如热点数据），优化数据提供逻辑（如拆分热点键）。4.简述流处理（StreamProcessing）与批处理（BatchProcessing）的核心区别。答案：①数据处理模式：流处理处理实时到达的无界数据流（数据持续产生），批处理处理有界的历史数据（数据已完全收集）；②延迟：流处理支持毫秒级到秒级延迟，批处理通常为分钟级到小时级；③资源使用：流处理需要持续占用计算资源，批处理任务完成后释放资源；④典型场景：流处理用于实时监控、实时推荐，批处理用于离线报表、历史数据分析。5.数据湖与数据仓库的主要区别有哪些？答案：①数据类型：数据湖存储结构化、半结构化、非结构化原始数据（如日志、图片），数据仓库存储结构化的清洗后数据（如关系型数据库表）；②模式（Schema）：数据湖采用“读时模式”（SchemaonRead），数据仓库采用“写时模式”（SchemaonWrite）；③目标用户：数据湖服务数据科学家、AI工程师（支持灵活分析），数据仓库服务业务分析师（支持固定报表）；④存储成本：数据湖存储原始数据，成本更低；数据仓库需ETL处理，存储成本较高。6.列举3种大数据场景下的隐私保护技术，并简要说明其应用。答案：①差分隐私（DifferentialPrivacy）：在数据中添加可控噪声，使得单个数据的修改不影响整体分析结果（如用户行为统计）；②联邦学习（FederatedLearning）：各参与方在本地训练模型，仅上传模型参数（如银行联合建模，不共享用户交易数据）；③同态加密（HomomorphicEncryption）：在加密数据上直接进行计算（如医疗数据联合分析，原始数据加密存储）。四、应用题（共20分）某电商平台需构建用户行为分析系统，要求实时监控用户点击、加购、下单等行为，并支持离线分析用户画像（如年龄、地域、偏好）。请设计大数据架构方案，需包含以下模块：数据采集、数据存储、实时处理、离线处理、分析应用。答案：1.数据采集模块：前端行为数据（H5/APP）通过埋点工具（如GoogleAnalytics、神策）收集，经SDK发送至消息队列Kafka；业务系统数据（如订单、用户信息）通过FlinkCDC（ChangeDataCapture）实时捕获数据库变更，同步至Kafka；日志数据（如服务器日志）通过Flume收集并传输至Kafka。2.数据存储模块：实时数据：Kafka作为缓冲区，保留7天原始数据流；实时计算结果：写入HBase（支持高并发实时查询）或Redis（缓存热点数据，如实时GMV）；离线数据：Kafka数据通过SparkStreaming写入HDFS（存储原始数据）和数据湖（如AWSS3，存储Parquet格式）；结构化清洗数据：同步至数据仓库（如Hive）或ClickHouse（支持OLAP查询）。3.实时处理模块：使用Flink处理Kafka数据流，实现实时指标计算（如5分钟内的点击量、转化率）；定义滑动窗口（SlidingWindow）统计用户行为趋势，输出至HBase供前端监控展示；结合用户画像标签（离线处理结果），实时提供推荐策略（如“加购未下单用户推送优惠券”）。4.离线处理模块：每日凌晨通过Spark批处理清洗HDFS数据（去重、补全缺失值），提供用户行为宽表；使用M

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(2025年)大数据基础知识测试题附答案

文档简介

温馨提示

最新文档

评论

(2025年)大数据基础知识测试题附答案

文档简介

温馨提示

最新文档

评论

相关文档