(2025年)大数据复习题含答案

上传人：1*** IP属地：未知上传时间：2026-04-09 格式：DOCX 页数：16 大小：26.73KB 积分：12 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(2025年)大数据复习题含答案一、单项选择题（每题2分，共20分）1.以下哪项不属于大数据的“5V”特性？A.Volume（大量）B.Velocity（高速）C.Variety（多样）D.Validity（有效）答案：D解析：大数据的5V特性为Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），不包含Validity（有效）。2.Hadoop生态中，负责资源管理和任务调度的组件是？A.HDFSB.YARNC.MapReduceD.HBase答案：B解析：YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责集群资源的统一管理和任务调度；HDFS是分布式文件系统，MapReduce是计算框架，HBase是分布式数据库。3.Spark中，RDD（弹性分布式数据集）的核心特性不包括？A.不可变性B.分区性C.惰性计算D.实时性答案：D解析：RDD的核心特性包括不可变性（只能通过转换操作提供新RDD）、分区性（数据分布在集群多节点）、惰性计算（转换操作不立即执行），实时性是流处理框架的特性，非RDD固有属性。4.以下哪种数据库属于NoSQL中的键值存储类型？A.HBaseB.CassandraC.RedisD.Neo4j答案：C解析：Redis是典型的键值存储数据库；HBase是列式存储，Cassandra是宽列存储，Neo4j是图数据库。5.数据湖（DataLake）与数据仓库（DataWarehouse）的主要区别在于？A.数据湖存储结构化数据，数据仓库存储非结构化数据B.数据湖在存储时不定义模式（Schema-on-Read），数据仓库在存储前定义模式（Schema-on-Write）C.数据湖仅支持批处理，数据仓库仅支持实时处理D.数据湖用于OLTP，数据仓库用于OLAP答案：B解析：数据湖采用“读时模式”（Schema-on-Read），存储原始数据（结构化、半结构化、非结构化），在分析时定义模式；数据仓库采用“写时模式”（Schema-on-Write），存储前需清洗、转换为结构化数据。6.流式处理框架Flink的时间语义中，“EventTime”指的是？A.数据被处理的时间B.数据进入系统的时间C.数据实际发生的时间D.窗口触发计算的时间答案：C解析：EventTime是事件实际发生的时间（如用户点击行为的时间戳），IngestionTime是数据进入系统的时间，ProcessingTime是数据被处理的时间。7.以下哪项不是数据清洗的常见操作？A.缺失值填充B.异常值检测C.数据去重D.数据可视化答案：D解析：数据清洗包括处理缺失值、异常值、重复值等，数据可视化属于数据分析阶段的操作。8.在HDFS中，默认的块（Block）大小是？A.32MBB.64MBC.128MBD.256MB答案：C解析：HDFS默认块大小为128MB（Hadoop2.x及以上版本），早期版本为64MB。9.以下哪种技术用于解决大数据的实时查询需求？A.HiveB.ImpalaC.PigD.Sqoop答案：B解析：Impala是基于Hadoop的实时查询引擎，支持低延迟的SQL查询；Hive是批处理数据仓库工具，Pig是数据流处理语言，Sqoop用于关系型数据库与Hadoop间的数据迁移。10.机器学习中，用于处理高维稀疏数据的常用算法是？A.K-meansB.逻辑回归C.支持向量机（SVM）D.朴素贝叶斯答案：D解析：朴素贝叶斯算法对高维稀疏数据（如文本）表现良好，计算效率高；K-means对高维数据聚类效果较差，SVM在高维数据中易过拟合。二、简答题（每题6分，共48分）1.简述HDFS的设计原理及其适用场景。答案：HDFS（Hadoop分布式文件系统）设计原理包括：（1）分块存储：将大文件切分为固定大小的块（默认128MB），分布在集群多节点；（2）主从架构：NameNode管理元数据（文件目录、块位置），DataNode存储实际数据块；（3）副本机制：每个数据块默认存储3个副本，保证容错性；（4）流式数据访问：适合一次写入、多次读取的场景，不支持随机修改。适用场景：海量数据的存储与批处理（如日志分析、数据归档），适合大文件（GB级以上），不适合小文件或需要频繁修改的场景。2.说明MapReduce的执行流程，并解释“Shuffle”阶段的作用。答案：MapReduce执行流程分为：（1）输入分片（InputSplit）：将输入数据切分为多个分片，每个分片对应一个Map任务；（2）Map阶段：每个Map任务处理一个分片，输出键值对（Key-Value）；（3）Shuffle阶段：将Map输出的键值对按Key分组，传输到对应的Reduce节点；（4）Reduce阶段：对相同Key的Value进行聚合计算，输出最终结果。Shuffle阶段的作用是跨节点传输并分组数据，确保相同Key的所有Value被同一个Reduce任务处理，是MapReduce的核心但高开销阶段。3.对比SparkRDD与HadoopMapReduce的优缺点。答案：SparkRDD的优点：（1）基于内存计算，支持迭代计算（如机器学习）和交互式查询，速度比MapReduce快10-100倍；（2）RDD的惰性计算和容错机制（通过血统Lineage重建数据）减少冗余计算；（3）支持多种操作（转换、行动），编程更灵活。缺点：内存依赖高，大规模数据超出内存时需落盘，性能下降；适合实时分析，对极批处理（超大规模离线计算）优势不明显。MapReduce的优点：（1）基于磁盘，适合超大数据集的离线处理；（2）架构成熟，容错性强；（3）对硬件要求低（普通PC即可集群）。缺点：每次计算需读取和写入磁盘，延迟高；仅支持Map和Reduce两种操作，复杂任务需多阶段作业。4.列举三种常见的流处理框架，并说明其适用场景。答案：（1）ApacheFlink：支持事件时间、精确一次语义，适合需要高可靠性和复杂事件处理（CEP）的场景（如金融实时风控）；（2）ApacheSparkStreaming：基于微批处理（将流拆分为小批次），适合对延迟要求不高（秒级）、需与Spark生态（MLlib、SQL）集成的场景（如电商实时销量统计）；（3）ApacheKafkaStreams：轻量级流处理库，与Kafka无缝集成，适合构建嵌入式流处理应用（如实时日志过滤）。5.数据仓库的分层设计通常包括哪些层？各层的作用是什么？答案：典型分层为：（1）ODS层（操作数据层）：存储原始数据（如数据库日志、API接口数据），保持数据原貌，用于数据归档；（2）DWD层（明细数据层）：对ODS数据清洗（去重、补全）、标准化（统一时间格式），提供原子明细数据，支持后续加工；（3）DWS层（汇总数据层）：按主题（如用户、订单）汇总明细数据（如日活用户、月销售额），减少查询时的计算量；（4）ADS层（应用数据层）：为具体业务（如报表、推荐）提供直接可用的结果数据（如实时看板指标）。6.解释“特征工程”在大数据分析中的作用，并列举三种常用的特征处理方法。答案：特征工程是从原始数据中提取有价值特征的过程，直接影响模型性能（“数据和特征决定了机器学习的上限”）。作用包括：（1）降低数据维度（减少计算开销）；（2）增强特征与目标的相关性（提升模型准确率）；（3）消除数据噪声（避免过拟合）。常用方法：（1）特征缩放（标准化/归一化，如将年龄从0-100缩放到0-1）；（2）特征分箱（将连续值离散化，如将收入分为“低/中/高”）；（3）独热编码（One-HotEncoding，将类别特征转换为二进制向量，如性别“男/女”转为[1,0]/[0,1]）。7.简述NoSQL数据库的四大类型及其典型应用场景。答案：（1）键值存储（Key-Value）：如Redis、DynamoDB，以键值对存储，读写速度极快，适合缓存、会话管理；（2）列式存储（Columnar）：如HBase、Cassandra，按列存储，适合海量数据的随机读/写，如日志存储、时间序列数据；（3）文档存储（Document）：如MongoDB、CouchDB，存储半结构化文档（JSON/BSON），适合内容管理、用户资料存储；（4）图存储（Graph）：如Neo4j、JanusGraph，存储节点和边关系，适合社交网络分析、推荐系统。8.说明大数据隐私保护的主要挑战及常用技术。答案：挑战：（1）数据量大且分散，难以全面监控；（2）数据关联分析可能泄露隐私（如通过多个匿名数据集交叉关联识别个体）；（3）实时处理需求与隐私保护的平衡（如实时风控需快速处理数据，但需避免敏感信息暴露）。常用技术：（1）匿名化（如K-匿名、L-多样性，确保至少K个个体具有相同标识属性）；（2）差分隐私（在数据中添加可控噪声，保证单个记录的修改不影响整体统计结果）；（3）联邦学习（在不传输原始数据的前提下，通过模型参数交换实现联合训练，如医疗数据跨机构共享）。三、计算题（每题8分，共24分）1.某企业需存储5PB的日志数据，采用HDFS存储（块大小128MB，副本数3），集群节点单节点存储容量为16TB（可用容量按90%计算）。问：至少需要多少台存储节点？（1PB=1024TB，1TB=1024GB，1GB=1024MB）答案：（1）总存储需求（考虑副本）：5PB×3=15PB=15×1024TB=15360TB（2）单节点可用容量：16TB×90%=14.4TB（3）需要节点数：15360TB÷14.4TB≈1066.67，向上取整为1067台。2.某电商平台的用户行为日志文件大小为200GB，采用MapReduce处理，输入分片（InputSplit）大小为128MB。假设每个Map任务需1GB内存，集群中每台节点可同时运行4个Map任务，问：需多少台节点同时运行才能在1个Map阶段完成任务？答案：（1）输入分片数（即Map任务数）：200GB×1024MB/GB÷128MB=1600个（2）每台节点可运行Map任务数：4个（3）需要节点数：1600÷4=400台。3.某社交平台的用户动态流速率为10万条/秒，每条数据大小为1KB。采用Kafka存储，主题（Topic）设置为3个分区（Partition），每个分区的副本数为2。假设Kafka集群的磁盘写入速率为50MB/秒/节点，问：至少需要多少台节点存储该主题？答案：（1）总数据写入速率：10万条/秒×1KB/条=100,000KB/秒=100MB/秒（1KB=0.001MB）（2）考虑副本后总写入量：100MB/秒×2（副本数）=200MB/秒（3）每个分区的写入负载：200MB/秒÷3≈66.67MB/秒/分区（注：Kafka分区数据分布在不同节点，副本分布在不同节点）（4）单节点最大写入速率：50MB/秒（5）需要节点数：200MB/秒÷50MB/秒=4台（需确保每个分区的副本分布在不同节点，实际需至少3×2=6个节点位置，但根据写入速率计算，4台节点可满足总写入需求）。四、应用题（每题9分，共18分）1.某电商平台需分析用户购买行为，目标包括：（1）统计各品类的日销售额；（2）识别高价值用户（近30天消费金额前10%）；（3）预测用户下一次购买时间。请设计大数据处理流程，说明各阶段的技术选型及原因。答案：处理流程及技术选型：（1）数据采集：用户行为数据（点击、下单）通过Flume（实时日志采集）或Sqoop（离线数据库同步）采集，交易数据通过Kafka（高吞吐量消息队列）实时传输，确保数据不丢失。（2）数据存储：原始数据存储于HDFS（海量存储）；结构化交易数据存入Hive（数据仓库，支持SQL分析）；实时行为数据存入HBase（列式存储，支持快速随机读）。（3）数据处理：日销售额统计：使用HiveSQL（批处理）按日期、品类聚合，或SparkSQL（实时性要求高时）处理Kafka流数据，输出到MySQL（业务库）供报表使用。高价值用户识别：通过SparkMLlib训练聚类模型（如K-means），按近30天消费金额分群，提取前10%用户标签，存储到Redis（缓存）供推荐系统实时调用。购买时间预测：使用Flink（流处理）结合历史行为数据（如浏览频率、加购时间），训练XGBoost模型（处理结构化数据预测任务），输出预测结果到HBase，支持个性化推送。2.某智慧城市需构建

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(2025年)大数据复习题含答案

文档简介

温馨提示

最新文档

评论

(2025年)大数据复习题含答案

文档简介

温馨提示

最新文档

评论

相关文档