2025年大数据练习试题及答案

上传人：子*** IP属地：四川上传时间：2026-01-20 格式：DOCX 页数：14 大小：28.24KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据练习试题及答案1.单选题（每题2分，共20分）1.1在HDFS中，默认一个数据块（Block）的大小为A.32MB B.64MB C.128MB D.256MB答案：C1.2下列哪一项不是SparkRDD的Transformation操作A.map B.filter C.reduceByKey D.collect答案：D1.3在Kafka2.8版本之后，移除对哪一项外部依赖A.Redis B.HBase C.ZooKeeper D.Hive答案：C1.4若某列满足“每个值出现频率低于5%”，则该列最适合的编码方式为A.OneHot B.Label C.Target D.Hash答案：C1.5Flink的Checkpoint机制默认使用的快照算法是A.ChandyLamport B.TwoPhaseCommit C.Paxos D.Raft答案：A1.6在Hive中，执行“MSCKREPAIRTABLE”命令的作用是A.更新元数据与HDFS目录不一致的分区信息B.重建表统计信息C.合并小文件D.刷新缓存答案：A1.7下列关于HBaseRegion分裂描述正确的是A.分裂后原Region立即被删除B.分裂触发条件仅与Region大小有关C.分裂由HMaster主动发起D.分裂后子Region的RowKey范围互不重叠答案：D1.8在DataFrame中，若列“sales”类型为string，需转换为double，应使用A.cast("double") B.toDouble() C.convert("double") D.asDouble()答案：A1.9使用MapReduce默认HashPartitioner时，Reducer数量由哪项参数决定A.mapreduce.job.maps B.mapreduce.job.reducesC.mapreduce.task.io.sort.factor D.dfs.block.size答案：B1.10在ClickHouse中，最适合做高并发点查的表引擎是A.MergeTree B.SummingMergeTree C.Memory D.Log答案：C2.多选题（每题3分，共15分，多选少选均不得分）2.1下列属于Flink窗口函数的有A.reduce B.aggregate C.process D.apply答案：ABCD2.2关于数据倾斜，下列说法正确的有A.可通过加盐方式打散KeyB.必然导致OOMC.可通过两阶段聚合缓解D.在Hive中可用distributebyrand()答案：ACD2.3以下哪些组件支持SQL2011标准中的“OVER(PARTITIONBY…ORDERBY…)”窗口语法A.SparkSQL B.FlinkSQL C.Hive3.x D.Presto答案：ABCD2.4在Kafka中，Producer保证幂等性需要满足的条件有A.enable.idempotence=trueB.retries>0C.acks=allD.max.in.flight.requests.per.connection≤5答案：ABCD2.5下列属于列式存储格式的有A.ORC B.Parquet C.Avro D.Arrow答案：ABD3.填空题（每空2分，共20分）3.1在Spark中，每个Task处理的数据分区称为________。答案：Partition3.2HDFS的NameNode元数据持久化文件名为________。答案：fsimage3.3若Flink作业并行度为8，Slot总数为16，则最大可并行运行的SubTask数为________。答案：1283.4在Hive中，设置动态分区开关的参数为________。答案：hive.exec.dynamic.partition3.5Kafka的Offset默认存储在Topic________中。答案：__consumer_offsets3.6ClickHouse中，用于去重合并的表引擎为________。答案：ReplacingMergeTree3.7在Pythonpandas里，将DataFrame写入Parquet需要调用的方法为________。答案：to_parquet3.8若某ORC文件Stripe大小为256MB，则读取该Stripe最少需要________次磁盘IO（不考虑缓存）。答案：13.9在YARN中，负责资源隔离的底层技术为________。答案：cgroups3.10使用MapReduce实现二次排序需自定义________类。答案：GroupingComparator4.判断题（每题1分，共10分，正确打“√”，错误打“×”）4.1Spark的Driver必须与NameNode运行在同一个节点。答案：×4.2HBase中一个列族对应一个MemStore。答案：√4.3Flink的Checkpoint屏障（Barrier）是自上而下注入的。答案：√4.4Kafka的Leader副本一定也是PreferredLeader。答案：×4.5Parquet文件支持按列进行压缩。答案：√4.6HiveonTez无法使用UDF。答案：×4.7在YARN的Capacity调度器中，队列间资源抢占默认开启。答案：×4.8ClickHouse的MaterializedView写入时同步触发。答案：√4.9ORC文件的Footer中保存了每个Stripe的偏移量。答案：√4.10SparkSQL的catalyst优化器能自动消除笛卡尔积。答案：×5.简答题（封闭型，每题6分，共18分）5.1描述MapReduce中Shuffle阶段“溢写”（Spill）的触发条件及优化手段。答案：当Map端环形缓冲区使用率超过mapreduce.map.sort.spill.percent（默认0.8）或缓冲区剩余空间不足时触发溢写；优化手段包括增大mapreduce.task.io.sort.mb、减少分区数、启用Combiner、调整压缩算法等。5.2列举Flink实现端到端exactlyonce语义的三要素，并简要说明。答案：1.Source可重放，如Kafka支持指定Offset；2.Checkpoint机制，定期生成分布式快照；3.Sink支持两阶段提交，如KafkaProducer事务。5.3说明HBaseRegionServer中BlockCache的两种实现及其适用场景。答案：LRUBlockCache基于JVM堆，适合随机读密集；BucketCache基于堆外内存或SSD，适合大集群、堆资源紧张场景。6.简答题（开放型，每题8分，共16分）6.1某电商公司每日新增500GB用户行为日志，需实时计算分小时GMV，并保证7×24小时服务。请给出技术选型与架构理由，要求兼顾成本与扩展性。答案：日志采集使用Kafka，分区按小时切分；流计算采用Flink，利用事件时间窗口计算GMV，Checkpoint到HDFS，状态后端用RocksDB；维度表存储于Redis，使用异步IO提升吞吐；资源调度使用YARN，高峰动态扩容，低峰缩容；下游结果写入ClickHouse，按小时分区，提供毫秒级查询；整体采用分层部署，开发、测试、生产隔离，成本通过Spot实例+混部降低30%。6.2随着业务扩张，Hive表分区数量达到30万，导致元数据库MySQL压力激增，查询变慢。请提出不少于三种优化方案并比较优劣。答案：1.合并小分区，按天转按月，减少元数据行数，简单有效但丧失细粒度；2.使用Hive3.x的CatalogFederation，将元数据分散到多个MySQL实例，扩展性好但需升级；3.迁移元数据至TiDB，利用分布式特性提升并发，改造成本中等；4.启用ObjectStore模式，将分区信息序列化到HDFS文件，减少MySQL行数，查询需二次解析，适合冷数据；5.采用AWSGlueCatalog托管，免运维但产生云费用。综合评估，方案1+2组合可在4周内完成，性能提升70%，成本增加10%，为最优路径。7.应用题（计算类，11分）7.1某Spark作业读取1TBORC文件（压缩率3:1），文件平均Stripe大小64MB，字段共30列，其中10列为谓词列。集群单节点磁盘顺序读带宽200MB/s，网络带宽10Gb/s，节点数50。若采用列裁剪与下推后仅读取5列，且谓词过滤率90%，求理论最短耗时。答案：原始数据量1TB，压缩后333GB；列裁剪后读取5/30，数据量55.5GB；过滤率90%，实际读取5.55GB；单节点磁盘需读5.55GB/50=113MB；磁盘耗时113MB÷200MB/s=0.565s；网络传输113MB÷1.25GB/s≈0.09s；取瓶颈0.565s，理论最短耗时约0.57秒。8.应用题（分析类，12分）8.1给定用户订单表order(user_idSTRING,order_idSTRING,amtDOUBLE,tsTIMESTAMP)，数据量20亿行，存储于Parquet，文件大小800GB。现需统计“过去30天消费总额前1000名用户”，要求每次查询在3秒内返回。请写出完整技术路径并估算资源。答案：步骤1：按天预处理，使用SparkSQL每日滚动窗口计算user_id当天sum(amt)，写入汇总表dws_user_day，分区字段dt，数据量约2亿行/天，Parquet压缩后2GB；步骤2：将30天汇总表加载至ClickHouse，使用SummingMergeTree，主键user_id，列amt为汇总值；步骤3：ClickHouse集群部署6分片×2副本，每节点64GB内存、16核；步骤4：查询SQL：SELECTuser_id,sum(amt)totalFROMdws_user_dayWHEREdtBETWEENtoday()30ANDtoday()GROUPBYuser_idORDERBYtotalDESCLIMIT1000SETTINGSmax_threads=32；步骤5：经测试，6节点并发扫描，耗时1.8秒，满足SLA；存储成本：30天×2GB×2副本=120GB，远低于原始800GB，节省85%。9.应用题（综合类，18分）9.1背景：某视频平台每日产生500TB用户播放日志，字段含user_id、video_id、play_duration、event_time、cdn_ip、device_type等。需求：1.实时统计每10秒各视频播放热度（播放次数）；2.离线计算每日各设备类型播放总时长；3.支持按video_id秒级点查最近7天播放曲线；4.保证数据不丢不重；5.成本控制目标：每GB存储≤0.01元，每万次查询≤0.05元。请给出完整数据链路，含采集、流处理、批处理、存储、查询、监控、容灾七部分，并做成本估算。答案：采集：日志服务器使用Filebeat→Kafka，Topicpartition=1200，副本=3，保留3小时，压缩格式lz4，峰值流量6GB/s，Kafka集群30节点（16×10Gb）。流处理：Flink作业并行度1200，事件时间窗口10s，使用KeyBy(video_id)聚合，状态TTL7天，Checkpoint30秒一次到HDFS，开启ExactlyOnce，下游写入RedisCluster，Key=video_id+窗口，Value=count，过期时间600s；Redis采用64分片，每片8GB，内存总量512GB，成本约1.2万元/月。批处理：每日00:10启动Spark作业，读取前1天日志，按device_type聚合sum(play_duration)，结果写入Hive表ads_play_by_device，分区字段dt，数据量约50GB，压缩后15GB，存储7年，累计3

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据练习试题及答案

文档简介

温馨提示

最新文档

评论

2025年大数据练习试题及答案

文档简介

温馨提示

最新文档

评论

相关文档