版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据练习试题及答案1.单选题(每题2分,共20分)1.1在HDFS中,默认一个数据块(Block)的大小为A.32MB B.64MB C.128MB D.256MB答案:C1.2下列哪一项不是SparkRDD的Transformation操作A.map B.filter C.reduceByKey D.collect答案:D1.3在Kafka2.8版本之后,移除对哪一项外部依赖A.Redis B.HBase C.ZooKeeper D.Hive答案:C1.4若某列满足“每个值出现频率低于5%”,则该列最适合的编码方式为A.OneHot B.Label C.Target D.Hash答案:C1.5Flink的Checkpoint机制默认使用的快照算法是A.ChandyLamport B.TwoPhaseCommit C.Paxos D.Raft答案:A1.6在Hive中,执行“MSCKREPAIRTABLE”命令的作用是A.更新元数据与HDFS目录不一致的分区信息B.重建表统计信息C.合并小文件D.刷新缓存答案:A1.7下列关于HBaseRegion分裂描述正确的是A.分裂后原Region立即被删除B.分裂触发条件仅与Region大小有关C.分裂由HMaster主动发起D.分裂后子Region的RowKey范围互不重叠答案:D1.8在DataFrame中,若列“sales”类型为string,需转换为double,应使用A.cast("double") B.toDouble() C.convert("double") D.asDouble()答案:A1.9使用MapReduce默认HashPartitioner时,Reducer数量由哪项参数决定A.mapreduce.job.maps B.mapreduce.job.reducesC.mapreduce.task.io.sort.factor D.dfs.block.size答案:B1.10在ClickHouse中,最适合做高并发点查的表引擎是A.MergeTree B.SummingMergeTree C.Memory D.Log答案:C2.多选题(每题3分,共15分,多选少选均不得分)2.1下列属于Flink窗口函数的有A.reduce B.aggregate C.process D.apply答案:ABCD2.2关于数据倾斜,下列说法正确的有A.可通过加盐方式打散KeyB.必然导致OOMC.可通过两阶段聚合缓解D.在Hive中可用distributebyrand()答案:ACD2.3以下哪些组件支持SQL2011标准中的“OVER(PARTITIONBY…ORDERBY…)”窗口语法A.SparkSQL B.FlinkSQL C.Hive3.x D.Presto答案:ABCD2.4在Kafka中,Producer保证幂等性需要满足的条件有A.enable.idempotence=trueB.retries>0C.acks=allD.max.in.flight.requests.per.connection≤5答案:ABCD2.5下列属于列式存储格式的有A.ORC B.Parquet C.Avro D.Arrow答案:ABD3.填空题(每空2分,共20分)3.1在Spark中,每个Task处理的数据分区称为________。答案:Partition3.2HDFS的NameNode元数据持久化文件名为________。答案:fsimage3.3若Flink作业并行度为8,Slot总数为16,则最大可并行运行的SubTask数为________。答案:1283.4在Hive中,设置动态分区开关的参数为________。答案:hive.exec.dynamic.partition3.5Kafka的Offset默认存储在Topic________中。答案:__consumer_offsets3.6ClickHouse中,用于去重合并的表引擎为________。答案:ReplacingMergeTree3.7在Pythonpandas里,将DataFrame写入Parquet需要调用的方法为________。答案:to_parquet3.8若某ORC文件Stripe大小为256MB,则读取该Stripe最少需要________次磁盘IO(不考虑缓存)。答案:13.9在YARN中,负责资源隔离的底层技术为________。答案:cgroups3.10使用MapReduce实现二次排序需自定义________类。答案:GroupingComparator4.判断题(每题1分,共10分,正确打“√”,错误打“×”)4.1Spark的Driver必须与NameNode运行在同一个节点。答案:×4.2HBase中一个列族对应一个MemStore。答案:√4.3Flink的Checkpoint屏障(Barrier)是自上而下注入的。答案:√4.4Kafka的Leader副本一定也是PreferredLeader。答案:×4.5Parquet文件支持按列进行压缩。答案:√4.6HiveonTez无法使用UDF。答案:×4.7在YARN的Capacity调度器中,队列间资源抢占默认开启。答案:×4.8ClickHouse的MaterializedView写入时同步触发。答案:√4.9ORC文件的Footer中保存了每个Stripe的偏移量。答案:√4.10SparkSQL的catalyst优化器能自动消除笛卡尔积。答案:×5.简答题(封闭型,每题6分,共18分)5.1描述MapReduce中Shuffle阶段“溢写”(Spill)的触发条件及优化手段。答案:当Map端环形缓冲区使用率超过mapreduce.map.sort.spill.percent(默认0.8)或缓冲区剩余空间不足时触发溢写;优化手段包括增大mapreduce.task.io.sort.mb、减少分区数、启用Combiner、调整压缩算法等。5.2列举Flink实现端到端exactlyonce语义的三要素,并简要说明。答案:1.Source可重放,如Kafka支持指定Offset;2.Checkpoint机制,定期生成分布式快照;3.Sink支持两阶段提交,如KafkaProducer事务。5.3说明HBaseRegionServer中BlockCache的两种实现及其适用场景。答案:LRUBlockCache基于JVM堆,适合随机读密集;BucketCache基于堆外内存或SSD,适合大集群、堆资源紧张场景。6.简答题(开放型,每题8分,共16分)6.1某电商公司每日新增500GB用户行为日志,需实时计算分小时GMV,并保证7×24小时服务。请给出技术选型与架构理由,要求兼顾成本与扩展性。答案:日志采集使用Kafka,分区按小时切分;流计算采用Flink,利用事件时间窗口计算GMV,Checkpoint到HDFS,状态后端用RocksDB;维度表存储于Redis,使用异步IO提升吞吐;资源调度使用YARN,高峰动态扩容,低峰缩容;下游结果写入ClickHouse,按小时分区,提供毫秒级查询;整体采用分层部署,开发、测试、生产隔离,成本通过Spot实例+混部降低30%。6.2随着业务扩张,Hive表分区数量达到30万,导致元数据库MySQL压力激增,查询变慢。请提出不少于三种优化方案并比较优劣。答案:1.合并小分区,按天转按月,减少元数据行数,简单有效但丧失细粒度;2.使用Hive3.x的CatalogFederation,将元数据分散到多个MySQL实例,扩展性好但需升级;3.迁移元数据至TiDB,利用分布式特性提升并发,改造成本中等;4.启用ObjectStore模式,将分区信息序列化到HDFS文件,减少MySQL行数,查询需二次解析,适合冷数据;5.采用AWSGlueCatalog托管,免运维但产生云费用。综合评估,方案1+2组合可在4周内完成,性能提升70%,成本增加10%,为最优路径。7.应用题(计算类,11分)7.1某Spark作业读取1TBORC文件(压缩率3:1),文件平均Stripe大小64MB,字段共30列,其中10列为谓词列。集群单节点磁盘顺序读带宽200MB/s,网络带宽10Gb/s,节点数50。若采用列裁剪与下推后仅读取5列,且谓词过滤率90%,求理论最短耗时。答案:原始数据量1TB,压缩后333GB;列裁剪后读取5/30,数据量55.5GB;过滤率90%,实际读取5.55GB;单节点磁盘需读5.55GB/50=113MB;磁盘耗时113MB÷200MB/s=0.565s;网络传输113MB÷1.25GB/s≈0.09s;取瓶颈0.565s,理论最短耗时约0.57秒。8.应用题(分析类,12分)8.1给定用户订单表order(user_idSTRING,order_idSTRING,amtDOUBLE,tsTIMESTAMP),数据量20亿行,存储于Parquet,文件大小800GB。现需统计“过去30天消费总额前1000名用户”,要求每次查询在3秒内返回。请写出完整技术路径并估算资源。答案:步骤1:按天预处理,使用SparkSQL每日滚动窗口计算user_id当天sum(amt),写入汇总表dws_user_day,分区字段dt,数据量约2亿行/天,Parquet压缩后2GB;步骤2:将30天汇总表加载至ClickHouse,使用SummingMergeTree,主键user_id,列amt为汇总值;步骤3:ClickHouse集群部署6分片×2副本,每节点64GB内存、16核;步骤4:查询SQL:SELECTuser_id,sum(amt)totalFROMdws_user_dayWHEREdtBETWEENtoday()30ANDtoday()GROUPBYuser_idORDERBYtotalDESCLIMIT1000SETTINGSmax_threads=32;步骤5:经测试,6节点并发扫描,耗时1.8秒,满足SLA;存储成本:30天×2GB×2副本=120GB,远低于原始800GB,节省85%。9.应用题(综合类,18分)9.1背景:某视频平台每日产生500TB用户播放日志,字段含user_id、video_id、play_duration、event_time、cdn_ip、device_type等。需求:1.实时统计每10秒各视频播放热度(播放次数);2.离线计算每日各设备类型播放总时长;3.支持按video_id秒级点查最近7天播放曲线;4.保证数据不丢不重;5.成本控制目标:每GB存储≤0.01元,每万次查询≤0.05元。请给出完整数据链路,含采集、流处理、批处理、存储、查询、监控、容灾七部分,并做成本估算。答案:采集:日志服务器使用Filebeat→Kafka,Topicpartition=1200,副本=3,保留3小时,压缩格式lz4,峰值流量6GB/s,Kafka集群30节点(16×10Gb)。流处理:Flink作业并行度1200,事件时间窗口10s,使用KeyBy(video_id)聚合,状态TTL7天,Checkpoint30秒一次到HDFS,开启ExactlyOnce,下游写入RedisCluster,Key=video_id+窗口,Value=count,过期时间600s;Redis采用64分片,每片8GB,内存总量512GB,成本约1.2万元/月。批处理:每日00:10启动Spark作业,读取前1天日志,按device_type聚合sum(play_duration),结果写入Hive表ads_play_by_device,分区字段dt,数据量约50GB,压缩后15GB,存储7年,累计3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026恒丰银行枣庄分行社会招聘2人考试参考题库及答案解析
- 2026年甘肃省平凉市庄浪县第一批城镇公益性岗位工作人员招聘47人考试参考题库及答案解析
- 2026广东深圳大学土木与交通工程学院周英武特聘教授团队招聘研究助理1人考试参考题库及答案解析
- 2026内蒙古农商银行社会招聘70人笔试模拟试题及答案解析
- 2026广西姆洛甲文化旅游投资有限公司招聘文旅策划主管2人考试参考题库及答案解析
- 2026年宁德市蕉城园投港务有限公司招聘考试备考题库及答案解析
- 2026年大理州弥渡县政务服务管理局招聘公益性岗位人员(1人)考试参考试题及答案解析
- 2026广东惠州市惠阳区城市建设投资集团有限公司第一批次招聘25人考试备考题库及答案解析
- 2025年宁波象山县卫生健康系统公开招聘编外人员36人考试参考试题及答案解析
- 2026广西梧州市万秀区残疾人联合会招聘社区残协专职委员3人考试参考题库及答案解析
- 生鲜乳安全生产培训资料课件
- 2025年国资委主任年终述职报告
- 工程顾问协议书
- 2026年沃尔玛财务分析师岗位面试题库含答案
- 大学教学督导与课堂质量监控工作心得体会(3篇)
- 广东省汕头市金平区2024-2025学年九年级上学期期末化学试卷(含答案)
- 项目专家评审意见书标准模板
- 2025年高中计算机操作试题题库及答案
- 江苏省G4(南师大附中、天一、海安、海门)联考2026届高三年级12月份测试(G4联考)生物试卷(含答案)
- 2026年山西信息职业技术学院单招职业技能测试题库及参考答案详解1套
- 资产清查合同范本
评论
0/150
提交评论