2026年大数据技术与应用考试试题及答案_第1页
2026年大数据技术与应用考试试题及答案_第2页
2026年大数据技术与应用考试试题及答案_第3页
2026年大数据技术与应用考试试题及答案_第4页
2026年大数据技术与应用考试试题及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据技术与应用考试试题及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Hadoop生态中,负责资源管理与任务调度的组件是()A.HDFS  B.YARN  C.MapReduce  D.Hive答案:B2.下列关于SparkRDD的描述,错误的是()A.RDD是不可变的分布式数据集B.RDD支持细粒度写操作C.RDD的转换操作是惰性求值D.RDD通过Lineage实现容错答案:B3.在Flink的时间语义中,EventTime是指()A.数据进入Flink系统的时间B.数据在算子中处理的时间C.事件在源端发生的时间D.数据被Sink写出时间答案:C4.若某电商表user_order(order_id,user_id,sku_id,order_time,price)需要按user_id做分桶存储,最合适的Hive分桶字段与桶数组合为()A.user_id,桶数=2的幂且大于预估用户数/块大小B.order_id,桶数=100C.sku_id,桶数=500D.order_time,桶数=1000答案:A5.使用Kafka2.8生产消息时,若acks=all,则下列说法正确的是()A.Leader副本写入成功即返回B.只要有一个ISR副本写入成功即返回C.所有ISR副本全部写入成功才返回D.不等待任何副本确认即返回答案:C6.在HBase中,用于实现多版本并发控制的机制是()A.WAL  B.MemStore  C.Timestamp  D.BloomFilter答案:C7.某Spark任务使用DataFrameAPI,执行df.groupBy("city").agg(sum("gmv"))产生的物理计划最可能包含的算子是()A.HashAggregate  B.SortMergeJoin  C.BroadcastNestedLoopJoin  D.CartesianProduct答案:A8.下列关于数据湖Iceberg的描述,正确的是()A.仅支持Parquet格式B.不支持行级更新C.通过manifest文件实现快照隔离D.依赖HiveMetastore才能运行答案:C9.在ClickHouse中,最适合做高基数去重且内存可控的聚合函数是()A.uniq  B.uniqCombined  C.uniqExact  D.uniqHLL12答案:B10.某模型采用AUC作为评估指标,当训练集正负样本比例从1:1变为1:10时,若验证集分布不变,则AUC值一般会()A.显著上升  B.显著下降  C.基本不变  D.先升后降答案:C二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,请将所有正确选项的字母填在括号内,漏选、错选均不得分)11.下列属于FlinkCheckpoint可靠性的保障机制有()A.Barrier对齐  B.Exactly-OnceSink  C.StateBackend异步快照  D.增量Checkpoint  E.预写日志答案:ABCD12.关于HiveonTez与HiveonSpark的区别,正确的有()A.Tez基于DAG模型,Spark基于RDD模型B.Tez任务启动开销低于SparkC.Spark支持交互式查询,Tez不支持D.两者均可使用CBO优化器E.Tez必须依赖YARN,Spark可独立运行答案:ADE13.以下哪些操作会导致SparkShuffle()A.reduceByKey  B.groupByKey  C.distinct  D.map  E.repartition答案:ABCE14.在数据治理中,属于数据质量维度的是()A.准确性  B.完整性  C.时效性  D.可解释性  E.一致性答案:ABCE15.关于DeltaLake的TimeTravel功能,正确的有()A.可通过VERSIONASOF语法查询历史版本B.默认保留30天历史C.依赖外部HiveMetastore记录版本D.可通过VACUUM命令物理删除旧版本文件E.支持将历史版本还原为最新版本答案:ADE三、填空题(每空2分,共20分。请在横线上填写最简答案)16.HDFS默认块大小为________MB,若某文件大小为130MB,则占用________个块。答案:128,217.在SparkSQL中,将字符串列date_str("yyyy-MM-dd")转为DateType的表达式为________。答案:to_date(date_str,"yyyy-MM-dd")18.KafkaTopic的每个Partition在物理上对应磁盘上一组________文件。答案:Segment19.若Flink作业设置并行度为8,KafkaTopic有16个Partition,则每个Subtask最多消费________个Partition。答案:220.在ClickHouse的MergeTree表中,用于分区裁剪的关键字是________。答案:PARTITIONBY21.若某列式存储文件采用Snappy压缩,压缩比约为0.4,则原始数据1TB,压缩后大小约为________GB。答案:40022.HBase中,Region的RowKey范围用________和________两个关键字表示上下界。答案:StartKey,EndKey23.在SparkMLlib中,用于评估二分类模型召回率的指标名称是________。答案:Recall24.数据仓库建模中,若事实表与维度表通过surrogatekey关联,则该模型属于________模型。答案:星型或雪花(答其一即可)25.若某Hive表为外部表,执行DROPTABLE时,默认________(会/不会)删除HDFS数据文件。答案:不会四、简答题(共4题,每题10分,共40分)26.(封闭型)简述MapReduce中Shuffle阶段的具体流程,并说明Combiner的作用与使用条件。答案:(1)Map端:每个Map任务将输出结果根据Partitioner分区,写入环形内存缓冲区;当缓冲区阈值达到80%,触发Spill线程,将数据溢写到磁盘,期间进行Sort与可选Combiner合并;若存在多次溢写,最终进行多路归并生成一个有序文件。(2)Reduce端:Reduce任务通过HTTP拉取各自分区的数据,进行归并排序,生成有序大文件;随后进入Reduce函数处理。Combiner作用:在Map端本地先做一次聚合,减少网络IO。使用条件:聚合函数必须满足结合律与交换律,如sum、max;平均值不可直接使用。27.(开放型)某电商公司每日新增订单量10亿条,订单表字段含(order_id,user_id,sku_id,price,order_time)。请设计一套基于HDFS+Spark的离线分层数仓方案,要求说明ODS、DWD、DWS、ADS各层职责、存储格式、分区策略及典型计算任务。答案:ODS层:原始订单增量同步,存储格式ORC+Snappy,按dt分区,每日一个目录;Spark任务每日凌晨拉取Binlog,去重后写入。DWD层:清洗过滤,解析order_time为标准时间,关联用户维度表补全字段,存储格式DeltaLake,按dt+hour二级分区,支持更新;SparkSQL每日调度,开启MERGEINTO处理迟到数据。DWS层:按user_id+sku_id聚合,生成用户SKU粒度天汇总表,指标含订单数、GMV,存储格式Parquet,按dt分区;Spark任务采用groupBy+窗口函数计算。ADS层:面向报表,产出“每日TOP100用户GMV”MySQL外表,通过SparkJDBC写入;分区策略为无分区,每日全量覆盖。整体采用Airflow编排,依赖上游Binlog延迟监控;使用Alluxio加速热数据访问。28.(封闭型)写出FlinkSQL实现基于事件时间的滚动窗口,统计每10分钟各渠道的订单金额,并给出Watermark策略。答案:```sqlCREATETABLEorder_stream(order_idSTRING,channelSTRING,amountDOUBLE,order_timeTIMESTAMP(3),WATERMARKFORorder_timeASorder_timeINTERVAL'5'SECOND)WITH('connector'='kafka','topic'='order','properties.bootstrap.servers'='kafka:9092','format'='json','scan.startup.mode'='latest-offset');SELECTchannel,TUMBLE_START(order_time,INTERVAL'10'MINUTE)ASwindow_start,TUMBLE_END(order_time,INTERVAL'10'MINUTE)ASwindow_end,SUM(amount)AStotal_gmvFROMorder_streamGROUPBYchannel,TUMBLE(order_time,INTERVAL'10'MINUTE);```29.(开放型)某机器学习平台使用SparkMLlib训练GBDT模型,训练集2TB,特征维度5万,出现任务OOM。请从数据、特征、参数、资源四个角度给出优化方案,并说明如何验证效果。答案:数据:采用分层采样将正负样本比例降至1:3,减少数据量30%;使用Parquet+ZSTD压缩,降低磁盘IO。特征:利用ClickHouse预聚合,将5万维稀疏特征降至1万维;采用ChiSqSelector选Top2k特征,再训练。参数:设置maxDepth=6,maxBins=32,减少树复杂度;调整checkpointInterval=10,开启RDDcheckpoint释放lineage;使用hist直方算法。资源:启用Spark动态资源分配,executor内存从8g提至20g,并发度从1千提至3千;开启off-heap内存,使用RocksDBStateStore。验证:在相同验证集评估AUC与LogLoss,对比优化前后曲线;通过SparkHistoryServer查看GC时间,确保FullGC<5%;记录训练时长从4h降至45min,内存峰值下降60%。五、应用题(共3题,共55分)30.(计算类,15分)某ClickHouse表order_detail(order_id,user_id,amount,order_time)存储了最近一年数据,主键order_id,分区字段toYYYYMM(order_time)。现需计算2025年10月客单价(GMV/支付人数),要求写出最优SQL并估算读取数据量。已知:2025-10月订单1.2亿条,平均行大小60B;分区裁剪后仅扫描10月目录;ClickHouse合并后parts=200,每个part索引文件1MB,列amount、user_id压缩率0.3。答案:```sqlSELECTsum(amount)/uniqExact(user_id)ASavg_priceFROMorder_detailWHEREorder_time>='2025-10-01'ANDorder_time<'2025-11-01';```数据量估算:行数据:1.2亿×60B×0.3≈2.16GB;索引:200×1MB=0.2GB;总计≈2.4GB。31.(分析类,20分)某Kafka集群共6个Broker,单个Broker磁盘12TB,副本因子3,retention=7天。现监控发现磁盘使用率95%,峰值写入速率800MB/s。请分析可能原因,并给出扩容与治理方案,要求含计算公式。答案:原因:(1)消息体过大,单条平均5KB,导致磁盘占用高;(2)部分Topicretention设置>7天;(3)副本因子3,实际存储放大3倍;(4)未开启压缩,磁盘裸写。计算:每日净数据量=800MB/s×86400s≈66TB;7天总量=66×7=462TB;副本后=462×3=1386TB;集群可用容量=6×12=72TB,缺口1386-72=1314TB。治理:a.开启Snappy压缩,压缩比0.4,减少60%,降至554TB;b.将日志型Topic副本因子改为2,关键Topic保留3,加权平均2.3,再降23%,降至427TB;c.下线过期Topic,释放10%,降至384TB;d.扩容:按50%安全水位,需384/0.5=768TB;单盘12TB,需新增768/12=64块盘,即新增11个Broker(6盘/台)。验证:新集群17台,总容量204TB,副本后加权2.3倍,可存887TB>384TB,满足需求。32.(综合类,20分)某视频公司采用Lambda架构,实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论