2025年大数据考试试题及答案

上传人：1*** IP属地：四川上传时间：2026-01-29 格式：DOCX 页数：19 大小：32.55KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据考试试题及答案1.单项选择题（每题2分，共20分）1.1在Hadoop生态中，负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案：B1.2下列哪种存储格式最节省磁盘空间且支持谓词下推A.JSON B.CSV C.ORC D.SequenceFile答案：C1.3SparkCore默认的序列化方式是A.JavaSerializable B.Kryo C.ProtocolBuffers D.Avro答案：A1.4在Flink的时间语义中，EventTime依赖于A.系统时钟 B.数据自带时间戳 C.摄取时间 D.处理时间答案：B1.5若某电商表user_order(order_id,user_id,amount,order_time)需要按user_id做分桶，同时按order_time做范围分区，最合适的Hive建表方式是A.CLUSTEREDBY(user_id)SORTEDBY(order_time) B.PARTITIONEDBY(order_time)CLUSTEREDBY(user_id)C.DISTRIBUTEBY(user_id)SORTBY(order_time) D.CLUSTEREDBY(order_id)INTO256BUCKETS答案：B1.6在Kafka2.8之后，若将__consumer_offsets的副本因子设置为3，则最少需要多少台物理机才能保证高可用A.1 B.2 C.3 D.4答案：C1.7使用HBaseRowkey设计避免热点，下列方案无效的是A.反转时间戳 B.加盐随机前缀 C.哈希散列 D.自增ID答案：D1.8在Presto中，下列SQL语句能被CBO优化器自动改写的是A.SELECTFROMtWHERErand()<0.1 B.SELECTcount()FROMtGROUPBYuser_idHAVINGcount()>100C.SELECTFROMtJOIN(SELECTmax(dt)FROMt)tmpONt.dt=tmp.dt D.SELECTFROMtORDERBYrand()LIMIT10答案：C1.9某集群每日新增原始日志2TB，压缩比1:5，保留30天，采用三副本，则存储量约为A.12TB B.36TB C.60TB D.360TB答案：B1.10在数据湖Iceberg中，实现行级更新需要依赖A.CopyonWrite B.MergeonRead C.WriteAheadLog D.LSMTree答案：B2.多项选择题（每题3分，共15分，多选少选均不得分）2.1下列属于FlinkCheckpoint持久化到HDFS的必要配置A.state.backend B.state.checkpoints.dir C.jobmanager.execution.failoverstrategy D.erval答案：ABD2.2关于数据倾斜，正确的说法有A.可以通过两阶段聚合缓解 B.必然导致OOM C.SparkSQL可用hints指定分发键 D.Hive可用skewjoin优化答案：ACD2.3在ClickHouse中，MergeTree引擎支持A.主键索引 B.数据分区 C.数据副本 D.事务回滚答案：ABC2.4下列算法可用于文本主题聚类A.Kmeans B.LDA C.DBSCAN D.Word2Vec答案：ABC2.5关于数据血缘，技术实现层面可采集A.SQL解析 B.日志埋点 C.字节码注入 D.Gitdiff答案：ABC3.填空题（每空2分，共20分）3.1SparkRDD的五大特性中最能体现容错的是________。答案：血统关系（Lineage）3.2在HDFS写数据时，客户端首先与________节点通信获取block位置。答案：NameNode3.3KafkaProducer保证幂等性需要设置参数________为true。答案：enable.idempotence3.4若某表在Hive中以dt为分区，则SQL语句SELECTFROMtWHEREdtBETWEEN'20250601'AND'20250607'会触发________分区裁剪。答案：动态3.5FlinkCEP库中，模式序列后跟.oneOrMore表示________量词。答案：贪婪3.6在数据治理评级国标GB/T360732018中，数据质量评价维度不包括________（答任意一个非维度词）。答案：可回溯（或其他非官方维度）3.7使用Zookeeper实现Leader选举，临时节点类型为________。答案：EPHEMERAL_SEQUENTIAL3.8在Presto中，计算精确去重需使用聚合函数________。答案：count(DISTINCT)3.9在SparkStructuredStreaming中，将连续处理模式切换为微批需设置参数________。答案：trigger(ProcessingTime)3.10数据湖三剑客通常指Delta、Iceberg与________。答案：Hudi4.判断题（每题1分，共10分，正确写“T”，错误写“F”）4.1ORC文件一旦写入便不可追加。答案：T4.2Flink的keyBy等价于SQL的GROUPBY。答案：F4.3HBase中列族数量越多，随机读性能越高。答案：F4.4在SparkMLlib中，ALS算法只能处理显式反馈。答案：F4.5Kafka的partition数只能增加不能减少。答案：T4.6HiveonTez执行计划比HiveonMR默认减少磁盘落地次数。答案：T4.7ClickHouse的JOIN默认采用hashjoin算法。答案：T4.8数据仓库分层中，DWD层应保持与源系统同构。答案：F4.9GBDT算法对特征缩放敏感。答案：F4.10在数据治理中，主数据管理仅关注主键唯一性。答案：F5.简答题（封闭型，每题6分，共18分）5.1简述MapReduce中Shuffle阶段的三次排序及其作用。答案：第一次排序发生在map端溢写时，按分区号升序、key升序排序，保证同一分区数据相邻；第二次排序在reduce端合并溢写文件时，再次按key排序，使得reduce函数接收有序输入；第三次排序在reduce函数内部，若使用二次排序（GroupingComparator），可对复合key进一步排序，实现自定义分组逻辑，提升迭代计算效率。5.2列举SparkSQL实现列式扫描的三种优化技术并一句话说明原理。答案：1.向量化读取：一次性解压并解码一批行，降低CPU消耗；2.列索引跳过：利用Parquet/Orc的列统计信息跳过无关rowgroup；3.谓词下推：将过滤条件推至存储层，减少IO。5.3写出Flink实现端到端exactlyonce语义的两条核心机制。答案：1.分布式快照机制：通过barrier对齐，定期将算子状态异步写入共享存储；2.两阶段提交：预提交阶段将结果写入外部系统但不提交，待checkpoint完成后再统一提交，失败则回滚。6.简答题（开放型，每题8分，共16分）6.1某视频平台每日产生千亿级播放日志，需在5分钟内完成实时DAU统计，并支持历史回溯修正。请给出技术架构要点并说明如何权衡时效性与准确性。答案：采用Kafka+Flink+ClickHouse架构。日志经Kafka按user_id分区，Flink作业设置30秒checkpoint，使用RockDBStateBackend存储去重bitmap，输出每30秒粒度去重uv到ClickHouse分布式表；同时写入Iceberg原始日志，离线Spark作业每小时回溯合并，修正因延迟到达数据造成的uv误差。权衡：实时层容忍0.1%误差，离线层保证100%准确，通过Iceberg的mergeonread修正，实时层不阻塞，离线层可重算。6.2某银行核心交易系统计划引入数据湖统一存储历史流水，监管要求保存15年且不可篡改。请给出存储方案、合规措施及成本优化策略。答案：存储：采用Hudi+OSS对象存储，桶开启WORM（一次写入多次读取）策略，设置合规保留锁；数据按年分区、月桶，使用Parquet+ZSTD压缩。合规：利用Hudi的commit时间线作为不可变日志，定期将commit元数据写入区块链锚定，生成哈希指纹；同时通过KMS加密，密钥由监管方托管。成本：冷热分层，近一年存标准OSS，1–5年存低频，5年以上存归档；采用Hudiclustering合并小文件，降低存储碎片；对敏感字段按列加密，减少加密开销；利用OSS回源功能，查询归档数据时自动解冻，降低实时查询成本。7.计算题（共25分）7.1（8分）某电商大促，0点瞬间并发写入订单表，MySQL单行大小0.5KB，预估峰值QPS20万，持续300秒。若采用Kafka做缓冲，单partition极限吞吐10MB/s，问至少需要多少partition？答案：每秒数据量=2000000.5KB=100MB/s；单partition10MB/s，需100/10=10partition；考虑副本无额外写入吞吐，答案10个。7.2（9分）给定用户行为表behavior(uid,item_id,cate_id,ts)，数据量100亿行，存储为ORC，压缩后单文件256MB，共3900个文件。现需统计每个cate_id的UV，使用SparkSQL，集群executor共400核，每个executor4核、8GB内存。默认每task处理128MB，估算并行度并给出调优步骤。答案：总输入数据3900256MB≈1TB；默认split大小128MB，则maptask数≈1TB/128MB=8192；集群并发task数=400核，每核1task→400；并行度不足，需提高并发：1.调小split为64MB，task数翻倍至16384；2.调整spark.sql.shuffle.partitions=1600，使reduce并行度为1600；3.开启AQE，将运行时小分区合并，避免过多空跑；4.启用bloomfilter，先对cate_id做mapsidecombine，减少shuffle量。7.3（8分）某推荐模型需计算用户向量与商品向量的余弦相似度，用户向量u维度512，商品向量v维度512，已归一化。若使用Spark批量计算1亿用户与100万商品的Top50相似，估算中间结果数据量并给出降维思路。答案：中间结果若全量计算，需1e81e64字节=400PB，不可行。降维：1.采用局部敏感哈希（LSH）将512维向量映射至20位hash，分桶数2^20≈1e6，每用户只需与同桶商品计算，候选集降至1e8100=1e10，再按相似度排序取Top50；2.使用PCA将512维降至64维，减少计算量8倍；3.引入乘积量化，将64维向量每8维聚类256中心，用code表示，相似度近似计算，内存降约16倍；最终中间结果约1e8100504字节≈2TB，可在百核集群完成。8.综合分析题（共26分）8.1（14分）某市交通管理局拟建设“智慧信号灯”项目，需融合出租车GPS、公交车GPS、地铁闸机、天气、节假日、大型活动等多源数据，实现区域级5分钟粒度拥堵预测，并给出信号配时建议。请完成以下任务：（1）画出数据链路图，注明采集、传输、存储、计算、应用五层。（2）给出实时特征工程方案，需包含至少三种时间窗口。（3）预测模型选型及理由。（4）给出灰度上线与效果评估方法。答案：（1）采集层：出租车GPS通过车载终端→4G→Kafkatopicgps_taxi；公交车GPS→topicgps_bus；地铁闸机→topicmetro_flow；天气→RESTAPI→topicweather；节假日活动→人工录入→MySQL→CDC→topicdim_event。传输层：Kafka集群三副本，设置retention7天。存储层：原始数据入Hudi数据湖，分区字段dt=yyyyMMdd/hh；特征层用ClickHouse存宽表，按region+minute分区。计算层：FlinkCEP做异常事件检测，FlinkSQL做5分钟窗口聚合，输出至Redis供API调用。应用层：WebSocket推送配时方案至信号机，同时大屏展示。（2）实时特征：1.滑动窗口5分钟，计算区域平均速度、流量；2.跳动窗口1小时，统计同比、环比；3.会话窗口（gap30秒）检测拥堵事件持续时长；4.累计窗口全天，计算日累计流量；5.天气特征用全局窗口，每5分钟关联最新天气。（3）模型：采用XGBoost回归，输出未来5分钟拥堵指数；理由：特征维度<100，样本量百万级，树模型可解释性强，方便调参；同时用FlinkML在线推理，延迟<1秒。（4）灰度：选2个区共80路口，按路口随机分实验组（AI配时）与对照组（固定配时），持续2周；评估指标：平均通行时间下降率、停车次数下降率、拥堵指数RMSE；采用双重差分法剔除天气等外部因素，显著性检验p<0.05视为有效。8.2（12分）某云厂商推出ServerlessSpark，按DBU（DatabricksUnit）计费，1DBU=0.4元，每DBU提供2核8GB资源，运行1小时。用户A每日凌晨运行一批SQL，输入数据2TB，ORC格式，默认压缩，共需8000核时完成。现给出三种优化方案：方案甲：开启自适应执行（AQE），减少小分区，核时降至6000；方案乙：采用ZSTD压缩，数据量降至1.2TB，核时降至5000；方案丙：使用物化视图，预先聚合，输入数据降至200GB，核时降至1200。请计算各方案单日成本，并从性价比、维护复杂度、数据新鲜度三维度给出选型建议。答案：成本：甲：6000核时÷2核/DBU=3000DBU→30000.4=1200元；乙：5000÷2=2500DBU→1000元；丙：1200÷2=600DBU→240元。选型：性价比：丙最优，成本降低80%，且资源释放快；维护复杂度：甲无需额外维护；乙需全局改表并重新写入；丙需建立物化视图、管理刷新策略，复杂度最高；数据新鲜度：甲、乙均基于原始数据，可做到T+0；丙若采用每日刷新，则延迟1天，若采用流式刷新，则延迟5分钟，但增加流作业成本。综合：若业务允许分钟级延迟，选丙+流式刷新；若需绝对T+0且人力有限，选甲；若存储费用远高于计算，可选乙以降低后续日常计算量。9.设计题（共20分）9.1设计一套“零ETL”实时数仓方案，使业务库MySQL的订单表可直接在BI工具中做OLAP分析，要求：（1）延迟<30秒；（2）支持维表变更同步；（3）支持数据回滚到任意一秒；（4）给出表结构、主键设计、索引、物化视图、权限控制。答案：架构：MySQL→Debezium→Kafka→ClickHouseMaterializedMySQL引擎→BI。表结构：订单表order_main(id,user_id,sku_id,price,status,create_time,update_time)主键id；维表dim_sku(sku_id,sku_name,cate_id)主键sku_id；ClickHouse中order_main使用ReplacingMergeTree，版本字段update_time，去重依据id；dim_sku使用CollapsingMergeTree，增加sign列，1表示插入、1表示删除。索引：order_main按(dt,update_time)分区，(dt=toYYYYMM(create_time))；排序键(id,update_time)；维表按sku_id排序。物化视图：创建MVorder_daily_aggENGINE=SummingMergeTree，按(dt,cate_id,status)聚合，列sum_price、count_star，刷新间隔10秒。数据回滚：ClickHouse提供30秒粒度快照，利用Kafkacompactedtopic保留7天，通过指定offset回放；结合GitOps保存每快照的建表语句，做到schema回滚。权限：BI层通过ClickHouse的SQLACL，列级别屏蔽price；利用RLS行级安全，仅允许查看本部门数据；Kafka层使用SASL/SCRAM，Debezium使用SSL加密。10.论述题（共16分）10.1结合“数据要素市场化”背景，论述大数据技术在数据确权、定价、交易、流通全生命周期中的作用、风险及治理对策，要求引用近两年真实政策或案例，不少于600字。答案：2022年12月，《中共中央

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据考试试题及答案

文档简介

温馨提示

最新文档

评论

2025年大数据考试试题及答案

文档简介

温馨提示

最新文档

评论

相关文档