版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据技术专业技能考试及答案一、单项选择题(每题2分,共30分)1.在Hadoop3.x版本中,默认的块大小为A.32MB B.64MB C.128MB D.256MB答案:C解析:Hadoop3.x将默认块大小从64MB提升至128MB,以降低NameNode内存压力并提升顺序读写效率。2.某电商公司使用FlinkCEP检测“用户连续30分钟内下单后退款”行为,应使用的模式量词是A.oneOrMore B.times(2) C.within(Time.minutes(30)) D.followedBy答案:C解析:within关键字定义事件整体时间窗口,保证匹配发生在30分钟内。3.在Spark3.4的AdaptiveQueryExecution中,负责动态消除SortMergeJoin并转换为BroadcastJoin的优化器规则是A.CoalesceBucketsInJoin B.OptimizeSkewedJoin C.DynamicJoinSelection D.EliminateSortBeforeJoin答案:C解析:DynamicJoinSelection实时统计表大小,当一侧小于广播阈值时自动切换。4.使用DeltaLake2.4进行时间旅行查询时,可读取的历史版本上限由哪项参数决定A.delta.historyRetentionDuration B.delta.logRetentionDuration C.delta.checkpointInterval D.pactInterval答案:B解析:logRetentionDuration控制事务日志保留时长,间接决定可回退的最旧版本。5.某Kafka集群使用IDEMPOTENT生产者,若enable.idempotence=true,则acks必须设为A.0 B.1 C.all D.任意值答案:C解析:幂等性要求acks=all,确保分区内副本全部确认。6.在ClickHouse23.5中,最适合存储高基数UUID列的编码类型是A.Delta B.T64 C.LowCardinality D.None答案:C解析:LowCardinality对高基数字符串进行字典压缩,显著降低磁盘占用。7.某企业使用Iceberg1.3,需要隐藏客户身份证字段,应采用的屏蔽策略是A.columnmaskingwithMD5 B.columnmaskingwithtruncate C.row-levelfilter D.partitiontransform答案:A解析:Iceberg支持MD5不可逆脱敏,满足合规要求。8.在Hudi0.14的Merge-On-Read表中,快照查询的延迟主要受哪项影响A.log文件大小 B.parquet文件版本 C.erval D.mits.retained答案:A解析:MoR快照需合并log与base文件,log越大合并耗时越长。9.使用Elasticsearch8.11进行向量检索时,官方推荐的相似度算法是A.BM25 B.cosine C.l2_norm D.dot_product答案:D解析:dot_product在硬件加速场景下性能优于cosine,且无需额外归一化。10.在Airflow2.8中,若DAG的max_active_runs=3,concurrency=5,则同一时刻最多可运行的task实例数为A.3 B.5 C.8 D.15答案:B解析:concurrency限制DAG内task并发,max_active_runs限制DAG并发,二者取各自维度。11.某团队使用dbt1.7,需要给模型增加列级血缘,应实现的宏是A.get_columns_in_query B.adapter.get_columns_in_relation C.graph.nodes D.statement答案:B解析:adapter.get_columns_in_relation可反向解析列,用于构建血缘。12.在Snowflake的Hybrid表中,自动将数据从行存迁移到列存的微分区大小为A.4MB B.8MB C.16MB D.32MB答案:C解析:Snowflake以16MB为粒度进行行列转换,兼顾点查与扫描。13.使用Paimon0.6的ChangelogProducer=FULL_COMPACTION时,下游消费到的数据语义为A.仅追加 B.仅更新 C.完整快照 D.增量delta答案:C解析:FULL_COMPACTION在每次压缩后输出完整快照,简化下游去重。14.在StarRocks3.1中,创建ColocateJoin需保证两张表的A.分桶键一致且副本数一致 B.分区键一致 C.存储格式一致 D.压缩算法一致答案:A解析:Colocate要求分桶键与副本分布完全相同,避免网络shuffle。15.某银行使用FlinkSQL实现Deduplicate,若设置state.ttl=24h,事件时间为order_time,rowtimewatermark延迟5s,则重复数据最长可延迟A.24h B.24h5s C.24h-5s D.无法确定答案:B解析:watermark延迟5s意味着窗口关窗再晚5s,state保留24h,总容忍24h5s。二、多项选择题(每题3分,共30分)16.关于Raft与Paxos,下列说法正确的是A.Raft将一致性拆分为Leader选举、日志复制、安全性三子问题B.Paxos的原始论文未明确成员变更机制C.Raft日志必须连续,Paxos允许空洞D.Multi-Paxos通过选主减少prepare次数答案:ABCD解析:四项均为共识算法经典结论。17.使用Trino426查询Iceberg,支持的下推优化包括A.Partitionpruning B.Columnpruning C.Predicatepushdown D.Limitpushdown答案:ABCD解析:TrinoIcebergconnector已实现四项下推。18.在Kafka3.6的KRaft模式下,以下哪些端口必须开放A.9092 B.9093 C.2181 D.9876答案:ABD解析:KRaft不再依赖ZooKeeper,2181无需开放;controller监听9876。19.某SparkStructuredStreaming作业使用foreachBatch写入MySQL,为保证Exactly-Once,应A.在batch内做幂等写入 B.使用事务批量提交 C.维护checkpoint D.开启MySQLbinlog答案:ABC解析:binlog与Exactly-Once无关,前三项为必要手段。20.关于数据湖仓一体,以下特性属于Lakehouse范畴A.事务支持 B.Schema演进 C.BI工具直接查询 D.流批一体存储答案:ABCD解析:Lakehouse定义即四项融合。21.在Hive4.0的LLAP中,可提高点查性能的优化包括A.ORMfileformat B.Dataskippingindex C.Materializedviewrewrite D.Resultcache答案:BCD解析:ORM并非Hive格式;其余三项均可加速。22.使用Prometheus监控Flink,推荐采集的指标有A.flink_taskmanager_Status_JVM_Memory_Heap_Used B.flink_jobmanager_job_uptime C.flink_taskmanager_Network_BufferPool_Usage D.flink_jobmanager_job_lastCheckpointExternalPath答案:ABC解析:ExternalPath为字符串,不适合作为指标。23.在Redis7.2的Json模块中,支持的原子操作包括A.JSON.ARRAPPEND B.JSON.STRAPPEND C.JSON.NUMINCRBY D.JSON.DEL答案:ABCD解析:四项均为原子命令。24.某企业使用GreatExpectations0.18,可扩展的自定义期望类型包括A.ColumnValuesPasswordHash B.ColumnValuesRegex C.ColumnValuesZScore D.ColumnValuesSql答案:ACD解析:Regex为内置,其余需自定义。25.在dbt1.7的Python模型中,可用的内置变量包括A.ref B.source C.var D.env_var答案:ABCD解析:四项均可用于Python模型。三、判断题(每题1分,共10分)26.HDFS的NameNode高可用基于共享存储Edits,无需额外锁机制。答案:错解析:需要ZKFC与fencing机制防止脑裂。27.Spark3.5的PandasAPIonSpark完全兼容原生Pandas2.1。答案:错解析:仍有部分API未实现。28.FlinkSQL的TemporalTableJoin要求主表与维表事件时间对齐。答案:对解析:需在同一时间域内。29.DeltaLake的Z-Ordering可提升任意维度过滤性能。答案:错解析:仅对Z-Order列有效。30.ClickHouse的MaterializedMySQL引擎支持双向同步。答案:错解析:仅支持单向复制。31.Kafka的LogCompaction会删除所有nullvalue消息。答案:对解析:null表示墓碑。32.Iceberg的隐藏分区对下游用户透明。答案:对解析:用户无需感知分区列。33.Airflow的Sensor默认占用workerslot。答案:对解析:可通过mode=reschedule释放。34.StarRocks的Bitmap索引支持范围过滤。答案:错解析:仅等值过滤。35.Hudi的Clustering操作会改变数据文件物理顺序。答案:对解析:Clustering即重排。四、填空题(每空2分,共20分)36.在Spark3.5中,开启AQE后,自动分区合并的开关参数为________。答案:spark.sql.adaptive.coalescePartitions.enabled37.Flink1.18的GenericWAL通过________接口实现两阶段提交。答案:TwoPhaseCommitSinkFunction38.ClickHouse23.5新增的________引擎支持实时更新删除。答案:ReplacingMergeTreewithlightweightdelete39.Iceberg的________文件记录所有快照的清单路径。答案:metadata.json40.使用Trino创建Iceberg表时,指定分区转换函数需使用________关键字。答案:partitionedbytransform41.在Kafka3.6中,________协议替代了SASL/PLAIN用于KRaft认证。答案:OAUTHBEARER42.dbt的________宏可动态获取当前模型别名。答案:this.identifier43.StarRocks的________语句可手动触发ColocateJoin重分布。答案:ADMINSETREPLICASTATUS44.Hudi的________索引基于布隆过滤器,适合更新比例低的表。答案:BLOOM45.使用FlinkCDC3.0整库同步MySQL到Paimon,需配置________参数开启全量+增量一体化。答案:scan.startup.mode=initial五、简答题(每题10分,共30分)46.描述在Hadoop3.x集群中,如何在不重启NameNode的情况下扩容DataNode,并保证副本均衡。答案:1)在新节点安装同版本Hadoop并配置与集群一致的hdfs-site.xml、core-site.xml,确保dfs.data.dir指向干净磁盘。2)启动DataNode进程:hdfs--daemonstartdatanode。3)在NameNode执行hdfsdfsadmin-refreshNodes,无需重启。4)使用Balancer工具:hdfsbalancer-threshold5-policyBlockPool-exclude-source-blockpools<bpid>,设定带宽dfs.datanode.balance.max.bandwidthPerSec=200MB/s,避免影响业务。5)监控WebUI确认Under-ReplicatedBlocks逐渐下降,直至均衡。6)若使用机架感知,需更新topology.data,并执行hdfsdfsadmin-refreshTopology。全程零重启,业务无感知。47.某电商使用FlinkSQL实现实时GMV统计,要求精确去重且可回溯24h,写出完整SQL并解释状态保留策略。答案:```sqlCREATETABLEorder_detail(order_idSTRING,user_idBIGINT,amountDECIMAL(10,2),order_timeTIMESTAMP(3),WATERMARKFORorder_timeASorder_time-INTERVAL'5'SECOND)WITH(...);CREATEVIEWdedup_ordersASSELECTorder_id,user_id,amount,order_timeFROM(SELECT,ROW_NUMBER()OVER(PARTITIONBYorder_idORDERBYorder_time)ASrnFROMorder_detail)WHERErn=1;CREATETABLEgmv_sink(window_startTIMESTAMP(3),window_endTIMESTAMP(3),gmvDECIMAL(18,2),PRIMARYKEY(window_start)NOTENFORCED)WITH(...);INSERTINTOgmv_sinkSELECTTUMBLE_START(order_time,INTERVAL'1'HOUR)ASwindow_start,TUMBLE_END(order_time,INTERVAL'1'HOUR)ASwindow_end,SUM(amount)ASgmvFROMdedup_ordersGROUPBYTUMBLE(order_time,INTERVAL'1'HOUR);```状态保留:1)在dedup_orders视图使用ROW_NUMBER去重,状态ttl设为24h+5s=86405s,保证迟到数据也能去重。2)聚合算子开启changelog.mode=upsert,statettl同样86405s。3)checkpoint间隔3min,保留min10、max20,配置rocksdbbackend并开启incremental=true,降低磁盘占用。4)使用idleTTL检测无数据分片,避免状态无限增长。48.说明如何在StarRocks3.1中实现秒级实时更新,并保证高并发点查性能不低于5万QPS。答案:1)表模型选择主键模型(PrimaryKey),存储格式为列存+行存混合,开启persistentindex,内存占比70%。2)写入端使用StreamLoad小批量高频导入,batch10MB、间隔5s,开启mergecommit,减少版本数。3)在FE配置enable_new_publish_mechanism=true,降低导入可见延迟至500ms内。4)为点查列建立Bitmap索引与ZoneMap,分区键按dt+hour,分桶键按user_id(32桶),保证数据均匀。5)查询端开启preparedstatement与SQLCache,并部署3台followerFE做读写分离,使用MySQLJDBC连接池max=200。6)压测显示:单BE节点(16C64G)点查P9912ms,集群3BE可达5.2万QPS,CPU65%,满足需求。六、综合设计题(30分)49.某头部社交平台拟构建万亿级消息存储与实时分析系统,要求:1)支持写吞吐100万条/秒,峰值200万条/秒;2)支持按用户ID、消息ID、时间范围多维查询,P99延迟<500ms;3)支持近实时更新删除(如用户撤回消息);4)支持离线数仓T+1归档至OSS,归档后需通过Presto查询;5)成本控制在每GB每月0.12元以内。请给出完整技术选型、表设计、写入链路、查询优化、冷热分层、成本估算,并评估是否满足全部需求。答案:一、技术选型1)消息接入:Kafka3.6集群,单分区峰值10MB/s,1000分区,3副本,SSD盘。2)实时存储:Paimon0.6onOSS,主键模型,bucket=8192,writer=Flink1.18,checkpoint30s,compaction间隔10min。3)索引:在Paimon表内构建user_id、msg_id的Bloom索引,compaction时异步生成。4)查询引擎:Trino426withPaimonconnector,缓存元数据于Alluxio。5)离线归档:Paimon快照过期策略保留7天,历史数据通过ALTERTABLESETTBLPROPERTIES('snapshot.expire.limit'='168h'),超过后自动清理,OSS低频访问存储单价0.08元/GB/月。二、表设计```sqlCREATETABLEmsg_store(user_idBIGINT,msg_idSTRING,msg_timeTIMESTAMP(3),contentSTRING,deletedBOOLEAN,PRIMARYKEY(user_id,msg_id)NOTENFORCE
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年《计算机图形学》测试题及答案
- 2022广告代理合同(汇编15篇)
- 2026年保密宣传月保密知识考试卷含答案
- 2026年湖南岳阳中小学教师招聘考试真题解析含答案
- 2025年绵阳东辰聚星中学初一入学数学分班考试真题含答案
- 期末教学设计中职基础课-基础模块 1-外研版(2021)-(英语)-52
- 第九课 友谊地久天长教学设计小学心理健康人教版六年级下册-人教版
- 第一单元群文阅读 教学设计-统编版语文九年级下册
- 八年级英语下册 Unit 5 What were you doing when the rainstorm came Section B第3课时(1a-1d)教学设计(新版)人教新目标版
- 第7课 人字头教学设计小学书法练习指导五年级下册人美版
- 10千伏环网柜(箱)标准化设计方案 (2023 版)
- 2024年中国硝苯地平原料药市场调查研究报告
- 山东省汽车维修工时定额(T-SDAMTIA 0001-2023)
- 打促排卵针知识讲座
- 小班-数学-爱跳的棉花糖(上下、前后、里外方位)-课件(互动版)
- 地貌学课件:喀斯特地貌
- 2023年3月大学英语三级(A级)真题试卷及答案
- 异位妊娠的急救处理课件
- 部编版三年级语文下册 海底世界 公开课课件
- 2023年人教版小升初必备文学常识试题大全附答案
- 油缸清洗机设计(含全套CAD图纸)
评论
0/150
提交评论