版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年厦航数据开发测试题及答案
一、单项选择题,(总共10题,每题2分)1.在厦航ODS层中,航班动态主键最合理的组合是A.航班号+航班日期+机尾号B.航班号+航班日期+出发机场C.航班号+航班日期+到达机场D.航班号+航班日期+计划起飞时间2.使用Hive对厦航客票表做分区时,最能平衡查询性能与数据倾斜的分区键是A.出票日期B.旅客会员等级C.航线代码D.票证状态3.厦航常旅客积分过期策略中,若采用“滚动式24个月有效”,在SparkSQL中计算过期积分的窗口函数应选A.row_number()B.rank()C.sum()over(rangebetween23precedingandcurrentrow)D.sum()over(rowsbetween23precedingandcurrentrow)4.在Kafka中保障“登机口变更”消息零丢失,Producer端最需调整的参数是A.batch.sizeB.linger.msC.acksD.max.poll.records5.厦航数据治理要求敏感字段“身份证号”在DWD层脱敏,符合国密SM4且保留唯一性的算法是A.哈希后截取前8位B.全表MD5C.SM4_ECB固定密钥加密D.SM4_CBC随机IV加密6.当Flink消费“行李转盘”流时,需保证Exactly-Once,下列Sink端实现正确的是A.MySQL的replaceintoB.Kafka事务性ProducerC.HDFS的append模式D.Redis的setex7.厦航数据资产目录中,给“航班油量”打标签,最合适的业务元数据标准是A.ISO19115B.GB/T36326-2018C.DCAT-APD.厦航自定义航油主题词表8.在Airflow调度里,若任务T依赖前一天DWD层分区完成,Sensor应使用A.TimeSensorB.SqlSensorC.DateTimeSensorD.ExternalTaskSensor9.对厦航AOC实时大屏,Redis中存储“当前在飞航班”最佳的数据结构是A.StringB.ListC.HashD.SortedSet10.用GreatExpectations对“票价”字段做质量监控,规则“国内段经济舱票价>0且<20000”应选用的Expectation是A.expect_column_values_to_be_uniqueB.expect_column_values_to_be_betweenC.expect_column_values_to_not_be_nullD.expect_column_values_to_match_regex二、填空题,(总共10题,每题2分)11.厦航数据湖统一存储格式采用__________压缩的__________文件,兼顾列式与谓词下推。12.在Spark中,将“航班延误原因”字段从STRING转为编码整型,需先构建__________模型并__________。13.若KafkaTopic“ticket_sale”有6个Partition,消费者组ID“cg_ods”设置并发度为__________时,可实现最大并行且不浪费线程。14.厦航数据仓库分层规范中,__________层保存原始日志不做字段解析,__________层完成统一编码与脱敏。15.使用AirflowRESTAPI触发DAG“ods_flight”需发送__________请求至端点/api/v1/dags/__________/dagRuns。16.在Hive中,对分区表“ticket_pt”删除2025-06-01分区且不落盘,语句为ALTERTABLEticket_ptDROPPARTITION(pt=__________)__________;17.厦航主数据管理(MDM)里,飞机“机尾号”对应的技术主数据编码规则为__________位字母+__________位数字。18.FlinkCheckpoint默认语义为__________,若改为EXACTLY_ONCE需开启__________。19.对“旅客护照号码”做SM3杂凑后,输出长度为__________位十六进制,存储类型应设为__________。20.在数据血缘图谱中,从DWD层“flight_delay”到DWS层“delay_summary”的边类型标记为__________,方向为__________。三、判断题,(总共10题,每题2分)21.厦航ODS层允许直接对外提供即席查询服务。22.使用Parquet格式时,同一列的不同Page可以设置不同的编码方式。23.Kafka的consumeroffset由Zookeeper在0.10版本之后继续默认管理。24.在SparkSQL中,cache()与persist()语义完全一致,无任何区别。25.数据质量规则一旦写入GreatExpectationsSuite,无法通过API动态更新。26.厦航数据资产目录要求所有字段必须挂载业务属主,否则无法发布。27.Flink的KeyedState只能在RichFlatMapFunction中使用,不能在ProcessFunction中使用。28.Hive的ACID事务表必须分桶才能支持UPDATE。29.在Airflow中,若DAG设置catchup=False,则过去日期的DAGRun不会自动补跑。30.数据脱敏后的字段如果用于JOIN,必须保证同一原始值脱敏后仍具有一致性。四、简答题,(总共4题,每题5分)31.简述厦航数据仓库从ODS→DWD→DWS→ADS各层的主要职责与边界,并说明层间依赖的调度策略。32.当“航班实际起飞时间”字段在Kafka出现乱序迟到5分钟,请给出Flink基于事件时间且允许最大延迟10分钟的窗口方案,并说明如何更新下游MySQL结果表。33.概述厦航数据治理中“主数据”与“参考数据”的区别,并举例说明在航班运行主题下各自的管理流程。34.说明在数据湖Iceberg中如何实现“时间旅行”查询2025-05-2010:00:00的航班快照,并列出必要的配置参数与SQL示例。五、讨论题,(总共4题,每题5分)35.讨论厦航引入数据网格(DataMesh)架构的可行性,需涵盖领域所有权、自助平台、联邦治理、技术栈选型四方面,并给出三年演进路线图。36.若厦航计划将AOC实时决策系统从Lambda架构演进为Kappa架构,请评估对现有批处理链路、数据质量、运维成本、故障恢复的影响,并提出平滑迁移方案。37.面对“机票价格敏感数据”在多云环境下的合规流通,讨论采用隐私计算(联邦学习/可信执行环境/差分隐私)中的哪种技术路线最能兼顾业务时效与监管要求,并给出实施风险清单。38.厦航拟构建企业级DataFabric,请讨论元数据主动发现、数据虚拟化、智能编排三大核心能力在航班延误预测场景中的落地价值与潜在瓶颈。答案与解析一、单项选择题1.A2.A3.C4.C5.C6.B7.D8.D9.D10.B二、填空题11.ZSTD、Parquet12.StringIndexer、Pipeline.fit13.614.ODS、DWD15.POST、ods_flight16.'2025-06-01'、IFEXISTSPURGE17.B、418.AT_LEAST_ONCE、checkpointingwithexactly-oncemode19.64、STRING20.TRANSFORM、DWD→DWS三、判断题21×22√23×24×25×26√27×28√29√30√四、简答题31.ODS保存原始镜像,DWD做清洗编码脱敏,DWS面向主题汇总,ADS面向应用高度汇总;调度采用Airflow分层Sensor,ODS完成即触发DWD,逐层串行,允许小时级并发。32.Flink用EventTime+Watermark允许10分钟延迟,窗口触发后输出DelayResult,Sink用MySQLUpsert,主键(航班号+日期),迟到元素通过RetractStream更新结果。33.主数据是共享核心业务实体如飞机、航班,需唯一编码、全生命周期;参考数据是代码表如机场三字码、延误原因,需版本管理;主数据由AOC域负责,参考数据由标准委员会统一发布。34.设置Iceberg表属性'history.expire.max-snapshot-age-ms'保留足够快照;执行SELECTFROMflightTIMESTAMPASOF'2025-05-2010:00:00',需引擎支持IcebergCatalog并开启元数据缓存。五、讨论题35.三年路线:第一年识别域如航班、旅客、机务,建立领域团队与自助平台MVP;第二年推广联邦治理,统一SchemaRegistry与数据合约;第三年全面服务化,以Kafka+Flink+Iceberg为技术底座,实现域间产品化共享。36.迁移方案:将批处理逻辑改写为流,Kafka保留30天日志供重放;数据质量用FlinkCEP实时检测;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山西省万家寨水务企业招聘(人力资源类)复习题及答案
- 2026年山东省病历书写规范及病案质量管理培训题库及答案
- 剧毒化学品管控应急演练脚本
- 2025年湖北省潜江市高一历史下册期末考试试卷带答案(研优卷)
- 2026年四川省什邡市高三历史下册期末考试检测卷【考点提分】附答案
- 2025年甘肃省临夏市高三历史下册期末考试考试卷及完整答案(必刷)
- 2026届昭通市高考语文三模试卷含解析
- 2026年山西省永济市高二历史上册期末考试测试卷【综合题】附答案
- 2026年辽宁省盖州市高一历史上册期末考试测试卷附完整答案【考点梳理】
- 移动通信全网建设课程标准
- 酶在化工、轻工方面的应用
- 新噪声污染防治法培训课件
- 伦理审查表(一式三份)
- 祥康健康快车王晗老师讲座收集验方
- 电力服务收费标准附表
- 混凝土柱加固施工方案
- 香水加香工艺
- 企业形象CI设计-课件
- 生物化学课件:核酸的生物合成
- 机电控制与可编程序控制器课程设计
- YY/T 1423-2016幽门螺杆菌抗体检测试剂盒(胶体金法)
评论
0/150
提交评论