实时数仓建设工程师考试试卷及答案_第1页
实时数仓建设工程师考试试卷及答案_第2页
实时数仓建设工程师考试试卷及答案_第3页
实时数仓建设工程师考试试卷及答案_第4页
实时数仓建设工程师考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实时数仓建设工程师考试试卷及答案一、填空题(每题1分,共10分)1.实时数仓分层中存储原始数据的层是______。2.ApacheFlink的核心是______处理引擎。3.Kafka中存储消息的最小单元是______。4.实时计算窗口类型包括滚动、滑动和______窗口。5.MySQL增量同步常用工具是______。6.保证数据不丢不重的语义是______。7.DWD层(明细层)的作用是______。8.Flink常用的状态存储后端是______。9.ADS层输出通常用于______。10.事实表直接关联多维度表的模型是______。二、单项选择题(每题2分,共20分)1.属于实时流处理引擎的是?A.MapReduceB.FlinkC.HiveD.SparkSQL2.Kafka分区数设置核心原则是?A.越多越好B.与消费者并发匹配C.等于生产者数D.固定103.DWS层的主要作用是?A.存原始数据B.存明细C.存聚合指标D.存报表4.滑动窗口与滚动窗口的本质区别是?A.大小不同B.是否重叠C.是否有界D.计算方式5.不是Exactly-Once关键的是?A.CheckpointB.两阶段提交C.消息重试D.状态快照6.实时数仓常用列式存储是?A.HBaseB.ClickHouseC.RedisD.MySQL7.Canal的主要功能是?A.计算B.同步C.可视化D.存储8.实时数仓延迟要求一般是?A.<1sB.<1minC.<1hD.无要求9.属于实时核心指标的是?A.历史订单数B.实时在线人数C.月度销售额D.年度利润10.SparkStreaming的本质是?A.微批处理B.流处理C.批处理D.混合处理三、多项选择题(每题2分,共20分)1.实时计算引擎包括?A.FlinkB.SparkStreamingC.StormD.Hive2.Kafka核心组件有?A.BrokerB.TopicC.PartitionD.Producer3.实时数仓分层包含?A.ODSB.DWDC.DWSD.ADS4.Exactly-Once实现方式有?A.FlinkCheckpointB.两阶段提交C.幂等性D.定期重放5.实时存储系统有?A.HBaseB.ClickHouseC.RedisD.Kafka6.维度建模类型有?A.星型B.雪花C.星座D.网状7.实时数仓建设步骤有?A.采集B.分层处理C.指标计算D.可视化8.实时同步工具是?A.CanalB.DebeziumC.FlinkCDCD.Sqoop9.Flink支持的窗口类型有?A.滚动B.滑动C.会话D.全局10.ADS层输出场景有?A.DashboardB.APIC.离线报表D.告警四、判断题(每题2分,共20分)1.Flink是微批处理引擎。()2.Kafka分区越多性能越好。()3.ODS层需清洗原始数据。()4.滑动窗口步长可等于窗口大小。()5.Exactly-Once比At-Least-Once可靠。()6.实时数仓无需考虑一致性。()7.DWD层是聚合指标层。()8.Canal仅支持MySQL增量同步。()9.FlinkCheckpoint定期触发。()10.实时数仓延迟必须为0。()五、简答题(每题5分,共20分)1.简述实时数仓分层架构及各层作用。2.比较Flink与SparkStreaming的核心差异。3.如何实现实时数仓的Exactly-Once语义?4.实时数仓数据采集的常用方式及工具?六、讨论题(每题5分,共10分)1.实时数仓中如何平衡“低延迟”与“数据一致性”?2.实时数仓计算量过大时的优化策略?---答案部分一、填空题答案1.ODS层2.流3.Partition(分区)4.会话5.Canal6.Exactly-Once(精确一次)7.清洗转换原始数据为明细格式8.RocksDB9.业务报表/可视化10.星型模型二、单项选择题答案1.B2.B3.C4.B5.C6.B7.B8.A9.B10.A三、多项选择题答案1.ABC2.ABCD3.ABCD4.AB5.ABCD6.ABC7.ABCD8.ABC9.ABCD10.ABD四、判断题答案1.×2.×3.×4.√5.√6.×7.×8.×9.√10.×五、简答题答案1.分层架构含4层:①ODS:存原始数据,保持源端一致;②DWD:清洗转换为明细,去噪补全;③DWS:聚合核心指标(UV、GMV等);④ADS:输出报表/可视化。各层解耦,提升可维护性。2.核心差异:①处理模式:Flink是事件驱动流处理,SparkStreaming是微批;②延迟:Flink<1s,SparkStreaming>1s;③状态管理:Flink原生支持快照与Exactly-Once,Spark需额外配置;④窗口:Flink支持会话窗口等灵活类型。3.实现步骤:①FlinkCheckpoint定期快照状态/偏移量;②两阶段提交保证计算与Sink原子性;③消息幂等性避免重复;④事务Sink(如Kafka事务)确保不丢不重。4.采集方式:①CDC(捕获数据库变更);②全量+增量;③日志采集。工具:CDC(Canal、Debezium、FlinkCDC)、日志(Flume、Logstash)、消息队列(Kafka)。六、讨论题答案1.平衡策略:①选合适引擎(Flink低延迟,SparkStreaming适合次优场景);②优化窗口大小(小窗口降延迟,控制状态压力);③轻量级事务(如Kafka事务减少开销);④异步Sink(计算与写入异步);⑤监控调优(延迟过高时临时放宽一致性)。2.优化策略:①引擎调优

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论