数据中台数据开发工程师岗位招聘考试试卷及答案_第1页
数据中台数据开发工程师岗位招聘考试试卷及答案_第2页
数据中台数据开发工程师岗位招聘考试试卷及答案_第3页
数据中台数据开发工程师岗位招聘考试试卷及答案_第4页
数据中台数据开发工程师岗位招聘考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中台数据开发工程师岗位招聘考试试卷及答案数据中台数据开发工程师岗位招聘考试试卷一、填空题(10题,每题1分)1.数据仓库分层中,存储原始数据的层是______。2.SQL中计算平均值的聚合函数是______。3.ETL流程的三个核心步骤是抽取、转换和______。4.Hive中按时间维度划分存储目录的方式称为______。5.数据质量“无重复”对应的指标是______性。6.围绕事实表组织多维度表的数仓模型是______模型。7.Spark支持弹性分布式数据集的核心抽象是______。8.数据治理中确保数据符合业务规则的是______管控。9.常用元数据管理工具之一(举1例):______。10.记录数据从产生到消费链路的是______。二、单项选择题(10题,每题2分)1.以下不属于数仓分层的是?A.ODSB.DWDC.DWSD.DB2.Hive分桶基于什么划分数据?A.字段哈希值B.时间区间C.数据大小D.存储路径3.SQL窗口函数中计算累计求和的是?A.RANK()B.SUM()OVER()C.COUNT()D.AVG()4.数据中台核心能力不包括?A.数据共享B.数据服务C.数据存储D.业务决策支持5.SparkRDD特性不包括?A.不可变B.分区C.弹性D.可变6.ETL“抽取”的主要目的是?A.清洗数据B.加载目标库C.提取源系统数据D.转换格式7.星型与雪花模型的区别是?A.星型维度无冗余B.雪花维度有层级C.星型无事实表D.雪花无维度表8.数据质量“符合业务定义”属于?A.准确性B.完整性C.一致性D.合规性9.Hadoop生态中负责资源调度的是?A.HDFSB.YARNC.MapReduceD.Hive10.数据脱敏的主要目的是?A.提高查询速度B.保护隐私C.减少存储D.优化计算三、多项选择题(10题,每题2分,多选/少选不得分)1.数仓分层通常包含的层有?A.ODSB.DWDC.DWSD.ADS2.ETL核心步骤包括?A.抽取B.转换C.加载D.清洗3.数据质量监控维度有?A.准确性B.完整性C.一致性D.时效性4.Spark核心组件包括?A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib5.Hive优化方式有?A.分区B.分桶C.索引D.数据压缩6.数据中台建设目标包括?A.数据资产化B.服务化C.共享化D.智能化7.常用SQL窗口函数有?A.RANK()B.DENSE_RANK()C.ROW_NUMBER()D.SUM()8.数仓建模常用方法有?A.维度建模B.关系建模C.实体关系建模D.雪花建模9.数据治理内容包括?A.数据标准B.数据质量C.数据安全D.元数据管理10.元数据类型包括?A.技术元数据B.业务元数据C.操作元数据D.过程元数据四、判断题(10题,每题2分,√/×)1.ODS层数据完全不做处理,直接存储原始数据。()2.星型模型维度表无冗余,雪花模型有冗余。()3.SparkRDD是不可变的分布式数据集。()4.ETL中转换步骤比抽取更重要。()5.数据中台等同于传统数据仓库。()6.Hive默认支持事务操作。()7.SQL内连接返回两张表所有匹配记录。()8.数据质量“唯一性”指无重复数据。()9.SparkDataFrame是强类型数据集。()10.数据血缘记录数据全链路关系。()五、简答题(4题,每题5分)1.简述数据中台的核心价值。2.简述数仓分层的主要目的。3.简述ETL的完整流程。4.简述数据质量监控的常用指标。六、讨论题(2题,每题5分)1.数仓建设中如何解决数据冗余问题?2.数据中台出现数据延迟(如T+1变T+2),可能的原因及解决思路?---参考答案一、填空题答案1.ODS层(原始数据层)2.AVG()3.加载4.分区5.唯一6.星型7.RDD8.数据质量(规则)9.Atlas(DataHub、元数据平台等合理即可)10.数据血缘二、单项选择题答案1.D2.A3.B4.D5.D6.C7.B8.A9.B10.B三、多项选择题答案1.ABCD2.ABC3.ABCD4.ABCD5.ABCD6.ABC7.ABC8.AB9.ABCD10.AB四、判断题答案1.×2.×3.√4.×5.×6.×7.√8.√9.×10.√五、简答题答案1.核心价值:①沉淀数据资产,避免数据孤岛;②封装数据为可复用服务,降低业务调用成本;③支撑跨部门数据共享;④为分析/AI提供统一数据底座,提升决策效率。2.分层目的:①解耦业务与技术,减少变更影响;②提升数据复用性,避免重复开发;③优化查询性能(如聚合层降低计算量);④分层清洗保障质量;⑤清晰逻辑便于维护。3.ETL流程:①抽取:从源系统(库、日志)提取数据;②转换:清洗脏数据(去重、补全)、格式转换、聚合计算、脱敏;③加载:增量/全量加载到目标数仓(Hive、ClickHouse等)。4.常用指标:①准确性(符合业务定义);②完整性(字段无缺失);③一致性(跨系统一致);④唯一性(无重复);⑤时效性(按时产出);⑥合规性(符合安全规则)。六、讨论题答案1.解决冗余:①分层设计(DWD存明细、DWS存聚合,避免重复存明细);②统一维度表(如用户维度复用,避免事实表重复存用户信息);③用拉链表存储历史变化,替代全量复制;④数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论