版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库工程师岗位招聘考试试卷及答案数据仓库工程师岗位招聘考试试卷一、填空题(10题,每题1分)1.数据仓库的核心特征包括面向主题、集成性、非易失性和______。2.ETL过程中,从源系统抽取数据的阶段称为______。3.星型模型中,围绕中心事实表的是______表。4.Hive中用于定义表结构的语句是______。5.维度建模的四个步骤是选择维度、定义粒度、确定事实和______。6.数据仓库中,用于分析历史数据趋势的常用聚合函数是______(举1例)。7.Flink中用于处理实时数据流的核心组件是______。8.雪花模型是星型模型的扩展,维度表之间存在______关系。9.数仓分层中,ODS层的全称是______。10.数据质量的核心指标包括准确性、完整性、一致性和______。二、单项选择题(10题,每题2分)1.以下哪项不属于数据仓库的特征?A.面向主题B.实时事务处理C.非易失性D.集成性2.ETL中的“L”代表什么?A.LoadB.LinkC.LayerD.List3.星型模型与雪花模型的主要区别是?A.事实表数量B.维度表层级C.分区方式D.存储引擎4.Hive中,哪种表适合存储半结构化数据(如JSON)?A.外部表B.内部表C.分区表D.分桶表5.以下哪种数仓模型属于维度建模?A.第三范式B.星型模型C.关系模型D.实体-关系模型6.SparkSQL中,用于执行SQL查询的组件是?A.SparkCoreB.SparkStreamingC.SparkSQLD.SparkMLlib7.数仓分层中,最贴近业务报表的分析层是?A.ODSB.DWDC.DWSD.ADS8.Flink的窗口类型中,基于固定时间间隔的窗口是?A.TumblingWindowB.SlidingWindowC.SessionWindowD.GlobalWindow9.以下哪项属于数据质量问题?A.数据重复B.数据类型正确C.数据及时更新D.数据完整10.湖仓一体的核心优势是?A.只支持结构化数据B.无法实时处理C.统一存储与计算D.成本更高三、多项选择题(10题,每题2分)1.数据仓库的常见分层包括?A.ODSB.DWDC.DWSD.ADS2.以下属于ETL工具的是?A.TalendB.InformaticaC.SparkD.Flink3.维度建模的事实表类型包括?A.事务事实表B.周期快照事实表C.累积快照事实表D.维度事实表4.Hive的常用存储格式包括?A.ORCB.ParquetC.CSVD.JSON5.数据仓库与数据库的区别包括?A.用途(分析vs事务)B.数据模型(维度vs关系)C.实时性(低vs高)D.数据量(大vs小)6.Spark的核心组件包括?A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib7.湖仓一体的关键技术包括?A.统一元数据B.统一计算引擎C.分层存储D.实时处理8.数据质量控制方法包括?A.数据清洗B.数据校验C.数据监控D.数据归档9.星型模型的特点包括?A.事实表单一B.维度表扁平C.查询性能高D.存储冗余大10.以下属于OLAP操作的是?A.切片B.切块C.钻取D.旋转四、判断题(10题,每题2分)1.数据仓库支持高频实时事务处理。()2.ETL的转换阶段负责清洗、格式转换等数据加工。()3.雪花模型的查询性能比星型模型高。()4.Hive内部表删除时会同步删除数据文件。()5.维度建模严格遵循第三范式。()6.SparkStreaming和Flink均支持实时数据流处理。()7.ODS层存储的是已清洗的结构化数据。()8.湖仓一体可同时处理结构化和非结构化数据。()9.数据质量的“及时性”指数据在业务需求时间内可用。()10.事实表存储的是维度属性信息。()五、简答题(4题,每题5分)1.简述数据仓库分层的核心目的。2.星型模型与雪花模型的主要差异是什么?3.简述ETL三个核心阶段的作用。4.什么是湖仓一体?它解决了哪些传统数仓的问题?六、讨论题(2题,每题5分)1.设计电商场景下的数仓分层架构,说明各层作用及数据流转逻辑。2.如何建立数据仓库的数据质量保障体系?---参考答案一、填空题1.时变性2.抽取(Extract)3.维度4.CREATETABLE5.存储维度属性6.SUM(或COUNT、AVG等)7.DataStreamAPI8.层级(父子)9.操作数据存储(OperationalDataStore)10.及时性二、单项选择题1.B2.A3.B4.A5.B6.C7.D8.A9.A10.C三、多项选择题1.ABCD2.ABCD3.ABC4.ABCD5.ABCD6.ABCD7.ABCD8.ABC9.ABCD10.ABCD四、判断题1.×2.√3.×4.√5.×6.√7.×8.√9.√10.×五、简答题1.分层目的:①解耦业务与技术,降低耦合度;②提升数据复用性,避免重复开发;③分层清洗加工,保障数据质量;④优化查询性能,适配不同分析场景;⑤清晰数据流转,便于管理维护。2.差异:星型模型中心是事实表,维度表直接关联且无层级,查询性能高但存储冗余;雪花模型维度表存在层级(如地区→省份→城市),存储冗余小但查询需多表join,性能稍低。3.ETL阶段:①抽取:从源系统提取原始数据;②转换:清洗(去重、补全)、转换(格式/类型)、整合(多源关联);③加载:将加工后的数据写入目标数仓/湖。转换是核心环节。4.湖仓一体:整合数据湖(存储原始多源数据)与数据仓库(结构化分析)的架构。解决问题:①避免湖仓数据孤岛;②统一计算引擎,支持多数据类型分析;③提升数据流转效率,无需多次转换;④支持实时+离线混合处理。六、讨论题1.电商数仓分层:①ODS层:存储原始数据(订单、用户、商品日志等),轻度清洗;②DWD层(明细):按业务域拆分(订单/用户明细),原子粒度;③DWS层(汇总):按主题汇总(日订单/用户行为),日/周粒度;④ADS层(应用):面向业务报表(销售额/留存),支撑业务分析。流转:ODS→DWD(清洗)→DWS(汇总)→ADS(报表),各层解耦复用。2.质量保障体系:①事
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广西崇左凭祥市应急管理局编外工作人员招聘2人备考题库带答案详解(培优a卷)
- 2026江西中材科技(萍乡)风电叶片有限公司招聘24人备考题库含答案详解(突破训练)
- 2026福建三明将乐县事业单位招聘工作人员42人备考题库及答案详解【网校专用】
- 2026重庆市永川区永昌街道卧龙凼社区招聘全日制公益性岗位1人备考题库附参考答案详解(培优b卷)
- 2026陕西西安交通大学教务处文员招聘1人备考题库附参考答案详解(能力提升)
- 2026江西南昌市劳动保障事务代理中心招聘劳务派遣人员2人备考题库及答案详解【夺冠】
- 人行两综合两管理制度(3篇)
- 2026河南郑州同安中医骨伤科医院招聘备考题库附参考答案详解(巩固)
- 华为教堂营销方案(3篇)
- 国家何时萌生海关管理制度(3篇)
- 2026年宁夏财经职业技术学院单招职业技能测试题库及参考答案详解1套
- 2026春新版二年级下册道德与法治全册教案教学设计(表格式)
- 鸡场卫生防疫方案制度
- 2026年度大学生云南西部计划考试参考试题及答案
- 中兴新云行测题库
- 无锡市锡山区2025年网格员考试题库及答案
- 雨课堂学堂在线学堂云《科学研究方法与论文写作(复大)》单元测试考核答案
- 管理干部胜任力
- 2025年信用报告征信报告详版个人版模板样板(可编辑)
- 【2025新教材】教科版六年级科学下册全册教案【含反思】
- 2025年贵州省高考生物试卷真题(含答案及解析)
评论
0/150
提交评论