ETL 开发工程师考试试卷及答案_第1页
ETL 开发工程师考试试卷及答案_第2页
ETL 开发工程师考试试卷及答案_第3页
ETL 开发工程师考试试卷及答案_第4页
ETL 开发工程师考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL开发工程师考试试卷及答案一、填空题(共10题,每题1分)1.ETL过程中,负责从源系统提取数据的阶段是______。2.InformaticaPowerCenter中存储元数据的组件是______。3.数据转换中合并多列为一列的操作称为______。4.ETL工具中执行映射任务的核心组件是______。5.维度建模中最常用的维度类型是______维度。6.数据加载中追加新数据到目标表的方式是______加载。7.TalendOpenStudio中处理文件输入的组件前缀是______。8.ETL性能优化中减少数据传输量的方法是______过滤。9.检查数据是否符合规则的操作是______校验。10.DataStage中存储作业设计的容器是______。答案:1.抽取2.Repository(知识库)3.拼接4.工作流(Workflow)5.缓慢变化6.追加7.tFile8.源端9.数据10.项目(Project)二、单项选择题(共10题,每题2分)1.以下属于开源ETL工具的是?A.InformaticaB.TalendOpenStudioC.DataStageD.ODI2.ETL的“L”代表?A.LoadB.LogicC.LinkD.Layer3.保留历史版本的缓慢变化维度类型是?A.Type1B.Type2C.Type3D.Type44.属于数据转换操作的是?A.读取CSVB.写入数据库C.去重D.连接源系统5.Informatica中映射的最小执行单元是?A.工作流B.会话(Session)C.任务D.转换6.覆盖目标表所有数据的加载方式是?A.追加B.覆盖C.增量D.合并7.属于数据质量问题的是?A.数据重复B.数据加密C.压缩D.备份8.Talend中连接数据库的组件前缀是?A.tDBB.tFileC.tFlowD.tJob9.ETL性能优化有效方法不包括?A.源端过滤B.并行处理C.增大数据块D.减少连接数10.事实表存储的是?A.维度属性B.度量值C.元数据D.源信息答案:1.B2.A3.B4.C5.B6.B7.A8.A9.D10.B三、多项选择题(共10题,每题2分)1.ETL核心阶段包括?A.抽取B.转换C.加载D.清洗2.常见ETL工具包括?A.InformaticaB.TalendC.DataStageD.MySQL3.缓慢变化维度类型包括?A.Type1B.Type2C.Type3D.Type54.数据转换操作包括?A.拼接B.去重C.过滤D.加密5.ETL性能优化方法包括?A.源端过滤B.并行处理C.索引优化D.压缩6.数据质量维度包括?A.准确性B.完整性C.一致性D.及时性7.Informatica核心组件包括?A.RepositoryB.IntegrationServiceC.DataServiceD.Designer8.Talend特点包括?A.开源B.可视化拖拽C.多数据源D.仅Windows9.数据加载方式包括?A.全量B.增量C.追加D.覆盖10.维度建模核心表包括?A.事实表B.维度表C.元数据表D.源表答案:1.ABC2.ABC3.ABC4.ABCD5.ABCD6.ABCD7.ABD8.ABC9.ABCD10.AB四、判断题(共10题,每题2分)1.ETL转换阶段仅处理格式转换。()2.InformaticaRepository存储所有元数据。()3.Type1缓慢变化维度覆盖旧数据。()4.Talend是商业闭源工具。()5.追加加载会删除原有数据。()6.维度表存储度量值。()7.源端过滤减少数据传输量。()8.DataStage是IBM的ETL工具。()9.数据质量校验是可选步骤。()10.工作流是ETL任务执行单元。()答案:1.错2.对3.对4.错5.错6.错7.对8.对9.错10.对五、简答题(共4题,每题5分)1.简述ETL三个核心阶段及任务。答案:ETL分为抽取、转换、加载三阶段。抽取阶段从源系统(数据库、文件等)提取数据,支持全量/增量抽取;转换阶段清洗(去重、补全)、转换(格式调整、聚合)、整合多源数据,确保符合目标要求;加载阶段将数据写入目标(数据仓库/湖),含全量覆盖、增量追加等方式,保证加载效率与完整性。2.什么是Type2缓慢变化维度?答案:Type2是保留历史版本的维度类型。当维度属性(如客户地址)变化时,不覆盖原记录,而是新增一条记录:包含新属性值、生效日期(StartDate),原记录设失效日期(EndDate),维度键唯一。此方式完整保留历史数据,支持时间维度分析,但增加表数据量。3.Informatica核心组件及作用?答案:核心组件包括:Repository(存储元数据)、Designer(设计映射/源目标)、WorkflowManager(设计工作流/会话)、IntegrationService(执行ETL任务)、WorkflowMonitor(监控执行状态/日志)。4.ETL性能优化常用方法?答案:①源端过滤:在源系统过滤无效数据;②转换优化:合并冗余操作、并行处理;③加载优化:批量插入、避免逐行写入;④存储优化:加载后建索引、分区存储;⑤资源优化:调整内存分配、分布式计算。六、讨论题(共2题,每题5分)1.全量加载与增量加载的适用场景及优缺点?答案:全量加载适用于小数据量、低变化场景(如月度维度表),优点是简单、一致性高;缺点是大数据量时加载慢、覆盖旧数据。增量加载适用于大数据量、高变化场景(如每日事实表),优点是仅加载变化数据、速度快;缺点是实现复杂(需增量标识)、易数据不一致。实际常结合:维度表用全量+SCD,事实表用增量。2.如何在ETL中保障数据质量?答案:①

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论