ETL 工程师岗位招聘考试试卷及答案_第1页
ETL 工程师岗位招聘考试试卷及答案_第2页
ETL 工程师岗位招聘考试试卷及答案_第3页
ETL 工程师岗位招聘考试试卷及答案_第4页
ETL 工程师岗位招聘考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL工程师岗位招聘考试试卷及答案一、填空题(共10题,每题1分)1.ETL是Extract、Transform、______2.常用开源ETL工具之一是______(如Talend)3.数据抽取分为全量抽取和______抽取4.数据转换的常见操作包括清洗、______、聚合5.数据加载分为全量加载和______加载6.ETL中处理脏数据的常用方法是______(如隔离)7.Spark中用于ETL的核心组件是______8.数据仓库三层架构包括ODS、DW和______9.数据清洗的主要目的是______(保证数据质量)10.用于ETL任务调度的工具之一是______(如Airflow)二、单项选择题(共10题,每题2分)1.以下不属于ETL核心步骤的是?A.ExtractB.TransformC.LoadD.Analyze2.全量抽取适用于哪种场景?A.数据量小且更新少B.数据量大且更新频繁C.仅增量更新D.实时数据3.以下属于商业ETL工具的是?A.TalendB.InformaticaC.ApacheNiFiD.Flume4.数据转换中“去重”属于哪种操作?A.清洗B.整合C.转换D.加载5.增量加载的主要优势是?A.数据完整B.效率高C.无需历史数据D.实时性强6.SparkETL的核心API是?A.SparkStreamingB.SparkSQLC.SparkMLlibD.SparkGraphX7.数据映射主要发生在ETL的哪个步骤?A.ExtractB.TransformC.LoadD.调度8.以下不属于脏数据的是?A.缺失值B.重复值C.有效格式数据D.异常值9.用于实时ETL的工具是?A.AirflowB.ApacheKafkaC.CronD.Shell10.数据仓库ODS层的作用是?A.存储明细数据B.存储汇总数据C.存储分析数据D.存储元数据三、多项选择题(共10题,每题2分)1.ETL核心步骤包括()A.ExtractB.TransformC.LoadD.Analyze2.常用ETL工具包括()A.InformaticaB.TalendC.ApacheNiFiD.Flume3.数据转换操作有()A.清洗B.聚合C.映射D.加载4.增量抽取方法有()A.时间戳B.日志捕获C.全量比对D.手动抽取5.数据加载类型有()A.全量加载B.增量加载C.实时加载D.批量加载6.脏数据处理方式有()A.丢弃B.修正C.隔离D.忽略7.SparkETL常用API是()A.DataFrameB.DatasetC.RDDD.SparkCore8.数据仓库三层架构包括()A.ODSB.DWC.DMD.OLTP9.ETL调度工具包括()A.AirflowB.AzkabanC.CronD.Shell10.实时ETL特点有()A.低延迟B.高吞吐量C.批量处理D.实时响应四、判断题(共10题,每题2分)1.ETL仅用于数据仓库建设(×)2.全量抽取比增量抽取效率高(×)3.Informatica是开源ETL工具(×)4.聚合操作会减少数据量(√)5.脏数据必须全部丢弃(×)6.SparkSQL可用于ETL转换(√)7.增量加载无需处理历史数据(×)8.ODS层存储汇总数据(×)9.Airflow可调度ETL任务(√)10.实时ETL适用于高实时场景(√)五、简答题(共4题,每题5分)1.简述ETL核心流程及各步骤作用答案:ETL含抽取(Extract)、转换(Transform)、加载(Load)三步。抽取:从源系统(数据库、文件等)提取数据;转换:清洗(去重/补缺失)、整合(多源合并)、转换(格式映射)、聚合(统计);加载:将合规数据存入目标系统(数据仓库)。各步骤协同保障数据从源到目标的可靠传输与质量。2.全量抽取与增量抽取的区别及适用场景答案:全量抽取每次取源系统所有数据,增量仅取新增/变更数据。区别:全量数据完整但效率低,增量效率高但需处理变更。适用:全量用于数据量小、更新少的场景;增量用于数据量大、更新频繁的场景,减少重复处理。3.什么是脏数据?ETL中如何处理?答案:脏数据是不符合规范的数据(缺失值、重复值、异常值、格式错误等)。处理方式:①修正(补缺失、纠正错误);②丢弃(删除无效数据);③隔离(存脏数据区后续分析);④忽略(标记后跟踪)。4.SparkETL的核心组件及优势答案:核心组件是SparkSQL(DataFrame/DatasetAPI)、SparkStreaming(实时)。优势:①分布式处理支持大数据量;②内存计算效率高;③统一API简化开发;④支持多数据源(HDFS、Kafka等);⑤可集成Spark其他组件(MLlib等)。六、讨论题(共2题,每题5分)1.实时ETL与离线ETL的差异及适用场景答案:差异:实时ETL低延迟(秒/毫秒级)、处理流式数据(Kafka)、高吞吐量;离线ETL批量处理(T+1)、延迟高、处理静态数据。适用:实时ETL用于实时监控(用户行为)、实时报表、欺诈检测;离线ETL用于历史数据汇总(日/周报表)、用户画像,对实时性要求低的场景。2.ETL任务调度常见问题及解决方案答案:常见问题:①任务依赖错误(前置未完成执行后续);②任务失败未重试;③资源竞争;④异常未告警。解决方案:①用Airflow/Azkaban定义依赖;②配置重试机制(次数/间隔);③YARN队列隔离资源;④集成Prometheus+Grafana监控,异常发邮件/短信告警。答案汇总一、填空题1.Load2.Talend(或ApacheNiFi等)3.增量4.整合(或映射)5.增量6.隔离(或修正等)7.SparkSQL8.DM9.保证数据质量10.Airflow(或Azkaban等)二、单项选择题1.D2.A3.B4.A5.B6.B7.B8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论