




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ETL工具介绍
2023年7月23日
ETL工具介绍
2023年7月22目录目录ETL工具简介ETL分别是“Extract”、“Transform”、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤ETL包含了三方面,首先是“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。最后“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。ETL工具简介ETL分别是“Extract”、“TransETL工具功能ETL流程管理元数据管理数据质量管理维护的方便性定制开发功能的支持对平台的支持对数据源的支持数据转换功能ETL工具功能ETL流程管理源数据库目标数据库ETLDB层ETL处理层(通过PERL、PLSQL脚本、存储过程实现)ETL控制层作业配置、管理调度、触发控制Automation
ETL体系架构源数据库目标数据库ETLDB层ETL处理层(通过PERL、源数据库目标数据库ETLDB层ETL处理层(通过PERL、PLSQL脚本、存储过程实现)ETL控制层作业配置、管理调度、触发控制Automation
ETL体系架构源数据库目标数据库ETLDB层ETL处理层(通过PERL、Automation
ETL处理流程AutomationETL处理流程D:\ETL(主目录)|---\APP存放作业的作业脚本|---\DATA|------\complete存放已成功执行过的数据.以系统名称以及日期来建立子目录|------\fail|---------\bypass存放不须执行的档案.以系统名称以及日期来建立子目录|---------\corrupt存放大小不符合的档案.以系统名称以及日期来建立子目录|---------\duplicate存放重复接收的档案.以系统名称以及日期来建立子目录|---------\error存放执行作业过程中产生错误档案.以系统名称以及日期来建立子目录|---------\unknown存放未定义在ETLAutomation机制中的档案.以日期来建立子目录|------\message存放要发送讯息通知的控制文件|------\process存放正在执行中的作业所使用的数据文件及控制档|------\queue存放准备要执行的作业所使用的数据文件及控制档|------\receive用来接收各来源系统所传送来的数据文件及控制文件|---\LOG存放ETLAutomation系统程序及各作业在执行时所产生的记录档案|---\bin存放ETLAutomation系统程序的执行文件|---\etc存放ETLAutomation机制的一些设定档案|---\lock存放ETLAutomation系统程序及各作业在执行时所产生的lock档案|---\tmpAutomation
ETL目录结构D:\ETL(主目录)AutomationETL目录结构Automation
ETL并行多服务器设定AutomationETL并行多服务器设定Automation
ETL流程管理触发关系(JobStream)群组关系(JobGroup)依赖关系(JobDependency)AutomationETL流程管理触发关系(JobStAutomation
ETL-功能缺陷不支持订制功能只支持perl脚本没有数据质量管理等维护不方便没有元数据管理EAAutomationETL-功能缺陷不支持订制功能没有Kettle简介Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle简介Kettle是一款国外开源的etl工具,纯j
PDIETL工具分析-作业设计窗口WorkspaceOutputWindowPDIETL工具分析-作业设计窗口WorkspaceOuPDIETL工具分析-概念模型PDIETL工具分析-概念模型PDIETL工具分析-架构PDI是基于插件的架构,用户可根据自己的需要制作插件。从而满足工程需求PDIETL工具分析-架构PDI是基于插件的架构,用户可根PDIETL工具分析-基于“流”架构数据加工的过程如同河水里水的流动过程。并行加工数据动态添加或减少ETL执行引擎;宛如动态拓宽和收窄“河床”。性能优异PDIETL工具分析-基于“流”架构数据加工的过程如同河PDIETL工具分析-性能/扩展性Clustering(集群):multipleserversrunninginparallelPartitioning(数据分区):directingdataDatabasesharding(数据库水平分区):scalingthedatabasePDIETL工具分析-性能/扩展性Clustering(集PDIETL工具分析-易用性终端PDIETL服务器资源库/SVN终端数据仓库...作业持久化和版本控制对ETL作业的开发,调试,测试,
性能监控提供端到端的解决方案。部署ETL作业非常轻松PDIETL工具分析-易用性终端PDIETL服务器资源PDIETL工具-功能缺陷容错功能不完善可扩展性较差其他Etl流程管理不完善PDIETLPDIETL工具-功能缺陷容错功能不完善可扩展性较差其他EETL工具-项目要实现的目标源数据数据仓库ETL抽取
清洗
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025乌兰察布市青年就业见习人员招聘299人笔试模拟试题及答案解析
- 2025年秋季高中石油工程材料研究院有限公司招聘(20人)笔试参考题库附答案解析
- 2025重庆渝贸通供应链管理有限责任公司招聘6人笔试备考试题及答案解析
- 2025四川广安市广安区文化广播电视和旅游局招募文化人才服务支持艰苦边远地区和基层一线专项工作者2人笔试备考试题及答案解析
- 2026中国船舶集团第七一五研究所校园招聘笔试参考题库附答案解析
- 2025年肿瘤内科肿瘤综合治疗方案设计模拟测试答案及解析
- 2025江西师范大学附属博文实验学校见习教师招聘1人笔试模拟试题及答案解析
- 湖北中医药大学2025年专项公开招聘专职辅导员12人笔试备考题库及答案解析
- 2025年急诊医学处理突发事件考核答案及解析
- 2025年心血管内科心律失常急救处理模拟测试卷答案及解析
- 2024年新高考Ⅰ卷英语真题(原卷+答案)
- 2025山东东营公安招录辅警392人考试参考试题及答案解析
- 2025四川宜宾市退役军人事务局招聘临聘人员2人考试参考题库及答案解析
- 高考语文 热点04 现代文阅读II之理论与文本互证类题(解析版)
- 预制混凝土检查井采购合同模板
- 外贸会计自学课件
- 2025年中小学《国庆节、中秋节》放假通知及安全提示
- 致敬 9.3:一场阅兵一部民族精神史诗
- (完整版)室外散水专项方案
- 中职高教版(2023)语文职业模块-第五单元:走近大国工匠(一)展示国家工程-了解工匠贡献【课件】
- 变压器主保护基本知识测试题
评论
0/150
提交评论