ETL工具介绍解读课件_第1页
ETL工具介绍解读课件_第2页
ETL工具介绍解读课件_第3页
ETL工具介绍解读课件_第4页
ETL工具介绍解读课件_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL工具介绍

2023年7月23日

ETL工具介绍

2023年7月22目录目录ETL工具简介ETL分别是“Extract”、“Transform”、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤ETL包含了三方面,首先是“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。最后“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。ETL工具简介ETL分别是“Extract”、“TransETL工具功能ETL流程管理元数据管理数据质量管理维护的方便性定制开发功能的支持对平台的支持对数据源的支持数据转换功能ETL工具功能ETL流程管理源数据库目标数据库ETLDB层ETL处理层(通过PERL、PLSQL脚本、存储过程实现)ETL控制层作业配置、管理调度、触发控制Automation

ETL体系架构源数据库目标数据库ETLDB层ETL处理层(通过PERL、源数据库目标数据库ETLDB层ETL处理层(通过PERL、PLSQL脚本、存储过程实现)ETL控制层作业配置、管理调度、触发控制Automation

ETL体系架构源数据库目标数据库ETLDB层ETL处理层(通过PERL、Automation

ETL处理流程AutomationETL处理流程D:\ETL(主目录)|---\APP存放作业的作业脚本|---\DATA|------\complete存放已成功执行过的数据.以系统名称以及日期来建立子目录|------\fail|---------\bypass存放不须执行的档案.以系统名称以及日期来建立子目录|---------\corrupt存放大小不符合的档案.以系统名称以及日期来建立子目录|---------\duplicate存放重复接收的档案.以系统名称以及日期来建立子目录|---------\error存放执行作业过程中产生错误档案.以系统名称以及日期来建立子目录|---------\unknown存放未定义在ETLAutomation机制中的档案.以日期来建立子目录|------\message存放要发送讯息通知的控制文件|------\process存放正在执行中的作业所使用的数据文件及控制档|------\queue存放准备要执行的作业所使用的数据文件及控制档|------\receive用来接收各来源系统所传送来的数据文件及控制文件|---\LOG存放ETLAutomation系统程序及各作业在执行时所产生的记录档案|---\bin存放ETLAutomation系统程序的执行文件|---\etc存放ETLAutomation机制的一些设定档案|---\lock存放ETLAutomation系统程序及各作业在执行时所产生的lock档案|---\tmpAutomation

ETL目录结构D:\ETL(主目录)AutomationETL目录结构Automation

ETL并行多服务器设定AutomationETL并行多服务器设定Automation

ETL流程管理触发关系(JobStream)群组关系(JobGroup)依赖关系(JobDependency)AutomationETL流程管理触发关系(JobStAutomation

ETL-功能缺陷不支持订制功能只支持perl脚本没有数据质量管理等维护不方便没有元数据管理EAAutomationETL-功能缺陷不支持订制功能没有Kettle简介Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle简介Kettle是一款国外开源的etl工具,纯j

PDIETL工具分析-作业设计窗口WorkspaceOutputWindowPDIETL工具分析-作业设计窗口WorkspaceOuPDIETL工具分析-概念模型PDIETL工具分析-概念模型PDIETL工具分析-架构PDI是基于插件的架构,用户可根据自己的需要制作插件。从而满足工程需求PDIETL工具分析-架构PDI是基于插件的架构,用户可根PDIETL工具分析-基于“流”架构数据加工的过程如同河水里水的流动过程。并行加工数据动态添加或减少ETL执行引擎;宛如动态拓宽和收窄“河床”。性能优异PDIETL工具分析-基于“流”架构数据加工的过程如同河PDIETL工具分析-性能/扩展性Clustering(集群):multipleserversrunninginparallelPartitioning(数据分区):directingdataDatabasesharding(数据库水平分区):scalingthedatabasePDIETL工具分析-性能/扩展性Clustering(集PDIETL工具分析-易用性终端PDIETL服务器资源库/SVN终端数据仓库...作业持久化和版本控制对ETL作业的开发,调试,测试,

性能监控提供端到端的解决方案。部署ETL作业非常轻松PDIETL工具分析-易用性终端PDIETL服务器资源PDIETL工具-功能缺陷容错功能不完善可扩展性较差其他Etl流程管理不完善PDIETLPDIETL工具-功能缺陷容错功能不完善可扩展性较差其他EETL工具-项目要实现的目标源数据数据仓库ETL抽取

清洗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论