Kettle基础知识收集整理.doc_第1页
Kettle基础知识收集整理.doc_第2页
Kettle基础知识收集整理.doc_第3页
Kettle基础知识收集整理.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Kettle基础知识介绍1定义和作用Kettle是一个开源的ETL工具集,它允许你管理来自不同数据源的数据。Kettle通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 工作被描述成元数据形式。2. 应用范围使用Pentaho架构企业级商业智能平台时,可以使用Kettle作为ETL工具。3. 基础知识3.1 功能Kettle用来帮助你实现你的ETL 需要:抽取、转换、装载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。3.2 Kettle产品组成Kettle家族有四个产品,分别是Spoon、Pan、Chef、Kitchen。l Chef工作(job)设计工具 (GUI方式) l Kitchen工作(job)执行器 (命令行方式)l Spoon转换(transform)设计工具 (GUI方式)l Span转换(transform)执行器 (命令行方式)SPOON允许你通过图形界面来设计ETL转换过程(Transformation)。例如,从一个SAP系统抽取数据,并把这些数据存储到一个文件里的转换任务如下:PAN允许你批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台执行的程序,没有图形界面。CHEF允许你创建任务(JOB)。任务通过允许每个转换、任务、脚本等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换、任务、脚本等。任务将会被检查,看看是否正确运行了。(下面是一个chef的任务图)。KITCHEN允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。3.3 Kettle概念模型从上图可以看出,Kettle主要有两个主要功能模块:Transformation和Job,对应Kettle的两种脚本文件transformation(.ktr)和job(.kjb)。transformation 完成针对数据的基础转换,专注于数据加工本身,比如装卸数操作、数据编码转换;job 则完成整个工作流的控制,比如执行若干ETL转换,将加工后的文件借助SSH2传输出去等。通常,Job会包含若干ETL转换,并控制它们的执行,而且Job会以一定周期执行,比如每周二执行、每隔3小时执行等。3.3.1 Transformation支持多样化数据源类型支持特殊目标数据源(把数据写入Cube或者XML)支持多种查询语言支持的脚本(JS脚本、SQL脚本、正则表达式)支持渐变维度更新批量加载支持分区表和集群3.3.2 Job可以执行操作系统命令和操作判断文件是否存在执行JavaScript、SQL、Shell脚本支持安全FTP获取、上传文件删除远程文件支持SSH2上传下载4. 常见ETL工具的比较4.1 Kettle与IBM DataStaged的比较l 与Kettle相比,IBM DataStage过于笨重,无论是安装过程,还是运行时对机器物理资源的消耗。l 与Kettle Spoon相比,IBM DataStage内置的ETL设计器在功能上并未占据优势。比如,Spoon对ETL工件的开发、测试、调试、性能监控提供了端到端的解决方案l Kettle解决方案可以在同一台机器上完成。4.2 CloverETLCloverETL工具是开源的,CloverETL是提供给你一组API,用XML来定义ETL过程,同样支持JDBC数据源, CloverETL是开源的,但是它是没有图形界面的,它提供一个有图形界面的CloverGUI 来进行ETL的图形化开发过程,但是不是开源的,需要购买商业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论