Kettle基本知识交流_第1页
Kettle基本知识交流_第2页
Kettle基本知识交流_第3页
Kettle基本知识交流_第4页
Kettle基本知识交流_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Kettle 培训,飞牛运营部商务智能 朱胜,Kettle 培训内容,Kettle 功能与产品介绍 Kettle 控件介绍 Kettle 案例演示 Kettle 调度,Kettle介绍,Kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。,P

2、entaho 产品线,Pantaho产品线 Reporting:可集成Jasper和BIRT Data Mining:Weka Analysis:Mondrian Dashboards: Data Integration:Kettle,Kettle 家族,Kettle 5.0家族目前包括几个产品: Spoon转换(transform)设计工具 (GUI方式) Pan转换(transform)执行器 (命令行方式) Kitchen工作(job)执行器 (命令行方式) Carte 基于Jetty的,监听Http请求 Encr 用户加密密码,Kettle 四大家族,Spoon允许你通过图形界面来设计

3、ETL转换过程(Transformation)和作业。例如,从一个SAP系统抽取数据,并把这些数据存储到一个文件里的转换任务如下: Pan允许批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台执行的程序,没有图形界面。 Kitchen允许批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。 Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。,Kettle 的安

4、装,要运行此工具你必须安装Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载 绿色免安装,解压即可用。 在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。,Kettle转化功能介绍 1,Kettle 中有两种脚本文件,transformation (.ktr)和 job(.kjb),transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 所有功能支持控件化,使用简单 支持

5、多样化数据源类型: 基本的文本文件 Access、Excel、XML、Property文件格式 MDX查询语言、 Cube文件、Streaming XML数据流 自动产生空记录或者行 从XBase类型文件(DBF)读取数据 关系型数据库 获取系统信息如文件名称、系统时间等,Kettle转化功能介绍 2,特殊目标数据源支持 把数据写入到Cube 把数据写入XML 支持多种查询 调用数据库存储过程 基本的数据库查询 判断表以及列、操作系统文件是否存在 从URL接收查询 使用Web服务查询信息 使用数据流中的值作为参数来执行一个数据库查询 流查询:从转换中其他流里查询值 转换功能 值映射、分组、去重

6、、拆分字段、行列转换 复制行,Kettle转化功能介绍,支持的脚本 JS脚本 SQL脚本 正则表达式 支持渐变维度更新 批量加载: Greenplum Bulk Loader Oracle Bulk Loader MSSQL Bulk Loader MYSQL Bulk Loader PostgreSQL Bulk Loader 支持分区表和集群,Kettle作业功能介绍 1,可以执行操作系统命令和操作: Ping 主机 写日志 发送邮件 从POP Server获取邮件并保存在本地 比较文件夹、文件 创建、复制、移动、删除、压缩文件 从HTTP获取或者上传文件 操作延迟等待,Kettle作业功

7、能介绍 2,判断文件是否存在 执行JavaScript、SQL、Shell脚本 支持安全FTP获取、上传文件 删除远程文件 支持SSH2上传下载,数据库连接类型和访问类型,支持的数据库连接类型,截图如下, 有些数据库类型需要完善jar包,以确保数据库能够正确连接,访问类型,数据库访问类型支持如下几种: JDBC OCI ODBC JNDI,Kettle实施步骤,双击运行 kettle 文件夹下的 Kettle 文件,出现 kettle 欢迎界面。 创建资料库(可省略) 创建数据库连接 创建转换 创建Jobs,进行流程化控制,Kettle案例,案例描述: 把文本文件中的格式化数据导入到oracl

8、e数据库的指定表中,打开Kettle 选择没有资料库,创建数据库连接,创建数据库连接,输入数据源连接名称,选择数据源类型和访问方式,输入服务器主机名和数据库名称,输入数据表空间和索引表空间名称,输入用户名和密码,测试数据库连接,数据源建立成功,右击转换,新建出现如下界面,创建转换,从左侧输入栏目中选择文本文件输入控件,拖拽到右侧工作空间中,从输出栏目拖拽表输出控件到左侧工作区,选中两个控件,在其中一个控件上右击,选择新建节点连接,选择起始步骤,双击文本文件输入控件,进行编辑,文本文件“内容”标签编辑,点击获取字段按钮,可自动获取字段名称,然后编辑相关属性,预览记录。,编辑输出表控件属性,然后点击绿色按钮,启动转换,保存转换,可以查看执行结果,可以加入执行SQL脚本,在核心对象中有很多控件可用来实现数据的ETL功能。,创建作业,从左侧通用栏目中拖拽两个控件,双击Transformation 1进行编辑,保存jobs后执行任务,Kettle 调度,利用Kitchen工具实现作业的调用 Kitchen.bat /file:D:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论