




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Kettle 基础培训,整理:小白、玻璃杯,,Agenda,Kettle特点 Kettle基础知识 Kettle开发流程 Kettle组件介绍 案例介绍,什么是Kettle,Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。,相关知识链接,kettle的官网是 /projects/data-integration/ 目前常用的版本有5.3,5.2 5.1以及4.4,4.3等,不推荐再以前的版本,已经过于陈旧。 开发、使用者如何选择版本呢? 5.0以后的版本加入了不少新的控件,也对已有功能做了一定优化,根据群内统计来看目前使用4.4版的较多,5.1、5.2也有不少人用,5.3版根据某群友未经证实的经验还有一定问题。,Kettle特点kettle与Infomatica比较,总结: kettle配置简单,抽取效率比较高,可以进行第三方修改,工具中的控件能够实现数据抽取的大部分需求。,Kettle基础知识kettle家族,Kettle家族目前包括几个产品: Spoon转换(transform)设计工具 (GUI方式) Pan转换(transform)执行器 (命令行方式) Kitchen工作(job)执行器 (命令行方式) Carte 基于Jetty的,监听Http请求 Encr 用户加密密码,Kettle基础知识kettle家族,Spoon允许你通过图形界面来设计ETL转换过程(Transformation)和作业(Job)。例如,从一个SAP系统抽取数据,并把这些数据存储到一个文件里。 Pan允许批量运行由Spoon设计的ETL转换(例如使用时间调度器)。 Pan是一个后台执行的程序,没有图形界面。 Kitchen允许批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。 Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。,Kettle基础知识kettle的安装,要运行此工具你必须安装Sun 公司的JAVA 运行环境1.4 或者更高版本。 绿色免安装,解压即可用。 在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。,Kettle开发流程,双击运行 kettle 目录下的spoon.bat,出现 kettle 欢迎界面。 创建资料库(可省略)。 创建数据库连接。 创建转换。 创建Jobs,进行流程化控制。,Kettle控件介绍,从关系型数据库中获取源数据。 用于数据持久化,将数据加载到关系型数据库中。 从文本文件中获取源数据。 将数据写入文本文件中,如果路径下无此文件,kettle会 自动建立。,Kettle控件介绍,从MongoDB中获取源数据。 用于数据持久化,将数据加载到MongoDB中。 均用于从XML文件获取数据,只是解析方式不 同,一般情况下均采用第二个控件。 将数据写入XML文件中,如果路径下无此文件,kettle会自动建立。,Kettle组件介绍,删除指定表匹配条件的数据操作。 更新指定表指定条件的数据 数据网格,能够创建指定格式的网格数据。 获取系统信息,包括系统中的时间、日期、JOB转换信息 能够读取json格式数据,输出成标准流字段 获得一个随机值,Kettle组件介绍,增加常量,可以选择常量的数据类型 增加序列,可指定步长 计算器,可以做数据加减乘除和日期处理(有小bug) 拼接数据,可指定分隔符 替换字段中的指定字符 字段选择,移除以及格式化,Kettle组件介绍,列转行 行转列,先group by再进行转换 将一个字段的值赋值给另一个字段 拆分字段成行,根据指定分隔符将一行数据拆分成多行 拆分字段,将一个字段拆分成多个字段 字符串处理,其中包括trim、大小写转换、特殊字符转换 比如换行符、制表符等,Kettle组件介绍,字符串剪切,可以指定从第几个字符开始、结束 去重,可根据某个字段进行去重 值映射,如cd值可以映射成:成都 如果字段为空,则赋予什么值。如ID为空则补零 发送邮件,此step对代码监控有重大意义 将流中的指定字段数据值打印到日志中,Kettle组件介绍,筛选字段中的满足条件的数据流 执行SQL脚本(PS:在转换中最先执行) 执行JS脚本 执行正则表达式 调用存储过程 检查字段是否存在,Kettle组件介绍,数据库连接,用户异构数据库关联限制条件查询,注意索引 数据库查询,跟数据库连接接近,只是不可以限制条件 从HTTP接口中获取数据 从web services 接口中获取数据(有bug) 关联数据库,注意使用之前要对关联字段进行排序 维度查询更新,多用于实现缓慢变化维,Kettle组件介绍,字段检查,如设定单笔订单金额不能超过10W等 取前一条数据或者后一条数据,一般用于环比、同比 分组,group by需要SORT,memory不需要 从Hbase中查询数据 获取配置文件中参数或者数据流中的参数,赋值给字段 将字段设置成变量,案例介绍(1),目标:将源数据进行清洗后输出至文本文件。 1、表输入控件A,抽取订单信息; 2、B的转换,对抽取出的数据进行轻度清洗; 3、清洗之后的脏数据放到F的error文件中,其中E为字段合并控件,即Contact; 有效数据放到D中的文本中,提供给后面的转换使用。,案例介绍(2),目标:将系统时间格式化为目标格式日期 1、获取系统时间信息(控件A); 2、获取配置文件参数(控件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025监理工程师高分题库(模拟题)附答案详解
- 2024安全员考试考前冲刺练习题含完整答案详解【夺冠系列】
- 2025年计算机一级模拟试题含完整答案详解【典优】
- 2024-2025学年度自考专业(公共关系)综合提升测试卷带答案详解(夺分金卷)
- 2025福建晋园发展集团有限责任公司权属子公司招聘7人笔试备考题库附答案详解(a卷)
- 2024-2025学年度反射疗法师3级考试黑钻押题(达标题)附答案详解
- 2024年自考专业(计算机信息管理)试卷附参考答案详解【培优B卷】
- 2023年度初级软考试卷及参考答案详解【培优B卷】
- 2025执业药师试卷审定版附答案详解
- 自考专业(人力资源管理)考前冲刺测试卷及答案详解【夺冠系列】
- GB/T 21063.4-2007政务信息资源目录体系第4部分:政务信息资源分类
- 机修车间岗位廉洁风险点及防范措施表
- 全新版尹定邦设计学概论1课件
- 牙及牙槽外科
- 文物建筑保护修缮专项方案
- 万用表 钳形表 摇表的使用课件
- 63T折弯机使用说明书
- 170位真实有效投资人邮箱
- 工程力学ppt课件(完整版)
- 《区域经济学》讲义(1)课件
- 船模制作教程(课堂PPT)课件(PPT 85页)
评论
0/150
提交评论