




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Kettle基础培训 Agenda Kettle特点Kettle基础知识Kettle开发流程Kettle组件介绍案例介绍 2 什么是Kettle Kettle是一款国外开源的ETL工具 纯java编写 可以在Window Linux Unix上运行 数据抽取高效稳定 Kettle中文名称叫水壶 该项目的主程序员MATT希望把各种数据放到一个壶里 然后以一种指定的格式流出 3 相关知识链接 kettle的官网是 4 Kettle特点 kettle与Infomatica比较 总结 kettle配置简单 抽取效率比较高 可以进行第三方修改 工具中的控件能够实现数据抽取的大部分需求 5 Kettle基础知识 kettle家族 Kettle家族目前包括几个产品 Spoon 转换 transform 设计工具 GUI方式 Pan 转换 transform 执行器 命令行方式 Kitchen 工作 job 执行器 命令行方式 Carte 基于Jetty的 监听Http请求Encr 用户加密密码 6 Kettle基础知识 kettle家族 Spoon允许你通过图形界面来设计ETL转换过程 Transformation 和作业 Job 例如 从一个SAP系统抽取数据 并把这些数据存储到一个文件里 Pan允许批量运行由Spoon设计的ETL转换 例如使用时间调度器 Pan是一个后台执行的程序 没有图形界面 Kitchen允许批量使用由Chef设计的任务 例如使用一个时间调度器 KITCHEN是一个后台运行程序 Job和Transformation的差别 Transformation专注于数据的ETL 而Job的范围比较广 可以是Transformation 也可以是Mail SQL Shell FTP等 甚至可以是另外一个Job 7 Kettle基础知识 kettle的安装 要运行此工具你必须安装Sun公司的JAVA运行环境1 4或者更高版本 绿色免安装 解压即可用 在不同的平台上运行Spoon所支持的脚本 Spoon bat 在windows平台运行Spoon Spoon sh 在Linux AppleOSX Solaris平台运行Spoon 8 Kettle开发流程 双击运行kettle目录下的spoon bat 出现kettle欢迎界面 创建资料库 可省略 创建数据库连接 创建转换 创建Jobs 进行流程化控制 9 Kettle控件介绍 从关系型数据库中获取源数据 用于数据持久化 将数据加载到关系型数据库中 从文本文件中获取源数据 将数据写入文本文件中 如果路径下无此文件 kettle会自动建立 10 Kettle控件介绍 从MongoDB中获取源数据 用于数据持久化 将数据加载到MongoDB中 均用于从XML文件获取数据 只是解析方式不同 一般情况下均采用第二个控件 将数据写入XML文件中 如果路径下无此文件 kettle会自动建立 11 Kettle组件介绍 删除指定表匹配条件的数据操作 更新指定表指定条件的数据数据网格 能够创建指定格式的网格数据 获取系统信息 包括系统中的时间 日期 JOB转换信息能够读取json格式数据 输出成标准流字段获得一个随机值 12 Kettle组件介绍 增加常量 可以选择常量的数据类型增加序列 可指定步长计算器 可以做数据加减乘除和日期处理 有小bug 拼接数据 可指定分隔符替换字段中的指定字符字段选择 移除以及格式化 13 Kettle组件介绍 列转行行转列 先groupby再进行转换将一个字段的值赋值给另一个字段拆分字段成行 根据指定分隔符将一行数据拆分成多行拆分字段 将一个字段拆分成多个字段字符串处理 其中包括trim 大小写转换 特殊字符转换比如换行符 制表符等 14 Kettle组件介绍 字符串剪切 可以指定从第几个字符开始 结束去重 可根据某个字段进行去重值映射 如cd值可以映射成 成都如果字段为空 则赋予什么值 如ID为空则补零发送邮件 此step对代码监控有重大意义将流中的指定字段数据值打印到日志中 15 Kettle组件介绍 筛选字段中的满足条件的数据流执行SQL脚本 PS 在转换中最先执行 执行JS脚本执行正则表达式调用存储过程检查字段是否存在 16 Kettle组件介绍 数据库连接 用户异构数据库关联限制条件查询 注意索引数据库查询 跟数据库连接接近 只是不可以限制条件从HTTP接口中获取数据从webservices接口中获取数据 有bug 关联数据库 注意使用之前要对关联字段进行排序维度查询更新 多用于实现缓慢变化维 17 Kettle组件介绍 字段检查 如设定单笔订单金额不能超过10W等取前一条数据或者后一条数据 一般用于环比 同比分组 groupby需要SORT memory不需要从Hbase中查询数据获取配置文件中参数或者数据流中的参数 赋值给字段将字段设置成变量 18 案例介绍 1 目标 将源数据进行清洗后输出至文本文件 1 表输入控件A 抽取订单信息 2 B的转换 对抽取出的数据进行轻度清洗 3 清洗之后的脏数据放到F的error文件中 其中E为字段合并控件 即Contact 有效数据放到D中的文本中 提供给后面的转换使用 19 案例介绍 2 目标 将系统时间格式化为目标格式日期1 获取系统时间信息 控件A 2 获取配置文件参数 控件B 3 再使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福建省石狮市部分公办学校招聘编制内教师61人考前自测高频考点模拟试题及答案详解(全优)
- 2025年台州湾新区卫生事业单位公开招聘卫技人员2人模拟试卷附答案详解(黄金题型)
- 2025年泉州永春县部分公办学校专项招聘编制内新任教师(二)模拟试卷及参考答案详解1套
- 2025年甘肃省庆阳市镇原县第二批城镇公益性岗位83人考前自测高频考点模拟试题及参考答案详解一套
- 2025年甘肃省兰州市肺科医院招聘工作人员14人模拟试卷及答案详解(夺冠)
- 2025年宿州市人才集团有限公司招募就业见习人员7人考前自测高频考点模拟试题带答案详解
- 2025年度宜昌市中心人民医院公开招录29名专业技术人员(二)考前自测高频考点模拟试题及答案详解(历年真题)
- 地铁司机个人工作总结
- 建筑公司合同评审及管理制度模版5篇
- 2025年福建省莆田市大忠门投资咨询有限公司招聘2人模拟试卷及答案详解(名师系列)
- 2025年新高考1卷(新课标Ⅰ卷)语文试卷(含答案)
- 轮胎店转让协议书
- 泡沫混凝土常见问题分析与对策
- 国际压力性损伤溃疡预防和治疗临床指南(2025年版)解读
- 2024年江西省进贤县事业单位公开招聘警务岗笔试题带答案
- 综合工时劳动合同协议
- 微电子器件(4-13)SPICE 中的 MOFET 模型
- 2025-2030中国微创脊柱外科行业市场发展趋势与前景展望战略研究报告
- 2025年全国初中应用物理竞赛试题及答案
- 中学历史教学设计知到课后答案智慧树章节测试答案2025年春四川师范大学
- 2024全国职业院校技能大赛中职组“艺术设计”赛项备考试题库(含答案)
评论
0/150
提交评论