Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第1页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第2页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第3页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第4页
Pentaho Data Inegration 5.0.3 使用教程初阶0328.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

kettle使用教程初阶德昂信息技术 北京 有限公司 kettle简介 kettle能做什么 kettle实例demo 提纲 参考资料 kettle是什么 kettle是一个开源的etl extract transform load的缩写 即数据抽取 转换 装载的过程 项目 项目名很有意思 水壶 按项目负责人matt的说法 把各种数据放到一个壶里 然后呢 以一种你希望的格式流出 最新版已经被整合进pentahoopensourcebiee 改名pentahodataintegration 下载地址 kettle安装与设定 首先要安装jdk并设定环境变量path包含jdk path bin 运行安装文件 安装kettle到指定目录 例如 c programfiles pentaho design tools data integration 三个可执行文件 spoon启动kettleguikitchen命令行执行kettle作业pan命令行执行kettle转换 单击安装后的桌面图标 将运行spoon 启动kettlegui kettle简介 kettle能做什么 kettle实例demo 提纲 参考资料 kettle的主要功能 1 转换transformation ktretl的所有操作2 作业job kjb定时执行 可以包含多个转换3 模型model数据建模 便于交流 kettle的其他功能 instaview用于从混合大数据集中发掘想法 转换transformation概览 db连接steps 步骤 hops 节点连接 数据库分区schemas子服务器kettle集群schemas 转换transformation详细 hops 节点连接 result或false transformation核心对象 输入input 转换与应用 流程 脚本 查询 连接 数据仓库 检验 统计及datamining bigdata agile 加密 palo openerp及作业 映射 批量加载 内联 实验 不推荐的及历史 作业job db连接 作业项目 转换 子服务器 job核心对象 文件管理及条件 脚本 批量加载 xml和bigdata 应用 资源库 文件传输及文件加密 其他 kettle简介 kettle能做什么 kettle实例demo 提纲 参考资料 kettle实例demo demo1 数据库数据复制demo2 数据库数据转换输出到txtdemo3 txt文件输入到数据库demo4 设定job定时执行demo5 整合salesforce数据demo6 整合awss3文件数据 kettle实例demo1 准备工作 安装sqlserver2008r2创建数据库testa 建立一个测试的用户表createtableusersa idintnotnull useridvarchar 50 notnull usernamevarchar 200 null 插入3条记录insertintousersavalues 1 lisi 李四 insertintousersavalues 2 zhangsan 张三 insertintousersavalues 3 lisi 李四 创建数据库testb 建立一个测试的用户表createtableusersb idintnotnull useridvarchar 50 notnull usernamevarchar 200 null 实例demo1完成的功能是将数据从testa数据库的usersa表以插入 更新的方式复制到testb数据库的usersb表 demo1 浏览数据库连接 新建转换 内置agilebi的db连接 steps和hops为空 在agilebi上单击右键 数据库浏览 可以查看数据库中的对象 并进行操作 demo1 创建数据库连接 在db连接上右键选择新建 直接打开数据库连接属性设置 或新建数据库连接向导 打开向导 一步一步填写属性 demo1 填写数据库属性 demo1 测试数据库连接 demo1 创建表输入 核心对象输入中 选择表输入 鼠标拖至编辑区 编辑属性 demo1 创建插入 更新 核心对象输出中 选择插入 更新 鼠标拖至编辑区 编辑属性 demo1 连接表输入与插入 更新 在 表输入 上同时按住shift键和鼠标左键滑向 插入 更新 这样建立两个步骤之间的连接 单击运行按钮 设置参数后 启动这个转换 demo1 保存转换文件 转换执行前 如果有改变 会提示保存转换到文件 ktr或xml格式 demo1 执行结果 如果出现错误 请检查相应步骤 可以点击执行历史 性能图 metrics及previewdata查看其它数据 demo1 创建job 新建job db连接包含缺省db 作业项目为空 从核心对象通用中拖出start到编辑区 可以设定此job运行的属性 demo1 加入转换 也可以加入作业 从核心对象通用中拖出转换到编辑区 将start和转换连接起来 双击转换 可以选择保存的转换文件 并有高级 设置日志 位置参数 命名参数等多项属性设定 demo1 选择转换 选择前面保存的ktr转换文件 demo1 执行job 单击运行按钮 启动执行作业 填写相应参数后 点击执行 demo1 保存job job执行前 如果有改变 会提示保存job到文件 kjb或xml格式 保存的job文件 可以在创建job时以加入作业的形式引入 形成job的嵌套调用 demo1 job执行结果 如果出现错误 请检查相应步骤 可以点击历史 metrics查看其它数据 demo2和demo3 准备工作 创建或恢复sqlserver数据库etltest 包含如下源表及目标表 demo2功能 根据客户 帐户 交易表中的数据 生成对应的数据文件demo3功能 将数据文件可以导入到对应表中 demo2 转换概览 可以从这里下载etltest的数据库备份文件以及这个转换的ktr文件 备注 直接导入的ktr文件如果无法运行 报错的话 重新创建一遍后就可以了 demo2 表输入及表查询 demo2 过滤记录 根据条件 执行后续不同的step demo2 根据过滤条件增加常量 根据条件 定义变量custype cn 对其赋值 并将值传递给常量value true或falsestep同理 demo2 输出到文件 demo2 运行 输出到文本文件 demo3 概览 两个步骤 文本文件输入表输出 demo3 文本输入 demo3 表输出 设定从文本字段到数据库表字段的映射 demo3 运行 demo4 job概览 demo2实现了对数据库数据的处理 并输出到文本文件 demo3实现了从文本文件输入到数据库表 demo4建立一个job把前面两个转换合并到一起执行 demo4 运行 demo4 创建windowsbat echooffif 1 h gotobeginmshtavbscript createobject wscript shell run e etl nx0h 0 window close exit begincdc programfiles pentaho design tools data integrationc kitchen file e etl etltest kjb level basic logfile e etl mytest log 备注 begin以前的代码用于隐藏自动运行时的黑窗口etltest kjb是demo4保存的kettlejob文件 demo4 kitchen运行参数 版本差异 demo4 设定windowsschedulejob 上面为windows7系统下的设定 其他系统请做相应改变 demo5 注册salesforce账户 注册30天免费试用salesforce账户 demo5 resetsecuritytoken 注册成功后的salesforce账户 只能用于网站登录 如果需要使用api调用 需要securitytoken 新注册用户没有securitytoken 所以需要重置 系统会将token发到账户名邮箱 登录salesforce 选择mysettings 单击personalinformation resetmysecuritytoken demo5 创建salesforce数据 登录到salesforce 快速创建三个account数据 用于测试 quickcreate数据完成后 还可以编辑 增加更多栏位 demo5 创建sqlserver数据表 createtable dbo salesforceaccount accountid nvarchar 50 notnull accountname nvarchar 100 null website nvarchar 100 null phone nvarchar 50 null address nvarchar 250 null rating int null on primary 在etltest数据库上创建salesforceaccount表 demo5 创建转换 增加数据库连接 创建一个sftransfer的转换 加入到etltest的数据库连接dw demo5 建立转换 这个转换分四步 首先从salesforce抓取account数据 然后对rating进行值映射 之后存入数据库 最后输出到文本 demo5 salesforce输入连接 从核心对象输入中拖出salesforce输入 加入转换 设置其连接属性 输入salesforce的用户名 密码中输入password和securitytoken 然后测试连接ok demo5 salesforce输入栏位选择 在fields属性页 单击getfield 获取所有栏位 选择需要输入的栏位 demo5 配置值映射 由于salesforce的account数据中 accountrating是枚举字符串hot warm cold 而我们的数据库表定义的rating为整型 所以需要做值映射 从核心对象转换中 拖出值映射 设定属性 demo5 配置表输出 在核心对象输出中拖出表输出 设置其属性 勾选指定数据库字段 设置栏位映射 demo5 文本文件输出设定 从核心对象输出中拖出文本文件输出 设置文件属性及字段映射 demo5 运行 demo6 注册awsaccount 注册亚马逊账户 从亚马逊网站 signin进入 首先提供一个电子邮箱 然后选择iamanewcustomer signin 输入相关信息 创建账户 demo6 开通s3应用 并上传文件 注册awsaccount必须提供信用卡账户 然后必须提供电话激活 感觉挺麻烦的 账户激活后登录进去 首先要创建accesskey和secretkey 后面程序访问时会用到 然后激活s3service服务 创建一个cloudtesting的bucket 上传两个csv文件 demo6 创建etltest数据表 创建两张表 trade all2和前面demo中用到的trade all结构一样 用于存储上传到awss3的前面demo2输出的文本文件 创建表dictionary用于存放上传到awss3的dictionary csv文件的数据 createtable dbo dictionary field varchar 50 null type varchar 50 null description varchar 50 null domain varchar 50 null object varchar 50 null on primary demo6 转换概览 这两个转换都很简单 包括一个s3文件的输入 和一个表输出 demo6 配置s3文件输入 从核心对象输入中拖出s3csv输入 设定属性 输入accesskey和secretkey 选择bucket 浏览选择文件 下面会显示字段列表 缺省第一行为header demo6 配置表输出 同demo5添加到etltest的database连接dw 从核心对象输出中拖出表输出 勾选指定数据库字段 配置数据库字段映射 demo6 运行 由于水平有限 所以s3csv的数据整合出现中乱码 尚有待解决 kettle是什么 kettle能做什么 kettle实例demo 提纲 参考资料 部分名词解释 arffattribute relationfileformat weka文件格式avro一种json数据格式cassandra一套开源分布式nosql数据库系统couchdb一个开源nosql多主复制数据库esrishapefileenvironmentalsystemsresearchinstitute地理信息文件格式hbase一个开源的非关系型分布式数据库 nosql hadoop一款支持数据密集型分布式应用并以apache2 0许可协议发布的开源软件框架hl7mllphealthlevelsevenminimallowerlayerpr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论