版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录1.Kettle工具的构成22.kettle工具的运行23 .存储库设置34 .创建和使用转换84.1创建新的交换84.2DataGird94.3写入日志控制器104.4表输入控件134.5场选择控件144.6表输出控制154.7插入/更新控件174.8转换中的变量的设定184.9使用变量194.10步骤的错误处理194.11流程控制的使用204.11.1交换机/case控制器204.11.2封锁步骤控件214.11.3 indentifylastrowinastream控件224.11.4对记录控制23进行过滤4.11.5空操作控件234.11.6Abort控件245 .作业(job )
2、的创建和使用245.1创建新的任务245.2开始控件255.3成功控制255.4传输控件255.5变量设定265.6Js脚本使用275.7空操作控件271. Kettle工具的构成Kettle主要由存储库、数据库、作业(job )、转换和步骤五部分组成,存储库用于存储用户创建的作业和转换(kjb文件和ktr文件),通常存储在数据库中,并搜索用户数据库是处理数据所需的数据库。 作业用于确定项目中使用的转换和转换的执行顺序。 转换是ktr文件中数据的具体转换过程,类似于Java方法。 作业类似于Java类,可以调用各种方法(转换)。 步骤是kettle的最小执行单位。2. kettle工具的运行1
3、 )在计算机上安装jdk并设置java运行环境(建议使用1.6或更高版本的jdk )2 )下载2) Kettle工具:可以在上下载最新版本。 本文档使用的是kettel-4.1.0版本3) Kettle工具的动作:在Windows系统上运行,解压kettle文件,然后双击data-integration文件夹中的Spoon.bat文件要在Linux上运行,请双击“数据集成”文件夹中的Spoon.sh文件3 .存储库的设置打开kettle工具时,将显示以下界面您可以在此设置包含kjb和ktr文件的存储库,也可以不设置,但是在保存时必须手动设置文件的
4、保存路径。加号按钮添加新的存储库,铅笔按钮编辑现有的存储库,叉子按钮删除选定的存储库按“添加”按钮打开界面,双击红色选择框中的文本,就会弹出新的库双击红色复选框中的文本可显示新的存储库创建窗口,单击上面一行中的文本可在数据库中创建存储库,下面的文本可在本地创建存储库(因为它类似于数据库,所以显示单击“新建”按钮后,将显示“数据库连接”窗口连接名称:数据库连接名称(可选输入,不能为空)连接类型:连接的数据库类型Access:数据库连接方式(本文档仅选择了Native连接方式,其他方式请读者自己摸索)。主机名称:数据库特定的Ip地址数据库名称:指定要连接的数据库的名称实例名称: (请不要输入)端口
5、号:数据库侦听的tcp/ip端口号指定连接到User Name:数据库并登录时的用户名Password :指定连接到数据库登录时的密码填写数据库连接的基本信息后,指向接口上的Test按钮进行数据库连接测试,成功后显示以下消息,相反显示错误消息,错误后根据相关的错误消息进行修正,相关的数据连接成功后,点击ok按钮,在画面上输入Id和名称(可以自由输入Id和名称)填写完成后,单击“创建”或“更新”按钮,创建存储库。 只单击“确定”按钮,不会创建资料库。 单击“创建”或“更新”按钮后,会弹出一个sql执行语句(在数据库中创建资源库)的界面,然后单击“执行”执行后显示界面,执行后关闭SQL语句的执行结
6、果窗口和简单的SQL编辑器窗口(成功执行后,请不要再次单击“执行”按钮。 不点击的话会出错)确定了存储库信息后,返回到存储库连接界面并登录到存储库。 新创建的存储库密码默认为admin,重新登录后可以更改密码(输入密码,然后按enter键登录)找到存储库后,将显示存储库中的具体信息浏览:显示存储在存储库中的ktr和kjb文件Connections :数据库连接管理Security :存储库登录用户管理4 .创建和使用转换4.1创建新交换下图显示了常用的转换过程。 接下来,我们将介绍一些常见的转换控件4.2 DataGird核心对象-输入-在DataGird中选择DataGrid是数据的输入表单
7、,用户可以定义数据名称、类型等信息,并设置相应的值4.3写至日志控制核心对象-输入-在写入日志中选择Write to log在日志窗口中输出相关信息,而“获取字段”按钮自动获取从连接中输入的所有属性创建数据连接线: shift左键单击点击数据连接线后,连接将无效,无法将数据传输到下一步再点击一次就可以复原了转换运行前需要进行保存操作,保存后点击运行按钮,则执行转换文件,与转换文件连接的只有数据的传送方向和步骤的执行顺序,因此即使没有连接步骤,也能执行文件执行后的文件内的所有步骤转换过程中还会执行图的表格输入步骤插入控制步骤:将新的控件直接拖动到现有的控制连接之间。分离控制步骤:选择要分离的步骤
8、,单击鼠标右键并选择分离步骤显示输入字段:选择要显示的控件,然后单击鼠标右键显示输入字段,将显示从上一步骤进入此步骤的所有字段显示输出字段:选择要显示的控件,然后单击鼠标右键以显示输出字段,以显示完成此过程后输出的字段4.4表输入控制核心对象-输入-表输入步骤名称:此步骤的说明数据库连接:可以从下拉菜单中选择。 如果没有选择,请按“新建”按钮创建新的。 步骤与先前存储库中的新数据库连接相同。SQL查询语句:选择数据库连接,单击“获取SQL查询语句”,然后选择特定的表。 用户也可以在“SQL语句”框中自己创建SQL语句允许延迟的可选:选中此选项后,数据库在查询数据时,不会暂时搜索数据类型相对庞大
9、的数据,而是根据需要到达和检索数据库替换sql语句变量:选中此复选框可将sql语句中的变量替换为适当的值记录数限制:默认值为0 (全部输入),如果不是0,则仅输出限制的数据数表输入可以从上一步获取数据,并使用获取的数据吗? 一个代替符号? 符号表示输入字段。 例如,如果字段具有多个值,则必须检查每一行,以便表输入控件通过字段中的值循环来执行查询。 如果不那样做,就会发生错误。4.5字段选择控件核心对象-转换-通过字段选择进行选择字段可以被选择用于获得必要的数据串,并且可以执行改名、长度限制、精度控制,不需要时可以省略或选择列后再操作。4.6表输出控制从核心对象-输出-表输出中选择目的地表:在目
10、的地数据库中操作的表发行记录数:每次成批插入的数量使用批量插入:默认情况下,不选中的数据将一条一条地插入Database fields :建立源字段和目标字段之间的映射关系如果选中“Specify database fields (选择数据库指定的字段)”,则可以使用该字段获取输入流中的字段的Get fields按钮。 不检查的话就不能使用4.7插入/更新控件核心对象-输出-插入更新目标表:目标数据库中需要插入更新的表Commit size :每次批量更新插入的值,每插入100更新100查询关键字:根据关键字插入更新数据的过滤器。更新字段:需要更新的字段插入更新原理:第一步:从源库上检索记录,
11、在目标库上执行名为“选择表中where中的每个更新字段以用于查询的单个关键字”的查询在步骤select,确定查询的返回值,如果没有返回值则将“insert”的记录与查询结果集的记录进行比较,否则将“update”,否则不做任何操作。4.8转换中的变量的设定从表输入中获取参数设定变量,传输到表输出中使用可以通过上一步骤获取字段值来设置变量(字段值必须是唯一的,可能会发生多个错误)4.9变量的使用与el表达式的表达式一样,在执行后,必须自动用变量的值替换变量,如果要使用变量,则必须选中SQL语句中的变量替换选项4.10步的错误处理错误处理:右键单击步骤,然后选择“定义错误处理”。 如果没有定义错误
12、处理,则在发生步骤错误时立即停止执行,不输出数据,如果定义了错误处理,则步骤错误输出正确的执行数据,向指定的文件输出错误数据目标步骤:在此步骤发生错误后执行的下一步启用错误处理:是否启动错误处理机制,如果在启动后发生错误,则执行错误处理机制。 如果不启动,整个转换将立即停止错误数列名称:统计错误数列的名称(任意填写)错误说明列名:说明错误列的名称(任意输入)错误编码列名:错误编码列的名称(可选输入)允许的最大错误数:此步骤允许的最大错误数超过整个数值,整个转换立即停止允许的最大错误率:在此步骤中允许的错误数占总数的最大百分比,超过此百分比的转换将立即停止.的转换。4.11流量控件的使用4.11
13、.1交换机/case控制器核心对象-通过流-交换机/case进行选择Switch/Case控件:控件根据输入流所在的字段确定,并根据结果选择下一个必要的步骤输入要用于确定交换机:流中的字段名称。Case values:字段的值为XXX时执行的步骤默认目标步骤:在相应的事件不匹配时执行的步骤4.11.2阻止步骤控件核心对象流在阻塞步骤中选择这是一个块控件,在其前面的所有控件完成操作之前,不会再进行任何后续操作Pass all rows :是否要传递所有的块数据,检查后,所有的块数据将流向下一步。 如果不这样的话,就会流到下一步高速缓存大小:存储在高速缓存中的数据数。 很多数据都以文件的形式存储4
14、.11.3 indentifylastrowinastream控件核心对象-在流indentifylastrowinastream中选择每个数据都会添加一个字段,以确定数据是否是最后一个。 Result fieldname的名称是该字段的名称,如果数据不是最后一个,则字段值为n,如果数据是最后一个,则字段值为y。4.11.4过滤记录控制核心对象flow过滤记录中的选择The condition:过滤要比较的表达式。 左侧是输入流字段,中间是比较器,右侧是特定值发送真数据至步骤:如果表达式为真,则执行以下步骤发送false data to step :如果表达式为false,则执行以下步骤4.1
15、1.5空操作控件核心对象flow通过空操作进行选择此控件的作用是:不做任何事,使用户更容易连接每个步骤4.11.6 Abort控件在核心对象flowAbort中进行选择此控件的作用是停止整个转换操作5 .创建和使用作业(job )。5.1创建新作业5.2开始控制核心对象-通用-在START中选择START是job的任务入口,只有无条件的任务可以从此入口启动任务,或者安排任务反复执行5.3 Success控件核心对象-通用-从success中选择表示作业的结束,没有数据操作5.4传输控件核心对象-通用-在Transformat中选择“Transformation”是job中的具体数据转换操作,只要设置先前写的ktr文件的路径,就能执行相应的ktr文件5.5变量设定核心对象-通用Set variables可变名称:变量名称Value :变量值可变范围类型:变量的使用范围validinthejava虚拟机:可以在整个JVM虚拟机上使用目前作业:的验证仅在此作业中可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 急性腮腺炎的护理法学与权益保护
- 宫腔镜手术术后切口护理
- 信息安全解决方案设计与实施
- 2024-2025学年度法律职业资格考试考前冲刺练习【夺冠系列】附答案详解
- 2024-2025学年度电工考前冲刺练习试题往年题考附答案详解
- 2024-2025学年度江苏农林职业技术学院单招《语文》复习提分资料学生专用附答案详解
- 2024-2025学年度文化教育职业技能鉴定每日一练试卷附完整答案详解(必刷)
- 2024-2025学年度护士资格证复习提分资料附答案详解AB卷
- 2024-2025学年度反射疗法师大赛理论模拟试题及答案详解(名师系列)
- 个人培训知识技能守秘承诺书(7篇)
- 《供应链管理》课件 第6章 供应链库存管理
- 《爱鸟惜花守家园·考察身边的生物资源》课件 2023-2024学年辽海版《综合实践活动》七年级下册
- 人教版七年级英语上册教学课件Unit 5 Fun Clubs
- GB/T 6553-2024严酷环境条件下使用的电气绝缘材料评定耐电痕化和蚀损的试验方法
- 中职旅游专业《中国旅游地理》说课稿
- DL∕ T 748.3-2001 火力发电厂锅炉机组检修导则 第3部分阀门与汽水管道系统检修
- 烧腊餐饮商业计划书
- 创新研究群体项目申请书撰写提纲-UBCECE
- 国家公园入口社区建设标准指南专项研究-国家公园研究院+自然资源保护协会-2024
- 品管圈之降低呼吸机管路积水发生率护理课件
- 应用回归分析(R语言版)(第2版) 课件 第1章回归分析概论
评论
0/150
提交评论