




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据抽取工具Kettle实践经验小结 杭州州力数据-陈力同步数据常见的应用场景包括以下4个种类型:1.只增加、无更新、无删除12.只更新、无增加、无删除33.增加+更新、无删除44.增加+更新+删除55.调用存储过程71无参数输入:72、有参数输入81.只增加、无更新、无删除对于这种只增加数据的情况,可细分为以下2种类型:1) 基表存在更新字段。通过获取目标表上最大的更新时间或最大ID,在“表输入”步骤中加入条件限制只读取新增的数据。这里要注意的是,获取最大更新时间或最大ID时,如果目标表还没有数据,最大值会获取不了。其中的一个解决方法是在“获取最大ID”步骤的SQL中,加入最小日期或ID的联合查询即可,如:SELECT MAX(ID) FROM(SELECT MAX(ID) AS ID FROM T1 UNION ALL SELECT 0 AS ID FROM DUAL)2) 基表不存在更新字段。通过“插入/更新”步骤进行插入。插入/更新步骤选项:2.只更新、无增加、无删除通过“更新”步骤进行更新。更新选项:3.增加+更新、无删除通过“插入/更新”步骤进行插入。区别是“插入/更新步骤”中的选项,去掉“不执行任何更新”的勾选:4.增加+更新+删除这种数据同步情况,可细分为以下2种情况:1) 源库有表保存删除、更新和新增的信息。通过条件判断,分别进行“插入/更新”和“删除”即可,如下图所示。2) 源库没有保存增删改信息Kettle提供了一种对比增量更新的机制处理这种情况,可通过“合并记录”步骤实现,该步骤的输入是新旧两个数据源,通过关键字进行数据值比对,对比结果分为以下4种类型:“Identical” : 关键字在新旧数据源中都存在,域值相同“changed” : 关键字在新旧数据源中都存在,但域值不同“new” :旧数据源中没有找到关键字“deleted”:新数据源中没有找到关键字两个数据源的数据都进入下一步骤,上述4种结果类型作为输出表的标志字段进行保存。以下为示例:源数据库测试脚本create table k1 (f1 varchar2(200),f2varchar2(200)truncate table k1;insert into k1(f1,f2) values(1,11);insert into k1(f1,f2) values(2,22);insert into k1(f1,f2) values(5,5);commit;目标数据库测试脚本create table k1 (f1 varchar2(200),f2varchar2(200)truncate table k1;insert into k1(f1,f2) values(1,1);insert into k1(f1,f2) values(2,2);insert into k1(f1,f2) values(3,3);insert into k1(f1,f2) values(4,4);commit; 合并过程如下:其中“合并记录”步骤的选项:执行后,查询K1_TEST结果如下:可以看到,该结果表的BZ字段保存了更新、删除、新增的记录信息,通过条件分支即可分别对这些记录进行相应的处理。“条件”选项:5.调用存储过程调用存储过程主要是分为,有参数输入与无参数输入两类。1无参数输入:输入存储过程名称直接调用即可,但需要设置返回值(在参数设置中配置好)2、有参数输入此类比较常见,也比较复杂。(1)变量值固定:首先,在转换中设置变量。对调用存储过程的转化进行配置:此3步骤的配置如下:注意:获取系统信息中的类型中的命令行参数X,指的就是下一步中对应的位置参数!故,在每次点击执行作业job(一个作业可能包含多个转换transform)时,需要配置或者核对参数值。最后,点击开始运行你的作业,出现如下,在“位置参数”部分写上对应的值。然后点击执行(这中方法当然是要在配置好与调用存储过程相匹配的变量获取后才行)。此类参数经常作为查询或者同步数据用。(2)、当你需要的变量值,不是事先固定写死的,而是需要动态从数据库中某一张表中获取后,传入时,就不能直接在kettle系统的变量设置中配置变量了。执行这一过程的,作业(job)如下:2.1 “获取ynzybi跟新时间(DB2数据库)”。首先从,ynzybi(DB2)数据库的表SYNNO1DATASTATE中获取要同步数据的最后跟新时间lastupdatetime,并设置变量lasttime,如下图:2.2 “获取DC日期区间(Terdate数据库)”根据前一步获取的lasttime,从数据中心(terdate数据库)表K_COM_D_ALL中获取2个时间区间节点,并设置对应的变量。注意,在执行时,一定要在“替换SQL语句里的变量”选项打钩,这样才会自动替换SQL语句中的%lasttime%,否则或报错!在windows环境下,变量的替换格式均为%变量名称%2.3 “删除ynzybi表中时间区间内的数据”此转换中,就只有一个东东,既执行SQL脚本SQL脚本的设置:2.4“插入ynzybi数据”在上一步中,已经将ynzybi(DB2)数据库中的DC_K_COM_D_ALL表中对应区间的数据全部删除,接下来只需直接从Terdate数据库的K_COM_D_ALL表中抽取对应时间段内的数据全部插入到ynzybi(DB2)数据库的DC_K_COM_D_ALL表中,即可完成不同类型数据库中,不同表中数据的同步。这里之所以这么大费周章,先删除后插入。原因是在于,使用Kettle中自带的“数据同步”或者“更新/插入”转换,效率很低,每条数据都要merge一次,大概才100条数据左右/秒。对于大量数据的更新同步,太耗时间了,下图是“插入ynzybi数据”转换的截图:下图是“表输入”和“表输出”的配置图: 表输入表输出注意:1.勾选“批量插入”,后可以大幅提高数据插入表的速度!2.勾选“忽略插入错误”,后插入过程中遇到某些原因,某些数据不能插入,将会被忽略,程序继续执行,不报错,但会有日志显示。不选的话,遇到插入错误,就报错,转换停止!3.勾选“制定数据库字段”后,在数据库字段中就可以选择需要插入的字段 表输入b2.5“调用存储过程”转换过程图如下:表输入的设置图入下:注意:这的表输入,其实不需要任何一个表中的数据,其中SQL语句入下:“select %begindate% as v_dt1,%enddate% as v_dt2,%dc_updatetime% as dc_updatetimefrom sysibm.sysdummy1”。这条语句从表中不选任何数据(sysi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年航空机场行业当前发展趋势与投资机遇洞察报告
- 支部条例全文课件
- 攀爬墙安全知识培训课件
- 2024学年南通市七年级语文上学期期末考试卷附答案解析
- 2025年素描绘画岗位职业技能资格基础知识考试题与答案
- 2025年叉车安全培训考试题及答案
- 2024年高级家具设计师专业技术及理论知识考试题库(附含答案)
- 2024年摄像技巧及相关知识考试题库(附含答案)
- 2025年度湖北省高校大学《辅导员》招聘考试题库(含答案)
- 2025年四川省自贡市考研专业综合预测试题含答案
- 防洪防汛应急处置措施
- 葫芦岛打渔山 220kV 输变电工程环评报告
- 08SG213-1 钢烟囱(自立式30m-60m)(不清晰有水印)
- 社会团体单位会员登记表完整
- GB/T 531.1-2008硫化橡胶或热塑性橡胶压入硬度试验方法第1部分:邵氏硬度计法(邵尔硬度)
- 消化系统疾病课件整理
- 子宫肉瘤诊疗指南
- 培训注塑成型原理
- 2009-2022历年江苏省镇江市丹阳市事业单位考试《综合知识和能力素质(计算机类岗位)》真题含答案2022-2023上岸必备带详解版3
- 交流电气装置的过电压保护及绝缘配合
- 工业园区消防安全标准化
评论
0/150
提交评论