




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
KETTLE,1.1什么是kettleKettle是”kettleE.T.T.LEnvirnonment”首字母缩写,这意味着设计实现ETL需要:抽取,转换,装入和加载数据。,Spoon是一个图形用户界面,它允许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。,1.2安装kettle要运行Kettle,必须按安装java环境1.4或以上版本,kettle下载可以到:取得最新版本。(pdi-ce-4.0.1-stable.zip),1.3运行spoon下面是不同平台上运行spoon所支持的脚本:spoon.batwindows平台运行Spoon.Spoon.shlinux平台运行Spoon.,1.4资源库一个Kettle资源库可以包含那些转换信息,这意味着为了从数据资源中加载一个转换,你必须连接相应的资源库。,1.5资源库自动登录,可以设置以下环境变量,来让Spoon自动登录资源库。环境变量:KETTLE_REPOSITORY,KETTLE_USER,KETTLE_PASSWORD,1.6定义,1.6.1转换1.Value:Values是行的一部分,且包含以下类型的数据:Strings,floatingpointNumbers、unlimitedprecisionBigNumbers、Integers、Dates或者Boolean.2.Row:一行包含0个或者个Values3.OutputStream:一个OutputStream是离开一个步骤时的行的堆栈。4.InputStream:一个InputStream是进入一个步骤时的行的堆栈。5.Hop:一个Hop代表两个步骤之间的一个或者多个数据流。一个Hop总是代表着一个步骤的输出流和一个步骤的输入流。6.Note:一个Note是一个转换附加的文本注释信息。,1.6.2任务1.JobEntry:一个JobEntry是一个任务的一部分,它执行某些内容。2.Hop:一个Hop代表两个步骤之间的一个或者多个数据流。一个Hop总是代表着两个JobEntry之间的连接,并且能够被原始的JobEntry设置,无条件的执行下一个JobEntry,直到执行成功或者失败。3.Note:一个Note是一个任务附加的文本注释信息。,1.7选项你可以改变很多选项来增强图形用户界面的个性化。例如设置窗体的字体和颜色。此选项在Tools/选项中设置。,1.8搜索元数据,通过编辑/搜索元数据(ctr+f)来使用这个特性。,这个选项将在可用的字段、连接器、注释以及所有加载的任务和转换中搜索,并展示搜索的结果。,2新建一个转换或任务,可以通过工具栏上的文件/新建/来建立一个转换或任务,也可以直接在主对象页签栏双击转换,新建一个转换。选择好需要创建的文件类型后,将会根据你的选择,创建一个图形界面。,转换作业,3数据库连接,一个连接描述了kettle连接数据库的方法,左边的菜单展示了所有可用的连接。,3.1选项,1.Connectionname:定义转换或任务访问的连接的唯一名称,可自行设置,但不能为空。2.ConnectionType:连接的数据类型3.Access:可以是Native(JDBC),odbc,oci,jndi.一般选择JDBC4.HostName:指定数据库部署的主机或者服务器的名称,也可以指定IP地址。5.DataBaseName:指定连接的数据库的名称,如果是ODBC方式就指定DSN名称。6.portNumber:设定数据库监听的TCP/IP端口号7.userName/password:指定连接数据库的用户名和密码,3.2SQL编辑器(SQLEditor),1.描述Spoon提供简单SQL编辑器,可以实现创建表,删除索引或者修改字段。大多数的DDL,例如:create/altertable,createindex,createsequence命令都可以通过SQL编辑器窗口运行。(新建转换,输出是表输出时,可打开SQL编辑器)2.局限性这只是一个简单的SQL编辑器,它不可能完全知道超过20种它所支持的数据库的方言。这意味着创建存储过程,触发器或者其他的数据库对象可能带来很多问题。在这种情况下,应考虑使用数据库自带的工具。,4.数据库浏览器,1.描述数据库浏览器只显示可用的表,视图或者目录,5.新建一个转换,选择表输入,excel输出,建立节点连接。右击连接线,可编辑连线属性。,5.1常用输入:,表输入Excel输入文本文件输入XML文件输入CUBE输入(多维数据集)获取系统信息,5.2输入:表输入,选择表输入,点击鼠标右键,选择编辑步骤。步骤名称可以更改,一般更改为和输入表相关的名称。数据库连接:选择一个已建好的数据库连接,也可以新建一个。点击”获取SQL查询语句”,可弹出数据库浏览器,选择自己需要的表或视图。选择好表或视图后,SQL区域会显示相应的SQL,如选择在SQL里包含字段名,你所选择的表的所有字段均会显示.在SQL区域用户可手动修改SQL语句。,5.3输出:Excel输出,Excel输出编辑步骤选项,有三个选项卡,文件/内容/字段。文件选项卡:文件名选择输出文件保存的路径。扩展名:系统默认为xls.内容选项卡:一般不需做修改。字段选项卡:点击获取字段,输入流中的字段全部会获取到,不需要的字段,可选中不需要的行,右键删除。,5.4输出:插入/更新,插入/更新:若流里的数据在目标表中不存在,执行插入,否则执行更新,数据量不大的情况下,一般采用插入/更新操作。,5.5输出:更新,这个步骤类似于插入/更新步骤,除了对数据不作插入操作之外。它仅仅执行更新操作。,5.6输出:删除,这个步骤类似于更新步骤,除了不更新操作之外,其他的行均被删除。,5.7输出:表输出,这个步骤可以存取信息到数据库中,5.8输出:XML输出,这个步骤允许你从源中写入行到一个或多个xml文件。,6.0转换:去除重复记录,这个步骤从输入流中移除重复的记录步骤名称:在单一步骤中必须唯一Redirectduplicate:如果想知道多少重复行被去掉,就勾选此项。字段名:用来比较的字段的字段名称。,6.1转换:排序记录,这个步骤利用你指定的字段排序行,无论他们是按照升序还是降序。当行数超过5000行的时候,Kettle使用临时文件来排序行。排序目录:临时文件存储的目录,如果缺省则为标准的系统临时文件夹。临时文件前缀:选择一个容易记的前缀,以便在临时目录中查找。压缩临时文件:当需要完成排序的时候,这个选项将压缩临时文件。,6.2转换:增加序列,这个步骤在流里增加一个序列,一个序列是在某个起始值和增量的基础上,经常改变的整数值。可以使用数据库的序列,也可以使用kettle决定的序列Kettle序列在同一个转换中是唯一使用的,每一次转换运行的时候,序列的值又会重新循环一次,从开始值开始。使用数据库获取序列:连接名称:选择数据库序列存在的连接名称序列名称:数据库序列的名称使用计数器来计算序列:如果想使用kettle生成的序列,使用此项。计数器名称(可选):如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。起始值:序列的起始值增量:序列的增量最大值:序列的最大值,如果超过,将重新开始,6.3转换:拆分字段,这个步骤允许根据分隔符来拆分之盾。步骤名称:在单一转换中必须唯一需要拆分的字段:想要拆分的字段的名称。分隔符:决定字段结束的分隔符字段:拆分形成的字段列表。例如:某字段包含:(123,456,789),使用逗号(,)分割符,可将字段分成三个段。,7.0Flow:空操作(什么也不做),这个操作说明都不做,它的主要作用是,在你想做测试的时候,充当一个占位符。,7.1Flow:过滤记录,这个步骤根据条件和比较符来过滤记录。发送true数据给步骤:指定条件返回true的数据将发送到此步骤发送false数据给步骤:指定条件返回false的数据将发送到此步骤。True和false步骤必须指定。,7.2Flow:Abort(中止),这个步骤允许你在观察输入的时候中止步骤,它的主要用途是错误处理,在一定数量的行流过错误的连接时中止转换。失败阀值:中止转换的开始行数。如果设置为0,在第一行的时候,步骤将被中止。失败信息:中止的时候放入日志文件的消息,如果没有输入就使用缺省消息。总是记录行数:中止步骤总是记录处理的行数。,7.3Flow:BlockingStep(被冻结的步骤),这是一个非常简单的步骤,它冻结所有的输出,直到从上一个步骤来的最后一行数据到达,最后一行数据将发送到下一步。你可以使用这个步骤触发常用插件、存储过程和js等等。,8.0连接:MergeJoin(合并排序),这个步骤将来自两个不同的步骤输入的数据执行一个高效的合并。合并选项包括INNER,LEFTOUTER,RIGHTOUTER,FULLOUTER.这个步骤将输入的行按照指定的字段存储被合并的两个步骤,必须按照相同的段进行排序。,8.1连接:合并记录,这个步骤允许你比较两个行流。如果想在两个不同的时间比较数据,这是非常有用的。它常被用于数据仓库源系统没有包含最后更新日期的情况。两个行流被合并,一个是引用流(旧数据),一个是比较流(新数据),每次都是行里的最后版本通过进入下一步骤,行有以下标记:“Identical”:关键字在两个流中都存在,并且值相同“changed”:关键字在两个流中都存在,但一个或更多的值不同“new”:引用流中没有找到关键字“deleted”:比较流中没有找到关键字。比较流中的数据进入下一步骤,除非在”删除”的情况。,9.0作业核心对象,1.通用(1).START:st
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 检修施工作业负责人模拟题库与答案
- 护理类行测题库及答案解析
- 无锡人力资源从业考试及答案解析
- 客l运从业资格证理论考试题库及答案解析
- 中学生安全知识竞答题库及答案解析
- 何为协议书过户
- 海因里希法则安全题库及答案解析
- 国仕山二期达成协议书
- 电厂热控安全知识题库及答案解析
- 施工安全教育知识题库及答案解析
- 2025年全国国家版图知识竞赛题库及答案(中小学组)
- 机加工安全生产培训考核试题及答案(班组级)(精)
- 电梯从业证考试试题及答案解析
- 2024年武汉商学院公开招聘辅导员笔试题含答案
- 钢结构厂房装修施工方案报告
- DB32-T 5156-2025 零碳园区建设指南
- 人教版三年级数学上册第一单元分层作业设计
- 2024年国庆中秋安全教育主题班会《欢度双节 安全护航》主题安全教育【课件】
- 浙教版(2024)科学八年级上册 2.1力(第2课时)课件
- 中国外卖大战报告(中英)-高盛-202507
- 咖啡对身体健康的影响研究
评论
0/150
提交评论