Kettle产品详细介绍_第1页
Kettle产品详细介绍_第2页
Kettle产品详细介绍_第3页
Kettle产品详细介绍_第4页
Kettle产品详细介绍_第5页
已阅读5页,还剩278页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、282Kettle产品详细介绍 晴天云2017-12-9晴天云 Kettle产品详细介绍目录Kettle产品详细介绍0Kettle产品详细介绍21.Kettle简介22.Kettle 的安装23.Kettle 的详细介绍33.1Kettle 资源库管理33.1.1新建资源库43.1.1新建资源库43.1.2更新资源库73.1.3资源库登陆和用户管理83.1.4资源库登录和没有资源库登录的区别93.2菜单栏介绍113.2.1文件113.2.2 编辑142.2.3 视图202.2.4 资源库213.2.5 转换233.2.6 作业293.2.7 向导323.2.8 帮助343.3工具栏介绍353.

2、3.1 transformation的工具栏353.3.2 Jobs工具栏363.4主对象树介绍373.4.1Transformation的主对象树373.4.2Jobs主对象树523.5核心对象介绍593.5.1Transformation核心对象593.5.2Jobs核心对象2203.6 transformation功能2813.7 Jobs功能2824 Kettle 优点2825 Kettle 缺点282Kettle产品详细介绍1.Kettle简介简单地说,Kettle 就是国外一个开源的ETL工具。其主要功能就是对源数据进行抽取、转换、装入和加载数据。也就是将源数据整合为目标数据。Ke

3、ttle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Spoon 是一个图形用户界面,它允许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan 是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。Kettle主要包括以下三大块:一、Spoon转换/工作(transform/job)设计工具 (GUI方式);二、Kitchen工作

4、(job)执行器 (命令行方式)     ;三、Span转换(trasform)执行器 (命令行方式)。2.Kettle 的安装首先,必须先安装Sun 公司的JAVA 运行环境1.4以上的版本(包括1.4),并配置好环境变量;然后,将下载的Kettle软件解压到目标目录,就可以看到Kettle的启动文件Kettle.exe或Spoon.bat;最后,运行启动文件。Windows 平台的启动:双击spoon.bat。Linux 平台的启动:双击Spoon.sh。3.Kettle 的详细介绍3.1Kettle 资源库管理登陆时可以选择”没有资源库”即可进入K

5、ettle,此时所定义的转换和工作将只能存储在本地磁盘上,以.ktr文件和.kjb文件的方式。若使用资源库登录,则所有定义的转换和工作将会存储到资源库里。实际上,资源库就是一个数据库,比如SQL SERVER数据库,里面存储了Kettle定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源库的相关信息将存储在文件 “reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是 c:Documents andSettings<username>.kettle。3.1.1新建资源库第一步

6、:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面:3.1.1新建资源库第一步:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面:第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面:第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面:第三步:填写完以上对话框后,点击“Test”按钮,如果出现下图中的提示的“正确连接到数据库”,及创建成功,然后点击“OK”即可进入下一步。第四步:完善资源库信息后,点击“确定”即可完成资源库信息创建。3.1.2更新资源库创建了资源库后我们可以更新资源库,点击首页的“编辑” 、 “新建”按钮均可以进入到创建资源库界面。当数据库连接

7、选择后,就可以开始创建资源库了,单击“创建或更新”按钮可以创建新资源库或者更新原来已有的资源库,弹出:选择“是”,弹出:输入 Admin用户 的密码(资源库登陆和用户管理中描述) ,确定,更新资源库的步骤类似创建资源库,不同的是它是创建索引。3.1.3资源库登陆和用户管理R_User 和 R_Profile 两个表存储了资源库的用户信息,包括登录名、密码和用户权限。展开两个表分别做以下说明: R_Profile 表它说明有 3 种权限的用户: 1)Administrator 权限超级管理员,可以管理其它用户 ;2)User 权限普通用户,可以使用所有工具;3)Read-only只读用户,理解为

8、只可读不可写,即可以使用工具,但是不能保存信息。后面再进一步研究R_User 表:LOGIN 是登录名,PASSWORD 是密码(注意密码是经过加密的,所以在此才会以 16 进制显示,在这里我们不研究加密算法),ENABLED 表示用户是否可用,Y 是可用,N 是不可用,在工具里体现为: 我们从表中可以看出密码是经过加密的, 由于我们不知道他的加密算法, 我们不知道原密码。但是我们想通过资源库登录 Kettle,如果用 admin(具有超级管理员权限)能登陆,则可以创建其它权限的用户,从而不再需要这些初始化的用户信息。3.1.4资源库登录和没有资源库登录的区别使用资源库登录后在 Kettle

9、中定义的转换和 Job 均存储到资源库的相关表中, 若没有资源库登录,则会以.ktr 和.kjb 格式存储在硬盘上。此外两者登录后菜单栏显示的将不同,并且有些选项功能也不一样。 1)菜单栏显示不同 没有资源库:有资源库:2)文件菜单栏相关选项功能不同l 没有资源库: “打开”、“从 url 文件打开”均是打开硬盘目录下的 .kjb 和 .ktr 文件。 “保存”和“另存为”是把转换和工作以 .ktr 和 .kjb 文件存储到硬盘上。 l 资源库登录: “打开”是打开存储在资源库里的转换和工作 。“从 url 文件打开”是打开硬盘目录下的 .kjb 和 .ktr 文件。 “保存”是把相关转换存储

10、到资源库。 “另存为”是把转换和工作以 .kjb 和 .ktr 文件存储到硬盘上。 把本地的转换和工作存储到资源库只用先打开本地的转换和工作, 点击保存即可以保存到资源库中。第五步:填写登录密码后点击“确定”,即可进入主界面:3.2菜单栏介绍3.2.1文件新建:新建包括新建转换和新建作业,如下图所示: 点击上图中的转换或作业,都可以弹出新建转换或新建作业的窗口。打开:打开已经存在的转换或作业。l 在连接资源后点击打开,是选择打开资源库中已经存在的对象。 例如:l 在不连接资源库的情况下点击打开时,是选择存放在硬盘上的转换或作业打开。例如:从URL打开文件:从URL地址打开已经存在硬盘上的转换或

11、作业。例如:导出到 XML 文件:将定义的转换和 Job 导出到 xml 文件:从 XML 文件导入:从导出的 xml 文件中导入定义的转换或 Jobs。 Export all linked resources to XML:导出所有相关的资源保存为.Zip文件。目前解压后再次导入时报错。保存:保存当前的转换或作业(Jobs)。另存为(VFS) :VFS 的作用就是采用标准的 Unix 系统调用读写位于不同物理介质上的不同文件系统。关闭:关闭当前转换或当前作业。打印:打印当前转换或当前作业。退出:退出应用程序,即闭Kettle的运行程序。3.2.2 编辑l 撤销:撤销前一步操作 。l 搜索元数

12、据:搜索当前转换或 Jobs 的相关元数据,可以过滤,可以查看所有,资源库实际上就是元数据库。这个选项将在可用的字段、连接器、注释以及所有加载的任务和转换中搜索,并展示搜索的结果。l 设置环境变量: 添加设置环境变量的功能,使动态的测试转换变为可能。通常变量被一个任务中不同的转换设置。不管怎么样,在开发或者测试期间,你可能需要手动的设置变量。可以通过“编辑/Set Environment variables”或者CTRL+J来使用这个特性。当运行一个未定义的变量时将出现这个窗口,可以在执行的时候去定义它。变量最先的使用是设置环境变量。例如很容易指定临时文件的位置,可以使用变量: $java.i

13、o.tepdir,这个变量在/Unix/Linux/OSX 机器上的位置是:directory/tmp,在 Windows 机器上的目录是: c: Documents and Settings<username>Local Settings Temp。 l 显示环境变量:见变量叙述 。l 显示参数: l 清除选择: 清除所选的转换或作业等的步骤,即取消选择的步骤。l 选择所有的步骤:全选定义的转换或 jobs 的所有步骤。 l 复制所选的步骤到剪贴板:复制当前所选择的转换步骤到剪切板。 l 从剪贴板复制步骤:相当于粘贴步骤。 l 浏览数据库:单击浏览数据库,弹出选择对话框选中一个连

14、接,确定,查看数据库表和视图等。数据库浏览器允许你浏览你连接的数据库。在这个时候,它仅仅显示可用的表、目录或者表模式。可以利用右边的按钮最低限度的展示表或者视图。你可以选择下面的选项:Ø Preview first 100 rows of the table(显示表最开始的100行)Ø Preview first rows of the table(根据你输入的行数展示表)Ø Number of rows of the table(显示表的行数)Ø Show layout out of the table(显示表结构)Ø Generate th

15、e DDL(生成该表的DDL语句)Ø Generate the DDL for another connection(在其它的数据库连接中生成该表的DDL语句)Ø Open for SQLthe table(in SQL Editor)(在SQL编辑器中生成读取该表的SQL语法)Ø Truncate table (生成“Truncate table”的语句)l 一般项:Kettle的一般属性配置选择,可以改变很多选项来增强图形用户界面的个性化。l 观感:Kettle界面外观的设置,例如设置窗体字体大小、颜色以及背景颜色等等。此选项在 编辑>选项>观感中

16、设置。2.2.3 视图工作区大小设定,如下图所示:放大(I):放大工作区。缩小(O):缩小工作区。等比例(P):回到最开始的工作区。2.2.4 资源库l 连接资源库:进入登录首页连接资源库。 输入资源库名称、登录的用户、密码等信息后,点击“确定”按钮进行登录,如果点击“取消”,则退出连接资源库界面;如果点击“没有资源库”,则自动进入没有连接资源库的界面。l 断开资源库连接: 断开当前已经连接上的资源库。l 探索资源库:管理转换、工作、用户、档案等。详情见资源库中 Administrator 权限。l 编辑当前用户:编辑密码和权限3.2.5 转换l 运行:执行当前转换。l 预览:预览本次转换的结

17、果。l 调试:和预览类似。l 重放:重新运行转换 l 校验:检验转换的输出l 影响分析:分析转换的影响l 获取 SQL:l 显示最近一次影响分析: 例如:l 显示最近一次影响结果: 例如:l 复制转换到剪贴板: 将当前的转换复制到剪切板。l 从剪贴板粘贴转换: 将复制到剪切板的转换粘贴到新的转换中。如果在同一个开发界面,则需要关闭复制的那个转换,才能对其复制操作。l 复制转换图片到剪贴板: 类似于将当前转换截图,可将其图保存到需要的地方。l 设置:设置转换的属性3.2.6 作业l 运行:运行本作业 。l 复制job到剪切板: 将当前job复制到剪切板。l 从剪切板粘贴Paste job:将复制

18、到剪切板的job粘贴到新的job中。l 设置:设置 JOB 的属性, “日志”可以存储日志信息到数据库表中。3.2.7 向导l 创建数据库连接向导:l 复制表向导:l 拷贝表向导:3.2.8 帮助l 每天提示:l 显示欢迎屏幕:l 显示步骤的插件信息:l 显示作业项插件:l 关于:3.3工具栏介绍3.3.1 transformation的工具栏 Transformation的工具栏如下图所示:功能对应菜单栏里的转换、文件、视图等。l 新建:新建转换、工作等。l 打开:打开转换或作业。l 保存当前转换或工作。l 以不同名字保存当前转换或工作,即另存为。l 运行当前工作或转换。l 暂停当前运行的工

19、作或者转换。l 停止当前运行的工作或转换。l 预览这个转换。l debug 这个转换。l 重放这个转换。l 校验这个转换。l 分析这个转换在数据库中的影响。l 获取 SQL:产生需要运行这个转换的 SQL。l 相当于编辑下的浏览数据库。l 隐藏、显示执行结果面板。l 相当与菜单栏里的视图,放大、缩小工作区。3.3.2 Jobs工具栏l 新建:新建转换、工作等。l 打开:打开转换或作业。l 保存当前转换或工作。l 以不同名字保存当前转换或工作,即另存为。l 运行当前工作或转换。l 停止当前运行的工作或转换。l 获取 SQL:产生需要运行这个转换的 SQL。l 相当于编辑下的浏览数据库。l 隐藏、

20、显示执行结果面板。l 相当与菜单栏里的视图,放大、缩小工作区。3.4主对象树介绍主对像树包括转换transformation和作业Jobs,如下图所示:3.4.1Transformation的主对象树3.4.1.1新建transformation双击“转换”或右击“转换”再选择“新建”,都可以创建一个transformation。创建后的转换transformation界面如下所示:3.4.1.2 transformation设置右键单击“设置”属性:单击“设置”转换属性后界面如下图所示:转换transformation的属性设置界面分别如下所示:l 转换:l paramenters:l 日志

21、:l 日期:l 依赖:l 杂项:l 分区:l 监控:设置中各选项说明如下:选项描述转换名称转换的名称,如果你想保存到资源库中,就需要指定一个名称。描述转换的简短描述,将在资源库浏览器中展示。扩展描述转换的详细描述。状态草稿或者产品状态版本描述版本目录你想保存转换到资源库的目录创建者(Created by)创建转换的用户名称转换创建的时间(Last modified at)转换创建的时间转换最后修改者的姓名(Last modified by)转换最后修改的用户转换最后修改的时间(Last modified at)转换最后修改的时间READ日志步骤将当前步骤读取行的编号写入日志表。READ含义:从

22、源步骤读取INPUT日志步骤将当前步骤输入行的编号写入日志表。INPUT含义:从文件或者数据库输入WRITE日志步骤将当前步骤写入行的编号写入日志表。WRITE含义:写入到目标步骤OUTPUT日志步骤将当前步骤输出行的编号写入日志表。OUTPUT含义:输出到文件或者数据库UPDATE日志步骤将当前步骤更新行的编号写入日志表。UPDATE含义:在数据库更新日志数据库连接使用这个连接写到日志表日志表指定日志表的名称使用批处理-ID如果想使用批处理-ID,选中此选项使用日志表来记录登录用CLOB字段在日志表中存储登录文本最大日期数据库连接通过这个连接获取日期范围最大日期表通过这个表获取日期范围最大日

23、期字段通过这个字段获取日期范围最大日期偏移用这个数量来增长日期最大日期区别根据日期围范获取最大日期差异依赖这个表允许你输入所有的依赖记录集合里面的记录数这个选项允许你改变一个转换中两个步骤缓冲区的尺寸打开日志视图:打开历史视图:3.4.1.3 DB 连接右键 “DB连接”属性选择“新建”,或双击“DB连接”,都能弹出创建窗口:Kettle支持多种Connection Type,现以oracle为例,创建DB连接,具体如下图所示:3.4.1.4 Steps(步骤)显示当前转换或者工作的所有步骤:l Edit:编辑该步骤的属性 。l Duplicate:副本,复制步骤 。l 删除:删除步骤 。l

24、Share:共享步骤。3.4.1.5 Hops(节点连接)显示当前转换或工作的所有节点连接(即各步骤之间的数据连接,表示数据流向) 。 一个连接连接两个步骤。数据流的方向使用箭头来指定。连接可以使它可用或者禁用。l Edit:可以对改节点进行编辑操作。l 删除:即删除该节点。3.4.1.6 数据库分区 schems右键数据库分区:选择“新建”菜单:3.4.1.7 子服务器右键单击“子服务器 ”,如下图所示:选择“新建”菜单,进入子服务器新建界面:服务:代理:3.4.1.8 Kettle 集群 schems右键“Kettle集群schems”:双击“Kettle集群schems”或右键“Kett

25、le集群schems”后,再选择“新建”,都会弹出新建“Kettle集群schems”的新建界面:3.4.2Jobs主对象树Jobs主对象树包括DB连接、作业项目、子服务器,具体如下图所示:3.4.2.1 新建 Job右键“Jobs”后选择“新建”菜单或直接双击“Jobs”菜单,都可以实现Job的新增:3.4.2.2 设置 Job 属性右键“Jod”,可选择“设置”菜单:单击“设置”菜单,即会弹出job设置界面,可以对其属性进行修改:打开日志视图:打开历史视图:3.4.2.3 DB 连接一个连接描述了Kettle连接数据库的方法,在左边树菜单的顶部展示了所有可用的连接。右键 DB 连接属性:新

26、建、编辑数据库连接:l Connection name:定义转换或者任务访问的连接的唯一名称。l Connection type:连接的数据类型。l Method of access:可以是Native(JDBC),ODBC,或者OCI。l Server host name:指定数据库部署的主机或者服务器的名称,也可以指定IP地址。l Database name:指定连接的数据库的名称,如果是ODBC方式就指定DSN名称。l Port number:设定数据库监听的TCP/IP端口号。l User name/password:指定连接数据库的用户名和密码。数据库的用法如下:数据库访问方法服务器

27、名称/地址数据库名称端口(缺省)用户名/密码OracleNative需要Oracle database SID需要(1521)需要ODBCODBC DSN name需要OCIDatabase TNS name需要MySQLNative需要MySQL database name可选(3306)密码可选ODBCODBC DSN name密码可选MS AccessODBCODBC DSN name可选MS SQL ServerNative需要Database name需要(1433)需要ODBCODBC DSN name需要IBM DB2Native需要Database name需要(50000)需

28、要ODBCODBC DSN name需要AS/400Native需要AS/400 Library name可选需要ODBCODBC DSN name需要SybaseNative需要Database name需要(5001)需要ODBCODBC DSN name需要3.4.2.4 作业项目显示该作业中的所有项目:3.4.2.5 子服务器右键单击“子服务器”选择“新建”或双击“子服务器”都可新建子服务器:新建“子服务器”的界面如下所示:3.5核心对象介绍核心对象包括转换transformation和作业Jobs的核心对象。即转换和作业中用到的各种组件。3.5.1Transformation核心对象

29、Transformation核心对象是Kettle中转换的所有组件。具体如下图所示:3.5.1.1 TransformTransform:转换。Dummy Plugin:空操作,即是一个空的测试步骤。3.5.1.2 InputInput:导入数据。3.5.1.2.1 ESRI Shapefile ReaderESRI Shapefile Reader:读取矢量数据,即从SHP文件中读取图形数据和属性数据。Shapefile是ESRI以矢量数据表达和储存地图要素的数据文件格式;1)shp文件:它是shapefiles的主体文件,用来储存地图要素坐标数据及几何数据。2)shx文件:它是用来储存地图

30、要素之间隶属关系的索引文件 。 3)dbf文件它是以DBase关系数据文件的方式储存各地图要素的属性。3.5.1.2.2 S3 CSV InputS3 CSV Input:CSV文件输入,即将读取的CSV文件数据并行存储到Amazon中。3.5.1.3 输入Kettle支持以下各种数据输入选项:3.5.1.3.1 Access InputAccess Input:导入数据库文件,即从微软数据库文件中读取数据。右键单击或者直接双击图标,选择“编辑步骤”开始配置:(1)先选择源 ACCESS 文件 文件中先点击浏览,定位到已存在的 ACCESS 数据库文件:当点击“增加”按钮后,即可将文件路径添加

31、到选中的文件筐中:(2)内容中选择表(3)字段选择 选择输入数据的字段3.5.1.3.2 CSV file inputCSV file input:导入CSV文件,即导入简单的CSV文件。CSV 逗号分隔值文件(Comma Separated value) ,是一种用来存储数据的纯文本文件格式,通常用于电子表格或数据库软件。l Step name:步骤名称。l File name:文件名称。l Delimiter:分隔符。l Endosure:l NIO buffer size:NIO 缓存大小。l Lazy conversion:l Header row present:l Add file

32、name to result:l The row number field name(optional):l Running in parallel:并行运行。l File encoding: 字符集选择。3.5.1.3.3 Cube 输入 Cube 输入:导入Cube文件,即从一个cube文件中读取数据。在 BI 领域,CUBE 是多维立方体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。Cube 文件扩展名是.cube。3.5.1.3.4 Excel 输入Excel 输入:导入Excel文件,即从微软的Excel文件中读取数据,兼容Excel 95,97,2000。(1

33、)文件 浏览并选择 Excel 文件,然后点击增加按钮增加选中的文件到列表中。(2)工作表 选择 EXCEL 文件中的工作表:(3)内容 以下设置会在输出表中显示:(4)错误处理如果选择忽略错误选项后,上图中的灰色部分变为可用,如下图所示:(5)字段 输入数据的相关字段,例如:选项内容说明如下:l 头部:检查是否工作表指定了一个头部行。l 非空记录:检查是否不需要空行输出。l 停在空记录:当步骤在读取工作表遇到一个空行的时候停止读取。l 文件名称字段:步骤输出指定一个包含文件名的字段。l 工作表名称字段:步骤输出指定一个包含工作表名称的字段。l Sheet row nr field:步骤输出指

34、定一个包含工作表行数的字段。工作表行数是实际的EXCEL工作表的行数。l Row nr written field: 步骤输出指定一个包含行数的字段。l 限制:限制输出的行数,0代表输出所有行。3.5.1.3.5 Fixed file inputFixed file input:导入文本文件,即导入文本文件。固定长度的数据输入,编辑步骤:3.5.1.3.6 Generate random valueGenerate random value:生成随机数,即随机数生成器。产生一个某类型的随机值,编辑步骤:3.5.1.3.7 Get file NamesGet file Names:获得文件名称,

35、即从系统中获得文件并将其发送到下一步。得到硬盘上文件的详细信息: 文件:过滤:3.5.1.3.8 Get Files Rows CountGet files Rows Count:获取文件行数,即获取文件行数。文件:内容:3.5.1.3.9 Get SubFolder namesGet SubFolder names:获取子文件夹名称,即读取一个主文件夹获取所有的子文件。文件:设置:3.5.1.3.10 Get data from XMLGet data from XML:从xml文件中获取数据,即使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件。选择.xml文件

36、后点击“Add”按钮后如下图所示:文件:内容:字段:3.5.1.3.11 LDAP Input使用LDAP协议读取远程数据,即利用LDAP协议连接远程主机读取数据。一般:内容:字段:3.5.1.3.12 LDIF InputLDIF Input:导入LDIF文件,即从LDIF文件中读取数据。文件:内容:字段:3.5.1.3.13 Mondrian InputMondrian Input:导入MDX文件,即用MDX查询语句执行和审核数据,分析LDAP服务器。3.5.1.3.14 Property InputProperty Input:导入属性文件,即从属性文件中读入键值对。从 properti

37、es 文件中输入数据:文件:内容:字段:3.5.1.3.15 RSS InputRSS Input:导入RSS订阅,即读取RSS订阅信息。一般:内容:字段:3.5.1.3.16 SalesForce InputSalesForce Input:导入salesforce服务,即读取slaseforce模块服务,并将其转换成数据,并把这些数据写入多个输出流。设置:内容:字段:3.5.1.3.17 XBase 输入XBase输入:导入DBF文件,即从一个XBase类型的DBF文件中读取记录。使用这一步可以读取大多数被称为XBase family 派生的 DBF 文件:l 步骤名称:步骤的名称,在单个

38、转换中必须唯一。l 文件名:用变量支持。l Limit size:读取行的数量,0表示不限制。l 增加记录行数:用包含行号的指定名称,添加一个字段到输出中。3.5.1.3.18 文本文件输入从文本文件中读取数据出来,编辑步骤 (1) 文件增加文件,包括路径:(2)内容:按照文本内容的分隔样式来输入数据(3)错误处理当错误发生的时候错误处理标签允许你指定这个步骤将重新做些什么。选项描述忽略错误如果在解析的时候忽略错误,就指定这个选项跳过错误行使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的错误计数字段在输出流行中增加一个字段,这

39、个字段将包含错误发生的行数错误字段字段名在输出流行中增加一个字段,这个字段将包含错误发生的字段名称错误文本字段名在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述警告文件目录当警告发生的时候,它们将被放进这个目录。文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>错误文件目录当错误发生的时候,它们将被放进这个目录。文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>失败行数文件目录当解析行的时候发生错误,行号将被放到这个目录。文件名将是<错误行目录>/文件名.<日期时

40、间>.<错误行扩展>(4)过滤在“过滤”标签中,你可以指定文本文件中要过滤的:选项描述过滤字符搜索字符串过滤位置在行中过滤字符串必须存在的位置。0是起始位置,如果你指定一个小于0的值,过滤器将搜索整个字符停止在过滤器如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y(5)字段选项描述名称字段名称类型字段类型(String、Date、Number等)格式长度对于Number:有效数的数量对于String:字符的长度对于Date:打印输出字符的长度(例如4代表返回年份)精度对于Number:浮点数的数量对于String,Date,Boolean:未使用货币类型用来解释如$1

41、0,000.00的数字小数小数点可以是”.”(10;000.00)或者”,”(5.000,00)分组分组可以是”.”(10;000.00)或者”,”(5.000,00)如果为空空值处理为默认字段为空的时候的默认值去空字符串处理之前先去空重复Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值3.5.1.3.19 生成记录生成一些空记录或相等的行,编辑步骤,例如:点击“预览”后,则出现以下界面3.5.1.3.20 获取系统信息获取系统的相关信息,编辑步骤:输入名称,点击类型,选择信息的类型,有以下类型的数据:3.5.1.3.21 表输入从数据库表中读取信息:这一步常常用来利用连接和SQL

42、,从数据库中读取信息。自动生成基本的SQL语句。选项描述步骤名称步骤的名称,在单一的步骤中,名称必需唯一连接读取数据的数据库连接SQLSQL语句用来从数据库连接中读取数据从步骤插入数据指定我们期待读取数据的步骤名称。这些信息能被插入到SQL语句限制设置从数据库中读取的行数。0所有行(1) 若选中,会发现中文内容会显示为乱码 。(2) 记录数限制为 0 时即无限制 。(3) 意为从前面步骤插入数据到此 (4)点击按钮,弹出数据库内容对话框:点击左边的表,右边呈现可用状态选择输入表后,点击“确认”按钮,会提示:再点击“是”按钮,机会出现以下界面:再点击上图中的“确定”按钮后,即完成输入表的配置。3

43、.5.1.4 输出Kettle支持以下各种形式的数据输出,具体如下图所示:3.5.1.4.1 Access OutputAccess Output:导出数据,即记录存储到微软的数据库表中。Database filename 直接输入名字即可,不需要首先创建,最好不要用中文 Target table 直接输入名字即可,不要用中文,转换运行过程中自动创建 ACCESS 数据库文件和表。Access 输出是输出从前面来的所有字段信息,若要选择相关字段,则在之前用到以下控件:3.5.1.4.2 Cube 输出Cube输出:导出Cube文件,即数据写入Cube文件中。在 BI 领域,CUBE 是多维立方

44、体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。输出数据到 Cube 文件中:3.5.1.4.3 Excel OutputExcel Output:导出Excel文件,即储记录到Excel格式化文档中。(1) 文件Excel输出中文件选项设置界面如下图所示:(2) 内容(3) 字段3.5.1.4.4 Properties OutputProperties Output:导出属性信息,即数据写入属性文件。Properties 格式文件是 Java 中的文件,类似 XML 文件,都是用来按一定结构保存数据的,一般用于资源文件、配置文件,xml 也多用于数据传输。具体干什么用要

45、看业务需求。使用 MyEclipse Text Editor 可以编辑、打开此格式文件:编辑步骤: 选择字段名称和字段值:一般:Content(内容) :选择输出文件路径3.5.1.4.5 RSS OutputRSS Output:导出RSS订阅信息,即读RSS订阅信息流。Chanel:Item:项。 custom output:自定义输出。Custom Namespace:自定义命名空间。Output File:出文件。3.5.1.4.6 SQL File OutputSQL File Output:导出SQL文件,即QL INSERT语句输出到文件。把“数据输入到相关数据库表”这个过程的

46、SQL 插入语句输出到 Sql 脚本文件,但是并不完成数据到数据库表的插入,只是生成 Sql 操作脚本。 编辑步骤: General(通用) :一般。内容:3.5.1.4.7 Synchronize after mergeSynchronize after merge:并后同步信息,即根据某个字段值的条件插入,删除,更新数据库表。一般:Advanced: 3.5.1.4.8 XML 输出输出数据到 XML 文件中选择文件路径: 文件: 选择 XML 文件存储路径内容: 设置输出 xml 文件的相关属性,具体如何体现可以在 xml 文件中看出, 分割每一个记录: 意思为每一个 xml 文件中的记

47、录数, 比如共有 50 行记录, 则会产生 50/5=10个 xml 文件,若为 0 表示无限制,只产生一个 xml 文件,存储所有输入的数据:字段: 选择相关字段,点击可以获得所有字段XML输出各选项说明如下:选项描述步骤名称步骤的名称,在单一转换中必须唯一。文件名称指定输出文件的名称和位置。扩展名添加一个点和扩展到文件名的后面(.xml)文件名中包含步骤号码如果你在多个拷贝中运行一个步骤,在文件扩展名的前面,将包含拷贝的号码文件名中包含日期文件名中包含系统日期(_20061231)文件名中包含时间文件名中包含系统时间(_235959)分割每一个行在其它的XML文件被创建之前,放入XML文件

48、中的最大行数已压缩是否想把XML文件存储在一个归档文件中正在编码正在使用的编码。编码在XML文件的头部指定父XML元素XML文档的根元素的名称记录XML元素XML文档的记录元素的名称字段l 字段名:字段的名称l 元素名称:XML文件使用的元素的名称l 类型:字段的类型l 格式:请参照9、6、1、5格式化l 长度:输出字符串将填补为指定的长度l 精度:使用的精度l 货币:代表目前的货币符号如$10,000.00l 十进制:小数点可以是“.”或者“,”l 分组:分组符可以是“,”或者“.”l NULL:如果字段值为空将被此值替换3.5.1.4.9 删除基于关键字删除目的表记录:表字段:目的表里的字

49、段。流里的字段:前面输入数据流中的字段,首先选择目的表 stu,然后选择关键字。删除符合一定条件的目的表里的数据, 条件即为: 目的表中关键字段值与输入数据中的关键字段值相等。 如以上就是删除 stu 表中 BJDM 存在于输入数据流中 bjdm 字段的学生记录,相当于 sql 语句: Delete from stu where bjdm in (select bjdm from 输入表),若是多个条件则条件为 and 形式,如: Delete from stu where bjdm in (select bjdm from 输入表) and bjmc in (select bj dm fro

50、m 输入表)。3.5.1.4.10 插入/更新基于关键字更新或插入记录到数据库,编辑步骤:这个步骤利用查询关键字在表中搜索行。如果行没有找到,就插入行;如果能被找到,并且要被更新的字段没有任何改变,就什么也不做,如果有不同,行就会被更新。 解释: l 步骤名称:步骤的名称,在单个转换中必须唯一。 l 连接:目标表所在的数据库连接名称。 l 目标模式:要写入数据的表的Schema 名称。允许表名中包含“.”是很重要的。 l 目标表:想插入或者更新的表的名称。 l Commit size:提交之前要改变(插入/更新)的行数。 l 不执行任何更新:如果被选择,数据库的值永远不会被更新,仅仅可以插入。

51、 l 用来查询的关键字:可以指定字段值或者比较符。可以用以下比较符:=,<>,<,<=,>,LIKE,BETWEEN,IS NULL,IS NOT NULL。 l 更新字段:指定你想要插入/更新的字段 l “获取字段”按钮:从输入流中获取字段,并且把他们填充到关键字网格中。 l “获取更新字段”按钮:从输入流中获取更新字段,并且把他们填充到更新网格中。 l “Check”按钮:检查目标表中是否所有的字段都可用。 l “SQL”按钮:为正确操作,生成创建表和索引的SQL 脚本。3.5.1.4.11 文本文件输出输入数据到文本文件中:文件中可以写入文本名字,扩展名 t

52、xt,以及其它信息; 内容中可以定义分隔符; 字段中可以选择前面数据流来的字段。3.5.1.4.12 更新基于关键字更新记录到数据库,这个步骤类似于插入/更新步骤,除了对数据表不作插入操作之外。它仅仅执行更新操作。 编辑步骤:3.5.1.4.13 表输出输出数据到数据库表中,如 ACCESS、Oracle、sql server 等表中,一般表示的是 Oracle、sql等表,因为有专门的。 如果要选择输入到表中的数据的相关字段,可以做如下操作: (1) 先勾选 (2) 设置映射:(3)提交记录数没什么作用,选择 1 也可以,但是如果不填数字就会使转换一直处于终止状态。表输出中各选项说明如下:选

53、项描述步骤名称步骤名称,在单个转换中必须唯一连接用来写数据的数据库连接目标模式要写数据的表的模式的名称。允许表名中包含“.”对数据源来说是很重要的。目标表要写数据的表名提交记录数量在数据表中用事务插入行。如果N比0大,每N行提交一次连接。否则,不使用事务,速度会慢一些。裁减表在第一行数据插入之前裁减表忽略插入错误使Kettle忽略比喻违反主键约束之类的插入错误,最多20个警告将被日志记录。在批量插入的时候这个功能不可用。使用批量插入如果你想批量插入的话,就使用这个选项。这个选项的速度最快,默认被选上。表分区数据使用这个选项可以在多个表之间拆分数据。例如用把数据放到表SALES_200510, SALES_200511,SALES_200512,中来代替直接插入数据到表SALES中。以下的视图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论