Kettle产品详细介绍_第1页
Kettle产品详细介绍_第2页
Kettle产品详细介绍_第3页
Kettle产品详细介绍_第4页
Kettle产品详细介绍_第5页
已阅读5页,还剩277页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2017 12 9 Kettle 产品详细介绍产品详细介绍 晴天云晴天云 目录 Kettle 产品详细介绍 0 Kettle 产品详细介绍 2 1 Kettle 简介 2 2 Kettle 的安装 2 3 Kettle 的详细介绍 3 3 1Kettle 资源库管理 3 3 1 1 新建资源库 4 3 1 1 新建资源库 4 3 1 2 更新资源库 7 3 1 3 资源库登陆和用户管理 8 3 1 4 资源库登录和没有资源库登录的区别 9 3 2 菜单栏介绍 11 3 2 1 文件 11 3 2 2 编辑 14 2 2 3 视图 20 2 2 4 资源库 21 3 2 5 转换 23 3 2 6 作业 29 3 2 7 向导 32 3 2 8 帮助 34 3 3 工具栏介绍 35 3 3 1 transformation 的工具栏 35 3 3 2 Jobs 工具栏 36 3 4 主对象树介绍 37 3 4 1Transformation 的主对象树 37 3 4 2Jobs 主对象树 52 3 5 核心对象介绍 59 3 5 1Transformation 核心对象 59 3 5 2Jobs 核心对象 220 3 6 transformation 功能 281 3 7 Jobs 功能 282 4 Kettle 优点 282 5 Kettle 缺点 282 Kettle 产品详细介绍产品详细介绍 1 Kettle 简介简介 简单地说 Kettle 就是国外一个开源的 ETL 工具 其主要功能 就是对源数据进行抽取 转换 装入和加载数据 也就是将源数据 整合为目标数据 Kettle 中有两种脚本文件 transformation 和 job transformation 完成针对数据的基础转换 job 则完成整个工作 流的控制 Spoon 是一个图形用户界面 它允许运行转换或者任务 其中 转换是用 pan 工具来运行 任务是用 Kitchen 来运行 Pan 是一个数 据转换引擎 它可以执行很多功能 例如从不同的数据源读取 操 作和写入数据 Kitchen 是一个可以运行利用 xml 或数据资源库描述 的任务 通常任务是在规定的时间间隔内用批处理的模式自动运行 Kettle 主要包括以下三大块 一 Spoon 转换 工作 transform job 设计工具 GUI 方式 二 Kitchen 工作 job 执行器 命令行方式 三 Span 转换 trasform 执行器 命令行方式 2 Kettle 的安装的安装 首先 必须先安装 Sun 公司的 JAVA 运行环境 1 4 以上的版本 包括 1 4 并配置好环境变量 然后 将下载的 Kettle 软件解压到目标目录 就可以看到 Kettle 的启动文件 Kettle exe 或 Spoon bat 最后 运行启动文件 Windows 平台的启动 双击 spoon bat Linux 平台的启动 双击 Spoon sh 3 Kettle 的详细介绍的详细介绍 3 1Kettle 资源库管理资源库管理 登陆时可以选择 没有资源库 即可进入 Kettle 此时所定义的 转换和工作将只能存储在本地磁盘上 以 ktr 文件和 kjb 文件的方式 若使用资源库登录 则所有定义的转换和工作将会存储到资源库里 实际上 资源库就是一个数据库 比如 SQL SERVER 数据库 里面存 储了 Kettle 定义的元素的相关元数据 简单而言 就是元数据库 如果资源库创建完毕 则资源库的相关信息将存储在文件 reposityries xml 中 它位于你的缺省 home 目录的隐藏目录 kettle 中 如果是 windows 系统 这个路径就是 c Documents andSettings kettle 3 1 1 新建资源库新建资源库 第一步 点击登录时弹出界面的中的 新建 按钮 即会弹出 以下界面 3 1 1 新建资源库新建资源库 第一步 点击登录时弹出界面的中的 新建 按钮 即会弹出 以下界面 第二步 再继续点击第一步中界面的 新建 按钮 即可弹出 一下界面 第二步 再继续点击第一步中界面的 新建 按钮 即可弹出 一下界面 第三步 填写完以上对话框后 点击 Test 按钮 如果出现 下图中的提示的 正确连接到数据库 及创建成功 然后点击 OK 即可进入下一步 第四步 完善资源库信息后 点击 确定 即可完成资源库信 息创建 3 1 2 更新资源库更新资源库 创建了资源库后我们可以更新资源库 点击首页的 编辑 新建 按钮均可以进入到创建资源库界面 当数据库连接选择后 就可以开始创建资源库了 单击 创建 或更新 按钮可以创建新资源库或者更新原来已有的资源库 弹出 选择 是 弹出 输入 Admin 用户 的密码 资源库登陆和用户管理中描述 确定 更新资源库的步骤类似创建资源库 不同的是它是创建索引 3 1 3 资源库登陆和用户管理资源库登陆和用户管理 R User 和 R Profile 两个表存储了资源库的用户信息 包括登 录名 密码和用户权限 展开两个表分别做以下说明 R Profile 表 它说明有 3 种权限的用户 1 Administrator 权限超级管理员 可以管理其它用户 2 User 权限普通用户 可以使用所有工具 3 Read only 只读用户 理解为只可读不可写 即可以使用工 具 但是不能保存信息 后面再进一步研究 R User 表 LOGIN 是登录名 PASSWORD 是密码 注意密码是经过加密的 所以在此才会以 16 进制显示 在这里我们不研究加密算法 ENABLED 表示用户是否可用 Y 是可用 N 是不可用 在工具里体 现为 我们从表中可以看出密码是经过加密的 由于我们不知道他的 加密算法 我们不知道原密码 但是我们想通过资源库登录 Kettle 如果用 admin 具有超级管理员权限 能登陆 则可以创建 其它权限的用户 从而不再需要这些初始化的用户信息 3 1 4 资源库登录和没有资源库登录的区别资源库登录和没有资源库登录的区别 使用资源库登录后在 Kettle 中定义的转换和 Job 均存储到资 源库的相关表中 若没有资源库登录 则会以 ktr 和 kjb 格式存储 在硬盘上 此外两者登录后菜单栏显示的将不同 并且有些选项功 能也不一样 1 菜单栏显示不同 没有资源库 有资源库 2 文件菜单栏相关选项功能不同 没有资源库 打开 从 url 文件打开 均是打开硬盘目录下的 kjb 和 ktr 文件 保存 和 另存为 是把转换和工作以 ktr 和 kjb 文件存 储到硬盘上 资源库登录 打开 是打开存储在资源库里的转换和工作 从 url 文件打开 是打开硬盘目录下的 kjb 和 ktr 文件 保存 是把相关转换存储到资源库 另存为 是把转换和工作以 kjb 和 ktr 文件存储到硬盘上 把本地的转换和工作存储到资源库只用先打开本地的转换和工 作 点击保存即可以保存到资源库中 第五步 填写登录密码后点击 确定 即可进入主界面 3 2 菜单栏介绍菜单栏介绍 3 2 1 文件文件 新建新建 新建包括新建转换和新建作业 如下图所示 点击上图中的转换或作业 都可以弹出新建转换或新建作业的 窗口 打开 打开 打开已经存在的转换或作业 在连接资源后点击打开 是选择打开资源库中已经存在的对 象 例如 在不连接资源库的情况下点击打开时 是选择存放在硬盘上 的转换或作业打开 例如 从从 URL 打开文件 打开文件 从 URL 地址打开已经存在硬盘上的转换或作 业 例如 导出到导出到 XML 文件 文件 将定义的转换和 Job 导出到 xml 文件 从从 XML 文件导入 文件导入 从导出的 xml 文件中导入定义的转换或 Jobs Export all linked resources to XML 导出所有相关的资源保存为 Zip 文件 目前解压后再次导入时报错 保存 保存 保存当前的转换或作业 Jobs 另存为 另存为 VFS VFS 的作用就是采用标准的 Unix 系统调用 读写位于不同物理介质上的不同文件系统 关闭 关闭 关闭当前转换或当前作业 打印 打印 打印当前转换或当前作业 退出 退出 退出应用程序 即闭 Kettle 的运行程序 3 2 2 编辑编辑 撤销撤销 撤销前一步操作 搜索元数据搜索元数据 搜索当前转换或 Jobs 的相关元数据 可以 过滤 可以查看所有 资源库实际上就是元数据库 这个选项将在可用的字段 连接器 注释以及所有加载 的任务和转换中搜索 并展示搜索的结果 设置环境变量设置环境变量 添加设置环境变量的功能 使动态的测试转换变为可能 通常变量被一个任务中不同的转换设置 不管怎么样 在开 发或者测试期间 你可能需要手动的设置变量 可以通过 编辑 Set Environment variables 或者 CTRL J 来使 用这个特性 当运行一个未定义的变量时将出现这个窗口 可以在 执行的时候去定义它 变量最先的使用是设置环境变量 例如很容易指定临时文件的 位置 可以使用变量 java io tepdir 这个变量在 Unix Linux OSX 机器上的位置是 directory tmp 在 Windows 机器上的目录是 c Documents and Settings Local Settings Temp 显示环境变量 见变量叙述 显示参数显示参数 清除选择清除选择 清除所选的转换或作业等的步骤 即取消选 择的步骤 选择所有的步骤选择所有的步骤 全选定义的转换或 jobs 的所有步骤 复制所选的步骤到剪贴板复制所选的步骤到剪贴板 复制当前所选择的转换步骤到剪 切板 从剪贴板复制步骤从剪贴板复制步骤 相当于粘贴步骤 浏览数据库浏览数据库 单击浏览数据库 弹出选择对话框 选中一个连接 确定 查看数据库表和视图等 数据库浏览器允许你浏览你连接的数据库 在这个时候 它仅 仅显示可用的表 目录或者表模式 可以利用右边的按钮最低限度的展示表或者视图 你可以选择 下面的选项 Preview first 100 rows of the table 显示表最开始的 100 行 Preview first rows of the table 根据你输入的行数展示表 Number of rows of the table 显示表的行数 Show layout out of the table 显示表结构 Generate the DDL 生成该表的 DDL 语句 Generate the DDL for another connection 在其它的数据库连 接中生成该表的 DDL 语句 Open for SQLthe table in SQL Editor 在 SQL 编辑器中生成 读取该表的 SQL 语法 Truncate table 生成 Truncate table 的语句 一般项 Kettle 的一般属性配置选择 可以改变很多选项来增强图形用户 界面的个性化 观感 Kettle 界面外观的设置 例如设置窗体字体大小 颜色以及背 景颜色等等 此选项在 编辑 选项 观感中设置 2 2 3 视图视图 工作区大小设定 如下图所示 放大放大 I 放大工作区 缩小缩小 O 缩小工作区 等比例等比例 P 回到最开始的工作区 2 2 4 资源库资源库 连接资源库连接资源库 进入登录首页连接资源库 输入资源库名称 登录的用户 密码等信息后 点击 确定 按钮进行登录 如果点击 取消 则退出连接资源库界面 如果点 击 没有资源库 则自动进入没有连接资源库的界面 断开资源库连接断开资源库连接 断开当前已经连接上的资源库 探索资源库探索资源库 管理转换 工作 用户 档案等 详情见资源 库中 Administrator 权限 编辑当前用户编辑当前用户 编辑密码和权限 3 2 5 转换转换 运行运行 执行当前转换 预览预览 预览本次转换的结果 调试调试 和预览类似 重放重放 重新运行转换 校验校验 检验转换的输出 影响分析影响分析 分析转换的影响 获取获取 SQL 显示最近一次影响分析显示最近一次影响分析 例如 显示最近一次影响结果显示最近一次影响结果 例如 复制转换到剪贴板复制转换到剪贴板 将当前的转换复制到剪切板 从剪贴板粘贴转换从剪贴板粘贴转换 将复制到剪切板的转换粘贴到新的转换 中 如果在同一个开发界面 则需要关闭复制的那个转换 才能对 其复制操作 复制转换图片到剪贴板复制转换图片到剪贴板 类似于将当前转换截图 可将其图 保存到需要的地方 设置设置 设置转换的属性 3 2 6 作业作业 运行运行 运行本作业 复制复制 job 到剪切板到剪切板 将当前 job 复制到剪切板 从剪切板粘贴从剪切板粘贴 Paste job 将复制到剪切板的 job 粘贴到新的 job 中 设置设置 设置 JOB 的属性 日志 可以存储日志信息到数 据库表中 3 2 7 向导向导 创建数据库连接向导创建数据库连接向导 复制表向导复制表向导 拷贝表向导拷贝表向导 3 2 8 帮助帮助 每天提示每天提示 显示欢迎屏幕显示欢迎屏幕 显示步骤的插件信息显示步骤的插件信息 显示作业项插件显示作业项插件 关于关于 3 3 工具栏介绍工具栏介绍 3 3 1 transformation 的工具栏的工具栏 Transformation 的工具栏如下图所示 功能对应菜单栏里的转换 文件 视图等 新建 新建转换 工作等 打开 打开转换或作业 保存当前转换或工作 以不同名字保存当前转换或工作 即另存为 运行当前工作或转换 暂停当前运行的工作或者转换 停止当前运行的工作或转换 预览这个转换 debug 这个转换 重放这个转换 校验这个转换 分析这个转换在数据库中的影响 获取 SQL 产生需要运行这个转换的 SQL 相当于编辑下的浏览数据库 隐藏 显示执行结果面板 相当与菜单栏里的视图 放大 缩小工作区 3 3 2 Jobs 工具栏工具栏 新建 新建转换 工作等 打开 打开转换或作业 保存当前转换或工作 以不同名字保存当前转换或工作 即另存为 运行当前工作或转换 停止当前运行的工作或转换 获取 SQL 产生需要运行这个转换的 SQL 相当于编辑下的浏览数据库 隐藏 显示执行结果面板 相当与菜单栏里的视图 放大 缩小工作区 3 4 主对象树介绍主对象树介绍 主对像树包括转换 transformation 和作业 Jobs 如下图所示 3 4 1Transformation 的主对象树的主对象树 3 4 1 1 新建新建 transformation 双击 转换 或右击 转换 再选择 新建 都可以创建一个 transformation 创建后的转换 transformation 界面如下所示 3 4 1 2 transformation 设置设置 右键单击 设置 属性 单击 设置 转换属性后界面如下图所示 转换 transformation 的属性设置界面分别如下所示 转换 paramenters 日志 日期 依赖 杂项 分区 监控 设置中各选项说明如下 选项选项描述描述 转换名称转换的名称 如果你想保存到资 源库中 就需要指定一个名称 描述转换的简短描述 将在资源库浏 览器中展示 扩展描述转换的详细描述 状态草稿或者产品状态 版本描述版本 目录你想保存转换到资源库的目录 创建者 Created by 创建转换的用户名称 转换创建的时间 Last modified at 转换创建的时间 转换最后修改者的姓名 Last modified by 转换最后修改的用户 转换最后修改的时间 Last modified at 转换最后修改的时间 READ 日志步骤将当前步骤读取行的编号写入日 志表 READ 含义 从源步骤读 取 INPUT 日志步骤将当前步骤输入行的编号写入日 志表 INPUT 含义 从文件或者 数据库输入 WRITE 日志步骤将当前步骤写入行的编号写入日 志表 WRITE 含义 写入到目标 步骤 OUTPUT 日志步骤将当前步骤输出行的编号写入日 志表 OUTPUT 含义 输出到文 件或者数据库 UPDATE 日志步骤将当前步骤更新行的编号写入日 志表 UPDATE 含义 在数据库 更新 日志数据库连接使用这个连接写到日志表 日志表指定日志表的名称 使用批处理 ID如果想使用批处理 ID 选中此选 项 使用日志表来记录登录用 CLOB 字段在日志表中存储登 录文本 最大日期数据库连接通过这个连接获取日期范围 最大日期表通过这个表获取日期范围 最大日期字段通过这个字段获取日期范围 最大日期偏移用这个数量来增长日期 最大日期区别根据日期围范获取最大日期差异 依赖这个表允许你输入所有的依赖 记录集合里面的记录数这个选项允许你改变一个转换中 两个步骤缓冲区的尺寸 打开日志视图 打开历史视图 3 4 1 3 DB 连接连接 右键 DB 连接 属性 选择 新建 或双击 DB 连接 都能弹出创建窗口 Kettle 支持多种 Connection Type 现以 oracle 为例 创建 DB 连 接 具体如下图所示 3 4 1 4 Steps 步骤步骤 显示当前转换或者工作的所有步骤 Edit 编辑该步骤的属性 Duplicate 副本 复制步骤 删除 删除步骤 Share 共享步骤 3 4 1 5 Hops 节点连接节点连接 显示当前转换或工作的所有节点连接 即各步骤之间的数据连 接 表示数据流向 一个连接连接两个步骤 数据流的方向使 用箭头来指定 连接可以使它可用或者禁用 Edit 可以对改节点进行编辑操作 删除 即删除该节点 3 4 1 6 数据库分区数据库分区 schems 右键数据库分区 选择 新建 菜单 3 4 1 7 子服务器子服务器 右键单击 子服务器 如下图所示 选择 新建 菜单 进入子服务器新建界面 服务 代理 3 4 1 8 Kettle 集群集群 schems 右键 Kettle 集群 schems 双击 Kettle 集群 schems 或右键 Kettle 集群 schems 后 再选择 新建 都会弹出新建 Kettle 集群 schems 的新建界面 3 4 2Jobs 主对象树主对象树 Jobs 主对象树包括 DB 连接 作业项目 子服务器 具体如下 图所示 3 4 2 1 新建新建 Job 右键 Jobs 后选择 新建 菜单或直接双击 Jobs 菜单 都 可以实现 Job 的新增 3 4 2 2 设置设置 Job 属性属性 右键 Jod 可选择 设置 菜单 单击 设置 菜单 即会弹出 job 设置界面 可以对其属性进 行修改 打开日志视图 打开历史视图 3 4 2 3 DB 连接连接 一个连接描述了 Kettle 连接数据库的方法 在左边树菜单的顶 部展示了所有可用的连接 右键 DB 连接属性 新建 编辑数据库连接 Connection name 定义转换或者任务访问的连接的唯一名称 Connection type 连接的数据类型 Method of access 可以是 Native JDBC ODBC 或者 OCI Server host name 指定数据库部署的主机或者服务器的名称 也可以指定 IP 地址 Database name 指定连接的数据库的名称 如果是 ODBC 方 式就指定 DSN 名称 Port number 设定数据库监听的 TCP IP 端口号 User name password 指定连接数据库的用户名和密码 数据库的用法如下 数据库 访问方 法 服务器名 称 地址 数据库名称端口 缺 省 用户名 密码 Oracle Native 需要 Oracle database SID 需要 1521 需要 ODBCODBC DSN name 需要 OCIDatabase TNS name 需要 MySQLNative 需要 MySQL database name 可选 3306 密码可选 ODBCODBC DSN name 密码可选 MS Access ODBCODBC DSN name 可选 MS SQL Server Native 需要 Database name 需要 1433 需要 ODBCODBC DSN name 需要 IBM DB2 Native 需要 Database name 需要 50000 需要 ODBCODBC DSN name 需要 AS 400 Native 需要 AS 400 Library name 可选需要 ODBCODBC DSN name 需要 Sybase Native 需要 Database name 需要 5001 需要 ODBCODBC DSN name 需要 3 4 2 4 作业项目作业项目 显示该作业中的所有项目 3 4 2 5 子服务器子服务器 右键单击 子服务器 选择 新建 或双击 子服务器 都可 新建子服务器 新建 子服务器 的界面如下所示 3 5 核心对象介绍核心对象介绍 核心对象包括转换 transformation 和作业 Jobs 的核心对象 即 转换和作业中用到的各种组件 3 5 1Transformation 核心对象核心对象 Transformation 核心对象是 Kettle 中转换的所有组件 具体如下 图所示 3 5 1 1 Transform Transform 转换 Dummy Plugin 空操作 即是一个空的测试步骤 3 5 1 2 Input Input 导入数据 3 5 1 2 1 ESRI Shapefile Reader ESRI Shapefile Reader 读取矢量数据 即从 SHP 文件中读取 图形数据和属性数据 Shapefile 是 ESRI 以矢量数据表达和储存地图要素的数据文件格 式 1 shp 文件 它是 shapefiles 的主体文件 用来储存地图要素 坐标数据及几何数据 2 shx 文件 它是用来储存地图要素之间隶属关系的索引文件 3 dbf 文件它是以 DBase 关系数据文件的方式储存各地图要素 的属性 3 5 1 2 2 S3 CSV Input S3 CSV Input CSV 文件输入 即将读取的 CSV 文件数据并行 存储到 Amazon 中 3 5 1 3 输入输入 Kettle 支持以下各种数据输入选项 3 5 1 3 1 Access Input Access Input 导入数据库文件 即从微软数据库文件中读取 数据 右键单击或者直接双击图标 选择 编辑步骤 开始配置 1 先选择源 ACCESS 文件 文件中先点击浏览 定位到已存在的 ACCESS 数据库文件 当点击 增加 按钮后 即可将文件路径添加到选中的文件筐 中 2 内容中选择表 3 字段选择 选择输入数据的字段 3 5 1 3 2 CSV file input CSV file input 导入 CSV 文件 即导入简单的 CSV 文件 CSV 逗号分隔值文件 Comma Separated value 是一种用来 存储数据的纯文本文件格式 通常用于电子表格或数据库软件 Step name 步骤名称 File name 文件名称 Delimiter 分隔符 Endosure NIO buffer size NIO 缓存大小 Lazy conversion Header row present Add filename to result The row number field name optional Running in parallel 并行运行 File encoding 字符集选择 3 5 1 3 3 Cube 输入输入 Cube 输入 导入 Cube 文件 即从一个 cube 文件中读取数据 在 BI 领域 CUBE 是多维立方体的简称 主要用于支持联机分 析应用 OLAP 为企业决策提供支持 Cube 文件扩展名是 cube 3 5 1 3 4 Excel 输入输入 Excel 输入 导入 Excel 文件 即从微软的 Excel 文件中读取 数据 兼容 Excel 95 97 2000 1 文件 浏览并选择 Excel 文件 然后点击增加按钮增加选中的文件到 列表中 2 工作表 选择 EXCEL 文件中的工作表 3 内容 以下设置会在输出表中显示 4 错误处理 如果选择忽略错误选项后 上图中的灰色部分变为可用 如下 图所示 5 字段 输入数据的相关字段 例如 选项内容说明如下 头部 检查是否工作表指定了一个头部行 非空记录 检查是否不需要空行输出 停在空记录 当步骤在读取工作表遇到一个空行的时候停止 读取 文件名称字段 步骤输出指定一个包含文件名的字段 工作表名称字段 步骤输出指定一个包含工作表名称的字段 Sheet row nr field 步骤输出指定一个包含工作表行数的字段 工作表行数是实际的 EXCEL 工作表的行数 Row nr written field 步骤输出指定一个包含行数的字段 限制 限制输出的行数 0 代表输出所有行 3 5 1 3 5 Fixed file input Fixed file input 导入文本文件 即导入文本文件 固定长度的数据输入 编辑步骤 3 5 1 3 6 Generate random value Generate random value 生成随机数 即随机数生成器 产生一个某类型的随机值 编辑步骤 3 5 1 3 7 Get file Names Get file Names 获得文件名称 即从系统中获得文件并将其 发送到下一步 得到硬盘上文件的详细信息 文件 过滤 3 5 1 3 8 Get Files Rows Count Get files Rows Count 获取文件行数 即获取文件行数 文件 内容 3 5 1 3 9 Get SubFolder names Get SubFolder names 获取子文件夹名称 即读取一个主文件 夹获取所有的子文件 文件 设置 3 5 1 3 10 Get data from XML Get data from XML 从 xml 文件中获取数据 即使用 XPath 路 径读取 xml 文件 这个步骤也允许你解析以前字段定义的 xml 文件 选择 xml 文件后点击 Add 按钮后如下图所示 文件 内容 字段 3 5 1 3 11 LDAP Input 使用 LDAP 协议读取远程数据 即利用 LDAP 协议连接远程主机 读取数据 一般 内容 字段 3 5 1 3 12 LDIF Input LDIF Input 导入 LDIF 文件 即从 LDIF 文件中读取数据 文件 内容 字段 3 5 1 3 13 Mondrian Input Mondrian Input 导入 MDX 文件 即用 MDX 查询语句执行和 审核数据 分析 LDAP 服务器 3 5 1 3 14 Property Input Property Input 导入属性文件 即从属性文件中读入键值对 从 properties 文件中输入数据 文件 内容 字段 3 5 1 3 15 RSS Input RSS Input 导入 RSS 订阅 即读取 RSS 订阅信息 一般 内容 字段 3 5 1 3 16 SalesForce Input SalesForce Input 导入 salesforce 服务 即读取 slaseforce 模块服务 并将其转换成数据 并把这些数据写入多个 输出流 设置 内容 字段 3 5 1 3 17 XBase 输入输入 XBase 输入 导入 DBF 文件 即从一个 XBase 类型的 DBF 文件 中读取记录 使用这一步可以读取大多数被称为 XBase family 派生的 DBF 文件 步骤名称 步骤名称 步骤的名称 在单个转换中必须唯一 文件名文件名 用变量支持 Limit size 读取行的数量 0 表示不限制 增加记录行数 增加记录行数 用包含行号的指定名称 添加一个字段到输 出中 3 5 1 3 18 文本文件输入文本文件输入 从文本文件中读取数据出来 编辑步骤 1 文件 增加文件 包括路径 2 内容 按照文本内容的分隔样式来输入数据 3 错误处理 当错误发生的时候 错误处理标签允许你指定这个步骤将重新 做些什么 选项选项描述描述 忽略错误如果在解析的时候忽略错误 就指定这个选项 跳过错误行使用这个选项来跳过那些出现错误的行 你可以生 成另外的文件来包含发生错误的行号 如果不跳过 错误行 解析错误字段将是空的 错误计数字段在输出流行中增加一个字段 这个字段将包含错误 发生的行数 错误字段字段 名 在输出流行中增加一个字段 这个字段将包含错误 发生的字段名称 错误文本字段 名 在输出流行中增加一个字段 这个字段将包含解析 错误发生字段的描述 警告文件目录当警告发生的时候 它们将被放进这个目录 文件 名将是 文件名 错误文件目录当错误发生的时候 它们将被放进这个目录 文件 名将是 文件名 失败行数文件 目录 当解析行的时候发生错误 行号将被放到这个目录 文件名将是 文件名 4 过滤 在 过滤 标签中 你可以指定文本文件中要过滤的 选项选项描述描述 过滤字符搜索字符串 过滤位置在行中过滤字符串必须存在的位置 0 是起始位置 如果你指定一个小于 0 的值 过滤器将搜索整个字 符 停止在过 滤器 如果你想在文本文件遇到过滤字符的时候 停止处 理 就指定 Y 5 字段 选项选项描述描述 名称字段名称 类型字段类型 String Date Number 等 格式 长度对于 Number 有效数的数量 对于 String 字符的长度 对于 Date 打印输出字符的长度 例如 4 代表返 回年份 精度对于 Number 浮点数的数量 对于 String Date Boolean 未使用 货币类型用来解释如 10 000 00 的数字 小数小数点可以是 10 000 00 或者 5 000 00 分组分组可以是 10 000 00 或者 5 000 00 如果为空空值处理为 默认字段为空的时候的默认值 去空字符 串 处理之前先去空 重复Y N 如果在当前行中对应的值为空 则重复最后 一次不为空的值 3 5 1 3 19 生成记录生成记录 生成一些空记录或相等的行 编辑步骤 例如 点击 预览 后 则出现以下界面 3 5 1 3 20 获取系统信息获取系统信息 获取系统的相关信息 编辑步骤 输入名称 点击类型 选择信息的类型 有以下类型的数据 3 5 1 3 21 表输入表输入 从数据库表中读取信息 这一步常常用来利用连接和 SQL 从数据库中读取信息 自动 生成基本的 SQL 语句 选项选项描述描述 步骤名称步骤的名称 在单一的步骤中 名称必需唯一 连接读取数据的数据库连接 SQL SQL 语句用来从数据库连接中读取数据 从步骤插入 数据 指定我们期待读取数据的步骤名称 这些信息能被 插入到 SQL 语句 限制设置从数据库中读取的行数 0 所有行 1 若选中 会发现中文内容会显示为乱码 2 记录数限制为 0 时即无限制 3 意为从前面步骤插入数据到此 4 点击按钮 弹出数据库内容对话框 点击左边的表 右边呈现可用状态 选择输入表后 点击 确认 按钮 会提示 再点击 是 按钮 机会出现以下界面 再点击上图中的 确定 按钮后 即完成输入表的配置 3 5 1 4 输出输出 Kettle 支持以下各种形式的数据输出 具体如下图所示 3 5 1 4 1 Access Output Access Output 导出数据 即记录存储到微软的数据库表中 Database filename 直接输入名字即可 不需要首先创建 最好 不要用中文 Target table 直接输入名字即可 不要用中文 转换运 行过程中自动创建 ACCESS 数据库文件和表 Access 输出是输出从 前面来的所有字段信息 若要选择相关字段 则在之前用到以下控 件 3 5 1 4 2 Cube 输出输出 Cube 输出 导出 Cube 文件 即数据写入 Cube 文件中 在 BI 领域 CUBE 是多维立方体的简称 主要用于支持联机分 析应用 OLAP 为企业决策提供支持 输出数据到 Cube 文件 中 3 5 1 4 3 Excel Output Excel Output 导出 Excel 文件 即储记录到 Excel 格式化文 档中 1 文件 Excel 输出中文件选项设置界面如下图所示 2 内容 3 字段 3 5 1 4 4 Properties Output Properties Output 导出属性信息 即数据写入属性文件 Properties 格式文件是 Java 中的文件 类似 XML 文件 都是 用来按一定结构保存数据的 一般用于资源文件 配置文件 xml 也多用于数据传输 具体干什么用要看业务需求 使用 MyEclipse Text Editor 可以编辑 打开此格式文件 编辑步骤 选择字段名称和字段值 一般 Content 内容 选择输出文件路径 3 5 1 4 5 RSS Output RSS Output 导出 RSS 订阅信息 即读 RSS 订阅信息流 Chanel Item 项 custom output 自定义输出 Custom Namespace 自定义命名空间 Output File 出文件 3 5 1 4 6 SQL File Output SQL File Output 导出 SQL 文件 即 QL INSERT 语句输出到文 件 把 数据输入到相关数据库表 这个过程的 SQL 插入语句输出 到 Sql 脚本文件 但是并不完成数据到数据库表的插入 只是生成 Sql 操作脚本 编辑步骤 General 通用 一般 内容 3 5 1 4 7 Synchronize after merge Synchronize after merge 并后同步信息 即根据某个字段值 的条件插入 删除 更新数据库表 一般 Advanced 3 5 1 4 8 XML 输出输出 输出数据到 XML 文件中选择文件路径 文件 选择 XML 文件存储路径 内容 设置输出 xml 文件的相关属性 具体如何体现可以在 xml 文件中看出 分割每一个记录 意思为每一个 xml 文件中的 记录数 比如共有 50 行记录 则会产生 50 5 10 个 xml 文件 若为 0 表示无限制 只产生一个 xml 文件 存储所有输入的数据 字段 选择相关字段 点击可以获得所有字段 XML 输出各选项说明如下 选项选项描述描述 步骤名称步骤的名称 在单一转换中必须唯一 文件名称指定输出文件的名称和位置 扩展名添加一个点和扩展到文件名的后面 xml 文件名中包含步骤 号码 如果你在多个拷贝中运行一个步骤 在文件扩 展名的前面 将包含拷贝的号码 文件名中包含日期文件名中包含系统日期 20061231 文件名中包含时间文件名中包含系统时间 235959 分割每一个 行在其它的 XML 文件被创建之前 放入 XML 文件 中的最大行数 已压缩是否想把 XML 文件存储在一个归档文件中 正在编码正在使用的编码 编码在 XML 文件的头部指定 父 XML 元素XML 文档的根元素的名称 记录 XML 元素XML 文档的记录元素的名称 字段 字段名 字段的名称 元素名称 XML 文件使用的元素的名称 类型 字段的类型 格式 请参照 9 6 1 5 格式化 长度 输出字符串将填补为指定的长度 精度 使用的精度 货币 代表目前的货币符号如 10 000 00 十进制 小数点可以是 或者 分组 分组符可以是 或者 NULL 如果字段值为空将被此值替换 3 5 1 4 9 删除删除 基于关键字删除目的表记录 表字段 目的表里的字段 流里的字段 前面输入数据流中的字段 首先选择目的表 stu 然后选择关键字 删除符合一定条件的目的表里的数据 条 件即为 目的表中关键字段值与输入数据中的关键字段值相等 如以上就是删除 stu 表中 BJDM 存在于输入数据流中 bjdm 字段的学生记录 相当于 sql 语句 Delete from stu where bjdm in select bjdm from 输入表 若是 多个条件则条件为 and 形式 如 Delete from stu where bjdm in select bjdm from 输入表 and bjmc in select bj dm from 输入表 3 5 1 4 10 插入插入 更新更新 基于关键字更新或插入记录到数据库 编辑步骤 这个步骤利用查询关键字在表中搜索行 如果行没有找到 就 插入行 如果能被找到 并且要被更新的字段没有任何改变 就什 么也不做 如果有不同 行就会被更新 解释解释 步骤名称 步骤的名称 在单个转换中必须唯一 连接 目标表所在的数据库连接名称 目标模式 要写入数据的表的 Schema 名称 允许表名中包 含 是很重要的 目标表 想插入或者更新的表的名称 Commit size 提交之前要改变 插入 更新 的行数 不执行任何更新 如果被选择 数据库的值永远不会被更 新 仅仅可以插入 用来查询的关键字 可以指定字段值或者比较符 可以用 以下比较符 LIKE BETWEEN IS NULL IS NOT NULL 更新字段 指定你想要插入 更新的字段 获取字段 按钮 从输入流中获取字段 并且把他们填 充到关键字网格中 获取更新字段 按钮 从输入流中获取更新字段 并且 把他们填充到更新网格中 Check 按钮 检查目标表中是否所有的字段都可用 SQL 按钮 为正确操作 生成创建表和索引的 SQL 脚 本 3 5 1 4 11 文本文件输出文本文件输出 输入数据到文本文件中 文件中可以写入文本名字 扩展名 txt 以及其它信息 内容 中可以定义分隔符 字段中可以选择前面数据流来的字段 3 5 1 4 12 更新更新 基于关键字更新记录到数据库 这个步骤类似于插入 更新步骤 除了对数据表不作插入操作之外 它仅仅执行更新操作 编辑步骤 3 5 1 4 13 表输出表输出 输出数据到数据库表中 如 ACCESS Oracle sql server 等表中 一般表示的是 Oracle sql 等表 因为有专门的 如果要选择输入到表中的数据的相关字段 可以做如下操作 1 先勾选 2 设置映射 3 提交记录数 没什么作用 选择 1 也可以 但是如果不填数字就会使转换一 直处于终止状态 表输出中各选项说明如下 选项选项描述描述 步骤名称步骤名称 在单个转换中必须唯一 连接用来写数据的数据库连接 目标模式要写数据的表的模式的名称 允许表名中 包含 对数据源来说是很重要的 目标表要写数据的表名 提交记录数量在数据表中用事务插入行 如果 N 比 0 大 每 N 行提交一次连接 否则 不使用事务 速度会慢一些 裁减表在第一行数据插入之前裁减表 忽略插入错误使 Kettle 忽略比喻违反主键约束之类的插 入错误 最多 20 个警告将被日志记录 在 批量插入的时候这个功能不可用 使用批量插入如果你想批量插入的话 就使用这个选项 这个选项的速度最快 默认被选上 表分区数据使用这个选项可以在多个表之间拆分数据 例如用把数据放到表 SALES 200510 SALES 200511 SALES 200512 中来代 替直接插入数据到表 SALES 中 以下的视图 SALES 展示完整的订单 表名定义在一个字段 里 使用这些选项可以拆分数据到一个或者多 个表里 目标表名可以用你指定的字段来 定义 例如如果你想存储顾客性别数据 这些数据可能会存储到表 M 和表 F 里面 female 女性和 male 男性表 这个选 项可以阻止这些字段插入到对应的表里 返回一个自动产生的 关键字 往表中插入行时 是否产生一个关键字 自动产生关键字的字 段名称 指定包含关键字的输出字段的字段名称 3 5 1 5 转换转换 Kettle 支持各种类型的数据转换 具体包括以下转换组件 3 5 1 5 1 Add XML Add XML 添加 xml 文件内容 即几个字段编码写入 xml 文件 这个步骤允许将 XML 中的行字段内容编码 以字符串字段的 形式添加到行中 内容 字段 3 5 1 5 2 Add a checksum Add a checksum 添加 checksum 列 即每个输入行添加 checksum 列 校验和 每个输入行增加一个检查和列 3 5 1 5 3 Closure Generator Closure Generator 结束操作 即许利用 ID 的父子关系生成 一个结束表 功能 为 Mondrian 生成反射性传递闭包表 Reflexive Transitive Closure Table for Mondrian 此 step 读取所有输入的行 至内存中 并且计算所有可能的 父 子 关系 3 5 1 5 4 Number range Number range 编码范围 即创建数字字段的范围 3 5 1 5 5 Replace in string Replace in string 替换字符串 即另一个单词替换当前的 所以得字符串 3 5 1 5 6 Row Normaliser Row Normaliser 行转换 数据恢复 即透视表中还原数据 到事实表 通过指定维度字段及其分类值 度量字段 最终还原出 事实表数据 Row Normaliser 与 Row denomaliser 行转列 相反 3 5 1 5 7 Split field to rows Split field to rows 拆分字段 即指定分隔符拆分字段 将一行含有多个区域的值拆分为几个新行 一个赋一个拆分的 值 原始行不被拆分行所代替 而是留待以后的查错或者错误处 理时用 但也可以选择将其删除 注意注意 原始区域必须为一个 String 值 必须为新域设定名称 如果新域的值的类型或格式没有被设定 那么新域将使用与原始区 域相同的值类型或格式 3 5 1 5 8 Strings cut Strings cut 裁剪字符串 即剪字符串生成子串 3 5 1 5 9 Unique rows HashSet Unique rows HashSet 除去重复行 即掉输入流中的重复行 在使用该节点前要先排序 否则只能删除连续的重复行 3 5 1 5 10 XSL Transformation XSL Transformation XSL 转换 即现 XML 到 XSL 的转换 对 XML 文件执行 XSL 转换 设置 3 5 1 5 11 值映射值映射 这个步骤简单的映射字符串 从一个值映射到另一个值 通 常解决存储一个数据库中转换表的问题 这是一种可选的方案 简单 的将转换表作为值映射对话框的一部分 例如 如果你想替换 Language codes 你可以如下设置 使用的字段名 LanuguageCode 目标字段名 LanguageDesc 源值 目标值 EN English FR French NL Dutch E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论