




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataTheater培训手册DataTheater是一款数据流分发平台,纯java编写,绿色无需安装,数据抽取高效稳定。DataTheater中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。DataTheater 部署运行将DataTheater文件夹拷贝到本地路径,例如D 盘根目录。双击运行DataTheater文件夹下的DT-Start.bat文件,出现DataTheater欢迎界面:登陆时可以选择”没有资源库”即可进入DataTHeater,此时所定义的转换和工作将只能存储在本地磁盘上,以.ktr文件和.kjb文件的方式。若使用资源库登录,则所有定义的转换和工作将会存储到资源库里。实际上,资源库就是一个数据库,比如ORACLE数据库,里面存储了Kettle定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源库的相关信息将存储在文件 “reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.datatheater”中。如果是windows 系统,这个路径就是c:Documents andSettings.datatheater。1.1 新建资源库1)新建到资源库的的数据库连接点击”新建”按钮,弹出以下对话框: 新建一个数据库(ORACLE为例)点击Test按钮:说明正确连接到数据库CRM1点击关闭则退出创建资源库的过程,点击clear cache 则清空数据库缓存,点击Excetue 则执行这些sql 语句,创建资源库:我们回过头来看这些 sql 语句,我们发现它不仅创建了表,还向表中插入了相关的数据,我们看到有几行语句是,CREATE TABLE R_PROFILE(ID_PROFILE BIGINT PRIMARY KEY, NAME VARCHAR(255), DESCRIPTION VARCHAR(255);INSERT INTO R_PROFILE(ID_PROFILE, NAME, DESCRIPTION) VALUES(1,Administrator,Administrator profile, manage users);INSERT INTO R_PROFILE(ID_PROFILE, NAME, DESCRIPTION) VALUES (2,User,Normaluser, all tools);INSERT INTO R_PROFILE(ID_PROFILE, NAME, DESCRIPTION) VALUES(3,Read-only,Read-only users);我们再看创建完资源库后数据库中表的情况:R_Profile 表CREATE TABLE R_USER(ID_USER BIGINT PRIMARY KEY, ID_PROFILE INT, LOGIN VARCHAR(255), PASSWORD VARCHAR(255), NAME VARCHAR(255), DESCRIPTION VARCHAR(255), ENABLED CHAR(1);INSERT INTO R_USER(ID_USER, ID_PROFILE, LOGIN, PASSWORD, NAME, DESCRIPTION,ENABLED) VALUES(1,1,admin,2be98afc86aa7f2e4cb79ce71da9fa6d4,Administrator,Usermanager,Y);INSERT INTO R_USER(ID_USER, ID_PROFILE, LOGIN, PASSWORD, NAME, DESCRIPTION,ENABLED) VALUES (2,3,guest,2be98afc86aa7f2e4cb79ce77cb97bcce,Guestaccount,Read-only guest account,Y);我们再看创建完资源库后数据库中表的情况:R_User 表R_User 和R_Profile 两个表是存储登陆资源库的用户信息的,包括登陆名、密码和用户权限,我们必须先弄清R_User 表的这些信息,因为它已经插入了信息,我们在登陆时需要用到这些用户信息。关于用户信息即如何登陆在“资源库登陆和用户管理”中详细描述。1.2更新资源库创建了资源库后我们可以更新资源库:点击首页的“编辑”、“新建”按钮均可以进入到创建资源库界面1.3资源库登陆和用户管理R_User 和R_Profile 两个表存储了资源库的用户信息,包括登录名、密码和用户权限。展开两个表分别做说明:R_Profile 表它说明有3 种权限的用户:1 Administrator 权限 超级管理员,可以管理其它用户2 User 权限 普通用户,可以使用所有工具3 Read-only 只读用户,理解为只可读不可写,即可以使用工具,但是不能保存信息,R_User 表LOGIN 是登录名,PASSWORD 是密码(注意密码是经过加密的,所以在此才会以16 进制显示,在这里我们不研究加密算法),ENABLED 表示用户是否可用,Y 是可用,N 是不可用(1)Administrator 权限用户使用资源库并用“zkl/空密码”或者“admin/admin”登录。该权限用户有以下权限:1)修改当前用户的密码点击资源库-编辑当前用户2)管理资源库中的转换、任务、用户、档案(权限)点击资源库-探索资源库a)a)档案档案即用户的权限Administrator 可以管理用户,使用转换,使用工作,使用schems;可以修改档案Read-only 没有任何权限,只能读取信息,可以修改档案。User 与Administrator 用户相比少一个用户管理权限,可以修改档案。档案还有如下操作b)用户Administrator 不能修改自己的权限(档案)Administrator 可以修改其它权限的用户的权限和密码等。此外,Administrator 还有以下权限:c)任务右键目录可以管理目录,右键任务可以管理作业。1.4 资源库登录和没有资源库登录的区别使用资源库登录后在DT 中定义的转换和Job 均存储到资源库的相关表中,若没有资源库登录,则会以.ktr 和.kjb 格式存储在硬盘上。此外两者登录后菜单栏显示的将不同,并且有些选项功能也不一样。1)菜单栏显示不同没有资源库:资源库登录:2)文件菜单栏相关选项功能不同没有资源库:“打开”、“从url 文件打开”均是打开硬盘目录下的kjb 和ktr 文件。“保存”和“另存为”是把转换和工作以 kjb 和ktr 文件存储到硬盘上。资源库登录:“打开”是打开存储在资源库里的转换和工作“从 url 文件打开”是打开硬盘目录下的kjb 和ktr 文件。“保存”是把相关转换存储到资源库。“另存为”是把转换和工作以 kjb 和ktr 文件存储到硬盘上。把本地的转换和工作存储到资源库只用先打开本地的转换和工作,点击保存即可以保存到资源库中。2.菜单栏介绍2.1 文件导出到 XML 文件:将定义的转换和Job 导出到xml 文件从 XML 文件导入:从导出的xml 文件中导入定义的转换或Jobs。另存为(VFS):VFS 的作用就是采用标准的Unix 系统调用读写位于不同物理介质上的不同文件系统。2.2 编辑撤销:撤销前一步操作搜索元数据:搜索当前转换或Jobs 的相关元数据,可以过滤,可以查看所有,资源库实际上就是元数据库。设设置环境变量:显示环境变量:见变量叙述显示参数:清除选择:选择所有的步骤:全选定义的转换或jobs 的所有步骤。复制所选的步骤到剪贴板:复制步骤。从剪贴板复制步骤:相当于粘贴步骤。浏览数据库:单击浏览数据库,弹出选择对话框选中一个连接,确定,查看数据库表和视图等2.3 视图工作区大小设定。2.4 资源库连接资源库:进入登录首页连接资源库。断开资源库连接:编辑当前用户:编辑密码和权限探索资源库:管理转换、工作、用户、档案等。详情见资源库中Administrator 权限。2.5 转换运行:执行当前转换2.6 作业运行:运行本作业复制:粘贴:设置:设置JOB 的属性,“日志”可以存储日志信息到数据库表中3.工具栏介绍3.1 转换Transformation 工具栏功能对应菜单栏里的转换、文件、视图。新建:新建转换、工作等打开:打开转换或作业保存当前转换或工作以不同名字保存当前转换或工作,即另存为运行当前工作或转换暂停当前运行的工作或者转换预览当前转换或者工作调式当前转换或者工作重放校验影响分析:分析该转换或工作的影响隐藏、显示执行结果面板4.主对象树双击转换即新建一个转换,双击后主对象树变为以下样式,核心对象变为以下样式: 4.1.1 新建转换右键单击转换,新建4.1.2 转换设置右键单击,设置属性单击设置转换属性,名称、日志等4.1.3 DB 连接右键 DB 连接属性新建、编辑数据库连接数据库用法:SQL Editor:SQL 编辑器有时候当你创建表、删除索引或者修改字段的时候,有一个简单的SQL 编辑器是再好不过了。Spoon 提供的简单SQL 编辑器完全可以帮助你实现这些。事实上,大多数的DDL,例如“create/alter table”、“create index”或者“create sequence”命令可能通过SQL编辑器窗口运行。注:多个SQL 语句时必须用“;”隔开。Explore:数据库浏览器允许你浏览你连接的数据库。在这个时候,它仅仅显示可用的表、目录或者表模式。可以利用右边的按钮最低限度的展示表或者视图。你可以选择下面的选项:_ Display the first 100 rows of the table(显示表最开始的100 行)_ Display the first lines of the table(根据你输入的行数展示表)_ Show the size(in rows) of the table(显示表的行数)_ Show layout of the table(显示表结构)_ Generate DDL:(生成该表的DDL语句)_ Generate DDL for another connection :(在其它的数据库连接中生成该表的DDL 语句)_ Open SQL for:(在SQL 编辑器中生成读取该表的SQL 语法)_ Truncate table:(生成“Truncate table”的语句)4.2 Jobs 主对象树4.2.1 新建Job4.2.2 设置Job 属性单击设置,修改属性4.2.3 作业项目显示该作业中的所有项目右键单击每个具体项目,编辑、复制、删除步骤4.2.4 子服务器右键单击子服务器新建子服务器IP地址 填写你发布子服务的主机地址端口号 为启动carte.sh xx.xx.xx.xx xxxx 对应的端口号用户名 密码 固定为 cluster cluster5. 转换核心对象新建一个转换后,核心对象变成如下形式 5.3 输入数据输入选项,5.3.1 Excel 输入从 Excel 文件中读取数据;(1)文件浏览并选择 Excel 文件,然后点击增加按钮增加选中的文件到列表中(2)工作表选择 EXCEL 文件中的工作表(3)内容以下设置会在输出表中显示限制即输出数据的行数,导出数据到excel 表结果如下:(4)字段输出数据的相关字段5.3.2 Fixed file input固定长度的数据输入,编辑步骤 5.3.3 Get data from XML5.3.4 文本文件输入从文本文件中读取数据出来,编辑步骤(1) 文件 (2) 内容:按照文本内容的分隔样式来输入数据 (3) 字段: 5.3.5 生成记录生成一些空记录或相等的行,编辑步骤生成 10 行记录,记录如下:5.3.6 表输入从数据库表中输入数据(1) 记录数限制为 0 时即无限制(2) 点击按钮,弹出数据库内容对话框,点击左边的表,右边呈现可用状态点击左边的表,右边呈现可用状态意思分别是:显示前100 行 |显示x 行 | 当选中左表,点击前3 行任意一行,再一直确定即可得到表数据总行数 | 该表的查询语句显示表的存储布局生成数据库模式定义语言DDL,即该表的建表语句生成其它连接下(比如oracle 连接下)该表的建表语句打开 sql 语句编写器自己编写该表的相关查询语句删除该表的内容5.4 输出各种形式的数据输出5.4.1 EXECL 输出输出数据到 EXECL文件中单个EXECL最大可输出数量为65553,如果记录数量超过最大值,请选择分文件输出5.4.2 XML 输出输出数据到 XML 文件中选择文件路径:文件:选择 XML 文件存储路径字5.4.7 删除基于关键字删除目的表记录表字段:目的表里的字段流里的字段:前面输入数据流中的字段首先选择目的表 stu,然后选择关键字;删除符合一定条件的目的表里的数据,条件即为:目的表中关键字段值与输入数据中的关键字段值相等。如以上就是删除 stu 表中BJDM 存在于输入数据流中bjdm 字段的学生记录,相当于sql 语句:Delete from stu where bjdm in (select bj dm from 输入表),若是多个条件则条件为and 形式,如:Delete from stu where bjdm in (select bj dm from 输入表) and bjmc in (select bj dm from 输入表)5.4.3 插入/更新基于关键字更新或插入记录到数据库,编辑步骤这个步骤利用查询关键字在表中搜索行。如果行没有找到,就插入行;如果能被找到,并且要被更新的字段没有任何改变,就什么也不做,如果有不同,行就会被更新。解释:步骤名称:步骤的名称,在单个转换中必须唯一。连接:目标表所在的数据库连接名称。目标模式:要写入数据的表的Schema 名称。允许表名中包含“.”是很重要的。目标表:想插入或者更新的表的名称。Commit size:提交之前要改变(插入/更新)的行数。不执行任何更新:如果被选择,数据库的值永远不会被更新,仅仅可以插入。用来查询的关键字:可以指定字段值或者比较符。可以用以下比较符:=,,LIKE,BETWEEN,IS NULL,IS NOT NULL。更新字段:指定你想要插入/更新的字段“获取字段”按钮:从输入流中获取字段,并且把他们填充到关键字网格中。“获取更新字段”按钮:从输入流中获取更新字段,并且把他们填充到更新网格中。“Check”按钮:检查目标表中是否所有的字段都可用。“SQL”按钮:为正确操作,生成创建表和索引的SQL 脚本。5.4.4 文本文件输出输入数据到文本文件中,文件中可以写入文本名字,扩展名 txt,以及其它信息;内容中可以定义分隔符;字段中可以选择前面数据流来的字段。最小宽度按钮会自动为您去掉,数据库字段里包含的回车换行字符,保证你出库文件的准确性。5.4.5 更新基于关键字更新记录到数据库,这个步骤类似于插入/更新步骤,除了对数据表不作插入操作之外。它仅仅执行更新操作。编辑步骤:5.4.6 表输出如果要选择输入到表中的数据的相关字段,可以做如下操作:(1) 先勾选(2) 设置映射: (3)没什么作用,选择1 也可以,但是如果不填数字就会使转换一直处于终止状态5.5 转换各种类型的数据转换5.5.1 Strings cut这个步骤可以对流中的字段按 需要进行剪切。如图 截取user_id的1014个字段,做为paration_id输出5.5.2 值映射这个步骤可以对流中的字段按 需要进行映射。5.5.3 去除重复记录这个步骤从输入流中称移除重复的记录,之前数据必须排好序5.5.4 增加常量这个步骤很简单,主要是添加常量到流中。它的使用也很容易:用字符串形式指定名称,类型和值。利用选择的数据类型指定转换格式。5.6.5 增加序列这个步骤在流中增加一个列:这个列是在某个起始值和增量的基础上,经常改变的整数值。可以使用数据库的序列,也可以使用DT决定的序列。备注:DT 序列在同一个转换中是唯一使用的。每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)解释:_ 值的名称:新序列值的名称,将被添加到流中。_ 使用数据库获取序列:如果想使用数据库的序列,使用些选项。_ 连接名称:选择数据库序列存在的连接名称。_ 序列名称:数据库序列的名称。_ 使用计数器来计算序列:如果想使用DT 生成的序列,使用此选项。_ 计数器名称(可选):如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。_ 起始值:序列的起始值。_ 增量:序列的增量。_ 最大值:序列的最大值,如果超过,将重新开始5.5.5 字段选择这个步骤常常用来:_ 选择字段_ 重命名字段_ 指定字段的长度或者精度下面是三个不同标签的功能:_ 选择和修改:指定需要流到输出流中的字段的精确顺序和名称移除:指定必须从输出流中删除的字段_ 元数据:修改元数据字段的名称、类型、长度和精度长度:输入数字指定长度(-1:代表没有长度指定)_ 精度:输入数字指定精度(-1:代表没有精度指定)5.5.6 拆分字段这个步骤允许你根据分隔符来拆分字段解释:_ 需要拆分的字段:想要拆分的字段的名称。_ 分隔符:决定字段结束的分隔符。_ 字段:拆分形成的字段列表。例如:SALES_VALUES 字段包含:“500,300,200,100”,使用以下的设置可以将字段拆分成4 个字段:分隔符:,字段:SALE1, SALE2, SALE3, SALE45.5.7 排序记录5.6 脚本5.6.1 Modified Java Script Calue(JS脚本)编辑步骤:解释:Java Script 函数这个步骤针对可用的脚本、函数、输入字段和输出字段,提供一个树菜单浏览。Transformation Scripts:展示你在这个步骤中创建的脚本列表。Transformation Constants:一个包含SKIP_TRANSFORMATION,ERROR_TRANSFORMATION,CONTINUE_TRANSFORMATION 等静态常量的列表。Transformation Fuctions:包含多种String,Numberic,Date,Logic 以及特殊函数,你可以在创建脚本的时候使用它。Input Fields:步骤输入字段的列表。双击或者拖拉可以将字段插入到你的脚本中。Output Fields:步骤输出的字段。Java Script这个区域为你提供脚本的编辑。你可以插入函数、常量、输入字段等等。字段字段表包含了脚本变量的列表,其中包括元数据。其它获取变量:获取脚本中的变例子:获得文件接口中常用的前一天日期配合转换使用:5.6.2 执行SQL 脚本在这个步骤中你可以执行 SQL 脚本,或者在转换初始化的时候执行,或者在步骤的每一个输入行执行。参数:可以在 SQL 脚本中使用参数。注意:SQL脚本在trans里不管放在何处都是整个trans最先执行的。比如表到表的trans,在拖动数据之前需要对目标表进行delete操作。例子如下。5.7 FLOW5.7.1 switch/case对流里的字段做类似程序中switch的操作例子:5.7.1 空操作5.8 查询5.8.1 调用DB 存储过程例子:调用存储过程的时候,一定在前序步骤加上生成记录节点,准备存储过程必须的输入输出参数5.8.2 调用LCU把输入流的每一行作为LCU的输入参数,输出流程中的每一行作为LCU的输出参数,采用jolt调用LCU流程。Tuxedo设置:Tuxedo输入LCU的默认输入字段,需要在默认值里填写。例子:testlcu调用Lcu目前还有些小问题。待解决。6. 任务Jobs 核心对象新建一个 Jobs 后,核心对象变成如下形式6.1 通用 6.1.1 STARTStart 是任务执行的入口,首先必须是任务可以执行。只有无条件的任务条目可以从Start 入口连接。Start 图标也包含基本的进度安排功能。列子: 每天2点启动JOB6.1.2 转换选择指定日志文件,可以记录这个JOB运行期间这个转换的日志。同时可以选择日志的级别设置前序节点,可以解决 在job的控制有前序触发的任务。比如A、B转换执行完成之后,在执行C点击获取节点名称,可以获得当前流程中,所有节点的名字
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民宿管理面试题库及答案
- 2025年教师招聘之《小学教师招聘》题库必刷100题含答案详解【典型题】
- 教师招聘之《小学教师招聘》综合提升试卷及答案详解【考点梳理】
- 2025年教师招聘之《幼儿教师招聘》每日一练试卷附参考答案详解(夺分金卷)
- 2025年教师招聘之《幼儿教师招聘》每日一练试卷附参考答案详解(能力提升)
- 教师招聘之《小学教师招聘》综合提升练习试题含答案详解【黄金题型】
- 2025年艾梅乙培训试题(含答案)
- 共青餐饮联合整改措施
- 教师招聘之《幼儿教师招聘》考前冲刺练习试题含答案详解(巩固)
- 演出经纪人之《演出经纪实务》能力测试备考题附答案详解(培优)
- 代建管理培训
- plm考试试题及答案
- JG/T 337-2011混凝土结构防护用渗透型涂料
- 大唐集团两票管理制度
- 2025年中级工业机器人系统操作员职业技能鉴定考试题库(浓缩500题)
- 无抽搐电休克治疗全流程护理专家共识解读
- 星途汽车全新星纪元ET增程四驱上市营销整合方案
- 老年人如何预防骨质疏松
- 《天然植物化学成分与抗肿瘤机制》课件
- 购买铁艺围栏合同协议
- 有机食品超市可行报告
评论
0/150
提交评论