安装包及kettle学习手册_第1页
安装包及kettle学习手册_第2页
安装包及kettle学习手册_第3页
安装包及kettle学习手册_第4页
安装包及kettle学习手册_第5页
已阅读5页,还剩57页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变 转 转换连接颜 步骤(右键属性 文本文件输 表输 获取系统信 生成记 Cube输 Xbase输 Excel输 XML输 获取文件 获取文件行 文本文件输 表输 插入/更 删 序列化到文件(以前是Cube XML输 Excel输 Access输 数据库查询(Database 流查 调用数据库过 HTTP客户 字段选 过滤记 排序记 添加序 行转列(Row 拆分字 去除重复记 分组 设置为空值(Null 计算 增加XML(Add 增加常 行转列(Row 行扁平 值映 被冻结的步骤(Blocking 记录关联(输出 数据库连 合并记 排序合并(Sorted MergeJoin(合并连接 JavaScript值(ModifiedJavaScript 执行SQL语 ExecuterowSQL 维度更新/查 联合更新查 映射(子转换 从结果获取记 记录到结果(字符串 Getfilesfromresult(从以前的结果获取文件 Setfilesin 套接字输写器(Socket 聚合记 流XML输入(属sax解析,和Getdatafromxml功能相同 Abort(中止 OracleBulkLoader(Oracle批量装载 任务设置(JobSettings)未找 任务条目(JobEntries)未找 附录 JS函 job1、kettle有两种方式连接,一种是纯数据库式,所有的转换全部都保存在一个数据库中;另外一种连接方式是使用文本文件,也就是xml文件,在做完任何转换之后,我们都可以把转换或者Job变成xml文件输出。1AccessInput2CubeInput3Excel输入4Generaterandomvalue5GetFileNames6GetFilesRowsCount7GetSubFoldernames8GetdatafromXML9Mondrian ProppertyInput 文本文件输 表输 获取系统信 CSVfile1、AccessOutput3、Excel4、Property5、SQLFileOutput8、文本文件输出(CSV 用来给查询增加常量 用来给查询增加序列 用来选择输出字 将某字段按照某个分隔符分割为多个字 按照某些字段对记录进行排6、Number 不同范围输出不同的7、Adda 8、Receinstring替换字段值为其他 使用之前所有记录必须已有11、Unique 、数据库查询1、记录关联(输出) 1、ModifiedJavaScript:1、SQLEditor:数据库连接—右键SqlEditor2、Explore :CTRL+环境变量:3.1被定义(全局变量2007/05/223.2转换中被定义Denormaliser-2seriesofvalue/Denormaliser-2seriesofvalue3.3JobNestedNestedjobtest/2Job版本:转换在中的位日志数据库连接:使用此写到日志日志表Update日志步骤:将当前步骤更新行的编号写入日志表。Update:在数据Output:将当前步骤输出行的编号写入日志表。Output含义:输分行给步骤提供信息,Orange(DotRed(BoldDot以上数据与实际有,可选择性参考1、改变开始数量:有时候多次运行相同的步骤是非常有用的。例如,执行一个数据2、、删除、分离步骤:步骤的、删除和分3、步骤的分发、:数据意思是说从“A”过来的所有行都被到3个目标步4定义错误处理:代替一个转换因为某一个步骤发生错误的时候被中断,你可以引起错561、没有空行:2、输出包括文件名:3、输出包含行数:4、格式:可以是DOS、Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换5、编码方式:默认编码方式。UnicodeUtf-8,utf-6、记录数量限制:设置记录的行数,0表示所有的7、解析日期时是否严格要求:132218、错误处理当错误发生时错误处理可以允许你指定这个步骤将重新做些什么9、忽略错误10 跳过错误行:如果不跳过错误行,解析错误字段将是空的11 错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数12 错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称13 错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述 15 错误文 17 过滤:可以用来指定文件文件中要过滤的行18 过滤字符串:搜索字符串,将符合条件的行从输出中去掉19 过滤器位置:0:起始位置。不填(<0):表示搜索整个字符20 “Y1、从步骤插入数据:指定我们期待数据的步骤名称,这些信息能入到sql语句。例如:sql:select*fromtwheredatebetween?and?

700:00:00:823:59:59:900:00:00:1023:59:591100:00:00:上个月的1223:59:591300:00:00:1423:59:5915、步骤拷贝:步1617181920IDID2223、IPIP241:命令行的第一个参数。25、Kettle版本:返回Kettle的版本。26:Kettle编译版本:返回Kettle库的编译版本27:Kettle编译日起:Kettle库的编译日期28:Currentprocessidentifier(PID):12、名称、值Cube从二进制KettleCube文件中数据Xbase使用这一步可以大多数被称为Xbasefamily派生的DBF文1、最常用的是1、工作表名称2、起始行:开始的行3、起始列:开始的列456、停在空记录:当遇空行时停止789XML1、LoopXPath:选择/Rows/Row2、Namespaceaware:3、Ignorecomments4、ValidateXML:XML,一般不验证5、Ignoreemptyfile6、Includefilenameinoutput:输出步骤包含文件名字段7、Rownuminoutput:输出包含行号字段。1、Get:Allfiles、Onlyfolders、Only2、输出字段包含:filename、short_filename、path、type(file/folder)、exists(Y/N)、1、RowsSeparatortype:Carriage1、Runthisasacommandinstead:23、Includepartitionnrinfilename:文件名中包含数据分区数量4、文件名包含日期5、文件名包含时间6、追加7、分隔符8910 头部:如果享有一个头部行,选11 尾部:如果享有一个尾部行,选12 格式:DOS文件的分隔符可以是回车或换行13 编码:指定编码,如果空白就是用系统缺省的编 15 Rightpadfields:在字段最后添加空格或者删除字符,直到长度达到指16 (不包含任何格式化信息17 分拆每一行:如果n比0大,用n行拆分文本文件,分割成多个部分18 AddEndinglineoffile:指定输出文本的额结束行1、TargetSchema:Schema245、忽略插入错误:使Kettle忽略比如主键约束之类的插入错误,最多20个警告将被6s例如:createorreceviewsalesasSelect*fromsales_200501UnionallSelect*from和表F里面。这个选项可以这些字段插入到相应的表里。9101、targetschemaschema.2、commitsize3<、<=、between、like、isnull、isnot56Cube不需要解析。这是因为元数据也同时在cube文件中。CubecubeXML2xml03、正在编码:在XML4、字段选项卡5、元素名称:xml6、10.7、分组:分组符可以是”,8123、Splitevery…rows:分割数据到几个输出文件中。4、Usetemte:使用模板5、追加excelExcelExcelAccess123、Targettable4、Createtable:5、Commitsize数据库查询(Databasejoin13、接收的字段:你可以指定用来接收字段的名称,或者在值没有找到的情况下的缺省值,4、PreserveMemory(保留内存5、Keyandvalueareexactlyoneintegerfield:排序的时候对数据行进行编码以保护内6、Usesortedlist:是否用一个排序列表来值,它提供更好的内存使用78调用数据库过这个步骤允许运行一个数据库过程,获取返回结果1、过程名称:调用的过程或者函数名称2、自动提交:在运行过程的时候自动提交3、结果名称:调用过程或者函数返回结果的名称45、参数:过程或者函数需要的参数列表方向:可以是Kettle注意如果是函数的话通过结果名称返回值如果是过程的话通过参数列表返回值HTTPhttp客户端根据一个附带条件的基准URL,来调用一个简单的调用。例如:1、URL:url2、结果字段名称:结果的字段名称3url1、选择字段2、重命名字段3、指定字段长度或者精度123、元数据:修改数据字段的名称、类型、长度和精度。123、长度、精度:输入数字指定长度、精度(-1:“<field>1发送“true”数据给步骤:指定条件返回true的数据将发送到此步骤。2、发送“false”数据给步骤:指定条件返回false5000Kettle1、排 :临时文件 。如果缺省则为标准的系统临时文件夹2、内存里存放的记录数:在内存中的行越多,排序的速度就越快3、临时文件前缀:选择一个好记的前缀,以便在临 中容易寻找4也可以使用Kettle决定的序列。12行转列(Row12、构成分组的字段:标准化的字段名称(例如ProductA,ProductC)3sales)1、分隔符:分割字段的符号。211234、临时文 :临时文件 56设置为空值(NullA+(-、*A+(-、*AAABAAAADateA+BDateA+BYearofdate年AMonthofdate月Dayofyearof日(一年中的第几天Dayofmonthofdate日(一月中的第几天XML(AddXML,XML1XML2、输出值:包含XML3、根XMLXML行转列(Row被冻结的步骤(Blocking记录关联(输出1、临 :如果你想的行,指定系统临时文件 2、最大缓存大小:系统从临时文件数据的缓存大小3、的主要步骤:指定最多数据的步骤名称41、Numberofrowstoreturn:02、外连接?:选中,则总会返回一个结果,就算查询没有结果3、“identical“changed:“new:“deleted排序合并(Sorted1MergeJoin(合并连接这个步骤将来自两个不同步骤输入的数据执行一个高效的合并。合并选项包括Inner、leftouter、rightouter、fullouter。备注:这个步骤将输入的行按指定的字段。连接时连接字段必须有序JavaScriptModifiedJavaScriptJavaScriptjs12、测试:测试的语法3、获取变量:获取的变量并且插入到“字段”网格4、js1改进的js针对可用的、函数、输入字段和输出字段,提供一个树菜单浏览1、TransformationScript:展示你在步骤中创建的列表2、 ) 4、Inputfields:步骤输入字段列表。双击或者拖拉可以将字段插入到你的中5、Outputfields执行SQL这个步骤中你可以执行sql(执行增删改DDL等,或者在转换初始化的时候执1、执行每一行:上一步骤传来的每一行时都执行一次sql2、参数:用来给sql3sql4sql5sql6sqlExecuterowSQL上一个步骤某字段中有sql语句,从该字段获取sql语句执行这个步骤允许你在一个junk-dimesion表里信息122、Validintheparentjob3、Validinthegrand-parentjob:变量仅仅在祖父任务中合法。4、Validintherootjob:变量仅仅在根任务中合法。Getfilesfromresult2Normal,Log,Error,Error-line等ProcessfilesTextFileReadbytextfile2006-06023Setfilesin在某种情况下,我们可以输出结果中的文件列表。例如mail任务条目可以使用文件列注射器主要针对一下人使用:KettleAPIJava1、你可以使用RowProducer对象来一个Trans对象2、你可以参考在包中的使用案例:be.ibridge.kettle.test.rowproducer3、使用以下代码Transtrans=newTrans(…TransMeta);RowProducerrp=trans.addRowProducer(StringstepName,int…rp.putRow(Row…Socketreader(TCP/IP套接字输写器(SocketTCP/IPXML输入(属saxGetdatafromxmlSAX它与XML输入非常相似,仅仅在内容和字段制表符上略有不同。1、Includefilenamein:输出中将包含文件名字段。2、Rownuminoutput:输出包含行号3、Location(seealsoxml元素。例如Ea=Object/class:car,表示属性class的值为car的Object元素。45、Precision(6、ositionEp=proypeId2/n ,其中n表示proTypeId2元素处于第n列classAbort(1023OracleBulkLoader(Oracle批量装载)Oracle1、Targetschema:schema2、Sqllder(loader)path:sql*Loader3、Loadermethod(装载方式:Automaticloadmanualload。如果是自动加载,Append 6、CommitsqlldrROWS”7、BindSizesqlldrBINDSIZE”8、ReadSize:sqlldr“READSIZE9、Controlfile:sqlldr10 Datafile:数据将被写入的数据文件的名称11 Logfile:日志文件的名称,可选12 Badfile:坏文件的名称,可选 Discard(废)file:废文件的名称,可选。 Erasecfg/datfilesafter(使用后删除cfg/dat文件:加载后是否删除控制文件17 18 Streamfield:输入行中带来的字段任务设置(JobSettings)未找到任务条目(JobEntries)未找到Start是任务执行的首先必须是任务可以执行只有无条件的任务条目可以从Start入在一个任务中使用Dummy条目讲什么也不做,这可以是一个任务更清晰战士,或者在执0true23、路径:指定4、转换文件名:如果你不是使用工作,就指定转换运行的XML文件名567、以前结果单参数:上一次的转换结果到参数89 job1、作业项名称:job23、:指定4、作业文件名:如果你不是使用工作,就指定转换运行的XML文件名67S你可以使用S任务条目在任务运行的主机上执行一段 备注:S能在控制台窗口输出文本,输出将转换到Kettle日志系统,这不会影 1、作业项名称:2、InsertScript:插入3、文件名:要运行的 4、指定日志文件:检查是否为 指定一个单独的日志文件MailE-mail。1、邮件作业名称2、目的地址(DestinationAddress):3、抄送(CC=CarbonCopy):4、暗送(BCc=BlindCarbonCopy):5、SMTP服务器、端authentication7、联系人、8910 压缩文件名称:指定压缩后文件名称SQLFTPFTP(IPUDP1、FTP/IP2、ServerPort:213、用户名、4、服务器:服务器5、服务器端口:服务器6、服务器用户名78、超时:FTP9、使用活动的FTP连接:使用主动的FTP,以代替模式(默认10 控制编码:ftp控制指令的编码11 :从服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论