Pentaho-Data-Integration-完全自学手册.2016.12.11.docx_第1页
Pentaho-Data-Integration-完全自学手册.2016.12.11.docx_第2页
Pentaho-Data-Integration-完全自学手册.2016.12.11.docx_第3页
Pentaho-Data-Integration-完全自学手册.2016.12.11.docx_第4页
Pentaho-Data-Integration-完全自学手册.2016.12.11.docx_第5页
已阅读5页,还剩198页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Pentaho Data Integration 完全自学手册 (孟菲斯著)文档目录文档目录2更新记录17第一章.KETTLE 基础介绍181.1.核心组件181.2.组成部分181.3.概念模型191.3.1.Transformation(转换)191.3.2.Steps(步骤)201.3.3.Hops(节点连接)201.3.4.Jobs(工作)201.3.5.Variable(变量).设置环境变量.设置变量211.4.查看版本221.5.选项设置23第二章.KETTLE 环境搭建252.1.单机部署252.1.1.下载kettle252.1.2.安装kettle252.1.3.运行Spoon252.2.集群部署261. Carte简介262. Carte部署配置262.1 启动方法262.2 启动配置262.3 Carte xml文件配置详解272.3.1 slaveserver节点282.3.2 masters节点282.3.3 report_to_masters节点282.3.4 max_log_lines节点282.3.5 max_log_timeout_minutes节点282.3.6 object_timeout_minutes节点292.3.7 (*) repository节点293. Carte集群293.1 普通集群303.2 动态集群302.3.运行方式302.3.1.转换执行器 Pan30.Pan 参数介绍30.Pan 实例讲解:Windows3.Pan 实例讲解:Linux312.3.2.任务执行器 Kitchen3.Kitchen 参数介绍3.Kitchen 实例讲解:Windows3.Kitchen 实例讲解:Linux342.4.定时任务352.4.1.Windows352.4.2.Linux35第三章.KETTLE 基本功能363.1.新建转换363.1.1.方法1363.1.2.方法2363.1.3.方法3373.1.4.主对象树373.1.5.核心对象383.1.6.新建数据库连接383.2.转换实例393.2.1.转换实例1393.2.2.转换实例2393.3.新建作业403.3.1.方法1403.3.2.方法2403.3.3.方法3413.3.4.主对象树413.3.5.核心对象423.4.作业实例423.4.1.作业实例1423.4.2.作业实例242第四章.KETTLE 设计环境424.1.Transformation:转换步骤(24-228)424.1.1.Input:输入(38)4.Csv file input4.1.功能描述4.2.操作步骤4.3.实例讲解4.DataGrid4.De-serialize from file:文件反序列化4.ESRI Shapefile Reader4.Email messages input4.Fixed file input4.GZIP CSV Input4.Generate Rows4.Generate random credit card numbers40.Generate random value41.Get File Names42.Get Files Rows Count43.Get SubFolder names44.Get System Info:获取系统信息44.1.功能描述44.2.操作步骤44.3.实例讲解45.Get data from XML46.Get repository names47.Get table names48.Google Analytics49.HL7 Input40.JSON Input41.LDAP Input42.LDIF Input503.Load file content in memory504.Microsoft Access input505.Microsoft Excel Input505.1.功能描述505.2.操作步骤505.2.1.指定文件名55.2.2.指定内容55.2.3.字段55.2.4.错误处理55.2.5.其他输出字段55.3.实例讲解56.Mondrian Input57.OLAP Input58.Property Input59.RSS Input50.S3 CSV Input51.SAP Input52.SAS Input53.SalesForce Input54.Table input:表输入54.1.功能描述54.2.操作步骤54.3.实例讲解55.Text file input:文本文件输入55.1.功能描述55.2.操作步骤55.2.1.文件名称指定55.2.2.从先前的步骤中接受文件名55.2.3.内容指定55.2.4.错误处理55.2.5.过滤55.2.6.字段605.2.7.其他输出字段65.3.格式化65.3.1.Number格式化65.3.2.Date格式化65.3.3.其它65.4.实例讲解66.XBase input:XBase输入66.1.功能描述67.XML Input Stream(StAX)67.1.功能描述68.Yaml Input654.1.2.Output:输出(22)6.Automatic Documentation Output6.Delete:删除6.1.功能描述6.2.操作步骤6.Insert / Update:插入/更新6.1.功能描述6.2.操作步骤6.JSON Output6.LDAP Output6.Mircosoft Access Output6.Mircosoft Excel Output:Excel输出6.1.功能描述6.2.操作步骤6.Pentaho Reporting Output7.Properties Output70.RSS Output71.S3 File Output72.SQL File Output73.Saleforce Delete74.Saleforce Insert75.Saleforce Update76.Saleforce Upsert77.Serialize to file78.Synchronize after merge79.Table output79.1.功能描述79.2.操作步骤70.Text file output:文本文件输出70.1.功能描述70.2.操作步骤71.Update:更新71.1.功能描述71.2.操作步骤72.XML Output794.1.3.Transform:转换(26)80.Add XML80.Add a checksum80.Add constants:增加常量80.1.功能描述80.2.操作步骤80.Add sequence8.1.功能描述8.2.操作步骤8.Add value fields changing seqence8.!Calculator:计算器8.1.功能描述8.2.操作步骤8.Closure Generator8.Concat Fields8.Get ID From slave server80.Number range81.Replace in string:字符串替换81.1.功能描述81.2.操作步骤82.!Row Normaliser:行转列82.1.功能描述82.2.操作步骤83.Row denormaliser:列转行83.1.功能描述83.2.操作步骤84.!Row flattener:行扁平化84.1.功能描述84.2.操作步骤85.!Select values:字段选择905.1.功能描述905.2.操作步骤96.Set field value97.Set field value to a constant98.Sort rows98.1.功能描述98.2.操作步骤99.Split Fields:拆分字段99.1.功能描述99.2.操作步骤90.Split Fields to rows91.String operations92.String cut:裁剪字符串92.1.功能描述92.2.操作步骤93.Unique rows:去除重复记录93.1.功能描述93.2.操作步骤95.!Value Mapper:值映射95.1.功能描述95.2.操作步骤96.XSL Transformation994.1.4.Utility(15)9.Change file encoding9.Clone row9.Delay row9.Edit to xml9.Execute a process9.If field value is null9.Mail9.Metadata structure of stream9.Null if:设置为空值9.1.功能描述90.Process files1001.Run SSH commands1002.Send message to Syslog1003.Table Compare1004.Write to log1005.Zip file1005.1.功能描述1005.2.操作步骤1004.1.5.Flow(16)10.Abort:中止10.1.功能描述10.Annotate Stream10.Append streams:追加流10.1.功能描述10.2.操作步骤10.Block this step unitil steps finish10.Blocking Step:阻塞数据10.1.功能描述10.2.操作步骤10.Detect empty stream10.Dummy (do nothing):空操作(什么也不做)10.1.功能描述10.ETL Metadata Injection10.!Filter rows: 过滤记录(过滤行)10.1.功能描述10.2.操作步骤100.Identify last row in a stream101.Java fileter102.Job Executor103.Prioritize streams104.Single Threader105.Switch / Case105.1.功能描述105.2.操作步骤106.Transformation Executor1094.1.6.Scripting(9)10.!Execute SQL script:执行SQL脚本10.1.功能描述10.2.操作步骤1.3.实例讲解1.Execute row SQL script:执行SQL脚本(字段流替换)1.1.功能描述1.2.操作步骤1.Formula1.!Modified Java Script Value1141)Transformation scripts1142)Transformation constants1143)Transformation functions1141)过滤Null字段1152)字符串截取1153)过滤记录行,控制转换流程1154)使用java类库1.1.实例讲解1.Regex Evaluation1.Rules Accumulator1.Rules Executor1.User Defined Java Class1.User Defined Java Expression1204.1.7.BA Server(3)1.Call endpoint1.Get session varables1.Set session varables1214.1.8.Lookup(15)1.!Call DB Procedure:调用DB存储过程1.1.功能描述1.2.操作步骤1.Check if a column exists1.Check if file is locked1.Check if webservice is available1.!Database join:数据库连接1.1.功能描述1.2.操作步骤1.!Database lookup:数据库查询1.1.功能描述1.2.操作步骤1.Dynamic SQL row12.File exists12.Fuzzy match120.HTTP client120.1.功能描述120.2.操作步骤121.HTTP Post122.REST Client123.Stream lookup124.Table exists125.Web services lookup1284.1.9.Joins(6)12.!Join Rows(Cartesian product):记录关联(笛卡尔输出)12.1.功能描述12.!Merge join12.1.功能描述12.!Merge Rows (diff)130.Multiway Merge Join130.Sorted Merge130.XML Join1304.1.10.Data Warehouse(2)13.!Combination lookup/update13.!Dimension lookup/update1314.1.11.Validation(4)13.Credit card validator13.Data Validator13.Mail Validator13.XSD Validator1324.1.12.!Statistics:统计(7)13.Analytic Query13.!Group by:分组13.1.功能描述13.2.操作步骤13.Memory Group by13.Output steps metrics13.Reservoir Sampling13.Sample rows13.Univariate Statistics1344.1.13.Big Data(13)13.Avro Input13.Cassandra Input13.Cassandra output13.CouchDb Input13.HBase Input13.HBase Row Decoder13.Hadoop File Input13.Hadoop File Output13.MapReduce Input130.MapReduce output131.MongoDB Input132.MongoDB output133.SSTable Output1354.1.14.Agile(2)13.MonetDB Agile Mart13.Table Agile mart1354.1.15.Cryptography(4)13.PGP Decrypt stream13.PGP Encrypt stream13.Secret key generator13.Symmetric Cryptography1354.1.16.Palo(4)13.Palo Cell Input13.Palo Cell Output13.Palo Dim Input13.Palo Dim Output1364.1.17.Open ERP(3)13.OpenERP Object Delete13.OpenERP Object Input13.OpenERP Object OUtput1364.1.18.Job:作业(6)13.Copy rows to result:复制记录到结果13.1.功能描述13.Get Variables:获取变量13.1.功能描述13.2.操作步骤13.Get files from result:从结果获取文件13.1.功能描述13.2.操作步骤13.Get rows from result:从结果获取记录13.1.功能描述13.Set Variables:设置变量13.1.功能描述13.2.操作步骤13.Set files in result:复制文件到结果13.1.功能描述13.2.操作步骤1394.1.19.!Mapping(4)140.Mapping(sub-transformation)140.Mapping input specification140.Mapping output specitication140.Simple Mapping(sub-transformation)1404.1.20.Bulk loading(11)14.ElasticSearch Bulk Insert14.Greenplum load14.Infobright loader14.Ingres VectorWise Bulk Loader14.MonetDB Bulk Loader14.MySQL Bulk loader14.!Oracle Bulk loader14.1.功能描述14.PostgresSQL Bulk loader14.Teradata Fastload Bulk Loader140.Teradata TPT Bulk loader141.Vertica Bulk loader1424.1.21.Inline(3)14.Injector: 记录注射器14.Socket reader: 套接字读入器14.1.功能描述14.Socket writer1434.1.22.Experimental(2)14.SFTP Put14.Script1444.1.23.Deprecated(4)14.Example Step14.Greenplum Bulk loader14.LicidDB Streaming Loader14.Old Text file input1444.1.24.History(9)14.Text file input14.Table input14.Text file output14.Table output14.Moding java Script Value14.Add sequence14.Generate Rows14.Get System Info14.Sort rows:行排序14.1.功能描述1454.2.JOB:作业步骤(15-92)1454.2.1.General:通用(6)14.Start:开始14.1.功能描述14.2.操作步骤14.Dummy:空操作14.1.功能描述14.OK14.Job:作业14.1.功能描述14.2.操作步骤14.Set variables:设置变量14.1.功能描述14.Transformation14.1.功能描述14.2.操作步骤14.Success1504.2.2.Mail:邮件(3)150.Mail validator150.Mail:发送邮件150.1.功能描述150.2.操作步骤150.Get mails from POP:接收邮件15.1.功能描述15.2.操作步骤1524.2.3.File management(19)15.Process result filenames15.File Compare:比较文件15.1.功能描述15.2.操作步骤15.Create a folder:创建文件夹15.1.功能描述15.2.操作步骤15.Unzip file:解压ZIP文件15.1.功能描述15.2.操作步骤15.Delete file:删除文件15.1.功能描述15.2.操作步骤15.HTTP15.Write to file15.1.功能描述15.2.操作步骤15.Convert file between Windows and Unix15.Compare folders:比较文件夹15.1.功能描述15.2.操作步骤150.Zip file:压缩文件1600.1.功能描述1601.Copy Files161.1.功能描述161.2.操作步骤162.Add filenames to result添加文件名到结果162.1.功能描述162.2.操作步骤163.Delete folders:删除文件夹163.1.功能描述163.2.操作步骤164.Delete filenames from result:在结果中删除文件名164.1.功能描述164.2.操作步骤165.Delete files:删除多个文件165.1.功能描述165.2.操作步骤166.Wait for file:等待文件166.1.功能描述166.2.操作步骤167.Move Files移动文件167.1.功能描述167.2.操作步骤168.Create file:创建文件168.1.功能描述168.2.操作步骤169.Copy or Move result filenames:根据结果复制或移动文件169.1.功能描述169.2.操作步骤1694.2.4.Conditions(12)170.Check webservice availability:检查WEB服务是否可用170.1.功能描述170.2.操作步骤170.Check files locked:判断是否有文件被锁定17.1.功能描述17.2.操作步骤17.Colums exist in a table:检查列在表中是否存在17.1.功能描述17.2.操作步骤17.Wait for17.1.功能描述17.2.操作步骤17.Evaluate files metrics17.Check Db connections17.1.功能描述17.2.操作步骤17.File Exists:文件存在17.1.功能描述17.2.操作步骤17.Evaluate rows number in a table:判断标中行数17.1.功能描述17.2.操作步骤17.Checks if files exist:检查文件是否存在17.1.功能描述17.2.操作步骤170.Check if a folder is empty检查文件夹是否为空170.1.功能描述170.2.操作步骤171.Simple evaluation:简单评估171.1.功能描述171.2.操作步骤172.Table exists:表存在172.1.功能描述172.2.操作步骤1794.2.5.Scripting(3)17.Shell17.1.功能描述17.2.操作步骤180.SQL18.1.功能描述18.2.操作步骤18.JavaScript:Java脚本18.1.功能描述18.2.操作步骤1844.2.6.Bulk loading(3)18.BulkLoad form Mysql into file18.BulkLoad into MSSQL18.BulkLoad into Mysql1864.2.7.Big Data(10)18.Oozie Job Execcutor18.Hadoop Job Executor18.Pig Script Executor18.Amazon Hive Job Executor18.Spark Submit18.Sqoop Export18.Sqoop Import18.Pentaho Mapreduce18.Hadoop Copy Files180.Amazon EMR Job Executor1864.2.8.Modeling(2)18.Build Model18.Publish Model1874.2.9.XML(4)18.XSD Validator18.Check if XML file is well formed18.XSL Transformation18.DTD Validator1874.2.10.Utility(13)18.Truncate tables18.Display Msgbox Info18.Wait for SQL18.Abort job18.Talend Job Execution18.HL7 MLLP Acknowledge18.Send Nagios passive check18.Ping a host18.Write To Log180.Telnet a host181.HL7 MLLP Input182.Send information using Syslog183.Send SNMP trap1894.2.11.Reposotory(2)190.Export repository to XML file190.Check if connected to repository1904.2.12.File transfer(8)190.Get a file with FTP190.1.功能描述19.2.操作步骤19.Put a file with FTP19.1.功能描述19.2.操作步骤19.FTP Delete:删除FTP文件19.1.功能描述19.2.操作步骤19.Get a file with SFTP19.1.功能描述19.2.操作步骤19.Put a file with SFTP19.1.功能描述19.2.操作步骤19.Upload files to FTPS1974.2.13.File encryption(3)19.Verify file signature with PGP19.Decrypt files with PGP19.Encrypt files with PGP1984.2.14.Palo(2)19.Palo Cube Delete19.Palo Cube Create1984.2.15.Deprecated(2)19.MS Access Bulk Load19.Example Job198更新记录序号时间变更内容编者00012016-04-11创建本文档,只是有些简单的介绍孟菲斯00022016-11-19形成基本的文档架构涵盖安装、配置、开发孟菲斯00032016-11-20完成转换步骤的文档架构知识点24大类228小类孟菲斯00042016-11-21完成作业步骤的文档架构知识点15大类92小类孟菲斯00052016-12-01对39大类下的320个小类进行初步的补充孟菲斯00062016-12-02对320个小类中认为重点的内容通过感叹号予以区分孟菲斯00072016-12-03对基础运行环境中命令行调用ETL做出补充仅限windows孟菲斯00082016-12-11增加计划任务,性能调优孟菲斯0009孟菲斯第一章. Kettle 基础介绍1.1. 核心组件Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。Data Integration Server是一个专用的ETL Server,它的主要功能有:功能 描述 执行 通过Pentaho Data Integration引擎执行ETL的作业或转换安全性 管理用户、角色或集成的安全性内容管理 提供一个集中的资源库,用来管理ETL的作业和转换。资源库包含所有内容和特征的历史版本。时序安排 在spoon设计者环境中提供管理Data Integr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论