版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Informatica ETL工具培训,纲要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,数据转换(Transform) 不完整数据、错误数据、重复数据清洗处理 不一致数据转换 数据拆分和合并 数据粒度转换 商务规则计算 代理键的转换,装载(Load) 将转换后的中间结果数据复制到结果表中 将基础模型中的数据分发到集市中 直接使用SQL语句复制数据 使用
2、批量装载方法复制数据,数据抽取(Extract) 从各个不同的异构或同构的数据源抽取 结构化的RDBMS、Excel、CSV文件、非结构化的文件等 主要操作是数据复制,有时候也会包含数据清洗和转换环节 存量、增量数据抽取,ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,什么是ETL,ETL整体流程,ETL过程概述,ETL处理流程 时间段加载、多个数据源取数、分层设计、按源系统和销售机构控制加载 不定期处理流程 数据老化、数据备份与数据恢复,ETL实践技巧,ETL实践技巧,维度表ETL处理 缓慢变化维度第一种类型处理 缓慢变化维度第二种类型处理 缓慢变化维
3、度第三种类型处理 事实表ETL处理 交易明细事实处理 主要操作为插入,没有更新操作,重载数据时会有删除操作。 累计快照事实处理 主要操作为插入和更新。 快照事实处理 主要操作为插入和更新。 时间压缩事实处理 主要操作为插入、更新,与缓慢变化维度第二种类型处理逻辑类似。,纲要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,Informatica PowerC
4、enter体系架构,Informatica PowerCenter体系架构,PowerCenter产品组件,服务器组件 Informatica Service PowerCenter服务引擎 Integration Service ETL服务引擎 Repository Service 资料库管理服务 Web Service Hub 客户端组件 Administration Console 系统Web管理控制台 Repository Manager 资料库客户端访问工具 Designer ETL流程设计客户端工具 Workflow Manager ETL会话、作业设计客户端工具 Workflow
5、 Monitor ETL执行监控客户端工具,纲要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,产品安装与配置,产品安装 服务器端安装 客户端安装 样例安装 数据库准备 资料库数据 源数据库 目标数据库 样例数据准备 样例程序导入 样例数据导入,系统管理,Informatica Server管理 域(Domain)管理 节点(Node)管理 资料库(Rep
6、ository)管理 集成服务(Integration Service)管理 用户权限管理 License管理 资料库(Repository)管理 Repository Manager 目录管理 权限管理 版本管理,纲要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,系统管理介绍,系统管理控制台,系统管理介绍,资料库管理,系统管理介绍,数据集成服务管理,纲
7、要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,开发过程,开发过程和步骤,Informatica培训,第一步 :定义源,要从数据提取数据,必须在资料库中定义源,源的类型有以下几种: 关系表、视图 平面文件 COBOL文件 XML文件 通过Metadata Exchange for Data Models(一个附带产品)使用 特定数据模型工具的数据模型,导
8、入源 定义,Informatica培训,第二步 :定义目标,创建映射之前,必须在资料库中定义目标,目标的类型有以下几种: 关系表 平面文件 COBOL文件 XML文件,导入目标定义,定义目标,有以下几种方式 导入现有目标定义。从关系目标或平面文件导入目标定义 基于源定义创建目标定义 手动创建目标定义,Informatica培训,第三步 :创建映射,映射是一组由转换对象(用于定义数据转换规则)链接的源和目标。映射是指源和目标之间的数据流。当Server运行会话时,它会使用映射中配置的指令来读取、转换和写入数据。,源,转换组件,目标,链接,Informatica培训,第四步 :定义任务,Sessi
9、on Task,Informatica培训,第五步 :创建工作流,Informatica培训,第六步 :工作流调试监控,Informatica调试,调试,在Designer中可以运行调试器来对建好的映射进行调试,调试日志,目标装载情况,经过每个实例的数据流,纲要,第一部分:ETL基础知识,第二部分:Informatica PowerCenter,什么是ETL ETL整体流程 ETL过程介绍 ETL实践技巧,Informatica PowerCenter体系结构 产品安装与配置 系统管理介绍 开发过程 常用组件介绍 Informatica调优技巧,Informatica组件,组件列表,Sourc
10、e Qualifier: 从数据源读取数据 Expression: 行级转换 Filter: 数据过滤 Sorter: 数据排序 Aggregator: 聚合 Joiner: 异构数据关接连接 Lookup: 查询连接 Update Strategy: 对目标编辑insert, update, delete, reject,Informatica组件,组件列表,Router:条件分发 Sequence Generator: 序列号生成器 Normalizer: 记录规范化 Rank: 对记录进行TOPx Union:数据合并 Stored Procedure: 存储过程组件 其它应用组件,如:
11、用户自定义组件Custom、 WWW组件HTTP、Java自编程组件,Informatica组件,组件类型,Passive组件 流入流出组件的行数不发生变化 例如:Expression组件 Active组件 流入流出组件的行数发生变化 例如:Aggregator组件,Passive组 件,流入n行记录,流出m行记录,组 件Active,流入n行记录,流出n行记录,函数介绍,函数分类 聚合函数 字符串函数 转换函数 数据清洗函数 日期函数 编码函数 财务函数 数值函数 数学函数 判断函数 特有函数 自定义函数,Informatica组件介绍,组件介绍,Source Qualifier 组件 Ex
12、pression组件 Filter和Router组件 Joiner和Lookup组件 Sorter和Aggregate组件 Union组件 Update Strategy组件,Informatica组件介绍,Source Qualifier 组件,组件功能 -查询数据 组件类型 -Passive组件 应用范围 -连接多个同源数据库表,Informatica组件介绍,Source Qualifier 组件,定义连接,过滤,定义sql语句,Informatica练习,练习一:Source Qualifier 组件,描述 -将原始客户信息记录与原始客户类型表关联导入到目标表 -源表: custome
13、rinfo_orcl custtype_orcl -目标 customerinfo_flat 要点 -根据客户信息表中客户类型标志关联客户类型表获取客户类 型名称 程序:wf_SourceQualifier,Informatica组件介绍,Expression组件,组件功能 -基于行级的数据项赋值、修改、转换 -在同行记录中可新增、减少数据项 组件类型 -Passive组件 应用范围 -数据类型转换,例如表达式:to_date(Port1,YYYYMMDD) -数据项计算,例如表达式:(Port1+Port2)/Port3 -新增变量,例如表达式:i = i + 1,Informatica组件
14、介绍,Expression组件,流入组件的数据项,流出组件的数据项,数据项转换,Informatica练习,练习二: Expression组件,描述 -将原始客户信息记录转化成合格标准的数据导入到目标表 -源表: customerinfo_orcl custtype_orcl -目标 customerinfo_flat 要点 -性别转换 -增加更新时间列 程序:wf_Expression,Informatica组件介绍,Filter组件,组件功能 -对流入组件的记录数据进行过滤 -类似关系数据库中where应用 -与Source Qualifier的区别在执行位置上 组件类型 -Active组
15、件 应用范围 -数据过滤,Informatica组件介绍,Filter组件,过滤条件,在日志中显示详细级别,Informatica练习,练习三: Filter组件,描述 -将客户信息按照客户性别分别导入到男、女、性别不明三张 目标表内 -源表: customerinfo_orcl custtype_orcl -目标 customerinfo_m customerinfo_w customerinfo_unk 要点 -试用filter组件多种方法对目标进行装载 程序:wf_Filter,Informatica组件介绍,Router组件,组件功能 -对流入组件的记录数据按照条件进行分发 组件类型
16、-Active组件 应用范围 -数据分发,Informatica组件介绍,Router组件,流入组件数据项,Informatica练习,练习四: Router组件,描述 -将客户信息按照客户性别分别导入到男、女、性别不明三张 目标表内 -源表: customerinfo_orcl custtype_orcl -目标 customerinfo_m customerinfo_w customerinfo_unk 要点 -使用router组件对数据进行分发 -比较filter和router实现同样功能的区别,Informatica组件介绍,Joiner组件,组件功能 -对异构数据进行关联(同构关联用
17、Source Qualifier组件) -类似SQL中的join语句 组件类型 -Active组件 应用范围 -两个异构数据类型的表关联,Informatica组件介绍,同构Joins和异构Joins,Informatica组件介绍,Joiner组件,Master,关联条件,Master,Informatica练习,练习五: Joiner 组件,描述 -将原始客户信息记录与原始客户类型表两张异构表关联后, 将关联结果数据导入到目标表 -源表: customerinfo_sql(SQL Server) custtype_orcl(ORACLE) -目标 customerinfo_flat 要点
18、-用Joiner组件进行Mapping设计 -注意Master和Detail的设置选择 程序:wf_Joiner,Informatica组件介绍,Lookup组件,组件功能 -根据关联条件进行查询 -返回符合条件的值,否则为空 -连接关联和非连接关联 组件类型 -Active组件 应用范围 -查询关联数据,Informatica组件介绍,连接Lookup与非连接Lookup组件,Lookup源,Lookup组件,Lookup源,组 件,流入值,查询输出值,查询到的值,流入值,是否查询,返回查询到的值,Informatica组件介绍,Lookup组件,查询的数据项,返回关联值,返回值,Infor
19、matica练习,练习六: Lookup组件,描述 -连接Lookup与非连接Lookup的应用 -将原始客户信息去客户类型表中查询客户类型名称信息, 将最后结果数据导入到目标表 -源表: customerinfo_orcl custtype_orcl -目标 customerinfo_flat 要点 -连接Lookup与非连接Lookup的区别 程序:wf_Lookup、wf_Lookup_unc,Informatica组件介绍,Sorter组件,组件功能 -排序 组件类型 -Passive组件 应用范围 -对流入的记录数据项数据排序,Informatica组件介绍,Sorter组件,排序的
20、字段,Informatica组件介绍,Aggregate组件,组件功能 -对数据集进行聚合 -聚合分有SUM、AVG、COUNT、MAX、MIN 组件类型 -Active组件 应用范围 -分组汇总 -平均值、最大值,Informatica组件介绍,Aggregate组件,Group By,聚合,Informatica练习,练习七: Sorter与Aggregate组件,描述 -将客户按客户类型进行分组汇总,结果导入汇总目标表中 -源表: customerinfo_orcl -目标 customer_count 要点 -汇总前排序 -分组排序 程序:wf_Sorter_Aggregate,Inf
21、ormatica组件介绍,Union组件,组件功能 -把不同种类或同种类的源合并到一起 -类似SQL中的Union All 语句,不出去重复的行 组件类型 -Passive组件 应用范围 -数据合并,Informatica组件介绍,Union组件,Informatica练习,练习八: Union组件,描述 -将不同源的客户信息进行合并后,将最后结果数据导入到目 标表 -源表: customerinfo_orcl customerinfo_sql -目标 customerinfo_flat 要点 -应用Union进行Mapping设计 程序:wf_Union,Informatica组件介绍,Up
22、date Strategy组件,组件功能 -对流过组件的每一条记录赋一个操作标志 -根据操作标志对目标关系型数据库表生成SQL操作 -操作标志有DD_INSERT、DD_UPDATE、DD_DELETE、 DD_REJECT 组件类型 -Active组件 应用范围 -数据增量更新 -对目标编辑,Informatica组件介绍,Update Strategy组件,对记录标志,记录是当前丢弃 还是到下一组件丢弃,Informatica练习,练习九: Update Strategy组件,描述 -将新增的客户信息插入到目标表中 -将更新的客户信息更新到目标表中 -源表: customerinfo_or
23、cl -目标 customerinfo 要点 -使用Router组件对数据按不同要求进行编辑操作 -Update Strategy组件实现插入和更新操作 程序:wf_UpdateStrategy,Informatica实例,增量抽取实例,描述 -将新增的客户信息抽取到目标中 -时间戳方式增量抽取 -源表 customerinfo(oracle db) -目标表 customerinfo_flat 要点 -系统变量session启动时间的使用 -变量在Mapping中的使用 程序:wf_Increment,Informatica参数与变量,参数与变量,参数和变量可以定义在工作流、工作集或会话中
24、参数文件可以包含以下类型的参数和变量: Integration Service变量 Integration Process变量 Workflow变量 Session变量 Mapping变量,Informatica参数与变量,参数与变量,参数文件的应用体现在以下几个方面: 源文本文件名参数化 源表名参数化 目标输出文本文件名参数化 源与目标的数据库连接参数化 日志文件及路径参数化,Informatica参数与变量,参数与变量存在的三种形式,系统级变量 -SYSDATE 系统日期 -SESSSTARTTIME session启动时间 -$SessStartTime 返回Session启动时间的字符
25、串值 Mapping级参数与变量 -setvariable($variable,value) 设置变量值 -setmaxvariable ($variable,value) 设置最大值变量 -setminvariable ($variable,value) 设置最小值变量 -setcountvariable($variable) 设置递增、递减变量 文件级参数与变量 -固定格式,Informatica参数与变量,Mapping参数与变量形式,变量或参数名称定义:$,类型设置,变量变化类型,是否为表达式变量,初始值设置,Informatica参数与变量,参数文件形式,全局变量,域级服务变量,节点
26、级服务处理变量,Workflow级变量,优先于前几级定义的变量,Informatica参数与变量,参数文件设置,Session参数文件设置,Workflow参数文件设置,Informatica参数与变量,参数文件级别规则,Informatica参数与变量,使用不同的参数文件并行运行同一个workflow,Informatica实例,参数文件实例,实例描述 -源文本文件名进行参数化 -对源表名进行参数化 -对目标输出文本文件名进行参数化 -对源与目标的数据库连接参数化 -对日志文件及路径进行参数化 -对变量的赋值引用 要点 -注意参数与变量的使用 程序:wf_Parameter_Variable
27、,Informatica实例,存储过程实例,实例描述 -根据客户信息中客户类型标志查询在客户类型表中类型名称,将查询的 客户类型名称及客户信息导入目标表 -源表 customerinfo_sql custtype_orcl -目标表 customerinfo 要点 -注意存储过程在Mapping的使用 程序:wf_Procedure,Informatica实例,Transformation实例,实例描述 -根据客户信息中客户类型标志查询在客户类型表中类型名称,将查询的 客户类型名称及客户信息导入目标表 -源表 customerinfo_orcl -目标文件 customerinfo.out 要
28、点 -注意Transformation公共组件使用 程序:wf_transformation,Informatica实例,Mapplet实例,实例描述 -根据客户信息中客户类型标志查询在客户类型表中类型名称,将查询的 客户类型名称及客户信息导入目标表 -源表 customerinfo_sql custtype_orcl -目标表 customerinfo 要点 -注意存储过程在Mapping的使用 程序:wf_Procedure,Informatica实例,Mapplet实例,实例描述 -根据客户信息中客户类型标志查询在客户类型表中类型名称,将查询的客户类型名称及客户信息导入目标表 -源表 customerinfo_orcl -目标文件 customerinfo.out 要点 -注意Mapplet的使用 程序:wf_mapplet,Informatica实例,循环执行实例,场景:财务估值系统套账表 LSETLIST ,该表记录的信息为组合代码与套账编号的对应信息,其中: 组合数会随着新基金的发行而增加; 采集标识为业务人员进行标识,当标记为Y时,ETL的workflow开始运行的时候会判断该标识进行组合数据的采集,并将采集完成后的组合的标识设置为N; 如果业务人员把已经采集过的组合重新标记为Y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 珠宝市场深度洞察-满足消费需求设计引领未来
- 塑造未来:基础知识教育-引领幼儿园学生的学习之旅
- 有机蔬菜深度解析-科技助推绿色农业发展
- 浅谈班级管理中仪式感的作用
- 文化交流活动顺利举行承诺书范文4篇
- 环保行业绿色能源项目推广策略
- 企业文档归档及管理制度建设模板
- 让梦想飞翔:励志成长小学主题班会课件
- 水电暖领域节能减排目标达成承诺书8篇
- 市场营销品牌推广指导书
- 2025基于5G技术实现煤场斗轮机无人值守
- 出租转让茶厂合同范本
- GB/T 18711-2025选煤用磁铁矿粉试验方法
- 学堂在线研究生素养课-积极心理与情绪智慧章节测试答案
- 2025年事业单位招聘考试综合类专业能力测试试卷(计算机类)-计算机软件工程与管理
- 2025年云南乡村医生招聘考试历年参考题库含答案详解(5卷)
- 呼吸衰竭护理
- 防洪防汛应急预案桌面演练方案和演练记录
- 胃穿孔的护理查房
- 2015-2025年北京市高考语文真题古诗文默写汇编
- 2026届贵州省六校联盟高三高考联考卷(一)化学及答案
评论
0/150
提交评论