inatica powercenter使用交流.ppt_第1页
inatica powercenter使用交流.ppt_第2页
inatica powercenter使用交流.ppt_第3页
inatica powercenter使用交流.ppt_第4页
inatica powercenter使用交流.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Informaticapowercenter使用交流 叶俊 主要内容 ETL背景知识介绍InformaticaPowerCenter框架介绍客户端工具介绍组件介绍服务器端介绍 主要内容 ETL背景知识介绍InformaticaPowerCenter框架介绍客户端工具介绍组件介绍服务器端介绍 ETL背景知识介绍 ETL的含义ETL的主要功能 ETL的含义 数据采集 ETL 即数据抽取 Extract 转换 Transformation 清洗 Cleansing 装载 Loading 的过程 ETL就是对原有的 跨网络的 跨系统的数据进行提取 转换 加载 使它们成为有用数据并保存于数据库 ETL的主要功能 数据抽取 dataextract 数据转换 datatransform 数据装载 dataloading 数据抽取 dataextract 数据抽取功能是确定数据采集所涉及到的数据源并采集原始数据 数据抽取通过不同的数据接口 实现从不同的网络 操作平台 数据库及数据格式和应用中抽取数据 并能通过对数据源的分析 抓取原始数据的元数据 为后续的数据转换等工作提供了基础 数据转换 datatransform 数据转换包括数据的清洗和转换两部分功能 数据的清洗要求对抽取来的原始数据进行有效性检查 对于数据项丢失或无效的记录和相似重复记录进行处理 数据转换则根据数据抽取时获取的元数据信息和目标数据仓库中表的元数据信息来对数据项进行转换 其中包括数据的合并 汇总 过滤 转换等 数据转换功能保证了数据的正确性 一致性 完整性和可靠性 为后续的工作提供了数据支持 数据转换 datatransform 举例 滤掉不合法数据 进行数据表达方式的转化 数据装载 dataloading 数据装载负责将数据按照目标数据库元数据定义的表结构装人数据仓库 该功能是对经过清洗和转换的数据进行汇总 保存 以达到数据级整合的目的 主要内容 ETL背景知识介绍InformaticaPowerCenter框架介绍客户端工具介绍组件介绍服务器端介绍 InformaticaPowerCenter框架介绍 PowerCenter框架介绍PowerCenter相关概念解析 13 3 InformaticaPowerCenter体系结构 3 1体系架构图 14 2个Server InformaticaRepositoryServer 知识库Server 管理ETL的元数据 InformaticaServer ETL引擎 读取存储在知识库中的Mapping和WorkFlow元数据 根据元数据规则实现ETL任务调度5个Client RepositoryServerAdministratorConsole 资料库的建立与维护 RepositoryManager 资料库管理 包括安全性管理等 PowerCenterDesigner 设计开发环境 定义源及目标数据结构 设计转换规则 生成ETL映射 WorkflowManager 合理地实现复杂的ETL工作流 基于时间 事件的作业调度 WorkflowMonitor 监控Workflow和Session运行情况 生成日志和报告 3 InformaticaPowerCenter体系结构 3 2工具介绍 15 1 RepositoryServerAdministrationConsole 创建repository 知识库 存储元数据 2 RepositoryManager 创建folder 存储元数据和管理知识库及其用户权限安全性管理 3 Designer 定义Mappings 定义ETL规则4 WorkFlowManager 创建Session 调度任务执行 管理日志及出错处理 5 WorkFlowMonitor 监视任务执行 查看日志 3 InformaticaPowerCenter体系结构 3 3设计流程 16 3 InformaticaPowerCenter体系结构 1 Createrepository 2 CreateFolder 3 定义ETL规则Mappings 4 定义SessionWorkFlow 5 调度查看日志 3 3设计流程 PowerCenter相关概念解析 TransformationMappingSessionTaskWorkflow Transformation TransformationchangethedatatheyreceiveGeneratemodifyorpassdataDatapassesintoandoutoftransformationsthroughportsthatyoulinkinamapping Mapping LogicallyDefinestheETLProcessReadsdatafromsourcesAppliestransformationlogictodataWritetransformeddatatotargets Task Anexecutablesetofactions functionsorcommandsSessiontaskrunsamappingCommandtaskrunsashellscriptEmailtasksendsanemail Session AsessionisasetofinstructionsthattellstheIntegrationServicehowandwhentomovedatafromsourcestotargets Asessionisatypeoftask similartoothertasksavailableintheWorkflowManager IntheWorkflowManager youconfigureasessionbycreatingaSessiontask Torunasession youmustfirstcreateaworkflowtocontaintheSessiontask Session Workflow AcollectionoforderedtaskTaskscanbelinkedsequentially concurrentlyand orcombinedLinkscanbeconditionalonprevioustaskscompleting 主要内容 ETL背景知识介绍InformaticaPowerCenter框架介绍客户端工具介绍组件介绍服务器端介绍 客户端工具介绍 RepositoryManagerDesignerWorkflowManagerWorkflowMonitor RepositoryManager 连接已有的repository加入新的repository 已存在 查看已有工作区创建新的工作区 Designer 导入 创建数据源元数据导入 创建目标数据元数据制作ETL计算规则 Mappings 调试Mappings设置变量和参数 WorkflowManager 设置数据库联接创建Mapping实例 session 制作Workflow实现ETL过程 Workflow调度 运行 Start 调度 Scheduler 设定调度时间频率 WorkflowMonitor 监控Workflow查看结果数据源和目标数据库的读出和写入情况给出错误信息 WorkflowMonitor中的状态 Stop 停止Task Workflow 或WorkletAbort 异常中断task workflow 或WorkletResume 在修改了失败的Task后 在继续挂起的WorkflowsRestart 重新开始Tasks Workflows 或Worklets 主要内容 ETL背景知识介绍InformaticaPowerCenter框架介绍客户端工具介绍组件介绍服务器端介绍 transformation组件介绍 Active 所有input output 表示该transformation可以改变通过它的数据的行数SourceQualifier Aggregator Filter Update Router Normalizer Joiner rankPassive 表示该transformation不改变通过它的数据的行数Lookup expression SequenceGenerator InformaticaPowerCenter提供了多种数据转化组件 SourceQualifier 从源表中查询出所有的数据 非XML XMLSourceQualifier 从XML数据源中查询数据Normalizer 从VSAM或关系数据源中格式化记录Expression 基于单行记录的表达式计算Aggregator 基于多行记录的汇总计算 组件介绍 Filter 执行条件过滤Router 按照条件分组来过滤数据Sorter 基于键字段进行排序UpdateStrategy 允许逻辑的插入 更新 删除 或拒绝Lookup 查找相关的值并且传送给其他的对象Joiner 关联异构数据源StoredProcedure 调用存储过程并且获取返回值 SequenceGenerator 产生一组唯一的序列idRank 取出最大或最小的一定数量的记录Input 定义Mapplet的输入 仅在Mappletdesigner中可用Output 定义Mapplet的输出 仅在Mappletdesigner中可用 SourceQualifier SourceQualifier组件用来从源表或源文件中抽取数据 它可以用来转换源表的数据类型 方便PowerCenter之后的各种操作 另外还有过滤及关联源表的数据功能 Filter Filter组件是用来过滤已经被PowerCenter读取过来的数据 在需要过滤的数据上添加过滤条件 只有符合条件的才可以通过 与SourceQualifier不同的是 Filter还可以过滤的文本的数据 但为了提高性能 需尽量在SourceQualifier中将数据过滤掉 Joiner Joiner组件通过关联条件关联两个数据源 一个Joiner只能关联两个表 可以关联异构数据源 但大量数据对内存要求也高 所以同构数据的关联应尽可能使用SourceQualifier Expression Expression组件可以对节点进行表达式操作 新增输出端口 编辑该端口的表达式 要进行列运算一般用Expression 需要注意的是它不能作Sum Avg等汇总函数操作 Lookup Lookup组件可以将代码表加载入内存 对表作查询 实现嵌套查询 可以针对文件操作 当对表的查询发生频繁时这样可以提高效率 Aggregator Aggregator组件执行分组聚合运算 可以对数据进行汇总 还能提供增量汇总 条件汇总等特殊的功能 先选择所需分组的列 然后编写聚合表达式来实现分组聚合运算 Normalizer Normalizer组件格式化记录 这些记录可以是文本形式的 Workflowtask Session 执行mapping的指令Command 在工作流中指定运行shellcommandsEmail 在工作流中发送email Decision决定InfromaticaServer如何执行workflowAssignment workflow可以定义变量 用Assignment来设定变量值 然后用变量值控制workflow走向 Workflowtask Timer 指定何时执行workflow的下一个任务Control 控制workflow 如停止 中断等EventWait 等待一个事件的触发Event

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论