Informatica 技术解决方案_第1页
Informatica 技术解决方案_第2页
Informatica 技术解决方案_第3页
Informatica 技术解决方案_第4页
Informatica 技术解决方案_第5页
已阅读5页,还剩205页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Informatica技术解决方案IInformaticaInformatica技术解决方案技术解决方案 提交人:闫东 联系电话:提交日期:2022-01-22 版本号:1.0 Informatica技术解决方案II目目 录录序言序言. 11.1INFORMATICA公司介绍. 11.2INFORMATICA公司针对各行业的解决方案及特点.32设计理念设计理念. 92.1设计理念的先进性. 92.2设计理念的符合性. 123基本功能基本功能. 143.1字段级的操作,主要包括:字段映射,映射的自动匹配,字段的拆分,多字段的混合运算,自动完成时间类型的转换. 143

2、.2记录级的操作,主要包括:去重复记录,记录间合并或计算,记录拆分等.153.3表级的操作,主要包括:代理键的生成,行列变换,排序,统计,制造样品数据.163.4数据库级的操作,主要包括:对各种码表的支持包括GBK(必需)、UNICODE(必需)、ASCII(必需). 174技术特点技术特点. 214.1跨异构数据库的关联、支持关联条件的复杂程度、自定义函数的实现、过滤条件的复杂程度.214.2支持的数据类型,包括BINARAY、DATE/TIME、DECIMAL、DOUBLE、INTEGER、STRING、TEXT、REAL、SMALL INTEGER等.214.3抽取断点,支持参数抽取的灵

3、活程度,如何抽取远程数据,抽取数据的事务处理支持,抽取的字段是否可以动态修改,对抽取的环境变量配置情况,环境变量是否可以动态修改 .234.4是否支持脏读,数据的提交方式,支持各种数据库的批量装载功能包括ORACLE(必需)、INFORMIX、DB2、SQL SERVER,针对不同数据库是否具有批量加载能力包括ORACLE(必需),INFORMIX,DB2,SYBASE,TERADATA. 274.5在转换过程中是否支持数据比较的功能,在设计调试时能否对每个转换环节进行数据预览,在设计调试时能否对每个转换环节进行性能监控,在转换过程中是否支持按行按列的分组聚合,能否提供直观的视图、灵活的配置以

4、及能否自定义功能,是否提供丰富的转换函数,是否支持诸如VALIDATE、 TRANSLATE、 HIERARCHY FLATTERN,MAP,MERGE 等转换功能,ETL过程中数据转换的可追溯能力.294.6不同类型运算所耗的系统资源状况,包括常见的JOIN、LOOKUP、MAPPING、AGGREAGATION、SORT、PIVOT、FILTER等 .404.7是否内置提供数据预览和数据质量评估的功能 .414.8是否内置提供具有强大的元数据管理功能 .454.9对于实时ETL及按需ETL的支持 . 515整体架构整体架构. 535.1对平台的支持,支持主流的操作系统平台包括SUN SOL

5、ARIS,HP-UX(必需), IBM AIX(必需), LINUX, WINDOWS(必需)等。. 53 Informatica技术解决方案III5.2对数据源的支持,支持常见的数据源,包括ORACLE(必需),DB2(必需),INFORMIX(必需),SYBASE,SQL SERVER,TERADATA,SAS,TEXT(必需),EXCEL,SAP R/3,PEOPLESPFT,SIEBLE,IMS,VSAM,QSAM ON 390,用户自定义文件,FTP(必需),XML(必需),MESSAGE QUEUE,EMAIL,WEBLOG,OLEDB,其它.545.3支持数据库的种类、连接方式、

6、配置方式及是否随产品打包,包括ORACLE(必需),DB2(必需),INFORMIX(必需),SYBASE,SQL SERVER.565.4产品自身并行处理能力,对并行数据库的支持情况如ORACLE RAC/OPS,系统的线性可扩展性.565.5是否支持远端的数据抽取和加载功能. 595.6对错误恢复逻辑的支持,对异常情况的处理是否得当,对于出现差错的流程是否支持异常控制、错误告警以及错误流程恢复的加载. 605.7对中间存储的支持. 655.8产品可编程的灵活性如何,模块化的设计能力 .655.9能否根据日志监测源数据的变化,是否支持增量抽取,增量抽取的处理方式,增量加载的处理方式,是否提供

7、数据更新的时间点或周期,以便可以灵活处理.675.10对元数据的管理,主要包括:元数据存储的提取方式、元数据存储的开放性、元数据存储的可移植性、是否提供多种方式访问元数据、元数据的版本控制程度、是否支持开放的元数据标准如CWM、是否支持XML进行元数据交换、是否支持分布式的元数据访问和管理、是否生成元数据报表、是否支持ETL过程的冲突分析、是否支持基于元数据的查询功能、是否支持ETL过程的流程分析等。.685.11可以实现对所有主流关系型数据库的快速访问和,对本地数据访问模式的支持(这里本地指NATIVE,如OCI等);通过利用本地数据库API高效实现ETL功能.755.12对基本处理(如SQ

8、L)的支持. 765.13提供友好界面. 765.14具有使用内部函数或者用户定义函数的强大转换功能.805.15是否提供强大的脚本和用户自定义函数开发和转化的功能.845.16是否提供数据校验的功能,如空值处理、流程异常处理、异常值的处理等手段.896接口与交换接口与交换. 906.1支持通用接口,如ODBC、数据库本地接口等.906.2是否支持各种主流的消息中间件,可以通过消息中间件进行数据抽取和加载,例如MQ SERIES,JMS等926.3是否支持WEB SERVICES接口. 926.4在调度时除了执行ETL规则是否可以执行其它任务如系统的可执行程序、数据库的存储过程、动态链接库中的

9、程序、FTP命令、EMAIL任务. 936.5是否调用各种外部应用,包括存储过程、各种流行语言开发的应用程序等.936.6是否支持客户化定制的转换过程,支持的编程语言种类例如C、C+、VC+、JAVA、PERL等.946.7与OLAP数据库,如HYPERION ESSBASE、ORACLE EXPRESS OLAP等的集成、与前端工具集如COGNOS、BUSINESS OBJECT、BRIO的集成 . 996.8是否有开放的API可将产品集成到统一界面.996.9是否支持与统计分析工具如BUSINESSOBJECTS,SAS的集成等.996.10原厂商专用接口对不同数据源的支持 .1007项目

10、重点问答项目重点问答. 1017.1工具是否满足无编码开发. 101 Informatica技术解决方案IV7.2安装调试时,对系统环境是否有额外安装要求 .1027.3在不改变系统内核参数据前提下,能否顺利完成产品的安装及调试? 如需改变系统内核参数,请说明。 . 1027.4REPOSITORY的移植性:在不改变原设计和应用的前提下,能否顺利完成跨平台、跨异构数据库和跨产品版本的移植。 如需更改设计等工作,请加以说明。.1027.5REPOSITORY的开放性?是否可建立在主流RDBMS基础上,例如:ORACLE、DB2等?如果不支持,请加以说明。. 1037.6详细论述性能调优及步骤.

11、1047.7ETL部分产品,厂家的发展策略和趋势,产品延续性如何?.1138元数据管理分析元数据管理分析. 1158.1元数据管理工具的架构及工作原理. 1158.2元数据管理工具的功能模块描述及工作流程 .1198.3元数据管理工具界面友好性如何. 1238.4元数据管理工具的平台性. 1258.5元数据管理工具采集接口. 1258.6是否具有元数据脱机分析功能. 1278.7是否具有表级和字段级的血缘分析功能.1278.8是否可在一个分析视图上,表现出跨不同工具的元数据血缘分析功能.1298.9是否有影响分析功能. 1308.10是否具有WEB 展现功能. 1308.11元数据管理工具的R

12、EPOSITORY的开放性?是否支持主流的RDBMS?如不支持,请加以说明。1328.12元数据分析报表,可导出为哪些种类的文件类型?.1328.13元数据检索功能. 1338.14元数据同步及调度功能. 1338.15能否方便看到计算字段的元数据及计算公式.1358.16是否支持自定义元模型? 是否支持CWM 元数据标准?.1369产品供应商资质产品供应商资质. 1399.1财务状况和公司规模. 1399.2业界影响. 1399.3成功案例. 14110产品供应商市场情况产品供应商市场情况. 14710.1国内客户数量及全球客户数量 . 14710.2市场准入. 14810.3市场份额. 1

13、4911实施供应商资质和实施供应商市场情况实施供应商资质和实施供应商市场情况. 15112可实施能力可实施能力. 15212.1软件安装、配置的简单性和灵活性 .15212.2ETL性能监控与调优的能力. 152 Informatica技术解决方案V12.3如何从开发环境迁移到生产环境 . 16112.4是否支持网格计算和负载均衡 . 16212.5是否支持ETL过程中的冲突分析. 16412.6是否支持流程分析. 16512.7是否有简体中文版本的软件 . 16512.8开放文档的自动生成. 16613实施方法论论及咨询团队实施方法论论及咨询团队. 16813.1实施方法论. 16813.2

14、咨询团队. 17514售后维护售后维护. 17614.1是否有本地支持,支持工程师是否充足.17614.2本地支持方式如是分公司还是代理(总代理或是什么级别的代理).17614.3产品升级. 17715运营维护运营维护. 17815.1资料库的备份、恢复. 17815.2是否支持SNMP管理,可与网管软件集成.18015.3是否支持基于WEB的运行管理和监控,以及元数据报告.18115.4方便的系统部署功能和良好的系统监控功能,是否支持未完成任务的监控、报告和恢复功能18415.5是否提供版本控制和管理的功能 . 19215.6是否支持统一以及自定义的管理平台 .19215.7在调度时是否支持

15、时间触发方式,在调度时是否支持事件触发方式.19715.8是否支持命令行执行方式 . 198附件、附件、INFORMATICA公司售后服务内容介绍公司售后服务内容介绍.202 Informatica技术解决方案1序言序言1.1 Informatica公司介绍公司介绍Informatica Co. Ltd 1993年创立于美国并于1999年登陆纳斯达克。Informatica一直致力于为客户提供具有强大的元数据管理、数据集成和个性化分析递送功能的世界通行标准的统一数据服务平台。Informatica的基础设施产品以可伸缩的、可扩展的企业级数据集成平台为特点,并广泛支持来自Informatica和

16、其他的领先商务智能提供商的数据仓库基础设施和分析型应用软件的开发和管理,提供元数据管理解决方案,帮助企业集成、优化、审核信息资产以提高运营效率,增加客户收益,取得竞争优势。 作为数据整合软件产业的领导者,Informatica拥有遍布全球的客户,客户范围涵盖金融、电信、制造、政府、能源、保险、公众服务等多种行业。Informatica的客户:超过82的Fortune 100客户80% 的道 琼斯工业指数客户全球 500 强企业中5个最大的的娱乐和媒体机构 15 个最大的 电信公司中的13个31 个最大的 金融服务/银行机构 中的24个13 个最大的 制药公司 中的12个18 个最大的 能源公司

17、 中的12个20 个最大的 制造企业 中的16个 20 个最大的 保险公司 中的15个 Informatica技术解决方案2所有四兵种的 美国军队 (陆军、海军、海军陆战队和空军)作为数据整合方面的专家,更先进的技术和更完善的服务一直是我们追究的目标。为了给客户提供系统是全方位服务,我们拥有大量专业级的资源,来满足客户各个方面的需求。从自身来说,我们有高品质专家提供丰富的资源为客户服务;从合作伙伴来说,我们有最好的战略合作伙伴,企业的硬件提供商,第三方发展公司以及全球150多家系统整合商来帮助解决客户复杂的数据整合难题。通过这些系统服务,我们确保将客户IT投资回报率最大化,为协助客户成功做出不

18、懈的努力。 Informatica技术解决方案3正是在这种精益求精的企业精神之下,Informatica公司作为世界一级的专业生产商在数据集成领域中做出了突出的贡献,并且为此获得业界和客户等多方面的肯定和嘉奖。2005年5月11日,Gartner,Magic Quadrant for ETL, 1H05, Informatica公司是ETL领域的技术领导者。2005年,Informatica的主打产品之一PowerExchange 5.2.1 获得每周电脑报的最佳选手奖。2004年12月,在Forrester资讯公司的关于“如何评估企业ETL”的调查中,名列整合解决方案提供商的前列。2004年

19、,设计手册回顾(DM Review)根据其读者的调查反馈,将Informatica列为数据整合方面的最好供应商。同时,Informatica作为商业智能和数据整合的解决方案提供商名列前12名。 2004年,聪明企业的读者评选中,获得最好数据整合供应商的称号,同时公司的PowerCenter数据整合平台在杂志的80,000个读者的评选中成为最好的ETL工具。2004年,计算机商业评论杂志将Informatica公司评为在数据整合及数据应用软件领域的最有影响力的10家厂家之一,名列第五。2004年,加拿大核协会和英国的普天寿公司由于使用了Informatica公司的PowerCenter和Powe

20、rExchange产品,夺得设计手册回顾评选的世界级解决方案奖。2004年,Deutsche Brse Group 由于使用了Informatica公司的PowerCenter数据集成平台而获得了由TDMI颁发的最佳实时数据仓库应用奖。2004年,Informatica公司被CMP传媒评为最有影响力IT解决方案提供商之一。 Informatica技术解决方案41.2 Informatica公司针对行业的解决方案及特点公司针对行业的解决方案及特点在20世纪90年代,随着企业对业务过程处理的卓越追求和对市场需要的及时响应,出现了一系列的以“产品”为中心的业务系统。这些业务系统在一定程度上满足了当时

21、企业发展的需要,但同时也对企业未来的发展埋下了一定的隐患。这些以“产品”为中心的业务系统,由于其业务特点的各异性,往往采用了不同的技术实现、系统和数据规范,这不仅增加了企业信息化环境的复杂性、业务信息的不对称和不一致性、业务信息的分散性和无全局性,还增加了运行和维护部门的负担,最终还分散了企业关注支持新业务需求的精力。尤其是当企业面临从“以产品为中心”到“以客户为中心”的经营模式转变时,这些隐患变更发的显现出来。无论是政府还是各个行业的企业,都已经深深的意识到了以上隐患,从全局规划角度出发的各种类型的标准化和流程化工作应运而生,并且被提到了企业发展的战略高度。在具体实现方式上,“一个平台,多个

22、子系统”的概念逐渐深入政府、电信、金融服务和制造等各个行业,统一数据服务平台和与之相关联的资源和服务目录便是其中之一。UDS(Universal Data Services) 架构是Informatica在新的形势下提出的统一数据服务平台。它支持企业各种类型的业务系统数据的整合、交换和共享,从而形成一套准确、干净、完整的数据集合,增强对企业决策者对商业活动的敏感度,从而提升自身的竞争力。在UDS服务体系中,提供了访问、整合、质量控制、审核和监控等数据服务,具体架构如下: Informatica技术解决方案5 PowerExchange:按照需求,可以很容易地访问分离、复杂的系统,并从中得到数据

23、PowerCenter:目前业界最佳的集成元数据管理的数据整合、交换和共享平台Informatica PowerCenter, 可以从任何数据源获取数据, 包括各种关系数据库,ERP应用、以及各种文件系统;同时,利用它的图形界面控制台可以容易定义任何数据的抽取、汇总和计算, 整个数据集成的过程不需要进行脚本的编写; 利用它的计划执行能力,可以在正确的时间调度正确的作业, 来完成数据的转换; 利用数据库的触发机制, 可以完成实时的数据复制和增量备份等工作;实现加载流程 Informatica技术解决方案6合理化(Workflow);高性能的加载(Load Partition);极大的减轻了日后系

24、统的维护量。SuperGlue:审核数据血统、文档过程、冲突分析,管理数据变化PowerAnalyzer:监控:验证数据、过程报告、积极的传递洞察力借助Informatica公司产品和解决方案,通过建立统一数据交换和共享平台,行业可以获得以下收益:实现对以业务系统为数据采集点的数据整合、交换和共享;提供对历史系统数据、私有系统数据的访问,充分利用企业信息化进程积累的历史数据;降低数据冗余度、降低数据不一致性和提高数据准确性,提高作为企业战略资源的各种信息和历史数据的使用率和使用准确率;建立统一数据服务平台,支持现有和未来业务系统的数据服务;助力企业数据标准化和企业统一客户视图的建设工作,为建立

25、以客户为中心,以服务为导向的新型服务企业提供底层信息流动支撑;助力企业实现跨地域的、跨业务系统的客户一致化服务水平,提高企业客户满意度和企业竞争能力;助力企业全局数据仓库和特定主题数据集市的建立; Informatica技术解决方案7图形化的部署、控制和管理统一数据服务平台,简化系统变化、升级和部署的复杂度,从而更加快速的应对整合和市场变化;随着企业的发展,支持新业务系统的平滑、快速接入。1.2.1 解决方案特点解决方案特点灵活开发和部署现今许多集成项目常常跨越时间和地理分区,为了有效管理本地和全球开发队伍,企业需要集成支持协作开发和部署的软件。PowerCenter提供一整套高度复用性的产品

26、工具,用于加速开发、简化管理、降低当前的维护成本。使用PowerCenter,不同区域的开发者能够基于小组开发和调试工具,迅速并容易地响应集成需求。通过PowerCenter的Check-in和Check-out对象管理和版本控制,开发者的小组们能够同时工作在相同的项目上,提供与时间无关的部署。安全可靠的企业数据安全对于IT组织机构来说,已经成为一个最主要的关心点。通过LADP和其他目录服务器验证支持,对于安全访问、加密数据传输,详细的审计记录的角色的许可,PowerCenter提供一个安全的环境贯穿集成的全过程。PowerCenter提供最大范围的安全能力,为企业数据集成提供安全保障。无可比

27、拟的性能和可扩展性提供无限制的可扩展性、可测量性和吞吐量,适应企业目前数据交换和共享的需要,并支持未来业务系统的平滑接入和扩展。PowerCenter提供无可比拟的性能,不管环境如何,都能应对当前和未来数据主动集成。PowerCenter的性能引擎提供: Informatica技术解决方案8管道,分区,数据灵活的并行,有效地打破分离的集成通过异种环境进行网格计算,最大化使用现存的基础架构批处理、变化、实时数据移动有最好的适应性 Informatica技术解决方案92 设计理念设计理念2.1 设计理念的先进性设计理念的先进性回答:满足。回答:满足。2.1.1 产品体系结构和工作原理产品体系结构和

28、工作原理2.1.2 产品功能模块描述产品功能模块描述1个个(或多个或多个)RepositoryPowerCenter数据整合引擎是基于元数据驱动的,提供了基于元数据驱动的元数据知识库(Repository),该元数据知识库可以在主流的关系型数据库中部署。该元数据库中存储所有的ETL元数据,包括:源、目标表的物理和逻辑元数据, ETL转换规则,知识库用户权限,ETL任务运行历史信息等元数据。 Informatica技术解决方案102个个ServerInformatica Repository Server:资料库Server,用来管理所有对资料库中元数据的请求和操作。Informatica Se

29、rver:实际的ETL引擎5个个Client:PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射。Workflow Manager:对Workflow,Session等ETL任务作设计,同时提供了对任务执行的调度和管理功能。Workflow Monitor:监控Workflow和Session运行情况,生成日志和报告。Repository Manager:元数据维护和安全操作,如:元数据查找,用户、组、权限管理等。下图是Repository Manager的操作界面。Repository Server Administrator Cons

30、ole:对知识库的操作,如:知识库的创建、备份、恢复等。2.1.3 PowerCenter基本工作原理基本工作原理Informatica是基于元数据驱动的,所有的元数据都保存在Repository(知识库)中,该知识库可以创建在所有主流数据库当中,充分体现了它元数据的开放性。Repository Server用来管理所有客户端以及Informatica Server跟Repository的交互, 并且一个Repository Server可以管理多个Repository,而Repository Server可为每个Repository分配一个Repository A

31、gent来处理所对有元数据操作的响应。 Informatica技术解决方案Informatica Server是实际处理ETL任务的后台服务,它是基于内存运行、高效的ETL服务,不需要产生任何的代码,每次执行任务之前都会从Repository中读取最新的ETL规则。Informatica的客户端提供了无编码、完全图形化的设计和管理调度界面,可实现快速开发和部署。一个基本的ETL任务设计和部署的大致步骤如下:A) 使用Designer客户端,获取源数据表的元数据。B) 使用Designer客户端,获取目标数据表的元数据。C) 使用Designer客户

32、端,设计一个Mapping,其中就是源-目标的ETL规则。D) 使用Workflow Manager客户端,针对上面实现的Mapping,实例化为一个Session,为其指定实际的数据源、目标连接,以及其他属性。E)使用Workflow Manager客户端,创建一个Workflow,其中包含上述的Session以及其他的Task,在Workflow中可实现复杂的流程控制。F)运行上述Workflow,使用Workflow Monitor客户端,监测最终的任务运行结果。2.1.4 Informatica PowerCenter核心技术核心技术Informatica 是数据集成领域的领先者,无论

33、在客户群及市场占有率上,一直名列前茅。就其核心技术来说,可分为以下几点:可扩展和分布式的产品体系,以元数据为核心驱动(Metadata Driven)。开放性,PowerCenter元数据可构建在DB2、Oracle、Informix、Sybase、MS SQL Informatica技术解决方案12SERVER、Teradata 主流关系型数据库上,并提供PowerCenter元数据描述,真正的作到高开放性。国际化支持,可处理任何字符集遵守CWM的元数据标准,可完全真正开放的作到元数据交换。合理的体系结构划分,可适应分步式的部署。高性能的管道技术,使数据在转换过程,达到完全内存操作。并行作业

34、控制,可最大化的利用系统资源,达到高并行性的效果。服务器集群,真正的Server级并行、负载均衡。对实时数据源的支持,例如IBM MQ、Tibco、WebMethod、JMS、WebService、SAP R/3(IDOC)。先进的会话管理,工作流机制。支持Workflow机制,通过多种工作流调度方法,可以将ETL Session,外部命令,Email,以及数据库脚本等任务有机的结合在一起,从而定制复杂的工作流。2.2 设计理念的符合性设计理念的符合性回答:满足。回答:满足。Informatica PowerCenter 分布式的体系结构,可适合企业快速部署生产环境。作业设计分为逻辑设计、知识

35、库管理、物理作业的执行。从设计的角度,将开发分成三层结构,符合现代主流的技术特性。 Informatica技术解决方案13开放的元数据知识库,存在主流的关系型数据库中,且元数据遵守CWM元数据标准,可为企业元数据交换,提供国际先进的标准。因元数据是单独由知识库进行管理,且作业可跨平台。在作系统移植时,可不分存储的数据库,其科学的可移植性极大方便了企业的部署要求。强大的工作流调度,可按时间、事件、参数、指示文件等进行触发,从逻辑设计上,满足企业多任务流程设计。高性能的ETL服务引擎,完全的内存线程,并集成了数据库的性能特点,是企业ETL高性能的保障图形化的开发,极大提高了开发效率,缩短项目周期。

36、等等。 Informatica技术解决方案143 基本功能基本功能3.1 字段级的操作,主要包括:字段映射,映射的自动匹配,字字段级的操作,主要包括:字段映射,映射的自动匹配,字段的拆分,多字段的混合运算,自动完成时间类型的转换段的拆分,多字段的混合运算,自动完成时间类型的转换回答:满足。回答:满足。Informatica PowerCenter是完全图形化的开发,可通过简单的操作,完成此需求:1) 通过简单的拖拽操作实现2) 映射的自动匹配:在Designer的设计中,有“Auto-link”的自动匹配功能,具有高级匹配功能,可进行前缀、后缀和位置的自动匹配。3) 字段的拆分,内置众多的字符

37、串函数,例如SUBSTR, Instr等,可完成字段的拆分、合并等操作。4) 多字段的混合运算,内部具有Expression组件,可增加复杂的多字段混合计算,同时可嵌入100多种函数和参数,极大的提高了计算表达式的灵活性。 Informatica技术解决方案155) 自动完成时间类型的转换,如在记录中,符合时间格式,可自动进行字符型和时间类型的转换,并且提供to_char,to_date等强制转换函数。3.2 记录级的操作,主要包括:去重复记录,记录间合并或计记录级的操作,主要包括:去重复记录,记录间合并或计算,记录拆分等算,记录拆分等回答:满足。回答:满足。1)去重记录A) 组件内部设有变量

38、,可模拟数据库游标操作,进行数据记录的前后比对,即可识别重复记录。B) 动态Lookup组件,此组件可理解为子查询,针对目标库或文件进行所需字段的查询,将查询结果放入内存中。这样从数据源中读取的数据,在此内存中与历史记录的主键进行比对,可发现此记录是否重复,并可将重复数据单独输出到另外的文件或数据库表中。此组件,还有一特点,就是将数据源流入的主键在读入的过程中,将新主键,也保留在Lookup内存中,实现所有数据记录主键的内存存储,方便数据的比对操作。C) Informatica PowerCenter内置缓慢变化维向导,在此将详细描述其过程。缓慢变化维原理论述对于导入的数据源,针对主键和验证字

39、段,同目标进行比对:a)主键不存在,为新增数据;b)主键存在,验证字段相同无变化,为重复数据; Informatica技术解决方案16c)主键存在,验证字段发生变化,为变化数据。以上三类文件,可将数据情况划为三类,再分别作相应类SQL操作:Insert, Update, reject, delete。2)记录合并和计算A) Informatica PowerCenter提供Joiner和Union等组件可实现多个流入源的记录join和union的操作。实现记录的合并B) Informatica PowerCenter提供Expression和汇总组件,实现记录内的计算表达式和记录集的汇总计算等

40、操作。3)记录拆分A) Informatica PowerCenter提供Filter和Router等组件可实现流入源的记录过滤和分组等的操作。实现记录的拆分和流向控制。B) Informatica PowerCenter内部设计,很容易进行数据的分支设计,方便的实现记录按条件和需求的拆分。3.3 表级的操作,主要包括:代理键的生成表级的操作,主要包括:代理键的生成,行列变换行列变换,排序排序,统计统计,制造样品数据制造样品数据回答:满足。回答:满足。代理键的生成:PowerCenter提供Sequence Generator 组件,可生成唯一序列号,作为代理键。行列变换: PowerCent

41、er提供Normalizer组件,专门用来作行列转换这类操作。排序: PowerCenter提供Sorter组件,可图形化的选取字段,进行升序或降序的操作。 Informatica技术解决方案17统计: PowerCenter提供统计学的Rank组件,可快速得到前几名和后几名的统计操作。制造样品数据: PowerCenter提供存储过程和外部程序包组件,可将一定规则的设计,生成程序包,在PowerCenter设计中加以调用。3.4 数据库级的操作,主要包括:对各种码表的支持包括数据库级的操作,主要包括:对各种码表的支持包括GBK(必需)、(必需)、Unicode(必需)、(必需)、ASCII(

42、必需)(必需)回答:满足。回答:满足。PowerCenter产品作为业界领先的提供商,支持国际化码制。支持简体中文MS936 MS Windows Simplified Chinese, superset of GB 2312-80, EUC encoding支持Unicode和ASCII模式的数据移动。以下是支持的码表:Code Page DescriptionsNameDescriptionIDEuroShift-JISTest code page, Shift-JIS with European characters9999IBM037IBM EBCDIC US English2028I

43、BM273IBM EBCDIC German2030IBM280IBM EBCDIC Italian2035IBM285IBM EBCDIC UK English2038 Informatica技术解决方案18IBM297IBM EBCDIC French2040IBM500IBM EBCDIC International Latin-12044IBM930IBM EBCDIC Japanese930IBM935IBM EBCDIC Simplified Chinese935IBM937IBM EBCDIC Traditional Chinese937IBM939IBM EBCDIC Japa

44、nese CP939939ISO-8859-10ISO 8859-10 Latin 6 (Nordic)13ISO-8859-15ISO 8859-15 Latin 9 (Western European)201ISO-8859-2ISO 8859-2 Eastern European5ISO-8859-3ISO 8859-3 Southeast European6ISO-8859-4ISO 8859-4 Baltic7ISO-8859-5ISO 8859-5 Cyrillic8ISO-8859-6ISO 8859-6 Arabic9ISO-8859-7ISO 8859-7 Greek10IS

45、O-8859-8ISO 8859-8 Hebrew11ISO-8859-9ISO 8859-9 Latin 5 (Turkish)12JapanEUC*Japanese Extended UNIX Code (including JIS X 0212)18 Informatica技术解决方案19JEFJapanese EBCDIC Fujitsu9000JEF-kanaJapanese EBCDIC-Kana Fujitsu9005JIPSENEC ACOS JIPSE Japanese9002JIPSE-kanaNEC ACOS JIPSE-Kana Japanese9007KEISHITA

46、CHI KEIS Japanese9001KEIS-kanaHITACHI KEIS-Kana Japanese9006Latin1*ISO 8859-1 Western European4MELCOMMITSUBISHI MELCOM Japanese9004MELCOM-kanaMITSUBISHI MELCOM-Kana Japanese9009MS1250MS Windows Latin 2 (Central Europe) 2250MS1251MS Windows Cyrillic (Slavic)2251MS1252*MS Windows Latin1 (ANSI), supers

47、et of Latin12252MS1253MS Windows Greek2253MS1254MS Windows Latin 5 (Turkish), superset of ISO 8859-92254MS1255MS Windows Hebrew2255MS1256MS Windows Arabic 2256 Informatica技术解决方案20MS1257MS Windows Baltic Rim2257MS1258MS Windows Vietnamese2258MS1361MS Windows Korean (Johab)1361MS874MS-DOS Thai, supers

48、et of TIS 620874MS932*MS Windows Japanese, Shift-JIS2024MS936MS Windows Simplified Chinese, superset of GB 2312-80, EUC encoding936MS949MS Windows Korean, superset of KS C 5601-1992949MS950MS Windows Traditional Chinese, superset of Big 5950UNISYSUNISYS Japanese9003UNISYS-kanaUNISYS-Kana Japanese900

49、8US-ASCII*7-bit ASCII1UTF-8UTF-8 encoding of Unicode106* PowerCenter uses these code pages. Informatica技术解决方案214 技术特点技术特点4.1 跨异构数据库的关联、支持关联条件的复杂程度、自定义函跨异构数据库的关联、支持关联条件的复杂程度、自定义函数的实现、过滤条件的复杂程度数的实现、过滤条件的复杂程度回答:满足。回答:满足。跨异构数据库的关联:PowerCenter 有joiner组件,可实现异构数据源的关联操作。支持关联条件的复杂程度:可支持左关联、右关联、直等关联、全关联。自定义函数

50、的实现:PowerCener 有Stored Procedure和External Procedure组件,可调用数据库存储过程和调用外部程序包,例如VB、VC、C、C+、Perl等等过滤条件的复杂程度:在PowerCenter中有Filter组件,可完成类SQL中的where子句的操作。一般的用法是将多过滤条件先生成一个标识位,在Filter中,进行这些标识位的判断。同时也支持复杂逻辑表达式的过滤。4.2 支持的数据类型,包括支持的数据类型,包括Binaray、Date/Time、Decimal、Double、Integer、String、Text、Real、Small Integer等等回

51、答:满足。回答:满足。Informatica产品支持UNICODE和ASCII 两种数据传输模式(Informatica Server Setup-Configuration 设置页 - Unicode or ASCII),支持中文的双字节传输 Informatica技术解决方案22下图为Informatica 对Oracle 数据类型的支持列表. 可支持上述问题中的数据类型,同时也支持其他主流关系数据库的绝大部分数据类型。Oracle and Transformation TypesOracleRangeTransformationRangeBLobUp to 4 GBBinary1 to

52、104,857,600 bytesChar(L)1 to 2,000 bytesString1 to 104,857,600 charactersClobUp to 4 GBText1 to 104,857,600 charactersDateJan. 1, 4712 BC to Dec. 31, 4712 ADDate/TimeJan 1, 1753 AD to Dec 31, 9999 ADLongUp to 2 GBText1 to 104,857,600 charactersIf you include Long data in a mapping, the PowerCenter S

53、erver converts it to the transformation String datatype, and truncates it to 104,857,600 characters.Long RawUp to 2 GBBinary1 to 104,857,600 bytesNchar1 to 2,000 bytesNstring1 to 104,857,600 characters Informatica技术解决方案23NclobUp to 4 GBNtext1 to 104,857,600 charactersNumberPrecision of 1 to 38Double

54、Precision of 15Number(P,S)Precision of 1 to 38; scale of 0 to 38DecimalPrecision of 1 to 28; scale of 0 to 28Nvarchar21 to 4,000 bytesNstring1 to 104,857,600 charactersRaw(L)1 to 2,000 bytesBinary1 to 104,857,600 bytesVarchar(L)1 to 4,000 bytesString1 to 104,857,600 charactersVarchar2(L)1 to 4,000 b

55、ytesString1 to 104,857,600 charactersXMLTypeUp to 4 GBText1 to 104,857,600 characters4.3 抽取断点抽取断点,支持参数抽取的灵活程度支持参数抽取的灵活程度,如何抽取远程数据,抽取如何抽取远程数据,抽取数据的事务处理支持,抽取的字段是否可以动态修改,对抽数据的事务处理支持,抽取的字段是否可以动态修改,对抽取的环境变量配置情况,环境变量是否可以动态修改取的环境变量配置情况,环境变量是否可以动态修改回答:满足。回答:满足。1) 抽取断点断点续传(recovery): 如果选择了Session的“Session Re

56、covery”属性,Informatica在每次提交数据到目标库时,都会将最新的总提交数记录到资料库中。尤其 Informatica技术解决方案24在源数据记录特别庞大时,如果由于某种原因而导致Session失败,已经入库的数据虽然无法回滚,但是由于在资料库中有已入库的总数目,在失败后,该Session可直接重新执行,从而跳过了已经装载的数据,实现真正的断点续传功能。 注意,使用该功能的前提:Session前后两次执行获得的数据的个数、数据的先后次序必须一致,见下面的Session Recovery属性设置:2)支持参数抽取的灵活程度PowerCenter对于参数,分为不同级别:组件级、Map

57、ping级、Session级、Workflow级。这几级的参数可极大的提高作业和流程的灵活性。例如:在抽取时,可定义SQL:Select product_id, product_name, product_desc from $table_name where product_date= $begin_date 。以”$”为开头的是 Informatica技术解决方案25PowerCenter的变量或参数的标识,只要在参数文件给出具体的值,即可。这几级的变量或参数,可参与整个作业的设计和流程的设计,包括输入的源的定位,是哪个数据库连接或文本文件,使开发具有极高灵活性。3)如何抽取远程数据对于远

58、程抽取,按网络情况,分为两种:网络情况良好:可通过直连数据库,进行远程抽取。对于网络情况不好或经常断网、丢包的情况,建议先用专业的FTP软件,将数据集中到ETL服务器,再集中处理。PowerCenter也内置了FTP协议的功能传输。这样避免了当作业运行,因网络原因断掉,对数据库造成的影响。 Informatica技术解决方案264)抽取数据的事务处理支持ETL过程是指处理批量数据,对于海量数据,不可能事务方式处理,因为随着作业的执行,数据要交给数据库的回滚段,如果不作提交操作,数据库首先就承受不了。但此点,可通过几种情况,加以论述:PowerCenter在作业设置时,有commit inter

59、val的设置,也就是在PowerCenter内部设置,当提交数据库多少条数据commit一次。这样如果数据量较少,可设置此参数为3万或更高,这样就可以将此批数据作为一个事务进行处理和提交。但数据量越多,提交时,对数据库回滚段要求比较高,因为这部分数据是要存在数据库回滚段中的。当因数据量极大,不可能完成事务控制时,一般可在目标库,建立一个结构相同的目标临时表。每次执行时, Informatica技术解决方案27清空这张表,作业执行完,发出SQL去更改表名成真正的目标表或交换到表分区上。这样就不会因作业执行一半出错,而出现的数据不容易回滚删除的问题了。PowerCenter内置了Transacti

60、on Control组件,对装载数据按条件分组,进行事务控制。5)抽取的字段是否可以动态修改图形化的工具对于动态更改抽取字段,一般是采用变量或参数的方式,例如定义PowerCenter变量 $col_name,其抽取的SQL为:select $col_name, product_type from product_his,只要在参数文件中,定义此字段的具体名字即可。但需注意之处在于,因为是图形化的工具,变量对应的那个字段,需在数据类型上兼容才可。6)对抽取的环境变量配置情况利用Mapping级参数和变量:实现动态的SQL语句;关键转换指标可实现外部参数化控制利用Session级变量:实现 数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论