DW DataStage ETL 培训_DataStage介绍_第1页
DW DataStage ETL 培训_DataStage介绍_第2页
DW DataStage ETL 培训_DataStage介绍_第3页
DW DataStage ETL 培训_DataStage介绍_第4页
DW DataStage ETL 培训_DataStage介绍_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DWDataStageETL培训_DataStage介绍v1.0广州赛意科技有限公司深圳项目部1.DataStage介绍WebsphereDataStage是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。DataStage能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,SQLServer等ERP系统:

2、SAP/R3,PeopleSoft系统等普通文件和复杂文件系统,FTP文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统DataStage可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且Data

3、Stage提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。使用DataStage可以进行:1、设计JOB用来抽取、整合、聚合、加载和转换数据仓库或数据集市中的数据。2、创建和重用元数据和JOB的构成。3、创建、设计、开发、运行、调度以及监控JOB。4、管理DataStage的运行环境。2.工作原理DataStage使用了Client-server架构,如下所示。Client-MierasoftWindowsNT/2000ZXPDesignerDnctorAtkninishitarkfanagerServer一UNIX軒厲Solaris,TRU64,HP-UX,Linux);Windo

4、ws(comingsoon)图一、DataState企业版Client-Server架构如图一所示,DataSage的服务器组件运行在一系列的流行服务器上,如Unix、Windows等。3.组件介绍用户通过四个客户端工具实现DataStage的开发、配置和维护功能。这些工具包括:3.1Administrator第一步:登陆Adminstrator第二步:选择Project回区GeneralSIEDEVDataStageAdinistration-6l/uOI/dsadm/Ascential/DataStage/Projects/SIE-DEV击按钮进入ject的属性配置一PropertiesI

5、US.|匚口珂日nd|Projectpathn日me:Rojects第三步:进入Project的属性配置Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工程以及配置用户权限、环境参数等基本设置。使用Adminstrator的“ProjectProperties工程属性的窗口,可以进行:1、在“General”页框中,设置Job监控的一些限制信息和Direct中的其它信息。定义环境(工程)参数:在General”页框中,点击“Environment”按钮即可进入界面,一般是在“UserDefined”类别定义数据库名称、用户名称、口令以及ETL文件路径等参数

6、。2、在“Permission页框中,设置并分配开发人员组的权限。3、在“Tracing”页框中,设置或取消服务端进行跟踪。4、在“Schedule”页框中,设置调度时运行Job所用到的用户名和口令。5、在“Tunables”页框中,指定Hash文件Stage的读写的缓存大小。另外,在Adminstrator中还可以设置常用服务器的默认值:1、改变License信息:2、设置服务器端连接超时时间3、3.2DesignerDesigner:创建、设计、开发DataStage应用程序,包括Job、JobSequencer等,以及编译、运行这些DS应用程序。第一步:登陆Designer第二步:选择P

7、roject奄AttachtoProjectHostsystem:|172.10.1S.26Username:I-OmitgmquanPassword:*料第三步:进入Designer中间偏右是Designer的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面。左边是Repository窗口,显示的是Manger中的分支。Manger中的分支,就像Jobs和表定义一样可以直接拖曳到设计区域。点击View-Repository来显示Repository窗口。点击View-PropertyBrowser来显示Job属性窗口。Designer的工具栏:1冏格对齐ft18*1pH口、

8、I鴉显示莽買議.注释、结曲加载标圭电直打开Job性Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。Designer的功能:1、指定数据如何抽取。2、制定数据的转换规则和进行转换。3、使用参考性质的Lookup到数据集市中编辑数据。例如,如果销售的记录集包括Customer_ID,可以在Customer_Master表中使用Lookup查找到Customer名称。当需要连接数据集市并使用查询,可以快速的进行访问。4、对数据进行整合和聚合。5、在定义的约束条件中将基础数据分割成为多个输出的连接。Job类型:ParallelJob:这是最常用的Job类型,适用于DataS

9、tage的EE版本,它运行于安装了SMP、MPP等系统的服务器上,最大特点是在Job内部可以并行处理数据。ServerJob:适用于DataStage的SE版本,它与ParallelJob最大的区别是在Job内部不能并行处理数据,只能串行,这就使到它在处理大数据量ETL时的效率远远低于ParallelJob。MainFrameJob:大型机Job,它只适用于企业MVS版本。另外,除了上面几种类型的Job,DataStage还提供了两个实体给开发人员提高开发效率和设置Job的运行顺序:1)SharedContainer:共享容器,它有一系列的Stage和Link组成,在同一个Project里,它

10、可以被不同的Job重用,类似于PL/SQL里的函数。与SharedContainer相对应的,DataStage还提供了LocalContainer,它只能在一个Job里使用,不能跨Job重用。根据Job类型的不同,它分为ParalledSharedContainer和ServerSharedContainer。2)JobSequence:Job序列,它可以圭寸装了多个Job,配置各个Job的调度顺序,以及指定前置Job运行失败或成功后的动作等。在Tools菜单中可以轻松的于Director、Designer和Manger之间切换。Manager:3.3Manager用来维护DataStage

11、的元数据,包括Job、表定义等,以及元数据的导入和导出。在Designer的Tool菜单下选择Manager即可快速进入Manager界面:使用DataStage中的Manager来管理Job的元数据,使之可以在DataStage中的Designer中重用。元数据包括表单和文件结构和导出数据的Routines的转换等。Manager是DataStage存储的一个重要部分,可以用来加入表单和文件的结构,在左侧的分支树中显示Rountines、Transforms和Jobs。自定义的Routines和Transforms也在DataStage中的Manager里创建。3.4Director用来校验

12、、调度、运行以及监控)ataStage应用程序。在Designer的Tool菜单下选择Director即可快速进入Director界面ProjectViewSearchJobToolsHelpusaitw写a11ISQgmquanaHESHAOLINJnhLinHuiMingQiuzhilong0Base.JobnamePJob_1PJob_11PJob_1254渊删博PJob_3|Status|StartedFinished(seelog)03:28NotcompiledNotcompiledFinished(seelog)Notcompiled05:25|Ondate|Lastran2006-11-3003:282006-11-3005:25|Ondate|Elapsedtime|Description2006-11-3000:00:03Author:高棉泉Date:Func:Author:高棉泉Date:Func:Author:高彳$索Date:Func:STG-ODSDIR2006-11-3000:00:04Author:高棉泉Date:Func:生成在库库存Author:高福寂Date:Func:生成在库库呑DataStageDirector-6SIE_DEVSCetlti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论