DataStage入门培训PPT课件.ppt_第1页
DataStage入门培训PPT课件.ppt_第2页
DataStage入门培训PPT课件.ppt_第3页
DataStage入门培训PPT课件.ppt_第4页
DataStage入门培训PPT课件.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataStage入门培训,讲师:邱明伟日期:2010-03-01东南融通版权所有,.,Agenda,DataStage介绍DataStage开发DataStage四个客户端的使用DataStage常用组件使用DataStage常用命令练习,DataStage介绍,.,AscentialPlatform,.,WhatisDataStage?,DesignjobsforExtraction,Transformation,andLoading(ETL)Idealtoolfordataintegrationprojectssuchas,datawarehouses,datamarts,andsystemmigrationsImport,export,create,andmanagedmetadataforusewithinjobsSchedule,run,andmonitorjobsallwithinDataStageAdministeryourDataStagedevelopmentandexecutionenvironments,DataStage开发,.,DataStageServerandClients,.,DataStageServerandClients,AdministratorAdministersDataStageprojectsandconductshousekeepingontheserverDesignerCreatesDataStagejobsthatarecompiledintoexecutableprogramsDirectorUsedtorunandmonitortheDataStagejobsManagerAllowsyoutoviewandeditthecontentsoftherepository,DataStageAdministrator,.,DataStageAdministrator,InDataStagealldevelopmentworkisdonewithinaproject.ProjectsarecreatedduringinstallationandafterinstallationusingAdministrator.Eachprojectisassociatedwithadirectory.Thedirectorystorestheobjects(jobs,metadata,customroutines,etc.)createdintheproject.Beforeyoucanworkinaprojectyoumustattachtoit(openit).YoucansetthedefaultpropertiesofaprojectusingDataStageAdministrator,.,DataStageAdministrator,UsetheAdministratortospecifygeneralserverdefaults,addanddeleteprojects,andtosetprojectproperties.UsetheAdministratorProjectPropertieswindowto:SetjobmonitoringlimitsandotherDirectordefaultsontheGeneraltab.SetusergroupprivilegesonthePermissionstab.Enableordisableserver-sidetracingontheTracingtab.SpecifyausernameandpasswordforschedulingjobsontheScheduletab.SpecifyhashedfilestagereadandwritecachesizesontheTunablestab,DataStageManager,.,DataStageManager,DataStageManagermanagestwodifferenttypesofobjects:Metadatadescribingsourcesandtargets:-CalledtabledefinitionsinManager.Thesearenottobeconfusedwithrelationaltables.DataStagetabledefinitionsareusedtodescribetheformatandcolumndefinitionsofanytypeofsource:sequential,relational,hashedfile,etc.-TabledefinitionscanbecreatedinManagerorDesignerandtheycanalsobeimportedfromthesourcesortargetstheydescribe.,.,DataStageManager,DataStagecomponents-EveryobjectinDataStage(jobs,routines,tabledefinitions,etc.)isstoredintheDataStagerepository.Manageristheinterfacetothisrepository.-DataStagecomponents,includingwholeprojects,canbeexportedfromandimportedintoManager.,.,DataStageManager,AnyobjectinManagercanbeexportedtoafileCanexportwholeprojectsUseforbackupSometimesusedforversioncontrolCanbeusedtomoveDataStageobjectsfromoneprojecttoanotherUsetoshareDataStagejobsandprojectswithotherdevelopers,.,DataStageManager,ImportProcedureInManager,click“ImportDataStageComponents”SelectDataStageobjectsforimport,.,DataStageManager,ExportProcedureInManager,click“ExportDataStageComponents”SelectDataStageobjectsforexportSpecifiedtypeofexport:DSX,XMLSpecifyfilepathonclientmachine,DataStageDirector,.,DataStageDirector,Canschedule,validating,andrunjobsCanbeinvokedfromDataStageManagerorDesignerClearjoblogSetDirectoroptionsRowlimitsAbortafterxwarnings,.,DirectorLogView,ClicktheLogbuttoninthetoolbartoviewthejoblog.Thejoblogrecordseventsthatoccurduringtheexecutionofajob.Theseeventsincludecontrolevents,suchasthestarting,finishing,andabortingofajob;informationalmessages;warningmessages;errormessages;andprogram-generatedmessages.,.,DataStageDirector,DataStageDesinger,.,WhatIsaJob?,ExecutableDataStageprogramCreatedinDataStageDesigner,butcanusecomponentsfromManagerBuiltusingagraphicaluserinterfaceCompilesintoOrchestrateshelllanguage(OSH),.,CreateNewJob,SeveraltypesofDataStagejobs:Parallelthiscoursewillconcentrateonparalleljobs.JobSequenceusedtocreatejobsthatcontrolexecutionofotherjobs.,.,CreateNewJob,.,ComponentsIntroduce,Sequentialfile功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件或IBM大机ebcdic文件。使用要点:按照命名规范命名点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等修改文件属性,文件名称,reject方式,.,Sequentialfile,.,Sequentialfile,修改文件格式,比如记录结束符是什么,字段分隔符,字符串是用什么区别等,.,Sequentialfile,.,Sequentialfile,输入此文件字段内容,.,Annotation,功能特点:一般用于注释,可利用其背景颜色在job中分颜色区别不同功能块,.,Annotation,.,CopyStage,功能说明:CopyStage可以有一个输入,多个输出。它可以在输出时改变字段的顺序,但是不能改变字段类型。,.,CopyStage,.,FilterStage,功能说明:FilterStage只有一个输入,可以有多个输出。根据不同的筛选条件,可以将数据输出到不同的outputlink,.,FilterStage,.,SortStage,功能说明:只能有一个输入及一个输出,按照指定的Key值进行排列。可以选择升序还是降序,是否去除重复的数据等等,.,SortStage,.,SortStage,Option具体说明:AllowDuplicates:是否去除重复数据。为False时,只选取一条数据,当StableSort为True时,选取第一条数据。当SortUnility为UNIX时此选项无效。SortUtility:选择排序时执行应用程序,可以选择DataStage内建的命令或者Unix的Sort命令OutputStatistics:是否输出排序统计信息到job日志StableSort:是否对数据进行二次整理,.,SortStage,CreateClusterKeyChangeColumn:是否为每条记录创建一个新的字段:clusterKeyChange。当SortKeyMode为DontSort(PreviouslySorted)或DontSort(PreviouslyGrouped)时,对于第一条记录该字段被设置为1,其余的记录设置为0。CreateKeyChangeColumn:是否为每一条记录创建一个新的字段KeyChange,.,RemoveDuplicatesStage,功能说明:输入根据关键字分好类的有序数据,去除所有记录中关键字重复的记录,通常与sortstage配合使用,.,RemoveDuplicatesStage,.,TansformerStage,功能说明:一个功能极为强大的Stage。有一个inputlink,多个outputlink,可以将字段进行转换,也可以通过条件来指定数据输出到那个outputlink。在开发过程中可以使用拖拽,.,TansformerStage,.,TansformerStage,Constraint及Derivation的区别:Constraint通过限定条件使符合条件的数据输出到这个outputlink。Derivation通过定义表达式来转换字段值。在Constraint及Derivation中可以使用Jobparameters及StageVariables。注意:TransformerStage功能强大,但在运行过程中是以牺牲速度为代价的。在只有简单的变换,拷贝等操作时,最好用ModifyStage,CopyStage,FilterStage等来替换TransformerStage,.,LookUpStage,功能说明:LookUpStage把数据读入内存执行查询操作,将匹配的字段输出,或者在在符合条件的记录中修改或加入新的字段。,.,LookUpStage,.,JoinStage,功能说明:将多个表连接后输出,.,AggregatorStage,功能说明:将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,最后将结果数据输出到其他的stage,.,AggregatorStage,.,AggregatorStage,.,ChangeCaptureStage,功能特点:ChangeCaptureStage有两个输入,分别标记为beforelink及afterlink。输出的数据表示beforelink和afterlink的区别,我们称作changeset。ChangeCaptureStage可以和ChangeApplyStage配合使用来计算afterset,.,ChangeCaptureStage,.,ChangeCaptureStage,key及value的说明key值是比较的关键值,value是当key值相同是作进一步比较用的。changemode选项说明:Allkeys,ExplicitValues需要指定value,其余字段为keyExplicitKeys&Valueskey及value都需要指定ExplicitKeys,AllValues需要指定key,其余的字段为value,.,FunnelStage,功能说明:将多个字段相同的数据文件合并为一个单独的文件输出,.,FunnelStage,.,FunnelStage,合并策略说明ContinuousFunnel:从每一个inputlink中循环取一条记录SortFunnel:按照Key值排序合并输出Sequence:先输出第一个inputlink的数据,输出完毕后再输出第二个inputlink的数据,依此类推,直到结束。(此时可以通过调整linkOrdering调整输出顺序),DataStage常用命令介绍,.,dsjob,执行Jobdsjob-run-mode指定状态,默认为NORMAL-param=指定参数运行,不指定使用默认值-warn限制warning的日志行数-rows限制日志行数-wait等待作业运行完-opmetadata产生metadata-disableprjhandler-disablejobhandler-jobstatus等待作业返回运行状态-userstatus等待作业返回用户定义的状态-local使用本地脚本调起job,环境变量使用脚本里面定义的环境变量。-useid是否使用jobid(使用dsjob-jobid定义别名),.,dsjob,停止Jobdsjob-stop-useid如果为作业定了了别名(使用dsjob-jobid),就使用-useid告诉系统后面跟的是作业的别名。列出全部工程dsjoblprojects列出project下的全部Jobdsjobljobsproject,.,dsjob,列出某个Job的实例调用情况dsjoblinvocationsprojectjob列出某个Job的所有stagedsjob-lstages-useid列出没个Stage的LINK信息dsjob-llink

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论