ETL基础及常用技术培训PPT学习教案_第1页
ETL基础及常用技术培训PPT学习教案_第2页
ETL基础及常用技术培训PPT学习教案_第3页
ETL基础及常用技术培训PPT学习教案_第4页
ETL基础及常用技术培训PPT学习教案_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1ETL基础及常用技术培训基础及常用技术培训2nETL基本概念nETL常用逻辑架构nETL实施过程nETL常用技术(shell,oracle,datastage)第1页/共86页3 ET L(Extract-Transform-Load)即数据的抽取、转换与加载。ETL是从各种原始的业务系统(异构多源)中提取数据,按照预先设计好的规则将抽取到的数据进行转换,最后将转换完的数据按计划增量或全部导人到目标数据库,成为联机分析处理、数据挖掘的基础。 ETL为BI/DW的核心和灵魂. ETL就是一个批量数据加工的过程.第2页/共86页4第3页/共86页5n数据抽取n数据清洗与转换n数据加载 第4

2、页/共86页6数据抽取n确定所有数据源来源于哪些源系统,核心系统,信贷,信用卡等n定义数据接口对每个源文件及接口的每个字段进行详细说明n数据抽取方法主动抽取还是源系统提供文件,增量还是全量,每日还是每月第5页/共86页7数据清洗与转换n数据清洗 1.不完整的数据 2.错误的数据 3.重复的数据 n数据转换第6页/共86页8数据加载将数据缓冲区的数据直接加载到数据库对应的表中,如果是全量采用load方式,如果是增量则根据业务规则merge进数据库 第7页/共86页9第8页/共86页10第9页/共86页11第10页/共86页12第11页/共86页13第12页/共86页14第13页/共86页15第1

3、4页/共86页16第15页/共86页17第16页/共86页18第17页/共86页19第18页/共86页20第19页/共86页21第20页/共86页22第21页/共86页23第22页/共86页24第23页/共86页25第24页/共86页26第25页/共86页27nPlsql是一款优秀的操作oracle图形界面软件Sql window 可单条执行可单条执行sqlCommand window 可批量执行多条可批量执行多条sql第26页/共86页28第27页/共86页29第28页/共86页30第29页/共86页31第30页/共86页32第31页/共86页33第32页/共86页34第33页/共86页35

4、第34页/共86页36第35页/共86页37第36页/共86页38第37页/共86页39第38页/共86页40第39页/共86页41第40页/共86页42第41页/共86页43第42页/共86页44第43页/共86页45第44页/共86页46第45页/共86页47第46页/共86页48第47页/共86页49第48页/共86页50第49页/共86页51第50页/共86页52第51页/共86页53第52页/共86页54第53页/共86页55第54页/共86页56第55页/共86页57第56页/共86页58第57页/共86页59第58页/共86页60第59页/共86页61第60页/共86页62第61

5、页/共86页63第62页/共86页DataStage框架第63页/共86页65n客户端安装 client只能安装在windows系统上,详细安装步骤参见相关文档 n服务端安装第64页/共86页66nDataStage服务启动 在/home/dsadm/Ascential/DataStage/DSEngine/bin目录下 执行命令:uv admin start 执行ps ef|grep dsadm 查看dsrpcd 和JobMonApp这两个进程是否存在,若存在则启动成功 注意:如果不能启动,一般是由于还有dsadm启动的进程未被停掉,通过ps ef|grep dsadm,将所有dsadm启动

6、的进程全部kill掉,然后再启动。第65页/共86页DataStage客户端组件nDataStage Administrator主要功能: 新建工程,设置TimeOut时间,设置Project的属性,更新DataStage Server的License和本地Client的License第66页/共86页DataStage客户端组件nDataStage Administrator主要功能: 新建工程,设置TimeOut时间,设置Project的属性,更新DataStage Server的License和本地Client的License第67页/共86页DataStage客户端组件nDataSta

7、ge Director主要功能: 察看Job的状态,运行已经编译好的Job,将编译好的Job加入计划任务,监控Job的运行情况第68页/共86页DataStage客户端组件nDataStage Director主要功能: 察看Job的状态,运行已经编译好的Job,将编译好的Job加入计划任务,监控Job的运行情况第69页/共86页DataStage客户端组件nDataStage Director主要功能: 察看Job的状态,运行已经编译好的Job,将编译好的Job加入计划任务,监控Job的运行情况第70页/共86页DataStage客户端组件nDataStage Manager主要功能: 导入

8、导出Job及其它组件 第71页/共86页DataStage客户端组件nDataStage Manager主要功能: 导入导出Job及其它组件 第72页/共86页DataStage开发一个简单的ETL JOBn新建一个工程第73页/共86页DataStage开发一个简单的ETL JOBn用DataStage Designer登陆建好的工程第74页/共86页DataStage开发一个简单的ETL JOBn在DataStage Designer中新建一个job第75页/共86页DataStage开发一个简单的ETL JOBnCTRL+S保存命名job第76页/共86页DataStage开发一个简单的

9、ETL JOBn导入数据库的表结构第77页/共86页DataStage开发一个简单的ETL JOBn根据mapping设计开发job第78页/共86页DataStage开发一个简单的ETL JOBn开发job注意事项 1.对每个job注释说明功能,复杂的STAGE也最好有注释 2.每个STAGE都按标准命名 3.文件路径和数据库名、密码等都定义为参数,不要在job中写死。第79页/共86页DataStage Routines的使用DataStage支持两种函数对象:n 一是以.o为后缀的函数对象使用该文件类型时,每次修改了.o的文件,所有相关的DataStage作业需要重新编译;n 二是以.s

10、o为后缀的共享函数对象使用该文件类型时,每次修改.so文件,不需要重新编译相关的DataStage 作业编译.o的函数对象: /usr/vacpp/bin/xlC_r -O -c -qspill=32704 test.c编译.so的共享函数对象:注意:需要预先编译生成.o的函数对象 /usr/vacpp/bin/xlC_r -O -c -qspill=32704 test.c /usr/vacpp/bin/xlC_r -G -o libtest.so test.o 重点注意:生成.so的对象时,文件名必须以 lib为前缀!第80页/共86页设置并行Routine属性函数对象类型的routine

11、1:配置基本信息【General】界面内容规范或示例Routine NameCGTrimTypeExternal FunctionCategorytestObject typeObject (.o类型的函数对象)External subroutine NameCGTrimLibrary Path/crm/epm/Ascential/DataStage/DSEngine/lib/CGTrim.oReturn TypeChar *此处为CGTrim.o中的函数名称此处为函数对象文件所在路径及文件名此处为函数返回值类型注意:Routine Name不能重复第81页/共86页设置并行Routine属性

12、共享库类型的routine1:配置基本信息【General】界面内容规范或示例Routine NameCRC32StringTypeExternal FunctionCategoryExamplesSDB_RoutinesObject typeLibrary (.so类型的共享库)External subroutine Namecrc32_strLibrary Path/siebel/Ascential/DataStage/DSEngine/lib/libCGCRC32.soReturn TypeChar *此处为CGTrim.so中的函数名称此处为函数对象文件所在路径及文件名此处为函数返回值类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论