




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DataServices培训总结-操作手册目录一、DS简介二、DS数据力口载方式 三、DS进行数据抽取模型开发的基本过程 四、DS创建数据源系统和目标系统的数据存储 1、Oracle数据库作为数据源系统 2、ECC乍为数据源系统3、HAN徽据库作为目标系统 五、全量力口载过程 1、仓U建 Project 和 Job2、导入源表的元数据到资源库 3、创建 Data Flow 4、设置源表和目标表 5、手工执行 Job六、基于表比较的增量加载 1、在Job下定义工作流 2、在工作流中定义数据流 3、力口入 Table Comparison 控件4、设置 Table Comparison 控件七、基
2、于时间戳的增量加载 1、在Job下定义工作流 2、定义Script控件3、定义处理新增数据的数据流和处理更新数据的数据流.八、DS中常用控件介绍1、Key Generation 2、Case3、Merge4、Validation 5、设置过滤器和断点 九、定义 Job 定期执行 1、登录 Data Services Management Console 2、定义 Batch Job Schedules 十、其他注意事项一、DS简介SAP BusinessObjects Data Services 是通过 SAP HANAI证的 ETL工具。 采用数据批量处理的方式,定期执行后台作业,将数据从多
3、个业务系统中抽取出来,并进行必要的处理(转换,合并,过滤,清洗) ,然后再加载到HAN徽据库中。DS的组件之间的关系:Management Consol :管理控制台是网页版DS管理工具,可以进行一些系统配置和定义Job执行Designer :Designer是一个具有易于使用的图形用户界面的开发工具。它允许开发人员定义包括数据映射,转换和控制逻辑的数据管理应用程序,创建包含工作流(作业执行定义)和数据流(数据转换定义)的应用程序Repository :应用程序设计器使用的本地资源库用来存储Data Services 对象(如项目,作业,工作流,和数据流)的定义和源和目标的元数据Job ser
4、ver :作业服务器启动数据移动的从多个不同种类的源集成数据的引擎,执行复杂的数据转换,并管理从ERP系统和其他源的抽取和事务2、 DS 数据加载方式全量加载增量上载a) 基于表比较作业在执行时读取数据源和目标中的全部数据,在服务器的内存中进行比较,计算数据差异b) 时间戳增量需要在数据源中添加时间戳字段,一般为创建时间和最后修改时间,在抽取作业中定义对两个时间戳字段进行对比,符合条件的创建时间条目进行插入,符合条件的修改时间条目进行更新c) 利用数据库CDC( changed data capture )首先需要开启数据库的 CDC服务,为数据库实例启用 CDC功能,为源表启用CDC功能。在
5、这种模式下,DS的增量更新不再直接访问源表,而是在与源表相关的变更记录表中读取增量3、 DS 进行数据抽取模型开发的基本过程为数据源创建数据存储导入源表的元数据到资源库为SAP HANAB标系统创建数据存储新建DS项目和批量作业新 建 DS 数 据 流 : 定 义 源 表 和 目 标 表 , 定 义 变 量 、 编 辑 Query 和Map_CDC_Operation执行批量作业4、 DS 创建数据源系统和目标系统的数据存储1、 Oracle 数据库作为数据源系统登录Data Services Designer ,在本地对象库的数据存储页签中单击鼠标右键,选择新建菜单创建数据存储"
6、EAM_TEST在弹出的对话框中输入 EAM据库的连接信息2、ECC作为数据源系统同样在创建 DataStore时,输入ECC勺连接信息3、HAN徽据库作为目标系统在创建DataStore时,输入HAN徽据库的连接信息五、全量加载过程1、创建Project 和 Job在本地对象库的project 页签中单击鼠标右键,选择新建菜单,创建项目 “ ERP_D”S。双击该项目,在“Project Area ”,可以在该项目下创建Job2、导入源表的元数据到资源库在本地对象库的数据存储页签中,选择源系统的数据存储,单击鼠标邮件,选择“Import By Name",输入需要导入到资源库的表名
7、称。导入成功后,在数据存储的 table 目录下可以看到导入的表3、创建Data Flow单击 “ General ” Job, 在右边空白区域单击鼠标邮件,选择 “ Add New” -“ Data Flow”4、设置源表和目标表单击创建的Data Flow ,将需要导入到 HANA据库中的源表拖入到 Data Flow区域中,将Data Flow 区域右侧的工具条中的模版表拖入Data Flow 区域创建模版表输入模版表名称、HANA目标系统的数据存储、HAN峨据库存放DS抽取数据表的用户名。连接源表和目标表双击模版表,设置“Options ”中的“Use NVARCHAR for VAR
8、CHA” R5、手工执行Job选才Jo Job,单击鼠标右键,选择“ Execute”执行成功之后,在 HAN徽据库中的ERPDSUSER可以看到“ T161T',可以查看数 据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1、在Job 下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表,执行 Job, 执行成功之后,在目标系统数据存储的Template Table 目录下可以看到创建的模版表3、加入Table_Comparison 控件选择模版表,单击鼠标邮件,选择“Import Table ”。模版表会更新为Tables 目录下的数据表。通过将
9、转换- 数据集成中的“Table_Comparison ”控件拖入到数据流中的方式添加“ Table_Comparison ”控件将源表连接“Table_Comparison ”控件, “ Table_Comparison ”控件连接目标表。4、设置Table_Comparison 控件双击“ Table_Comparison ”控件,设置相关参数:比较的目标表、表的主键,需要比较的字段。当需要比较的字段为空时,会比较所有字段。建议按照需要填写需要比较的字段,可以加快处理速度。保存后执行Job。七、基于时间戳的增量加载1、在Job 下定义工作流在工作流中定义Script 控件,读取数据抽取后最
10、新的创建时间和更改时间,定义一个处理新增数据的数据流和一个处理更新数据的数据流2、定义Script 控件在 Script 控件中需要使用变量存放读取的最新的创建时间和最新的更改时间。选择Job,在工具栏选择“ Variables ”按钮,创建全局变量双击“Script ”控件,编写SQL语句,从HAN徽据库表中读取最新的创建时间和更改时间3、定义处理新增数据的数据流和处理更新数据的数据流双击“EBAN_NeW数据流,加载源表,Query, Map_CDC_Operation控件和目标表双击Query, 在输出字段中增加“ Sequence” 和 “ Operation ”两个字段。“ Sequ
11、ence”字段使用函数gen_row_num()进行赋值,“Operation ”赋值为 I '在Quey中设置Where条件双击 Map_CDC_Operation控件,设置 CDC Columns同样的方式定义“ EBAN_Upd数据流,在Query的where条件中定义为在 Query 的数据结果中增加“ Sequence” 和 “ Operation ” 两个字段。“ Sequence”字段使用函数gen_row_num()进行赋值,“Operation "赋值为U'保存后,执行Job。可以通过修改源系统数据测试基于时间戳的增量加载。八、DS 中常用控件介绍1
12、、 Key_Generation在源表基础上为目标表重新生成主键在Query中增加“ ID”字段,赋值为0。在 Key_Generation 控件中设置目标表、主键字段、主键值增加量2、 Case将源表根据规则进行拆分双击 Case 控件,设置拆分条件当 SOURCE = 1时,输出 SPFLI_1,当 SOURCE =2寸,率出 SPFLI_23、 Merge将具有同样数据结构的源表进行合并Source,在Query中增加输出字段Source,赋值为1。在Queryl中增加输出字段 赋值为2。在Merge中将两个表的内容合并输出。4、 Validation提取数据源表中的正确数据,将错误数据
13、单独存放在其他表中双击 Validation 控件,设置“Validation Rule ”5、设置过滤器和断点过滤器和断点结合使用,用于设置Debug的条件选择源表到目标表的连接线,单击鼠标右键,选择Set Filter/Breakpoint ,设置Debug条件(当满足某种条件时进入断点,或者在满足过滤条件的同时执行多少条数据后时进入断点)选择Job,单击鼠标右键,选择 Start debug工具栏上的按钮可以控制执行下一条数据、继续执行、终止DebugDebug过程中进入断点后,可以一次查看数据加载结果九、定义Job 定期执行1、登录Data Services Management Co
14、nsole单击工具栏的“Data Services Management Console ”按钮进入 Data Services Management Console 的登录界面单击进入Administrator 界面2、定义Batch Job Schedules在 Batch Job Configuration 页签选择Add Schedules进入批量执行Job 的设置界面可以设置每周的某一天执行(一周执行一次)或则每月的某一天执行(一个月执行一次) ,也可以设置为每天都执行。都选“Recurring ”则会定期循环执行,否则只执行一次。可以设置一天执行一次,也可以一天执行多次,设置开始执
15、行时间。上图中如果设置为一天多次执行,开始时间为上午1 点,持续时间为600 分钟,间隔时间为360 分钟,则Job 会在一天的上午1 点和上午6 点各执行一次。如果设置时间间隔为240 分钟,则Job 会在一天的上午1 点、上午5 点和上午9 点各执行一次。(总持续时间不超过10 小时) 。十、其他注意事项1、客户端安装包需要注意和服务器 DS版本一致2、在第一次登录 CMS言息时,无法成功。ping sapdstest 也失败,需要在 host 文件中添加对应的地址和域名3、 连接 Oracle 数据库作为数据源时,需要在客户端上安装Oracle 客户端, 设置tnsname.ora文件,设置环境变量ORACLE_HOMEW重启服务器;连接HAN徽据库时,需要安装 HAN喈户端4、在连接ECC作为数据源时,需要开启系统跨客户端编辑权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国方锤T型组合市场调查研究报告
- 2025年中国数码多媒体音箱市场调查研究报告
- 2025-2030年中国井控装置行业市场发展态势及投资潜力研究报告
- 肇庆市实验中学高中生物一:细胞的多样性和统一性习题课
- 肇庆市实验中学高中生物:第六章细胞生命历程及减数分裂测试卷评讲(第2课时)教案
- 新疆司法警官职业学院《计算方法(Ⅱ)》2023-2024学年第二学期期末试卷
- 2025年中国自动崩解时限检查仪数据监测研究报告
- 新疆伊宁市第七中学2025年初三下-第三次月考数学试题试卷含解析
- 信阳学院《普通教育学》2023-2024学年第二学期期末试卷
- 2025至2031年中国禁止左转弯太阳能禁令标志行业投资前景及策略咨询研究报告
- 动火作业安全检查表
- 餐饮督导培训课件
- 九年级化学(第八单元 金属和金属材料)8.1 金属材料(人教版 学习、上课课件)
- 耐高温材料研究
- 临床研究数据的合理解读与报告撰写
- 压力容器使用单位压力容器安全日管控、周排查、月调度制度+记录
- 自愿赠与10万协议书范本
- 高中语文说课评价表
- 橡胶止水带施工工艺及质量验收
- 单位车辆领取免检标志委托书范本
- 投资项目敏感性分析模型模板
评论
0/150
提交评论