ECIFETL总体设计说明书V01 1209_第1页
ECIFETL总体设计说明书V01 1209_第2页
ECIFETL总体设计说明书V01 1209_第3页
ECIFETL总体设计说明书V01 1209_第4页
ECIFETL总体设计说明书V01 1209_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国大地中国大地财产财产保保险险股份有限公司股份有限公司 企企业级业级客客户户信息管理平台信息管理平台项项目(目(ecif) ) etl总总体体设计说设计说明明书书 文档修文档修订记录订记录表表 版本号版本号作者作者操作操作日期日期说说明明 目目 录录 第第 1 章章 引言引言.4 1.1 编写目的.4 1.2 预期读者.4 1.3 定义.4 1.4 参考资料.4 第第 2 章章 etl 设计设计目目标标和原和原则则.5 2.1 系统目标.5 2.2 数据目标.5 2.3 功能目标.5 2.4 设计原则.5 第第 3 章章 开开发发工具工具选择选择.6 3.1 开发工具比较.6 3.1.1et

2、l plus.6 3.1.2存储过程.6 3.1.3unix shell.7 3.2 开发工具选择结论.7 第第 4 章章 etl 开开发发流程流程设计设计.8 4.1 数据分析.8 4.2 开发流程.8 4.3 测试流程.10 4.4 上线流程.11 第第 5 章章 etl 总总体体设计设计.12 5.1 etl 总体逻辑架构.12 5.2 etl 关键任务设计.13 5.3 etl 调度控制设计.15 5.3.1实现目标.16 5.3.2触发动作.16 5.3.3检查运行环境.16 5.3.4执行作业.17 5.3.5调度配置.17 5.3.6日志记录.18 5.3.7系统参数.18 5.

3、4 etl 备份 作业类型:sqlload job、sp、可执行文件等; 所属作业组:该作业所属作业组; 触发作业:说明该作业完成后触发的后续作业。 作业启动时间:设定作业的启动时间,或根据设定的触发条件刻启动该作业 5.3.6日志日志记录记录 整个调度过程会记录每个任务执行的开始时间、结束时间、执行的状态等。同时要 求,每个任务依据情况详细记录其日志。 管理人员可通过日志监控整个 etl 调度的执行状态。 5.3.7系系统统参数参数 为了提高 etl job 的灵活性,需要设置一些公共的环境参数供 etl job 在运行过程 中动态使用,这些参数在运行过程中可以由运行人员根据实际的运行情况进

4、行调整。 以下是 jobparams.cfg 文件中的部分参数定义列表 参数名称 说明 workdate当前 etl 数据日期,格式 yyyymmdd etldat exf 文件的存放目录 dbname 目标库的数据库名 dbusr 目标库用户 id dbpwd 目标库用户密码 5.4etl 备备份份&恢复恢复设计设计 5.4.1 程序程序备备份份 手工定期进行程序备份、数据库存储过程备份、sqlload project 备份 5.4.2 数据文件数据文件备备份份 源系统抽取后的数据接口文件保留前三次的接口文件备份。超过三次以前的接口 文件手工删除或手工备份到磁带。 5.4.3 日志文件日志文

5、件备备份份 手工定期进行日志文件备份 5.5etl 测试设计测试设计 5.5.1 etl 功能功能测试测试 5.5.1.1 模模块块功能功能 功能模块功能子模块测试指标测试方法 源文件监控与 检核 文件是否正常 是否遗漏文件 记录数及文件大小是 否符合 可在较小的时间窗口内轮 询,分批放入测试文件 etl 数据处理 数据清洗清洗是否成功 是否有干净数据被清 洗 性能是否满足要求 针对不同清洗规则,选择若 干数据文件进行测试 etl 监控文件监控是否有遗漏文件未监 控 作业监控能否正确捕捉作业的 执行状态,统计信息是 否正确 资源监控资源是否能有效获取 数据库监控数据库信息是否能有 效获取 5.

6、5.1.2 调调度功能度功能 测试内容测试指标测试方法 etl 调度是否正确执行调度任务,参数 传递是否正确,job 是否按照预 定顺序执行,调度序列是否正 确。作业之间的依赖关系是否 正确 5.5.2 数据准确性数据准确性测试测试 5.5.2.1 准确性准确性测试测试的原的原则则 模型对数据处理的要求,体现在 mapping 文档中,应当依据 mapping 文档对处理 的诠释,进行数据准确性测试 需制定完整的指标检核体系,应当依据这套检核指标体系进行数据准确性测试 5.5.2.2 准确性准确性测试测试的方法的方法 数据准确性主要由用户测试进行保证,用户测试的方法请参考用户测试相关文档 5.

7、5.3 性能性能测试测试 5.5.3.1 测试测试方法方法 统计各作业的运行时间,调整作业依赖关系及串并行关系 监控主机资源、数据库资源利用状况 5.5.3.2 调优调优原原则则 充分利用主机资源 调整数据库参数配置 调整 sqlload job 开发逻辑 调整 sp 开发逻辑 章 6 章 etl 开开发规发规范范 6.1etl 程序开程序开发规发规范范 为了提高 etl 的开发质量,降低开发周期,增强代码的可重用性和易读性,使程 序便于维护,开发人员间便于交流和协作,需指定 etl 的开发规范,在本项目中包含 etl plus、oracle pl/sql、shell 三种开发规范,请参看相应

8、文档。 6.2目目录录及及权权限定限定义规义规范范 开发、测试环境的目录如下: 目目录录说说明明 /ecifetl ecif 项目 etl 根目录 /ecifetl/ dat/workdate 存放 etl 过程生成的 dat 文件 /ecifetl/tmp 存放 etl 过程生成的临时文件 /ecifetl/script存放 script 程序 /ecifetl/para存放参数配置文件 /ecifetl/log存放日志文件 数据库用户及权限安排如下: 用用户户权权限限 ecif_own 接口库和集市库所有者 ecif_etl 接口库和集市库读写权限,主要供 etl 过程使用 ecif_dm 集市库读写权限,主要供分析过程使用 ecif_qry 接口库和集市库只读读权限,供普通用户查询用 6.3文件格式定文件格式定义规义规范范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论