ETL关键技术标准规范_第1页
ETL关键技术标准规范_第2页
ETL关键技术标准规范_第3页
ETL关键技术标准规范_第4页
ETL关键技术标准规范_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL技术规范ETL设计规范ETL设计规范关键应用于ETL编码前期工作。因为ETL全过程是面向数据,关键工作为数据抽取(Extract)、转换(Transform)、装载(Loading),正确界定所包含到数据范围和应该应用转换逻辑对于后续编码工作很关键,这些数据关系确实定,我们称之为Mapping(数据映射)。正确定义数据映射关系是ETL成功实施前提,一个完善Mapping应该包含以下多个部分:源数据集属性此部分应该具体描述数据源相关属性,包含:实体名称——含数据起源名称(DSN)、全部者等信息;字段名称——英文名称;字段简述——汉字名称,如为参数信息应该有相关取值解释,如性别字段(1:男;2:女;0:不详)类型——字段类型,含长度和精度信息;非空属性——字段是否能够为空;目标数据集属性此部分应该具体描述目标数据集相关属性,包含:实体名称——含数据起源名称(DSN)、全部者等信息;字段名称——英文名称,提议依据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集人员控制);字段简述——汉字名称,对于保留字段应该给出默认值;类型——字段类型,含长度和精度信息;非空属性——字段是否能够为空;ETL规则关键描述ETL各个步骤转换规则,包含:数据源过滤规则——描述从源数据集获取数据过程中过滤掉统计规则;关联规则——当源数据集为多个时,描述相互之间关联关系;列转换规则——描述源数据集到目标数据集字段间转换规则;此规则很关键,要清楚描述字段间逻辑关系,包含业务逻辑;目标数据集更新规则——描述目标数据集更新策略,包含更新机制和更新频度,如“每日全量更新”、“每七天增量更新”等;ETL作业列表——因为ETL所开发作业之间包含一定业务逻辑和编码逻辑,所以调度过程中应遵照一定逻辑次序,此部分关键用来明确调度次序,包含:作业名称——实现Mapping作业名称,包含该作业功效描述;调度次序——用序号或是步骤图模式描述作业调度次序,需要综合考虑业务逻辑、编码逻辑和系统资源等多方面情况,在确保业务逻辑和编码逻辑基础上,经过控制调度,最大程度地合理利用系统资源;参数列表——列举每个作业中所使用参数,不一样作业中相同参数最好使用相同名称,便于调度时进行控制。ETL开发规范ETL项目标开发往往是多人团体开发模式,因为周期较长,期间难免会出现开发人员交替现象。不管是开发过程中人员交替还是从开发到系统运行之间转换,全部需要良好交接。为确保项目开发各个时期平稳过分及顺利交接,在开发过程中,应该遵照一定开发规范。关键包含:命名规范结构规范代码封装规范命名规范作业命名规范ETL是一个复杂工作,数据仓库建设通常会花费70%以上工作量在ETL上面,而且这是一个细致活,任何一点小错误全部有可能造成后续工作犯错和失败;另外,数据仓库需要不停更新维护,对应ETL程序也需要进行相关更新维护,所花费成本也很大。一个好命名规范,能够使ETL程序更清楚易懂,很好地避免了开发过程中犯错;同时愈加好可读性,也极大地减低了ETL程序更新维护成本。作业命名规则:[JOBTYPE][DESCRIPTION][SEQNUM]JOBTYPE:作业类型DESCRIPTION:有效描述信息SEQNUM:作业编号。因为一定原因,有可能需要拆分作业数据数次加载数据,这个编号就能够区分加载。假如一次加载能够成功话这个编号就不需要了。作业内部命名规范对于作业内部命名,应该遵照代码可读性和可传输性标准,命名规则:[Function][Description]Function:表示用途,Ex:抽取,Create:创建,Ld:装载,Lookup:查找等Description:有意义描述,比如数据库表名,文件名等。作业注释规范ETL开发过程往往要经历一个较长时间段,为了便于团体开发和后期维护,除开发设计文档要齐全外,还应该在作业设计界面中合适加注释信息,关键包含作业功效说明、所属模块、开发时间、开发人员等信息。结构规范作业目录组织结构对于ETLPROJECT而言,我们需要划分清楚目录结构,依据一定规则将作业组织起来,这么不管是对ETL设计人员,运行人员,维护人员,全部有很大帮助。目录结构划分遵照以下标准:表现作业依靠关系。表现作业功效。独立放置二次开发作业。模块化结构ETL根据处理逻辑分为E阶段(Extract)、T阶段(Transformer)和L阶段(Loading)。E、T、L阶段可能分处不一样服务器上,需要跨网络运行,她们之间配置情况可能存在较大差异,而多数ETL设计处理机制是串行运行机制,基于数据行处理。假如E、T、L过程同时运行,那么整体处理能力应该是三个步骤中效率最低那个步骤处理水平。假如我们将三个步骤设计分开,实施模块化步骤处理,即E步骤、T步骤、L步骤均设计成可独立运行模块,那么在整个处理过程中,将能够最大程度发挥功效,不会因为串性处理机制而相互制约。另外,模块化步骤设计,对于开发阶段调试和维护阶段犯错处理全部提供了良好辅助作用。ETL维护规范日志检验日志文件汇报ETL提供日志监测和汇报功效。汇报分汇总汇报和具体汇报。汇总汇报汇报内容:作业总数,WARNING作业数,成功作业数,失败作业数,开始时间,结束时间等具体汇报汇报内容:作业名称,开始时间,结束时间,运行状态等作业状态排查在ETL管理控制台上,可点击进入查看作业更为具体状态及犯错信息,方便于维护更正。犯错处理即使是经过严格测试程序,在实际运行中仍然会因为种种原所以造成犯错,依据ETL处理逻辑,我们将错误分为以下三类:抽取错误:简称E(Extract)类错误转换错误:简称T(Transformer)类错误装载错误:简称L(Loading)类错误E类错误这类错误发生在数据抽取阶段。诸如数据库连接故障、网络资源不足等原因全部能够造成这类故障。因为这类错误发生时,数据还处于原始状态,未发生转换,对目标数据集也未产生任何影响,理论上能够看做是ETL处理未开始,所以处理这类错误相对简单,只需要排除故障原因后重新运行ETL处理即可。T类错误这类错误发生在数据转换阶段。引发原因较多,现有环境资源故障可能,也有设计逻辑缺点可能。这类错误发生在ETL中间阶段,应依据实际故障原因进行处理。对于环境资源故障所引发错误,只需要排除故障原因,重新运行ETLT(Transformer)阶段和L(Loading)阶段即可。对于设计逻辑缺点所引发错误,处理相对复杂——首先要定位错误并修正程序,同时要明确该错误是否包含到数据源抽取逻辑,假如未包含到,则在修正逻辑后重新运行T(Transformer)阶段和L(Loading)阶段程序即可;若逻辑错误和数据源相关,则需要重新运行包含E(Extract)阶段在内整个ETL处理。L类错误这类错误发生在数据装载阶段,除环境资源故障原因外,最大可能性是需要装载到目标集数据违反了目标数据集数据约束,如主键反复、非空字段出现空值、数据超长、类型不匹配等等。因环境资源故障(网络故障等等)所引发犯错,处理简单,只需排除故障,将目标数据集恢复到装载前状态,重新运行L阶段处理即可。对于非环境资源所引发问题,处理和T类错误类似:先定位原因,依据以往经验,问题多数发生在T阶段,可能存在设计缺点或运行逻辑缺点,需要对T部分处理进行修正,并将目标数据集恢复到装载前状态,重新运行T阶段和L阶段处理。在上一章“设计规范”里,我们强调了模块化步骤设计,将E阶段、T阶段、L阶段按步骤分模块化设计,其实不仅仅是为了处理系统资源瓶颈问题,同时也是为了方便犯错时进行处理。在发生T类和L类错误时,因为各处理阶段设计相对独立,对于不一样阶段问题,只需要单独运行和该阶段相关处理,而无须将全部处理过程全部重新运行,大大减低反复运行代价。备份、恢复和版本控制ETL系统备份包含两个部分,即ETL运行环境备份及数据库备份。运行备份是指为确保假如运行ETL系统瓦解时能够经过备份ETL系统继续完成ETL工作,为达成这个目标,应安装两台ETL环境,并建立相同配置,其中一台处于运行状态,而另一台为待机状态。每日在日常ETL完成后对运行环境各文件进行备份,立即ETL运行目录转储到外挂磁盘或外部存放介质。而数据库数据备份对于ETL很关键,提议系统管理员每日做数据完全备份,天天保留一个备份文件,提议最少保留7天。ETL系统恢复对应也包含两个部分,即运行恢复及数据恢复运行恢复是指当运行系统碰到严重故障如硬件故障、操作系统瓦解等无法立即修复时,启用备份运行系统继续,经过将上一日备份ETL环境恢复到待机系统,然后开启待机系统运行日常ETL。数据库恢复通常两种情况下会用到,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论