总公司KPI项目ETL认知培训.ppt_第1页
总公司KPI项目ETL认知培训.ppt_第2页
总公司KPI项目ETL认知培训.ppt_第3页
总公司KPI项目ETL认知培训.ppt_第4页
总公司KPI项目ETL认知培训.ppt_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

etl extracttransformload 宜昌艾福斯软件公司主讲 张超 内容 etl基础etl概述etl体系结构etl实现步骤owb基础概述基本概念 基本元素owb功能简介源目标对象定义etl设计数据质量管理etl部署和执行元数据管理案例followme总结 etl概述 etl概述 etl extract transform load的缩写 即数据抽取 转换 装载的过程 是bi dw businessintelligence 的核心和灵魂 能够按照统一的规则集成并提高数据的价值是负责完成数据从数据源向目标数据仓库转化的过程是实施数据仓库的重要步骤 etl体系结构 etl体系结构 designmanager提供一个图形化的映射环境 让开发者定义从源到目标的映射关系 转换 处理流程 设计过程的各对象的逻辑定义存储在一个元数据资料库中 metadatamanagement提供一个关于etl设计和运行处理等相关定义 管理信息的元数据资料库 etl引擎在运行时和其它应用都可参考此资料库中的元数据 extract通过接口提取源数据 例如 odbc 专用数据库接口和平面文件提取器 并参照元数据来决定数据的提取及其提取方式 etl体系结构 transform开发者将提取的数据 按照业务需要转换为目标数据结构 并实现汇总 load加载经转换和汇总的数据到目标数据仓库中 可实现sql或批量加载 transportservices利用网络协议或文件协议 在源和目标系统之间移动数据 利用内存在etl处理的各组件中移动数据 administrationandoperation可让管理员基于事件和时间进行调度 运行 监测etl作业 管理错误信息 从失败中恢复和调节从源系统的输出 etl基本步骤 etl基本步骤 ods区的数据采集数据转换 清洗数据加载汇总层 cube加载 etl基本步骤 etl基本步骤 第一步 ods operationaldatastore 操作型数据存储 区的数据采集主要作用 为了尽量减少对业务系统的影响 表结构可以不必和dw一致 根据具体业务需求和数据量情况 将数据源的数据放入ods有各种不同的方法 比如oracle的数据库链路 表复制 sql loader teradata的fastload sysbase的bcp等等 讨论 etl基本步骤 需要解决的问题数据的时间差异性问题数据的平台多样性问题数据的不稳定性问题数据的依赖性问题 etl基本步骤 第二步 数据转换和清洗将ods中的数据 按照数据仓库中数据存储结构进行合理的转换 转换步骤一般还要包含数据清洗的过程 数据清洗主要是针对源数据库中出现二义性 重复 不完整 违反业务或逻辑规则等问题的数据数据进行统一的处理 一般包括如 null值处理 日期格式转换 数据类型转换等等 在清洗之前需要进行数据质量分析 以找出存在问题的数据 否则数据清洗将无从谈起 数据装载是通过装载工具或自行编写的sql程序将抽取 转换后的结果数据加载到目标数据库中 etl基本步骤 数据质量问题 etl基本步骤 数据仓库中数据质量要求 包括格式 完整性要求 业务描述统一 对数据模型的不同版本融合 映射为唯一版本 信息描述规范 完整 etl基本步骤 主要数据质量问题的清洗策略主要问题表现形式产生原因清洗策略 讨论 主要数据质量问题的清洗策略数据完整性问题超出字典表范围数据一致性问题录入 同步的问题 etl基本步骤 第三步 数据加载将转换和清洗完的数据按照数据仓库的结构进行数据加载 etl基本步骤 针对数据现状 初始导入需要考虑的问题如何解决时间差异性 如何解决平台差异性 如何适应数据的不稳定性 如何解决数据依赖性 etl基本步骤 数据刷新的策略要根据业务需求和应用系统的承受能力和数据情况决定 主要需要考虑的一些问题 如何解决时间差异性 如何解决平台差异性 如何适应数据的不稳定性 如何解决数据依赖性 如何减少对业务系统的影响 etl基本步骤 不同的刷新任务类型 对业务系统的影响不同 刷新任务有以下种归类特性 刷新频率刷新方式数据加工方式并可针对各种异常情况做处理 回滚 重新装载 断点重新装载等等 还可在任务完成后 或失败后 将日志以email方式发给数据仓库管理人员 etl基本步骤 第四步 汇总层和cube加载ods加载进入数据仓库的数据只是底层详细层数据 还需按定义的汇总规则进行汇总 生成数据集市用的汇总表或cube etl流程是指完成每个维表数据及事实表数据导入的顺序 其包括两个部分 初始导入数据时的etl流程 及增量导入时的etl流程 etl基本步骤 初始导入数据时的etl流程自动生成维的数据装载手工维护维度装载缓慢变化维表数据装载事实表数据装载聚合表初始生成 etl基本步骤 增量导入缓慢变化维表数据装载事实表数据装载阶段数据汇总和聚合作业调度和异常情况处理 etl基本步骤 第五步 任务调度策略驱动策略前导job驱动 只有满足另外一个job成功后 自己才运行 文件驱动 当下传的文件到达 并经过检验准确后job才运行 时间驱动 当到达某个时点时 job便开始运行 事件驱动 如人工参与 导致job执行 通知设计 重要信息 成功 失败 的通知 etl基本步骤 成功退出分段提交方式 当分段提交的当次任务都正确完成 即job运行状态临时表中登记的作业状态全部为完成时 退出etl调度 自动提交方式 当当期所有的任务都正确完成 即job运行状态表中登记的作业状态全部为完成时 退出etl调度 etl基本步骤 失败退出关键作业异常 关键作业运行异常时 影响剩下的作业不能运行时 则退出etl调度 超过etl时限 当超过预先设定的etl 时限时 退出etl调度 数据库异常 当不能正常操作数据库时 退出etl调度 操作系统异常 当发生操作系统异常 导致程序不能正常运行 如文件系统异常导致读写文件错时 需要退出etl调度 etl基本步骤 手工退出需要人为干预etl调度的时候 能以手工操作的方式退出etl调度 etl工具 owbinformaticadatastage微软dts等等 阶段总结 阶段总结 为了能更好地实现etl 建议用户在实施etl过程中应注意以下几点 如果条件允许 可利用数据中转区对运营数据进行预处理 保证集成与加载的高效性如果etl的过程是主动 拉取 而不是从内部 推送 其可控性将大为增强etl之前应制定流程化的配置管理和标准协议关键数据标准至关重要 owb简介 owb概述 oraclewarehousebuilder是一个简单而又全面的数据管理工具 能够管理数据的各个方面 它提供了数据质量管理 数据审计 全面集成了关系模型和维度模型 并提供了数据和元数据的全生命周期管理 支持的数据集成和管理内容包括 从现有系统中迁移数据从异构数据源集成数据设计和管理企业所有的元数据清洗数据并提供质量报告提供标准的提取 移动和装载 etl 基本概念 基本元素 基本概念 基本元素 一 datawarehouse 数据仓库 repository 知识库或资料档案库 基本概念 基本元素 二 project 项目 module 模块 数据库存储 源 目标 文件存储其他对象集 进程 计划等等location 位置 object 对象 关系数据对象 表 索引 物化视图 分区等维度数据对象 dimension维 cube立方其他对象 映射 进程流 调度等等 基本概念 基本元素 三 map 映射 etljob 作业 calender 计划 schedule 调度 profile 数据概要文件 processflow 进程流 源目标对象定义 源目标对象定义 定义oracle数据对象定义维度对象定义平面文件和外部表定义商业智能对象导入数据定义将owb元数据与其他bi产品集成由第三方应用或工具导入数据数据对象验证 etl设计 etl设计 创建映射oraclewarehousebuilder数据转换设计进程流保证数据质量理解性能和高级etl概念支持复杂映射控制提交方式工作流分区加载 pel 数据质量管理 数据质量管理 进行数据分析查看分析报告自动生成数据规则更正模式和清洗数据使用数据规则配置数据分析流程使用数据审计支持sixsigma etl部署和执行 etl部署 创建目标位置在designcenter项目浏览器中部署打开controlcenter管理器在控制中心管理器中部署查看部署结果部署到其他位置 etl执行 执行etl进程调度etl作业使用sql脚本管理作业在sql plus中执行作业在oracleenterprisemanager中调度作业管理控制中心 元数据管理 元数据管理 管理元数据依赖关系 沿袭和效果 管理元数据变更使用metadataloader mdl 导入 导出 案例followme 案例 一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论