




已阅读5页,还剩71页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章数据仓库中的ETL和元数据 1 基本概念 ETL Extract Transform Loading 是数据从业务系统抽取转化到数据仓库的过程Metadata可以理解成Dataaboutdata 关于数据的数据 数据仓库的整合性是基于元数据的统一 2 第三章数据仓库中的ETL和元数据 ETL元数据外部数据 3 前端开发 ETL开发 需求 建模 数据仓库项目三部曲 数据仓库项目的三部曲 第三章数据仓库中的ETL和元数据 4 ETL作用 需求企业管理者希望按需访问存储各种格式的企业内部和企业外部数据 经营数据 历史数据 现行数据 Internet数据 元数据矛盾数据来源不同大量 分散 不清洁数据的分析 挖掘活动必须建立在一个数据清洁 结构良好的数据仓库基础之上 5 ETL作用 解决数据分散问题解决数据不清洁问题方便企业各部门构筑数据集市 6 ETL ETL的概念关键名词过程描述实现办法ETL的工具 7 8 ETL的概念 数据ETL是用来实现异构数据源的数据集成 即完成数据的抓取 抽取 Capture Extract 清洗 Scrubordatacleansing 转换 Transform 装载与索引 LoadandIndex 等数据调和工作 ETL的关键名词 数据抽取 只提取系统分析必需的那一部分数据数据清洗将错误的 不一致的数据在进入数据仓库之前予以更正或删除 以免影响决策支持系统决策的正确性数据转化业务系统使用不同数据库上的产品 各种产品提供的数据类型不同 数据格式不同数据装载将数据按照物理数据模型定义的表结构装入数据仓库 这些步骤包括清空数据域 填充空格 有效性检查等 9 10 数据的ETL过程描述 数据抽取 准备工作 数据是从几个业务系统中来 各个业务系统的数据库服务器运行什么DBMS 是否存在手工数据 手工数据量有多大 是否存在非结构化的数据 11 与存放DW的数据库系统相同的数据源 设计上比较容易一般情况下 DBMS SQLServer Oracle 都会提供数据库链接功能在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问 12 与DW数据库系统不同的数据源 一般情况下可以通过ODBC的方式建立数据库链接如SQLServer和Oracle之间如果不能建立数据库链接一种是通过工具将源数据导出成 txt或者是 xls文件 然后再将这些源系统文件导入到ODS中 另外一种方法是通过程序接口来完成 13 数据源抽取对象表 14 数据源抽取规则表 15 数据抽取的目标列与源列对应关系表 16 文件类型数据源 txt xls 人工实现 利用数据库工具将这些数据导入到指定的数据库 然后从指定的数据库中抽取工具实现 如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去 ODS OperationalDataStore 是数据仓库体系结构中的一个可选部分 ODS具备数据仓库的部分特征和OLTP系统的部分特征 它是 面向主题的 集成的 当前或接近当前的 不断变化的 数据 一般在带有ODS的系统体系结构中 ODS都设计为如下几个作用 在业务系统和数据仓库之间形成一个隔离层转移一部分业务系统细节查询的功能完成数据仓库中不能完成的一些功能 17 捕获数据的方法 完全刷新对移入DW的数据进行完全复制经常变化增量更新捕获数据源中修改的数据流水型增长 数据量大 18 捕获数据的方法 完全刷新对移入DW的数据进行完全复制经常变化增量更新捕获数据源中修改的数据流水型增长 数据量大对两者结合的数据先考虑增量更新 再考虑完全刷新 19 增量更新的问题 一般情况下 业务系统会记录业务发生的时间 我们可以用来做增量的标志 每次抽取之前首先判断ODS中记录最大的时间 然后根据这个时间去业务系统取大于这个时间所有的记录 利用业务系统的时间戳 一般情况下 业务系统没有或者部分有时间戳 20 数据清洗 过滤不符合要求的数据 将过滤的结果交给业务主管部门 确认是否过滤掉还是由业务单位修正之后再进行抽取不完整的数据 如供应商的名称 客户的区域信息 业务系统中主表与明细表不能匹配错误的数据 业务系统不够健全 在接收输入后没有进行判断直接写入DW如数值数据输成全角数字字符 字符串数据后面有一个回车操作 日期格式不正确重复的数据 将重复数据记录的所有字段导出来 让客户确认并整理 21 数据转换 不一致数据转换整合的过程 将不同业务系统的相同类型的数据统一 E g 供应商在结算系统的编码是XX0001vs 客户关系管理中编码是YY0001数据粒度的转换将业务系统数据按照数据仓库粒度进行聚合 商务规则的计算不同的企业有不同的业务规则 不同的数据指标 需要在ETL中将这些数据指标计算好了之后存储在数据仓库中 以供分析使用 22 书上的说法 数据提取数据验证数据清理数据集成数据聚集将数据装入仓库目标表 23 24 数据ETL过程的实施要点 ETL过程是一个数据流动的过程 中间的 T 转换 是关键 ETL工具的选择非常重要 运用合适的工具会事半功倍 如何保证数据质量 数据质量在一定程度上决定了数据仓库的价值 ETL的实现办法 ETL工具快速建立ETL过程 屏蔽复杂编码 降低难度缺少灵活性SQL方法实现灵活 提高ETL运行效率编码复杂 对技术要求比较高ETL SQL综合前两种优点 提高ETL开发速度和效率 25 ETL工具 ETL工具分类专业ETL厂商和产品功能详尽 价格昂贵整体方案提供商和产品提供数据仓库存储 设计 展现工具 同时也提供相应的ETL工具 26 ETL商业产品 27 ETL工具的选择 对平台的支持对数据源的支持数据转换功能管理和调度功能集成和开放性对元数据的管理 28 问题 数据仓库厂商和数据仓库项目面试问题使用ETL工具的优点是什么 与直接写代码开发区别在哪里 29 问题 数据仓库厂商和数据仓库项目面试问题使用ETL工具的优点是什么 与直接写代码开发区别在哪里 ETL工具开发更规范 条理性更好 便于维护 可能某些ETL工具效率比直接开发的存储过程的效率要查一些 使用ETL工具后 产生的文档更清晰 比直接开发的文档易懂 即便是有开发着离职也不会出现断层 这种工具更容易适应业务变更 如果熟悉直接写代码 那么项目效率更高 30 第二章数据仓库中的ETL和元数据 ETL元数据外部数据 31 元数据 元数据的概念元数据的内容与用途元数据的分类元数据的使用 常见问题 解决建议元数据的标准化及维护与管理 32 什么是元数据 数据太多 信息太少 只有充分理解数据才能分析数据 因此元数对数据仓库尤为重要 元数据关于数据仓库的数据数据仓库建设过程中所产生的有关数据源定义 目标定义 转换规则等相关的关键数据 同时元数据还包含关于数据含义的商业信息 是整个数据仓库的核心 33 例子1 每张数码照片都包含EXIF信息 就是用来描述数码图片的元数据 按照Exif2 1标准 其中主要包含这样一些信息ImageDescription图像描述 来源 指生成图像的工具Artist作者有些相机可以输入使用者的名字Make生产者指产品生产厂家Model型号指设备型号Orientation方向有的相机支持 有的不支持Software软件显示固件Firmware版本DateTime日期和时间 34 例子2 IMDB本身也定义了一套元数据 用来描述每一部电影下面是它的一级元数据 每一级下面又列出了二级元数据 总共加起来 可以从100多个方面刻画一部电影 CastandCrew 演职人员 CompanyCredits 相关公司 BasicData 基本情况 Plot Quotes 情节和引语 FunStuff 趣味信息 LinkstoOtherSites 外部链接 BoxOfficeandBusiness 票房和商业开发 TechnicalInfo 技术信息 Literature 书面内容 OtherData 其他信息 35 例子3 36 元数据的直观作用 信息的描述和分类可以实现格式化从而为机器处理创造了可能ETL是数据仓库从业务系统获得数据的必经之路 元数据则是地图 37 数据字典与元数据 数据库的数据字典数据仓库的元数据 38 数据库的数据字典 数据字典是数据库中各类数据描述的集合 1 数据项 2 数据结构 3 数据流 4 数据存储 5 处理过程 39 元数据定义 数据的数据 dataaboutdata 结构化数据 Structureddataaboutdata 用于描述数据的内容 what 覆盖范围 where when 质量 管理方式 数据的所有者 who 数据的提供方式 how 等信息 是数据与数据用户之间的桥梁 资源的信息 Informationaboutaresource 编目信息 Cataloguinginformation 管理 控制信息 Administrativeinformation 是一组独立的关于资源的说明 metadataisasetofindependentassertionsaboutaresource datathatdefinesanddescribesotherdata ISO IEC11179 3 2003 E 40 元数据的实际问题 41 元数据组成 Metadata 业务系统到数据仓库数据仓库数据展现工具ETLTargetDatabaseFront EndTool 人事 销售 库存 财务 RDBMS ODS StagingArea RDBMS 数据仓库数据集市 企业经营分析 客户关系管理 业务流程分析 财务分析 Metadata 外部系统 StatisticsClusteringNeuralNetsArtificialIntelligence 业务 股东 管理 OLAP 42 两者区别 数据仓库的元数据除对数据仓库中数据的描述 数据仓库字典 外 还有以下三类元数据 1 关于数据源的元数据 2 关于抽取和转换的元数据 3 关于最终用户的元数据 43 元数据与数据是什么关系 元数据也是数据 其本身也可以作为被描述的对象元数据可以出现在 数据内部 独立于数据 伴随着数据 与数据包裹在一起 44 元数据在数据仓库中的用途 起到辅助决策分析过程中定位数据仓库的目录作用数据从业务环境向数据仓库环境传送时数据仓库的目录内容指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择 45 元数据实例 客户标记 加前缀进行区分对公和对私客户 客户标记 01打头表示对公客户 02打头表示对私客户 无描述 多个系统都包含元数据 客户标记 01打头表示对公客户 02打头表示对私客户 03打头表示海外客户 46 元数据实例 47 元数据的分类 描述性元数据 IntellectualMetadata 描述信息资源的主题和内容特征结构性元数据 StructuralMetadata 描述数字信息资源的内部结构 如书目的目录 章节 段落的特征存取控制性元数据 AccessControlMetadata 用来描述数字化信息资源能够被利用的基本条件和期限评价性元数据 CriticalMetadata 描述和管理数据在信息评价体系中的位置 48 按元数据承担的任务分类 49 按元数据的对象分类 管理元数据是存储关于数据仓库系统技术细节的数据 用于开发和管理数据仓库 包括 数据仓库结构的描述汇总用的算法有操作环境到数据仓库环境的映射用户元数据从最终用户角度描述数据仓库包括 如何连接数据仓库可以访问数据仓库的哪些数据数据来自哪一个源系统 50 元数据的来源 源系统数据抽取阶段数据清洗和转换阶段数据装载阶段数据存储阶段信息传递阶段 51 工具产生的元数据源提供的元数据企业模型系统导入的元数据特定的用户产生的元数据 按元数据的来源分类 52 根据获取或生成的时间 可以分为 设计时收集的元数据构建时生成的元数据运行时生成的元数据根据使用的时间 可以分为 设计时使用的元数据构建使使用的元数据运行时使用的元数据 按时间元数据的分类 53 如何使用元数据 元数据最基本的功能是通过数据元素集定义资源对象的各类属性 这些属性的大量实例可以表达为关系型数据库中的表 或者以XML等形式进行置标 从而能够利用数据库系统或各类应用软件进行管理 54 元数据的重要性 管理人员做分析时 往往先从元数据入手 例如 从元数据中查广义索引 再进一步搜索支持数据转换 DB环境的数据到DW环境的数据元数据描述 转换 元数据本身具有良好的灵活性 适应变化 例如 不同时期 数据结构是变化的支持对数据仓库中数据的理解例如 结构 粒度层次 分片策略 索引等 55 元数据的重要性 项目一期开发14个月ETL开发了9个月3 5个版本最终还是没有元数据二期 重做 56 元数据实例 57 项目中经常遇到的问题 元数据定义在业务层面难以在多个系统或部门间统一数据质量的元数据被忽略需求难以确认 而且在不断变化对业务系统的元数据尚缺乏理解 就匆匆开始开发ETL过程 不断返工 58 建议 首先做选择题 是否要先有模型再有数据仓库 然后决定元数据是否要统一结合业务系统文档 对数据质量做初步的评价 在ETL过程中引入校验点 然后不断完善 59 尝试用简单的报表和公式跟用户交流需求 分阶段来冻结需求对业务系统清晰的理解 会减少歧义而且及早的发现问题 建议 60 项目中经常遇到的问题 项目周期不断在压缩 延迟中反复 开发人员不再关心如何维护元数据的版本来自各种角落的元数据五花八门最终用户过分依赖报表本身 而不是元数据技术人员对元数据期望过高 集中在理论层面 61 当项目压力很大的时候 至少要做到分阶段的元数据一致性根据项目的具体情况 制定元数据管理的策略及形式 简单的项目可以尝试自行开发元数据管理 对于仓库模型及ETL的参数进行一些必要的管理 建议 62 提供给业务人员一个友好的元数据访问 查询界面元数据的管理及标准尚未成熟 格式转换 查询 版本管理实现比较简单 并容易看到效果 进一步的分析则应该结合具体项目需求 建议 63 元数据的标准化 数据共享领域的某些趋势说明数据仓库中的元数据需求正逐步增加 这些趋势包括 数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型 支持一家企业的数据仓库扩展到支持多个组织多个企业共享的数据仓库 信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向源系统的反馈 各个厂家的专用数据格式向公共开放标准元数据交换格式转换 以提高其信息捕获能力 64 都柏林核心元数据集 由DCMI负责维护的一种元数据标准 65 元数据的标准化 元数据联盟MDC metadatacoalition 1999 将OIM openinformationmodel 作为元数据标准采用UML定义元数据管理工具 微软RepositryOMG ObjectManagementGroup 2001 颁布CWM commonwarehousemetamodel 作为元数据标准采用UML定义OMG和MDC已经合并 66 数据仓库中的元数据管理 元数据管理功能 提供按照合适版本获取和存储元数据的方法支持元数据以用户能理解的统一方式集成和展现支持元数据标准化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中小学体育教学常规管理方案
- 数据安全运营及风险管理平台搭建方案
- MPP管道焊接施工方案技术说明
- 小学科学密度实验课教学方案
- 农民土地确权合同(标准版)
- 河道清淤及底泥修复施工方案范本
- 工业通风与排烟系统设计方案实操
- 园林绿化养护施工组织策划方案
- 电子商务平台大数据营销及用户行为分析方案设计
- 合作项目研究保密条款与承诺协议书
- GB/T 1229-2006钢结构用高强度大六角螺母
- 初中现代文精品阅读10篇
- 第一章-马克思主义的诞生-(《马克思主义发展史》课件)
- 有创血压测量操作评分标准
- 架桥机事故案例警示-课件
- 茶文化与茶疗课件
- 班组长执行力管理培训
- 家谱图和家庭治疗课件
- 外研版六年级上册英语 Module 2 单元测试卷(含听力音频)
- 2022年北京市中考地理试题及参考答案
- 干燥塔安装施工工艺标准
评论
0/150
提交评论