版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、元数据在数据仓库的建设过程不同工具间的集成共享苏家怡2004年 6月数据仓库之路原创资料一、 元数据概述元数据是描述数据的数据。 应用程序在正确访问、 操作处理和显示数据时需要参考元数 据。元数据是对数据进行统一管理的基础,是各种数据库和应用共享企业信息的关键。 把适当的元数据提供给适当的用户, 对于数据仓库工作的成功是至关重要的。 在数据抽 取过程中, 元数据可以清楚地描述源数据库、 应用和其它数据源的来源、 位置、 种类等信息, 同 时 也制定 数据的 流向 、数据的 转换规则 、数据 目标 和数据的版 本及 数据的描述信息等等。 数据仓库 系 统的建 设 过程 (从设计到发布 一 般涉及
2、有三个阶段 :需 求 建 模 , ETL 开发 , 前 端 应用 展 示。 以 目 前数据仓库的 技术现状而言 ,在 上 述的 三个阶段 中,需要 不同 的 厂 商 的各类工 具 的 集 成一 起协同 工作, 完 成数据的抽取、 转换 和 加载 , OLAP 分析 和数据 挖 掘 等。 与上 述 阶段 对应的数据仓库工 具大致 可 分为三 类 :建 模 工 具:数据库 设计 和业 务 建 模 工 具 。 如 Sysbase 的 PowerDesigner , CA 的 Erwin 和 Rational 的 Rose 等 ;ETL 工 具:把业 务系 统中的数据抽取、 转换 、清 洗到 数据仓库
3、中的工 具 。 如Informatica 的 PowerMart , Ascential 的 DataStage, SAS的 Data Builder.前 端展 示工 具:包括报表 , OLAP 分析 和 商 业 智能 工 具 等。 如 BRIO , BO ,Cognos 的 PowerPlay 等 ;在 拥有不同厂商 、 不同 功 能 和 不同 元数据 知识 库的数据仓库的 环境下 , 如何 使 这些 工 具 有效 地 协同 工作 起 来, 实现从 一种 产品获得 元数据, 映射到另外 一种 产品 中, 实现不同产品 之间 的元数据 同步 , 跨越不同环境 的元数据 能够 共享 ? 能 迅速
4、收 集 、 传播 知识 , 然后通 过 这 些知识 的重 复利 用, 节省了 工作时 间 , 减少了 信息 交 流 成 本 ? 这些 对数据仓库过程 开发实 施 的工作,对 后续 开发 和 维护 等 都会 提供 很 大 的 帮助 。二、 元数据的获得和使用元数据是 将 各类工 具 连接 起 来的 “黏合剂” 。在 这 里我们主 要 介绍 数据仓库 系 统建 设 过程中元数据的 获得 和使用 实 例 。 在 实 际 的 系 统中, 建 模 工 具 使用 Sybase 的 PowerDesigner , ETL 工 具 使用 Informatica 的 PowerMart ,前 端开发 工 具 使
5、用 Brio 。2.1 元数据的获得和使用项 目 中元数据 主 要 通 过以 下 途径 获得 和使用 步 骤 :1 在 项 目 的 逻辑 设计阶段 ,使用 PowerDesinger 进行需 求 建 模 , 构 建数据仓库 模 型 的 结构 和 定 义 , 包括 仓库 模 式 、 视图 、 维 、 层次结构 ,数据类 型 等,使用 特 定 业 务 相 关的 语义 来 定 义 业 务术 语 ; 此 处 获得 的 包括技术 元数据和业 务 元数据。 Sysbase 可 以把 这阶段 收 集 的元数据 集 中 保存 到 自己 的一 个知识 库中 (Repository ;2 在 ETL 的 开发阶段
6、 , 通 过 Informatica PowerMart 的 Designer 设计 工 具 中的 Import From Database 功 能 可以 方便 获 取 OLTP 数据源的元数据 ; 此 处 获得 的是 技术 元数据。 另外 可以 也 通 过 Informatica 元数据 导入 工 具 (Metadata Exchage 把 存储 在 Sysbase 的 知识 库中的 目标 数据仓库元数据 写入 Informatica 的元数据的 知识 库中, 并通 过 Infor matica 的 Designer 设计 工 具 进行关 系映射 , 获 取 目标 库的数据 结构 和 定 义
7、 , 以 实现产品间 元数据的信息 同步 。 此 处 获得 的是 技术 元数据和业 务 元数据。3 通 过 PowerMart Designer定 义 数据的 映射 、 转换规则 , 此 处 为技术 元数据 ;4 通 过 PowerMart Server Engine定 义所 有定 义 的数据 转换 清 洗 的 调度 规则 , 此 处 为 操作元数据 ;上 述 2 , 3 , 4步 收 集 的元数据 会保存 在 Informatica 的元数据的 知识 库中, 它在关 系 型 的数据库中建 立了 一 系 列 用作元数据管理的 表 , 利 用元数据来 驱动 数据 的 整合 过程。 通 过 该 产
8、品 的 相 关 组 件来 浏览 和管理 知识 库中 所 有 的元数据。 由 于 Informatica 的元数据的 知识 库中是建 立 在 开 放 的关 系 数据库中, 这 时 我们编写 程序, 使用 SQL 或动态 SQL , 通 过 ODBC 或 JDBC 等来访问 相 关的元数据。5 在前 端 应用 开发阶段 , 通 过 Brio 前 端 工 具 来访问元数据, 从而 屏蔽 业 务 人员 对数 据库 物 理 结构 的理 解 , 让 业 务 人员 可以 根 据 自己 熟悉 的业 务术 语 来操 纵 数据仓库中 的数据。 此 处 获得 是 为 业 务 元数据 ; 通 过 Brio 可以访问
9、存储 在 Informatica 的元数据 的 知 识 库 中 的 业 务 元 数 据 和 技 术 元 数 据 。 Brio 为 元 连 接 向 导 添 加 OEM Informatica MX (Meta eXchange 元 定 义 以访问在 Oracle , DB2, SQL SERVER , Sybase 等数据库的基础 Informatica 知识 库的共享库。2.2 元数据使用实例在 POWER DESIGNER 中建 立 数据仓库的数据 模 型 。 根 据业 务分析 需 求 , 进行建 模; 建 立 数据仓库的数据 模 型 (星 型结构 ; 把 设计完 成的数据 模 型 的 保存
10、 到 SYSBASE 的 REPOSITORY 中 ; 图 11、建立源和目标INFOMA TICA 的 POWERMART DESIGNER提供 了 数据 结构 的提取 , 装 载 程序, 能 够 自动 地 将 业 务 源数据库中的各 表 的数据 结构 (如 字 段 名 , 字 段 类 型 , 数据描述信息等 传 递 到 DESIGNER 中 ;这 就避免 了 重 复 输 入结构 和 维护结构 的工作,对数据 结构 的 转 换 保 证 了 一 致 性 与 可 靠性 。另外 我们 可以 利 用 INFORMA TICA MA TADA TE EXCHANGE 工 具 把建 模 工 具 (POW
11、ERDESIGNER 保存 的 知识 库中的元数据信息来建 立 数据抽取 转换 过程中的元 数据,把数据 模 型 的元数据 倒 入 Informatica 的 知识 库中 保存 ;如 图 2: 图 2读 取 Informatica 知识 库中 目标 区域 的数据 模 型 。 如 图 3:图 32、使用 Powermart 产品 建 立 这个 销售 主 题 的 整 个 ETL 过程 ; 图 4使用前 端 工 具如 BRIO 来 展 示数据时, 帮助 用户 了解 数据仓库中 有 什么样 的数据, 按 商 业用 语 的 习惯 来使用数据。1 首 先 建 立 一 个 与 INFORMA TICA 的 知 识 库 的 连 接 inforep.oce ; 笔 者 的 INFORMA TICA 的 知识 库是建 立 在 SQLSERVER2000上 的。 如:ODBC SQLSERVER2000 2 再 建 立 一 个与目标 数据库 (testtgt 的一 个 连接 文件 (tbc_testtg.OCE , 利 用 INFORMATICA 的 知识 库中的元数据来 帮助 用户使用 该 数据仓库的数据 ; 3 使用元数据的 连接 文件 : 4 选择 INF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宾馆服务员绩效考核制度
- 医院干部教育培训制度
- 小投资公司财务审计制度
- 审计回访工作制度
- 合作项目审计制度模板
- 局委托外部审计制度
- 奇瑞汽车绩效考核制度
- 审计局日常工作制度
- 审计局干部考核制度
- 安康审计复核制度
- 学前儿童家庭与社区教育(学前教育专业)PPT全套完整教学课件
- 水生动物增殖放流技术规范
- TS30测量机器人Geocom中文说明书
- SB/T 11094-2014中药材仓储管理规范
- GB/T 3452.4-2020液压气动用O形橡胶密封圈第4部分:抗挤压环(挡环)
- GB/T 23339-2018内燃机曲轴技术条件
- GB/T 15382-2021气瓶阀通用技术要求
- GB/T 15242.4-2021液压缸活塞和活塞杆动密封装置尺寸系列第4部分:支承环安装沟槽尺寸系列和公差
- GB/T 1176-2013铸造铜及铜合金
- 寿险经营的根本命脉-辅专课件
- 实验12土壤微生物的分离及纯化课件
评论
0/150
提交评论