硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf_第1页
硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf_第2页
硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf_第3页
硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf_第4页
硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf_第5页
免费预览已结束,剩余49页可下载查看

硕士学位论文-基于Oracle数据仓库应用技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉科技大学 硕 士 学 位 论 文一 第 1 页 摘要 数据仓库是一项基于数据管理和利用的综合性技术。 近年来, 数据仓库技术在信息技 术领域中日 益成熟,己 成为业界研究的 重点。 企业要想在市场竞争中 取胜, 获得更大的 经 济效益,可以 利用数据仓库技术,对企业的业务数据进行深层次的挖掘、分析历史和当前 的业务数据以 及相关环境的数据, 快速获取其中有用的决策信息,为企业提供快速、 准确 和方便的决策支持。 数据仓库是面向主题的、 集成的、 时 变的 和非易失的 数据集合, 支持管理的决策过程。 数据仓库不是一个新的平台, 而是一个新的概念。数据仓库也不是一个现成的产品, 而是 一个解决方案。数据仓库是在收集各种分散、异构数据源的基础上,对数据进行转换和集 成,从而为决策者提供单一的分析环境,帮助其进行科学决策。 联机分析处理( o n 一 l i n e ana l y t i c a 1 p r o c e s s i n g , o l a p ) 是数据仓库的一个典型的应用。 它能将数据仓库中的数据按照不同的粒度级进行聚合和预计算,从而在用户面前展现多维 数据视图。 同时, 联机分析处理还提供了较直观的多维分析操作, 包括切片、 切块、 上卷、 下钻和旋转等,使用户能多角度、多层次地观察数据仓库中的数据。 本论文对面向决策支持的数据仓库技术进行了深入的研究,利用数据仓库和联机分析 处理的相关知识,独立设计了 钢铁销售决策支持的数据仓库系统的架构,建立了数据仓库 系统,并在此基础上进行应用研究。 本文阐述了 数据仓库的基本概念及特点、 数据仓库的体系结构、 数据仓库的数据组织、 数据仓库的 数据分析等知识, 介绍了oracle公司提供的 基于oracle gi数据仓库解决方 案及其关键工具,在对本文的理论基础进行了 详细的介绍后,研究了如何将数据仓库及联 机分析处理有关理论、方法应用于决策支持系统中.完成的主要工作有: 结合钢材销售主业务,构建数据仓库模型,划分了合同、销售及来款三个主题,建立 了 满足此模型需求olap三层客户/ 服务器体系结构, 进而完成了为销售决策提供支持的 数 据仓库环境的设计; 运用o wb工具实 现了 部分系统需求数据的 e tl转换;为了 在两维的 屏幕 中 显示多维数 据, 运用了 最新的ora c l eb u s i n e s sl n t e l l i g e n c e t o o l s 中的 n l s c o v e r e r 及 相关工具, 实现了 o lap 多维分析操作; 设计了 基于 oracle数据仓库的应用模型, 独立完成 了某钢铁公司销售决策支持系统的数据仓库架构设计、建模及o l a p 分析, 从而实现了数据 仓库系统在销售决策中的实际应用。 实践 证明, 本文中 数据仓库系统的 应用模型设计方法及开发步骤, 充分利用了 oracle 产品 集, 开发出了高效、灵活、实用的 d ss系统, 在实际的 推广应用中 受到了 柳钢销售分 析决策人员的 一致好评。 文中的数据仓库系统的 应用模型设计方法、开发步骤及数据表现 形式,对基于o r acle数据仓库的设计及开发具有一定的参考价值。 关键词: oracle,数据仓库,决策支持系统,数据转换, 数据清洗, 联机分析处理, o w b 第 h页武汉科技大学 硕 士 学 位 论 文 ab s t r a c t t h ed ata ware house te c hi 1 i q u e s isincreas ingl ygr 0 wing 叩 in 此 肚 e aof i n fo n n a t l on 征 c hno l o gy, and has b ee n 侧de lyre se arch e d . d ata w ar e h o 切 犯isan i n t e g r a t i vete c hn o lo gy on 目 m ini s tr a t l onan d 即 plic ation an e n t e 印 ri s e , w hi chw a n ts tow i n the com pe t i ti onand a c q u 1 re s moreinc o m e , m ustm ak e us e o f the d ataw ar e h o 叹 te c hoo l o 既m ined e e p l% 朋 a l邓 e hi storic ai , c urre nt andre l e v ant i n fo rmat i o nd a t a , 助dac q u i 茂 us e ful dec i s i on m akl ng l n fo n n at i o n 即t o m at 1 cally so d a t a ware hous e c an p r o v i de 丘 is t , exact and conveme nid ec isi on s u p port to 即t e rpr i se 不同 时间 指 昨 中的 数据是历史数据的集 合 , 对于数据仓库的概念可以从两个层次予以 理解:首先,数据仓库用于支持决策,面向 分 析型 数据处理, 它不同 于企业现有的操作型数据库; 其次, 数据仓库是对多个异构的 数 据 源有效集成, 集成后按照主题进行了 重组,并包含 历史数 据, 而且存放在数据仓库中的 数据一 般不再修改。 武汉科技大学 硕 士 学 位 论 文第5 页 数据仓库是一种概念, 不是一 个产品 自 , 。 它包 括电 子邮 件文档、 语音邮 件文档、 c d - r o m 、 多 媒体信息以 及其它还未考虑到的 数据囚 . 数据仓库最根本的特点是要物理存放数据,这 些数据并非最新的、专用的,而是 源于其它数 据库的。 数据仓库的 建立并不是 要取代数 据 库, 而是要建立 在一个 较全面 和完善的 信息应 用的 基础上, 用于 支持高 层决 策分析。数 据 仓库是数据库技术的一种新的应用,它还需要数据库管理系统来管理数据仓库中的数据。 . 圈2 . 1 数 据仓 库 . ( 一)数据仓库的数据是面向主题的 数据仓库中的数据面向 主题, 与传统数据 库面向 应用相 对应。主题是一个在较高层次 上将数据综合、归 类并分析的 抽象, 每一个 主题对应一个宏观的 分析领域。 面向 主题的 数 据组织方式,在 较高层次 上对分析对象进行 完整、 一致的 描述, 能完整、 统一地刻画各 个 分析对象所涉及的 各项数 据,以 及数据之间的 联系。 面向 主题的 数据组织方式是根据分 析 要求将数据织成一个完备的分 析领域, 即主题 域。 主题域有: ( 1)独立性,主题域有独 立内 涵,即 要求有明 确的 界限; (2 ) 完备性, 能够 在主 题内 找到分析处理 所要求的 一切内 容, 如果某一分析处理涉及 到 现在主题 之外的数据, 那么就 应当 将这些数 据增加到该主题中 来, 从而 逐渐完 善主题。 ( 二)数 据仓 库的数 据是集 成的 数据仓库的集成特征是指在数据进入数据 仓库之前, 经过数据 抽取、数据加工和数 据 集成, 这是建 立数据仓库的 关键步骤,首先 要统一原始数据中的 矛盾之处, 还要将原 始数 据结构做一个从面向 应用向面向 主题的 转变。 ( 三)数 据仓 库的数 据是相对稳定的 数据仓库的稳定性是指数据仓库反映的是已 成为 历史的 数据,而不是即时日 常事务处 理产生的 数据。 数据经加工和集成进入数据 仓库后是极少或根本不修改的, 数据仓库是不 同时间数 据的集 合, 它要求数据仓库中的数 据保存时不仅能满足进行决策分析的需要, 而 且数据仓 库中的 数据都 要标明 该数据的历史时 期 刀 。 ( 四) 数据仓库的 数据是随时间不断 增加 和完善的 数据仓库系统需要随着时间的变化不断增 加新的 数据内 容,如捕捉数据源中已 变化的 数据并追加到数 据仓库中, 或是根据这些已 变化的 数据来更新数据仓库中与 其相关的综 合 数据,以 保证数 据仓库中 分析数据的有效性 和正确性。 捕捉到的 新的 变化的 数据, 只不 过 又生成一 个数据 库的 快照增加进去, 不是对 原来的 数据的 修改,以 满足数据的 不可更新 特 第6 页武汉科技大学 硕 士 学 位 论 文 征。 综合数据则需要根据这些变化的数 据重 新进行综 合。 按照数据的覆盖范围, 数 据仓库 通常 可以 分为企业级 数据仓库和部门 级数 据仓库( d ata m a r t , 数据集市) 。 数据仓库的管理包括数据的 安全、 归档、备份、 维护和恢复等工作, 与目 前的dbm s 的管理工作基本一致。 建立数据仓库的目 的是将历史数 据和信息 按可用的形式和格式提供给用户, 利用一系 列决策支持工具增加用户对企业数据的 分析及利用功能,以便更好地分析数据并做出决 策。 决策支持过程使用的方法通常分为 信息处 理、 分析处理 和数据挖掘; 信息处 理包括查 询、 计算和打印报表等;分析处理包括 在线分析处理( ola p); 数据挖掘包括统计 分析和知 识发现等。 2 . 3数据仓库中 的重要概念 2 . 3 . 1 元数据 元数据( m e t a d ata)可以 定义为描述应用系统或业务流程中数据结构及意义的 数据或文 档, 是关于数据的数 据,相当于数据库系统中的 数据字典。 它描述了数据的结构、内容、 码、索引等项内容。元数据不仅定义了数据仓库的作用,指明了数据仓库中信息的内容和 位 置, 刻画了数据的抽取和转换规则, 存取数据仓库的主 题和相关 信息, 而且实 现了 数据 仓 库 的 管 理 s1 。 元数据可以分为两 类【, , , , 川 。一类是 技术元数据( t e c h n i c a l m e t a d a t a ) , 它存储了 关于 数 据仓库系统技术细节的元数据,主要包括: 数据的逻辑模 型和物理模型;数 据仓库中 的 表 名、 字段名、关 键字、 索引及其相关 属性; 数据仓库 数据与 操作 环境数 据的对 应关系 和 导 入、 过滤、校验的方法;进行 o l ap 分析所用的 “ 维” 和汇总数据的 信息; 用户和安全 性的 管理等等。一类是业务元数据 (busi nes sm etad ata) , 它保证用户能正确、方 便的 使 用 数据仓库系统所需的业务术语所表达的数 据模型、 对 象名 和属 性名;访问数据的原则 和 数 据的 来源;系统 所提供的分析方法以 及公式 和报表的信息等等。 2 . 3 . 2数据集市 原始数据从数据仓库流入到不同的部门中以 支持这些部门的定制化使用, 这些部门 级 的 数据仓库就称为 数据集市呱” 。一个数 据集 市就是一个部门的数据体, 具有数 据仓库的 构 造基础。数据仓 库中的数据处于非常小的 粒状级别,而数 据集市中的 所有数据 提供粒状 基 础。 所以 对于数据集市来说适合的数据 源应该是数据仓库,也 就意味着 在建立数据 集市 之 前应该建立数据仓库叫。 目 前, 数据集市主要有两种 类型,多维 集市( 胭dbms) 和通用数据集市. 其中, 通用数 据 集市是由 关系技术来支持的并支持星型模式. 元数据是数据集市中的一个集成部分, 由 传送到数据集市中的装载程序来创建和更新。 因为 数据仓库是数据集市数据的主要来源, 所以 数据仓库元数据和数据集市元数据之间 必 须 要有连接。数据集市的元数据包含以 下部分: 数据源标识,描述当数据由数据 仓库传递 到 数 据 集 市 时 所 发 生 的 数 据 定 制, 有 关 数 据 集 市的 简 单 描 述 信 息 , 包 括 表 格 、 属 性 、 关 系 武汉科技大学 硕 士 学 位 论 文第7 页 和定 义等.同 时, 元数据允许不同 的数 据集市 达到不同 程度的内聚性. 在数据集市中 是沿着星型连接的线条 和规格化的表格来构 造数据的。如果有一个可以 预测的 使用模式并有大量数据, 就可以 建立星型连接。 如果不预测的 使用模式, 则使用关 系表格作为基础。 由 于有少 量数 据以 及用户等级,所以 在数据集市中有 着比数 据仓库很高 的性能 期望。 使用mddbms技术和利用星型连接,以 及 广泛的 建立索引都是 提高 性能方 法。 像数据仓库一样, 数据集市也是面向 主题的 、集成的、 稳定的和不同时间的。 数据集 市 在有些方面与数据仓库有差别, 数据 仓库专注于满足 整个公司的 需求, 而数据集市专注 于特定的 主题域、 特定的部门 或特定的 业务 功能需要。 钢铁销 售公司 数据仓 库包含合同、 销售、 来款三个主题域, 那么也必须有 合同、 销售、来 款三个数据集市。数 据集市与 数据 仓库 数据模型设计差不多,主要是在中间 层上即逻辑数 据模型上有所差别。即 星形 模式是 关系 环境中 建立高性能数据集市数据结 构的 最普遍的方 法。 一个星行模式有两类基本表组 成:一个事实表( f actt abl e)和多个 维表( di祝nsi on t able ) 。事实表包含实际事务或要 分析的 值, 维表包含有关这些事 务、值的 描述。 数据库中的 数据可以 分为两 个主要 类别: 描述性值和定量值。 2 . 3 . 3粒度 和分割 粒 度是数 据仓库的 重要概念.粒度分为 两种形式, 第一 种粒度是以 数据仓库中的 数据 的综 合程度高低的 一个度量, 它既影响数 据仓库中 的数 据量的 大小, 也影响 数据仓库所能 回 答询问的 种类. 粒度越小, 细节程度 越高, 综合程度 越低, 回答底部的 种类就越多, 必 然造 成数据仓库中 的数据大量堆积, 效率 十分低下; 反之, 粒度的 提高 将会提高查询效 率。 另一 种特殊形式的 粒度是样本数据库, 它是以 一定的采 样率从细节档案数据 或轻度 综合数 据中 抽取的 一个子集。同 通常意义的粒 度不同, 样本数 据库的 粒度级别不是 根据综 合程度 的不同 来划分的, 而是根据采样率的高 低来划分的, 采样粒度不同的 样本数据库可以 具有 相同的综合级别。 分 割是数据仓库的另一 个重要概念, 它是指将数据分割到各自 的物理单元中 去以 便能 分别 处理,以 提高数据处理效率。 数据 分割的 标准可 选择按日 期、 地区和业务领域, 也可 按自 定义分割标准,分割之后, 小单元内的 数据相对独立, 处理起来更 快,更容易。 2 . 3 . 4数 据仓库数据组织 数据仓库的 数据组织方 式可分为 虚拟 存储方式、基于关系 表的存储方式和多 维数据库 存储 方式三种。 ( 1) 虚拟存储方式 虚拟存储方式是虚拟数 据仓库的数据 组织形 式。它没有专门的数据仓库数据存储, 数 据仓 库中的 数据仍然在源数据库中,只 是根据用户的多 维需 求及形成的多维 视图,临时 在 源数 据库中 找出 所需要的数据, 完成多维 分析。 这种组 织方式较简单、 花费 少、 使用灵 活, 但对 源数 据要求较高,即 只有当 源数据库的数 据组织比较规范、没有数据不完备及冗余, 第8 页武汉科技大学 硕 士 学 位 论 文 同时又比 较接近多 维数据模型时, 虚拟数据仓库的多 维语 义层才 容易定 义。 (2 )基于关系表的 存储方式 基于 关系表的存 储方式是 将数据仓库的数据存 储在关系型数据库的表结构中, 在元数 据的管 理下完成数据仓库的 功能。 这种组织方式在 建库时 有两个主要过 程用以 完成数据的 抽取。 首先,要 提供一 种图形 化的点 击操作界面,使 分析员能对源数据的内 容进行选择,定 义多维 数据模型。 然后再编制程序 把数据库中的数 据抽取到 数据仓库的数 据库中. 这种方 式的主要问 题是在多 维数据模型定 义好后, 从数据 库中 抽取数据 往往需要编制独 立、 复杂 的 程序,因 此通用性差、 很难维护。 (3 )多维数据库的组织 多 维数据库的组织是直接面向olap 分 析操作的数据 组织方式。 这种数 据库 产品 也比 较 多, 其实 现方法不尽相同。 其数据 组织采用多维数 组结构文 件进行数据存储,并 有维索引 及相应的元数据管理文件与数据相对应. 2 . 4数据仓库体系结构 数据 仓库系统( 。 ws: 。 ata梅re助uses y s t em) 由 源数据、仓库管理、 数据仓库及 前端 分析工 具组成, 其体系结构如图2 . 2 所示。 源数据 仓库管理 数据仓库分析工具 图2 . 2数据仓库体系结构图 ( 1) 数据源, 是 数据仓库系统的基础, 是 整个系统的数 据源泉口 通常包括企业内部 信息 和外部 信息。内部 信息包括存放于rd 明5 中的 各种业务处理数据和各类文档数据。 外部 信 息包括各类 法律法规、 市场信息 和竞争对手的 信息等等。 (2 ) 仓库管理, 在确定数据 仓库信息需求后, 首 先进行数据建 模, 然后确定从源数 据到 数据仓 库的数 据抽取、 清洗 和转换过程,最后 划分维数及确定数据仓库的物理存储结构。 仓库管理 包括 对数据的 安全、归 档、备份、 维护、 恢复等工作。 ( 3)数据分 析工 具, 用于完成实际 决策问 题所 需要的 各种报表工具、 查询工具、 数 据分 析工具、数据 挖掘工具等,以实 现决策支持系统的 各种要求。 2 . 5数据仓库系统结构 数 据仓库系统结 构是 在建立 数据仓库 平台 时所贯彻的一个整体蓝图, 是整个底层的 甚 武汉科技大学 硕 士 学 位 论 文第9 页 础, 用来指导 在建立和管理数据仓库平台时必须 制定的 大多数决策。通常 可分为 两个主要 类型:三层结 构和两层结构。 2 . 5 . 1三层结构 在 三层结 构的 设计中, 第一层由已 存在的事务 处理系统构成, 用来收集 发生在原由m is 系统中所 有事件的 数据, 提供给数据仓库应用。 这种结构的第二层和第三 层分别是 数据仓 库和数据集 市, 如图2 . 3 所示。 黑昙 查询 分析终端 第一层 图z j 三层数 据仓库结 构 建立大型的数据仓库环境通常有两种不同的功能需 要: 数据合并 ( 汇集数据) 和数据 分析 ( 获取信息) 。数据仓库层负责数据合并活动,从操作系统中获取数据。数据合并是 指从异类的、不统一的操作系统中抽取、清理和转换数据,成为一个统一的仓库.同时, 将合并数 据的 各部分供给各个数据集市,完成数 据分析活动。数据分析是指 允许最终用户 访问、 处理 和一般分析数据以 寻找有用 信息。 由 于这两种不同需要,因此 分布在两 个不同 层上使这 种结构更 加可扩展。 数据仓库层由 多种操作 系统供给数据,需执行 所需的 抽取和 转换,而数 据集市层从数据仓库中 提取数据. 数据仓库 层以非 概括化的、详细的形式保存数 据, 可以设 计成一 种类似于传统第三范 式模式( t r a d i t i o n a lt h i r d 一 n o r malf o 翔 s c h e 帕) 的 数据库模式,来充分 应用该范 式中 最 小化数据冗余的 优越性叫。 数据仓库必须担当一 种存储仓库, 用来存储来自 不同机 构和不 同 主题领域的 大量数据。 数据集市中的数据是概括、 子集和样本。 数据集市可以使 用维数 模型和星型模式设计。 三 层数据 仓库结 构的主 要优点是高性能和高 度扩展 性。高 性能允 许分割不同 查询的作 业量给不同的数 据集市, 这意味着某个数据集市的用户不会受其它数据集市作业量的影 响;高扩展 性是指第二层和第三层可以 单独扩增 15 。 但是,该 结构的 代价是 成本很高。因为设计数 据仓库是 个复 杂的 过程, 须花费 时间 来 合并多 种主 题, 而建立数据仓库又需要相当的时间 和资 源,同 时成本也很高。 兰 些 皿_武 汉 科 技 大 学硕 士 学 位 论 文 2 . 5 . 2两层结构 有两种方法可 用来建立两层结构。第一种方法是只建立企业级数据仓库,而不是建立 数 据 集市, 这 种方 法没有从 根本上摆 脱建立 数据 仓库所需 要承担的 复 杂性和 难度。 另 一 种 方法比 较常见, 就是只建立数据集市, 数据集市不依赖于数据仓库而独立存在。 这种结构 代价是很小的, 因为数据集市只有一个或两个主 题域的 数据, 设计和实现上有更小的复杂 性, 可以 处理少量数据源和较少数据,同时硬件上需求也降 低了. 其结构示意图 如图2 . 4 所示。 查询分析终端 第一层第二层 图2. 4 但是这种结构存在着严重的问题。 两层数据仓库结构 首先是可扩展性差,已 存在的数据集市不能满足其 它外的部门 需 求,另外, 对每个部门需求建立数据集市也是件可怕的事情。 2 . 5 . 3可扩展结构 以 上介绍的两 种系统结构似乎都不是最佳的。 可扩展结构利用两层结构简单和廉价的 优点,从逻辑上设计一个三层结构, 但最初使用两层结构来实现, 如图2 . 5 所示。当 数据 集市增长到包含更多主题领域时,最终转换成三层结构。 业务处理终端 查询分析终端 图2 . 5可扩展的 数据仓库结构 武汉科技大学 硕 士 学 位 论 文第n页 在最初的两层结构中的第二层上 ( 即可扩展的数据集市层) 必须有两种类型的数据库, 第一种类型数据库是 “ 小型数据仓库” ,而第二种类型的数据库是从属的数据集市。小型 数据仓库应该看作是一 个还没有组装完成的 企业数据仓库, 开始于一个单一主题领域和以 一种规范化的模式来存储详细 ( 非概括化的)数据,因此这个小型数据仓库应该有一个逻 辑数据模型。 从属的数据集市从小型数据仓库中抽取数据、概括和聚集数据,然后存储到 数据集市表格中。实际上这两个逻辑上数据库通常作为一个物理数据库来执行。 随着主题领域数量的增长,数据仓库组件也随之增长,并且有更多的数据集市从中抽 取数据. 此时,数据仓库可以 独立出来,形成了 三层结构。由于数据集市的数据全部从数 据 仓库中 读 取, 所以 不需要 增 加 其它的 抽取处 理洲。 值得注意的是, 小 型 数据仓库 建 立时 应该确定从操作系统中抽取数据的贯穿主题领域公用线索,确保基于这些线索来实现集 成,例如, 在商业上一个公用线索是商品销售。 2 . 6数据仓库系统设计方法 一般而言, 在操作型环境中, 系统设计人员能够清晰地了解应用的需求和数据流程, 系统设计一般采用系统生命周期法 s d l c ( s y s t e md e v e l o p m e n tl i f ec y 。 l e ) ,而在分析型 环境中, 设计人员要在与用户不断交流的基础上, 逐步明确与完善系统需求,因此数据仓 库采用的是与s d l c 不同的c l d s ( c y c l e l i f e d e v e l o 卿e n t s y s t e m)方法, 也可以 称为数据 仓库生命周期 ( d w l c)。 两种方法之比 较见图2 . 6fl7 : 数据仓库是一个面向分析型处理的数据环境, 从数据组织到面向主题的数据处理与传 统数据库有较大的区别,这决定了进行数据仓库系统设计时,不能照搬传统数据库系统的 开发方法。 s d i 方 祛。 山 5 方 法 图2 . 6s d lc方法和c l 璐方法 由图2 . 6 可见, 数据库系统设计的s d lc方法有独立的收集需求和分析需求的 阶段, 而 第12 页武 汉 科 技大 学硕 士 学 位 论 文 数据仓库设计 采用的 c l ds 方法则没有这样独立的阶 段, 而是将需求分析的构成贯穿于整 个设计过程中。 2 . 7数据仓库设计步骤 数据仓库设计是在现存数据库系统基础上开发,着眼于有效的抽取、综合、集成和挖 掘已 有数据 库的 数据资 源, 服务于 企业高 层领导管理决 策分析的 需要, 是一种解决问题的 过程叫。大体 分为以 下几步: ( 1) 制定计 划及建立 技术 环境 建立开发数据仓库的目 标和计划,包括数据范围、责 任、方 法和工程调度等。选择实 现数据仓库的 软硬件资源, 包括开发 平台、 d b m s 、网络 通信和开发工具等。 (2) 确定分 析主题并建 立模型 根据决策需求建立主要的分析主题, 在反馈和循环中逐 渐建 立其它分析主题.选择数 据源,对数据仓 库组织进行 逻辑结 构设计。 主题是数据归 类的 标准, 每个主题对应一个客 观分析领域。 ( 3) 设 计数据仓库中的 对象 依据用户需求, 着重于分析主题, 开发数据仓库中的数据物理存储结构,设计数据仓 库中 数据对象事 实表和维表。 ( 4 ) 设 计数据转换程序 实现从数据 源中 抽取数据、清理数据、一致化数据、综合数据和装载数据等过程的设 计。 ( 5) 管 理元数据 定义数据的意义及系统各组成部分的关系。 元数据包括关键字、属性、数据描述、物 理 数 据 结 构 、 源 数 据 结 构、 映 射 及 转 换 规 则 、 综 合 算 法、 代 码、 缺省 值、 安 全 要 求 、 变 化 及时限等。 (6) 选择或设计数据分析工 具 用于决策支 持系统的分析工具主 要包括优化查询工具, 统计分析工 具, o l ap工具及各 种数据开采工 具。 2 . 8数据仓 库关键技术 2 . 8 . ietl e t l (e x t r a c t 一 t r a n s f o r m 一 l o a d的 缩 写, 即 数 据 抽 取、 转 换、 装 载的 过 程 ) 作 为 b l / o w (b us i ne “ “ in te l l i ge nc e) 的 核 心 和 灵 魂, 能 够 按 照 统 一 的 规 则 集 成 并 提 高 数 据 的 价 值 , 是负责完成数 据从数据源向目 标数 据仓库转化的过程, 是实 施数据仓库的 重要步骤。 如果 说数据仓 库的 模型设计是一座大厦的设 计蓝图, 数据是 砖瓦的 话, 那么e t l 就是建设大厦 的 关键过程。 在整个项目中 最难部 分是用户需求分析和 模型设 计, 而e tl规则设计和实施 则 是 工 作 量 最 大 的, 约占 整 个 项目 的6 既 一 8 0% 叫 , 这 是 国 内 外 从 众多 实 践中 得 到的 普 遍 共 识。 武汉科技大 学 硕 士 学 位 论 文第巧页 就是类别, 例如, 时间 维度的 类别可以 细化到 年、 月、日 ,甚至小时. 平面 表格中的 一个 元素( 对 应超立方体中 的一个单元格) 可以表示: 某年某月某商 店的 某类产品的 销售量. 具 体如图 2 . 10所示: 拳 别 所有时间所有地点所有产品所有顾客 年 省l产 品 种 类 顾 客 类 别 l月市ll 日 l一l 小 时一 指标对象 : 销售量 图2 . 10 信息包图 创建信息包图时需要注意的是:确定最高层和最低层的信息需求,以便最终设计出包 含各个层次需要的 数据仓库。 对于复杂的商业要 求进行需求分析时,有时一张信息包图不 能 反映所有 情况, 可能需 要设计不同的 信息包图 来满足全部需求,此时应该保证多个信息 包图中出 现的 维度信息和类别 信息完全一致。 2 . 8 , 2 . 2逻辑模型设计 星型图 由 于星型图能清晰地反映概念模型中 各种实体间的 逻辑关 系,并 可在此基础上更好的 组织检索和查询, 使设计 者完整 地掌 握系统的 数据流 程。因 此,可以利用星型图 建模技术 设计完善的数据仓库逻辑模型。 星型图因其外观似五角星而得名, 它支持以 商务决策者的角 度定义数据实体,满足面 向 主题数据 仓库设 计的需要,并 且设 计方法简单,易于 被系统用户理解. 星型图 设计的最 大优点是它所建立的数 据结构具 有以 下特点 山 , 网囚: 在用户查询和收集过程中 可对星型图 中 心的大量指标实体进行筛选、组合、削 减和分割, 并 减少 其最终容量。 同信息包图的 三个对象对应, 星型图 拥有三个逻辑实体: 指标实体、维度实体和详细 类别实体。 指标实体:位于星型图中间的实 体, 对应信息包图中的指 标对象,是用户最关心的基 本实体,为用户的商务活 动提供定量数 据。 它一般代 表一个现实事务中的 综合水平, 仅仅 与 每个相关维度的一个点对应。在星型图中, 用矩形表示指 标实体。 维度实体:位于星型图星角上的实体,对应信息包图中的维度对象,其作用是限制用 户的查询结果, 将数 据过滤使其从指标实 体返回 较少的行, 同时 将主要指标数据进行聚合, 从而缩小访问范围。 在星型图中,用菱 形表示 维度实体。 详细类别实体:对应信息包图中的 详细类别对象。一 个维 度内的每个单元就是一个类 别, 代表该维度内的一个单独层次。 在星型图中 ,用结束符 号表示详细类别实 体。 在星型图中, 用户通过维度实体获 得指标实体数据,其中指标实体与维度实体间的 联 系 通过每个维度中最低一层的详细类别实体 连接。 生成星型图需要 注意以下两点: ( 1) 信息包图 中每个独立的 单元都 必须被评估和研究,从而确定它是否合适做详细类 第16页武汉科技大学 硕 士 学 位 论 文 别实 体, 如果用户需要 有关 类别的附加信息, 可以 将维度实体分解成与 指标实体直接关 联 的 主维度实体和与主维 度实 体关联的次维度实体, 次维度实 体与指标实体间接关联,从 而 形成星型模式的 扩展形 式 雪花模式图。 ( 2) 当多个信息包图 转换成星型图 时, 可能出 现维度实体的 交叉重叠, 为了 保证实体的 一致性需要进行统一处 理,确定 它们是同一实体在不同层次上的数据反映, 还是两个不同 的 实体。 当多个维度实体 相关 并且存在共性时 , 可能需 要将其合并为一个指标实体。 比 如, 在销售为主题的 数据仓库中 ,通常具有如下 星型图 逻辑模型: 指标实体: 销售( s a l e s ) , 含销售量 ( q u a n t i t y ); 维度实体: 产品维( p r o d u c t ) 、 客户维( c u s t o m e r ) 、 时间维( t i m e ) 、 地区维( r e g i o n ) 、 其它维 ( o t h e r ), 在此简写为: p 、 c 、 t 、r 、0 ; 详细类别实体: p 一 k e y 、 c 一 k e y 、 t 一 k e y 、r 一 k e y 、 于k e y : 其星型图,如图2 . n所示。 图2 . 11 面向 销售主 题的 星型图 2 . 8 . 2 . 3物理模型设计 根据逻辑模型设计阶段的星型图或 雪花图能 够方便地定 义物理数据结构。一般将指 标 实体转化为物理数据库 表, 称为事实表。事实 表首 先包括星型图中 心的 指标量, 其次应包 括星型图角上的 维度实 体中 层次最低单位的主 码。 维度实 体通常也 转化为 维数据库表, 称 为维表, 它包括其每一 层次的 主码和对应的 值。 维表的关键字是该维度实体对应的详细 类 别实体的主码。 维表和事实 表通过维表关键字相关 联. 除了建立以 上的 物理 数据结构外, 物理模型 设计阶 段还应该确定 如下内 容: ( 1) 定义数据标准:在定义物理实 体、关系 和字段之前,首先应该明确命名约定, 包 括数据类型、约束条件、 设备、 索引 、缺省等。 (2 )定义实体:星型图可以 很方便 地确定面向主 题的数 据仓库共享实体, 完整定义其 属性,包 括主键、可选 键、 外部键、 非键标数 据、 空值等。 (3 )确定实体特征: 完全识别实体 特征很重要。 这包括 键标属性、 值的有效范围、 完 整性约束条 件、 类型 和长度等. ( 4) 确定数 据容量和更 新频率: 要对每 一个数据仓库实体进行容量和更新频率的评估, 武 汉科 技大学 硕 士 学 位 论 文第1 7 页 容量包括 实体预期的行和模式增加的数量。 ( 5) 确定索引策略,提高数据仓库性能。 2 . 8 . 3数 据存储和管理 数据仓库的 关键是数据的 存储和管理。 数据仓库的组织管理方式决定了它有别于 传统 数据库,同 时也决定了其对外部数据的 表现形 式。 要决定采用什么产品和 技术来建立数据 仓库的核 心, 则需要从数据仓库的技术 特点 着手分析. ( 1)大量 数据的 存储和管理。 所涉及的数据量比传统事务处理 大得多, 且随时间的推 移而 积累。 从现有的技术和产品来 看,只有关 系数据库系统担当此任。 (2) 并 行处理。 在传统联 机事务 处理应用中, 用户访问 系统的 特点是短小而 密集: 对 于一 个多 处理系统 来说,能够将 用户的 请求进行均衡分担是关键, 这便是 并发操作。在数 据 仓库中 ,用户访问系统的 特点 是庞大 而稀疏,每一个查询和统计都很复 杂, 访问的频率 并 不高。 此时系统需要有能力将 所有的 处理机调动起来为这一个复杂的查 询请求服务,将 该 请求并行处理。由此,并行处 理技术在数据仓库中越发重要。 ( 3) 针对决策支持查询的 优化。 此问 题主要针对关系数据库而言, 因 其它数据管理环 境连基本的 通用查询能力都还不完善。 在技术上, 针对决策支持的优化 涉及数据库系统的 索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。 (4) 支持多维分析的查询 模式。 这也是关系数据库在数据仓库领域 遇到的严峻挑战 之 一 与传统的关系数据库使 用上 不同, 对于数据仓库的访问 往往不是简单的 表和记录的查 询, 而是基于用户业务的分析模 式,即 联机分析。 其特点是将数据想象成多 维的 立方体, 用 户的 查询便相当于 在其中的部 分维上加以 条件,对立方体进行切片、分 割,得到的结果 是 数值的 矩阵或向量,并 将其制 成图 表或输入数理统计的算法。 2 . 8 . 4数据表现 数据表现实际上相当 于数据仓库门 面, 其性能主要集中 在多 维分析、 数理统计和数据 挖 掘方面。 而多维分析又 有数 据仓库的 重要表现形式,由 于互联网的发展, 使得多维分析 领 域的 工具和产品更加注重 提供 基于w eb 前 端联机分析界面,而不仅仅是 在网 络上发布数 据。 数理统计原本与数据 仓库没有直接的 联系,但在实际应用中,客户需 要通过数据的统 计 来验证他们 对某 些事务的 假设,以 进行决策。数据挖掘强调的不仅仅是 验证人们对数据 特性的假设,而且 它更是主 动寻 找并发现蕴涵在数据之中的规律。 2 . 9数据仓库的数据分析 数据仓库是 进行 分析决策的基 础, 还必须具有强有力的工具进行分析 和决策。 o lap 便 是 这样的一个工具, 用于 支持复 杂的 分析操作。 o la p 侧重对决策人员 和高 层管理人员的决 策 支持,可以 应分析人员 要求快速、 灵活地进行大数 据量的复杂查 询处 理, 并以 一 种直观 易 懂的形式将查询 结果 提供给决 策人员,以 便决策人员准确掌握企 业的 经营状况,了 解市 场需求,制定正 确方案, 增加企业效益。 第18页武汉科技大学 硕 士 学 位论 文 联 机分析处理( o l a p)也称多维分析, 它是一种数据分析技术,能够完成基于某 种数 据 存储的数 据分析功能25, olap系统所要完成的主要任务包括: 给出数 据的多 维逻辑视图, 视图独立于 数据存储的具体形式:允许用户对数据进行交互式查 询和数 据分析( 交互式 操 作有多 种方法, 包括钻取、 切片和切块等) ;检索并显示多维表格、图表 和图 形中的数 据, 便于坐标轴位置的变换;具有较快的查询响应速度,并要求具有高性能的服务器软硬件。 ol ap是分析人员、 管理人员 或执行人员能 够从多角度对信息进行快速、 一致和交互存 取, 从 而获得对数据的 深入了 解的 一类软 件技术。 o lap 的目 标是满足 在多 维环境下特定的 查 询 和 报 表 打 印 需 求, 从 而为 决 策活 动 提 供 支 持。 o l ap的 核 心 是“ 维” 口 诵 e ns fo n) 概 念 。 “ 维” 是 人们观察客 观世界的角 度, 可把一个实体的多项重要属性定义为多 个维, 使用户 能对不同的 维上的数 据进行比 较分析。 ol ap 是多维数 据分析工具的 集合。 例如: 在销售数 据仓库系统中 分析销售 情况时, 通常可 从时间、 产品 、地区的不同角 度深入 观察分析产品 销售情况. 2 . 9 . 10lap三层客户/ 服务器结构 ol ap 是 建立在客户 / 服务器结构之上的。由 于它要对来自 基层的操作 数据( 如果 企业已 建立数据仓库,那么操作历史数据可由数据仓库提供) 进行多维化表示或预处理,因此它 不同于传统o l tp软件的两层客户/ 服务器结构, 而是三层客户/ 服务器机构l71. 图2 . 120 l ap三 层 客 户 / 服 务 器 体 系结 构阴 三层客 户/ 服务器结构如图2 . 12所示,由 数据源( 数据 仓库或o l tp 数据库) 、o l ap 服 务器及o l ap客户机及客户端 应用软件组成。 。 这种结构的 优点在于将应用逻辑( 业务 逻辑) 、 gui 及d b ms严格区分开来,复杂的应用逻辑不是分 布在网 络的 众多pc机上, 而是集中 存 放在应用服务 器上,由 服务器提供高效的数据 存取, 安排后台处理以 及报表的预处理。 o lap是以 数据仓库或数据库为基 础,其 最终数 据来 源是 底层的 0 lt p(联机事务处 理) 数据库系统, 数据仓库是o l a p 的主要数据 源。 这是因为ola p 系统要求对用户的任 何分析 要求都要在 一个稳定一致的时间范围内 给予响 应。为了 获得理想的 响应速度, 进行分析 操 作前, 要先 将所需的数据从分散的企业内部各处的 o l t p数据库中 收集出 来并进行 抽取、 净化、 转换、 汇总等预处理才能使用。 同时 o lap是面向 分析和管理人员的, 而管理决 策 人员大多关 心的 是综合数据,以 便从更高 层次、 全局的角度来分析理解数据。因此存 储了 与 分析相关的 大量综合性数据和细节数据的数 据仓 库成为o l ap 的主要 数据源。 底层o l tp 数 据库在需要时( 如企业数据仓库还未建立好时) 也可为o l ap 的 分析操作提供数据。 武汉科技大学 硕士 学 位 论 文第19页 ola p是针对特定问 题的联机数 据访问 和分析。 通过对信息( 这些信息己 经从原 始的 数 据进行了 转换) ,以反映用 户所能 理解的企业的 真实的 “ 维”。 o l a p拥有多 种可能的 观察 形式和进行快速、稳定一致、 交互性的存取,允许 管理决 策人员 对数据 进行深入观察。 2 . 9 . 2基本概念 ( 1) 变量:变量是数据的实际意义,即描 述数 据是什么。一般情况下, 变量总是一 个 数值度量指标, 例如: “ 人数”、“ 单价” 、 “ 销售量” 等都是变量, 而8 0 0 00则是变 量 的一个值。 (2 )维: 是 人们观察数 据的 特定角度。 例如, 企业常常关心产品 销售数据随着时间 推移 而产生的变化情况, 这是从时间的角 度来 观察产品的销 售,所以 时间就是一 个维度( 时 间 维) 。维的不同组 合和观察的 度量指标构成的多 维数组则是o l a p 分析的 基础, 可形式 化为 ( 维 1 , 维2 , ,维n ,度量指标)。多 维分析指对多维形式组织起来的数据 采取 切片 ( s l i c e )、 切块 ( d i c e )、 钻取 ( dri l l 一 d ,n 和r o l l 一 u p )、 旋转 ( p i v o t )等各 种 分析动作,以便 剖析数据, 使用户能多角度、 多侧面地观察数据仓库中的 数据 阁 ,从而 深 入理解包含在数据中的信息。 (3 )维的层次: 观察数据 特定角度 ( 维) 还可以 存在细节程度不同的 多个描述方面, 称 为维的层次。例如描述时间维时,可以从年、季度、月份、日期等不同层次来描述,那么 年、季度、月份、日期就是时间维的层次. (4 )维成员: 维的 一个取值称为该维的一个维 成员。 如果一个维是多 层次的, 那么该 维 的维成员是在不同维 层次的取 值的 组合。例如, 考虑时间 维具有年、 季度、月 份、日 期 这 四 个层次,分别 在四 个层次 上各取一个值, 就得到了 时间 维的一个维成员,即“ 某年某 季 度某月某日 ”。 ( 5) 多维数组: 一个多 维数组可以 表示为:( 维 1 、 维2 、 、 维n , 变量) 。 例如, 如图 2 . 13 所示的 钢材销售数据是按产品、时间 和地区为主组织起来的 三维立方体,加 上 变量 “ 销 售数量” , 就组成了 一个多维数组( 产品, 时间, 地区, 销售数量 ) 。 产品 广琦 扮 广西一 其它一 线材 棒材 中型 中板 地区 销售额 ( 万元) 2 0 0 32 0 0 42 0 0 52 0 0 6时间 ( 年) 图2 . 15 按产品、 时间 和地区组织的 销售数据 (6 )数 据单 元( 单元格) : 多维数组的取 值称为 数据单元。 当多维数组的 各个维都选中 一 个维成员, 这些维成员的组合就唯一确定一个变量的值。那么数据单元格就可以表示 第20页武汉科技大学 硕 士 学 位论 文 为: ( 维1 维成员、维2 维成员、 、维n 维 成员 、变量的值) 。例如,如图2 . 13所 示, 在 产品 、时间和地区 上各取成员 “ 中板材”、 “ 2 0 05 年” 和 “ 广东” ,从而唯一 确 定了 变量 “ 销售额” 的一个值( 假设为8 0 0 0 0),该 数据单元可表示为:( 中 板材, 2 0 05年, 广东, 8 0 0 q 0 ) 。 ( 7 )多 维 数 据 库( m u l t i 一 o i m e n s i o n a l n a t a b a s e , md d b ) 多 维数据库可以 简单地理解为将数据存放在一 个 n 维数组中,而 不是像关系数 据库那 样以 记 录的 形式存放。 多维数据库增加了一个时间维, 与关系数据库相比 ,它的优势 在于 可以 提高 数据处理速度, 加快反应时间,提高查询 效率. m dd b 并没有公认的多 维模型, 也没有像关系模型 那样标准地取得数据的 方法( 如s q l 、 a pi等 ) 。 基于m d d b 的o lap 产品, 依据决策支持的内 容使用范围 也有很大的不同 . md d b能 提供优良 的查 询性能。 存储在 期db 中的 信息比 在关系数据库中的信息具有更 详细的索引, 可以常 驻在内 存中。 姗db 的信息是以 数组的形式 存放的, 所以 它可以 在不影 响索引的 情况下更新数据。因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论