基于关系数据库的数据仓库星形模式下维使用原则的研究与探索_计算机工程与设计_第1页
基于关系数据库的数据仓库星形模式下维使用原则的研究与探索_计算机工程与设计_第2页
基于关系数据库的数据仓库星形模式下维使用原则的研究与探索_计算机工程与设计_第3页
基于关系数据库的数据仓库星形模式下维使用原则的研究与探索_计算机工程与设计_第4页
基于关系数据库的数据仓库星形模式下维使用原则的研究与探索_计算机工程与设计_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文发表于2005 年 1 期 基于关系数据库的数据仓库星形模式下维使用原则的研究与探索 马根峰 (广东电信公用电话管理中心 广州 510635) 摘要 星形模式是基于关系数据库的数据仓库中的一个著名概念,由于星形连接模式的 设计思想能够满足人们从不同观察角度(维)分析数据的需求,所以在基于关系 数据库的数据仓库的设计中广泛地使用了星形模式。在使用数据仓库来回答综合 性问题的场合,通常可以使用 OLAP 工具实现记录不多的较高粒度表的维度旋转 来满足不同分析的需要;而在数据仓库中较高粒度表中记录非常多或者还要经常 回答细节问题的场合,则还必须对数据仓库中记录非常多的较高粒度的表或者细 节级表进行维度转换。但通常的 OLAP 工具难以处理几十万条记录数据表的维度 旋转,针对这种应用场合,笔者提出了一种”有选择地使用维的星形模式”,在事 实表中避开使用要旋转的维,用存贮过程编写程序高效地实现 OLAP 工具相应的 功能,对星形模式下维的使用原则做出了一定的探索。 关键词 数据仓库;星形模式;维度 ;OLAP the research of the restricted use of Dimensionality in Star Schema in Data Warehousing based on RDS MA Gen-feng (Public Payphone Center, Guangdong Telecom Corporation, Guangzhou 510635) ABSTRACT: Star Schema is a famous conception in Data Warehousing based on RDS. Its widely used in Data Warehousing based on RDS for its convenience for people to analyze data from different angle. In the situation for people using Data Warehousing to answer the all-around question, OLAP tools is usually used to circumrotate the Dimensionality of high granularity tables with a few records for the requirement of analyse. If there is a great deal records in high granularity tables or In the situation for people using Data Warehousing to answer the detail question, its necessary to circumrotate the Dimensionality of those high granularity tables or the detail tables in Data Warehousing. While its very difficult for OLAP tools to circumrotate the dimensionality of tables with more than ten thousands records, I issue a new Star Schema with restricted using of dimensionality. In this Star Schema the fact tables without the dimensionality to be circumrotated is designed, then I develop a program using stored procedure to implement the corresponding function of OLAP tools in high efficiency. In this process definite research is done about the rule of using dimensionality in Star Schema in RDS. KEY WORDS: Data Warehousing; Star Schema; Dimensionality; OLAP 1 引言 星形模式是基于关系数据库的数据仓库中的一个著名概念,由于星形连接模式的设计 思想能够满足人们从不同观察角度(维)分析数据的需求,加上数据仓库通常用来回答综 合性的问题,并且通常的 OLAP 工具可以很轻松地实现记录不多的较高粒度表的维度旋转 来满足不同分析的需要,所以在基于关系数据库的数据仓库的设计中广泛地使用了星形模 式,如电信运营商中普遍进行的话务总体分析。在这种总体分析中,主要分析某一计费月 各地区的总体话费及其在不同计费月期间的变化。 而在数据仓库中较高粒度表中记录非常多或者还要经常回答细节问题的场合,则还必 须对数据仓库中记录非常多的较高粒度的表或者细节级表进行维度转换。如在目前电信市 场尤其是公话市场竞争激烈的今天,广东电信公用电话管理中心的经营分析人员迫切进行 的公话终端(首先是一百多万部 200 专用话机)话费的动态分析。在这种话费的动态分析 中,不仅要分析分析各地区、各市县、各支局、各用户类型以及它们不同组合情况下的 200 专用话机在某一计费月的总体话费及其在不同计费月的变化,而且还要从细节上分析 带来这些变化的一百万多万部 200 专用话机在某一计费月的话费在不同计费月期间的变化。 因为只有这样才能了解 200 专用话机总体话费及其变化的原因或找出其中的规律,为管理 者决策提供依据。但通常的 OLAP 工具难以处理几十万条记录数据表的维度旋转,更不用 说是对每个月都有一百多万条话费记录的 200 专用话机话费细节表在时间维度上的旋转了。 笔者在”基于数据仓库和维度转换的广东电信公用电话 200 专用话机话务的动态分析系统” 的研究与开发过程中,在数据仓库星形模式设计时有选择地使用维,在星形模式中各粒度 200 专用话机话费表中避开使用时间维,然后用存贮过程编写维度转换程序代替 OLAP 工 具来旋转操作型环境下话费表中的时间维,在 PC 机上每一次只需要一个小时就完成了一 个月一百多万条记录的操作型环境下话费表的维度转换并生成了数据仓库中各粒度表的数 据,轻松地实现了一百多万部 200 专用话机话费的动态分析,对数据仓库星形模式下维的 使用原则做出了一定的探索。 2 只回答综合性问题场合下的星形模式及 OLAP 处理 2.1 星形模式设计 在只回答综合性问题的场合,也是绝大多数应用数据仓库的场合,由于 OLAP 只 涉及数据仓库中记录不多的较高粒度的表,所以在这种场合,数据仓库中各粒度表都 使用尽可能多维的星形模式。如下面电信运营商为了进行总体话费分析所采取的星形 模式,在这种星形模式下,事实表中包含着用于分析的指标( 话费) 和联接众多维表的 主键。 话 机 话 费电 话 号 码地 区 代 码市 县 代 码支 局 代 码类 型 代 码时 间 代 码话 费地 区 维 表 时 间 维 表时 间 代 码年 月话 机 维 表 地 区 、 市 县 、 支 局 代 码时间代码电话号码图 1 传 统 星 形 模 式 下 数 据 仓 库 中 的 细 节 级 数 据 表话 机 类 型 维 表 类型代码 话 机 话 费地 区 代 码市 县 代 码支 局 代 码类 型 代 码时 间 代 码话 费话 机 数 量地 区 维 表 时 间 维 表时 间 代 码年 月地 区 、 市 县 、 支 局 代 码时间代码图 2传 统 星 形 模 式 下 数 据 仓 库 中 轻 度 综 合 表话 机 类 型 维 表 类型代码 话 机 话 费地 区 代 码类 型 代 码时 间 代 码话 费话 机 数 量地 区 维 表 时 间 维 表时 间 代 码年 月地 区 代 码 时间代码图 3 传 统 星 形 模 式 下 数 据 仓 库 中 高 度 综 合 表话 机 类 型 维 表 类型代码 2.2 使用 OLAP 工具进行话费总体分析 对于图 2 中的高度综合表,由于广东电信下属 22 个分公司,公用电话话机有 20 种类型,所以 10 年内表中的记录数为 52800 条记录,所以完全可以用 OLAP 工具对 高度综合表进行维度转换,将时间维从事实表中去掉来完成几个月来各地区、各话机 类型或者各地区的各种类型话机话费的总体变化,完成总体话费的分析。 3 有选择地使用维的星形模式及话费动态分析的实现 在图 1 至图 3 中,如果要进行各地区、各市县、各支局不同类型话机话费的动态分析, 则还必须对图 2 中的轻度综合级表进行维度转换,而广东电信现有 1400 多个支局,那么一 年内轻度综合级表中的记录就达到 30 多万条,在这种情况下用 OLAP 工具来分析几年间 话费的变化就难以实现,更不用说对一年内就达 1200 多万条记录的 200 专用话机话费细节 表进行 200 专用话机进行话费的动态分析了。笔者曾经使用 OLAP 工具 BrioQuery 在 PC 机上实现 200 万条记录的话费细节表在时间维度上的转换,运行 135 个小时也没有转换成 功。在电信市场尤其是公话市场竞争日益激烈的今天,为了实现经营分析人员所迫切进行 的 200 专用话机话费的动态分析,必须对上面的星形模式进行特殊的处理,笔者所采用的 方法是在事实表中有选择地使用维,将事实表 200 专用话机话务中的时间维去掉,在事实 表中增加各个时间维成员作为事实表的字段,使用存贮过程编写维度转换程序来代替 OLAP 的操作。 3.1 有选择地使用维的星形模式 话 机 话 费电 话 号 码地 区 代 码市 县 代 码支 局 代 码类 型 代 码时 间 代 码2031话 费.8话 费地 区 维 表话 机 维 表 电话号码图 4 选 择 性 使 用 维 星 形 模 式 下 细 节 级 表话 机 类 型 维 表地 区 、 市 县 、 支 局 代 码类型代码 话 机 话 费地 区 代 码市 县 代 码支 局 代 码类 型 代 码话 机 数 量2031话 费.8话 费地 区 维 表话 机 维 表 电话号码图 5选 择 性 使 用 维 星 形 模 式 下 轻 度 综 合 表地 区 代 码 话 机 类 型 维 表类型代码 话 机 话 费地 区 代 码类 型 代 码话 机 数 量2031话 费.8话 费地 区 维 表话 机 维 表 电话号码图 6选 择 性 使 用 维 星 形 模 式 下 高 度 综 合 表地 区 代 码 话 机 类 型 维 表类型代码 对于关系模式的这种设计,大家可能会一方面质疑它的扩展性,即它能进行其它 时期话费的动态分析吗?另一方面可能会质疑如果它可以扩展来进行其它时期话机话 费的动态分析,那最多进行多少年话机话费的动态分析?在笔者开发的 200 专用话机 话费的动态分析系统中,只要在选择性使用维的星形模式中各级话费表中增加几个月 份的金额字段,在我编写的维度转换程序中增加几个变量及几条赋值语句,就可以统 计分析许多年的话费数据;两者,MS SQL SERVER7.0 最多支持 1024 列的表,这可 以用来统计分析 80 多年的数据。 3.2 话务表中时间维的旋转 在笔者开发的 200 专用话机话费的动态分析系统中,笔者采用的方法是每个月对该 月的话机话务表和图 4 中的细节表进行合并,这样做的优点一是每次只需要处理一个月 一百多万条 200 专用话机话费记录,而不是像 OLAP 工具那样处理 n 个月的话费数据; 二是经过查询优化,在 PC 机上每一个月 200 专用话机话费表的合并操作只需要一个小 时的处理时间。具体合并过程如下图所示: 图 7 消 除 时 间 维 示 意单 月 话 费电 话 号 码地 区 代 码市 县 代 码支 局 代 码类 型 代 码时 间 代 码话 费时 间 维 表时 间 代 码年 月 时间代码 表合并 话 机 话 费电 话 号 码话 机 类 型时 间 代 码地 区 代 码市 县 代 码支 局 代 码2031话 费.8话 费话 机 话 费电 话 号 码话 机 类 型时 间 代 码地 区 代 码市 县 代 码支 局 代 码2031话 费.8话 费 4 结束语 对于使用数据仓库来回答综合性问题的场合,星形连接模式可以满足决策者从不同 的维来观察数据的需求,并且通常的 OLAP 工具可以实现记录不多的综合级表的维度旋转。 笔者曾在 PC 机上使用某一 OLAP 工具来实现两个月 200 多万条话费记录的维度转换时, 运行了 xx 小时也没有完成时间维的转换操作。而在数据仓库中较高粒度表中记录非常多或 者还要经常回答细节问题的场合,则还必须对数据仓库中记录非常多的较高粒度的表或者 细节级表进行维度转换。如分析电信运营商中几十万、几百万乃至于几千万部话机在时间 维不同维成员的话费变化时,通常的 OLAP 工具却难以完成这样的操作。笔者在”广东电 信公用电话 200 专用话机话务的动态分析系统”的研究与开发过程中,在数据仓库设计时有 选择地使用维,在星形模式中各粒度 200 专用话机话费表中避开使用时间维,然后用存贮 过程编写维度转换程序代替 OLAP 工具来旋转操作型环境下话费表中的时间维,在 PC 机 上每一次只需要一个小时就完成了一个月一百多万

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论