




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中南民族大学硕士学位论文 i 摘 要 信息化建设使得数据库的数量和容量都变得越来越惊人, 人们在拥有大量数 据的同时却发现缺少真正有用的信息。 商务智能作为解决商务活动中各种问题的 有效手段,发挥着巨大作用。对于中小企业来说,采用良好适用的商务智能解决 方案一方面可从庞大的信息中取得有用信息,以增加利润和市场份额;同时也可 节约资源减少资金投入。因此,研究如何在中小企业中实现商业智能具有重要意 义。 给出了数据仓库与olap的基本概念和相关知识,阐述了数据仓库与olap 的发展和现状,通过将数据仓库与传统的数据库进行比较,表明了传统数据库在 分析决策过程中存在的不足,指出了将olap应用于数据仓库的重要意义。 olap与数据仓库的结合是数据仓库的重要研究方向,本文对数据仓库与 olap的多维数据处理做了重点研究,在此基础上提出了一个新的olap实现方 案,该方案借助企业原有数据库,通过对原有系统及数据进行详细分析,按照数 据仓库的设计要求对原有数据进行重新组织和加工, 将其转化成完整的、 一致的、 细节的和综合的多维数据并加载到数据仓库, 从而建立起适合企业决策分析的决 策系统。这样做不仅可以满足不同企业的不同需求,也很大程度节约了企业的资 金投入。 本文结合实际项目productxsfx,详细阐述了productxsfx的设计和实现过 程,并给出了productxsfx的实际应用效果,进一步验证了该方案的可行性。 关键词:联机分析处理(olap),数据仓库,多维数据处理,商业智能 基于 olap 的多维数据分析在中小企业应用的研究 ii abstract the information technology makes the quantity and the capacity of the database more and more stupendous, people always found them lack of helpful information . business intelligent which is an effective solution of the businesses, makes an important role. for the minor enterprise, the well and applicable solution can help it to get helpful information to raise the profits, and save the costs on the other hand. so it make sense to research the application of business intelligent in the minor enterprise. the article gives the concepts of the dw and olap, expound the development and the current situation of them, through to compare the dw and the traditional database, the article points the fault of the traditional database in the process of analysis and strategic decision, indicates the importance of the using of olap in the dw. the combination of olap and dw is an important research orientation of dw, the article researched the multi-dimensions of the data processing method, and proposed a new olap solution, this solution recur to the inherent database, with the detailed analysis and according to the design proposal of dw , through organization and processing, makes the original data integrated、consistent、detail data to establish decision analysis system to the minor enterprise. to do this can satisfaction the wants of different enterprise and save the costs of the minor enterprise at the same time. the article combines with the actual project productxsfx, expounds the process of its design and realization, and also gives the application result, inspect and verify the feasibility of this solution. key words: online analytical processing; data warehouse; multi- dimensions data processing; business intelligen 中南民族大学中南民族大学 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权中南民族大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1、保密,在_年解密后适用本授权书。 2、不保密。 (请在以上相应方框内打“” ) 作者签名: 日期: 年 月 日 导师签名: 日期: 年 月 日 中南民族大学硕士学位论文 1 第 1 章 绪论 1.1 研究目的和意义 在当今信息时代,人们所面对的已不再是局限于本部门本单位的数据,而是 浩瀚的信息海洋,各种数据正以指数级增长,企业迫切地需要高效、精确、科学 地分析数据,以找出其背后的寓意,进而了解企业的经营状况和外部环境,做出 科学的决断,在现代激烈的市场竞争中胜出。也就是说,数据处理的重点应该从 传统的联机事务处理(on-line transaction processing,简称oltp)扩展到联机分 析处理(on-line analytical processing,简称olap) ,并从中得到面向各种主题的 统计信息和决策支持信息。 传统的信息管理系统(mis)虽然在信息管理、数据处理功能上面体现出极 大的优势,但随着现有企业业务的不断扩大和面临信息的不断膨胀,它在对数据 的决策分析方面存在的问题越来越明显: 1不具备对数据的综合能力 2mis 缺乏时间维,对历史数据分析困难 3对查询结果缺乏分析 4缺乏动态的数据集成功能 5mis 的处理性能不能满足分析处理的性能要求 随着信息量和信息的复杂程度的增加,mis系统的决策能力已经不能满足人 们对信息的需要,在这种背景下,20世纪70年代出现了决策支持系统(dss) , 它是在 mis 系统的基础上发展起来的,能够提供高级查询分析的功能,并能为 各级管理者提供辅助决策。传统的dss一般建立在事务处理环境上,对数据信息 的分析能力越来越不能满足企业决策的要求,数据仓库(data warehouse)的出 现及决策支持工具的充分利用给dss的发展注入了新的活力,从而拓展了dss的 应用领域。目前,以数据仓库为核心,以olap 和 dm(数据挖掘) 工具为手 段的解决方案已经逐渐成为决策支持系统的新的开发方法。 基于dw的olap在大型企业的应用已经相对比较广泛,但是由于其成本较 高,实施部署较为复杂,这种方法在中小型企业的应用尚不够,因此,研究如何 基于 olap 的多维数据分析在中小企业应用的研究 2 将这些方案有效利用于中小企业并为其带来切实的利益具有重要意义。 1.2 国内外研究状况 自八十年代由 w. h. inmon 提出数据仓库的概念以来,数据仓库技术的发 展方兴未艾,并与其他相关技术结合,呈现出新的发展方向。目前,数据仓库技 术主要有这样几个发展方向: 数据仓库技术与 web 技术的结合 数据仓库技术与数据挖掘技术的结合 在国外,数据仓库技术已日臻成熟,基本上略具规模的公司都已经建成了自 己的数据仓库系统,而在我国,数据仓库技术起步较晚,数据仓库的实施还处于 起步阶段,和国外有一定的差距。 在过去的十年当中,olap 技术有了很大的发展,市场上的各种 olap 产 品层出不穷,许多olap 产品供应商都提出了各自的 olap 解决方案,并发布 了相应的产品: 1sas 的 olap 解决方案 sas 的 olap 解决方案包括多维数据库服务器 mddb server 和前端表 现工具,支持几乎所有的操作系统平台,支持 ole。mddb server 提供了 guis,it 人员可以迅速地建立、维护和优化一个 mddb。sas 的前端表现工 具 eis,提供了一个免编程的开发环境,不仅使用简单,而且开发容易。sas 提 供的前端表现工具还有 sas/enterprise guide, web eis, 也可通过支持 ole db 的第三方表现工具,如 excel,将 olap 分析结果呈现给用户。 2oracle 的 olap 解决方案 oracle的企业级olap解决方案oracle express不仅可以帮助用户使用数据仓 库中的所有数据,还能超越数据仓库的范围,集成来自其他系统的数据。express server能够存储和管理多维数组,或通过一种只需要很少,甚至不需要索引的复 杂的多维高速缓存方案,提供直接面向关系数据的分析。 3microsoft 的 olap 解决方案 microsoft的olap解决方案是随sql 2000一起发布的analysis service,它由 服务器和客户端软件组件组成。在服务器端,analysis server作为 microsoft 中南民族大学硕士学位论文 3 windows nt服务来进行运作, 并提供核心的计算功能; 在客户端, analysis server 包含一个称为微软数据透视表服务(microsoft pivottable service)的组件,数据 透视表服务是将olap客户端应用连接到提供分析服务的服务器上的一个工具。 客户端应用程序通过ole db2.0接口或ado2.0对象模型来连接数据透视表服 务,透视表服务通过专门的协议与分析服务器通信,并把olap数据返回给客户 端。 虽然国外的产品已经非常成熟,但由于语言、习惯和价格等因素,不一定适 合国内的中小企业,如有的产品功能强大但难以使用,有的产品通用性不强,有 的产品价格太昂贵, 企业在使用时需要冒较大风险。 因此, 基于数据仓库的olap 在国内中小企业中的应用具有广阔的发展空间和研究前景。 1.3 本文的研究内容和结构 本文首先针对目前普遍应用于中小企业的信息管理系统(mis)在决策分析 中存在的问题,阐述了数据仓库的基本理论、设计方法、分析方法和关键技术, 以及联机分析处理(olap)的理论基础、发展方向和适应分析决策的各种特点, 讨论了olap的基本流程和关键技术,指出了在中小企业应用olap的必要性。 在此基础上,提出了在中小企业实现olap的具体方案,并结合实际项目产 品销售分析系统的实施,对系统进行了需求分析,讨论了创建数据仓库的详细步 骤,并设计了基于星型模型的数据仓库,这样不仅减小了占用的存储空间,而且 结构更加简洁,在一定程度上增大了查询的性能。此外,论文给出了olap多维 立方体的设计实现,并对数据分析客户端的实现进行了讨论,在此基础上建立起 实用的olap应用。 论文内容共分六章进行组织,具体安排如下: 第1章 绪论。阐述本文的选题理由,olap现阶段的主要研究方向以及本文 的主要工作。 第2章 数据仓库技术。阐述数据仓库的基本理论和关键技术,着重讨论创建 数据仓库的基本流程和方法。 第3章 联机分析处理(olap)技术。详细讨论olap的理论基础、发展方 向和特点,阐述olap的基本流程和关键技术,将olap与oltp进行详细比较, 基于 olap 的多维数据分析在中小企业应用的研究 4 由此得出在中小企业应用olap的必要性。 第4章 productxsfx系统数据仓库的设计实现。 结合实际项目“产品销售分析 系统”,进行系统需求分析,提出系统总体设计方案,给出数据仓库的详细设计、 多维立方体的设计实现和etl的实现方法, 在这一章, 完成数据仓库的构建工作, 为后续联机分析的实现奠定基础。 第5章 productxsfx系统olap的实现。在第4章的基础上,针对数据分析客 户端的实现展开讨论,对数据仓库进行多维分析,并建立起实用的olap应用。 第6章 结束语。总结全文的主要工作,讨论下一步的研究内容。 中南民族大学硕士学位论文 5 第 2 章 数据仓库技术 2.1 数据仓库的概念和特点 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家 w.h.inmon在其著作building the data warehouse中给予如下描述:数据仓库 (data warehouse)是一个面向主题的(subject oriented) 、集成的(integrate) 、 相对稳定的(non-volatile) 、反映历史变化(time variant)的数据集合,用于支 持管理决策1。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库 用于支持决策, 面向分析型数据处理, 它不同于企业现有的操作型数据库; 其次, 数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行重组,并包含 历史数据,而且存放在数据仓库中的数据一般不再修改。 2.2 数据仓库的体系结构以及数据组织 2.2.1 数据仓库的体系结构 数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先 按辅助决策的主题要求形成当前基本数据层, 再按综合决策的要求形成综合数据 层,随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层2。数 据仓库中数据的物理存储形式有多维数据库组织形式和基于关系数据库的组织 形式两种。数据仓库的基本体系结构如图2-1所示。 图图2-1 数据仓库体系结构数据仓库体系结构 数据源:数据仓库系统的基础,也是整个系统的数据源泉,通常包括企业内 基于 olap 的多维数据分析在中小企业应用的研究 6 部信息和外部信息。 内部信息包括存放于关系型数据库中的各种业务处理数据和 各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理:是整个数据仓库系统的核心,数据仓库的真正关键是数 据的存储和管理3。数据仓库的组织管理方式决定了它有别于传统数据库,同时 也决定了其对外部数据的表现形式。 olap服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、 多层次的分析, 并发现趋势。 具体实现可以分为: rolap、 molap 和holap三种4。rolap基本数据和聚合数据均存放在rdbms之中;molap 基本数据和聚合数据均存放于多维数据库中;holap基本数据存放于rdbms之 中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。 其中数据分析工 具主要针对olap服务器,报表工具、数据挖掘工具主要针对数据仓库。 2.2.2 数据仓库的数据组织 1数据仓库的数据组织结构 典型的数据仓库的数据组织结构如图2-2所示。 图图2-2 数据仓库的数据组织结构数据仓库的数据组织结构 历史基本数据:存储过去的详细数据,反映真实的历史情况,这类数据随着 时间增加,数据量很大,使用频度低,一般存储在转换介质中。 当前基本数据:最近时期的业务数据,反映当前的业务情况,数据量大,是 数据仓库用户最感兴趣的部分,随着时间的推移,当前细节数据由数据仓库的时 间控制机制转为早期细节数据5。 轻度综合数据:从当前基本数据中提取出来,以较小的时间粒度统计而形成 中南民族大学硕士学位论文 7 的数据,这类数据较细节数据的数据量小得多。 高度综合数据:这一层的数据十分精练,是一种仅次于决策的数据。 源数据经过综合,首先进入当前基本数据级,根据具体需要进一步综合进入 轻度综合级乃至高度综合级,老化的数据进入历史基本数据级。这种不同的综合 级别称为“粒度”。粒度指数据仓库中数据单元的详细程度和级别,数据越详细, 粒度越小级别就越低,数据综合度高,粒度越大级别就越高6。粒度越小细节程 度越高,综合程度越低,回答查询的种类就越多,但查询效率低;反之,粒度提 高,查询效率也会提高。高度综合数据的粒度最大,数据非常精练,是一种准决 策数据。 2粒度与分割 粒度是数据仓库的重要概念,可以分为两种形式,一种粒度是对数据仓库中 的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影 响数据仓库所能回答的种类7。在数据仓库中,多维粒度是必不可少的。由于数 据仓库的主要作用是决策分析, 因此绝大多数查询都基于一定程度的综合数据之 上,只有少数查询涉及到细节。应该将大粒度数据存储在快速设备如磁盘上,小 粒度数据存储在低速设备如磁带上。 另一种粒度形式即样本数据库,它根据给定的采样率从细节数据库中取出一 个子集。这样,样本数据库中的粒度就不是根据综合程度的不同来划分的,而是 由采样率的高低来划分, 采样粒度不同的样本数据库可以具有相同的数据综合程 度。 分割的目的在于提高效率,它是将数据分散到各自的物理单元中去,以便能 分别独立处理8。有许多数据分割的标准可供参考:如日期、地域等等,也可以 是它们的组合。 2.3 数据仓库的设计 数据仓库是面向主题的、集成的、相对稳定的、随时间变化的9,此特点决 定了数据仓库的设计与传统面向事务处理的数据库系统设计具有不一样的设计 方法。数据仓库的设计步骤是这样的:概念模型设计、技术准备工作、逻辑模型 设计、 物理模型设计、 数据仓库生成、 数据仓库运行与维护。 在以上几个步骤中, 基于 olap 的多维数据分析在中小企业应用的研究 8 最主要的是概念模型设计、逻辑模型设计和物理模型设计。但是由于数据仓库的 设计是个循环、反馈,不断扩充、完善的逐步求精的过程,因此这个顺序并不是 绝对的。数据仓库设计流程如图2-3所示。 图图2-3 数据仓库流程图数据仓库流程图 2.3.1 数据仓库概念模型设计 概念模型设计所要完成的工作是界定系统边界、确定主要的主题域,在原有 的数据库的基础上建立一个较为稳固的概念模型10。 因为数据仓库是对原有数据 库系统中的数据进行集成和重组而形成的数据集合, 所以数据仓库的概念模型设 计,首先要对原有数据库系统加以分析理解,分析原有的数据库系统中有什么、 怎样组织和如何分布等,然后再考虑应当如何建立数据仓库系统的概念模型。概 念模型设计是在较高抽象层次上的设计, 因此建立概念模型时不用考虑具体技术 条件的限制。 1界定系统的边界 划定一个当前大致的系统边界,可以集中精力对最需要的部分进行开发。因 而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需 求分析,因为它将决策者的数据分析的需求用系统边界定义的形式反映出来。主 要内容有:要做的决策类型有哪些;决策者感兴趣的是什么问题;这些问题需要 什么样的信息;要得到这些信息需要包含原有数据库系统的哪些部分的数据。 2确定主题域 中南民族大学硕士学位论文 9 确定系统所包含的主题域,在一个较高层次上对数据进行组织、归类,然后 对每个主题域的内容进行较明确的描述,完整、统一地刻画各个分析对象所涉及 的企业的各项数据以及数据之间的关系, 从而使面向主题的数据组织可以独立于 数据的处理逻辑,方便在多种环境上开发新的分析型应用,描述的内容包括:主 题域的公共码键;主题域之间的联系;充分代表主题的属性组11。 2.3.2 数据仓库逻辑模型设计 进行逻辑模型设计的工作主要有分析主题域,确定当前要装载的主题、确定 粒度层次划分、确定数据分割策略、关系模式定义。 1分析主题域,确定当前要装载的主题 在概念模型设计中,确定了几个基本的主题域,但是,数据仓库的设计方法 是一个逐步求精的过程,在进行设计时,通常是一次一个主题或一次若干个主题 逐步完成的。 所以, 必须对概念模型设计步骤中确定的几个基本主题域进行分析, 并选择首先要实施的主题域。 2确定粒度层次划分 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层 次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类 型。在确定数据仓库的粒度时,可以采用多种方法来达到既能满足用户决策分析 的需要,又能减少数据仓库的数据量。如果主题分析的时间范围较小,可以保持 较少时间的细节数据。 3确定数据分割策略 要选择适当的数据分割标准,一般要考虑以下几方面因素:数据分析处理的 实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分 割和如何分割的主要因素。 4关系模式定义 数据仓库的每个主题都是由多个表来实现的, 这些表之间依靠主题的公共键 码联系在一起,形成一个完整的主题。在概念模型设计时,确定了数据仓库的基 本主题,并对每个主题的公共码键、基本内容等做了描述,在这一步里,将要对 选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。 数据仓库中的逻辑模型描述了主题的逻辑实现以及主题之间的关系, 它起着 基于 olap 的多维数据分析在中小企业应用的研究 10 承上启下的作用,既能直接反映出概念模型,又对物理模型的实现起着重要的指 导作用。它主要分为星型模型和雪花模型二种。 星型模型:一种多维的数据关系,核心思想是要在存储于数据库之内的所有 数据之间建立简明清晰的关系,它由一个事实表和一组维表组成,如图2-4所示。 每个维表中都有一个维属性作为主键, 所有这些维组合成事实表的主键, 换言之, 事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实,一般都是 数值或其它可以进行计算的数据;而维度都是文字、时间等类型的数据,它们从 不同的角度描述了业务的各个维度,以满足数据仓库最终用户查询的需要。 图图2-4 星型模型结构示意图星型模型结构示意图 雪花模型:以事实表为中心,四周是访问的角度,对应维表,每一维又可分 为不同的粒度。雪花模型是对星型模型的一个扩展,它把星型模型的维表进一步 层次化,使用多张表来描述一个复杂维,形成一些局部的层次区域,增加了应用 程序的灵活性,降低了维表的数据冗余,每一个维表通过一个关键字与事实表关 联,如图2-5所示。 图图2-5 雪花模型结构示意图雪花模型结构示意图 2.4 本章小结 本章阐述了数据仓库的概念和特点,对数据仓库的体系结构、数据组织进行 了较详细的讨论,并重点阐述了数据仓库的设计方法和步骤。 中南民族大学硕士学位论文 11 第 3 章 联机分析处理(olap)技术 3.1 olap 的概念和特点 联机分析处理(online analytical processing ,olap)的概念是在1993年提 出的。关系数据库之父e.f.codd认为联机事务处理己不能满足终端用户对数据库 查询分析的需要,对大型数据库进行的简单查询也不能满足用户分析的需求。用 户的决策分析需要对关系数据库进行大量的计算才能得到结果, 而查询的结果并 不能满足决策者提出的要求。因此他提出了多维分析的概念,即联机分析处理 (olap)12。 olap是信息技术领域的一种决策支持手段。它的目的是从众多纷繁复杂的 数据中快速找出对决策者有价值的信息。olap技术具有直观的数据操作、灵活 的分析性能、可视化的结果表达等优点,为企业各层次的管理人员提供了多角度 便捷的探察企业数据信息的手段。 olap是一种软件技术,它能使管理和分析人员通过对信息的多种可能的观 察角度进行快速一致和交互的存取获得对信息的深入了解。目前,针对olap技 术的研究相当活跃,对olap的理解在不断的深入,有关olap的定义也层出不 穷 , 这 里 采 用 nigel pendse 提 出 的 fasmi(fast analysis of shared multi- dimensional information)来理解olap的五大特点13。 快速性(fast) 用户对 olap 的快速反应能力有很高的要求,系统应能快速对用户的大部 分分析要求做出反应。对于大量的数据来说,分析要达到这个速度并不容易,因 此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别 的硬件设计等。 可分析性(analysis) olap 系统应能处理与应用有关的任何逻辑分析和统计分析。用户可以在 olap 平台上进行数据分析, 也可以连接到其他外部分析工具上, 如时间序列分 析工具、成本分配工具、意外报警、数据开采等。 共享性(shared) 基于 olap 的多维数据分析在中小企业应用的研究 12 olap 应在保证系统安全的基础上,提供多用户共享数据与信息的机制。 多维性(multidimensional) 多维性是 olap 的关键属性。 系统必须提供对数据分析的多维视图和分析, 包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有 效的方法,是 olap 的灵魂。 信息性(information) 不论数据量有多大, 也不管数据存储在何处, olap 系统应能及时获得信息, 并且管理大容量信息。 3.2 olap 与数据仓库的关系 建立数据仓库的目的是为了支持经营、管理中的决策制定过程,数据仓库中 存储的数据是面向决策的、支持目标的、经过提炼和加工后的数据集合,这种数 据的存储结构为olap的实施提供了理想的环境14;而olap作为一种多维查询 和分析工具,它是数据仓库功能的自然扩展,也是数据仓库中大容量数据得以有 效利用的重要保障。 olap要求所依托的数据环境必须是按多维方式来组织数据的,传统的关系 型数据库对此难以胜任。由于数据仓库的组织形式适合于olap,所以当它一出 现,便迅速地与olap结合在一起。 3.3 olap 的体系结构与多维数据分析 3.3.1 olap 的体系结构 在olap体系结构中,通常采用三层或多层c/s结构,并能扩展成多层b/s结 构。olap的体系结构大致分为数据仓库层、olap服务层和前端工具层,在此 框架结构的基础上可以进一步扩充。图3-1是一个具有代表性的olap系统框架。 图图3-1 olap体系结构体系结构 中南民族大学硕士学位论文 13 3.3.2 多维数据分析 3.3.2.1 olap 的基本术语 为了对olap技术有更深入的了解,下面给出在olap中常用的一些基本概 念。 1维 维是olap中的一个非常重要的概念,是人们观察数据的特定角度,是主题 的基础,是对主题的一种类型划分15。例如,企业想了解某产品销售数据随着时 间推移而产生的变化情况,可以从时间的角度来观察产品的销售,这时时间就是 一个维(时间维) ;企业可以考察自己的产品在不同地区的销售情况,这时可以 从地理分布的角度来观察产品的销售,地理分布也是一个维(地理维) 。 人们观察数据的某个特定角度可以存在细节程度不同的多个描述方面, 称为 维的层次。一个数据维又可以包含一个或多个层次,一个维往往具有多个层次, 例如,时间维可以向下再划分出年、季度、月份、日期等不同的层次;地理维可 以划分为省、市、县、乡等层次。维的层次表示人们观察数据的详细程度,维层 次的确定需要具体问题具体分析, 不同的分析应用对数据详细程度的要求是不同 的。 2度量值 度量值是一组数据,它提供了最终用户感兴趣的数值,描述了数据的实际意 义,即描述数据“是什么”。度量值是所分析的多维数据集的中心值,是最终用户 浏览多维数据集时重点察看的数字数据。一般情况下,度量值是一个数值度量指 标,例如:“人数”、“单价” 、“销售额”等。 3多维数据集 多维数据集是olap的核心,是包含维度和度量值的多维数组结构,一个多 维数据集可以表示为: (维1,维2,,维n,度量值) 。当多维数据集在每个维度 选择一个维成员,这些维成员的组合就唯一确定了一个度量值,例如,在销售数 据仓库中,对于销售而言,按时间、地点、产品三个维度分析,加上度量值“销 售额”,就组成了一个多维数据集16。各维度分别取值“2002年5月”、“武汉”、“电 脑”,就唯一确定了度量值“销售额”的一个值(假设为50000) 。 基于 olap 的多维数据分析在中小企业应用的研究 14 4数据单元(单元格) 数据单元是多维数据集的取值。 当在多维数据集中的每个维中都选中一个维 成员以后, 这些维成员的组合就确定了观察变量的值。 数据单元可以表示为: (维 1维成员,维2维成员,维n维成员,观察变量值) ,例如在3)的例子中,数 据单元可以表示为: (2002年5月,武汉,电脑,50000.00) 。 5超立方结构 超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直,数据 的测量值发生在维的交叉点上, 数据空间的各个部分都有相同的维属性17。 这种 结构可应用在多维数据库和面向关系数据库的 olap 系统中,其主要特点是简 化终端用户的操作。一个多维数据集就是一个立方体,是包含维度和度量值的多 维结构,维度定义立方体的结构,而度量值提供最终用户感兴趣的数值。 3.3.2.2 olap 的多维分析操作 olap中的多维分析是指对以多维形式组织起来的数据采取切片、切块、旋 转等各种分析动作,以求剖析数据,使最终用户能从多角度、多侧面观察数据库 中的数据,从而深入地了解包含在数据中的信息、内涵。 多维分析方式迎合了人的思维模式, 因此减少了混淆并且降低了出现错误解 释的可能性。多维分析的基本操作有: 1切片(slice) 在多维分析过程中,对多维数据集的某个维选定一维成员,这种操作就称为 切片,即如果有多维数据集(维1,维2,维i,维n,观察变量) ,对维i 选定了某个成员,那么(维1,维2,维i成员,维n,观察变量)就是多 维数据集(维1,维2,维i,维n,观察变量)在维i上的一个切片。维是 观察数据的角度,切片的作用或结果就是舍弃一些观察角度,使人们能够更好的 了解多维数据集,通过切片的操作可以降低多维数据集的维度,使人们可以将注 意力集中在较少的维度上进行观察。例如,一个按时间、地点、产品、销售额组 织起来的数组,用多维数组表示为(时间,地点,产品,销售额) 。如果在时间 维上选定一个维成员(比如:2003年5月) ,就得到了在时间维上的一个切片;在 产品维上选定了一个维成员(比如:手机) ,就得到了在产品维上的一个切片。 显然,这样的切片的数目取决于每个维上维成员的个数。 中南民族大学硕士学位论文 15 2旋转(pivot) 旋转就是改变一个报告或页面显示的维方向。例如,旋转可能包含了交换行 和列,或是把某一行维移到列维中去,或是把页面显示中的一个维和页面外的维 进行交换(令其成为新的行或列中的一个) 。旋转的作用是使用户能从不同的角 度分析数据。 3钻取(drill) 钻取包括向下钻取(drill-down)和向上钻取(drill-up)操作。下钻是为了得 到细节数据,是从更具体的抽象层次呈现数据,以产品销售为例,可以将时间描 述为时、日期、月份、季度、年等时间维的层次,若一开始按月划分时间维,当 需要更具体地了解销售情况时,就需要进行下钻,对时间维按天进行划分,这样 就可以了解每一天的销售记录,如果按天划分仍然不能满足查询要求,则需要继 续下钻,直到时间维不能按更小的单位划分时,就可以看到销售情况的细节。因 此,下钻的作用是能更具体的了解数据细节。上钻是为了隐藏细节而得到综合数 据,是从更一般的抽象(或粒度)层次呈现数据,它是下钻的逆过程。 3.4 olap 的数据存储方式 olap是一种用于大容量数据汇总与分析的技术,它必须支持多维性、可钻 取性、可旋转性和多视图模式18。为了满足olap的性能要求,数据仓库可以建 立在关系型数据库的基础上,也可以建立在多维数据库的基础上。根据提供给用 户接口的数据存储方式不同,可以将olap分成三种结构:基于关系数据库的 olap (rolap) 、 基于多维数据库的olap (molap) 和混合型olap (holap) 。 3.4.1 rolap(基于关系数据库的存储结构) rolap(relational olap)是基于关系数据库的联机分析处理, 它的底层数据 库是关系型数据库,而不是多维数据库。rolap一般采用星型或雪花模型来表 达多维数据视图。 3.4.2 molap(基于多维数据库的存储结构) 基于多维数据库的olap以多维数据库为核心。多维数据库以多维方式组织 和存储数据,可以直观地表现现实世界的“一对多”和“多对多”关系。以一张销售 基于 olap 的多维数据分析在中小企业应用的研究 16 情况表为例,假设有三种产品(手机,电脑,空调) ,它们在三个地区(湖北, 湖南,江西)销售,分别用关系数据库和用多维数据库组织这些数据,如图3-2 所示。由此图可以看出,关系数据库采用关系表来表达某产品在某地区的销售情 况,而多维数据库中的数据组织采用了二维矩阵的形式。显然,二维矩阵比关系 表表达更加准确。 图图3-2 两种数据库的数据组织形式两种数据库的数据组织形式 3.4.3 holap(混合型存储结构) holap (混合型) 结构的目的是将molap和rolap两种结构的技术优点有 机地结合起来。目前,对holap还没有一个正式的定义,但holap结构很明显 不是molap和rolap结构的简单组合,而是这两种结构技术优点的有机结合, 能满足用户各种复杂的分析请求19。 3.5 本章小结 阐述了联机分析处理(olap)的基本概念和特点以及olap的相关技术, 重点讨论了olap的体系结构与多维数据分析。 中南民族大学硕士学位论文 17 第 4 章 productxsfx 系统数据仓库的设计实现 本章以企业产品销售分析(productxsfx)系统为实例,详细讨论该系统数 据仓库的设计和实现细节。 4.1 系统总体设计方案 4.1.1 系统需求分析 本节以中小企业中的销售系统为例,针对它在分析决策中的不足,在已有基 础上,提出改进的办法,以使其适应企业分析决策中的各种需求。经过详细的研 究分析,当前中小企业对于产品销售分析的需求主要集中在以下几个方面: 1产品管理 包括产品生命周期的分析与预测、产品价格波动趋势与预测、产品定价的预 测等。 2销售分析 系统录入产品的各种信息,并统计了产品数量,但是除了记录产品细节属性 的数据和总体概况的数据外, 管理者希望尽可能多角度地分析查询有关因素与销 售量的关系,从而能制定出更好的销售计划等等。相关需求如下: 1) 销售量与单个因素的关系。如哪些地区的销售量大;什么季节什么时段 是销售的黄金期;哪些产品的销售量最好等等。 2) 销售量与多个因素的关系。如在两个不同的城市,上季度和本季度不同 型号的产品销量的比较。 总之,销售部的管理人员希望掌握产品销量与各种因素的关系,希望能尽可 能多角度地分析销量值,在此基础上相关人员可以找出影响销量的关键因素,从 而使销售进一步提高。 4.1.2 系统架构设计 productxsfx是一个建立在数据仓库之上的、面向分析的olap系统。它通 过数据etl(数据抽取、转换、装载)把存储在事务数据库中的数据抽取出来, 进行预处理, 存放到数据仓库中的维度表和事实表中, 然后利用olap数据模型, 基于 olap 的多维数据分析在中小企业应用的研究 18 把数据以多维立方体的形式组织存储,最后以可视化多维视图的方式进行输出。 销售分析olap系统的体系结构如图4-1所示。 图图4-1 系统架构示意图系统架构示意图 系统整体框架分为四层:前端展示层、olap服务器层、数据仓库层、业务 数据库层。其中olap服务器层的设计和实现利用sql server2000中的analysis services组件,系统的难点在于业务数据到数据仓库的迁移和前端用户查询分析 的实现,业务数据库层由原系统提供。下面就其它三层分别说明: (1)数据仓库层:把决策主体所需要的数据,从相关的数据源中抽取出来, 进行各种必要的清理、整合和转换等处理,再将这些数据集成,并以一定的组织 结构存储在数据仓库中。在此系统中,数据仓库层是依据原产品信息管理系统中 的数据,通过定期运行etl工具形成数据仓库中数据。数据仓库是系统数据组织 存储的核心,包含了从细节级、轻度综合、中度综合至高度综合各级粒度的数据 层,是按照主题分析的需要建立的企业级全局数据存储。 (2)olap服务器层:这一层的实现依靠分析服务(analysis services) 。 analysis services系统包括一个服务器,用来构造用于分析的多维数据集,同时 analysis services将数据仓库中的数据组织成包含预先计算聚合数据的多维数据 集,以便为复杂的分析查询提供快速解答。 (3)前端展示层:在olap服务器层的基础上构建分析决策支持应用,最后 按客户机、浏览器等各种接入方式为用户提供决策分析的结果。 4.2 productxsfx 数据仓库详细设计 在深入了解销售企业业态、企业销售系统业务流程和信息流程的基础上,结 合中小企业的实际情况,从节约成本、降低复杂性、追求稳定的角度出发,选择 传统的关系型数据管理系统来管理数据仓库数据库。在设计数据仓库时,首先进 行主题、维度、粒度的设计,在此基础上,根据企业销售分析系统所涉及的工作 和决策分析的需求,以销售分析立方体为例,设计立方体星型模型,确定立方体 的维表和事实表的结构,最后创建物理数据库。 中南民族大学硕士学位论文 19 4.2.1 数据仓库主题的设计 这一步骤首先确定系统所包含的主题, 然后对每个主题的内容进行明确的描 述,描述的内容包括:主题的公共码键、主题之间的联系、充分代表主题的属性 组。 productxsfx系统的主题是销售分析,在这个大的主题下细分为如下几个主 题:产品主题、客户主题、销售主题。 1)产品主题 对企业的产品进行分析。一个企业有各种不同的产品,每种产品又有不同的 型号,相应的分析指标也不同,因此在“产品”这个主题下,需要对各种不同种类 和型号的产品进行分析。 2)客户主题 了解、掌握每一位客户的相关信息,分析不同客户的不同购买能力和潜在购 买能力,发现并发展潜在用户,针对不同客户的购买能力和购买习惯等指定不同 的活动,如促销活动等。 3)销售主题 对企业的产品销售情况进行分析。产品在不同地区销售,在同一地区有不同 的销售商,另外,产品的销售还受到天气、时间等各种因素的影响,所以,对不 同情况下的销售情况作出分析有利于制定更好的销售计划和安排。 4.2.2 数据仓库维度的设计 通过需求分析,可以发现产品销售业务中主要关注的问题是商品销售,通过 对商品销售发生的时间、地点、种类和数量进行分析,可以得到许多重要信息, 因此本项目定义以下维度:时间维、客户维、产品维、地区维和销售商维,从而 构成一个多维立方体。 4.2.3 数据仓库粒度的设计 不同的维度将决定不同的聚合层次,按照不同维度的具体特点和分析需求, 对主要维的粒度进行如下划分: 1)时间维的粒度:全部时间、年度、季度、月、周、日 对销售数据在不同级别上进行统计,有不同的意义。按天统计,可以清楚了 基于 olap 的多维数据分析在中小企业应用的研究 20 解每天的销售情况, 按年统计, 则可宏观掌握历史数据, 为今后的管理提供参考。 2)产品维的粒度:全部产品、产品分类、单品 销售的产品种类繁多,产品分类也有大分类、中小分类等不同层次,这种划 分逐步细化,细化到底就是某种单独的产品。 3)客户维的粒度:全部客户、客户 产品销售对象客户可分为两大类:公司客户和私人客户,两者在订单数 量和付款方式上存在很大差异,企业要针对不同客户提供不同服务,制定不同的 策略。 4.2.4 数据仓库建模 确定主题后,下一个任务就是针对各个主题建立数据分析模型,即选择适当 的模型进行数据仓库建模。本系统对各主题选择星型模型建立数据仓库模型,销 售立方体的星型模型结构如图4-2所示。数据仓库建模的一个重要的工作就是设 计事实表和维表。事实表的设计包括四项工作:明确事实数据及相应的数据源、 确定事实表的粒度、确定相应的维度、完成事实表的设计。 明确事实数据及相应的数据源:数据仓库的主题是销售分析,事实数据有销 售相关数据、客户相关数据。数据源可以是一个也可以是多个,这里采用单数据 源,系统的数据来源是生产管理系统中oltp产生的业务数据。 对于事实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025空军军医大学幼儿园招聘(4人)模拟试卷及答案详解(名校卷)
- 2025年福建省福州市电子集团有限公司招聘30人考前自测高频考点模拟试题(含答案详解)
- 2025湖南娄底市市直学校公开招聘教师16人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025年宝应县卫生健康系统事业单位公开招聘专业技术人员37人考前自测高频考点模拟试题附答案详解
- 2025春季浙江省自然资源集团校园招聘考前自测高频考点模拟试题参考答案详解
- 2025年伊春金林区公益性岗位招聘16人考前自测高频考点模拟试题及一套参考答案详解
- 2025湖南省肿瘤医院高层次人才公开招聘44人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025年水发集团权属一级公司纪委副书记专项招聘考前自测高频考点模拟试题完整参考答案详解
- 2025年中国化妆品防篡改标签行业市场分析及投资价值评估前景预测报告
- 2025年河北唐山市消防救援支队政府专职消防队员招聘113人考前自测高频考点模拟试题及参考答案详解一套
- 乌兹别克语自学课件
- 《“盛世华诞”国庆主题》课件
- 四川省算云科技有限责任公司笔试历年参考题库附带答案详解
- 2025年江苏卫生健康职业学院单招《语文》检测卷
- 物流客服培训课件
- 川教版四年级上册《生命.生态.安全》全册教案(及计划)
- 华为技术有限公司企业简称2023环境、社会与公司治理报告:高科技行业ESG绩效与NGO监督
- 办公室装修安全知识培训课件
- 县级医疗重点专科建设项目申请书范文
- 穿心莲栽培技术
- 和奶奶一起做散步公开课
评论
0/150
提交评论