




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电 力大学硕士 学位论文摘要 摘要 联 机 分 析 处 理 (ol 八 卫 ) 是 建 立 在 数 据 仓 库 基 础 上 的 一 种 支 持 多 维 分 析 的 决 策 支 持 技 术, 国外主流的 数据库厂商 都提供了自己 的 数据仓库与o l a 尸 解决 方案和产品。 本论文 对数据仓库 与o l 冉 卫技术进行了 系统深入的 研究, 从供电企业电量电费 数据入手, 设计 并实现了电 量电费 数据仓库, 整合了 现有电 量电费 业务处理系统的 数据; 研究了 当前流 行的n ee 应用框架,使用0 口 c l e j d e v e l o 伴 r 结合0 晓 l e bi b eans设 计供高层决策的基 于b / 5 结构的电 量电费数 据仓库o l a 卫系统, 为供电企 业处理 海量的 信息、 建立有效的 决策 支持系统提供了 一种方便快捷的方 法。 关键词:数据仓库, e b ,o l a p , j z e e abs t ract 0 1 1 inc朋al yti因p r o cess 吨(ol ap)is a d e c i s l o n l echoo l o gy to s u p port m u l t l 一 di mens1 0 n alana l y s isw h i ch isbullt on a b as i s ofd a taw 田 限 b o use , 如d fo 代 i gn 由加 由 姗 双 切 叮 团 血 c 奴 此巧 恤, 亡p r o v j d ed sol u t i o ns 朗dp r odu 由 a 加以 曲扭 w ar e b o 理 犯 明d o l a 卫 . hi面s p al 祀 r, th c 吐 岭 o ryofthe ds tav 比 ” h o use an d o l 八 卫b a s 比e n s tu d ied ind e p th . w e de s ign an d 加p 】 e m e n t the q uad t itya l l d c b ar g e ofel e c 肠 ci tyd a taw ar e h o 二 ona b as is of d 欧 a加m此 el e c t d c ale n t e rp ri s es an d1 n t e grat ed the 翻s t i n gb us in e s s datap r o c e s s i n g sy s t e m . w e 】 e 田 刀 edthe pop u 】 arjz ee 即 p l i c at i o n 丘 aj n e 铸 心 比让 兄 助。 1 o gy 助d de si gnedthe 盯 劝 c mofthe o l a pb as ed on b / 55 切 明 t ur e for hi gh一 l e v e 】 d e c i s i o n . m aki n g us m go ra c l e j d e v e l o p 沈胡 d o r a c l e bi b e ans. w 七 p r o v i d e a convelne ntan d e 伍 c i e ntm e th od for power 翻妞 印石 ses to h and 1 emass ive 1 n forma1 1 on andthe e s ta b 1 is h m e nt of an e ffective d e c i si on s u p ports y s l e m l i yon g s h e n g ( c o mm u n i c ati o na n di n forma t i o ns y s t e m ) d i r e c t e db yp r o f.yuan j i n s h a k e ywor d s : d a t aw a r e h o u s e , we b , o l a p,j z e e 声明 本人郑重声明: 此处 所提交的 硕士学位论文 电 量电 费数据仓库o l a 夕技 术研究 , 是本人在华北电力 大学攻读硕士 学位期间, 在导 师指导下 进行的 研究工作和取 得的 研究 成果。 据本 人所知, 除了 文中 特别 加以标 注和致谢之处外, 论文中不包含 其他人己 经发 表或撰写过的 研究 成果, 也不包含为获得华北电 力大学或 其他教育机构的学位 或证书而 使用过的材 料。 与 我一同 工作的同 志对本研究 所做的任何 贡献均已 在论文中作了明 确的 说明并表示了谢意。 学 位 论 文 作 者 签 名 : 珍平 胆 日期 : “亡 军 且 里 关于学位论文使用授权的说明 本人完全了解华北电力大学 有关保留、 使 用学位论文的规定, 即: 学校有权保管、 并向 有关部门送交学 位论文的原 件与复印件; 学校可以 采用影印、 缩印 或其它复制手 段复制并保存学位论文; 学校可允 许学位论 文被查阅或借阅; 学校可以 学术交流为 目 的, 复制赠送和交换学 位论文: 同 意学校 可以 用不同 方式在不同 媒体上发表、 传播 学位论文的全部或部分内容。 港 密的 学 位论文 在解密后 遵守 此规定 ) 作 者 签 名 : 落伞 胜 期 健 浮 兰 少 导师签名: 期: 华北电 力大学 硕士学位论 文 第一章 引言 研究背景 在电 力行业中,随着管理信息系统的发展, 供电企业积累了 大量基础数据,这 些数据是对供电企业业务运作的 详实记录, 是企业最宝贵的数据资源。 但由 于种种 原因,这些数据未能充分发挥其作用, 主要表现在以 下两个方面:13 ( 1) 信息共享度低。 目前大部分供电企业己经建立管理信息系统( m l s),如电量电费管理系统、 基 建管理系统、计量管理系统、调度管理系统、 业扩报装管理系统、财务管理系统、 物资管理系统、 安全管理系统等, 这些系统在提高供电企业的管理水平方面发挥着 越来越重要的作用。 但这些主要是及时 快速的 业务操作系统,综合性、 全局性的分 析查询难以实现。 由于各个子系统建设时 大多是各个基层单位根据自身需要进行开 发, 建设过程中受技术和认识的局限,开发的系统仅局限于本单位或者本专业的应 用, 对信息的共享问题重视不够。 虽然部分网络通过网桥互连, 但由 于网络间的数 据不可加工利用, 因而无法实现真正意义上的信息共享; 各个管理部门 和生产部门 缺乏流畅、清晰的信息流转通道 。 这些系统表达信息的数据随着时间和业务的推进 而不断膨胀,而且数据分布在不同的系统平台上,并具有多种存贮形式。 (2 ) 信息缺乏综合利用。 目前计算机系统在业务处理方面发挥着举足轻重的作用,同时也为供电企业积 累了大量基础数据。 数据中包含了许多十分有用的信息, 这些信息可以 为企业发现 问题及进行决策提供很大的帮助。如何将这些信息综合利用起来,将操作型数据转 变为决策型数据,为决策提供依据是需要急待解决的问 题。 对有相当数据积累的供电企业来说, 需要一种面向最终用户的自由 查询和统计 分析的工具, 使业务人员和决策者可以 任意访问企业信息数据, 迅速做出正确而及 时的决策。 而依靠传统统计分析方式己 经远远不能满足供电企业的要求,因此, 使 用具有灵活查询的联机分析处理系统变得十分迫切。 本文针对用电营销中的电量电 费领域, 探讨和研究电量电费数据仓库技术及在 此基础之上的 o l a p技术及其应用。 1 . 2数据仓库与 o l a p 技术国内外动态 数 据仓 库 和联 机分 析处 理 ( o n l in e 劫a lyt i c a l p r o c e s s i n g , o l a p ) 是 在1 9 9 0 年以 后提出的词汇和概念.近年来, 数据仓库(dat a , la r ehous e) 理论研究已 经逐渐成型, 联机分析处理( o n li ne a nal yt ic alp ro cess in g ,o l ap ) 作为数据仓库最主要的应用技 华北电 力大学硕士 学位论文 术引 起了 学 术界 和 企业 界的 广 泛关 注tj . 数据仓库具有广泛的意义, 它描述一个过程, 在这一过程中根据特定策略组织 数据, 使用户可以 通过使用联机分析处理技术来有效地获取信息和支持决策。 联机 分析处理以多维分析为基础,刻画了在管理和决策过程中通过对数据仓库的访问, 实现对数据多层面、 多角度的分析处理, 并以 直观易懂的形式将结果提供给决策者。 一般来讲,联机分析处理是一个软件工具, 使用这一工具, 数据被储存为 “ 多维数 据”的形式,并可以对多维数据进行查询和浏览. 在 1999 年微软推出 mss q l serv er 7. o 时, 至少己 经有100 个以 上的公司 提供各种联机分析处理的工具。 由 于这 项技术具有极高的实用价值和理论价值, 因而成为学术界研究的热门领域。 近年来, 多家进行数据仓库解决方案研究的公司为开发人员提供 o l a p 程序开发接口 , 使得 o l a p 的应用更为灵活。 1 9 9 6 年美国市场调查表明, 有关数据仓库项目的 平均成本是2 0 0 5 0 0 万美元。 这些资金主要用于硬件扩充、软件开发和人员培训, 因而那时只有大型公司才有可 能发展数据仓库及其集成应用系统. 19 98 年以 后, 人们的注意力转向 组建便宜、 快 捷的中小型数据仓库应用系统, 2 0 0 0 年以 后, 数据仓库应用系统的开发与应用达到 高潮。 许多软件公司都推出了 数据仓库的集成应用系统, 这些系统可以 对数据进行 快速的联机分析处理, 得出令决策者感兴趣的结论, 为企业决策支持提供了数据基 础和理论根据。 正是由于数据仓库和联机分析处理技术的快速发展, 使得它们的 应用领域越来 越广泛。 本课题把数据仓库和联机分析处理的 技术应用到电力行业中, 进行电量电 费数据仓库o l a p 技术的研究与开发。 1 . 3本文研究内容 本文所做的主要研究内 容有: ( 1) 深入研究数据仓库和 o l a p(联机分析处理) 技术. (2 ) 从 供电 企 业电 量电 费 数 据入 手, 设 计电 量电 费 数据 仓 库, 整 合了 现有电 量电 费业务处理系统的数据。 ( 3 ) 研究 当 前 流行的j z e e 应 用 框架 技 术, 使 用o ra c l e j d e v e l o p e r l o g 结 合 o r ac kb i b e an: 设计供高 层决策的电 量电费o l a p 系统, 为企业处理海量信息、 建 立有效的决策支持系统提供一种方便快捷的方法。 (4 ) 分析所设计 o l a p 系统的应用方面及具体实现过程, 完成包括数据转换、 多 维分析、图表显示等功能。 华北电力大学硕士学位论文 第二章 数据仓库与o l a p 技术 数据仓库是一种优化管理、提供决策支持的企业数据解决方案,它并不是一个 新的平台,而是一个新的概念:它也并不是对传统数据库的替代,而是在传统数据 库的基础上对数据进行重新组织,用于支持决策分析。数据仓库创建以 后,企业的 经理、 主管和商业分析员就开始使用各种方法对数据仓库进行操作,其中 应用较多 的是一些复杂的数据查询, 这些查询应该是多角度的、 多视图模式的、 下钻上卷的、 可旋转的。完成这些查询仅有数据仓库是不够的,必须依靠工具来帮助决策者做出 正确 判 断. 因 此, 一 种 新的 基于 多 维 分 析的 联 机 分析 处理 ( o n l in 。 a n a lyt ic al p ro ce ss in g , o lap) 技术 便 应 运而 生。 2 . 1数据仓库技术 2 . 1 . 1数据仓库的产生 传统的数据库应用系统主要是面向 事务处理( o l tp) 的, 实现大量日 常事务处理 的电 子化,减少了 业务人员的工作量, 大大提高了 工作效率。因此20世纪90年代以 来, 越来越多的企业和部门纷纷建立数据库管理信息系统(m1 5). 管理信息系统已成 功应用于全球各行各业,并积累了大量数据,基本上满足了用户对数据存储、查询 和统计的需要。然而激烈的 市场竞争激发了 各行各业对计算机应用的 更多样需求。 今天, 计算机用户早己不满足于计算机仅能帮 助他们迅速地处理具体业务, 他们需 要从己 经积累的海量历史数据中探索业务活动的规律性,实现数据到信息的转换。 但是传统数据库满足不了这样一种对数据处理多样化的要求,其原因主要是传统数 据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分 析活动。具体表现在以 下四个方面: ( 1) 不能同时满足事务处理和分析处理的 需要 事务处理和分析处理具有完全不同的性质。事务处理的特点是面向应用,支持 日 常操作,事务频繁, 但每次操作数据量小, 对性能、 速度要求高; 分析处理的 特 点是面向分析,支持管理需求,每次操作的数据量大.两者之间的巨大差异使得传 统的关系数据库管理系统无法在事务处理和分析处理两方面同时令人满意。 (2 ) 无法集成企业内、外部各方面的数据 有效的分析和决策需要完整而正确的 数据, 然而传统的数据库在数据完整性、 一致性方面不能达到决策支持的要求。首先,由于企业业务的多样性, 企业内部不 同业务部门 往往有不同 的业务处理系统, 从而造成数据结构的不一致:其次,一般 大中型企业的 销售业务在不同地区有很多网点, 造成业务数据分散的状况;第三, 3 华北电 力 大学硕士学 位论 文 很多企业的 业务是面向市场的,管理者在决策中经常要用到如市场行情等外部数 据。 传统的 数据库技术,无法集成企业内 外部各种类型的分散、异构数据, 也就不 能为管理者提供完整准确的信息, 达到辅助决策的目 的。 (3 ) 数据访问 效率低 企业的营运数据往往是海量的, 特别是数据密集型企业。一般关系型数据库访 问分析这些数据的效率非常低,一个典型的关系数据库每秒可读大约二百条记录, 可写二十条新记录,而当数据量大的时候,速度是常常令人无法忍受的。 (4 ) 难以 适应各类用户对数据综合程度的不同要求 传统数据库中存储的是细节数据, 而在决策分析时, 管理人员需要的是综合数 据,而且根据用户级别和分析对象的不同,需要对细节数据进行不同程度的综合。 比如,长期趋势分析预测需要按年度汇总,而中短期趋势预测要用到月、周、日的 数据。传统数据库系统不具备这种综合能力,需要人为地进行综合和汇总,而且每 做一次分析,都要进行一次这样的综合, 这必将导致极低的处理效率。 随着对操作型处理和分析型处理各自 特点认识的加深, 人们意识到要提高分析 和决策的效率,分析型处理及其数据必须和操作型处理及其数据相分离, 必须把分 析型数据从事务处理环境中提取出来,进行重新组织, 建立单独的分析处理环境。 数 据 仓库 正 是在 这种 情况 下产 生, 成为 数 据 库领 域的 新 热点t.j 。 2 . 1 . 2数据仓库的定义及特征 数 据仓 库 之父 w .h j nlno n 在19 93 年所 写 的 论 著 b ul ldi ngth e d ata w arehous 峥 中将数据仓库定义为: “ 数据仓库是一个面向 主题的、集成的、随时间变化的、非 易失性的数据集合,用于支持管理层的决策过程。” 这个定义简洁而又全面的指出 了数据仓库的四个主要特征: ( 1) 面向主题的 主题是数据归类的标准,每个主题对应一个客观分析领域,如电 量、电 费等, 它可为辅助决策集成多个部门 不同 系统的大量数据。数据仓库包含大量的历史数 据,经集成后进入数据仓库的 数据是极少更新的.数据仓库内的数据时限为五年至 十年,主要用于进行时间趋势分析。数据仓库关注决策者的数据建模与分析,而不 是集中于组织机构的日 常操作和事务处理。因此,数据仓库排除对于决策无用的数 据,提供特定主题的简明视 图。 (2 ) 集成的 通常,构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事 务处理记录,集成在一起。使用数据清理和数据集成技术.确侯命名约宁、编码块 华北电力大学硕士学位论文 构、 属性度量等的一致性。 ( 3) 时变的 数据存储从历史的角度提供信息。数据仓库中的关键结构, 隐式或显式地包含 时间 元素。存储在o l tp系统中的数据可以正确地表示任何时间的任何值,o l tp系 统通常只包含当 前的数据,不同时间的查询一般会得到不同的查询结果。 (4 ) 非易失的 数据仓库总是在物理位置上分离存放源于操作环境下的应用数据。 由于这种分 离, 数据仓库不需要事务处理、 恢复和并发控制机制。 通常只有两种数据访问 操作, 即数据的初始化装入和数据访问。存储在数据仓库中的是某一时刻的数据, 一般不 允许删除、 插入和修改。当数据移动到数据仓库之后,一般是不改变的,除非存储 的数据不正确。 2 . 1 . 3数据仓库的体系结构 数据仓库系统的任务就是对进入数据仓库的原始数据进行抽取、转换、过滤、 清洗等处理, 最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、 使用、表现等的相关软件工具进行集合,用以支持数据仓库应用或管理决策。 数据仓库系统通常由数据仓库、 管理部分和分析工具三个部分组成, 这三个部 分之间的关系如图2 一 1 所示。 画画画 数据源数 据 存 储 与 管 理 olap 服 务 器 前端工具与应用: - . . . - - 一 - - - 一 一 j - - - - - . - 一 - - - . - . . - . . . - - - 一 1. - - . - - - - - - . - - - - . - . 一 一 . - . - - - - - - - 一 j 图2 一 1数据仓库体系结构 数据仓库是适应信息分析的需要产生的, 所以数据仓库技术应包括支持决策分 析的全过程解决方案。具体应包括: , 华北电 力大学 硕士 学位论文 ( 1 ) 从任何业务处理系统或数据源中取出决策所需要的数据. (2 ) 对数据进行清理和整合。 (3 ) 按 计划 或者 规 则 进行 数 据仓 库的 装载 和 更 新. 仔 ) 按 照支 持决 策 的需 要, 以 多 种 形 式 进行 数 据和 信 息的 组 织。 (5 ) 具 有丰 富的 决 策 数 据分 析能 力。 (6 ) 具有多种灵活的表现方式。 如图 2 一 1 所示, 数据仓库应具有多 种工具, 从多个操作型数据库和外部数据源中 抽取数据的工具, 清洗、 转化和整合数据的工具, 将数据装载到数据仓库中的工具, 定期刷新数据仓库以 反映数据源中的更新和从数据仓库中清除数据的 工具。除主要 数据仓库外,还可以 有很多部门级的数 据集市。 数据仓库和数据集市中的数据由 一 个或几个数据仓库服务器存储和管理, 数据仓库服务器通过前端工具将这些数据从 多维角度展现出 来。前端的工具包括: 查询工具、报表生成器、分析工具和数据挖 掘工具。最后, 还有一个存储和管理元数据的元数据库以 及监视和管理数据仓库系 统的工具。 2 . 1 . 4数据仓库的数据组织 数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一 般包括早期细节数据、当前细节数据、轻度综合数据以及元数据五部分。典型的数 据组织方式如图2 一 2 所示。 图2 一 2数据仓库典型的数据组织方式 华北电 力大学 硕士学位论 文 (l ) 早 期 细 节数 据: 存储 过去 的 详细 数 据, 反 映真 实的 历 史 情 况。 这 类数 据 随 着 时间 增加,数据量很大,使用频度低, 一般存储在转换介质中。 (2 ) 当前细节数据: 最近时期的业务数据, 反映当前业务的情况, 数据量大, 是 数据仓库用户最感兴趣的部分。随着时间的 推移,当 前细节数据由 数据仓库的时间 控制机制转为早期细节数据。 (3 ) 轻度综合数据:从当前基本数据中提取出来, 通常以较小的时间段( 粒度) 统 计而形成的数据。这类数据较当前细节数据的 数据量小得多。 (4 ) 高 度综合数据:这一层的 数据十分精炼,是一种准决策数据。 数据仓库环境中还有一种很重要的 数据称为元数据( m e t a d a ta ) . 元数据是 “ 关 于数据的数据”, 如在传统数据库中的数 据字典就是一种元数据。在数据仓库环境 下,主要有两种元数据:第一种是为了从操作型环境向数据仓库转化而建立的元数 据, 包含了 所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据 仓库中是用来和终端用户的多维商业模型或前端工具之间 建立映射,此种元数据称 之 为 d s s 元数 据, 常 用来 开 发 更先 进的 决 策 支 持 工具t7 . 2 . 20lap ( 联机分析处理) 技术 2 . 2 . io l a p 技术的产生及评价准则 2 0 世纪6 0 年代末, 关系数据库之父e . f . c 。 “提出的关系数据模型促进了关系数 据库和联机事务处理(ol t p , o n 一 li net r a n s acti on p ro 沈ss in g) 的发展. 数据不再以简单 文件的方式和应用程序捆绑在一起,而是单独分离出来以关系表的形式供多种应用 程序共享。随着关系数据库的大规模应用,管理人员对数据库中的数据查询要求越 来越复杂, 查询中 所涉及的数据不是一张关系表中的一两条记录,而是涉及多 个关 系表中的成千上万条记录,数据量从早期的兆字节( m b), 千兆字节( g b),发展到现 在的兆兆字节( tb ) 、千兆兆字节(pb ) , 而且在查询中还需要对各种数据进行综合分 析处理. 为了 满足这些要求, 许多软件开发商开发了各种关系型数据库的前端产品. 利用专门的数据综合引擎和直观的数据访问界面,以统一复杂查询中各种混乱的 应 用逻辑, 使系统在很短的时间内响应用户的 复杂查询。 e . f . c o d d 在1993年将这类技 术称 为 o lap , 即联 机 分析 处 理t71 。 o l a p 以数据库或数据仓库为基础, 其最终数据来源与o l t p 一样均来自 底层数 据库系统, 然而由于两者所面对的用户不同, o l t p 面对的是操作人员和低层管理人 员,o l a p 面对的是决策人员和高层管理人员,因而数据的特点与处理方式也明显 不同,其区别如表2 一 1 所示。 华北电力大 学硕士 学位论文 表 2 一 10 l t p 数据与ola p 数据的区别 o l t p 数据 o l a p 数据 原始数据 导出数据 细节性数据 综合性数据或提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事物驱动 面向分析,分析驱动 面向操作人员,支持日常操作 面 向决策人员,支持管理需要 e.f. c o dd在提出o l a p 概念的同时还给出了 o l a p 产品评价的十二条准则: ( 1 ) 多维概念 o l a p 模型必须提供多维概念视图。 从用户分析的角度来看,整个企业的视图 本质上是多 维的,因此o l a p 的概念模型也应是多维的。 (2 ) 透明性 无论o l a p 是否是前端产品的一部分,对用户来说它都是透明的;如果在客户1 服务器结构中提供o l a p 产品,那么对最终分析员来说,它同样也应透明。 (3 ) 存取能力 o l a p 系统不但能进行开放的存取, 而且还提供高效的存取策略。 o l a p 用户不 仅能在公共概念视图的基础上对关系数据库中的企业数据进行分析,而且在公共分 析模型的基础上还可以 对关系数据库、非关系数据库和外部存储的 数据进行分析。 仔 ) 稳定的报表性能 当 数据维数和数据的综合层次增加时, 提供给最终分析员的报表能力和响应速 度不应该有明显的降低和减慢, 这时维护o l a p 产品的易用性和低复杂性至关重要. (5 ) 客户服 务器体系结构 o l a p 是建立在客户服 务器体系结构上的,这要求它的多维数据库能够被不同 的应用和工具访问。 服务器端智能地以 最小的代价完成同多种服务器之间的映 射, 并确保它们的一致性,从而保证透明性和建 立统一的公共概念模式、逻辑模式和物 理模式。 (6 ) 维的等同性 每一数据维在数据结构和操作能力上都是等同的。 系统可以 将附加的操作能力 华北电 力 大学硕士学位 论文 授给所选维,但必须保证该操作能力可以授给任意的 其他维,即要求维的操作是公 共的。 (7 ) 动态的稀疏矩阵处理 o la p 工具的物理模型必须充分适应指定的分析模型,提供最优的 稀疏矩阵处 理, 这是o l a p 工具所应遵循的最重要准则之一。 (8 ) 多 用户支持能力 多个用户分析员可以同时工作在同 一分析模型上或是可能在同企业数据上建 立不同的分析模型。o l a p 工具必须提供并发访问、数据完整性及安全性机制。 (9 ) 非受限的跨维度操作 多维数据之间存在固有的关系,这就要求o l a p 工具能自 己推导出而不是最终 用户明确定义出相关的计算。对于无法从固 有关系中得出的计算,要求系统提供计 算完备的语言来定义计算公式。 ( 1 0) 直观的数据操纵 这一准则要求数据操纵直观易懂。路径重定位、向上综合、向下挖掘和其它操 作都可以通过直观、方便的点拉操作完成。 ( 1 1) 灵活的报表生成 报表必须从各种可能的方面显示出从数据模型中综合出的数据和信息, 充分反 映数据分析模型的多特征。 ( 12) 不受限维与聚集层次 o l ap 工具的维数不小于15维,用户分析员可以在任意给定的综合路径上建立 任意多个聚集层次。 2 . 2 . zo l a p 技术的基本特征 根据o l a p 产品的实际应用情况和用户对o l a p 产品的需求, 人们提出了一种对 o l a p 简单明确的定义,即 共享多维信息的快速分析。 根据这个定义, 描述了o l ap 的五大特征如下: ( 1) 快速性(f as t) 用户对o l a p 的快速反应能力有很高的要求。系统应能在五秒内对用户的大部 分分析要求做出反应。如果终端用户在三十秒内 没有得到系统响应就会变得不耐 烦,从而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速 度并不容易,因此就更需要一些技术上的 支持,如专门的数据存储格式和特别的硬 件设计等。 . 华北电力大学硕士学位论文 (2 ) 分析性( 仙目 ys is) o l ap 系统应能处理与应用有关的任何逻辑分析和统计分析.尽管系统需要事 先编程,但并不意味着系统己定义好所有应用。用户无需编程就可以定义新的专门 计算, 将其作为分析的一部分,并以 用户理想的方式给出报告。用户可以在o l a p 平台 上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、 成本分配工具、意外报普、 数据开采等。 ( 3 ) 共享 性 ( s h a re d ) o l a p 应在保证系统安全的基础上, 提供多用户共享数据与信息的机制。 o l a p 系统应规定不同 用户的 使用权限, 对元数据级别进行安全设置, 从而更好地加以控 制。 例如,当多个用户同时向 o l a p 服务 器写数据时,系统应能在适当的粒度级别 上加更新锁。 (4 ) 多维性( m u it i d i m e nsi o n al ) 多维性是o l a p 的关 键属性。系统必须提供对数据分析的多维视图和分析,包 括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的 方法,是o l a p 的灵魂。 ( 5 ) 信息性( info rmat i o n ) 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁 盘空间、o l a p 产品的性能及与数据仓 库的结合度等。 2 . 2 . 3o l p 技术的实现结构 为了保证信息处理所需的数据以 合适的粒度、 合理的抽象程度和标准化程度存 储,数据在物理上分为三种存储结构:基于多维数据库的o l a p 存储结( m o l ap ) 、 基于关系数据库的o l a p 存储结构俱o lap)和混合型的o l a p 存储结( h o l a p)。 ( 1 ) m o l a p ( m u l t i d i m e n s i o n ai0 l a p ) 多维o l a p 利用一种专有的多维数据库来存储o l a p 分析所需要的数据, 数据采 用n 维数组的多维方式存储,并以多维视图的方式显示。 在m o l a p 结构中,分散在企业内部的各o l t p 数据库中的数据,经过提取、净 化、转换等步骤后提交给多维数据库。 这些数据在被存入多维数据库时,将根据它 们所属的 维来进行一系列的预处理操作( 计算和合并) ,并把结果按一定的层次结构 存入多维数据库中。 用户通过客户端应用软 件的界面递交分析需求给o l a p 服务器, 再由o la p 服务器检索多维数据库( m d d b),并将得到的结果返回给用户。 华北电 力大 学硕士学位论文 m o l ap 结构的 主要优点是它能迅速地响应决策分析人员的分析请求并快速地 将分析结果返回给用户。 这得益于它独特的多维数据库结构以 及存储器中的预处理 程度很高的 数据( 一般预处理度在85% 以 上) .在m o l a p 结构中, o l a p 服务器主要 是通过己 预处理的数据完成分析操作。 ( 2 ) r o l a p (re l at i o n al0 l a p ) 关系型o l a p(r o lap)是对传统数 据库进行扩充以实现对数据仓库的联机分析 处理。 r o l a p 的底层数据库是关系型数据库,而不是多维数据库。 r o l a p 一般采用 星型或雪花模型(s tar schema ors 加wn ak e schem a) 来表达多维数据视图。 星型模式 由 一 个 事实 表 (f act t ab le) 和多 个维 表 ( di mens io n t 的 l e) 组成, 并且 维 表和 事 实 表 都 用二维关系表的方式存放.维表存放相关属性,事实表以指针( 外关键字 ) 与各维表 相连接, 并存储各维表的 度量。但星型模型不支持属性层次关系,因此雪花模型对 维表进行了扩展,提供了层次的现实表达,即如果维表有多于一个的层次,则增加 子维表来表示,因而简化了维表的维护, 使层次更加清晰。 当数据仓库的数据模型确定之后, 分散在企业各o l tp数据库中的数据被载入 数据仓库并按数据模型的要求进行预处理。用户通过客户端工具提交多维分析请求 给o l a p 服务器, 后者动态将这些请求转换成s q l 语句执行, 分析的结果经多维处理 转 化为 多 维 视图 返回 给 用 户t7 . 在o l ap 结构中数据的 预处理程度一 般较低( 如果预处理程度太高, 数据冗余量 大,将使管理和维护更加复杂) 。r o l a p 的主要特点是它的灵活性强,用户可以动 态定义统计或计算方式。r o l a p 的 缺点是它对用户的分析请求处理的时间要比 mo l a p 长。 由于m o l a p 与r o l a p 有着各自 不同的 优缺点,它们的结构也迥然不同,这给 分析人员设计o l a p 结构提出了难题, 他们必须在两种结构之间进行选择。 为此一 个新的o l a p 结构一混合型o l a p(h o l ap) 被提出,它能把m o l ap 和r o l a p 两种结 构的优点结合起来。 ( 3 ) h o l a p ( h 沙r i d 0 l a p ) h o l a p 结构不是m o l a p 与r o la p 结构的简单组合, 而是这两种结构技术优点 的有机结合, 能满足用户各种复杂的分析请求。 一个真正的h o l a p 系统应能遵循以 下几个准则: . 维数能够被动态更新,一个真正的 h o l a p 不但可以 提供对数据的实时存 取,还可以根据不断变化的结构对维数进行更新。 . 据r d b ms 的元数据产生多维视图。 华北电 力大学 硕士学 位论文 . 可以 快速地存取各种级别的汇总数据。 . 可适应大量数据的分析。 . 可以方便地对计算和汇总算法进行维护和修改。 2 . 2 . 4o l a p的多维分析 o l a p 的多维分析是指对多维数据集中的数据用切片、 切块、 旋转、 钻取和卷 取等分析方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。 这样才能深入地了解数据仓库中 数据所蕴涵的 信息,才能使用户深入地挖掘隐藏在 数据背后的商业模式。 ( 1 ) 切片 在多维分析过程中,如果要对多维数据集的某个维选定一个维成员,这种选择 操作, 就可以 称为切片( sl i ce) 。也就是说如果有( 维1 ,维2, , 维1,. , 维n ,观 察变 量 ) 多 维 数 据集, 对维 1选定了 某个 维 成 员, 那 ( 维1 , 维2, ” . , 维 1 成 员, ,二 , 维 n, 观察变量) 就是多维数据集( 维1 , 维2,. . , 维1 , ,维n , 观察变量) 在维1 上的一个 切片。这种切片的数量完全取决于维的成员个数,维数越多,可以 做的切片 越多。 很显然, 这个切片,不一定是想象中的一个二维的 “ 平面”切片。切片的维数取决 于原来多维数据集的维数。 只有在多维数据集是三维的情况下,才能获得一个二维 的 “ 平面, 切片。在切片的概念中, 有两 个重要的概念:一个是多维数据集的切片 数量多少是由所选定的那个维的维成员数量多少所决定的:另一个是进行切片操作 的目 的是使人们能够更好地了 解多维数据集,通过切片的操作可以降低多维数据集 的维度,使人们能将注意力集中 在较少的 维度上进行观察. (2) 切块 与切片类似, 如果在一个多维数据集上对两个及其以上的维选定维成员的操作 可以称为切块( d i ce) 。即在( 维1 , 维2 ,维1, . , . ,维k, ,维n ,观察变量) 多维数据 集上, 对维1,. . ,维k ,选定了维成员, 那( 维1 ,维2, . . ,维1 成员, . . ,维k 成员, , 维n , 观察变量 ) 就是多维数据集( 维1 , 维2 ,维1, ,维k, ,维n, 观察变量) 在维1, ,维k 上的一个切块。 很显然,在卜 k 时,切块操作就退化成切 片操作。实际上,切块操作也可以看成进行多次切片操作以 后,将每次切片操作所 得到的切片重叠在一起而形成的。 (3 ) 钻取和卷取 钻取是对数据进行更为细节性的观察,卷取是对数据进行更为宏观的观察。钻 取和卷取的深度与维所划分的层次相对应. (4) 旋转 华北电力大学 硕士学位论文 旋转即是改变一个报表或页面所显示的 维方向 。例如, 旋转可能 包含了 交换行 和列;或是把某一个行维移到列维中去, 或是 把页面中显示的一个维和页面外的维 进行交换,使其成为新的行或列中的一个。 22 . 50 l a p 的系统框架 目 前在一些主要的o l a p 系统供应商提供的数据仓库与o l a p 解决 方案中, 通常 采用了三层或多层c/s 结构,并能扩展成多层b /s结构。如图2 一 3 所示。 图2 一 3o lap 的体系结构图 第一层是数据仓库服务器,它实现与基层数据库系统的连接,完成企业级数据 的一致和数据共享的工作:第二层是o l a p 服务器,它根据最终客户的请求实现分 解成o l a p 分析的各种动作,并使用数据仓库中的数据完成这些动作:第三层是前 端的展现工具,用于将o l a p 服务器处理得到的结果用直观的方式, 如多维报表、 饼图、柱状图、三维图形等展现给最终用户。 这种三层体系结构使数据、应用逻辑和客户应用分离开,有利于系统的维护和 升级。当系统需要修改功能或者增加功能时, 可以 只修改三层中的 某些部分, 而不 需要像两层的客户朋 民 务器体系那样做整体的改动。 2 . 3本章小结 数据仓库以及联机分析处理(ol a p)是数据库领域近几年涌现出的 新事务, 是数 据库系统在信息时代发展的产物。本章首先介绍数据仓库的定义及其特征,分析了 数 据 仓 库的 体 系结 构和 数 据组 织方 式, 然 后 介绍 基 于 数据 仓 库的 重 要应 用 0 lap( 联 机分析处理) 的评价准则和基本特征,最后对o la p 技术的实现结构、多维分析和系 统框架作了简要描述 ,为以后的应用分析、开发奠定了理论基础。 华北电 力大学硕士 学位论文 第三章 电量电费数据仓库的设计及实现 数据仓库系统是一种解决问题的过程, 而不是一个可以买到的现成产品。 建立 电量电 费数据仓库必须结合电量电费数据的 特点, 确定数据源中的哪些数据需要抽 取,以及抽取的方法和策略。电量电费数据仓库是存储电量电费大量历史数据的一 种组织形式, 它从电量电费管理信息系统源数据库中获得原始数 据, 首先按决策的 主题要求形成当 前的基本数据层, 然后按综合决策的 要求构成综合数据层。随着时 间的推移,由时间控制机制将当前基本数据层转化为历史数据层。电量电费数据仓 库的设计包括概念模型设计、逻辑模型设计和物理模型设计。 3 . 1概念模型的设计 进行概念模型设计所要完成的工作是: ( 1) 界定系统边界。 (2 ) 确定主题及其内容。 概念模型设计的结果是在原有电量电费数据库的基础上建立一个较为稳固的 概念模型。 因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集 合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看原 有的数据库系统中 “ 有什么” 、 “ 怎样组织的” 和 “ 如何分布的”等, 然后考虑应当 如何建立数据仓库系统的概念模型。 一方面通过原有的 数据库设计文档以 及在数据 字典中的数据库关系模式, 对电 量电费现有数据库中的内容有一个完整而清晰的认 识;另一方面,数据仓库的概念模型是面向 供电企业全局建立的, 它为集成来自 各 个面向 应用的数据库中的数据提供了 统一的概念视图。 概念模型的设计是在较高抽象层次上的设计, 因此建立概念模型时不用考虑具 体技术条件的限制。 数据仓库是面向决策分析的数据库, 无法在数据仓库设计的最初就得到详细而 明确的需求, 但需明确以 下基本的方向 性需求: 在电 量电费领域要做的决策类型有 哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信 息需要包含原有数据库系统中哪些部分的数据? 这样,可以 划定大致的系统边界,集中精力进行最需要部分的开发。因而, 从 某种意义上讲,界定系统边界的 工作也可以看作是数据仓库系统设计的需求分析, 因为它将决策者的数据分析需求用系统边界的定义形式反映出来。 华北电 力大学 硕士学位论文 电量电费数据仓库的概念模型设计即是选定分析主题域, 界定系统边界, 按照 分析要求确定主题域的公共键码、 联系以 及属性组, 然后分析原有业务系统的数据 组织、分布等,形成关于主题域的完整概念模型。 电量电费数据主要取自 于供电 企业原 有的管理信息系统, 其数据库是数据仓库 源数据抽取和净化的主要对象。 针对用户的需求, 建立电量和电费两个主题。 如表 3 一 1 所示 表 3 一 1电量电费分析相美全颐 主题 电量卞题 维表 时间、用户、地区、行业、 用电设备、电压等级等 电费主题时间、用户、地区、缴费、 优 惠、行业、用电设备、 电压等级等 分析方面 行业用电量分析、单价用 电量分析、地区用电量分 析、用电量时间变化分析、 用电量变化趋势预测、峰 谷电量分析等 行业电费分析、各地区电 费贡献分析、电费时间变 化 分析、电费变化趋势分 析、力调电费分析等 3 . 2逻辑模型的设计 数据仓库的逻辑模型描述了数据仓库主题的逻辑实 现, 也就是每个主题所对应 的关系表的关系模式定义,是数据仓库由概念模型到物理模型转换的桥梁。数据仓 库是建立在关系数据库基础上的,因此在数据仓库的设计中采用的逻辑模型就是关 系模型。 关系模型概念简单、 清晰, 用户易 懂、易用, 有严格的数学基础和在此基 础上发展的关系数据库理论。 利用关系 模型可以 创建星型模型和雪花模型 来描述维 度实体和详细类别视图的关系模式。 数据仓库的逻辑模型描述了数据仓库主题的 逻辑实现, 即每个主题所对应的关 系表的关系模式定义。 本文以星型模型为例讨论多维数据模型的定义,一个多维数据模型中的对象 有: 主题( s ubj ect):所要分析的某一方面的数据名称,它可以 有多个立方体。 立方体( c ube):即一个多维数据集,一个事实表和多个维组成。 事实(f act):与一个具体的事实表相对应, 对应于决策支持研究的中 心,是星 型模型的中心,它包含着用户所关注的所有度量值. 维( dim e nsion):维定义了事实研究的中心轴,需要与一个维表相对应,该表 包含了这个维所能取到的各种聚集方式的值。 华北电力 大学硕士学位论文 维 层 次(d im ensi on h i erarch y ) : 维 的 值往 往具 有 不同 层次 粒 度, 维层 次 是从 其它更详细的维中分割出来的一个维。 在维层次中, 每个递减的级都对应着细节中 更详细的级,维层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南建业房子的施工方案
- 女神节形体活动策划方案
- 天猫运动营销方案设计
- 拆阳台施工方案怎么写
- 农安医疗建筑方案设计服务
- 减垄增地施工方案
- 城市红色建筑调色方案设计
- 榆林聚仙禄宾馆专线项目竣工报告
- 水果甜品店营销方案模板
- 教师资格证考试(高中数学)教育知识与能力专项训练试卷2025
- GB/T 20969.1-2021特殊环境条件高原机械第1部分:高原对内燃动力机械的要求
- GB/T 19868.4-2005基于预生产焊接试验的工艺评定
- GB/T 19633.1-2015最终灭菌医疗器械包装第1部分:材料、无菌屏障系统和包装系统的要求
- GB/T 10125-2021人造气氛腐蚀试验盐雾试验
- 吸附及吸附过程课件
- 羽毛球运动基础知识简介课件
- 设计美学研究课件
- 管道施工安全检查表
- 部编版七年级上册语文《雨的四季》课件(定稿;校级公开课)
- 自动控制原理全套ppt课件(完整版)
- 归园田居优质课一等奖课件
评论
0/150
提交评论