(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf_第1页
(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf_第2页
(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf_第3页
(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf_第4页
(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf_第5页
已阅读5页,还剩92页未读 继续免费阅读

(计算机系统结构专业论文)电力数据中心综合分析主题模块的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

at h e s i si nc o m p u t e ra r c h i t e c t u r e t h e d e s i g na n di m p l e m e n t a i o n o f c o m p r e h e n s i v ea n a l y s i ss u b j e c tm o d u l ei n p o w e rd a t ac e n t e r b yw a n g y i h u a s u p e r v i s o r :p r o f e s s o r l uz h a o x i a n o r t h e a s t e r nu n i v e r s i t y j u l y2 0 0 8 缸 ; i ? ,。 j 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚 的谢意。 学位论文作者签名: 签字 日期: 弧哞 劫p 8 和月l f j 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年d一年口一年半口两年口 导师签名: 签字日期: 筝旧 议猬 五争 辄 毋 獬 一 者 二 作 : 文期 沧臣 位字 _ - _ 。 _ _ r 。 参irliill, 东北大学硕士学位论文摘要 电力数据中心综合分析主题模块的设计与实现 摘要 本文的撰写是基于沈阳东软软件股份有限公司电力事业部主持开发的国家电网公 司“s g l 8 6 工程的数据中心系统项目。 本文通过对电力数据中心建设所使用的数据仓库技术和o l a p 技术的分析,在熟悉 电力业务的基础上,探讨了在电力企业中建设数据仓库的方法和步骤。针对具体的电力 业务需求进行分析,设计出了综合分析主题模块的数据模型。针对该主题的概念数据模 型,完成了逻辑数据模型设计和物理数据模型设计,建立了数据仓库系统。经过数据准 备工作,通过e t l 向系统中传输数据,然后对海量数据建模生成数据立方体并进行联 机事务处理,实现了综合分析主题模块的分析功能。通过分析,得到了辅助电力企业各 级领导进行分析和决策的信息。综合分析主题功能模块的实现,证明了数据仓库技术在 电力企业中应用的可行性。 经过电力企业的实际应用,综合分析主题模块功能模块运行良好,数据准确,性能 满足要求。 关键词:数据仓库;电力数据中心;联机分析处理;抽取转换装载 一i i 一 i、l。l一 -n,l, 飞 j 东北大学硕士学位论文 t h ed e s i g na n di m p l e m e n t a i o no f c o m p r e h e n s i v ea n a l y s i ss u b j e c tm o d u l ei n p o w e rd a t ac e n t e r a b s t r a c t t h et h e s i si sb a s e do na l la e r i a lp r o j e c tt h a ti st h ed a t ac e n t e rs y s t e mo fs t a t eg r i d s g18 6 ”e n g i n e e r i n gd e v e l o p e db y s h e n y a n gn e u s o f tc ol t de l e c t r i cp o w e rd e p a r t m e n t t h r o u g ht h ea n a l y s i so fr e l e v a n tt e c h n o l o g i ca b o u td a t aw a r e h o u s ea n do l a p t h a tu s e d i np o w e rd a t ac e n t e r , t h et h e s i si sb a s e do nt h ef a m i l i a r i t yt ot h ep o w e rb u s i n e s s ,a n d d i s c u s s e st h em e t h o da n dt h es t e po fd a t aw a r e h o u s ec o n s t r u c t e di nt h ep o w e re n t e r p r i s e m e a n w h i l e ,a c c o r d i n gt ot h ea n a l y s i so fs p e c i f i cp o w e rb u s i n e s s ,d e s i g n sd a t am o d e lo f c o m p r e h e n s i v ea n a l y s i ss u b j e c t t h r o u g ht h ec o n c e p t i o nm o d e l o fc o m p r e h e n s i v ea n a l y s i s s u b j e c t ,t h et h e s i sa c h i e v e st h el o g i cd a t am o d e la n dp h r 7 s i c a ld a t am o d e l ,a n db u i l d st h ed a t a w a r e h o u s es y s t e m b a s e do nt h i sd a t aw a r e h o u s e ,t h r o u g ht h ed a t ap r e p a r a t i v ew o r k , d a t ai s t r a n s f e r r e db ye t l ,a n dt h e ng e n e r a t e st h ed a t ac u b eb ym o d e l i n gt h en u m e r o u sd a t a ,a n d o l a pt h r o u g ht h ec u b e ,a c h i e v e st h ea n a l y s i so fc o m p r e h e n s i v ea n a l y s i ss u b j e c tm o d u l e t h r o u g ht h ea n a l y s i s ,a c q u i r e st h et h ea n a l y s i sa n dd e c i s i o n m a k i n gi n f o r m a t i o nf o rl e a d e r s o fa l ll e v e l si nt h ep o w e re n t e r p r i s e t h ei m p l e m e n t a i o no fc o m p r e h e n s i v ea n a l y s i ss u b j e c t m o d u l e ,p r o v e dt h ef e a s i b i l i t yo f t h ed a t aw a r e h o u s et e c h n o l o g yi nt h ep o w e r e n t e r p r i s e t h r o u g ht h e a c t u a la p p l i c a t i o na n d t e s tb yt h ep o w e re n t e r p r i s e ,c o m p r e h e n s i v e a n a l y s i ss u b j e c tm o d u l ei so p e r a t i n gw e l l ,t h ed a t ai sa c c u r a t ea n dt h ep e r f o r m a n c es a t i s f i e s t h er e q u i r e m e n t s k e y w o r d :d a t aw a r e h o u s e ;p o w e rd a t ac e n t e r ;o n l i n ea n a l y t i c a lp r o c e s s ;e x t r a c t t r a n s f o r ml o a d i i i 一 i;tl-一 r,;llfii_r 0nfr 东北大学硕士学位论文 目 录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第1 章绪论1 1 1 问题的提出1 1 2 数据仓库技术简介2 1 3 国内外研究现状2 1 4 “s g l 8 6 工程及电力数据中心系统简介3 1 5 论文研究内容及结构安排。4 第2 章相关技术介绍5 2 1 数据仓库:_ 5 2 1 1 数据仓库的特征一5 2 1 2 操作型数据库与数据仓库。6 2 1 - 3 数据仓库体系结构7 2 1 4 数据仓库相关概念。8 2 2 数据仓库分析技术9 2 2 1 联机分析处理9 2 2 2 数据挖掘技术1 o 2 3 数据集市1 0 2 3 1 数据集市定义1 0 2 3 2 数据仓库与数据集市的区别1 1 , 2 4e t l 技术1 1 2 5 本章小结1 2 第3 章综合分析主题模块分析与概要设计1 3 3 1 工作思路与流程1 3 3 2 电力数据中心介绍1 4 3 2 1 电力数据中心总体结构1 4 3 2 2 电力数据中心架构1 6 3 2 3 电力数据中心的数据流1 6 3 3 综合分析主题模块需求分析1 7 一i v 东北大学硕士学位论文 目 录 3 3 1 主题要求1 7 3 3 2 功能要求1 8 3 4 综合分析主题模块数据模型概要设计l9 3 4 1 概念数据模型设计2 0 3 4 2 逻辑数据模型设计2 0 3 4 3 物理数据模型设计2 l 3 5 综合分析主题模块e t l 概要设计。2 2 3 6 综合分析主题模块前端展现概要设计2 3 3 6 1 前端展现过程2 3 3 6 2 固定报表2 3 3 6 3 多维分析2 4 3 7 本章小结2 4 第4 章综合分析主题模块的数据准备2 5 4 1 综合分析主题模块数据准备流程2 5 4 2 分析原业务库2 5 4 2 1 获取原业务库物理环境2 5 4 2 2 获取原业务库类型2 6 4 2 3 分析原业务库数据结构2 6 4 2 4 原业务库数据量2 8 4 3 数据仓库系统建表2 8 4 3 1o d s 区域建表2 8 4 3 2 数据仓库区域建表2 9 4 3 3 数据集市区域建表3 2 4 4 数据仓库系统海量数据3 2 4 5 本章小结3 4 第5 章综合分析主题模块详细设计与实现3 5 5 1 综合分析主题模块实现3 5 5 1 1 工作思路和流程3 5 5 1 2 综合分析主题模块的建设思路3 5 5 2 综合分析主题模块数据模型设计3 6 5 2 1 概念数据模型设计3 6 5 2 2 逻辑数据模型设计:3 8 5 2 3 物理数据模型设计4 0 一v 一 00亭 i ; j 东北大学硕士学位论文 目 录 5 3 综合分析主题模块e t l 设计与实现4 3 5 3 1e t l 设计4 3 5 3 2e t l 具体实现。4 9 5 4 前端展现设计与实现5 9 5 4 1 固定报表设计与实现5 9 5 4 2 多维分析设计与实现一6 0 5 5 本章小结_ 6 6 第6 章系统测试与应用6 7 6 1 测试环境:6 7 6 2 测试方案:6 8 6 3 测试结果6 9 6 3 1e t l 的测试结果o 6 9 6 3 2 前端展现测试结果j 7 0 6 4 系统应用实例7 2 6 5 测试应用总结7 3 6 6 本章小结7 4 第7 章结论j 7 5 7 1 本文工作总结7 5 7 2 下一步的工作展望j 7 7 参考文献7 9 致谢8 1 一v i tl,。i誓, 东北大学硕士学位论文第1 章绪论 第1 章绪论 电力企业在我国是一个资金雄厚发展潜力巨大的商业集团,在以市场竞争和客户需 求为导向的市场经济环境下,电力企业把信息化建设作为辅助商业发展的重点项目来建 设,并取得了可喜的成果。 9 1 1 问题的提出 互联网的出现和信息技术的日新月异促使电力行业信息化建设进入一个加速发展 的时代。整个行业开始有计划有步骤的开发建设电力企业辅助决策信息系统,信息技术 从应用于操作控制的底层向能为管理人员提供辅助决策的管理层延伸,并且开始从服务 单机、单业务、单个企业向服务整个电力供应链和电力系统综合业务方向发展。 在电力企业的运营过程中,业务数据都被完整的保存起来,现在的电力企业运营过 程有着完善的数据收集、传输、加工、存储、查询和控制功能。随着信息建设的深入, 形成了涵盖生产、销售、管理等各方面的“数据宝库 。目前对“数据宝库”的使用只 是停留在传统的数据分析、统计手段来进行日常的数据汇总、制表、趋势分析等浅层次 的处理和使用。受各方面条件的限制,无法从时间和空间上对数据进行深层次地理解和 使用这些数据。在这种情况之下,数据不仅没有得到充分的利用,反而带来越来越严重 的“数据灾难 和“资源荒废。一方面电力企业为创建这些业务系统耗费了大量的人 力、物力、财力,虽然收集了大量的数据,但是几乎得不到内含在数据中的知识,管理 和经济效益都得不到提高,决策者期望从这些“数据宝库”中得到一些知识作为支持, 辅助管理者做出正确的决策。 数据仓库是专门针对企业数据整合和数据历史存储需求而组织的集中化、一体化的 数据存储区域,它覆盖多个主题域的企业信息组成,这些信息主要是低级别、细粒度数 据,同时可以根据数据分析需求建立一定粒度的汇总数据。它们按照一定频率定期更新, 主要用于为辅助信息提供整合后的、高质量的数据。 国家电网“s g l 8 6 工程就是在电力企业信息化的背景下提出的,工程的目的就是 构筑一体化企业级信息集成平台。坚持以信息化推动生产自动化和管理现代化,建设数 字化电网和信息化企业,为加快建设现代公司提供坚强支撑。电力数据中心在“s g l 8 6 ” 工程中的作用是企业的业务系统与数据资源进行集中、集成、共享、分析的场地、工具、 流程等的有机组合。基于数据仓库技术的电力数据中心为“s g l 8 6 工程提供获取辅助 决策信息高质量的数据。通过信息平台,企业的信息资源从各部门相互独立、资源重复、 沟通不畅的状况转变为一个面向员工、客户、合作伙伴和决策者的整合系统。实现整个 一1 一 论文第1 章绪论 据一体化、集成应用一体化、电力服务一体化。 然而,数据仓库技术并非很成熟,它正经历着学术与实践的验证。所以,数据仓库 技术的研究在建设高质量、高速度、高效率、实用的电力企业应用系统中是很有必要的。 1 2 数据仓库技术简介 数据仓库( d a t aw a r e h o u s e ) 的概念诞生于2 0 世纪8 0 年代中期,最早提出“数据 仓库 概念的是w i l l i a mh i n m o n 在其著作建立数据仓库( b u i l d i n gt h ed a t a w a r e h o u s e ) 中,比较系统地给出了数据仓库的定义,数据仓库是面向主题的、集成的、 时变的、稳定的数据集合,主要用于支持管理者的决策制定过程( ad a t aw a r e h o u s ei sa s u b j e c t - o r i e n t e d ,i n t e g r a t e d ,t i m e v a r i a n t ,a n dn o n v o l a t i l ec o l l e c t i o no fd a t ai ns u p p o r to f m a n a g e m e n t sd e c i s i o nm a k i n gp r o c e s s ) 1 - 2 o 由于i b l n o n 本人在数据仓库发展中的作用, 他对数据仓库的定义不断被人引用,相对的成为了一种权威的定义。 从数据仓库定义的提出到现在已有二十多年的时间了,在这段时间里,不论在理论 方面还是在应用方面都有了飞速的发展,对数据仓库的含义也有了更深入的了解,通俗 的讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持分析型数据查询。 1 3 国内外研究现状 从数据仓库概念的提出到现在,人们一直在研究数据仓库技术,取得了很多成果。 国内对数据仓库技术的研究晚于国外,但是也取得了很大的进步【3 一钉。 由于国内企业信息化起步相对较晚,信息系统建设没有形成规模。国内数据仓库研 究大部分还处于消化和积累经验阶段。许多行业构建的数据仓库应用都是采用国外技术 和方案。建成的数据仓库项目效果如何还有待检验。影响我国数据仓库发展因素有:企 业信息化建设和数据积累水平不高;有限的数据仓库市场;缺乏相关技术人员;没有完 全消化国外技术和产品;数据仓库技术本身还缺乏统一的标准。尽管国内的数据仓库技 术同国外还有很大的差距,许多科技工作者已经开始对相关技术进行深入研究,并发表 技术文章,相信在不久的将来,国内的数据仓库的研究水平也会提升到一个新的高度。 由于国外对数据仓库技术研究较早、数据积累充分,技术相对成熟。不同的数据仓 库提供商提出了不同的解决方案。在应用方面,除了投入具体应用的各种数据仓库产品 和工具外,还有许多从事数据仓库技术咨询的企业。目前,国外数据仓库领导厂商开始 定义一套针对数据分析、管理及存储工具交互操作的标准,从而解决不同数据仓库产品 之间的互操作性问题。国外数据仓库研究热点包括:元数据统一技术、数据集市和数据 仓库之间数据交换的中间件技术、w w w 页面数据挖掘技术、文本文件和多媒体数据的 数据仓库存储技术。 一2 一 东北大学硕士学位论文第1 章绪论 1 4 “s g l8 6 工程及电力数据中心系统简介 国家电网公司( 简称:国网) 信息化“s g l 9 6 工程是公司党组决策实施的企业信息 化建设工程【5 - 6 1 。“s g ”是“国家电网公司 的英文缩写,“1 8 6 ”的内涵是:构筑一体 化企业级信息集成平台,建设八大业务应用,建立健全六个信息化保障体系,坚持以信 息化推动生产自动化和管理现代化,建设数字化电网和信息化企业,为加快建设“一强 三优 ( 电网坚强、资产优良、服务优质、业绩优秀) 7 1 现代公司提供坚强支撑。 “构筑一体化企业级信息平台”就是要进一步建设和完善信息网络等硬件基础设 施和操作系统、数据库、中间件等软件基础设施,建立公司信息系统“纵向贯通、横向 集成 的信息渠道,确保数据的唯一性、准确性、及时性和有效性,为建设企业级的信 息网络、数据交换、数据中心、应用集成和企业门户夯实基础;“建设八大业务应用” 就是要以集成为主线,通过整合、完善、改建和新建的方式,实现各业务应用间的数据 共享,在一体化企业级信息集成平台的基础上,建设和完善财务( 资金) 管理、营销管 理、安全生产管理、协同办公、人力资源管理、物资管理、项目管理以及涵盖其它业务 的综合管理等八大业务应用,增强公司各项业务的管理能力,提高工作的质量和效率; “建立健全六个保障体系”就是要迸一步建立和完善信息化安全防护体系、标准规范体 系、管理控制体系、评价考核体系、技术研究体系和人才队伍体系,为公司的信息化建 设提供必需的资源、技术、管理和人才保障,推动信息化健康、快速、可持续发展。 电力数据中心系统( 简称:电力数据中心) 在“s g l 8 6 工程中的作用是企业的业 务系统与数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合。包 括国家电网公司电力数据中心系统( 简称:国网数据中心) 和省级电力数据中心系统( 简 称:网省数据中心) 。从应用层面看,包括业务系统、基于数据仓库的分析系统;从数 据层面看,包括操作型数据和分析型数据以及数据与数据的集成整合流程;从基础设 施层面看,包括服务器、网络、存储和整体i t 运行维护服务。所以基于数据仓库的电 力数据中心为“s g l 8 6 工程提供获取辅助决策信息高质量的数据。通过信息平台,企 业的信息资源从各部门相互独立、资源重复、沟通不畅的状况转变为一个面向员工、客 户、合作伙伴和决策者的整合系统。实现整个电力企业的数据一体化、集成应用一体化、 电力服务一体化。 “s g l 8 6 工程是公司“十一五”期间信息化工作思路的高度概括,是对公司“十 五 信息发展规划的具体表述,对做好公司“十一五 期间信息化工作具有重要的 指导意义。 一3 一 第1 章绪论 容及结构安排 本论文主要介绍了基于数据仓库技术的电力数据中心的研究和实现,并着重介绍了 综合分析主题模块的设计与实现。论文的主要工作是基于国家电网“s g l 8 6 ”工程中网 省数据中心项目的设计与开发,在开发中研究数据仓库技术的实际应用。 在整个课题的研究过程中,本人通过各种渠道查阅了大量的有关数据仓库方面的资 料,为论文的理论研究奠定了基础。 在沈阳东软软件股份有限公司电力事业部实习过程中主要参与了省公司电力数据 中心的开发,在开发过程中,分阶段的参与了以下工作:综合分析主题模块的前期需求 的整理、数据模型设计、前端展现设计;o r a c l e 和s y b a s ei q 数据仓库的数据管理;e t l 开发以及前端展现部分报表的设计实现。这些实际的开发工作对论文的撰写提供了很好 的理论基础和实践基础。 本文分为以下几个章节: 第1 章是绪论,主要介绍了问题的提出背景、数据仓库技术概念及其国内外研究现 状,最后介绍了论文的研究内容及结构安排。 第2 章介绍了与论文相关的技术,对数据仓库技术做了详细的介绍,同时介绍了数 据仓库与普通数据库的区别,并对数据集市及e t l 技术和o l a p 技术都给予了详细说 明。 第3 章介绍了综合分析主题模块的分析与概要设计,首先介绍了电力数据中心的体 系结构,并介绍综合分析主题模块的需求分析,然后对综合分析主题模块进行数据模型 的概要设计,最后讲述了e t l 概要设计和前端展现概要设计。 第4 章介绍了数据准备的过程。首先介绍了数据准备流程,数据准备需要获取原业 务库系统的物理环境、数据库类型及数据结构,简要分析了原业务库的数据量,然后对 o d s 、数据仓库、数据集市区域进行建表,经过对数据仓库系统数据量的分析,数据仓 库系统内存储的海量数据,足以满足o l a p 分析的需要。 第5 章介绍了综合分析主题模块的详细设计与实现。首先介绍了综合分析主题模块 的实现流程和建设思路,接下来介绍了数据模型的详细设计和e t l 具体的实现过程, 最后介绍了前端展现的过程。 第6 章对系统的测试情况和应用情况作介绍,讲述了综合分析主题的测试方法,根 据系统的测试和应用情况,得出测试结论。 第7 章对整个论文做了阶段性总结,同时提出了下一步的工作展望。 一4 一 东北大学硕士学位论文 第2 章相关技术介绍 第2 章相关技术介绍 数据仓库技术是数据库技术发展的必然产物。在数据库应用的早期,所要解决的是 传统的工业自动化问题,这些都属于典型的o l t p ( 在线事务处理) 系统的问题。随着 计算机的发展,又有了基于业务数据的决策支持系统( d s s ) ,这样的系统称为o l a p ( 在线分析处理) 系统。o l a p 系统需要从数据库中获取信息和利用信息,对数据的要 求较o l t p 系统也有了很多不同,于是出现了数据仓库,数据集市,数据挖掘等技术。 然而,数据仓库并不是一个产品,而是一个构造过程。 。 2 1 数据仓库 2 1 1 数据仓库的特征 在第一章已经提及到了数据仓库的概念,从w i l l i a mh i n m o n 对数据仓库的权威定 义可以看到数据仓库的最重要的四个特征,即数据仓库是面向主题的、集成的、时变的、 相对稳定的1 8 。 ( 1 1 ) 数据仓库的数据是面向主题的。传统数据库是面向应用而设计的,它的势据是 为了处理具体应用而组织在一起,即按照业务处理的流程来组织数据。反映的是企业内 部数据的动态特征,目的在于提高数据处理的速度。主题是一个在较高层次将数据进行 归类的标准,每个主题基本对应一个宏观的分析领域,满足该领域分析决策的需要。因 此,主题的抽取是按照分析的要求来确定的。数据在进入数据仓库之前必须要经理加工 与集成,将原始数据结构做一个从面向应用到面向主题的大转变。 ,( 2 ) 数据仓库的数据是集成性的。数据仓库中的数据主要用于决策支持,要对细节 的数据进行归纳、整理、综合。数据仓库中的数据来自多个应用系统,但并不是对这些 数据进行简单的汇总或拷贝,因为在这个过程中,不仅要消除所有的矛盾,如同名异义、 异名同义、单位不统一,而且还要将这些数据统一到数据仓库的数据模式上来,监视数 据源的数据变化,以便扩充和更新数据仓库。应该说数据仓库是对源数据的增值和统一。 数据集成是数据仓库技术中非常关键且复杂的内容。 ( 3 ) 数据仓库的数据具有时间特征。数据仓库随着时间的变化要不断增加新的内容, 即不断跟踪事务处理系统、将业务系统数据库的数据变化追加到数据仓库中去,同时也 要随着时间变化删除过于陈旧的数据内容。由于数据仓库常用作趋势预测分析,所以需 要保留足够长时间的历史数据( 一般为5 1 0 年) 。业务数据库通常只是保留3 0 - 9 0 天的 业务处理数据,并且这些历史数据是极少或根本不更新的,一般只用于历史信息的查询。 一s 一 东北大学硕士学位论文第2 章相关技术介绍 数据仓库的时间特征表现在用码标明数据的历史时期。 ( 4 ) 数据仓库的数据是相对稳定的。数据仓库的数据是随时间而变化的,但是又是 相对稳定的。数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析使 用,决策人员所设计的数据反映的是一段相当长时间内的数据内容,是不同时间数据库 快照的集合,而不是事务型数据。尽管源数据库内的具体事务处理过程是变化的,但是 进入数据仓库的数据则是相对稳定的。 在实际的项目实践中,数据仓库还具有以下的几个特点: ( 1 ) 数据仓库的数据量非常大。通常的数据仓库的数据量为i o g b 级,相当于一般 数据库( 1 0 0 m b ) 的1 0 0 倍。大型数据仓库的数量级可以达到t b 级。数据中索引和综 合数据占2 3 ,原始数据占1 3 t 9 1 。 ( 2 ) 数据库的使用人员较少。数据仓库是为决策分析的需要而产生的,其使用人员 为经理、专业分析人员等,而不是记账员、库管员等业务人员,因此,数据库的使用人 员相对较少,且使用频率不是很高。 2 1 2 操作型数据库与数据仓库 数据仓库中的数据是面向分析处理而组织的,而传统的操作型数据库都是以事务的 处理为目的而组织的,不能满足决策支持的分析要求。承担日常操作性任务的事务处理 和分析处理具有极不相同的性质,因而对数据也有着不同的要求1 0 1 1 1 。操作型数据库系 统与分析型数据仓库之间的区别如表2 1 所示。 , 表2 1 操作型数据库与分析型数据仓库之间的区别 t a b l e2 1t h ed i f f e r e n c e sb e t w e e no p e r a t ed a m b 嬲ea n da n a l y s ed a t a w a r e h o u s e 一6 一 东北大学硕士学位论文第2 章相关技术介绍 归纳起来,数据仓库的主要特性有【1 2 1 : ( 1 ) 大规模性。数据仓库的数据量巨大,其规模一般都能超过几百g b ,而且会越 来越大。 ( 2 ) 历史性。传统的操作型数据库中的数据在时间上来说是有限的, 基本特征就是历史数据的存储,短则5 l o 年,长则几十年。 ( 3 ) 数据集成的综合性。数据仓库中对数据不同粒度的集成和综合, 支持多层次、多分辨率和多种知识的分析和发现。 而数据仓库的 能够更有效地 ( 4 ) 查询和分析的高效性。数据仓库是只读的,最终用户不能直接对其更新数据, 因而保持了高效的查询和分析。 2 1 3 数据仓库体系结构 从应用角度来看,数据仓库系统的体系结构如图2 1 所示。它由数据源、后端工具、 数据仓库、元数据中心库和前段工具组成【1 2 1 。 外部数据 l 煎坦遇 元数据中心库 曰 数据集市 前端工具 图2 1 数据仓厍系统体系结构 f i g 2 1t h ea r c h i t e c t u r eo fd a t aw a r e h o u s es y s t e m ( 1 ) 数据源。它是数据仓库系统的输入,即各种o l t p 系统的数据以及外部文件等。 ( 2 ) 后台工具。它是指各种数据源中的数据经过抽取、清洗和转换后装入数据仓库, 以及数据仓库系统运行过程中的更新维护等。 ( 3 ) 数据仓库。其中的数据按照主题组织,包括细节数据、汇总数据表和数据集市。 ( 4 ) 元数据中心库。用来存放数据仓库系统的元数据,它是关于数据的数据,包括 技术元数据和业务元数据。 ( 5 ) 前端工具。是为决策者和分析者提供的从数据仓库中提取决策信息的工具,包 括o l a p 分析、查询报表和智能型数据挖掘工具等。一一 一7 一 , 孕岛 东北大学硕士学位论文 第2 章相关技术介绍 2 1 4 数据仓库相关概念 2 1 4 1 主题 主题( s u b j e c t ) 是一个在较高层次上将数据归类的标准,每一个主题基本对应一个 宏观的分析领域。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综 合、归类并进行分析利用的抽象。所谓较高层次是相对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具有更高的数据抽象级别【1 0 】。 面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,这称 为主题域。主题域有以下几个特征【8 】: ( 1 ) 独立性。主题域可以和其他的主题域有交叉部分,但是它必须是具有独立内涵, 即要求有明确的界限,规定某项数据是否属于该主题域。 ( 2 ) 完备性。要求任何一个与主题相关的分析要求,都应该能在这一主题中找到分 析处理所要求的一切内容,如果对产品的某一分析处理要求设计现存“产品主题之外 的数据,那么就应该将这些数据增加到“产品主题中来,从而逐步完善“产品”主题。 2 1 4 2 粒度 粒度( g r a n u l a r i t y ) 是指数据仓库中数据单元的详细程度和级别。数据越详细,粒 度就越小,级别就越低;数据综合度越高,粒度就越大,级别就越高。 从粒度的概念可以知道,粒度越小,则数据详细程度越高,综合程度越低,回答询 问的种类也就越多。相反,粒度越大,则详细程度越低,综合程度越高,回答询问的种 类也就越少。从另外一个角度看,粒度越大,将会提高查询速度,同时回答问题细节的 能力就会下降;粒度越小,查询的速度就相对越低,回答问题细节的能力就会提高。因 此,选择适当的粒度,将会使决策分析简单易行。 划分粒度是设计过程中最重要的问题之一,将直接影响数据仓库中的数据量以及所 适合的查询类型。一般需要将数据划分为:详细数据、轻度总结、高度总结三级或更多 级粒度。不同粒度级别的数据用于不同类型的分析处理。粒度的划分是数据仓库设计工 作的一项重要内容,粒度划分是否适当是影响数据仓库性能的一个重要方面。 2 1 4 3 维度 维度( d i m e n s i o n ) 是指人们观察事物的角度。在数据仓库中,数据是按照维来表 示的,比较常用的几个维有:时间维、地域维、部门维等。 人们从某个维的角度看问题观察数据,还可以根据细节程度的不同形成多个描述层 次,该多个描述层次就称为维层次,一个维度往往具有多个层次,如:描述时间维时, 可以从年、半年、季度、月份、周、日期不同的层次来描述,同样,城市、地区、国家 等也构成了地区维的多个层次。 一8 一 东北大学硕士学位论文第2 章相关技术介绍 在数据仓库设计中,还要正确的确定维的层次级别。如果系统不能区分维层次或是 维层次划分不对,就会产生错误的结果。 2 1 4 ,4 数据立方体 数据立方体( c u b e ) 是指由两个或更多个属性即两个或更多个维来描述或分类的 数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。 通常我们理解立方体为三维的,其实在数据仓库中数据立方体是一个1 1 维的概念 ( n = 2 ) 。 在实际应用中,数据仓库主要操作的对象都是超过两维的,所以更好的设计数据立 方体,可以易于用户理解数据所表达的含义,从而支持用户全方位、多角度的进行数据 分析。 2 2 数据仓库分析技术 数据仓库是为了适合o l a p 和数据挖掘的需要而重新组织的数据结构,直接为 o l a p 和数据挖掘处理提供支持。o l a p 和数据挖掘在数据仓库系统中占有相当重要的 地位,但是它们的应用范围和侧重点又有所不同,o l a p 是一种验证型分析工具,而数 据挖掘是一种挖掘性分析工具。 2 2 1 联机分析处理 联机分析处理( o l a po n 1 i n ea n a l y t i c a lp r o c e s s i n g ) 概念最早是关系数据库之父 e k c o d d 在1 9 9 3 年提出的【1 3 】。它是一种自上而下,不断深入的分析工具,是验证型分 析工具。其具体的实现过程是:用户提出问题和假设,o l a p 负责自上而下深入的提出 关于该问题的详细信息,并以可视化的方式呈现给用户。o l a p 技术的核心在于“维”。 o l a p 的目标是针对特定问题的联机数据访问和分析,它支持最终用户对企业经过 整合的模式一致的数据进行动态的多维分析活动。它的主要功能包括以下几点【1 2 】: ( 1 ) 给出数据仓库中数据的多维逻辑图。用于o l a p 的数据是按照多维方式组织的, 这样,用户可以从多个角度对数据进行分析,主要的分析方法有下钻( d r i l l d o w n ) 、上 卷( r o l l u p ) 、切片( s l i c i n g ) 、切块( d i c i n g ) 和旋转( p i v o t i n g ) 等。 ( 2 ) 提供分析建模功能。在多维模式下沿着某个维或多个维进行数据的聚合、汇总 等运算。 ( 3 ) 多维的可视化界面。可以以二维或三维表格、图表或图形展示查询结构,并且 很容易变换基准轴,极快的变换查询。 1, 。 ( 4 ) 多维数据存储管理。具有多维数据存储引擎,可以按照阵列式存储数据。 一9 一 东北大学硕士学位论文第2 章相关技术介绍 2 2 2 数据挖掘技术 数据挖掘( d a t am i n i n g ,d m ) 是一种决策支持的分析过程。通常,数据挖掘定义 为“从大量数据中提取正确的、非平凡的、未知的、有潜在应用价值并最终可为用户理 解的模式的过程 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e si s t h en o n t r i v i a l p r o c e s so f i d e n t i f y i n gv a l i d ,n o v e l ,p o t e n t i a l l yu s e f u l ,a n du l i t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si nd a t a ) 。 1 1 4 0 数据挖掘能有效的从大量的数据中发现潜在的数据模式,作出预测。d m 能够高度 自动化地分析企业原有的数据,作出归纳性推理,从中挖掘出潜在的模式,预测顾客的 行为,帮助企业的高层决策者调整市场策略,减少风险,作出正确的决策。d m 处理的 对象是大量的数据。 d m 的分析过程是自动的。d m 的用户不必提出确切的问题,而只需d m 去挖掘隐 藏的模式并预测未来的趋势,这样有利于发现未知的事实。 ” 根据数据挖掘任务的不同进行划分,主要有以下几个任纠1 5 。1 6 】: ( 1 ) 关联规则发现。发现属性间的相互关系,给出决策支持。 ( 2 ) 序列模式分析。序列模式分析和关联规则发现相似,其目的也是为了挖掘出数 据间的联系,但是序列模式发现是在与时间有关的事务之间的“因果 关系。模式是按 时间有序的。序列模式发现是在与时间有关的事务数据库中发现满足用户给定的最小支 持度阈值的所有有序序列。 ( 3 ) 分类分析。根据分类模型从数据对象中发现共性,并把他们分成不同类的过程。 ( 4 ) 聚类分析。聚类是将给定的d 维空间的n 个数据对象,划分到k 个类中,使得 一个类内的数据对象间的相似度高于其他类中数据对象。 2 3 数据集市 一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对 一组主题的应用系统。例如,财务部门拥有自己的数据集市,用来进行财务方面的报表 和分析,市场推广部、销售部等也拥有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论