已阅读5页,还剩58页未读, 继续免费阅读
(电力系统及其自动化专业论文)基于分布式数据仓库的网格化负荷预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 本文结合我国电网运行管理的结构特点,设计并构建了用于负荷分析与预测的 分布式数据仓库。详述了分布式数据仓库的体系结构和内部组织策略,并进行了联 机分析处理( o l a p ) 。同时提出用网格化的思想来分区考虑气象因素对负荷的影 响,深入分析了不同地区综合气象指数实感温度、温湿指数、风寒指数、人体舒 适度指数对负荷的影响。采用小波去噪和灰色关联算法,分析了各个综合气象 指数与负荷的关联程度,选择更能反映负荷变化趋势的指数作为多变量混沌时 间序列的一个变量进行电力日负荷预测,验证了所提方法的有效性。 关键词:负荷分析,负荷预测,网格化,分布式数据仓库,多变量混沌时间序 列 a b s t r a c t t h i sp a p e rd e s i g n sa n dc o n s t r u c t st h ed i s t r i b u t e dd a t aw a r e h o u s ef b r 孕i d d i n g l o a da i l a l y s i sa n df o r e c a s t ,a c c o r d i n gt 0t l l es t m c t u r ec h a r a c t e r i s t i co fs t a t eg r i d o p e r a t i o na i l dm a n a g e m e n t t h es y s t e m 仃a m e w o r k 觚di n t e r i o rs t n j c t u r es t r a t e g y0 f d i s t r i b u t e dd a t aw a r e h o u s ea r ed e s c r i b e di nd e t a i l ,a sw e n 筋o n l i n ea n a l y t i c a l p r o c c s s i n g ( 0 l 虹) m e a n w h i i e ,t h ep a p c fp f 锶e n t s 觚i d c ao f 班d d i n gt 0 锄a 1 ) r z et h e i l l 丑u e n c eo fw e a t h c f1 0p i 跚c fl o a dm o 佗伽c f e t e l y ,g i v e sad c p t hs t i i d i 镐o nt h e r e l a t i o n s h i pb e t w e e nw e a t h e ra n dp o w c rl o a d ,c h a r a c t e r i z e st h ec o m b i n e de f 托c t s o fd i f f e r e n tw e a t h e rf a c t o r so nt h el o a di nd i f 艳r e n ta r e a sw i t hb i o - m e t e o r o l o g y i n d e x ,s u c ha ss e n s et e m p e r a t u r ei n d e x ,t h e n n a lh u m i d i t yi n d e x ,c o l di n d e xa n d c o m f o ni n d e x t h i sp a p e ra n a l y z e sv a r i o u sw e a t h e ri n d i c e sa n dt h el e v e lo fl o a d b yw 打e l e td e n o i s i n ga n dg r a ya l g o r i t h m s ,c h o o s e st h ei n d e xw h i c hb e t t e rr e n e c t s t h ec h a n g e si nt h el o a da sav a r i a b l eo fm u l t i v a r i a t et i m es e r i e s ,f o r e c a s t i n gt h e d a i l yp o w e r l o a d t h ec o n c l u s i o nt e s t i f i e st h ev a l i d i t yo ft h ep r o p o s e dm e t h o d s o n gr o n g f a n g ( e l e c t r i cp o w e rs y s t e ma n d i t sa u t o m a t i o n ) d i r e c t e db vp r o f l ir a n k e yw o r d s :i o a d a n a l y s i s ,l o a d 蚤d r e c a s t i n g ,g r i d , d i s t r i b u t e dd a t a w a r e h o u s e ,i n u l t i v a r i a t ec h a o st i m es e r i e s 声明尸明 本人郑重声明:此处所提交的硕士学位论文基于分命式数掘仓库的网 格化负荷预测研究,是本人在华北电力大学攻读硕士学位期问,在导师指 导下进行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标 注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明 并表示了谢意。 学位论文作者签名:避日期:型堕! 望 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学 校有权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用 影印、缩印或其它复制手段复制并保存学位论文;学校可允许学位论文被 查阅或借阅;学校可以学术交流为目的,复制赠送和交换学位论文;同意 学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:导师签名: 华北电力大学硕士学位论文 1 1 课题的背景和意义 第一章引言 电力调度自动化系统是电力系统最早的计算机应用系统之一,经过多年的运 行,已积累了海量的数据。比如,一个中型的s c a d a e m s ,如果按每5 分钟对模 拟量采样计算,一年的历史数据存储量至少也达几g b l l j 。同时,与调度密切相关 的电能量计量系统和调度m i s 等,也都在不断地产生和存储大量的数据。基于传统 数据库的数据管理系统,随着数据量的增加,由于未进行存储空间和检索效率的优 化,统计查询性能将大幅度下降。目前传统数据库系统所能做的只是对数据库中的 数据进行诸如录入、查询、统计等操作型处理,通过这种处理所获得的信息仅仅是 整个数据库所包含的信息的一部分,缺乏对数据整体特征的描述及其发展趋势预测 方面的信息,无法发现数据中存在的关系、规则和根据现有的数据预测未来的发展 趋势,从而导致了“数据爆炸但知识贫乏的现象。同时,随着全球经济一体化的 进程以及信息技术的发展,电力企业比以往任何时候都面临着更为复杂的生存环 境。在强大的竞争压力下,对电力企业制定决策的质量和速度都有更高要求。因此, 电力企业就需要借助于先进的辅助决策工具进行决策,而现有的数据库数据未按主 题进行集成和关联,且未对大量原始数据进行足够的归纳和综合,因此传统数据库 系统不能满足电力企业对辅助决策的需要。 近几年有部分文献对电力调度数据仓库的建立和利用进行了研究,但基本思路 都是以集中的大型数据仓库为主。考虑到电力系统自身的一些特点例如:数据规模 异常庞大;在现实环境中,绝大部分的大型数据库都是以县级、地区级、省级、网 级分层分布式的形式存在的;在决策管理上,网局负责总体监管和决策,要有总的 决策和信息中心,省级、地区级电力公司也要相对独立地对自身的发展进行决策, 也需要建立自己的决策支持系统。对于一个大电网如果只是建立集中式单一的数据 仓库,并不能取得满意的效果。因为即使建立的数据仓库是面向主题的,并为数据 分析和数据挖掘的需要保存了许多综合数据,但分析要求千变万化,不可能要求 一个集中单一层次的数据仓库能完全符合各种条件和要求。数据仓库的主题需要不 断完善和调整,综合数据的内容和形式也要灵活多变。另外,随着数据不断载入, 数据仓库越来越庞大,分析工作若完全基于集中单一的层次,性能将不能满足要求。 同时如何对数据进行分析、加工,从中获得对于系统有用的知识,并将其综合 集成形成辅助决策信息,将是个非常有价值的课题。国内外很多学者和技术人员在 进行数据仓库和数据挖掘技术在电力系统中的应用研究。他们在诸多方面例如电力 华北电力大学硕士学位论文 系统安全稳定性评估、电力系统的调度运行、电力系统故障分析、电力系统运行状 态的分类与描述、电力系统规划设计、电力市场用户特征分析等方面都取得了很大 的成果。但考虑到电力系统自身的一些特点例如:数据规模异常庞大;在现实环境 中,绝大部分的大型数据库都是以分布式的形式存在的;另外电力系统对数据处理 的效率要求很高,尤其是系统在出现故障或濒于崩溃时,须制定实时在线快速决策, 使系统重新回到正常状态,这些特点都向传统的数据挖掘提出了新的挑战,使得数 据挖掘技术在电力系统中的进一步应用受到了限制。为了解决数据挖掘的空间和时 间“瓶颈,这种基于地理分布式、形式异构的信息资源上的数据挖掘即分布式 数据挖掘便成为数据挖掘研究的一个重要方向。它对于解决电力系统的一些实际问 题具有重要的现实意义。 我国目前正处于电力市场逐步形成阶段,其中对于电力市场决策支持起着关键 作用的负荷预测数据愈加庞大和杂乱。目前,与负荷相关的各种变量的值都可能通 过各种监测设备和管理系统将其记录、存储,形成了大型的数据记录。如何从这些 错综复杂的、庞大的数据中剔除错误和无用的数据,挖掘出隐含在这些数据中真正 决定负荷的因素1 2 j ,得出该地区日负荷变化的规律,进而形成对日负荷的真正准确 的预测是负荷预测工作的核心。 对于现在的电力系统,在地理位置上构成了一种分布式的结构,而网络的分布 式构成为分布式数据挖掘提供了前提。负荷分析与预测也是如此。各种数学算法使 用的历史数据主要依赖于单一地区的数据,并没有考虑到电力系统由于地理位置的 不同而造成各类影响负荷的因素的不同。负荷特性和气象因素对系统的影响不是在 面上,丽是反映在点上。即考察市一级供电区域的气象因素和负荷特性其准确度要 比省一级供电区域及以上的高;考察县一级供电区域的气象因素其准确程度又要比 市一级供电区域及以上的高。也就是说,分析的范围越小,气象预报越准确,负荷 特性也越明显。因此气象因素的不均匀变化对电力系统地区性负荷曲线影响很大。 分布式网格化负荷预测模型正是建立在上述基础之上的,针对某地区所辖分区的具 体情况,对各个分区的负荷影响因素进行分析,找出影响负荷的主要因素,分别建 立负荷预测模型进行预测,并将各个分区的负荷预测结果上报给上一级的机构。要 针对每个地区的具体情况建立单独的预测模型,那么就要具体分析每个地区的历史 负荷数据。而每个地区的历史数据的存储也是相当大的一个工程。根据我国电网结 构有着地域上分散、组织和管理上分层及决策权分离的特点,层次化分布式负荷数 据仓库的建立是有依据的,也是非常必要的。层次划分的越细,从下到上各层负荷 的预测精度越高。因为层次越低,影响本层负荷预测的因素考虑得就越周全。 为了提高电力负荷预测的准确程度,为各种预测方法提供准确、全面的数据来 源,便于在线预测分析,更为重要的是为各种数据挖掘方法提供大量的历史和外部 2 华北电力大学硕士学位论文 信息,便于挖掘出隐藏在历史数据中的知识、模式和规律,发现新的预测模式,寻 找历史数据中电力负荷特性的各项指标的变化规律,为电力负荷各项指标的预测提 供指导,就有必要把大量的宝贵的历史数据与各种来源的数据按层次、区域分别集 成到一起形成数据仓库,再通过安全的通信方式实现各层、各区之间的数据通信, 为数据挖掘及联机分析查询提供一个统一的数据平台。 1 2 国内外研究现状 1 2 1 分布式数据仓库 9 0 年代以来,以w j h i n m o n 等为代表的一批学者提出了以数据仓库为基础, 使用多维分析技术,对数据进行多层次分析的方法,辅助决策者实现从数据到信息、 信息到经验、经验到知识的认知过程,透过数据的表象,掌握事物内在的本质和规 律,从而指导科学决策。数据仓库及其相关技术可以用于分析隐藏于大量操作型数 据中的模式、模型、趋势等知识,目前各大软件公司提供的数据仓库解决方案和工 具都面向这些领域。数据仓库同样适用于电力系统。 传统的数据库技术作为数据管理的手段,主要用于事务处理,如电力设备缺陷 处理、电能量存贮查询等,很难满足分析处理和决策服务的要求,因此高级的电力 决策支持系统多采用数据仓库技术。目前的数据仓库技术及决策支持在电力系统中 的应用还十分有限,主要在管理信息化、调度信息化、调度自动化、稳定统计等决 策和某些特定的技术分析问题上。 ( 1 ) 管理信息化包括物流和财务分析: ( 2 ) 调度信息化有实时数据与历史数据的管理和共享,电网规划; ( 3 ) 调度自动化包括负荷预测和故障统计分析; ( 4 ) 稳定统计分析主要是电网稳定性分析需要得出确定的判断结果,而影响电 网稳定的不确定因素很多。 电网未来一个时段负荷变化的趋势和特点,是电网调度部门所必需的信息。作 为e m s 一个重要的组成部分,负荷预测越来越受到电力系统运行和管理者的重视。 负荷预测是地区电力调度工作的重要环节,可分为系统负荷预测和母线负荷预测两 类;而系统负荷预测按周期又分为超短期负荷预测、短期负荷预测、中期负荷预测 和长期负荷预测。在地区电力调度中,e m s 和d m s 数据库系统中的历史数据的保 存期限大多为一年,超过一年的数据则被导出另外存放,不利于在线进行长期和中 期负荷预测。数据仓库能保存5 至1 0 年的历史数据,可运用数据挖掘技术对电力 负荷数据进行深度挖掘,获得影响负荷的主要因素并对负荷进行有效的分类,然后 再利用得到的知识建立负荷模型,从而提高负荷预测的精度。文献 4 分析了传统 3 华北电力大学硕士学位论文 电力调度数据库系统在决策分析应用等方面的不足,并提出了在现有数据库系统的 基础上建立数据仓库的思想。文献 5 以省调系统为例,分析了电力调度自动化系 统的现有应用、潜在应用及其内在联系,提出了基于调度数据仓库的电力调度自动 化系统的一体化设计模式。文献 6 讨论了基于数据仓库的决策分析系统的优越性, 提出了一种新的实现数据清洗和过滤的方法,并且比较数据立方体的三种存储模 型。文献 7 介绍了数据仓库技术及其体系结构,并结合了电力系统的特点,提出 了一系列设计思路和方法,为基于数据仓库的决策支持系统在电力系统中的全面应 用和电力系统的全面信息化提供了有力的手段。文献 8 建立了适用于被预测地区 日负荷预测问题需要的,具有所在地区负荷特点的数据仓库。它的作用是将一个负 荷数据库从以存储负荷数据为主要目的转变为以分析利用数据为主要目的。被预测 地区实际负荷数据存在的方式不同,可以根据预测需要进行适当的转换;尽量将被 预测地区天气、湿度、风速等变量以适当的形式加入数据库。文献 9 根据电力负 荷预测系统的历史数据集的特点及各种预测方法、0 l a p 及数据挖掘对数据源的需 求,研究了多维数据建模及实视图维护的理论。针对前人提出的多维数据模型的局 限性和负荷预测系统对数据要求的特点提出了一个新的模型,该模型解决了不同维 公用一个底层层次属性,把系统中不完全的低粒度数据集和完全的粗粒度数据集在 逻辑上无缝地结合起来支持联机分析处理的问题。文献 1 0 描述了以主题分布为特 点的分布式数据仓库,建立了节点主题处理原则,论述了分布式数据仓库的特点。 文献 1 1 、 1 2 分析了传统的集中式数据仓库的不足,在此基础上提出了分布式数 据仓库的概念和体系结构,并研究了具有层次化组织特点的集团总部构建o l a p 系 统以支持集团总部的管理者面向整个集团范围的各类决策活动。数据仓库存贮已经 按企业级视图转换的数据,供分析处理用,根据不同的分析要求,数据按不同的综 合程度存储,这些在文献 1 3 中给了详细的介绍。文献 1 4 分析了混合型分布式数 据仓库的体系结构,提出了一种借助远程视图从总部决策支持系统直接访问局部数 据仓库细节数据的方法。文献 1 5 1 9 针对传统数据仓库的局限性:只能分析历 史数据且数据抽取周期过长,将a g e n t 技术引入到数据仓库系统中,建立了一种基 于a g e n t 的数据仓库模型。 目前大部分企业建立的都是全局数据仓库,当企业规模较大,各子公司分布在 各地,而都有自己的操作性事物需要处理时有必要建立分布式数据仓库。目前分布 式数据仓库的应用主要在大型企业如:通信网络管理、公安信息管理、电子商务管 理等。图卜l 是一个通信网络管理的分布式数据仓库体系结构,该图也反映了分布 式数据仓库的一般体系结构。 4 华北电力大学硕士学位论文 【竺竺入、 ; j 亘 毒 l j i 一 | 匿蛩i 妻 :i臂理信息库ll : 地缓 数据 仓库 :地级罔臂中心。 e 五蟊二:两。; 图卜l 通信网络分布式数据仓库体系结构 1 2 2 电力负荷预测 电力负荷分析和预测是电力系统各级调度运营部门和用电服务部门的一项重 要日常工作,是制定发电计划和输电方案的主要依据。 在长期的实践中,人们研究了许多种负荷预测的方法,可分为定性的经验预测技术 及依赖于数量模型、定量的预测技术。经验预测方法主要是依靠专家或专家组的判 断,仅给出一个方向性的结论,当然预测结果也不可能是数值型的。在实际应用中, 从可计入人类经验这一点来说,定性方法的预测精度并不比定量方法的预测精度 差,甚至比某些定量方法的预测精度更高,尤其是在天气突变、重大事件等特殊情 况下。 定量预测技术比较常用的主要有时间序列法、卡尔曼滤波分析法、回归分析法、 指数平滑预报法、专家系统法、模糊预测法、灰色模型法、优选组合预测法、人工 神经网络法等。这几种方法的相关介绍请参阅参考文献 2 0 。 目前大部分学者都致力于研究新的预测算法,很少考虑将大电网按区域特点分 成分布式的网格进行分析。一般来说,预测地区的地理范围较大,预测区域内各地 的温度,降雨情况等影响负荷的主要因素不同,如何选择各种相关因素,选择何处 的相关因素值作为输入变量成为负荷预测的一个难点,且每个区域的负荷受各种因 素影响的比重大不相同。因此根据地域的特点建立分布式数据仓库和不同的预测模 型将是一个有意义的探索,其所带来的误差比大范围的负荷预测模型所带来的预测 误差应该要低。 5 华北电力大学硕士学位论文 1 3 本文的主要工作 ( 1 ) 根据我国电网结构和电力负荷气象因素影响的特点,提出适合电力系统的 分层分布式数据仓库的体系结构,确定分布式数据仓库层次的划分,分析不同层次 上历史负荷数据及其相关因素的粒度和维度,建立分层分布式负荷分析与预测数据 仓库的体系结构。 ( 2 ) 在上述分层分布式数据仓库的体系结构基础之上,具体设计实现局部数据 仓库和全局数据仓库。 ( 3 ) 在分布式数据仓库建立的基础上,进行联机数据分析处理。用小波分析法 对数据进行预处理,把反映人体舒适程度的生物气象学指标实感温度、温湿指数、 风寒指数和舒适度指数作为综合指标分析电力负荷与气象指数的关系,找出各个地 区的综合气象因子作为负荷预测的参考依据。同时分析各个层次、各个站点的负荷 特点,根据各自的特点建立适合本层、本站点的预测模型。 ( 4 ) 基于分布式数据仓库,研究网格化的负荷预测模型,建立网格化预测模型 提高预测结果的精度。以华北电网及其下属地区的短期负荷预测为例,进行实例验 证。并和非网格化负荷预测方法的预测结果进行对比,证明区域网格化负荷预测的 优越性。 6 华北电力大学硕士学位论文 第二章数据仓库系统结构及开发概述 2 1 数据仓库的概念和特点 2 1 1 数据仓库的概念 1 9 9 1 年,数据仓库之父w h i n m o n 首次提出了数据仓库的概念:“数据仓库是 面向主题的、集成的、时变的、稳定的数据集合,用以支持决策制定过程。这个简 要又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、 时变的、非易失的( 稳定的) ,将数据仓库与其他数据存储系统相区别【2 。 2 1 。2 数据仓库的特点 由定义可以看出数据仓库主要有以下四个特点: ( 1 ) 面向主题的: 主题是在一个较高层次将数据归类的标准,每一个主题对应一个宏观分析的领 域。基于主题的数据处理被划分为各自独立的领域,每个领域有自己互不交叉的逻 辑内涵。 ( 2 ) 集成的: 集成是指源数据库的数据进入数据仓库前,必须经过清理、抽取、转换等加工, 将源数据的结构从面向应用转换到面向主题。通常,构造数据仓库是将多个异种数 据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。使用数据清理 和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 ( 3 ) 非易失的: 非易失又叫稳定,是指数据经集成进入数据仓库后极少或根本就不改变。通常, 它只需要两种数据访问:数据的初始化装入和数据访问。 ( 4 ) 时变的: 时变是指数据仓库内的数据是历史数据,数据时限长,数据包含时间项属性。 2 2 数据仓库系统的体系结构 根据数据建模技术的不同,数据仓库系统有两种主流的体系结构:多维( m d ) 系统结构和企业信息工厂( c i f ) 体系结构。m d 体系结构满足企业内部的业务部门 需求,它使得数据管理从属于业务需求。c i f 体系结构为整个企业服务,它是为从 属的业务需求管理数据的。 7 华北电力大学硕士学位论文 2 2 1 多维结构和企业信息工厂结构结合的体系结构 ( 1 ) 数据集市 数据仓库作为企业级应用,其涉及的范围和 投入的成本常常是巨大的。它的建设很容易形成 高投入、慢进度的大项目。这一切都是部门工 作组所不希望看到和不能接受的。部门工作组 要求在公司内部获得一种适合自身应用、容易使 用,且自行定向、方便高效的开放式数据接口工 具。与数据仓库相比,这种工具更紧密集成、拥 有完整的图形用户接口和更吸引人的价格。数据 集市是一种更小、更集中的数据仓库。它提供了 一条部门工作组级的分析数据的廉价途径。数 图2 1 数据集市及数据仓库关系图 据集市应该具备的特性包括:规模小、面向特定的应用、面向部门工作组、快速 实现、投资规模小、易使用、全面支持异种机平台等。用户可根据自己的需求,以 自己的方式来建立数据集市。数据仓库和数据集市之间的关系如图2 一l 所示。无论 是数据仓库还是数据集市都要首先对原始数据完成抽取、转换、过滤、清洗等处理, 以及对存储的数据进行更新、管理、使用、表现等,用以支持数据仓库和数据集市 的应用或管理决策。 ( 2 ) 二者结合的数据仓库体系结构 多维体系结构的模型主要包括:数据源、数据抽取装载转换、数据集市、多维 数据集和用户访问分析。由于数据管理从属于业务需求,因此不存在一个物理上的 企业级数据仓库。其数据存储于原子数据集市和聚集数据集市。 企业信息工厂体系结构主要包括:数据源、数据抽取装载转换、操作型数据存 储、企业级数据仓库、信息取出和用户访问分析。数据源中的数据经过数据抽取装 载转换工具以统一的形式进入企业级数据仓库,然后再根据不同的需要流入o l a p 数据集市、数据挖掘仓库等分析型应用单元,并最终展现给用户。 目前应用最多的是上述两种体系结构相结合的数据建模技术实体一联系 ( e r ) 模型,星型模式数据模型用于多维数据集市的设计。 图2 2 为二者结合的体系结构。这种数据仓库的构架大致分为三个部分:数据 获取层、数据存储层和数据访问层。其中数据获取层分为数据源和数据抽取、转化、 装载两个子层,数据存储层一般表现为操作型数据存储、中心数据仓库以及数据集 市三种存储方式,而数据访问层又分为多维数据集层和用户访问分析层。 8 华北电力大学硕士学位论文 嚣 置:= := = = “ 一麓叛笛警“拳 一+ 。一2。锗 图2 2 数据仓库的体系结构 222 数据获取层 ( 1 ) 数据源 数据源通常包括与决策有关的企业内部信息和外部信息,主要包括业务数据、 历史数据、相关数据以及外部数据等。内部信息除了存放于管理信息系统数据库中 的各种业务数据和各类文档数据外,还包括了企业的历史遗留数据。外部数据_ 丰要 是各类法律法规,市场信息以及竞争对手的信息等等。不同的业务数据库外部数据 的类型不同。同时,现在大型企业都趋向集团化方向发展,数据源的分布广而散, 不利于集中到一个中央数据仓库中。因此在建立数据仓库前,数据源的可获取性以 及数据的传输效率是首先要考虑的问题。 ( 2 ) 数据抽取、转化和装载 数据抽取、转化和装载( e 1 l ) 是数据从数据源进入到数据仓库存储前需要进行 的预处理过程,其主要功能是从数据源中抽取数据后检验和整理数据,并根据数据 仓库的设计要求重新组织和加工数据,装载到数据仓库的目标数据库中。一般有五 个步骤:数据提取、数据清洗、数据转换、数据集成和数据加载口“。 数据提取:根据数据仓库的要求收集和提取外部数据源中的数据。 数据清洗:对进入数据仓库的数据过滤出错误的数据、填补缺少数据。 数据转换:将数据源中的数据根据转换规则转换成数据仓库中的数据。 数据集成:将数据源中的细节数据先进行一次综合,以形成当前细节数据。 数据加载:将经过清洗、转换、合成处理后的数据装入数据仓库的过程。 薹薹 d 昭 一一嘲蛔田m坩 学;:;_嚣一 纂 础w ;_ 华北电力大学硕士学位论文 2 2 3 数据存储层 在数据仓库系统的体系结构中,位于整个系统中心的是数据存储层。数据存储 层的数据存储方式主要有数据仓库以及数据集市两种,它们分别使用于不同的情 况。 数据仓库是一个组织结构,包含了集成的、历史的数据以及详细的数据,用于 支持海量数据处理,这些数据对整个企业来说是公用的。数据仓库从业务系统数据 库、企业外部数据、历史数据以及相关数据源中提取数据、清洗数据、转换数据和 转载数据;此外还要定时的刷新数据,使数据仓库保持与业务数据库的同步。 一般来说,数据仓库是企业范围的,是企业进行信息处理和决策的基础,而且 经常是企业第一个存储集成数据的位置所在,也是历史数据的适当存储场合。 但是由于数据仓库不能回答所有的d s s 处理问题,如没有针对任何特定的部门 优化其中的数据存储方式;在访问数据仓库时,存在大量的资源竞争问题;数据仓 库中的大量数据及其组织形式要求系统具有较大的存储和处理能力,使得d s s 处理 的运营成本非常昂贵等。由于上述原因,当数据仓库的规模不断增长,且日趋成熟 时,需要另一种d s s 结构数据集市。 2 2 4 数据访问层 ( 1 ) 多维数据集 多维数据集,又称为数据立方体,其具体实现可分为:关系o l a p ( r o l 心) 、 多维o l a p ( m o l a p ) 和混合o l 廿( h o l 心) 。r o l a p 把基本数据和聚合数据均存 放在关系数据库之中;m o l 婶将基本数据和聚合数据均存放于多维数据库中; h o l 心将基本数据存放于关系数据库中,而将聚合数据存放于多维数据库中。 多维数据模型提供了多种方法对多维数据集进行切片、切块、聚合、钻取、旋 转等分析操作,以求剖析数据使用户能够从多个维度、多个侧面、多种数据综合查 看数据,从而了解数据背后蕴藏的规律,并且可动态考察汇总数据和细节数据之间 的关系。多维数据集一般存储在0 l a p 服务器上。o l a p 服务器完成数据仓库中数 据的组织和综合,并对其进行分析,最终将分析结果以多维视图的形式表达出来。 ( 2 ) 用户访问分析层 从数据源中抽取出相应的数据,经过检验、整理、加工和重新组织后存放到数 据仓库后,下一步就是要考虑如何使客户( 业务决策人员、各级管理人员和业务分 析人员) 能够方便灵活地使用数据仓库中存储的数据,达到数据仓库工程的预定目 标。在数据仓库中,这是通过为用户提供一套前端数据访问和分析工具来实现的。 目前,主要有关系型查询工具、关系型数据的多维视图工具、d s s e i s 软件包以及 1 0 华北电力大学硕士学位论文 客户机服务器工具四大类。 客户机服务器工具可以开发特定的功能,满足用户对图形界面、数据操作及 数据分析报表等多方面的特殊需求。这些工具都能提供对数据的透明访问,简化对 数据库的访问操作,支持多媒体应用,能够迅速构建前端决策支持应用系统,开发 成本较低,因此这种工具是在用户中应用最多的。 2 2 5 元数据 元数据位于数据存储层,是描述数据仓库内数据的结构和建立方法的数据,可 以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据, 贯穿于建立数据仓库的整个过程。按其用途可分为技术元数据和业务元数据两类。 技术元数据是描述关于数据仓库技术细节的数据,这些元数据用于开发、管理和维 护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的 语义层定义,业务元数据使业务人员能够更好地理解数据仓库分析出来的数据【2 引。 2 3 数据仓库系统的开发实施 2 3 1 三种常用的数据仓库开发策略 数据仓库的实施策略总的来说可分为三种:自顶向下方法、自底向上方法以及 两者结合的混合方法1 2 4 1 。 自顶向下方法由总体设计和规划开始,首先建立一个企业范围内的数据仓库。 从理论上讲,该全局数据仓库包含了决策支持所需的一致的数据,面向各个部门的 决策支持所需要的数据从全局数据仓库中提取,这部分数据构成了该部门的数据集 市。图2 3 为设计流程。 图2 3 自项向下方法 该策略优点:易维护,数据标准化,商业化;其缺点有建设周期长。 自底向上方法以实验和原型开始,先建立面向特定部门或特定商业问题的数据 就集市,然后在这些数据集市的基础上建立全局数据仓库。图2 4 为设计流程。 1 1 华北电力大学硕士学位论文 图2 4 自底向上方法 该策略优点:数据范围小,实现快,风险小、开发周期短;其缺点:各部门可 能会“封锁”数据,影响到数据仓库的成功实施。 2 3 2 混合数据仓库开发方法 对于开发数据仓库系统,一个推荐的方法是以递增、进化的方式实现数据仓库, 如图2 5 所示f 2 5 1 。 图2 5 数据仓库开发的推荐方法 首先,定义一个高层次的企业数据模型,在不同的主题和可能的应用之间,提 供企业范围的、一致的、集成的数据视图。然后,基于上述相同的企业数据模型, 可以并行地实现独立的数据集市和企业数据仓库。接着,可以构造分布式数据集市, 通过网络中心服务器集成不同的数据集市。最后,构造一个多层数据仓库。其中, 企业数据仓库是所有数据仓库数据的唯一管理者,仓库数据分布在一些依赖的数据 集市中。 1 2 圄圄圄圄 华北电力大学硕士学位论文 2 4m ss q ls e r v e r2 0 0 5 数据仓库平纠2 7 】 2 4 1 微软数据仓库平台特点 近几年,微软公司的m ss q ls e r v e r2 0 0 0 良好的可伸缩性以及s q ls e e r2 0 0 0 中提供了数据仓库中的一部分专用工具,而另一部分工具则由微软产品中的其它工 具充任,它们一起构成了一个基于微软产品的完整数据仓库工具集。 微软数据仓库框架的目标是简化数据仓库解决方案的设计、实现和管理。该框 架用来提供: 易于集成和易于扩展的开放式体系结构。 异类数据导入、导出、确认和带有可选数据类型的清理服务。 集成的元数据用于数据仓库的设计、数据析取转换、服务器管理和最终用 户分析工具。 用于日程安排、存储管理、性能监测和通知的核心管理服务。 d a t aw a r c h 伽s j n gf r 锄e w o r k ( 数据仓库框架) 从底层向上设计,为微软产品用户 和第三方企业提供行业技术标准,使得数据仓库框架成为很容易扩展的开放式体系 结构。这就使组织机构能选择同类中最好的组件并仍能确保集成。 s q ls e r v e r2 0 0 5 扩展了s q ls e r v e r2 0 0 0 的性能、可靠性、可用性、可编程性和 易用性,增加了一些新功能,如: 数据库引擎引入了新的可编程性功能( 如与m i c r o s o f t n e tf r a m w o r k 的集 成1 、新x m l 功能和新数据类型。 改进了s q l s e r v e r 数据库中数据的编程借口。 i n t e g r a t i o ns e r 、r i c e 引入了新的可扩展体系结构和新设计器,可以将作业流从 数据流中分离出来,并提供了一套丰富的控制流语义。 a n a l y s i ss e r v i c e s 引入了新管理工具、集成开发环境以及n e tf r a m w o r k 的集成。 2 4 2o l 廿数据仓库组件 m i c r o s o f t 提供了服务器端的组件分 析服务器,和客户端组件数据透视表服务。 整个0 l a p 的结构如图2 6 所示。 在服务器端用a n a l y s i sm a n a g e r 来管理 a n a l y s i s 服务器的数据,0 l a p 服务分析服务 器作为w i n d o w sn t 服务来进行运作,并提供 核心的计算功能。在分析服务器a n a l v s i s 1 3 图2 6m i c r o s o f t 分析服务器结构图 华北电力大学硕士学位论文 s e r v e r 中,对设备管理功能的编程访问是通过称为决策支持模型( d e c i s i o ns u p p o r t o b j e c t s ,简称d s o ) 的对象模型来实现的,0 l a p 服务可以存取任何被支持的o l e d b 数据提供者中的源数据。通过o l ed b 的多平台性能,可以从多种系统中存取 数据,就像是在提供o l a p 服务的服务器本地进行存取一样。 在客户端,数据透视表服务是将o l 廿客户端应用连接到提供o l 廿服务的服 务器上的一个工具。所有对0 l 心服务管理的数据,定制程序或客户端工具管理的 数据的存取,都是通过数据透视表服务提供的o l ed b 接口实现的。在客户端我们 可以利用数据透视表服务来连接服务器以便取得a n a l v s i s 服务器的数据。 本文以m ss q ls e e r2 0 0 5 数据仓库为平台构建分布式数据仓库的。 1 4 华北电力大学硕士学位论文 第三章用于负荷分析与预测的分布式数据仓库构建 3 1 支持负荷分析与预测的数据仓库模型的研究 3 1 1 数据仓库的数据模型 ( 1 ) 数据模型就是描述数据及数据之间联系的结构形式,它研究的内容是如何 组织数据库中的数据。数据模型一般有两种: 关系数据模型 关系模型是用二维表框架来表示实体及其之间的联系的模型,它的数据结构是 一个二维表格结构。现在主流的数据仓库很多是基于关系模型的。 规范化反规范化的关系数据模型 数据的规范化是将数据结构分解成最小组成部分的过程,其目的是为了实现数 据访问的灵活性和高效的数据存储。 要完成对经过规范化处理后的数据模型形成的一系列小表,需要在不同表中进 行i o 操作的动态互联操作,而这种多表的链接操作很费时。反规范化处理【2 8 1 是为 了提高i o 操作的效率,将这些小表合并,从而减少处理时被存取的表的个数。 ( 2 ) 数据仓库模型有三种:星型模式、雪花模式和事实星座,常用的是前两种。 星型模型 最常见的模型范例是星型模型,其中数据仓库包括一个大的包含大量数据和不 含冗余的中心表( 事实表) ,以及一组小的附属表( 维度表) ,每维一个。维度表围绕 事实表在射线上。 如图3 一l 所示,作为一个例子,该模式有一个位于中心的负荷事实表以及三个 围绕在周围的维度表,分别是:时间维度表、气象维度表和地域维度表。 时间维度表 图3 1 星型模式 1 5 华北电力大学硕士学位论文 星型模型中,每个维度只用一个维度表表示,每个维度表包含一组属性。例如, 气象维度表包含属性集( 气象信息编码,温度,1 4 点温度,湿度,1 4 点湿度,风 速) 。但这种模式会不可避免地会造成某些数据冗余。 雪花模式 雪花模式是星型模式的变种,其中某些维度表是规范化的,因而把数据进一步 分解到附加表中。见图3 2 。 时间维度表 图3 2 雪花模式 雪花模式的事实表和星型模式相同,两个模式的主要不同是维度表。星型模式 中气象维度表在雪花模式中被规范化,导致了新的气象因素维度表,它们一起组成 气象维度。 负荷气象数据仓库数据模型的选取 雪花模式的某些维度表可能是规范化形式的,以便减少冗余:星型模式由于每 个维度只有一个维度表,因此提高了浏览查询的性能。维度表由于可能包含会产生 冗余的属性而增加一些存储空间,但与巨大的事实表相比,这种空间的增加可以忽 略。对一个单主题数据仓库( 数据集市) ,一般使用星型模式,以存储空间换取性能 上的提高。本文建立的是单主题的负荷气象数据仓库,选择星型模式作为数据模式。 3 1 2 星型负荷气象数据仓库设计 ( 1 ) 负荷气象数据仓库的维度选取 负荷气象数据仓库的主题是负荷与气象的关联情况,在此基础上我们需要确定 与负荷、气象有关的维度。通过维度可以对数据仓库中的负荷气象数据进行汇总或 细化。维度有时间维度、地区维度、气象指数维度( 该维度属计算维,各计算成员 也可以直接写在事实表中) 。 ( 2 ) 负荷气象事实表结构设计 1 6 华北电力大学硕士学位论文 负荷气象事实表包括度量属性字段,用于负荷气象数据的筛选和汇总,该事实 表中的度量值有整点负荷、温度、湿度、风速等。负荷气象事实表还包括用于和维 度表联系的外键,该外键取自相对应的维度表的主键。如地区编码和地区维度相连, 时间编码和时间维度相联系。负荷气象事实表的结构设计如表3 1 所示。 表3 一l 负荷气象事实表 字段名称字段描述 地区编码联系地区维度表 时间编码联系时间维度表 气象指数编码联系气象指数维度表 整点负荷度量值 温度度量值 湿度度量值 风速度量值 降雨量度量值 本文采用不同于业务数据库中的编码机制,在数据仓库中使用自然编码对维度 表中的每个记录进行区分。如多个地区的编码可以用1 ,2 。 ( 3 ) 维度表结构设计 维度表包含描述事实表中事实记录的特性。维度表包含帮助汇总的特性的层次 结构,特定的层次结构构成多维数据集的一个维度。维度表的设计原则是尽可能地 将分析时要用到的属性( 字段) 包含到维度表内,而与分析无关的数据排除在外。 气象指数维度表 气象指数维度表的结构设计如表3 2 所示。 表3 2 气象指数维度表 字段名称字段描述 气象指数编码主键( 自然数) 日期时刻层次结构属性 地区层次结构属性 温湿指数计算成员 实感指数计算成员 风寒指数计算成员 舒适度指数计算成员 时间维度表 由于从业务数据库中我们无法得到时间维度表的数据,本文定义了一种时间维 1 7 华北电力大学硕士学位论文 度表的设计结构。将每天的日期和时刻记录到独立的时间维度表中,通过日期编码 区分每个日期并与事实表相连。对于气象负荷来说,时间单位的粒度一般以小时为 单位。时间维度表的结构设计如表3 3 所示。 表3 3 时间维度表 字段名称字段描述 日期编码主键( 自然数) 日期名标准日期名 时刻编码 外键( 自然数) 和时间维度表相连 时刻名标准时刻名 星期 星期1 7 ( 星期一为1 ) 周 第几周 月份 标准月份o l 一1 2 年份年份 地区维度表 如表3 4 。 表3 4 地区维度表 字段名称字段描述 地区编码主键( 自然数) 地区名称描述属性 所属电网 描述属性 3 1 3 负荷气象数据仓库星型模型 完整设计的负荷气象数据仓库星型模型如图3 3 所示。 地区维度表 地区编码 地区名称 所属电网 时间维度表 ,。、 日期编码 日期名 时刻编码 时亥名 月份 年份 负荷气象事实表 气象指数维度表 地区编码 时间编码 气象指数编码 负荷 温度 湿度 风速 图3 3 负荷气象数据仓库星型模型 1 8 气象指数编码 日期时亥u 地区 温湿指数 实感指数 风寒指数 舒适度指数 华北电力大学硕士学位论文 3 2 用于负荷分析与预测的分布式数据仓库设计 3 2 1 分布式数据仓库技术概述 数据仓库环境有单一中央集成和分布式两种类型。大部分企业建立和支持单一 的中央集成数据仓库环境,但随着企业规模的扩大,许多企业的运作模式自然形成 一种分布式管理结构,建立分布式数据仓库环境可能更满足需要。由于地理等原因, 当前企业内部存在许多不兼容的相互独立的事务处理系统,需要对分散在这些系统 中的相关数据进行集成,以向分析人员提供统一的数据视图。c s 和b s 等技术的 逐渐成熟也为分布式数据仓库技术提供了强有力的保证。 ( 1 ) 分布式数据仓库技术的优点【2 9 l 整体代价低。对于一个数据仓库,当最初采用分布式技术时,软、硬件代 价要比最初采用大的、中央集成的技术代价低。 存放在数据仓库中的数据量理论上无限制。如果数据仓库中的数据量将要 超过分布式处理器的限制时,只要在网中加入另一个处理器即可。 研制、见效周期短。在短期内局部数据仓库就能建好、运行。 具有实时性。每个局部群体具有独立的控制权,为数据仓库具有实时性提 供了保障。 ( 2 ) 分布式数据仓库体系结构 “数据仓库之父”w h i n m o n 把分布式数据仓库分成以下三种类型1 3 0 】: 业务在不同地域或不同生产系统上进行的。这就出现了局部数据仓库和全 局数据仓库,局部数据仓库是在远程站点上提供和处理数据,而全局数据仓库提供 的是在整个业务范围集成后的数据。 数据仓库环境包括了大量的数据,它们分布在多个处理器上。从逻辑上看 只有一个数据仓库,但从物理上看,存在许多有紧密联系但存放在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 永泰县葛岭镇招聘社区网格员真题附答案详解
- 第29课 電気を消せ 教案 -新版标准日本语初级下册课时教学设计
- 国际贸易2026年国际货物转运合同协议
- 硬件维修保养服务协议
- 长尾理论数据标注2026年度合作书
- 原型设计项目验收标准合同2026
- 塑料原料行业安全生产协议2026
- 《物品收纳方法多》第1课时(教案)-四年级劳动北师大版
- 五金建材行业联盟合作协议2026
- 高考化学 秘笈四 高考非选择题答题策略教学设计(含解析)
- 2026年湖南省郴州市初二地理生物会考真题试卷(+答案)
- 大众id4销售合同
- 天然气使用安全检查培训课件
- 2026辽宁沈阳市文体旅产业发展集团所属企业沈阳出版社有限公司招聘2人考试参考题库及答案解析
- HJ 1472-2026 水质 9种微囊藻毒素的测定 液相色谱-三重四极杆质谱法
- 2026 年高考(江苏卷)生物试题及答案
- 2022-2023学年重庆市巴南区数学五下期末质量检测模拟试题含答案
- 中华文化选讲(吉林师范大学)知到章节答案智慧树2023年
- 某学校小升初数学试题(正式)汇编
- GB/T 801-2021小半圆头低方颈螺栓B级
- 双头螺柱连接新-邢胜宅
评论
0/150
提交评论