（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：63 大小：6.14MB 积分：0 举报 版权申诉

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf_第2页

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf_第3页

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf_第4页

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf_第5页

已阅读5页，还剩58页未读，继续免费阅读

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要摘要本文结合我国电网运行管理的结构特点，设计并构建了用于负荷分析与预测的分布式数据仓库。详述了分布式数据仓库的体系结构和内部组织策略，并进行了联机分析处理( o l a p ) 。同时提出用网格化的思想来分区考虑气象因素对负荷的影响，深入分析了不同地区综合气象指数实感温度、温湿指数、风寒指数、人体舒适度指数对负荷的影响。采用小波去噪和灰色关联算法，分析了各个综合气象指数与负荷的关联程度，选择更能反映负荷变化趋势的指数作为多变量混沌时间序列的一个变量进行电力日负荷预测，验证了所提方法的有效性。关键词：负荷分析，负荷预测，网格化，分布式数据仓库，多变量混沌时间序列 a b s t r a c t t h i sp a p e rd e s i g n sa n dc o n s t r u c t st h ed i s t r i b u t e dd a t aw a r e h o u s ef b r 孕i d d i n g l o a da i l a l y s i sa n df o r e c a s t ，a c c o r d i n gt 0t l l es t m c t u r ec h a r a c t e r i s t i co fs t a t eg r i d o p e r a t i o na i l dm a n a g e m e n t t h es y s t e m 仃a m e w o r k 觚di n t e r i o rs t n j c t u r es t r a t e g y0 f d i s t r i b u t e dd a t aw a r e h o u s ea r ed e s c r i b e di nd e t a i l ，a sw e n 筋o n l i n ea n a l y t i c a l p r o c c s s i n g ( 0 l 虹) m e a n w h i i e ，t h ep a p c fp f 锶e n t s 觚i d c ao f 班d d i n gt 0 锄a 1 ) r z et h e i l l 丑u e n c eo fw e a t h c f1 0p i 跚c fl o a dm o 佗伽c f e t e l y ，g i v e sad c p t hs t i i d i 镐o nt h e r e l a t i o n s h i pb e t w e e nw e a t h e ra n dp o w c rl o a d ，c h a r a c t e r i z e st h ec o m b i n e de f 托c t s o fd i f f e r e n tw e a t h e rf a c t o r so nt h el o a di nd i f 艳r e n ta r e a sw i t hb i o - m e t e o r o l o g y i n d e x ，s u c ha ss e n s et e m p e r a t u r ei n d e x ，t h e n n a lh u m i d i t yi n d e x ，c o l di n d e xa n d c o m f o ni n d e x t h i sp a p e ra n a l y z e sv a r i o u sw e a t h e ri n d i c e sa n dt h el e v e lo fl o a d b yw 打e l e td e n o i s i n ga n dg r a ya l g o r i t h m s ，c h o o s e st h ei n d e xw h i c hb e t t e rr e n e c t s t h ec h a n g e si nt h el o a da sav a r i a b l eo fm u l t i v a r i a t et i m es e r i e s ，f o r e c a s t i n gt h e d a i l yp o w e r l o a d t h ec o n c l u s i o nt e s t i f i e st h ev a l i d i t yo ft h ep r o p o s e dm e t h o d s o n gr o n g f a n g ( e l e c t r i cp o w e rs y s t e ma n d i t sa u t o m a t i o n ) d i r e c t e db vp r o f l ir a n k e yw o r d s ：i o a d a n a l y s i s ，l o a d 蚤d r e c a s t i n g ，g r i d ， d i s t r i b u t e dd a t a w a r e h o u s e ，i n u l t i v a r i a t ec h a o st i m es e r i e s 声明尸明本人郑重声明：此处所提交的硕士学位论文基于分命式数掘仓库的网格化负荷预测研究，是本人在华北电力大学攻读硕士学位期问，在导师指导下进行的研究工作和取得的研究成果。据本人所知，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名：避日期：型堕! 望关于学位论文使用授权的说明本人完全了解华北电力大学有关保留、使用学位论文的规定，即：学校有权保管、并向有关部门送交学位论文的原件与复印件；学校可以采用影印、缩印或其它复制手段复制并保存学位论文；学校可允许学位论文被查阅或借阅；学校可以学术交流为目的，复制赠送和交换学位论文；同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名：导师签名：华北电力大学硕士学位论文 1 1 课题的背景和意义第一章引言电力调度自动化系统是电力系统最早的计算机应用系统之一，经过多年的运行，已积累了海量的数据。比如，一个中型的s c a d a e m s ，如果按每5 分钟对模拟量采样计算，一年的历史数据存储量至少也达几g b l l j 。同时，与调度密切相关的电能量计量系统和调度m i s 等，也都在不断地产生和存储大量的数据。基于传统数据库的数据管理系统，随着数据量的增加，由于未进行存储空间和检索效率的优化，统计查询性能将大幅度下降。目前传统数据库系统所能做的只是对数据库中的数据进行诸如录入、查询、统计等操作型处理，通过这种处理所获得的信息仅仅是整个数据库所包含的信息的一部分，缺乏对数据整体特征的描述及其发展趋势预测方面的信息，无法发现数据中存在的关系、规则和根据现有的数据预测未来的发展趋势，从而导致了“数据爆炸但知识贫乏的现象。同时，随着全球经济一体化的进程以及信息技术的发展，电力企业比以往任何时候都面临着更为复杂的生存环境。在强大的竞争压力下，对电力企业制定决策的质量和速度都有更高要求。因此，电力企业就需要借助于先进的辅助决策工具进行决策，而现有的数据库数据未按主题进行集成和关联，且未对大量原始数据进行足够的归纳和综合，因此传统数据库系统不能满足电力企业对辅助决策的需要。近几年有部分文献对电力调度数据仓库的建立和利用进行了研究，但基本思路都是以集中的大型数据仓库为主。考虑到电力系统自身的一些特点例如：数据规模异常庞大；在现实环境中，绝大部分的大型数据库都是以县级、地区级、省级、网级分层分布式的形式存在的；在决策管理上，网局负责总体监管和决策，要有总的决策和信息中心，省级、地区级电力公司也要相对独立地对自身的发展进行决策，也需要建立自己的决策支持系统。对于一个大电网如果只是建立集中式单一的数据仓库，并不能取得满意的效果。因为即使建立的数据仓库是面向主题的，并为数据分析和数据挖掘的需要保存了许多综合数据，但分析要求千变万化，不可能要求一个集中单一层次的数据仓库能完全符合各种条件和要求。数据仓库的主题需要不断完善和调整，综合数据的内容和形式也要灵活多变。另外，随着数据不断载入，数据仓库越来越庞大，分析工作若完全基于集中单一的层次，性能将不能满足要求。同时如何对数据进行分析、加工，从中获得对于系统有用的知识，并将其综合集成形成辅助决策信息，将是个非常有价值的课题。国内外很多学者和技术人员在进行数据仓库和数据挖掘技术在电力系统中的应用研究。他们在诸多方面例如电力华北电力大学硕士学位论文系统安全稳定性评估、电力系统的调度运行、电力系统故障分析、电力系统运行状态的分类与描述、电力系统规划设计、电力市场用户特征分析等方面都取得了很大的成果。但考虑到电力系统自身的一些特点例如：数据规模异常庞大；在现实环境中，绝大部分的大型数据库都是以分布式的形式存在的；另外电力系统对数据处理的效率要求很高，尤其是系统在出现故障或濒于崩溃时，须制定实时在线快速决策，使系统重新回到正常状态，这些特点都向传统的数据挖掘提出了新的挑战，使得数据挖掘技术在电力系统中的进一步应用受到了限制。为了解决数据挖掘的空间和时间“瓶颈，这种基于地理分布式、形式异构的信息资源上的数据挖掘即分布式数据挖掘便成为数据挖掘研究的一个重要方向。它对于解决电力系统的一些实际问题具有重要的现实意义。我国目前正处于电力市场逐步形成阶段，其中对于电力市场决策支持起着关键作用的负荷预测数据愈加庞大和杂乱。目前，与负荷相关的各种变量的值都可能通过各种监测设备和管理系统将其记录、存储，形成了大型的数据记录。如何从这些错综复杂的、庞大的数据中剔除错误和无用的数据，挖掘出隐含在这些数据中真正决定负荷的因素1 2 j ，得出该地区日负荷变化的规律，进而形成对日负荷的真正准确的预测是负荷预测工作的核心。对于现在的电力系统，在地理位置上构成了一种分布式的结构，而网络的分布式构成为分布式数据挖掘提供了前提。负荷分析与预测也是如此。各种数学算法使用的历史数据主要依赖于单一地区的数据，并没有考虑到电力系统由于地理位置的不同而造成各类影响负荷的因素的不同。负荷特性和气象因素对系统的影响不是在面上，丽是反映在点上。即考察市一级供电区域的气象因素和负荷特性其准确度要比省一级供电区域及以上的高；考察县一级供电区域的气象因素其准确程度又要比市一级供电区域及以上的高。也就是说，分析的范围越小，气象预报越准确，负荷特性也越明显。因此气象因素的不均匀变化对电力系统地区性负荷曲线影响很大。分布式网格化负荷预测模型正是建立在上述基础之上的，针对某地区所辖分区的具体情况，对各个分区的负荷影响因素进行分析，找出影响负荷的主要因素，分别建立负荷预测模型进行预测，并将各个分区的负荷预测结果上报给上一级的机构。要针对每个地区的具体情况建立单独的预测模型，那么就要具体分析每个地区的历史负荷数据。而每个地区的历史数据的存储也是相当大的一个工程。根据我国电网结构有着地域上分散、组织和管理上分层及决策权分离的特点，层次化分布式负荷数据仓库的建立是有依据的，也是非常必要的。层次划分的越细，从下到上各层负荷的预测精度越高。因为层次越低，影响本层负荷预测的因素考虑得就越周全。为了提高电力负荷预测的准确程度，为各种预测方法提供准确、全面的数据来源，便于在线预测分析，更为重要的是为各种数据挖掘方法提供大量的历史和外部 2 华北电力大学硕士学位论文信息，便于挖掘出隐藏在历史数据中的知识、模式和规律，发现新的预测模式，寻找历史数据中电力负荷特性的各项指标的变化规律，为电力负荷各项指标的预测提供指导，就有必要把大量的宝贵的历史数据与各种来源的数据按层次、区域分别集成到一起形成数据仓库，再通过安全的通信方式实现各层、各区之间的数据通信，为数据挖掘及联机分析查询提供一个统一的数据平台。 1 2 国内外研究现状 1 2 1 分布式数据仓库 9 0 年代以来，以w j h i n m o n 等为代表的一批学者提出了以数据仓库为基础，使用多维分析技术，对数据进行多层次分析的方法，辅助决策者实现从数据到信息、信息到经验、经验到知识的认知过程，透过数据的表象，掌握事物内在的本质和规律，从而指导科学决策。数据仓库及其相关技术可以用于分析隐藏于大量操作型数据中的模式、模型、趋势等知识，目前各大软件公司提供的数据仓库解决方案和工具都面向这些领域。数据仓库同样适用于电力系统。传统的数据库技术作为数据管理的手段，主要用于事务处理，如电力设备缺陷处理、电能量存贮查询等，很难满足分析处理和决策服务的要求，因此高级的电力决策支持系统多采用数据仓库技术。目前的数据仓库技术及决策支持在电力系统中的应用还十分有限，主要在管理信息化、调度信息化、调度自动化、稳定统计等决策和某些特定的技术分析问题上。 ( 1 ) 管理信息化包括物流和财务分析： ( 2 ) 调度信息化有实时数据与历史数据的管理和共享，电网规划； ( 3 ) 调度自动化包括负荷预测和故障统计分析； ( 4 ) 稳定统计分析主要是电网稳定性分析需要得出确定的判断结果，而影响电网稳定的不确定因素很多。电网未来一个时段负荷变化的趋势和特点，是电网调度部门所必需的信息。作为e m s 一个重要的组成部分，负荷预测越来越受到电力系统运行和管理者的重视。负荷预测是地区电力调度工作的重要环节，可分为系统负荷预测和母线负荷预测两类；而系统负荷预测按周期又分为超短期负荷预测、短期负荷预测、中期负荷预测和长期负荷预测。在地区电力调度中，e m s 和d m s 数据库系统中的历史数据的保存期限大多为一年，超过一年的数据则被导出另外存放，不利于在线进行长期和中期负荷预测。数据仓库能保存5 至1 0 年的历史数据，可运用数据挖掘技术对电力负荷数据进行深度挖掘，获得影响负荷的主要因素并对负荷进行有效的分类，然后再利用得到的知识建立负荷模型，从而提高负荷预测的精度。文献 4 分析了传统 3 华北电力大学硕士学位论文电力调度数据库系统在决策分析应用等方面的不足，并提出了在现有数据库系统的基础上建立数据仓库的思想。文献 5 以省调系统为例，分析了电力调度自动化系统的现有应用、潜在应用及其内在联系，提出了基于调度数据仓库的电力调度自动化系统的一体化设计模式。文献 6 讨论了基于数据仓库的决策分析系统的优越性，提出了一种新的实现数据清洗和过滤的方法，并且比较数据立方体的三种存储模型。文献 7 介绍了数据仓库技术及其体系结构，并结合了电力系统的特点，提出了一系列设计思路和方法，为基于数据仓库的决策支持系统在电力系统中的全面应用和电力系统的全面信息化提供了有力的手段。文献 8 建立了适用于被预测地区日负荷预测问题需要的，具有所在地区负荷特点的数据仓库。它的作用是将一个负荷数据库从以存储负荷数据为主要目的转变为以分析利用数据为主要目的。被预测地区实际负荷数据存在的方式不同，可以根据预测需要进行适当的转换；尽量将被预测地区天气、湿度、风速等变量以适当的形式加入数据库。文献 9 根据电力负荷预测系统的历史数据集的特点及各种预测方法、0 l a p 及数据挖掘对数据源的需求，研究了多维数据建模及实视图维护的理论。针对前人提出的多维数据模型的局限性和负荷预测系统对数据要求的特点提出了一个新的模型，该模型解决了不同维公用一个底层层次属性，把系统中不完全的低粒度数据集和完全的粗粒度数据集在逻辑上无缝地结合起来支持联机分析处理的问题。文献 1 0 描述了以主题分布为特点的分布式数据仓库，建立了节点主题处理原则，论述了分布式数据仓库的特点。文献 1 1 、 1 2 分析了传统的集中式数据仓库的不足，在此基础上提出了分布式数据仓库的概念和体系结构，并研究了具有层次化组织特点的集团总部构建o l a p 系统以支持集团总部的管理者面向整个集团范围的各类决策活动。数据仓库存贮已经按企业级视图转换的数据，供分析处理用，根据不同的分析要求，数据按不同的综合程度存储，这些在文献 1 3 中给了详细的介绍。文献 1 4 分析了混合型分布式数据仓库的体系结构，提出了一种借助远程视图从总部决策支持系统直接访问局部数据仓库细节数据的方法。文献 1 5 1 9 针对传统数据仓库的局限性：只能分析历史数据且数据抽取周期过长，将a g e n t 技术引入到数据仓库系统中，建立了一种基于a g e n t 的数据仓库模型。目前大部分企业建立的都是全局数据仓库，当企业规模较大，各子公司分布在各地，而都有自己的操作性事物需要处理时有必要建立分布式数据仓库。目前分布式数据仓库的应用主要在大型企业如：通信网络管理、公安信息管理、电子商务管理等。图卜l 是一个通信网络管理的分布式数据仓库体系结构，该图也反映了分布式数据仓库的一般体系结构。 4 华北电力大学硕士学位论文【竺竺入、； j 亘毒 l j i 一 | 匿蛩i 妻：i臂理信息库ll ：地缓数据仓库：地级罔臂中心。 e 五蟊二：两。；图卜l 通信网络分布式数据仓库体系结构 1 2 2 电力负荷预测电力负荷分析和预测是电力系统各级调度运营部门和用电服务部门的一项重要日常工作，是制定发电计划和输电方案的主要依据。在长期的实践中，人们研究了许多种负荷预测的方法，可分为定性的经验预测技术及依赖于数量模型、定量的预测技术。经验预测方法主要是依靠专家或专家组的判断，仅给出一个方向性的结论，当然预测结果也不可能是数值型的。在实际应用中，从可计入人类经验这一点来说，定性方法的预测精度并不比定量方法的预测精度差，甚至比某些定量方法的预测精度更高，尤其是在天气突变、重大事件等特殊情况下。定量预测技术比较常用的主要有时间序列法、卡尔曼滤波分析法、回归分析法、指数平滑预报法、专家系统法、模糊预测法、灰色模型法、优选组合预测法、人工神经网络法等。这几种方法的相关介绍请参阅参考文献 2 0 。目前大部分学者都致力于研究新的预测算法，很少考虑将大电网按区域特点分成分布式的网格进行分析。一般来说，预测地区的地理范围较大，预测区域内各地的温度，降雨情况等影响负荷的主要因素不同，如何选择各种相关因素，选择何处的相关因素值作为输入变量成为负荷预测的一个难点，且每个区域的负荷受各种因素影响的比重大不相同。因此根据地域的特点建立分布式数据仓库和不同的预测模型将是一个有意义的探索，其所带来的误差比大范围的负荷预测模型所带来的预测误差应该要低。 5 华北电力大学硕士学位论文 1 3 本文的主要工作 ( 1 ) 根据我国电网结构和电力负荷气象因素影响的特点，提出适合电力系统的分层分布式数据仓库的体系结构，确定分布式数据仓库层次的划分，分析不同层次上历史负荷数据及其相关因素的粒度和维度，建立分层分布式负荷分析与预测数据仓库的体系结构。 ( 2 ) 在上述分层分布式数据仓库的体系结构基础之上，具体设计实现局部数据仓库和全局数据仓库。 ( 3 ) 在分布式数据仓库建立的基础上，进行联机数据分析处理。用小波分析法对数据进行预处理，把反映人体舒适程度的生物气象学指标实感温度、温湿指数、风寒指数和舒适度指数作为综合指标分析电力负荷与气象指数的关系，找出各个地区的综合气象因子作为负荷预测的参考依据。同时分析各个层次、各个站点的负荷特点，根据各自的特点建立适合本层、本站点的预测模型。 ( 4 ) 基于分布式数据仓库，研究网格化的负荷预测模型，建立网格化预测模型提高预测结果的精度。以华北电网及其下属地区的短期负荷预测为例，进行实例验证。并和非网格化负荷预测方法的预测结果进行对比，证明区域网格化负荷预测的优越性。 6 华北电力大学硕士学位论文第二章数据仓库系统结构及开发概述 2 1 数据仓库的概念和特点 2 1 1 数据仓库的概念 1 9 9 1 年，数据仓库之父w h i n m o n 首次提出了数据仓库的概念：“数据仓库是面向主题的、集成的、时变的、稳定的数据集合，用以支持决策制定过程。这个简要又全面的定义指出了数据仓库的主要特征。四个关键词，面向主题的、集成的、时变的、非易失的( 稳定的) ，将数据仓库与其他数据存储系统相区别【2 。 2 1 。2 数据仓库的特点由定义可以看出数据仓库主要有以下四个特点： ( 1 ) 面向主题的：主题是在一个较高层次将数据归类的标准，每一个主题对应一个宏观分析的领域。基于主题的数据处理被划分为各自独立的领域，每个领域有自己互不交叉的逻辑内涵。 ( 2 ) 集成的：集成是指源数据库的数据进入数据仓库前，必须经过清理、抽取、转换等加工，将源数据的结构从面向应用转换到面向主题。通常，构造数据仓库是将多个异种数据源，如关系数据库、一般文件和联机事务处理记录，集成在一起。使用数据清理和数据集成技术，确保命名约定、编码结构、属性度量等的一致性。 ( 3 ) 非易失的：非易失又叫稳定，是指数据经集成进入数据仓库后极少或根本就不改变。通常，它只需要两种数据访问：数据的初始化装入和数据访问。 ( 4 ) 时变的：时变是指数据仓库内的数据是历史数据，数据时限长，数据包含时间项属性。 2 2 数据仓库系统的体系结构根据数据建模技术的不同，数据仓库系统有两种主流的体系结构：多维( m d ) 系统结构和企业信息工厂( c i f ) 体系结构。m d 体系结构满足企业内部的业务部门需求，它使得数据管理从属于业务需求。c i f 体系结构为整个企业服务，它是为从属的业务需求管理数据的。 7 华北电力大学硕士学位论文 2 2 1 多维结构和企业信息工厂结构结合的体系结构 ( 1 ) 数据集市数据仓库作为企业级应用，其涉及的范围和投入的成本常常是巨大的。它的建设很容易形成高投入、慢进度的大项目。这一切都是部门工作组所不希望看到和不能接受的。部门工作组要求在公司内部获得一种适合自身应用、容易使用，且自行定向、方便高效的开放式数据接口工具。与数据仓库相比，这种工具更紧密集成、拥有完整的图形用户接口和更吸引人的价格。数据集市是一种更小、更集中的数据仓库。它提供了一条部门工作组级的分析数据的廉价途径。数图2 1 数据集市及数据仓库关系图据集市应该具备的特性包括：规模小、面向特定的应用、面向部门工作组、快速实现、投资规模小、易使用、全面支持异种机平台等。用户可根据自己的需求，以自己的方式来建立数据集市。数据仓库和数据集市之间的关系如图2 一l 所示。无论是数据仓库还是数据集市都要首先对原始数据完成抽取、转换、过滤、清洗等处理，以及对存储的数据进行更新、管理、使用、表现等，用以支持数据仓库和数据集市的应用或管理决策。 ( 2 ) 二者结合的数据仓库体系结构多维体系结构的模型主要包括：数据源、数据抽取装载转换、数据集市、多维数据集和用户访问分析。由于数据管理从属于业务需求，因此不存在一个物理上的企业级数据仓库。其数据存储于原子数据集市和聚集数据集市。企业信息工厂体系结构主要包括：数据源、数据抽取装载转换、操作型数据存储、企业级数据仓库、信息取出和用户访问分析。数据源中的数据经过数据抽取装载转换工具以统一的形式进入企业级数据仓库，然后再根据不同的需要流入o l a p 数据集市、数据挖掘仓库等分析型应用单元，并最终展现给用户。目前应用最多的是上述两种体系结构相结合的数据建模技术实体一联系 ( e r ) 模型，星型模式数据模型用于多维数据集市的设计。图2 2 为二者结合的体系结构。这种数据仓库的构架大致分为三个部分：数据获取层、数据存储层和数据访问层。其中数据获取层分为数据源和数据抽取、转化、装载两个子层，数据存储层一般表现为操作型数据存储、中心数据仓库以及数据集市三种存储方式，而数据访问层又分为多维数据集层和用户访问分析层。 8 华北电力大学硕士学位论文嚣置：= ：= = = “ 一麓叛笛警“拳一+ 。一2。锗图2 2 数据仓库的体系结构 222 数据获取层 ( 1 ) 数据源数据源通常包括与决策有关的企业内部信息和外部信息，主要包括业务数据、历史数据、相关数据以及外部数据等。内部信息除了存放于管理信息系统数据库中的各种业务数据和各类文档数据外，还包括了企业的历史遗留数据。外部数据_ 丰要是各类法律法规，市场信息以及竞争对手的信息等等。不同的业务数据库外部数据的类型不同。同时，现在大型企业都趋向集团化方向发展，数据源的分布广而散，不利于集中到一个中央数据仓库中。因此在建立数据仓库前，数据源的可获取性以及数据的传输效率是首先要考虑的问题。 ( 2 ) 数据抽取、转化和装载数据抽取、转化和装载( e 1 l ) 是数据从数据源进入到数据仓库存储前需要进行的预处理过程，其主要功能是从数据源中抽取数据后检验和整理数据，并根据数据仓库的设计要求重新组织和加工数据，装载到数据仓库的目标数据库中。一般有五个步骤：数据提取、数据清洗、数据转换、数据集成和数据加载口“。数据提取：根据数据仓库的要求收集和提取外部数据源中的数据。数据清洗：对进入数据仓库的数据过滤出错误的数据、填补缺少数据。数据转换：将数据源中的数据根据转换规则转换成数据仓库中的数据。数据集成：将数据源中的细节数据先进行一次综合，以形成当前细节数据。数据加载：将经过清洗、转换、合成处理后的数据装入数据仓库的过程。薹薹 d 昭一一嘲蛔田m坩学；：；_嚣一纂础w ；_ 华北电力大学硕士学位论文 2 2 3 数据存储层在数据仓库系统的体系结构中，位于整个系统中心的是数据存储层。数据存储层的数据存储方式主要有数据仓库以及数据集市两种，它们分别使用于不同的情况。数据仓库是一个组织结构，包含了集成的、历史的数据以及详细的数据，用于支持海量数据处理，这些数据对整个企业来说是公用的。数据仓库从业务系统数据库、企业外部数据、历史数据以及相关数据源中提取数据、清洗数据、转换数据和转载数据；此外还要定时的刷新数据，使数据仓库保持与业务数据库的同步。一般来说，数据仓库是企业范围的，是企业进行信息处理和决策的基础，而且经常是企业第一个存储集成数据的位置所在，也是历史数据的适当存储场合。但是由于数据仓库不能回答所有的d s s 处理问题，如没有针对任何特定的部门优化其中的数据存储方式；在访问数据仓库时，存在大量的资源竞争问题；数据仓库中的大量数据及其组织形式要求系统具有较大的存储和处理能力，使得d s s 处理的运营成本非常昂贵等。由于上述原因，当数据仓库的规模不断增长，且日趋成熟时，需要另一种d s s 结构数据集市。 2 2 4 数据访问层 ( 1 ) 多维数据集多维数据集，又称为数据立方体，其具体实现可分为：关系o l a p ( r o l 心) 、多维o l a p ( m o l a p ) 和混合o l 廿( h o l 心) 。r o l a p 把基本数据和聚合数据均存放在关系数据库之中；m o l 婶将基本数据和聚合数据均存放于多维数据库中； h o l 心将基本数据存放于关系数据库中，而将聚合数据存放于多维数据库中。多维数据模型提供了多种方法对多维数据集进行切片、切块、聚合、钻取、旋转等分析操作，以求剖析数据使用户能够从多个维度、多个侧面、多种数据综合查看数据，从而了解数据背后蕴藏的规律，并且可动态考察汇总数据和细节数据之间的关系。多维数据集一般存储在0 l a p 服务器上。o l a p 服务器完成数据仓库中数据的组织和综合，并对其进行分析，最终将分析结果以多维视图的形式表达出来。 ( 2 ) 用户访问分析层从数据源中抽取出相应的数据，经过检验、整理、加工和重新组织后存放到数据仓库后，下一步就是要考虑如何使客户( 业务决策人员、各级管理人员和业务分析人员) 能够方便灵活地使用数据仓库中存储的数据，达到数据仓库工程的预定目标。在数据仓库中，这是通过为用户提供一套前端数据访问和分析工具来实现的。目前，主要有关系型查询工具、关系型数据的多维视图工具、d s s e i s 软件包以及 1 0 华北电力大学硕士学位论文客户机服务器工具四大类。客户机服务器工具可以开发特定的功能，满足用户对图形界面、数据操作及数据分析报表等多方面的特殊需求。这些工具都能提供对数据的透明访问，简化对数据库的访问操作，支持多媒体应用，能够迅速构建前端决策支持应用系统，开发成本较低，因此这种工具是在用户中应用最多的。 2 2 5 元数据元数据位于数据存储层，是描述数据仓库内数据的结构和建立方法的数据，可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据，贯穿于建立数据仓库的整个过程。按其用途可分为技术元数据和业务元数据两类。技术元数据是描述关于数据仓库技术细节的数据，这些元数据用于开发、管理和维护数据仓库；业务元数据从商业和业务的角度描述数据仓库的数据，提供了良好的语义层定义，业务元数据使业务人员能够更好地理解数据仓库分析出来的数据【2 引。 2 3 数据仓库系统的开发实施 2 3 1 三种常用的数据仓库开发策略数据仓库的实施策略总的来说可分为三种：自顶向下方法、自底向上方法以及两者结合的混合方法1 2 4 1 。自顶向下方法由总体设计和规划开始，首先建立一个企业范围内的数据仓库。从理论上讲，该全局数据仓库包含了决策支持所需的一致的数据，面向各个部门的决策支持所需要的数据从全局数据仓库中提取，这部分数据构成了该部门的数据集市。图2 3 为设计流程。图2 3 自项向下方法该策略优点：易维护，数据标准化，商业化；其缺点有建设周期长。自底向上方法以实验和原型开始，先建立面向特定部门或特定商业问题的数据就集市，然后在这些数据集市的基础上建立全局数据仓库。图2 4 为设计流程。 1 1 华北电力大学硕士学位论文图2 4 自底向上方法该策略优点：数据范围小，实现快，风险小、开发周期短；其缺点：各部门可能会“封锁”数据，影响到数据仓库的成功实施。 2 3 2 混合数据仓库开发方法对于开发数据仓库系统，一个推荐的方法是以递增、进化的方式实现数据仓库，如图2 5 所示f 2 5 1 。图2 5 数据仓库开发的推荐方法首先，定义一个高层次的企业数据模型，在不同的主题和可能的应用之间，提供企业范围的、一致的、集成的数据视图。然后，基于上述相同的企业数据模型，可以并行地实现独立的数据集市和企业数据仓库。接着，可以构造分布式数据集市，通过网络中心服务器集成不同的数据集市。最后，构造一个多层数据仓库。其中，企业数据仓库是所有数据仓库数据的唯一管理者，仓库数据分布在一些依赖的数据集市中。 1 2 圄圄圄圄华北电力大学硕士学位论文 2 4m ss q ls e r v e r2 0 0 5 数据仓库平纠2 7 】 2 4 1 微软数据仓库平台特点近几年，微软公司的m ss q ls e r v e r2 0 0 0 良好的可伸缩性以及s q ls e e r2 0 0 0 中提供了数据仓库中的一部分专用工具，而另一部分工具则由微软产品中的其它工具充任，它们一起构成了一个基于微软产品的完整数据仓库工具集。微软数据仓库框架的目标是简化数据仓库解决方案的设计、实现和管理。该框架用来提供：易于集成和易于扩展的开放式体系结构。异类数据导入、导出、确认和带有可选数据类型的清理服务。集成的元数据用于数据仓库的设计、数据析取转换、服务器管理和最终用户分析工具。用于日程安排、存储管理、性能监测和通知的核心管理服务。 d a t aw a r c h 伽s j n gf r 锄e w o r k ( 数据仓库框架) 从底层向上设计，为微软产品用户和第三方企业提供行业技术标准，使得数据仓库框架成为很容易扩展的开放式体系结构。这就使组织机构能选择同类中最好的组件并仍能确保集成。 s q ls e r v e r2 0 0 5 扩展了s q ls e r v e r2 0 0 0 的性能、可靠性、可用性、可编程性和易用性，增加了一些新功能，如：数据库引擎引入了新的可编程性功能( 如与m i c r o s o f t n e tf r a m w o r k 的集成1 、新x m l 功能和新数据类型。改进了s q l s e r v e r 数据库中数据的编程借口。 i n t e g r a t i o ns e r 、r i c e 引入了新的可扩展体系结构和新设计器，可以将作业流从数据流中分离出来，并提供了一套丰富的控制流语义。 a n a l y s i ss e r v i c e s 引入了新管理工具、集成开发环境以及n e tf r a m w o r k 的集成。 2 4 2o l 廿数据仓库组件 m i c r o s o f t 提供了服务器端的组件分析服务器，和客户端组件数据透视表服务。整个0 l a p 的结构如图2 6 所示。在服务器端用a n a l y s i sm a n a g e r 来管理 a n a l y s i s 服务器的数据，0 l a p 服务分析服务器作为w i n d o w sn t 服务来进行运作，并提供核心的计算功能。在分析服务器a n a l v s i s 1 3 图2 6m i c r o s o f t 分析服务器结构图华北电力大学硕士学位论文 s e r v e r 中，对设备管理功能的编程访问是通过称为决策支持模型( d e c i s i o ns u p p o r t o b j e c t s ，简称d s o ) 的对象模型来实现的，0 l a p 服务可以存取任何被支持的o l e d b 数据提供者中的源数据。通过o l ed b 的多平台性能，可以从多种系统中存取数据，就像是在提供o l a p 服务的服务器本地进行存取一样。在客户端，数据透视表服务是将o l 廿客户端应用连接到提供o l 廿服务的服务器上的一个工具。所有对0 l 心服务管理的数据，定制程序或客户端工具管理的数据的存取，都是通过数据透视表服务提供的o l ed b 接口实现的。在客户端我们可以利用数据透视表服务来连接服务器以便取得a n a l v s i s 服务器的数据。本文以m ss q ls e e r2 0 0 5 数据仓库为平台构建分布式数据仓库的。 1 4 华北电力大学硕士学位论文第三章用于负荷分析与预测的分布式数据仓库构建 3 1 支持负荷分析与预测的数据仓库模型的研究 3 1 1 数据仓库的数据模型 ( 1 ) 数据模型就是描述数据及数据之间联系的结构形式，它研究的内容是如何组织数据库中的数据。数据模型一般有两种：关系数据模型关系模型是用二维表框架来表示实体及其之间的联系的模型，它的数据结构是一个二维表格结构。现在主流的数据仓库很多是基于关系模型的。规范化反规范化的关系数据模型数据的规范化是将数据结构分解成最小组成部分的过程，其目的是为了实现数据访问的灵活性和高效的数据存储。要完成对经过规范化处理后的数据模型形成的一系列小表，需要在不同表中进行i o 操作的动态互联操作，而这种多表的链接操作很费时。反规范化处理【2 8 1 是为了提高i o 操作的效率，将这些小表合并，从而减少处理时被存取的表的个数。 ( 2 ) 数据仓库模型有三种：星型模式、雪花模式和事实星座，常用的是前两种。星型模型最常见的模型范例是星型模型，其中数据仓库包括一个大的包含大量数据和不含冗余的中心表( 事实表) ，以及一组小的附属表( 维度表) ，每维一个。维度表围绕事实表在射线上。如图3 一l 所示，作为一个例子，该模式有一个位于中心的负荷事实表以及三个围绕在周围的维度表，分别是：时间维度表、气象维度表和地域维度表。时间维度表图3 1 星型模式 1 5 华北电力大学硕士学位论文星型模型中，每个维度只用一个维度表表示，每个维度表包含一组属性。例如，气象维度表包含属性集( 气象信息编码，温度，1 4 点温度，湿度，1 4 点湿度，风速) 。但这种模式会不可避免地会造成某些数据冗余。雪花模式雪花模式是星型模式的变种，其中某些维度表是规范化的，因而把数据进一步分解到附加表中。见图3 2 。时间维度表图3 2 雪花模式雪花模式的事实表和星型模式相同，两个模式的主要不同是维度表。星型模式中气象维度表在雪花模式中被规范化，导致了新的气象因素维度表，它们一起组成气象维度。负荷气象数据仓库数据模型的选取雪花模式的某些维度表可能是规范化形式的，以便减少冗余：星型模式由于每个维度只有一个维度表，因此提高了浏览查询的性能。维度表由于可能包含会产生冗余的属性而增加一些存储空间，但与巨大的事实表相比，这种空间的增加可以忽略。对一个单主题数据仓库( 数据集市) ，一般使用星型模式，以存储空间换取性能上的提高。本文建立的是单主题的负荷气象数据仓库，选择星型模式作为数据模式。 3 1 2 星型负荷气象数据仓库设计 ( 1 ) 负荷气象数据仓库的维度选取负荷气象数据仓库的主题是负荷与气象的关联情况，在此基础上我们需要确定与负荷、气象有关的维度。通过维度可以对数据仓库中的负荷气象数据进行汇总或细化。维度有时间维度、地区维度、气象指数维度( 该维度属计算维，各计算成员也可以直接写在事实表中) 。 ( 2 ) 负荷气象事实表结构设计 1 6 华北电力大学硕士学位论文负荷气象事实表包括度量属性字段，用于负荷气象数据的筛选和汇总，该事实表中的度量值有整点负荷、温度、湿度、风速等。负荷气象事实表还包括用于和维度表联系的外键，该外键取自相对应的维度表的主键。如地区编码和地区维度相连，时间编码和时间维度相联系。负荷气象事实表的结构设计如表3 1 所示。表3 一l 负荷气象事实表字段名称字段描述地区编码联系地区维度表时间编码联系时间维度表气象指数编码联系气象指数维度表整点负荷度量值温度度量值湿度度量值风速度量值降雨量度量值本文采用不同于业务数据库中的编码机制，在数据仓库中使用自然编码对维度表中的每个记录进行区分。如多个地区的编码可以用1 ，2 。 ( 3 ) 维度表结构设计维度表包含描述事实表中事实记录的特性。维度表包含帮助汇总的特性的层次结构，特定的层次结构构成多维数据集的一个维度。维度表的设计原则是尽可能地将分析时要用到的属性( 字段) 包含到维度表内，而与分析无关的数据排除在外。气象指数维度表气象指数维度表的结构设计如表3 2 所示。表3 2 气象指数维度表字段名称字段描述气象指数编码主键( 自然数) 日期时刻层次结构属性地区层次结构属性温湿指数计算成员实感指数计算成员风寒指数计算成员舒适度指数计算成员时间维度表由于从业务数据库中我们无法得到时间维度表的数据，本文定义了一种时间维 1 7 华北电力大学硕士学位论文度表的设计结构。将每天的日期和时刻记录到独立的时间维度表中，通过日期编码区分每个日期并与事实表相连。对于气象负荷来说，时间单位的粒度一般以小时为单位。时间维度表的结构设计如表3 3 所示。表3 3 时间维度表字段名称字段描述日期编码主键( 自然数) 日期名标准日期名时刻编码外键( 自然数) 和时间维度表相连时刻名标准时刻名星期星期1 7 ( 星期一为1 ) 周第几周月份标准月份o l 一1 2 年份年份地区维度表如表3 4 。表3 4 地区维度表字段名称字段描述地区编码主键( 自然数) 地区名称描述属性所属电网描述属性 3 1 3 负荷气象数据仓库星型模型完整设计的负荷气象数据仓库星型模型如图3 3 所示。地区维度表地区编码地区名称所属电网时间维度表，。、日期编码日期名时刻编码时亥名月份年份负荷气象事实表气象指数维度表地区编码时间编码气象指数编码负荷温度湿度风速图3 3 负荷气象数据仓库星型模型 1 8 气象指数编码日期时亥u 地区温湿指数实感指数风寒指数舒适度指数华北电力大学硕士学位论文 3 2 用于负荷分析与预测的分布式数据仓库设计 3 2 1 分布式数据仓库技术概述数据仓库环境有单一中央集成和分布式两种类型。大部分企业建立和支持单一的中央集成数据仓库环境，但随着企业规模的扩大，许多企业的运作模式自然形成一种分布式管理结构，建立分布式数据仓库环境可能更满足需要。由于地理等原因，当前企业内部存在许多不兼容的相互独立的事务处理系统，需要对分散在这些系统中的相关数据进行集成，以向分析人员提供统一的数据视图。c s 和b s 等技术的逐渐成熟也为分布式数据仓库技术提供了强有力的保证。 ( 1 ) 分布式数据仓库技术的优点【2 9 l 整体代价低。对于一个数据仓库，当最初采用分布式技术时，软、硬件代价要比最初采用大的、中央集成的技术代价低。存放在数据仓库中的数据量理论上无限制。如果数据仓库中的数据量将要超过分布式处理器的限制时，只要在网中加入另一个处理器即可。研制、见效周期短。在短期内局部数据仓库就能建好、运行。具有实时性。每个局部群体具有独立的控制权，为数据仓库具有实时性提供了保障。 ( 2 ) 分布式数据仓库体系结构 “数据仓库之父”w h i n m o n 把分布式数据仓库分成以下三种类型1 3 0 】：业务在不同地域或不同生产系统上进行的。这就出现了局部数据仓库和全局数据仓库，局部数据仓库是在远程站点上提供和处理数据，而全局数据仓库提供的是在整个业务范围集成后的数据。数据仓库环境包括了大量的数据，它们分布在多个处理器上。从逻辑上看只有一个数据仓库，但从物理上看，存在许多有紧密联系但存放在

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf

文档简介

温馨提示

最新文档

评论

（电力系统及其自动化专业论文）基于分布式数据仓库的网格化负荷预测研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档