(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf_第1页
(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf_第2页
(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf_第3页
(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf_第4页
(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(电力系统及其自动化专业论文)电力负荷数据仓库的构建及应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声明 本人郑重声明:此处所提交的硕士学位论文电力负荷数据仓库的构建及应用研 究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得 的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所傲的任何贡献均已在论文中作了 明确的说明并表示了谢意。 学位论文作者签名:盟日期2 尘工驴 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 本莉 导师签名: 日期:三! 丛! ! 孑e l期:堡! ! 三! 呈g 华北电力大学硕士论文 1 1 课题的背景和意义 第一章绪论 随着信息科学和信息技术的快速发展,传统电力系统逐渐实现信息化。在线实 时监控系统( s c a d a e m s d m s ) ,交易系统,离线的各种分析计算和规划系统,以 及电力企业的日常事务处理、通信和管理系统在电力企业得到了广泛应用。但现有 的系统存在下述问题:这些系统大都独立运行,系统之间交换数据通过纸质报表输 出再手工录入,或者编写点对点的专用接口,这种数据交换的方式成本高、效率低; 基于传统数据库的数据管理系统,随着数据量的增加,统计查询性能大幅度下降; 一般系统仅提供原始数据查询和固定格式的报表输出,最终用户不能随意地利用这 些大量的数据,灵活、方便、直观地进行统计分析;数据利用率低下,数据中有价 值特征提取困难;利用这些数据,对业务进行及时的预测和指导困难。因此,对现 有的电力信息系统进行充分研究,构造一个统一的电力系统数据中心,建立辅助决 策系统以进一步提高电力系统的安全性、经济性是一项十分必要和有意义的工作。 对于电力系统这样一个典型的大系统,随着各类计算机监控设备、地理信息系 统和管理信息系统的日益发展,电力系统数据库中的数据呈爆炸性增长。传统数据 库系统所能做的只是对数据库中的数据进行诸如录入、查询、统计等操作型处理, 通过这种处理所获得的信息缺乏对数据整体特征的描述及其发展趋势预测方面的 信息,无法发现数据中存在的关系和规则,更加无法根据现有的数据预测未来的发 展趋势。数据仓库技术正是为了克服随之产生的“数据爆炸但知识贫乏”现象应运 而生的。数据仓库以数据库技术作为存储数据和资源管理的手段,以联机分析处理 技术和方法作为提取信息的有效手段,以数据挖掘、人工智能中的模型、算法作为 发现知识和规律的途径。 我国目前正处于电力市场逐步形成阶段,其中对于电力市场决策支持起着关键 作用的负荷预测数据愈加庞大和杂乱。目前,与负荷相关的各种变量的值都可能通 过各种监测设备和管理系统将其记录、存储,形成了大型的数据记录。如何从这些 错综复杂的、庞大的数据中剔除错误和无用的数据,挖掘出隐含在这些数据中真正 决定负荷的因素【l 】,得出该地区日负荷变化的规律,进而形成对日负荷的真正准确 的预测是负荷预测工作的核心。 电力负荷预测是指根据历史负荷值,在考虑一些重要的系统运行特性、增容决 策、自然条件、社会条件和地区经济发展状况等重要因素的基础上【2 】,利用一套能 系统地处理过去与未来负荷的数学方法,在满足一定精度的情况下,确定未来某特 定时刻的负荷值。目前较常用的电力系统负荷预测的方法是:结合经济发展的特点 华北电力大学硕士论文 和电网的用电特定结构,采用专家系统法、模糊数学法、神经网络法、优选组合法 或小波分析法【3 】等较先进的预测技术和方法对传统数据库的数据进行处理,得到预 测结果。在电力系统负荷特性分析和预测中引入数据仓库的好处4 1 主要有: ( 1 ) 通过提高数据的数量和质量提高分析预测的准确度。 提高数据采集的范围和数据量。数据仓库的建立是面向主题的,所以凡是 与主题相关的数据都需要采集,包括:业务数据、历史数据、办公数据、w e b 数据 和外部数据:数据形式多样,有关系型数据库、非关系型数据库、文件系统、电子 表格、文本格式、h t m l 格式等,这些数据经过处理后储存在一起。这是传统数据 库做不到的。传统数据库一般是定期对数据进行备份和删除,所以数据库中保留的 是最近一段时间所有表单的数据,但是预测时需要的是某些信息的长期数据。例如, 长期负荷预测需要对几十年的数据进行处理,一般数据库很难保存这么大的数据 量,数据仓库可以满足这样的需求。 通过数据集成,提高数据源的质量。数据进入数据仓库之前先要进行筛选、 清理、转换等标准化处理,然后再加载到数据仓库,提高了数据源的质量,所以利 用数据仓库的数据进行分析预测相对直接调用传统数据库中的数据进行分析预测, 可以提高预测的准确度。 ( 2 ) 减少编程的难度和工作量。基于传统数据库的预测分析需要通过程序对数 据进行预处理,编程有一定难度,利用数据仓库数据重整对数据进行预处理,是在 数据库中进行,不需要编程,从而降低应用程序编程难度,减少编程人员的工作量。 另外可以方便使用基于数据仓库的多种管理工具和应用工具进行数据处理和分析, 进行多种形式的操作,并以多种形式表达出来,使对信息的处理过程更加灵活、方 便,方便应用人员直接参加预测,减少大量编程工作,进一步提高预测准确度。 ( 3 ) 将预测分析用的数据从传统数据库中独立出来,减少由于预测分析时消耗 大量系统资源而对传统数据库上其它系统的应用产生影响,同时提高预测分析的响 应速度。 ( 4 ) 大大提高预测的范围和力度。有的决策分析可能导致系统长达数小时的运 行,这就必定消耗大量系统资源,这是事务联机处理系统无法承担的。有的预测分 析会因为数据量不够被迫放弃。数据仓库解决了这些问题,大大提高了决策分析预 测的范围和力度。 1 2 国内外研究现状 数据仓库和o l a p 是2 0 世纪9 0 年代提出的概念,经过十余年的发展,它已成 为仅次于i n t e r n e t 之后的又一技术热点。分析数据仓库的定义,可以看到它具有这 2 华北电力大学硕士论文 样一些重要特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数 据的集合性和支持决策作用【5 】。2 0 世纪9 0 年代中期发展起来的数据挖掘技术是从 数据库、数据仓库中挖掘有用的知识,即从数据库中抽取隐含的、未知的、具有潜 在价值信息的过程。数据仓库和数据挖掘技术的出现使有效管理和利用企业生产经 营过程中产生或收集的大量数据成为可能。 传统的数据库技术作为数据管理的手段,主要用于事务处理,如电力设备缺陷 处理、电能量存贮查询等,很难满足分析处理和决策服务的要求,因此高级的电力 决策支持系统多采用数据仓库技术。目前的数据仓库技术及决策支持在电力系统中 的应用还十分有限,主要在管理信息化方面、调度信息化方面、调度自动化方面、 稳定统计方面等【6 l 决策和某些特定的技术分析问题上。 ( 1 ) 管理信息化方面 物流和财务分析。电力企业在运行过程中,同其他行业一样,需要解决日 常的物资购买、管理、使用和财务处理等问题。而普通的物流管理和财务系统面向 处理日常事务,并不具备优化物资流和分析财务状况的功能。在这方面,数据仓库 ( 数据集市) 以及在此之上的数据挖掘技术己经在众多行业中运用,并积累了相当多 的经验,完全可以转移到电力市场中来。 文献 7 】中介绍国外某电力公司为提高效率、降低运行成本,把原先的采购定单 系统和物流管理系统合并为统一的c s 模式的物流数据仓库,通过应用服务器消除 不同平台的不兼容性,提供方便、快捷的数据访问。 用户数据分析。电力用户是一个广泛、复杂的用户群,在不同的时间、地 域、行业中用户需求相差很大。电力企业在长期的运行过程中,已经积累了大量的 用户资料和历史数据。根据这些用户资料和历史数据建立用电数据仓库,利用o l a p 快速响应查询,采用数据挖掘的方法进行有针对性的分析,可以得到需求模型。根 据此模型来制定电网规划和供电计划,就能够降低发电成本,提高效益。 文献 8 】介绍了意大利某电力公司混合使用人工智能中的人工神经网络、模糊逻 辑等技术,把用户的管理、消费、交易等数据进行综合处理,以欧几里得距离为判 据得到分类用户模型,并用可视化的图表方式表达出来,辅助进行用户分析的实例。 ( 2 ) 调度信息化方面 实时数据与历史数据的管理和共享。实时数据和历史数据作为电网运行的 重要资料,需要在运行部门中共享。而以往在若干子系统间自行定义协议,进行数 据传输的方法使运行部门间的数据流更加复杂,很难保证数据的一致性和唯一性, 增大了系统维护与升级的难度和成本。如果把各部门需要的公共数据整理、统计起 来,建立电网历史数据仓库,则可以实现数据一致性,减轻网络负荷。 3 华北电力大学硕士论文 文献【9 】介绍了美国田纳西州电网公司依据实时数据和历史数据建立数据仓库, 并以此为服务器,各应用客户系统分布在州内各地,通过m o d e m 。w a n ,i n t e m e t 等方式自动获取数据的例子。这样就实现了从主机终端式中心计算模式向s u n - r 作 站与p c 混合网络中的客户服务器模式分布计算的过渡。 电网规划。电网规划必须要适应经济发展,提高企业效益。影响规划的因 素很多,规划过程中很容易忽略某个因素或者制约关系。建立电网规划数据仓库并 对数据进行多维分析及数据挖掘,有利于从各个角度了解数据,发现新的隐蔽因素, 更合理、优化地规划电网。 在文献 1 0 】中,广东电力局建立面向规划的数据仓库,利用聚类、分类、关联、 总结等规则进行数据挖掘,为辅助决策系统增加约束条件:寻求负荷变化与经济因 素的联系模型,克服了单纯从数学模型角度进行负荷预测的局限性。 。( 3 ) 在调度自动化方面。 负荷预测根据历史负荷数据预测未来负荷变化趋势。如果预先设定的负荷 模型与实际负荷相差较大,预测结果就不可信。建立历史负荷数据仓库,采用数据 挖掘的方法,自学习地发现负荷变化规律,建立负荷模型,在此基础上进行预测的 结果将会更加合理和准确。 文献【l l 】和文献 1 2 】利用数据挖掘技术在历史负荷数据仓库中划分负荷模型。其 中文献【1 1 】采用了基于交叉内、外聚类方法的自适应决策树作为判断规则,能够在 建立负荷模型的同时辨识并剔除坏数据;而文献【1 2 】采用自适应反馈算法测量欧几 里得距离,在与传统方法相当的计算速度下得到相同的结果。 故障统计分析。电力系统故障往往在偶然性之后掩藏着规律性。建立电力 系统故障数据仓库,采用数据挖掘的方法对电网故障进行统计分析,有助于辅助决 策,合理安排检修计划,减小气候和负荷变化对产生故障的影响,提高供电质量。 文献【1 3 】介绍了武汉供电局在配电故障统计分析系统中利用数据挖掘方法,提 高了供电可靠性和经济效益。其中应用关联分析方法可以确定开关设备故障率同温 度、雨量、雷暴、负荷的关系,应用序列模式分析方法能够发现并预测开关设备的 故障率分布,应用分类和聚类分析方法为各种设备划分适当的故障类型。综合应用 这些方法能够达到很好的处理效果。 ( 4 ) 稳定统计分析 电网稳定性分析需要得出确定的判断结果,而影响电网稳定的不确定因素很 多。根据历史数据建立稳定分析数据仓库,用数据挖掘的方法寻找电网状态变化的 内在联系,可以得到统计性的分析结果,辅助调度人员决策。 文献【1 4 】和文献【1 5 】论述了将数据挖掘技术应用于电压稳定和暂态稳定分析的 4 华北电力大学硕士论文 方法。数据挖掘工具根据积累的电网运行数据和失稳记录来判断失稳原因,为诊断 和校核电网稳定性的专家系统建立决策规则。由于需要大量的历史数据,这项应用 还处在研究阶段。 1 3 本文的主要工作 ( 1 ) 在分析电网负荷特点的基础上,提出建立分布式电力负荷数据仓库,各子电 力公司建立电力负荷数据集市,在网调建立全局数据仓库,集成各个子公司的数据 集市形成分布式数据仓库。 ( 2 ) 对电力负荷数据仓库建立的各个环节进行详细的论述,建立时间维、地区维 和气象维等多个数据集。在分布式数据仓库建立的基础上,进行联机数据分析处理 ( o l a p ) ,并用e x c e l 数据透视表和网页两种方式对数据仓库进行分析。 ( 3 ) 把反映人体舒适程度的生物气象学指标实感温度、温湿指数、风寒指数和舒 适度指数作为综合指标分析电力负荷与气象指数的关系,通过对不同区域的比较分 析表明,不同区域影响电力负荷波动特性的气象因素存在差异。并通过与温度单一 因子的对比来揭示综合气象因子的合理性。 ( 4 ) 采用灰色关联分析法,对电力负荷与平均温度及综合气象指数( 实感温度,温 湿指数、人体舒适度指数) 进行关联分析,选择其中与负荷关联度较高的人体舒适度指 数作为分析对象,进行负荷与气象指数灵敏度分析:得到京津唐电网下属7 个地区电网 的灵敏度和分布图,然后采用气象负荷变化率作为加权权重对各个地区电网的综合气象 指数进行加权处理,得到京津唐电网综合气象指数,并对京津唐电网负荷与气象指数灵 敏度进行分析。在对气象综合指数和负荷进行关联分析的基础上,采用灰色建模方法, 以负荷和综合气象指数作为输入,进行负荷预测。 5 华北电力大学硕士论文 第二章数据仓库与联机分析处理o l a p 2 1 数据仓库概述 2 1 1 数据仓库的概念和特征 1 9 9 1 年,数据仓库之父w h i n m o n 首次提出了数据仓库的概念:“数据仓库是面 向主题的、集成的、时变的、稳定的数据集合,用以支持决策制定过程。”这个简 要又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、 时变的、非易失的( 稳定的) ,将数据仓库与其他数据存储系统相区别【l ”。 ( 1 ) 主题是在一个较高层次将数据归类的标准,每一个主题对应一个宏观分析 的领域。基于主题的数据处理被划分为各自独立的领域,每个领域有自己互不交叉 的逻辑内涵。 ( 2 ) 集成是指源数据库的数据进入数据仓库前,必须经过清理、抽取、转换等 加工,将源数据的结构从面向应用转换到面向主题。通常,构造数据仓库是将多个 异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。使用数 据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 ( 3 ) 时变是指数据仓库必须能够不断捕捉事务系统中的变化数据,将交化数据 追加到数据仓库中去,也就是在数据仓库中不断生成事务数据库的快照。 ( 4 ) 非易失的,又叫稳定,是指数据经集成进入数据仓库后极少或根本就不改 变。通常,它只需要两种数据访问:数据的初始化装入和数据访问。 概而言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型 的物理实现,并存放企业战略决策所需信息。数据仓库是一种新的数据库管理技术, 它不是为了存储数据,而是为了决策支持,建立数据仓库不是目的,它只是进行决 策支持的中间环节。它能访问各种数据库,把各种源数据库集成在一个统一的目标 数据,并能把各种数据转换成面向主题的格式,能从异构的数据源中定期抽取、转 换和集成所需要的数据,便于最终用户访问并能从历史角度进行分析,最后做出战 略决策。 2 1 2 数据仓库的体系结构 数据仓库作为数据存储的一种组织形式,从最初的数据源获得原始数据,按照 决策的要求重新组织,形成具有不同粒度的综合数据层,是数据仓库结构的一个方 面。另外,数据仓库还需要对其中存储的数据进行操纵、管理等以支持决策,这是 数据仓库结构的另一方面。 6 华北电力大学硕士论文 数据仓库系统( d a t aw a r e h o u s es y s t e m ,简称d w s ) 就是对进入数据仓库的原 始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库 中存储的数据进行更新、管理、使用、表现等的相关软件工具进行集合,用以支 持数据仓库应用或管理决策。 数据仓库的体系结构可以用图2 1 来表示。由于数据库和数据仓库应用的出发点 不同,数据仓库将独立于业务数据库系统,但是数据仓库又同业务数据库系统息息 相关。也就是说,数据仓库不是简单地对数据进行存储,而是对数据进行“再组织”。 图2 1数据仓库体系结构图 7 华北电力大学硕士论文 2 2 数据集市 数据仓库作为企业级应用,其涉及的范围和投 入的成本常常是巨大的。它的建设很容易形成高 投入、慢进度的大项目。这一切都是部门工作 组所不希望看到和不能接受的。部门工作组要 求在公司内部获得一种适合自身应用、容易使用, 且自行定向、方便高效的开放式数据接口工具。 与数据仓库相比,这种工具更紧密集成、拥有完 整的图形用户接口和更吸引人的价格。数据集市 是一种更小、更集中的数据仓库。它提供了一条 部门工作组级的分析数据的廉价途径。数据集 图2 - 2 数据集市及效据仓库关系图 市应该具备的特性包括:规模小、面向特定的应用、面向部门工作组、快速实现、 投资规模小、易使用、全面支持异种机平台等。用户可根据自己的需求,以自己的 方式来建立数据集市。数据仓库和数据集市之间的关系如图2 - 2 所示。无论是数据 仓库还是数据集市都要首先对原始数据完成抽取、转换、过滤、清洗等处理,以及 对存储的数据进行更新、管理、使用、表现等,用以支持数据仓库和数据集市的应 用或管理决策。 2 3 联机分析处理o l a p 1 9 9 3 年,“关系数据库之父”e e c o d d 首次提出了o l a p 的概念【1 7 1 。o l a p & p o n l i n ea n a l y t i c a lp r o c e s s i n g ,是针对特定问题的联机数据访问和数据分析而产生的 一种技术,具有快速性、可分析性、多维性、信息性等特点。它满足d s s 从多种角 度对数据进行快速、一致、交互地分析的要求,克服了传统d s s 交互能力差的缺点, 使决策者能够对数据进行深入观察。o l a p 的目的是满足决策支持或多维环境特定 的查询和报表需求,它的技术核心是“维”的概念,因此o l a p 也可以说是多维 数据分析工具的集合。 o l a p 是针对特定分析主题的联机数据访问和分析。通过对信息( 这些信息已 经从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”) 的很多 种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数 据进行深入观察。建立数据仓库的目的是为了支持经营、管理中的决策制定过程, 数据仓库中存储的数据是面向决策支持目标的、经过提炼、加工后的数据集合,这 种数据的存储结构为o l a p 的实施提供了理想的环境;而o l a p 作为一种多维查 询和分析工具,是数据仓库功能的自然扩展,也是数据仓库中的大容量数据得以有 8 华北电力大学硕士论文 效利用的重要保障。 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n 1 i n et r a n s a c t i o n p r o c e s s i n g ) 、联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 。o l t p 是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观 易懂的查询结果。表2 1 列出了o l t p 与o l a p 之间的比较。 表2 1o l t p 与o l a p 之间的比较 项目比较 o l l p o l a p 设计目的 自动化的数据插入、删除、修改 信息检索和分析 数据特征当前的、细节性的、原始数据、历史和当前数据。综合性数据 面向应用的面向分析 数据视图 二维的多维的 服务对象面向操作人员,支持日常操作面向决策人员,支持管理决策需 要 实施方案二层c s 结构三层c s 结构 实时性数据实时更新查询和分析具有实时性 2 4m ss q ls e r v e r2 0 0 0 数据仓库平台1 朝 2 4 1 微软数据仓库平台特点 目前,比较成熟的数据仓库产品有:i b m ,s y b a s c ,i n f o r m i x ,m i c r o s o f t ,o r a c l e 等几家大的关系型数据库系统供应商的数据仓库产品和s a s 公司的数据仓库产品 等。在数据仓库的设计过程中,选择良好的框架是特别重要的。微软公司的m ss q l s e r v e r 2 0 0 0 良好的可伸缩性以及s q l s e r v e r 2 0 0 0 中提供了数据仓库中的一部分专用 工具,而另一部分工具则由微软产品中的其它工具充任,它们一起构成了一个基于 微软产品的完整数据仓库工具集。 微软数据仓库框架的目标是简化数据仓库解决方案的设计、实现和管理。该框 9 华北电力大学硕士论文 架用来提供: ( 1 ) 易于集成和易于扩展的开放式体系结构。 ( 2 ) 异类数据导入、导出、确认和带有可选数据类型的清理服务。 ( 3 ) 集成的元数据用于数据仓库的设计、数据析取转换、服务器管理和最终 用户分析工具。 ( 4 ) 用于日程安排、存储管理、性能监测和通知的核心管理服务。 d a t aw a r e h o u s i n gf r a m e w o r k ( 数据仓库框架) 从底层向上设计,为微软产品用户 和第三方企业提供行业技术标准,使褥数据仓库框架成为很容易扩展的开放式体系 结构。这就使组织机构能选择同类中最好的组件并仍能确保集成。 2 4 2o l a p 数据仓库组件 m i c r o s o f t 提供了服务器端的组件一一分析 服务器,和客户端组件数据透视表服务。整 个o l a p 的结构如图2 3 所示。 在服务器端用a n a l y s i sm a n a g e r 来管理 a n a l y s i s 服务器的数据,o l a p 服务分析服务器 作为w i n d o w sn t 服务来进行运作,并提供核心 的计算功能。在分析服务器a n a l y s i ss e r v e r 中, 对设备管理功能的编程访问是通过称为决策支 图2 3m i c r o s o f t 分折服务器结构图 持模型( d e c i s i o ns u p p o r to b j e c t s ,简称d s o ) 的对象模型来实现的,o l a p 服务可以 存取任何被支持的o l ed b 数据提供者中的源数据。通过o l ed b 的多平台性能, 可以从多种系统中存取数据,就像是在提供o l a p 服务的服务器本地进行存取一样。 在客户端,数据透视表服务是将o l a p 客户端应用连接到提供o l a p 服务的服 务器上的一个工具。所有对o l a p 服务管理的数据,定制程序或客户端工具管理的 数据的存取,都是通过数据透视表服务提供的o l ed b 接口实现的。在客户端我们 可以利用数据透视表服务来连接服务器以便取得a n a l y s i s 服务器的数据。 用o l a p 形成多维数据集之后,我们可以用m d x ( 多维扩展查询) 语句结合网络 动态语言( a s p p h p j s p ) 来制作一个容易操作的界面,这样就可以使得用户在浏览 器下完成数据分析的工作,并且只要网络连接,就可以从很多的角度分析数据,从 而能够以最快的速度来响应决策变化。此外,就是将它做成网站的形式,通过网页 来做分析,这样就可以随时连上线,在网上直接做分析。这样调度所的各种工作人 员都可以根据自己的需求多方位浏览信息。 1 0 华北电力大学硕士论文 2 4 3m d x 语句与s o l 语句的比较 多维表达式( m u l t id i m e n s i o n a le x p r e s s i o n s 。m d x ) 是种用来操纵m i c r o s o f t s q ls e r v e r 2 0 0 0 a n a l y s i ss e r v i c e s 多维信息的语言,由微软和其他厂商共同开发。 m d x 是基于o l ed b 的o l a p 扩展。在操纵数据等方面,m d x 语言与s q l 语言非常 类似。但是两者又有很大的差别。 m d x 语句与s q l 语句的相同点在于两者都是用于检索数据,两者使用相同名称 的命令,例如s e l e c t 子句、f r o m 子旬和w h e r e 子旬。但是,出于两种语句涉及 对象不同,因此这两种语句又有很大的差别。 在语句使用对象方面。s q l 语句的对象是一种二维表结构,由行和列组成。由 于s q l 语句只是用来处理二维表中的数据,所以在s q l 语句中,列和行都有明确的 意义。相对而言,m d x 语句可以在查询中处理一维、二维、三维或多维的数据。因 此,在m d x 语句中,列和行这种术语没有了明确的含义。为了指定多维数据,在 m d x 语句中,每一个维都作为一个轴对待。因此,如果在m d x 语句中使用了列和 行这种术语,那么它只是指定查询语句的前两个轴维。 在s q l 语句中,s e l e c t 子句用来定义查询的列布局。w h e r e 子句用来定义行 布局。然而,m d x 语句没有这种简单的布局形式。在m d x 语句中,可以使用s e l e c t 予句定义若干个轴维,使用w h e r e 子句把多维数据限制在指定的维或成员中。 在s q l 语句中,使用w h e r e 子旬过滤由查询语句返闯的数据。而在m d x 语句 中,使用w h e r e 子句切片出查询语句返回的数据。这两种形式看起来非常类似, 但是其含义是不同的。 在s q l 语句中,使用w h e r e 子句包含了应该返回的数据的列表,使用这种过滤 器限制了返回数据的范围。但是,在这种子句中不要求产生一种非常清楚的数据子 集。而在m d x 语句中则不同,切片的含义是使用w h e r e 子句中的每个成员把另 外一个维中的数据分成不同的部分。由于多维数据的组织结构,不能把切片用于相 同维的多个成员中。因此,在m d x 语句的w h e r e 子句中,可以提供清晰的数据子 集的内容。 这两种语句的创建过程也是不一样的。可以使用s q l 语句可视化地定义二维数 据的结构,并且对一个或多个表进行操纵。使用m d x 语句只能一次处理一个立方体。 s q l 语句的查询结果是可以想象的,非常直观,但是m d x 语句不是直观的,因 为m d x 语句经常涉及三维以上的立方体。 虽然s q l i 署句和m d x 语句的结构非常类似,但是m d x 语句比s q l 语句要复杂德 多。尽管如此,对于查询多维数据这种复杂的操作而言,m d x 语句也是比较简单的。 华北电力大学硕士论文 图2 _ 4 检索度量最大负荷和时间维的值 华北电力大学硕士论文 第三章电力负荷数据仓库设计 3 1 集成数据集市的分布式数据仓库结构 华北电网调度具有覆盖地域广泛、企业决策活动层次化、下属电力公司和网调 的决策业务域重叠等特点。这使得它们非常适合建立基于分布式数据仓库的决策支 持系统。一般分布式数据仓库在总部的决策支持系统,对数据下钻到地方数据仓库 级别粒度的细节数据时候,数据仓库无法对这种要求提供支持,这是因为出于对存 储容量、效率等考虑,往往总部仅存储汇总数据。相对集中型数据仓库,建立分布 式数据仓库虽然会带来全局和局部数据仓库问一定量的数据冗余,但是它能够更好 地满足集团型企业的需要,主要表现有: ( 1 ) 各子电力公司根据自己的业务特点和需要建立局部数据仓库,便于各子公 司对数据的分析。 ( 2 ) 各子电力公司维护自己的局部数据仓库,维护工作比较方便,数据也比较 安全。 ( 3 ) 全局数据仓库从局部数据仓库中按照总部的分析需求从各局部数据仓库中 抽取数据,不同各子公司的业务系统发生联系,数据抽取工作比较单纯,抽取的效 率高。 用户层 分析 挖掘 层 数据 仓库 用户 多雏统计分析和挖掘i 多维统计分析和挖掘i 多维统计分析和挖掘l i 多维统计分析和挖掘 多维模型翻i 中心数据仓库il 多维模型圈l 多维模型 数据抽取 北京市 数据集市 嘉羹曩数f 薮据潭 数据抽取 天津市 数据集市 嘉羹曩数( r瘴据源 数据抽取 嘉羹曩数(瘴据源 图3 1 分布式电力负荷数据仓库结构图 1 3 华北电力大学硕士论文 因此可使用分布式数据仓库策略将数据集市集成到整个应用系统中【1 9 2 们。分布 式数据仓库由分散在各地的自主数据集市和中央全局数据仓库组成,中心组织制定 元数据的规则。分布式数据仓库对用户的查询是透明。如图3 1 所示。华北电网下的北 京、天津、唐山、廊坊、秦皇岛、张家口、承德以及2 0 0 4 年并网的山东电网,各自建立 数据集市,分析各自地区的负荷气象关系,而在华北局建立中心数据仓库,抽取各个数 据集市的数据,作全局分析。 各个地区电力负荷数据集市结构如图3 2 所示。 图3 - 2 电力负荷数据集市模型图 电力负荷数据仓库的数据源是运作数据库系统及外部数据,包括电力负荷数 据,气象数据等;监视器负责感知数据源的变化,并按照数据仓库的需求提取数据; 集成器将从运作数据库中提取的数据经过转换、计算、综合,集成到数据仓库中; 数据仓库存贮已经按企业级视图转换的数据,供分析处理用,根据不同的分析要求, 数据按不同的综合程度存储【2 ”:客户应用指数据仓库的数据经过o l a p 的分析处理, 呈现给用户,这里的用户是指电力系统的高级管理人员,分析的结果用来支持决策。 3 2 电力负荷数据仓库的设计 数据仓库是一个用以更好地支持企业或组织的决策分析,面向主题的、集成的、不 可更新的和随时间不断变化的数据集合。而电力负荷数据仓库的设计,又有其特有的基 础条件和应用需求。 建立电力负荷数据仓库的目的是设法抽取这些系统中的某些数据,按照辅助决策主 题的要求,对数据进行优化存储,再利用一些联机分析( o l a p ) 和数据挖掘工具,为管 1 4 吾申 华北电力大学硕士论文 理者和决策者提供辅助决策功能口2 1 。 本文数据仓库分析的主题是电力负荷与气象信息的关系,数据准备及处理模块 包括数据收集、数据清洗、数据处理等三个子模块,建立流程图如下; 3 2 1 数据准备 图3 3 数据准备及处理模块流程图 ( 1 ) 数据准备及处理的原因: 系统需要导入历史数据并定时导入实况数据。 建立数据仓库对数据及表的格式的需要。 对于维度数据和全省的气象数据需要进行计算。 实际的电力和气象数据存在缺失和错误。 ( 2 ) 负荷和气象数据的处理 电力负荷和气象数据由于数据传输或故障闽题,往往存在一定的数据丢失或错误, 因此分析前必须进行处理。对于错误数据,可以采用设定数据范围的方法进行处理,例 如对于温度可设定 - 2 0 0 c ,4 5 0 c 作为取值范围;对于缺失数据,可采用补齐的方式,如可 用所缺数据的前一个和后一个的平均值作为缺失值。 ( 3 ) 维度相关数据的计算 对于负荷数据,由于夏季和冬季气象因素与负荷的关系比较密切,因此将数据作划 分,见表3 1 。 表3 1 数据蝴分维度 l 节假日 元旦春节夏季冬季其它 l 类别 1 23 45 1 5 华北电力大学硕士论文 气象数据中的风速是以风级的形式给出,因此要转化成风速( 利用风速转化公式 v = 0 8 3 6 b j v 为风速,b 为风级) 。 负荷原始数据中没有星期信息,因此对于时间字段要转化出相应的星期信息,为分 析方便可用数字表示。 ( 4 ) 数据格式的转换 由于气象数据和负荷数据在地区编码上不同,因此需要将气象数据的地区编码进行 修改。 3 2 2 数据的抽取和加载 电力调度数据仓库使用m i c r o s o f ts q ls e r v e r2 0 0 0 为主要支持软件。数据仓库需要从 众多的数据源中获得数据,m i e r o s o rs q ls e r v e r2 0 0 0 提供了数据转移服务( d a t a t r a n s f o r m a t i o ns e r v e r , d t s1 的功能,通过d t s 可以和任何支持o l ed b 接口的数据源之 间导入和导出。这些数据源可以是m i c r o s o i t 的a c c e s s ,也可以是o r a c l e ,s y b a s e 等多种数 据库,甚至还可以是文本文件和电子邮件。通过设计存储过程和d t s 包,可完成数据仓 库的数据增量更新。 3 2 3 多维数据模型的设计 数据模型是数据集市和数据仓库的核心问题之一,很多研究表明,传统的数据 模型( 实体一关系模型) 不能有效地表示数据仓库中的数据结构和语义,也难以支持 o l a p 应用。在多维数据模型中,数据是以多维逻辑方式组织,数据在各个维之间 相互交叉,形成立体的数据视图,所谓维,就是相同类数据的集合。但是在关系数 据模型中,数据是以二维表的形式反映,将数据仓库的数据存储在关系型数据库的 表结构中。多维模型有星型和雪花型两种结构。星型结构的核心是事实表,因为事 实表中包括了主要的数据,是数量属性,能被统计、求和、求平均值、求最大值和 最小值,能根据各种统计操作来聚类,所以只要扫描事实表就可以进行查询,而无 需把多个庞大的表连接起来,同时维表一般都很小,与事实表连接时其速度很快, 因此使用星型模型使用户能提高查询的性能和便于安排各种复杂的查询。 下面我们以中心数据仓库的建设为例,说明电力负荷数据仓库的多维数据模型 建立和分析过程。 ( 1 ) 维的创立 度量值:最大负荷,最小负荷;事实数据表:电力负荷气象数据表,见表3 - 2 。 时间维度:年、季度、月、周、日。 地区维度:华北电网地区代码表,见表3 3 。 气象维度:气象信息表,见表3 4 。 1 6 华北电力大学硕士论文 数据划分维度:见表3 1 。 表3 - 2 电力负荷气象数据表 字段名 数据类型长度主键允许为空 事实序号整型 4 是否 气象信息序号 整型 4 是是 地域信息序号整型 4 是是 时间 日期 8 是是 日最大负荷浮点型 8 否是 日最小负荷浮点型8否 是 表3 - 3 地区代码表 字段名 数据类型长度主键允许为空 地域信息序号整型 4 是 否 地区编号整型4否 是 地区名称文本 1 0 否是 表3 4 气象信息表 字段名数据类型长度 主键允许为空 气象信息序号 整型4 是 否 温度浮点型 8否 是 1 4 点温度 浮点型 8否 是 湿度浮点型 8否 是 1 4 点湿度浮点型 8否 是 风速浮点型8否 是 人体舒适度浮点型 8否 是 温湿指数浮点型 8否 是 实感温度浮点型 8否 是 风寒指数浮点型 8 否是 其中人体舒适度、温湿指数、实感温度、风寒指数是通过计算成员的建立计算 出来的。 ( 2 ) 创建计算成员 计算成员属于维度成员,其值通过在定义计算成员时所指定的表达式计算而得 到。计算成员也可以定义为度量值。系统仅对计算成员的定义进行存储,其值则在 需要答复查询时在内存中计算。 计算成员使用户得以向多维数据集内添加成员和度量值,而不影响到多维数据 集的大小。尽管计算成员必须基于多维数据集内已存在的数据( 例如成员) ,但是可 】7 华北电力大学硕士论文 以通过将数据与算术运算符、数字和各种函数进行组合而创建复杂的表达式。 如图3 - 4 所示,为计算成员实感温度,同样可以得到其他的气象指数计算成员。 具体计算公式见第四章。 图3 - 4 计算成员实感温度图 采用s q ls e r v e r2 0 0 0 的a n a l y s i sm a n a g e r 建立的数据仓库的星型结构如图3 5 。 图3 5 电力负荷数据仓库星型结构图 1 8 华北电力大学硕士论文 3 2 4 存储模式 多维o l a p ( m o l a p ) :m o l a p 模式是将数据和聚合都保存在数据仓库中,根据分 区聚合的百分比来设计,m o l a p 存储模式为达到最快查询响应时间提供了潜在可能性。 总而言之,m o l a p 更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需 要。 关系o l a p ( r o u 心) :r o l a p 模式是将数据和聚合都保存到关系数据库中,与 m o l a p 存储模式不同,r o l a p 不会使源数据的复本存储起来:当结果无法从聚合或客 户端高速缓存派生时,将访问分区的事实数据表以回答查询。在r o l a p 存储模式下,查 询响应般较其它两种存储模式下要慢。r o l a p 通常用于不经常查询的大数据集,如年 份较早的历史数据。 混合0 l a p ( h o l a p ) :h o l a p 方式将数据保留在关系数据库中,而将聚合存储在 数据仓库中。它结合了m o l a p 和r o l a p 两种模式的特性。 考虑到电力负荷和气象数据的数据量以及联机分析对响应时间的要求,采用了 m o l 廿的存储模式。 图3 - 6 负荷多维数据集编辑环境 3 。3 用e x o ej2 0 0 0 分析负荷多维数据集 在e x c e l9 7 的版本,已经可以连接后端大型关系型数据库,将数据下载到前端 1 9 华北电力大学硕士论文 做二维的数据透视表分析。s q ls e r v e r2 0 0 0 可以做多维的数据分析,微软在e x c e l 2 0 0 0 加入了可以连接到分析服务器的功能,它还可以将服务器多数据集的数据分类 之后存储在客户端的计算机上,待日后脱机时作分析,它还可以帮助我们画统计图。 表3 5 和图3 7 通过e x c e l2 0 0 0 数据透视表和数据透视图,从时间和城市两个 维度观察2 0 0 5 年1 至4 季度华北地区的最大负荷。 表3 - 5 华北地区2 0 0 5 年1 4 季度时间城市负荷透视表 图3 7 华北地区2 0 0 5 年l 4 季度时间城市负荷透视图 2 0 华北电力大学硕士论文 3 4 用w e b 网页访问负荷多维数据集 使用o f f i c e2 0 0 0w e b 组件可以创建一个包含p i v o t t a b l e 的e x c e l 电子表格,然 后作为h t m l 页面保存。这样,可以通过i n t e m e ! t 方便地访问数据仓库中的数据。 如图3 - 8 所示: 图3 - 8 使用i n t e r a c te x p l o r e 浏览w e b 页面 2 l 华北电力大学硕士论文 第四章负荷特性及其与气象条件的关系 电力负荷( 以下简称负荷) 是电力系统规划设计和运行管理的最重要指标之一, 研究负荷的特征及其变化规律是达到电网安全、稳定、优质和经济运行的首要条件。 由于影响负荷的因素是多种多样的,特别是相当多的因素无法准确定量地给出,负 荷的变化特征表现为时变性、随机性、复杂性和多样性,不同地域的电网其负荷变 化也不尽相同,因而负荷变化具有一定的不可预测性,较准确全面地研究分析负荷 及其变化规律是电力科技工作者要解决的难题,也是进行负荷预测的基础。 近年来,越来越多的研究表明,电网负荷与气象条件的变化有关 23 1 “】。随着国 民经济的发展和人民生活水平的提高,冬季取暖和夏季制冷在生活中逐渐普及,而 这二者的耗电量都相当大,因此负荷的变化与气象条件的相关关系逐步密切,气象 因子对电网负荷影响程度有提高的趋势。但由于不同的电网所处的气候条件不同, 各地经济结构和发展水平也千差万别,各个电网负荷与气象因子的关系也不尽相 同,有必要进一步研究负荷变化与气象因子的关系。本章在分布式数据仓库的基础 上,利用e x c e l 实现数据透视表,着重分析京津唐电网的气象条件与电力负荷的关系。 4 1 气象条件与电力负荷分析 京津唐电网的负荷分为基荷与峰荷,其中基荷主要是工业负荷与农业负荷;峰 荷主要是指商业负荷及城市民用负荷。工业负荷在京津唐基荷中占很大比重,近些 年来随着国民经济的持续高速度发展,工业负荷不断稳步增长,使京津唐电网的基 荷每年以5 的速度增长;而农业负荷增长速度较稳定,农业负荷多为灌溉负荷, 而农作物多为夏季作物,所以农业负荷在夏冬两季相差很大,一般在夏季达到基荷 用电高峰。而且农业负荷主要受气候条件影响,与降雨量及降雪量关系密切,成反 向趋势。近些年,华北气候干早特别是夏季,所以农电负荷较前几年有所增大。与 工业负荷相比,随着商业的不断发展,商业负荷则是以高速度增长,而商业负荷也 有它的特殊性,昼夜性很明显,一般商业用电高峰在白昼,夜间则骤降,所以昼夜 的峰谷差很大;民用电负荷也有它的特殊性。近些年来人们生活水平不断提高,居 民用电的数量及质量要求明显提高,特别是像空调等耗电量高的电器在家庭中的普 及,使得京津唐电网负荷的状况不断地发生变化,民用负荷在电网负荷结构中所占 比重也不断增长。而民用负荷又有它自身的特殊性与天气因素( 温度、湿度) 息 息相关。因此,负荷特性与温度、湿度有密切关系。图4 一l 、图4 2 是关于2 0 0 5 年 北京地区6 、7 、8 月份大负荷期间最大气象负荷、最小气象负荷与湿度和温度变化 的比较,从图中可以清楚地看出负荷与温度的关系近似于同向关系,即温度越高, 负荷越大。其趋势在曲线中也能得到很明确的反映:在温度曲线达到高峰时,负荷 2 2 华北电力大学硕士论文 也趋于峰值;当温度曲线落入低谷时,负荷也回于低谷。而负荷与湿度的关系则不 像与温度关系那么明显,只是当温度及湿度两者共同作用下才有较明显的规律。总 的来说,当温度高、湿度大,即所谓又闷又湿的天气时,负荷才相对较大;当温度低、 湿度大时,负荷不会很高;当温度高、湿度小,即所说的干热天气时,负荷会很大: 当温度低、湿度低时,负荷也不会很大。其中的关系可以通过图4 1 看出。 图4 1北京市最大气象负荷与温度、湿度变化曲线 图4 2 北京市最小气象负荷与温度、湿度变化曲线 一般而言,负荷变化受多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论