




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论数据挖掘技术在电力行业中的应用论文 引言数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。 一、数据挖掘技术数据挖掘就是指 从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行、生产企业和电信,并有很好的表现。 二、数据挖掘的过程 挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。 (1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。 (2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。 (3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。 三、数据挖掘在电力系统负荷预测中的应用 电力负荷预测是能量管理系统及配电管理系统的重要组成部分,是电力系统规划和运行调度的依据,也是电力市场化商业运营所必需的基本内容。负荷预测工作的关键在于收集大量的历史数据,建立科学有效的预测模型,采用有效的算法,以历史数据为基础,进行大量试验性研究,总结经验,不断修正模型和算法,以真正反映负荷变化规律。其过程为: (1)调查和选择历史负荷数据资料 多方面调查收集资料,包括电力企业内部资料和外部资料,从众多的资料中挑选出有用的一小部分,即把资料浓缩到最小量。挑选资料时的标准要直接、可靠并且是最新的资料。如果资料的收集和选择得不好,会直接影响负荷预测的质量。通过建立计算机数据管理系统,利用计算机软件系统动管理数据。 (2)负载数据预处理 经过初步,还用于数据分析的预处理,平滑异常值的历史数据和缺失数据的异常数据主要是水平的,垂直的方法附录。正在分析数据之前和之后的两个时间的负载数据作为基准,来设置要处理的数据时,要处理的数据的范围中最大的变化的数据的处理的水平超过该范围时,它被认为是坏的数据,使用平均法平滑变化;垂直负载数据预处理中的数据处理的考虑其24小时的小循环,即,相同的时间的日期不同的负载应具有相似的,同时负载值应保持在一定范围内,校正外的范围内的数据进行处理,在最近几天的坏数据,力矩载荷的意思。 (3)历史资料的 一般来说,由于预测的质量不会超过所用资料的质量,所以要对所收集的与负荷有关的统计资料进行审核和必要的加工,来保证资料的质量,从而为保证预测质量打下基础,即要注意资料的完整无缺,数字准确无误,反映的都是正常状态下的水平,资料中没有异常的“分离项”,还要注意资料的补缺,并对不可靠的资料加以核实调整。通过建立数据完整性、一致性约束模型,来建立海量数据集为后面的数据挖掘做好充分的准备。 (4)建立负荷预测模型 负荷预测模型是统计资料轨迹的概括,预测模型是多种多样的,因此,对于具体资料要选择恰当的预测模型,这是负荷预测过程中至关重要的一步。当由于模型选择不当而造成预测误差过大时,就需要改换模型,必要时,还可同时采用几种数学模型进行运算,以便对比、选择。 (5)选择算法 选择聚类法又称聚类分析法,它是对一组负荷影响因素数据进行聚类的方法,聚类后的数据即构成了一组分类。聚类的标准是以数据的表象(即数据属性值)为依据的,聚类的工具是将一组数据按表象而将相近的归并成类,最终形成若干个类,在类内数据具有表象的相似性,而类间的数据具有表象的相异性。聚类的算法也有很多,有遗传算法,划分法,层次法,基于密度方法,基于网格方法等。四、CURE算法在负荷预测中的应用CURE算法是一种分层聚类算法。典型的数据点来表示一个具有固定数目的聚类。的CURE算法需要作为参数输入的群集数?。由于CURE聚类的代表点的某些有代表性的,可以发现具有任何尺寸和形状的聚类。同时,在一个集群代表点的选择方式的中心“缩水”排除“噪音”。 历史上第一个数据库负荷预测,数据提取样品。的数据样本聚类,可以分为两种方法:一个是所有样本数据进行聚类,这个方法会使主内存容量是远远不够的,系统无法扫描一次完成。我们使用所有的样本数据被分成多个区域,每个区域的数据进行聚类,使每个分区可以品尝到所有的数据加载到主内存。然后,针对每个分区,使用分层算法的聚类。 电力系统的应用SCADA系统中的数据测量、记录、转换、传输、收集数据,并可能导致故障和负载数据丢失或异常。异常数据的生成是随机的,因此,在数据库中的不确定性的分布,不同类型的异常数据出现单独或在一个特定的时刻,或交叉混合发生在同一天连续,或在相同的连续天期的横分布,以及许多其他场合。异常数据的处理的关键影响的预测结果的准确性。使用两种不同的技术,以删除异常。第一种技术是要删除的集群增长缓慢。当簇的数量低于某一阈值,将只包含一个或两个集群成员的删除,第二种方法是在集群的最后阶段,非常小的集群中删除。 最后对样本中的全部数据进行聚类,为了保证可以在内存中处理,输入只包括各个分区独自聚类时发现的簇的代表性点。使用c个点代表每个簇,对磁盘上的整个数据库进行聚类。数据库中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航空航天产业股权并购与航天器研发协议
- 《哈姆莱特(节选)》课件 统编版高中语文必修下册
- 教师招聘之《幼儿教师招聘》考前冲刺练习题及参考答案详解
- 教师招聘之《小学教师招聘》练习题含完整答案详解【历年真题】
- 绿色信贷对中国银行盈利能力的影响研究
- 教师招聘之《小学教师招聘》全真模拟模拟题及完整答案详解(有一套)
- 内蒙古呼伦贝尔农垦牙克石莫拐免渡河农牧场有限公司招聘笔试题库附答案详解(完整版)
- 2025卫生院医保业务流程
- 2024年呼伦贝尔农垦集团有限公司人员招聘笔试备考及答案详解(新)
- 2025年教师招聘之《幼儿教师招聘》综合提升练习题附参考答案详解(黄金题型)
- Rexroth (博世力士乐)VFC 3610系列变频器使用说明书
- ×××学校“学校学生资助管理机构成立文件”
- 动词过去式和过去分词的变化规则练习及答案
- 第四章 土壤污染调查与风险评价
- GB/T 9877-2008液压传动旋转轴唇形密封圈设计规范
- GB/T 12670-2008聚丙烯(PP)树脂
- 共享服务中心(HRSSC)课件
- 工程结构检测鉴定与加固第1章工程结构检测鉴定与加固概论课件
- 高中心理健康课程《人际关系-寝室篇》课件
- 数字色彩课件
- 一年级上册科学课件-第一单元 走近科学 复习课件-鄂教版(共23张PPT)
评论
0/150
提交评论