基于模式识别机器学习算法的热力站动态能耗指标预测模型设计和实现 计算机科学与技术专业_第1页
基于模式识别机器学习算法的热力站动态能耗指标预测模型设计和实现 计算机科学与技术专业_第2页
基于模式识别机器学习算法的热力站动态能耗指标预测模型设计和实现 计算机科学与技术专业_第3页
基于模式识别机器学习算法的热力站动态能耗指标预测模型设计和实现 计算机科学与技术专业_第4页
基于模式识别机器学习算法的热力站动态能耗指标预测模型设计和实现 计算机科学与技术专业_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于模式识别机器学习算法的热力站动态能耗指标预测模型【摘要】以我公司n个典型热力站和其所带热用户为实验对象,以所在地区天气预报和天气实时数据为依据,对供暖期间所采集的热力站供暖数据、天气预报数据、典型供暖用户室内温度,通过模式识别机器学习算法对样本进行学习训练,形成一套完整热力站动态能耗指标预测模型。【关键词】模式识别机器学习态能耗指标预测欧式距离复合相关系数引言在集中供热系统中,热量主要以水为载体从热源厂通过一次管线输送到热力站,热力站通过换热设备进行热交换后,将热水通过二次管线输送到热用户户内。为了使用户室温达标,同时降低能源消耗,需要根据天气预报情况不断地对热力站的热负荷进行调整。目前,传统的调整方式是通过预报的室外温度结合热力站所带供热面积进行计算,同时根据风、雪和日照等因素,凭借经验进行人为修正。得出各个热力站的未来预测负荷(大部分用二次送水平均温差或送回水温度作为调整参量)和延迟时间,但由于用户需热情况复杂,受热力站及二次管网系统结构、供暖用户建筑物结构、保温情况甚至用户用热习惯等多重因素影响,传统的计算方式多以调度人员的经验和一些计算公式(人为的设定一些估值)无法准确获得合理热负荷值预测值,其估算的调整结果容易出现用户室温不达标或室温偏高导致能源浪费等情况的发生。针对上述情况,本文采用了模式识别机器学习算法对各供热参数进行数据集合统计计算和分析,得出热力站热负荷和影响热负荷的各个因素之间的关系,从而准确高效地调节和控制用户室温,在节能降耗的同时提升供热舒适度。算法研究数据采集实现模式识别机器学习算法对各供热参数进行数据集合计算,作为基础的数据采集工作非常关键,其采集内容、采集频率和采集数据质量是关系到整个数据模型分析结果能否可用的关键重要因素。采集内容目前,国内的热力站运行数据,百分之九十采用了以PLC控制技术为主要采集手段,通过无线VPDN技术或有线(光纤专线)将PLC采集的热力站数据上传到相应的调度中心SCADA系统,所有这些数据可以通过网络实现对各个热力站数据的监视和调度。同时,也可以通过IOT(物联网)技术将热计量数据和用户室内温度上传到SCADA系统或上一级调度系统(能管系统);天气预报和实时天气预报数据考虑到网络安全因素可以通过购买专业地区气象台数据通过接口上传到调度系统(能管系统);或在SCADA系统中增加室外环境温度、风力、湿度和照度采集测点实现气象实时数据的采集;同时,其次日天气预报数据可人为的手工录入系统。采集频率数据采集频率的设定,一般考虑如下三个方面的因素;一是SCADA系统的数据处理能力的限制,目前,大多数系统都可以实现秒级的数据采集和处理。二是受到数据上传链路带宽和性能的限制,一般情况是,基于无线VPDN的数据传输,其数据传输时间为不大于5分钟,且其控制数据下行为即时策略,采集上行为固定时间间隔。而对于专线(光纤专线)上传的数据频率一般为5秒级;三是IOT(物联网)数据,包括用户室内温度和热计量数据,由于受到其网络带宽和无源(电池供电)限制,其传输频率一般设置在10分钟到30分钟。天气预报一般以小时为最小采集单位。数据质量数据采集质量的控制,关系到整个系统能否正常使用,确保数据质量应满足如下三点;第一:数据采集测点的稳定性和采集精度的控制,其中,流量和热负荷的采集设备,其采集设备的选型十分重要,在热力站建设和系统改造时要给与足够的重视。第二:设备采集精度的控制,一般情况下,标准的数据采集设备0.2级精度是可以满足要求的,但在室内温度测量方面,由于其有效可用测量范围(大于15度小于28度之间),要求注意控制其采集精度和采集环境的控制,必要时可对室内温度采集设备增加偏移量补偿调整。第三:对于天气预报等数据,要求数据传输接口的稳定性,必要情况下,可以通过冗余方法提供两个天气预报数据源。数据存储实现模式识别机器学习算法对各供热参数进行数据集合计算,数据存储方法是系统进行集合计算的保证。合理有效的数据存储方式关系到整个系统能否正常的使用。目前,有如下三种存储方法。1.2.1实时数据库实时数据库诞生于美国,主要是因为现代工业制造流程及大规模工业自动化的发展,导致大量的测量数据需要集成和存储,而采用关系数据库难以满足速度和容量的要求,因此在80年代中期,开始诞生了适用于工业监控领域的实时数据库。实时数据库其实并不单单只是一个数据库,而是一个系统,包括对各类工业接口的数据采集,海量监测数据的压缩、存储及检索,基于监测数据的反馈及控制功能等。实时数据库的出现,主要是为了解决当时关系型数据库不太擅长的领域,包括:1、海量数据的实时读写操作;2.大容量数据的存储;3.集成了工业接口的数据采集;4.集成控制功能,可实现实时控制;鉴于实时数据库是基于时标进行处理的,就导致它只能简单的使用时间段进行查询和检索;复杂的检索,在性能和功能上无法和关系数据库相比。1.2.2关系数据库关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。标准数据查询语言SQL就是一种基于关系数据库的语言,这种语言执行对关系数据库中数据的检索和操作。关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成。关系数据库可以满足复杂的查询,这一点上要优于实时数据库,但是,将关系数据库应用于SCADA系统的时候,其缺点就暴露无疑了,主要表现在其并发处理速度低,一般为每秒1000到3000个读写请求;与实时数据库每秒200百万级的并发请求相差甚远;关系型数库查询效率非常的低,其存储空间和存储方法为无压缩存储,其存储空间非常浪费;关系数据库没有一个可确保数据库长期运行的存储策略,需要人工干预。1.2.3大数据“大数据"通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。大数据存储和传统的数据存储的不同,主要表现在大数据应用的一个主要特点是实时性或者近实时性,这一点与实时数据库有相似之处。其存储方式和结构与关系数据库和实时数据库完全不不同,采用列存储技术。其存储的内容为非结构化数据,其数据类型含盖了关系数据库所有数据类型;其最大的变化是其存储结构采用分布式结构;查询速度和复杂度远高于关系数据库。但其也存在一些缺点,其有效实时并发性能尚未达到实时数据库性能,数据接口标准处于严重匮乏阶段。一些新的架构体系尚在重构和完善中。以上三种数据存储方式,目前在SCADA系统中都有采用,比较新的理念是,采用实时数据库和大数据的架构共同完成对各供热参数进行数据集合分析计算。1.3数据计算数据计算是实现模式识别机器学习算法的工具,没有数据计算的基础理论做保证,其所有数据没有任何实际意义;因此,有效选择计算方法和基础数据准备是数据计算的根本。利用统计学中相关性分析计算原理对热力站和相应的数据进行计算分析是对热力行业负荷预测一次有效的尝试:1.3.1数据的辨析基于模式识别机器学习算法的热力站动态能耗指标预测模型,首先,要利用相关性分析原理合理的确定使用那些数据,在不断的试错中找出最为合理和有效的数据。1)因变量模式识别机器学习算法对各供热参数进行数据集合计算,首先要求对数据采集样本进行有效选择。其中因变量的选择是非常关键的,依照一般的思维逻辑,选择热力站热负荷值(一次或二次)是首选,但在实际数据计算试错中,我们发现由于热负荷值采用了温度差和流量两个参量进行计算,其中流量的采集值容易出现跳跃,造成了因变量计算结果的差异。而采用供暖热力站二次送水温度作为因变量。具有温度变化平缓,不会出现跳跃,且其二次送水温度可以非常近似表示其热负荷的变化。2)自变量自变量的选择,关系到整个预测模型的实际预测效果和相关性的程度,其中天气预报数据的选择为重点,在试错中,我们发现天气预报的室外温度一般与实际天气温度有一定的差异,一般情况下有0到4度间的正负差,这一差异越小就能够保证负荷预测的准确性越高。因此,我们采用全天24小时4个时段的平均天气预报温度、风力以及湿度和照度等,可以最大限度减少预报室外环境参数的偏差;其历史记录的室外环境温度、风力、湿度和照度为当时的地区以小时为时间间隔实际室外环境参数。供热用户室内温度,是以各个热力站对应的典型室内测量温度为参考,考虑到其室内环境温度测量装置的安装环境可能造成的测量误差,在测量室内环境温度时应加入偏移量补偿措施,使其获得的室内环境温度尽可能的准确。供热用户室内环境温度的设置,按照国家供热要求,在供暖季,用户室内温度不得低于18度,考虑到供热用户的舒适度要求,将供暖季室内温度设置四个时段,分别为上午、下午、夜晚和凌晨;四个时段的用户室内环境温度设定值分别为22℃、20℃、22℃和18℃;考虑到其为典型用户,实际应用中可能会出现正负2度的偏差。1.3.2数据抽取数据的抽取,关系到所获数据质量是否负荷标准的关键节点,是供热参数进行数据集合计算重要的方法。数据抽取的环境为了保证数据抽取的成功和便于下一步的查询和分析,利用大数据架构,将实时数据库采集的数据,在保证网络安全的前提下,通过接口以统一的时间间隔(5分钟)将需要进行分析计算的数据抽取转储至大数据结构节点服务器中存储。数据抽取原则将实时数据库中,各个热力站的热负荷、二次流量、二次送回水温度、一二次压力、调整阀门开度、变频数据;对应地区的小时天气预报中实时室外环境温度、风力、照度和湿度,对应地区的次日小时天气预报中的室外环境温度、风力、照度和湿度;各个热力站对应典型供热用户室内温度等关键数据以时间顺序抽取存储到大数据节点服务器中。1.3.3数据清洗数据清洗工作,是大数据计算分析的数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。1)将抽取的数据依照时间序列进行判断,将系列数据任一时间点的数据出现缺失、错误的的数据依照其所在的时间段进行整段删除。重点关注典型室内环境温度出现异常,热力站热负荷和流量出现严重跳跃,天气预报实时数据缺失三种情况;2)将抽取的数据中不在供暖期间的数据和特殊供暖期(出现一次系统供热故障)的数据进行整时段删除。1.4大数据分析大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。1.4.1欧式距离欧几里得度量(euclideanmetric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧式距离算法公式:1)算法描述热力站热负荷分析的目的,利用大数据节点服务器中存储的已经清洗的数据,将供暖季室内温度设置四个时段,分别为上午、下午、夜晚和凌晨;四个时段的用户室内环境温度设定值分别为22℃、20℃、22℃和18℃;作为期望值参数;将次日预报四个时段对应的平均室外气温和平均风力作为预测值;将已清理的数据中时间序列数据各个换热站的典型室内温度、对应该地区的室外温度和室外风力历史值作为依据计算出其欧氏距离值。由此计算出依照时间序列生成为欧式距离数据集,并取其最小值所对应的时间序列2)具体算法公式为欧式距离数据集;为对应四个时段之一的设定室内温度(22℃、20℃、22℃、18℃);为历史记录的时刻室内温度;为历史记录的时刻室外温度;为对应四个时段之一平均室外预报温度;为对应四个时段之一平均室外预报风力;为历史记录的时刻室外风力;时间序列数据集的选择通过实际数据的模拟分析和计算,欧式距离数据集时间段的选取原则为最少150个供暖日,如果要将雪天和湿度参与计算,考虑到其样本数量在一个供暖季中出现的天数很少,其分析数据集时间段的选择可以不进行限制。1.4.2复相关系数复相关系数是测量一个变量与其他多个变量之间线性相关程度的指标。它不能直接测算,只能采取一定的方法进行间接测算。是度量复相关程度的指标,它可利用单相关系数和偏相关系数求得。复相关系数越大,表明要素或变量之间的线性相关程度越密切。复相关系数(多重相关系数):多重相关的实质就是Y的实际观察值与p个自变量预测的值的相关。热力站热负荷分析和计算,如果在已清洗的数据当中能够检索到其欧式距离为0的时间序列记录,我们就可以直接引用该时间序列对应的热负荷值作为次日对应时段的负荷预测值,其算法简单有效,但是,当其最小欧式距离为不为0的时候,我们就会发现,需要我们对最新的预测值进行系数修正,这个系数如何确定?,这就需要我们提到的复相关系数。我们可以利用其热力站热负荷与室内环境温度、室外环境温度、室外风力的最大复相关系数一般在0.85-0.99之间;将获得一定时间段的内最大复复相关系数减去1的绝对值(0.01-0.115)作为修正系数,实现对热力站热负荷的预测。1)算法描述在利用复相关系数对热负荷进行预测,首先,要求进行数据的辨析,选择合理因变量和自变量。是保证其算法有效的关键;在1.3.1数据的辨析中,我们已经对因变量和自变量的选择辨析进行了详细的分析。我们将二次供水温度作为因变量,当其温度提高时,其对应的室内温度会与室外环境(温度、风力等)产生一个相关性,但这种相关性需要一个延迟时间,通过固定时间步长的迭代计算器复相关系数,多长延迟时间后,二次供水温度的变化与,其对应的室内温度会与室外环境(温度、风力等)相关性最强,我们就将该时刻的最大复相关系数和时间标作为我们的修正系数和延迟时间。我们要利用统计学中的计算模型,将我们选择好某一时间段的因变量和自变量数据集,依照时间序列按照固定时间步长将自变量集迭代导入计就可以计算出按照时间序列的复相关系数序列;如果其下一个复相关数小于前一个复相关系数,我们就得出了其在此时间序列中的最大复相关系统,否则该时间系列复相关系数无效。具体算法公式:2)具体算法公式:历史数据行,时间间隔(小于10分钟)复相关系数据集合(t为对应的历史时刻);:基于二次送水温度因变量回归值;:基于二次送水温度因变量历史数据,时间行间隔(小于10分钟);:基于二次送水温度因变量历史数据平均值,取值范围(连续12个小时);:回归常数;:为各对应自变量的回归系数;3)时间数列历史时段的选择为了保证复相关系数的有效性,通过不断的试错和依据热力站热负荷的实际,我们选择的时间数据列为其为欧式距离计算点对应时间标前后6个小时,作为复相关系数时间序列数据数据集的计算分析数据源。其时间段过长或过短都对其计算结构产生一定的影响。4)热负荷预测算法从上面公式中,我们可以看出;热力站热负荷的计算与欧式最短距离对应的时间点的热负荷值对紧密相关,当其欧式最短距离不为0的时候,我们就会应用复相关修正系数实现对预测热负荷的修正。其中,对应四个时段之一的预测热负荷值;对应时刻的热负荷值;为修正系数;为对应四个时段之一的设定室内温度;为对应最大复相关系数历史记录的时刻室内温度;为对应最大复相关系数历史记录的时刻室外温度;为对应四个时段之一平均室外预报温度;为对应四个时段之一平均室外预报风力;为对应最大复相关系数历史记录的时刻室外风力;为补水流量;分别为二次送水水温度与回水温度;为水的比热容;分别为二次送水水温度与回水温度;:为补水温度;5)延迟时间算法热力站热负荷计算结果的使用还存在一个非常关键的问题要解决,迟滞时间:这是供热行业一个特有的现象,由于热力站与供热用户由二次热网管线链接,热量的输送需要一定的时间,同时供热用户的保温情况,外边的环境温度和风力大小,以及雪天和照度对用户温度的影响,都会给供热用户到热力站之间热传导产生一个动态的延时。我们如果能够通过算法分析将此迟滞时间计算出结果。就可以提前一定延时时间对热力站进行调整,在预定时间,使其室内温度达到设定值,解决了热力站热负荷预测这一难题。经历不断的试错,我们发现,通关过时间系列复相关系数数据集的分析,能够从中到其迟滞时间的计算方法。延迟时间为时间序列相关性分析数据集合开始时刻通过迭代计算得到到其复相关系数最大时刻的时间差;该时间差的精度与其分析数据集的时间间隔密切相关,建议采用不大于10分钟的时间间隔进行计算。下图1-1为一热力站时间序列相关性分析图:图1-1某热力站2018年2月2日05点的时间序列相关性其延迟时间为=90分钟,其最大值为0.962;K=0.038预测热负荷3.67(凌晨0-8点)。6)下图1-2热力站热负荷预测的逻辑流程图1.5数据验证实现模式识别机器学习算法对各供热参数进行数据集合计算,是一个无量纲的计算分析过程,期间除了补水热负荷计算引用了热力学计算公式外,其它的计算方法完全遵循了统计学的基本原理和计算模型。其中几个关键问题的验证和解决,都是在不断试错和数据清理中对算法不断优化和验证;其中起到关键作用的有如下几个要点1.5.1数据清理在计算分析中起这举足轻重的作用:在数据采集和数据抽取过程中,无效和坏的数据随时都会发生,建立起一套完整有效数据清理方法是非常必要的,在这里有如下几个需要遵循的要点:要保证时间顺序数据类历史记录间隔的基本一致性,可以通过数据抽取存储来处理,也可通过时间差值算法进行数据整理。要保证时间顺序序列数据的完整性,一旦有某个数据失信,就要自动将整个时间段的序列数据排除掉,一般为6个小时或24个小时。要严格把控好数据清理关,只存储供暖季的数据,对一些容易失效的数据,可进行冗余数据处理。1.5.2在复相关系数分析计算中,要注意排错处理。热力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论