【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】

上传人：E*** IP属地：湖北上传时间：2026-03-04 格式：DOCX 页数：6 大小：288.61KB 积分：10.8 举报 版权申诉

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】_第2页

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】_第3页

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】_第4页

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】_第5页

免费预览已结束，剩余1页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于深度强化学习的冷热电三联供能源系统运行优化分析案例在现实的能源系统模型中，各个部件能耗关系，能源消耗量变化情况更为复杂，在现实案例中可能存在数十个变量，因此其内部的状态转换关系极其复杂，如果利用Q学习进行能源系统优化，需要观测难以计数的动作和状态。当外部环境状态和动作数目过大时，Q学习难以展开运算。同时受限于Q学习算法本身的不足，在解决实际问题中，智能体常常陷入局部最优陷阱，进而无法得到准确的优化方案。针对这一问题，本章节采用深度强化学习的方法对冷热电三联供综合能源系统进行优化设计，从而获得良好的能源系统优化方案。1.1深度强化学习算法深度学习是机器学习领域的新研究方向，出于人工智能的开发研究而提出了深度学习这一概念。深度学习指智能体通过学习事物内在本质和数学规律，进而获得解决相关问题的能力[33]。深度学习的最终目的是让计算机像人一样能够处理各种视觉，音觉信息。深度学习中常常会用到卷积神经网络，借助卷积神经网络，智能体能够快速识别样本，或许数据。深度学习着重体现了对事物的感知分析能力。DQN强化学习算法是由谷歌公司的DeepMind团队所提出，这是一种典型的深度强化学习算法。该算法强调从原始数据中进行学习，可以有效解决实际案例中状态空间过大的问题，大大增加了强化学习算法的适用范围。深度强化学习不需要对原始数据进行过多处理，主要凭借智能体对环境的主动学习来工作。因此深度强化学习更体现出感知这一概念，这种思维方式也更加接近于人大脑的思维方式。深度学习原理如图4-1所示：图4-1深度强化学习原理图其学习过程主要通过以下三步来完成，首先在每一个时刻智能体与环境交互就会得到一个高维度的观察，并利用深度学习的方法来感知该观察，得到具体的状态特征第二步是基于预期的回报来评价动作的价值函数，并通过策略将当前状态映射为相应的动作值。最后环境对此动作做出反应，并得到下一个时刻的观察。通过不断循环以上过程，最终可以得到智能体实现最优决策的能力[34]。1.2基于DQN的冷热电三联供能源系统运行优化的能源系统优化案例采用的是Q学习方法，而现实情况往往更为复杂，Q学习的实用性往往较低，当状态空间，动作数目相当多时，Q学习中的Q-table往往特别庞大，难以起到简化计算的效果。Q学习也常常陷入局部最优的陷阱，导致在现实生活在难以得到最佳优化方案。而在深度强化学习中，Q学习中的Q-table可以被DQN算法中使用的卷积神经网络所代替，这样可有效解决因状态空间，动作数目过多而引起的Q-table庞大这一问题。利用深度强化学习的卷积神经网络可以将Q-table的更新转化成了函数的拟合问题，该函数也可以称为值函数估计，可以由下式表达： Q(s,a,θ)其中s代表当前状态，a代表当前动作，r代表当前期望，s'代表下一时刻状态。Q*(s,a)表示在状态为s，动作为a时所获得的最佳Q值，也是在动作为a'时所得到的最大Q值。通过对卷积神经网络权重参数θ进行合理设置，所得到的Q函数可以无限接近最优Q值。由Q函数进一步得到Q网络。Q网络与目标函数的差距值称为损失函数，损失函数的计算主要采用均方差计算法以及估值迭代思想，其计算公式可以如下表示： L(θi等式左边是经过i轮更新后，Q网络的目标函数值，D表示经验回收池，智能体每经过t步长后便会自动保存其与环境交互所生成的数据。损失函数L(θi)更新θ，不断重复这一过程来实现监督学习，具体的更新优化方法采用随机梯度下降这一方法，该方法可以用公式表示为 ∂L(θ计算过程中，智能体随机的从经验回顾池中选取学习数据，避免连续样本相关性误差，通过此公式迭代计算得到最终的理想Q值。对Q网络进行不断的改进更新，并将原本Q学习的期望值计算替换为从动作集中采样单一的样本数据，故可将式(4-3)理解为传统Q学习算法的一种新的更新模式。在深度强化学习进程中，智能体与环境每一次交互前都需先确定自身状态，然后将当前状态输入至神经网络中，然后利用值网络进行计算，求得所有可能的Q值，选取最优Q值所对应的状态a，执行完该动作后可获得奖赏r。当完成这一个过程后智能体便进入下一状态s'。期间智能体与环境交互生成的数据会被存放到经验回收池。目标值网络从经验回收池中选取数据对卷积神经网络进行进一步训练，对网络进行训练，使用目标网络参数计算更新状态s'的最大Q值，并利用深度强化学习的损失函数模块进行计算分析，求出当前状态s和对应动作a的Q值与更新的下一时刻状态s'的最大Q值间的损失函数梯度，使用随机梯度下降法更新参数，最后每隔n回合迭代更新目标值网络参数，不断持续训练过程，使智能体习得做出最优决策的能力。在DQN算法优化研究中，我们仍将采用第三章所选案例的数据。即针对冷热电三联供综合能源系统，充分考虑用户冷需求，电需求，热需求，对系统进行改进优化。其中热需求主要由热电联产设备热力生产和辅助锅炉产热提供，电需求主要由电网直接购电和热电联产设备电力生产提供。冷需求主要来源于制冷设备利用电能制冷，这一部分电能合并在前面电需求计算过程中一同计算、当日各个时间段的电价、燃料的价格、用户一天当中的热需求，电需求，冷需求与第三章相同。深度强化学习中的状态值可以设置为外电网逐时刻购电价格、天然气价格、电负荷逐时需求，热负荷逐时需求，冷负荷逐时需求。智能体的动作可以分为六个不同等级，按照热电联产满足热需求的比例划分为0，0.2，0.4，0.6，0.8，1.0六个等级。在根据各个状态下冷，热，电的总需求量，结合各个能源部件的投入运行程度，进而计算可得该状态下总的运行成本。热电联产满足用户热需求时，热电联产的热负荷可能大于其最大功率。因此我们对算法进行改进，本算法将按照热电联产满足用户热需求的比例与热电联产最大功率与用户热需求的比值进行对比，取两者当中的较小值作为热电联产的出力，该方法可以避免分配负荷超过额定负荷的情形。考虑智能体采取动作得到的奖励时，为了使智能体在运行成本较大时获得较小的回报，在运行成本较小时获得大的回报，将智能体对应状态和动作下的回报设为运行成本的相反数，从而实现运行成本与回报呈正相关的关系。相较于Q学习中智能体的学习率设置为0.5，在深度强化学习中智能体学习率设置为0.001，原因是深度强化学习往往可以探索更多空间，设置较低的学习率以保证尽可能多的探索空间以取得更优方案。在深度强化学习中，折扣因子设置为0.95。智能体折扣因子的取值范围在0和1之间，折扣因子越大，智能体越注重当前收益，我们将折扣因子设为0.95符合人类大脑的认知。深度强化学习具体算法流程如图4-2所示：图4-2深度强化学习具体算法流程使用以上算法，智能体通过不断试错探索学习，经过1000轮的探索后智能体可以学习到最优决策能力，最终优化结果为每日运行成本392.30欧元，具体的逐时运行方案如图4-3所示图4-3冷热电三联供DQN优化运行方案图由深度强化学习所得到的优化运行方案可得，在前6小时内，用户无冷需求，热需求。此时热电联产设备和辅助锅炉均停机，所需电负荷全由电网购电。在6小时至20小时期间，用户冷需求经过先增后降这一过程，在此期间用户热需求，电需求持续波动，电网购电价格发生波动，结合用户冷需求、电需求、热需求、电网购电价格，燃气价格可以计算出不同设备的功率消耗，进而得到最优运行方案。在21-24小时期间，用户无热需求，冷需求且电价有所回落，此时主要由外电网供电满足用户电需求。1.3Q学习和DQN对冷热电三联供综合能源系统优化对比分析通过对比前后两种优化方案，从最终优化结果来看，Q学习所求得单日总运行成本为386.05欧元，DQN所求得单日总运行成本为390欧元。因此对于简单的综合能源模型而言，采用Q学习方法和DQN学习方法得到的优化结果接近，两种方法均有良好的效果。对各个部件不同时刻使用情况分析，Q学习优化方案和DQN优化方案有所差别。在电网购电方案上，DQN优化方案更倾向于电网购电，总购电量为2862.9KW/h，而Q学习优化方案为2649.13KW/h。此外在7至9小时，11至20小时期间，二者购电方案也存在一定差距。从热电联产运行的角度进行分析，可以得到Q学习在0至7时的运行方案为热电联产停机，而DQN在0至6时运行方案为停机，在6-7时热电联产参与工作。在20时以后，Q学习优化方案中热电联产停机，而DQN优化方案为21小时后热电联产才停机，DQN优化方案热电联产工作时间更长。其余时间段内二者运行方案存在的差异相差不大。从辅助锅炉的角度进行分析，Q学习优化所得方案中，锅炉投入运行的容量变化情况较小，主要变动区间在50-150KW/h区间，而用DQN方法所得到的运行方案辅助锅炉整体波动值较大。造成该现象的原因主要是，辅助锅炉的作用是满足用户除热电联产供热之外的热需求，辅助锅炉运行策略受到热电联产运行方案的影响，当热电联产运行方案变化较大时，辅助锅炉的运行方案

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】

文档简介

温馨提示

最新文档

评论

【《基于深度强化学习的冷热电三联供能源系统运行优化分析案例》3700字】

文档简介

温馨提示

最新文档

评论

相关文档