基于多智能体强化学习的虚拟电厂购售电博弈策略

上传人：策*** IP属地：山西上传时间：2025-12-06 格式：PPTX 页数：35 大小：38.64MB 积分：19.9 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于多智能体强化学习的虚拟电厂购售电博弈策略本研究探讨虚拟电厂在多市场环境下的购售电博弈策略,运用多智能体强化学习算法优化决策过程,实现各方利益最大化与市场稳定运行。研究框架概览01强化学习原理介绍基于确定性策略梯度算法的强化学习方法02博弈模型构建提出基于多智能体强化学习的虚拟电厂博弈模型03策略分析分析多市场主体策略行为博弈机理04模型验证基于算例深入分析虚拟电厂购售电博弈策略强化学习基础原理强化学习是机器学习的重要范式,用于描述智能体在与环境交互过程中通过学习策略以达成回报最大化的问题。其常见模型是标准的马尔可夫决策过程。强化学习可分为基于模式的强化学习和无模式强化学习,以及主动强化学习和被动强化学习。本研究为后续强化学习方法的提出奠定理论基础。智能体与环境交互机制核心要素智能体与环境是构建算法任务的基本要素。环境是智能体进行信息传递的媒介,交互过程通过预先设计的动作集实现。在任意时间t,智能体观测当前环境状态St及奖励值Rt,执行动作At,并获得新的反馈。观测类型如果观测只包含环境的局部状态信息,则认为环境是部分可观测的。如果观测包含环境的全部状态信息,则认为环境是完全可观测的。轨迹与状态转移在强化学习中,轨迹是一系列的状态、动作和奖励,用以记录智能体如何与环境交互:确定性转移下一时刻状态由确定性函数支配随机性转移下一时刻状态用概率分布描述马尔可夫决策过程马尔可夫决策过程是强化学习的常见模型之一,是一个离散随机过程。其核心假设是下一状态仅依赖于当前状态。马尔可夫过程可以看成一个元组⟨S,P⟩,而马尔可夫奖励过程记为⟨S,P,R⟩。状态转移矩阵的元素值Ps,s'=p(s'|s),表示将有限维状态转移矩阵拓展成无穷维概率函数。策略与期望回报策略是从每一个状态s∈S和动作a∈A至概率密度π(a|s)的函数关系,这个概率分布是在状态s下采取动作a的概率:期望回报是在一个策略下给定所有可能轨迹的回报的期望值。强化学习的目的就是通过优化策略来使期望回报最大化:最优策略π*通过优化方法提升策略,从而最大化期望回报。价值函数与动作价值函数价值函数V(s)给定状态下的期望回报:表示在策略π下,从状态s开始的期望累积奖励。动作价值函数Q(s,a)给定状态和动作的期望回报:表示在状态s下采取动作a后的期望累积奖励。价值函数与动作价值函数之间存在密切关系,二者相互转换可用于策略评估与优化。贝尔曼方程与最优性贝尔曼方程用于计算给定策略π时价值函数在策略指引下轨迹上的期望。最优价值函数和最优动作价值函数分别为:二者之间的关系为:q(s,a)=E[Rt+γv(st+1)|St=s,At=a]DDPG算法架构确定性策略梯度(DDPG)算法采用Actor-Critic网络架构。Actor网络根据当前状态形成动作决策,Critic网络评估当前行为的好坏,并指导Actor网络训练。DDPG算法参考深度Q网络(DQN)对Target网络进行固定训练。Actor网络和Critic网络各自细分为Target网络和训练网络,Target网络参数按一定比例对现实网络参数采取复制软更新。DDPG在虚拟电厂中的应用环境信息输入市场价格信息与负荷变动信息作为可视环境信息动作输出Actor网络输出96点动态定价的动作值奖励反馈相对固定定价的收入变化作为奖励值网络更新根据Critic网络反馈调整Actor网络权重DDPG损失函数与更新机制实际Critic网络的损失函数为:现实Actor网络的损失梯度为:Critic网络更新通过最小化损失函数训练Actor网络更新最大化动作价值QDDPG模型求解流程初始化参数随机化选择初始参数θ、ω,构建空经验集合D状态观测从状态序列初始化,输出状态参数φ(S)动作执行输入S得到动作输出值A,执行A与环境交互经验存储将状态信息组集存入经验回放集合D网络训练随机采样数据,更新Critic和Actor网络参数参数更新对目标网络参数进行软更新MADDPG多智能体算法原理多智能体深度确定性策略梯度(MADDPG)算法与DDPG相比,可实现多个强化学习智能体在博弈环境下的同步训练。通过中心化训练、去中心化执行的框架,能够实现多智能体变动环境下的同步训练。MADDPG算法的两大优势:一是训练阶段每个智能体的Actor网络根据局部信息做出决策;二是算法不要求输入环境变化信息,也不需要智能体间的联络关系,可同时适用于合作或非合作环境。MADDPG策略梯度与更新对于第i个智能体,其策略梯度为:对于确定性策略μα,其梯度公式为:集中式训练Critic网络使用全局信息进行集中学习分散式执行Actor网络仅用个体可获得的信息分开训练策略集合与环境适应为解决竞争环境下策略时效性短的问题,MADDPG提出策略集合思想。第i个智能体的策略μi由K个子策略的集合构成,在每个训练回合中仅使用一个子策略。为不同子策略构建不同存储器,优化策略集合的整体效果,提升对竞争对手策略变化的适应能力。MADDPG虚拟电厂博弈模型求解虚拟电厂购售电博弈问题是复杂的多主体系统问题,适用于多智能体强化学习方法求解。采用MADDPG算法分别求解不同成本间企业的非合作博弈和合作博弈模型。在该多智能体系统中有n家企业,每个智能体有一个策略网络。n个智能体采用联合策略与环境交互,对每个智能体的联合行为值函数进行评估,根据联合行为值函数对策略参数的梯度更新策略。多市场主体博弈机理多主体主要包括政府、传统火电企业、新能源发电企业、虚拟电厂运营商。政府结合可再生能源发展规划,科学合理地设计配额制涉及的制度参数和规则约束。政府设计配额目标、交易成本、罚金等制度参数,动态监管市场传统火电企业决策电能量市场和绿证市场参与策略新能源发电企业决策售电量和绿证供给,影响价格虚拟电厂运营商动态决策新能源与常规能源购买量及绿证购买量非合作博弈模型目标函数新能源发电企业收益通过决策售电量Qr和绿证交易量qr使收益πre最大:传统火电企业收益通过决策售电量Qf和绿证购买量qf使效益πf最大:虚拟电厂运营商购电成本:通过决策可再生能源购电量、常规能源购电量和绿证购买量使用电成本Cu最小化,同时考虑配额完成情况与罚金。市场出清模型约束条件绿证交易量约束绿证交易量不能超过绿证拥有量发电量约束新能源和火电企业售电量应在机组最大可发电量内绿证购买总量约束传统火电企业购买绿证总量不超过其售电量市场平衡约束绿证交易量与购买量等同,电能量出售量等于购买量配额数量约束考虑碳配额的购买、售出与消纳可再生电能的比例报价合理性约束报价约束在市场历史各月平均价的0.5~1.5倍算例仿真数据设置本节以某地区虚拟电厂运营商的实际购电需求为基础,对传统火电企业与新能源发电企业的各月可供电量进行模拟估计。非水可再生能源配额考核比例设定为14.8%。市场主体类型1月2月3月4月5月6月传统火电企业(GWh)391.7388.9389.4397.9413.5432.3新能源发电企业(GWh)38.738.656.149.952.944.8虚拟电厂运营商(GWh)333.7359.2394.2403.4382.2472.3未完成配额带来的间接性损失设定为绿证交易结果的1.5倍,交易成本为绿证价格的10%左右。不同算法收敛效果对比为验证MADDPG算法的有效性,进行了三万次博弈仿真模拟,与TD3算法及传统BPPSO算法进行对比。38.7%优于TD3算法MADDPG平均政策效益提升幅度65.7%优于BPPSO算法MADDPG平均政策效益提升幅度30000迭代次数完整训练周期的博弈仿真次数算法性能深度分析虽然TD3算法和BPPSO算法在运算收敛速度与波动性等方面较优于MADDPG算法,但由于其收敛仅为策略宏观方向上的收敛,无法实现对更为精细化的整体决策优化。MADDPG算法政策效益上限最高精细化决策优化多智能体博弈结果提供准确奖励值TD3算法探索机制优化收敛速度较快波动性较小BPPSO算法收敛速度最快波动性最小政策效益上限较低不同主体博弈收益变化在可再生能源消纳责任权重制度下,算法训练过程中虚拟电厂运营商成本和不同发电厂商的度电收益呈现显著变化趋势。10%虚拟电厂成本降低稳定在成本降低10%左右35%火电收益降低传统火电企业度电收益降低幅度10%收益差波动火电与新能源度电收益差在此范围波动市场主体收益均值与方差不同迭代次数下,传统火电企业、新能源发电企业、虚拟电厂运营商度电收益的均值和方差逐渐收敛。市场主体变量10000次20000次30000次收敛值传统火电企业μ(元/kWh)0.071170.066630.064480.069新能源发电企业μ(元/kWh)0.066260.068560.068580.065虚拟电厂运营商成本降低(%)-12.56-11.53-11.59-11新能源发电企业的收益均值略低于传统火电企业,但由于绿证政策的收益补贴,新能源发电企业的收益标准差为传统火电企业的4.5倍。月度交易结果分析采用最后5000次博弈训练中参数的平均值作为博弈的政策参数输入,分析多主体博弈后的月度决策情况。虚拟电厂运营商在一年中前5个月最高月度交易电量达到火电月度交易电量的14%,平均月度交易电量是后7个月的1.07倍。新能源发电企业在前5个月采取较低价格保证基本收益,后7个月将价格平均抬升2%。可再生能源消纳责任权重完成情况1初始状态完成率89.1%最大罚金265.82万元210000次迭代完成率96.347%最大罚金25.635万元320000次迭代完成率99.808%最大罚金1.652万元4最终收敛完成率100%最大罚金0元虚拟电厂运营商对消纳责任权重的贡献度从81.635%提升至94.666%,传统火电企业贡献度从18.365%降至5.334%。虚拟电厂动态定价模型基于价值函数的分布式资源弹性系数多时段电价动态调整下,需求侧分布式资源当前时段的用电行为会受到本时段和其他时段电价的综合影响。根据GeneralizedLeontief价值函数:分布式资源用电行为的自弹性系数和互弹性系数分别为:动态定价目标函数与约束电价引导的目的是挖掘分布式资源的响应潜力,同时减小电网的峰谷差。以计算周期内综合收益最大为目标函数:收益约束动态定价下单日收益不低于固定定价负荷约束用电总负荷保持不变费用约束用户总用电费用不大于固定服务费价格约束用电服务费在一定范围内变化动态定价算法收敛对比对比96点动态定价策略与峰谷平定价策略、小时定价策略在2500次迭代计算中的收敛情况与虚拟电厂整体收益变化。231万96点动态定价最高收益(元)1.18倍优于小时定价收益提升倍数1.31倍优于峰谷平定价收益提升倍数96点动态定价策略分析虚拟电厂运营商在96点动态定价策略下平均每天的价格分布呈现明显的时段特征。在开展需求响应交易的谷时段和峰时段,定价结果较靠近价格上下限。峰时段特征价格波动区间较低,波动度较小,平均值0.982元/kWh平时段特征价格波动范围较大,波动度较大,平均值0.461元/kWh谷时段特征价格波动区间较低,波动度较小,平均值0.022元/kWh电动汽车负荷变化分析在充电负荷总量不变的情况下,电动汽车负荷曲线在开展需求响应交易时段发生了较大变化。18%峰值削减动态定价策略下高峰期充电负荷降低幅度34.28%负荷转移至平时段动态定价策略下降低的负荷转移比例28.72%小时定价转移小时定价策略下负荷转移比例虚拟电厂收益来源分析虚拟电厂的增量收益主要来源为现货市场和需求响应市场。现货市场收益增量约为需求响应市场收益增量的2~3倍,但现货市场净收益占总体收益不足10%。价格策略峰时段(元)平时段(元)谷时段(元)总收益增量(元)峰谷平三段定价2,211,089-653,215-1,450,830107,044小时定价2,854,742-1,047,225-1,645,775161,74296点动态定价3,368,595-1,350,962-1,826,778190,856需求响应与现货市场收益对比虚拟电厂增量收益主要来源于需求响应,峰时段收益低于谷时段收益,其收益之比约为1:2。在96点动态定价策略下,虚拟电厂的总体收益提升10%。需求响应市场主要收益来源峰时段收益:谷时段收益=1:2现货市场辅助收益来源收益增量为需求响应的2

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于多智能体强化学习的虚拟电厂购售电博弈策略

文档简介

温馨提示

最新文档

评论

基于多智能体强化学习的虚拟电厂购售电博弈策略

文档简介

温馨提示

最新文档

评论

相关文档