版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习的学习思想是让智能体不断进行“试错”,在试错的过程中与环境状态S智能体反馈信号r智能体环境S'智能体首先获取初试环境状态信息S,然后选取一个行动a进行动作,环境接收到该动作后,环境状态S转变为下一个状态S’同时对智能体一个反馈信号强化学习有很多种学习方法,常见的包括Q-Learning,PolicyGradients,Model-BasedRL两种类型。在Model-FreeRL中,智能体根据环境的反馈依次行动。而在Model-BasedRL中智能体可以通过想象来进行自己的下一步行动,并于价值的强化学习,基于概率的算法主要为PolicyGradients而基于价值的算法主要为Q-Learning和Sarsa。除此以外,强化学习还可以分为回合更新和单步更新这两种类型。Q学习是强化学习的一种学习方法,是Watkins在1989年所提出的。Q学习是一种离策略的学习算法,它是目前非常有效的模型无关强化学习算法31]。Q学习的核心思想是通过不断迭代计算状态动作值函数以使得该函数获得最大期望,并且记录获得最大期望的策略。在智能体学习过程中,每一次迭代需要对所有可能的行动进行期望评估,选择最大的期望进行动作,确保学习最终得以收敛。Q学习算法的关键在于迭代计算,其迭代计算公式可以表示为:Q(st,at)=Q(st,at)+α(r(st,at)+ymaxQ(St+1,at+1)-上式中,st为目前状态;St+1为下一时刻状态;r(st,at)为在状态s1采取行动a转移到状态St+1时智能体得到的收益;γ为折扣因子满足0<γ<1;α为学习因子满足0<α<1。γ为折扣因子,指对未来收益的衰减值,折扣因子越接近于1,智能体对未来收益越敏感。a为学习因子,决定了这次的动作的误差有多少是要被学习。较大的α值能够使算法迅速收敛,较小的α值能提供更多的探索空间,使Q学习的收敛结果更加稳定,学习率较低时智能体会探索更多步数,也使得探索时间增加。在Q学习中,智能体通过不断探索未来的状态空间,最终得到一个最佳的Q值,但Q学习也存在一个弊端即在探索过程中容易出现局部最优情形得出错误针对Q学习这一特性,我们采用文献32中的实例进行数据分析。对于热电联产系统,我们主要从用户的热需求和电需求两个角度对能源系统进行运行优化。用户的热需求部分主要来源于热电联产产生的热量和辅助锅炉的热量,用户的电需求一方面来源于电网购电,另一方面来源于热电联产产生的电量。满足要求的能源系统如图3-2所示:电力电网辅助锅炉其中热电联产设备的发电效率nw=0.3,热电联产设备发电装机容量为160KW。辅助锅炉发热效率nAB=0.8,辅助锅炉发热装机容量为160KW。电价欧元电价欧元时间/小时为方便计算分析,该地区燃气的价格为40欧元/(MW·h)且恒定不变。我们将每天24小时设定为强化学习中24个不同的状态,每个不同时间段内,该时间段内用户热需求和电需求的平均值视为用户在该状态下的热需求和电需优化目标Of可以如下表示:综合能源系统的能耗约束条件如下式所示:各设备运行约束条件如下所示:将热电联产满足热需求的比例划分为0、0.2、0.4、0.6、0.8、1.0这六个比例,每一个比例对应着Q学习智能体的一个动作,通过不断试错学习,从而确定满足热需求时,热电联产投入的比例。热电联产满足用户热需求时,热电联产的热负荷可能大于其最大功率。因此我们对算法进行改进,本算法将按照热电联产满足用户热需求的比例与热电联产最大功率与用户热需求的比值进行对比,取两者当中的较小值作为热电联产的出力,该方法可以避免分配负荷超过额定负荷的情形。我们将智能体的贪婪因子设为0.9,意思是智能体在90%的情况下会选择期望收益最大的动作完成,在10%的情况下会进行任意选择。贪婪因子设在0.9可以使智能体快速高效学习到最优决策能力,也使智能体有10%的机会进行随机探索,避免出现局部最优解进而规避正确结果。智能体折扣因子的取值范围在0和1之间,折扣因子越大,智能体越注重当前收益,我们将折扣因子设为0.9比较合适。智能体学习因子α的取值范围在0和1之间,学习率越大,智能体越重视之前学习的成果,计算结果也会更快收敛。应用python进行调试发现,当学习因子设为0.1时,智能体需探索1000步以上才能获得较为满意的收敛结果。当学习因子设为0.5时,智能体在500步时便可以完成收敛。对最终结果进行比较,1000步收敛和500步收敛最终所得结果相差不大。出于最优考虑,本算法中的学习因子设为0.5。确定相关参数后,热电联产系统的优化算法流程如下表所示:表3-1探索步数、建立初始化逐时电价、燃料价格、电需求、热需求表格;2.建立初始化的全零Q-table1.将状态s初始化5.按照奖励R为对应状态下采取动作所得运行成本的相反数得到智能体的奖励6.按照式3-1迭代更新Q-table7.状态值加1后作为下一状态8.不断重复步骤4至步骤7,直至结果收敛,得到收敛的Q-table算法流程如图3-6所示求R(S,3),热电联产供热比是否输出A计算电网供电比例Ei是输出Ei否备天然气消耗量,R:期望收益R=-(Ei*R(S,O)/1000+FCHP*R(S,1)/1000+FAB*R(S,1)/1000)最最佳运行策略(KW)根据上述算法,通过python进行计算后可知,智能体在500步后收敛,计算后每日运行成本为302.18欧元,运行优化方案如图3-7所示:由Q学习所得到的优化运行方案可得,在0-6小时期间,用户无热需求且电价较低,主要由外电网供电满足用户电需求。在6小时后,用户电需求热需求增1.3基于Q学习的冷热电三联供综合能源系统运行优化优化目标Of同式3-2。综合能源系统的能耗约束条件同式3-3,3-4。各设备运行约束条件同式3-5,3-6。Q学习过程中,相关参数设置情况不变,即折扣因子设为0.9,学习因子设为0.5,冷需求时间/小时图3-8冷需求逐时表确定相关参数后,冷热电三联供综合能源系统的具体优化算法流程如图3-9所示:是A≥400*0.4/(R(S,3)+(1-是是否否其中E₁:电网供电比例,FcHP:热电联产设备天然气消耗量,FAB:辅助锅炉设备天然气消耗量,R:期望收益Ei=R(S,2)-A*(R(S,3)+(1-B)*(R(S,4))/0.7)*0.3/0.4+B*(FCHP=A*(R(S,3)+(1-B)*(R(S,4)/0.7)FAB=(1-A)*(R(S,3)+(1-B)*(R(S,4)/0.7)/0.8R=-(Ei*R(S,O)/1000+FCHp*R(S,1)/1000+FAB*R(S,1)/1000)根据上述算法,通过python进行计算后可知,智能体在500步后收敛,计算后每日运行成本为386.05欧元,运行优化方案如图3-10所示:最佳运行策略(K最佳运行策略(KW)由Q学习所得到的优化运行方案可得,在0-6小时期间,用户无热需求且电价较低,主要由外电网供电满足用户电需求,此时用户也无冷需求。在6小时至13小时期间,用户冷需求不断增加并于13小时达到峰值,在14小时至20小时期间,用户冷需求不断下降并于20小时时冷需求归于零,在此期间用户热需求,电需求持续波动,电网购电价格发生波动,结合用户冷需求、电需求、热需求、电网购电价格,燃气价格可以计算出不同设备的功率消耗,进而得到最优运行方案。在21-24小时期间,用户无热需求,冷需求且电价有所回落,此时主要由外电网供电满足用户电需求。通过该算法可以看出,Q学习在综合能源系统运行优化上起到了很好的作用,智能体在于环境不断交互的过程中不断学习,最终获得良好的决策能力,显著地降低了综合能源系统的运行成本。但在这两个优化案例中我们发现,冷热电三联供能源系统相较于热电联产能源系统约束条件更多,优化算法更为复杂。并且在程序实际运行中,冷热电三联供能源系统的优化出现了多种不同的优化方案,最终优化得到运行成本也相差较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东佛山三水区华侨中学招聘合同教师3人备考题库附参考答案详解(考试直接用)
- 静脉输液工具的合理选择
- 水泥店产品质量管控不力问题排查整改报告
- 2026年房地产经纪综合能力考试题含答案
- 2026天津华北地质勘查局及所属事业单位招聘高层次人才8人备考题库附答案详解(综合卷)
- 2026中国人民财产保险股份有限公司平凉市分公司招聘备考题库附参考答案详解(b卷)
- 2026年公共治理与社会服务能力测试试题及答案
- 2026岚图汽车制造领域招聘备考题库附答案详解(b卷)
- 2026四川雅安经济技术开发区招聘汇达服务公司副总经理1人备考题库含答案详解(培优a卷)
- 2026新疆双河新赛生物蛋白科技有限公司招聘1人备考题库附答案详解(完整版)
- 头痛病的中医护理常规
- 资金技术入股合伙协议书
- 手术室压疮研究新进展及成果汇报
- 2025年陕西省中考英语试题卷(含答案及解析)
- T/GMIAAC 002-20232型糖尿病强化管理、逆转及缓解诊疗标准与技术规范
- 科学教师培训课件
- 2024生物样本库中生物样本处理方法的确认和验证要求
- 国产电视剧报审表
- 农业技术推广指导-农业推广的概念与基本原理
- 墓碑上的100个药方
- TCSAE 153-2020 汽车高寒地区环境适应性试验方法
评论
0/150
提交评论