版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于深度强化学习的拥塞控制方法及本发明公开了一种基于深度强化学习的拥果选出模型损失函数值最小和奖励函数值最大2∈的概率选取当前状态下Q值最大的动作argmaxaQ(φ(st判断当前回合的步是否结束,如果当前回合3模型生成模块,用于从生成的网络状态数据中选取目标拥塞控制模块,用于根据奖励函数的值和损失函数的4利和提高体验质量的同时也对网络性能提出了新的要求,尤其是在网络的拥塞控制方面,需要根据网络的超时重传的分组数、平均分组时延以及被丢弃的分组的百分数等网络指决或者至少部分解决现有技术中的方法存[0008]为了解决上述技术问题,本发明提供了一种基于深度强化学习5[0030]基于同样的发明构思本发明第二方面提供了一种基于深度强化学习的拥塞控制6[0035]本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效口大小)等来对拥塞控制模型进行训练,根据训练结果选出模型损失函数值最小和奖励函7[0050]本实施例提供了一种基于深度强化学习的拥塞控制方法,请参见图1,该方法包网络的参数。然后初始化一个回合,设定一个吞吐量预置bad-tput和设定一个奖励阈值bad-reward以及一个回合的最大步数值m8[0067]在参数更新时,需要根据智能体(Agent)收到的奖励函数的反馈,调整Q网络和t分别表示t时刻的状态以及采取的动作,rt为获取的奖励函数值,Max为获取最大的Q[0079]具体来说,判断当前回合的步是否结束,如果当reward<bad-reward并且tput<9reward,state的更新就是观察步骤S1中的网络链路的网络时延(RTT),传送率(deliveryrate),发送率(sendingrate)和拥塞窗口大小(congestionwindow,cwnd)网络状态,平后的数据输入到第一层全连接层,通过激活函数ReLU处理输出后进入第二层全连接层,而第二层全连接层的输出就是本发明需要的不同a[0092]其中duration代表当前数据流开启的总时长,delivered和last_delivered代表验设计一个对应着本发明设置的五个action的actionlist:["+0.0","-100.0","+经网络的输出得到当前state下各个action对应的Q值,通过选择Q值最大的action进而得需要更新state和reward,state的更新就是观察网络链路的四个参数(上文提及的网络时[0097]获取当前的网络状态state,根据网络的状态state得到action。然后执行这个[0098]请参见图3,为初始化运行环境流程图。传入神经网络的state为RTT,传送率[0100]其中curr_time_ms表示sender当前收到ack的时间,[0102]其中delivered和ack.delivered分别表示packet的传输数和ack的传输数,delivered_time和ack.delivered_time分别代表pmini-batch,即判断是否达到最小学习数据,它是根据当前学习的步数learn-step-counter和设定的学习步数learn-start以及训练的频数train-frequency,如果learn-step-counter>learn-start并且lear更新target-q的频数target_q_update_step,如果learn_step_counter%target_q_[0110]基于同样的发明构思,本实施例提供了一种基于深度强化学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养殖环境益生菌喷洒合同
- 养老金融产品配置合同
- 2025年AI审核与版权追踪技术协同应用
- 2026农业废弃物利用行业转化供需分析及规模扩大规划研究分析
- 2026农业产业链现状分析及未来发展趋势研究深度分析报告
- 2025年AI驱动的产品设计用户行为预测
- 2025年AI情绪调节设备行业技术白皮书解读
- 陕西省定边县2026届中考三模英语试题含答案
- 2026年监理工程师进度控制与提升试题及答案
- 山东省临沂市临沂市蒙阴县达标名校2026届中考语文适应性模拟试题含解析
- 阿里巴巴校园招聘素质测评题
- (T8联考河北版)2026届高三4月第二次质量检测政治试卷(含答案解析)
- 智慧树知到《巴蜀文化(四川大学)》章节测试附案
- 2025年代码审计服务合同
- GB/T 33855-2026母婴保健服务机构通用要求
- 【《某高速公路隧道二次衬砌配筋验算计算案例》1400字】
- 中冶赛迪招聘笔试题库2026
- 2025年新疆喀什地区“才聚喀什·智惠丝路”秋季招才引智707人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 小学美术单元化教学中的课堂管理策略探究教学研究课题报告
- 车间员工计件薪酬方案范本
- 机房设备安装调试方案
评论
0/150
提交评论