CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）

上传人：1*** IP属地：山西上传时间：2026-05-05 格式：DOCX 页数：26 大小：680.98KB 积分：9.6 举报 版权申诉

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）_第2页

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）_第3页

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）_第4页

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）_第5页

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于深度强化学习的拥塞控制方法及本发明公开了一种基于深度强化学习的拥果选出模型损失函数值最小和奖励函数值最大2∈的概率选取当前状态下Q值最大的动作argmaxaQ(φ(st判断当前回合的步是否结束，如果当前回合3模型生成模块，用于从生成的网络状态数据中选取目标拥塞控制模块，用于根据奖励函数的值和损失函数的4利和提高体验质量的同时也对网络性能提出了新的要求，尤其是在网络的拥塞控制方面，需要根据网络的超时重传的分组数、平均分组时延以及被丢弃的分组的百分数等网络指决或者至少部分解决现有技术中的方法存[0008]为了解决上述技术问题，本发明提供了一种基于深度强化学习5[0030]基于同样的发明构思本发明第二方面提供了一种基于深度强化学习的拥塞控制6[0035]本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效口大小)等来对拥塞控制模型进行训练，根据训练结果选出模型损失函数值最小和奖励函7[0050]本实施例提供了一种基于深度强化学习的拥塞控制方法，请参见图1，该方法包网络的参数。然后初始化一个回合，设定一个吞吐量预置bad-tput和设定一个奖励阈值bad-reward以及一个回合的最大步数值m8[0067]在参数更新时，需要根据智能体(Agent)收到的奖励函数的反馈，调整Q网络和t分别表示t时刻的状态以及采取的动作，rt为获取的奖励函数值，Max为获取最大的Q[0079]具体来说，判断当前回合的步是否结束，如果当reward<bad-reward并且tput<9reward，state的更新就是观察步骤S1中的网络链路的网络时延(RTT)，传送率(deliveryrate)，发送率(sendingrate)和拥塞窗口大小(congestionwindow,cwnd)网络状态，平后的数据输入到第一层全连接层，通过激活函数ReLU处理输出后进入第二层全连接层，而第二层全连接层的输出就是本发明需要的不同a[0092]其中duration代表当前数据流开启的总时长，delivered和last_delivered代表验设计一个对应着本发明设置的五个action的actionlist：["+0.0","-100.0","+经网络的输出得到当前state下各个action对应的Q值，通过选择Q值最大的action进而得需要更新state和reward，state的更新就是观察网络链路的四个参数(上文提及的网络时[0097]获取当前的网络状态state，根据网络的状态state得到action。然后执行这个[0098]请参见图3，为初始化运行环境流程图。传入神经网络的state为RTT，传送率[0100]其中curr_time_ms表示sender当前收到ack的时间，[0102]其中delivered和ack.delivered分别表示packet的传输数和ack的传输数，delivered_time和ack.delivered_time分别代表pmini-batch，即判断是否达到最小学习数据，它是根据当前学习的步数learn-step-counter和设定的学习步数learn-start以及训练的频数train-frequency，如果learn-step-counter>learn-start并且lear更新target-q的频数target_q_update_step，如果learn_step_counter％target_q_[0110]基于同样的发明构思，本实施例提供了一种基于深度强化学

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）

文档简介

温馨提示

最新文档

评论

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统 （武汉大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN110581808A 一种基于深度强化学习的拥塞控制方法及系统（武汉大学）