CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）

上传人：1*** IP属地：山西上传时间：2026-03-24 格式：DOCX 页数：32 大小：1.82MB 积分：10.2 举报 版权申诉

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）_第2页

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）_第3页

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）_第4页

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）_第5页

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本发明公开一种面向GPU集群的动态资源调将分析已运行任务情况，决定是否进行资源迁移：调度器执行调度算法选择新的任务至GPU集和用户截至完成时间，根据GPU集群负载情况和任务运行情况可实时动态调度GPU工作，有效减间保证率并有效地提高了GPU集群工作效率和2步骤(1)、基于分布式机器学习的Ring-Allreduce通信架构下的DNN模型迭代特征和stepGPU由资源方案上每个节点的cused累加得到，cused表示训练任务在单个节点上被(1.4)通过将DNN模型放置在单个GPU设备上进行若干批次的迭代并记录对应的运行时间，由于不涉及多设备通信，因此该运行时间仅包含将单个GPU设备上的计算时间表示如步骤(2)、基于资源方案使用的资源数量、任务运行3(2.2)当资源方案所持有的GPU设备都位于同一节点上时，其带宽速度为GPU设备之间其中，不等式前半部分和后半部分分别为DNN模型在多个节点和单个节点上训练一个(2.3)为衡量任务在不同资源方案下的性能，并在满足截止时间需求的多个资源方案中选择运行效率最高的资源方案，充分发挥资源性能，将资源-性能模型的性能公式定义为等待队列中的每个任务基于集群空闲资源和2.如权利要求1所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(1)中所述Ring-Allreduce通信架构包括互相通信的GPU集群的若干节点，每个节点中包括多个CPU和GPU，同一个节点上的GPU设备借助高速串行计算机扩展总线标准PCIe和快速通道互3.如权利要求1所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(3)中4根据式(1)和式(8)计算ls和lm中Rt的Trun和Tend，并根据式(11)过滤部分低效率的资源(3.3)根据式(12)得到ls中性能pn.三0且的值为最大时的资源方案Rt作为单节点预期方案R",以及根据式(12)得到ls中Tend>Tdl且Tend的值为最小时的资源方案Rt作为单节点根据式(12)得到从lm中性能且pn,的值为最大时的资源方案Rt作为跨节点预期方案R",以及根据式(12)得到lm中Tend>Tdl且Tend的值为最小时的资源方案Rt作为跨节点非预期方案注意其中和可能不存在；源方案如果不满足但存在，则最优资源方案R=Re;如果不满足且仍不4.如权利要求3所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(4)具Node(s,min(cfree,NGPU))表示Node(s,Nused)表示GPU集群中的序号为s并且拥有min(cfree,5.如权利要求4所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(5)具56.如权利要求5所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(6)具7.如权利要求6所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(6.2)(6.2.3)初始化预期任务队列Qexp和非预期任务队列网,如果任务的运行结束时间Tend中的任务t根据Tdl-Tend的值升序降序，此时排在队头理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-7任6习技术利用多个GPU设备对深度神经网络(DeepNeuralNetworks,DNN)模型进行并行训从而达到业务场景的复杂程度提高，此时需要结构更复杂并且层数越来越多的DNN模型来[0003]因此学术界和工业界需要通过分布式并行计算的方式构在GPU集群上使用多个GPU设备同时对DNN模型进行训练从而加快训练过程。现在的主流的[0004]多数企业和高校通常会采购多个GPU设备组建一个中小规模的GPU集群来运行多[0005]许多专家和学者在GPU集群的资源调度上针对不同的优化指标进行了研究，现有相关工作主要从减少任务完成时间和提升GPU集群性能指标两方面进行资源调度过程。现[0006]本发明的一个目的是针对异构带宽环境下具有截止时间7[0013]步骤(5)、在动态资源调度算法每次执行任务调度流程前，将分析已运行任务情[0015]本发明的另一个目的是提供一种计算机可读存储介质，[0021]4)使用资源-性能模型对可用资源方案进行筛选，保留可进行有效分布式训练的[0022]与现有技术相比，本发明综合考虑了任务自身的完成时8[0038]所述Ring-Allreduce通信架构包括互相通信的GPU集群的若干节点，每个节点中包括多个CPU和GPU，同一个节点上的GPU设备借助高速串行计算机扩展总线标准(PCIe)和快速通道互联(QPI)进行通信(其中GPU和GPU间采用PCIe通信，GPU和CPU间采用PCIe通信，CPU和CPU间采用QPI通信)，GPU集群中的节点与节点之间则借助无线宽带技术[0048](1.4)通过将DNN模型放置在单个GPU9[0064](2.2)当资源方案所持有的GPU设备都位于式(2)和式(3)代入式(1)中，并要求多机分布式训练的时间比单机训练的运行时间要来得[0066]其中，不等式前半部分和后半部分分别为DNN模型在多个节点和单个节点上训练[0069](2.3)为衡量任务在不同资源方案下的[0073]为等待队列中的每个任务基于集群空闲资源和资源布局[0076]根据式(1)和式(8)计算ls和lm中Rt的Trun和Tend，并根据式(11)过滤部分低效率的[0077](3.3)根据式(12)得到ls中性能且pn的值为最大时的资源方案Rt作为单节点预期方案R",以及根据式(12)得到ls中Tend＞Tdl且Tend的值为最小时的资源方案Rt作为[0078]根据式(12)得到从lm中性能pn三0且的值为最大时的资源方案Rt作为跨节点预期方案R",以及根据式(12)得到lm中Tend＞Tdl且Tend的值为最小时的资源方案Rt作为跨[0079](3.4)判断是否满足跨节点预期方案R?"存在且GPU集群存在0<cfree<NGPU的资源节此时最优资源方案Ri=R";如果不满足但存在，则最优资源方案如果不满足此时没有预期方案和R?"可供选择，判断是否满足跨节点非预期方案存在且GPU集群存在0<cfree<NGPU的资源节部资源并在Tdl内结束运行，此时最优资源方案如果不满足，则最优资源方案[0082](4.2)如果步骤(3)最优资源方案Ri为单节点预期方案则遍历资源列表R，找为s并且拥有Nused个使用中GPU的节点对对象Node(s,cfree)，从该资源节点对象Node(s,cfr历；Node(s,min(cfree,NGPU))表示Node(s,Nused)表示GPU集群中的序号为s并且拥有min[0084]步骤(5)、在动态资源调度算法每次执行任务调度流程前，将分析已运行任务情[0092](6.2.3)初始化预期任务队列Qexp和非预期任务队列网,如果任务的运行结束时列Qexp中的任务t根据Tdl-Tend的值升序降序，此时排在队头的任务t在资源方案R:下的Tend[0098](2.1)EarliestDea[0102](2.5)本发明面向GPU集群的动态资源调度方法

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）

文档简介

温馨提示

最新文档

评论

CN114647515B 一种面向gpu集群的动态资源调度方法 （杭州电子科技大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）