CN113157379B 集群节点资源调度方法及装置 (株式会社日立制作所)_第1页
CN113157379B 集群节点资源调度方法及装置 (株式会社日立制作所)_第2页
CN113157379B 集群节点资源调度方法及装置 (株式会社日立制作所)_第3页
CN113157379B 集群节点资源调度方法及装置 (株式会社日立制作所)_第4页
CN113157379B 集群节点资源调度方法及装置 (株式会社日立制作所)_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明提供一种集群节点资源调度方法及图形处理单元GPU型号和机器学习模型;获取集理节点的资源使用信息和所述参数计算每个物2根据每个物理节点的资源使用信息和所述参数计算每个物理节点其中,所述根据每个物理节点的资源使用信息和所述参根据每个资源的权重值和每个资源的空闲数目计算得的每个物理节点的非空闲的GPU的内存空闲率,GPUusage为物理节点的非空闲的GPU的计算负载,其根据每个物理节点的分值排序以及容器的集群角色将容器调度到不根据每个容器的集群角色和进行调度时的时间戳确定容器对应3将空闲的GPU数量与需要的GPU数量比6.一种集群节点资源调度装置,其特征在于,用于调度处理模块,用于根据每个物理节点的资源使用信息和所述参数计算每个物计算子模块,用于根据每个资源的权重值和每个资源的空节点的非空闲的GPU的内存空闲率,GPUusage为物理节点的非空闲的GPU的计算负载,其根据每个物理节点的分值排序以及容器的集群角色将容器调度到不4第二标签子模块,用于根据每个容器的集群角色和进行调的GPU数量,则调整期望训练时长和训练数据集,直到空闲的GPU数量不少于需要的GPU数释放模块,用于在运行完成后获取用户应用的输出结果,并释放所5往无法承载复杂的计算任务,这样就需要并行计算集群中越来越多的资源执行相应任务,个GPU集群执行海量数据的深度学习任务中的计算需求,这就需要对集群资源进行高效的6[0020]Freegpu(i)=(freeGPUnum(i)+∑min(freeGPUmemoryratio,(1_GPU[0023]根据每个物理节点的分值排序以及容器的集群角色将容器调度到不同的物理节[0031]将空闲的GPU数量与需要的GPU数量比较,如果空闲的GPU数量少于需要的GPU数7[0049]Freegpu(i)=(freeGPUnum(i)+∑min(freeGPUmemoryratio,(1_GPU89[0088]步骤103:根据每个物理节点的资源使用信息和所述参数计算每个物理节点的分[0089]所述根据每个物理节点的资源使用信息和所述参数计算每个物理节点的分值具[0094]Freegpu(i)=(freeGPUnum(i)+∑min(freeGPUmemoryratio,(1_GPU[0098]SCORE(i)=W1*(Freegpu(i))+W2*(idleCPU(i))+W3*(freememory(i))+W4Role_T_No,其中,No为根据物理节点的分值对物理节点进行排序后为物理节点分配的索的物理节点索引nodeIndex,nodeIndex=keymodnum(NodeList(i)),之后可以获取该在一起作为该容器的标签Pod_Node_label=MacInt_Role_T_nodeIndeKubernetes调度程序将容器调度到物集群上运行用户应用,Kubernetes将各个集群角色的容器分配到指定的物理节点进行训GPU数量比较,如果空闲的GPU数量少于需要的GPU数量,则调整期望训练时长和训练数据[0119]其中,可以将物理节点GPU已使用内存值与总内存值进行比较获取每个物理节点照相同的算法获取空闲的GPU数目Free_GPUs,可以得到所有物理节点的空闲的GPU数目[0127]由于情感分析是一个GPU密集型的涉及到深度学习的应用,还需要计算出需要的用每小时可训练的数据规模除以GPU型号获取到的GPU计算能力计算出需要的GPU数目[0132]获取当前物理节点的Mac地址,然后进行10进制转换(例:48_89_E7_2A_60_11–[0133]Tensorflow分布式容器集群包含三个角色Role,分别为Master[0136]利用Num1,Role,T以及分配到的物理节点索引作为物理节点的标签Num1_Role_T_[0140]将PodNum与时间戳T组合作为当前容器key,然后用key对集群的各角色物理节点和Pod_index组合在一起作为此容器的标签Pod_label,一具体示例中,容器的标签为72137231429617_2_20191[0144]将用户所需容器调度完成后,启动分布式Tensorflow集群执行情感分析模型训物理节点的资源使用信息,并根据资源使用率将Spark容器合理调度到不同的物理节点来WordCount应用类型为GPU密集型应用。乘积相加求和得到每个物理节点的权重值作为其空闲资[0159]获取当前节点的Mac地址,然后进行10进制转换(例:48_89_E7_2A_60_11–[0163]利用Num1,Role,T以及分配到的物理节点索引作为物理节点的标签Num1_Role_T_和Pod_index组合在一起作为此容器的标签执行后的结果返回给用户。由Kubernetes在各物理节点停止运行此应用相关的所有容器,续的监控每台物理节点的资源使用信息,并根据资源使用率将Redis容器合理调度到不同乘积相加求和得到每个物理节点的权重值作为其空闲资[0185]获取当前物理节点的Mac地址,然后进行10进制转换(例:48_89_E7_2A_60_11–[0189]利用Num1,Role,T以及分配到的物理节点索引作为物理节点的标签Num1_Role_T_Pod_index组合在一起作为此容器的标签P将执行后的结果返回给用户。由Kubernetes在各物理节点停止运行此应用相关的所有容[0213]Freegpu(i)=(freeGPUnum(i)+∑min(freeGPUmemoryratio,(1_GPU[0243]可以理解,本发明实施例中的存储器54可以是易失性存储器或非易失性存储器,描述的装置和方法的存储器54旨在包括但不限于这些和任意其它适合号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列权重值和每个资源的空闲数目计算得的每个物理节点的[0258]Freegpu(i)=(freeGPUnum(i)+∑min(freeGPUmemoryratio,(1_GPU[0275]根据每个物理节点的分值排序以及容器的集群角色将容器调度到不同的物理节[0283]将空闲的GPU数量与需要的GPU数量比较,如果空闲的GPU数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论