CN114138456B 一种计算单元传输与负载的调控系统及调控方法 (南京蓝洋智能科技有限公司)_第1页
CN114138456B 一种计算单元传输与负载的调控系统及调控方法 (南京蓝洋智能科技有限公司)_第2页
CN114138456B 一种计算单元传输与负载的调控系统及调控方法 (南京蓝洋智能科技有限公司)_第3页
CN114138456B 一种计算单元传输与负载的调控系统及调控方法 (南京蓝洋智能科技有限公司)_第4页
CN114138456B 一种计算单元传输与负载的调控系统及调控方法 (南京蓝洋智能科技有限公司)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种计算单元传输与负载的调控系统及调本文提供了一种计算单元传输与负载的调述计算单元用于采集所述计算单元与所述上行负载率以及预先配置的计算单元调度规则确定2所述计算单元用于采集所述计算单元与所述上行设备所述PID控制器根据接收到的各个计算单元传输的传输占用率、负载率以及预先配置的计所述调度策略包括调整计算单元的计算精度、调整计算单元的工作参所述调度策略为调整计算单元的计算精度时,所述PID控制器用于通过目标计算单元所述调度策略为调整计算单元的工作参数时,所述PID控制器用于通过驱动目标计算所述上行设备中设置有云端管理接口模块,所述上行设备通过所述云所述上行设备用于通过所述云端管理接口模块将调整目标计算单元关联的计算子单所述云端管理平台用于根据接收到的目标计算单元关联的计算子单元的数量调整目采集各个计算单元与上行设备之间的传输占根据接收到的各个计算单元传输的传输占用率、负载率以及预先配根据各个计算单元的调度策略对各个计算单所述根据接收到的各个计算单元传输的传输占用率、负载率以及预根据接收到的各个计算单元传输的传输占用率和对应的负载率pp33.根据权利要求2所述计算单元传输与负载的4[0002]GPU的应用场景自GPU诞生就在不断演进,早期的GPU被用来加载和渲染2D图形计计算的微观过程看,数据由CPU通过PCIe协议传输给GPU,待GPU计算完后再将结果传输给[0005]GPU会面对多种应用场景,甚至会同时面对,不同应用场景的算法和数据量也不[0008]所述计算单元用于采集所述计算单元与所述上行设备之间的传输占用率和负载[0009]所述上行设备中设置有计算单元管理模块,所述计算单元管理模块中包括PID控5制器用于通过目标计算单元的本地软件对目标制器用于通过驱动目标计算单元的硬件驱动模块对目标[0015]所述上行设备用于通过所述云端管理接口模块将调整目标计算单元关联的计算[0016]所述云端管理平台用于根据接收到的目标计算单元关联的计算子单元的数量调[0024]将所述各个计算单元的偏差值输入至PID控制器中,确确定出各个计算单元的调ppd为微分调节系数。[0029]采用上述技术方案,本文所述一种计算单元传输与负载6[0037]图6示出了本文实施例中计算单元传输与负载的调控系统方法的另一步骤示意的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,[0041]传统的GPU资源利用率的控制方式是开环控制,系统根据任务队列将应用的数据7[0042]为了解决上述问题,本说明书实施例提供一种计算单元[0045]所述计算单元用于采集所述计算单元与所述上行设备之间的传输占用率和负载[0046]所述上行设备中设置有计算单元管理模块,所述计算单元管理模块中包括PID控[0047]可以理解为,上行设备可以是中央处理器(CPU,CentralProcessingUnit/网元设备。计算单元与上行设备之间可以通过传输协议实现数据交互,传输协议可以是确定出各个计算单元的调度策略,根据各个计算单元的调度策略对各个计算单元进行调以表征计算单元计算数据时所使用的算力与计算单元总算力[0049]具体的,PID控制器可以包括比例控制单元(Proportional)、积分控制单元8效的角度来选取被控对象。因此,可以通过调整计算单元的工作参数(工作频率或工作电器可以通过目标计算单元的本地软件对目标计算单元的计算器可以通过驱动目标计算单元的硬件驱动模块对目标计算单元的工作调整计算单元的工作参数时,硬件驱动模块可以基于PID控制器确定的调度策略调整计算[0061]所述上行设备用于通过所述云端管理接口模块将调整目标计算单元关联的计算[0062]所述云端管理平台用于根据接收到的目标计算单元关联的计算子单元的数量调9共同构成计算单元。其中,当计算单元是GPU时,计算子单元可以是vGPU(Virtualized[0064]示例地,如某数据中心有两个GPU集群(计算单元)I和II,为每个GPU集群分配了100个VGPU(计算子单元),并为每个VGPU分配了100TOPS(TeraOperationsPerSecond,集群I/场景IPCIe传输占用率%DLA负载率%频率精度VGPU数量实时算力负载较小25*100负载最大50*100集群II/场景IIPCIe传输占用率%DLA负载率%精度VGPU数量负载率(计算能力)仅为50此时GPU集群I的实时最大算力是理论最大值的50对于GPU[0068]设置在上行设备中的PID控制器检测到GPU集群I的PCIe传输占用率与DLA负载率管理接口模块向云管理平台发出GPU集群I可以释放5[0069]设置在上行设备中的PID控制器检测到GPU集群II的PCIe传输占用率与DLA负载率和DLA负载率最大,PID控制器可以通过云端管理接口模块向云管理平台发出增加100个集群II/场景IIPCIe占用率%DLA负载率%频率精度VGPU数量实时算力33.3*150的负载差值依然存在,此时可以通过调整计算单元的工作参数的方式调整GPU集群II中各集群II/场景IIPCIe占用率%DLA负载率%频率精度VGPU数量实时算力36.6*150[0075]超频10%理论上增加算力10在同样DLA负载率下单位时间处理的数据量也增[0076]通过调整计算单元关联的计算子单元的数量及调整计算单元的工作参数后,GPU集群II的PCIe传输占用率与DLA负载率的负载差值依然存在,P控制器和I控制器会持续有[0077]本说明书实施例通过PID控制器调整两个GPU集群中的各个计算子单元后,两个GPU集群最大负载时的状态变化与调控之前的数据对比请通过将计算单元与上行设备之间的传输资源占用率和负载率作为控制源,PID控制器可[0091]其中,PID控制器可以包括比例控制单元(Proportional)、积分控制单元对被控对象(计算单元)可以通过下述公式ppp为P控制器的比例调节系数。[0094]可以理解的是,P控制器可用于消除GPU当前的传输(占用[0095]I控制器是积分控制器,可用于消除计算单元在历史时间内由于资源利用不平衡源利用率在历史预设周期时间内明显高于传输资源占用率,I控制器将根据数据积压的程[0099]D控制器是微分控制器,D控制器可用于预判GPU传输与计算资源利用率偏差变化控制器对于被控对象(计算单元)可以通过下述计算单元的频率电压以及子计算单元数量的[0119]其中,占用时间包括数据实际[0120]其中,占用时间包括数据实际[0124]优选地,可以按照以下规则数学模型根据偏差值和偏差变化率生成对应的PID参Ki01<Ki02<Ki03,ε1>εppd为微分调节系数。的方式提高数据中心的计算速度。如,PCIe占用率与DLA负载率的差值小于预设偏差阈值[0140]计算机设备802还可以包括输入/输出模块810(I/O),其用于接收各种输入(经由802还可以包括一个或多个网络接口820,其用于经由一个或多个通信链路822与其他设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论