版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
enant)10GPU
提交TF
20GPU
100GPU
提交MXNetGPU本地GPU本地pythontrain.py--batch_size=256--GPU"jobName":"dataDir":"/tmp/data",
"taskRoles":"taskNumber":"taskNumber":"cpuNumber":"memoryMB":"gpuNumber":
"pythontrain.py--batch_size=256
Docker
Docker
DockerunionARGRUNapt-getupdate&&apt-getinstall-y--no-install-recommendsRUNcurl-o/opt/conda/bin/condainstall-y-cpytorchmagma-cuda100&&WORKDIRCOPY.WORKDIR/workspaceRUNchmod-Ra+w.PyorchDockerImagefilefilefilefilefilefile filefile file file fileImagelayerImagelayerImagebaseAUFSDLDLDLDLDLDLDLDLLinuxcontainersofoperatingsystem-virtualizationfortheLinuxoperatingcgroup,
RootPIDPIDPIDNamespacepid2(pidpid4(pidpid5(pidpid3(pidpid1(pidblack:Realblue:getid()togetthis控制组(Control控制计数CGOUPCGOUPCGOUPCGOUPCGOUPCGOUPCGOUPblockConfineprocessestoprocessorandmemorynodeForshowingprivateview(namespace)ofsystemtoprocessesinShareCPUbandwidthbetweenTheCPUAccounting(cpuacct)subsystemgeneratesautomaticreportsonCPUresourcesThememorycontrollersupportsreportingandlimitingofmemory,kernelmemory,andswapusedbyThissupportscontrollingwhichprocessesmaycreate(mknod)devicesaswellasopenthemforreadingorwriting.TheRDMAcontrollerpermitslimitingtheuseofRDMA/IB-resourcesperTheblkiocgroupcontrolsandlimitsaccesstospecifiedblockdevicesbyapplyingIOcontrolGPUNvidiaGPUNvidiaMPSNvidiaDocker#Testnvidia-smiwiththelatestofficialCUDA$dockerrun--gpusallnvidia/cuda:9.0-basenvidia-#StartaGPUenabledcontainerontwo$dockerrun--gpus2nvidia/cuda:9.0-basenvidia-#StartingaGPUenabledcontaineronspecific$dockerrun--gpus'"device=1,2"'nvidia/cuda:9.0-basenvidia-(GangDRF(DominantResourceFairness(Capacity利用率(UtilizationJobA JobB 目标:HighThroughput,HighUtilizationandShortResponseTimes
Node Node 无法启动,无法启动,JobA(Gang
JobA JobB
JobCAschedulingalgorithmforparallelsystemsthatschedulesrelatedthreadsorprocessestorunsimultaneouslyondifferentprocessors.
Node NodeGPUClusterGPUClusterJobJob14GB14GBJob22GB32GBCPU,Hostmemoryetc.),并且需要调度GPU及GPUmemoryClusterResources:[10GPU,20GBRAMDominantResourceFairness(smallestdominant定主导资源(dominantresource)基于最大最小公平(max-minfairness)的针对多资源类型(e.gGPU,CPU)的调
JobQueueJob14GB1QueueJob14GB14GBJob22GB32GBTotalMemory4+4=8GBMemoryShare=8/20=0.4SHARE=0.4[DominantresourceisJobTotalGPU2+3=5GPUGPUShare=5/10=TotalMemory2+2=4GBMemoryShare=4/20=0.2SHARE=0.5[DominantresourceisClusterResources:[10GPU,20GBJob1hashigherprioritythanJob2asJob1share0.4islessthanJob2share设计目标:Utilization,Fairnessand
UsedCapacityFreeUsedCapacityFreeCapacityUsedCapacityNofreeresources,jobcannotbe(CapacityMinCapacityMaxUserUserLimitFactor=VirtualQueueUserQueueUserLimitFactor=MinCapacityMaxCapacityUserLimitFactor:控制单用户的可以消耗的QueueQueueUserLimitFactor=MinCapacityMaxCapacity虚拟集群(Virtual8-GPU8-GPU
8-GPU
App2时分复用(Timeslicing)与超额订阅迁移Gandiva(early(cluster(cluster-levelTwoReactiveReactive作业到达(arrivals(departures),NodeswithsameNodeswith“noNodeswith“differentOversubscription:suspend-onsame“affinity”JobIntrospective早反馈(EarlytimeGPU软件栈对GPU状态备份,资源隔离做的不够完善,无法很好的支持时分复用(timeslicing),装箱PAIPAIPAIPAIPAIBigPAIDL利用K8s可扩展DeepManagedbyManagedbyManagedby模块化高效:细粒度GPU调度,鲁棒性云原生
VS(Code),
KubernetesKubernetesClusterDocker/Ope
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光伏板支架安装协议书
- 公司借钱给法人的协议书
- 装修防水施工技术协议书
- 肾结石的预防与康复指南
- 中耳炎术后注意事项及护理指导
- 糖尿病引发的精神疾病及其管理
- 2026福建漳州港务集团有限公司应届毕业生春季招聘6人备考题库及参考答案详解(考试直接用)
- 2026国家统计局兵团第十四师调查队招聘1人备考题库(新疆)及一套完整答案详解
- 2026福建医科大学附属第一医院招聘劳务派遣人员2人备考题库(一)及参考答案详解(完整版)
- 2026湖南郴州市第一人民医院招聘58人备考题库附答案详解(巩固)
- JJF 1986-2022 差压式气密检漏仪校准规范
- JJF 2034-2023微生物鉴定与药敏分析系统校准规范
- 《公共政策学-政策分析的理论方法和技术》重点解析讲述
- python课件第三章基本数据类型:数字类型及math库的应用
- 2023年毛概题库连答案
- GB/T 14056.2-2011表面污染测定第2部分:氚表面污染
- CB/T 615-1995船底吸入格栅
- 资本经营课件
- 马工程西方经济学(第二版)教学课件-8
- 广东珠海唐家古镇保护与发展战略及营销策略167166849
- (完整)普洱茶介绍ppt
评论
0/150
提交评论