下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于GPU间通信技术的研究文献综述 深度学习模型通常都是使用GPU进行训练的,因为GPU具有比CPU更高的计算能力,而目前学术界和业界的主流深度学习模型通常都是由更多的参数量结合更大规模的训练数据来训练得到。这些模型由于训练和部署周期过长,无法满足实际需求,为了加快节奏,需要借助更多的GPU来进行并行训练,这就涉及到GPU之间的通信技术了REF_Ref72884225\r\h[11]。1.1GPU间直接通信 GPU直接通信(GPUDirect)技术使得多个GPU、存储设备都可以直接读写主机和设备内存,减少了很多的没有必要的CPU开销和内存拷贝,提高了通信速度,进而提升了性能REF_Ref73280224\r\h[12]。对于多设备训练来说,GPUDirect提供的最为重要的功能便是GPUDirectP2P(peer-to-peer)技术。GPUDirectP2P提出之前,在同一个PCIe节点内的两个GPU,如果其中一个GPU想要将计算结果或者数据传播到另一个GPU中,需要先将数据拷贝到CPU内存,CPU再将数据传送到另一个GPU之中,由此可以看出数据传输带宽会受到CPU的限制,而且额外的CPU流程控制时间开销和内存拷贝也使得GPU间总的通信代价很大。如图2.3所示GPUDirectP2P使得同一PCIe总线上的GPU之间可以直接进行内存访问和拷贝。图2.3GPUDirectP2P通信技术1.2NVLink 在GPUDirectP2P技术中,GPU之间通过PCIe总线相连,而目前服务器中使用较多的是PCIe3.0*16版的总线,最高单向带宽只有16GB/s,满足不了日益整张的模型参数数量,会逐渐成为多设备训练系统的瓶颈。为了提高GPU之间的通信带宽,充分发挥GPU的性能,NVIDIA近年来发布了一种新的架构——NVLinkREF_Ref73280315\r\h[13]。 NVLink1.0是与P100GPU一起发布的,一块GPU上可以集成4条NVLink总线,这样可以使得整个芯片的带宽的单向带宽达到80GB/s,相当于PCIe带宽的5倍。 NVLink2.0是与TeslaV100GPU一起发布的,速度相比1.0提高了25%,同时一块GPU上可以集成6条NVLink总线,总的单向带宽可以达到150GB/s,相当于PCIe带宽的10倍。1.3GPU拓扑结构 服务器上GPU拓扑结构对多设备训练的速度影响是很大的REF_Ref72884523\r\h[14],在编写多设备训练图2.4不同总线的有效带宽(GB/s)代码时要注意尽量避开那些带宽比较小的GPU互联通路,不同GPU互联通路的有效带宽如图2.4所示。图2.5双CPU四GPU拓扑连接图 不同机器上的GPU拓扑结构的不同会较大程度上影响多设备训练系统性能的优越。比如图2.5和图2.6列出了目前存在的两种服务器的GPU拓扑结构,前者GPU间通信会通过PCIe总线和QPI总线,带宽不会超过10GB/s,后者则经过NVSwitch支持任意两个GPU之间通过NVLink交换数据,带宽可以达到前者的十几倍。图2.6全NVLink拓扑连接图参考文献DenilM,ShakibiB,DinhL,etal.PredictingParametersinDeepLearning[J].UniversityofBritishColumbia,2013.ZhangZ,YinL,YPeng,etal.AQuickSurveyonLargeScaleDistributedDeepLearningSystems[C]//2018IEEE24thInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2018.朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(01):98-115.PangB,NijkampE,WuYN.DeepLearningWithTensorFlow:AReview[J].JournalofEducationalandBehavioralStatistics,2020,45.BarbourAD,ResnickSI.AdventuresinStochasticProcesses[J].JournaloftheAmericanStatisticalAssociation,1993,88(424):1474.SvozilD,KvasnickaVandPospichalJ,1997.Introductiontomulti-layerfeed-forwardneuralnetworks.Chemometricsandintelligentlaboratorysystems,39(1),pp.43-62.肖桐,朱靖波.机器翻译:基础与模型[M].
北京:
机械工业出版社,
2021:
317-320ZhangD,YinJ,ZhuXandZhangC,2018.Networkrepresentationlearning:Asurvey.IEEEtransactionsonBigData,6(1),pp.3-28.DevlinJ,ChangMW,LeeK,etal.2018.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805.XingC,WangD,LiuC.andLinY,2015.Normalizedwordembeddingandorthogonaltransformforbilingualwordtranslation.InProceedingsofthe2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(pp.1006-1011).SergeevA,BalsoMD.Horovod:fastandeasydistributeddeeplearninginTensorFlow[J].2018.LiA,SongSL,ChenJ,etal.2019.EvaluatingmodernGPUinterconnect:Pcie,nvlink,nv-sli,nvswitchandgpudirect.IEEETransactionsonParallelandDistributedSystems,31(1),pp.94-110.VerbraekenJ,WoltingM,KatzyJ,etal.2020.Asurveyondistributedmachinelearning.ACMComputingSurveys(CSUR),53(2),pp.1-33.WangG,VenkataramanS,PhanishayeeA,etal.Blink:FastandGenericCollectivesforDistributedML[J].2019.CoatesA,CarpenterB,CaseC,etal.largescaledistributeddeepnetworks.2011.JingK,XuJ,HeB.ASurveyonNeuralNetworkLanguageModels[J].2019.BengioY,DucharmeR,VincentP,etal.A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中共玉山县委社会工作部公开选调事业单位工作人员参考题库必考题
- 中建东孚2026届校园招聘参考题库附答案
- 昆仑集团2026届大学毕业生招聘备考题库附答案
- 2026年安徽省面向中央财经大学定向招录选调生参考题库必考题
- 2026年合肥一中包河分校春季教师招聘2名备考题库附答案
- 2026吉安市永丰县公开选调32名事业单位工作人员备考题库附答案
- 2025重庆铜梁区福果镇人民政府招聘参考题库附答案
- 绝缘资料化工资料EPDMCPE并用胶料的阻燃性与电绝缘性研究模板
- 2025江苏常州经济开发区人民检察院招聘3名司法警察辅助人员备考题库含答案详解
- 2025年江西农商银行员工招聘备考题库及参考答案详解1套
- 风电场培训安全课件
- 工程质量管理复盘总结
- (完整版)房屋拆除施工方案
- 供水管道抢修知识培训课件
- 广东物业管理办法
- 业务规划方案(3篇)
- 大客户开发与管理课件
- 上海物业消防改造方案
- 供应商信息安全管理制度
- 2025年农业机械化智能化技术在农业防灾减灾中的应用报告
- 发展与安全统筹策略研究
评论
0/150
提交评论