破局数据中心多节点扩展挑战！NVIDIA提出三类参考架构

上传人：f*** IP属地：山东上传时间：2022-12-07 格式：DOCX 页数：5 大小：18.63KB 积分：15 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

-5-破局数据中心多节点扩展挑战！NVIDIA提出三类参考架构人工智能（AI）和深度学习正成为越来越多企业的核心竞争力。随着智能化应用的高速普及，许多传统数据中心都面临着众多难题。单个GPU或服务器难以做到快速访问大量计算资源，但要跨多个节点扩展应用程序，又面临存储、网络等不同系统组件带来的挑战。

人工智能（AI）和深度学习正成为越来越多企业的核心竞争力。随着智能化应用的高速普及，许多传统数据中心都面临着众多难题。单个GPU或服务器难以做到快速访问大量计算资源，但要跨多个节点扩展应用程序，又面临存储、网络等不同系统组件带来的挑战。

对此，NVIDIA打造了超强深度学习训练性能的DGX-1AI超级计算机，融合多种有助于多节点扩展的系统技术，并基于实践阅历，总结出构建多节点系统的建议和多种参考架构设计方案，可帮助IT管理员以更高的成本效益构建高性能多节点系统。

本期的智能内参，我们推举《基于NVIDIADGX-1构建多节点环境的留意事项》白皮书，不仅解析提高多节点可扩展性面临的瓶颈，还针对不同的节点数量需求，提出三种在多节点环境中高效配置DGX-1架构的解决方案。如需查阅此白皮书，可直接点击左下方的"阅读原文'下载，还可扫描文末二维码申请测试NVIDIADGX-1AI超级计算机。

以下为智能内参整理呈现的干货：

影响多节点可扩展性的关键瓶颈

要实现良好可扩展性，需确保应用程序在多节点上协调运行多个进程，而任何系统组件存在的瓶颈问题都会影响其有效扩展的力量，这给传统数据中心带来重重困难。

比如在通信方面，假如向节点添加更多GPU，应用程序线程间的通信成本会导致训练性能明显下降。在标准服务器中，GPU间的通信受PCIe总线限制，不同服务器上的GPU通信又受典型数据中心网络以太网的影响。对通信模式作出不明确假定也会导致相同和不同系统上的GPU间消失不必要的流量。

海量数据处理和管理对读取缓存也提出了新的需求，要求有巨大读取带宽通路，同时能在训练期间多次重复访问相同数据。

软件也是制约系统可扩展性的一个关键要素。并非全部深度学习框架都能保持全都的高效扩展，因此必需选择适当的框架和版本，以及合适的作业调度软件，以确保其可扩展性远高于支持硬件。

除了上述因素外，本白皮书也分析了关于整体集群、机架设计空间、数据中心功率密度等其他方面的考量。基于NVIDIA与客户长期的沟通，NVIDIA也探讨了一些应对这些挑战的成熟解决方案。

融合大量多节点扩展系统技术的DGX-1

NVIDIA供应的参考方案基于NVIDIADGX-1超级计算机，这是专为深度学习打造的集成系统，旨在最大限度提升深度神经网络的训练速度。有关NVIDIADGX-1的核心技术和性能介绍，可参阅《性能媲美250台CPU服务器，英伟达DGX-1的实力有多彪悍？》

DGX-1为何能最大限度提高多GPU和多节点性能？这源自DGX-1采纳的多种新技术。

NVIDIA在DGX-1的节点内GPU之间，采纳超高带宽通路NVLink，相比基于PCIeGen3的传统互连，速度可提升10倍。此外，NVIDIA还为每个系统配备4个InfinBand100Gb/秒扩展数据速率（EDR）端口，并搭配软件技术供应GPU间的优化通信方法。

▲DGX-1采纳8-GPU的混合立体互联网络拓扑

为了关心数据中心工作人员进一步节约构建AI基础设施所需的时间和试错成本，NVIDIA通过与领先的存储、网络交换技术供应商合作，提出一种经优化的数据中心机架DGXPOD交付节点（PointofDelivery）。

基于此，NVIDIA将其超大规模数据中心AI部署阅历转化为可复制方案，将包含多台DGX-1、存储服务器、网络交换机等设备的最佳实践方案，融入一系列DGXPOD数据中心交付节点设计参考架构中。

智东西曾在《NVIDIA集成AI超算中心阅历，打造AI就绪型数据中心》一文中对《NVIDIADGXPOD数据中心参考设计》白皮书进行亮点解读，并附以白皮书下载链接。

▲DGXPOD参考架构正面图

间续有NVIDIA的合作伙伴已经开头基于DGXPOD推出详细的配置方案。例如，NetApp推出的NetAppONTAPAI解决方案。

NVIDIA建议的DGX-1多节点参考架构

在供应DGXPOD一站式交付节点解决方案前，NVIDIA曾打造了由125个DGX-1节点组成的AI超级计算机SATURNV。

SATURNV托管了1000个NVIDIATeslaGPU，计算力量媲美3万多台x86服务器，一经推出就登上了Green500超算榜第一名，被称为全球最经济高效的超算，同时它也是最快的AI超算。

在构建SATURNV的过程中，NVIDIA积累了横向扩展DGX-1架构的指导基础，其中采纳的一些技术及方案均可供IT架构师参考。

比如，为了能更快在跨集群延长的节点间传递数据，NVIDIA开发了一种高性能双层InfiniBand交换架构，并使用GPUDirectRDMA技术，最大限度降低延迟并提高集群节点间的带宽。NVIDIA也在存储等方面供应了一些兼顾性能和成本效益、且简洁可执行的建议。

针对不同环境的性能和算能需求，NVIDIA供应了三种可能的配置方法，上限服务器节点数量分别为12、36、144，以确保在相应节点数量的环境可实现无限制的深度神经网络训练性能。

▲NVIDIADGX-1深度学习数据中心参考架构（144个服务器）

NVIDIA充分考虑到每台机架的计算、功率、散热密度等因素，赐予的详细建议包括机架、网络、计算、存储、管理等材料的数量和选型。

IT团队可依据必需考虑的详细目标和成本目标，参考这些配置，然后定制出最符合自身需求的多节点扩展系统。

与此同时，NVIDIA也与ISV合作伙伴紧密协作，供应帮助管理DGX-1多节点集群的解决方案。这些方案在管理调度GPU资源、优化提高吞吐量以及恢复力量方面，可供应

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

破局数据中心多节点扩展挑战！NVIDIA提出三类参考架构

文档简介

温馨提示

最新文档

评论

破局数据中心多节点扩展挑战！NVIDIA提出三类参考架构

文档简介

温馨提示

最新文档

评论

相关文档