计算机行业专题报告:互联总线-Scale-Up能力跃升的关键通路_第1页
计算机行业专题报告:互联总线-Scale-Up能力跃升的关键通路_第2页
计算机行业专题报告:互联总线-Scale-Up能力跃升的关键通路_第3页
计算机行业专题报告:互联总线-Scale-Up能力跃升的关键通路_第4页
计算机行业专题报告:互联总线-Scale-Up能力跃升的关键通路_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年12月24日评级:推荐(维持)刘熹(证券分析师)朱谓晟(联系人)S0350523040001S0350125070003liux10@zhuxs@最近一年走势计算机最近一年走势计算机沪深30029%20%2%-8%相关报告《计算机专题报告:超节点渐成共识,产业链成长动能明确——AI算力与模型应用月报(202510推荐)*计算机*刘熹》——2025-11-17《计算机事件点评:百度昆仑芯新品发布,助力中国AI产业向上(推荐)*计算机*刘熹》——2025-11-16《计算机事件点评:阿里启动“千问”项目,AI应用重心正式向C端倾斜(推荐)*计算机*刘熹》——2025-11-16《云计算IaaS:AI成新增长极,驱动产业重构——计算机行业专题(推荐)*计算机*刘熹》——2025-10-21《昇腾AI:引领“超节点+集群”时代——AI算力“卖水人”系列(8推荐)*计算机*刘熹》——2025-09-28-17%2024/12/262025/04/262025/08/252025/12/24表现1M3M12M计算机-2.0%-9.2%10.1%沪深3004.2%1.5%16.3%告附注中的风险提示和免责声明告附注中的风险提示和免责声明2告附注中的风险提示和免责声明告附注中的风险提示和免责声明3计算机总线用途在于连接系统与组件,总线接口就是系统或PCB的不同部件之间的数据传输的物理导线,具有:①发送数据;②寻找特定的数据使用各自互联协议,其中NVLink处于领先地位。4)UAlink利用以太网基础设施实现Scale-产业生态的协同创新。练和推理需求;云服务商可以使用自定义ASIC、NVIDIA机架级系统和NVIDIA端到端网络平台。上述三个因素必须同步提升;当前大型语言模型存在显著训练不足的问题,这是近期在保持训练数据量不变的情况下过度追求模型规模扩张的结果。告附注中的风险提示和免责声明告附注中的风险提示和免责声明4总线互联在超节点中起到互联互通的重要作用,当前国内外正积极发布新的总线互连架构,促进AI模型与应用的产业发展,进而助力形成从模型到算力的正向飞轮。维持对计算机行业“推荐”评级。l相关公司:1)处理器与GPU:海光信息、寒武纪;2)内存互联芯片:澜起科技;3)服务器整机:工业富联、中科曙光、浪潮信息、华勤技术、紫光股份、中国长城、软通动力、神州数码、烽火通信;4)核心部件:①光模块:新易盛、天孚通信、中际旭创、光迅科技、华工科技;②散热:曙光数创、飞荣达、英维克、申菱环境、高澜股份;③铜连接:沃尔核材、华丰科技;5)IDC:奥飞数据、光环新网、大位科技、云赛智联、数据港、科华数据、世纪互联、万国数据。l风险提示:宏观经济影响下游需求、AI发展不及预期、市场竞争加剧、中美博弈加剧、原材料价格波动、行业整体业绩不及预期。一、高速互联总线为大模型时代下的Scale-Up服务告附注中的风险提示和免责声明告附注中的风险提示和免责声明5资料来源:《资料来源:《UnderstandingSemiconductors:ATechnicalGuideforNon-TechnicalPeople》CoreyRicard等、国海证券研究所告附注中的风险提示和免责声明6的线束将每个组件分别连接起来,但这种方法既慢又没有效率,为了提高速度和改善性能,计算机公司将接口的数量从胡乱连接的组件和模块群减少到两个芯片——北桥和南桥芯片组架构。统称为外围总线。北桥和南桥在一个称为V0控制器集线器(ICH)的连接点上相互连接,它们一起称为芯片组。资料来源:奈因资料来源:奈因PCB电路板设计公众号、接插世界网告附注中的风险提示和免责声明7●据《计算机组成原理(第●据《计算机组成原理(第3版)》唐朔飞,总线是在计算机系统模块化的发展过程中产生的,随着计算机应用领域的不断扩大,计算机系统中各类模块(特别是I/O设备所带的各类接口模块)品种极其繁杂,往往一种模块要配一种总线,很难在总线上更换、组维护等,人们开始研究如何使总线建立标准,在总线的统一标准下,完成系统设计、模块制作。这样,系统、模块、设备与总线之间不适应、不通用及不匹配的问题就迎刃而解了。范和约定,以确保各个硬件设备能够正常的通信和工作。常见的服务器总线协议有以下几种:1)PCIe(PCIExpress)总线协议:(UniversalSerialBus)总线协议:USB是一种用于连接外部设备和计算机的通用串行总线协议,具有热插拔、高带宽和广泛的应用支持,普遍应用于服务器中的外部存储设备和外围设备。3)SAS(SerialAttachedSCSI)总线协议:SAS是一种将SCSI协议用于串行传输的接口标准,主要用于连接磁盘驱动器和其他存储设备。4)Ethernet总线协议:Ethernet是一种用于局域网通信的协议,常用于服务器之间的数据传输和网络通信。图表:PCIe图表:PCIe标准接口示意图资料来源:通信世界网资料来源:通信世界网、国海证券研究所告附注中的风险提示和免责声明8算时长增加甚至无法完成任务。图表:Scale图表:Scale-Up网络关键技术分层分析切分方式通信操作通信量(单卡)对网络的需求张量并行(TP)AllReduce百GB级别(超)节点内高速互联专家并行(EP)All-to-All百GB级别(超)节点内高速互联流水并行(PP)Send/RecvMB级别节点间高速互联数据并行(PP)AllReduceGB级别节点间高速互联资料来源:上海芯聚联半导体有限公司官网资料来源:上海芯聚联半导体有限公司官网告附注中的风险提示和免责声明9●●Switch的端口分为上行端口和下行端口。上行端口:连接RootComplex或上一级Switch,负责与主机通信,下行端口:连接Endpoint设备或其他技术(如PCIe)或网络技术(如以太网、Infi求是TB级超高带宽、k级扩展性、多语义、低功耗、百纳秒延迟以及内存统一编址等。当前业界Scale-Up网络的行业标杆NVIDIA为例,其NVLink互联,出现了第一代NVSwitch芯片。图表:Switch图表:Switch设备逻辑示意图图表:PCIeSwitch的详细工作原理资料来源:资料来源:freedomchips自由芯公众号、国海证券研究所告附注中的风险提示和免责声明10对比维度灵衢(UB)2.0NVLink5.0EthLinkUALinkSUE核心定位开放的“统一互联”协议,构建可组合算力底座封闭生态的“垂直整合”协议,优化GPU间通信基于以太网的Scale-Up互联协议优化行业联盟推动的开放Scale-Up标准基于标准以太网的Scale-Up优化方案单通道速率106.25Gbps(最高档)~112Gbps(推算值)基于以太网生态目标≥200Gbps基于以太网生态关键带宽互联网带宽达2TB/s,支持8192卡超节点单GPU聚合带宽1.8TB/s通过优化报文提升有效载荷率未明确端到端延迟低于400ns扩展能力支持Scale-Up和Scale-out,最大可扩展至15488卡主要支持Scale-Up,通过NVLinkSwitch扩展面向万卡级集群优化支持1024个加速器互联支持至少1024个加速器生态策略技术规范对外开放,旨在构建开放生态封闭专有,是NVIDIA生态核心壁垒基于开放以太网生态开放联盟标准,得到多家巨头支持基于开放以太网标准二、Scale-Up中高速互联协议NVLink领先、众厂商追赶告附注中的风险提示和免责声明告附注中的风险提示和免责声明11资料来源:信维智算官网资料来源:信维智算官网、unionmemory官网告附注中的风险提示和免责声明12●●据半导体行业观察公众号,PCIe(PeripheralComponentInterconnectExpress)最初由Intel在2001年提出,是一种高速串行计算机扩展总线标准,用于连接主板和高速外围设备,后续交由PCI-SIG(PCI特殊兴趣组织)认证后,该标准被命名为“PCI-Express”,简称“PCIe”,旨在替代旧的PCI、PCI-X和AGP总线标准。作为现代计算平台的核心互联技术,PCIe凭借串行总线架构实现了对传统PCI并行总线的全面革新。相较于并行传输模式,PCIe通过三大核心特性突破了传统技术的局限:1)串行通信机制:以串行传输替代并行架构,从物理层减少信号干扰,显著提升数据传输效率与有效距离;2)点对点连接设计:每个外设通过独立链路直接对接根复合体,消除总线竞争瓶颈,实现数据传输的直接性与高效性;3)可扩展带宽能力:支持通过通道(Lane)数量线性扩展带宽,灵活匹配不同设备的性能需求。●这些技术特性不仅为显卡、存储设备、网卡等外设提供了远超传统PCI的传输带宽与更低延迟,更通过高效资源调度降低系统占用,成为支撑当代计算机硬件高速互联的核心技术基石,深刻影响着整个计算系统的架构设计与性能优化方向。图表:PCIe图表:PCIe总线典型链路示意图图表:PCIe版显卡与CPU互联情况示意图资料来源:资料来源:PCI-SIG官网告附注中的风险提示和免责声明13●●据半导体行业观察公众号,2022年1月PCI-SIG正式发布PCIe6.0规范,标志着高速互联技术进入全新发展阶段。PCIe6.0的核心技术革新体现在物理层升级、逻辑层革新以及兼容性与可靠性等多维度的优化:1)物理层升级:采用PAM4调制技术替代传统NRZ编码,通过四电平信号传输实现相同符号率下的带宽翻倍,同时引入前向纠错(FEC)机制,有效补偿高速传输中逻辑层革新:引入流量控制单元(FLIT)编码,将数据封装为固定大小的256B传输单元,替代前代的128B/130B编码和DLLP开销,显著提升事务层数据包(TLP)的传输效率;3)兼容性与可靠性:延续向后兼容设计,同时通过Retimer信号重构、动态链路均衡调校等技术优化,在提升速率的同时降低延迟,确保多设备在树型拓扑中实现高效通信。●据半导体行业观察公众号,2025年8月PCI-SIG协会宣布正在开发的PCIe8.0规范将把数据速率提升至256GT/s,相较PCIe7.0再度实现翻倍,并计划于2028年向会员发布。通过x16通道配置,PCIe8.0的双向带宽将达到1TB/s,为高带宽计算场景带来前所未有的性能空间。根据PCI-SIG的说明,PCIe8.0规范在性能提升的同时,将继续保持向后兼容性并满足低延迟、可靠性和功耗优化的设计目标。关键特性包括:1)256.0GT/s原始比特率,x16配置实现1TB/s双向传输速率。2)引入新的连接器技术,满足更高信号完整性需求。3)优化延迟与FEC(前向纠错)机制,确保可靠性。4)增强协议功能以提升有效带宽利用率。5)持续降低功耗,满足绿色数据中心图表:图表:PCIe传输速率随代际与带宽提升图表:图表:PCIe传输速率每3年翻倍高性能GPU,为图形渲染、人工智能训练等任务提供高速数据传输通道;2)CPU与主板芯片组通信:CPU处理器通过PCIe通道与主板南桥芯片口用于连接不同计算节点和存储设备,以实现数据的高速传输。●随着行业不断演进,在GPU卡间互联系统中,PCIe作为传统互联接口正面临显著挑战。该系统采用CPU与GPU分离的架构,CPU负责任务调度,GPU专注并行计算,而处理器间的互联带宽和拓扑结构直接影响性能发挥。传统架构中,GPU通过PCIe连接CPU导致无法直接点对点通信,且CPU提供的PCIe通道数量限制了GPU扩展;即便借助PCIeSwitch实现多GPU接入和P2P通信,随着GPU占比攀升,PCIe带宽远低于处理器与本地内存的带宽,逐渐成为系统性能瓶颈。根据英伟达官网,两个CPU插槽的GPU到GPU传输:传统设计采用独立PCIe交换机,该路径CPU和插槽间的瓶颈,根据CPU间链路利用率限制在25GB/s或更低。告附注中的风险提示和免责声明告附注中的风险提示和免责声明14资料来源:半导体行业观察公众号资料来源:半导体行业观察公众号、三星半导体官网告附注中的风险提示和免责声明15●●据半导体行业观察公众号,在PCIe面临NVLink等专用互联技术冲击、带宽瓶颈逐渐凸显的趋势下,Intel公司在2019年3月还推出了CXL协议接口,为高性能异构计算场景提供新的互联解决方案●据三星半导体官网,CXL联盟确定了三种不同的设备类型。Type1:CXL设备是一种缓存设备,例如加速器和SmartNICs(智能网卡)。Type1设备可通过CXL.cache事务访问主机内存,并维护与主机内存一致的本地缓存。Type2:CXL设备是GPU和FPGA(现场可编程逻辑门阵列,AI芯片的一种具有挂载到设备的DDR和HBM等存储器。Type2的CXL设备可以像Type1CXL设备一样直接访问主机挂载的存储器。除此之外,Type2CXL设备具有本地地址空间,主机CPU可以通过CXL.mem事务查看和访问该地址空间。Type3:CXL设备是内存扩展设备,支持主机处理器通过cxl.mem事务一致地访问CXL设备存储器缓存。Type3CXL设备可用于实现存储器容量和带宽的扩展。图表:CXL的三种不同设备类型资料来源:英伟达官网资料来源:英伟达官网告附注中的风险提示和免责声明16图表:图表:NVLink通过NVSwitch实现跨服务器的连接●AI和HPC工作负载的性能需求继续快速增长,需要扩展到多节点、多GP宽通信,NVIDIANVLink规范旨在与NVIDIAGPU协同工作,以实现所需的性能和可扩展性。NVLink的一个关键优势是它提供了比PCIe大得多的带宽。第四代NVLink每个通道的带宽为100Gbps,是PCIeGen5的32Gbps带宽的三倍多。可以组合多个NVLink以提供更高的聚合通道数,从而产生更高的吞吐量。●NVIDIANVSwitch首先与NVIDIAV100TensorCoreGPU和第二代NVLink一起推出,实现了服务器中所有GPU之间的高带宽、任意连接。NVIDIAA100TensorCoreGPU引入了第三代NVLink和第二代NVSwitch,使每CPU带宽和减少带宽都增加了一倍。使用第四代NVLink和第三代NVSwitch,具有八个NVIDIAH100TensorCoreGPU的系统具有3.6TB/s的二等分带宽和450GB/s的缩减操作带宽。与上一代相比,这两个数字分别增加了1.5倍和3倍。此外,使用第四代NVLink和第三代NVSwitch以及外部NVIDIANVLink交换机,现在可以以NVLink速度跨多台服务器进行多GPU通信。图表:与图表:与GPU同步演进的NVLink资料来源:英伟达官网资料来源:英伟达官网告附注中的风险提示和免责声明17●●为了实现良好的多GPU扩展,AI服务器首先需要每个GPU具有出色的互连带宽。它还必须提供快速连接,以使所有GPU能够尽快与所有其他GPU交换数据。NVIDIAHopper架构GPU可以使用第四代NVLink以900GB/s的速度进行通信。借助NVSwitch,服务器中的每个NVIDIAHopperGPU都可以与任何其他NVIDIAHopperGPU同时以900GB/s的速度进行通信。峰值速率并不取决于通信的GPU数量。这意味着,NVSwitch是无阻塞的。每个配备8个GPU的NVIDIAHGXH100和NVIDIAHGXH200系统都配备4个第三代NVSwitch芯片。每个NVSwitch芯片的总双向带宽高达个GPU。这意味着GPU之间的通信速度取决于正在通信的GPU数量。对于只需要两个GPU以实现用户体验和成本最佳平衡的模型(例如Llama3.1每增加一个GPU可能实现的加速。与此同时,使用NVSwitch的系统将提供完整的900GB/s带宽,仅需22毫秒传输20GB,从而大幅减少GPU之间通信所花费的时间。这对整体推理吞吐量和用户体验产生了重大的影响。图表:配备四个NVIDIANVSwitch图表:配备四个NVIDIANVSwitch设备的HGXH2008-GPU图表:GPU使用NVSwitch对比直连资料来源:讯石光通讯公众号资料来源:讯石光通讯公众号告附注中的风险提示和免责声明18●●NVLink交换机以其低延迟、大通道数、高带宽(通道数乘以单通道速率)成为GPU互联的领先技术方案,NVSwitch5.0单通道速率达到200Gbps,单芯片单向带宽NVSwitch5.0~7.0单向带宽都是3600GBps,考虑到下一代GPURubin的I/O带宽达单向1.8TBps=18*4*200Gbps,造成NVSwitch7.0的端口数从前两代的72反而降低到及网络规模的天花板,难以继续满足大模型对硬件规模指数增长的要求。●下一代GPU集群VR300NVL576只能捡起NVLink4.0时代GH200和NVLink5.0时代GB200NVL576放弃的两层交换网络来扩大网络节点数,为了保证系统的可靠性、成本、总功耗、总成本等指标,放弃引入前两代失败的光互连,光退铜进,采用正交背板+铜缆的纯电互联,两层交换芯片带来一个更严重的问题:这个576卡的超大集群只能塞进单柜中,单柜功耗将飙升至接近1000kW,这是在挑战供电、散热、运维等工业极限,量产难度将远超成功的GB300NVL72产品。图表:图表:NVLink7.0组成576卡GPU超节点可选方案概览资料来源:资料来源:NVDIA官网告附注中的风险提示和免责声明19图表:图表:NVIDIAGraceHopper超级芯片系统中的地址转换服务●NVIDIAGraceHopper超级芯片架构是高性能计算(HPC)和AI工作负载的第一个真正的异构加速平台。它利用GPU和CPU的优势加速应用程序,同时提供迄今为止最简单和最高效的分布式异构编程模型。科学家和工程师可以专注于解决世界上最重要的问题。NVIDIANVLink-C2C是一种NVIDIA内存连贯、高带宽和低延迟超级芯片互连。它是GraceHopper超级芯片的核心,提供高达900GB/s的总带宽。这比通常用于加速系统的x16PCIeGen5通道高7倍的带宽。NVLink-C2C内存一致性提高了开发人员的生产力和性能,并使GPU能够访问大量内存。CPU和GPU线程现在可以同时透明地访问CPU和GPU驻留内存,使用户能够专注于算法而不是显式内存管理。●在基于NVIDIAGraceHopperSuperchip的系统中,ATS使CPU和GPU能够共享单个进程页表,使所有CPU和GPU线程能够访问所有系统分配的内存,这些内存可以驻留在物理CPU或GPU内存上。所有CPU和GPU线程都可以访问CPUheap、CPU线程堆栈、全局变量、内存映射文件和进程间内存。NVIDIANVLink-C2C硬件一致性使GraceCPU能够以缓存线粒度缓存GPU内存,并使GPU-CPU能够访问彼此的内存而无需页面迁移。图表:图表:NVLinkC2C实现GraceCPU与HopperGPU高速互联资料来源:《资料来源:《NVIDIAGraceCPUSuperchipWhitepaper》告附注中的风险提示和免责声明20为达成这些设计目标,需要开发多项创新技术以支持GraceCPU超级芯片的实现。●NVLink-C2C互联技术缓解瓶颈:为打造NVIDIAGraceCPU超级芯片(最多144个ArmNeoverseV2核心并在芯片间传输数据时避免瓶颈,NVLink芯片间(C2C)互连技术提供了900GB/s的芯片间直接连接。●传统的服务器架构包含两个socket,每个socket由多个die组成,每个die可代表多个非统一内存(NUMA)域。GraceCPU超级芯片采用简洁清晰的内存拓扑结构,仅需两个NUMA节点配合高带宽NVLink-C2C,即可有效缓解应用程序开发者和用户面临的NUMA瓶颈问题。图表:图表:NVLinkC2C实现GraceCPU之间的高速互联资料来源:信维智算官网资料来源:信维智算官网、国海证券研究所告附注中的风险提示和免责声明21对比维度NVLinkPCIe技术定位NVIDIA专属开发的高速点对点互连技术,专为GPU间和GPU到CPU的通信设计一种通用的串行总线标准,用于连接计算机中的各种外设到主板带宽NVLink3.0双向带宽可达600GB/s(单卡)NVLink4.0为900GB/s(单卡)NVLink5.0为1.8TB/s(单卡)PCIe4.0x16双向带宽为64GB/sPCIe5.0x16双向带宽为128GB/sPCIe6.0x16双向带宽256GB/s延迟远低于PCIe,如NVLink3.0进行GPU-GPU数据拷贝延迟为1-2μs,小数据包同步延迟为0.5-1μs相对较高,PCIe4.0进行GPU-GPU数据拷贝延迟为5-10μs,小数据包同步延迟为2-5μs连接方式通过专用NVLink接口(物理链路)或NVSwitch(交换机)实现GPU间直接通信通过主板上的PCIe插槽(如x16)物理连接设备显存管理GPU显存独立,需通过CPU或总线进行数据拷贝(如PCIeDMA)扩展性通过NVSwitch可实现多GPU全互联拓扑,如8卡H100SXM5的总带宽达7.2TB/s多GPU通过主板共享PCIe总线,带宽受限,通信效率较低兼容性需专用硬件支持,如SXM模块或NVLink桥(如IBMPOWER、NVIDIAGrace也支持)应用场景科学计算、HPC超算集群数据中心多GPU协同加速游戏主机、工作站单GPU应用实验室教学、边缘计算设备功耗通常搭配高功耗的SXM架构GPU模块,如H100SXM5功耗可达700W,功耗较高功耗相对较低,能效比较高成本与部署硬件成本高(需NVSwitch、SXM模块系统搭建复杂,仅限高端场景硬件成本低,部署灵活,适配通用服务器和终端设备资料来源:《基于灵衢的超节点参考架构白皮书》资料来源:《基于灵衢的超节点参考架构白皮书》告附注中的风险提示和免责声明22一,支持超节点内不同类型、不同距离的组件统一互联,访问无协议转换开销,组件包括CPU、NPU、GPU、MEM、DPU、SSU和Switch等;提供统一的编程模型。3、平等协同:基于灵衢的平等协同机制,支持超节点内所有组件去中心化的互相访问、调用和协同工作,提升组件间访存和无感知的us级检错和容错,在8192卡超节点范围内实现光互连MTBF(MeanTimeBetweenFailures)大于6000小时。●灵衢包含以下要素:UBProcessingUnit(UBPU)是支持UB协议栈的处理单元,实现特定功能。UBController是UBPU中执行UB协议栈的组件,并提供软硬件接口。UBMemoryManagementUnit(UMMU)是UBPU中执行内存地址翻译和访问权限控制的组件。UBSwitch是Switch中的必选组件,在其他UBPU中是可选组件,支持在UB端口间转发报文。UBLink是UBPU间的点到点连接。UBDomain是一个全部使用UBLink连接起来的UBPU集合。UBFabric是UBDomain内所有UBSwitch和UBLink的集合。UBoverEthernet(UBoE)通过以太/IP网络承载UB事务,实现跨UBDomain互通。图表:基于灵衢的超节点参考架构图表:基于灵衢的超节点参考架构资料来源:《基于灵衢的超节点参考架构白皮书》资料来源:《基于灵衢的超节点参考架构白皮书》告附注中的风险提示和免责声明23提升传输效率,同时基于链路层的Flit传输机制,实现低时延传输和转发。●TB/s级大带宽:UB面向AI时代大带宽需求进行了单Lane增强速率和多端口多路径聚合带宽设计。通过物理层多种FE路层重传技术,降低BER要求,实现单Lane速率增强至118Gbps,优于同代际IEEEEthernet定义的标准速率。通过多端口聚合和高密光电互连技术,实现UBPU间TB/s级带宽互连。UB支持Load/Store语义和URMA语义共享多端口带宽,实现多个端口间的多路径传输。资料来源:《基于灵衢的超节点参考架构白皮书》资料来源:《基于灵衢的超节点参考架构白皮书》、芯智讯、IT之家、国海证券研究所告附注中的风险提示和免责声明24●●UBPU内嵌UBSwitch,支持UB报文通过UBPU直接转发至直连相邻的UBPU,无需软件中转,同时UB通过链路层虚通道、网节点提供UB-Mesh。以及基于光交换的组网技术,实现大规模低成本部署。UB-Mesh中的nD-FullMesh拓扑充分利用了业务数据局部性,优先考虑短程直接互连路径,以最大限度减少数据移动距离并减少交换机使用为目标,是一种兼具高性能和低成本的拓扑组网。●UB-Mesh还支持混合拓扑,例如在Rack内部采用1D/2D-FullMesh拓扑,提供全电缆互连的本地高带宽,在Rack间采用一层交换的Clos拓扑,提供适当收敛或者无收敛的带宽。该拓扑可用于训练和推理等场景。Rack内采用2D-FullMesh组网,Rack间采用一层UBSwitch互连,支持从64卡线性扩展到8192卡。为了进一步扩大组网规模,UB除了支持采用多级UBSwitch扩展组网之外,还支持通过UBoE与以太Switch对接,实现融合组网,以及通过OCS组网,实现可变拓扑,匹配业务动态流量。图表:2D-FullMesh图表:2D-FullMesh+Clos混合拓扑示意算力资料来源:《资料来源:《UALink200G1.0Scale-Up互联技术白皮书》告附注中的风险提示和免责声明25体功耗,同时兼顾互联带宽的高效使用。其核心特点包括:1)提升双向内存访问的链路效率,以实现最大化数据带宽;2)借助现有的以太网基础设施(涵盖线缆、连接器、重定时器及管理软件的使用降低总体拥事务,并与主机连接的内存、本地加速器内存和远程加速器内存保持相同的排序模型,从而降低软件复杂性。●UALinkPod架构中,系统节点包含四个UALink加速器(每个有三个端口)、两个主机PU、一个NIC和一个BMC的系统节点。UALink交换机负责在加速器之间路由,并由称为交换机管理代理的软件管理。物理交换机辑交换机。通常情况下,物理交换机托管在交换机平台上,该平台在处理器(例如x86CPU或BMC)上运行交网络接口。图表:图表:UALink的Scale-Up架构示意图资料来源:《资料来源:《UALink200G1.0Scale-Up互联技术白皮书》告附注中的风险提示和免责声明26●●UALink1.0规范支持每通道最高200GT/s的数据传输速率。UALink的物理层是以太网物理层设计。考虑到以太网物理层进行前向纠错码(FEC)和编码所带来的带宽损耗,其目标信号传输速率为212.5GT/s。UALink物理通道可支持多种宽度的配置和组合:最高4x单通道链路(x1Link)、或者2x双通道链路(x2Link)或1x四通道链路(x4Link)。每四条物理通道组合在一起构成一个UALink的基本单元组,在发送(TX)和接收(RX)方向上各提供最大800Gbps的带宽。系统中加速器的数量和分配给每个加速器的带宽可以实现自由配置和扩展,以满足各种AI应用的需求。●在一个多节点系统中,每个服务器节点均配备1个主机处理器和4个加速器。整个系统总共包含'M'个加速器,每个加速器有'N'个端口。加速器的每个端口连接到不同的UALinkSwitch(ULSULS的每个端口连接到一个不同的加速器,以此可实现流量的均匀分配,在UALink1.0一层交换机的架构下,加速器的端口数N与所连接的交换机总数相匹配,而交换机端口数量M与其连接的加速器总数量相匹配通过ULS相互连接的加速器集群共同构成一个Scale-UpAIPOD。图表:基于UALink的多加速器系统图表:基于UALink的多加速器系统图表:UALink的核心功能与目标架构资料来源:《资料来源:《Scale-UpEthernetFrameworkSpecification》告附注中的风险提示和免责声明27●●在SUE堆栈的结构中,XPUNOC向SUE发送命令。SUE提供类似AMBAAXI或AMBAAXI4的信号双工数据接口,该接口包含控制和数据两部分。控制内容基本不透明,包括命令、远程XPU标识符、用于判断数据是否存在及长度信息的字段。映射与打包层根据目的地对命令进行组织,并在适当时机将多个命令打包成单个SUE协议数据单元(PDU)。每个SUEPDU仅对应单一序排序。在严格排序模式下,特定虚拟通道上源端与目的端之间的所有事务都会按顺序从SUE传输层传递至目的XPU。当配置为靠性、数据完整性和加密功能均在数据包级别实现。具备部分原则,但SUE也可根据具体应用场景进行灵活调整。图表:图表:SUE堆栈架构示意图图表:SUE部分开发原则资料来源:海光信息公众号资料来源:海光信息公众号告附注中的风险提示和免责声明28●●2025年12月18日,在光合组织2025人工智能创新大会上,海光信息发布海光系统互联总线协议(HSL)1.0规范,并公布HSL未来三年的开放路线图,旨在打破技术壁垒,促进国产计算产业生态的协同创新。HSL1.0规范涵盖完整总线协议栈、IP参考设计及指令集,既实现各家AI芯片厂商与海光CPU的“紧耦合”,更能帮助外设芯片、OEM、系统及应用厂商快速搭建高性能系统,与产业界共享技术红利。●海光DCU软件栈全面开放,共建“中国版CUDA”生态。面对MoE大模型万亿参数化趋势及MoE+CoT架构带来的计算与通信开销挑战,海光重磅发布DTK、DAS、DAP等自研软件栈的最新升级并宣布全面开放,为超节点及分布式训练推理提供软硬件耦合支撑。更快迁移:依托海光DCU通用架构与全精度优势,DTK(异构计算平台)以完整成熟的计算库覆盖训练、推理、AI4S等全场景。更高性能:DAS(人工智能基础软件系统)集成超2000个算子,支持100+主流AI工具,通过手动算子调优、编译优化等多重技术,充分发挥芯片算力,大幅提高训练与推理性能。更强生态:DAP(人工智能应用平台)内置知识库引擎、智能体编排引擎等高阶模块,搭配OpenDAS开源拓展套件与光源模型仓库,面向OEM、伙伴、客户深度开放,可便捷集成到各种AI平台,推动更多垂直智能体方案落地。图表:海光信息在光合组织2025人工智能创新大会示图表:海光信息在光合组织2025人工智能创新大会示意图三、NVLink走向开源,互联技术应服务高带宽和低延时告附注中的风险提示和免责声明告附注中的风险提示和免责声明29资料来源:资料来源:NVDIA官网告附注中的风险提示和免责声明30●●2025年5月,NVIDIA发布NVIDIANVLinkFusion,这款全新芯片将助力行业用户通过全球领先且广泛采用的计算互连架构——NVIDIANVLink打造的强健合作伙伴生态系统,构建半定制AI基础设施。MediaTek、Marvell、AlchipTechnologies、AsteraLabs、Synopsys和Cadence是首批采用NVLinkFusion的厂商,可支持定制化芯片纵向扩展(Scale-Up)以满足模型训练和代理式AI推理等要求严苛的工作负载的需求。使用NVLinkFusion,富士通和QualcommCPU还可与NVIDIAGPU进行整合,以构建高性能的NVIDIAAI工厂。●NVLinkFusion还为云服务商提供了便捷的途径,他们可以使用自定义ASIC、NVIDIA机架级系统和NVIDIA端到端网络平台,将AI工厂扩展到数百万个GPU。该平台支持高达800Gb/s的吞吐量,搭配NVIDIAConnectX-8SuperNIC、NVIDIASpectrum-X以太网和NVIDIAQuantum-X800InfiniBand交换机,以及即将到来的光电一体化封装网络交换机。图表:NVLink图表:NVLinkFusion优势介绍资料来源:《资料来源:《ScalingLawsforNeuralLanguageModels》JaredKaplan等、《TrainingCompute-OptimalLargeLanguageModels》JordanHoffmann等告附注中的风险提示和免责声明31●●模型需求演进:文章《ScalingLawsforNeuralLanguageModels》中指出,随着模型规模、数据集规模及训练计算量的增加,语言建模性能呈现平滑提升趋势。要获得最优性能,这三个因素必须同步提升。当其他两个因素未形成瓶颈时,实证性能与各独立因素均呈现幂律关系。模型性能主要受规模影响,对模型结构的影响较小。具体而言,模型性能最显著地取决于三个要素:模型参数数量(不含嵌入层)、数据集规模以及训练所需的计算资源。在合理范围内,性能对深度与宽度等架构超参数的依赖性极●训练不足:在文章《TrainingCompute-OptimalLargeLanguageModels》中,作者研究了在给定计算预算下训练Transformer语言模型的最佳模型规模和训练标记数量。研究发现,当前大型语言模型存在显著训练不足的问题,这是近期在保持训练数据量不变的情况下过度追求模型规模扩张的结果。图表:图表:ScalingLaw:模型参数/数据/计算能力与性能之间存在幂律关系告附注中的风险提示和免责声明告附注中的风险提示和免责声明32告附注中的风险提示和免责声明告附注中的风险提示和免责声明33总线互联在超节点中起到互联互通的重要作用,当前国内外正积极发布新的总线互连架构,促进AI模型与应用的产业发展,进而助力形成从模型到算力的正向飞轮。维持对计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论