2025年ODCC开放数据中心大会:以太网智算集群互联技术白皮书(2025年)_第1页
2025年ODCC开放数据中心大会:以太网智算集群互联技术白皮书(2025年)_第2页
2025年ODCC开放数据中心大会:以太网智算集群互联技术白皮书(2025年)_第3页
2025年ODCC开放数据中心大会:以太网智算集群互联技术白皮书(2025年)_第4页
2025年ODCC开放数据中心大会:以太网智算集群互联技术白皮书(2025年)_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2025-03009]开放数据中心标准推进委员会ODCC2025年9月版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。智能处理效能,正深度变革着各个领域的发展态势。随着数据流量的爆炸式增长、新兴应用的层出不穷以及对网络性能要求的不断提升,传统的网络架构正面临着前所未有的挑战。在这个关键点,智算集群互联技术组合应运而生,为构建高效、智能、可靠的网络基发挥两者的优势,实现网络的高性能、高带宽、低延迟、高安全和本白皮书旨在提出技术需求,智算集群互联的系统架构及关键本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标、路线和过程,敏感领域 3 4 6 8 3 7 9 16 1一、背景与需求炸式发展,其市场规模和增长速度令人瞩目。新一轮的AI热潮背后是大模型带来的跨越式能力提升,而且“Scalinglaw”法则仍然有效,的资源使用效率,服务商也希望将多中心协同起来,实现AI算力化吐的网络通信、实现计算资源的灵活调度等。另外,随着“东数西算”求急剧增加。现有分布式智算集群互联场景采用传统网络设备在不同集群间建设超大规模带宽,采用传统组网方案,没有有效的成2但是单端口物理速率也存在瓶颈,目前以太网主流商用端口速率为(2)难以实现真正意义上的无损,可靠性差:采用传统的组网算中心间算力资源的高速互联光纤链路以及相关设施暴露在物理环3400GE/800GEZR技术方案的研究,IP+光融合技术应用于智算互联二、智算集群互联的系统架构算和复杂的人工智能应用。随着大模型快速发展,AI算力平台需要务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展跨数据中心集群系统,以满足日益发展的AI大模型4联链路特点,优化计算框架,改进算法,通过IP技术与光传输技术5展,为大模型发展和AI广泛应用提供强大的支持。67所有芯片都必须完美运行,因为即便在10万个G内存和存储单元同时工作时,几乎必然会出现故障,甚至在所谓“相同”系统之间也可能因硅片差异而导致性能不同。智算集群需要具备3.灵活扩展8计算设备、存储系统和网络协议。支持不同厂商的GPU服务器、不4.智能管控心互联网络设备,链路调度单元和光网络设备组成。IP+光融合方案9持IPv6+技术,以保障技术的先进性。在IP+光融合的方案中,使的合波器,组成DWDM合波信号,而无需再使用光网络内的OTU光网络,是智算集群互联的物理基础。以光纤为介质,通过DWDM技术,实现大容量的数据传输。光网络通过应用Flexgrid技三、关键技术(一)IP子系统关键技术1.物理层关键技术AI大模型网络集群规模已达到万卡级别,模型训练耗时长、成以及各种网络层协议的Hello机制等,这些机制可实现秒级的故障算中心高速互联的800G/1.6G端口传输来说,传统方式的检测速度常工作/故障/恢复中)以及当前流量特征等通道管控操作制平台也可以主动对通道进行管理与控制,如下发指令关闭/开启某输智间数据资源的高速互联光纤链路以及相关设施暴露在物理环境中,存在被窃听、攻击的风险。传统安全技术如MACSec应用于智中国移动针对智算互联安全原创提出全球首个以太网物理层安全(PHYSec)技术体系架构,通过将传统密码学的理念与以太网物完整性校验。新协议基于原生机制PAD区域携带安全协议,无额外干复帧,同时对帧内比特流进行加密或完整性校验,经PAD域承载KVCache等过程数据进行加密,防止链路传递过程中被中间节点窃实现零加密开销,且兼容已有FlexOsec技术,可高效保护DIN模型2.数据链路层关键技术临前所未有的带宽挑战。随着大模型参数量突破万亿级别,千卡/万练产生的大规模数据流时尤为突出。同时传统的逐流HASH方案,地提出10T级聚合通道SuperPipe技术,记录其归属的报文组号。接着,利用报文分组ID,通过报文组转发定硬件的情况下,单设备最大可达成N*400G的超宽通道。此外,3.网络层关键技术微流级精准流控技术解决智算中心间互联场景拥塞丢包导致业报文携带ECN拥塞标记,以标示网络中存在拥塞。接收端(Srv2)收到报文后,发现报文中携带ECN拥塞标记,则知道网络中存在拥FastCNP是为了解决长距网络延时高流量降速不及时提出的一过程,建立流表,将IB报文头中的相关信息记录在流表表项中。智表项信息向发送端发送CNP拥塞通知报文,以缩短拥塞反馈路径,构,以满足高吞吐、低延迟的数据传输需求。然而,在此类场景下,源利用率。为解决该问题,本白皮书提出一种基于入接口HASH(IngressPortHashing)的智能负载均衡技术。该技术通过对入口端Port5=1最后通过LBN值对出端口数取余建立映射关系(如数量成倍增长,但传统五元组HASH因子的稀疏性并未改善,导致HASH极化问题进一步加剧——大量流量因目的地址相同而持续哈本白皮书提出一种新的基于目的地址分组HASH解决方案,通这种方法的原理是通过分组机制优化ECMP接口形成ECMPGROUP,对应分组的目的地址流量仅在该GROUP而在保证多路径优势的同时,避免了传统ECMP在大规模出接口场景下的HASH不均匀问题,也无需复杂的目的地址编排优化。原创G-SRv6基础帧格式和基本转发机制,在保留SRv6所规划等方面进行网络切片层次化构建,为不同行业、不同用户、不同4.网络无损关键技术量变动快速的反馈给交换芯片,通过交换芯片的ECMP组内端口成递给交换芯片,交换芯片快速的将该端口调减出ECMP组,待光缆切换至备用路径且性能恢复后再将该端口加入ECMP组从而实现无5.800GE/1.6TE关键技术智算互联800G以太网互联技术分为直检技术和相干技术。8×100G通道速率。第三代方案的光电层都采用4×200G通道速率。光通道技术:多种方案并存。100Gbp光通道技术方案:主要包括集成相干驱动调制器(CDM)与混R及可调谐激光器(ITLA)的光收发一体相干组件(TROSA)方案,插拔的要求,相干DSP在兼顾链路补偿能力外,更加关注功耗和尺方案,依赖于200GVCSEL和EML产品量产化。2km方案仍将采用方案架构预计将沿用800GE相干技术方案,并可的光器件、高阶调制技术及性能更强的DSP链路补偿等。(二)光子系统关键技术宽、高互联端口速率、高可靠性、零丢包的网络的特性让IP与光协1.微光学模块(光器件小型化技术)相比于传统数据中心间互联方案网络设备+独立波分,由于算力Nx100GE/Nx400GE的客户侧到线路侧单载波400G/800G汇聚的成ZR彩光模块直接部署在智算互联网络设备上带来更大的成本与易用性收益开始逐渐显现。同时近些年海外互联网用户开始大力推动IPoverDWDM应用,在智算互联网络设备端口直接部署相干光模现IP与密集波分DWDM的融合应用,但该方的可靠性特性。通过配合ZR模块的软件功能定义可以实现基于BER门限的电检测保护切换模式,通过智算互联网络设备与ZR模块设计可以实现无损块内FPGA进行判别实现主北路切换进而实现智算互联网络设备流2.软件微服务化技术基于光层模块YANG标准模型把光层设备管理模型引入到智算同样基于光层模块YANG标准模型,定制化完成对物理层、3.ONM光导航矩阵——光交换技术应用为了应对智算中心高稳定性要求,本白皮书提出光学导航矩阵带宽突发等场景,具备带宽重构能力。秒级光路由重构,协同IP层(2)双平面光层结构:每个方向都配备了4套光层,这意味着相较于传统双平面结构,本白皮书定义的光学导航矩阵支持将力,可以支持DCI带宽在常态时同时运行在主备用(三)IP+光融合设计关键点络设备上直接适配相干彩光模块的方式实现精简DCI互联架构,可减少系统层级极大的降低了系统复杂度,同时也降低了DCI互联系(2)兼容性与健壮性设计:智算网络相比传统网络中,单流速芯片对于时钟抖动更加敏感,因此在400GE及更高速率端口互联条互联需求,减少DCI传送路径上的复杂度降低系统不稳定因素,继(3)可靠性设计:智算网络下对于系统丢包与故障十分敏感,与网络设备转发流控相结合从而实现在系统开始劣化到信号完全不可用前的一个劣化过程实质的展现给网络设备,从而进行相应端口的四、新设备形态同时赋能IP设备支持OTN级别的OAM和保护能力,来应对网络的智算互联网络设备采用全模块化设计,CPU主控卡、接口卡、也为可插拔可替换子卡,风扇与电源支持热插量光学性能数据telemetry采集的能力,进而实现针对数通侧实现业光学模块与400GZR、800GZR模块功能可以实大容量高端口速率支持:基于插卡设计,不同接口卡通过PHY智算互联网络设备通过支持弹性通道FlexLane、超宽管道五、组网及应用(一)组网典型拓扑端口汇聚端口汇聚带宽收敛DCADCB2.星型拓扑在星型存算分离拓扑结构中,有一个处于中心位置的存储节点,周围分布着多个计算节点。这种结构与星型组网的特点完美契合。存实现高效的存算分离操作。计算节点可以独立地向存储节点请求数据或上传计算结果,而不会相互干扰,提高了整个存算系统的效率和可3.Full-Mesh拓扑Full-Mesh拓扑是一种所有节点都与其他所有节点直接连接的网建网成本高:大量的连接线路和设备是构建Full-Mesh网络的在城域网百公里智算互联场景下,分布式训练通常涉及特定的计算节点对之间的高带宽、低延迟通信需求。Full-Mesh拓扑的连接方若采用Full-Mesh拓扑组网,则建议互联节点不能过多,防止由于节点数量众多,其复杂性和成本将成为巨大的挑战。过高的网络配置和1.场景1:跨智算中心AI大模型分布式训练跨智算中心分布式训练打破了单体集群的诸多硬件和组网设计基于OCS的全光调度方案技术、软件微服务化和硬件融合的微光学2.场景2:跨智算中心资源整合场景随着GPU芯片算力密度的提升,算力成本也日益昂贵,然而,一集群下相同型号GPU构成的整块算力资源,而与此同时各智算中撑另一个任务,因此无法得到充分的利用,结果表现为GPU机器的3.场景3:存算分离场景算资源独立扩展。数据可以存储在专门的分布式存储系统中,如该场景对网络有着特定的诉求。在这样的场景下,由于其独特的运行模式和业务需求,对网络的性能、稳定性、安全性等方面都有着特定的要求和期望。一是高带宽和低延迟:存算分离场景中,计算节点需要频繁地从存储系统中读取和写入数据。高带宽的网络可以确保大量数据的快速传输,减少数据传输时间,提高计算效率。二是低延迟对于实时性要求较高的应用至关重要。在人工智能的推理过程中,低延迟的网络可以确保快速响应,提高用户体验。三是可靠性和稳定网络故障可能导致数据丢失或计算任务中断,因此网络需要具备高度的可靠性和稳定性。四是安全性,存算分离场景中,数据在网络中传输和存储,网络安全成为关键问题。网络需要具备强大的安全防护机4.场景4:通算互联科研机构等对数据的安全性和实时性要求极高的组织,也依赖DCI六、试点验证术试验。本次试验采用IP与光融合GSE-DCI方案,实现支持多个七、总结与展望本白皮书致力于构建一个先进的智算集群互联系统,融合缩略语英文全名中文解释AIArtificialIntelligence人工智能AIGCAIGeneratedContent人工智能生成内容AMAlignmentMarker对齐标识ASICApplicationSpecificIntegratedCircuit专用集成电路BERBitErrorRate比特误码率BFDBidirectionalForwardingDetection双向转发侦测BMCBaseboardManagementController主板管理控制器CDCColorless,Directionless,Contentionless色无关、无方向、无争用CFPCentumgigabitsFormPluggable密集波分光通信模块CNPCongestionNotificationPacket拥塞通知报文CPUCentralProcessingUnit中央处理器DCIDataCenterInterconnect数据中心互联DSPDigitalSignalProcessing数字信号处理DWDMDenseWavelengthDivisionMultiplexing密集波分复用ECNExplicitCongestionNotification显式拥塞通知ECMPEqual-costmulti-pathrouti等价多路径路由FPGAField-ProgrammableGateArray现场可编程门阵列gPTPgeneralizedPrecisionTimeProtocol广义精确时间协议GPUGraphicsProcessingUnit图形处理器G-SRv6GeneralizedSegmentRoutingoverIPv6通用SRv6HOLHead-of-lineblocking线头阻塞HPCHighPerformanceComputing高性能计算IGMPInternetGroupManagementProtocol互联网组管理协议LACPLinkAggregationControlProtocol链路聚合控制协议LLMLargeLanguageModel大语言模型MSTPMulti-ServiceTransportPlatform多业务传送平台NRZNon-ReturntoZero不归零码OAMOperationAdministrationandMaintenance操作维护管理OCSOpticalCircuitSwitching光路交换OCHPOpticalChannelProtection光通道保护ONMOpticalnavig

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论