2025年ODCC开放数据中心大会:云边协同AI网络技术白皮书_第1页
2025年ODCC开放数据中心大会:云边协同AI网络技术白皮书_第2页
2025年ODCC开放数据中心大会:云边协同AI网络技术白皮书_第3页
2025年ODCC开放数据中心大会:云边协同AI网络技术白皮书_第4页
2025年ODCC开放数据中心大会:云边协同AI网络技术白皮书_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC2504001]云边协同AI网络技术白皮书开放数据中心标准推进委员会ODCC2025年9月版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。DeepSeek发布后,AI应用流量持续上涨、推理和智能体驱动了此背景下,本项目将分析分布式算力基础设施下AI推理及训练的流针对云边协同的分布式算力基础设施,一方面是构建边缘GPUAI云平台等通常位于中心云,也逐渐扩散到边缘侧,构建分布式协同的AI平台,包含算力纳管、资源调度、推理及训练框架、对 1 1 3 3 5 8 8 7 8 1一、云边协同AI发展趋势及挑战(一)算力发展趋势算力云及租赁发展趋势:算力租赁模式发展迅速,海外的三方机房、第三方云、NCP机房的分布式算力对算力进行了快速补(二)AI大模型及应用趋势型的发布,推动了业界AI应用的大爆发,当前主流的AI应用为Reasoning推理式AI应用:从数据驱动到逻辑驱动,指AI根据2的o1模型展示了如何通过高质量数据管理和后训练优化,使模型在Agentic代理式AI应用:从工具到超级助理,核心是“感知-决业级应用中,Agent正重塑业务流程:猎聘的AI面试官节省80%人力成本,微软Copilot通过任务编排代理优化供应链管理。OpenAI3参数量小的蒸馏模型发展也比较快,例如R1-Distill-Qwen-7B、(三)边缘算力集群网络挑战1.AI大模型训练对边缘算力集群网络的挑战AI大模型训练涉及对海量数据进行多轮迭代计算、数据交换和模型参数同步等过程,需要大量的GPU并行计算,为了满足训练集群的高效并行计算,AI大模型训练流程中通常会包含数据并行、流规模的AI模型为例,模型并行产生AllReduce集合通信数据量将达4信你带宽对流完成时间十分重要,机间GPU的高速互联对于网络的何任务延迟或网络拥塞都会严重影响性能。以1750亿参数规模的集合通信包含2*(N-1)次的数据通信子流程,每个子流程需所有节点GPU间数据通信,即东西向流量,且要求无损、可靠稳定的通信,52.AI大模型推理对边缘算力集群网络的挑战低带宽成本,且在网络不稳定或受限环境中确保系统的可靠性。AI低时延需求:AI推理必须实时或接近实时完成,每个查询的响响应能力和可行性越高。高吞吐量及低成本需求:AI工作负载涉及6AI推理的实时性要求高,需要在极短时间内完成数据传输,例为例,AI推理流程包括四个关键数据传输环节:模型参数的初始化集群内的张量并行流量,AI推理需要在极短时7来源:/system/files/osdi24-zhong-yinmin.pdf[1]AI推理进程涉及应用已训练好的AI模型进行决策或识别。AI8(四)云边互联网络的挑战1.AI大模型训练对云边互联网络的挑战如图2所示,边缘机房作为中心算力资源的快速补充,AI云平9据传输主要为异步传输,云边网络时延满足正常通信即可,例如<云边数据高带宽传输压力:AI边缘训练时,训练数据传输、模型checkpoint文件读写、模型归档等流量需在中心与边缘机房间流云边网络快速打通能力:边缘算力租用第三方云或合作伙伴等GPU资源,一般需要采用部署在中心机房的统一算力资源管理和调度系统。要求快速打通中心机房和边缘算力集群之间的网络,以云边通信安全及数据访问安全需求:AI边缘训练场景,训练数段一的边缘AI训练数据、模型都来自中心,要求云边网络传输通道2.AI大模型推理对云边互联网络的挑战边缘算力作为对中心算力的快速补充,LLM推理请求和响应经云边语言交互类业务要求TTFT(首次token输出时间)≤2s。云边互联网络传输推理请求/响应的流量若被其他业务挤占,或边缘与用户侧二、云边协同AI业务及技术目标算力中心,延时和成本优化,阶段三LLM推理和LLM训练进一步推理请求还是会先到中心节点。该阶段边缘算力会组成算力集群,LLM训练过程会在边缘算力集群完成,训练数据在中心侧、云边之库来统一分发。LLM推理实例也会在边缘算力集群,推理请求由中阶段二:AI推理下沉到边缘机房、推理请求就近接入边缘云边端协同。边缘侧算力进一步下沉到近场侧,例如近侧的边缘AI对于快速补充算力资源的LLM云边协同阶段一,云边之间的训(二)边缘算力集群技术目标算力集群网络技术目标:包含集群前端网络、后段scale-up和LLM推理技术目标:PD分离LLM推理,根据异构卡的特点把(三)云边互联网络技术目标云边互联网络是中心及边缘算力集群通信的通道。如第一章第情况下,仍能持续、稳定地提供云边通信服务,保障AI训练、推理大带宽低时延、高并发网络传输保障:保障云边协同中的AI边三、云边协同AI网络关键技术推理后端网络,南北向流量为主的前端网络和独立的存储网络。来源:UE-Specification-6.11.25规范(一)边缘算力集群前端网络关键技术与其支撑的业务应用和边缘数据中心资源紧密耦合。面向LLM训练和推理的工作负载,存储网络通常采用RDMA和GPUDirectStorageRoCEv2、iWarp等协议。GPUDirectSto储设备与GPU显存的直接数据传输,消除了多次内存拷贝、CPU负载高的数据传输瓶颈,远程存储通过NVMe-oF协议和RDMA网络1.边缘算力集群管控些应用又要求实时响应,这对网络的管理和运维提出了更高的挑战。化·微突发检测:识别、检测微突发,是解决微突发引起的阻塞的2.多租户支持和隔离AI边缘应用中,和云核心类似,需要支持多租户。基于数据安富的QoS和队列调度策略更利于支持多租户,此外,网络侧可以使·交换机队列隔离:不同租户交换机队列级别的隔离可以减少邻·物理隔离:某些对安全、及时响应要求极高的应用场景可能需·高效端口复用,降低冲突概率,提升公网地址IP4.长距离RDMA技术优化RDMA在长距、高延迟、丢包场景下的性能瓶颈,引出长距RDMA依赖无损网络环境,在广域网场景中,长距离带来了高延迟和丢包,导致性能急剧下降,云边互通的网关可以基于DPU硬技术进行优化。此外,业界也有研究QUIC多路复用和RDMA相结(二)边缘算力集群后端网络关键技术包含物理层、链路层、传输层:物理层基于PHY规范,更精确预测通信,通常是IB和以太网,两者主要差异在协议架构、性能稳定性业界一直在探讨新的负载均衡方案,包括DLB(DynamicLoadBalancingGLB(GlobalLoadBalancing)等,本章节重点描述一种基于信元(Cell)或包(Packet)负载均衡可以解决这种问题。接收侧负责Cell的乱序重组,从网卡的角度来看,报文仍基于流保·消除哈希偏差:不依赖于流级哈希,消除了流量分布不均匀的2.HyperPort组合成更大规模逻辑算力集群使用的场景。小规模物理算力中心之间目前业界普通支持的基于哈希机制的链路聚合技术,存在于与“负载均衡”章节描述的ECMP类似的问题。HyperPort技术,也是将·链路负载均衡:与基于哈希机制的机制不同,通过动态分配负·报文保序:可以达到传统基于哈希机制的链路聚合技术相同的3.端到端调度最终导致AI任务时延增加。这种现象的根本原因是整个算力集群网4.无损网络无阻塞技术率5.异构组网传统网络中的端侧和网络侧通常需要联合调优各种参数,以获得最佳的端到端性能。例如,网卡的DCQCN参数和交换机的ECN参数,需要联合调优,否则可能导致拥塞反馈滞后或过度,造成端到端性能波动。当不同厂商、不同型号的网卡混合部署时,由于这些网卡基于信元的负载均衡机制和基于Credit的网络调度机制消除了6.FastCNPFastCNP机制在GPU建链时记录流表信息,当交换机检测到拥塞并收到ECN标记后,基于流表信息直接生成CNP报文,并向源端高,边缘可能更甚。除了GPU服务器端,网络侧交换机、线路等较长时间的故障也可能会导致训练中断,需要回滚至checkpoint。Checkpoint保存时间长短的设置通常和模般以小时计。即使边端某些小模型应用场景中配置了小粒度的·周期性的链路、节点检测协议:利用周期性的协议报文,检测(三)云边互联网络关键技术全、高并发、高突发及差异化QoS保障等需求。云边互联网络架构示意图如图7所示。云边互联网络关键技术包括1.云边互联高可用技术2.云边互联高安全技术3.云边差异化QoS保障技术云边业务流量,不同业务优先级、时延带宽需求不同,例如AI流量分类与标记技术:流量分类是差异化QoS的基础,通过识并采用调度算法分配带宽,确保高优先级流量优先处理QoS等级的流量创建独立队列(如“优先级队列”“尽力而为队列”理或逻辑通道层面隔离不同QoS等级的流量,为高优先级业务创建4.云边高性能转发技术用芯片或可编程硬件卸载CPU计算压力,提升转发效率。例如超融储器硬件级并行查找技术,可在纳秒级完成化,软件层面通过哈希表存储会话信息,结合“桶分片”、“预存”减少冲突,支持百万级会话;会话老化与压缩:对长期无流量的会话自动老化释放资源,对短连接(如HTTP请求)采用“连接复加解密优化技术:CPU加解密性能容易成为瓶颈,硬件层面使四、总结与展望未来会持续研究高集成低功耗的边缘算力集群网络技术、AI云五、参考及缩略语/system/files/osdi24-zhong-yinmin.pdf/wp-content/uploads/sites/20/2025/06/UE-Speci5.pdf(二)缩略语AIArtificialIntelligenceLLMLargeLanguageModelGPGPUGeneral-PurposecomputingonGraphicsProcessingUnitsNPUNeuralProcessingUnitNCPNVIDIACloudPartnerCoTChainofThoughtTTFTTimeToFirstTokenTPOTTimePerOutputTokenRDMARemoteDirectMemory

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论