2025年ODCC开放数据中心大会:AI 超节点内存池化技术白皮书_第1页
2025年ODCC开放数据中心大会:AI 超节点内存池化技术白皮书_第2页
2025年ODCC开放数据中心大会:AI 超节点内存池化技术白皮书_第3页
2025年ODCC开放数据中心大会:AI 超节点内存池化技术白皮书_第4页
2025年ODCC开放数据中心大会:AI 超节点内存池化技术白皮书_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2025-03004]AI超节点内存池化技术白皮书开放数据中心标准推进委员会ODCC2025年9月版权声明ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。当前,生成式人工智能浪潮正深刻改变着全球的计算格局。在型算力形态正迅速崛起,成为支撑智能时代的重要基础设施。随着模型规模不断扩大、数据复杂性持续上升,AI工作负载了异构资源分布不均、利用率低下等问题,更为大模型训练、大模型推理等典型场景提供了灵活、高效、可扩展的内存解决方案。在节点内存共享,进而打通GPU与CPU之间的资源壁垒,最大化释宽与延迟瓶颈、存储语义不一致、开发接口复杂、资源调度策略不完善等问题,如同一道道技术屏障,阻碍着池化体系的真正落地与广泛部署。如何构建统一的寻址空间?如何实现异构设备之间的内存一致性?如何提升池化资源的调度智能与跨域弹性?这些问题亟AI超节点内存池化不仅是面向当前AI模型需求的现实解法,计算将不再受限于本地显存或静态配置,而转向真正的资源弹性、加快技术落地提供有力支撑,共同构建一个面向未来、可持续演进 3 5 7 7 8 2 5 8 9 4 1一、AI超节点内存池化技术背景更是支撑大规模模型训练与推理稳定运行的基础能力。当前础设施普遍采用高度分层化与异构化的存储体系,包括片上L1/L2地NVMe/SSD等。模型在训练与推理过程中,数据需在多层存多GPU训练场景中,模型参数和激活值需要显式地从HBM迁移2同时,AI应用场景呈现出高度的异构性与多样性,不同任务对来源:ETH-X文档,腾讯DeepSpeedZeRO-1或ZeRO-2等策略将部分优化器状态卸载至3当模型规模达到200B参数级别及以上时,即便通过DRAMSSD多层资源,并具备良好的传输调度机制以保障训练过程中的延在大模型推理中,尤其是需要长上下文或高并发处理请求时,推荐系统场景常伴随着海量特征交互与向量计算,对CPU侧景要求池化系统具备良好的CPU-GPU跨域数据共享能力,通过统(二)AI超节点内存池资源组成超节点内存池在硬件上包含CPUDRAM、GPUSRAM以及4别高片内NoC储高Host主存或别中络服务器内闪存低络来源:燧原科技5来源:燧原科技相比传统单机8卡,AI超节点内存池的差异主要体现在支持多Node间的Scale-up网络传输。在超节点出现之前,节点间多Node的数据搬运都依赖于Scale-out网络互联,而由于超节点产品本身支可以称为MultiNode技术。(三)AI超节点内存池化技术的定义和目标内存视图,使系统能够像管理单一物理资源一样,对跨CPU、GPU而显著提升AI超节点的算力释放效率,从而支撑更大规模、更高并6承载小规格模型的内存片段组合为可供更大模型业务使用的整体空移至CPU内存,从而释放宝贵的显存空间,满足超大模型推理和训练的需求。这种协同机制为AI超节点在应对动态、复杂、超大规模7二、内存池化架构与关键技术平衡等方面的挑战,难以满足大模型训练与推理需求高涨背景下AI大模型训练、KVCache推理等典型场景提供灵活、高效、可扩展的(2)智能分层引擎:包括冷热调度、资源分配、热点感知、负8来源:中国电信1.统一API接口于不同层次的存储多依赖的互联网络以及后台支撑的实现方法的不9来源:燧原科技生的原子指令,或者通过IBGDA来调用网卡的RMDAAtomic功能来源:燧原科技2.智能分层引擎经常访问的冷数据。尤其在transform架构的大语言模型场景下,在attention计算中出现的KVCache数据具有重复使用,减少计算的特来源:中国电信来源:中国电信集每个数据块的访问频度或最近访问时间,以指数平滑或LRU列表处理请求时,通常先检索现有的KVCache数据,在检索到存在相同智能分层算法根据数据的热度信息将数据指定到对应的存储层数据迁移操作是将数据根据分层的结果迁移到指定的存储层。其主要环节包括在目标存储层分配新的存储空间,从原存储空间将数据拷贝到目标存储空间,修改数据索引中的存储位置,删除原存储空间的数据。根据迁移操作的实时性,可以分为同步迁移操作和异步迁移操作。同步迁移操作在发现数据与所存储位置不匹配后触发中断,立即发起迁移操作,这种方式可以减少数据热度与存储位置不匹配而带来额外消耗,适用于资源紧张或数据重要的情况。异步迁移在发现数据存储位置不匹配后滞后迁移操作,以固定延迟、批量迁移、带宽条层机制的支持程度不同。例如阿里云的大模型推理缓存服务Tair解决了大模型推理中的显存瓶颈问题并提高了整体计算效率;共享主机内存、固态硬盘或网络对象存储的多级存储架构,Dynamo深层级的数据分层结构。3.内存池化管理内存池化管理的核心在于将分布在多台GPU及主机上的异构(2)分页式统一编址:逻辑地址统一、物理内存分散,借助缺来源:燧原科技这样,上层框架既能快速构建跨卡、跨节点的全局虚拟地址,又能在资源拓扑感知要求管理层实时发现并利用底层硬件的物理连接优先分配物理连接最近的设备配优先将任务的内存分配对齐问延迟加权交错根据权重在节点上的权重分别为[5,2],则每当来源:云豹智能段可分配相同内存。这种静态规划方法在动态shape情况下受限,要工作空间(workspace)的算子可以在顺序执行时共用一个预留缓后者在深度学习框架中应用更广泛。MindSpore的内存池即使用来源:云豹智能用的缓存块回CUDA驱动,以供其他应用使用。需要注意的是,这平调度。譬如硬件层面,NVIDIA提供了多实例GPU(MIG)和多引擎,保证了不同用户之间的内存隔离;MPS则允许多个进程共享公平性等策略分配GPU,以确保多任务环境下资源高效且安全地使预先申请大块GPU显存以提高效率(可通过配置启用动态增长模为,可通过设置如cudaMallocAsync等参数切换到动态增长型内存MindSpore:提供高度可配置的内存池与复用方案。其内存池使用Best-Fit算法,并支持动态扩张和碎片整理。内存复用方面支持DeepSpeed:针对大模型训练,DeepSpeed4.硬件资源互联Scale-up互联是实现超节点内多级内存池化的底层基石。传统在物理层和链路层同样复用以太网技术,在Transac大小的flit封装,大幅降低包处理与排队开销,力求将端到端延迟收敛到数百纳秒范围内;(2)以太总线路线:其基于增强型以太网协议,代表方案如博内存语义通信,通过静态连接与链路重传简化协议设计,保障面对跨机房、跨机架的更远距离互联需求,Scale-out方案主要易受Incast风暴影响,新一代DPU/网卡通过UEC和进化版在网络设备侧进一步卸载压缩、加密和数据预处理功能。借助类似行聚合和汇总,为分布式训推过程节省宝贵的跨节点带宽。存和重载,推理过程中为KVCache提供大容量低成本替代方案。基面向更大规模和长距离的统一互联方案也在持续探索。诸如直连实现900GB/s的超高带宽可访问CPU端的LPDDR,显著提升大模型可用内存资源。随着英特尔、AMD、谷歌等企业联合推动,旨在解决CPU与加速器协议实现了设备附加内存与主机CPU内存空间的无缝映射和缓存一的“缓存行”粒度,透明且高效地访问连接在存池。这不仅解决了传统基于PCIe的加速器在内存容量和访问效率效率。这些加速器可以通过同样基于CXL的高速、低延迟链路CXL内存池将分散在多个加速器或存储设备中的内存资源高效地汇率和系统的灵活性。其物理层兼容PCIe5.0/6.0的特性也保证了高速带宽和低延迟。因此,CXL正成为构建下一代高性能计算、三、内存池化行业实践分析(一)ZeroOffload技术方案ZeRO(ZeroRedundancyOptimizer)是一种用于大规模模型训练来源:DeepSpeed,微软(二)MoonCake技术方案提升了有效请求处理容积,降低了在线推理的pertoken的成本。来源:MoonCake,KIMI月之暗面(三)LMCache技术方案来源:LMCache官方文档,芝加哥大学LMCache同时支持PD分离的运行配置,通过配置不对称的(四)Dynamo技术方案NVIDIADynamo是一个高吞吐量、低构和分布式环境的推理任务处理键值(KV)缓存块的内存分配、管Dynamo设计为与推理引擎无关,底层支持TRT-LLM、vLLM、周期管理策略。在传输层面,Dynamo使用高性能异构存储传输库构框图如下:来源:NIXL官方文档,英伟达(五)3FS技术方案一致性,支持的业务场景包括数据集加载、检查点、KVCache卸载空间消除数据冗余拷贝,结合缓存一致性协议(如CXL.cache/四、未来发展趋势(一)超节点主机级:基于跨级存储的资源调度优化方随着AI模型规模和推理任务复杂度的持续上升,AI超节点中的容易出现显存碎片、DRAM冗余、SSD频繁抖动等现象,进而引发性能波动甚至任务失败。尤其在KVCache推理、参数预取、权重复模型对不同数据块的时空局部性与生命周期2)数据分层与迁移策从落地可能性看,相关技术正处于快速成型与试点部署阶段。一d硬件基础已逐渐满足高效调度系统的运行需求。此外,在以DPU为代表的可编程互联技术支持下,数据流控制能力进一步增强,也为调(二)超节点芯片级:基于Chiplet设计思路的芯片设计探索方向CPU与GPU分立内存导致的“数据搬运瓶颈”正成为AI性能提升1.Chiplet互联需要缓存一致性C2C协议现有的片外互连(如PCIe)是为连接独立的封装设备或扩展内Chiplet芯片系统通常需要极高的吞吐量、超低延迟、缓存一致性、2.Chiplet“通用标准”需要缓存一致性C2C协议的分包格式,避免复杂的数据重组操作,较传统PCIe方案有更低的3.CPU-GPU统一共享内存池需要缓存一致性C2C协议存。CPU或GPU任务需要内存时,从统一共享内存池中获取。任4.生态与落地需要开放的缓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论