2025年智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告

上传人：1*** IP属地：山西上传时间：2025-08-29 格式：DOCX 页数：64 大小：3.94MB 积分：15 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告1杨金谕、张春、高从文、李圣义、单彤、丁俊峰、熊星、曹龙、于超琪、张丙库、卢超、赵杨、梅敬青、蔡艳召、蒋正顺、李进宝军1序本报告引用和发扬了来自全球计算领域的众多专家学者、技术绿色低碳、高效节能的数据中心。相关部门出台了一系2从硬件形态演进来看，传统的AI产品与架构已不能完全满足新的AI集群能优势而被广泛采用。然而，在液冷整机柜的设计与部署过程中，不同厂家的技术方案缺乏统一标准，这给终端用户的系统选型、设备部署及运维管理带来和UBB（OCP通用基板）等标准化方面取得了显著进展。特别是超节点整机3智算中心液冷整机柜服务器 1开放架构多样化算力兼容研究报告 1序 1第一章背景与挑战 5第二章产业关键技术与创新动态 72.1液冷散热技术 72.2智算软硬件技术 8第三章液冷智算开放、多算力兼容架构概述 3.1系统架构 3.2硬件架构 3.3散热架构 3.4供电系统 213.6管理架构 24第四章智算液冷整机柜服务器 4.1机柜子系统 4.2服务器节点 4.3交换节点 284.4管理模块 4.5电源 30第五章智能运维管理 3245.1管理系统 325.2BMC软件适配 34第六章应用场景及案例 356.1应场场景 356.2案例：超聚变FusionPoDforAI整机柜液冷服务器助力运营商打造高效、可靠、绿色的智算中心 35第七章结论与展望 375第一章背景与挑战近年来，中国液冷数据中心市场展现出强劲的发展态势，以超过30%的年增速迅猛扩张。在此过程中，液冷组件的标准化进程不断加速，成本也随之显著下降。2022年，液冷数据中心市场规模成功突破百亿大关，达到100.5亿元，与上一年相比，同比增长率高达47.2%，凸显出市场的蓬勃活力。在芯片技术领域，先进制程的投资呈现出爆发式增长，然而上市节奏却有所放缓。这一背景下，CPU和GPU等核心主芯片在性能实现大幅提升的同时，功耗也成倍增长。预计到2025年，CPU的热设计功耗（TDP）将达到500W，而GPU的TDP更是高达1kW至1.2kW。这种高功耗带来的散热挑战，使得传统风冷数据中心面临严峻考验。传统6-8kW风冷机柜的容纳能力有限，仅能放置不到8至10台通用计算服务器，或者一台配备8个AI加速器模组的智能计算服务器，导致机柜上架率急剧下滑。实践表明，在单柜功率为15kW的应用场景中，液冷服务器的部署投资回报率（ROI）与传统风冷服务器持平；而在单柜功率40-50kW的更高功率应用中，液冷服务器的部署资本支出（Capex）已趋近于风冷部署方式。这一趋势为液冷技术的推广应用提供了有力的经济支撑。政策层面，自2020年起，国家大力推进新基建政策，积极鼓励建设高能效数据中心。发改委等相关部门相继出台政策，明确提出到2025年，全国新建大型、超大型数据中心的电能利用效率（PUE）需低于1.3，而东数西算国家枢纽节点的PUE更是随着“双碳”目标带来的节能减排压力不断增大，除了在西部和北部部分地区新建的大规模数据中心外，传统风冷式数据中心已难以兼顾节能降耗与提高上架率的双重目标。因此，服务器从风冷部署向液冷部署的转变，已逐渐成为行业内的普遍共识。自2023年以来，生成式人工智能（AGI）的飞速发展引发了对新建智能计算中心训练和推理集群的巨大需求。千卡乃至万卡规模的集群建设，不仅推动了大规模数据中心的建设热潮，同时也催生了对高速互联技术的迫切需求。与云计算基础设施中常见的25GE、100GE互联需求相比，AI集群对200G、400G端口的密度需求提升了8至10倍。为有效降低集群互联成本，高密化液冷部署已成为新建大规模智算中心的首选技术方案。基础电信运营6商和各大互联网企业纷纷加大对液冷技术的试点投入，在全国范围内开展了200多个液冷数据中心试点项目，有力地推动了液冷服务器市场的快速增长。在硬件形态方面，为适应传统风冷数据中心的部署模式，自2002年起，传统AI加速卡大多采用PCIe形态。但随着大语言模型的崛起，内部采用Scaleup低延迟互联的8个OAM模组形态，凭借其卓越的性能优势，已被各大AI厂商的高端产品广泛采用。然而，由于各类AI芯片的功耗存在差异，不同液冷整机厂家的方案设计缺乏统一标准，加上整机柜在供电和制冷能力上的差异，导致终端用户在部署AI集群时，难以实施标准化的部署方案和一致的运维策略。此外，AI集群的运行要求远高于传统通用计算的并行集群，为实现更高的集群资源利用率（MFU）并缩短整体训练时间，对集群的备份机制和单机运维效率提出了更高要求。同时，如何有效降低和控制液冷系统可能带来的漏液风险，也成为亟待解决的关键问题。尽管面临诸多挑战，业界在OAI和UBB接口标准化方面已取得显著进展，为技术发展奠定了坚实基础。随着超节点整机柜架构成为支持更多AI加速器内部高速互联的新方向，8个OAM模组形态预计在未来5年内仍将是AI服务器的主流部署模式之一。为应对上述挑战，本报告聚焦于液冷散热技术、整机柜设计与管理、智算架构设计以及多算力统一架构底座等关键技术领域，提出了一套开放、灵活且高效的液冷智算架构解决方案。该方案不仅能够兼容多种AI加速器，优化AI服务器的部署流程，还能显著提升运维效率，有效降低液冷系统漏液带来的潜在风险，为行业发展提供创新的技术路径和实践指导。7第二章产业关键技术与创新动态随着人工智能对算力需求的高速增长，大模型的快速迭代加速了更先进的算力芯片模组、更高带宽的大容量显存和内存、更大规模的高速互联网络的部署，数据中心呈现更高的单体算力性能、更高的算力部署密度。作为算力承载的芯片模组，单芯片功率突破1000W+，单机柜部署功率密度更是突破100kW+，传统风冷已经无法满足快速增长的散热需求。同时，AI模型训练的电力需求正以惊人的速度增长。例如，GPT-4单次训练功耗超过22兆瓦（MW埃隆·马斯克的Grok-3模型甚至达到了154MW的训练功耗，其单次训练用电的规模，在能源消耗上也需要更经济的高效低碳散热方式。作为一种更高效的散热方式，液冷在解决1kW+高功率芯片散热上都有得天独厚的优势，同时可满足数据中心的PUE降低到1.25以下的要求，有效降低了数据中心TCO，液冷成为智算中心的必然选择。智算中心的液冷部署因为场景的差异存在不同的解决方案。如存量数据中心的小规模改造，使用了冷板式液冷+风液CDU的方式，平衡了供电和单柜散热不足的问题，解决了大功率芯片的应用问题。而大规模改造或新建数据中心，冷板式液冷和浸没式液冷的应用和试点，使液冷的方式更为多样化。浸没式液冷采用工质与发热器件直接接触，实现了发热器件的100%液体冷却，促成数据中心更低的PUE，但对芯片等器件的材料兼容性有更为复杂的要求，需要定制化处理。同时，维护难度、成本方面投资较高。冷板式液冷则采用工质与发热器件间接接触的方式，可以无缝兼容风冷器件，材料兼容性要求相对较低，且简单的维护和良好的经济性，使得冷板液冷成为当前规模商用的主流。围绕散热能力、能效和数据中心改造场景适应性，冷板式液冷在架构上存在多种部署形态，比如冷板+空调的混合液冷、冷板+液冷门的全液冷阶段、以及全冷板。一方面，随着单机柜功率密度的增加，缓解风冷部分散热挑战，液冷散热的占比越来越高，开始出现全冷板解决方案。另一方面，随着单芯片功率密度的提升，对液冷部件的性能提出了更高的要求，8产业链协同推动了冷板流道散热强化、液态金属等高性能导热材料、以及小尺寸大通流的快速连接等技术方案，支持高密短距互连智算液冷解决方案的持续演进。数据中心/云/企业市场直至2021年初，还主要是以单CPU或多CPU系统为主，同时搭配多种类型的加速卡（GPGPU，DSA，ASIC等标准化程度极低。但恰好在生成式AI（即ChatGPT）爆发性增长之前，OCP社区发布了使用OpenRackv3（12kW/机架）和OpenAcceleratorInfrastructure（OAI）的GPU加速AI/HPC系统，包括UniversalBaseBoards（UBB）和OpenAcceleratorModules（OAM）。该成果发布后，吸引业界众多供应商在实际产品设计中适配这些规范。此外作为智算领域事实上的规范设计者和领导者，NVIDIA也推出HGX机箱并在2022年将其贡献给OCP。这些体系结构共同的特点是，优先考虑加速器的互联密度。2022、2023年，OCP服务器项目组向OCP社区贡献了整套规范。DC-MHS的引入支持了传统19英寸机架和正在出现的21英寸开放机架标准的模块化平台体系结构，为新的扩展策略打开了大门。2023年5月，NVIDIA推出MGX平台，虽是NVIDIA独立开发，但与MHS平台愿景一致。2024年年初的NVIDIAGTC大会上，NVIDIA发布了DGX/HGX平台的NVL72扩展，支持高达120kW/机架。在2024年OCPSummit上，NVIDIA将NVL72架构贡献给OCP社区，成为当前超算领域整机柜全液冷服务器的一个事实上的行业标准。在2025年3月的NVIDIAGTC大会上，NVIDIA给出了基于VeraRubin和VeraRubinUltra芯片，代号Kyber的整机柜服务器架构。Kyber架构尺寸与OCP标准机柜一致，但将原来的正前方横插的计算板和交换板，改成前后分别竖插模式，引入Midplane替代GB200NVL72的CableTray，极大减少机柜里的线缆长度。根据规划，Kyber单机柜中将放置144个R系列GPU，总重量2.7吨，总功率700kW，后继规划超过1MW，全冷板液冷，使用0-800V高压供电。考虑到NVIDIA当前在GPGPU领域暂时不可动摇的地位，Kyber架构极有可能成为未来整机柜服务器的事实标准。9此外，我们也需考虑到，智算服务器所提供的算力，最终需要被大模型及其应用所消耗。从2025年初发布的xAIGrok-3和OpenAIGPT-4.5来看，相比上代产品，投入了数十倍的算力资源用于预训练，推理能力的测试结果只提升了大约3-5%，这意味着Pre-TrainingScalingLaw和Post-TrainingScalingLaw可能已经达到尽头，或至少是其边际效益已经降的很低。但随着OpenAIO1/O3的出现，尤其是DeepSeekR1的横空出世，人们发现Reasoning（Test-Time）ScalingLaw还继续有效。对智能算力的使用，预判以后主要将由推理应用所承担。目前有观点认为AI的技术发展路径是从PerceptionAI（感知到GenerativeAI（生成式到AgenticAI开始，Reasoning（Test-Time）所消耗的智能算力，将占总算力消耗的主要部分。配置了新一代高性能GPU的机架服务器，将带来推理性能上的极大提升，也让进行大规模的推理应用有了可能。预期OpenAI，Google，Meta，以及DeepSeek等公司即将推出的下一代ReasoningModel，其本身的基础模型本身的能力还在提升，再配合越来越成熟的AIAgent技术，AI应用将会真正变成一种普惠技术，也意味着将对智能算力的消耗目前还暂未看到尽头。第三章液冷智算开放、多算力兼容架构概述本研究报告的系统架构设计目标，旨在构建统一的液冷整机柜架构，实现对多种东西方AI加速器的兼容。正如图3-1所示，通过灵活更换承载不同AI加速器的UBB模组，即可达成打造统一液冷智算底座的目标。兼容多算力底座的系统架构考虑单机柜部署8台8OAM模组的智算异构液冷服务器，整机柜部署64个AI加速器高性能芯片，整机系统需要兼容各种HGX，UBB1.5和UBB2.0标准接口的载板。在整机系统中做到已经经过管理软件兼容性适配的，在硬件上经过结构件适配的3U灵活子框。总体系统框架定义如下，并进行系统间联动设计而组成液冷整机柜系统：智算液冷整机柜系统遵循以下原则进行整体架构设计：1、模块化，简便部署：以单柜64卡为目标，不同AI芯片可以采用统一的硬件架构、管理体系、组网架构以及运维习惯。最后体现不同之处仅在单柜功率密度有所不同，并且具有相同厂商AI加速器跨代演进支持能力。2、服务器组件盲插运维便利性：部件运输可以盲插操作。在更换故障部件过程中，可以降低单点运维时间，降低人为运维难度，减少运维人为故障因素提高部署和运维效率，从而提高集群MFU利用率。3、液冷原生安全性：三级漏液监测和防护系统，3U灵活子框UBB载板液冷检测和自动关断、4U服务器节点级漏液检测，Manifold盲插防喷溅，机柜级漏液导流，机柜级漏液监控。4、水电隔离的安全性：采用上水下电，左水右电，机箱内水电隔离等布局，防止发生因水路系统组件有故障不扩散不扩大到供电系统。5、降低AI集群总体功耗：通过主要芯片热源覆盖冷板，减少风扇数量降低AI服务器总功耗10%，通过液冷散热系统降低机房总体PUE。硬件架构设计目标，旨在构建统一的AI整机柜硬件设计，实现对多种AI节点实现整机柜部署兼容。如图3-3所示，AI整机柜硬件逻辑上分为计算系统、交换系统、机柜管理系统，各硬件系统之间既相互独立又相互依存。每个AI节点对外提供独立的业务平面和设备管理平面，业务平面通过业务交换模块组成整体业务转发系统，设备管理平面通过带外管理交换模块组成AI节点整体BMC管理系统。同时，支持单独的机柜管理模块，实现机柜级部件的管理。3.3.1.机房散热数据中心散热系统由一次侧与二次侧两部分组成。一次侧包含：冷却塔、水泵、冷水机组、一次侧管路、液冷门。二次侧包含：CDU、二次侧管路、液冷机柜和服务器节点。智算液冷整机柜服务器支持各种场景的数据中心应用，典型新建场景下可以根据机房实际条件选择如图3-4的混合式液冷，也可以选择能效更高的图3-5液冷门式全液冷。对于一次侧液冷冷源，可以选择新增闭式冷却塔作为冷源，也可以和机房空调共用冷冻水系统作为冷源，降低工程难度。对于二次侧液冷系统，主要为服务器液冷提供散热，利用CDU提供循环动力，使CDU二次侧输出的工质水与服务器节点液冷板直接进行热交换，采用液冷散热器将CPU、内存、GPU等大功耗器件的热量带出机柜，服务器其余热量通过机房的机房空调或液冷门带走。随着单机柜功率密度和互连带宽的增加，服务器剩余的风冷散热面临的挑战仍然会较为严峻，解决方案将向着图3-6的全冷板式液冷演进。3-1散热系统组件说明名称说明冷却塔l用于将液体回路的热量散到室外大气中的设备，一般放置在建筑物的室外，出水温度取决于当地气温条件，通常出水温度范围为5℃~35℃。l推荐采用闭式冷却塔。水泵输送液体或使液体增压的设备。CDUl用于液冷电子设备间的冷却液体流量分配，提供二次侧流量分配、压力控制、物理隔离、防凝露等功能。CDU处理液冷机柜内部的直接液冷部分的散热。（CPU等大功耗器件的热量，由冷板直接带走。）lCDU需要配套二次侧管路。液冷机柜提供冷却液体进出，针对电子设备进行冷却的设备。液冷机柜可以由工质水将热量全部带出机柜。液冷门液冷门利用机房一次侧的温水与服务器内部排出的热风进行热交换，将液冷机柜中的间接液冷部分（通常为小功耗器件）的热量带出机房。冷水机组对来自冷却塔的工质水进行冷却的设备，按需使用。一次侧青色箭头表示一次侧进水，红色箭头表示一次侧回水，包含以下两条分支。l冷却塔到CDU的冷却循环水系统。l冷却塔经过冷水机组到液冷门的冷却循环水系统。说明特殊场景指设备的配置和环境规格需要有一定的约束，具体可以咨询技术支持获取。名称说明二次侧CDU到液冷机柜的冷却循环水系统。蓝色箭头表示二次侧进水，红色箭头表示二次侧回水。3.3.2.机柜散热智算液冷整机柜服务器支持混合液冷和全液冷等多种散热方式，液冷门灵活选配。服务器节点的处理器、内存条等大功耗部件通过冷板（如图3-7）将热量传递给冷却液，在manifold处汇流（如图3-8）后回到CDU被冷却，冷却后的流体再经manifold分流至各服务器节点，如此循环带走服务器热量。混合液冷场景下，其余热量通过机房的行级空调散热，全液冷场景下，其余热量通过液冷门散热，液冷门示意见图3-9。3.4.1.机房供电整机柜服务器支持2N供电系统。2N供电系统是指每套IT设备均由2路供电，每条供电回路设计均按N负载能力，在供电系统的整个路径（从供电输入经供电系统直到双电源输入负载）中的所有环节和设备都进行冗余配置（称作N备由这样的两套或多套供电系统组成的冗余系统。正常运行时，每套N系统仅承担总负荷的50%。2N供电系统如图所示。根据设备和系统差异，可分为双路UPS系统、UPS+HVDC系统、市电+HVDC系统等。3.4.2.机柜供电柜内包含1~4个电源框Powershelf，每个电源框可满配12（或18）个PSU，PSU可选双输入3000W、双输入5500W不同模块以适应不同的功率需求。根据功率需求，通过灵活配置Powershelf和PSU的数量，整机柜功率可覆盖至258kW/Rack。使用双输入电源可以极大节约柜内空间、并灵活提供N+M(M=1~N)冗余配置，达到整柜配电成本最优。根据某项目实践数据，柜内空间减少50%、整柜配电成本降低50%以上。电源框电源框包括框体、PSU模块、PMC管理模块三大部分，电源框结构形态包括2U、3U。电源框为双路供电，最大支持4路三相63A供电（2+2可支持AC+HVDC、AC+AC、HVDC+HVDC三种不同输入供电。AC输入电压规格380Vac-415Vac(三相五线输入)，电压范围346Vac~457Vac，频率范围47-63HZ；HVDC范围支持190-400Vdc。电源框含3+3路C13插座，可提供柜内交流220Vac供电。电源框输出为54Vdc，可通过CLIP盲插头或铜排等不同方式与柜内BUSBAR供电连接。电源框技术参数：机柜管理模块PMC管理模块主要提供机柜管理功能，包括资产管理、电源模块管理、温湿度监控、功耗管理、液冷机柜漏液检测和二次侧管路漏液检测等功能。AI集群基础设施组网需求，参考UEC联盟图示（UltraEthernetConsortium）通常分为以下几类：1、集群带内管理主网络；2、参数面Scale-out网络；3、多卡高速互联的Scale-up网络；4、服务器设备的带外管理运维网络。集群带内管理主网络（也称为南北向网络与传统云计算计算节点的网络需求类似，负责用户对AI集群的访问，容器的调度管理，AI异构加速计算节点与高速存储系统之间的文件读取，训练过程中CheckPoint存储和调用等功能。大部分的云服务商采用带内管理+存储+用户业务网卡三网合一的DPU网卡来部署南北向网络，私有云中也有带内管理，存储网和业务网三网分离架构。参数面Scale-out组网（也称东西向网络通常每个AI加速器配置一个高速网卡（200GE，400GE，800GE或IBNDR200bps，NDR400bps，或未来的XDR800GbpsScale-out集群网络技术和组网范围成为作为组建万卡，十万卡等集群的主要的网络。也是AI集群组网成本最高的部分。通常EP、PP、DP并行的通信负载由Scale-out网络来承载。Scale-Up是卡间互联网络通道，通常采用低时延的内存语义通信，卡间全互联拓扑或Hyper-Cube拓扑，使卡间的通信带宽数倍于Scale-out网络需求。承载的主要是卡间TP或EP并行的数据通信。Scale-up网络的低时延和极高通信带宽使得不同AI加速器的全互联局限在一个系统机箱内部或一个液冷整机柜内部。卡间互联的最大规模、带宽和时延也通常可以代表此AI加速器的先进程度。服务器设备的带外管理网，与其他设备（DPUBMC口、交换机和存储设备的带外管理网口等）的带外运维管理系统合一，组建统一的运维管理系统网络。通常采用BMC的GE其中Scale-up网路通常处于一个AI服务器内部，但Nvidia在最新的GPU系统中推广NVL72,NVL144以及NVL576的整机柜产品，成为业界新的支持更多卡高速低时延互联的超节点新形态的设计方向。在本文中液冷多算力兼容的平台设计中主要考虑对参数面Scale-out（东西向）网络，云基础设施管理（南北向）网络，以及带外管理网口的合理布局和实现，满足千卡，万卡，十万卡的AI集群的互联需求。在综合了各类网卡数率以及互联使用的铜缆或光纤数量，并结合运维便利性和跨柜组网需求以下图为例，展示了AI液冷服务器的网络IO布局。当每个机柜部署8台8OAM模组服务器时，单柜可部署64卡，16柜即可在一个数据中心冷热通道标准模块内部部署1024卡（即千卡集群）。从组网架构看，8OAM服务器在PP并行通信中，适合采用8轨道（Rail）优化布局。即8个AI加速器的高速Scale-out网卡同时连接到第一层的Leaf交换机上。4个液冷机柜共32台服务器，256卡组成1个SU组网单元。采用1组64口400G交换机。以2048卡集群互联拓扑为例：这种标准化网络架构组合可以通过采用更多一层交换机的端口数和二层三层网络组合方案，自由扩展到更多PoD组合，组建10万卡+集群。管理架构设计目标，旨在构建统一的AI整机柜管理系统，实现AI节点、交换模块和机柜的统一管理，以及各模块独立演进。如图3-20所示，AI整机柜管理架构包括AI节点BMC管理系统、交换节点管理系统和机柜管理系统。AI节点BMC管理系统AI节点直出BMCGE接口，连接到带外管理交换机，带外管理交换机通过上行接口连接到数据中心带外管理平面，同时机柜内管理模块的带外管理网络也通过GE口连到机柜带外管理交换机。交换节点管理系统交换节点提供管理接口接入机柜带外管理交换机网口，再通过带外管理交换机汇聚到客户侧带外管理网络，接入数据中心网络管理系统。机柜管理系统机柜管理模块通过CAN总线连接电源模块，通过交换节点上行到数据中心管理平面。第四章智算液冷整机柜服务器外部结构1机柜门2温湿度传感器（选配）3液冷机柜4液冷门（选配）5管理模块6电源框7直通板89交换机理线托盘机柜侧门服务器节点加强托盘--AI节点设计目标，旨在构建统一的AI服务器架构，实现多种东西方AI加速器在服务器内兼容。如图4-2所示，AI节点整体4U高度，包括3UGPU模组和1U存储和管理模块，硬件架构上实现解耦设计，3UGPU模组实现独立演进。如图4-3所示，AI节点GPU模组支持独立插拔和适配，实现多种东西方AI加速器在AI节点上快速兼容适配，而不影响其他模块。如图4-4所示，AI节点GPU模组包括盒体、GPUUBB模组、冷板模块，通过更换GPUUBB模组，即可实现快速灵活多样GPU兼容适配。交换节点设计目标，旨在构建灵活适配的整柜交换系统，采用标准和通用的交换机实现AI整机柜的业务和管理网络架构。如图4-5所示，整机柜独立的交换系统区域，实现整机柜AI节点Scaleup和Scaleout业务交换平面扩展，以及带外管理交换平面部署。管理模块，主要提供机柜管理功能，包括电源模块管理、温湿度监控、功耗管理、液冷机柜漏液检测和二次侧管路漏液检测等功能。管理模块安装在智算液冷整机柜服务器的电源机箱内，与电源模块共用电源机箱。电源模块使用双输入电源、54V输出，双输入电源可实现两路供电自适应切换或命令控制切换不同的切换方式。电源为主动式PFC，主功率拓扑为三相PFC+全桥LLC，输入电压交流范围90Vac－264Vac,HVDC:190~400Vdc，效率>97%。电源支持过压、欠压、过流、短路、过温保护，具备主动均流和2.5A/us的动态EDPp负载能力，均流精度≤±5%（20%~100%负载）。电源模块技术参数：第五章智能运维管理智能管理系统作为数据中心硬件全生命周期管理系统，支持液冷整机柜服务器的监控、智能节能、自动升级、排障等，同时可监控冷量分配单元CDU。1.监控：支持对液冷整机柜的实时告警与性能指标监控，同时结合服务器节点的部件统计、性能统计，实现整机柜的全维度监控。2.智能节能：通过能耗统计监测机柜负载情况，并根据实际情况设置功耗封顶策略，提升机柜供电利用率。a)功耗封顶：将机柜的供电能力看作供电资源池，基于“预测功耗+实时功耗+服务器优先级”动态调整机柜中每个服务器的功耗封顶值。b)削峰填谷：在机柜功耗达到一定高度时，由机柜电池模块提供高出部分功耗，当机柜功耗下降后，又可以利用电源多出的功率为电池充电。利用这种用电高峰放电，用电低峰充电的机制达到能耗的削峰填谷。3.CDU监控：支持监控及性能指标告警，性能指标包括CDU/机房内部温度湿度、介质温度、介质压力、水阀&水泵及一次侧流量等数据。4.自动升级：批量升级整机柜的管理系统，及所有节点BMC、CPLD等固件。5.排障：结合故障告警、性能数据及硬盘和内存的故障预测，实现整机柜的故障定位。单板管理软件对智算模组的散热管理、故障管理、资产管理等运维管理功能是保障算力正常运行的先决条件，面对多样化算力的浪潮，不同的智算部件管理接口存在多样化的特征，构筑多算力统一管理架构底座势在必行。BMC需支持多样化算力厂家部件的快速兼容适配，需实现软件架构分层解耦，各生态厂家GPU对应的BMC管理模块支持独立开发，快速适配。各厂商管理接口存在差异，可在BMC内部抽象出GPU管理适配层，同时统一对接管理GPU的南向接口与对接用户侧的北向接口，BMC内部GPU管理模块以独立组件形式运行，数据交互解耦设计，GPU管理模块运行异常、数据异常不会

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告

文档简介

温馨提示

最新文档

评论

2025年智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告

文档简介

温馨提示

最新文档

评论

相关文档