AI机房基础设施系统建设_第1页
AI机房基础设施系统建设_第2页
AI机房基础设施系统建设_第3页
AI机房基础设施系统建设_第4页
AI机房基础设施系统建设_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI机房基础设施系统建设ConstructionofAIComputerRoomInfrastructureSystem供电技术散热技术运维管理机房基础设施建设Content

ZOMIGitHub2供电技术01芯片单体功耗急速增加,单台服务器功耗提升●芯片方面,英伟达的H100

和H200

单芯片功耗为700w,GB200

达到2700w,

单芯片功

耗显著提升;·

服务器配置方面,

NVL32GPU数量为32颗,

GB200

NVL72架构则需要72颗,单机柜部

署4台服务器至9台服务器,整体功率要求大幅提高。传统每台8卡A1服务器单机柜的功率将达

4okw

以上,而NVL72

单机柜功耗提升到120kw。■TGP(W)270025002000-1500-1000700

700400500-0B200

GB200单位:kW每机柜(典型值)2-3机房计算机时代

数据来原:华为、东方证等研究所

20-50AIDC智能时代4

GitHub图表:英伟达单GPU

耗5-8云DC大数据时代3-5DC互联网时代图4:不同时代数据中心机柜的典型功率

ZUMIH200

GH200

B100A100

H1001000-~10030001000700单位机柜密度提升·

据Vertiv预测,2024至2029年,每机架的

GPU

数量将从36个显著增长到576个。机柜的物理空间相对有限,未来机柜的功率密度将快速提升,RubinUltra时期,AIGPU峰值机

架密度功耗最高或超过100okW,

进入MW时代。MustrativeNMDIAAIGPURoadmapAnticipated

A/GPUPeakRackDensity'EstimatedAIPodAverageRackDensity²Projected

industryAverage

Rack

Density,InstallationsBlackwell→130-250kW-40-100kW~15-25kW-100-350kW-350-500+KW-25-50kW

~50kW+图

:Vertiv

最新预测2024

2025进入MW时代2028

2029Rubin

Uitra5

GitHub2028BlackwellUItra

ZOMI-250-900

kW12027Rubin36xt0576x

GPUs

per

rack-900

-1000+kW通算中心时代智算中心时代智算中心时代部署集群2万台服务器

电力容量约

20MW万卡集群:1024台H100

的8卡服务器

电力容量约20MW10万卡集群接入电网的解决方案四路10KV电源

的电网四路10KV电源

的电网要自建110kV

或接入更高电

压等级电源的

电网-2万台==1024台?那么10万卡集群?需要10倍电力-智算中心园区的算力容量上限是发电厂和电网容量的上限。电力能源接入挑战6

GitHub

ZOMI单机柜功耗(单机柜密度)供配电系统占

地面积随着智算中心的单机柜功率密度的快速提升,变配电室面积必然随之大幅度增加,智算中心的建设方案需要考虑供电系统更多的占地面积。2.5KW-5kW通常为IT设备占地面积的1/4

左右8kW通常为IT设备占地面积的1/2

左右16kWIT设备占地面积几乎相同配电与IT

机房的面积比挑战7

GitHub

ZOMI。电能利用率挑战。能源消耗效率高要求、节能将碳服务器电源形式挑战。智算负载分级供电挑战末端配电方式挑战负载动态冲击挑战。环境温度突变挑战8AIDC

供电背景-各种挑战

ZOMIGitHub数据中心供配电系统●双路电源供电,10kv市电进线到数据中心服务器的末端,常见的两路供电同时处于热备份状态,一路断电时另一路会支持关键负载持续供电。从上游到下游包括中压柜、变压器、低压配

电柜,配电柜进线进到UPS,

通过整流再给到PDU

做最终分配,分配给各个服务器。两路市电,

一到两路柴发,变电设备,开关设中高压配电备,双电源设备、母线等

一中高压配电◆各种低压柜,元件、母线等

低压配电列头柜,PDU,

元件,母线等

终端配电中压ATS市

电A

回10KV压警A40Ov主配电柜厂分配电柜或暂能小母线列头柜低压母联A

路UPS

B篮UPS400V

主配电柜分配电拒

回具或中压柴发机组中压ATS市

电B中压母联配电柜

20KV配电柜

发电机组显变压器B机

智能小母线列头柜AC-DC,DC-DC,超级电容,

BBU风冷液冷图表:数据中心供配电系统一级电源

:HVDC/UPS灾备电源

:柴油发电机◆服

源一图出图图g配

统冷

统电

统图

wa

目nBb数据中心供配电架构:2

N、DR、RR·2N

系统:2个供配电单元同时工作,互为备用,每个单元均能满足全部负载的用电需要。·DR

系统:分布冗余。由N(N≥3)个配置相同的供配电单元组成,

N个单元同时工作。将负载

均分为N

组。·RR

系统:后备冗余。由多个供配电单元组成,其中一个单元作为其它运行单元的备用。当一个

运行单元发生故障时,通过电源切换装置,备用单元继续为负载供电。图表:数据中心2N

系统配电架构

图表:数据中心DR

系统配电架构

图表:数据中心RR

系统配电架构市电电源市电电源10V

配电变压器变压器10kV

ATSUPS

UPS变压器UPSUPSSTS

S1SIT负载10kV配电变压器

变压器UPS

UPS备用电源

市电电源10KV配电10kV

ATS变压器UPS10kV

ATS变压器UPS10kV

ATS变服器UPS10kVATS变压器UPS10kV

ATS变压器UPS市电电源10kV

电IT负载

IT负载T

负载IT负载STS

3SST

负载市电电源10kV配电市电电源10kV配电10kVATS变压器STST备用电源备用电源IT

载IT

负载IT负数负载HubSTSZDC/DCGitHub48V/50deP90(CDC)48/50VdeP52(BCDC)48/50VdePS(DC/DC)48/50Vdc(BCDC)11240/336Vde也器选流↓密

电池组240/336Vdc直这始由电池组800Vde电池组HVDC起巴

马电

源固态货压器SST10/13.8KVac市电10/13.8KVao市电10/13.8KVae市电10/13.8KVac市电bPOU240/336Ydo格官配电#P240/336Vde精蜜配电P00数据中心电源方案400/4BOVae

400/180Ve做压变压器

井关帏

抽入站效UPS主机

ZOMI数据来源:台达、Vertiv、

东方证券研究所者再骨关L感来230/40OVae配

电要就电池组oliovue官400/480Vae

400/40Vao手蜘会路体势骨关低压

开关柜woet入连变压器ne项目U

P

S

统H

V

D

C

统巴拿马电源SST系统系统效率95.1%95.1%97.5%98.0%占地面积100%80%40%24%重量NANA100%50%配置快速性一般一般移相变定制模块预

制化预制化,速度快当前市占率主流较低低试点阶段,极低核心优势技术成熟高能效占地面积小极高密度兼容性强适配高功率密度适配高功率密度综合性价比高主要挑战损耗相对较高初期投资高初期投资高技术不成熟占地面积大需配套改造运维经验少高压运维难度大数据来源:台达、Vertiv、中国西电、东方证券研究所12

GitHub数据中心电源方案

ZOMI手动旁路维修开关旁路开关LC

STS

列头柜

IT机柜电池组UPS主

机·UPS

不间断电源

(UPS,Uninterruptible

Power

Supply)

是一种电力保障设备,它能够在主电源发生故障时,如停电、电压波动或频率异常时,立即切换到电池供电模式,通过多步骤

转换和净化,实现高效不间断供电,是市场主流。13GitHub

ZOMI输入站波市电变压器DC/AC

逆变DC/DC

升压低压开

关柜整流·HVDC

较传统方案环节精简,高效低损优势体现。高压直流输电

(HVDC)是一种将交流电转换为直流电进行传输的电力传输技术,具有输电距离长、损耗小、稳定性好等优点。列头柜电池组14

GitHub市电

变压器

ZOMI输入滤波低压开

关柜电容滤波IT机柜HVDCAC/DC巴拿马电源·

巴拿马电源巴拿马电源系统简化链路,提升整体能源效率。巴拿马电源方案中市电直接通过移相变压器,将高压交流电转换为较低电压的交流电,相当于变相整合了HVDC

方案中的前置变

压器以及输入滤波环节,以更紧凑的形态适应数据中心的用电需求。移相变压器巴拿马电源列头柜电池组直流输出15

GitHub

ZOMIIT

机柜市电AC/DCSST

固态变压器·SST

高效率、高密度、低成本,AIDC

潜在终极供电方案。固态变压器

(Solid

State

Transformer,

简称

SST)

是一种新型变压器,它通过电力电子变换技术实现电压等级转换和电力传

输的智能化设备。SST

集电气隔离、电压变换、无功补偿等功能于一身,通过对传统变压器和电力电子设备的集成化,可提高电网设备的智能化水平。图24:

SST固态变压器技术路线图Power

Grid

Solid-State

TransformerHVACAC

HVDCDCC

°c°cStorage数据来源:PowerMagezine、东方证券研究所16

GitHub

ZOMIInput

StageOutputStageACLoadDCLoadACACDCLVACLVDC会°AIDC

配电:预制化、模组化、智能化是未来趋势●预制式电力模组设备在工厂进行预制和模块装运,在现场进行快速组装,能够根据实际需求选取相应模块拼装成整体模组方案。图表:预制式供配电模组构成TrainManagement

System)供配电全功率链管理,实时监控管理,保障系统可靠性DCIM0110kV/0.4kVMains变电

模组

,EPK-6300

EPK-2500UPS

SPM图表:智能化系统连接示意图17

GitHub

ZOMIPTMS(Power□□

=9散热技术02散热制冷背景图表:机架密度与冷却方案3kw5kw

10kw

15kW

20kw30kw50kw>75kw主动式热管背板被动式热管背板带密封装置的列间冷却外围CRAC,架高地板,密封装置外围CRAC或AHU传统机柜功率密度OMDIA

DataCenterCapacity

Roport2023100kw

>150kw>200kw液冷1代AI训练模型2020-2023120-30kWD200+2代AI训练模型2022-2025140-50kW3代AI训练模型2022-2025170-200kW19

GitHub

ZOMI图表:数据中心制冷技术对应PUE

范围相变浸没式非相变海投式冷板式直接新风技术自向接蒸发冷却技术冷志水风冷(带自然冷)风冷液冷技术接触方式不同冷板式是否相变单相冷板式两相冷板式单相浸没式相变浸没式1.00

1.101.201.301.401.501.60PUE液冷散热技术22

GitHub

ZOMI冷冻水系统(带自然冷)浸没式喷淋式技术路径趋势风冷直班技术是善相变氟泵技术液冷液冷技术通用架构●架构清晰,能量逐级传递。液冷架构主要包括三个部分:热捕获、热交换和冷源。以数据中心应用为例,热捕获发生在液冷机柜内,指的是使用冷却液体将IT

设备产生的热量带走。热交换

即连接液冷系统一次侧和二次侧的“桥梁”,即通过CDU

(冷量分配单元)对资源进行分配与

交换。冷源一般布局在数据中心外部,热量在这一部分与自然环节交换,完成处理。数据中心机房②

热交换

液冷机柜①热捕获液冷服务器

ZOMI③

冷源GitHub冷板式液冷·非接触式液冷,通过液冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体带走热量

。24

GitHub

ZOMI冷板育门就机柜示息图(左:正面右:背面)帮分冷板式CPLD

板设计方庭全冷概式液冷服务器室内侧液冷机柜poD0CDU冷量分配单元高温冷却液高温冷却液一次侧循环冷却液二次侧循环冷却液低温冷却液冷板式液冷●热量通过液冷板间接传递给冷却液,再由冷却液带走热量。冷板式液冷的工作原理如下:数据来源:《中兴通讯数据中心液冷技术白皮书》、东方证券研究所25

GitHub

ZOMI低温冷却液室外侧冷却塔DD

0000Po纯水液单相冷板式配方液冷却液碳氢机有机硅类两相冷板式碳氟化合物数据来源:《算力中心冷板式液冷发展研究报告(2024年)》、东方证券研究所26

GitHub单相和两相冷板式液冷技术·

是否汽化

ZOMI非水基冷却液水基冷却液设冷凝器a应%m应备二次俩供液r

设计算机柜《内置刀片式浸没腔体)相

图濠疫在非导电油中的基于24白英特尔全强处理器的酸务器浸没式液冷·发热部件直接浸没入冷却液,通过直接接触实现热交换。·

单相浸没冷却

(SPIC)指冷却剂仅以液态形式传热,通过冷却液与电子元件的直接接触进行热

交换的液冷技术。·

相变浸没式液冷是以低沸点液体(如氟化液等)作为传热介质,将发热电子元件直接浸没于冷却液中,通过冷却液与电子元件的直接接触进行热交换的液冷技术。有液态和气态变化。27

GitHub

ZOMI机

墙二次侧回液/气室外冷涂设备激冷连接管路一次例出液一次进液CDM室外侧CDU冷量分配单元冷却塔

高温冷却液IT设备一次侧循环冷却液低温冷却液浸没式液冷·

单相浸没式液冷的二次侧冷却液在热交换过程中不发生相态变化,仅依靠物质的显热变化进行热量传递。数据来源:《中兴通讯数据中心液冷技术白皮书》、东方证券研究所28

GitHub

ZOMI二次侧循环冷却液单相浸没腔体低温冷却液高温冷却液室内侧室外侧

室内侧n88CDU冷量分配单元设备高温冷却液T

设备一次侧循环冷却液低温冷却液数据来源:《中兴通讯数据中心液冷技术白皮书》、东方证券研究所29·

直接面向芯片级部件,冷却液喷洒至发热器件实现精准冷却。喷淋式液冷高温冷却液二次侧循环冷却液

低温冷却液

ZOMI喷淋式液冷机柜IT

设扬回液箱冷却塔GitHubT

设备液令柜盲插头液冷芯片

液冷节点/机柜冷源系统液冷分配泵系统液冷冷源液冷方案·从芯片到服务器机柜到机房的液冷散热系统30

GitHub

ZOMI电接口-管理接口液冷水接口C

D插接箱一

插接箱插接箱一bbH播接箱blod预留预留预留空

调风冷柜风冷柜液冷柜空

调液冷柜液冷柜C

D

n液冷方案·

大型AI

DC机房分区示意图风液混合区(通智混合业务)风

冷冷风液比2:8网风液比4:6网空调

风冷

冷风

风冷风冷

空调空调

液冷

液冷

液冷液冷

液冷空调

液冷空调风

空调空调风

风冷液冷

液冷

液冷液冷

液冷风

冷风

冷风冷液

液冷

液冷

冷液冷

液冷

液冷

液冷31GitHub液冷

液冷

液冷

液冷风冷区(通算业务)

ZOMI液

液冷液冷空调空调空调空调

空调

空调风

冷空调

空调风

风冷冷恐屡恩空调空调风

冷风

冷风

冷风

风冷

冷风

冷风

冷风冷

风冷风空风冷调冷恐冷屡

冷风冷风冷风,

冷架高地板风

冷液

冷风

冷风缝U运维管理03AIDC运维系统动力监控配电

UPS

蓄电池

发电机低压开关柜高压开关柜环

□温湿度漏水

新风系统

精密空调普通空调安防

控烟感

视频摄像

红外

门禁其他扩展机柜

服务器交换机

其他设施智能运维实时监控

故障自愈自动巡检设备远程

配置业务配置

性能监测

其他运维综合告警□声光

邮件

短信

短信猫钉

钉钉钉

企业微信数据分析资产管理

日志管理工单数据GitHub综合分析33巡检统计流量分析

ZOMI控、功耗优化、设备异常告警等典型业务场景。盒

日Tieie3tme334

GitHub数字孪生机房●

数据中心类数字孪生场景打造,内置丰富的IDC行业通用3D模型资源,快速搭建属于自己的数字孪生机房,并结合强大的数据集成和处理能力,进一步应用于能耗指标展示、温湿度调

ZOMI机房智能巡检●

巡检机器人主要应用于各类巡检场景下IDC

数据中心机房的日常运维工作。依靠搭载的激光雷达等精密高效传感器,可以实时定位和自主运动导航,自动行走到指定的位置,通过识别仪表读数和各种状态指示灯的颜色状态,自动判断当前设备机器的运转是否正常。并通过拓

展配备的各种传感器,实时获得环境数据、噪音、灰尘等信息,及时预警,保障机房安全。

ZOMIGitHub35●

指标异常检测——时间序列特征提取和深度贝叶斯学习●

时序数据预测

——

Transformer

时序预测分析资源使用●多维下钻——组合维度来了解和维护系统的可用性●指标关联推荐和日志聚类—一相似度模型查找信息●

日志异常检测和告警收敛●

大模型应用一—提升人与运维交互效率,场景就包括智能问答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论