征求意见稿-AI服务器用液冷技术要求_第1页
征求意见稿-AI服务器用液冷技术要求_第2页
征求意见稿-AI服务器用液冷技术要求_第3页
征求意见稿-AI服务器用液冷技术要求_第4页
征求意见稿-AI服务器用液冷技术要求_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1T/CAMDXXXX—XXXXAI服务器用液冷技术要求本文件规定了AI服务器用液冷系统(以下简称“液冷系统”)的技术要求、试验方法、检验规则、标志、包装、运输与贮存。本文件适用于AI服务器及AI计算集群中使用的冷板式液冷和浸没式液冷系统。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T3767声学声压法测定噪声源声功率级和声能量级反射面上方近似自由场的工程法3术语和定义下列术语和定义适用于本文件。3.1AI服务器AIserver专门为人工智能计算任务设计和优化的服务器,通常配备高功率密度GPU、ASIC或其他AI加速芯片。3.2冷板式液冷coldplateliquidcooling一种间接接触式液冷技术,通过流经密闭冷板的冷却工质,与贴附在发热器件上的冷板进行热交换,从而带走热量。3.3浸没式液冷lmmersionliquidcooling一种直接接触式液冷技术,将发热的IT设备完全浸没在不导电的冷却工质中,通过冷却工质的自然对流、强制流动或相变过程带走热量。3.4冷量分配单元coolantdistributionunit(CDU)液冷系统中用于调节和分配冷却工质流量、压力、温度的核心监控与循环装置,通常包含泵、换热器、控制单元等。3.5电源使用效率powerusageeffectiveness(PUE)数据中心总耗电量与IT设备耗电量的比值,是衡量数据中心能源效率的核心指标。PUE越接近1,能效水平越高。3.6单相液冷single-phaseliquidcooling冷却工质在循环过程中不发生相变的液冷方式。3.7两相液冷two-phaseliquidcooling冷却工质在循环过程中发生液相与气相相互转换的液冷方式,利用相变潜热大幅提升传热效率。4系统组成与分类T/CAMDXXXX—XXXX24.1系统组成一个完整的AI服务器液冷系统通常由下列核心部分组成:a)一次侧循环系统:从CDU到机房外冷源的循环回路,负责将最终热量排至外界环境。b)二次侧循环系统:从CDU到服务器内冷板或浸没舱的封闭循环回路,直接冷却发热器件。二次侧冷却工质宜采用绝缘介质。c)冷量分配单元(CDU):负责工质的驱动、压力/流量/温度调节、监测与控制。d)末端散热部件:根据技术路径不同,指冷板或浸没舱。冷板需与芯片表面紧密贴合;浸没舱需具备良好的密封与绝缘性能;e)管路与连接系统:包括快接头、歧管、软管及硬管。要求密封可靠、流阻低、便于安装与维护。快接头应满足盲插要求,并具备防漏和自密封功能;f)监控管理系统:对系统压力、流量、温度、泄漏等进行实时监测、告警和智能调控,应支持与数据中心基础设施管理系统(DCIM)对接。4.2分类4.2.1按冷却工质与发热器件的接触方式,可分为:a)冷板式液冷系统;b)浸没式液冷系统(包括单相浸没和两相浸没)。4.2.2按冷却工质的相态变化,可分为:c)单相液冷系统;d)两相液冷系统。5技术要求5.1通用要求5.1.1液冷系统应满足AI服务器7×24小时不间断稳定运行的需求。5.1.2液冷系统所有与冷却工质接触的金属、密封件、管路等材料应具备良好的相容性,防止腐蚀、溶胀或化学反应。5.1.3液冷系统应具备可维护性和可扩展性。支持在线维护、组件热插拔,并易于随算力规模扩容。5.1.4液冷系统运行噪声应符合机房环境要求。在满负荷运行时,距离机架1米处的声压级应低于75dB(A)。5.2性能要求5.2.1散热性能5.2.1.1冷板式液冷:在额定工作条件下,应确保GPU等关键芯片结温不超过制造商规定的最大限值,并留有至少10℃的安全裕量。对于TDP≥1000W的芯片,冷板接触面的热流密度处理能力应不低于1.5kW/cm2。5.2.1.2浸没式液冷:应确保浸没舱内冷却工质温度场均匀,任意两点温差不超过5℃。对于两相浸没,应有效抑制局部干涸现象。5.2.2流量与压降液冷系统二次侧循环在额定流量下的总压降应在CDU泵的扬程范围内。单个GPU冷板的推荐流量范围通常为1.0~2.5L/min。液冷系统应能根据热负载动态调节总流量与分支流量。5.2.3温度控制CDU出口冷却工质温度控制精度应优于±1.0℃。在外部冷源供水温度波动或服务器负载阶跃变化时,液冷系统应能快速响应,将温度波动控制在设定范围内。5.3可靠性要求5.3.1密封性T/CAMDXXXX—XXXX3整个二次侧循环回路应具备极高的密封性。在1.5倍设计工作压力下进行静压测试,保压30分钟,压力降不应超过试验压力的1%。5.3.2机械可靠性管路、接头、冷板等组件应能承受振动、冲击及长期压力循环。快接头应满足至少5000次插拔循环后,密封性能仍符合要求。5.3.3电气安全二次侧冷却工质在25℃时的体积电阻率应不低于10MΩ·cm,介电强度应不低于15kV。系统设计应确保即使在泄漏情况下,冷却工质也不会导致服务器电路短路。5.4能效要求5.4.1.1液冷系统的引入应显著降低数据中心整体PUE。对于采用液冷系统的AI计算集群,其PUE设计目标值不应高于1.25;在采用高效自然冷源等优化设计条件下,应力争达到1.15以下。5.4.1.2CDU本身的能耗比(即CDU耗电量与其带走的热量之比)应优于10%。5.4.1.3液冷系统宜支持高温供水。一次侧回水温度应尽可能提高,以充分利用自然冷源,延长压缩机运行时间。5.5安全性要求5.5.1泄漏监测与防护液冷系统必须配备多点位、高灵敏度的泄漏传感器,并在检测到泄漏后30秒内发出声光告警,并可根据策略联动关闭管路阀门或停机。5.5.2压力保护液冷系统应设有安全阀、泄压阀等过压保护装置,防止因泵异常或管路堵塞导致压力过高。5.5.3接地所有金属管路和组件必须可靠接地,防止静电累积。5.6监控与管理要求液冷系统应具备下列功能:a)实时监测与显示:压力、流量、进/回液温度、泵速、泄漏状态等;b)智能调控:根据服务器负载与环境温度,自动调节泵频、阀门开度及三通混水比例,实现按需制冷;c)告警与日志:对参数越限、泄漏、通信中断等异常情况生成分级告警,并记录详细事件日志;d)能效分析:统计系统耗电量、散热量,计算子系统能效比,并生成报告。6试验方法6.1通用要求6.1.1材料相容性将液冷系统与冷却工质接触的金属、密封件、管路等材料样本浸泡于实际使用的冷却工质中,在最高设计温度下持续浸泡不少于500小时。试验后,材料应无腐蚀、溶胀、裂纹或明显形变,冷却工质应无浑浊、沉淀或变色。6.1.2可维护性与可扩展性验证通过模拟在线维护、组件热插拔及系统扩容操作,验证系统是否支持在不断电、不停机的情况下完成上述操作。记录操作时间、系统稳定性及功能恢复情况。6.1.3噪声测试T/CAMDXXXX—XXXX4在满负荷运行状态下,使用符合GB/T3767规定的声级计,在距离机架正面1米、高度1.5米处测量声压级。测量时间不少于5分钟,取平均值。6.2性能试验6.2.1散热性能试验6.2.1.1冷板式液冷在额定流量与进口温度下,对TDP≥1000W的芯片施加额定热负载,使用热电偶或红外热像仪测量芯片结温及冷板表面温度。6.2.1.2浸没式液冷在满载运行状态下,使用温度传感器测量浸没舱内至少6个不同位置的工质温度,计算任意两点温6.2.2流量与压降在二次侧循环回路中安装流量计与压差传感器,调节系统至额定流量,记录总压降及各分支压降。压降应在CDU泵的扬程范围内。6.2.3温度控制精度在额定工况下,稳定运行系统后,记录CDU出口温度波动范围。随后模拟外部冷源温度阶跃变化或服务器负载阶跃变化(50%→100%),记录系统响应时间及温度恢复至设定值±1.0℃内的时间。6.3可靠性试验6.3.1密封性对二次侧循环回路施加1.5倍设计工作压力,保压30分钟,使用压力传感器记录压力变化。压力降不应超过试验压力的1%。6.3.2机械可靠性6.3.2.1振动与冲击试验依据GB/T2423系列标准进行振动与冲击试验,试验后系统应无泄漏、结构损坏或功能异常。6.3.2.2插拔寿命试验对快接头进行不少于5000次插拔循环试验,每1000次检查密封性能,试验后仍应符合密封要求。6.3.3电气安全6.3.3.1体积电阻率测试按GB/T5654的规定执行。6.3.3.2介电强度测试按GB/T507的规定执行。6.3.3.3泄漏模拟试验带电状态下模拟系统泄漏,观察是否引起服务器电路短路。6.4能效试验6.4.1PUE测试在AI计算集群满负荷稳定运行状态下,使用精度不低于0.5级的电能表分别测量数据中心总耗电量(含IT设备、液冷系统、辅助设施等)和IT设备耗电量。测试持续时间不少于24小时,每小时记录一次数据,计算平均PUE值。T/CAMDXXXX—XXXX56.4.2CDU能耗比测试在额定工况下,通过电能表测量CDU输入电功率,同时用流量计、温度传感器获取二次侧工质流量及CDU进出口温度。根据公式计算CDU带走的热量:Q=ρ×V×c×ΔT(ρ为工质密度,V为流量,c为工质比热容,ΔT为进出口温差)。CDU能耗比为输入电功率与带走热量的比值,结果应优于10%。6.4.3高温供水适应性试验调节一次侧冷源供水温度至设计最高允许值,保持系统稳定运行不少于8小时。记录PUE变化,验证系统是否能正常散热且PUE符合要求。6.5安全性试验6.5.1泄漏监测与防护模拟二次侧回路不同位置(冷板接头、管路快接、浸没舱)的微量(0.1L/min)和大量(1L/min)泄漏,测试传感器响应时间(≤30秒)、声光告警触发情况及联动动作(关闭阀门/停机)执行效果,记录每个场景的结果。6.5.2压力保护试验逐步增加二次侧压力至设计压力的1.2倍,观察安全阀/泄压阀是否在设定压力下开启,系统压力是否回落至安全范围。6.5.3接地电阻测试使用接地电阻测试仪测量所有金属管路、CDU外壳、浸没舱框架的接地电阻,每个点测3次取平均值,结果不应大于4Ω。6.6监控与管理功能验证6.6.1实时监测功能验证检查监控界面是否显示压力、流量、温度、泵速、泄漏状态等参数,对比现场仪器测量值,误差不应大于±2%。6.6.2智能调控功能验证模拟负载阶跃变化(50%→100%),记录泵频、阀门开度、流量调节过程,验证系统是否在10分钟内将工质温度波动控制在±1.0℃内,流量匹配负载需求。6.6.3告警与日志功能验证人为设置参数越限、模拟泄漏、断开通信链路,检查分级告警及日志完整性。6.6.4能效分析功能验证触发能效报告生成,检查报告是否包含耗电量、散热量、CDU能耗比、PUE等指标,统计周期是否可配置。7检验规则7.1检验分类液冷系统的检验分为出厂检验和型式检验。7.2出厂检验每套液冷系统出厂前均应进行出厂检验,检验项目应符合表1的规定。检验合格后方可出厂,并应附有产品合格证。7.3型式检验T/CAMDXXXX—XXXX67.3.1型式检验在下列情况之一时进行:a)新产品定型或老产品转厂生产时;b)结构、材料、工艺有重大改变,可能影响产品性能时;c)正常生产每两年进行一次;d)停产一年以上恢复生产时;e)出厂检验结果与上次型式检验有较大差异时。7.3.2型式检验项目应符合表1的规定。表1检验项目1√√2-√3-√4-√5√√6√√7√√8√√9√√-√-√√√√√-√-√-√-√√√√√√√√√注:“√”表示必检项目,“–”表示不检项目。7.4抽样与判定型式检验应从出厂检验合格的产品中随机抽取1套样品。若检验项目全部合格,则判定该次型式检验合格;若有不合格项,允许加倍抽样对不合格项进行复检,复检合格则判定合格;若复检仍不合格,则判定该次型式检验不合格。8标志、包装、运输与贮存8.1标志每套液冷系统应在明显位置设置清晰、耐久的铭牌,内容包括:a)产品名称及型号;b)制造商名称或商标;c)额定工作压力、流量、温度范围;d)电源电压及功率;e)产品编号与生产日期;f)执行标准编号;g)安全警示标志。8.2包装8.2.1液冷系统应采用防潮、防震、防碰撞的包装措施,重要部件应单独固定。T/CAMDX

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论