2023液冷式高性能计算机技术参考架构_第1页
2023液冷式高性能计算机技术参考架构_第2页
2023液冷式高性能计算机技术参考架构_第3页
2023液冷式高性能计算机技术参考架构_第4页
2023液冷式高性能计算机技术参考架构_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

液冷式高性能计算机技术参考架构目  次前 言 III范围 1规范性引用文件 1术语和定义 1缩略语 2液冷式高性能计算机技术参考架构 3总体描述 3功能层次 3功能架构要求 4机房基础设施层 4硬件资源层 5基础软件层 7应用软件层 7跨层功能 8IIPAGEPAGE1PAGEPAGE2液冷式高性能计算机技术参考架构范围规范性引用文件(包括所有的修改单适用于本文件。GB/T9813.3计算机通用规范第3部分:服务器GB17859 计算机信息系统安全保护等级划分准则GB50174 数据中心设计规范YD/T3979 数据中心浸没式液冷服务器技术要求和测试方法术语和定义YD/T3979界定的以及下列术语和定义适用于本文件。3.1高性能计算机highperformancecomputer注:广义上泛指解决大型复杂任务的计算工具。[来源:T/CESA1162,3.1.1]3.2液冷liquidcoolingITIT设备元器件产生的热量带走的一种冷却方法。适用于需提高计算能力、能源效率、部署密度等应用场景。3.3液冷式高性能计算机liquidcoolinghighperformancecomputer采用液冷技术进行冷却的高性能计算机系统,通过液态冷却液与高性能计算机的全部或主要部件、3.4冷板式液冷coldplateliquidcooling(通常为铜铝等导热金属构成的封闭腔体将发热器件的热量间接传递给封闭在循环管路中的冷却液体,通过冷却液体将热量带走的一种实现形式。[来源:YD/T3980,3.1.2]3.5相变浸没式液冷phase-changeimmersionliquidcooling3.6single-phaseimmersionliquidcooling3.7冷量分配单元coolantdistributionunitIT设备提供冷量分配和智能管理的模块。其中汽-液换热CDU又称液冷换热模块CDM(coolantdistributionmodule),主要应用于相变浸没式液冷。3.8二次侧冷却系统secondarysidecoolingsystem为液冷系统内部的腔体散热的装置,与一次侧冷却系统连接进行热交换。注:冷却液过滤系统,阀门,液体质量监测传感器,水泄漏检测传感器等。缩略语下列缩略语适用于本文件。CDU 冷量分配单元(CoolantDistributionUnit)CDM 液冷换热模块(CoolantDistributionModule)PUE 能源使用效率(PowerUsageEffectiveness)HPC 高性能计算机(HighPerformanceComputer)AI 人工智能(ArtificialIntelligence)CPU 中央处理器(CentralProcessingUnit)MPI 消息传递接口(MessagePassingInterface)BLAS 基础线性代数程序集(BasicLinearAlgebraSubprograms)PETSc 科学计算可移植扩展工具包(PortableExtensibleToolkitforScientificComputation)NetCDF网络公用数据格式(NetworkCommonDataForm)CUDA 统一计算设备架构(ComputeUnifiedDeviceArchitecture)液冷式高性能计算机技术参考架构总体描述液冷式高性能计算机的技术参考架构见图1。图1液冷式高性能计算机技术参考架构功能层次机房基础设施层:为液冷式高性能计算机系统提供安全、稳定、可靠、节能的支撑环境,主要包括一次侧冷却系统、供配电系统、新风系统及其它系统等;硬件资源层:为液冷式高性能计算机系统提供所需要算力、存储等硬件资源,主要包括液冷高性能计算系统、液冷高性能存储系统、液冷高性能网络系统、液冷末端冷却设备等;跨层功能:用于提供各层级的监控运维服务,并确保液冷式高性能计算机各层级之间的安全有序运行,主要包括监控运维、安全管理等功能。功能架构要求机房基础设施层总体要求机房基础设施层主要包括一次侧冷却系统、供配电系统、新风系统和其它系统等,满足以下要求:a)总体宜满足GB50174B级及以上要求,按照冗余要求配置,以满足高性能计算机运行稳定可靠要求,不因设备故障而导致电子信息系统运行中断;b)应具有良好的绿色节能设计,新建机房需满足国家及建设地对新建数据中心PUE指标要求;c)设计上应减少液冷高性能计算机的部署难度和对建设场地的依赖,可结合行业主流的微模块、整机柜、集装箱等进行设计,满足部署简单、灵活拓展、快速交付和安全可靠的需要;各功能区域的环境要求应根据不同冷却方式进行制定,主要考虑因素包括但不限于:温度、露点温度、相对湿度、空气粒子浓度和冷却介质蒸汽浓度等,以及噪声、电磁干扰、振动及静电等;根据冷却介质的不同,应对机房环境有不同的安全要求。一次侧冷却系统一次侧冷却系统满足以下要求:应与二次侧冷却系统需求匹配,根据不同液冷方式的要求进行设计,结合风液负载计算进行散热设备选型;应设置供排液管路,可设置冷却液专用排液通道和收集系统或通过专用抽液设备收集,可对冷却液杂质做进一步处理,循环利用等,不宜直接排放到下水道或室外,避免环境污染;可考虑机房余热利用、湖水或河水自然冷却等。供配电系统供配电系统满足以下要求:应考虑供电转换效率、供电安全可靠、便于维护等要求;宜按照B级及以上数据中心要求,考虑后备电源、冗余供电、防雷接地等要求;c)可采用直流供电,以增进整体节能效果。新风系统新风系统满足以下要求:应持续或定期通风,保证机房空气洁净度及冷却介质蒸汽浓度等满足相关要求;宜考虑与机房基础设施层监控联动,当监控系统触发漏液/漏汽报警时可自动加强排风。其它系统B硬件资源层概述液冷高性能计算系统一般要求a)高性能计算节点应满足高密度、高性能、高效能、高可用等要求;b)根据所采用液冷方式的不同,宜采用冷板式或浸没式液冷方式。冷板式液冷高性能计算节点冷板式节点液冷组件主要包括冷板、管路、内部分液器、接头、冷却液等,满足以下要求:冷板应覆盖于节点的CPU节点内管路应合理控制CPU/加速器之间的温差,以及节点进出液温差。节点与机柜管路连接3节点应满足GB/T9813.3的结构冲击振动要求,保证在生产、运输、使用过程中不因结构振动发生失效或漏液情况;节点内部应有漏液检测方式并具备监控和告警机制,节点在供液中断时应有保护机制;冷却液应具备一定的稳定性,不易分解、变质,需定期检查液体的pH值、电导率等指标;节浸没式液冷高性能计算节点节点内部运行产生的大部分热量应由冷却液带走,节点内部宜有导流板和填充块来优化节点内部流场,并减少液体使用量,从而提升冷却液的使用效率;相变式液冷节点的CPU冷却液应具备高比热容、高热导率、低密度、低粘度、低挥发性、低凝固点等物性特点,碳冷却液和节点内部所有部件以及材料等应具备良好的兼容性,不应影响节点运行情况下的性能和污染液体;浸没式液冷节点或液冷机柜上宜具有供液、泄压、回液/液冷高性能存储系统高性能存储系统为用户提供海量的磁盘存储空间,用于保存用户数据和计算结果。满足以下要求:a)高性能存储系统应满足高可靠、大容量、高性能、低延迟、扩展性等要求;b)液冷高性能存储系统的主要发热部件为硬盘、系统控制器等,应采用液冷方式制冷,可采用冷板式或浸没式,参考6.2.2节中相关内容。液冷高性能网络系统a)高性能网络系统需要满足低延迟、高带宽、低CPU负载、高能效、灵活性、扩展性等要求;b)高性能网络系统由一个或者多个高性能交换单元组成,可采用液冷方式对交换单元的发热部件,比如交换芯片、接口模块等进行散热,可采用冷板式或浸没式,参考6.2.2节中相关内容。二次侧冷却系统二次侧冷却系统通过与IT设备连接的管路,向IT设备供应具有合适温度、流量、压力等的冷却液,满足ITCDUCDU应有排气、补液、杂质过滤能力,确保冷却液中潜在的颗粒不会在循环管路中造成阻塞;c)集中式CDU宜采用冗余设计,并允许在线维护;冷却液应与循环管路上使用的全部材料兼容,不发生化学或电化学反应。浸没式液冷的冷却液应具有良好的绝缘性能,满足IT设备内部电子元器件的电气安全规范;应设置冷却液专用排液通道和收集系统,或通过专用抽液设备收集,可对冷却液杂质做进一步处理,循环利用等,严禁直接排放到下水道或室外,避免环境污染。基础软件层概述基础软件层主要包括操作系统、基础工具软件、基础函数库、程序开发和调优工具、资源调度系统等。操作系统LinuxWindows基础工具软件基础函数库基础函数库提供了的种类非常丰富,常见的基础函数库,如:MPI等基础通信库、openBLAS等基础数学库、PETSc等数值计算库、NetCDF等数据处理库、CUDA等GPU函数库。程序开发和调优工具常见的程序开发和调优工具包括:a)CCFortranPython等;b)c)人工智能编程框架,用于支持智能计算类软件开发。资源调度系统应用软件层概述应用软件层主要包括科学计算软件、工程计算软件、智能计算软件,以及其它计算软件等。科学计算软件科学计算类软件通常指气象、材料、生物等学科领域的应用软件,用于指导科学发现,开源软件较多。工程计算软件智能计算软件/其它计算软件AI跨层功能概述跨层功能主要包括监控运维、安全管理等。监控运维监控运维满足以下要求:监控运维应对液冷高性能计算机各层级进行全链路可视化监控;机房基础设施层的监控对象应包括设备的配置信息、实时运行状态、告警信息、实时环境参数等。机房基础设施层监控应具备漏液/漏汽自动检测、自动告警功能,具备漏液/漏汽监控与机房新风系统联动功能。一次侧冷却系统监控关键参数包括温度、压力、流量等,当偏离参数设定值时,应有报警、记录上传,必要时进行应急处置;硬件资源层的监控对象应包括液冷硬件资源部件的配置信息、实时运行状态、告警信息等。/次侧冷却系统监控关键参数包括温度、压力、流量、液位等,当偏离参数设定值时,应有报警、记录上传,必要时进行应急处置;基础软件层的监控对象应包括基础软件的配置信息、作业信息等。基础软件层监控应具备基础软件配置变更检测、版本管理、运营报告等功能;应用软件层的监控对象应包括应用软件的配置信息、授权使用情况、端口占用信息等。应用软件层监控应具备应用软件配置变更检测、版本管理、运营报告等功能;产等监控对象实时日志,收集到的数据能进行数据清洗、格式化,并能将数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论