Atlas 900 A2 PoD 集群基础单元 技术白皮书-AICC场景_第1页
Atlas 900 A2 PoD 集群基础单元 技术白皮书-AICC场景_第2页
Atlas 900 A2 PoD 集群基础单元 技术白皮书-AICC场景_第3页
Atlas 900 A2 PoD 集群基础单元 技术白皮书-AICC场景_第4页
Atlas 900 A2 PoD 集群基础单元 技术白皮书-AICC场景_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Atlas900A2PoD集群基础单元技术白皮书(AICC场景)文档版本13发布日期2025-11-17文档版本13(2025-11-17)ii/ecolumnsweb/zh/warranty-policy/cn/psirt/vul-response-process/enterprise/cn/security-advisory华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说/enterprise/zh/bulletins-service/ENEWS2000015766华为企业业务最终用户许可协议(EULA)本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为/cn/about/eula华为公司针对随产品版本发布的售后客户资料(产品资料发布了“产品资料生命周期策略/enterprise/zh/bulletins-website/ENEWS2000017760Atlas900A2PoD集群基础单元技术白皮书(AICC场景)前言文档版本13(2025-11-17)iii 本文档介绍Atlas900A2PoD集群基础单元全液冷机柜的产品外观、功能、结构以及本技术白皮书对于具体技术指标的表述,包括但不限于规格及性能,品发布情况确定。本技术白皮书并不构成对于相关产品的技术指为可能不定期就相关信息进行更新,华为保留对于相关产品或解表示如不避免则将会导致死亡或严重伤害的具有高表示如不避免则可能导致死亡或严重伤害的具有中表示如不避免则可能导致轻微或中度伤害的具有低用于传递设备或环境安全警示信息。如不避免则可“说明”不是安全警示信息,不涉及人身、设备及环境伤害信本●修改《Atlas集群基础单元安全信本Atlas900A2PoD集群基础单元技术白皮书(AICC场景)文档版本13(2025-11-17)vi 11.1产品概述 11.2产品特点 3 2.1散热系统 5 62.3管理系统 10 113.1机柜 123.2管理模块 153.3计算节点 163.4第三方交换节点 163.5电源 173.5.1电源框 173.5.2电源模块 21 234.1技术规格 234.2环境规格 244.3物理规格 26 286.1安全 28 31 A.1液冷门流阻曲线 32 B.1A-E 33B.2F-M 34B.3N-T 34Atlas900A2PoD集群基础单元技术白皮书(AICC场景)文档版本13(2025-11-17)vii C.1A-G 36C.2H-N 37C.3O-S 38 39Atlas900A2PoD集群基础单元技术白皮书(AICC场景)1简介文档版本13(2025-11-17)11简介1.1产品概述1.2产品特点Atlas900A2PoD集群基础单元是基于华为自研昇腾910AI处理器的AI集群基础单元,具有高密度,高能效,高可靠,易拓展,一体化交付,极简运维,低TCO等特点。支持大规模,高性能AI训练业务,可应用于人工智能计算中心(简称为AICC)、文档版本13(2025-11-17)2具体可配置的计算节点数量需考虑现场实际配置功耗,同一个机柜只支持相●无滴漏快接头、支持液冷对接件快接和盲插;漏液自动检测,100%漏液拦截。●支持除机柜门外的整柜运输(含机柜、计算节点、交换节点、管理模块、电源Atlas900A2PoD集群基础单元技术白皮书(AICC场景)1简介低TCOAtlas900A2PoD集群基础单元技术白皮书(AICC场景)2系统架构文档版本13(2025-11-17)52系统架构2.1散热系统2.3管理系统Atlas900A2PoD集群基础单元适配液冷机房应用。1.计算节点上的CPU、NPU处理器、SDI卡等大功耗部件通过液冷散热器散热;计算2.机柜内的Busbar、Cable等通过风扇散热。),整个路径(从供电输入经供电系统直到双电源输入负载)中的所有环节冗余配置(称作N备),且是彼此隔离的两条供电Atlas900A2PoD集群基础单元技术白皮书(AICC场景)2系统架构文档版本13(2025-11-17)7图2-3机房2N供电系统(接法2:市电负载均衡)N供电系统是指一套供电系统,每个数据中心机房供电系统包含一套量为机房供电系统的基本容量。N供电系统如图2-4所示,以机房市电输入为例。Atlas900A2PoD集群基础单元技术白皮书(AICC场景)2系统架构文档版本13(2025-11-17)8Atlas900A2PoD集群基础单元支持2N供电系统和N供电系统。Atlas900A2PoD集群基础单元在2N供电系统场景下,主动切换供电场景(如维护检的负载率为100%,表示当前机柜的供电来源。N主、N备的负载率均为0%时,机柜所0%100%路100%0%Atlas900A2PoD集群基础单元技术白皮书(AICC场景)2系统架构文档版本13(2025-11-17)9100%0%电/恢复供电100%0%常0%100%两层电源框位于机柜最上方。支持双AC输入,输出54.5VDC,通过Busbar总线给计算当市电供应正常时,54.5VDC通过Busbar给计算节点和交换节点供电。当市电掉电上下两个独立3U电源框,上面是主电源框,下面是扩展电源框。主电源框内配置机柜管理模块RM211,主要提供机柜管理功能,包括资产管理、电源模块管理、功耗管理、液冷漏液检测等功能。扩展电源框内配置电源转接板,通过CAN总线与主电源框Atlas900A2PoD集群基础单元技术白皮书(AICC场景)2系统架构文档版本13(2025-11-17)10Atlas900A2PoD集群基础单元管理系统包括计算节点iBMC管理系统、机柜管理系计算节点iBMC管理系统计算节点管理iBMC采用NC-SI链路,通过SDI卡汇聚到交换节点,上行到数据中心管理面的网管软件,如FusionDirector或第三方网管等,同时通过交换节点连接到机柜管理模块RM211。机柜管理模块RM211通过CAN总线连接电源模块和电池模块,通过交换节点上行到数据中心管理面的网管软件,如FusionDirector或第三方网管等。Atlas900A2PoD集群基础单元支持功率封顶、削峰填谷功能。功耗封顶值由运维工Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)113硬件描述3.1机柜3.2管理模块3.3计算节点3.4第三方交换节点3.5电源Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)121234RM211管理模块5678910Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)13机柜的1U~4U和41U不能安装计算节点,请安装假面板;非满配场景下,请从5U开始从下往上依次安装计算节点到40U为止(其中21U~24U只能安装交换节点,不能安装计算节点),详细1Manifold排气阀2Manifold球阀3Manifold供水管4Manifold回水管56Cable背板7Busbar8Manifold回水管接口9Manifold供水管接口10Manifold供水管液冷调测接头Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)1411Manifold回水管液冷调测接头1213Manifold排水管--123456789--Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)15RM211RM211是Atlas900A2PoD集群基础单元的管理模块,主要提供机柜管理功能,包括RM211安装在Atlas900A2PoD集群基础单元的主电源机箱内,与电源模块共用电源详细信息请参见《Atlas900A2PoD集群基础单元RM211管理模块用户指南》。图3-4RM211外观示意图图3-5RM211前面板外观示意图Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)16图3-6RM211后面板外观示意图Atlas900RCKA2计算节点是Atlas900A2PoD集群基础单元的计算节点,是一款基于华为自研昇腾910AI处理器和鲲鹏920处理器开发的4U液冷计算节点。详细信息请参见《Atlas900RCKA2计算节点DX511交换节点(以下简称DX511)是Atlas900A2PoD集群基础单元的交换节点,为Atlas900A2PoD集群基础单元的计算节点提供数据交换功能,并集中对外提供业务面接口和参数面接口。DX511通过机柜的Cable背板与各个模块互联,实现内部数据报文和控制管理报文的交换,为用户提供高速数据传输。DX511采用先进的液冷结构设计,提供高密度的400GE/100GE端口,交换容量高达12.8T。详细信息请参见Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)17图3-8DX511交换节点外观示意图须知须知机柜配置两个电源框,上层电源框为主电源框,下层电源框为扩展电源框满配12个电源模块。电源模块1、4、7、10、13、16、19、22工作于L3相,电源模块2、5、8、11、14、17、20、23工作于L2相,电源模块3、6、21、24工作于L1相。为了相间工作平衡,每相必须配置数量相同的电源模块。以下以电源框由电源机箱、电源模块和管理模块组成。电源框将交流电经过AC/DC模块转电源框的输入最大支持4路(两主两备)三相(32A/每相),如图3-9所示。文档版本13(2025-11-17)18Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)191电源模块123电源模块345电源模块567电源模块78910电源模块1011电源模块1112电源模块1213--1电源模块132电源模块143456789--Atlas900A2PoD集群基础单元技术白皮书(AICC场景)3硬件描述文档版本13(2025-11-17)21电源模块通过ACINPUT端口从外部接入,输出汇集到电源框铜排上。灯)):):灯)):):《Atlas900A2PoD集群基础单元故障处理》。4产品规格●具体可配置的计算节点数量需考虑现场实际配置功耗●NVMe的环境要求请参考《NVMeSSD用户指南》中的“规格>环境指标”须知须知):):凝)):):●进水温度:5℃~25℃(41℉~77℉),且水温≥机房露点温度+3℃,运行不发生凝露5℃~45℃(41℉~113℉),且水温≥机房露点温度+3℃,运行不发板),),),会导致系统液冷组件内部管道氧化、生菌、硬件故障率增加和电池组深)):):)():)():):Atlas900A2PoD集群基础单元技术白皮书(AICC场景)5软硬件兼容性文档版本13(2025-11-17)275软硬件兼容性须知须知如果使用非兼容的部件,可能造成设备异常6管制信息●操作设备时,应当严格遵守当地的法规和规范,手册中所描述的安全注意事项仅●手册中描述的“危险”、“警告”和“注意”事项,只作为所有安全注意事项的●为保障人身和设备安全,在设备的安装过程中,请严格遵循设备上标识和手册中●特殊工种的操作人员(如电工、电动叉车的操作员等)必须获得当地政府或权威●此为A级产品,在生活环境中,该产品可能会造成无线电干扰。在这种情况下,可●设备的整个安装过程必须由通过华为认证的人员或经过华为认证人员授权的人员●安装人员在安装过程中,如果发现可能导致人身受到伤害或设备受到损坏时,应●禁止在雷雨天气进行操作,包括但不限于搬运设备、安装机柜和安装电源线等。●不能超过当地法律或法规所允许单人搬运的最大重量。要充分考虑安装人员当时●安装人员必须佩戴洁净的劳保手套、穿工作服、戴安全帽、穿劳保鞋,如图6-1所●在接触设备前,应当穿上防静电工作服、佩戴防静电手套或防静电腕带、去除身体上携带的易导电物体(如首饰、手表等),以免被电击或c.将防静电腕带的接地端插入机柜(已接地)或机箱(已接地)上的防静电腕●安装人员使用工具时,务必按照正确的操作方式进行,以免危及人身安全。●高压电源为设备的运行提供电力,直接接触●安装人员使用梯子时,必须有专人看护,禁止单独作业,以免摔伤。●在连接、测试或更换光纤时,禁止裸眼直视光纤出口,以防止激光束灼伤眼睛。–手防护:长期或频繁反复接触时,使用适合此物质割伤或擦伤,即使与该物料的接触时间很短,也要戴上适合该护手套。必要时使用绝热保护手套。首选的手套防护材料包(“橡胶”)、氯丁橡胶、丁腈/聚丁橡胶(“丁腈”或“丁腈橡胶”)、聚用和使用时期在工作场所中选择特定的手套时,应考虑所有与的因素,但不限于此,例如:可能要处理的防护性、操作灵活和热的防护)、身体对手套材料可能的反应–其他防护:接触时间延长或反复接触时,使用化学据操作任务选择特定工具,如面罩、靴子、围裙或整套衣置。如没有适用的暴露限值或规定值,当出现不良反应如呼吸刺或者经风险评估证明有危害存在时,都应当穿戴呼吸保护装置。●在接触设备前,应当穿上防静电工作服和佩戴防静电手套,防止静电对设备造成●搬运设备时,应托住设备的底边,而不应握住设备内已安装模块(如电源模块、●安装人员使用工具时,务必按照正确的操作方式进行,以免损伤设备。●雇用正规的物流公司进行设备搬迁,运输过●如果没有原厂包装,机箱、刀片形态的设备等重量和体积较大的部件、光模块和注意单人所允许搬运的最大重量,请以当地的法律或法规为准,设备上的表6-1中列举了一些组织对于成年人单次所允许重量(kg/lb)Atlas900A2PoD集群基础单元技术白皮书(AICC场景)A附录文档版本13(2025-11-17)32A附录液冷门流阻与进水流量关系曲线如图A-1所示。Atlas900A2PoD集群基础单元技术白皮书(AICC场景)B术语文档版本13(2025-11-17)33B术语AActiveOpticalCables(AOC,有源光缆)有源光缆是指通信过程中需要借助外部能源换成光信号,或将光信号转换成电信号的通BBaseboardManagement板管理控制器)IPMI规范的核心,负责各路传感器的信号采集、处理、储存,以及各种器件运行状态的监测。BMC向机箱管理板提供被管理对象的硬件状态及告警等信息,实Busbar(母排)E指的是将接入交换机集中部署在每一列机柜两个机柜,该列机柜所有的服务器通过水平Ethernet(以太网)Xerox公司创建,并由Xerox、Intel、DEC公司共同发展的一种基带局域网规范,使用CSMA/CD,以10Mbit/s速率在多种电缆上传输,类似于IEEE802.3系列标准。文档版本13(2025-11-17)34MMiddleofRow(MOR)一种根据布线方式对交换机进行区分的方式。MOR交换机的连线方式与EOR方式类似,接入交换机都通过集中的方式部署在一列机柜组中一个或两个机柜中,Ppanel(面板)面板是服务器前视图/后视图所见的平面上的对外部件(包),流和EMC密封机箱前部和后部的作用。Component互连标准)电脑总线PCI的一种,它沿用了现有的PCI编程概念及通讯标准,但建基于更快的串行通信系统。英特主要支援者。PCIe仅应用于内部互连。由于PCIe是基于现有的PCI系统,只需修改物理层而无须修改软件就可将现有PCI系统转换为PCIe。PCIe拥有更快的速率,以取代几乎全部现有的内部总线(包括AGP和PCI)。Rredundancy(冗余)S服务器是在网络环境中为客户(Client)提供各种服务的systemeventlog志)存储在系统中的事件记录,用于随后的故障SerDes(Serializer/解串器)SerDes是一种用于实现中远距离高速通信的接口器件。SerDes接口常被选作PCI-Express、千兆以太网和光纤通信等通信协议的物理层实现方案,广泛地用于Atlas900A2PoD集群基础单元技术白皮书(AICC场景)B术语文档版本13(2025-11-17)35TTopofRack(TOR)一种根据布线方式对交换机进行区分的方式。TOR交换机PowerUsage能源利用效率)UU(Unit,高度单位)IEC60297-1规范中对机柜、机框、子架垂直高度的计量单位,1U=44.45mm。UltraPath超级通道互联)Atlas900A2PoD集群基础单元技术白皮书(AICC场景)C缩略语文档版本13(2025-11-17)36C缩略语C.1A-GBBBUBackupBatteryUnit(备份电池单元)BIOSBasicInputOutputSystem(基本输入输出系统)BMCBaseboardManagementController(主板管理控制单元)CCAPEXCapitalExpenditure(资本支出)CCUCabinetControlUnit(机柜控制单元)CDUCoolantDistributeUnit(冷量分配器)CIContinuousIntegration(持续集成)Command-lineInterface(命令行接口)DDACDigitaltoAnalogConverter(数/模转换器)DCDirectCurrent(直流电)DDR4DoubleDataRate4(双倍数据速率4)DIMMDualIn-lineMemoryModule(双列直插内存模块)Atlas900A2PoD集群基础单元技术白皮书(AICC场景)C缩略语文档版本13(2025-11-17)37EEMCElectroMagneticCompatibility(电磁兼容性)ErrorCheckingandCorrecting(差错校验纠正)FFB-DIMMFullyBufferedDIMM(全缓存双列内存模组)FiberChannel(光线通道)FederalCommunicationsCommission(美国联邦通信委员会)FibreChannelOverEthernet(以太网光纤通道)FileTransferProtocol(文本传输协议)FDMFaultDiagnosis&Management(故障诊断管理)GGEGigabitEthernet(千兆以太网)ErrorCheckingandCorrecting(差错校验纠正)C.2H-NHHEXHeatExchanger(液冷门)HPCHighPerformanceComputing(高性能计算)HTTPHypertextTransferProtocol(超文本传输协议)HTTPSHypertextTransferProtocolSecure(超文本传输安全协议)IiBMCIntelligentBaseboardManagementController(智能管理单元)iRMIntelligentRackManagement(智能机柜管理系统)Atlas900A2PoD集群基础单元技术白皮书(AICC场景)C缩略语文档版本13(2025-11-17)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论