智算中心建设项目解决方案 聚焦大模型训练、离鳞渲染等业努 打造高效、可靠智算底座_第1页
智算中心建设项目解决方案 聚焦大模型训练、离鳞渲染等业努 打造高效、可靠智算底座_第2页
智算中心建设项目解决方案 聚焦大模型训练、离鳞渲染等业努 打造高效、可靠智算底座_第3页
智算中心建设项目解决方案 聚焦大模型训练、离鳞渲染等业努 打造高效、可靠智算底座_第4页
智算中心建设项目解决方案 聚焦大模型训练、离鳞渲染等业努 打造高效、可靠智算底座_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

离鳞渲染等业努打造高效、23CONTENTS34行业需求洞察行业需求洞察贵州省政策支持国家政策导向国家政策导向2.《算力基础设施高质量发展行动计l需求本质:构建“弹性可扩展、算力多元化、绿色高效”的区域级算力枢纽,既服务当前西部渲染业务,又为AI、大数据等新兴业务预留技术底座,匹配西部数字文创产业算力的需求。设计需求技术需求核心业务场景需求设计需求技术需求•超微服务器性价比优于戴尔/浪潮;华三交换机成本比思科低40%;华三S9850-32H•采用AllReduce协议,每台服务器传输•超微服务器性价比优于戴尔/浪潮;华三交换机成本比思科低40%;华三S9850-32H•采用AllReduce协议,每台服务器传输强扩展性功耗配置渲染强扩展性功耗配置渲染集群个建筑可视化项目,数据量约1.2PB,个建筑可视化项目,数据量约1.2PB,•架构支持3年内算力翻倍(≈300台GPU服务器),无需重构网络,满足“东数西渲”业务量增长的算力弹性需求高可靠性实施规划高可靠性实施规划AI推理数字领域人工智能领域政策加持国内外提前布局,智能算力需求激增各国政府布局AI领域全栈能力,并出资引导智能算力基础设施建设,AI智能算力增速远超摩尔定律智算中心主要由国家政府总体牵头建设,同时基础设施提供商积极参与智算中心定义智算中心定义智算中心是以GPU、AI加速卡[1]等智能算力为核心、集约化建设的新型算力基础设施,提供软硬件全栈环境,主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级 注[1]:行业中GPU是一个较为泛化的概念,TaaS是指TensorFlowasaService,深度学习平台及行业大数据解决方案 超算中心定义超算中心融合管理子系统信息安全子系统大带宽无收敛无收敛零丢包易扩展高速网络交换子系统通用CPU算力子系统GPU智算子系统HPC超算子系统全闪存存储子系统高性能文件存储子系统智算与通算区别2.内部互联网络分为业务/存储网络、管理网络、4.数据面网络:采用RoCE实现智算集群与高性能文件存储223CONTENTS34核心层构成骨干网,Leaf层接入l聚焦大模型推理、离线渲染、生成式AI开发、边缘计算协同四大核心业务,满足人工智能项目开发全流l争取项目成果入选省级算力枢纽示业务与目标业务定位建设目标架构逻辑服务器,构建1152卡千卡级算力l可靠性:全链路冗余设计(网络、供电、散热达成系统年非计划停机时间≤4小时目标离线渲染+模型服务+算力租赁离线渲染+模型服务+算力租赁业务架构设计软件设施硬设施层基础设施软件设施硬设施层基础设施主要包括A数据流向:I智算集群、高速网络通用计算集群、I智算集群、高速网络通用计算集群、运维监控平台运维监控平台服务目录项目管理用户管理配额管理计费管理总览视图服务目录项目管理用户管理配额管理计费管理总览视图权限管理规格定价操作日志离线渲染生成开发边缘计算协同云主机云硬盘裸金属云主机云硬盘VPC镜像服务对象存储VPC镜像服务数据处理数据处理模型部署模型训练模型管理自动建模模型监控模型开发模型推理Spine-Leaf物理层+EVPN/VXLAN逻辑层的组合架构,兼顾物理网络的高扩展性、东西向性能及运维效率,与逻辑层弹性、虚拟机无缝迁移(跨机柜/POD)及多租户隔离能力。强电系统强电系统弱电系统不间断电源系统制冷系统计算层设备(算力机柜)设备参数部署分布算力价值设备参数功能定位部署细节管理节点服务器R7525搭载AMDEPYC系列高性能CPU设备参数部署分布算力价值设备参数功能定位部署细节管理节点服务器R7525搭载AMDEPYC系列高性能CPU、128GB大容量内存、2×1.92TBSSD,具备强大数据处理与存储能力;l承担集群管理、资源调度、实时监控职责,是l管理节点通过独立管理交换机接入,严格隔离管理与业务流量l集中部署于特定机柜位置(靠近管理交换机),实现管理流量与业务流量物理隔离。台,形成千卡算力矩阵;l每列机架5U-18U部署3台分布于机柜中央,利用机柜中上部空间,避开底部线缆区与顶部散热盲区lGPU配置:单台搭载8张NVIDIA4090GPU,FP32算力达40TFLOPS/卡,为模型训练、渲染提供强劲算力支撑;l硬件特性:支持PCIe5.0高速互联,配置2×1000W冗余电源,适配10KW高功率机柜,保障稳定运行;l端口能力:GPU服务器配置25G双网卡,分别连接不同Leaf交换机,构建25G双链路冗余l1152张GPU理论总算力超46PFLOPS,可满足千亿参数大模型训练对算力的极致需求;PCIe4.0插槽更具性价比(4卡算力密度低且占用更多机架,16 网络层设备网络核心机柜核心交换机(Spine)Leaf交换机管理交换机华三S9850,支持BGP/OSPF等路由协议,作为网络骨干,上下排列便于与Leaf交换机留散热与操作空间华三S6850-56HF,48×25G端口+8×100G端口,部署靠近机柜中部,方便连接算力机柜服务器与核心交换机,每台交换机对应一组算力机柜接入。带内管理(华三S6805-54HF)S5570S-54S-EI)部署4台,设备集中于管理区便于运维人员操作,与业务设备物理隔离飞塔FortiGate600F主备自动切换,部署网络边界层,先于业务流量接入,10GB流量清洗,保障安全防护优先(国VPN加密、访问控制、审计追l端口与性能:32*400G交换容量达12.8Tbps;l端口与协议:25G/100G灵活端口,RoCEv2(远程直接数据存取)协议,l带内管理:独立带内管理网络,保障运维指令(如配置更新、状态查询)l性能与防护:10Gbps数l技术价值:为Spine层构建网络骨干,保障千卡集群数据同步高效、稳定;l部署:2台S9850-32H作兼顾业务/管理核心功能,增强网络冗余度l接入能力:每台Leaf交换机连接18台GPU服层构建服务器接入网络,支撑业务流量高效传输传输,与管理节点、服务器管理网口互联;l带外管理:带外远程管理可通过独立通道访问设备,快速定位与解决故障,保障运维连续性/运维隔离。防御、DDoS分布式拒绝服务,双机热备部署;l部署细节:2台防火墙连接内外网边界,通过配置8080(训练平台)等业务端口,封禁非法IP智算网络拓扑设计思路公网接入公网接入 运维专网专线接入 运维专网专线接入八各服务器1、AI计算集群:AI计算集群间采用4*400GBRDMA网各服务器带内管理带外管理二2、HPC计算节点:采用100GBRDMA网络搭建超算集带内管理带外管理二3、通用计算区:各服务器通过25G网卡接入上联计算裸金属TORAI计算集群裸金属TORAI计算集群7、管理区:提供带外和带内管理,带外通过1个GE网卡8、出口区:配置公网出口、专线接入以及运维专线等网换机S6850-56HF构成换机S6850-56HF构成(400G接口)网络分层拓扑图分层结构分层结构任意两台服务器间仅需2跳任意两台服务器间仅需2跳(Leaf→Spine→Leaf)台2①业务网络:①业务网络:400G光纤(核心交换机-Leaf交换机互联)、25G光纤(Leaf交换机-GPU服务器连接),满足高带宽、低延迟业务需求。②管理网络:10G网线(带内管理交换机-服务器BMC口)、1G网线(带外管理交换机-服务器独立管理网口),保障管理流量稳定传输。③业务核心:通过400G光纤与Spine交换机、Leaf交换机互联,这样就能让业务流量(大模型训练数据传输)和管理流量(设备远程运维指令)在这些核心设备间高效流转,同时借助双机部署实现冗余,避免单点故障影响业务和管理功能接口接口类型应用位置400G400GQSFP-DD25GSFP+管理连接40GQSFP+管理上行带外管理出口连接关键链路标注•25G业务链路:GPU与Leaf之间的高速数据通路,支持ECMP多路径负载均衡•10G管理链路:管理平面与核心网络的连接,保障运维指令传输•10G安全链路:Leaf与防火墙之间的安全过滤通道,降速至10G传输•1G应急链路:带外管理通道,用于设备故障时的应急访问硬件设备参数器机82228用482器1条2.线缆与配件清单数量纤米10GSFP+单模3924年/年年分层架构网络拓扑简图分层架构 基于Spine-Leaf(脊-叶)物理拓扑构建的层层层层算机柜布局设备连接关系表(分层互联逻辑)机柜布局核心架构:400GSpine-Core骨干连接、400服务器接入:每台Leaf连接18台GPU):),计算平面-机柜物理部署(示例)管理平面性业务核心交换机全全Mesh与负载均衡 防火墙双机热备架构防火墙部署层级防火墙部署层级链路规划链路规划带宽优化端口利用率硬件上架流程硬件上架流程预处理检查预处理操作上架分步操作承重检查:确认机柜承重能力≥1500KG。供电检查:验证10KW冗余PDU供电功能正常。安装机柜导流板,合理划分冷热通道,步骤1:安装适配导轨,确保导轨水平、稳固。步骤2:将GPU服务器推入机柜对应U位并固定。散热检查:测试机柜风冷系统风量≥1800CFM。步骤3:连接服务器双25G网线至Leaf交换机端口,双网络调试与配置测试目标测试项与工具验收标准上架规划A.•A.•光纤部署线缆管理:机柜内部采用理线架分层布线,业务光纤与管理网线分离捆扎(间隔≥5cm)。机房主干桥架分上下两层,业务联调与验收集群算力验证集群算力验证验证项与工具验证目标验证项与工具验证目标GPU状态检查:执行nvidia-smi命令lPOC测试:验证RDMA网络性能、风冷散热效果、存储分层策略等关键技术全链路压力测试测试目标测试目标测试项与工具测试项与工具测试价值测试价值规划思路复用原有端口新增存储链路新增存储设备 二期新增建设计划(存储平面扩展)规划思路复用原有端口新增存储链路新增存储设备•业务平面:原Leaf-Spine-Core架构不变,承载GPU业务流量(25GRoC);•存储平面:新增FCSAN与IPSAN混合架构,通过Core交换机•管理平面:带内/外管理网络独立监控计算与存储设备,保留原IPMI协议1 高性能并行文件存储方案设计(二期新增)高性能层大容高性能层大容量层流程阶段计算处理流程数据处理流程模型加载向量读取输入数据+模型->Vector->应用三方收集、网络爬取、边缘汇聚…负载高性能动态混合兼顾高带宽&高I/OGPU推理服务器预处理服务器l格式标准化l错误纠正l异常数据清理l重复数据清除GPU推理服务器模型加载向量读取输入数据+模型->Vector->应用三方收集、网络爬取、边缘汇聚…负载高性能动态混合兼顾高带宽&高I/OGPU推理服务器预处理服务器l格式标准化l错误纠正l异常数据清理l重复数据清除GPU推理服务器行业模型训推一体化GPU1GPU2数据全生命周期管理和大容量诉求,实现高性价比边缘存储边缘存储GPU3GPU4…GPU训练服务器GPUGPU训练服务器GPU训练服务器张量张量并行…定可靠运行安全稳多协议融合互通定可靠运行安全稳多协议融合互通213原始数据训练集数据索引数据4向量库热温冷智能分级跨域数据灾备智能分级全域数据管理数据安全可信并行文件存储及对象存储组网架构(二期新增)设计说明联存储交换机并接入存储小核心供昇腾910B使用。业务交换机。l对象存储管理网采用千兆管理网。算存一体化网络分层拓扑图1(二期规划)存储架构•协议转换:iSCSI网关连接Core交换机(非FC设备算存一体化网络分层拓扑图2(二期规划)l第34页SAN存储:双阵列负载分担,关键链路聚合(如Leaf的8×40GFC)2CONTENTS4设备类型:华三交换机(核心、Leaf、管理)、飞塔防火墙、Dell管理节点Leaf交换机全mesh互联,障数据多路径传输与负载lGPU服务器配置双网卡,分别连接不同Leaf交换机,实现链路冗余,提l业务/管理核心交换机单独承载高优先级流量,管理平面通过独立网络传输,安全层串联l采用EVPN+VXLAN技术拟机/容器跨机柜迁移时l采用EVPN+VXLAN技术拟机/容器跨机柜迁移时l大二层网络与传统网络相比,迁移时间更少、通信延迟更低),高性能并行文件存储技术优势应用协议应用协议备份与容灾数据处理数据处理智能数据分层文件对象HDFS块文件对象文件对象HDFS块文件对象基础基础硬件全闪池灵活配置和部署方式l采用“分布式存储+分层存储”架构,高性能层使用NVMeSSD,容量层采用HDD硬盘结合纠删码技术项目价值与优势本方案构建了“计算-网络-管理-安全”协同适配高负载场景,具备高算力、高可靠、低成本优势技术优势面,串联飞塔防火墙实现10Gbps安全防护,通过RoCEv2协议降低GPU间通信延技术优势亮点2成本优化价比优于戴尔30%)和华三网络设备(成本比思科低40%标亮点2成本优化3业务支撑3业务支撑通过消费级GPU堆叠实现千亿级参数模型训练与中大规模渲染任务,同时利用产业链证明:编制《产业融合白皮书》,含上游超微产业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论