智算算力、AI 芯片与产品解析_第1页
智算算力、AI 芯片与产品解析_第2页
智算算力、AI 芯片与产品解析_第3页
智算算力、AI 芯片与产品解析_第4页
智算算力、AI 芯片与产品解析_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章:智算算力、AI芯片与产品解析第二单元第二单元一、什么是算力算力顾名思义是“计算能力”的缩写,指的是IT设备的计算能力,在以“智算中心”“新基建”、“数字经济”以及“东数西算”等国家政策导向驱动下,“算力”相关话题近两年热度非常高,大家对算力的关注度也持续攀升。二、算力的规模情况35,00035,00034,17410,00010,0005,0978,69020,00020,0001515,000,5605,0005,000--数据来源:艾瑞咨询数据研究院11,200.0,117.4812.5812.5616.6600600.0497.1414.1414.1259.9155.2155.2 --来源:IDC《2023-2024年中国人工智能计算力发展评估报告》足、能源成本低的蒙贵甘宁等西部区域数据中心有一定推理:需要低时延、高弹性的计算,需要与模型实时交互,可部署在贴近用户的数据中心,当前主要集中在训推一体的京津冀、训练过程需求特点•需要低时延、零丢包、大带宽的高性能网络,集中高密部署,每个算力集群建议控制在50m以内•芯片类型:GPU为主•英伟达:H800,单卡700W,单台服务器11kW•华为:昇腾910B,单卡392W,单台服务器5.2kW•单机柜功耗:10~60kW推理过程需求特点•需要低时延、高可靠性和高弹性的计算,需要与模型实时交互,贴近用户部署•芯片类型:GPU与ASIC/FPGA/NPU均可•英伟达:T4,单卡70W,单台服务器1kW800W•单机柜功耗:6~10kW1、基础算力:1、基础算力:以CPU的计算能力为主。适用于各个领域的计算。2、智能算力:以GPU、FPGA、ASIC芯片等输出的计算能力为主,侧重人工智能领域。3、超算算力:以超算(HPC)集群输出的计算能力为主,科研、国防、高端制造等领域。上述算力分类是从狭义的角度进行的统计,目前和信息技术有关的一切,其实都可以笼统称为算力领域,算力及服务的时代,除了狭义上的算力,还包括存储的存力、网络的传输能力、算法的能力等等。算力的单位通常采用FLOPS(FloatingPointOperationsPerSecond)表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成10亿次浮点运算,那么它的FLOPS值就是1GFLOPS(1GigaFLOPS));););强高强中弱低特殊且专用的领域。强强题大型模型训练高性能计算AI推理图形渲染云游戏信通院发布了《中国算力发展智算白皮书》,作为权威机构的材料,对如何衡量“基础算力”、“智能算力”和“超算算力”给出了明确的解释。结论归纳:与智算中心或者AI相关(默认是FP16)、超算HPC(默认是FP64)、部分情况为了便于统计,会统一换算为FP32(目前见到的不多通常都会备注清楚。展开分析FP32、展开分析FP32、FP16等算力精度-1标准的FP英文全称是FloatingPoint,是IEEE定义的标准浮点数类型。由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。和FP类似的还有TF32(全称TensorFloat32是英伟达提出的特殊的数值类型,用于替换FP32,当然也有google提出的BF16(BrainFloat16)。FP16也叫float16,全称是Half-precisionfloating-point(半精度浮点数),在计算机的角度是用16位二进制来表示的FP32和FP64都是二进制表示的,为了让计算机能看懂,那么和十进制的数值如何转换呢?一、以FP32为例,我们将9.625这个十进制转换为FP32精度格式的二进制。2130=100000102130=100000101001.101=1.001101*23十进制的9.625二进制转换二进制转换二小数部分:0.625小数部分:0.101二、以FP32为例,我们将FP32精度格式的二进制转化为十进制。 转换公式类型符号位长度指数位长度小数位长度偏移半精度FP1615单精度FP3218双精度FP641CPU算力计算公式:Flops=【CPU核数】*【单核主频】*【CPU单个周期浮点计算能力】以6348CPU为例,支持AVX512指令集,且FMA系数=2,所以CPU每周期算力值为:英特尔®至强®Gold63486348双精算力=28x2.6(109)x(32)/(1012)=2.3Tflops6348单精算力=28x2.6(109)x(64)/(1012)=4.6TflopsSPEC是一个由计算机硬件广商、软件公司、大学、研究机构、系统集成商出版发型及咨询机构组成的非营利性组织,致力于创建、维护并引导一个计算机系统及业界公认的系统指标。得到众多国际软硬件厂商的支持和参与,被金融、电信、证券等关键行业用户作为选择IT系统一项权威的选型指标。SPECCPU是一系列的测试工具,比如SPECCPU2017是最新版本的评估整机计算处理能力工具,它包括Cint和Cfp两个子项目,前者用于测量和对比整型性能,而后者则用于测量和对比浮点性能。中兴服务器CPU中兴服务器CPU跑分宣传算力的计算方式—算力的计算方式—GPU算力(A100)-1=GPU峰值算力的测算公式为:峰值计算能力=GPUCore的运行频率*GPUSM数量*单个SM一个时钟周期内特定数据类型的指令吞吐量*2运行频率的单位为GHz,一个时钟周期内特定数据类型的指令吞吐量单位为FLOPS/Cycle,其中不太好理解是后面2项;1、单个SM一个时钟周期内特定数据类型的指令吞吐量,与英伟达每一代的GPU架构设计有关,与基于标准CUDACore还是通过Tensercore加速也有关,在不同精度的表现也都不一样,具体如图(图片来自网络);2、公式里面的“2”是因为TensorCore融合了乘和加的指令,每次执行指令会计算一次乘法和一次加法,视作两次浮点运算所以乘以2;算力的计算方式—算力的计算方式—GPU算力(A100)-2=1、FP64Tensercore的峰值算力为:1.41x108x64x2≈19492GFlops,换算成T为19.5Tflops,与彩页里的官方公布的算力数值一致。2、FP16Tensercore的峰值算力:1.41x108x1024x2≈311869GFlops,换算成T为312TFlops,同样也和彩页里的数值一致。3、稀疏算力对应的“周期内特定数据类型的指令吞吐量”是标准Tensercore下的2倍,所以算力也是2倍的关系。算力显存带宽功耗卡间互联算力显存带宽功耗卡间互联芯片指标定义分析浮点操作次数)为单位衡量。高计算能力对科它能加速模型训练、数据分析以及复杂模拟英伟达GPU的“稀疏算力”目前智算中心建设中。使用最多,讨论最多的依然是H100\H800型号的GPU和NvLink整机,但是还是有很多同学对H100GPU卡的参数不清楚,智算中心以AI算力为主,该用哪个数值呢?和FP16相关的竟然有三个,我们设计方案时会采用FP16Tenser加速的989TFPOPS,约1个P,个人简单总结如下:••标准算力•Tensercore加速后的算力•Tensercore+稀疏矩阵加速后的算力);NVIDIA的显卡目前可以按照应用领域大致分为三种类型:uGeForce消费卡:面向游戏娱乐领域:如GeForceRTX™4090、GeForceRTX™3080等。uQuadro专业卡:面向专业设计和虚拟化领域:如NVIDIARTX™A6000、NVIDIA®T1000等。uTesla企业级卡:面向深度学习、人工智能和高性能计算领域:如NVIDIAA100\A30TensorCoreGPU等。各GPU横向对比1AI训练(TF32)AI推理(TF16)图形渲染(RTCore)云桌面,视频编解码目前市场上除了英伟达GPU外,国产主流的厂商在10家以上,AIDC算力规划通常以FP16(稠密)算力为标准,同时考虑显存的大小和带宽、互联速率等,如下表格筛选了常见的AI芯片型号。A100/800整机8卡约2.5P约2.6P3P4TB/s4.8T/s/s/s理论64GB/s?训练、微景卡机台数主流国产主流国产AI芯片的算力情况(供参考)=数据服务数据服务算法服务层产品品类齐全算力类型多元绿色低碳加持实施交付便捷管理平台管理平台AIPaaS超云云迹AIPaaS超云云迹算力设备通用算力AI算力信创算力算力设备算力芯片算力芯片液液冷+方案模块化交付模块化交付智算中心算力-适配RTX5090的服务器智算中心算力-适配RTX5090的服务器ⅡⅡ双路国6U图线下训练回视频加速产品形态:6U机架式处理器型号:2颗第四代/第五代英特尔®至强®可扩展处理器,TDP≤350W内存插槽:32*DDR5DIMM/LDIMM插槽,最高支持DDR5-5600内存硬盘数量:最大支持12个标准3.5/2.5英寸热插拔硬盘:可选支持4个U.2NVMe硬盘:支持1个M.2NVMeSSD硬盘RAID支持:支持RAID0、1、10、5、50、6、60,支持超级电容PCIe扩展:支持10*PCIe5.0*16或20*PCIe5.0*8标准PCIe插槽GPU卡:最大支持10片四宽全高AI加速卡,TDP最高600W电源:支持2+2或3+1冗余(2000W/2700W/3200W)产品概述产品亮点采用GPU-CPU直通架构设计产品概述产品亮点采用GPU-CPU直通架构设计,无需经过PCIeSwitch通信,大大提高数据交互效率最大支持20个PCIe5.0扩展插槽,最多支持10个全高四宽加速卡,供电功率最高可达600W1、常见问题汇总近三年AI市场的火爆,带动了GPU服务器的市场需求,尤其是以高端GPU为主的A800\H800的Nvlink八卡机。问题1:标准PCIE与Nvlink全互联的GPU服务器差在哪儿?问题2:Nvlink的GPU服务器还需要PCIE吗?问题3:Nvlink桥接器能把PCIE服务器变成Nvlink服务器吗?问题4:Nvlink和SXM是什么关系?2、NVIDIA高端GPU的两种外观,以A800为例PCIe接口的GPU卡SXM接口的GPU卡GPU服务器按照GPU芯片之间的互联方式可分为两类:1、PCIE机型:常规的服务器,GPU直接通过PCIE链路进行通信,受限于PCIE的带宽上限,卡与卡双向互联带宽低,不满足大模型训练需求。2、Nvlink机型:也习惯叫SXM机型,指的是在服务器内部,GPU卡之间通过Nvlink链路互联,相比PCIE带宽更高,更适合于大模型训练场景。两种方案的带宽对比:英伟达Nvlink技术类型GPU通道数双向互联带宽Nvlink升级变化标准GPU服务器的GPU和CPU之间的互联架构1、标准的GPU服务器CPU和GPU,GPU之间都是通过PCIE链路互联。2、只能在成对的GPU之间通过NVLink桥接器连接,无法做到全互联。3、受限于PCIE的协议的速率,以PCIE5.0为例,一张GPU为PCIEx16,双向互联带宽仅为128GB/s,远低于Nvlink的900GB/s。4、对比SXM机型,PCIE更加灵活,包括GPU卡的数量,以及PCIE的拓扑都可以调整。同样的一台8卡同样的一台8卡GPU服务器,可以根据场景不同。通过调整主板上PCIESW的链接线缆可实现不同拓扑的切换,有些厂商宣称可以一键切换,可能其他把线缆全部链接,再通过软件控制。为了尽可能的普及Nvlink技术,英伟达专门推出了配套PCIE高端型号GPU卡的桥接器,通常只能实现两卡之间的互联,局限性强,以A100为例支持最多3个,满配三个时互联带宽可达600GB/s桥接器互联正确和错误实例Nvlink机型各个厂商都基于英伟达的HGX-GPU模组设计,整机在高度上通常是6U或8U,其中最核心也是价格占比最高是英伟达的GPU模组,可以理解成是一个有8个物理GPU组成的一个大的逻辑”GPU”。超聚变-第四代至强NVlink超聚变-第四代至强NVlink8卡机以超聚变NvlinkH800整机G8600V7为例,产品采用模块化设电源模组,各个模块均可单独维护。因为厂商围绕HGX模组进行设计,其他部分的差异化较大。1.与PCIE机型的GPU服务器不同,Nvlink机型的主板不需要直接支持GPU。2.主板通过四个PCIESwitch提供PCIE通道与HGX模组互联,每个PCIESwitch与2个GPU互联,到每个GPU的链路为PCIEx16。3.IntelSPRCPU支持80个PCIE通道,CPU到每个PCIESwitch通常也是PCIEx16。4.2个CPU到4个PCIESwitch采用对称设计,架构上实现了PCIE资源的均衡和CPU性能的平均。英伟达官方视频里展示全新的H200和B100,芯片性能加倍升级。以推理1750亿参数的GPT-3为例,H100是前代A100性能的11倍,近期上市的H200相对于H100则有超过60%的提升,而再之后的B200,性能将有更大提升。HGXH200与H100完全兼容,也就是说H200可以直接用在原来H100的系统里。接口、尺寸等均完全一致。H200预计在2024年Q2上市,真正的产品迭代是在2024年的Q4,基于新架构Blackwell的B100也将发布,但是具体的性能还不确定,从英伟达的发布的迭代图显示,升级肯定不会小。很多同学看到HGXH100、DGXH很多同学看到HGXH100、DGXH100、还模组,通常把8张H100SXM加上Nvswitch板子整合一起,逻辑上是一个大的“GPU”。达官方整机,含了HGXH100,还有服务器的CPU、内存、硬盘等。H100为核心的集群方案还包括了IB网络、IP网络、存储、管理节点等。4、DGXGH200:由NVIDIAGraceHopper超级芯片和NVIDIANVLink®SwitchSystem驱动的NVIDIADGX™超级计算机DGXGH200解析NVL72模块化产品的组成18个计算节点每个节点包括2个GB200每个GB200包括1个CPU和2个B200,所以18x2x2=729个NvlinkSwitch每个Switch节点包括2个NvlinkSwitch4.0的芯片问题来了1、GB200内部互联方式?2、9个SW节点如何实现18个计算节点每个节点包括2个GB200每个GB200包括1个CPU和2个B200,所以18x2x2=729个NvlinkSwitch每个Switch节点包括2个NvlinkSwitch4.0的芯片问题来了1、GB200内部互联方式?2、9个SW节点如何实现72GPU互联?理解NVL72一体化的设计,装满一个机柜,相当于一个由72块B200组成的逻辑的“大GPU”,GPU内部需要通过链路互联。节点内部展示GB200节点(ComputeTray)包含2个GB200,每个GB200包括1个GraceCPU、2个GPU①蓝色-GPU到NVlink交换机之间的互联②橙色-GPU到GraceCPU之间的互联NVLinkC-C技术,900GB/sNvlink5.0技术在后面展开9个NVLinkSwitch将72个GPU互联为一个逻辑的“大GPU”每个B200有18个NVLINKPort,72x18=1296个1个SwitchTray包含2颗NVLINKSwtich芯片,每个芯片提供72个接口,共计144个NVLink接口1296÷144=9(台因此正好通过9台的Switch将72个GPU进行互联。如左图所示:每一个GPU都与18个互联,因此通过SW芯片,GPU到GPU直接能实现超大规模组网千卡万卡 •应用广泛•稳定可靠•标准化和开放性安全设计设计成本估算架构设备安全设计设计成本估算架构设备业务目标安全需求配套设施配套设施……网络拓扑网络拓扑路由协议层次设计层次设计……物料人力物料人力规划网络安全区交换机线缆监控运维软件监控运维软件•高吞吐、低延迟••高吞吐、低延迟•性价比高产品•高性能•低延迟•降低CPU负载实施实施上架与布线网络配置调通测试系统调优极致调优应用调优IB网络的各种DR随着AI大模型带动NVLink机型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论