电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高_第1页
电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高_第2页
电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高_第3页
电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高_第4页
电子行业“AI的裂变时刻”系列报告3:为什么H20的推理性价比高_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录索引TOC\o"1-1"\h\z\u一H20理能过H100,L20推理性比肩L40S 5二PREFILL是力场景,H20受力约能表较弱 7三DECODE显带密集景,H20性表优异 7四H20多推场中性优、价高但也在殊况 8五、注附录 9六、险示 12图表索引图1:理程秒出量比单5图2:理能比以A100为考准) 5图3:理程秒出量比单6图4:理能比以L40作参基) 6图5:L40S单推理1stLatency基框推算果VSNVIDIA公测试结果 9图6:MI300X与H100理性计结对(据框计) 10图7:MI300X与H100理性测结对(AMD网露) 10图8:H200与H100推性能算果比根框架算) 图9:H200与H100推性能试果比(NVIDIA网露) 表1:种力片键参数 5表2:Prefill段时算表 7表3:Decode阶用推算表 7表4:理统能(ISL512/BSL3584) 8表5:理统能(ISL3968/BSL128) 8H20推理性能超过推理性能比肩L40S2023年10AIAI算H20、L20H20的FP16、INT8的不足1/2H100的约1/7;L20数被大幅阉割,使得市场大多对其性能表现、性价比持悲观或怀疑态度。我们基于2L0H2、L20均展现出较优异的推理性能。表1:几种算力芯片的关键参数算力芯片型号NVIDIAH20NVIDIAA100NVIDIAH100NVIDIAH200NVIDIAL20NVIDIAL40NVIDIAL40SFP16算力(TFLOPS)148312989989119.5181362FP8/INT8算力(TFLOPS/TOPS)29662419791979239362733显存容量(GB)968080141484848显存带宽(GB/s)4000203933524800864864864数据来源:NVIDIA官网,CSDN,H20推理性能优于A100H200H20A100H100、H200Llama2-13BFP16,BatchSize=16;3/输出Tokens128/3968、512/35842048/2048。以整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。参考图H20A100的1.8H100的1.1图1:推理全程每秒输出Tokens数量对比(单位:Tokens/s)0

图2:推理性能对比(以A100作为参考基准)237%ISL128;OSL3968

ISL512;OSL3584

ISL2048;OSL183%166%183%166%100%H20 A100 H100 H200

H20 A100 H100 H200数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单GPU,Llama2-13B,BS=16,FP16

数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,L40SL40SL40L20Llama2-7BFP16,BatchSize=16;3512/35842048/2048L40L20(ISL/OSLL40L20推L40S2%。图3:推理全程每秒输出Tokens数量对比(单位:Tokens/s)

图4:推理性能对比(以L40作为参考基准)0

ISL128;OSL3968

ISL512;OSL3584L40S L40

ISL2048;OSL2048

101% 100% 99%L40S L40 L20数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,GPU,Llama2-7B,BS=16,FP16

数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,我们将分别分析推理过程中Prefill环节、Decode环节H20的推理性能表现。表2:Prefill阶段用时推算表

Prefill受算力制约性能表现较弱Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或BatchSize较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为Firsttokenlatency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。参考表1,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。H20A100H100H200所需计算时间(ms)27681313414414所需内存传输时间(ms)1020129Prefill阶段总时间(ms)27681313414414数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584三、Decode是显存带宽密集场景,H20性能表现优异在PrefillDecodeDecode过程中,回答的Tokens必须逐个生成,且每个Token数从HBMDecodeKVCacheHBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;DecodeDecode参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。表3:Decode阶段用时推算表H20A100H100H200每生成1个Token所需计算时间(ms)5.42.60.80.8每生成1个Token所需显存传输时间(ms)18342115Decode阶段每生成1个Token用时(ms)18342115数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584H20H20A100/H100/H200)而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用57Tokens备20Tokens)站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。表4:推理系统性能表现(ISL512/BSL3584)H20A100H100H200Firsttokenlatency(ms)27681313414414每秒生成Tokens数量(Tokens/s)57294868推理全程每秒生成Tokens数量(Tokens/s)8734607591085数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584H20Tokens和较短的输出Tokens),参考表5(H20A100H20表5:推理系统性能表现(ISL3968/BSL128)H20A100H100H200Firsttokenlatency(ms)214491017432103210回答过程每秒生成Tokens数量(Tokens/s)41213449推理全程每秒生成Tokens数量(Tokens/s)83125294351数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL3968/BSL128五、备注及附录H20H20但同时,我们也对比了基于我们的推算框架的计算结果,与披露的部分算力芯片产NVIDIAL40SAMDMI300X、NVIDIAH200(一)推算结果VS测试结果:NVIDIAL40SL40S1stTokenLatencyLlama别为72ms/140ms/701ms,与NVIDIA公布的实际测试结果77ms/143ms/669ms对比,误差均在6%以内,具有较高的一致性。图5:L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果0

7%6%2%6%2%5%5%4%3%2%1%0%Llama2-7B Llama2-13B Llama2-70B基于框架算结(ms) 英伟达披测试果(ms) 误差(百比·右轴)数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理环境,NVIDIAL40S单卡,Llama2-7B/13B/70B,ISL=2048,OSL=128,BS=1,FP8(二)推算结果VS测试结果:AMDMI300XVSNVIDIAH100基于推算框架,我们计算比较了AMDMI300X与NVIDIAH100的推理性能。在Latency优先场景下,MI300X的吞吐量是H100的1.55倍(AMD官网测试数据为1.4优先场景下,MI300XH100的1.59倍(AMD试数据为1.6倍);基于我们框架的计算结果与AMD官网披露的测试数据具有较高的一致性。图6:MI300X与H100推理性能计算结果对比(根据框架计算)

图7:MI300X与H100推理性能测试结果对比(AMD官网披露)1.001.001.55 1.591.001.00Latencyimprovement ThroughputH100 MI300X数据来源:AMD官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,BLOOM:A176B-ParameterOpen-AccessMultilingualLanguageModel作者TevenLeScao,等,备注:Latencyimprovement推理环境8AMDMI300X/8卡NVIDIAH100,Llama2-70B,ISL=2048,OSL=128,BS=1,FP16;Throughput8AMDMI300X/8NVIDIAH100,Bloom-176B,ISL=1948,OSL=100,BS=128/32,FP16

数据来源:AMD官网,备注:Latencyimprovement推理环境,8卡AMDMI300X/8卡NVIDIAH100,Llama2-70B,ISL=2048,OSL=128;Throughput推理环境,8AMDMI300X/8NVIDIAH100,Bloom-176B,ISL=1948,OSL=100(三)推算结果VS测试结果:NVIDIAH200VSNVIDIAH100基于推算框架,我们计算比较了NVIDIAH200与NVIDIAH100的推理性能。参考NVIDIALlama2-13BGPT-3175BLlama2-70B1.682.111.871.41.6倍、倍)图8:H200与H100推理性能计算结果对比(根据框架计算)

图9:H200与H100推理性能测试结果对比(NVIDIA官网披露)2.112.111.871.681.001.001.00Llama2-13B GPT-3175B H100 H200数据来源:NVIDIA官网,AGISphere,LanguageModelsareFew-ShotLearners作者AshishVaswani等,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理环境,Llama2-13B,ISL128,OSL2K|Throughput|H1001×GPUBS64|H2001×GPUBS128GPT-3175B,ISL80,OSL200|×8H100GPUsBS64|×8H200GPUsBS128L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论