2024推理 AI 芯片需求及技术壁垒_第1页
2024推理 AI 芯片需求及技术壁垒_第2页
2024推理 AI 芯片需求及技术壁垒_第3页
2024推理 AI 芯片需求及技术壁垒_第4页
2024推理 AI 芯片需求及技术壁垒_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIAIAI技术革新的开始,伴随而来的是新一轮下游需求的爆发,尤其是算力需AI应用逐步成熟,企业将把更多算AI推理工作中。不同于训练芯片需要通用性,推理芯片往往和已训练完AI芯片行业最为明显的优势。相较于PAGE4PAGE4/天下有变,AI芯片应运而 阶段不同,训练推理需求不 大潮将至,群雄逐 风险提 图1:英伟达H100GPU芯 图4:OpenAI推出ChatGPT 图5:微软将ChatGPT接入 图6:不同阶段的不同需求特 图7:巨头布局时间 图8:CUDA软件生 图9:HBM3结构 图10:AI的内存 图11:PCIe接口性 图 图14:深度学习市场AI芯片利 图15:AI芯片全球市场规 图16:公有云市场AI加速器市占 图17:英伟达历代GPU架 图18:华为昇腾产业链图 表1:AI芯片按场景及需求分 表2:GPU、FPGA、ASSIC主要特 表3:各巨头的大模型参数量对 表4:主要算力芯片参数指标对 表5:昇腾行业解决方 510021亿,成为史上用户增AIAI应用中的需要大量计算的任务。1H100GPU云端:PAGE10PAGE10/AI问答、语音识别等)AI芯片的需求也再不断2AI1:AI云端训云端训 云端推 高吞吐量、高精确率、可扩展性、高内存高吞吐量、高精确率、可扩展性、低延时 应用领 代表厂 作为本轮技术革新的iPhone时刻,ChatGPT的发布标志着新一轮AI技术革新的开始,4个要素:算法、算力、数据、应用场景,其中在本轮技术突破中,边际变化最大的是模型参数。OpenAI团队发布的论文《ScalingLawsforNeuralLanguageModels(自然语言模型的伸缩法则)中提出了大模型遵循(scaling 《ScalingLawsforNeuralLanguageModelstoken的训练成本通202321日,OpenAIChatGPTPlus20(1)(2)(3)改进。202328ChatGPTTeams产品,可67美元,710OpenAIWord、PowerPointOutlookChatGPT加入必应。ChatGPT应用的逐步增多,所需的算力同样会不断提升。同理,随着应用场景图4:OpenAI推出ChatGPT 图5:微软将ChatGPT接入 图6:不同阶段的不同需求特 图7:巨头布局时间 《AttentionIsAllYouAIGPU满足了开发者们的需求。这其中,CUDA是相当GPU编程的复杂度问题推出的通用并行计算平台。一方面,CUDA是硬件平台,用于通用并行计算。另一方面,CUDA提供了包括设备驱动、SDK、第三方工具和软件库GPUAI芯片目前难以做到的。丰富的产业生态是GPU的核心竞争力之一。8:CUDA2:GPU、FPGA、ASSIC优 AI芯GPU位于同一物理封装内,可3TB/sAI芯片中处于领先地位。9:HBM3图10:AI的内存 AI芯片,不同的接口性能代表了GPU1.5NVIDIAH100TensorCoreGPU18NVLink900GB/sPCIe5.0带7倍。11:PCIe图 3175Btokens300billion174,600million,其3

1.2 15 1750 1750 3 1370 1750 1750悟道 10悟道 文心 2600文心一 2600AIAI推理工作中。这意味着人工智能模型将逐步进入广泛投产模式,这将对企业的AI基础设施规划带来IDC数据,2021年中57.6%2026年,62.2%。图不同于训练芯片需要通用性,推理芯片往往和已训练完的大模型高度绑定。ASIC正是AI算法进行定制化开发,随着大模型技术的进一步成熟,商业化应用落地后,其GPU进行竞争,产业格局可能将产生分化。图14:深度学习市场AI芯片利 数量=模型参数量*(服务访问量*token/次)*ChatGPT为100tokensChatGPT1750ChatGPT日均2*6.16e8/30*100*1.75e11=7.18e20FLOPS/天。而随着大模型应用的15:AIGPU2010现迅猛发展,成为行业领军企业。GPU产品在云端训练及云端推16AI2009FermiAI芯片行业最为明显的优势。17GPU16S32uas512uas的CudaCores个CudaCores+8个LD/STUnit+8TensorCore1.0Tensor2.0,RTCoreTensorCoreRTCoreNvLinkTensorCoreNvLinkAI芯片处于国内第一梯队。我们梳理国内外主要算力芯片产品对比算力参数可以看出,华为昇腾910芯片FP16精度算力达到4厂 芯 适用任务芯片类型算力TFLOPS算力 算力 功 互联带 PCIe4.0:64 PCIe 英伟 PCIe4.0:64GB/s PCIe3.0:64GB/s PCIe4.0:64GB/sPCIe

训练推理 3001638.4GB/s 训练推理海 8100系 训

BR100训练+推理GPU - 1920 550128GB/s BR104训练+推理GPU 300128GB/s 昇腾310推理ASIC 昇腾910训练 昆仑一 推 ASIC - 256 120 512GB/s - 102GB/s 训练 ASIC - - 512 350 MLU370-X8训练+推理ASIC9624256250614.4GB/sMLU370-X4训练+推 150 MLU370-S4训练+推理 307.2GB/s MXN系 推 (曦思MXC系 推 (曦思(曦云MXG系 推 (曦彩 JM9系列第 推 JM9系列第 推

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论