全球AI算力需求继续向上_第1页
全球AI算力需求继续向上_第2页
全球AI算力需求继续向上_第3页
全球AI算力需求继续向上_第4页
全球AI算力需求继续向上_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

正文目录“ScalingLaw”驱动大模型算力需求持续增长 3预训练:缩放定律下算力需求有望持续增长 5推理:高并发是推理计算需求的主要驱动力 8调优:算力需求主要取决于调优次数 10算力基础设施需求有望持续释放,关注算力产业机遇 12风险提示 14图表目录图表1:大语言模型(LLM)演化树 3图表2:下一代大模型或向更大参数方向演化 4图表3:大模型算力需求框架 4图表4:大模型预训练效果主要由参数量、数量、计算量决定,且满足“缩放定律” 5图表5:大模型预训练算力需求 5图表6:同等量下,模型越大效果越好 6图表7:缩放定律应该优先考虑参数量的放大 6图表8:大模型预训练算力需求 6图表9:“Chinchilla缩放定律”下不同体量模型预训练所需算力 7图表10:Transformer架构解码模块堆叠形成GPT模型基础架构 8图表大模型推理需要过程需要经过从文本嵌入到文本输出的过程 8图表12:大模型推理算力需求 9图表13:大模型推理算力需求测算 9图表14:人工反馈的强化学习的基本原理 10图表15:ChatGPT等大语言模型需要进行微调以实现效果对齐 10图表16:DeepspeedChat模型调优服务所需GPU核时数 图表17:不同参数体量模型30次调优算力需求 图表18:英伟达A100/A800加速卡性能 12图表19:大模型GPU需求测算 12图表20:模型厂商对服务器的需求测算 13图表21:全球AIGPU市场规模 13图表22:全球AI服务器市场规模 13图表23:国产主流AIGPU对比英伟达A系列GPU 14“ScalingLaw”驱动大模型算力需求持续增长Transformer的出现开启了大模型演化之路。大语言模型(LLM)是在大量数据集上预训NLP(自然语言处理)任务方面显示出了较大潜力,如自然语言理解(NLU、自然语言生成任务等。从M近年的发展2020GPT-3模型表现出的优异性能;2)GPTOpenAI对其解码器技术道路的坚持;3)模型闭源Google等公司也开图表1:大语言模型(LLM)演化树资料来源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,YangJingfeng(2023)、大模型或将向更大参数的方向不断演化GPT-4PaLM到Gemini型背后的能力来源,我们认为参数和数据集是最重要的两个变量。从十亿规模,到百亿、千亿、万亿,模型参数量的增加类似人类神经突触数量的增加,带来模型感知能力、推理能力、记忆能力的不断提升。而数据集的增加,则类似人类学习知识的过程,不断强化模型对现实世界的理解能力。因此,我们认为下一代模型或仍将延续更大体量参数的路线,演化出更加智能的多模态能力。图表2:下一代大模型或向更大参数方向演化资料来源:谷歌官网,拆解来看,大模型的算力需求场景主要包括预训练、Finetune及日常运营ChatGPT+FinetuneGPT-1/2/3这样的基础大模型;2)Finetune:在完成预训练的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实图表3:大模型算力需求框架资料来源:OpenAI、预训练:缩放定律下算力需求有望持续增长大模型预训练效果主要由参数量、。根据OpenAI2020ScalingLawsforNeuralLanguageModels得最佳性能,这三个因素必须同时放大。当不受其他两个因素的制约时,模型性能与每个图表4:大模型预训练效果主要由参数量、Token数量、计算量决定,且满足“缩放定律”资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、OpenAIC≈6NBS来刻画OpenAI2020年发表的论文《ScalingLawsforNeuralLanguageModelsTransformer架(𝑪𝟏)(𝑪𝟐)个(Nkn((。其中,、S的乘积即为预训练所消耗的kn总数量。基于此,我们可以通过C≈6NBS来刻画大模型预训练所需要的算力大小。图表5:大模型预训练算力需求资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、其中,OpenAIOpenAI着更多的计算变得可用,模型开发者可以选择分配多少用于训练更大的模型,使用更大的批处理,以及训练更多的步骤。假设计算量增长十亿倍,那么为了获得最优的计算效率训练,增加的大部分应该用于增加模型大小。为了避免重用,只需要相对较小的数据增量。在增加的数据中,大多数可以通过更大的批处理大小来增加并行性,而所需的串行训练时间只增加很少一部分。图表6:同等Token量下,模型越大效越好 图表7:缩放定律应该优先考虑参数量的大资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、

资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、ChinchillaDeepMind2022年发表的《TrainingCompute-OptimalLargeLanguageModels数量和参数量的放大与模型性能之间的关系并不是线性数量达到特定比例的时刻,才能实现最佳的模型效果。为了验证这一规律,谷歌用1.4万亿个训练了一个700亿个参数的模型“Chnchla,结果发现其效果比用0亿个tken训练的0亿参数模型GohrDeepMind进一步的研究发现,计算最优语言模型的参数量和数据集大小的近似关系满足:D=20P,其中D表示数量,P表示模型参数量,即在此比例下满足“Chinchilla图表8:大模型预训练算力需求资料来源:《TrainingCompute-OptimalLargeLanguageModels》,DeepMind,2022、1PFlop/s-day以上。我们假设不同参数体量的模型均满足“Chnchila需的算力。以训练0Chnchla缩放定律”下所需的训练2OpenAIC=6NBS,可以计算得到,训10001.39x10^4PFlop/s-day5000亿参数模型所需算力约3.7x105Flo/s-da1万亿参数模型所需算力约1.9x1^6Fop/s-da。图表9:“Chinchilla缩放定律”下不同体量模型预训练所需算力参数量(亿个)Token(亿个)算力需求(PFlop/s-day)模型15001.00x10^43.47x10^3模型210002.00x10^41.39x10^4模型330006.00x10^41.25x10^5模型450001.00x10^53.47x10^5模型5100002.00x10^51.39x10^6模型6200004.00x10^55.56x10^6资料来源:《TrainingCompute-OptimalLargeLanguageModels》,DeepMind,2022、预测推理:高并发是推理计算需求的主要驱动力GPT模型底层架构由解码器模块构成GPTGPT124896个模块。模块数量越多,则意味着模型参数量越大,模型体积也越大。图表10:Transformer架构解码模块堆叠形成GPT模型基础架构资料来源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,OpenAI,2018、化的文本数据,实现大模型推理OpenAI2020年发表的论文《ScalingLawsforNeuralLanguageModels经固定,参数配置完成之后即可进行推理应用。而推理过程实质上就是对大模型参数的再次遍历,通过输入文本编码后的向量,经过注意力机制的计算,输出结果并转化为文字。(head)等。图表11:大模型推理需要过程需要经过从文本嵌入到文本输出的过程资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、C≈2NBS来刻画主要执行前向传播,主要计算量体现在文本编码、注意力机制计算、文本解码等环节。根OpenAI=2N+2𝑛𝑙𝑎𝑦𝑒𝑟𝑛𝑐𝑡𝑥𝑑𝑎𝑡𝑡𝑛,其中公式后半部分𝑛𝑙𝑎𝑦𝑒𝑟𝑛𝑐𝑡𝑥𝑑𝑎𝑡𝑡𝑛主要反映上下文窗口大KC≈2NBS。图表12:大模型推理算力需求资料来源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、ChatGPT5000PFlop/s以上。Similarweb数据,20243ChatGPT18亿次。我们假设每次用户访108004ChatGPT官网0.065倍。最后,假设不同参数模ChatGPTC≈2NBS1000、5000、10000亿参数5555.6、27777.8、55555.6PFlop/s。图表13:大模型推理算力需求测算参数假设1参数假设2参数假设3参数假设4参数假设5参数假设6推理算力需求(PFlop/s)2777.85555.616666.727777.855555.6111111.14月推理Token峰值消耗数量(亿个)0.30.30.30.30.30.34月秒均Token消耗量(亿个)0.060.060.060.060.060.064月访问量(亿次)181818181818每次访问提问次数(次)101010101010每次问答Token数量(个)800800800800800800峰值倍数555555模型参数量(亿个)5001000300050001000020000资料来源:Similarweb、预测调优:算力需求主要取决于调优次数大模型完成预训练之后还需要进行参数调优以符合人类需求。一般而言,大语言模型在完(Finetune)OpenAI为例,模型调优的过程采用人类反馈机制(RLHF)进行。强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可以视为传统模训练机制的损失函数。奖励的计算要比损失函数更灵活和多样(例如paGO的奖励是对局的胜负,代价是奖励计算不可导,不能直接拿来做反向传播。强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人工反馈的强化学习。图表14:人工反馈的强化学习的基本原理奖励预测奖励预测人类预测的奖励观察行动环境强化学习算法资料来源:OpenAI官网、以ChatGPTChatGPT的调优过程主要分三步进行:1)训练监督模型;2)训练奖励模型;3)PPO化学习。调优之后,模型的参数会得到更新,所生成的答案也会更加接近人类所期望的结果。因此,调优过程对算力的需求实际上与预训练类似,都需要对模型参数进行遍历,但所使用的数据集较预训练会小得多。图表15:ChatGPT等大语言模型需要进行微调以实现效果对齐资料来源:OpenAI官网、GPU核时数倒推GPUDeepspeedChat(微软旗下专注于模型调优的服务商08张8080加速卡峰值算力约2TFLO(TF3。1300.9PFlop/s-day。以此类300亿、660亿、17501.9、5.2、8.3PFlop/s-day。图表16:DeepspeedChat模型调优服务所需GPU核时数模型1模型2模型3模型4模型参数(亿)1303006601750单次Finetune算力(PFlop/s-day)0.91.95.28.3训练时长(小时)91850.4208xA800算力(TF32,PFlop/s-day)2.52.52.520.0注:调优1750亿参数模型使用的服务器实例为8台,对应64张A800加速卡资料来源:DeepspeedChat、英伟达、预测2000PFlop/s-day以上A800(8A800加速卡进行调优训练,且训练时长与模型参数量成正比。此外,考虑到调优次数问题,我们假设每301000亿参数模型每月调优所需算力为216PFlop/s-day,1万亿参数模型每月调优所需算力为2160PFlop/s-day。图表17:不同参数体量模型30次调优算力需求模型1模型2模型3模型4模型5模型6模型参数(亿)5001000300050001000020000单次Finetune算力(PFlop/s-day)3.67.221.636.072.0144.0训练时长(小时)356920834669213858xA800算力(TF32,PFlop/s-day)2.52.52.52.52.52.530次Finetune算力(PFlop/s-day)108.0216.0648.01080.02160.04320.0资料来源:DeepspeedChat、英伟达、华泰研究预测算力基础设施需求有望持续释放,关注算力产业机遇大模型训练推理调优带来算力硬件需求AIGPUA100、H100、B100等。据英伟达,A100TF32312采用稀疏技术FP16624TFLOPS(采用稀疏技术。考虑到实际工作负载中,往往采用多卡互联进行模型的训练和SidBlack2022年发布的《GPT-NeoX-20B:AnOpen-SourceAutoregressiveLanguageModelA100TFLO(TF37.%234TFLOPS(FP16,采用稀疏技术。图表18:英伟达A100/A800加速卡性能A100SXMA800SXM数据传输速率600GB/s400GB/s显存带宽2TB/s2TB/s显存容量80GB80GBFP649.7TFLOPS9.7TFLOPSFP3219.5TFLOPS19.5TFLOPSTF32312TFLOPS312TFLOPSFP16624TFLOPS624TFLOPSINT81248TFLOPS1248TFLOPS注:TF32、FP16、INT8均为采用稀疏技术下的算力性能资料来源:英伟达官网、华泰研究我们预计千亿模型训练推理A100GPU2.8万张。对于大模型所需GPU/对算力的总需求即为预训练、推理和调优的算力需求之和。考虑到模型预训练完成之后,服务器等基础设施通常会被用于下一代模型的开发,因此我们假设预训练、推理、调优的算力需求将并发出现。此外,我们假设训练、推理、调优均在一个月内完成,基于此,测1000A100GPU2.8万张,500021.8万张,1000063.48A100加速卡,1000、5000、10000AI0.3、2.7、7.9万台。图表19:大模型GPU需求测算模型1模型2模型3模型4模型5模型6模型参数(亿)5001000300050001000020000总算力需求(PFlop/s-day)86914180772625648118163630577168893209预训练算力需求(PFlop/s-day)3472138891250003472221388889555555630天推理算力需求(PFlop/s-day)833331666675000008333331666667333333330次调优算力需求(PFlop/s-day)108216648108021604320总GPU需求(A100,张)12891277601070222179406337272058844预训练GPU需求(张)989395735613989243956951582779推理GPU需求(张)118712374271225118708237417474834调优GPU需求(张)31621853086151231总服务器需求(8卡,台)16113470133782724279216257355预训练GPU需求(台)12449544521236549462197847推理GPU需求(台)14842968890314839296775935430次调优GPU需求(台)48233877154资料来源:NVIDIA官网、预测3169服务器市场空间。据中国科学技术信息研究2023520290%仍在持续增加,但随着大模型的迭代,模型厂商之间的竞争或将逐步趋于均衡。基于此,我们保守假设未来或将有0家厂商实现00家厂商实现100008A800159万元1:7.23换22万美元/需求规模为3169亿美元。图表20:模型厂商对服务器的需求测算厂商数量(家) 每个厂商的服务器需求量(台) 服务器单价(万美元)服务器需求规模(亿美元)1000亿模型 30 3470 2295000亿模型202724222119810000亿模型10792161742总计3169注:美元兑人民币汇率假设为1:7.23资料来源:预测Gartner,2023AI534202425.7%IDC,2023AI2025318亿美元,2024-2025CAGR22.7%3169/推理/调优需求有望带动算力基础设施建设需求快速增长。图表21:全球GPU市场规模 图表22:全球服务器市场规模0

全球AI芯片市场规模(亿美元) yoy25.7%20.9%2022 2023E 2024E25.7%20.9%

3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论