算力大时代AI算力产业链全景梳理_第1页
算力大时代AI算力产业链全景梳理_第2页
算力大时代AI算力产业链全景梳理_第3页
算力大时代AI算力产业链全景梳理_第4页
算力大时代AI算力产业链全景梳理_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u一、AI有望明显拉动算基础设施投资 1CaPT爆引了们对人智发的度关注 1工能要大支撑 2AI算产链及较多行需有全提升 3二、AI芯片需求爆发式长 5AI大模地用对AI芯片能数提方位求 5伟龙地稳国内商逐追赶 23进装为性替代案存一应潜力大 30三、AI服务器渗透率快提升 40AI服器算基设施主的件训型主成来于PU 40AI服器场模望保高增,前单饱满 43AI服器场中有望升国厂呈一超强局 45球务市规计保平稳 47的荐 47四、AI正在推动高速率模块需求放量 49五、AI将会拉动交换机场需求 59六、AI提升大功率DC机柜需求,液冷渗率之提升 62数筹国力网建,计需可能回暖 62AI大力务需高功机,冷成选项 64工能力求推动底据心模发展 68七、海外大模型进展 747.1 747.2 797.3Ma 82八、投资建议 86图表目录图表:AGC发历程 1图表:国外司AC关品 2图表:PT型意图 2图表:VDAGXA00AI服器 2图表:全算规增速 3图表:我算规增速 3图表:全球AI服务市场模算 4图表:中国AI服务市场模算 4图表:光块交速率进意图 5图表0:PAI芯片异构算 6图表1:201中国AI芯片场模比 6图表2:PU与PU构对比 6图表3:VDAPU主要品线 7图表4:VDAeri架至opper架的化 7图表5:低度特宽为AI计算来好处 8图表6:不精计消耗能和片积 8图表7:VDA数心PU持比位化 8图表8:V00中P32硬件和P64件的数关系 8图表9:专的件元nsoroe速阵加计算 9图表0:A00与100的P16nsoroe量对比 9图表1:P6enorCoe与P8nsoroe量对比 9图表2:P6enor力快增长 10图表3:P6enor单位心算明于P16 10图表4:AI训服需要高内容量 10图表5:NP负中储和算能消占比 10图表6:R与BM差异 图表7:语模的数数呈数增长 图表8:PU之过PCe连接 12图表9:PU之过Vnk连接 12图表0:Vnk1.0Vnk4.0 12图表1:VSch多颗PU 13图表2:VSch的PU算群 13图表3:PU典架构 14图表4:麒麟970PU加速像别 14图表5:脉阵运矩阵法示图 14图表6:谷歌PU架及其部脉阵列 15图表7:谷歌PU 15图表8:eaSD载PU模块 15图表9:AI训与AI推理对比 16图表0:云推占逐步升 16图表1:AC发生成式命 16图表2:VDA云练PU推理PU参对比 17图表3:不规大型所的存量计 17图表4:边端AI推芯片其力例 18图表5:大型数及训需kens 18图表6:神网的向传过程 19图表7:神网的向传过程 19图表8:不大型练过中算利率 19图表9:全大型练所算力AI芯片量算 19图表0:大型端理所算力AI芯片量算(力度) 21图表1:大型端理所算力AI芯片量算(存度) 22图表2:AI芯市争格局 23图表3:2022年AI加芯片场额 23图表4:全独显PU市场额 24图表5:国外流形染PU品能比 24图表6:2022年工能加芯在上署况 25图表7:英达片在AI学术文的现次 25图表8:国外流PPU产性对比 26图表9:谷歌PU4英达100性指比 27图表0:PU4英达100在同型表现 27图表1:国外流ASC品能比 28图表2:A建大生支所主深学习架 29图表3:A态和RCm生对照 29图表4:昇计产生态意图 30图表5:寒纪件发平台 30图表6:每万晶管的在28nm后上升 30图表7:先制芯的研费大上升 30图表8:Chpet利提升率 31图表9:用Chpet技的7n+14nm的价snm 31图表0:先封的次 31图表1:先封依互连度性排名 31图表0:用务与AI服务的同 41图表0:PU与PU产品点 41图表0:PU与PU内部构 41图表0:AI服器及推区别 42图表0:AI服器链概览 42图表0:类服成本构分 43图表0:潮AI服务器售及PU成占算 43图表0:球AI服务器市规测算 44图表0:国AI服务器市规测算 44图表1:222上全球AI服务市份额 45图表:022年国I服务器市份额 46图表1:潮息器产体系 48图表1:维息体系 49图表1:统层架构 50图表1:脊络构 50图表1:伟达X100SpePD用树络三架示图 50图表1:伟达X100SpePD统意图 51图表1:ManoxR20Gbsnnband网意图 51图表1:DXH00务器板接图 51图表2:Vnk不代际级Radap 52图表2:PCe不同的性参表 52图表2:100和H100PD采用B和Vnk网络的意图 53图表2:H00的连接意图 53图表2:H00的连接意图 54图表2:nel的10G硅光块意图 55图表2:光P、材料酸和膜酸调制的比意图 55图表2:换发意图 56图表2:PO方的势 56图表2:模厂前拥的0G模品 57图表3:美厂本开(万元) 58图表3:际创复盘 58图表3:软Azue的GX100AI超级算系统 59图表3:同络的对比 60图表3:202全五大太交机商 60图表3:201中换机场额 60图表3:换发意图 61图表3:换内部SDes耗比幅升 61图表3:络分耗在据心占大提升 61图表3:PO可降功耗 62图表4:PO所低功耗分意图 62图表4:数程立8节点 63图表4:数程立10个群 63图表4:国DC标机架模 64图表4:DC机房类消耗 64图表4:国据能耗布 64图表4:冷据制冷构意图 65图表4:类冷情况理 65图表4:潮息服务产品 66图表4:兴讯冷数中项获奖 66图表5:北区据中节改示图 67图表5:据港Capx支出成 68图表5:据港PX支出成 68图表5:下据示例图 69图表5:国上装机G) 70图表5:上电性指测算 70图表5:设海水下据心 71图表5:DC机房类消耗 71图表5:国据能耗布 71图表5:下据与传上DC部分对比 72图表6:软Nack目测指标 73图表6:软Nack目第阶—水数中心 73图表6:软Nack目第阶位图 74图表6:同语型的训数集构) 75图表6:ooge在式集计资利率面处相领地位 75图表6:PU4多下游景表于100 75图表6:PU4在T表优于A10 76图表6:PU4在ReNet表优于A00 76图表68:前业提升型算率策分类 76图表6:P17Bsued143Kseps 77图表7:neunngpeoanceofheT5Bae,age,and1BonheGUEevst 77图表7:AM提了型对签声稳性并优了型练率 78图表7:模性越一人Agnent成为挑战 79图表7:eO化𝑺实现存用化基方的26.% 80图表7:eOOoad对PUPU计的分 80图表7:PpDeam合模并、据行流水行低信本 81图表7:同行略下算源用情) 81图表7:oRA调低的B预练权保持变 82图表7:oRA下P2模型现练压缩同性优化 82图表7:oRA试略下练数幅少同时与neune持平或更好 82图表8:过整率ReNe50nibach训练现8K内性损失 83图表8:于Aexet网络不层权和梯度范的值异大 83图表8:ARS优主要据数比来节每层学率 83图表8:WOARS时AeNeBN8K训存性能失 84图表8:W/ARS时exNeBN8K训不性能失 84图表8:ARS优将ReNet0损练提至32K 84图表8:ARS与AMB法比 85图表8:AMB化训下T模的批量扩至2K 85图表8:EM算法 85图表8:SPokw 86一、I有望明显拉动算力基础施投资CatGT爆红引发了人们对于人工智能发展的高度关注人工智I是指由机器展示的智能即计算机基于大数据模拟人脑的各项功能例如推理视觉识别、语义理解、学习能力及规划与决策能力等。人工智能生成内容(IC)是指利用人工智能技术来生成内容,包括绘画、作曲、剪辑、写作等。AIGC的萌芽可追溯到上世纪0年代,0年代从实验性向实用性逐渐转变,但受限于算法瓶颈,无法直接生成内容,从1世纪10年代开始,随着以生成对抗网络(AN)为代表的深度学习算法的提出和迭代,AIC迎来了快速发展阶段。图表:AC发展历程数据来源:《人工智能生成内容白皮书2022》,市场需求推动IGC技术加速落地降低人力和时间成本IC可以帮助人们完成许多繁琐工作从而节省人力资本和工作时间,并可以在相同的时间内产出更多内容。)改善内容质量。AIGC被认为是继专业生产内(PG用户生产内(UC之后的新型内容生产方式尽管PC和UC的内容更具多元化个性化,但受限于激励措施和创作者自身因素影响市场存在供给不足的现象促进产业数字化助力数字经济发展。产业数字化是数字经济的融合部分,是传统产业应用数字技术所带来的生产数量和效率提升,其新增产出构成数字经济的重要组成部分,IC为数字经济提供了重要的数据要素。图表:国内外公司AC相关产品数据来源:《人工智能生成内容(AIGC)的演进历程及其图书馆智慧服务应用场景》,htGT的爆红引发了人们对于人工智能发展的高度关注。2年1月30日,pnAI发布语言模型tGP该模型采用对话的形式与人进行交互可以回答后续问题承认错误挑战不正确的前提拒绝不适当的请求。tGPT不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。人工智能需要强大算力支撑以htGT为代表的人工智能应用在运行背后需要强大的算力支撑。pnAI在8年推出的PT参数量为1.17亿预训练数据量约5B而PT3参数量达1750亿预训练数据量达45B在模型训练阶段tGPT的总算力消耗约为3640Pd,总训练成本为1200万美元,在服务访问阶段则会有更大消耗。图表:PT模型示意图 图表:NIIADGXA100I服务器eAI AIC数据显示:1年全球人工智能T投资额为5亿美元,预计6年将增至3亿美元,复合年增长率约%6年中国市场I投资预计将达266.9亿美元约占全球投资8.9%居世界第二位复合年增长率约21.7。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的50以上。IDC预测2026年中国在人工智能硬件市场的IT投资将超过0亿美元接近美国人工智能硬件的市场规模五年复合年增长率16.5。服务器作为硬件市场的主要组成部分,预计将占总投入的以上。人工智能的发展将对算力提出更高要求算力网络基础设施需求有望持续提升据中国信通院数据2021年全球计算设备算力总规模达到615Es每秒浮点运算次数同比增长44%其中基础算力规模为369Ep,智能算力规模为232Eps,超算算力规模为14Eps,预计2030年全球算力规模将达到56ZFlp,平均年均增长%。我国智能算力规模持续高速增长1年智能算力规模已经超过通用算力根据中国信通院数据我国计算设备算力总规模达到202Eps全球占比约为%保持50以上的高速增长态势增速高于全球其中智能算力增长迅速,增速为85%,在我国算力中的占比超过%。图表:全球算力规模及增速 图表:我国算力规模及增速全球算力规模(EFlops) 全球算力增速 基础算力 智能算力 超算算力 算力增速000000000000000

06 07 08 09 00

0%0%0%0%0%

500050000

06 07 08 09 00

0%0%0%0%0%0%数据来源:中国信通院, 数据来源:中国信通院,AI算力产业链涉及环节较多,行业需求有望全面提升I算力产业链涉及环节较多,按照算力基础设施构成来看,包括I芯片及服务器、交换机及光模块、IC机房及上游产业链等其中随着训练和推理需求提升I芯片及服务器需求将率先放量I算力对数据中心内部数据流量较大,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长;IC也有望进入需求释放阶段,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。1、I芯片和服务器需求将率先放量根据测算,3年7年全球大模型训练端峰值算力需求量的年复合增长率为8.%。3年全球大模型训练端所需全部算力换算成的100总量超过0万张从云端推理所需算力角度测算3年7年全球大模型云端推理的峰值算力需求量的年复合增长率为3%,如果考虑边缘端I推理的应用,推理端算力规模将进一步扩大。根据DC数据202年全球AI服务器市场规模202亿美元同比增长29.8占服务器市场规模的比例为16.4%,同比提升1.2pc。我们认为全球AI服务器市场规模未来3年内将保持高速增长,市场规模分别为39580/101亿美元对应增速96%25%/80%根据DC数据02年中国AI服务器市场规模7亿美元,同比增长24%我们预计202-225年结合对于全球AI服务器市场规模的预判以及对于我国份额占比持续提升的假设,我国AI服务器市场规模有望达到134307/51亿美元,同比增长101%/128%3%。图表:全球I服务器市场规模测算212223E24E25E大模型动U存量空(亿元)--266627109U占I服务器成本比例%)--7.07.07.0U芯片升/算效率升比测算()--100100100I服务器存量规(亿元)160220352896113I服务器增量规(亿元)-4.0132444717市场增(%)1518.0eA,CNiia图表:中国I服务器市场规模测算212223E24E25E全球市规模亿美)160220352896113中国市占全市场重()3.53.0市场增%)6.22.01051848.6市场规(亿元)5.06.0144369505eA,CNiia2、I算力改变数据中心内部网络架构,光模块和交换机速率及需求提升I数据中心中由于内部数据流量较大因此无阻塞的胖树网络架构成了重要需求之一光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长。G光模块2年底开始小批量出货,3年需求主要来自于英伟达和谷歌,04年有望大规模出货,并存在时间前移的可能。从交换机的电口来看,SrDs通道的速率每四年翻倍,数量每两年翻倍,交换机的带宽每两年翻倍从光口来看光模块每4年升级一次实际出货时间是晚于电口erDs及交换机芯片新版发布的时间。9年作为G光模块升级的时间点,市场分成了0G和G两条升级路径。但是在3年这个时间点市场下一代高速率光模块均指向G光模块叠加IGC带来的算力和模型竞赛我们预计北美各大云厂商和相关科技巨头均有望在4年大量采购G光模块,同时3年也可能提前采购。图表:光模块和交换机速率演进示意图思科,证券、IC需求有望释放,I服务器高功率密度或将推升液冷渗透率IC作为算力基础设施产业链的关键环节也有望进入需求释放阶段在过去两年半受多重因素影响下,云计算需求景气度下行,但IDC建设与供给未出现明显放缓,2021年和2022年分别新增机柜数量120万架和0万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好,部分地区上电率情况一般。所以IDC公司2年业绩普遍承压。随着平台经济发展恢复以及I等拉动,IC需求有望逐步释放,叠加2023新增供给量有望较2年减少(例如三大运营商22年新增IDC机柜15.6万架,023年计划新增1.4万架。人工智能大模型训练和推理运算所用的U服务器的功率密度将大幅提升,以英伟达X100服务器为例,其单机最大功率约可以达到6.k,大幅超过单台普通U服务器w左右的功率水平。在此情况下,一方面需要新建超大功率的机柜,另一方面为降低,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。二、I芯片需求爆发式增长I大规模落地应用对I芯片性能、数量提出全方位要求从广义上讲,能运行AI算法的芯片都叫AI芯片。PU、GPU、FPG、NPU、ASIC都能执行I算法,但在执行效率层面上有巨大的差异PU可以快速执行复杂的数学计算但同时执行多项任务时PU性能开始下降,目前行业内基本确认PU不适用于I计算。CPU+PU的异构方案成为大算力场景标配PU为应用最广泛的AI芯片目前业内广泛认同的I芯片类型包括GPUFPGNPU等由于PU负责对计算机的硬件资源进行控制调配也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPU、FPGA等芯片都是作为PU的加速器而存在,因此目前主流的AI计算系统均为PU+PU的异构并行。PU+GPU是目前最流行的异构计算系统,在HP、图形图像处理以及I训练推理等场景为主流选择。IDC数据显示,2021年中国I芯片市场中,GPU市占率为89。9.6%89.0%图表:CP+I芯片的异构计算 图表:201年中国I芯片市场规模占9.6%89.0%华为 资料来:

1.0% 0.4%

UUCAGPU性能、功能经历长期迭代升级,成为AI芯片中应用最广泛的选择PU能够进行并行计算设计初衷是加速图形渲染NVIDIA在1999年发布GeForce26图形处理芯片时首先提出GP(GrapicProceigUi的概念并将其定义“具有集成转换照明三角形设置裁剪和渲染引擎的单芯片处理器,能够每秒处理至少1000万个多边形。从计算资源占比角度看,PU包含大量的控制单元和缓存单元实际运算单元占比较小GPU则使用大量的运算单元少量的控制单元和缓存单元GPU架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。GPU通过从PU承担一些计算集型功能(例如渲染)来提高计算机性能,加快应用程序的处理速度,这也是GPU早期的功能定位。图表:CPU与PU架构对比资料来:NVA,CUDA将PU的计算能力扩展至图形处理之外,成为更通用的计算设备。在GPU问世以后,NVIDIA及其竞争对手T(被AMD收购一直在为他们的显卡包装更多的功能2006年NVIDIA发布了CUDA开发环境这是最早被广泛应用的GPU计算编程模型UDA将GPU的能力向科学计算等领域开放标志着GPU成为一种更通用的计算设备GPGP(GeeralPrpoeGPUNVIDIA也在之后推出了面向数据中心的GPU产品线。图表:NIIAPU主要产品线产品线定位应用场景代表型号GFoce计算机图形理和戏运行消费者用的高端PCGFoceTX0GFoceTX0VIAT/Qo专业视计算台建筑设、媒与娱等行专业用的P工作站VIATXA0QoGV10tatr数据中加速算平台AI据分析高性计(P)VIAVIAA资料来:NVA,PU性能提升与功能丰富逐步满足AI运算需要。210年NVIDIA提出的Fermi架构是首个完整的GPU计算架构其中提出的许多新概念沿用至今Kepler架构在硬件上拥有了双精度计算单(P64并提出GPUDirect技术,绕过PU/StemMeory,与其他GPU直接进行数据交互。Pascal架构应用了第一代NVLink。oa架构开始应用eorore,对I计算加速具有重要意义。简要回顾NVIDIAGPU硬件变革历程,工艺、计算核心数增加等基础特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐更好地适配I运算的需要。图表:NIIAFeri架构至er架构的变化架构erielerMawllPasclVltarigmereer发布时间2工艺/8/mSs656002as1Tesre////特点首个完GPU计构Vink.0VinkTesre.0Tesre.0T .0Tesre.0Vink.0Tesre.0Vink.0资料来:NVA,AI的数据来源广泛PU逐渐实现对各类数据类型的支持依照精度差异算力可从INT(整数类型、FP1(半精度FP3(单精度FP6(双精度等不同维度对比I应用处理的数据包括文字图片或视频,数据精度类型差异大对于数据表征来讲精度越高准确性越高但降低精度可以节省运算时间减少成本。总体来看精度的选择需要在准确度成本时间之间取得平衡目前许多I模型中运行半精度甚至整形计算即可完成符合准确度的推理和训练。随着架构的迭代,NVIDIAGPU能支持的数据类型持续丰富,例如ring架构T4开始支持INT8,pere架构100的eorore开始支持T32。图表:低精度比特位宽为I计算带来的好处 图表:不同精度计算消耗的能量和硅片面积资料来源Intel, 资料来源:《EfficientMethodandHardwareforDeepLearning》,图表:A数据中心PU支持的比特位宽变化资料来:NVA,均衡分配资源的前提下处理低精度的硬件单元数量更多表现更高的算力性能GPU作为加速器得到泛应用一定程度上得益于它的通用性为了在不同精度的数据类型上具有良好的性能以兼顾I科学计算等不同场景的需要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。因为低精度数据类型的计算占用更少的硬件资源同一款GPU中的处理低精度数据类型的硬件单元的数量较多对应计算能力也较强V100为例每个M中P32单元的数量都为P64单元的两倍最终V100的P32算(15.7TFOP也近似为P64(7.8TFOP)的两倍,类似的规律也可以在各代架构旗舰P100、100和H100中看到。图表:100中FP2硬件单元和FP4硬件单元的数量关系NVA,PU引入特殊硬件单元加速AI的核心运算环节阵矩阵乘(GEMM运算是神经网络训练和推理的核心,本质是在网络互连层中将大矩阵输入数据和权重相乘。矩阵乘积的求解过程需要大量的乘积累加操作,而FM(FuedMltipl–acculateoperation融合乘加可以消耗更少的时钟周期来完成这一过程传统UDAore执行FMA指令,硬件层面需要将数据按寄存器>AU>寄存器>AU>寄存器的方式来回搬运。2017年发布的olta架构首度引入了eoror(张量核心是由NVIDIA研发的新型处理核心根据NVIDIA数据,oltaeorore可以在一个GPU时钟周期内执行4×4×4=64次FMA操作吞吐量是Pascal架构下UDAore的12倍。图表:专门的硬件单元srCe加速矩阵乘加计算NVA,enorCoe持续迭代提升其加速能力olta架构引入eorore的改动使GPU的I算力有了明显提升,后续在每一代的架构升级中,eorore都有比较大的改进,支持的数据类型也逐渐增多。以100到H100为例eorore由3.0迭代至4.0H100在P16eorore的峰值吞吐量提升至100的3倍同时H100eorore支持新的数据类型P8,H100F8eorore的吞吐量是100FP16eorore的6倍。图表:100与10的FP6srCe吞吐量对比 图表:FP16srCe与P8sorCe吞吐量对比NVIDIA, 资料来源:NVIDIA,enorCoe加速下低精度比特位宽的算力爆发式增长契合AI计算需要eorore的应用使算力快速高效增长选取Pascal至Hopper架构时期每一代的旗舰数据中心显卡对比经eorore加速前后的FP16算力指标可以得到(1)经eorore加速的P16力明显高于加速之前(2)每单位eorcore支持的算力明显高于每单位Cdaore支持的算力同时eorore从207年推出以来首先完善了对低精度数据类型的支持,顺应了I发展的需要。图表:FP16sr算力快速增长 图表:FP16sr每单位核心的算力明显优于F16 NVA,tcoer, NVAtcoerp,数据访问支配着计算能力利用率I运算涉及到大量数据的存储与处理根据adece数据与一般工作负载相比每台I训练服务器需要6倍的内存容量而在过去几十年中处理器的运行速度随着摩尔定律高速提升,而DRM的性能提升速度远远慢于处理器速度。目前DRM的性能已经成为了整体计算机性能的一个重要瓶颈即所谓阻碍性能提升“内存墙除了性能之外内存对于能效比的限制也成为一个瓶颈adece数据显示,在自然语言类AI负载中,存储消耗的能量占比达到82。图表:I训练服务器需要更高的内存容量 图表:NLP负载中存储和计算的能量消耗占比AIAI2.5TBStdGBStdGB0

Y7 Y1 Y1

计算 存储Cadence, 资料来源:Cadence,PU采用高带宽M降“内存墙影响为防止占用系统内存并提供较高的带宽和较低的延时GPU均配备有独立的的内存。常规的GDDR焊接在GPU芯片周边的PB板上,与处理器之间的数据传输速率慢,并且存储容量小,成为运算速度提升的瓶颈。HBM裸片通过TSV进行堆叠,然后HBM整体与GPU核心通过中介层互连,因此HBM获得了极高的带宽,并节省了PB面积。目前,GDDR显存仍是消费级GPU的行业标准,HBM则成为数据中心GPU的主流选择。图表:DR与BM差异NVA,硬件单元的改进与显存升级增强了单张GPU算力的释放,然而,随着raorer模型的大规模发展和应用模型参数量呈爆炸式增长GP3参数量达到了1750亿相比GPT增长了近1500倍预训练数据量更是从5GB提升到了45TB。大模型参数量的指数级增长带来的诸多问题使PU集群化运算成为必须:即使最先进的GPU,也不再可能将模型参数拟合到主内存中。即使模型可以安装在单个GPU(例如通过在主机和设备内存之间交换参数所需的大量计算操作也可能导致在没有并行化的情况下不切实际地延长训练时间。根据NVIDIA数据,在8个V100PU上训练一个具有1750亿个参数的GP3模型需要36年,而在512个V10GPU上训练需要7个月。图表:语言模型的参数数量呈指数级增长ES.AL,NVIDA开发NVink技术解决PU集群通信。在硬件端,GPU之间稳定、高速的通信是实现集群运算所必须的条件传统86服务器的互连通道PIe的互连带宽由其代际与结构决定例如16PIe4.0双向带宽仅为64GB/。除此之外,GPU之间通过PIe交互还会与总线上的PU操作竞争,甚至进一步占用可用带宽。NVIDIA为突破PIe互连的带宽限制,在P100上搭载了首项高速GPU互连技术NVin(一种总线及通讯协议,GPU之间无需再通过PIe进行交互。图表:PU之间通过PCIe连接 图表:PU之间通过NLink连接HEITS.DIGITAL, 资料来源:NVIDIA,NVLnk继续与NVIDAGPU架构同步发展,每一种新架构都伴随着新一代Nin。第四代NVLink为每个GPU提供900GB/s的双向带宽,比上一代高1.5倍,比第一代NVik高5.6倍。图表:NLink1.—NLink4.0NVA,NVDIA开发基于NVLnk的芯片NVSwitch作为PU集群数据通信“枢纽NVink1.0技术使用时,一台服务器中的8个GPU无法全部实现直接互连。同时,当GPU数量增加时,仅依靠NVik技术,需要多数量的总线。为解决上述问题,NVIDIA在NVLink2.0时期发布了NVSitch,实现了NVik的全连接。NVSitch是一款GPU桥接芯片,可提供所需的NVink交叉网络,在GPU之间的通信中发挥“枢纽”作用。借助于NVsitch,每颗GPU都能以相同的延迟和速度访问其它的GPU。就程序来看,16个GPU都被视为一个GPU,系统效率得到了最大化,大大降低了多GPU系统的优化难度。图表:NSwitch连接多颗PUNVA,通过添加更多NVSwitch来支持更多PU,集群分布式运算得以实现。当训练大型语言模型时,NVink网络也可以提供显著的提升。NVSitch已成为高性能计算(HP)和I训练应用中不可或缺的一部分。图表:NSwitch支撑的PU计算集群NVA,NPU通过特殊架构设计对AI运算起到加速作用NPU在人工智能算法上具有较高的运行效率为了适应某个特定领域中的常见的应用和算法而设计通常称之“特定域架(DomainSpeciicrcitectreDSA芯片NP(神经网络处理器属于其中一种常被设计用于神经网络运算的加速以华为手机SoC麒麟970为例NPU对图像识别神经网络的运算起到了显加速效果,使其图像识别速度明显优于同代竞品的表现。图表:NPU典型架构 图表:麒麟70NPU加速图像识别maesRcgzedriue200548795aeiin7CGN200548795ioe7lsC+)amsg8)0 0000500050资料来源《Ahietefeulpoessgntordepeualntork

资料来源:THETECHREVOLUTIONIST,目前已量产的NPU或搭载NPU模块的芯片众多其他知名的芯片包括谷歌TPU华为昇腾特斯拉FSD、特斯拉Dojo等各家厂商在计算核心的设计上有其差异例如谷歌TPU的脉动阵列华为昇腾的达芬奇架构。以谷歌PU及计算核心结构脉动阵列为例,对比其相较于CPU、PU的区别:CPU和PU均具有通用性,但以频繁的内存访问导致资源消耗为代价。PU和GPU都是通用处理器,可以支持数百万种不同的应用程序和软件。对于AU中的每一次计算,PU、GPU都需要访问寄存器或缓存来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总吞吐量并消耗大量能源。谷歌PU并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU不能运行文字处理器、控制火箭引擎或执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗更少的能量占用更小的物理空间TPU内部设计了由乘法器和加法器构成的脉动阵列在计算时TPU将内存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。这就是为什么TPU可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。图表:脉动阵列运行矩阵乘法的示意图谷,脉动阵列本质上是在硬件层面多次重用输入数据在消耗较小的内存带宽的情况下实现较高的运算吞吐率。脉动阵列结构简单,实现成本低,但它灵活性较差,只适合特定运算。然而,I神经网络需要大量卷积运算,卷积运算又通过矩阵乘加实现正是脉动阵列所适合的特定运算类型脉动阵列理论最早在1982年提出自谷歌2017年首次将其应用于I芯片TPU中这项沉寂多年的技术重回大众视野多家公司也加入了脉动阵列行列,在自家加速硬件中集成了脉动阵列单元。图表:谷歌TPU架构及其内部的脉动阵列谷,NPU已经在AI运算加速领域获得了广泛应用在数据中心获得大规模应用的NPU案例即TPU已被谷歌用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等设备开始搭载I计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时NPU通用性差的势被缩小高算力高能耗比的优势被放大因而得到了广泛的应用。在终端设备中,NPU常以模块的形式包含在SoC内部,对I运算进行加速,例如特斯拉自动驾驶芯片D均包含NPU。图表:谷歌TPU 图表:slaFSD搭载NPU模块谷, ikhp,训/推理、云/边分别对AI芯片提出不同要求,未来推理端的算力需求将远超训练端AI技术在实际应用中包括两个环节训练(rainng)和推理(nfeence)训练是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量数据、具有一定的通用性。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。图表:I训练与I推理对比资料来:NVA,根据所承担任务的不同,AI芯片可以分为训练AI芯片和推理AI芯片:训练芯片:用于构建神经网络模型,需要高算力和一定的通用性。推理芯片利用神经网络模型进行推理预测注重综合指标单位能耗算力时延成本等都要考虑根据AI芯片部署的位置,可以分为云端AI芯片和边缘端AI芯片:云端:即数据中心,关注算力、扩展能力、兼容性。云端部署的I芯片包括训练芯片和推理芯片。边缘端即手机安防摄像头等领域关注综合性能要求低功耗低延时低成本边缘端部署的I芯片以实现推理功能为主。云端推理占比逐步提升AI落地应用数量增加根据IC数据随着人工智能进入大规模落地应用的关键时期,2022年在云端部署的算力里,推理占算力已经达到了58.5%,训练占算力只有41.5%,预计到2026年推理占到62.2%,训练占37.8%。云端推理占比逐步提升说明,I落地应用数量正在不断增加,人工智能模型将逐步进入广泛投产模式。图表:云端推理占比逐步提升 图表:AC引发内容生成范式革命训练训练 推理0%0%0%0%0%00 01 02 03 04 05 06C, 腾研究,目前PU为云端AI训练应用的首选,也有专门面向推理需求设计的PU。在云端训练场景,GPU兼顾通用性和高算力,同时具有完善的软件生态便于开发,目前占据主导。云端训练GPU常用的型号例如V100100H100上述型号在多种比特位宽具有高算力表现互连带宽性能也能满足集群分布式训练的需要在云端推理场景,100H100等型号亦可应用,英伟达也设计了面向推理市场的T410等GPU这一类型号的性能相比同代旗舰有所下降但仍具有良好的低精度比特位宽满足I推理的需要可以满足客户对能耗成本的综合考虑。图表:A云端训练PU与推理PU参数对比市场定位训练/推理型号V0SMA0SM0SMT4PIeA0PIeA0PIe发布时间制程FP4.8TFLPS.7TFLPS4TFLS.5TFLPS.7TFLPS.2TFLPSFP2.7TFLPS.5TFLPS7TFLS.1TFLPS.2TFLPS.3TFLPSFP6.3TFLPS8TFLS.6TFLPS-.3TFLPSFP4Tesr-.5TFLPS7TFLS--.3TFLPSTF32Tesr-6TFLS5TFLS-.5TFLPS2TFLSBF16Tesr-2TFLS0TFLS-5TFLS5TFLSFP6Tesr5TFLS2TFLS0TFLS5TFLS5TFLS5TFLSIT8Tsr-4TOS9TOS0TOS0TOS0TOS显存类型B2BeB3G6G6B2显存容量/2GB/0GB0GB6GB4GB4显存带宽0GBs./.4T/s.5Bs0GBs0GBs3GBsVinkG:G/sG:G/sG:G/s--G:0G/sPIeG:2BsG:4BsG:8G/sG:2GsG:4GsG:4GsTP0W0W0W0W0W5WNVA,tcoer,带宽互连速率的限制使云端超大规模的模型推理选择A10H10更优而非4A10等推理卡以GP3为例OpenAI数据显示GP3模型1750亿参数对应超过350GB的GPU显存需求。假设参数规模与所需显存呈线性关系,且推理的中间参数量按1倍估算,则1万亿参数规模的大模型推理需要约4000GB显存,则需要50张100(80G)或者167张10(24GB。集群中的GPU数量越多意味着更复杂的互连要求,而且10无法应用NVik和NVSitch技术大量10组成的集群仅依靠PIe通信互连带宽相比100等显卡的劣势明显,进而可能导致模型推理的时效性不佳。图表:不同规模大模型所需的显存容量估计参数量亿)模型显需求E)推理显需求E)不同号GPU的需量E)A0A0A099000互连性备注VinkBVinkBPIe:B资料来:eA,边缘端靠近数据源头,需求复杂致使AI芯片种类丰富多样。边缘端I以推理任务为主,边缘I芯片的特点是靠近数据源头,就近为终端设备提供I算力,减少了网络通信延迟,并不代表算力需求一定弱。边缘I芯片通常要求更为多样化要求保证具体应用场景的高能效低延迟低成本等要求复杂的需求场景导致边缘I芯片的种类丰富多样。目前边缘端的模型小到使用PU做I运算即可,或大到借助I芯片进行运算加速INT8算力从几OPS到几百OPS不等边缘端I推理芯片依然遵循PU+PU的异构方案并由于空间制约多以SoC的形式出现GPUFPGANPUSIC则作为加速模块布置于其中例如英伟达JestonXaier内含olta架构GPU,苹果M2配备NPU模块。在边缘端的小算力场景,GPU的功耗较大,NPU具有较强的竞争力。图表:边缘端I推理芯片及其算力案例瑞芯微KM苹果M2三星ExnosVIIAXirlaW.0AI芯片块类型PUPUPUGPUPUAI算力6TOS.8TPS6TOS2TOS2*.6TPS应用智能座及AAS平板PC手机自动驾、机人自动驾驶资料来:各司官,经测算,AI大模型在训练端和推理端都将产生巨量的算力AI芯片需求。如果未来大模型广泛商用落地,推理端的算力/AI芯片的需求量将明显高于训练端。大模型云端训练对算力的需求测算:测算原理从模型1参数规模入手根(2训练大模型所需的oen数量(3每oen训练成本与模型参数量的关系估算总算力需求,再考虑(4)单张GPU算力和(5)GPU集群的算力利用率推导得出GPU总需求。参数规模:过去几年,大模型的参数量呈指数上升,GP3模型参数量已达到1750亿。GP4具有多模态能力,其参数量相比GP3会更大。我们在测算中假设2023年多模态大模型的平均参数量达到10000亿个,之后每年保持20的增速;普通大模型的平均参数量达到2000亿个,之后每年保持20的增速。训练大模型所需的en数量:参数规模在千亿量级的自然语言大模型GP3、Jrassic1、Goper、MNG,训练所需的oen数量在千亿量级,而一些多模态大模型在训练过程中所需oen数据量也跟随参数量增长而增长,我们在测算中假设多模态大模型训练所需oen数量达到万亿级别,并且oen数量与模型参数规模保持线性增长关系。图表:大模型参数量及训练所需es年份参数量训练oknsGPT30亿0亿Jsic10亿0亿Gr0亿0亿TG0亿0亿资料来angoptetalnaedls,每oen训练成本与模型参数量的关系参考OpenI发布的论《ScalingasorNeralagaeModels》中的分析,每个toen的训练成本通常约为6N,其中N是LM的参数数量,我们在测算中遵循这一关系。具体原理如下,神经网络的训练过程包括前向传播和反向传播两个过程,其中大致包括四个步骤:做一个单次的推理操作,得到输出,例如输入猫的图片得到输出0.986。到输出y与真实的目标输出(假定设置的目标输出Y=1之间的差值𝜎例如得到输出与目标真实值的差值为0.014。将输出差值回溯,计算差值关于每个参数的梯度关系。根据输出差值和梯度修正每个神经元的参数,实现神经网络的参数更新,促使输出逼近目标真实值。因而在一个参数量为N的神经网络中一次输入带来训练过程的整体运算量大致为6N其中2N为前向传播过程,4N为反向传播过程。图表:神经网络的前向传播过程 图表:神经网络的反向传播过程0.986 0014aekle aekle单张PU算力因为在训练大模型时主要依赖可实现的混合精度FP16/FP2FOPS即P16eorore的算力,我们在测算中选取100SXM和H100SXM对应的算力312TFOPS和990TFOPS作为参数。PU集群的算力利用率:参考Gooleesearch发布的论文《PaM:ScaligangaeModelingithPathas》中的分析,我们在测算中假设算力利用率约为30。图表:不同大模型训练过程中的算力利用率年份参数量加速芯片算力利用率GPT30亿×VIAV.%Gr0亿×GleTPU3.%TG0亿×VIAA.%PM0亿4GleTPU4.%资料来PaM:clgaugeoeigwthahays,其他基本假设包括多模态研发厂商个数普通大模型研发厂商个数等根据所有假设及可以得到223年-2027年,全球大模型训练端峰值算力需求量的年复合增长率为8.0%。023年全球大模型训练端所需全部算力换算成的A10总量超过200万张。图表:全球大模型训练所需算力/AI芯片数量测算多模态大模型研发厂商个数58同时训模型目33333多模态模型均参数量亿,)4Y.%.%.%.%训练ks量(个)单个模型单kn训练所需运算次数(TFLS,)..6单模型需算PFLS).×9.×.×.×.×假设单训练需时(天)77777训练端峰值算力需求(PFLs,单模型.9.1.9..所需算力模型量/单次练间)普通大模型研发厂商个数同时训模型目33333普通大型平参数量(个)Y.%.%.%.%训练ks量(个)单个模型单kn训练所需运算次数(TFLS,)..9单模型需算PFLS)假设单训练需时(天)77777训练端值算需FL单模型所需算力模型量/单次练间)..8硬件算效率0SMFP6srTFLPS)A0SMFP6sr(FLPS)0需求总(万)(只虑0的况下)..2A0需总量万张)(只虑A0的情下)..40需求增(万)(只虑0的况下).A0需增量万张)(只虑A0的情下).eA,oleReechNVA,大模型云端推理对算力的需求测算:在云端推理场景下,我们分别从云端推理所需算力和云端模型部署所需显存两个维度分别进行测算。算力角度的测算原理基前文对参数规模模型数量等数据的假设根(1大模型日活用户人数(2)每人平均查询oen数量(3每oen推理成本与模型参数量的关系估算推理端总算力需求再考(4张GPU算力和GPU集群的算力利用率推导得出GPU总需求。大模型日活用户人数根据Siilareb统计数据2023年1月atGPT的日活用户数达到1300万。我们在测算中假设2023多模态大模型的平均日活量达到2000万普通大模型的平均日活量达到1000之后每年保持快速增长。每人平均查询oen数量:根据OpenI数据,平均每1000个oen对应750个单词,我们在测算中假设每位用户平均查询的oen数量维持在1000个。每oen推理成本与模型参数量的关系参考OpenI发布的论《ScalingasorNeralagae多模态大模型平均参数数量(亿,)YY.%.%.%.%多模态模型活用人数亿).2.5124YY.%.%.%.%每人平每天询次(次)每人平每次询Tks数个)单Tks所需算次(TFLs)..2每人每查询需计次数TFOPss,Toks数).8全天计次数EFLPs人每次查询所计算查次数人数)平均每s所需值算EFL)..0最大并峰值力乘数55555最大并峰值力FLs)..0普通大模型平均参数数量(亿个)YY.%.%.%.%普通大型日用户数(人).21248YY.%.%.%.%每人平每天询次(次)每人平每次询Tks数个)单Tks所需算次(TFLs)..3每人每查询需计次数TFOPss,×Toks数).2.4全天计次数EFLPs人每次查询所计算查次数人数)平均每s所需值算EFL)..0最大并峰值力乘数55555最大并峰值力FLs)..0峰值算总量PFLP)Models》中的分析,每个toen的推理成本通常约为2N,其中N是LM的参数数量,我们在测算中遵循这一关系。单张PU算力:由于测算中的大模型参数量级分别在千亿量级和万亿量级,考虑带宽容量和集群算中的带宽限制,我们在测算中假设采用H100或100作为云端推理卡。图表:大模型云端推理所需算力/AI芯片数量测算(算力角度)算力效率.%.%.%.%.%0SMFP6Tesr(TFLP)A0SMFP6TesrTFLP)0需求量万张)(只虑0的况下)A0需量(张)(只虑A0的情下)0需求增(万)(只虑A0的情下)-A0需增量万张)(只虑A0的情下)-NVA,pnA,根据所有假设及可以得到,从云端推理所需算力角度测算,223年-07年,全球大模型云端推理的峰值算力需求量的年复合增长率为13%。显存角度测算原理首先目前KHnix已开发出业界首款12层24GBHBM3考虑到一张GPU板卡面积有限,限制了计算核心周围可布置的HBM数量,因此未来一段时间内,GPU显存容量的提升空间较小。次,推理最主要的需求是时效性,为了满足时效性,模型所需要的存储空间需要放到显存内。综合GPU板卡HBM容量有限和推理端模型需放置在GPU显存中这两个条件,我们从模型推理端运行所需显存入手,先预估推理端运行一个大模型所需显存容量(1,再假设业务场景中大模型的峰值访问量,并以此得到总体的显存需求(2,最终得到算力/I芯片的需求。运行一个模型所需显存:以170亿参数的GP3模型为例,OpenI数据显示参数存储需要350GB空间假设推理计算中间产生的参数按照一倍计算因此推理至少需要700GB显存空间即部署一个模型需9张80GB显存版本的100。业务场景部署模型量及所需显存假设该模型能够同时处理的并发任务数量为100即9张10080处理100用户同时并发访问。业务场景部署以搜索引擎为例,假设最高并发访问人数为2000万,则需要万/1009=180万张10080GB。图表:大模型云端推理所需算力/AI芯片数量测算(显存角度)GPUA0GB模型GPT3参数()0亿0亿FP6理精显存估()0GB推理中参数倍数估推理显需求B)0GB0显卡需(张)90业务部场搜索引擎最高并访问(万)模型能时处的并量假设模型部量()显卡需(万)eA,NVA,根据上述测算可以得到云端推理的算力需求潜力巨大在I大模型规模化落地应用的情况下云端推所需的算力/I芯片将明显超过云端训练。如果考虑边缘端I推理的应用,推理端算力规模将进一步扩大。英伟达龙头地位稳固,国内厂商正逐步追赶海外龙厂商占据垄断地位,AI加速芯片市场呈现“一超多强”态势。数据中心PU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。I加速芯片市场上,英伟达凭借硬件优和软件生态一家独大在训练推理端均占据领先地位根据itrInigts数据2022年数据中心I加速市场中,英伟达份额达82,其余海外厂商如WS和Xilinx分别占比8、4%,MD、Itel、Goole均占比2。国内厂商起步较晚正逐步发力,部分加速芯片领域已经涌现出一批破局企业,但目前多为初创企业规模较小,技术能力和生态建设仍不完备在高端I芯片领域与海外厂商仍存在较大差距未来随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望加快。图表:I芯片市场竞争格局 图表:202年I加速芯片市场份额NVDIA WS ilinx MDGole Inel 其他%%% 资料来源:各公司官网, LIFTRINSIGHTSPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头霸占全球GPU芯市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和MD;独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和MD。分应用场景来看应用在人工智能科学计算视频编解码等场景的服务器GPU市场中英伟达和MD占据主要份额。根据JP,2023年Q1英伟达的独立显卡(包括AIB合作伙伴显卡)的市场份额达84%,AMD和Intel则分别占比12、4。图表:全球独显PU市场份额10%8%6%4%2%0%22Q1 22Q2 22Q3 22Q4 22Q1 22Q2 22Q3 22Q4 22Q1英伟达 AMD 英特尔JR图形渲染PU英伟达引领行业数十年持续技术迭代和生态构建实现长期领先2006年起英伟达GPU架构保持约每两年更新一次的节奏各代际产品性能提升显著生态构建完整Georce系列产品市占率长期保持市场首位最新代际GeForceTX40系列代表了目前显卡的性能巅峰采用全新的daoelace架构台积电5nm级别工艺拥有760亿晶体管和18000个UDA核心与Apere相比架构核心数量增加约70能耗比提升近两倍可驱动DSS3.0技术性能远超上代产品MD独立GPU在DNA架构迭代路径清晰,DNA3架构采用5nm工艺和ciplet设计,比DNA2架构有54%每瓦性能提升,预计2024年前DNA4架构可正式发布将采用更为先进的工艺制造目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小芯动科技“风华2号GPU像素填充率48GPiel/sFP32单精度浮点性能1.5TFOPSAI运(INT8性能12.5PS,实测功耗4~15W支持OpeG4.3DX1lan等API实现国产图形渲染GPU突破景嘉微在工艺制程、核心频率浮点性能等方面虽落后于英伟达同代产品但差距正逐渐缩小2023年顺利发布JM9系列图形处理芯片支持OpenGL4.0HDMI2.0等接口以及H.265/4K60ps视频解码核心频率至少为1.5GHz配备8GB显存,浮点性能约1.5TFl,与英伟达GeForceGTX1050性能相近,有望对标GeForceGTX080。图表:国内外主流图形渲染PU产品性能对比厂商英伟达英伟达景嘉微芯动科技芯动科技摩尔线程型号ecX4001009系列风华一号风华二号MT80制程4nm1nm1nm1nm核心数目1842046个MA时钟频率223252z161173z15z18z显存容量24B8B8B4B/8B16B248B16B显存类型R6XR5XR6/R6XR6FP2运算性能8.8S883S15ps5/10ps15OS1.4SFP6运算性能8.8SI8运算性能25S25S1.5S总线接口Ce4.06CE306CE408Ce4.06Ce3.08 Cen56各司官网PPU:英伟达和MD是目前全球PPU的领军企业。英伟达的通用计算芯片具备优秀的硬件设计,通过UDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中均推出了高性能的软硬件组合逐步成为全球I芯片领域的主导者根据tateo.I2022报告,英伟达芯片在AI学术论文中的出现频次远超其他类型的I芯片,是学术界最常用的人工智能加速芯片。在Oracle以及腾讯云中也几乎全部采用英伟达的GPU作为计算加速芯片AMD208年发布用于数据中心的adeonItictGPU加速芯片,Intict系列基于DNA架构,如MI250X采用CDN2架构,在通用计算领域实现计算能力和互联能力的显著提升此外还推出了对标英伟达UDA生态的AMDOCm开源软件开发平台。英伟达的H100及100、AMD的MI100、MI20系列等是当前最为主流的GPGPU产品型号。图表:202年人工智能加速芯片在云上部署情况 图表:英伟达芯片在I学术论文中的出现频次0%DADASiixDolenel6%5%6%15%14%3%83%172%89%89%99%1%00%11%7%gsce0%0%0%阿里云S ze CP ace 腾讯FTRISS saef.A,国内PPU厂商正逐步缩小与英伟达、MD的差距。英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距。国内主要GPGPU厂商及产品如下:海光信息:公司第一代DU产品深算一号已于2021年实现商业化应用,采用7nm制程,基于大规模并行计算微结构进行设计能支持FP64双精度浮点运算同时在单精度半精度整型计算方面表现同样优异,是一款计算性能强大、能效比较高的通用协处理器,且该产品集成片上高带宽内存芯片,可以在大规模数据计算过程中提供优异的数据处理能力高速并行数据处理能力强大在典型应用场景下主要性能指标可对标MI100英伟达P100接英伟达100第二代DU产品深算二号处于研发阶段进展顺利DU系列产品全面兼容“类CUD”环境,因此能够较好地适配、适应国际主流商业计算软件和人工智能软件,公司积极参与开源软件项目,加快了公司产品的推广速度,并实现与GPGPU主流开发平台的兼容。未来有望广泛应用大数据处理、人工智能、商业计算等领域。天数智芯201年1宣布量产国内首款云端7nmGPGPU产品“天垓100采用业界领先的台积电7nmFiFET制造工艺、2.5DooS封装技术,搭配台积电65nm工艺的自研Interpoer(中介层),集成多达240亿个晶体管整合32GBHBM2内存存储带宽达1.TB支持FP2FP/BF6IT32/6/8等多精度数据混合训练,系统接口PIe4.016。支持国内外主流GPGPU生态和多种主流深度学习框架。壁仞科技:202年9月针对人工智能训练、推理,及科学计算等更广泛的通用计算场景推出B100系列通用GPU芯片目前主要包括B100B104两款芯片基于壁仞科技原创芯片架构研发采用7nm制程,可容纳770亿颗晶体管,并在国内率先采用hiplet技术,新一代主机接口PIe5.0,支持XL互连协议,双向带宽最高达128GB/具有高算力高通用性高能效三大优势创下全球算力纪录16位浮点算力达到100T以上、8位定点算力达到200T以上,单芯片峰值算力达到PFLOPS级别,达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。摩尔线程:202年基于自研第二代MUSA架构处理器“春晓”GPU推出针对数据中心的全功能MTTS2000/S300MTTS300有PIeGe5接口FP32算力为15.2TFOPS核心频率1.9GHz显存容量32GB,支持MUSA安全引擎1.0以及GPU弹性切分技术支持在云端的虚拟化和容器化此外摩尔线程推出了完备的MUSA软件栈,可帮助MUSA开发者快速基于摩尔线程全功能GPU开发各种不同的应用软件,并可通过UDAONMUSA兼容CUDA语言开发。沐曦:沐曦首款异构GPGPU产品MXN100采用7m制程,已于2022年8月回片点亮,主要应用于推理侧;应用于I训练及通用计算的产品MX500已于2022年12月交付流片,公司计划2024年全面量产。2023年发布首款I推理GPU加速卡——曦思N100及解决方案在安防领域的应用。曦思N100是一款面向云端数据中心应用的AI推理GPU加速卡,内置异构的GPGPU通用处理器核心“MXN100,同时集成了HBM2E高带宽内存,单卡的INT8整数算力达160PS,FP16浮点算力则达80TFOPS,具备高带宽、低延时特性支持128路编码和96路解码的高清视频处理能力兼容HEV(H.265)H264V1VS2等多种视频格式,最高支持8K分辨率。图表:国内外主流PGPU产品性能对比厂商英伟达英伟达英伟达海光信息摩尔线程壁仞科技天数智芯沐曦型号10M100SM8000GCE)深算一号MT300壁砺10P天垓10M00制程4nm7nm7nm7nminET7nm7nm 7nm核心数钟频率107183z077141z045z1517z19z显存容量80B40B0B4032B32B64B32B显存类型B3B2EB2B2R6B2ERMB2FP2运算性 67PS 1.5PS1.5S 1.2S26S 37S能FP6运算性能276S78PS(B1604TFS80PSI8运算性能19S64S28S10S互联接口Ce5.06,Ce4.06,Ce4.06,Vinkn4:Vinkn3:Vinkn3:Cen4x16Cen5690B/s 60B/s 40B/sCe5.06Cen4016TP70W 40W 20W 30W ≤5W400W20W各司官网ASC市场方面由于其一定的定制化属性市场格局较为分散在人工智能领域SIC也占据一席之地。其中谷歌处于相对前沿的技术地位自2016年以来就推出了专为机器学习定制的ASIC即张量处理(eorProceigUit,TPU,近期,谷歌首次公布了其用于训练人工智能模型的I芯片TPU4的详细信息,其采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,同时使用了脉动阵列等设计来优化矩阵乘法与卷积运算,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升raorer模型的训练速度同时节约训练成本谷歌称在同等规模系统下基于TPU的谷歌超级计算机比基于英伟达100芯片的系统最高快1.7倍节能效率提高1.9倍谷歌TPU属于定制化ASIC芯片是专门为神经网络和eorFlow学习框架等量身打造的集成芯片,需要在这类特定框架下才能发挥出最高运行效率。图表:谷歌PU4与英伟达00性能指标对比 图表:TPU4与英伟达10在不同模型中的表现AntclyeofraleperopteroraieeangihadareportorEbdng,

AntclyeofraleperopteroraieeangihadareportorEbdng,国产厂商快速发展,寒武纪等异军突起。通过产品对比发现,目前寒武纪、海思昇腾、遂原科技等国产厂商正通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升,未来国产商有望在ASIC领域持续发力,突破国外厂商在I芯片的垄断格局。国内主要AI用SIC厂商及产品如下:寒武纪云端人工智能领域推出思元系列产品其中MU100芯片是中国首款高峰值云端智能芯片。MU290芯片是寒武纪首款云端训练智能芯片,采用了7nm工艺,性能功耗上接近英伟达100,理论峰值性分别高达1024PS(INT、512OPS(IT8。思元370(MU370)芯片是寒武纪首款采用Ciplet(芯粒)技术的人工智能芯片是寒武纪第二代云端推理产品思元270算力的2倍MLU370X8与MU370M8是寒武纪基于思元370云端智能芯片打造的两款不同形态的人工智能加速卡MLU370X8采用双芯思元370配置为双槽位250w全尺寸智能加速卡,提供24TFOPS(FP2)训练算力和256OPS(IT8)推理算力;MU370M8是寒武纪面向数据中心场景打造的OM形态智能加速卡,可提供32TFOPS(FP32训练算力和340PS(IT)推理算力。两款加速卡均支持寒武纪MLU-ink芯片间互联,可满足多样化人工智能模型的训练和推理需求。此外,公司正在开展新一代思元590的开发,将采用MUarc05全新架构,能够提供更大的内存容量和更的内存带宽,其I/O和片间互联接口也较上代实现大幅升级。华海思:推出昇腾系列产品。其中昇腾310在典型配置下可以输出16OPINT8,8PSFP16,功耗仅为8W,采用自研华为达芬奇架构,集成丰富的计算单元,提高I计算完备度和效率,进而扩展该芯片的适用性全AI业务流程加速,大幅提高AI全系统的性能,有效降低部署成本。昇腾910是业界算力最强的I处理器基于自研华为达芬奇架构3DCbe技术半精(FP16算力达到320TFOPS整数精(INT8)算力达到640OPS,功耗310W,可支持云边端全栈全场景应用。表观性能上,昇腾910芯片性能接近英伟达100,但华是基于自研的深度学习框架MidSpore与算力芯片进行相互优化,与eorlo/Ptorch两大主流深度学习训练框架的融合度不足,未来仍需要一定的时间进行生态建设。燧原科技:2019年12月首发云端AI训练加速芯片邃思1.0及训练加速卡产品,2020年推出推理加速卡,2021年7月推出的第二代云端I训练加速芯片邃思2.0,单精度FP32峰值算力达到40TFOPS,单精度张量TF32峰值算力达到160TFOPS。同时搭载了4颗HBM2E片上存储芯片,高配支持64GB内存,带宽达1.TB/s。昆仑芯昆仑芯1代I芯片于2020年量产在百度搜索引擎小度等业务中部署数万片是国内唯一一款经历过互联网大规模核心算法考验的云端I芯片昆仑芯2代I芯片于2021年8月量产是国内首款采用GDD6显存的通用I芯片,相比昆仑芯1代I芯片性能提升23倍,且在通用性、易用性方面也有显著增强。昆仑芯3代有望在2024年规模上市,或将采用了HaeiDaici(达芬奇)架构,峰值性能为256eraFOPS,支持更多的运算和深度学习技术,例如ONNX、eorFlow和Poc。图表:国内外主流ASIC产品性能对比厂商谷歌寒武纪寒武纪海思燧原昆仑芯型号谷歌4寒武纪M370寒武纪M590海思腾燧原技2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论