从英伟达GTC看AI工厂的投资机会_第1页
从英伟达GTC看AI工厂的投资机会_第2页
从英伟达GTC看AI工厂的投资机会_第3页
从英伟达GTC看AI工厂的投资机会_第4页
从英伟达GTC看AI工厂的投资机会_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I工厂投资机会:算力基础设施板块多模态I板块本次TC我们看到英伟达从硬件到软件全方位打造I工厂我们认为行业已经进入大模型大算力为特征的I2.0时代算力基础设施板块将充分受益以下公司积极布局:先进工艺中芯国际计算芯片寒武纪海光龙芯瑞芯微先进封装华峰、光力、长电、通富;)C:沪电、胜宏;)光模块光芯片:中际旭创、天孚、新易盛、华工科技、源杰;)服务器:紫光股份、中兴、、富联、联想;)交换机芯片裕太微盛科通讯数据中心英维克光纤光缆长飞亨通中天此外,近期英伟达OpnI谷歌等在多模态I领域展现实力国内海康大华视源积极布局此领域。图表:算力基础设施板块多模态I板块相关公司板板块 中国企业先进工艺 中芯国际计算芯片 寒武纪、海光信息、龙芯中科、瑞芯微先进封装 华峰测控、光力科技、长电科技、通富微电PCB 沪电股份、胜宏科技光模块/光芯片 中际旭创、天孚通信、新易盛、华工科技、源杰科服务器 紫光股份、、网络、工业富联、联想交换机芯片 裕太微、盛科通讯(拟上市)数据中心 英维克光纤光缆 长飞光缆、亨通光电、中天科技多模态AI 海康威视、大华股份、商汤,视源股资料来源:图表:算力基础设施板块多模态I板块相关公司估值表市值 PE PS 年初至公司 代码 财报货币 收盘价 (亿元) E E E E E E涨跌幅中芯国际1CHCNY 0 2 0 6 3 0 0 4%计算芯片寒武纪 6CHCNY 5 2 7 a a 0 8 5海光信息1CHCNY 3 2 a 6 1 9 9 9龙芯中科7CHCNY 8 7 5 2 2 3 8 3瑞芯微 3CHCNY 3 1 0 3 2 5 8 6%%%%先进封装华峰测控0CHCNY 5 3 0 8 6 5 9 1光力科技0CHCNY 0 1 5 a a a a 长电科技4CHCNY 9 4 8 1 8 7 5 4通富微电6CHCNY 0 9 3 9 4 8 4 2%%%%B沪电股份3CHCNY 4 1 5 6 1 3 6 0胜宏科技6CHCNY 1 8 5 6 2 9 6 3%%光模块/光芯片 中际旭创中际旭创天孚通新易盛华工科源杰科技8CH4CH2CH8CH8CHCNYCNYCNYCNYCNY02510594361310606185724930835252527%%%%%服务器紫光股份中兴通锐捷网工业富联想8CH3CH5CH8CH2HKCNYCNYCNYCNYUSD8286949297720285809212135629196280552%%%%%交换机芯片裕太微 5CHCNY 5 6 a 9 8 8 3 5%数据中心英维克 7CHCNY 2 5 a 2 0 1 7 8%光纤光缆长飞光缆亨通光中天科9CH7CH2CHCNYCNYCNY337004301538684372161%%%%%%%海康威视5CHCNY08368815大华股份6CHCNY0029085视源股份1CHCNY9948618注:收盘价、市值截至23年3月2日,美元兑港币数据截至03年3月1日,预测数据为一致预期。资料来源Win,从G2023看英伟达I算力基础设施英伟达TC3中,为了满足I市场的需求,英伟达不仅发布了L4esorCoreGU、L0GU、H100NVLGPU和GraceHoper等超级芯片,还进一步推出NIDIADGX超级计算机成为大语言模型实现突破背后的引擎英伟达在TC203中表示《财富强企业中有一半安装了DXI超级计算机,DX已成为I领域的必备工具。英伟达G——大语言模型背后的引擎根据TC,DGX配有8个H100GU模组,H100配有rafomer引擎,旨在支持类似ChaGT的大模型。这8个H100模组通过LINKSwtch彼此相连,以实现全面无阻塞通信8个H100协同工作形成一个巨型GU通过40Gbs超低延迟的NIDIAQuntmInfnBad进行网络内计算将成千上万个DX节点连接成一台I超级计算机,并不断扩展应用范围,成为全球客户构建I基础设施的蓝图。图表:VIIAGX超级计算机结构 NVIDIAH100GPU 8个H10模组通过NLINKSwitch相连 8个H10协同,形成一个巨型GPU 400Gbps超低延迟QuanumInfiniBand

计算网络是I超级计算机的重要系统

NVIDIADGXH100 计算网络连结成千上万个DGX节点 形成一台I超级计算机 DGX超级计算机是现代化I工厂 资料来源:GTC22,图表:VIIAGX0超级计算机资料来源:GTC22,除了NIDIADGX超级计算机以外,英伟达还宣布推出NIDIADGXCoud和NIDIAIFondatios。DIAXCo与sftrgeCP和reCl作一将IAXIXud,行DIAlrse于I。Xud将NDIAIAIAIonas制式语IANeo于模sooeo物发的成式I模型。我们认为ChtGT等应用引发对I算力的需求加速计算和生成式I推理将带动训练推理芯片需求的爆发。图表:英伟达VIIAGXloud 图表:英伟达VIIAIFoundaons资料来源:英伟达TC03, 资料来源:英伟达TC03,I计算如何推动训练芯片需求NIDIA和AMD为GGU领域代表性厂商,二者占据市场绝大部分份额。其中NDI2022年数据中心业务收入突破0亿美元-222年复合增速达6%经过我们推算GGU营收约为6亿美元数据中心营收剔除CU及FGA部分。目前I训练主要采用英伟达在I训练GGU包括10/100H1(2年下半年开始量产出货)以及美国限制出口后英伟达推出的裁剪版0。)D推出的I训练芯片包括I5X30。图表:英伟达PPU系列芯片关键参数系列产品关键标MD产品型号eslaV100esla100H100I100MI250I250XI300GPUGV100GA100GH100ActuusAldebanAldeban-架构VoltaAmpeeopperA1.0CNA2.0A2.0A3.0SM80108132----SP5,1206,91216,8967,68013,31214,080-张量/矩阵核心单元640432528480832880-GP/z1,5301,4101,7751,5021,7001,700-FP32单元峰值GFLOPS)15,67019,49067,00023,10045,26047,870-FP64单元峰值(GFLOPS)7,8349,74634,00011,50045,26047,870-张量单元/矩阵峰值(TFLOPS,FP16)1253121,979184.6362383-4096itHBM25120itHBM2e5120itHBM34096itHBM28192itHBM2e8192itHBM2eHBM316GB40GB80GB32GB128GB128GB128GBTDP/瓦300250700300560560-晶体管数量/10亿21.154.280-5858146芯片大小/mm2815826814750700+700+-工艺/nm12FFN747665/6资料来源:Nvii,下图是一个典型的I训练芯片的架构,主要包括:CUD:CUDA是一种将GU作为数据并行计算设备的软硬件体系不需要借助图形学而是采用了比较容易掌握的类C语言进行开发开发人员能够利用熟悉C语言比较平稳地从CU过渡到GU编程。与以往的GU相比,支持CUDA的GU在架构上有了显著的改进:)采用了统一处理架构,可以更加有效地利用过去分布在顶点着色器和像素着色器的计算资源引入了片内共享存储器两项改进得CUDA架构更加适用于通用计算,加上8年后苹果、MD、和IM推出的OpnCL开源标准,GGU在通用计算领域迅速发展。张量和矩阵核心:GGU的大量硬件运算单元和高吞吐高带宽的存储设计能够提供强大的计算能力,同时针对矩阵运算和卷积,在软件层面提供了灵活完善的加速库支持,使得GGU能够充分地利用其硬件计算资源和存储资源实现高吞吐的卷积计算。为了进一步提升矩阵运算的性能,近年来NIDIA和MD的GGPU增加了全新的张量和矩阵核心大幅加速阵运算而且还支持多种精度使得GGU能够适深度神经网络不同场景、不同应用的精度需求。HBM存储器新一代DRAM解决方案突破内存容量与带宽瓶颈HM是一款新型的CU/GU内存芯片通过将多颗DDR颗粒利用D堆叠后和CU/GU封装在一起以实现大容量高位宽的DDR组合阵列通过增加带宽扩展内存容量让更的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。控制单元CU包括运算逻辑部件、寄存器部件和控制部件等,是计算机的运算和制核心注重通用性来处理各种不同的数据类型由于CU结构中大部分晶体管用构建控制电路和存储单元只有少部分用来完成实际运算工作所以CU在大规模行计算能力上极为受限。图表:典型I芯片的架构:(计算单元M控制单元):Nvidia,在单芯片计算训练性能不断提升的基础上,服务器整体能效的提升同样受到关注。英伟达在此次TC大会上推出GXH100服务器配有8个H100GPU模组,配有rasfofmer引擎以支持处理类似ChaGT的生成式训练模型,8精度在大型语言模型相较上一代0的训练和推理能力分别提升0倍8个H100模组通过NLINKSwtch相连确保GU之间的合作和通信。目前DX10已全面投产,后期有望面向全球企业。VII系列产品的关键标产品型号GUG显存性能VII系列产品的关键标产品型号GUG显存性能IIANSwitch最大系功耗kW系内网络存储软件最大系重量/kg系统尺寸m运行温范围GX10个10TesororeGU60GB5FOSI,10OSINT866.5双路Dome、8核心、2.25Gz率)、3.4G(最加速频2TB8个单端口IIAonctX-6/720Gb/s的Infnad端口,2口IIAonctX-6/7I1/2/5/10/20Gb/s以太网操作系统:个1.92TB.2驱动器储3TB(8个3.84T).2e驱动器bntuLnx作系统同时支持:edat级etOS13.16,13.16(包高度宽度:最大42.3度87.1℃-℃4个OFP端口,供8个单端口IIAonctX-7网卡,40Gb/s的nfnad/以太网;2个双端口IIAueFed-3DUI1个40Gb/s的nfnad/以太网网1个20Gb/s的nfnad/以太网卡GX10系统预安装GX操作系统,该操作系统基于bntuLn含DGXH1008个10TesororeGU60GB32FOSF81.2双路862TB操作系统:2块1.9TBNe.2硬盘内部存储:8,块3.84TBeU.2硬盘软件堆(所有必要软件包和驱动均针对GX化)。客户可以选择单独安装bntuLnx或edatnterpriseLnx以及必要的软件堆。5至°CIII资料来源:英伟达GTC22,训练大模型到底需要多少硬件:据OpnI团队发表于0年的论《eMosreFe-hotLearners训练一次6亿参数的G-3模型需要的算力约为340Fop/s-da(即假设每秒计算一千万亿次,需要计算0天。考虑到ChaGT训练在G-5模型基础上增加了参数量和训练样本量,其训练阶段的算力需求超过340Fop/s-da。观点1:10张1根据Lmba数据微软花费数亿美元帮助OpnI组装了一台I超级计算机以帮助开发ChaGT这台超算有过,0个U核使用了数万个英伟达图形芯片0,每个U服务器的网络连接速度为每秒,使得OpnAI能够训练越来越强大的I模型。软表与世超计机0中的他机器比它在五。观点:4张10:根据《fcetLrge-caleLaguaeMdelraningonGUCustersUsngMegtron-L的实际训练数据0亿参数30Btokes数据集的G-3模型在4块英伟达10上当btchsie156时每GU实际算力能够达到10teraFLO/s,训练时间为4天。华泰预测:需要近0张10。我们也对一次训练Chagpt需要的成本和GU数量进行了测算,根据公式所需硬件数等于训练所需浮点运算次数(模型参数0亿训练集大小0亿每单词训练所需浮点数6次单位GU单位时间有效浮点运算次数我们假设模型训练0天,则对应需要4张。如果按照DGX8张GU来算,约为3台l服务器(8GU1CPU)。此外我们还粗略估算出一次训练成本大致需要7万美元。图表:算法与数据发展引发爆炸式算力求,目前算力制约整体技术发展模型训模型训练GP用量与时长:英伟达gatro实际训练数据策略 参数量策略 参数量模型并行(十亿) 规模BatchsizeGP数量 实际每GPU吞量训练时间(天)384414490174.61153676828874训练策略不合适时,增加ZeR3153614474GPU数量对减训时25606404138169也无济于事224012240148140384115384训练策略适合时,增加174.6961536768114943GPU数量可减少训练时长PTD并行15361141235601171156529.6280224011201167802240115942

1

1120

2

137

控制其它条件不变,增加GP数量时,由于互连带宽等限制因素,实际每GP算力下降资料来源:EficitagScleauelTiingonPUClstsUsingeton-L,预测中国I训练芯片进展仍与英伟达在性能和生态有一定差距训练芯片需通过海量数据训练出复杂的神经网络模型,使其适应特定的功能,对性能和精度有较高的要求,并需具备一定的通用性近年来,国内厂商训练芯片产品硬件性能不断取得突破但与市场主流英伟达10产品仍存在一定差距。以云邃T0产品为例,其2位单精度浮点性能达2TFLOS高于10的5TFLOS且在功耗上更具优势但内存宽带不足10的,在应对机器学习和深度学习的带宽需求上仍有差距。寒武纪去年年底推出思元0系列可能在部分模型上由于其IC专用性表现出更优异的性能,但仍需要后期适配和技术支持。图表:国内主要云端训练芯片与英伟达流训练芯片对比资料来源:各公司官网,I计算如何推动推理芯片需求I推理需要什么芯片:练是计算密集型,模型需要大量的数据进行训练,通过反向传播优化参数,从而让模型达到某种目的。而推理过程更多在场景下,需要对训练的模型进行一定压缩、裁剪或做计算上的优化,以便能快速、高效的多未知数据进行操作。例如我们在视频监控中对人脸识别、电商运营中个性化推荐、电子支付中身份识别等都是常见的推理场景。通常来说我们采用“云端训练,端侧推理”模式,即将数据传到云侧进行训练模型,训练好的模型随后下放到端侧,端侧利用训练好的模型直接进行推理。在推理芯片的选用方面,相较于训练更多关注模型大小而言,推理更依赖于任务本质,以此决定所需芯片种类。当需要大量内容图像I生成式时,需要GU进行推理计算(如伟达主流的T4芯片;而对于较简单的推理过程(语音识别等,CU有时也会成为较的推理引擎。图表:英伟达PPU系列芯片关键参数英伟达主要数据中心I推理芯片参数公司产品号架构核心单元张量核心单元GU超频频率MHzBF1/F单元峰值(TFLO)F单元峰值(TFLOP)F单元峰值(GFLOS)张量单元峰值(TFLO,FP)存储接口存储小/GBTD瓦晶体数量亿芯片小/mm2工艺/nm英伟达TsaT4Trg.1.46-btGDDR6资料来源:Nvii,在本次TC大会上,我们还看到英伟达为加速生成式I开发及部署,在原有推理芯片上推出新的推理平台,主要包括:适用于I视频的主视频解码和转码视频内容审核以及视频通话功能例如背景替换、重新打光、眼神交流,转录和实时翻译进行优化,一台-GUL4服务器将取代一百多台用于处理I视频的双插槽CU服务器,行业内GogeCoud正加速在4上部署主要工作负载。适用于merse和图形渲染的主要针对mnerse图形渲染以及文本转图像和文本转视频等生成式,性能是NIDIA推理GUT4的0倍。适用于扩展M推理的H100CI:H100CIE配备9GBHBM3显存,可以处理拥有0亿参数的G同时还可支持商用CIE服务器扩展与适用于G-3处理的HX10相比,一台搭载四对H100及双GUNLINK的标准服务器的速度要快0倍。适用于推荐系统和向量数据库的超级芯片Grace-Hoper:通过90G/秒的高速一致性芯片到芯片接口连接GrceCU和HoperGU,适合处理大型数据集,如适用于推荐系统和大型语言模型的I数据库。图表:全新的推理平台:四种配置——个体系架构、一个软件栈资料来源:英伟达TC23,I推理成本:推理阶段运营成本较高,根据场景而定。据maWeb数据,3年1月ChaGT官网总访问量为6亿次;据《Fortun》杂志,每次用户与ChaGT互动,产生的算力云服务成本约001美元。基于此,推算ChaGT单月运营对应成本约6万美元。与训练阶段相比较而言,同样接近1个月的耗时,假设根据Lmba测算Fop/s-day的训练算力需耗费6万美元,单位算力成本固定,ChaGT运营阶段的推理过程所需算力基础设施将多于训练阶段。这里我们仅考虑一个提问回答场景,我们认为推理应用涉及较广,其对应的GU需求超过万片,远大于训练模型所需GU。中国I推理芯片进展推理芯片则是利用神经网络模型进行推理预测对峰值计算性能要求较低,则更加注重单位能耗算力、时延、成本等综合指标,我国厂商多选择先从推理端切入寒武纪海思以及燧原等国内厂商产品已具备与市场主流的esaT4正面竞争能力以寒武纪思元0为例,其INT8运算性能达到26O,高于T4的10O,且能效比和性价比均更优,已具备替代T4能力。图表:国内主要推理芯片与英伟达主流理芯片对比资料来源:各公司官网,IFatis“超算云服务模型代工厂,I大模型领域的台积电生成式I将重塑几乎所有行业英伟达在今年2月的QF23业绩会上表示过去公司只生产实物而未来每家公司都会成为I工厂,以源源不断的数据更新自己的模型;企业内部专有数据价值量高,I云服务能够帮助企业使用专有数据创建专有模型。本次TC上英伟达再次强调企业内部专有数据、专有模型的价值:一些专业领域的公司需要使用其专有数据来构建定制模型,需要制定使用规范并优化模型,以契合公司的安全、隐私要求。英伟达表示,行业需要一个类似台积电的代工厂,来构建自定义的大型语言模型。英伟达在本次TC推出IDIAlFoundations定位“超算云服务模型代工厂用于企业构建自定义语言模型和生成式NIDIAIFoudatons包括语言视觉和生物学模型构建服务,分别名为Nem、casso和oNem,使用企业专有数据进行训练,于处理特定领域的任务我们认为超算云服务模型代工厂的商业模式是英伟达作为芯片送水人在大模型时代的商业模式自然延伸。图表:VIIAlFoundaions:英伟达,语言模型服务NemoNIDIANeo用于构建定制的语言文本转文本生成式模型,基于5个基础模型(图其特点在于:企业可以使用专业数据进行参数调优以教授其专业技能比如汇总财务文档创建定品牌的内容以及以个性化的写作风格撰写电子邮件同时企业可以将模型连接到有知识库,可确保响应是准确的、最新的,并为其业务所引用。企

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论