计算机行业算力租赁市场分析_第1页
计算机行业算力租赁市场分析_第2页
计算机行业算力租赁市场分析_第3页
计算机行业算力租赁市场分析_第4页
计算机行业算力租赁市场分析_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机行业算力租赁市场分析AI算力需求空间测算训练规模突破临界值,大模型“智慧涌现”大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。迈入AI智能时代,计算芯片依赖已从CPU转向GPUAI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的GPU逐渐成为计算主力军。大模型训练侧GPU需求测算2022年,英伟达、斯坦福联合微软研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级;论文中的测试基于DGXA100-80GB集群完成。对于最大的1T规模的模型,一共使用了384台8卡DGX-A100服务器,服务器内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有8个200Gbps的InfiniBand网卡;GPU利用率=单张GPU训练时吞吐量/单张GPU峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务器通信优化等加速技术提高GPU利用率。训练过程中,英伟达A100卡使用数量的变化范围为[32,3072],GPU利用率随参数量增加而增长,变化范围为[44%,52%]。大模型推理侧GPU需求测算——推理侧具备更大的成长空间根据Similarweb数据,2023年8月ChatGPT的月度访问量为14亿(包括直接访问、外链等),平均访问时长为7分钟。假设1:ChatGPT访客平均每次访问提问数为10个,每个问题加上其回答的Token数量平均为1000;假设2:ChatGPT访客来自全球各地,假设在每日24小时内平均分配访问量和计算量;假设3:在推理侧,大模型运算更为简单,我们仍保守假设GPU利用率为45%。推理过程中,每个参数只需执行1次乘法运算和1次加法运算,以GPT-3的参数量1750亿带入以下测算。推理前一般采用量化等技术将模型优化到Int8精度,在此精度下,每张A100的峰值吞吐量(非稀疏)为624TOPS。未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级2023年9月25日,ChatGPT进行重大更新——GPT-4和GPT-3.5都具有了基于图像进行分析和对话的能力。我们认为,当模型参数增长至万亿级且具有多模态能力,能承担更多生成、分析等任务时,将吸引更多用户,ChatGPT月度访问量将高增(2023年8月,谷歌月度访问量为860亿,约为ChatGPT的70倍)。在以下三点假设下,长期来看,我们推测未来ChatGPT推理侧A100需求将超过70万张。假设1:我们采用外媒SemiAnalysis给出的数据,即使用GPT-4时每次推理只需使用2800亿个参数;假设2:多模态能力与更强大的分析能力将使得用户更加依赖大模型,推理侧每日问答的Token平均数量达到30000甚至更多;假设3:随着大模型技术发展,假设未来ChatGPT的月度访问量翻20倍,达到300亿。大模型推理侧GPU需求测算——微软Copilot2023年9月21日,微软宣布基于GPT-4的Copilot将全面开放:微软全球版Copilot于2023年9月26日随更新的Windows11以初期版本形式推出,融入到画图、照片、Clipchamp等应用程序中;全球版Microsoft365Copilot将于2023年11月1日起面向企业用户提供服务,融入Teams、Outlook、Word、Excel、Loop、OneNote和OneDrive等应用程序中,同时微软将推出AI助手Microsoft365Chat。大模型推理侧GPU需求测算——Copilot+Microsoft365微软曾在FY20Q1电话会议上披露,Office365(现已更名为Microsoft365)商业版的月度活跃用户突破2亿,而根据微软的季报及年报数据,商业版用户数量年增速保持在15%左右,我们推测Microsoft365企业用户数目前已突破3亿。假设Microsoft365中Copilot使用率为15%-80%,企业用户使用Copilot时,输入和输出的平均Token数量为2000-30000。驱动AI发展的关键引擎,英伟达A100&H100供不应求自年初以来,英伟达A100一直处于供不应求的状态,而其他加速卡由于性能、生态等方面与英伟达存在较大差距,大部分场景无法实现替代,尤其在训练侧,A100与H100具有极大的优势与较高的技术壁垒。现阶段,大模型技术突破遭遇瓶颈,算力资源短缺为重要原因之一。OpenAI表示GPU供应不足阻碍了其研发计划的推进,例如模型微调和划拨专用容量等受到影响。OpenAI联合创始人AndrejKarpathy曾转发了一篇博客文章。这篇文章认为训练大语言模型的初创企业、云服务供应商及其他大公司需要拥有超过1000张H100或A100。A100方面:GPT-4可能在10000-25000张A100上进行了训练,Meta拥有约21000张A100,特斯拉拥有约7000张A100,StabilityAI拥有约5000张A100,Falcon-40B在384张A100上进行了训练。H100方面:a)OpenAI可能需要50000张,Inflection可能需要22000张,Meta可能需要25000张。大型云厂商可能每家都需要30000张(Azure、谷歌、AWS、Oracle)。Lambda和CoreWeave以及其他私有云厂商可能总共需要10万张,CoreWeave预订的H100数量约为35000-40000张,而Anthropic、Helsing、Mistral、Character等每家可能需要10000张。b)Inflection在其GPT-3.5等效模型中使用了3500张H100。GCP拥有大约25000张H100。微软Azure和Oracle可能有10000-40000张H100。发展趋势大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求大模型架构复杂,训练周期较长。硬件、系统、软件、驱动等等需要稳定运转才能最大化加速卡并行运算的能力,保障模型训练的效率,缩短训练的时间和成本。虽然加速卡具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断、持续时间较短。如果训练中断后不能及时恢复,不仅会影响训练成功率,还会使得训练成本居高不下。案例:阿里云面向AI大模型的解决方案SCC高性能弹性计算集群:为提升并行运算的效率,集群中GPU之间使用了最高效的NVSwitch互联。节点之间使用了非阻塞式的RDMA网络,同时节点间还有VPC网络互联。此外,集群还用了高性能的集群存储CPFS和块存储。算力切割&调度:提供更小的GPU计算粒度,通过池化的方式提升资源使用效率。例如,通过cGPU技术实现GPU的资源切割和跨主机资源池,以解决GPU资源的使用不充分、或者更加夸张的计算资源配比需求等等,帮助用户获得更有效率和更有性价比的GPU计算资源。阿里云基于自身IaaS资源推出AI加速套件AIACC,用于优化基于AI主流计算框架搭建的模型,显著提升训练和推理性能。当前AIACC推理引擎包含AIACC-Torch(Pytorch推理加速引擎)、AIACC-MLIR(MLIR推理加速引擎)、AIACC-HRT(AIACC算子深度加速引擎)几个组件。AIACC-Torch(Pytorch推理加速引擎)主要用于业界主流的PyTorch模型的推理加速引擎;AIACC-MLIR(MLIR推理加速引擎)是基于MLIR用于优化Tensorflow的加速引擎;AIACC-HRT(AIACC算子深度加速引擎)是阿里云底层高性能的限制加速库。竞争格局和要素云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面算力需求贯穿大模型训练、微调、推理整个周期,无论是国内还是国外,目前AI算力需求都具有较强的确定性,我们认为AI算力需求未来还将维持高增。各个云厂商在硬件、软件和商业化上的布局不同,所匹配到的客户特征、用户决策偏好以及在LLM发展的客户需求等方面也存在差异。硬件:GPU、通信、裸机实例;从NVIDIA拿货的实力尤为重要:提货优先级>目前所拥有的绝对数量。NVIDIA不仅会考虑云厂商服务的大模型客户的实力,还会考虑LLM生态均衡性、自研芯片的竞争态势和客户体量等因素;裸机实例在训练环节更占优势,因为客户需要最大化利用算力资源;而在微调与推理环节,由于业务复杂度、成本等考量,传统进行虚拟化后的云服务大概才能满足各类客户的多样化需求。软件:Kubernetes、ML/AIOps;商业化:硬件和运维成本、定价策略、目标客群、用户体验等。AI算力租赁的收入和成本结构采购端,目前A800服务器整机含配套采购价格约为120-150万元/台,我们按照5-7年折旧;收入端,按照中贝通信与青海联通签订的算力服务框架协议,租金按照含税¥12万元/P/年计算,单台8卡A800服务器租金约为60万元/年。采取FP16(稀疏)精度下的算力。单张A800卡算力为624TFLOPS,则一台8卡A800服务器算力约为5P;单张H800卡算力为1979TFLOPS,则一台8卡H800服务器算力约为16P。重点公司算力布局情况鸿博股份:深度绑定英伟达,AI算力稳步落地鸿博股份2022年8月切入AI算力领域,与中关村中恒文化、英伟达、英博数科签订四方合作协议,合作成立北京AI创新赋能中心。主要业务为:算力出租、云资源采购一站式服务、人工智能教育培训、产业实验室。2023年7月,完成共计1000P由英伟达A&H系列智算服务器组成的AI算力集群部署调优并交付。9月,已向客户交付1300P算力。计划于2023年在京落成3000P以上智算中心。搏博云平台:跨平台GPU算力管理、统筹、调度及整合。截至2023年6月,已完成5120P订单签约。客户:多模态大模型训练、云渲染、无人驾驶、量化交易模型训练等。青云科技:云服务技术背景+大集群运维经验,轻资产模式优势尽显公司提供NVIDIAA800和H800云服务器的算力租赁业务,打造第二成长曲线:2023H1,公司实现AI算力服务收入2651万元。公司超级智算平台适用于生命科学、CAE仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理、模型训练、场景推理等计算场景。“代建+轻资产”模式优势尽显:在三大国家千亿万次超算中心之一的国家超算济南中心项目上,公司交付了一整套完整的多元算力服务管理平台,包括了HPC算力、GPU算力、云计算算力、高性能存储以及海量非结构化数据存储。AI算力调度平台优势:提供多元算力统一调度、实现智能化算力调度与管理、芯片国产替代、智简运营运维、建设智能生态打造丰富应用。中贝通信:智算中心建设加速推进,计划年内落地AI算力5000P中贝通信确定发展AI大模型业将智算算力服务作为新基建业务发展重点,目前已部署合肥与长三角两个算力中心,计划2023年实现5000P算力服务能力,未来三年达成万P算力+万卡集群的“双万”战略目标:收购容博达云计算70%股权,合肥算力中心首期投资约10亿元,已完成土建与园区配套,机房配套已启动,一期项目将实现算力3000P,计划在2023Q4具备服务能力,总体建成后最大可提供算力10000P的能力;长三角算力中心计划投资2亿元,提供800-1000P算力能力,机房选址已初步确定,正在与当地政府洽谈投资协议;前期采购的A800卡与服务器已陆续到位,H800服务器采购订单已经陆续下达,在9-10月份陆续到货,已提供样机给部分客户进行测试。供应端,与浪潮、新华三等签订战略合作协议,在服务器采购供应、资源共享、用户开发与维护、商业推广等领域开展合作达成行动方案。恒润股份:在手算力2500P,携手运营商建设芜湖智算中心2023年7月,恒润股份与上海六尺科技集团有限公司共同出资设立上海润六尺科技有限公司,计划于上海、福州经开区、安徽芜湖、山东济宁等地合作建立算力中心,并打造长三角GPU算力中心集群。上海六尺核心团队深耕GPU算力多年,具有丰富的AI智算中心(GPU算力)建设、运营经验和算力市场资源。与上游GPU供应厂商英伟达、新华三等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论