算力重构：从模型训练迈向推理主导的新时代

上传人：加*** IP属地：北京上传时间：2026-06-26 格式：DOCX 页数：20 大小：1.65MB 积分：12 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

l算力从训练走向推理，步入增长新周期。当前大模型训练数据量增长放缓、边际效益递减，训练算力逐步转向“精耕细作”。随着大模型能力全面用边界持续拓展，叠加推理成本因技术优化出现断崖式下跌，进一步刺求爆发，算力结构已开始向推理侧倾斜。展望未来，多模态交互带来推理级提升，Agent的普及引发推理任务爆发增长，二者lAgent时代，底层算力架构与云服务估，逐步从幕后的调度角色转向前台核心承载，成为处理高度分支化任同时，GPU的性能瓶颈已从算力峰值转向显存带行业竞争核心也从单纯的算力规模比拼，转向工具链生态的综合构建。度云等头部厂商也纷纷开启涨价。云厂商正从基础资源提供商，加速转变步转向存储与带宽效率，KV缓存对存储架构提出新要求，存储架缓存管理，依托BlueField-4DP平台采用，而国内星环科技也与英伟达合作研发GPU数据库算力进入推理时代，算力链各个环节有望不断受益，我们建议投资者关注芯片、云服务、IDC等等领域标的。l芯片端（GPU&CPU相关公司包括海光信息(688041，买入)、寒武纪(688256，未评级)、禾盛新材(002290，未评级)；看好（维持）看好（维持）国家/地区行业行业l云服务&IDC：相关标的为首都在线(300846，未评级)、东阳光(600673，未评级)、豫能控股(001896，未评级)、网宿科技(300017，未评级)、优刻得-W(688158，未评级)等；l服务器：相关标的为浪潮信息(000977，未评级)、中科曙光(603019，买入)、华勤技术(603296，买入)等；l数据库：相关标的为达梦数据(688692，未评级)、星环科技-U(688031，未评级)2目录 4 4 5 7 7 8 9 3 4 4 5 5图5：2022-2024年典型大模型的推理成本断崖降低 6 7 8 8 4一、从训练走向推理，算力步入增长新周期大模型时代后，大模型参数数量快速攀升至万亿规模，训练数据量也相应攀升，对应训练算力投入也随之快速增长。尽管大模型训练数据量和训练算力的绝对投入仍在不断增加，但训练的边际效益却在递减。这一方面受限于互联网高质量人类数据的逐渐耗尽，导致模型面临“数据墙”挑战；另一方面，动辄数亿甚至数十亿美元的训练成本与性能提升不成比例，一味提升训练数据量规模的经济性变弱，大模型训练更加注重成效比，使得训练算力投入的增长逐渐放缓。由于训练数据来源：《2025年人工智能指数报告》，数据来源：《人工智能产业发展研究报告》，数据来源：《2025年人工智能指数报告》，全球人工智能总投入仍在快速上升。随着生成式AI在千行百业的深度渗透，底层基础设算力结构向推理侧逐渐倾斜。随着大模型从实验室走向消费市场，支撑数亿用户实时交互、生成内容的推理算力需求迎来井喷，算力消耗已迈入“推理时代”。根据德勤报告预测，算力推理端占比呈现逐年上升趋势。我们认为当前AI正加速向应用侧渗透，在整体算力需求量快5数据来源：《智算中心基础设施演进白皮书》，大模型能力不断跃升，较人类基准实现全面跨越。过去大模型的进步主要体现在图像分类、基础一步增加推理算力的需求。图4：选定的人工智能指数技术性能比较基准数据来源：《2025年人工智能指数报告》，6推理成本断崖下跌，大模型应用进入普惠时代。现有技术范式的精进直接拉低了AI的门槛。随着蒸馏技术、量化算法以及类似MoE（混合专家模型）架构的成规模的暴力堆叠。通过更高效率的训练与推理，百万T时代”。EpochAI估计，根据任务不同，大语言模型的推理成本每年快速其他主流模型也呈现类似趋势，部分国产旗舰模型甚至实现了较两年前近百倍的性价比提升。我们认为推理成本的下降有望触发“杰文斯悖论”，即低单价刺激超大规模的需求爆发，将进一步图5：2022-2024年典型大模型的推理成本断崖降低数据来源：《2025年人工智能指数报告》，EpochAI,2025;，ArtificialAnalysis,2025多模态与Agent有望成为未来推理算力增长的重要引擎。多模态交互实现了推理密度的指数级跃升。相比于纯文本处理，多模态模型在处理图像、音频尤其是实时视频流时，每一帧数据所包含的信息维度和计算复杂度远超文本Token。这种从一维向多维的进化，使得单次交互所需的推理体不再是单次问答的工具，而是能够自主拆解任务、调用工具并进行自我博弈的劳动力。一个简单的指令可能触发后台成百上千次的推理循环与链式思考，产生庞大调用量，推理算力的消耗总均超30倍的指数级跃升。我们认为随着多模态以7数据来源：IDC，二、推理时代，Agent爆发重构核心算力2.1CPU：从“幕后调度”到“前台执行”执行控制流逐渐CPU化，CPU性能逐渐成为关键指标。在以往的Transformer训练为主的阶段，CPU的角色往往被简化为“数据搬运工”和“GPU调度器”，市场普遍认为AI算力约等于GPU。然而，Agent时代的到来彻底改变了这一局面。Agent与纯对话模型的核心差异在于“执行”能力。当OpenClaw等智能体需要执行Python代码、发起Web请求、操作数据库或进行复杂的逻辑判断时，这些任务呈现出高度与Intel实验室的最新研究，基于Agent全链路执行过程的性能剖析显示，工具处理环节的CPU耗时在端到端延迟中的占比峰值突破90%。在高并发负载条件下，系统端到端延迟由2.9秒激增至6.3秒以上。这一显著的性能劣化现象表明，系统吞吐量的制约因素正经历结构性迁移：瓶颈已由传统的GPU算力供给限制，转变为CPU多核并发调度能力的制约。我们认为Agent时代CPU重要性不断凸显。CPU成为KV-Cache的最优容器，正在经历一场由Agent驱动的“超多核”复兴。Agent的长上下文与多轮对话特性，会产生巨大的KV-Cache。这一缓存占用随上下文长度线性增长，快速耗尽昂贵的HBM（高带宽内存）。而CPU配备的大容量DDR5/LPDDR5内存（可通过CXL扩展）在单位存储成本上具有显著优势，成为承载海量KV-Cache的“温数据”层的最优选择。产业端已出现明确信号：英伟达已开始在架构层面回应变化，据报道，公司计划在下一代Rubin架构中大幅提升CPU核心配比，并开放NVL72机柜对x86CPU的支持。这一举措等同于再次确认：在长上下文与高并发Agent场景中，大内存CPU是承载海量KV-Cache的可CPU市场正在经历一场由Agent工作流驱动的价值重估，我们预计，服务器CPU的配置标准将迎来升级潮。单路CPU将难以支撑高并发Agent集群，双路乃至多路服务器将成为标配，具8备高核心数、高主频产品将享有显著溢价。值得关注的是，英伟达已做出具有风向标意义的战略布局，该公司追加20亿美元投资云服务商CoreWeave，计划在其下一代AI基础设施中大规模部署专为“代理式推理”设计的VeraCPU，旨在解决Agent负载下高并发与低延迟需求难题。数据来源：佐治亚理工学院论文《ACPU-CENTRICPERSPECTIVEONAGENTICAI》，2.2GPU：推理需求结构化增长，显存带宽成新的性能边界Token消耗指数级增长，算力需求激增，从训练到推理的迁移正重塑算力芯片市场格局。OpenClaw的爆火直接体现在Token消耗上。据报道，阶跃星辰Step3.5Flash在OpenClaw上的日调用量增长超20倍，MiniMax的M2系列模型在2026年2月的平均单日Token消耗量已增长至2025年12月的超过6倍，其中来自编程任务的Token消耗量增长超过10倍。算力需求的持续扩张正直接拉动算力芯片需求增长。另外，德勤在《2026科技、传媒和电信行业预测》中指出，在“模型训练时代”，GPU的核心指标是FP16/BF16算力峰值（FLOPS追求的是大规模矩阵乘法的吞吐。而在“Agent时代”，核心场景转向了推理。与训练阶段不同，Agent带来的推理需求是持续、实时且带有显著波峰波谷特征的，我们认为Agent时代的到来彻底重构了GPU的负载模型。GPU架构设计逻辑发生根本性迁移，显存带宽成为新的性能边界。面向海量且碎片化的推理请求，GPU的性能瓶颈不再局限于计算单元，而是迅速向存储子系统转移。具体而言，Agent的长上下文处理特性导致KV-Cache占用显存急剧增加。在长上下文推理场景下，显存容量往往在算力利用率不足30%时便已耗尽，形成典型的“显存墙”现象。这一变化导致GPU架构设计逻辑发生根本性迁移：显存带宽优于算力峰值。在Agent推理的Decode（解码）阶段，模型需频繁从显存中读取KV-Cache，这一过程属于典型的访存密集型任务。此时，GPU的计算核心常因等待数据传输而处于空闲状态，导致算力利用率急剧下降，具备高显存容量与高带宽的中高9数据来源：OpenRouter统计数据，2.3云服务：Agent场景下商业模式迎来转型云服务商业模式重构，正经历从“IaaS资源租赁”向“MaaS（模型即服务）与Agent编排服务”的范式跃迁。在传统云计算模式下，云厂商的核心商业模式是销售虚拟机（VM）实例与GPU时长，用户需自行承担繁重的环境部署、扩缩容运维与框架适配工作。然而，Agent应用具有高度的任务突发性、工具链依赖性与状态管理复杂性，这种传统的“裸金属”交付模式已难以匹配Agent开发者的需求。Agent负载的不可预测性催生了ServerlessGPU与按次计费模式的爆发。Agent在执行任务时，往往涉及多轮对话、外部API调用及长时间的工具等待，若采用传统的按小时计费模式，用户将为大量的GPU空闲时间支付高昂成本。这一痛点直接推动了AWSBedrock、AzureOpenAI及阿里云百炼等平台Serverless推理服务的快速普及。云厂商不再单纯售卖GPU实例，而是封装底层算力，提供基于Token消耗量或Agent执行步数的精细化计费模式。这种模式将基础设施的复杂度下沉至云厂商，使得开发者无需关注底层资源调度，仅需专注于Agent的逻辑编排，极大降低了AI应用的开发门槛。云厂商的商业逻辑正从单纯的“底层算力租赁”跃升为“智能体运行与分发平台”，其角色正转变为智能体生态的聚合者更为关键的是，云服务的竞争壁垒正从“算力规模”转向“工具链生态”。Agent的首次部署具有极强的粘性。一旦用户在某朵云上完成了OpenClaw的首次部署，该云厂商就同时掌握了该Agent的默认模型、默认技能、API密钥乃至后续的扩容入口。因此，国内主流云厂商展开了激烈的“一键部署”争夺战。百度是国内最早拥抱OpenClaw的头部厂商之一，2月3日率先上线OpenClaw一键部署服务，开发者通过轻量应用服务器就能快速部署。腾讯云推出了预装OpenClaw镜像的轻量服务器专属入口，提供“0元直领”“15,000PU/月资源点”等补贴政策，智能体开发平台可实现3分钟完成OpenClaw部署。阿里云提供一键部署服务，推出开源Team版OpenClaw——HiClaw及个人智能体工作台Copaw。云服务的价值链正沿“IaaS算力”到“MaaS模型”再到“AgentPaaS工作流”路径向上游延伸，谁能提供最高效的工具链生态，谁就将掌握Agent时代的流量入口与定价权。云服务商的角色正从单纯的“地产商”（出租算力）转变为“系统承包商”（交付智能体服务）。受AIAgent驱动及硬件成本增长、云涨价可能成为持续趋势。随着AI算力需求在全球范围内的爆发，海内外主流云厂于2026年初至今相继宣布上调产品价格。涨价的直接诱因包括全球供应链硬件成本的攀升，以及由智能体（Agent）驱动的Token调用量呈几何倍数增长。今年3月阿里云与百度智能云宣布上调产品价格、正式拉开国内云厂新一轮涨价序幕。2026阿里云宣布，受全球AI需求爆发及供应链涨价影响，其AI算力、存储等产品将于4月18日起上调价格，最高涨幅达34%；其中，平头哥真武810E等算力卡产品上涨5%-34%，文件存储产品CPFS（智算版）上涨30%。百度智能云亦宣布对部分产品进行结构性优化，AI算力相关产品上调约5%-30%，并行文件存储等上调约30%，新价格同样于4月18日起执行。我们认数据来源：阿里云、澎湃新闻，三、AI存储架构发生革新，数据处理迎来新范式在AI产业从“训练优先”走向“推理优先”演进过程中，存储和带宽效率逐渐成为瓶颈。算力中心面对的挑战也发生了变化：在训练时代，主要挑战是计算能力-如何以最快速度完成海量矩阵运算，而在推理阶段，核心挑战演变为存储和带宽效率——如何以最优成本支持模型长时间、大规模地服务用户请求。由于传统存储体系难以满足AI推理的速度、性能和成本需求，英伟达在代AI原生存储架构来满足AI推理时代需求。当前，智能体已经成为了AI应用落地的核心范式，而智能体不再是无赖于对话、工具和中间结果的长期记忆，在基于Transformer架构的模型中，长期记忆以推理上供后续生成步骤重复使用，从而避免冗余计算，但代价是随着序列长度的增加，KV缓存的规模会呈线性增长。我们认为在智能体系统中，KV缓存已然成为模型的长期记忆，对推理的成本和性能至关重要，能够满足和匹配KV缓存的存储架构需要重新变化。数据来源：NVIDIA，华尔街见闻，现有存储架构无法满足新需求。现有的存储基础设施分为四层，分别是G展，但访问延迟将增加，能耗和每个token设施需要优化如何在整个系统中存储、管理和扩展不数据来源：英伟达官网，在2026年CES展会上，英伟达首席执行官黄仁勋发布了名为“推理上下文内存平台”（ICMS）的了AI原生存储体系。在G3和G4各节点之间的KV缓存数据访问和高速数据共享，在处理超长对话或复杂思维链时，庞大的KVCache不再需要挤占昂贵的GPU显存，而是可以经济高效地存储在ICMS中。），数据来源：英伟达官网，ICMS引领新一代存储平台。从具体实现来看，ICMS通过NVIDIABlueField-4数据处理器），每个托架配备4个DPU并管理600TB的SSD，使得单个机架的总容量达到惊人的9600TB输速度，有效解决了大容量SSD在网络传输中的瓶颈问题。而据英伟达透露，包括AIC、Cloudian、DDN、戴尔科技、慧与、日立数据、IBM、Nutanix、PureStorage、超微、VASTData和WEKA在内的存储创新者正在率先基于BlueField-4构建下一代AI存储平台。存储效率仍然不断演进。NVIDIA正从ICMS项目入手，筹备一个旨在数据

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

算力重构：从模型训练迈向推理主导的新时代

文档简介

温馨提示

最新文档

评论

算力重构：从模型训练迈向推理主导的新时代

文档简介

温馨提示

最新文档

评论

相关文档