版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录智能压缩:算力、数据、算法是核心要素,商业化关注交互形/场景 1物理算力的扩张 4算法效率的提升 6杠杆 8行业竞争动态:硬件协同及系统优化,模型面向场景优化 聚焦系统级优化与硬件协同(Operator/Memory/ASIC) 工程化(Harness/协议/编排/可观测性)与可验证反馈闭环” 13投资评价和建议 21风险分析 22图目录图缩放定律的实证基础 1图2:2023-25年底主流模型在基准测试的表现趋势 2图主流模型在不同领域基准测试相对表现的趋势 2图年以来总算力规模平均每年扩大5x 2图5:2010-24年大模型训练算力年均提升0.6OOM 3图基准测试同性能的算力成本消耗指数级下降 4图算法对于效率的提升大约每8个月提升1x(ImageNet数据集) 4图同测试集2012-2022年的算法看到每年OOM的提升 4图系列模型的训练算力指数级提升 5图芯片算力每18个月翻倍 5图芯片每代算力性能提升1x+ 5图全球算力储备每年提升3.4倍 6图13:2020年以来算力储备提升速度年均5x(0.7OOM/年),高于长期均值 6图实现相同性能的模型推理成本指数级下降(纵轴已经取对数) 7图15:2014-24年算力、算法对于智能的相对贡献拆分 8图按照目前规划2030年驱动的算力投入将达到20GW 10图对应2027年初头部模型训练成本可能达到10亿美元 10图18:GPT-3、4训练消耗1.3GWh/53GWh电力 10图训练GPT-4的碳排放相比于美西、加拿大东部的水平 10图MTP架构 12图Gradients 14图Code的微缩架构示意图 15图23:CPU/GPU比例未来可能大幅提升至1:1 16图内存层次架构 16图推理不同阶段对于内存、计算的需求曲线不同 16图长上下文容易导致内存占用暴增,因此一般采用分层存储或直接外置 18图国内外模型性能趋势对比(截止2026年4月) 19图渠道、Codex、Gemini下载安装量(30天移动平均) 20图Code、Codex、Gemini在Code的插件安装量趋势(30天移动平均) 20表目录表1:MATHBenchmark案例分析,达到准确率的推理成本变化 8表后模型性能倍数提升540B模型) 9表杠杆潜力 9表推理瓶颈地图 11表不同类型内存对应不同场景工作负载 17智能压缩:算力、数据、算法是核心要素,商业化关注交互形式/场景核心逻辑框架:有效算力作为能力预测变量。LeopoldAschenbrenner6月发布的《SituationalAwarenessAI"能力涌现"这一长期被视为神秘现象的问题,转化为可量化、可预测的工程学问题。有效算力Compute)=Unhobbling有效算力对数坐标系下,这一函数关系呈现单调(OrderofMagnitude,变化来预测。经验数1个OOM1,模型在标准化任务上的表现会产生可测量的台阶式跃升。图1:缩放定律的实证基础ituationalAwarenesOpenAI团队在2020年发表的开创性论文《ScalingforNeuralLanguageModels》(Kaplanet中首次系统性地证明:神经语言模型的性能(以交叉熵损失衡量)与模型参数量(N)、数据集大小(D)、训练算力(C)存在精确的幂律关系。该研究的核心7个数量级的一致性:在从10²到参数的模型范围内,缩放定律保持稳健,无系统性偏差。性能可预测性:给定任意两个变量,第三个变量对模型损失的影响可精确预测,预测误差通常在以内。LC的关系可表示为:L(C),其中α为经验常数,约为。这种幂律关系不仅适用于训练损失(perplexity),同样适用于下游任务性能。PNAS年发表的理论研究《iningneuralscalinglaws》2进一步从数学上证明了:对于多种模型架构和数据集,神经网络性1关键度量单位:1OOM=10倍有效算力扩张。2https:///doi/10.1073/pnas.2311878121海外能与模型规模、数据规模均呈幂律缩放。图2:2023-25年底主流模型在基准测试的表现趋势 图3:主流模型在不同领域基准测试相对表现的趋势InternationalAISafetytanford3传统AI能力预测依赖于智能涌现,即认为某些能力会在特定临界点突然出现。这种思维方式导致预测充满不确定性和主观性。Aschenbrenner提出的OOM计数法改变了这一范式:①历史校准(2019-2023:GPT-24年间三大驱动因子各自贡献的OOM数量:②物理算力扩张:GPT-24×4×10²⁵+3.5-4OOM;③算法效率提升:通过比较"达到相同性能所需算力"的变化,估算贡献+1-2个OOM;④Unhobbling解锁:从basemodel(续写模型)到Chat(对话助手),通过RLHF、提示工程等手段实现质变。图4:2020年以来总算力规模平均每年扩大5xpochA其次,将这4.5-6个OOM的增长映射到实际能力变化:①GPT-2(2019):基本语言理解,无法完成复杂3/ai-index/2026-ai-index-report/technical-performance海外推理;②GPT-4(2023):MMLU(综合知识):~86-90%准确率,MATH(数学推理):从GPT-3的5%提升至52.9%,HumanEval(代码生成):67%通过率,能力对标:优秀高中生至大学本科生水平。展望,趋势外推(2023-2027:GPT-4→A门槛)。基于以下假设:1)物理算力增速维持:EpochAI数5倍(0.7OOMs/年),4年仍可贡献个OOM。算法效率趋势延续:ImageNet2012-20210.5OOMs/年(Erdil&Besiroglu2022),语言模型领域类似。4年可贡献+1-3个OOM(保守估计2个);3)Unhobbling深度开发:从"聊天助手"到"自主智能体",通过test-timecompute、多智能体协作、工具使用等手段,预计等效+1-2个OOM。预计2027年总增长:3-6个OOM(最佳估计~5个OOM)。按线性外推,这应对应从"优秀高中生"到"PhD级专家/能够自动化AI研究员工作"的能力跃升,即AGI(通用人工智能)的初级门槛。图5:2010-24年大模型训练算力年均提升0.6OOMpochA海外图基准测试同性能的算力成本消耗指数级下降 图7:算法对于效率的提升大约每8个月提升数据集) ituationalAwarenes pochA图8:同测试集2012-2022年的算法看到每年0.5OOM的提升Algorithmicprogressincomputervision》4有效算力的增长并非来自单一来源,而是三股力量的协同作用:物理算力的绝对扩张、算法效率的持续优化、以及通过工程手段解锁模型潜能(Unhobbling)。物理算力是最直观、最易测量的驱动因子。它指的是用于训练模型的原始浮点运算量(FLOP,FloatingPointOperations),这一指标与硬件投入、训练时长、模型规模直接相关。GPT-31.52;GPT-3GPT-421.5-2个OOM。43.5-40.9OOM/18-24个月翻倍(~0.2-0.3OOM/年)。EpochAI数据显示,前沿AI训练算力在过去10-15年的增速约0.5OOM/年,是摩尔定律的24/pdf/2212.05153v2海外倍以上。图9:GPT系列模型的训练算力指数级提升pochAI5图10:GPU芯片算力每18个月翻倍 图11:Nvidia芯片每代算力性能提升1x+Shome6 vidia7EpochAI趋势仪表板显示,2020年以来前沿语言模型训练算力年增长率达到5倍(0.7OOM/年),高于长期趋势的0.6OOM/年(2012-24年均值),表明竞争加剧带来的军备竞赛效应。5/p/notes-on-gpt-5-training-compute6/analysis/gpu/general_gpu7/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/海外图12:全球算力储备每年提升3.4倍pochA图13:2020年以来算力储备提升速度年均5x(0.7OOM/年),高于长期均值pochA海外算法效率是最容易被低估的驱动因子。它不增加一个FLOP,却能让每个FLOP产生更大的智能增益。&Besiroglu开创性研究《AlgorithmicProgressComputerVision》追踪ImageNet数据集上2012-年间所有SOTA模型,固定数据集和评估指标,仅测量"达到相同准确率所需算力"的变化,这种方法剔除了硬件进步的影响,纯粹测量算法创新。论文核心发现,过去10年算法效率提升速率,大约每9个月减半所需算力(95%置信区间:4-25个月),对应0.5OOM/年。EpochAI年论文《AlgorithmicProgressinModels》研究了 2012-2023年大规模语言模型,计算增强型算法进步每9个月减半物理算力需求,这一速率快于摩尔定律的硬件增益,是AI进步被严重低估的原因,这一测算与《AlgorithmicProgressComputerVision》大致对应。图14:实现相同性能的模型推理成本指数级下降(纵轴已经取对数)Algorithmicprogressinlanguagemodels在EpochAI论文中,研究团队对语言模型中的算法进展进行系统全面的分析,重点关注了预训练中的算法改进。研究团队发现,要达到某一性能水平所需的计算量大约每8个月减少一半,其95%置信区间为5到个月。这代表了极快的进展,超越了计算领域许多其他领域的算法进展,以及摩尔定律所表征的计算机2年翻倍时间。Shapley值分析表明,60-95%的收益来自计算和训练数据的增加,而新算法仅负的进步。年左右加速,算法改进的相对重要性随着时间的推移而降低。总体而言,近年来大部分性能提升更多地源于计算的大规模扩展,而非根本性的算法进步。海外图15:2014-24年算力、算法对于智能的相对贡献拆分pochA表1:MATHBenchmark案例分析,达到50%准确率的推理成本变化时间模型推理成本/百万tokens相对2022下降2022年中GPT-3.5初代~$50基准2023年初GPT-3.5-turbo~$225x↓2024年中GPT-4omini~$0.15333x↓2024年末Gemini1.5Flash~$0.051000x↓pochA这种成本下降主要来自四个方向的算法创新:1)ChinchillaScalingLaw(2022):训练时数据量与模型参数应等比例增长(20:1tokens-to-parameters比)。新范式:更小模型+更多数据=更低推理成本+同等性能。等效算力节省:~0.5OOM;2)推理优化技术:例如FlashAttention、PagedAttention、ContinuousBatching,量化技术(INT8/INT4)配合校准。推理吞吐量提升3-10倍,成本对应下降;3)蒸馏(Distillation):用大模80-9510-100倍,GPT-4o、Claude3都是此类产品;4)Mixtureof(MoE):只激活模型的一部分参数(GPT-48个e2个),1.8T,但单次推理仅用~300B,等效"大模型性能小模型成本"。杠杆BaseModel就像未经训练的天才儿童,拥有原始智能,但不知如何与世界交互。Unhobbling是将这种潜能转化为实用能力的过程。目前行业的进步主要驱动力来自1)RLHF:从续写机到助手的质变。OpenAI团队InstructGPTInstructGPT(RLHF训练)在人类评估员的评价下在多数常识类问题上GPT-3(仅预训练,等效算力放大>100倍(~2OOM)。2)CoT,Weiet2022)论文《Chain-of-ThoughtPromptingReasoningLargeLanguageModels》,由于BaseModel训练时见过大(StackOverflow,但默认模式是直接输出答案,而CoT提示激活了潜在的推理8/pdf/2203.02155海外链路,等效算力放大~10x(1+OOM)。表2:CoT后模型性能倍数提升(PaLM540B模型)任务标准PromptingCoTPrompting性能提升GSM8K17%58%3.4倍MATH4%8%2倍多步推理22%67%3倍hain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModelsScaffoldingAgent架构。指在模型外部构建任务分解、工具调用、记忆管理等框架,让模型作为"大脑"运行。实证案例1:HumanEval编程基准,GPT-4无scaffolding):67%通过率,GPT-3.5简单scaffolding:多轮迭代+测试反馈):~70%通过率,更弱的模型+工程>更强的模型单次输出。实证案例2:SWE-Bench软件工程基准,GPT-4直接生成patch):~2%,Devin(+23%,能力放大:7-10倍。实证案例3:METRAgentic自主研究能力测试),同一base模型,不同配置:对话模式成功率5%,基础工具调用成功率20%,多智能体协作+长记忆成功率~40%。反映Agent工具调用提升也等效预训练Scaling。Test-timeCompute:推理侧的Scaling。预训练耗时数千万GPU-天,等效人类文明数万年阅读。推理侧生成数百tokens"test-timecomputeoverhang"AlphaGo的(Jones论文x1.2test-timecompute(搜索更多步)1trainingcompute,推理时多思考可替代训练时多学习。人类类比快速回答(System:等效当前的标准推理,深度思考(SystemtokenstokensCoT(成本提升至万tokens深度规划(成本~$100-1000,但可替代数周人类专家工作,等效算力放大:2-3OOM。将上述所有杠杆叠加对2027年预测的含义,即使物理算力和算法效率增长放缓,仅靠深度Unhobbling(特别是test-timecompute),就可能实现从"回答问题"到"执行长期项目",从"工具"到"同事",从"智能助手"到"自主AI研究员"。表3:Unhobbling杠杆潜力技术等效OOM实现成本成熟度RLHF1-2低(<10%训练成本)已成熟CoT1+极低(提示工程)已成熟Scaffolding/Agent0.5-1中(工程开发)快速成熟中长上下文0.5-1低(架构改进)已成熟Test-timeCompute2-3中(推理成本增加)早期阶段总计潜力5-8OOM低于预训练缩放多数已可用ituationalAwarenes从资源分配的角度,投入资源提升算力以用于预训练ScalingUp+后训练Unhobbling仍然是最稳健且效率最高的方向,但算力供应面临一些物理瓶颈。9/abs/2104.03113图16:按照目前规划2030年AI驱动的算力投入将达到20GW
图17:对应2027年初头部模型训练成本可能达到10亿美元pochA pochA年AI21000亿美元级别,包万块H100GPU(500亿美元硬件成本),10峰值电力需求(相当于一个中型国家的工业用电),配套冷却系统、高速互连网络、数据存储设施,这意味着AI算力的军备竞赛演变为能源供应的比拼,本质是土地供应、电网、能源供应等要素的竞争,这意味着很多国家、地区在先天禀赋方面就被排除出竞争。图18:GPT-3、4训练消耗电力 图19:训练的碳排放相比于美西、加拿大东部的水平ThecarbonfootprintofGPT-410 ThecarbonfootprintofGPT-410/guide/the-carbon-footprint-of-gpt-4/行业竞争动态:硬件协同及系统优化,模型面向Agent场景优化前述推演的核心思路是,模型训练的过程本身是压缩即智能,而压缩的速度快于智能积累的速度,10年内主流大模型团队可能将人类社会累计数千年的知识和推理逻辑以参数架构的模式存储,并以推理的形式输出。但/后训练(主要是/面向特定任务的适配(例如Harness),其商业价值可能大打折扣。因此,前述推演忽略Inbox(被动接收指令与信息处理)Outbox(主动向外执行动作与端到端交付)Chatbot/SearchTool等,但生产力工具(尤其是面向企业/政府)更关注端到端的任务完成,而非逐步确认/反馈。此外,智能的价值可能由1)替代劳动力/任务价值,例如对应白领工资;2)竞争性工具/AI的价格,性能接近模型的价格决定。LeopoldAschenbrenner的推论很大程度建立在赢家通吃的假设,即OpenAI/Anthropic等寡头垄断,从而持续稳定地获取超额利润,如果顶尖模型持续面临低价冲击,这个循环可能面临长期威胁,短期只要AI能够持续自动化任务,价值获取仍然大于投入。为了在低价冲击下维持商业闭环,并将‘智能’真正转化为‘生产力’,大模型产业的竞争焦点正在从“更大参数+更大训练FLOPs”的单一叙事,迁移到两条更可商业化、也更可被工程化度量的主线:聚焦系统级优化与硬件协同(Operator/Memory/ASIC)在训练端,“理论峰值算力”与“实际可用吞吐”的差距越来越由MFU(ModelFLOPsUtilization)决定;在推理端,LLM的关键瓶颈在很多负载下已呈现两相结构:prefill更偏compute-bound,而decode更偏memory-bound,导致“堆TFLOPs”对单位推理成本的边际收益下降,反而推动了KVcache分层、存储/网络下沉、以及专用加速器(DSA/ASIC)的机会窗口。FlashAttentionRecomputationSRAM与的IO读写11;在分布式训练中,自研通信库(NCCL魔改、All-to-All优化)直接决定了万卡集群的线性加速比。②架构创新的工程化:DeepSeekMTP(多预测)或长上下文记忆机制(如若仅停留在PyTorch原生算子层面会导致严重延迟。真正的壁垒在于算法团队与系统团队打通,使用CUDA/Triton手写高度融合算子(FusedKernels),重构底层显存分配逻辑。表4:LLM推理瓶颈地图阶段 典型瓶颈 主要代价项 更有效的优化方向矩阵乘) 算力/张量核利用率 更强算子融合、并行、化、类优化Decode
(权重/KV/宽)
cache文搬运
KVcache分层/下沉、speculative/MTP、存储+网络协同、ASIC/DSAPAD:SpecializedPrefillandDecodeHardwareforDisaggregatedLLMInference具体展开可以分为两个方向:1)DeepSeek工程化:从算法创新到优化。首先是,MTP(Multi-TokenPrediction)token预测(MTP)DeepSeek-V3DeepSeek11/pdf/2510.08544的训练性能而引入的12DeepSeek模型的预训练中进行了优化。这节省了额外的训练资MTP模块(廉价的单层头)token(t₆t₇)。训练受益于更密集的监督,因为每个隐藏状态不仅用于预测下一个token,还用于预测未来的token。在推理时,这些模块可以重新用于推测解码:主模型并行验证多个草稿token,实现更高的吞吐量。在DeepSeek-V3中,由于MTP180%1.8倍的加速。图20:DeepSeekMTP架构eepSeekV3TechiniqueReport13的系统级优化。MTP是DeepSeek系列模型中使用的推测解码方法14内核仅限于MTP-0或MTP-1(最多预测一个草稿token)。由于MTP-3通常在低延迟场景中提供卓越性能,引入了优化以启用原生MTP-3DeepSeek-V3.2,Nvidia团队实施了特定的融合策略:为索引器K缓存填充定制内核。由于原始PyTorch操作是瓶颈,这导致推理吞吐量显著DeepSeek的多token预测(MTP)来加速token生成,改善每输出token时间(TPOT)。MTP作为推测解码优化的一部分,用于提升生成速度。再次,从的工程化鸿沟。内核中,最大限度地减少单个内核启动的开销并减少CPU间隙15。通过在芯片上执行这些合并的操作,内核融合显著减少了较慢的片外内存访问,从而实现更快的处理。DigitalOcean团队使用程序化依赖启动(ProgrammaticDependentLaunch)尽可能重叠内核,这隐藏了内核启动开销并减轻了短运行内核中的尾部效应。这通过约10%改善了低批量大小、低并发、高交互性工作负载的性能。2)通用GPU在推理端(特别是Decode阶段)存在架构冗余,算力定制成为破局点。从通用计算到DSA(领域特定架构(MeGroqSRAM架构Cerebras12/projects/ai-developer-hub/en/latest/notebooks/inference/mtp.html13/pdf/2412.1943714https://nvidia.github.io/TensorRT-LLM/blogs/tech_blog/blog15_Optimizing_DeepSeek_V32_on_NVIDIA_Blackwell_GPUs15https:///blog/how-we-built-fastest-deepseek-minimax-qwen-on-blackwell-ultra海外(晶圆级芯片GoogleTrillium),v5ev5p164倍;推理吞吐量增加高达3TPU相比TPUv5eGoogleTPU(HBM)容量和带宽翻倍,还将芯片间互连(ICI)带宽相比TPUv5e翻倍。TPU的能效比TPUv5e67以上17。TPUv618架构在每次乘加运算后,通TPUMACMemory-bound特性19Decode(生成带宽。TPUv6e通过极高的数据复用率(256次)和片上直接传递,大幅降低了对昂贵带宽的推理成本和功耗控制上建立起对通用MFU(模型算力利用率),由于减少了内存读写冲突与等待时间,TPUv6e在跑满大规模批处理任务时,能够维持极高的计算单元利用率,确保“标称算力”能最大程度转化为“有效算力”。取得良好的市场反馈,百万芯片级部署。月,AnthropicAI基础设施交易20100TPU2026兆瓦的容量。AnthropicGoogle、AmazonTrainiumClaude模型(ClaudeOpus。由于卓越的性价比,TPU处理大部分训练和推理工作负载(SemiAnalysis,202512月)。2025ClaudeOpusAPI67%21Anthropic承诺从100Ironwood(TPUv7)1000兆瓦的TPUClaude模型。Agent工程化(Harness/协议/编排/可观测性)与“可验证反馈闭环”当前竞争要素在于能否把模型变成可靠系统,例如工具协议、身份与权限传递、错误语义、预算与重试策MCP的扩张(~97M/下载、服务器与随之而来的供应链远程代码执行(150M++)价值密度风险密度最高。缺乏确定性安全护栏的Agent,在企业内无异于敞开的后门。哪个模型最聪明”转变为你的Agent能在崩溃前自主工作多久”Agent=ModelHarnessAgentHarness(代理工具集与运行环境Harness不是AgentAgent(工具调度、安全护栏、反馈循环、可观测性层)Prompt中要求遵循标准”HarnessLinter在违规时直接阻断,则是确定性的。下一个竞争前沿是向外延伸,企业不再构建更聪明的Agent去适应混乱的遗留系统,而是重新架构内部API、代码库和数据库,使其本质上对AI可读、可交互。16/blog/products/compute/introducing-trillium-6th-gen-tpus17/tpu/docs/release-notes18/blog/google-tpu-architecture-complete-guide-7-generations19/tpu/docs/v6e20https:///2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services21/blog/google-tpu-architecture-complete-guide-7-generations海外OpenAI58LearningBeyondGradients22,提到启发式学习范式(HeuristicLearning),本质上就是人类learningbydoing的翻版,初始基于经验或者随机假设一个规则,基于规则摸索实Coding大幅降低了维护成本,使得启发式学习在小规模项目下的效果大幅提升(开发编译成本也大幅下降),后续规模扩大则需要结合深度学习。图21:LearningBeyondGradientsearningBeyondGradients23human-normalizedscore,也就是把每个游戏分数按人类基线归一化以后再比较。在完全无人工介入的批量运行里,native_obsAtari,明显高于图里PPO2/EnvPool步附近,native_obsOpenRLBenchmark保存的PPO2/CleanRLEnvPoolPPOmedianHNS曲线到10M步大约是0.88/0.92。Coding大幅降低代码修改成本的今天,‘直接修改代码/规则’的启发式学(如Agent‘代码即策略成为低成本、高可控的Agent迭代新范式。的工程架构即ReAct循环安全压缩。ClaudeCode的核心是ReAct模式的while检查权限→执行→重复。实现为AsyncGenerator,流式生成事件。一个npm源ClaudeCode的完整架构24:8层安全、4级消息压缩、成本感知的错误恢复,以及更多4,60055+个目录。构遵循分层依赖模型:Presentation层了解组件和屏幕,但不了解API调用或工具执行;Application层协调流程:QueryEngine管理对话,命令路由用户意图,hooks注层定义核心抽象:Tool是什么,AppState是什么样子,权限如何工作;Infrastructure层处理MCP连接。后续发展增加了Claude.md/Skills/Hooks/Subagents等模22https://trinkle23897.github.io/learning-beyond-gradients/23https://trinkle23897.github.io/learning-beyond-gradients/24https://bits-bytes-nn.github.io/insights/agentic-ai/2026/03/31/claude-code-architecture-analysis.html海外块,这是Agent工程从"提示词"向"系统架构"演进的关键证据。图22:ClaudeCode的微缩架构示意图laudeCode架构25工程架构的变化导致系统瓶颈从GPU转向CPU。在每次推理调用之间,CPU处理输出26,决定agent是否完成,并要么提供下一个提示,要么移动到下一步。一旦所有子agent完成,CPU收集所有输出并将其发送到从配角变为指挥层。CPU的利用率27。Intel团队发现28CPU90.6%;②AgentCPU因素,一致性、同步和核心过度订阅或U——主内存容量和带宽的瓶颈CU动态能耗在大批量大小时占总动态能耗的4%29。agent是否完成,并要么提供下一个提示,要么移动到下一步。一旦所有子agentGPUagent完成,U收集所有输出并将其发送到PU进行反思推理循环——本质上询问模型"我们是否足够好地回答了原始问题?"CPU所需的关键特征30是:高单核时钟速度(以最小化编排延迟)、高核心数(并行运行多个agent)、快速内存访问和大缓存(管理所有上下文和中间状态)、强大的I/O连接(PCIe通道用于网络和存储,因为agent不断访问API和数据库)31。25/VILA-Lab/Dive-into-Claude-Code26https:///p/the-forgotten-chip-cpus-the-new-bottleneck27https:///p/the-cpu-bottleneck-in-agentic-ai28/pdf/2511.0073929/p/agentic-ai-cpu-gpu30https:///p/the-forgotten-chip-cpus-the-new-bottleneck31/blog/machine-learning-frameworks-interoperability-part-2-data-loading-and-data-transfer-bottlenecks/海外图23:CPU/GPU比例未来可能大幅提升至1:1rendforce32面向AIAgentSRAM的容量需求高度依赖于具体部署环境(云端数据中心或端侧设备)及工作负载类型(模型训练或推理)。然而,无论何种场景,凡涉及AI逐级加载至片外高速内存(如DDR或HBM等“温存储”层),随后以极低延迟在片外内存与紧邻算力核心的片上SRAM之间进行高频双向搬运,从而满足计算单元对数据吞吐与访问延迟的严苛要求。图24:内存层次架构 图推理不同阶段对于内存、计算的需求曲线不同andMemory-EfficientExactAttentionwithIO-Awareness
SPAD:SpecializedPrefillandforDisaggregatedLLMInferenceAgent工作负载下的Qwen2.5-14B模型应用GQAtoken2MB。token时,KVH10080GBtoken200GB,H100为例,HBM3.35TB/stoken10μs10GB模型和30GB缓存可能需要约9ms99%的空闲时间(9ms÷[0.01ms])。GPU利用率的瓶颈主要是HBM带宽,大约90%+的时间在等待内存数据。32/p/agentic-ai-cpu-gpu海外ClaudeCode的Prompt模块导致缓存利用率不高。缓存写入有25%的额外费用33,触发缓存的最小token阈值:Sonnet1,024,Opus2,048-4,096。低于此阈值,存储和查找缓存的开销不值得。ClaudeCodeAnthropic5分钟不活动后过期。每次缓存命中重置计时器。切换模型表面上看节约了成本,但实际上导致之前的缓存无用。本可以以缓存读取价格读CacheOpusSonnet和有不同的架构和权重,因此从相同文本计算的KVpus中建立长上下文后切换到onnetonnet无法重用Opus的缓存。表5:不同类型内存对应不同场景、工作负载内存类型 容量 带宽 延迟 Agent工作负载映射 2026年需求变化SRAM(片上) MB级 >10TB/s
token算
GroqLPU式架构关注度↑,但无法独立支撑ClaudeCode外)ns型权重压DDR5供应外)ns型权重压DDR5供应DDR5(CPU数百GB- 100-400数百KVCache卸载、CPU编从配角到主角:CPU:GPU从1:8→1:1,DRAM)TB GB/sns排、工具调用DDR5价格暴涨500%
数十GB 1-6
数十 活跃会话KV、
需求爆炸:从8%产出占30%收入,挤NVMe(G3.5层)
TB-PB
20-50GB/s
数百 暂停持久化、跨点会话迁移
新兴层级:NVIDIACMX开启"闪存作为内存"时代emiAnalysis,Nvidia,TrendForce,AMD,TMTposAgent工作负载=执行循环+状态常驻。ClaudeCode/Cowork的本质是把Inbox(被动生成)推向utbo(“计划→调用工具→回填→再推理”ldreill:systemprompt/工具定义/repo指引首次编码(高compute带宽);②Resumeprefill:把工具输出追加到已缓存上下文后继续(强依赖cache复用);③Short:每轮生成少量token,(往往更eoyboundAgenteve34agenticworkload会自然分离成coldprefillsresumedecodes不再是“配角ia的研究对多种agenticworkloadprofile,发现toolprocessing可占总延迟最高。台积电话会也把需求驱动说得很直白:从querymodeagenticcommand-and-actionmodetoken的“又一次台阶式上升”,从而支撑对领先制程siliconAgent→(更高核数/更大内存/更强尤其从“配套”变成扩容必选项”。ClaudeCode/Cowork这种“长会话+多轮工具回填”会让不再只是“放权重的显存“”compute-heavy更偏权重与的访存/带宽成为瓶颈),你给出的“两相结构框架与的结论一致。多轮循环会让上下文不断增长,并且需要在回合之间“带着状态走”(工具输出、diff、测试日志、审计信息)。Llama3‑70B:KVcache327KB/token,128Ktokens约40GBKV,1Mactivesessions的聚合KV足迹可达40PB(用于说明“为什么必须分层/外置”,不是单机需求)35。33https:///p/how-prompt-caching-actually-works-in-claude-code34/abs/2603.1034235https:///sites/default/files/2026-04/SNIA-SDCAI26-Kaynar-Scaling-Inference-KV-Cache-Storage.pdf海外图26:长上下文容易导致内存占用暴增,因此一般采用分层存储或直接外置SNIA-SDCAI26-Kaynar-Scaling-Inference-KV-Cache-StorageAnthopc官方对ookookshell命令与Claude写的代码在“本地里执行(macOS用Applemework,ows用有网络/work,也会抬升终端侧的CPUDRAM与本地SSD最低门槛(VM、会话日志、repo缓存、工具链)。高景气度已经取得较高共识且反映到业绩层面,SKhynix72%(58%)DRAM平均售价(ASP)mid-60%,NANDASP上涨,受强劲定价支撑。SK202632030年36,因为也正处于快速定价阶段,Intel/AMD,且管理层明确提出CPU长期受益于AI带动大幅提升,Intel电话会给出从向parity的明确口径(agenticorchestration驱动)NVMe/eSSD、、分层内存软件栈。分层/多agent并发下,会变成不可或缺的系统部件(Samsungoffload、distributed都在给它补叙事)。模型侧,顶尖模型能力已趋同,但Agent商业化路径呈现结构性分化。国产模型在主流基准测试集上表现非常接近海外顶尖模型,但如果引入半私有/私有基准测试集,例如网络安全、编程、自然科学等领域,CAISI机~8个月前的美国顶尖模型,反映国产模型普遍存在测试集泄露36https:///world/asia-pacific/south-koreas-sk-group-chairman-expects-chip-wafer-shortage-last-until-2030-eyes-2026-03-16/海外图27:国内外模型性能趋势对比(截止2026年4月)IST37Opus在SWE-Bench%(vs和MCP-Atlas79.1%(vs75.3%)38Anthropic本身标记了SWE-bench部分问题的记忆化担忧,但通过MCP的工具编排领先是真实的,对于重构密集型和大PRGPT-5.5优势在于Terminal-firstAgent(ShellDevOps自动化OpusCodebase-firstAgent(PR审查、多语言重构)。需要注意,GPT-5.5token,这在高容量Agent场景中是成本和速度的双重优势。Gemini3.5Flash定位基本上可以看作G
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园预防校园欺凌专题教育 图文并茂
- 广东省江门市重点学校高一入学英语分班考试试题及答案
- 2026年四川省雅安市重点学校高一入学英语分班考试试题及答案
- 2026农行财务面试题库及答案
- 2026平海排水面试题及答案
- 2026券商宏观面试题目及答案
- 2026乳腺科模拟面试题及答案
- 2026设计咨询面试题及答案
- 精神科健康宣教
- 电子商务运营风险防范与控制实训课程试题及答案
- 小学文言文重点字词解释梳理
- 四川建筑安全员-C证考试(专职安全员)题库及答案
- 回肠代膀胱术护理
- 分压偏置放大电路
- 战略管理知到章节答案智慧树2023年石河子大学
- 人力资源类任职资格标准(V3.1)
- YC/T 266-2008烟用包装膜
- GB/T 39242-2020无损检测超声检测灵敏度和范围设定
- GB/T 21682-2019旋挖钻机
- 房地产市场走势研判新景祥课件
- 广工机械设计基础考卷A
评论
0/150
提交评论