计算机行业点评:AI进入新临界点_第1页
计算机行业点评:AI进入新临界点_第2页
计算机行业点评:AI进入新临界点_第3页
计算机行业点评:AI进入新临界点_第4页
计算机行业点评:AI进入新临界点_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容目录一、Agent生持扩张 3二、大辑示Agent对CPU的性求 4三、 Agent驱存需持增长 6四、关的 8风险示 8图表目录图表1:KimiK2.5使用个的agent群完综述 3图表2:KVCache卸得KVCache能从的GPU内中输大且价更的储 4图表3:五代性Agent工负中任延分布 5图表4:五代性Agent工负中任延分布 5图表5:处理LangChain工负时,AMDThreadripperCPU和NvidiaB200GPU的态耗 6一、Agent生态持续扩张近期全球Agent生态进展不断,业界创新频出:大模型公司Anthropic1月28日报道Anthropic180亿美元,而明年将达550亿美元。OpenAIAnthropic映了AnthropicAIClaudeCode月1090AI20281月27日月之暗面发布并开源K2.5模型,最大亮点在于Agent1001500K2.5现场决策。例如给KimiAgent集群投喂40AIKimi先是通过多次调用工具,40Kimiagent负PDF综述。图表1:KimiK2.5模型使用多个角色的agent集群完成综述月之暗面kimi公众号AI助手Clawdbot爆火,展现Agent新形态。第一财经1月29日报道,近期一款名为Clawdbot的AI助手近期从海外火到国内,成为2026AI云厂商火速接入,提供一键部署服务。通俗来说,Clawdbot如同一个线上版“贾维斯”,能接管个人终端几乎所有任务。作为一个免费开源项目,它迅速吸引了大量开发者与从业者参与测试并分享体验。Clawdbot可以帮用户,所有的操作均可通过WhatsApp操控设备自动执行各类任务。Clawdbot甚至带火了苹果Macmini,有不少人为了让Clawdbot24AILoganKilpatrick就是其中之一。Clawdbot的核心设计理念是“本地运行”,它能深度访问用户的电脑系统、文件、应用和聊天MacminiClawdbot“贾维斯”式的未来人机交互体验,为行业打开一扇新的窗口。二、三大逻辑揭示Agent对CPU的刚性需求ChatbotAgent演进,计算负载的重心正在发生微妙的偏移。AgentGPUCPU来处理复杂的逻AgentCPU需求爆发的三大核心逻辑:①Multi-AgentOS调度压力传统的LLMAgentAgent沙盒(Sandbox)需求飙升:Agent执行代码等操作经常需要在隔离的云端沙盒中运行。这些沙盒环境的启动、运行和销毁依赖CPU算力。KVCacheCPU的挑战naddod(KVCache)Transformer推理,但8tokenKVCache本身就可能消耗GBKVCacheOffload)GPU内存中不活跃或暂时未使用的键值数CPUSSDCPUGPU之间的通信带宽远低于GPU内部的HBMKVCache传输和管理时,也需要CPU进行任务的调度,进一步加剧了CPU的负载。NVIDIA2025年9月的一篇技术博客《HowtoReduceKVCacheBottleneckswithNVIDIADynamo》就专门阐述了在长上下文场景下,利用NVIDIADynamo等技术将KVCache卸载到CPU内存的必要性,并指出这是解决HBM瓶颈的关键手段。图表2:KVCache卸载使得KVCache能够从有限的GPU内存中传输到更大且性价比更高的存储Nvidia官网③高并发工具调用带来的CPU算力消耗AgentCPUAgent工作负载中各项任务的延迟数据证明了这AgentCPU进行多线程多进程处理据英特尔与佐治亚理工学院2025年月的论文《ACPU-CENTRICPERSPECTIVEONAGENTICAIAgentCPU相对GPUGPUAgent性能的瓶颈在五大代表性nt工作负载(astackGfmmonanW-).C端的工具处理占延迟的.43.8%~90.6%.(如.ENNS.WolframAlphaAPl.).,而.LLM.HaystackRAG在.Natural.Questions.基准测试中检索耗时.8.0.秒(占总延迟.90.6%),LLM.0.5秒。图表3:五大代表性Agent工作负载中的任务延迟分布《ACPU-CentricPerspectiveonAgenticAI》,RitikRaj,HongWang,TusharKrishnaGPT-OSS-20BBatchSizeAgentic工作负载的LangchainBatchSize128时,Langchain(数据显示批次大小为128时存在严重的CPU上下文切换瓶颈)。图表4:五大代表性Agent工作负载中的任务延迟分布《ACPU-CentricPerspectiveonAgenticAI》,RitikRaj,HongWang,TusharKrishna在处理inMDTprCPU和ia00GU的动态能耗。BatchCPUBatchSize增加到128时,CPU的能耗(1807Joules)已经非常接近GPU(2307Joules)图表5:处理LangChain工作负载时,AMDThreadripperCPU和NvidiaB200GPU的动态能耗《ACPU-CentricPerspectiveonAgenticAI》,RitikRaj,HongWang,TusharKrishnaDeepSeekEngramDeepSeekEngramTransformerGPU/加1000EngramCPU(小于3)。此外,AnthropicClaudeCoworkClaudeEngramGPUCPU三、Agent驱动存储需求持续增长Agent的执行过程需要记忆以及上下文缓存,对存储带来了巨大需求。三星发布的白皮书《ScalingAIInferencewithKVCacheOffloading》深入探讨了在大型语言模型(LLM)和“代理式AI”(AgenticAI)时代,如何利用SSD进行KVCacheOffloading,以解决GPU显存瓶颈、提高推理性能并降低成本。LLM推理包含预填充(Prefill)和解码(Decode)两个阶段:Prefill阶段:一次性处理完整提示词,生成初始键值对(KVCache),存储在GPU显存中,此阶段以计算为主。Decode阶段:基于KVCache逐token生成输出,以内存访问为主。KV缓存通过复用已计算的键值对,避免重复计算,显著提升推理效率。图表6:LLM推理的Prefill和Decode阶段使用KVCache《ScalingAIInferencewithKVCacheOffloading》,AgentKVGPUKVNVMeSSD。图表7:将KV缓存卸载至SSD等共享存储,可实现跨节点快速恢复《ScalingAIInferencewithKVCacheOffloading》近期美国存储厂商陆续披露亮眼业绩。1222%28.327.5EPS2.83EPS3.23.62.9928至30亿美元间,也完全高于分析师预期的27.9亿美元。希捷科技CEO在公司财报电话会议上表示,2026年的产能已经分配完毕,“我们预计将在2027”CEO“AgenticAIAgent部署在边缘端(”129202630.2561%;GAAP8.03672%;GAAP5.15615%;GAAP50.9%,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论