版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
证
券
研究报告
行
业
深度报告新范式下,AI投资如何选?发布日期:2026年03月01日核心观点当前AI正由辅助工具向自主劳动力跨越,Agent化转型驱动Token需求井喷,算力生态由通用向高效ASIC与溢价云服务转型。AI投资范式遵循降本即创收起点,通过极致降本实现生产力规模化扩张,进而催生内容创作与前沿科研等增量价值空间。2026年,AI产业投资的三维度:1)模型角度,更长的上下文与记忆能力突破和更强的自主思考、反思、创造的能力;2)算力角度,从“算力普惠”到“算力通胀”;3)应用角度,找到收入快速增长的场景。后训练范式驱动智能质变,Agent开启从工具辅助向自主劳动力的代际跨越。2025年大模型行业已实现从参数规模扩张向推理侧拓展的战略转移。以OpenAI
o系列与DeepSeek
R1为代表,强化学习RL验证了模型能力可在后训练阶段实现非线性增长。展望2026年,模型演进将聚焦于超长上下文记忆、全模态感知与世界模型。AI正从辅助副驾驶Copilot跃迁至交付结果的Agent,其处理复杂任务的时长有望跨越8小时临界点。碎片化任务向端到端项目交付的能力提升,标志着AI正式从提效工具演变为可规模化部署的数字劳动力,实质性触发第四次工业革命。推理需求井喷算力成本结构重塑,ASIC芯片与云资源迎来溢价变现拐点。随着Agent工作流普及,全球Token调用量呈现陡峭的指数级增长,谷歌和豆包Token调用量持续突破验证了底层算力刚需确定性。其中,以谷歌TPU
v7为代表的ASIC芯片凭借单芯片能效比及低推理成本优势,正加速对通用GPU的市场侵蚀;而受上游核心器件涨价与下游需求激增双向驱动,云资源定价模式已由“以价换量”全面转向“溢价变现”。边缘云、CDN以及支撑RAG架构的AI软件Infra层(如向量数据库、推理加速引擎)将率先兑现业绩。AI投资范式聚焦降本与创收,极致降本驱动新场景加速破圈。AI商业化的核心规律在于降本与创收的深度耦合,同时极致降本往往是新产业创收的起点。降本端,数字员工与AI
Coding正通过重构人均产能,大幅压缩企业研发与运营成本。创收端,当特定场景边际成本压降至临界点,将衍生出增量价值点(AI短剧/漫剧、Agent外包等);同时AI正深度切入AI4S、电力交易等高复杂度系统,实现精准价值提取。2本人有
169580个文档在互联网上公开展示,
每天几万个目光扫过,商业价值无可估量。本广告页虚席以待,有眼光人士可以和我联系宣传和推广,目前只放开四个位置,见下方有意联系wechat
:
lycqlc位置一:
每月5000元位置二:
每月3000元位置三:
每月2000元位置四:
每月1000元目录CONTENTS1、模型2025:加速、缩圈与国产突围2、模型2026:后训练与AI自主化推动ToB/C场景落地3、推理带动云、ASIC芯片、Token需求4、AI投资范式:降本与创收5、投资建议模型2025:加速与缩圈2025年模型迭代加速,本质是后训练技术的贡献过去被严重低估。OpenAI的o系列模型开启了推理革命,DeepSeek-R1迅速跟进并开源,验证了长思维链与纯强化学习在模型推理能力上的质变效应——过去的研究认为模型能力主要来自预训练规模,且该路径已受到数据稀缺与边际收益递减限制,而新的研究发现70%到90%的实际能力源于RLHF等后训练优化,DeepSeek-R1更是跳过监督微调,仅靠纯强化学习在数学推理上达到79.8%的准确率。性能方面,据中国信通院测试结果,截止2025年12月,头部语言大模型的综合能力较2024年底提升30%,多模态理解能力提升超过50%,但模型间的能力差距则进一步缩小。图:中国信通院方升大模型基准测试结果资料:中国信通院,中信建投图:主流AI模型迭代历程资料:ArtificialAnalysis,中信建投4模型2025:加速与缩圈2026年,模型的迭代进一步加速,截至2月20日各大厂已发布20余款模型。表:2026年主流AI大厂模型迭代情况模型发布时间公司主要特点SIMA-Real2026/1/1Google
首款能在真实环境中操控机器人完成多步骤任务的通用AI代理。Qwen3-VL-Embedding/Reranker
2026/1/8
阿里巴巴
开源多模态信息检索模型,专为图文、视频等混合内容理解设计。Qwen3-Max-ThinkingKimi
K2.52026/1/26
阿里巴巴
万亿参数旗舰推理模型,在19项基准测试中对标GPT-5.2、Claude-4.5。2026/1/27
Kimi
1万亿参数MoE架构,原生多模态,支持Agent
Swarm并行处理。2026/1/27
DeepSeek
新一代OCR模型,视觉因果流编码范式,网页数字化准确率91.09%。DeepSeek-OCR
2Grok
Imagine
1.0GPT-5.3-CodexClaude
Opus
4.62026/2/22026/2/5xAI视频生成模型,支持10秒720p视频生成,音频质量显著提升。OpenAI
代理式编程模型,编程速度提升25%,结合Codex+GPT-5训练体系。2026/2/5
Anthropic
旗舰模型,稳定100万token上下文窗口,优化企业级并行工具执行。I2V-14B
模型在性能上超越了领先的闭源模型以及所有现有的开源模型,达到了
SOTA
水平。Qwen-Image-2.02026/2/10
阿里巴巴RynnBrain某灰度模型2026/2/10
阿里巴巴
具身智能大脑基础模型,首次让机器人拥有时空记忆和空间推理能力。2026/2/11
DeepSeek
支持100万token超长上下文,约2000亿参数,纯文本架构。GLM-52026/2/11智谱旗舰模型,744B参数,在SWE-bench
Verified获77.8分,开源SOTA。M2.52026/2/11
MiniMax
新一代文本模型,SWE-Bench
Verified得分80.2%,推理速度翻倍。2026/2/12
深度推理模型,专为科研和工程设计,ARC-AGI-2测试84.6%。2026/2/12
OpenAI
研究预览版,超高速编码模型,每秒超1000个token生成速度。2026/2/12
字节跳动
视频生成模型,支持图像、视频、音频、文本四种模态输入。Gemini
3
Deep
ThinkGPT-5.3-Codex-SparkSeedance
2.0Grok
4.22026/2/13xAI多智能体协作系统,四个专业代理并行思考,支持256K+上下文。豆包大模型2.0Qwen3.52026/2/14
字节跳动
多模态模型,数学推理达IMO金牌水平,推理成本降低90%。2026/2/16
阿里巴巴
3970亿参数MoE架构,170亿激活参数,API价格低至0.8元/万Token。2026/2/18
Anthropic
性能接近Opus水平,价格仅为旗舰五分之一,推动AI普惠化。2026/2/20
最新升级,在ARC-AGI-2测试中获77.1%高分,支持100万Token上下文。Claude
Sonnet
4.6Gemini
3.1
Pro资料:通义实验室,新智元,MiniMax,月之暗面Kimi,DeepSeek
,券商中国,财联社,量子位,智谱,机器之心,中信建投5模型2025:加速与缩圈2025年大模型玩家缩圈,竞争已从基模能力转入垂直壁垒。
2025年以来,大模型研发的算力、数据、人才等高昂门槛导致市场格局剧烈收敛,基座模型研发活跃的玩家显著减少。目前第一梯队玩家包括海外的OpenAI、Google、Anthropic、xAI等,国内则聚焦于阿里、字节、DeepSeek、Kimi、MiniMax、智谱,且多选择进行开源。同时,头部厂商的旗舰模型与其他跟随者已形成显著的能力代差,马太效应加剧。就侧重方向而言,OpenAI与阿里巴巴正依托ChatGPT和千问全力构建超级入口,前者积极接入各家厂商,后者则依托自有生态产品构建闭环;Anthropic与Kimi都注重智能体布局,Anthropic围绕Agent构建了定义、协议、测评、安全全体系,Kimi
2.5的Swarm(智能体集群协作)同样反映其对Agent的重视;Google与字节跳动则在多模态能力上布局较深,并将其深度融入全栈技术和内容生态;DeepSeek与xAI分别代表了追求极致性价比与崇尚工程快速迭代(马斯克承诺Grok
4.2每周更新)两种鲜明技术路线。其余厂商如MiniMax与智谱,则精准卡位C端娱乐与自主可控的政企市场。图:主流AI大厂前沿模型智能水平资料:ArtificialAnalysis,中信建投6OpenAI:致力于打造AI全栈生态围绕ChatGPT打造入口。算力侧,OpenAI与主流云厂商均达成合作;模型侧,尽管不再绝对领先,但GPT仍处于一线梯队;应用侧,依托400万开发者,8亿ChatGPT周活用户,每分钟API处理60亿token的用户基础,OpenAI致力于构造全栈AI生态,将ChatGPT打造为类似微信的超级应用(Apps
SDK对应小程序、Sora对应视频号、浏览器Atlas对应公众号等)。OpenAI还积极接入外部软件,与Etsy、Shopify合作实现ChatGPT内购,与B端软件公司合作实现能力内嵌,与C端产品合作实现功能调用。此外,OpenAI还收购了包括编程工具Windsurf、AI医疗产品Torch、Agent产品OpenClaw在内的系列产品,加速完善AI能力。图:OpenAI全栈AI生态布局资料:
新智元,量子位,机器之心,中信建投7Google:硬件+算法+系统构架生态护城河Google的模型围绕其两大主力产品布局。Gemini系列模型辅助搜索、生产力需求,
Veo系列和nanobanana则发力多模态领域。
目前Gemini模型主打全面均衡,其模型在长上下文、多模态输入、科研等领域都有不俗的表现。正如Jeff
Dean近期在Latent
Space播客上表示,Google一直致力于拥有帕累托前沿模型(即既在能力维度做到最强,又要在成本、延迟等维度拉到最优),并基于其蒸馏出Flash版本模型(Google一直遵循下一代Flash模型性能接近甚至超过上一代的
Pro模型),使模型能力大规模可部署。2月20日,Google推出最新模型Gemini
3.1
Pro,其具备原生全模态输入能力,支持高达100万Token的超长上下文,在人类最后考试(HLE)、ARC-AGI-2、代码、Agent、长文本等领域benchmark上均实现SOTA。
Veo系列和Nano
Banana系列模型通过文生视频/图生视频能力助力YouTube生态构建。其中Veo3.1同样是视频生成领域最强模型之一,谷歌Deepmind
CEO
Demis
Hassabis甚至公开表示Veo是Google更接近AGI的系统,主要系其更接近世界模型,能够通过生成10-20秒的真实视频,理解物理直觉、因果关系、物体如何在世界中运动。Nanobanana
Pro则在图像生成领域展现了惊人的表现,尤其在多模态理解和推理,以及一致性保持上能力较强。TPU前瞻布局(提前预判AI需求)+算法创新(提出Transform架构,持续探究)+系统优化(低延迟)构建了Google护城河。图:
Gemini
3.1
Pro在多个benchmark上SOTA图:Nanobanana
Pro已上线Gemini8资料:新智元,中信建投资料:APPSO,中信建投Anthropic:围绕Agent生态全方位布局Cladue模型持续位列全球第一梯队。模型能力自不必说,Claude一直位列全球模型第一梯队,尤其编程能力较为突出,是Cursor等编程工具平台接入的最受欢迎的模型。Anthropic于2025年5月全面开放自有编程工具Claude
Code,目前年化收入已超过
25
亿美元。2026年初以来,
Claude
Code的年化收入翻了一番还多;每周活跃用户数量也翻了一番;企业订阅用户数量增长了四倍,企业用户收入已占
Claude
Code
总收入的一半以上。
此外,Anthropic
2月18日更新Claude
Sonnet
4.6,在编码、长上下文推理、Agent规划、知识型工作、设计,计算机控制等全面升级,Beta阶段还支持1M上下文。从协议、组件到评估,Anthropic加速完善Agent生态。继MCP成为解决大模型与外部数据/工具连接事实标准后,Anthropic进一步发布的Skills功能则标志Agent开发进入模块化组装阶段。其中,MCP解决了协议碎片化问题,使得外部工具更能够以统一的标准接入AI模型,skills则允许开发者将复杂任务逻辑(如PDF处理、品牌设计、SQL优化、合规审查)封装为标准化组件,AI在需要使用其功能时才进行加载,大幅降低复杂Agent功能对长上下文的要求。评估体系则是Agent落地另一重点——有相应的评估体系,才能更好衡量产品迭代的效果。Anthropic于1月9日公开了其评估框架,该框架构建了代码+模型+人工的三级混合评分体系(其建议尽可能用确定性评分器,必要时加
LLM
评分器,人工评分器用来校准),并在测试策略上严格区分了能力评估(探索新技能)与回归评估(保障存量功能稳定性)。作为在Agent领域相对领先的厂商,Anthropic延续MCP协议、Skills组件后公布其Agent评估体系,一方面试图成为Agent赛道的定义者,另一方面也能够为后续Agent产品实现大规模商业化落地的奠定基础。图:
Claude
Sonnet
4.6重点提升了计算机使用能力图:Agent评估的组成成份资料:机器之心,中信建投9资料:Anthropic,中信建投阿里巴巴:
“全尺寸”+“全模态”+“多场景”全面布局打造AI全栈生态,实现“全尺寸”“全模态”“多场景”覆盖。阿里依托达摩院深厚技术积累,构建了覆盖“全尺寸、全模态、多场景”的AI
全栈生态。为应对AI算力爆发式需求,阿里持续加大基础设施投入,通过平头哥自研芯片及全球化数据中心实现软硬协同与自主可控。2023
年,阿里发布“通义千问”基座大模型,并开源
Qwen-7B,成为国内首个开源自研大模型的大厂,正式形成从基础模型到垂直应用的生态闭环。截至
2025
年
10
月,Qwen
模型已迭代三个大版本及多个垂直场景模型,尺寸覆盖
0.5B
至万亿参数。不同团队还推出各领域垂直大模型,全面助力业务场景落地,展现了其
AI
全栈生态的深度与广度。Qwen3.5-Plus上新,同样布局原生多模态。包含Qwen3.5-Plus和Qwen3.5-397B-A17B两大模型。Qwen3.5
Plus
作为通义千问首个原生多模态大模型,通过统一架构深度整合语言推理与视觉感知,在效果、成本与多模态理解维度上全面超越前代模型。开源旗舰版本
Qwen3.5-397B-A17B
采用创新混合架构,融合线性注意力与稀疏混合专家(MoE)技术,总参数量达
3970
亿,每次前向传播仅激活
170
亿参数,部署显存占用降低
60%,最大推理吞吐量提升至
19
倍,显著优化速度与成本。在IFBench、GPQA
Diamond等
12
项权威基准测试中,该模型在推理、智能体、多模态理解等核心能力上表现突出。图:随RL环境规模增加带来的模型通用Agent能力增益图:千问3.5推理效率大幅提升资料:通义千问公众号,中信建投资料:通义千问公众号,中信建投10字节跳动:原生多模态能力国内领先Seed2.0
与
Seclance2.0
上新,体现其原生多模态能力国内领先的行业地位。Seed2.0强化视觉与多模态理解,灵活适配各类企业级应用场景;Seedance2.0主攻AI视频生成,支持多模态输入,能生成复杂交互与运动场景。
字节跳动正式发布的
Seed2.0
系列模型,以强化企业级
Agent
能力为核心,提供了
Pro、Lite、Mini
三款不同尺寸的通用Agent
模型。该系列全面升级了多模态理解能力,并深度融合
LLM
与
Agent
功能,使其在真实的企业级长链路任务中能够稳定、可靠地推进,指令遵循能力与复杂
Agent
任务执行水平均达到业界第一梯队。此外,Seed2.0
的能力边界已从竞赛级推理扩展至研究级任务,在视觉推理(如
MathVision)与动态场景理解(如
MotionBench)等关键基准测试中也达到SOTA
或领先水平,整体在
LLM、VLM、Agent
领域较前代实现了全面提升。
Seedance
2.0
依托原生多模态统一架构,实现音、画、文本的深度协同生成。此前因影视飓风实测视频迅速出圈,相关内容在小红书日均曝光量突破5000万次,引发行业广泛讨论。模型支持原声音画同步、多镜头长叙事与多模态可控生成。基于
SecVideoBench-2.0
评测结果,其在文生视频、图文视频及多模态生成三大核心场景均达到行业领先水平,在动作一致性、画面质量、音频表现力等关键指标上实现
SOTA,全面展现其原生多模态深度融合的核心优势。图:
豆包大模型2.0公开测试集表现图:Seedance2.0生视频案例资料:豆包公众号,中信建投资料:GoWalker,中信建投11MiniMax:M2.5上新,编程与智能体领域SOTA
MiniMax-M2.5
在编程等领域达到SOTA水平。在编程领域,M2.5
在动手写代码前即可主动拆解功能、结构与
UI
设计,覆盖从
0-1
系统设计到
90-100
完备测试的全流程开发。在
SWE-Bench
Verified(80.2%)、Multi-SWE-Bench(51.3%)等权威基准测试中,M2.5
刷新了行业
SOTA。在工具调用与搜索场景,M2.5
在
BrowseComp(76.3%)等评测中达到行业顶尖水平,以更精简的路径逼近结果,相较于
M2.1
节省约
20%
的轮次消耗。办公场景中,M2.5
深度融合行业隐性知识,在GDPval-MM
评测框架中取得
59.0%
的平均胜率,可直接交付可落地的
Word、PPT、Excel
金融建模等成果。OpenRouter平台数据显示,目前MiniMax
M2.5
调用量位居榜首,成为当前最受开发者青睐的模型之一。
M2.5
性价比高,迭代更新迅速,成为首个可无成本约束运行复杂
Agent
的前沿模型。其推理速度接近主流模型的两倍。成本方面,M2.5
提供双版本选择:100
TPS
版本处理每百万
token
输入仅需
0.3
美金,输出仅需
2.4
美金;50
TPS
版本输出价格再降一半。为规模化构建
Agent
生态提供了经济可行性。此外,M2
系列在过去
108
天内快速迭代,在
SWE-BenchVerified
等核心任务上保持行业最快进步速度,实现了模型能力随算力与任务数的近线性提升。目前,M2.5
已全面集成于
MiniMax
Agent,MiniMax
内部
30%
的任务由
M2.5
自主完成,正加速推动
Agent
时代的到来。图:
M-2.5编程能力SOTA图:M-2.5搜索与工具调用能力SOTA资料:Minimax官网,中信建投资料:Minimax官网,中信建投12智谱:GLM-5发布,基于国产算力的SOTA模型GLM-5
正式上线,作为基于国产算力打造的
SOTA
大模型,实现了关键能力的全面突破。与
GLM-4.5
相比,GLM-5
的参数规模从
3550
亿(320
亿激活)扩展至
7440
亿参数(400
亿激活),并将预训练数据从
23
万亿
tokens
增加到
28.5
万亿tokens。GLM-5
还集成了深度稀疏注意力(DSA),在保留长上下文能力的同时显著降低部署成本。目前,GLM-5
已完成与昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5
在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。值得注意的是,GLM-5
发布后
Coding能力因需求火爆先实施限售管控,随后同步调价,主要是因为模型性能大幅提升与算力需求同步增长。伴随用户与调用量激增,算力与服务成本承压,平台通过调价优化资源分配,保障高价值用户稳定使用。图:GLM-5在推理、编码等领域表现优异资料:智谱公众号,中信建投13Kimi:K-2.5超长上下文能力与Agent集群Kimi
K-2.5全新开源,256k长上下文业内领先。在Agent、视觉、视频、代码等领域全面突破,达到开源SOTA
水平。模型延续长上下文优势,上下文窗口提供256K
token容量,超过
GPT-4o
的
128K
和
Claude3.5
的
200K,允许同时提交多个文档进行跨文档分析和比较。这个上下文窗口可用于处理长文档、大型代码库和扩展对话,并支持较强的跨段信息关联,可高效处理海量文档与复杂信息,一次可处理约500页长文档,有效帮助企业完成检索知识库,项目管理等任务。Agent
集群能力,实现智能体从个体到团队协作的模式升级。K-2.5可自主创建分身、组建任务团队,并行调度多达
100
个智能体、处理
1500
个步骤,实现效率量级提升。在大规模搜索等场景下,关键步骤减少
3–4.5
倍,实际耗时最高缩短
4.5
倍。同时,模型深度赋能
Office
全场景,可直接输出专业级
Word、Excel、PPT、PDF
成果。通过重构强化学习基础设施与训练算法,K2.5
实现高效规模化训练,已开启Beta
测试,全面助力个人与企业高效完成复杂工作。图:
K-2.5Agents能力SOTA图:Agent集群工作模式资料:Kimi官网,中信建投资料:Kimi官网,中信建投14Deepseek:技术架构调整实现高性价比持续优化技术框架,架构创新与算法迭代实现性能与成本的双重突破。早在V3模型时DeepSeek就展现了极强的技术优化能力。V3采用自研
DeepSeekMoE
架构,以
671B
总参数量仅激活
37B
参数,结合多头潜在注意力(MLA)压缩
KV
缓存、多token
预测(MTP)提升训练效率,管道并行算法DualPipe提高通信效率、加速模型训练。总训练成本仅
557.6
万美元,较OpenAI
同类模型降低数十分之一。R1
则通过强化学习(GRPO
算法)与蒸馏技术,让小模型具备接近
o1
的推理能力,API
调用成本显著低于行业水平,推动
AI
技术普惠。V3.2模型中,DeepSeek引入DSA深度稀疏注意力机制,降低注意力计算复杂度,搭配细粒度MoE架构设计,在保障性能的同时大幅降低算力消耗。针对不同场景推出双版本模型,V3.2主打推理能力与输出长度的平衡,减少计算开销与等待时间;V3.2-Speciale聚焦极致推理,虽消耗更多Token,但通过架构优化控制成本增幅。工程化层面,创新实现思考与工具调用的深度融合,构造1800+环境、85000+复杂指令的强化学习任务提升泛化性,同时优化训练与推理流程,使API调用成本降低50%以上,实现了“高性能+低成本”的开源模型突破。图:DeepSeek-V3基本架构图:Deepseek-V3.2推理与Agent能力强大资料:《DeepSeek-V3
Technical
Report》,中信建投资料:Deepseek公众号,中信建投15模型2025:推理侧拓展与国产开源模型的突围2025年的大模型行业从参数规模扩张转向推理拓展,积极推动模型在代码、数学、Agent方面等实际解决问题的能力。同时,效率同样成为国内外大模型玩家考虑的一环,优化架构提供性价比方案,蒸馏得到能力强劲的小参数模型都是重点方向。
2025年模型迭代的核心主线是强化学习与推理侧扩展。以OpenAI和DeepSeek为代表,行业全面拥抱基于大规模后训练优化的技术路径,并使模型能力在数学、Agent等方面得到了显著提升。以Anthropic为例,其Claude
4.6
Sonne(
2026年2月)较Claude
3.7
Sonnet(2025年2月)在GPQA
Diamond的得分由68%提升至89.9%,在SWE-bench
Bertified的得分由62.3%提升至79.6%,在Agent
tool
use的提升由81.2%提升至91.7%;相反在MMMU、MMMLU等通用能力的提升相对较慢。主要是源于数学和编程领域可以借助求解器或编译器验证答案,强化学习反馈顺畅,而在缺乏验证器的其他领域则提升有限。
模型架构的统一。在文本领域,单一模型难以兼顾低延迟交互与深度思考,基于动态路由的混合架构得以推出,系统可根据任务复杂度自动将指令分发给快响应或深推理节点,实现性能与算力成本的最优解。在多模态领域,各大厂则告别了模态拼接,转向视觉、音频、文本统一Token化的原生多模态架构,并完成了多模态理解和生成的统一,使模型能直接基于原生连续视频流进行时空逻辑推理,极大拓宽了AI的应用边界。图:
DeepSeek-R1优化RL过程图:多模态的生成和理解资料:
《DeepSeek-R1:
Incentivizing
Reasoning
Capabilityin
LLMs
viaReinforcementLearning》
,中信建投资料:《UnifiedMultimodal
Understanding
and
Generation
Models:Advances,Challenges,
andOpportunities》,中信建投16模型2025:推理侧拓展与国产开源模型的突围
架构优化与性价比。底层架构的优化成为2025年模型厂商的突围关键,国内以DeepSeek、Kimi、阿里为代表的厂商,通过引入多头潜在注意力(MLA)、DeepSeek稀疏注意力(DSA)、高稀疏MoE架构、Kimi线性注意力(Kimi
Linear)、动态分块稀疏注意力等创新机制,在大幅降低KV
Cache显存占用的同时,将推理流式生成速度提升了数倍。尽管海外大厂鲜少披露技术报告,但如OpenAI
GPT-OSS的稀疏注意力、
GPT-4.1的动态记忆机制等同样反映了其重视。此外,国内模型提供性价比方案的同时,海外大厂目前同样提供性价比模型方案,如Anthropic
Claude的sonnet模型能达到Opus模型性能,成本仅1/5,Google
Gemini的flash模型同样性能超过上一代Pro模型,价格仅为1/4。
中国开源生态爆发。2025年前国内开源阵营基本以阿里Qwen、
DeepSeek
V系列为主。进入2025年,DeepSeek-R1(1月&5月)、Kimi
k2(9月)、MiniMax
M2(10月)、智谱GLM-4.7(12月)等国产开源大模型持续突破,更是GPT于2025年8月开源其gpt-oss模型。截至目前,Kimi
K2.5、MiniMax
M2.5、阿里Qwen
3.5-Plus、智谱GLM-5等开源模型已在SWE-bench、ARC-AGI等核心benchmark上的表现逼近甚至在部分垂类场景反超海外头部闭源产品。开源阵营与闭源模型能力差距的进一步缩小,为国内企业结合私有数据训练专精模型提供了可行方案,有望促进AI生态加速繁荣。图:
kimi线性注意力机制图:开源模型和闭源模型的智能水平资料:《
KIMI
LINEAR:
AN
EXPRESSIVE,
EFFICIENT
ATTENTION资料:ArtificialAnalysis
,中信建投ARCHITECTURE
》,中信建投17目录CONTENTS1、模型2025:加速、缩圈与国产突围2、模型2026:后训练与AI自主化推动ToB/C场景落地3、推理带动云、ASIC芯片、Token需求4、AI投资范式:降本与创收5、投资建议模型2026:后训练范式加速,AI持续自主化展望2026年,大模型有望进一步延续2025年推理的方向,并在技术架构方面不断升级,为用户提供更高的应用价值。我们预计主要的发展方向如下:
1)RL的持续与升级。相较于预训练Scaling
law,2025年兴起的强化学习目前仍处于早期阶段,体现在目前后训练的算力消耗占比仍相对较少,海外如Grok
4在强化学习阶段的算力消耗已超过预训练阶段,国内如DeepSeek
v3.2的技术报告仅提到强化学习的算力投入仅超过预训练的10%,看好2026年RL的算力投入占比进一步提升。同时,目前RL主要都在可验证的领域(如编程、数学)更强,新的拓展方向可能包括形成通识领域的评价体系(如构建模型自评价体系)。此外,目前模型的能力往往出现锯齿状的智能跃升,例如使用小规模数据集进行RL即可显著提升模型的推理能力,这意味着模型的能力很可能实际上沉淀在模型内,行业甚至对模型潜力的挖掘不足10%,需要新的技术促进模型能力外显。
2)架构方案的升级。
Jeff
Dean
在近期的访谈中表示,一套设计系统时通常只需要考虑5–10倍的增长,而一旦访问的规模放大到100倍,原本看起来不合理的方案甚至可能会变成最优解。
Transformer架构发布至今已经近十年,而目前AI模型的参数量、上下文长度和推理规模,以及算力的需求量已经呈现出数个数量级的跃迁,对旧架构打补丁可能并不是最优方案。Demis
Hassabis此前同样在访谈中表示,通往AGI还需要1-2个Transformer级别的重大突破,比如持续学习、更好的长期记忆机制、更高效的上下文窗口等。19模型2026:后训练范式加速,AI持续自主化
3)更长上下文与记忆的突破。当前主流模型已普遍具备支持百万Token输入的能力,但在实际长任务过程中,模型精准检索与逻辑链条的维持仍存在信息衰减瓶颈,仍待高效上下文压缩算法、动态记忆机制等技术突破。同时,对长上下文的学习也不应该局限在“大海捞针”类的检索,而应该进一步扩充至在超大规模信息中,找到、整理并使用多条互相关联的线索,完成真正复杂的任务。
MiniMax
M2提出的Interleaved
Thinking(交错思维,Agent执行过程中形成同步思考、实时调整、持续修正的循环),以及智谱GLM-4.7提出的Preserved
Thinking(保留思考,模型自动保留多轮对话中的所有思考块,重用现有推理而不是从头重新推导,减少信息丢失和不一致性)等都是在这方面的探索。
4)更多维度原生多模态融合与世界模型。未来模型处理信息的维度将被无限拓宽,Jeff
Dean认为多模态大模型的训练语料不应该局限于文本、音频和视频,而是广泛囊括各类传感器数据,如自动驾驶点云、机器人高精度关节传感序列、医学影像以及复杂基因组测序信息等,其中视觉与物理运动控制数据是数百种潜在模态中最具价值的数据。世界模型同样需要囊括海量跨传感器的时空序列数据,从而内化真实物理世界的因果法则与运动规律,使模型具备在虚拟环境内进行高保真物理仿真的能力。李飞飞World
Labs近期完成新一轮10亿美元融资,英伟达、AMD以及a16z等继续追加投资,新投资方CAD厂商Autodesk表示双方将共同探索世界模型在空间设计等场景中的应用潜力。
5)Agent自主化与个人助理。开源框架OpenClaw的现象级破圈,标志着Agent在复杂环境感知、多步骤动态任务拆解、工具调用与自我逻辑纠偏能力上实现了深度自主化。OpenClaw是运行在本地设备上的全能私人助理,技术对于大厂而言并不复杂,更多在于交互范式的进化(过去人主动使用AI,现在AI在后台自动运行)以及本地访问权限的开发。国内豆包、千问争夺个人Agent的入口,本质上也是一种个人助理,但其缺乏的自主性使产品并未跳出工具范畴。未来归属于个人的AI产品将会更多,能否用的好AI将会成为用户最核心的差距。20推理效率提升和token的井喷将如何演绎?
AI普惠
or
AI集权?当前中美大模型商业化呈现出显著的底层差异,美国市场以OpenAI、Anthropic等为代表,C端普遍确立了每月20美元起步的“AI税”门槛;中国大模型生态更加侧重于基础设施化,通过极致的算法优化与开源战略(如DeepSeek、Qwen、豆包等),基本免除C端用户基础调用成本,将AI实质性推向了准公共产品的普惠地位。而在复杂代码生成、科研辅助等专业场景,大量并发请求正对现有资源造成冲击,以智谱GLM
Coding
Plan的限售调价为例,面对算力资源的阶段性紧张,大厂不得不采取缩减发售量(降至20%)、调整价格(提价30%)等干预手段以保障核心用户的体验,反映在重度生产力场景,算力平权红利正逐步消退,高质量的专业算力正重新回归稀缺资产。图:
“中美AI税差异”图:智谱GLM
Coding
Plan调价函资料:观察者网,中信建投资料:智谱,中信建投21推理效率提升和token的井喷将如何演绎?Agent工作流驱动Token消耗井喷。随着大模型技术从参数扩张向强化学习与推理侧扩展,AI应用正向Agent自主规划与决策演进——模型能力的增强大幅拓宽了任务边界,机器自主执行、试错反思与多Agent协同使得底层Token消耗呈指数级上升。OpenRouter平台数据显示,仅在一个多月内,多模型的Token调用量便实现了翻倍式激增(1月初每周6.42T,目前已提升至13T)。我们认为,未来AI应用生态将呈现明显的分层结构:1)通用场景的极致普惠:
依托参数蒸馏技术深化,以及TPU、ASIC等专用推理芯片的全面普及,通用模型与轻量交互的边际成本将持续走低,大众群体将实现基础AI算力平权;2)专业场景的价值重估:
在专业垂直场景,由于Agent对算力的无底洞需求,算力的马太效应将愈发显著,未来产业的核心价值将集中在拥有高算力资源禀赋的组织,以及具备业务定义能力、能高效管理和驱动庞大AI
Agent群组的超级个体,其生产力杠杆与商业价值将被无限放大。图:OpenRouter平台模型token调用量资料:OpenRouter,中信建投22ToB场景:AgentAI推动第四次工业革命,自主化Agent重塑生产活动范式。信息技术时代被认为是第三次工业革命,但严格意义上的传统互联网时代并未改变人类生产活动的基本模式,其核心仅是大幅提升了信息的传输效率。而过去几年的人工智能虽被寄予第四次工业革命的厚望,但早期的对话式大模型仍局限于辅助工具的形态,未能与传统应用拉开代际差距,也未衍生出全新的流量/服务分发方式。近期OpenClaw的出圈使Agent自主化得到了市场的关注。Agent的核心突破在于其不再是单纯的信息处理器,而是可以成为具备自主规划、工具调用、纠错迭代和完整执行工作流能力的数字员工。从辅助人的副驾驶(Copilot)到替代人力,Agent有望突破人类自身处理复杂任务的物理限制,使得AI真正具备了推动第四次工业革命的底层要素。而据Anthropic研究发现,Claude
Code最长操作的调用时间正持续增加,三个月内99.9百分位的单次操作时长从不到25分钟增长到超过45分钟,呈平滑上升趋势,正反映AI自主化的发展趋势。图:
人工智能时代被誉为第四次工业革命图:
Claude
Code
最长操作的时间逐步提升资料:工业4.0研究院,中信建投资料:AGI
Hunt,中信建投23ToB场景:Agent按照劳动力重构的演进思路,Agent生态的发展正在快速衍生出全新的价值链条与商业机会:
交互门槛升维:驱动Agent不再是简单的日常闲聊,而是如何清晰界定任务边界并让其交付高精度的结构化成果。高阶提示工程将演变为一种核心生产技能,能够将模糊的人类意图拆解为Agent可执行的逻辑树,并精准下达任务指令的人才与辅助工具,将占据极高的生态价值(相反无法定义Agent任务的用户可能会造成大量的资源浪费)。
Agent管理与编排平台:当数字劳动力成为常态,绝大多数企业和普通用户并不具备统筹复杂Agent集群的能力。如何对多个Agent进行协同编排、任务分发、权限控制、评估,将成为行业痛点。此时,协助部署和管理数字员工的Agent中台或将成为极具壁垒的新型SaaS服务,初期或为类Dify的拖拉拽编排,后续可能优化为沉淀垂直行业知识的自动编排。
网络底层基建与安全重构:当前的互联网架构如UI交互、图形验证码等完全是为人类视觉与点击设计的,这让Agent在自主执行时往往会碰壁。未来,网络架构必然将向Agent友好演进:一方面,原生面向Agent的结构化协议和API优先设计将大行其道;另一方面,针对Agent的恶意消耗、越权操作及数据合规等新型网络安全防御机制,将成为不可或缺的基建配套(例如Claude
Code在沙箱中运行时,只能对当前工作目录进行读写操作,且网络连接需通过代理服务器验证,避免直接访问外部网络。)图:
Dify
Agent编排界面图:Claude
Code
A
gent
运行沙箱资料:阿里云开发者,中信建投资料:coft,中信建投24ToB场景:多模态在前沿演进上,当前多模态模型的迭代正逐步收敛至原生多模态与世界模型两大核心方向。前者优化了跨模态拼接的中间环节,实现了对音频、视觉、文本的端到端统一表征,极低的时延与高保真的情绪感知能力为后续终端的实时交互提供了底层支撑;后者则使AI不仅能理解生成画面,更能基于物理模拟器预测环境动态与行为后果(如重力、碰撞、遮挡关系及因果逻辑)。多模态底层技术跃迁重塑B端应用,推动场景从内容产业向工业环节发展。多模态技术初期旨在压缩音视频制作成本,加速了内容产业发展,催生了AI短剧/漫剧的繁荣。随着原生多模态不断扩充模态种类,模型的处理维度不再局限于文本与音视频,而是广泛囊括点云、医学影像、机器人关节序列等多元传感器数据,则基于Transformer的自回归预测或将自然涌现出对世界规律的深刻理解,实质和世界模型的边界进一步模糊(只是世界模型更强调结合实时环境数据预测下一时点状态)。全模态感知不仅能够使服务场景的交互具备实时共情与决策能力,更能模拟时空序列与真实物理因果,在自动驾驶、具身智能等前沿领域构建高保真孪生模拟器,以极低成本生成海量极端工况闭环数据。如前所述,近期World
Labs获十亿美元级融资并携手工业软件巨头探索空间设计应用,充分印证全模态与世界模型正加速成为工业智能落地的核心基础设施。图:原生多模态架构示意图图:世界模型的主要类型资料:《Loong:
Generating
Minute-level
Long
Videos
with资料:《Understanding
World
or
Predicting
Future?
A
Comprehensive
SurveyofAutoregressiveLanguage
Models》,中信建投World
Models》,中信建投25ToC场景:入口在战略演进上,当前头部大模型厂商正加速单点应用向超级入口转移。以OpenAI为例,其依托8亿周活的庞大用户基本盘,扩张逻辑则类似Web2.0时代,不再局限于模型参数竞争,而是通过高频次广覆盖的全栈产品矩阵全面铺开,以高意图的对话交互确立新一代数字生活底座,目前产品矩阵包括:1)基模及生产力应用:ChatGPT、新型推理AI、定制化模型、编程助手A-SWE、ChatGPT-agent、协作工具。2)流量分发与泛娱乐内容:AI浏览器、ChatGPT-社交媒体(依托Sora等底层多模态能力,驱动用户分享交互与社区生态)、音乐生成AI。3)广告推荐:购物推荐功能。4)具身智能:AI驱动的个人设备、机器人软硬件。OpenAI通过核心单品垄断流量池,进而低成本高频试错产品体系,极大对冲了创新风险。随着大模型将触角纵深拓展至原生浏览器、社交信息流、智能购物推荐及全自动编程助手等多元场景,有望打造高粘性的流量内循环体系。在商业化变现维度,面对订阅模式的低付费意愿(即使是OpenAI付费率也仅5
%
-10%),OpenAI正在引入意图搜索驱动的广告分发与电商抽成等变现模式。同时,通过跨界投资与软硬协同,超级入口的生态边界正加速从数字世界穿透至具身智能与个人硬件设备等真实物理空间,向全景生态闭环发力。图:
OpenAI产品布局图:主流AI应用WAU资料:量子位,中信建投资料:a16z,中信建投26ToC场景:入口互联网大厂争夺AI入口,春节期间累计花费超45亿元。2026年春节期间,互联网大厂加码AI产品红包,其中阿里巴巴豪掷30亿元重仓千问生态,腾讯与百度分别以10亿元和5亿元现金入局元宝与文心大模型,字节跳动亦为豆包配置3亿元专项活动奖池。在大厂的高强度投流下,国内AI产品渗透率用户量激增,仅千问单一平台即在春节期间完成超1.3亿人次首次AI购物体验与50亿次自然语言指令交互。实际上,早在2026年1月15日,千问APP端内一次性上线超400项智能办事功能,全面向下直连淘宝、支付宝、飞猪、高德、饿了么、淘宝闪购、菜鸟、阿里健康、1688与盒马等十余个核心国民级超级应用,使用户能通过自然语言完成线下服务。此时,AI已然成为用户的应用中枢,不仅具备跨APP调度复杂任务的能力,更能深度整合全网评价与实时数据,自主完成比价筛选与端内一键支付结算闭环。大模型+API调度的系统,重构了传统互联网树状搜索和用户点击交互的使用范式,有望重新使互联网流量洗牌。图:互联网大厂春节AI活动汇总图:Qwen接入阿里全场景生态资料:智东西,中信建投资料:雷科技,中信建投27ToC场景:端侧多模态模型技术迭代,以眼镜为代表的端侧AI硬件正迎来需求井喷的拐点,大厂积极布局。自Meta联合雷朋推出智能眼镜并深度接入Llama3大模型生态以来,AI眼镜行业标杆正式确立。目前,AI端侧硬件已具备实时多语言翻译交互、视频识物、拍照等底层能力,突破传统外设定位,跃升为感知物理世界的入口。2025年上半年,全球智能眼镜市场同比增长110%,三季度单季销量冲破165万台大关。
Counterpoint预测未来五年AI眼镜市场复合年增长率将突破60%。移动互联网巨头同样积极布局AI端侧领域,据2月18日报道,苹果正在加速研发三款
AI
可穿戴设备,包括
AI
智能眼镜、AI
穿戴式胸针
/吊坠,以及
AI
版
AirPods。上述设备均将与
iPhone
连接,并与正在开发的升级版
Siri
进行交互。硬件标准化趋势下,大模型能力将成为终端设备壁垒。在AI眼镜领域,大模型已成为各品牌重要的差异点。一方面,以Rokid为代表的初创阵营通过动态路由机制聚合通义千问、DeepSeek及豆包等头部模型,以模块化调用满足跨场景长尾需求;另一方面,头部硬件厂商正加速向模型层渗透,不仅涌现出雷鸟联合通义开发端侧专属大模型的定制路线,更催生了李未可自研端侧视觉模型的垂直一体化玩家。苹果在当前AI能力相对落后的背景下,仍选择了模型聚合路线——继2024年初步集成OpenAI底层能力后,苹果于2026年1月正式达成与谷歌Gemini大模型的战略合作,以双轨并行的模型能力驱动AppleIntelligence的端云协同,从而强力端侧私人助理的新蓝海市场。图:Apple可穿戴硬件假想图图:苹果智能和Google达成协议资料:APPSO,中信建投资料:爱范儿
,中信建投28ToC场景:端侧云端主导复杂推理+端侧主导实时决策,有望重塑下一代端侧设备技术底座。云端大模型存在高延迟、高推理成本及数据隐私的多重限制,而端侧小模型凭借参数规模与性能的机制性价比,能够实现低功耗的本地化推理能力,有望成为端侧AI生态的核心中枢。通过蒸馏将大模型的泛化推理能力压缩至边缘端侧设备,不仅能够实现离线零延迟多模态交互,还能够使终端设备具备持续完善用户环境的长效上下文记忆,真正成为个人AI助理。小米是端侧厂商布局模型的典型。就基准评测数据看,总参数
309B(激活15B)的小米轻量化模型MiMo-V2-Flash在极致压缩算力功耗的条件下实现效能越级,在复杂代码生成、多语言代理协同及智能体工具调用等核心任务中,综合表现比肩全球第一梯队千亿级基座模型。同时,小米还推出了4.7B的机器人VLA大模型Xiaomi-Robotics-0,通过将视觉语言模型与扩散网络架构进行深度耦合,依托多模态动作混合预训练、专项扩散预训练及目标任务后训练的递进式范式,成功将海量多传感器数据直接映射为高精度的空间物理动作反馈,让机器人既能理解复杂环境,又能连续、稳定、精准地执行动作。小米的模式为端侧模型指引了端云协同的终局道路,千亿级别大模型作为云端教师模型,后续可蒸馏出移动端小模型;4.7B的机器人VLA则能够为智驾、机器人等提供支持。图:
Xi
aomi
MiMo-V2-Flash测评基准效果对比图:
Xiaomi-Robotics-0训练架构资料:Xiaomi
MiMo,中信建投资料:《Understanding
World
or
Predicting
Future?
A
Comprehensive
SurveyofWorld
Models》,中信建投29目录CONTENTS1、模型2025:加速、缩圈与国产突围2、模型2026:后训练与AI自主化推动ToB/C场景落地3、推理带动云、ASIC芯片、Token需求4、AI投资范式:降本与创收5、投资建议国内外云厂商收入高增,产业链涨价逐步传导海外云厂商收入持续加速。2025年第四季度,北美云三大云厂商(微软智能云、亚马逊AWS、谷歌智能云)合计收入达到861.50亿美元,同比增长30%,环比提高9%,呈加速上行趋势,反映AI浪潮下云端需求加速。图:1Q20-4Q25北美云厂商收入及增速(亿美元)1000800600400200040%30%20%10%0%1Q20
2Q20
3Q20
4Q20
1Q21
2Q21
3Q21
4Q21
1Q22
2Q22
3Q22
4Q22
1Q23
2Q23
3Q23
4Q23
1Q24
2Q24
3Q24
4Q24
1Q25
2Q25
3Q25
4Q25AWS收入:Wind,中信建投;注:个股财务数据按自然年统计谷歌云收入微软智能云收入总Yoy资料图:1Q20-4Q25北美云厂商资本开支情况(亿美元)12001000800600400200080%60%40%20%0%-20%1Q20
2Q20
3Q20
4Q20
1Q21
2Q21
3Q21
4Q21
1Q22
2Q22
3Q22
4Q22
1Q23
2Q23
3Q23
4Q23
1Q24
2Q24
3Q24
4Q24
1Q25
2Q25
3Q25
4Q25亚马逊资本开支
谷歌资本开支
微软资本开支
总Yoy资料:Wind,中信建投;注:个股财务数据按自然年统计31国内外云厂商收入高增,产业链涨价逐步传导腾讯25Q3财报收入超预期,资本开支付款达到200亿元。腾讯25Q3实现营业收入1928.7亿元,同比增长15%,超出市场预估的1888亿元;实现净利润631.3亿元,同比增长19%,大超市场预期558.8亿元。资本开支方面,25Q3腾讯资本开支达到129.8亿元,同比下滑24.07%;自由现金流中资本开支付款达到200亿元,且主要用于支持AI相关业务发展;二者受服务器交付时间影响错配。腾讯多项业务在AI的促进下实现加速增长。增值业务中《王者荣耀》及《和平精英》等长青游戏加大了虚拟队友/NPC角色等方面AI应用;营销服务业务中AI驱动的广告平台改进推动了广告主需求,尤其在点击率方面促进明显;企业服务业务增速环比加速,主要系企业客户对AI相关服务需求持续增加。阿里云25Q3收入增长34%,AI相关产品连续9季度三位数增长,进一步上修资本性开支目标。11月25日,阿里巴巴公布2025年第三季度财报,实现营业收入2477.95亿元,同比增长5%(若不考虑高鑫零售和银泰的已处置业务的收入,同口径收入同比增长将为15%);实现净利润206.12亿元,同比下降53%。其中,阿里云收入398.24亿元,同比增长34%(不计入阿里巴巴并表业务收入为29%),增速进一步创三年新高。公共云业务收入增长带动阿里云收入高增,尤其AI相关产品收入连续九个季度实现三位数的同比增长。资本开支方面,25Q2阿里巴巴资本性支出达到315.01亿元,同比增长80%。公司在业绩交流会上表示,从客户需求看,此前规划的3800亿资本开支可能偏小,后续会以比较积极的态度投资AI基础设施。同时,当前AI资源仍处于供不应求的状态,至少在3年之内不存在AI泡沫。25Q3,随着AI应用正在推动传统产品实现巨大的增长势头,阿里巴巴AI相关收入占外部客户收入的比重超过20%的同时进一步增长。报告期内,公司发布通义旗舰模型qwen3-Max,在大模型调用coding解决真实世界问题、多工具调用等专项测试中处于全球第一梯队;11月17日千问APP公测版在上线一周,下载量已经突破1000万。图:2020Q1-2025Q3阿里巴巴资本开支图:2020Q1-2025Q3腾讯资本开支(亿元)(亿元)400500%400%300%200%100%0%500300%200%100%0%40030020010003002001000-100%-100%腾讯资本开支yoy32阿里巴巴资本开支yoy数据:
Wind,中信建投数据:
Wind,中信建投国内外云厂商收入高增,产业链涨价逐步传导近期国内外云厂商涨价函频发,AI推理带来大量需求拉动行业进入向上拐点。2026年2月,亚马逊AWS、谷歌云等国际云计算巨头及国内厂商优刻得相继宣布上调服务价格,打破行业长期价格下行趋势。亚马逊AWS于1月23日率先将机器学习容量块价格上调约15%;谷歌云则将自5月1日起调整全球数据传输价格,北美地区涨幅达100%;国内优刻得宣布自3月1日起全系产品涨价,覆盖新签及续签客户;欧洲云计算服务提供商
Hetzner同样宣布从
2026
年4月1日起对云服务器、专用服务器
(独服)、对象存储、负载均衡器等多项产品调价。此外,网宿科技CDN、智谱套餐的涨价同样反映云需求向产业链环节进行传导。表:云相关涨价情况公司时间涨价幅度主要调整内容上调EC2机器学习容量块价格,其中p5e.48xlarge实例每小时费用从34.61美元涨至39.80美元亚马逊1月23日约15%数据传输服务价格调整:北美从0.04美元/GiB涨至0.08美元/GiB,欧洲从0.05美元涨至0.08美元,亚洲从0.06美元涨至0.085美元2026年5月1日起北美100%、欧洲60%、亚洲42%谷歌CDN标准流量35%、快速回源40%、对象存储
CDN标准流量服务价格上调35%,快速回源通道流量上调40%,对网宿科技优刻得智谱2026年2月1日起2026年3月1日起2026年2月12日40%象存储服务价格上调40%全线产品上浮调整对续签及新签用户的全线产品与服务进行价格上浮调整对GLM
Coding
Plan产品套餐价格体系进行结构性调整,取消首购优惠30%云服务器平均涨幅达到25%-37%,部分机型涨幅可能会更高;独立服务器平均涨幅14%-20%,部分型号例如拍卖服务器价格+3%;高端机型例如SX系列服务器价格涨幅在20%-30%;对象存储基础价格从4.99欧元上涨到6.49欧元,涨幅达到30%。Hetzner2026年4月1日起全线产品上浮调整资料:维科网云计算观察,上海证券报,证券时报,智谱,中信建投33全球云厂商相继布局ASIC芯片ASIC凭借能效比与成本优势成为AI算力向推理端演进的核心方向。当前Token生成量呈指数级爆发,算力核心诉求从单纯的泛化训练转向高并发、低延迟的规模化推理。ASIC架构采用精简指令与特定矩阵加速设计,彻底消除了传统通用计算架构中资源调度的额外开销。这种高度定制化带来的极低功耗与极高单位算力密度,使其在数据中心场景相较GPU性价比优势明显,契合当前AI商业化对单次API调用成本的要求。谷歌TPU已验证ASIC的性能与商业可行性。在效能指标上,谷歌TPU
v5e的能效比达到英伟达H200的1.46倍。最新一代TPUv7峰值FP8算力高达4.6
PetaFLOPS,单芯片峰值能效是上一代Trillium的两倍,将每百万Token的推理成本压缩至0.27美元,实现成本曲线的陡峭下行。目前,Anthropic已与谷歌签订价值210亿美元的巨额TPU订单,Meta计划在未来数年采购逾百万颗TPU用于大模型部署,苹果与OpenAI也纷纷将核心训练或推理工作负载向TPU迁移,ASIC正逐步侵蚀GPU的市场。表:不同架构算力芯片对比ASIC较低不灵活低FPGACPUGPU功耗中等非常灵活较低较高非常高灵活高灵活性延迟高高峰值运算能力高高低于GPU,一般高架构精简无冗余,能耗低;定制
可现场重新编程,灵活修改设计;行处理高效,运算密集;超长图形流水线设计,大规模数据流并行处理能力强。化设计,系统、电路、工艺高度开发周期相对ASIC来说短;小规
通用性强,支持多任务并处理;优势一体;体积小、速度高、功耗低,模和中等规模应用下,开发成本
数学运算精度高;硬件兼容性好。价格有优势。低。相比优化后的专用集成电路,功耗较高;开发需专业硬件知识,调试优化复杂。定制化程度高,开发周期长;依赖算法;研发耗时久。并行性有限,不擅长大量重复操
无法执行通用计算任务;成本较劣势作;发展逐渐触及瓶颈。高;难以处理复杂编程模式。AI边缘推理;深度学习训练
边缘计算;电信基础设施;金融
消费电子领域;企业服务器、云
AI模型训练与推理;科学计算模交易系统
计算领域
拟;区块链与加密计算应用领域资料:乐晴智库,中信建投34全球云厂商相继布局ASIC芯片全球云厂商加速ASIC芯片自研,构建硬件+模型+云服务+应用的业务闭环。谷歌基于TPU、自研SOTA模型、云服务、AI应用的闭环,已成为全球头部CSP厂商的发展方向。海外阵营中,亚马逊Trainium2芯片将端到端推理成本大幅压降55%,Meta自研MTIA架构已在核心推荐系统中实现对GPU的大规模替换,微软Maia系列正加速数据中心导入。国内市场同样呈爆发态势,阿里平头哥推出的真武PPU配备96G高频内存,片间互联带宽达700GB/s,整体效能比肩国际一线旗舰算力卡;百度昆仑芯明确了千万量级卡集群的长期演进路线;字节跳动其自研SeedChip芯片正全速推进量产爬坡以构筑安全垫。云厂商集体转向标志着AI算力已升维至全栈基础设施生态竞赛。表:国内互联网厂商ASIC芯片布局情况公司主要布局阿里平头哥核心产品线包括倚天、含光、PPU,其中PPU为大算力芯片。1月29日官网上线的真武PPU内存96GHBM2e,片间互联带宽达到700
GB/s。业内人士透露真武PPU的整体性能超过A800,与H20相当;外媒报道称升级版“真武”PPU的性能强于英伟达A100。阿里巴巴2025年昆仑芯已实现单集群三万卡点亮,并发布了百度天池32超节点和64超节点,明年昆仑芯M100、百度天池256超节点、百度天池512超节点上市,2027年昆仑芯M300上市,2028年百度天池千卡级超节点上市,2029年昆仑芯N系列上市,2030年百度百舸百万卡昆仑芯单集群点亮。百度2020年启动芯片自研,分为AI芯片、CPU、VPU、DPU四大板块。路透社报道字节专注推理的AI芯片(SeedChip)计划在2026年3月底前获首批芯片样片,并计划在今年内生产至少10万颗自研AI芯片,并逐步将产量提升至35万颗,代工方或为三星。字节跳动资料:证券时报,芯东西,晚点LatePost,36kr,智能涌现,中信建投图:北美各家CSP厂商均在布局ASIC方案资料:智猩猩芯算,中信建投35T
o
ken用量指数上行趋势持续,自主Agent促进高性价比国产模型出海全球大模型应用Token调用量陡峭上行。过去的几年里,AI应用token消耗量加速上行,主要系模型底层架构的加速迭代拓宽了多模态处理与长文本能力边界,同时Agent工作流的普及使得单次指令转化为模型内数十次复杂循环调用。以谷歌为例,2024年4月谷歌月token消耗量仅9.7万亿,一年后的2025年4月即提升50x至480万亿,同年7月和10月更是分别达到980和1300万亿;
2025年12月,谷歌第一方模型在通过客户直接API调用部分,每分钟消耗量已突破100亿Token,折合月度总量高达4320万亿
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园林景观设计施工图深化与实施方案
- 虚拟电厂需求侧管理与电力负荷平衡方案
- 2026年雨水利用与城市水管理
- 2026年车床加工工艺与管理
- 卫生院信息化网络建设方案
- 报废汽车及废旧电池拆解回收再利用项目可行性研究报告
- 2026年自动化测试与业务流程的结合
- 2026浙江金华市第五医院(浙江医院金华分院)编外人员招聘4人备考题库(第二批)附答案详解(综合题)
- 2026广西梧州市龙圩区招(补)录城镇公益性岗位人员11人备考题库含答案详解(预热题)
- 2026年过程控制系统中的经济性分析
- 对外投资合作国别(地区)指南 -印度尼西亚-20230619-00348
- 《电力设备典型消防规程》考试复习题库(含答案)
- 英语人教新目标七年级下册My favorite animals
- JJF 1986-2022 差压式气密检漏仪校准规范
- JJF 2034-2023微生物鉴定与药敏分析系统校准规范
- 《公共政策学-政策分析的理论方法和技术》重点解析讲述
- python课件第三章基本数据类型:数字类型及math库的应用
- 2023年毛概题库连答案
- GB/T 14056.2-2011表面污染测定第2部分:氚表面污染
- CB/T 615-1995船底吸入格栅
- 资本经营课件
评论
0/150
提交评论