大模型后训练：中美路径与商业闭环

上传人：天*** IP属地：浙江上传时间：2025-12-04 格式：DOCX 页数：87 大小：3.09MB 积分：12 举报 版权申诉

已阅读5页，还剩82页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。科技华泰研究全球主流大模型集中于中美。据ArtificialAnalysis数据，美国头部模型厂商包括OpenAI、xAI、Anthropic与Google；国内DeepSeek、阿里、智谱、Kimi与MiniMax较为领先。由于国内高性能算力受限，在同样强化学习+后训练范式下，海外模型偏向规模扩展，而国内擅长架构优化。投资建议上，把握算力、存储、电力、应用四个方向，我们认为：1）大模型产业的基座是算力。2）随着多模态模型的普及，存储需求同步提升。3）电力是算力的配套，是大规模集群上线的前提之一。4）AI应用是商业化落地的关键。1）中美大模型差异并非技术强弱，而是算力结构决定路线：海外依托高密度集群深化后训练与推理扩展，国内在算力约束下以Attention优化、MoE稀疏化和长上下文重构追求单位算力效率，因此跑分不构成统一比较锚。2）AI应用落地并非遥远，OpenAI提出统一模型、Pulse主动Agent与ACP对话内结账已使应用从“能用”进入“可经营”，电商等高频闭环场景率先具备规模化条件。3）市场普遍低估数据标注的价值，ScaleAI、SurgeAI等高收入与高客单价显示标注是模型能力上限的关键投入；需求扩张叠加客户对独立供应链偏好提升，行业定价权仍在抬升。大模型能力演进呈预训练、后训练与推理全链路扩展范式。早期ScalingLaw聚焦预训练（参数/数据/算力同步放大2024年9月OpenAI发布o系列后，强化学习系统性并入后训练，推理端以思维链延长思考时间、生成更多token释放能力。海外以xAI为代表，依托约20万卡级集群，持续在推理端扩算力；国内在算力受限下更侧重架构与算法精修，Qwen、DeepSeek、Kimi等以注意力优化、稀疏化与MoE等提升训练推理效率与性价比。我们认为，两条路径将沿各自要素禀赋持续演进。OpenAI提出GPT-5统一模型后，后续的模型迭代更多属工程整合、价值再提效，研发重心上移至应用与变现。OpenAI以ACP（与Stripe）实现对话内购买，首批接入Shopify、Etsy，并与Salesforce、Walmart协作，打通“发现-支付”闭环。国内侧阿里Qwen以多模态与场景推动token上量；据云栖大会2025主题演讲，近2-3个月Token消耗倍增、百炼平台过去一年日均调用量增约15倍、FY26Q1云业务收入同比增速25.8%。我们认为，支付闭环叠加生态扩展将主导下一阶段商业化。1）算力：预/后训练迭代推高算力需求，OpenAI规划算力中心合计超36GW；据SCMP，出口限制后NVIDIA在华先进芯片份额95%→0，国产供给接棒。利好海外/国产算力链，如翱捷科技、沪电股份、芯原股份。2）存储：多模态/长视频抬升容量与带宽（图片1MB、音频5MB、视频≈50MB/分）。3）电力：美国新建大型数据中心并网申请到商运的中位时长继续增加，而矿场改造成本约500-800万美元/兆瓦、落地更快。4）应用：OpenAIACP实现对话内结账贯通“触达-体验-支付”；国内入口卡位者更易受益：2C领域，福昕软件、金山办公、奥多比有丰富的C端用户积累；2B领域，用友网络、泛微网络、鼎捷数智、虹软科技、微软有多样化的企业客户。风险提示：宏观经济波动，技术进步不及预期，中美竞争加剧。研报中涉及到未上市公司或未覆盖个股内容，均系对其客观公开信息的整理，并不代表本研究团队对该公司、该股票的推荐或覆盖。科技计算机研究员SACNo.S0570519080006xiechunsheng@SFCNo.BQZ938+(86)2129872036研究员SACNo.S0570524090001yuanzeshi@+(86)2128972228行业走势图科技计算机科技(%)47沪深300(%)4731(3)(19)Dec-24Apr-25Aug-25Nov-25资料来源：Wind，华泰研究重点推荐股票名称股票代码(当地币种)投资评级用友网络600588CH22.57买入鼎捷数智300378CH68.07买入奥多比(Adobe)ADBEUS474.87买入虹软科技688088CH73.47买入泛微网络603039CH75.60买入翱捷科技688220CH130.00买入芯原股份688521CH207.43买入微软MSFTUS648.00买入(Microsoft)福昕软件688095CH119.23买入金山办公688111CH380.80买入沪电股份002463CH84.40买入资料来源：华泰研究预测免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。与市场不同的观点 5#1：中美大模型走出了差异化的发展路线 5#2：AI应用的转折点或将到来 5#3：数据标注的重要性被低估 5投资建议 6中美两国持续引领大模型迭代 8Transformer架构依然主流，Diffusion值得关注 12ScalingLaw2.0下，中美模型迭代的差异化路径 14ScalingLaw2.0含义更加丰富，数据、算力持续攀升 14MoE之后，推理模型成为主流选择 14大模型训练数据量持续提升 15训练算力与训练成本保持快速增长 16模型性价比提升的趋势不变 17ScalingLaw2.0下，中美模型迭代的差异化路径 18海外：xAI持续践行“大力出奇迹”，紧抓后训练和强化学习 18国内：阿里、DeepSeek创新性架构优化，抓住Attention本质 20推理/非推理模型统一后，模型应用转折点或将到来 24GPT-5确立了行业内模型“统一系统”的方向 24头部厂商重心开始向应用和商业化生态转移 25模型Agent能力：海外注重基模，国内偏向应用 32海外：旗舰模型执行复杂任务的时长持续Scaling 32国内：智谱AutoGLM应用开始占领用户心智 33多模态领域国内领先，Sora2有望再次引发热潮 35国内模型厂商在多模态生成领域全球领先 35Sora2和相应社交App的发布，掀起多模态+社交的热潮 37标注/合成数据都是后训练时代重要的数据来源 39海外：专业化的数据标注公司是海外大厂首选 39国内：DeepSeek、Kimi在最新的模型中均系统性使用了合成数据 43投资建议 44算力 44存储 45 46应用 49风险提示 53免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。图表1：推荐标的与产业链标的一览 7图表2：全球主流大模型智能性概览：中美大模型之争 8图表3：全球大模型主要玩家的能力矩阵 9图表4：Google2025年以来的模型更新情况 10图表5：Gemini3在多项测评集领先图表6：当前全球大模型仍以Transformer的decoder-only架构为核心主流 12图表7：GoogleGeminiDiffusion 13图表8：字节SeedDiffusionPreview 13图表9：字节SeedDiffusionPreview性能超过GoogleGeminiDiffusion 13图表10：OpenAIo系列模型带来ScalingLaw2.0 14图表11：ScalingLaw的三层递进 14图表12：主流头部模型几乎全部是推理模型 15图表13：MoE（混合专家架构）是头部模型主要采用的技术架构 15图表14：大模型训练数据量从15Ttokens提升到30T以上 15图表15：前沿人工智能模型的训练计算量大约每六个月翻一番 16图表16：前沿AI模型训练的摊销硬件和能源成本随时间变化 17图表17：大模型API调用价格持续下降趋势不变 17图表18：Grok模型的演进对应了ScalingLaw的1.0到2.0阶段 18图表19：xAI训练团队在X平台指出Grok-4.1后训练算力有数量级的提升 19图表20：OpenAI的算力扩张之路 20图表21：Qwen3-Next通过Attention优化提升长文本与大参数效率 21图表22：DeepSeek-V3.2-Exp相比V3.1-Terminus在不同长度位置Token的推理成本显著降低 22图表23：DeepSeek-V3.2-ExpNSA注意力架构 22图表24：KimiK2vsDeepSeek-V3：架构变化 23图表25：GPT-5统一系统架构 24图表26：Grok4Fast在保持高性能的前提下输出更少的token 25图表27：ChatGPT周活用户变化 26图表28：OpenAIPulse的使用情境#1 26图表29：OpenAIPulse的使用情境#2 26图表30：Agent商业协议（ACP）为ChatGPT提供即时结账功能 27图表31：OpenAI2025开发者大会展示的开发者生态进展（2023vs2025） 28图表32：OpenAI2025开发者大会展示的ChatGPT与外部Zillow应用集成 28图表33：OpenAI打造的软硬件朋友圈将持续丰富 29图表34：OpenAI收入预测变化情况 29图表35：阿里Qwen系列2025年以来的模型更新情况 30图表36：主要云厂商收入云业务收入增速对比 31图表37：不同大型语言模型能够50%概率完成软件工程任务的时间跨度 32图表38：GenSpark使用Claude模型构建智能体 33图表39：Manus支持OpenAI的API 33图表40：AutoGLM2.0自动操作云端手机 34免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。图表41：AutoGLM2.0自动操作云端电脑 34图表42：腾讯混元系列2025年以来的模型更新情况 35图表43：文生图像排行榜-ArtificialAnalysis 36图表44：文生图像排行榜-LMArena 36图表45：文生视频排行榜 37图表46：图生视频排行榜 37图表47：文字转语音排行榜 37图表48：SoraApp发布后迅速登上ios美国区免费第一 38图表49：Sora主页的网站访问量随着Sora2发布而提升 38图表50：海外数据标注初创公司对比：ScaleAI、SurgeAI、Mercor 40图表51：KimiK2的大规模Agent数据合成流程 43图表52：算力推荐标的与产业链标的 45图表53：多模态AI带来存储需求数量级的提升 46图表54：存储产业链标的 46图表55：海外大厂与SMR厂商签订了相关协议或PPA 47图表56：矿场改造数据中心相关产业链标的及简况 48图表57：电力产业链标的 49图表58：应用推荐标的与产业链标的 50图表59：重点公司推荐一览表 50图表60：重点推荐公司最新观点 51免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。我们认为，市场以模型跑分来衡量国内外大模型技术孰优孰劣，是对国内算力供给约束的误读。海外依托高密度算力把后训练与强化学习做大做深，更易拔高长尾任务基准分；国内面临算力供给不足，并非技术不行，而是主动转向差异化路线：以Attention本质优化、MoE稀疏化、长上下文工程重构，追求单位算力的有效产出。因此，跑分并不构成统一锚；决定路径的变量是算力结构而非研究能力，分化由此形成并将延续。海外路径正将算力重心移向后训练与推理，国内路径在算力约束下押注架构与算法精修。xAI以ScalingLaw2.0为纲，围绕后训练+强化学习+算力扩张迭代Grok。而在算力供给差距下，国内头部厂商聚焦Attention本质优化与MoE稀疏化以换取训练推理效率：Qwen3-Next在Transformer+MoE框架内引入“75%线性注意力+25%传统注意力”的混合注意力机制，显著提高长上下文与大参数场景的效率。DeepSeekV3.2以DSA(动态稀疏注意力)重构算子与内核，API输入/输出成本相比上一代模型约-50%/-75%。市场多认为AI应用大规模落地仍远；我们认为时间点正在接近，电商等高频垂类具备先行条件。OpenAI为代表的头部厂商研发重心由底层能力转向应用与商业化：统一模型提供一致能力底座，Pulse把模型从被动问答推进为主动智能体，ACP对话内结账打通“推荐-下单-履约”，叠加AppsSDK与MCP的标准化接入与分发，以及与Shopify、Etsy等合作扩展生态，“对话即入口、即时结账”的工程与流量前提已具备。商业化抓手成形、需求侧启动。OpenAIPulse引入异步推理，使Agent在用户离线时持续分析与生成，算力需求由“交互次数”转向“在线Agent数量”。在2025年10月OpenAI开发者大会上，官方把ACP对话内即时结账确认为生态核心，AppsSDK与MCP提供接入、控制与富交互能力；其后宣布与Salesforce、Walmart合作扩展生态。据TheInformation数据，OpenAI2030年营收预期上调至约2,000亿美元，结构从订阅/API拓展至Agent与新产品。国内侧，阿里Qwen推进多模态与2B落地；据云栖大会2025主题演讲，百炼平台模型日均调用量一年增约15倍，阿里云FY26Q1云业务收入增速25.8%。我们认为，“统一模型+Pulse+ACP”已将应用从“能用”推进到“可经营”，电商垂类具备流量、闭环与支付三要素，转折点正在逼近。市场低估标注价值，海外龙头营收与客单价已给出明确反证与强力证据。市场认为“数据Digital数据，ScaleAI收入由2022年2.5亿美元升至2023年7.6亿美元、2024年8.7亿美元；据路透社信息，SurgeAI在2024年营收超过10亿美元并实现盈利，单笔合同与客单价多在八位数至九位数美元区间；据TechCrunch信息与Forbes数据、Sacra数据，2025年9月，Mercor年化收入快速逼近4.5亿美元，2025年上半年录得净利润约600万美元。高收入与高客单价共同说明标注价值被系统性低估。需求扩张叠加供给演变，行业空间与议价能力同步抬升。据MordorIntelligence数据，全球AI数据标注市场规模预计自2025年约19亿美元增至2030年近55亿美元，年复合增长率超过20%。驱动来自更高LLM性能需求、基于LLM的Agent数据、机器人与自动驾驶感知数据、以及医疗保健与金融科技等垂直场景。供给侧出现结构变化：客户对数据隔离与供应链独立性的偏好增强。2025年6月，Meta以战略入股方式取得ScaleAI49%股权后，部分大型实验室为降低信息外泄风险倾向选择与大型互联网公司股权关系更疏的独立标注方，SurgeAI承接相关迁移并实现业务跃升。我们认为，高质量标注决定模型能力上限与商业化效率，在需求与结构性变化共同作用下，行业渗透率与定价权仍有提升空间。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。算力投资主线延续，训练与推理共振抬升需求。据OpenAI现在的算力规划，截至25年10月，成体系大型算力中心已超30GW，奠定大模型容量基础；头部厂商在预训练与后训练持续迭代，训练端扩容保持韧性，硬件投入与软件优化围绕版本与架构升级推进。Google在多国扩展AIOverview、AIMode，25年10月AIMode引入36种新语言/40多个新国家和地区，覆盖逾200个国家和地区；OpenAI在2025年开发者大会宣布打造应用生态，周活用户达8亿（图表29）。随用户与场景扩大，推理端对吞吐与响应要求提升，算力需求走强。我们认为，推理侧边际增量更为突出，对上游提出更高并发与更低时延的配置要求。国产算力接棒推进，供给体系趋于多元稳健。据SouthChinaMorningPost于2025年10月信息，黄仁勋指出受美国出口限制影响，NVIDIA不被允许向中国大陆公司出售先进产品，其在中国先进芯片市场份额由95%降至0。叠加国内互联网厂商采购国产化趋势增强，外采第三方与自研并行，有助缩短迭代、优化成本并强化自主可控，带动本土生态协同升级。我们认为，并行策略将提升国产芯片规模化落地效率与韧性。2）存储AI存储需兼顾容量、吞吐与可靠性。训练侧重稳定写入与快速恢复检查点，推理侧重高效查询与即时响应，对系统扩展性与可用性提出更高门槛。硬盘用于保留模型产出、检查点与查询数据；SSD与内存承担高并发低时延通路。随模型参数与能力扩张，训练对数据规模、丰富度与标注质量要求提升，多模态样本需持续汇聚与留存，催生原始与清洗多副本管理与分层留存。我们认为，大容量HDD与高性能SSD协同、以容量扩充与分层优化为主，将与算力投入并行成为中长期建设重点。视频多模态推理驱动容量与带宽上行。多模态成熟后，线上推理对素材、缓存与生成成品留存扩大，并发访问与调用频率提升。据希捷科技数据：单图约1MB、音频约5MB、视频按分钟计约50MB；随生成视频分辨率与时长上行，单体内容容量继续抬升。SoraApp等应用病毒式传播提升创作者渗透率与产量，视频生成分发依托边缘低时延内存与SSD快速检索与回源，推动本地缓存与中心存储协同调度与分层管理细化。我们认为，推理端需前瞻规划容量与带宽冗余，边缘存储与SSD加速将获增量。电力约束抬升算力门槛，能源成为AI时代稀缺要素。AI训练与推理持续推高用电负荷，据彭博新能源财经（BNEF）预测，至2035年美国数据中心电力需求将由2024年的近35吉瓦增至78吉瓦，平均每小时用电由16吉瓦时升至49吉瓦时。AI与能源已“合二为一”，有效算力的度量正转向以吉瓦为单位的供电能力。我们认为，能获得稳定低价电力者，将在算力竞争中占据结构性优势。核能被视为稳定低碳的中长期解法，海外头部云厂商等已签订多个电力购买协议（PPA）。美国电网当前面临需求激增与多年投资滞后叠加，SMR（小型模块化反应堆）有望成为新增负荷的重要抓手。海外头部厂商，包括微软、Gogole、亚马逊、Meta均与SMR厂商签订了相关协议或PPA。AI应用是后续AI商业化落地的核心战场与抓手。在OpenAI加速扩展数据中心的同时，2025年9月OpenAI与Stripe合作推出ACP支付协议，打通ChatGPT内的即时支付功能，形成商业化变现闭环。首批接入ChatGPT应用生态的厂商包括Etsy、Shopify两家电商，以及Figma、Zillow、Expedia、Instacart、Salesforce、Spotify、Duolingo等各垂类应用。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。国内入口卡位稀缺、覆盖较多2B/2C客户的标的更易受益于AI应用商业化浪潮。面向国内AI应用标的，我们延续“生态优先”的判断框架：以平台级入口为抓手、具备服务企业（2B）或消费者（2C）的用户结构，并能与模型、支付与分发渠道形成闭环者，更有望在应用商业化范式变化中率先兑现。此类公司通常兼具稳定的终端触达与企业服务能力，能通过API、插件或原生场景快速嵌入，放大用户黏性与付费转化。我们认为，入口卡位、用户结构齐备与生态协同将构成筛选受益标的的关键标准。最新收盘价市值(百万)最新收盘价市值(百万)股票名称股票代码(当地币种)(当地币种)股票名称股票代码(当地币种)(当地币种)算力存储沪电股份002463CH72.09138,727兆易创新603986CH212.82135,573翱捷科技688220CH92.1838,559德明利001309CH214.1249,892芯原股份688521CH153.3580,640佰维存储688525CH112.250,895工业富联601138CH59.811,205,789SNDKUS223.2831,515胜宏科技300476CH268.82235,604西部数据WDCUS163.3353,931生益电子688183CH98.0276,977希捷科技STXUS276.6958,148源杰科技688498CH535.146,318灿芯股份688691CH112.4514,304应用NVIDIANVDAUS4,380,318奥多比(Adobe)ADBEUS320.13134,006AMDAMDUS217.53348,792金山办公688111CH317.08146,865GoogleGOOGLUS320.183,864,036福昕软件688095CH95.688,741OracleORCLUS201.95584,298多邻国DUOLUS191.418,711CoreWaveCRWVUS73.1237,020REDDITRDDTUS216.4739,332NebiusNBISUS94.8722,547三六零合合信息601360CH688615CH13.26210.9995,33428,993万兴科技300624CH75.6614,618IRISENERGYIRENUS47.8113,734微软(Microsoft)MSFTUS492.013,656,804APPLIEDDIGITALAPLDUS27.16,975泛微网络603039CH53.4013,916TERAWULFWULFUS15.516,213鼎捷数智300378CH43.6611,856CIPHERMININGCIFRUS20.357,566用友网络600588CH14.2248,590CLEANSPARKCLSKUS15.13,438虹软科技688088CH50.7020,339CORESCIENTIFICCORZUS16.895,017赛富时CRMUS230.54218,111RIOTPLATFORMSRIOTUS16.135,562DATADOGDDOGUS160.0155,546HUT8HUTUS454,578汉得信息300170CH19.819,343MARAMARAUS11.814,202赛意信息300687CH23.319,451GALAXYDIGITALGLXYUS26.5910,250卓易信息688258CH71.888,207HIVEDIGITALTECHNOLOGIESHIVEUS3.36530SNOWFLAKESNOWUS251.2484,246比特小鹿BTDRUS13.412,945MONGODB星环科技-U普元信息海天瑞声MDBUS688031CH688118CH688787CH332.3765.7226.36114.6926,5447,9362,5056,814注：截至2025年12月1日。资料来源：Wind、VisibleAlpha、华泰研究预测免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。全球主流大模型集中于中美，两国头部厂商或长期占据主导优势。基于ArtificialAnalysis的数据与模型智能指标观察，当前头部模型整体由美国阵营领跑，海外最具代表性者为OpenAI、xAI、Anthropic与Google；曾在开源方向表现突出的Meta，受Llama4系列推进不顺等因素影响，模型性能阶段性落后。国内方面，从模型性能维度评估，DeepSeek、Qwen（阿里系）、智谱模型位居前列，Kimi与MiniMax等亦处于国内较为领先的行列。腾讯、百度的模型没有被纳入排行榜单，但其模型依然各有特色。我们认为，上述格局反映了中美在基础模型与工程化推进上的综合优势。客观看待大模型幻觉与排行榜结果。OpenAI论文《WhyLanguageModelsHallucinate》指出，模型幻觉源于训练与评估目标错位，反映当前“刷分”现象背后的机制。论文显示，现有训练体系往往奖励模型在不确定时仍作出回答，而非承认“不知道”，导致模型更倾向“猜测”而非求真。幻觉因此并非偶发性错误，而是统计学习以语言分布为目标的自然产物，与事实正确性并不等价。要减少幻觉，需要在评估机制上转向激励模型表达不确定性、惩罚误导性回答，而非单纯追求更高得分率。我们认为，这一机制偏差解释了部分模型评测得分高但实际体验不佳的原因，反映了模型能力与真实可用性间的结构性落差。不过，当前阶段，大模型排行榜依然是直观对比不同模型性能的较好选择。注：ArtificialAnalysisIntelligenceIndexv3.0包含10种评估：MMLU-Pro、GPQADiamond、Humanity'sLastExam、LiveCodeBench、SciCode、AIME2025、IFBench、AA-MCR、Terminal-BenchHard、τ2-BenchTelecom。截至25年11月资料来源：ArtificialAnalysis、华泰研究Google当前拥有较为全面的全栈模型软硬件能力，其他玩家强化补短。据ArtificialAnalysis数据，以四维能力矩阵系统评估全球大模型主要竞争者的能力与定位现状，框架涵盖最底层的硬件支撑、其上的云服务能力、进一步的技术模型能力以及面向终端的顶层应用四个维度。从现阶段表现看，Google在上述各维度的能力布局相对均衡且覆盖面广，体现为底层自研硬件（TPU系列）到应用的端到端一体化优势。相对而言，其他玩家也在逐步补齐短板，如OpenAI在底层定制化硬件方面暂处于落后位置，但是据路透社信息，OpenAI已宣布与博通合作开发新一代ASIC芯片，以期强化算力与成本控制的基础能力；国内DeepSeekV3.1及之后系列、智谱GLM4.6在Day0即适配了国产芯片。我们认为，当前大模型玩家格局呈现“Google更全面、其他厂商强化补短”的阶段性特征。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。资料来源：ArtificialAnalysis、华泰研究Google在多模态模型领域的综合实力突出，技术积累构筑长期竞争壁垒，实现多点开花。对比海外主要厂商，OpenAI以文本生成和图片生成为核心，并拓展至实时语音及视频生成（Sora系列但产品迭代节奏相对分散，如Sora于24年2月发布，直到12月才上线，25年10月更新Sora2；Anthropic聚焦纯文本及部分视觉理解，多模态生成能力有限；xAI同样以文本生成为主，尚未正式发布视频生成模型。相比之下，Google依托多模态融合及跨领域研究的深厚储备，具备系统化的模型开发与算力调度能力，图像（GeminiImage系列）、视频(Veo系列）、机器人（PaLM-E、GeminiRobotics系列）多点开花。我们认为，Google的多模态布局覆盖面广，技术底座稳健，为后续模型代际跃迁奠定基础。Gemini3作为Google多代技术积累的集中释放，验证预训练与后训练仍具显著提升空间。回顾迭代节奏，Gemini1以原生多模态与长上下文能力扩大模型可处理的信息类型与规模；Gemini2进一步奠定面向复杂任务的Agent能力框架，带来更高质量的推理与任务分解。在此前提下，Gemini3实现多模态理解、Agent能力与Coding能力的全面释放，构成更成熟的能力体系。据Google官网信息，Gemini团队在预训练阶段取得阶段性跃升，未呈现外界担忧的规模化受限迹象。与此同时，包括强化学习在内的后训练仍具进步和改进空间。两条路径共同塑造了Gemini3的综合性能进展。Gemini3Pro在多模态理解和生产力应用场景表现突出，其中Vending-Bench2基准显示，其在长时序运营模拟中能够保持稳定的工具调用与决策节奏，实现更高回报且未偏离任务目标。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。模型发布日期模型路线特点是否开源Gemini2.0FlashThinking2025.02强化学习CoT模型，当时的性能强于o1否Gemini2.0Flash-Lite2025.02否Gemma32025.03与Gemini相同开源小模型，支持端侧是GeminiRobotics2025.03VLA（Vision-Language-Action）面向多步任务；“边思考边行动”与自然语言解释；从ALOHA-2到Franka再到ApptronikApollo的跨机体迁移否Gemini2.5Pro2025.03与Gemini相同在LMArena排行榜（衡量人类偏好）上遥遥领先，表明该模型具有出色的性能和高品质的风格。2.5Pro还表现出强大的推理和编码能力，在常见的编码、数学和科学基准测试中处于领先地位。否Gemini2.5Flash预览版2025.04与Gemini相同，是混合推理模型Google首个完全混合推理模型，让开发者能够开启或关闭“思考”。该模型还允许开发者设定“思考预算”。5月21日的I/O大会上，发布了2.5Flash更新版否Gemini2.5Pro2025.05与Gemini相同，是混合推理模型预览了实时语音输出功能。支持推理成本控制，即控制思考时间来控制成本。推出DeepThink功能否GeminiDiffusion2025.05Diffusion主流大厂第一次用Diffusion做文本生成，输出速度远快于Transformer架构。值得持续关注。否Veo32025.05内置音效/对白生成、更强的一致性与控制；模型页标注4K输出、现实物理、更强提示对齐否GeminiRoboticsOn-Device2025.06本地部署优化的VLA通用灵巧操控（如开拉链、叠衣等）、任务泛化与低时延推理；面向双臂平台起步否Gemini2.5Pro/Flash稳定版2025.06MoE，原生多模态Gemini2.5设计成一个混合推理模型系列。将2.5Pro和Flash模型发布为稳定版和正式版否Gemini2.5Flash-Lite预览版2025.06MoE，原生多模态Gemini2.5设计成一个混合推理模型系列，2.5Flash-Lite预览版——这是我们迄今为止最具成本效益和速度最快的2.5模型。否Gemma3n2025.06MatFormer（套娃式Transformer）设备端人工智能的重大进步，将强大的多模态能力带到边缘设备是Genie32025.08自回归视频世界模型可实时交互、数分钟级一致性；支持在生成世界里设定目标并用SIMA等智能体验证；强调物理与环境一致性否Gemma3270M2025.08Transformer紧凑模型，从零开始设计用于任务特定的微调，且已在训练中具备了强大的遵循指令和文本结构化能力。关键优势是其低功耗是Gemini2.5FlashImage(banana)2025.08NA先进的图像生成和编辑模型否GeminiRobotics1.52025.09升级版VLA更强多步任务与跨机体学习，可与工具调用（如Search或自定义函数）联动完成复杂链路。否GeminiRobotics-ER1.52025.09EmbodiedReasoning，具身推理。不直接控肢体，负责空间理解/规划/决策与工具调用，向VLA下达高层指令理解环境-制定计划-估计进度与成功率；可原生调用工具，支撑长链路任务；与VLA协同提升泛化否Gemini2.5Flash/LiteGemini3Pro2025.092025.11NANA更新版本，有更好的指令遵循能力，更简洁的输出和更强大的多模态和翻译能力，更好的智能体工具使用。Gemini3Pro的亮点：1）多模态理解能力。目前视频生成还没有和LLM有机统一，但是多模态理解已经成为Gemini的强项。2）生产力落地能力（也是Agent能力）。Gemini3Pro在整个模拟的一年运营中保持了一致的工具使用和决策制定，推动了更高的回报而不偏离任务。否否资料来源：Google官网、华泰研究资料来源：Google官网、华泰研究Google前期在模型发布节奏上较慢，主要源于大型企业内部的结构特征，目前阵痛期已过。过去两年，Google模型迭代速度不及OpenAI（2024年9月员工3000人以上）/Anthropic（2025年5月员工1300人左右）等初创公司，原因在于其公司人员规模大（截至25Q3共有190,167名员工）、内部多条业务线并行、决策链条较长，导致产品落地周期相对延后。然而，这种节奏背后体现出研发体系的系统化与安全审慎。一旦内部多项目成果集中兑现，往往能形成“多点开花”的局面，带来技术与产品层面的显著突破。我们认为，Google在大模型迭代上的滞后并非能力不足，而是战略稳健与组织复杂性使然，后续一旦节奏提速，其潜在创新爆发力值得关注。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。当前全球大模型仍以Transformer的decoder-only架构为核心主流。尽管近年来陆续出现如Mamba、KAN等新型网络结构，但尚未在工程实践中形成主导地位，Transformer体系依旧占据核心位置。我们认为，在可预见阶段内，Transformer仍将是大模型研发与优化的基础框架，其生态与工具链优势将继续巩固主导地位。资料来源：《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》，Yang（2023）、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。我们认为，未来仍可能出现替代Transformer的新型架构。尽管Transformer自2017年提出以来已成为主导范式，但其真正获得全球关注与验证是在2023年底ChatGPT问世之后。回顾这一历程可以发现，技术范式的更替往往具有滞后性，新的架构或已在研究阶段出现，只是尚未进入广泛应用周期。我们认为，随着模型规模、算力利用和推理方式的进一步演进，未来在特定时间点上，或将出现性能与效率兼备、并能超越Transformer的新一代主流架构。Diffusion架构正被重新审视，其在生成领域的应用边界正逐步扩展到文本领域。Diffusion架构本身并非全新技术，主要用于图像与视频生成。2024年初Sora的发布，展现了Diffusion与Transformer结合的潜力，显著提升了视频生成的一致性、分辨率及时长表现。25年5月，Google首次尝试将Diffusion算法用于文本生成，发布GeminiDiffusion预览版，字节随后也推出SeedDiffusion以跟进相关方向。Diffusion的优势在于Token生成速度快（字节SeedDiffusion专门用于代码生成，其推理速度达到2,146token/s，比同等规模的自回归模型快5.4倍且生成后可进行精细化修改，而Transformer基于NextTokenPrediction的生成方式则缺乏这种可回溯调整能力。我们认为，尽管Diffusion能否取代Transformer成为主流尚待验证，但其在头部厂商中的探索已具前瞻意义，值得持续关注。资料来源：Google官网、华泰研究资料来源：字节官网、华泰研究资料来源：字节官微、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。“ScalingLaw”作为Transformer体系的核心逻辑，正从单一阶段演进至多阶段范式。早期的ScalingLaw主要聚焦于预训练阶段，通过扩大模型参数、数据规模、算力规模实现性能提升，可称为1.0阶段；而自2024年9月OpenAI发布o系列模型以来，强化学习被系统性引入后训练流程，标志着ScalingLaw进入2.0阶段，即在后训练环节继续扩大算力与数据投入，使模型在强化学习中形成可扩展的能力增益。进一步地，在推理阶段，模型通过思维链（ChainofThought）方式开展推理，用户可在实际使用中使用更多算力以延长思考时间、生成更多token，在推理中充分释放已习得的强化学习能力。我们认为，这种从预训练到后训练再到推理端的全链路扩展逻辑，构成了当前大模型性能演进的主线框架，也是2025年黄仁勋在GTC大会上所强调的关键趋势。资料来源：OpenAI官网、华泰研究资料来源：GTC2025、华泰研究MoE之后，推理模型成为主流选择头部大模型整体呈现推理强化与MoE并行的双特征趋势。具体看，在混合专家（MoE）架构，便于沿参数规模规律扩展（ScalingLaw）潜力，同时推理时按路由仅激活部分专家，降低单位开销，兼顾效率与性价比，由此成为头部模型实践的优先选项。2024年下半年，随着OpenAI的o系列“推理模型”在预训练后引入强化学习等后训练以纠偏优化，推理阶段进一步给予更高算力与更长思考时间，以换取复杂任务上的性能改进。我们认为，推理阶段的资源调度与MoE的扩展效率将继续支撑性能提升。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。注：紫色为推理模型，蓝色为非推理模型。截至25年11月资料来源：ArtificialAnalysis、华泰研究注：蓝色代表MoE架构，黑色代表稠密架构。坐标轴纵轴为模型智能程度，越大越好。截至25年11月资料来源：ArtificialAnalysis、华泰研究大模型训练数据量持续提升训练数据Token规模持续走高。据ArtificialAnalysis统计，典型开源模型的训练数据常见在10-15万亿tokens，被视为可免费获取并高质量清洗后的网络数据量级。头部厂商通过新增标注与合成数据等方法持续扩容训练数据tokens，新近模型的训练tokens继续上行：例如阿里Qwen系列由18万亿（24年9月Qwen2.5）提升至36万亿（25年4月Qwen3Meta在训练Llama4Scout时引入部分社交数据，使总体训练数据约达40万亿。我们认为，随“垂类”数据与新标注数据的不断累积，训练tokens仍将增加，且从模型泛化性和性能表现来看，OpenAI、Google等头部模型的训练规模或高于公开口径。资料来源：ArtificialAnalysis、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。训练算力与训练成本保持快速增长从全球前沿模型的训练趋势来看，算力投入的增长仍是推动大模型性能演进的核心动力。根据EpochAI在《TrainingComputeofFrontierAIModelsGrowsby4-5xperYear》中的测算，2010年至2024年间，具代表性的前沿模型训练所需算力的年均增长倍数约为4-5倍。这一趋势在主要科技企业的旗舰模型中表现一致，显示出业界对算力扩展的持续依赖。值得注意的是，最头部的语言模型的增长趋势更快，在2017年6月至2024年5月期间，其增长速度高达每年9倍。从2025年发布的新前沿模型来看，仍然没有放缓。总体判断，在当前阶段，算力仍是大模型能力演进的底层约束与增长引擎，其年均4-5倍的扩张速度构成了行业发展的核心节奏。资料来源：EpochAI、华泰研究从训练成本趋势来看，前沿模型的资金投入正快速攀升。根据EpochAI的研究《HowMuchDoesItCosttoTrainFrontierAIModels》，2016-2024年中具有代表性的前沿模型训练成本年均增长约2.4倍（区间为2.0-3.1倍若按云端算力租用价格计算，增速约为2.6倍。当前训练成本结构中，AI加速器硬件与研发人力支出占比最高，分别约为47-67%与29-49%。若这一增长趋势延续，预计至2027年前沿模型的单次完整训练成本或将达到十亿美元量级。我们认为，训练成本的持续攀升将进一步抬高进入壁垒，强化头部厂商的领先优势，同时促使行业在硬件能效、算法效率及架构创新方向加速突破，以在性能与成本间寻求平衡。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。资料来源：EpochAI、华泰研究模型性价比提升的趋势不变大模型API价格延续下降，但未发生“智能性-价格”倒挂现象。当前看，各家在新模型发布后通常同步下调API费用，整体价格呈持续下行态势；从“智能性-价格”关系看，智能性更强的模型定价仍更高，尚未出现高智能却更低价的倒挂情形。我们认为，随着模型效率迭代与供给增加，价格下行趋势仍将持续。注：截至25年9月。不同颜色线代表不同智能程度的模型资料来源：ArtificialAnalysis、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。海外：xAI持续践行“大力出奇迹”，紧抓后训练和强化学习ScalingLaw2.0以“后训练+强化学习”为核心路径，Grok迭代验证该方向。围绕xAI的发布节奏可见ScalingLaw侧重的迁移：ScalingLaw1.0阶段，对应xAI自Grok2到Grok3的迭代，主要通过将预训练算力扩大约10倍带来性能跃升；Grok3的推理模型标志着Grok模型进入后训练阶段；至Grok4发布，其后训练（Reasoning）相较Grok3再度将算力放大约10倍，使得后训练算力需求接近预训练。从目前头部模型迭代进度看，后训练的算力需求还有可能继续增加。据xAI官网，Grok4依托20万卡级别的Colossus大规模集群进行训练，因此，持续扩大后训练的模式与海外更高密度算力核集群禀赋相匹配。我们认为，ScalingLaw2.0体现出算力重心由预训练向后训练与推理环节迁移，并对高密度集群供给提出更高要求。Grok4.1在强化学习奖励范式上引入Agent模型奖励，并继续在后训练算力上有数量级提升。Grok4.1延续“预训练+强化学习”的总体路径，但在后训练环节进行了关键范式调整。据xAI官网信息，本次迭代沿用了Grok4的大规模强化学习基础设施，并针对强化学习中不可直接验证的奖励信号进行了优化，采用具备Agent推理能力的模型作为奖励模型，使系统能够实现自动化评估与响应迭代。Grok4.1在偏好度测试中达到64.78%，呈现出更符合用户交互偏好的输出特征。xAI训练团队在X平台亦指出，其后训练强化学习规模相较Grok4扩大了一个数量级，结合更强推理能力的奖励模型，使模型在真实对话偏好学习、自主评分与反馈循环中持续改进。资料来源：xAI官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。资料来源：X平台官网、华泰研究OpenAI在后训练Scaling领域或也进入重投入阶段。尽管OpenAI未公开其在后训练阶段的具体Scaling进展，但从“Stargate（星际之门）”项目的规划细节与算力布局来看，其在后训练方向的资源投入已具备显著规模。Stargate项目的算力规划高度完善，体现出OpenAI对后训练阶段的重视程度，以及为实现ScalingLaw2.0提出的“后训练-强化学习”体系所需的基础设施支撑。我们认为，作为后训练ScalingLaw2.0理念的提出者，OpenAI当前的研发重点同样正在从模型规模扩展转向后训练与推理环节的算力优化与结构化部署，进入了重投入阶段。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。资料来源：OpenAI官网、CNBC、华泰研究国内：阿里、DeepSeek创新性架构优化，抓住Attention本质国内算力受限背景下，模型迭代更依赖架构层创新。相较于海外依托NVIDIA最新GPU构建10万至20万卡级超大集群的条件，国内在算力基础设施上仍存在差距。在此约束下，基础模型的发展更需通过架构优化提升效率。从当前技术演进看，Transformer架构在中短期内仍将是主流，其核心算法Attention机制（通过计算Tokens间相关性以预测最优输出构成了模型性能的关键环节。因此，国内头部厂商普遍聚焦于Attention层面的优化与创新，其中以阿里的Qwen系列与DeepSeek的模型为典型代表。我们认为，在算力约束难以短期突破的情况下，架构创新与算法精炼将成为国内基础模型竞争的主要方向。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。Qwen3-Next延续Scaling大方向，通过Attention优化提升长文本与大参数效率。阿里为进一步增强模型在长上下文与大规模参数条件下的训练及推理效率，其Qwen3-Next在保持Transformer与MoE总体框架不变的前提下，主要改进了：1）引入“75%线性注意力+25%传统注意力”的混合机制，在兼顾长文本效率与记忆精度间取得平衡；2）显著提升稀疏化程度，80B总参数仅激活约3B，激活率约3.7%，推理效率明显改善；3）扩大MoE专家数量至512个，为前代的两倍；4）采用多Token预测机制，提高训练与推理并行度。我们认为，Qwen3-Next的创新体现出在Scaling框架下通过细粒度结构优化实现性能与成本的再平衡，这类“细节创新”或将成为后续国内大模型迭代的主要演进路径。资料来源：Qwen官网、华泰研究DeepSeekV3.2引入DynamicSparseAttention，训推效率再次有了大幅提升。DeepSeekV3.2-Exp在性能上与上一版V3.1-Terminus差距不大，并将V3.2定位为“迈向新一代架构”的中间步骤。V3.2最大的进步体现在DSA（DynamicSparseAttention）的引入，模型训练与推理效率显著提升，相比上一代模型API输入与输出成本分别下降约50%与75%以上（推理成本）。DSA的核心优化集中在Attention机制层，通过算子级与内核级的工程化重构，在长上下文任务中显著压缩训练与推理开销，同时尽量保持模型性能稳定，延续了以架构精修换取综合效率提升的技术路线。我们认为，该版本体现出在算力约束下的务实取舍，既为后续架构演进奠定技术基础，也展示出国产模型在底层优化方面的持续积累。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。资料来源：DeepSeek官网、华泰研究DSA实现长上下文推理的高效稀疏化。V3.2-Exp在原V3.1架构基础上新增的结构改动为DSA，旨在显著提升长上下文的训练与推理效率。其基本思路是采用“先粗筛、后精算”的双阶段注意力机制：通过一个轻量索引器（Indexer）先对历史tokens进行快速筛选，选出最可能相关的Top-k候选，再由主注意力模块进行精细计算，从而将复杂度由O(L2)降至O(Lk)（k≪L文本越长节省越显著。索引器虽维持O(L2)复杂度，但因采用更少注意力头、轻量化FP8计算及优化实现，使端到端推理显著加速。我们认为，DSA标志着国内Attention机制从全密集计算向动态稀疏推理的转折，是长上下文方向的重要突破。资料来源：DeepSeek官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。KimiK2模型在整体架构上延续DeepSeekV3框架，并引入了针对性架构优化。K2主要改进包括：1）验证在激活参数不变的条件下，单纯提升MoE总参数量依然符合Scaling规律，训练与验证loss持续下降且无过拟合迹象；2）适度减少Attentionhead数量，在保持性能稳定的同时显著降低算力开销；3）仅保留首层dense层，其余全部采用MoE结构，以改善首层router负载不均并提升专家利用效率；4）引入无分组的简化router，优化计算路径与参数调度；5）将模型参数从V3的671B提升到1T；6）引入MuonClip优化器，显著提升训练稳定性与收敛一致性。得益于上述改进，K2在维持与DeepSeekv3相当的训练与推理成本下，实现了更低loss与更高参数效率。我们认为，K2的路径体现了国内团队在算力约束下通过结构精修延展Scaling规律、提升模型性价比的工程化思路。注：其中粗线方框为架构上显著改变的部分资料来源：Kimi官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。GPT-5以统一架构实现快思与深思的自适应协同，并以路由器按任务动态分配资源。具体而言，体系由基础模型（Mainmodel）承担多数日常问答，深度推理模型（GPT-5Thinking）处理复杂任务中的长期思考，实时路由器（Real-timeRouter）依据对话类型、问题复杂度、工具调用与用户意图（如“认真思考”提示）在两类模型间动态选择与切换。路由器持续学习用户信号（如模型切换行为、回答偏好、正确率等）以优化决策，并规划在后续将三者进一步融合为单一模型，以在优化速度的同时提升思考深度与一致性。我们认为，该架构有利于在不同使用场景下兼顾响应效率与推理质量。GPT-5.1以自适应推理与细化模型分工提升智能表现与交互体验。GPT-5.1在延续GPT-5统一架构的基础上强化产品化能力，通过Instant与Thinking双模型分工使日常交互与复杂推理各得其所。Instant聚焦指令遵循与语境贴合，提升对话自然度；Thinking通过动态调整思考时间，在深度推理与响应速度间取得更稳妥平衡。据OpenAI官网，模型在AIME2025、Codeforces等数学与编程类任务中表现更强，逻辑严谨度提升明显。自适应思考机制使模型可自主判断是否深入推理，使速度与质量兼顾。语言表达趋向简洁清晰，减少技术术语堆叠。个性化调节亦得到增强，新引入Professional、Candid、Quirky等语气，并支持对简洁度与情感温度的细粒度控制。生态上，GPT-5.1将逐步替代GPT-5，旧版本保留三个月以便用户平滑迁移，API同步更新至gpt-5.1-chat-latest与gpt-5.1。资料来源：OpenAI官网、华泰研究GPT-5提出统一模型架构后，行业迅速跟进，并正成为新一代大模型演进的重要方向。其核心在于将推理模型与非推理模型整合到单一系统中，通过动态调度实现“快思-深思”的连续切换，从而在响应速度与推理深度间取得较优平衡。我们认为，这种统一思路正在改变模型设计逻辑，使“思考层级”成为可调系统参数，而非外部模式选择，并且更加节省模型输出的token数。此外，统一模型的一个重要优势在于部署与运维效率显著提升。过去需要分别部署推理模型和非推理模型，而现在只需部署一个统一模型即可覆盖不同任务场景，不仅降低系统复杂度和算力成本，也提升推理过程的连续性与资源利用率。DeepSeekV3.1以混合推理架构落地统一模型，实现单体兼容快思与深思。V3.1版本在一个模型内同时支持思考模式与非思考模式，使“是否推理、推理到何种程度”由系统自动判定；在思维链压缩训练的配合下，V3.1-Think能以更少的输出Token在更短时间内完成复杂任务，同时保持与既有基线相近的性能表现。我们认为，该架构通过内部机制而非多模型切换，在性能与能效间取得更稳定的折中。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。Grok4Fast同样以统一模型架构为核心，将推理与非推理模式融合于同一体系内。Grok4Fast依据任务复杂度自动调节思考深度与计算资源，实现响应速度与推理能力的动态平衡，通过强化学习优化智能密度（intelligencedensity在保持Grok4同等性能的同时平均减少40%推理Token消耗（图表24）。统一体系下模型可在实时搜索、代码执行、复杂推理与普通对话间自适应切换，使“快思-深思”形成连续可调的谱系结构。注：AIME来自美国高中数学奥赛，HMMT2025常用于检验模型在多步数学推理与抽象推导中的一致性和“链式思维”（Chain-of-Thought）质量，GPQA用于测试模型在物理学、数学推理与概念迁移方面的理解能力资料来源：xAI官网、华泰研究统一模型属于系统层面的重要创新，但并未改变大模型的底层理论架构。其核心价值更多体现在工程与产品层面，通过体系整合提升推理效率与部署便捷性。我们观察到，在统一系统落地之后，头部大模型厂商的研发重心正逐步由底层模型优化转向上层应用与商业化探索，技术竞争正从模型理论创新转向产品体验与生态建设。OpenAI的Pulse和购物功能是典型的应用和商业化生态新模式探索，也是OpenAI利用其日益增长的周活用户”变现的“第一步”。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。(百万)9008007006005004003002001000周活用户月活用户周活用户80070060050040030020012022-112023-12024-82024-122025-22025-32025-62025-82025-10资料来源：OpenAI官网、TheInformation、CNBC、华泰研究Pulse解决了“模型如何主动地行动”的问题，属于计算密集型服务（compute-intensiveservice）。Pulse让大模型从被动响应的工具，演化为能主动理解与推理的智能体（Agent真正迈向“自驱动”的应用形态。传统ChatGPT依赖用户输入触发推理，而Pulse引入异步推理机制，能在用户离线时自动执行分析、生成更新与个性化内容。这意味着算力需求不再由“交互次数”驱动，而转向“持续在线的智能体数量”驱动，推理任务的触发频率与时间跨度均被极大延展。结合此前DeepResearch的经验，这类Agent的Token消耗较传统模型高出15-50倍（参见报告《科技/计算机:Token推动计算Compute需求：非线形增长》，2025年7月17日而Pulse的主动推理模式将进一步放大这种差距。从应用与商业逻辑上看，Pulse的推出意味着OpenAI的重心正在由底层架构转向上层生态与商业化探索。一方面，Pulse通过长期积累的用户上下文，具备构建个性化推荐与广告体系的潜力，使大模型商业化路径从“卖API”扩展至“用户数据驱动的服务经济”；另一方面，端侧硬件的引入让模型能更深入地嵌入用户日常生活场景，形成“端侧收集+云端推理”的双层闭环，从而进一步扩大算力需求与数据边界。我们认为，统一模型奠定了底层能力的集约化基础，而Pulse则代表了从统一模型走向统一智能体生态的关键一步。它使算力的消耗从“响应一次对话”变为“持续感知与主动决策”，为AI在个性化推荐、数字助理及端云协同场景中的商业化落地打开了新的空间。资料来源：OpenAI官网、华泰研究资料来源：GTC2025、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。OpenAI首推“对话内购买”，以协议驱动交易闭环。OpenAI在统一模型与Pulse之后，又推出了AgenticCommerceProtocol（代理商务协议，ACP标志其正式将智能体（Agent）能力延伸至商业交易场景。该协议由OpenAI与Stripe联合开发，旨在让AIAgent具备直接执行购买行为的能力，实现从“推荐商品”到“完成交易”的全流程自动化。第一批电商合作伙伴主要为Shopify（SHOPUS）和Etsy（ETSYUS）。OpenAI对商户收取少量服务费，但对用户完全免费，且不影响商品价格或搜索结果排序。“对话内购买”使ChatGPT从信息服务工具进一步演化为具备交易执行能力的主动型Agent平台。用户可在对话中完成即时结账（instantcheckout无需跳转页面或输入额外信息；而商家则可通过接入该协议直接触达ChatGPT的数亿级用户群，在保持自身支付体系与客户关系的前提下参与交易。从系统演进的角度看，AgenticCommerceProtocol是继统一模型→Pulse（主动推理）→Agentic生态之后的又一次关键商业化延伸。统一模型提供了智能体的计算基础，Pulse让智能体具备主动性，而该协议则赋予智能体实际执行力，使AI从“会思考”迈向“能行动”。我们认为，这一进展代表OpenAI正在把智能体从生产力工具推进为商业行为主体，AI产业的价值链由算力与模型竞争，进一步拓展至支付、交易与用户生态层面。资料来源：OpenAI官网、华泰研究OpenAI开发者大会再次强调以ACP对话内即时结账为核心，贯通需求发现到用户支付的商业闭环生态。10月6日2025年OpenAI开发者大会上，OpenAI再次明确在支付侧引入AgenticCommerceProtocol的“对话内即时结账”，并强调不止电商，后续各类接入ChatGPT的App均可能通过ACP实现变现。对话即入口、结账不外跳，已订阅用户可在对话直接登录，未来支持多种变现，使交易链路由“触达-体验-转化”在同一会话内闭合，显著降低流失点并便于归因与运营。我们认为，ACP将会话从信息交互延伸为交易承载，提升单位会话的转化效率与可运营性，成为商业化的关键抓手。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。图表31：OpenAI2025开发者大会展示的开发者生态进资料来源：OpenAI官网、华泰研究AppsSDK与MCP提供商业化所需的接入、控制与富交互能力。AppsSDK（预览）基于MCP，前后端完全可控，支持数据接入、动作触发与富UI（内联/画中画/全屏/Widget“TalkingtoApps”使应用可反向暴露交互上下文给模型，强化对话-UI-动作闭环。据发布会信息，年内将开放提交审核与目录，开发者指南草案已发，达标上架、优秀者可获更多推荐位。我们认为，标准化接入与目录化分发共同构成商业化基础设施，帮助开发者更好的接入到ACP环境中。示例场景在多类应用中展示从体验到交易的闭环可行性。开发者大会上展示了ChatGPT和多个公司/产品的集成用例，如Coursera可在对话中承载“视频+讲解”，Canva支持从命名到海报/一键转PitchDeck并继续在对话中编辑，Zillow完成地图检索/筛选及跨工具回答。上述体验均可与ACP衔接，在同一对话内完成从功能试用到下单/订阅的转化。我们认为，内容、设计与本地生活等高频场景更易率先跑通闭环路径。资料来源：OpenAI官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。开发者大会之后，OpenAI显著加速软件生态的构建步伐。除了在10月6日开发者大会上宣布的Coursera、Zillow、Figma、Spotify等一系列软件合作伙伴外，OpenAI加紧与其他软件应用厂商的合作，10月14日，宣布与Salesforce合作，实现在ChatGPT里使用Salesforce产品，并能够使用ACP支付协议完成支付；同日宣布与Walmart达成合作，共同打造新型购物体验，通过Chatgpt实现购物并即时结账。OpenAI的战略中心已经逐步向应用和生态转移，后续或会有更多的软件应用厂商加入。资料来源：OpenAI官网、华泰研究OpenAI收入预期显著上修，驱动来自ChatGPT、API、Agent与新产品，Pusle/ACP是重要一环。据TheInformation数据，25Q3OpenAI将2030年营收由年初预测的约1,740亿美元上调至约2,000亿美元，2029年由约1,250亿提升至约1,450亿；2025年仍以约130亿为基准。结构上，收入来源由ChatGPT订阅与API扩展至Agent与“新产品（含免费用户变现）”。结合ACP（AgenticCommerceProtocol平台可在对话内直连交易与支付，形成“推荐-下单-履约”的闭环，一方面OpenAI能够有一定takerate，另一方面有望提升免费用户变现与商户转化。此外，配合通用代理能力、企业级集成与潜在硬件终端等产品形态，OpenAI收入曲线呈现由单点订阅向多元生态的过渡。Pulse/ACP或将成为Agent化商业闭环的重要抓手，与企业付费、API用量增长及硬件载体共同构成中期营收弹性的关键来源（参见图表34）。资料来源：TheInformation、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。阿里的Qwen模型或是国内大模型中全领域布局最为齐全的。Qwen系列旗舰模型Qwen3-Max在综合性能上超越GPT-5、ClaudeOpus-4，Coding与Agent两项关键指标进入全球第一梯队；Qwen形成大规模衍生家族，Qwen3-VL、Qwen3-Omni与通义万相2.5覆盖视觉、音视频与内容生成，百聆语音面向客服、电商等刚需付费场景；与Nvidia在PhysicalAI的合作或拓展至机器人模型。国内C端商业化稍慢于海外，阿里通过模型布局推动2Btoken上量和商业化加速。在研报《科技/计算机:多模态大模型和应用奇点将至》中，我们得出了国内2C商业化（尤其是AI原生应用）稍慢于海外的结论。因此，国内商业化方面，2B是大厂的主要选择。据云栖大会2025主题演讲，近2-3个月需求端Token消耗实现倍增，伴随模型能力提升与Agent类应用出现，阿里云百炼平台过去一年模型日均调用量增长约15倍，反映开发者与企业侧的活跃度提升。从阿里云业务来看，自2024年底以来，一直呈现较快的收入增速，最新的FY26Q1云业务收入增速达到了25.8%。后续随着Qwe

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大模型后训练：中美路径与商业闭环

文档简介

温馨提示

最新文档

评论

大模型后训练：中美路径与商业闭环

文档简介

温馨提示

最新文档

评论

相关文档