计算机行业To ken出海专题报告:国产模型抢占市场IDC需求迅速扩张-_第1页
计算机行业To ken出海专题报告:国产模型抢占市场IDC需求迅速扩张-_第2页
计算机行业To ken出海专题报告:国产模型抢占市场IDC需求迅速扩张-_第3页
计算机行业To ken出海专题报告:国产模型抢占市场IDC需求迅速扩张-_第4页
计算机行业To ken出海专题报告:国产模型抢占市场IDC需求迅速扩张-_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Token出海专题报告:国产模型抢占市场,IDC需求迅速扩张投资评级:优于大市(维持评级)摘要大模型快速迭代,推动应用能力提升。近年来全球AI持续发展,大模型在知识问答、数学、编程等能力上达到新高度,多种任务上表现超过人类水平,在各领域的可用性及准确度快速提升。2025年以来,全球大模型行业正式告别了以年为单位的代际演进,转而进入了以Token用量上涨,国内模型排名上升。OpenClaw是一款病毒式传播的个人AI助手,推动了全球AI应用热潮。在OpenClaw等智能体项目速抢占市场。2025年12月7日,Openrouter上调用量前十的模型均为海外模型,而到了2026年3月9日,前十的模型中不仅包括商在AI基础设施上的资本开支投入进度整体仍明显落后于海外。海外真实调用量正持续转化为推理算力需求和开发者生态黏性,模型商业化能力逐步被验证,有望推动国内资本开支持续提升。AI应用对计算资源的需求极高,当AI应用商业化进入高速增长阶段,云服务成风险提示:AI应用落地不及预期、市场需求不及预期、行业竞争加剧、01大模型快速迭代,推动应用能力提升02Token用量上涨,国内模型排名上升03AI应用推动云市场增长,IDC需求扩张04风险提示AI技术快速发展,推动模型能力持续提升•近年来全球AI持续发展,大模型在知识问答、数学、编程等能力上达到新高度,多种任务上表现超过人类水平,在各领域的可用性及准确度快速提升。从模型技术来看:1)当前模型主流架构逐步转向MoE,通过将输入Token分配给不同的专家模型,让模型在处时展现出更强的能力,同时也能有效降低训练、推理所需的资源,DeepSeek-V3、Qwen3、Llama4等模型均采用MoE架构取得了低成本的高性能表现;2)模型的多模态能力显著增强,通过跨模态对齐、异构数据融合等技术,模型能够处理图像、视频、音频等多种类型的数据,从而丰富了模型的应用场景,GPT-4o、Gemini2.5Pro等领先模型均采用多模态技术;3)模型开始采用思维链技术,将复杂问题逐2024年9月,OpenAI发布o1模型,首次将思维链技术运用在底层模型当中,大幅提高了模型在测试中的表现,后续DeepSeek-R1等模型均采用思维链技术,全球模型进入推理时代。除上述方面外,模型量化、超长上下文窗口、多种RAG变体、偏好微调等技术的发展亦共同推动了模型可用性的进步,为AI在垂直领域图:AI在多种能力测试中超越人类水平图:CoT与MCoT的不同思维链范式资料来源:YaotingWang等-《MultimodalChain-of-ThoughtRe模型加速迭代,测评成绩跃升•模型迭代速率加快、规模与能力不断提升。2025年以来,全球大模型行业正式告别了以年为单位的代际演进,转而进入了以季度甚至月度为周期的竞速时代。头部厂商的模型更新频率已从2024年的四个月以上大幅压缩至三个月内,以Anthropic为例,2024年3月公司推出了Claude3系列,随后推出Claude3.5系列,并分别于6月和10月推出Sonnet和Haiku系列,共同构成了对Claude3家族的重大升级。2025年,Anthropic于2月推出Claude3.7Sonnet,三个月后的5月又推出Claude4,8月公司就推出Opus4.1,更新速度相较于2024年快了进•国内方面,Deepseek、字节跳动、阿里巴巴、智谱、Minimax等头部厂商也并未放缓其模型迭代的速度。以Deepseek为例,继2024年底发布V3及2025年1月推出R1模型后DeepSeek便迅速于3月和5月推出了V3-0324与R1-0528等增强版本,并穿插发布了DeepSeekProver-V1(4月)以强化逻辑证明能力。进入下半年,其技术飞轮进一步加速:8月推出DeepSeekV3.1,9月发布3.2-Exp实验版,10月与11月分别补齐了DeepSeekOCR与DeepSeekMathV2等关键模态拼图,最终在12月正式落地DeepSeekV3.2,模型能力不图:各前沿模型评测得分不断提高图:主要公司模型迭代时间表中美模型差距缩小,国产大模型崛起•美国顶尖公司和实验室占据模型性能高地,中美模型代差逐渐减少。自2022年ChatGPT发布以来,中美前沿模型之间的性能差距虽然一直存在,但目前已缩窄至历史最小水平。据斯坦福大学数据,2023年美国模型在性能上显著超越中国模型,在LMSYS聊天机器人竞技场中,2024年1月表现最好的美国模型比最佳的中国模型高出9.26%。到了2025年2月,差距缩小到仅1.70%。根据ArtificialAnalysis数据,当前中国领先AI实验室与美国领导者的性能差距已从ChatGPT发布后的超•中国在开源AI模型方面已领先全球,测评表现逼近全球顶尖模型。ArtificialAnalysis纳入了GDPval-AA(综合推理)、τ²-BenchTelecom(工具调用)、Terminal-BenchHard(终端操作)、Humanity'sLastExam(深度推理)等10项评估标准,中国模型在全球模型排行中表现优异,GLM-5成为开源SOTA模型,整体表现仅次于GPT-5.2、ClaudeSonne图:中美模型差距快速缩小图:主要模型智能测评结果多模态大模型更新汇总:Sora2•2025年9月30日,OpenAI发布最新的旗舰视频与音频生成模型Sora2。最初的Sora模型在2024年2月推出,在许多方面堪称视频领域的GPT-1时刻。从那时起,Sora团队便专注于训练具有更先进世界模拟能力的模型。OpenAI认为Sora2发布直接跨越到了视频领域的GPT-3.5时刻,可以做到此前视频生成模型极其困难、甚至不可能做到的事情:如奥运体操动作、在桨板上做后空翻并准确模拟浮力与刚性的动力学效果等,该模型在可控性方面也实现了巨大飞跃,能够遵循跨越多个镜头的复杂指令,同时准确保持世界状态的延续性,在现•Sora2能够创造复杂的背景声效、语音和音效,并具备高度的真实感。用户可以将现实世界的元素直接注入到Sora2中,例如通过观察OpenAI团队成员的视频,模型就能将其插入到任意Sora生成的环境中,并且准确还原外貌和声音。这一能力具有高度的通用性,适用于任何人类、动物或物体,这验证了在视频数据上继续扩展神经网络规模以更接近模拟现实的路径。同时,OpenAI正式发布一款新的社交iOS应用,由Sora2驱动,用户可以创作、混合彼此的生成内容,在可定制的Sora动态中发现新视频,并通过cameo(客串)功能把自己图:Sora2生成电影级视频图:Sora社交媒体已全面可用多模态大模型更新汇总:Seedance2•2026年2月7日,字节跳动AI视频生成模型Seedance2.0开启灰度测试,该模型支持文本、图片、视频、音频素材输入,可以完成自分镜和自运镜,镜头移动后人物特征能够保持一致。其所生成的视频支持平滑延长与衔接,可按用户提示生成连续镜头。Seedance2.0的编辑能力同步增强,支持对已有视频进行角色更替、删减、增加。相较于其他视频生成模型,Seedanc•1)之前的AI视频生成主要依赖提示词,用户给一段指令,AI随机生成视频片段。SeedanSeedance2.0支持全方位多模态参考系统,用户可以同时给它最多9张图片、3段视频和3段音频,总共12个参考文件。这些参考可以用来•2)Seedance2.0在生成视频的同时可以生成匹配的音效和配乐,并且支持口型同步和情绪匹配。以前拍一段带对白的戏,后期配音和口型对齐需要很多时间。现在Seedance•3)可以在多个镜头之间维持角色和场景的一致性。这意味着用户可以让它生成包含多个镜头切换的完整叙事片段,角色不会在镜头之•总结,Seedance2.0可以给用户提供已经接近导演级的控制精度,降低了专业表达的门槛,让更多人有工具可以将想法可视化。图:Seedance2.0能稳定按照用户要求生成视频效果图:Seedance2.0文字生成视频能力评测全面领先基础大模型更新汇总:Gemini3•2025年11月19日,谷歌正式发布Gemini3,目前全球最强大的多模态理解模型,也是目前最强的智能体(agentic)与“vibecoding”(创造性、沉浸式交互)模型,能够带来更丰富的可视化、更深度的互动体验,并基于最先进的推理能力构建。上下文窗口增加到100万tokens,能够以高度可靠的方式,在科学、数学•Gemini3以的1501Elo得分位居LMArena排行榜首位;在Humanity’sLastExam上取得了博士水平的推理表现(在不使用任何工具的前提下得分37.5%),在GPQADiamond上的得分则达到91.9%。在数学方面,它也为前沿模型树立了新标杆,在MathArenaApex上取得了23.4%的最新最优成绩。不仅在文本上表现突出,Gemini3Pro还以81%的MMMU-Pro成绩和87.6%的Video-MMMU成绩重新定义了多模态推理。同时,它在SimpleQAVerified上取得了72.1%的业界领先成绩,显示出在事实准确性方面的巨大进步。Gemini3的DeepThink模式进一步突破智能的边界,DeepThink的表现超过了已经非常强大的Gemini3Pr的成绩,在GPQADiamond上达到93.8%。它还在ARC-AGI-2上取得45.1%(使用代码执行,ARCPrize图:Gemini3测评结果全面领先图:Gemini3深度思考性能进一步提升基础大模型更新汇总:Gemini3.1•2026年2月20日,谷歌发布其新一代旗舰模型Gemini3.1Pro,在12项测试中超过Gemini3Pro、ClaudeOpus4.6、ClaudeSonnet4.6、GPT-5.2等模型,成为全球模型第一。谷歌主要提升了Gemini3.1Pro的推理能力。面对业界公认高难度的ARC-AGI-2通用智能基准测试,Gemini3.1Pro斩获77.1%的高分,超越Claude、GPT模型,且成绩相较Gemini3Pro实现翻•Gemini3.1Pro预览版的API价格采用分级计费模式,与上一代Gemini3Pro预览版保持一致,提示词在20万token以内,每百万token输入价格2美元(约合人民币14元),输出价格12美元(约合人民币83元),提示词超过20万token,每百万token输入价格4美元(约合),图:Gemini3.1测评结果大幅提升图:Gemini3.1调用价格基础大模型更新汇总:ClaudeOpus4.6•2026年2月6日,Anthropic推出新版本基础大模型ClaudeOpus4.6,这代模型规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括GPT-5.2在内的竞争对手。新模型首次拥有100万token的上下文窗口,使AI能够处理和推理比以往版本更多的信息。Anthropic还在ClaudeCode中引入了类似于KimiK2.5的智能体团队功能,允许多个AI智能体同时处理编码项目的不同•Opus4.6在多项评估中均表现出色,在智能体编码评估工具Terminal-Bench2.0中取得了最高分,并在人类最后的考试(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中,Opus4.6的表现比业界次优模型(OpenAI的GPT-5.2)高出约144个Elo分数,比其前身(ClaudeOpus4.5)高出190分。此外,Opus4.6在BrowseComp测试中也优于其他所有模型,该•目前大模型的一个常见问题是上下文腐烂,即当对话token数量超过一定阈值时,模型性能会下降。Opus4.6的性能显著优于其前代产品:在MRCRv2的变体测试中,Opus4.6的得分为76%,而Sonnet4.5的得分仅为18.5%。这标志着模型在保持最佳性能的同时,能够利图:ClaudeOpus4.6测评成绩全面提升图:ClaudeOpus4.6在专业领域的测评结果全面提升基础大模型更新汇总:GPT-5.4•2026年3月5日,OpenAI发布GPT-5.4,它整合了GPT-5.3-Codex行业领先的编程能力,同时优化了模型在各类工具、软件环境以务(电子表格、演示文稿和文档等)中的表现。相对于GPT-5.3-Codex和GPT-5.2,GPT-5.4在GDPval、SWE-BenchPro等基准测试中表现•OpenAI表示,GPT-5.4是其首款原生支持计算机使用能力的通用模型,擅长通过Playwright等库编写代码来操作计算机,也能根据屏幕截图直接下达鼠标和键盘指令。开发者可以通过“开发者消息”引导模型行为,从而灵活调整其表现以适配特定场景。在OSWorld-Verified测试(该测试通过屏幕截图以及键盘/鼠标操作,来评估模型导航桌面环境的能力)中,GPT-5.4达到了75.0%的成功率,刷新了纪录,成绩远超GPT-5.2的47.3%,并超越了人类72.4%的平均图:GPT-5.4在通用推理、编程和专业知识工作方面都有全面提升图:GPT-5.4在OSWorld-Verified测试中达到75%的成功率基础大模型更新汇总:KIMIK2.5•2026年1月27日,月之暗面发布了KimiK2.5,KimiK2.5是Kimi迄今最智能的模型,在Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA表现。也是Kimi迄今最全能的模型,原生多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与•KimiK2.5进一步提升了开源模型的代码水平,尤其是在前端开发领域。K2.5支持从简单的自然语言对话生成完整的前端界面,并能有效处理交互式布局及滚动触发等动态效果。在Agent领域,KimiK2.5从单一Agent进化到了Agent集群,面对复杂任务,K2.5再是一个包揽一切的全能专家,而是化身为一支即时组建的专业团队。它能根据任务需求,现场调度多达100个分身,并行处理1500个步骤。在大规模搜索(widesearch)场景下,与单Agent执行相比,Agent集群将达成目标性能所需的最少关键步骤减少了3到4.5倍,且随着目图:KimiK2.5在各项基准测试中得分图:Agent集群通过并行化将实际运行时间最高缩短4.5倍基础大模型更新汇总:M2.5•2月13日,MiniMax发布M2.5,在MiniMax内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,•1)M2.5在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA,比如SWE-BenchVerified(80.2%),Multi-SWE-•2)M2.5优化了模型对复杂任务的拆解能力和思考过程中token的消耗,使其能更快地完成复杂的Agentic任务。在SWE-BenchVerified•3)M2.5让无限运行复杂Agent在经济上可行。在每秒输出100token的情况下,M2.5连续工作一小时只需花费1美金;而在每秒输出50个token的情况下,只需要0.3美金。按照输出价格参考,50TPS的版本价格是Opus、Gemini3Pro以及GPT5这些模型的1•在编程的核心测试中,M2.5相比于上一代模型有了显著提升,达到了跟ClaudeOpus系列类似的水平。M2.5在超10种语言(包括GO、C、复杂系统的从0-1系统设计、环境构建,从1-10的系统开发,从10-90的功能迭代,从90-100的完备codereview与系统测试,M2.5都有可靠的表现,能够胜任各类复杂系统开发的全流程。覆盖Web、Android、iOS、Windows、Mac等多平台的全栈项目,包含Server端API、•在过去108天里面,Minimax陆续更新了M2、M2.1和M2.5,模型的进步速度超出公司自身预期,例如在编程领域最具代表性的SWE-BenchVerfied上,相比Claude、GPT和Gemini等模型系列的进步速度,M2系列模型保持了行业最快的进步图:M2.5在各个测试领域取得较大突破图:M2.5在编程领域表现与Opus4.5相当近期大模型更新汇总:M2.5•公司认为取得上述进展的核心原因是大规模的强化学习,显著地提升了模型能力以及对脚手架、环境的泛化性。通过AgentRL框架、算法和Reward设计、工程优化的co-design,公司支持了对任意Agent脚手架与环境的高效优化,在包括大量公司内部真实任务的数十万个Agent脚手架与环境上大规模训练,验证了模型能力随算力和任务数的scaling取得近线•Forge作为一个原生AgentRL框架,在设计上通过引入中间层完全解耦了底层训推引擎与Agent,支持任意Agent的接入,使得公司可以优化模型在Agent脚手架和工具上的泛化。为了提升系统吞吐,公司优化了异步调度策略来平衡系统吞吐和样本的off-policyness,并设计了树状合并训练样本的训练策略,实现了约40倍的训练加速。算法层面,公司沿用了年初提出的CISPO算法以保障MoE模型在大规模训练中的稳定性。针对Agent场景长上下文带来的信用分配难题,引入了过程奖励机制(Process此外,为深度对齐用户体验,公司直接估计任务在真实环境下的耗时并作为Reward,在模型效果与响应速度之间图:原生AgentRL(强化学习)训练平台的系统架构图:M2系列模型保持了行业最快的提升速度近期大模型更新汇总:GLM-5•2026年2月12日,智谱上线并开源GLM-擅长复杂系统工程与长程Agent任务。此前,GLM5以Ponyalpha的代号进行测试,调用量迅速提升至Openrouter全球第一,当前GLM5成为大模型竞技场中开源模型第一名,整体测试表现与ClaudeOpus4.5和Gemin•在基础模型训练阶段,智谱使用了规模27万亿token的语料库,并在训练初期重点引入代码与推理数据。随后进入中期训练(Mid-training)阶段,将上下文窗口从4K逐步扩展至200K,并专门针对长上下文Agent数据进行训练,以保障模型在复杂工作流中的执行稳定性。在后训练(Post-training)阶段,引入了一套序列化的强化学习(RL)流程:依次在推理、智能体、通用领域进行强化学习。在全流程中应用了跨阶段在线蒸馏技术,有效克服了•总结来看,GLM-5能够实现性能的大幅跃升,主要得益于以下四大技术创新:•1)引入DSA稀疏注意力机制(DeepSeekSparseAttention这一全新架构极大降低了训练与推理成本。此前的GLM-4.5依赖标准MoE架构提升效率,而DSA机制则使GLM-5能够根据Token的重要性动态分配注意力资源。在不折损长上下文理解和推理深度的前提下,算力开销得以大幅削减。得益于此,智谱将模型参数规模成功扩展至744B,同时将训练T•2)构建全新的异步RL基础设施:基于GLM-4.5时期slime框架“训练与推理解耦”的设计,智谱新基建进一步实现了“生成与训练”的•3)提出全新的异步AgentRL算法:该算法旨在全面提升模型的自主决策质量,GLM-4.5曾依靠迭代自蒸馏和结果监督来训练Agent,而在GLM-5中,研发的异步算法使模型能够从多样化的长周期交互中持续学习,针对动态环境下的规划与自我纠错能•4)全面拥抱国产算力生态:从模型发布伊始,GLM-5就原生适配了中国GPU生态,已完成从底层内核到上层推理框架的深度优化,全面兼容华为昇腾、摩尔线程、海光、寒武纪、昆仑近期大模型更新汇总:GLM-5•GLM-5在编程能力上实现了对ClaudeOpus4.5的对齐,在业内公认的主流基准测试中取得开源模型SOTA分数。在SWE-bench-Verified和TerminalBench2.0中分别获得77.8和56.2的开源模型SOTA分数,性能超过•GLM-5在Agent能力上实现开源SOTA,在多个评测基准中取得开源第一:在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用•2月12日,GLMCodingPlan价格同步调整,取消首购优惠,保留按季按年订阅优惠、套餐价格进行结构性调整,整体涨幅自30%起、已图:GLM-5取得开源SOTA表现图:GLM-5在编程能力方面对齐ClaudeOpus4.501大模型快速迭代,推动应用能力提升02Token用量上涨,国内模型排名上升03AI应用推动云市场增长,IDC需求扩张04风险提示Anthropic发布全套办公解决方案,AI升级为代理执行•2026年2月4日,Anthropic发布的新一代人工智能工具ClaudeCowork及其配套的11款职能插件,被市场视为AI从辅助工具(Copilot)向独立员工(Agent)跨越的分水岭,直接动摇了SaaS软件的商业根基。Cowork可以直接在用户的电脑上工作,拥有足够高的权限,可以接管鼠标、键盘和文件系统,按照模糊指令,自主规划并完成一连串复杂的工作。与OpenClaw不同在于为了防止AI误删文件或通过联•Anthropic为ClaudeCowork准备了一系列职业技能包,这些工具可以生成财务评估保密协议以及审查合同、法律简报和构建财务模型。以法律为例,很多律所的工作模式是法务助理+专业软件,律所需要买一套专业软件,比如汤森路透的Westlaw软件,助理在软件里查条款、审合同、标注风险点、写合规报告。当前只需要安装ClaudeCowork并配上法律插件,它可以自行登录法律数据库、审阅合同、把风险条款标出来、生成合规报告,直接对行业图:Cowork插件可以自行处理任务模型进步拓宽应用场景,OpenClaw推动全民落地•OpenClaw是一款病毒式传播的个人AI助手,由奥地利开发者彼得·斯坦伯格(PeterSteinberger)创建。它能管理日历、发送消息和处理航班登记等实际任务,但安装需技术技能,并伴随安全风险,适合早期采用者探索AI代理潜力。OpenClaw是一个不仅会思考,更会),•1)能跑在个人电脑上:不是在某个云端网页里,而是就在个人电脑上,能直接访问文件、应用和数据;•2)能够调用应用程序:主动调用包括手机W•3)长链条独立工作:支持长时间工作流、持久会话、自动循环执行,能够独立完成持续监控市场等任务,支持7×24小时运行。•具体运行:用户向WhatsApp、Telegram发送消息,随后消息传到电脑上的Gateway(网关),为整个系统的控制中心。网关会接着把请求发给任何模型API,然后在电脑上执行具体的命令。Clawdbot可以跑在Mac、Windows、Linux本地电脑,接入Anthropic、OpenAI或本•截至2026年3月1日,OpenClaw代码托管平台GitHub上的星标数量已超过22.8万个,排名前5%。在OpenClaw等智能体项目的持续拉动下,大模型token消耗迎来进一步发展,近期大模型消耗量创新高,且增长斜率陡峭,国产模型凭借自身的性价比优图:OpenClaw架构图图:OpenClaw星标快速增长国内模型成本远低于海外,打出应用优势•国内模型运营实际成本远低于海外模型,根据ArtificialAnalysis数据,以MinimaxM2.5为例,运行一轮ArtificialAnalysistest成本仅需125美元,而以ClaudeOpus4.6运行一轮测试需要4970美元,使用GPT5.2-Codex运行一轮也需要花费3244美元。海外模型真实•1)国内模型token价格便宜:MinimaxM2.5输入/输出价格仅为ClaudeOpus的6%/5%,GPT5.2Codex(xhigh)的17%/9%;•2)单次运行测试所消耗的token量少:以MinimaxM2.5为例,运行一次测试消耗的token量为58M,仅为ClaudeOpus的36%(后者为),图:海外模型tokens价格是国内价格数倍图:运行AritificialAnalysis上所有的测试所消耗的token量国产模型编程能力接近海外头部模型编程是大模型最适合的下游应用场景之一,编程实质上是通过计算机语言和机器对话的过程。代码语言具有1反馈清晰、需求明确的特点,IDE总是会用明确的语言告知程序员程序出错的地方,加之大模型能够检索库、文档和API调用指南,因此在•1)根据ArtificialAnalysis上对coding能力的评分,国产的GLM-5、KimiK2.5和MiniMax2.5在coding测试集上分别得分44、40、37•2)根据LMArena上对模型Coding能力的排名,国产GLM5、Kimi-K2.5和MinimaxM2.5分别位列第8、第12和第14名,仅次于最新的Claude4.6、gpt-5.4和Gemini3.1Pro系列,和Gpt-5.4-medium持平,超过Claude4.5在202图:ArtificialAnalysis上模型CodingIndex评分图:LMArena上对模型Coding的评分国产模型性价比突出,调用量大幅上涨所有模型均可通过统一的端点调用。开发者无需为每个AI提供商集成不同的SDK,只需将应用指向OpenRouter的API,即可使用相同的OpenAI兼容请求格式访问任意模型。平台作为一个智能路由层,会依据价格、延迟、可用性等实时指标,把请求智能路由到最优端点,•2025年12月以来,全球模型调用量大幅上涨,据OpenRouter调用量数据,截至2025年12月7日模型周调用量数据为5.78T,截至2026年3月9日,OpenRouter周调用量数据已经达到14.8T,同比增长156%。得益于国内模型较低的调用价格和较高的质价比,OpenRouter国产模型调用占比自2025年12月以来猛烈上涨。2025年12月7日,Openrouter上调用量前十的模型均为海外模型,而到了2026年3月9日,前十的模型中不仅包括MinimaxM2.5、DeepSeekV3.2、KimiK2.5等国产模型,且API调用量占比也已超50%,反应出国产模型的性能、质价图:2025年12月后OpenRouter周调用量迅速上涨图:OpenRouter上排名前十的模型中国产模型比例大幅上升01大模型快速迭代,推动应用能力提升02Token用量上涨,国内模型排名上升03AI应用推动云市场增长,IDC需求扩张04风险提示模型调用依赖国内IDC,全面推动下游需求增长•国产模型调用提高算力需求,国内数据中心市场空间快速增长。当前国内模型出海的竞争力很大程度上来自足够好的能力+更低的单位token成本。对模型厂商而言,若将大规模推理直接迁移至海外公有云,当前北美超大规模企业激进扩张叠加电网接入瓶颈,导致供应严重受限,芯片租赁价格往往较国内云服务商更高,以A100为例,海外主力云厂谷歌云租赁价格为39.01元/小时,远高于国内阿里云的31.27元/小时。据仲量联行预测,未存储、调度和运维成本,进一步压缩模型供应调用涉及的数据非敏感,且推理数据用完不保留,仅应用服务器数据保留在海外本地,通过用户协议约定数据处理方式,能够符合监管核心IT负载电力需求2023-2028年CAGR将超20%。其中中国以2026年285TWh的预测用电量超越欧美,成为全球电力消耗增长主引擎。图:国内云厂商GPU价格低于海外厂商(元/小时,汇率以2026.3为基准)图:国内数据中心用电量将超海外海内外资本开支持续扩张,云计算厂商有望充分受益•1)海外侧:2025年以来,随着AI大语言模型不断发展,和AI相关计算和推理算力需求高涨,以Amazon、Google为代表的海外科技巨头同比+136%、31%、77%、93%、51%,云计算•2)国内侧:国内厂商紧跟国外步伐,在训练侧和推理侧对算力需求双增长的当下、以阿里、字节为代表的国内厂商纷纷扩张其资本开支。2025Q1-Q3百度、阿里、腾讯分别投入101、948、596亿人民币资本开支、同比+74%、133%、48%,其中阿里更是宣布三年内投入•当前国内主要互联网与云厂商在AI基础设施上的资本开支投入进度整体仍明显落后于海外,海外云大厂过去两年大幅抬升Capex,当前微软、亚马逊均已达到每年超1000亿美元的投资量级。国内厂商此前虽然也在加码AI,但更多还是围绕模型能力建设、内部业务赋能和局部云订单扩张,外部可验证的高质量AI收入体量不够大,因此Capex决策相对谨慎。当前海外真实调用量正持续转化为推理算力需求和开发者生态黏性,模型商业化能力逐步被验证。同时,token出海更利好推理侧需求,相较于训练端比拼最先进芯片、超大规模集群和长周期前置投入,推理更看重用户生态、电力、网络和调度效率等方面,中国与美国图:海外大厂2022-2025资本开支(亿美元)0图:阿里、腾讯、字节资本开支计划(亿人民币)0AI工作负载从训练转向推理,推动数据中心建设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论