版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1AI状态基于OpenRouter的100万亿代币实证研究MalikaAubakirova,AlexAtallah,ChrisClark,JustinSummerville和AnjneyMidhaOpenRouterInc.†a16z(安德森·霍洛维茨)二○二五年十二月摘要过去的一年是大型语言模型(LLM)发展和实际使用的转折点。随着第一个被广泛采用的推理模型o1于2024年12月5日发布,该领域从单次模式生成转向多步深思熟虑的推理,加速了部署,实验和新类别的应用程序。随着这一转变的迅速展开,我们对这些模型在实践中如何实际使用的经验理解已经落后了。在这项工作中,我们利用OpenRouter平台,这是一个跨各种LLM的AI推理提供商,分析超过100万亿个跨任务、地理位置和时间的真实LLM交互令牌。在我们的实证研究中,我们观察到大量采用开放式权重模型,创造性角色扮演(不仅仅是许多人认为占主导地位的生产力任务)和编码辅助类别,加上代理推理的兴起。此外,我们的留存分析确定了基础群体:早期用户的参与持续时间远远长于后来的群体。我们称这种现象为灰姑娘“玻璃鞋”效应这些发现强调了开发人员和最终用户与LLM“在野外”进行交互的方式是复杂和多方面的。我们讨论了对模型构建者、AI开发人员和基础设施提供商的影响,并概述了数据驱动的使用理解如何为LLM系统的更好设计和部署提供就在一年前,大型语言模型的前景看起来根本不同。在2024年底之前,最先进的系统主要由单通道自回归预测器主导,这些预测器经过优化以继续文本序列。几个先驱努力试图通过先进的指令遵循和工具的使用近似推理。例如,Anthropic的Sonnet2.13模型在复杂的工具使用和检索增强生成(RAG)方面表现出色,而Cohere的CommandR模型则包含了结构化的工具规划令牌。另外,像Reflection这样的开源项目在训练过程中探索了有监督的思维链和自我批评循环。虽然这些先进的技术产生了类似推理的输出和更好的指令遵循,但基本的推理过程仍然基于单一的前向传递,发出从数据中学习的表面级跟踪,而不是执行迭代的内部计算。这种范式在2024年12月5日演变,当时OpenAI发布了其o1推理模型的第一个完整版本(代号为Strawberry)[4]。2024年9月12日发布的预览版已经表明了对传统自回归推理的偏离。与以前的系统不同,o1采用了扩展的推理时间计算过程,包括内部多步审议,潜在规划和迭代优化,然后生成最终输出。从经验上看,这使得数学推理、逻辑一致性和多步骤决策的系统性改善成为可能,反映了从模式完成到结构化内部认知的转变。回顾过去,去年标志着该领域真正的转折点:早期的方法倾向于推理,但o1引入了第一个通用的架构,通过故意的多阶段计算来执行推理,而不仅仅是描述它[6,7]。主要贡献者。详情请参阅捐款部分。2虽然LLM能力的最新进展已被广泛记录,但有关这些模型在实践中如何实际使用的系统证据仍然有限[3,5]。现有的账户倾向于强调定性演示或基准性能,而不是大规模的行为数据。为了弥合这一差距,我们对LLM的使用进行了实证研究,利用OpenRouter的100万亿个令牌数据集,OpenRouter是一个多模型AI推理平台,可作为各种LLM查询的中心OpenRouter的优势为细粒度的使用模式提供了一个独特的窗口。由于OpenRouter可以在各种模型(包括闭源API和开放权重部署)之间编排请求,因此它可以捕获开发人员和最终用户实际上如何为各种任务调用语言模型的代表性截面通过分析这个丰富的数据集,我们可以观察哪些模型被选择用于哪些任务,使用情况如何在地理区域和时间上发生变化,以及定价或新模型发布等外部因素如何影响行为。在本文中,我们从之前关于人工智能采用的实证研究中汲取灵感,包括Anthropic的经济影响和使用分析[1]和OpenAI的报告《人们如何使用ChatGPT》[2],旨在进行中立的、证据驱动的讨论。我们首先描述我们的数据集和方法,包括我们如何对任务和模型进行分类。然后,我们深入研究了一系列分析,阐明了使用的不同方面•开放与闭源模型:我们研究了开源模型相对于专有模型的采用模式,确定了开源生态系统中的趋势和关键参与者。•推理:我们研究了多步骤、工具辅助的推理模式的出现,捕捉了用户如何越来越多地将模型用作大型自动化系统的组件,而不是单圈互动。•类别分类:我们按任务类别(如编程,角色扮演,翻译等)分解使用揭示了哪些应用程序域驱动最多的活动,以及这些分布如何因模型提供者而异。•地理:我们分析全球使用模式,并比较各大洲的LLM吸收。这突出了区域因素和本地模式产品如何塑造整体需求。•有效成本与使用动态:我们评估使用如何对应于有效成本,在实践中捕捉LLM采用的经济敏感性。该指标基于平均输入加输出令牌,并考虑了缓存效应。•保留模式:我们分析了最广泛使用的模型的长期保留,确定了定义持久性,粘性行为的基本群体我们将其定义为灰姑娘“玻璃拖鞋”效应,即用户需求和模型特征之间的早期一致性创建了持久的匹配,随着时间的推移保持参与度。最后,我们讨论了这些发现揭示了现实世界的LLM使用,突出意想不到的模式和纠正一些神话。我们的分析基于从OpenRouter平台收集的元数据,OpenRouter平台是一个统一的AI推理层,将用户和开发人员连接到数百个大型语言模型。OpenRouter上的每个用户请求都是针对用户选择的模型执行的,并且记录了描述所产生的“生成”事件的结构化元数据。本研究中使用的数据集由来自全球用户群的数十亿个自动完成对的匿名请求级元数据组成我们确实放大了去年的情况。至关重要的是,我们无法访问提示或完成的底层文本。我们的分析完全依赖于元数据,这些元数据捕获每一代的结构、时间和上下文,而不暴露用户内容。这种隐私保护设计可以进行大规模的行为分析。3每个生成记录都包括有关时间、模型和提供商标识符、令牌使用和系统性能指标的信息令牌计数包括提示(输入)和完成(输出)令牌,允许我们测量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是否被流式传输或取消,或者是否调用了工具调用功能)。这些属性一起提供了一个关于模型在实践中如何使用的详细但非文本的视图。基于此元数据的所有分析,聚合和大多数可视化都是使用Hex分析平台进行的,该平台为版本化SQL查询,转换和最终图形生成提供了可重现的管道,我们强调,这个数据集是观察性的:它反映了OpenRouter平台上的真实活动,而OpenRouter平台本身是由模型可用性、定价和用户偏好决定截至2025年,OpenRouter支持来自60多家提供商的300多个活跃模型,为数百万开发人员和最终用户提供服务,其中超过50%的使用来自美国以外。虽然没有捕获平台之外的某些使用模式,但OpenRouter的全球规模和多样性使其成为大规模LLM使用动态的代表性镜头。本研究无法直接访问用户提示或模型输出。相反,OpenRouter通过非专有模块GoogleTagClassifier对随机样本(约占所有提示和响应的0.25%)进行内部分类。虽然这仅代表总活动的一小部分,但考虑到OpenRouter提供的整体查询版本,基础数据集仍然很大。谷歌分类器与谷歌云自然语言的classifyText内容分类API接口。1API将分层的、与语言无关的分类应用于文本输入,返回一个或多个类别路径(例如,/计算机&电子/编程,/艺术&娱乐/角色扮演游戏其对应的置信度得分在范围$[0,1]$内。分类器直接作用于提示符数据(最多前1,000个字符).分类器部署在OpenRouter的基础设施中,确保分类保持匿名,并且不与单个客户相关联。置信度得分低于默认阈值0.5的类别将从进一步分析中排除。分类系统本身完全在OpenRouter的基础设施中运行,不属于本研究的一部分;我们的分析仅依赖于产生的分类输出(有效描述提示分类的元数据而不是底层提示内容。为了使这些细粒度的标签在规模上有用,我们将GoogleTagClassifier的分类映射到一组紧凑的研究定义的桶,并为每个请求分配标签。每个标签以一对一的方式向上滚动到更高级别的类别。代表性映射包括:•编程:来自/计算机&电子/编程或/科学/计算机科学/*•角色扮演:来自/游戏/角色扮演游戏和创意对话,位于/艺术娱乐/*•翻译:从/参考/语言资源/*•一般问答/知识:当意图似乎是事实查找•生产力/写作:来自/计算机&电子/软件/商业&生产力软件或/业务&工业/商业服务/写作&编辑服务•教育:来自/工作教育/教育/*•文学/创意写作:来自/图书文学/*和叙事叶下/艺术娱乐/*•成人:从/成人1/natural-language/docs/classifying-text4•Others:当没有显性映射应用时,用于提示的长尾。(Note:我们在下面的大多数分析中省略了这一类别。)这种方法存在固有的局限性,例如,依赖于预定义的分类法限制了对新行为或跨域行为的分类,并且某些交互类型可能还不完全适合现有的类。在实践中,一些提示在其内容跨越重叠域时接收多个类别标签。尽管如此,分类器驱动的分类为我们提供了下游分析的镜头(第5节)。这使我们不仅能够量化LLM的使用量,还能够量化LLM的用途。有几个变量值得明确指出:),能通过受限的API(例如,Anthropic的Claude)。这种区别使我们能够衡量社区驱动模型与专有模型的采用情况一个•起源(中国与世界其他地区鉴于中国LLM的兴起及其独特的生态系统,我们按主要发展地区标记模型。中国模型包括由中国、台湾或香港的机构开发的模型(例如,阿里巴巴的Qwen,MoonshotAI的Kimi或DeepSeek)。RoW(世界其他地区)车型覆盖北美、欧洲和其他地区。•提示与完成标记:我们区分了提示标记和完成标记,提示标记表示提供给模型的输入文本,完成标记表示模型生成的输出。令牌总数等于提示令牌和完成令牌之和推理令牌表示具有本机推理能力的模型中的内部推理步骤,并包含在完成令牌中。除非另有说明,令牌量是指提示(输入)和完成(输出)令牌的总和。为了了解LLM使用的区域模式,我们按用户地理位置划分请求。直接请求元数据(如基于IP的位置)通常不精确或匿名。相反,我们根据与每个帐户相关联的计费位置来确定用户区域。这为用户地理位置提供了更可靠的代理,因为计费数据反映了与用户的支付方法或账户注册相关联的国家或地区。我们使用这种基于计费的细分来分析区域采用和模型偏好(第6节)。这种方法有局限性。某些用户使用第三方计费或共享组织帐户,这些帐户可能与他们的实际位置不一致。企业账户可以在一个计费实体下跨多个区域聚合活动。尽管存在这些缺陷,但鉴于我们可以访问的元数据,计费地理仍然是隐私保护地理分析中最稳定和可解释的指标。我们的分析主要涵盖截至2025年11月的13个月滚动期,但并非所有基础元数据都涵盖这一完整窗口。大多数车型级别和定价分析都集中在2024年11月-2025年11月30日时间框架。然而,类别级别的分析(特别是使用GoogleTag-Classifier分类法的分析,第2.2节)是基于2025年5月开始的较短时间间隔,反映了OpenRouter上一致性标签的可用时间。具体地,详细的任务分类字段(例如,编程、角色扮演或技术等标签)仅在2025年年中添加因此,第5节中的所有调查结果应被解释为代表2025年中期的使用情况,而不是整个上一年。5除非另有说明,否则所有时间序列聚合都使用UTC规范化的时间戳、求和提示和完成标记每周计算一次这种方法确保了模型系列之间的可比性,并最大限度地减少了瞬时峰值或区域时区效应的偏差。3开源与闭源模型图1:开源与闭源模型的划分。按来源类型划分的每周代币总量份额。浅蓝色代表开放重量模型(中国与世界其他地区而深蓝色对应于专有(封闭)产品。垂直虚线标志着主要开放重量模型的发布,包括Llama3.370B,DeepSeekV3,DeepSeekR1,KimiK2,GPTOSS系列和Qwen3Coder。AI生态系统中的一个核心问题是开放权重(为了简单起见,我们将其称为OSS)和专有模型之间的平衡图1和图2说明了OpenRouter在过去一年中的平衡是如何演变的。虽然专有模型,特别是来自北美主要提供商的模型,仍然服务于大多数代币,但OSS模型稳步增长,到2025年底达到约三分之一的使用量这种扩张不是偶然的。使用高峰与主要的开放模型版本(如DeepSeekV3和KimiK2)(由垂直虚线表示)保持一致,这表明竞争性OSS发布,如DeepSeekV3[9]和GPTOSS模型[8]被迅速采用并保持其收益。重要的是,这些增加持续超过最初发布的几周,这意味着真正的生产使用,而不是短期实验。这一增长的很大一部分来自中国开发的车型。从2024 年底微不足道的基础(每周份额低至1.2%)开始在一年的窗口期内,它们平均占每周代币交易量的约13.0%,强劲增长集中在2025年下半年。相比之下,世界其他地区的开放源码软件模型平均为13.7%,而专有的世界其他地区模型保持了最大的份额(平均为70%)。中 国OSS的扩张不仅体现了竞争力的质量,还体现了快速迭代和密集发布周期。像Qwen和DeepSeek这样的模型保持定期的模型发布,从而能够快速适应新兴的工作负载。这种模式从实质上重塑了开源细分和进步的LLM景观的全球竞争。这些趋势表明LLM生态系统中存在持久的二元结构。专有系统继续定义可靠性和性能的上限,特别是对于受监管或企业工作负载。相比之下,OSS模型提供成本效益,透明度和定制,使其成为某些工作负载的目前,这一比例达到了30%左右。这些模型6图2:按模型类型划分的每周代币交易量。显示一段时间内按模型类别划分的总令牌使用量的堆叠条形图。深红色代表专有模型(封闭),橙色代表中国开源模型(中国OSS),蓝绿色代表中国以外开发的开源模型(世界其他地区OSS)。该图表强调了到2025年OSS代币份额的逐步增加,特别是在年中开始的中国OSS模型中。它们并不相互排斥;相反,它们在开发人员和基础设施提供商越来越青睐的多模型堆栈中相互补充。表1按服务的代币总量对我们数据集中的顶级模型系列进行了排名。在过去的一年里,OSS模式的格局发生了重大变化:虽然DeepSeek仍然是最大的OSS贡献者,但随着新进入者的迅速崛起,它的主导地位已经减弱。今天,多个开源家族都保持着大量的使用,指向一个多元化的生态系统。表1:按模型作者划分的代币总量(2024年11月-2025年11月)。令牌计数反映了OpenRouter上所有模型变体的总使用量。模型作者DeepSeek屈温14.375.59MetaLLaMA3.96西北风人工智能2.92OpenAIMinimax1.651.26Z-AI1.18TNGTech1.13MoonshotAI0.92谷歌0.827图3展示了顶级开源模型的市场份额的戏剧性演变8一周又一周在这一时期的早期(2024年底市场高度整合:DeepSeek家族的两种型号(V3和R1)一直占所有OSS令牌使用量的一半以上,形成了图表底部的图3:随着时间的推移,排名前15位的OSS模型。领先开源模型的每周相对代币份额(堆叠面积图)。每个彩色带代表一个模型对总OSS令牌的贡献。随着时间的推移,不断扩大的调色板表明,最近几个月没有单一主导模式的竞争更加激烈。这种近乎垄断的结构在夏季拐点(2025年年中)之后破灭了。市场自那时以来,随着使用的显著多样化,它变得既广泛又深入。像Qwen的模型,Minimax的M2,MoonshotAI的KimiK2和OpenAI的GPT-OSS系列这样的新进入者都在快速增长,以满足大部分请求,通常在发布后几周内实现生产规模的采用。这表明开源社区和AI初创公司可以通过引入具有新功能或卓越效率的模型来实现快速采用。到2025年底,竞争平衡已经从近乎垄断转向多元化。没有一个模型超过OSS代币的25%,代币份额现在更均匀地分布在五到七个模型中。实际的含义是,用户在更广泛的选项中找到价值,而不是默认为一个“最佳”选择。尽管这一数字显示了开放源码软件模型之间的相对份额(而不是绝对数量),但明显的趋势是市场分散和开源生态系统内竞争加剧的决定性转变。总的来说,开源模式的生态系统现在是高度动态的。主要见解包括:•顶级多样性:一个家族(DeepSeek)曾经主导OSS的使用,我们现在越来越多地看到六个模型,每个模型都保持着有意义的份额。没有一个开放的模型可以容纳超过持续减少20-25%的OSS代币•新进入者的快速扩展:有能力的新开放模型可以在几周内捕获大量使用。例如,MoonshotAI的模型迅速成长为竞争对手的老OSS领导者,甚至像MiniMax这样的新来者在一个季度内从零增长到大量流量。这表明切换摩擦低,用户群渴望体验。•迭代优势:DeepSeek长期处于领先地位强调了持续改进的重要性。DeepSeek的后续版本(Chat-V3,R1等)即使挑战者出现,它也保持了竞争力发展停滞的开放源码软件模式往往会失去份额,而被那些在前沿或特定领域微调中经常更新的模式所取代。今天,2025年的开源LLM舞台类似于一个竞争激烈的生态系统,创新周期迅速,领导力无法保证。对于模型构建者来说,这意味着发布一个开放的模型9具有最先进性能的产品可以立即被采用,但要保持使用份额,就需要在进一步开发方面进行持续投资。对于用户和应用程序开发人员来说,趋势是积极的:有更丰富的开放模型可供选择,通常在特定领域(如角色扮演)具有与专有系统相当或有时更高的功能图4:OSS模型大小与使用情况。每周由小型,中型和大型模型提供的OSS令牌总量份额。按每周OSS总使用量对数据进行归一化一年前,开源模型生态系统在很大程度上是两个极端之间权衡的故事:大量小型快速模型和少数强大的大型模型。然而,对过去一年的回顾表明,市场已显着成熟,并出现了一个新的、不断增长的类别:中型车型。请注意,我们按参数计数对模型进行分类,如下所示:•小:参数少于150亿的模型•中:具有150亿到700亿个参数的模型。•大型:具有700亿或更多参数的模型。关于开发者和用户行为的数据告诉我们一个微妙的故事。图4和图5显示,所有类别的型号数量都有所增加,使用情况发生了显著变化。小型车型正在失去青睐,而中型和大型车型正在获得这一价值。对推动这些趋势的模型进行深入研究,可以发现不同的市场动态:•“小”市场:使用量整体下降。尽管新型号供应稳定,但小型型号类别作为一个整体的使用份额正在下降,如图4所示。这一类别的特点是高度分散。没有一种模式能长期占据主导地位,它看到来自不同供应商的新进入者不断涌现,如Meta,Google,Mistral,DeepSeek。例如,GoogleGemma3.12B(于2025年8月发布)迅速被采用,但在用户不断寻求下一个最佳替代品的拥挤领域•“中型”市场:寻找“模型-市场匹配”。中型车型类别讲述了一个清晰的市场创造故事。该细分市场本身可以忽略不计,直到2024年11月发布Qwen2.5Coder32B,有效地建立了这一类别。这一部分随后成熟为竞争激烈的生态系统与其他强大的竞争者的到来,如西北风小3(1月2025年)和GPT-OSS20B(2025年8月),它们划分了用户的思想份额。这部分表明用户正在寻求能力和效率的平衡10图5:随着时间的推移,按规模划分的OSS模型数量。可用开源模型的每周计数,按参数大小类别分组。•“大”模型部分:多元化的景观。“追求质量”并没有导致整合,而是导致了多样化。大型模型类别现在拥有一系列高性能的竞争者,从Qwen3235BA22BInstruct(2025年7月发布)和Z.AIGLM4.5Air到OpenAI:GPT-OSS-120B(8月5日):每个都捕获有意义和持续的使用。这种多元化表明,用户正在积极地跨多个开放的大型模型进行基准测试,而不是集中在单一标准上。小型模型主导开源生态系统的时代可能已经过去。市场现在正在分化,用户要么倾向于一种新的、强大的中型机型,要么将他们的工作负载整合到一个功能最强大的大型机型上。今天,开源模型被用于非常广泛的任务,跨越创意,技术和信息领域。虽然专有模型仍然在结构化业务任务中占主导地位,但OSS模型已经在两个特定领域取得了领导地位:创造性角色扮演和编程帮助。总之,这些类别占OSS令牌使用的大部分(图6)。图6突出显示,超过一半的OSS模型使用属于角色扮演,编程是第二大类别。这表明用户转向开放模型主要是为了创造性的交互式对话(如讲故事,角色扮演和游戏场景)和编码相关的任务。角色扮演的主导地位(占所有OSS代币的50%以上)强调了开放模型具有优势的用例:它们可以用于创造力,并且通常不受内容过滤器的限制,这使得它们对幻想或娱乐应用程序具有吸引力。角色扮演任务需要灵活的响应、上下文保持和情感上的细微差别--开放模型可以有效地提供这些属性,而不会受到商业安全或审核层的严重限制。这使得它们特别吸引那些尝试角色驱动体验、同人小说、互动游戏和模拟环境的社区。编程切片(大约15-20%)显示,许多开发人员利用OSS模型进行代码生成和调试,这可能是由于Qwen-Coder,GPT-OSS家族和GLM-4.6等非常强大的代码模型。其他类别,如翻译,知识问答和教育占据较小的份额,但不可忽视,每个类别都满足特定的需求(多语言支持,事实查找,辅导等)。一个限制是分类可能会合并一些重叠的用途(例如,一个交互式编码教程可以被标记为教育或编程,这取决于提示框架),但总的来说,图表给出了一个明确指出开放源码软件模型在实践中的优势11图6:OSS模型的类别趋势。开放源码模型使用在高级别任务类别中的分布。角色扮演(约52%)和编程一直主导着OSS的工作负载组合,共同占据了OSS令牌的大部分更小的部分包括翻译,一般知识问答和其他。图7:中国OSS类别趋势。中国开发的开源模型的类别组成。角色扮演仍然是最大的单一用例,尽管编程和技术共同构成了比整体OSS组合更大的部分(33%对38%)。12图7显示了如果我们只放大中国的OSS模型,随着时间的推移的类别细分这些模型不再主要用于创造性任务。角色扮演仍然是最大的类别,约占33%,但编程和技术现在占大多数(39%)。这种转变表明,像Qwen和DeepSeek这样的模型越来越多地用于代码生成和基础设施相关的工作负载。虽然大量的企业用户可能会影响特定的细分市场,但总体趋势表明,中国的开放源码软件模式在技术和生产力领域直接竞争。图8:按模型源编程专有模型与中国OSS与非中国(世界其他地区)OSS模型处理的编程相关令牌量的份额。在OSS细分市场中,2025年底的平衡明显转向了世界其他地区的OSS,目前占所有开源编码令牌的一半以上(在中国OSS主导OSS编码使用的早期阶段之后)。如果我们只放大编程类别,我们在图8中观察到,专有模型仍然处理总体上的大部分编码辅助(灰色区域),反映了像Anthropic的Claude这样的强大产品。然而,在OSS部分,有一个显着的转变:在2025年年中,中国OSS模型(蓝色)提供了大部分开源编码帮助(由Qwen3Coder等早期成功驱动)。到2025年第四季度,西方OSS模型(橙色),如Meta的LLaMA-2代码和OpenAI的GPT-开放源码软件系列激增,但最近几周整体份额有所下降。这种波动表明了一个非常有竞争力的环境。实际上,开源代码助手的使用是动态的,并且对新模型的质量高度敏感:开发人员对当前提供的任何OSS模型都是开放的。最佳编码支持作为一个限制,这个数字没有显示绝对数量:开源代码使用因此,蓝色波段的缩小并不意味着中国OSS失去了用户,只是相对份额。现在,如果我们只检查角色扮演流量,我们可以在图9中看到,它现在几乎同样由世界其他OSS(橙色,最近几周为43%)和封闭(灰色,最近为42%)模型提供服务。这与2025年早些时候相比发生了重大转变,当时该类别由专有(灰色)模型主导,约占代币份额的70%。当时(2025年5月西方OSS模型仅占流量的22%,中国OSS(蓝色)模型仅占8%的小份额。在这一年中,自营股的份额稳步下降。到2025年10月底,随着西方和中国的开源模式取得重大进展,这一趋势加速。由此产生的融合表明了一种健康的竞争;用户可以从开放和专有产品中选择创造性的聊天和讲故事。这反映出开发商认可需求并且已经为此定制了它们的发布(例如,对对话进行微调,添加对齐以保持角色一致性)。需要注意的一点是,“角色扮演”涵盖了一系列的子类型(从休闲聊天到复杂的游戏场景)。然而,从宏观的角度来看,很明显,OSS模型在这个创造性的舞台上具有优势。口译。从广义上讲,在整个OSS生态系统中,关键用例是:角色扮演和创造性对话:顶级类别,可能是因为开放模型可以不受审查或更容易定制,13图9:按模型源划分的角色扮演。用于角色扮演用例的令牌数量,在中国OSS和世界其他地区OSS模型之间划分。角色扮演仍然是这两个群体的最大类别;到2025年底,中国和非中国开放模式的流量大致平均分配虚构人物和故事任务。编程帮助:第二大,随着开放模型在代码方面变得更加胜任,编程帮助正在增长许多开发人员在本地利用OSS模型进行编码,以避免API成本。翻译和多语言支持:稳定的用例,特别是强大的双语模型(中国OSS模型在这方面具有优势一般知识问答和教育:适度使用;虽然开放模型可以回答问题,但用户可能更喜欢GPT-5这样的封闭模型,以获得最高的事实准确性。值得注意的是,OSS的使用模式(重角色扮演)反映了许多人可能会考虑的“爱好者”或“独立开发者”-定制和成本效率胜过绝对准确性的领域。不过,界限正在变得模糊:OSS模型在技术领域正在迅速改进,专有模型也正在被创造性地使用。4直觉推理基于上一节对不断发展的模型前景(开源与闭源)的看法,我们现在转向LLM使用本身的基本形式语言模型在生产中的使用方式正在发生根本性的转变:从单轮文本完成转向多步骤,工具集成和推理密集型工作流程。我们将这种转变称为代理推理的兴起,其中模型不仅用于生成文本,还用于通过规划、调用工具或跨扩展上下文进行交互。本节通过五个代理来跟踪这种转变:推理模型的兴起,工具调用行为的扩展,不断变化的序列长度配置文件,以及编程使用如何驱动复杂性。如图10所示,通过推理优化模型路由的总令牌份额在2025年大幅攀升在第一季度早期,实际上可以忽略不计的使用率现在超过了50%。这种变化反映了市场的两面。在供应方面,GPT-5、Claude4.5和Gemini3等更高性能系统的发布扩展了用户对逐步推理的期望。在需求方面,用户越来越喜欢能够管理任务状态、遵循多步逻辑并支持代理风格工作流的模型,而不是简单地生成文本。图11显示了推动这一转变的顶级模型。在最新的数据中,xAI的GrokCodeFast1现在驱动了推理流量的最大份额(不包括免费启动访问),领先于Google的Gemini2.5ProGemini2.5Flash这与几周前相比是一个显着的变化,当时Gemini2.5Pro领先该类别,DeepSeekR1和Qwen3也处于顶级水平。GrokCodeFast1和Grok4Fast14图10:推理与非理性代币趋势。自2025年初以来,通过推理优化模型路由的所有令牌的份额稳步上升。该指标反映了推理模型所服务的所有令牌的比例,而不是模型输出中“推理令牌”的份额。在xAI积极的推出、有竞争力的价格以及开发人员对其面向代码的变体的关注的支持下,与此同时,像OpenAI的gpt-oss-120b这样的开放模型的持续存在强调了开发人员仍然在可能的情况下使用OSS。这种混合总体上突出了推理领域的动态变化,快速的模型转换决定了哪些系统占主导地位真正的工作量。数据指向了一个明确的结论:面向推理的模型正在成为实际工作负载的默认路径,流经它们的令牌份额现在是用户希望如何与AI系统交互的主要指标。图11:按令牌数量排列的顶级推理模型。在推理模型中,xAI的GrokCodeFast1目前处理的推理相关令牌流量份额最大,其次是Google的Gemini2.5Pro和Gemini2.5Flash。xAI的Grok4Fast和OpenAI的gpt-oss-120b完成了顶级组。在图12中,我们报告了来自完成原因为工具调用的请求的令牌总数。这个度量标准是标准化15的,只捕获那些实际调用工具的交互。16图12:工具调用。标准化为完成原因被分类为工具调用的请求的总令牌的份额,这意味着在请求期间实际调用了工具。此度量反映成功的工具调用调用;包含工具定义的请求数按比例较高。这与InputTool信号相反,InputTool信号记录在请求期间是否向模型提供了工具(无论调用如何)。根据定义,输入工具计数高于工具调用完成原因,因为供应是成功执行的超集。完成原因度量度量度量实现的工具使用,而输入工具反映的是潜在的可用性而不是实际的调用。由于该指标仅在2025年9月引入,因此我们不在本文中报告。在图12中,5月份的显著增长主要归因于一个相当大的账户,该账户的活动短暂地提升了整体交易量。除了这一异常情况,工具采用率在全年都呈现出持续上升的趋势。图13:按工具提供量划分的顶级模型。工具供应集中在明确优化代理推理的模型中,如ClaudeSonnet,GeminiFlash。如图13所示,工具调用最初集中在一小群模型中:Ope-nAI的gpt-4o-mini和Anthropic的Claude3.5和3.7系列,它们共同占据了2025年初大多数支持工具的代币。然而,到了年中,一系列更广泛的模型开始支持工具提供,反映出一个更具竞争力和多样化的生态系统。从9月底开始,较新的Claude4.5Sonnet型号迅速获得市场份额。与此同时,像GrokCodeFast和GLM4.5这样的新条目已经使17可见的进展,反映了更广泛的实验和多样化的工具能力的部署。对于运营商来说,这意味着:对于高价值的工作流程,启用工具的使用正在增加没有可靠工具格式的模型有可能在企业采用和编排环境中落后。图14:提示令牌的数量正在增加。自2024年初以来,平均提示令牌长度增长了近四倍,反映了越来越多的上下文繁重的工作负载。在过去一年中,模型工作量的形式发生了显著变化。即时(输入)和完成(输出)代币量都大幅上升,尽管规模和速度不同。每个请求的平均增长的相对幅度凸显了向更复杂、上下文丰富的工作负载的决定性转变。这种模式反映了模型使用的新平衡。如今,典型的请求不是关于开放式生成(“给我写一篇文章”而是更多地关于对用户提供的大量材料进行推理,如代码库、文档、记录或长对话,并产生简洁、高价值的见解。模型越来越多地充当分析引擎,而不是创造性的发电机。类别级别的数据(仅从2025年春季开始提供,见第2.5节)提供了一个更微妙的画面:编程工作负载是快速令牌增长的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过20K输入令牌,而所有其他类别的请求保持相对平稳和低量。这种不对称的贡献表明,最近提示大小的扩展并不是跨任务的统一趋势,而是与软件开发和技术推理用例相关的集中激增序列长度是任务复杂性和交互深度的代表图17显示,在过去的20个月里,平均序列长度增加了两倍多,从2023年底的不到2,000个令牌增加到2025年底的5,400多个。这种增长反映了一种结构性转变,即更长的上下文窗口、更深的任务历史和更精细的完成。根据前面的部分,图18进一步说明了:与编程相关的提示符现在的平均长度是通用提示符的3-4这种差异表明软件开发工作流是更长交互的主要驱动力长序列不仅仅是用户冗长:它们是嵌入式的,更复杂的代理工作流程的签名。18图15:完成令牌的数量几乎增加了两倍。输出长度也有所增加,尽管基线较小,这表明更丰富,更详细的响应主要是由于推理令牌。图16:编程是快速代币增长背后的主要驱动力。由于标签将于2025年春季开始提供,因此与编程相关的任务始终需要最大的输入上下文。19图17:平均序列长度随时间的变化。每代的平均令牌数(提示+完成)。图18:程控序列长度与总体序列长度。编程提示系统更长,增长更快。20总之,这些趋势(不断上升的推理份额,扩展的工具使用,更长的序列和编程的超大复杂性)表明LLM使用的重心已经转移。中值LLM请求不再是一个简单的问题或孤立的指令。相反,它是一个结构化的、类似代理的循环的一部分,调用外部工具,对状态进行推理,并在更长的上下文中持久化。对于模型提供者,这提高了默认功能的门槛。延迟、工具处理、上下文支持以及对畸形或敌对工具链的鲁棒性越来越重要。对于基础设施运营商来说,推理平台现在不仅要管理无状态请求,还要管理长时间运行的会话、执行跟踪和权限敏感的工具集成。很快,如果不是已经,代理推理将接管大多数推理。5分类:人们如何使用LLM?了解用户使用LLM执行的任务分布对于评估现实世界的需求和模型市场拟合。如2.2节所述,我们将数十亿的模型交互归类为高级应用程序类别。在第3.3节中,我们关注开源模型,以了解社区驱动的使用。在这里,我们将镜头扩大到OpenRouter上的所有LLM使用(包括封闭和开放模型以全面了解人们在实践中使用LLM的情况图19:编程作为一个占主导地位和不断增长的类别。分类为编程的所有LLM查询的份额稳步增加,反映了人工智能辅助开发工作流程的兴起。编程已成为所有模型中最持续扩展的类别。到2025年,编程相关请求的份额稳步增长,与法学硕士辅助开发环境和工具集成的兴起并行。如图19所示,编程查询在2025年初约占令牌总量的11%,最近几周超过50%。这一趋势反映从探索性或会话式使用转向应用任务,如代码生成、调试和数据脚本编写。随着LLM嵌入到开发人员的工作流程中,它们作为编程工具的角色正在规范化。这种演变对模型开发有影响,包括更加强调以代码为中心的训练数据,改进多步编程任务的推理深度,以及模型和集成开发环境之间更紧密的对编程支持的需求不断增长,正在重塑模型提供商之间的竞争态势如图20所示,Anthropic的Claude系列一直在该类别中占据主导地位,在观察期的大部分时间内占编程相关支出的60%以上。然而,景观已经发生了有意义的变化。在11月17日的一周内,Anthropic的份额跌至60%以下,21图20:按模型提供者共享编程请求。编程工作量高度集中:Anthropic的模型服务于编码查询的最大份额,其次是OpenAI和Google,MiniMax占据了越来越大的份额。其他供应商加起来只占一小部分。这张图省略了xAI,它有大量的使用,但在一段时间内免费赠送首次突破门槛。自7月以来,OpenAI的份额在最近几周从约2%扩大到约8%,这可能反映了对以开发人员为中心的工作负载的重新重视。在同一时间段内,谷歌的份额一直稳定在15%左右。中端市场也在发展。包括Z.AI、Qwen和MistralAI在内的开源提供商正在稳步获得关注。特别是MiniMax,它已经成为一个快速崛起的进入者,最近几周表现出显着的增长总体而言,编程已成为最具争议和战略重要性的模型类别之一。它吸引了顶级实验室的持续关注,即使模型质量或延迟的微小变化也可能导致份额每周发生变化。对于基础设施提供商和开发人员来说,这突出了持续基准测试和评估的必要性,特别是在前沿不断发展的情况下图21分解了LLM在12个最常见的内容类别中的使用情况,揭示了每个类别的内部子主题结构。一个关键的要点是,大多数类别并不是均匀分布的:它们由一两个重复使用模式主导,通常反映了集中的用户意图或与LLM优势的一致性。在数量最多的类别中,角色扮演以其一致性和专业化而脱颖而出。近60%的角色扮演代币属于游戏/角色扮演游戏,这表明用户将LLM视为结构化角色扮演或角色引擎,而不是休闲聊天机器人。作家资源(15.6%)和成人内容(15.4%)的存在进一步加强了这一点,指出互动小说,场景生成和个人幻想的混合。与角色扮演主要是非正式对话的假设相反,数据显示了一个定义明确且可复制的基于体裁的用例。编程也同样存在偏差,超过三分之二的流量被标记为编程/其他。这标志着代码相关提示的广泛性和通用性:用户不会狭隘地关注特定的工具或语言,而是向LLM询问从逻辑调试到脚本起草的所有内容。也就是说,开发工具(26.4%)和脚本语言的小份额表明正在出现专业化。这种碎片化突出了模型构建者改善结构化编程工作流的标记或培训的机会。除了角色扮演和编程的主要类别之外,其余领域代表了LLM使用的虽然单个较小,但它们揭示了用户如何在专业和新兴任务中与模型交互例如,翻译、科学和健康表现出相对平坦的内部结构。在翻译中,外国人的用法几乎是平均分配的。22(a)按总代币份额排名前6位。每个条形图显示该类别中主要子标签的细分。标签表示子标签至少贡献了该类别的7%的标记(b)接下来的6个类别按代币份额。次级类别的类似细分,说明每个领域的子主题集中(或缺乏)。图21:每个类别中的子标记的令牌份额。图表涵盖了前12个类别,分为两个小组的可读性。每一列都是标签级份额的100%堆叠条形图,显示每个类别使用情况的内部组成。23语言资源(51.1%)和其他,表明需要分散:多语言查找和改写,而不是持续的文档级翻译。科学被一个标签所主导,机器学习AI(80.4%),这表明大多数科学查询都是元AI问题,而不是物理或生物学等一般STEM主题。这反映了用户的兴趣或模型的优势倾向于自我参考的查询。相比之下,健康是最分散的顶级类别,没有子标签超过25%。令牌分布在医学研究、咨询服务、治疗指导和诊断查找中。这种多样性凸显了该领域的复杂性,但也凸显了对其安全建模的挑战:LLM必须跨越高度变化的用户意图,通常在敏感的上下文中,没有明确集中在单个用例中。将这些长尾类别联系起来的是它们的广泛性:用户转向LLM进行探索性的,轻度结构化的或寻求帮助的交互,但没有编程或个人助理中看到的专注的工作流程。综合来看,这些次要类别可能不会主导成交量,但它们暗示着潜在的需求。他们的信号,LLM正在使用在边缘的许多领域从翻译从医学指导到人工智能自省,随着模型在领域鲁棒性和工具集成方面的改进,我们可能会看到这些分散的意图汇聚成更清晰、更大容量的应用程序。相比之下,金融、学术界和法律界则分散得多。金融业的业务量分布在外汇、社会责任投资和审计/会计领域:没有一个标签超过20%。法律显示出类似的熵,使用分为政府/其他(43.0%)和法律/其他(17.8%)。这种碎片化可能反映了这些领域的复杂性,或者仅仅是缺乏有针对性的LLM工作流与编码和聊天等更成熟的类别相比数据表明,现实世界中LLM的使用并不是统一的探索性的:它紧紧围绕着一小部分可重复的高容量任务。角色扮演、编程和个人协助都表现出清晰的结构和主导标签。相比之下,科学、健康和法律领域则更加分散,可能没有得到充分优化。这些内部分布可以指导模型设计,特定领域的微调和应用程序级接口,特别是在定制LLM以满足用户目标方面。不同的现代作者被用于不同的使用模式。图22a-23a显示了三个主要模型家族(Anthropic的Claude,Google的模型和OpenAI的GPT系列)的内容类别分布。每个条形图代表该提供商的令牌使用量的100%,按顶部标签细分Anthropic的Claude(图22a)严重倾向于编程+技术用途,两者加起来超过其使用量的80%。角色扮演和一般问答只是一小部分。这证实了Claude的定位,即为复杂的推理、编码和结构化任务优化的模型;开发人员和输入-企业似乎主要使用克劳德作为编码助理和问题解决者。Google的模型使用(图22b)更加多样化。我们看到翻译,科学,技术和一些常识的显着部分。例如,谷歌的使用量中有5%是法律或政策内容,另外10%与科学相关。这可能暗示了双子座广泛的训练重点。与其他公司相比,谷歌的编码份额相对较少,事实上,到2025年底将下降(降至约18%)。和更广泛的类别尾部。这表明谷歌的模型更多地被用作通用信息引擎。xAI的使用概况(图22c)与其他提供商不同。在这段时间的大部分时间里,代币的使用绝大多数集中在编程领域,通常超过所有代币的80%。只有在11月下旬,分布才有所扩大,在技术,角色扮演和学术方面有明显的增长。这种急剧的转变与xAI模型通过精选的消费者应用程序免费分发的时间相一致,这可能会引入大量非开发人员流量。其结果是,使用组合将早期的开发人员密集型核心与突然出现的通用参与浪潮相结合,这表明xAI的采用路径正在由技术用户和与促销可用性相关的偶发性激增共同塑造。OpenAI的使用情况(图23a)在2025年发生了显著变化。今年早些时候,科学任务占所有OpenAI代币的一半以上;到2025年底,这一比例已降至15%以下。与此同时,编程和技术相关的使用量现在占总使用量的一半以上(各占29%),反映了与开发人员工作流程、生产力工具和专业应用程序的更深层次集成。OpenAI的使用组合现在介于Anthropic的集中配置文件和Google的更分散的分布之间,这表明它具有广泛的实用基础,并且越来越倾向于高价值的结构化任务。24(a)人类的。主要用于编程和技术任务(超过80%),角色扮演使用最少。(b)Google.一个广泛的用法组合,涵盖法律、科学、技术和一些一般知识查询。(c)xAI。代币的使用主要集中在编程上,技术、角色扮演和学术界在11月下旬更加突出。25图22:主要模型提供商的顶级内容类别(按提供商的令牌使用份额)。每个条形图都说明了提供商的使用情况如何在类别中分布,突出显示了专业化和随时间的变化。26(a)开放式人工智能。随着时间的推移,转向编程和技术任务,角色扮演和随意聊天显着减少。(b)DeepSeek角色扮演和随意互动占主导地位的用法。27(c)昆专注于编程任务,角色扮演和科学类别随着时间的推移而波动。图23:按提供商令牌使用份额划分的顶级内容类别。图22的延续。28如图23所示,DeepSeek和Qwen的使用模式与前面讨论的其他模型家族DeepSeek的代币分发以角色扮演、休闲聊天和娱乐互动为主只有一小部分活动属于结构化任务,如编程或科学。这种模式反映了DeepSeek强烈的消费者导向,以及其作为高参与度对话模式的定位。值得注意的是,DeepSeek在夏末显示出与编程相关的使用量适度但稳定的增长,这表明轻量级开发工作流的采用量在不断增加。相比之下,Qwen呈现出几乎倒置的轮廓。在图23所示的整个时间段内,编程始终占所有令牌的40-60%,这表明技术和开发人员任务的重点明确。与Anthropic更稳定的工程成分相比,Qwen在科学,技术和角色扮演等相邻类别中表现出更高的波动性。这些周与周之间的变化意味着异构的用户基础和应用用例中的快速迭代。9月和10月,角色扮演的使用率明显上升,随后在11月出现萎缩,这暗示着用户行为的演变或下游应用程序路由的调整。总之,每个供应商都显示出与其战略重点一致的独特形象。这些差异突出了为什么没有单一的模型或提供商最佳地覆盖所有用例;它还强调了多模型生态系统的潜在好处。全球LLM的使用表现出明显的区域差异。通过检查地理细分,我们可以推断当地使用和支出如何塑造LLM使用模式。虽然下面的数字反映了OpenRouter的用户群,但它们提供了区域参与的一个快照。如图24所示,支出分布强调了人工智能推理市场日益全球化的性质北美虽然仍然是最大的单一地区,但在观察期的大部分时间里,欧洲表现出稳定和持久的贡献。在整个时间轴中,它在每周支出中的相对份额一个值得注意的发展是亚洲的崛起,不仅是前沿车型的生产者,而且是迅速扩大的消费者。在数据集发布的最初几周,亚洲约占全球支出的13%。随着时间的推移,这一比例增加了一倍多,最近一段时间达到约31%。图24:不同时间按世界地区划分的消费量各大洲每周全球使用量的份额。29如表2所示,英语占主导地位,占所有标记的80%以上。这既反映了英语语言模型的优势,也反映了OpenRouter用户群的发展趋势。然而,其他语言,特别是汉语,俄语和西班牙语,构成了一个有意义的尾巴。仅简体中文就占全球代币的近5%,这表明用户在双语或中文优先环境中的持续参与,特别是考虑到DeepSeek和Qwen等中国OSS模型的增长表2:按语言划分的令牌数量。语言基于在所有OpenRouter流量中检测到的提示语言。语言代币份额(%)英语82.87中文(简体)4.95俄罗斯2.47西班牙1.43泰国1.03其他(合并)7.25对于模型构建者和基础设施运营商来说,跨语言、跨合规制度和跨部署设置的跨区域可用性正在成为LLM采用同时在全球和本地优化的世界中的重要因素这组保留图表(图25)捕捉了LLM用户市场在领先模型中的动态。乍一看,这些数据主要是高流失和快速的队列衰减。然而,在这种波动的背后,隐藏着一个更微妙、更重要的信号:一小部分早期用户群体随着时间的推移表现出持久的保留。我们称之为基础群体。这些群体不仅仅是早期采用者;他们代表的用户的工作负载已经实现了深度和持久的工作负载模型匹配。一旦建立,这种匹配会产生经济和认知惯性,即使出现新的模式,也会抵制替代。我们引入灰姑娘玻璃鞋效应作为一个框架来描述这种现象。该假设假定,在一个快速发展的人工智能生态系统中,存在着高价值工作负载的潜在分布,这些工作负载在连续的模型代中仍然没有得到解决每一个新的前沿模型都是针对这些开放性问题进行有效的“试验”当一个新发布的模型恰好符合以前未满足的技术和经济约束时,它实现了精确的匹配-比喻的“玻璃鞋”。对于工作负载最终“适合”的开发人员或组织来说,这种对齐会产生强大的锁定效应。他们的系统、数据管道和用户体验都与首先解决他们问题的模型紧密相连。随着成本的下降和可靠性的提高,更换平台的动力急剧减少。相反,没有找到这种适合的工作负载仍然是探索性的,从一个模型迁移到另一个模型以寻找自己的解决方案。从经验上讲,这种模式在Gemini2.5Pro的2025年6月队列(图25b)和Claude4Sonnet的2025年5月队列(图25a)中可以观察到,它们在第5个月时保留了约40%的用户,大大高于后来的队列。这些群体似乎对应于特定的技术突破(例如,推理保真度或工具使用稳定性最终实现了以前不可能的工作负载。•作为持久优势的第一解决方案当模型首先解决关键工作负载时,经典的先行者优势变得重要。早期采用者将模型嵌入到管道、基础设施和用户行为中,导致了很高的切换摩擦。这创造了一个稳定的平衡,即使出现了新的替代品,该模型也保留了其基础队列30(a)Claude4Sonnet(b)Gemini2.5Pro(c)Gemini2.5Flash(d)OpenAIGPT-4oMini(e)Llama4Maverick(f)Gemini2.0Flash(g)DeepSeekR1(h)DeepSeek聊天V3-0324图25:队列保留率。留存率是以活动留存率来衡量的,如果用户在随后的几个月内返回,即31使在一段时间的不活动之后,也会被计算在内;因此,曲线可能会显示出小的非单调凸起。32•保留作为能力转变的指标群体级保持模式作为模型分化的经验信号。在一个或多个早期队列中的持续保留表明有意义的能力转变-从不可行转变为可能的工作负载类别。缺乏这种模式表明能力均等和差异化深度有限•边界窗口的时间限制竞争格局强加了一个狭窄的时间窗口,在这个窗口中,模型可以捕获基础用户。随着连续的模型缩小能力差距,形成新的基础群体的可能性急剧下降。因此,模型和工作负载精确匹配的“灰姑娘”时刻是短暂的,但对长期采用动态具有决定性意义。总而言之,基础模型的快速功能转变需要重新定义用户保留。每一代新模型都为解决以前未满足的工作负载提供了一个短暂的机会。当这种对齐发生时,受影响的用户形成基础群组:尽管随后引入了模型,但其保留轨迹保持稳定的部分。主导发射异常。OpenAIGPT-4oMini图表显示了这种现象的极端情况。单个基础队列(2024年7月,橙色线)在发布时建立了主导的粘性工作量模型拟合。所有后续的群体,在这种匹配建立之后到达,市场已经继续前进,表现相同:他们在底部搅动和聚集。这表明,建立这种基础拟合的窗口是单一的,只发生在模型被视为“前沿”的那一刻不适合的后果。Gemini2.0Flash和Llama4Maverick图表展示了一个因果关系的故事,当这种最初的适合从未建立时会发生什么。与其他模型不同,没有高性能的基础队列。每一个队列的表现都很差。这表明这些模式从未被视为高价值、棘手工作量的“前沿”。它直接进入了足够好的市场,因此未能锁定任何用户群。同样,DeepSeek混乱的图表,尽管总体上取得了压倒性的成功,但仍难以建立一个稳定的基础队列。回飞棒效应。DeepSeek模型(图25g和25h)引入了一个更复杂的模式。它们的保留曲线显示出一种极不寻常的异常:复活跳跃。与典型的、单调递减的留存率不同,几个DeepSeek队列在最初的流失期之后显示出留存率的明显上升(例如,DeepSeekR1的2025年4月队列约为第3个月,DeepSeekChatV3-0324的2025年7月队列约为第2个月)。这表明一些流失的用户正在返回模型。这种“回飞棒效应”表明,这些用户在尝试替代品并通过竞争性测试确认DeepSeek提供了最佳选择后,会返回DeepSeek,并且由于专业技术性能,成本效益或其他独特功能的潜在组合,通常更适合他们的特定工作负载。影响。“玻璃鞋”现象并不是将保留重新定义为一种结果,而是理解能力突破的一个镜头。基础群体是真正技术进步的指纹:它们标志着人工智能模型从新奇到必要的跨越。对于建筑商和投资者来说,尽早识别这些群体可能是持久模型市场优势的唯一最具预测性的信号。使用模型的成本是影响用户行为的关键因素在本节中,我们将重点关注不同的AI工作负载类别如何通过检查类别集群的日志日志成本与使用图,我们确定的模式,工作负载如何集中在低成本,高容量的地区与高成本,专业化的细分市场。我们还提到了类似的杰冯悖论效应,在这个意义上,低成本的类别往往对应于较高的总使用量,虽然我们不试图正式分析的悖论或因果关系。33图26所示的散点图显示了AI用例的明显细分,根据其聚合使用量(总令牌)对其单位成本(每100万令牌的成本)进行映射。一个关键的初步观察是,两个轴都是对数的。这种对数标度表示图表上的小视觉距离对应于现实世界的数量和成本的实质性倍增差异该图表被一条垂直线一分为二,每100万个代币的中位数成本为0.73美元,有效地创建了一个四象限框架,以简化跨类别的AI市场。请注意,这些最终成本与广告标价不同。高频工作负载受益于缓存,这降低了实际支出,并产生比公开列出的更低的有效价格所示的成本指标反映了提示和完成令牌的混合费率,提供了用户实际支付总额的更准确视图。该数据集还排除了BYOK活动,以隔离标准化的平台介导的使用,并避免自定义基础设施设置的扭曲。图26:日志成本与日志使用(按类别)高级工作负载(右上角):该象限包含高成本、高使用率的应用程序,现在包括技术和科学,位于交叉点。这些代表了有价值且使用频繁的专业工作负载,用户愿意为性能或专业功能支付额外费用技术是一个显著的异常值,比任何其他类别都要昂贵得多这表明,技术作为一个用例(可能与复杂的系统设计或架构有关)可能需要更强大和更昂贵的模型来进行推理,但它仍然保持着很高的使用量,这表明了它的本质。大众市场容量驱动因素(左上角):该象限由高使用率和低(等于或低于平均成本)定义。这个领域主要由两个大规模的用例主导:角色扮演,编程和科学。•编程作为“杀手级专业”类别脱颖而出,展示了最高的使用量,同时具有高度优化的中位成本。34•角色扮演的使用价值是非常重要的,几乎是一个令人震惊的编程。这是一个惊人的内幕:一个面向消费者的角色扮演应用程序可以驱动与顶级专业应用程序相当的参与量。这两个类别的庞大规模证实了专业生产力和会话娱乐是人工智能的主要、巨大的驱动力如前所述,在这个象限中的成本敏感性是开源模型发现的显著优势。SpecializedExperts(右下):此象限包含低容量、高成本的应用程序,包括金融、学术、健康和营销。这些都是高风险的利基专业领域。较低的总量是合乎逻辑的,因为人们可能会向人工智能咨询“健康”或“财务”,而不是“编程”。用户愿意为这些任务支付高额费用,可能是因为对准确性,可靠性和特定领域知识的需求非常高。利基工具(左下):这个象限的特点是低成本,低容量的任务,包括翻译,法律和琐事。这些都是功能强大、成本优化的实用程序。在这一组中,翻译的数量最高,而琐事的数量最低。它们的低成本和相对较低的产量表明了这些任务可以被高度优化、“解决”或商品化,其中足够好的替代品可以便宜地获得如前所述,这张图表上最重要的离群值是技术。它的成本最高,在保持高使用率的同时,这强烈表明细分市场对高价值、复杂答案的支付意愿很高(例如,系统架构、高级技术问题解决)。一个关键问题是,这种高价格是由高用户价值(“需求方”机会)还是高服务成本(“供应方”挑战)驱动的,因为这些查询可能需要最强大的前沿模型。技术的“玩法”是服务于这个高价值市场。一个能够为这一细分市场提供服务的供应商,也许通过高度优化的专业模式,可能会以更高的利润率占领市场。图27映射了模型使用情况与每100万个令牌的成本(双对数标度),揭示了弱的整体相关性。为方便起见,x轴标出了标称值。趋势线几乎持平,表明需求价格相对没有弹性;价格下降10%对应的使用量仅增加约0.5-0.7%。然而,图表上的离散度很大,反映了强烈的市场细分。出现了两种截然不同的模式:OpenAI和Anthropic的专有模型占据了高成本、高使用率的区域,而DeepSeek、Mistral和Qwen等开放模型占据了低成本、高容量的区域。此模式支持一个简单的启发式:闭源模型捕获高价值任务,而开源模型捕获大量低价值任务。价格弹性弱表明,即使是巨大的成本差异也不能完全改变需求;专有供应商保留了关键任务应用程序的定价权,而开放的生态系统则吸收了对成本敏感的用户的数量。现在,让我们放大同一地图中的特定模型作者图28与前面的图类似,但显示了模型作者。出现了四种使用成本原型。高级领导者,如Anthropic的Claude3.7Sonnet和ClaudeSonnet4,每100万个令牌的成本约为2美元,并且仍然达到高使用率,这表明用户愿意为大规模的卓越推理和可靠性付费高效的巨头,如谷歌的Gemini2.0Flash和DeepSeekV30324,将强大的性能与每100万令牌低于0.40美元的价格相结合,并实现了类似的使用水平,使其成为高容量或长上下文工作负载的有吸引力的默认值。长尾模型,包括Qwen27BInstruct和IBMGranite4.0Micro,每100万个代币的价格仅为几美分,但仍在102左右。总使用量为9,反映了性能较弱、可见性有限或集成较少最后,高端专家,如OpenAI的GPT-4和GPT-5Pro,占据了高成本,低使用率的象限:每100万令牌约为35美元,使用率接近103。4、它们很少用于利基、高风险的工作负载,其中输出质量远比边际代币成本重要。35图27:开源与闭源模式的前景:成本与使用(对数尺度)。每个点代表OpenRouter上提供的一个模型,按源类型着色。封闭源模型集群向高成本、高使用率的象限,而开源模型则主导着低成本、高容量的区域。虚线趋势线几乎是平的,表明成本和总使用量之间的相关性有限。注意事项:该度量反映了提示令牌和完成令牌的混合平均值,并且由于缓存,有效价格通常低于列表费率。BYOK活动除外36图28:人工智能模型市场地图:成本与使用(对数-对数标度)。与上图类似,但每个点都由模型提供商着色。高效的巨人google/gemini-2.0-flash0.147美元6.68低价格和强大的分销使其成为默认的高容量高效的巨人Deepseek/Deepseek-v3-03240.394美元6.55workhorse以低廉的价格提供有竞争力的质量高级领导者人/克劳德-3.7-十四行诗一千九百六十三块6.87推动大规模采用尽管保费很高,但高级领导者人/克劳德十四行诗-4一千九百三十七块6.84价格,信号偏好质量,可靠性企业工作负载价格-长尾qwen/qwen-2-7b-instruct0.052美元2.91非弹性可信边界模型最低价格,但有限长尾ibm/granite-4.0-micro0.036美元2.95可能是由于模型较弱,市场契合便宜但利基,主要用于高级专家OpenAI/GPT-434.068美元3.53有限的环境高成本和适度的使用,重新-服务为的最苛刻任务高级专家openai/gpt-5-pro34.965美元3.42超高级模型与FO-37高风险的工作负载。仍由于最近重新采用,租赁。表3:按细分市场划分的示例模型。从更新的数据集中采样的值。市场层面的回归几乎保持平稳,但细分市场层面的行为差异很大。38总体而言,散点图突出表明LLM市场的定价能力并不统一。虽然更便宜的型号可以通过效率和集成来推动规模,但高端产品在风险很高的地方仍然有强劲的需求。这种碎片化表明,市场尚未商品化,无论是通过延迟、上下文长度还是输出质量,差异化仍然是战略优势的来源。这些观察表明:•在宏观层面上,需求是缺乏弹性的,但这掩盖了不同的微观行为。具有关键任务的企业将付出高昂的代价(因此这些模型的使用率很高)。另一方面,业余爱好者和开发管道对成本非常敏感,并涌向更便宜的模型(导致高效模型的大量使用)。•有一些证据表明JevonsParkway:使一些模型非常便宜(和快速)导致人们使用它们来执行更多的任务,最终消耗更多的代币。我们在高效巨人组中看到了这一点:随着每个代币的成本下降,这些模型被整合到任何地方,总消费量飙升(人们运行更长的上下文,更多的迭代等)。•质量和功能往往胜过成本:昂贵模型(ClaudeSonnet系列,GPT-4)的大量使用通常,这些模型被集成到工作流中,其中成本相对于它们所产生的价值可以忽略不计(例如,节省一小时开发时间的代码价值远远超过几美元的API调用)。•相反,仅仅是便宜是不够的,一个模型还必须是可区分的,并且有足够的能力。许多开放模型的价格仍然接近于零,因为它们只是足够好,但没有找到一个工作负载模型适合或不太可靠,所以开发人员不愿意深入集成它们从运营商的角度来看,出现了几种战略模式。像谷歌这样的提供商已经严重倾向于分层产品(最明显的是GeminiFlash和Pro明确地权衡速度,成本和功能。这种分层可按价格敏感度和任务关键度进行市场细分:轻量级任务被路由到更便宜、更快的模型;高级模型服务于复杂或延迟容忍的工作负载。优化用例和可靠性通常与“削减”价格一样具有影响力。一个更快的、专门构建的模型可能比一个更便宜但不可预测的模型更受欢迎,特别是在生产环境中。这将焦点从每令牌成本转移到每成功结果成本。相对平坦的需求弹性表明LLM还不是一种商品-许多用户愿意为质量,功能或稳定性支付溢价。差异化仍然有价值,特别是当任务结果比边际象征性储蓄更重要时。9讨论这项实证研究提供了一个数据驱动的视角,说明LLM实际上是如何被使用的,突出了几个主题,这些主题对人工智能部署的传统智慧有细微的影响:1.多模式生态系统。我们的分析表明,没有一个单一的模型主导所有的使用。相反,我们观察到一个丰富的多模型生态系统,封闭和开放模型都占据了重要的份额。例如,尽管OpenAI和Anthropic模型在许多编程和知识任务中处于领先地位,但DeepSeek和Qwen等开源模型共同提供了总令牌的很大一部分(有时超过30%)。这表明LLM使用的未来可能是模型不可知的和异构的。对于开发人员来说,这意味着保持灵活性,集成多个模型并为每个工作选择最佳模型,而不是而不是把一切都押在一个模特的优势上对于模型提供商来说,它强调了竞争可能来自意想不到的地方(例如,社区模式可能会侵蚀你的市场的一部分,除非你不断地改进和区分)。2.使用多样性超越生产力。一个令人惊讶的发现是角色扮演和娱乐导向的使用量。超过一半的开源模型用于角色扮演和讲故事。即使在专有平台上,早期ChatGPT的使用也有一部分是在专业用例增长之前随意和创造性的。这与LLM主要用于编写代码的假设39电子邮件或摘要。实际上,许多用户使用这些模型是为了陪伴或探索。这具有重要意义。它强调了面向消费者的应用程序的巨大机会,这些应用程序融合了叙事设计,情感参与和交互性。它为人格化代理人提供了新的领域,这些代理人可以进化个性,记住偏好,或者维持长期的互动。它还重新定义了模型评估指标:成功可能不太取决于事实的准确性,而更多地取决于一致性、连贯性和维持引人入胜的对话的能力最后,它为AI和娱乐IP之间的交叉开辟了一条道路,具有互动故事,游戏和创作者驱动的虚拟角色的潜力3.代理人与人类:直觉推理的兴起。LLM的使用正在从单轮交互转向代理推理,其中模型计划,推理和执行跨多个步骤。他们现在协调工具调用,访问外部数据,并迭代地优化输出以实现目标,而不是产生一次性的响应。早期的证据显示,我们代理的多步查询和链式工具的使用正在增加代理使用。随着这一模式的扩展,评价将从语言质量转向任务完成和效率。下一个竞争前沿是模型如何有效地执行持续推理,这一转变最终可能重新定义大规模代理推理在实践中的意义4.地理展望LLM的使用正变得越来越全球化和分散化,在北美以外地区快速增长。亚洲在代币总需求中的份额从约13%上升到31%,反映出企业采用和创新的增强。与此同时,中国已成为一股主要力量,不仅通过国内消费,而且通过生产具有全球竞争力的车型。更广泛的收获:LLM必须在全球范围内有用,在语言,环境和市场上表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。5.成本与使用动态。LLM市场似乎还没有表现得像一种商品:价格本身几乎不能解释使用情况。用户在成本与推理质量、可靠性和能力广度之间进行平衡。封闭模型继续捕获高价值、与收入相关的工作负载,而开放模型则主导着低成本和高容量的任务。这创造了一个动态平衡--一个定义较少的平衡靠的是稳定性更靠的是来自下方的恒定压力开源模型不断推动效率前沿,特别是在推理和编码领域(例如KimiK2Thinking),快速迭代和开放源码软件创新缩小了性能差距。开放模式的每一次改进都压缩了专有系统的定价能力,迫使它们通过卓越的集成性、一致性、企业支持。由此产生的竞争是快速发展、不对称和不断变化的。随着时间的推移,随着质量趋同的加速,价格弹性可能会增加,将曾经的差异化市场转变为流动性更强的市场。6.保留和灰姑娘玻璃鞋现象。随着基础模型的飞跃式发展,而不是逐步发展,保留已经成为防御性的真正衡量标准。每一个突破都创造了一个短暂的启动窗口,在这个窗口中,模型可以完美地“适应”高价值的工作负载(灰姑娘玻璃鞋时刻),一旦用户找到了合适的工作负载,他们就会留下来。在这种范式中,产品-市场匹配等于工作量-模型匹配:第一个解决真正痛点的解决方案推动了深度、粘性的采用,因为用户围绕这种能力。这样一来,转换就变得昂贵了,无论是在技术上还是在行为上。对于建筑商和投资者来说,值得关注的信号不是增长,而是保留曲线,即通过模型更新保持的基础群体的形成。在一个日益快速变化的市场中,及早捕捉这些重要的未满足需求将决定谁能在下一次能力飞跃后继续生存。总之,LLM正在成为从编程到创意写作的跨领域推理类任务的重要计算基础随着模型的不断发展和部署的扩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年校园招聘考试试题带答案(能力提升)
- 2026年土地登记代理人考试题库附答案(能力提升)
- 2026年网络在线学法普法考试题库及完整答案【名师系列】
- 2026年税务师考试题库附完整答案(必刷)
- 排球技术教学课件
- 排水管改造培训课件
- 安全课件背景音乐纯音乐
- 安全课件的培训
- 换热站设备安全培训资料课件
- 新生儿败血症专题知识讲座
- 北京市西城区2024-2025学年三年级上学期期末语文试题
- 私募证券基金路演课件
- DB11-T 2493-2025 餐饮服务单位使用丙类液体燃料消防安全管理规范
- 2025年湖南省长沙市生地会考试卷附带长郡月亮岛中学生地会考及答案
- 实验室生物安全事件应急预案
- 《有机硅热载体及其安全技术条件》编制说明
- 合同纠纷欠款补充协议
- 福田戴姆勒安全生产讲解
- 亲子断绝协议书
- 2026届高考山东省模拟考试语文试题(一)含答案解析
- 公安机关保密知识培训课件
评论
0/150
提交评论