长期模型优先看好coding商业化价值_第1页
长期模型优先看好coding商业化价值_第2页
长期模型优先看好coding商业化价值_第3页
长期模型优先看好coding商业化价值_第4页
长期模型优先看好coding商业化价值_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

LLM专题研究(一)LLM技术发展从预训练架构创新向后训练和推理驱大模型能力的核心手段。展望26年,LLM主流架构基本确定,但行业仍在探索更高效架构,最大化利用算力提升建模效率的路径;此外模型性能改进的核心动能转向后训练和推理阶段,包括RLVR向其他领域拓展、以及推理时的inference-timescaling等,行业CapEX高投入趋势确定,投入领先的厂商更有可能拉开技术代差。从25~28年CapEX投入量级的3年CAGR增速看,基数和增速均较快的包括OpenAI(147%)/Anthropic(96%)/谷歌(39%)/Meta(35%)。模型厂商的投入量级有所分化,如海外互联网厂商谷歌和Meta的CapEX投入量级在千亿美元以上,国内互联网厂商(阿里、腾讯、字节)和海外AI模型大厂(OpenAI、Anthropic)投入量级在百亿美元,由技术进步决定,拥有更高CapEX投入和人才密度的厂商更有可能推动技术范式突破,由此直接提升其竞争优势;而在技术发展平台期,Coding成为现阶段LLM商业化价值最高的场景,技术特性与闭环迭代能力推动其率先爆发。Coding场景的先发优势源于两大技术支撑:内生思维链让模型可自发完成推理与思考过程,Coding的可验证性则通过反馈循环实现能力持续提升,二者形成完整迭代闭环。我们梳理逻辑,远期中美两国Coding的TAM有望达4000亿美元。整体来看,国内厂商尚未形成海外头部厂商的技术绝对优势,随着技术迭代与场景深耕,聚焦核心技术、贴合本土需求的模型厂商有望实现突破,挖掘Coding市场红利。长期模型优先,厂商差异化带来非对称竞争长期模型优先,厂商差异化带来非对称竞争LLM架构趋于收敛,26年关注①更高效的架构最大化算力利用/②后训练范式演进/③推理scalingLLM架构趋于收敛,各家建立scalinglaw,以扎实基模能力锁定AI竞赛席位。大模型的预训练是一个数据、算法、infra高度交织的复杂系统,每家模型厂商都需要从小的参数模型起步,逐步摸索并建立属于自身的scalinglaw,同步构建配套infra,筛选适配当前模型阶段的训练数据与任务数据集,持续调试,再逐步将模型参数规模迭代升级到下一个量级。无论是海外还是国内,LLM赛道已经过大浪淘沙的竞赛,底模能力扎实、持续保持技术迭代的厂商以此锁定下半场的竞赛席位,预训练是大模型竞赛的首要核心壁垒。复盘LLM发展技术脉络,模型性能改进动能从架构设计转向后训练和推理阶段,26年重点关注后训练阶段挖掘RLVR向其他领域拓展、以及推理时的inference-timescaling等。模型性能改进的核心动能从架构设计转向后训练,大的架构路线上仍以Transformer为核心,伴随线性注意力、MoE等组件的精简和效率优化。后训练的范式持续演进,22年RLHF+PPO实现从GPT到ChatGPT的蜕变,25年RLVR+GRPO则让模型开始具备逻辑推理能力。展望26年,一方面关注更高效的架构出现,用更少的算力实现更高的建模性能;另一方面关注RLVR在更多通用领域的扩展、Inference-timeScaling(在推理阶段投入更多Token和计算资源)等进一步提升模型表现。TradeTradeoffResponseaccuracyCostLatency典型代表:202220232024RLHF+PPOLoRASFTMid-trainingOpenAI7月成立专门Mid-training团队,贡献于GPTOpenAI7月成立专门Mid-training团队,贡献于GPT-4Turbo和GPT-4oChatGPTLlama2Qwen-7B2025RLVR+GRPO更侧重于中期和后期训练以及推理Scaling能力DeepSeekR12026RLVRextensionsinference-timescaling2027Continuallearning…注:OpenAI和Anthropic数据为估算值;阿里数据非财报口径,为按照自然年的季度加总;字节经营现金流数据为假设占收比10%测算。海内外模型厂商的CapEX投入对比来看(因厂商数据披露差异,OpenAI和Anthropic为大模型训练成本、智谱和MiniMax为研发投入):(1)海外vs国内,按照25-28年投入量级的3年CAGR增速来看,OpenAI和Anthropic增长最快为147%和96%。其次是国内独立模型厂商因基数较小,MiniMax和智谱的研发投入增速分别为59%和38%。传统互联网厂商看,海外谷歌、Meta以35%+的高增速,高于国内阿里的16%和腾讯的9%。(2)量级维度大致分为3类:①26~28年CapEX预测投入量级均在千亿美元以上【海外谷歌、Meta】;②CapEX预测投入量级在百亿美元,如国内传统互联网厂商【阿里、腾讯、字节】等,包括海外独立模型厂商【OpenAI、Anthropic】;③研发成本在百亿美元以内,如国内独立模型厂商【智谱、MiniMax等】。图表:2020~2028E模型厂商资本开支、模型训练研发投入、经营AnthropicAI大模型训练成本单位:亿美元,%研发开支6.578.7311.96研发开支①CapEx投入达千亿美元②CapEx/模型训练投入在百亿美元③研发投入在百亿美元以内注:OpenAI和Anthropic数据为估算值;阿里数据非财报口径,为按照自然年的季度加总;字节经营现金流数据为假设占收比10%测算。AI研发投入存在大量“试错成本”算力、人才密度是决定能否拉开技术代差的核心以24年OpenAI在计算资源上的分配为例,总支出70亿美元=研发50亿美元+推理20亿美元,其中略等)+5亿模型最终训练运行(生成可发布、可使用的最终模型版本),探索性实验活动索和实验性运行索和实验性运行AnthropicAI大模型训练成本研发开支研发开支研发开支研发开支数据来源:极客公园,凤凰网财经,注:粉色色块表示更具相对优势。大模型竞争两阶段重复,大厂和独立AI模型厂商的相对优势在不同阶段会发生强弱变化1、技术侧的范式突破更看好拥有更高CapEX投入和人才密度的厂商(大厂如谷歌、阿里,这类厂商的竞争优势将显著变强。的执行有效率,拉高AI增量收入增长斜率3、整体而言,传统互联网大厂和独立AI模型厂商更偏差异化竞争的状态。因传统互联网大厂更foc场景需要有更强的普适性,独立AI模型厂商侧CapEX高举高打,如谷歌和阿里有芯片、云、模型全栈CapEX量级相对小,依赖于外部计算资源合作,侧重于模现金充裕度传统互联网企业的主业造血能力强,提供AI投入的资源来源依赖于外部融资,现金流压力相对较大相对高,可同时支持多条技术路线的探索依赖于核心人物的技术嗅觉和前瞻判断,确定后执行传统互联网大厂组织架构有一定效率限制灵活扁平,传达和执行高效AI定位和路线选择延续互联网时代C端思路,抢夺AI流量入口,重视技术和产品用户触达面的广训练数据堆多样性更强,围绕C端用户需求专业性更强,聚焦特定领域和场景(如coding等)产品生态模型需要服务于原有多业务条线,AI商业化新场景原有业务用户生态灵活性更强,无传统业务负担,更容易和特定产业客户展开合作,形成新的目标用户生态对技术前瞻判断核心人物和背景代表模型和技术亮点商业化情况海外OpenAIAGI第一,坚定押注scalinglaw,内部规划L1-L5路线图,最早系统化推动RLHF和推理模型SamAltman(CEO)GregBrockman(联创&总裁)JakubPachocki(首席科学家)GPT-4/5、o系列推理模型RLHF、RLVR、多模态【ARR】16(23.12)55(24.12)190(25.12)250(26.02)2800(2030年),亿美元【结构】60%C端+40%企业(26.04)Google强调原生多模态,AI必须与硬件和搜索生态深度融合DemisHassabis(DeepmindCEO)JeffDean(Deepmind首席科学家)KorayKavukcuoglu(Deepmind首席技术官)Gemini系列:多模态输入NanoBanana/Veo:多模态生成无AI单独拆分【主业】25年收入4028亿美元,结构上广告73%+订阅及设备12%+云15%AnthropicAI安全与对齐(ConstitutionalAI)。押注编程和B2B,模型不仅要强,更要可解释且安全,走企业级专业路线。DarioAmodei(CEO)Claude系列:极致的编程能力与指令遵循【ARR】10(24.12)90(25.12)300(26.04)440(26.05)2240(2031年),亿美元【结构】80%来自企业客户(25.10)Grok押注算力+数据(X平台)+实时性,强调真实世界数据与推理ElonMusk(CEO)Grok系列:实时接入X平台数据【ARR】5(25E)20+(26E)Meta坚定开源路线,认为模型能力将商品化,重点在生态和分发MarkZuckerberg(CEO)AlexanderWang(首席AI官)智能体协同无AI单独拆分【主业】25年收入2010亿美元,主要是广告国内DeepSeek构建一种更接近人类思维的推理模型,关键突破点放在推理、规划和自我反思上梁文锋DeepSeek-V2/V3/R1:MoE极致优化、推理成本大幅下降-阿里强调云+AI一体化,认为模型是云服务的核心驱动力吴泳铭(ATH事业群负责人)周靖人(技术委员会首席AI架构师)Qwen-3:长文和编程能力Qwen-VL系列:多模态理解无AI单独拆分【主业】25Q4收入407亿美元,中国电商56%+国际电商14%+云智能15%+所有其他及抵消15%字节AGI为核心战略,提升模型智能吴永辉(Seed负责人)Seedream/Seedance系列无AI单独拆分【主业】25年收入1860亿美元智谱聚焦认知智能,模型处理问题能力的提升,强调训练效率、数据利用率、推理成本控制张鹏(CEO)唐杰(首席科学家)智谱-4.5/5/5.1:异步强化学习框架,代码和智能体能力【ARR】2.5(26.03)10(26.12),亿美元【结构】25年收入:26%云端+74%本地化部署Kimi押注超长上下文,认为处理超长上下文是通向AGI的关键瓶颈,主打超长无损上下文窗口杨植麟(创始人&CEO)KimiK2/2.5:超长上下文【ARR】1亿美元(26.03)MiniMax押注全模态,聚焦跨模态融合带来的智能飞跃闫俊杰(创始人&CEO&CTO)M2:极速推理,低成本Hailuo/Speech:视频/语音生成【ARR】1.5(26.02),亿美元【结构】25年收入:67%AI原生产品+33%开放平台;27%中国内地+73%海外为API收入。单元格标灰指押注单一语言模态,标黄指押注全模数据来源:ArtificialAnalysis,Coding的可验证性,CoT和RLVR推动编程正确通过、失败则报错。CoT和RLVR允许模型在代码沙盒里进行成千上万的自我对弈和试错,而编程的可验而推动模型编程能力的自我进化,向生产力工具迭代。我们认为,Coding能力的提升,一方面来自于扎实的底模能力,另一方面垂类领域数据量、多模态理解能力、harness工程等都能为coding能力的提升助力,目前海外Anth图表:ArtificialAnalysisIntelligenceIndAnthropic的优势在于,前瞻性的技24日这52天内迭代了30多项harness层功能)更早拿到海量数据的正向反馈,比如用户的cursor这类AIcoding产品把Anthropic的Claude系列模型深度集成进IDE作为分发渠道,都使得Anthropic积累到大量数据,作用于模型能图表:Claude历次版本发布情况,战略聚焦押注编程图表:Anthropic用户使用反馈和数据对模型能力提升的飞轮效应大版本具体型号发布时间前瞻技术判断前瞻技术判断形成先发优势可处理10万token上下文,编程能力大幅提升可处理20万token上下文,幻觉率降低两倍,新增工具使用功能提供性能最强、主力旗舰、速度最快三个版本;提供20万上窗口,能处理超100万token的输入内容推出Artifacts新功能;以Claude3Opus两倍的运行速度实现前沿智能,是最强大的视觉模型模型能力领先模型能力领先积累coding口碑以Claude3Opus两倍的运行速度,能力优于Clau首款混合推理模型,在编程和前端网页开发方面展现出尤为显模型能力迭代提供即时响应和用于深度推理的扩展思考功能,支持并行使用工具重点优化了智能体任务、实际编码和推理能力推理和数学计算方面展现出显著的优势自身API调用自身API调用和订阅服务数据积累第三方平台和应用第三方平台和应用层强化分发提供与Sonnet4相当的编码性能(成本仅其是目前全球在软件工程、长周期自主智能体(Agents)及计使用能力上最强的模型智能体代码评估Terminal-Bench2.0中取得最高分对模型在编码、计算机操作、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级数据来源:公司官网,AnthropicOpenAIGoogleAnthrop图表:OpenAI和AnthropicARR趋势图(亿美元)2月1日-3月2月1日-3月24日Claude团队共发布了30多项harness层面功能0数据来源:公司官网,Analysiscodingindex排位第三与Anthropic押注单一语言模态不同的是,Gemini系列从day1底层设计就是多模态模型,通过大量跨模态数据的学习和对齐,强大的基模推理能力给编程水平也带来质的飞跃。多模态推理能力为代码和可视素材的对应提供支撑,结果上体现为最终呈现的前端视觉效果极强,通过差异化的视觉对应路线级不足的短板。Coding能力训练的3个层级,从入门到中级到高级,分别是带注释的代码、项目代码、产品设计文档作为训练语料,多模态输入和推理能力对高级编程水平的训练助益显著,从纯代码的文本学习,到产品设计文档的可视化素材和代码的跨模态学习,基模推理能力图表:Gemini历次版本发布情况,注重跨模大版本具体型号发布时间先的编码基础模型之一度复杂的理解与推理任务具以及第三方用户自定义函数等工具,为智能体能力奠定基础Thinking模型,基于大幅优化的基础模型与后训练,在一系列需要高级推理能力的基准测试中处于领先地位,具备高级编程能力针对成本和速度进行了优化体编程模型用于解决复杂问题的更智能、更强大的基础模型智谱:类Anthropic战略聚焦编程,私有化部署服务经验提供科学的模型迭代方向。智谱的技术迭代始终以智力进化为核心,模型即产品,底模、推理增强、多模态能力结合,让通用模型拥有处理复杂任务的各项能力,我们理解更类似于智力提升+将harness层面功能封装在模型里,从而形成MaaS的强竞争力。从市场买单程度看,26年以来公司基模持续涨价,4月发布的GLM-5.1相较25年底的4.7涨价接近基础模型推理模型多模态模型基础模型推理模型多模态模型智能体模型具体型号输入单价输出单价缓存命中代码智能体的人工对比评测中,实测国内最佳更长的代码和智能体任务面向Coding场景强化了编码能力、长程任务规划与工具协同在Coding与Agent能力上取得开源SOTA表现,真实编程场景的使用体感逼近Cl41专为视觉编程打造的多模态Coding基座模型5代码智能体的人工对比评测中,实测国内最佳6平均涨价125%平均涨价125%平均涨价22%平均涨价12%相对于基础模型显著提升了数理能力和解决复杂任务的能力GLM-Z1-通过更长时间的深度思考来解决更开放和更复杂的问题,在研究型写作和复杂检索任务在41个公开视觉多模态榜单中综合效果达26在视觉理解精度上达到同参数规模SOTA首次融入工具调用能力,为多模态Agent提供统一技术底座13面向视觉编程打造的多模态Coding基座5集深度研究与实际操作能力于一体的Agent先降后涨先降后涨在DeviceUse基准测试中,AutoGLM表现优于ChatGPTAgent、UI-TARS-1.5和,数据来源:公司官网,数据来源:公司官网,基础模型数学推理模型视觉语言基础模型数学推理模型视觉语言模型时间具体版本特点2024年1月DeepSeekLLM经典Transformer架构,引入分组查询注意力(GQA)机制,保持性能的同时提升推理效率2024年5月DeepSeekV2MoE并引入多头潜在注意力(MLA训练成本显著下降(与67B相比节省约42.5%)、KV缓存压缩(减少约93.3%)、生成吞吐量提升等关键优化2024年12月DeepSeekV3引入无辅助损失的负载均衡策略、多token预测(MTP)等创新,优化训练稳定性与生成效率,增强长上下文处理与推理能力2025年1月DeepSeekR1采用强化学习主导的训练流程(无SFT),结合冷启动数据和多阶段训练采用强化学习主导的训练流程(无SFT),结合冷启动数据和多阶段训练,在数学、代码与自然语言推理等任务上与OpenAIo1正式版相当2025年8月DeepSeekV3.1混合推理架构,更高的思考效率和Agent能力2025年12月DeepSeekV3.2强化Agent能力,融入思考推理2026年4月DeepSeekV4原生支持100万token超长上下文,首创CSA(压缩稀疏注意力)+HCA(高度压缩注意力)交替叠加架构,大幅降低算力消耗和显存需求2024年1月DeepSeek-Coder专为代码生成、调试和优化而设计2024年2月DeepSeek-Math自研GRPO高效强化学习,在竞赛级MATH基准上以小参量实现2024年6月DeepSeek-Coder-v2最强开源编码模型2025年11月DeepSeek-Math-V2验证器-生成器协同的双向改进循环,显著提升数学推理能力,大幅减少了大模型幻觉2024年3月DeepSeek-VL混合视觉编码器的设计2024年12月DeepSeek-VL2动态分块策略和DeepSeekMoE语言模型,重点攻克高分辨率图像处理和复杂视觉任务两大难题2025年10月DeepSeek-OCR将文本内容转换为图像形式,能用比原来少得多的视觉token来表示相同的信息量,从而实现对文本信息的高效压缩数据来源:公司官网,基础模型视觉理解基础模型视觉理解模型时间具体型号特点输入:缓存命中(元/百万token)输入:缓存未命中(元/百万token)输出价格(元/百万token)2025年1月KimiK1.5发布多模态思考模型,引入思维链能力,提升长文本理解和推理能力2025年7月万亿参数MoE架构,强化代码生成、工具调用与数学推理能力142026年1月KimiK2.5引入原生多模态架构、AgentSwarm机制,支持视觉理解、代码生成、多智能体协作等能力0.742026年4月KimiK2.6长程编码能力提升,Agent集群规模与协作能力升级6.52025年4月Kimi-VLMoE架构,推理时仅激活2.8B参数,具备强大多模态推理和agent能力数据来源:公司官网,语言模型多模态生成模型音频模型语言模型多模态生成模型音频模型时间时间具体型号特点输入单价(元/百万token)输出单价(元/百万token)缓存读取缓存写入(元/百万token)2022年4月abab1首款文本模型2022年6月abab2具备对话与问答能力,能实现流畅连贯的智能对话2022年10月abab3在语言理解、多轮对话及内容生成等核心能力上显著超越上一代模型2023年5月abab5.5在写作、聊天、问答等场景中达到了GPT-3.5的水平2024年1月abab6.0国内首个MoE架构模型,处理复杂任务能力、计算效率大幅提升2025年1月Text-01采用了混合架构,融合了线性注意力、softmax注意力和MoE2025年6月MiniMaxM1MoE架构,结合闪电注意力机制,支持输入/输出100/8万个token2025年10月MiniMaxM2专为代码和agent相关应用设计,在智能、速度、成本效益之间实现最佳平衡8.40.212.6252025年12月MiniMaxM2.1重点聚焦更多编程语言和办公场景的可用性8.40.212.6252026年2月MiniMaxM2.5编程场景表现尤为突出,1美金/小时经济可行性高8.40.212.6252026年3月MiniMaxM2.7第一个模型深度参与迭代自己的模型,能自行构建harness完成高度复杂的生产力任务8.40.422.6252024年8月Hailuo-01首个视频生成模型2025年6月Hailuo-02高度复杂场景表现出色,NCR架构使训练和推理效率提升了2.5倍2025年10月Hailuo-2.3进一步升级动态表现力,在肢体动作呈现、风格化、人物微表情上显著提升2022年10月Speech-01零样本语音合成,在公开的TTS领域排行榜上占据首位2024年8月Music-01合成纯音乐为制作人快速构建歌曲的基本结构2025年4月Speech-02全新自回归TTS提供最先进的语言克隆2025年10月Music-02对人声的细腻情绪、器乐的动态张力都精准捕捉与还原注:CodexARR根据Claudecode占比Anthropic整体ARR比例假设。由于产品ARR披露时点差异,当前规模仅为估计。前Coding赛道头部产品(包括Copilot类和Agentic类),加总得到目前Coding市场规模合计接近80亿04图表:Coding赛道头部产品收入、用户、定价情况ClaudecodecursorOpenAICodexGithubCopilot发布时间2025年5月2023年3月2025年6月2022年6月ARR(亿美元)10(25.11)25(26.02)1(24.12)2(25.03)5(25.06)10(25.11)20(26.03)12(预测数据)10(预测数据)用户规模26年初以来周活用户翻倍25年DAU超100万、付费用户36万26年2/4月周活用户达160/300万截至26年1月付费用户数470万收入结构26年初以来企业订阅量增长3倍,企业收入占比超过50%---订阅价格Pro$17/moMax5x$100/moMax20x$200/moPro$20/moPro+3x$60/moUltra20x$200/moGo$8/moPlus$20/moPro5x$100/moPro20x$200/moPro$10/moPro+5x$39/moTeamstandard$20-25/moTeampremium$100-125/moEnterprise$20/seat+APITeam$40/user/moEnterprise按用量付费Enterpris

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论