版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025多模态大模型和应用商业化进程分析报告正文目录和市场不同的观点.........................................................................................................................................................4多模态是大语言模型发展的必然趋势
...........................................................................................................................5非原生
MLLM:通过
Pipeline
形式连接多模态与
LLM..........................................................................................6原生
MLLM:端到端实现多模态,头部厂商的首选架构.....................................................................................10从大模型到多模态:商业化的必由之路......................................................................................................................13海外商业化更超前,国内出海进展迅速
..............................................................................................................13二级公司:国内外
2C/2B
公司差距并不显著
......................................................................................................17多模态产品持续迭代,可用性和商业化均向好....................................................................................................18图像生成:从高质量到易用性,各玩家寻求差异化卖点
.............................................................................18视频生成:国内厂商多模态发力的主要赛道
...............................................................................................20其他多模态交互
AI
产品
..............................................................................................................................27思考:国内大模型的瓶颈,以及国内商业化的难点
............................................................................................29国内大模型瓶颈:核心依然是算力受限,从而导致技术路线创新缓慢........................................................29国内商业化难点:模型仍有差距,且用户付费习惯一般
.............................................................................30国内商业化突破点:多模态应用先行,实现单点到多点扩张......................................................................31图表目录图表
1:
代表性多模态大语言模型的时间线................................................................................................................5图表
2:
模块化
vs
原生:典型架构对比
.....................................................................................................................6图表
3:
模块化
vs
原生:原生
MLLM
具有更好的统一性和效率优势.........................................................................6图表
4:
非原生
MLLM
架构详细示意图......................................................................................................................7图表
5:
主流多模态大语言模型主体结构
...................................................................................................................8图表
6:
LLM
的性能一直在提高.................................................................................................................................9图表
7:
MLLM
的训练阶段及数据来源.....................................................................................................................10图表
8:
MLLM
幻觉的缓解方法................................................................................................................................10图表
9:
头部模型厂商的原生多模态模型和特点.......................................................................................................11图表
10:
Gemini
系列模型原生多模态架构.................................................................................................11图表
11:
头部模型厂商的原生多模态模型主要提升点..............................................................................................11图表
12:
GPT-4o
原生多模态可以通过自然的对话来优化图像................................................................................12图表
13:
Gemini
能够交错输出一道菜谱的文本和图像............................................................................................12图表
14:
典型原生
AI
应用的年度经常性收入(ARR)情况....................................................................................13图表
15:全球
Top
26
AI
产品的年化收入情况(年化收入≥1
亿美金)....................................................................14图表
16:
国内
Top
31
AI
产品的年化收入情况(年化收入>1000
万美金)..............................................................15图表
17:
Top
100
全球
AI
公司年化收入分布情况
...................................................................................................15图表
18:
Top
100
国内
AI
公司年化收入分布情况
...................................................................................................15图表
19:
AI
应用
Top
30
Web
访问量和
App
MAU
..................................................................................................16图表
20:
国内外
2C
公司的
AI
收入贡献度测算
.......................................................................................................17图表
21:
国内外
2B
公司的
AI
收入贡献度测算
.......................................................................................................18图表
22:
主流图像生成产品比较..............................................................................................................................19图表
23:
DiT
的技术本质:将
LDM
中的
U-Net
替换成
Transformer模块...............................................................20图表
24:
文生视频模型/产品排行榜:国内公司领先................................................................................................21图表
25:
图生视频模型/产品排行榜:国内公司领先................................................................................................21图表
26:
主流视频生成产品比较..............................................................................................................................22图表
27:
Seedance
1.0
相较于之前
Seed
视频生成模型核心亮点
..........................................................................23图表
28:
Seedance
1.0
的数据处理流程
.................................................................................................................24图表
29:
Seedance
1.0
的扩散
Transformer
架构
...................................................................................................24图表
30:
Seedance
1.0
定制化
RLHF+多维度奖励模型实现模型多维度协同提高
..................................................25图表
31:
Seedance
1.0
的官方评测结果
.................................................................................................................25图表
32:
MiniMax
Hailuo
02
NCR
架构示意图(扩散主干部分)
...........................................................................26图表
33:
Hailuo
02
成本远低于同类竞品
.................................................................................................................26图表
34:
Hailuo
02
能生成复杂、连续的体操/杂技动作...........................................................................................26图表
35:
Hailuo
Video
Agent
的后续迭代节奏:瞄准完全自主端到端视频
Agent
...................................................27图表
36:
其他多模态产品比较
.................................................................................................................................28图表
37:
PictureThis
App
首次登录即需要绑定付费信息.........................................................................................30图表
38:
形色
App
没有明显的收费入口..................................................................................................................30图表
39:
快手可灵(Kling)的商业化进展迅速
.......................................................................................................31和市场不同的观点市场对多模态模型基础架构上有认知差,原生多模态还没成为主流叙事大多数现有的
MLLM
采用模块化架构,即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生
MLLM
将视觉感知和多模态理解直接集成到单个
LLM
中,由于其端到端性和统一性,原生
MLLM
可以更容易地使用现有的
LLM
推理库进行部署,并且比模块化
MLLM
显示出更高的效率。在原生
MLLM
领域,全球较为领先的玩家主要是
OpenAI
和
Google,后续
Meta
在
Llama
4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于
OpenAI
和
Google的原生
MLLM
旗舰模型为闭源,且
Llama
4
虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生
MLLM
进行技术性分析。从效果上看,Gemini
和
4o
的原生多模态,展现出指令跟随好、时延短、一致性强的优势。原生
MLLM
通常需要较高的训练成本和训练
Know-How,一般只有头部的模型厂商才会采取这种架构。反观国内,已经实现原生多模态且参数规模较大的模型还未问世,虽然字节豆包等
Chatbot
也能实现各种模态的输入和输出,但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态,但是实际底层
Know-How
差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距,以及可能带来的新训练算力需求。市场更关注国内二级公司的商业化进度,而忽略了全球维度内一级公司的商业化进展据我们估算,截至最新年度或季度,国内典型
C
端
AI
应用上市公司
AI
收入占总收入比重约
12.5%,海外典型
C
端公司为
13.1%;国内典型
B
端
AI
应用上市公司
AI
收入占总收入比重约
9.0%,海外典型
B
端公司为
9.4%。因此市场广泛判断
AI
应用,尤其是
2B
进展不及预期(AI
收入体量一般在年化
1
亿美金)。然而,纵观全球包含一级公司在内的
AI
应用公司,OpenAI、Anthropic、Scale
AI
年化收入均在
10
亿美金以上,OpenAI
甚至已经达到
100
亿美金。此外,像
AI
原生应用
Midjourney(图像生成)年化收入已经达到
6
亿美金,Cursor(AI
Coding)达到
5
亿美金,6sense(AI
营销)达到
2
亿美金,manus
短短几个月也实现了近
5000
万美金年化收入,AI
应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的
AI
应用多数出海、2B
市场进展较慢,导致国内市场产生了认知偏差,忽略了全球维度的
AI
应用商业化进步。多模态是大语言模型发展的必然趋势大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型(LLM)和大型视觉模型(LVM)融合的结果。借助
Scaling
Law,LLM
已经几乎学习了公开可得的互联网级别数据。24
年
9
月
OpenAI
提出
o
系列模型后,全球模型在强化学习技术的加持下,进一步获得了思维涌现和强推理能力。但是
LLM
处理的核心信息是文本,模态较为单一。反观
LVM,对于视觉等多模态有优秀的感知能力,但通常在推理方面存在不足。结合
LLM
和
LVM
的优势,多模态大型语言模型(MLLM)得以问世。形式上,MLLM
指的是基于
LLM
且具备接收、推理和输出多模态信息能力的模型,能够使用多模态指令微调来增加其遵循人类指令的能力,从而实现基于图片编写网站、理解图像、光学字符识别(OCR)等能力。图表1:
代表性多模态大语言模型的时间线资料来源:《A
surveyonmultimodal
large
languagemodels》Yin(2023)、华泰研究模块化
vs
原生架构:原生
MLLM
具有更好的统一性和效率优势。大多数现有的
MLLM
采用模块化架构,即不同的模态部分为拼接的“pipeline”形式,其中视觉编码和语言解码分开处理,通常先用预训练视觉编码器(如
ViT/CLIP)提取图像特征,再借助少量插入层(如查询
Transformer、交叉注意力)将视觉特征送入
LLM。另一种结构是单体
MLLM,也即“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM
将视觉感知和多模态理解直接集成到单个
LLM
中,由于其端到端性和统一性,原生MLLM
可以更容易地使用现有的
LLM
推理库进行部署,并且比模块化
MLLM
显示出更高的效率。然而,原生
MLLM
通常需要较高的训练成本和训练
Know-How,一般只有头部的模型厂商才会采取这种架构。图表2:
模块化
vs
原生:典型架构对比定义特点优势劣势开处理,通常通过将预
和额外对齐层训练的视觉编码器与LLM
相结合来实现资料来源:Mono-InternVL
论文,Luo(2024)、华泰研究图表3:
模块化
vs
原生:原生
MLLM
具有更好的统一性和效率优势模块化
MLLM 视觉编码和语言解码分
依赖预训练单模态模型
训练简单,有很多现成的模块
模块拼接会存在误差叠加、对(如开源
LLM)直接使用齐不准确等问题,而且通常效率
要
低
于
端
到
端
的
原
生MLLM;原生
MLLM 不依赖预训练大语言模
在同一模型、同一损失函
避免了后期对齐中的模态不
需要较高的训练成本和训练型或视觉编码器,直接
数下端到端训练,多模态
一致问题,有助于模型自注意
Know-How在全部模态数据上从头
token
共享语义空间 力层自然融合不同模态输入开始同步训练的模型 更容易地使用现有的
LLM
推理库进行部署;更高的效率资料来源:Mono-InternVL
论文,Luo(2024)、华泰研究非原生
MLLM:通过
Pipeline
形式连接多模态与
LLMLLM
是
MLLM
的“大脑”,编码器、连接器、生成器是
MLLM
理解多模态的“五官”。从技术角度讲,不同
MLLM
有着相似的结构范式,只是内部的模块细节有差别。典型
MLLM架构包括编码器、连接器和
LLM。其中,1)编码器:接收图像、音频或视频,并输出相应的模态特征。2)连接器:接收编码器提取的特征并处理,帮助
LLM
更好的理解这些特征。连接器还可以分为基于投影的连接器、基于查询的连接器和基于融合的连接器。前两种类型采用
token
级融合,将特征处理成
token,与文本
token
一起处理。最后一种类型在
LLM内部实现特征级融合。3)LLM:用来生成文本信息。4)其他模块:如果想要生成文本以外的多模态信息,则还需要在
LLM
之后附加生成器,来生成除文本以外的相应模态。图表4:
非原生
MLLM
架构详细示意图资料来源:《A
surveyonmultimodal
large
languagemodels》Yin(2023)、华泰研究为了提升
MLLM
最终效果,可以针对
MLLM
架构的不同部分进行相应优化。编码器优化的核心是提高分辨率。1)直接缩放法:用更高分辨率的预训练编码器来处理输入信息,例如处理更高分辨率的输入图片。或者采取两个编码器分别处理高分辨率和低分辨率图像,再通过交叉注意力将高分辨率特征注入到低分辦率分支中,例如智谱
CogAgent。2)图像分块法:将高分辨率图像切割成块,并重复使用低分辨率编码器处理“块”。例如将高分辨率图像分割成较小的块后,同步发送高清的“分割图像”与低分辨率的“全局图像”到图像编码器,让编码器分别捕获局部和全局特征。图表5:
主流多模态大语言模型主体结构注:I→O
代表输入到输出模态。其中,I
代表图像,V
代表视频,A
代表音频,3D
代表点云,T
代表文本资料来源:《MM-LLMs:RecentAdvancesin
MultiModalLarge
Language
Models》Zhang(2024)、华泰研究LLM
优化的核心在于提升推理能力。随着
Scaling
Law、强化学习、高质量数据集、单一算力集群的发展,LLM
的推理能力不断提升。尤其是
DeepSeek、阿里
Qwen、Meta
Llama模型的开源,逐步拉近开源模型和闭源模型的差距。2025
年
5
月
28
日,DeepSeek
开源了
R1
升级版
R1-0528,在各项测评上进一步逼近了
OpenAI
最先进的
o3
闭源模型(参见研报:《计算机:DS-R1
更新,实现
15%以上性能提升》2025/5/30)。此外,Qwen、Llama以及小米发布的
MIMO
模型,均有较小的参数尺寸,适合在端侧进行部署,同样能够带动端侧
MLLM
的发展。因此,更多强推理的
LLM
能够被用到
MLLM
中,使得
MLLM
的能力自然的随着
LLM
的发展“水涨船高”。图表6:
LLM
的性能一直在提高注:纵轴代表
MMLU-Pro
测评集,用来评估大语言模型的跨学科推理与语言理解能力。资料来源:各公司官网、华泰研究连接器是非基础模型厂商实现
MLLM
的便捷手段。25
年
3
月
和
OpenAI
先后更新了
Gemini
2.0
Flash
和
GPT-4o
的原生图像生成,由于架构具有较好的端到端一致性,模型图像理解、生成、编辑能力大幅提高。但是前文已经分析过,端到端的
MLLM
训练成本/Know-How
要求较高,不是所有厂商都能够实现。因此性能有损但是更便捷的做法包括:1)在预训练的视觉编码器和
LLM
之间引入可学习的连接器(Connector),将多模态信息投影到
LLM
能够高效理解的子空间中,从而连接视觉和语言模态。2)借助专家模型将图像翻译成语言,然后发送到
LLM
进行处理。这两种方法都能实现非端到端的模态链接,从而融合成
MLLM。架构确认好后,完整的
MLLM
一般需要经过预训练、指令微调和对齐微调三个训练阶段。预训练、指令微调和对齐微调三个阶段都需要不同类型的数据并对应不同的优化目标。预训练旨在对齐不同模态并学习多模态世界知识;指令微调教会模型更好地理解用户的指令并完成要求的任务;对齐微调用于与特定的人类偏好场景对齐。图表7:
MLLM
的训练阶段及数据来源训练阶段目的方法数据来源预训练(Pre-training)模文本配对数据,例如图像/音频/视频
(Connector)数据预训练旨在对齐不同模态并学习多模
将预训练模块(例如视觉编码器和
数据主要为了对齐不同模态和提供世界知识。预训练语态世界知识。预训练阶段通常涉及大规
LLM)冻结并训练一个可学习的接口
料库可以根据粒度分为粗粒度(如大规模的互联网数据)和细粒度数据(包含更长且更准确的图像描述,有可能是多模态模型生成的合成数据)指令微调(Instruction
tuning) 教会模型更好地理解用户的指令并完
使用多模态指令样例进行训练。样
指令微调样本的数据质量的重要性不亚于数量。主要的成要求的任务。LLM
可以通过遵循新
例通常包括一个可选的指令和一个
数据来源有:1)利用现有的高质量数据集来构建指令格的指令泛化到未见过的任务,从而提升
输入输出对示例 式化的数据集。2)利用
LLM
使用少量手工标注的样本零样本性能 生成遵循指令的文本数据,例如让
ChatGPT生成。3)仅语言的用户-LLM
对话数据也可以用于提高对话能力和指令遵循能力对齐微调(Alignment
tuning) 常用于模型需要与特定的人类偏好对
人类反馈的强化学习(RLHF,曾用
收集的要点在于收集模型响应的反馈。收集此类数据通齐的场景,例如具有较少幻觉的响应
于
ChatGPT
的对齐,原理是利用强
常更昂贵,好在用于此阶段的数据量通常甚至比之前阶化学习来对齐
LLM
与人类偏好,其
段使用的少中人类标注作为监督在训练循环中提供)和直接偏好优化(DPO,从人类偏好标签中学习)资料来源:《A
surveyonmultimodal
large
languagemodels》Yin(2023)、华泰研究通过校正的方法缓解
MLLM
的幻觉,能够进一步提升模型表现。多模态幻觉是指由
MLLM生成的响应与图像内容不一致的现象。幻觉可以分为:1)存在幻觉:模型错误地判断物体的存在。2)属性幻觉:错误描述某些物体的属性,例如颜色。3)关系幻觉:物体之间关系的错误描述,例如位置。幻觉的缓解方法,可以根据使用的“时间先后”,分为预校正、过程校正和后校正。图表8:
MLLM
幻觉的缓解方法幻觉解决方法说明预校正类似于提前“告诉”模型,什么结果好,什么结果坏。例如收集专业数据(例如负样本数据)、收集人类偏好对,并使用该数据进行微调,从而减少模型幻觉过程校正更深层次的“本质性”矫正,即尝试探索幻觉的原因,通过改进架构设计或特征表示。例如引入连续控制因子来控制模型在推理时输出中的想象程度后校正属于“治标不治本”的补救措施,例如结合专家模型来补充图像上下文信息和生成流程,以逐步纠正幻觉资料来源:《A
surveyonmultimodal
large
languagemodels》Yin(2023)、华泰研究原生
MLLM:端到端实现多模态,头部厂商的首选架构原生
MLLM
需要更强的
Know-How
和充足的算力资源来从头训练,通常头部模型厂商会采用此架构。在原生
MLLM
领域,全球较为领先的玩家主要是
OpenAI
和
Google,后续Meta
在
Llama
4
模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于OpenAI
和
的原生
MLLM
旗舰模型为闭源,且
Llama
4
虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生
MLLM
进行技术性分析。从模态实现上看,输入模态基本覆盖了主要的文本、图像、视频、音频,输出模态仍然局限在文本、图像,OpenAI
的
4o
系列还支持原生输出音频。本本报报告告来来源源于于三三个个皮皮匠匠报报告告站站((wwwwww..ssggppjjbbgg..ccoomm)),,由由用用户户IIdd::867690673459下下载载,,文文档档IIdd::772244670629,,下下载载日日期期::22002255--0077--1111图表9:
头部模型厂商的原生多模态模型和特点模型厂商支持模态架构特点/机制Gemini1.5/2.0/2.5Google
(DeepMind)输入:文本、图像、视频、音频
Decoder-only
+
MoE
架构,支持百万级上下文。训输出:文本、图像练过程同步整合了文本、图像、音频和视频数据。在模型大厂中率先实现原生多模态GPT-4oOpenAI输出:文本、图像、语音输入:文本、图像、视频、音频
GPT-4o
端到端训练统一了文本/视觉/音频,所有的输入和输出都由同一个神经网络处理。由于
GPT-4o
是OpenAI
第一个结合所有这些模态的模型,仍处于探索该模型的功能及其局限性的起步阶段Llama4Scout/
MaverickMeta输入:文本、图像输出:文本早期融合+
MoE
架构,将文本和视觉
token
无缝集成到统一的模型主干中资料来源:各公司官网、华泰研究图表10:
Gemini
系列模型原生多模态架构资料来源:Google
Gemini
技术报告、华泰研究Gemini
和
4o
的原生多模态,展现出指令跟随好、时延短、一致性强的优势。虽然没有模型技术细节,但是可以直接从
C
端用户角度去评判大模型产品的效果。1)在图像生成上,Gemini
2.0
Flash
和
4o
的原生多模态使得自然语言优化图像、文字渲染、图文交错输出等性能得到很大提高,指令跟随能力强,且渲染的文本不再像之前的模型经常乱码。2)在音频生成上,过去
GPT-4
要经历语音转文字/推理文字/文字合成语音三个阶段,而
GPT-4o用“单个从头训练的网络同时接收文本、音频、图像并实时输出”,保留了语调、情感、环境声等细节,减少信息损失,时延也大大降低。图表11:
头部模型厂商的原生多模态模型主要提升点模型厂商 原生多模态效果提升点Gemini
2.0Google(DeepMind)文本和图像结合:使用
Gemini2.0
Flash
讲述故事,会用图片来说明,并在整个过程中保持角色和场景的一致性会话式图像编辑:通过多次自然语言对话编辑图像,非常适合迭代以获得更好的图像输出世界认知:利用世界知识和增强的推理能力来创建正确的图像。非常适合创建详细且逼真的图像——比如插图菜谱文本渲染:大多数图像生成模型难以准确渲染长文本序列,2.0
Flash
具有更强的渲染能力,非常适合创建广告、社交帖子甚至邀请函GPT-4oOpenAI
可以在短至
232
毫秒内响应音频输入,平均为
320
毫秒,与人类在对话中的反应时间相似。而之前的模型平均延迟为
2.8
秒(GPT-3.5)和
5.4
秒(GPT-4)更好的指令跟随、更好的文本渲染,支持输出
3D(25
年
3
月升级原生图像生成后)可以通过自然的对话来优化图像。GPT-4o
可以基于聊天环境中的图像和文本进行构建,确保整个过程的一致性。例如,设计视频游戏角色,当用户进行优化和试验时,该角色的外观在多次迭代中始终保持一致原生图像生成使
4o
能够连接文本和图像之间的知识,从而产生一个感觉更智能、更高效的模型Llama4Scout/
MaverickMeta模型学会以统一的方式理解图片和文本资料来源:各公司官网、华泰研究图表12:
GPT-4o
原生多模态可以通过自然的对话来优化图像图表13:
Gemini
能够交错输出一道菜谱的文本和图像资料来源:OpenAI
官网、华泰研究资料来源:Google
官网、华泰研究我们预测,国内原生多模态模型将在
25H2
逐渐发力,并在明年成为头部厂商的主流路径。虽然当前时点看,国内还没有像
GPT-4o、Google
Gemini
这种原生的旗舰多模态模型,但是国内大厂已经开始尝试原生的架构并且做了相应的工作。例如,25
年
3
月阿里巴巴开源了
Qwen2.5-Omni
系列,模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。Qwen2.5-Omni
采用新的端到端(即原生)Thinker-Talker
架构,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。虽然
Qwen2.5-Omni
参数仅有
7B,无法比肩
GPT-4o、Google
Gemini,但是说明国内大厂也基本走通了端到端的原生多模态架构。因此我们认为,国内原生多模态模型将在
25H2
逐渐发力,并在明年成为头部厂商的主流路径。率先突破的厂商,或还是阿里巴巴、字节跳动、腾讯等头部、算力充足的互联网大厂。从大模型到多模态:商业化的必由之路AI
应用公司会基于
LLM/MLLM
的能力,搭建相应的原生
AI
产品,实现商业化。从全球AI
公司的商业化进展看,无论是基于
LLM
的文本类产品,还是基于
MLLM
的多模态产品,呈现出以下大趋势:1)海外商业化进展快于国内。2)全球维度,一级公司进展快于二级。3)整体多模态为主的产品商业化快于文本产品。4)Chatbot
为代表的文本类产品国内外商业化分歧明显,在海外能够实现
10
亿美金以上的
ARR(如
OpenAI、Anthropic),而国内Chatbot
还未实现很好的商业化。图表14:
典型原生
AI
应用的年度经常性收入(ARR)情况注:Sacra
数据和后文非凡产研数据或存在口径不一问题,导致部分产品年化收入有出入。截至
25
年
4
月。资料来源:Sacra、各公司官网、华泰研究海外商业化更超前,国内出海进展迅速全球维度,年化收入超过
1
亿美金的产品绝大多数为海外+多模态+初创公司,且头部效应显著。据非凡产研统计数据,截至
25
年
5
月,全球主要的
AI
产品中,年化收入超过
1
亿美金的有
26
个,其中
3
个产品来自国内公司(美图、快手、睿琪软件,其中美图、快手为上市公司),占比
11.5%;多模态产品有
12
个,占比
46.2%。收入区间上看,年化收入超过50
亿美金的仅有OpenA(I
未考虑OpenAI
2B
的API
收入),10-50亿美金的仅有Anthropic(未考虑
Anthropic
2B
的
API
收入),这两家均为全球大模型的龙头厂商,其模型产品是全球大模型中的领先者。2-10
亿美金的公司有
Midjourne(y
图像生成)、Anysphere(AI
Coding)、Dialpad(客户支持)、6sense(营销)。Top
100
AI
产品的年化收入大多在
1
亿美金以下。我们认为,全球
AI
商业化上,头部效应显著,海外商业化快于国内,多模态产品是其中重要的产品形态,AIGC、Coding、客服等场景均有较成功的商业化典型。图表15:
全球
Top
26
AI
产品的年化收入情况(年化收入≥1
亿美金)排序
产品名称 所属公司 分类Web
收入
App
收入 产品收入是否多模态
海外/国内(百万美金)
(百万美金)
(百万美金)1 ChatGPT
OpenAI
聊天机器人
是
海外
4089
1556
56452ClaudeAnthropic聊天机器人否海外106719 10863MidjourneyMidjourney图片生成是海外6220 6224CursorAnysphere代码助手否海外3000 3005DialpadDialpad客户支持否海外3000 30066sense6sense营销工具否海外2000 2007Hugging
FaceHugging
Face模型训练Infra海外1570 1578FaceAppFaceApp图片编辑是海外0152 1529RunwaymlRunway
ML视频生成是海外1500 15010ThoughtSpotThoughtSpot数据分析否海外1500 15011MoveworksMoveworks智能体否海外1480 14812GleanGlean效率工具否海外1280 12813Eleven
LabsEleven
Labs文本转声音是海外1250 12514MercorMercor招聘工具否海外1230 12315FacetuneLightricks形象生成是海外0114 11416SunoSuno音乐生成是海外8720 10717美图秀秀美图公司图片编辑是国内0105 10518PerplexityPerplexity
AI智慧搜索是海外8517 10219KLING
AI快手视频生成是国内929 10120PictureThis睿琪软件物体识别是国内0100 10021SynthesiaSynthesia视频生成是海外1000 10022SOCiSOCi营销工具否海外1000 10023Together
AITogether
AI模型训练Infra海外1000 10024FloQastFloQast金融否海外1000 10025ThoughtfulThoughtful智能体否海外1000 10026WindsurfWindsurf代码助手否海外1000 100注:数据截至
25
年
5
月
30
日资料来源:非凡产研、华泰研究国内维度,年化收入靠前的产品主要为多模态+上市公司,且出海比例高。据非凡产研统计数据,国内年化收入超过
1000
万美金的
AI
产品有
31
个,其中拥有最多上榜产品的公司为美图(5
个产品)。相比全球头部的
AI
产品收入,国内收入差一个数量级以上(美图秀秀/快手
1
亿美金年化收入
vs
OpenAI
56
亿美金年化收入)。国内
AI
产品年化收入超过
1
亿美金的有
3
家公司,分别为美图(1357
HK)、快手(1024
HK)和睿琪软件(非上市),其AI
产品均为多模态产品。2000
万-1
亿美金的有
12
家,其中阿里巴巴(9988
HK
/
BABA
US)在列。Top100
国内
AI
产品中大多数公司年化收入在
1000
万美金以下。产品形态和出海角度看,31
个产品中,有
21/24
个产品为多模态/出海,多模态/出海占比分别为
67.7%/77.4%。图表16:
国内
Top
31
AI
产品的年化收入情况(年化收入>1000
万美金)排序
产品名称分类所属公司是否多模态是否出海Web
收入(百万美金)App
收入(百万美金)产品收入(百万美金)1 美图秀秀图片编辑美图公司是01051052 KLING
AI视频生成快手是是9291013 PictureThis物体识别睿琪软件是是01001004夸克浏览器阿里巴巴否083835 manus智能体蝴蝶效应是是417486 HeyGen视频生成HeyGen是是410417 Airbrush视频编辑美图公司是是435408 BeautyPlus图片编辑美图公司是是028289 OpusClip视频编辑OpusClip是是2702710
PLAUD文章摘要PLAUD否是0242411
Genspark智能体MainFunc
是是2202212
美颜相机图片编辑美图公司是0222213
Clipto.AI社媒工具Clipto.AI否是2202214
Openart图片生成Openart是是2102115
Fotor图片编辑恒图科技是是1362016
Wink视频编辑美图公司是0191917
PolyBuzz情感陪伴作业帮否是01919蝴蝶效应否是15218Monica
写作软件YouCam
Makeup
图片编辑玩美移动是是01616加勒比熊猫
否是01515Solvely 教育Filmora
视频编辑万兴科技是是01515思维巡航否是10414Notta
会议助手AI
Mirror
形象生成Polyverse
是是01414玩美移动是是01414YouCamPerfect
图片编辑Linky
情感陪伴昆仑万维否是01313昆仑万维是是13013Mureka
音乐生成SeaArtAI
图片生成海艺互娱是是11213字节跳动否01212猫箱
情感陪伴HixAI
写作软件HIX.AI否是1201230
LiblibAI
图片生成奇点星宇是12012快手是0111131
快影
视频编辑注:数据截至
25
年
5
月
30
日资料来源:非凡产研、华泰研究图表17:
Top100
全球
AI公司年化收入分布情况图表18:
Top100
国内
AI公司年化收入分布情况注:数据截至
25
年
5
月
30
日资料来源:非凡产研、华泰研究注:数据截至
25
年
5
月
30
日资料来源:非凡产研、华泰研究114207401020304050607080数量(亿美金)10-50亿美金1-2亿美金以下50亿美金以上2-10亿美金1亿美金以下3122362010203040506070数量(亿美金)1亿美金以上2000万-1亿美金1000-2000万美金1000万美金以下另外我们还发现,高流量/高
MAU
的产品并不意味着商业化能力更强,流量/MAU/商业化“三高”的公司,几乎都是海外头部公司,多模态可能是国内商业化更好的出路。具体地,Web
端看,同时出现在
Top
26
收入排行榜和
Top
30
Web
访问量排行榜的,有
ChatGPT(聊天助手)、Perplexity(AI
搜索)、Claude(聊天助手)、Hugging
Face(Infra)、ElevenLabs(AI
语音)。App
端看,有
ChatGPT(聊天助手)、美图秀秀(AI
图像)。其中仅有美图是国内公司。即使像
DeepSeek、豆包这种流量
Top
的国内应用,收入层面也相对较少。我们认为,流量/MAU/商业化同时有较好实现的公司基本都是海外头部公司,背后可能是付费习惯/模型智能的差距。产品模态上,文本模态国内外差异化显著,以典型的聊天助手类应用为例,国内几乎很难实现商业化,而国外却能做到几乎最
Top
的商业化(OpenAI、Anthropic)。因此多模态或是国内商业化更好的出路,美图、快手、睿琪软件进展较快。图表19:
AI应用
Top
30
Web
访问量和
AppMAU排名产品Web
访问量市场 分类访问量
是否出现在
Top
26(万) 收入排行榜排名产品市场App
MAU分类活跃用户
是否出现在
Top
26(万人) 收入排行榜1ChatGPT海外
聊天机器人
549,239是 1ChatGPT海外
聊天机器人
60,284是2Gemini海外聊天机器人52,7742Deepseek国内聊天机器人21,6293Deepseek国内聊天机器人41,2963百度
AI
搜索国内智慧搜索17,0254Character.AI海外情感陪伴18,709
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年地理教师资格证笔试重点集
- 2026年学生用电安全知识
- 2026年住宅平面设计竞赛
- 2026年高考生物终极冲刺:抢热点01 阿尔茨海默症与蛋白质的结构(原卷版)
- 2026年高考生物终极冲刺:技巧01 高考生物核心答题规律(解析版)
- 小学四年级数学下册第一二单元第一次月考含答案及解析
- 2026广西贵港市桂平市社会保险事业管理中心招募见习人员3人备考题库及答案详解(典优)
- 2026江苏南通再就业工程开发有限公司招聘工作人员3人备考题库附答案详解(综合题)
- 2026广东珠海市港珠澳大桥海关招聘协管员3人备考题库含答案详解(综合卷)
- 2026宁波钱湖控股有限公司招聘派遣制人员1人备考题库含答案详解(培优)
- 2025年肿瘤放疗学科期末考试答案及解析
- 文献阅读报告汇报
- 2024水工混凝土建筑物缺陷检测和评估技术规程
- 《数字化供应链 供应商管理第5 部分:电力行业》编制说明
- 铁路调车运转知识培训课件
- 部队装备换季保养课件
- 环卫驾驶员安全知识培训课件
- 2025年贵州综合评标专家库评标专家考试综合能力测试题及答案二
- 丁螺环酮药物研究与应用
- 陕西省安全员C3证考试题库及答案
- 2025江苏卫生系统招聘考试(医学检验技术)强化练习题及答案
评论
0/150
提交评论