2025多模态大模型和应用发展趋势及商业化进程分析报告

上传人：1*** IP属地：广东上传时间：2026-05-12 格式：PPTX 页数：31 大小：12.56MB 积分：20 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025多模态大模型和应用商业化进程分析报告正文目录和市场不同的观点.........................................................................................................................................................4多模态是大语言模型发展的必然趋势

...........................................................................................................................5非原生

MLLM：通过

Pipeline

形式连接多模态与

LLM..........................................................................................6原生

MLLM：端到端实现多模态，头部厂商的首选架构.....................................................................................10从大模型到多模态：商业化的必由之路......................................................................................................................13海外商业化更超前，国内出海进展迅速

..............................................................................................................13二级公司：国内外

2C/2B

公司差距并不显著

......................................................................................................17多模态产品持续迭代，可用性和商业化均向好....................................................................................................18图像生成：从高质量到易用性，各玩家寻求差异化卖点

.............................................................................18视频生成：国内厂商多模态发力的主要赛道

...............................................................................................20其他多模态交互

产品

..............................................................................................................................27思考：国内大模型的瓶颈，以及国内商业化的难点

............................................................................................29国内大模型瓶颈：核心依然是算力受限，从而导致技术路线创新缓慢........................................................29国内商业化难点：模型仍有差距，且用户付费习惯一般

.............................................................................30国内商业化突破点：多模态应用先行，实现单点到多点扩张......................................................................31图表目录图表

1：

代表性多模态大语言模型的时间线................................................................................................................5图表

2：

模块化

原生：典型架构对比

.....................................................................................................................6图表

3：

模块化

原生：原生

MLLM

具有更好的统一性和效率优势.........................................................................6图表

4：

非原生

MLLM

架构详细示意图......................................................................................................................7图表

5：

主流多模态大语言模型主体结构

...................................................................................................................8图表

6：

LLM

的性能一直在提高.................................................................................................................................9图表

7：

MLLM

的训练阶段及数据来源.....................................................................................................................10图表

8：

MLLM

幻觉的缓解方法................................................................................................................................10图表

9：

头部模型厂商的原生多模态模型和特点.......................................................................................................11图表

10：

Google

Gemini

系列模型原生多模态架构.................................................................................................11图表

11：

头部模型厂商的原生多模态模型主要提升点..............................................................................................11图表

12：

GPT-4o

原生多模态可以通过自然的对话来优化图像................................................................................12图表

13：

Gemini

能够交错输出一道菜谱的文本和图像............................................................................................12图表

14：

典型原生

应用的年度经常性收入（ARR）情况....................................................................................13图表

15：全球

Top

产品的年化收入情况（年化收入≥1

亿美金）....................................................................14图表

16：

国内

Top

产品的年化收入情况（年化收入>1000

万美金）..............................................................15图表

17：

Top

100

全球

公司年化收入分布情况

...................................................................................................15图表

18：

Top

100

国内

公司年化收入分布情况

...................................................................................................15图表

19：

应用

Top

Web

访问量和

App

MAU

..................................................................................................16图表

20：

国内外

公司的

收入贡献度测算

.......................................................................................................17图表

21：

国内外

公司的

收入贡献度测算

.......................................................................................................18图表

22：

主流图像生成产品比较..............................................................................................................................19图表

23：

DiT

的技术本质：将

LDM

中的

U-Net

替换成

Transformer模块...............................................................20图表

24：

文生视频模型/产品排行榜：国内公司领先................................................................................................21图表

25：

图生视频模型/产品排行榜：国内公司领先................................................................................................21图表

26：

主流视频生成产品比较..............................................................................................................................22图表

27：

Seedance

1.0

相较于之前

Seed

视频生成模型核心亮点

..........................................................................23图表

28：

Seedance

1.0

的数据处理流程

.................................................................................................................24图表

29：

Seedance

1.0

的扩散

Transformer

架构

...................................................................................................24图表

30：

Seedance

1.0

定制化

RLHF+多维度奖励模型实现模型多维度协同提高

..................................................25图表

31：

Seedance

1.0

的官方评测结果

.................................................................................................................25图表

32：

MiniMax

Hailuo

NCR

架构示意图（扩散主干部分）

...........................................................................26图表

33：

Hailuo

成本远低于同类竞品

.................................................................................................................26图表

34：

Hailuo

能生成复杂、连续的体操/杂技动作...........................................................................................26图表

35：

Hailuo

Video

Agent

的后续迭代节奏：瞄准完全自主端到端视频

Agent

...................................................27图表

36：

其他多模态产品比较

.................................................................................................................................28图表

37：

PictureThis

App

首次登录即需要绑定付费信息.........................................................................................30图表

38：

形色

App

没有明显的收费入口..................................................................................................................30图表

39：

快手可灵（Kling）的商业化进展迅速

.......................................................................................................31和市场不同的观点市场对多模态模型基础架构上有认知差，原生多模态还没成为主流叙事大多数现有的

MLLM

采用模块化架构，即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型，训练时同时使用图文/语音等数据构建统一目标，无需先后分阶段。原生

MLLM

将视觉感知和多模态理解直接集成到单个

LLM

中，由于其端到端性和统一性，原生

MLLM

可以更容易地使用现有的

LLM

推理库进行部署，并且比模块化

MLLM

显示出更高的效率。在原生

MLLM

领域，全球较为领先的玩家主要是

OpenAI

和

Google，后续

Meta

在

Llama

4模型的更新中也开始采用原生多模态的架构，但是模态支持较少。由于

OpenAI

和

Google的原生

MLLM

旗舰模型为闭源，且

Llama

虽然为开源但是并没有公布技术报告或架构细节，因此并没有直接途径对其原生

MLLM

进行技术性分析。从效果上看，Gemini

和

的原生多模态，展现出指令跟随好、时延短、一致性强的优势。原生

MLLM

通常需要较高的训练成本和训练

Know-How，一般只有头部的模型厂商才会采取这种架构。反观国内，已经实现原生多模态且参数规模较大的模型还未问世，虽然字节豆包等

Chatbot

也能实现各种模态的输入和输出，但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态，但是实际底层

Know-How

差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距，以及可能带来的新训练算力需求。市场更关注国内二级公司的商业化进度，而忽略了全球维度内一级公司的商业化进展据我们估算，截至最新年度或季度，国内典型

端

应用上市公司

收入占总收入比重约

12.5%，海外典型

端公司为

13.1%；国内典型

端

应用上市公司

收入占总收入比重约

9.0%，海外典型

端公司为

9.4%。因此市场广泛判断

应用，尤其是

进展不及预期（AI

收入体量一般在年化

亿美金）。然而，纵观全球包含一级公司在内的

应用公司，OpenAI、Anthropic、Scale

年化收入均在

亿美金以上，OpenAI

甚至已经达到

100

亿美金。此外，像

原生应用

Midjourney（图像生成）年化收入已经达到

亿美金，Cursor（AI

Coding）达到

亿美金，6sense（AI

营销）达到

亿美金，manus

短短几个月也实现了近

5000

万美金年化收入，AI

应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的

应用多数出海、2B

市场进展较慢，导致国内市场产生了认知偏差，忽略了全球维度的

应用商业化进步。多模态是大语言模型发展的必然趋势大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型（LLM）和大型视觉模型（LVM）融合的结果。借助

Scaling

Law，LLM

已经几乎学习了公开可得的互联网级别数据。24

年

月

OpenAI

提出

系列模型后，全球模型在强化学习技术的加持下，进一步获得了思维涌现和强推理能力。但是

LLM

处理的核心信息是文本，模态较为单一。反观

LVM，对于视觉等多模态有优秀的感知能力，但通常在推理方面存在不足。结合

LLM

和

LVM

的优势，多模态大型语言模型（MLLM）得以问世。形式上，MLLM

指的是基于

LLM

且具备接收、推理和输出多模态信息能力的模型，能够使用多模态指令微调来增加其遵循人类指令的能力，从而实现基于图片编写网站、理解图像、光学字符识别（OCR）等能力。图表1：

代表性多模态大语言模型的时间线资料来源：《A

surveyonmultimodal

large

languagemodels》Yin（2023）、华泰研究模块化

原生架构：原生

MLLM

具有更好的统一性和效率优势。大多数现有的

MLLM

采用模块化架构，即不同的模态部分为拼接的“pipeline”形式，其中视觉编码和语言解码分开处理，通常先用预训练视觉编码器（如

ViT/CLIP）提取图像特征，再借助少量插入层（如查询

Transformer、交叉注意力）将视觉特征送入

LLM。另一种结构是单体

MLLM，也即“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型，训练时同时使用图文/语音等数据构建统一目标，无需先后分阶段。原生MLLM

将视觉感知和多模态理解直接集成到单个

LLM

中，由于其端到端性和统一性，原生MLLM

可以更容易地使用现有的

LLM

推理库进行部署，并且比模块化

MLLM

显示出更高的效率。然而，原生

MLLM

通常需要较高的训练成本和训练

Know-How，一般只有头部的模型厂商才会采取这种架构。图表2：

模块化

原生：典型架构对比定义特点优势劣势开处理，通常通过将预

和额外对齐层训练的视觉编码器与LLM

相结合来实现资料来源：Mono-InternVL

论文，Luo（2024）、华泰研究图表3：

模块化

原生：原生

MLLM

具有更好的统一性和效率优势模块化

MLLM 视觉编码和语言解码分

依赖预训练单模态模型

训练简单，有很多现成的模块

模块拼接会存在误差叠加、对（如开源

LLM）直接使用齐不准确等问题，而且通常效率

要

低

于

端

到

端

的

原

生MLLM；原生

MLLM 不依赖预训练大语言模

在同一模型、同一损失函

避免了后期对齐中的模态不

需要较高的训练成本和训练型或视觉编码器，直接

数下端到端训练，多模态

一致问题，有助于模型自注意

Know-How在全部模态数据上从头

token

共享语义空间力层自然融合不同模态输入开始同步训练的模型更容易地使用现有的

LLM

推理库进行部署；更高的效率资料来源：Mono-InternVL

论文，Luo（2024）、华泰研究非原生

MLLM：通过

Pipeline

形式连接多模态与

LLMLLM

是

MLLM

的“大脑”，编码器、连接器、生成器是

MLLM

理解多模态的“五官”。从技术角度讲，不同

MLLM

有着相似的结构范式，只是内部的模块细节有差别。典型

MLLM架构包括编码器、连接器和

LLM。其中，1）编码器：接收图像、音频或视频，并输出相应的模态特征。2）连接器：接收编码器提取的特征并处理，帮助

LLM

更好的理解这些特征。连接器还可以分为基于投影的连接器、基于查询的连接器和基于融合的连接器。前两种类型采用

token

级融合，将特征处理成

token，与文本

token

一起处理。最后一种类型在

LLM内部实现特征级融合。3）LLM：用来生成文本信息。4）其他模块：如果想要生成文本以外的多模态信息，则还需要在

LLM

之后附加生成器，来生成除文本以外的相应模态。图表4：

非原生

MLLM

架构详细示意图资料来源：《A

surveyonmultimodal

large

languagemodels》Yin（2023）、华泰研究为了提升

MLLM

最终效果，可以针对

MLLM

架构的不同部分进行相应优化。编码器优化的核心是提高分辨率。1）直接缩放法：用更高分辨率的预训练编码器来处理输入信息，例如处理更高分辨率的输入图片。或者采取两个编码器分别处理高分辨率和低分辨率图像，再通过交叉注意力将高分辨率特征注入到低分辦率分支中，例如智谱

CogAgent。2）图像分块法：将高分辨率图像切割成块，并重复使用低分辨率编码器处理“块”。例如将高分辨率图像分割成较小的块后，同步发送高清的“分割图像”与低分辨率的“全局图像”到图像编码器，让编码器分别捕获局部和全局特征。图表5：

主流多模态大语言模型主体结构注：I→O

代表输入到输出模态。其中，I

代表图像，V

代表视频，A

代表音频，3D

代表点云，T

代表文本资料来源：《MM-LLMs:RecentAdvancesin

MultiModalLarge

Language

Models》Zhang（2024）、华泰研究LLM

优化的核心在于提升推理能力。随着

Scaling

Law、强化学习、高质量数据集、单一算力集群的发展，LLM

的推理能力不断提升。尤其是

DeepSeek、阿里

Qwen、Meta

Llama模型的开源，逐步拉近开源模型和闭源模型的差距。2025

年

月

日，DeepSeek

开源了

升级版

R1-0528，在各项测评上进一步逼近了

OpenAI

最先进的

闭源模型（参见研报：《计算机：DS-R1

更新，实现

15%以上性能提升》2025/5/30）。此外，Qwen、Llama以及小米发布的

MIMO

模型，均有较小的参数尺寸，适合在端侧进行部署，同样能够带动端侧

MLLM

的发展。因此，更多强推理的

LLM

能够被用到

MLLM

中，使得

MLLM

的能力自然的随着

LLM

的发展“水涨船高”。图表6：

LLM

的性能一直在提高注：纵轴代表

MMLU-Pro

测评集，用来评估大语言模型的跨学科推理与语言理解能力。资料来源：各公司官网、华泰研究连接器是非基础模型厂商实现

MLLM

的便捷手段。25

年

月

Google

和

OpenAI

先后更新了

Gemini

2.0

Flash

和

GPT-4o

的原生图像生成，由于架构具有较好的端到端一致性，模型图像理解、生成、编辑能力大幅提高。但是前文已经分析过，端到端的

MLLM

训练成本/Know-How

要求较高，不是所有厂商都能够实现。因此性能有损但是更便捷的做法包括：1）在预训练的视觉编码器和

LLM

之间引入可学习的连接器（Connector），将多模态信息投影到

LLM

能够高效理解的子空间中，从而连接视觉和语言模态。2）借助专家模型将图像翻译成语言，然后发送到

LLM

进行处理。这两种方法都能实现非端到端的模态链接，从而融合成

MLLM。架构确认好后，完整的

MLLM

一般需要经过预训练、指令微调和对齐微调三个训练阶段。预训练、指令微调和对齐微调三个阶段都需要不同类型的数据并对应不同的优化目标。预训练旨在对齐不同模态并学习多模态世界知识；指令微调教会模型更好地理解用户的指令并完成要求的任务；对齐微调用于与特定的人类偏好场景对齐。图表7：

MLLM

的训练阶段及数据来源训练阶段目的方法数据来源预训练（Pre-training）模文本配对数据，例如图像/音频/视频

（Connector）数据预训练旨在对齐不同模态并学习多模

将预训练模块（例如视觉编码器和

数据主要为了对齐不同模态和提供世界知识。预训练语态世界知识。预训练阶段通常涉及大规

LLM）冻结并训练一个可学习的接口

料库可以根据粒度分为粗粒度（如大规模的互联网数据）和细粒度数据（包含更长且更准确的图像描述，有可能是多模态模型生成的合成数据）指令微调（Instruction

tuning）教会模型更好地理解用户的指令并完

使用多模态指令样例进行训练。样

指令微调样本的数据质量的重要性不亚于数量。主要的成要求的任务。LLM

可以通过遵循新

例通常包括一个可选的指令和一个

数据来源有：1）利用现有的高质量数据集来构建指令格的指令泛化到未见过的任务，从而提升

输入输出对示例式化的数据集。2）利用

LLM

使用少量手工标注的样本零样本性能生成遵循指令的文本数据，例如让

ChatGPT生成。3）仅语言的用户-LLM

对话数据也可以用于提高对话能力和指令遵循能力对齐微调（Alignment

tuning）常用于模型需要与特定的人类偏好对

人类反馈的强化学习（RLHF，曾用

收集的要点在于收集模型响应的反馈。收集此类数据通齐的场景，例如具有较少幻觉的响应

于

ChatGPT

的对齐，原理是利用强

常更昂贵，好在用于此阶段的数据量通常甚至比之前阶化学习来对齐

LLM

与人类偏好，其

段使用的少中人类标注作为监督在训练循环中提供）和直接偏好优化（DPO，从人类偏好标签中学习）资料来源：《A

surveyonmultimodal

large

languagemodels》Yin（2023）、华泰研究通过校正的方法缓解

MLLM

的幻觉，能够进一步提升模型表现。多模态幻觉是指由

MLLM生成的响应与图像内容不一致的现象。幻觉可以分为：1）存在幻觉：模型错误地判断物体的存在。2）属性幻觉：错误描述某些物体的属性，例如颜色。3）关系幻觉：物体之间关系的错误描述，例如位置。幻觉的缓解方法，可以根据使用的“时间先后”，分为预校正、过程校正和后校正。图表8：

MLLM

幻觉的缓解方法幻觉解决方法说明预校正类似于提前“告诉”模型，什么结果好，什么结果坏。例如收集专业数据（例如负样本数据）、收集人类偏好对，并使用该数据进行微调，从而减少模型幻觉过程校正更深层次的“本质性”矫正，即尝试探索幻觉的原因，通过改进架构设计或特征表示。例如引入连续控制因子来控制模型在推理时输出中的想象程度后校正属于“治标不治本”的补救措施，例如结合专家模型来补充图像上下文信息和生成流程，以逐步纠正幻觉资料来源：《A

surveyonmultimodal

large

languagemodels》Yin（2023）、华泰研究原生

MLLM：端到端实现多模态，头部厂商的首选架构原生

MLLM

需要更强的

Know-How

和充足的算力资源来从头训练，通常头部模型厂商会采用此架构。在原生

MLLM

领域，全球较为领先的玩家主要是

OpenAI

和

Google，后续Meta

在

Llama

模型的更新中也开始采用原生多模态的架构，但是模态支持较少。由于OpenAI

和

Google

的原生

MLLM

旗舰模型为闭源，且

Llama

虽然为开源但是并没有公布技术报告或架构细节，因此并没有直接途径对其原生

MLLM

进行技术性分析。从模态实现上看，输入模态基本覆盖了主要的文本、图像、视频、音频，输出模态仍然局限在文本、图像，OpenAI

的

系列还支持原生输出音频。本本报报告告来来源源于于三三个个皮皮匠匠报报告告站站（（wwwwww..ssggppjjbbgg..ccoomm））,,由由用用户户IIdd::867690673459下下载载,,文文档档IIdd::772244670629,,下下载载日日期期::22002255--0077--1111图表9：

头部模型厂商的原生多模态模型和特点模型厂商支持模态架构特点/机制Gemini1.5/2.0/2.5Google

(DeepMind)输入：文本、图像、视频、音频

Decoder-only

MoE

架构，支持百万级上下文。训输出：文本、图像练过程同步整合了文本、图像、音频和视频数据。在模型大厂中率先实现原生多模态GPT-4oOpenAI输出：文本、图像、语音输入：文本、图像、视频、音频

GPT-4o

端到端训练统一了文本/视觉/音频，所有的输入和输出都由同一个神经网络处理。由于

GPT-4o

是OpenAI

第一个结合所有这些模态的模型，仍处于探索该模型的功能及其局限性的起步阶段Llama4Scout/

MaverickMeta输入：文本、图像输出：文本早期融合+

MoE

架构，将文本和视觉

token

无缝集成到统一的模型主干中资料来源：各公司官网、华泰研究图表10：

Google

Gemini

系列模型原生多模态架构资料来源：Google

Gemini

技术报告、华泰研究Gemini

和

的原生多模态，展现出指令跟随好、时延短、一致性强的优势。虽然没有模型技术细节，但是可以直接从

端用户角度去评判大模型产品的效果。1）在图像生成上，Gemini

2.0

Flash

和

的原生多模态使得自然语言优化图像、文字渲染、图文交错输出等性能得到很大提高，指令跟随能力强，且渲染的文本不再像之前的模型经常乱码。2）在音频生成上，过去

GPT-4

要经历语音转文字/推理文字/文字合成语音三个阶段，而

GPT-4o用“单个从头训练的网络同时接收文本、音频、图像并实时输出”，保留了语调、情感、环境声等细节，减少信息损失，时延也大大降低。图表11：

头部模型厂商的原生多模态模型主要提升点模型厂商原生多模态效果提升点Gemini

2.0Google(DeepMind)文本和图像结合：使用

Gemini2.0

Flash

讲述故事，会用图片来说明，并在整个过程中保持角色和场景的一致性会话式图像编辑：通过多次自然语言对话编辑图像，非常适合迭代以获得更好的图像输出世界认知：利用世界知识和增强的推理能力来创建正确的图像。非常适合创建详细且逼真的图像——比如插图菜谱文本渲染：大多数图像生成模型难以准确渲染长文本序列，2.0

Flash

具有更强的渲染能力，非常适合创建广告、社交帖子甚至邀请函GPT-4oOpenAI

可以在短至

232

毫秒内响应音频输入，平均为

320

毫秒，与人类在对话中的反应时间相似。而之前的模型平均延迟为

2.8

秒（GPT-3.5）和

5.4

秒（GPT-4）更好的指令跟随、更好的文本渲染，支持输出

3D（25

年

月升级原生图像生成后）可以通过自然的对话来优化图像。GPT-4o

可以基于聊天环境中的图像和文本进行构建，确保整个过程的一致性。例如，设计视频游戏角色，当用户进行优化和试验时，该角色的外观在多次迭代中始终保持一致原生图像生成使

能够连接文本和图像之间的知识，从而产生一个感觉更智能、更高效的模型Llama4Scout/

MaverickMeta模型学会以统一的方式理解图片和文本资料来源：各公司官网、华泰研究图表12：

GPT-4o

原生多模态可以通过自然的对话来优化图像图表13：

Gemini

能够交错输出一道菜谱的文本和图像资料来源：OpenAI

官网、华泰研究资料来源：Google

官网、华泰研究我们预测，国内原生多模态模型将在

25H2

逐渐发力，并在明年成为头部厂商的主流路径。虽然当前时点看，国内还没有像

GPT-4o、Google

Gemini

这种原生的旗舰多模态模型，但是国内大厂已经开始尝试原生的架构并且做了相应的工作。例如，25

年

月阿里巴巴开源了

Qwen2.5-Omni

系列，模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。Qwen2.5-Omni

采用新的端到端（即原生）Thinker-Talker

架构，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。虽然

Qwen2.5-Omni

参数仅有

7B，无法比肩

GPT-4o、Google

Gemini，但是说明国内大厂也基本走通了端到端的原生多模态架构。因此我们认为，国内原生多模态模型将在

25H2

逐渐发力，并在明年成为头部厂商的主流路径。率先突破的厂商，或还是阿里巴巴、字节跳动、腾讯等头部、算力充足的互联网大厂。从大模型到多模态：商业化的必由之路AI

应用公司会基于

LLM/MLLM

的能力，搭建相应的原生

产品，实现商业化。从全球AI

公司的商业化进展看，无论是基于

LLM

的文本类产品，还是基于

MLLM

的多模态产品，呈现出以下大趋势：1）海外商业化进展快于国内。2）全球维度，一级公司进展快于二级。3）整体多模态为主的产品商业化快于文本产品。4）Chatbot

为代表的文本类产品国内外商业化分歧明显，在海外能够实现

亿美金以上的

ARR（如

OpenAI、Anthropic），而国内Chatbot

还未实现很好的商业化。图表14：

典型原生

应用的年度经常性收入（ARR）情况注：Sacra

数据和后文非凡产研数据或存在口径不一问题，导致部分产品年化收入有出入。截至

年

月。资料来源：Sacra、各公司官网、华泰研究海外商业化更超前，国内出海进展迅速全球维度，年化收入超过

亿美金的产品绝大多数为海外+多模态+初创公司，且头部效应显著。据非凡产研统计数据，截至

年

月，全球主要的

产品中，年化收入超过

亿美金的有

个，其中

个产品来自国内公司（美图、快手、睿琪软件，其中美图、快手为上市公司），占比

11.5%；多模态产品有

个，占比

46.2%。收入区间上看，年化收入超过50

亿美金的仅有OpenA（I

未考虑OpenAI

的API

收入），10-50亿美金的仅有Anthropic（未考虑

Anthropic

的

API

收入），这两家均为全球大模型的龙头厂商，其模型产品是全球大模型中的领先者。2-10

亿美金的公司有

Midjourne（y

图像生成）、Anysphere（AI

Coding）、Dialpad（客户支持）、6sense（营销）。Top

100

产品的年化收入大多在

亿美金以下。我们认为，全球

商业化上，头部效应显著，海外商业化快于国内，多模态产品是其中重要的产品形态，AIGC、Coding、客服等场景均有较成功的商业化典型。图表15：

全球

Top

产品的年化收入情况（年化收入≥1

亿美金）排序

产品名称所属公司分类Web

收入

App

收入产品收入是否多模态

海外/国内（百万美金）

（百万美金）

（百万美金）1 ChatGPT

OpenAI

聊天机器人

是

海外

4089

1556

56452ClaudeAnthropic聊天机器人否海外106719 10863MidjourneyMidjourney图片生成是海外6220 6224CursorAnysphere代码助手否海外3000 3005DialpadDialpad客户支持否海外3000 30066sense6sense营销工具否海外2000 2007Hugging

FaceHugging

Face模型训练Infra海外1570 1578FaceAppFaceApp图片编辑是海外0152 1529RunwaymlRunway

ML视频生成是海外1500 15010ThoughtSpotThoughtSpot数据分析否海外1500 15011MoveworksMoveworks智能体否海外1480 14812GleanGlean效率工具否海外1280 12813Eleven

LabsEleven

Labs文本转声音是海外1250 12514MercorMercor招聘工具否海外1230 12315FacetuneLightricks形象生成是海外0114 11416SunoSuno音乐生成是海外8720 10717美图秀秀美图公司图片编辑是国内0105 10518PerplexityPerplexity

AI智慧搜索是海外8517 10219KLING

AI快手视频生成是国内929 10120PictureThis睿琪软件物体识别是国内0100 10021SynthesiaSynthesia视频生成是海外1000 10022SOCiSOCi营销工具否海外1000 10023Together

AITogether

AI模型训练Infra海外1000 10024FloQastFloQast金融否海外1000 10025ThoughtfulThoughtful智能体否海外1000 10026WindsurfWindsurf代码助手否海外1000 100注：数据截至

年

月

日资料来源：非凡产研、华泰研究国内维度，年化收入靠前的产品主要为多模态+上市公司，且出海比例高。据非凡产研统计数据，国内年化收入超过

1000

万美金的

产品有

个，其中拥有最多上榜产品的公司为美图（5

个产品）。相比全球头部的

产品收入，国内收入差一个数量级以上（美图秀秀/快手

亿美金年化收入

OpenAI

亿美金年化收入）。国内

产品年化收入超过

亿美金的有

家公司，分别为美图（1357

HK）、快手（1024

HK）和睿琪软件（非上市），其AI

产品均为多模态产品。2000

万-1

亿美金的有

家，其中阿里巴巴（9988

BABA

US）在列。Top100

国内

产品中大多数公司年化收入在

1000

万美金以下。产品形态和出海角度看，31

个产品中，有

21/24

个产品为多模态/出海，多模态/出海占比分别为

67.7%/77.4%。图表16：

国内

Top

产品的年化收入情况（年化收入>1000

万美金）排序

产品名称分类所属公司是否多模态是否出海Web

收入（百万美金）App

收入（百万美金）产品收入（百万美金）1 美图秀秀图片编辑美图公司是01051052 KLING

AI视频生成快手是是9291013 PictureThis物体识别睿琪软件是是01001004夸克浏览器阿里巴巴否083835 manus智能体蝴蝶效应是是417486 HeyGen视频生成HeyGen是是410417 Airbrush视频编辑美图公司是是435408 BeautyPlus图片编辑美图公司是是028289 OpusClip视频编辑OpusClip是是2702710

PLAUD文章摘要PLAUD否是0242411

Genspark智能体MainFunc

是是2202212

美颜相机图片编辑美图公司是0222213

Clipto.AI社媒工具Clipto.AI否是2202214

Openart图片生成Openart是是2102115

Fotor图片编辑恒图科技是是1362016

Wink视频编辑美图公司是0191917

PolyBuzz情感陪伴作业帮否是01919蝴蝶效应否是15218Monica

写作软件YouCam

Makeup

图片编辑玩美移动是是01616加勒比熊猫

否是01515Solvely 教育Filmora

视频编辑万兴科技是是01515思维巡航否是10414Notta

会议助手AI

Mirror

形象生成Polyverse

是是01414玩美移动是是01414YouCamPerfect

图片编辑Linky

情感陪伴昆仑万维否是01313昆仑万维是是13013Mureka

音乐生成SeaArtAI

图片生成海艺互娱是是11213字节跳动否01212猫箱

情感陪伴HixAI

写作软件HIX.AI否是1201230

LiblibAI

图片生成奇点星宇是12012快手是0111131

快影

视频编辑注：数据截至

年

月

日资料来源：非凡产研、华泰研究图表17：

Top100

全球

AI公司年化收入分布情况图表18：

Top100

国内

AI公司年化收入分布情况注：数据截至

年

月

日资料来源：非凡产研、华泰研究注：数据截至

年

月

日资料来源：非凡产研、华泰研究114207401020304050607080数量(亿美金)10-50亿美金1-2亿美金以下50亿美金以上2-10亿美金1亿美金以下3122362010203040506070数量(亿美金)1亿美金以上2000万-1亿美金1000-2000万美金1000万美金以下另外我们还发现，高流量/高

MAU

的产品并不意味着商业化能力更强，流量/MAU/商业化“三高”的公司，几乎都是海外头部公司，多模态可能是国内商业化更好的出路。具体地，Web

端看，同时出现在

Top

收入排行榜和

Top

Web

访问量排行榜的，有

ChatGPT（聊天助手）、Perplexity（AI

搜索）、Claude（聊天助手）、Hugging

Face（Infra）、ElevenLabs（AI

语音）。App

端看，有

ChatGPT（聊天助手）、美图秀秀（AI

图像）。其中仅有美图是国内公司。即使像

DeepSeek、豆包这种流量

Top

的国内应用，收入层面也相对较少。我们认为，流量/MAU/商业化同时有较好实现的公司基本都是海外头部公司，背后可能是付费习惯/模型智能的差距。产品模态上，文本模态国内外差异化显著，以典型的聊天助手类应用为例，国内几乎很难实现商业化，而国外却能做到几乎最

Top

的商业化（OpenAI、Anthropic）。因此多模态或是国内商业化更好的出路，美图、快手、睿琪软件进展较快。图表19：

AI应用

Top

Web

访问量和

AppMAU排名产品Web

访问量市场分类访问量

是否出现在

Top

26（万）收入排行榜排名产品市场App

MAU分类活跃用户

是否出现在

Top

26（万人）收入排行榜1ChatGPT海外

聊天机器人

549,239是 1ChatGPT海外

聊天机器人

60,284是2Gemini海外聊天机器人52,7742Deepseek国内聊天机器人21,6293Deepseek国内聊天机器人41,2963百度

搜索国内智慧搜索17,0254Character.AI海外情感陪伴18,709

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025多模态大模型和应用发展趋势及商业化进程分析报告

文档简介

温馨提示

最新文档

评论

2025多模态大模型和应用发展趋势及商业化进程分析报告

文档简介

温馨提示

最新文档

评论

相关文档