多模态AI产业链全景梳理

上传人：浪*** IP属地：河北上传时间：2025-12-24 格式：PDF 页数：16 大小：6.09MB 积分：12 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多模态AI产业链全景梳理

当前AT模型从单模态向多模态演进，有望实现认知智能，是AT未来发展

的明确趋势。近期AI多模态模型不断取得突破性进展。OpenAI于11月

发布了GPT-4Turbo且开放了GPTs再次颠覆行业，GPTs短期上线数量已

超3万，揭开AIGC应用生态序幕。

GPT-4Turt

海外初创公司PikaLabs正式推出的AI视频生成工具Pikal.0火爆全球，

Pikal.O包括一个能生成和编辑3D动画、动漫、卡通、电影等各种风格视

频的全新AI模型。12月，谷歌紧随其后发布了其认为规模最大、功能最

强大的人工智能模型Gemini,声称性能超越CPT-4和人类专家。作为多模

态大模型，Gemini可以同时识别和理解文本、图像、音频、视频和代码

五种信息，且对信息的理解非常精准。有别于传统大模型对英伟达硬件及

生态的依赖，Gemini的训练来自于谷歌的TPUv4和v5e的硬件支持。

当前以Pika1.0和Gemini为代表的AI多模态模型不断突

破，或推动大模型应用领域加快落地并打开商业化空间。以上两家也代表

着挑战者对OpcnAI和英伟达的强力反击，AI领域的高水平竞争正式进入了

全新的阶段。当前海外科技巨头之间多模态大模型的竞争日益激烈，同时

驱动着底层多模态大模型的能力不断突破，垂域应用遍地开花，AI应用

有望迎来快速爆发。据市场分析机构IDC最新报告显示，2022年全球A1应

用软件市场规模为640亿美元，预计到2027年将增加到2790亿美元，复

合年增长率(CAGR)为31.4%。

多模态AI行业概览

人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的

高度效仿。单模态交互是一个局限的、并不完整的模型，因此“多模态”

研究大势所趋己十分明朗。多模态学习(对应单模态)以多模态大规模数

据为基础，同时利用多种感官进行学习，提供更丰富信息。除传统的语言

以及图像间的交互作用，其结合声音、触觉以及动作等多维度信息进行深

度学习，从而形成更准确、更具表现力的多模态表示。相比于单模态，多

模态模型处理多种数据输入，结构上更复杂，可能涉及使用多个子网络，

然后将其输出合并。多模态模型的核心是处理和整合这些不同类型的数据

源。这种模型可以捕获跨模态的复杂关系，使机器能够更全面地理解和分

析信息，从而在各种任务中表现得更好。AI模型走向多模态必然性的三大

因素：跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。

JinaAl光谱

单模态

Single-modalAl

Before2021-~-r

CreativeAl

2022多模态

Al实现

模态融合

多模态AI以模态融合为核心技术

环节，围绕“表征-翻译-对齐-融合-联合学习”五大技术环节，解决实际

场景下复杂问题的多模态解任务。多模态应用场景按架构可分为视频分类、

事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图

像标注、跨模态嵌入、转移学习、视频解码、图像合成等。多模态AI实现

跨模态任务，应用场景丰富。能够实现基于文本、语音、图片、视频等多

模态数据的综合处理应用，完成跨模态领域任务，应用于各种场景。据布

谷实验室统计，当前多模态内容主要应用于商业定制、游戏领域、影视领

域、教育领域以及医疗领域五大行业。多模态八I图示：

Feedback

INPUTS:CORTICALLEARNINGENGIN

Anytypeof•"SequenceMemories,fori

spatial-temporal•Detectandpredictpatterr

datastream•Basedon^HierarchicalTe

根据技术迭代，多模态模型可以分为三个主要发展阶段。2010年至今，深

度学习为多模态研究带来了巨大的推动力，多模态模型已经达到了前所未

有的准确性和复杂性，这一阶段受益于四个关键因素的推动：1）大规模的

多模态数据集；2）更强大的计算能力；3）研究者也开始掌握更为先进的

视觉特征提取技术；4）出现了强大的语言特征抽取模型，包括Transformer

架构。多模态模型主要经历三个时代：

交互时代

1980-20002000-2010

主要技术与应用：主要技术与应用：

•视频音频语音识别（AVSR）,在•IDIAP实验室的AMI项目：记录

声音的低信噪比下,引入视觉会议录音、同步音频视频、转

信号能够极大提升识别准确率录与注释；

•情感计算：与情感或其他情感・AlexWaibcl的CHIL项目：将计

现象有关、源于情感或有意影算机置于人类交互圈中,多传

响情感的计算感器多模态信号处理,面对面

交互

•多媒体计算：信息媒体数字视

频库项目•SRI的学习和组织认知助手

数据来源：卡内基梅隆大学

多模态AI市场格局梳理

在OpenAI宣布ChatGPT实现联网及支持图片、语音交流及与文字互转

等多模态更新后，国内外大厂持续布局跨文本、图像、音视频等模态的AI

模型，行业应用亦不断升级。Open。多模态应用：

[

Text

ImageImageInput

Projection

AudioInput

Audio

Projection/

VideoInput

Video

Projection占

Moremodalities•••

MultimodalInputLLM-ccntricLLM-basedSemantic

EncodingAlignmentUnderstanding

目前，国内外各家厂商仍把目光放在多模态大模型上，对

标GPT-4开发竞品。AI初创企业Anthropic开发了对标的AI聊天机器人

Claudeo谷歌一方面对Anthropic进行投资，一方面也在开发自己的语言

模型PaLM2和聊天机器人Bardo谷歌拥有多个跨模态AI模型，并提供多项

功能服务模块。Meta走上了另一条道路，开源了自己的大模型LLaMA,后

来也有越来越多的公司将自己的大模型进行开源，包括Vicuna、WizardLM、

Guanac。等模型；微软K0SM0S-1模型拥有16亿参数，解锁多模态功能，海

外大模型加速迭代，多模态是主要方向：

发布

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多模态AI产业链全景梳理

文档简介

温馨提示

最新文档

评论

多模态AI产业链全景梳理

文档简介

温馨提示

最新文档

评论

相关文档