多模态大模型技术演进及研究框架_第1页
多模态大模型技术演进及研究框架_第2页
多模态大模型技术演进及研究框架_第3页
多模态大模型技术演进及研究框架_第4页
多模态大模型技术演进及研究框架_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录一、多模态预训练概述二、多模态预训练关键要素三、主要模型与下游场景四、未来方向及演进趋势五、风险提示概述总括技术奇点TransformerVision

TransformerBEiT1、以BERT为主的Transformer模型取得很好的效果,但是仅限于文本领域;2、Transformer中自注意力机制和前向传播网络权重共享适合于多模态模型。1、将图片patch化,解决了Transformer不能应用于图像领域问题;2、patch

embedding提取图像特征高效;3、基于ViT模型衍生了视频Transformer相关模型。1、将生成式预训练MLM方法从NLP迁移至CV,实现CV大规模自监督预训练;2、统一多模态大模型BEiT-3前身。处理图像生成式预训练应用催化扩散模型与CLIP结合,衍生多个文图生成模型,文图生成领域火爆多模态检索智能家居机器人技术虚拟人/智能助理机器翻译……多模态大模型的技术奇点在于:1、BERT等模型证明了Transformer在NLP领域性能好,并且对于数据量、模型大小而言未见上限;2、ViT模型将Transformer模型迁移到CV领域,让Transformer能够处理图像;3、BEiT将生成式预训练从NLP迁移到CV,图像大规模自监督学习成为可能。4、扩散模型与多模态大模型结合,推动文生图领域发展。各式多模态场景下的应用持续推动多模态模型的演进资料来源:Multimodal

data

asa

means

tounderstand

the

learning

experience模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理和生物医药前沿方向取得重大突破。图表:利用多模数据能有助于学习1.1

多模态表示包含两个或两个以上事物表现形式图表:多模态模型发展的五个阶段资料来源:carnegie

mellon

university1.2

多模态发展主要经历五个时代1.3 Transformer颠覆传统模型,但限于单模态领域资料来源:Attention

Is

All

You

NeedMulti-head

AttentionScaledDot-ProductAttention2017年Transformer被提出,颠覆了传统的深度学习模型,在机器翻译任务上实现了最好性能。Transformer在大规模语料库上进行自监督预训练,然后在下游任务进行微调受到人们的关注,许多预训练大模型都是遵守这一范式提出,例如BERT、GPT等。虽然基于Transformer的大模型都取得了很好的效果,但还是限于单一模态(文本)上,无法将其self-attention中良好的泛化能力迁移到其他模态(图像、视频等)中。Transformer不能迁移图像领域的主要原因在于输入长度限制,以BERT为例,其输入数据的长度只能支持512,而对于像素为224*224的图片来讲,其输入远大于512。图表:Transformer基本架构1.4 ViT的出现打通了CV和NLP之间壁垒,推动多模态演进资料来源:An

image

isworth

16x16

words:

Transformers

forimage

recognition

at

scale将图片切割,解决输入大小问题ViT将图片的2D信息,

通过切割,转化为类似文本的1D信息。Transformer

(Self-attention)在文本领域优秀的表现吸引着计算机视觉研究者,许多人开始将Transformer机制引入到计算机视觉。Transformer限制在于其输入数据大小,需要考虑输入策略。谷歌借鉴前人的思想,在强大的算力资源加持下,提出ViT模型。ViT模型通过将图片进行切割成一个个patch(原文将一张图片切割成16个patch),对patch进行处理,通过线性映射,变成图表Tr:anVisTf基or本me架r可构接受的输入,打通了CV和NLP之间的壁垒。资料来源:ViLT:

Vision-and-Language

Transformer

Without

Convolution

orRegion

Supervision1.5 ViT中的Patch

embedding在提取视觉特征方面效率优势明显ViT不仅能够让Transformer能够对图像进行处理,而且ViT图像特征提取策略相较于之前的方式效率更高。如左图,虚线框内是三种视觉提取方式,分别为基于Region、基于Grid和ViT中线性映射方法进行视觉特征提取。在ViT之前,视觉算法中的视觉特征多基于Region提取,大多会存在一个目标检测器,使用目标检测方法提取视觉特征。ViT在预训练阶段舍弃了目标检测器,使用基于Patch的视觉特征,几乎只相当于一个线性embedding,降低了运算复杂度。如右图所示,ViLT多模态模型中在视觉特征提取方面使用了Patch

embedding方法,实现了运行效率的大大提升,在特征提取阶段ViLT-B/32的视觉特征提取阶段仅用0.4ms,远高于Region(885ms)和Grid(45ms)方法。图表:ViLT模型使用Patch

embedding提取视觉特征并取得很好效率1.6 基于Vision

Transformer,Video

Transformer模型出现资料来源:Is

Space-Time

Attention

All

You

Need

for

Video

Understand1、视频领域基于ViT模型推出各类Video

Transformer。视频是一个典型的多模态形式,里面包含图像、声音、文字等。2、在ViT之前,视频方面的任务,如视频理解等,基本是通过3D卷积网络展开的。借鉴ViT思想,许多Video

Transformer被提出来,其中包括TimeSformer,

TimeSformer将每一帧视频抽象成图像,并与其前一帧和后一帧相结合进行运算。与3D卷积神经网络(CNN)相比,TimeSformer

的训练速度大约是其4倍,而推断所需的计算量不足其十分之一。TimeSformer

的高效让在高空间分辨率(例如高达

560x560

像素的帧)和长视频(包括高达

96

帧)上训练模型成为可能。图表:自注意力机制在视频领域应用机制 图表:自注意力机制在视频领域应用详情TimeSformer将视频的每一帧看作一个图像,采取五种策略对图像中的像素进行处理,发现第三种处理方式最好。1.7 Transformer权重共享决定其适合多模态Transformer存在权重共享,模型内部的某些模块可以共享权重参数。Transformer的权重共享主要是由于其自注意力模块和前向传播网络都和输入序列长度无关。这种权重共享理念同样适合用于多模态模型中。例如,图文多模态中,图像训练得到的权重参数可以用于训练文本,结果依然有效,甚至不用fine-tune。许多多模态模型都借鉴了Transformer里面的权重共享理念,典型的案例包括VLMo模型,该模型首先在BEiT中使用大规模纯图像数据预训练视觉网络和自注意力模块,然后冻结视觉网络和自注意力模块,通过对大量纯文本数据进行建模训练语言网络,最后使用视觉-语言预训练整个模型。图表:VLMo预训练阶段冻住的前向传播和自注意力共享视觉与文本参数资料来源:VLMO:

Unified

Vision-Language

Pre-Training

with

Mixture-of-Modality-Experts1.8 BEiT模型的出现将生成式预训练从NLP迁移到CV上资料来源:Beit:Bert

pre-training

of

image

transformers生成式预训练是自监督学习重要方法和训练目标,生成式预训练核心是在没有标签或者人工标注的情况下,学习如何产生数据。生成式预训练在自然语言处理中取得较大成功。BEiT模型的出现,将生成式预训练从NLP迁移到CV上,就是将BERT中的掩码语言学习(MLM)方法应用到图像领域。之后的MAE模型也是基于BEiT的工作展开的。如果说ViT将Transformer迁移到CV中,那么BEiT就是将BERT迁移到CV中。BEiT解决了CV上生成式预训练的两个问题:1、如何将图像信息转化为NLP中离散的token,BEiT使用到了dVEA方法将图像离散化;2、使用成熟的ViT结构将处理图像信息。通过以上两点,BEiT成功将MLM/MIM方法应用图像领域,将生成式预训练迁移到CV上,实现CV领域中大规模自监督预训练。图表:BEiT模型预训练架构 图表:dVAE架构预训练前将图像Token化1.9

图文多模态是多模态模型中目前重要方向资料来源:Paper

withcode,Vision-Language

Intelligence:

Tasks,

Representation

Learning,

and

Large

Models579 5373124191910

98

8444

43333222211111

10500400300200100600图表:VLP模型的相关论文数量(Paper

with

code数据)700

ALIGNCLIPLXMERTViLBERTVisualBERTOSCARViLTOFAALBEFBLIPVL-BERTUNIMOVL-T5WenLanVisual

ParsingSOHOSimVLMFLAVAPixel-BERTFlorenceKaleido-BERTInternVideoInterBERTUnified

VLPXGPTVLMoAltCLIPOneR图文多模态任务是目前视觉语言预训练模型(VLP)中最重要的任务之一。图文任务包括图文检测、图文分类、图文分割等。根据Paper

with

code网站上VLP领域中模型相关论文数量来看,ALIGN和CLIP模型相关论文数量最多,均超过500篇,这两个模型均是以图像-文本为对象展开的研究。其中ALIGN是谷歌2021年6月提出,CLIP是OpenAI2021年2月提出。图表:多模态模型主要情况1.10

扩散模型推动多模态中文本图像生成发展扩散模型CLIPStable

DiffusionDALL-E

2MidJourney基础模型衍生模型20202021Stability.AIOpenAIMidJourney公司扩散模型是一种继GAN、VAE、Flow-based模型之后最新的生成模型,从气体扩散的物理过程中获得灵感,通过正向扩散和反向扩散两个过程进行生成。在OpenAI、英伟达、谷歌推出大模型后,扩散模型受到了较多的关注。扩散模型与多模态预训练大模型的结合主要应用在文本图像生成领域。以扩散模型和多模态预训练大模型CLIP为基础模型,2022年4月OpenAI

发布文本生成图像模型DALL·E

2,之后谷歌推出Imagen,直接对标DALL·E

2。图表:几种生成式模型 图表:扩散模型与CLIP融合2022资料来源:Github1.11

多模态模型有包括COCO在内的多个预训练数据集数据集年份规模(图文对数量)语言是否可获取SBU

Captions20111MEnglish是Flickr30k2014145KEnglish是CoCo2014567KEnglish是FashionGen2018300kEnglish是VQA

v2.020171.1MEnglish是CC3M20183MEnglish是GQA20191MEnglish是LAIT202010MEnglish否CC12M202112MEnglish是AltText20211.8BEnglish否TVQA201821,793English是HT100M2019136MEnglish是WebVid2M20212.5MEnglish是YFCC-100M2015100MEnglish是和文本大模型或者视觉大模型类似,多模态预训练大模型也需要大量数据提前进行预训练,然后针对下游场景进行微调。多模态模型目前用于许多预训练数据集,包括Flickr30k、COCO、LAION-400M、RedCaps在内的多项英文图像/文本数据集,也包括Wukong、WuDaoMM、WSCD在内的多项中文数据集。这些数据集一般都是以图像文本对的形式存在,例如,LAION-400M包含CLIP模型过滤的4亿个图像文本对数据集;Wukong包含1亿个中文图像文本对;Flickr30K包含31000张图片,每张都与5个句子相关。LAION是多模态模型数据集领域重要组织,他们是公益/非营利性组织,推出了LAION-400M、LAION-5B、Clip

H/14等数据集,并且完全开源。图表:多模态模型常见数据集数据集年份规模语言是否可获取LAION-400M2021400MEnglish是RedCaps202112MEnglish是Wukong2022100MChinese是CxC202124KEnglish是Product1M20211MChinese是WIT202137.5MMulti-lingual是JFT-300M201730MEnglish否JFT-3B20213000MEnglish否IG-3.5B-17k2018350MEnglish否M6-Corpus202160MChinese否M5Product20216MEnglish是LocalizedNarratives2020849kEnglish是RUC-CAS-WenLan202130MChinese否WuDaoMM2022600MChinese是资料来源:Vision-Language

Intelligence:

Tasks,

Representation

Learning,

andLarge

Models1.12

多模态模型大一统成趋势资料来源:Image

as

a

Foreign

Language:

BEITPretraining

for

All

Vision

and

Vision-Language

Task,VLMO:

Unified

Vision-Language

Pre-Training

withMixture-of-Modality-Experts2022年8月,微软推出BEiT-3模型,引领图像、文本、多模态迈向大一统。BEiT-3提出了掩码图像建模,将masked

data

modeling引入到图像预训练任务,将图像和文本同等看待,以统一的方式对图像、文本、图像-文本对进行建模和学习。实际上,微软在2021年11月就推出了统一模型VLMO,使用混合模态专家(MOME)的方式来进行不同模态中进行预训练,训练出不同的编码器,用于不同的下游任务。BEiT-3在其基础上简化模型并增大预训练数据量,最终在多项下游任务上表现亮眼。2023年3月15日,微软旗下OpenAI推出多模态大模型GPT-4。图表:VLMO预训练框架 图表:BEiT-3在多项任务上表现亮眼VLMO

在前向传播层,使用三个“专家”处理不同预训练任务1.13

视频/音频等领域模态融合进展也较快在视频、音频领域,多模态融合同样是一种趋势。图文多模态模型逐渐迁移至视频-文本/音频-文本多模态领域,典型的代表是CoCa模型,图文领域中推出后,在视频领域就推出了VideoCoCa,CLIP模型推出后,在视频领域就推出了VideoCLIP模型。一些统一多模态大模型的出现也在推动该领域的发展。例如,阿里达摩院推出的mPLUG-2多模态大模型,不仅在图-文下游任务中取得很好的效果,也能进行视频领域的任务,例如在视频问答、视频字幕等领域相关工作上均取得了不错的成绩。在音频多模态领域中比较著名的模型是谷歌推出的MusicLM模型,能通过文字生成音乐。图表:视频多模态领域中的数据集及模型资料来源:Paper

with

code领域数据集Best

Model评价评价标准VideoQuestion

AnsweringActivityNet-QAVideoCoCa56.10%AccuracyMSRVTT-QAmPLUG-248%iVQAText+Text(noMultimodalPretext

Training)40.20%MSRVTT-MCVIOLETv297.60%TVQAFrozenBiLM82%NExT-QAHiTeA63.10%Howto100M-QAHerow/

pre-training77.75%Video

CaptioningMSR-VTTmPLUG-257.8BLUE-4YouCook2UniVL17.35ActivityNet

CaptionsVideoCoCa14.5Hindi

MSR-VTTSBD_Keyframe41.01Video

RetrievalMSR-VTT-1kAHunYuan_tvr(huge)62.9text-to-video

R@1MSR-VTTInternVideo55.2MSVDHunYuan_tvr(huge)59YouCook2VideoCLIP32.2TVRHerow/

pre-training4.34TGIFMDMMT-225.5资料来源:多模态技术白皮书,中信建投1.14 多模态广泛存在于机器人、数字人、智能家居等领域多模态在交互、感知、内容分发等众多领域都有较为重要的地位。多模态交互在家庭与办公场景下应用广泛,多模态交互可以进一步提升用户与智能家居设备的交互体验,提升了用户完成相同意图的效率与成功率。多模态感知包括车场景和语音助手下的用户意图感知,例如,在驾车场景中,随着多屏主控等智能座舱技术进步,各种智能终端可以通过多模态交互实现意图识别准确率更高的用户体验。多模态内容分发场景下,虚拟人结合动作、表情、情感、文本等信息,输出给用户。图表:在家里通过多模态方式发出指令 图表:多模态技术能够合成虚拟形象,给予用户多模态的信息 图表:多模态技术的应用领域应用公司/市场领域文本生成阿里商品推荐机器翻译有道AR翻译搜狗同传3.0多模态检索谷歌图像检索爱奇艺人脸识别智能个人助理阿里小蜜小爱同学数字人虎牙直播小爱虚拟形象传感器智能智能车舱目录一、多模态预训练概述二、多模态预训练关键要素三、主要模型与下游场景四、未来方向及演进趋势五、风险提示多模态预训练关键要素总括模型训练要素文字使用成熟的BERT等模型进行处理图像特征提取包括Grid、Region、Patch

based方式需要重要视觉特征;基于patch的方式更高效图文对比(ITC)掩码语言模型(MLM)图文匹配(ITM)1.对图文进行tokenization,转化为模型能处理的形式2.设置学习目标3.模型结构使用不同的学习目标会带来不同的结果4.模态融合方式Encoder-only Encoder-decoder常见的是Encoder-only结构,用于图文检索等任务,encoder-decoder结构适合相关生成任务Fusion

Encoder DualEncoderFusion

Encoder通过融合方式对模态进行处理;Dual

Encoder分别对各模态进行处理可以通过叠加多个模型结构/模态融合方式改变模型性能6.PromptCLIP Visual

ChatGPTPrompt工程在多模态中更加重要,例如以上两个模型采取Prompt方式提升性能5.提升数据质量ALBEF动量蒸馏生成伪标签BLIP生成图像描述并和原来的进行比较过滤2.1 图文需要Tokenization和Embedding资料来源:Vision-Language

Intelligence:

Tasks,

Representation

Learning,

and

LargeModels,Unicoder-VL:

A

Universal

Encoder

forVision

andLanguage

by

Cross-Modal

Pre-TrainingToken是模型输入的基本单元,Embedding是Token映射后的向量,用于计算。文字方面早期一般使用Word2Vec进行Tokenization,包括CBOW和skip-gram,虽然Word2Vec计算效率高,但是存在着词汇量不足的问题,因此子词分词法(subword

tokenization)被提出,使用字节对编码

(BPE)

将词分割成更小的单元,该方法已被应用于BERT等众多Transformer模型中。图像的Tokenization要比文本更加复杂,可以分为基于region,基于grid和基于patch三类方式。基于grid的方式直接使用CNN进行图像网格信息提取,基于region的方式由预训练的目标检测器进行特征提取,基于patch的方式将图像切割成小块,提取小块上的线性投影。图表:子词分词法示例 图表:图像编码的三种方式图表:多模态融合的四种形式图表:文字/视觉特征改变对结果影响2.2

多模态模型中要重视视觉特征资料来源:ViLT:

Vision-and-Language

Transformer

Without

Convolution

or

Region

Supervision,An

Empirical

Study

of

Training

End-to-End

Vision

and

Language

Transformers相较于文本特征而言,多模态模型中视觉特征更为重要。当前多模态预训练大模型中,不论CLIP、UNITER还是ViLT,在模型构造方面,视觉特征的embedding层数或者复杂度要超过文本特征,体现出视觉特征更重要,多模态需要从视觉特征中学习到更多知识。根据METER模型中的数据显示,在视觉特征端进行优化对结果产生的影响要远大于对文本端进行的优化。多模态的主要形式中,无一例外视觉特征要大于等于文本特征无论文本特征如何改变,对结果影响不大视觉特征改变对结果影响比较大2.3

如何设计学习目标是多模态训练的重要一步学习目标是多模态预训练非常重要的一步,目前的多模态的预训练学习任务主要包括图文对比(ITC)、掩码语言学习(MLM)、掩码视觉学习(MVM)、图文匹配(ITM)等。ITC是通常构造正负样本对,通过对比学习方式,对齐图像和文本;ITM可以看作是一个二分类任务,目标是预测一对图像和文本是否匹配;MLM是让模型学习语言和视觉内容之间的隐式关系,目标是从已知的语言和视觉内容中重建掩码语言标记;此外还包括掩码物体分类(MOC)、掩码物体回归(MOR)、行为预测(AP)、图文生成(ITG)等。图表:多模态中学习目标资料来源:Large-scale

Multi-Modal

Pre-trained

Models:

AComprehensive

Survey2.4 不同的多模态预训练学习目标可能带来不一样的结果同时使用不同的预训练学习目标可能会增强多模态模型的效果,例如UNITER模型中,使用更多的学习目标效果一般要更好,UNITER使用MLM+ITM+MRC-kl+MRFR+WRA等多个学习目标在在多个细分场景下表现要更好。使用过多的学习目标可能效果并不好。例如,METER模型中,在MLM和ITM上再加入MIM学习模型,效果比使用单个学习目标要好,但不如仅仅使用两个学习目标,这一方面可能是学习目标之间的冲突导致的,另外一方面可能是图像中存在噪声,MIM重建图像噪声的监督学习没有任何意义导致的。资料来源:UNITER:

UNiversal

Image-TExtRepresentationLearning,An

Empirical

Study

of

Training

End-to-End

Vision-and-Language

Transformers图表:UNITER模型在使用不同学习目标得到不同结果图表:METER模型在使用不同学习目标得到不同结果2.5 多模态模型结构包括encoder-only和encoder-decoder两类资料来源:An

empirical

study

of

training

end-to-end

vision-and-language

transformers,BLIP:

Bootstrapping

Language-Image

Pre-training

forUnified

Vision-Language

Understanding

and

Generation根据模型的结构不同,多模态可以分为encoder-only和encoder-decoder两类。顾名思义,encoder-only指模型只用了transformer的编码器部分,多模态的输入直接通过encoder进行输出,而encoder-decoder则是使用了transformer中的编码器和解码器两部分,解码器同时获得解码器的输出结果以及之前生成的token,使用自回归产生输出。常见的多模态模型是encoder-only,包括CLIP、ALBEF等,适合图文检索,但是不适合生成任务,例如image

captioning等;Encoder-Deocder模型包括VL-T5、SimVLM等,利用了decoder的特性,适合生成任务,但是不太适合图文检索等。图表:多模态中的Encoder-only和Encoder-Decoder架构 图表:Encoder-only和Encoder-Decoder基本情况小结架构基本情况代表Encoder-only常见;适合图文检索,但不适合生成任务CLIP、ALBEFEncoder-Decoder不适合图文检索,适合生成任务VL-T5、SimVLM资料来源:A

Surveyof

Vision-Language

Pre-Trained

Models,Vision-Language

Intelligence:

Tasks,

RepresentationLearning,

and

LargeModels,中信建投2.6 根据信息融合方式的不同,可以fusion/dual

encoder划分模型不同模态进行各自的编码后,需要设计一个编码器进行多模态编码,根据编码融合方式的不同,多模态模型可以分为Fusionencoder模型和Dual

encoder模型。Fusion

encoder顾名思义,是使用融合的方法来进行模态之间的交互,经过自注意力或者交叉注意力操作后,最后生成模态的融合表示,融合方案主要包括单流和双流。单流假设两个模态存在潜在关联或者对齐比较简单,直接在两个模态上使用自注意力机制,然后将两个模态连接在一起;双流模型假设模态内交互和跨模态交互需要分开,从而可以获得更好的多模态表示,采用交叉注意力机制进行建模。融合编码器在不同层次上对跨模态进行交互建模,在某些推理领域取得了很好的效果,但是在图文检索中等匹配任务中,因为要编码交互所有的图文对,这就导致了最后推理速度非常慢。Dual

encoder分别利用两个单模态编码器对两种模态进行编码,两种模态充分编码后,使用简单的点乘或者浅层注意力层计算相似性分数,就不再依赖复杂Transformer了。图表:双流和单流模型架构 图表:Fusion

Encoder和Dual

Encoder具体模型示例图表:VLMO有fusion

encoder和dual

encoder特性图表:BLIP有encoder和decoder架构,适合检索,也适合生成2.7 模型可以设计多个模型架构/信息融合方式,增加模型功能资料来源:BLIP:

Bootstrapping

Language-Image

Pre-training

for

Unified

Vision-Language

Understanding

and

Generation,

VLMO:

Unified

Vision-Language

Pre-Training

withMixture-of-Modality-Experts在模型架构方面encoder-only模型更擅长图文检索,encoder-decoder模型更适合生成任务;在信息融合方面fusion

encoder适合推理,dual

encoder适合检索。因此,很自然会将多个模型架构或者信息融合方式组装起来,从而增加模型功能,这也是多模态统一实现的机制。例如,VLMO中使用“三个专家”处理不同预训练,在image-only,text-only和image-text上进行预训练,可以看成使用不同信息融合,从而在推理和检索等任务上均有较好表现。BLIP将encoder-only和encoder-decoder进行组合,兼具理解与生成能力。Dual

encoder架构fusion

encoder架构encoderdecoder图表:CLIP模型随着图像数据的增多性能变好图表:VLMO在更大数据上预训练后效果更好2.8

多模态预训练需要更多数据量进行训练资料来源:Learning

Transferable

Visual

Models

From

Natural

Language

Supervision,VLMO:

Unified

Vision-Language

Pre-TrainingwithMixture-of-Modality-Experts过去在文本以及视觉单模领域的经验说明更多的数据往往能让模型的性能变得更好,类似的,在多模态预训练模型中,更多的数据也通常让模型性能变得更好。例如,CLIP模型中,随着处理的图片数量越多,模型在Zero-shot(零样本)任务上的性能更好;在VLMO模型中,使用更多的预训练数据,在几个任务下的表现均有较好的提升。图表:ALBEF提出的伪标签可以捕获真实文本未描述的概念图表:BLIP模型自动为图像生成字幕,并去除嘈杂的原始字幕2.9

如何解决数据噪声:通过自学习等方式资料来源:Align

before

Fuse:Visionand

LanguageRepresentation

Learning

withMomentum

Distillation,BLIP:

Bootstrapping

Language-Image

Pre-training

forUnified

Vision-Language

Understanding多模态模型中的图文数据大多数是从网络上收集的,带有很大的噪声。例如文本可能包含与图像无关的词,或者图像可能包含文本中未描述的物体,现有的预训练目标(例如

MLM)可能会过度拟合噪声文本并降低模型的泛化性能。针对这种情况,可以采取自学习方式为图片生成新的文本对,提高预训练质量。例如ALBEF提出动量蒸馏(MoD)方法为图像生成伪标签作为附加监督信号,生成的标签可以捕获真实文本未能描述的内容;BLIP通过自动为图像生成字幕,与图文数据对原有的文本数据进行对比,选择更优的文本标签,从而提升数据质量。2.10

Prompt方式在多模态预训练的地位更加重要资料来源:Visual

ChatGPT:

Talking,

Drawing

andEditingwithVisual

Foundation

Models,Learning

Transferable

VisualModels

From

Natural

Language

SupervisionPrompt方法主要通过改造下游任务的模板来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果,最大的优点是零/小样本,已经被广泛用于各种文本大模型中。Prompt在多模态预训练任务有着非常重要的作用。例如,visual

ChatGPT中,使用一个Prompt

Manager生成让ChatGPT理解的提示性文字,让其进行图像模型的调度,最后生成相关图像;在CLIP模型中,在Zero-shot任务中,通过对文字生成提示性模板,能够取得更好的性能。图表:visual

ChatGPT架构 图表:CLIP模型中的文字提示模板生成目录一、多模态预训练概述二、多模态预训练关键要素三、主要模型与下游场景四、未来方向及演进趋势五、风险提示CLIP:2021年由OpenAI提出,利用文本信息监督视觉任务自训练,训练数据集为40亿个“文本-图像”对,采用Transformer模型对图像的patch序列进行建模,将不同模态的原始数据映射到统一或相似的语义空间,实现不同模态信号间的相互理解,拥有寻找不同模态数据间关系的能力,如下图步骤3所示,狗狗图片对应的单词应该是“dog”,模型在这种对应关系中学习到文本和图像这两种不同模态信息背后的内涵,为多模态的生成模型奠定了基础。CLIP在zero-shot上表现较好。与CV中常用的先预训练然后微调不同,CLIP可以直接使用prompt进行零样本学习图像分类,即不需要任何训练数据,就能在某个具体下游任务上实现分类。如下图步骤2和3所示,根据任务的分类标签构建每个类别的描述文本,选择与图像相似度最大的文本标签作为图像预测分类的结果。图表:

CLIP模型示意图步骤1:通过海量的图片-文本数据学习图片和文本的语义关系步骤2:根据任务分类标签创建类别描述文本步骤3:实现

zero-shot预测3.1.1

CLIP:使用对比学习实现图文对齐资料来源:LearningTransferable

Visual

Models

From

Natural

Language

Supervision3.1.2

CLIP:灵活通用,下游应用广资料来源:Learning

Transferable

Visual

ModelsFrom

Natural

Language

Supervision,HairCLIP:

Design

Your

Hairby

Textand

Reference

ImageCLIP很灵活并且适用范围广。由于

CLIP

模型直接从自然语言中学习各种视觉概念,更加灵活和通用,CLIP模型能够在zero-shot下执行许多不同的任务。例如在包含了细粒度对象分类、OCR、视频中的活动识别和地理定位等27个数据集的任务中,CLIP可以从图像表示中学习到更多有用信息。CLIP下游应用场景广泛。CLIP模型本身用来做图文检索,后续衍生出一系列基于CLIP的模型,在视频理解、图像编辑、图像生成、自监督学习、视觉问答领域都得到了广泛应用。例如借助CLIP模型,HairClip可以根据用户提供的文本或图像信息单独或联合设计头型,并取得了不错的效果。图表:CLIP效果展示 图表:a.HairClip可以定制化修改发型

b.视频检测3.1.3

DALL·E2:基于CLIP实现更强大的图文跨模态生成DALL·E2:基于CLIP实现文本与图像的联系,基于Diffusion从视觉语义生成图像。2022年4月由OpenAI提出,在DALL·E1的基础上进行了改进和升级,分辨率从从256x256提升到了1024

x

1024,准确性也得到了较大提升。除此之外,其还可以实现以下功能:1)根据文本生成图片;2)将图像扩展到画布之外;3)根据文本对图像进行编辑,实现添加或删除元素;4)给定一张图片生成保持原风格的变体。DALL·E2模型可以分为两部分。首先是利用CLIP文本编码器将图像描述映射到表示空间

,其次利用前向扩散从CLIP文本编码映射到相应的CLIP图像编码,最后通过反向扩散从表示空间映射到图像空间,生成众多可能图像中的一个。总体来说,

DALL·E2实现了功能更齐全的图文跨模态生成,图片的真实性和准确度也较以往的产品有了不错的提升。但是在生成一些复杂图片的细节方面,

DALL·E2仍面临着一些挑战。图表:DALL·E2.0模型基于文本描述生成图像 图表:DALL·E1.0与DALL·E2.0生成图片对比基于CLIP模型构建起图像和文本的统一语义关系基于扩散模型实现高质量的图像生成资料来源:Hierarchical

Text-Conditional

Image

Generation

with

CLIP

Latents3.2.1

BEiT-3:引领文本、图像、多模态预训练迈向“大一统”资料来源:Image

asaForeign

Language:

BEIT

Pretraining

forAllVision

and

Vision-Language

TaskBEiT:提出了图像的掩码训练方式,解决了模型规模日益扩大导致的数据量不足问题。模型训练过程中编码学习Tokenizer,将图像变成离散的视觉符号(visual

token),类似文本(下图红框);二是,将图像切成多个小“像素块”(patch),每个像素块相当于一个文本中的字符(下图蓝框)。在预训练时,模型便可以通过掩码方式进行学习。BEiT-3:通过模型改进、预训练任务调整,为

AI

多模态基础大模型研究打开新思路。模型改进方面,BEiT-3使用不同结构以对不同模态进行编码,其结构包含一个共享的自注意力模块(下图灰色方块),用以学习不同模态信息的对齐并将不同模态的信息深度融合,以及包含一个模态专家(下图蓝色方块为视觉,绿色方块为语言),即根据当前输入的模态类别,选择不同模态专家对其进行编码以学习更多模态特定的信息。预训练任务方面,相较于之前的多模态模型在预训练过程中采用不同的预训练任务,BEiT-3采用统一的任务,对大模型训练更加友好。图表:BEiT提出图像的掩码训练方式 图表:BEiT-3模型示意图在广泛的视觉及视觉-语言任务上,

BEiT-3都取得了最优结果的迁移性能。在包含视觉问答、视觉推理、图像描述、目标检测与实例分割、语义分割、图像分类等在内的一共

12

个视觉

-

语言下游任务上,研发团队评估了

BEiT-3

的泛化能力。结果表明,BEiT-3

在这些任务上都取得了

SOTA

的迁移性能。3.2.2

BEiT-3:在多个下游任务中性能优异资料来源:Image

asaForeign

Language:

BEIT

Pretraining

forAllVision

and

Vision-Language

Task图表:BEiT-3

在广泛的视觉及视觉-语言任务上都实现了SOTA的迁移性能3.3

KOSMOS-1:全能型大语言模型资料来源:Language

Is

Not

All

You

NeedKOSMOS-1:将多模态特征嵌入到Transformer模型中,基于统一的模型架构实现不同模态的对齐。2023年3月由微软提出,其可以实现文本学习、文本生成等任务,还能够将文本以外的模态(如视觉图像、语音)嵌入到模型中。研究证明,在多个下游任务中,该模型具有非常优异的性能,例如在语言理解、视觉问答、多模态对话等。KOSMOS-1模型的参数总量为16亿。我们认为,随着技术的不断发展和迭代,跨模态模型处理更多模态问题的能力将不断增强,多模态感知的大融合是迈向通用人工智能的关键一步。图表:KOSMOS-1在视觉问答方面的测试样例 图表:KOSMOS-1可以讲笑话3.4 PaLM-E:将多模态知识能力与机器人相结合资料来源:PaLM-E:AnEmbodied

Multimodal

Language

Model,新智元,中信建投PaLM-E:将多模态AIGC技术拓展到机器人领域。2023年3月,谷歌和柏林工业大学团队推出多模态具身视觉语言模型

PaLM-E,相较于之前的多模态模型,其不仅可以理解和生成图像/语言,输入可以为文本、图像等不同模态信息,还能够融合不同模态的知识进而生成复杂的机器人指令:例如“从抽屉中拿取薯片”是一个包含了多个计划任务,需要机器人摄像头和机械手相互反馈配合的任务。PaLM-E模型可以将其分解为走到抽屉旁、打开最上面的抽屉、从最上面的抽屉里拿起绿色的薯片、放在柜台上等多个步骤来完成。PaLM-E还具有强大的正迁移能力,即相较于单一任务数据训练出来的模型,利用不同领域的数据融合训练出来的模型具有显著的性能提高。我们认为,PaLM-E的发展与成熟将进一步赋予机器人以“智能”,引发人机交互方式的重大变革,推进人工智能机器人在更多应用场景的落地。图表:PaLM-E模型可以处理丰富的下游任务 图表:PaLM-E模型在混合数据训练下取得更为优异的性能3.5

GPT-4:支持图像输入的ChatGPT升级版资料来源:OpenAI2023年3月14日,OpenAI发布GPT-4。GPT-4沿袭了过去GPT路线,在GPT中引入RLHF机制,并且输入窗口更大,更适合处理长文本,GPT-4的上下文长度为8192个token,远高于GPT-3的2048个token。GPT-4文字输入限制提升到了2.5万字,回答准确率姚显著高于前模型。GPT-4在各类职业/学术考试上表现优秀,与人类相当,比如模拟律师考试,GPT-4取得了前10%的好成绩,而GPT-3.5是倒数10%。GPT-4训练过程更加稳定,且响应不被允许请求的概率也大幅度降低。GPT-4支持图像和文本的输入,可以对图像进行理解,做图表推理等,例如,GPT-4可以根据图片上的数字进行数据处理、发现图像上不合理之处等,但具体模型细节OpenAI并未描述。OpenAI一并发布GPT-4的API与集成GPT-4的ChatGPT。图表:GPT-4能进行图表推理 图表:GPT-4能描述出图片上的不合理之处3.6

多模态下游应用:重点产品时间线资料来源:Sequoia随着技术的快速进步,AI生成内容极大的解放了生产力,多模态广阔的应用场景及潜在的市场价值推动着其商业化道路的快速发展。垂直领域快速落地,爆款产品不断推出。随着技术不断演进,尤其是Diffusion和Transformer模型的提出,多模态应用在多个领域开始落地。其中代码生成、文本生成、图像生成、音视频/游戏等领域已有不少爆款级产品。1)代码领域,基于OpenAI的Codex模型,Github推出的Copilot具备代码的生成、补全、建议等功能,用户量突破百万级别。2)文本领域,ChatGPT目前已开放api接口,随着更多应用的接入,多模态的生态将进一步改善生产方式。3)图像领域,Stable

diffusion等文生图应用已突破千万级用户量,目前是商业模式最成熟的领域,国内也在积极布局。4)音视频/游戏领域,起步较晚,对模型复杂度和算力要求更高,未来市场空间巨大。图表:AIGC重点产品时间线DALL-E2StableDiffusionDALL-EImagenVideoMake-a-vedioPhenakiGPT-3Jasper.AIChatGPTCodex代码文本图像音视频/3D/游戏2020202120224月8月10月9月11月Midjourney7月6月CodeWhisperer三大AI绘图应用支持模型底层技术2月

3月2023测试阶段文心一言Bard GPT-4Palm-EaiXcoderCopilotCopy.aiMeena2019及更早底层技术微软小冰StableDiffusion

2TabNine科大讯飞SMART-TTSMagic3D盗梦师6pen3.6.1

文生图:快速出圈,多款应用火爆资料来源:The

NewYork

Times,TechCrunch,SiliconANGLE,公司官网,中信建投2022年下半年,AI由文本生成图像快速出圈,多款应用火爆。目前对大众开放的图片生成模型主要包括Stable

Diffusion、StableDiffusion2、OpenAI的DALL-E

2、Midjourney等,几款模型中,仅Stable

Diffusion和StableDiffusion2开源,累计使用人数最多,在全渠道有超1000万用户。图片生成是目前AIGCl领域相对成熟的方向,已经达到商用水平。MidJoruney用户每月付费30美元可将图片用于商用,其目前整体年营收已经突破1亿美元。DALL·E

与Stable

Diffusion同样推出付费业务,其中DALL·E为15美元生成

115次图片,

StableDiffusion则为10英镑1000次标准生成。目前来看,Stable

diffusion因其最出色的生成能力,成为图像生成商业领域的龙头。图表:Stability

AI、Midjourney、OpenAI、谷歌产品对比Stable

DiffusionMidjourneyDALL-E

2Imagen使用效果开发公司Stability

AIMidjourneyOpenAI谷歌推出时间2022.082022.072022.042022.05是否开源是否否否是否To

C是是是暂未对外公开是否有内容创作限制否是是-图片处理本地云端云端-使用人数(22.11)超1000万超300万超150万-AIGC技术简化数字人开发流程,提升数字人开发效率:用户可以通过上传照片/视频/音频的方式,借助AIGC技术实现数字人建模,相较于传统的数字人构建方法具有效率高、成本低的特点。目前产品化的3D数字人建模精度已经可以达到次世代游戏人物级别。Meta、英伟达等科技公司已经推出基于AIGC技术帮助用户打造3D数字人的产品,英伟达的omniverse

avatar便是其中一个例子。AIGC技术赋能AI驱动数字人,助推数字人智能化发展:AIGC技术是AI驱动类型数字人的智能核心,为这一类型的数字人提供多模态交互过程中的识别感知和分析决策功能。具体而言,自然语言生成技术影响着人机交互过程中内容的质量,计算机视觉技术则影响数字人面部表情和肢体动作(例如数字人声唇同步技术),AIGC技术的不断发展让高质量的人机交互成为可能。3.6.2视频/3D/游戏:提升开发效率,助推数字人向“数智人”发展资料来源:英伟达官网,腾讯研究院,中信建投图表:基于英伟达omniverse

avatar构建数字人图表:AIGC技术支撑数字人的多模态交互技术阶段作用和目的ASR感知将人的语音转化为文本语音理解 NLP决策处理并理解文本TTS表达将需要输出的文本转化为语音动作合成AI驱动嘴形动作表达构建输出的音频与输出的视觉信息的关联映射AI驱动其他动作表达目录一、多模态预训练概述二、多模态预训练关键要素三、主要模型与下游场景四、未来方向及演进趋势五、风险提示4.1

多模态模型要更大,模态要更多图表:GPT系列模型的参数量与数据量不断提升图表:表示事物的主要模态多模态大模型需要更深层次的网络和更大的数据集进行预训练。多模态大模型多基于Transformer架构进行预训练,而Transformer因其架构特点,未看到过拟合趋势,模型大小、数据集都未有饱和趋势,CLIP等模型也验证了数据量的大小将使得模型性能提升。以语言模型GPT为例,其从GPT1-3模型大小和预训练数据量均是逐步提升,和语言模型中类似,多模态大模型模型大小和数据量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论