人工智能导论课件第17章多模态大模型与生成式人工智能

上传人：h*** IP属地：山东上传时间：2025-08-02 格式：PPTX 页数：31 大小：679.99KB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第17章多模态大模型与生成式人工智能

17.1多模态大模型

17.2生成式人工智能

17.3大模型与生成式AI应用、性能、问题与对策

17.4当前趋势及其他思路和范式

17.1多模态大模型在大语言模型的基础上，构建兼有文本、视频、音频等多种模态信息的大型神经网络模型，称为多模态大语言模型（MultimodalLargeLanguageModel,MLLM），或多模态大模型（MLM）。

17.1.1多模态大模型的架构与运作

多模态大模型的处理任务：图文检索（Image-TextRetrieval）即图像到文本的检索和文本到图像的检索。图像描述（ImageCaptioning）即根据所给图像生成相应的描述文本。视觉问答（VisualQuestionAnswering）即回答与所给图像相关的问题。视觉推理（VisualReasoning）即根据所给图像进行逻辑推理。图像生成（ImageGenerating）即根据文本描述生成相应图像。

17.1.2多模态大模型的训练

1.视觉-语言对齐预训练

就是使图像与相应的文本一致起来。方法是通过大量的“图像-文本”对进行端到端训练，而使两种不同的语义空间对齐。现已摸索到一些经验性的训练策略，如：①如果图文对数量不足够大，通常只更新线性层；②如果训练数据规模相对较大，可以微调大语言模型以提升性能；③如果图文对的数量非常大，可以进一步微调视觉编码器。

2.视觉指令微调微调的输入包括一张图像和一段任务描述文本，输出是对应的文本回复。可以将图像自带的描述文本输入给大语言模型，通过特定的提示来引导大语言模型自动合成视觉指令；或者基于已有的视觉-语言任务数据集，利用特定的问题模板将原有任务数据转化为视觉指令。

17.1.3多模态大模型的发展概况形势是已有大语言模型纷纷扩展视觉、音频等多模态处理能力，而原视觉、音频等大模型则纷纷向语言模型靠拢。当然，也有从头设计、实现的多模态大模型。于是，多模态大模型如雨后春笋。例如，OpenAI的GPT-4、谷歌的GeminiProVision、Meta的LLaMA-3、阿里的Qwen-VL-Plus、Anthropic的Claude-3VSonnet等。还有诸如XVERSE-V、面壁智能的OmniLMM-12B、深度求索的DeepSeek-VL-7B、NEXT-GPT、DreamLLM、苹果的Ferret-UI、商汤的日日新5.5、…等等不胜枚举。从技术角度看，当前多模态大模型的主要研究内容有：基本架构、多模态指令调优（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。在架构方面，MoE架构最引人注目，已成为大模型的一个研发热点甚至发展方向。

17.1.4

MoE架构的多模态大模型1.什么是MoE架构MoE（Mixture-of-Experts）称为专家混合架构，其基本思想就是将通才式大模型细分为由多个“专家”模块组成的分工协作式大模型。

2.基于MoE架构的多模态大模型

MoE理念首次出现于1991年的论文AdaptiveMixtureofLocalExperts中。

2017年，谷歌首次将MoE引入自然语言处理，通过在LSTM层之间增加MoE实现了机器翻译方面的性能提升。

2020年，Gshard首次将MoE技术引入Transformer架构中，并提供了高效的分布式并行计算架构。

2021年1月，谷歌的SwtichTransformer和GLaM则进一步挖掘MoE技术在自然语言处理领域中的应用潜力，并展现了卓越的性能表现。SwitchTransformers模型参数达到1.57万亿，与此前的T5模型相比，在相同的计算资源下获得高达7倍的模型预训练速度提升，并实现了4倍的模型加速。2021年6月，V-MoE将MoE应用在计算机视觉领域的Transformer架构模型中，同时通过路由算法的改进在相关任务中实现了更高的训练效率和更优秀的性能表现。2022年，LIMoE作为应用稀疏专家混合模型技术的多模态模型，其性能相较于CLIP也有所提升。2023年3月，OpenAI发布了采用MoE模型的GPT-4。其中有16个专家模型，每个专家模型大约有1110亿个参数，推理时只有两个专家被激活。该模型有120层，在13万亿个token上训练，推理运行在有128个GPU组成的集群上。2023年，MistralAI发布并开源了由小模型组合起来的MoE模型Mistral8x7B，直接在多个跑分上超过了多达700亿参数的Llama2和GPT-3.5。2023年12月，GoogleDeepMind发布了从头开始构建的MoE架构多模态大模型Gemini1.0。2024年2月，谷歌又发布了Gemini1.5系列模型。其中的Gemini1.5Pro，最高可支持10,000K（100万）token的超长上下文，意味着可以轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。2024年2月，昆仑万维正式发布了搭载新版MoE架构的大语言模型天工2.0，并面向全体C端用户免费开放。2024年4月，Snowflake发布了具有128个专家模型的MoE架构大语言模型SnowflakeArctic。2024年4月，MiniMax发布的基于万亿参数的MoE模型abab6.5可以1秒内处理近3万字的文本，并在各类核心能力测试中接近GPT-4、Claude-3、Gemini-1.5等领先的大语言模型。2024年5月，深度求索发布了MoE架构的DeepSeek-V2，接着又在12月发布上线了DeepSeek-V3并同步开源。DeepSeek-V3在知识类任务（MMLU,MMLU-Pro,GPQA,SimpleQA）上的水平接近当时表现最好的模型Claude-3.5-Sonnet-1022。在美国数学竞赛（AIME2024,MATH）和全国高中数学联赛（CNMO2024）上，DeepSeek-V3大幅超过了其他所有开源闭源模型。其生成吐字速度从20TPS大幅提高至60TPS，带来更加流畅的使用体验。2025年1月29日，阿里云通义千问团队发布并开源了其最新MoE架构的大模型Qwen2.5-Max。该模型预训练数据超过20万亿tokens，展现出极强劲的综合性能，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

17.2生成式人工智能

17.2.1

生成式AI发展概况2013年，提出了变分自编码器的深度神经网络模型，可用于图像和文本生成。2021年1月，OpenAI将VAE引入其DALL-E中。之后同年5月清华推出了支持中文生成图像的CogView；11月微软和北大推出了NUWA（女娲），可以生成图像和短视频。2014年6月，一种称为生成式对抗网络（GAN）的神经网络模型被提出。该模型所生成的人、物、风景等图像栩栩如生，可以假乱真，震惊了世界！很快GAN便成了人工智能的一个热点。

2015年，非平衡热力学中基于费克定律的扩散模型（DiffusionModel）引入AI，在ICML上首次提出了扩散概率模型（也简称扩散模型）。2021年1月，OpenAI在其图像生成系统DALL-E2中采用改进的扩散模型DDPM。12月OpenAI又推出了GLIDE模型。12月百度推出了ERNIE-ViLG模型。2022年4月，OpenAI推出了DALL-E2；同月清华推出了CogView2；5月清华又推出CogVideo。谷歌在五月推出了Imggen，6月又推出了新一代AI绘画大师Parti。文本生成典型代表就是ChatGPT。从循环网络RNN、LSTM和GRU到序列处理模型Seq2Seq、Transformer，这些模型中的解码器都有文本生成能力，而到了GPT系列以及T5系列等，其文本生成能力已从基本的单词预测、文本补全发展到直接生成短语、句子甚至整个段落。到了多模态大模型阶段，则文本生成和图像、视频、音频等的生成便融合为一体了。文与图、文与视频等可以互相生成。2024年2月，OpenAI推出的Sora则将视频生成推向新的高度。这样一来，这些生成式网络模型和算法就构成了一种生成技术（generativetechnology,GT），其也被称为AIGC（artificialintelligencegeneratedcontent，直译为：人工智能生成内容）技术，也正是这些生成技术给人工智能注入了新的活力。现在，大语言模型、大视觉模型和多模态大模型中都有生成技术的支撑；反过来，那些具有生成功能的神经网络模型也就是一种生成模型（generativemodel）。正是在这样的情势下，一个称为生成式人工智能（GenAI）的新术语、新方向便应运而生。时至今日，生成技术已是人工智能研究的重要领域，其成果颇丰，而且仍然在日新月异地发展着。

17.2.2

生成模型的类型按生成的内容划分，生成模型可以分为图像生成模型和文本生成模型。图像生成模型目前主要有四个流派：对抗生成网络（GAN）、变分自编码器（VAE）、标准化流模型（NormalizationFlow,NF）和扩散模型（DM）。此外，还有启发于电动力学的“泊松流”生成模型PFGM（“PoissonFlow”GenerativeModel），以及Autoregressivemodel和Energy-basedmodel等。

GAN包括两部分：一个生成器，一个判别器。生成器根据输入的自然语言描述生成相应的图像，判别器则试图区分生成的图像与真实的图像。生成器不断优化自己，以产生更逼真精确的图像，判别器也不断学习如何更好地鉴别图像的真伪。

VAE是一个编码器-解码器架构，编码器将输入图像编码成特征向量，用来学习高斯分布的均值和方差，而解码器则可以将特征向量转化为生成图像，它侧重于学习生成能力。

NF是从一系列简单的分布开始，通过一系列可逆的转换函数将分布转化成目标分布。

DM先通过正向过程将噪声逐渐加入到已知图像数据中，然后通过反向过程估计每一步加入的噪声，再将噪声去掉，逐渐还原而得到无噪声的、新的图像数据。

17.2.3

生成对抗网络模型1.基本架构和数据流程

3.模型训练GAN的训练采用判别器和生成器分步交替训练的策略。一般先训练判别器D，再训练生成器G；如此反复进行。

17.2.4扩散模型扩散模型的基本做法：(1)对一个给定的图像采样，得真实数据集X0；(2)分T步，给X0中加入高斯噪声

2,…

T,得数据集序列X1,X2,…,XT,最终使X0变为一个服从标准高斯分布的噪声数据集XT=Z；(3)从噪声Z开始，反向按原时间步去除噪声

1,…,

1，最终使噪声Z又变回与原数据集相似的新数据集X0’。这个X0’即为生成数据。17.3大模型与生成式AI的应用、性能、问题与对策

1.应用

可应用于多种业务、任务以及日常生活中。比如用于问答聊天、信息咨询、资料查阅与整理、文稿起草、资料翻译、图文处理、广告设计、辅助编程、辅助教学、文艺创作、情感分析、智能代理、数据生成、人机接口、多媒体（图像、视频、音频）处理等等。2.问题及对策

“幻觉”问题，能力和水平受限于训练数据，运行过程不够透明，解释性差，以及对相关资源要求过高，构建成本过高等问题。针对大模型的现状，研究者们一方面进行深入的理论分析。如有学者从大模型的解释性着眼，并拟以此为突破口进一步探讨大模型的运行机理。另一方面又不断进行技术改进。例如，利用外部工具（如计算器）、搜索引擎、插件、API等来提高工作质量和能力范围。又如，将大模型与知识图谱、Agent、Web等技术相结合。再如，引入专家混合（MoE）架构等。这些举措也是近年来的一些技术突破和热门方向。另外，还有一个称为检索增强生成（Retrieval-AugmentedGeneration,RAG）的技术创新值得一提。RAG就是建立一个外部数据库，为大模型不断提供新数据支持。该数据库为一种向量数据库，可动态地补充和更新数据，以供大模型实时检索。这样，也就有望解决大模型对训练数据的依赖问题。

3.安全安全性问题也引起了全世界的广泛关注和高度重视。近年来业界和政府部门都相继出台了一系列相关标准、法规和政策。例如，我国的《人工智能标准化白皮书》（2021）、《生成式人工智能服务管理暂行办法》（2023）和《生成式人工智能服务安全基本要求》（2024）等。2024年3月21日，联合国大会通过首个关于人工智能的全球决议《抓住安全、可靠和值得信赖的人工智能系统带来的机遇，促进可持续发展》。此外，还有一些由众多团体共同签署的国际公约。

17.4当前趋势及其他思路和范式

与传统技术相结合

就是将大模型与传统人工智能、计算机和网络技术相结合，根据实际情况可以是前者调用后者，也可以是后者调用前者，从而使大模型等新技术与传统技术形成互补而相得益彰。一些具体做法，上一节已经提到了。又如，现在有学者提出了将Transformer与传统机器学习中支持向量机（SVM）相结合的理论和方法。

专业化

就是针对特定的专业或任务构建相应的专业或专家大模型。如OpenAI的o1推理模型，采用思维链技术进行复杂推理，而表现出一种分析问题、解决问题的能力，特别适合于科学研究任务。在国内，月之暗面的KimiAI长于文本生成、问答和对话以及跨语言迁移学习等，而百川智能则聚焦于搜索技术和信息检索系统的优化。其实，专业化从模型的命名上也可以看出来。

轻量化

2024年前后，出现了开发“小而强”语言模型的新趋势。首先是法国的MistralAI用70亿参数的模型击败有130亿参数的Llama2，接着中国清华的面壁智能推出了更加浓缩的端侧模型MiniCPM，其仅用24亿参数就实现了超过Llama213B的性能。随后，诸如HuggingFace、OpenAI、Mistral、苹果、谷歌等都相继发布了各自最强的轻量级模型。2024年2月，谷歌发布了基于Gemini技术的仅有2B/7B参数的轻量级开源多模态模型Gemma。它可以在笔记本或台式电脑上运行，该模型在多个关键基准测试中表现优异，特别是在语言理解、推理和数学等方面，超越了有些更大参数规模的模型。轻量化已成了一个新的研究热点。现已提出了诸多技术方案。如量化、稀疏化、低秩分解、参数共享、硬件加速和知识蒸馏等等。

所谓知识蒸馏，简单来讲就是将一个训练好的大模型中的“知识”传授给一个未训练好的小模型，使得后者也具有与前者相当的功能和性能。这里将大模型称为“教师模型”，而将小模型称为“学生模型”。例如，深度求索的DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama系列轻量级（1.5B～70B）模型，就相当于将DeepSeek-R1作为教师模型，将Qwen和Llama的相应基座模型作为学生模型，采用知识蒸馏技术而实现的。具体做法是用训练DeepSeek-R1时所生成并使用的60万条链式推理示例和

DeepSeek-V3提供的20万条知识性示例对基座模型进行微调。

架构改进和技术融合

（2024年的一组报道）：谷歌更新了Transformer。最新发布的Mixture-of-Depths（MoD），改变了Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型，完美融合Transformer和扩散模型之后，语言模型和图像大一统，又近了一步。近日，清华大学和智谱AI联合发布的最新研究成果，为长文生成提供了创新方案。这项名为“LongWriter”的技术，成功将AI模型的长文生成能力从约2000字提升至10000字以上，同时保持了高质量输出。勇夺三项SOTA。北航&爱诗科技近日联合发布灵活高效可控视频生成方法TrackGo。基于Transformer

的时间序列预测模型2024年前后，诸如Lag-LLaMA、Time-LLM、Chronos、Moirai、PatchTST和

iTransformer等的时间序列预测模型被相继推出，特别是后两款模型展现出卓越的性能和效果。Mamba架构基于数学中状态空间模型（StateSpaceModel,SSM），采用循环网络（RNN）和卷积网络（CNN），研究者们又开发出一种称为Mamba的新型大模型架构。Mamba可有效降低大模型（因注意力机制）的计算开销，已展现出诸多优于Transformer的性能或潜力。据报道，技术创新研究所（Tll）最近（2

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能导论课件第17章多模态大模型与生成式人工智能

文档简介

温馨提示

最新文档

评论

人工智能导论 课件 第17章 多模态大模型与生成式人工智能

文档简介

温馨提示

最新文档

评论

相关文档

人工智能导论课件第17章多模态大模型与生成式人工智能