《生成式人工智能通识》课件周苏第7-14章多模态生成技术-面向通人工智

上传人：q*** IP属地：山东上传时间：2026-04-19 格式：PPTX 页数：629 大小：10.17MB 积分：45 举报 版权申诉

已阅读1页，还剩628页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章多模态生成技术本章主要介绍利用AI算法创造多种数据模式（如文本、图像、音频、视频等）内容的技术。它通过深度学习、预训练模型和注意力机制等技术基础，结合多模态嵌入、跨模态交互学习等关键方法，实现不同模态数据之间的融合与生成。本章探讨了多种模型结构融合策略，如早期、晚期和中间融合，并介绍了多模态Transformer、联合嵌入空间等典型架构。此外，本章还涵盖了多模态技术在视觉与文本结合、跨媒体内容生成、物联网智能感知与响应等领域的应用场景和现有工具，指出数据对齐、泛化能力、隐私保护等面临的挑战与未来发展趋势。第7章多模态生成技术01多模态生成概述02视觉与文本结合03跨媒体内容生成04物联网环境下的智能感知与响应目录/CONTENTS05应用与发展PART01多模态生成概述多模态生成技术是指利用AI算法来创造涉及两种或更多种不同数据的模式，如文本、图像、音频、视频等的内容。这些技术能够处理、理解和结合多种信息来源，产生更加丰富和复杂的内容结果，多种模态之间可以组合搭配，进行模态间的转换生成（图7-1），通过整合不同模态的信息，实现了更加复杂和真实的生成。7.1多模态生成概述

图7-1多模态生成处理示意7.1多模态生成概述例如，文本生成图像（AI绘画：根据提示生成特定风格图像），文本生成音频（AI作曲：根据提示生成特定场景音频），文本生成视频（AI视频制作：根据描述性文本生成语义内容相符的视频片段），图像生成文本（根据图像生成标题、生成故事），图像生成视频等。7.1多模态生成概述多模态生成的技术基础在于整合和处理来自不同类型的输入数据（如文本、图像、音频等），通过深度学习模型（如Transformer、GAN、VAE等）捕捉跨模态之间的复杂关系，以生成连贯且一致的多类型输出。7.1.1技术基础多模态生成的一些关键技术点如下。（1）多模态嵌入：这是一种将不同模态的数据转换成统一的高维向量表示的方法，使得模型能够理解不同模态间的关联性，为跨模态生成和分析打下基础。（2）跨模态交互学习：模型通过联合训练，学习不同模态之间的相互影响，提高生成内容的相关性和协调性，例如根据文本描述生成匹配的图像或视频。7.1.1技术基础（3）多任务学习：在一个模型中同时处理多个生成任务，每个任务可能对应不同的模态，这样模型可以共享知识，提升整体性能。（4）注意力机制与Transformer架构：这些技术允许模型处理多模态数据时能够聚焦于输入中的重要部分，增强对多模态信息的理解和整合能力，提高生成内容的质量和准确性。深度学习，尤其是神经网络架构，是多模态生成的核心。CNN、RNN、Transformer及其变体广泛应用于处理不同类型的模态数据。（5）预训练模型：通过在大规模的数据集上进行预训练，模型可以学到丰富的特征表示，这有助于提高跨模态任务的表现。7.1.1技术基础模型结构融合策略旨在有效整合来自不同模态（如文本、图像、音频等）的数据，以捕捉跨模态之间的复杂关系，并生成连贯且一致的输出。以下是几种常见的模型结构融合策略。（1）早期融合。指在输入阶段或特征提取之前，直接将所有模态的数据转换为统一的向量表示后合并，形成一个联合表示，再传递给下游任务。优点是简单直观，允许模型在整个训练过程中学习跨模态的交互。而面对的挑战主要是需要处理高维数据，可能导致过拟合；不同模态的数据尺度和分布差异可能影响性能。7.1.2模型结构融合策略（2）中间融合。指先对每个模态分别进行特征提取，然后在中间层（如编码器的隐藏层）合并这些特征，再继续后续处理，以在某些层次上共享参数或交互信息。其优点是能够在一定程度上缓解早期融合中的维度灾难问题，同时保持模态间信息的有效交互。挑战是需要精心设计特征提取器，以确保各模态信息的质量。7.1.2模型结构融合策略（3）晚期融合。指对每个模态独立地进行完整的处理流程（包括特征提取和预测），最后在输出层或决策层结合各个模态的结果。优点是为每个模态定制专门的处理逻辑，避免不同模态之间的直接冲突。挑战是难以捕捉深层次的跨模态交互，可能丢失一些潜在的相关性。7.1.2模型结构融合策略（4）交叉模态注意力机制。引入注意力机制来动态权衡不同模态的重要性，使得模型能够根据当前任务需求自动聚焦于最相关的模态信息。例如：Transformer架构中的自注意力机制被扩展到处理多模态数据，通过计算不同模态之间的相似度矩阵来指导信息流动。优点是提高模型对复杂场景的理解能力，增强了灵活性和适应性。7.1.2模型结构融合策略（5）模态特定分支与共享主干。设计一个通用的主干网络，用于所有模态的初步处理，之后分叉成多个分支，针对各自的特性进一步细化处理。优点是既保留了模态间的共通特征，又照顾到各自独特的属性。面对的挑战是需要平衡好共享部分和分支部分的设计，以免过度简化或复杂化。7.1.2模型结构融合策略（6）多模态Transformer。基于Transformer架构，扩展到多个输入流，支持并行处理不同的模态。专门为多模态数据设计的模型，利用自注意力机制同时处理多种类型的输入。例如：MUTAN、ViLT等模型通过调整Transformer的内部结构支持图像—文本、视频—文本等多模态任务。优点是强大的序列建模能力和并行计算优势，适合处理长依赖性和大规模数据集。7.1.2模型结构融合策略其典型架构如下。（1）联合嵌入空间：构建一个共同的空间，让来自不同模态的数据点在这个空间中具有相似性度量。（2）交叉模态GAN：使用GAN框架，其中一个生成器试图创建逼真的另一模态数据，而判别器则评估真实性。选择合适的融合策略取决于具体的应用场景、可用资源及预期的效果。随着深度学习技术的发展，越来越多创新性的融合方法不断涌现，推动了多模态生成技术的进步。7.1.2模型结构融合策略PART02视觉与文本结合视觉与文本结合是指将图像（或视频）和文本两种不同类型的模态数据进行融合，以实现更加丰富和复杂的交互式应用。这种结合可以用于多种场景，如图像字幕生成、视觉问答（VQA）、基于文本的图像合成与编辑等。7.2视觉与文本结合图像字幕生成，是指给定一张图片，自动生成一句或多句描述该图片内容的文字。它结合了计算机视觉和NLP的能力，需要理解图像内容与文本信息之间的关系。其技术方法如下。（1）编码器—解码器架构：通常使用CNN作为编码器来提取图像特征，然后通过RNN、LSTM或Transformer作为解码器生成相应的句子。（2）注意力机制：引入注意力模型，使解码器在生成每个单词时能够聚焦于图像的不同区域，从而提高描述的准确性和相关性。7.2.1图像字幕生成视觉问答（VQA）是指根据提供的图片及一个自然语言的问题回答出正确答案，自动生成描述图片的文字说明。其技术方法如下。（1）联合嵌入空间：构建一个共同的空间，让来自不同模态的数据点在这个空间中具有相似性度量，使得问题和图像可以在同一个语义空间中被比较。（2）多模态Transformer：采用Transformer架构处理图像和文本输入，通过交叉注意力层捕捉两者之间的关系，最终预测答案。7.2.2视觉问答文本到图像生成，即基于脚本或简短描述文字生成对应的完整图像或视频，如DALL-E系列模型。用户输入文本描述，模型依据文字描述生成与之匹配的图像，可用于快速内容创作、新闻摘要生成、个性化视频广告等艺术、广告行业。

图7-2DALL-E绘画示例7.2.3基于文本的图像合成与编辑主要技术方法如下。（1）GAN：利用生成器从文本（特征）描述中学习并创建新的图像或视觉内容，同时由判别器评估生成图像的真实性。（2）条件VAE（CVAE）：通过条件设置，以文本为条件指导图像的生成过程。（3）扩散模型：概率模型，逐步将噪声添加到初始图像，并学会逆向过程，以生成新图像。至于文本引导的图像编辑，则是根据文本指令修改现有图像，例如改变颜色、添加或移除对象等。7.2.3基于文本的图像合成与编辑主要技术方法如下。（1）可控生成模型：设计允许用户指定特定编辑操作的生成模型，例如通过文本命令调整图像属性。（2）掩码引导的编辑：用户可以通过提供文本描述和选择要编辑的区域来指导模型执行精确的图像编辑。7.2.3基于文本的图像合成与编辑语音识别与合成中的情感传递，综合了文本、表情符号、语音语调等多种信息判断情绪状态，不仅转录话语内容，还能捕捉说话人的情感状态，并反映在合成的语音中。要确保生成的内容（如图像和文本、音乐配图、情感化故事叙述）与初始输入的情感基调相匹配。例如快乐的音乐配上愉快的风景画。7.2.4情感一致性的视觉与文本生成其主要技术方法如下。（1）情感标签：在训练过程中加入情感标签，以便模型能够在生成时考虑情感因素。（2）情感转移学习：使用预训练的情感分类器帮助模型理解输入文本的情感色彩，并应用于图像生成。（3）情感分析和表达：利用情感分析工具理解输入内容的情感属性，并指导生成过程，以保持一致性。7.2.4情感一致性的视觉与文本生成2021年初以来，AI领域推出大量基于文本到图像的模型（如DALL-E-2、StableDiffusion和Midjourney等）。2023年，谷歌公开了一款名为Muse的基于文本生成图像的模型，声称可以实现最先进的图像生成性能。7.2.5案例：谷歌Muse文本到图像生成如图7-3所示，作为一种文本到图像的Transformer模型，Muse具有先进的图像生成性能，它在离散空间中进行掩码任务的训练，基于从预训练的LLM中提取的文本嵌入训练Muse，以预测随机遮蔽的图像元（token，图元或词元）。与Imagen和DALL-E2等像素空间扩散模型相比，Muse使用离散token，并且需要更少的采样迭代，效率显著提高。另外，与Parti等自回归模型相比，Muse使用了并行解码，因此效率更高。使用预训练的语言模型可以实现细粒度的语言理解，转化为高保真图像生成和视觉概念的理解，例如对象、空间关系、姿势、基数等。7.2.5案例：谷歌Muse文本到图像生成

图7-3谷歌的Muse框架7.2.5案例：谷歌Muse文本到图像生成图7-3展示了Muse框架，包括在T5-XXL预训练的文本编码器、基础模型和SR模型。文本编码器生成一个文本嵌入，用于与基础和SR的Transformer层的图像元进行交叉注意力计算。基础模型使用VQtokenizer，在较低分辨率（256×256）的图像上进行预训练，并生成16×16的隐空间。序列以可变速率被遮蔽，然后通过交叉熵损失学习预测被遮蔽的图像元。重建的LR图像元和文本词元就会传递到SR模型中，然后学习预测更高分辨率下的遮蔽图像元。7.2.5案例：谷歌Muse文本到图像生成PART03跨媒体内容生成多模态生成技术中的跨媒体内容生成指的是利用多种不同类型的媒体数据（如文本、图像、音频、视频等）作为输入，通过计算模型和算法来生成新的、综合性的媒体内容。这种技术旨在捕捉和融合来自不同模态的信息，以创建更加丰富和互动的内容体验。前面已经介绍了文本到图像/视频的生成，下面来介绍多模态生成的其他技术形式。7.3跨媒体内容生成图像到文本生成是一种将视觉内容转换为自然语言描述的技术，它结合了计算机视觉和NLP两大领域的最新进展。该技术使得机器能够“看懂”图片，并用人类可读的语言表达出来，广泛应用于图像标注、辅助视觉障碍者理解图片、自动化报告生成等领域。图像到文本生成不仅拓展了机器感知世界的边界，也为各行各业带来了新的可能性。7.3.1图像到文本生成图像到文本生成的技术基础主要如下。（1）计算机视觉。①特征提取：使用CNN等深度学习模型，从图像中提取高层语义特征，如物体类别、位置关系等。②目标检测与分割：识别图像中的多个对象及其边界，有助于构建更详细的场景描述。7.3.1图像到文本生成（2）NLP。①编码—解码框架：采用编码器-解码器结构，用CNN作为编码器提取图像特征，再用递归神经网络、LSTM，或者Transformer作为解码器生成文本，其中编码器负责将图像特征转化为隐含表示，而解码器则基于此生成对应的文本序列。②注意力机制：引入注意力机制，使模型能够在生成描述时聚焦于图像的不同部分，从而提高描述的相关性和准确性。7.3.1图像到文本生成（3）多模态融合。①跨模态对齐：通过联合训练图像和文本数据集，确保两者之间的语义一致性，以便更好地进行信息转换。②特征级融合：在特征空间层面整合视觉和语言信息，形成统一的表示形式，便于后续处理。7.3.1图像到文本生成图像到文本生成的主要方法如下。（1）基于模板的方法：规则匹配，根据预定义的模板或模式匹配图像中的元素，并填充相应的文字描述。优点是简单直观，适用于特定领域内的固定格式化输出。缺点是灵活性差，难以应对复杂的现实世界场景。（2）端到端深度学习模型：展示和讲述是谷歌2015年最早提出的一种经典架构，使用CNN提取图像特征后连接RNN/LSTM生成句子。7.3.1图像到文本生成其改进模型如下。①注意力机制：增强版“展示和讲述”加入注意力机制，允许模型关注图像的不同区域。②基于Transformer的模型：近年来兴起的Transformer架构因强大的序列建模能力而被广泛应用，例如ViLT、MDETR等模型。7.3.1图像到文本生成（3）预训练与微调。①大规模预训练：利用海量无标注或多模态数据进行预训练，学习通用视觉—语言映射关系。②下游任务微调：针对具体应用场景调整参数，以适应特定的任务需求，如医学影像报告生成、商品图片描述等。7.3.1图像到文本生成跨媒体翻译是指将一种媒介形式的内容转换为另一种媒介形式的过程，例如从图像到文本、从视频到音频、从文本到图像等。它不仅涉及不同媒体类型之间的信息传递，还要求保留原始内容的意义、情感和上下文关系。跨媒体翻译代表了信息处理领域的一个重要发展方向，它不仅提升了机器对多源信息的理解能力，也为人们的生活带来了前所未有的便利和乐趣。定义：跨媒体翻译是利用多模态处理技术和人工智能算法，在不同类型的媒体之间进行内容转换的一种技术。它可以跨越文本、图像、音频、视频等多种数据格式，实现信息的有效传递和表达。7.3.2跨媒体翻译跨媒体翻译的主要特点如下。（1）多模态融合：整合多种感官通道的信息，形成综合性的理解框架。（2）语义一致性：确保转换前后的内容在语义层面保持一致，准确传达原意。（3）自然交互：支持更贴近人类交流方式的互动模式，如口语对话、视觉反馈等。（4）情境感知：根据当前环境和用户状态调整输出形式，提高翻译的相关性和准确性。7.3.2跨媒体翻译跨媒体翻译的关键技术如下。（1）计算机视觉。①图像识别与分析：使用CNN等模型提取图像中物体、场景及属性信息。②目标检测与跟踪：识别并追踪图像或视频中人物、物品及其运动轨迹。③场景重建：从二维图像重构三维场景结构，辅助理解和生成描述。7.3.2跨媒体翻译（2）NLP。①语义解析与生成：解析输入文本的语法结构和语义含义，生成符合目标媒体格式的新内容。②对话管理：维持连贯的对话流程，确保每次交互都能推进目标实现。③文本到语音/语音到文本：通过TTS（文本转语音）和ASR（自动语音识别）技术实现语言形式的转换。7.3.2跨媒体翻译（3）音频处理。①声纹识别：验证用户身份，保障信息安全。②语音合成与修改：调整音调、语速等因素，使输出声音更加自然流畅。③音乐生成与编辑：基于给定的主题或风格创作新的音乐片段。7.3.2跨媒体翻译（4）视频处理。①动作捕捉与合成：记录并模拟人体动作，用于动画制作或虚拟角色驱动。②视频摘要与检索：提取关键帧或段落，快速定位感兴趣的内容。③视频字幕生成：自动为视频添加同步的文字说明，方便观众理解。7.3.2跨媒体翻译（5）多模态融合。①特征级融合：在特征表示层面整合不同模态数据，构建联合嵌入空间。②决策级融合：根据各模态提供的线索做出最终决定，优化整体性能。7.3.2跨媒体翻译多模态对话系统是一种能够处理和生成多种类型输入（如文本、语音、图像、视频等）并进行交互的智能系统。这类系统结合了NLP、计算机视觉、语音识别与合成等多种技术，以提供更加丰富、自然且人性化的用户体验。多模态对话系统代表了人机交互领域的一个重要发展方向，它不仅提升了机器对环境的理解能力，也为人们的生活带来了前所未有的便利和乐趣。定义：多模态对话系统是指可以接收来自不同感官通道的信息（例如用户的语音指令、面部表情、手势动作以及环境中的图像或视频），并对这些信息进行综合分析，从而生成适当的回应或行动的智能系统。7.3.3多模态对话系统多模态对话系统的特点如下。（1）跨模态融合：将不同类型的数据源结合起来，形成统一的理解框架。（2）自然交互：支持更贴近人类交流方式的互动模式，包括口语对话、视觉反馈等。（3）情境感知：根据当前环境和用户状态调整响应策略，提高对话的相关性和准确性。7.3.3多模态对话系统它的关键技术主要如下。（1）NLP。①语义理解：解析用户的意图和需求，即使表达方式不完全标准也能正确解读。②对话管理：维持连贯的对话流程，确保每次交互都能推进目标实现。③文本生成：基于上下文自动生成合适的回答内容。7.3.3多模态对话系统（2）计算机视觉。①物体识别：从图片或视频中提取有用信息，如识别人脸、物品类别等。②场景理解：分析整个场景的布局和动态变化，辅助决策过程。③情感检测：通过面部表情和肢体语言判断用户的情绪状态。7.3.3多模态对话系统（3）语音处理。①自动语音识别（ASR）：将用户的语音转换成文本形式，作为后续处理的基础。②语音合成（TTS）：将系统生成的文本转换为自然流畅的语音输出，增强沟通效果。③声纹识别：验证用户身份，保障信息安全。7.3.3多模态对话系统（4）多模态融合。①特征级融合：在特征表示层面整合不同模态的数据，构建联合嵌入空间。②决策级融合：根据各模态提供的线索做出最终决定，优化整体性能。7.3.3多模态对话系统PART04物联网环境下的智能感知与响应在物联网环境下，多模态生成技术可以用来创建智能感知与响应系统，实现对物理世界的理解和响应。这些系统能够收集、处理和理解来自多个传感器的数据，并根据环境状态自动生成适当的反应。这种技术的应用范围广泛，包括智能家居、智慧城市、工业自动化、健康监护等领域。这种融合不仅增强了系统的环境感知能力，还能通过生成连贯且一致的多类型输出提供更智能的服务。7.4物联网环境下的智能感知与响应智能感知的技术基础在于利用多样化的传感器网络收集数据，结合边缘计算和云计算进行实时分析，并通过机器学习和人工智能算法实现环境理解与自主决策。7.4.1智能感知的技术基础（1）数据采集。①多传感器融合：在物联网环境中，不同类型的传感器（如温度、湿度、光照、声音、图像、视频摄像头等）部署在网络中，以收集不同模态的数据，捕捉物理世界的各种信息。②边缘计算：为了减少延迟并提高效率，数据可以在靠近传感器的边缘设备上进行初步的本地数据处理和分析，只将必要的信息传输到云端或中心服务器，减少延迟并降低带宽需求。7.4.1智能感知的技术基础（2）数据预处理。①噪声过滤：去除不相关或冗余的数据点，确保后续处理的质量。②特征提取：从原始数据中提取有意义的特征，例如通过图像识别算法获取物体轮廓，或者通过音频分析得到声纹特征。③跨模态数据整合：将来自不同传感器的数据融合在一起，形成一个综合的环境模型。④表示学习：通过深度学习算法提取每个模态的关键特征，并学习它们之间的关联性。7.4.1智能感知的技术基础⑤联合建模：构建数学模型来表示不同模态之间的关系，比如结合视觉和听觉输入，以更准确地理解场景。⑥同步与时序分析：确保来自不同来源的数据时间对齐，并且考虑事件发生的时间顺序。（3）智能决策。①规则引擎：基于预定义的逻辑规则做出快速反应。②机器学习与深度学习：训练模型预测未来状态或识别复杂模式，支持更复杂的决策过程。7.4.1智能感知的技术基础智能响应决策制定基于智能感知的数据，利用机器学习和人工智能算法自动产生优化的行动指令，实现自主且高效的系统反应。（1）规则引擎：基于预定义的逻辑规则集，当满足特定条件时触发相应的动作。（2）机器学习/深度学习：利用训练好的模型预测未来趋势或分类当前情境，从而指导决策过程。（3）强化学习：系统通过试错学习最佳的行为策略，在动态变化的环境中不断优化自己的表现。7.4.2智能感知决策制定（4）自动控制：行动执行，直接控制连接到网络的设备，如调节灯光亮度、调整空调温度、启动警报系统等。（5）通知与反馈：向用户发送消息提醒，提供个性化建议，或展示实时监控结果。（6）服务推荐：根据用户的习惯和偏好推荐相关的增值服务或产品。7.4.2智能感知决策制定PART05应用与发展多模态生成技术整合文本、图像、音频等多种类型的数据，利用深度学习模型捕捉不同模态间的复杂关系，广泛应用于智能助手、自动驾驶、医疗影像分析等领域，不仅提升了机器对环境的理解能力，还实现了更加自然和人性化的交互体验。随着算法的进步和计算资源的增加，该技术正朝着更高效、更智能的方向快速发展。7.5应用与发展多模态生成技术正处于快速发展阶段，随着硬件性能提升、新算法的不断涌现以及跨学科合作的加深，更多创新的应用和服务将实现。（1）智能家居。①情境感知控制：根据用户的日常行为习惯（如语音命令、手势动作识别）自动调节室内环境设备参数（如照明、空调温度）。②个性化服务：根据用户的日常行为习惯（偏好，如音乐选择、阅读内容）提供定制化的建议和服务，如推荐音乐、调节灯光亮度等。7.5.1多模态生成的应用场景③场景联动：当监测到主人回家时，自动打开门锁，调节室内照明和播放欢迎音乐；离开家时则关闭电器并设置安防模式。④节能管理：根据天气预报和实际能耗情况智能调节供暖和制冷设备的工作强度。7.5.1多模态生成的应用场景（2）智能客服。①结合语音识别、语义理解与生成回答，创建更加智能和人性化的客服系统，提供更加人性化的用户体验。例如理解用户的表情和语气，做出合适的回应。②客户支持：为企业客户提供全天候的在线咨询服务，解决常见问题。③虚拟助手：帮助用户完成复杂的任务，如预订机票、查询信息等。④客服聊天机器人：集成图像识别功能，快速回答顾客关于产品的疑问。7.5.1多模态生成的应用场景（3）社交媒体内容审核。①自动标签生成：为上传的照片添加合适的标签，方便用户搜索和分类管理。②违规内容检测：识别不适当或违反平台规定的图像，并给出理由说明。③产品详情页优化：自动生成详细的商品描述，在节省人力成本的同时提高用户体验。7.5.1多模态生成的应用场景（4）智能城市。①交通管理：通过分析道路摄像机视频和车辆GPS数据、车流量传感器及天气预报等信息优化交通信号灯配置，动态调整信号灯时间，缓解拥堵状况。②公共安全监控：实时监测公共场所的安全状况，集成多种传感装置，及时发现异常事件并触发警报机制，快速响应突发事件，如火灾报警、犯罪预防等。7.5.1多模态生成的应用场景（5）自动驾驶。①车内交互：允许驾驶员通过简单的语音指令或手势控制车辆功能。②外部通信：与其他交通参与者（如行人、其他车辆）进行有效沟通，确保安全行驶。7.5.1多模态生成的应用场景（6）工业自动化。①故障诊断与预测性维护：利用振动传感器、声学传感器、温度感应及视觉系统检测设备运行状态，提前预警机械设备潜在故障，安排检修计划。②质量控制：通过高分辨率相机捕捉产品表面缺陷，结合其他传感器数据确保产品质量符合标准，实时检查生产线上的产品质量，及时发现缺陷，并采取纠正措施。7.5.1多模态生成的应用场景（7）医疗健康与监护。①病理切片分析与报告解释：协助医生解读显微镜下的细胞结构，提供初步诊断建议。用通俗易懂的语言解释复杂的医学影像结果，帮助患者理解病情。②可穿戴设备：集成如心率监测器、血糖仪、健康追踪器等设备与移动应用程序，持续收集患者的生命体征数据。7.5.1多模态生成的应用场景③远程诊疗：医生借助系统远程监控患者病情发展，进行初步诊断，并给出相应的治疗方案，为患者提供持续健康跟踪和紧急情况报警。患者上传照片后，系统可以即时生成病情描述供专业人员参考。④康复训练与指导视频：指导病人进行正确的恢复练习，监测进度并及时调整计划。制作针对特定疾病恢复练习教程，便于患者在家自行练习。⑤辅助生活：帮助老人或残障人士独立生活，例如通过语音助手提醒服药时间或呼叫援助。⑥老年人关怀：为独居老人设计安全辅助系统，能在紧急情况下迅速联系家人或急救人员。7.5.1多模态生成的应用场景（8）多媒体内容创作。①图像配文：为图片配上合适的标题或描述性文字，增强传播效果。②视频脚本生成：根据提供的素材自动生成详细的拍摄指导或解说词。③漫画书改编：将文学作品转化为图文并茂的形式，吸引更多读者群体。④音乐可视化：依据音乐节奏、旋律等特性生成相应的视觉效果，如动画或艺术作品。7.5.1多模态生成的应用场景（9）语音合成与翻译。①将文本转化为自然流畅的语音，或者在不同语言之间进行语音翻译，从一种语言的语音转换为另一种语言的文字或语音，提升了多语言内容的可达性和交互性。②文档翻译：将纸质或电子文档中的文字内容转换为目标语言，并保持原有的排版格式。③实时会议翻译：提供多语言同声传译功能，打破语言障碍，促进交流。④新闻报道：捕捉实时事件，记者拍摄现场照片后，系统立即生成简短的文字说明，加快新闻发布速度。7.5.1多模态生成的应用场景（10）无障碍服务。①对视障人士，将图像转换为详细的文字描述；对听障人士，将语音转换为字幕，增强信息的可访问性。②为视障人士提供帮助，通过语音反馈描述周围环境或物品外观，提升其生活质量。7.5.1多模态生成的应用场景（11）教育内容创作。①生成包含图像、声音、文字等多元素的互动教学材料，适应不同学习风格，提升教育效果。②互动学习平台：利用多模态对话系统创建沉浸式的学习体验，激发学生的学习兴趣。③教育工具：创建互动式教材，学生通过触摸屏操作图形背后科学原理。④在线课程开发：创建包含丰富媒体元素的教学资源，提升学生的学习兴趣和效率。⑤职业技能训练：模拟真实工作场景，帮助学生掌握必要的操作技能。7.5.1多模态生成的应用场景（12）娱乐与游戏。①游戏开发：设计更加逼真的人机交互环节，提升玩家参与度。生成动态游戏场景、角色对话、背景音乐等，丰富游戏内容和用户体验。②创建VR/AR沉浸式的环境，其中声音、图像和其他感官反馈被无缝集成。③电影配音与字幕：高效地完成外语影片的本地化处理，扩大受众范围。④游戏本地化：调整游戏中出现的文本、音频和视频内容，使之符合当地文化和法规要求。7.5.1多模态生成的应用场景多模态生成技术面临的挑战包括跨模态数据的对齐与融合、语义一致性保持以及高效计算资源利用，解决方案涉及采用先进的深度学习模型（如Transformer和GAN）、引入注意力机制，以增强特征提取，并通过预训练与微调策略优化模型性能，同时利用边缘计算和专用硬件加速处理速度。7.5.2技术挑战与发展趋势（1）异构数据处理：不同传感器产生的数据格式各异，需要统一的标准化接口。确保数据对齐，不同模态数据之间的时间同步性和语义一致性是一个关键挑战。解决方案是开发通用的数据交换协议和中间件平台，简化数据集成流程。找到有效的方法表示和关联不同模态的数据是关键。（2）逻辑连贯性：因果关系推理，除了描述静态元素外，还需要解释事物间的动态联系和发展趋势。时间顺序表达，对于包含动作序列的图像，保持正确的时空关系至关重要。7.5.2技术挑战与发展趋势（3）上下文理解和推理：系统需要具备一定的常识和逻辑推理能力，才能给出合理且连贯的回答或生成恰当的内容。（4）实时性和可靠性：确保系统能够及时响应变化，同时保持稳定可靠的性能。应该保障系统的稳定运行，确保生成的内容是真实的，并符合用户的期望。特别是在关键任务应用中，如医疗保健领域。解决方案是采用分布式架构和冗余设计提高系统的容错能力和鲁棒性。7.5.2技术挑战与发展趋势（5）多样性、复杂性与创造力：现实中存在大量罕见但重要的图像类型（长尾问题），现有模型可能无法准确描述。某些图像的理解依赖丰富的领域知识，这对通用模型提出了更高要求。保证生成结果不仅限于最可能的选择，而是能够展示多样性和创意性。（6）标准化与互操作性：促进不同品牌和类型设备间的无缝协作，建立统一的标准协议。7.5.2技术挑战与发展趋势（7）解释性：尽管复杂的模型可以生成令人印象深刻的结果，但它们往往是“黑箱”，缺乏透明度，因此提高模型的可解释性也是一个研究方向。（8）泛化能力：模型应该能够在未见过的情境下保持良好的性能，这要求更强的抽象能力和适应性。跨模态表示学习，找到一种有效的方法来表征图像和文本之间的语义联系是关键。7.5.2技术挑战与发展趋势（9）能源效率：物联网设备通常依赖电池供电，对于电池供电的移动或便携式设备，需特别注意降低功耗，考虑节能措施。解决方案是优化算法，降低功耗，采用低功耗硬件组件，并探索能量收集技术。（10）模型复杂度与计算资源：为了处理多个模态的数据，系统通常需要强大的计算能力和存储空间，这对硬件设施提出了更高的要求。（11）数据获取与标注：高质量、多样化的训练数据对于多模态对话系统、跨媒体翻译系统的成功至关重要，但收集和标记这些数据往往成本高昂，且耗时较长。7.5.2技术挑战与发展趋势（12）模型复杂度与计算资源：为了处理多个模态的数据，系统通常需要强大的计算能力和存储空间，这对硬件设施提出了更高的要求。（13）隐私保护与伦理：随着多模态数据的增加，保证数据安全的同时，对其进行有效利用成为一个重要议题。涉及个人敏感信息的处理必须严格遵守相关法律法规，采取有效的加密技术和访问控制措施，防止数据泄露，确保个人数据的安全性和保密性，防止未经授权的访问，确保数据使用的合规性和安全性。解决方案是实施加密技术和访问控制策略，保障用户数据的安全性和私密性。7.5.2技术挑战与发展趋势（14）公平性考量：防止算法产生偏见，保证所有群体都得到公正对待。（15）用户体验：尽管技术不断进步，但要让所有用户都感到满意仍面临诸多挑战，例如保证翻译的流畅性、准确性和趣味性等问题。7.5.2技术挑战与发展趋势随着人工智能技术的不断发展，多模态生成技术将在以下几个方面取得更大进展。（1）高效能计算：借助边缘计算和专用硬件加速实现实时处理大规模图像数据的能力。（2）更加智能化：通过引入深度强化学习等算法，使系统具备更强的学习能力和适应性。（3）更广泛的适用性：拓展到更多领域，如法律咨询、金融顾问等专业服务行业。7.5.2技术挑战与发展趋势（4）更好的协作能力：与其他智能设备无缝对接，共同构建一个全面的服务生态系统。（5）更高的安全性：加强隐私保护机制，确保用户信息安全无虞。（6）更精细的理解：深入挖掘图像背后的故事，而不仅是表面现象描述。（7）跨模态交互：与其他感知方式（如音频、触觉）相结合，为用户提供更加全面的体验。（8）个性化定制：根据不同用户的偏好和上下文环境生成独特描述内容。7.5.2技术挑战与发展趋势01多模态生成概述02视觉与文本结合03跨媒体内容生成04物联网环境下的智能感知与响应目录/CONTENTS05应用与发展第8章智能体与AIGC随着计算能力的提升和大数据的出现，人工智能有了显著的发展，深度学习和机器学习技术的突破使人工智能在视觉识别、语言处理等领域取得惊人的成就。随之兴起的智能体（agent）标志着人工智能从单纯的任务执行者转变为能够代表或协助人类做出决策的智能实体，它们在理解和预测人类意图、提高决策质量等方面发挥着越来越重要的作用。第8章智能体与AIGC智能体是人工智能领域中的一个重要概念，它指的是一个能自主活动的软件或者硬件实体。LLM在人工智能应用领域的重大突破，给智能体带来了新的发展机会。像ChatGPT这样的基于Transformer架构的LLM，成为为智能体装备的拥有广泛任务能力的“大脑”，从推理、规划和决策到行动，都使智能体展现出前所未有的能力。基于LLM的智能体将广泛深刻地影响人们生活和工作的方式，由于可以更好地理解和应对复杂多变的现实世界场景，具备更强的智能和自适应能力，智能体被认为是通往AGI的必经之路。第8章智能体与AIGC01什么是智能体02环境的本质03智能体的结构04AI的下一个风口：智能体目录/CONTENTSPART01什么是智能体智能体是通过传感器感知环境，并通过执行器作用于该环境的事物。我们从检查智能体、环境以及它们之间的耦合，观察到某些智能体比其他智能体表现得更好，自然引出了“理性智能体”的概念，即行为尽可能好。智能体的行为取决于环境的性质，环境可以是一切，甚至是整个宇宙。实际上，设计智能体时关心的只是宇宙中影响智能体感知以及受智能体动作影响的某一部分的状态。

图8-1智能体通过传感器和

执行器与环境交互8.1什么是智能体人工智能通常通过结果来评估智能体的行为。当智能体进入环境时，会根据接收的感知产生一个动作序列，这会导致环境经历一系列的状态。如果序列是理想的，则智能体表现良好，这个概念由性能度量描述，评估任何给定环境状态的序列。8.1什么是智能体一个人类智能体以眼睛、耳朵和其他器官作为传感器，以手、腿、声道等作为执行器。而机器人智能体可能以摄像头和红外测距仪作为传感器，各种电动机作为执行器。软件智能体接收文件内容、网络数据包和人工输入（键盘/鼠标/触摸屏/语音）作为传感输入，并通过写入文件、发送网络数据包、显示信息或生成声音对环境进行操作。8.1.1智能体的定义术语“感知”用来表示智能体传感器知觉的内容。一个智能体在任何给定时刻的动作选择，可能取决于其内置知识和迄今为止观察到的整个感知序列，而不是它未感知到的任何事物。从数学上讲，智能体的行为由智能体函数描述，该函数将任意给定的感知序列映射到一个动作。8.1.1智能体的定义可以想象，将描述任何给定智能体的智能体函数制成表格，对大多数智能体来说，这个表格会非常大，事实上是无限的（除非限制所考虑的感知序列的长度）。当然，该表只是该智能体的外部特征。在内部，人工智能体的智能体函数是一种抽象的数学描述，而智能体程序是一个可以在某些物理系统中运行的具体实现。8.1.1智能体的定义来看一个简单的例子——真空吸尘器。在一个由方格组成的世界中，包含一个机器人真空吸尘器智能体，其中的方格可能是脏的，也可能是干净的。考虑只有两个方格（方格A和方格B）的情况。真空吸尘器智能体可以感知它在哪个方格中以及方格是否干净。从方格A开始，智能体可选的操作包括向右移动、向左移动、吸尘或什么都不做。通常机器人采用“向前旋转轮子”和“向后旋转轮子”的动作。一个非常简单的智能体函数可以是：如果当前方格是脏的，就吸尘；否则，移动到另一个方格。8.1.1智能体的定义人类有适用于自身的理性概念，它与成功选择产生环境状态序列的行动有关，而这些环境状态序列从人类的角度来看是可取的。但是，机器没有自己的欲望和偏好，至少在最初，性能度量是在机器设计者或者机器受众的头脑中。一些智能体设计具有性能度量的显式表示，但它也可能是完全隐式的。智能体尽管会做正确的事情，但它并不知道这是为什么。8.1.2性能度量有时，正确地制定性能度量可能非常困难。例如，考虑真空吸尘器智能体，我们可能会用单个8小时班次中清理的灰尘量来度量其性能。然而，一个理性的智能体可以清理灰尘，然后将其全部倾倒在地板上，然后再次清理，如此反复，从而最大化这一性能度量值。更合适的性能度量是奖励拥有干净地板的智能体。例如，在每个时间步中，每个干净方格可以获得1分（可能会对耗电和产生的噪声进行惩罚）。作为一般规则，更好的做法是根据一个人在环境中真正想要实现的目标，而不是根据一个人认为智能体应该如何表现来设计性能度量。8.1.2性能度量即使尽力避免缺陷，但棘手的问题仍然存在。如“干净地板”的概念是一段时间内的平均整洁度。然而，两个不同的智能体可以达到相同的平均整洁度，其中一个工作保持一般水平，而另一个则短时间工作效率很高，但需要长时间的休息。那么，哪种工作方式更可取呢？8.1.2性能度量通常，理性取决于以下4个方面。（1）定义成功标准的性能度量。（2）智能体对环境的先验知识。（3）智能体可以执行的动作。（4）智能体到目前为止的感知序列。于是，将理性智能体定义为：对于每个可能的感知序列，给定感知序列提供的证据和智能体拥有的任何先验知识，理性智能体应该选择一个期望最大化其性能度量的动作。8.1.3智能体的理性全知的智能体能预知其行动的实际结果，并据此采取行动，但在现实中，全知是不可能的。理性不等同于完美。理性使期望性能最大化，而完美使实际性能最大化。不要求完美不仅仅是对智能体公平的问题，关键是，如果期望一个智能体做事后证明是最好的行动，就不可能设计一个符合规范的智能体。因此，对理性的定义并不需要全知，因为理性决策只取决于迄今为止的感知序列，我们还必须确保没有无意中允许智能体进行低智的行动。8.1.3智能体的理性理性智能体不仅要收集信息，还要尽可能多地从它的感知中学习。智能体的初始配置可以反映对环境的一些先验知识，随着智能体获得经验而被修改和增强。在一些极端情况下，环境完全是先验已知的和完全可预测的，这时智能体只需正确地运行，当然，这样的智能体是脆弱的。如果智能体在某种程度上依赖其设计者的先验知识，而不是自身感知和学习过程，就说该智能体缺乏自主性。理性智能体应该是自主的，应该学习如何弥补部分或不正确的先验知识。8.1.3智能体的理性PART02环境的本质构建理性智能体必须考虑任务环境，而理性智能体是此问题的“解决方案”。首先指定任务环境，然后展示任务环境的多种形式。任务环境的性质直接影响智能体程序的恰当设计。8.2环境的本质讨论简单吸尘器智能体的理性时，必须为其指定PEAS（即performance性能度量、environment环境、actuator智能体的执行器、sensor传感器）描述。设计智能体的第一步始终是尽可能完整地指定任务环境。我们来考虑一个更复杂的问题：自动驾驶出租车司机任务环境的PEAS描述（表8-1）。8.2.1制定任务环境表8-1自动驾驶出租车司机任务环境的PEAS描述8.2.1制定任务环境首先，对于自动驾驶追求的性能度量，理想的标准包括到达正确的目的地，尽量减少油耗和磨损，尽量减少行程时间或成本，尽量减少违反交通法规和对其他驾驶员的干扰，最大限度地提高安全性和乘客舒适度，最大化利润。显然，其中有一些目标是相互冲突的，需要权衡。8.2.1制定任务环境接着，出租车将面临什么样的驾驶环境？如司机必须能够在乡村车道、城市小巷以及多个车道的高速公路的各种道路上行驶。道路上有其他交通工具、行人、流浪动物、道路工程、警车和坑洼。出租车还必须与潜在以及实际的乘客互动。另外，还有一些可选项。出租车可以选择在很少下雪的南方或者经常下雪的北方运营。显然，环境越受限，设计问题就越容易解决。8.2.1制定任务环境自动驾驶出租车的执行器包括可供人类驾驶员使用的器件，例如通过加速器控制发动机以及控制转向和制动。此外，还需要输出到显示屏或语音合成器，以便与驾驶员以及乘客对话，或许还需要某种方式与其他车辆进行礼貌的或其他方式的沟通。8.2.1制定任务环境出租车的基本传感器包括一个或多个摄像头，以便观察，以及激光雷达和超声波传感器，以便检测其他车辆和障碍物的距离。为了避免超速罚单，出租车应该有一个速度表，而为了正确控制车辆（特别是在弯道上），应该有一个加速度表。要确定车辆的机械状态，需要发动机、燃油和电气系统的传感器常规阵列。像许多人类驾驶者一样，它可能需要获取北斗导航信号，这样就不会迷路。最后，乘客需要触摸屏或语音输入才能说明目的地。8.2.1制定任务环境表8-2简要列举了一些其他智能体类型的基本PEAS元素。这些示例包括物理环境和虚拟环境。注意，虚拟任务环境可能与“真实”世界一样复杂。例如，在拍卖和转售网站上进行交易的软件智能体，为数百万其他用户和数十亿对象提供交易业务。8.2.1制定任务环境表8-2智能体类型及其PEAS描述的示例8.2.1制定任务环境人工智能中可能出现的任务环境范围非常广泛，但可以确定少量的维度，并根据这些维度对任务环境进行分类。这些维度在很大程度上决定了恰当的智能体设计以及智能体实现的主要技术系列的适用性。首先列出维度，然后分析任务环境，阐明思路。8.2.2任务环境的属性完全可观测与部分可观测：如果能让智能体的传感器在每个时间点都能访问环境的完整状态，就说任务环境是完全可观测的。如果传感器检测到与动作选择相关的所有方面，任务环境就是有效的、完全可观测的，而这里的“相关”又取决于性能度量标准。完全可观测的环境容易处理，因为智能体不需要维护任何内部状态来追踪世界。由于传感器噪声大且不准确，或者由于传感器数据中缺少部分状态，环境可能部分可观测。8.2.2任务环境的属性例如，只有一个局部灰尘传感器的真空吸尘器无法判断其他方格是否有灰尘，或者自动驾驶出租车无法感知其他司机的想法。如果智能体根本没有传感器，那么环境是不可观测的。在这种情况下，智能体的困境可能是无解的，但智能体的目标仍然可能实现。8.2.2任务环境的属性单智能体与多智能体：单智能体与多智能体环境之间的区别似乎足够简单。例如，独自解决纵横字谜的智能体显然处于单智能体环境中，而下国际象棋的智能体则处于二智能体环境中。然而，也有一些微妙的问题，例如，我们已经描述了如何将一个实体视为智能体，但没有解释哪些实体必须视为智能体。智能体A（例如出租车司机）是否必须将对象B（另一辆车）视为智能体，还是可以仅将其视为根据物理定律运行的对象，类似于海滩上的波浪或随风飘动的树叶？8.2.2任务环境的属性多智能体设计问题与单智能体有较大差异。例如，在多智能体环境中，通信通常作为一种理性行为出现：在某些竞争环境中，随机行为是理性的，因为它避免了一些可预测性的陷阱。8.2.2任务环境的属性确定性与非确定性：如果环境的下一个状态完全由当前状态和智能体执行的动作决定，就说环境是确定性的，否则是非确定性的。原则上，在完全可观测的确定性环境中，智能体不需要担心不确定性。然而，如果环境是部分可观测的，那么它可能是非确定性的。8.2.2任务环境的属性大多数真实情况非常复杂，以至于不可能追踪所有未观测到的方面，实际上必须将其视为非确定性的。出租车驾驶显然是非确定性的，因为无法准确地预测交通行为，例如轮胎可能会意外爆胎，发动机可能会在没有警告的情况下失灵等。虽然所描述的真空吸尘器世界是确定性的，但可能存在非确定性因素，如随机出现的灰尘和不可靠的吸力机制等。注意“随机”与“非确定性”不同。如果环境模型显式地处理概率（如“明天的降雨可能性为25％”），那么它是随机的；如果可能性没有被量化，那么它是“非确定性的”（例如“明天有可能下雨”）。8.2.2任务环境的属性回合式与序贯：许多分类任务是回合式的。例如，在装配流水线上检测缺陷零件的智能体，需要根据当前零件做出每个决策，而无须考虑以前的决策，而且当前的决策并不影响下一个零件是否有缺陷。在回合式任务环境中，智能体的经验被划分为原子式回合，每接收一个感知，就执行单个动作。重要的是，下一回合并不依赖前几回合采取的动作。但是，在序贯环境中，当前决策可能会影响未来所有决策。国际象棋和出租车驾驶是序贯的：在这些情况下，短期行为可能会产生长期影响。回合式环境下的智能体不需要提前思考，所以要比序贯环境简单很多。8.2.2任务环境的属性静态与动态：如果环境在智能体思考时发生了变化，就说该智能体的环境是动态的，否则是静态的。静态环境容易处理，因为智能体在决定某个操作时不需要一直关注世界，也不需要担心时间的流逝。但是，动态环境会不断地询问智能体想要采取什么行动，如果它还没有决定，那就什么都不做。如果环境本身不会随着时间的推移而改变，但智能体的性能分数会改变，就说环境是半动态的。驾驶出租车显然是动态的，因为驾驶算法在计划下一步该做什么时，其他车辆和出租车本身在不断移动。在用时钟计时的情况下国际象棋是半动态的，而填字游戏是静态的。8.2.2任务环境的属性离散与连续：这之间的区别适用于环境的状态、处理时间的方式以及智能体的感知和动作。例如，国际象棋环境具有有限数量的不同状态（不包括时钟），国际象棋也有一组离散的感知和动作。驾驶出租车是一个连续状态和连续时间的问题，出租车和其他车辆的速度和位置是一系列连续的值，并随着时间平稳地变化。出租车的驾驶动作也是连续的（转向角等）。严格来说，来自数字照相机的输入是离散的，但通常被视为连续变化的强度和位置。8.2.2任务环境的属性已知与未知：这种区别是指智能体（或设计者）对环境“物理定律”的认知状态。在已知环境中，所有行动的结果（如果环境是非确定性的，则对应结果的概率）都是既定的。显然，如果环境未知，智能体将不得不了解它是如何工作的，才能做出正确的决策。8.2.2任务环境的属性最困难的情况是部分可观测、多智能体、非确定性、序贯、动态、连续且未知的。表8-3列出许多熟悉环境的可变化属性。例如，将患者的患病过程作为智能体建模并不适合，所以我们将医疗诊断任务列为单智能体，但是医疗诊断系统还可能会应对顽固的病人和多疑的工作人员，因此环境具有多智能体特征。此外，如果将任务设想为根据症状列表进行诊断，那么医疗诊断是回合式的；如果任务包括一系列测试、评估治疗进展、处理多个患者等，那就是序贯的。8.2.2任务环境的属性表8-3任务环境的例子及其特征8.2.2任务环境的属性PART03智能体的结构人工智能的工作是设计一个智能体程序实现智能体函数，即从感知到动作的映射。假设该程序将运行在某种具有物理传感器和执行器的计算设备上，称为智能体架构。智能体＝架构＋程序8.3智能体的结构智能体的关键组成如下图所示。显然，选择的程序必须适合相应的架构。如果程序打算推荐步行这样的动作，那么对应的架构最好有腿。架构可能只是一台普通PC，也可能是一辆带有多台车载计算机、摄像头和其他传感器的机器人汽车。通常，架构使程序可以使用来自传感器的感知，然后运行程序，并将程序生成的动作选择反馈给执行器。图：智能体的关键组成8.3智能体的结构我们考虑的智能体程序都有相同的框架：将当前感知作为传感器的输入，并将动作返回给执行器。而智能体程序框架还有其他选择，例如可以让智能体程序作为与环境异步运行的协程。每个这样的协程都有一个输入和输出端口，并由一个循环组成，该循环读取输入端口的感知，并将动作写到输出端口。注意智能体程序（将当前感知作为输入）和智能体函数（可能依赖整个感知历史）之间的差异。因为环境中没有其他可用信息，所以智能体程序别无选择，只能将当前感知作为输入。如果智能体的动作需要依赖整个感知序列，那么智能体必须记住历史感知。8.3.1智能体程序人工智能面临的关键挑战是找出编写程序的方法，尽可能从一个小程序而不是从一个大表中产生理性行为。有4种基本的智能体程序，它们体现了几乎所有智能系统的基本原理，每种智能体程序以特定的方式组合特定的组件来产生动作。（1）简单反射型智能体。最简单的智能体是根据当前感知选择动作，而忽略感知历史的其余部分。8.3.1智能体程序（2）基于模型的反射型智能体。处理部分可观测性的最有效方法是让智能体追踪它现在观测不到的部分世界。也就是说，智能体应该维护某种依赖感知历史的内部状态，从而反映当前状态的一些未观测到的方面。例如刹车问题，内部状态范围不仅限于摄像头拍摄图像的前一帧，要让智能体能够检测车辆边缘的两个红灯何时同时亮起或熄灭。对于其他驾驶任务，如变道，如果智能体无法同时看到其他车辆，则需要追踪它们的位置。8.3.1智能体程序随着时间的推移，更新这些内部状态信息需要在智能体程序中以某种形式编码两种知识。首先，需要一些关于世界如何随时间变化的信息，这些信息大致可以分为两部分：智能体行为的影响和世界如何独立于智能体而发展。例如，当智能体顺时针转动方向盘时，汽车会右转；而下雨时，汽车的摄像头会被淋湿。这种关于“世界如何运转”的知识（无论是在简单的布尔电路中还是在完整的科学理论中实现）被称为世界的转移模型。8.3.1智能体程序其次，需要一些关于世界状态如何反映在智能体感知中的信息。例如，当前面的汽车开始刹车时，前向摄像头的图像中会出现一个或多个亮起的红色区域；当摄像头被淋湿时，图像中会出现水滴状物体，并部分遮挡道路。这种知识称为传感器模型。转移模型和传感器模型结合在一起，让智能体能够在传感器受限的情况下尽可能地跟踪世界的状态。使用此类模型的智能体称为基于模型的反射型智能体。8.3.1智能体程序（3）基于目标的智能体。即使了解了环境的现状，也并不总是能决定做什么。例如，在一个路口，出租车可以左转、右转或直行。正确的决定还取决于出租车要去哪里。换句话说，除了当前状态的描述之外，智能体还需要某种描述理想情况的目标信息，例如设定目的地。智能体程序可以将其与模型相结合，并选择实现目标的动作。。8.3.1智能体程序（4）基于效用的智能体。在大多数环境中，仅靠目标并不足以产生高质量的行为。例如，许多动作序列都能使出租车到达目的地，但有些动作序列比其他动作序列更快、更安全、更可靠或者更便宜。这时，目标只是在“快乐”和“不快乐”状态之间提供了一个粗略的二元区别。更一般的性能度量应该允许根据不同世界状态的“快乐”程度来对智能体进行比较。经济学家和计算机科学家通常用效用这个词来代替“快乐”。8.3.1智能体程序我们已经看到，性能度量会给任何给定的环境状态序列打分，因此它可以很容易地区分到达出租车目的地所采取的更可取和更不可取的方式。智能体的效用函数本质上是性能度量的内部化。如果内部效用函数和外部性能度量一致，那么根据外部性能度量选择动作，以使其效用最大化的智能体是理性的。8.3.1智能体程序在图灵早期的著名论文中，曾经考虑了手动编程实现智能机器的想法。他估计了这可能需要多少工作量，并得出结论，“似乎需要一些更快捷的方法”。他提出的方法是构造学习型机器，然后教它们。在人工智能的许多领域，这是目前创建最先进系统的首选方法。任何类型的智能体（基于模型、基于目标、基于效用等）都可以构建（或不构建）成学习型智能体。8.3.2学习型智能体学习还有另一个优势：它让智能体能够在最初未知的环境中运作，并变得比其最初的能力更强。学习型智能体可分为4个概念组件，其中，“性能元素”框表示我们之前认为的整个智能体程序，“学习元素”框可以修改该程序，以提升其性能。最重要的区别在于负责提升的学习元素和负责选择外部行动的性能元素。性能元素接收感知，并决定动作，学习元素使用来自评估者对智能体表现的反馈，并以此确定应该如何修改性能元素以在未来做得更好。图8-4通用学习型智能体8.3.2学习型智能体学习元素的设计在很大程度上取决于性能元素的设计。当设计者试图设计一个学习某种能力的智能体时，第一个问题是“一旦智能体学会了如何做，它将使用什么样的性能元素”。给定性能元素的设计，可以构造学习机制来改进智能体的每个部分。8.3.2学习型智能体评估者告诉学习元素：智能体在固定性能标准方面的表现如何。评估者是必要的，因为感知本身并不会指示智能体是否成功。例如，国际象棋程序可能会收到一个感知，提示它已将死对手，但它需要一个性能标准来知道这是一件好事。从概念上讲，应该把性能标准看作完全在智能体之外，智能体不能修改性能标准以适应自己的行为。8.3.2学习型智能体学习型智能体的最后一个组件是问题生成器。它负责建议动作，以获得全新和信息丰富的经验。如果性能元素完全根据自己的方式，它会继续选择已知最好的动作。但如果智能体愿意进行一些探索，并在短期内做一些可能不太理想的动作，从长远来看，它可能会发现更好的动作。问题生成器的工作是建议这些探索性行动。这就是科学家在进行实验时所做的。伽利略并不认为从比萨斜塔顶端扔石头本身有价值，他并不是想要打碎石头或改造不幸行人的大脑，而是通过确定更好的物体运动理论来改造自己的大脑。8.3.2学习型智能体学习元素可以对智能体图中显示的任何“知识”组件进行更改。最简单的情况是直接从感知序列学习。观察成对相继的环境状态可以让智能体了解“我的动作做了什么”以及“世界如何演变”，以响应其动作。例如，如果自动驾驶出租车在湿滑路面上行驶时进行一定程度的刹车，它很快就会发现实际减速多少，以及它是否滑出路面。问题生成器可能会识别出模型中需要改进的某些部分，并建议进行实验，例如在不同条件下的不同路面上尝试刹车。8.3.2学习型智能体无论外部性能标准如何，改进基于模型的智能体的组件，使其更好地符合现实，几乎总是一个好主意。从计算的角度来看，在某些情况下简单但稍微不准确的模型比完美但极其复杂的模型更好。当智能体试图学习反射组件或效用函数时，需要外部标准的信息。从某种意义上说，性能标准将传入感知的一部分区分为奖励或惩罚，以提供对智能体行为质量的直接反馈。8.3.2学习型智能体更一般地说，人类的选择可以提供有关人类偏好的信息。例如，假设出租车不知道人们通常不喜欢噪声，于是决定不停地按喇叭，以确保行人知道它即将到来。随之而来的人类行为，如盖住耳朵、说脏话甚至可能剪断喇叭上的电线，将为智能体提供更新其效用函数的证据。总之，智能体有各种组件，它们可以在智能体程序中以多种方式表示，因此学习方法之间似乎存在很大差异。然而，主题仍然是统一的：智能体中的学习可以概括为对智能体的各个组件进行修改的过程，使各组件与可用的反馈信息更接近，从而提升智能体的整体性能。8.3.2学习型智能体智能体程序由各种组件组成，组件表示了智能体所处环境的各种处理方式。我们通过一个复杂性和表达能力不断增加的方式来描述，即原子表示、因子化表示和结构化表示。例如，我们来考虑一个特定的智能体组件，处理“我的动作会导致什么”。这个组件描述了采取动作的结果可能在环境中引起的变化。

图8-5表示状态及其转移的3种方法8.3.3智能体组件的工作在图8-5（a）中，原子表示一个状态（如B或C）是没有内部结构的黑盒；在图8-5（b）中因子化表示状态由属性值向量组成，值可以是布尔值、实值或一组固定符号中的一个；在图8-5（c）中，结构化表示状态包括对象，每个对象可能有自己的属性以及与其他对象的关系。8.3.3智能体组件的工作在原子表示中，世界的每一个状态都是不可分割的，它没有内部结构。考虑这样一个任务：通过城市序列找到一条从某个国家的一端到另一端的行车路线。为了解决这个问题，将世界状态简化为所处城市的名称就足够了，这就是单一知识原子，也是一个“黑盒”，唯一可分辨的属性是与另一个黑盒相同或不同。搜索和博弈中的标准算法、隐马尔可夫模型以及马尔可夫决策过程都基于原子表示。8.3.3智能体组件的工作因子化表示将每个状态拆分为一组固定的变量或属性，每个变量或属性都可以有一个值。考虑同一个驾驶问题，即我们需要关注的不仅仅是一个城市或另一个城市的原子位置，可能还需要关注油箱中的汽油量、当前的北斗导航坐标、油量警示灯是否工作、通行费、收音机频道等。8.3.3智能体组件的工作两个不同的原子状态没有任何共同点（只是不同的黑盒），但两个不同的因子化状态可以共享某些属性（如位于某个导航位置），而其他属性不同（如有大量汽油或没有汽油），这使得研究如何将一种状态转换为另一种状态变得更加容易。人工智能的许多重要领域都基于因子化表示，包括约束满足算法、命题逻辑、规划、贝叶斯网络以及各种机器学习算法。8.3.3智能体组件的工作此外，还需要将世界理解为存在着相互关联的事物，而不仅仅是具有值的变量。例如，我们可能注意到前面有一辆卡车正在倒车，进入一个奶牛场的车道，但一头奶牛挡住了卡车的路。这时就需要一个结构化表示，可以明确描述诸如奶牛和卡车之类的对象及其各种不同的关系。结构化表示是关系数据库和一阶逻辑、一阶概率模型和大部分自然语言理解的基础。事实上，人类用自然语言表达的大部分内容都与对象及其关系有关。8.3.3智能体组件的工作PART04AI的下一个风口：智能体作为人工智能领域的一个重要分支，智能体正在逐渐成为未来科技发展的重要方向之一。作为下一代信息技术的关键驱动力，智能体将在多个行业引发变革。尽管面临诸多挑战，但凭借其强大的自适应能力和广泛的应用前景，智能体无疑将成为未来的“风口”之一。企业和研究机构正在积极布局，探索智能体在各自领域的创新应用，抓住这一发展机遇。8.4AI的下一个风口：智能体智能体的发展呈现出增强学习与自适应能力、多智能体协同、NLP与情感识别、物联网与智能体融合以及安全与隐私保护等五大关键趋势，推动其在多个领域广泛应用并引发变革。（1）增强学习与自适应能力。通过不断试错的强化学习来优化行为策略，使得智能体能够在复杂环境中做出最优决策。智能体能够根据环境变化自动调整其行为模式（自适应性），以应对新的挑战。8.4.1智能体的关键趋势（2）多智能体协同。例如在物流、交通管理和灾害响应中，多个智能体可以协同工作完成任务。利用云计算和边缘计算资源，可以实现大规模智能体系统的分布式高效运行。（3）NLP与情感识别。智能客服和虚拟助手的对话管理将更加智能化，能够理解用户意图并提供个性化服务。智能体不仅能理解文字内容，还能感知用户情绪，提供更贴心的服务体验。8.4.1智能体的关键趋势（4）物联网与智能体融合。智能体可以集成到家居设备中，实现自动化控制和个性化服务。在智慧城市领域中，通过智能体管理城市基础设施，如交通流量优化、能源管理等。（5）安全与隐私保护。应该确保智能体在处理个人数据时的安全性和隐私保护。开发算法和技术来抵御恶意攻击，保障智能体系统的稳定性和可靠性。8.4.1智能体的关键趋势智能体的潜在应用主要如下。（1）医疗健康。基于患者数据生成个性化的治疗计划。智能体也可以通过穿戴设备实时监测患者的健康状况，并提供远程监控与诊断的及时反馈。（2）金融服务。智能体可以根据市场动态进行高频自动化交易，提高投资回报率。可以利用大数据分析预测市场风险，帮助金融机构制定风险评估与管理策略。8.4.1智能体的关键趋势（3）教育与培训。可以根据学生学习进度和偏好提供定制的个性化学习建议。通过互动式教学方法提升学习效果，特别是在线虚拟教育场景中。（4）制造业与工业自动化。通过智能体优化生产流程提高智能制造的效率和质量。开展预测性维护，提前检测设备故障，减少停机时间，延长设备使用寿命。（5）农业与环境监测。实现精准农业，利用传感器和无人机收集农田数据，指导灌溉、施肥和病虫害防治。通过智能体监测空气、水质等环境指标，及时发现污染源，并采取保护措施。8.4.1智能体的关键趋势智能体发展面临的挑战主要如下。（1）伦理与法律问题。确保智能体的行为符合道德规范和社会价值观。制定相关法律法规，明确智能体的责任归属和使用界限。（2）技术瓶颈。提高智能体的学习效率和泛化能力，避免过拟合等问题。解决大规模智能体系统的协调和通信难题。（3）公众接受度。增强公众对智能体的信任感，消除对新技术的恐惧和误解。通过透明化设计和可解释性模型，让智能体的决策过程更加清晰易懂。8.4.1智能体的关键趋势就当前而言，尽管能力出色，但LLM还只是被动的工具，它们依赖简单执行过程，无法直接当智能体使用。而智能体机制具有主动性，特别是在与环境的交互、主动决策和执行各种任务方面。智能体通过挖掘LLM的潜在优势，可以进一步增强决策制定水平。特别是使用人工、环境或模型来提供反馈，使智能体可以具备深思熟虑和自适应的问题解决机制，超越LLM现有技术的局限。可以说，智能体是真正释放LLM潜能的关键，它能为LLM提供强大的行动能力；而另一方面，LLM能提供智能体所需要的强大引擎。LLM和智能体可以互补而相互成就。8.4.2构建LLM智能体智能体根据设定的目标确定好需要履行的特定角色，自主观测感知环境，根据获得的环境状态信息检索历史记忆以及相关知识，通过推理规划分解任务并确定行动策略，并作用于环境，以达成目标。在这个过程中，智能体持续学习，像人类一样不断进化。基于LLM来构建一个智能体，能充分地利用LLM的各种能力，驱动不同的组成单元。

图8-6基于LLM的智能体应用8.4.2构建LLM智能体智能体本身包括观测感知模块、记忆检索、推理规划和行动执行等模块。它呈现强大能力的关键在于系统形成反馈闭环，使智能体可以持续地迭代学习，不断地获得新知识和能力。反馈除了来自环境，还可以来自人类和语言模型。智能体不断积累必要的经验来增强和改进自己，以显著提高规划能力，并产生新的行为，以越来越适应环境，并符合常识，更加完满地完成任务。在执行任务过程中的不同阶段，基于LLM的智能体通过提示等方式与LLM交互，获得必要的资源和相关结果。8.4.2构建LLM智能体AIGC和智能体看似不同，但它们之间存在着密切联系，在技术层面上有不同侧重点，在实际应用中往往相辅相成，共同

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《生成式人工智能通识》课件周苏第7-14章多模态生成技术-面向通人工智

文档简介

温馨提示

最新文档

评论

《生成式人工智能通识》课件 周苏 第7-14章 多模态生成技术-面向通人工智

文档简介

温馨提示

最新文档

评论

相关文档

《生成式人工智能通识》课件周苏第7-14章多模态生成技术-面向通人工智