大模型技术与应用(微课版)-教案 - 模块5-8 多模态大模型技术-大模型问答系统开发实践_第1页
大模型技术与应用(微课版)-教案 - 模块5-8 多模态大模型技术-大模型问答系统开发实践_第2页
大模型技术与应用(微课版)-教案 - 模块5-8 多模态大模型技术-大模型问答系统开发实践_第3页
大模型技术与应用(微课版)-教案 - 模块5-8 多模态大模型技术-大模型问答系统开发实践_第4页
大模型技术与应用(微课版)-教案 - 模块5-8 多模态大模型技术-大模型问答系统开发实践_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE1大模型技术与应用教案课程名称大模型技术与应用学时学分48学时(2学分)模块5教学安排的说明章节题目:模块5多模态大模型技术 情景引入 知识准备 5.1多模态大模型概述 5.1.1基本概念 5.1.2模型架构 5.2多模态大模型预训练与微调 5.2.1预训练 5.2.2微调 5.3多模态推理与生成 实训任务 5.4多模态大模型驱动的图文生成实践 模块小结 模块练习学时分配:总6学时第1~2学时:情景引入;多模态大模型概述第3~4学时:多模态大模型预训练与微调第5~6学时:实验:多模态大模型驱动的图文生成实践;小结本章教学目的与要求:1、教学目的本模块旨在帮助学生系统掌握多模态大模型的核心技术与应用方法,理解跨模态信息处理的基本原理。通过本模块的学习,学生应了解多模态大模型的基本概念与架构设计,掌握模态表示与模态对齐的核心机制,理解预训练与微调阶段的关键技术,熟悉多模态推理与生成的工作流程。通过图文生成实训,学生应具备部署多模态大模型、编写图文生成程序、评估生成效果的能力,能够完成从图像理解到文本生成的全流程实践。2、教学要求要求学生理解统一嵌入解码器架构与跨模态注意力架构的区别与适用场景,掌握对比语言-图像预训练等对齐方法的原理。实训环节要求学生能够完成Ollama与Python容器的部署配置,实现图像描述生成、创意文本生成及AI绘画提示词生成三大核心功能,并通过可视化报告分析生成效果,具备多模态大模型应用开发的实践能力。

课堂教学方案课题名称、授课时数:模块5多模态大模型技术,6学时授课类型(理论课、实验课、技法课、习题课等):理论课、实验课教学方法与手段(讲授、讨论、指导、多媒体等):多媒体教学目的要求:了解多模态大模型的基本概念及架构。掌握多模态大模型的预训练与微调。掌握多模态大模型的推理与生成。教学重点、难点:一、教学重点模态表示与模态对齐:重点讲解如何将异构模态数据转换为统一特征向量,以及对比学习在语义对齐中的作用。统一嵌入解码器架构:重点讲解图像编码器、输入投影器、解码器的协同工作流程。跨模态注意力架构:重点讲解交叉注意力层如何实现文本特征与视觉特征的动态语义交互。多模态推理与生成:重点讲解视觉问答、视觉常识推理的应用场景,以及输出投影器与模态生成器的功能。二、教学难点模态对齐的实现机制:学生难以理解对比学习如何建立不同模态间的语义关联,需结合CLIP模型的正负样本训练过程加以说明。ViT图像编码器的分块处理:学生不易理解图像分块、线性映射及位置编码的操作逻辑,需结合具体图像尺寸与分块参数进行示例演示。两种架构的交互粒度差异:学生容易混淆统一嵌入解码器与跨模态注意力架构的本质区别,需通过对比表格与具体应用案例加以区分。跨模态推理中的逻辑建模:学生难以将图像特征与文本指令结合进行深层逻辑推导,需结合医疗诊断、辅助驾驶等实际案例辅助理解。教学内容及组织安排:模块5多模态大模型技术情景引入(教学导入)本模块的教学导入采用案例驱动的方式。致网科技团队通过引入Transformer架构,成功解决了“南京玄武湖五星级酒店”的文本语义理解难题,开发的模型终于能够厘清“地点+景观+等级”的多层次关联。然而,客服团队迅速反馈了新的用户意见:有用户上传了一张玄武湖日落的照片,并希望找到能拍摄同款湖景的亲子房,最好配备儿童游乐区。但团队开发的AI模型仅识别了玄武湖和亲子房等关联信息,未能捕捉到照片中日落光影的景观需求,导致推荐的酒店不符合用户的期望。该团队陷入深思:从最初的纯文本指令到如今“文本+图像+语音+视频”的复合需求,用户正以人类最自然的认知方式与AI进行交互。然而,现有的模型擅长处理文本,却无法理解图像,更难以将照片中的日落光影和文本描述的亲子游乐区这些跨模态信息融合成一幅完整的需求画像。为了解决多种信息的融合理解问题,团队引入了多模态大模型。教师可在此引导学生思考:多模态大模型是如何将图像视觉特征与文本语义信息、语音情感倾向产生关联的?其架构与之前的Transformer有何区别?面对“文本+图像+语音+视频”的混合数据,模型又如何保证理解的准确性?知识准备5.1多模态大模型概述 5.1.1基本概念 传统大语言模型以文本数据为核心处理对象,其输入与输出均围绕文本展开,擅长完成文本生成、情感分析和机器翻译等纯文本类任务,但无法直接处理或理解文本之外的其他数据形式。与传统大语言模型的单模态局限不同,多模态大模型突破了文本的边界,能够同时接收、处理并理解多种不同模态的信息,实现跨模态的语义关联与任务协同,具备更贴近人类感知与认知习惯的信息处理能力。在多模态大模型的基本概念中,需要先明确“模态”的定义。从数据表征维度而言,模态特指信息的不同呈现形式,如文本、图像、音频以及视频等,它是AI对现实世界信息进行感知与处理的基本单元。多模态大模型就是借助预训练与微调技术,实现多种模态信息的融合,完成跨模态推理与生成的AI模型。从数据处理的角度看,多模态大模型跨模态推理和生成能力的实现,核心在于对不同模态数据的表示与对齐。模态表示是指将原始异构的模态数据如音频、文本和图像等信息通过多模态大模型编码器转换为机器可理解的统一特征向量。这一操作在多模态大模型的训练和应用阶段广泛使用,是多模态大模型感知不同模态的基础。具体来说,模态表示有三个重要作用:一是将不同格式的原始数据(像素、音频波形、文字符号)转换为统一的向量形式;二是提取各模态数据中的关键特征,去除冗余信息;三是为后续的模态对齐和融合提供标准化的输入格式。模态对齐主要是指借助多模态大模型的对比学习、注意力机制等技术手段,先达成不同模态数据在维度上的统一,再开展语义层面的匹配,从而使它们能够在同一语义空间中进行对比与操作。模态对齐主要应用于多模态大模型的训练阶段,通过大量数据集的训练将模态信息与其文本描述信息实现语义关联。以图像和文本为例,模态对齐的过程是:模型输入端包含一幅图像及用文本描述的数据信息,经多模态大模型的对比学习等机制处理后,实现了文本与图像元素语义的一一对齐。通过模态对齐,可以消除模态间的异质性壁垒,使模型能够理解和关联不同模态的内容,进而为模态间的信息融合、转换提供基础。5.1.2模型架构 多模态大模型的核心挑战在于如何将文本、图像和音频等形态迥异的模态数据,转换为可协同理解的统一语义。为平衡通用场景的兼容性与复杂任务的精细度,业界形成了两种极具代表性的核心架构。统一嵌入解码器架构:该架构类似大语言模型中处理文本的方式,使用模态编码器和输入投影器将不同模态数据转换为嵌入向量,然后和文本嵌入向量拼接在一起,输入大模型的解码器中。模态编码器(以图像编码器为例):负责将图像分割成多个图像块,并将每个图像块编码为图像块嵌入向量。在实际部署中,图像编码器通常为成熟模型,如视觉Transformer(ViT)模型。ViT的工作流程包括四个步骤:图像分块(将完整图像分割为多个互不重叠的小图像块,如16×16像素)、线性层(将每个图像块的像素值映射成固定维度的嵌入向量)、位置编码(为每个图像块嵌入向量添加空间位置信息)、Transformer编码器(将图像块嵌入向量输入多个编码器层,输出整合了全图语义的全局感知特征)。输入投影器:经图像编码器处理得到的图像块嵌入向量被发送至输入投影器。输入投影器的核心工作围绕“模态对齐”与“维度对齐”展开。在模态对齐层面,它将图像块嵌入向量中蕴含的视觉特征转换为与描述该图片的文本语义特征相匹配的向量表达;在维度对齐层面,它通过线性变换调整特征向量的维度,使其与指令的文本嵌入向量维度完全一致,以便在拼接后输入解码器进行处理。解码器:在统一嵌入解码器架构中,解码器通常为已完成预训练的Transformer模型的解码器组件。它对经过输入投影器对齐后的多模态特征向量以及经过位置编码后的指令文本嵌入向量进行深度融合,输出能够充分整合视觉细节与指令文本需求的模态信息。解码器中的掩码自注意力机制通过掩码限制模型访问当前位置之后的信息,确保多模态生成过程遵循自回归的逻辑;前馈神经网络层增强模型对图像细节和文本语义之间复杂关联的表达能力;残差连接与归一化起“稳定器”作用,避免特征信息在层层处理中被稀释。跨模态注意力架构:在该架构中,图像块嵌入向量的处理与统一嵌入解码器架构一致——图像被图像编码器分割成图像块并生成初始特征,接着通过输入投影器调整为模态对齐的特征向量并与指令的文本嵌入向量维度对齐。但在模态融合阶段,跨模态注意力架构并非直接将对齐的特征向量与文本嵌入向量拼接后输入解码器,而是把对齐后的特征向量接入解码器的交叉自注意力层。跨模态注意力架构最核心的地方是在Transformer解码器中添加了交叉注意力层,使文本嵌入向量与视觉特征能够直接进行动态语义交互。具体流程如下:输入的指令文本经过分词、嵌入层和位置编码后,生成文本嵌入向量,通过解码器的自注意力层得到文本的中间特征向量;在解码器的交叉自注意力层中,以文本嵌入向量作为Query,以对齐后的图像特征向量作为Key和Value,通过注意力权重计算,让文本特征动态地“吸收”图像中最为相关的视觉信息;融合后的特征再经过前馈神经网络和残差连接与归一化,进入下一层Transformer解码器重复上述过程,直至输出最终模态信息。两种架构的对比:输入融合方式:统一嵌入解码器架构将图像块嵌入向量与文本嵌入向量在输入层拼接成单序列输入解码器;跨模态注意力架构将图像块嵌入向量经编码器处理后,在解码器每个交叉注意力层中动态融入。交互粒度:统一嵌入解码器架构为粗粒度交互,依赖解码器对“图像+文本”拼接序列的全局隐式理解,适合图像描述、图文检索等不需要精准关联的通用场景;跨模态注意力架构为细粒度交互,生成每个文本嵌入向量时动态关注图像局部特征,适合视觉问答、图像细节描述等需要精准匹配的场景。架构复杂度:统一嵌入解码器架构复杂度低,复用纯文本输入层设计;跨模态注意力架构复杂度中等,需修改解码器注意力机制支持跨模态交互。5.2多模态大模型预训练与微调 5.2.1预训练 预训练是实现多模态大模型模态对齐的关键技术之一,其目的是让大模型在大规模、多样化的多模态数据上学习跨模态语义关联以及通用特征表示,仅为后续阶段提供多模态理解的基础能力。简单来讲,预训练的核心在于让模型识别不同模态并建立关联,以实现多模态数据对齐。数据集要求:大规模跨模态数据集是构建模型跨模态能力的核心支撑,需要满足三大关键条件:数据规模须具备海量级体量,为模型的泛化性提供基础;需确保不同模态数据间语义关联性的精准对齐;场景覆盖需全面、广泛,涵盖多样的现实任务场景。例如,在图文模型中,其预训练数据集通常采用结构化的JSON格式存储图文对,包含图片唯一标识符、图片存储路径、图像对应的自然语言描述三个字段。CLIP预训练方法:对比语言-图像预训练(CLIP)是当前主流的基于对比学习的模型,主要包含文本编码器、图像编码器和线性投影器三个组件。总体的预训练过程涵盖三个阶段。数据特征提取:文本编码器对数据集中的N个文本信息进行编码,将每个文本转换为固定长度的特征向量,输出特征矩阵T=[T₁,T₂,T₃,...,Tₙ];同时,通过图像编码器将N个图像信息转换为相同维度的特征向量,输出特征矩阵I=[I₁,I₂,I₃,...,Iₙ]。相似度计算:将每一个图像特征向量与每一个文本特征向量进行组合,生成N×N个特征对。运用余弦相似度公式计算所有样本的特征相似度,进而计算语义相似度。余弦相似度用于衡量两个特征向量的方向一致性,计算所得的值越接近1,语义越相似;值越接近-1,语义差异越大。经过计算后,把N个完全匹配的文本图像对标记为正样本,其余不匹配的文本图像对标记为负样本。参数优化:在获取正负样本的相似度之后,模型借助对比损失函数(如InfoNCE)来计算训练损失,并将此作为模型参数优化的直接依据。InfoNCE会先在数据集中选取一个样本作为“锚点”(基准样本),依据模型输出的正样本和负样本的相似度来判断模型输出准确性。若正样本分数明显高于负样本分数,表明模型能够正确区分正负样本,此时损失值较小;若正、负样本分数相近甚至颠倒,损失值则会显著增大。当损失值较大时,模型会通过反向传播调整与特征生成、相似度计算直接相关的核心参数,最终达成对角线数值最大化、其他非对角线数值最小化的目标。5.2.2微调 多模态大模型的微调主要是让预训练的通用模型能够适配特定任务、领域或场景。经过预训练后,多模态大模型针对基础视觉问答、跨模态检测等应用场景已具备零样本泛化能力,可直接使用。但在医疗诊断、工业检测等细分领域,预训练模型的通用知识无法全面覆盖,此时需要进行微调。在实际操作中,多模态大模型的微调方式主要为指令微调。与单模态指令微调的差异与共性:数据集构建:单模态大模型依赖纯文本形式的指令、输入输出数据集;多模态大模型的数据集使用文本指令、多模态输入、多模态输出的复合形式,包含“文本指令+多模态输入+多模态输出”的三元组数据。数据处理:预处理后的多模态数据需要进行模态对齐,以实现跨模态数据的语义一致性;单模态大模型无须进行模态对齐步骤。技术共性:二者均能够采用LoRA、前缀微调等参数高效微调技术,实现模型对目标任务的精准适配。多模态指令微调的实现流程:图像经由视觉编码器提取通用视觉特征,此模块通常采用成熟模型,其参数无须进行指令微调,旨在保留成熟的视觉表征能力。然后,借助输入投影器达成视觉特征的模态对齐并生成特征向量,该特征向量会与指令的文本嵌入向量相融合,形成统一的特征向量。最后,Transformer解码器依据融合特征输出文本描述。若模型生成的输出与数据集所提供的标准答案语义一致,则模型参数无须微调;若语义差异较大则计算损失,并通过反向传播机制优化输入投影器的权重矩阵以及Transformer解码器的自注意力层、前馈神经网络层和残差连接与归一化层的参数。5.3多模态推理与生成1.多模态推理多模态推理是指模型结合文本指令,对图像、视频和语音等多模态输入的语义进行跨模态解析、关联与逻辑推导,最终输出文本形式的理解结果的过程。从技术本质来看,多模态推理主要解决两个核心问题:一是模态对齐,如将文本中的“红色汽车”与图像中具体的红色汽车区域关联;二是跨模态逻辑建模,如根据“暴雨天气”的文本提示和视频中道路积水的画面推导“不适合驾车出行”的结论。视觉问答是多模态推理领域的标志性任务,核心目标是让模型同时深度理解图像中的视觉信息与文本形式的问题,并生成精准匹配的文本答案。例如在医疗健康领域,放射科医生上传患者的肺部CT影像,并提出疑问“图中是否存在结节病灶?”模型基于影像特征与医疗知识,生成答案“右肺上叶存在直径约8mm的类圆形结节病灶”,为初步诊断提供有力参考。视觉常识推理要求模型结合视觉特征与常识性知识,回答具有推理性的复杂问题,需突破对物体表层的理解,实现深层逻辑推导。例如在辅助驾驶领域,用户上传雨天路况图像,提问“前方道路出现积水,结合天气与路况特征,驾驶时需注意哪些事项?”,模型基于交通常识与车辆行驶原理,生成“需减速慢行,避免急刹车与急转弯,积水较深时切勿强行通过,防止车辆熄火或侧滑”的推理建议。2.多模态生成多模态生成是指模型基于文本指令,将文本语义转换为图像、音频和视频等多模态内容的过程。多模态生成的核心是输出非文本模态的创作结果,侧重将文本指令的抽象语义具象化为可感知的多模态内容。在具体实现时,多模态生成又以多模态推理为基础,只有先通过推理环节理解文本指令的意图及多模态输入的语义,才能精准生成符合需求的多模态内容。若多模态大模型要实现多模态输出,仅依靠解码器架构是不够的,还需要引入输出投影器和模态生成器这两个核心组件。输出投影器的核心职责是将解码器输出的文本语义特征向量转换为目标模态生成器可识别的特征格式。在多模态大模型中,解码器输出的语义决策通常以文本特征向量的形式呈现,而图像生成、音频生成等需要特定格式的特征向量,输出投影器正是完成这一转换的关键桥梁。模态生成器是多模态大模型的最终执行终端,其核心功能是接收输出投影器传递的目标模态的中间表示,并将其转换为人类可感知的具体模态数据。根据目标模态的差异,其常用工具也各不相同。以图像生成为例,常用的模态生成器主要为StableDiffusion,其架构在腾讯混元图像3.0、华为盘古大模型中都有借鉴和应用。实训任务5.4多模态大模型驱动的图文生成实践 实验环境:操作系统:Ubuntu22.04硬件配置:6核CPU、6GB内存、60GB磁盘、1个12GB显存GPU显卡默认账户:root/root@openlab、openlab/user@openlab实训内容包含两个核心任务:部署容器化多模态大模型运行和开发环境编写Python程序,实现高效的图像描述生成、创意文本生成和AI绘画提示词生成实训步骤共分为两个环节:第一环节:实验部署创建多模态大模型容器(Ollama容器和Python容器),两个容器通过同一个自定义网络互相通信,都可以访问分配的GPU资源测试Ollama服务是否正常运行(curl测试,返回“Ollamaisrunning”)修改代码文件和配置文件,将ollama_url字段配置为实际的Ollama容器地址第二环节:多模态大模型驱动的图文生成理解多模态大模型驱动图文生成的代码结构,系统采用分层架构,涵盖图像描述生成、创意文本生成和AI绘画提示词生成等核心功能核心代码解析:调用大模型部分:通过集成缓存机制、重试机制、超时控制与异常处理,为所有多模态任务提供稳定可靠的API调用服务。流程包括检查缓存、重试机制、检查图像文件、将图像转换为Base64编码、构建请求数据、发送请求到API端点、响应处理、缓存结果。核心任务部分:通过单次流程调用完成三大核心任务。图像描述生成根据多种风格提供图像文字描述;创意文本生成根据图像内容创作广告文案、故事开头、产品描述和社交媒体文案;AI绘画提示词生成为AI绘画工具提供专业的英文提示词,支持写实、动漫、油画、水彩、科幻等多种艺术风格。运行程序,观察程序启动和环境检查阶段(Ollama服务连接顺利,llama3.2-vision:11b模型成功加载)、图像处理阶段(每幅图像的三个任务执行状态和生成内容实时预览)、可视化报告和程序完成阶段(结果保存在./outputs目录,可视化报告保存在./visualizations目录)复制输出文件到本机,查看结果统计图(图像描述风格分布、创意文本类型分布、图像提示词风格分布、处理时间曲线)、风格对比图(四种描述风格的质量评分与创意评分对比)、文本长度分析图(图像描述长度分布、创意文本长度分布、图像提示词长度分布)模块小结本模块聚焦于多模态大模型的核心技术体系,系统讲解了从基础概念、架构设计到预训练与微调、推理生成的全流程知识,并结合实操训练,帮助读者构建“单模态认知→跨模态协同”的完整知识框架,并具备深入理解模型跨越文本、图像和音频等模态壁垒的核心能力。通过对本模块的学习,读者可全面掌握多模态大模型的关键技术与实践路径,为后续的深入研究与行业应用打下坚实基础。

模块6教学安排的说明章节题目:模块6提示工程 情景引入 知识准备 6.1提示工程概述 6.1.1提示工程核心要素 6.1.2提示工程设计原则 6.2提示方法原理 6.2.1零样本提示 6.2.2少样本提示 6.2.3思维链提示 6.2.4自洽性提示 6.2.5思维树提示 实训任务 6.3问答任务提示方法效果对比 模块小结 模块练习学时分配:总6学时第1~2学时:情景引入;提示工程概述第3~4学时:提示方法原理第5~6学时:实验:问答任务提示方法效果对比;小结本章教学目的与要求:1、教学目的本模块旨在帮助学生系统掌握提示工程的核心知识与实践方法,理解人与大模型高效交互的基本原理。通过本模块的学习,学生应了解提示工程的基本概念、核心要素与设计原则;掌握零样本提示、少样本提示、思维链提示、自洽性提示及思维树提示等方法的原理与适用场景。通过问答任务提示方法效果对比实训,学生应具备设计优化提示、评估不同提示方法效果的能力,能够根据任务需求选择最合适的提示策略,提升大模型在实际应用中的输出质量。2、教学要求要求学生理解角色设定、目标定义、上下文提供等核心要素的作用,掌握清晰性、具体性、一致性等设计原则。实训环节要求学生能够通过OllamaAPI调用大模型,对比分析零样本、少样本和思维链三种提示方法在问答任务中的准确率差异,理解不同方法的优缺点与适用场景,具备提示设计与优化的系统能力。

课堂教学方案课题名称、授课时数:模块6提示工程,6学时授课类型(理论课、实验课、技法课、习题课等):理论课、实验课教学方法与手段(讲授、讨论、指导、多媒体等):多媒体教学目的要求:理解提示的基本构成要素。掌握提示的设计原则。掌握不同提示方法的原理。教学重点、难点:一、教学重点提示工程核心要素:重点讲解角色设定、目标、上下文、输入数据、输出约束、范例六大要素的作用与协同方式。提示设计五大原则:重点讲解清晰性、具体性、一致性、简洁性、可测试性原则的内涵与实现策略。提示方法类型:重点讲解零样本提示、少样本提示、思维链提示、自洽性提示、思维树提示的原理与适用场景。二、教学难点思维链提示的推理外化:学生不易理解如何引导模型输出显式推理过程,需通过零样本思维链与少样本思维链的对比案例加以说明。温度参数对概率分布的影响:学生难以把握温度参数如何平滑Softmax输出并增强“暗知识”的传递,需通过数值计算示例辅助讲解。自洽性提示的投票机制:学生不易理解如何通过多条独立推理链的共识结果提升答案可靠性,需结合多路径推理的具体案例加以演示。思维树提示的树状推理:学生难以掌握将复杂问题拆解为递进想法并评估最优路径的方法,需通过开放性议题的完整示例加以说明。教学内容及组织安排:模块6提示工程情景引入(教学导入)本模块的教学导入采用案例驱动的方式。从智能客服到内容生成工具,AI正以前所未有的速度融入人们日常生活的方方面面。然而,某科技公司的技术团队在开发对话系统时发现,大语言模型输出内容的质量参差不齐,有时会返回格式不符、逻辑混乱的内容,甚至返回存在事实性错误的文本。问题的根源往往并非模型能力不足,而是输入指令的表达方式存在问题。模糊的指令,往往只能得到模糊的答案;缺乏上下文约束的指令,生成的结果便容易偏离预期。为了解决上述问题,开发团队开始探索引导大模型实现高质量输出的途径——提示工程。通过系统化地设计、优化提示,如加入角色设定、明确任务定义、附加格式示例等,开发团队逐步引导模型输出更精准、更符合业务需求的响应。引入提示工程技术后,团队不仅显著提升了对话系统的输出准确率和用户体验,还大幅降低了模型调优和迭代开发的成本。教师可在此引导学生思考:为什么同样的模型,不同的输入方式会导致输出质量的巨大差异?提示工程的核心价值是什么?你是否有过通过调整提问方式获得更好回答的亲身经历?为了帮助学生更直观地理解提示工程与提示的关系,可以用小王去蛋糕店订蛋糕的日常案例进行说明。当小王对蛋糕师傅说“我想要订一个蛋糕”时,这句话便相当于用户向模型提供的提示。然而,单凭这一简单的提示,蛋糕师傅无法全面掌握小王的具体需求,因此需要进一步沟通来细化需求,如蛋糕的尺寸、样式、奶油类型以及生日对象等细节。只有当小王准确无误地表达出所有具体需求时,蛋糕师傅才能充分理解其意图,并制作出令小王满意的蛋糕。在这一过程中,小王通过合适的表达方式,引导蛋糕师傅按照自己的意图制作蛋糕,这种“通过表达方式来引导生成结果”的方法,就是提示工程。知识准备6.1提示工程概述 6.1.1提示工程核心要素 提示工程是一种通过设计精准、完善且结构化的输入,以引导生成式人工智能输出高质量且符合预期结果的方法论和技术实践。提示是连接“用户意图”与“模型能力”的关键桥梁,模型会严格按照提示生成相应结果,而不会通过猜测得出用户的准确意图。例如,用户给出模糊提示“写篇关于环保的文章”,模型可能会输出泛泛而谈的内容;而用户提供精准提示,明确字数、面向对象、具体场景和可行建议,模型的输出将更加聚焦且准确。提示工程核心要素可以理解为一系列系统化的构建模块,它们共同协作,将用户模糊的意图转换为模型能够精准理解并执行的高质量指令。其核心要素主要涉及以下六个方面,这些要素并非总是全部显现,可依据实际情况按需调整。角色设定指的是在向生成式人工智能发出指令时,预先为其分配一个特定的身份或视角,如资深财务分析师、风趣的科普博主、严格的代码审查员等。角色设定并非设置简单的标签,而是为模型构建一个专业的思维框架和回应视角,包括其专业知识领域、说话口吻、目标受众等。在无角色设定的情况下,模型的回答往往高度浓缩技术概念,对于非专业受众理解门槛较高;当提示中加入“你是一名小学科学课老师”这一角色设定后,模型将技术原理转换为适合特定角色、充满童趣的比喻,完全改变了输出的叙事方式,并降低了认知难度。目标指的是用户在向生成式人工智能发出指令时期望达成的具体结果或意图,如获取信息摘要、生成创意内容、进行逻辑推理或生成一段代码等。一个明确的目标能够为模型提供生成回答的核心焦点和评价标准。当提示中加入“为新入职的文科背景的市场部同事写一段培训概要”这一明确目标后,模型的输出发生了根本性转变,它紧紧围绕易于理解和关联业务的核心目的,刻意避免了专业术语,转而使用“超级大脑”“海量阅读”“理解上下文”等比喻和场景化描述。上下文是指在向生成式人工智能发出指令时,所提供的与核心任务相关的场景设定、背景资料、历史对话或约束条件。充足的上下文能确保模型的回答高度贴合具体场景。例如,在提示中加入“我正在向一位风险投资人介绍AI领域的投资机会”之后,模型将解释的角度从“技术如何实现”切换到“商业价值何在”,使用投资人熟悉的语言,如“垂直行业”“规模效应”,使输出信息与听众的关注点高度对齐。输入数据特指在指令中明确提供的、需由模型直接处理、分析或操作的原始信息对象。在提示中清晰地将“指令”与“输入数据”分隔开,能显著提升模型处理的准确度。分隔方式包括通过分隔符区分(如引号、XML标签、JSON字段)或通过明确标识区分(如“输入:”“文本:”)。通过增加输入数据,模型将空泛的原理介绍精准地锚定在特定应用场景,使回答内容更具针对性和实用性。输出约束指的是在向生成式人工智能发出指令时,预先明确地规定输出结果必须遵循的形式、风格和结构。例如,“以表格呈现”“用JSON格式输出”或“模仿鲁迅的文风,在200字内完成”。这些规定并非对内容的建议,而是必须执行的输出规范。提示中加入输出约束后,模型输出信息的精炼度会有极大提升,严格满足提示中的约束要求。范例是指在给模型的指令中,包含一个或多个具体的“输入—输出”对,借此直观地向模型展示期望的任务执行方式、输出格式、风格及详细程度等要素。通过提供范例,模型能够迅速理解人类的主观标准和复杂意图。通过引入范例,大模型有效校准了解释风格,使输出内容与范例在表现手法上高度契合。出色的提示,通常是上述多重要素的按需组合。全要素场景下的提示会从一个明确的角色和目标出发,辅以丰富的上下文和具体的输入数据,再通过严格的输出约束和直观的范例进行校准,共同构成一个能高效驱动生成式人工智能的完整指令集。6.1.2提示工程设计原则 优秀的提示设计基于“清晰性、具体性、一致性、简洁性和可测试性”五大原则,这些原则构成了指导用户构建高效提示的基石。清晰性原则强调提示语言必须明确、无歧义且易于理解,以确保大模型能够准确把握用户的指令核心和真实意图。应使用“将以下Python代码转换为Java代码”这类具体指令,而非“写一篇文章”这样模糊的请求。实现清晰性的策略包括:使用直接的动作指令(如“总结”“阐释”“对比”“生成”)、结构化复杂指令(使用分隔符或编号分解子任务)、明确界定范围(避免宽泛询问,应明确具体问题)。具体性原则是指提示应提供具体细节,如数字、例子或范围,以引导AI产生精确的响应。如果说清晰性是让模型“看懂”任务,那么具体性就是告诉模型这个任务的“精确规格”。实现具体性的策略包括:参数量化(明确指定数量、长度、规模,如“不超过150字的总结”)、指定格式与结构(如“列成表格”“采用JSON格式”)、定义风格与语调(如“正式报告”“幽默的口语化风格”)、提供参考范例。一致性原则是指在单个提示或系列提示中,保持术语、视角和逻辑标准的统一与连贯,避免自相矛盾或随意变更。实现一致性的策略包括:术语统一(固定使用同一套专业词汇,避免混用同义词)、视角连贯(保持叙述视角的一致性)、逻辑顺序统一(按照时间顺序、重要性顺序或空间顺序组织内容)。简洁性原则是指在确保提示完整、清晰且具体的前提下,采用最精炼的语言表达指令,去除所有冗余、重复或不必要的词汇。过长的提示不仅会增加模型的负担,还可能导致模型忽略关键信息。实现简洁性的策略包括:合并同义指令、使用关键词和术语、优先使用并列结构、审阅与删减。可测试性原则是指设计中的提示应确保其输出结果具备清晰、客观的评估标准,从而能够便捷、迅速地验证结果是否成功满足了预设要求,以便进行迭代优化。实现可测试性的策略包括:设定量化指标(如“列出3个要点”“总结在150字以内”)、创建检查清单、定义成功标准、要求特定格式、提供反面示例。6.2提示方法原理 6.2.1零样本提示 零样本提示是指在不向大语言模型提供任何具体示例的情况下,直接向其下达指令或提出问题。其核心作用是检验并利用模型在预训练阶段已内化的通用知识和能力,以执行全新的任务。例如,模型输入提示“将英文‘IloveAI’翻译成中文”,模型输出“我爱AI”。零样本提示的原理根植于模型的预训练阶段。模型通过海量跨领域数据的预训练,将语言结构、世界知识和通用任务逻辑编码为高度复杂的参数化表示。当接收到零样本提示时,模型并非进行“学习”,而是将该提示视为一个激活信号,动态激活其内部相关知识,并遵循学到的概率分布生成与提示要求高度契合的响应。零样本提示的优势包括极致便捷(用户无须费力构思示例,沟通成本极低)和通用性强(对于训练数据中涵盖的任务类型模型通常能给出较好回应)。然而,其缺陷在于高度依赖模型预训练数据的覆盖范围和质量,对于过于专业、生僻或定义模糊的任务,效果可能不够稳定。6.2.2少样本提示 少样本提示是指在给大语言模型的指令中,包含1至10个精心设计的“输入—输出”示例。这些示例共同定义了待执行任务的解决思路与输出格式,通过这些具体的、可模仿的“模板”,可以引导模型从“通用知识泛化”转向“特定任务适配”。少样本提示的原理在于充分发挥模型的情境学习能力。模型在接收少样本提示后,将提示中的示例作为最直接的上下文,通过注意力机制识别出其中的任务模式、输出格式和评判标准,并进行模式匹配与类比生成。其优势在于无须进行模型微调,即可显著增强模型在面对陌生任务时的可靠性与准确性。然而,少样本提示也存在明显的缺点。首先是示例会消耗宝贵的词元数,可能会挤压待处理内容的篇幅;其次,其效果高度依赖示例的质量与代表性,选择不当的示例会“教坏”模型;最后,它对于需要多步复杂推理的任务依然乏力,因为示例仅展示了“输入—输出”的对齐,并未显式展示内部思考过程,可能会给出想当然的错误结论。6.2.3思维链提示 思维链提示是一种引导模型输出逐步推理过程、而非直接给出最终答案的提示方法。这种方法类似于人类在解决复杂问题时,通常会先分解步骤、进行逻辑推导,最终得出结论。其核心是通过提示构建“问题→中间推理步骤→答案”的逻辑链条,特别适用于需要多步推理的复杂任务。思维链提示按照是否包含示例,分为零样本思维链和少样本思维链两种。零样本思维链模式下,提示中只包含当前需要解决的问题本身,无须额外提供任何包含思维链的示例,可直接借助指令激发模型的推理能力。例如,使用“让我们逐步思考”或“请分步骤推导”等指令。零样本思维链的优势在于简洁高效(无须精心设计和准备示例)和激发内部知识(依赖模型自身已掌握的知识与逻辑进行推理)。缺点包括稳定性风险(缺乏正确示例引导,推理可能出现逻辑断层)和模型能力依赖(高度依赖模型本身的推理能力)。少样本思维链模式下,提示在给出“本问题”之前,会先展示几个其他类似问题的“问题+完整思维链+答案”的示例,使模型能够通过模仿这些示例的推理逻辑,解决新问题,并输出与示例格式一致的推理结果。少样本思维链的核心优势体现在高可控性与可靠性(示例为模型提供了明确的“答题模板”,规范了推理步骤、格式与风格)和能力补偿效应(高质量的示例可作为“外部知识”,弥补模型内在推理能力的不足)。其缺点在于设计成本高,模型输出的效果高度依赖示例的质量,用户必须精心设计和准备高质量的示例。零样本或少样本提示与思维链提示在流程实现上的本质区别在于:前者模型倾向于输出其直觉上认为最可能的答案,这种答案可能仅基于训练数据中的表面模式;而思维链提示通过运用关键指令或提供包含推理步骤的示例,有效引导模型进行自主思考或模仿推理逻辑,使推理过程外显,增强输出的可解释性与准确性。6.2.4自洽性提示自洽性提示不依赖单一思维路径来得出结果,而是让模型针对同一问题构建多条独立的思维链,随后通过“投票”机制,挑选出被最多推理路径共同认可的答案作为最终输出,以此有效规避单一路径的脆弱性,显著提高结果的可靠性。自洽性提示的原理类似于集成学习中的“群体智慧”:一条推理链可能出错,但多条独立且逻辑一致的推理链同时指向同一个错误答案的概率较低。用户输入自洽性提示后,模型依据该提示中的要求构建多条独立的推理链,每条推理链推导出相应的答案,模型通过少数服从多数的投票机制确定最终结果。自洽性提示适用于所有需要高可靠性的复杂推理任务,尤其是在处理歧义问题、复杂信息或需权衡多重因素的场景中效果显著,能够大幅提升复杂决策的鲁棒性和准确性。然而,其根本性缺陷在于探索范围受限于模型的基础能力——模型生成的多条思维链本质上是在同一个思维起点附近进行小幅波动,无法主动规划、探索和评估那些可能更优的替代性推理路径。6.2.5思维树提示思维树提示将模型的推理过程从“链”式的线性结构升级为“树”状结构,从而更好地模拟人类的决策过程。在人类的决策过程中,链式思维仅能沿单一路径推进,缺乏多元选择的灵活性;而实际上,人类的决策模式更类似于树状结构——例如在下棋的过程中,人们能够在脑海中并行推演各种选择可能产生的结果。受此启发,思维树提示引导模型将复杂的核心问题拆解为一系列递进的想法。核心问题作为树根(根节点),衍生出的递进式想法如同树的分支(子节点),逐步扩散开来。模型依据树状结构进行逐层分析,最终通过评估机制选择最优路径或综合各路径信息,逐步推导出结论。这一方法有效突破了单一思维链的局限,显著提升了模型思维的广度与深度。思维树提示适用于解决开放性、无单一明确答案的探索性问题,例如探讨是否应大力发展AI这类极具争议性的议题。实训任务6.3问答任务提示方法效果对比实验环境:操作系统:Ubuntu22.04硬件配置:6核CPU、8GB内存、60GB磁盘、1个6GB显存GPU显卡默认账户:root/root@openlab、openlab/user@openlab实训内容包含两个核心任务:根据docker-compose.yml文件中定义的服务,使用docker-compose命令启动并运行相应的容器进入Python环境的容器,创建并执行Python程序,通过OllamaAPI调用Qwen3-8B大模型,对比分析零样本、少样本和思维链三种提示方法在问答任务中的性能差异实训步骤共分为两个环节:第一环节:实验操作登录实验环境,使用docker-composeup-d完成容器部署(ollama容器运行Ollama服务,ai_course容器为Python代码运行环境)测试Ollama服务连接(curl测试,返回“Ollamaisrunning”)进入Python容器,修改代码文件中的Ollama服务地址为虚拟机实际使用的IP地址第二环节:代码流程解析与程序运行初始化Ollama客户端:通过ollama.Client建立与Ollama服务的连接加载测试数据:test_data列表包含10道中文问答题目,覆盖数学计算、逻辑推理、知识问答和概念辨析4种题型定义零样本提示模板:提示中不包含任何示例,直接要求回答问题定义少样本提示模板:提示中携带3个示例引导,示例涵盖数学计算、逻辑推理、知识问答三种类型定义思维链提示模板:提示中要求分步推理,规定输出格式为“分析问题类型和关键信息→逐步推理过程→最终答案”调用Ollama服务获取回答:通过client.chat()向模型发送提示,提取并清理回答内容评估答案:通过6个递进的检查步骤评估模型回答的准确性(直接包含检查、多答案部分包含检查、核心答案提取匹配、关键词匹配检查、语义相似度检查、数字答案宽松匹配)运行程序,观察三种提示方法的准确率差异,分析不同提示方法针对同一问题生成的答案差别模块小结本模块聚焦提示工程的知识体系与实践应用,系统讲解提示工程的概念、方法及在大模型交互中的落地策略。首先从提示工程概述入手,阐述提示工程的基本概念、核心要素和设计原则,帮助读者建立对提示工程的整体认知。随后深入讲解提示策略与技巧,涵盖零样本提示、少样本提示、思维链提示、自洽性提示、思维树提示等多种类型,以案例的形式剖析不同提示方法的原理、适用场景与实施细节。结合“问答任务提示方法效果对比”实训,借助实践操作增强读者对提示技术的理解与应用能力。通过对本模块的学习,读者能够掌握提示工程的核心要素与设计原则,灵活运用各类提示策略优化大模型的交互效果,为高效解决实际场景中的大模型应用问题奠定扎实基础。模块7教学安排的说明章节题目:模块7大模型智能体情景引入 知识准备 7.1大模型智能体简介 7.2大模型智能体核心组件 7.2.1记忆组件 7.2.2工具调用组件 7.2.3任务规划组件 7.3多智能体 7.4大模型智能体主要协议 7.4.1模型上下文协议 7.4.2智能体对智能体协议 7.5主流开发框架 实训任务 7.6电商大模型智能体构建与场景应用 模块小结 模块练习学时分配:总6学时第1~2学时:情景引入;大模型智能体简介;核心组件第3~4学时:多智能体;主要协议;主流开发框架第5~6学时:实验:电商大模型智能体构建与场景应用;小结本章教学目的与要求:1、教学目的本模块旨在帮助学生系统掌握大模型智能体的核心技术与开发方法,理解智能体的架构设计与应用场景。通过本模块的学习,学生应了解大模型智能体的基本概念与基础架构,掌握记忆组件、工具调用组件、任务规划组件等核心模块的功能与协作机制;理解多智能体协作模式与主流协议。通过电商大模型智能体构建实训,学生应具备搭建智能体应用、实现智能问答、商品推荐及营销文案生成的能力,能够可视化展示智能体交互流程。2、教学要求要求学生理解短期记忆与长期记忆的区别、函数调用工具的工作流程、ReAct框架思考与行动结合的协同机制,掌握多智能体的集中式与分布式协作模式。实训环节要求学生能够完成智能体服务的部署与配置,实现任务分类、信息检索与模型调用的协同工作,并通过Streamlit构建可视化交互界面,具备大模型智能体开发的系统能力。课堂教学方案课题名称、授课时数:模块7大模型智能体,6学时授课类型(理论课、实验课、技法课、习题课等):实验课、实验课教学方法与手段(讲授、讨论、指导、多媒体等):多媒体教学目的要求:了解大模型智能体基础架构。掌握大模型智能体核心组件。掌握多智能体架构。掌握大模型智能体的主流开发框架。教学重点、难点:一、教学重点大模型智能体基础架构:重点讲解控制组件、记忆组件、任务规划组件、行动组件、工具调用组件的功能与协作关系。记忆组件:重点讲解短期记忆(上下文窗口)与长期记忆(向量数据库)的实现方式与应用场景。工具调用组件:重点讲解函数调用的工作机制,以及模型如何根据用户意图生成调用指令。ReAct框架:重点讲解思考、行动、观察协同循环的原理,以及智能体如何在与环境交互中动态修正策略。多智能体协作:重点讲解集中式协作与分布式协作两种模式的区别与适用场景。二、教学难点长期记忆的向量检索机制:学生难以理解如何将信息转换为高维向量并进行相似性检索,需结合向量数据库的工作原理加以说明。ReAct框架的协同循环:学生不易掌握思考、行动、观察三者如何交替进行并最终收敛到答案,需通过具体任务示例演示完整流程。智能体反思机制:学生难以理解执行者、评估者、自我反思模块的协同逻辑及反思结果如何存入长期记忆,需结合反思机制的完整流程图加以讲解。MCP与A2A协议的区别:学生容易混淆两类协议的应用场景(模型与服务交互vs.智能体间交互),需通过对比分析加以区分。教学内容及组织安排:模块7大模型智能体情景引入(教学导入)本模块的教学导入采用电商服务领域的案例。在电商服务领域,大模型智能体正成为提升用户体验与运营效率的关键技术。面对用户提出的复合需求,如同时咨询商品退换政策、推荐适合移动办公的轻薄笔记本电脑,并核算跨店满减与店铺优惠券叠加后的实付金额,传统客服系统通常只能逐项回应,既无法关联用户历史偏好,又难以协同调用多个业务系统进行精准计算,导致回复碎片化、缺乏个性。某电商技术团队发现,尽管通用大模型具备出色的自然语言理解能力,但在电商场景中仍存在三大短板:无法长期记忆用户的品牌偏好、使用场景等个性化信息;不能主动调用商品数据库、优惠规则引擎等内部系统;难以对多目标请求进行结构化规划与协调响应。为此,团队基于大模型智能体技术构建了新一代客服系统,通过记忆模块持久化记忆用户标签与历史订单;利用工具调用模块实时对接商品、库存与优惠计算系统;借助规划模块按“政策解答→精准推荐→优惠核算”的逻辑顺序整合响应流程。最终,系统能够完成一站式复杂咨询,显著提升了用户满意度与咨询转换率。教师可在此引导学生思考:通用大模型已经能够流畅对话,为什么还需要“智能体”架构?智能体相比普通大模型多了哪些能力?知识准备7.1大模型智能体简介大模型在语言理解与生成领域表现卓越,但受限于被动响应、缺乏环境交互、复杂任务处理碎片化及记忆有限等问题,难以深度适配现实场景需求。为突破这些瓶颈、拓展其实际应用边界,大模型智能体应运而生。大模型智能体是以大模型为大脑,能够理解任务、制订计划、调用工具、执行操作,并在与环境的交互中完成复杂目标的智能程序实体。大模型智能体是AI演进的一个重要方向,它标志着大模型从被动应答的工具向主动解决问题的伙伴的转变。大模型智能体的基础架构包括控制器组件、记忆组件、任务规划组件、行动组件、工具调用组件等部分。控制器组件负责理解任务、制定策略、协调各组件;记忆组件用于存储关键信息以维持任务连贯性并进行持续学习;任务规划组件用于将大型目标分解为可执行子任务序列并动态评估进展;行动组件负责智能体在某一时刻做出的决定或输出的行为;工具调用组件通过集成API、函数或服务,使智能体能调用外部工具解决实际问题。大模型智能体的工作流程包括感知、规划、行动、观察、反思等阶段。首先是感知阶段,智能体通过感知接收用户指令或环境输入,获取当前任务的基本信息。接下来进入规划阶段,此时大模型理解任务目标,并将复杂问题分解为可执行的子任务序列。在行动阶段,智能体根据规划的子任务执行当前任务,可能需通过调用外部工具来实现任务目标。紧接着进入观察阶段,智能体获取从外部工具返回的结果或错误信息,根据这些反馈判断当前任务的执行情况。在反思阶段,智能体评估结果的正确性和任务的完成度,如果需要,智能体会调整后续计划或补充信息,更新其状态,并进入下一次迭代,直至最终目标完成。值得注意的是,工作流中的“行动”环节的具体实现形式取决于智能体的交互载体,即它的“身体”。该“身体”可以是一个纯粹的软件实体,也可以是一个具身的物理机器人,配备传感器和执行器以与物理世界直接交互。智能体的核心愿景正是实现从“知”到“行”的根本性跨越,自主完成端到端的复杂任务。7.2大模型智能体核心组件7.2.1记忆组件人类的记忆系统是一种复杂且高效的信息处理系统,它能够存储新知识,并在需要时回顾和使用已存储的信息。相比之下,大语言模型本身并不具备真正的记忆能力。在智能体架构中,记忆组件扮演了核心存储单元这一角色,用于记录智能体与环境的交互历史,并支持随时检索。记忆组件分为短期记忆和长期记忆两种类型。短期记忆又称工作记忆,主要用于暂时存储智能体处理当前任务时所需的关键信息。其最直接的实现方式是借助大语言模型的上下文窗口,即模型单次能够处理的最大词元数量。只要对话内容未超出窗口的承载上限,这种方式就能有效模拟记忆功能。但需要明确的是,这并非真正意义上的记忆,因为模型并没有主动留存对话信息,只是通过输入提示的形式将过往的交互内容告知模型。长期记忆可以看作智能体的知识库,用于存储其在过往交互和学习过程中积累的各类关键信息。这些信息既包括领域概念、规则等事实性知识,又包括任务执行经验和用户个性化偏好等。与短期记忆相比,长期记忆的容量仅受外部存储介质约束,并能长期、稳定保存,不会随单个任务结束而清空。其主流实现方式是将信息转换为高维向量后,存储在外部向量数据库中,通过相似性检索快速定位与当前任务相关的记忆信息。长期记忆并非一个静态的知识库,而是一个持续演进的知识体系。为了确保信息的准确与高效,智能体会主动对其长期记忆进行管理,如更新过时内容、整合新知识、清理冗余信息。基于这种动态管理,长期记忆主要发挥两大核心作用:一是经验迁移,即智能体能够将过往解决同类问题的成功模式直接应用于新的相似场景;二是深度决策,即通过综合不同任务和时间的广泛知识,进行更复杂的推理。7.2.2工具调用组件工具调用是指大模型智能体在执行任务的过程中,主动调用外部工具以获取信息、执行操作或扩展自身能力的行为。常见的外部工具包括:信息获取类(网络搜索、数据库查询)、计算处理类(计算器、代码解释器)、通信交互类(发短信、发邮件、调用API)、系统操作类(读写文件、调用本地程序)、物理控制类(控制机械臂、导航机器人)。函数调用是工具调用的一种标准化实现方式,其核心目标是让模型在无法仅凭内部知识回答问题时,能够主动请求并利用外部能力。函数调用的工作流程如下:开发者预先向模型提供一组可调用的函数列表,这些函数定义会在对话开始前或运行时注入模型上下文。当用户发起请求时,大模型会分析其意图,判断是否需要调用工具以及调用哪个工具,然后生成一个包含函数名和请求参数的JSON文本。应用程序拿到这个JSON文本后,就可以解析并调用相应的工具。7.2.3任务规划组件大语言模型通过工具调用拓展能力,但选择何种工具、何时调用,需由任务规划组件驱动,即根据任务目标动态生成可执行的工具调用策略。要在大模型智能体中实现规划功能,首先需依赖其底层的推理能力。所谓推理能力,是指模型在给出最终答案前能够生成一系列中间思考步骤,从而支持对复杂任务的分解与决策。当前,大模型的推理能力主要通过两种方式实现:一是对模型进行专门的微调;二是采用提示工程,尤其是小样本提示,即在输入中提供包含完整推理链的示例,引导模型模仿类似的思维过程。然而,当前的技术方案存在两种割裂的路径。一种是以提示工程为代表的“纯思考”型方法,虽能进行复杂推理,但由于不与外部环境交互,容易产生幻觉;另一种以工具调用为代表的“纯行动”型方法,虽能执行具体操作,却因缺乏前瞻性规划和事后反思,行动显得盲目且容错率低。ReAct框架将两种路径结合,即融合思考与行动。ReAct框架通过思考、行动和观察的协同循环,使得智能体能够在与环境的交互中动态修正策略,提升任务完成的准确性与鲁棒性。具体来说,ReAct框架通过精心设计的提示引导大模型执行思考、行动和观察等,其中思考是对当前的情景进行推理;行动可以调用特定的功能操作;而观察则记录行动执行后产生的结果。智能体在执行时会不断重复这一循环,将每次观察到的结果追加到上下文中,持续更新对任务的理解。当模型在某次推理中判断已获得足够信息时,便会直接输出最终答案,从而自然终止流程。反思机制是指智能体在任务执行过程中或完成后,对自身行为、决策过程及结果进行回顾、评估与分析的能力。它包含执行者、评估者、自我反思、短期记忆、长期记忆和环境等核心模块。执行者模块基于大语言模型构建,自动生成完成任务所需的文本回复或具体行动;评估者模块对执行结果进行评判,输出结构化的内部反馈;自我反思模块将评估结果转换为自然语言形式的反思文本,形成可复用的知识总结;短期记忆临时存储任务目标、执行动作及环境反馈;长期记忆持久保存自我反思生成的总结性内容。反思具有三重作用:实现自我监控、提供内部反馈、支持持续学习。7.3多智能体多智能体是指由多个智能体组成的协作系统,其核心思想是分而治之,即将大问题分解为多个子任务,由不同智能体分别处理,再通过协作整合结果。多智能体的四大核心特点:分布式是其基础架构特征,各个智能体可以独立部署在不同的计算节点或物理位置上,无须集中控制即可协同工作;异构性指参与协作的智能体可以采用不同的算法模型、知识库结构,甚至拥有各自的目标函数;协作与竞争并存,智能体既通过信息共享共同达成整体目标,也可能在资源有限时出现竞争行为;自组织性指系统能够在运行过程中根据环境变化或任务需求,自主调整内部结构、通信机制或决策策略。多智能体之间的协作模式:集中式协作由一个主智能体负责任务分解、任务分配、进度监控和结果整合。这种模式逻辑清晰、协调效率高,特别适用于任务结构明确、流程固定的场景,但一旦主智能体失效可能导致整个系统瘫痪。管理者架构是集中式协作的典型实现方式,由管理者智能体和工作者智能体构成。管理者智能体负责理解用户的高层意图、将复杂目标拆解为可执行的子任务、合理分配任务给合适的工作者智能体;各个工作者智能体作为执行单元,专注于完成特定类型的子任务。分布式协作强调去中心化和平等协商,各智能体在没有集中指挥的情况下,通过消息传递机制自主决策并相互协调。这种模式具有良好的鲁棒性和可扩展性,广泛应用于对灵活性和容错性要求较高的场景,如无人机编队飞行、智能交通调度等。集群架构是分布式协作的典型实现方式,所有智能体地位平等,不存在集中控制节点;每个智能体仅依据局部环境信息和预设的简单规则自主决策并采取行动。7.4大模型智能体主要协议7.4.1模型上下文协议当前,大模型与外部工具的集成已成为主流趋势,但各大模型厂商的工具调用接口规范不一,迫使开发者为每个工具和模型单独编写适配层。为从根本上解决互操作性问题,Anthropic公司牵头推出了模型上下文协议(MCP),旨在为大模型与外部服务之间的交互建立一个统一、安全的标准通信层,被形象地比喻为大模型智能体的USB接口。MCP的基础架构:MCP采用客户端-服务器架构。智能体应用接收用户输入的指令,并交由大模型进行理解与规划。当大模型判断需要调用外部能力时,智能体应用会激活其内置的MCP客户端。MCP客户端扮演“协议中介”和“语义翻译官”的双重角色,它将大模型的意图转换为标准化的MCP请求,与MCP服务器建立安全连接,发送调用指令,并将服务器返回的结果解析后传回给大模型。MCP的工作过程包括协议初始化、能力发现、功能调用和会话终止四个阶段。协议初始化阶段,MCP客户端向MCP服务器发送初始化请求,服务器返回响应;能力发现阶段,MCP客户端通过标准方法查询服务器能力(工具列表、资源列表、提示词模板列表);功能调用阶段,MCP客户端根据需求动态调用工具、资源或提示词模板;会话终止阶段,交互完成后关闭连接。MCP的核心能力:资源是指由MCP服务器统一提供的各类数据内容,其核心特征是只读、可控、服务于事实推理。大模型只能获取资源中的数据内容,无法主动修改或删除,从根源上避免了AI对数据本身的误操作。每个MCP资源均会被赋予唯一标识符,为大模型快速定位、精准调用目标资源提供标准化依据。工具是MCP服务器暴露的能力接口集合,每个接口对应一个可执行操作或任务,用于实现外部API访问、系统交互等动态任务。以用户询问天气为例,工作流程包括:建立连接与能力发现、用户输入意图、智能体将问题连同工具列表送入大模型上下文、MCP客户端发起工具调用请求、MCP服务器执行工具并返回结果、结果整合与自然语言生成。提示模板用于为大模型提供结构化、可复用的推理引导,本质上是一段预先设计好的指令框架,包含任务目标、输出格式等固定部分,以及一个或多个占位符用于在运行时动态注入上下文数据。通过将提示模板集中管理,团队成员在不同时间执行同类任务时能够确保输出在风格、结构和内容重点上高度一致;企业可以对模板进行统一审核、迭代和更新,从源头上约束大模型的输出方向。7.4.2智能体对智能体协议为解决不同大模型智能体之间的高效、可靠通信问题,谷歌公司提出了智能体对智能体协议(A2A),旨在为大模型智能体之间的直接交互建立标准化通信框架,被形象地称为“智能体之间的通用语言”。A2A协议定义了用户、A2A客户端、A2A服务器和远程智能体等核心角色。用户是终端使用者;A2A客户端代表用户发起任务请求;A2A服务器作为协议的协调中枢,负责任务的接收、合法性验证、状态管理、消息路由与智能体调度;远程智能体是独立部署、符合A2A协议规范的服务实体,实际执行计算与业务逻辑。服务描述与发现的核心是智能体名片,这是一份由远程智能体发布的JSON格式标准化文档,用以清晰描述其技能清单与认证机制等核心元数据,包括身份信息、服务端点、A2A能力、身份验证和技能。A2A客户端可以通过基于URI的发现、注册目录查询和直接配置等策略来获取远程智能体名片。任务定义与协作中,任务是一个具有完整生命周期的、可追踪的、支持异步协作的分布式工作单元,包含任务ID、上下文ID、任务状态、结果、消息历史等关键字段。任务的完整生命周期包括:任务创建与提交(A2A客户端向A2A服务器发送任务创建请求,服务器生成任务ID)、任务处理与执行(服务器选择合适的远程智能体分发任务,智能体执行核心业务逻辑)、任务完成与结果交付(远程智能体发送完成消息,服务器更新状态)、结果获取(客户端获取任务执行结果)。A2A协议的工作流程包括远程智能体发现、身份认证、协作请求发起、实时状态流式通信、连接终止与资源清理等阶段,涉及A2A客户端、A2A服务器及认证服务器三方的协同。(1)远程智能体发现。A2A客户端向目标远程智能体的A2A服务器请求其能力描述,A2A服务器返回包含功能接口、安全机制等元数据的标准化文档。(2)身份认证。A2A客户端解析能力描述中的安全策略,向认证服务器发起身份验证请求;认证服务器验证通过后,颁发访问令牌。(3)协作请求发起。A2A客户端携带令牌向A2A服务器发送协作请求;A2A服务器验证令牌有效性,解析任务内容,创建异步任务实例,并立即返回任务ID等初步响应。(4)实时状态流式通信。A2A客户端通过任务ID订阅执行进度;A2A服务器以事件流形式实时推送任务状态更新,实现低延迟、高透明的协同交互。(5)连接终止与资源清理。任务以A2A服务器推送最终状态为终结。此后连接关闭,A2A客户端释放资源;同时,A2A服务器启动一个可配置的保留期,在此期间暂存数据以备重获取,期满后自动回收所有资源。7.5主流开发框架随着智能体技术的发展,当前主流方案可分为基础大模型应用、单智能体、工作流和多智能体系统等。为支撑这些范式的落地,业界涌现出LangChain、LangGraph、AutoGen和CrewAI等开发框架。LangChain是一个用于构建由大模型驱动的应用程序开发框架,其名称融合了Language与Chains,强调通过串联多个步骤或组件来实现复杂功能。该框架聚焦两大核心目标:统一不同大模型的接口,解决各提供商在API、参数和消息格式上的差异问题;简化复杂业务流程的编排,使语言模型不仅能生成文本,还能动态调用外部工具。LangChainv1的最大变革是采用模块化设计,将功能拆分为多个独立发布的包:langchain-core定义所有组件的标准接口;langchain-community集成社区维护的第三方组件;langchain-[partner]提供针对特定厂商的官方集成;langchain-classic包含旧版组件用于向后兼容;langchain作为面向开发者的主入口包。开发者可通过LangChain的create_agent()函数,以声明式方式组合语言模型、工具集与中间件等核心组件,快速构建定制化智能体。LangChain支持广泛的主流大模型,涵盖OpenAI的GPT系列、Anthropic的Claude系列、谷歌的Gemini系列等商业大模型,以及Meta的Llama系列、阿里巴巴的Qwen系列、深度求索的DeepSeek系列等开源大模型。LangChain支持中间件开发模式,主要用于在智能体或模型的执行流程中插入自定义逻辑。用户提交任务请求后,依次经过智能体执行前处理、模型调用前处理、模型调用封装、模型调用后处理等阶段;若模型输出中包含工具调用指令,则进入工具调用封装阶段执行对应工具;工具执行完毕后结果被注入上下文再次触发模型调用;最终经智能体执行后处理输出最终结果。实训任务7.6电商大模型智能体构建与场景应用实验环境:操作系统:Ubuntu22.04硬件配置:8核CPU、6GB内存、60GB磁盘、1个6GB+显存GPU显卡默认账户:root/root@openlab、openlab/user@openlab实训内容包含三个核心任务:部署大模型智能体容器环境编写Python智能体服务程序,利用任务分类、信息检索和模型调用等技术构建电商处理引擎编写Python可视化界面程序,利用交互式组件等技术构建电商智能体演示系统实训步骤共分为两个环节:第一环节:实验部署创建大模型智能体容器(Ollama容器通过端口11434提供服务,Python容器通过端口8501提供服务)查看电商大模型智能体可视化系统代码文件,了解三大功能模块:智能交互模块(可视化智能体5步推理过程)、历史管理模块(追踪记录所有用户对话与任务分类)、数据洞察模块(实时统计分析任务分布与交互模式)查看电商智能助手系统代码文件,了解三大核心能力:基于知识库的智能客服功能、基于用户浏览历史的个性化推荐功能、自动生成商品促销文案的营销文案功能第二环节:大模型智能体构建前端核心代码解析:智能体调用与交互管理:响应用户提交动作并调用后端智能体处理用户输入,管理对话状态和历史记录智能体执行步骤可视化:将智能体内部复杂的处理过程以可交互的视觉形式呈现,通过可折叠面板逐步展示完整的推理链后端核心代码解析:智能体主引擎:实现智能体5步处理的标准流水线(感知输入→任务分类→信息检索与分析→模型生成→输出处理)任务分类核心:基于关键词匹配算法实现输入分类,通过计算文本中预定义关键词的出现频率确定最佳任务类别模型调用:与远程大模型服务通信,根据不同任务类型选择对应的提示词模板,调用模型生成回答内容配置Ollama容器地址,启动Streamlit网页应用在操作界面中对智能体进行交互式提问,观察感知用户输入→任务分类→信息检索与分析→模型生成→输出处理的完整执行流程,以及任务统计与分析结果(任务类型分布柱状图、交互时间线图表、详细统计信息面板)模块小结本模块聚焦大模型智能体的知识体系与实践应用,系统讲解了大模型智能体的核心内容。本模块首先对大模型智能体进行了概述,随后详细说明了记忆、工具调用、任务规划等核心组件的功能,接着依次介绍了多智能体相关内容、主流开发框架及实际应用案例。实验部分则围绕电商大模型智能体的构建与场景应用,帮助读者掌握职场所需的实操技能。通过对本模块的学习,读者可全面掌握大模型智能体的核心逻辑、组件应用及实践方法,为后续的智能体开发与实际场景落地奠定扎实基础。模块8教学安排的说明章节题目:模块8大模型问答系统开发实践 情景引入 8.1基础知识准备 8.1.1大模型问答系统 8.1.2检索增强生成 8.2开源框架与应用 8.2.1开源框架概述 8.2.2AnythingLLM 8.2.3大模型问答系统整体架构 8.3大模型问答系统开发与部署 8.3.1环境部署 8.3.2构建本地知识库 8.4问答系统开发 8.4.1API介绍 8.4.2问答系统开发 模块小结 模块练习学时分配:总6学时第1~2学时:情景引入;基础知识准备第3~4学时:开源框架与应用、环境部署第5~6学时:本地知识库构建与问答系统开发;小结与课程总结本章教学目的与要求:1、教学目的本模块旨在帮助学生系统掌握大模型问答系统的开发方法,理解检索增强生成技术的核心原理与应用价值。通过本模块的学习,学生应了解大模型问答系统的基本原理、检索增强生成的工作流程及主流开源框架;掌握AnythingLLM的部署配置、本地知识库的构建方法及API调用技术。通过问答系统开发实训,学生应具备完成环境部署、知识库构建、API集成及问答服务开发的全流程能力,能够独立搭建基于私有知识库的智能问答系统。2、教学要求要求学生理解检索增强生成“索引—检索—生成”的核心工作流程,掌握知识库构建中的文档解析、文本分块、向量化存储等关键技术。实训环节要求学生能够完成Ollama与AnythingLLM的部署对接,实现DeepSeek模型的本地化调用,通过上传文档构建本地知识库并验证问答效果的改善,同时掌握工作区管理、文档上传及智能问答接口的调用方法,具备大模型问答系统开发的完整实践能力。课堂教学方案课题名称、授课时数:模块8大模型问答系统开发实践,6学时授课类型(理论课、实验课、技法课、习题课等):理论课、实验课教学方法与手段(讲授、讨论、指导、多媒体等):多媒体教学目的要求:了解大模型问答系统的基本原理。掌握检索增强生成的工作过程。掌握大模型的部署与使用方法。掌握开发环境的配置与部署流程。掌握API调用方法教学重点、难点:一、教学重点检索增强生成(RAG):重点讲解知识库构建与知识问答两个阶段的完整流程,以及索引、检索、生成的协同机制。AnythingLLM框架:重点讲解工作区机制、三层架构(表现层、应用服务层、平台支撑层)及知识注入与智能问答两大流程。系统整体架构:重点讲解AnythingLLM、Ollama与DeepSeek三者如何协同构建本地化知识问答系统。API调用与问答系统开发:重点讲解工作区管理、文档上传、智能问答三类API的使用方法及Python脚本实现。二、教学难点RAG中向量化与检索的原理:学生难以理解文档分块、向量化存储及相似度检索的具体实现,需结合嵌入模型与向量数据库的工作机制加以说明。知识注入与智能问答的闭环流程:学生不易把握文档从上传到嵌入再到检索的完整数据流,需通过架构图逐步演示各环节的协作关系。API鉴权与调用细节:学生容易忽略BearerToken的配置及请求消息体的格式要求,需通过完整的代码示例强调关键参数。本地知识库构建后的效果验证:学生难以定量评估构建知识库前后问答效果的改善,需通过对比实验演示检索增强对回答准确性的提升。教学内容及组织安排:模块8大模型问答系统开发实践情景引入(教学导入)本模块的教学导入采用企业知识服务场景的案例。在企业知识服务场景中,快速、准确地响应员工和客户的查询是提升运营效率的关键。当用户提出“请结合公司最新的差旅政策、项目预算和历史报销记录,计算某团队的差旅费用是否超标”这类复杂问题时,系统不仅需要理解自然语言中的多重约束条件,还需关联分散在多个数据库和文档中的结构化与非结构化信息,生成有据可依的精准回答。传统检索式问答系统依赖关键词匹配,难以理解语义关联,常给出碎片化或不相关的结果;而直接调用通用大模型虽能生成流畅回答,却因缺乏领域知识和输出不稳定等问题,难以满足企业级应用的准确性与可靠性要求。为此,某企业智能平台研发团队着手构建一个面向企业知识库的定制化大模型问答系统。他们首先对内部文档进行清洗与向量化处理,构建了基于检索增强生成的知识检索模块,确保模型调用权威数据源。优化后的系统能够生成准确、可解释的响应。教师可在此引导学生思考:为什么通用大模型不能直接用于企业知识问答?检索增强生成技术是如何解决大模型知识局限和幻觉问题的?8.1基础知识准备8.1.1大模型问答系统大模型问答系统是基于大语言模型构建的智能问答系统,能够精准理解并处理用户提出的问题,进而生成准确、连贯且贴合上下文的自然语言回答。其核心优势体现在四个方面:强大的语言理解能力(不仅能匹配关键词,还能深度解读问题的语义、上下文逻辑、用户真实意图乃至情感倾向);出色的内容生成能力(能够以类人化的方式组织语言,输出流畅、完整的句子或段落);广泛的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论