机器人感知与智能课件第十二章大模型技术及其应用

上传人：h*** IP属地：山东上传时间：2026-06-02 格式：PPTX 页数：25 大小：4.77MB 积分：15 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器人感知与智能第十二章大模型技术及其应用概述

OUTLINE大模型技术及其应用具备卓越性能的大模型正成为人工智能领域的核心。将大模型的强推理能力与机器人的物理执行深度融合，打破了纯软件算法与实体机械自动化的壁垒。这种协同赋予了机器人理解自然语言、感知复杂环境、自主规划复杂任务并执行最优动作的高阶智能，不仅极大满足了机器人融入人类社会的实际需求，更催生出高效率、广领域的全新应用模式。本章将深入介绍大模型的技术原理，介绍大模型的分类，以及大模型应用于机器人的优势与挑战。最后，本章还会通过一个实验来展示大模型在人机交互中的应用。01大模型原理目录

CATALOGUE02大模型技术种类03应用举例：大模型操作任务04实验01大模型原理时序模型语言与机器人的控制轨迹本质上均为时序信号。由于传统全连接或卷积网络无法有效提取其顺序特征与内在逻辑，因此必须采用专用的网络结构来处理这类数据。处理此类任务的Seq2Seq模型由编码器（映射入隐空间）和解码器（还原为输出）组成。作为早期代表，RNN及其变体（LSTM、GRU）通过传递隐藏状态来保留历史信息，但它们在处理长序列时极易陷入梯度消失、爆炸或长期遗忘的困境，这一局限最终被Transformer打破。Transformer的核心在于利用自注意力（Self-attention）机制来建模序列依赖。其编码器依靠该机制直接建立长序列内各变量间的全局联系以捕捉特征，再由解码器对隐变量进行解码并生成最终输出。下面将详述两者的工作原理。Encoder结构Transformer的编码器由多个相同的层堆叠而成，每个层包含三个部分：多头自注意力机制（Multi-HeadSelfAttention）、前馈神经网络（FeedFowardLayers）和归一化层（LayerNorm）。如图所示，本节将按照模块介绍Encoder各个组成部分的功能。（1）嵌入层：当时序输入进入Encoder时，会在进入Multi-HeadAttention之前被嵌入层编码成Embedding，将时间序列上每一个输入的点转换为一个固定维度的向量表示。这个嵌入层可以是一个预训练的词向量模型（如Word2Vec或GloVe），也可以是图像的latentspace，也可以是机器人的轨迹的latentspace等。嵌入层的目的是将离散的词转换为连续的向量表示，以便于模型进行计算。Transformer结构图Encoder结构

自注意力机制Encoder结构

Encoder结构

批归一化与层归一化的区别Encoder结构

Decoder结构

Decoder结构（2）掩膜交叉注意力机制接下来，Decoder会将Encoder输出的隐变量与自身的输出信息通过交叉注意力（Cross-attention）计算相关性。网络中的每个子层均引入了残差连接（以促进信息传递）和层归一化（以提升模型的稳定与泛化能力）。在Decoder的最后一层，信息会经过线性变换与Softmax函数转化为目标序列的概率分布，进而生成最终结果（如大语言模型根据该分布查询词汇表来生成文本）。在自注意力子层中，Decoder通过计算目标序列各位置间的注意力权重，获取带有上下文信息的表示（如图所示）。这使得Decoder在生成序列时，能够充分捕捉并融合目标序列内部的长距离依赖关系。自注意力机制与掩膜注意力机制的对比Decoder结构（3）前馈神经网络在前馈神经网络子层中，Decoder会对每个目标位置的上下文表示进行非线性变换。这个子层通常由两个全连接层和一个激活函数组成，其中第一个全连接层将上下文表示映射到一个更高维度的中间表示，然后通过激活函数进行非线性变换，最后通过第二个全连接层将中间表示映射回原始维度。在每个子层中，都会应用残差连接和层归一化。残差连接将子层的输入与子层的输出相加，以便信息可以更容易地传递。层归一化则对子层的输出进行归一化处理，以提高模型的稳定性和泛化能力。在Decoder的最后一层，会将上述子层的输出经过一个线性变换和Softmax函数，生成最终的目标序列的概率分布。然后，可以根据这个概率分布来生成目标序列。总结起来，Transformer的Decoder通过多个层的自注意力子层和前馈神经网络子层，来生成目标序列。自注意力子层用于捕捉目标序列内部的依赖关系，前馈神经网络子层用于进行非线性变换。在每个子层中，都会应用残差连接和层归一化，以提高模型的稳定性和泛化能力。最终，通过线性变换和Softmax函数，生成最终的目标序列的概率分布。为了解决这些问题，大模型通常需要使用更复杂的优化方法，如自适应学习调整，半监督学习等，以避免过拟合。此外，大模型还需要使用更大的数据集进行训练，以保证模型的泛化能力。数据集的大小和多样性是大模型成功的关键因素。Decoder结构贪心搜索与束搜索的区别（4）束搜索解码输出的概率分布并不是最终的输出序列，最后的输出序列是在输出概率分布上采样得到的。采样的方式分为两种：贪婪搜索和束搜索。贪婪搜索，即在分布中采样概率最大的。这种策略简单快捷，能满足大部分应用场景。然而，在一些复杂场景下，贪婪搜索往往只能找到局部最优解，而无法探索到更好的解。例如，自然语言生成任务里，每一个位置都选取概率最大的词，生成的句子却不一定是通顺的句子。有时候，在当前位置选取次优解，在后续步骤中根据条件概率计算出的解在全局上是更好的，因此束搜索被利用于最终的解码。束搜索一次性会考虑前k名概率最大的输出，并对每个节点建模分数，并从分支上选择一条分数最高的路径作为最终的解。束搜索与贪婪搜索的区别如图所示。Decoder结构

02大模型技术种类Encoder-only结构Encoder-only结构的模型代表为BERT系列。BERT模型在早期的自然语言处理任务中表现非常出色，在多项自然语言处理任务如机器翻译、情感分类等任务中获得SOTA(StateoftheArt)性能。此外，BERT模型开创了大模型的“预训练-微调”的训练范式，现在绝大多数大模型都是沿用的这种训练方式。结构上，BERT是由Transformer的Encoder结构组成，训练方式上，BERT使用Masked-Language-Model（MLM）和Next-Sentence-Prediction（NSP)方法进行训练。MLM通过随即掩盖序列中一些向量，并通过上下文预测被掩盖的向量，用这种方式增强模型的双向上下文学习能力。同时，语言模型里的BERT模型采用了NSP的方法，对下一个句子进行预测，进一步增强了模型的编码能力。BERT模型是一种自监督（Autoencoding）模型。BERT的作用是将输入序列的分布𝑋映射成隐空间里的分布𝑍，即Φ:𝑋→𝑍。BERT本身的作用不在于生成，而是在于抵抗输入的噪声干扰，将噪声映射成较低维度的分布表示并且能够稳定还原。因此实际使用中BERT一般会搭配下游模型一起使用，其本身更多负责理解的任务。Decoder-only结构Decoder-only结构的代表是OpenAI提出的GPT模型。虽然它与BERT均基于Transformer架构，但在内部结构、训练机制及核心应用方向上存在显著差异。结构上，GPT由多层剔除了交叉注意力的Decoder堆叠而成。训练上，不同于BERT利用掩码预测来学习双向上下文，GPT采用纯单向的语言模型进行预训练（仅从左到右预测下一个词），随后再辅以少量数据微调。尽管单向预测长序列的难度更高，但得益于其十亿乃至百亿级的庞大参数量，大力出奇迹的GPT展现出了对复杂分布（如自然语言）极其强大的建模能力。GPT本质上是一种典型的自回归模型，即严格根据已有的前文逐个预测下一个输出的条件概率分布（如图所示）。这种机制赋予了它极强的序列生成能力，使其成为语言生成、轨迹生成等任务的绝对主力。GPT结构及原理Encoder-Decoder结构

03应用举例：大模型操作任务应用举例：机械臂抓取VoxPoser

Perceiver-Actor

CLIPort

该

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器人感知与智能课件第十二章大模型技术及其应用

文档简介

温馨提示

最新文档

评论

机器人感知与智能 课件 第十二章 大模型技术及其应用

文档简介

温馨提示

最新文档

评论

相关文档

机器人感知与智能课件第十二章大模型技术及其应用