大语言模型：GPT系列模型教学课件

上传人：b*** IP属地：浙江上传时间：2025-11-13 格式：PPT 页数：40 大小：1.13MB 积分：12 举报 版权申诉

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第11章GPT系列模型本章主要内容：1.GPT模型概述2.GPT-1模型（2018）3.

GPT-2模型（20194.GPT-3模型（2020）5.GPT-3.5模型（2023）6.ChatGPT模型7.GPT-4模型

生成式预训练Transformer(GenerativePre-trainedTransformer，GPT)系列模型是由OpenAI开发的LLM模型,包括GPT-1、GPT-2、GPT-3和ChatGPT等。GPT系列模型的出现，极大地推动了NLP领域的发展，为AI应用提供了更强的语言处理能力。11.1GPT系列模型概述GPT模型的核心目标是根据任务需求，自回归文本生成，即：输入：一段文本前缀，例如“深度学习是”。输出：逐词预测下一个token（如“一种”），循环迭代生成完整文本。关键约束：生成过程必须严格依赖历史上下文，且禁止访问未来信息。由于Transformer每个解码器层的自注意力模块会屏蔽当前位置之后的token（通过mask=True实现），确保模型只能关注已生成的词。GPT直接堆叠解码器，省略编码器-解码器的交叉注意力，因输入与输出为同一语言，无需跨语言语义对齐。GPT选择解码器堆叠是因为生成任务需要自回归、单向处理，而解码器结构正好满足这一点，同时通过堆叠多个解码器层可以提升模型的表达能力。·特性：解码器堆叠（GPT）；·注意力机制：掩码自注意力（单向）；·输入输出关系：输入=输出（自回归生成）；·典型任务：文本生成（对话、代码、故事）；·训练目标：下一个token预测。通过交叉熵损失完成。可通过的改进，比如稀疏注意力、多模态扩展，但核心结构保持不变。GPT的解码器堆叠可形式化为：

.逐层解码：第t个token的生成依赖前t−1层的隐藏状态。长程依赖建模：通过堆叠N层解码器（如GPT-3的96层），模型可捕捉长距离上下文关系。随着模型规模增长，从GPT-1（12层）到GPT-4（推测128层+），解码器堆叠的扩展性被反复验证。通过GPT-4V在解码器中引入视觉交叉注意力模块，实现图文混合输入，并保持了解码器核心结构，实现了向多模态扩展。11.1.1GPT系列模型特点1．无监督预训练：GPT系列模型采用了无监督的预训练方法，即使用了大量未标注的文本数据来训练模型，捕捉语言的模式和通用知识。

2．Transformer架构：GPT系列模型基于Transformer解码器架构，特别是采用自注意力机制，可以使得模型能够有效地处理长距离依赖问题。

3．微调：GPT系列模型在预训练完成后，可以在各种特定任务上进行有监督的微调，如文本分类、情感分析、自然语言推理等特定任务。微调过程中，模型的参数根据特定任务进行调整，以提升性能。

4．参数规模逐渐增大：从GPT-1到GPT-2，再到GPT-3，模型的参数规模逐渐增大，使得模型能够处理更复杂的语言模式和知识。GPT-1是拥有大约1.17亿个参数。GPT-2拥有15亿个参数，而最小的版本也有约1.25亿个参数。GPT-3是参数规模达到了惊人的1750亿个参数，这使得它在语言理解和生成方面具有非常高的能力。

5．零样本生成能力：GPT系列模型在文本生成方面表现出色，能够生成连贯、有逻辑的文本。尤其具有零样本生成能力，即能够在没有特定任务训练的情况下，仅通过理解自然语言指令来执行任务。也就是说，零样本生成能力指的是模型在没有直接针对特定任务进行训练的情况下，仍能够对未见过的任务或类别进行有效推理和生成的能力。在自然语言处理领域，一个具有零样本生成能力的模型能够理解和生成与训练数据中完全不同的主题或类型的文本。11.1.2GPT系列模型结构GPT是一种基于Transformer架构的深度学习模型,GPT的结构与普通的Transformer模型类似,但是对Transformer进行了一些改进,原本的解码器包含了两个多头注意力结构，GPT只保留了掩码多头注意力（MaskMulti-HeadAttention），去掉了第2个多头注意力。移除了传统的语言模型中的编码器部分,只保留了解码器部分,并将解码器堆叠成多层,从而实现了更加高效的文本生成。1.输入层GPT的输入是一个单词或者词语的序列,每个单词或词语都会被映射为一个向量,由这些向量组成了一个矩阵,作为模型的输入。2.多层注意力机制GPT模型是由多个Transformer的解码器（Decoder）层堆叠而成的。虽然Transformer模型最初被设计为包含编码器和解码器两部分，但GPT模型只使用了解码器部分。在Transformer模型中，解码器层包含了两个主要子组件：·自注意力机制：允许模型在生成序列时考虑到序列中前面的所有单词。·编码器-解码器注意力：这部分在GPT模型中并未使用，因为它需要编码器的输出作为输入，而GPT只使用了解码器。GPT模型移除了编码器-解码器注意力机制，只保留了自注意力机制。.·为了适应语言模型的需求，GPT在自注意力机制中采用了“因果掩码”（CausalMasking），确保在生成序列时，模型只能看到当前位置之前的单词，不能看到未来的单词。这是通过在自注意力计算中屏蔽当前单词之后的所有位置来实现的。·堆叠解码器层：GPT模型通过堆叠多个解码器层来构建，每一层都可以捕获不同层次的上下文信息。随着层数的增加，模型能够学习到更复杂的语言表示和长距离依赖关系。3.全连接层在多层注意力机制之后,连接一个或者多个全连接层,这些层可以对模型进一步抽象和拟合,提高模型的性能。4.Softmax层GPT的最后一层是一个Softmax层,它对全连接层输出的向量进行归一化,得到一个概率分布,用于预测下一个词语或者句子。5.残差链接与逐层归一化层残差连接和逐层归一化结合使用，它们共同确保了模型能够有效地训练和泛化。11.1.3GPT系列模型的训练过程GPT系列模型的训练过程包括预训练和微调两个阶段。

1.预训练阶段预训练阶段是GPT系列模型训练的第一阶段，在这个阶段，模型使用大量的文本数据进行无监督学习。预训练的目标是让模型学习到语言的通用特征，如语法、语义和上下文信息。预训练是通过语言建模任务来完成，即给定一个文本序列，模型需要预测序列中的下一个词。在预训练过程中，大模型需要处理大量的文本数据，这些数据可来自网页、书籍、文章等多种来源。模型通过不断地预测下一个词，调整内部参数，从而学习到如何生成和理解自然语言。具体来说，在预训练阶段，模型通过学习从一个词预测下一个词的过程中不断积累对上下文的理解。每一步预测时，模型会根据到目前为止生成的所有词汇构建一个上下文向量表示，这个向量融合了之前所有词的信息。Transformer中的自注意力机制允许模型在计算当前位置的输出时考虑序列中任意位置的历史输入，从而确保模型能够理解并利用全局上下文。

在生成过程中，GPT模型依据当前时刻已生成的部分文本（即上下文），预测下一个最可能的词。每一次预测都是在前一次预测的基础上进行更新，形成一种链式反应，因此随着每次迭代，新生成的词都会进一步影响后续预测，确保整体生成的内容与历史上下文保持一致性和连贯性。而在生成新文本时，模型会用同样的方式运作：给定一个起始token，模型基于这个起始信息预测下一个最可能的token，然后将这个预测的token添加到已生成的部分，作为下一轮预测的上下文输入。如此反复迭代，直至生成满足预设条件（比如达到某个终止符号或最大长度限制）的完整文本序列。

.GPT利用常规语言建模方法优化给定文本序列x=x1…xn的最大似然估计L。

L（x）=∑lnP(xi|xi-k…xi-1;θ)

式中，k表示语言模型窗口大小，即基于k个历史词xi-k…xi-1预测当前时刻的词xi，θ表示神经网模型的参数，使用随机梯度下降方法来优化该似然函数。预训练阶段为文本预测，即根据已有的历史词预测当前时刻的词，P(x)为输出，每个词被预测到的概率，计算最大似然函数，据此构造损失函数，即可以对该语言模型进行优化。

2.微调阶段预训练之后，进入微调阶段，在这个阶段，大模型在特定的任务上进行有监督学习的训练。微调的目的是让大模型适应特定的应用场景，如文本分类、情感分析、问题回答等下游任务。在微调阶段，大模型使用特定任务的数据集，这些数据集包含了输入和对应的标签。例如，在文本分类任务中，大模型输入是带标签的文本，通过标签对文本分类。大模型根据这些输入和标签进行调整，优化模型的参数，以提高在特定任务上的性能。因为大模型已经通过预训练学习到了大量的语言知识，只需要在特定的任务上进行调整，使用了较小的学习率。下游任务微调通常是由有标注数据进行训练和优化的。假设下游任务的标注数据为C，其中每个样例的输入为x=x1…xn构成的长度为n的文本序列，与之对应的标签为y。首先将文本序列输入到预训练的GPT中，获取最后一层的最后一个词对应的隐含层输出hn[L],紧接着将该隐含层输出通过一层全连接层变换，来预测最终的标签。.

P（y|x1…xn）=Softmax(h[L]Wy)式中，Wy∈加粗斜体大写Rdxk表示全连接层权重（k表示标签个数）。最后，通过优化以下损失函数对下游任务进行微调。LFT(C)=∑(x,y)（lnP(y|x1…xn)3.损失函数损失函数是下游任务与上游任务损失的线性组合。为了进一步提升微调后模型的通用性以及模型的收敛速度，可以在下游任务微调时加入一定权重的预训练任务损失，即语言模型的训练。这样做是为了降低下游任务微调过程中出现的灾难性遗忘问题。因为在下游任务微调过程中，GPT的训练目标是优化下游任务数据上的效果，更强调了特殊性，而势必对预训练阶段学习到的通用知识部分的覆盖或擦除，丢失了一定的通用性。通过结合下游任务微调损失和预训练任务损失，可以有效地缓解灾难性遗忘问题，在优化下游任务效果的同时保留一定的通用性。在实际应用中，可以通过下式对下游任务进行微调。

L(C)=LFT(C)+λLPT(C)式中，LFT表示微调任务损失；LPT表示预训练任务损失；λ表示权重，通常λ的取值介于[0,1]GPT系列模型使用的两阶段训练过程，使得GPT系列模型能够在多种自然语言处理任务上取得出色的表现。随着模型规模的增大和数据量的增加，GPT系列模型在自然语言处理领域的应用越来越广泛，从文本生成到机器翻译，从情感分析到问答系统，都展现出了强大的能力。

4.GPT系列模型训练步骤归纳上述两阶段训练，GPT系列模型训练完整步骤如下：

（1）数据收集和预处理首先需要收集大量的文本数据,如维基百科、新闻文章、小说等。对这些文本数据需要进行预处理,包括分词、标记化、转换为大模型可以理解的数字表示等。（2）模型设计

GPT使用了一种Transformer架构深度神经网络。这种结构包括多个编码器和解码器模块,每个模块包含多个自注意力机制和前馈神经网络。这些模块可以并行处理输入序列的不同部分,从而提高了模型的计算效率和效果。（3）预训练在预训练阶段,模型通过自监督学习的方式训练,即模型会自己预测序列中的下一个单词或标记。这个过程可以通过最大化似然函数来实现。预训练可以使用大规模的文本数据集,如英文维基百科、CommonCrawl等。（4）微调在预训练之后,模型可以通过微调来适应特定的任务,如文本分类、机器翻译、问答等。微调的过程通常使用有监督学习的方式,即使用标注好的数据集来训练模型。在微调阶段,模型的某些参数会被调整,以适应特定的任务。（5）评估和部署在模型训练完成后,需要对模型进行评估,以确定其效果和性能。评估可以使用交叉验证、留出法等方法。交叉验证通过多次使用不同的数据子集来验证模型，使评估结果更加可靠。留出法是将数据集划分为训练集和测试集两个互斥的部分。在训练集上训练模型后，使用测试集来评估模型的性能，以此来估计模型的泛化误差。如果模型的效果和性能满足要求,可以将模型部署到实际应用中,如聊天机器人、智能客服等。

11.2GPT-1模型（2018）GPT-1模型通过无监督预训练之后，再在特定任务（下游任务）上进行微调，这种技术已成为了自然语言处理领域的主流技术。在GPT-1被提出之前，深度学习方法需要大量人工标注的高质量数据，但是人工标注数据的代价巨大，限制模型在各项任务性能。如何利用容易获取的无标注数据来为模型的训练成为GPT-1中需要解决的问题。另外自然语言处理领域中有许多任务依赖于自然语言在隐含空间中的表征，不同任务对应的表征很可能不同，这就使得根据一种任务数据学习到的模型很难泛化到其它任务上。因此,如何从无标注数据上学习到的表征应用到不同的下游任务成为GPT-1需要解决的另一个问题。针对第一个问题，GPT-1中使用了自左到右生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前i−1个token，预测第i个token进行。基于这样的目标函数，GPT-1就可以利用无标注的自然语言数据进行训练，学习到更深层次的语法信息与语义信息。针对第二个问题，在完成了无监督的预训练之后，GPT-1接着使用了有标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入序列x1,x2,...,xm与标签y的数据集，对模型的参数进行再次训练调整，用到的优化模型是在给定输入序列时预测的标签最接近真实值。11.2.1GPT-1模型的特点1.无监督预训练

GPT-1是第一个使用无监督预训练方法来训练Transformer模型技术。•2.使用了注意力机制。•3.较小的模型规模。相比于后来的GPT模型，GPT-1的参数规模较小。例如，GPT-1的模型有1.17亿个参数，而GPT-2的较小版本都有1.5亿个参数，GPT-2有7.62亿个参数版本。•4.零样本学习：GPT-1展示了零样本生成能力，即能够在没有特定任务训练的情况下，仅通过理解自然语言指令来执行任务。 11.2.2GPT-1结构与训练1.GPT-1结构

GPT-1是一种基于Transformer的自回归语言模型。GPT-1的结构主要基于Transformer解码器结构，其主要结构特点如下。（1）自注意力机制:GPT-1采用了多头自注意力机制来捕捉文本序列中的长距离依赖关系。自注意力机制可以让模型在处理每个词时考虑到序列中其他所有词的信息。（2）位置编码:由于Transformer模型本身不具有处理序列顺序的能力，因此GPT-1引入了位置编码来表示词在序列中的位置信息。（3）多层堆叠:GPT-1由多层解码器结构堆叠而成，每一层包含一个自注意力层和一个前馈神经网络。（4）残差连接和归一化: 在自注意力层和前馈神经网络之后，GPT-1使用了残差连接来增加模型的深度，并通过层归一化来稳定训练过程。（5）前馈神经网络:每个自注意力层后面都接有一个简单的前馈神经网络，用于对自注意力层的输出进行进一步的非线性变换。（6）主要参数:

·层数：GPT-1使用了12层解码器结构。

·多头注意力：每个自注意力层包含12个头。

·隐藏层大小：每个头的隐藏层大小为768。

·前馈网络大小：每个前馈网络的大小为3072。.2.GPT-1训练

GPT-1预训练时使用了大量的文本数据，通过语言建模任务（即给定前面的词预测下一个词）来进行训练。预训练完成后，GPT-1可以用于各种自然语言处理任务，如文本生成、文本分类、机器翻译等。

GPT-1的训练主要步骤如下：（1）数据收集与预处理

·数据收集：GPT-1使用了大量来自互联网的文本数据，包括书籍、文章、网页等，以确保模型能够学习到丰富的语言特征。

·数据清洗：去除噪声数据，如HTML标签、非文本内容等。

·数据预处理：将文本转换为小写，进行分词，并将词汇映射到模型能理解的词汇表。（2）位置编码为了让模型能够理解词在序列中的位置，GPT-1使用了位置编码。位置编码通常使用正弦和余弦函数来生成，与词汇的嵌入向量相加。（3）预训练任务

·语言建模：GPT-1的核心训练任务是语言建模，即给定一个文本序列，预测序列中的下一个词。这是一个自回归的任务，模型在训练时只能看到当前位置之前的词。

·损失函数：通常使用交叉熵损失函数来衡量预测的下一个词与实际词之间的差异。（4）模型架构

.·Transformer解码器：GPT-1基于Transformer的解码器架构，包含多头自注意力机制和前馈神经网络。

·残差连接和层归一化：在每个自注意力层和前馈神经网络层后，使用残差连接和层归一化来提高训练稳定性和性能。（5）训练细节

·优化器：使用Adam优化器进行参数更新，具有自适应学习率的特点。

·学习率调度：通常在训练过程中调整学习率，如使用预热（warm-up）和衰减策略。

·批量大小：选择合适的批量大小以平衡内存使用和训练效率。

·正则化：为了防止过拟合，可能使用权重衰减（L2正则化）等技术。（6）训练过程

·初始化：初始化模型参数，通常使用随机初始化。

·迭代训练：在预训练数据上多次迭代模型，每次迭代更新模型参数。

·监控：在训练过程中监控损失函数的值，以及验证集上的性能，以确保模型正在学习并避免过拟合。（7）评估与微调

·评估：在预训练完成后，使用未见过的新数据来评估模型的性能。

·微调：针对特定任务（如文本分类、问答等），在特定数据集上进一步微调模型。

GPT-1的训练是一个资源密集型的过程，需要大量的计算资源和时间。OpenAI在训练GPT-1模型时使用了当时可用的先进的硬件资源。训练完成后，.GPT-1模型展示了在当时令人印象深刻的语言理解能力，为后续的GPT模型发展奠定了基础。GPT-1模型只使用了Transformer模型的解码器结构，而且只使用了掩码多头自注意力。GPT-1模型使用了12层Transformer模型，每层12个注意力头。GPT-1模型目标是服务于单序列文本的生成式任务，所以舍弃了关于编码器部分及包括解码器的编码器−解码器注意力层（也就是解码器中的）。GPT-1模型包含了多个残差层。每个残差层主要由一个多头自注意力机制和一个前馈神经网络组成，这两部分之间通过残差连接和层归一化相互连接。残差连接允许模型在训练过程中更容易地学习到身份映射，即使输入可以直接传递到输出，这在深层网络中特别有用，因为它可以帮助减轻梯度消失问题。层归一化则有助于稳定训练过程，使每层的输入都具有相似的分布。11.2.3不同下游任务的输入转换GPT-1的不同下游任务的输入转换如下：针对不同的下游任务，需要对输入进行转换，从而能够适应GPT-1模型结构。

1.分类任务：只需要在输入序列前后分别加上开始（Start）和结束（Extract）标记。

2.句子关系任务：除了开始和结束标记，在两个句子中间还需要加上分隔符（Delim）。

3.文本相似性任务：与句子关系判断任务相似，不同的是需要生成两个文本表示。

4.多项选择任务：文本相似任务的扩展，两个文本扩展为多个文本。GPT-1是Transformer架构生成任务应用中的里程碑，虽规模较小，但其预训练思想和技术路线深刻影响了后续模型的发展。后续版本（GPT-2、3、4）通过扩大参数、数据量和训练方法，逐步解决了其局限性，开启了通用人工智能（AGI）探索的新路径。11.3GPT-2模型（2019）GPT-2是OpenAI于2019年发布的一个LLM模型。

11.3.1GPT-2模型特点

1.大规模预训练

2.无监督学习

3.零样本学习

4.内容生成能力

5.多语言支持

6.参数规模

7.性能与成本总结：GPT-1是Transformer架构在生成任务中的里程碑，虽规模较小，但其预训练思想和技术路线深刻影响了后续模型的发展。后续版本（GPT-2、3、4）通过扩大参数、数据量和训练方法，逐步解决了其局限性，开启了通用人工智能（AGI）探索的新路径。11.3.2GPT-2结构

GPT-2的结构是基于Transformer模型解码器部分，它是一种自回归的语言模型，设计用于生成文本。

1.GPT-2结构的主要特点

2.不同规模的GPT-2模型（1）GPT-2Small

（2）GPT-2Medium

（3）GPT-2Large

（4）GPT-2XL GPT-2的结构设计使其在处理自然语言处理任务时表现出色，尤其是在文本生成方面，GPT-2能够生成连贯、有逻辑性的文本段落。GPT-2的成功进一步证明了预训练语言模型在自然语言处理领域的潜力。

3.GPT-2模型与GPT-1模型的结构比较表11-1GPT-2与GPT-1的比较维度GPT-1GPT-2参数量1.17亿1.17亿→15亿数据量5GB（40Mtokens）40GB（40Btokens）微调依赖必须微调任务数据零样本学习（无需微调）生成质量短文本，逻辑简单长文本，逻辑复杂开源策略全部开源仅部分开源（后社区补全）11.3.3零样本方法零样本描述的是一种学习能力，即模型能够处理在训练阶段未曾直接遇到过的类别或任务。例如，一个零样本的机器翻译系统，即使没有在训练时学习过从英语到法语的具体翻译，但通过已有的语言知识和模式，也能够尝试进行翻译。在GPT-2中，没有任何调整的过程。这时在构造输入时就不能用那些在预训练时没有出现过的特殊符号了。但是，自然语言处理的灵活性很强，只要把需要模型做的任务“告诉”模型即可，如果有足够量预训练文本支撑，模型可以能理解用户的要求。对于机器翻译，要用GPT-2模型做Zero-Shot的机器翻译，需要将输入给模型的文本构造成如下格式。Translateenglishtochinese,[englisttext],[chinesetext]。例如，Translateenglishtochinese,[machinelearning],[机器学习]。这种做法又称提示。这里的[Englishtext]是需要翻译的英文句子，而[Chinesetext]是严格按照提供的参考翻译来生成结果。TranslateEnglishtoChinese:“Hello,howareyou?”,“嘿，你好吗？”在这个例子中，当模型接收到这样的输入时，它应该尝试生成一个中文翻译，尽管它不保证会使用提供的参考翻译。Zero-Shot翻译的关键在于模型能够根据给定的指令和上下文推断出如何进行翻译，而不需要直接的翻译示例。11.4GPT-3模型（2020）11.4.1GPT-3模型特点

1.巨大的模型规模

2.广泛的知识覆盖

3.上下文理解能力

4.零样本和少样本学习能力

5.多样化的文本生成能力

6.实时生成能力

7.跨领域应用

8.用户友好

9.注意力机制

10.前馈神经网络

11.残差连接和层归一化11.4.2GPT-3模型结构1.GPT-3模型结构优化在GPT-2模型结构基础上，GPT-3模型做了如下优化：

·GPT-3有96层，每层有96个注意力头。

·GPT-3的单词嵌入大小从GPT-2的1600增加到12888。

·上下文窗口大小从GPT-2的1024增加到GPT-3的2048。

·GPT-3的Trasformer结构采用的是稀疏Transformer(注意力采用密集和稀疏交替形式)，另外，它的规模更大，GPT-3的预训练模型一共有1750亿个参数。

2.引入稀疏注意力稀疏注意力（SparseAttention）是一种注意力机制，它在某些情况下只关注输入序列中的少数几个关键元素，而不是所有的元素。这种机制可以提高模型的效率和计算速度，特别是在处理长序列时使用。在传统的注意力机制中，模型会计算输入序列中每个单词与其他所有单词的关系，并生成一个加权表示。这种机制需要计算大量的注意力权重，导致计算复杂度较高。相比之下，稀疏注意力机制只关注输入序列中的少数几个关键元素。11.4.3GPT-3模型训练1.下游任务

GPT-3模型可以通过少量的样本进行学习，又称为少量的样本学习者。GPT-3模型与人类一样，只需要看一小部分样例就能学会更多的知识。GPT-3的体量庞大，因此在下游任务中进行微调的成本很高。为了解决这个问题，GPT-3使用了上下文学习的方式，可以在不进行梯度更新或微调的情况下，直接在上下文中进行学习，只需提供几个示例（输入和输出对），模型便能生成正确的输出。GPT-3在下游任务的评估与预测（1）GPT-3下游任务的评估与预测的方法

GPT-3在下游任务的评估与预测时，模型提供了三种不同的方法：

·零样本：仅使用当前任务的自然语言描述，不进行任何梯度更新；

·单样本：当前任务的自然语言描述，加上一个简单的输入输出样例，不进行任何梯度更新；

·少样本：当前任务的自然语言描述，加上几个简单的输入输出样例，不进行任何梯度更新；其中少样本也被称为上下文学习，虽然它与微调一样都需要一些有监督标注数据，但是两者的区别是：

.微调利用标注数据对模型参数进行更新，而上下文学习使用标注数据时不做任何的梯度回传，模型参数不更新；上下文学习依赖的数据量（10～100）远远小于微调一般的数据量；最终通过大量下游任务实验验证，少样本效果最佳，单样本效果次之，零样本效果最差。

GPT-3采用的是少样本方法进行推断（上下文学习），即给定少量训练样本，只对其进行前向传播，模型的参数不会因为这些样本的训练而改变。GPT大模型在预训练时，其实是包含了各种任务的数据一同训练，所以有微调，有上下文学习，其目的就在于让模型在运行时，知道目前应用的是哪个任务，对应这个任务进行推理。这三种方法都是基于提示工程，而不是微调。这点很重要，要强调不需要训练，直接通过提示调整模型行为。核心概念对如表11-2所示。表11-2三种方法的核心概念对比方法定义参数更新数据依赖典型场景零样本仅通过任务描述触发模型推理，无样本输入输出否0-shot通用任务探索单样本单个输入输出样本+任务描述，提供简单模式示范否1-shot新任务快速验证少样本3～10个样本+任务描述，显式构建任务模式否3～10-shot复杂任务精准控制.2.训练数据与目标（1）数据规模与多样性（2）纯自回归预训练3.核心能力突破（1）零样本与少样本学习（2）上下文理解增强（3）涌现能力参数规模突破阈值后，模型突然获得推理、数学计算等高级能力。GPT-3与GPT-2比较如表11-3所示。表11-3GPT-3与GPT-2比较维度GPT-2GPT-3参数量15亿1750亿数据量40GB（40亿

tokens）45TB（570GB压缩后）学习能力必须微调零样本/少样本学习生成质量简单任务复杂逻辑与多轮对话开源策略部分开源（后社区复现）仅提供

API（未开源模型）

11.5GPT-3.5GPT-3虽然很强大，但是仍旧有下述局限性：

·数据量和参数量的骤增并没有带来智能的体感。从参数量上看，从GPT21.5B到GPT3175B约116倍参数量的增加，从数据量上看，GPT240G到GPT3570G近15倍训练数据增加，带来的“更few/zero-shot”的能力。

·GPT-3的训练数据是从互联网上爬取的，因此可能存在一些错误或不准确的数据。

·GPT-3在处理某些任务时可能会出现错误或不准确的结果，以及不合理或不合逻辑的结果。 11.5.1GPT-3.5模型特点GPT-3.5是一个自然语言处理模型，它具有许多特点，包括大规模训练：GPT-3.5是基于大规模语料库进行训练的，这使得它具有广泛的语言知识和理解能力。

1.强大的生成能力：GPT-3.5可以生成高质量的自然语言文本，包括文章、新闻报道、故事、诗歌等，同时还可以生成对话和问答。

2.强大的语言理解能力：GPT-3.5具有很强的语言理解能力，能够理解自然语言文本中的含义和逻辑关系，并能够根据上下文进行推理和回答问题。

3.多语言支持：GPT-3.5支持多种自然语言，包括英语、中文、法语、德语等，这使得它可以在多个语言环境中使用。

4.开放的接口：GPT-3.5提供了开放的接口，允许开发人员将其集成到各种应用程序中，从而实现自然语言处理和生成功能。总之，GPT-3.5是一个功能强大的自然语言处理模型，它具有广泛的应用前景，可以用于文本生成、机器翻译、智能客服、智能问答等领域。11.5.2GPT-3.5结构GPT-3.5是在GPT-3之后发展起来的，在结构和训练上有了新进展与创新

1.训练数据量和多样性

2.模型规模和架构

3.指令微调

4.基于人类反馈的强化学习（RLHF）

5.性能和效率

6.实际应用

7．道德和安全性随着对LLM潜在风险的更多了解，GPT-3.5在设计和训练过程中可能更加注重道德和安全性问题，包括减少偏见、误导性内容和有害言论的产生。需要说明的是，这些区别可能因具体实现和版本而异，而且上述差异是基于公开信息和社区理解的总结。11.5.3GPT-3.5训练GPT-3.5模型的训练方法基于其前代模型GPT-3的方法，但也包含一些改进和调整。以下是一些用于训练GPT-3.5的基本方法和策略。1.基于人类反馈强化学习2.多任务学习（1）共享表示（2）任务特定层（3）硬参数共享（4）软参数共享（5）多任务优化（6）灾难性遗忘3.改进数据效率（1）数据增强（2）迁移学习（3）样本选择和重要性加权（4）使用合成数据（5）元学习（Few-shotlearning）（6）数据预处理和清洗（7）特征工程.4.技术创新点（1）提示工程①首次系统验证提示词设计对模型输出的决定性影响（如思维链、少样本）。②开发者可通过简单指令（如“用小学生能理解的话解释量子力学”）触发复杂推理。（2）多模态探索预埋多模态接口（为GPT-4视觉能力铺垫），支持图文联合理解（需插件扩展）。上述方法是一般性的描述，并不代表GPT-3.5实际采用的训练方法的全部细节。（3）GPT-3.5与GPT-3/GPT-4比较GPT-3.5与GPT-3/GPT-4比较如表11-4所示。表11-4GPT-3.5与GPT-3/GPT-4比较5.GPT3.5训练步骤（1）数据收集（2）无监督预训练（3）有监督微调（4）指令微调（5）人类反馈的强化学习维度GPT-3GPT-3.5GPT-4参数量1750亿≈1750亿（优化架构）1.8万亿+（混合专家模型）生成可控性低（易胡编乱造）中（RLHF对齐）高（多阶段验证）上下文长度2048tokens4096tokens128ktokens开源策略不开源不开源（仅

API）不开源典型应用基础文本生成ChatGPT、Copilot多模态应用、复杂推理

11.6ChatGPT

ChatGPT是由OpenAI于2022年11月推出的一个人工智能聊天机器人程序，该程序基于大型语言模型GPT-3.5，使用指令微调（InstructionTuning）和基于人类反馈的强化学习技术（RLHF）训练而成。

11.6.1ChatGPT主要特点

1.自然语言处理能力

2.广泛的知识面

3.指令遵循

4.零样本和少样本学习能力

5.对话能力

6.内容创作

ChatGPT可以帮助创作文章、编写代码、生成诗歌、故事等。尽管ChatGPT有很多优点，但它也有一些局限性：（1）知识更新限制（2）事实准确性（3）潜在的偏见（4）无法访问互联网

ChatGPT的强大的对话能力和易用性，使得ChatGPT在教育、客户服务、内容创作等多个领域都有潜在的应用价值。

11.6.2ChatGPT训练

ChatGPT的训练过程不仅包括预训练和微调，还涉及到了基于人类反馈的强化学习（RLHF）技术。以下是包含RLHF的ChatGPT训练过程的详细说明：（1）数据收集和预处理：与之前相同，收集大量的文本数据，并进行必要的预处理，如分词、标记化等。（2）模型设计：设计GPT模型的结构，包括层数、隐藏单元数、注意力机制等。（3）预训练：使用预处理后的数据对GPT模型进行预训练，训练模型能够根据给定的文本生成文本，学习文本的语法、语义和上下文信息。（4）微调：在预训练完成后，使用特定的数据集对模型进行微调，以适应特定的任务或领域。（5）人类反馈强化学习

·收集人类示范数据：人类评估者提供高质量的回答，这些数据用于训练模型。

·奖励模型训练：使用人类评估数据训练一个奖励模型，该模型学习评估生成文本的质量。

·强化学习微调：使用ProximalPolicyOptimization(PPO)等强化学习技术，根据奖励模型的反馈进一步调整GPT模型的参数，以优化生成文本的质量和相关性。（6）评估：使用一些指标对模型进行评估，以了解模型的性能。（7）应用：将训练好的模型应用到实际的任务中，如聊天机器人、文本生成等。

11.7GPT-4模型GPT-4是由OpenAI在2023年3月14日发布的一种多模态大型模型，它是基于生成式预训练变换模型（GenerativePre-trainedTransformer）的第四代产品。GPT-4的特点是可以接受图像和文本输入，并生成文本输出，这是对之前ChatGPT的多模态升级。GPT-4的核心技术包括多模态涌现能力，这表明它在视觉理解和视觉-文字语义融合方面表现出显著的能力。这种能力使得GPT-4在处理复杂任务时表现出更高的可靠性和创造性。GPT-4是一种基于大规模语料库训练的神经网络模型，旨在实现自然语言的理解和生成。它的架构主要由输入层、中间层和输出层组成。输入层负责接收原始文本数据，并将其转换成向量形式的表征；中间层负责对这些向量进行处理和转换；输出层则负责生成最终的文本数据。GPT-4的核心是采用了Transformer结构，GPT-4的一个重要特点是多模态处理能力。它不仅能处理文本数据，还能处理图像、音频等多种类型的数据，这使得GPT-4能够更好地理解和应对复杂多变的现实世界。在技术原理上，GPT-4采用了跨模态融合技术，将不同模态的数据（如文本、图像、音频）进行编码和融合。其核心技术包括多模态编码器、多模态融合模块和多模态解码器。多模态编码器将不同模态的数据编码为统一的向量表示，多模态融合模块则利用自注意力机制和交叉注意力机制融合这些向量表示，多模态解码器则将融合后的向量表示解码为所需的输出。GPT-4还具备强大的涌现能力和多模态思维链技术，这使得它能够在未经过专门训练的情况下泛化到新的多模态数据样本上，并在推理任务上表现出色11.7.1GPT-4创新

GPT-4是OpenAI开发的一个高度先进的多模态模型，GPT-4架构和相关细节的概述如下。

1.模型规模：GPT-4拥有大约1.8万亿个参数，分布在120层中，这使其参数量比GPT-3大了10倍以上。

2.混合专家架构混合专家模型（MixedExpertModels，简称MoE）：这是一种在人工智能领域使用的Transformer模型。混合专家模型的主要特点是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这些模型主要由两个关键部分组成：稀疏MoE层和门控网络或路由。稀疏MoE层代替了传统Transformer模型中的前馈网络层，包含若干专家，每个专家是一个独立的神经网络。门控网络或路由用于决定哪些令牌（token）被发送到哪个专家

GPT-4采用了16个专家模型，每个专家模型拥有约1110亿个参数。在每次前向传播中，会路由两个这样的专家，这有助于控制成本。

3.数据集

GPT-4的训练数据集包含大约13万亿个token，包括基于文本和代码的数据。此外，还包含来自ScaleAI的微调数据以及一些内部数据。

4.数据集混合训练数据包括CommonCrawl和RefinedWeb，总共达到13万亿个token。据推测，还可能包括Twitter、Reddit、YouTube以及大量教科书等数据源。

.5.训练成本

GPT-4的训练成本考虑了所需的计算能力以及训练时间。

6.推理成本

GPT-4的推理成本是拥有1750亿参数的Davinci模型的3倍，这是由于需要更大的集群和较低的利用率。

7.推理架构推理过程在一个由128个GPU组成的集群上运行，使用8路的张量并行处理。上述简单地描述展示了GPT-4在规模、架构和训练方法上的创新。尽管OpenAI并未完全公开其架构细节，但这些信息已经为提供了对GPT-4强大能力的一窥。GPT-1、GPT-2、GPT-3和GPT-4核心指标对比如表11-5所示。表11-5PT-1、GPT-2、GPT-3和GPT-4核心指标比较维度GPT-1(2018)GPT-2(2019)GPT-3(2020)GPT-4(2023)参数量1.17亿15亿1750亿推测

1.8万亿混合专家MoE架构训练数据5GB文本40GB文本45TB文本12TB多模态数据含文本+图像上下文长度512tokens1024tokens2048tokens128ktokens支持长文档分析训练成本约

12万美元约

120万美元约460万美元未公开（预估超

1亿美元）推理速度1.2tokens/s3.5tokens/s20tokens/s25tokens/s优化后

11.7.2GPT-4应用场景展望

GPT-4作为一种多模态大型模型，其应用场景相当广泛，主要包括以下几个方面：

1.创意和技术写作：GPT

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大语言模型：GPT系列模型教学课件

文档简介

温馨提示

最新文档

评论

大语言模型：GPT系列模型教学课件

文档简介

温馨提示

最新文档

评论

相关文档