GPT-3小样本语言学习模型

上传人：h*** IP属地：山东上传时间：2026-03-05 格式：PPTX 页数：26 大小：52.40MB 积分：12 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

GPT-3：小样本语言学习模型GPT-3:LanguageModelsareFew-ShotLearnersBeijingJiaotong

University背景引入什么是GPT？

GPT(GenerativePre-trainedTransformer)是OpenAI公司发布的一种生成式预训练通用语言模型，具备多种自然语言任务处理能力，如机器翻译、问答系统、对话系统等。背景引入GPT的前世今生Transformer4.5M训练数据2.1亿参数引用量：81KBERT10G训练数据3.4亿参数引用量：71KGPT-240G训练数据15亿参数引用量：6KGPT-3570G训练数据1750亿参数引用量：12KGPT-15G训练数据1亿参数引用量：6K2017201820192020Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.

Advancesinneuralinformationprocessingsystems,

30.Radford,A.,Narasimhan,K.,Salimans,T.,&Sutskever,I.(2018).Improvinglanguageunderstandingbygenerativepre-training.Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.

arXivpreprintarXiv:1810.04805.Radford,A.,Wu,J.,Child,R.,Luan,D.,Amodei,D.,&Sutskever,I.(2019).Languagemodelsareunsupervisedmultitasklearners.

OpenAIblog,

1(8),9.Brown,T.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.D.,Dhariwal,P.,...&Amodei,D.(2020).Languagemodelsarefew-shotlearners.

Advancesinneuralinformationprocessingsystems,

33,1877-1901.先导知识Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.

Advancesinneuralinformationprocessingsystems,

30.

Transformer

是一种编码器-解码器模型，它可以在不使用卷积层或循环层的情况下进行序列到序列的转换。

编码器和解码器分别由6个结构相同的模块叠加组成，模块间不共享权重。每个编码/解码模块均包括自注意力层和前馈神经网络层，用于编码当前元素和输入中其他元素之间的相关关系。Transformer介绍：1.输入2.编码器3.解码器4.输出先导知识自注意力机制

自注意力(self-attention)的输入是整个文本序列，输入也是一个序列，并且和输入序列相同。

自注意力引入了三个矩阵Q(query)、K(key)、V(value)，使每一层神经元的输出都考虑到该层的全部输入，并且可以并行化计算每一个神经元。

Self-AttentionLayer先导知识Radford,A.,Narasimhan,K.,Salimans,T.,&Sutskever,I.(2018).Improvinglanguageunderstandingbygenerativepre-training.GPT-1的目标是使用通用的预训练模型来提升语言理解能力，1.如何在没有标注的数据集上进行预训练？2.如何做微调？3.如何在每个子任务上表示其输入？

GPT-1把

transformer的decoder部分作为模型的主要模块，使用预训练+微调的方式解决上述问题。解决策略：GPT-1介绍：解决问题：先导知识GPT-1方法描述：1.无监督预训练2.有监督的微调3.基于特定任务的输入变换先导知识GPT-1实验结果：问答和常识推理任务的实验结果：自然语言推理任务的实验结果：先导知识

BERT(BidirectionalEncoderRepresentationfromTransformers)，是一种基于双向Transformer的Encoder。与GPT-1相比，BERT使用了双向Transformerblock连接，以生成双向语言表征。该模型有以下主要优点：1）提出了基于掩码的双向语言模型，能够融合前后上下文信息的深层双向语言表征；2）预训练后，只需要添加一个额外的输出层进行微调，不需要对BERT进行任务特定的结构修改就可以应用到下游任务并取得较好的表现。Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.

arXivpreprintarXiv:1810.04805.BERT介绍：先导知识BERT的整体预训练和微调过程。除了输出层之外，预训练和微调都使用相同的网络架构，在下游任务中使用相同的预训练模型参数来初始化模型参数。在微调过程中，所有参数都会被微调。[CLS]是添加在每个输入示例前面的特殊符号，[SEP]是特殊的分隔符标记（例如分隔问题/答案）。BERT模型结构：先导知识BERT实验结果：GPT-1:训练数据量5G,

参数量100MBERTBASE:

网络层=12,训练数据量10G,

参数量=110MBERTLARGE:

网络层=24,训练数据量10G,参数量=340M.

先导知识Radford,A.,Wu,J.,Child,R.,Luan,D.,Amodei,D.,&Sutskever,I.(2019).Languagemodelsareunsupervisedmultitasklearners.

OpenAIblog,

1(8),9.

GPT-2使用更大规模的未标注文本数据集、更大参数量的模型进行预训练，并在零样本设置中执行多种自然语言处理任务。核心思想是当模型参数量足够大且数据量足够丰富时，仅靠语言模型的学习便可以完成其他有监督的学习任务，无需在下游任务微调。2）不再依赖于特定的起止标识符(prompt)，GPT-2能够以更灵活的方式来指定任务，输入和输出

p(output|input;task)。例如，GPT-2介绍：1）引入了零样本学习的概念。GPT-2认为语言模型从大规模数据中学到的能力能够直接在多个任务之间进行迁移，GPT-2可以在零样本设置中执行下游任务而不需要额外提供特定任务的数据。GPT-2贡献：翻译任务可表示为(translatetoFrench,Englishtext,Frenchtext)阅读理解任务可表示为(answerthequestion,document,question,answer)先导知识GPT-2实验结果：对应GPT-1对应BERTLARGE对应GPT-2GPT-2在不同任务上的实验结果：不同大小的网络结构GPT-3介绍Brown,T.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.D.,Dhariwal,P.,...&Amodei,D.(2020).Languagemodelsarefew-shotlearners.

Advancesinneuralinformationprocessingsystems,

33,1877-1901.研究动机：1）从实用的角度来看，每个新任务都需要大量带标签的样本数据集，这限制了语言模型的适用性。2）模型的表现力增长和训练分布的狭窄性会导致利用训练数据中虚假相关性的潜力增长。3）人类不需要大量的监督数据集来学习新的语言任务，一句简短的自然语言指令或者几个示例就足以让人类合理地执行新任务。GPT-3介绍GPT-3贡献：元学习(MetaLearning):不再追求极致的零样本学习，而是利用少量样本去学习。上下文学习(In-ContextLearning):使用预训练语言模型的文本输入作为任务规范，模型以自然语言指令或几个示例为条件，然后执行下游任务，期间不进行任何的梯度更新或微调。GPT-3介绍方法介绍：微调(Fine-Tuning)：在特定任务的监督数据集上更新预训练模型的权重。零样本(Zero-Shot)：与单样本学习类似，但不允许给出示例样本，模型只能接收自然语言指令描述的任务。单样本(One-Shot)：与少样本学习类似，但仅允许给出一个示例样本，加上任务的自然语言描述。小样本(Few-Shot)：即本文提出的“上下文学习”，模型在推断时给出少量示例样本作为条件，但不允许进行权重更新。语言模型预训练过程中能够学习到广泛的技能和模式识别能力，然后在推理时使用这些能力快速适应或识别所需的任务。GPT-3介绍上下文学习：

通过大量下游任务实验验证，上下文学习所对应的少样本(Few-shot)效果最佳，单样本(One-shot)效果次之，零样本(Zero-shot)效果最差。GPT-3介绍上下文学习：大型模型更陡峭的“上下文学习曲线”表明从上下文信息学习任务的能力有所提高。上下文学习虽然与微调一样都需要少量有监督的标注数据，但两者有本质的区别:1.

微调是基于标注数据对模型参数进行更新，而上下文学习使用标注数据时不做任何的梯度回传，模型参数不更新；2.上下文学习依赖的数据量远远微调所需要的数据量。GPT-3介绍训练数据：1.使用高质量数据作为正例，训练LogitRegression分类算法，对CommonCrawl数据集中所有文档做初步过滤。“高质量数据”是指在BERT、GPT、GPT-2使用过的数据，最终处理完成后使用的数据规模约570G。2.利用公开的算法做文档去重，减少冗余数据；3.加入已知的高质量数据集；GPT-3介绍实验结果：模型参数规模/数据量对性能的影响：当我们想要线性的提升一个任务的效果时，往往需要指数级的提升模型的规模和所需的数据量。GPT-3介绍实验结果：机器翻译任务上的实验结果：随着模型容量的增加，6种语言对的少量样本翻译性能不断提高，在所有数据集中都存在持续改善的趋势。同时翻译成英语的能力要强于从英语翻译的能力。GPT-3介绍局限性：长文本生成质量不高。GPT-3的生成的长文本结果有时会重复语义，自相矛盾，并偶尔包含非续句或段落。模型和结构的局限性。对于双向性的文本任务，如完形填空，使用单向的自回归语言模型确实存在一定的局限性。无法区分学习重点，语料中所有的词都被同等看待，对于一些虚词或无意义的词同样需要花费很多计算量去学习。样本的有效性或者利用率较低，训一个模型几乎要把整个互联网上的文本数据全都用起来，成本过高。模型到底是在“学习”还是在“记忆”？训练和使用成本高。深度学习模型的可解释性。模型最终呈现的效果取决于训练数据，这会导致模型会出现“偏见”；扩展阅读Radford,A.,Kim,J.W.,Hallacy,C.,Ramesh,A.,Goh,G.,Agarwal,S.,...&Sutskever,I.(2021,July).Learningtransferablevisualmodelsfromnaturallanguagesupervision.In

Internationalconferenceonmachinelearning

(pp.8748-8763).PMLR.OpenAI

(2023).GPT-4TechnicalReport.

arXivpreprintarXiv:2303.08774.Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.

Advancesinneuralinformationprocessingsystems,

30.Radford,A.,Narasimhan,K.,Salimans,T.,&

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

GPT-3小样本语言学习模型

文档简介

温馨提示

最新文档

评论

GPT-3小样本语言学习模型

文档简介

温馨提示

最新文档

评论

相关文档