版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1告计算机GPT产业复盘(20-21):走向应用告计算机GPT产业复盘(20-21):走向应用华泰研究专题研究增增持(维持)计算机溯源GPT发展:20-21年参数量继续加大,应用于代码生成领域2019年问世的GPT-2,证明了大训练参数量和数据集能获得很好的训练结果,明确了GPT发展的大容量路线,并开始尝试泛化能力更强的zero-shot学习(零次学习)。在此基础上,2020年5月,OpenAI发表论文《LanguageModelsareFew-ShotLearners》推出GPT-3,将模型参数量提高到1750将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2021年,基于GPT-3,OpenAI推出通用代码生成模型Codex。竞争对手微软和谷歌也于2020年分别提出了T-NLG和ELECTRA模型。GPT发展之2020:模型参数提升到1750亿GPT-3模型延续了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,其特点在于:1)与GPT2采用几乎同样的架构,模型参数由GPT-2的15亿增加到1750亿,提升超100倍。2)与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,兼顾了训练效果与成本。3)GPT-3训练数据集为多种数据集的混合,包括CommonCrawl以及质量更高的WebText2、Wikipedia,大小超570GB。研究员SACNo.S0570519080006SFCNo.BQZ938联系人SACNo.S0570122080053春生xiechunsheng@+(86)2129872036yuanzeshi@+(86)2128972228行业走势图计算机沪深300(%)3(6)(16)(25)(34)Feb-22Jun-22Oct-22Feb-23资料来源:Wind,华泰研究GPT发展之2021:在代码生成领域的应用—CodexCodex是在GPT-3上基于GitHub公开代码进行微调的代码生成模型。OpenAI从Github上搜集了5400万个公共软件库代码,集合而成大小159GB的代码训练数据集。Codex即是参数量12B的GPT-3基于该数据集微调得到的模型。在进行模型评估时,OpenAI构造了HumanEval数据集,包含164原创的、手工设计的编程问题。与类似的代码生成模型相比,120亿参数的Codex准确率最高可达72.31%,性能优异。T-NLG追求大规模,ELECTRA注重训练效率微软T-NLG问世时是规模最大的自然语言生成模型,训练参数达170亿,能够完成开放式文本任务、直接生成问题答案、输出文档摘要等任务,并在许多NLP任务上均优于当时的SOTA技术。其演化版本MT-NLG参数达NLPELECTRA于替换token检测任务训练得到,更注重提高预训练效率而非参数规模。参数规模最小的14MELECTRA-Small训练结果能够超过模型规模更大的GPT-1模型。模型对比:GPT-2vsT-NLG/ELECTRA(M)T-NLG和GPT相比,最大特点在于模型参数量巨大,其中的逻辑在于微软和合作方NVIDIA分别在软件和硬件上更具优势,有利于发展大规模模AGPTGPT采用的是Transformer的解码器架构,ELECTRA是Transformer编码器架构。2)策略上:ELECTRA坚持了小型模型的道路,通过改善预训练方法来提高效果,不追求大规模的训练参数,同样获得了性能优异的模型。风险提示:宏观经济波动,下游需求不及预期。本报告内容均基于客观信息整理,不构成投资建议。GPT域 3T 模型特点:大参数量+大训练集+few-shot 4 论文结论:Few-shot在多种NLP数据集上实现了较好性能 8GPT发展之2021:代码生成领域的应用—Codex 9 模型对比:GPT-2vsT-NLG/ELECTRA 11T-NLG:问世时最大规模的自然语言生成模型 11 GPT ELECTRA:注重提高预训练效率的“小而美”模型 15 GPT-32020.5Codex2021.8GPT-22019.2GPT-12018.6InstructGPT2022.3MT-NLG2022.1LaMDA2022.1 1750亿 120亿 1.17亿 15亿 13亿 170亿 1370亿 5300亿 chatGPT2022.11PaLM2022.4BERT2018.10Longformer2020.4RoBERTa2019.7TransformerGPT-32020.5Codex2021.8GPT-22019.2GPT-12018.6InstructGPT2022.3MT-NLG2022.1LaMDA2022.1 1750亿 120亿 1.17亿 15亿 13亿 170亿 1370亿 5300亿 chatGPT2022.11PaLM2022.4BERT2018.10Longformer2020.4RoBERTa2019.7Transformer2017.6ELMo2018.2XLNet2019.6ELECTRA2020.3XLM2019.1 5400亿 20亿 3.35亿 0.94亿 0.65亿 3.55亿 6.65亿 3.55亿 3.55亿 AlphaCode2022.2ALBERT2019.9DistilBERT2019.10ULMFiT2018.1技术架构 2.35亿 0.66亿 T52019.10BART2019.10•Transformer解码器•Transformer编码器•Transformer解码器、编码器•其他架构M2M1002020.10 3.9亿 150亿 1.20亿 T-NLG/MT-NLGGPT-3模型名称解码器Decoder解码器Decoder模型架构170亿/5300亿15亿参数量比GPT-2更大的参数量,更大的训采用few-shot充分利用微软和NVIDIA的软硬件资源,采用远超同期模型的更大参数量核心理念20-21年,GPT-3模型参数量达到1750亿,并在代码生成领域成功应用。2019年问世的GPT-2,证明了更大的训练参数量和数据集能获得很好的训练结果,明确了GPT发展的大容量路线,并开始尝试泛化能力更强的zero-shot学习(零次学习)。在此基础上,2020年5月,OpenAI发表论文《LanguageModelsareFew-ShotLearners》推出GPT-3,将模型参数量提高到1750亿,达到GPT系列模型的最大规模,训练数据集大小超570GB。此外,将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2021年,基于GPT-3,OpenAI推出通用代码生成模型Codex。微软与谷歌也分别提出了自然语言处理模型T-NLG和ELECTRA。T-NLG与GPT-2同样采用Transformer解码器架构,其最大特点在于训练参数远高于同时期的其他模型,得益于微软在软件和算力资源上的优势。ELECTRA最大特点在于不再追求大规模的参数,转而通过提高预训练效率来训练“小而美”的模型。TT-NLG2020.2GoGopher2021.12 2800亿 DDeBERTa2020.6BigBBigBird2020.720212020 参数量 20172018201920212020 参数量 ELECTRELECTRA编码器编码器Encoder最最小14M,最大175M反其道而行,通过更有效率的预反其道而行,通过更有效率的预训练,大大缩小模型训练参数资料来源:各公司官网、各模型论文、华泰研究GPT-3将训练参数量扩大到1750亿。2020年5月,OpenAI发表论文《LanguageModelsareFew-ShotLearners》,提出GPT-3模型。GPT-3模型的参数量达1750亿,是GPT史上最大的参数规模。在GPT-2的zero-shotlearning(零次学习)基础上,GPT-3在zero-shot、one-shot(一次学习)和few-shot(少量学习,通常10-100次)方面均进行了评估,取得了较好的训练结果:例如,GPT-3在zero/one/few-shot设置下CoQA(测试阅读理解能力)分别达到81.5、84.0、85.0F1(F1分数是统计学中用来衡量二分类模型精确度的一种指标,值越大意味着模型越好);在在zero/one/few-shot设置下TriviaQA(测试闭卷问答能力)分别达到64.3%、68.0%、71.2%的准确度,部分结果甚至超过微调模型。OpenAI指出,GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延续了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新高度。同时与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,兼顾了训练效果与成本。PT•2020年5月论文《LanguageModelsareFew-ShotLearners》标志着GPT-3模型问世,采用few-shot学习,模型参数达到前所未有的1750亿资料来源:LanguageModelsareFew-ShotLearners、华泰研究特点一:架构基本不变,参数量大大增加GPT-3延续了GPT-2的大容量发展路线。GPT-2已经证明,通过更多的训练数据+更大的网络参数能够让模型具备zero-shot学习能力,并取得了一定的效果,由此确立了GPT模型向更大容量演进的发展路线。GPT-3延续了这一路线,将模型参数由GPT-2的15亿增•1.17亿参数量•5GB预训练数据量GPTGPT-1•15亿参数量•40GB预训练数据量GPTGPT-2•1750亿参数量•大于570GB预训练数据量GPTGPT-3GPT-3模型基于GPT-2的大容量路线,进一步将模型参数扩大超100倍,达1750亿,大容量扩展的技术发展路径达到顶峰资料来源:OpenAI官网、华泰研究GPT-3共有8种不同参数大小的模型,“GPT-3”特指规模1750亿的模型。OpenAI共搭即1750亿的模型。不同模型架构上的区别包括模型层数nlayer、每层中的单元数dmodel、每个注意力头的维度dhead等。资料来源:LanguageModelsareFew-ShotLearners、华泰研究大训练参数能明显提高GPT-3模型准确性。从上下文学习能力训练结果准确率来看,对于GPT-3模型,当模型参数量较低时,模型准确率较低,例如参数量1.3B的模型准确率不超时,准确率最高接近70%,进一步验证了GPT-2大容量路线的正确性。资料来源:LanguageModelsareFew-ShotLearners、华泰研究GPT-3和GPT2采用几乎同样的架构。GPT-3和GPT-2模型和架构基本相同,包括修改后的初始化、预归一化和可逆标记化,唯一区别在于将transformer中注意力模式替换成了类似SparseTransformer的稀疏注意力模式。资料来源:LanguageModelsareFew-ShotLearners、华泰研究特点二:采用few-shot学习完成下游任务Few-shot取代zero-shot,训练效果得到进一步加强。GPT-2模型中,在下游训练时采用zero-shot学习理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在GPT-2在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OpenAI引入了few-shot,即对于特定任务仅给予少量的样例(10-100个),没有任何梯度更新或微调,任务和few-shot示例均通过与模型的文本交互指定。从多种训练基准综合训练结果来看,few-shot能够取得比zero-shot更好的准确度。ot注:图中为多种训练基准综合的结果资料来源:LanguageModelsareFew-ShotLearners、华泰研究微调、zero-shot、one-shot和few-shot区别在于给定的任务示例多少。1)微调:常会使用数千到数十万个标记示例。微调的主要优点是在许多基准测试上都有很强的性能,缺点是每个任务都需要一个新的大型数据集,导致模型泛化能力不佳,训练质量可能受训练数据集影响。GPT-3没有采用微调,但原则上能够适用微调。2)Few-shot:指的是在推理时给模型一些任务演示作为条件,但不进行权重更新的设置。GPT-3给定的few-shot数量为1-100个。Few-shot的主要优点是大大减少了对特定于任务的数据的需求,并减少了从大而窄的微调数据集中学习过于狭窄的分布的可能性。不过其结果往往不如微调。3)One-shot:与Few-shot类似,只是仅提供一个任务演示给模型。4)Zero-shot:不提供给模型任何的任务演示,只提供描述任务的自然语言指令。该方法提供了最大的便利性、潜在的稳健性,并且不会受训练数据集质量的影响。该方法问题在于,没有任何预先示例,对于人类尚且不易,模型实现会更加困难。GPT-2采用该方法。传统的微调(未用于传统的微调(未用于GPT-3)该模型只给出任务的自然语言描述来预测答案。不执行梯度更新。除了任务描述之外,模型还能获得任务的单个示例。不执行梯度更新。除了任务描述之外,模型还得到了一些任务示例。不执行梯度更新。该模型通过使用大量示例任务的重复梯度更新来训练。GPT-3探讨的三种情境学习资料来源:LanguageModelsareFew-ShotLearners、华泰研究特点三:预训练数据集达570GB以上GPT-3训练数据集为多种数据集的混合。数据集以CommonCrawl为基础,其大小为45TB。但CommonCrawl数据集的质量低于更精确的数据集,为了保证数据集质量,一方面对CommonCrawl进行过滤,大小压缩到570GB,另一方面增加了质量更高的数据集,如WebText2、Wikipedia等。在训练期间,数据集的采样并不与其大小成比例,而是质量更高的数据集采样频率更高,因此CommonCrawl和Books2数据集在训练期间采样次数少于一次,其他更高质量的数据集采样次数为2-3次,以换取更高质量的训练数据。比较来倍以上。资料来源:LanguageModelsareFew-ShotLearners、华泰研究GPT-3在许多NLP数据集上实现了强大的性能。GPT-3在包括语言建模、翻译、问答和完形填空任务,以及一些需要动态推理或领域适应的任务,例如解读单词、在句子中使用新单词或执行3位算术等方面均有不错的表现。在阅读理解、自然语言推理方面表现一般。此外,GPT-3可以生成人类评估人员难以区分的新闻文章样本,这为ChatGPT优秀的交互式问答表现奠定了基础。任务名称训练数据集结果结果评价说明语言建模、完形填空和完成任务(LanguageModeling,Cloze,andCompletionTasks)语言建模PennTreeBank(PTB)比最好结果(state-of-the-art,SOAT)的困好困惑度是用来评估语言模型优劣的指惑度高15分标,其基本思想是给测试集赋予较高概率值的语言模型较好,且较小的困惑度意味着模型对新文本有较好的预测作用LAMBADALAMBADAGPT-3显著改善了LAMBADA上的SOTA好测试文本中的长期依赖关系,模型被要求预测需要阅读一段上下文的句子的最后一个词HellaSwagHellaSwagGPT-3在one-shot中达到78.1%的准确度,较好HellaSwag数据集测试为一个故事或在few-shot设置中达到79.3%的准确度,低一组指令选择最佳结局于经过微调的多任务模型ALUM所达到的SOTA85.6%StoryClozeStoryCloze2016zero-shot设置中达到83.2%,在few-shot射较好—击设置中达到87.7%(70次示例)。比SOTA低低4.1%,比以前的zero-shot结果提高了大闭卷问答NaturalQuestions、在TriviaQA数据集上,GPT-3的one-shot较好—(ClosedBookQuestionWebQuestions、TriviaQA与开放域微调SOTA相匹配。在其他两个数Answering)据集上,接近闭卷SOTA性能翻译(Translation)WMT’14Fr↔En提供一个示例的情况下,结果与之前的工作接好GPT-3在翻译成英语时明显优于之前WMT’16De↔En近。在few-shot设置下,与无监督NMT(神的无监督NMT,但在其他语言翻译时WMT’16Ro↔En等经网络机器翻译)平均性能相近。表现欠佳Winograd类型任务Winograd,Winogrande在Winograd数据集上,GPT-3在zero-shot、较好WinogradSchemasChallenge涉及(Winograd-StyleTasks)one-shot和few-shot设置下分别达到了代词的指定问题88.3%、89.7%和88.6%,仅比SOAT和人类表现略低;在更难的Winogrande数据集上,表现一般常识推理PIQA、ARC和OpenBookQA在PIQA数据集上超过SOTA,在其他数据集较好—(CommonSenseReasoning)上仍有差距阅读理解(ReadingComprehension)RACE在CoQA上表现最好,在QuAC表现最差。一般—整体结果落后于SOATSuperGLUESuperGLUEbenchmarkGPT-3在不同任务中的表现差异很大。在一般SuperGLUE是Facebook人工智COPA和ReCoRD上,GPT-3实现了接近能研究中心、GoogleDeepMind、华SOAT的性能,在WSC上性能相对较强,在盛顿大学以及纽约大学在2019年BoolQ、MultiRC和RT上性能合理,在CB8月共同推出的用于衡量现在高性能上较差语义理解AI的基准测试自然语言推理(NaturalLanguageInference)RTE、ANLI与SOAT差距较大。对于语言模型来说,NLI一般仍然是一项非常困难的任务NLI关注理解两个句子之间关系的能力综合和定性任务—GPT-3表现出熟练的中等复杂算术能力;文较好SAT是美国大学入学考试((SyntheticandQualitative字置乱字置乱和操作任务表现一般;在SAT类比上Tasks)超过大学申请人的平均得分;GPT-3能产生人人类难以区分的500字左右文章;在语法纠正和使用新词上均有不错表现资料来源:LanguageModelsareFew-ShotLearners、华泰研究Codex是在GPT-3上基于GitHub公开代码进行微调的代码生成模型。Codex的模型结构和GPT-3相同。OpenAI从Github上搜集了5400万个公共软件库代码,集合而成训练数据集,包含179GB的Python文件,每个文件小于1MB。同时过滤了部分可能是自动生成的文件,最终的数据集大小为159GB。Codex即是参数量12B的GPT-3基于该数据集微Eval手工设计的编程问题,避免问题出现在基于GitHub的训练数据集中。OpenAI还训练了Codex-S和Codex-D。Codex-S基于格式类似HumanEval的SupervisedFine-Tuning(有监督微调)数据集进行训练,训练出的模型效果比Codex更好。将SupervisedFine-Tuning数据集中的“<函数头><docstrings><函数体>”格式调换成“<函数头><函数体><docstrings>”格式,再微调得到的模型为Codex-D,即实现模型根据代码写注释的功能。2211CodeXCodeX11159GB的代码数据集进行训练120亿参数33CodeXCodeX-SCodeXCodeX-D2233基于格式类似HumanEval的SupervisedFine-Tuning数据集进行训练将SupervisedFine-Tuning数据集中的“<函数头><docstrings><函数体>”格式调换成“<函数头><函数体><docstrings>”格式资料来源:EvaluatingLargeLanguageModelsTrainedonCode、华泰研究与类似的代码生成模型相比,120亿参数的Codex准确率最高可达72.31%。基于HumanEval评估数据集,对比了GPT-NEO、GPT-J、Tabnine等类似的代码生成模型的结果Pass@k(可以解释为评估k个样本中最优的结果)。Codex的最大版本拥有120亿参数,其Pass@100达到了72.31%,远大于其余模型的最好结果。注:k代表每个问题生成k个代码样本资料来源:EvaluatingLargeLanguageModelsTrainedonCode、华泰研究片移动图片Codex-S的表现性能比Codex更进一步,远好于GPT-3。从基于HumanEval数据集的通的问题,Codex-S解决了37.7%的问题。更进一步,1)每个问题生成100个样本,并选择具有最高平均对数概率的样本得到Codex-Smeanlogpreranking;2)选择通过单元测试的示例得到Codex-Soraclereranking,分别解决了高达44.5%和77.5%的问题。片移动图片资料来源:EvaluatingLargeLanguageModelsTrainedonCode、华泰研究Codex能基于用户输入的自然语言生成代码。从Codex使用界面看,用户需要将自己的需求,以自然语言的形式描述给模型,模型即根据用户意图,自动生成相关代码。Codex支持用户在同一界面下,对输入需求进行修改。裁剪图片裁剪图片资料来源:OpenAI官网、华泰研究TNLG问世时最大规模的自然语言生成模型T-NLG问世时是规模最大的自然语言生成模型,训练参数达170亿。T-NLG(图灵自然语言生成)是微软的ProjectTuring(图灵计划)于2022年2月提出,其训练参数高达170亿,远超同时期的其他自然语言模型。T-NLG能够完成开放式文本任务、直接生成问题答案、输出文档摘要等任务,并在许多NLP任务上均优于当时的SOTA技术。T-NLG仍采用Transformer架构,架构层数为78,并以多任务方式训练,与GPT-2类似。TT-NLG17.5b15b12.5b10b7.5bGPT-25bGPT-12.5b资料来源:DeepContextualizedWordRepresentations、华泰研究ext度,数值越低越好)和LAMBADA(下一个单词预测准确性,数值越高越好)数据集上,GPTNVIDIAMegatronLM对比。结果显示,在两种训练集上,T-NLG均取得了最好的结果。资料来源:微软官网、华泰研究在问题回答方面,T-NLG能够用完整的句子给出直接答案。T-NLG将用完整的句子直接回答用户的提问。此外,T-NLG采取与GPT-2类似的zero-shot学习策略,模型仅依靠在预训练期间获得的知识来生成答案,能够在没有上下文的情况下进行问题回答。资料来源:微软官网、华泰研究在抽象摘要生成方面,能为各种文本文档编写类似人类书写的摘要。T-NLG能够不通过复制现有内容,而是像人类一样进行摘要编写,包括电子邮件、博客文章、Word文档、Excel表格和PowerPoint演示文稿。为了使T-NLG尽可能多地用于总结不同类型的文本,微软在几乎所有公开可用的摘要数据集上以多任务方式微调了T-NLG模型,总计约400万个训Sum并在WikiSum数据集上逼近SOAT。资料来源:微软官网、华泰研究MT-NLG:与NVIDIA合作推出5300亿参数模型MT-NLG是微软与NVIDIA合作推出的自然语言生成模型。MT-NLG(Megatron图灵自然语言生成模型)在T-NLG的基础上,将模型参数扩大到5300亿,再次刷新了模型规模的one、few-shot设置上对现有SOAT模型进行了改进,在模型规模和质量方面为大型语言模型设定了新标准。MT-NLG能够完成预测、阅读理解、常识推理、自然语言推理、词义消歧等任务。资料来源:微软官网、华泰研究MT-NLG的训练数据集是以Pile数据集为基础的多种数据集集合。训练集上,从Pile训练集中选择了相对质量最高的数据集子集为基础,增加了经过滤的CommonCrawl(CC)快照、RealNews和CCStories数据集。构建训练数据集时,使用模糊重复数据消除,保证不同数据集中内容不同;使用了基于数据集质量的优先级顺序;从训练数据集中移除了下游任务数据,避免数据污染。数据集数据集来源Tokens(billions)权重(%)时期时期EpochsBooks3Piledataset25.714.3OpenWebText2Piledataset14.8StackExchangePiledataset11.65.7PubMedAbstractsPiledataset4.42.9WikipediaPiledatasetGutenberg(PG-19)Piledataset0.9BookCorpus2PiledatasetNIHExPorterPiledataset0.30.2Pile-CCPiledatasetArXivPiledatasetGitHubPiledataset24.30.2CC-2020-50CommonCrawl(CC)snapshot68.713.00.50.5CC-2021-04CommonCrawl(CC)snapshot82.615.70.5RealNewsRealNews21.99.0CC-StoriesCommonCrawl(CC)stories资料来源:微软官网、华泰研究MT-NLG在多个NLP下游任务中取得了优秀结果。评估涉及8个任务,涵盖5个不同的领域。1)在文本预测任务LAMBADA中,模型预测给定段落的最后一个单词;2)在阅读理解任务RACE-h和BoolQ中,模型根据给定的段落生成问题的答案;3)在常识推理任务PiQA、HellaSwag和Winogrande中,每一项任务都需要一些超出语言统计模式的常识知识才能解决;4)在自然语言推理任务ANLI-R2和HANS中,主要针对过去模型的典型失败案例进行评估;5)在词义消歧任务WiC中,评估模型对上下文中多义词的理解能力。在以上测试中,MT-NLG均取得了不错的准确度,在PiQA和LAMBADA上表现突出。资料来源:微软官网、华泰研究任务类别任任务Zero-shotOne-shotFew-shot文本预测Lambada0.7660.7310.872阅读理解BoolQ0.7820.8250.848阅读理解RACE-h0.4790.4840.479常识推理PiQA0.8200.8100.832常识推理HellaSwag0.8020.8020.824常识推理WinoGrande0.7300.7370.789自然语言推理ANLI-R20.3660.3970.396自然语言推理HANS0.6070.6490.702词义消歧WiC0.4860.5130.585资料来源:微软官网、华泰研究对比:(M)T-NLG相比GPT-3更注重利用软硬件上的优势(M)T-NLG和GPT相比,最大特点在于模型参数量巨大。从架构上看,(M)T-NLG和GPT均基于Transformer的解码器架构,没有本质区别;训练方法上,均采用了zero-shot、few-shot等理念。我们认为,两者最大区别在体现在训练参数量上。T-NLG与GPT-2相比,我们认为,这其中的逻辑在于,相比OpenAI,微软和NVIDIA在软硬件上更具优势,通过充分利用软硬件资源扩大模型训练参数量是其主要手段。T-NLG时期,微软在技术设施上突破了大模型训练。微软指出,任何参数超过13亿的模型都无法用单个GPU进行训练(即使是32GB内存的GPU),因此模型必须在多个GPU之间并行化或拆分。微软在软硬件上进行了设置:1)利用NVIDIADGX-2硬件设置和InfiniBand连接,加速GPU之间的通信;2)应用张量切片在NVIDIAMegatronLM框架上的四个NVIDIAV100GPU上分割模型;3)使用ZeRO的DeepSpeed降低模型并行度,将每个节点的批量大小增加四倍,训练时间减少三倍。微软DeepSpeed和ZeRO大大提高了模型训练速度。DeepSpeed是微软发布的开源库,通过提高规模、速度、成本和可用性,极大地推进了大型模型训练,最大支持训练1000亿参数模型,支持PyTorch(与深度学习相关的Python程序库)。DeepSpeed库的一部分是并行优化器ZeRO(零冗余优化器),ZeRO消除了数据和模型并行训练中的内存冗余,同时保持了低通信量和高计算粒度,能够大大减少模型和数据并行所需的资源,同时增加可训练的参数数量,能够在400个GPU上以超线性加速训练超过100B参数的大型模型,实现15Petaflops吞吐量。微软指出,在如今的硬件条件下,ZeRO有可能扩展到超过1万亿的参数。O资料来源:微软官网、华泰研究MT-NLG时期,微软和NVIDIA联手提供了性能更强的训练基础设施。大规模训练基础设施以NVIDIAA100TensorCoreGPU和HDRInfiniBand网络为基础,由超级计算集群(如NVIDIASelene和MicrosoftAzureNDv4)提供足够算力。此外,软件上,基于NVIDIAMegatronLM和微软DeepSpeed,创建了高效且可扩展的3D并行系统,对于5300亿规模的模型,能够使用DeepSpeed的数据并行性扩展到数千个GPU。硬件上,模型基于NVIDIADGXSuperPOD的Selene超级计算机,以混合精度完成,每个DGXA100配备8个NVIDIAA10080GBTensorCoreGPU,通过NVLink和NVSwitch实现完全连接。我们认为,OpenAI在2019年7月、2023年1月分别得到微软10亿美元和100亿美元的投资,并在技术上与微软有更深入的合作。未来,OpenAI或能借助微软的软件和算力资源优势,进一步提升“GPT系列”产品的性能。ELECTRA注重提高预训练效率的“小而美”模型ELECTRA模型更注重提高预训练效率而非参数规模。ELECTRA(EfficientlyLearninganEncoderthatClassifiesTokenReplacementsAccurately)由谷歌提出,其理念是以相对较少的计算量获得更好的结果。传统的掩码语言模型(MLM)预训练方法,如BERT,通过用“MASK”替换一些输入token来破坏输入,然后训练一个模型来重建原始token,通常需要较大的计算量。为了提高训练效率、较少训练量,谷歌基于Transformer的编码器架构,提出了更有效的样本预训练任务—替换token检测(Replacedtokendetection)任务,并得到了优于MLM的结果。注:左图是虚线框的放大视图资料来源:Electra:Pre-TrainingTextEncodersAsDiscriminatorsRatherThanGenerators、华泰研究替换token检测任务由生成器和判别器(ELECTRA)组成。替换token检测任务训练生成器和判别器两个神经网络,每个神经网络主要由Transformer编码器组成。生成器用来预测被屏蔽token的原始token,判别器用来区分数据输出中的token是否被生成器生成的样本替换。生成器可以是在token上产生输出分布的任何模型,通常使用与判别器联合训练的小型掩码语言模型(MLM)。预训练完成后,即可以放弃生成器,转而用判别器(ELECTRA)执行下游任务。原始输入[MASK]遮盖一部分token用生成器生成的示例替代[MASK]内容预测哪些token是原始输入,哪些是被替换的判别判别器资料来源:Electra:Pre-TrainingTextEncodersAsDiscriminatorsRatherThanGenerators、华泰研究ELECTRA的小型、大型模型均有良好表现性能。1)ELECTRA小型模型:与其他使用更多计算和参数的方法相比,获得了更高的GLUE(通用语言理解评估)分数,例如,得分-Base性能优于BERT-Base和BERT-Large。2)ELECTRA大型模型:ELECTRA-400K的性能与RoBERTa和XLNet相当,且训练缩短到不到1/4。ELECTRA-1.75M性能超过了大多数模型,且需要的预训练计算更少。资料来源:Electra:Pre-TrainingTextEncodersAsDiscriminatorsRatherThanGenerators、华泰研究资料来源:Electra:Pre-TrainingTextEncodersAsDiscriminatorsRatherThanGenerators、华泰研究对比:ELECTRA相比GPT-3更注重小规模、更有效的预训练ELECTRA与GPT-3的区别主要在架构和训练策略上。1)架构上:GPT-3采用的是Transformer的解码器架构,而ELECTRA采用的是Transformer的编码器架构。2)策略上:从GPT-2开始,OpenAI确定了GPT的大容量路线,模型参数和训练数据集大小均不GPT-3的参数从GPT-2的1.5B提高到了175B。而ELECTRA坚持了小型模型的道路,通过改善预训练方法来提高效果,其中ELECTRA-Small参数仅14M,最大的ELECTRA参数仅1.75M,远小于GPT-2和GPT-3。我们认为,2020-2021年是GPT发展的关键阶段:练参数量从GPT-2的15亿提升到1750亿,规模大大增加;另一方面训练数据集从40GB提升到超570GB。此外,针对GPT-2采用zero-shot学习无法较好应对部分下游任务的情况,GPT-3采用了few-shot学习方法,对于下游任务不做梯度更新和微调,任务和few-shot示例均通过与模型的文本交互指定,取得了比zero-shot更好的训练结果。2)模型应用上:2021年,基于GPT-3,OpenAI发布了代码生成工具Codex。该模型是在参数量120亿的GPT-3基础上,基于代码数据集微调得到。该代码数据集由OpenAI从Github上搜集的5400万个公共软件库代码集合而成,包含179GB的Python文件,每个文件小于1MB。同时过滤了部分可能是自动生成的文件,剩下的数据集大小为159GB。Codex能基于用户输入的自然语言生成代码,准确率最高可达72.31%。同时期,微软和谷歌分别发布了T-NLG和ELECTRA模型。这两种模型采用了相反的训练策略,T-NLG注重构建大模型提升训练结果,ELECTRA注重提高与训练效率并缩小模型规模。T-NLG问世时是规模最大的自然语言生成模型,训练参数达170亿,能够完成开放式文本任务、直接生成问题答案、输出文档摘要等任务,并在许多NLP任务上均优于当时的SOTA技术。其演化版本MT-NLG参数达5300亿,再次刷新NLP模型规模记录。ELECTRA模型基于替换token检测任务训练得到,参数规模最小的14MELECTRA-Small训练结果能够超过模型规模更大的GPT-1模型,训练效率得到较大提高。公司代码公司简称公司简称MSFTUS微软GOOGLUS谷歌未上市OpenAI资料来源:Bloomberg、华泰研究提示宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对IT投资产生负面影响,从而导致整体行业增长不及预期。下游需求不及预期。若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。本报告内容均基于客观信息整理,不构成投资建议。分析师声明本人,谢春生,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是FINRA的注册会员,其研究分析师亦没有注册为FINRA的研究分析师/不具有FINRA分析师的注册资华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园安全用电工作制度
- 幼儿园工作制度文件范本
- 幼儿园德育常规工作制度
- 幼儿园推普通话工作制度
- 幼儿园环境整治工作制度
- 幼儿园自我检测工作制度
- 幼儿园追检补检工作制度
- 幼儿园食品快检工作制度
- 计算机数据库技术在信息管理中应用的改进措施
- 学校考试管理办法
- GB/T 45953-2025供应链安全管理体系规范
- 干部审计知识培训课件
- 2025年商标代理人业务水平考试题库附答案
- 化工储罐知识培训课件
- 【《某煤矿深部煤巷二次支护设计分析》14000字(论文)】
- 华为销售培训课件
- 2025年中级消防设施操作员理论知识考试真题(后附专业答案和解析)
- 学前教育原理(第2版) 课件 第一章 学前教育导论
- 新生儿电解质紊乱与护理
- 生物分离工程教学课件
- (高清版)DG∕TJ 08-2312-2019 城市工程测量标准
评论
0/150
提交评论