




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
T发展之22:atGPT成功面世,M里程碑式胜利2年是OpenI公司GT系列模型演进的重要节点2年1月OpnI发布生成式对话机器人ChaGT上线仅2个月月活用户数已突破1亿成为历史上用户增长最快的消费者应用。回顾大语言模型(LrgeLanuageMde,M)的发展历史,可以发现与GogFaceBok等公司不同OpnI从G-1开始始终贯彻Decoer-oly的技术路径-222年GT系列模型几乎按照每年一代的速度不断升级迭代我们认为2年ChaGT的成功面世是M里程碑式的胜利未来围绕M的技术升级、应用拓展有望加速开启。2年OpenI加速GT模型的版本迭代,ChatT融合多技术优势。通梳理GT系列模型的演进过程,可以看到2年是GT系列模型围绕G-、G-5加速版本迭代的年份2年3月基于G-3微调的InstructGT发布验证了人类反馈强化学习RLHF对模型输出对(agmet的重要作用2年-6月基于CodxInstuctGT,OpnAI加速迭代形成G5模型2年1月基于G-5微调的ChaGT发布,成为Instructon-tunRLHF思维链等M相关技术的集大成者我们认为ChaGT是OpnI基于GT系列模型的阶段性成果未来随底层大模型的持续拓展I产业发展或将提速。图表:2年基于rnsormr的M梳理及2年PT模型的版本迭代资料来源:OAI官网、Gole官网、CSDN、atGPT/Isrt:增加人类反馈强化学习()优化目标:从提示学习到指示学习,聚焦需求对齐(aignment)从模型微调到提示学习再到指示学习,GT模型零次学习能力不断提升。2年论文《FntunedLagugeModsreZero-hotLarnrs提出指示学(Instructon-tuin)思想,以提升模型的零次学习能力。对比来看:1)模型微调(Fine-tuning:以G-1为代表,需要大量的微调数据集样本,特定模型解决特定任务;2)提示学习(ompt-lening:以G-3为代表,需要少量的微调数据样本,模型小样本学习(fe-shtLernng能力更强指示学(Instuction-lening以FLNInstructGT、ChaGT为代表,模型通过下游多类型任务的指示微调,零次学习(er-shtLerning)能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。图表:模型微调(inuin)、提示学习(rmplrin)、指学习(nsruinunn)对比资料来源:《intudLgaeodlsaeeoshtans》,JsonWi(2)、聚焦模型输出与人类需求对齐引入人类反馈强化学习GT系列模型发展至G-经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的有用性(Hepful、真实性(Honst、无害性(Hamess,希望实现模型输出内容与人类偏好内容的需求对齐(agmet。为提升模型的“H”特性,从InstructGT开始,InstructGT、ChaGT均引入人类反馈强化学习(RnforcemetLarningfromHumanFedback,RLHF,实现基于人类反馈的模型微调,让模型输出更符合人类期待。图表:InsruGPT的“”优化目标资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、人类反馈可作为强化学习的奖励通过引入语言模型微调可使模型输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reard)机制来指导模型训练,奖励机制可视为统训练机制的损失函数同时奖励的计算要比损失函数更灵活多(例如phaGO奖励是对局的胜负代价是奖励计算不可导不能直接用来做反向传播强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。图表:人类反馈强化学习(L)基本原理资料来源:《DpRifocmeteringrmHmnPefencs》,PalFCistino(21)、训练过程“三步走”实现人工反馈强化学习ChatGT与InstuctGT的训练方法基本一致。解ChaGT与InstructGPT的优化目标之后,我们需要进一步梳理模型的具体训练过程。对比论文《ranngangugemoestofoownstructiosthhumanfedack(中的InstructGT训练方法与OpnAI官方发布的ChaGT训练方法我们看到ChaGT与InstructGT的训练方法基本一致,区别在于InstructGTChaGT分别基于G-G5进行模型微调考虑到htGT尚未有官方论文发布我们以InstructGT论文为基准对InstructGT的训练过程进行了详细梳理,具体可分为有监督微调、奖励模型训练、O强化学习三个步骤。图表:haGPT与InsruPT的训练方法基本一致注:图中蓝色部分为strctPT训练示意、粉色部分为CatPT训练示意资料来源:OAI官网、《Tiniglaugemdlstofllowistctisithhmnfebck》,LngOuag(2)、步骤一:有监督微调(T)训练使用人工标注数据对G3进行有监督微调(upeviedfine-tuning,T)训练。由于G-3是基于提示学习的生成模型,因此FT模型的数据集也是由提示答复对组成的样本。为实现模型从提示学习向指示学习跨越,OpnI采用人工编写多类别提示的方法对G-3模型进行有监督微调。首先,OpnI委托标注员(0人标注团队)人工设计了包含三类内(简单任务f-sht任务基于用户需求的任务的提示样本prmptdtaset;其次,委托标注团队对prmptdtaset进行标注(本质上是人工回答问题,由此构成提示答复对数据集;最后,用标注过的数据集微调G-,得到FT模型。图表:有监督微调(F)训练过程示意图资料来源:《llstrtingRinfcmteigfrmHmnFeackRLH)》,Natanmbr(22)、FT数据集数据量较小,数据质量、多样性更加重要。根据InstructGT论文中提供的数据显示,FT数据集一部分来自使用OpnI的aGrond的I用户,另一部分来自OpnI雇佣的0名标注(aeler其中训练数据大小仅约为(来自标注员的数据约为、来自I用户的数据约为。考虑到InstructGT是在G-3的基础上进行模型微调,G-3已经具备较好的文本生成能力,FT数据集的质量、多样性对于提升模型性能来说更为重要。图表:有监督微调(F)数据集来源及大小资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、数据多样性以InstrucGT论文披露的奖励模型M数据集为(未披露FT数据集任务分类占比,RM数据集包括文本生成、开放式问答、头脑风暴、对话、改写、摘要、分类等0类任务任务类型多样且占比不同以RM数据集为推测依据FT数据集作为初始种子数据集,为提升模型的泛化能力,通常具备更好的数据多样性;图表:奖励模型()数据集分类占对话8
分改写 7总结4
其他 封闭式问答4 3摘要2头脑风暴11开放式问12
文本生成46资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、数据质量:作为初始的种子数据集,FT数据集大部分数据来自标注团队,而非数据采样因此T数据集具有更好的数据质量同时OpnI在标注团队的人员组成上,充分考虑了性别、身份、国籍、年龄、学历等因素的差异性。图表:标注团队按性别分类 图表:标注团队按国籍分类女女男
菲律孟加美国阿尔巴尼加拿大哥伦比印度乌拉圭巴西资料来源:《Trininglagaemolsofllowistctisithhmnfeack》,ogOuan(2)、
资料来源:《Trininglagaemolsofllowistctisithhmnfeack》,ogOuan(2)、图表:标注团队按年龄分类 图表:标注团队按学历分类
高中大学资料来源:《Trininglagaemolsofllowistctisithhmnfeack》,ogOuan(2)、
资料来源:《Trininglagaemolsofllowistctisithhmnfeack》,ogOuan(2)、步骤二:奖励模型(RwadMode,M)训练𝑘𝑘通过RLHF的思路训练奖励模型。这一阶段的主要目标,在于借助标注员的人工反馈,训练出更符合人类意愿的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:)任务采样:抽样出一个prmpt问题及T模型的k个输出结果;)结果排序:标注员将这k个结果按质量好坏排序,形成𝐶2组训练数据对({smpereward}prsM训练使𝐶2组训练数据({smpereward}pars训练奖励模型让奖𝑘𝑘励模型更加理解人类偏好。图表:奖励模型()训练过程示意图资料来源:《llstrtingRinfcmteigfrmHmnFeackRLH)》,Natanmbr(22)、𝑘𝑘两两对比,最大化“更喜欢”和“更不喜欢”的差值。为了更加清晰地理解此轮步骤中排序和训练,我们针对InstuctGT论文介绍的方法,进行了更为通俗的解释。针对一个rompt任务FT模型输出k个结果排序过程即对这k个结果进行两两对比并根据结果的好坏进行排序;为了让RM更好地学习人类偏好可先通过𝐶2组分别计算oss损失函数值,再将𝐶2组结果求和取均值,损失函数的目标是最大化更喜欢的结果和更不喜欢的结果之间的差值;通过oss函数的梯度回传,RM模型逐渐学会给更喜欢的结果打高分,给更不喜欢的结果打低分,从而实现了人类偏好的模仿。𝑘𝑘图表:Loss损失函数拆解资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、步骤三:近端策略优化(O)强化学习通过训练好的M模型和近端策略优化O算法优化T模型策略。近端策略优化(roxmalocyOptmiaton,O)是一种强化学习算法,核心思路在于将olcyGraent中O-pocy的训练过程转化为Of-pc,即将在线学习转化为离线学习。具体来说就是再次让T模型去回答prmptdtaset某个问题通过O算法产生输出;然后,不再借助人工评估结果好坏,而是利用步骤二训练的RM模型去对FT模型的预测结果进行打分排序,即用“I训练。此阶段可以循环多次,从而得到参数质量更好的模型。图表:近端策略优化()强化学习示意图资料来源:《llstrtingRinfcmteigfrmHmnFeackRLH)》,Natanmbr(22)、人类反馈主要体现在M阶段。总结来看,InstructGT以及ChaGT的训练过程可概括为首先通过人工标注数据promptdtaset对原始模型(G-3或G-进行有监督微调得到模型其次让模型1对一个prmpt进行多个输出并通过人工进行输出结果排序并训练奖励模型R最后继续训练模型给定一个prmp得到输出后由奖励模型RM继续完成打分,反复迭代后得到最终的InstructGT或ChaGT。人类标注员参与T训练与RM训练两个过程,其中人类反馈主要体现在RM阶段。图表:人工主要参与F、M,人类反馈主要体现在M阶段资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、论文结论:RHF是PT需求对齐的重要支撑RLHF有效优化了模型输出输出结果更加符合人类意愿InsructGT论文中分别训练了3亿、0亿、0亿三个参数规模的InstructGT模型,实验证明:3亿参数规模的InstuctGT模型(O-tx)在多场景下的输出效果均优于10亿参数规模-3模型人类反馈强化学习RLF方法的引入一方面能够尽可能地对(gnmetGT的输出,让GT具备对用户更加友好的语言逻辑,微调出用户友好型GT;另一方面,人工反馈的引入,帮助模型更好的理解人类思维和意图,训练结果更符合人类的需求。图表:InsruGPT更好地实现了模型输出与人类需求对齐( .8模型 .7输出优 .6BBST.5.4模型 .3的率频 .2率).1
GPTGPT(mt)SFTPPOPPO-tx.0.B B 7B资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、模型的“H”特性显著提升,输出内容更有用、更真实、更无害。为了衡量InsructGT模型的有用(Hepfu真实(Honst无害(Harmes是否得到改善InstuctGT论文在公开可用的数据集上使用现有指标,对比了InstructGT与G-3的模型性能与G-3相比,根据rutfuQA指标,InstructGT产生的模仿性错误更少;根据Reaoxcty指标InstructGT输出的毒性更小根据I提示分布进行人工评估发现InstructGT更少地编造事实“幻觉,并生成更合适的输出。总结来看,InstuctGT模型输出内容的有用性、真实性、无害性均得到一定程度的提升。图表:InsruGPT模型的有用性、真实性、无害性显著提升注:毒性、致幻性得分越低越好,真实性、适当性等分越高越好资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、atTSIsctGP:核心是基础大模型的不同演化:从GP3到G3.5,基础大模型能力再升级训练方法基本一致核心区别是基础大模型的不同比OpnI官网介绍的ChaGT训练方法与InstructGT论文介绍的InstructGT训练方法两者的训练方法基本一致核心区别在于InstructGT、CatGPT分别基于G-、-5进行模型微调。为了充分理解ChaGT与InstructGT的能力差异,我们梳理了从G-3到G-5发展过程。G-3元(20年7月OpnI发表论《LnuaeMdesareFe-hotLarners开启G-3元年与G-2相比G-3进一步扩大模型参数与训练数据量,并用fe-sht取代ero-sho,模型泛化能力得到进一步提升;G-3系(-02.031年8月论《vauatingLargeLagugeMdesrandonCode发表基于G-3进行代码训练微调得到Codx通用代码生成模型,对应OpnIAI中的co-cusman-2年3月论《rannglagugemoestofoownstructiosthhumanfedack发表基于G-3模型经过T训练RM训练O强化学习,得到InstructGT模型,其中T部分对应了OpnIAI中的dvnci-nstruct-bt、text-dvnc-;G-5系(4-.6:2年4月兼具语言模型代码训练指示微调的coe-dvnc-002模型面世仍称其为Codx对应OpnAII中的co-dainc-;2年-6月基于co-dvnc-002的有监督指令微调(suersedinstructontued)模型ext-dnc-002发布此次指令微调降低了模型的上下文学习能力但增强了模型的零次学习能力;ChatGT时(2年1月基于ext-dinci-002进行RLHF指令微调的两种变体模型出现,分别为text-dnc-、ChatGT;其中text-dnc-3恢复了text-dvnci-2中丢失的部分上下文学习能力同时得益于RLHF进一步改进了零次学习能力;ChaGT则具备了建模对话历史的能力。图表:GP3及GP.5系列模型演进路径资料来源:《HowdsPTOtinitsAilit?TcigEmeetAilitiesfLgaeolsothirSorcs》,You(02)、对比:增加代码训练与指示微调,P3.5具备三大优势与G-3相比G-5增加代码训(Code-taining与指示微(Instuction-uning根据上文对G-3及G5系列模型的发展梳理不难看出以co-dvnc-00(用于代码生成、text-dinc-00(用于文本生成)为代表的G-5模型,与G3模型相比增加了代码训练指示微调两个训练步骤代码训练经过前期的代码训练G-模型具备更好的代码生成与代码理解能力,同时间接拥有了使用思维链进行复杂推理的能力;)指示微调:经历Intructon-tuin,G-5具备更好的模型泛化能力同时模型的生成结果更加符合人类的预期。图表:与P3相比,P.5增加代码训练与指示微调资料来源:《Trininglagaemolsofllowistctisithhmnfebck》,ogOuan(2)、G-5具备三大优势,hatGT实现优势融合。于模型训练的持续优化,与G-3相比,G-5具备三大优势:更强的复杂推理能力,更好的人类指令响应,更全面的文本、代码生成能力。作为基于G-5的模型微调产物,ChaGT实现了Cod-trann、Instructon-tunn、RLHF等训练的优势整合,我们针对ChaGT优势进行能力溯源:预训练大模型:ChaGPT具备的语言生成能力、基础世界知识、上下文学习能力等基本能力均来源于基于rasformr的模型预训练大量知识的存储能力依托于庞大的模型数(G-3模型参数为0亿;代码训练:ChaGT具备较好的代码生成与代码理解能力,同时具备执行复杂推理的能力,主要得益于代码训练Cod-tranng的引入;初代G-3未进行过专门的代码训练,因此在代码生成、理解方面能力相对较差,同时推理(思维链)能力也较差;因此可以判断,代码训练是ChaGT上述能力的重要来源;人类反馈强化学习:ChaGT具备更好的问答能力,同时可以拒绝不当的问题、拒绝知识范围之外的问题,这些在对话问答上的突出表现,得益于人类反馈强化学习LHF训练让ChaGT更加遵循人类的价值观同时拥有了建模对话历史增加对话信息量能力。图表:haGPT优势能力溯源资料来源《HowosGPTOtinitsAilit?TcigEmretAilitiesofanaedlstothirSocsYoF(02OenIVSGOenI贯彻cer-ly路径技术集大成者ChatGT领先发布,OpeI打开大语言模型新局面。2年1月0日,ChaGT正式上线仅花费5天时间用户数超10万据mareb数据显示3年1月ChaGT平均每天约有0万独立访客。面对ChaGT的领先发布与热烈反响,2年2月8日,Goge在发布会上开启对话机器人ard首秀,相较于ChaGT的突出表现,ard的表现则稍显逊色2年2月15日Gogle首席执行官桑达尔皮查(udrPch)呼吁员工进行ard的内部测试、优化。Decode-only技术博采众长,两大特点助力ChatGT成功面世。通过梳理7年起,Gogle与OpenAI在LLM领域的布局可以看到,pnI具备两大突出特点:)贯彻Decode-only技术路线:从G-1到ChaGT,pnI的M均采用Decdr-oly架构单一架构领域的持续深耕与模型参数的不断扩大,让OpnI的GT系列模型具备强大的学习能力与文本生成能力2技术集大成者htGT的发展不仅得益于GT模型参数训练数据的持续优化也得益于各类M新技术的融会贯通OpnI博采众长,加速新技术在GT系列模型中的深度应用。图表:OpnI与Gogle在M领域的布局(7年6月3年2月)注:红框内浅粉色高亮的三种预训练语言模型是29年三类典型模资料来源:OAI官网、Gole官网、CSDN、特点一:贯彻ecodronly技术路径Deoder-only具备文本生成优势,penI深耕布局。OpnI自8年的G-1起,在模型架构上始终坚持Deoer-only的技术路径得益于Decoer-oly架构在文本生成上的天然性优(具体分析可参考华泰计算机3年2月4日发布的报《GT产业复盘(9大容量路线htGT在对话翻译等文本生成任务中更具优势对比来看,Gogle2018年、9年推出的T、T5分别采用coer-ol、ncodr-Decoer技术方案,直至1年0月推出的FLN模型才采用Decoer-oly方案;特点二:M相关技术集大成者ChatGT是LM领域的技术集大成者从ChaGT的技术路径演进过程来看其底层技术可视为rafomerromp-LarnngInstruction-unngRLHFPO思维链的融合。ansfomer:7年6月,Goge发布论文《ttentionIsllouNeed,提出rafomer模型;RLH7年7月DeepMin(Gogle旗下人工智能企业与OpnI联合发布论文《DeepRenforcemetLarnngfromHmanreferences,提出人类反馈强化学习RLHF方法;O:7年8月,pnI发表论文《roxmalolcyOptmationlgrithms提出对TRO算法的改进O算法;ompt-Lening0年7月OpnI发布论《LnuageMoesareFe-htLarner,开启基于romt的NLP新学习范式的研究热潮;Instuction-tunin1年9月Goge发布论《FntunedLagugeModesareZ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地球内部热流的测量与分析-洞察及研究
- 气溶胶对光散射与吸收机制分析-洞察及研究
- 2025年山东省济宁市金乡县中考二模数学试题
- 人工智能在学术研究中的应用-洞察及研究
- 2025-2030综合管廊建设行业市场趋势供需评估投资规划分析研究资料报告
- 客户满意度驱动的汽车零部件质量改进策略-洞察及研究
- 国际贸易中的跨文化交流与合作-洞察及研究
- 建筑工程机械买卖协议
- 天然气安全监测指南
- 植物蛋白源提取技术-洞察及研究
- 新闻编辑(修改版)马工程课件 第六章
- GB/T 2930.8-2017草种子检验规程水分测定
- 勘察设计工作大纲
- GB/T 17188-1997农业灌溉设备滴灌管技术规范和试验方法
- 关于国有集团公司采购管理办法【五篇】
- 2022年资阳市雁江区社区工作者招聘考试笔试试题及答案解析
- 2.2 第2课时 基本不等式的综合应用(课件)高一数学(人教A版2019必修第一册)
- 帮助卧床老年人使用便器排便课件
- 【高考英语精品专题】必修1 Unit 1 Life Choices-高考英语-一轮总复习备考方略课件PPT(新教材北师大版)
- 中国传媒大学-新媒体概论(刘行芳)-课件
- 医学放射卫生相关法律法规ppt培训课件
评论
0/150
提交评论