ChatGPT的过去、现在与未来_第1页
ChatGPT的过去、现在与未来_第2页
ChatGPT的过去、现在与未来_第3页
ChatGPT的过去、现在与未来_第4页
ChatGPT的过去、现在与未来_第5页
已阅读5页,还剩143页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工业大学/社会计算与信息检索研究中心(SCIR)RESEARCHCENTERFORSOCIALCOMPUTINGANDINFORMATIONRETRIEVAL新闻报道新闻报道行业报告行业报告ChatGPT是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后ChatGPT是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后“智能行为包括知觉、“智能行为包括知觉、推理、学习、交流和在复杂环境中的行为。”——尼尔逊(美国斯坦福大学)移动、飞翔、搬运、操作······“人工”“人工”ArtificialIntelligence人工智能是人工制造出来的机器,行模拟的一门学科.“智能”“智能”•通常指人类自身的智能(类人智能)机器姬超能陆战队终结者终结者机器人总动员扫地机器人跳舞机器人餐厅服务机器人.通用人工智能.机器具有真正的推理和解决.可能会对人类生存产生威胁.暂时没有实现的可能.超级人工智能是指具有自我意.在几乎所有领域都比最聪明的集..完成特定任务的人工智能.表现出像是有智能的样子.不具有自我意识.不会威胁到人类生存用计算机来理解和生成自然语言的各种理论和语言是更高级的一种认知智能性性性性优势难点 a 是aa 是a利用语言天然的顺序性我喜欢吃土豆炖XX两种任务类型输出层隐含层词嵌入层输入层我土豆吃喜欢吃吃純吃純通过历史词序列预测下一个词通过周围的词预测中间的词人惊讶的“智能”Pre-TrainingKeyword:unsupervisedpre-tra siblingmodelsupervisedfine-tuning,auxiliaryobjectiv11234GPT-2GPTKeyword:unsupervisedpre-traininGPT-1的一个重要成就是其在各种理解任务上的具有较为出色的zero-shot性能GPT-1证明语言模型是有效的预训练目标,可以帮助模型很好地推广模型层数变化和参数对实验结果的影响输出:摘要输入:“Englishsentence1=Frenchsentence1”+输出:“Frenchsentence2”GPT-2在zero-shot设置下改进了8种语言建模数据集中7种st传统(稠密)注意力机制:局部注意力机制:膨胀(带状)注意力机制:架构笨重,缺乏可解释性缺少常识,对模型所产生的结果架构笨重,缺乏可解释性缺少常识,对模型所产生的结果数据偏见问题GPT-3生成的文本具有其所训练语言的偏见5天)Qusetion:Whichishe5天)Qusetion:WhichisheQusetion:HowmanyeyedQusetion:Howmanyeyedoesmyfofew-zerofew-zero-one-InstructGPT演进路径(已知=>未知)/docs/moInstructGPT演进路径(能力猜测)InstructGPT演进路径(能力猜测)/docs/mo底座能力:大规模预训练模型模型规模足够大才能有“涌现”的潜力将任务用Prompt形式统一精调语言模型(InstructionTuning)模型能够处理未见任务思维链能力:在代码上进行继续预训练代码分步骤、模块解决问题和人类对齐能力:RLHF结果更符合人类的预期(多样性、安全性)利用真实用户的反馈(AI正循环、飞轮)指令微调(InstructionTuning)Credits:https://docs.cohere.ai/docs/prompt-engi指令微调(InstructionTuning)Credits:https://docs.cohere.ai/docs/prompt-engi情景学习(In-ContextLearning)Credits:https://docs.cohere.ai/docs/prompt-engi情景学习(In-ContextLearning)Credits:https://docs.cohere.ai/docs/prompt-engi思维链表示一系列中间推理步骤,相当于在求解问题过程中将解Wei.et.al.2022.Chain-of-ThoughtP思维链表示一系列中间推理步骤,相当于在求解问题过程中Wei.et.al.2022.Chain-of-ThoughtP人工收集、标注训练样本,进行排序,训练奖励模型人工收集、标注训练样本,进行排序,训练奖励模型通过奖励模型,利用强化学习的训练InstructGPT-beta版本SFT(Supervisedfine-tuning):在人工书写的示例上Plain:标注人员提出任意一个任务,同时保证任务的多样性“查询-回复”数据样例/docs/mo标注者选择的模型最佳输出上进行有监督微/docs/model-index-for收集排序数据,训练奖励模型奖励模型由参数量为6B的SFT模型初始化,输入1[log(σ(Tθx,yw[log(σ(Tθx,yw−Tθ(x,yl)))]LossE0x,yw,yl~DPairwise能够有效地增加训练数据如果将每个()候选pair当作一个独立的训练样本,会导致过拟合使用强化学习PPO算法优化policy□□优化目标中的正则项约束 rθx,y−βlog(πyx/πSFT rθx,y−βlog(πyx/πSFT(y|x))πφYEX~Dpretrain[log(π(x))]仅仅通过模拟人类偏好来优化模型会使得模型在很多NLP任务上性能加入一个额外的语言模型在预训练数据上的优化目标2231ChatGPT能够生成更加翔实的回复:可能来ChatGPT更加擅长多轮对话的内容形式:可能来源于指令微调过发布时间在最近的一次访谈活动中,OpenAI的上半年推出。他没有给出具体的时间,负责任地运行时,它自然就会出现。”模型参数规模Altman还被问及GPT-4的参数规模是否会像网上广为流传达到惊人的100万亿参数,Altman称其为“一派胡言”多模态模态模型,但是Altman在采访中称GPT4会和前三代一样仍然是纯词表优化模型大小和训练数据规模应该匹配。DeepMind通过实验表明,参数量为70B的Chinchilla模型,在使用下游任务上的性能都超过了在300Billiontokens上训练的280B计算优化GPT4—Facts&ReasonableExpec最优参数化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论