2023ChatGPT过去现在与未来_第1页
2023ChatGPT过去现在与未来_第2页
2023ChatGPT过去现在与未来_第3页
2023ChatGPT过去现在与未来_第4页
2023ChatGPT过去现在与未来_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ChatGPT的过去、现在与未来2023年02月15日ChatGPT的出现行业报告新

闻报道热

烈讨论频繁

热搜国外大厂国内大厂ChatGPT将会改变世界的对话式通用人工智能模型ChatGPT微软联合创始人比尔·盖茨:像ChatGPT这样的AI聊天机器人将变得与个人电脑或互联网同样重要。三体:拯救派

<——————>

降临派SpaceX、特斯拉公司总裁

埃隆·马斯克:ChatGPT好得吓人,我们离危险的强人工智能不远了。Meta首席科学家、图灵奖得主杨立昆:就底层技术而言,ChatGPT并不是多么了不得的创新。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。美国作家、Robust.

AI公司创始人加里·马库斯:生成式人工智能

将对社会结构产生切实的、迫在眉睫的威胁。英伟达总裁黄仁勋:ChatGPT是AI领域iPhone,是更伟大事物的开始。ChatGPT

的定义ChatGPT

是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。ChatGPT

的定义ChatGPT将加速通用人工智能的实现ChatGPT

是2022年11月美国人工智能公司OpenAI所推出的生成式对话预训练模型。它通过对话的形式进行交互,对话的形式使得其能够回答后续问题,承认自己的错误,质疑不正确的前提,并拒绝不适当的请求。对人工智能技术的颠覆性影响什么是智能?“智能行为包括知觉、推理、学习、交流和在复杂环境中的行为。”——尼尔逊(美国斯坦福大学)人类、动物经过亿万年自然进化形成的智慧和能力听、说、读、写、看······移动、飞翔、搬运、操作······感觉、知觉、理解、联想、推理、规划学习、决策、记忆、回忆、创造、顿悟什么是人工智能?人工智能,简称AI英文:Artificial

Intelligence人工智能是人工制造出来的机器,用以对人的意识、思维、认知功能进行模拟的一门学科.人造的机器或系统“人工”通常指人类自身的智能(类人智能)−感知与识别、认知智能(决策与优化、学习与推理)、运动智能也包括其他人造系统的智能“大狗”机器人:四足运动“大鸟”机器人:双翅飞行“智能”科幻电影中的人工智能哆啦A梦机器姬超能陆战队机器人总动员终结者终结者实际生活中的人工智能跳舞机器人扫地机器人餐厅服务机器人Siri弱人工智能、强人工智能、超级人工智能强人工智能(AGI,

General)通用人工智能机器具有真正的推理和解决有进行所有工作的可能可能会对人类生存产生威胁暂时没有实现的可能弱人工智能(ANI,

Narrow)完成特定任务的人工智能表现出像是有智能的样子不具有自我意识的弱人工智能超级人工智能(ASI,

Super)超级人工智能是指具有自我意识,包括独立自主的价值观、人类大脑都聪明很多,包括科学创新、通识和社交技能“弱人工智能”的集合≠“强人工智能”不会威胁到人类生存同时解决所目前,已经实现了越有来的越自多然语言处理任务问题的能力,与人类一样拥刷爆了10世0界观等余个数•

据在几乎所有领域都比最聪明的集什么是自然语言处理?自然语言指的是人类语言,特指文本符号,而非语音信号自然语言处理(Natural

Language

Processing,NLP)用计算机来理解和生成自然语言的各种理论和方法语言是更高级的一种认知智能需要更强的抽象和推理能力运算智能能存会算感知智能能听会说,能看会认认知智能能理解会思考自然语言处理的难点与特点语言歧义性抽象性组合性进化性非规范性主观性知识性难迁移性优势存在大量可以利用的先验知识难点研究问题纷繁复杂,难以被单一模型处理难以获得大量标注数据难度大,触及常识、推理等认知能力部分课题评测难度高通用性弱,与行业关联性强刷爆了100余个数据集自然语言处理发展历史规则搭配词典ExamplesfromXiaoandZhu,

SMT-Book自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?语料特征概率ExamplesfromXiaoandZhu,

SMT-Book自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?向量参数学习模型词汇表示平行句对美丽哈尔滨

是一座城市EncoderDecoderAttentionaHarbinEOSisBeautifulCityaHarbinisBeautiful自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?向量参数学习模型词汇表示平行句对自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?预训练

+

精调

=自然语言处理新范式未标注文本语料库模型训练数据标注模型预训练模型精调Fine-tune预训练Pre-train自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?利用语言天然的顺序性我

喜欢

土豆

XX两种任务类型语言模型通过历史词序列预测下一个词完形填空通过周围的词预测中间的词…᦯્ف੶ᵌތ੶ᬌف੶ᬌڊ੶……౯ࡅཻ ݰࢿᨗ᦯્ف੶ᬌڊ੶ࢿᨗᬌف੶ ࡅཻ ݰᅜ᝝ৼ自然语言处理发展历史自然语言处理范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017大规模预训练模型2018~2023?双向掩码模型(2018)单向自回归生成模型(2018)编码器-解码器架构(2019)预训练模型预训练语言模型成为自然语言处理领域全新的技术范式模型规模与表现正相关,因此不停追求越来越大的规模随着模型规模越来越大,“涌现”出了令人惊讶的“智能”LargeLanguageModels:ANewMoore'sLaw?-Hugging

Face201820202022.3发展历程Pre-TrainingKeyword:unsupervisedpre-training,supervisedfine-tuning,auxiliary

objectiveLearnersGPT-1:ImprovingLanguageUnderstandingby

GenerativeKeyword:

multi-taskKeyword:

few-shot,one-shot,

zero-shotGPT-4ChatGPTisasiblingmodelto

InstructGPTInstructGPT:Traininglanguagemodelstofollow

instructionswithhuman

feedbackGPT-3:LanguageModels

areFew-Shot

LearnersGPT-2:LanguageModelsareUnsupervisedMultitaskKeyword:instructlearning,labeler-writtenprompts,reinforcementlearningfrom

humanfeedbackChatGPT:OptimizingLanguageModelsfor

Dialogue2019过去2022.11现在2023

?未来目

录CO

NTE

NTS

GPT的相关背景GPT系列介绍哈尔滨工业大学社会计算与信息检索研究中心Instruct

GPT与ChatGPTGPT4及相关猜想1234哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的过去GPT-1/2/3

!"#$模型 规模GPTdmodel=768,context_size=512,layer_num=12,

attention_num=12模型结构与规模十倍dmodel=1600,

context_size=1024,GPT-2layer_num=48,attention_num=12,param=1.5B,

size=774M百倍dmodel=12288,

context_size=2048,GPT-3layer_num=96,attention_num=96,param=175B,

size=70G训练数据GPT-1BookCorpus大约7000本书尚未出版GPT-2WebText具有来自800万个文档的40GB文本数据GPT-3CommonCrawlWebText2Books1Books2Wikipedia一共570G数据GPT-1哈尔滨工业大学社会计算与信息检索研究中心ImprovingLanguageUnderstandingbyGenerative

Pre-TrainingGPT-1使用方法GPTusage:pre-training+

fine-tuningGPTKeyword:unsupervisedpre-training,supervisedfine-tuning,auxiliary

objective实验表现在比较模型的12个任务中(如问题解答,模式解析,情感分析等),GPT-1在9个任务上的表现要优于经过专门训练的有监督最新模型GPT-1的一个重要成就是其在各种理解任务上的具有较为出色的zero-shot性能GPT-1证明语言模型是有效的预训练目标,可以帮助模型很好地推广模型层数变化和参数对实验结果的影响大模型大数据哈尔滨工业大学社会计算与信息检索研究中心GPT-2LanguageModelsareUnsupervisedMultitask

LearnersGPT使用方法GPT-2usage:zeroshotorone

shotZero-shot:

以文本摘要为例输入:原文

+

“TL;

DR”输出:摘要One-shot:

以机器翻译为例输入:“Englishsentence1=French

sentence1”

+“Englishsentence2=”输出:“Frenchsentence2”GPT2Keyword:multi-task

(Generation)实验表现GPT-2在多个下游任务数据集上进行了评估,例如阅读理解、摘要、翻译以及问题解答等GPT-2在zero-shot设置下改进了8种语言建模数据集中7种state-of-the-art水平在阅读理解任务中,GPT-2在zero-shot设置下胜过4个基准模型中的3个在法语到英语的翻译任务中,GPT-2在zero-shot设置下的表现优于大多数无监督模型,但没有超越最新的无监督模型构建更大的语言模型将减少困惑度,并使语言模型更好理解自然语言哈尔滨工业大学社会计算与信息检索研究中心GPT-3LanguageModelsareFew-Shot

Learners模型架构GPT3=GPT2+Sparse

Attention传统(稠密)注意力机制:局部注意力机制:膨胀(带状)注意力机制:稀疏注意力机制是局部和膨胀注意力机制的结合:使用方法GPT3Keyword:In-contextLearning(few-shot,one-shot,

zero-shot)架构笨重,缺乏可解释性缺少常识,对模型所产生的结果缺乏可解释性GPT-3

Beta

测试样例Qusetion:Whichisheavier,atoasterorpencil?GPT-3:Apencilisheavierthana

toaster.Qusetion:Howmanyeyedoesagiraffehave?GPT-3:Agiraffehastwo

eyes.Qusetion:Howmanyeyedoesmyfoothave?GPT-3:Yourfoothastwo

eyes.GPT-3花了24个月实现用户破百万(ChatGPT5天)数据偏见问In题struct

LearningGPT(-3z生er成o的-s文ho本t/具p有ro其m所pt训s)练语言的偏见zero-shotone-shotfew-shot哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的现在Instruct

GPT/ChatGPTChatGPT/InstructGPT的成功之处情景学习思维链指令学习大模型的涌现能力改变传统学习范式大模型的涌现能力打破模型参数约束人在环路增强对齐人类意图ChatGPT的三个关键能力Credits:Xipeng

QiuInstructGPT演进路径(已知=>未知)已知未知未知未知未知InstructGPT

的进化树/docs/model-index-for-researchersGPT3

=>

InstructGPT训练未知InstructGPT演进路径(能力猜测)InstructGPT

的进化树/docs/model-index-for-researchers底座能力:大规模预训练模型模型规模足够大才能有“涌现”的潜力情景学习:InstructionTuning将任务用Prompt形式统一精调语言模型(Instruction

Tuning)模型能够处理未见任务思维链能力:在代码上进行继续预训练代码分步骤、模块解决问题涌现出逐步推理能力(COT)和人类对齐能力:RLHF结果更符合人类的预期(多样性、安全性)利用真实用户的反馈(AI正循环、飞轮)指令微调(InstructionTuning)Credits:

https://docs.cohere.ai/docs/prompt-engineering指令微调(InstructionTuning)Credits:

https://docs.cohere.ai/docs/prompt-engineering情景学习(In-Context

Learning)Credits:

https://docs.cohere.ai/docs/prompt-engineering情景学习(In-Context

Learning)Thisisamoviereviewsentimentclassifier.Review:"Ilovedthismovie!"Thisreviewispositive.Review:"Idon'tknow,itwasokIguess.."Thisreviewisneutral.Review:"Whatawasteoftime,wouldnotrecommendthismovie."Thisreviewisnegative.Review:"Ireallyenjoyedthismovie!"Thisreview

isCredits:https://docs.cohere.ai/docs/prompt-engineeringWei.et.al.2022.Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguage

Models思维链(Chain-of-Thought,

COT)思维链表示一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来Code-aided

ReasoningPAL:Program-aidedLanguage

ModelsWei.et.al.2022.Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguage

Models思维链(Chain-of-Thought,

COT)思维链表示一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来打破Scaling

Law的关键ReinforcementLearningfromHumanFeedback

(RLHF)!"#$%&'()*+,-./012GPT-334!"5346789:<=>?,()@A34BC@A34,DEFGHIJPPOKL534<MN()OProximalPolicy

OptimizationP过去

Token-level

RL

为什么没有成功Token-level

太稀疏,rollout

太慢Reward

model

太小,容易学到

reward

的弱点Minlie

Huang第一步:

有监督微调(SFT)-1训练InstructGPT-beta版本SFT

(Supervised

fine-tuning):在人工书写的示例上进行有监督微调,该方式得到的模型有davinci-instruct-beta标注人员手写

promptsPlain:

标注人员提出任意一个任务,同时保证任务的多样性Few-shot:

要求标注人员提出一个指令,以及在该指令下的多轮“查询-回复”User-based:

根据用户在

OpenAI

API

各种应用程序中提交过的用例(涵盖GPT3

API)数据样例数据集的构建:用户

prompts

数据样例第一步:

有监督微调(FeedME)-2/docs/model-index-for-researchers第一步:

有监督微调(FeedME)-2FeedME(FeedbackMade

Easy):在人工书写的示例以及标注者选择的模型最佳输出上进行有监督微调,该方式得到的模型有text-davinci-001,text-davinci-002标注人员手写prompts,为labeler通过开源text-davinci-001收集了更多的prompts,customerFeedME

(Feedback

Made

Easy):选择模型最佳输出,无需标注,7/7(具体细节未知)/docs/model-index-for-researchers数据质量

+

多样性第二步:训练奖励模型收集排序数据,训练奖励模型采样出一条prompt

以及第一步模型的多条输出标注人员对模型的输出进行由好到坏的排序奖励模型由参数量为6B的SFT模型初始化,输入prompt以及第一阶段模型的回复,输出是0-1之间的分数。利用排序好的数据,根据Pairwise

RankingLoss优化奖励模型来模拟标注人员的偏好第二步:训练奖励模型PairwiseRanking

LossLoss

𝜃 =

−E

!

! ",$#,$$"~&[log(𝜎(𝑟' 𝑥,

𝑦( −𝑟'(𝑥,

𝑦))))]只提供了标注人员标注的排序数据,需要转化为reward模型打分的损失利用

pairwiseranking

loss,最大化两个排序数据之间的打分差距Pairwise

能够有效地增加训练数据如果将每个

* 候选pair当作一个独立的训练样本,会导致过拟合+每个样本pair会进行

K-1

次梯度更新,导致过拟合!"将 个两两排序的候选pair放在同一个

batch

中进行梯度下降,一方面防止过拟合,另一方面能够带来计算代价上的优化数据质量

+

多样性第三步:强化学习使用强化学习PPO算法优化policy从数据集中采样出一条新的promptPolicy模型首先利用第一阶段微调得到的SFT模型初始化,然后根据prompt生成对应的模型输出第二步训练得到的奖励模型对该输出计算reward,并利用该reward通过proximalpolicyoptimization(PPO)

算法优化Policy第三步:强化学习优化目标中的正则项约束=E",$

~&&%'(,𝑂

𝜙 𝑟' 𝑥,

𝑦 −𝛽

log(𝜋-. 𝑦

𝑥

/𝜋/01(𝑦|𝑥)) +𝛾E"~&)*+,*-./,[log(𝜋-.(𝑥))]当利用RLHF对Policy进行更新后,RL

Policy的输出会和训练奖励模型时用的SFT模型输出不同,会导致奖励模型的reward估计效果变差加入KL散度惩罚项,使得Policy模型的输出和SFT模型的输出别相差太远仅仅通过模拟人类偏好来优化模型会使得模型在很多NLP任务上性能退化加入一个额外的语言模型在预训练数据上的优化目标第四步:飞轮优化123飞轮优化InstructGPT

ChatGPT

的区别ChatGPT

能够生成更加翔实的回复:可能来源于训练奖励模型过程中标注人员对“更加翔实的回复”的偏好=》偏好冗长ChatGPT

更加擅长多轮对话的内容形式:可能来源于指令微调过程中标注人员标注的多轮对话数据ChatGPT

能够更好地捕获多轮对话中的COT和长程依赖:可能来源于

ChatGPT

的初始化模型——GPT3.5

在代码上的预训练,

InstructGPT

论文没有哈尔滨工业大学社会计算与信息检索研究中心ChatGPT的未来GPT-4%&'()GPT-4

模型的谣言发布时间在最近的一次访谈活动中,OpenAI

的CEO

Sam

Altman

被问及

GPT-4

是否会像许多人预期的那样在第一季度或今年上半年推出。他没有给出具体的时间,只是说:“在我们有信心它可以安全且负责任地运行时,它自然就会出现。”GPT-4

模型的谣言模型参数规模Altman

还被问及

GPT-4

的参数规模是否会像网上广为流传的一样,将达到惊人的100万亿参数,Altman

称其为“一派胡言”GPT-4

模型的谣言多模态多模态大模型是一项极具挑战性的任务。虽然OpenAI

称深度学习的未来是多模态模型,但是Altman

在采访中称GPT

4会和前三代一样仍然是纯文本模型。GPT-4

应具备的优化策略猜测词表优化模型大小和训练数据规模应该匹配。DeepMind通过实验表明,

参数量为

70B

的Chinchilla模型,在使用1.4Trillion

tokens

训练后,在多个下

在300Billiontokens

上训练的280B参数量的Gopher模型。GPT4—Fact

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论