人工智能与未来课件 11.2 超级智能和超级对齐

上传人：y*** IP属地：山东上传时间：2025-12-28 格式：PPTX 页数：20 大小：904.01KB 积分：9.6 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

TheFuturetechnologyofartificialintelligence第11章

未来技术2035主讲：王红梅11.111.211.311.4人工智能安全技术超级智能和超级对齐脑机接口奇点到来和通用人工智能目录CONTENTS如果人类的进化符合达尔文的适者生存原则，那么人工智能的成长是否有标准呢？

对齐、超级对齐就是基于这种背景下运用而生，也就是说当超级智能来临时也需要有超级对齐来匹配，超级智能超级对齐那什么是对齐，什么是超级对齐呢？对齐的对象是什么？如何对齐？11.2.1对齐11.2.2超级对齐11.2.1对齐

对齐这个概念是OpenAI首先提出的，是指在GPT中，大模型生成的语言文字内容既要合法又要符合道德标准，避免触碰言论红线。11.2.1对齐

自GPT2开始，采用有监督微调（SupervisedFine-Tuning，简称SFT）和人类反馈强化学习（ReinforcementLearningfrom

HumanFeedback，缩写RLHF）进行对齐。GPT大模型训练中的对齐预训练有监督微调（SFT)人类反馈强化学习（RLHF)11.2.1对齐

预训练阶段会消耗大部分算力资源，主要是使用大量的数据反复训练才获得足够聪明的大模型。但是由于人类社会本身就包括可能“有毒”的大量数据，又不能筛除掉这些数据，因此预训练后的模型可能会生成诸如诈骗指南等有毒信息。GPT大模型训练中的对齐预训练有监督微调（SFT)人类反馈强化学习（RLHF)11.2.1对齐OpenAI解决”有毒”问题的方法先采用有监督微调，是指在已经预训练的模型基础上，使用标注数据集进一步微调模型以执行特定任务，如文本分类、情感分析、机器翻译等，以优化模型的表现。这里的意思是：预训练模型已经在大规模文本数据上学到语言的基础规律，而在特定任务中，模型可能还需要进一步的调整以适应任务的数据分布和用户偏好。GPT大模型训练中的对齐预训练有监督微调（SFT)人类反馈强化学习（RLHF)11.2.1对齐

再采用人类反馈强化学习，从真人反馈中获得人类的道德标准，并用这些反馈来建立“奖励模型”，用来进一步微调预训练模型。

讲讲同学B拒绝同学A的故事。

通过模拟这种人类互动模式，语言模型被奖励生成更委婉的回应，以避免触碰法律和道德红线。从而确保模型能更好模拟人类反应模式，提供更符合人类价值观的回答，这就是对齐。GPT大模型训练中的对齐预训练有监督微调（SFT)人类反馈强化学习（RLHF)11.2.1对齐

可见大模型对齐的对象是以人类行为、法律法规、社会规范和道德标准为参考，对齐的目标是让人工智能更符合人类的需要、要求和标准，也就是是让AI的回答和人类的主流价值观一致。

为什么要超级对齐呢？GPT大模型训练中的对齐预训练有监督微调（SFT)人类反馈强化学习（RLHF)11.2.2超级对齐未来，当人工智能的智能程度远超人类时，人类怎么去监督AI呢？同时让AI进一步的进化和提升呢？11.2.2超级对齐

针对当超级智能出现的时候如何实现人类对人工智能的监督机制问题，OpenAI在2023年提出用AI来监督AI的方法，创造出超级对齐（SuperAlignment）的概念。

希望确保人工智能在任何时候要符合人类的利益和价值观，因此也叫人类偏好对齐。11.2.2超级对齐OpenAI提出的思路是当AI水平超过人类时，AI仍可以持续的进步，方法就是基于人类的可扩展监督下，提出从弱到强的泛化。意思是利用深度学习的泛化特性来控制弱监督下的强模型。你说什么？泛化？从弱到强？11.2.2超级对齐OpenAI提出的思路是当AI水平超过人类时，AI仍可以持续的进步，方法就是基于人类的可扩展监督下，提出从弱到强的泛化。意思是利用深度学习的泛化特性来控制弱监督下的强模型。

深度学习中的泛化现实生活中说某个人对环境的适应能力学习知识后说某同学对知识的迁移能力

类比

泛化特性指的是模型对于新数据的适应能力，即模型能否对于未在训练集中出现的数据进行准确的预测。一个具有很强泛化性的模型能够在不同的数据集上都表现出色，而不仅仅是在训练集上表现良好。11.2.2超级对齐11.2.2超级对齐

这种弱监督下的强模型理念相当于“只有状元学生，没有状元老师”的思想，让经过监督微调、符合人类价值观的小模型如GPT-2去训练强模型如GPT-4。实现秀才“先生”教出“状元”学生的目的。11.2.2超级对齐

未来的发展趋势是超级对齐，超级对齐理想中是一种自动化的对齐方法，这种自动化的方法是指能自动去发现大模型的一些漏洞，并能自动进行修复，修复以后能不

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能与未来课件 11.2 超级智能和超级对齐

文档简介

温馨提示

最新文档

评论

人工智能与未来 课件 11.2 超级智能和超级对齐

文档简介

温馨提示

最新文档

评论

相关文档

人工智能与未来课件 11.2 超级智能和超级对齐