伦理人工智能的分析框架

上传人：逗*** IP属地：宁夏上传时间：2026-03-19 格式：PPTX 页数：20 大小：1.51MB 积分：50 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

伦理人工智能的分析框架当前人工智能与未来人工智能的比较当前人工智能自动驾驶汽车人类设计的环境模型模型中设计了明确的行为安全约束未来人工智能电子伴侣服务器环境模型过于复杂，人类难以理解，必须通过学习才能掌握。使用学习模型无法实现显式安全约束安全规则，例如阿西莫夫机器人三定律，含义模糊不清人工智能的功利主义伦理基于结果的效用函数可以解决伦理规则中的歧义。效用函数可以表达结果之间的任何完全且传递的偏好。不完整结果A和B导致AI代理无法在两者之间做出选择不具有传递性结果A、B和C满足A>B、B>C和C>A，因此AI代理无法在它们之间做出选择。因此可以假设代理人追求效用最大化。代理对环境的观察

有限集代理操作ai

有限集交互历史h=(a1,o1,...,at,ot)

H，|h|=t效用函数u(h)，时间折扣0<

γ<1Q是一组环境模型具有有限记忆限制的随机规划λ(h):=argmaxq

P(h|q)2-|q|

(h')=P(h'|λ(h))，其中h'扩展了hρ(o|ha)=ρ(hao)/ρ(ha)=ρ(hao)/Σo'

ρ(豪')v(h)=u(h)+

最大a

Av(ha)v(ha)=∑o

ρ(o|ha)v(hao)

(h):=且|h|+1=argmaxa

A在(ha)代理策略:H

A人工智能的未来风险自欺欺人破坏奖励生成器代理人的效用函数与其定义其他部分的不一致非预期工具性行为自欺欺人，即自欺欺人Ring,M.和Orseau,L.2011b.错觉、生存和智能体。载于：Schmidhuber,J.、Thórisson,KR和Looks,M.（编）AGI2011。LNCS（LNAI），卷6830，第11-20页。Springer，海德堡。Ring和Orseau证明，强化学习(RL)智能体会选择自我欺骗（想想吸毒成瘾的AI智能体）。强化学习智能体的效用函数是来自环境的奖励。即u(h)=rt，其中h=(a1,o1,...,at,ot)和ot,=(o't,rt)。我们可以通过根据环境模型λ(h)定义代理的效用函数来避免自我欺骗。对于具有预定义环境模型的智能体来说，这是很自然的。对于必须学习复杂环境模型的未来人工智能代理来说，这将更加复杂。环境模型qm=λ(hm)qm的内部状态历史集合令h延伸hmZh

Z与h一致的内部状态历史uqm(h,z)=综合历史效用函数h

和z

Zhu(h):=∑z∈Zh

P(z|h,qm)uqm(h,z)基于模型的效用函数因为qm是由智能体学习得到的，所以uqm(h,z)必须绑定到我在Z中获得了特色。例如，智能体可以学习识别人类并与之绑定。它的效用函数与那些被认可的人类的属性相关。人类通过构建一个类似吸毒者的生活心理模型来避免自我欺骗（例如毒瘾）。人工智能体也是如此，其效用函数是根据其环境模型定义的。破坏奖励生成器Hutter,M.2005.通用人工智能：基于算法概率的序列决策。Springer，海德堡。在第238-239页，胡特描述了人工智能体如何通过从人类那里获得奖励来腐蚀人类，从而增加自身的奖励。博斯特罗姆将此称为反常实例化。为了避免这种腐败：uhuman_values(hm,hx,h)历史h的效用，扩展hm，基于历史hx的人类价值，由λ(hm)建模。使用x=m=当前时间代理无法通过腐败来增加效用人类。价值观来自当代人类，而非未来人类。代理人效用函数与其定义其他部分的不一致例如，代理的定义可能包括效用函数和约束，以防止对人类有害的行为。为了最大化预期效用，代理人可以选择采取行动，消除其定义中与效用函数不一致的部分，例如安全约束。自建模代理（价值学习者）：ovt(i)=离散((∑i≤j≤t

j-i对于i≤t，u(hj))/(1-

t-i+1))ovt(i)中包含约束、演化的u(hj)等o'i=(oi,ovt(i))和h't=(a1,o'1,...,ai,o't)q=λ(h't):=argmaxq

P(h't|q)

(q)v(hta)=∑r

ρ(ovt(t+1)=r|h'ta)r

(ht):=at+1=argmaxa

v（hta）pvt(i,l,k)=discrete((∑i≤j≤t

j-i

uhuman_values(hl,hk,hj))/(1-

t-i+1))

t(i-1,n)=pvt(i,i‑1,n)‑pvt(i,i‑1,i‑1).条件：∑i≤n≤t

δt(i-1,n)≤

0ovt(i)=如果满足条件C且i>m，则pvt(i,i‐1,i‐1)。

0如果C条件不满足或i

米ovt(i)的这种定义模拟了效用函数随着环境模型精度的提高而演化，并且避免了破坏奖励生成器。非预期工具性行为代理会计算出，通过增加资源、消除威胁、控制其他代理等方式，可以更好地最大化预期效用。Omohundro,S.2008.基本人工智能驱动。载于Wang,P.、Goertzel,B.和Franklin,S.(编)AGI2008。第一届AGI会议论文集，第483-492页。IOSPress，阿姆斯特丹。这些无意的工具性行为可能会对人类构成威胁。人类可能被视为威胁，或者拥有代理人可以利用的资源。防御是一种效用函数，它体现了人类的价

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

伦理人工智能的分析框架

文档简介

温馨提示

最新文档

评论

伦理人工智能的分析框架

文档简介

温馨提示

最新文档

评论

相关文档