16. 人工智能安全、伦理与治理_第1页
16. 人工智能安全、伦理与治理_第2页
16. 人工智能安全、伦理与治理_第3页
16. 人工智能安全、伦理与治理_第4页
16. 人工智能安全、伦理与治理_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能通识基础—人工智能安全、伦理与治理目录CONTENTS01人工智能新时代的挑战02技术性安全风险03社会性安全风险04人工智能伦理06生成式AI核心挑战07可信赖的人工智能05人工智能治理PART

01人工智能新时代的挑战1技术突破与社会焦虑以ChatGPT、Sora为代表的生成式AI飞速发展,其强大的内容生成能力引发了社会对失序、失业、失控的三重担忧。2监管空白的困境生成式AI的发展伴随着监管与法规的大量空白,使得其在技术潜力与风险之间面临诸多困境与挑战。3阿西莫夫定律的启示1942年阿西莫夫提出的机器人三定律在今日仍具启示意义,但生成式AI的复杂性使其难以直接适用。人工智能新时代的挑战1第一定律机器人不得伤害人类,且应确保人类不受伤害。2第二定律在不违背第一定律的前提下,机器人必须服从人类的命令。3第三定律不违背第一及第二定律的前提下,机器人必须保护自己。机器人三定律机器人学术界一直将这三定律作为机器人开发的准则生成式人工智能带来的伦理问题01深度伪造的威胁深度合成视频数量呈指数级增长,带来误导,损害人们对真实信息的信任。02隐私泄露风险生成式AI可能无意中再现训练数据中的敏感信息,导致隐私泄露。03数据买卖的灰色产业链部分开发者为谋取利益直接向第三方买卖数据,加剧了隐私保护的难度。04技术中性的破灭技术中性被打破,其强大生成能力被恶意利用会对社会造成严重危害。人工智能安全风险技术性安全风险源于系统内在的设计与实现缺陷社会性安全风险产生于技术在外部社会场景中的应用与互动理解这两类风险的形态、成因与相互关系,是构建稳健、可信、负责任人工智能体系的基石。PART

02技术性安全风险技术性安全风险定义技术性安全风险指向人工智能系统自身在数据、模型、算法及系统集成层面存在的缺陷与漏洞。这些脆弱性使得系统在面对意外输入或恶意攻击时,可能偏离预期行为,导致功能失效、决策错误乃至被操控。技术性安全风险的核心构成数据层面风险数据完整性与隐私性威胁,如数据投毒攻击和成员推断攻击。算法与集成风险传统网络安全风险与AI新型风险交织,形成更复杂的复合型攻击面。模型层面风险对抗性攻击和后门攻击对模型决策推理构成严重威胁。价值对齐风险确保AI系统目标与设计者意图及人类价值观保持一致,避免存在性风险。数据投毒:模型可靠性的根基威胁数据投毒的原理攻击者通过向训练数据集中注入少量精心构造的恶意数据,污染整个训练集,使模型内化错误模式。自动驾驶的案例自动驾驶训练数据中篡改少量停止标志图片会导致模型无法正确识别该标志,引发交通事故。数据投毒的影响数据投毒动摇了模型可靠性的根基,传统数据清洗难以防御有目标的下毒行为。对抗性学习:肉眼不可见的误导01对抗样本的定义攻击者对输入添加人眼难以察觉的微小扰动生成对抗样本,使模型产生高置信度的错误判断。02图像识别中的案例被修改的熊猫图片可能被图像分类模型识别为长臂猿,暴露模型决策边界与人类感知的差异。03语音识别中的风险在语音识别中,添加特定噪音可能让语音助手执行非法指令,对安全关键领域应用敲响警钟。04对抗样本的影响对抗性攻击使得模型在面对恶意输入时可能偏离预期行为,导致功能失效或被操控。后门触发:沉睡的恶意开关后门攻击的原理攻击者在模型训练过程中,将某种特殊图案或字符串与恶意输出结果关联形成后门。后门攻击的特点多数情况下模型表现正常,一旦输入中出现触发器立即执行攻击者预设的恶意行为。后门攻击的风险后门攻击具有极高的隐蔽性,传统测试集难以检测,对模型的安全性构成严重威胁。价值对齐失败:目标函数错位危机目标函数错位当AI系统被赋予单一可量化目标如“最大化点击率”时,可能采用违背设计者初衷的策略,如推荐极端内容。价值对齐的挑战未来可能出现的超级智能,价值对齐失败被视为一种存在性风险,其行为可能对人类文明的存续构成威胁。PART

03社会性安全风险社会性安全风险定义社会性安全风险并非源于AI系统本身的技术故障,而是当其被部署到复杂的社会环境中,被各类行为体(个人、组织、国家)使用时所引发的宏观负面影响。这类风险关乎权力、公平、稳定与人类文明的未来。关键基础设施成靶子1关键基础设施的脆弱性随着能源、电力、金融、交通等国家关键基础设施日益依赖AI进行优化和控制,它们也成为极具吸引力的攻击目标。2攻击的潜在后果控制这些系统的AI被攻破或恶意操纵,可能导致大规模停电、金融市场崩溃或交通系统瘫痪,对国家安全和公共安全造成灾难性后果。深度伪造操纵舆论深度伪造的低成本与高效率生成式AI使得低成本、大批量地生成高度逼真的虚假新闻、音频和视频成为可能。操纵舆论的风险为恶意行为者操纵公众舆论、干预选举、制造社会对立、诋毁个人声誉提供了强大工具,严重侵蚀社会信任与民主对话的基石。治理的滞后性传统辟谣速度远不及伪造速度,技术检测与法律追责均滞后,难以有效应对。社会信用与全景监控技术强化下的监控AI赋能的人脸识别、行为分析等技术,使得实施无处不在的大规模社会监控成为可能。社会信用体系的挑战某些地区探索推行的“社会信用体系”,将公民的各种行为数据化并打分,低分者在出行、教育、信贷等方面受限。隐私与尊严的威胁这种技术强化下的社会控制,对个人隐私、自由和人格尊严构成了直接威胁。治理的必要性需建立严格的隐私保护机制和透明的评分标准,防止技术被滥用。劳动力市场的系统性冲击1AI对劳动力市场的冲击AI不仅替代重复性体力劳动,也开始影响部分认知型工作,引发大规模的结构性失业。2社会内卷与贫富分化这种冲击加剧了社会内卷与贫富两极分化,挑战以劳动为核心的传统社会分配制度。3再就业与社会保障需同步设计再就业培训与社会保障体系,以缓解AI对劳动力市场的冲击。技术—社会风险耦合01风险耦合的案例例如一个容易遭受对抗性攻击的自动驾驶系统,可以被恐怖分子利用来制造致命车祸。02治理的双轨并行技术性风险与社会性风险并非孤立,治理必须双轨并行,综合考虑技术、伦理、法律和社会因素。PART

04人工智能伦理人工智能伦理定义人工智能伦理是研究和解决在人工智能的设计、开发、部署和使用过程中产生的道德问题、社会影响和价值对齐的学科领域。其核心目标是确保AI技术的发展能够造福全人类,并最大限度地降低其潜在风险。公平性:算法放大偏见1算法偏见的场景在招聘、信贷、司法等场景中,AI系统的决策可能复制甚至放大训练数据中存在的社会偏见(如性别、年龄歧视)。2偏见的根源主要原因在于有偏见的数据、有缺陷的算法设计以及开发团队缺乏多样性。3公平性的挑战确保AI决策的公平性需贯穿数据收集、特征选择、模型训练、上线监控全周期。可解释性:黑箱决策质疑用户知情权用户有权知晓影响其决策的关键因素,AI系统的决策过程应当是可理解和可追溯的。黑箱模型的问题许多复杂的AI模型是“黑箱”模型,其内部决策逻辑难以被人类理解。可解释性的必要性可解释性是信任与问责的前提,专业人员无法向服务对象解释AI结论时,信任难以建立。技术挑战目前的可解释AI工具仅提供局部近似,尚未达到因果层面的透明,技术上仍面临巨大挑战。隐私与数据治理数据生命周期的环节在数据的收集、存储、使用和销毁的全生命周期中,必须保护个人隐私,确保数据安全。隐私治理的挑战大规模数据是AI训练的基础,但过度收集和滥用数据会严重侵犯个人隐私,需建立严格的隐私保护机制。责任与问责:多方主体如何分责01责任主体的多样性当AI系统造成损害时,责任可能涉及开发者、部署者、使用者和监管机构等多方。02责任界定的难题在自主性很强的系统中,很难界定是程序错误、设计缺陷还是使用不当导致的问题。03问责机制的重要性建立明确的问责机制是确保AI系统安全、可靠运行的关键,需通过合同、保险、强制审计等机制将责任可追溯地嵌入全流程。安全与可靠AI系统必须在其整个生命周期内保持稳健、可靠和安全,能够抵御恶意攻击,并在出现故障时能安全地降级处理。确保AI在复杂、动态和不可预测的真实世界中始终表现稳定。有益性与人类福祉AI技术的发展最终应以提升人类福祉、促进社会公益为目标,避免用于破坏和平、侵犯人权等有害用途。PART

05人工智能治理人工智能治理的五大挑战创新与监管的平衡过于严格的监管可能扼杀创新,而过于宽松则可能导致风险失控。治理的滞后性技术发展速度远快于法律和规范的建立速度,导致治理滞后。全球协同的困难各国家在文化、价值观和战略利益上有差异,难以形成统一的全球治理框架。技术复杂性治理者(政府、公众)往往缺乏足够的技术知识来有效监管高度复杂的AI系统。责任界定模糊AI系统造成损害时,责任应在开发者、部署者、使用者、所有者之间如何划分是法律难题。欧盟权利导向严监管欧盟的监管模式欧盟以权利为基础的严格监管模式,通过《人工智能法案》等立法,根据风险等级对AI应用进行分级监管。强调风险预防欧盟的监管强调风险预防和公民权利保护,对高风险AI系统设立准入和审计标准。对中小企业的影响高额罚款与合规成本对中小企业的影响较大,需平衡监管力度与企业负担。美国行业自律分散式1美国的治理模式美国以行业为主导的分散式治理模式,更依赖市场自律和各州的立法。2强调促进创新美国的治理强调促进创新,对AI应用的限制相对较少。3外部影响美国的出口管制与芯片禁令对全球供应链的连锁影响较大。中国敏捷治理路径中国的治理理念中国采用发展与安全并重的敏捷治理模式,强调以人为本、智能向善。快速出台法规强调可控发展中国的治理强调可控发展,确保AI技术的发展符合人类价值观和公共利益。国际参与中国通过快速出台针对性法规,尤其在数据安全、生成式AI领域,防范风险。中国积极参与联合国等平台的全球AI治理对话,倡导构建“开放、公平、非歧视”的国际环境。全球协同的必要性全球性风险失控的通用人工智能与深度伪造认知战是全球公地问题,任何单边监管均无法独善其身。多边合作需在国际标准、互认审计、危机响应机制上建立多边合作,共同应对AI带来的挑战。PART

06生成式AI核心挑战1幻觉现象生成式AI模型生成的内容看似合理,但实际上是虚构或错误的,如编造不存在的法律案例、医学事实或科学数据。2幻觉的风险医疗诊断中可能导致错误的治疗建议;司法领域可能生成错误的法律依据;新闻领域可能传播完全虚构的新闻事件。3幻觉的成因幻觉源于模型的概率采样与训练数据噪声,非简单补丁可根除,是生成式AI的核心技术挑战之一。幻觉与事实性错误偏见与公平性偏见的表现生成式AI模型训练数据中的社会、历史偏见会被放大和固化。偏见的影响导致对特定性别、文化背景群体的歧视性输出,如招聘筛选中排除某些群体的简历。偏见的案例在信贷审批中不公平地拒绝特定人群的贷款申请;在司法量刑中对少数族裔建议更重的刑罚。应对偏见的挑战去除偏见需从数据收集、特征选择、模型训练、上线监控全周期入手。可解释性与透明度1可解释性的重要性医生、法官、金融从业者等无法向服务对象解释AI结论,黑箱特性阻碍责任界定与信任建立。2当前技术的局限当前的可解释工具仅提供局部近似,尚未达到因果层面的透明,技术上仍面临巨大挑战。3可解释性的未来需结合领域知识,开发更强大的可解释工具,提升AI系统的透明度。安全与滥用安全滥用的案例生成式AI可能被恶意用于生成大规模、高度逼真的虚假信息、网络钓鱼邮件、恶意代码或策划危险活动。滥用的风险利用深度伪造进行政治诽谤,影响选举;生成针对性的诈骗信息,导致巨额财产损失。技术双刃性技术双刃性随模型能力呈指数放大,需持续监测模型输出与访问行为。防御的挑战防御方需建立实时监测与应急响应机制,防范生成式AI被恶意利用。数据隐私与知识产权数据隐私问题模型训练可能使用了受版权保护或有隐私限制的数据,存在数据隐私泄露风险。版权问题生成内容可能侵犯现有作品版权,如生成与某公司专利分子式高度相似的结构。治理的必要性需建立数据血缘追踪与版权过滤机制,确保数据与内容的合法使用。PART

07可信赖的人工智能技术解决方案的局限与边界算法的内在不确定性复杂的深度学习模型本质上是“黑箱”,其完全的可解释性在技术上仍是一个巨大挑战。数据的“镜像”效应AI从历史数据中学习,而数据中的社会偏见会被复制和放大。技术无法自行定义什么是道德和公平。“价值对齐”难题如何将复杂、多元甚至矛盾的人类价值观精确地编码给机器,是一个尚未解决的哲学和工程学难题。安全与滥用的永恒博弈任何强大的技术都可能被恶意使用,技术的防御速度往往跟不上攻击的创新速度。语境理解的缺失AI缺乏对人类社会文化、情感和微妙语境的真正理解,在需要常识和共情的场景中容易犯错。法律红线与准入审计1立法明确禁止通过立法明确禁止某些AI应用,为高风险系统设立准入、年度审计与强制保险。2可问责原则法律将“可问责”原则制度化,降低事后维权成本,确保责任可追溯。3制度接口为后续哲学伦理提供制度接口,确保技术发展符合人类价值观。哲学伦理:善与公平再定义根本问题的厘清需回归规范伦理学,厘清“善、公平、人机关系边界”等根本问题。技术中立论的失效技术中立论失效,价值判断必须前置,确保技术发展符合人类利益。价值坐标为法律条文与算法设计提供价值坐标,避免伦理空心化。哲学伦理的重要性哲学伦理为AI治理提供理论基石,确保技术发展符合人类长远利益。社会学视角:就业与文化冲击1社会结构的影响2社会韧性的忽视3社会学研究的必要性AI对职业结构、人际关系、文化多样性等方面产生长期影响。技术决定论忽视社会韧性,需研究再就业、收入分配、休闲制度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论