人工智能安全趋势研究报告_第1页
人工智能安全趋势研究报告_第2页
人工智能安全趋势研究报告_第3页
人工智能安全趋势研究报告_第4页
人工智能安全趋势研究报告_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本期主题□人工智能安全趋势研究『所长导读』近年来,随着人工智能技术的快速迭代与深度应用,其对社会经济和日常生活的变革性影响日益显现。然而,与技术进步相伴的是日趋复杂的安全挑战。如何在推动技术创新的同时,确保人工智能系统的安全、可靠和可控,成为当前全球科技发展的核心议题。本期《人工智能安全趋势研究》从供应链、数据、算法、应用和伦理五个层面梳理了人工智能的安全风险,分析了高端芯片断供、数据泄露、对抗性攻击、深度伪造以及伦理困境等问题对人工智能技术发展的潜在威胁。同时,介绍了机密人工智能、联邦学习、对抗性机器学习、AIGC检测、可解释人工智能等技术解决方案,并展望了人工智能安全测评的发展方向。此外,针对我国实际情况,报告提出了完善人工智能治理体系、加快关键技术研发、推动人工智能安全标准建设以及加强公众教育等具体建议,助力我国人工智能实现安全、可持续的高质量发展。在当前人工智能技术加速融入社会经济各领域的背景下,推动人工智能安全发展不仅关乎技术本身,更是构建和谐社会、维护公平秩序的重要前提。希望本期内赛迪研究院网络安全研究所所长温晓君20241215目录目录CONTENTS一人工智能安全… 1(一)人工智能内生安全 1(二)人工智能衍生安全 2二人工智能安全风险分析… 2(一)供应链安全 2(二)数据安全 4(三)算法安全 5(四)应用安全 6(五)伦理安全 8三、人工智能安全解决方案和技术趋势… 10(一)数据安全与隐私保护 10(二)算法安全与模型防护 13(三)人工智能生成内容检测和溯源 15(四)人工智能透明度和信任构建 17四、人工智能安全测评趋势 21(一)人工智能安全测评标准 21(二)人工智能安全测评平台和工具 22(三)人工智能安全测评未来展望 23五、促进我国人工智能安全发展的对策建议… 24(一)构建多层次的人工智能安全治理体系 24(二)加快技术研发与自主生态建设 25(三)完善人工智能安全标准与测评体系… 26(四)加强伦理引导与公众教育 27本期主题:人工智能安全趋势研究一、人工智能安全人工智能作为引领科技革命和产业变革的核心技术,已经深刻改205021近几年深度学习和大模型的迅猛发智能驾驶等多个领域取得了显著成果。尤其是ChatGPT、Sora型的广泛应用,使得人工智能逐步渗透到人们的日常生活与工作中。然而,随着人工智能技术的普及化与复杂化,其安全问题日益凸显。一旦人工智能系统被滥用、误用或还可能对社会秩序、伦理道德乃至国家安全构成威胁。因此,全球各国逐渐将人工智能安全作为重要议题,开展相关研究与政策制定。人工智能安全可分为人工智能

(AISecurity)和人工智(AISafety)全指的人工智能系统自身存在的脆无法达到预设的功能目标。这往往源于新技术的不成熟,或是技术自身的天然缺陷。衍生安全则是指人工智能技术的脆弱性被利用,虽然其自身能够正常运行,但是危及其他领域的安全。这两方面共同构成了人工智能安全的核心内容,决定可控的前提下持续健康发展。(一)人工智能内生安全人工智能内生安全包括供应链供应链安全:人工智能供应链安全是指在人工智能供应链的整个生命周期中,确保所涉及的训练框芯片、云服务等软硬件和服务的安全性、完整性和可靠性。数据安全:人工智能数据安全是指通过采取必要措施,确保人工智能系统使用的数据得到有效保护,并且合法、安全地被利用,同时具备持续保障数据安全状态的能力。算法安全:人工智能算法安全是指在整个人工智能系统的设计、开发、部署和使用过程中,确保算法的公正性、透明性、鲁棒性和抗攻击能力,同时采取必要措施保护算法免受未经授权的访问和篡改,以及确保算法的决策过程和结果合法、合规。(二)人工智能衍生安全人工智能衍生安全包括应用安全和伦理安全两个层面。用安全:人工智能应用安全是指确保人工智能应用在实际操作中的安全性和可靠性,防止其被滥用或误用,保障应用的输出和行为符合预期。伦理安全:人工智能伦理安全是指在人工智能系统的整个生命周期中,确保其设计和行为遵循以人为本的原则,尊重并保护个人权利,促进社会价值和公共利益,同时避

免产生不公平、歧视或责任不清等问题。二、人工智能安全风险分析为全面认识人工智能安全的现状,以下将从内生安全和衍生安全的这五个层面入手,具体分析当前人工智能安全的主要风险和应对手段。(一)供应链安全人工智能的运行依赖硬件与软件两大基础。高端芯片、GPU、FPGA等硬件为人工智能训练与推理提供算力支持,训练框架、操作系统、数据库、云服务和第三方库为模型开发、数据处理与应用落地提供必要环境。一旦供应链中任一环节出现断供或自身安全问题,可能造成研发进度受阻、性能下降、数据泄露或恶意代码植入等后果,从而动保障软硬件全链条的安全性,对于硬件供应链安全风险一是高端芯片以及关键器件的断供风险。近年来,围绕高端芯片供应的限制措施不断升级。2022年10月,美国商务部产业与安全局包括限制英伟达的A100H100GPU对华输出。随后英伟达为规A100H100推出针对中国市场的“降级版”产A800H800,202310A800H800纳入出口管制范畴。到202412月,BIS对华半导体出口管制措施24设备、3种相关软件工具以及高带宽内存(HBM)芯片等。上述规则的持续收紧表明,高端芯片和存储器等关键硬件的供应链已面临长期不确定性,可能对人工智能系统的算力供给与迭代升级造成制约。二是以智能芯片为代表的硬件本身存在20241AMDGPU品被曝出重大漏洞,攻击者可通过GPU内存窃取数据,对运行在该硬件之上的人工智能模型产生影响。20241064务中存在“零日漏洞”,且该漏洞

软件供应链安全风险一是人工智能底层框架等基础软件被少数西方公司垄断带来的供应链脆弱性。谷歌的TensorFlowPyTorch的人工智能框架中超过60%,英伟达的CUDA位。这种格局使得下游研发和应用流程长期绑定于既定工具链,一旦供应方实施限制或技术支持中断,人工智能产业链在模型训练和推理、性能优化等方面将受到明显影响。二是底层框架、第三方库以及开源模型等软件潜在的漏洞与后门操作系统、数据库、云服务以及训练框架的安全隐患正逐渐显现。例如,“tensrflwo”恶意代码包通过仿冒TensorFlow框架名称进行传播,在下架前累计被下载870次,并通过国内镜像源持续传播。202410月,字节跳动出现了一起重大模型投毒事件,攻击者利用HuggingFacetransformers代码库中load_repo_checkpoint数的安全缺陷,在模型加载环节实施恶意代码注入,导致模型训练异常。随着人工智能应用的不断推广,系统连接愈发密集,非法入侵的潜在触点也随之显著增加。(二)数据安全人工智能的能力高度依赖高质量且安全可靠的数据资源。然而,在模型训练和推理两个关键环节中,数据面临着多重安全风险,不仅威胁模型的性能和可靠性,还可能引发严重的社会和经济后果。如何有效应对数据安全挑战,已成为保障人工智能系统稳定运行的核心议题之一。训练阶段的数据安全风险一是数据投毒风险,攻击者通过植入偏见样本或不当内容,导致模型输出偏差性甚至歧视性结果。2016年,微软发布了一个名为Tay的聊天机器人,该机器人能够从与Twitter用户的对话中在线学习。然而,在短短24小时内,Tay在部分用户的引导下开始发布不当言论,包括脏话和种族歧视等内容。主要是因为在对话数据集中被恶意增加了不当的数据,导致Tay学习并模仿这些不当行为。二是数据标注不规范风险。标注质量直接影响

模型的有效性与可靠性,但即使是广泛用于人工智能训练的权威数据集,也并非完美无缺。麻省理工学院与亚马逊的研究人员对10个主流机器学习数据集进行评估后发现,平均有3.3%的数据标注存在错误,知名数据集ImageNet和CIFAR-100的错误率甚至接近6%。这意味着大量模型在无形中继承了错误标注所带来的偏差,进而影响对现实场景的判断与处理。当此类问题在自动驾驶、医疗诊断或公共安全等关键领域出现时,其影响已不再局限于模型性能的微小波动,而可能导致重大决策失误和安全隐患。推理阶段的数据安全风险一是用户无意向人工智能服务泄露机密信息。当用户与大模型等人工智能服务交互时,若缺乏安全意识与明确指引,可能将内部文件、商业机密及个人隐私信息直接输入系统,从而被模型记录并潜在扩散。20234起数据泄露事件,原因是三星允许半导体部门的工程师使用ChatGPT修复源代码问题,至少有三名员工直接将新程序的源代码本体、与硬件相关的内部会议记录等敏感数据以提问的方式输入给ChatGPT。数据安全公司Cyberhaven调查显示,2.3%的员工会将公司机密数据粘贴到ChatGPT中,企业平均每周向ChatGPT泄露机密材料达数百次。二是攻击者可以从模型中反向恢复训练数据,造成敏感信息泄露。研究发现,黑客可利用新的数据提取攻击方法从当今主流的大语言模型中大规模提取训练数据。现有的对齐与防护技术尚不足以彻底阻断数据提取攻击的途径,在缺乏安全措施的情况下,贸然训练和部署涉及敏感数据的人工智能应用可能引发严重后果。(三)算法安全人工智能系统的底层算法是驱动智能决策和认知能力的核心,然而这一“智能中枢”在复杂现实环境中可能暴露出多重安全隐患,包括内在缺陷、决策过程不透明、对抗样本攻击和知识产权窃取等问题。这些隐患不仅威胁人工智能系统的性能和可靠性,还可能影响其决策的公正性,甚至对相关产业的价值和安全造成严重冲击。

算法缺陷导致系统偏离预期人工智能系统在面对复杂场景时,可能因算法缺陷而偏离预期目标,造成重大损失。例如,2018,Uber自动驾驶汽车因机器视觉系统未能及时识别行人而发生致命事故。谷歌、斯坦福大学、加州大学伯克利分校和OpenAI的研究人员将算法模型设计和实施中的安全问题归纳为三类:一是目标函数定义错误,设计者在设计目标函数时未能充分考虑运行环境的约束条件,导致算法执行过程中对周围环境产生负面影响;二是目标函数计算成本过高,算法被迫采用简化的替代方案,无法达到预期效果;是模型表达能力不足,在面对训练数据集之外的新场景时容易产生错误结果。这些问题在大模型系统中表现得尤为突出,如ChatGPT模型在回答专业问题时可能生成貌似专业但实际错误的内容,即“幻觉”问题。目前,即便采用更大规模或更复杂的模型架构,也无法根本解决大模型的幻觉问题,这使得大模型的可靠性和能力备受质疑。算法黑箱阻碍监管审查随着深度学习等复杂模型的普及,算法决策的不透明性问题愈发突出。即便是开发团队也难以完GPT等大语言模型的推理过程。这种不透明性主要由三个因素造成:一是企业出于商业利益考虑而主动封闭算法细节;二是技术复杂度超出了普通用户的理解范围;三是深度神经网络本身的决策机制难以用简单逻辑解释。算法黑箱现象不仅影响了社会对人工智能的信对抗性攻击诱导系统错误判断是指攻击者通过对输入数据进行精心设计的微小扰动,使得机器学习模型在感知上几乎无法察觉这些变化,但却会导致模型输出错误结果的一种攻击方式。这些扰动可能包括图像的像素级调整、语音信号的微小变化,甚至文本中的无意义字符插入等。清华大学研究团队对主流商用模型的测试表明,通过精心设计的对抗样本,可以达到较高的攻击成功率:针对GPT-4V45%Bard

22%,BingChat26%。除了传统的对抗样本外,提示注入等新型攻击手段也层出不穷。在ChatwithCode事件中,攻击者通过注入特定提示词,成功控制人工智能系统执行未经授权的GitHub算法模型容易被窃取攻击人工智能算法模型作为使用大量数据和算力训练生成的关键数字资产,面临显著的窃取风险。尤其是在云服务环境中,模型的存储、传输和运行均可能暴露于潜在威胁之下,攻击者可能通过物理攻击、网络抓包、内存转储等方式窃取模型核心参数。这不仅威胁模型的机密性,还可能造成知识产权泄露,进一步削弱企业在技术和市场中的竞争力。(四)应用安全人工智能的广泛应用为各行各业注入了前所未有的创新活力,但也伴随着日益突出的安全风险。人工智能的强大能力一旦被不法分子利用,会使传统防御手段逐渐失效,进而威胁用户隐私、社会秩序乃至国家安全。随着人工智能技术的复杂化和普及化,其潜在风险正以更广的范围、更深的程度影响社会运行。人工智能赋能网络攻击人工智能为黑客带来了全新的攻击手段,使网络攻击更加高效且难以防范。网络安全公司HomeSecurityHeroes的研究人员使用人工智能密码破解器PassGAN1568万个密码进行了测试,发PassGAN1分钟的时间51%的密码。随着生成式人工智能技术的兴起,基于大模型的网络攻击也在显著增长。网络安全Enea2022ChatGPT攻击整体增加了1265%。同时,暗WormGPT、PoisonGPT、EvilGPT等多种恶意大模型,这些模型基于有害语料库训练,专门用于网络钓鱼、恶意代码生成等非法活动。此外,多个有国家背景的APT组织已开始将生成式人工智能技术用于网络攻击,显著提高了攻击的隐蔽性和精准性,特别是针对关键信息基础设施的网络攻击正变

得更加自动化和智能化。近年来,针对政府、军工、能源、电力、金融、交通、通信等关键领域基础设施的攻击层出不穷。这些情况表明,人工智能技术正在显著改变传统的网络攻击模式,传统的防御体系面临严峻挑战。人工智能合成虚假内容人工智能技术的迅猛发展,尤其是生成对抗网络(GAN)等深度学习的应用,大幅提升了虚假内容的生成能力,深度伪造(Deepfake)技术正是其中的典型代表。通过深度学习算法,攻击者能够生成高度逼真的虚假视频、音频或图像,用于多种非法活动,严重威胁社会信任与安全。例如,2024年香港发生了一起利用深度伪造换脸技术实施的诈骗案,犯罪分子冒充公司高层,通过视频通话骗取了2亿港元。此外,生成式人工智能还被用于伪造虚假新闻、虚假身份和虚假广告等,致使大量公众被骗,造成严重经济损失。根据奇安信的数据,2023年基于人工智能的深度伪造欺诈案件激增了3000%,显示出不法分子对这类技术的滥用正在迅速扩展。这类虚假内容的生成不仅成本低、效率高,还具有极高的迷惑性,显著增加了公众识别虚假信息的难度,进一步扩大了其传播范围和社会危害。同时,深度伪造技术的广泛应用也对国家安全带来了重大威胁。通过伪造政府领导人发布的虚假视频或言论,可能制造社会恐慌,削弱公众对政府的信任,从而动摇国家治理的基础。人工智能带来军事威胁人工智能技术的迅猛发展显著增强了军事领域的攻击能力,正在重塑现代战争形式。以无人武器为代表的智能化军事装备,通过人工智能技术实现了目标的自动识别、跟踪和攻击,大幅提升了作战效率和精准性。例如,攻击型无人机利用图像识别和自主决策技术,能够在复杂战场环境中快速锁定目标并独立完成打击任务,这类无人武器的广泛应用降低了传统军事行动对人力的依赖。此外,人工智能的军事化应用正在引发新一轮的军备竞赛。各国纷纷加速研发和部署人工智能驱动的武器系统,以争夺技术优势。美国的“联合全域指挥与控

制”(JADC2)系统将人工智能技术融入指挥和控制系统,提升跨域作战能力;俄罗斯也在积极推进智能无人武器和自动化指挥系统的开发。这种技术竞争不仅加速了武器系统的智能化,也使冲突的门槛显(五)伦理安全人工智能技术的迅猛发展在推动社会生产力提升的同时,也带来了诸多深刻的伦理挑战。这些挑战涵盖了道德观念的冲击、就业结构的改变、算法偏见的显现、自主决策带来的争议以及知识产权纠纷的增加,深刻影响着社会的公平与稳定。人工智能冲击传统道德观念人工智能技术的广泛应用在带来便利的同时,也对传统道德观念形成了深刻冲击。利用人工智能技术“复活”逝者的形象或声音,虽然可以缓解亲属的思念之情,但也可能侵犯个人隐私和人格权,甚至引发伦理困境。例如,未经许可复刻逝者的声音或影像,可能被用作商业牟利或误导公众的工具。此外,人工智能伴侣的兴起通过模拟情感与人类互动,改变了人际关系的传统模式。这不仅可能导致人与人之间的真实关系淡化,还可能引发社会孤独感加剧、情感依赖失衡等问题。人工智能造成群体失业人工智能的广泛应用在提高效率的同时,也对传统就业岗位产生冲击。例如,自动驾驶技术的迅速发展正在改变交通运输行业的就业结构。以中国的自动驾驶出租车服务商“萝卜快跑”为例,该公司通过人工智能技术实现了无人驾驶出租车的规模化运营,在2024年已覆盖北京、上海、武汉等多个城市,并获得了显著的市场认可。然而,这种创新模式虽然大幅降低了人力成本和运营费用,却对传统司机岗位构成了潜在威胁。类似的情况还出现在制造业、零售业等其他行业中,人工智能驱动的自动化生产线、智能客服和无人超市等技术正在逐步替代人工劳动力。这一趋势不仅引发了广泛的社会担忧,也对就业结构调整和社会保障体系提出了新的要求。

人工智能算法含有歧视偏见人工智能算法在处理数据时,常因训练数据的偏差、标注错误或样本不足而产生歧视性结果,这种偏见在招聘、贷款审批、医疗诊断等关键领域表现得尤为明显。例如,一些基于历史数据训练的招聘算法因数据集中男性求职者的比例较高,倾向于优先筛选男性候选人,从而强化了性别歧视的现象。在贷款审批领域,人工智能系统也可能会因为训练数据中的种族或地区偏见,导致某些群体的贷款通过率显著低于其他群体,进一步限制了这些群体的经济机会和社会流动性。人工智能带来自主决策风险人工智能在一些关键场景中的自主决策能力正引发伦理与安全领域的深刻关注,尤其是在涉及生死抉择的情况下。例如,在自动驾驶领域,车辆在面对紧急情况时可能需要做出类似“电车难题”的选择——是优先保护车内乘客,还是避免对行人造成伤害。这类复杂的决策涉及多方利益和价值观的权衡,无论最终选择如何,都可能引发社会争议,并对人工智能技术的公众信任度造成冲击。在军事领域,自主武器系统的应用进一步放大了这一问题的影响。无人武器通过预设算法独立选择目标并执行致命打击任务,意味着发动致命打击的权力被赋予人工智能,而非人类指挥官,可能加剧军事冲突的不可控性,为人类带来无法预料的后果。人工智能引发知识产权争议人工智能技术的应用可能涉及对原创作品的模仿或再创作,进而引发了知识产权领域的复杂问题。一方面,部分人工智能通过大量受版权保护的图片、文字或音乐数据来进行训练,而这些数据的使用常常未经过权利人的许可,成为版权纠纷的核心争议点。另一方面,人工智能生成的作品是否具备独创性以及如何界定创作权,一直是法律20241中国首例人工智能生成图片著作权侵权案判决中,法院认定人工智能生成的图片具有独创性,符合作品的定义,受著作权法保护。三、人工智能安全解决方案和技术趋势当前,业界在数据安全、算

法防御、生成内容检测与溯源、模型透明性提升等领域展开了深入探索,通过多样化的技术手段为人工智能系统提供全方位的安全保障。本节将围绕这些技术热点,系统梳理人工智能安全的最新解决方案及其未来发展趋势,探讨如何以技术手段实现更加安全、可靠的人工智能应用。(一)数据安全与隐私保护机密人工智能机密人工智能(ConfidentialAI)(ConfidentialComputing)技术来保障人工智能系统安全的新型解决方案,其核心依赖于可信执行环境(TrustedExecutionEnvironment,TEE)。TEE硬件级的隔离技术,它能够在处理器内部划分出一个独立、安全的区域,用于存储和处理敏感数据。该区域对外完全封闭,即使是操作系统、虚拟机管理程序甚至设备管理员,也无法访问其中的数据和计算过程。通过这种方式,TEE据在使用过程中始终受到保护,不会被泄露或篡改。机密人工智能通过将人工智能模型的训练、推理等任务置于TEE中,从而为人工智能的全生命周期提供“使用中”的安全保障,尤其适用于对数据隐私和安全性要求极高的场景。在人工智能模型的训练和推理过程中,数据在进入TEE后会被解密以进行计算,而外部环境无权访问TEE内部的任何内容,这有效避免了数据在运行中被窃取或篡改的风险。此外,TEE提供的远程证明(RemoteAttestation)功能可以验证运行环境的完整性和可信度,确保模型及其执行环境未被篡改。这一功能在医疗、金融等对数据安全要求极高的场景中至关重要。未来,机密人工智能的发展将沿着以下几个方向逐步推进。一是硬件技术的持续创新。最初TEECPU上,随着人工智能模型对计算性能和效率要求的不断提升,TEEGPU。,NVIDIAHopperGPUGPUTEE

用中”数据的全程加密和保护。这种技术的进一步推广将显著提升人工智能系统在高复杂性和高安全需求场景中的应用潜力。二是标准化建设的不断完善。随着机密人工智能技术应用范围的扩大,对全球技术标准、接口规范和安全评估体系的需求日益迫切。通过建立统一的技术标准,不仅能够提升不同技术和平台之间的互操作性,还能在跨行业和跨机构的数据协作中提供更稳固的信任基础。三是技术协同和场景融合的加深。机密人工智能将与联邦学习、差分隐私等技术紧密结合,通过多种手段共同提升人工智能系统的整体安全性。此外,机密人工智能将在金融、医疗、工业制造等高安全需求领域得到深入应用。联邦学习是一种分布式机器学习框架,旨在在保护数据隐私的前提下,实现多方联合建模。其核心特点是数据不出本地,拥有数据的各方仅通过交换中间计算结果(如模型参数或梯度)完成模型训练,从而实现“数据可用不可见”。这一技术广泛应用于数据隐私保护需求较高的场景,如金融、医疗和政务领域。根据参与各方数据源分布的情况不同,联邦学习可以分为横向联邦学习、纵向联邦学习、联邦迁移学习三类。横向联邦学习适用于参与方数据特征一致但样本不同的场景,如不同地区的银行共享客户行为数据;纵向联邦学习适用于样本重叠但特征不同的场景,如银行与电商企业合作分析客户行为特征;迁移联邦学习则适用于样本和特征均无重叠的场景,依赖迁移学习(TransferLearning)技术提升模型效果。此外,联邦学习还可按架构分为中心化和去中心化两种模式,前者通过中央服务器协调训练过程,后者则通过分布式协作避免对中央节点的依赖。不同类别的联邦学习为不同行业和场景的联合建模需求提供了多样化解决方案。目前业界有多款主流的联邦学习框架,由不同团队开发,为数据隐私保护和分布式协作建模提供了有力支持。谷歌推出的TensorFlowFederated(TFF)专注于联邦学习

的模拟和研究,提供了灵活的接口来实现分布式环境下的模型训练。PySyftOpenMinedPyTorch,为联邦学习场景中的多方安全计算和差分隐私应用提供支持。FedML是初创公司FEDML发的框架,强调联邦学习的统一实现,适合跨设备和大规模分布式联邦学习任务。微众银行主导开发了FATE(FederatedAITechnologyEnabler),持横向联邦、纵向联邦以及基于安全多方计算的学习任务,广泛应用于金融和医疗等行业。百度推出的PaddleFL用的联邦学习工具,支持多种分布式计算模式。这些框架专注于联邦学习技术的落地应用,推动了数据协作和隐私保护在各行业的实践与发展。随着人工智能和大数据技术的迅速发展,联邦学习正呈现出以下几大趋势。一是算法优化和通信效率的持续提升,为了缓解通信带宽压力,新型压缩算法不断涌现,使模型参数传输更加高效,同时确保训练效果。二是隐私保护机制的不断完善,同态加密和差分隐私等技术被逐步引入联邦学习框架,大幅增强数据安全性,为敏感数据的协同计算提供可靠保障。三是多设备、多模态数据融合的发展方向正逐渐成为研究热点。应对异构数据源及设备能力差异的挑战,设计更高效的协作机制,是提升联邦学习实际应用价值的关键。四是与区块链技术结合,提供了全新的信任解决方案,为多方参与的联邦学习创造了更安全可信的环境。随着企业和组织对数据隐私保护与分布式智能需求的日益增长,联邦学习将进一步扩展应用场景,推动技术进步并解决实际问题,为人工智能技术在各行业的落地带来更多可能性。(二)算法安全与模型防护对抗性机器学习(AdversarialMachineLearning,AML)研究机器学习算法攻击与防御的领域,其核心在于揭示对抗性攻击如何威胁模型的性能和可靠性,以及开发有效的防御策略以抵御此类攻击。这一领域随着人工智能技术在自动驾驶、医疗诊断和语音识别等

高风险场景中的应用而迅速兴起。对抗性攻击不仅可能导致模型输出错误的预测,还可能泄露敏感数据或对关键系统造成破坏,因此,研究对抗性机器学习对于确保人工智能系统的安全性至关重要。为应对对抗性攻击,研究者提出了多层次的防御策略。在模型训练阶段,对抗性训练被广泛采用,通过在训练数据中引入对抗样本,模型能够更好地应对恶意输入的扰动,提升其鲁棒性。除此之外,模型的鲁棒性优化也是关键策略之一,通过优化损失函数和加入正则化约束,能够有效降低模型对小幅输入变化的敏感性。在模型的运行阶段,输入数据的实时监控和检测同样至关重要,利用检测算法识别输入的异常特征,可以阻止对抗性样本对模型的攻击。未来,对抗性机器学习的发展将着重于以下这些方向。一是应对更加复杂和多样化的威胁场景。随着多模态人工智能技术的快速崛起,单一模态的防御措施已无法有效应对新的攻击挑战。未来的研究将着力于跨模态防御技术的发展,例如,整合图像、文本和音频等多模态数据的联合防御机制,以提高模型在多场景、多形式威胁中的鲁棒性和适应能力。二是推动自动化防御工具的研发和应用。自动化防御将成为提升模型安全性的重要手段,例如,利用生成对抗网络设计动态防御系统,可以实时生成针对不同攻击类型的防御策略,从而对抗复杂的对抗样本生成手段。这些自动化工具能够显著降低人工干预的需求,提高模型应对新型攻击的效率和效果。模型水印技术模型水印技术是一种保护人工智能模型知识产权的重要方法,通过在模型中嵌入不可见的标识信息(即数字水印)来实现。这些标识信息可以用来验证模型的归属和合法性,以防止模型被非法复制或滥用。模型水印技术通常包括两个核心步骤:植入水印和提取水印。在模型开发和训练阶段,研究者通过特定策略将数字水印嵌入到模型的从目标模型中提取水印信息,并将其与最初嵌入的水印进行比对,以

确认是否存在侵权行为。现有的模型水印技术在水印的植入和提取策略上有所不同。从提取方式来看,大多数技术通过观察模型的输出来提取水印,这意味着水印的举证主要依赖于目标模型的输出结果。这类方法具有较强的适用性,特别是在黑盒环境中进行模型保护时效果显著。此外,另一部分技术将水印直接嵌入到模型的文件结构中,而不显现于输出结果。这类方法需要在白盒环境中访问目标模型的内部结构和参数以验证水印的存在,适合更高价值模型的知识产权保护场景。模型水印技术的发展趋势可以归纳为三个主要方向。一是增强水印抵御攻击的能力。面对模型压缩、剪枝、量化和微调等多种攻击手段,研究者们正在探索更鲁棒的水印嵌入和检测方法,以确保水印在恶意修改后仍能被可靠识别和验证。二是减小水印对模型可用性的影响。在嵌入水印的同时尽量保持模型性能和输出质量,确保水印不会对模型的准确性和功能性造成显著损害,从而满足实际应用需求。三是提升水印验证过程的隐蔽性。通过引入零知识证明等技术,开发能够在验证过程中保护模型内部信息的水印方案,从而防止模型在验证过程中被第三方滥用。这种隐蔽性验证方案的成熟将显著提升水印技术的安全性和实用性。(三)人工智能生成内容检测和溯源AIGCAIGC(人工智能生成内容)检测技术是一种通过算法和工具识别由人工智能生成内容的技术,旨在保障数字信息的真实性、可信度和原创性。随着生成式人工智能(如ChatGPT、Midjourney等)的广泛应用,人工智能在文本、图像、音频和视频等领域的生成能力日益增强,但也带来了虚假信息传播、版权争议和伦理风险等挑战。AIGC检测技术通过分析不同模态内容的特征,判断其是否由人工智能生成,从而应对这些挑战。在文本检测中,可通过分析语言模式、句法结构、词汇使用习惯以及语义一致性等特征,识别人工智能生成文本的痕迹。例如,人工智能生成的文本可能表

现出过度使用某些连接词、模式化的表达方式或缺乏人类写作的随机性和多样性。在图像检测中,通过分析纹理、光影、细节一致性以及像素间的相关性,发现生成图像的异常。例如,生成对抗网络(GAN)生成的图像可能在频域上留下特定的伪影,或在高频纹理区域表现出与真实图像的显著差异。在音频和视频检测中,通过关注音调、频谱的机械特征以及帧间过渡的平滑性和跨模态一致性,以识别人工智能生成内容的特征等等。目前,国内外已经出现了多款用于检测AIGC的工具,通过不同的技术手段来识别文本、图像、音频等内容是否由人工智能生成,帮助用户确保信息的真实性和可靠性。例如,GPTZero是一款专注于文本检测的工具,尤其擅长识别由GPT系列模型生成的内容,通过分析文本的“困惑度”和“突发性”等特征来判断其来源,广泛应用于教育领域,帮助教师检测学生作业是否由人工智能代写。Deepware则专注于检测深度伪造(Deepfake)内容,尤其是视频和图像,利用计算机视觉技术分析视频中的面部表情、光线和运动轨迹,识别出人工智能生成的虚假内容,在新闻媒体和公共安全领域具有重要应用价值。AIGC-X是由人民日报社主管、依托人民网建设的传播内容认知全国重点实验室推出的AIGC检测工具,对中文文本的检测准确率超过90%,能够快速区分机器生成文本与人工生成文本,适用于假新闻、内容抄袭、垃圾邮件等场景的检测。这些工具在应对人工智能带来的安全挑战中发挥了重要作用,为用户提供了可靠的内容检测解决方案。随着生成式人工智能技术的快速发展,AIGC检测技术也在不断演进。一是检测技术的持续迭代与改进。包括开发更先进的算法,增强模型的鲁棒性,以应对新出现的生成式人工智能算法和对抗性干扰手段。二是实时检测与低延迟需求的增加。随着AIGC在社交媒体、新闻等领域的广泛应用,实时检测变得至关重要。未来的检测工具需要能够在用户交互过程中即时识别AIGC,例如通过API集成到内容管理系统中,提供实时反馈。这种实

时性不仅提高了内容发布的效率,还能有效遏制虚假信息的传播。三是跨语言与多模态检测的挑战与应对。AIGC模态的组合,这对检测技术提出了更高的要求。例如,研发能够处理多种语言的检测模型,并建立有效从而提高检测的准确性和可靠性。AIGCAIGC成内容中嵌入隐蔽标识,实现内容溯源、真实性验证和使用管理的技术。与模型水印技术的区别在于,AIGC内容进行标识,如文本、图像、音频等,目的是对内容的来源和用途进行追踪和验证;而模型水印技术则聚焦人工智能模型本身,通过嵌入标识保护模型的知识产权和归属权。水印可以融入到AIGC区域,例如文本的语序结构、图像的像素细节或音频的频谱特征,从而不影响内容的质量和感知效果。根据嵌入方式的不同,AIGC为内置水印和外置水印两种形式。内置水印是在生成内容时直接嵌入,与内容生成过程紧密结合,具有较强的鲁棒性和实时性,适用于动态生成的文本、图像、音频等内容。外置水印则是在生成内容完成后通过后处理方式添加,将标识嵌入到数据的非显性区域,这种方式适用于需要后续处理的场景,但在鲁棒性上可能略逊于内置水印。AIGC水印技术的主要功能是溯源和鉴别。通过水印,生成内容可以被追踪到具体的模型或平台来源,便于确定内容的责任主体和生成背景。这对于打击内容滥用、追责和版权保护尤为重要。此外,水印还能帮助区分AIGC与自然生成内容,为用户和平台提供鉴别依据,提升内容可信度。对于需要合规管理的领域,水印技术还可用于内容的分级管理和用途限制,防止不当使用和传播。AIGC水印技术的发展趋势包括以下几个方面。一是平衡不可感知性与鲁棒性。在水印技术的发展中,不可感知性和鲁棒性常常存在权衡。不可感知性要求水印对用户不可察觉,确保内容质量不受影响;而鲁棒性则要求水印能够在面

对压缩、剪切、添加噪声等破坏性操作时依然稳定可靠。未来的研究重点在于通过优化嵌入算法和深度学习模型,设计既能保证高不可感知性又具有强鲁棒性的水印方案。二是探索水印技术在更多模态中的应用。随着AIGC的多样化,水印技术的应用场景也在不断拓展。除传统的图像、文本、音频和视频外,未来水印技术将在3D模型、VR内容以及多模态交互内容中发挥更大作用。这需要研究针对这些复杂数据结构的水印嵌入和提取技术,同时确保水印在多模态内容转换或合成过程中仍具备不可感知性和鲁棒性。三是AIGC水印技术的标准化。随着生成内容的广泛应用,制定统一的技术标准和规范将变得愈发重要。这不仅能确保不同平台和技术之间的互操作性,还能通过与法律法规的结合,为AIGC内容生态的健康发展奠定基础。(四)人工智能透明度和信任构建可解释人工智能可解释人工智能(ExplainableAI,XAI)是一种旨在提升人工智能模型透明性的方法,通过提供对模型决策过程和预测结果的清晰解释,帮助用户理解模型的工作机制及输出的合理性。在人工智能的发展中,模型复杂性与预测能力之间存在一个基本的权衡:模型越复杂,其预测能力往往越强,但可解释性往往越弱。简单模型(如线性回归、逻辑回归)由于结构直观,易于理解,但在处理复杂任务时预测能力有限;而复杂模型(如深度学习、随机森林)能够在大规模数据中实现高性能预测,却由于其内部逻辑的高度复杂性,被视为“黑箱”,难以解释其决策的依据。可解释人工智能技术主要分为(InterpretableModels)和后解释技术(Post-hocInterpretations)。可解释模型是指在模型设计之初就以透明性为目标的模型,例如线性回归、逻辑回归和决策树等等。这些模型的优势在于它们的简单性和可解释性,用户可以直接理解模型的预测依据和决策过程。然而,这类模型在复杂数据集中的表现往往不如深度学习等复杂模型。后解释技术是在复

杂的“黑箱”模型(如深度神经网络)基础上,通过额外的工具和方法对模型输出进行解释,分为三种类型。一是模型无关技术(Model-agnosticTechniques),法可以应用于任何机器学习模型,重点在于分析输入与输出之间的关Shapley理论方法可以量化每个特征对预测LIME(局部可解释模型无关方法构建线性近似模型来解释复杂模型的局部行为。二是模型专属技术(Model-specificTechniques),这种方法专门为某些特定模型设计,例如卷积神经网络或支持向量机。这些技术利用模型内部的特定结构(如卷积层的激活)生成可视化的解释,帮助用户理解模型如何从数据中提取模式。三是半模型(Model-semi-agnosticTechniques),这种方法适用于某些特定类别的模型,例如深度神经网络,通过整合梯度或反向传播的方法来生成解释。通过这些技术,可解释人工智能可以帮助用户理解模型的预测依据,不仅增强了人工智能系统在医疗、金融和网络安全等关键领域的适用性,也为其进一步推广奠定了信任基础。可解释人工智能的未来发展趋势包括以下这些方面。一是在安全关键场景(如医疗、金融)中,直接构建具备解释能力的人工智能模型将成为研究重点。这类模型不仅能够提升对人工智能决策的信任,同时也为高风险领域的合规性和安全性提供保障。未来,研究将致力于在模型训练阶段融入解释机制,使模型能够在预测结果的同时生成清晰可理解的解释内容。二是解决性能与可解释性之间的权衡问题。在提升模型可解释性的同时,往往需要简化模型的结构,这可能导致性能下降。而在许多场景中,例如时间敏感的任务,高性能是不可或缺的。未来的发展方向是通过模型优化与混合方法,平衡性能与可解释性,为多样化应用提供支持。三是加强可解释人工智能系统的标准化。由于不同应用对模型的设计目标各不相同,如透明性、公平性和鲁棒性,统一的标准和评估框架将是未来的重要研究方向。通过建立

明确的评价指标,能够更好地衡量可解释人工智能系统的效果和可靠性。四是增强实时解释能力。在自动驾驶、医疗监测等需要即时反馈的场景中,实时生成解释至关重要。未来的研究将聚焦于优化计算效率、开发并行处理技术,以及引入高效的混合算法,确保系统能够在高数据量和低延迟的条件下实现快速响应。人工智能对齐(AI是确保人工智能系统的行为与人类的意图、价值观和道德标准保持一致的关键研究领域。随着人工智能尤其是大模型的快速发展,人工智能对齐的重要性日益凸显。其核心目标是防止人工智能系统在追求目标时偏离人类的期望,甚至可能带来灾难性后果。人工智能对齐的宏观目标可以总结为RICE(Robustness)、可控性(Controllability)和道德性(Ethicality)。鲁棒性确保人工智能系统在各种环境下都能稳定运行,抵御意外干扰和对抗性攻击;可解释性使人类能够理解人工智能的决策过程,增强透明度和信任;可控性确保人工智能系统的行为始终处于人类的监督和干预之下;道德性则要求人工智能在决策和行动中遵循社会公认的道德规范,尊重人类价值观。这些原则共同构成了人工智能对齐的基础,旨在实现人工智能的安全、可靠和可控发展。目前常见的人工智能对齐技术主要包括以下几种。一是人类(ReinforcementLearningfromHumanFeedback,RLHF),通过人类反馈数据训练奖励模型,再利用强化学习算法对模型策略进行优化,旨在使模型的输出更符合人类的期望和价值观。二是人工智能反馈强化学习(ReinforcementLearningfromAIFeedback,RLAIF),大的语言模型提供反馈代替人类标注,从而降低数据收集成本,其实现包括人工智能批判性地审查和修订响应以及基于人工智能偏好数据优化模型策略。三是近(ProximalPolicyOptimization,PPO),作为一种

常用于强化学习的算法,PPO通过约束模型策略与参考模型的KL散度,平衡奖励优化与模型生成的多样性,常与人类反馈强化学习结合使用。四是直接偏好优化(DirectPreference Optimization,通过直接优化人类偏好数据避免了显式奖励模型的训练过程,同时利用预训练模型作为参考策略直接调整模型策略以符合偏好,从而简化对齐流程,但对数据质量要求较高。这些技术在不同场景中各有优势,为人工智能模型的对齐提供了有效的解决方案。当前,人工智能对齐的发展呈现出几个重要趋势。一是多模态对齐。未来人工智能系统将更注重对文本、图像、语音等多种模态数据的整合能力,以提升对复杂任务和多样化场景的适应性,实现更全面的智能交互。二是个性化对齐。在确保模型遵循普遍价值观的同时,进一步使人工智能的行为和输出符合个体用户的偏好和需求,通过定制化服务为用户提供更精准的体验。三是合成数据的广泛应用。合成数据的最大优势在于可以大幅提升对齐数据的获取效率,降低对人工标注的依赖,同时解决数据获取瓶颈,为人工智能模型提供高质量、低成本的训练数据支持。这些趋势标志着人工智能对齐技术正朝着智能化、多样化和高效化方向快速发展。四、人工智能安全测评趋势随着人工智能技术在关键领域的广泛应用,系统的安全性和可靠性成为保障其长远发展的核心需求。安全测评作为人工智能技术落地和信任构建的重要环节,不仅能够发现潜在风险,还能为系统改进提供指导依据。本节将重点分析人工智能安全测评的最新进展,探讨技术创新方向与行业应用场景,为构建完善的安全评估体系提供借鉴。(一)人工智能安全测评标准近年来,人工智能安全测评标准在国内外均取得了一些重要进展。国内方面,20207国家标准委、中央网信办、国家发展改革委、科技部、工业和信息化部联合印发了《国家新一代人工智能标准体系建设指南》,形成了标准支撑人工智能高质量发展的新格

局。20238理总局、国家标准化管理委员会发布了《信息安全技术机器学习算法安全评估规范》,规定了机器学习算法技术和服务的安全要求与评估方法,以及机器学习算法安全评估流程,指导相关方保障机器学习算法生存周期安全及开展机器学习算法安全评估。20235国信息安全标准化技术委员会发布了国家标准《信息安全技术人工智能计算平台安全框架》征求意见稿,该标准规范了人工智能计算平台安全功能、安全机制、安全模块以及服务接口。20243国网络安全标准化技术委员会发布行业标准TC260-003《网络安全技术生成式人工智能服务安全基本要求》,规定了生成式人工智能服务在安全方面的基本要求,包括语料安全、模型安全、安全措施等,并给出了安全评估要求,包含超20005大类、311000多个风险主题,支持全面的风险安全评测。此GB/T41819—2022息安全技术人脸识别数据安全要求》、GB/T41773—2022《信息安全技术步态识别数据安全要求》、GB/T41807—2022《信息安全技术声纹识别数据安全要求》、GB/T41806—2022《信息安全技术基因识别数据安全要求》4标准,规定了对人脸识别、步态识别、声纹识别、基因识别的数据收公开、删除等数据处理活动的安全要求。国际方面,国际标准化组织(ISO)在人工智能领域已开展大ISO/IECJTC1SC42人工智能分技术委员会。2023发、生产、部署或使用利用人工智能的产品、系统和服务的组织提供了如何管理与人工智能相关的风险2022估》,指定了用于测量机器学习模型、系统和算法分类性能的方法,提供了衡量分类器性能的一套基本度量指标,如准确率、召回率、F1分数等。20244

术学院(WDTA)发布了《生成式人工智能应用安全测试和验证标准》和《大语言模型安全测试方法》两项国际标准。《生成式人工智能应用安全测试和验证标准》涵盖了人工智能应用程序生命周期中的关键领域,包括基本模型选择,检索增强生成设计模式中的嵌入和向量数据库,提示执行/推理,代理行为,微调,响应处理和人工智能应用程序运行时安全性。《大语言模型安全测试方法》提出了针对大语言模型的全面安全风险分类、攻击分级及测试评估方法,旨在提升人工智能系统安全性与可靠性。2024年9月,世界数字技术学院(WDTA)发布了国际标准《大模型供应链安全要求》,提供了覆盖大模型全生命周期的多层次安全管理框架,旨在确保供应链各环节的安全性、促进国际合作与行业健康发展。(二)人工智能安全测评平台和工具随着人工智能的发展,人工智能安全测评领域涌现出多种测评工具和平台,用于评估人工智能系统的安全性、发现潜在风险并提供改进建议。一是综合性人工智能安全测评平台。这些平台提供全面的人工智能系统安全评估服务,涵盖从数据到模型、算法、框架以及系统的多层面全方位评测。例如,浙江大学区块链与数据安全全国重点实验室开发了人工智能安全评测平台AIcert,该平台集成了多层面全栈威胁感知、多维度安全评估和模型自动化安全评测等先进技术,可以对人工智能系统的数据、模型、算法、框架、系统等层面进行全栈安全评测,并从鲁棒性、可用性、可解释性等六大维度对系统安全进行评估。瑞莱智慧开发了人工智能安全评测平台RealSafe3.0,该平台集成了一系列主流及独有的安全评测技术和方法,提供了从数据准备、模型训练到部署运维整个生命周期的全面安全解决方案。二是对抗性攻击工具。可评估模型在面对不同强度和类型的对抗性攻击时的表现,测评指标可包括攻击成功率、扰动大小、标准模型准确率下降程度等。例如,IBMResearch开发了Python库AdversarialRobustnessToolbox(ART),旨在帮助研究者

和开发者评估和增强机器学习模型(尤其是深度学习模型)对于对抗性攻击的鲁棒性。ART提供了一套全面的工具和方法,可以用于对抗性攻击生成、鲁棒性评估、防御机制测试、模型解释性与公平性分析等。微软开发了人工智能安全风险Counterfit,用于渗透测特别是针对对抗性攻击。三是模型内部检查与透明度工具。这类工具主要用于深入分析模型内部结构,评估其决策过程,并确保模型行为的透明性和可解释性。例如,英国人工智能安全研究所推出Inspect平台,内含三个基本模块:数据集、求解器(Solvers)和评分器(Scorers)。三者相互结合,可以实现对于人工智能核心知识、推理和自主能力的深入测试,并最终生成详细的安全评分。(三)人工智能安全测评未来展望一是标准体系规范与国际化发展。为了确保人工智能系统的安全性、可靠性和公平性,国际组织和地区政府正在积极制定和推广一系列人工智能安全测评标准。国际合作也日益紧密,各国和国际组织共同努力,制定通用的基础测评准则,以确保不同地区、不同领域的人工智能产品在安全评估上实现统一的“度量衡”。同时,各行业根据自身特殊需求,基于通用测评准则细化行业专属测评指标,使测评标准更贴合行业特性,保障专业应用的安全性。二是技术创新与多元化发展。智能化测评工具的不断涌现为人工智能安全测评带来了新突破。这些工具具备自适应学习和自动化测试等功能,能够根据被测系统的特性和运行环境动态调整测评策略,从而显著提升测评的全面性与精准度。此外,新兴技术的应用也在不断提升测评的效率和精度。例如,区块链技术可以用于追溯人工智能模型训练数据的来源,确保数据的真实性与完整性;量子计算技术则有望突破现有算力瓶颈,加速复杂模型的安全分析,实现更快速、精准的漏洞检测。三是测评方案定期更新与监测动态化发展。在人工智能技术快速

迭代的背景下,测评方案需要与时俱进,定期优化和更新,紧密跟随技术发展步伐,以有效应对日益复杂的安全风险。同时,针对系统运行状态的动态监测需求日益迫切。通过传感器与智能算法,可以精准、即时地捕捉系统性能波动、异常数据访问等安全隐患,从而实现对安全问题的实时预警和有效防控。五、促进我国人工智能安全发展的对策建议(一)构建多层次的人工智能安全治理体系一是建立多元的人工智能分类分级管理机制。借鉴数据分类分级管理经验,结合我国实际情况和各行业的特定需求与安全挑战,制定多维度的人工智能分类分级标准。分类维度可以涵盖应用场景、模型自主性、算力规模、用户数量等方面,并在此基础上进行风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论