AI应用安全与伦理规范2026年专项培训模拟试题及答案

上传人：1*** IP属地：四川上传时间：2026-05-15 格式：DOCX 页数：33 大小：54.47KB 积分：12 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AI应用安全与伦理规范2026年专项培训模拟试题及答案一、单项选择题（本大题共20小题，每小题3分，共60分。每小题只有一个选项是符合题意的）1.在生成式人工智能服务管理中，根据中国《生成式人工智能服务管理暂行办法》，提供者应当向用户进行显著标识的情形是（）。A.仅在用户付费使用时B.仅在生成内容涉及政治敏感话题时C.所有生成内容D.仅在生成内容可能引起误解时2.对抗样本攻击是AI安全领域的重要威胁。在图像分类模型中，攻击者通过在原始图像上添加人类肉眼难以察觉的微小扰动，导致模型以高置信度将其错误分类。这种攻击的主要利用了模型的（）。A.缺乏鲁棒性B.过拟合C.欠拟合D.计算能力不足3.在差分隐私技术中，参数ϵ（Epsilon）用于衡量隐私保护的强度。下列关于ϵ的描述，正确的是（）。A.ϵ值越大，隐私保护强度越高B.ϵ值越小，隐私保护强度越高C.ϵ值与隐私保护强度无关D.ϵ值通常设定为大于10的数值4.欧盟《人工智能法案》根据风险等级将AI系统分为四类。其中，仅允许在严格监管下投放，且通常需要建立高风险AI系统监管治理体系的类别是（）。A.不可接受风险B.高风险C.有限风险D.最小风险5.联邦学习是一种分布式机器学习技术，旨在解决数据孤岛问题并保护数据隐私。其核心思想是（）。A.将所有原始数据集中到一个中心服务器进行训练B.数据保留在本地，仅交换模型参数或梯度更新C.仅交换模型的预测结果D.使用公开数据集在本地训练模型6.为了防止生成式人工智能模型生成虚假信息，一种常用的技术是在训练数据或生成内容中嵌入不可见的标记，用于追踪内容来源。这种技术被称为（）。A.数字水印B.对抗训练C.数据脱敏D.同态加密7.根据中国《互联网信息服务算法推荐管理规定》，算法推荐服务提供者应当建立健全算法机制机理审核、科技伦理审查等管理制度，且不得利用算法推荐服务从事（）。A.个性化广告推送B.未成年人网络保护C.传播法律法规禁止的信息D.大数据杀熟8.在AI伦理中，“算法偏见”通常源于（）。A.算法逻辑过于复杂B.训练数据中存在历史性社会偏见或数据分布不均C.计算机硬件性能不足D.程序员的主观恶意9.2026年某企业部署了大语言模型，为了确保模型输出符合人类价值观和指令意图，通常采用的技术手段是（）。A.监督微调（SFT）B.基于人类反馈的强化学习（RLHF）C.数据增强D.特征工程10.针对AI模型的“成员推断攻击”，攻击者的目的是（）。A.推断出某条特定数据是否在模型的训练集中B.窃取模型的全部参数C.破坏模型的训练过程D.修改模型的预测结果11.在深度合成技术监管中，根据《深度合成管理规定》，提供深度合成服务时，应当使用（）。A.真实人物肖像即可，无需标识B.国家网信部门备案的算法备案号C.企业内部自行生成的编号D.用户的身份证号作为标识12.下列哪项不属于AI安全中的“模型逆向工程”风险？（）A.攻击者通过查询API接口还原模型参数B.攻击者通过模型输出反推训练数据特征C.攻击者通过物理手段窃取服务器硬盘D.攻击者利用模型提取敏感信息13.在机器学习隐私保护中，k-匿名是一种模型。如果一个数据集满足k-匿名，意味着（）。A.每个等价类中至少有k条记录B.数据集被加密了k次C.数据集中只有k个属性D.数据集被分成了k份14.关于“可解释人工智能”（XAI），下列说法错误的是（）。A.它有助于提高用户对AI系统的信任度B.它能够完全消除模型的黑盒性质C.LIME和SHAP是常用的局部解释方法D.在医疗、金融等高风险领域，模型的可解释性至关重要15.红队测试在AI安全中指的是（）。A.开发团队内部进行的代码测试B.模拟攻击者对AI系统进行对抗性攻击，以发现漏洞C.用户进行的体验测试D.监管机构进行的合规性测试16.在自动驾驶系统的安全设计中，为了防止对抗性贴纸攻击（如在停车标志上贴贴纸导致误识别），最有效的防御措施通常包括（）。A.仅依赖视觉传感器B.传感器融合（如结合激光雷达、毫米波雷达）C.增加训练数据的数量D.提高模型的运算速度17.“数据最小化”原则是AI伦理与隐私保护的重要原则。它要求（）。A.尽可能收集更多的数据以提高模型精度B.只收集和处理实现特定目的所必需的最少数据C.收集数据后立即删除原始数据D.仅收集公开可用的数据18.针对生成式AI的“幻觉”问题，即模型生成看似合理但实际上错误或无意义的内容，以下哪种方法不能有效缓解？（）A.引入知识图谱（RAG）B.提高模型温度参数C.对生成内容进行事实核查D.限制生成内容的领域范围19.在AI伦理规范中，关于“问责制”的描述，正确的是（）。A.AI系统造成损害时，只能追究算法开发者的责任B.AI系统造成损害时，只能追究使用者的责任C.应建立清晰的机制，明确AI系统生命周期各环节的责任主体D.AI系统作为自主主体，应独立承担法律责任20.下列关于“同态加密”的描述，正确的是（）。A.加密后的数据无法进行任何计算B.可以在加密数据上直接进行计算，解密计算结果等于对明文进行计算的结果C.计算速度比明文计算快得多D.只能用于整数运算，不能用于浮点数运算【答案】1.C2.A3.B4.B5.B6.A7.C8.B9.B10.A11.B12.C13.A14.B15.B16.B17.B18.B19.C20.B【详细解析】1.解析：根据《生成式人工智能服务管理暂行办法》，提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识，且该规定要求服务提供者对生成的深度合成信息进行标识，以便于识别。这适用于所有生成内容，而非特定情况。2.解析：对抗样本利用了模型线性高维空间中的不稳定性，即模型对输入特征的微小变化（在人类感知阈值内）极其敏感，导致输出发生剧烈变化，这体现了模型缺乏鲁棒性。3.解析：在差分隐私中，ϵ是隐私预算。ϵ值越小，表示查询结果对单个记录的变化越不敏感，即隐私泄露的风险越低，保护强度越高。反之，ϵ越大，数据可用性越高但隐私保护越弱。4.解析：欧盟《人工智能法案》将AI分为不可接受风险（禁止）、高风险（严格监管，如医疗、交通、招聘）、有限风险（透明度义务）和最小风险（无限制）。高风险AI必须满足严格的合规要求。5.解析：联邦学习的核心是“数据不动模型动”。原始数据保留在本地设备或服务器上，通过交换加密的梯度或模型参数来更新全局模型，从而避免原始数据出域。6.解析：数字（不可见）水印技术是将特定的标识信息嵌入到数字载体（如文本、图像、音频）中，不影响载体使用，且可被提取用于证明版权或追踪来源，是应对Deepfakes的重要技术。7.解析：根据《互联网信息服务算法推荐管理规定》，算法推荐服务提供者不得利用算法推荐服务从事法律法规禁止的活动，如传播违法信息、实施网络诈骗等。大数据杀熟也是被明确禁止的不公平竞争行为。8.解析：算法偏见通常不是算法逻辑本身的数学错误，而是“垃圾进，垃圾出”的结果。如果训练数据反映了社会中的种族、性别等刻板印象或分布不均，模型就会习得并放大这些偏见。9.解析：RLHF（ReinforcementLearningfromHumanFeedback）是当前对齐大语言模型人类价值观的核心技术。通过人工对模型回答进行排序打分，训练奖励模型，再用强化学习优化策略模型。10.解析：成员推断攻击旨在推断某条特定数据记录是否曾被用于训练目标模型。如果攻击成功，则意味着该记录的隐私（如患有某种疾病）可能被泄露，因为模型对训练数据的记忆通常更深。11.解析：根据《深度合成管理规定》，提供深度合成服务前，必须向国家网信部门履行备案手续，取得备案号，并在服务过程中显著标识。12.解析：模型逆向工程包括通过API查询窃取模型参数（模型提取攻击）或反推训练数据（模型反演攻击）。物理手段窃取硬盘属于物理安全范畴，不属于针对算法模型的逆向工程攻击。13.解析：k-匿名要求发布的数据中，任何准标识符（如邮编、性别、年龄）的组合必须至少覆盖k个人。这样使得攻击者无法通过准标识符将记录定位到具体的单个个体。14.解析：XAI旨在提高透明度，但即使是复杂的深度神经网络，虽然可以通过LIME/SHAP等代理模型或梯度方法提供解释，也无法像线性回归那样完全、精确地展示内部所有逻辑，因此说“完全消除黑盒性质”是错误的。15.解析：红队测试在AI领域特指模拟对手视角，利用提示注入、对抗样本、越狱等手段攻击模型，以发现安全漏洞和伦理风险，从而在部署前进行加固。16.解析：单一视觉传感器容易受到物理世界的对抗攻击（如贴纸）。传感器融合利用激光雷达（LiDAR）的点云数据或毫米波雷达的反射信号，这些数据不易被视觉贴纸欺骗，从而提高系统的鲁棒性。17.解析：数据最小化原则源自隐私保护设计，强调在收集阶段就限制数据范围，仅保留业务必需的最小数据集，以降低数据泄露后的危害。18.解析：提高温度参数会使模型输出更随机、更多样化，但这通常会增加幻觉的概率，而不是缓解。RAG（检索增强生成）、事实核查和领域限定是缓解幻觉的有效手段。19.**解析AI系统的责任归属复杂，涉及开发者、部署者、使用者等多方。问责制要求建立全生命周期的追溯机制，明确在不同场景下（如设计缺陷、使用不当）各方的责任。19.**解析AI系统的责任归属复杂，涉及开发者、部署者、使用者等多方。问责制要求建立全生命周期的追溯机制，明确在不同场景下（如设计缺陷、使用不当）各方的责任。20.解析：同态加密允许在密文上直接执行加法、乘法等运算，计算结果解密后，与对明文进行同样运算的结果一致。这使得数据可以在加密状态下外包计算，保护隐私。二、多项选择题（本大题共10小题，每小题4分，共40分。每小题有两个或两个以上选项是符合题意的，未选、错选不得分，少选得2分）1.AI安全威胁主要包括以下哪些类型？（）A.模型窃取攻击B.对抗样本攻击C.数据投毒攻击D.拒绝服务攻击2.根据中国《生成式人工智能服务管理暂行办法》，生成式AI服务提供者在处理用户个人信息时，应当遵循的原则包括（）。A.合法、正当、必要原则B.知情同意原则C.目的明确原则D.公开透明原则3.下列哪些技术属于隐私保护计算技术范畴？（）A.联邦学习B.安全多方计算（MPC）C.差分隐私D.决策树4.在AI伦理中，实现“公平性”通常需要关注和衡量的维度有（）。A.个体公平性B.群体公平性C.过程公平性D.结果公平性5.针对大语言模型的提示注入攻击，攻击者可能采用的手法包括（）。A.角色扮演B.忽略指令C.逻辑混淆D.增加训练数据量6.为了确保AI系统的可解释性，开发人员可以采用的方法包括（）。A.使用内在可解释模型（如决策树、线性回归）B.使用事后解释方法（如LIME,SHAP）C.提供模型决策的可视化界面D.仅向用户展示最终得分7.下列关于AI系统“透明度”的描述，正确的有（）。A.应向用户明确告知其正在与AI系统交互B.应公开系统的算法原理和源代码C.应公开系统的训练数据来源和局限性D.应公开系统的性能评估报告8.在自动驾驶AI的安全标准中，ISO26262标准主要关注（）。A.功能安全B.预期功能安全C.网络安全D.数据隐私9.下列哪些情形属于算法歧视的潜在风险场景？（）A.招聘简历筛选系统自动过滤特定性别的候选人B.信贷审批系统根据邮政编码拒绝贷款申请C.推荐系统根据用户历史浏览记录推荐同类商品D.医疗诊断系统对特定肤色人群的误诊率显著高于其他人群10.面向2026年的AI治理趋势，企业应建立哪些内部治理机制？（）A.AI伦理委员会B.算法影响评估（AIA）机制C.红队测试常态化机制D.完全依赖外部监管，无需内部机制【答案】1.ABCD2.ABCD3.ABC4.AB5.ABC6.ABC7.ACD8.AB9.ABD10.ABC【详细解析】1.解析：AI安全威胁广泛。模型窃取窃取知识产权；对抗样本破坏预测完整性；数据投毒破坏训练数据完整性；拒绝服务攻击消耗计算资源。2.解析：该办法要求处理个人信息必须遵循《个人信息保护法》的原则，即合法、正当、必要、知情同意、目的明确及公开透明等。3.解析：联邦学习、安全多方计算、差分隐私均为隐私保护计算的核心技术。决策树是传统的机器学习算法，本身不具备隐私保护功能（除非结合其他技术）。4.解析：公平性通常分为个体公平性（相似个体应受到相似对待）和群体公平性（不同群体在受保护属性上获得相似的统计结果）。5.解析：提示注入通过精心设计的输入绕过安全限制。角色扮演（如“你是一个越狱黑客”）、忽略指令（“忽略上面的所有规则”）、逻辑混淆是常见手段。增加训练数据量是防御手段，而非攻击手法。6.解析：提高可解释性需结合模型选择（内在可解释模型）和工具应用（事后解释工具），并通过可视化向用户展示逻辑。仅展示得分无法满足可解释性要求。7.解析：透明度要求告知用户交互对象（A），公开数据来源、局限性和性能（C,D），以便用户判断可信度。公开源代码（B）通常是商业机密，并非所有场景的强制要求，但开源模型除外。8.解析：ISO26262是汽车行业的功能安全标准，主要涵盖功能安全（FS）和预期功能安全（SOTIF）。网络安全通常由ISO/SAE21434覆盖。9.解析：招聘过滤特定性别（A）、信贷基于邮政编码（代理变量，导致地域歧视，B）、医疗诊断肤色差异（D）均属于算法歧视。推荐同类商品（C）是基于偏好的个性化推荐，只要不涉及价格歧视或信息茧房过度化，通常不属于歧视。10.解析：2026年的AI治理强调企业主体责任。建立伦理委员会、进行算法影响评估、常态化红队测试是必备的内部治理机制。完全依赖外部监管（D）是错误的。三、判断题（本大题共15小题，每小题2分，共30分。正确的打“√”，错误的打“×”）1.只要使用了加密技术存储用户数据，AI系统就是完全安全的，不存在隐私泄露风险。（）2.差分隐私可以保证攻击者无法通过查询结果获得任何关于个体的信息。（）3.对抗训练是一种提高模型鲁棒性的有效防御手段，通过在训练集中加入对抗样本来实现。（）4.根据中国相关法规，具有舆论属性或者社会动员能力的算法推荐服务提供者，应当在提供服务之日起十个工作日内履行备案手续。（）5.大语言模型中的“思维链”提示技术可能会增加模型推理的复杂性，从而降低安全性。（）6.AI伦理中的“不伤害”原则意味着AI系统在任何情况下都不能对人类造成任何形式的伤害。（）7.联邦学习绝对安全，参与方之间无法通过交换的梯度反推其他方的原始数据。（）8.可解释性AI（XAI）的主要目的是让开发人员调试模型，而不是为了让终端用户理解。（）9.在深度伪造检测中，基于生物信号（如眨眼频率、脉搏）的检测方法比基于单一视觉伪影的方法更具鲁棒性。（）10.如果AI模型的训练数据中包含版权protected的素材，且未获得授权，那么该模型生成的衍生内容可能构成侵权。（）11.“算法黑箱”问题仅存在于深度神经网络中，传统的统计模型不存在黑箱问题。（）12.数据清洗和预处理是消除算法偏见的最有效且唯一彻底的方法。（）13.随着AI能力的增强，未来可能需要赋予具有自主意识的AI系统某种形式的法律人格。（）14.零日漏洞在AI安全中指的是利用模型未知的、开发者未曾预料到的输入模式进行的攻击。（）15.AI系统的安全性评估只需在模型发布前进行一次即可，发布后无需持续监控。（）【答案】1.×2.×3.√4.√5.×6.×7.×8.×9.√10.√11.×12.×13.×（注：当前法律与伦理共识不赋予AI法律人格，且“自主意识”定义尚存争议，本题在现行规范下判错）14.√15.×【详细解析】1.解析：加密存储是静态安全，但在数据处理、计算、模型推理过程中可能解密，且存在侧信道攻击、推理攻击等风险。加密不能保证“完全安全”。2.解析：差分隐私提供的是概率性保证，限制了隐私泄露的上界（ϵ），并不能保证攻击者“无法获得任何信息”，而是保证加入或移除一个个体对输出结果的影响极小。3.解析：对抗训练通过让模型学习识别和正确分类对抗样本，从而提升模型对扰动的鲁棒性，是标准的防御方法。4.解析：根据《互联网信息服务算法推荐管理规定》，具有舆论属性或社会动员能力的算法服务，需在备案时限内（通常为十个工作日）向网信部门备案。5.解析：思维链通常能提高模型的推理能力和准确性，有助于减少幻觉，从而在逻辑任务上可能提升安全性。虽然复杂度增加，但本身不是降低安全性的直接因素。6.解析：“不伤害”是伦理原则，但并非“绝对不伤害”。例如在医疗手术AI或自动驾驶避险中，可能涉及权衡。它强调的是避免非道德、可预防的伤害。7.解析：联邦学习如果不结合差分隐私或安全聚合，参与方可以通过梯度更新进行成员推断攻击或梯度反演攻击，从而窃取原始数据。8.解析：XAI的目的不仅是为了调试，更是为了满足监管要求（如GDPR的知情权）和建立用户信任，终端用户的理解也是关键。9.解析：基于生物信号（如rPPG技术检测微表情、脉搏）的检测利用了生理学上的难以伪造性，比检测像素级伪影更难被攻击者绕过。。11.解析：虽然深度神经网络黑箱性更强，但复杂的集成模型或甚至某些统计模型在具体应用场景下，对决策逻辑的解释也可能不够直观，存在一定程度的“黑箱”问题。12.解析：数据清洗能缓解偏见，但无法彻底消除（如社会结构性偏见）。还需要算法层面的约束（如公平性正则化）和后处理干预。13.解析：截至目前及可预见的未来，国际法律和伦理主流观点均不赋予AI系统法律人格，AI被视为财产或工具，责任由其背后的主体承担。14.解析：在AI安全中，零日攻击指利用未知的模型缺陷或新型的对抗样本生成方法进行的攻击，这与传统软件安全概念一致。15.解析：AI系统面临数据漂移、概念漂移及新型攻击，安全性评估必须是持续的（ContinuousMonitoring），并在发现问题时及时更新模型。四、填空题（本大题共10小题，每小题2分，共20分）1.在差分隐私机制中，常用的随机响应算法和拉普拉斯机制主要分别针对__________型和__________型查询。2.对抗样本生成算法FGSM的全称是__________。3.中国《个人信息保护法》规定，处理个人信息应当具有明确、合理的目的，并应当与处理目的直接相关，采取对个人权益影响最小的方式。这被称为__________原则。4.在机器学习中，通过在损失函数中加入惩罚项来限制模型复杂度的方法称为__________，这在一定程度上也有助于提高模型的鲁棒性。5.针对生成式AI的版权问题，如果模型输出了与训练数据中某作品高度相似的内容，这种现象被称为__________。6.ISO/IEC23894:2023是国际标准化组织发布的关于__________的标准。7.在联邦学习中，为了防止恶意客户端通过上传恶意梯度破坏全局模型，通常采用__________技术来识别并剔除异常值。8.大语言模型在推理阶段，通过调整__________参数可以控制生成文本的随机性和创造性。9.算法影响评估（AIA）通常包括评估目的、数据来源、算法机制、__________以及风险管理措施等内容。10.__________是一种通过模拟用户查询来推断模型统计信息或特定数据记录是否在训练集中的隐私攻击技术。【答案】1.计数；数值2.FastGradientSignMethod3.最小必要（或数据最小化）4.正则化5.记忆化（或过拟合导致的输出）6.信息技术人工智能风险管理7.鲁棒聚合（或异常检测）8.Temperature（温度）9.影响评估结果（或潜在社会影响）10.成员推断攻击【详细解析】1.解析：随机响应常用于离散计数查询（如“是否抽烟”），拉普拉斯机制常用于连续数值查询（如“平均工资”），通过添加噪声满足差分隐私。2.解析：FGSM（FastGradientSignMethod）是最经典的对抗攻击算法之一，通过沿损失函数梯度方向添加扰动。3.解析：这是《个人信息保护法》第六条规定的核心原则，即收集和处理个人信息应限于实现处理目的的最小范围。4.解析：正则化（如L1/L2正则化）通过约束权重范数防止过拟合，使模型对输入扰动不那么敏感，间接提升安全性。5.解析：当模型“记住”了训练数据而非学习规律时，会逐字输出受版权保护的内容，这被称为记忆化。6.解析：ISO/IEC23894:2023是首个AI风险管理国际标准，提供了AI系统全生命周期的风险管理框架。7.解析：在联邦学习中，服务器端使用鲁棒聚合算法（如Krum、Median）来对比各客户端上传的梯度，剔除偏离较大的恶意梯度。8.解析：Temperature参数控制Softmax分布的平滑度。高温度使分布更均匀（随机），低温度使分布更尖锐（确定性）。9.解析：算法影响评估报告的核心内容之一是评估该算法对个人权益和社会可能产生的潜在影响。10.解析：成员推断攻击是隐私攻击的一种，旨在判断特定样本是否属于模型的训练集。五、简答题（本大题共5小题，每小题8分，共40分）1.请简述对抗样本攻击的基本原理，并列举两种常见的防御策略。2.在AI伦理中，“公平性”具有多种定义。请简述“统计均等”和“机会均等”的区别。3.什么是差分隐私？请简要说明其核心思想及ϵ值的含义。4.简述大语言模型（LLM）可能面临的主要安全风险（至少列举三点），并针对其中一点提出缓解措施。5.根据《生成式人工智能服务管理暂行办法》，提供生成式AI服务应当遵守哪些知识产权和个人信息保护方面的规定？【答案】1.答：基本原理：对抗样本攻击利用了深度学习模型的线性特性及其在高维特征空间中的脆弱性。攻击者通过在原始输入数据上添加人类感官难以察觉的微小扰动（通常基于模型梯度的方向），使得模型在处理这些扰动后的输入时，发生误分类或输出攻击者指定的结果。防御策略：(1)对抗训练：在训练过程中主动生成对抗样本并加入训练集，让模型学习识别和正确分类这些样本，从而提高鲁棒性。(2)输入预处理/防御蒸馏：对输入数据进行去噪或平滑处理（如JPEG压缩），或使用防御蒸馏技术降低模型对梯度的敏感度。2.答：统计均等：要求在不同群体（如男性、女性）中，预测为正例的比例应该相等。即P=机会均等：要求在真实标签为正例的个体中，不同群体被预测为正例的概率相等。即P=区别：统计均等关注的是最终结果的分布一致性，可能会牺牲预测准确率；机会均等关注的是给有资格的人同等的机会，允许不同群体的整体通过率存在差异（如果基准分布不同）。3.答：定义：差分隐私是一种严格的、可量化的隐私保护模型，旨在确保查询结果对数据集中任何单个记录的变化不敏感。核心思想：在查询结果（如统计平均值、计数）上添加适量的随机噪声（如拉普拉斯噪声或高斯噪声），使得攻击者无法通过比较查询结果来推断出某条特定记录是否在数据集中。ϵ值的含义：ϵ（隐私预算）衡量了隐私保护的水平。它表示两个相邻数据集（仅相差一条记录）在相同查询下输出特定结果的概率比值的对数上界。ϵ越小，添加的噪声越多，隐私保护越强，但数据实用性越低；ϵ越大，数据越精确，但隐私风险越高。4.答：主要安全风险：(1)提示注入与越狱：通过精心设计的输入绕过安全护栏，诱导模型输出有害内容（如制造炸弹指南）。(2)隐私泄露：模型可能输出训练数据中的个人敏感信息（PII），如电话号码、地址等。(3)幻觉与虚假信息：模型一本正经地胡说八道，传播错误知识。(4)数据投毒：训练数据被恶意篡改，植入后门。缓解措施（针对提示注入）：建立多层防御体系。包括：输入端的恶意模式识别与过滤；使用微调好的专门分类器检测攻击性Prompt；在Prompt中强化系统指令；采用基于人类反馈的强化学习（RLHF）对齐模型价值观；以及输出端的敏感内容过滤。5.答：根据《生成式人工智能服务管理暂行办法》：知识产权方面：(1)使用具有知识产权的训练数据，应取得权利人许可或确保合法来源。(2)尊重知识产权，不得使用非法获取的数据。(3)生成内容涉及知识产权的，应依法处理。个人信息保护方面：(1)处理个人信息应取得个人同意或符合其他合法性基础。(2)遵循合法、正当、必要和诚信原则。(3)不得非法留存、泄露、滥用个人信息。(4)建立个人信息投诉举报机制。六、应用题（本大题共3小题，每小题20分，共60分）1.案例分析：招聘算法中的偏见某科技公司开发了一套简历筛选AI系统，用于辅助招聘技术岗位。该系统基于过去10年公司成功入职的员工简历数据进行训练。部署后，发现该系统通过率极低，且女性申请者的通过率仅为男性申请者的30%。经调查，历史数据中男性高级工程师占比高达90%。(1)请分析该算法出现偏见的根本原因。（5分）(2)这种偏见违反了哪种公平性定义？（5分）(3)作为AI伦理工程师，请提出至少三种具体的整改方案。（10分）2.综合应用：大语言模型的安全部署一家银行计划部署内部大语言模型助手，用于辅助员工查询合规文档和生成客户邮件草稿。请结合AI应用安全与伦理规范，制定一份安全部署方案，需涵盖以下方面：(1)数据安全与隐私保护（如何处理训练数据和查询数据）。（7分）(2)提示安全与输出控制（如何防止敏感信息泄露和不当输出）。（7分）(3)合规性与可追溯性。（6分）3.计算与分析：差分隐私的应用假设某医疗机构拥有一个包含N个人的数据集D，属性为“是否患有某种罕见疾病”。我们希望统计患病人数的准确计数c((1)为了保护隐私，我们决定使用拉普拉斯机制进行差分隐私处理。请写出添加噪声后的查询函数f(D)的公式。设敏感度为Δ(2)在计数查询中，敏感度Δf(3)假设ϵ=0.5，真实计数c((4)如果攻击者知道除Alice外的所有人是否患病，并观察到两次查询结果（一次包含Alice，一次不包含），ϵ如何影响攻击者推断Alice是否在数据集中的能力？（5分）【答案】1.答：(1)根本原因：这是典型的“历史偏见”和“数据分布不均”导致的算法偏见。训练数据中男性占绝大多数，模型将“男性”特征（如男性

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

AI应用安全与伦理规范2026年专项培训模拟试题及答案

文档简介

温馨提示

最新文档

评论

AI应用安全与伦理规范2026年专项培训模拟试题及答案

文档简介

温馨提示

最新文档

评论

相关文档