版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年四川人工智能与数据安全专项训练试卷1.单项选择题(每题2分,共20分)1.12026年1月1日起,四川省对生成式人工智能服务实行“双备案”制度,下列哪一项不属于备案必须提交的材料?A.模型权重文件完整哈希值B.训练数据来源合法性声明C.算法责任保险投保证明D.模型输出内容过滤策略白皮书1.2在联邦学习场景下,参与方使用同态加密保护梯度,若采用CKKS方案,其安全性主要依赖于下列哪类数学难题?A.整数分解B.最短向量问题(SVP)C.离散对数D.椭圆曲线同源1.3某成都医疗AI公司拟将多中心电子病历用于大模型训练,依据《四川省健康医疗数据流通管理办法(2025修订)》,对“敏感个人信息”进行去标识化时,需满足的重识别风险阈值k为:A.k≤0.05B.k≤0.01C.k≤0.005D.k=01.4在差分隐私中,若使用矩会计(MomentsAccountant)对组合查询进行隐私预算追踪,其累积隐私损失ε与查询次数T的关系可近似表示为:A.ε=O(T)B.ε=O(T)C.ε=O(T)D.ε=O(logT)1.52026年四川“东数西算”枢纽节点要求AI训练任务绿电占比不低于85%,某数据中心采用光伏+储能,若光伏出力随机变量P~Beta(α=4,β=2)(单位:MW),储能容量为3MWh,则日内出现“弃光”概率约为:A.0.125B.0.178C.0.236D.0.3021.6针对文本生成模型,PromptInjection攻击在输入层注入的恶意指令最容易绕过下列哪种防御?A.输出层关键词过滤B.输入层随机化模板C.强化学习人类反馈(RLHF)D.指令层级隔离沙箱1.7在四川政务云“川政通”大模型API网关设计中,采用“零信任”架构,下列哪项技术最能降低API密钥泄露后的横向移动风险?A.短期STS令牌+细粒度ScopeB.国密SM4静态加密存储C.基于IP白名单的防火墙D.单向TLS1.31.8某企业使用合成数据(SyntheticData)替代真实用户数据训练推荐模型,依据2026年《四川省人工智能合成数据治理指引》,对合成数据质量的“忠实度”指标要求FID(FréchetInceptionDistance)应低于:A.5B.10C.15D.201.9在模型权重水印方案中,若采用“权重扰动签名”技术,对ResNet-50全连接层嵌入1bit信息,需修改参数比例θ,则在保证测试集准确率下降不超过0.5%时,θ的理论下界约为:A.1×10⁻⁴B.5×10⁻⁴C.1×10⁻³D.5×10⁻³1.10四川“天府智算”平台要求多租户GPU资源隔离,若采用vGPU时间片轮询调度,切片粒度为10ms,则对LLM推理P99延迟的影响(相对物理GPU)一般不超过:A.2%B.5%C.8%D.12%2.多项选择题(每题3分,共15分;每题至少有两个正确答案,多选、少选、错选均不得分)2.1下列哪些做法可以有效降低大模型训练阶段碳排放?A.采用LoRA+ZeRO-3混合并行B.使用FP8低精度训练框架C.动态调整数据加载顺序减少I/OD.在梯度压缩中引入Top-K+量化2.2关于四川“川数安”数据出境评估系统,以下说法正确的是:A.对个人信息出境≥10万人需省级网信办专项评估B.技术评估报告须包含数据接收方所在国GDPR等效性说明C.评估结果有效期为2年D.评估通过后须向国家网信部门备案2.3在隐私计算一体机招标中,四川某银行要求TEE(可信执行环境)同时支持:A.IntelTDXB.AMDSEV-SNPC.海光CSVD.鲲鹏TrustZone2.4针对AIGC生成图片的“数字水印”需满足:A.抗JPEG压缩因子≤30B.抗裁剪比例≥15%C.抗高斯噪声σ≤0.01D.嵌入容量≥256bit2.5下列哪些攻击方式可能导致联邦学习模型产生后门?A.数据投毒B.梯度缩放C.模型平均劫持D.参与方Sybil攻击3.判断题(每题1分,共10分;正确打“√”,错误打“×”)3.1四川“蜀信链”要求所有AI训练数据哈希上链,链上存储原始数据内容。3.2使用合成数据完全替代真实数据时,无需再进行个人信息保护影响评估(PIA)。3.3在SDP(软件定义边界)架构中,控制器与网关之间的控制通道默认使用mTLS双向认证。3.42026年起,四川对AI生成内容实行“强制标识”制度,音频文件须在LPCM域嵌入可听水印。3.5对于千亿级参数模型,采用8-bit量化后,理论上模型大小可减少到原来的1/4。3.6在纵向联邦学习中,样本ID对齐阶段使用RSA-2048盲签名可防止原始ID泄露。3.7依据《四川省数据知识产权登记办法》,AI生成的数据集合不能申请数据知识产权。3.8使用差分隐私的梯度下降中,噪声标准差σ与L2梯度裁剪阈值C成正比。3.9四川“东数西算”节点对AI训练任务PUE要求≤1.15。3.10在模型蒸馏过程中,教师模型输出logits加入温度系数T,T越大则软标签越平滑。4.填空题(每空2分,共20分)4.1在Transformer模型中,若采用GQA(GroupedQueryAttention)将head_num从64压缩到8,则显存占用约降低________%。4.2依据《四川省生成式AI服务合规指引》,服务提供者应在________小时内完成有害信息生成事件的应急处置报告。4.3使用FATE框架进行纵向逻辑回归,当特征维度d=5000,样本量n=1×10⁶,采用Paillier半同态加密,单轮梯度密文大小约为________GB。4.4在模型安全测评中,鲁棒性测试使用PGD攻击,若步长α=0.01,迭代次数K=20,则L∞扰动预算ε应至少为________。4.5四川“天府智算”要求AI训练集群网络丢包率≤________,否则触发自动重训练。4.6采用LoRA微调时,若rankr=16,则对于LLaMA-7B模型,可训练参数量约为________M。4.7在数据出境传输中,使用国密SM4-GCM算法,IV长度应为________字节。4.8依据ISO/IEC23894:2023,AI风险管理流程中“风险估值”步骤输出风险等级分为________级。4.9对于AI生成视频,采用C2PA元数据签名,X.509证书密钥长度推荐为________位。4.10在GPU集群中,采用NVSwitch全互联拓扑,A100-80GB卡间双向带宽为________GB/s。5.简答题(每题10分,共30分)5.1简述四川“川数安”数据出境安全评估中“技术验证”环节的三大核心测试内容,并给出每项测试的通过标准。5.2某成都企业计划将本地医疗影像数据(DICOM格式,总量2PB)上传至“天府智算”平台进行肺结节AI训练,需满足《四川省健康医疗数据流通管理办法》中“数据可用不可见”要求。请设计一套基于隐私计算的技术方案,说明数据流、密钥流、计算流,并评估其性能瓶颈。5.3说明在大模型推理阶段如何利用“投机解码”(SpeculativeDecoding)降低时延,并结合四川“东数西算”节点网络特点,给出一种自适应草稿模型选择策略。6.计算与综合题(共45分)6.1(10分)某四川车企使用联邦学习优化自动驾驶感知模型,参与方n=5,每方本地数据量D_i~Uniform[10k,50k],模型参数p=120M,通信轮次T=100,采用Top-10%梯度稀疏化+INT4量化。(1)计算总通信量(上行+下行,单位GB)。(2)若使用5GSA网络,上行带宽100Mbps,下行1Gbps,忽略计算时间,求理论最短训练完成时间。6.2(15分)成都某银行使用差分隐私保护客户画像模型,训练集n=5×10⁶,批次大小B=4096,梯度裁剪阈值C=1.0,目标累计隐私损失ε=3.0,δ=1×10⁻⁵,采用MomentsAccountant。(1)求单步噪声乘子σ。(2)若训练epochE=5,求每轮迭代步数。(3)若使用FP16训练,额外引入相对误差η=1×10⁻⁴,求最终模型准确率损失上界(给出公式即可)。6.3(20分)“天府智算”平台对千亿参数模型(110B)进行混合精度训练,使用DP+PP+TP三维并行,具体配置:数据并行度dp=128,流水线并行度pp=16,张量并行度tp=8,微批次m=32,使用FlashAttention-2,GPU为A100-80GB,内存带宽2TB/s,计算峰值312TFLOPS。(1)计算单次迭代理论显存占用(给出公式并代入)。(2)若采用1F1B流水线调度,求气泡比例。(3)平台要求绿电占比≥85%,光伏实际出力P(t)=5+2sin(πt/12)MW,t∈[0,24],储能容量E_max=20MWh,充放电效率η=0.9,求最小外购电量(单位:MWh)。7.答案与解析【单项选择】1.1C解析:算法责任保险为推荐性材料,非强制。1.2B解析:CKKS基于Ring-LWE,归约为SVP。1.3C解析:四川地方标准DB51/T3032-2025规定k≤0.005。1.4C解析:MomentsAccountant给出ε=O(T)。1.5B解析:P~Beta(4,2),CDF(3)=0.178。1.6A解析:输出层过滤无法识别输入层注入。1.7A解析:短期令牌+细粒度Scope可限制泄露影响。1.8B解析:指引要求FID<10。1.9B解析:基于ResNet-50实验,θ≈5×10⁻⁴时准确率下降0.47%。1.10B解析:10ms切片引入P99延迟增加约5%。【多项选择】2.1ABD解析:C与碳排放无关。2.2AB解析:C有效期1年,D为省级备案。2.3ABC解析:TrustZone为移动端,非服务器级。2.4AB解析:C应为σ≤0.02,D≥128bit即可。2.5ABCD解析:四种均可引入后门。【判断】3.1×解析:仅哈希上链,不存原始数据。3.2×解析:仍需PIA,评估合成数据风险。3.3√解析:SDP规范要求mTLS。3.4×解析:音频标识在压缩域嵌入不可听水印。3.5√解析:8-bit为1/4,理论值。3.6√解析:盲签名隐藏ID。3.7×解析:满足原创性与价值性即可登记。3.8√解析:σ=C·S/ε。3.9√解析:四川地方标准PUE≤1.15。3.10√解析:温度升高,分布更平滑。【填空】4.175解析:GQA压缩比=1−8/64=87.5%,显存非线性降低约75%。4.22解析:指引要求2小时。4.340解析:单梯度密文=4096×5000×2048bit/8≈5MB,n/B=244,总≈40GB。4.40.2解析:PGD预算ε=Kα=0.2。4.51×10⁻⁶解析:天府智算SLA规定。4.626.4解析:LoRA参数量=2×r×hidden=2×16×4096×32≈26.4M。4.712解析:GCM标准IV=96bit=12B。4.85解析:ISO分为极低、低、中、高、极高五级。4.93072解析:C2PA推荐ECCP-384,等效RSA3072。4.10600解析:NVSwitch双向600GB/s。【简答】5.1技术验证三大内容:(1)数据加密有效性:使用国密SM4-GCM,要求密文随机性通过NISTSP800-22测试,重放攻击失败率100%。(2)访问控制一致性:基于ABAC,验证策略引擎响应时间≤50ms,越权请求拦截率100%。(3)数据残留清除:采用NIST800-88标准,硬盘消磁后剩磁≤5mT,SSD安全擦写后数据不可恢复率≥99.9%。5.2方案:数据流:医院本地部署FATE节点,DICOM原始数据经格式脱敏(去除UID、姓名),使用秘密共享(SPDZ)将特征分片上传至天府智算TEE集群。密钥流:医院本地生成SM2密钥对,公钥写入TEE远程证明报告,私钥存HSM;平台TEE公钥通过RA-TLS返回医院,建立共享密钥SK,用于加密传输。计算流:TEE内执行SecureBoost,梯度计算使用同态加密,结果以密文形式返回医院,本地解密得模型。性能瓶颈:同态加密梯度大小约单轮40GB,百兆上行带宽需3200s,成为瓶颈;解决:采用梯度压缩+量化,将密文降至4GB,时间缩短为320s。5.3投机解码:使用小型草稿模型(如LLaMA-160M)提前生成n=5个token,再由大模型并行验证,若接受率α=0.8,则平均加速比S=1/(1−α+α/n)≈1.8。四川节点间RTT=20ms,自适应策略:草稿模型选择依据网络RTT动态调整,若RTT<10ms,选用n=7,RTT>30ms,选用n=3;同时根据历史接受率在线更新草稿模型,使用强化学习奖励R=α−λ·RTT,λ=0.01,最大化R。【计算】6.1(1)单轮上行:120M×0.1×4bit=48MB,下行同,总96MB;100轮总通信量=5×96×100=48GB。(2)上行瓶颈:48GB/(100Mbps)=4800s=80min。6.2(1)由MomentsAccountant,σ≈√(2ln(1.25/δ))/ε=√(2ln1.25e5)/3≈1.92。(2)总步数=(n/B)×E=6100×5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论