2026年企业数据脱敏验证考核试卷及答案_第1页
2026年企业数据脱敏验证考核试卷及答案_第2页
2026年企业数据脱敏验证考核试卷及答案_第3页
2026年企业数据脱敏验证考核试卷及答案_第4页
2026年企业数据脱敏验证考核试卷及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年企业数据脱敏验证考核试卷及答案1.单项选择题(每题2分,共20分)1.1依据《GB/T37918-2019数据脱敏规范》,下列哪项不属于“静态脱敏”的典型应用场景?A.生产库全量备份用于开发测试B.数据仓库向BI系统提供月度报表C.实时风控接口返回脱敏后的客户手机号D.监管上报数据刻录光盘离线交付答案:C1.2在K-匿名模型中,若等价类大小为5,敏感属性“疾病”在该类内取值分别为{糖尿病,高血压,糖尿病,骨质疏松,糖尿病},则该等价类满足A.3-多样性B.4-多样性C.5-多样性D.不满足任何多样性答案:A1.3对16位UTF-8编码的银行卡号“6225880123456789”实施格式保留加密(FPE)且保持长度不变,若采用FF1算法,密钥长度为128bit,则密文空间大小为A.B.C.16D.答案:A1.4差分隐私中,对同一查询连续两次添加拉普拉斯噪声,若第一次尺度参数为,第二次为,则两次累积噪声的尺度参数为A.+B.C.maxD./答案:B1.5企业使用正则“(?<=\d{3})\d{4}(?=\d{4})”对手机号脱敏,替换字符串为“****”,则原号脱敏结果是A.138****5678B.1381234****C.****12345678D.138123****78答案:A1.6在数据脱敏验证阶段,采用“可逆性测试”主要是为了发现A.脱敏规则是否被绕过B.加密密钥是否泄露C.脱敏后数据是否仍可被还原D.敏感字段是否被误删除答案:C1.7对一张含1亿行、50列的MySQL表实施Hash脱敏,若使用SHA-256并对盐值进行HMAC,则下列哪项操作会引入“盐值复用”风险?A.每行使用独立随机盐B.每表使用一个固定盐C.每列使用独立随机盐D.每单元格使用独立随机盐答案:B1.8在隐私预算消耗追踪模型中,若某查询的ε=0.1,企业当日累计已消耗ε=0.9,则再执行同一查询10次后,总消耗为A.1.0B.1.9C.0.9+10×0.1=1.9D.0.9×10×0.1=0.09答案:C1.9对“出生日期”字段实施区间泛化,若原始粒度为“日”,泛化到“月”后,信息损失度(IL)计算公式为A.1B.1C.D.答案:A1.10在数据脱敏治理体系中,负责“定级”与“定规”的最小颗粒度责任主体是A.数据拥有者(Owner)B.数据使用者(User)C.数据运维者(Ops)D.数据监管者(DPO)答案:A2.多项选择题(每题3分,共15分;多选少选均不得分)2.1以下哪些属于“动态脱敏”常见的技术实现方式?A.数据库代理视图B.API网关字段级过滤C.磁盘级全盘加密D.列级透明加密E.行级安全策略(RLS)答案:A、B、E2.2对姓名“欧阳震华”实施长度保持脱敏,下列策略哪些满足“不可识别”且“长度不变”?A.统一替换为“*”并保持3个字符B.使用同音字替换为“欧羊振华”C.使用FPE加密输出“纳兰容若”D.随机删除中间字符得“欧震华”E.使用掩码“欧**华”答案:B、C2.3在差分隐私的MomentsAccountant机制里,下列哪些因素会直接影响隐私预算的上界?A.训练轮次B.批大小C.学习率D.梯度裁剪范数E.噪声方差答案:A、B、D、E2.4对一张包含“身份证号”字段的表实施脱敏,下列哪些做法可能引入“频率攻击”风险?A.同一身份证使用相同哈希盐B.哈希算法选用MD5且不加盐C.使用可逆对称加密D.使用格式保留加密E.使用随机映射表但复用映射表答案:A、B、E2.5依据《个人信息保护法》,企业在“数据脱敏验证报告”中必须披露哪些要素?A.脱敏算法名称及版本B.验证测试用例及结果C.加密密钥的完整私钥D.残余风险等级评估E.验证人员签字及日期答案:A、B、D、E3.填空题(每空2分,共20分)3.1在K-匿名中,若准标识符为{年龄,性别,邮编},当K=__3__时,任意等价类内至少包含3条记录。3.2格式保留加密(FPE)中,若明文空间大小为,则最小安全密钥长度应不少于__80__bit(按NISTSP800-38G)。3.3差分隐私的拉普拉斯机制中,对计数查询添加噪声,若敏感度为1,ε=0.5,则噪声尺度参数b=__2__。3.4对Email字段“zhangsan@”实施局部掩码,保留首3末4字符,中间用“”填充,结果为____。3.5若某表脱敏后采用Shannon熵衡量信息损失,原始熵H(X)=3.2bit,脱敏后熵H(X')=1.8bit,则信息损失率为__43.75%__。3.6在数据脱敏验证中,采用“重识别率”指标,若测试样本1000条,成功重识别18条,则重识别率为__1.8%__。3.7使用AES-256-GCM对手机号加密,若IV长度为96bit,则IV安全随机重用的概率上限应低于__1/2^{32}__(NIST推荐)。3.8对“薪资”字段实施区间泛化,若原始区间[5000,5001,…,20000]共15001个离散值,泛化到500元一档,则泛化后区间数为__30__。3.9在数据脱敏治理流程中,遵循“数据最小化”原则,脱敏后数据字段数应不多于原始字段数的__100%__,但实践中通常控制在__30%__以内。3.10依据ISO/IEC27040,脱敏后数据存储介质报废时,应执行__覆写__或__物理粉碎__级清除。4.简答题(每题10分,共30分)4.1简述“可逆脱敏”与“不可逆脱敏”的差异,并给出各自适用的业务场景及风险点。答案:可逆脱敏指通过密钥或映射表可将脱敏数据还原为原始数据,典型技术包括对称加密、格式保留加密、令牌化。适用场景:生产数据共享给受信第三方,且第三方偶发需要还原真实值,如银行客服系统需查看完整卡号完成挂失。风险点:密钥管理复杂,一旦密钥泄露即导致全部敏感信息暴露;若映射表被逆向推导,可发生重识别攻击。不可逆脱敏指无法从脱敏结果恢复原始数据,典型技术包括哈希(带盐)、截断、噪声添加、区间泛化。适用场景:数据分析、AI模型训练、外包测试。风险点:若哈希盐复用或空间过小,可被彩虹表破解;区间泛化过粗会导致数据效用下降;噪声添加需平衡隐私与效用。4.2说明在差分隐私下,为何“隐私预算”需要累积,并给出一种企业级实时追踪框架。答案:差分隐私保证机制随查询次数增加而线性或次线性累积隐私损失,因此必须对ε进行累加,防止攻击者通过多次查询差分结果以高置信度推断个体信息。企业级实时追踪框架:1.中心组件:PrivacyLedger(基于Google的PrivacyLedger设计),记录每次查询的ε、δ、查询ID、时间戳;2.代理层:在API网关嵌入SDK,每次查询前向Ledger申请预算,若剩余预算<请求预算则拒绝;3.存储:使用RedisCluster保存当日累积ε,设置TTL为24h;4.审计:每日凌晨将Ledger同步至Hive,使用SQL进行异常检测(如突增ε>0.5的账户);5.告警:对接企业微信,当瞬时ε>0.95或单日ε>1.0时推送告警。4.3描述“重识别攻击”在数据脱敏验证中的实验设计步骤,并给出评价指标。答案:步骤:1.样本抽取:从脱敏后数据集中随机抽取n条记录作为T;2.背景知识构造:利用公开数据集(如选民登记、房产公示)构建准标识符属性集Q;3.链接攻击:将T与公开数据集在Q上做等值连接,得到匹配记录数m;4.确认:对匹配记录中的敏感属性与原始敏感属性进行一致性校验,若完全一致则记为重识别成功;5.重复:执行k次蒙特卡洛采样,计算均值。评价指标:重识别率R=置信区间:使用WilsonScore给出95%置信区间;风险等级:若R<0.5%为Low,0.5%~2%为Medium,>2%为High。5.应用题(共65分)5.1计算分析题(15分)某电商公司“订单表”含字段{user_id,mobile,price,address,order_time},共2亿行。现需对mobile实施格式保留加密(FPE)后交付给第三方做营销分析。已知:mobile为11位数字;FPE加密后需保持11位数字格式;第三方要求重识别率<0.01%;公司采用FF1算法,密钥128bit,每行独立随机tweak=row_id%2^{32}。问题:(1)计算理论密文空间大小,并说明是否满足“不可暴力破解”要求(按NIST建议安全级别)。(2)若攻击者掌握全部2亿条明文、密文对,试估算其构建明文-密文映射表所需存储(GB),并评估风险。(3)给出一种降低该风险的技术改进方案。答案:(1)密文空间≈,远小于128bit密钥空间,无法暴力枚举密钥,但可枚举明文空间。因次AES调用需约/(3×(2)每条映射需8B明文+8B密文+4Btweak=20B,共2×(3)改进:将tweak扩展为128bit随机值,并单独存储于高安全级KMS;引入频率隐藏:对出现次数>1000的号码预加入“诱饵”记录,使频率分布失真;使用格式保留哈希+随机盐替代FPE,放弃可逆需求,与第三方协商接受哈希后分析。5.2综合设计题(25分)某金融公司需将核心交易表T(字段见下)脱敏后交付给外部AI团队训练反欺诈模型。表T结构:trans_idbigint,cust_namevarchar(50),id_nochar(18),mobilechar(11),card_nochar(16),trans_amtdecimal(12,2),trans_timedatetime,mer_idvarchar(20),ipvarchar(15),labeltinyint(1)要求:A.满足《个人信息保护法》最小可用原则;B.训练模型AUC下降不超过原始模型的3%;C.重识别率<0.1%;D.支持可逆与不可逆两种模式,按字段区分;E.提供验证报告模板。任务:(1)给出字段级脱敏策略表(含算法、参数、可逆性、理由)。(2)设计验证实验流程图(文字描述),并列出所需原始数据规模、评估指标及通过阈值。(3)若实验显示AUC下降4%,给出调优方案。答案:(1)字段级策略表|字段|算法|参数|可逆|理由||-----------|--------------------|-------------------------------|------|-------------------------------------------||cust_name|同音字替换+泛化|前2字保留,后泛化“某”|否|姓名对模型贡献低,泛化后仍保留姓氏分布||id_no|FF1加密|128bit密钥,tweak=trans_id|是|监管偶需还原做审计||mobile|格式保留哈希|SHA-256+行级8B盐,取前11位数字|否|保留号段分布,防重识别||card_no|令牌化|随机token,映射表存KMS|是|风控需回溯源卡号||trans_amt|噪声添加|拉普拉斯b=1%均值,ε=0.1|否|金额敏感,加噪声后仍保持分布||trans_time|区间泛化|精确到小时→天|否|降低时间粒度,保留周期性||ip|前缀保留|保留/24网段|否|保留地理特征||mer_id|无需脱敏|—|—|商户号非个人信息||label|无需脱敏|—|—|目标变量|(2)验证实验流程1.采样:从原始表随机抽1千万行作为D_orig,脱敏后得D_deid;2.划分:按cust_id哈希70/15/15拆分训练/验证/测试;3.训练:使用相同XGBoost参数,分别训练Model_orig、Model_deid;4.评估:计算AUC、KS、F1,记录ΔAUC;5.重识别:利用外部泄露的{mobile,id_no}对D_deid做链接攻击,计算R;6.效用:计算trans_amt分布的EarthMover’sDistance(EMD);7.通过阈值:ΔAUC≤3%,R<0.1%,EMD<0.05。(3)AUC下降4%调优金额噪声b从1%降至0.5%,ε从0.1提至0.2,累积ε仍低于日预算0.5;将trans_time从“天”粒度改回“小时”,但将cust_name泛化加强,补偿隐私;对mobile采用“分段噪声”:高额度交易(>1万)加噪声b=0.5%,低额度b=2%,使欺诈信号保留;使用集成模型:将脱敏后数据与公开宏观统计特征拼接,弥补信息损失。5.3计算与证明题(25分)某医疗数据集D包含字段{age,zip,disease},其中age∈[0,120],zip为5位数字,disease∈{A,B,C,D}。现发布3-匿名版本D',等价类划分后,某类元组为{(27,12345,A)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论