2026年个信最小必要与脱敏规范(2图2模)_第1页
2026年个信最小必要与脱敏规范(2图2模)_第2页
2026年个信最小必要与脱敏规范(2图2模)_第3页
2026年个信最小必要与脱敏规范(2图2模)_第4页
2026年个信最小必要与脱敏规范(2图2模)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE2026年个信最小必要与脱敏规范(2图2模)政策法规·实用文档2026年·7029字

目录一、怎么判定最小必要:一张“三一致性”校验表就够二、脱敏方式哪种好:掩码、泛化、扰动、同态与合成三、个信与脱敏的具体操作步骤:4步跑通从采集到退出四、个人信息分级模板:标识类/敏感类/匿名化类五、数据收集最小化流程图:采集-保存-共享-删除六、A/B实验:脱敏对报表与模型的影响评估七、字段留存天数怎么设:生命周期矩阵与自证明日志八、制度与条款:违约、争议、签署与跨境

这份内部规范给【公司名称】用,目的就两件事:个信最小必要与脱敏。第一件事确保你采的每一项个人信息都有硬理由,第二件事确保任何落在数据库里的个信都能在风险和可用之间找到平衡。别把这当纯合规文件,它是可执行的工作手册。每个小节后面都加了实操表单、替换项和应急方案,真发生争议也能拿得出证据。一、怎么判定最小必要:一张“三一致性”校验表就够很多团队判断“最小必要”靠感觉,容易偏。我们把判断压缩成一张“三一致性”校验表:目的一致性、范围一致性、时限一致性。任何一项不一致就不能采。三一致性校验表(图1文字版)业务目的ID:【目的编号】。化成一句话,例如“完成【具体业务,如次日达配送结算】”。必要字段清单:字段【A/B/C】,每个字段写“不可替代理由”。例如“手机号用于验证码登录,不可替代为邮箱,因为【用户画像X%仅留手机号】”。处理场景:采集/传输/分析/出数/共享,勾选具体环节。留存时限:字段【A】存【X】天,触发删除条件【用户撤回/订单关闭+N天】。替代方案评估:是否可改为端侧计算/一次性令牌/哈希/合成数据,给结论和风险评分【0-5】。利益-风险比:收益指标【如欺诈率下降2.1%】对比隐私风险分【R=影响×概率】。归属角色:数据控制者【部门/人】、数据处理者【供应商】、责任审批人【DPO/法务】。法律依据:PIPL第【6/13/29】条,DSL第【数】条,标准合同条款编号【SC-XXXX】。我见过太多团队因为忘记“替代方案评估”而翻车。前年6月,杭州一家到店零售App在“新客补贴”里顺手把通讯录拿了,解释说是防止羊毛党。后来投诉爆了,用户把下载页截图发到平台,显示“仅需手机号”,却在权限里要通讯录。三一致性里“目的一致性”直接不通过;他们不得不连夜改成一次性设备指纹+动态名单,最终拦截率只差0.6%,投诉下降了62%。这件事的关键经验:先写“不可替代理由”,再写“替代方案评估”,次序不能反。如果你遇到这种情况:业务方说“先采上来再说”,换这个方法。给他们看三一致性表,把“不可替代理由”和“收益量化”空着,要求两天内补齐;补不齐视为默认可替代,字段降级或不采。别争论,照表办。二、脱敏方式哪种好:掩码、泛化、扰动、同态与合成脱敏没有万能药,只有合适与不合适。我们把常见方式做了约束式选择,避免“随手哈希”搞砸后续分析。1.掩码(Mask)适用:展示层、客服工单、对账回显。做法:手机号保留前三后四,中间以【】替代;身份证保留前六后四;姓名保留姓或【拼音首字母】。风险:可逆链路。客服二次验证不要让用户报出全量信息,改用一次性校验码。指标影响:几乎不影响报表,模型训练不可用。案例:去年8月,青岛某平台在外包客服系统里未掩码显示身份证,外包场地被人拍照外传。复盘后,系统做了只读掩码与水印定位,二次事故归零。2.泛化(Generalization)适用:报表与分析。将精度降低,比如经纬度取到城市级,年龄转成区间。做法:经纬度保留两位小数;交易时间以日计;订单金额分桶。风险:过度泛化会让A/B实验失真。可先跑“指标灵敏度曲线”,看从精确到泛化各层级损失。数据支撑:我们在【项目代号】中测试,经纬度由六位降到两位,小流量转化率模型AUC下降0.015,图商费用降低21%。3.扰动(Noise/DP)适用:聚合报表、热力图、人群规模披露。做法:拉普拉斯噪声,隐私预算【ε】按口径分配:财务报表【0.2-0.4】,运营看板【0.5-1.0】。风险:小样本高偏差。低基数指标禁止对外展示。达不到阈值时回写“n<【阈值】不展示”。案例:去年深圳某SaaS对外做城市榜单,未做阈值屏蔽,样本仅27人仍显示。被用户质疑“暴露单位”。后改成阈值200且引入ε=0.5扰动,投诉清零。4.同态加密(FHE)与安全多方计算(MPC)适用:跨主体联合计算、风控黑白名单对碰。做法:对手机号做Paillier加密或重哈希后在MPC里做相交,避免原文出境。风险:性能与成本。FHE只放在小批量高价值计算。批次超过【50万】建议改用MPC+布隆过滤器。数据支撑:与【合作方】做相交名单100万量级,FHE耗时【72】分钟,改MPC后【11】分钟,命中率一致。5.合成数据(Synthetic)适用:模型预研、结构调优、体验测试。做法:基于真实分布训练生成器,再做KS检验与成员推断抵抗。风险:分布漂移。合成样本落地前跑“假阳性审计”,对关键指标做阈值比对。案例:去年南京某互联网医院用合成处方数据预研药品推荐,把性别分布误设为均衡,实流女性占比70%,上线后模型错判。后来改为条件生成+重采样,指标恢复。选型口诀:展示用掩码,报表用泛化,出数用扰动,联算用同态/MPC,研发用合成。别混用,先定口径再定技术。三、个信与脱敏的具体操作步骤:4步跑通从采集到退出1.采集前:立项与可替代评估提交《最小必要申请单》:项目【名称】、目的【一句话】、字段表【见附表】、可替代结论、法律依据。校验:数据治理和法务在【T+2】内给出意见,缺证据退回。如果遇到紧急上线,走“灰度豁免”:字段临时留存【7】天,必须并行做A/B验证替代方案。2.采集中:明示、授权与隔离授权界面写人话:为什么采、用多久、怎么撤回。必须可点击【查看详情】进入完整清单。隔离:把可回溯标识和业务内容分表,按“最小能看原则”配权限。客服看不到身份证原文,研发看不到姓名原文。端测:权限弹窗只在功能触达点触发,禁止开屏连发。每次采集在SDK侧加【trace_id】便于审计。3.存储与使用:口径内使用与最少人员访问建数据字典:每个字段附带用途、口径、脱敏层级、留存天数、共享白名单。访问策略:角色到表,表到列,列到行。越权报警走【DLP】。出数:对外必须过出数网关,默认泛化+扰动;内部临时出数保质期【72小时】,过期自动失效。4.退出:留痕、删除与争议回溯自动删除:到期删除,日志写入“删除证明”并哈希上链【可选】。用户撤回:在【个人中心-隐私管理】一键撤回,24小时内生效。争议回溯:保留“处理记录摘要”,不保留原文个信。争议解决时通过摘要与哈希证明“我们做过且已删”。紧凑流程图(图2文字版)采集请求→三一致性校验→通过→写字典与权限→采集→入库分表→使用→到期/撤回→删除→生成删除证明→归档。四、个人信息分级模板:标识类/敏感类/匿名化类我们用三层分级,落地简单,不纠缠“是否匿名化到可控风险”的哲学问题。A类标识类(强关联)手机号、身份证、护照、IMEI、IDFA、脸模、声纹、银行卡号。默认加密存储,展示掩码,出数禁用原文。留存上限:【12】个月,除非法律规定更长。B类敏感类(弱关联或高度私密)精确地理位置、交易明细、处方、健康信息、人脸图片、通讯录、好友关系、儿童信息。默认泛化或分桶,无硬性法律保留要求时留存上限【6】个月。对外出数需再加扰动并设置阈值。C类匿名化类(聚合后不可逆)已经过扰动和阈值保护的聚合报表、指标曲线、热力图。可外部披露,但要记录口径与ε值。存储可长期,建议年度审核口径。字段分级模板(可复制)字段名:【】;类型:【A/B/C】;用途:【】;法律依据:【】;最小可用精度:【】;默认脱敏:【掩码/泛化/扰动】;留存天数:【】;共享白名单:【】;数据责任人:【】。五、数据收集最小化流程图:采集-保存-共享-删除不画复杂泳道,用四问法控死范围。1.采集前问:目的是否可用非个信替代?是:走非个信。否:进入三一致性。替代清单样例:端侧计算、一次性令牌、Hash对碰、群组标签、不落库上报。2.保存时问:是否有“到期自动删除”的程序?无:不准上生产。有:必须具备“假删检测”,例如抽样生成“幽灵用户”验证是否真删。3.共享时问:对方是处理者还是第三方控制者?处理者:签署数据处理协议,明确不得用于自用画像。控制者:签署联合控制或转移协议,写明再次告知的义务与退出机制。4.删除时问:删除证据如何固化?生成删除日志、字段散列、执行人、时间戳、任务ID,写入只增存储。用户可下载“删除证明PDF”,包含【任务号/时间/字段摘要】。六、A/B实验:脱敏对报表与模型的影响评估脱敏前后做实验,别拍脑袋。我们用两类实验:报表一致性实验与模型性能实验。1.报表一致性实验设计:一期两口径,原口径与脱敏口径。指标包括UV、CVR、ARPU、DAU留存等。统计:滚动7日、14日、28日做差异分析。设定“容忍阈值”【1%-3%】,超过就回退或降低脱敏级别。结果样例:在【项目代号】中,订单金额由精确到分改为分桶,GMV通常差异0.8%,在阈内;但客均价长尾信息丢失,改为“分桶+均值回填”后差异降到0.3%。2.模型性能实验设计:训练集用脱敏版特征与原版对照,评估AUC/KS/F1,监控偏差与漂移。技术:ID类特征改为稳定聚合特征;位置改到行政区;时间改到日粒度;金额做分桶+WOE。数据支撑:风控模型在【2025Q4】实验中,手机号改token后AUC下降0.007;加入设备行为序列后补回0.006,几乎持平;训练耗时增加12%可接受。如果你遇到这种情况:指标差异超过阈值且业务强烈反对,换这个方法。把差异拆成“脱敏策略贡献”“其他变更贡献”,用逐项回退法定位,别把锅甩给脱敏。我们在【去年10月】的一次事故里就是把口径变更和埋点版本一起上线导致GMV抖动3.2%,回放后发现埋点丢失才是主因。七、字段留存天数怎么设:生命周期矩阵与自证明日志留存不是“越短越好”,是“与目的匹配”。用生命周期矩阵+自证明日志打通可解释性。生命周期矩阵(模型1)维度一:业务目的类型。例:安全、结算、售后、统计、合规留档。维度二:字段敏感级别。A/B/C。维度三:法定要求。按PIPL、税法、票据管理等。输出:矩阵给出默认留存天数与上限。例如:安全目的+A类:默认90天,上限180天;结算目的+A类:默认180天,上限【发票周期+180】;售后目的+B类:默认30天,上限90天;统计目的+C类:默认长期,但口径年度复核。动态调整:当事件率上升(如欺诈)超过【阈值】时,可临时延长【30】天,DPO备案,事件结束回滚。自证明日志(模型2)每条字段动作都有“证明串”:字段哈希+操作类型+操作者+时间戳+任务ID+签名。对外争议时展示证明串,不展示原文数据。证明串可被第三方【审计机构】验证签名。优势:兼顾隐私与可追责,减少“你们没删”的争议成本。案例:前年12月,成都某业务线用户投诉“撤回后仍收到推荐”。自证明日志显示在撤回前2小时已生成训练样本,撤回后未再进入新样本,平台在【48小时】内完成解释,投诉撤回。怎么避免?训练流水中加“撤回名单”准入校验,样本落地前再次扣除。八、制度与条款:违约、争议、签署与跨境技术做完还不够,制度要补全。下面条款供【公司名称】与【合作方名称】在项目【项目名称】中签署使用,可直接替换方括号。基本定义与角色数据控制者:【公司名称】;数据处理者:【合作方名称】;联合控制者:【如有】。个人信息范围:指能够单独或与其他信息结合识别自然人身份的各类信息,包含A/B/C三级字段,详见《字段清单》附件【附件一】。处理目的与范围:仅为实现【具体目的】,不得超范围使用或自用画像。最小必要与脱敏义务控制者与处理者应遵守最小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论