版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
监测数据统计实施细则第一章总则1.1目的为统一集团内部所有业务线对“不要标题”类内容的监测口径、统计维度、数据质量与报送时效,确保零冗余、零遗漏、零歧义,特制定本实施细则。1.2适用范围本细则适用于集团总部、各事业部、全资子公司、控股公司、境外代表处,以及所有外包内容供应商、算法合作方、数据托管云厂商。1.3法规依据《数据安全法》第21条、第30条;《个人信息保护法》第13条、第55条;《网络安全审查办法》第7条;集团《内容安全管理办法(2023修订)》第4章;ISO/IEC27040:2015;GB/T37918-2019。1.4关键术语1.4.1不要标题内容:指在发布环节未填写“title”字段或字段被系统强制置空,且前端渲染时无可见标题的文本、图集、视频、直播、小程序、H5、短信、推送、邮件。1.4.2监测数据:指对不要标题内容在生成、传输、消费、归档、删除全生命周期中产生的结构化日志、半结构化埋点、非结构化附件。1.4.3统计粒度:最小统计单元为“内容实例”,即同一内容ID在单一渠道的一次发布记录;跨渠道拆分为多条实例。1.4.4零信任:默认任何人员、脚本、接口均不可直接访问原始日志,必须经双人审批、堡垒机、动态令牌、脱敏网关四重校验。第二章组织与职责2.1集团数据治理委员会(下称“数委会”)a)对细则拥有最终解释权;b)每月最后一个工作日发布《不要标题内容风险评级表》;c)对重大数据泄露事件拥有“一键关停”权限。2.2内容安全中心(下称“安心中”)a)负责监测引擎规则配置、模型训练、误召/漏召复盘;b)每日10:00前输出《前日不要标题内容监测日报》;c)对违规账号执行阶梯式封禁:首次3天、二次30天、三次永久。2.3事业部内容运营团队(下称“运营”)a)在内容发布前使用《标题空白检测插件》自检;b)对监测日报中标记的“高敏”实例在2小时内补充标题或下架;c)每周五17:00前提交《不要标题内容整改台账》。2.4信息技术部(下称“IT”)a)维护“监测数据湖”,确保原始日志WORM(一次写入多次读取)存储≥36个月;b)提供统一OpenAPI,QPS≥5000,延迟P99≤120ms;c)每季度做一次黑盒渗透测试,高危漏洞在24小时内修复。2.5法务与合规部a)对境外数据回流进行出口管制审查;b)对监测数据中涉及的个人信息进行分级授权;c)出现监管协查时,在4小时内完成《数据调阅单》流转。第三章监测范围与采集标准3.1业务场景全量覆盖a)公域:App推荐流、Web端搜索页、短视频频道、直播广场;b)私域:用户私信、群聊、企业号推送、邮件、短信;c)第三方:微博、抖音、快手、小红书、B站、海外TikTok、YouTube,通过OpenAPI或RPA拉取。3.2采集字段(最小集,不可删减)content_id、user_id、user_type、channel、pub_time、ip、geo、device_id、os、app_ver、title、content_hash、media_url、ocr_text、asr_text、frame_url、audit_status、ai_risk_tag、manual_tag、is_blank_title、blank_reason、extend_json。3.3采集时效a)实时流:KafkaTopic“no_title_raw”,延迟≤3s;b)离线批:T+102:00启动Spark任务,6小时内完成回溯补采;c)对删除内容,须在删除指令发出后30分钟内同步删除标记。3.4数据完整性校验a)字段非空率≥99.5%;b)content_hash冲突率≤0.01%;c)采用MD5+SHA256双摘要,防止篡改。第四章统计口径与指标定义4.1基础指标a)不要标题内容实例数(NTN):统计周期内title字段为空或系统标记为空白的内容实例总量;b)不要标题率(NTR)=NTN/全部发布内容实例数;c)补充标题率(STR)=在监测后24小时内补全标题的实例数/NTN;d)高敏漏检率(HMR)=人工复核发现的高敏不要标题内容/全部高敏不要标题内容。4.2复合指标a)风险加权不要标题指数(RWNI)=Σ(Ni×Wi),其中Ni为第i类风险内容数量,Wi为风险权重(暴恐100、色情80、政治谣言95、低俗50、广告30);b)渠道差异系数(CDC)=各渠道NTR的标准差/均值,用于衡量渠道治理均衡度,目标CDC≤0.2。4.3指标拆解维度时间(1小时、日、周、月)、渠道、业务线、地域、用户类型(个人/企业/政府/媒体)、内容形态(图文/短视频/长视频/直播/音频/纯文字)、语言(中/英/日/韩/泰/越南/印尼/葡/西)、算法模型版本、审核员ID。4.4指标阈值a)NTR红线:App主端≤0.3%,Web端≤0.5%,短信≤0.1%;b)STR目标:≥90%;c)HMR目标:≤0.1%;d)RWNI周环比增幅≥20%触发黄色预警,≥50%触发红色预警。第五章技术实现流程5.1实时监测引擎Step1内容发布→Step2网关层统一拦截→Step3字段解析→Step4空白标题检测→Step5风险模型打分→Step6结果写回Kafka→Step7消费侧落库→Step8触发运营工单。5.2空白标题检测算法a)规则层:正则^[\s\u200B\uFEFF]$,长度=0判空;b)模型层:BERT-Base-Chinese微调二分类,训练集30万、召回98.7%、误召0.4%;c)后处理:若OCR/ASR提取到有效文本≥10个字符且含关键词“公告”“通知”“声明”,则强制标记为“伪空白”,进入人工复核。5.3数据链路质量保障a)采用Exactly-Once语义,Kafka开启幂等+事务;b)FlinkCheckPoint30秒一次,StateBackend使用RocksDB增量快照;c)埋点SDK引入MessageID+客户端时间戳+服务端时间戳三要素,用于端到端延迟对账;d)每日凌晨03:00运行数据质量脚本,对字段缺失、格式异常、时间漂移、重复上报四类问题自动发钉钉告警。5.4存储与计算资源a)原始日志使用Iceberg分区表,按(dt,hour,channel)三级分区,压缩格式ZSTD,单文件256MB±20%;b)即席查询引擎Trino,集群规模200节点,内存配置1:4CPU/GB,支持并发≥150;c)结果指标存储ClickHouse,本地表+分布式表,使用MergeTree引擎,设置ttl+3个月;d)高并发接口采用RedisCluster缓存,TTL90秒,命中率≥95%。第六章运营处置SOP6.1工单分级P0:涉政、暴恐、毒品、枪支、儿童色情,15分钟内下架并冻结账号;P1:低俗、广告、谣言,2小时内补充标题或下架;P2:格式错误、无主观恶意,24小时内补充标题。6.2工单流转a)监测引擎自动创建→安心中值班员初审→运营二审→如属P0同步给法务→完成整改后拍照截图→工单关闭;b)所有操作必须留痕,使用堡垒机录屏,保存≥36个月;c)超时未关闭工单,系统每30分钟升级告警至上一级主管,直至VP。6.3补救措施a)补充标题:须使用《标题智能生成助手》一键生成,人工二次校对,禁止直接复制粘贴原标题;b)下架:对视频类同步删除封面、关键帧、转码文件、CDN缓存,执行七层刷新;c)账号处置:P0一次即冻结,P1三次即冻结;冻结后须完成在线考试≥90分方可申诉。6.4复盘机制a)重大事件(RWNI红色预警)发生后48小时内召开跨部门复盘会,输出《5W2H复盘报告》;b)对误召率>2%的模型,3日内完成语料扩增、负样本清洗、重新训练、灰度上线、A/B测试,目标误召率≤0.5%。第七章数据报送与共享7.1内部报送a)日报:含NTN、NTR、STR、TOP10违规账号、TOP5违规标签,邮件+IM双通道,05:00自动推送;b)周报:含CDC、RWNI趋势、模型版本对比、渠道整改建议,周一11:00前推送至总监级;c)月报:含KPI达成情况、罚款明细、人员绩效、下月计划,月后第3个工作日上传Confluence,限制阅读范围M3及以上。7.2外部报送a)网信部门:每月5日通过“全国互联网信息安全管理系统”上传《不要标题专项报表》,字段须与内部报表完全一致;b)交易所:如触发重大合规风险,2个工作日内通过IR系统发布《自愿性公告》,经法务审核、CFO签字;c)第三方合作方:通过SFTP+PGP加密,文件名格式“NO_TITLE_YYYYMMDD_{hash}.csv.gpg”,哈希算法SHA256,密钥长度4096bit,半年轮换一次。7.3共享权限矩阵角色原始日志脱敏日志指标结果报表文件安心中值班员RORORORO运营主管×RORWRW法务×RORORO外部审计×RO(3个月)RORO第八章安全与合规8.1数据分级L1:可公开;L2:内部一般;L3:内部重要;L4:核心商业;L5:国家秘密。不要标题监测数据默认为L3,若含个人信息则为L4。8.2加密与脱敏a)传输:TLS1.3,强制前向保密,HSTS365天;b)存储:AES-256-XTS,密钥托管在KMS,轮转周期90天;c)脱敏:user_id、device_id、ip使用SHA256+Salt,手机号保留前三后四,中间用替代;d)日志打印:禁止输出任何L3及以上字段,debug模式需VP特批。8.3跨境流动a)境外产生数据如需回传,须先通过数据出境安全评估,完成网信办申报;b)传输通道使用IPSecVPN+国密SM4,日志留存6年;c)员工访问境外节点须走ZTNA零信任网关,多因子认证+行为审计。8.4应急预案a)数据泄露分级:Ⅰ级>1亿条或含5万条敏感个人信息,30分钟内上报董事会;Ⅱ级1000万–1亿条,2小时内上报数委会;Ⅲ级<1000万条,8小时内上报安心中。b)处置流程:发现→封网→取证→隔离→修复→报告→公告→复盘;c)备份:使用3-2-1策略,本地双副本、异地一份、冷备一份,冷备使用蓝光光盘,保存≥7年。第九章考核与奖惩9.1考核周期自然月,每月5日由HRBP拉取数据,10日前完成绩效沟通。9.2指标权重a)安心中:HMR40%、误召率20%、模型迭代及时率20%、工单关闭时效20%;b)运营:STR50%、P0超时率20%、整改台账完整性20%、培训考试通过率10%;c)IT:数据完整性30%、API可用性30%、漏洞修复时效20%、成本不超标20%。9.3奖惩标准a)连续三个月达成全部红线目标,团队奖励1个月基本工资作为绩效奖金;b)单月出现Ⅰ级泄露,直接责任人解除劳动合同,主管降级,团队绩效清零;c)单月NTR超标0.1个百分点,扣减当月绩效5%,累计超标0.5个百分点,扣减30%。第十章工具与操作指南10.1前置条件a)已开通VPN账号并加入“no_title_monitor”安全组;b)本地安装OpenSSL≥1.1.1、Python≥3.9、JDK≥11、Docker≥20.10;c)已申请KMS密钥ID(格式:kms-nt-xxxxxxxx)。10.2步骤一:环境初始化1)克隆仓库:gitclone/dp/no_title_tools.git2)安装依赖:pipinstall-rrequirements.txt-i/simple3)配置密钥:./scripts/init.sh--kms-idkms-nt-xxxxxxxx--regioncn-shanghai4)验证:python-mpytesttests/-q,全部通过显示绿色OK。10.3步骤二:本地测试1)构造测试数据:pythontools/gen_mock.py--count1000--channelshort_video--blank-ratio0.052)启本地Kafka:docker-compose-fdocker/kafka-single.ymlup-d3)发送数据:catdata/mock.json|kcat-blocalhost:9092-tno_title_raw4)运行消费:pythonconsumers/blank_detector.py,观察输出“blank_detected:50”与预期一致。10.4步骤三:灰度上线1)提交MR,指定reviewer:@data_guard@security_lead2)合并后CI自动构建镜像,tag格式:v{version}-{git_short_sha}3)在ArgoCD控制台选择“no-title-prod”项目,点击SYNC,观察Pod重启成功率100%;4)回滚策略:若30分钟内P0工单增长>20单,自动触发CanaryRollback,回滚至上一版本。10.5常见问题与排错Q1:消费延迟突增>30sA:检查Flink反压,若backpressure>80%,调大并行度或增加Kafka分区;Q2:ClickHouse写入失败,报错“Toomanyparts”A:调小batch_size至10000,或合并分区后执行OPTIMIZETABLE;Q3:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖盐制盐工安全生产知识考核试卷含答案
- 沼气物管员安全强化评优考核试卷含答案
- 煮茧操作工改进评优考核试卷含答案
- 铁合金原料加工工创新方法测试考核试卷含答案
- 粗纱工道德知识考核试卷含答案
- 水生动物饲养工诚信道德强化考核试卷含答案
- 瓦斯防突工安全技能测试考核试卷含答案
- 电化学精制装置操作工改进知识考核试卷含答案
- 离心铸管工QC管理评优考核试卷含答案
- 甲亢护理指导
- 2025年临沂科技职业学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 家居行业创业风险管理与防范措施
- 产科新生儿交接流程
- 《MATLAB编程及应用》全套教学课件
- 2024天融信日志收集与分析系统部署操作手册
- GB 44495-2024汽车整车信息安全技术要求
- DL-T5492-2014电力工程遥感调查技术规程
- 交通事故授权委托书
- JGJT178-2009 补偿收缩混凝土应用技术规程
- 211和985工程大学简介PPT
- 初中数学:《二次根式》大单元教学设计
评论
0/150
提交评论