广告系统大规模机器学习质量保障方案_第1页
广告系统大规模机器学习质量保障方案_第2页
广告系统大规模机器学习质量保障方案_第3页
广告系统大规模机器学习质量保障方案_第4页
广告系统大规模机器学习质量保障方案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广告系统大规模机器学习质量保障方案Agenda背景简介质量保障实践Agenda背景简介推荐系统中的机器学习业务百度广告系统机器学习业务特点质量保障实践Agenda背景简介推荐系统中的机器学习业务百度广告系统机器学习业务特点质量保障实践背景推荐系统中的机器学习业务预估目标:相关性、点击率、转化率推荐对象:信息流、商品、广告、样式、title、图片、视频目标:用户、客户、平台三方共赢内容推荐/检索系统内容提供方用户背景百度广告系统模型业务特点响应速度要求数据形式常见架构Online高(ms级)Rpc/http请求Predict serverOffline低(min/hr/day级)文本/pbHad

2、oop/MPI/Spark/流式起步早:首次上线引入机器学习模型预估CTR,“解释型模型”替代“统计型模型” 业务类型多:点击率、相关性、转化率、商业价值、流量质量 等等模型表征能力强:大规模LR - GBDT - 连续DNN - 离散DNN模型时效性高:Batch - Online - Realtime检索并发量大:单模型预估 几十w量级qps训练 (产生模型)评估(测试模型)预估(使用模型)应用(反馈模型)Agenda背景简介质量保障实践机器学习质量定义百度广告系统机器学习典型问题分析百度广告系统机器学习质量保障建设质量保障实践机器学习质量定义模型上线流程?评估模型调研产出模型实验推全质量

3、保障实践机器学习质量定义模型质量问题指什么模型作用上线后的实际效果不符合线下调研预期模型质量保证目标是什么让模型实际应用效果尽量接近/达到预期效果新策略评估效果全流量评估效果新策略实验效果全流量实际效果新策略实验效果全流量实际效果新全流量评估效果新全流量实际效果线上问题非线上问题1 调研2 实验“失败”3 实验“成功”4 实验推全全流量评估效果全流量实际效果0 全流量解决实验阶段问题优化拦截质量保障实践典型问题分析追根溯源,模型问题统一定义为广义一致性问题模型质量变差真实应用效果 和预期评估效 果不一致模型生命周期 中某些环节和 调研预期存在 不一致“慢性”“专”“通”横轴:问题症状明显度-“

4、急性”:发病急剧,症状较重-“慢性”:渐变积累,初始症状不明显纵轴:问题和挖掘方法专业度-“通”:问题和方法通用,其他业务有共性需求-“专”:问题和方法专业,考验对模型理解性能不一致延时不一致“急性” 数据质量不一致策略机制 不一致质量保障实践典型问题分析问题一:性能不一致样本3样本4样本5q1 q2 q3 q4 q5离线评估样本1样本2样本3样本4样本50.00.00.00.00.0在线预估样本1样本2模型质量保证的大前提“急性”“慢性”“专”“通”性能“急性” 问题线下测试 + 性能监控质量保障实践典型问题分析问题二:延时不一致(离线评估 vs 在线预估)“急性”“专”“通”延时“慢性”离

5、线评估训练数据评估数据模型评估结果在线预估训练数据预估数据模型预估结果时间轴时间轴本质:机制不一致问题表现明显,“通”性问题,易召回“慢性” 问题 延时监控质量保障实践典型问题分析问题三:数据质量不一致(调研数据 vs 离线训练数据)“慢性”“专”“通”“急性/慢性” 问题数据监控+熔断“急性” 数据质量调研模型生成D0M0应用模型生成D1M1调研阶段采用完整准确的历史数据(D0),训练得出调研模型M0实际上线运行过程中离线数据(D1)不断到达,持续训练得出真实模型M1数据丢失 label错误 字段错误质量保障实践典型问题分析问题三:数据质量不一致(在线预估数据 vs 离线训练数据)“慢性”“

6、专”“通”“急性” 问题在线字段监控+分级发布拦截“急性” 数据质量空值A值占比占比B值 占比空值A值占比占比B值 占比离线数据分布在线数据分布空值A值占比占比B值 占比质量保障实践典型问题分析问题四:算法/机制不一致“急性”“慢性”“专”“通”“慢性” 问题特征一致性测试全流程一致性测试策略机制字段获取特征抽取离散权重获取在线Q值字段获取特征抽取离散权重 获取离线Q值在线预估离线评估Case1: query 字段被改写后 不一致Case2: 特征 切词库版本不 一致Case3: table 过滤策略不一 致Case4: fpga 开关配置不一 致质量保障实践质量保障建设数据清洗特征抽取模型训

7、练预估在线应用急性问题拦截凤巢系统庞大复杂,模型系统高频更新迭代,我们通过预判每一次模型/数据变更的效果影响,提前遏制带 来严重问题的更新机制:Label熔断作用:异常后验数据不下放训练机制:评估指标熔断作用:评估指标异常模型不下发预估加载机制:模型变更/上线分级检查作用:拦截异常模型变更生效流程机制:词表/上线分级发布检查 作用:拦截上游数据生效过程质量保障实践质量保障建设慢性问题召回(线上异常)线上:模型线上问题表现多样,需要通过全方位监控捕捉正在发生的线上问题,避免问题长时间存在或者恶化监控平台实时指标采集计算指标推送预估 均值 监控性能 监控延时监控后验 效果 监控字段 覆盖 监控质量

8、保障实践质量保障建设慢性问题召回(实验异常)字段获取特征抽取离散权重获取在线Q值字段获取特征抽取离散权重获取离线Q值在线预估离线评估?方案一:特征一致性检查字段获取特征抽取离散权重获取在线Q值字段获取特征抽取离散权重获取离线Q值在线预估离线评估19年H1, 特征一致性测试召回问题90+,修复10+,收益CTR2 12%, CVR 3%质量保障实践质量保障建设慢性问题召回(实验异常)方案二:全流程一致性检查字段获取特征抽取离散权重 获取在线Q值字段获取特征抽取离散权重 获取在线预估离线评估特征抽取离散权重获取特征替换离散权重 获取离散权重替换字段获取特征抽取离散权重获取在线Q值在线预估离线Q值特

9、征diff问题DebugQ1离散权重diff问题Debug Q2计算diff问题作用:问题定位优化方向指导18-19年召回问题 12例发起新优化实验1例 AUC 1%, cpm 2.7%质量保障实践质量保障建设慢性问题召回(实验异常)方案二:全流程一致性检查ori_off_q分布和ins_on_q分布趋势基本一致 xbox_on_q分布趋势和ins_on_q比差别较大Ori_on_q分布趋势和xbox_on_q比差别较小ins_on_q到ori_off_q误差最小xbox_on_q到ins_on_q误差最大大 结论【xbox阶段不一致问题大】离散特征权重获取阶段不一致问 题影响较大质量保障实践质量保障建设线下 测试线上 排查分析偶发型分析测试需求效果 监控业务 生态监控例行化效果监控需求特征 一致性全流程 一致性一致性测试需求数据 延迟模型 延迟延迟监控需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论