阿里妈妈展示广告预估校准演进之路_第1页
阿里妈妈展示广告预估校准演进之路_第2页
阿里妈妈展示广告预估校准演进之路_第3页
阿里妈妈展示广告预估校准演进之路_第4页
阿里妈妈展示广告预估校准演进之路_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大纲背景介绍校准算法演进工程实践总结与展望预估技术的挑战真实点击概率(ACTR)预估点击率(PCTR)优化序关系(AUC)()而非大小准确性(MSE)()浅层模型算力经济时代广告推荐搜索用户行为概率预估技术(点击率,转化率,短视频3s曝光率等)是搜索、推荐以及广告领域的核心技术能力。1点击率预估模型输出的值是真实点击概率吗? 用户的真实点击概率可以被准确预测吗?如何衡量模型的准确性?AUC?更庞大,更精细,更准确深度模型大规模深度模型预估校准在广告中的必要性校准技术在出价准确性/稳定性(包括算法出价oCPX / Auto-Bidding),竞价公平性,计划冷启动等方面发挥作用。广告出价(bid

2、)pCTReCPMRankad11.50.8%121ad20.61.8%112ad31.01.0%103ad40.51.4%74举例1:CPC出价下4个广告参竞ad3:PCTR 1.0% 1.3% 绝对值高估30%,AUC不变 eCPM 10 13,竞得展示机会 广告拿量能力变大,平台期望收入降低!#$ = &( *+, -.举例2:CPC(AD2&AD4) & CPM(AD1&AD3)广告混竞广告出价pCTReCPMRankAD11.0%131AD21.01.1%112AD31.2%93AD40.51.4%74AD2:PCTR 1.1% 1.2% AD1多扣费,平台收入增加 PCTR 1.1

3、% 1.0% AD1少扣费,平台收入折损多种Bid类型多种物料多种预估模型广告/推荐混排2校准目标与问题拆解校准目标使用户行为的预估值尽可能逼近真实概率值,最小化MSE(排序水平不降,绝对值变好)相关工作预估模型和校准方法结合将先验信息,数据采样比例等导致绝对值偏差的因素引入模型中(或结合常用校准方法)后处理方法(Post-processing)预估模型和校准算法解耦(轻量级的后处理技术,如Binning,Scaling,Binning-scaling方法)计算绝对值准确的后验概率构建校准函数对预估值与绝对值进行映射关键问题(针对后处理校准方法)校准维度选择问题:特征越相似的PV,模型预估效果

4、(PCTR高/低估)越接近,校准系数计算越准确数据稀疏问题:数据量越稀疏,后验统计误差越大,校准系数的计算准确度越低如何获得准确的后验概率?3校准评价指标Predicted click over click (PCOC)PCOC = average calibrated probabilityposterior probabilityCal-N =Ni=1error2NPCOCi 1PCOCii , where errori = 1 1PCOCi 1PCOCi 1GC-N =mwjCal-Njj=1m4j=1 wjCalibration-N (Cal-N)Distribution Approx

5、imation: Aggregate samples with similar calibrated probabilitiesGrouped Calibration-N (GC-N)Domain-specific: weighted average Cal-N of m campaignsSamplesCalibrated ProbPosterior ProbPCOC100000.20.40.5(低估)100000.80.61.3(高估)Total(0.2+0.8)/2(0.4+0.6)/21.0(正常?)PCOC的局限性(举例):阿里妈妈校准校准算法演进5SIR:保序回归平滑校准算法(Sm

6、oothed Isotonic Regression)1. 分桶(Binning):不同预估值大小区 间为校准的维度2. 保序回归(Isotonic Regression):利用 模型排序能力减小稀疏问题影响3. 线性插值(Linear Interpolation)保证校 准函数的平滑性! = $% + % ( )! *% -%)6Calibrating user response predictions in online advertising ECML-PKDD 2020SIR:保序回归平滑校准算法(Smoothed Isotonic Regression)“计划”创建后SIR算法的校准

7、效果新建计划初始阶段的 投放效果强时效性计划直播小计划(客户)公平性活跃度SIR算法在AB两个数据集上的实验对比(N为分桶数,GC-N表现)预估/校准冷启动问题7数据已脱敏Bayes-SIR:贝叶斯平滑SIR校准算法朴素的贝叶斯平滑思想举例:!# = !%&!()!# = !%&! + +,() + +-先验信息8Bayes-SIR:贝叶斯平滑SIR校准算法应用贝叶斯思想缓解数据稀疏带来的点击率统计不准确问题, 结合SIR解决校准冷启动问题。概率图CTR服从参数为!, #的贝 塔分布展示/点击服从参数为$%&的二项分布1)先验数据2)贝塔分布参数求解(矩估计/似然)3)观测数据(不置信)4)后

8、验点击率贝叶斯平滑CTR估计9RTW-BSIR:实时Bayes-SIR校准算法PCOC的波动问题会严重影响算法出价(oCPX,Auto-Bidding)的效率、稳定性以及客户侧表现。数据已脱敏PCOC=1.5 PCOC=1.0PCOC=0.6 1天之内的PCOC变化曲线(整天平均PCOC=1.0)加剧环境波动,影响算法策略的稳定性广告主成本(PPC)不可控,影响广告成效和赔付时序上的PCOC波动问题?10RTW-BSIR:实时Bayes-SIR校准算法这是一种典型的数据偏移(Dataset Shift)问题,解法的核心思想在于:计算训练数据与应用数 据的分布差异来修正校准函数(也可采用反事实推

9、断思想进行无偏处理),实现无偏的校准。111) Binning方式单一缺乏灵活性 2) 排序能力上具备天花板3) 无法自定义校准目标SIR系列校准算法小结SIRBinning,Scaling, IR思想结合引入贝叶斯平滑思想 解决冷启动问题Bayes-SIRRTW-BSIR解决数据偏移问题带 来的时序波动影响可解释轻量级快速可迭代收益显著12算法思想树结构特性:白盒,可解释,可转化为“IFTHEN”规则节点划分方法:自定义校准目标下启发式学习复杂的分箱规则(Binning)Boosting设计:增强模型的表征能力和对稀疏数据的处理能力MBCT:基于树结构的Boosting校准技术Multipl

10、e Boosting Calibration Tree13后链路预估值校准(PCCEM)后链路指标:曝光/点击之后的加购、收藏、转化、关注等指标。数据稀疏性:后链路指标相比点击更加稀疏,正样本极少(如CVR通常小于0.1%)延迟反馈:后链路指标的反馈延迟通常有数小时甚至数天需求多样性:后链路指标效果优化的重要性越来越强,优化指标的类别越来越多14后链路预估值校准(PCCEM)Post-Click Conversion Estimation Model (PCCEM)15算法落地与工程实践广告系统模块结构简图AD SELECTIONPREDICTIONCALIBRATIONRANKINGPRED

11、ICTION MODEL TRAININGCALIBRATION FUNCTION LEARNINGAD SERVING SYSTEMUserUSER DBAD DBMODEL TRAINING(stream/batch)Ad request (with context)Ad result (with tracking)User Candidate ads ContextUser Candidate adsPredicted probabilitiesUser Candidate adsCalibrated probabilitiesPrediction modelCalibration fu

12、nctionUser response (clicks,conversions)16算法落地与工程实践17SIR & PCCEM算法数据流程示意图总结与展望1999Platt Scaling2001Histogram Binning2002Isotonic Regression2011Smooth Isotonic Regression2015Bayesian Binning2017Temperature Scaling2017Beta Calibration20182019DirichletAttendedScaling/PCCEMTemperature/MBCTScaling/SIR2020Individual Calibration/Field-aware Calibration/Bayes- SIR/RTW-BSIR2021Deep Model & Calib

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论