在线优化技术在快手联盟上的实践和产品化-快手_第1页
在线优化技术在快手联盟上的实践和产品化-快手_第2页
在线优化技术在快手联盟上的实践和产品化-快手_第3页
在线优化技术在快手联盟上的实践和产品化-快手_第4页
在线优化技术在快手联盟上的实践和产品化-快手_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在线优化技术在快手联盟上的实践和产品化在线多臂赌博机技术简介及落地时的大坑快手广告联盟内循环的起量建模过程探索的翅膀快手快手OnlineBandits算法栈及其产品化灵魂拷问面临选择的时候如何思考呢?选择进行预尝试新选项,辅辅佐整个过程了一下收益一段时间小章鱼的心声:了一下收益一段时间小章鱼的心声:ArmArm1Arm2Arm3Arm4这经验靠谱吗?神:先随机玩一段时间看看吧。有N个候选项每次选K个期待达到一个目标 有N个候选项每次选K个期待达到一个目标N个离散选项的在线E&E问题建模的通用形式不同的machine。分成T轮的序列决策问题(t=1,…,T):1.每个时间步,算法可从N中选择K个Actions。2.环境每次会依赖算法的选项,给出一个反馈reward,。,每个候选项背后都是一个与reward相关的未知分布(分布形态与参数都可能未知 候选好坏与平时不符离散参数连续参数在线赌博机技术的适用范围运营策略产品策略 店铺/菜品的首图/视频/广告词等新品推荐新商品优选246二手商品选文案更是脑式的组合爆炸问题。StochasticMulti-armedBandit的问题定义&假设reward的分布不同2、对于一个arm每次reward采样是iid的。ThompsonThompsonSampling\epsilon-greedy选择经验均值最大的那个候选与分布无关NTlogT与分布有关 在线打分&排序 (1)无数据/孤品/在线参数--存在机器学习模型无法构建的情况 (2)实时性--天级别训练模型不实时? (3)冷启动--新商品?新用户? (4)动态性--用户兴趣发生显著变化?依赖对实际业务问题的建模与抽象依赖对实际业务问题的建模与抽象需要先确定什么是益如何计算等超参数离线与在线长链路Bandit算法中存在一些超参数有系统如何融合。算算法假设Bandit算法在提出时,一般都有些特殊假设,需要确定业务中实际情况满足所用算法的假设业务核心问题业务核心问题Bandit算法建模与迭代快手广告联盟内循环起量建模过程PP频快手广告联盟内循环起量核心问题有约束的冷启问题在不影响已起量广告的基础上,1.现有联盟消耗日均已达千万量级2.流量位每日变化程度非常大在外部APP场景中表现的转化率与站内差异巨大众多广告场景唤端模型训练模型训练对于订单广告为例Ecpm=bid*cvr*ctrcvr和ctr依赖预估模型打分决定广告竞争力样本本学习模型不准->预估低->出不去->没正样本->持续低模型不准->预估高->超成本->bid压价->持续低模型的本质是对已有样本分布的抽象,是“利用”过程那么如何帮助一个冷启场景从冷启过渡到成熟?Arm1:pos1Arm2:pos2Arm3:pos3ArmN:posN每隔T时间订单广告集合中的machine生效集合订单广告集合中的Top1:pos3Top2:pos5Top1Top3:pos1当所有候选广ecpm低thresholdecpm低淘汰集合槛淘汰集合在线过程代模型预估分吗?千万量级的创意id粒度嘛?authorNMachineM:APPMArm1:author1ArmMachineM:APPMArm1:author1Arm2:author2…ArmN:authorNMachineMachine1:APP1Arm1:author1Arm2:author2…ArmN:authorN用于实时Ecpm上,达到广告粒度的优选MachineMachineK:APPKArm1:author3Arm2:author1…ArmN:预期效果(预期花费)显著正向波动逐渐衰减正样本逐渐增多模型预估准确度上升环境变化Bandit的排序作用于ecpm上的程度应该下降ContextualBanditContextualBandit1.广告侧维度特征2.媒体侧维度特征3.双侧特征4.统计特征流量侧X预算侧可以构建多个侧面的Bandit实例RegretBound:OdTlogT−greedyBasedCascadingBanditWith−greedyBasedCascadingBanditWithTimeDecay标正向且起量概率大增的绿通链吗?MachineM:accountMArm1:cid1Arm2:cid2…ArmN:cidN精排后处理定向召回粗排绿色通道保送TopKTopKMachineMachine1:account1Arm1:cid1Arm2:cid2…ArmN:cidN归并排序Why:归并排序cid起cidcid绿通机制的缺陷cidcidNcidN3.运营配置,政治任务,分不出好坏Why:为了提升单日内累计指标 媒体探索策略填充率探索策略Pos探索策略…媒体行业策略维度探索策略Model粒度越来越粗双侧冷启问题Pos单侧冷启问题媒体行业单侧冷启问题样本数据量越来越多t且c2>c1证实了优化策略的动态演化过程计提升内循环外投预期花费数十倍优化不是孤立的探索的翅膀研究动机: 性映射,在线负责学习在该非线性映射下的最佳线性函[1]ChenY,XieM,LiuJ,etal.InterconnectedNeuralLinearContextualBanditswithUCBExploration[C]//Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining.Springer,Cham,2022:169-181.OnlineMultiarmedBandit算法栈Bandit技术方向上包含非常多种类,解决各种环境下的E&E问题,近年来是研究和工业界的热门方向。RewardReward分布假设上的改进Arm假设上的改进Policy上的改进训练数据上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论