




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习在搜索排序中的应用一淘及搜索事业部-搜索技术仁重agenda背景LTR方法评估并行化与多目标LTR在淘宝搜索应用的背景第一部分背景背景用户输入Query引擎召回商品商品计算featureRank项目背景-特征相关性购买转化率(GDBT)点击转化率(LR)二跳率(LR)反作弊商业业务逻辑预估模型规则个性化(LR、GDBT)图片质量(SVM)
通过线性模型来组合非线性的特征计算效率高可解释性好背景问题如何确定各个特征的权重W能否不同的类目给出不同的权重W如何为新加入的特征设置权重W如何在不同的系统中快速的迁移特征之前用ABTest,现在使用LTRLearningToRank,使用机器学习的方法来进行排序优化。LTR应用的方法第三部分方法转化为pairwise问题把整体的排序问题转换为商品对好坏问题两个商品哪个更好CtrCvr价格VS优化目标与样本样本选择
人工标注(工作量巨大)商品Ctr商品转化率详情页浏览时间论文中使用的样本选择样本选择单次pv点击位置Click>SkipAboveLastClick>SkipAboveClick>EarlierClickLastClick>SkipPreviousClick>No-ClickNextfA>fB>fC>fD>fEfA=w*xAfB=w*xBfC=w*xCfD=w*xDfE=w*xE整体统计ctr样本选择ACtr:1CCtr:0.1BCtr:0.5DCtr:0.1ECtr:0.6A>E>B>C=DA>EA>BA>CA>DE>BE>CE>DB>CB>D相同Query统计商品ctr来生成pairctr差值需要有一定置信度没有位置信息相同queryctr单次PV样本选择B整体Ctr:0.5A整体Ctr:1C整体Ctr:0.1D整体Ctr:0.1E整体Ctr:0.6A>EA>BA>CA>DE>BE>CE>DB>CB>D计算特征值需要还原到单次PV下具体的用户以及当前环境通过规则过滤掉其中的噪音购买>点击>无行为B产生了购买行为,D产生了点击行为优化目标与样本避免样本选取的偏差Pvlog特征分布(人气,卖家,文本)100亿数据训练样本分布(人气,卖家,文本)千万训练样本样本特征分析特征分布不好的特征进行改进对分布不合理的特征样本进行按比例抽样样本特征分析特征与目标值的关系相关性差相关性好无点击样本选择保持权重的一定程度稳定性无点击数据在现有排序下对Topquery没有点击的数据,前30与后30形成pair,随机抽取按不同比例混合无点击与Ctr样本约50%的无点击样本无点击样本训练后的权重反映线上使用权重w模型优化调整无点击与有点击比例调整抽样策略对特征值进行改进分类目的模型Query类目预测结果的行业区分训练数据手机类目的价格权重高于其他类目RankSVM模型(一)
RankSVM模型(二)
RankSVM模型
RankSVM模型
RankSVM模型
模型评估与效果评估第三部分【评估】模型评估baseline按线上参数计算pair准确率按模型参数计算pair准确率Abtest验证收益评估
模型迭代Pvlog按线上参数排序按训练好的模型进行排序CNDCGCNDCGNDCG收益样本混合比例调整模型训练样本选择策略调整NDCG差异query分析抽样策略调整并行化与多目标第四部分模型优化并行化(一)需要解决的问题内存问题训练时间过长两种基于MPI的方法行列分割的并行SVM行分割的并行CoordinateAscent算法,用于求解NDCG为目标值的样本
并行化(二)
多目标(二)需要解决的问题现实应用中,需要同时解两个目标问题例如:CTR、
客单价方法Multi-lossPair-wiseLearning再ctr样本的基础上,再加上价格的label基于目标函数中,loss函数进行改造,使其兼容多种目标。多目标(二)
32写在最后成功的基础在于好的学习习惯Thefoundationofsuccessliesingoodhabits谢谢聆听·学习就是为了达到一定目的而努力去干,是为一个目标去战胜各种困难的过程,这个过程会充满压力、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中医院国有资产管理基础知识考核
- 2025年乌鲁木齐职业大学招聘考试笔试试题(含答案)
- 2025年电工进工厂考试题及答案
- 2025年红十字会考试试题及答案
- 唐山市中医院空泡蝶鞍综合征管理考核
- 唐山市人民医院躁动患者PICC管理考核
- 承德市人民医院烧伤浸浴治疗操作规范考核
- 2025年建筑工程承包合同全书
- 广阳区小升初试卷及答案
- 2025年历安全员考试考试试题及答案
- 2024年XX村扶贫资产收益分配方案
- GB/T 15597.1-2024塑料聚甲基丙烯酸甲酯(PMMA)模塑和挤出材料第1部分:命名系统和分类基础
- 2024年广东清远纪委市监委纪律审查管理中心招聘15人历年重点基础提升难、易点模拟试题(共500题)附带答案详解
- 人教部编版语文九年级上册第六单元分层作业设计4
- 帝国主义是资本主义的最高阶段
- 职业指导师培训
- 从魔兽世界公会看企业文化构建
- XX医院医疗质量督导检查反馈表
- 2023年广东清远纪委市监委纪律审查管理中心招聘15人笔试参考题库(共500题)答案详解版
- 第四单元《逻辑的力量》单元教学设计
- 《书籍设计》第三章-书籍的开本与装订
评论
0/150
提交评论