检索反作弊架构优化_第1页
检索反作弊架构优化_第2页
检索反作弊架构优化_第3页
检索反作弊架构优化_第4页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、检索反作弊架构优化Shifen-ADS-Server-QA 朱俊超朱俊超 Outline大禹:实时反作弊系统目前系统架构及缺陷反作弊背景及方法检索反作弊背景反作弊定义对虚假用户行为(检索)的识别行为目的不是为了从搜索引擎获取信息而是为了把自己的信息推送给搜索引擎影响有可能影响搜索引擎所使用的数据进而影响搜索引擎的产出检索反作弊功能功能:对一份asp日志,找出正常日志和作弊日志。目前架构:检索反作弊remora基于Hadoop平台的remora系统第一轮MapReduce: 特征提取+反作弊策略第二轮MapReduce: 产生最终的结果缺点:基于hadoop的批处理系统,延迟较大:2小时大禹系统

2、架构 Split:日志解析和特征提取 Spam:反作弊策略处理 Merger:产生最终过滤结果 优点: 低延迟,分钟级别 易于水平扩展大禹:优点流式计算框架检索反作弊延迟缩短至分钟级别缩短客户展现报告延迟,快速反馈实时ctr预估,加速质量差的广告下线实时cpm计费实时检索日志统计过滤策略优化&难点滑动窗口多段策略设计:增加流控功能检索反作弊方法黑名单黑名单段上限过滤每个特征每段最多保留N个点击或者pv,例如:每个ip一个时间段某个query的检索量比例上限过滤特征A对应的点击或pv数量与特征B对应的数量比例不能超过R,例如:特征A:Firefox浏览器的query次数特征B:query总次数过滤策略优化:滑动窗口固定分段滑动窗口 背景:实现段间信息共享,过滤效果更佳:如解决段首误过滤的问题。 实现: 过滤策略优化:多段策略背景:TM处理框架下,数据是不保证顺序到来的;对于段较小的策略,日志经常会过晚到达。 实现方法: 1)持续维护历史至今的多个段,每个段各自累计。 2)多段中的每一个段不存在滑动。 设计:流控功能背景:多级级联流式计算系统,需要上下游wo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论