个性化推荐架构设计_第1页
个性化推荐架构设计_第2页
个性化推荐架构设计_第3页
个性化推荐架构设计_第4页
个性化推荐架构设计_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、个性化推荐架构设计第一页,共35页。推荐引擎为什么要做推荐系统千万级视频资源月活亿级用户量推荐系统是继搜索之后解决数据过载的重要方法第二页,共35页。产品形式:首页下拉个性化消费流下载渠道:应用宝、百手等部分渠道下载个性化推荐产品形态第三页,共35页。产品形式:基于PGC/UGC的个性化短视频推荐APP下载渠道:计划11月底上线iOS&Android个性化推荐产品形态第四页,共35页。界面交互入口基础界面单视频卡片长视频卡片多视频卡片个性化推荐产品形态第五页,共35页。搜狐视频推荐系统整体概况整合全站视频资源,通过“推荐引擎”和“视频处理引擎”将个性化、新鲜的视频快速分 发到以适合场景,以合适

2、形式传递给适合用户计算快速:2秒 , 分布式高可用实时计算,稳定/灵活/易扩展;海量数据分析: Online 17亿+ Offline 170亿+智能排序:实时特征工程、在线学习、多模型融合基础组件:知识库、主题模型、用户/视频画像、实时反馈/统计、独立后台、推荐引擎、 视频处理引擎等,保证产品功能完备;第六页,共35页。推荐系统架构第七页,共35页。点击日志观影日志展示日志负载均衡LVS负载均衡Nginx应用容器Je/y前端日志接入日志采集Flume实时传输ka7a实时传输Rocketmq数据采集离线计算和分析存储Hdfs实时计算存储hbase推荐引擎storm特征&画像引擎Spark st

3、reming视频处理引擎Marathon+Mesos缓存redis离线计算MapReduce&Sparkhivemllib.算法C算法A算法B算法N算法库模型库特征A_1排序A_2召回模型A推荐结果视频画像视频评分模型N_2用户画像.召回模型B缓存redis推荐系统架构第八页,共35页。知识库自然语言处理系统排序特征工程召回模型规则卡片封装实时反馈系统用户画像展示日志处理点击 日志 处理观影日志处理推荐结果推 荐 引 擎基 础 组 件主题模型评分系统监控系统卡片类型BF个性化配置视频 处理 引擎视频画像相关服务主题模型服务推荐系统架构第九页,共35页。推荐系统推荐结果推荐内容倒排存储index

4、card0Card_01Card_12Card_23Card_34Card_4.冯小刚推荐引擎视频处理引擎召回模型配比排序和谐性处理Key倒排存储系统推荐系统架构架构第十页,共35页。推荐引擎第十一页,共35页。Bolt: localOrShuffleGrouping&fieldsGrouping基于Redis 一致性(CAS)Kafka用户行为日志用户展示日志观影日志观影日志处理模块行为日志处理模块展示日志处理模块多端用户唯一标示统一Ukey部分实时用户画像推荐结果推荐系统架构-推荐引擎(storm)第十二页,共35页。观影处理模块行为处理模块展示处理模块召回模型配比indexcard0Ca

5、rd_01Card_12Card_23Card_34Card_4.排序和谐性处理推荐系统架构-推荐引擎(storm)第十三页,共35页。召回模型海量的视频中选择用户感兴趣的候选集合的方法配比多角度看用户(多个召回模型结果融合)排序统一排序规则、多机器学习模型和谐性处理多样性、覆盖率推荐系统架构-推荐引擎第十四页,共35页。召回模型第十五页,共35页。离线:SVD+、Slope one、ALS等矩阵分解模型为离线模型如基于图模型和内容推荐的融合:Item CF-KNN、User CF-KNN在线:基于自然语言处理系统构建的分类体系、topic、keyword基于时间+地理位置的实时场景位置的构建

6、。海量的视频中选择用户感兴趣的候选集合的方法协同过滤:Item CF(Slope one),User CF,矩阵分解模型(SVD+、RSVD、ALS)、图模型(co-view图模型)内容过滤:(Content-based Filtering)基于人口统计学和社会化过滤(年龄、性别、工作、学历、居住地)基于位置的过滤(场景和上下信息推荐方式)方法推荐引擎-召回模型第十六页,共35页。配比第十七页,共35页。多角度看用户推荐引擎-配比第十八页,共35页。假设有20个召回模型,我们用20维表示,每一维的值,代表配比数量,最大200用户召回模型打开率推荐引擎-配比Score模型第十九页,共35页。排序

7、第二十页,共35页。算CTRscore模型(FTRL、SGD、L-BFGS、FFM)高级特征转化(GBDT、DNN、FM)基础特征工程(Spark streaming )特征工程&排序模型第二十一页,共35页。在线增量学习架构展示日志点击日志展示日志点击日志展示日志点击日志展示日志点击日志样本数据18:3018:3518:4018:25批量样本高级特征转换FTRL Model训练正负样本均衡特征工程&排序模型第二十二页,共35页。视频处理引擎第二十三页,共35页。视频处理引擎主题模型知识库自然语言处理系统视频视频基础画像1、基于TAG倒排视频2、基于明星、出品人、专辑倒排推荐视频 3、基于规则

8、如:一级、 二级、Topic等卡片封装 和倒排3、视频画像4、卡片类型对应Bloomlter5、卡片主题分布6、一词多意Blooomlter.专辑视频 出品人用户行为分析引擎视频处理视频处理引擎第二十四页,共35页。Ka7aRedisHbase存储自然语言处理系统计 算Mesos AgentTaskMarathonExecutorTaskMesos AgentTaskMarathonExecutorTaskMesos AgentTaskMarathonExecutorTaskMesos masterStandby masterStandby masterMarathon schedulerZo

9、okeeper quorum引擎视频处理视频处理引擎第二十五页,共35页。用户画像&视频画像第二十六页,共35页。行为日志观影日志展示日志人口属性兴趣属性行为属性.原始 数据基础 数据用户活跃度用户价值人群属性潜在兴趣模型 预测个性化推荐用户画像个性化push画像清洗、结构化、统计建模机器学习建模业务建模业务 数据关联视频画像&用户画像视频画像&用户画像第二十七页,共35页。一级类二级类长视频喜好短视频喜好用户Level兴趣标签出品人主题喜好地域明星电视剧专辑搜索Keyword场景:追剧、旅 行、公交地铁人群:上班族、 学生等召回模型反馈 情况性别用户画像第二十八页,共35页。一级类二级类适合人群关键词明星主题出品人专辑评分视频画像第二十九页,共35页。如何评价推荐系统第三十页,共35页。离线评级指标在线评级指标用户调查产品体验、用户存留率、点击率等核心指标惊喜度健壮性多样性覆盖率如何评价推荐系统第三十一页,共35页。预测CTR可信吗?机器学习是典型data driven的,当训练数据中 某种情况的数据不足时,这种情况下的预测值 很有可能被其他数据拉偏。训练数据越多则可信度越高第i维feature 非零的训练向 量的个数如何评价推荐系统第三十二页,共35页。V1V2V3一次用研视线流畅;入口强化;修正回首页误操作;二次用研主题卡片可查看更多;对主题添

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论