




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、个性化推荐架构设计第一页,共35页。推荐引擎为什么要做推荐系统千万级视频资源月活亿级用户量推荐系统是继搜索之后解决数据过载的重要方法第二页,共35页。产品形式:首页下拉个性化消费流下载渠道:应用宝、百手等部分渠道下载个性化推荐产品形态第三页,共35页。产品形式:基于PGC/UGC的个性化短视频推荐APP下载渠道:计划11月底上线iOS&Android个性化推荐产品形态第四页,共35页。界面交互入口基础界面单视频卡片长视频卡片多视频卡片个性化推荐产品形态第五页,共35页。搜狐视频推荐系统整体概况整合全站视频资源,通过“推荐引擎”和“视频处理引擎”将个性化、新鲜的视频快速分 发到以适合场景,以合适
2、形式传递给适合用户计算快速:2秒 , 分布式高可用实时计算,稳定/灵活/易扩展;海量数据分析: Online 17亿+ Offline 170亿+智能排序:实时特征工程、在线学习、多模型融合基础组件:知识库、主题模型、用户/视频画像、实时反馈/统计、独立后台、推荐引擎、 视频处理引擎等,保证产品功能完备;第六页,共35页。推荐系统架构第七页,共35页。点击日志观影日志展示日志负载均衡LVS负载均衡Nginx应用容器Je/y前端日志接入日志采集Flume实时传输ka7a实时传输Rocketmq数据采集离线计算和分析存储Hdfs实时计算存储hbase推荐引擎storm特征&画像引擎Spark st
3、reming视频处理引擎Marathon+Mesos缓存redis离线计算MapReduce&Sparkhivemllib.算法C算法A算法B算法N算法库模型库特征A_1排序A_2召回模型A推荐结果视频画像视频评分模型N_2用户画像.召回模型B缓存redis推荐系统架构第八页,共35页。知识库自然语言处理系统排序特征工程召回模型规则卡片封装实时反馈系统用户画像展示日志处理点击 日志 处理观影日志处理推荐结果推 荐 引 擎基 础 组 件主题模型评分系统监控系统卡片类型BF个性化配置视频 处理 引擎视频画像相关服务主题模型服务推荐系统架构第九页,共35页。推荐系统推荐结果推荐内容倒排存储index
4、card0Card_01Card_12Card_23Card_34Card_4.冯小刚推荐引擎视频处理引擎召回模型配比排序和谐性处理Key倒排存储系统推荐系统架构架构第十页,共35页。推荐引擎第十一页,共35页。Bolt: localOrShuffleGrouping&fieldsGrouping基于Redis 一致性(CAS)Kafka用户行为日志用户展示日志观影日志观影日志处理模块行为日志处理模块展示日志处理模块多端用户唯一标示统一Ukey部分实时用户画像推荐结果推荐系统架构-推荐引擎(storm)第十二页,共35页。观影处理模块行为处理模块展示处理模块召回模型配比indexcard0Ca
5、rd_01Card_12Card_23Card_34Card_4.排序和谐性处理推荐系统架构-推荐引擎(storm)第十三页,共35页。召回模型海量的视频中选择用户感兴趣的候选集合的方法配比多角度看用户(多个召回模型结果融合)排序统一排序规则、多机器学习模型和谐性处理多样性、覆盖率推荐系统架构-推荐引擎第十四页,共35页。召回模型第十五页,共35页。离线:SVD+、Slope one、ALS等矩阵分解模型为离线模型如基于图模型和内容推荐的融合:Item CF-KNN、User CF-KNN在线:基于自然语言处理系统构建的分类体系、topic、keyword基于时间+地理位置的实时场景位置的构建
6、。海量的视频中选择用户感兴趣的候选集合的方法协同过滤:Item CF(Slope one),User CF,矩阵分解模型(SVD+、RSVD、ALS)、图模型(co-view图模型)内容过滤:(Content-based Filtering)基于人口统计学和社会化过滤(年龄、性别、工作、学历、居住地)基于位置的过滤(场景和上下信息推荐方式)方法推荐引擎-召回模型第十六页,共35页。配比第十七页,共35页。多角度看用户推荐引擎-配比第十八页,共35页。假设有20个召回模型,我们用20维表示,每一维的值,代表配比数量,最大200用户召回模型打开率推荐引擎-配比Score模型第十九页,共35页。排序
7、第二十页,共35页。算CTRscore模型(FTRL、SGD、L-BFGS、FFM)高级特征转化(GBDT、DNN、FM)基础特征工程(Spark streaming )特征工程&排序模型第二十一页,共35页。在线增量学习架构展示日志点击日志展示日志点击日志展示日志点击日志展示日志点击日志样本数据18:3018:3518:4018:25批量样本高级特征转换FTRL Model训练正负样本均衡特征工程&排序模型第二十二页,共35页。视频处理引擎第二十三页,共35页。视频处理引擎主题模型知识库自然语言处理系统视频视频基础画像1、基于TAG倒排视频2、基于明星、出品人、专辑倒排推荐视频 3、基于规则
8、如:一级、 二级、Topic等卡片封装 和倒排3、视频画像4、卡片类型对应Bloomlter5、卡片主题分布6、一词多意Blooomlter.专辑视频 出品人用户行为分析引擎视频处理视频处理引擎第二十四页,共35页。Ka7aRedisHbase存储自然语言处理系统计 算Mesos AgentTaskMarathonExecutorTaskMesos AgentTaskMarathonExecutorTaskMesos AgentTaskMarathonExecutorTaskMesos masterStandby masterStandby masterMarathon schedulerZo
9、okeeper quorum引擎视频处理视频处理引擎第二十五页,共35页。用户画像&视频画像第二十六页,共35页。行为日志观影日志展示日志人口属性兴趣属性行为属性.原始 数据基础 数据用户活跃度用户价值人群属性潜在兴趣模型 预测个性化推荐用户画像个性化push画像清洗、结构化、统计建模机器学习建模业务建模业务 数据关联视频画像&用户画像视频画像&用户画像第二十七页,共35页。一级类二级类长视频喜好短视频喜好用户Level兴趣标签出品人主题喜好地域明星电视剧专辑搜索Keyword场景:追剧、旅 行、公交地铁人群:上班族、 学生等召回模型反馈 情况性别用户画像第二十八页,共35页。一级类二级类适合人群关键词明星主题出品人专辑评分视频画像第二十九页,共35页。如何评价推荐系统第三十页,共35页。离线评级指标在线评级指标用户调查产品体验、用户存留率、点击率等核心指标惊喜度健壮性多样性覆盖率如何评价推荐系统第三十一页,共35页。预测CTR可信吗?机器学习是典型data driven的,当训练数据中 某种情况的数据不足时,这种情况下的预测值 很有可能被其他数据拉偏。训练数据越多则可信度越高第i维feature 非零的训练向 量的个数如何评价推荐系统第三十二页,共35页。V1V2V3一次用研视线流畅;入口强化;修正回首页误操作;二次用研主题卡片可查看更多;对主题添
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流服务对食品产业的影响
- 2024年北京市初中学业水平考试道德与法治试题评价
- 【项目商业计划书】-眼科智能医疗项目-商业计划书
- 黑河市储能项目评估报告
- 2024-2030全球印版套筒和印刷辊筒行业调研及趋势分析报告
- 名词解释 o2o电子商务的概念
- 河北省承德市丰宁县2025届七年级生物第二学期期末统考模拟试题含解析
- 贵阳市重点中学2025届七年级生物第二学期期末复习检测模拟试题含解析
- 江西省南昌市2025届七下生物期末经典试题含解析
- 四年级心理健康教育教案
- 《寻常型银屑病中西医结合诊疗指南》
- 2025年国家电投所属国核铀业招聘笔试参考题库含答案解析
- 区间估计教学课件
- 五年级下册 教科版 科学 第三单元《让资源再生》课件
- 2024年武汉市第二中西医结合医院武汉六七二医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 耳鼻喉技师模拟试题(附参考答案)
- 废旧再生资源加工利用企业安全生产双体系培训资料
- 2024年河南省中职对口升学高考语文试题真题(解析版)
- 水利专业技术岗位竞聘演讲稿
- 初中数学新课程标准(2024年版)
- 主要绿化树种苗木质量(DB14-T 135-2005)
评论
0/150
提交评论