推荐系统架构课件_第1页
推荐系统架构课件_第2页
推荐系统架构课件_第3页
推荐系统架构课件_第4页
推荐系统架构课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据环境下的推荐系统架构汇报人:余俊良大数据环境下的推荐系统架构汇报人:余俊良背景毫无疑问,这是一个数据爆发的时代。一分钟内,推特上有 20 万条新消息被发送;在“Facebook”上用户浏览的信息超过 1000 万条。人们在享受网络带来便捷的同时,产生了大量的新型多结构数据。有人说,世界的本质就是数据,大数据将开启一次重大的时代转型。 背景毫无疑问,这是一个数据爆发的时代。一分钟内,推特上有 2背景当然,如果处理不好大数据,人类可能会被大数据“反噬”,找到自己需要的信息变得更困难,迷失于大数据之中。有用的信息埋没于繁杂的数据中的 现象被称为“信息过载”。在大数据时代,让用户从海量的信息中找

2、到自己想要的信息实在是有点强人所难。时代变了,用户获取知识的方式也应随之改变:利用推荐技术向用户推送个性化服务。背景当然,如果处理不好大数据,人类可能会被大数据“反噬”,找推荐系统研究现状目前推荐系统的研究内容和方向主要包括以下几个方面:1、推荐技术的研究2、推荐的实时性与推荐质量3、利用云计算提高推荐系统计算能力4、推荐系统的可解释性5、用户隐私问题推荐系统研究现状目前推荐系统的研究内容和方向主要包括以下几个推荐系统组成产品核心数据算法推荐系统组成产品核心推荐系统组成产品同类或者相关商品、店铺推荐买了还买、看来还看等猜你喜欢群体信息披露热门排行榜etc推荐系统组成产品同类或者相关商品、店铺推

3、荐推荐系统组成数据显式数据:能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价-用户收藏-用户评价隐式数据:通过一些分析和处理,才能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音-用户浏览-页面停留时间-访问次数推荐系统组成数据显式数据:能准确的反应用户对物品的真实喜好,推荐系统组成算法算法类型: 基于内存的算法 基于模型的算法 基于内容的算法 LR算法计算方式:离线:用户偏好分析、用户购买力分析、关联性分析在线:排序、过滤、增量计算推荐系统组成算法算法类型:传统的推荐系统框架用户用户行为日志存储系统UI日志系统推荐系统数据反馈传统的推荐系统框架用户用户行为日志存储系

4、统UI日志推荐数据反传统的推荐系统框架传统的推荐系统框架通常只能应对少量的推荐需求,面对如今的多用户反馈,多商品信息,要求根据上下文进行实时性推荐等是无能为力的。通过将推荐系统部署在云平台,利用集群的计算能力解决大数据下的推荐问题,已是大势所趋。传统的推荐系统框架传统的推荐系统框架通常只能应对少量的推荐需大数据环境下的推荐系统大数据环境下推荐系统的挑战海量用户商品行为流量实时实时采集实时计算实时预测精准用户体验业界口碑大数据环境下的推荐系统大数据环境下推荐系统的挑战海量用户商品大数据环境下的推荐系统一个好的推荐系统分析处理海 量数据快速处理新 增数据和实 时交互灵活加入和 迭代各种推 荐算法低

5、延迟响应 高QPS的推 荐请求大数据环境下的推荐系统一个好的推荐系统分析处理海 量数据快速大数据环境下的推荐系统基于云平台的推荐系统分层架构大数据环境下的推荐系统基于云平台的推荐系统分层架构大数据环境下的推荐系统整个推荐系统的底层运转和计算大量依赖于Hadoop生态系统计算 超过20000个 MapReduce 任 务 超过100个Spark任务存储 超过200TB HDFS存储 超过20TBHbase使用 每天新生成数 据超过1TB数据流 处理超过 500GB的数据 流 处理超过10亿 条消息大数据环境下的推荐系统整个推荐系统的底层运转和计算大量依赖于大数据环境下的推荐系统Spark与推荐算

6、法 基于内存的数据缓存和计算 基于RDD的数据集逻辑结构 Scala简洁的基于函数式的编程体验Map ReduceSpark计算大数据环境下的推荐系统Spark与推荐算法Map Reduc大数据环境下的推荐系统存储HDFS 分布式文件系统 Hive 基于HDFS的数据仓库 类SQL查询语言HBase分布式Key-ValueSchema Free大数据环境下的推荐系统存储HDFS HiveHBase大数据环境下的推荐系统数据流Flume 高可用的,高可靠的,分布式的海量日志采 集、聚合和传输Kafka 分布式消息队列Push & PullStorm 实时计算框架大数据环境下的推荐系统数据流Flu

7、me 高可用的,高可靠的技术架构技术架构技术架构Online服务引擎 高并发、低延迟、高稳定Load Balance / Scalability在线计算数据缓存 Couchbase / Redis 数据加载和更新 运算和预测技术架构Online服务引擎技术架构Nearline用户行为收集 从日志服务器收集用户行为基于Apache Flume进行读取分发用户行为分发 近在线部分将事件发送给Kafka 离线部分将数据存储到HDFS技术架构Nearline用户行为收集技术架构Nearline基于Kafka + Storm 高稳定性 高实时性 高并发度实现分布式的实时数据计算 内容相关性计算Online Learning技术架构Nearline基于Kafka + Storm技术架构Offline数据建模用户兴趣建模/商品建模用户/商品聚类内容去重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论