阿里云异构计算平台 加速ai智能创新-26页_第1页
阿里云异构计算平台 加速ai智能创新-26页_第2页
阿里云异构计算平台 加速ai智能创新-26页_第3页
阿里云异构计算平台 加速ai智能创新-26页_第4页
阿里云异构计算平台 加速ai智能创新-26页_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、个性化推荐系统实战与效果提升之道达观数据CTO纪达麒每日免费获取报告1、每日微信群内分享5+最新重磅报告;2、每日分享当日华尔街日报、3、每周分享经济学人4、每月汇总500+份当月重磅报告(增值服务);扫一扫二维码关注公号回复:研究报告加入“起点财经”微信群。1公司及主讲人简介2个性化推荐系统3开发推荐系统的技术难点4达观数据推荐系统解决方案5心得体会01 公司及主讲人简介纪达麒首席技术官达观数据CTO,研发团队总负责人,中国计算机学会(CCF)会员。拥有10年技术团队管理经验,擅长数据挖掘以及实时服务系统架构设计工作。曾担任腾讯文学数据中心高级研究员、盛大文学技术总监、搜狗广告系统高级研发工

2、程师、百度工程师等职务,在中国一线互联网公司中承担个性化推荐系统、在线广告系统等核心技术研发工作。多次承担公司重大紧急项目的架构设计和研发管理工作,所开发的个性化推荐系统曾创造了上线后效果提升300%的记录,所带领的数据挖掘团队获得过盛大集团最佳团队奖荣誉。曾代表公司多次参加国际数据挖掘竞赛,是ACM KDD-Cup,CIKM Competition等世界一流数据挖掘竞赛获胜队伍的核心成员。达观领先的大数据技术服务企业 专注于文本挖掘和搜索推荐技术服务的高科技企业 复旦大学计算机系科研合作单位和校外研究生培养基地 上海市大数据联盟理事单位、上海市计算机学会成员单位 获软银赛富、真格基金、方广资

3、本等著名机构共同投资投资机构合作机构02 个性化推荐系统个性化推荐的概念和产品形态 个性化推荐是各类内容平台、社交、电商网站集客的重要方式,通过为用户快速准确地提供个性化的内容吸引其兴趣 个性化推荐的对象类型各不相同,与客户所在的行业密切相关,既有文章、音视频的推荐,也有社交对象、商品的推荐社交网络个性化推荐金融财经个性化推荐问答结果个性化推荐文学网站个性化推荐企业文书个性化推荐音视频内容个性化推荐新闻媒体个性化推荐电商个性化推荐优秀的个性化推荐系统具备的效果提供优秀的推荐结果提高用户点击率提升实际效果转化通过对用户初始信息和少量点击行为的分析理解,以毫秒为单位迅速建立和更新用户模型,完成精准

4、有效个性化推荐。通过为用户提供其感兴趣的内容,提高用户点击的频率,从而提升用户的停留时长和长尾物品的曝光率,并促进用户的日活和月活。通过为用户推荐有较高吸引力的内容,提高用户的注册和付费转化率,提升黏性,从而促进用户留存,减少用户流失。03 开发推荐系统的技术难点技术难点1:如何精准把握用户的兴趣点 用户兴趣不仅存在多样性,而且会随着时间的变化而不断有变化,如何对兴趣进行精准把握,并针对性的调整推荐策略是重大难点 对用户兴趣的挖掘来自于各种各样的数据,内容数据、行为数据、关系数据,都对推荐结果有影响,需要分别建立算法模型来进行挖掘 不同算法模型对用户兴趣的刻画结果不同,如何综合运用不同方法的结

5、果,进行有机的融合技术难点2:冷启动问题导致推荐满意度低 对新用户,由于缺少用户行为数据,因此难以生成优质的推荐结果,导致新用户体验差,流失率高 对新内容,在推荐时过度依赖内容类别标签,导致无法推荐给合适的用户 对新用户和新内容的推荐质量低,导致推荐集中于热门结果,使得“马太效应”愈发严重,长尾内容得不到曝光,影响系统的生态健康技术难点3:,只推荐用户曾经看过的类似内容,导致推荐的结果越来越单调乏味 仅依赖内容分类和标签以及简单的推荐规则生成的推荐结果,实践证明会导致推荐结果质量低下,用户点击意愿低 大量优质内容无法找到需要的用户,成为沉没资源。而往往低俗或猎奇内容会赢得大量推荐曝光,导致网站

6、调性低下所有用户的浏览内容相同单调刻板,缺乏新颖性技术难点4:实际应用时所面临的性能考验数据量膨胀user数量膨胀:登录用户 vs 未登录用户;user model无法全部计算item量或许非常大,且冷热不均数据变化快item生命周期短(例如:短视频结果)user兴趣变化快,user model的更新跟不上变化服务性能遭遇各种挑战难以实时完成所有日志的分析并更新模型分布式计算(Hadoop)的时效性差,无法做到及时更新存储资源有限,无法保存所有分析结果04 达观数据推荐系统解决方案基于内容的推荐 01采用用户模型刻画用户的偏好并实现个性化推荐 通过用户行为日志挖掘生成user model 形式

7、多样,逐步深入: user item1, item2. itemN user tag1, tag2, tagN对推荐物品(item)进行信息挖掘 profile:基本属性、类别、标签,etc. 文本分类、Ontology、标签系统、音视频内容提取等 依赖对item内容的分析深度 相关技术:CRF,HMM,SVM,GBDT协同过滤(Collaborative Filtering)简介 02 user-similarity item-similarity prediction prediction注:实际使用中,距离计算公式有大量调整和变形item-based CFuser-based CF 03

8、 Latent Factor Model 03 Latent Factor ModelLatent Factor Model 03 user兴趣在变化 兴趣随时间变化逐步迁移 长期兴趣 vs 短期兴趣 用户的行为有周期性变化User Modelitem的状态也在变化 item的受欢迎程度随时间变化 新item如何脱颖而出短期兴趣长期兴趣数据可靠性随时间变化 用户行为历史数据的可靠性衰减采用ME算法提升推荐精度 04 采用独有的ME算法(Milti-Ensemble)来自动组合多个单层模型,获得精度远超任意传统单一推荐模型的推荐效果 将传统的协同过滤、矩阵分解、基于内容的推荐等基础推荐算法能充分

9、融合在一起 提供外置接口,客户的应用逻辑、商业需求、二次算法修改等均可在推荐结果输出时进行最终修改快速建模解决冷启动问题 05 毫秒级快速生成新用户的用户画像,迅速缓解冷启动 达观独特的CLUB(online clustering bandits)算法,自适应调整新用户推荐结果 通过自然语言处理技术,深度挖掘建立新物品的画像三级火箭架构设计,兼顾稳定性和灵敏性 06 达观系统架构分为三级火箭:由Offline-Nearline-Online三级依次衔接构成,融合了各类推荐算法和数据 Offline系统提供复杂离线运算,Online系统提供灵巧的实时运算,Nearline衔接,整体兼顾了稳定性和灵敏性 系统运用了大量NoSQL,内存计算、Spark Stearming、Kafka等技术,确保了在高性能要求下系统强大的可靠性 使用了阿里云相关产品,ECS,Redis,ODPS,Ots,Rds报表和人工干预 07 提供最为详尽的推荐数据统计分析,可以随时掌握推荐指标,对比推

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论