版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图解推荐系统推荐系统(recommendersystems),是利用信息解压技术向用户用户推荐其可能感兴趣的信息,它是有别于信息分类和搜索的信息处理方式。我们用言语肢体来解释推荐系统,也许总是感觉晦涩难懂,本文为我们图解了推荐系统。巴b羽乙U歹下刖g任仔昇子公饨EDtTJUU三11,心TH十田|约冶吕十闩也步起步的时候,浏览门户网站即可我们对数字世界探索的大部分需求,彼时是‘人找物’,电脑系统推荐的应用空间不大。时间在推移,内容亦在丰富,在当前海量信息爆炸的时代,五花八门的内容琳琅满目,让人应接不暇。此时需要‘物能找人’,因此推荐系统将合适的内容推送给合适的用户实在是恰逢其会。那么推荐系统是如何运转的呢?为什么它知道我在某宝上要买的是咖啡而不是啤酒,然后在App的首页呈现?[回答这个问题,我们先从推荐流程的角度着手了解:系统将一个物品/内容推荐给用户主要就经历两个步骤,即召回与排序。当人们浏览一个零售业网站,比如女生会关注种草喜欢的美妆博主、收藏某一品牌的护肤品、加购了三只松鼠的坚果等到双十一叫男票清空购物车……这一系列的行为反应了你对某些商品的,致使系统能大致勾勒出爱好你的兴趣。在购物网站上会有很多与你兴趣相似的用户,你们有着类似的个人爱好,Ta喜欢的东西大喜欢概率你也会觉得不错,通过行为统计喜欢寻找你们的相似度就可以辨认出那些同类用户喜欢的而你还没有接触过的商品。另外,商品之间也有相似的形态,比如《魔鬼经济学》与《牛奶可乐经济学》是有关这些行为经济学的著作,一般拍完我们就会见到电子书网站会为看过《魔鬼经济学》的读者推荐《牛奶可乐经济学》。如上描述的把相似的客户与相匹配相似的物品匹配起来,从而筛选出用户激赏物品的移动用户过程就是召回。召回阶段取回的物品数量一般而言也都比较大,可能在十万百万量级总和,进一步地,推荐引擎结合多种积极探索因素考量(比如业务特征、人工干预等),精细筛选出Top100款甚至更少的物品心水十款给用户,这就是排序的过程。从系统操作流程可以看出,相似度是推荐系统的核心环节。那么用户之间、物品之间的相似相似度怎么导出、如何计算呢?相似度计算对于推荐系统来说,通常是基于向量来确定两两用户或两个物品是否相似,即系统首先要把用户(用户属性或用户行为偏好)、物品(物品特征)向量化。]比如有5件商品:夹克、连衣裙、球鞋、网球拍、贝雷帽,1表示用户购买过该商品,0表示未购买过。用户P买过夹克、球鞋、网球拍,用户Q买过连衣裙、网球拍、贝雷帽,则用向量则表示用户P和用户Q就是R(P)二(1,0,1,1,0),R(Q)二(0,1,0,1,1)。n八个那么如何计算两个用户是否相似呢?计算相似度的公式有很多,如‘欧几里德距离’、‘皮尔逊相关系数’、‘余弦相似度’等。余弦常用相似度是常用的计算方法,两者之间即当两个向量之间的夹角越小,则两个向量越不相似。让我们回忆一下中学内积关于两个向量u、v的余弦相似倾斜角公式:利用公式,可以知道用户P(1,0,1,1,0)和用户Q(0,1,0,1,1)之间的相似度为:n_1,。+。・1+1明1・!+0・1_WPQ-/京十°2+1幻无而,寸京异十°2+无车1云、藐扇I]最近的邻居]所谓物以类聚、人以群分,系统当然不需要按相似度遍历所有数据,一般推荐引擎只需要寻找一批与目标(用户/物品)最相似的‘邻居’组成一类群体进而做物品推荐。接下来问问邻居最近的邻居是如何确定的:以移动用户间的相似度举例,也许一个二维平面,每个客户端代表一个点,用户(点与点)之间的距离就是相似度的大小;计算用户①的若干个最近邻,一种方案就是以目标用户①为圆心,设定一个距离K,落在半径K的圆中的所有用户就是①最近的‘邻居’。上面介绍了如何计算相似度和寻找最相似的‘邻居’,接下来就要探寻推荐系统的核心一一推荐算法。通常,推荐算法可以分为三类:基于属性相似度的力荐、基于协同过滤推荐、基于模型推荐。1.基于属性相似度的推荐基于属性相似性质度的推荐是一种基础理论的推荐算法,又可分为按用户属性的相似度推荐和挑选按物品属性的相似度推荐。用户属性的相似度推荐,即按用户的年龄、性别、地域等理论指导特征建模,计算用户之间的相似稳定度,把用户A喜欢的物品推荐给与他类似的用户B。n物品属性的相似度推荐,即按物品的属性特征(以音乐举例,如音乐类型、歌手、播放时长等)建模,用户喜欢钢琴曲,而小提琴曲与钢琴曲都可以分类划分为轻音乐,则系统把小提琴曲推荐给用户。上述基于属性相似度的推荐,好处是推荐解释性较强,易于理解,且不需要过多依赖用户行为的历史经验历史数据,对于长尾/之上新的物品都能做到很好的曝光。然而这类算法的缺点搜索算法也很明显,如算法特征过于简单(仅包括用户或物品的基础属性),而人们的喜好通常会随环境、时间成长等动态变化,无法很好的满足用户需求多样性。2.基于协同过滤推荐协同过滤,顾名思义就是指由相似浓厚兴趣的用户们组成‘邻居’互相协作,通过不断的与系统发生交互从而持续过滤用户掉不感兴趣的内容,它是一种群体智慧社群效应的体现。从用户与内容参考资料的角度又可划分为:专有用户的协同过滤(UserCF)和基于物品的协同过滤(ItemCF)。1)基于用户的协同过滤(UserCF)基于用户的协同过滤是通过用户的行为去寻找与其相似的用户进行推荐,类型与上一节基于用户属性的推荐相异,两者的核心区别是计算相似度的定义不同,基于用户属性推荐只考虑用户的静态特征,而UserCF是在用户的历史行为偏好中均中计算相似输入电阻。基于用户协同过滤预测用户u对物品i的兴趣程度p(ui)的公式如下:PuicsPuics(u!)n")w"vi其中,s(u,K)是包含和用户u兴趣最接近的K个用户,N⑴是对物品i有过行为的用户集合,w(uv)是用户u与用户v的兴趣相似度,r(vi)代表用户v对物品i的行为兴趣评分。从公式可以看出,基于用户的协同过滤算法主要有两步:一是用户之间的相似度,二是用户与内容之间的行为偏好分数,通过图形拆解算法的计算路径如下图。n2)基于物品的协同过滤(ItemCF)基于物品的协同过滤是通过用户对物品的行为偏好找到与用户喜欢物品的相似物品进行推荐,简单明了理解即喜欢物品1的用户大多也喜欢物品2。基于物品的协同过滤预测用户u对物品j的兴趣程度p(uj)的公式如下:1Puj-ieS(j,k)nN(u)Wjiru其中,N(u)是用户喜欢的物品的集合,S(j,K)是和物品j最相似的K个物品的集合,w(ji)是物品j和i的相似度,r(ui)是用户u对物品i的兴趣分数。同UserCF,基于物品的协同算法主要也是两步:一是物品之间的相似度,二是用户产生过偏好行为的物品评价分数,图示计算路径如下。n基于模型的推荐]众所周知总的来说模型的推荐主要是利用机器学习的方法挖掘用户、物品、用户历史行为偏好之间的关系,从而找到用户可能感兴趣的物品即便进行推荐。机器学习包括深度学习的推荐编程语言在所提业界已经提出了很多种,本文节录仅详述一种经典的模型一一基于叙尔热雷县语义的模型推荐(LFM)。如下图形式是把所有用户和物品按用户对物品的偏好程度画成一张表中,推荐系统的工作就是要预测那些表中中空白值。物品1物品3物品3醐5物品6物品7切OEJtt用户1o.e0.320.440.12用户20.560.330,5用户30.630.050,95073用户耳g0.550.980.37用户50.54033用户60.540.44用户70740.660,38用户8Q.20.&用户90.70.540.46篥略伽为了找到用户喜欢的物品,我们可以先把用户按其偏好进行分类,比如在买手机的时候有的人会关注品牌,有的人喜欢尺寸要上大、有人在意型号、有人对价格敏感等等。同样,日常用品也可以按这些用户偏好(品牌、尺寸、型号、价格)进行分类。隐语义模型就是要找到用户-偏好、物品-偏好这两个关系范数(如下图),手机用户然后通过矩阵计算的方式合成用户-物品的完整矩阵,求得用户对物品的推荐分数。系统求解的过程是随机生成初始矩阵,推荐结果要与原始数据矩阵中有值的项尽可能委命相近,这就转换成了机器学习更优求最优解的问题。偏好1偏好2偏好3偏好40.30.50.150.20.70.92蜡策略询0.33g佩好1偏好2偏好3属好4用户1。点3Ci3B勒固用户2,就M3初寐用户,m入物品3用尸qgD.A0.5&物品4用户SO.fi朝品s相比协同过滤,无论UserCF或ItemCF,能够影响推荐效果的往往是少部分的用户行为和物品,而隐语义模型则通过挖掘隐藏在数据中的偏好从而进行推荐,通常能更充分的探寻到数据中的统计数据信息,推荐效果也更准确。但因为偏好信息没有具体物理含义,所以其缺点也与此相反明显,无法对推荐结果做出适当合理的解释。至此,推荐系统的大致原理和算法模型已经介绍完毕了。在结束之前,最后简单聊聊信息单调茧房环境问题。在当前的互联网当今世界中,无论图文信息流亦或短视频应用,到处充斥着充溢个性化推荐算法,很多基干用户担心终将会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年嘉兴南洋职业技术学院单招职业适应性测试题库含答案详解(培优a卷)
- 数据库设计规范及流程控制
- 健康教育与护理服务评价
- 计算机病毒以及预防
- 科技期刊世界影响力指数(WJCI)报告(2025版)
- 外伤后功能锻炼指导原则
- 职业规划课程优化
- 数字媒体行业方向
- 儿科护理中的康复与护理
- 2026年永城职业学院单招职业适应性测试题库及答案解析
- 2024年公务员多省联考《申论》题(湖南行政执法卷)试题及答案解析
- 分级授权式管理办法
- 中考英语1600词汇(背诵版)
- 2025年苏州市职业大学单招职业适应性考试题库(夺冠系列)含答案
- 渝22TS02 市政排水管道附属设施标准图集 DJBT50-159
- 2《宁夏闽宁镇昔日干沙滩今日金沙滩》公开课一等奖创新教案+(共40张)+随堂练习(含答案)
- 新疆金川矿业有限公司堆浸场扩建技改项目环评报告
- 个人长期借车合同协议书
- 2025年内蒙古民航机场集团有限责任公司招聘笔试参考题库附带答案详解
- 高教版《管理学》重点知识
- 机器学习在农业生产中的应用
评论
0/150
提交评论