推荐系统之协同过滤算法_第1页
推荐系统之协同过滤算法_第2页
推荐系统之协同过滤算法_第3页
推荐系统之协同过滤算法_第4页
推荐系统之协同过滤算法_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、推荐系统之协同过滤算法演讲人:张博第1页目录CONTENT一、什么是协同过滤二、协同过滤实现步骤三、协同过滤特点第2页1、什么是协同过滤? 协同过滤推荐作为个性化推荐中至关主要一个技术,得到了广泛应用。协同过滤分为两种:基于用户协同过滤(User CF)和基于商品协同过滤(Item CF)。基于用户协同过滤,首先找到用户邻居,也就是寻找用户所在小区,把小区组员所关注喜欢,而用户不曾关注过商品推荐给他。基于商品协同过滤,依据评分数据找到该物品相同物品,当用户关注某个物品后能够直接把该物品相同物品推荐给用户,基于商品协同过滤能够动态实时为用户推荐,或者在一段时间内,计算出用户所关注物品和相同物品,

2、把权值较高而用户未曾关注物品推荐给用户。 第3页2、协同过滤实现步骤搜集用户偏好找到相同用户或物品进行推荐第4页2.1 搜集用户偏好 要从用户行为和偏好中发觉规律,并基于此给予推荐,怎样搜集用户偏好信息成为系统推荐效果最基础决定原因。用户有很多方式向系统提供自己偏好信息,下面举例进行介绍:第5页2.1 搜集用户偏好用户行为类型特征作用评分显式整数量化偏好,可能取值是 0, n;n 普通取值为 5 或者是 10经过用户对物品评分,能够准确得到用户偏好投票显式布尔量化偏好,取值是 0 或 1经过用户对物品投票,能够较准确得到用户偏好转发显式布尔量化偏好,取值是 0 或 1经过用户对物品投票,能够准

3、确得到用户偏好。保留书签显示布尔量化偏好,取值是 0 或 1经过用户对物品投票,能够准确得到用户偏好。标识标签 显示一些单词,需要对单词进行分析,得到偏好经过分析用户标签,能够得到用户对项目标了解,同时能够分析出用户情感:喜欢还是讨厌评论显示一段文字,需要进行文本分析,得到偏好经过分析用户评论,能够得到用户情感:喜欢还是讨厌点击流 隐式一组用户点击,用户对物品感兴趣,需要进行分析,得到偏好用户点击一定程度上反应了用户注意力,所以它也能够从一定程度上反应用户喜好。页面停留时间隐式一组时间信息,噪音大,需要进行去噪,分析,得到偏好用户页面停留时间一定程度上反应了用户注意力和喜好,但噪音偏大,不好利

4、用。购置隐式布尔量化偏好,取值是 0 或 1用户购置是很明确说明这个项目它感兴趣。第6页2.1 搜集用户偏好 不一样行为普通能够分为“查看”和“购置”等,然后基于不一样行为,计算相同度。类似于当当网、淘宝给出“购置了该图书人还购置了 .”,“查看了图书人还查看了 .”依据不一样行为反应用户喜好程度将它们进行加权,得到用户对于物品总体喜好。第7页2.2 寻找相同用户 (User CF)我们模拟了5个用户对两件商品评分,来说明怎样经过用户对不一样商品态度和偏好寻找相同用户。在示例中,5个用户分别对两件商品进行了评分。这里分值可能表示真实购置,也能够是用户对商品不一样行为量化指标。比如,浏览商品次数

5、,向朋友推荐商品,收藏,分享,或评论等等。这些行为都能够表示用户对商品态度和偏好程度。第8页2.2 寻找相同用户第9页相同度计算方法一:欧几里德距离公式 方法二:皮尔逊系数2.2 寻找相同用户第10页欧几里德距离能够发觉,用户A&C用户A&D和用户C&D距离较近。同时用户B&E距离也较为靠近。与我们前面在散点图中看到情况一致。2.2 寻找相同用户 (User CF)第11页皮尔逊相关度评价我们选择使用皮尔逊相关度评价来计算多用户与多商品关系计算。下面是5个用户对5件商品评分表。我们经过这些评分计算出商品间相关度。2.2 寻找相同用户第12页经过计算5个用户对5件商品评分我们取得了用户间相同度数

6、据。这里能够看到用户A&B,C&D,C&E和D&E之间相同度较高。下一步,我们能够依摄影同度对用户进行商品推荐。2.2 寻找相同用户第13页 当我们需要对用户C推荐商品时,首先我们检验之前相同度列表,发觉用户C、D、E相同度较高。换句话说这三个用户是一个群体,拥有相同偏好。所以,我们能够对用户C推荐D和E商品。但我们不能直接推荐前面商品1-商品5商品。因为这些商品用户C以及浏览或者购置过了。不能重复推荐。所以我们要推荐用户C还没有浏览或购置过商品。2.3 为相同用户推荐物品用户商品6商品7商品8商品9商品10用户D用户E用户C推荐第14页2.3 为相同用户推荐物品用户商品6商品7商品8商品9商

7、品10用户D用户E用户C推荐 提取了用户D和用户E评价过另外5件商品A商品F商品。并对不一样商品评分进行相同度加权。按加权后结果对5件商品进行排序,然后推荐给用户C。这么,用户C就取得了与他偏好相同用户D和E评价商品。第15页2.4 寻找相同商品(Item CF)表格中是两个用户对5件商品评分,经过两个用户评分来取得5件商品之间相同度情况。第16页2.4 寻找相同商品在散点图中,我们能够发觉,商品1,3,4在用户A和B中有着近似评分,说明这三件商品相关度较高。而商品5和2则在另一个群体中。第17页2.4 寻找相同商品经过欧几里德系数能够发觉,商品间距离和关系与前面散点图中表现一致,商品1, 3

8、 , 4距离较近,商品2,5距离较近。第18页2.4 进行推荐跟上述基于用户协同过滤算法类似,但它从物品本身,而不是用户角度。比如喜欢物品1用户都喜欢物品3,那么能够知道物品1与物品3相关度很高,而用户D喜欢物品1,那么能够推断出用户D也可能喜欢物品3。以下列图用户商品1商品2商品3商品4商品5用户A用户B用户C用户D推荐第19页PART THREE三、算法特点第20页1、使用场景 对于电商网站,用户数量往往超出物品数量,同时物品数据相对稳定,所以计算物品相同度不但计算量小,同时无须频繁更新。不过这种情况只适合用于电子商务类型网站,像新闻类,博客等这类网站系统推荐,情况往往是相反,物品数量是海

9、量,而且频繁更新。所以从算法复杂度角度来说,两种算法各有优势。第21页计算复杂度 Item CF 和 User CF 是基于协同过滤推荐两个最基本算法,User CF 是很早以前就提出来了,Item CF 是从 Amazon 论文和专利发表之后( 年左右)开始流行,大家都以为 Item CF 从性能和复杂度上比 User CF 更优,其中一个主要原因就是对于一个在线网站,用户数量往往大大超出物品数量,同时物品数据相对稳定,所以计算物品相同度不但计算量较小,同时也无须频繁更新。但我们往往忽略了这种情况只适应于提供商品电子商务网站,对于新闻,博客或者微内容推荐系统,情况往往是相反,物品数量是海量,

10、同时也是更新频繁,所以单从复杂度角度,这两个算法在不一样系统中各有优势,推荐引擎设计者需要依据自己应用特点选择愈加适当算法。第22页2、优缺点对比 UserCFItemCF性能适适用于用户较少场所,假如用户很多,计算用户相同度矩阵代价很大。适适用于物品数显著小于用户数场所,假如物品很多(网页),计算物品相同度矩阵代价很大。领域时效性较强,用户个性化兴趣不太显著领域。长尾物品丰富,用户个性化需求强烈领域实时性用户有新行为,不一定造成推荐结果马上改变。用户有新行为,一定会造成推荐结果实时改变。冷开启在新用户对极少物品产生行为后,不能马上对他进行个性化推荐,因为用户相同度表是每隔一段时间离线计算。新物品上线后一段时间,一旦有用户对物品产生行为,就能够将新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论