版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、推荐系统的基础推荐算法介绍技术创新,变革未来智慧IT目 录010203基于流行度的算法基于内容的算法基于关联规则的算法基于协同过滤的算法04基本思想将所有待推荐的项目按照它的流行度进行排序,将流行度最高的项目推荐给用户。这里的流行度:在电商平台中,可以指销量、用户评分或收藏量等指标;在社交平台中,又可以指关注数、分享数、搜索数或下载量等等指标;比如微博有它的热搜榜,网易云音乐平台也有它的热门搜索。1. 基于流行度的算法算法特点优点:算法简单易实现;对于新注册的用户来说较为有效(即可以有效缓解冷启动问题);当选择合适的流行度衡量标准时,算法的效果也还不错。缺点:不能针对特定的用户进行具体的个性化
2、的推荐(基于统计学方法做的工作)。1. 基于流行度的算法算法特点适用范围:可以单独作为推荐算法进行使用,作为推荐系统为了实施更个性化的推荐算法而获得足够的用户兴趣活跃度和交互量的一个过渡;可以引入混合算法中,主要解决冷启动问题。优化改进:给用户进行分类,然后再进行流行度推荐,比如把热度榜上的科技新闻优先推荐给关注科技时事的用户。1. 基于流行度的算法目 录010203基于流行度的算法基于内容的算法基于关联规则的算法基于协同过滤的算法04基本思想根据用户的历史兴趣交互记录,将与用户以前喜欢的项目相似的项目推荐给用户这里的相似是通过项目的内容(例如标题、描述关键词、地区、时间等)来计算的,要注意要
3、与后面提到的协同过滤中的根据用户对项目的交互记录来计算相似度区分开比如用户观看了电影速度与激情,那么可以给他推荐速度与激情;用户购买了数据结构和算法,可以将算法导论推荐给他等等。实施思路:将要参与计算相似度的内容(标题、描述等)进行相关的处理,得到每个项目的统一表示,然后再计算相似度2. 基于内容的算法基本思想例:书籍的推荐;将每本书的书名作为内容,从内容中删除停用词(例如语法词,非常常见的词),然后将书表示为指示哪些词存在的向量(词袋模型等),这称为向量空间表示;根据每本书的书名的向量表示,计算相互之间的相似性(余弦相似性等),知道书籍彼此间的相似性之后就可以根据用户之前评分过的书来对他们进
4、行推荐。2. 基于内容的算法待推荐的书的书名经过处理后每本书对应的向量空间的表示算法特点优点:易于实现;因其不需要用户的信息数据所以可以避免稀疏性和冷启动问题;核心是基于项目本身的特征进行推荐,不会出现一直推荐热门项目的问题,有效克服流行度偏见;可以用项目的内容特征来对推荐结果进行解释。缺点:进行相似性计算的特征的选择需要相当的专业知识才能保证一定的推荐效果;推荐的项目很可能会重复出现,从而限制了用户可能扩散的兴趣点,会使得系统不能给用户惊喜。适用范围:常用于资讯类的系统中,对待推荐的项目(新闻、文章、电影、音乐)抽取一定的 tag 作为关键词,然后通过这些 tag 来评价相似度。2. 基于内
5、容的算法目 录010203基于流行度的算法基于内容的算法基于关联规则的算法基于协同过滤的算法04基本思想当用户喜欢一个项目时,将与该项目相关联的项目推荐给该用户这里的相关联不同于之前提到的相似性,比如用户购买了面包就可能还需要牛奶,“尿布和啤酒的故事”;关联规则通常从数据库中用户的历史交互记录挖掘项集之间的关联,简单来说就是同时被很多用户购买的物品集合,集合内的物品可以相互进行推荐。常用的关联规则挖掘算法主要有 Apriori 算法和 FP 树,主要目的是找到最大频繁项。衡量关联规则质量的指标:支持度和置信度;支持度表示在历史记录中A和B同时被购买的概率,置信度表示A推荐B的可信程度(在A被购
6、买的记录中,AB同时被购买的记录)。3. 基于关联规则的算法算法特点优点:转化率较高,当用户购买了频繁集中的某些项目之后,集合中其他项目被购买的概率更高。缺点:项目数量较大时,计算量很大,可以通过离线计算解决;存在冷启动和稀疏性问题;会受到流行度偏见的影响。适用范围:常用于电商平台中,通常是通过一个项目推荐另一个项目,所以一般频繁2项集即可满足要求。3. 基于关联规则的算法目 录010203基于流行度的算法基于内容的算法基于关联规则的算法基于协同过滤的算法04协同过滤算法推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推
7、荐算法是协同过滤(Collaborative Filtering,简称CF)推荐算法,CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。4. 基于协同过滤的算法协同过滤算法如图1所示,在CF中,用mn的矩阵表示用户对物品的喜好情况,一般用打分表示用户对物品的喜好程度,分数越高表示越喜欢这个物品,0表示没有买过该物品。图中行表示一个用户,列表示一个物品,Uij表示用户i对物品j的打分情况。CF分为两个过程,一个为预测过程,另一个为推荐过程。预测过程是预测用户对没有购买过的物品的可能打分值,推荐是根据预测阶段的结果推荐用户最可能喜欢的一个或Top-N个物品。4. 基于
8、协同过滤的算法User-based算法与Item-based算法对比CF算法分为两大类,一类为基于memory的(Memory-based),另一类为基于Model的(Model-based),User-based和Item-based算法均属于Memory-based类型,具体细分类可以参考wikipedia的说明。User-based的基本思想是如果用户A喜欢物品a,用户B喜欢物品a、b、c,用户C喜欢a和c,那么认为用户A与用户B和C相似,因为他们都喜欢a,而喜欢a的用户同时也喜欢c,所以把c推荐给用户A。该算法用最近邻居(nearest-neighbor)算法找出一个用户的邻居集合,该
9、集合的用户和该用户有相似的喜好,算法根据邻居的偏好对该用户进行预测。4. 基于协同过滤的算法User-based算法存在两个重大问题1. 数据稀疏性。一个大型的电子商务推荐系统一般有非常多的物品,用户可能买的其中不到1%的物品,不同用户之间买的物品重叠性较低,导致算法无法找到一个用户的邻居,即偏好相似的用户。2. 算法扩展性。最近邻居算法的计算量随着用户和物品数量的增加而增加,不适合数据量大的情况使用。Iterm-based的基本思想是预先根据所有用户的历史偏好数据计算物品之间的相似性,然后把与用户喜欢的物品相类似的物品推荐给用户。还是以之前的例子为例,可以知道物品a和c非常相似,因为喜欢a的
10、用户同时也喜欢c,而用户A喜欢a,所以把c推荐给用户A。因为物品直接的相似性相对比较固定,所以可以预先在线下计算好不同物品之间的相似度,把结果存在表中,当推荐时进行查表,计算用户可能的打分值,可以同时解决上面两个问题。4. 基于协同过滤的算法Item-based 算法详细过程1. 相似度计算Item-based算法首先计算物品之间的相似度,计算相似度的方法有以下几种:(1)基于余弦(Cosine-based)的相似度计算(2)基于关联(Correlation-based)的相似度计算(3)调整的余弦(Adjusted Cosine)相似度计算一般在实验中,我们使用调整的余弦相似度作为物品间相似
11、度的计算方法。该方法的基本思想是:由于基于余弦的相似度计算没有考虑不同用户的打分情况,可能有的用户偏向于给高分,而有的用户偏向于给低分,该方法通过减去用户打分的平均值消除不同用户打分习惯的影响,公式如下:4. 基于协同过滤的算法Item-based 算法详细过程用户u打分的平均值4. 基于协同过滤的算法1. 相似度计算Item-based算法首先计算物品之间的相似度,计算相似度的方法有以下几种:(1)基于余弦(Cosine-based)的相似度计算(2)基于关联(Correlation-based)的相似度计算(3)调整的余弦(Adjusted Cosine)相似度计算一般在实验中,我们使用调
12、整的余弦相似度作为物品间相似度的计算方法。该方法的基本思想是:由于基于余弦的相似度计算没有考虑不同用户的打分情况,可能有的用户偏向于给高分,而有的用户偏向于给低分,该方法通过减去用户打分的平均值消除不同用户打分习惯的影响,公式如下:Item-based 算法详细过程2. 预测值计算根据之前算好的物品之间的相似度,接下来对用户未打分的物品进行预测,我们使用加权求和的方式来计算得分,具体来说:用过对用户u已打分的物品的分数进行加权求和,权值为各个物品与物品i的相似度,然后对所有物品相似度的和求平均,计算得到用户u对物品i打分,公式如下:4. 基于协同过滤的算法物品i与物品N的相似度用户u对物品N的打分4. 基于协同过滤的算法Item-based 算法详细过程2. 预测值计算根据之前算好的物品之间的相似度,接下来对用户未打分的物品进行预测,我们使用加权求和的方式来计算得分,具体来说:用过对用户u已打分的物品的分数进行加权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职工业机器人技术应用(机器人维护基础)试题及答案
- 2026年厨房电器销售(需求分析)试题及答案
- 2025年高职高聚物生产技术(高聚物生产应用)试题及答案
- 2025年中职烟草栽培与加工(烟草分级技术)试题及答案
- 近七年北京中考物理试题及答案2025
- 养老院老人康复设施维修人员晋升制度
- 养老院工作人员保密制度
- 信息技术合同与项目管理制度
- 工行合规培训课件
- 2026年医师内科学速记题库含答案
- 天津市八校联考2025届高三上学期1月期末考试英语试卷(含答案无听力原文及音频)
- 2026届辽宁省辽南协作校高一数学第一学期期末监测试题含解析
- 2026瑞众保险全国校园招聘参考笔试题库及答案解析
- 2025年山东省枣庄市检察院书记员考试题(附答案)
- 寒假安全教育课件模板
- 短视频内容版权协议2025年执行版
- 社区康养服务活动方案
- 2025年数字印刷可行性报告
- 畜禽屠宰加工工国家职业标准(征求意见稿)
- 电力通信安全培训资料课件
- 上海国安面试题库及答案
评论
0/150
提交评论