推荐系统算法PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-01-08 格式：PPT 页数：28 大小：592KB 积分：35 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

推荐系统算法速读根据推荐算法的不同推荐系统可以分为以下几类协同过滤 collaborativefiltering 系统基于内容 content based 的推荐系统基于网络结构 network based 的推荐系统混合 hybrid 推荐系统 1 协同过滤系统核心思想 1 利用用户的历史信息计算用户之间的相似性 2 利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度系统根据这一喜好程度来对目标用户进行推荐分类基于记忆 memory based 的算法基于模型 model based 的算法 2 基于记忆的算法计算用户评分设C 为用户集合 S 为所有的产品集合设为用户c对产品s的打分在协同过滤算法中用户c对产品s的打分通过其他用户对s的打分计算而得到设为与用户c相似度比高的用户集第一种直接计算邻居打分的平均值第二种加权平均用户之间越相似则用于预测的权重越大 3 基于记忆的算法第三种考虑用户评判的尺度不同k 1 sim i j 表示用户之间的相似度用户c的平均打分定义为表示该用户打过的所有分的平均值 4 基于记忆的算法用户之间相似度的计算用户x与y之间的Pearson相关性用户x和y共同打过分的产品集合为夹角余弦用户x与y都用m维向量表示 5 优缺点优点1 具有推荐新信息的能力可以发现用户潜在但自己尚未察觉的兴趣爱好 2 能够推荐艺术品音乐电影等难以进行内容分析的产品问题1 冷启动问题新产品新用户 2 打分稀疏性问题3 算法可扩展性 6 基于内容的推荐系统核心思想分别对用户和产品建立配置文件通过分析已经购买或浏览过的内容建立或更新用户的配置文件系统可以比较用户与产品配置文件的相似度并直接向用户推荐与其配置文件最相似的产品基于内容的推荐算法的根本在于信息获取和信息过滤用户的配置文件构建与更新是最为核心的部分之一 7 基于内容的算法信息获取 TF IDF 与这个关键词在文件中出现数的逆定义为 8 设Content s 为产品s的配置文件 UserProfile c 为用户c的配置文件 UserProfile c 可以用向量表示其中每个分量表示关键词对用户c的重要性在基于内容的系统中被定义为 9 优缺点优点 1 可以处理冷启动问题 2 不受打分稀疏性问题的约束 3 能推荐新出现的产品和非流行的产品问题 1 受到信息获取技术的约束 2 难以从根本上解决冷启动问题 10 基于网络结构的推荐系统核心思想不考虑用户和产品的内容特性而仅仅把他们看作抽象的节点所有算法利用的信息都隐藏在用户和产品的选择关系之中考虑一个由m个用户和n个产品构成的推荐系统其中如果用户i选择过产品j 就在i和j之间连接一条边由此这个系统可以用一个具有m n个节点的二部分图表示 11 基于二部分图资源分配的推荐算法对于任意目标用户i 推荐算法的目的是把所有i没有选择过的产品按照i喜欢的程度进行排序并且把排名靠前的那些产品推荐给i 对于有m个用户和n个产品的一般的推荐系统如果用表示产品j愿意分配给i的资源配额可得到其一般表达式其中kj表示产品j的度被多少用户选择过 kl表示用户l的度该用户选择过多少商品 12 最终的资源分配矢量为一个n维的0 1矢量给定的目标用户选择过的产品上的初始资源设为1 其他设为0 W为n n阶的矩阵按照中对应元素的大小进行排序值越大说明用户越喜欢该商品 13 推荐系统的评价指标准确度被绝大多数推荐系统采用推荐列表的流行性和多样性覆盖率新鲜性和意外性用户的满意度 14 2020 1 8 15 准确度评价指标预测准确度分类准确度排序准确度预测打分关联距离标准化指标半衰期效用指标 16 预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分和用户的实际打分的平均绝对误差MAE其中c为系统中用户i打分产品的个数为用户实际打分为系统的预测打分 17 预测准确度与平均绝对误差相关的其他指标有平均平方误差 MSE 和标准平均绝对误差 NMAE 其中为系统中用户产品对 i a 的个数标准平均绝对误差定义为其中和分别为用户打分区间的最小值和最大值 18 分类准确度分类准确度定义为推荐算法对一个产品用户是否喜欢判定正确的比例广泛使用的分类准确度指标准确率召回率以及相关的指标其中和分别为被推荐产品中用户喜欢和不喜欢的产品数 19 分类准确度相应的和分别为未被推荐产品中用户喜欢和不喜欢的产品数而为未被推荐的产品数显然准确率定义为系统的推荐列表中用户喜欢的产品和所有被推荐产品的比率召回率定义为推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率 20 分类准确度另一个度量系统分类准确度的重要指标就是ROC曲线1 确定用户对每个产品感兴趣与否 2 根据预测结果为用户提供一个推荐列表从图的原点开始如果预测的产品符合用户喜好画一个竖线如果预测的产品不符合实际画一个横线如果预测产品还没有被打分那么抛弃这个产品并不影响曲线一个最好的预测系统产生一个竖的ROC线随机预测产生从原点到右上角的直线 21 排序准确度排序准确度用于度量推荐算法产生的列表符合用户对产品排序的程度可以用平均排序分度量推荐系统的排序准确度定义如下其中N为训练集中用户为选择的产品个数 Li预测集中待预测产品i在推荐列表中的位置 22 预测打分关联预测打分关联不考虑预测打分与用户打分各单项的偏差而是考虑两者之间整体的相关程度推荐系统中 3个常用的相关性描述有Pearson关联 Speaman关联和Kendall sTau Tau越大表示系统预测结果越好C为系统预测正确的喜好偏序数 D为预测错误的喜好偏序数 TR为用户打分相同的产品数 TP为具有相同预测值的产品数 23 距离标准化指标距离标准化指标简称为NDPM 在推荐系统中 NDPM的核心思想为对比系统预测打分排名与用户实际排名的偏好关系对基于偏好关系的度量进行标准化具体定义如下其中为系统排序与用户排序相冲突的个数 24 半衰期效用指标在网络中用户愿意浏览推荐列表的函数呈指数衰减用户i的期望用定义如下其中为用户i对推荐列表中排名第j的产品打分 d为默认打分 h为半衰期 25 准确度之外的评价指标 1 推荐列表的流行性和多样性一个产品的流行性可以用它的平均度来度量产品度越大说明越流行推荐列表的多样性可以用平均海明距离来度量用户i和j推荐列表的海明距离被定义如下其中L为推荐列表的长度为系统推荐给用户i和j的两个推荐列表中相同产品的个数 26 2 覆盖率覆盖率定义为可以预测打分的产品占所有产品的比例 3 新鲜性和意外性在这里新鲜性和意外性具有本质的不同例如考虑一个电影推荐系统这个系统只考虑用户喜欢的导演信息如果

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

推荐系统算法PPT课件.ppt

文档简介

温馨提示

最新文档

评论

推荐系统算法PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档