推荐系统评价指标综述PPT课件.pptx

上传人：优*** IP属地：广东上传时间：2020-03-05 格式：PPTX 页数：32 大小：1.60MB 积分：35 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

推荐系统评价指标综述汇报人李烽文献来源朱郁筱吕琳媛推荐系统评价指标综述 J 电子科技大学学报 2012 02 163 175 2 研究背景 3 信息过载多种推荐算法孰优孰劣研究背景 4 Web2 0时代每个人既是信息接收者也是信息创造者信息数量庞大但质量参差不齐造成信息过载信息过载多种推荐算法信息过滤为满足用户需求推荐个性化推荐协同过滤算法基于内容的推荐算法混合推荐算法孰优孰劣如何有效客观评价推荐系统的效能从实验室到实际应用的转换研究背景 5 评价方法 6 在线评价设计在线用户实验根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现A B测试高额成本离线评价根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量方便经济数据集的划分常用随机划分与评价指标的选择评价指标 7 准确度指标基于排序加权的指标覆盖率多样性和新颖性准确度指标 8 预测评分的准确度衡量算法预测的评分与用户实际评分的贴近程度思路计算预测评分和用户真实评分的差异平均绝对误差 meanabsoluteerror MAE 定义为 MAE 1 表示用户u对商品的真实评分表示用户u对商品的预测评分表示测试集局限对MAE指标贡献大的往往是那种很难预测准确的低分商品 9 预测评分的准确度平均平方误差 meansquarederror MSE 定义为 MSE 1 2 均方根误差 rootmeansquarederror RMSE 定义为 RMSE 1 2 MSE和RMSE指标对每个绝对误差首先做平方运算所以这两个指标对比较大的绝对误差有了更重的惩罚 10 标准平均绝对误差 normalizedmeanabsoluteerror NMAE 定义为 NMAE 式中和分别为用户评分区间的最大值和最小值 NMAE在评分区间上做了归一化处理从而可以在不同数据及集对同一个推荐算法表现进行比较预测评分的准确度 11 预测评分关联衡量算法预测的评分与用户实际评分之间的相关性最常见的三种相关性指标 Pearson积距相关 Spearman相关 Kendall sTau Pearson积距相关系数衡量的是预测评分和真实评分的线性相关程度定义为 PCC 2 2 和分别表示商品的真实评分和预测评分 Spearman关联和Pearson关联定义的形式是一样的只是考虑的是根据预测评分值得到的排序值即将上式中的和分别替换成商品的真是排名和预测排名 12 预测评分关联 Kendall sTau和Spearman类似也是刻画两种排序值的统一程度定义为式中 C为正序对的数目 D为逆序对的数目缺点对于所有的排名偏差都分配相等的权重而不管具体的排序值显然不同的排名偏差不能同等对待用户更关心排在前面的推荐商品 13 预测评分关联当真实排名和预测排名有并列情况出现时可以用基于Kendall sTau改进的一个指标来衡量定义为式中表示真实评分相同的商品对数量表示预测评分相同的商品对数量弱关系排序问题在实际系统中可能有某用户对两个或者多个商品评分一致的情况 14 预测评分关联为了比较两个不同的弱排序序列文献 36 提出了一种归一化的基于距离的评价指标 normalizeddistance basedperformancemeasure NDPM 它的主要思想是先统计两个排序相悖的商品对个数以及两个排序兼容的商品对个数假如用T表示用户实际评分中具有严格偏好差别的商品对个数则NDMP定义为 NDMP 2 2 NDMP介于0和1之间 NDMP值越小预测评分关联越大也即是系统的预测结果越好排序相悖是指在两个商品和中系统预测的是某用户更喜欢商品然而实际上用户更喜欢是商品排序兼容指的是系统预测用户对商品和同等喜欢然而实际上用户更喜欢的是商品或者是商品 15 某用户对商品实际评分为 4 4 3 9 3 8 3 9 1 0推荐系统预测评分为 3 3 3 1 3 0 4 3 3 1那么此时具有严格偏好差别的商品对有 1 2 1 3 1 4 1 5 2 3 2 5 3 4 3 5 4 5 排序相悖的商品对 1 4 3 5 排序兼容的商品对 2 5 得NDMP 2 2 1 2 9 0 278 预测评分关联 NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现 PS 这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值所以它们不适用于那些旨在为用户提供精确预测评分值的系统 16 分类准确度衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力适用于那些有明确二分喜好的用户系统对于非二分喜好系统需要设定一个阈值来区分用户的喜好并非衡量系统预测具体评分值的能力只要是没有影响商品分类的评分偏差都是被允许的最常用的分类准确度指标准确率 precision 召回率 recall F1指标和AUC 17 分类准确度表示用户u喜欢的商品数显然 L tp p tp 对于某一用户u 其推荐准确率为系统推荐的L个商品中用户喜欢的商品所占的比例即 L tpL tp tp p 18 分类准确度表示用户u喜欢的商品数显然 L tp p tp 召回率表示为一个用户喜欢的商品被推荐的概率定义为推荐列表中用户喜欢的商品与系统中用户喜欢的所有商品所占的比率即R L tp tp tp 19 分类准确度准确率与召回率容易受到推荐列表长度评分稀疏性以及喜好阈值的等多方面因素的影响很多学者不提倡用准确率与召回率来评价系统特别是只考虑一种指标时偏差极大准确率和召回率指标往往是负相关的而且依赖于推荐列表长度一般情况下随着推荐列表长度的增大准确率指标会减小而召回率会增大当一个系统没有固定的推荐列表长度时就需要一个包含准确率与召回率的二维向量啦反应系统的表现故定义F1指标 1 2 1值越大说明分类模型越稳健 20 分类准确度对于一个没有明确二分喜好的系统推荐的阈值不确定往往采用AUC指标来衡量推荐效果的准确性 AUC指标表示ROC receiveroperatorcurve 曲线下的面积它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品区分开来正如我们在这个ROC曲线的示例图中看到的那样 ROC曲线的横坐标为falsepositiverate FPR 纵坐标为truepositiverate TPR 21 分类准确度经过分析 ROC曲线越接近左上角该分类器性能越好 AUC的取值范围介于0 5和1之间 22 分类准确度假如我们已经得到了所有样本的概率输出属于正样本的概率根据每个测试样本属于正样本的概率值从大到小排序图中共有20个测试样本 Class 一栏表示每个测试样本真正的标签 p表示正样本 n表示负样本 Score 表示每个测试样本属于正样本的概率 23 分类准确度从高到低依次将 Score 值作为阈值threshold 当测试样本属于正样本的概率大于或等于这个threshold时我们认为它为正样本否则为负样本 AUC指标仅用一个数值就表征了推荐算法的整体表现而且它涵盖了所有不同推荐列表长度的表现但是AUC指标没有考虑具体排序位置的影响导致在ROC曲线面积相同的情况下很难比较算法好坏所以它的适用范围也受到了一些限制 24 排序准确度排序准确度对于只注重分类准确度的系统来说太敏感了它更适合于需要给用户提供一个排序列表的系统平均排序分 averagerankscore 用来衡量推荐系统的排序准确度对某一用户u来说商品的排序分定义如下 u 表示用户u的待排序商品个数也就是用户u在测试集中的商品数目加上未选择过的商品数目表示商品在用户u的推荐列表中的位置将所有用户的排序分求平均即得到系统的排序分RS 排序分值越小说明系统越趋向于把用户喜欢的商品排在前面 25 基于排序加权的指标半衰期效用指标 half lifeutility 是在用户浏览商品的概率与该商品在推荐列表中的具体排序值呈指数递减的假设下提出的它度量的是推荐系统对一个用户的实用性也即是用户真实评分和系统默认评分值的差别用户u的期望效用定义为 max 0 2 1 1 表示用户u对商品的实际评分而表示商品在用户u的推荐列表中的排名 d为默认评分比如平均评分值 h为系统半衰期也即是有50 的概率用户会浏览的推荐列表的位置 26 基于排序加权的指标当用户喜欢的商品都被放在推荐列表的前面时该用户的半衰期效用指标达到最大值系统的半衰期效用值定义为 HL 100 为用户的效用期望能达到的最大值目前半衰期效用指标的使用仍然是有很大的局限性首先参数的选取尚未有统一的标准用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中都适用 27 覆盖率覆盖率指算法向用户推荐的商品能覆盖全部商品的比例预测覆盖率表示系统可以预测评分的商品占所有商品的比例定义为推荐覆盖率表示系统可以为用户推荐的商品占所有商品的比例与推荐列表长度L有关定义为 L 种类覆盖率表示系统可以为用户推荐的商品种类占全部种类的比例需要事先对所有商品进行分类单个覆盖率指标并没有意义 28 多样性和新颖性推荐系统中的多样性体现在用户间的多样性和用户内的多样性对于用户u和t 可以使用汉明距离来衡量用户间的多样性定义为 ut L 1 表示用户u和用户t推荐列表中相同商品的个数汉明距离越大说明推荐多样性越高在信息论中两个字码中不同位值的数目

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

推荐系统评价指标综述PPT课件.pptx

文档简介

温馨提示

最新文档

评论

推荐系统评价指标综述PPT课件.pptx

文档简介

温馨提示

最新文档

评论

相关文档