




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
推荐系统评价指标综述 汇报人 李烽 文献来源 朱郁筱 吕琳媛 推荐系统评价指标综述 J 电子科技大学学报 2012 02 163 175 2 研究背景 3 信息过载 多种推荐算法 孰优孰劣 研究背景 4 Web2 0时代 每个人既是信息接收者 也是信息创造者 信息数量庞大但质量参差不齐 造成信息过载 信息过载 多种推荐算法 信息过滤 为满足用户需求推荐个性化推荐 协同过滤算法 基于内容的推荐算法 混合推荐算法 孰优孰劣 如何有效 客观评价推荐系统的效能 从实验室到实际应用的转换 研究背景 5 评价方法 6 在线评价 设计在线用户实验 根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现A B测试高额成本 离线评价 根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量方便 经济数据集的划分 常用随机划分 与评价指标的选择 评价指标 7 准确度指标基于排序加权的指标覆盖率多样性和新颖性 准确度指标 8 预测评分的准确度 衡量算法预测的评分与用户实际评分的贴近程度 思路 计算预测评分和用户真实评分的差异 平均绝对误差 meanabsoluteerror MAE 定义为 MAE 1 表示用户u对商品 的真实评分 表示用户u对商品 的预测评分 表示测试集 局限 对MAE指标贡献大的往往是那种很难预测准确的低分商品 9 预测评分的准确度 平均平方误差 meansquarederror MSE 定义为 MSE 1 2 均方根误差 rootmeansquarederror RMSE 定义为 RMSE 1 2 MSE和RMSE指标对每个绝对误差首先做平方运算 所以这两个指标对比较大的绝对误差有了更重的惩罚 10 标准平均绝对误差 normalizedmeanabsoluteerror NMAE 定义为 NMAE 式中 和 分别为用户评分区间的最大值和最小值 NMAE在评分区间上做了归一化处理 从而可以在不同数据及集对同一个推荐算法表现进行比较 预测评分的准确度 11 预测评分关联 衡量算法预测的评分与用户实际评分之间的相关性最常见的三种相关性指标 Pearson积距相关 Spearman相关 Kendall sTau Pearson积距相关系数衡量的是预测评分和真实评分的线性相关程度 定义为 PCC 2 2 和 分别表示商品 的真实评分和预测评分 Spearman关联和Pearson关联定义的形式是一样的 只是考虑的是根据预测评分值得到的排序值 即将上式中的 和 分别替换成商品 的真是排名和预测排名 12 预测评分关联 Kendall sTau和Spearman类似 也是刻画两种排序值的统一程度 定义为 式中 C为正序对的数目 D为逆序对的数目 缺点 对于所有的排名偏差都分配相等的权重 而不管具体的排序值 显然 不同的排名偏差不能同等对待 用户更关心排在前面的推荐商品 13 预测评分关联 当真实排名和预测排名有并列情况出现时 可以用基于Kendall sTau改进的一个指标来衡量 定义为 式中 表示真实评分相同的商品对数量 表示预测评分相同的商品对数量 弱关系排序问题 在实际系统中可能有某用户对两个或者多个商品评分一致的情况 14 预测评分关联 为了比较两个不同的弱排序序列 文献 36 提出了一种归一化的基于距离的评价指标 normalizeddistance basedperformancemeasure NDPM 它的主要思想是 先统计两个排序相悖的商品对个数 以及两个排序兼容的商品对个数 假如用T表示用户实际评分中具有严格偏好差别的商品对个数 则NDMP定义为 NDMP 2 2 NDMP介于0和1之间 NDMP值越小 预测评分关联越大 也即是系统的预测结果越好 排序相悖是指在两个商品 和 中系统预测的是某用户更喜欢商品 然而实际上用户更喜欢是商品 排序兼容指的是系统预测用户对商品 和 同等喜欢 然而实际上用户更喜欢的是商品 或者是商品 15 某用户对商品实际评分为 4 4 3 9 3 8 3 9 1 0推荐系统预测评分为 3 3 3 1 3 0 4 3 3 1那么此时 具有严格偏好差别的商品对有 1 2 1 3 1 4 1 5 2 3 2 5 3 4 3 5 4 5 排序相悖的商品对 1 4 3 5 排序兼容的商品对 2 5 得NDMP 2 2 1 2 9 0 278 预测评分关联 NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现 PS 这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值 所以它们不适用于那些旨在为用户提供精确预测评分值的系统 16 分类准确度 衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力 适用于那些有明确二分喜好的用户系统 对于非二分喜好系统 需要设定一个阈值来区分用户的喜好 并非衡量系统预测具体评分值的能力 只要是没有影响商品分类的评分偏差都是被允许的 最常用的分类准确度指标 准确率 precision 召回率 recall F1指标和AUC 17 分类准确度 表示用户u喜欢的商品数 显然 L tp p tp 对于某一用户u 其推荐准确率为系统推荐的L个商品中用户喜欢的商品所占的比例 即 L tpL tp tp p 18 分类准确度 表示用户u喜欢的商品数 显然 L tp p tp 召回率表示为一个用户喜欢的商品被推荐的概率 定义为推荐列表中用户喜欢的商品与系统中用户喜欢的所有商品所占的比率 即R L tp tp tp 19 分类准确度 准确率与召回率容易受到推荐列表长度 评分稀疏性以及喜好阈值的等多方面因素的影响 很多学者不提倡用准确率与召回率来评价系统 特别是只考虑一种指标时偏差极大 准确率和召回率指标往往是负相关的而且依赖于推荐列表长度 一般情况下 随着推荐列表长度的增大 准确率指标会减小而召回率会增大 当一个系统没有固定的推荐列表长度时 就需要一个包含准确率与召回率的二维向量啦反应系统的表现 故定义F1指标 1 2 1值越大 说明分类模型越稳健 20 分类准确度 对于一个没有明确二分喜好的系统 推荐的阈值不确定 往往采用AUC指标来衡量推荐效果的准确性 AUC指标表示ROC receiveroperatorcurve 曲线下的面积 它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品区分开来 正如我们在这个ROC曲线的示例图中看到的那样 ROC曲线的横坐标为falsepositiverate FPR 纵坐标为truepositiverate TPR 21 分类准确度 经过分析 ROC曲线越接近左上角 该分类器性能越好 AUC的取值范围介于0 5和1之间 22 分类准确度 假如我们已经得到了所有样本的概率输出 属于正样本的概率 根据每个测试样本属于正样本的概率值从大到小排序 图中共有20个测试样本 Class 一栏表示每个测试样本真正的标签 p表示正样本 n表示负样本 Score 表示每个测试样本属于正样本的概率 23 分类准确度 从高到低依次将 Score 值作为阈值threshold 当测试样本属于正样本的概率大于或等于这个threshold时 我们认为它为正样本 否则为负样本 AUC指标仅用一个数值就表征了推荐算法的整体表现 而且它涵盖了所有不同推荐列表长度的表现 但是AUC指标没有考虑具体排序位置的影响 导致在ROC曲线面积相同的情况下很难比较算法好坏 所以它的适用范围也受到了一些限制 24 排序准确度 排序准确度对于只注重分类准确度的系统来说太敏感了 它更适合于需要给用户提供一个排序列表的系统 平均排序分 averagerankscore 用来衡量推荐系统的排序准确度 对某一用户u来说 商品 的排序分定义如下 u 表示用户u的待排序商品个数 也就是用户u在测试集中的商品数目加上未选择过的商品数目 表示商品 在用户u的推荐列表中的位置 将所有用户的排序分求平均即得到系统的排序分RS 排序分值越小 说明系统越趋向于把用户喜欢的商品排在前面 25 基于排序加权的指标 半衰期效用指标 half lifeutility 是在用户浏览商品的概率与该商品在推荐列表中的具体排序值呈指数递减的假设下提出的 它度量的是推荐系统对一个用户的实用性 也即是用户真实评分和系统默认评分值的差别 用户u的期望效用定义为 max 0 2 1 1 表示用户u对商品 的实际评分 而 表示商品 在用户u的推荐列表中的排名 d为默认评分 比如平均评分值 h为系统半衰期 也即是有50 的概率用户会浏览的推荐列表的位置 26 基于排序加权的指标 当用户喜欢的商品都被放在推荐列表的前面时 该用户的半衰期效用指标达到最大值 系统的半衰期效用值定义为 HL 100 为用户 的效用期望能达到的最大值 目前半衰期效用指标的使用仍然是有很大的局限性 首先参数的选取尚未有统一的标准 用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中都适用 27 覆盖率 覆盖率指算法向用户推荐的商品能覆盖全部商品的比例 预测覆盖率表示系统可以预测评分的商品占所有商品的比例 定义为 推荐覆盖率表示系统可以为用户推荐的商品占所有商品的比例 与推荐列表长度L有关 定义为 L 种类覆盖率 表示系统可以为用户推荐的商品种类占全部种类的比例 需要事先对所有商品进行分类 单个覆盖率指标并没有意义 28 多样性和新颖性 推荐系统中的多样性体现在用户间的多样性和用户内的多样性 对于用户u和t 可以使用汉明距离来衡量用户间的多样性 定义为 ut L 1 表示用户u和用户t推荐列表中相同商品的个数 汉明距离越大 说明推荐多样性越高 在信息论中 两个字码中不同位值的数目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医药企业研发外包(CRO)模式下的临床试验数据统计分析与解读报告
- 金融科技行业2025年企业估值方法与投资机会分析报告001
- 供应链数字化协同下的2025年制造业绿色供应链创新研究报告
- 2025年医药流通供应链优化与成本控制技术升级与转型报告
- 保健品考试题及答案
- 办公环境安全试题及答案
- 产业转移园区建设2025年社会稳定风险评估与风险防范策略报告001
- 农村电商农产品上行模式下的品牌合作模式与区域经济发展报告
- 安全管理 试题及答案
- 纺织服装行业数字化转型对产业链上下游影响研究报告
- GB 29541-2013热泵热水机(器)能效限定值及能效等级
- 控规用地代码
- 2023年上杭县社区工作者招聘考试笔试题库及答案解析
- 2021年曹杨二中自招数学试卷
- 中国近现代史纲要超星尔雅答案贵州大学-
- 新能源汽车底盘检修全套课件
- 幼儿园大班数学口算练习题可打印
- 燃气入户安检培训PPT.ppt
- 江苏特种作业人员体检表
- 堡垒主机用户操作手册运维管理
- 国家开放大学《计算机绘图(本)》章节测试参考答案
评论
0/150
提交评论