版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘——推荐系统推荐系统推荐系统可以向用户建议有用的物品,如购买什么物品、听什么音乐、在网上浏览什么信息推荐系统微软研究报告曾估计,A有30%的网页浏览量来自于推荐A.Sharma,J.M.Hofman,D.J.Watts,“EstimatingtheCausalImpactofRecommendationSystemsfromObservationalData,”
Proc.16thACMConf.EconomicsandComputation,2015,pp.453–470.
A提供图书的平均评分,以及购买过某本特定书籍的用户购买的其他书籍的列表推荐系统Netflix也广泛应用推荐系统,通过现实电影的预测评分帮助用户决定款看哪部电影Netflix首席产品官NeilHunt表示,Netflix80%以上的电影观看都是通过推荐生成的,而且Netflix推荐系统每年产生的价值超过10亿美元。C.A.Gomez-UribeandN.Hunt,“TheNetflixRecommenderSystem:Algorithms,#Business|Value,andInnovation,”
ACMTrans.ManagementInformationSystems,vol.6,no.4,2016,pp.1–19.推荐系统Netfilx成立于1997年,是一家在线收费视频网站,提供视频点播、流媒体服务、视频推荐等。由ReedHastings创立在Blockbuster租碟,超期归还被黑40美元逾期费由按件计费向会员制转变现有推荐系统CinematchNetflix大赛,改进Cinematch第一届大赛开始于2006年,把现有推荐系统的准确率提高10%,奖金100万美金2009年,一个七人团队获奖BPC(BellKor'sPragmaticChaos)对Cinematch算法的改进10.06%开赛后的几个月,算法准确性提高了5%一年多时,较好的答案已经非常接近9%推荐系统第一次比赛,Netflix公开了大约1亿个1-5的匿名影片评级,数据集仅包含了影片名称。评价星级和评级日期,没有任何文本评价的内容。第一个Netflix大奖解决了为提供了50个以上评级的观众准确的预测他们的口味下一个百万大奖目标是,为那些不经常做影片评级或者根本不做评级的顾客推荐影片,要求使用一些隐藏着观众口味的地理数据和行为数据来进行预测。推荐系统推荐系统通常包含三类数据要推荐的物品或内容系统用户的基本信息用户对物品或者信息的偏好显式用户反馈:喜欢/不喜欢、评分、评论隐式用户反馈:购买、浏览、收藏……推荐方法分类推荐方法通常包含三种基于人口统计学的推荐(Demographic-basedRecommendation)基于内容的推荐(Content-basedRecommendation)根据系统用户的基本信息发现用户的相关程度根据推荐物品或内容的元数据,发现物品或者内容的相关性基于协同过滤的推荐(CollaborativeFiltering-basedRecommendation)根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性基于内容的推荐利用用户已知的偏好、兴趣等属性与物品内容属性相匹配,以此为用户推荐新的感兴趣物品基于内容的推荐基于内容的推荐一般包含以下三步:物品表示:为每个物品抽取一些特征来表示此物品学习用户特征:利用一个用户过去喜欢(及不喜欢)的物品特征数据,学习出此用户的喜好特征生成推荐:通过比较用户特征与候选物品的特征,为此用户推荐一组相关性最大的物品。基于内容的推荐物品表示结构化特征:e.g.一个电影的特征有演员、导演、类型、主题等非结构化特征:e.g.向量空间模型(VSM)大多数情况下,物品表示是从网页、电子邮件、新闻或产品描述中抽取的文本基于内容的推荐学习用户特征学习用户特征的问题可转化为一个二元分类任务:每一个物品都根据用户的偏好被分成感兴趣(c+)或不感兴趣(c-)最近邻方法朴素贝叶斯决策树算法线性分类算法基于内容的推荐优点用户独立性:基于内容的推荐仅使用当前用户提供的评分来构建用户特征,而协同过滤方法需要其他用户的评分,来发现该用户的近邻。透明性:通过显式列出使得物品出现在推荐列表中的内容特征或描述,可以解释推荐系统是如何工作的。新物品:在新物品没有任何用户评分的情况下,基于内容的推荐系统也可以进行推荐。基于内容的推荐缺点
物品特征抽取一般很难过度特化:无法发现一些出人意料的物品,系统建议的物品与用户特征高度匹配的时候,给用户推荐的也会是与已有评分物品相似的物品。无法为新用户生成推荐:在真正理解用户偏好切给出准确推荐之前,需要收集足够的评分,当只有很少的评分可用时,系统无法提供可靠的推荐。基于协同过滤的推荐
如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?问问周围的朋友,看看最近有什么好看的电影推荐协同过滤根据用户对物品的偏好,发现物品或内容本身的相关性,或者是发现用户的相关性,再基于这些关联性进行推荐我们一般更倾向于从口味比较类似的朋友那里得到推荐基于协同过滤的推荐可以分为两个子类:基于近邻的推荐基于用户的推荐(UserCF)、基于物品的推荐(ItemCF)基于模型的推荐基于近邻的协同过滤20世纪90年代中期,协同过滤通常使用基于用户的推荐1998年,A推出了基于物品的协同过滤算法,使推荐系统能够基于上百万的商品为数百万用户提供推荐服务。随后,基于物品的推荐在网络上被广泛使用在不同的产品中,包括Youtube、Netflix和很多其他产品。2003年,GregLinden、BrentSmith和JeremyYork将该算法发表在“IEEEInternetComputing”,论文名称为“ARecommendations:Item-to-ItemCollaborativeFiltering”
基于用户的推荐(UserCF)TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353
Eric是否要看电影Titanic?基于近邻的协同过滤
基于用户的推荐
基于近邻的协同过滤
基于用户的推荐
基于近邻的协同过滤预测Eric对电影Titanic的评分,使用Lucy和Diane这两个近邻用户对这部电影的评分,假设这些近邻与Eric相近权重分别为0.75和0.15,则预测评分为基于用户的推荐TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353基于近邻的协同过滤
基于物品的推荐(ItemCF)Eric通过已经看过的电影决定Titanic对他是否合适,他发现对Titanic评分的人也对电影ForrestGump和Wall-E给予相近评分,由于Eric也喜欢这两部电影,因此他认为自己也会喜欢TitanicTheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353基于近邻的协同过滤基于物品的推荐
基于近邻的协同过滤基于物品的推荐TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353
使用两个近邻Eric对Titanic的评分进行预测,Titanic的相似项目ForrestGump和Wall-E的相似权重分别为0.85和0.75,则预测评分可计算为基于近邻的协同过滤如何计算用户或物品之间的相似度权重?
评分标准化基于近邻的协同过滤余弦相似度计算相似度
基于近邻的协同过滤皮尔逊相似度计算相似度
用户相似度物品相似度基于近邻的协同过滤Top-K过滤:不论远近,只取最近的K个作为其近邻。k近邻选择方法阈值过滤:保留相似度权重大于给定阈值的近邻。基于近邻的协同过滤一个用户可能只给少量物品最高分,而一些用户会对自己喜欢的物品都给予最高分。评分标准化可将近邻评分进行标准化转换均值中心化Z-score标准化评分标准化能够将不同的个人评分标准转换到更一般的整体评分标准。基于近邻的协同过滤通过与平均分的比较决定一个评分为正还是为负,移除了针对平均评分的不同感受而导致的偏差均值中心化
对新物品的评分预测调整为对基于物品的推荐而言,均值中心化后的预测评分为基于近邻的协同过滤均值中心化
TheMatrixTitanicDieHardForrestGumpWall-EJohn2.5-1.5
-0.5-0.5Lucy-2.61.4-1.61.41.4Eric-1.5
0.51.50.5Diane0.25-0.751.25-0.75
虽然Diane对Titanic和ForrestGump的评价分数为3分,但用户平均中心化评分结果显示其对于电影的偏好是负值,因为她的评分总体上高于所有用户的整体平均分。用户均值中心化基于近邻的协同过滤Z-score标准化不仅考虑对平均评分不同感受导致的偏差,还考虑个人评分范围不同带来的差异。Z-score标准化基于用户的预测评分同样地,基于物品的预测评分基于近邻的协同过滤效率:基于物品的推荐,大部分计算(如批量构建相关项目)可离线完成,并通过一系列的查询快速生成推荐基于用户的推荐vs基于物品的推荐准确性:对于用户数量大于物品数量的推荐系统(如A),基于物品的推荐方法更加准确,而对于物品数量远大于用户数量的推荐系统(如新闻、博客或微内容),基于用户的推荐更加准确解释性:基于物品的推荐方法易于证明推荐的合理性,预测中用到的近邻物品列表以及相似度权重,都可作为推荐结果的解释提供给用户。惊喜度:基于用户的推荐能够产生更加新颖的推荐。基于近邻的协同过滤当物品内容不完全或难以获得时,仍可通过其他用户的反馈来进行推荐。优点基于用户的推荐和基于物品的推荐以用户对物品的评价为基础,而不仅仅依赖可能会干扰判断的内容可推荐内容差异很大的物品基于近邻的协同过滤基于历史数据进行推荐,对新物品和新用户都有“冷启动”问题。缺点基于近邻的协同过滤对稀疏数据敏感:数据稀疏时,两个用户或物品之间很难有相同的评分,预测评分时仅使用了很少量有限的近邻。覆盖受限:仅仅被近邻用户评价过的物品才会被推荐;有些用户没有共同评分但依然有相似爱好。基于模型的协同过滤隐式语义模型(LFM)隐语义模型(LFM,LatentFactorModel)通过对用户和物品的因式分解(MF,MatrixFactorization),找到各自的隐含特征,进而将二者联系起来。每个用户都有自己的偏好,如张三喜欢小清新、带有吉他伴奏、王菲等因子,如果一首歌带有这些因子,则可将这首歌推荐给该用户,也就是用因子去连接用户和音乐不能靠由单个人的主观想法建立起来的分类标准对全部用户喜好进行标准化。基于模型的协同过滤隐式语义模型(LFM)
基于模型的协同过滤隐式语义模型(LFM)用户因子矩阵P物品因子矩阵Q数据来源:互联网基于模型的协同过滤首先建立用户的评分矩阵求解分解方案数据来源:互联网基于模型的协同过滤隐式语义模型(LFM)
梯度下降法求解
LFMvs基于近邻的协同过滤LFM和基于近邻的协同过滤算法比较1.UserCF和ItemCF的空间复杂度较大。2.离线计算时间两者相当,LFM会更加费时,但是没有质的差别。3.LFM给用户推荐列表结果比较慢,不适合实时系统。如果应用在实时系统,也是先用别的方法给用户一个小的结果集合,然后LFM再优化排序。4.ItemCF有很好的推荐理由,UserCF和LFM则没有。5.数据集稀疏的时候LFM的性能会明显下降。推荐系统评估评分预测准确度均方根误差(RMSE)平均绝对误差(MAE)推荐系统评估排序预测令
是预测得到的推荐列表,而
是用户真实的产品偏好列表,则推荐结果的查全
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物(河南、云南、贵州、甘肃专用)(全解全析)-2026年高考考前预测卷
- 世界经济论坛WEF:扭转局势:金融家投资蓝碳生态系统指南
- 自动化回归测试脚本维护规范
- 隧道施工洞室通风安全管理方案
- 术后犬患回访关怀制度规范
- 纸质档案迁移安全保障规范
- 跨平台兼容性测试覆盖要求规范
- 成品保护测控施工技术交底方案
- 病房医院感染监测实施方案
- 临边洞口防护安全文明管理制度
- 2026四川达州市通汇科创集团有限公司招聘工作人员18人备考题库附答案详解(突破训练)
- 2026山西地质集团春季校园招聘183人建设笔试备考试题及答案解析
- 2026年哈尔滨市47中学九年级下学期中考一模语文试卷及答案
- 2026“才聚齐鲁成就未来”山东省征信有限公司社会招聘18人备考题库【含答案详解】
- 2025-2030中国全断面隧道掘进机(TBM)发展现状调研及前景趋势洞察报告
- 2026年中国民航信息集团工作人员招聘考试笔试试题(含答案)
- 四川省成都市高2026年中考模拟物理试题八套附答案
- GB/T 47258-2026气瓶阀门防护帽和防护罩设计、制造与试验
- 2025年杭州市西湖区辅警考试公安基础知识考试真题库及答案
- 2026平安银行石家庄分行橙光实习生招聘考试参考试题及答案解析
- 2026年商丘职业技术学院单招职业适应性测试题库含答案详解(能力提升)
评论
0/150
提交评论