研究生大数据应用 推荐系统_第1页
研究生大数据应用 推荐系统_第2页
研究生大数据应用 推荐系统_第3页
研究生大数据应用 推荐系统_第4页
研究生大数据应用 推荐系统_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

推荐系统,1,推荐系统模型基于内容的推荐协同过滤潜在因素模型,2,推荐系统模型,3,从稀缺到丰富:推荐的需求,传统零售商的货架空间是稀缺资源还包括:TVnetworks,movietheaters,网络使零成本产品信息传播成为可能从稀缺到丰富,TheLongTail,Rhapsody:onlinemusicserviceWal-Malt:offlinesupermarket,PhysicalvsOnline,5,Read,推荐,6,Items,Products,websites,blogs,newsitems,推荐类型,编辑收藏列表要目列表简单汇聚Top10,最流行,最新上载为每个用户定制Amazon,Netflix,形式化模型,X用户集S项目集效用矩阵UtilityMatrix效用函数Utilityfunctionu:R评分集,完全有序集例如,0-5星,0,1之间的实数,关键问题,收集已知评分形成R矩阵如何收集效用矩阵中的数据根据已知的评分推断未知的评分主要对未知的高评分感兴趣,只关心用户喜欢什么评估推断方法如何衡量推荐方法的性能,评分的收集,显式评价要求用户对项目给出评分实际中不太可行困扰用户隐式评价从用户的行为中学习其评分e.g.,购买意味着高评分什么代表低评分呢?,效用的推断,关键问题:效用矩阵U稀疏大多数人没有评价过大多数项目冷启动新的项目没有评分新的用户没有历史3种方法基于内容Content-based协同过滤CollaborativeFiltering基于潜在因素(隐变量)Latentfactorbased,基于内容的推荐系统,12,基于内容的推荐,主要思想:向用户C推荐与她评分高(喜欢)项目相类似的项目例子:电影推荐推荐相同演员、导演、流派Websites,blogs,news推荐类似内容的网页,13,推荐的过程,likes,Itemprofiles,RedCirclesTriangles,Userprofile,match,recommend,build,项模型itemprofile,对每个项目建立一份itemprofileProfile是特征features的集合movies:author,title,actor,director,text:setof“important”wordsindocument文本特征关键词常用的启发式方法是TF.IDF(TermFrequencytimesInverseDocFrequency)非文本项目特征困难邀请用户进行标记Tag(词语、短语),SunsetatMalibu,Tiananmensquare,Recap:TF.IDF,fij文档j中词项i出现的频次ni=包含词项i的文档数N=文档数TF.IDF分值wij=TFijIDFiDocprofile=有最高TF.IDF值的词汇及其对应分数的集合,Note:wenormalizeTFtodiscountfor“longer”documents,用户模型Userprofiles,Userprofile:反映用户的特征偏好根据项模型统计用户评过项目的项目profile加权平均启发式预测给定用户模型x,项目模型i,估计用户x对于项目i的效用值,基于内容方法的优点,不需要其他用户的数据没有冷启动或者稀疏性的问题能给品味一致的用户推荐能给新项目或不流行项目推荐没有第一个评价者的问题能够提供解释可以对推荐项目给出对应的内容特征描述,18,基于内容方法的缺点,找到适当的特征是困难的e.g.,images,movies,music过度集中不会推荐用户内容偏好模型之外的项目人们可能有多方面的兴趣不能利用其它用户的优质判断对新用户的推荐如何给新用户建立模型?,19,协同过滤collaborativefiltering,20,协同过滤,考虑用户x找到与x有相似评分的用户集合N根据N中用户的评分估计x的评分,21,相似的用户,令rx为用户x的评分矢量Jaccard相似度问题:忽略了评分的分值余弦相似度Cosinesimilaritymeasure问题:将缺失项目视为“否定”皮尔森相关系数PearsoncorrelationcoefficientSxy=用户x和用户y共同评价过的项目集合,缺失=否定?,直觉:sim(A,B)sim(A,C),但是Jaccardsimilarity:1/50.322(接近)原因:将缺失分量视为“否定”(取0值,意味最低评价)解决措施:减去(行)均值中心化,23,simA,Bvs.A,C:0.092-0.559,注意:cosinesim.在以零为中心时,就是相关系数,评分预测,rx:为用户x的评分矢量N:为对项目i的评分与用户x最相似的k个用户的集合用户x对项目s的评分预测其他方法?,基于项目的协同过滤Item-ItemCF,除了user-user,有另一个角度:item-item对项目i,寻找其他相似的项目根据相似项目的评分估计项目i的评分可以采用类似user-usermodel的相似度测度,26,27,28,29,30,CF:基本操作,定义项目i和j的相似度sij选择k个最近邻居N(i;x)用户x评价过的最类似i的项目以加权平均估计评分rxi,31,Item-ItemvsUser-User,实际中,item-item比user-user的效果好原因?Item更简单,user往往有多重品味,32,CF的优缺点,适合于任何item不需要特征选择ColdStart:需要系统中有足够的用户进行匹配稀疏性:ratings矩阵稀疏,难以发现评价过相同项目的用户第一个评价者无法推荐一个没有被评价过的项目,新项目,隐秘项目流行度偏差无法给只有单一口味的用户推荐项目倾向于推荐流行项目,混合方法,实现两种或多种不同的推荐方法,并组合预测结果比如用线性组合将基于内容的方法与CF相结合建立itemprofile解决新item问题利用人口统计信息解决新用户问题,评估及实际问题,35,36,37,评估预测性能,对比预测值与已知的评分Root-mean-squareerror(RMSE)Precisionattop10Rankcorrelation另一种方法:0/1model覆盖度系统能够预测的items/users数量精确度预测的精度受试者工作特征Receiveroperatingcharacteristic(ROC)虚报率falsepositives与漏报率falsenegatives之间的均衡曲线,错误测度的问题,有时狭隘地关注精度没有意义PredictionDiversity预测多样性PredictionContext预测情境Orderofpredictions预测顺序实际上仅仅关注对高分的预测RMSE可能会对一个高分预测好低分预测差的方法不利,CF:复杂度,最费时的步骤是找到k个最相似的用户:O(|X|)无法实时完成可以预先计算Navepre-computationtakestimeO(N|C|)大数据处理方法高维数据中的最近邻居搜索(LSH)聚类C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论