大数据存储与处理-推荐系统.ppt

上传人：q*** IP属地：江苏上传时间：2020-05-20 格式：PPT 页数：78 大小：4.02MB 积分：30 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第九章推荐系统,推荐系统模型基于内容的推荐协同过滤潜在因素模型,推荐系统模型,从稀缺到丰富：推荐的需求,传统零售商的货架空间是稀缺资源还包括:TVnetworks,movietheaters,网络使零成本产品信息传播成为可能从稀缺到丰富,TheLongTail,Rhapsody：onlinemusicserviceWal-Malt:offlinesupermarket,PhysicalvsOnline,Read,推荐,Items,Products,websites,blogs,newsitems,推荐类型,编辑收藏列表要目列表简单汇聚Top10,最流行,最新上载为每个用户定制Amazon,Netflix,严格模型,X用户集S项目集效用矩阵UtilityMatrix效用函数Utilityfunctionu:R评分集,完全有序集例如,0-5星,0,1之间的实数,关键问题,收集已知评分形成R矩阵如何收集效用矩阵中的数据根据已知的评分推断未知的评分主要对未知的高评分感兴趣，只关心用户喜欢什么评估推断方法如何衡量推荐方法的性能,评分的收集,显式评价要求用户对项目给出评分实际中不太可行困扰用户隐式评价从用户的行为中学习其评分e.g.,购买意味着高评分什么代表低评分呢?,效用的推断,关键问题:效用矩阵U稀疏大多数人没有评价过大多数项目冷启动新的项目没有评分新的用户没有历史3种方法基于内容Content-based协同过滤CollaborativeFiltering基于潜在因素（隐变量）Latentfactorbased,基于内容的推荐系统,基于内容的推荐,主要思想:向用户C推荐与她评分高（喜欢）项目相类似的项目例子：电影推荐推荐相同演员、导演、流派Websites,blogs,news推荐类似内容的网页,推荐的过程,likes,Itemprofiles,RedCirclesTriangles,Userprofile,match,recommend,build,项模型itemprofile,对每个项目建立一份itemprofileProfile是特征features的集合movies:author,title,actor,director,text:setof“important”wordsindocument文本特征关键词常用的启发式方法是TF.IDF(TermFrequencytimesInverseDocFrequency)非文本项目特征困难邀请用户进行标记Tag（词语、短语）,SunsetatMalibu,Tiananmensquare,Recap：TF.IDF,fij文档j中词项i出现的频次ni=包含词项i的文档数N=文档数TF.IDF分值wij=TFijIDFiDocprofile=有最高TF.IDF值的词汇及其对应分数的集合,Note:wenormalizeTFtodiscountfor“longer”documents,用户模型Userprofiles,Userprofile：反映用户的特征偏好根据项模型统计用户评过项目的项目profile加权平均启发式预测给定用户模型x，项目模型i,估计用户x对于项目i的效用值,基于内容方法的优点,不需要其他用户的数据没有冷启动或者稀疏性的问题能给品味一致的用户推荐能给新项目或不流行项目推荐没有第一个评价者的问题能够提供解释可以对推荐项目给出对应的内容特征描述,基于内容方法的缺点,找到适当的特征是困难的e.g.,images,movies,music过度集中不会推荐用户内容偏好模型之外的项目人们可能有多方面的兴趣不能利用其它用户的优质判断对新用户的推荐如何给新用户建立模型?,协同过滤collaborativefiltering,协同过滤,考虑用户x找到与x有相似评分的用户集合N根据N中用户的评分估计x的评分,相似的用户,令rx为用户x的评分矢量Jaccard相似度问题：忽略了评分的分值余弦相似度Cosinesimilaritymeasure问题：将缺失项目视为“否定”皮尔森相关系数PearsoncorrelationcoefficientSxy=用户x和用户y共同评价过的项目集合,缺失=否定？,直觉:sim(A,B)sim(A,C)，但是Jaccardsimilarity:1/50.322(接近)原因：将缺失分量视为“否定”（取0值，意味最低评价）解决措施:减去(行)均值中心化,simA,Bvs.A,C:0.092-0.559,注意：cosinesim.在以零为中心时，就是相关系数,评分预测,rx：为用户x的评分矢量N：为对项目i的评分与用户x最相似的k个用户的集合用户x对项目s的评分预测其他方法?,基于项目的协同过滤Item-ItemCF,除了user-user，有另一个角度：item-item对项目i,寻找其他相似的项目根据相似项目的评分估计项目i的评分可以采用类似user-usermodel的相似度测度,CF：基本操作,定义项目i和j的相似度sij选择k个最近邻居N(i;x)用户x评价过的最类似i的项目以加权平均估计评分rxi,Item-ItemvsUser-User,实际中，item-item比user-user的效果好原因？Item更简单，user往往有多重品味,CF的优缺点,适合于任何item不需要特征选择ColdStart:需要系统中有足够的用户进行匹配稀疏性:ratings矩阵稀疏，难以发现评价过相同项目的用户第一个评价者无法推荐一个没有被评价过的项目，新项目,隐秘项目流行度偏差无法给只有单一口味的用户推荐项目倾向于推荐流行项目,混合方法,实现两种或多种不同的推荐方法，并组合预测结果比如用线性组合将基于内容的方法与CF相结合建立itemprofile解决新item问题利用人口统计信息解决新用户问题,评估及实际问题,评估预测性能,对比预测值与已知的评分Root-mean-squareerror(RMSE)Precisionattop10Rankcorrelation另一种方法:0/1model覆盖度系统能够预测的items/users数量精确度预测的精度受试者工作特征Receiveroperatingcharacteristic(ROC)虚报率falsepositives与漏报率falsenegatives之间的均衡曲线,错误测度的问题,有时狭隘地关注精度没有意义PredictionDiversity预测多样性PredictionContext预测情境Orderofpredictions预测顺序实际上仅仅关注对高分的预测RMSE可能会对一个高分预测好低分预测差的方法不利,CF：复杂度,最费时的步骤是找到k个最相似的用户:O(|X|)无法实时完成可以预先计算Navepre-computationtakestimeO(N|C|)大数据处理方法高维数据中的最近邻居搜索(LSH)聚类Clustering降维Dimensionalityreduction,潜在因素模型Latentfactormodels,NetflixPrize,Trainingdata100millionratings,480,000users,17,770movies6yearsofdata:2000-2005TestdataLastfewratingsofeachuser(2.8million)Evaluationcriterion:rootmeansquarederror(RMSE)NetflixCinematchRMSE:0.9514Competition2700+teams$1millionprizefor10%improvementonCinematch,TheNetflixUtilityMatrixR,UtilityMatrixR:Evaluation,BellKorRecommenderSystem,Netflix挑战赛的获胜者对数据的多尺度建模全局特征Globaleffects用户/电影的总体偏差区域特征RegionaleffectsFactorization局域特征LocalpatternCF,Globaleffects,Factorization,Collaborativefiltering,本地及全局特征的模型化,全局电影的平均评分：3.7星电影TheSixthSense的评分比均值高0.5星用户Joe的评分比均值低0.2星基本估计（baseline）：Joe对TheSixthSense评分4星局域（CF/NN）Joe不喜欢相关的电影Signs最终估计：Joe对TheSixthSense评分3.8星,回顾：协同过滤CF,最早的最流行的CF方法根据相似的电影推测未知的评分(item-itemvariant)定义i,j两个item的相似度sij选择k个最近邻居，计算ratingN(i;x):用户x评价过的与i最接近的项目集合,改进评分估计,引入全局偏置量,插入权重值,采用加权和代替加权平均值(;)：用户x评价过的类似电影i的电影集合：插入权重(实数值)允许(,)模拟电影对的关系(不依赖于用户x),如何确定插入权值,误差测度SSE(SumofSquares)在训练数据上找到令SSE最小的权值模拟itemi与其邻居j的关系可以根据用户x和评价过i的所有其他用户学习/估计,用最优化求解推荐问题,目标：好的推荐用SSE评价优度SSE最小化对用户未评价过的项目进行好的推荐很难实际实现选择w矩阵,使其对已知的(user,item)rating的最优期望此w对未知的rating也有好的预测性能如何确定w的取值？思路：确定目标函数，求解最优化问题在训练数据上找到使SSE最小的wij,梯度下降法求解最优的w,Iterateuntilconvergence:whereisgradient(derivativeevaluatedondata):,Nabla,目标：最小化SSE,求解（学习）权值小结,求解权值基于角色确定权重wij取值，不用任意的相似度显式地考虑相邻电影的相互关系下一步：LFM提取区域关系,LFM,LFM,RQPTR有一些缺失项，暂时忽略现在的目标是对已知的评分重建误差最小可以近似视为“SVD(SingularValueDecomposition)”,SVD:A=UVT,评分=Factor的乘积,如何估计缺失的用户x对项目i的评分值？,评分=Factor的乘积,如何估计缺失的用户x对项目i的评分值？,2.4,LatentFactorModel,LatentFactorModel,回顾：SVD,SVDNetflixdata上A=R，Q=U，PT=VTR还有缺失项,LFM,有缺失项的情况下不能直接用SVD确定P,Q的方法P,Q的列不一定正交或者等长P,Q是users/movies到潜在空间的映射Netflix参赛队中最常用的方法,Factor的数量,目标：对不可见的测试数据最小化SSE思想：在训练数据上最小化SSEWantlargef(#offactors)tocaptureallthesignalsBut,SSEontestdatabeginstoriseforf2Regularizationisneeded!AllowrichmodelwheretherearesufficientdataShrinkaggressivelywheredataarescarce,梯度下降,找到最优的矩阵P和Q,满足,Iterativeoptimizer,随机梯度下降,随机梯度下降SGD,LFM中引入偏差因素,Baseline预测：根据统计平均和用户及项目偏差，直接估计用户x对电影i的评分预测总的评价均值,用户x的偏差bx,项目i的偏差bi在LFM中引入baselineprediction,Baseline,适

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据存储与处理-推荐系统.ppt

文档简介

温馨提示

最新文档

评论

大数据存储与处理-推荐系统.ppt

文档简介

温馨提示

最新文档

评论

相关文档