




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
推荐系统介绍协同过滤的方法:最近邻域和矩阵分解我们正在离开信息时代,而进入推荐时代。”像许多机器学习技术一样,推荐系统根据用户的历史行为进行预测。具体来说,是根据过去的经验来预测用户对一组商品的偏好。要构建推荐系统,最流行的两种方法是基于内容的过滤和协作过滤。基于内容的方法需要大量项目自身功能的信息,而不是使用用户的交互和反馈。例如,它可以是电影属性(例如流派,年份,导演,演员等)或可以通过应用自然语言处理提取的文章的文本内容。另一方面, 协作过滤除了用户对一组项目的历史偏好之外,不需要任何其他操作。因为它是基于历史数据的,所以这里的核心假设是,过去已经同意的用户将来也会倾向于也同意。就用户偏好而言,它通常由两类表示。明确评分,是用户按滑动比例对某项商品的价格,例如泰坦尼克号的评分为5星。这是用户最直接的反馈,表明他们对商品的喜爱程度。隐含评价,间接建议用户偏好,例如页面浏览量,点击次数,购买记录,是否收听音乐曲目等等。在本文中,我将仔细研究协作过滤,它是推荐系统的传统且功能强大的工具。最近的邻居协作过滤的标准方法称为 最近邻算法”有基于用户的CF和基于项目的CFo让我们先来看看基于用户的CF。我们有一个nXm的评分矩阵,用户u?i=1,...n,项目p?,j=1,…m。现在,如果目标用户i没有对项目j进行观看/评分,我们现在要预测评分r??o该过程将计算目标用户i与所有其他用户之间的相似度,选择排名靠前的 X个相似用户,并将来自这X个具有相似性的用户的评分的加权平均值作为权重。£Si>nilaries(uituk)r^_ numberofratings
尽管不同的人给出评分时可能会有不同的基准,但是有些人通常会给出高分,有些人即使对项目感到满意也很严格。为了避免这种偏差,我们可以在计算加权平均值时减去每个用户对所有项目的平均评分,然后将其加回到目标用户身上,如下所示。工 一rA)numberofratingsnumberofratings计算相似度的两种方法是皮尔森相关和余弦相似度£(%-巧)(晌-和)PearsonCorrelation: u*)=―' mXrijrk))=1J一mXrijrk))=1CosineSimilarity:Sim(旳,u±)= I你叭I基本上,该想法是找到与您的目标用户(最接近的邻居)最相似的用户,并权衡他们对某项的评价,以此作为对目标用户的评价。
在不了解商品和用户本身的情况下,我们认为两个用户在给同一个商品相似的评分时是相似的。类似地,对于 基于项目的CF,我们说两个项目在收到来自同一用户的相似评分时是相似的。然后,我们将通过计算来自该用户的大多数 X个类似商品的评分的加权平均值,来预测该商品的目标用户。基于项目的CF的一个关键优势是稳定性,即与人类的口味不同,给定项目的评级不会随着时间的推移而发生显着变化。similar^similar^recommend此方法有很多限制。当附近没有人对您要为目标用户预测的商品进行评分时,它不能很好地处理稀疏性。而且,随着用户和产品数量的增长,它的计算效率也不高。矩阵分解由于稀疏性和可伸缩性是标准CF方法的两个最大挑战,因此出现了一种更高级的方法,该方法将原始稀疏矩阵分解为具有潜在因子/特征且稀疏性较低的低维矩阵。那就是矩阵分解。除了解决稀疏性和可伸缩性问题之外,还有一个直观的解释,说明为什么我们需要低维矩阵来表示用户的偏好。用户对电影《阿凡达》,《重力》和《盗梦空间》给予了很高的评价。它们不一定是3个独立的意见,而是表明该用户可能更喜欢科幻电影,并且该用户可能想要更多的科幻电影。与特定电影不同,潜在功能由更高级别的属性表示,在这种情况下,科幻类别是潜在功能之一。矩阵分解最终给我们的是用户与一组潜在特征对齐的程度,以及一部电影在这组潜在特征中的适应程度。与标准最近邻区相比,它的优势在于,即使两个用户未对任何一部电影进行评级,但如果他们共享相似的基本口味(又是潜在特征),仍然有可能找到它们之间的相似性。要了解矩阵如何分解,首先要了解的是奇异值分解(SVD)。基于线性代数,可以将任何实矩阵R分解为3个矩阵U,艺和V。以电影示例为例,U是nXr用户潜伏特征矩阵,V是mKr电影潜伏特征矩阵。艺是一个rM对角
矩阵,包含原始矩阵的奇异值,仅表示特定功能对预测用户偏好的重要性。R=LFLVtUG ZeIRrx\VGIRrxm为了通过减少绝对值对艺的值进行排序并将矩阵艺截断为前k个维(k个奇异值),我们可以将矩阵重构为矩阵 A。选择k应该确保A能够捕获最大的方差在原始矩阵 R内,A是R的近似值,A〜R。A和R之间的差是期望最小化的误差。这正是主成分分析的思想。片 ■片 ■5nxmnxkWk Xkkxkkxm当矩阵R是致密的时,U和V可以很容易地解析分解。但是,电影分级矩阵超级稀疏。尽管存在一些填补缺失值的插补方法,但我们将转向一种编程方法,以仅使用那些缺失值并找到因子矩阵U和V。我们尝试通过以下方法直接找到U和V,而不是通过SVD对R进行因子分解。目的是当U
和V相乘时,输出矩阵R'是R的最近似值,而不再是稀疏矩阵。对于推荐系统,通常使用非负矩阵分解实现此数值近似,因为评级中没有负值。请参阅下面的公式。查看特定用户和项目的预测评级,将项目i记为向量q?将用户u标记为向量p?,以使这两个向量的点积为用户u对项目i的预测评级。该值显示在矩阵R'中的第u行和第i列。PredictedRatings:略=p[qiLatentFeature-k=4LL02113°003DI□113Q10我们如何找到最优q?和p??像大多数机器学习任务一样,定义了损失函数以最大程度地减少错误的成本。nin2\(rui-pLq^T十久(1阮卩+1切1卩)r??是原始用户项目矩阵的真实评级。优化过程是找到由向量p?组成的最优矩阵P和由向量q?组成的矩阵Q,以使预测等级r??与真实等级r??之间的平方和误差最小。此外,还添加了L2正则化以防止用户和项目向量的过拟合。添加偏差项也很常见,该偏差项通常包含 3个主要成分:所有项目的平均评级血项目i的平均评级减去 卩(表示为b?),用户给定的平均评级为 u减去u(表示为b?。min》^(尸历一(puG+m+虬+加))"+A(llpMII*-+1切1卜+忧;+牛)优化一些优化算法已广泛用于解决非负因式分解。 替代最小二乘是其中之一。由于损失函数在这种情况下是非凸的,因此无法达到全局最小值,而通过找到局部最小值仍可以达到很大的近似值。备选最小二乘保持用户因子矩阵恒定,通过采用损失函数的导数并将其设置为 0来调整项目因子矩阵,然后在调整用户因子矩阵时将项目因子矩阵设为恒定。通过来回切换和调整矩阵来重复此过程,直到收敛为止。如果应用Scikit-IearnNMF模型,您将看到ALS是要使用的默认求解器,也称为坐标下降。 Pyspark还提供了非常简洁的分解包,可为ALS本身提供更大的调整灵活性。协作过滤为推荐系统提供强大的预测能力,并且同时需要最少的信息。但是,它在某些特定情况下有一些限制。首先,由于没有元数据的与内容相关的属性,因此潜在特征表达的基本口味实际上是无法解释的。对于电影示例,在我的示例中不一定像科幻小说那样。可能是配乐的动机,情节的好坏等等。协作式筛选缺乏此级别信息的透明度和可解释性。另一方面,协作过滤面临冷启动。当有新项目进入时,直到必须由大量用户对其进行评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广告设计师考试2024年理念更新与市场反馈试题及答案
- DB42-T 2352-2024 道路沥青红外光谱法快速识别技术规程
- 体育院校的试题及答案
- 纺织品设计师考试中需要特别注意的事项试题及答案
- 2024年广告设计趋势的创新探讨试题及答案
- 总结过去纺织工程师考试的趋势分析试题及答案
- 广告设计师如何抓住2024年考试机遇试题及答案
- 品牌故事的价值创造试题及答案
- 护理考试试题及答案高中
- 服装成型加工工艺试题及答案
- 体外高频热疗的护理
- JGJ79-2012 建筑地基处理技术规范
- 海康威视校招在线测评题库
- 新编酒水知识与调酒
- 电网两票培训课件
- 班级管理《班主任经验交流》课件
- 预防机车车辆伤害培训课件
- 《土地集约利用》课件
- 2024老旧小区改造质量验收规范
- 小学英语(完整版)现在进行时练习题附答案
- 《画几何图形》教学课件
评论
0/150
提交评论