版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、推荐算法之潜在因子(Latent Factor)算法这种算法是在NetFlix (没错,就是用大数据捧火纸牌屋的那家公司)的推荐算法竞赛中获奖的 算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的邰原朗所介绍的算法 误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、 王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也 就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样
2、。我们 希望能找到这样两个矩阵:一,用户-潜在因子矩阵Q,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。 比如下面这样:二,潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清 新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2小清新重口味优雅伤感五月天音乐A0. 90. 10.20. 40音乐B0. 50.60. 10. 91音乐C0.10.20.50.10音乐D00.60. 10. 20利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好*音乐A含有小清新 的成分+
3、对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+小清新重口味优雅伤感五月天音乐A0. 90. 10.20. 40即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵。(注,这里的破浪线 表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):音乐A音乐B音乐C音乐D张三0. 68L 58280.51李四0.310. 430.470.11王五L06L570. 730. 69因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。 如果用矩
4、阵表示即为:下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获 得的数据只有用户行为数据。我们沿用邰原朗的量化标准:单曲循环=5,分享=4,收藏=3,主动播 放=2 ,听完=1,跳过=-2,拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个 样子:音乐音乐2音乐3音乐4音乐5音乐6音乐7音乐用户15 5用户23用户312-54用户4443凌用户55-5543用户64用户7我5用户8-255事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利
5、用这个矩 阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维 度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就 可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解 成为这样两个矩阵:因予2园于M国的用户 1 0.W8(X642 用户2。里77 0.620 用户3 0.768 0lW3 用户4 0舶3场03 用户 5 &847用户6 tkfi朋0
6、.62S 阶7 W70 Cu615 用声8 0.870 06210524 0454 0.406 0.506 0.438 0.392 0.443 0384 0.344 。崩9。显6 0.3&1 0.489 0.424 0.379 0.510 04d2 0.395 2海。书5 0海0.507 枇439 0.352音乐音乐2音队 1.914 0.913 注0L64S 任6 0.52$ 怂/ 0.5. 0457 0456 U.4 0仙 040 g这两个矩阵相乘就可以得到估计的得分矩阵:音乐音乐3音乐4音乐5音乐6音乐7HP12.102.0S2.12典2.12用户22.032.032.011.892.002.04用户a1.781.781.801.9&1.341.95用户51.9&1-98193鬲户62.0S2042.061玩2.06有户了2.02ZOO2.031.872.03用户82.032.01Z051.892.04将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。在这个例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年底层逻辑安全培训内容班组
- 2026年实战手册秋季防火安全培训内容
- 2026年煤矿岗位安全培训内容进阶秘籍
- 2026年特种安全培训内容全套攻略
- 南宁市上林县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 潮州市潮安县2025-2026学年第二学期五年级语文第六单元测试卷(部编版含答案)
- 锦州市凌河区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 曲靖市富源县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 泰安市新泰市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 巴音郭楞蒙古自治州和硕县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 汇率制度与汇率政策
- 《工程结构抗震设计》课件 第1章地震工程基础知识
- 钱钟书《吃饭》赏析
- 说课《建筑装饰施工技术》 课件
- 中药学电子版教材
- 完整版检验员考核表
- 长宁区2022年中考数学九年级二模考试试卷及答案
- GB/T 8918-2006重要用途钢丝绳
- GB/T 4798.7-2007电工电子产品应用环境条件第7部分:携带和非固定使用
- 中国心衰中心建设标准和流程精选课件
- GB 26687-2011食品安全国家标准复配食品添加剂通则
评论
0/150
提交评论