版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
切都围绕它来进基于的协同过滤,现在看上去极其简单,就是记住每个人消费过什么东西,然后给他推荐相似的东西,或者推荐相似的人消费的东西。基于模型的协同过滤则是从用户物品关系矩阵中去学个模型,从而把那些矩阵空白处填满。的协同过滤的一种——基于用户,或者叫做User-Based,UsertoUser。你有没有过这种感觉,你遇到一个人,你发现他喜欢的书、喜欢的也基本上都是你喜欢的,从此以后,你就想老是想问他:还有什么好推荐的,最近又看了什么书,最近又看了什么?甚至不惜和他撞衫,和他穿一个风格的衣服。对喽,这个感觉非常地自然直接,它就是基于用户的协同过滤背后思想。详细来说就是:先根据历史消费行为帮你找到一群和你口味很相似的用户;然后根据这些和你很相似的用户再消费了什么新的、你没有见过的物品,都可以推荐给你。其实也是一个给用户聚类的过程,把用户按照口味聚类成不同的群体,给用户产生的起来很直接简单的事情。这关系到一个用户会跟哪些人在同一个房间内,万一进错了房间,影响就会不好。向量维度上的取值可以是简单的0或者1,也就是布尔值,1表示喜欢过,0表示没有,当然因为是稀疏向量,所以取值为0的就忽略了。这个也是很简单的。等号左边就是计算一个物品i和一个用户u的匹配分数,等号右边是这个分数的计算过程,分母是把和用户u相似的n个用户的相似度加起来,分子是把这n个用户各自对物品i的态度,按照相似度求和。01,1,01是0。这里介绍典型的稀疏矩阵格式。这些格式,在常见的计算框架里面都是标准的,如Spark中,Python的NumPy包2对向量采样计算。道理很简单,两个一百维的向量计算出的相似度是0.7些精度的损失,不用100100.72,1000.70.72差也不大,后者更经济。这个算法由提出,叫做DIMSUM算法,已经在Spark中实现了。Python的NumPy。第一个办法是:将相似度计算拆成MapReduce任务,将原始矩阵Map成键为用户对,值为两个用户对同一个物品的评分之积,ReduceMapReduce任然后矩阵又是稀疏的,那么有很多单机版本的工具其实更快,比如KGraph、GraphCHI3得到了用户之间的相似度之后。接下来还有一个硬骨头,计算推荐分数。显然,为每一个用户计算每一个物品的推荐分数,计算次数是矩阵的所有元素个数,这个代价,你当然不能接。这,你回想前面汇总,有几个我们来利下:把计算过程拆成MapReduce任务。拆MapReduce任务的做法是:MapID,物品1>三元组,可以拼成一个字符串,值为<相似度>,另一个是键为<相似用户ID,物品ID,0>三元组,值为<喜欢程度*相似度>,其中的1和0为了区分两者,在最后ReduceID,物品ID,0>ID,物品ID,1>MapReduceHadoopSpark因为一个Map过程,其实就是将原来耦合的计算过程解耦合了、拍扁了,这样的话我们可以利用多线程技术实现Map效果。例如C++里面OpenMP库可以让我们无痛使用多线4惩罚对热门物品的喜欢程度,这是因为,热门的东西很难反应出用户的真实,可能是被,或者无聊随便点击的情形,这是群体行为常见特点;场景中应用更佳,在这样的场景下,不受大V影响,更能反应真实的群体,而非被煽今天,我与你聊了基于用户的协同过滤方法,也顺带普及了一下协同过滤这个大框架的思 售卖。页面已增加防盗追踪,将依 上一 下一 11Citi 张
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 架线维护工安全宣贯模拟考核试卷含答案
- 兽医化验员岗前实操效果考核试卷含答案
- 钢水罐准备工安全生产能力强化考核试卷含答案
- 木屋架工操作管理考核试卷含答案
- 26年VEGFR表达检测与用药适配
- 26年ECOG评分关联核心要点
- 2025年医保知识考试题库及答案:医保患者权益保障政策解读试题答案
- 八年级地理下册期末测试卷
- 2023年军队文职人员公开招聘笔试《戏剧与影视》押题卷(含答案)
- 2026年测绘无人机操作员高级工模拟试卷及参考答案
- 垃圾清运服务投标方案技术方案
- 海运公司船员合同
- JT-GQB-008-1996公路桥涵标准图整体式钢筋混凝土连续板桥上部构造
- 跳远 教案(大学体育专业)
- 23悬挑花架梁悬挑支模架专项施工方案
- (高清版)DZT 0279.32-2016 区域地球化学样品分析方法 第32部分:镧、铈等15个稀土元素量测定 封闭酸溶-电感耦合等离子体质谱法
- 工程管理的前沿研究方向
- 脑机接口在医疗中的应用
- ISO27001-2022信息安全管理体系内审全套记录表格
- NY/T 388-1999畜禽场环境质量标准
- LY/T 1000-2013容器育苗技术
评论
0/150
提交评论