




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贵州大学计算机科学与技术学院主讲人:牛俊洁,协同过滤推荐,BIGDATE,目录,为了让推荐结果符合用户口味,我们需要深入了解用户。最理想情况是用户注册的时候主动告诉我们他喜欢什么。数据挖掘的经典案例啤酒和尿布这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。对用户行为进行深度分析,去发现用户行为数据中那些不是显而易见的规律。,BIGDATE,用户行为分析的重要性,基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。,BIGDATE,协同过滤算法的定义,在网站上最简单的存在形式就是日志。,BIGDATE,用户行为数据简介,原始日志(rawlog),会话日志(sessionlog),展示日志(impressionlog),点击日志(clicklog),HadoopHiveGoogleDreme,显性反馈行为。不同的显性反馈系统根据网站自己的特点设计评分系统。隐形反馈行为。隐形反馈系统最具代表的就是页面浏览行为。,BIGDATE,用户行为分类,各个领域中这两种行为的例子,BIGDATE,用户行为的统一表示,无上下文信息的隐形反馈数据集无上下文信息的显性反馈数据集有上下文信息的隐性反馈数据集有上下文信息的显性反馈数据集,数据集代表,Book-Crossing,NetflixPrize,Lastfm,用户活跃度和物品流行度分布:很多关于互联网数据的研究发现,互联网上的很多数据分布都满足一种称为PowerLaw的分布,这个分布在互联网领域也叫长尾分布。,BIGDATE,用户行为分析,很多研究人员发现,用户行为数据也蕴含着这种规律。,图2-1,物品流行度的长尾分布,图2-2,用户活跃度的长尾分布,新用户倾向于浏览热门的物品老用户会逐渐开始浏览冷门的物品,BIGDATE,用户活跃度和物品流行度的关系,图2-3,MovieLens数据集中用户活跃度和物品流行度的关系,基于领域的方法隐语义模型基于图的随机游走算法,BIGDATE,协同过滤算法的方法,基于用户的协同过滤算法基于物品的协同过滤算法,BIGDATE,推荐系统的指标,计算和获得这些指标的主要实验方法:离线实验,用户调查,在线实验。离线实验的步骤:1.通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;2.将数据集按照一定的规则分成训练集和测试集;3.在训练集上训练呢用户兴趣模型,在测试集上进行预测;4.通过事先定义的离线指标评测算法在测试集上的预测结果;,Movielens数据集,BIGDATE,实验设计和算法测评,防止某次实验结果过拟合,基于用户的协同过滤算法,BIGDATE,召回率/准确率,BIGDATE,覆盖率,BIGDATE,新颖度,BIGDATE,给用户推荐和他兴趣相似的其他用户喜欢的物品最古老标志绝对性地位基于用户的协同过滤算法主要包括两个步骤。(1)找到和目标用户兴趣相似的用户集合。(2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。,基于用户的协同过滤算法,给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,令N(v)为用户v曾经有过正反馈的物品集合。那么,我们可以通过如下的Jaccard公式简单地计算u和v的兴趣相似度:,BIGDATE,兴趣相似度的计算,或者通过余弦相似度计算:,举例说明UserCF计算用户兴趣相似度。在该例中,用户A对物品a,b,d有过行为,用户B对物品a,c有过行为,利用余弦相似度公式计算用户A和用户B的兴趣相似度为:,BIGDATE,举例说明,BIGDATE,余弦相似度算法的伪代码,缺点:时间复杂度O(|U|*|U|)不必要的计算,很多时候,BIGDATE,倒排表法,得到用户之间的兴趣相似度后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户u对物品i的感兴趣程度:,BIGDATE,用户对物品兴趣程度,BIGDATE,User算法实现,BIGDATE,Usercf算法指标,BIGDATE,用户相似度计算的改进,BIGDATE,方法对比,Book-CrossingDatasetrmatik.uni-freiburg.de/cziegler
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 跨境电商物流体系2025年初步设计评估报告
- 二零二五年度旅游线路开发与代理推广合同
- 二零二五年度二手车买卖双方车辆登记协议
- 二零二五年度KTV消防安全责任书范本
- 2025年度家庭智能设备维护及升级服务合同
- 二零二五年度物流行业点工合同模板
- 2025版吊装设备制造与销售合同范本
- 二零二五年度装配式建筑技术创新房屋修建承包合同范本
- 2025年度民政局版离婚协议书十:婚姻解除合同范本
- 二零二五年度二手空调产品进出口代理合同
- (2025)《中华人民共和国监察法》知识考试题库及参考答案
- 2025广西专业技术人员公需科目培训考试答案
- 汽车维修价格清单表
- GB/T 14976-2012流体输送用不锈钢无缝钢管
- GA 1089-2013电力设施治安风险等级和安全防范要求
- 2022年内蒙古农牧业融资担保有限公司招聘笔试试题及答案解析
- 有机合成工(初级)技能理论考试题库(汇总版)
- 儿科护理学课件-人卫版完整全套配套教材
- 国内桥梁施工事故案例
- 新注聚工艺流程及日常管理课件
- 水稻的一生精选课件
评论
0/150
提交评论