




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贵州大学计算机科学与技术学院主讲人:牛俊洁,协同过滤推荐,BIGDATE,目录,为了让推荐结果符合用户口味,我们需要深入了解用户。最理想情况是用户注册的时候主动告诉我们他喜欢什么。数据挖掘的经典案例啤酒和尿布这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。对用户行为进行深度分析,去发现用户行为数据中那些不是显而易见的规律。,BIGDATE,用户行为分析的重要性,基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。,BIGDATE,协同过滤算法的定义,在网站上最简单的存在形式就是日志。,BIGDATE,用户行为数据简介,原始日志(rawlog),会话日志(sessionlog),展示日志(impressionlog),点击日志(clicklog),HadoopHiveGoogleDreme,显性反馈行为。不同的显性反馈系统根据网站自己的特点设计评分系统。隐形反馈行为。隐形反馈系统最具代表的就是页面浏览行为。,BIGDATE,用户行为分类,各个领域中这两种行为的例子,BIGDATE,用户行为的统一表示,无上下文信息的隐形反馈数据集无上下文信息的显性反馈数据集有上下文信息的隐性反馈数据集有上下文信息的显性反馈数据集,数据集代表,Book-Crossing,NetflixPrize,Lastfm,用户活跃度和物品流行度分布:很多关于互联网数据的研究发现,互联网上的很多数据分布都满足一种称为PowerLaw的分布,这个分布在互联网领域也叫长尾分布。,BIGDATE,用户行为分析,很多研究人员发现,用户行为数据也蕴含着这种规律。,图2-1,物品流行度的长尾分布,图2-2,用户活跃度的长尾分布,新用户倾向于浏览热门的物品老用户会逐渐开始浏览冷门的物品,BIGDATE,用户活跃度和物品流行度的关系,图2-3,MovieLens数据集中用户活跃度和物品流行度的关系,基于领域的方法隐语义模型基于图的随机游走算法,BIGDATE,协同过滤算法的方法,基于用户的协同过滤算法基于物品的协同过滤算法,BIGDATE,推荐系统的指标,计算和获得这些指标的主要实验方法:离线实验,用户调查,在线实验。离线实验的步骤:1.通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;2.将数据集按照一定的规则分成训练集和测试集;3.在训练集上训练呢用户兴趣模型,在测试集上进行预测;4.通过事先定义的离线指标评测算法在测试集上的预测结果;,Movielens数据集,BIGDATE,实验设计和算法测评,防止某次实验结果过拟合,基于用户的协同过滤算法,BIGDATE,召回率/准确率,BIGDATE,覆盖率,BIGDATE,新颖度,BIGDATE,给用户推荐和他兴趣相似的其他用户喜欢的物品最古老标志绝对性地位基于用户的协同过滤算法主要包括两个步骤。(1)找到和目标用户兴趣相似的用户集合。(2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。,基于用户的协同过滤算法,给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,令N(v)为用户v曾经有过正反馈的物品集合。那么,我们可以通过如下的Jaccard公式简单地计算u和v的兴趣相似度:,BIGDATE,兴趣相似度的计算,或者通过余弦相似度计算:,举例说明UserCF计算用户兴趣相似度。在该例中,用户A对物品a,b,d有过行为,用户B对物品a,c有过行为,利用余弦相似度公式计算用户A和用户B的兴趣相似度为:,BIGDATE,举例说明,BIGDATE,余弦相似度算法的伪代码,缺点:时间复杂度O(|U|*|U|)不必要的计算,很多时候,BIGDATE,倒排表法,得到用户之间的兴趣相似度后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户u对物品i的感兴趣程度:,BIGDATE,用户对物品兴趣程度,BIGDATE,User算法实现,BIGDATE,Usercf算法指标,BIGDATE,用户相似度计算的改进,BIGDATE,方法对比,Book-CrossingDatasetrmatik.uni-freiburg.de/cziegler
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年苏州工艺美术职业技术学院长期招聘高层次人才笔试备考题库参考答案详解
- 应急值守人员安全培训课件
- 2025湖南省沅江市中考物理达标测试带答案详解(预热题)
- 2024年安全员考试考试综合练习及参考答案详解【培优A卷】
- 2025银行岗位综合提升测试卷审定版附答案详解
- 秋季腹泻护理中疼痛缓解方法
- 采购代理中介合同(标准版)
- 2024-2025学年广播电视编辑记者试题含答案详解【培优B卷】
- 2025年汽车行业芯片短缺应对策略与汽车租赁市场投资建议报告
- 2025年特色乡村旅游项目旅游品牌形象塑造评估报告
- (标准)舞蹈班转让合同协议书
- T/CTRA 01-2020废轮胎/橡胶再生油
- 2025年网信知识测试题及答案
- 高中英语新课标3000词汇表(新高考)
- 【MOOC】《中国马克思主义与当代》(北京科技大学)中国大学MOOC慕课答案
- 食品生物技术导论ppt课件
- 非油气探矿权变更延续申请登记书
- 鱼塘补偿协议书范文
- 印度白内障小切口手术学习笔记
- 卢春房副部长讲话《树立质量意识,强化风险控制,持续纵深推进铁
- 研究生新生入学教育
评论
0/150
提交评论