已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
4.1 大数据在互联网领域的应用,推荐系统概述 协同过滤 协同过滤实践,推荐系统概述 推荐系统:通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户。 推荐系统同搜索引擎有区别: 推荐系统是通过研究用户的兴趣偏好、进行个性化计算,帮助用户从海量信息中发掘自己潜在的需求。(PUSH) 搜索引擎以用户有明确的需求为前提,将需求转化为相应的关键词进行搜索。(PULL),长尾理论:美国连线杂志主编Chris Anderson于2004年推出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式。 传统零售点由于摆货场地限制,一般摆放热门商品(即热门推荐),遵循二八定律(80%的利润来源于20%的热门商品)。 电子商务网站销售的种类繁多,绝大多数商品都不热门。热门商品往往代表了用户的普遍需求,而长尾商品则代表了用户的个性化需求。推荐系统通过发掘用户的行为记录,找到用户的个性化需求,从而准确地将长尾商品准确地推荐给需要它的用户,实现用户和商家的双赢。互联网使得99%的商品都有机会进行销售,市场曲线中那条长长的尾部成为可以寄予厚望的、新的利润增长点。,推荐方法 专家推荐:本质上是人工推荐,其他推荐算法结果的补充。 基于统计的推荐:基于统计信息的推荐,如热门推荐,但对用户个性化偏好描述能力较弱。 基于内容的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容。关注物品本身的特征,通过物品自身的特征来找到相似的物品。 协同过滤推荐:利用用户的历史信息计算用户之间的距离,利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,然后对目标用户进行推荐。关注用户和物品间的联系,与物品自身特征没有太多关系。 混合推荐:单一的推荐算法往往无法取得良好的推荐效果,多数推荐系统会有机结合多种推荐算法。,图11-1 推荐系统基本架构,完整的推荐系统通常包括: 用户建模模块:根据用户行为数据和用户属性数据来分析用户的兴趣和需求。 推荐对象建模模块:根据交互数据和对象属性数据对推荐对象进行建模。 推荐算法模块:基于用户特征和物品特征,采用推荐算法计算得到用户可能感兴趣的对象,并根据推荐场景对推荐结果进行一定调整,最终将推荐结果展示给用户。,推荐系统的应用 推荐系统分为离线计算部分(较高准确度)/实时计算部分(快速响应,但相对较低的准确度) 亚马逊:推荐系统的鼻祖,渗透到网站的各个角落,实现了多个推荐场景,向用户实时推荐可能感兴趣、有潜在购买可能性的商品。 虾米音乐:根据用户的音乐收藏记录来分析用户的音乐偏好,从而进行推荐。一般是基于内容的推荐为主。,协同过滤 协同过滤分为基于用户的协同过滤与基于物品的协同过滤。 基于用户的协同过滤(UserCF) 该算法于1992年被提出,符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。 UserCF算法的实现主要包括两个步骤: 找到和目标用户兴趣相似的用户集合。 找到该集合中的用户所喜欢的、 且目标用户没有听说过的物品 推荐给目标用户。,图11-4 基于用户的协同过滤,实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。 目前较多使用的相似度算法有: 泊松相关系数(Person Correlation Coefficient) 余弦相似度(Cosine-based Similarity) 调整余弦相似度(Adjusted Cosine Similarity) 给定用户u和用户v,令N(u)表示用户u感兴趣的物品集合,令N(v)为用户v感兴趣的物品集合,则使用余弦相似度进行计算用户相似度的公式为: 得到用户间的相似度后,再使用如下公式来度量用户u对物品i的兴趣程度Pui:,基于物品的协同过滤(ItemCF) Amzon和Netflix的推荐系统的基础是ItemCF算法。 ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度,给目标用户推荐那些和他们之前喜欢的物品相似的物品。 ItemCF算法与UserCF算法类似,计算也分为两步: 计算物品之间的相似度; 根据物品的相似度和用户的 历史行为,给用户生成推荐列表。,图11-6 基于物品的协同过滤,ItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度。,图11-7用户到物品倒排表及物品相似度矩阵,计算物品的相似度 ItemCF计算的是物品相似度,再使用如下公式来度量用户u对物品j的兴趣程度Puj(与UserCF类似):,UserCF算法和ItemCF算法对比 UserCF算法和ItemCF算法的思想、计算过程都相似,两者最主要的区别: UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品;ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品。 UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化。,协同过滤实践 采用ItemCF算法,使用Python语言实现一个简易的电影推荐系统。 实验数据:MovieLens 100k数据集包括1000名用户对1700部电影的评分记录,一共10万条电影评分记录。 下载网址:/datasets/movielens 步骤包括: 数据准备 计算相似矩阵 计算推荐结果 展示推荐结果,#主程序 if _name_=“_main_“: file_user_movie=u.data user_movie= #存放用户对电影的评分信息 for line in open(file_user_movie): #读数据并解析到字典中 user,item,score=line.split(t)0:3 user_movie.setdefault(user,) user_movieuseritem=int(score) W=ItemSimilarity(user_movie) #计算电影的相似度 result=Recommend(1,user_movie,W,10,10) #计算推荐结果,并取Top-10的结果,对用户1进行推荐 user_movie.clear() #清除数据 file_movie_info=u.item movies= #存放电影的基本信息 for line in open(file_movie_info): (movieId,movieTitle)=line.split(|)0:2 moviesmovieId=movieTitle #以表格形式输出推荐排名Top-10 print ID Movie Rating print - - - for i,rating in result: print %4s %60s %f%(i,moviesi,rating),import math def ItemSimilarity(user_movie): #计算电影间的相似度矩阵W C= #字典数据,最终物品相似度矩阵 N= #字典数据,每部电影的评分人数 for user,items in user_movie.items():#对所有评分数据进行处理 for i in item s.keys(): N.setdefault(i,0) Ni+=1 C.setdefault(i,) for j in items.keys(): if i=j:continue Ci.setdefault(j,0) Cij+=1 W= for i,related_items in C.items(): #计算最终的电影余弦相似度矩阵 W.setdefault(i,) for j,cij in related_items.items(): Wij=cij/(math.sqrt(Ni*Nj) return W,def Recommend(user,user_movie,W,K,N): rank= #存放推荐的计算结果 action_item=user_movieuser for item,score in action_item.items(): for j,wj in sorted(Witem.items(),key=lambda x:x1,reverse=True)0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年鸡西辅警协警招聘考试备考题库及答案详解(必刷)
- 2025年驻马店辅警协警招聘考试真题附答案详解(突破训练)
- 2025年焦作辅警协警招聘考试备考题库有完整答案详解
- 2025年酉阳土家族苗族自治县辅警招聘考试题库及一套完整答案详解
- 2025年锦州辅警协警招聘考试真题及一套答案详解
- 2025年运城辅警协警招聘考试备考题库及答案详解(夺冠系列)
- 2025年璧山县辅警协警招聘考试真题及答案详解(典优)
- 2025年湖北辅警招聘考试真题完整答案详解
- 2025年萍乡辅警招聘考试真题含答案详解(b卷)
- 2025食品经销商合同范本
- 医学生大病历书写规范
- 4M变更管理培训
- 毒麻药品管理课件
- 湖北武汉邮政招聘试题带答案分析2024年
- 监狱消防安全
- 食物的来源及获取方式
- “红旗杯”竞赛总题库-3班组长创新和数字化管理能力考试题库(附答案)
- 工程力学-何培玲(中文电子课件)全套教案课件
- 彩钢棚搭建合同协议书
- 高中生物教学中反思性学习的深度探究与实践应用
- 【KAWO科握】2025年中国社交媒体平台指南报告
评论
0/150
提交评论