高级数据挖掘期末大作业-基于协同过滤算法的电影推荐系统.docx_第1页
高级数据挖掘期末大作业-基于协同过滤算法的电影推荐系统.docx_第2页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级数据挖掘期末大作业 基于协同过滤算法的电影推荐系统本电影推荐系统中运用的推荐算法是基于协同过滤算法(collaborative filtering recommendation)。协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。电影推荐系统中引用了apache mahout提供的一个协同过滤算法的推荐引擎taste,它实现了最基本的基于用户和基于内容的推荐算法,并提供了扩展接口,使用户方便的定义和实现自己的推荐算法。电影推荐系统是基于用户的推荐系统,即当用户对某些电影评分之后,系统根据用户对电影评分的分值,判断用户的兴趣,先运用usersimilarity计算用户间的相似度.userneighborhood根据用户相似度找到与该用户口味相似的邻居,最后由recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评过分的电影信息和推荐给该用户的电影信息显示在网页结果页中,推荐完成。一、taste 介绍taste是 apache mahout 提供的一个个性化推荐引擎的高效实现,该引擎基于java实现,可扩展性强,同时在mahout中对一些推荐算法进行了mapreduce编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。在mahout0.5版本中的taste, 实现了多种推荐算法,其中有最基本的基于用户的和基于内容的推荐算法,也有比较高效的slopeone算法,以及处于研究阶段的基于svd和线性插值的算法,同时taste还提供了扩展接口,用于定制化开发基于内容或基于模型的个性化推荐算法。taste 不仅仅适用于 java 应用程序,还可以作为内部服务器的一个组件以 http 和 web service 的形式向外界提供推荐的逻辑。taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。下图展示了构成taste的核心组件:从上图可见,taste由以下几个主要组件组成:datamodel:datamodel是用户喜好信息的抽象接口,它的具体实现支持从指定类型的数据源抽取用户喜好信息。在mahout0.5中,taste 提供 jdbcdatamodel 和 filedatamodel两种类的实现,分别支持从数据库和文件文件系统中读取用户的喜好信息。对于数据库的读取支持,在mahout 0.5中只提供了对mysql和postgresql的支持,如果数据存储在其他数据库,或者是把数据导入到这两个数据库中,或者是自行编程实现相应的类。usersimilarit和itemsimilarity:前者用于定义两个用户间的相似度,后者用于定义两个项目之间的相似度。mahout支持大部分驻留的相似度或相关度计算方法,针对不同的数据源,需要合理选择相似度计算方法。userneighborhood:在基于用户的推荐方法中,推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的,该组件就是用来定义与目标用户相邻的“邻居用户”。所以,该组件只有在基于用户的推荐算法中才会被使用。recommender:recommender是推荐引擎的抽象接口,taste 中的核心组件。利用该组件就可以为指定用户生成项目推荐列表。二、相似性度量本章节将系统中用到的几个相似性度量函数作以介绍,taste中已经具体实现了各相似性度量类。user cf 和 item cf 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在-1, 1之间。当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。pearson correlation-based similarity协方差(covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。covariance其中u表示x的期望e(x), v表示y的期望e(y)标准差(standard deviation):标准差是方差的平方根standard deviation方差(variance):在概率论和统计学中,一个随机变量的方差表述的是它的离散程度,也就是该变量与期望值的距离。variance即方差等于误差的平方和的期望基于皮尔森相关系数的相似度有两个缺点:(1) 没有考虑(take into account)用户间重叠的评分项数量对相似度的影响;(2) 如果两个用户之间只有一个共同的评分项,相似度也不能被计算table1上表中,行表示用户(15)对项目(101103)的一些评分值。直观来看,user1和user5用3个共同的评分项,并且给出的评分走差也不大,按理他们之间的相似度应该比user1和user4之间的相似度要高,可是user1和user4有一个更高的相似度1。同样的场景在现实生活中也经常发生,比如两个用户共同观看了200部电影,虽然不一定给出相同或完全相近的评分,他们之间的相似度也应该比另一位只观看了2部相同电影的相似度高吧!但事实并不如此,如果对这两部电影,两个用户给出的相似度相同或很相近,通过皮尔森相关性计算出的相似度会明显大于观看了相同的200部电影的用户之间的相似度。mahout对基于皮尔森相关系数的相似度给出了实现,它依赖一个datamodel作为输入。pearsoncorrelationsimilarity同时,mahout还针对缺点(1)进行了优化,只需要在构造pearsoncorrelationsimilarity时多传入一个weighting.weighted参数,就能使有更多相同评分项目的用户之间的相似度更趋近于1或-1。usersimilarity similarity1 = new pearsoncorrelationsimilarity(model);double value1 = similarity1.usersimilarity(1, 5);usersimilarity similarity2 = new pearsoncorrelationsimilarity(model, weighting.weighted); double value2 = similarity2.usersimilarity(1, 5);结果:similarity of user1 and user5: 0.944911182523068similarity of user1 and user5 with weighting: 0.96556948907691752. 基于欧几里德距离的相似度 euclidean distance-based similarity欧几里德距离计算相似度是所有相似度计算里面最简单、最易理解的方法。它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到坐标系上,并计算他们彼此之间的直线距离。euclidean distance 2-coordinatetable2图中用户a和用户b分别对项目x、y进行了评分。用户a对项目x的评分为2,对项目y的评分为4,表示到坐标系中为坐标点a(1.8, 4);同样用户b对项目x、y的评分表示为坐标点b(4.5, 2.5),因此他们之间的欧几里德距离(直线距离)为:sqrt(b.x - a.x)2 + (a.y - b.y)2)euclidean distance计算出来的欧几里德距离是一个大于0的数,为了使其更能体现用户之间的相似度,可以把它规约到(0, 1之间,具体做法为:1 / (1 + d)。参见table2euclidean distance-based similarity只要至少有一个共同评分项,就能用欧几里德距离计算相似度;如果没有共同评分项,那么欧几里德距离也就失去了作用。其实照常理理解,如果没有共同评分项,那么意味着这两个用户或物品根本不相似。3. 余弦相似度 cosine similarity余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。cosine similarity与欧几里德距离类似,基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个用户之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表用户评分的点与原点的直线都会相交于原点,夹角越小代表两个用户越相似,夹角越大代表两个用户的相似度越小。同时在三角系数中,角的余弦值是在-1, 1之间的,0度角的余弦值是1,180角的余弦值是-1。借助三维坐标系来看下欧氏距离和余弦相似度的区别:distance and cosine 3-coordinates从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持a点的位置不变,b点朝原方向远离坐标轴原点,那么这个时候余弦相似度cos是保持不变的,因为夹角不变,而a、b两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。mahout没有专门给出基于余弦相似度的实现。 4. 调整余弦相似度 adjusted cosine similarity在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,x和y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看x似乎不喜欢这2个内容,而y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如x和y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。5. 斯皮尔曼相关 spearman correlation斯皮尔曼相关性可以理解为是排列后(rank)用户喜好值之间的pearson相关度。mahout in action中有这样的解释:假设对于每个用户,我们找到他最不喜欢的物品,重写他的评分值为“1”;然后找到下一个最不喜欢的物品,重写评分值为“2”,以此类推。然后我们对这些转换后的值求pearson相关系数,这就是spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息,即真实的评分值。但它保留了用户喜好值的本质特性排序(ordering),它是建立在排序(或等级,rank)的基础上计算的。回顾前面表中user15对item101103的喜好(评分)值,通过斯皮尔曼相关系数计算出的相似度为:table3我们发现,计算出来的相似度值要么是1,要么是-1,因为这依赖于用户的喜好值和user1的喜好值是否趋于“一致变化”还是呈“相反趋势变化。mahout对斯皮尔曼相关系数给出了实现,具体可参考spearmancorrelationsimilarity,它的执行效率不是非常高,因为斯皮尔曼相关性的计算需要花时间计算并存储喜好值的一个排序(ranks),具体时间取决于数据的数量级大小。正因为这样,斯皮尔曼相关系数一般用于学术研究或者是小规模的计算。usersimilarity similarity1 = new spearmancorrelationsimilarity(model); / construct a spearman correlation-based similarityuser1 to user1 : 1.0user2 to user1 : -1.0user3 to user1 : nanuser4 to user1 : 1.0user4 to user1 : 1.0考虑到spearman correlation的效率,可以把spearmancorrelationsimilarity包装一层cache,具体做法为: usersimilarity similarity2 = new cachingusersimilarity(new spearmancorrelationsimilarity(model), model);这样,每次计算的结果会直接放入cache,下一次计算的时候可以立即得到结果,而不是重新再计算一次。6. 基于谷本系数的相似性度量 tanimoto coefficient-based similaritytanimoto coefficient和前面的5中相关度计算方式有很大的不同,它不关心用户对物品的具体评分值是多少,它在关心用户与物品之间是否存在关联关系。tanimoto coefficient依赖于用户和物品之间的这种boolean关系作为输入。更准确的说法为:tanimoto coefficient主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以tanimoto coefficient只关心个体间共同具有的特征是否一致这个问题。tanimoto coefficient又被叫做jaccard coefficient,其值等于两个用户共同关联(不管喜欢还是不喜欢)的物品数量除于两个用户分别关联的所有物品数量。intersection/union也就是关联的交集除于关联的并集,用公式表示为:tanimoto/jaccard coefficient其值介于0, 1之间,如果两个用户关联的物品完全相同,交集等于并集,值为1;如果没有任何关联,交集为空,值为0。三、电影推荐系统的实现1. 数据下载:到grouplens网站(/node/12)上下载data sets,在该电影系统中我们使用了将近900多用户为1683的电影评了近100000行的数据集。将下载的ml-data_0.zip里的评分数据和电影信息数据取出。将评分文件转换成类似于csv文件格式的文本文件,csv是逗号分隔值文件(comma separated value),是一种用来存储数据的纯文本文件格式,文件名为rating.txt。可以用写字板打开,如图4.1:图4.1 rating.txt示意图然后将数据导入到mysql数据库中,将电影数据文件也转换成csv格式文件,然后也导入数据库中,mysql中数据库为movierecommendation,上述两个文件对应的表分别为movies和rating。由于taste引擎需要频繁进行数据库操作,所以可以对mysql数据库进行一般的调优,在mysql安装目录的my.ini文件中设置一些参数,从而加快数据库操作运行的时间。2. 系统结构:本电影推荐系统前台导航栏有三个菜单,分别为首页,推荐电影,参数设置。首页:首页上显示综合评分最高的前20部电影,综合评分是指对于一部电影,所有观看改电影的用户的评分的期望值。实现为在index.jsp页面中调用数据库接口,查询数据库,然后将结果显示出来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论