协同过滤推荐系统冷启动问题研究(共8页)_第1页
协同过滤推荐系统冷启动问题研究(共8页)_第2页
协同过滤推荐系统冷启动问题研究(共8页)_第3页
协同过滤推荐系统冷启动问题研究(共8页)_第4页
协同过滤推荐系统冷启动问题研究(共8页)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引言(ynyn)Web2.0的出现和应用极大地改变了网络(wnglu)用户的在线行为方式:由搜索和浏览转变为相互影响与分享1。网络上的选择呈指数增长,对用户来说找到有用的信息更加困难,也就是我们常说的信息过载问题。为解决这一问题,推荐系统应运而生,并在电子商务系统中大量应用,向用户推荐符合个人兴趣的书籍、电影(dinyng)和音乐等。协同过滤技术是最著名及常用的推荐技术之一2。协同过滤技术基于用户对商品的评分,能够处理非结构化的复杂对象,对推荐对象的格式没有特殊要求,因此在各种推荐系统被广泛使用。协同过滤推荐技术在应用中面临着一系列问题,冷启动问题是其中影响较大的一个。协同过滤技术协同过滤技术

2、主要分为基于用户的协同过滤和基于项目的协同过滤。基于用户(user-based)的协同过滤该方法根据用户项目评分数据集,利用统计技术搜寻与目标用户有相似历史偏好的一组用户,称为“邻居”。基于用户的协同过滤技术可以分为三步:最近邻选择。使用相似度衡量方法,为目标用户u生成一组历史评分相似度较高的k个用户集合。常用的相似度衡量方法有余弦相似性、Pearson相关系数和调整余弦相似性。具体计算公式如下所示。余弦相似性:sim(u1,u2) = cos( u1 , u2 ) = u1 u2u1 u2Pearson相关系数:sim(u1, u2) = iI (Ru1,i-Ru1) (Ru2,i-Ru2)

3、iI(Ru1,i-Ru1)2iI(Ru2,i-Ru2)2 其中I是指用户u1,u2共同评分的集合,Ru1 , Ru2 分别值用户u1,u2所有已评分的平均值。调整余弦相似性:sim(u1, u2) = iI Ru1,i-Ri Ru2,i-RiiIRu1,i-Ri2iIRu2,i-Ri2Ri 表示项目i的所有已评分平均值。评分预测。在k个最近邻选好之后,利用加权平均等方法计算目标用户对未评分项目的预测评分。UN代表k个最近邻集合。Ru,i = uUN(simu,u Ru,i)uUN(simu,u)项目推荐。从未评分项目中选取评分最高的n个,向用户进行推荐。基于项目(item-based)的协同过

4、滤与基于用户的协同过滤相比,基于项目的方法的一个优势是项目间的相似性比用户间的相似性更稳定,相似度矩阵更新频率低。该方法首先计算各项目间的相似度,通过目标用户评过分的项目,估计目标项目的评分。在这里举例说明基于项目的协同过滤方法。表1 user-item rating matrixi1i2i3i4u135? u2245u3135u4532假设(jish)u1为目标(mbio)用户,要预测他对项目i3的评分值。首先(shuxin)计算i3与u1的已评分项目的相似性。sim( i1, i3) = 15+531+25+25+9 = 1.37sim( i2, i3) = 24+354+9+16+25

5、= 2.14然后利用加权平均法计算u1对i3的预测评分值。Ru1,i3 = simi1,i3Ru1,i1simi2,i3Ru1,i2simi1,i3+sim(i2,i3) = 4.2研究热点隐式信息的使用。隐式信息与评分数据这种显式信息相对应,可以根据隐式信息来推测显式信息,比如音乐电台可以通过用户听某首歌的次数来推测他的评分。用户隐私的安全问题。很多用户出于保护隐私方面的考虑,不愿向系统提交完整准确的信息。最近几年互联网私人账户被盗事件使用户对私人信息更加谨慎。基于信任网络的推荐系统。近年来,在线社交网络快速发展,出现了许多基于信任的推荐技术。利用社交网络探寻用户的关系网,将关系网内的其他用

6、户喜好的事物推荐给当前用户,这种推荐往往更难获得用户的关注。移动推荐技术。现在,手机已成为人们获取信息的重要通道。如果将其与推荐系统相结合,手机将成为移动用户娱乐和应用的重要工具。推荐技术能够使移动系统向用户提供个性化和焦点内容并限制了因信息过载而引起的负面影响。冷启动(cold-start)问题。由于协同过滤技术主要基于用户对项目的历史评分,因此当评分资源不足时,就难以进行准确的推荐,这就是冷启动问题。冷启动问题研究意义冷启动问题是协同过滤推荐算法中被广泛关注的一个经典问题,该问题一直影响传统协同过滤推荐系统的推荐质量。对于电子商务推荐系统,每天都有大量新用户访问和新项目添加。只有为新用户和

7、新项目进行有效推荐,才能更好地为系统保留客户和挖掘潜在客户。研究成果 目前针对冷启动间题提出了一些解决方法,主要分为两大方面,一是直接利用传统协同过滤的评分数据结合特定方法,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合。不考虑内容的解决方法随机推荐的方法。对于冷启动问题,实际应用中最简单最直观的方法是采用随机推荐的方式。这种方法是比较冒险效果并不理想,从长期来看,随机推荐的方法的准确率不会超过50%。平均值法。所有项目的均值,作为用户对未评价过项目的预测值,将原始评分矩阵进行填充,然后在填充后的评分矩阵上寻找目标用户的最近邻居,应用协同过滤的方法产生推荐。但是均值的方法只能说

8、是一种被动应付的方式,新用户对项目的喜好值正好等于其他用户对此项目的平均值的概率是非常小的。众数法。众数法是指采用用户对所有评价过的项目的评分个数最多的那个值作为对未评价项日的预测评分值,是同平均值方法相似的一种方法,用众性替代个性。但是有些用户有比较强的个性,其兴趣爱好和大多数人差距较大。结合(jih)内容信息的解决方法冷启动问题产生是由于评分信息(xnx)不足造成的,不考虑内容的方法只是在一定程度上缓解了冷启动问题。在保证用户个性化需求的基础上又能解决(jiju)冷启动问题是目前研究的热点问题,最初研究者们为提高协同过滤算法的精确度提出了与用户或项目的内容信息相结合的方法,他们在实验中惊喜

9、地发现,引进内容信息的协同过滤算法,不但提高了推荐的精确度而且改善了冷启动问题。近几年的研究成果主要有几下几种。与社交网络标签结合Kim等人3使用过滤标签来发掘用户对项目的偏好。Loh等人4提出通过从用户学术出版物中提取信息,构建用户文档。 Zhang等人5提出一种基于社交网络标签的推荐算法,将标签选择频率作为用户对不同话题的喜好度,标签项目的组合可以视为它们之间的语义联系。但是现在社交标签在网站中的使用并不广泛,而且一词多义的问题也会导致推荐结果不准确,还有待标签聚类技术的发展来解决此问题。构建概率统计模型的方法协同过滤概率模型中将用户、项目和评分初始化为相应概率分布,利用Hafmann的E

10、M迭代算法求解用户在评分给定的情况下某项目出现的概率,然后将概率从大到小排序,将概率大于某个值或排在前N项的项目推荐给用户。对于冷启动问题,用户-项目的评分信息不足,文献6和7将用户或项目的内容信息初始化为一个指定的概率分布,代替协同过滤推荐中评分概率分布,然后在内容信息替代评分信息的概率分布上利用EM迭代算法,从而完成推荐。实验结果证实了该方法可以有效地解决冷启动问题。与机器学习相结合的方法此方法的基本思想是利用用户或项目的内容信息,通过机器学习查找内容和评分的内在联系,采取相应的措施产生推荐,该方法是目前解决冷启动问题研究的方向性方法。文献7利用感知机学习用户和项目之间的关系从而解决冷启动

11、问题,但是还难以预测用户短期兴趣。融合不同算法的模型Blerina Lika等在文献8提出一种新的推荐模型,囊括了传统协同过滤系统的分类方法,同时利用用户个人信息辅助用户分类。在经过大量实验比较之后,发现这一新模型与传统模型相比有较大优势。模型介绍用户分类。基于用户个人信息集合D=d1,d2,di (D由开发者定义)和个人偏好,利用C4.5、朴素贝叶斯(Naive Bayes)等分类算法,对用户进行分类。最终对每个新用户ni找到一个邻居集合NG,集合里的每个用户都与ni属于同一类别。用户相似度计算。 在邻居集合生成之后,计算目标用户与每个邻居的相似度sim( n, u)。SFj 表示(bios

12、h)是用户n和用户(yngh)u在第j个用户(yngh)属性上的相似度,wj 是该属性的权重。 SFj 的计算采用一个相似度测量函数SF ( similarity function ):对于数字属性,SF:对于文字属性,采用 Wu-Palmer 语义相似度测量技术,权重w计算方法如下:Diff是两个用户在某属性上的差距,Diffmax表示最大差距(由开发者确定)。 参数 也是由开发者确定,如果希望Diff 值较大时,权重w也较大,就可以设置一个很小的 值。反之亦然。预测评分。 计算方法为:Sim(nj, u)表示目标用户nj与邻居集合内用户u的相似度,ru,jb 表示用户u对项目jb 的实际评

13、分。预测评分准确性评价数据集使用Movielens,评价指标选取的是绝对平均误差MAE和平均误差平方根RMSE,都是在评价预测评分中最常用的指标。MAE和RMSE越小,预测评分准确度越高。Pu,I 表示模型预测的用户u对项目i的评分,ru,I 表示用户u对项目i的实际评分。用户属性集合D = d1, d2, d3=age, occupation, gender , 项目类别集合C =c1,c2,c3,c4= fun, intellectual, adventurous, romantic 。同时,根据对用户属性元素的权重w的不同赋值,设置了四种情境。表2 实验(shyn)情境图1 情境(qng

14、jng)1结果(ji gu)图2 情境2结果图3 情境(qngjng)3结果(ji gu)图4 情境(qngjng)4结果图5 大量用户(yngh)下情境1结果(ji gu)结果表明,在四种情景(qngjng)下,数据集人数小于1000时,C24.5算法的表现最好;当人数超过1000,CM4.5 和朴素贝叶斯的表现最好。对整个模型来说,数据集人数越多,MAE越小,模型预测评分表现越好。总结推荐系统是信息时代最能满足用户个性化需求的信息服务工具,能有效解决目前日趋严重的信息超载问题。其中协同过滤推荐技术是推荐系统中应用最广泛的技术,但该技术难以对新用户和新项目产生推荐,也就是冷启动问题。本文介绍

15、了协同过滤技术,总结了解决冷启动问题的前沿方案,并对一种融合用户个人信息与传统分类方法的模型进行了详细介绍,该方法侧重解决新用户问题,在用户数量较多时有着较好的预测评分表现。参考文献1 C. De Rosa, J. Cantrell, A. Havens, J. Hawk, L. Jenkins, B. Gauder, R. Limes, D.Cellentani, OCLC, Sharing, Privacy and Trust in Our Networked World: A Reportto the OCLC Membership, OCLC, 2007.2 G. Adomaviciu

16、s, A. Tuzhilin, Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, IEEE Trans. Knowl. Data Eng. 17 (2005) 734749.3 H.N. Kim, A.T. Ji, I. Ha, G.S. Jo, Collaborative filtering based on collaborative tagging for enhancing the quality of recommen

17、dations, Electronic Commerce Research and Applications 9 (1) (2010) 73834 S. Loh, F. Lorenzi, R. Granada, D. Lichtnow, L.K. Wives, J.P. Oliveira, Identifying similar users by their scientific publications to reduce cold start in recommender systems, in: Proceedings of the 5th International Conferenc

18、e on Web Information Systems and Technologies (WEBIST2009), 2009, pp. 593600. 5 Zhang, Z. K., Liu, C., Zhang, Y., & Zhou, Z. (2010). Solving the cold-start problem in recommender systems with social tags, EPL (Vol. 92).6 Lam X N, Vu T, Le T D, et al. u1. Addressing cold-start problem in recommendation systems C ICMIMC 08. New York, USA, 2008:208-2217 Chu W, Park S T. Personalized recommendation on dynamic contents using predictive bilinear models C / Proceedings of the 18th International Conference on World Wide Web.2009: 691-7008 Blerina L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论