【基于电影系统的协同过滤算法的探究7600字(论文)】_第1页
【基于电影系统的协同过滤算法的探究7600字(论文)】_第2页
【基于电影系统的协同过滤算法的探究7600字(论文)】_第3页
【基于电影系统的协同过滤算法的探究7600字(论文)】_第4页
【基于电影系统的协同过滤算法的探究7600字(论文)】_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于电影系统的协同过滤算法的研究目录1绪论 21.1研究背景与背景 31.2国内外研究现状. 41.3主要研究内容 42基于聚类的协同过滤算法 52.1协同过滤推荐算法的应用 52.2基于项目类别的评分缺失值填充 63电影推荐系统的设计与实现 73.1系统结构设计 73.2系统功能的设计与实现 84总结 9参考文献 10摘要近些年来,由于计算机技术的飞速发展与网络的迅速普及,人们享受海量信息资源带来的便利的同时,还又面临着“信息超载”所带来的问题,推荐系统正是为了解决这一问题而产生的。相较于经典的搜索引擎式服务,推荐系统的个性化是其得天独厚的优势。推荐系统的研究是当前信息资源急速膨胀环境下的迫切需求,有着重要的理论价值与实际价值。协同过滤技术是当前推荐系统研究的热点之一,然而其依然存在稀疏性问题、冷启动问题需要解决,同时在算法的精准度上也尚有很大的研究空间。关键词:推荐系统;协同过滤;信息超载AbstractInrecentyears,WiththecontinuousdevelopmentofcomputertechnologyandrapidpopularizationofInternet,moreandmoreinformationscanbeexposedtopeople,whilethe"informationoverload"problemhasalsocroppedup.Tosolvethe"informationoverload"issue,recommendersystem(RS)isneeded.Comparewiththetraditionaltypeofsearchengineservices,personalityistheadvantageofRS.TheresearchofRSistheurgentneedsoftherapidexpansionofinformation,andalsohastheoreticalvalueandpracticalvalue.Collaborativefiltering(CF)technologyisoneofthehottopicsintheresearchofRS,butitalsohassomeshortagessuchassparsityproblemandcold-startproblem,atthesametimethereisstillaconsiderableroomforgrowthintheaccuracyofthealgorithm.第一章绪论1研究背景与意义随着互联网时代的发展,电子商务网站及其所包含的商品信息数量都呈现指数式的爆发增长,用户要在众多的商品中挑选出自己真正需要的商品难度越来越大。面对海量的信息空间,Web上大部分的信息可能对于大部分的用户是毫无用处的,用户在进行网络购物行为时不得不面对海量的商品信息,如何快速、准确、便捷地找到自身需要的商品成为一个现实难题,而这一难题被称为“信息过载”(InformationOverload),“信息超载”现象既不利于信息索取者对信息资源的获取,也不利于信息供应商对于信息资源的推广。为了解决信息过载的问题,推荐系统(Recommendersystem,RS)应运而生。推荐系统也被称为个性化推荐系统,与传统“一对多”式的搜索引擎服务不同,个性化推荐系统反馈给用户的信息更加的准确、个性化,推荐系统针对不同的用户的不同需求来推荐不同的资源,使得用户能够更方便的发现对于自己有用并且符合自己个性的数据资源,忽略那些对自己无用的、不关心的数据资源,从而为广大消费者在众多的商品中找到自己所需要的商品提供了有利条件。体验过个性化推荐系统的服务的用户们越来越青睐个性化推荐系统,学者们和电子商务网站也对个性化推荐倾注了越来越多的关注。当前,推荐系统已成为Amazon,eBay、当当网、M1905电影网等网站赢得市场的重要工具。在竞争已达白热化的今天,能否成功地运用个性化推荐系统已成为电子商务网站能否继续发展的关键。而整个推荐系统的核心便是推荐算法,因此推荐算法选择的好坏直接决定了最终推荐结果的好坏,个性化推荐目前已成为网络服务的一个重要发展方向。从而信息过滤技术也是当前的研究热点之一,而协同过滤技术也被广泛应用于信息过滤的各个方面并取得了成功。研究协同过滤技术在理论和实践方面均有着重要意义。亚马逊就是其中一个典型例子。随着电子商务的迅速发展,逐渐出现了针对音乐、新闻、网站和电影等项目的个性化推荐需要,个性化推荐中电影需要尤为强烈,主要原因最近几年中国的电影产业正迎接有史以来最好的发展机遇,大陆电影市场经过短短几年的发展己经成为当今仅次于美国的世界第二大电影市场。目前国内尚没有正规的针对影片交易的电子商务网站,但出现了类似于时光网和豆瓣网这类垂直综合类的电影博客网站。这类网站通过与电影厂商合作,向博客用户推荐其喜爱的电影,从而达到盈利。与此相关,也出现了类似于腾讯视频和迅雷看看这类通过分析用户播放记录从而完成个性化推荐影片的客户端软件。这两类不同领域的应用所做的事情本质上都是一样的,便是向用户个性化、人性化地推荐电影资源。试想一但我们打开并登陆一个网站,几乎不需要浪费很多时间翻看网页就可以找到我们喜欢的电影,这样的话用户对这样的网站一定会倍加青睐。这样就更好地建立起了用户与网站之间的关联,从而锁定用户群,因此提高电影推荐网站的市场竞争力。网站利用推荐系统为客户推荐商品,帮助客户完成个性化的选择。该过程应尽量避免用户的参与,因此,协同过滤技术成为当前运用比较广泛的个性化推荐技术之一。由于个性化推荐应用市场需求广泛,因此国内外众多学者对其也越来越加以关注与重视。1.2.1国外研究现状国外推荐系统研究出现于二十世纪九十年代初期,随后吸引了大量学者与研究人员投入到这一领域的研究中去,目前许多组织正在从事研究推荐技术的工作。推荐技术展至今己取得巨大成就,特别是电子商务的迅速发展为推荐系统提供了良好的平台,同时推荐技术的发展也为电子商务带来了巨大的经济效益。Goldberg等人在1992的一份报告中正式提出了协同过滤的概念,而第一个自动化推荐系统“GroupLens"是由隶属于明尼苏达大学双城分校计算机系的GroupLens实验室在1994年创建的,该系统主要是应用于新闻的推荐,可以帮助新闻的阅读者过滤其感兴趣的新闻。推荐系统采用协同过滤原理,通过阅读者对阅读内容的评分作为参考,产生推荐结果。GroupLens实验室又在1997年创建了MovieLens推荐系统,通过协同过滤技术向用户推荐可能感兴趣的电影。美国计算机协会也多次举办了以推荐技术为研讨主题的学术会议,推动了推荐技术研究的进一步发展。从2006-2009年的Netflix竞赛使得推荐技术的研究进入了高潮阶段。截至2011年6月,MovieLens用户己经超过16万人,评分总量超过1千5百万。协同过滤推荐技术自提出至今取得了巨大成就,是当前使用最为普遍的推荐技术之一,目前己被许多商业网站作为其推荐技术的基础。然而随着协同过滤推荐技术的广泛应用,其数据稀疏性问题、冷启动问题、可拓展性问题等一系列的弊端也逐渐暴露出来,对于协同过滤推荐技术的研究仍有许多工作需要完成。目前采用协同过滤推荐技术的的著名推荐系统有:GroupLens网上新闻过滤系统:GroupLens通过多用户协作的方式来发现用户需要的内容,并可以通过用户的评价信息来调整推荐结果。MovieLens网上电影推荐系统:MovieLens推荐系统可以根据用户己有的影片评分与其他用户的己有评分预测该用户对其它影片的评分。每一个新用户都必须对巧部影片进行评分,评分范围为1-5分,分值越高达标用户越喜欢。与GroupLens相比,MovieLens系统的使用更加的方便、简单。同时MovieLens系统也为世界各地协同过滤算法的研究人员提供实验数据。Jester笑话推荐系统:对于第一次访问系统的用户系统首先随机选取十个笑话供用户进行评分,然后根据用户的评分与其它用户的评分为用户提供推荐结果。评分分值范围为一10^10,数值越大代表越喜欢,负数代表不喜欢。A的书籍推荐系统[}lo}:A是目前最大的图书网站,其推荐系统有着千万级别的用户和商品数量,传统的协同过滤算法根本无法满足其需求,因此Amazon.com推荐系统采用了与传统协同过滤算法所不相同的算法,也就是商品到商品的协同过滤(item-to-itemcollaborativefiltering)以满足其海量数据的需求。与传统的协同过滤推荐算法相比,该中算法在项目关联性方面表现更为优秀,同时项目相似度的计算可以采用离线的方式进行,在取得较好的推荐质量的同时也取得了较快的推荐速度。Ringo音乐推荐系统:该推荐系统也使用的是协同过滤推荐技术。首先需要用户对系统中的音乐家进行评分,然后通过比较用户之间的评分确定兴趣爱好,再根据兴趣爱好的相似度将用户划分为不同的群组,最后通过群组成员对用户进行推荐。1.2.2国内研究现状国内研究现状与国外相比我国推荐系统领域的发展较晚,尚处于初级阶段,而对协同过滤技术的应用与研究也比国外要少,但是近几年国内电子商务的飞速发展为推荐系统的发展创造了良好的环境和迫切的需求。协同过滤技术在个性化推荐领域有着重要的地位和作用,因此对于协同过滤技术的研究也变得十分的重要。在电子商务和社交网站迅速发展的良好环境下,知名购物网站麦包包、凡客诚品、库巴网、红孩子等,都选择了应用了个性化推荐技术的百分点推荐引擎系统。但个性化推荐的总体发展与用户不断增长的个性化需求相比,差距还很大。协同过滤算法是目前个性化推荐应用比较广泛的算法之一,稀疏性问题、可扩展性问题、冷启动问题等是目前协同过滤的理论研究的主要集中点。为了解决数据稀疏性问题和冷启动问题,刘飞飞采用了一种应用多目标优化双聚类技术对行和列同时进行聚类的协同过滤方法。通过同时考虑用户和项目之间的相似性来完成对用户和项目相似性的同时分组,提高了聚类的效果。成桂兰等人采用了将SOM与K-means技术相结合的一种聚类技术。利用该技术对图书资源进行了聚类处理,从而缩小了需要预测评分的项目的数目和查找最近邻的搜索空间。李华,张宇,孙俊华用模糊聚类的方法得到用户情景相似的群体,然后通过Slope-one算法对稀疏的用户一项目评分矩阵进行预测填充,再进行协同过滤推荐,实验证明该方法对数据稀疏性和实时性问题有一定的改善效果。韦素云,业宁,朱健等采用了一种基于项目聚类的全局最近邻的协同过滤算法,依据项目之间的相似性对项目进行聚类,并使用全局相似性来衡量用户间相似性,计算用户间的局部相似性;并利用重叠度因子来进行局部调节,使用户间的相似性表述更加准确。在计算项目之间的相似性时采用了修正的条件概率,并对缺失评分项进行了预测评分填充,此算法在一定程度上改善了推荐的精度,但关联相关和项目的评分相似性计算有一定的偏差。张光卫等人采用了云计算来计算相似性的方法,来改善传统相似性计算中没解决的问题。他的实验表明该算法对提高推荐精度的效果与数据集的稀疏程度有着密切的关系,因此该算法不具有普遍适用性。1.3主要研究内容本论文主要研究个性化电影推荐系统,基于内容的推荐算法对于多媒体信息的特征提取还有待技术支持,并不适合本文所搭建的系统。电影系统的项目数增长的没有用户数快,电影即为项目,显而易见,计算项目相似性要更容易,所以在本文所搭建的个性化电影推荐系统中选取了基于项目的协同过滤算法,并对该算法慎重的考虑和改进,并针对大数据集对改进算法进行分布式并行计算,具体研究内容如下:传统的基于项目的协同过滤算法在求解最近邻计算相似性时,只分析了用户对于项目的评分数据,当评分数据较少时,不能准确地为用户推荐其感兴趣的项目,在本文中改进了相似性计算方法,不仅考虑用户项目评分矩阵外还同时考了项目类别矩阵。二者以一定权重结合在一起,该权重是由热能学中航天发动机推力室里协同计算燃烧传热量,考虑到高温辐射换热计算时所有壁面的综合发射率公式比拟得出。由于复杂的计算加大了运算的时间复杂度,考虑了并行计算,在hadoop环境下的对改进算法的MapReduce设计和实现。主要包含综合相似度计算的MapReduce实现和Top-N推荐的MapReduce的实现,关键在于找出各自的键值对。通过同时考虑项目和用户的属性特征的聚类方法,使得邻居用户的相似性程度较高,并缩小了寻找邻居用户的运算空间,使得协同过滤推荐的实时性和推荐效果得到进一步提升。4)针对冷启动问题,本文对新用户和新项目也做了考虑。对于新用户先判断该用户所属的用户聚类,在聚类中寻找该用户的最近邻,并利用协同过滤方法预测新用户对目标项的评分;通过对原有数据库中的电影依据属性特征进行聚类,对于新电影则判断其所属的聚类,利用协同过滤算法在类簇中寻找电影的最近邻,预测目标用户对新电影的评分。2基于聚类的协同过滤算法2.1协同过滤推荐算法的应用协同过滤(CollaborativeFiltering,简称CF)算法的主要观点是根据观点相似的用户的选择行为来预测目标用户的选择行为,即根据一个用户对其他项目的评分和整个用户群过去对其他项目的评分来预测该用户对某一未评分项目的评分。协同过滤个性化推荐方法是一种依赖于大量用户信息的信息过滤算法。选择合适的相似性计算方法从大量用户或项目中查找出一组和目标用户或目标项目评分相近的相似用户集合或项目集合,并依据相似用户或相似项目的评分对目标用户生成Top-N推荐结果。协同过滤算法包括基于内存的协同过滤和基于模型的协同过滤。基于内存的协同过滤算法(基于用户和基于项目两种方法)的计算过程分为三步:1.收集用户偏好信息;2.计算评分相似性,找到最近邻;3.根据最近邻评分得出预测评分,生成推荐。2.2基于项目类别的评分缺失值填充在实际的推荐系统应用中,存在着评分信息极其稀疏的情况,这严重影响了推荐算法的正常运行。现在常用直接将空缺评分项都填充为0对未评分项进行预测评分的方法来解决评分矩阵的稀疏性问题。这种方法准确性较低,因为未评分项可能是用户没有关注也可能是不感兴趣的项目,所以统一填充为。肯定会使部分数据失真;Slope-One方法也是比较简单常用的方法之一,本文采用了slope-one方法进行缺失值的填充。针对传统的协同过滤推荐算法的不足,2005年DanielLemire和AnnaMaclachlan}3}]提出了slope-one算法:对任意两个项目i和项目J来说,假设U;表示对项目i评过分的用户集合,砚表示对项目J评过分的用户集合,同时对项目i和项目J都评过分的用户集合表示为U;}}Uijl表示集合U。所包含的元素个数,那么项目i和项目J的平均相似度计算过公式如(2-5)一般两个用户兴趣爱好相似,是在某一个或某几个特定的项目类别方面比较相似,所有方面均相似的情况很难出现。如表2-4所示,李铭和张坤在爱情片方面的电影有着共同的兴趣爱好,李铭和王浩在战争片方面有着共同的兴趣爱好。如果按照普通的相似性计算方法,在对李铭进行推荐时,首先要找到和李铭爱好相似的项目集合,即进行用户的相似性计算,比较找到相似度最高的若干最近邻,依据最近邻的评分来完成数据填充。从表2-4中所有评分数据可以看出,李铭和张坤有三个电影喜好程度相同,而李铭与王浩仅有两个电影的偏好相同,那么得到的李铭的相似邻居应该是张坤,因此得出的结论是李铭喜欢电影6。对表中的电影类别进行分析,会发现李铭和张坤只是在爱情片方面有共同的偏好,而对于战争片的偏好却完全不同,因此在进行评分预测时,本文在寻找相似邻居时,根据电影的类别寻找相似邻居,也就是只选择和电影6类别相同的电影的偏好寻找最近邻,因此得到的李铭的最近邻是王浩,按照王浩对电影6的偏好预测李铭不喜欢电影6针对具体事例进行说明,用户对电影的评分向量如表2-5所示,预测用户U2对电影M6的评分。本文在计算用户U1和用户U2的相似性时,需要先找到这两个用户共同感兴趣的电影的集合(即电影M3,MS,M6),然后在共同感兴趣的电影集合中通过计算两个用户的评分相似性来寻找最近邻,而不是在整个用户评分空间中进行计算。利用公式(2-2)计算目标项目电影M6与其余各电影之间的相似度,其中空缺评分不予考虑,可得:同样的计算可以知道,Sim(Ul,U3)0.766;Sim(Ul,U4)=0.9980将相似性最高的若干用户数(这里假设为2)作为用户U1的最近邻用户集合,记为岭,即岭一{U2,U4}。之后,可以预测用户U1对电影6的评分,根据下列公式(2-6)计算平均相似度。同样的计算可以知道,devu1.u4=2利用公式(2-6)计算用户U1对电影M6的评分:乙乙基于上述分析,可以总结出本文对缺失值的填充方法:采用slope-one算法进行评分填充。首先按目标电影所属的电影类别找到共同具有评分的用户,然后依据这些相同类别并且都有评分的项目的评分来计算用户间的相似性,进而求得用户的最近邻。另外,在对目标用户未评分项进行填充的过程中,如果目标用户对该类电影没有任何评分的话,如表2-6所示,用户U1对恐怖类电影都没有评分,则采用不考虑项目类别的用户相似性计算方法,求得用户的最近邻,再利用slope-one算法进行预测产生一个评分值。3电影推荐系统的设计与实现3.1系统结构设计大型系统总是被分解成若干子系统,这些子系统分别提供其相应的服务。初始系统设计的任务是要识别出这些子系统并建立起子系统控制和通信的框架。同时,系统设计要把握实用性原则、可扩展性原则和安全可靠性原则。本系统是利用Windows操作系统进行开发和运行的,在ASP构建的系统开发平台上,使用VBScript脚本语言设计并实现了电影网站。本推荐系统采用基于Web的B/S架构,共分为浏览器、Web服务器、数据库服务器三个层次,使得用户只需要通过浏览器即可访问系统,查看系统推荐结果非常方便快捷。其中,浏览器成为了系统的表示层,也可称为用户界面层;该层展示给用户的是电影网站,Web服务器成为了系统的应用层,是用户界面层和数据访问层的桥梁,主要由系统的各个功能子系统构成;数据库服务器成为了系统的数据层,也称为数据访问层,该层是本系统运行的基础,系统中每个动态页面的生成都离不开数据访问层中提供的信息,根据用途不同,数据被划分为许多种类,有序地存放在相应的数据库中,用户访问系统时,应用逻辑层必须首先访问用户数据库用以确认用户的身份信息。系统的体系结构如图3-1所示。图3-1体系结构图3.2系统功能的设计与实现设计电影推荐系统的主要目标是为了使用户在面对众多的电影时,不会感到无所适从,不知选择哪部观看,而且通过推荐系统的推荐,用户可以更容易的找到自己喜欢的电影。本系统按功能来划分,主要模块包括:电影前台网站系统、电影后台管理系统两个模块。系统模块组织结构图如图3-2图3-2系统模块组织结构图4总结本文研究的是个性化电影推荐系统中的推荐算法。经过与传统的各类算法相比较,发现基于项目的协同过滤算法更适合于本文所搭建的系统。并对传统的算法进行了改进,最终通过实验对比,证明了新推荐计算方法提高了推荐准确性的同时还减少了运行时间。由于时间等方面的原因本文对推荐算法改进方面尚存在些问题需要进一步研究。可以考虑将用户的个人信息以一定权重加入到改进的算法中,会使推荐更精确。考虑用户的浏览时长,加入时间权重。而且用户的兴趣也会随时间变化,这样的推荐算法会更精确。参考文献刘佳玮,洪蕾,陈妍,等.基于电影系统的协

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论