![[硕士论文精品]基于混合算法的推荐系统的研究与实现_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f258/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f2581.gif)
![[硕士论文精品]基于混合算法的推荐系统的研究与实现_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f258/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f2582.gif)
![[硕士论文精品]基于混合算法的推荐系统的研究与实现_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f258/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f2583.gif)
![[硕士论文精品]基于混合算法的推荐系统的研究与实现_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f258/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f2584.gif)
![[硕士论文精品]基于混合算法的推荐系统的研究与实现_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f258/d82ed2d0-008f-4d37-bd6e-aaf2c3c0f2585.gif)
已阅读5页,还剩52页未读, 继续免费阅读
[硕士论文精品]基于混合算法的推荐系统的研究与实现.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要随着互联网的普及与快速发展,用户在选择商品时,面临着越来越严重的信息超载的问题。因此,许多网站研究开发了推荐系统为用户进行个性化信息推荐服务。推荐系统向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。随着推荐系统的广泛应用,出现许多问题与挑战,主要包括推荐质量、推荐实时性、数据稀疏性、冷启动等问题。为了解决以上问题,本文着重对推荐系统及其核心的推荐方法进行研究。首先,研究推荐系统。针对推荐质量和实时性要求,构建合理的推荐系统。将推荐系统划分为在线实时推荐和模型处理两部分。用户在线浏览YANGXUN网站时,在线部分实时输出反映用户兴趣的个性化游戏推荐列表。模型处理部分主要根据所收集的数据以及不同的模型算法,得到模型输出,作为在线推荐的依据。特别提出对于新用户和新游戏采用结合不同方法的推荐机制,在一定程度上解决冷启动问题,提高推荐质量。其次,研究推荐方法。推荐方法主要包括基于内容推荐、协同过滤推荐、混合推荐、数据挖掘等方法。其中,协同过滤算法是比较成功的推荐方法。而针对协同过滤推荐算法的效率和质量方面的不足,以及算法存在的数据稀疏性问题和冷启动问题,提出使用结合基于内容的改进推荐方法。将游戏特征信息与用户的偏好结合,得到用户偏好模型。根据用户偏好模型利用支持向量机分类,预测用户的推荐结果。比较分析结果显示结合基于内容的推荐方法在一定程度上解决稀疏性问题,提高推荐效果。此外,结合基于内容的推荐方法可以促进对新游戏的推荐。最后,考虑用户信息对推荐质量的影响,进行改进得到混合算法。用户购买游戏可能不仅仅与商品特征及偏好有关,用户的基本信息如年龄、职业、性别等也具有一定的相关性。考虑将用户信息作为调整加入到分类的结果中,形成混合算法,实验分析得出其推荐质量是以上算法中最好的。另外,对于新用户,即只有用户基本信息没有偏好数据的情况下,可以根据用户信息找到相似用户,解决冷启摘要动问题。关键词推荐系统,近邻聚类,支持向量机,基于内容的推荐、基于用户的推荐、混合算法ABSTRACTABSTRACTWITHTHEDEVELOPMENTOFINTEMET,CONSUMERSMAYBECONFRONTEDWITHTHESERIOUSPROBLEMOFINFORMATIONOVERLOADINGWHENTHEYCHOOSECOMMODITIESTHEREFORE,MANYWEBSITESRESEARCHANDDEVELOPRECOMMENDATIONSYSTEMTOPROVIDECONSUMERSINDIVIDUALRECOMMENDATIONSERVICESTHERECOMMENDATIONSYSTEMWORKSLIKESALESMANWHOGIVESCONSUMERSADVICESANDHELPSTHEMTOFINDWHATTHEYNEEDWITHTHEWIDEUSINGOFTHESYSTEMS,MANYPROBLEMSANDCHALLENGESCOMEOUTFOREXAMPLES,THECONFLICTOFRECOMMENDATIONQUALITYANDREALTIME,SPARSELYOFDATA,COLDSTARTANDETCTHISPAPERRESEARCHESONTHERECOMMENDATIONSYSTEMSANDRECOMMENDATIONMETHODWHICHISTHEHEARTOFTHESYSTEMSTOSOLVETHESEPROBLEMSFIRSTLY,THEPAPERRESEARCHESONTHERECOMMENDATIONSYSTEMSACCORDINGTOTHEPROBLEMSOFRECOMMENDATIONQUALITYANDREALTIMEREQUIREMENT,THESYSTEMMUSTBEBUILTMOREREASONABLYITISCOMPOSEDOFTWOPARTS,THEONLINEREALTIMERECOMMENDATIONPARTANDTHEMODELPROCESSINGPARTTHEFIRSTONEPRESENTSTHERECOMMENDATIONLISTTOTHEUSERSWHENTHEYBROWSETHEYANGXUNWEBSITESTHEMODELPROCESSINGPARTCOLLECTSDATAANDUSESDIFFERENTMODELSTOHAVETHEOUTPUTSOFMODELSWHICHALETHEBASESOFTHEON1INEPARTESPECIALLY,THESYSTEMHASTHEMETHODSTORECOMMENDTHENEWUSERSANDNEWGAMESTHESTRUCTUREOFTHESYSTEMCANHELPTOSOLVETHECOLDSTARTPROBLEMSANDIMPROVESTHERECOMMENDQUALITYSECONDLY,THEPAPERRESEARCHESONTHERECOMMENDATIONMETHODSEXISTINGMETHODSINCLUDECONTENTBASEDRECOMMENDATION,COLLABORATIVEFILTER,MIXEDMETHODDATAMININGANDETCAMONGTHEABOVE,COLLABORATIVEFILTERISUSEDMOREFREQUENTLYANDSUCCESSFULACCORDINGTOTHESPARSELYOFDATAANDCOLDSTARTPROBLEMTHEPAPERADVANCESTHESVMALGORITHMWITHTHECONTENTBASEDRECOMMENDATIONMETHODTHENEWMETHODUSESTHEINFORMATIONOFGAMECHARACTERSANDINTERESTOFUSERSTOPROCESSTHEINTERESTEDMODELTHEMODELISCLASSIFIEDBYNEARESTCLUSTERINGANDSVMANDTHENITPREDICTSTHERESULTOFRECOMMENDATIONCOMPAREWITHCLUSTERINGTHENEWMETHODHELPSTOSOLVETHESPARSELYOFDATAOTHERWISEITIMPROVESTHERECOMMENDATIONOFNEWGAMESFINALLY,CONSIDERTHEINFLUENCEOFUSERINFOLRMATIONTOTHERECOMMENDATIONQUALITY,THEMIXEDMETHODISADVANCEDFURTHERTHEBASICINFORMATIONOFUSERSLIKEAGE,OCCUPATIONANDGENDERARERELATEDTOTHEBEHAVIORSOFPURCHASETHEMIXEDMETHODUSESTHEINFORMATIONTOADJUSTTHERESULTOFCLASSIFIESTHEEXPERIMENTALSHOWTHATTHEMIXEDMETHODISTHEBESTOFTHEOTHERONESMEANWHILETHEMETHODCANSOLVETHECOLDSTARTPROBLEMABOUTNEWUSERSWHOHAVENOTANYINTERESTINGDATATHEMETHODONLYUSESTHEINFORMATIONOFUSERSTOFINDTHEIRSIMILARNEIGHBORSINORDERTOIIIABSTRACTGIVETHEMADVICESKEYWORDSRECOMMENDATIONSYSTEM,NEARESTCLUSTERING,SUPPORTVECTORMACHINESVM,CONTENTBASEDRECOMMENDATION,USERBASEDRECOMMENDATION,MIXEDALGORITHMIV淘宝网购物HTTP/WWW521TAOBAOCOM/同济大学学位论文原创性声明本人郑重声明所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。签名H乡年专魈宇L旯日学位论文版权使用授权书本人完全了解同济人学关于收集、保存、使用学位论文的规定,同意如下各项内容按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文伞文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名嘻匀寺舢7年月侈日经指导教师同意,本学位论文属丁保密,在年解密后适用本授权书。指导教师签名学位论文作者签名年月日年月日第1章绪论第1章绪论11课题研究背景及意义自从20世纪40年代以来,随着计算机技术的发展,人类的信息产业正在以前所未有的速度前进着。尤其是INTERNET和网络技术的发展极大的推动着万维网WWW的迅速普及,V6VW深刻地改变着人们的生活和思维方式,INTERNET己经成为人们不可缺少的信息来源。自1993年以来,INTERNET一直以惊人的速度发展着,从最早仅连接美国的少数几所大学和科研机构,到现在已经几乎触及世界的每个角落,接入INTERNET的站点亦如雨后春笋般地增长。INTERNET己经成为全球最大、也最为方便快捷的数字图书馆。然而与常规图书馆不同,INTERNET是一个高度开放、异构、分布式的信息空间,没有统一的管理,信息杂乱地散布在全球各个站点,而且每天以极快的速度更新。INTERNET信息资源的高度无序性和不可管理性给信息的使用者带来了极大的困难。因此人们迫切的需要开发出能够从INTERNET资源中快速准确的发现知识的工具。传统的INTERNET信息服务为用户使用INTERNET信息资源提供了一些可行的途径。然而,相对于巨大、无序的INTERNET信息空间,每个用户真正感兴趣的信息非常有限,仅仅是INTERNET信息空间的沧海一粟,在传统INTERNET信息服务模式下,用户为了获得真正感兴趣的信息,用户需要耗费大量的时间和精力。搜索引擎是INTERNET上最常见的信息发现工具,相对来说利用搜索引擎更容易获得有效的信息,因此搜索引擎部分地解决了INTERNET资源发现的问题,但由于目前搜索引擎对于同一个查询请求返回的网页链接信息是基本一致的,因此很难满足不同背景、不同目的用户的查询请求,人们不得不花费大量的时间从所给的网页链接中挑选与自己需求相关的信息。例如当在GOOGLE上输入JAVA这个关键字时,返回的结果有58,000,000项查询结果,如此多的选择结果常常会让用户感到无所适从。第1章绪论信息过滤技术能较好的解决“信息过载“和“资源迷向的问题,让人们能够更充分地使用INTERNET上的信息资源。信息过滤INFORMATIONFILTERING是实现信息的个性信息推荐的基础。在信息领域,每个用户都有自己特定的、长期的信息需求,用这些信息需求组成过滤条件,从动态的信息资源流中过滤出符合需求的内容,屏蔽掉无用的信息并进行服务,这种做法就叫做信息过滤。基于信息过滤技术的推荐系统具有良好的发展和应用前景。目前,几乎所有大型的商务系统,如AMAZON,CNNOW,EBAY,DANGDANG等,都不同程度的使用了各种形式的推荐系统。各种提供个性化服务的INTERNET站点也需要推荐系统的大力支持。在同趋激烈的竞争环境下,推荐系统能有效保留用户,提高销售。推荐系统将会产生巨大的经济效益。由于推荐系统的诸多优点,它得到了越来越多的关注,并且在理论和实践方面都得到了很大发展。同时推荐系统也面临一系列挑战。针对推荐系统面临的主要挑战,本文将对推荐系统中的推荐算法进行一定的探索和研究。12推荐系统介绍随着互联网的普及发展,推荐系统逐渐成为IT技术的一个重要研究内容,得到越了来越多研究者的关注。从1999年开始,ACM的数据挖掘特别兴趣组SIGKDD小组设立WEBKDD研讨组,主题集中在WEB挖掘技术和推荐系统技术。而ACM下面的信息检索特别兴趣组SIGIR在召开的第24届研究和发展会议上,专门把推荐系统作为一个研讨主题。第7届国际人工智能联合会议IJCAIOI则把EBUSINESSTHEINTELLIGENTWEB作为一个独立的研讨小组。99年召开的人机界面会议CHL99专门设立推荐系统特别兴趣组。同时,第十五届人工智能会议AAAI98、第一届知识管理应用会议PAKM也纷纷开始将推荐系统作为研究主题。推荐系统中的推荐技术主要包括基于内容的过滤、协同过滤和基于数据挖掘的过滤三种。基于内容的过滤是信息检索领域的重要研究内容。基于内容过2第1章绪论滤的推荐系统需要分析资源内容信息,根据用户兴趣建立用户档案PROFILE,然后根据资源内容与用户档案之间的相似性向用户提供推荐服务。使用智能代理技术,利用智能代理获取用户兴趣信息,分析用户的特定需求,提供推荐服务。也可以利用不确定推理进行搜索引擎人性化的研究,构建了一个基于正规文法的不确定性推理方法,以一个人正在访问的主题兴趣为文法的开始符,把相同兴趣群体中其他人喜好的、与该主题兴趣有关的网页,构成一个推荐序列集,并推荐给用户。BAYESIAN概率模型、遗传算法以及其它机器学习技术也被广泛应用于用户档案的建立和更新。基于内容过滤的推荐技术具有一定的局限性。主要表现在必须分析资源的内容信息,因此对音乐、图像、视频等信息无能为力,无法分析信息的质量,无法提供新颖的推荐。针对上述问题,研究者提出了协同过滤推荐技术。协同过滤,又称社会过滤SOCIALFILTERING,其基本思想十分直观在日常生活中人们往往会根据亲朋好友的推荐来做出一些选择购物、阅读、音乐。协同过滤系统就是将这一思想运用到网络信息服务信息推荐中,基于其他用户对某一信息的评价来向某一用户进行推荐。在早期的协同过滤推荐系统中,用户之间需要相互了解对方的兴趣爱好。随着研究的深入,研究者提出了自动化协同过滤推荐技术。推荐系统的推荐质量是推荐系统成功与否的关键。经典协同过滤推荐技术根据用户之间的相似性产生推荐结果。KARYPIS等人提出根据项之间的相似性提供推荐服务,从而有效提高推荐质量。有研究者提出通过图搜索计算用户最近邻居的优化算法。还有人对各种用户间相似性度量方法进行了分析,提出了各种改进方法。用户评分数据的稀疏性是导致推荐系统推荐质量下降的主要原因。针对这一问题,研究者提出使用奇异值分解技术减少项空间的维数,从而有效改善用户评分数据的稀疏性。还有研究者提出通过对稀疏数据的关联分析可以有效提高推荐质量。传统的协同过滤推荐技术根据用户显式评分产生推荐结果,由于用户使用不方便,许多研究者提出可以通过WEB挖掘技术获取用户隐式评分。通过WEB第1章绪论日志挖掘提供推荐服务。以及提出通过URL聚类产生推荐的方法。各种数据挖掘方法如关联规则挖掘技术,聚类挖掘技术被广泛的应用于WEB日志分析中以提高推荐精度。协同过滤推荐技术也存在自身的不足。主要表现在用户评分数据比较少的时候推荐质量比较低。因此多种数据多种技术的有效集成得到研究者的重视。BALABANOVIC等人提出通过基于内容的过滤和协同过滤的复合型推荐系统提高推荐质量。他们提出基于WEB使用挖掘和WEB内容挖掘的推荐系统,以及同时使用智能代理技术和协同过滤技术提供推荐服务的方法。同时有人提出在推荐系统中增加产品语义信息,从而提高推荐系统的推荐质量。13现有推荐系统实例推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著名研究机构和研究者的关注,出现了大量研究型推荐系统实例ACFACTIVECOLLABORATIVEFILTERING系统是CANNEGIEMELLON大学开发的主动协同过滤推荐系统,用于电子文档推荐。ACF系统通过指针实现协同过滤推荐服务,指针包含指向电子文档的超链接、电子文档的上下文信息以及用户撰写的电子文档评论。在ACF系统中,用户可以通过主动的方式将创建的索引推荐给其他可能感兴趣的用户,也可以将创建的索引保存在系统中供其他用户查看。ACF系统也只适用于用户群体比较小的场合。FAB是STANFORD大学数字图书馆项目组开发的基于内容过滤和协同过滤的复合型推荐系统,用于推荐WEB页面。其特点是综合了基于内容过滤的推荐和协同过滤推荐的优点,同时支持两种类型的推荐服务。FAB系统主要包括页面收集代理,个人推荐代理和中心路由器几个部分。页面收集代理从WEB上收集特定主题的页面,个人推荐代理从特定主题中选择用户感兴趣的页面推荐给用户。个人推荐代理根据文档内容信息建4第1章绪论立用户的用户档案,然后根据用户档案之间的相似性搜索用户的最近邻居。推荐结果可以基于用户PROFILE中的内容信息产生,也可以基于用户最近邻居的评价信息产生。MOVIELENS是MINNESOTA大学开发的研究型自动协同过滤推荐系统,用于推荐电影。与GROUPLENS不同,MOVIELENS系统是一个基于WEB的推荐系统,系统通过浏览器的方式进行用户评分数据收集与推荐结果显示,用户使用更加方便。GROUPLENS由MIT开发的自动协同过滤推荐系统,用于新闻组信息推荐。GROUPLENS系统通过用户的评分信息自动搜索用户的最近邻居,然后根据最近邻居的评分信息产生最终的推荐结果,适合于用户数量比较大的场合GROUPLENS系统具有极好的开放性,用户可以通过GROUPLENS系统提供的API函数向GROUPLENS服务器提供评分信息,请求推荐结果。同时,GROUPLENS系统提供三种客户端工具EMACSGNUS,NN和NEWSWATCHER达到上述目的。14本文组织结构本文先引入推荐系统及其相关概念和知识,简要介绍当前推荐系统最为普遍采用的技术及方法,讨论了推荐系统产生的原因、推荐系统的重要性和紧迫性和推荐系统的良好前景。分析了目前推荐系统的主要研究内容、技术流派和研究现状,并给出了现有推荐系统的实例和分析。第二章开始主要讨论目前现有推荐系统的研究内容和主要方案,包括非个性推荐、基于属性的推荐、资源相关性推荐和用户相关性推荐。分析了基于协同过滤、基于内容过滤和基于数据挖掘的推荐系统的不同思想和流程。第三章主要讨论了推荐系统的基本框架,在游戏推荐应用中的应用方法,包括对于输入数据、模型数据、输出数据的处理以及模型的处理。分析了现有主流推荐系统的主要存在的问题,提出了基于近邻聚类和支持向量机模型的混第1章绪论合推荐模型。介绍了近邻聚类算法和支持向量机算法,并对如何在游戏推荐系统中进行应用作了说明。第四章阐述了游戏推荐系统的具体实现,包括系统架构和系统流程,分析了在实现中的数据融合,包括用户评分数据与商品特征数据的结合、用户偏好的数据转化、用户信息处理鞔问题。讨论了如何实现用户与新游戏预测推荐、如何实现新用户的推荐算法。并分析了在实现中的算法参数选择方法。第五章介绍了系统评价方法和评测依据,并对游戏推荐系统的推荐进行了测试和比较评价,分析了采用混合推荐系统对推荐的影响。第六章回顾本文的研究工作,并给出了进一步的总结展望。6第2章推荐系统研究概述第2章推荐系统研究概述21推荐系统研究内容推荐系统以用户为中心,为用户提供服务,可以根据用户获得推荐系统推荐的自动化程度和持久性程度对推荐系统进行分类自动化程度用户为了得到推荐系统的推荐是否需要显式的输入信息,自动化程度分为自动化方式和手工方式。持久性程度推荐系统产生推荐是基于用户当前的单个会话还是基于用户的多个会话。根据用户获得推荐的自动化程度和持久性程度,可以将将推荐系统分为非个性化推荐系统,基于属性的推荐系统,资源相关性推荐系统和用户相关性推荐系统。非个性化推荐系统向当前用户提供的推荐结果可能基于其他用户对资源的平均评价,或者基于访问排行,或者基于编辑推荐。这种推荐技术独立于各个用户,每个用户得到的推荐都是相同的。非个性化推荐系统属于自动化方式推荐,产生的推荐基于用户的单个会话。典型例子包括AMAZON提供的AVERAGECUSTOMERRATING推荐,EBAY提供的CUSTOMERCOMMENTS推荐。基于属性的推荐系统根据资源的属性特征向用户产生推荐列表,这种推荐系统类似于搜索引擎,用户需要手工输入所需资源的属性特征基于属性的推荐系统需要用户显式输入资源的属性特征,因此属于手工方式推荐。产生的推荐可以基于用户的单个会话,也可以基于用户的多个会话。典型例子包括AMAZON提供的DELIVERS推荐,REEL提供的MOVIEMAP推荐。资源相关性推荐系统根据资源之间的相关性向用户产生相应的推荐。7第2章推荐系统研究概述资源相关性推荐系统可以是全自动化推荐系统,也可以是全手工方式推荐系统。这种推荐技术一般是基于用户的单个会话。典型例子女HHMAZON提供的CUSTOMERSWHOBOUGHTTHISBOOKALSOBOUGHT推荐,CDNOW提供的ALBUMADVISOR推荐。用户相关性推荐系统又称为协同过滤推荐系统,这种推荐系统首先搜索当前用户的最近邻居,然后根据最近邻居的访问历史或评分信息向当前用户产生推荐。用户相关推荐一般不需要用户显式输入信息。产生的推荐一般是基于用户的多个会话。典型例子包括AMAZON提供的BOOKMATCHER推荐,MOVIEFINDER提供的WEBPREDICT推荐。22推荐系统的实现技术途径推荐系统的关键技术主要包括信息检索IR,INFORMATIONRETRIEVAL技术和信息过滤IF,INFORMATIONFIITERING技术。与信息检索不同,信息过滤对动态信息进行筛选,着重排除不希望得到的信息,带有即时性。虽然实现技术及其相似,但信息检索和信息过滤所完成的任务完全不同。信息检索信息检索技术一般是指根据用户需求,从大规模的相对静止的数据库中检索用户需要的信息,主要满足用户瞬时的信息需求。信息检索技术主要用于相对静止的信息存储领域。例如,当用户在数字图书馆中进行检索时,用户提交的关键字反映了用户当前的信息需求,数字图书馆中的搜索引擎根据预先建立好的内容索引,检索出用户需要的信息。信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内容进行分析,从而将资源内容表示为计算机可处理的数据结构的过程。查询技术是根据用户需求,查询用户需要的资源信息。其研究内容主要包括查询语言设计研究、可视化查询接口研究、用户请求与资源信息的匹配研究等。在很多情况下,索引技术和查询技术是重叠的,查询技术依赖资源信息所采用的索引结构。第2章推荐系统研究概述信息过滤信息过滤技术一般用于用户需求相对不变,但信息动态更新比较频繁的情况。信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的长期信息需求提供信息过滤服务。用户的兴趣模型可用用户档案PROFILE文件的形式表示。信息过滤系统将动态信息与用户档案文件进行匹配,根据匹配结果返回用户需要的信息。信息过滤与信息检索的区别主要包括信息过滤面向用户长期的信息需求,而信息检索技术面向的是用户短期的、实时的查询。信息过滤用档案文件表示用户的信息需求特征,而信息检索技术是用关键词表达用户的查询请求。信息过滤中用户需求相对不变,但用户访问的是动态数据流,是从动态数据流中选择数据信息检索技术访问的是相对静止的数据,但用户需求却具有瞬时性。221基于协同过滤的推荐系统协同过滤推荐算法是至今为止最成功的个性化推荐技术,被应用到很多领域中。协同过滤分析用户兴趣,在用户群中寻找指定用户的相似兴趣用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度进行预测。协同过滤的实现一般分为两步首先,获得用户信息,即获得用户对某些信息项的评价;其次,分析用户之间的相似性并预测特定用户对某一信息的喜好。协同过滤COLLABORATIVEFILTERING是基于这样的一种假设为一用户找到他真正感兴趣内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本思想非常直观在日常生活中,人们往往会根据亲朋好友的推荐来做一些选择购物、阅读、音乐等。协同过滤系统就是将这一思想运用到网络信息服务信息推荐中,基于其它用户对某一9第2章推荐系统研究概述信息的评价来向用户进行推荐。协同过滤的基本出发点是1用户是可以按兴趣分类;2用户对不同的信息评价包含了用户的兴趣信息;3用户对一个未知信息的评价将和其相似兴趣用户的评价相似。这三条构成了协同过滤系统的基础。在个性化推荐系统中,协同过滤技术是目前应用最广泛且效率较高的技术。协同过滤技术也称为面向用户USERBASED的技术,它通过比较当前用户与其他用户的兴趣文件的相似度计算出用户间的相似度,生成与当前用户行为兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推荐结果。协同过滤系统的推荐是与项的内容无关的,事实上,用户所看到的项只是一个唯一性的标示符而己。基于协同过滤技术的推荐过程可分为3个阶段用户兴趣文件表示;计算当前用户与其它用户的相似度生成“最近邻居”集;产生推荐数据集。用户兴趣文件表示由于基于协同过滤技术的推荐是建立在用户的相似度比较的基础上,因此,我们关心的是其它用户对待推荐项的评估值,而不是项的内容描述。在一个典型的基于协同过滤技术的推荐系统中,输入数据通常可以表述为一个MXN的用户一项评估矩阵AM,N,M行代表M个用户,NN代表13个项目,第I行第J列的元素RI,I代表用户I对项目J的评估数值,评估值与项的内容有关,如果项是电子商务中的货品,则表示用户订购与否,例如1表示订购,O表示没有订购;如果项是WEB文档,则表示浏览与否,用户对它的兴趣有多高,这样的评估值可以分为几个等级如15等。用户评分数据矩阵如下表所示ITEMLITEMKITEMNUSER1R1,1R1,K7RI,1RI,NUSERMRM,KRM,NIO第2章推荐系统研究概述相应的,用户兴趣文件PROFILE可由该用户对已知项的评估组成,即PRL,R2,FILL,其中,M为该用户所评估过的项的总数,R1为用户对文档的评估值。生成最近邻居集计算用户间相似度并依据相似度生成“最近邻居”集是基于协同过滤技术的推荐系统的核心。通常,我们使用PEARSON相关系数或者向量空间相似度方法计算用户间的相似度。令R。,表示用户对文档的评估值,则使用PEARSON相关系数来计算用户X,Y的相似度的方法如下尺州一R,尺,D一尺,其中,R“是用户X,Y的相关度,疋表示用户X的评估值的平均值,R,表示用户Y的评估值的平均值。向量空间相似度的计算方法是将两个用户X和Y看作向量空间中的两个向量,通过计算两个向量的夹角的余弦来衡量相互之间的相似度,具体的方法如下啦川2衔与当前用户兴趣最相似的用户构成“最近邻居集“。邻居用户的最终确定有两种方法一是根据预先确定的相似度阈值,选择相似度大于阈值的作为邻居用户;二是根据预先确定的邻居数N,选择相关度最大的前N个用户作为最近邻居用户。第2章推荐系统研究概述上图演示了协同过滤中邻居的一种形成过程计算当前用户和其他用户之间的相似性,如计算欧几罩德距离。上图中与当前用户为中心的K5个最近用户被选择为邻居。最近邻查询是整个基于用户的协同过滤推荐算法的核心部分,其效果和效率在很大程度上决定了基于用户的协同过滤推荐算法的效果和效率。最近邻查询阶段实质上就是基于用户的协同过滤推荐算法的模型建立阶段。产生推荐集“最近邻居”集产生后,可计算出两类推荐结果当前用户U对任意项的兴趣度的预测值和TOPN推荐集。当前用户U对任意项的兴趣度的预测值的计算,设用户U的己选项集为,。,则其对任意项F,F芒J。的兴趣度的预测值计算通用公式如下一CORRIXRATINGFIPREDICTION“上L一NCORRIILU是用户对项T的平均评估值,I是“最近邻居”集中的用户。CORR,是用户U和用户I2_间的相似度,RATING。是用户I对项T的评估值。I是用户I对项T的平均评估值。通过上述方法预测用户对所有未评分项的评分,然后选择预测评分最高的前若干个项作为推荐结果反馈给当前用户。12第2章推荐系统研究概述222基于内容过滤的推荐系统基于内容过滤的推荐系统利用信息内容如文本文档和用户兴趣的相似性来过滤信息。基于内容的推荐,又被称为基于信息过滤的推荐,是由信息检索INFORMATIONRETRIEVE领域提出来的,因而使用了许多IR领域的技术。基于内容的推荐的基本思想是对每个用户都用一个称作用户的兴趣模型USERPROFILE的文件构成数据结构来描述其喜好;对每个项目的内容进行特征提取FEATUREEXTRACTION,形成特征向量FEATUREVECTOR;当需要对某个用户进行推荐时,把该用户的用户兴趣模型同所有项目的特征矩阵进行比较得到二者的相似度,系统通过相似度推荐文档。有些系统还收集用户的反馈信息以利于维护用户兴趣文件。基于内容过滤的系统的关键在于待过滤文档的特征提取即文档的表示,用户兴趣模型的表示和相似度的计算。文档的表示通常采用向量空间模型。首先,我们假设文档中的字或词在确定文档类别的作用上相互独立,则根据“贝叶斯假设”,可用文档中出现的字或词的集合来代替文档,我们称这些字或词为文档的特征项。这样做虽然会丢失掉很多语义信息,但是它可使文档的表示和处理形式化,在信息过滤过程中取得较好效果。任意的特征项I,因其对文档表示的重要性不同而具有不同的权重暇空间。向量模型的基本思想是以向量嵋,吧人来表示文档。权值彬有多种计算方法,常用方法为TFIDF公式,如一、一11092邪,L。92,WT,DF三刍兰一J1LOGZ抓删L092,】2其中,WT,D为特征项F在文档D中的权重,而FFT,D为特征项T在文档D中出现的频率,N为文本文档的总数,聆,为在文档集中出现特征项T的文档数,分母为归一化因子。第2章推荐系统研究概述用户的兴趣模型PROFILE同样用向量表示,包含任意M个词的兴趣模型用向量PTL,T2,TM表示。对于向量空间模型来说,相似度计算的传统做法是计算两向量间的余弦相似度COSINESIMILARITY,用户U和D的相似性可定义如下3雨UD其中,U是表示用户U的兴趣模型的向量,D为表示文档D的向量,州籼IIL两个向量的模,表示点积。系统把与用户兴趣模型相似性高的文档推荐给用户。223基于数据挖掘的推荐系统数据挖掘DATAMINING,也称数据库中的知识发现,是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘技术可以提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等。数据挖掘综合运用了机器学习、模式识别、统计学、人工智能等众多学科的知识。从1989年数据挖掘概念提出到目前为止,数据挖掘技术在理论和应用上都己经得到了巨大的发展,应用在各个不同的领域,例如电信、银行、保险、证券、医疗、零销等。如今,数据挖掘的许多方法也成功运用到推荐系统当中。数据挖掘过程一般有三个主要的阶段组成数据准备、数据挖掘、结果表达和解释。数据挖掘可以描述为上述三个阶段的反复过程。数据挖掘是一个多学科领域,其采用的技术来自各个不同的领域,主要的数据挖掘方法包括统计分析方法利用统计学和概率论对关系中各个属性进行统计分析,找出它们之间存在的关联。人工神经网络模仿生物神经网络,通过训练进行学习的非线性预测模型,可以完成分类,聚类等多种数据挖掘任务。决策树用树型结构表示决策集合,决策集合通过对数据集分析产生。14第2章推荐系统研究概述一些典型的决策树方法如分类回归树,主要用于分类挖掘。遗传算法一种新的优化技术,基于生物进化的概念设计了一系列过程来达到优化的目的,包括基因组合,交又,变异和自然选择。粗糙集粗糙集是一种处理模糊和不确定性问题的新型数学工具,粗糙集可以用于数据挖掘中的数据简化、关联规则挖掘等。模糊逻辑模糊逻辑融合了模糊集合二值逻辑概念。在数据挖掘中,模糊逻辑可以用来进行证据合成、置信度计算等。最近邻技术这种技术通过K个最相似的历史纪录的组合来辨别新的纪录。可以用于聚类分析、偏差分析等。规则归纳通过统计方法归纳,提取有价值的IFTHEN规则,用于关联规则挖掘。可视化采用直观的图形方式将信息模式、数据关联或趋势呈现给决策者,决策者可以通过可视化技术交互式分析数据关系。随着电子商务的应用,数据库中可以收集到大量的用户数据,如用户交易数据,用户注册数据、用户评分评价数据、用户投票数据等。同时,服务器中也保存着用户访问电子商务系统的日志数据、用户购物篮信息等,这些数据中蕴含着丰富的知识,基于数据挖掘的推荐是通过数据挖掘技术对用户行为和用户属性进行学习,从中获取有价值的知识,根据得到的知识产生推荐。电子商务推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类关联规则关联规则挖掘发现大量数据中项目之间有趣的关联或相互联系。基于关联规则的推荐算法根据生成的关联规则推荐模型和用户的购买行为向用户产生推荐。关联规则推荐模型的建立是离线进行,因此可以保证有效推荐算法的实时性要求。关联规则挖掘的一个典型例子就是购物篮分析。分类分类挖掘模型根据用户的输入信息将之划分为相应类别。分类挖掘模型可以通过多种机器学习方法实现,如聚类、BAYESIAN网络等。聚类帮助分析人员从用户基本库中发现不同的用户群,并且用购买模式来第2章推荐系统研究概述刻画不同的用户群的特征。用于推荐系统就是将具有相似爱好的用户分配到相同的群中,聚类产生之后,根据群中其他用户对某商品的评价就可以得到目标用户对该商品的评价。聚类过程的运行速度慢,一般离线进行,但是聚类一旦产生以后,性能比较好,推荐精度较高。当然如果某用户处于一个聚类的边缘,则对该用户的推荐精度比较低;BAYESIAN网络技术利用训练集创建相应的模型,模型用决策树表示,节点和边表示用户信息。这个模型的建立很耗费时间,但是模型却很小,推荐效率很高,而且推荐效果和最近邻技术一样精确。但是在顾客的兴趣变化很快环境下不适用,这种方法不能快速反映数据的变化。16第3章混合推荐系统方案第3章混合推荐系统方案31游戏推荐系统本文研究的基于混合算法的个性化游戏推荐系统是YANGXUN公司的游戏推荐系统,该系统属于完全个性化推荐系统,利用数据挖掘与混合推荐相结合的方法。综合考虑推荐过程中存在的推荐质量、实时推荐以及冷启动等问题,建立了一个具有适应性与扩展性的推荐系统。311推荐系统的基本框架由于游戏推荐系统本身的复杂性,为保证推荐质量和实时性,要求构建合理的推荐系统。基于混合算法的个性化游戏推荐系统属于完全个性化推荐,采用混合算法,为注册用户提供个性化的服务。其中,推荐系统需要管理游戏信息、用户注册信息、评分等数据以及推荐方法、模型、结果等内容。考虑到推荐方法运行效率和推荐实时性的要求,将系统分为在线实时推荐和模型处理两部分。在线是对于访问用户而言。模型处理可以不实时进行,从而有利于提高推荐系统的执行效率。模型处理部分主要根据推荐方法处理数据得到模型,当用户浏览网页时,在线推荐会依据模型结果实时输出推荐列表反馈给用户。在线推荐部分根据不同的情况,执行不同的推荐策略。特别是对于新用户和新游戏采用不同推荐方法,在一定程度上解决冷启动问题,提高推荐质量。推荐系统的基本框架如图31所示。17第3章混合推荐系统方案用户312推荐系统的适用性户信息荐结果图31推荐系统基本框架输入输出基于混合算法的个性化游戏推荐系统主要的功能是收集用户信息、游戏信息以及对游戏的评价信息,经过模型处理,为用户提供推荐列表。推荐系统适用于一般游戏提供商网站,由游戏提供商YANGXUN公司提供商品的各类信息,根据客户注册信息采集用户个人信息,根据用户对不同游戏的评价,预测其感兴趣的游戏。推荐系统目的是方便用户选择游戏,促进游戏下载。由于不同的推荐技术在特定类型的推荐系统中,会获得较好的效果,具有一定的适用性范围。本文采用的混合算法是适用于游戏推荐系统的。对于游戏来说,一般不能通过规范的形式全面描述出,而是需要依据用户感受描述。用户选择一种游戏类型后,根据用户一系列信息,反馈给用户该类型的游戏推荐列表。随着YANGXUN游戏网络的扩大与发展,越来越多游戏需要用户主观描述,而且用户的评价信息对于其他用户的选择影响力越来越大。因此,推荐系统的适用范围也会随之而扩大,具有一定的可扩展性。下面具体介绍游戏推荐系统需要管理的数据以及运行过程。313基于混合算法的个性化游戏推荐系统数据管理推荐系统需要根据YANGXUN网站中存在的大量数据进行分析,系统管理的数第3章混合推荐系统方案据主要包括输入数据、模型数据与输出数据。3131输入数据推荐系统的输入包括用户信息、游戏信息、用户评分信息。用户信息游戏推荐系统需要收集用户的信息作为推荐算法的依据。本文研究的推荐系统中的用户数据是通过收集用户登录系统后填写的个人信息获得的。用户信息包括用户标示USERID,登录密码USERPASSWORD,年龄AGE,性别GENDER,职业OCCUPATION,住址ADDRESS,电子邮件EMAI1。游戏信息推荐系统需要为用户推荐其可能感兴趣的游戏信息,同时根据游戏信息和相应的推荐算法预测用户兴趣度。本文的推荐系统针对游戏信息的推荐,因此游戏信息主要包括游戏编号GAMEID,游戏名称GAMENAME,上市日期RELDATE,游戏类型GAMETYPE。用户评价信息推荐系统的采集用户对游戏评价的数据信息,作为推荐算法的重要输入内容。用户对游戏的评价可以是多种类型的,如文字形式的描述、模糊评价不好、一般、好、很好或直接评分的形式。本文采用的是用户对游戏评分的方法。评价信息包括用户标示USERID,游戏编号GAMEID,评分RATING,时间标示TIMESTAMP3132模型数据1模型输入数据推荐系统的核心是推荐算法模型,但由于不同算法要求输入数据不同,因此在进行计算时需要将系统的输入数据进行预处理,整理为模型输入数据。主要包括用户、游戏、评分数据。用户数据将用户信息转化为算法模型需要的形式,具体包括用户标示USERID,年龄段AGERANGE,性别标示GENDERDATA,职业标示19第3章混合推荐系统方案OCCUPATIONDATA其中年龄,性别与职业分别是对应用户信息经过模型数据预处理后的数据形式。游戏数据将游戏信息转化为模型要求的形式,包括游戏编号GAMEID,类型LTYPEL,类型2TYPE2,类型MTYPEM。其中游戏类型是根据游戏信息转化而来,将不同的类型表现为不同的字段,每部游戏类型表现为一行01向量的形式。评分数据用户评分数据需要进行处理成为评分矩阵的形式,用户编号USERID,游戏1评分GAMERATIN91,游戏评分2GAMERATIN92,游戏评分KGAMERATINGK。其中每位用户的评分数据表示成行向量的形式。2模型输出数据模型结构数据推荐系统利用推荐算法计算输入数据,得出算法模型的结构组成数据,作为预测的依据。模型标示MODELID,基于算法的权重W,模型参数用户分类数据模型输入数据经过算法处理后,得到分类结果。包括两部分内容,一部分是原有用户的分类结果,用户编号USERID,模型标示MODELID,分类编号CLASSID。另一部分是分类的评分结果,模型编号MODELID,分类编号CLASSID,游戏1评分GAMECLASSRATIN91,游戏2评分GAMECLASSRATIN92,游戏K评分GAMECLASSRATINGK。3133输出数据根据推荐系统的应用不同,采用不同的模型,主要产生三种输出结果用户预测评分数据推荐系统的输出是应用模型进行用户预测后,输出推荐结果。根据推荐系统的输入数据和模型数据,计算得到预测用户的推荐结果。用户编号USERID,模型标示MODELID,分类编号CLASSID,游戏编号GAMEID,评分GAMECLASSRATING。第3章混合推荐系统方案预测新游戏用户数据根据新游戏的特征和用户评分信息,预测可能感兴趣的用户类。游戏编号GAMEID,用户编号USERID,模型编号MODELID。预测新用户评分数据根据新用户以及原有用户数据,预测用户评分结果。用户编号USERID,模型编号MODELID,游戏编号GAMEID,评分GAMECLASSRATING。314模型处理部分推荐系统的模型处理部分对于访问用户是不可见的。由于游戏网站的数据量庞大、增长迅速,使得算法模型在处理上会耗费较长时间。系统资源消耗很大,严重影响了推荐的实时性。因此,推荐系统采用离线计算模型,产生模型输出结果。在线推荐时利用模型结果和系统输入数据,返回给用户推荐结果。模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的限制值时,需要重新处理模型。1数据预处理根据不同算法的要求处理数据,将系统输入数据处理为模型输入数据。2模型计算推荐系统根据数据量的变动,定期运行模型,计算更新数据,修改模型输出结果,保证推荐质量。315在线推荐部分个性化游戏推荐系统的主要任务是根据用户的个人喜好,推荐游戏。在线推荐主要的功能是分析推荐的类型,选择相应的算法模型的输出结果与输入数据结合预测出推荐结果,并反馈给用户。主要过程如图32所示。2L第3章混合推荐系统方案图32在线推荐过程1选择模型推荐系统根据推荐的类型,选择不同模型,主要包括三种推荐评分用户的推荐如果是系统中已存在评分的用户,根据其评分数据、商品数据以及用户数据选择用于分类的模型。新商品推荐新商品是指原有推荐系统不存在有关该商品的任何用户评分数据以及商品特征数据。对于新商品的推荐根据输入的商品特征运用基于内容的分类模型进行分析。新用户推荐新用户是指推荐系统中不存在其任何评分数据,包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户。对于新用户的推荐采用依据用户信息的模型。2预测推荐根据模型的输出结果和输入的数据进行计算,预测推荐结果。在线推荐采用的是实时推荐模式的进行推荐。当用户登录推荐系统网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的游戏,直接反馈给用户其最可能感兴趣的游戏列表的前LO名。第3章混合推荐系统方案32混合推荐的方案特点在目前已有的各种推荐系统,基于协同过滤的推荐技术和基于内容的推荐技术已经取得了比较好的效果,并且各自都有了自己的原型和应用。但是经过我们对推荐问题本身的不断研究和应用,我们认为现有的这些方法都存在着各自的局限性。基于协同过滤技术的推荐系统不分析不同项目间的相似性,而是学习顾客购买行为之间的相似性。由于它不依赖于项目的特征,因此它可以推荐从表面特征上看上去不同但事实上有很大相关性的项目。而且更重要的是它可以根据顾客购买行为数据的不断积累,来更新和增加自己的知识。但是同时它也有自己的缺陷稀疏性问题。基于协同过滤技术的推荐系统依赖于大量的用户兴趣评估数据,但是通常每个用户都只对很少的项目做出评价,整个项目用户评估矩阵非常稀疏。这样,协同过滤推荐系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年人力资源管理师考试试题集
- 2025年炼油工艺高级操作工面试模拟题及答案详解
- 2025年焊接变形控制与处理技巧面试题详解
- 安徽三联学院《西方经济学(微观)》2024-2025学年第一学期期末试卷
- 2025年初入炼油行业必-备操作工初级岗位面试指南及问题解答
- 2025年程序员面试必-备知识笔试题目及答案
- 2025年心理咨询师考试要点解析案例分析实战训练
- 2025年特岗教师招聘考试初中生物模拟题及解析
- 2025年地方教育系统公招教师考试笔试预测试题及答案解析
- 西安电子科技大学《基本统计分析软件应用》2024-2025学年第一学期期末试卷
- 2025年药品知识科普试题(附答案)
- 2025《煤矿安全规程》新旧对照专题培训
- 【艾瑞咨询】2024年中国健康管理行业研究报告494mb
- 堤防工程重点难点
- 卸料平台(落地搭设)验收记录表
- 2022版义务教育英语课程标准之学业质量标准与考试评价解读PPT
- 新媒体研究方法教学ppt课件(完整版)
- 监理工作流程图及监理工作制度
- 《文殊真实名经》
- 二年级上册口算表内乘法练习50道x20份
- 调试作业安全技术交底
评论
0/150
提交评论