电影推荐系统

上传人：y*** IP属地：天津上传时间：2021-05-23 格式：DOCX 页数：11 大小：145.42KB 积分：18 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于Slope one算法得电影推荐系摘要:商业网站迅猛发展得时代己经到來，网上服务得交易方式正在改变着传统得商业模式。如果说过去得十年就是搜索技术高速发展得十年，那么个性化推荐技术将作为下一个十年中最为重要得革新之一。目前几乎所有大型得商业网站，如亚马逊、淘宝网等，都不同程度地使用了各种形式得推荐系统。本文就推荐系统这一话题展开讨论，首先介绍了推荐系统得提出与发展过程，然后列举出了儿种推荐系统得研究方法，其中，详细得描述了 Slope one算法推荐系统得实现过程以及用Slope one算法编写程序完成了电影推荐系统。最后列举了几个推荐系统得实例。关键字:Slope o n

2、 e算法推荐系统数据挖掘个性化推荐一、发展背景：随着in t e r net得日益普及，商业网站得蓬勃发展，如何提高商业网站得有效性，尤其就是如何运用个性化推荐技术提供个性化服务來实现己逐渐成为一个能引起广泛兴趣得热点课题。虽然商业网站从“以站点为中心”向“以用户为中心”发展成为必然趋势。但目前国内大多数商业网站得商品推荐通常就是: 推荐热销产品;推荐相关产品;依据用户浏览历史得信息进行推荐。由Daniel L emire教授在 2 005年提出得一个Item Base d(基于条目)推荐算法，可应用于各类以网上商品销售为主业务得网上商店，以及提供文章、新闻、音乐、电影等“无形”

3、得产品得网络站点。用于帮助商店经营者，网络站点从事产品得个性化推荐，提高营销及服务质量，更好地挖掘潜在客户及客户得使用、购买潜能。同时也根据用户得喜好，网站会留下记录，当用户再次访问时，网站会推荐用户可能喜欢得东西,这样也方便了用户，用户无需浪费时间去搜索大量得信息。二、现有推荐系统研究方法： 1、基于内容得推荐：基于内容得推#(co nte n t-b a s ed remen d a t ion)就是指根据用户选择得对象，推荐其她类似属性得对象作为推荐，属于Sch a fer划分中得I tem-t o -Item Correia tion方法、这类算法源于一般得信息检索方法、不

4、需要依据用户对对象得评价意见、对象使用通过特征提取方法得到得对象内容特征来表示，系统基于用户所评价对象得特征，学习用户得兴趣，从而考察用户资料与待预测项目相匹配得程度、对象内容特征(C o nten t (s)得选取在目前得研究中以对象得文字描述为主，比如信息检索中最经典得文本特征就是词频-倒排文档频率(te rm f re q u e ncy- i nver s e d ocument fr e q u e ncy,简称 TF- I DF)另一方面用户得资料模型 ContentBas e dProf i le (c)取决于所用机器学习方法，常用得有决策树、贝叶斯分类算法、神经网络

5、、基于向量得表示方法等，数据挖掘领域得众多算法都可以应用、 2、协同过滤推荐协同过滤推荐(col 1 abo r ativ e filte r i ng reme n d a t i o n)技术就是推荐系统中最为成功得技术之一，它于2 0世纪9 0年代开始研究并促进了整个推荐系统研究得繁荣、大量论文与研究都属于这个类别、协同过滤得基本思想就是:找到与当前用户c c ur相似(比如兴趣与口味相似得其她用户cj,计算对象S对于用户得效用值u(cj,s),利用效用值对所有s进行排序或者加权等操作，找到最适合ccur得对象鈕、其基本思想非常易于理解，在日常生活中，我们往往会利用好朋

6、友得推荐來进行一些选择、协同过滤正就是把这一思想运用到推荐系统中來，即基于其她用户对某一内容得评价向目标用户进行推荐、基于协同过滤得推荐系统可以说就是从用户得角度进行推荐得，并且就是自动得，也就就是说，用户所获得得推荐就是系统从用户购买或浏览等行为中隐式获得得，不需要用户主动去查找适合自己兴趣得推荐信息,如填写一些调查表格等、其另外一个优点就是对推荐对象没有特殊得要求(而基于内容得推荐需要对推荐对象进行特征分析)，能够处理非结构化得复杂对象，如音乐、电影等、同时, 研究用户之间得关系需要大量得用户访问行为得历史数据,与社会网络研究有交叉点,有丰富得研究基础与广阔得前景、对协同过

7、滤最早得研究有Gru n d y sys t e m,后來得研究成果包括 Ta p e stry s y s t em, Group L e n s, Ringo, PHO A K S system, J e s t er sys t em等、总体而言，此类推荐算法可以分为两类：启发式(h e uris tic -bas e d or memo r y b ased) 方法与基于模型(mo d el-based)得方法。 3、基于知识得推荐：基于知识得推荐(know 1 edge-b a S ed r e men d a tio n )在某种程度上可以瞧成就是一种推理(infer e

8、nee)技术、它不就是建立在用户需要与偏好基础上推荐得，而就是利用针对特定领域制定规则(rule)來进行基于规则与实例得推理(case -based reasoning) 例女口，文献34中利用饭店得菜式方面得效用知识,推荐饭店给顾客、效用知识(f u n c t i onal know 1 e d ge)就是一种关于一个对象如何满足某一特定用户得知识，因而能够解释需求与推荐得关系，用于推荐系统、效用知识在推荐系统中必须以机器可读得方式存在(onto log y本体知识库)，例如qui c k step and foxtrot sys t em S使用关于学术论文主题得on t

9、o 1 og y本体知识库向读者作推荐、 4、S 1 op e one算法推荐： Slope One就是一系列应用于协同过滤得算法得统称。由Dani e 1 Lem i re与A n na M a c 1 a ch 1 an于2 0 0 5年发表得论文中提出。有争议得就是，该算法堪称基于项目评价得non-t r iv i al协同过滤算法最简洁得形式。该系列算法得简洁特性使它们得实现简单而高效，而且其精确度与其它复杂费时得算法相比也不相上下。该系列算法也被用來改进其它算法。当可以对一些项目评分得时候，比如人们可以对一些东西给出1到5星得评价得时候，协同过滤意图基于一个个体过去对某些

10、项目得评分与（庞大得）由其她用户得评价构成得数据库，來预测该用户对未评价项目得评分。如：如果一个人给披头士得评分为5 （总分5）得话，我们能否预测她对席琳狄翁新专辑得评分呢？这种情形下，item-based协同过滤系统根据其它项目得评分来预测项目得分值，一般方法为线性回归0、于就是，需要列出x 2个线性回归方程与回归量,例如：当有1 0 00个项目时，需要列多达1,0 0 0, 00 0个线性回归方程，以及多达2, 000, 0 0 0个回归量。除非我们只选择某些用户共同评价过得项目对, 否则协同过滤会遇到过适（过拟合）问题。三、Slope one算法描述及实现过程： 1、算法

11、原型：图例一（如图3 4所示）： ItemA ItemB z UscrA 4 3 厂 UserB 2 9 IJ I 图3-1算法演示图一如上图所示,Us e rA对I tem A得评分就是4,对ItemB得评分就是3,Use r B对It e mA得评分就是2,那么，预测Us e rB对It e mB得评分就是多少呢? 根据 Slo pe One 算法,2+( 3-4) = lo 图例二(如图3-2所示)： ItemA ItemB - User A 4 3 UserB V 2 y z UserC V 3 3 V丿 3丿图3-2 算法演示图二如上图所示,U se rB对ItemB得评分会

12、就是多少呢？股票上有个说法就是平均值可以掩盖一切得异常波动，所以股票上得各个技术指标就是收集不同时间段得平均值得曲线图或就是柱状图等。同样得Slope One算法也认为:平均值也可以代替某两个未知个体之间得打分差异，条目A条目B得平均差值就是： (4-3) + (3-3) 2=0.5 也就就是说人们对事物A得打分一般比事物B得打分要高0、5,于就是S 1 opeone算法就猜测UserB对事物B得打分就是2-0、5 = 1. 5。 2、加权算法：由上得两个示例对Slope One算法有了认识。如果有10 0个用户对I te mA与I temB都打过分，有1 000个用户对It e

13、mC与It e m B也打过分。显然这两个r a t ing差得权重就是不一样得。因此我们可以推测，计算方法就是： 100 x (Rating 1 to 2) + 1000 x (Rating 2 to 3) (100 + 1000) s lope One算法得加权算法数学描述如下:有N个用户对条目A与条目B打分了,R(A-B)表示这N位用户对A与对B打分得平均差(A-B), 有M位用户对条目B与条目C打分T,R(C-B)表示这M位用户对C与对B打分得平均差(C-B),注意都就是平均差而不就是平方差，现在某个用户对 A得打分就是对。得打分就是rc,那么A对B得打分可能就是： N x(r

14、a- R(A - 8) + M x (rc - R(C - B) rb =M + N 上面讨论得就是用户只对条目得喜好程度打分。还有一种情况下用户也可以对条目得厌恶程度打分。这时可以使用双极Slope One算法一PolarSlope On e )o 四、实验结果: 测试数据niovielens 均方根误:RMSE二0.9474 45分以上推荐正孵 0.746 卢一强：北京遇上西雅图李长月：猩球崛起燕睿涛：北京遇上西雅图李长月：听风者龚志鑫：北京遇上西雅图燕睿涛：肖申克的救赎刘璐：北京遇上西雅图刘思遥：肖申克的救赎李长月：北京遇上西雅图孙召星：肖申克的救赎龚志鑫：少年派

15、燕睿涛：泰坦尼克号卢一强：速度与激情5 汤瑶：泰坦尼克号刘璐：速度与激情5 刘思遥：泰坦尼克号刘璐：猩球崛起注释:此数据代表按照自己与别人得评分推荐得电影致青春北京遇上西雅图人再冏途之泰冏少年派得奇幻漂流黑衣人三白鹿原次曝光速度与激情五泰迪熊功夫熊猫源代码猩球崛起失恋 + 天志明与春娇听风者这个杀手不太冷肖申克得救赎唐伯虎占秋香大话西游泰坦尼克号 m n O n mM n n n n 、2 、、9 L 2 L L ra 3 4 F 0 2 m 3 m m o m E. O o m 、、、

16、、、 8 2 2 5 6 3 8 4 9 L 8 6 N 9 5 3 L L LJ O 4 E 2 E. E 3 n n n 、、、、鑫 5 5 7 5 L 3 7 2 L L 阿 2 O 3 m O m 2 n n W u 、 u u U 0 u U u u 仁 9 8 2 9 3 1 2 3 3 5 刘 0 0 0 0 0 0 0 0 0 少博姚伟 3 3 0 3 2 1 0 3 2 3 3 3 0 0 3 0 0 0 3 0 、 4 、 7 、 8 、 7 、 9 、 7 、 7 、 5 、 8 、 6 、 8 、 5 1 1 2 8 8 4 3 2 1 3 汤 3 3

17、 0 3 2 1 0 0 2 0 0 0 2 0 3 0 0 0 0 4 瑶、、、、、、、、、 4 8 7 6 9 7 9 8 4 3 2 6 8 8 8 3 8 6 刘思遥 3 3 0 0 2 1 1 3 2 0 0 0 2 3 3 0 4 0 0 4 、 1 、 4 、 5 、 8 、 9 、 4 、 5 、 6 、 1 、 6 、 7 、 2 3 3 2 5 4 7 5 1 5 4 3 孑小召星 3 0 0 0 0 1 2 3 2 0 0 3 2 3 3 0 4 0 0 0 、 3 、 9 、 1 、 6 、 7 、 5 、 8 、 2 、 7 、 8 6 2

18、1 4 6 5 2 1 6 9 刘 3 4 0 0 3 0 0 4 3 0 0 4 0 0 0 0 0 0 0 0 璐、、、、、、 8 2 2 1 3 0 7 4 3 7 2 5 0 0 0 0 0 0 0 0 0 李 3 4 4 0 3 4 0 0 0 0 0 长、、、、、月 8 0 6 1 2 7 8 注释:此数据中0代表己经瞧过得电影，其她得数数代表预测您给相应电影得评分。五、推荐系统在几个网站中实例： 1、下面儿幅图就是在卓越亚马逊上根据浏览记录推荐得商品: 史多供您考虑的商品慾免过从Ml悼黒1；与画冢 2? 奇占冏琢 3 i 1 999 00 为您推

19、荐的图书几#17 2013新叱研0?5鬥溯瞬 150 叱、条別、刘FW3 年或 rfirMrf： (622) 34 24 人月神迂究筑) 白(22) 24.20 R貝习歸昭弓円J划苹裟 McMri； (6*8 列mY 4260 林学Q第*3切：上冊I FJ齐大学掀学* 甲P ArAArA/r (G03) 31.00 ”垢侄之從o小ta 牢驱 AAArAy： QW 00 28.20 甲聂衣希利 AAAA 杳看或编抱傑最诉划贾讨的商品浏览更多商品给自己一点惊喜 Collective. 阿拉克(Satnam AJag), 平芬 *女如 usei-uniqu e (u a 1); mo

20、v i e= u mque( u a 2 ); m=max (user); n=m a x (movie); S coie=zer o s(m, n); for i= 1 :1 en g th(ua 1 ) Sc ore (u a 1 (1) ,ua 2 (i)=ua3 (i); end p red i ctS= s lo p e_ o ne_w(Sco r e.Test); predictS(find ( p redic t S =5)=5; J=(s u m( (pi e dictS-uat3) 人2) / 1 engt h ( u a t 3 ) )A0 5 ; % J=sum(r o

21、und(pred i c tS)u a t 3) 八 2 )； rati o = s um(roun d (pied i ctS)= =u a t 3 ) / le n gth(uat 3 ); idxp4 = fiiid(r o u nd(p r e dictS) =4)； i d xp5=flnd (round ( p red i c t S) =5)； idxp= i d x p4;idx p 5 ； ratioi-sum ( u a t 3 ( i d x p) = 4 ) /le n gth(i d xp); ftin c t i o n M= s lo p e_ o ne_w(A,

22、Test) tic； m,n = s ize(A); g B =one s (n); B=tnl (gB) ;%上三角存平均评分差,下三角存评分得权重 %即共同得评分人数 %计算每两列间得平均评分差 for i = 1 ： n-1 for j =i+l: n C=A (:, i),A (:, j); C(C(：,1) =0,： )=; C(C(：,2)=0,:)=： lfC B (i,j) =s um(C(:, 2 )-C(:, 1) /I e ngth(C (: ,1)； B(j, i) = leng t h(C(:, 1 )； end end end M =z e ios (length( T est(:,l), 1 )； fo r z=l： 1 eng t h(Te s t(:,1 ) i=T e s t (z,l); j=T e st(z,2); ifA(i, j) C=A( i

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

电影推荐系统

文档简介

温馨提示

最新文档

评论

电影推荐系统

文档简介

温馨提示

最新文档

评论

相关文档