




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于Slope one算法得电影推荐系 摘要:商业网站迅猛发展得时代己经到來,网上服务得交易方式正在改变着 传统得商业模式。如果说过去得十年就是搜索技术高速发展得十年,那么个性化 推荐技术将作为下一个十年中最为重要得革新之一。目前几乎所有大型得商业网 站,如亚马逊、淘宝网等,都不同程度地使用了各种形式得推荐系统。本文就推荐 系统这一话题展开讨论,首先介绍了推荐系统得提出与发展过程,然后列举出了儿 种推荐系统得研究方法,其中,详细得描述了 Slope one算法推荐系统得实现过程 以及用Slope one算法编写程序完成了电影推荐系统。最后列举了几个推荐 系统得实例。 关键字:Slope o n
2、 e算法推荐系统数据挖掘个性化推荐 一、发展背景: 随着in t e r net得日益普及,商业网站得蓬勃发展,如何提高商业网站得 有效性,尤其就是如何运用个性化推荐技术提供个性化服务來实现己逐渐成为一 个能引起广泛兴趣得热点课题。虽然商业网站从“以站点为中心”向“以用户 为中心”发展成为必然趋势。但目前国内大多数商业网站得商品推荐通常就是: 推荐热销产品;推荐相关产品;依据用户浏览历史得信息进行推荐。由Daniel L emire教授在 2 005年提出得一个Item Base d(基于条目)推荐算法,可 应用于各类以网上商品销售为主业务得网上商店,以及提供文章、新闻、音乐、 电影等“无形”
3、得产品得网络站点。用于帮助商店经营者,网络站点从事产品 得个性化推荐,提高营销及服务质量,更好地挖掘潜在客户及客户得使用、购买 潜能。同时也根据用户得喜好,网站会留下记录,当用户再次访问时,网站会推荐用 户可能喜欢得东西,这样也方便了用户,用户无需浪费时间去搜索大量得信息。 二、现有推荐系统研究方法: 1、基于内容得推荐: 基于内容得推#(co nte n t-b a s ed remen d a t ion)就是指根据用户选择 得对象,推荐其她类似属性得对象作为推荐,属于Sch a fer划分中得I tem-t o -Item Correia tion方法、这类算法源于一般得信息检索方法、不
4、需要依据 用户对对象得评价意见、对象使用通过特征提取方法得到得对象内容特征来表 示,系统基于用户所评价对象得特征,学习用户得兴趣,从而考察用户资料与待预 测项目相匹配得程度、 对象内容特征(C o nten t (s)得选取在目前得研究中以对象得文字描述为主,比如 信息检索中最经典得文本特征就是词频-倒排文档频率(te rm f re q u e ncy- i nver s e d ocument fr e q u e ncy,简称 TF- I DF)另一方面用户得资料模型 ContentBas e dProf i le (c)取决于所用机器学习方法,常用得有决策树、贝叶斯 分类算法、神经网络
5、、基于向量得表示方法等,数据挖掘领域得众多算法都可以 应用、 2、协同过滤推荐 协同过滤推荐(col 1 abo r ativ e filte r i ng reme n d a t i o n)技术就 是推荐系统中最为成功得技术之一,它于2 0世纪9 0年代开始研究并促进了 整个推荐系统研究得繁荣、大量论文与研究都属于这个类别、 协同过滤得基本思想就是:找到与当前用户c c ur相似(比如兴趣与口味 相似得其她用户cj,计算对象S对于用户得效用值u(cj,s),利用效用值对 所有s进 行排序或者加权等操作,找到最适合ccur得对象鈕、其基本思想非常 易于理解,在日常生活中,我们往往会利用好朋
6、友得推荐來进行一些选择、协 同过滤正就是把这一思想运用到推荐系统中來,即基于其她用户对某一内容得 评价向目标用户进行推荐、 基于协同过滤得推荐系统可以说就是从用户得角度进行推荐得,并且就是自 动得,也就就是说,用户所获得得推荐就是系统从用户购买或浏览等行为中隐式 获得得,不需要用户主动去查找适合自己兴趣得推荐信息,如填写一些调查表格 等、其另外一个优点就是对推荐对象没有特殊得要求(而基于内容得推荐需要对 推荐对象进行特征分析),能够处理非结构化得复杂对象,如音乐、电影等、同时, 研究用户之间得关系需要大量得用户访问行为得历史数据,与社会网络研究有交 叉点,有丰富得研究基础与广阔得前景、对协同过
7、滤最早得研究有Gru n d y sys t e m,后來得研究成果包括 Ta p e stry s y s t em, Group L e n s, Ringo, PHO A K S system, J e s t er sys t em等、总体而言, 此类推 荐算法可以分为两类:启发式(h e uris tic -bas e d or memo r y b ased) 方法与基于模型(mo d el-based)得方法。 3、基于知识得推荐: 基于知识得推荐(know 1 edge-b a S ed r e men d a tio n )在某种程度上可 以瞧成就是一种推理(infer e
8、nee)技术、它不就是建立在用户需要与偏好基础上 推荐得,而就是利用针对特定领域制定规则(rule)來进行基于规则与实例得推 理(case -based reasoning) 例女口,文献34中利用饭店得菜式方面得效用知 识,推荐饭店给顾客、效用知识(f u n c t i onal know 1 e d ge)就是一种关于 一个对象如何满足某一特定用户得知识,因而能够解释需求与推荐得关系,用于 推荐系统、效用知识在推荐系统中必须以机器可读得方式存在(onto log y本 体知识库),例如qui c k step and foxtrot sys t em S使用关于学术论文主题 得on t
9、o 1 og y本体知识库向读者作推荐、 4、S 1 op e one算法推荐: Slope One就是一系列应用于 协同过滤得算法得统称。由Dani e 1 Lem i re与A n na M a c 1 a ch 1 an于2 0 0 5年发表得论文中提出。有争议得 就是,该算法堪称基于项目评价得non-t r iv i al协同过滤算法最简洁得形 式。该系列算法得简洁特性使它们得实现简单而高效,而且其精确度与其它复杂 费时得算法相比也不相上下。该系列算法也被用來改进其它算法。当可以对一 些项目评分得时候,比如人们可以对一些东西给出1到5星得评价得时候,协同 过滤意图基于一个个体过去对某些
10、项目得评分与(庞大得)由其她用户得评价构 成得数据库,來预测该用户对未评价项目得评分。如:如果一个人给披头士得 评分为5 (总分5)得话,我们能否预测她对席琳狄翁新专辑得评分呢? 这种情形下,item-based协同过滤系统 根据其它项目得评分来预测项 目得分值,一般方法为线性回归0、于就是,需要列出x 2个线性回归方程与回 归量,例如:当有1 0 00个项目时,需要列多达1,0 0 0, 00 0个线性回归方程,以 及多达2, 000, 0 0 0个回归量。除非我们只选择某些用户共同评价过得项目对, 否则协同过滤会遇到过适(过拟合)问题。 三、Slope one算法描述及实现过程: 1、算法
11、原型: 图例一(如图3 4所示): ItemA ItemB z UscrA 4 3 厂 UserB 2 9 IJ I 图3-1算法演示图一 如上图所示,Us e rA对I tem A得评分就是4,对ItemB得评分就是3,Use r B对It e mA得评分就是2,那么,预测Us e rB对It e mB得评分就是多少呢? 根据 Slo pe One 算法,2+( 3-4) = lo 图例二(如图3-2所示): ItemA ItemB - User A 4 3 UserB V 2 y z UserC V 3 3 V丿 3丿 图3-2 算法演示图二 如上图所示,U se rB对ItemB得评分会
12、就是多少呢?股票上有个说法 就是平均值可以掩盖一切得异常波动,所以股票上得各个技术指标就是收集不同 时间段得平均值得曲线图或就是柱状图等。同样得Slope One算法也认为:平 均值也可以代替某两个未知个体之间得打分差异,条目A条目B得平均差值 就是: (4-3) + (3-3) 2=0.5 也就就是说人们对事物A得打分一般比事物B得打分要高0、5,于就 是S 1 opeone算法就猜测UserB对事物B得打分就是2-0、5 = 1. 5。 2、加权算法: 由上得两个示例对Slope One算法有了认识。如果有10 0个用户对I te mA与I temB都打过分,有1 000个用户对It e
13、mC与It e m B也打过分。显 然这两个r a t ing差得权重就是不一样得。因此我们可以推测,计算方法就 是: 100 x (Rating 1 to 2) + 1000 x (Rating 2 to 3) (100 + 1000) s lope One算法得加权算法数学描述如下:有N个用户对条目A与 条目B打分了,R(A-B)表示这N位用户对A与对B打分得平均差(A-B), 有M位用户对条目B与条目C打分T,R(C-B)表示这M位用户对C与对B打分得平均差(C-B),注意都就是平均差而不就是平方差,现在某个用户对 A得打分就是 对。得打分就是rc,那么A对B得打分可能就是: N x(r
14、a- R(A - 8) + M x (rc - R(C - B) rb =M + N 上面讨论得就是用户只对条目得喜好程度打分。还有一种情况下用户也可以 对条目得厌恶程度打分。这时可以使用双极Slope One算法一PolarSlope On e )o 四、实验结果: 测试数据niovielens 均方根误:RMSE二0.9474 45分以上推荐正孵 0.746 卢一强:北京遇上西雅图 李长月:猩球崛起 燕睿涛:北京遇上西雅图 李长月:听风者 龚志鑫:北京遇上西雅图 燕睿涛:肖申克的救赎 刘璐:北京遇上西雅图 刘思遥:肖申克的救赎 李长月:北京遇上西雅图 孙召星:肖申克的救赎 龚志鑫:少年派
15、燕睿涛:泰坦尼克号 卢一强:速度与激情5 汤瑶:泰坦尼克号 刘璐:速度与激情5 刘思遥:泰坦尼克号 刘璐:猩球崛起 注释:此数据代表按照自己与别人得评分推荐得电影 致青春 北 京 遇 上 西 雅 图 人再冏途之泰冏 少年派得奇幻漂流 黑衣人三 白鹿原 次 曝 光 速度与激情五 泰 迪 熊 功夫熊猫 源 代 码 猩 球 崛 起 失 恋 + 天 志明与春娇 听风者 这 个 杀 手 不 太 冷 肖申克得救赎 唐 伯 虎 占 秋 香 大话西游 泰坦尼克号 m n O n mM n n n n 、2 、 、9 L 2 L L ra 3 4 F 0 2 m 3 m m o m E. O o m 、 、 、
16、 、 、 8 2 2 5 6 3 8 4 9 L 8 6 N 9 5 3 L L LJ O 4 E 2 E. E 3 n n n 、 、 、 、 鑫 5 5 7 5 L 3 7 2 L L 阿 2 O 3 m O m 2 n n W u 、 u u U 0 u U u u 仁 9 8 2 9 3 1 2 3 3 5 刘 0 0 0 0 0 0 0 0 0 少 博 姚 伟 3 3 0 3 2 1 0 3 2 3 3 3 0 0 3 0 0 0 3 0 、 4 、 7 、 8 、 7 、 9 、 7 、 7 、 5 、 8 、 6 、 8 、 5 1 1 2 8 8 4 3 2 1 3 汤 3 3
17、 0 3 2 1 0 0 2 0 0 0 2 0 3 0 0 0 0 4 瑶 、 、 、 、 、 、 、 、 、 4 8 7 6 9 7 9 8 4 3 2 6 8 8 8 3 8 6 刘 思 遥 3 3 0 0 2 1 1 3 2 0 0 0 2 3 3 0 4 0 0 4 、 1 、 4 、 5 、 8 、 9 、 4 、 5 、 6 、 1 、 6 、 7 、 2 3 3 2 5 4 7 5 1 5 4 3 孑小 召 星 3 0 0 0 0 1 2 3 2 0 0 3 2 3 3 0 4 0 0 0 、 3 、 9 、 1 、 6 、 7 、 5 、 8 、 2 、 7 、 8 6 2
18、1 4 6 5 2 1 6 9 刘 3 4 0 0 3 0 0 4 3 0 0 4 0 0 0 0 0 0 0 0 璐 、 、 、 、 、 、 8 2 2 1 3 0 7 4 3 7 2 5 0 0 0 0 0 0 0 0 0 李 3 4 4 0 3 4 0 0 0 0 0 长 、 、 、 、 、 月 8 0 6 1 2 7 8 注释:此数据中0代表己经瞧过得电影,其她得数数代表预测您给相应电影得 评分。 五、推荐系统在几个网站中实例: 1、下面儿幅图就是在卓越亚马逊上根据浏览记录推荐得商品: 史多供您考虑的商品 慾免过 从Ml悼 黒1;与画冢 2? 奇占冏琢 3 i 1 999 00 为您推
19、荐的图书 几#17 2013新叱研0?5鬥溯瞬 150 叱、条別、刘FW3 年或 rfirMrf: (622) 34 24 人月神迂究筑) 白(22) 24.20 R貝习歸 昭弓円J划 苹裟 McMri; (6*8 列mY 4260 林学Q第*3切: 上冊I FJ齐大学掀学* 甲P ArAArA/r (G03) 31.00 ”垢侄之從o小ta 牢驱 AAArAy: QW 00 28.20 甲聂 衣希利 AAAA 杳看或编抱傑最诉划贾讨的商品 浏览更多商品 给自己一点惊喜 Collective. 阿拉克(Satnam AJag), 平芬 *女如 usei-uniqu e (u a 1); mo
20、v i e= u mque( u a 2 ); m=max (user); n=m a x (movie); S coie=zer o s(m, n); for i= 1 :1 en g th(ua 1 ) Sc ore (u a 1 (1) ,ua 2 (i)=ua3 (i); end p red i ctS= s lo p e_ o ne_w(Sco r e.Test); predictS(find ( p redic t S =5)=5; J=(s u m( (pi e dictS-uat3) 人2) / 1 engt h ( u a t 3 ) )A0 5 ; % J=sum(r o
21、und(pred i c tS)u a t 3) 八 2 ); rati o = s um(roun d (pied i ctS)= =u a t 3 ) / le n gth(uat 3 ); idxp4 = fiiid(r o u nd(p r e dictS) =4); i d xp5=flnd (round ( p red i c t S) =5); idxp= i d x p4;idx p 5 ; ratioi-sum ( u a t 3 ( i d x p) = 4 ) /le n gth(i d xp); ftin c t i o n M= s lo p e_ o ne_w(A,
22、Test) tic; m,n = s ize(A); g B =one s (n); B=tnl (gB) ;%上三角存平均评分差,下三角存评分得权重 %即共同得评分人数 %计算每两列间得平均评分差 for i = 1 : n-1 for j =i+l: n C=A (:, i),A (:, j); C(C(:,1) =0,: )=; C(C(:,2)=0,:)=: lfC B (i,j) =s um(C(:, 2 )-C(:, 1) /I e ngth(C (: ,1); B(j, i) = leng t h(C(:, 1 ); end end end M =z e ios (length( T est(:,l), 1 ); fo r z=l: 1 eng t h(Te s t(:,1 ) i=T e s t (z,l); j=T e st(z,2); ifA(i, j) C=A( i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年SIC涂层石英玻璃管合作协议书
- 2025年物理治疗康复设备项目建议书
- 专业水平及证书考取成绩证明书(5篇)
- 医学专家职业能力证明书(5篇)
- 公司股份认购协议书条款内容
- 游戏玩家账号买卖协议
- 快递物流行业配送中心建设协议
- 绿色农产品供应购销协议样板文件
- 体育场馆服务管理合同
- 渔业资源捕捞与供应保障协议
- 生命体征的测量ppt课件
- DLT667-1999(IEC60870-5-103)规约详解
- 水中氯离子测定方法
- 心脏体格检查教案(共5页)
- 美国联邦民事诉讼规则
- 西门子S7-200自动售货机课程设计(共16页)
- TR518_dos使用手册
- 绝对干货污水处理厂经济评价表(全)
- 外贸中英文商业发票
- 单相桥式逆变电路的设计
- (完整版)机关事业单位考勤制度
评论
0/150
提交评论