(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf_第1页
(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf_第2页
(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf_第3页
(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf_第4页
(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)推荐系统中协同过滤算法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:猛垒 日期:沙l o 、弓、t s 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:l 望毒俎 导师签名: n 31 摘要 随着互联网的迅猛发展,网上的信息越来越多,互联网也逐渐成 为人们生活中必不可少的部分了。由于互联网上信息的繁多,用户上 网查找资料或者购物都需要花费很多的时间。为了帮助用户更好的查 找到自己需要的资料或者自己感兴趣的商品,推荐系统应运而生。推 荐系统可以分为很多种类,其中最重要的一种也是最被广泛使用的一 种便是协同过滤推荐系统。协同过滤算法是根据用户以往对一些项的 评价,以及其他与该用户具有类似兴趣的用户给一些项的评价,将一 些新的项目推荐给用户,或者预测对用户有价值的项目。目前,协同 过滤技术是一个热点,在研究和应用领域上都取得很大的成功,不过 依然还有很多问题需要解决。 协同过滤推荐系统在运用中,主要有四个问题。第一,是算法的 准确性问题。由于网上产品的数量非常庞大,用户对产品评价的数量 是有限的,使得关于用户和产品的数据是非常稀疏的,其推荐的准确 性受到了严重的影响。第二,是可扩展性问题。随着互联网上用户数 和项目数的不断增长,如何让系统适应这种变化,也是一个问题。第 三,是“冷启动 问题。由于协同过滤是依据用户或者项目的历史评 分来实现推荐的,如果当出现一个新的用户时,则无法对他( 她) 进 行推荐,而且也不能给用户推荐一个新的项目。第四,是实时性问题。 由于现在很多推荐都是基于在线推荐的,所以对实时性要求很高,目 前很多在线推荐都是以牺牲精确性来实现及时性的,如何在不影响精 确性的基础来实现实时性也是一个难点问题。 由于算法的准确性是当中最重要的一个问题,所以在该问题上的 研究也非常的多。本文研究的工作也是基于这个目的进行开展的,本 文主要开展了以下的研究工作: 第一,对未评分项的几种处理方法进行了比较。由于极度的数据 稀疏性,用户项目评分矩阵中含有大量的未评分项,对未评分项 的不同处理方法对系统的精确度影响非常的大。在当前已有的计算相 似度的算法中,有5 种处理方法,本文针对这5 种算法进行了实验验 证,试验结果表明将未评分项的值设置为o 具有最高的准确性。 第二,提出了一种优化的基于项目的协同过滤算法。传统的基于 项目的协同过滤算法基于这样一个假设:如果大部分客户对一些商品 的评分比较相似,则当前客户对这些商品的评分也比较相似。该算法 是利用给定用户对已有项目的喜好属性来预测是否喜爱给定的未知 项目。新的算法在计算两个项目相似度的时候,考虑了同时给这两个 项目都评分的用户数占给这两个项目有过评分的用户数( 包括给两个 项目都评分和只给其中者有过评分的用户数) 的比例。实验结果表 明,这种优化的基于项目的协同过滤算法比传统的基于项目的协同过 滤算法具有更高的准确性。 关键词:推荐系统协同过滤 未评分项预测评分 相似度 m a e r e s e a r c ho nc o l l a b o r a t i v ef i i r e i u n g a l g o r i t h mi nr e c o m m e n d a t i o ns y s t e m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t t h ei n f o r m a t i o no n l i n ei s g e t t i n gm o r ea n dm o r el a r g e ,i n t e r n e ti sb e c o m ea l li n d i s p e n s a b l ep a r ti n p e o p l e sl i f e b e c a u s eo ft h el a r g ei n f o r m a t i o n i tn e e d st o om u c ht i m ef o r p e o p l et os e a r c hf o rt h ei n f o r m a t i o no rs h o p p i n go n l i n e i no r d e rt oh e l p p e o p l e f i n dt h ei n f o r m a t i o no r p r o d u c t s m o r e e x p e d i e n t l m r e c o m m e n d a t i o ns y s t e mw a s s u g g e s t e d r e c o m m e n d a t i o ns y s t e mc a nb e d i v i d e di n t om a n yt y p e s ,t h em o s ti m p o r t a n ta n dw i d e l yu s e do n ei st h e c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns y s t e m t h eg o a lo fc o l l a b o r a t i v e f i l t e r i n gs y s t e mi st os u g g e s tn e wi t e m so rt op r e d i c tt h eu t i l i t yo fi t e m s f o ru s e r sb a s e do nt h eu s e r s p r e v i o u sl i k i n g sa n dt h eo p i n i o n so ft h eo t h e r l i k e m i n d e du s e r s a tp r e s e n t ,t h ec o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g yi sa h o tt o p i c ,a n dt h er e s e a r c h e sa n da p p l i c a t i o n si nt h ef i e l dh a v ea c h i e v e d g r e a ts u c c e s s ,b u tt h e r ea r es t i l lm a n yp r o b l e m st ob er e s o l v e d i nt h ea p p l i c a t i o no ft h ec o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o n s y s t e m ,t h e r ea r ef o u rm a i ni m p o r t a n tc h a l l e n g e s t h ef i r s tc h a l l e n g ei s t h ea c c u r a c yp r o b l e m a st h en u m b e ro ft h ep r o d u c t so n l i n ei st o ol a r g e , b u tt h ee v a l u a t i o no fu s e r si sl i m i t e d m a k i n gt h ed a t aa b o u tu s e r sa n d p r o d u c t si sv e r ys p a r s e ,s ot h ea c c u r a c yo ft h es y s t e mi sa f f e c t e d t h e s e c o n dc h a l l e n d g ei st h es c a l a b i l i t yp r o b l e m h o wt om a k es u r et h e s y s t e ma d a p tt ot h eg r o w i n gn u m b e ro ft h eu s e r sa n dp r o d u c t s ,i sab i g p r o b l e m t h et h i r dc h a l l e n d g ei st h e “c o l ds t a r t ”p r o b l e m s i n c et h e c o l l a b o r a t i v ef i l t e r i n gi sb a s e do nt h eh i s t o r i c a lr e c o r d s ot h es y s t e m c a n n o tr e c o m m e n di t e m st oh i mo rr e c o m m e n dn e wi t e m st ou s e r s t h e f o u r t h c h a l l e n d g e i s t h er e a l t i m e p r o b l e m n o wt h a t m a n y r e c o m m e n d a t i o n sa r eb a s e do n1 i n e w h i c hr e q u i r e st h eh i g hr e a l t i m e f e a t u r e m a n yo n l i n er e c o m m e n d a t i o n sa c h i e v et h er e q u i r e m e n tb u tl o s e t h ea c c u r a c y , s oh o wt or e s o l v et h ei s s u ei sa n o t h e r p r o b l e m a st h ea c c u r a c yo ft h ea l g o r i t h mi st h em o s ti m p o r ti s s u e ,t h e r ea r e m a n yr e s e a r c h e so nm ei s s u e t h i sp 印e ri sc a r r i e do u ti no r d e rt or e s o l v e t h ei s s u e ,a n dm a k e st h em a i nc o n t r i b u t i o n sa sf o l l o w s : f i r s t ,t h i sp a p e rc o m p a r e st h es e v e r a lm e t h o d so fp r o c e s s i n g n o r a t e di t e m si nc o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m a st h ee x t r e m e s p a r s i t y o fd a t a ,t h eu s e r s i t e m sm a t r i xc o n t a i n sal a r g en u m b e ro f n o r a t e di t e m s ,a n dd i f f e r e n tm e t h o do f p r o c e s s i n gn o r a t e di t e m sa f f e c t s t h ea c c u r a c yo ft h es y s t e m a m o n gt h ec u r r e n ta l g o r i t h m so fc a l c u l a t et h e s i m i l a r i t y , t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ts e t t i n gt h ev a l u eo fn o r a t e d i t e ma s0c a na c h i e v et h eh i g h e s ta c c u r a c y s e c o n d ,t h i sp a p e rp r o p o s e da no p t i o m i z e di t e m - b a s e dc o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m t h et r a d i t i o n a li t e m b a s e di sb a s e do ns u c ha n a s s u m p t i o n :i ft h em a j o r i t yo fu s e r sr a t es o m ei t e m ss i m i l a r l y , t h et a r g e t u s e rw i l lr a t et h ei t e m ss i m i l a r l y 、入m i l ec a l c u l a t i n gt h es i m i l a d t vo ft w o i t e m s ,w eo b t a i nt h er a t i oo fu s e r sw h or a t e di t e m st ot h o s ew h or a t e d e a c ho ft h e m t h er a t i oi st a k e ni n t oa c c o u n ti nt h i sm e t h o d t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h mc a ni m p r o v et h e q u a l i t yo fc o l l a b o r a t i v ef i l t e r i n g k e yw o r d s :r e c o m m e n d a t i o ns y s t e m , c o l l a b o r a t i v ef i l t e r i n g , s i m i l a r i t y , n o r a t e di t e m ,p r e d i c t i o n ,m a e 一 v l 1 2 1 :! :i :i 1 2 2 2 推荐系统在电子商务中的实例3 1 2 3 推荐系统在其他领域中的应用4 1 2 4 推荐系统研究的主要内容5 1 2 5 推荐系统研究面临的挑战。5 1 3 本文的研究工作6 1 4 本文的结构7 第二章推荐系统与协同过滤技术 8 2 1 推荐系统及其核心算法8 2 1 1 推荐系统的介绍8 2 1 2 推荐系统的算法8 2 1 2 1 基于关联规则的推荐算法9 2 1 2 2 基于内容的推荐算法l o 2 1 2 3 协同过滤推荐算法l l 2 1 2 4 各算法的比较1 3 2 1 3 推荐系统的评估。1 5 2 1 3 1 推荐系统的准确性1 5 2 1 3 2 推荐系统的有效性1 5 2 1 3 3 精确率和召回率的计算1 6 2 2 协同过滤算法及其相关技术1 6 2 2 1 协同过滤算法的描述1 6 2 2 2 基于用户的协同过滤算法1 8 2 2 2 1 用户之问的相似度1 8 2 2 2 2 预测评分1 9 2 2 2 3 推荐项目19 2 2 2 4 特点分析2 0 2 2 3 基于项目的协同过滤算法2 0 2 2 3 1 项目之间的相似性2 0 2 2 3 2 预测评分2 l 2 2 3 3 推荐项目2 2 2 2 3 4 特点分析2 2 2 2 4 协同过滤算法的评估2 2 _ l r _ 2 2 5 协同过滤算法研究使用的数据2 3 第三章对于未评分项的几种处理方式比较。 3 1 问题的提出2 7 3 2 已有的几种处理朱评分项的方式2 7 3 2 1 不予考虑2 8 3 2 2 设置为0 2 8 3 2 3 设置为分值的中间值2 8 3 2 4 设置为用户评分的均值2 9 3 2 5 设置为项目所得评分的均值3 0 3 3 基于用户的协同过滤算法的未评分项处理方法的比较3 l 3 4 基于项目的协同过滤算法的未评分项处理方法的比较3 2 3 5 结论。3 3 第四章一种优化的基于项目的协同过滤算法3 4 k 一 4 1 问题的提出一3 4 4 2 算法的内容3 5 j _ 4 2 1 定义3 5 4 2 2 算法描述3 5 4 2 2 1 项目之间相似度的计算3 5 4 2 2 2 预测评分3 7 4 3 系统流程。3 7 4 4 实验数据比较3 8 4 5 结论! 4 0 第五章总结和展望 4 2 5 1 总结4 2 5 2 展望4 3 参考文献 致谢 攻读学位期间发表的学术论文 4 5 4 7 4 8 , 譬 l - k 娃 本章主要介绍了论文的课题背景、目前推荐系统的研究现状和本文的研究工 作,然后给出了该篇论文的结构。 1 1 课题的背景和意义 随着i n t e r n e t 的迅猛发展,网上的信息以指数级的速度增长。这样迅速增 多的信息对于人们来说,当然是有好处的,因为信息越多,用户就可以从网上了 解更多的知识。但是过于庞大的信息数据对于用户查找来说,却又带来了一定的 困难。因为在这所有的信息里面,真正是用户感兴趣的只是其中的一小部分,而 如何实现查找出用户感兴趣的信息是一项很有挑战性的工作,也是当前学术界研 究的热点。 目前有很多的搜索引擎都可以实现用户查找信息的功能。用户通过输入一个 或者多个关键词,系统便会按照某种匹配方式,找到符合用户需要的信息,并且 按照一定的顺序排列展示给用户,这种方式在目前得到了广泛的运用,百度和 g o o g l e 的搜索引擎就是这种查找方式的典型代表。 从用户的角度来说,是可以通过上述的“人找信息”的方式来获取信息,但 是如果可以“信息找人”的方式来获取信息的话,那将会给用户带来很大的便利 之处。在“人找信息中,信息是被动的,并没有实现信息为人服务。而在“信 息找人”中,信息是主动的,系统采用某种技术方法获得了用户的兴趣,并把用 户感兴趣的信息主动推荐给用户,这也就是推荐系统的理念。“信息找人的方 式已日益受到用户的青睐,也是当前学术界研究的热点。 随着电子商务的不断深入发展,电子商务推荐系统的应用也更加广泛。传统 的用户购买商品都是通过去实体店购物的方式来实现的,如今,电子商务已经得 到了广泛的应用,诸如淘宝、a m a z o n 等电子商务平台已经广为用户所使用了。 随着电子商务的规模不断地扩大,商品的个数和种类也快速地增长,顾客也就需 要花费更多的时间去找到自己所需要的商品。对于传统的购物方式,用户走进一 家商店,可以很直观很方便地看到该家商店的商品,但是在网上购物的时候,由 于电脑屏幕大小的限制,用户一次性地只能浏览少量的商品,如果用户一件一件 商品地去查看的话,会导致用户浪费掉很多的时间,长久这样浏览无关的信息的 北京i i | i i i 【1 人学硕l :研究生学位论文推荐系统中踟h 过滤算法的研究j 实现 话,也最终会导致消费者的不断流失。这也就是所谓的“信息过载”的问题。 信息过载指的是社会信息超过了个人或系统所能接收、处理或能有效利用的 范围,并导致故障的状况。由于大量无关的信息干扰了人们对有用信息的准确分 析和正确选择,从而造出了信息过载,信息过载是信息时代信息极大丰富的负面 影响之一。 推荐系统( r e c o m m e n d e rs y s t e m s ) 也就是在这样的背景下提出来的,推荐 系统也称个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s ) ,它的定义是由 r e s n i c k & v a r i a n 给出的:它是利用电子商务网站向客户提供商品信息和建议, 帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程【l 】。 目前推荐系统已经运用到多个行业中,一种类型是以网页为推荐对象的运 用,当用户浏览一个网页的时候,经常会遇到这样的情况:在这个网页的旁侧或 者下方一般会有“你可能对以下网页感兴趣 或者“相关文章 等字样的出现, 推荐系统通过对用户当前浏览的网页的分析,找出用户的兴趣所在,然后将与当 前网页具有相似内容的网页推荐给用户;另外一种类型就是在电子商务中推荐商 品给用户的运用,系统通过客户过去的购买行为和购买记录,推测客户将来可能 的购买行为。 目前来说,电子商务推荐系统具有良好的发展前景,推荐系统的研究也越来 越受到重视。而目前几乎所有的电子商务系统均使用了推荐系统,在日益激烈的 竞争环境下,电子商务推荐系统能更好的为用户推荐商品,也吸引了更多的用户, 从而提高了电子商务系统的销售能力,赢得了巨大的经济效益。 1 2 推荐系统的研究及应用现状 1 2 1 推荐系统的发展概述 自2 0 世纪9 0 年代第一次出现关于协同过滤推荐的文章以来【4 】,推荐系统在 电子商务、网页等领域一直保持了越来越高的研究热度,并逐渐得到更大的发展。 各种推荐算法涵盖包括认知科学、近似性理论、信息检索、管理科学、市场营销 建模等在内的众多研究领域【2 】。 从推荐系统的概念被提出之后,推荐系统已经得到越来越广泛的运用。1 9 9 7 年,a t & t 实验室提出了机遇协同过滤的个性化推荐系统p h o a k s 和r e f e r r a lw e b 。 2 0 0 1 年,i b m 在其主要的电子商务软件平台w e b s p h e r e 中也增加了个性化功能。 目前,推荐系统已经运用到多个领域中了,包括电子商务、网页、音乐、电影、 新闻等,下表给出了这些领域的运用典型代表系统。在这里领域当中,推荐系统 在电子商务中是最被广泛使用的。 2 1 y 、 p r 北京邮l 乜人学硕i :_ f o f 究生学位论文推荐系统中协i 叫过滤算法的研究j 实现 表1 - 1 推荐系统在不同领域的典型运用实例 领域推荐系统实例 电子商务 a m a z o n 网页 s u r f l e n 音乐 c d n o w 电影m o v i e l e n s 新闻 g r o u p l e n s 1 2 2 推荐系统在电子商务中的应用 1 2 2 1 电子商务的应用状况 k p k 目前电子商务系统已经得到越来越广泛的运用,2 0 0 6 年淘宝网交易总额突 破1 6 9 亿元人民币,比2 0 0 5 年8 0 2 亿元的交易额增长了1 1 0 ,这一数字超过 了易初莲花2 0 0 5 年在华营业额( 1 0 0 亿元) 和沃尔玛2 0 0 5 年在华营业额( 9 9 3 亿 元) ,更是北京王府井百货集团2 0 0 5 年销售额的2 6 倍,而在2 0 0 7 年淘宝网全 年有4 3 3 亿元的成交额,比2 0 0 6 年增长了1 5 6 ,而在2 0 0 8 年,淘宝网上交易 总额达到了9 9 9 6 亿元,比2 0 0 7 年增长了1 3 1 3 1 ,由此可见电子商务系统的应 用增长速度是何其的迅猛。 表1 - 2 淘宝网近几天的营业额 年份 2 0 0 52 0 0 6 2 0 0 72 0 0 8 上半年 营业额( 亿元) 8 0 21 6 9 4 3 39 9 9 6 1 2 2 2 推荐系统在电子商务中的实例 推荐系统已经在电子商务中被广泛使用了,以下是几个比较典型的运用实 例。 2 a d t l a z o n :a i t l a z o n ( 中文名是亚马逊) 是美国一家电子商务网站,也是美国 最大的在线零售商。a m a z o n 在1 9 9 5 年刚成立的时候,性质是基本的网络书店, 现在已经朝着多元化的产品销售发展,包括音乐c d 、软件、家电、玩具、服装 等等【5 】。在a m a z o n 网站( w w w a m a z o n c o r n ) 中,你获取到个性化的推荐。在该 网站里,你可以看到你的以往的浏览记录和购买记录,也可以点击查看系统给你 3 北京邮i 【1 人学硕l :研究生学位论文推荐系统中队i r d 过滤算法的研究j 实现 推荐的商品,这样很大地方便了用户的购买行为。 e b a y :e b a y 是世界上最大的网上交易平台【6 】。e b a y 通过使用一个包含用户 对卖主满意度的评分和评论来进行反馈,系统将根据这些反馈信息向用户提供推 荐。 淘宝:淘宝网是亚太地区最大的网络零售蒯7 】。截止2 0 0 8 年1 2 月3 1 日, 淘宝网注册会员超过了9 8 0 0 万人,覆盖了中国绝大多数的网购人群,并且2 0 0 8 年交易额为9 9 9 6 亿元,占中国网购市场8 0 的份额。淘宝的用户群主要有两类: 一类是以女性为主的“逛淘宝,另一类人群是有需求才去的。第一类人群的目 的性不强,针对这类人群,淘宝的推荐系统根据其浏览的历史轨迹对其进行推荐; 第二类人群的目的性很强,针对这类人群,淘宝的推荐系统提供了很强的搜索、 过滤和定位机制,重点推荐给用户一些相似程度高的产品。 1 2 3 推荐系统在其他领域中的应用 推荐系统除了在电子商务平台中有着广泛的运用外,在其他领域也有着很广 泛的运用。以下为几个有代表性的实例: m o v i e l e n s :m o v i e l e n s 是美国明尼苏达大学计算机科学工程学院的研究室 所开发出来的推荐系统【引。该研究室研究的领域包括推荐系统、数字图书馆、地 理信息系统等。m o v i e l e n s 的作用是推荐电影,这是一个基于w e b 的推荐系统, 用户可以对电影进行评分,系统根据用户的历史评分记录找出用户的兴趣,然后 推荐一些新的电影给用户。该篇论文所使用的实验数据集便是m o v i e l e n s 所提供 的。 g r o u p l e n s :g r o u p l e n s 是第一个用于处理大规模数据集的自动化系统过滤 推荐系统,主要是用于向用户提供新闻推荐的服务,这是一个实时推荐系统。在 该推荐系统中,首先对新闻进行手工分类,将不同的新闻划分到不同的新闻组中, 由于每个用户在特定的时刻是处于一个特定的新闻组内的,因此在查找最近邻的 时候也就限制在该新闻组的内部,这样通过分类的方式减少了搜索空间,有效地 解决了协同过滤算法面临的实时性挑战。 p a n d o r a :p a n d o r a 是2 0 0 0 年创建的用来推荐音乐的网站【9 】。p a n d o r a 大概 花了四年的世界来准备它的音乐库,里面包含了近一个世纪受欢迎的歌曲,分析 每一首歌曲的音乐特质,提取出它的基因( 包括音乐的旋律、节奏、歌词等接近 4 0 0 个属性【9 】) 。用户只需要输入一个自己最喜欢的音乐或者歌手的名字,p a n d o r a 便会很快地搜索音乐库中所有的音乐,找出与用户所输入的音乐最相近的音乐, 然后推荐给用户。 f a b :f a b 是美国斯坦福大学数字图书馆项目组开发的基于内容的过滤和协 、矿 - p 斌 l l 、,一 k 北京邮i 【1 人学硕i :研究生学位论文推荐系统中协h 过滤算法的研究j 实现 同过滤的复合型推荐系统,用于推荐网页。在f a b 系统中,页面收集代理从w e b 上收集特定主题的页面,个人推荐代理从特定主题中选择出用户感兴趣的页面推 荐给用户。另外,个人推荐代理根据文档内容信息建立用户的用户档案,然后再 根据用户档案之问的相似性来搜索用户的最近邻居,根据这些邻居的评价信息进 行推荐。 1 2 4 推荐系统研究的主要内容 推荐系统主要分为三个部分:输入、方法和输出。 ( 1 ) 输入部分:这部分是推荐系统用来分析的部分,应该包含能够反映用 户的行为动作或者是感兴趣的信息。对于电子商务来说,指的是用户的浏览或者 购买的历史记录;对于网页来说,指的就是改网页的一些特征( 比如说关键词) ; ( 2 ) 方法部分:这部分指的是使用什么方法来分析处理输入部分,也就是 推荐系统的算法部分,是推荐系统中最核心的部分。推荐系统算法的好坏直接影 响了推荐系统的性能的优劣。 ( 3 ) 输出部分:这部分指的是推荐给用户的部分。其主要形式有:第一种 方式是打分,即对需要预测的项目进行评分,分数的高低反映了用户对项目的兴 趣的大小;第二种方式是建议,即直接给用户推荐用户可能感兴趣的项目。在本 文中采用的是第一种方式。 推荐系统使用什么样的算法是系统的核心部分,也是该领域的研究焦点。目 前,研究的主要内容集中在两个方面: ( 1 ) 保证推荐的质量:这是对一个推荐系统最基本也是最重要的要求。如 果给用户推荐出来的信息不是用户的兴趣所在,而是一些无关紧要的信息,不仅 不能方便用户更好的查找信息,反而会影响用户的使用,所以这方面的重点是要 减少系统的响应时间。 ( 2 ) 保证推荐的实时性:对于类似网页的推荐系统,由于推荐是在线的, 所以考虑的是推荐的实时性。由于用户和项目的数据量是巨大的,而要实现在这 样庞大的数据量里分析出用户感兴趣并推荐给用户的项目是非常有难度的问题, 这也是推荐系统要考虑的一个重要方面。 如何保证推荐的正确性以及如何提高推荐系统的性能,是目前研究的热点与 难点。本文也是针对这一方面进行了深入的研究。 1 2 5 推荐系统研究面临的挑战 虽然推荐系统可以很好地提高用户查找信息的速度,但是在推荐系统使用的 5 北京邮哇三人学顾l :研究生学位论文 推荐系统中队i 州过滤算法的研究j 实现 过程中,也遇到了很多问题,包括以下一些主要方面: ( 1 ) 数据稀疏性问题 由于电子商务的迅猛发展,在网上购物的用户和网上出售的商品数量也越来 越多,由于商品数量的庞大性,每个用户所给出评价的商品数量只占所有商品的 很少一部分。这样便导致了数据的稀疏性,而由于数据的稀疏性,也就会影响到 整个推荐系统的准确性。 ( 2 ) 冷启动问题 当一个新的用户加入到推荐系统中的时候,由于该用户的历史浏览和购买记 录都为空,该用户对系统中的商品的评价为空,这样的话,就不能通过分析用户 的记录来查找用户的兴趣,也就不能通过推荐系统来对用户进行推荐。 同理,当一个新的项目加入到推荐中的时候,系统对该项目的信息为空,也 就不能找到该项目是哪些用户感兴趣的,也就不能推荐给用户。 ( 3 ) 可扩展性问题 随着用户数和商品数的增多,要找到适合某个用户感兴趣的商品的难度也就 越大,这样就导致了推荐系统的精度降低。 ( 4 ) 实时性问题 由于推荐系统中包含了所有的用户与商品的数据,这些数据是非常庞大的, 对于要求系统能有及时响应的应用,保证推荐的实时性是一个难点。 1 3 本文的研究工作 针对推荐系统面临的挑战,本文主要研究的是推荐系统的核心算法,并对目 前最为流行的协同过滤算法进行深入地研究,并提出了新的见解,其主要的研究 工作如下: ( 1 ) 本文学习研究了推荐系统的相关技术与核心算法,对几种推荐系统的 算法进行了比较。并且重点对协同过滤算法进行了研究分析,学习研究了协同过 滤的流程,对基于项目和基于用户的协同过滤算法进行了深入研究。 ( 2 ) 在目前使用的协同过滤算法中计算相似度的时候,需要使用用户对各 种项目的评分来进行计算,而每个用户只是对部分的项目评分,而对其它的项目 是没有评分的,我们称之为未评分项。对于已有的5 种处理未评分项的方法,到 底采用哪一种具有最好的效果呢,目前还没有定论。本文针对这5 种算法进行了 实验验证,试验结果表明将未评分项的值设置为0 具有最高的准确性。 ( 3 ) 针对目前协同过滤算法存在的精确度受数据的稀疏度影响很大的问题, 提出了一种新的优化的基于项目的协同过滤算法。新的算法在计算两个项目相似 度的时候,考虑了同时给这两个项目都评分的用户数占给这两个项目有过评分的 6 v l p 啦 k k 叠 , h 北京邮电人学硕l :研究生学位论文 推荐系统中协i 川过滤算法的研究j 实现 用户数( 包括给两个项目都评分和只给其中一者有过评分的用户数) 的比例。实 验结果表明,这种优化的基于项目的协同过滤算法比传统的基于项目的协同过滤 算法具有更高的准确性。 1 4 本文的结构 本文共分为六章,各章主要内容如下: 第一章为绪论部分,主要讲述了推荐系统提出的背景和意义,简单介绍了推 荐系统的研究和应用现状,分析了推荐系统研究的主要内容以及面临的主要挑 战,并介绍了本文主要的研究工作。 一 第二章为推荐系统及其核心算法部分,主要对推荐系统进行了简单的介绍, 另外描述了当前已有的几种主流的推荐系统算法,并对这几种推荐算法进行了比 较。在该章的结尾部分,描述了对推荐系统的评估方法。 第三章为协同过滤算法及其相关技术部分,主要简单描述了协同过滤算法, 然后对于基于用户和基于项目的协同过滤算法进行了详细介绍。包括算法的原理 和流程、算法的评估,以及实验所使用的数据。 第四章对未评分项的几种处理方式进行了比较。最后得出结论是:将未评分 项设置为0 具有最高的精确度度,适合对准确度要求高的系统;不考虑未评分项 具有最小的运算量,适合于在线实时推荐系统。 第五章提出了一种优化的基于项目的协同过滤算法。该算法针对目前已有的 基于项目的协同过滤算法存在的问题,进行了修正,在计算两个项目之间相似度 的时候,考虑了给两个项目都具有评分的用户数与给两个项目随机一个具有评分 的用户数之间的比例。实验结果表明,新提出的算法具有更高的准确度。 第六章对全文进行了总结分析,指出其中存在的不足之处,并展望相关领域 下一步可能的研究方向。 北京邮l u 人学顾i j 研究生学位论义 推荐系统中协l 叫过滤算法的研究j 实现 第二章推荐系统与协同过滤的分析与设计 本章首先简单介绍了推荐系统的概念,并且列举出一些推荐系统的算法,并 对这些算法进行了比较。然后再重点对协同过滤进行了介绍,包括描述协同过滤 的概念、并介绍了基于用户的协同过滤算法和基于项目的协同过滤算法。 2 1 推荐系统及其核心算法 2 1 1 推荐系统的介绍 随着电子商务规模的不断扩大,商品的种类和数量快速地增长,顾客购买一 件商品的时候,只能通过自己去挑选自己感兴趣的商品的话,那么顾客购买一件 商品将会花费很多的时间。而如果使用推荐系统的话,系统能够主动将顾客感兴 趣的商品推荐给用户。推荐系统是根据用户的浏览记录或者购买记录,向用户推 荐用户感兴趣的信息和商品。 推荐系统( r e c o m m e n d e rs y s y t c m ) 主要有三个组成元素,分别是:候选对象, 用户,推荐方法。指的是某些用户利用某种推荐方法从候选对象中选出一部分推 荐对象推荐给其他用户。其推荐的流程如图所示,推荐在日常生活中普遍存在的, 推荐的形式也是多样的,朋友之间推荐好吃好玩的地方,推销员推荐好的商品。 推荐方法 2 1 2 推荐系统的算法 图2 - 1 推荐系统的流程 推荐系统的算法是推荐系统的核心,推荐系统使用什么样的推荐方法对推荐 系统的质量有着非常重要的影响。当推荐系统使用的算法非常优秀的话,推荐能 够找到用户真正感兴趣的商品,并将这些商品推荐给用户,这样可以极大地方便 用户的使用。如果从用户的角度来分析的话,一个好的推荐系统能够找到他的兴 趣所在,并推荐给他感兴趣的商品,这样,用户便会对该推荐系统产生依赖,并 8 沙 , 1 矿 “ k 北京邮l 乜人学坝1 j 研究生学位论文 推荐系统中协m 过滤算法的研究j 实现 将长期使用该推荐系统。所以说,电子商务中如果使用一个好的推荐系统,能够 保留客户,提高客户的忠诚度,防止客户的流失,由此可见推荐系统算法的重要 性。 目前推荐系统的主要算法有:基于关联规则的推荐算法、基于内容的推荐算 法、基于协同过滤的推荐算法。 2 1 2 1 基于关联规则的推荐算法 关联规则挖掘( r u l e - b a s e dr e c o m m e n d a t i o n ) 就是发现数据集中项集之间有 趣的关联或者相互联系,它是数据挖掘领域的一个重要分支【1 2 】【1 3 】。 关联规则挖掘的一个典型例子就是购物篮分析,所谓的购物篮就是顾客在一 次事务中所购买项的集合,所谓的事务就是一个明确定义的商业行为【1 7 】。“啤酒 与尿布的故事就是一个具有代表性的例子。在美国沃尔玛连锁超市中,啤酒和 尿布时摆在一起出售的,使得啤酒和尿布的销量双双增加了。沃尔玛拥有世界上 最大的数据仓库系统,在对顾客购买行为进行购物篮分析后,发现跟尿布一起购 买最多的商品竟然是啤酒。经过大量实际调查和分析,发现原来隐藏在这个关系 背后的是一种美国人的行为模式:在美国,有很多年轻的父亲下班后经常到超市 去买婴儿尿布,而他们中友很多人同时也为自己买一些啤酒。如果按照常规思维 方式去思考的话,啤酒和尿布风马牛不相及,若不是借助数据挖掘技术来对大量 交易数据进行挖掘分析的话,是不可能发现这个关系的。 关联规则是这样定义的【1 2 】:设卢 f ,2 ,k ) 是项的集合,d 是数据库 事务的集合,每个事务z 是不同项的集合,使得丁,。设彳是一个项集,事务 r 包含么,当且仅当a 互t 。关联规则是形如a b 的蕴含式,其中彳ci ,bc i , 并且a n b = a 。规则4 ,b 在事务集d 中成立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论