




已阅读5页,还剩53页未读, 继续免费阅读
(应用数学专业论文)基于评分预测和概率融合的协同过滤研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士研究生学位论文第1 页 摘要 随着互联网的普及和网络技术的不断发展,电子商务因其成本低廉、 快捷、不受时空限制等优点在全球范围内得到普及和发展而在这种虚拟 环境下,商家所提供的产品种类和数量非常多,而且,从现实经验来看, 用户的需求经常是不明确的、模糊的,可能会对某类产品有着潜在的需求, 但t 并不清楚什么产品能满足自己的模糊需求,所以,如何向用户进行个性 化产品推荐,将电子商务网站的浏览者转变为购买者,提高电子商务网站 的交叉销售能力以及客户对电子商务网站的忠诚度,使得企业获得尽可能 多的效益,成为电子商务的一个重要研究内容。推荐系统就是在这样的背 景下与电子商务结合在一起的。协同过滤是目前在电子商务推荐系统中应 用最早和最为成功的个性化推荐技术。但是,随着站点结构、内容复杂度、 产品数量、产品种类和用户人数的不断增加,推荐系统中的协同过滤技术 发展面临着诸如推荐质量不高、扩展性差等严竣的挑战。面对这些挑战, 针对如何提高对用户推荐信息的质量、提高协同过滤算法的可扩展性等问 题,国内外进行了很多研究,其成果也在实际中得到了一定的应用。 论文首先简要介绍了电子商务推荐系统产生的背景。论文对推荐系统 的概念、作用,以及常用的方法等进行了详细的阐述。在推荐技术中,协 同过滤技术不仅为推荐系统提高服务质量提供了新的思路,而且该技术在 许多商业网站上也得到了广泛地、成功地应用对协同过滤基本思想、出 发点,实现,以及协同过滤的两个方向作了全面介绍。论文还着重分析了 协同过滤在推荐系统中应用时所面临的问题,以及现有的解决方法。针对 这些问题提出了新的解决方法。该方法是在原有的基于用户的协同过滤和 基于项的协同过滤两种算法基础上,引入了橛率融合框架融合了前面的两 种算法,这样,一方面增加了进行推荐时可用的数据,减少了由于数据稀 疏性的影响,在一定程度上提高了推荐质量。另一方面对于协同过滤算法 中出现的数据的极端稀疏性问题,引入了b p 神经网络的方法,对未评分 数据进行了预测,降低了数据的稀疏度,在一定程度上也提高了算法的精 确度。另外,针对以往协同过滤算法中未考虑和利用项分类信息,使得推 荐时缺少个性,难以适应目前电子商务系统日趋多样性和个性化的趋势的 问题,引入了面向场景的方法,这样,既解决了上述问题,又减少了b p 神经网络预测时的计算量和相似用户计算的复杂度,对推荐质量的提高也 第1 i 页河南大学硕士研究生学位论文 有一定的效果。论文还对提出的算法在标准数据集上给出了实验结果,并 将其与其他算法的相关性能进行了比较分析。最后,对本文研究进行了全 面的总结,指出了研究中存在的不足,展望了未来进一步研究的方向。 关键词:推荐系统;协同过滤;场景;b p 神经网络;概率融合框架 河南大学硕士研究生学位论文第1 | l 页 a b s t r a c t w i t ht h e w i d e s p r e a do fn e t w o r ka n dt h ed e v e l o p m e n to fn e t w o r k t e c h n o l o g i e s ,e - c o m m e r c eh a sb e e np o p u l a r i z e da n dd e v e l o p m e n ti nag l o b a l c o n t e x tb e c a u s eo fi t sa d v a n t a g e ss u c ha sl o wc o s t ,f a s t ,f r e ef r o mc o n s t r a i n t s o ft i m ea n ds p a c e b u ti nt h i sv i r t u a le n v i o r m e n t ,m o r ea n dm o r et y p e sa n d a m o u n t so fp r o d u c t sa r e p r o v i d e db yb u s i n e s s e s ,a n df r o m ap r a c t i c a l e x p e r i e n c e ,t h er e q u i r e m e n t so fu s e r sa r eo f t e nu n c l e a r , v a g u e t h e ym a y h a v ep o t e n t i a ld e m a n df o rc e r t a i np r o d u c t s b u ti ti sn o tc l e a rw h a tp r o d u c t s w o u l dm e e tt h e i rf u z z yn e e d s ,s oh o wt o g i v et h ec u s t o m e r sp e r s o n a l i z e d r e c o m m e n d a t i o na b o u tt h ep r o d u c t s ,h o wt ot u r nt h ee - c o m m e r c ew e b s i t e b r o w s e r st ob u y e r s h o wt oe n h a n c et h ea b i l i t yo fc r o s s s e l lo fe c o m m e r c e w e b s i t ea n dt h e c u s t o m e r s l o y a l t y o ne c o m m e r c e w e b s i t e s ,m a k i n g e n t e r p r i s e sm a x i m i z et h e i rp r o f i t sh a v eb e c o m ea ni m p o r t a n t i s u u e0 1 1 e - c o m m e r c e r e c o m m e r d e rs y s t e mi sc o m b i n e dw i t he - c o m m e r c ei ns u c h e n v i r o m e n t c o l l a b o r a t i v e f i l t e r i n g i st h ee a r l i s ta n dm o s ts u c c e s s i v e p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yi nt h ee - c o m m e r c er e c o m m e n d e r s y s t e m s y e t ,w i t ht h ec o n t i n u e si n c r e m e n to ft h es t r u c t u r eo fw e b s i t e ,t h e c o m p l e x i t yo fc o n t e n t s ,t h ea m o u n t so fp r o d u c t s ,t h et y p e so fp r o d u c t sa n dt h e a m o u n to fc u s t o m e r s ,t h ed e v e l o p m e n to fc o i l a b o r a t i v ef i l t e r i n gt e c h n o l o g y o fr e c o m m e r d e r s y s t e m s f a c e ss e r i o u s c h a l l e n g e s s u c ha s p o o r r e c o m m e n d a t i o nq u a l i t ya n ds c a l a b i l i t y f a c i n gt h e s ec h a l l e n g e s ,o nt h e i s s u e so fh o wt oi r e p r o v et h eq u a l i t yo f1 1 s e t sr e c o m m e n d a t i o ni n f o r m a t i o n a n dh o wt oe n h a n c et h es c a l a b i l i t yo fc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m s ,s o m e r e s e a r c h e sh a v eb e e nd o n ei nd o m e s t i ca n df o r e i g n ,a n dt h er e s e a r c hr e s u l t s h a v eb e e ns u c c e s s f u l l ya p p l i e di np r a c t i c e t h i s p a p e rb r i e f l y i n t r o d u c e d b a c k g r o u n d o ft h ee o c o m m e r c e r e c o m m e n d e rs y s t e ma tf i r s t i ti l l u s t r a t e st h er e c o m m e n d e rs y s t e mc o n c e p t , e f f e c t ,a n dp o p u l a rm e t h o d si nd e t a i l i nt h er e c o m m e n d a t i o nt e c h n o l o g y , c o l l a b o r a t i v ef l l e t e r i n gn o to n l yp r o v i d e sn e wi d e a sf o ri m p r o v i n gs e r v e q u a l i t yo fr e c o m m e n d e rs y s t e m s ,b u ta l s oi sa p p l i e dw i d l ya n ds u c c e s s f u l l yi n 第1 v 页河南大学硕士研究生学位论文 m a n yc o m m e n c i a lw e b s i t e i ti n t r o d u c e sc o l l o a b o r a t i v ef i l t e r i n gb a s i ci d e a s , t h e o r ys t a r t ,i m p l e m e n t a t i o na n di t st w od i r e c t i o n s a l s oi tg i v e se m p h a s i st o a n a l y z i n gt h ep r o b e l m e sw h i c hc o l l a b o r a t i v ef i l t e r i n gi sf a c i n gw h e ni t s a p p l i e di nr e c o m m e n d e rs y s t e m sa n de x i s t i n gi m p r o v e dm e t h o d s t h ep a p e r p r o p o s e sn e wm e t h o d st os o l v et h o s ep r o b l e m s b a s e do nt h eu s e r - b a s e da n d i t e m b a s e dc o l l a b o r a t i v e f i l e r i n ga l g o r i t h m s ,t h en e wm e t h o d i n t r o d u c e s p r o b a b i l i s t i ef u s i o nf r a m e w o r kt of u s et h e s et w oa l g o r i t h m s t h u s ,o no n e h a n d ,i ti n c r e a s e st h ea v a i l a b l ed a t ad u r i n gr e c o m m e n d i n g ,r e d u c e st h e e f f e c t n e s so fd a t as p a r s i t y , a n de n h a n c et h er e c o m m e n d a t i o nq u a l i t yt oa c e r t a i ne x t e n t o nt h eo t h e rh a n d ,f o rd a t ae x t r e ms p a r s i t yp r o b l e m ,b pn e u r a l n e t w o r ki si n t r o d u c e dt op r e d i c tt h ev a l u e so ft h en u l lr a t i n g s ,a l l e v i a t et h i s i s s u e ,a n da l s oi m p r o v e st h er e c o m m e n d e rs y s t e m sp r e c i s i o nt os o m ee x t e n t f u r t h e r m o r e ,b e c a u s eo fn o tc o n c e r n i n ga n du s eo fi t e m sc l a s s i f i c a t i o n i n f o r m a t i o ni no l d a l g o r i t h m s ,i tm a k e s t h er e c o m m e n d a t i o nl a c ko f p e r s o n a l i t ys ot h a ti ti sd i f f i c u l tt oa d a p tt ot h et r e n do fe - c o m m e r c eg r o w i n g d i v e r s i t y a n di n d i v i d u a l l i t yo ft h ec u r r e n t s y s t e m s f o r t h i si s s u e ,a s c e n e o r i e n t e da p p r o a c hi si n t r o d u c e d t h u s ,i tn o to n l ys o l v e st h ef o r m e r p r o b l e m s ,b u ta l s or e d u c e st h ea m o u n to fc o m p u t a t i o nw h e np r e d i c t i o nu s i n g b pn e u r a ln e t w o r ka n ds i m i l a ru s e rc o m p u t i n g c o m p l e x i t y i th a ss o m e p o s i t i v ei m p a c to nr e c o m m e n d a t i o nq u a l i t y i ta l s og i v e se x p e r i m e n tr e s u l t s f o rp r o p o s e da l g o r i t h n m si ns t a n d a r dd a t as e t s ,a n dt h ep e r f o r m a n c eb e t w e e n t h en e wm e t h o da n dt h eo l do n ei sc o m p a r e da n da n a l y z e d f i n a l l y , w e s u m m a r i z eo nt h ep a p e lp o i n to u td e f e c t sa n dt h ed i r e c t i o n st h a t w i l lb e f u r t h e rs t u d i e di nt h ef u t u r e k e y w o r d sr e c o m m e n d e r s y s t e m , c o l l b o r a t i v e f i l t e r i n g ,s c e n e , b a c k p r o p a g a t i o nn e u r a ln e t w o r k ,p r o b a b i l i s t i cf u s i o nf r a m e w o r k 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请。本人郑重声明:所呈交酌学位论文是 本人在导师的指导下独立完成酌,对所研究的课题有新的见解。据我所知,除 文中特别加以说明、标注和致谢酌地方外,论文中不包括其他人已经发表或撰 写过酌研究成果,也不包括其他人为获得任何教育、科研机构酌学住或证书而 段保存、汇编学位论又( 纸质夏奉争电子文本) 。 ( 涉及保密内睿的学位论文在解密后适用本授权书) 学位获得者( 学位论文作者) 签名: 趑:龟 2 d 0 7 年f 月8 日 学位论文指导教师签名:堇塑盘 一 2 0 r 7 年占月,罗日 河南大学硕士研究生学位论文第1 页 1 1 研究背景 第1 章绪论 i n t e r n e t 的迅猛发展将人类带入了信息社会和网络经济时代,对企业发 展和个人生活都产生了深刻的影响。一方面,基于i n t e r n e t 的虚拟企业不 再需要像传统的物理环境下企业那样的实体投资,企业与顾客、供应商等建 立起更直接的联系,电子商务模式为企业发展提供了更多的机会;同时, i n t e r n e t 的发展正在极大地改变我们每个人的生活,人们不出家门就可随 心所欲地得到自己想要的商品,网上购物的经历让我们感受到电子商务带来 的惊喜。 在电子商务的虚拟环境下,商家所提供的商品种类和数量非常多,用户 不可能通过一个小小的计算机屏幕一眼就知道所有的商品,用户也不可能象 在物理环境下那样检查挑选商品。因此,需要商家提供一些智能化的选贿指 导,根据用户的兴趣爱好推荐用户可能感兴趣或是满意的商品,使用户能够 很方便地得到自己所需要得到的商品。而且,从现实经验来看,用户的需求 经常是不明确的、模糊的,可能会对菜类商品有着潜在的需求,但并不清楚 什么商品能满足自己的模糊需求。这时,如果商家能够把满足用户模糊需求 的商品推荐给用户,就可以把用户的潜在需求转化为现实的需求,从而提高 产品的销售量。 在这种背景下,推荐系统( r e c o m m e n d e rs y s t e m s ) 应运而生,它是根据 用户的特征,比如兴趣爱好,推荐满足用户要求的对象,也称个性化推荐系 统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m s ) “1 根据推荐对象的特点,目前 主要有两种类型的推荐系统,一种是以网页为推荐对象的搜索系统,主要采 用w e b 数据挖掘的方法与技术,为用户推荐符合其兴趣爱好的网页,如 g o o g l e 等:另一种是网上购物( 尤其是b 2 c 类型) 环境下,以商品为推荐对 象的个性化推荐系统,为用户推荐符合兴趣爱好的商品,如书籍、音像等,称 这种推荐系统为电子商务个性化推荐系统,简称电子商务推荐系统 ( r e c o m m e n d e rs y s t e mi ne - c o m m e r c e ) 。 研究表明,电子商务的销售行业使用个性化推荐系统后,销售额能提高 2 8 船1 ,尤其在书籍电影、c d 音像、日用百货等产品相对较为低廉且商品种 第2 页河南大学硕士研究生学位论文 类繁多、用户使用个性化推荐系统程度高的行业,推荐系统能大大提高企业 的销售额。 1 2 本文的主要研究内容 电子商务推荐系统中目前己使用的技术主要有:贝叶斯网络 ( b a y e s i a n n e t w o r k ) “、关联规则( a s s o c i a t i o nr u l e s ) h 】、聚类 ( c l u s t e r i n g ) “儿”、h o r t i n g 图( h o r t i n gg r a p h ) h 1 、协同过滤技术 ( c 0 1 1 a b o r a t i v ef i l t e r i n g ) 哺1 等。其中协同过滤技术是推荐系统技术中应 用最早和最为成功的技术之一。 本文通过对协同过滤、其面临的问题和挑战以及相应的解决方法进行了 详细的分析与研究,提出了一种新的解决方法,以期达到能有效地解决协同 过滤算法中出现的数据稀疏性等问题,产生更为准确的用户兴趣度预测,从 而提高系统推荐的质量。具体内容包括: 1 研究和总结协同过滤及其在电子商务推荐系统中的应用和实现技术、 面临的主要问题和挑战( 如:稀疏性问题、扩展性问题等) ,并找出其原因。 2 研究和分析针对协同过滤应用于电子商务推荐系统中所面临问题的一 些现有的解决方法,例如将s v d 与协同过滤结合、聚类与协同过滤的结合等。 3 提出解决协同过滤问题存在的某些问题的解决思路,并进行算法的设 计 4 利用一个被广泛使用和认可的实验数据集对提出算法进行实验验证, 并对所提出的算法和原算法进行性能对比与评价。 1 3 本文的组织 第二章,电子商务推荐系统及协同过滤技术。对电子商务推荐系统的相 关知识进行了介绍,包括分类及电子商务推荐系统中的使用方法。从整体上 介绍协同过滤的基本思想、实现过程,认识和了解协同过滤技术。 第三章,协同过滤算法存在的问题。研究和分析基于协同过滤的推荐系 统面临的挑战及协同过滤在推荐系统应用中存在的问题,介绍了目前比较典 型的解决问题的方法,并对它们优缺点进行了分析 第四章,基于评分预测和概率融合的协同过滤。对提出的算法进行理论 分析,并对算法过程详细描述。 河南大学硕士研究生学位论文第3 页 第五章,实验与评价。给出算法在标准数据集上的实验结果,对提出算 法与原算法进行了相关性能的比较分析。 最后,结论。对本文研究进行全面总结,指出存在不足,以及对未来工 作进行展望。 第4 页河南大学硕士研究生学位论文 第二章电子商务推荐系统及协同过滤技术 2 1 电子商务推荐系统简介 2 1 1 概念 h a r v a r d 商学院的j o ep i n e 在他的大规模定制( m a s sc u s t o m i z a t i o n ) 州一 文中,认为现代企业应该从大规模生产( 以标准化的产品和均匀的市场为特 征) 向大规模定制( 为不同客户的不同需求提供不同的商品) 转化。在众多企业 为客户提供多种多样服务的同时,在一定程度上使客户在寻找到自己满意的 商品之前,必须对企业提供的大量不同的信息进行处理,因此,无论是企业 还是客户都面临着信息超载的问题。推荐系统则是为解决这一问题应运而生 的。 推荐系统( r e c o m m e n d e rs y s t e m s ) ”就是利用统计和知识发现技术来解 决与目标客户交互时提供商品推荐问题的系统。现在被广泛引用的推荐系统 ( r e c o m m e n d e rs y s t e m ) 的定义是r e s n i c k & v a r i a n 在1 9 9 7 年给出的:“它 在电子商务系统中向客户提供商品信息和建议,帮助客户决定购买何种商 品,模拟销售人员向客户推荐商品完成购买的过程”。推荐系统推荐何种商 品是在电子商务网站整体商品的购买情况、客户的人数统计或者对客户购买 的历史记录上进行分析产生的。广义上讲,这些因素的考虑使电子商务具有 了个性化的色彩,而且对于不同的客户,具有推荐系统的电子商务网站表现 出了一定的自适应性。 推荐有三个组成要素:推荐候选对象、用户、推荐方法,如图2 - l 所示。 推荐活动在我们日常生中普遍存在,根据不同的推荐对象和推荐方法,推荐 活动形式多样,如,超市购物导购员为用户推荐用户喜爱的产品,提高销售 能力:现实生活中朋友间相互推荐喜爱的电影;推销员向用户推销产品等, 都是推荐活动,可以说,只要存在多个候选对象,就存在选择问题,存在选 择就有推荐问题存在。 河南大学硕士研究生学位论文第5 页 图2 - 1 推荐系统一般框架 2 1 2 作用 个性化推荐的最大的优点在于,它能收集用户特征资料并根据用户特 征,如兴趣偏好,为用户主动作出个性化的推荐。而且,系统给出的推荐是 可以实时更新的,即当系统中的商品库或用户特征库发生改变时,给出的推 荐序列会自动改变。这就大大提高了电子商务活动的简便性和有效性,同时 也提高了企业的服务水平。 总体说来,一个成功的个性化推荐系统的作用主要表现在以下三个方 面: 1 ) 将电子商务网站的浏览者转交为购买者:电子商务系统的访问者在 浏览过程中经常并没有购买欲望,个性化推荐系统能够向用户推荐他们感兴 趣的商品,从而促成购买过程 2 ) 提高电子商务网站的交叉销售能力:个性化推荐系统在用户购买过 程中向用户提供其他有价值的商品推荐,用户能够从系统提供的推荐列表中 购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务 系统的交叉销售。 3 ) 提高客户对电子商务阿站的忠诚度:与传统的商务模式相比,电子 商务系统使得用户拥有越来越多的选择,用户更换商家极其方便,只需要点 击一两次鼠标就可以在不同的电子商务系统之间跳转。个性化推荐系统分析 用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果推荐系 统的推荐质量很高,那么用户会对该推荐系统产生依赖。因此,个性化推 荐系统不仅能够为用户提供个性化的推荐服务,而且能与用户建立长期稳定 的关系,从而有效保留客户,提高客户的忠诚度,防止客户流失 个性化推荐系统具有良好的发展和应用前景。目前,几乎所有的大型电 子商务系绞,如a h l a z o n 、e b a y 等,都不同程度的使用了各种形式的推荐系 统。各种提供个性化服务的w e b 站点也需要推荐系统的大力支持。在日趋 激烈的竞争环境下,个性化推荐系统能有效的保留客户,提高电子商务系统 的服务能力。成功的推荐系统会带来巨大的效益。 第6 页河南大学硕士研究生学位论文 2 1 3 现有推荐系统 目前,推荐系统已经运用到多个行业中,推荐对象包括书籍、音像、网 页、文章、新闻等,如表2 1 。大多数的推荐系统主要应用在电子商务和w e b 中,其中已应用到商业中的推荐系统主要有电子商务、电影和音乐等领域。 这反映推荐系统想要运用到商业中,必须能够为用户提供一个确实有价值的 推荐功能,从而为商业企业带来一定的经济价值。 表2 - 1 主要推荐系统一览表 领域推荐系统 电子商务 a m a z o n ,c o r n ,e b a y ,l e v i s ,s k i e u r o p ec o m f a b ,f o x t m t ,i f w e b ,m e m o l r ,m e t i o r e w p r o f b u i l d e r ,q u l c , 网页 q u i c k s t e p tr 2 p ,s i t e s e e r s u r f l e n , 音乐 c d n o w ,c o c o a ,r i n g o 电影m o v i e f i n d e r c o m ,m o v i e l e n s ,r e e l c o r n 新闻过滤 g r o u p l e n s ,p h o a k s ,p t a n g o 2 2 电子商务推荐系统推荐方法 很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度 上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、 协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推 荐。 2 2 1 基于内容推荐 基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) 是信息过滤技术的延 续与发展,它是建立在项的内容信息上作出推荐的,而不需要依据用户对项 的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中 得到用户的兴趣资料。在基于内容的推荐系统中,项或对象是通过相关的特 征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用 户资料与待预测项的相匹配程度,如新闻过滤系统n e w sw e e d e r ( 旧l 【j 。用户 的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的 河南大学硕士研究生学位论文第7 页 表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模 型可能随着用户的偏好改变而发生变化。 基于内容推荐方法的优点是: 1 ) 不需要其它用户的数据,没有冷开始问题和稀疏问题。 2 ) 能为具有特殊兴趣爱好的用户进行推荐。 3 ) 能推荐新的或不是很流行的项,没有新项问题 4 ) 通过列出推荐项的内容特征,可以解释为什么推荐那些项 5 ) 已有比较好的技术,如关于分类学习方面的技术已相当成熟。 缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结 构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其 它用户的判断情况。 2 2 2 协同过滤推荐 协同过滤推荐( c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n ) 是目前研究最多的 个性化推荐技术它一般采用最近邻技术,利用用户的历史喜好信息计算用 户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价 值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对 目标用户进行推荐协同过滤最大优点是对推荐对象没有特殊的要求,能处 理非结构化的复杂对象,如音乐、电影化程度高。 基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而 且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得 ”的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格 等。 和基于内容的过滤方法相比,协同过滤具有如下的优点: 1 ) 能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。 2 ) 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够 基于一些复杂的,难以表述的概念( 如信息质量、个人品味) 进行过滤。 3 ) 有推荐新信息的能力可以发现内容上完全不相似的信息,用户对 推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个 较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同 过滤可以发现用户潜在的但自己尚未发现的兴趣偏好 4 ) 能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加 快个性化学习的速度。 2 2 3 基于关联规则推荐 第8 页河南大学硕士研究生学位论文 基于关联规则的推荐( a s s o c i a t i o nr u l e - b a s e dr e c o m m e n d a t i o n ) p j 是以 关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖 掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的 应用。管理规则就是在个交易数据库中统计购买了商品集x 的交易中有多 大比例的交易同时购买了商品集y ,其直观的意义就是用户在购买某些商品 的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时 购买面包 算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可 以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。 2 2 4 基于效用推荐 基于效用的推荐( u t i l i t y b a s e dr e c o m m e n d a t i o n ) 是建立在对用户使用 项的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用 函数,因此,用户资料模型很大程度上是由系统所采用的效用函数决定的。 基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性( v e n d o r r e l i a b i l i t y ) 和产品的可得性( p r o d u c t a v a i l a b i l i t y ) 等考虑到效用计算中。 2 2 5 基干知识推荐 一 基于知识的推荐( k n o w l e d g e b a s e dr e c o m m e n d a t i o n ) 在某种程度是可 以看成是一种推理( i n f e r e n c e ) 技术 1 2 】【1 3 j ,它不是建立在用户需要和偏好基 础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别效 用知识( f u n c t i o n a l k n o w l e d g e ) 是一静关于一个项如何满足某一特定用户的 知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理 的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户 需要的表示。 2 2 6 组合推荐 由于各种推荐方法都有优缺点,所以在实际中,组合推荐( h y b r i d r e c o m m e n d a t i o n ) 经常被采用。研究和应用最多的是内容推荐和协同过滤推 荐的组合l i t 】【1 4 】。最简单的做法就是分别用基于内容的方法和协同过滤推荐 方法去产生个推荐预测结果,然后用某方法组合其结果【i ”。尽管从理论上 有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一 个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。 在组合方式上,文献 1 3 】提出了七种组合思路: 1 ) 加权( w e i g h t ) :加权多种推荐技术结果。 2 ) 变换( s w i t c h ) :根据问题背景和实际情况或要求决定变换采用不同 的推荐技术。 河南大学硕士研究生学位论文第9 页 3 ) 混合( m i x e d ) :同时采用多种推荐技术给出多种推荐结果为用户提 供参考。 4 ) 特征组合( f e a t u r ec o m b i n a t i o n ) :组合来自不同推荐数据源的特征 被另一种推荐算法所采用。 5 ) 层叠( c a s c a d e ) :先用一种推荐技术产生一种粗糙的推荐结果,第 二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。 6 ) 特征扩充( f e a t u r ea u g m e n t a t i o n ) :一种技术产生附加的特征信息嵌 入到另一种推荐技术的特征输入中。 7 ) 元级别( m e t a l e v e l ) :用一种推荐方法产生的模型作为另一种推荐 方法的输入 2 2 7 主要推荐方法的对比 各种推荐方法都有其各自的优点和缺点,见表2 2 。 推荐方法优点 缺点 推荐结果直观,容易解释;不需要稀疏问题;新用户问题;复杂 基于内容推荐领域知识属性不好处理;要有足够数据 构造分类器 r, 新异兴趣发现、不需要领域知识;稀疏问题;可扩展性问题;新 随着时间推移性能提高;推荐个性用户问题;质量取决于历史数 协同过滤推荐 化、自动化程度高;能处理复杂的 据集;系统开始时推荐质量差; 非结构化对象 能发现新兴趣点;不要领域知识规则抽取难、耗时;产品名同 基于规则推荐 义性问题:个性化程度低; 无冷开始和稀疏问题;对用户偏好用户必须输入效用函数;推荐 基于效用推荐变化敏感;能考虑非产品特性 是静态的,灵活性差;属性重 叠问题: 能把用户需求映射到产品上;能考知识难获得;推荐是静态的 基于知识推荐 虑非产品属性 2 3 协同过滤技术 2 3 1 协同过滤的优缺点, 协同过滤技术在推荐系统以及电子商务网站中得到广泛的应用,它是至 第1 0 页河南大学硕士研究生学位论文 今为止最成功的信息过滤技术之一协同过滤,又称社会过滤( s o c i a l f i l t e r i n g ) ,其基本思想【l6 】是通过比较用户过去的兴趣和行为的相似程度,找 出和目标用户具有相同或相似兴趣的用户组,再根据他们对资源的评价来预 测目标用户的兴趣,达到向目标用户推荐资源的目的。这个基本思想和现在 颇为流行的“口碑传播( w o r d o f - m o u t h ) ”有点儿类似。相信大家都有体会, 在现实生活里,对自己最有效的信息,往往是来自于朋友们的推荐。 协同过滤系统就是将这一思想运用到网络信息服务( 信息推荐) 中,基 于其他用户对某一信息的评价来向某一用户进行推荐。通常,系统选取与指 定用户有相似兴趣的用户作为参考对象。而如何定义用户相似性以及如何选 取参考用户群正是协同过滤算法研究的重点。 与传统内容过滤相比,协同过滤具有下列优点【i 7 】: 1 ) 能够过滤难以进行机器自动内容分析的信息,像艺术品、音乐。 2 ) 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基 于一些复杂,难以表述的撅念( 如信息质量、品味) 进行过滤。 3 ) 有推荐新信息的能力( s e r e n d i p i t o u sr e c o m m e n d a t i o n s ) 4 ) 能够有效地使用其他相似用户的反馈信息,减少用户的反馈量,加快 个性化学习的速度。 正因如此,在g o l d b e r g 等人在其设计的邮件过滤系统中初步应用了协 同过滤的思想( 这可以说是最早的协同过滤系统) 之后,各种研究协同过滤的 实验系统纷纷出现。像g r o u p l e n s :过滤网上新闻的系统;r i n g o :推荐音乐 的系统;v i d e or e c o m m e n d e r 和m o v i e l e n s :推荐电影的系统,l e s t e :推荐笑 话的系统等。其后,该技术的商业应用也不断的扩大,象前面所说的 a m a z o n c o r n c d n o w c o r n 等,都使用了协同过滤技术向顾客推荐产品。 当然,协同过滤也有一定的不足,这是由协同过滤的本质决定:要获得 满意的效果,必须得到准确的用户信息。一般而言,这需要建立在拥有大量 的用户信息数据的基础上。而这恰恰是很难做到的,同时这也使得协同过滤 技术应用领域较为狭窄( 几乎集中在娱乐方面:音乐、电影) ,在更广的 领域( 如在基于内容过滤相当成功的文本相关性领域) 的应用还很不够。 2 3 2 协同过滤的实现 协同过滤的出,发点是【1 8 】【1 9 】:兴趣相近的用户可能会对同样的东西感兴 趣。所以,只要维护关于用户喜好的数据,从中分析得出具有相似口味的用户, 然后就可以根据相似客户的意见来向其进行推荐 2 0 1 1 2 1 】【2 2 1 。另一种可能的出 发点是:用户可能较偏爱与其已购买的东西相类似的商品。可以根据用户对 各种东西的评价来判断商品之间的相似程度,然后推荐与用户* 趣最接近的 河南大学硕士研究生学位论文第”页 那些商品前一种思路以客户与客户之间的关系为中心,而后一种思路则以 项与项之间的关系为着眼点。 图2 - 2 协同过滤的实现步骤 以第一种思路为例,一般情况下,协同过滤系统通常需要三个步骤:首 先,获得用户信息( 用户对某些信息条目的评价等) ;其次,分析用户之间 的相似性,形成最近邻居;最后,产生推荐。如图2 2 所示: ( 1 ) 获得用户信息并进行信息表( r e p r e s e n t a t i o no f i n p u td a t a ) 用户信息的获取主要获得用户对给定信息( 广义意义上的,狭义意义上 的可以指商家提供的商品等) 的评价评价分为显式评价和隐式评价两种【2 引。 。1 ) 显式评价,需要用户有意识地表达自己对某一信息的认同程度,一般 用整数值来表示喜欢的程度,最著名的例如m o v i e l e n s 。协同过滤系统向新 用户提供一个信息列表,要求用户对其中全部或部分信息进行评价,系统获 得用户的这些初始信息后,就能将用户加入到用户库中,随着用户不断使用 协同过滤推荐系统,用户信息不断积累,从而为用户提供越来越符合其个人 需要的推荐。 2 ) 隐式评价,不需要用户直接输入评价数据,而是根据用户的行为特征 由系统代替用户完成评价。一种研究得比较多的方法是w e bm i n i n g 。目前 已做的研究有通过分析用户网上购物记录、阅读文章时间的长短、u r l 的连 接次数等数据记录获取。电子商务网站在隐式评分的数据获取上有先天的优 势,用户购买的商品记录是非常有用的数据。从发展潜力上来看,随着隐式 评价数据分析、处理能力的不断提高,运用隐式评价的推荐系统将会占越来 越大的比重。 信息表示主要完成用户信息的描述,一般使用用户项矩阵表示,项代 表商品( 或给定的信息,如;电影、书籍等) 第1 2 页河南大学硕士研究生学位论文 x ; 1x 1 2 x 2 1x 2 2 工nx k 2 j l h 而 : f 图2 - 3 用户项矩阵 如上图2 3 所示的一个k m 的用户项评价矩阵x ,k 行代表k 个用户, m 列代表m 个项,x i i 是第i 个用户对第j 项的评价值( 或评估值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文档格式化编写与版本控制模板
- 大医精诚护理考试题库及答案
- 健康数据统计表-健康数据监测报告
- 质量标准与服务信誉承诺书8篇
- 高三关于四季的记叙文600字作文(15篇)
- 医疗安全法规培训课件
- 保险业产品销售代理协议
- 品牌合作推广服务合同
- 畜牧业生产技术服务外包合同
- 医疗安全事件培训记录课件
- 2025年新疆中考数学试卷真题(含答案解析)
- 中央厨房体系管理制度
- GB/T 19437-2025印刷技术印刷图像的光谱测量和色度计算
- 2025至2030中国医疗服务行业产业运行态势及投资规划深度研究报告
- 宾馆内部治安管理制度
- 《鲁迅故居》课件
- 央视春晚活动策划
- 全职妈妈工作简历模板
- 网络安全面试题库及答案
- 老年人骨折病人的护理
- GB/T 45266-2025消费品质量分级导则羽绒制品
评论
0/150
提交评论