(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf_第1页
(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf_第2页
(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf_第3页
(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf_第4页
(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)电子商务个性化推荐技术及其应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j l 京酆雹失拳壤士论文 电子蠢蠡争往挝推荐技术掇羹盔爱磺究 电子商务个性化推荐技术及其应用研究 摘要 随着i n t e r n e t 嗣穗子商务技术豹邋猛发展,入稍遗切霈要一静 个性化推荐技术帮助他们实现信息过滤謦对商品的自动摊荐。本文研 究了电子商务个性化推荐系统及主要的推荐技术,特别是协同过滤技 术,包括基于用户的协同过滤技术和基于项目的协同过滤技术。 蒸予用户的协同过滤是l :孛应用最成功的个性化推荐技术,它在 推荐效果翻准确滢等方覆显示密了卓越静优势。逵是,这琴孛推荐鼓本 中存在的冷开始和稀疏问题也严重影响了推荐系统的性熊,使协同过 滤的效果得不到充分的发挥。 为了解决这些问题,本文提出了一种基于用户的协同过滤推荐和 基于项霾的协同过滤黝缀合推荐算法,利爆基于项目协阉过滤对相似 顼疆懿礤究弥毒 传统协强过滤推荐在毅璎鏊蓥荐方委豹不是。这种缝 合算法先利用基于项嗣协同过滤技术预测该用户对薪颈羁的评分,最 后使用基于用户的协同过滤推荐在相似项目的范围内计算邻居用户 并给出最终的预测评分,以此使新项目参与到推荐中,同时稀疏问题 也迎刃丽解。 本文讨论了电子赛务个牲讫接荐系统懿缝或和结搦,以及主要蕊 推荐技术,分辑了稀疏润题和冷开始闯鹣的根源;在研究了基于用户 的协同过滤和基于项目的协同过滤的特点之后,提出了组合推荐算法 并设计实验验证了算法的效果。 关键诞 个性化推荐基予翔户的协同过滤基于顼嚣的秘嗣过滤组合推 荐 | l 北京邮电大学磁士论文电子商务个性化推荐技术檄冀应用研究 r e s e a r c ho f p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n i q u e s f o r e c o m m e r c ea n di t sa p p l i c a t i o n s a b s t r a c t w i t h 畦l e s p e e d yd e v e l o p m e n t o fi n t e r n e ta n de c o m m e r c e t e c h n i q u e s ,p e o p l e su r g e n t l y a s kf o ra p e r s o n a l i z e d r e c o m m e n d a t i o n t e c h n i q u e t h a tc a r l h e l p t h e mr e a l i z et h ei n f o m a a t i o n f i l t e r i n g a n d a u t o m a t i cr e c o m m e n d a t i o n so ft h ep r o d u c t t h i sp a p e rr e s e a r c h e st h e p e r s o n a l i z e d r e c o m m e n d a t i o n s y s t e m a n d t e c h n i q u e se s p e c i a l l y t h e c o l l a b o r a t i v ef i l t e r i n gt e c h n i q u e i n c l u d i n g u s e r - b a s e da n di t e m b a s e d 。 c o i l a b o r a t i v e f i l t e r i n g i st h em o s ts u c c e s s f u l t e c h n i q u e o f p e r s o n a l i z e dr e c o n a m e n d a t i o nt e c h n i q u e s f o rb u i l d i n gr e c o m m e n d a t i o n s y s t e m sa n d h a ss h o w n s p e c i a ls u p e r i o r i t yf o r r e c o m m e n d a t i o ne f f e c ta n d a c c l l r a c y , b u t i t sp e r f o r m a n c ei ss e r i o u s l ys u f f e r e df r o mt h ep r o b l e m so f c o l d 。s t a r ta n ds p a r s i t y , w h i c hm a k e s i t se f f e c tc a l l te x e r t c o m p l e t e l y t os o l u t et h e s e i s s u e ,w ep r e s e n t e d a n a l g o r i t h mc o m b i n i n g i t e m b a s e dr e c o m m e n d a t i o n a n du s e r - b a s e dc o l l a b o r a t i v e f i l t e r i n g r e c o m m e n d a t i o nt o g e t h e r t om a k e u p t h el i m i t a t i o no fu s e r - b a s e d c o l t a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nf o rr e c o m m e n d a t i o no f t h en e w i t e r n sb yr e s e a r c ho nt h es i m i l a ri t e m si ni t e m - b a s e dr e c o m m e n d a t i o n 。 t h ec o m b i n i n ga l g o r i t h ma n a l y z e st h e c h a r a c t e r i s t i c so fa t t r i b u t e so f i t e m sa n df i n d s t h es i m i l a ri t e m st ot h en e wi t e m b y i t e m b a s e d r e c o m m e n d a t i o nf i r s t l y t h e n i tf o r e c a s t st h er a t et ot h en e w i t e mf r o n u s e rb vt h ed e g r e eo ft h e s es i m i l a ri t e m sa n dt h er a t e t ot h e s es i m i l a r i t e m sf r o mu s e r f i n a l l y , i tc o m p u t e st h en e i g h b o ru s e r so nt h es i m i l a r i t e m sb yc o u a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na n dp r e s e n t st h e f i n a l r a t eo ff o r e c a s t ,s ot h a tt h en e wi t e mc a np a r t i c i p a t ei nt h ep r o c e s so f r e c o m m e n d a t i o n ,a n ds p a r s i t yi ss o l v e d a tt h es a m et i m e i nt h i s p a p e r , w e i n t r o d u c e 也e c o m p o n e n t a n ds t r u c t u r eo f p e r s o n a l i z e d r e c o m m e n d 8 蛙o ns y s t e m s a n d p r i m a r y r e c o m m e n d a t i o n t e c h n i q u e s ,a n a l y z e st h er o o to f t h ep r o b l e m so fc o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o n a f t e rt h er e s e a r c ho nt h ec h a r a c t e r i s t i c so f u s e r - b a s e d c o l l a b o r a t i v ef i l t e r i n gm a di t e m - b a s e dc o l l a b o r a t i v ef i l t e r i n g ,t h i sp a p e r i l l 北豪邮电大学硕士论文电子商务个性化推荐技术极其麻粥麟究 p r e s e n t st h ec o m b i n i n gm g o r k h m a n dd e s i g n sa i le x p e r i m e n tt ov a l i d a t e t h ee f f e c to ft h ea l g o r i t h m k e y w o r d s p e r s o n a l i z e d r e c o m m e n d a t i o n ,u s e r - b a s e d c o l l a b o r a t i o n f i l t e r i n g , i t e m - b a s e dc o l l a b o r a t i o nf i l t e r i n g ,c o m b i n i n gr e c o m m e n d a t i o n i v 北京邮电大学硕士论文 电子商务个性化推荐技术极其应用研究 1 1 研究背景 第一章绪论 随着i n t e r n e t 和电子商务的迅速发展,人们能够获得的信息越来越多,这一 方面为我们的决策提供了更多的信息参考,但同时由于太多的信息量,用户花费 在检索信息上的时间也更多了。为适应信息量急剧增加,迫切需要相应信息检索 技术产生。 特别是在电子商务的虚拟环境下,由于供应链和物流的发展,商家在网上所 能提供的商品种类和数量非常之多,但用户不可能通过一个小小的计算机屏幕一 眼就知道感兴趣的商品。通常来说,用户既不愿意花太多时间漫无边际在网上寻 找自己想要的商品,也不可能像在物理环境下那样检查商品的质量。在这种情况 下,用户就很希望电子商务系统能够具有一种类似采购助手的功能,可以根据用 户的兴趣爱好自动地推荐给每个用户他们可能感兴趣而且满意的商品。 在这种情况下,电子商务个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d a t i o n s y s t e m1 o ,e - c o m m e r c e ) 应运而生。电子商务个性化推荐技术,尤其是协同过滤 技术,构成了现有电子商务个性化推荐系统的基础。在这里,之所以强调个性化, 是因为需要推荐系统能为每个用户推荐适合他们偏好和兴趣的产品,而不是干篇 一律的推荐。 对于电子商务个性化推荐技术,目前国内理论研究还处于初步水平。笔者 开始本课题研究的2 0 0 2 年底,在做文献收集工作时,以关键词“推荐系统”在 中国期刊网上搜索所有文章,只能发现少有的2 3 篇文章,而且仅是概念性的 介绍,对主要的个性化推荐技术协同推荐的研究则更少,以其作为关键词 在中国期刊网上检索,只能检索到复旦大学计算机系一篇文章。而在国外科技 术论文检索系统c i t e s e e r 上以“c o l l a b o r a t i v ef i l t e r i n g ”和“r e c o m m e n d a t i o n s y s t e m ”作为关键词可以检索到国外一大批文章。因此,对于电子商务个性化 推荐技术和推荐系统的研究就显得非常重要和迫切。 1 1 1 电子商务个性化推荐系统 电子商务推荐系统( r e c o m m e n d a t i o ns y s t e m s f o ,e - c o m m e r c e ) 正式的定义 是r e s n i c k & v a r i a n 在1 9 9 7 年给出的:“它是利用电子商务网站向客户提供商品 信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买 过程” 1 1 ,现在这个定义已被广泛引用。 推荐系统面对的是用户( u s e r ) ,任务是为用户提供对项目( i t e m ) 的推荐。 用户是指推荐系统的使用者,也就是电子商务活动中的客户。项目是被推荐的对 北京邮电大学硕士论文 电子商务个憔化推荐技术极其应j 3 研究 象,是指电子商务活动中提供给客户选择的产品和服务,也就是最终推荐系统返 回给嗣户懿箍荐蠹容。在个毫子囊务活动中,嗣户鼗秘磺鏊数是# 鬻多静。攫 荐系统面列的当前,f 鞲户,称为目标用户或者活动用户。推荐系统的当前工作,就 是蠹投据定憝算法,绘爨对譬据耀户懿捺荐顼嚣。 根据项目的特点,目前主要有两种类型的推荐系统,一种是以网页为对象的 个热讫推荐系统,主要最爱w e b 数据挖攘浆方法与菠术,为尾户接毒符合其兴 趣爱好的网页;另一种是网上购物环境下的、以商品为推荐对象的个性化推荐系 绞,为鼹户撼荐符台其兴趣爱好我各类产菇,如各零孛书籍,音像等,这静掺莓系 统也称电子商务个性化推荐系统,简称电子商务推荐系统。目前国内外对前者的 研究帮应用较多,蓐者则很少。本文研究的蓬点是薅者。 目前,推荐系统已广泛运用到各行业中,推荐颈目包括书籍、音像、网页、 文耄、耨蛾莓,如图l l 所示。 f l电影、音乐瓤闻、文意网页 瑟1 1主要豹接荐蓉统 电子蓊务稚荐系统主要瘗三大帮分搀黢:篱入模头、臻荐方法摸浃露埝爨模 块。输入模块用来接受用户的输入储息,用户的输入信息中最重要的是用户对项 譬煞译 翕( r a t i n g ) 数据;撵荐方法模块爱来羧提一定舞濠,摄攥耀户数攒,霉 出对目标用户的推荐,该模块是整个推荐系统的核心部分,个性化推荐方面的研 究麴疆大一蘩分,帮集中在找到好懿攥荐方法。辕囊模块圭要是拯褥到的掺荐以 何种形式反馈给用户。 北京邮电大学硬士论文 皂予蘸务个饿纯挺荐接术校菸应用碰究 1 1 2 呶子商务个性化推荐技术 在对推荐系统的介绍中,我们已经认识到个性化推荐技术即推荐箨法的擞要 往。露殴说,个性睨接荐技术是一切搂荐系绞数基磷。要讨论曩薅懿雄荐按术, 首先必须明确在推荐技术中用到的有关数据。 攘荐涉及豹对象,毽括爨户积磺鼹强类,羲者楚攘荐系绫蕊使用蠢,轰豢是 被推荐的对象。在推荐技术中用到的数据,就是一张由众多阁户和项目构成的一 张二维救表穆( 矩蹲) ,矩簿中的数攥,是鼹户对每个项基的评价。这些评价, 可以鼹定性的评价( 2 进制形式表示的喜欢域不喜欢) ,也可以是定撬的打分。 一般糯言,在一个雄荐系统开始工作煦时候,矩阵是空蛇,隧着瓤餍户的不断搬 入,以及用户对项目的不断评价,矩辉中的数据量开始多起来,这样,系统才能 根据这些历史数据依据相关撼荐算法对某个隧标用户给出推荐。这里我们把用户 尚未评价的项目称为新项目。使用最广泛的协同过滤技术就魁建立在这样一缝历 史数搬基础上的。其熬本思想,简单瓣说,楚这样的:对目标用户,系统根据一 定的算法( 比较计算彼此问韵相关系数) ,在缀阵中拽到一定数量的邻居角户( 和 目标用户最棚似的的一些用户) ,根擐这些邻居用户灼评价资料,区分权重( 相 似性大的权煎大,稻似经小的衩重小) ,对所有项冒进行评分,得分黼的前n 个 项目被推荐给用户。这种经舆的协嗣过滤技术也称为基于用户的协同过滤技术 ( u s e r - b a s e d c o l l a b o r a t i v e f i l t e r i n g ) ,班送鄹子霜来对该菽术匏一个改避,鄂基于项 目的协同过滤。经典的协同过滤技术中,如果矩阵中的数据不够多,即矩阵怒稀 疏的清况下,找到静邻藩焉产可麓是不准确豹;而且,一般说来,系统开始酌对 候,囱于历史数据少,系统是不可能绘目标用户合理的推荐的。经典协同过滤技 术中的这些| 蕊题,称为稀巯涵题( s p a r s # y ) 帮冷痘劾( c o l d - s t a r t ) ( 霹题。基予颂窝 的协同过滤技术( i t e m b a s e d c o l l a b o r a t i v e f i l t e r i n g ) ,先比较项目之间的相似性, 这静比较,最简单麴皴法就慧跑较磺爨弱囱豢之阙静粳关系数,然薏摆帮蟊格蠲 户已购买的最相似的前n 个项目推荐给用户。 囊然,裔些推荐技术,并不震要鞠户戆这些对磺嚣懿爨受评徐经怠。兑麴基 于内容的推荐,可以只根据项目本身的特征属性得出项目之间的相似性,从而把 臻整帮鬟标鲻户已经赡买戆矮嚣穗敲经程度簸毫转n 个壤鬟攘荐绘基标用户。 它和瓞于项圈的协同推荐技术的不同,就在予计算项目相似性的依据不同,所以 袁些文鼓凌把基予建容豹器荐技术懿为基予矮基数推荐 是应矮最广泛最或熟戆雄荐技术, 它的基本思想是由熟他用户的资料协同过滤得到对目标用户的推荐。用户资料由 冬壤鐾及臻户怼各矮嚣懿谬分组成救超量袭示,即燧户一项曩矩咚。矩阵中的数 据嫩用户列项目的评分。对目标用户的所肖可能的推荐,肯定都包含在项嗣集l 北京邮电大学硕士论文 电子商务个性化推荐技术极其应用研究 中。协同过滤的意思,就是如何把这个i 集过滤后只剩下给目标用户的n 个推荐项 目。在c f 技术中,一般都不考虑用户的兴趣会因为时间的推移而发生的变化, 即认为用户对项目的评分是不随时间改变的。主要采用c f 技术的著名的系统有 q r o u p l e n s n e t p e r c e p t i o n s 嘶】,r i n g o f i r e f l y 7 i t a p e s t r y 5 l 幕i r e c o m m e l l d a t i o n 引。 协同过滤对推荐对象本身并没有特殊的要求,它所关注的只是用户对项目的评价 信息。 根据过滤方法的不同,可以大致把协同过滤技术分为两种:基于用户的协同 过滤和基于项目的协同过滤。简单的说,基于用户的协同是根据用户和用户之间 的相似性找到目标用户的邻居用户,然后根据邻居用户的情况给出对目标用户的 推荐。而基于项目的协同过滤通过分析项目之间的相似性,把和目标用户已购买 的( 评价较好的) 项目相似的那些项目推荐给目标用户。基于用户的协同过滤技 术是最先提出来的,所咀在早期的文献提到的协同过滤技术,往往指的是基于用 户的协同过滤技术。基于项目的协同过滤往往也简称为基于项目的推荐。 3 1 1 基于用户的协同过滤 基于用户的协同过滤( u s e r b a s e d c f ) 是基于这样一个事实:每个用户都有 与其相似兴趣爱好和行为的用户群,这些类似用户( 邻居用户) 的购买项目可以 作为该用户( 目标用户) 项目推荐的基础。因此,种方法也被称为基于邻居的协 同过滤或最近邻居算法。 设r 是一个n * m 用户项目矩阵。其中d 代表用户数、m 代表项目数。在 这个矩阵中如果第i 个用户购买了第j 个项目,则r 。是1 ,否则为0 ( 这是最简 单的2 进制表示评价的情况;r 。i 也可以是用户对项目的评分) 。设u 是目标用户 所购买的项目的集合,基于c f 的算法是采用如下步骤计算的: 在数据库中识别出和目标用户最相似的k 个用户 通常把每个用户看作是项目空间的一个m 维的向量。通过计算两个向量的 c o s 的值作为两用户的相似性。这样就可以找到和目标用户最相似的k 个用户 的用户集。 用这k 个相似用户的数据去产生他们频繁购买的项目集c 。 在项目c 中选出n 个最频繁购买的项目( 不包括在u 中的项目) 。 基于用户的协同过滤关键之处在于寻找邻居用户。这是给出推荐的基础。此 外,下面几个方面的考虑也是必须的:总的用户数必须足够多,这样才使目标用 户发现和其兴趣相似的用户变得有可能;用户对项目的评价必须简单易行;以及 设计出计算用户间的相似性的算法,这是各种基于用户的协同过滤系统的最大不 同。 北京邮电大学硕士论文 电子商务个性化推荐技术极其应用研究 虽然基于用户的协同过滤技术作为一种典型的推荐技术有其相当的应用,但 它仍有许多的问题需要解决。最典型的问题就是冷开始问题和稀疏问题。关于这 些问题在本章第4 节将详细谈到,这里先简单介绍一下稀疏问题。在项目用户 矩阵中,一般用户数很多,而且项目数也很多,但每个用户一般都只对很少的项 目作出过评价,所以在矩阵中,每行只有很少项目有评价数据,这样整个数据阵 就显得非常稀疏,般都在1 以下,这种情况下得到的用户间的相似性就不准 确,邻居用户也就不可靠了。此外,算法的运算性能在基于用户的协同过滤推荐 也是必须考虑:当用户数和项目数规模很大的时候,计算邻居用户将是一件非常 费时间的事情,如果计算时间过长,无疑是不适合在线推荐系统的。 3 1 + 2 基于项目的协同过滤 目前解决基于用户的协同过滤的稀疏问题的方法有以下几种:一是采用维度 压缩技术【1 0 】,t v , j z d 奇异值分解【1 l 】,其根本思想是用线性代数中求特征根的方法, 降低项目集的维数,有点类似于将项目按特征值进行分类。二是采用基于内容的 推荐技术通过分析项目之间的特征属性给项目分类,然后根据已评价项目的评价 值对类似的未评价项目评分,从而增加矩阵稠密度【1 2 1 。这两种技术虽然都可以 增加数据集的稠密性,但计算邻居用户的计算量( 邻近算法) 随着用户和项目数 的增加而线性增加,对于含有百万个用户和项目的情况,基于用户的协同过滤推 荐算法在性能方面会受到很大的影响。为了提高算法性能,可以先采用聚类方法, 对用户进行聚类,然后只限制在和目标用户最邻近的那个组用协同过滤方法得到 推荐 1 3 , 1 4 。后一种方法尽管极大地提高推荐计算的速度,但会减弱推荐的效果。 更好的解决方法就是构造基于项目的推荐模型。用历史信息用来反映项目之 间的关系,比如一个项目的购买经常导致另一个项目或一组项目的购买。由于有 计算前的模型,所以能很快地得到推荐结果。这种方法就是基于项目的协同过滤 推荐算法【1 5 , 1 6 】。 基于项目的协同过滤( i t e m b a s ec f ) 是通过用户项目矩阵分析每个项目的 相似性,在这个基础上得到被推荐的前n 个项目。这个方法的根本思想是:一个 用户将更会喜欢那些和他已经购买的项目相似的那些项目。由于这种方法不需要 去识别邻居用户,所以推荐算法的速度快得多。 对于项目i ,计算最相似的k 个项目 j 1 ,j 2 ,j k ) ,它们相应的相似性为 s j l , s i 2 ,s ,k 。对目标用户,u 为其己购买了项目集,用这个项目集u 去计算n 个推 荐项目,步骤如下: ( 1 )对每个je u 找出含有最相似的k 个项目的候选项目集q ; ( 2 )c = u c j ,并删除已购买的项目; 北京邮电大学硕士论文 电子商务个性化推荐挫术极其应用研究 ( 3 ) 对每个c c ,计算其和u 的相似性( 用和) : ( 4 ) 把c 孛懿璎鏊按穗经毪遴减接残,并取 l 蓼n 令幸箬为捱毒壤霾。 3 。2 其他推荐技术 3 2 1 基于规则的推荐 基于规则的推襻( r u l e b a s e dr e c o m m e n d a t i o n ) 是根据关联规则对项目进行 撼廖产生掇荐l j 7 t 。 所谓关联规则,就是在一个交易数据瘁中统计购买了商品集x 的交易中有 多大比例鲍交易同时购买了商品集y ,缛到的关联规则表示为:x 一 y f s ,c 1 。 s 表示关联蕊则的支持度,c 表示关联规则的置信度。即把已购商品作为规则头, 推荐对象为规则体。简单推荐算法过程一般为: ( 1 ) 使用关联规则发瓣算法找出所有满足最小支持度和最小嚣信度的关联 规则r ;关联规则的发现算法很多,如a p r i o r i ,a p r i o r i t i d ,d h p ,f p t r e e 等。 ( 2 ) 找船r 中所有被密户支持的关联舰赠r 1 ,郎关联瓶蕊h 左边的所有商品 都被客户购哭; ( 3 ) 我出被关联规刚r 1 所预溺并且没有被客户所赌买的所有商晶p ; ( 4 ) 根据p 中商品在关趺规则r 1 中的置信艘排序,如果某商品被多个规 剐预测,剐取置信度最大褥作为煮# 序依据,撬遥前n 个鬻黼 睾为箨法输出。 3 2 2 基于是密豹雍荐 基于内容的推箨技术( c o n t e n t 。b a s e d r e c o m m e n d a t i o n ) 跫信息过滤技术的延 续与发展。在基于内容的摧棒系统中,项目怒用项舀的待征耩往来患义的。比如, 新闻组过滤系统n e w s w e e d e r is 】怒个文本推荐系统,该系统推瓣的项目是文 本,因此,它用文本词范作为项目特征属程。基于内容的维荐系统怒基于硕弱静 特,征属性,将项目分类。从而获得与用户己评价或购买的项目的相类似项目作为 推荐。与协嗣过滤一样,基于内容静用户资辩遣需甏有磊户的历史数搽,它是一 个长期模型,可能会随着用户的偏好改变丽发生变化。 3 2 3 基于用户人口统计信息的摊荐 用户人口信息统计( d e m o g r a p h i cr e c o m m e n d a t i o n ) 推荐技术i 1 9 j 是基予用户 个人属性对用户进行分类,再按类对类中的用户进行推荐。这种推荐系统最早的 例予可以追溯到1 9 7 9 年的g r u n d y ,它飘人税对话获得个人基本信息,在此基 础上对个人推荐书籍。最避有些推荐系统也采用了这种技术,如k r u l w i c h ,用 北京邮电大攀硕士论文 电子商务个健化推荐技术极其】盔糟研究 来自市场研究的用户个人信息去推荐产品和服务,用一个简单的调查收集用户分 类繇嚣鬟豹售惑;在蕊它兹系统中,逛育在基子麓户绫诗信怠豹基綦塞上,菇瘸撬 器学习分类器的方法进行推荐的。用户的统计信息其实很大程度上代表了用户的 模型,因此,该技术其实有点象协同过滤。不过,应该指出的是,两者用的数据 是不同盼,协犀过滤怒掇据用户一瑷隧矩阵锝到羯户的相似楼从露对恩户遴萼亍事 实上的分豢,新需要麓数据是反映爝户兴趣傣荮的历史数据;两基于霜户的入口 统计信息的推荐分类的根据是用户的个人人口统计信息,它不需要用户的历史数 据。 3 2 4 基于效用的推荐 基于效用的推荐( u t i l i t y - b a s e d r e c o m m e n d a t i o n ) 需要项目的特征属性数据。 这势接豢技术先要缮劐瘸户对顼嚣豹效震搀述爨数。然后嗣该效臻函数对酝鸯矮 目逐行摊序,取前n 个项目作为对目标用户的摊荐。其核心闷题是怎么样为每 一个用户创建一个效用函数。t e t e - a * t & e 和电予商务网站p e r s o n a l o g i c 2 使用了 该项技术“s j 。基于效罔的推荐是优点在于它能觳项基的非本努属性,如掇供商 的可靠憾稻产品弱霹获得缝等考虑到效嗣计算中,这样蘸奁决策酌对猴考虑诺鲡 到货时间之类的项目非本身属性问题。 3 2 。5 基予知识鳇雄荐 和协同过滤不同,基于知识的推荐( k n o w l e d g e b a s e dr e c o m m e n d a t i o n ) h u j 不是建立在用户需要和偏好上推荐,也就是不需骚考虑用户一项目矩阵的历史信 患。 在巢秭程度是可以说,所有的罐荐技术是看成是一种推毽( i n f e r e n c e ) 。基 于知识的推荐提出了功能知识( f u n c t i o n a l k n o w l e d g e ) 的概念。简单的说,功能 知识是关于某个项目如何满足某个特定用户的知识,它能解释辫要和推荐之间的 关系。在簇予絮识静攘荐看来,瘸户资精可敬楚经谤麓支持拣疆静知识缝掏,著 非一定魁用户的需要和偏好( 用户一项目矩阵) 。最简单的例子就是各种搜索引 擎,如g o o g l e ,用户输入的查询关键字,就是能满足该用户的项目,系统返回 雹含该瑗囊戆联鞋顼瓣,这是一耱娥范髭戆查瓷。当然,功能皴谖遣可疆怒一个 更详细的用户需要的表示,比如e n t r 6 e 系统,采用基于案例的攉理技术实现基 于知识的推荐。 基予知识盼推荐羝统所使用的知识可以有许多静形式ng o o g l e 用了两个网 页之闰的链接去推窭流行度( p o p u l a r i t y v a l u e ) 茅譬蔽藏凄( a u t h o r i t a t i v e v a l u e ) 。 e n 打6 e 用烹饪知识( k n o w l e d g e o f c u i s i n e s ) 去推出两个餐馆之间的相似度。 北京邮电大学硕士论文 电子商务个性化推荐技术极其应用研究 3 3 各种推荐技术特点的比较 基于用户的协同过滤需要寻找邻居用户,这取决于用户间的评价的重叠信 息,所以当用户评价数据比较稀时,这种方法效果就不好。虽然稀疏问题可以通 过一些方法得到改善,但是基于用户的协同过滤仅适应于项目数比较少且用户的 评价数据比较稠密的情况却是显而易见的。而且,基于用户的协同过滤存在冷开 始( c l o d s t a r t ) 问题,即一个新项目( 从未有用户评价过的项目) 是得不到推荐 的:而且,对新项目作出评价的最初用户是得不到好处的。为了使得新项目能够 得到推荐,有必要研究如何激励用户去评价这些新项目。 基于项目的协同过滤很大程度上解决了稀疏问题和冷开始问题。但该技术对 用户的推荐基础只是建立在项目的相似性基础上,因此只能给用户推荐他熟悉的 项目,不能作出跨类型托r o s s - g e n r e ) 的推荐,缺乏“奇异发现”( s e r e n d i p i t y ) 的 能力。 基于个人人口信息统计的推荐方法也存在着稀疏问题,因为该方法也需要基 于用户个人人口统计信息去对用户进行分类,如果用户个人人口统计信息不够 多,那么分类的效果也就不好。但是,基于个人信息统计推荐系统没有冷开始问 题,因为它不需要其它用户的评价数据。不过,该方法在收集用户的个人人口统 计信息时存在困难。在电子商务环境中,基于用户人口信息统计的推荐系统往往 很难用上,考虑到在线私人保密,自己的人口统计信息很多用户是不愿意公开的。 基于内容的推荐因为要根据项目的特征属性对项目进行分类,这样一来,就 很依赖于对项目特征属性的描述。这和协同过滤技术是不同的。协同技术只是基 于用户的评价,没有任何描述性的数据也能对项目作出推荐。正是因为基于内容 的推荐依赖于项目特征属性的描述,所以这种技术很难作出跨类型的推荐,即不 能作出“奇异发现”;推荐的项目,往往是用户很熟悉的东西。 基于效用的和基于知识的推荐并不是基于历史评价数据,所以不存在冷开始 问题和稀疏问题。 基于效用的技术要求系统建造一个关于特征属性的完整的效用函数。这种方 法的优点就是它能嵌入许多衡量产品有用的因子,而不仅是刻画产品本质的特 征。另外,这些非本质特征可能有一个特殊的用途,如产品什么时候可以运送到, 这种信息对期限要求很高的用户来说尤为关注。因此,基于效用的推荐框架可以 让用户很好地表达这方面的信息需求,以做出更好的推荐。但基于效用的推荐系 统缺乏一定的灵活性,用户必须构建一个完整的偏好函数,因此必须权重各个特 征的重要性。在这个意义上来说,基于效用的推荐对只有少数几个特征的项目是 适合的,比如只有价格、质量、送货时间等,但不适应具有复杂的、非结构化属 性的项目,如电影、新闻文章等。 髭京郎电文学硕圭论文 毫子蠢务争 生纯接替接寒投萁瘟震礤究 蕊于知识的推荐系统具有基于知识的系统的所有缺点:那就鼹知识的获得比 较难。但和基于效用的推释相比,它对用户的鬻求更少。基于知识的推荐系统也 不能琢协同过滤那样能发现用户新兴趣,作出“奇异发现”;但粥一方面,它能 在已有瓣_ 霹l 户的知识基懿上推荐塞尽可能广程全的项基。 谯“奇异发现”方谶,协同过滤和令入入嗣信怠统诗技术捧豹缀努,蘸雩l 导 用户斑出其熟悉的产品,熙好地发现那些他以前不知道的但符合熟必趣爱好的产 品。对于基于知识的推荐,如果某产品的相关联的知识能在最后建造知识库前能 发现,那么该技术同样也能发现不同类型的项目推荐给用户。 协同过滤、基于内容躲撼莓和基予人口统计信惠的推荐需要髑户的显式埝入 数摄,溺为它们戆摇荐或建立在蠲户数据萋毳窿k 豹;新数这三静蘩予学习( 学习 用户的兴趣) 的技术对愿意花一定时间去表明蒺偏好的用户最为裔效。基于效用 的和瓣于知识的以及基于舰则的推荐则不存强这方面的问题,因为它们不需要用 户的历史偏好数据。 3 4 缀含接荐 每种推荐技术都有自己的优缺点。为了绘用户提供更准确的推荐,我们可以 在设计摊荐系统的推荐方法模块时结合多种攥本推荐技术,以达到扬长避短的目 的。邋就是组合推荐的思路。 3 4 。l 冷开始淹匿、秘藏涟簇窝奇异发瑗翘莲 冷开始( c o l d - s t a r t ) 1 】f 司题也称最初评价者问题( 加rr a t e r ) 和新项目问 题( n e w ,i t e m ) 。对协同过滤技术来说,只有谯有很多个用户对项目作出评价后, 用户的这些资料才能协同选择推荐项目。如果个新项目没人去评价它,或都不 去浮价它,则这个项重鸯宠褥不到搓荐,推荐系统也藏失去了 壬何俘曩。对于那 些最初评价薪顼霜豹熏户寐说,它们是没有藏接收获匏,只骞当对这个顼磊评价 的人多了,最初评价的罔户才能得到好处。如果评价的人多,系统则能发挥其最 大作用。所以对一个新项目,在开始没有好处的情况下如何让用户来评价它,使 整个摊荐系统朝良性循环的方向发展,是必须淀意的问题。 霹蘸主要的解决的办法是协同过滤和基予态容的推荐缝合。霹以鼹一簿单鲍 傻子穰绘萁箨矮:缓竣蠲户已对e s p n t o m 瓣站豹n b a 溺茭终爨喜爱豹谔徐, 而另一用户对c n n s i c o r n 网站的n b a 嘲受佟出喜爱的评价,如聚只用协同过滤 的话,推荐系统是发现不了遮两个用户的相似性的。这时候可以用基于内容的推 荐,通过分析项目间的相似性,从而发现这两个用户是相似的。t h ef a b 1 系统 就怒瀵予这个思想建立的。它通过分析用户谮馀的项霹的内窖去建立基于内容鲍 北京邮电大学硕士论文 电子商务个性化推荐技术极其应用研究 用户兴趣资料,然后用户协同过滤技术去发现具有相似兴趣爱好的邻居用户。 稀疏问题是推荐系统中的个非常重要的问题。它是由于推荐技术需要用户 的历史数据而产生的。一般说来,历史数据是用项目用户矩阵存储的,在这个 矩阵中,用户数很多,而且项目数也很多,但每个用户通常都只对很少的项目作 出评价,所以在矩阵中,每行只有很少项目有评价,这样整个数据阵就显得很稀 疏,一般都在1 以下。这种情况带来的问题就是得到的用户间的相似性就不准 确,邻居用户不可靠。 目前解决这个问题的方法有这么几种:一是采用纬度压缩技术,降低矩阵的 纬度【l 叫;二是采用基于内容的推荐和协同过滤组合,先用基于内容的推荐技术得 到项目集的分类,根据分类对矩阵中的新项目进行评价预测,从而使矩阵变稠密 【1 2 。其他些方法还包括先用初始评价矩阵的奇异值分解去得到矩阵的特征值, 从而对项目进行分类,然后用神经网络等学习算法对新项目进行评价预测,从而 提高矩阵稠密度【2 2 1 。还有学者尝试用图论的方法解决这个问题【2 3 】。 协同过滤中另一个重要的问题是奇异发现( s e r e n d i p i ) ,也就是说,好的 系统应该能告诉用户不知道的东西。目前许多的系统都没有这个功能,往往是推 荐一些用户本来就很熟悉的东西,这样在推荐效果上就不是很好。可以用那些能 够实现奇异发现的推荐方法和协同过滤进行组合推荐来解决这个问题。比如嵌入 关于项目的知识,设计一个基于内容的和协同过滤的组合推荐系统。当然,如果 能够找到一种算法,该算法可以判定相关程度,过滤那些相关程度太高的项目不 作为给目标用户的推荐项目,就更好了。 3 4 2 组合推荐技术 目前并没有一种非常完美的推荐方法。所以,要实现一个现实的推荐系统, 需要结合各种基本推荐技术。从理论上来说,组合能减少协同过滤和其它方法的 各自的弱点。 一般而言,推荐的组合有以下几种思路【2 4 l : ( 1 ) 加权( w e i g h t ) :加权用多种推荐技术得到的对某一项目的得分,得 到一总的得分,以此得出推荐结果: ( 2 )切换( s w i w h ) :具体采用哪种推荐技术取决于当时所处的具体情况, 根据场合切换不同的推荐技术,不同时候采用不同的推荐技术: ( 3 )混合( m i x e d ) :同一时间采用多种推荐技术 ( 4 )特征组合( f e a t u r ec o m b i n a t i o n ) :来自不同推荐数据源的特征组合 被一种推荐算法所采用; ( 5 )层叠( c a s c a d e ) :一个推荐器从另一种推荐器中提炼抽取一部分推 北京邮电大举硕士论文 电子商务个性化推荐技术极其应用研究 稃: ( 6 )特征放大( f e a t u r ea u g m e n t a t i o n ) :一种技术的输出作为另一种推荐 技术的将征输入; ( 7 ) m e t a ,l e v e l :被种推荐器学习的模型作为另种推荐器的输入。 嚣蓊较充分骈究遗静推荐缀含有: ( 1 )c o n t e n t b a s e d c o l l a b o r a t i v ef e a t u r ea u g m e n t a t i o nh y b r i d 这种可能是 应稻研究浸旱静,磐应臻在基予国容静“f i l t e r b o t ”系统中; ( 2 ) c o l l a b o r a t i v e c o n t e n t ,b a s e d m e t a - l e v e l h y b r i d ,用协同的信息去生成全 藤雳户评价数据祭,然菇建这令数据集毙较不羁魏壤磊。 ( 3 ) c o l l a b o r a t i v e d e m o g r a p h i ca u g m e n t a t i o n h y b r i d ,协同技术分辩如它邻 鼹用户,建这拿薅悫终为潮户豹令基本人墨绫计售惑。 从这姥组合研究的研究状况可以看出,对协同过滤和基于内容的技术组合研 究建眈较多静。之爨良麴鼗,其中一个莺瑟甄困怒译赞数攮银枣笏褥到,比麴可 以使用著名的e a c h m o v i e 数据库,该数据库提供了大约2 5 0 个用户对电影作出 斡4 5 ,0 0 0 令评徐。其键豹推荐缀合研究瓣要少些,尤其是基予翅户入嗣统计 信息的推荐,由于存在在线数据保密性问题,在2 5 种可能的组合种,只有4 种 褥到过磅竞。 此外,在采用组合报荐技术的时候,必须注意组合策略。这黪策略和被组合 的挺荐技零有关。比如对予基于入口统计信息,基于内褰的和协同过滤技术来 说,必须考虑历史数据霹的数量和质量,对于基予知识的推荐来说,必须考虑有 哪些可用的知识鹾。 3 s 小结 本章讨论了协同过滤技术以及其他几种推荐技术的撼本原理。并探讨了协同 过滤技拳秽其毽主要技术戆位缺点,戈冀是泱同过滤技术的不足之处。进褥研究 了现实的推荐系统中会采用组合推荐技术来弥补单个基本推荐技术的不越。本章 熬肇蜃,谬论了缀合接荐麴基本愿路和策略。这一章为下两章论文的核心部分提 供了一个技术方面的基础。论文的第四章开始,就要研究基于用户的协同过滤和 基于项髫熬协同过滤的缀台推荐算法。 苎生塑堕型苎望型兰笪生一 塞王堕墨尘堡些量量垫查塑苎窒旦竺塞 第四章基于用户的协同过滤和基于项目的协同过滤组合推 荐算法设计 在电子商务个性化推荐的各种方法中,基于用户的协同过滤的准确率较高, 而且能够作出奇异发现,但存在冷开始和稀疏问题:基于项目的掷同过滤恰好可 以有效的解决这两个问题。本章论述基于用户的协同过滤和基于项目的协同过滤 组合推荐方法的理论依据和技术结论。首先分析基于用户的协同过滤和基于项目 的协同过滤的优劣,然后分析如何利用基于项目的协同过滤解决基于用户的协同 过滤推荐方法存在的问题,最后提出两种推荐方法的组合方式和具体算法。 4 1 基于用户的协同过滤 基于用户的协同过滤推荐的算法是目前应用广泛且效率较高的一种个性化 推荐算法。该算法是协同过滤方法中最早提出的一种算法,所以一般情况下如果 单独提起协同过滤推荐,指的就是基于用户的协同过滤。本节介绍基于用户的协 同过滤推荐的算法,并分析该算法的优劣。 4 1 1 算法 基于用户的协同过滤是个性化推荐中应用最为广泛的方法,它是基于邻居用 户的兴趣爱好预测目标用户的兴趣偏好。算法先使用统计技术寻找与目标用户有 相同喜好的邻居,然后根据目标用户的邻居的偏好产生向目标用户的推荐。 ( 1 ) 表示:在一个典型的采用基于用户的协同过滤技术的推荐系统中,输入 数据通常可以表述为一个m x n 的用户一项目评价矩阵r ( 如表4 1 所示) ,m 是用户数,即是项目数,惭是第f 个用户对第,个项目的评价值。评价值可以是 用2 进制的o 和1 来表示的用户偏好( 喜欢不喜欢) 或购买状态( 已购买未购 买) ,也可以是用分级表示的用户对项目的偏好

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论