




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网的快速发展和电子商务应用的不断深化,大型网上购物系统越来越多。 为了提升市场竞争力,推荐系统被引入电子商务中。基于用户和基于项目的协同过滤推 荐系统得到了广泛的应用。近年来,大型网上购物系统的商品空间和用户空间迅速增长, 用户评分数据却极端稀疏,这种情况给推荐系统带来了新的挑战:如何在稀疏的数据空 间上做出实时的、高质量的推荐。结合协同过滤与基于内容的信息过滤的算法可以解决 这个问题,但是这些算法需要预先得到项目的内容信息或者用户的个人信息,而这些信 息在很多推荐系统中是无法获得的。 本文研究了基于项目的个性化推荐技术,提出了在无法得到项目的内容信息和用户 个人信息的情况下,提高推荐质量的一种基于项目的推荐算法一i b r a 算法。首先分析用 户评分数据矩阵,利用用户筛选的思想计算出不同项目之间的相似度;然后利用项目之 间的相似度为用户做出推荐。为了提高推荐速度,在i b r a 算法的基础上提出了一个简 化的实现模型,主要思想是:利用i b r a 算法预先计算项目之间的相似度,在内存为每 个项目保存与其最相似的项目集合s ;做出推荐时,先找到目标用户评分项与项目集合 s 的交集,然后利用此交集计算目标项目的评分预测值;最后,通过离线计算的方式定 期更新预保存的数据。通过这种方法可以在大型w e b 系统达到实时推荐的效果。 最后,在公开的数据集上对本文提出的算法和简化的实现模型做了较为全面的实验 验证。分析表明,i b r a 算法能够有效提高信息推荐的质量:本文提出的模型通过预计 算项目之间的相似度并为每个项目保存小部分的相似项目,可以达到推荐质量和推荐实 时性的一个折中。这个模型可以应用到大型w e b 系统中。 关键词:推荐系统协同过滤用户筛选平均绝对误差 a b s t r a c t a b s t r a c t r e c o m m e n d e rs y s t e m sp r o v i d ep e r s o n a l i z e dr e c o m m e n d a t i o nf o ru s e rb yp r e d i c t i n gu s e r s p r e f e r e n c et oi t e m s w i t ht h ed e v e l o p m e n to fi n t e m e ta n dt h eg r a d u a l l ye x t e n s i v eu s eo f e - b u s i n e s s ,t h e r eb e c o m em o r ea n dm o r el a r g e - s c a l ew e bs h o p p i n gs y s t e m s t h e r e c o m m e n d e rs y s t e mi si n t r o d u c e di n t oe b u s i n e s st oi n c r e a s et h es a l e t h eu s e r - b a s e da n d i t e m b a s e dr e c o m m e n d e rs y s t e m sh a v ea c h i e v e de x t e n s i v es u c c e s s i nr e c e n ty e a r s ,t h e p r o d u c t ss p a c ea n du s e r ss p a c eo fl a r g e s c a l es h o p p i n gs y s t e mi n c r e a s er a p i d l y , b u tt h eu s e r r a t i n gd a t ai ss e v e r e l ys p a r s e t h i ss i t u a t i o nb r i n g sac h a l l e n g et ot h eq u a l i t yo ft r a d i t i o n a l r e c o m m e n d e rs y s t e m s :t op r o v i d et h e h i g h q u a l i t yr e c o m m e n d a t i o n sw i t ht h es e v e r e l y s p a r s e d a t a t h e r ea r e m a n ya l g o r i t h m s t h a t c o m b i n i n gc o l l a b o r a t i v ef i l t e r i n g a n d c o n t e n t b a s e di n f o r m a t i o nf i l t e r i n gm e t h o dh a v eb e e np r o p o s e dt os o l v et h ep r o b l e m s ,b u t t h e s ea l g o r i t h m sn e e dt h ec o n t e n ti n f o r m a t i o no ft h ei t e m so rt h ep e r s o n a li n f o r m a t i o no ft h e u s e r s ,w h i c hw ec a n tg e ti nm a n yr e c o m m e n d e rs y s t e m s i nt h i sd i s s e r t a t i o n ,w ed i dt h ec e r t a i nr e s e a r c ht ot h ei t e m b a s e dr e c o m m e n d a t i o n t e c h n o l o g y , p r o p o s i n gar e c o m m e n d a t i o na l g o r i t h mb a s e do nu s e rf i l t e r i n gw h e nt h e r ea r en o i t e m sc o n t e n ti n f o r m a t i o no ru s e r sp e r s o n a li n f o r m a t i o n t h er e c o m m e n d a t i o na l g o r i t h m w h i c hi sb a s e do nu s e rf i l t e r i n gg e t st h es i m i l a r i t i e sa m o n gd i f f e r e n ti t e m st h r o u g ht h e a n a l y s i so fu s e rr a t i n gm a t r i xa c c o r d i n gt ot h ei d e ao fu s e rf i l t e r i n g t h e np r o v i d e r e c o m m e n d a t i o n sf o ru s e rb a s e do nt h es i m i l a r i t i e so fi t e m s w ep r o p o s e da ni m p l e m e n t m o d e lo fi b r aa l g o r i t h ma l s o t h em a i ni d e ai s :f i r s t l y , w ep r e c o m p u t et h es i m i l a r i t i e so f i t e m sm a k i n gu s e so fi b r aa l g o r i t h m ,t h e ns a v et h em o s ts i m i l a ri t e m sc a l l e ds e tsi n m e m o r yf o re a c hi t e m ;s e c o n d l y , w ef i n dt h ei n t e r s e c t i o no ft a r g e tu s e r sr a t i n gs e ta n dt h es e t s ,t h e nm a k ep r e d i c t i o nf o rt a r g e ti t e mf r o mt h ei n t e rs e t ;f i n a l l y , r e f r e s ht h ep r e - s a v e dd a t ab y o f f i i n ec o m p u t i n g w i t ht h i sm o d e l w ec a ni m p l e m e n tr e a l t i m er e c o m m e n d a t i o ni nl a r g e s c a l ew e bs y s t e m s f i n a l l y , w ed i dt h em o r eo v e r a l le m u l a t i o nt oe x p e r i m e n tt ot h ei m p r o v e m e n tm e t h o do f t h i sd i s s e r t a t i o np r o p o s e d a n a l y z et h ee n u n c i a t i o n ,t h em e t h o di nt h i sd i s s e r t a t i o nc a l l i m p r o v et h eq u a n t i t yo ft h ei n f o r m a t i o nr e c o m m e n d a t i o na n dt h er e a lh o u ro ft h e r e c o m m e n d a t i o n sa v a i l a b l y , a n dt h ec a l c u l a t ew a yi sr e l i a b l e t h ed i s s e r t a t i o nr e s e a r c hw o r k t l a b s t r a c t 1 h a st h eg o o da n da c a d e m i cr e f e r e n c ev a l u ea n dt h eg o o do fa p p l i e dv a l u ei np e r s o n a l i z e s e r v i c er e c o m m e n dt h es y s t e m k e yw o r d s :r e c o m m e n d a t i o ns y s t e m ;c o l l a b o r a t i v ef i l t e r i n g ;u s e rf i l t e r i n g ;m a e i i i 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名: 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“j ”) 作者签名: 导师签名: 保护知识产权声明 本人为申请河北大学学位所提交的题目为( 的学位论文,是我个人在导师() 指导并与导师合作下取得的研究成果,研 究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资 助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的 各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人: 作者签名: 导师签名:何 第1 章引言 第1 章引言 随着计算机技术网络技术的飞速发展,人类信息化的程度得到极大提高。在如今的 信息化社会中,人们被大量的信息和数据组成的信息空间包围。信息空间是一个复杂的 网络环境,置于其中的人们受限于自身的知识水平和认知能力而难于获取自己需要的信 息。 解决这个问题的方法有两种:信息检索和信息过滤【2 】【3 1 。 信息检索是指将信息按一定的组织和结构存储起来,并根据用户的特点和需求找出 其所需信息内容的过程。我们常用的搜索引擎g o o g l e 、百度等部属于信息检索系统。 信息过滤则是指计算机根据用户提供的一个过滤模板,从信息流中自动检索出满足 用户需求的信息。比如垃圾邮件过滤系统、针对儿童的不良信息过滤系统、针对网络信 息检索结果过滤的系统等。 信息检索和信息过滤是两个相近的概念,它们都是为了方便用户在海量信息源中及 时找到自己所需的信息而提出的,并且两者的主要技术都相同。但是两者是有区别的。 主要区别: 表1 1 信息检索和信息过滤的区别 信息检索信息过滤 信息源 多为静态结构化数据多为动态半结构或无结构数据 需求表示检索词 过滤模版 用户特点范围广、使用时间短 范围小、使用时间长 信息过滤系统又可以分为基于内容的过滤系统和协同过滤系统。基于内容过滤根据 资源和用户兴趣的相似性来过滤信息。其局限性主要表现在必须分析资源的内容信息, 因此对音乐、图像、视频等信息无能为力;无法分析信息的质量;无法提供新颖的推荐。 针对上述问题,研究者提出了协同过滤推荐技术。在早期的协同过滤推荐系统中,用户 之间需要相互了解对方的兴趣爱好。随着研究的深入,研究者提出了自动化协同过滤推 荐技术。 协同过滤技术在近年来得到人们的广泛认可f 4 】【5 1 。早期的协同过滤技术称为基于用 河北大学r t 学硕十学位论文 户的协同过滤,其基本思想就是基于评分相似的最近邻居的评分值向目标用户产生推 荐。由于最近邻居对项目( 商品、电影、音乐等) 的评分与目标用户对该项目的评分非 常相似,因此目标用户对未评分项目的评分可以通过其最近邻居对该项目评分的加权 平均值逼近【6 j 。后来人们提出了“基于项目的协同过滤 【l 】。基于项目的协同过滤推荐 系统使用统计技术找到目标项目的若干相似项目,由于当前用户对相似项目的评分与对 目标项目的评分比较类似,所以可以根据当前用户对相似项目的评分预测当前用户对目 标项目的评分,产生对应的推荐列表。协同过滤技术在研究和应用领域都取得了成功。 以上这些技术由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查 询要求。因此如何使用户快速有效的获取感兴趣的信息,如何将用户感兴趣的信息主动 推荐给用户,已经成为许多电子商务网站、门户网站、数字图书馆和研究者共同关心的 问题。个性化推荐【2 5 】就是针对这些问题提出的,它为不同用户提供不同的服务,以满足 不同用户的偏好。实现个性化主动信息推荐是个性化服务的最终目的。推荐技术的研究 不是孤立的,涉及到数据挖掘、网络环境下分布式的人工智能、信息科学、认知科学、 人机交互等领域的知识。个性化推荐系统是目前国内外电子商务、因特网技术和数据挖 掘等方向研究的热点问题。同时现有的推荐技术都存在一些缺点,如基于规则的推荐技 术不能动态更新,并且随着规则的数量增多,系统将变的越来越难以管理;基于信息过 滤的推荐技术在实践过程中也遇到几个很难解决的问题即稀疏性、扩展性和冷启动问 题。因此,个性化推荐技术的研究具有学术价值。 1 1 推荐系统与协同过滤 推荐系统( r e c o m m e n d e rs y s t e m ,r s ) 可以自动为用户推荐他们所喜欢的商品或者项 目,并为商家提升销售量。目前国内外广泛使用的推荐策略主要有【2 l j : 分类浏览。分类浏览是基于主题分类查找的方法,优点是符合用户的思维习惯, 易于被用户接受。这种方法的缺点是:很多内容难以确定其所属子类且分类查 找方法所花的时间比较多,用户必须根据查找目标的内容和分类标准一步一步 地缩小查找范围,缺少自动化和智能化。 基于内容的检索。其主要思想是根据查找目标所包含的主要内容,在被查找范 围内,寻找与目标匹配的内容。该方法的优点是:技术比较成熟,用户易于接 2 第1 章引言 受查找结果;缺点是:查找结果非常依赖于内容的确定,不易发现用户新的和 潜在的兴趣点,很多项目的内容信息无法得到或者很难得到。 推荐最畅销的前个项目。这种做法就是给用户推荐卖得最好的种商品或者 访问量最高的个网页等等。这种推荐没有实现个性化,对所有用户作的推荐 都是相同的。 推荐与用户兴趣最相关的个项目。这类方法属于个性化推荐,其主要思想是 推荐出最符合用户兴趣特点的个项目,推荐结果的个性化程度最高。 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ,c f ) 技术是应用最为广泛的个性化推荐技术,是推 荐系统的一个重要组成部分。协同过滤通过参考与目标用户具有相似兴趣和需求的其他 用户的选择来决定如何为该用户进行信息过滤。协同过滤技术是知识获取的方式之一, 是从可利用的知识源中抽取形式化知识的过程。用通俗的话来说,协同过滤就是“如果 和我兴趣爱好相同的人喜欢这样东西,那我也会喜欢这样东西的”。这个概念是从信息 过滤领域的工作得来的,首先由g o l d b e r g 等人提出来,g o l d b e r g 运用协同过滤技术建立 了t a p e s t r y 系统,用户可以通过该系统过滤电子邮州3 4 】。t a p e s t r y 是最早的基于协同过 滤技术的推荐系统,这个系统依赖于一个用户群中的用户的显式见解。在有的文献【3 5 】 中,协同过滤也被称为社会信息过滤( s o c i a lf i l t e r i n g ) ,也有的文献认为协同过滤不属于 信息过滤1 3 6 1 。协同过滤技术不太适用于推荐项目经常变化或者增加的系统。任何涉及用 户评分的问题都可以采用协同过滤技术。协同过滤与基于内容的过滤不同,例如,如果 某人今天想看部电影,但无法决定看哪部,此时有两种做法:回想以前喜欢看哪种类型 的电影,再看看现在哪些电影符合以前喜欢的类型;或者询问一些跟自己看电影的口味 差不多的朋友的意见。前者属于基于内容过滤的推荐,后者则是基于协同过滤的推荐。 1 2 推荐系统的国内外研究与应用现状 1 9 9 5 年,卡内基梅隆大学的a r o b e r t 等人在美国人工智能协会上提出了个性化 导航系统w e b w a t c h e r ,标志着个性化服务的开始;1 9 9 7 年3 月,( ( c o m m u n i c a t i o n so f t h ea c m ) ) 组织了个性化推荐系统的专题报道,标志着个性化服务已经被技术界高度重 视;1 9 9 9 年,德国d r e s d e n 技术大学的j t a n j a 实现了个性化电子商务原型系统 t e l l i m ,标志着个性化服务开始向全球发展;2 0 0 0 年,n e c 研究院的d b k u r t 等 3 河北大学工学硕士学位论文 人为搜索引擎c i t e s e e r 增加了个性化推荐功能,实现了c i t e s e e r 的个性化;同年,我 国也开始了个性化服务的研究,清华大学的路海明等提出了基于多a g e n t 混合智能实 现个性化推荐。到2 0 0 1 年,个性化研究已经在商业领域得到越来越广泛的应用【4 羽。 个性化推荐技术能充分提高站点的服务质量和访问效率,从而吸引更多的访问者。 喝豆浆要不要外加一根油条? 日常生活中推荐带来的商机如今在互联网上也随处可见。 这种简单的推荐经过计算机的加工后会变得非常有效,它不仅知道某个用户查看多普达 x d a 手机网页的同时,会有想查看存储卡的需要,而且还知道其同时还想查看l e e 最新 款牛仔裤。这种推荐服务是国外s t u m b l e u p o n 网站的一个创意,网站会学习你的网页浏 览偏好,并且为你推荐你想看的下一页内容。 现在s t u m b l e u p o n 每天的推荐次数超过了5 0 0 万次,2 0 0 7 年5 月,该网站更被e b a y 以7 5 0 0 万美元收购。e b a y 看中的就是个性化推荐商品对销售收入的提升,而且 s t u m b l e u p o n 如果能与e b a y 的数据结合,有可能会成为比g o o g l e 更好的购物搜索引擎。 现在看起来事实确实如此,如果用户使用s t u m b l e u p o n 搜索“汽车”,网站将会综合考 虑用户的收入、年龄、性别和家庭所在地等信息,提供一个网页列表,以及其它有相似 兴趣和背景的用户推荐的网站。与之相比,如果通过g o o g l e 搜索引擎搜索“汽车”,将 会获得一个包含3 5 7 亿个网页的搜索结果,其中既有电影内容,也有各种各样的广告。 个性化推荐服务正在被越来越多的用户所喜爱,s t u m b l e u p o n 目前总用户数量已经 超过2 3 0 万人,并且还在以每年1 5 倍的速度上升。互联网上最大的在线书店 a m a z o n c o m 、最大的c d 商店c d n o w c o m ( 已被a m a z o n 收购) 都在它们的网上交易平台 采用了协同推荐技术,协同推荐往往使用户能发现一些自己喜好的东西,而且花费的时 间大大缩短,就如同在你经常光顾的书店,老板肯定会直接推荐你喜欢看的新书。人们 甚至认为,这是比w e b 2 0 更先进的电子商务应用。 a c m 从1 9 9 9 年开始每年召开一次电子商务的研讨会,其中关于电子商务推荐系 统的研究文章占据了很大比重。1 9 9 9 年此协会成立了数据挖掘特别兴趣组s i g k d d 小 组和w e b k d d 小组,主题集中在电子商务中的网页挖掘技术和推荐系统技术。而a c m 下属的信息检索特别兴趣组s i g i r 在召开的第2 4 届研究和发展会议上,开始把推荐 系统作为一个研讨主题。1 9 9 9 年召开的人机界面会议c h i 9 9 专门设立推荐系统特别 兴趣组。同时,第十五届人工智能会议a a a i 9 8 、第一届知识管理应用会议p a k m 9 6 、 9 6 年协同工作会议c s c w 9 6 等也纷纷开始将个性化推荐系统作为研究主题【4 2 1 。 4 第1 章引言 个性化推荐系统的研究内容和研究方向主要包括1 3 7 1 : 推荐技术研究:目前主要的推荐技术主要包括基于内容过滤的推荐和协同过滤 推荐两种。由于基于内容过滤自身的局限性,协同过滤推荐技术是当前研究的 主流。 实时性研究:在大型个性化推荐系统中,推荐系统的扩展性和实时性要求越来 越难以保证。如何有效满足推荐系统的实时性要求得到了越来越多研究者的关 注。 推荐质量研究:在大型个性化服务系统中,用户评分数据极端稀疏。用户评分 数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难 以保证。 多种数据多种技术的集成:当前大部分的电子商务推荐系统都只利用了一部分 可用信息来产生推荐。随着研究的深入,新型个性化推荐系统应该利用尽可能 多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效 的推荐服务。 数据挖掘技术在推荐系统中的应用:随着研究的深入,各种数据挖掘技术( 主要 包括关联规则挖掘、序列模式挖掘、聚类分析、b a y e s i a n 分类等) 在推荐系统 中得到了广泛的应用。基于w e b 挖掘的推荐系统得到了越来越多研究者的关 注。 用户隐私保护研究:由于推荐系统需要分析用户的购买习惯和兴趣爱好,涉及 到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得作进一步 深入的研究。 推荐系统可视化研究:推荐系统的目的是为用户提供服务,因此必须为用户提 供友好的可视化服务界面。主要包括推荐结果可视化研究和推荐结果解释研究 等方面的内容。 1 2 1 国内研究与应用现状 虽然推荐系统在我国的电子商务领域开始得到了应用,但目前我国在个性化推荐和 自动推荐方面的理论研究处于初步阶段【2 1 1 ,特别是协同过滤在推荐系统中的应用研究较 5 河北大学1 = 学硕士学位论文 少。事实上,随着我国电子商务的蓬勃发展,对个性化推荐技术的需求急剧增加,谁先 使用个性化的推荐技术,谁就可能获得更多的用户。 国内在个性化推荐方面做得比较好的网站有互动出版网网上书店( h t t p : 1 w w w c h i n a p u b c o r n ) ,北京人大金仓信息技术有限公司的数字图书馆个性化推荐系统 k i n g b a s e d l ,网上文章推荐3 6 0 d o c 小助手( h t t p : w w w 1 e x i x i a 3 6 0 d o c c o m u s e r h o m e 2 a s p x ) 等等。 人民大学数字图书馆开展了个性化服务。用户注册以后需要填写自己的研究方向并 且输入关键词细化研究方向。用户登录后,系统自动进入本次系统推荐图书页面,用户 可以对自己感兴趣的书籍进行选择,以确保自己不感兴趣的书籍不被再次推荐。若对某 本书感兴趣,可点击书名链接,进入详细信息页面查看图书的详细信息和其他用户的评 价信息,也可直接执行续借、预约、请求等操作。点击“论丈”链接可以查看系统推荐 的论文信息,操作步骤与查看图书信息大体相同。用户对图书的评价分为5 级,评价级 别越高表示用户对该图书的评价越高。可以通过“我的收藏夹”管理推荐和检索得到的 资源。该个性化推荐系统包括用户兴趣建模和个性化推荐两个部分。系统根据收集到的 用户描述信息( u s e rp r o f i l e ) 建立初始用户兴趣模型,通过基于内容过滤的推荐和协同过 滤推荐相结合的方式把各种数字资源主动推荐给用户,同时接收用户反馈并不断完善用 户兴趣模型,提高推荐精度。 友播( y o b o ) 是目前中国最全面精准的音乐分析与个性化推荐系统。只要告诉友 播y o b o 一首你最喜欢的音乐或歌手,友播y o b o 电台就会为您建立一个流动的音乐频 道,开始探索无穷的音乐世界。友播y o b o 可以在你已经听过歌曲的基础上发现新的 歌手,并通过你的音乐d n a 找到品位和性格最接近的音乐同类。友播y o b o 的口号是 “发现你的音乐d n a ”。一开始,在注册时,你可以选择进行一个测试,让友播y o b o 初步了解你的性格。在你聆听的过程中,你会随时发现新的歌手和歌曲,然后标记为“喜 欢”和“不喜欢”,友播y o b o 会根据你的喜好,修正你的音乐d n a 。当你的音乐d n a 累积到一定程度之后,友播y o b o 就能完全发现你的音乐品味了。 音乐八宝盒( w w w 8 b o x c n ) 是一个音乐推荐网站。完成一个简单的测试后就能够帮助 用户快速完善自己的音乐档案,还能够让八宝盒替用户预先筛选出其有可能喜欢的音 乐。 目前,国内在推荐技术方面研究较多的是基于内容的推荐,典型的如各种搜索引擎 6 第1 章引言 的研究。文 3 7 对国内在书籍方面有影响的四个电子商务网站和国外著名电子商务网站 进行了比较分析,比较结果见表1 2 。从分析结果来看,国内主要使用的推荐策略有: 分类浏览,按商品类别进行逐层次的查找: 基于关键词的搜索,对要查找内容的关键词进行搜索; 流行推荐,推荐最畅销的商品; 基于某一商品的推荐,推荐与该商品有关的商品; 信函式推荐,系统以e m a i l 形式回答用户要查找的商品。 表1 2 不同电子商务网站推荐策略 从表1 2 可以看出国内电子商务网站的推荐存在的问题有: 缺乏个性化的推荐。不能根据不同用户的兴趣爱好给出不同的产品推荐; 推荐的自动化程度低。由于所采用的推荐技术主要是基于内容的检索和分类浏 览技术,用户想要得到相关的信息,必须输入搜索的关键词或是按商品的所属 类别逐层查找; 推荐的持久性程度低。国内绝大多数电子商务网站给出的推荐都是基于用户一 7 河北大学:t = 学硕士学位论文 次登录得到的,不能收集用户每次浏览网页时表现出的兴趣偏好信息,并据此 信息对用户做出个性化的推荐; 推荐方法单一。大多数电子商务网站基本都是采用分类浏览和基于内容的检索; 不能在线推荐。因为计算量太大,推荐只能离线进行。 表1 2 的比较表明我国电子商务网站并没有采用真正意义上的个性化推荐技术,所 使用的仅仅是一些查找技术,这些技术的个性化程度和自动化程度都比较低1 2 1 1 。 1 2 2 国外研究与应用现状 在协同过滤技术方面,美国明尼苏达州立大学计算机科学与工程系的g r o u p l e n s 研 究小组( w w w g r o u p l e n s o r g ) 做了很多重要的工作,他们设计并实现了g r o u p l e n s 系统。 以该研究小组为技术支撑的n e tp e r c e p t i o n 公司在1 9 9 6 年6 月成立,在吸引了众多风险 投资后,于1 9 9 9 年4 月在n a s d a q 上市。这个公司有一大特色,它宣称在使用它的产品 一个星期后就可以见到效果,没有任何一家其他公司能够做到这一点。该公司主要的产 品是n e tp e r c e r p t i o n s ,它采用了一个叫做“实时建议”的技术,让它的产品对象( 主要 是网站) 能够根据用户以往的浏览行为( 和以前的购买记录) ,在其他用户( 称作 c o m m u n i t y ) 中找出与他有相类似浏览行为的用户,根据这些用户的浏览行为来预测该用 户以后的浏览行为,从而为用户提供个性化的浏览建议,实现c r o s s s e l l i n g 和u p - s e l l i n g 。 这种技术利用了网站用户的浏览行为相似性,预测有很高的准确性,并且它是实时运行 的,随着浏览量的增加,它会变得越来越智能。 t e r v e e n e t 等人【2 2 1 开发出了p h o a k s ( p e o p l eh e l p i n go n ea n o t h e rk n o ws t u f f ) 系统, 将大家都认为值得看的网站推荐给用户。其运作的方式就是分析用户在u s e n e t 中所张贴 的文章,找出文章内所推荐的网站u r l 并统计每个u r l 有多少人推荐,藉此来将相关 的网站u r l 推荐给需要的人。实验结果证实p h o a k s 是有效的,可以达到9 0 的正确 性。 r i n g o 5 】是由麻省理工学院所设计的一个音乐推荐系统。这个系统会先要求使用者针 对音乐家做评价,再根据评价的结果计算使用者相似度,然后将使用者分群,最后再由 同一群的使用者互相推荐音乐给彼此1 2 3 1 。 t a p e s t r y i 8 】是最早的基于协同过滤技术的推荐系统之一。目标用户需要明确指出与自 8 第1 章引言 己行为比较类似的其他用户。g r o u p l e n s l 9 l 是基于用户评分的自动化协同过滤推荐系统, 用于推荐电影和新闻。v i d e or e c o n 蚰e n d e r 【1 0 1 通过e m a i l 为用户推荐其可能喜欢的电影。 1 3 应用于推荐系统的其他技术 还有一些其他技术应用于推荐系统。比如:贝叶斯网络、聚类等。b a y e s i a n 网络 技术利用训练集创建相应的模型【1 1 】,模型用决策树表示,节点和边表示用户信息。训练 得到的模型非常小,所以对模型的应用非常快。这种方法适合用户的兴趣爱好变化比较 慢的场合。 聚类技术将具有相似兴趣爱好的用户分配到相同的聚类中,聚类产生之后,根据 聚类中其他用户对商品的评价预测目标用户对该商品的评价。这种方法存在的最大缺陷 在于如果目标用户处于聚类的边缘,则对该用户的推荐精度比较低。相对于协同过滤, 聚类技术通常提供个性化稍差的推荐,在某些情况下,聚类技术的推荐精确性比最近邻 算法低1 1 2 1 。0 c o n n o r 等人1 1 3 1 提出对项目进行聚类,然后在对应的聚类中搜索目标用户 的最近邻居,由于每个聚类中的用户数量并不是随着聚类中项目数量的减少而线性减 少,所以这种方法在用户对多个聚类中的商品均有评分的情况下效果并不理想。邓爱林 1 1 4 】提出了一种基于项目聚类的协同过滤推荐算法,根据用户对项目评分的相似性对项 目进行聚类,生成相应的聚类中心,在此基础上计算目标项目与聚类中心的相似性, 从而只需要在与目标项目最相似的若干个聚类中就能寻找到目标项目的大部分最近邻 居并产生推荐列表。实验结果表明,该算法可以有效提高推荐系统的实时响应速度。 关联规则技术在零售业得到了广泛的应用。关联规则挖掘可以发现不同商品在销售 过程中的相关性。基于关联规则的推荐算法与协同过滤推荐算法不同,协同过滤推荐算 法根据用户评分数据产生推荐,而基于关联规则的推荐算法根据用户交易数据生成关联 规则模型,应用该模型和用户当前的购买行为向用户产生推荐【”】。关联规则模型的生 成可以离线进行。 h o r t i n g 图技术是一种基于图的方法【l 引,节点代表用户,边代表两个用户之间的相似 度。在图中搜索近邻节点,然后综合近邻节点的评分形成最后的推荐。h o r t i n g 图技术 可以跳过中间节点寻找最近邻居,考虑了节点之间的传递相似关系。因此推荐精度优于 最近邻协同过滤技术。 9 河北人学工学硕士学位论文 针对用户评分数据的极端稀疏性,s a r w a r l l 7 】提出通过奇异值分解( s v d ) 减少项目空 间的维数,使得用户在减少的项目空间上对每一个项目均有评分,实验结果表明这种 方法可以有效解决同义词( s y n o n y m y ) 问题,显著提高推荐系统的伸缩能力。但降维会导 致信息损失,降维效果与数据集密切相关,在项目空间维数很高的情况下,降维的效果 难以保证【13 1 。 1 4 个性化推荐技术面临的挑战 个性化推荐技术在研究领域获得了广泛关注,在实际的个性化服务系统中也得到了 广泛应用。但是,随着系统规模越来越大,个性化推荐系统也面临着系列挑战,主要 包括: 实时性与推荐质量之间的平衡。推荐系统的推荐质量和实时性是一对矛盾。大 部分推荐技术在保证实时性要求的同时,是以牺牲推荐系统的推荐质量为前提 的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量,需要做 进一步深入的研究。 个人资料经常缺失或准确性较低。相对于互联网中的信息,可以收集到的用户 个人信息太少了,以至于某些个性化推荐系统无法有效的处理数据。 新型个性化服务推荐系统体系结构研究。当前大部分的个性化服务推荐系统都 只是一个单一的工具,只能提供一种推荐模型。但由于个性化服务系统本身的 复杂性,不同场合需要不同类型的推荐。需要研究新型个性化服务系统体系结 构,收集多种类型的数据,提供多种推荐模型,满足不同类型的推荐需求。 推荐结果解释研究:个性化服务推荐系统为了说服用户,需要向用户解释推荐 产生的原因。目前的个性化服务推荐系统只能通过简单的浏览排行、向用户提 供其他用户对信息的评价、评分信息等方式来达到上述目的。需要进一步研究 更加有效的方法向用户解释产生推荐的原因,从而增加用户对推荐系统的信任 程度,说服用户听从推荐系统的推荐。 1 5 本文的贡献 本文有两个贡献: l o 第1 苹引青 研究了基于项目的协同过滤推荐技术,提出了一种基于项目的个性化推荐算法 - - i b r a ( i t e m b a s e dr e c o m m e n d a t i o n a l g o r i t h m ) 算法,可以进一步提高推荐系统 的推荐质量。 为了在大型w e b 系统做出实时推荐,提出了i b r a 算法的简化实现模型。通过 预先计算项目之间的相似度并为每个项目保存与其最相似的若干项目信息来提 高i b r a 算法的执行速度,达到性能和推荐质量的折中,最终做到实时推荐。 河北人学工学硕十学位论文 第2 章基于内容的过滤和协同过滤 基于内容的过滤和协同过滤这两种信息过滤技术都可以应用于个性化推荐系统中, 这两种技术也是近年来学术界关注较多的。下面我们介绍一下两者的区别。 2 1 基于内容的过滤 基于内容的过滤根据信息的内容和用户偏好之间的相关性向用户推荐信息,它们利 用资源与用户兴趣的相似性来过滤信息。基于内容的过滤可以应用于过滤广告,过滤垃 圾邮件,过滤反动、色情网页等。 用户概貌( u s e rp r o f i l e ) 1 2 7 1 是基于内容过滤的推荐系统中用以记录用户喜好及兴趣的 个人数据。概貌( p r o f i l e ) i 程是计算科学协会( c s i ) 和荷兰n i j m e g e n 认知与信息研究所 ( n i c i ) 的一个合作研究项目,其目标是通过对文档和用户概貌使用比关键词更丰富的描 述来提高检索的质量,开发一个基于w w w 的能动的过滤器。用户概貌用于支持对查 询的语义扩展【2 引。 用户概貌的表示方法目前还没有一个统一的标准,它从内容上可以划分为基于兴趣 的和基于行为的两种类型【2 9 1 。基于兴趣的用户概貌文件可以表示为加权向量模型、类型 层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户概貌文件可以表 示为用户浏览模式或访问模式。具体实现时可以综合基于兴趣的和基于行为的这两种表 达方式。 基于内容过滤的推荐系统在进行推荐之前通常会要求用户先建立其个人的基本数 据文件,在这些用户基本数据文件内,不只记录了用户的个人基本数据,而且还记录有 用户的兴趣爱好数据。接着,在用户享受推荐的同时,推荐系统也会将用户在网站上的 种种行为记录下来,分析用户的爱好。最后,综合用户基本数据文件与推荐系统分析出 来的用户的爱好属性,来进一步地推荐给用户与其过去经验相仿的事物。 基于内容过滤的系统有很多,如p e r s o n a lw e b w a t c h e r ,s y s k i l l & w e b e r t ,l e t i z i a t 3 0 1 , c i t e s e e r ,l i b r a l 3 u ,n e w s w e e d e r 和i n f o f i n d e r 等等。w e b w a t c h e r 是因特网上的信息搜 寻助理,用来协助用户在某一个网站内找到所需要的相关信息。首先w e b w a t c h e r 会要 求用户输入他们感兴趣的主题,之后,w e b w a t c h e r 会在用户浏览网页的时候,判断该 1 2 第2 章基于内容的过滤和协同过滤 网页中有哪些超级链接会是用户感兴趣的,再将这些超级链接推荐给用户。w e b w a t c h e r 会根据用户采纳与否来调整推荐的网页【3 2 】。 l e t i z i a 系统【3 伽用于在用户浏览时向该用户推荐他可能感兴趣的链接,这些链接与用 户过去访问的页面内容有关,系统通过用户过去的行为来推测用户的兴趣点。在使用过 程中,用户可以要求l e t i z i a 系统根据其访问记录及当前浏览状态提供推荐。 s h e t h 等人【3 3 】结合遗传算法和反馈学习在一个半自动信息过滤系统中为特定的用户 提供个性化的u s e n e t 信息推荐。该系统使用用户概貌来代表一个用户,并通过人机交互 为每一个用户生成一个初始的用户概貌,概貌信息可以随着用户兴趣的变化而发生变 化。 n e w s w e e d e r 是一个推荐网页新闻的过滤系统,它让使用者在网页上针对网页新闻 来进行评价,再根据这些使用者评价的结果分析出使用者的喜好,建立使用者基本数据 文件,进而给使用者推荐其感兴趣的网页新闻1 2 4 】。 i n f o f i n d e r 通过信息数据集( s e t so fm e s s a g e s ) 或是其它的在线文件来得知使用者的 信息爱好类别。该系统的特点在于它使用经验式( h e u r i s t i c ) 搜寻技术来获得有意义的词 组,该方法的优点在于不需要很多文件样本就可以获得使用者的兴趣所在【2 4 】。 基于内容过滤的技术通过比较资源与用户描述文件来推荐资源。它的关键问题是相 似度计算。对于向量空间模型来说,通常采用的方法是余弦度量。如果用户的描述文件 没有正确描述用户的兴趣和行为,那么该方法推荐的数据可能和用户真正的兴趣根本不 相关。基于内容过滤的系统优点是简单、有效,缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源,只能发现和用户己有兴趣相似的资源。基于内 容的过滤在获取与某一具体主题( 如体育,音乐等) 有关的信息时比较有效。 基于内容的过滤主要有以下局限: 要求信息流要么是机器可以分析的形式( 例如,文本) ,要么是手工标注了属性 ( 如声音、图像、视频等) ,然而,由于信息量巨大,采用手工标注属性是不实 际的。 不容易发现新的信息,系统经常把用户以前看过的信息又推荐给用户。 不能根据质量、风格或观点等进行过滤。如两篇文章碰巧使用了同样的关键字, 系统将不能区分哪篇是优质的文章,哪篇是劣质的文章。 河北大学t 学硕七学位论文 2 2 协同过滤技术 协
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建立新冠疫情应急预案机制(3篇)
- 2025至2030Zhug行业市场深度研究及发展前景投资可行性分析报告
- 2025-2030露天采矿装备能效提升与绿色转型路径研究报告
- 2025-2030铜箔极薄化技术发展对锂电池能量密度提升贡献度分析报告
- 楼宇自控系统施工方案(3篇)
- 梅州怎么做应急预案的(3篇)
- 钢管顶管施工方案(3篇)
- 街道社区防灾减灾应急预案(3篇)
- 防洪防汛专项施工方案(3篇)
- 社区举办啤酒节应急预案(3篇)
- 《突破式沟通技巧》培训课件:高效沟通赋能成长
- 中学学生会检查细则说明表格
- TLYCY 3071-2024 森林草原防火无人机监测技术规范
- 《急诊科患者气道管理》课件
- 人教版初中九年级全册英语单词表(完整版)
- 合伙人股权激励制度
- 导尿管相关尿路感染预防与控制
- 《新媒体写作与传播(第2版)》教学大纲、课程标准、习题答案
- 骨质疏松症完整版本
- 国企投资后评价操作实务
- 中国古代文学史明代文学
评论
0/150
提交评论