(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于用户兴趣的个性化推荐系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京交通人学硬士学侮论文 摘要 摘要 随着互联网的普及和电子商务的迅猛发展,信息膨胀与冗余给人们的社 会活动和商务活动带来了信息选择的困惑。如何为每个用户提供快捷准确, 满足个人实际需要的信息,已成为众多业内人士越来越关注的问题。 推荐系统在理论和实践中都得到了很大发展,但是随着电子商务系统规 模的进一步扩大,推荐系统中存在的稀疏问题和冷启动问题严重影响了推荐 质量。针对推荐系统面临的主要挑战,本文对推荐系统及其主要的推荐技 术一协同过滤技术进行了有益的探索和研究。 本文的主要研究内容如下: 1 ) 基于奇异值分解的改进协同过滤算法。本文通过奇异值分解的方法对 用户评分矩阵进行降维,搜索最佳的用户特征矩阵和项特征矩阵,使其能有 效地反映原始评分数据的特征,并在此基础上利用特征矩阵进行用户评分预 测。实验结果表明,基于奇异值分解的改进协同过滤算法可以挖掘用户评分 数据的潜在特征,并且能有效地解决用户评分数据的稀疏问题,从而提高推 荐系统的推荐质量。 2 ) 基于项的改进协同过滤算法。针对用户评分数据的极端稀疏,本文在 传统的基于项的协同过滤算法的基础上,在度量项之问相似性阶段,采用基 于均方误差的相似性度量标准进行计算,并且在评分预测阶段,采用基于回 归方法得到用户对未评分项的评分值。实验结果表明,基于项的改进协同过 滤算法可以以较小的时间代价来有效提高评分预测的准确性,同时,很好地 弥补了传统的协同过滤算法在冷启动问题上的不足,提高了推荐系统的推荐 质量和推荐精度。 关键词:推荐系统;协同过滤;奇异值分解;最近邻方法;n e t f l i xp r i z e 分类号:t p 3 0 1 6 北京交通人学硕士学位论文 a b s t r a c t a b s t r 卢c t w i t ht h ep o p u l a r i z a t i o no fi n t e r n e ta n dt h er a p i dd e v e l o p m e n to fe c o m m e r c e , i n f o r m a t i o no v e r l o a dm a d ei th a r df o rc o n s u m e r st of i n dt h ep r o d u c t sa n ds e r v i c e st h e y w a n t e dw i t h i nam a s so fp r o d u c ti n f o r m a t i o n t oa d d r e s st h i si s s u e ,r e c o m m e n d a t i o n s y s t e m sw e r eu s e dt os u g g e s tp r o d u c t sa n dt op r o v i d ec o n s u m e r sw i t hi n f o r m a t i o nt o h e l pt h e md e c i d ew h i c hp r o d u c t st op u r c h a s e a l t h o u g hr e c o m m e n d a t i o ns y s t e m sh a v eb e e nv e r ys u c c e s s f u li nb o t hr e s e a r c h a n dp r a c t i c e ,t h e ys u f f e rf r o ms p a r s i t ya n dc o l d s t a r tp r o b l e m sw h i c ha f f e c tt h ep e r - f o r m a n c eo fr e c o m m e n d a t i o nb a d l y a i m e da tt h em a i n c h a l l e n g e so fr e c o m m e n d a t i o n s y s t e m s ,t h i st h e s i se x p l o r e da n dr e s e a r c h e dt h er e c o m m e n d a t i o ns y s t e m sa n dt h e i r k e yr e c o m m e n d a t i o nt e c h n o l o g i e s ,e s p e c i a l l yc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mi n c l u d i n gu s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h ma n di t e m b a s e dc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m t h em a i nr e s e a r c hw o r k si nt h i st h e s i sa r ea sf o l l o w s : 1 ) i m p r o v e ds v d b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m t h i sm e t h o dc o m p u t e d t h eb e s tr a n k ka p p r o x i m a t i o nm a t r i xw h i c hc a p t u r e dt h ekm o s tp r o m i n e n tf e a t u r e s o ft l ed a t ab ym i n i m i z i n gt h er e s i d u a le r r o ra m o n ga l lr a n k km a t r i c e sa n dt h e nu s e d t h ef e a t u r em a t r i c e st op r o d u c et h ep r e d i c t i o no fu n r a t e di t e r n s o u r e x p e r i m e n tr e s u l t s s u g g e s t e dt h a tt h i sm e t l l o dc o u l du n c o v e rl a t e n tf e a t u r e so ft h eg i v e nd a t aa n de f f i c i e n f l y o v e r c o m et h ee x t r e m es p a r s i t yo fu s e rr a t i n gd a t a 2 ) i m p r o v e di t e m - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m t h et r a d i t i o n a li t e m b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mr e l a t e di t e m sb yv a r i o u sh e u r i s t i cv a r i a n t so fc o r - r e l a t i o nc o e f f i c i e n t s ,w h i c ha l l o w e dd i r e c ti n t e r p o l a t i o nf r o mn e i g h b o r s s c o r e s t h i s m e t h o do f f e r e dar i g o r o u sa l t e r n a t i v et ot h e s ei n t e r p o l a t i o nw e i g h t sb a s e do ng l o b a l o p t i m i z a t i o no fa c o s tf u n c d o nc o r r e l a t e dw i t ha l lw e i g h t s s i m u l t a n e o u s l y o u re x p e r - i m e n tr e s u l t ss u g g e s t e dt h a tt h i sm e t h o dc o u l do v e r c o m et h ec o l d s t a r tp r o b l e m sa n d i m p r o v e t h er e c o m m e n d a t i o nq u a l i t yw i t ham i n o ri n c r e a s ei nr u n n i n gt i m e k e y w o r d s :r e c o m m e n d a t i o ns y s t e m s ;c o l l a b o r a t i v ef i l t e r i n g ;s i n g l ev a l u ed e c o m p o s i t i o n ;k - n e a r e s tn e i g h b o r ;n e t f l i xp r i z e c l a s s n o :t p 3 0 1 6 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。 特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: ,乙 导师签名: 黟弧 签字日期:硝年,月多日签字日期:刃年月歹日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成 果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 学位论文作者签名: ,乙签字日期:研年歹月歹日 致谢 本论文的工作是在我的导师罗四维教授的悉心指导下完成的,罗四维教 授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感 谢二年来罗四维老师对我的关心和指导。 罗四维教授悉心指导我完成了实验室的科研工作,在学习上和生活上都 给予了我很大的关心和帮助,在此向罗四维老师表示衷心的谢意 罗四维教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表 示衷心的感谢。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学 业。 北京交通大学硕士学位论文 1 1 研究背景 第1 章绪论 第l 章绪论 当今社会,知识经济迅速爆炸,信息资源的含金量也迅速攀升。企业的 商务活动逐步电子化,最早提供电子数据交换的电子商务系统也蓬勃发展 起来。大多数企业开始通过电子商务平台为客户提供商品信息,于是电子商 务系统里的商品信息越来越多。在这个能轻松得到各种资讯的信息海洋里, 用户却从一开始的惊喜,变得有些无所适从。如何在茫茫的信息海洋中找到 自己要的东西,己经成为令企业和个人用户头疼的问题。虽然搜索引擎、信 息检索等能为用户提供一定的帮助,但是它为每个用户提供的服务都是一样 的,而且反馈的信息量也比较大,不能从根本上帮助用户解决这个问题。 为了更好的吸引客户,帮助客户找到需要的商品,提高销售质量,商品 推荐系统逐渐被应用到电子商务嘲站中。推荐系统在电子商务系统中扮演 类似于导购员的角色,它根据用户的喜好,主动为不同的用户推荐不同的商 品。推荐系统是智能化信息代理的一种,我们期待它能代替人们完成大部分 的信息过滤工作,并且完成得越来越出色。 一方面,电子商务系统需要推荐系统的大力支持帮助用户找到所需商 品。另一方面,电子商务系统自身的特点也有利于推荐系统的顺利实施,主 要原因包括: 1 ) 丰富的数据:电子商务环境收集的各种数据比较丰富,如用户注册数 据、用户交易数据、用户评分数据、用户浏览数据等。丰富的数据为建立多 种推荐模型,产生高质量的推荐提供了可能。 2 ) 电子化的数据收集:电子商务环境中的各种数据通过电子化方式收 集,减小了手工方式收集数据可能出现的人工误差,噪音数据大大减少,各 种数据的可信度比较高,数据预处理比较简单。 3 ) 推荐效果易于评估:站点访问量的增加、系统销售额的增加等指标都 可以直接用来评估电子商务平台上实施推荐系统的投资回报。 这种一对一的服务模式,不仅可以促成交易的进行,还可以提高服务质 量,提升企业的竞争力。目前,很多大型的电子商务系统,如a m a z o n ,e b a y , a l i b a b a ,d a n g d a n g 等,都不同程度的使用了各种形式的推荐系统。在日趋激 烈的竞争环境下,推荐系统能有效保留用户,提高电子商务系统的销售。 北京交通人学硕士学位论文 第1 章绪论 1 2 研究现状和意义 1 2 1 研究现状简介 随着i n t e r n e t 的普及和电子商务的发展,推荐系统逐渐成为一项重要研究 内容,得到越了来越多研究者的关注。文【1j 介绍从1 9 9 9 年开始,a c m 的数据 挖掘特别兴趣组s i g k d d t 、组设立w e b k d d 研讨组,主题集中在w e b 挖掘技 术和推荐系统技术。而a c m 下面的信息检索特别兴趣组s i g i r 在召开的第2 4 届 研究和发展会议上,专门把推荐系统作为一个研讨主题。第7 届国际人工智 能联合会议i j c a i 0 1 则把e b u s i n e s s & t h ei n t e l l i g e n tw e b 作为一个独立的研讨小 组。9 9 年召开的人机界面会议c h i 9 9 专门设立推荐系统特别兴趣组。同时, 第十五届人工智能会议a a a i 9 8 、第一届知识管理应用会议p a k m 也纷纷开始 将推荐系统作为研究主题。 推荐系统中的推荐技术主要包括基于内容的过滤和协同过滤两种【2 】。基于 内容的过滤是信息检索领域的重要研究内容,因此基于内容的推荐是信息过 滤技术的延续与发展,它是建立在项目的内容信息上做出推荐的,而不需要 依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特 征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对 象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用 户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决 于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基 于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的 偏好改变而发生变化。 协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一 般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利 用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定 商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同 过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象, 如音乐、电影。协同过滤推荐技术也存在自身的不足,主要表现在用户评分 数据比较少的时候推荐质量比较低。因此多种数据多种技术的有效集成得到 研究者的重视。b a l a b a n o v i 等人【3 】提出通过基于内容的过滤和协同过滤的复合 型推荐系统提高推荐质量。文【4 】中提出基于w e b 使用挖掘和w e b 内容挖掘的推 荐系统。 个性化推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著 名研究机构和研究者的关注,出现了大型研究型推荐系统实例: 基于内容过滤的系统如p e r s o n a lw e b w a t c h e r , s y s k i l l & w e b e r t ,l e f i z i a ,p v a , c i t e s e e r , s i f t e r ,i f w e b ,w e b m a t e ,w e b a c e ,e l f i 和w e b p e r s o n a l i z e r 等,他们将 2 北京交通入学硕士学位论文 第1 章绪论 资源与用户兴趣进行匹配,过滤无关信息,抽取用户感兴趣的信息。基于 内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风 格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似 的资源。 协同过滤系统如w e b w a t c h e r , l e t sb r o w s e ,g r o u p l e n s ,f i r e f l y , s e l e c t , l i k e m i n d s 和s i t e s e e r 等,他们利用用户之间的相似性来过滤信息,借助兴趣相似的 用户帮助当前用户过滤无用信息产生有价值的推荐。基于协同过滤系统的优 点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题,一 个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价, 系统很难利用这些评价来发现相似的用户。另一个是可扩展性,亦即随着系 统用户和资源的增多,系统的性能会越来越低。 还有一些个性化服务系统如w e b s i f t , f a b 和a n a t a g o n o m y 等,同时采用了 基于内容过滤和协同过滤这两种技术。结合这两种过滤技术可以克服各自的 一些缺点,为了克服协同过滤的稀疏性问题,可以利用用户浏览过的资源内 容预期用户对其他资源的评价,增加资源评价的密度,然后利用预测的评价 进行协同过滤,从而提高协同过滤的性能。 1 2 2 研究目的和意义 首先,在理论研究方面,个性化推荐系统具有较高的学术价值。从广义 上来说,查找给出的结果也可看作是系统给出的推荐结果,但是从个性化程 度、自动化程度和持久性程度这三个方面来衡量推荐结果的好坏,这些是查 找或检索技术是远远不够的。目前一些新的推荐方法和技术相继出现,并应 用于各种行业,但是其存在的稀疏性、扩展性、实时性和精确性等问题也成 为国内外学者的研究焦点,尤其电子商务推荐系统中协同过滤算法的改进更 是热点。 其次,在实际应用方面,对于用户来说,个性化推荐技术使得用户从无 限的网络信息资源和商品世界中解脱出来,大大节省了用户在商品搜索上花 费的时问和精力;对于服务的提供者来说,个性化推荐技术提高了客户对电 子商务网站的忠诚度,增加了用户的访问次数,实现了将更多的电子商务网 站的浏览者转变为商品的购买者,提高了电子商务网站的交叉销售能力,为 电子商务企业提供更多的盈利机会。 1 3 研究内容及主要工作 本文研究的对象是个性化推荐系统中的协同过滤算法,主要工作是研究 3 北京交通人学硕士学位论文 第1 章绪论 传统的协同过滤算法中的数据稀疏和冷启动问题的解决方法 5 1 。 本文首先通过奇异值分解的方法对用户评分矩阵进行分解,搜索最佳的 用户特征矩阵和项特征矩阵,使其能有效地反映原始评分数据的特征,并在 此基础上利用特征矩阵进行用户评分预测。这种方法可以挖掘用户评分数据 的潜在特征,并且有效地解决了用户评分数据的稀疏问题。接着,我们改进 传统的基于项的协同过滤算法,在度量项之问相似性阶段,采用基于均方误 差的相似性度量标准进行计算,并且在预测阶段,采用基于回归方法得到用 户对未评分项的评分值,这种方法可以以较小的时间代价来有效提高评分预 测的准确性,同时很好地弥补了协同过滤算法在冷启动问题上的不足。 最后通过实验验证了基于奇异值分解的改进协同过滤算法和基于项的改 进协同过滤算法的有效性与稳定性,这些改进策略的选择有效地弥补了传统 协同过滤算法所出现的稀疏问题和冷启动问题,有效地提高了个性化推荐的 推荐质量和推荐精度。 1 4 论文结构安排 本文共分为六章,文章结构及各章内容简介如下: 第l 章绪论。探讨了个性化推荐系统提出的背景及其研究意义,分析了推 荐系统的研究现状及面临的主要挑战,介绍了本文的研究内容及主要工作。 最后,给出本文的结构安排。 第2 章个性化推荐系统及其核心技术。介绍了个性化推荐系统的概念、架 构及其分类,详细分析了推荐系统中使用的各种技术以及一些关键性问题。 第3 章协同过滤及其在个性化推荐系统中的应用。介绍了推荐技术在整 个推荐系统中的重要地位,分析了推荐系统的实现,详细介绍了几种常用的 协同过滤算法一基于用户的协同过滤算法,基于项的协同过滤算法以及基于 聚类的协同过滤算法,最后,介绍了协同过滤存在的问题以及相应的解决办 法。 第4 章协同过滤算法的改进。介绍改进算法中涉及到的一些数学符号定 义,结合前一章给出的协同过滤中存在的问题,详细分析了算法改进的理 由,并给出了算法的具体实现细节。 第5 章实验设计与结果分析。对本文提到的基于奇异值分解的改进算法和 基于项的改进算法,分别设计相应的实验方案,给出实验结果并对实验结果 作出简要分析。 第6 章结论与展望。对本文所做的工作进行总结,指出存在不足之处,以 及对未来工作的展望。 4 北京交通人学硕十学位论文 1 5 本章小结 第1 章绪论 本章介绍了个性化推荐系统以及个性化推荐技术的研究背景、研究意义 和研究现状,阐明了论文的研究对象和所做的主要工作,并对论文的结构安 排进行了简要说明。 5 北京交通大学硕士学位论文 第2 章个性化推荐系统及其核心技术 第2 章个性化推荐系统及其核心技术 个性化推荐系统是在电子商务过程中针对不同的用户提供个性化的产品 和服务的应用系统。本章介绍个性化推荐系统的一些基本概念和研究内容, 以及主要的个性化推荐技术。 2 1 个性化推荐系统概述 2 1 1 个性化推荐系统的概念 个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m sf o re c o m m e r c e ) 正式的 定义是r e s n i c k & v a r i a n 在1 9 9 7 年给出的:“它是利用电子商务网站向客户提 供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客 户完成购买过程”【6 】,现在这个定义己被广泛引用。目前,个性化推荐系统 己广泛运用到各行业中,推荐对象包括书籍、音像、网页、文章、新闻等。 根据推荐对象的特点,目前主要有两种类型的个性化推荐系统,一种是 以网页为对象的个性化推荐系统,主要采用w e b 数据挖掘的方法与技术,为 用户推荐符合其兴趣爱好的嘲页;另一种是网上购物环境下的以商品为推荐 对象的个性化推荐系统,为用户推荐符合其兴趣爱好的各类产品,如各种书 籍、音像等,这种推荐系统是一般意义上的推荐系统。目前国内外对前者的 研究和应用较多,后者则很少,尤其是没有把个性化推荐与企业营销决策、 客户关系管理等结合起来研究。本文协同过滤算法的研究背景则是后者。 2 1 2 个性化推荐系统的研究内容 个性化推荐的研究有四方面的问题:首先,要解决推荐系统的信息来源 问题,推荐系统的基础是用户兴趣资料信息,如何在电子商务环境下尽可 能获得更多的用户相关信息,并以合适的形式表示,是进行个性化推荐的前 提;其次,要实现被顾客接受和认可的个性化推荐,设计准确、高效率的个 性化推荐算法是个性化推荐的核心问题;另外,要让推荐系统为广大用户所 接受,必须对推荐系统作出客观、综合的评价,尤其要注意从准确性、个性 化、安全性、用户满意度等多方面进行评价;推荐系统的应用是最终研究的 落脚点,推荐系统不仅能为用户提供完全个性化购物环境,更应为企业的销 售决策和客户关系管理提供支持。 6 北京交通人学硕士学位论文 第2 章个性化推荐系统及具核心技术 在电子商务环境下,用户信息的收集表示是电子商务个性化推荐的基 础。根据当前对电子商务环境下对用户信息收集表示的研究来看,主要着眼 于研究如何有效地收集能反映用户兴趣偏好的信息,以及如何通过网络数据 挖掘等方法更自动化地收集用户的隐式信息,解决用户信息收集过多的依赖 于显式评价数据的问题。 对推荐系统总体性能的评价是个性化推荐系统研究的重要组成部分。目 前大都只是采用准确率、召回率等评判尺度对推荐算法进行评价,并没有真 正意义上提升到对整个推荐系统进行的评价,尤其缺乏从个性化程度、持久 性程度、系统的安全性以及用户接受程度等多方面对推荐系统进行综合的评 价。 2 1 3 个性化推荐系统的经济效益 个性化推荐系统的最大优点在于它能收集用户兴趣资料并根据用户兴趣 偏好主动地为其作出个性化的推荐。也就是说,当用户每次输入用户名和密 码登录电子商务网站后,推荐系统就会按照当前用户偏好程度的高低推荐其 最喜爱的n 个产品,而且系统给出的推荐是实时更新的,即当系统中的产品库 和用户兴趣资料发生改变时,给出的推荐序列会自动改变,这就大大方便了 用户,也提高了企业的服务水平。 总体说来,个性化推荐系统的作用主要表现在以下几个方面:一方面, 使用户从无限的网络资源和商品世界中解脱出来,大大节约了用户采购商品 的时间和成本;与此同时,推荐系统的个性化推荐服务,提高了客户对电子 商务网站的忠诚度,将更多的电子商务网站浏览者转变为商品的购买者,从 而提高电子商务网站的交叉销售能力,为电子商务企业赢得了更多的发展机 会。 研究表明,在基于电子商务的销售行业使用个性化推荐系统后,能提高 销售额2 一8 ,尤其在书籍、电影、c d 音像、日用百货等产品相对较为低 廉并且商品种类繁多的行业,以及用户使用个性化推荐系统的程度较高的行 业,推荐系统能够大大提高企业的销售额。 个性化推荐系统和销售系统、供应链决策支持系统既相似又有不同。销 售系统是帮助销售人员如何把产品销售出去。推荐系统的最终目的是帮助用 户,辅助用户对购买什么产品做出决策。供应链决策支持系统是帮助生产者 决定什么时候生产多少产品,以及仓库应该存储多少各类产品,其最终目的 是为企业生产者服务的,同样,个性化推荐系统也是面向用户的系统。电子 商务个性化推荐有显著的经济效益,可以大大降低企业的t o c ( t o t a lo w n e r s h i p c o s t ) 。可以预见,在未来的几年内,我国电子商务个性化推荐将有相当广阔 7 北京交通人学硕七学位论文第2 章个性化推荐系统及其核心技术 的发展前景。 2 1 4 个性化推荐系统分类 电子商务推荐系统以用户为中心,为用户提供服务,可以根据用户获得 推荐系统推荐的自动化程度和持久性程度对电子商务推荐系统进行分类。 1 ) 自动化程度:用户为了得到推荐系统的推荐是否需要显式的输入信 息,自动化程度分为自动化方式和手工方式。 2 ) 持久性程度:电子商务推荐系统产生推荐是基于用户当前的单个会话 还是基于用户的多个会话。 根据用户获得推荐的自动化程度和持久性程度,可以将将电子商务推荐 系统分为非个性化电子商务推荐系统,基于属性的电子商务推荐系统,商品 相关性推荐系统和用户相关性推荐系统【7 1 。 1 ) 非个性化电子商务推荐系统( n o n p e r s o n a l i z e dr e c o m m e n d a t i o n ) :向当 前用户提供的推荐结果可能基于其他用户对商品的平均评价,或者基于电 子商务系统的销售排行,或者基于电子商务系统的编辑推荐。这种推荐技 术独立于各个用户,每个用户得到的推荐都是相同的。非个性化电子商 务推荐系统属于自动化方式推荐,产生的推荐基于用户的单个会话。典 型例子包括a m a z o n 提供的a v e r a g ec u s t o m e rr a t i n g 推荐,e b a y 提供的c u s t o m e r c o m m e n t s 推荐。 2 ) 基于属性的电子商务推荐系统( a t t r i b u t e d b a s e dr e c o m m e n d a t i o n ) - 根据 商品的属性特征向用户产生推荐列表,这种推荐系统类似于搜索引擎,用 户需要手工输入所需商品的属性特征。基于属性的电子商务推荐系统需要用 户显式输入商品的属性特征,因此属于手工方式推荐。产生的推荐可以基于 用户的单个会话,也可以基于用户的多个会话。典型例子包括a m a z o n 提供 的d e l i v e r s 推荐,r e e l 提供的m o v i em a p 推荐。 3 ) 商品相关性推荐系统( i t e m t o i t e mc o r r e l a t i o n ) :根据商品之间的相关 性向用户产生相应的推荐。商品相关性推荐系统可以是全自动化推荐系 统,也可以是全手工方式推荐系统。这种推荐技术一般是基于用户的单个 会话。典型例子如a m a z o n 提供的c u s t o m e r sw h ob o u g h tt h i sb o o ka l s ob o u g h t 推 荐,c d n o w 提供的a l b u ma d v i s o r 推荐。 4 ) 用户相关性推荐系统( p e o p l e t o p e o p l ec o r r e l a t i o n ) :又称为协同过滤推荐 系统,这种推荐系统首先搜索当前用户的最近邻居,然后根据最近邻居的购 买历史或评分信息向当前用户产生推荐。用户相关推荐一般不需要用户显式 输入信息。产生的推荐一般是基于用户的多个会话。典型例子包括a m a z o n 提 8 北京交通人学硕士学位论文第2 章个性化推荐系统及其核心技术 供的b o o km a t c h e r 推荐,m o v i ef i n d e r 提供的w ep r e d i c t 推荐。 2 2 个性化推荐系统的结构 一般,个性化推荐系统主要可以分为三个模块:用户输入功能( i n p u t f u n c t i o n a l ) 模块、推荐方法( r e c o m m e n d a t i o nm e t h o d ) 模块、输出功能( o u t p u t f u n c t i o n a l ) 模块。 2 2 1 个性化推荐系统的输入 不同类型的电子商务推荐系统,其输入信息也不相同。不同电子商务推 荐系统根据不同的输入信息产生不同类型的推荐。电子商务推荐系统的输入 可以是用户当前的行为,也可以是用户访问过程中的历史行为。在大型的电 子商务系统中,为了产生高质量的推荐,推荐系统可能需要多种类型的输入 信息。 推荐系统的输入包括多种形式,主要包括: 1 ) 隐式浏览输入:将用户访问电子商务w e b 站点的浏览行为作为推荐系统 的输入,用户的浏览行为与访问一般的w e b 站点没有区别。并不知道电子商务 推荐系统的存在。用户当前正在浏览的商品、用户购物篮中选择的商品、用 户的浏览路径等都可以作为隐式浏览输入信息。 2 ) 显式浏览输入:也是将用户的浏览行为作为电子商务推荐系统的输 入,但与隐式浏览输入不同,用户的显式浏览输入是有目的的向电子商务推 荐系统提供自己的兴趣爱好。例如,电子商务系统提供一系列热门商品供用 户选择,用户只选择浏览自己感兴趣的商品列表,电子商务根据用户的浏览 行为向用户提供个性化的推荐服务。 3 ) 关键字和项属性输入:用户在搜索引擎中输入关键字作为推荐系统的 输入,或者将用户当前正在浏览的商品类别作为推荐系统的输入。这种类型 的输入不同于用户随意的浏览行为,用户输入的目的就是在电子商务系统中 搜索自己需要的商品。 4 ) 用户评分输入:将用户对商品的数值评分数据作为推荐系统的输入。 电子商务推荐系统列出一系列商品让用户评分,用户的评分可以是一个数 值,数值大小表示用户对商品的喜好程度,也可以是一个布尔值,o 代表不喜 欢,l 代表喜欢。用户提供的评分数据使得电子商务推荐系统可以为用户提供 个性化的推荐服务。 5 ) 用户文本评价输入:用户对已经购买的商品或自己熟悉的商品以文本 9 北京交通人学硕七学位论文 第2 章个性化推荐系统及其核心技术 的形式进行个人评价,推荐系统本身并不能判断这些评价的好坏。其他用户 浏览该商品时,可以看到用户对商品的文本评价信息。 6 ) 编辑推荐输入:将领域专家对特定商品的评价作为推荐系统的输入, 领域专家对商品的性能特点进行全面详细的介绍,用户通过专家的专业介 绍,可以对自己并不熟悉的商品加深认识,从而决定是否购买该商品。 7 ) 用户购买历史输入:推荐系统将用户的购买历史作为隐式评分数据。 一旦用户购买了特定商品,则认为用户喜欢该商品。推荐系统根据用户的 购买历史产生相应的推荐。但是用户购买了某件商品并不代表用户喜欢该商 品,所以在精确的推荐系统中,用户可以对购买的商品进行重新评分,从而 使推荐系统产生更精确的推荐i 2 2 2 个性化推荐系统的输出 不同类型的推荐系统,其推荐结果的输出形式也各不相同,大型电子商 务系统可以同时向用户产生多种不同形式的输出。 推荐系统的输出形式主要包括: 1 ) 相关商品输出:推荐系统根据用户表现出来的行为特征或电子商务系 统的销售情况向用户产生商品推荐,这种方式是电子商务推荐系统中最为普 遍的一种输出。相关商品输出可以基于简单的销售排行向用户推荐热门商品, 也可以基于对用户的行为特征进行深入分析,发现用户的购买行为模式,从 而产生个性化的推荐。 2 ) 个体文本评价输出:电子商务推荐系统向目标用户提供其他用户对商 品的文本评价信息个体文本评价一般是非个性化的,对每个商品而言,所有 用户得到的个体文本评价均相同。 3 ) 个体评分输出:向目标用户提供其他用户对商品的数值评分信息。个 体评分输出没有大量的文本描述信息,因此更加简洁明了。个体评分输出比 较适合于个体数值评分数据比较少的场合。 4 ) 平均数值评分输出:电子商务推荐系统向用户提供其他用户对商品数 值评分信息的平均值。这种输出形式具有简洁明了的优点,用户可以立即获 得对该商品的总体评价。 5 ) 电子邮件输出:电子商务推荐系统通过电子邮件的形式向用户提供商 品的最新信息。这种输出形式可以吸引用户再次访问电子商务系统,从而达 到保留用户,防止用户流失的目的。 6 ) 编辑推荐输出:向用户提供领域专家对商品的专业介绍,用户通过专 家的专业介绍可以对自己并不熟悉的商品加深认识,了解商品的性能特点, 1 0 北京交通大学硕士学位论文 从而决定是否购买该商品。 第2 章个性化推荐系统及其核心技术 2 2 3 推荐系统的图形化用户界面 电子商务推荐系统向客户进行推荐的方式有许多种,它可以是建议或者 通过计算得到的预测,也可以是其他客户对产品的个人评价,评论等,而选 择哪一种方式主要取决于该电子商务鹚站希望客户如何使用推荐。 按照推荐系统的界面表现形式主要分为以下几种: 1 ) 浏览:客户提出对特定商品的查询要求,推荐系统根据查询要求返回 高质量的推荐。 2 ) 相似项:推荐系统根据客户购物篮中的商品或客户感兴趣的商品推荐 类似的商品,为客户提供个性化的推荐。 3 ) 电子邮件:推荐系统通过电子邮件的方式通知客户可能感兴趣的商品 信息,使嘲站与客户保持联系,提高客户对网站的信任度,从而增加对该嘲 站的访问量。 4 ) 评论信息:推荐系统向客户提供其他客户对相应产品的评论信息,客 户根据他人对产品好坏的评价,来做出自己的判断。 5 ) 等级评价:推荐系统向客户提供其他客户对相应产品的等级评价,而 不是产品的评论信息,通过对等级评价的相应统计和分析,较直观地表示出 其他客户对产品的观点或看法,使客户易于接受该种推荐。 6 ) t o p n :推荐系统根据客户的喜好向客户推荐最可能吸引他的n 件产 品,一方面可以把网站的浏览者转变为客户,另一方面帮助客户决定是否购 买自己最初感到犹豫不决的产品。 7 ) 搜索结果排列:推荐系统列出所有的搜索结果,并将搜索结果按照客 户的兴趣度降序排列。 2 3 主要的个性化推荐技术 2 3 1 贝叶斯网络 贝叶斯网络是基于概率分析、图论的一种不确定性知识的表达和推理模 型。从直观上讲,在贝叶斯网络中,用每一个节点表示一个变量,即一个事 件;各变量之问的弧表示事件发生的直接因果关系。贝叶斯嘲络的建模目的 是对所包含的定性知识和定量知识进行结构上的描述,并为下一步推理提供 依据。从原始数据中构造贝叶斯网络模型,实际上就是对原始数据进行数据 北京交遁大学硕+ 学位论文 第2 章个性化推荐系统及其核心技术 挖掘:即先找出最符合原始数据的定性的网络图关系,然后根据网络图中的 因果关系,计算节点问的条件概率。 推荐系统中应用的贝叶斯网络技术利用训练集创建相应的模型,其中模 型用决策树表示,节点和边表示客户信息。模型的建立可以离线( o f l t i n e ) 进 行,即脱离系统的网络运行环境,时间一般需要数小时或数天,而由此得到 的模型可以非常小,对模型的使用非常快。但随着客户的不断增多以及客户 兴趣爱好的变化,即数据集的变化,贝叶斯网络的学习过程也要重新进行, 因此这种方法适合客户的兴趣爱好变化比较慢的场合。 2 3 2 关联规则 在知识发现( k d d ) 领域,在电子商务中常用的数据挖掘技术就是在顾客购 买的不同商品之间发现关联规则,产生推荐。关联规则挖掘的典型例子是购 物篮分析。该过程通过发现顾客放入其购物篮中不同商品之问的联系,分析 顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发 现可以帮助零售商制定营销策略。关联规则的发现算法有很多,如:n p r i o r i , f p - t r e e ,h p , a p r i o f i t l d 等。 基于关联规则的推荐算法就是根据关联规则发现算法以及客户当前的购 买行为向客户产生推荐。该算法常被用于产生t o p n 推荐。在关联规则推荐技 术中,关联规则的发现是最耗时的,也是算法的瓶颈,因此可以考虑离线进 行。 2 3 3 聚类 聚类就是将数据对象分组成为多个类或簇( c l u s t e r ) ,在同一个簇中的对象 具有较高的相似度,而不同簇中的对象差别较大。通过聚类,人们能够识别 数据对象密集的和稀疏的区域,因而发现全局的对象分布模式,以及数据属 性之间的相互关系。在商务上,聚类能帮助市场分析人员从客户信息库中发 现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 为了便于寻找目标用户的相似用户,聚类模型首先将现有的用户按照一 定的方法分成为多个类或簇,这样具有相似爱好的客户分配到相同的簇中, 根据目标用户所在簇的对某商品的评价得到目标用户对该商品的评价,有些 算法将目标用户分配到多个簇中,根据与所在簇的关系强度进行综合考虑计 算。由于对大型数据集产生最佳的聚类是不现实的,因此在实际应用过程中 使用贪婪聚类生成的方法,这些方法首先形成各个分类,每个分类常常仅包 含一个任意选择的用户,然后反复地将剩余用户分配到不同的簇中,这期间 可能产生新的簇,也可能将不同的簇进行合并等。 1 2 北京交通大学颀七学位论文 第2 章个性化推荐系统及其核心技术 由于聚类模型只是将目标用户与一定数量的簇进行比较而不是整个用户 集,因此在扩展性和实现性能上比传统的协同过滤技术略显优势,而且聚类 计算可以离线进行。但是在推荐质量上并不是很高,如当某客户处于一个聚 类的边缘时,则对该客户的推荐精度比较低。为了能够更好的给目标用户进 行推荐,需要将其分配到与他具有较高相似度的用户所在簇或类中,这样对 簇的要求提高了,簇的数量也会有大的增加,因此在线进行目标用户归类的 代价与传统协同过滤技术中寻找相似用户的代价也就不分上下了。 2 3 4 协同过滤 协同过滤技术是推荐系统技术中应用最早和最为成功的技术之一。它一 般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利 用目标用户的最近邻居对商品评价的加权平均值来预测他对特定项( 商品) 的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。 基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而 且是自动的( 所谓自动即用户获得推荐是系统从用户购买模式或点击行为等 隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些 调查表格等) 。目前有许多网站采用了该技术的推荐系统如:互联网最大的 书店一a m a z o n c o r n ,互联网最大的c d 商店- - c d n o w c o m ,互联网上最大访问 量之一的电影网沾一m o v i e f i n d e r c o m 等。由微软研究院开发的协同过滤工具 已被集成在微软的c o m m e r c es e r v e r 产品中,并被许多站点使用。 2 4 本章小结 本章从整体上介绍了个性化推荐系统的概念、类型、推荐形式、组成和 作用,个性化推荐系统的研究内容和主要的个性化推荐技术。 1 3 北京交通大学硕士学位论文第3 章协同过滤及其在个性化推荐系统中的应用 第3 章协同过滤及其在个性化推荐系统中的应用 3 1协同过滤 3 1 1 协同过滤的优缺点 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 是基于这样的假设:为一用户找到他真正感 兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他 们感兴趣的内容推荐给此用户。其基本思想非常易于理解,在日常生活中, 我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运 用到个性化推荐系统中来,基于其他用户对某一内容的评价来向目标用户进 行推荐。 协同过滤的出发点是:兴趣相近的用户可能会对同样的东西感兴趣。所 以,只要维护关于用户喜好的数据,从中分析得出具有相似品味的用户,然 后就可以根据相似用户的意见来向其进行推荐。 另一种可能的出发点是:用户可能偏爱与其已

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论