




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网的普及和电子商务应用的广泛深入,人们在享受网上购物便捷 性的同时也陷入了信息过载的困境,用户在大量的产品信息中难以找到自己需 要的商品。因此,电子商务推荐系统应运而生。推荐系统在电子商务平台上扮 演销售人员的角色,向用户推荐商品,帮助用户找到所需商品,从而顺利完成 购买过程。电子商务推荐系统在应用中具有良好的发展和应用前景,逐渐成为 一个重要研究内容,得到了越来越多的关注。 本文对电子商务推荐系统进行了较深入的研究,详细分析了各种个性化推 荐技术在电子商务推荐领域的应用现状和前景。协同过滤技术是目前推荐系统 中应用最早和最为成功的技术之一,其发展面临着两个三个主要挑战:提高协 同过滤算法的可扩展性;降低推荐系统数据集的稀疏性;提高推荐质量。 针对这些问题本文提出一个改进的协同过滤算法一基于用户和项目双聚类 的协同过滤推荐算法,此算法拥有基于用户聚类的协同过滤算法和基于项目聚 类的协同过滤算法的优点,并摒弃了其缺点。 关键词:协同过滤;推荐系统;聚类;数据挖掘;电子商务 a b s t r a c t w i t ht h ep o p u l 撕t ) ro ft h ei n t e r n e ta n de c o m m e r c ea p p l i c a t i o n , c o n s u m e r s e n j o yt h ec o n v e n i e n c eo fs h o p p i n go nt h ei n t e r n e t ; o n 廿l eo t h e rh a n d t h e yh a v e b e e ni nt r o u b l eo fi n f o r m a t i o no v e r l o a d i ti sd i m c u l tf o rt h e mt of i n dt h e i rn e e d e d p r o d u c t sw i t h i nam a s so fp r o d u c ti n f o r m a t i o n t h e r e f o r e 。t h er e c o m m e n d a t i o n s y s t e mi ne - c o m m e r c ec a m ei n t ob e i n g r e c o m m e n d e ds y s t e mi ne c o m m e r c e p l a t f o r mp l a y st h er o l eo fs a l e ss t a f f , r e c o m m e n d sp r o d u c t st ou s e r st oh e i pu s e r s f i n dt h eg o o d s ,w h i c hs u c c e s s f u l l yc o m p l e t e st h ep u r c h a s ep r o c e s s r e c o m m e n d e d s y s t e mi ne - c o m m e r c eh a sg o o dp r o s p e c t sf o rt h ed e v e l o p m e n ta n da p p l i c a t i o n , g r a d u a l l yb e c o m ea l li m p o r t a n tr e s e a r c h ,w h i c hh a sb e e nm o r ea n dm o r ea t t e n t i o n i nt h i sp a p e r ,w em a d ea d e e ps t u d yo fr e c o m m e n d a t i o ns y s t e mi ne c o m m e r c e , a n dt h e na n a l y z e dt h es t a t u sa n dp r o s p e c t so ft 1 1 em a i n s t r e a m p e r s o n a l i z e d r e c o m m e n d a t i o nt e c h n o l o g i e si ne c o m m e r c e c o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g yi s o n eo ft h em a i nt e c h n o l o g i e sf o rt h er e c o m m e n d a t i o ns y s t e mi ne c o m m e r c ew h i c h h a sa p p l i c a t i o no ft h ee a r l i e s ta n di sm o s ts u c c e s s f u l h o w e v e r , i th a st w op r o b l e m s : t h el a c ko fa l g o r i t h ms e a l a b i l i t ya n dt h es p a r s i t yo fd a t a s e t i no r d e rt os o l v et h e s ep r o b l e m s ,w ed e v e l o p e dah y b r i dr e c o m m e n d a t i o n s y s t e mc a l l e dc o l l a b o r a t i v ef i l t e r i n g & u s e r - c l u s t e r i n ga n di t e m c l u s t e r i n gb a s e d r e c o m m e n d a t i o ns y s t e m t h es i m u l a t i o nr e s u l ms h o wt 1 1 a to u rm e t h o di sm o r e e f f e c t i v et h a nt r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m s k e yw o r d s :c o l l a b o r a t i v ef i l t e r i n g ;r e c o m m e n d a t i o ns y s t e m ;c l u s t e r i n g ; d a t am i n i n g ;e c o m m e r c e l i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工 作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个 人和集体,均已在文中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 日期:群:互:! 主 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复 印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以采用影 印、缩印或其它复制手段保存、汇编本学位论文。同意将本学位论文收录到 中国优秀博硕士学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂 志社) 、中国学位论文全文数据库( 中国科学技术信息研究所) 等数据库 中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 一签器擎乡p 币签嘉 日 期:必鸳:五,乡 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 1 1 研究背景及意义 第一章绪论 电子商务规模的迅速增长在给用户带来更多选择机会的同时,也使得用户 搜索所需商品信息的成本越来越高,用户经常会迷失在大量的商品信息空间中, 出现了“信息超载 ,即用户在找到自己需要的商品之前,必须浏览大量的无关 信息,增加了用户购买所需商品的难度。信息超载的问题出现后,电子商务网 站此时需要考虑的应该不再仅仅是提供更多的产品选择,同样需要去思考以何 种方式来提供这些选择。在这种背景下,推荐系统应运而生,其模拟商店销售 人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。 推荐系统主要通过如下三种途径提高电子商务系统的销售能力吲: a ) 将电子商务系统的浏览者转变为购买者:电子商务系统的访问者在浏览 过程中经常并没有购买欲望,电子商务推荐系统能够向访问者推荐他们感兴趣 的商品,从而完成购买过程。 b ) 提高电子商务系统的交叉销售:电子商务推荐系统在用户购买过程中向 用户提供其它有价值的商品推荐,用户能够从提供的推荐列表中购买自己确实 需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。 c ) 保留用户:与传统的商务模式相比,电子商务系统使得用户拥有越来越 多的选择,用户更换商家极其方便,只需要一两次鼠标的点击就可以在不同电 子商务系统之间跳转。电子商务推荐系统分析用户的购买习惯,根据用户需求 向用户提供有价值的商品推荐。如果电子商务推荐系统的推荐质量很高,那么 用户会对该电子商务推荐系统产生信赖。因此电子商务推荐系统不仅能要为用 户提供个性化的推荐服务,而且能与用户建立长期稳定的关系,从而能有效保 留用户,防止用户流失。 电子商务推荐系统具有良好的发展和应用前景。目前,几乎所有大型的电 子商务系统,都不同程度的使用了各种形式的推荐系统。各种提供个性化服务 的w e b 站点也需要推荐系统的大力支持。在日趋激烈的竞争环境下,电子商务 推荐系统能有效保留用户,提高电子商务系统的销售。成功的电子商务推荐系 统将会产生巨大的经济效益,同时随着电子商务系统的进一步发展,电子商务推 东北师范大学硕士学位论文 荐系统也面临一系列挑战,因此电子商务推荐系统成为了学术界和业界研究的 热点。 1 2 国内外研究现状 1 2 1 主要研究内容 目前学术界和业界对电子商务推荐系统的研究内容和方向主要包括阳1 : a ) 推荐技术研究。目前主要的推荐技术包括基于规则的技术、基于信息过 滤的推荐技术、基于效用的推荐技术、基于用户人口统计信息的推荐技术以及 组合的推荐技术,协同过滤推荐技术是当前研究的主流。 b ) 推荐系统的实时性研究。在大型的电子商务推荐系统中,系统的伸缩能 力和实时性要求越来越难以保证。如何有效满足系统实时性要求得到了越来越 多研究者的关注。 c ) 推荐质量研究。在大型电子商务系统中,用户评分数据极端稀疏。用户 评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质 量难以保证。 d ) 多种数据多种技术的集成。当前大部分的电子商务推荐系统都只利用了 一部分可用信息来产生推荐。随着研究的深入,新型电子商务推荐系统应该利 用尽可能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供 更加有效的推荐服务。 e ) 数据挖掘技术在推荐系统中的应用。随着研究的深入,各种数据挖掘技 术( 主要包括关联规则挖掘、序列模式挖掘、聚类分析、b a y e s i a r i 分类等) 在推 荐系统中得到了广泛的应用。基于w e b 挖掘的推荐系统得到了越来越多研究者 的关注。 f ) 用户隐私保护研究。由于推荐系统需要分析用户购买习惯和兴趣爱好, 涉及到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得作进 一步深入的研究。 g ) 推荐系统可视化研究。推荐系统的目的是为用户提供服务,因此必须为 用户提供友好的可视化服务界面。主要包括推荐结果可视化研究和推荐结果解 释研究等方面的内容。 1 2 2 推荐技术研究现状 推荐技术是电子商务推荐系统中最核心、最关键的部分,它在很大程度上 决定了推荐系统性能的优劣。目前,国内外研究者对电子商务推荐系统的研究 往往都是从推荐技术入手的。本文对文献中已有的推荐技术进行了总结和归纳, 得出主要有以下几种推荐技术:基于规则的推荐技术、基于信息过滤的推荐技 2 东北师范大学硕士学位论文 术、基于用户统计信息的推荐技术、基于效用的推荐技术、基于组合的推荐技 术。基于信息过滤的推荐技术研究较多,可以分为基于内容过滤的技术和基于 协同过滤的技术。基于协同过滤的技术是当前主流。 基于规则的推荐技术构建的推荐系统的核心部分为系统的规则库。规则库 里定义了许多的规则,一个规则本质上是一个i f - t h e n 语句。系统根据规则库中 的规则以及用户访问系统的会话数据来决定如何向其提供推荐服务。目前,主 要有手工决策方式和关联规则方式两种生成规则的技术方式。手工决策技术是 系统管理员根据用户统计数、会话历史,以手工的方式来制定若干规则,系统 根据这些规则为特定的用户提供特定的资源内容。基于关联规则的推荐技术算 法成熟,自动化处理程度高,在电子商务推荐系统中得到了广泛的应用。 基于内容过滤的推荐技术口刊源于信息检索领域的信息过滤技术,它通过计 算资源( 商品、电影、音乐、文本等) 与资源之间、资源与用户兴趣之间的相似 程度来向用户推荐资源。目前基于内容的过滤技术较多的应用于可计算的文本 领域,在电子商务推荐领域的应用较少。基于内容过滤的推荐技术在文本和网 页推荐领域得到了学者们广泛的关注和研究。 基于协同过滤的推荐技术n 卜矧是目前研究较多和使用最多的个性化推荐技 术,推荐的个性化程度高、效果明显,特别适合音乐、电影、图书等领域的非 结构化复杂对象的推荐。 电子商务推荐技术已经成为电子商务推荐系统研究领域的热点问题,研究 者对各种推荐技术在电子商务领域的应用进行了许多有益的探索,形成了一定 的知识积累,并且一些较为成熟的推荐技术己经得到了商业化的运用。相比于 基于内容过滤的推荐技术和基于规则的推荐技术,基于协同过滤的推荐技术在 电子商务推荐领域有着更为广阔的应用空间。 1 2 3 协同过滤推荐技术研究现状 协同过滤技术在电子商务推荐领域得到了广泛的研究和应用,但是随着电 子商务网站规模的增长,电子商务网站的用户数量和商品数量成几何级数增长。 协同过滤技术遇到了前所未有的挑战。主要包括数据的稀疏性问题、推荐算法 的可扩展性问题等。 a ) 数据稀疏性问题。解决数据稀疏性的方法可以分为两大类,一类是在数 据稀疏性不改变的前提下提高算法的精度,另外一类是采用一些可行的方法来 减小数据集的稀疏性。现有的解决方法主要有基于传递关系汹3 、信任度传播幽3 、 社会网络嘲、矩阵聚类啪3 等。 。 b ) 扩展性问题心7 删。 最初的协同过滤算法是基于全局数据的算法,算法在为每一个用户产生推 荐时都需要将整个用户评分数据集调入内存中,算法基于整个数据集产生推荐 3 东北师范大学硕士学位论文 结果,因此,协同过滤算法有着优秀的推荐精度,同时能将用户兴趣的变化及 时反映到推荐结果中。但是,随着电子商务网站规模的增长,全局算法面临着 扩展性的问题。为了克服基于全局的协同过滤算法的在扩展性上的缺陷,研究 者结合数据挖掘等方面的技术来对其进行改进,提出了基于模型的过滤方式。 基于模型的协同过滤方法,主要思想是将用户的历史记录,项目的属性或评分 等信息,通过统计分析或机器学习等数据挖掘方法来构建出与用户集合或项目 集合有关的特征模型,进而利用此模型来产生推荐。模型的建立一般采用离线 的方式,可加快推荐反馈的时间。目前用于协同过滤中模型构建的方法很多, 典型的包括聚类方法、关联规则法、贝叶斯( b a y e s i a n ) 网络等。 1 3 本文研究内容及结构安排 1 3 1 研究内容 本文通过研究己有的协同过滤技术在电子商务推荐系统应用中面临的问题 和挑战,以及现有的解决算法( 基于用户聚类的协同过滤和基于项目聚类的协 同过滤) ,提出一种基于用户和项目双聚类的协同过滤推荐算法。该算法利用基 于项目聚类中的基于项目协同过滤有效地解决数据稀疏性问题;通过用户和项 目双聚类,缩小比较相似性空间,提高算法的可扩展性;同时考虑用户和项目 之间的类别相似性,更大程度上提高系统推荐的质量。 1 3 2 结构安排 本文的章节安排如下: 第1 章,绪论。首先介绍本文的研究背景与意义;接着介绍了电子商务推 荐系统的研究内容及其推荐技术以及协同过滤技术的研究现状;最后,给出本 文的主要研究内容和结构安排。 第2 章,协同过滤和电子商务推荐系统。首先简要介绍电子商务推荐系统 的相关概念,对电子商务推荐系统的体系结构进行深入研究,深入分析目前主 流的推荐技术在电子商务推荐领域的应用前景;然后,介绍协同过滤,阐述协 同过滤的相关概念和实现过程,在此基础上,深入分析传统的协同过滤算法( 基 于项目的协同过滤、基于用户的协同过滤) ,总结它们在电子商务推荐领域存在 的问题,接着介绍两种已存在解决方法( 基于用户聚类协同过滤、基于项目聚类 协同过滤) ,指出了它们的优点以及存在的不足。 第3 章,基于用户和项目双聚类的协同过滤推荐算法。对传统的协同过滤 推荐算法、数据挖掘中的聚类技术以及基于用户聚类协同过滤算法和基于项目 的协同过滤算法进行了深入的分析,提出一种基于用户和项目双聚类的协同过 滤推荐算法。 4 东北师范大学硕士学位论文 第4 章,实验分析。本章实现了一个模拟网上书店推荐图书的程序,通过 实验结果比较了传统的协同过滤、基于用户聚类协同过滤、基于项目聚类协同 过滤和本文提出的基于用户和项目双聚类的协同推荐算法的推荐质量。 第5 章,总结与展望。本章总结了本文的主要工作和研究成果,指出了研 究局限性和将来进一步的工作。 5 东北师范大学硕士学位论文 第二章协同过滤和电子商务推荐系统 2 1 电子商务推荐系统概述 2 1 1 电子商务推荐系统概念 电子商务推荐系统( r e c o m m e n d a t i o ns y s t e m sf o re c o m m e r c e ) 正式的定义 是r e s n i c k & v a r i a n 在1 9 9 7 年给出的:“它是利用电子商务网站向客户提供商品 信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购 买过程,现在这个定义己被广泛引用。 电子商务和推荐系统是相辅相成的。一方面,电子商务系统需要推荐系统 的大力支持帮助用户找到所需商品。另一方面,电子商务系统自身的特点也有 利于推荐系统的顺利实施,主要原因包括: a ) 丰富的数据:电子商务环境收集的各种数据比较丰富,如用户注册数据、 用户交易数据、用户评分数据、用户购物篮信息、用户浏览数据等。丰富的数 据为建立多种推荐模型,产生高质量的推荐提供了可能。 b ) 电子化的数据收集:电子商务环境中的各种数据通过电子化方式收集, 减小了手工方式收集数据可能出现的人工误差,噪音数据大大减少,各种数据 的可信度比较高,数据预处理比较简单。 c ) 易于对推荐效果进行评估:在电子商务中实施推荐系统的投资回报率易 于通过电子商务w e b 站点访问量的增加、电子商务系统销售额的增加等指标直 接进行评估。 2 1 2 电子商务推荐系统作用。 电子商务推荐系统的作用主要体现在如下三个方面( 详见第一章) : a ) 将电子商务系统的浏览者转变为购买者。 b ) 提高电子商务系统的交叉销售。 c ) 保留用户。 2 1 3 电子商务推荐系统分类 不同电子商务推荐系统的个性化程度各不相同,根据电子商务推荐系统的 个性化程度,可以将电子商务推荐系统分为如下三类妇3 : 6 东北师范大学硕士学位论文 1 ) 非个性化推荐系统:对每个用户产生的推荐都是相同的。这种推荐系统 可以基于站点工作人员的手工推荐,或者基于统计分析技术等。我们经常见到 的一些站点的销售排行榜、站长推荐、客户评论等,都属于非个性化电子商务 推荐系统。 2 ) 半个性化推荐系统:根据用户当前的行为产生相应的推荐。这种推荐系 统根据用户当前的浏览行为或用户当前的购物篮信息产生推荐结果,一般使用 关联规则等技术,不同用户得到的推荐结果各不相同。半个性化推荐系统的个 性化程度比非个性化推荐系统要高。 3 ) 完全个性化推荐系统:推荐系统保存用户的各种历史信息,如历史浏览 信息、历史评分信息、用户注册信息等。根据这些历史信息,结合用户当前的 行为,以及其他用户的历史信息,为用户产生完全个性化的推荐服务。这种推 荐系统一般只能对注册用户提供服务,个性化程度最高。 2 2 电子商务推荐系统结构 电子商务推荐系统的体系结构如图2 - 1 所示,主要由三部分构成:输入功 能模块、推荐处理模块与输出功能模块。 2 2 1 输入功能模块 电子商务推荐系统的输入功能模块是推荐系统和用户交互的窗口,承担着 收集用户行为偏好数据的重要任务。该模块通过给用户提供一定的界面和方式, 使用户能够方便的使用电子商务网站,同时也必须方便推荐系统收集用户的行 为偏好数据。收集用户行为偏好数据的方式主要包括以下几种方式: a ) 隐性浏览收集方式 在不需要客户主动配合的条件下,系统通过各种技术手段将客户的行为偏 好数据收集起来。例如,客户对网站网页的点击情况等,该收集方式是在客户 不知情且不需要客户主动配合的情况下完成的,因而不会打扰客户的在网站上 的购物过程,具有很好的客户友善性,但是同时也会触及到隐私保护的问题。 b ) 显性收集方式 推荐系统对客户行为偏好数据的收集需要客户的主动配合。在这种方式下, 推荐系统需要通过搭建各种平台来让客户主动向其提供自己的喜好。例如,客 户对某产品的等级评价等。 c ) 信息检索接口 推荐系统通过向用户提供信息检索接口,用户可以输入自己感兴趣的主题 的关键词或项目属性,来获得系统给出的推荐。在此过程中,系统收集到了用 7 东北师范大学硕士学位论文 户的行为偏好信息。 d ) 购物篮数据 指根据客户过去的购买记录,来收集用户的行为偏好信息。 里:里= = = = = l = = = = = = := = = = = j = = := = i 国国圆圆i 图2 - 1 电子商务推荐系统结构图 : 输 : 出 一卜一一一一一 i i i : 推 : 荐 : 处 : 理 i l l i 卜一一一 l i i : 输 : 入 i l l i i i i 2 2 2 推荐处理模块 推荐处理模块是电子商务推荐系统的核心部分。按照推荐技术的不同,推 荐处理的过程和方法也不同。一般情况下,一个完整的电子商务推荐系统的推 荐处理过程包括以下四个重要的方面:用户兴趣建模、推荐策略库生成、用户 需求分析和在线推荐。 a ) 用户兴趣建模 用户兴趣模型的质量直接关系到电子商务推荐服务的质量,只有当用户的 兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”的时候了,才能 实现理想的个性化推荐服务。用户兴趣模型不仅仅是对用户兴趣的准确描述, 作为以计算机平台为依托的电子商务推荐系统,可计算性是它对用户兴趣模型 的基本要求。也就是说,用户兴趣模型不是对用户个体的一般性简单描述,而 是一种面向算法的,具有特定数据结构的形式化的用户兴趣描述。对于用户兴 趣模型,可以定义如下:用户兴趣模型是推荐系统中的一个模块,是在计算机 中建立的对用户兴趣特征的描述,能获取、表示、存储和修改用户兴趣偏好, 能进行推理,对用户进行分类和识别,帮助系统更好的理解用户特征和类别, 8 东北师范大学硕士学位论文 理解用户的需求和任务,从而更好的实现用户所需要的功能。而用户兴趣建模 是从有关用户兴趣和行为的信息( 如评价内容、浏览行为、购买行为、背景知识 等) 中归纳出可计算的用户兴趣表示的过程。 由此可见,用户兴趣建模是电子商务推荐系统的基础和核心要素之一,是 开展个性化推荐处理的前提条件,其捕捉用户真实偏好的能力在很大程度上决 定了推荐的成功与否。 b ) 推荐策略库构建 推荐策略库是一个逻辑的概念,它是多种推荐算法的集合。一个电子商务 推荐系统往往涉及到多种推荐算法,推荐引擎根据不同的用户推荐需求实时进 行推荐算法的选择。因此可以说,推荐策略库是推荐处理模块的核心,它的所 拥有的推荐算法决定了整个推荐系统的推荐处理方式和推荐质量。 推荐策略库的构建是推荐处理模块的核心工作,同时也是整个推荐系统的 基础工作之一。它研究的主要问题是配置怎样的推荐算法以及如何实现,本文 接下来的篇幅将会就推荐算法进行详细的研究。 c ) 用户需求分析 用户需求分析主要是指通过实时捕捉用户当前的行为数据,并且结合用户 历史的行为数据对用户潜在的推荐需求进行分析,准确把握推荐方向。 d ) 在线推荐 在线推荐是推荐引擎根据用户需求分析模块得到的用户实时的推荐需求, 利用推荐策略库中预先配置的推荐算法给用户推荐资源的过程。 2 2 3 输出模块 输出功能模块的主要任务是向客户展示推荐结果。推荐系统在获得用户行 为偏好信息后,经过特定的推荐算法的运算后向客户进行推荐的方式有许多种。 它可以是建议或者通过计算得到的预测,也可以是其他客户对产品的个人评价、 评论等,而选择哪一种方式主要取决于该电子商务网站希望客户如何使用推荐。 a ) 浏览( b r o w s i n g ) :客户提出对特定商品的查询要求,推荐系统根据查询 要求返回高质量的推荐。 b ) 相似项( s i m i l a ri t e m ) :推荐系统根据客户购物篮中的商品或客户感兴趣 的商品推荐类似的商品,为客户提供个性化的推荐。 c ) 电子邮件( e m a i l ) :推荐系统通过电子邮件的方式通知客户可能感兴趣的 商品信息,使网站与客户保持联系,提高客户对网站的信任度,从而使增加对 该网站的访问量。 d ) 评论信息( t e x t c o m m e n t s ) :推荐系统向客户提供其他客户对相应产品的 评论信息,客户根据他人对产品好坏的评价,来做出自己的判断。 9 东北师范大学硕士学位论文 e ) 等级评价( a v e r a g er a t i n g ) :推荐系统向客户提供其他客户对相应产品的 等级评价,而不是产品的评论信息,通过对等级评价的相应统计和分析,较直 观地表示出其他客户对产品的观点或看法,使客户易于接受该种推荐。 f ) t o p - n :推荐系统根据客户的喜好向客户推荐最可能吸引他的n 件产品, 一方面可以把网站的浏览者转变为客户,另一方面帮助客户决定是否购买自己 最初感到犹豫不决的产品。 g ) o r d e r e ds e a r c hr e s u l t s :推荐系统列出所有的搜索结果,并将搜索结果按 照客户的兴趣度降序排列。 2 3 电子商务推荐系统中的推荐技术 推荐技术是电子商务推荐系统中最核心、最关键的部分,它在很大程度上 决定了推荐系统性能的优劣。 2 3 1 基于规则的推荐技术 基于规则的推荐构建的推荐系统的核心部分为系统的规则库。规则库里定 义了许多的规则,一个规则本质上是一个i f - t h e n 语句。系统根据规则库中的规 则以及用户访问系统的会话数据来决定如何向其提供推荐服务。关联规则方式 采用数据挖掘技术从用户访问数据中挖掘出满足支持度和置信度要求的关联规 则,系统根据挖掘出来的规则对用户进行推荐。 2 3 2 基于内容过滤的推荐技术 基于内容过滤的推荐源于信息检索领域的信息过滤技术,它通过计算资源 ( 商品、电影、音乐、文本等) 与资源之间、资源与用户兴趣之间的相似程度来 向用户推荐资源。基于内容过滤的推荐技术在文本和网页推荐领域得到了学者 们广泛的关注和研究,在电子商务推荐领域的应用较少。 2 3 3 基于协同过滤的推荐技术 基于协同过滤的推荐技术和基于内容过滤的推荐技术一样源于信息过滤技 术,其特点是可以不用处理资源对象的内容,它通过分析用户对资源的评价来 寻找兴趣相同或相近的邻居用户,然后基于邻居用户对资源内容的评价来向当 前目标用户进行资源推荐。基于协同过滤的推荐技术是目前研究较多的个性化 推荐技术,推荐的个性化程度高、效果明显,特别适合音乐、电影、图书等领 域的非结构化复杂对象的推荐。下一章将重点研究此推荐技术。 1 0 东北师范大学硕士学位论文 2 3 4 基于用户统计的推荐技术 基于用户统计的推荐不需要收集用户的访问行为数据,只需要用户的个人 属性信息。该技术根据用户的属性信息对用户进行分类,然后再针对不同类中 的用户进行不同的推荐,实质上是一种简单的基于协同过滤的推荐技术。 2 3 5 基于效用的推荐技术 该技术首先需要设计好资源对用户的效用函数,然后根据资源对用户的效 用大小对待推荐资源进行排序,取效用较大的前n 个资源推荐给目标用户。基 于效用的推荐技术的优点在于它能把资源的非自身属性,如提供商的可靠性、 商品的可获得性、商品的性价比等,考虑到效用计算中,这样能在决策的时候 考虑诸如到货时间之类的资源非自身因素问题,提高了推荐的全面性,同时也 加大了个性化的力度。但该项技术的关键和难点是如何设计出考虑周全且性能 良好的效用函数。 2 3 6 组合推荐技术 由于各种推荐技术都有优缺点,所以实际研究中多采用组合推荐技术。其 做法是选择两个或多个推荐技术,先产生一个推荐预测结果集,在用某种方法 来进行结果的组合后反馈给用户。组合推荐的优点是可以综合不同推荐技术的 长处,缺点是计算量加大,并可能对各种推荐方式的推荐效果产生抵消。 2 4 数据挖掘技术在电子商务推荐系统中的应用 推荐系统是一类任务特殊的数据挖掘系统。它利用丰富的用户信息、商品 信息和历史交易记录,来预测用户的兴趣和近期的购买目标,并给出相应的推 荐。电子商务推荐系统中目前已使用的数据挖掘技术主要有:聚类( c l u s t e r i n g ) 、 关联规则( a s s o c i a t i o nr u l e s ) 、贝叶斯网络( b a y e s i a nn e t w o r k ) 、h o r t i n g 图 ( h o r t i n gg r a p h ) 等。 2 4 1 聚类 , 聚类就是将数据对象归类,分为多个簇( c l u s t e r ) ,在同一个簇中的对象具 有较高的相似度,而不同簇中的对象差别较大。通过聚类,人们能够识别数据 对象密集的和稀疏的区域,因而发现全局的对象分布模式,以及数据属性之间 的相互关系。市场分析人员常常利用聚类从客户信息库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。 为了便于寻找目标用户的相似用户,聚类模型首先将现有的用户按照一定 的方法分为多个簇,具有相似爱好的用户分配到相同的簇中,根据目标用户所 东北师范大学硕士学位论文 在簇的对某商品的评价得到目标用户对该商品的预测评价,有些算法将目标用 户分配到多个簇中,根据与所在簇的关系强度进行综合考虑计算。这种方法对 大型数据集产生最佳的聚类是不现实的,因此在实际应用过程中通常使用贪婪 聚类生成的方法。这些方法首先形成各个分类,每个分常常仅包含一个任意选 择的用户,然后反复地将剩余用户分配到不同的簇中,这期间可能产生新的簇, 也可能将不同的簇进行合并等。 由于聚类模型只是将目标用户与一定数量的簇进行比较而不是整个用户 集,因此在扩展性和实现性能上比传统的协同过滤技术略显优势。这也是在我 们的研究中引用聚类对数据进行预处理的原因。但是单独使用聚类算法在推荐 质量上并不是很高,当某用户处于一个聚类的边缘时,对该用户的推荐精度比 较低。为了更好的给目标用户进行推荐,我们需要将其分配到与他具有较高相 似度的用户所在的簇中,这样对簇的要求提高了,簇的数量也会有大的增加, 因此在线进行目标用户归类的代价与传统协同过滤技术中寻找相似用户的代价 也就不分上下了。 2 4 2 关联规则 在知识发现( k d d ) 领域,在电子商务中常用的数据挖掘技术就是在顾客购买 的不同商品之间发现关联规则,产生推荐。关联规则挖掘的典型例子是购物篮 分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的 购买习惯。例如买面包的顾客,还会购买牛奶。通过了解哪些商品频繁地被顾 客同时购买,可以帮助零售商制定营销策略,把相关的产品摆在一起,达到促 销的目的。关联规则的发现算法很多,。如:a p r i o r i ,f p - t r e e ;h p ,a p r i o r i t i d 地 守o 基于关联规则的推荐算法就是根据关联规则算法以及用户当前的购买行为 向用户产生推荐。在关联规则推荐技术中,关联规则的发现是最耗时的,因此 一般离线进行。当规则数量累积到一定程度,即新的规则不再大量出现时,这 个算法就能比较准确且高效地产生推荐了。 2 4 3 贝叶斯网络 与关联规则和聚类技术相同,贝叶斯网络也是一种数据挖掘技术,它基于 图论和概率分析,是一种不确定性的知识表达,一种推理模型。在贝叶斯网络 中,每一个节点表示一个变量,即一个事件;各变量之间的弧表示事件发生的 直接因果关系。推荐系统中应用的贝叶斯网络技术利用用户历史信息创建相应 的模型,其中模型用决策树表示,节点和边表示用户信息。模型的建立可以离 线进行,因为建模时间比较长,般需要数小时或数天,而由此得到的模型可 以非常小,对模型的使用非常快。但随着用户的不断增多以及用户兴趣爱好的 1 2 东北师范大学硕士学位论文 变化,即数据集的变化,贝叶斯网络的学习过程也要重新进行,因此这种方法 适合用户的兴趣爱好变化比较慢的场合。 2 4 4 h o r f i n g 图 电子商务推荐系统中的h o r t i n g 图技术是一种基于图的方法,节点代表用 户,边代表两个用户之间的相似度。在图中寻找近邻节点,然后综合近邻节点 的观点形成最后的推荐。h o r t i n g 图技术可以跳过中间节点寻找最近邻居,考虑 了节点之间的传递相似关系。 2 5 协同过滤的概念 协同过滤,也叫协作过滤、社会过滤,其理论基础是人们的从众行为。由 社会心理学的角度来看,每个人每天都有许多机会成为他人社会影响的对象, 而这些社会影响成为我们社会互动中的重要部分,也同时是在人们社会互动中 非常重要的形式。实际上,只要存在于这个社会中每个人或多或少都会受到从 众的压力,而这些压力主要来自于情境中的规定或者默许的规范。另一方面, 人们为了维护个性,即使面对社会影响所造成的强大压力,也不改变自己的想 法或行为。说得通俗一点协同过滤就是基于这样的事实假设“如果和我兴趣爱 好相似的人喜欢这样东西,那我也会喜欢这样东西”。其实,协同过滤在现实生 活中非常普遍,相信大家都有体会,对自己最有效的信息,往往是来自于朋友 们的推荐。 协同过滤的基本出发点是: a ) 用户是可以按兴趣分类的; b ) 用户对不同资源对象的评判或访问行为包含了用户的兴趣或潜在需求; c ) 用户对一个未知资源对象的评价将和其兴趣相似用户的评价一致。 这三点构成了协同过滤的基础。通常,基于协同过滤的推荐系统选取与当 前活动用户有相似兴趣的用户群组作为参考对象,因此,如何定义用户的相似 性以及如何选取参考用户群是协同推荐技术研究的重点。 2 6 协同过滤的原理和实现过程 在典型的协同过滤处理过程中,被推荐的资源对象一般称为项目或条目 ( i t e m ) ,在电子商务应用领域,一个项目可以是一首歌曲、一部电影、或者是 其 它某个商品等等。用户对项目评价、购买行为被转化为一个用户一项目评分矩阵 ( 如图2 - 2 所示) 。 1 3 东北师范大学硕士学位论文 其中的评分值可以是用户自行给出的显式评价,也可以是系统根据用户行 为给出的隐性评价。这样,协同过滤问题被转化为如何从用户一项目评分矩阵中 获取、挖掘出有价值的特征模式或者模型用于生成当前活动用户的推荐列表。 如图2 - 2 所示,协同过滤处理可以由输入、推荐预测引擎和输出三个部分 组成,即用户输入评价信息,推荐预测引擎根据用户输入的信息产生推荐预测, 以及输出推荐预测结果三个步骤。一般来说,推荐预测引擎对用户来说是个“黑 盒”,推荐结果的生成过程对用户来说是透明的。 第一步,获得用户的评价、购买行为、用户的兴趣等数据信息,比如用户 对资源对象的浏览、评价、购买等。为了给用户提供有效的推荐,必须先获得 用户 的兴趣模型,这是协同过滤的关键,如果兴趣模型不准确或是错误的,那过滤 结果将是毫无意义的。得到一个用户兴趣模型主要分成两步,先要根据用户的 活动 1 1z 2 z z n 预测 推荐 p a j ( 活动用户a 对 项目j 的评价预测) t i l ,t i 2 ,t j 。( 给与 活动用户a 的首n 个项目推荐) 图2 - 2 协同过滤的基本原理和处理过程 状况来获得用户感兴趣的信息群,然后根据这些信息提炼出兴趣模型。所以要 求获得推荐的用户,为得到推荐必须对一些项目进行评价,以表达自己的偏好。 在一个实际系统中,用户评分数据的多少是无法确定的。有些用户可能评价的 项目多一些,在评价自己喜欢项目的同时也对其他一些项目进行了评价,除去 没有进行任何评价的用户,其余的用户可能评价少一些,甚至只有一两项,但 这并不能说明这些用户只喜欢该网站提供的项目中的一两个;相反,对于某些 只有很少评分的用户来说,他们所给出的评价信息可能恰恰就代表了他在某一 方面的喜好,如果仅仅因为他的评价信息过少,没有达到规定的阈值而将其不 予考虑,就会造成信息丢失。 第二步,分析和发现用户之间、项目之间的特征模式,比如相似性,作为 协同过滤输出或预测的基础。分析用户之间、项目之间的相似性可使用相似性 1 4 东北师范大学硕士学位论文 计算方法或统计技术来搜索用户或项目的若干最近邻居。 第三步,根据当前用户的访问过程或阶段,适时产生和输出推荐列表。推 荐列表的输出主要有两种形式,一种是预测,另外一种是推荐。预测就是根据 用户给定的一组或多个未评价项目,根据预测算法得到该用户对于未评价项目 的预测评分值,并进行预测输出。推荐是提供活动用户一个具有n 项用户最喜 欢的项目列表,即根据用户的偏好推荐可能吸引用户的n 个项目,按推荐程度 高低排序。 协同过滤技术由于不需要分析待推荐资源的内容信息,在电影、音乐、图书等 非结构化数据占主流的电子商务推荐领域得到了广泛的应用。 2 7 传统协同过滤推荐算法 根据算法是否需要全部实时运行,将协同过滤算法分为基于内存的 ( m e m o r y b a s e d ) 与基于模型的( m o d e l b a s e d ) 两种n 。基于内存的算法,也叫全 局的算法,算法利用整个用户一项目评分矩阵来产生推荐,系统利用统计技术搜 寻一组用户,称为邻居,他们与目标用户有一致的历史( 例如:他们对不同的商 品评分相似,那么他们趋于买相似的商品) 。一旦用户的邻居产生,系统可利用 不同的算法去合并邻居的喜好产生预测或为目标用户产生t o p - n 推荐,也就是 与目标用户最可能买的前个商品。基于模型的算法:其主要是将使用者历史 记录,通过统计方法或机器学习方法来建构出使用者偏好模型,推荐算法运行 期间将建立的模型调入内存,以此来产生推荐。建立模型可利用不同的机器学 习算法,如聚类技术、贝叶斯网络技术、基于规则方法等。 依据协同过滤所使用的事物之间的关联性,将其区分为基于用户的协同过 滤算法( u s e r - b a s e d ) 与基于项目的协同过滤算法( i t e m b a s e d ) 。 a ) 基于用户的协同过滤算法:其核心思想是假设人与人之间的行为具有某 种程度的相似性,即购买行为类似的顾客,会购买相类似的产品。 b ) 基于项目的协同过滤算法:其主要假设是项目与项目间具有某种程度的 关联,即顾客在购买时,其所购买的产品通常具有关联性,如顾客在购买电子 游戏机时,还会购买电池及游戏卡带或者游戏软件。 2 7 1 基于用户的协同过滤算法 基于用户的( u s e r - b a s e d ) 协同过滤,其核心概念是假设人与人之间的行为 具有某种程度的相似性,即行为类似的用户,会做出相似的选择。它通过分析 用户对哪些项目进行了什么样的评价,得出用户间的相似性,从而进行预测和 推荐。基于用户的协同过滤使用统计方法来找到活动用户的最近邻居,一旦活 1 5 东北师范大学硕士学位论文 动用户的最近邻居被找到,这些系统会使用不同的算法来综合这些近邻的评价 并由此为活动用户提供预测或者对个最高评价项进行推荐。这种算法具有计 算简单的特点,精确度也往往比较高,目前实际使用的协同推荐算法多属这种 类型。 图2 - 3 基于用户的协同过滤算法流程 针对一个给定的用户一项目评分矩阵,典型的基于用户的协同过滤可以分为 三个步骤,如图2 - 3 所示:计算各用户与目标用户之间的相似程度。当用户 被给出推荐时,他们往往信任那些和他们本人有着相似爱好的人,所以首先要 得出活动用户与其他用户之间的相似度;最近邻查询。根据各用户与活动用 户之间的相似度以及所涉及的项目确定该活动用户的最近邻居集合;预测推 荐,将邻居用户评分的加权值作为活动用户的评分值。 ( 1 ) 用户相似度计算 为了获取最近邻用户和预测目标用户对项目的评分,需要计算目标用户与 其他用户之间的相似度。度量用户间相似度的方法有许多种,经常讨论和应用 的主要包括如下三种方法:余弦相似性、相关相似性以及修正的余弦相似性。 余弦相似性( c o s i n es i m i l a r i t y ) 在余弦相似性计算中,将用户评分看作为玎维项目空间上的向量,如果用 户对项目没有进行评分,则将用户对该项目的评分设为o ,用户间的相似性通 过向量间的余弦夹角度量。设用户f 和用户,在1 维项目空间上的评分分别表示 为向量。则用户i 和用户j f 之间的相似性s i m ( i ,) 为: s i m i 。d 拳懈( 矗力掌i x y ( ,譬冀,盯) ( 2 7 。1 1 ) 相关相似性( c o r r e l a t i o n ss i m i l a r i t y ) 设用户i 和用户,共同评分过的项目集合用t ,表示,则用户i 和用户_ ,之间 的相似性s i m ( i ,歹) 可以通过p e a r s o n 相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工关系考试题及答案
- 电网岗位面试题及答案
- 春节商场活动总结
- 儿科招聘试题及答案
- 陕西省汉中市部分学校2026届化学高一第一学期期中学业水平测试试题含解析
- 山西省上党联盟2026届化学高三上期中经典模拟试题含解析
- 家电公司电子商务管理办法
- 慢性骨质疏松的临床观察
- 家电公司内部牵制管理规章
- 2021小学数学二年级上册-期末考试模拟卷(含答案含解析)北师大版
- 2025当兵心理测试题及答案
- 2025年官方兽医牧运通考试题库附参考答案详解(考试直接用)
- 退伍留疆考试题库及答案
- 2025年兵团辅警考试题库
- 主机厂车辆采购合同范本
- 2025年湖南省直机关遴选公务员考试笔试试卷【附答案】
- 2025年乒乓裁判考试题及答案
- 房产无抵押情况说明及承诺书
- DB32-T 2860-2015散装液体化学品槽车装卸安全作业规范-(高清现行)
- 中国石油天然气集团公司井控装备技术判废检验管理规定
- T∕CAQ 10108-2018 供应商审核指南
评论
0/150
提交评论