(管理科学与工程专业论文)基于智能多Agent的推荐系统研究.pdf_第1页
(管理科学与工程专业论文)基于智能多Agent的推荐系统研究.pdf_第2页
(管理科学与工程专业论文)基于智能多Agent的推荐系统研究.pdf_第3页
(管理科学与工程专业论文)基于智能多Agent的推荐系统研究.pdf_第4页
(管理科学与工程专业论文)基于智能多Agent的推荐系统研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的快速普及,电子商务在中国得到高速发展,越来越多的人选择 网上购物。一方面,电子商务为用户购买提供了便利,使他们不出家门便可以选 择满足其需要的产品;另一方面,由于电子商务站点产品或服务信息繁杂,产生 了信息过载问题,用户很难在大量的信息找到自己满意的产品或服务。推荐系统 在这种情况下应运而生,它通过与用户的交互,分析其行为,预测其喜好并向其 推荐他们真正感兴趣的产品或服务,为用户提供个性化服务,从而提高用户满意 度和忠诚度,防止客户流失,提高销售业绩。 本文首先系统概述了推荐系统定义、分类、组成、常用的推荐技术和研究热 点内容,然后介绍了智能多a g e n t 技术,并介绍其在电子商务中的应用情况。 本文针对传统推荐系统存在的用户评分稀疏性和系统扩展性问题,提出了一 种基于智能多a g e n t 的推荐系统( m a s r s ) 。首先采用余弦公式处理用户项评 分矩阵得到用户初始邻居集;然后将用户评分映射到相应项的属性值上,生成用 户属性值偏好矩阵u p m ,并基于此矩阵进行用户相似性度量,得到用户产品推 荐集,从而有效缓解用户评分稀疏性问题;通过智能多a g e n t 架构推荐系统,使 大量复杂计算在线下进行,从而改善系统存在的扩展性问题。同时实验表明新系 统在推荐精度上收敛性更好。 关键词:推荐系统稀疏性用户属性值偏好矩阵智能多a g e n t 互联网 a b s t r a c t a b s t r a c t w i t ht h er a p i dp o p u l a r i z a t i o no fi n t e r n e t ,e c o m m e r c ei nc h i n aa r er a p i d l y d e v e l o p i n g ,m o r ea n dm o r ep e o p l ec h o o s e t o s h o p o n l i n e o nt h eo n eh a n d , e - c o m m e r c eo f f e r sc o n v e n i e n c ef o ru s e r st ob u y , s ot h a tt h e yc a nc h o o s ep r o d u c t st o m e e tt h e i rn e e d sa th o m e ;o nt h ea n o t h e rh a n d ,c o m p l e xp r o d u c to rs e r v i c e i n f o r m a t i o no ne - c o m m e r c es i t e s ,r e s u l t i n gi ni n f o r m a t i o no v e r l o a d ,i t sd i f f i c u l tf o r u s e r st of i n dt h ep r o d u c t sa n ds e r v i c e sw i t ht h e i rs a t i s f a c t i o n ,r e c o m m e n d a t i o ns y s t e m e m e r g e da s t h et i m e sr e q u i r e b yc o m m u n i c a t i n gw i t ht h eu s e ra n da n a l y z i n gt h e i r b e h a v i o r , i tc a np r e d i c tt h e i rp r e f e r e n c ea n dr e c o m m e n dp r o d u c t sa n ds e r v i c e sw h i c h t h e yr e a l l yi n t e r e s ti n ,r e c o m m e n d a t i o ns y s t e m sc a np r o v i d ei n d i v i d u a l i z e ds e r v i c e s , i n c r e a s es a t i s f a c t i o na n di m p r o v el o y a l t y , p r e v e n t i n gt h eu s e r sc h u r na n di n c r e a s i n g s a l e s t h i sp a p e ro u t l i n e st h er e c o m m e n d a t i o ns y s t e md e f i n i t i o n 、c l a s s i f i c a t i o n 、 c o m p o s i t i o n 、t h er e c o m m e n d e dt e c h n i q u e sa n di t sr e s e a r c hf o c u s ,t h e ni n t r o d u c e dt h e i n t e l l i g e n c e m u l t i a g e n tt e c h n o l o g y ,a n dd e s c r i b e s i t sa p p l i c a t i o ni ne l e c t r o n i c c o m m e r c e t r a d i t i o n a lr e c o m m e n d a t i o ns y s t e mf a c e st h ep r o b l e mo fs p a r s eu s e rr a t i n g sa n d s y s t e ms c a l a b i l i t y t h ep a p e rp r o p o s e d ar e c o m m e n d a t i o n s y s t e m b a s e do n i n t e l l i g e n c em u l t i a g e n t a tf i r s tt h ec o s i n es i m i l a r i t ym e a s u r eh a sb e e nu s e dt oh a n d l e u s e r - i t e mr a t i n gm a t r i x ,t h u st h ei n i t i a ln e i g h b o rs e tf o rt a r g e tu s e r sc a nb eg a i n e d t h e nu s e rr a t i n g sh a v e b e e nm a p p e dt or e l e v a n ti t e ma t t r i b u t e sf o rg e n e r a t i n g u s e r - a t t r i b u t e sv a l u ep r e f e r e n c em a t r i xu p mo fe a c hu s e r , t h u su s e rs i m i l a r i t yc a nb e c o m p u t e db a s e do nu p ma n dr a t i n gs p a r s i t yh a sb e e na l l e v i a t e ds i m u l t a n e o u s l y ;t h e r e c o m m e n d a t i o ns y s t e mf r a m e w o r k sb yi n t e l l i g e n c em u l t i a g e n t ,t h u sc a l c u l a t i n go fa n u m b e ro fo n l i n ep r o c e s s i n g ,f i n a l l yi m p r o v i n gs y s t e ms c a l a b i l i t y a tt h es a m et i m e , t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h en e ws y s t e ma c h i e v e sab e t t e ra c c u r a c yi n r e c o m m e n d e dc o n v e r g e n c e k e yw o r d s :r e c o m m e n d a t i o ns y s t e m ,s p a r s i t y , u s e r a t t r i b u t e sv a l u em a t r i x , i n t e l l i g e n c em u l t i a g e n t ,i n t e r n e t i i 中国科学技术大学学位论文原创性和授权使用声明 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名: 壶竭 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 囱,从开口保密( 年) 作者签名:盔蜩 签字日期:呈! :! :2 导师签名:文乏乒 签字日期: 第l 章绪论 1 1 研究背景及意义 第1 章绪论 近年来,中国互联网出现爆炸式的发展和普及化,带动和促进了电子商务 ( e l e c t r o n i cc o m m e r c e ,简称e c ) 的飞速发展。据第三方互联网数据统计公司 c n z z 的数据显示,2 0 0 9 年9 月中约有1 2 亿访客会在同一天之中访问电子商务 相关网站,这一数字约占目前中国网民总数的1 3 。近年来电子商务类站点一直 是中国发展速度最快的,据c n n i c 调查显示,2 0 0 9 年中国网络购物市场交易规 模达到2 5 0 0 亿,中国正显出网络消费快速增长的显著趋势,电子商务市场正在 变的日益繁荣,这改变了中国传统的贸易方式,将对企业和用户都产生了深远的 影响。 从企业角度来看,电子商务为企业的发展提供了更多的商业机会,通过为企 业提供大量的产品信息以打开市场,从而为企业提供更多发展机会。信息的全球 化为企业提供了一个更加广泛更加具有选择性的巨大市场平台,使企业获得更广 阔的原料来源和市场选择,同时也使企业原本拥有的地域性优势和信息不对称形 成的信息优势在很大程度被削弱,网络的快速发展也为企业提供了高效、廉价、 形势多样的营销手段,可有效促进与客户进行交流。而从用户来看,电子商务为 他们提供越来越多的产品选择机会和购物便利,于是使用户在购买商品时更关注 体现个性特征和个性化需求。 与此同时,伴随着互联网规模和覆盖面的迅速增长而呈指数增加的信息产生 了信息超载( i n f o r m a t i o no v e r l o a d ) 的问题,即用户尽管产品或服务选择的机会 在增加,但同时增加的还有在选择满意产品或服务的信息处理负担,而这反而使 信息的使用效率降低,于是用户不得不面对网上的海量信息,不得不用更多的时 间去发现满足其需要的信息。另外,用户在网络的虚拟状态下无法在像实体环境 下直接观察产品的质量和外观,于是,用户迫切需要电子商务系统可以及时提供 帮助,通过智能获取用户喜好为用户推荐合适的产品。对于企业而言,在经济全 球化的今天企业面临越来越严酷的市场竞争,因此如何提高用户的满意度和忠诚 度成为众多企业管理者经常思考的问题。获取用户的信息,分析其个人偏好,协 助他们获得满意的产品或服务,为他们提供个性化的推荐服务,这些都是当今企 业经营者所必须考虑的,能够充分迎合和满足用户需求的企业才能在电子商务市 场浪潮中占据有力的市场地位。在这种情况下,电子商务推荐系统应运而生。它 通过对用户的喜好进行收集、分析和预测,为其推荐感兴趣的产品或服务。 第1 章绪论 目前推荐系统根据推荐的对象特点可以分为两大类:一类是以网页为主要推 荐内容的推荐系统,其主要采用w e b 数据挖掘的技术和方法向用户推荐感兴趣 的网页链接;另一类是推荐用户所需的产品,这种主要在电子商务网站购物环境 中使用,协助用户找到他所中意的产品。本文重点研究的网上产品推荐领域。 个性化电子商务推荐系统可以根据用户偏好为其推荐感兴趣的产品或服务, 这不仅促进了交易的进行,提高服务质量,而且节约了用户的查找时间,企业也 可以通过推荐系统收集和反馈信息,改进营销策略,留住和吸引更多的用户。 s c h a f e r 等人( 1 9 9 9 ,2 0 0 1 ) 认为使用推荐系统可以为电子商务网站带来三个方 面的优势: ( 1 ) 将浏览者转变为购买者, 没有明确购买倾向的浏览者通常是只对网页产品信息进行浏览而不进行购 买,网站商家希望这些浏览者能够购买他们产品,而分析其偏好和需求,并对其 进行推荐便非常必要,而推荐系统可以收集和分析用户偏好,并对其进行合适的 产品推荐,于是往往能够将浏览者转变成购买者或使其成为潜在的客户。 ( 2 ) 提高客户忠诚度。 与传统商务模式比较,电子商务让用户拥有更多的选择机会,用户只需点击 几下鼠标便可以在不同的网站商家进行跳转。推荐系统通过收集和分析用户的购 物信息,获取用户的偏好和需求信息,向用户提供有价值的推荐。若商务推荐系 统的推荐质量很高,用户就会对推荐系统产生依赖,因此,一个优秀的商务推荐 系统不仅可以为客户提供个性化服务,而且可以和用户建立长期稳定的关系,从 而有效防止了客户的流失,提高了客户的忠诚度。 ( 3 ) 促进产品交叉销售。 推荐系统可以基于客户已购买的产品推荐相关或者同类的产品,客户可以从 推荐列表中发现自己需要但在购买之前没有在意的产品,从而有效的促进交叉销 售,为用户提供个性化服务。 1 2 论文研究对象和所做的工作 本文的研究对象是基于智能多a g e n t 的推荐系统,这里特指在电子商务购物 环境下,以产品为主要推荐对象的个性化推荐系统和推荐模型,主要研究如何使 用智能a g e n t 技术去架构推荐系统,并改进推荐模型和算法,优化推荐系统。 在本文中主要做了以下三方面的工作: ( 1 ) 全面介绍电子商务推荐系统 本文详细介绍了商务推荐系统的产生的背景、概念的发展,以及商务推荐系 第1 章绪论 统的分类、主要的推荐模型和算法、商务推荐系统研究中所存在的几个问题、其 推荐系统的度量标准和在国内外的应用情况。 ( 2 ) 介绍了智能a g e n t 技术以及在推荐系统中的应用情况 本文粗略的介绍了a g e n t 技术产生的背景、概念和分类,着重介绍智能多 a g e n t 技术的应用情况,尤其是在电子商务推荐系统的应用情况。 ( 3 ) 提出了基于智能多a g e n t 的商务推荐系统 针对商务推荐系统的“冷启动”问题和稀疏性问题,本文通过细致分析,提 出了基于智能多a g e n t 的推荐系统( m a s r s ) ,首先采用余弦公式处理用户项 评分矩阵得到用户初始邻居集;然后将用户评分映射到相应项的属性值上,生成 用户属性值偏好矩阵u p m ,并基于此矩阵进行用户相似性度量,得到用户产品 推荐集,从而有效缓解用户评分稀疏性问题;通过智能多a g e n t 架构推荐系统, 使大量复杂计算离线进行,从而改善推荐系统存在的实时性问题。同时实验表明 新系统在推荐精度上收敛性更好,在解决“冷启动”方面也取得了满意的结果。 1 3 论文的结构安排 本文的思路先介绍推荐系统和智能a g e n t 技术的研究现状,然后详细介绍二 者结合的技术优势,文章的主要章节安排如下: 第一章阐述电子商务推荐系统的研究背景和研究意义,粗略介绍本文研究 所做的工作,最后介绍论文的结构安排。 第二章主要研究了电子商务推荐系统产生背景和原因、推荐系统的定义、 分类和模块组成,分析了几种主流推荐技术,介绍了各种推荐技术的原理、适用 范围和优缺点等一些相关的问题,最后介绍了推荐系统的通用框架结构和流程。 第三章主要研究了智能a g e n t 产生背景和原因,介绍了智能a g e n t 几种较 有影响力的定义,对智能a g e n t 特性和结构进行了研究分析,并着重介绍智能多 a g e n t 技术及其在电子商务中应用现状。 第四章 首次提出了以智能多a g e n t 技术作为推荐系统架构,并通过改进推 荐模型,去解决推荐系统中存在稀疏性和延展性问题,分析智能a g e n t 技术的优 势,然后架构商务推荐系统,去解决推荐系统中的存在的扩展性问题,然后将用 户项评分矩阵映射成用户属性评分矩阵,通过改进模型,解决推荐系统中存在 的稀疏性和准确性问题。 第五章介绍了仿真实验的数据来源,阐述了常见的推荐系统评价标准,并 选取了其中一种方法去评价文章建立推荐模型的有效性。 第六章对本文进行了总结,并提出了将来工作的方向。 第1 章绪论 1 4 本章小结 本章介绍了商务推荐系统研究的背景和意义,提出了论文的研究对象和所做 工作,并对论文的结构安排做了简短说明。 4 第2 章电子商务推荐系统概述 第2 章电子商务推荐系统概述 从2 0 世纪9 0 年代中期推荐系统概念的出现至今,推荐系统得到快速发展。 并随着电子商务的蓬勃发展,推荐系统也越来越多的被应用到电子商务网站中。 推荐系统通常依据用户的偏好推荐符合用户喜好的产品,因此也被称之为个性化 推荐系统。目前,推荐系统在a m a z o n 、c d n o w 、l e i v s 等电子商务网站得 到很好的应用,有研究表明,在电子商务网站上使用商务推荐系统,销售额能提 高2 一8 ,尤其在书籍、电影、音像制品等消费品,推荐系统能够极好的提高 销售额。 2 1 推荐系统的定义 推荐系统定义分为形式化和非形式化两种。目前被广泛使用的推荐系统非形 式化概念是r e s n i c k 和v a r i a n ( 1 9 9 7 ) 给出:“它是利用电子商务网站为用户提供 产品信息和相关建议,帮助用户决定购买产品或服务,通过模拟销售人员帮助用 户找到所需要的东西。从定义可知,推荐系统首先收集用户个人资料及行为( 购 买、浏览等) 信息,分析出用户个人偏好,然后根据推荐算法,为用户提供其感 兴趣的产品推荐。 此外,推荐系统的形式化定义为( l i urr ,j i acx ,z h o ut ,e ta l ,2 0 0 9 ) :令c 为用户的集合,s 是推荐给用户的项目集合。其中,c 和s 集合很大,可达到百 万数量级。再设用户的效用函数“( ) 来计算项目s 对用户c 的推荐度,即 甜:c s 呻r ,其中r 是全序的数据集( 非负整数或者在一定范围内的实数) 。 对于每个c c c ,我们都会找到可以最大化满足用户效用的项目s c s ,通用公 式如下: v cc c ,t = a r g m 心a x u ( c j ) ( 2 1 ) 在众多推荐系统中,项目的效用值通常用评分( r a t i n g ) 来表示,项目的评 分也表示用户对该项目的喜好程度。在推荐系统中,其中心问题就是效用值u 的 计算,而效用值不需要遍历整个c s 空间,而只需其子集部分,这就意味着需 将效用值u 外推( e x t r a p o l a t i o n ) 到整个数据集上。也就是说项目需具备用户已 作的评分,对未评分项目需在己标注对象基础上进行外推后方可使用。推荐系统 可采用多种方法进行外推和评分预测,并可设计多种效用函数。 2 2 推荐系统的分类 5 第2 章电子商务推荐系统概述 推荐系统可以使电子商务网站主动了解每个用户的个性化需求,为每个用户 提供各具特色的推荐服务。所谓个性化服务,最直接的概念就是“以用户为中心” 的服务模式,即根据用户提出的明确需求,或通过用户个性、习惯分析而主动向 用户提供其可能需要的信息和服务,这个过程也是培养个性,引导需求的服务。 其根本就是尊重用户、研究用户的行为和习惯,为用户选择更为重要的资源,提 供特色服务。不同的推荐系统的个性化程度各不相同,从推荐系统个性化程度, 可将推荐系统分为三类: ( 1 ) 非个性化推荐系统:这种推荐系统独立于用户,所有用户得到的推荐 结果都是相同的。这种推荐系统一般基于统计分析技术或网站工作人员的手工推 荐。这种推荐产生是自动的,用户参与很少,或者仅仅基于用户的单个对话,对 用户不予区分,是瞬时的。比如:网站的编辑推荐、销售排行、平均值评分、个 体文本评价等推荐方式对每个用户都是一样的,这些方式都属于非个性化推荐系 统。 ( 2 ) 半个性化推荐系统:电子商务推荐系统根据用户当前的浏览行为或用户 当前购物记录产生推荐。这种推荐系统根据用户的当前行为去产生推荐结果。不 同用户得到的推荐结果各不相同,半个性化推荐结果的准确性要高于非个性化推 荐。 ( 3 ) 完全个性化推荐系统:电子商务推荐系统保存用户历史浏览信息、历史 购物信息、历史项目评分信息、用户注册信息等。然后根据用户的各种历史信息, 结合用户的当前行为为用户产生完全个性的推荐,这种推荐系统一般只对电子商 务网站的会员( 注册用户) 提供服务,其个性化程度最高,推荐的精确性更高。 本文所做的工作属于完全个性化推荐系统,利用用户评分信息、历史购物信 息、注册信息以及项目信息为用户提供个性化推荐服务。 2 3 推荐系统的组成 整个电子商务推荐系统可分为三个模块:输入模块、推荐方法模块、输出模 块。下面分别对三个模块进行详细介绍。 ( 1 ) 输入模块 推荐系统输入模块主要负责对用户信息的收集、整理( 规范化) 和更新。 不同的推荐系统,其输入信息也不同,产生的推荐结果也不同。推荐系统的输入 可以是用户的历史行为,也可以是用户的当前行为;可以是用户的个人输入,也 可以是用户群体输入。在推荐系统的使用过程中,为了获得更准确的推荐结果, 推荐系统可能需要多种形式的输入,主要包括: 6 第2 章电子商务推荐系统概述 ( a ) 用户注册信息输入:用户在电子商务网站注册时会要求用户输入一些个 人信息。比如姓名、年龄、性别、职业、收入、兴趣爱好等。这些是电子商务推 荐系统收集到用户最初始的信息。 ( b ) 隐式浏览输入:将用户访问电子商务站点的浏览行为作为推荐系统的输 入,用户在此类站点访问与一般w e b 站点无异,并不知道存在其存在推荐系统。 用户浏览过的产品、用户购物篮中的产品、用户浏览路径等一系列用户使用痕迹 都可作为隐式浏览的输入信息。 ( c ) 显示浏览输入:与隐式浏览输入一样,它也是将用户的浏览作为推荐系 统的输入,不同在于:显式浏览输入是用户有目的向推荐系统提供自己的偏好, 以期推荐系统能提供更满意的推荐结果。比如,商务推荐系统会为用户提供一系 列的热门产品供其选择,而用户往往只会查看自己感兴趣的产品,推荐系统会根 据用户的行为向用户提供个性化服务。 ( d ) 用户评分输入:用户会根据自己对项目直接或间接喜好程度,对项目进 行评分。在推荐系统设计过程中,用户的评分用布尔值表示。比如,0 表示不喜 欢,1 表示喜欢。也可以用区间数值表示,常见的用【1 ,5 1 之间的整数值表示,1 代 表很不喜欢,5 代表很喜欢,数值越大,说明用户对该项目越喜欢。用户提供的 真实评分数据是推荐系统提供满意服务的重要条件。 ( e ) 关键字产品属性输入:用户在电子商务站点的搜索引擎中输入的关键 字或用户当前正在浏览的信息类别作为推荐系统的输入。此种输入不同于用户随 意浏览的行为,用户输入的目的是在商务站点上搜索自己需要的产品及信:息。 f ) 用户文本评价输入:用户对自己已购买或自己熟悉的产品以文本的形式 评价。推荐系统自己无法判断这些评论的好坏,当其他用户购买该产品时,会看 到用户的文本评价信息。 ( g ) 用户的购买历史输入:商务推荐系统一般将用户的购买历史作为用户隐 性评分数据。如果用户购买某商品,则推荐系统会认为用户偏好该商品,于是推 荐系统会根据用户购物历史数据进行推断,从而产生相应推荐。但用户的兴趣具 有多变性和时效性,也就是说用户的喜好是在不断变化中的。因此如果让推荐系 统产生精确结果,用户必须对商品进行重新评分。 ( h ) 编辑推荐输入:将专家对特定项目的评价作为推荐的输入,用户通过查 看专家对项目特征详细介绍,通过他们的专业详解,可以对自己不熟悉的项目加 深了解,从而决定是否选择该项目。 ( 2 ) 推荐方法模块 推荐方法模块是商务推荐系统最重要的部分,他的好坏直接决定着推荐系 统性能的优劣。推荐技术是推荐方法模块的技术支撑。具体将在后续章节进行介 7 第2 章电子商务推荐系统概述 绍。 ( 3 ) 输出模块 只要是推荐获得获取输入用户和产品信息,并经过推荐方法模块进行处理, 向用户推荐结果。一个大型推荐系统输出的形式是多样的,具体包括: ( a ) 相关商品的输出:推荐系统根据用户行为模式或网站热门产品排行向 用户进行产品推荐,这也是推荐系统最常见的输出方式。相关商品输出即可以简 单像用户推荐网站热销的产品,也可以通过深入分析用户的行为模式,分析他的 喜好,对用户进行一对一( o n e t o o n e ) 的个性化推荐。 ( b ) 个体文本评价输出:商务推荐系统向目标用户提供其他用户对商品的 文本评价信息。这种评价信息是非个性化的,因为推荐系统推送的文本评价信息 对所有用户都是相同。 ( c ) 评分输出:主要有两种方式:个体评分输出和平均数值评分输出。个 体评分输出指向目标用户提供其他用户对商品的评分信息,该种输出由于没有大 量的文本描述信息,因此简单明了。个体评分输出适合数据评分相对较少的场合。 而平均数值评分输出则可以使用户自己获得其他用户对商品的总体评价,具有更 加简洁明的优点。 ( d ) 电子邮件输出:即通过电子邮件方式向目标用户发送最新产品信息, 该种方式可以有效吸引客户再次光临电子商务站点。达到保留用户,减少用户的 流失。电子邮件输出的内容可以是上述三种输出。 ( e ) 编辑推荐输出:向用户提供专家对特定类别商品的介绍,使用户可以 对自己不熟悉的商品性能加深了解,从而决定是否购买该商品。该种形式输出主 要用于用户选择非频繁购买商品,如家用电器、耐用消费品等非频繁购买产品。 2 4 推荐系统的常用技术 推荐技术是是商务推荐系统中核心和关键的部分,其很大程度上决定着商务 推荐系统性能优劣。目前常见推荐技术主要有协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 推荐技术( l i n d e ne ta 1 2 0 0 3 ;b a l a b a n o v i ca n ds h o h a m ,1 9 9 7 ) ,基于内容的推荐 ( c o n t e n t b a s e dr e c o m m e n d a t i o n ) ( p a z z a n ia n db i l l s u s 1 9 9 7 ;c h a n gyie t a 1 2 0 0 8 ) 、基于知识的推荐( b i l l s u sa n dp a z z a n i ,1 9 9 8 ) 、基于人口统计信息推荐、 基于效用推荐、基于关联规则推荐( s a r w a re ta 1 2 0 0 9 ) 和组合( h y b r i dm e t h o d ) 推荐( y o s h i ie ta 1 2 0 0 8 ) 等。接下来我们会讨论推荐技术所取得成果以及自身的 优缺点。 第2 章电子商务推荐系统概述 2 4 1 协同过滤推荐 协同过滤推荐( c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n ) 是目前推荐系统中应 用、研究最广泛和最成功的技术之一。它是由g o l d b e r g 、n i c o l s 、o k i 等( 1 9 9 2 ) 首次提出的,最早应用于t a p e s t r y 系统。该系统适用于较小的用户群( 比如,某 一公司内部) ,作为最早的推荐系统应用,尽管存在许多不足( 比如,要求用户 给出显示评价信息) ,但它展示一种新的推荐思想,并为后来的推荐系统大发展 奠定了基础。协同过滤是基于这样的假设:用户是可以按照兴趣分类的,兴趣相 近的用户可能对同样的东西感兴趣,并且认为用户的兴趣是稳定的,通过分析群 成员的共同偏好或兴趣,可以产生有效的关联推荐。协同过滤算法通常分为两种, 即:基于内存的( m e m o r y b a s e d ) 推荐算法和基于模型的( m o d e l b a s e d ) 推荐算法 ( b r e e s ee ta 1 1 9 9 8 ) 。 基于内存的推荐算法会在推荐系统运行过程中可以将用户项评分数据库调 入内存,这种算法的优点是可以利用最新用户数据产生推荐。但缺点是在实际应 用过程中,由于电子商务系统数据通常很庞大,其要在整个用户数据库上产生推 荐极其好是,难以保证商务推荐系统的实时性。比如:g r o u p l e n s 中使用的最近 邻方法( n e a r e s tn e i g h b o r s ) 和基于h o r t i n g ( a g g a r w a le ta 1 1 9 9 9 ) 的推荐算法 都属于此种类型。 基于模型的推荐算法先根据用户数据建立数学模型,一般采用机器学习的算 法建立此类模型。在系统运行时首先把模型调入内存,由于基于模型的推荐算法 建立的模型相对于原始数据集要小的多,因此可以有效解决推荐系统存在的实时 性问题,这是该类算法的优点。而缺点是系统无法获取最新数据而具有滞后效应, 因此必须对其进行周期性的更新,这增加了维护维护的工作量。基于模型的推荐 广泛使用的技术包括贝叶斯网络( b a y e s i a nn e t w o r k s ) 、潜在语义检索( 1 a t e n t s e m a n t i ci n d e x i n g ) 、关联规则等。一般认为基于模型的协同过滤方法要劣于基于 内存的推荐方法。 此外,协同过滤方法依据事物之间的关联性,也可以分为基于用户 ( u s e d b a s e d ) 矛 1 基于项目( i t e m b a s e d ) 的协同过滤技术。基于用户的协同过滤的核 心是设定人与人之间的行为具有某种程度的相似性,即购买行为类似的用户,会 购买同类的产品,目前来讲基于用户的协同过滤方法也是应用最广泛的推荐方 法;而基于项目的协同过滤则假定项目之间存在某种关联,即客户购买时,其所 购买产品通常具有关联性,比如:顾客购买手机,通常会购买手机卡和充值卡。 ( 1 ) 协同过滤推荐的用户数据收集 协同过滤推荐方法是基于近邻用户偏好预测目标用户的偏好的推荐方法。 简单的说,协同过滤就是利用相类似的用户喜好待遇目标用户进行产品推荐的。 9 第2 章电子商务推荐系统概述 因此,用户偏好预测在该方法中极其重要,所以,用户数据的收集在协同过滤算 法中占有重要地位,数据收集的质量直接关系到系统的推荐效果。 目前协同过滤推荐方法主要使用用户对产品的评分作为推荐的基础,以用户 个人信息、交易记录等信息作为辅助。用户评分数据分为显式评分( e x p l i c i t r a t i n g ) 和隐式评分( i m p l i c i tr a t i n g ) 两类。显式评分通过直接让用户对产品进行 打分,而隐式评分则通过用户购物过程中的行为特征预测用户对该页产品的评 分。推荐系统可根据用户在购物中标记网页操作、编辑网页操作和重复行为等一 些隐含兴趣的指示操作获取用户的隐式评分。 显式评分和隐式评分各有优缺点。对于显式评分数据,他的优点是能够准确 反映用户的个人喜好,但由于需要专门的显式输入数据,因此会打断用户当前的 浏览、阅读等行为,给用户带来不便,因此收集数据不易。此外,研究还表明, 每个用户能够做出的产品评分只是产品总数很小的一部分,从而会使用户评分数 据存在稀疏性问题,这种情况会导致推荐系统的推荐质量严重下降。相比较而 言,隐式评分具有以下优点:首先其不需要输入用户对产品的评分,在使用过程 上比较方便,其次是能对用户访问的网页以及网页上产品做出评分预测,大大减 轻了用户评分数据的稀疏性问题。但是,由于隐式评分是通过一些启发式规则获 取的,因此与显示评分相比有时候并不准确,甚至不同隐式兴趣操作组合会导致 矛盾的兴趣倾向。 ( 2 ) 协同过滤方法的步骤 协同过滤方法实现步骤一般分为三步:数据的表述、邻居集的产生和产生推 荐产品集。下面对各步骤进行一一详细介绍( 以u s e d b a s e dc f 为例) : 1 数据的表述:在协同过滤推荐方法中,电子商务推荐系统通过收集用户的 评分、评价等,并进行数据清理、转换和录入,最终形成m x 门维用户项评分矩 阵r ,其中m 是用户数,n 是项目数。r ,表示第i 个用户对第j 个项目的评分 值。一般r ,i 【1 ,5 1 ,且r j ,z ,该值表示用户对该项目的偏好评分,如表2 1 所示。 2 邻居的产生:协同过滤方法核心就是找出目标用户的“最近邻居”,这里 邻居就是指与目标用户具有相同偏好的用户,“最近邻居”的产生是协同过滤方 法中最重要的步骤,目标用户“最近邻居”准确与否直接关系到推荐结果的质量, 因此准确的找出“最近邻居”是整个协同过滤推荐成功的关键。对于一个用户u , 要找到其“最近邻”,需要产生一个根据相似度大小排列的邻居集合 “2 1 u l ,u2 ,u ,j ,05fs m ,其中u 不属于n ,且n 中元素n 1 到n t ,相似 度s im ( u ,u ,) 由大到小排列,然后选择相似性大于某个阈值的用户最为目标客户 的“最近邻居”,也可以只选定若干个相似度最高的用户作为目标用户的“最近 1 0 第2 童电子商务推荐系统概述 邻居”。“最近邻居”查找的效果和效率很大程度上决定协同过滤推荐方法优劣。 表2 1用户项评分矩阵 u s e r i t e m,11 2 i n b u 1 墨。蜀: 墨, 尾。 u 2 恐-r z 恐, 足。 矾 r j ,l 足: r , r 。 u m 如如2 r m j 凡。 用户之间相似性度量主要有以下几种方法( 邓爱林,2 0 0 3 ) : ( a ) 余弦的相似性( c o s i n e b a s e ds i m i l a r i t y ) :也被称为向量相似性。即把 用户对项目的评分看作n 维项空间上的向量,用户i 和j 之间的相似性通过向量 间的余弦夹角度量,设用户i 和用户i 在n 维空间上的评分分别表示为向量i , ( 未评分则为o ) ,并将用户i 与用户j 之间的相似性记为:s l m ( ,_ ,) ,于是根据 定义可知: 湘( i ,- ) = c o s e 沁尚 q 2 其中分子是两个用户评分向量的内积,分子式两个向量模的乘积,余弦值越 大,说明两个用户的相似程度越高,也就是目标用户的“最近邻居”。但该方法 存在缺点,即没有考虑在实际应用中不同用户的评分尺度问题,因此需要对余弦 相似度方法进行改进,这便产生了修正余弦相似性方法( a d j u s t e dc o s i n e s i m i l a r i t y ) ,其通过减去用户对项目的平均分来改善存在的缺陷。令用户i 和用户 j 共同评分过的项目集合为1 口,而1 ,和。,分别代表用户i 和用户j 评分过的项目 集合,于是修正余弦方法计算相似度公式为: s 胪音丝型尘竺一 ( 2 3 ) 5 1 叭力2 压恧专雅丽 旺3 其中,足,r j 。表示用户i 和用户j 对项c 的评分,r i 和r j 表示用户i 和 用户i 的对项目平均评分。 ( b ) p e a r s o n 相关相似性( p e r s o nc o r r e l a t i o nc o e f f i c i e n t ) :也称相关相似性。 设用户i 和用户i 共同评分过的项目集合为1 ,则用户i 和用户i 之间的相似性 s i 例。7 ,) 通过p e r s o n 相关系数度量: 第2 章电子商务推荐系统概述 s l ) = 坠竺生竺一 ( 2 4 ) 8 1 州l 力2 忑蓊赢硪丽 吃4 其中,r r j , c 表示用户i 和用户j 对项c 的评分,e 幂i ir ;表示用户i 和用 户j 的平均评分。此外由于p e a r s o n 相关系数只度量了线性相关趋势,因此为了 度量对于整个用户评分集合中位数的相对性,产生了基于限制的p e a r s o n 相关系 渤“譬赤一 亿5 , 其中v 表示用户评分集合的中位数。 ( c ) - - 元j a c c a r d 系数:当用户- 项评分用二元变量( 一般1 表示用户购买了该 产品,0 表示用户未购买该产品) 表示时,可用j a c c a r d 系数计算用户之1 9 的相似 度: s i m ( i ,) = 旦l ( 2 6 ) 在该公式中,强。表示用户i 、j 都购买的产品数目,n o 。表示用户i 未购买而 用户j 购买的产品数目,确。表示f f j 户i 购买而用户j 购买的产品数目。 3 产生推荐产品集:通过第二步骤获得用户“最近邻居”后,第三步就是为 目标用户产生推荐产品集。“最近邻居”产生之后,可以计算两类结果:用户对 未评分项目的兴趣度和t o p n 的推荐集: ( a ) 用户对未评分项目兴趣度的计算:设用户u 的“最近邻居”为n ,则 用户u 对项目i 的预测评分,可以通过用户u 对“最近邻居”集合的评分得到, 当采用余弦修正余弦p e a r s o n 相关系数来度量用户的相似性: 巳母粤券裟产 眨7 , 当采用基于限制的p e a r s o n j a c c a r d 相关系数来度量f f j p 相似性: 咒:弩竺竺孪坚擎 ( 2 8 ) 。 。协( “,) i “”。 s 7 柳( “,v ) 表示用户u 与u 之间的相似性,r f , ,表示用户u ,对项目i 的评分, r 和r 则表示用户u 和用户u ,对项日的平均评分。 1 2 第2 章电子商务推荐系统概述 ( b ) 产生t o p n 推荐:通过上述公式分别计算用户对未有评分项目的分数, 然后从到小,取分数最高并且不含在已选项集的项目作为t o p n 进行推荐。 ( 3 ) 协同过滤方法的不足 协同过滤方法作为目前使用最成功的推荐系统技术,系统会根据与目标用户 有相同偏好的用户群曾购买的产品最为推荐的参考对象,即依据其他用户的意见 为目标用户推荐项目,可能该项目有别于用户以往的喜好,但是却挖掘出用户潜 在的新兴趣,但传统的协同过滤算法也有不少不足之处,如下: ( a ) 冷开始( c o l ds t a r t ) 问题 ( s t u a r tee ta 1 2 0 0 2 ) 协同过滤方法是基于目标用户的最近邻用户信息和对 项目的评分,但当新项目加入数据库时,必须等待一段时间才有用户查看并进行 评价( 点击、打分、评论等都是评价的手段) ,在评价达到一定数量之前无法对 此对象进行分析和推荐,就算推荐,推荐的精确度也很差。同样,当新用户出现 时,系统没有存储或者存储很少新用户信息,包括查看对象的历史记录和新对象 项目的评分,从而导致传统协同过滤方法无法对其进行预测评分和推荐。冷开始 问题的极端情况是当协同过滤推荐系统刚开始运行时,每个用户在每个项目上都 面临冷开始问题。 ( b ) 稀疏性( s p a 菇i t y ) 问题 这也是很多推荐技术都面临的问题。稀疏性是指在推荐系统中,由于每个用 户涉及的信息相当有限,用户购买或所评价的产品占总数的比例很小,据统计, 用户购买产品总量占网站商品总量的1 左右,于是造成用户项评分矩阵非常稀 疏,很难找到相似用户,同时也使相似性计算的耗费也会很大,导致推荐性能很 * 在o 本研究主要解决推荐系统存在的稀疏性问题。 ( c ) 延展性( s c a l a b i l i t y ) 问题 协同过滤方法的计算复杂度通常与交易数目或产品数目大小成正比,因而当 用户与产品逐渐增加时,计算时间和复杂度呈几何两极递增,这将严重影响推荐 系统的性能。 ( d ) 特殊用户问题 在推荐系统用户,会有部分用户兴趣爱好与任何用户群体都不相似,或者说 他们没有固定的兴趣,对这类用户,协同过滤系统无法进行推荐。 2 4 2 基于内容过滤推荐 基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) 是指根据用户选择的项目, 将其它类似属性对象作为推荐结果呈现给用户,属于项目关联方法,该技术源于 第2 章电子商务推荐系统概述 利用关键字检索方法。基本思想是:用户的兴趣是稳定的,一个用户更喜欢那些 与他已购买产品具有相似属性的产品,依据用户购买记录来反映产品之间的联 系,如一个产品的购买经常导致另一个产品或一组产品的购买,方法通过分析产 品间的关联性,计算分析得出推荐产品集。方法的优点是不需要依据用户对项目 的评价,而是基于用户过去选择过的项目的属性,了解用户本身的偏好,从而考 察用户资料与待测项目相匹配的程度。 基于内容过滤方法关键是计算产品之间的关联性。首先,对每个产品i 利用 k - n n 计算与他最相似产品集n = u ,办,以) 与近似度量( s ,是,瓯】,令用户 购买产品集为u ,然后将计算一u 的差集,便得到候选推荐产品集c 。计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论