




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着信息技术的迅猛发展和信息资源的不断膨胀,电子商务也随之蓬勃发展,推荐 系统被越来越广泛地应用于电子商务的网站中。推荐系统是电子商务个性化服务的重要 组成部分,它打破了传统的商业运作模式,扮演着传统商业中销售人员的角色。对于增 加商品的销售量,提高顾客的忠诚度等都有较大的贡献。目前协同过滤技术是推荐系统 中最为成功的技术之一,并且获得了比较广泛的应用。但是随着用户人数的不断增加和 商品本身的因素限制,现有大多数协同过滤算法普遍存在着几点弊端,主要有数据稀疏 性问题、系统可扩展性问题、冷启动问题以及同义词问题等。几乎所有的推荐系统中, 每个用户涉及的信息量相当有限,而在这些系统中一般用户购买商品的总量却仅占网站 所有商品数量的1 甚至更少,因此造成了用户对商品评分的数据非常稀疏。因此,为了 提高推荐质量,许多研究人员都试图从i i 同的角度对用户和商品信息进行分析、处理。 本文首先对推荐系统的基本知识进行详细介绍,接着通过阐述协同过滤推荐系统中 的问题引出数据稀疏性问题,总结目前解决数据稀疏性问题的几种方案。然后通过对基 于项目和基于用户的协同过滤算法的比较与分析,分别从两个不同的方面针对数据稀疏 性问题提出改进算法:其一是对提高算法精度的算法引入项目的属性,加入了基于项目 类别的用户偏爱度,针对用户更喜爱的项目类别计算与目标项目的相似性,使得计算项 目相似性方面减少计算数据,提高计算速度,计算的准确性更高;其二是对降低数据集 稀疏性方法采用s l o p eo n e 方法预测填允未评分的项目,降低数据集的稀疏性,计算目 标项目与其他所有项目的相似性,然后对目标项目进行推荐。对改进算法进行了相似的 理论分析,阐述其可行性,给出了改进算法在标准数据集上的实验结果,并对改进算法 与原算法进行了相关性能的比较分析。实验表明,改进的算法能够有效缓解数据稀疏性 问题,提高推荐系统的推荐质量。 关键词:推荐系统;协同过滤;稀疏性:相似性 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y a n de v e r - e x p a n d i n go f i n f o r m a t i o nr e s o u r c e ,e - c o m m e r c ea l s od e v e l o p sr a p i d l y , r e c o m m e n d a t i o ns y s t e m sa r em o r e a n dm o r ew i d e l ya p p l i e di ne c o m m e r c ew e b s i t e s r e c o m m e n d a t i o ns y s t e mi sa ni m p o r t a n t c o m p o n e n to fp e r s o n a l i z e de c o m m e r c es e r v i c e ,w h i c hb r e a k st r a d i t i o n a l c o m m e r c i a l o p e r a t i n gp a t t e r na n dp l a y sas a l e ss t a f fr o l ei nt r a d i t i o n a lc o m m e r c e i tc a ni n c r e a s et h es a l e s o fm e r c h a n d i s ea n de n h a n c et h el o y a l t yo fc u s t o m e r s n o wc o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g y i so n eo ft h em o s ts u c c e s s f u li nr e c o m m e n d a t i o ns y s t e m s ,a n di ti sa p p l i e dw i d e l y b u tw i t h t h ec u s t o m e r si n c r e a s e da n dt h ef a c t o ro fm e r c h a n d i s e st h e m s e l v e sl i m i t e d ,c u r r e n t l ym o s to f c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m su s u a l l yh a v es e v e r a lm a j o rl i m i t a t i o n s ,s u c ha sd a t as p a r s i t y , s c a l a b i l i t y , c o l ds t a r ta n ds y n o n y m i t ya n ds oo n a l m o s te v e r yr e c o m m e n d a t i o ns y s t e m ,i ti s i m p o s s i b l ef o re v e r yc u s t o m e rr a t e s o na l lt h em e r c h a n d i s e s i nf a c t ,t h ea m o u n to ft h e m e r c h a n d i s e so n ec u s t o m e rb o u g h ti sl e s st h a n1 o fa l l ,a n dt h ed a t as e tw h i c hc u s t o m e r s r a t e do nm e r c h a n d i s e si ss p a r s e i no r d e rt oi m p r o v et h eq u a l i t yo fr e c o m m e n d a t i o ns y s t e m , m a n yr e s e a r c h e r st r i e dt oa n a l y z ec u s t o m e r sa n dm e r c h a n d i s ei n f o r m a t i o ni nd i f f e r e n tp o i n t s w ei n t r o d u c e dt h eb a s i ck n o w l e d g eo fr e c o m m e n d a t i o ns y s t e md e t a i l e d l yi nt h i sp a p e r , t h r o u g he x p a t i a t i n gt h ep r o b l e m so fc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns y s t e me d u c e d t h es p a r s ep r o b l e m w es u m m a r i z e ds e v e r a lm e t h o d st os o l v et h i s p r o b l e m t h e nt h r o u g h c o m p a r i n g a n da n a l y z i n gb e t w e e ni t e m - b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h ma n du s e r b a s e d c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m ,w ep r o p o s e dt w oi m p r o v e dm e t h o d sf o rs p a r s ep r o b l e m f r o mt w od i f f e r e n tp a r t s o n eo ft h em e t h o d si s i m p r o v i n gt h eq u a l i t yo fa l g o r i t h m ,w h i c h c o m b i n e st h ei t e mg e n r ea n dc o m p u t e st h es i m i l a r i t i e sb e t w e e nt h ei t e m st h a tu s e r sp r e f e r r e d a n dt a r g e ti t e m i tc a l lr e d u c et h ec o m p u t i n ga m o u n ta n dg e th i g h e rq u a l i t y ;a n o t h e ro n ei si n o r d e rt or e d u c et h es p a r s ed a t a ,f i l l i n gt h eu n r a t e di t e m st h r o u g ht h em e t h o do fs l o p eo n e , a n dg e t t i n gt h er e c o m m e n d a t i o nt ot a r g e tu s e r s w et h e o r e t i c a l l yd e t a i l e da n a l y z et h en e w m e t h o d sa n dp r o v et h e i rf e a s i b i l i t y t h e nt h ee x p e r i m e n t a lr e s u l t st h a tt h en e wm e t h o di s i m p l e m e n t e dw i t ht h eb e n c h m a r ke x p e r i m e n t a ld a t as e ta r eg i v e n ,t h ep e r f o r m a n c eb e t w e e n t h en e wm e t h o d sa n dt h eo l dm e t h o d si sc o m p a r e da n da n a l y z e d t h ee x p e r i m e n t ss h o wt h a t t h ei m p r o v e dm e t h o d sc a na l l e v i a t et h ep r o b l e mo fs p a r s i t ye f f e c t i v e l ya n di m p r o v et h e q u a l i t yo fr e c o m m e n d a t i o n k e yw o r d s :r e c o m m e n d a t i o ns y s t e m ;c o l l a b o r a t i v ef i l t e r i n g ;s p a r s i t y ;s i m i l a r i t y l i 独创性声明 本人郑覃声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得的 成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均己在文中作了明确的 说叫。奉卢明的法律结果由本人承担。 学位论文作者签名:垄垒簦f 1 期:加罗,箩弓 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北 师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文 被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、汇编 本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库( 中国 学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技术信息研 究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 i 保密的位论文在解密后适用本授权书) 学位论文作者签名:至塾至 = 1期:型! ! 墨必 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日 飙垆 电话: 邮编: 东北师范大学硕士学位论文 1 1 引言 第一章绪论 中国互联网络信息中心( c n n i c ) 针对中国互联网络发展状况的统计报告表明, 截至2 0 0 8 年底,我国互联网普及率为2 2 6 ,超过了全球平均水平。而且我国的网民 数也达到了约3 亿。显示了我国互联网的规模不断膨胀。与此同时,国际互联网的发展 也是同新月异。互联网络的发展使人与人之间的时空距离缩短了,改变了人们的新闻观 念,整个世界俨然发展成为一个“地球村”。 随着信息化时代步伐的加快,信息技术迅猛发展,信息资源也在不断扩张。整个互 联网已经成为一个强大的信息库和信息的交换场所,电子商务蓬勃发展起来,改变了传 统的商务模式,有效地扩大国际经济贸易的合作。网络办公、网络购物等实用型的互联 网应用率大幅增长。尽管在虚拟的世界中有诸多不确定或者不安全的因素存在。但是, 完全信息化时代必然是目前互联网络发展的最终趋势。 互联网研究机构艾瑞咨询日前发御的( 2 0 0 8 年度网购市场发展报告显示,2 0 0 8 年中国网络购物市场交易规模已经高达1 0 0 0 多亿元。短短的几年,从0 发展到1 0 0 0 多 亿元的背后,是电子商务飞速发展壮大的过程,电子商务在给人们带来极大便利的同时 也为其他行业创造了更多的就业机会。尤其是在国际化金融危机的影响下,电子商务以 其独特的条件获得良好的发展机遇。 1 2 电子商务推荐技术的研究现状 电子商务( e - c o m m e r c e ) 豫1 的英文名称为e l e c t r o n i cc o m m e r c e 。顾名思义,其包 含两层含义,一是电子活动,二是贸易行为。一般而言,电子商务是在互联网络发展中 产生的种基于浏览器服务器的,而买卖的双发不需见面就能进行的一种商业贸易活 动。电子商务的应用范围主要有三个方面:企业对企业( b u s i n e s s t o b u s i n e s s ) ,企 业对消费者( b u s i n e s s t o c u s t o m e r ) 以及消费者对消费者( c u s t o m e r t o c u s t o m e r ) 。 企业对企业的电子商务的供求双方都是企业,其通过互联网络进行货物的买卖,包括发 货、送货、收获和货物的支付;企业对消费者的电子商务是目前大众很熟识的一种交易 方式,消费者通过网上购物平台与企业进行交易。比较常见的是网上书店,网上商城等。 比如国外的a m a z o n ,e b a y ,国内的淘宝网,当当网,阿里巴巴等网站;消费者对消费 1 东北师范大学硕士学位论文 者也是一种比较常见的电子商务模式,通过构建一个在线交易平台,交易的买卖双方都 是独立的个人,卖方提供交易的物品,买房通过竞价来购得物品。 国外的电子商务发展十分迅速,特别是欧美国家,电子商务带来的经济效益已直逼 传统的商务。我国的电子商务发展可以说是后起之秀,尤其是网络购物方面,近年来已 经成为年轻人的购物主体。虽然网上商品的价格可能比常规的商店中的商品价格低。不 过网络购物也存在一定的局限与缺陷。一般而言,普通的网民通过网上购物都会担心网 上购物的安全性,网上提供的商品的可靠性。这些都成为制约电子商务的发展。 互联网已经成为人们工作、生活、娱乐中不可或缺的工具。据不完全统计,截止到 2 0 0 8 年1 月份,中国网页总数已经达到了8 0 多亿个。在如此浩瀚的网络信息中想要找 到自己所需要的信息常常很困难。目前人们获取信息的方式主要来自于对搜索引擎的使 用。这是种很被动的方式,而且通过搜索得出的结果往往也不是自己所需要的信息, 或者需要通过浏览大量的其它非有用的信息后4 能得到自己满意的信息,无法达到高效 率的要求。个性化信息主动服务于是应运而生,电子商务的个性化服务不同于传统的买 卖销售关系,它利用互联网络的普及与流行,根据顾客的性别、年龄、职业以及偏好等 个人特点有针对性地提供商品和服务。从而吸引网站的浏览者通过互联网络中庞大的商 品信息中选择他们所需要的商品。推荐技术是电子商务个性化发展的主要方法之一,个 性化推荐系统足一种主动的信息服务系统,町以弥补搜索引擎的被动获取信息的缺点, 目前推荐系统已被越来越广泛地应用在电子商务网站中。 从消费者的角度来看,电子商务推荐系统。”能够帮助用户从成千上万的商品中选出 自己满意的商品;从企业的角度来看,它能够为企业节约成本,减少开支,提高销售效 率,从而增加企业的效益。因此电子商务的应用必然随着信息社会的发展而越来越广泛。 目前国内外的许多学者都已开始研究电子商务推荐系统,并且已有一定的研究成果。自 1 9 9 9 年以来美固计算机协会( a c m ) 召开的电二子商务研讨会中,曾多次把推荐系统作为 研讨的专题3 。近年来我国电子商务推荐系统的应用也初见端倪,虽然个性化的推荐方 案在有些网站已有出现,但是主流的推荐还是依靠查找或者检索技术。 目前使用推荐系统的电子商务网站较多,涉及的行业也很多,推荐的对象包括书籍, 音像,文章等。绝大多数的推荐系统主要运用在电子商务网站中,比如非常著名的a m a z o n 电子商务网站就应用了典型的基于协同过滤方法的推荐系统,它能够通过客户的购买历 史记录,对产品的评价以及客户本身的个人属性来推荐客户可能喜欢的产品。虽然电子 商务推荐系统的推荐技术有了长足的进步,但是面对日益庞大的网络数据库,推荐质量 的较大提升则是一个很现实的问题,并且实时性难以保证。 1 3 本文的主要研究内容 本文主要是时电子商务推荐系统中的协同过滤方法进行研究,通过对协同过滤方法 中数据集的稀疏性问题进行分析,分别从稀疏性不变的前提下提高算法精度和采用可行 2o 东北师范大学硕士学位论文 的方法来减小数掘集的稀疏性两个不同的方面束缓解数据稀疏性问题,对于提高算法精 度的方法采川改进传统的基于项目的协l 司过滤方法,而对于减小数据集的稀疏性采用 s l o p eo n e 预测填充未评价内容的评分,然后采用基于项目的协同过滤方法进行相似性 计算并做出推荐。使之能够提高系统的推荐质量。研究内容主要包括: ( 1 ) 对现有的主要推荐技术进行分析,总结并得出各种方法的优劣。 ( 2 ) 研究和探讨协同过滤推荐技术的常见问题,详细介绍数据稀疏性问题。 ( 3 ) 通过对协同过滤推荐技术中数据稀疏性问题的两种解决方法的研究,给出 两种解决方案。 ( 4 ) 针对两种解决方案,使用权威的实验数据集对改进的算法进行实验。并与 传统的几种算法对比评价性能,得出改进的两种算法的优势。 1 4 本文的组织 本文共分为血章,其组织结构如下: 第一章首先引出信息社会的发展现状,近年来互联网络的发展带来的巨大机遇与挑 战。然后介绍电子商务技术以及国内外推荐系统的研究现状。最后对本文工作的简单说 明。 第二章讲述电子商务个性化推荐系统的由来及概念,然后介绍电子商务个性化推荐 系统的组成结构,最后详细讲述目前电子商务个性化推荐系统使用的各种技术,尤其是 对基于协同过滤的电子商务推荐系统的研究。 第三章对il 前协同过滤推荐系统中存在的问题进行探讨,引出数据稀疏性问题并介 绍现有的解决力法,对数据稀疏性问题的解决方法的研究,从而给出两种不同的改进方 法,详细描述两种改进算法的实现步骤及算法流程。 第四章简单描述实验所需的数据集、实验环境以及评价指标。然后对传统算法和改 进的算法做实验并对比实验结果,证明改进的算法的可行性。 第五章对本文的研究进行全面总结,指出不足之处,以及对未来工作的进一步规划。 3 东北师范大学硕士学位论文 第二章电子商务个性化推荐系统 2 1 电子商务个性化推荐系统概述 “如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来 十年中最重要的革新之一5 j 。 卜 - 一 1 9 9 41 9 9 5 1 9 9 6 1 9 9 7 1 9 9 81 9 9 92 0 0 02 0 0 12 0 0 22 0 0 32 0 0 42 0 0 52 0 0 6 年份 图2 一l 协同过滤的学术关注度随年份变化趋势 户、h - - - 一, 一 卜 7 1 ,_ 一 一v 891 01 11 21234567891 0l l1 2 2 0 0 5 年时间2 0 0 6 年 图2 - 2 协同过滤的用户关注度随年份变化趋势 图2 1 和图2 2 显示了协同过滤的学术关注度和用户关注度随时间的变化曲线。从 图2 1 中可以看出,从2 0 0 0 开始,学者开始对协同过滤的研究感兴趣,特别是2 0 0 4 年 以后研究热点兴起。而从2 0 0 5 年8 月开始,用户开始使用基于协同过滤的推荐系统, 虽然用户关注度时有下降,但是总体关注呈上升趋势。从近年来协同过滤推荐系统的关 4 加的如加加o 一 一 越划水长扑耀捌叵盎 一 一 趔赳水足旺爨捌匿盎 一 东北师范大学硕士学位论文 注度来看,对其研究的必要性显而易见。下面来看两个例子。 ( 1 ) 对于某一饭店的一位常客,熟悉他她的服务员会比较了解这位客人的喜好, 比如客人比较喜欢吃辣味的菜肴,不喜欢吃鸡肉,不能点太贵的菜等等。当客人走进饭 店,服务员基本能猜出客人喜欢什么,如果有新的菜品,服务员就会推荐给这位客人。 ( 2 ) 服饰专卖店的导购人员也会给走进专卖店的顾客推荐最近刚上架的新品或者 打折商品,能够猜出哪一类衣服比较适合特定的顾客。这时顾客会主动与导购人员交谈, 更多透露些自己关于衣着打扮的看法,让导购人员继续给出建议,帮助选中最心满意 足的款式。 以上两个例子中,服务员好比是一个推荐系统,知道这位客户的消费习惯。电子商 务时代的到来,网络中的虚拟客户成千上万,仅仅靠面对面进行交易已经不可能。这就 需要电子商务推荐系统,但其基本原理与服务员没有区别,就是对客户比较了解。 1 9 9 7 年,r e s n i c k 和v a r i a n 提出“电子商务个性化推荐系统是利用电子商务网站 向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助 用户完成购物过程的系统哺切。这也是c o m m u n i c a t i o no ft h ea c m 杂志的协同过滤专刊 第一次提出并使用了“推荐系统”这个名词。从此以后,推荐系统开始应用于电子商务 领域中,并为电子商务的飞速发展提供了一个良好的发展平台。 一般来说推荐的模式有三种:个人化推荐( p e r s o n a l i z e dr e c o m m e n d a t i o n ) 一基 于个人过去的行为模式进行推荐;社会化推荐( s o c i a lr e c o m m e n d a t i o n ) 一基于相似 用户过去的行为模式进行推荐;项推荐( i t e mr e c o m m e n d a t i o n ) 基于项本身进行推 荐。个性化推荐系统是一种主动的信息服务系统,可以弥补搜索引擎的被动获取信息的 缺点。 总体说来,一个成功的电子商务个性化推荐系统的作用主要表现在以下三方面订1 : ( 1 ) 将电子商务网站的浏览者转变为购买者:电子商务推荐系统的访问者在浏览 过程中经常并没有购买欲望,而推荐系统能够向用户推荐他们感兴趣的商品,从而促成 购买过程。 ( 2 ) 提高电子商务网站的交叉销售能力:个性化推荐系统在用户购买过程中向用 户提供其他有价值的商品推荐,用户能够从系统提供的推荐列表中购买自己确实需要但 在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。 ( 3 ) 提高客户对电子商务网站的忠诚度:与传统的商务模式相比,电子商务系统 使得用户拥有越来越多的选择,用户更换商家极其方便,只需要点击一两次鼠标就可以 在不同的电子商务推荐系统之间跳转。电子商务个性化推荐系统分析用户的购买习惯, 根据用户需求向用户提供有价值的商品推荐。如果推荐系统的推荐质量很高,那么用户 会对该推荐系统产生依赖。因此,电子商务个性化推荐系统不仅能够为用户提供个性化 的推荐服务,而且能与用户建立长期稳定的关系,从而有效保留客户,提高客户的忠诚 度,防止客户流失。 目前对电子商务个性化推荐系统的研究主要是改进当前的电子商务推荐系统,使之 5 东北师范大学硕士学位论文 能够对用户做f l j 史精确的推荐。 2 2 电子商务个性化推荐系统的组成结构 电子商务个性化推荐系统主要由以三个方面构成:输入( i n p u t ) 、推荐技术 ( r e c o m m e n d a t i o nm e t h o d ) 和输出( o u t p u t ) 。图2 3 即电子商务个性化推荐系统的组成 结构。 图2 3 电子商务个性化推荐系统组成结构 目前,大型的电子商务推荐系统为了获取更高的推荐质量,常常需要用户输入多种 信息。一般来说,输入的方式有两种哺1 :显示输入和隐式输入。显示输入是用户有目的 地向推荐系统提供自己的信息,比如注册成为电子商务网站的会员需要输入用户的基本 属性( 年龄,性别,职业等) ,用户的兴趣爱好,浏览产品的时候对产品的评价( 评分和 文本评价) ,通过关键字搜索自己需要的商品等:隐式输入也有多种,比如用户浏览电 子商务网站的同志记录,用户浏览哪类商品的次数多、时间长;用户购买商品的历史记 录等。 电子商务推荐系统的核心部分是推荐的技术,它直接决定着推荐系统的性能优劣。 电子商务发展全今,推荐的技术也是层出不穷。具体的推荐技术将在2 3 中详细讨论。 用户使用电子商务推荐系统,最终的目的就是获得对商品的参考信息,这也是推荐 系统的输出。输出有多种形式,建议是最常见的一种,所有商品经过推荐系统的计算将 用户可能需要的商品推荐给用户,商品可能是单个的,也可能是一个推荐列表;对商品 的预测评分也是输出的一种常见形式,综合其他用户对商品的评价值来输出个标准 值;还有种是评论的形式,其他用户对商品的评价有时候也可以作为用广是否购买该 6 东北师范大学硕士学位论文 商品的一个参考。 2 3 电子商务个性化推荐系统使用的技术 根据推荐的技术,电子商务个性化推荐系统可以分为以下几类:一是基于内容 ( c o n t e n t b a s e d ) 的推荐,系统通过学习用户已经评价过的商品的特征来获得对用户兴 趣的描述。用户的兴趣爱好随着时间的推移不断变化,系统也是不断地更新学习用户的 兴趣;二是基于协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 的推荐,协同过滤推荐技术是当 前最热门的推荐技术之一;三是基于内容过滤和协同过滤的混和型推荐;四是基于数据 挖掘的推荐,比如数据挖掘中常见的关联规则、聚类、分类等都可以作为推荐系统的使 用技术。 2 3 1 基于内容的推荐 基于内容的电子商务推荐系统通过比较商品之问的相似性实现推荐的功能。一般说 来,基于内容的推荐系统是仅仅考虑商品和商品之间的相似性。其优点是简单并且有效。 商品间的相似性可以离线进行计算,所以推荐的速度快。缺点是不能推荐用户可能感兴 趣的新的商品,只能推荐与用户已有兴趣相似的商品。如新闻过滤系统n e w sw e e d e r 就 是典型的基于内容推荐的系统一- 州。 2 3 2 基于协同过滤的推荐 协同过滤推荐是目前研究最多,应用广泛而且效率比较高的一种个性化推荐技术。 它是基于这样一种假设,评分相似的用户或者项目( 商品) 也比较相似。而预测的结果正 是最相似的用户或项目的真实评价,因此也可以称之为最近邻协同过滤推荐技术。历史 上第一个基于协同过滤技术的推荐系统是由d a v i dg o l d b e r g 等人在1 9 9 2 年构造的邮件 系统t a p e s t r y 1 。在1 9 9 4 年有人认为协同过滤是把群体对项目的观点作为建议推荐给 目标用户。直到2 0 0 0 年左右,协同过滤推荐技术彳被人提出用于电子商务网站中。较 早时期的协同过滤技术主要是通过与目标用户兴趣相似的一组其他用户对某一商品感 兴趣,则该目标用户对其商品也感兴趣。这就是基于用户的协同过滤技术2 1 3 3 。现在已 延伸出基于项目的协同过滤技术n 4 15 1 6 1 ,其思想是通过计算项目之间的相似性预测用户 对感兴趣商品的类似商品也感兴趣。无论是哪一种协同过滤推荐,一般来说可以分为如 下三个阶段:用户对项目评分;找到最近邻居引;对用户进行推荐。图2 - 4 所示的就是 一个典型的协同过滤推荐的步骤。 7 东北师范大学硕士学位论文 1 11 2 i n u l r l lr 1 2 r i n u 2r 2 1 r 2 2 r 2 n u 。r m lr r n 2 r m n o _ f j ,、 u 对 项h - :雾 果 用户对项目评分形成最近邻居 图2 - 4 协同过滤推荐步骤 孵 i ;: 匿:;习 睡: i l x 1 2 x1 3 x 1 4 x i m x 产生推荐 ( 一) 基于用户的协同过滤推荐技术 基于用户的协同过滤推荐技术( u s e r b a s e d ) 是指兴趣相似的用户感兴趣的商品也 比较相似。因此,为了得到目标用户喜爱的商品,可以在不询问目标用户的同时分析与 目标用户兴趣相似的其他所有用户,其他所有用户最喜欢的商品可以被认为是目标用户 喜爱的。 基于用户的协同过滤推荐技术的算法步骤: ( 1 ) 首先需要获得所有用户对项目已经评分的数据。通过相似性计算方法计算目 标用户与其他所有用户之间的相似性。 ( 2 ) 通过相似性数值的排列得出与目标用户最相似的t 个用户,作为目标用户的 最近邻居集合。 ( 3 ) 根据推荐的算法从目标用户的最近邻居集合中产生目标用户对目标项目的预 测评分。 ( 4 ) 按照预测值的高低选择前s 个目标项目推荐给目标用户。 具体步骤如下: 第一步:输入数掘 用一个m * n 阶的矩阵a ( m ,n ) 表示用户对项目的评分,其中m 行表示m 个不同的用 户,n 列表示n 个不同的项目。第i 行第j 列的元素r 就表示用户i 对项目j 的评分。 评分越高表示用户对项目的喜爱程度越高。用户一项目评分矩阵如下图所示。 表2 - 1 用户项目评分矩 u s e r m o v i ei l1 2 i 。 u lr i ir 1 2 r 1 。 u 2r 2 lr 2 2 r 2 。 u r r _ 2 r 。 第二步:相似性计算,获得最近邻居 算法的核心部分就是计算目标用户的最近邻居集合n e a r e s t n e i g h b o r 。即:对于 一个目标用户i ,要获得其最相似的前t 个邻居集合n n 。,n :,n 。) ,i 不属于n ,n 。 8 东北师范大学硕士学位论文 到n 。是一组从大到小排列的相似度值。计算用户之l 日j 的相似性有多种方法,常见的主要 有相关相似性,余弦相似性以及修正的余弦相似性。 ( 1 ) 相关相似性( c o r r e l a t i o n b a s e ds i m il a r it y ) 相关相似性是通过p e a r s o n 相关系数进行度量的。设经用户i 与j 共同评分的项目 集合用i ;。表示,则用户i 与j 之间的相似性s i m ( i ,j ) 为: 罗( r i 。一r o ( r j r j ) s i m ( i ,j 卜藩斋礓面 眈。 其中,r i , a 表示用户i 对项目a 的评分,r i 和r j 分别表示用户i 和用户j 对项目的 平均评分。 ( 2 ) 余弦相似性( c o s i n e b a s e ds i m i l a r i t y ) 用户评分可以看作n 维项目空间上的向量,通过计算向量之间的余弦夹角来衡量两 个用户之间的相似性。若用户对某项目没有评分,则将相应分量值设为0 。设用户i 和 j 在n 维项目空间上的评分分别表示为向量,则用户i 和j 之间的相似性s i m ( i ,j ) 为: s i m ( i ,j ) 喇c o ( j ,j ) 。赫 他2 ) 其中,分子为两个用户评分向量的内积。分母为两个用户向量模的乘积。 ( 3 ) 修正的余弦相似性( a d j u s t e dc o s i n es i m il a r i t y ) 由于传统余弦相似性并没有考虑不同用户对项目的评分尺度问题,影响预测的准确 性。因此,为了改善该缺陷,可以通过修正的余弦相似性度量方法减去用户对项目的平 均评分。设用户i 和用户j 共同评分过的项目集合用i ;。表示,i 。和i ,分别表示用户i 和用户j 各自的对项日的评分,r ;和r j 分别表示用户i 和用户j 的平均评分。则用户i 和用户j 之间的相似性s i m ( i ,j ) 为: 一一 :( r i a r o ( r j ,- 一r j ) s i m ( i ,j 卜黍焉礓丽 3 第三步:得出预测评分 通过上面相似性方法的计算,可以利用下面的两种方法来预测目标用户i 对项目a 的评分p ( i ,a ) : ( 1 ) 传统方法: 9 东北师范大学硕士学位论文 邓为面号掣 ( 2 4 ) 其中,r :表示目标用户的平均评分,n u 为最近邻居用户集合,j 为邻居用户。 ( 2 ) 权重和方法: :雨j s i m ( i , j ) x r j , ( 2 5 ) 其中,r 如表示邻居用户对项目a 的评分。 ( 二) 基于项目的协同过滤推荐技术 基于项目的协同过滤推荐技术( i t e m - b a s e d ) 是由s a r w a r 教授于2 0 0 1 年在第十届国 际w w w 会议上提出的u 引,由于传统的基于用户的协同过滤推荐技术是计算用户之间的相 似性,当两个用户共同评分的项目很少甚至没有,即评分的数据极端稀疏的时候,两个 用户的相似性很低甚至为0 ,但实际上两个用户的相似性并非如此,在此基础上,基于 项目的协同过滤推荐技术应运而生。 基于项目的协同过滤推荐技术的出发点是寻找与目标项目相似的其他项目集合,假 如用户对与目标项目相似的其他项目感兴趣,那么用户对目标项目也感兴趣。从稳定性 来说,用户对感兴趣的项目可能会随着时间不断变化,而项目的属性是不变的或者相对 比较固定。因此,基于项目的协同过滤推荐技术从一定程度上缓解数据稀疏性的问题。 基于项目的协同过滤推荐技术的算法步骤: ( 1 ) 首先需要获得所有用户对项目已经评分的数据。通过相似性计算方法计算目 标项目与其他所有项日之间的相似性。 ( 2 ) 通过相似性数值的排列得出与目标项目最相似的x 个项目,作为目标项目的 最近邻居集合。 ( 3 ) 根据推荐的算法从目标项目的最近邻居集合中产生用户对目标项目的预测评 分。 ( 4 ) 按照预测值的高低选择前y 个目标项目推荐给目标用户。 基于项目的协同过滤推荐技术与基于用户的协同过滤推荐技术的步骤基本接近。主 要不同点在于相似性和预测评分的计算。基于项目的协同过滤推荐技术的相似性算法也 有三个:相关相似性,余弦相似性和修正的余弦相似性。 ( 1 ) 相关相似性( c o r r e l a t i o n b a s e ds i m i l a r i t y ) 设对项目i 和项目j 共同评分过的用户集合用u ,。表示,则项目i 和项目j 之i 日j 的 相似性s i m ( i ,j ) 通过p e a r s o n 相关系数度量为: 1 0 酽“_ r i ) ( r 圹r j ) ( 2 6 ) 5 1 皿u 户面蔷帮 一“7 咖刚) 一s 刚) 5 赫 汜7 ) ( r 扩i ) ( r 幻一_ ) s i m ( 讶户葶赢厨雨 q 舟 p(u,;)=ii+ls_imi主(i下,j矿)x(r,frjj) ( 2 9 ) 脚。=flsim(i,j)xr,j 汜 其中i 和i 表示用户对项目i 和j 的平均评分,n i 为最近邻居项目集合,s i m ( i ,j ) 东北师范大学硕士学位论文 为目标项目i 和邻居项目j 之l 日j 的相似性,r 。表示目标用户u 对邻居项目j 的评分。 ( 三) 混和型推荐 基于协同过滤和基于内容过滤这两种技术都有它们本身的优缺点,在实际应用中, 有些推荐系统就结合使用这两种技术,尽量利用它们的优点而避免其缺点,提高推荐系 统的性能和推荐质量。 ( 四) 基于数据挖掘技术的推荐 协同过滤是目前在电子商务推荐系统中应用较为成功的推荐技术,但是协同过滤推 荐需要用户显式地输入对商品的评分,一个完美的推荐系统是不需要用户主动提供任何 信息就能够获得高质量的推荐。因此,从某种意义上说,协同过滤推荐不仅使用不方便, 而且当用户评分数据很少的时候很难保证推荐质量。同时,协同过滤推荐无法处理非注 册的用户。随着用户和商品数量的不断增长,用户的个人信息和评分的数据也是呈指数 增加。服务器中保存着用户访问电子商务网站的同志、浏览记录、购买记录等,面对这 些海量的数据,为了提高推荐系统的推荐质量和推荐效率,基于数据挖掘技术的推荐系 统应用也越来越广泛。常见的可以应用于推荐系统中的数据挖掘技术有关联规则、聚类、 分类等。 ( 1 ) 关联规则 关联规则n 踟就是在一个交易数据库中统计购买了商品集x 的交易中有多大比例的 交易同时购买了商品集y ,得到的关联规则表示为:x = y s ,c 。其中s 表示关联规 则的支持度,c 表示关联规则的置信度。 关联规则的发现算法很多,如a p r i o r i ,a p r i o r i t i d ,d h p ,f p - t r e e 等。使用关联 规则算法找出所有满足最小支持度和最小置信度的关联规则r ,找出r 中所有被客户 支持的关联规则r 。,即关联规则左边的所有商品都被客户购买,找出被关联规则r 。所预 测并且没有被客户所购买的所有商品p ,根据p 中商品在关联规则r 。中的置信度排序, 如果某商品被多个规则预测,则取置信度最大者作为排序依据,挑选前n 个商品作为算 法输出。关联规则算法第一步,也就是关联规则的发现是最关键但也是最耗时的,所以, 可以采用离线的方式进行计算。 ( 2 ) 聚类 聚类n9 2 们分析的对象是数据,是发现数据分布的一项重要技术。 聚类就是将数据对象分组成若干个类( 也可以称之为簇,c l u s t e r ) ,使得在同一个 簇中的对象具有较高的相似度。而不同的簇中的对象相似度低。聚类分析可以描述为: 数据集合v v 。,v 。,v 。) ,其中v i = l ,2 ,n 称为数据点,根据数据点之间的相似程 度将数据集合分成k 组,即: c 。,c 。,c 。 ,c 。( i = 1 ,2 ,k ) 称为簇。 聚类用于推荐系统中的介绍将在3 2 4 中详细描述。 ( 3 ) 分类 分类是指将数据映射到预先定义好的群组或类。也就是说,对数据进行分类中的类 别是已经被确定了。其可以描述为:给定的数据集合d d i ,d :,d n ) 和类别集合k k 1 2 东北师范大学硕士学位论文 k 一,k 。 ,指定一个映射f :d k ,使得每个数掘集合d 中的数据都被分配到一个类中。 在传统的协同过滤推荐系统中的两个主要对象是用户和项目。对于用户来说,可以 根据人口分类特征知识进行分类心:不同的年龄段的人兴趣也不同,在电影的选择上, 通常来说儿童喜欢看动画片,青年人喜欢看爱情片或动作片,而老年人可能就比较喜欢 看纪录片;从用户的性别来看,男性多喜欢看警匪片,而女性较爱看情感片;不同的职 业有不同的事务理解角度,娱乐界人士看待电影最专业,这类人的评价电影的数据更值 得参考。对于项目来说,可以把犯罪片和枪战片都归为动作片。 在推荐系统中巧妙使用分类知识能够使得推荐的准确性极大提高。 基于w e b 数据挖掘技术的推荐系统通过浏览器的方式隐式地进行用户评分数掘收 集与推荐结果显示,而不需要用户提供主观的评分信息。将数据挖掘技术尤其是w e b 挖 掘技术应用到电子商务推荐系统中,产生完全自动化的推荐,使用户感受到完全个性化 的购物体验,是当今电子商务推荐系统的发展趋势啦2 | 。 1 3 东j t i j l 范大学硕士学位论文 第三章基于协同过滤推荐系统的数据稀疏性问题研究 3 1 协同过滤推荐系统中的问题研究 协同过滤推荐技术在电子商务领域的首要任务就是推荐,尽管目前协同过滤推荐技 术已经成功地应用于电子商务网站中,但是随着用户和商品数量的不断增多,推荐的质 量一直困扰着推荐系统的技术人员乃至电子商务网站的创建者。基于协同过滤技术的电 子商务推荐系统并不分析商品之问的相似性,而是学习目标用户和历史用户之间购买行 为的相似性,从而根据相似历史用户的购买行为生成推荐结果。纯粹基于协同过滤技术 的电子商务推荐系统并不需要商品特征的描述,它学习的是用户购买行为之间的相似性, 而不依赖商品的特征,因此它可以推荐从表面特征上看上去不同但实际上有很大相关性 的商品,协同过滤推荐技术的到来可以说是喜忧参半。所以,与其他的电子商务推荐技 术相比,协同过滤推荐技术的优点有: ( 1 ) 客户购买者不需要领域知识,不需要考虑商品的特征,任何形式的商品都可 以推荐,完全可以共享他人的经验。 ( 2 ) 自我学习能力强,随着时间的推移,用户对商
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民生银行厦门市海沧区2025秋招笔试价值观测评题专练及答案
- 中信银行洛阳市涧西区2025秋招笔试EPI能力测试题专练及答案
- 浦发银行兰州市安宁区2025秋招笔试英语题专练及答案
- 华夏银行武汉市黄陂区2025秋招笔试价值观测评题专练及答案
- 2025年广东肇庆学院教学科研人员招聘笔试高频难、易错点备考题库及参考答案详解
- 广发银行长沙市长沙县2025秋招金融科技岗笔试题及答案
- 2023年度银行岗位考前冲刺测试卷及参考答案详解【模拟题】
- 兴业银行徐州市贾汪区2025秋招面试典型题目及参考答案
- 民生银行重庆市大足区2025秋招笔试EPI能力测试题专练及答案
- 中信银行金华市东阳市2025秋招面试典型题目及参考答案
- 粉尘涉爆安全培训考试题及答案
- 力量国际礼仪培训课件
- 危化品经营安全培训管理课件
- 交通安全应急处置预案公司
- 工商业分布式屋顶光伏项目投资分析
- 保安节前安全培训课件
- 临床运动处方实践专家共识(2025)解读 3
- 用户侧储能系统调度平台创新创业项目商业计划书
- 药厂生产管理培训课件
- 2021-2025年高考地理真题知识点分类汇编之地球的运动
- 2025海南国考时政试题及答案
评论
0/150
提交评论