




已阅读5页,还剩62页未读, 继续免费阅读
(管理科学与工程专业论文)基于协同过滤的个性化推荐算法的优化和应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
捧十协l 州过滤的个性化推荐算法的优化和心用 种算法仍然存在用户的针对性不强等问题。基于此,本文提出了基于上述 二种改进的s l o p eo n e 算法和用户聚类结合的混合推荐算法:加权s l o p e o n e 与用户聚类的混合协同过滤算法( w e i g h t e ds l o p eo n e u s e r c l u s t e r i n g ,w s o u c ) 、评分系数s l o p eo n e 与用户聚类的混合协同过滤 算法( r a t i n gs l o p eo n e u s e rc l u s t e r i n g ,r s o - u c ) 。 本文通过两个实验来验证所提出的算法w s o - u c 和r s o - u c 的性能。一 组实验是将其与s l o p eo n e 、加权s l o p eo n e 和r - s l o p eo n e 进行比较。 另外一组实验是将w s o - u c 和r s o - u c 与其他几种常用协同过滤算法进行比 较。实验结果表明,w s o - u c 和r s o - u c 的预测和推荐准确度是较高的,证 明了本文的研究价值。并且在最后还探讨了应用其建立电子商务推荐模型 的过程。 关键词:个性化推荐;协同过滤;斜坡算法;用户聚类;w s o - u c ;r s o u c i i i i ii iii i i ii ii ii ii il u l y 17 3 6 3 5 1 o p t i m i z a t i o na n da p p l i c a t i o no np e r s o n a l i z e d r e c o m m e n d a r l 0 na l g o r i t h mb a s e do n c o l l a b o r a r i v ef i i j e r i n g a bs t r a c t i nt h er e c e n ty e a r s ,w i t ht h ed e v e l o p m e n ta n dm a t u r a t i o no fi n t e r n e ta n d e - c o m m e r c e ,p e o p l eg e tal o to fc o n v e n i e n c ei ni n f o r m a t i o na c q u i s i t i o na n d p u r c h a s eo fg o o d s a tt h es a m et i m e ,t h e r ei sa n ”i n f o r m a t i o no v e r l o a d ”i s s u e u s e r s w a s t eal o to ft i m el o o k i n gf o rs a t i s f a c t o r yg o o d s t h e r e f o r e ,r e s e a r c h e r s p a ym o r ea n dm o r ea t t e n t i o nt ot h ed e v e l o p m e n to fr e c o m m e n d a t i o ns y s t e m r e c o m m e n d a t i o ns y s t e mc a np r o v i d eu s e r sw i t ht h ea p p r o p r ia t e p r o d u c t r e c o m m e n d a t i o nb a s e do nt h eu s e r sh i s t o r yb e h a v i o ra n dp e r s o n a li n f o r m a t i o n i tc a nh e l pe - c o m m e r c es y s t e m si m p r o v et h eq u a l i t yo fs e r v i c e c o l l a b o r a t i v e f i l t e r i n g i so n eo ft h es u c c e s s f u l a p p l i c a t i o n s o f p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yi ne - c o m m e r c er e c o m m e n d a t i o n s y s t e m i th e l p su s e r sq u i c k l yf i n dp r o d u c t so ri n f o r m a t i o no fi n t e r e s tb y s h a r i n gt h ee x p e r i e n c eo fo t h e ru s e r s t h er e s e a r c ho fc o l l a b o r a t i v ef il t e r i n g h a sb e c o m eah o tf i e l do fp e r s o n a l i z e dr e c o m m e n d a t i o n t h i sp a p e r sm a j o r w o r ki st oi m p r o v ec o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m sa n dm a k e o p t i m i z a t i o n i l l t h i sp a p e rd e s c r i b e ss o m ek i n d so ft h er e c o m m e n d a t i o nt e c h n i q u e s t h e n f o c u s e so nt h ea n a l y s i so ft h ec u r r e n ts t a t u s o fc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m s ,a n dd o e sa ni n d e p t hr e s e a r c ha n da n a l y s i so fv a r i o u st y p e so f c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m st oc o m p a r et h e i rr e s p e c t i v ec h a r a c t e r i s t i c s m a i nr e s e a r c ho ft h i sp a p e ri st oi m p r o v ea n do p t i m i z et h es l o p eo n e s c h e m e s l o p eo n ei sa ni t e m b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n a l g o r i t h m s l o p eo n eh a st h ef e a t u r e so fs i m p l ea n de f f i c i e n t ,b u ti ti g n o r e st h e i m p a c to f t h en u m b e ro fe v a l u a t i o n s t h r o u g ht h ea n a l y s i so fi t ss h o r t c o m i n g s , w ed i s c u s s e di t st w oi m p r o v e dm e t h o d si nd e t a i l :w e i g h t e ds l o p eo n e , r s l o p eo n e a l t h o u g ht h ew e i g h t e ds l o p eo n ea n dr s l o p eo n ea l g o r i t h m s h a v eac e r t a i nd e g r e eo fi m p r o v e m e n tt h a nt h esl o p eo n e ,b u tt h et w o a l g o r i t h m sr e m a i nt h e u s e r ss p e c i f i cp r o b l e ma n ds o m eo t h e rp r o b l e m s b a s e d o nt h i s ,t h i sp a p e rp r e s e n t st w on e wa l g o r i t h m sw h i c ha r eb a s e do nt h e i m p r o v e ds l o p eo n ea n d u s e rc l u s t e r i n g :w s o u c ,r s o - u c t h i sp a p e rd e s i g n e dt w oe x p e r i m e n t st ov e r i f yt h ep e r f o r m a n c eo ft h e p r o p o s e da l g o r i t h m s ( w s o - u ca n dr s o u c ) o n eo ft h ee x p e r i m e n t si s t o c o m p a r ew s o u ca n dr s o - u cw i t hs l o p eo n e ,w e i g h t e ds l o p eo n ea n d r s l o p eo n e a n o t h e re x p e r i m e n ti st oc o m p a r e w s o u ca n dr s o u cw i t h s e v e r a lo t h e rc o m m o n l yu s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m s e x p e r i m e n t a l r e s u l t ss h o wt h a tw s o u ca n dr s o u ch a v eab e t t e rp e r f o r m a n c eo f f o r e c a s ta n dr e c o m m e n d a t i o n i tp r o v e st h ev a l u eo ft h i sp a p e r sr e s e a r c h f i n a l l y , w ed e s c r i b et h ep r o c e s st h a tu s i n gw s o u c a n dr s o u ce s t a b l i s ha i v 恭于协同过滤的个性化推荐算法的优化和应用 r e c o m m e n d a t i o nm o d e lf o re c o m m e r c e k e y w o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ;c o l l a b o r a t i v ef i l t e r i n g ;s l o p e o n e ;u s e rc l u s t e r i n g ;w s o u c ;r s o u c 曾 v 苯于m l r d 过滤的个性化推荐算法的优化和心用 v i 基于协同过滤的个性化推荐算法的优化和应用 目录 摘要i a b s t r a c t i i i e | 录、,i i 第1 章引言l i 1 研究背景1 i 2 本文的研究内容2 1 3 本文的组织结构3 第2 章个性化推荐技术4 2 1 个性化推荐的优势4 2 2 主要推荐技术6 2 2 1 基于协同过滤的推荐6 2 2 2 基于内容的推荐9 2 2 3 其他推荐方法1 0 第3 章协同过滤算法分析12 3 1 基于内存( m e m o r y - b a s e d ) 的协同过滤1 2 3 1 1 基于用户( i t e m - b a s e d ) 的协同过滤1 2 3 1 2 基于项目( it e m - b a s e d ) 的协同过滤l6 3 2 基于模型的协同过滤2 0 3 2 1 基于贝叶斯网络2 0 3 2 2 关联规则2l 第4 章基于改进的sio p eo n e 算法和用户聚类的混合推荐2 2 4 1slo p eo n e 算法介绍2 2 4 1 1 一种处理用户一项目评价矩阵的方式2 2 4 1 2s lo p eo n e ( 斜坡算法) 2 3 4 2slo p eo n e 算法的两种改进方案2 5 4 2 1 加权s i o p eo n e ( w e i g h t e ds l o p eo n e ) 算法2 5 4 2 2r a t i n g - s i o p eo n e 算法( 评分系数s i o p eo n e ) 2 6 4 3 基于改进的s l o p eo n e 算法和用户聚类的混合推荐2 7 4 3 1 加权sio p eo n e 与r sio p eo n e 算法的不足2 7 4 3 2 聚类算法2 8 4 3 3 基于用户聚类的混合推荐算法3 l 第5 章实验分析与算法应用模型3 3 5 1 实验数据集3 3 5 2 实验工具w e k a 。3 5 5 3 实验平台3 7 5 4 评价标准3 7 5 5 实验设计3 8 5 6 实验结果与分析3 9 v i i 基于协同过滤的个性化推荐算法的优化和应用 5 6 1w s o u c 、r s o u c 与sio d eo f t 6 、w s o 、r - slo p eo r e 的实验比较4 0 5 6 2w s o - u c 、r s o - u c 与其他常用协同过滤算法的比较4 3 5 7 实验结论4 9 5 8 推荐系统模型的建立4 9 第6 章总结与展望5 1 6 1 总结51 6 2 进一步工作5 l 参考文献5 3 致谢5 6 独创性声明5 7 v i i i 皋十协同过滤的个性化推荐算法的优化和应用 1 1 研究背景 第1 章引言 w e b 2 0 的飞速发展将互联网带入一个空前繁荣的时代,其显著的特征就是 “信息交互”。互联网上的信息量己从w e b l 0 的匮乏转向现在的过度膨胀,人 们已经开始被“信息森林”所包围。大量的用户发现要从“信息森林”中找到自 己想要的那棵树已经变得越来越难。因此,需要一种有效的机制来帮助用户缩减 信息获取过程耗费的时间代价,并且同时保证信息获取的质量。推荐系统【1 , 2 】就 是在这样的背景下,应运而生。它可以给用户带来轻松的体验,用户的大部分时 间不再是耗费在寻找信息上,而是可以聚焦于他们真正感兴趣和需要的东西上。 推荐系统同时也更多地应用于电子商务领域【3 4 1 。电子商务网站是互联网中 非常活跃的一部分,根据艾瑞近期发布的2 0 0 9 年上半年中国网络购物市场发 展报告显示,2 0 0 9 上半年中国网络购物的市场交易规模为1 0 3 4 6 亿元,同比 0 8 上半年的5 31 1 亿元,大增9 4 8 【5 1 。网络购物的便利和较低成本给广大互联 网用户带来了愉悦的购物体验。虽然随着电子商务规模的增长,用户拥有更多的 选择机会,但是另一方面用户也面临着信息超载的问题,良好的目录结构已不足 以完全将用户从中释放出来。用户在找到自己需要的商品之前,常常需要浏览大 量的无用信息。因此,推荐技术的研究对电子商务的发展具有很重要的意义。 目前应用在个性化推荐系统中的主要推荐技术有:基于知识的推荐、基于内 容的推荐、基于用户的协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 和基于项目的协同过滤等 技术。协同过滤是目前各种推荐系统中应用最为广泛和成功的技术。它的基本思 想是:如果两个或多个用户在某些信息( 网页或者商品) 的选择上表现出相同的 兴趣或给出接近的评价,那么在其他一些信息的选择上也可能做出相同的选择或 给出接近的评价。兴趣的衡量往往是根据用户对某一项信息的评分来决定,评分 越高则代表此用户对此项信息的满意度越高。协同过滤通过找出相似的用户群, 根据兴趣相似用户的评价,产生对某些事物的预测评价。由于共享了他人的评价 与经验,在很大程度上保证了推荐的质量。 本文就是在推荐系统的实践和应用广泛开展的背景下,对协同过滤技术进行 弗于协i r d 过滤的个忡化推荐算法的优化和心用 研究和分析,重点探讨了一种基于项目的协同过滤算法s l o p eo n e 的优化,针对 其需要解决的问题如忽略用户的评价数、用户针对性不强等问题提出了优化策 略,致力于进一步减少预测误差,为目标用户提供优质的推荐。 1 2 本文的研究内容 本文以推荐系统的协同过滤技术为研究目标,旨在提出更为优化的推荐策 略,主要研究内容为以下几个方面: ( 1 ) 从不同角度对推荐技术的作用进行了阐述,对目前主要的推荐技术进 行了综述,总结归类了现有的推荐技术,指出其各自的特点、适用范围。在此基 础上,重点介绍了协同过滤技术的发展和分类。 ( 2 ) 介绍了一种简单高效的基于项目( i t e m b a s e d ) 的协同过滤推荐算法: 斜坡算法( s l o p eo n e ) 。详细论述了s l o p eo n e 的推荐原理与特点,针对其不足 的地方进行了分析,讨论了它的两种改进方式:加权s l o p eo n e ( w e i g h t e ds l o p e o n e ) 、评价系数s l o p eo n e ( r a t i n gs l o p eo n e ) 。为了降低评分数据稀疏性对预测 和推荐准确度的影响,克服上述二种改进方式的用户针对性不强等缺点,本文引 入用户聚类的概念来进行推荐的优化,提出了基于上述改进的s l o p eo n e 算法和 用户聚类结合的混合协同过滤的推荐算法:加权s l o p eo n e 与用户聚类的混合协 同过滤算法( w e i g h t e ds l o p eo n e - u s e rc l u s t e r i n g ,w s o u c ) 、评分系数s l o p e o n e 与用户聚类的混合协同过滤算法( r a t i n gs l o p eo n e u s e rc l u s t e r i n g , r s 0 - u c ) ,并详细阐述了其工作原理与优点。 ( 3 ) 使用数据挖掘的开源工具w e k a 实现改进的s l o p eo n e 算法和用户聚类 的混合推荐算法w s o u c 和r s o u c ,以来自m i n n e s o t a 大学进行g r o u p l e n s r e s e a r c h 项目时收集的m o v i e l e n s 数据集和做独立音乐推荐的数据集i n d i s c o v e r ( w w w i n d i s c o v e r n e t ) 作为实验设计的数据进行实验设计与分析。通过实验证明 本文所作的研究是有意义的,并探讨了应用本文提出的算法建立电子商务推荐模 型的过程。文章最后对本文所作的工作进行了总结与展望,提出了下一步研究的 方向。 2 皋于协同过滤的个性化推荐算法的优化和应用 i 3 本文的组织结构 本文共分为6 章,各章的结构和内容安排如下: 第1 章引言。本章介绍了互联网和电子商务迅速发展所带来的问题,探讨 了在此背景下进行推荐技术研究的必要性。然后,说明了论文的研究内容以及结 构安排。 第2 章个性化推荐技术。首先,本章从用户和企业等角度阐述了为什么推 荐是重要的,介绍了当前的商业应用。然后,列举了当前主要的推荐算法及其各 自的特点。对当前该领域的研究工作进行了简要介绍。 第3 章协同过滤算法分析。本章介绍了协同过滤算法的原理、分类,比较 了各种协同过滤算法的优缺点。 第4 章基于改进的s l o p eo n e 算法和用户聚类的混合推荐。s l o p eo n e 是一 种简单高效的基于项目的协同过滤推荐算法,为追求更好的推荐效果,本文将其 改进形式与用户聚类相结合提出新的混合协同过滤的推荐算法,降低数据稀疏性 带来的影响,提高计算时用户群的针对性,分析了改进后带来的优势。 第5 章实验分析与算法应用模型。使用开源软件w e k a 实现了本文提出的 混合推荐算法w s o u c 和r s o u c ,采用广为使用的公开数据集进行实验,证 明了算法的有效性。并在最后探讨了应用这两种算法建立电子商务推荐模型的过 程。 第6 章总结与展望。总结论文所作的工作,并对下一步的研究提出可行的 方向。 3 綦十协j r d 过滤的个性化推荐算法的优化和心用 第2 章个性化推荐技术 2 1 个性化推荐的优势 随着互联网的快速发展,信息技术的逐渐成熟,建立互联网站点的成本已经 越来越低,全球的网站数量和网页数量呈现几何级数的递增。使用搜索引擎进行 传统的信息搜索,在同一主题上得到的搜索结果往往是数以力计的,其中9 9 以上是用户不需要的、不感兴趣的和低质量的。即使是在同一站点,由于信息量 的丰富性,用户通常花费了大量时间在过滤无关的信息或者是较低质量的信息 上。特别是在用户进行无主题的互联网浏览时,这个问题显得更加突出,用户的 时问成本变得更高。可能查找信息的时间为9 分钟,而真正阅读信息的时问却不 到1 分钟。在这种情形下,如何将信息质量高的、与用户兴趣相符的网页主动地 推送给用户是一项非常重要的工作。目前,已有许多网站提供形式各异的信息推 荐服务,用户可以自行订制特定类别的网页进行浏览。然而,这些推荐大部分是 比较简单的,或使用关键词进行推荐,或按照网站的信息分类结构进行推荐。其 特点是个性化程度不高,推荐的范性太强,推荐信息的质量参差不齐。 个性化推荐技术是帮助用户解决这一困境的很好的途径。个性化推荐的出发 点是单个的用户,捕捉的是单个或少数用户的浏览习惯和兴趣。相比泛泛的推荐 来说,具有更强的针对性,不同的个性化推荐技术捕捉用户兴趣的方式和所需的 数据各不相同。有的是根据用户的历史浏览数据进行分析,有的推荐算法则是以 用户对信息的评价为主要数据进行分析。全球领先的搜索引擎g o o g l e 已经在这 方面做了许多尝试,其推出的产品g o o g l er e a d e r 不仅提供了各种类别的、范式 的网络订阅,还通过分析用户的历史订阅行为,提供了更为细致的推荐列表。这 个列表可能是你感兴趣的但却没有订阅的资讯。同时你还可以通过共享好友或他 人的阅读经验而得到一些有益的信息。以李丌复先生的观点来看,通过g o o g l e 的个性化产品,用户完全可以看到自己想要的东西,不只是人找信息,信息也可 以找人。个性化推荐技术的继续发展将使这种行为变得更加准确。 电子商务是目前个性化推荐技术应用的重点领域。在国内的电子商务领域, 个性化推荐还没有得到广泛的应用,只有少数企业如淘宝、当当网等进行了这方 4 基十协同过滤的个性化推荐算法的优化和应用 面的尝试,但是存在个性化程度较低的状况。相较而言,国外许多电子商务企业 如a m a z o n 、e b a y 、e x p e d i a 、n e t f l i x 等都建立了自己的个性化推荐系统,并取 得了良好的应用成果,为企业的收益做出了很大的贡献。a m a z o n 花费三年打造 的推荐系统是目前最为成功的、影响力最大的推荐系统。根据相关统计,其2 0 - 3 0 的销售额来自于此推荐系统【6 1 。 d c c i 互联网数据中心对2 0 0 8 年中国互联网用户消费行为的调查分析表明 网民购物比例在整个消费结构中占据着第二的位置,仅次于网络接入费用,如图 2 1 所示。 一 ”“。 一 ” 2 0 0 8 年中国互联网用户发生互联网消费的比例统计 嗣铬绩入舞用 l 一一1 靶喾1 眄坜科 l :一旦警爹蝥妻曼一 l p 电活等霸终通讯赛用 哪时遘讯口波段鲁 : 电子鄙辖嚣用 提蛹理看,下皱赛用 童乐下鼓舞用 曰铬安全舞用 嗣上变友舞用 o 黝冀e = i c o p y f l g h t0 d c c i2 0 0 9 2 0 ,4 眦 杜末量n = i1 巨7 4 5 u ,w d c c i t o m c l - i 毗1 0 慨 d c g i2 0 0 0 中囤互联网调盘 d c c i 互敢网教据中厶 图2 12 0 0 8 年中国互联网用户消费结构1 7 j 高达4 1 4 的网络购物比例预示着国内电子商务的极大潜力。当前国内的电 子商务网站已经拥有齐全的商品种类,包含丰富的信息,消费者可以自由浏览并 进行消费。但是在电子商务网站信息丰富、商品包罗万象的同时也给消费者带来 了一个问题即信息爆炸的问题。大部分消费者进行某一次购物只是需要一样或少 数几样商品。现在很多的电子商务网站都构建了良好的目录结构和搜索功能,这 让用户在一定程度上降低了搜寻成本,然而即使同一商品也往往有很多不同的商 品提供信息,很容易使用户迷失。 另一方面,许多消费者在逛电子商务网站时并没有明确的购物目标,只是进 行随意的浏览。主动对用户进行用户感兴趣的商品信息推荐,能够刺激消费行为。 目前国内大部分电子商务网站都设计了推荐的功能,但是都显得过于随意,缺乏 5 幕十协l r d 过滤的个性化推荐算法的优化和心用 合理性。其缺点有: ( 1 ) 基本上以热销推荐、产品排行榜为主,这种“一对多”式的推荐忽略 了用户的偏好,缺少针对性导致推荐的质量不高。 ( 2 ) 用户的参与程度较低,无法依靠自身的消费习惯来推动系统做出合理 的推荐。 ( 3 ) 资源浪费。这种简单的推荐浪费大量交易、浏览数据的价值。 相较而言,个性化推荐系统的优势是显而易见的: ( 1 ) 摆脱传统的“一对多”的推荐,用户的历史数据所反映出来的个性信 息能够真j 下被推荐系统使用,从而给出有效的推荐。 ( 2 ) 从用户的角度来看,时间成本得以降低,缩短了信息获取路径。由于 推荐的针对性较强,通常都是给予用户的有兴趣的东西,提升了购物体验品质。 ( 3 ) 把网站浏览者转变为购买者。登录网站的顾客有时仅仅是浏览,并没 有确定的购买意图。推荐系统能够投其所好地向顾客推荐商品,那么他们可能也 会加入到购买者的行列。与一般的电子商务网站相比,提供推荐系统的电子商务 网站将可以把更多的访问者变成购买者。并且受到个性化推荐服务的用户的在线 消费金额相对较高。 ( 4 ) 提高交叉销售能力和用户的忠诚度。个性化推荐系统通过预测浏览者 的消费兴趣,挖掘其中潜在的购买倾向,从而提高商品的交叉销售。用户会因为 良好的消费体验而产生对此网站的粘性,因此可以提高用户的忠诚度。 ( 5 ) 实现“长尾理论”的价值。个性化推荐进一步降低了人们关注和发现 “长尾”的精力和成本。如在a m a z o n 的图书销售额中,有四分之一来自排名 1 0 万以后的书籍。 2 2 主要推荐技术 2 2 1 基于协同过滤的推荐 协同过滤技术广泛应用于当前的电子商务个性化推荐系统,是一种较为成熟 的推荐技术。协同过滤基于与目标用户有相似兴趣偏好的其他用户对某个项目的 评价来判断该项目对目标用户是否有价值,然后决定是否把此项目推荐给目标用 6 基十协同过滤的个性化推荐算法的优化和心用 户。协同过滤的基本出发点是: ( 1 ) 用户的兴趣是非常多样性的,但是可以进行分类; ( 2 ) 用户对每种信息、项目的选择和评价都包含了用户的兴趣偏好; ( 3 ) 用户对某一项目的评价跟其他的兴趣相似的用户做出的评价是相近的。 通过分析所有用户的数据和评价行为,利用其他用户的数据信息的协同过滤 产生对1 1 标用户的推荐,推荐的结果要求是符合用户自身偏好和行为习惯的。协 同过滤所处理的数据对象是用户项目评价矩阵。这个矩阵的构成由项目集与用 户对各项目的评分所组成,表2 1 是一个简单的用户一项目评价矩阵的示例。 表2 1j h j 户一项目评价矩阵 商品项l商品项2商品项3商品项4 用户1 532 用户23 223 用户34 34 用户44 53 用户n 表中的数值代表着相应位置的用户对相应的项目做出的评价,“”代表用户 未对此项目做出评价。目前所采取的评分标准基本上都是5 分制,即1 分为商品 最低评价,评价的满意度跟分值的大小成正比。协同过滤的目标就是根据目标用 户对其他项目的评分以及整个用户群的历史评分数据记录来预测目标用户对某 一个未评分项目的评分。从表2 1 中看,就是要预测表格中的缺失值,然后通过 分析预测后的值,推荐系统可以选择预测分值较高( 代表用户是对此项目是感兴 趣的) 项目对相应目标用户进行推荐。g r o u p l e n s n e t p e r c e p t i o n s i s 】、 r i n g o f i r e f l y l 9 1 、t a p e s t r y t l 0 1 和r e c o m m e n d e 一1 1 1 等都是典型的采用协同过滤技术建 立的推荐系统。 根据协同过滤所采用的算法,b r e e s e 等人【1 2 】将其分为二种主要的类别,即基 于内存的( m e m o r y - b a s e d ) 与基于模型的( m o d e l b a s e d ) 协同过滤两种。基于内存的 协同过滤有时也称为基于全局的或基于记忆的协同过滤。 ( 1 ) 基于内存的协同过滤:该方法主要通过使用统计学的方法寻找具有相似 7 堆于m i r d 过滤的个性化推荐算法的优化和心用 兴趣爱好的邻居用户,再基于邻居进行计算和预测并形成推荐列表。在进行推荐 时,对以前的保留数据进行处理,从而发现能够与目标用户进行匹配的最近邻用 户群,其中最常使用的方法为g r o u p l e n s 中使用的最近邻方法( n e a r e s t n e i g h b o r s ) 。 ( 2 ) 基于模型的协同过滤:该方法主要是使用统计学方法、机器学习以及其 他人工智能方法分析历史评价数据,然后建立出用户的选择偏好模型。最终由此 模型产生预测或推荐结果。目前所使用的方法主要包括关联规则法( a s s o c i a t i o n r u l e ) 、贝叶斯网络( b a y e s i a nn e t w o r k ) 、回归分析( r e g r e s s i o n a n a l y s i s ) 、奇异值分 解( s i n g u l a rv a l u ed e c o m p o s i t i o n ) 等等。 从协同过滤算法的设计视角来看,也可以将其分为基于用户的协同过滤和基 于项目的协同过滤【1 3 】。 ( 1 ) 基于用户的协同过滤:此类算法的设计切入点是用户,通过各种不同的 计量方法计算用户评价矩阵中的用户向量的距离来评估用户的相似性。其核心 概念是如果用户对些项目的评分比较接近,则他们对其它项目的评分也比较接 近。上文中提到的g r o u p l e n s 就是基于用户的协同过滤推荐系统。 ( 2 ) 基于项目的协同过滤:此类算法设计的切入点是项目,利用历史信息来 反映项目之间的关系,其主要假设是项目与项目间具有某种程度的关联,即用户 在购买时,其所购买的产品通常具有关联性。项目的相似性计算要基于所有用户 对项目的评价经验,从项目的角度显示了用户的相似性。基于项目的协同过滤的 特点是由于有计算前的模型,因此能很快地得到推荐结果。 协同过滤算法对推荐项目的本身并没有特殊的要求,能够处理非结构化类型 的复杂对象,它所关注的只是用户对项目的评价信息。协同过滤具备以下一些优 点: ( 1 ) 能够过滤掉一些具有抽象特征的,使用基于内容的推荐方法等难以分 析的项目。如判断艺术品、电影、音乐等商品项目的质量和目标用户对其的兴趣 度。 ( 2 ) 协同过滤系统可以通过测试某一项目满足用户需要的程度来增强推荐 系统的效果,人们可以分析某一项目的质量或者其它内在品质,但计算机却难以 做到。一个基于内容的检索过程可以检索出某导演所有的电影,但如果将基于内 8 笨于协同过滤的个性化推荐算法的优化和应用 容的过滤系统与协同过滤推荐系统相结合,则系统可以只返回该导演的那些拍得 确实好的电影【1 4 】。 ( 3 ) 共享了其他相似用户的经验,减少了用户的反馈量,使得用户不需要 自己做出很多的信息填写工作就能获得有效的推荐。 ( 4 ) 具有推荐新信息的能力。由于它是根据相似用户来推荐资源的,所以 有可能为用户推荐出新的感兴趣的内容【1 5 】。 2 2 2 基于内容的推荐 基于内容的推荐( r e c o m m e n d a t i o nb a s e do nc o n t e n t ) 1 6 】【1 7 1 是从信息过滤技 术发展而来的一种推荐方法。在以此为核心的推荐系统中,通常使用项目的特征 属性来描述项目,作为推荐系统的输入数据进行分析。通过对项目的特征属性进 行分析,得到项目的分类结果,然后发现与用户历史购买或做出过评价的项目相 类似的项目。最后基于此分析结果对用户做出推荐,以此为机理的推荐系统与协 同过滤等方法一样都需要用户的历史行为数据,并且数据集的丰富性是影响推荐 系统最终性能的一个重要因素。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 、概率统计、机器学习、人工 智能( a r t i f i c i a li n t e l l i g e n c e ) 和数据挖掘中的分类及聚类等方法是基于内容的推 荐系统常用的分析项目特征的方法。在基于内容的推荐中,针对每个用户所进行 的推荐都是独立操作的,与其他用户无相关性,与项目特征分析相关。推荐系统 根据信息项的更新即时对相关兴趣用户进行推荐,并从用户对此信息的评价和反 馈中修正用户的兴趣模板或配置文件,从而进一步提高信息推荐的准确性。新闻 过滤系统n e w s w e e d e r 就是一个基于内容的文本推荐系统【l8 1 。 基于内容的推荐的优点是用户的兴趣度模型是通过对项目本身的内容、属性 特征进行学习而得到,据此做出的推荐结果具有高度的易解释性,容易被用户理 解。这种推荐方法不需要分析相似用户群,因此其在推荐的速度上具备一定的优 势。但是基于内容的推荐仍然受到一些因素的限制: 1 ) 项目特征的获取具有一定的局限性。目前基于内容的推荐方法在项目特 征的提取过程中,通常是以获取项目的文本信息为主,格式较为复杂的信息如图 形、图像、音频和视频等难以提取的项目特征都被系统忽略过去。 9 皋十协i r d 过滤的个件化推荐算法的优化和j 避用 2 ) 忽视了其他相似用户具备的推荐价值。基于内容的推荐中不存在邻近用 户的信息交叉操作,只是针对单个用户的配置文件和项目进行分析挖掘。而群体 的评价对于产生j 下确的推荐是有价值的,这一点被系统所忽略。 3 ) 对用户文件的要求较高。用户文件包含了用户的基本数据文件以及兴趣 爱好等信息。基于内容的推荐系统对其具有较高的依赖性,用户文件的质量直接 影响着推荐效果的好坏。而通常用户对于自己建立这些信息都具有一定的惰性, 因此这是一个制约该系统推荐效果的重要因素。 2 2 3 其他推荐方法 ( 1 ) 基于用户人口统计信息的推荐( d e m o g r a p h i cr e c o m m e n d a t i o n ) 钉 用户人口信息统计推荐技术的推荐过程是:首先基于用户个 、属性对用户进 行分类处理,然后再根据相应的类对该类中的目标用户进行推荐。在其他的推荐 。系统,如一些基于统计模型的协同过滤推荐系统中,也有在对用户的信息进行统 计处理后,再利用机器学习方法为用户提供推荐。不过应该指出的是,基于用户 人口统计信息的推荐方法虽然有点像协同过滤的形式,但是两者是不同的。它们 最大的区别就是使用的数据不同,协同过滤所使用的数据是用户项目评分矩阵, 其所有的相似用户、项目的分析处理都是基于此评分矩阵。不同于协同过滤所使 用的反映用户兴趣偏好的历史数据,基于用户的人口统计信息的推荐方法对用户 进行分类时处理的是用户的个人人口统计信息,它并不要求提供相关的用户历史 评价数据。k r u l w i c h 就是典型的采用此推荐方法的系统,该系统利用来自市场研 究的用户个人信息进行统计分析去推荐产品和服务。 ( 2 ) 基于知识的推荐( k n o w i e d g e - b a s e dr e c o m m n d a t i o n ) 基于知识的推荐系统使用功能知识( f u n c t i o n mk n o w l e d g e ) 以及用户知识 和产品知识的融合,通过推理什么产品能满足用户需求来产生推荐。功能知识是 基于知识进行推荐的重要概念。功能知识就是表示某个项目是如何满足某个确定 用户的一种知识,通过这种知识能够解释用户需要和项目推荐之间的关系。这种 推荐方法并不以建立用户的偏好作为基础,因此不需要使用到用户项目评价矩 阵的数据信息。从基于知识的推荐来看,用户资料可以是任意一种能支持推理的 知识结构,功能知识可以是一个较为详尽的关于用户需要的表示1 2 0 。 l o 接于协同过滤的个性化推荐算法的优化和应用 基于知识的推荐系统主要包括基于案例推理技术( c a s e b a s e dr e a s o n i n g , c b r ) 的推荐系统和基于知识推理的推荐系统。基于案例推理的推荐系统引导 用户逐步明确需求,采用案例推理对已有的案例进行过滤和选择,然后依据用户 对推荐结果给出的反馈进行修正与调整,e n t r e e 就是一个基于此方法的推荐系统 【2 。与基于c b r 的推荐技术不同的是,基于知识推理的推荐系统同时使用了用 户知识、商品知识和功能知识结合的方式,采用统一的知识表示方式来表示用户 概要( u s e r p r o f i l e ) 和商品,进而通过各种知识推理方法对用户概要和商品做出 匹配选择,在此基础上向用户做出推荐。 堆十协i r d 过滤的个性化推荐算法的优化和心用 第3 章协同过滤算法分析 3 1 基于内存( m e m o r y - b a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024粮油食品检验人员经典例题附完整答案详解【全优】
- 2023年度全国统考教师资格考试《教育教学知识与能力(小学)》每日一练试卷含答案详解(精练)
- 2023年度银行岗位高频难、易错点题及完整答案详解【各地真题】
- 煤化工产业园项目规划设计方案
- 2024青海柴达木职业技术学院单招《职业适应性测试》模考模拟试题附完整答案详解(夺冠)
- 2025反射疗法师3级综合提升测试卷学生专用附答案详解
- 2025抚州幼儿师范高等专科学校单招《语文》自我提分评估(各地真题)附答案详解
- 2025中考数学总复习《数据与统计图表》题库试题及参考答案详解【培优B卷】
- 2025年自考专业(计算机信息管理)常考点试卷附参考答案详解【巩固】
- 2024-2025学年注册公用设备工程师题库试题附参考答案详解(研优卷)
- 2021年天津医疗服务项目与耗材收费编码(全文)
- 《旅游业可持续发展》课件
- 【MOOC】细胞生物学实验-南京大学 中国大学慕课MOOC答案
- 新:老年人多重用药评估与管理中国专家共识
- 广东省购房合同样本(个人版)
- 中考英语高频单词(背诵版)
- AI技术在电力系统发展中的应用与前景
- 哲学与人生 第二课 树立科学的世界观2.2
- Unit 1 You and Me Section A 1a~2教学设计- 2024-2025学年人教版英语七年级上册
- 火箭制导与控制技术考核试卷
- 部编版一年级道德与法治上册教案(全册)
评论
0/150
提交评论