




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两南人学硕十学位论文 摘要 基于信任关系的协同过滤推荐策略研究 计算机应用技术专业硕士研究生卢竹兵 指导教师唐雁教授 摘要 伴随着电子商务的迅速发展,网络信息过载已经成为目前网络用户所面临的一个严峻的 问题,推荐系统成为解决这一问题的一种有效手段,它根据用户或者商品的信息分析用户的 偏好或商品间的联系,为电子商务用户提供个性化的推荐服务。根据采用的算法不同,推荐 系统分为基于内容的推荐和协同过滤推荐。协同过滤也是目前最常用的一种个性化推荐技术。 传统的协同过滤义分为基于用户的协同过滤和基于项目的协同过滤。 基于用户的协同过滤技术根据用户对项目的评分数据矩阵计算相似度,为目标用户匹配 最近邻居,综合邻居的意见作为最后的推荐。由于用户的评分数据矩阵的稀疏、c o l ds t a n 等 问题的存在,推荐的准确性受到了严重影响。一方面,当用户评分数据很少时相似度很难计 算,同时,在共同评分数据很少的情况下,计算得到的相似度也存在一定的误差,另一方面, 对于c o l ds t a n 用户米说,由于其评分数据很少,推荐系统无法为该用户提供很好的服务。 本文根据传统基于用户协同过滤推荐系统中存在的几个问题,提出了在推荐过程中引入 用户间信任关系的解决方案。本文提出了一种基于信任网络的协同过滤推荐模型,在推荐过 程中将用户间的信任度与相似度有机相结合,提高了推荐的准确率。另外,本文提出了一种 信任关系的传递规则,利用信任关系的传递为c o l ds t a r t 用户匹配到更多的邻居,减轻了由于 c o l ds t a n 用户的评分数据不足而导致系统对其推荐的影响。 针对本文所设计的推荐模型预期达到的目标,在所选数据集上设计了三个不同的实验方 案,分别进行了验证。实验证明,本文所提出的基于信任网络的协同过滤推荐模型在评分数 据矩阵稀疏度很高的情况下能够有效地提高系统的推荐准确率。 关键词:协同过滤推荐系统相似度信任网络信任度传递 西南人学硕十。学位沦义a b s t r a c t s t u d yo n1 r u s tr e l a t i o n s h i pb a s e d c o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d e rs t r a t e g y m a j o r :c o n l p u t e ra p p l i c a t i o n a u t h o r :l uz h u b i n g s u p e i s o r :p r o f t a l l g m a b s t r a c t a st h en o u r i s ho fe 一c o m m e r c e ,i n f o m a t i o no v e r l o a dh a sb e e nt h em o s tu r g e n t i s s u ef o rt h en e 觚o r ku s e r s t h eb i n ho fr e c o m m e n d e rs y s t e mh a sb e c o m eap r e v a l e n t w a y t od e a lw i t hm i sp r o b l 锄;i tp r o v i d e su s e r sw i t hp e r s o n a l i z e da c t i v es e i c et h r o u 班 a 1 1 a l y s i so fu s e r s p r e f e r c n c e sa n dr e l a t i o n s h i pb e 魄e e ni t e m s r e c o m m e n d e rs y s t e m s a r ed i v i d e di n t o 帆oc a t e g o r i e s :c o n t e n t - b a s e dr e c o m m e n d e rs y s t e ma n dc o l l a b o r a t i v e f i l t 酣n g ( c f ) r e c o m m e n d e rs y s t 锄t h el a t t e ri st h em o s tc o m m o nu s e dt e c l u l i q u ei n p e r s o n a l j z e dr e c o m m e n d a t i o n ,w h i c hc a nb ea l s od i v i d e di n t ou s e 卜b a s e dc fa n d i t e m b a s e dc f t r a d i t i o n a lc o l la _ b o r a t i v ef i l t e r i n gr e f e r st ou s e r - b a s e do n e t h r o u 曲c o m p u t a t i o no fu s e rs i m i i 撕t y 筋mr a t i n g so nd i 贷e r e n ti t e m s ,u s e r b a s e d c fc h o o s e st h em o s ts i m i l a ru s e r sa n df o m st h en e i 曲b o r h o o do ft h ea c t i v eu s e r w i t h r e f e r e n c eo fn e i 曲b o r s r a t i n g s ,r e c o m m e n d a t i o nl i s tc a nb eg e l l e r a t e di n c l u d i n gi t e m s w i t hh i 曲p r e d i c t i o n t r a d i t i o n a lu s e r - b a s e dc fh a sm a n yd r a w b a c k s ,s u c ha sd a t a s p a r s i t y ,c o l ds t a r t ,w h i c hs e r i o u s l yi n n u e n c et h ea c c u r a c yo fr e c o m m e n d a t i o n 0 l nt h e o n eh a n d ,u s e rs i m i l 撕t yi sd im c u l tt oc a l c u l a t eu n d e rt h ee i r c u m s t a n c eo fd 砒as p a r s i t y ; o na n o t h e rh a n d ,i fc o m m o nr a t i n gi st o o r a r e ,s i m i l 撕t yo b t a i n e di ss o m e w h a t i n a c c u r a t e , f u r t h e rm o r e , s i n c ec o l ds t a r tu s e r sc o n t b u t el i t t l et ot h es y s t e m , r e l a t i o n s l l i pw i t ho t h e ru s e r si sh a r dt om i n e ,w h i c hl e a d st ot h et r o u b l eo fn e i 曲b o r h o o d f b n n a t i o n ,a sw e l la st h ed i s c o u n to f r e c o m m e n d a t i o ns e r v i c e t bd e a lw i t ht h ep r o b l e m sw ej u s tm e n t i o n e da b o v e ,am e m o di m r o d u c i n gt n l s t r r e l a t i o n s h i pi n t ot i i a d i t i o n a lc fr e c o n m e n d a t i o np i 0 c e s si sp r o p o s e di nt h i sp a p e r p a n i n g 仔o m 仃a d i t i o n a lc f ,u s e rs i m i l 撕t yi sc o m b i n e dw i t hu s e rt m s tv a l u ea n dj o i n t o g e t h e rt op r o d u c eac o m p o u n dv a l u e ,a tw i l i c ht h er e c o m m e n d a t i o ni sg i v e n f u r t h e r i i 两南人学硕十何论文 a b s t r a c t m o r e ,as e to ft n l s tp r o p a g a t i o nr u l e sh a v eb e e nd e n n e d ,u s i n gw h i c ht r u s tr e l a t i o n s h i p c a l lb ep r o p a g a t e dt h r o u 曲t m s tn e t w o r k sa 1 1 dm o r en e i g h b o r sc o u l db em a t c h e df o r c o l ds t a r tu s e r s i nt h i sc a s e ,t h ep r o b l e mt h a tt h es y s t e mc a i ln o tm a l ( er e c o m m e n d a t i o n b e c a u s eo fs h o r to fr a t i n g sc o u l d b ee 腩c t i v e l ya l l e v i a t e d t 0e v a l u a t et h ev a l i d i t yo ft h em o d e l ,t l l r e ee x p 嘶m e n t sh a v eb e e nc o n d u c t e d , w h i c ha i m sa td i 虢r e n tp u 叩o s e si n d i v i d u a l l y b a s e do nt h ed a t a s e tc h o s e ni n “sp a p e r , t h ee x p e r i m e n t ss h o wm a tt m s tn e t w o r kb a s e dc fr e c o m m e n d a t i o ns t r a t e g yg e tab e t t e r p e r f 0 肿a 1 1 c em a nt r a d i t i o n a lc fm e t h o di nt h ec 嬲eo fd a t as p 弱i t y ,r e c o m m e n d a t i o n a c c u r a c yh a sb e e no b v i o u s l yi n l p r 0 v e d k e y w o r d s :c o l l a b o r a t i v ef i l t e r i n g ,r e c o m m e i l d e rs y s t 锄,s i m i l 撕t y t n l s tn e t w o r k , t m s tv a l u e ,p r o p a g a t i o n i i i 独创性声明 本人提交的学位论文是在导师指导下进行的研究工作及取得的研 究成果。论文中引用他人已经发表或出版过的研究成果,文中己加了 标注。 学位论文作者:辛乍丢 签字日期:扣谚年月 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生部可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。 、 、, ,一一一 学位论文作者签名:事夸乍乏 导师签名: ,i 穆l 哆 签字日期:扣窘年f 月,日签字日期:h 垂年r 月;d 日 西南人。学硕士学位论文 第一章绪论 第一章绪论 1 1 研究背景 电子商务的快速发展,使得用户在有限的时间里找到自己所需要的商品信息显得尤为 困难,推荐系统的出现为用户提供了一种快速、有效的信息推荐方法,成为解决信息过载问 题的一个有效手段。通过结合对用户偏好进行分析、信息过滤、机器学习等方法,推荐系统 能够有效地为用户提供智能的个性化的主动服务,使用户能够方便的找到自己所感兴趣的商 品或信息。目前,推荐系统已成为一项有效的智能化的信息服务。实践证明;推荐系统的诞 生在很大程度上促进了电子商务的发展,成为电子商务系统中的一项重要技术。 根据推荐方法的不同,推荐系统通常可以分为两种,一种是基于内容的推荐 1 】,它依 赖于对项目( 商品或者服务) 的准确而丰富的内容描述,需要严密的知识库作为支持。与基 于内容的推荐相比,另一种推荐方法协同过滤推荐不需要准确而丰富的描述【2 ,3 ,4 】, 而是根据用户反馈的信息来识别用户的偏好。协同过滤推荐算法有两种,基于内存的协同过 滤与基于模型的协同过滤,而基于内存的协同过滤义可分为基于用户的协同过滤和基于项目 的协同过滤。通常所说的协同过滤一般指的是基于用户的协同过滤。它通过用户反馈给系统 对项目的评分信息来对用户进行推荐,基于这样一个假设:兴趣相似的用户对一个未知的商 品的喜好也会是相似的。系统对目标用户进行推荐,首先根据用户所反馈的对项目的历史评 分数据,计算用户间的相似度,找到与他相似度最高的n 个用户,即邻居,综合邻居用户 对项目的评分值,找到总体评分值最高且目标用户未评分过的项目集推荐给该用户。 推荐系统是处理信息过载问题的一个有效的工具,它可以从成千上万的信息中过滤出 有用的与用户兴趣相关的一部分推荐给用户。尽管如此,常用的推荐系统仍然存在不少问题, 传统的协同过滤推荐系统( 即基于用户的协同过滤推荐系统) 存在的问题如+ f : 1 评分数据矩阵的稀疏( d a t as p a r s i t ) ,) 【4 ,5 】 协同过滤技术的实现首先需要将用户偏好信息表示成一个用户项目评分数据矩阵。计 算用户间相似性可以转化为计算该矩阵的行向量间的相似性。尽管这在理论上很简单,但实 际上,许多电子商务推荐系统要对大量的数据信息进行处理,而其中用户购买的( 或评分过 的) 商品的总量只占网站商品总量的1 左右,因此造成了用户的评分数据矩阵非常稀疏。 在这种数据量大而且稀疏的情况下,一方面难以找到最近邻居用户集,另一方面相似性计算 的时间耗费也会很大。 同时,由丁评分数据非常稀疏,在形成目标用户的最近邻居用户集时,往住会造成信 息的丢失,导致推荐效率的降低。例如,邻居用户关系传递性的丢失。用户a 与用户b 相 关程度很高,用户b 与用户c 相关程度也很高,但由于用户a 与用户c 很少对共同的产品 进行评分,而认为两者关联程度较低,因此,丢失了用户a 与用户c 之间潜在的关联关系。 西南人。学硕十学位论文 第一。章绪论 2 c 0 1 ds t a n 4 ,5 】 c o l ds t a n 是指当一个新用户进入系统后,由于他对系统中的项目评分数据还很少,推 荐系统难以找到足够的信息来确定他的偏好,因而使得推荐准确率很低,或者不能推荐。这 种情况同样发生在一个新系统投入使用时或一个新的项目进入系统时,由于系统中用户对项 目的评分信息稀疏,导致推荐效果很差。 3 易受攻击性【6 】 推荐系统中的攻击行为分为好多种【6 】,一种典型的行为是在系统中创建虚假用户,这 些虚假用户的偏好与系统中的真实用户的偏好非常相似,当系统进行推荐时这些虚假用户与 真实用户间的相似度就很高,即被当成其邻居而对该用户进行推荐,以实现其商业的目的, 或者某种恶意的欺骗。这些用户的存在严重影响了系统推荐的准确率,损害了消费者的利益。 由于传统的协同过滤推荐系统中诸如d a t as p a r s 埘、c o l ds t a n 等问题的存在,系统对 用户的推荐服务受到了严重影响。一方面,在数据稀疏情况下,若相似度无法计算,系统就 无法对这些用户进行推荐;另一方面,当用户间共同评分的项目数量很少时,计算出的相似 度也存在一定的误差,影响推荐的准确率。本文从这两个方面出发,在已有相关研究成果的 基础上,把信任因素引入到传统的协同过滤推荐过程中,并将其作为相似度一个有益补充, 以克服由于以上问题的存在而对推荐效果的影响。 1 2 研究现状 针对传统推荐系统中存在d a t as p a r s n y 问题,研究者提出了很多解决方案,如对用户 项目评分矩阵进行降维【7 】;运用关联规则获取相关联的项目【8 】,根据关联项目进行推荐; 对用户进行聚类,在每个类中进行协同过滤推荐【2 9 】;结合项目间相似度与用户的相似度【9 】; 基于项目的协同过滤【1 0 ,1 1 ,1 2 】等,这些方法从问题的各自不同的角度考虑,一定程度上 缓解了由于数据矩阵的稀疏对系统推荐效果的影响。取得了一定的效果。但是,在电子商务 用户以及网络商品数量急剧增多的今天,数据的稀疏度在不断扩人,推荐系统对用户的服务 质量仍然面临着严峻的挑战。 在文献 1 5 ,1 9 】中,作者利用同一个社区中用户之间的信任关系,辅助系统做出推荐, 提高推荐的质量。文献【1 3 】利用用户间信任关系的传递,为目标用户匹配到更多的邻居,可 以在一定程度上解决协同过滤推荐存在的d a t as p a r s i t y 问题,而且有益于c o l ds t a n 用户。 但只是给出了定性的分析,没有给出具体的信任关系传递规则。g o l b e c k 在文章【3 0 】中根据 社会网络中成员间的信任关系程度来预测用户对一部朱知电影的评分值,使得信任因素在推 荐过程中得到了应用。p a o l o 利用该文中所提出的信任关系的传递规则来预测对未知用户的 信任程度【1 2 】,但是这种方法在特定情况- 卜误差较大。本文根据实际情况,定义了一组信任 度传递规则, 2 西南人学硕十何论文 第一章绪论 1 3 研究内容与新意 推荐系统的诞生对电子商务的发展有着非常重要的作用。由于互联网的迅速发展,网 络川户以及网络商品数量的急剧增多,传统协同过滤推荐中存在的几个问题日趋严重,解决 这些问题是提高电子商务服务质量的迫切需要。研究者从这些问题的不同角度提出了多种解 决方案,在此基础上,本文从一个新的角度,即在传统的协同过滤推荐系统中引入了社会学 中一个概念信任关系,在推荐过程中将用户问的信任度作为一个辅助权重进行推荐。提 高系统对用户推荐的准确率。 本文的研究内容分为两个方面:一方面将信任网络引入到传统的协同过滤推荐系统中, 提出一种将相似度与信任度的相结合方式,将用户间的信任度作为相似度的一个有效的补 充,提高系统的推荐准确率;另一方面,利用信任关系在信任网络中传递性质,设计了一组 信任关系的传递规则,用以计算用户间的间接信任程度。将原本没有关联的用户相互关联起 来,为c o l ds t a n 用户匹配到更多的邻居,使系统能够对该用户进行推荐 本文的新意主要有以下两个方面: 第一,在基于用户的协同过滤过程中引入信任关系,提出了相似度与信任度合理结合 的一种方式; 第二,设计了信任关系在信任网络中传递的一组规则,并利用这组规则计算用户间的 间接信任度值。 1 4 内容安排 本文的内容安排如下:第一章对研究领域的背景以及所研究的内容做了简要介绍;第 二章是对有关电子商务推荐系统的相关理论的概述,分别叙述了常用的几种推荐技术以及推 荐系统常用的评估标准;第三章给出了信任网络的相关理论,具体给出了信任的定义,以及 在本文中信任网络的几个基本概念、性质和对信任关系传递特性的详细介绍;第四章是本文 的核心部分,详细的介绍了基于用户协同过滤推荐算法的具体步骤,给出了本文所提出的基 于信任网络的协同过滤推荐算法的模型,以及对该模型的各个流程的详细描述。文章的实验 部分在第五章,根据所设计模型的预期目标,从三个角度设计了不同的实验方案。最后一部 分是本文的结论以及对未来工作的展望。 3 西南人学硕十学化论文第二章推荐系统概述 第二章推荐系统概述 随着信息技术的发展和信息资源的膨胀,如何寻找到感兴趣的商品信息已经成为电子 商务用户所面临的一件非常困难且昂贵的事情。因此,推荐系统应运而生。推荐系统是电子 商务个性化服务的重要组成部分。个性化推荐系统包括热销商品推荐、新品推荐、相关产品 推荐以及同兴趣用户的推荐等。目前,许多电子商务网站都已经引入了推荐系统技术,如 a m a z o n 、c d n o w 、d m g s t o r e 和m o v i e 6 n d e r 等。推荐系统结合数据挖掘技术在电子商务网 站中帮助顾客获取感兴趣的产品信息并产生推荐。这些系统对扩大销售量,增加交叉销售额, 提高顾客信任度等方面都有较大贡献。推荐系统的主要策略有基于内容和协同过滤两种。 2 1 基于内容的推荐系统 基于内容的推荐( c o n t e n t - b a s e dr e c o m m e n d a t i o n ) 源于信息的获取领域,它通过比较信 息与用户的兴趣偏好的一致程度来决定是否进行推荐。其关键技术是相似性的计算,而不同 的用户兴趣模型其用户间的相似性计算方法也是不一样的。通常,用户的兴趣模型的表示有 向量空间模型与概率模型两种【l 】。 向量空间模型利用信息的特征词来表示信息和用户的兴趣,因此必须先对信息的特征词 进行特征分析,以提取用户的兴趣。通常还结合加权方法,使更具有区分能力的特征具有更 高的权重。 概率模型则是利用信息在某个分类模型上的概率分布来表示信息和用户的兴趣,信息表 示成为一个条件概率的向量:d = ,其中,p ( c “d ) 为信 息d 类型c ,的后验概率。同样,随着用户对信息评分的产生,用户兴趣对应的每个分类的 条件概率也要做相应的修改。最后,用户兴趣与信息之间的相似度的计算也变成了计算信息 推荐给剧户的概率【1 】。 基于内容推荐方法的优点是: 不需要其它用户的数据,没有c 0 1 ds t a n 问题和评分矩阵的稀疏问题。 能为具有特殊兴趣爱好的用户进行推荐。 能推荐新的或不是很流行的项目,没有新项目问题。 通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 已有比较好的技术,如关于分类学习方面的技术已相当成熟。 基于内容推荐的缺点是要求内容能容易抽取成有意义的特征;要求特征内容有良好的结 构性,并且用户的口味必须能够用内容特征形式来描述:不能显式地得到其它用户的判断情 况。 4 西南人学硕十。、何论文第二章推荐系统概述 2 2 协同过滤推荐系统 协同过滤推荐( c o l l a b o r a t i v ef i l t e 血gr e c o m m e n d a t i o n ) 是目前推荐系统中使用最多的个 性化推荐技术,它基于邻居用户的评分数据得到目标用户的推荐,其推荐的个性化程度高。 协同过滤算法的最人优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象,如音乐、 电影。 表2 1 是不同学者对协同过滤的概念的描述。 表2 1 多个学者对协同过滤的概念的供述 学者( 年份) 定义说明 r e s n i c k ( 1 9 9 4 ) h 川( 19 9 5 ) s h a r d 粕d 卸d& 协同过滤技术是利用用户群体的集体观点来推荐项目给个人用户【2 1 】 m a e s ( 1 9 9 5 ) ko n s t a n ( 1 9 9 7 ) d h i i i o n ( 19 9 5 ) 协作过滤主要足以属性或兴趣相近的用户经验与建议作为个性化推荐的基础 p a l m c ( 1 9 9 7 )协作过滤又称为“评比”或“群体过滤”( s o c i a lf i l t e r i n g ) 是提供使用者高品质资 源的一种机制【2 2 】 协作过滤着重在相同偏好用户对商品的定义以及如何利用他们的观点来进行推 g o o d ( 1 9 9 9 ) 荐【2 4 】 b a d r u i ( 2 0 0 0 ) 1 协作过滤系统是由其他用户的观点推荐商品给目标用户。 2 协作过滤技术是枉推荐过程中,比对用户的评分与其他顾客的差别来动作【4 】 s c h a 诧“2 0 0 0 ) 协作过滤是一种“用户与用户之间相关程度”的推荐荐机制,它是以在一个电子 商务网站,t 二从事购买行为的顾客间的相关性为基础【2 3 】 h e y l i g h t e n ( 2 0 0 1 ) 协作过滤技术足由计算用户与其它用户的喜好相似性来产生个性化推荐【2 5 】。 综上所述,在屯子商务环境下,协同过滤技术定义的关键有以下儿点: 1 它是一种群体过滤技术; 2 信息过滤的依据是用户间的购买行为的相似程度。 2 2 1 协同过滤算法的思路及过程 协同过滤是目前应用广泛且效率较高的一种推荐技术。本节介绍传统的协同过滤推荐 算法的思路及其过程。 由上一节定义可知,协同过滤推荐( c 0 1 l a b o m t i v ef i l t e 渤gr e c o m m e n d a t i o n ) 是基于邻居 用户的兴趣爱好来预测目标用户的兴趣。算法首先使用统计技术寻找与目标用户具有相同喜 好的邻居,然后根据邻居用户的偏好产生对目标用户的推荐。 协同过滤是基于这样的假设:为用户找剑真正感兴趣商品的方法是找到与该用户有共 同兴趣爱好的相似用户,并将相似用户感兴趣的商品推荐给该用户。协同过滤系统的基础包 括如下儿个方面: 5 西南人学硕十。产位论文第二章推荐系统概述 1 )川户是可以按兴趣分类的; 2 1用户对不同商品评分包含了用户的兴趣信息; 3 )用户对未知商品的评分将和相似用户的评分相似。 可见,协同过滤算法是以用户评分数据为推荐的基础。 协同过滤推荐算法的出发点是兴趣相近的用户可能会对同样的东西感兴趣。所以,只 要能获取到关于用户喜好的数据,从中分析得出具有相似品味的用户,然后就可以根据相似 用户的意见来进行推荐。 另一种可能的出发点是:用户可能偏爱与其已购买的东西相类似的商品。可以根据用 户对各种东西的评分米判断商品之间的相似程度,然后推荐与用户兴趣度最接近的那些商 品。 前一种思路以用户之间的关系为中心,而后一种思路则以项目与项目之间的关系为着 眼点。 输入的用户项目评分 矩阵瑚t i i ) 【 _r 相似性度量方法的选择 1 余弦相似性度量 2 修正的余弦相似性度量 3 相关相似性度量 r 邻居用户集合的形成 1 1 叩n 最近邻方法 2 阀值方法 3 聚类方法 4 贝叶斯网络方法 f 上 生成预测的方法 1 简单平均的方法 2 加权平均的方法 3 中心加权平均 4 标准加权平均 圈2 1 协同过滤算法施程国 协同过滤的算法流程图如上图2 1 , 1 表示( p r e s e n t a t i o n ) 协同过滤算法主要有四个步骤: 6 两南人学硕十学位论文 第一二章推荐系统概述 在个采川协同过滤技术的推荐系统中,川广的评分数据i 叮以川一个m n 阶用户项 目评分矩阵r 来表示。如表2 2 所示,m 行代表m 个用户,n 列代表n 个项目,第i 行第j 列的元素尺,代表用户i 对项目j 的评分。评分可以用2 进制的0 和1 来表示用户偏好( 喜欢 不喜欢) 或购买状态( 己购买未购买) ,也可以用分级的用户对项目的喜好值表示( 例 如:m o v i e l s 中用户对电影的评分是用0 到5 之间的整数来代表用户的喜好,o 表示没有评 分,1 到5 表示用户喜欢程度) 。 表2 2 用户项目评分矩阵r o f 硼 i l1 2 l j l b u s e r u ir 1 ir 旺r “r i t v l琴2 1 r 牡r 2 ir 2 。 u i r i 。lr i 2廷t i技h u 。r 。ir 以致柚 疑。 2 选取相似度的度量公式 常用的有如下儿种度量公式可供选择: ( 1 ) 余弦相似性度量公式( c o s i n e b 舔e ds i l l l i l a r i 奶,如( 4 1 ) 公式所示。 ( 2 ) 修正的余弦相似度度量公式( a d j u s t e dc o s i l l es i i i l i l 撕够) :即s p e a r 相关系数度量, 如( 4 - 2 ) 公式所示。 ( 3 ) 相关相似度度量公式( c o 玎e l a t i o n b 舔e ds i i i l i l 撕t y ) ,即p e a r s o n 相关系数度量,如 ( 4 3 ) 公式所示。 3 邻居的形成 一般地说,邻居用户的确定有两种方法,一是根据预先确定的相似度阙值,选择相似 度人于该阙值的用户作为该用户的邻居;二是根据预先确定的邻居数n ,选择相似度最人的 前n 个用户作为邻居用户。 4 预测评分值 预测方法主要如下几种统计的方法: ( 1 ) 简单平均值( s i m p l ea v e r a g e ) 最简单的就是平均所有邻居用户的对预测项目的评分值。 ( 2 ) 加权平均值( w 色i 曲t e da v e r a g e ) 考虑剑当前用户及其邻居用户之间相似性,对于与当前用户更为相似的用户在预测中 给赋予更人的推荐权重,否则给予较少的权重,其计算公式如( 4 5 ) 公式所示。 7 西南人学硕十学位论文第二章推荐系统概述 ( 3 ) 中心加权平均值( d e v i a t i o nf r o mm e a n ) 考虑到不同用户的评分值,加权评分值与该用户平均评分值间的差值,而得到的统计 计算方法。这种预测评分值的方法也很少使用。 2 2 2 协同过滤算法的分类 近年米陆续提出了许多协同过滤的实现算法,大致可以分为两类:基于内存的协同过 滤算法和基于模型的协同过滤算法。其具体的分类如下图2 - 2 所示。 图2 2 协作摊荐算法的分类 1 基于内存的协同过滤算法 基于内存的协同过滤算法先用统计的方法得到具有相似兴趣爱好的邻居用户,再基于 邻居计算出推荐值。该算法使用整个用户项目评分数据进行预测,它义分为基于用户的协 同过滤u s e r - b 弱e dc o l la _ b o m t i v ef i l t e r i n g 和基于项目的协同过滤i t e m - b a s e dc o l l a b o r a t i v e f i l t e m g ,通常所提到的协同过滤都是指基于用户的协同过滤,基于项目的协同过滤是对基 于用户的协同过滤的一种改进。本文将在第四章中对u s e r - b a s e dc o l l a b o r a t i v ef i l t e 幽g 算法 予以详细地介绍。 2 基于模型的协同过滤算法 基于模型的协同过滤算法,先用历史评分数据得到一个模型,再用这个模型进行预测 【7 】。基于模型的协同过滤中广泛采用的技术包括聚类技术、贝叶斯网络、机器学习方法、 关联规则、神经网络等。 ( 1 ) 聚类技术 4 ,2 8 ,2 9 】 最近邻居算法是基于对各个单个用户进行的预测,聚类技术则是基于对一组用户进行 的预测。聚类技术( c l u s t e m g ) 通过观察与分析,可以将数据集划分为多个类或簇( c l u s t e r ) , 使得同一簇中的对象具有较高的相似度,而不同簇中的对象相似度差别很大。运用到个性化 8 曲南人学硕 :学何沦文 第二章推荐系统概述 推荐系统中,首先根据各个h j 户的评分记录进行聚类,每类川,广l 贝有相近的兴趣爱好。一旦 聚类完成,就可以依据所属类的所有成员的共同喜好向用户进行推荐。一 实验表明,使用聚类技术的预测准确率不如最近邻居方法,因为基于类进行推荐具有 较低的个性化程度,尤其是对于处于类的边缘地带的用户,其喜好可能与类成员的共同喜好 有较大的偏差。但是,将用户事先分类可以大人减少所需的计算量,不失为正确率和效率之 间一种较好的折中方法。 另外,聚类也可以用作最近邻居算法的预处理步骤,这样既可缩小下一步的计算范围, 也有利于将计算任务分布处理。 ( 2 ) 贝叶斯网络【4 ,2 7 】 由b r e e s e ,h e c k m a n 和k a d i e 提出的贝叶斯网络建立的是一个概率模型。在训练得到 的网络结构中,每个节点都有一组对其有影响的父结点,一旦父节点的值已知,就可以预测 该节点的值。节点对应的条件概率用决策树的形式表示,从中给出当父节点取各种可能值时 其子节点取值的条件概率。 贝叶斯网络建立的模型相当小巧快捷,推荐的精确度不亚予虽近邻居算法。不过,由 于模型建立的时间复杂性较高,比较适合于数据更新变化较小的环境。 ( 3 ) 机器学习方法 2 4 】 分类( c l a s s i f i c a t i o n ) 是一种重要的机器学习方法,也叫基于示例的学习。在给定的训练 集中,每个训练样本都已预先标明属于哪个类,学习过程试图从训练集中提取分类模型,用 分类规则、判定树或数学公式的形式描述出每个类的特征。该分类模型可以用来对以后新的 数据进行分类。类似地,可用于预测连续的值。 协同过滤的过程也可以看作是一个分类或预测任务。以表2 。3 为例,假定我们要预测 用户4 对项目5 的评分值,把用户4 已经打分的项目i l 、1 2 、1 3 作为训练集的标本,其他用 户对这些项目的评分构成描述项目的特征向量,用户4 对这些项目的评分作为类标签,任务 可以描述为:为用户4 构筑一个函数,自变量是其他用户对某个项目的评分,函数值为用户 4 对该项目的喜好程度。这里用户对项目的评分可以采用表格中的连续值,也可以将其简化 为喜欢或不喜欢的离散值。 表2 3 评分矩阵 l l1 2l j1 41 5 u l 43 u 2 12 u 3 3424 u 。 42 l 有许多实现分类的方法可供选择,包括规则归纳、判定树、神经网络、贝叶斯等,预 9 两南人。学硕十学位论文 第二:章推荐系统概述 钡4 方法贝0 多刖l p 模亚! 。 ( 4 ) 关联规则【8 ,2 8 】 数据挖掘技术是近年来兴起的一门数据分析技术,前面所提到的聚类技术、分类和预 测技术起源于人t 智能领域,但也是数据挖掘中非常重要的研究课题。与机器学习的不同之 处是数据挖掘更关注于大规模数据集中的运用,所以更适合于电子商务环境中的推荐系统。 将数据挖掘技术运用到推荐系统中将是一种必然趋势。 目前在推荐系统中最常用的数据挖掘技术是关联规则。关联规则挖掘最甲起源于购物 篮分析,即通过研究顾客放入商品购物篮中的不同商品分析顾客的购买习惯,了解哪些商品 经常被顾客同时购买。发现的这种关系可以帮助零售制定营销策略,例如货架摆设、促销或 捆绑销售等。反映商品同时购买的模式采用关联规则的形式来表示。例如p = p 。,p 2 , p 。) 是m 个商品的集合,每个事务丁p 是一起购买的商品集合。关联规则是形如x 】厂 的蕴涵式,其中x ,】,尸且xn 】,= 矽,含义是如果事务t 中包含集合x 中的商品,则很 有可能集合y 中的商品也会被一同购买。 关联规则是否真正有用,可以通过支持度和置信度来衡量。关联度s 是事务中包含 x u 】,的比例,而置信度c 是数据库中包含x 的事务同时也包含y 的百分比。通常由使用 者设定最小支持阙值,同时也满足两者的关联规则即被认为是有意义的。 为某个用户推荐n 种商品可以通过关联规则来实现。首先为每个用户产生一条记录, 包括该用户所有曾经购买过的商品,运用关联规则的挖掘算法从这个数据找到所有满足最小 支持度阙值和最小置信度阙值的关联规则,然后从这些规则中找出被目标用户支持的那些 ( 即用户购买了所有出现在规则左边的商品) ,设p 。是出现在这些规则右边且目标用户尚未 购买的产品集合,根据规则的置信度,向用户推荐前n 种商品。如果某个商品同时被多条 规则推荐,则选取具有最高置信度的规则。较著名的关联规则挖掘算法有a 研o r i 、d h p ( 基 于散列) 和f p 一树( 频繁模式树) 等。 2 3 推荐系统的评估标准 根据推荐系统中所采用的不同策略,研究人员提出了许多评估的标准,用来对推荐的 质量进行评估,不同的推荐策略采用的评估标准是不同的,总体上分了两大类型f 3 ,4 ,5 , 2 9 1 ,一类是对推荐结果的质量的评估,另一类是对推荐算法的时间和空间复杂性进行评估。 下文对推荐系统的儿种常用评估标准进行了详细地叙述。 系统对目标用户的推荐结果有两种形式,一种是给出对项目的预测评分值f 3 0 】,另一种 是给出一个t 0 p - n 项目推荐列表【1 2 】。评估推荐算法的质量主要考虑以下两个方面: 1 准确率( a c c u m c y ) 评估推荐算法的准确率最常用的方法是计算平均绝对误差( m a e ) 2 9 】,平均绝对误 差是用来衡量预测评分值与用户对该项目的真实评分值之间的平均偏差,冈此这种方法只能 l o 两南人学硕f :学位论文 第一二章摊荐系统概述 评f + 川户已经有评分j l 录的那些项口。这种评估方法先将口标川户对项目的真实评分值隐藏 起来,然后运用推荐算法对这些项目分别计算推荐值,根据推荐值与实价值之间的偏差大小 可以得到m a e 。 另一种评估准确率的方法是支持决策准确率( d e c i s i o ns u p p o r ta c c u r a c y ) 【2 9 】,这种评 估方法是用来衡量推荐算法区别那些相关的项目与其它不相关项目的能力,而忽略了对具体 项目的精确的预测值,只是指出该项目是相关或是不相关的。推荐系统的一个很重要的目的 就是向用户推荐有价值的项目,即:相关的项目,这些项目表现为用户评分值很高。其中, 最常用的方法是r o c x 评估准则。 r o c x 方法可以用来衡量推荐系统向用户推荐的预测评分值高的项目中相关项目( 即 好的项目) 所占的比率,这种方法利用一定的策略,基于给定的阙值x 将用户对项目的多 值评分值转换成二值型,( 如:l 表示相关,o 表示不相关) ,比如当x 取3 时,如果推荐值 大于等于3 且用户的真实评分值大于等于3 时,则计为l ,否则记为o ,最后得到的相关项 目在所推荐的所有项目中所占的比率。比率越高,则系统辨别相关项目的能力越强。否则就 越弱。 2 覆盖率( c o v e r a g e ) 【2 9 】 覆盖率是用来评估推荐系统向用户推荐项目的多样性的能力,即系统能够做出推荐的 项目与系统中所有项目总数的比率。如果一个推荐算法的覆盖率低,则该系统能够做出推荐 的项目就越少,用户得到的推荐结果的多样性就越差。反之,覆盖率越高,则系统能够推荐 的项目越高,系统的多样性越好。 除了上述的几种评估标准外,还有其它的一些指标,它们共同够成了推荐系统的评估 体系。根据推荐系统所要实现的功能,往往采用多种评估标准对算法的有效性进行综合评估。 其中,推荐的准确率是一项非常重要的评估指标。本文对推荐算法的准确率进行了深入的实 验分析。 2 4 本章小结 本章对推荐系统的相关理论做了简要介绍,给出了协同过滤的基本概念,以及基丁内 容推荐与协同过滤推荐的基本思想,以及具体对两种不同的协同过滤推荐策略基丁内存 的协同过滤和基丁模型的协同过滤进行了比较详细地介绍。在本章的最后介绍了推荐系统两 种常用的评估标准。整体上本章是对推荐系统的一个综述,为读者阅读本文后面的章节奠定 了知识背景 西南人学硕f j 学位论文第二章信任网络的年| | 关理论 第三章信任网络的相关理论 “信任如同我们每天呼吸的空气、每天喝的水一样,是一种社会商品,它需要我们社 会群体的保护。如果信任受到侵犯,那将会威胁到我们整个社会的利益,如果信任被毁灭, 那么整个社会必将动荡,最终走向崩溃! ”这是b o k 在m o m lc h o i c ei np u b l i ca 1 1 dp r i v a t e l i f e 书中的一段话,这段话充分地表明信任在人际交往以及社会活动中的重要性,它是人 际交往的一个基本原则。在我们日常的社会活动中,无论是做一些人的决策还是一些小的选 择,例如挑选一本书、一张c d ,或者是选一家饭店就餐,我们都会从自己所信任的朋友那、 从可信的报纸、杂志上得到一些参考意见,这些参考意见会帮肋我们做出一个更好的选择。 计算机与网络技术高度发达的今天,许多传统的社会活动已经被网络活动所代替。已经从人 人直接对话的传统的活动模式改变与了人计算机、计算机计算机、以及人 网络人等多种其它模式。例如,最近几年兴起的在线社区,电子商场,个人博客以及基 于a g e n t 分布式人丁智能系统等等。在这种新的活动模式下,计算机扮演了一个重要角色。 网络环境的动态性和不确定性使得活动实体的信任在交易活动中显得非常重要,如何将实体 间的信任关系嵌入到这种新型的活动模式中来将是成功进行网络活动的重要基础。 在传统的协同过滤推荐系统中引入信任关系是非常有必要的,它可以作为用户间的相 似度的一个非常好的辅助,抑制虚假用户的欺骗推荐,取得更高的推荐准确率。另外,还可 以有效的缓解推荐系统中存在的c o l ds t 甜问题,以及提高推荐系统的可扩展性等。本章主 要介绍信任和信任网络的基本概念、信任度的获取以及信任网络中信任关系的传递规则等。 3 1 信任的概念 信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航空航天零部件制造2025年高精度加工技术低温超导加工技术研究报告
- 2025家具制造原材料价格波动对市场竞争格局的影响及应对策略分析
- 运动型智能眼镜在2025年健身直播中的应用研究
- 律所招聘实习生管理制度
- 学校上放学护学管理制度
- ktv收入日常管理制度
- 暑期教师培训管理制度
- 强化lng安全管理制度
- 表演裁判考试题及答案
- 保密资质考试题及答案
- 河道清淤工程回填施工方案
- 广汽海外新媒体营销策划案
- 《智能仓储解析》课件
- 《典型有毒有害气体》课件
- 造纸术的课件
- 设备维修与保养培训
- 小学生防治碘缺乏病
- 商业街区广告牌更换施工方案
- DB21T 3806-2023 电梯检验检测全程录像工作规范
- 图论及其应用知到智慧树章节测试课后答案2024年秋山东大学
- 图书选品与陈列艺术研究-洞察分析
评论
0/150
提交评论