(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf_第1页
(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf_第2页
(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf_第3页
(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf_第4页
(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)安全角度下协同过滤推荐算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

安全角度下协同过滤推荐算法研究 摘要 随着互联网的普及和电子商务的发展,电子商务推荐系统越来越受 到商家和学者的重视。它能够直接与用户交互,模拟商店销售人员向用 户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。在 日趋激烈的竞争环境下,众多商业网站已经体验到电子商务推荐系统带 来的好处。 协同过滤推荐是目前电子商务推荐系统最有效的信息过滤技术之 一。过去大多学者主要针对推荐算法的实时性和准确性进行研究,而近 年来,一些学者意识到电子商务推荐系统的应用背景实际上是一种市场 经济下的商业竞争环境,过去提出的推荐算法存在安全隐患。由于w e b 站点的开放性和推荐系统的用户参与性,使推荐系统易受攻击,从而影 响推荐质量。 针对现有的协同过滤推荐算法存在安全缺陷,本文从安全角度出发, 首先详细介绍了针对协同过滤推荐算法的主要攻击模型,其中包括攻击 模型的数据结构特点及攻击原理,同时指出基于用户推荐算法的易受攻 击的原因。然后,结合现有分类检测模型的优缺点,提出新的用户相似 度计算方法。该方法能削弱低填充规模攻击数据对推荐系统的影响。最 后,在充分考虑攻击数据结构的基础上,本文提出跨主题的协同过滤推 荐算法,系统阐述了算法基本思想,并对新算法的重要步骤进行详细设 计。 一系列实验结果表明,本文提出的跨主题推荐算法和改进相似度计 算方法在推荐准确性和系统鲁棒性上都优于传统的基于用户协同过滤推 荐系统。 关键词:协同过滤安全跨主题攻击模型主题相关性 r e s e a r c ho nc o l l a b o r a t i v ef i i j e r i n g r e c o m m e n d a t i o na l g o r i t h mu n d e rt h e p e r s p e c t i v eo fs a f e t y a bs t r a c t w i t ht h ep o p u l a r i z a t i o no fi n t e m e ta n dt h ed e v e l o p m e n to fe c o m m e r c e , t h er e c o m m e n d e rs y s t e m si ne - c o m m e r c ea r eb e i n gp a i dm o r ea n dm o r e a t t e n t i o nb o t hi nb u s i n e s sa n da c a d e m i c s i ti su s e dt oc o n t a c tu s e r sd i r e c t l y , s i m u l a t i n gt h es a l e s m e nt or e c o m m e n di t e m sa n dh e l pu s e r st of i n dt h e i r t a r g e t i t e m s i nt h e i n c r e a s i n g l y f i e r c e c o m p e t i t i v ee n v i r o n m e n t ,m a n y e c o m m e r c ew e b s i t e sh a v ee x p e d e n c e dt h eb e n e f i t st ou s et h er e c o m m e n d e r s y s t e m s c o l l a b e r a t i v ef i l t e r i n gi so n eo ft h em o s te f f e c t i v et e c h n i q u e su s e dt o f i l t e ri n f o r m a t i o ni ne c o m m e r c er e c o m m e n d e rs y s t e m s i nt h ep a s t ,m o s t s c h o l a r sm a i n l yf o c u s e do nt h er e a l - t i m ea n da c c u r a c yo ft h er e c o m m e n d a t i o n a l g o r i t h m s a n di nr e c e n ty e a r s ,an u m b e ro fr e s e a r c h e r sr e a l i z e dt h a tt h e a u c t u a lb a c k g r o u n do ft h e s er e c o m m e n d e rs y s t e m s a p p l i c a t i o n si st h ec r u t a l c o m p e t i t i v eb u s i n e s se n v i r o n m e n t t h e s er e c o m m e n d e ra l g o r i t h m sh a st h e i r o w ns e c u r i t yf l a w s s i n c et h eo p e n n e s so fw e b s i t e sa n du s e r sp a r t i c i p a t i o ni n r e c o m m e n d e rs y s t e m s ,t h es y s t e m sh a v et h e i rs i g n i f i c a n tv u l n e r a b i l i t i c s ,a sa r e s u l t ,t h er e c o m m e n d a t i o n s q u a l i t yd e g r a d e s i i i a g a i n s tt h es e c u r i t y f l a w so ft h e p r e s e n t e d c o l l a b e r a t i v e f i l t e r i n g a l g o r i t h m sa n df r o mt h es e c u r i t yp o i n to fv i e w , t h i sp a p e rf i r s t l ys p e c i f i c a l l y i n t r o d u c e st h ek e ya t t a c km o d e l so ft h ec o l l a b e r a t i v e f i l t e r i n ga l g o r i t h m , i n c l u d i n gt h ea t t a c kp r i n c i p l ea n dd a t as t r u c t u r e ,a n dt h er e a s o nw h yt h e u s e r - b a s e da l g o r i t h mi sp r o n et ob ea t t a c k e di sa n a l y z e dh e r e t h e n ,w i t ht h e a d v a n t a g ea n dd i s d v a n t a g eo ft h ep r e s e n t e dc l a s s i f i c a t i o nd e t e c t i n gm o d e l ,a n e wu s e rs i m i l a r i t yc a l c u l a t i o nm e t h o di sp r o p o s e d t h i sm e t h o di sa b l et o w e a k e nt h ei m p a c to ft h el o wf i l l e ra t t a c kd a t aw h e nr e c o m m e n d i n g f i n a l l y , a f t e rc o n s i d e r i n gt h ea t t a c kd a t a ss t r u c t u r e ,t h ep a p e rp r e s e n t sac r o s s t o p i c c o l l a b e r a t i v ef i l t e r i n ga l g o r i t h ma n de l a b o r a t e di t sb a s i ct h o u g h t 。f u r t h e r m o r e , t h ek e ys t e p so ft h i sn e wa l g o r i t h ma r ed e t a i l e d as e r i e so fe x p e r i m e n t sa r ed o n ea n dt h er e s u l t ss h o wt h a t ,t h en e w s i m i l a r i t ym e a s u r ea n dt h ec r o s s - t o p i cf i l t e r i n ga l g o r i t h mp r o p o s e dh e r ea r e b e t t e rt h a nt h et r a d i t i o n a lu s e r - b a s e dc o l l a b e r a t i v ef i l t e r i n ga p p r o a c hb o t hi n r e c o m m e n d a t i o n sa c c u r a c ya n ds y s t e m sr o b u s t n e s s k e yw o r d s :c o l l a b o r a t i v ef i l t e r i n g ;s e c u r i t y ;c r o s s t o p i c ;a t t a c km o d e l ; t o p i cr e l e v a n c e i v 广西大学学位论文原创性声明和学位论文使用授权说明 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和 相关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的 研究成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过 重要帮助的个人和集体,均已在论文中明确说明并致谢。 论文作者签 多k 学位论文使用授权说明 多月矽日 , 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 口即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签 批新躲名、 贰f | 6 月 广西大掌硕士学位论文 安全角度下协同过滤推荐算法研究 1 1 研究背景及意义 第1 章绪论 随着网络的发展,电子商务的规模不断扩大,商品越来越多,一方面顾客有了更 大的选择空间,另一方面也增加了顾客购买所需商品的难度。顾客在找到自己所需的 商品之前,必须浏览大量的无关信息。为了解决上述信息过载问题,有效地指导顾客 在电子商务系统中方便地购物,人们提出了推荐系统技术【6 2 1 。 电子商务源于英文e l e c t r o n i cc o m m e r c e ,简写为e c ,是通过电信网络进行的生 产、营销、销售和流通活动,它是指基于因特网( i n t e m e t ) 上的交易活动,包括所有利 用电子信息技术来解决问题、降低成本、增加价值和创造商业贸易机会的商业活动。 电子商务网站不仅要考虑提供更多商品供用户选择,同时还要考虑对不同用户提供不 同的选择使用户更容易接受。个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d a t i o n s y s t e m s ) 1 1 1 1 5 9 , 6 0 】可以根据用户的兴趣爱好推荐对象或产品。根据推荐对象的不同,目 前主要有两种类型的推荐系统,一种是以网页为推荐对象的搜索系统,主要采用w e b 数据挖掘的方法与技术,为用户推荐符合其兴趣爱好的网页,如g o o g l e 等;另一种 是以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣爱好的商品,如电影、 图书、新闻等,这种推荐系统又称为电子商务个性化推荐系统,简称电子商务推荐系 统( r e c o m m e n d a t i o ns y s t e mi ne c o m m e r c e ) 1 6 2 。电子商务推荐系统直接与顾客交互, 模拟商店导购人员向顾客提供商品推荐,帮助顾客找到所需的商品,从而顺利完成购 买过程。目前几乎所有大型的电子商务系统,如a m a z o n 、e b a y 、f i r e f l y 、c d n o w 等,都在一定程度上使用各种形式的推荐系统,成功的智能推荐系统将产生巨大的经 济效益。因此,电子商务推荐系统成为了学术界和业界研究的热点。 最初,学者们的研究重点主要是推荐算法的实时性和准确性。然而,近年来一些 学者意识到电子商务推荐系统应用背景实际上是一种商业竞争环境。在这种市场经济 条件下,目前很多推荐系统存在巨大的安全隐患。由于w e b 站点的开放性和推荐算法 的用户参与性,使推荐系统容易受到攻击。所谓推荐攻击,是指某些恶意生产商向推 荐系统中制造大量的虚假数据,迫使推荐系统提高推荐自己产品的概率。例如,2 0 0 1 年6 月s o n yp i c t u r e s 公司承认利用伪造电影评论家评论的手法向客户推荐许多新发行 广西大学硕士掌位论文安全角度下协同过滤推荐算法研究 的电影1 2 ,实际上并没有人对这些电影做出评论;e b a y 采用推荐系统作为一种声誉机 制,他们发现一些恶意用户通过各种手段,包括购买良好产品,加强或改善自己的声 誉【3 1 苗 。 因此,如何提高推荐系统的安全性将成为推荐系统推广和应用的关键。电子商务 推荐系统安全问题也将成为学者们研究的热点。 1 2 国内外研究综述 在复杂的商业环境性,随着电子商务网站规模的增长,电子商务网站的用户数量 和商品数量成几何极增长。协同过滤技术面临数据的稀疏性,推荐算法的可扩展性及 推荐系统的安全性等难题。众多学者对推荐系统的精确性、实时性、安全性进行深入 研究。综合学者们的研究成果,主要有以下几个方面: 1 2 1 推荐系统的精确性和实时性5 9 朋1 由于数据的稀疏性,b y e o n gm a nk i m 等人1 4 】提出传递关联i c h m ( i t e m - b a l s e d c l u s t e r i n gh y b r i dm e t l l o d ) 方法。如果现实中两个用户的兴趣爱好类似,但由于两个 用户在系统中没有共同评分项,那么在基于用户的协同过滤系统中这两个用户就无法 表现出应有的联系。虽然基于项目的协同过滤方法能解决这个问题,但同时又带来项 目之间不能互相传递的新问题。i c h m 方法综合了项目的内容信息及用户评分项这两 方面的信息衡量项目之间的相似度,然后采用基于项目的协同过滤方法对用户进行预 测。这种方法一定程度上能解决由于数据的稀疏性而导致推荐质量下降的问题。 b e r b h o l z 【5 】贝i j 采用基于传递关系的方法解决稀疏性问题。文中假设用户i 与用户j 之间的关系由于数据稀疏而无法体现时,则可以通过第三方用户k 间接求出。 q i l i nl i 等人 6 1 采用k m e a n s 算法对项目进行聚类,削减与目标项不相关的项目。 这种方法在一定程度上能提高系统的实时推荐能力。新方法首先采用k m e a l l s 算法 对项目进行聚类,然后选择活动用户已评分且与目标项目在同一聚类中的项目,即将 邻居设定在与目标项目在同一聚类的项目中,分别计算这些项目与目标项目之间的相 似度。这种方法能大大减少计算用户相似度时系统的计算量。最后根据最近邻法求出 活动用户对目标项目的评分预测值。文献 7 采用r e c t r e e 方法对用户进行聚类,选择 与活动用户在同一聚类的那些用户作为潜在的邻居,然后根据这些用户与活动用户之 2 广西大掌硕士学位论文安全角度下协同过滤推荐算法研究 间的相似度选择邻居。基于用户聚类的方法也是通过限定用户的邻居集范围,减少计 算用户相似度时系统的计算量。u n g a r 等人【8 】提出了一种将用户与项目分别进行聚类 的方法,通过数据样本来对模型进行训练。这种方法借鉴了文献 7 8 的思想。 l i n 等人【9 l 对普通的关联规则挖掘方法进行扩展后应用在协同过滤推荐系统中。 文献中的算法将关联规则的置信度定义为用户或者项目之间的相关系数,支持度则定 义为该相关系数的显著性。关联规则可以与用户相关,也可以与项目相关。 m o b a s h e r 等人将w e b 使用挖掘技术应用于协同过滤技术,从用户的访问数据 中发现有用的模式,如用户会话聚类,关联规则,序列模式等等,然后从这些模式中 发掘出高质量的、有用的“总体使用概貌”,最后扫描所有的数据集并产生个性化的 推荐。 由于数据的稀疏性,目前对推荐系统的精确性和实时性的优化方法主要是采用数 据挖掘技术和混合推荐技术。然而,上述的推荐优化方法并没有太多的考虑推荐系统 的安全性。 1 2 2 推荐系统的安全性 对推荐系统的安全研究,学者们主要对推荐系统的攻击模型、检测模型、推荐算 法本身鲁棒性进行研究。 ( 1 ) 攻击模型 攻击模型是在推荐系统以及其数据库、产品和用户的相关知识的基础上构建攻击 数据特征的方法。攻击不同的目标,注入的攻击数据特征组成也不同。 l a msk ,砒e d lj 引入随机攻击模型和平均攻击模型【l l 】,并对基于用户和基于 项目的协同过滤推荐系统分别进行攻击实验。结果表明,基于用户的推荐系统产生偏 差较大,而基于项目的推荐系统产生偏差较小。 由于平均攻击模型的攻击成本过高,m o b a s h e rb ,b u r k er 引入倾向攻击模型【1 2 】。 实验表明倾向攻击模型的攻击效果与平均攻击效果相当,但攻击成本大大减少。 以上的三种攻击模型对基于项目推荐系统的产生的影响并不大。为此,b u r k er 提出分块攻击模型【1 3 1 。实验表明,该攻击模型能对基于项目的推荐系统产生较大影 响,攻击成本也较低。 3 广西大学硕士掌位论文安全角度下协同过滤推荐:算法研究 ( 2 ) 检测模型 针对随机模型和平均模型产生的攻击数据,j 融e d l ,a im a m u n u rr a s h i d 提出基础 检测模型f 1 4 】( b a s i cd e t e c t i o n ) 。该模型通过计算用户的多个属性检测指标,综合判断 出攻击数据。其优点是:形象直观;缺点:计算量过大,对其他攻击模型的检测效果 不理想。这种基于统计的方法虽然一定程度上能识别处真假数据,但准确率较低,计 算量过大。 由于基础检测模型的计算量过大,c h i r i t ap a 提出c h i r i t a 检测模型【1 5 】。该模型只 需计算用户的两个指标:r d m a 和p a 。该检测模型的优点:计算量小,攻击用户定 量化;缺点:对低填充规模攻击的检测效果不理想。c h i r i t a 检测模型检测准确率比基 础检测模型略高,算法复杂度较小,但是当攻击模型在填充规模较小时的检测效果不 好,误判率比较高,且对分块攻击检测效果较差,不能识别出攻击者采用的攻击模型。 针对分块攻击模型,r b u r k e 分块检测模型【1 6 】( s e g m e n tm o d e ld e t e c t i o n ) 。其优点: 对分块攻击检测,部分检测模型效果明显好于c h i r i t a 模型,当填充规模较小时,也能 检测出来;缺点:但是误报率还比较高,并且对分块攻击和喜欢讨厌攻击模型检测效 果还不理想,也不能识别出攻击者采用的攻击模型。 m o b a s h e r b 综合以上三种检测模型的优缺点,提出分类检测模型【1 7 1 ( m o b a s h e r m o d e ld e t e c t i o n ) 。检测模型从不同角度来衡量攻击数据特点,通过计算相应的用户 属性,并采用分类技术对属性集合进行分类以识别攻击数据。该检测模型的检测准确 率较高,且能识别出用户所采用的攻击模型。但当攻击用户采用分块攻击且攻击规模 攻击较小时,分类检测模型并不能有效的检测出来,同时该模型的计算量也比较大。 ( 3 ) 算法鲁棒性研究 m o b a s h e r b 提出基于模型的潜在语义检索算法【1 8 】,实验结果表明该算法较基于 内存的算法有更好的抗攻击能力。 m a s s a p b h a t t a c h a r i e e b 【19 2 0 1 、j o h no ,d o n o v a n 【2 1 ,2 2 1 分别将信任和信誉概念引入 推荐系统,实验表明基于信任的推荐算法在准确性和强壮性上要高于传统的推荐算 法。 z h a n gf u g u o 2 3 , 2 4 】将信任概念进一步深化,提出主题级的信任度。实验表明主题 级信任的推荐算法比概貌级的推荐算法在准确性和强壮性上有明显提高。 4 广西大掌硕士掌位论文安全角度下协同过滤推荐算法研究 , 1 3 论文的研究内容与主要贡献 1 3 1 本文的研究内容 本文的研究内容主要包括以下几个方面: 1 、对协同过滤推荐算法进行了较深入的研究,追踪目前国内外关于过滤推荐系统 安全最新的研究动态; 2 、深入研究针对协同过滤推荐系统的攻击模型。对现有的攻击模型进行了较细 致分析和总结; 3 、在现有的分类检测模型存在的缺陷的基础上,通过采用改进的相似度计算方法, 提高推荐系统对低攻击的抗攻击能力。最后通过实验验证了改进后推荐系统的精确性和 鲁棒性。这是本文的重点之一,将在第三章中进行较为详细的阐述。 4 、本文首先详细分析攻击数据的结构特点,并得出相关结论。然后结合主题推荐 思想,提出跨主题的协同过滤推荐算法,并对其推荐关键步骤进行了详细设计。最后通 过实验验证了推荐系统的精确性和鲁棒性。这是本文的核心部分,将在第四章中较为详 尽的阐述。 1 3 2 本文的主要贡献 本文主要贡献包括以下3 点: 1 、较详细的分析了现有针对协同过滤推荐系统的各种攻击模型,包括其攻击原 理及攻击数据的结构特点。 2 、综合分类检测模型检测精确度较高的优点和对低填充规模攻击数据漏检率较 高的缺点,本文通过改进推荐系统中相似度计算方法,提高推荐系统对低攻击的抗攻 击能力。 3 、从算法本身的稳定性、健壮性及精确性的角度出发,提出跨主题协同过滤推 荐算法。 5 广西大掌硕士掌位论文安全角度下协周过滤推荐算法研究 1 4 论文组织结构 本文的结构安排如下: 第一章,绪论介绍了课题研究背景和意义,阐述了论文的研究内容和主要创新点, 简述论文的组织结构。 第二章,详细介绍了目前针对协同过滤推荐算法的常见攻击模型。首先介绍基于用 户和基于项目的协同过滤推荐算法原理,然后详细介绍针对这两种推荐算 法的攻击模型,包括随机攻击模型、平均攻击模型、倾向攻击模型和分块 攻击模型等。最后总结了这几种攻击模型的一些特性。 第三章,已有研究表明,现有分类攻击检测模型对低填充的攻击数据检测效果不理 想。分析攻击数据的攻击原理,通过采用改进的相似度计算方法,提高推 荐算法对低填充攻击数据的抗攻击能力。并在最后通过实验验证。 第四章,跨主题协同过滤推荐算法这是本文的核心内容。本文首先分析了攻击数据 结构原理,并结合主题推荐方法的优点,提出跨主题的协同过滤推荐算法。 最后通过实验验证该算法有较好的准确性和鲁棒性。 第五章,总结与展望,指出本文的后续研究工作与方向。 6 广西大掌硕士掌位论文安全角度下协同过滤推荐算法研究 第2 章面向协同过滤推荐系统的攻击模型 协同过滤技术是目前电子商务推荐系统最有效的信息过滤技术之一。许多电子商 务网站已经充分领略到了推荐系统带来的好处,但在市场经济的商业竞争背景下,协 同过滤推荐算法也存在着安全隐患。本章首先简要介绍协同过滤推荐技术,较详细介 绍基于协同过滤推荐算法和基于项目的协同过滤推荐算法,然后重点介绍和分析针对 协同过滤推荐系统的各种攻击模型的结构和特点。 2 1 协同过滤推荐技术嘞 6 2 3 2 1 1 协同过滤的概念 协同过滤,也叫社会过滤,其理论基础是人们的从众行为。它的基本假设是经常 访问相似资源的用户兴趣相似,相似兴趣的用户又会访问相似的资源。因此,通过对 相似兴趣用户的判定,来确定某个用户对某一未知资源是否感兴趣。 协同过滤的基本出发点是:( 1 ) 用户是可以按兴趣分类的;( 2 ) 用户对不同资源对 象的评价包含了用户潜在兴趣;( 3 ) 用户对一个未知资源对象的评价将和其兴趣相似 用户的评价类似。这三点构成了协同过滤的基础。通常,协同过滤推荐系统选取与当 前活动用户有相似兴趣的用户作为“邻居 。因此,如何定义用户的相似性以及如何 选取参考用户“邻居是协同推荐技术研究重点之一。 2 1 2 协同过滤的原理 在协同过滤处理过程中,被推荐的资源对象一般称为项目( i t e m ) 。在电子商务应 用领域,一个项目可以是一部电影、一首歌曲、或者某一商品等等。传统的协同过滤 推荐系统用户u s e r 和i t e m 来处理推荐事务。u s e r 表示客户,i t e m 表示产品项。推荐 过程从一个初始的评分矩阵u s e r x i w m 开始,该评分矩阵记载了u s e r 对i t e m 的主观评 分。矩阵u s e r i w m 要么由用户显式确定,要么由系统隐式推断得出。一旦确定了评 分矩阵,推荐系统就能够通过算法做出用户对其他i t e m 的预测评分。其大体过程如 图2 1 所示: 7 女e t * 月t m # # * * 1 i1 2 b l n l 一一 r r r 一 预测 l l _ | 1 推荐j _ _ l l 凡( 活动j j 户a 对 项目1 的评价预 测1 l 1 kt m ( 给 予活动用户a 的 前n 个推荐项 目) 输入评分项矩阵协同过滤算法输出界面 困21 协同过滤的一般过程 f i g2 - 1t h eg e n e r a lp r o c e s so f c o l l a b o r a t i v ef i l t e r i n g 协同过滤处理过程可以由输入、推荐预测引擎和输出三个部分组成即用户输入 评价信息,推荐预测引擎根据用户输入的信息产生项目推荐预测,以及输出推荐预测 结果三个步骤。 第一步,获得用户的评价、购买行为等数据信息。为了给用户提供有效的推荐, 必须先获得用户的兴趣模型,这是协同过滤推荐系统的关键。得到一个用户兴趣模型 主要分成两步,首先根据用户的历史数据信息获取用户感兴趣的信息群,然后根据这 些信息提炼出用户的兴趣模型。因此这就要求用户对一些项t 7 进行评价以表达自己 的兴趣偏好。 现实中用户评分数据的多少是未知的,有的用户评分项比较多,有的用户评分 项比较少甚至只有一两项。然而,用户评分项比较少并不意味着用户只对少量的项 目感兴趣。相反,他们所给出的评价信息可能恰恰就代表了他在某领域的喜好,如 果仅仅因为他的评价信息过少,没有达到规定的闽值而将其不予考虑,就会造成信息 丢失。 第二步,分析和发现用户之间、项目之间的特征模式。相似性作为协同过滤输出 或预测的基础,是推荐系统模拟用户兴趣模型的重要手段。分析用户之问、项目之间 的相似性可使用相似性计算方法或统计技术来确定用户或项目的邻居集。 第三步,根据当前用户的访问过程或阶段,适时产生输出推荐列表。推荐列表的 输出主要有两种形式:一种是预测,一种是推荐。预测就是根据用户给定的个或多 安全角度下协同过滤推荐算法研究 个未评分项目,根据预测算法得到该用户对于未评分项目的预测评分值,并输出。推 荐是推荐系统提供一个活动用户可能最喜欢的个项目的项目列表。协同过滤技术 不需要分析待推荐资源的内容信息,在电影、图书等非结构化数据占主流的电子商务 推荐领域得到了广泛的应用。 2 1 3 协同过滤算法【5 9 】 b r e e s e l 2 6 】等人根据算法是否需要全部实时运行,将协同过滤算法分为基于内存的 ( m e m o r yb a s e d ) 与基于模型的( m o d e lb a s e d ) 3 2 1 两种。基于内存的也称全局的算法, 算法通过遍历整个用户项目数据库来产生推荐,系统利用统计技术搜索与目标用户 有相同兴趣的邻居集。一旦用户的邻居产生,系统就利用不同的算法根据用户邻居集 的喜好项目对当前用户产生预测或产生t o p - n 推荐,也就是目标用户最可能喜欢的n 个商品。基于模型( m o d e l b a s e d ) 的算法主要是将使用者历史记录,通过统计方法或机 器学习方法来建构出使用者偏好模型,推荐算法运行期间将建立的模型调入内,以此 来产生推荐。建立模型可利用不同的机器学习算法,如贝叶斯( b a y e s i a n ) 技术、聚类 技术、基于关联规则方法等。 s a r w a r 等人【3 1 】根据协同过滤所使用的事物之间的关联性不同,将其分为基于用 户的协过滤算法( u s e r - b a s e d ) 【2 8 】f 3 川与基于项目的协同过滤算法( i t e m b a s e d ) 3 1 1 。本章接 下来的篇幅将详细介绍基于用户的协同过滤算法和基于项目的协同过滤算。 1 、基于用户的协同推荐算法 基于用户( u s e r - b a s e d ) 协同过滤,其核心思想是这样一个假设:如果用户对一些 项的评分比较相似,则他们对其他项的评分也比较相似。协同过滤推荐系统使用统计 技术等搜索目标用户的k 个最近邻居,然后根据这k 个最近邻居对项的评分预测目标 用户对未评分项的评分,选择评分最高的前若干项作为推荐结果反馈给用户。这种算 法具有计算简单的特点,精确度也较高,目前实际使用的协同推荐算法多属这种类型。 基于用户( u s e r - b a s e d ) 协同过滤算法主要由三部分组成:( 1 ) 数据表示;( 2 ) k - 最近 邻居查找;( 3 ) 推荐产生。 ( 1 ) 数据表示 对用户已经购买过的商品进行建模,建立,z n 阶用户评分矩阵u s e r x i t e m ,然后 根据该矩阵有效度量用户之间的相似性,m 是用户总数,n 是项总数。度量用户之间 9 广西大掌硕士学位论文安全角度下协同过滤推荐:算法研究 相似度有许多种方法,最常用的主要包括以下三种方法【2 9 】【3 4 】:余弦相似性、相关相 余弦相似性测度( c o s i n es i m i l a r i t y ) 对该项目的评分设为0 ,用户间的相似性通过向量间的余角度量。如果用户,和用户, 在n 维项目空间上的评分分别表示为向量。则用户i 和用户的相似性s i m ( i ,j ) 为: 删s e - ) 3 菥锄( 2 - 1 ) 相关相似性测度( c o r r e l a t i o ns i m i l a r i t y ) 设用户i 和用户共同评分过的项目集合用厶表示,则用户i 和用户_ 之间的相似 s i m ( i ,) 可以通过p e a r s o n 相关系数来度量。p e a r s o n 相关系数用于衡量两个变量之间 毗舻f 奠等辈型坠一 ( 2 2 , 。( r i , c - - r f ) 2 。白( r ,c 页) 2 其中r ,。与q ,。分别表示用户f 和用户_ ,对项目c 的评分,r 与r j 分别表示用户i 和用户j f 各自评分项目上的评分平均值。p e a r s o n 相关系数采用线性回归模型计算, 修正的余弦相似性测度( a d j u s t e d c o s i n es i m i l a r i t y ) 去对项目的平均评分改善上述缺陷。设用户i 和用户_ ,共同评分过的项目集合用厶表 示,和,分别表示用户f 和用户评分过的项目集合,则用户i 和用户歹之间的相似 1 0 安全角度下协同过滤推荐算法研究 嗍舻f 釜坚竿型坠葺(2-3)2 。( 尺f ,c 一页f。( r ,c 一页j ) 2 ( 2 ) k 一最近邻居查找 搜索当前用户的k 个最近邻居,目标就是对每一个用户u ,在整个评分矩阵空间 u s e r x i t e m 中搜索出k 个最近邻居集合= l ,2 ,。m ) ,i 叠n ,从l 至f ,用户之 间的相似度s i m ( a ,m ) 从大到小排列。 图2 - 2 用户邻居集形成过程 f i g 2 - 2t h ep r o c e s so fu s e rn e i g h b o r s 图2 2 演示了协同过滤中邻居的一种形成过程:首先计算当前用户0 与其它用户 之间的相似性,然后根据用户邻居集的设定取与用户最相近的用户作为当前用户的邻 居集。图中以点0 为中心,k = 5 个最近用户被选择为邻居。计算得到各个用户与活动 用户之间的相似度之后,就要考虑选取多少用户作为该活动用户的邻居,用于计算最 后项目的预测值。一般有两种方法来选取邻居数目:一种方法是预先设置一个阈值, 另一种方法是选择k 个相似性最大的用户作为邻居用户。两种方法都有各自的优缺 点。 ( 3 ) 推荐产生 根据当前用户k 个最近邻居对商品的评分信息预测当前用户对未评分商品的评 分,选择预测评分最高的前若干项作为推荐结果反馈给当前用户,即产生t o pn 商 品推荐。用户材对未评分项f 的预测评分,通常采用的预测计算公式如下: 广西大掌硕士掌位论文安全角度下协同过滤推荐算法研究 幅+ 萼字 ( 2 - 4 ) 其中r 。表示活动用户f 的平均评分,表示用户f 和用户j 的相似度,k 表示活 动用户,的最近邻居数目。 2 、基于项目的协同推荐算法 基于项目协同过滤推荐与基于用户的协同过滤推荐在思路上相近,后者以用户为 考虑对象,而前者以项为考虑对象。基于项目协同过滤推荐首先计算用户已评分项目 与目标未评分项目之间的相似度,然后从已评分项目集合中选择k 个具有最大相似 度的项目,最后通过对目标用户的相似项目评价进行加权平均计算预期。 ( 1 ) 项目相似度计算 与基于用户的协同过滤类似,基于项目的协同过滤技术的一个关键步骤也是计算 项目之间的相似度然后选出最相似的项目。衡量两个项目f 和之间相似度的基本思 想首先统计同时对这两个项目都进行了评价的用户,然后将每个项目获得的评分看作 n 维用户空间的向量,再使用某种相似度计算技术计算这两个项目的相似度。项目之 间相似度的计算公式参照如前所述要有余弦相似性、相关相似性以及修正的余弦相似 性等。 ( 2 ) 最近邻居查找 基于项目协同过滤算法与基于用户协同过滤算法在最近邻居集查找方法类似,在 此不再赘述。 ( 3 ) 预测计算 通过统计选择相似度高低得到项目的邻居集之后,下一步就是根据目标用户的评 价进行项目预测评分。s a r w a r 提出了两种预测方法【3 1 1 ,即加权和方法以及回归方法。 加权和:加权和方式通过衡量用户u 对与项目f 相似项目的评价的和来表示用 户“对项目i 的预期评价。每一个评价尺,都使用项目衍口歹之间的相似度进行加权。 这种预测乞f ,可以表示为: 气:弩塑丝坐型堕:型 ( 2 - 5 ) 气t2瓮a业llsim,lla措ritemsn 1 v q 。5 一 、i l 1 7 回归:回归方式类似于加权和,不过这种方式不是直接利用相似项目的评价, 广西大学硕士掌位论文安全角度下协同过滤推荐算法研究 而采用回归模型计算出的近似评价值。通常两个评价向量可能较远( 欧几里德距离) 而 它们的相似度却很高,此时使用余弦函数或者相关系数方式计算的相似度可能会产生 较大误差。回归模型采用与加权和技术相同的公式,不过这种模型使用它们的近似值 疋。,而不是“原始 的评价值r 。线性回归模型表示如下: 如= 口r + f l + 6( 2 6 ) 其中,用r 和氐表示目标项目i 和相似项目的评分矢量,参数口和由两个 评价向量同时决定,占是回归模型的误差。 2 2 面向协同过滤推荐系统的攻击模型 协同过滤推荐系统已经被证实存在安全隐患。攻击者通过一些攻击模型产生攻击 数据对推荐系统攻击15 1 ,使推荐系统的预测评分产生偏差。本节首先介绍攻击模型 的一些相关概念,然后重点介绍常见的推荐系统攻击模型。 2 2 1 相关概念 我们这里所考虑的欺骗攻击只是那些攻击用户向推荐系统中注入的虚假评分的行 为,对一个在线的电子商务系统来说,通常攻击包括:密码破解、系统攻击、拒绝服务 等将不是我们讨论的范围。每一种欺骗攻击都有一些内在的固有特点,如下: ( 1 ) 攻击目的【1 7 】 不同的欺骗攻击类型有不同的攻击目的,如果欺骗攻击的目标是直接影响其他用 户的预测评分或推荐,则此类欺骗攻击可分为推攻击( p u s ha t t a c k ) 【l l 】或核攻击( n u l ( e a t t a c k ) 【u l 。推攻击( p u s ha t t a c k ) 的目的是提高攻击目标项目的推荐频率,核攻击( n u l ( e a t t a c k ) 的目的是减少目标项目的推荐频率。此类攻击通常是恶意生产商采用的手法。 另一种攻击的目的是降低整个推荐系统的推荐质量和精确度,从而用户不再信任 推荐系统并停止使用,此类攻击通常是恶意推荐系统商采用的手法。 ( 2 ) 攻击目标 攻击目标是攻击者将要攻击的一些目标用户或目标项目。攻击者人为地注入虚假 数据,使推荐系统的产生推荐目标项目根据攻击者的意愿,出现或不出现在用户的推 荐列表中。通常情况下,攻击目标是一些用户评分较少的项目。当采用推攻击( p u s h 1 3 安全角度下协同过滤推荐算法研究 a t t a c k ) 时,攻击目标被赋予高评分,即,;= ,嘣;当采用核攻击( n u k ea t t a c k ) 时,攻击 目标被赋予底评分,即,:= f m i a 。 ( 3 ) 攻击成本【1 3 】【3 5 1 攻击成本是衡量攻击者执行攻击的难易程度,包括知识成本( k n o w l e d g ec o s t ) 和 执行成本( e x e c u t i o nc o s t ) 。知识成本是指收集被攻击的系统信息及用户信息的成本, 其中包括系统所采用的推荐规则,用户评分分布等。执行成本是指为了实现攻击而向 推荐系统中注入必要的虚假数据量所付出的成本。 ( 4 ) 攻击规模【1 5 】 通常攻击者对某个项目进行攻击时,他将注入一定数量的攻击数据,这些数据攻 击目标相同。攻击规模( a t t a c ks i z e ) 就是衡量攻击数据的多少,通常以攻击数据与真 实用户概貌( u s e rp r o f i l e ) 之间的百分比来衡量。攻击规模越大,攻击数据与其他用户 相似的概率越大,出现在用户的邻居集概率越大,同时攻击的成本就越高。 ( 5 ) 填充规模【1 7 】 每一条攻击数据是攻击用户对项目设定特定评分集合。填充规模( f i l l e rs i z e ) 就是 攻击数据中评分项数目的多少,通常以评分项目数与总项目数之间的百分比来衡量。 填充规模越大,该条攻击数据与其他用户相似的概率越大,出现在用户的邻居集概率 越大,同时攻击的成本就越高。 2 2 2 攻击示例 对一个攻击者,总希望用少量攻击成本达到最大的攻击效果。有很多种方式来衡 量攻击的成本,但在这篇文章我们采用攻击成本来衡量。下面给出一个推荐攻击示例。 假设,用户a l i c e 之前的访问一个推荐图书系统并给一些图书评分。如图2 3 , 除了a l i c e 评分特征之外,还有其他7 个真实用户的评分特征。攻击者e v e ,向系统 注入3 条攻击资料( a t t a c k l a t t a c k 3 ) ,并且它们有相同的攻击目标i t e m 6 。从注入的 数据特征来看,它们和其他真实数据都比较相似。 如果推荐系统采用原始的基于用户的协同过滤推荐算法,当a l i c e 再次登录到系 统时,系统将对她产生推荐。没有注入攻击数据时,采用基于相关相似度计算方法, a l i c e 对i t e m 6 的预测评分为2 ,系统不会将i t e m 6 推荐给a l i c e 。注入攻击数据后, 1 4 广西大掌硕士学位论文安全角度下协同过滤推南算法研究 攻击数据a t t a c k l 将出现在a l i c e 的k n n 邻近集中,a l i c e 对i t e m 6 的预测评分会很 高。因此,推荐系统将会把i t e m 6 推荐给a l i c e ,显然a l i c e 对这样的推荐并不满意, 这样的推荐攻击是成功的。 絮 l t e m li t e m 2i t e m 3i t e m 4i t e m 5i t e m 6 c o r r e l a t i o n u s 八 w i t ha l i c e a l i c e 鬣苫”:“ ”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论