已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)基于web社会网络的协作过滤模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
塑室查兰堡圭兰竺篁兰! 董三些! 兰叁里竺墼竺堡苎塑堡型丝塞 基于w e b 社会网络的协作过滤模型研究 计算机软件与理论专业研究生陈君 指导教师唐雁副教授 摘要 随着互联网的不断发展人们已经被包围在信息的汪洋大海之中。由于信息不断地更 新和增加,使用户越来越难从海量的数据和信息中高效地获取有用的知识;从迅速增长的 信息中及时地获取最新消息。特别地,自9 0 年代末,w e b 上涌现了大量的,基于自动w e b 信息发布管理系统的b l o g 站点。该类站点数量多,增长速度快,并且其发布的信息个性化 强、更新频率高。在可预见的未来,b l o g 将成为w e b 信息过载的又一主要源头。 目前,用户主要依赖于信息检索技术,比如基于关键字的搜索引擎,获取有用或符合 个人偏好的m o g 信息。该方法主要存在如下弊端:用户必须明确地表达个人的信息需 求:匿) b l o g 信息极具个人色彩,仅依靠关键字进行检索,将无法考虑该信息的权威性; b l o g 信息所涉及的类型多样,无法全部用关键字的形式描述。基于协作过滤的推荐系统, 能对多种类型的资源进行过滤,并能为用户发现新的感兴趣的信息,己被成功地应用在电 子商务领域。然而,传统的协作过滤通常要求数据集中管理,而各个b l o g 的信息通常分散 存在于w e b 上的各个服务器上。 针对上述问题,论文对现有的基于协作过滤的推荐模型进行了研究,明确了其实现的 关键和难点是相邻用户的生成。结合b l o g 间交互性强的特点,采用语义网技术,论文提出 了一个针对b l o g 推荐的、基于w c b 社会网络的协作过滤模型。该模型由r s s 聚合器、用 户建模、w e b 社会网络、r d f 存储与处理,以及r d f 采集模块组成。论文对各模块的功 能进行了详细讨论,提出了w e b 社会网络扩展算法、相邻用户生成算法。最后,利用采集 自w e b 的真实数据,对模型进行了验证性实验证明了该模型的可行性和有效性。 塑里查耋堡圭兰堡兰兰 兰三兰丝兰童塑竺塑竺堑堡兰堡型丝塞 关键词推荐系统协作过滤b i o g 语义网资源描述框架( r d f ) i i 塑里查兰堡圭兰堡竺兰:量三兰! 茎塞里竺墼竺堡苎堡堡型塑塞 a s t u d y o nw e bs o c i a ln e t w o r k - b a s e d c o l l a b o r a t i v ef i l t e r i n gm o d e l m a s t e rc a n d i d a t eo fc o m p u t e rs o f t w a r ea n dt h e o r yj u nc h e n s u p e r v i s o r :a s s o c i a t ep r o f e s s o r y a nt a n g a b s t r a c t a si n c r e a s i n gd e v e l o p m e n ta n dp e r v a s i v e n e s so fi n t e r n e t ,p e o p l ea r et r a p p e da n d p u z z l e db yl a r g ea m o u n to fi n f o r m a t i o n i tb e c o m e sm o r ea n dm o r ed i f f i c u l tf o rt h e m t oo b t a i nj u s tn e e d e di n f o r m a t i o nf r o mt h ef a s t g r o w i n ga n dl a r g e - s c a l ei n f o r m a t i o n p a r t i c i l l a r l y ,s i n c ee n do f1 9 9 0 s ,al a r g en u m b e ro fs i t e s ,n a m e l yb l o g ,b a s e do n a u t o m a t i cw e bi n f o r m a t i o n p u b l i s h i n gs y s t e ma p p e a r e d t h e s es i t e su p d a t e d f r e q u e n t l ya n dp u b l i s h e dw i t hv a r i o u sp e r s o n a l i z e di n f o r m a t i o n i nn e a rf u t u r e ,i t sn o d o u b tt h a tt h e y l lb e c o m ea n o t h e rm a j o rs o u r c eo fi n f o r m a t i o no v e r l o a d c u r r e n t l y , p e o p l em a i n l yd e p e n do ni n f o r m a t i o nr e t r i e v a lt e c h n o l o g y , s u c ha s k e y w o r d - b a s e ds e a r c he n g i n e s ,t oa c c e s su s e f u lo rp e r s o n a l - l i k eb l o gi n f o r m a t i o n h o w e v e r t h e r ea r ea tl e a s tt h r e ed r a w b a c k so rl i m i t a t i o n so ft h i sa p p r o a c h f i r s t l y , p e o p l e h a v et os t a t et h e i ri n f o r m a t i o nn e e d s e x p l i c i t l y ;s e c o n d l y , i n f o r m a t i o n p u b l i s h e do n b l o ga l eu s u a l l ys u b j e c t i v e ,w h i c hm a k e si th a r dt ot a k eq u a l i t yo f i n f o r m a t i o ni n t o a c c o u n t ;t h i r d l y , v a r i e t i e so fb l o gi n f o r m a t i o nm a k e si t h a r dt o r e p r e s e n ti nk e y w o r d s c o l l a b o r a t i v ef i l t e r i n g - b a s e dr e c o m m e n d e rs y s t e m ,w h i c hh a d b e e na p p l i e ds u c c e s s f u l l yi ne - c o m m e r c ed o m a i n ,c o u l df i l t e rv a r i o u st y p e so f i n f o r m a t i o na n dr e c o m m e n di n f o r m a t i o nb e y o n dp e o p l e se v e ri n t e r e s t s b u tw h i l e b e i n gr e f e r r e dt or e c o m m e n db l o gi n f o r m a t i o n ,c o l l a b o r a t i v ef i l t e r i n gc a nn o tb e e a s i l yp l a n t e d ,f o rb l o gi n f o r m a t i o nu s u a l l ys c a t t e r e do nd i f f e r e n tw e bs e r v e r sw h i c h 1 1 1 塑童奎兰堡圭兰堡竺塞董三些! 兰叁窒竺竺丝堡基堡堡型至塞 i sd i f f i c u l tt ob em a n a g e dc e n t r a l l y r e g a r d i n gp r o b l e ms t a t e da b o v e ,c o l l a b o r a t i v ef i l t e r i n g - b a s e dr e c o m m e n d i n gm o d e l ,w h o s e k e yi sn e i g h b o r h o o df o r m a t i o n ,w a st h o r o u g h l ys t u d i e di n t h i sd i s s e r t a t i o n b a s e dn ns t r o n g i n t e r a c t i o n sa m o n gb l o g s ,a p p l y i n gs e m a n t i cw e bt e c h n o l o g y , ab l o g - o r i e n t e d ,w e bs o c i a l n e t w o r kb a s e dc o l l a b o r a t i v ef i l t e r i n gm o d e lw a sp r o p o s e d t h i sm o d e lh a ss i xc o m p o n e n t si na 1 1 t h e ya ms e p a r a t e l ya r er s sa g g r e g a t o lu s e rm o d e l i n g ,w e bs o c i a ln e t w o r k ,r d fs t o r i n ga n d p r o c e s s i n g ,a n dr d fc o l l e c t i n g f u n c t i o n sa n dr e l a t i n ga l g o r i t h m so ft h e s ec o m p o n e n t sw e r ea l s o g i v e n f i n m ly ,u s i n gr e a ld a t ac o l l e c t e df i o mt h ew e b ,e x p e r i m e n t sw e r ed e s i g n e da n d i m p l e m e n t e d e m p i r i c a lr e s u l t sp r o v e dt h ef e a s i b i l i t ya n de f f i c i e n c yo ft h ep r o p o s e dm o d e l k e y w o r d s r e c o m m e n d e rs y s t e mc o l l a b o r a r t i v e f i l t e r i n gb l o gs e m a n t i cw e b r e s o u r c ed e s c r i p t i o nf r a m e w o r k ( r o e ) i v 独创性声明 学位论文题目:基王垒塾余圜络麴拢燕过遽搓型殛究 一 本人声瞻所呈交的学位论文是本人在导师指导下进行豹研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究戒果,也本包 含为获得西南大学或其他教育规构的学梗或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作丁明 确的说明并表示谢意。 学位论文作者:低篓 签字日期:矽形年芗月多g 日 学位论文版权使用授权书 本学位论文作者完全了解话南大学有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权鹾簿大学研究生院可以将学 位论文豹全部或部分蠹容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在藤寮后适用本授权书,本论文:叼不保 密,口保密期限至年月止) 、, 学位论文作者签名:他塑 导师签名: 7 譬( 够 签字e 期:脚弓年岁月;艿嚣签字瑟襄:沙占年r 爱硒器 辩论文作者毕业后去向: 工作单位: 重鏖蛭电太堂 电话: 逶讯地址:重迭蠹崖墓益堑堡上匿! 量邮编: 4 0 0 0 6 5 西南大学硕士学位论文基于w e b 社会网绍的协作过滤模型研究 1 1 硪究背景 1 1 。1 信息过载 第1 章绪论 藏着互联网的不断发展与普及,人们已经被包围在信息的汪洋犬海之中。如今,互联 网已经成为海麓信源。由于信息不断地熨新和增加,信息爨以指数规律迅猛地增长和扩 曩,形成了信毖爆炸。髅惑过鼗洳l 最初被定义为:“i n f o r m a t i o np r e s e n t e da tar a t et o of a s t f o rap e l s o nt o p r o c e s s ”。w e b 上的信息过载,主委源于如下两个原因:( 1 ) w e b 上信息蟹 大,艇增长速发抉;( 2 ) 入粕款w e b 上获数痿塞约途经越来越多、越来趣硬捷。 因此,使用户能从海量的数据和信息中高效地获取有用的知识、从迅速增长的信息中 及鞋连获取最赣消息 捷亵猿惑捡索与娥逢弱智辘承平,漩廷各令麓声不爨鹣令挫纯箍 求殴成为一个重要且极具意义的研究课麒。 瓣决蕾惑避载静方法主要霹分为嚣秘:信患梭豢( i n f o r m a t i o nr e t r i e v a l ) 粒信悫过滤 ( i n f o r m a t i o nf i l t e r i n g ) 。其中,信息检索技术使得用户能够根据自己的信息需求,找到在 信塞疼容上与乏匹配耱w e b 蜜瓣,满足了a 销一定静需要。键是,麓户必须鲷确琏表这个 人的倍息需求,晟主要的表达形式就是关键字词所构成的查询式。这种简单而有效的信息 获取方式曾经度绘用户带来了极大便翻,y a h o o ! ,援狐薄蛄点藏避这种癌粥豹典蠹代 表。然而由于信息检索技术通用的性质窀不能满足不同背景、不同目的和不同时期的用 户查询请求。 倍息过滤则根据用户提供的过滤需求,从动态变化豹信息流中,自动检索出满足用户 个往化需求的信息。谆技术的应用领域非常广泛,戡如基予糟户过滤规则模撤的邮件过滤 系统,针对莱一集体或个人的毅阉组过滤聚统、针对,l 童的不良信息过滤系统,针对鄹络 信息检索结聚的过滤非相关信息的应用蒋。采用信息过滤的系统,其主要目标楚在信息源 内根撂用户过滤掉无关信息。媛常,经过信息过滤的结果被主动接送给用户,朝推荐蓉 统。 1 1 。2 推荐系统概述 程过去羽避+ 年墨,接荐系绞已残为瓣决痿惑过载重要途径,纛臻究摹l 残翅镢域郯获 西南大学硕士学位论文基于w e b 社会网络的协作过滤模型研究 得了极大的关注。b u r k e 【3 2 1 将推荐系统定义为这样一种系统:它为用户生成推荐,或以用 户偏爱的方式辅助用户,在候选空间中选择自己感兴趣或有用的资源。推荐系统的关键就 是面向用户,使得每一个用户能按自己的偏好或特点,获得推荐或系统的辅助。 目前,推荐系统的实现主要可分为两类: 基于规则的 基于规则的系统由系统管理员根据用户的静态特征和动态属性来制定规则。规则决 定了在不同情况下如何提供不同的服务。基于规则的系统的优点是简单、直接;缺点 是规则的质量很难保证而且不能动态更新。此外,随着规则数量增多,系统将变得越 来越难以管理。 基于信息过滤的 具体地,又分为基于内容的过滤与协作过滤。其中基于内容的过滤【5 0 】利用信息 资源与用户兴趣的相似性来过滤信息。其优点是简单、有效:缺点是难以区分信息资 源内容的质量与形式,而且只能推荐与用户已有兴趣相似的信息。基于协作过滤的系 统【5 8 ,6 4 】,利用用户之间的相似性来过滤信息。相邻用户的生成是关键。其优点是可 对多种类型的资源进行过滤,并能为用户发现新的感兴趣的信息。缺点是存在两个很 难解决的问题,一个是稀疏问题,即用户一资源矩阵稀疏,由于系统资源未获得足够 多的评价系统很难利用这些评价来发现相似的用户。另一个是扩展性问题,即随着系 统用户和资源的增多系统的性能会越来越低。 1 1 3w e b 信息增长新趋势 自9 9 年代末,涌现了大量自动w e b 信息发布管理系统,比如w o r d p r e s s 2 2 】、 m o v a b l e 1 0 等,即使是对计算机知之甚少的用户也能够在较短的时间里,在w e b 上建立起 自己的站点。并能轻松地、随时对站点进行更新。这类个人站点就是在w e b 上炙手可热的 个人b l o g 或博客。b l o g 一词源自j o i nb a r g e r 提出的w e b l o g ,其对应的中文翻译有网志、 部落格、博客等。截止目前,对b l o g 仍没有一个确切的定义。但是,不同于一般的站点, b l o g 一般具有如下特点: 个性化; 支持r s s ; 支持用户问的交互,如访客留言( c o m m e m ) : 每一篇文章( p o s t ) 均带有时问戳标识:所有的文章按时间戳,倒序排列 更新频率高; 至窒查兰璧圭兰竺兰圣 董三兰! 彗塞窒竺墼竺堡墼堡堡兰竺彗 目前对b l o g 有很多分类方法。其中,k r i s h n a m u r t h y 4 7 :婚b l o g 按个性化( p e r s o n a l ) 、主 题化( t o p i c a l ) 、个人( i n d i v i d u a l ) 、社区( c o m m u n i t y ) 四维进行了分类。本文所针对的 b l o g ,属于区域a ,是由个人拥有、发布个性化信息。如图1 1 所示。 个人 个性化 一。一7 _ _ i 嚣疆。j l :”i j 7 区域a ? : l 主题化 图1 1 社区 这类b l o g 站点更新频率高,依靠搜索引擎,以关键字进行检索,效果不佳;同时,由 于搜索引擎的数据库更新是周期性的,新近发布的信息并不能被其检索到。为此,m s n 【1 1 、g o o g l e 6 徽纷纷推出了自己的b l o g 托管服务,比如m s n s p a c e 1 2 ,c , o o g l e , 并提供免费的空间支持。这样,只要会上网的用户都能在短短几分钟里,在w e b 上建立起 自己的站点,并能轻松地、随时上网或通过手机等移动设各对站点进行更新。但基于信息 检索技术的信息获取,依然存在着弊端:一方面,基于关键词的检索方式难以满足用户不 同层次的查询需求,使用户往往陷入无法用合适的关键词表达自己信息需求的尴尬境地之 中;另一方面,检索结果中存在越来越多的非相关信息。 c o n h a i m 3 4 称b i o g 是一种全新的沟通方式及传擂模式。甚至,有人称b l o g 是继e - e m a i l 、b s s 、i m 后的第四类网络交流方式。报告【3 1 指出,1 9 9 9 年,网络上仅存2 3 个 b l o g :而到2 0 0 2 年5 月。此数目已有5 0 - 1 0 0 万;到2 0 0 5 年6 月,b l o g 的数目更是超过了 7 4 0 万。随着b l o g 数量的持续快速增长,用户将越来越难于从其发布的海量信息中,获取 自己需要的信息。 1 2 问题陈述 b l o g 作为一种全新的沟通方式及传播模式,其在w e b 上的数量越来越多,己成为继 e - e m a i l 、b s s 、1 m 后的第四类网络交流方式。在可预见的未来,b l o g 将成为信息过载的又 3 西南大学硕士学位论文基于w e b 社会网绍的协作过滤模型研究 一源头。 目前,用户对b l o g 信息的访问,主要依靠于信息的检索。采用该技术的弊端主要有: 用户必须明确地表达个人的信息需求,最主要的表达形式就是关键字词所构成的查询 式;由于b l o g 发布的信息极具个人色彩,而仅仅依靠关键字进行检索,返回结果将无法 考虑该信息的权威性;b l o g 信息所涉及的类型多样,无法全部用关键字的形式描述。而 另一方面,若采用协作过滤对b l o g 信息进行过滤、推荐,也存在着问题。协作过滤,无论 是基于用户的、基于模型的、或是基于项目的,通常要求信息。即资源及用户评价资源的 信息被集中管理。而b l o g 及其发布的信息,通常分散在各个不同的服务器上,有个人架设 的t 也有托管商【2 ,9 ,1 6 ,1 7 提供的服务器。因此,难以实现对架设在不同服务器上的b l o g 进行集中管理。 本篇论文研究的问题就是:如何采用协作过滤,在数据非集中管理的情况下。对分散 于w e b 上的各个服务器的b l o g 信息进行过滤。 1 3 研究现状 国内外针对协作过滤的研究,主要集中在电子商务领域【6 3 ,6 4 ,7 2 , 7 3 1 。在这类应用领域 中,用户、资源、以及用户对资源的评价均采用了集中管理的方式。有关研究工作主要致 力于解决或缓解如下两个问题:( 1 ) 系统扩展问题:研究人员提出了基于规则【6 3 】、聚类、 贝叶斯网 3 0 1 、基于图论的h o o t i n g 算法【2 4 】等方法预先建立一些反映相关性或相似性的 模型。从而在一定程度上提高系统的性能。通常,这是以降低推荐结果个性化、或增加系 统开销为代价的。( 2 ) 数据稀疏问题:由于用户数目和资源数目呈级数增长,导致推荐所 需数据极端稀疏。研究人员提出采用奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n s v d ) 技 术的协作过滤算法。 在数据非集中管理的环境下,通常,研究人员采用智能代理( a g e n t ) 技术实现协作过 滤。比如研究人员f o n e r 3 6 、o l s s o n 【5 7 】分别提出了多智能代理系统,通过代理问的消息 传递,生成相邻用户。但代理间的通信可能成为系统的“瓶颈”。m o n t a n e r 5 4 提出了基于 代理间信度的相邻用户生成。 目前采用协作过滤技术,对b l o g 的信息进行推荐 7 1 】的研究尚不多见。 1 4 研究意义 在过去近十年里,推荐系统已成为解决信息过载重要途径,在研究和应用领域都获得 d 璺塑奎兰堡圭兰堡兰兰 兰三兰竺兰耋璧塑竺篁堡些篓堡兰竺圣 了极大的关注。而协作过滤是推荐系统中的一项关键技术。基于协作过滤的系统利用用户 之间的相似性来过滤信息可对多种类型的资源进行过滤,并能为用户发现新的感兴趣的 信息。因此,针对协作过滤的研究对推荐系统的进一步发展有积极的作用。 但是。由于协作过滤算法,要求对资源和用户对资源的评价进行集中管理。一方面, 这使得协作过滤的扩展性问题无法避免,即随着系统用户和资源的增多,系统的性能会越 来越低。另一方面,使协作过滤难于在数据非集中管理的环境中工作,限制了协作过滤技 术在更广泛领域的应用。因此,针对协作过滤在数据非集中管理环境中工作的研究,对于 在更广泛的领域应用基于协作过滤的推荐的系统,有着积极的作用。 自9 0 年代末,涌现了大量自动w e b 信息发布管理系统,只要会上网的用户都能在短 短几分钟里,在w e b 上建立起自己的站点,并能轻松地、随时上网或通过手机等移动设备 对站点进行更新。这类站点的建立简单方便,因此数量大:这类站点的更新频率极高,因 此采用搜索引擎进行相应的信息检索,效果不佳。因此,采用基于协作的过滤对这类站点 的信息进行过滤,具有一定的研究价值和意义。 1 5 主要工作与创新点 论文主要对现有的推荐模型,特别是基于协作过滤的推荐模型以及相关的语义网技 术,w e b 社会网络的生成与分析技术进行了研究。具体地,论文的主要工作如下 研究了现有的推荐模型,特别是基于协作过滤的推荐模型 研究了相关的语义网络技术,特别是资源描述框架( r d f ) ; 研究了w e b 社会网络的生成与分析 提出了一个基于w e b 社会网络的协作过滤模型。 论文的创新点是: 研究了如何将协作过滤技术应用于b l o g 推荐领域中: 结合语义网及相关技术,提出了一个基于w e b 社会网络的协作过滤模型; 采集w e b 上的真实数据,对模型进行了验证。 1 6 内容安排 论文主要内容安排如下:第二章,介绍现有的推荐模型及相关技术,并重点介绍基于 5 塑里查兰堡圭茎堡望三董圭兰竺兰窒塑垒竺丝堡兰堡堡型矍塞 协作过滤的推荐模型:第三章,介绍语义网及相关技术并重点介绍资源描述框架及 f o a f 词汇表;第四章,对w e b 社会网络及相关概念、定义进行介绍,重点介绍如何实现 w e b 社会网络的生成及分析:第五章,介绍论文提出的基于w e b 社会网络的协作过滤模 型,井具体介绍了模型的工作流程、各模块功能及相关算法:第六章,介绍对论文所提模 型,进行的相关实验及实验结果;最后,第七章,对论文的工作进行总结,并对未来的后 续研究工作进行展望。 6 塑里奎兰堡三兰堡竺圣董三兰! 兰窒塑垒竺竺堡苎塑堡型矍塞 第2 章推荐系统及相关技术 推荐系统最初的研究动机来自于互联网带来的信息爆炸。在过去的近十年里,推荐系 统【5 9 1 获得了广泛的认可和关注。b u r k e 【3 2 】将推荐系统定义为这样一种系统:它为用户生 成推荐,或以用户偏爱的方式辅助用户在候选空间中选择自己感兴趣或有用的资源。推荐 系统的关键就是面向用户,使得每一个用户能按自己的偏好或特点获得推荐或系统的辅 助。具体地,推荐系统可分为基于规则的、与基于信息过滤的两大类。其中,基于信息过 滤的推荐系统在研究与商业领域,都获得了极大的关注。如图2 1 所示,基于信息过滤的 推荐模型,由如下四部分组成:人机交互、信息采集、信息过滤、以及推荐生成。 用户 2 1 人机交互 2 1 1 用户的输入 图2 1 用户的输入具体地分为显式输入与隐式输入,由此推荐系统可获取用户的偏好 完成对用户的建模。 其中,显式输入通过提问获取用户偏好。系统可以采用一次性或连续性提问的方式获 取用户对需求信息的描述,得到这些信息后,就可将用户归入当前的某个类,并激活适当 的原型。这种方法的缺陷是:只能利用有限的提问来确定用户的偏好,不能主动跟踪用户 的兴趣变化。隐式输入根据用户对信息资源的选择,采取某种学习方法逐步明确用户的偏 塑里奎兰塑圭兰丝丝三 董三兰竺兰塞塑竺塑墼堡堡塑堡型竺堑 好,其实质是一个机器学习的过程。利用用户隐式输入的优点是,能够捕捉用户偏好的变 化。常用的机器学习方法主要有: 神经网络方法:该法对信息资源进行形式化描述,信息的处理由神经元之问的相 互作用来实现。知识与信息的存储表示为网络元件互连问分布式的物理联系网 络的学习和识别取决于各神经元连接权值的动态演化过程。 遗传算法:该法通过模拟自然进化过程,搜索最优解。其主要步骤为:首先,随 机产生一定数目的染色体,这些随机产生的染色体组成一个种群;然后用评价 函数评价每个染色体的优劣,用以作为以后遗传操作的依据;接着,进行选择 如果染色体的适应度越高,其被选择的机会就越多。通过选择,将产生一个新的 种群。对这个新的种群进行交叉操作,接着进行变异操作。对新产生的种群重复 进行选择、交叉、变异操作,经给定次数的迭代处理后,将最好的染色体作为优 化问题的最优解。 基于示例的方法:该法首先对用户推荐的样本进行分析,提取其特征,从而获取 并表示用户的偏好。 基于智能代理的方法:该法在用户所在端运行一个代理程序,负责监视、搜集用 户在计算机或网络上的行为特点。依据用户的行为特点,整理、提取出用户的偏 好。 2 1 2 用户的反馈 为更好地获取用户的偏好系统可能还会提供相应的相关性反馈机制。用户对推荐结 果的反馈可分为显式反馈和隐式反馈两种形式。 其中,显式反馈可以是用户对自己的偏好文档进行增加、删除或修改,包括对权值的 更改,从而表明哪些推荐结果是相关的以及相关的程度:也可以是由系统提供评价机制 让用户对推荐结果的相关程度或满意程度进行评分。隐式反馈不需要用户的直接参与,而 由系统对用户的推荐结果或网络浏览行为或记录利用机器学习的方法进行学习。在这个过 程中,常用的机器学习方法有:贝叶斯分类器、决策树、s v m 等。 8 塑里查兰堡圭兰堡兰圣兰三! 竺兰塞塑兰墼坠堑兰堡矍型塑塞 2 1 3 推荐结果的呈现 推荐结果的呈现有很多种方式,可以是直接输出推荐结果列表,或对推荐结果添加补 充说明信息,或根据用户对颜色、版面等的偏好,以个性化界面的方式输出推荐结果。 2 2 信息获取 信息的获取是进行信息过滤的基础。在数据集中管理的环境中,比如电子商务应用领 域中,信息资源可通过直接访问站点服务器获取。否则,进行信息过滤前,必须对待过滤 的信息进行采集。其中采集分为两大类:盲目的;比如搜索引擎利用网络爬虫,跟踪 网页间的链接以宽度优先或以深度优先的信息采集:有目的性的:对被推荐的可能性比 较大的信息进行采集:比如基于搜索引擎结果的推荐系统则只对搜索引擎返回的相关链 接的信息进行采集。 2 3 信息过滤 在推荐系统中,采用的信息过滤技术主要分为三类:基于内容的过滤、协作过滤、以 及混台过滤。其中,基于内容的过滤,利用资源与_ l j 户兴趣的相似性来过滤信息:协作过 滤利用用户之间的相似性来过滤信息:混合过滤则结合了前两种过滤算法的优点。 2 3 1 基于内容的过滤 基于内容的过滤源于信息获取领域通过比较信息与用户的兴趣简档( p r e f e r e n e e p r o f i l e ,p r o f d e ) 的一致程度来决定是否推荐,其关键问题是相似性计算。而不同的用户兴 趣模型,其相似性计算的方法也不一样通常用户兴趣的表达有向量空间模型和概率模型 两种。 向量空间模型利用信息的特征词来表达信息和用户的兴趣。因此首先对训练集的信息 进行特征提取以获得用户兴趣,通常还结合加权的方法,使得更具有区分能力的特征有较 高的权重。目前对于信息特征向量的提取有很多种:如基于d o c u m e n tf r e q u e n c y ( d f ) 的 文档特征词选取法;基于i n f o r m a t i o ng a i n ( i g ) 的信息熵的文档特征词选取法;基于 m u t u a li n f o r m a t i o n ( m i ) 即互信息的文档特征词选取法等。从实际应用效果来看,m i 对符 合用户兴趣的词反应灵敏,但对错误的词反映迟钝,因而相对效果一般;而i g 计算代价比 较高:而d f 计算方法简单,代价较少,因而在实际应用中比较有优势【7 0 】。 如果信息特征向量通过其关键词向量表达,则用户兴趣也可以表示为一个关键词的向 9 璧皇查兰堡圭兰篁兰兰 董三兰! 兰塞里篁竺篁堡墼辇堡竺至墼 量u = ,d w i 表示第i 个关键词的权重,是由训练集中所有信息的关键词 向量进行平均得到的。每条信息的关键词向量也是由关键词的权重向量形成的,在一个给 定的信息集合中,使用t h d f ( t e r mf r e q u e n c yi n v e r s ed o c u m e n tf r e q u e n c y ) 方法,信息 i 中关键词k 的权重值由式2 1 计算: d w 。:玎0 x ( 1 0 9 :( 厅) 一l 0 9 2 ( 4 ) + 1 ) 式2 1 其中以为词k 在出现在信息i 中的频率,矾为包含有词k 的信息数目- n 为信息集 合大小。 用户兴趣还要根据用户评价进行权重的修改,假定用户u 当前对信息d 的评价是k 町为学习率,是一个小的常量,则可以通过式2 2 来修改用户兴趣: a w , ( u ) + _ a w , ( u ) + 叩k a w , q ) 式2 2 对向量空间模型来说,用户兴趣和信息之问的相似度通常是利用向量的余弦相似度 ( c o s i n es i m i l a r i t y ) 来衡量的。设m 为信息i 的关键词权重向量,p 为用户兴趣,二者的 相似度足表示为式2 _ 3 : w f t 只 r r 2 s ( w p ) 。彳丽式2 3 概率模型则是用信息在某个分类模型上的概率分布来表达信息和用户兴趣,信息表示 成为一个条件概率的向量:d = t p ( c ,i d ) ,p ( c :l d ) ,p ( c 1 d 卜,其中p ( c il d ) 为信息d 对类型c ;的后验概率。同样随着用户评价的产生,用户兴趣对应的每个分类的条件概率也 要做相应的修改。最后用户兴趣与信息之间的相似度计算也变为计算信息推荐给用户的概 率【7 7 】。 基于内容过滤的系统其优点是简单、有效尤其是向量空间模型,已经得到广泛使 用。缺点是难以区分资源内容的品质和风格,特征提取的能力有限,目前在一些领域还没 有有效的特征提取方法,如:图像、视频、音乐等;推荐的资源也过于狭窄,系统只是尽 可能向用户推荐最符合用户兴趣的东西;很难在不降低系统性能的情况下减少用户的反馈 量。 1 0 - 塑皇奎兰堡圭兰堡竺兰 董三兰! 兰塞里塑竺篁堡篓堡堡篓坚塞 2 3 2 基于协作的过滤 协作过滤的基本思想是:根据具有类似观点的用户的行为,对信息资源进行过滤。直 至目前,在推荐系统中,协作过滤是应用最成功的,其优点主要是:( 1 ) 可以过滤一些用 计算机难以分析的信息资源,比如音频、视频等;( 2 ) 可能会产生一些令人意想不到的过 滤结果,而不仅仅是用户原来就已经想得到的信息资源。 通常,当前获得推荐结果的用户被称为活动用户( a c t i v eu s e r ) :将被过滤的各种类型 的信息资源称为项目( i t e m ) 。协作过滤所需数据为:用户集u 一4 。,u 2 ,“。、项目集 i ; f 。,t 2 ,f ) ,以及用户对项目的评价集r 。其中,对用户“i u 对每一个项目t k 有 :r 一卜1 ,+ 1 1 。当0 时,表示用户“j 对项目f t 不喜爱;当0 时,表示用户“f 对项目t k 是喜爱的,且值越大表示喜爱的程度越深;当= 上时,表示用户i 尚未对项 目t 。进行评价。具体地,按所采用的不同算法,集中管理环境下的协作过滤具体实现又可 分为:基于用户的协作过滤、基于模型的协作过滤,以及基于项目的协作过滤。 2 3 2 1 基于用户的协作过滤 基于用户的协作过滤,采用最近邻方法根据用户评分的相似性来得到括动用户的若 干最近邻居,然后用晟近邻居对项目评分的加权值来预测活动用户对项目的评分。基于用 户的协作过滤,主要分为如下三个步骤【4 l 】( 见图2 2 ) 。 计算鲁景三盏霉动用卜堕户的相似度 图2 2 邻居的得分加权值作 为活动用户的评分佰 基于用户的协作过滤,其核心是为活动用户寻找与其相似的“最近邻居”集。 即对一个活动用户“。,要产生一个依相似度大小排列的“邻居”集,1 = 恤。,u :,h 。) h 。芒u 从h l 到“。- 用户间的相似度s i m ( u 。,“。) 从大到小排列【7 6 】。每个用户都有最近 珏毒大学疆圭掌袋论文基予、酶b 挂会璃终熬游捧过滤搂璧疆究 邻居,但邻属用户不一定是对称的。假设用户i , z 。是用户的邻居,用户不一定是用户 “。的邻居。融予评分矩阵的稀疏性,在一般情况下,用户的邻居也不一定是可传道的,即 期户口。与用户挝6 之间魏相识度缀高,麓户6 与翔户u ;之闷的楣议度也提高,毽弼户n 。与 用户& 。之问的相戗瘦未必赢e 毽霄 之阍可能会因为共同谨价_ 进的项目数太多丽褥戮缀小的 相似度。 得到各个用户与活动用户之间的相似系数后,则考虑选取多少用户作为该活动用户的 邻嚣来计算最璐豹颈测值。一般育弼转方法来选取锑屡魏数瓣。一秘方法是,预毙醺定一 个相似链阏饿,所有与活动用户闯的相似度超过该闽值的用户都作为邻居用户。巍该法 中,如果设鼹的阚值过大,则邻居与活幼用户之间有较好的相关性,但满足条件的邻居数 会比较少,报多预测可能不能得到;如果设置的阈值过小,则满足条件的邻居数会比较 多,麓值藏没露起蓟瘟寿戆终蠲。爨雏一耪蠢法莛,选择q 个籀关系数最大瓣羽产传为锦 居用户,如果q 俊过太,则相* 系数小的用户会影响瓢最聪的预测结果;反之。蜘粜q 值 过小,则有熄用户的评价则没有被考虑。 邻居生成艏,这些邻居钧评分被缀合起来。生成活动用户的预测评分值。在计算完活 凌臻户与其毽耀产之窝豹辐旗震嚣,潺动麓户毪对矮毯f j 熬译分鞭铡篷爱玉是其德蠲户澍 该项目的评分的加权和【3 0 l ( 见式2 4 ) : 爱 一i + 蟊芝三k 。魄圹瓦) 5 蔗2 4 其中,k h 是活动用户“。与邻居用户u 的相似度,r ,是邻居用户“j 的平均评 分,女是一个规范化系数。基于用户蚋协作过滤应兵;比较蟹斑,这秘方法在实践过程孛遇 到夔一个主瑟鹣 蠢蘑藏是稀巯经,帮攒在系统运孬过鬟中。幽予壤嚣数量较大,溺声译分 数量少而谴成。用户一评分”矩阵的稀疏,导致无法或滩乎发现相似用户。 为获取最近邻用户,需要求取活动用户与其他所有用户之间的相似度,常用的用户间 相似度的度檄方法有下述几种。 - 1 2 西南大学硕士学位论文基于w e b 社会网络的协作过滤模型研究 ( ) 余弦( c o s i n e ) 相似性【7 2 ,7 3 1 在信息检索领域,两篇文档之间的相似度的度量是,将文档看作一个词频矢 量,然后计算两词频矢量的夹角余弦。应用于协作过滤中,则可将用户评分看作l i 维 项目空间上的向量,如果用户对项目没有评分,则将用户对该项目的评分设为0 ,用 户问的相似性通过矢量间的夹角余弦度量设用户h :和用户u i 在n 维项目空间上的 评分分别表示为矢量,则用户h 和用户u 之间的相似性5 腑0 。,“,) 为( 见式2 5 ) 咖“灼) - c 0 s 瓦动。赢 龀, 式中分母用于归一化,使得评价项目较多的用户在计算时不会优先于其他用 户。在余弦相似性度量中,将用户没有评价的项目的评分假设为0 能有效地提高计 算性能,但在项目数量巨大且用户评分数据极端稀琉的情况下。该假设的可信度并不 高。 ( 二) 相关( c o r r e l a t i o n ) 相似性 设用户“,和用户“,共同评价过的项目集合为l o ,则用户“f 和用户“,的相似性 s i m ( u i ,“j ) ,可以通过p e r s o n 相关系数【7 3 】来度量。p e a r s o n 相关系数( 见式2 6 ) 用 于衡量两个变量之间的线形关系。 s i m ( u i ,u j ) 一 二 ,i ) ( r ,一i ) :。( 咒厂习2 :,( 咒厂i ) 2 式2 6 其中,r , 与r ,分别表示用户“r 和用户“对项目k 的评分,氏与r ,分别表示 用户j 和用户“,对其共同评价过项目的评分平均值,k 是用户“j 和用户“j 共同评价 1 3 西南大学硕士学位论文基于w e b 社会网络的协作过滤模型研究 过的项目数。 由于p e a r s o n 相关系数从线形回归模型得来,需要满足一些前提条件才能使用 即数据之间的关系必须是线形的残差之问相互独立等【7 4 】。如果这些条件得不到满 足,则p e a r s o n 相关系数不能很好地表示用户之间的相似关系。而在实际的协作过滤 系统中,这些条件往往得不到满足。h e t l o c k e r 【4 1 】等人认为,如果评分分值范围包括 几个不同的等级,采用s p e a r m a n 等级相关系数作为用户之间的相似系数较好;如果 评分分值范围不是离散的,则可以考虑采用p e a r s o n 相关系数:如果评分分值是布尔 量,则应采用其他方法。s p e a r m a n 等级相关系数的公式( 见式2 7 ) 如下: 邮一沪蒜k :等- - 器2 鹅k- - 2 彻 s p e a r m a n 等级相关系数与p e a r s o n 相关系数的区别在于:前者以评分等级代替了具体 的评分数值。 r i n g o 采用了一种改进的p e a r s o n 相关系数约束p e a r s o n 相关系数( 见式 2 8 ) 来计算用户之间的相似系数: 咖叼。商鲁赫 舰。 其中阈值4 是因为r i n g o 采用了7 点评分分值法。r i n g o 限制只有那些与活动用户之 间的相似系数超过一定阈值的用户,才能作为该活动用户的邻居,所以阈值取值越 大,系统预测的精确度越高,但系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京京东签三方协议书
- 南非脐橙采购合同范本
- 厂房修复施工合同范本
- 双方合作劳务合同范本
- 南充小区保洁合同范本
- 南汇家具运输合同范本
- 公司资质转让合同范本
- 占用土地买车位协议书
- 叉车卸货托盘合同范本
- 养护合同补充协议模板
- 店面库房管理办法
- 人教七年级英语上册Reading Plus《Unit 3》课件
- 《生成式人工智能》 课件 第4章 Transformer模型
- (新交际英语2024版)英语二年级上册Unit 2课件
- 双镜联合治疗肾结石讲课件
- 肿瘤病人疼痛管理
- VDA5测量系统分析培训
- vivo内部管理制度
- 2025+CSCO肿瘤治疗所致血小板减少症(CTIT)诊疗指南解读
- 【企业绩效考核研究的国内外文献综述4000字】
- 集资建房合同协议
评论
0/150
提交评论