(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf_第1页
(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf_第2页
(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf_第3页
(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf_第4页
(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于用户兴趣的个性化信息推荐系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士论文 基于用户兴趣的个性化信息推荐系统 计算机软件与理论专业 研究生沈杰峰指导教师杜亚军 n t e r n e t 技术的发展为人们提供了方便快捷的信息获取手段。面对网络上的 海量信息,人们有时往往会感到无所适从。如何为每个用户提供快捷准确,满 足个人实际需要的信息,己成为众多业内人士越来越关注的问题。 基于信息过滤技术的信息推荐系统在与用户交互时,针对不同的用户采取 不同的服务策略,提供不同的服务内容。在信息领域,每个用户都有自己特定 的、长期的信息需求,用这些信息需求组成过滤条件,从动态的信息资源流中 过滤出服务需求的内容,屏蔽掉无用的信息并进行服务。 近年来推荐系统在理论和实践中都得到了很大发展。但是随着系统规模的 扩大,信息推荐系统也面临一系列挑战。针对这些挑战,本文进行了有益的探 索和研究,研究的主要内容为如下两方面: 1 ) 在推荐系统推荐质量研究方面,提出了一种基于项目特征评价的协同过滤算 法,通过项目特征分解的方法来提高系统在评价数据稀疏情况下的系统性能, 并通过用户聚类的方法来减少搜索空间,减少在线计算的复杂度。实验证明, 本算法可以有效改善推荐系统的推荐精度,并在一定程度上改善系统的反映时 间。 2 ) 设计了一种基于蚁群算法的网页推荐算法,它把基于内容的信息过滤和协 同过滤两者的优点结合在了一起,弥补了各自的缺陷。实验证明,如果在协作 式过滤方法中融入基于内容过滤的技术,系统性能将有所提高。通过两者的结 合,可以获得基于内容过滤的优点,包括能进行覆盖所有文档和用户的早期预 测;同时也能获得协作式过滤的优点,即使用户评估过的文章数不断增加,系 统仍能给出精确的预测。 关键词:信息过滤,协同过滤,内容过滤,蚁群算法,用户模型,用户评价 西华大学硕士论文 t h ep e r s o n a li n f o r m a t i o nr e c o m m e n d a t i o ns y s t e m b a s eo nu s e r s i n t e r e s t c o m p u t e rs o f t w a r e & t h e o r y m d c a n d i d a t es h e nj i e f e n g s u p e r v i s o r d uv a j u n w i t hr a p i dd e v e l o p m e n ta n dp o p u l a r i t yo ft h ei n t e m e t ,i ti sm o r ea n dm o r e c o n v e n i e n c et of i n dt h en e e d e di n f o r m a t i o nf o re v e r y o n e t h ei n t e m e ti n f o r m a t i o n i ss og r e a tt h a tp e o p l eo f t e nl o s tt h e m s e l v e si ni t t h e r e f o r eh o wt op r o v i d et h e p e r s o n a l i n f o r m a t i o nt o p e o p l e i s b e c o m i n gt h ei m p o r t a n tp r o b l e mt h a t t h e r e a s e a c h e r sc a r ef o r t h ei n f o r m a t i o nr e c o m m e n d e rs y s t e mb a s e do ni n f o r m a t i o nf i l t e r i n gt e c h n o l o g y c o m m u n i c a t e sw i t ht h eu s e r s ,a n d p r o v i d ed i f f e r e n ti n f o r m a t i o n f o rd i f f e r e n t u s e r s i ni n f o r m a t i o nf i e l d ,e v e r yu s e rh a v eh i ss t e a d yp e r e n n i a lr e q u i r e m e n t t h e r e q u i r e m e n to fu s e r sc a nc o n t r i b u t et of i l t e rt h eu s e l e s si n f o r m a t i o na n dh e l pu s e r st o s e l e c tt h en e e d e do n e s r e c o m m e n d a t i o ns y s t e m sh a v eb e e nv e r ys u c c e s s f u li nb o t hr e s e a r c ha n d p r a c t i c e ,b u ts o m ec h a l l e n g i n gp r o b l e m sr e m a i ni n t h i sf i e l d a i m e da t t h em a i n c h a l l e n g e so fr e c o m m e n d a t i o ns y s t e m s ,t h i st h e s i se x p l o r e ds o m ek e yt e c h n o l o g i e s o fr e c o m m e n d a t i o ns y s t e m s t h em a i nr e s e a r c hw o r k si nt h et h e s i sc o v e rt w o a s p e c t s : 1 、f o rt h e i m p r o v e m e n t o ft h er e c o m m e n d a t i o n q u a l i t y , w ep r o p o s e d a c o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na l g o r i t mb a s e do nt h er a t i n g o fi t e m s c h a r a c t e li nt h ea l g o r i t m ,i t e m sa r ep a r s e dt oc h a r a c t e r s ,a n da sc o n t r i b u t e st o i m p r o v et h es y s t e mp e r f o r m a n c ew h e nr a t i n gd a t ai ss p a r c i t y i na d d i t i o n ,t h ed u s t e r o ft h eu s e r si su s e dt om i n i s ht h es e a r c h i n gr a n g ef o rt h ea c t i v eu s e r t h ee x p e r i m e n t r e s u l t ss u g g e s t e dt h a tt h i sm e t h o dc o u l de f f i c i e n t l yo v e r c o m et h ee x t r e m es p a r c i t yo f u s e rr a t i n gd a t aa n dp r o v i d eb e t t e rr e c o m m e n d a t i o nr e s u l t st h a nt r a d i t i o n a l i i 两华大学硕士论文 c o l l a b o r a t i v ef i l t e r i n ga l g o r i t m s 2 ) f o rm a k i n gu s eo ft h ea d v a n t a g e so ft h ec o l l a b o r a t i v e - f i l t e r i n ga l g o r i t m sa n d c o n t e n t b a s e df i l t e r i n ga l g o r i t m s ,w ep r o p o s e da m u l t i f i l t e r i n gr e c o m m e n d a t i o n a l g o r i t mu s i n ga n tc o l o n i e s t h ee x p e r i m e n tr e s u l t ss u g g e s t e dt h a tt h es y s t e m s p e r f o r m a n c e i s i m p r o v e d a f t e rt h ec o m b i n eo f c o l l a b o r a t i v e f i l t e r i n g a n d c o n t e n t b a s e da l g o r i t m t h ea l g o r i t mc o n t a i nt h e a d v a n t a g e so fc o n t e n t b a s e d a l g o r i t m ( c o v e r i n ga l lo fd o c u m e n t sa n da n dt h er a t i n go fe a r l yu s e r s ) a tt h es a m e t i m e ,t h er e c o m m e n d a t i o ni ss t i l la c c u r a c ye v e ni ft h ei n c r e a s eo ft h eu s e rr a t i n g ,a s i sa l s ot h ea d v a n t a g eo ft h ec o l l a b o r a t i v e f i l t e r i n ga l g o r i t m k e y w o r d s :i n f o r m a t i o nf i l t e r i n g ,c o l l a b o r a t i v ef i l t e r i n g ,c o n t e n t b a s e df i l t e r i n g ,a n t c o l o n i e s ,u s e rp r o f i l e ,u s e rr a t i n g i l i 西华大学硕士论文 1 绪论 自从2 0 世纪4 0 年代以来,随着计算机技术的发展,人类的信息产业正在 以前所末有的速度前进着。尤其是i n t e r n e t 和网络技术的发展极大的推动着万维 网( w o r l dw i d ew e b ) 的迅速普及,w w w 深刻地改变着人们的生活和思维方式, i n t e m e t 已经成为人们不可缺少的信息来源。自1 9 9 3 年以来,i n t e m e t 直以惊 人的速度发展着,从最早仅连接美国的少数几所大学和科研机构,到现在已经 几乎触及世界的每个角落,接入i n t e r n e t 的站点亦如雨后春笋般地增长。i n t e m e t 己经成为全球最大、也最为方便快捷的数字图书馆。然而与常规图书馆不同, i n t e m e t 是一个高度开放、异构、分布式的信息空间,没有统一的管理,信息杂 乱地散布在全球各个站点,而且每天以极快的速度更新。i n t e r n e t 信息资源的高 度无序性和不可管理性给信息的使用者带来了极大的困难。因此人们迫切的需 要开发出能够从w e b 资源中快速准确的发现知识的工具。 传统的i n t e r n e t 信息服务为用户使用i n t e m e t 信息资源提供了一些可行的 途径。然而,相对于巨大、无序的n t e r n e t 信息空间,每个用户真正感兴趣的信 息非常有限,仅仅是i n t e m e t 信息空间的沧海一粟,在传统i n t e r n e t 信息服务模 式下,用户为了获得真正感兴趣的信息,用户需要耗费大量的时间和精力。搜 索引擎是w e b 上最常见的信息发现工具,相对来说利用搜索引擎更容易获得有 效的信息,因此搜索引擎部分地解决了w e b 上资源发现的问题,但由于目前搜 索引擎对于同一个查询请求返回的网页链接信息是基本一致的,因此很难满足 不同背景、不同目的用户的查询请求,人们不得不花费大量的时间从所给的网 页链接中挑选与自己需求相关的信息。例如:当在g o o g l e 上输入j a v a 这个关键 字时,返回的结果有5 8 ,0 0 0 ,0 0 0 项查询结果,如此多的选择结果常常会让用户 感到无所适从。 信息过滤技术能较好的解决“信息过载”和“资源迷向”的问题,让人们 能够更充分地使用i n t e r n e t 上的信息资源。信息过滤( i n f o r m a t i o nf i l t e r i n g ) 是实 现信息的个性信息推荐的基础。在信息领域,每个用户都有自己特定的、长期 的信息需求,用这些信息需求组成过滤条件,从动态的信息资源流中过滤出服 务需求的内容,屏蔽掉无用的信息并进行服务,这种做法就叫做信息过滤。 西华大学硕士论文 基于信息过滤技术的推荐系统具有良好的发展和应用前景。目前,几乎所 有大型的商务系统,如m l t l a z o n ,c d n o w ,e b a y ,d a n g d a n g 等,都不同程度的 使用了各种形式的推荐系统。各种提供个性化服务的w e b 站点也需要推荐系统 的大力支持。在日趋激烈的竞争环境下,推荐系统能有效保留用户,提高电子 商务系统的销售。推荐系统将会产生巨大的经济效益。 由于推荐系统的诸多优点,它得到了越来越多的关注,并且在理论和实践 方面都得到了很大发展。同时推荐系统也面临一系列挑战。针对推荐系统面临 的主要挑战,本文将对推荐系统中的推荐算法进行了有益的探索和研究。 1 1 研究动态 随着互联网的普及发展,推荐系统逐渐成为i t 技术的一个重要研究内 容,得到越了来越多研究者的关注【1 j 。文【1 】介绍从1 9 9 9 年开始,a c m 的数据 挖掘特别兴趣组s i g k d d 小组设立w e b k d d 研讨组,主题集中在w e b 挖掘 技术和推荐系统技术。而a c m 下面的信息检索特别兴趣组s 1 g i r 在召开的第 2 4 届研究和发展会议上,专门把推荐系统作为一个研讨主题。第7 届国际人工 智能联合会议l i c a i 0 1 则把e b u s i n e s s t h ei n t e l l i g e n tw e b 作为一个独立的研 讨小组。9 9 年召开的人机界面会议c h i 9 9 专门设立推荐系统特别兴趣组。同 时,第十五届人工智能会议a a a i 9 8 、第一届知识管理应用会议p a k m 也纷纷 开始将推荐系统作为研究主题。 1 1 1 推荐系统研究现状 推荐系统中的推荐技术主要包括基于内容的过滤和协同过滤两种。基于 内容的过滤是信息检索领域的重要研究内容【3 1 。基于内容过滤的推荐系统需要 分析资源内容信息1 4 j ,根据用户兴趣建立用户档案( p r o f i l e ) ;然后根据资源内容 与用户档案之间的相似性向用户提供推荐服务。文【5 1 提出使用智能代理技术, 利用智能代理获取用户兴趣信息,分析用户的特定需求,提供推荐服务。文【6 】 提出利用不确定推理进行搜索引擎人性化的研究,构建了一个基于正规文法的 不确定性推理方法,以个人正在访问的主题兴趣为文法的开始符,把相同兴 趣群体中其他人喜好的、与该主题兴趣有关的网页,构成一个推荐序列集,并 2 西华大学硕士论文 推荐给用户。b a y e s i a n 概率模型、遗传算法以及其它机器学习技术也被广泛应 用于用户档案的建立和更新。 基于内容过滤的推荐技术具有一定的局限性f 7 】。主要表现在必须分析资源 的内容信息,因此对音乐、图像、视频等信息无能为力,无法分析信息的质量, 无法提供新颖的推荐。 针对上述问题,研究者提出了协同过滤推荐技术【8 1 。协同过滤,又称社会 过滤( s o c i a l f i i t e r i n g ) ,其基本思想十分直观:在日常生活中人们往往会根 据亲朋好友的推荐来做出一些选择( 购物、阅读、音乐) 。协同过滤系统就 是将这一思想运用到网络信息服务( 信息推荐) 中,基于其他用户对某一信息的 评价来向某一用户进行推荐。在早期的协同过滤推荐系统中,甩户之间需要相 互了解对方的兴趣爱好。随着研究的深入,研究者提出了自动化协同过滤推荐 技术i9 1 。 推荐系统的推荐质量是推荐系统成功与否的关键。经典协同过滤推荐技 术根据用户之间的相似性产生推荐结果。k a r y p i s 等人【1 0 】提出根据项之间的相似 性提供推荐服务,从而有效提高推荐质量。文 2 0 1 中提出通过图搜索计算用户 最近邻居的优化算法。文 1 3 1 对各种用户间相似性度量方法进行了分析,提出 了各种改进方法。用户评分数据的稀疏性是导致推荐系统推荐质量下降的主要 原因【1 9 】。文【1 5 】中提出使用奇异值分解技术减少项空间的维数,从而有效改善 用户评分数据的稀疏性。文【1 5 】中提出通过对稀疏数据的关联分析可以有效提 高推荐质量。 传统的协同过滤推荐技术根据用户显式评分产生推荐结果,由于用户使用 不方便,许多研究者提出可以通过w e b 挖掘技术获取用户隐式评分。 文 1 7 】 提出通过w e b 日志挖掘提供推荐服务。文 1 8 1 提出通过u r l 聚类产生推荐的方 法。各种数据挖掘方法如关联规则挖掘技术,聚类挖掘技术被广泛的应用于w e b 日志分析中以提高推荐精度。 协同过滤推荐技术也存在自身的不足。主要表现在用户评分数据比较少的 时候推荐质量比较低。因此多种数据多种技术的有效集成得到研究者的重视。 b a l a b a n o v i c 等人1 8 】提出通过基于内容的过滤和协同过滤的复合型推荐系统提高 推荐质量。文【1 7 】中提出基于w e b 使用挖掘和w e b 内容挖掘的推荐系统。文i t 9 】 中提出同时使用智能代理技术和协同过滤技术提供推荐服务的方法。文f 2 0 】中 提出在推荐系统中增加产品语义信息,从而提高推荐系统的推荐质量。 西华大学硕士论文 1 1 2 推荐系统实例简介 推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著名研究机 构和研究者的关注,出现了大量研究型推荐系统实例: 1 1 a c f :a c t i v ec o l l a b o r a t i v ef i l t e r i n g 系统是c a r n e g i e m e l l o n 大学开发的主动协 同过滤推荐系统【2 1 】,用于电子文档推荐。a c f 系统通过指针实现协同过滤推荐 服务,指针包含指向电子文档的超链接、电子文档的上下文信息以及用户撰写 的电子文档评论。在a c f 系统中,用户可以通过主动的方式将创建的索引推荐 给其他可能感兴趣的用户,也可以将创建的索引保存在系统中供其他用户查看。 a c f 系统也只适用于用户群体比较小的场合。 2 、f a b :是s t a n f o r d 大学数字图书馆项目组开发的基于内容过滤和协同过滤的 复合型推荐系统【8 】,用于推荐w e b 页面。其特点是综合了基于内容过滤的推荐 和协同过滤推荐的优点,同时支持两种类型的推荐服务。f a b 系统主要包括页 面收集代理,个人推荐代理和中心路由器几个部分。页面收集代理从w e b 上收 集特定主题的页面,个人推荐代理从特定主题中选择用户感兴趣的页面推荐给 用户。个人推荐代理根据文档内容信息建立用户的用户档案,然后根据用户档 案之间的相似性搜索用户的最近邻居。推荐结果可以基于用户p r o f i l e 中的内容 信息产生,也可以基于用户最近邻居的评价信息产生。 3 ) m o v i e l e n s :是m i n n e s o t a 大学开发的研究型自动协同过滤推荐系统瞄i ,用 于推荐电影。与g r o u p l e n s 不同,m o v i e l e n s 系统是一个基于w e b 的推荐系统, 系统通过浏览器的方式进行用户评分数据收集与推荐结果显示,用户使用更加 方便。 4 ) g r o u p l e n s :由m i t 开发的自动协同过滤推荐系统【2 3 悃于新闻组信息推荐。 g m u p l c n s 系统通过用户的评分信息自动搜索用户的最近邻居,然后根据最近 邻居的评分信息产生最终的推荐结果,适合于用户数量比较大的场合 g r o u p l e n s 系统具有极好的开放性,用户可以通过g r o u p l e n s 系统提供的a p i 4 西华大学硕士论文 函数向g r o u p l e n s 服务器提供评分信息,请求推荐结果。同时,g r o u p l e n s 系 统提供三种客户端工具e m a c sg n u s ,n n 和n e w s w a t c h e r 达到上述目的。 1 1 3 发展趋势 推荐系统的主要研究内容和研究方向主要包括如下几个方面1 2 4 1 1 1 推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过 滤两种。由于基于内容的过滤自身的局限性,协同过滤推荐技术是当前研究的 热门。 2 1 推荐质量研究:在大型推荐系统中,用户评分数据极端稀疏。用户评分数 据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难以 保证。 3 1 多种数据多种技术的集成:当前大部分的推荐系统都只利用了一部分可 用信息来产生推荐。随着研究的深入,新型推荐系统应该利用尽可能多的信息, 收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务 1 2 本文研究内容 本文对个性化信息推荐系统中推荐算法设计,推荐质量研究两方面进行了 有益的探索。本文的主要研究成果如下: 1 ) 针对个性化信息推荐系统推荐质量研究,提出了一种基于项目特征评价的协 同过滤算法,通过项目特征分解的方法来提高系统在评价数据稀疏情况下的系 统性能,并通过项目聚类的方法来减少搜索空间,减少在线计算的复杂度。实 验证明,本算法可以有效改善推荐系统的推荐精度,并在一定程度上改善系统 的反应时间。 2 ) 设计了一种基于蚁群算法的网页推荐算法,它把基于内容的信息过滤和协同 过滤两者的优点结合在了一起,弥补了各自的缺陷。实验证明,如果在协作式 西华大学硕士论文 过滤方法中融入基于内容过滤的技术,系统性能将有所提高。通过两者的结合, 可以获得基于内容过滤的优点,包括能进行覆盖所有文档和用户的早期预测: 同时也能获得协作式过滤的优点,即使用户评估过的文章数不断增加,系统仍 能给出精确的预测。 1 3 论文结构 本文剩下的章节将组织如下: 第二章:简单介绍推荐系统相关的技术 第三章:详细介绍本文将提出的基于项目特征评价的协同过滤算法,并进 行了详细的实验分析 第四章:提出基于蚁群算法的混合推荐算法。算法把基于内容的信息过滤 和协同过滤结合在了一起,弥补了各自的缺陷。 第五章:实验系统的设计和实现 6 西华大学硕士论文 2 信息推荐系统关键技术的介绍 推荐系统的关键技术主要包括信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) 技术和信 息过滤( if ,i n f o r m a t i o nf i l t e r i n g ) 技术。与信息检索不同,信息过滤对动态信息进 行筛选,着重排除不希望得到的信息,带有即时性。虽然实现技术及其相似, 但信息检索和信息过滤所完成的任务完全不同口i 。 2 1 信息检索 信息检索技术一般是指根据用户需求,从大规模的相对静止的数据库中检 索用户需要的信息,主要满足用户瞬时的信息需求【2 】。信息检索技术主要用于 相对静止的信息存储领域。例如,当用户在数字图书馆中进行检索时,用户提 交的关键字反映了用户当前的信息需求,数字图书馆中的搜索引擎根据预先建 立好的内容索引,检索出用户需要的信息。 信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内 容进行分析,从而将资源内容表示为计算机可处理的数据结构的过程。查询技 术是根据用户需求,查询用户需要的资源信息。其研究内容主要包括:查询语言 设计研究、可视化查询接口研究、用户请求与资源信息的匹配研究等1 3 1 。在很 多情况下,索引技术和查询技术是重叠的,查询技术依赖资源信息所采用的索 引结构。 2 2 信息过滤 信息过滤技术一般用于用户需求相对不变,但信息动态更新比较频繁的情 况。信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的长期 信息需求提供信息过滤服务。用户的兴趣模型可用用户档案( p r o fl e ) 文件的形式 表示。信息过滤系统将动态信息与用户档案文件进行匹配,根据匹配结果返回 用户需要的信息。 7 西华大学硕士论文 信息过滤与信息检索的区别主要包括【2 j 1 ) ,信息过滤面向用户长期的信息需求,而信息检索技术面向的是用户短期 的、实时的查询。 2 ) 信息过滤用档案文件表示用户的信息需求特征,而信息检索技术是用关 键词表达用户的查询请求。 3 】信息过滤中用户需求相对不变,但用户访问的是动态数据流,是从动态 数据流中选择数据:信息检索技术访问的是相对静止的数据,但用户需求却具有 瞬时性。 信息过滤技术主要分基于内容的过滤和协同过滤两种。他们有各自特点, 下面将做详细的介绍。 2 2 1 基于内容的过滤技术 基于内容的过滤源于信息检索,采用了与信息检索相似的技术。信息对 象( 如文本文档) 的过滤是建立在其内容与用户兴趣文件( p r o f i l e ) 相比较的基 础上的“”。这种系统由用户给出的示例文档集建立用户的兴趣文件,待过滤文 档经过特征提取后同用户的兴趣文件相比较得到结果文档。有些系统还要求用 户给出反馈信息以利于维护用户兴趣文件。已有大量算法用来分析文本文档的 内容,以作为过滤的基础。其中许多算法可以看作是分类学习器的具体化应用, 其目的是要找到一种函数用以预测文档的类别( 即是用户喜欢的还是不喜欢 的) ,另一些算法的目标在于找到一种函数用以预测个数值( 即文档的评估 值) 。一般来说,会用到一些加权算法以给那些有辨别能力的单词很高的权重。 一个纯粹的基于内容的过滤系统是仅仅基于用户的兴趣文件的,而这一兴趣的 建立是通过分析用户以前所评估过的文档的内容。 一个纯粹的基于内容过滤的系统存在一些缺陷“。首先,基于内容的技术 在碰到相同主题的文档时,很难区分质量的高低。第二个问题是主要表现在必 须分析资源的内容信息,因此对音乐、图像、视频等信息无能为力。 基于内容的过滤技术主要包括两个部分,一个是用户模型,另外一个是模 型的反馈和更新。 西华大学硕士论文 2 2 1 1 用户模型( u s e r p r o f i l e ) 用户模型( u s e rp r o f i l e ) 即是对用户建立的个性化模型,可以理解为用户的信 息需要,用户的兴趣领域或者主题,用户的访问方式,用户的思维方式等等, 或者是他们的结合,也可以是一些用户需要的特殊信息的相关背景,如被请求 的知识的类型或者用户背景知识等。 用户模型主要有这样几种类别:主题表示法,b o o k m a r k 表示法,布尔或 者加权关键词向量,布尔或者加权关键词向量,基于t f - i d f ( 倒置文档频率) 表 示法,基于本体的加权向量法,语义网络法,n g r a m s 法。 2 2 1 2 反馈与更新 传统的反馈方法有很多【2 q 2 7 】,实用方法集中在对查询条件也就是用户模型向 量的调整上,其中主要的有两种,一种利用概率模型对查询条件中的词条进行 增减,同时调整词条的权值:另一种是利用向量空间模型修正查询条件o 的方 向。 在概率模型下,给出样本的各项属性值后,可以决定文章d j 符合查询条件 q 的概率。在独立假设下,可以使用b a y e s 方法,将文章表示成词条t e r m s ,选 择信息熵最大的n 个词条,得出 p ( q i d ,) = p ( q l a 。 a 。) = p ( q ) 丌p ( a 。l q ) ( 1 ) , 其中p ( a k i q ) 是指文章中的a k 符合查询条件q 的的概率,p ( q ) 是指文章集中 符合查询条件q 的文章的概率,兀符号表示连乘。它们可以从训练集合中得到。 根据上式可以对文章进行排序。 在向量空间模型中,它将所有的查询和文档都看作是由一组向量组成的。 向量空间模型中的相关反馈方法都是基于r o c c h i o 【硐方法的,在这种方法中, 查询条件的改变是通过所有文档中特征项权值的变化来实现的。最基本的 r o c c h i o 中心向量方法可以用公式( 2 ) 表示: 口1 训南口。弘巾朋蔷工, ( 2 ) 旷 丽口。美铲| d ,l 卢盏工, ( 2 ) 其中,q 是初始查询向量,d 。是相关文档集,d j 是不相关文档集。a ,b 是 西华大学硕士论文 r o c c h i o 权重。向量玉是第i 个相关的文档向量,向量x i 是第j 个不相关的文档 向量。由于r o c c h i o 算法是通过批处理的方式来修改查询向量的,这种方式需 要大量的文档集合,占用空间多,适应性较差。在r o c c h i o 算法的基础上,人 1 f i x 提出了在线动态增量算法,例壹 1 :w i d o w h o f f ( w h ) 2 9 】算法和指数梯度算法 ( e g ) t 3 0 1 。 2 2 2 协同过滤技术概况 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 的出现为进一步提高信息服务质 量提供了一个新的思路。协同过滤,又称社会过滤( s o c i a l f i i t e r i n g ) ,其基本 思想十分直观:在日常生活中人们往往会根据亲朋好友的推荐来做出一些选 择( 购物、阅读、音乐) 。协同过滤系统就是将这一思想运用到网络信息服 务( 信息推荐) 中,基于其他用户对某一信息的评价来向某一用户进行推荐。系 统选取与指定用户有相似兴趣的用户作为参考对象,所以如何定义用户相似性 以及如何选取参考用户群正是协同过滤算法研究的重点。 与传统文本过滤相比,协同过滤有下列优点“: 1 能够过滤难以进行机器自动内容分析( c o n t e n t b a s e d ) 的信息。像艺术品、 音乐。 2 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些 复杂的,难以表述的概念( 如信息质量、品味) 进行过滤。 3 可以有效地使用其他相似用户的反馈信息,减少用户的反馈量,加快个性化 学习的速度。 4 具有推荐新信息的能力( s e r e n d i p i t o u sr e c o m m e n d a t i o n s ) 。 下面介绍两种传统的协同过滤算法:i t e m b a s e d 和u s e r - b a s e d 算法,以及 基于降维的协同过滤算法 2 3 用户数据的收集 协同过滤推荐算法根据用户个体信息,如用户注册信息、用户评分数据、 用户购买行为等,建立用户的行为模型,然后利用建立的行为模型向用户推荐 有价值的信息。用户数据的收集在协同过滤推荐算法中占有重要地位,如何有 1 0 塑兰查堂堡主堡塞 效收集高质量的用户数据直接关系到推荐算法的推荐效果。在实际应用,推荐 系统可以利用的用户数据主要包括如下三类: 1 ) 用户档案:用户注册的个人基本信息,如姓名、性别、年龄、职业、收 入、教育背景等资料。 2 ) 用户交易记录:用户在电子商务网站上购买商品的信息。 3 ) 用户行为特征:用户对商品的评分信息,用户的浏览行为等。 目前许多协同过滤推荐算法使用用户对商品的评分数据做为推荐的基础。 用户评分数据分为显式评分( e x p l i c i tr a t i n g ) 和隐式评分( i m p l i c i tr a t i n g ) 两类1 3 1 】。 显式评分通过专门的网页直接请求用户显式输入对项目的数值评分。隐式评分 则不需要用户直接提供对项目的评分,而是根据用户浏览网页时的行为特征预 测用户的评分。 显式评分方式存在明显的缺陷,因为用户必须暂停当前的浏览或阅读行 为,转而输入对项目的评分,从而导致用户评分数据的极端稀疏性。研究表明, 只有当每一种商品都有相当数量的评分数据时,推荐系统才能产生比较精确的 推荐结果,用户评分数据的极端稀疏性直接导致推荐系统推荐质量的下降。 协同过滤推荐系统通过对系统可以捕获的操作进行分析,以获取隐式评 分,这些操作称为隐含兴趣指示操作。隐含兴趣指示操作主要分为如下几类【3 l 】 1 ) 标记网页操作:包括将网页添加到收藏夹、从收藏夹删除网页、将网页另 存为本地文件、打印网页、以及将网页以电子邮件的方式发送给好友等。 2 ) 编辑网页操作:包括剪切、复制、粘贴等编辑操作,还包括在新窗口中 打开链接,在网页中搜索文本、下拉滚动条等操作。 3 ) 重复行为:如果用户在某个网页上重复某些操作行为,可能暗示用户对该 网页有更多兴趣。如某网页的打开时间比较长,反复上下左右拉动滚动条,重 复访问某以网页等行为。 相比较而言,隐式评分具有如下优点f 3 1 l : 1 ) 不需要用户输入对商品的评分,用户使用上更方便。 2 ) 可以对用户访问的任何网页以及网页上包含的商品做出评分预测,大大 减轻了用户评分数据的极端稀疏性。 需要指出的是,隐式评分是通过一些启发式规则获取的,有时候并不准确。 同时,不同隐含兴趣指示操作的组合可能导致互相矛盾的兴趣倾向。 1 1 西华大学硕士论文 2 4u s e r s b a s e d 协同过滤推荐算法 u s e r - b a s e d 协同过滤推荐根据其他用户的观点产生对目标用户的推荐列表【1 3 】 【3 2 1 。它基于这样一个假设:如果用户对一些项的评分比较相似,则他们对其它项 的评分也比较相似。协同过滤推荐系统使用统计技术搜索目标用户的若干最近 邻居,然后根据邻居的评分预测目标用户对未评分项的评分,选择预测评分最 高的前若干项作为推荐结果反馈给用户。 2 4 1 数据表示 在u s e r b a s e d 协同过滤推荐中,必须根据不同用户对商品的评分信息产生推荐 结果。用户评分数据可以用一个m * n 阶矩阵a 表示,m 行代表m 个用户,n 列代表n 个项目,第i 行第j 列的元素w 。,代表用户i 对项j 的评分。用户评分数 据矩阵如图所示。 i t e m li t e m 2 i t e m , u s e r lw uw 1 2 w l l u s e r 2w 2 iw 2 2 w 2 1 u s e r rw r l w 。2 w r ! g r a p h2 1 :u s e rr a t i n gm a t r i x 图2 1 用户评分数据矩阵 2 4 2 最近邻查询 最近邻查询是整个u s e r - b a s e d 协同过滤推荐算法的核心部分,其效果和效 率很大程度上决定了u s e r - b a s e d 协同过滤推荐算法的效果和效率。所谓最近邻 居,就是评分行为与当前用户比较相似的若干用户。最近邻查询【1 3 1 阶段实质上 就是u s e r - b a s e d 协同过滤推荐算法的模型建立阶段。 度量用户i 和用户j 之间相似性的方法如下,首先得到用户i 和用户j 评分 1 2 亘堑查堂堡主丝茎 过的所有项,然后通过不同的相似性度量方法计算用户i 和用户j 之间的相似性, 记为s i m ( i ,j ) 。度量用户间相似性的方法有许多种,主要包括如下三种方法: 1 1 余弦相似性( c o s i n e ) : 用户评分看作为n 维项空间上的向量,如果用户对项没有进行评分,则将用 户对该项的评分设为o ,用户间的相似性通过向量间的余弦夹角度量。设用户i 和用户j 在n 维项空间上的评分分别表示为向量i ,则用户i 和用户j 之间 的相似性s i m ( i ,j ) 为: 一_ f i s i m ( i ,) = c o s ( ,) = ( 3 ) 悱 分子为两个用户评分向量的内积,分母为两个用户向量模的乘积。 2 ) 相关相似性( c o r r e l a t i o n ) : 设用户i 和用户j 共同评分过的项集合用i 表示,则用户i 和用户j 之间的相似 r 表示用户i 对项c 的评分,r 。和r ,分别表示用户i 和用户j 的平均评分。 3 ) 修正的余弦相似性( a d j u s t e dc o s i n e ) : 在余弦相似性度量方法中没有考虑不同用户的评分尺度问题,修正的余弦 相似性度量方法通过减去用户对项的平均评分改善上述缺陷,设用户i 和用户j 共同评分过的项集合用i i j 表示,i i 和b 分别表示用户i 和用户j 评分过的项集合, 则用户i 和用户j 之间的相似性s i m ( i ,j ) 为: 圳棚: 坠丝:攀! ! :竺一 ( 5 ) 商( r i t c - r i ) 2 。,( r 加一r r i ,表示用户i 对项c 的评分,r 。和r j 分别表示用户i 和用户j 的平均评 分。 1 3 西华大学硕士论文 2 4 3 推荐产生 最近邻查询的目标就是对每一个用户u ,在整个用户空间中查找用户集合c = c l ,c 2 ,c k ,使得u 属于c ,并且c 1 与u 的相似性s i m ( u ,e 1 ) 最高,c 2 与 u 的相似性s i m ( u ,c 2 ) 次之,依此类推。 通过上面提出的相似性度量方法得到目标用户的最近邻居,下一步需要产 生相应的推荐。设用户u 的最近邻居集合用n n 。表示,则用户u 对项i 的预测 评分p “可以通过用户“对最近邻居集合n n u 中项的评分得到,计算方法如下 1 1 5 1 驴n 连等 s i m ( u ,n ) 表示用户u 与用户n 之间的相似性,r 。j 表示用户n 对项i 的评分。r 。 和r 。分别表示用户u 和用户n 对项的平均评分。 通过上述方法预测用户对所有未评分项的评分,然后选择预测评分最高的 前若干个项作为推荐结果反馈给当前用户。 2 5i t e m b a s e d 协同过滤推荐算法 与u s e r - b a s e d 协同过滤推荐算法不同,i t e m b a s e d 协同过滤推荐算法通过 计算项之间的相似性,选择目标项的最近邻居集合,根据当前用户对最近邻居 的评分预测用户目标项的评分,然后选择预测评分最高的前若干项目作为推荐 结果反馈给用户。i t e m b a s e d 协同过滤推荐算法分为如下两个阶段: 1 1 最近邻查询:搜索目标项的最近邻居。 2 1 推荐产生:根据用户对目标项最近邻居的评分信息预测用户对目标项的 评分,产生t o p n 项目推荐。 2 5 1 最近邻查询 目标项的最近邻查询是整个i t e m b a s e d 协同过滤推荐算法的核心部分。为了 找到目标项的最近邻居,必须度量项之间的相似性。度量项目间相似性的方法 1 4 西华大学硕士论文 与度量用户相似度的方法类似,主要包括 1 ) 余弦相似性: 项评分看作为i n 维用户空间上的向量,如果用户对项没有进行评分,则将用户 对该项的评分设为0 ,项间的相似性通过向量问的余弦夹角度量。设项i 和项j 在。维用户空间上的评分分别表示为向量f ,j ,则项i 和项j 之间的相似性为: 一一 i 1 s i m ( i ,) = c o s ( ,) = 兰 ( 7 ) 擀 螂舻 邕垒:擎:塑一 ( 8 ) j 吼( r 厂r r ) 2 。,僻加一尺 ,i 表示用户c 对项i 的评分,r 。和r ,分别表示项目i 和项目j 的平均评分。 评分过的用户集合用u q 表示,u i 和u j 分别表示对项i 和项j 评分过的用户集 一、 吼( 一砭) 厂i ) 鲋州b 。恧霾蓑丽霖孬孬 p q 限,一r 。) 2 创,( r “一月。) 2 一 西华大学硕士论文 2 5 2 推荐产生 设目标项t i 的最近邻居集合用n n t i n n l ,n n 2 ,n n k 表示,则用户u 对项 t i 的预测评分p 。1 1 可以通过用户u 对最近邻居集合n n t i 中项的评分得到,计 算方法如下 = 一r r t + 造搿 , s i m ( t l ,n ) 表示目标项t i 与最近邻居n 之间的相似性,r 。表示用户u 对项n 的评分。r 。和r 。分别表示对项t i 和项n 的平均评分。通过上述方法预测用 户对所有未评分项的评分,然后选择预测评分最高的前若干个项作为推荐结果 反馈给当前用户。 2 6 基于降维的协同过滤推荐算法 尽管协同过滤技术在个性化推荐系统中获得了极大的成功,随着系统规模 的扩大,用户数目和项目数目指数级增长,导致用户评分数据的极端稀疏性。 由于用户的最近邻居至少对两件商品进行了共同评分,因此在用户评分数据极 端稀疏的情况下,无法搜索到某些用户其最近邻居,导致协同过滤推荐算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论