




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)数字图书馆个性化服务关键技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字图书馆个性化服务关键技术研d ,7 7 1 4 9 摘要 数字图书馆以数字格式存放所有资源,同时记录了用户的查询和访问情况。 利用这些信息,数字图书馆系统能够分析出用户的兴趣和爱好,从而针对不同的 用户提供不同的服务方式、不同的信息以及不同的信息表现方式。在合适的时间 把合适的信息用合适的方式传达给用户,即所谓的个性化服务。 在数字图书馆的个性化服务中,推荐系统是一种很重要的手段,得到了越来 越多的研究者的关注。尽管在理论和实践上得到了很大的发展,但推荐系统依然 面临着一系列的挑战( 稀疏矩阵的推荐准确性问题、实时性和伸缩性问题等等) 。 针对上述问题,本文对基于模型的推荐算法进行了初步的探索,在前人工作的基 础上,研究了基于概率隐含语义分析( p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ,p l s a ) 在推荐系统中的应用和实现技术,取得的主要研究成果如下: i 通过对用户、社区、推荐对象三者相关关系的分析,发现了社区兴趣相 对稳定的特点。利用这一特点,提出了一种代价更小的用户兴趣的动态 修正算法。分析表明: a ) 动态修正算法能够更有效地跟踪用户兴趣的变化,在大规模的系统应 用中仍能保证较好的兴趣贴近度。因而算法有良好的伸缩性。 b ) 对内容涵盖范围广泛或内容异构性特征明显的复杂领域。隐藏变量数 量增多,相比p l s a 算法,动态修正算法能够取得更好的推荐精度。 2 为了解决p l s a 协同推荐模型中的新文档冷启动问题,通过对新文档增 添( f o l di n ) 过程的研究,提出了一种基于内容预测的增添方法。该方法通 过基于内容的p l s a 方法产生用户社区对新文档的评分预测,利用预测 评分通过有限e m 算法进行增添。通过添加内容信息,该算法能够把没 有评分信息的新加文档有效地加入模型,从而产生推荐。 3 本文在被广泛使用和认可的m o v i e l e n s 和e a c h m o v i e 数据集上进行了实 验,证实了动态修正算法的有效性。e a c h m o v i e 数据集上开展基于内容和 协同过滤推荐的对比实验发现:对于新加入的文档,基于内容预测的增 添方法能够获得较好的推荐准确度,可加速用户对新文档的评价过程, 尽快纳入p l s a 协同推荐模型之中 关键词:推荐系统、协同过滤、p l s a 、机器学习、e m 算法 数字图书馆个性化服务关键技术研究 a b s t r a c t a l lr e s o u r c e si nd i g i t a ll i b r a r ya r es t o r e di nd i g i t a lf o r m a tf o rt h eu s e r st ov i s i ta n d q u e r y w i t ht h ei n f o r m a t i o no f u s e rv i s i t ,d i g i t a ll i b r a r yg e th i si n t e r e s ta n dp r e f e r e n c e t or e s o u r c e s t h e nw ec a np r o v i d et h ea p p r o p r i a t ei n f o r m a t i o nt oa p p r o p r i a t eu s e ra t a p p r o p r i a t em o m e n t t h i si st h ep e r s o n a l i z e ds e r v i c eo f d i g i t a ll i b r a r y r e c o m m e n d e rs y s t e mp l a y sa ni m p o r t a n tr o l ei nt h ep e r s o n a l i z e ds e r v i c ei n d i g i t a ll i b r a r ya n dg r a d u a l l yr e c e i v e dm o r ea t t e n t i o n a l t h r o u g hi th a sb e e nv e r y s u c c e s s f u li nb o t hr e s e a r c ha n dp r a c t i c e ,c h a l l e n g e sr e m a i n ,s u c ha ss p a r s i t yo ft h e m a t r i xa n dr e a lt i m er e c o m m e n d a t i o n a i m e da tt h em a i nc h a l l e n g e so f r e c o m l n e n d e r s y s t e m ,t h i st h e s i sb a s e dt h er e s e a r c ho nt h ep l s a ( p r o h a b i l i s t i cl a t e n ts e m a n t i c a n a l y s i s ) m o d e l t h em a i nr e s e a r c hr e s u l t so f t h i st h e s i sa r ea sf o l l o w s : 1 t h r o u g ht h ea n a l y s i so ft h er e l a t i o no ft h eu s e r ,c o m m u n i t ya n dr e s o u r c e s , t h i st h e s i sp r o p o s e da na l g o r i t h mt od y n a m i cr e v i s eu s e ri n t e r e s tm o d e l t h e r e v i s i o nf i t st h eu s e ri n t e r e s tc h a n g i n gt h a ta n di n c r e a s et h er c c o n m t e n d a t i o n a c c u r a c y a n a l y s i so f t h em o d e lp a r a m e t e r ss h o w s t h a t a ) t h er e v i s i n ga l g o r i t h mc a ne f f e c t i v e l yt r a c kt h ec h a n g i n go ft h eu s e r i n t e r e s t ,a n di nt h es y s t e mo fl a r g es c a l e st h ea l g o r i t h ms t i l lh a v eg o o d a c c u r a c y t h u st h ea l g o r i t h mh a sg o o ds c a l a b i l i t y b )w h e n t h ec o n t e n tc o v e r sm o r ea r e ao rh a sm o r ec o m p l e x i t y , t h er e v i s i n g a l g o r i t h mc o m p a r a t i v e l yh a sb e t t e rr e c o m m e n d a t i o na c c u r a c y , 2 a f t e rt h es t u d yo ff o l di np r o c e s s 。t h i st h e s i sp r o p o s e dac o n t e n t - b o o s t e df o l d i n a l g o r i t h m t os o l v et h ec o l d s t a r t p r o b l e m i n p l s ac o l l a b o r a t i v e r e c o m m e n d e rs y s t e m t h i sa l g o r i t h mu s e st h ec o n t e n ti n f o r m a t i o nt og e n e r a t e p r e d i c t i o n s w i t ht h ep r e d i c t i o nt h i st h e s i su s el i m i t e de ma l g o r i t h mt of o l di n ar e s o u r c e w i t ht h i sa l g o r i t h man e wr e s o u r c ew i mn or a t i n gr e c o r d sc a nb e e f f e c t i v e l yf o l di n t ot h es y s t e m 3 e x p e r i m e n t so nt h ew i d e l yu s e dd a t as e t s ( m o v i e l e n sa n de a c h m o v i e ) s h o w s t h a tt h er e v i s i n ga l g o r i t h mi m p r o v e st h er e c o m m e n d i n ga c c u r a c ya g a i n s t o r i g i n a lm e t h o da tar e l a t i v e l yl o wc o m p u t a t i o nc o s t e x p e r i m e n to nt h e e a c h m o v i ed a t a s e ts h o w st h ec o n t e n t - b o o s t e df o l di nm e t h o dc a l le f f e c t i v e l y s o l v et h ec o l d - s t a r tp r o b l e mi np l s ac o l l a b o r a t i v er e c o m m e n d e rs y s t e m k e yw o r d s :r e c o m m e n d e rs y s t e m s ,c o l l a b o r a t i v ef i l t e r i n g ,p l s a ,m a c h i n e l e a r n i n g ,e ma l g o r i t h m 2 数字图书馆个性化服务关键技术研究 1 1 研究背景 第一章引言 随着数字化技术的普及,多媒体信息呈爆炸式增长。面对临海量信息,用户 如何解决信息超载( i n f o r m a t i o no v e r l o a d ) 问题,准确的找到自己需要的资源,成 为了数字图书馆的重要研究课题。传统的做法面对多层次的不同用户需求,只能 提供统一的服务方式、统一的目录结构、同样的查询服务。 数字图书馆以数字格式存放所有资源,同时记录了用户的查询和访问情况。 利用这些信息,数字图书馆系统分析出用户的兴趣和爱好,从而针对不同的用户 提供不同的服务方式、不同的信息以及不同的信息表现方式。在合适的时间把合 适的信息用合适的方式传达给用户,即所谓的个性化服务。在纷繁复杂的信息资 源中,数字图书馆的个性化服务能帮助用户找到真正需要的信息。 在数字图书馆的个性化服务中,推荐系统是一种很重要的手段。推荐系统通 过对用户的显式或隐式的评分分析用户的兴趣,找到满足用户需求的信息。通过 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 技术,推荐系统比较用户评分从而找到和用户兴 趣相似最近邻居集来产生推荐。这样的推荐结果能够产生一些通过传统的查询技 术无法找到的具有启发意义的信息。所以推荐系不仅仅能够帮助用户找到信息, 同时也能够引导用户发现对自己有用的信息。 所以开展推荐系统的研究对数字图书馆有着非常重要的意义。 1 2 推荐系统概述 推荐技术主要包括基于内容的推荐和基于协同的过滤的推荐两种。基于内容 的推荐系统假设一个用户如果选择一个资源,必然会对内容相似的其他资源有一 定的偏好;而基于协同过滤的推荐系统假设和用户有同样兴趣偏好的用户喜欢的 资源,该用户也有一定的偏好。 基于内容过滤的推荐系统需要分析资源内容信息 b s a + 9 4 b l p 0 0 ,根据用 户兴趣建立用户档案( p r o f i l e ) ,然后根据资源内容与用户档案之间的相似性向用 户提供推荐服务。文 a d l + 0 2 提出使用智能代理技术分析用户的特定需求,提 供推荐服务。s a l t o n 等人提出根据用户反馈自动更新用户档案 s b 9 0 】。b a y e s i a n 概率模型 b c 9 2 、遗传算法 s h e 9 4 】以及其它机器学习技术也被广泛应用于用户 档案的建立和更新。基于内容过滤的实验型推荐系统主要包括m a l o n e 等人提出 的电子邮件信息过滤系统【m g t + 8 7 】。s t a n f o r d 大学提出的信息过滤工具 s i f t y g 9 5 、音乐过滤系统l y r i c t i m e l o e 9 2 、s i f t e r 原形系统 m m l + 9 7 等。 数字图书馆个性化服务关键技术研究 基于内容过滤的推荐技术具有一定的局限性【 珏+ 9 9 。主要表现在必须分析 资源的内容信息,因此对音乐、图像、视频等信息无能为力;无法分析信息的质 量;无法提供新奇的推荐。针对上述问题,研究者提出了协同过滤推荐技术 【k m m + 9 7 】。在早期的协同过滤推荐系统中,用户之间需要相互了解对方的兴趣 爱好。随着研究的深入,研究者提出了自动化协同过滤推荐技术 k m m + 9 7 1 。基 于协同过滤得推荐系统按照算法实现的不同分成两类,基于记忆的 ( m e m o r y - b a s e d ) 算法 m e 9 5 和基于模型( m o d e l - b a s e d ) s r 0 0 的算法。 基于记忆的算法不对用户评分的历史数据进行分析和归纳,而是通过动态的 比较用户的相似度来寻找用户的最近邻居集合,然后用邻居对资源的评分来估算 用户的评分 s k k 0 0 1 。在基于内容的推荐系统研究中,为了改进推荐的质量, 肠,弦括等人 s k k + 0 u k a r o u 提出根据项之间的相似性提供推荐服务,文 【w a w + 9 9 】中提出通过图搜索计算用户最近邻居的优化算法。文 y x e + 0 3 提出对 用户最近邻居和项均采用不同权重的方法改进推荐质量。文 b h k 9 8 对各种用户 间相似性度量方法进行了分析,提出了各种改进方法。 随着推荐系统的规模的扩大,用户评分数据的稀疏性和推荐系统的实时性逐 渐成为研究热点,而基于模型的推荐系统通过对历史数据的分析来建立模型,能 够更加产生更加准确的推荐,获得更好的实时性【h t 0 4 】。 为了在稀疏的用户评分矩阵中产生准确的推荐,s a r w a r 等人 s r , x + o o 提出 了基于关联规则挖掘的推荐系统。文 c h 9 7 q b 提出了基于b a y e s i a n 分类挖掘的 推荐系统。 为了提高推荐系统的实时性,文 u f 9 8 中使用聚类分析将用户划分为不同的 组,从而有效减小搜索空间。文 o h 9 9 通过项聚类分析,从而在用户评分数据 的子集上搜索最近邻居。文 s k k + 0 0 使用奇异值分解技术减少项空间的维数, 提高最近邻居搜索速度。文 s j w o q 通过r e c t r e e 方法有效减小搜索空间。 本文详细研究了p l s a 模型在协同过滤中的应用 h t 0 4 】,通过对p l s a 模型 的应用,推荐系统获得了更好的准确度。同时基于p l s a 模型的推荐系统把推荐 过程分成了模型训练和推荐产生两个过程,在模型训练过程的时间复杂度为 0 ( 七的,而在推荐过程的时问复杂度为o ( 动,其中k 为模型的隐藏变量的个数,为 常数;而为训练集的记录数。所以在实际推荐过程的时间复杂度很小,能够 满足推荐实时性的要求。 协同过滤推荐技术也存在自身的不足 s k r 0 t 。因此基于多种数据多种技术 的有效集成得至0 研究者的重视 s k r 9 9 s k r 0 1 。b a l a b a n o v i c 等人 b s 9 7 通过基 于内容的过滤和协同过滤的复合型推荐系统提高推荐质量。文 m d l + 0 1 提出 基于w e b 使用挖掘和w e b 内容挖掘的推荐系统。文【g s k + 9 9 中提出同时使用智 6 数字图书馆个性化服务关键技术研究 能代理技术和协同过滤技术提供推荐服务的方法。文f g f 0 2 】中提出在推荐系统中 增加产品语义信息,从而提高推荐系统的推荐质量。 1 3 本文工作 1 本文研究和总结了数字图书馆个性化服务的相关技术,分析了推荐系统 面临各种问题。同时详细阐述了本文需要解决的稀疏矩阵中推荐准确性 问题、新加入文档的冷启动问题、推荐系统的伸缩性和实时性问题。 2 本文在对p l s a 在基于协同过滤的推荐系统分析中发现,p l s a 方法通过 对用户社区的建立,有效地避免了在用户评分矩阵稀疏的情况下,基于 记忆( m e m o r y - b a s e d ) 的推荐方法所面临的用户最近邻居集不准确的缺 点。从而p l s a 方法能够有效地解决稀疏矩阵的推荐准确性问题。具体 分析参见第四章 3 。在新文档加入的初始阶段,由于缺乏用户该用户对资源的评分。青艉e m 舜瑶无法有效f o l di n 。而基于内容的方法能够通过分析文档的内容产生 对评分的预测,因而可以用基于内容的推荐方法做出预测,并且把预测 的评分作为方厦e m 靠珐构输入。通过在应用数据集上实验分析,能够 估算出希腥e 时髯珐所需要的评分数。对于所有少于这个评分数的文档, 用基于内容预测的f o l di n 算法能够较好的解决基于协同的p l s a 模型的 冷启动问题。具体分析参见第六章 4 本文分析了p l s a 在基于协同过滤的推荐系统中用户、用户社区 ( c o m m u n i t y ) 、推荐对象三者相关关系。在分析中,本文发现相对于不断 变化的用户兴趣,用户社区一旦形成。社区对资源的评分相对稳定。在 此基础上,可以假定在推荐过程中,p l s a 模型中的社区兴趣度为常量, 而用户对社区的隶属度是变量。从而本文提出了一种对模型态修正的算 法。该算法在推荐过程中用最大似然估计的方法修正用户对社区的隶属 度。从而适应不断变化的用户兴趣。该算法通过对模型的动态修正,提 高了推荐系统对用户兴趣的贴近度。相比模型的训练复杂度,该算法有 较小的时间代价,能够以较快的频率进行,能够满足推荐系统实时性的 要求。具体分析参见第五章 5 本文在广泛使用和认可的m o v i e l e n 和e a c h m o v i e 数据集上进行了实验。 通过试验中对改进的算法和原算法的性能对比,本文验证了动态修正算 法的有效性。在对实验中参数的分析中发现,修正算法在资源数量和内 容范围增大时能够获得更好的用户评分贴近度。从而证实该算法具有很 好的伸缩性。通过e a c h m o v i e 数据集上基于内容和协同过滤推荐的对比 实验发现,对于新加入文档,基于内容预测f o l di n 算法能够较好的解决 7 数字图书馆个性化服务关键技术研究 p l s a 协同推荐系统中的冷启动问题。 1 4 本文组织 本文的组织如下: 第二章推荐系统及其相关技术简介。对推荐系统的相关知识作了简单的介 绍,同时介绍了一些著名的推荐系统的实例,以及推荐系统的分类。 第三章推荐算法介绍。详细介绍了推荐算法的分类和相关的推荐算法,同 时提出了推荐系统算法设计所面临的问题。 第四章基于p l s a 模型的推荐系统。详细描述了p l s a 方法在协同推荐中的 应用,同时分析了p l s a 协同推荐方法面临的问题。 第五章对p l s a 用户兴趣的修正。在理论分析了在p l s a 算法中用户兴趣动 态修正的必要性和可行性,同时详细的分析了对p l s a 算法的修正方法。 第六章基于内容预测的f o l di n 方法。通过引入内容信息,用基于内容的方 法对没有评分记录的新文档作评分预测。在此基础上通过有限e m 算法实现了文 档的动态增添( f o l di n ) 第七章实验与评价。给出改进算法在标准数据集上的试验结果,对改进算 法与原算法进行了相关性能的比较分析。 第八章总结与展望。对本文进行了全面的总结,指出不足,以及对未来工 作的展望。 数字图书馆个性化服务关键技术研究 第二章推荐系统及相关技术介绍 2 1 推荐系统与个性化服务 在合适的时间把合适的信息用合适的方式传达给用户,即所谓的个性化服 务。而推荐系统能够主动适应每一个用户的特定需求,为每一个用户创建一个适 应该用户的视图,帮助用户从海量的数据资源中选取满足自己需求的资源。因此 推荐技术自然成为个性化服务技术中的最重要技术。 不同推荐系统的个性化程度各不相同,根据推荐系统的个性化程度,可以将 推荐系统分为如下三类 s k r 9 9 : 1 ) 非个性化推荐系统:推荐系统对每个用户产生的推荐都是相同的。这种 推荐系统可以基于工作人员的手工推荐,可以基于统计分析技术等。电子商务系 统的销售排行、编辑推荐、平均数值评分、个体文本评价、个体数值评分等推荐 形式对所有的用户而言都是一样的,都属于非个性化推荐系统。 2 ) 半个性化推荐系统:推荐系统根据用户当前的行为产生相应的推荐。这 种推荐系统根据用户当前的浏览行为和访问行为产生推荐结果,不同用户得到的 推荐结果各不相同。半个性化推荐系统的个性化程度比非个性化推荐系统要高。 3 ) 完全个性化推荐系统:推荐系统保存用户的各种历史信息。如历史浏览信 息、用户注册信息等。然后根据用户的历史信息,结合用户当前的行为为用户产 生完全个性化的推荐服务。这种推荐系统一般只能对注册用户提供服务,个性化 程度最高。 2 2 推荐系统的输入输出 2 2 1 推荐系统的输入 不同类型的推荐系统,其输入信息也不相同。不同推荐系统根据不同的输入 信息产生不同类型的推荐。推荐系统的输入可以是用户当前的行为,也可以是用 户访问过程中的历史行为。在大型的系统中,为了产生高质量的推荐,推荐系统 可能需要多种类型的输入信息。 推荐系统的输入包括多种形式,主要包括 s k r o z : 1 ) 隐式浏览输入:将用户访问w e b 站点的浏览行为作为推荐系统的输入, 用户的浏览行为与访问般的w e b 站点没有区别。并不知道推荐系统的存在。 9 数字图书馆个性化服务关键技术研究 2 ) 显式浏览输入:也是将用户的浏览行为作为推荐系统的输入,但与隐式 浏览输入不同,用户的显式浏览输入是有目的的向推荐系统提供自己的兴趣爱 好。例如,系统提供一系列热门文档供用户选择,用户只选择浏览自己感兴趣的 文档列表,推荐系统根据用户的浏览行为向用户提供个性化的推荐服务。 3 ) 关键字资源属性输入:用户在搜索引擎中输入关键字作为推荐系统的输 入,或者将用户当前正在浏览的文档类别作为推荐系统的输入。这种类型的输入 不同于用户随意的浏览行为,用户输入的目的就是在推荐系统中搜索自己需要的 文档。 4 ) 用户评分输入:将用户对文档的数值评分数据作为推荐系统的输入。推 荐系统列出一系列资源让用户评分,用户的评分可以是一个数值,数值大小表示 用户对资源的喜好程度,也可以是一个布尔值,0 代表不喜欢,l 代表喜欢。用 户提供的评分数据使得推荐系统可以为用户提供个性化的推荐服务。 5 ) 用户文本评价输入:用户对已经看过的文档或自己熟悉的熟悉的文档以 文本的形式进行个人评价,推荐系统本身并不能判断这些评价的好坏。其他用户 浏览该文档时,可以看到用户对文档的文本评价信息。 6 ) 编辑推荐输入:将领域专家对特定文档的评价作为推荐系统的输入,领 域专家对文档进行全面详细的介绍,用户通过专家的专业介绍,可以对自己并不 熟悉的领域加深认识。 2 2 2 推荐系统的输出 不同类型的推荐系统,其输出也各不相同。推荐系统可以同时向用户产生多 种不同形式的输出。 推荐系统的输出形式主要包括 s k r 0 1 】: 1 ) 相关文档输出:推荐系统根据用户表现出来的行为特征向用户产生推荐, 这种方式是推荐系统中最为普遍的一种输出。相关文档输出可以基于简单的访问 排行向用户推荐热门话题和资源;也可以基于对用户的行为特征进行深入分析, 发现用户的访问行为模式,从而产生个性化的推荐。 2 ) 个体文本评价输出:推荐系统向目标用户提供其他用户对资源的文本评 价信息个体文本评价一般是非个性化的,对每个项而言,所有用户得到的个体文 本评价均相同。 3 ) 个体评分输出:向目标用户提供其他用户对资源的数值评分信息。个体 评分输出没有大量的文本描述信息,因此更加简洁明了。个体评分输出比较适合 于个体数值评分数据比较少的场合。 4 ) 平均数值评分输出:推荐系统向用户提供其他用户对资源数值评分信息 l o 数字图书馆个性化服务关键技术研究 的平均值。这种输出形式具有简洁明了的优点,用户可以立即获得对该资源的总 体评价。 5 ) 电子邮件输出:推荐系统通过电子邮件的形式向用户提供资源的最新信 息。这种输出形式可以吸引用户再次访问推荐系统,从而达到保留用户,防止用 户流失的目的。 6 ) 编辑推荐输出:向用户提供领域专家对资源的专业介绍,用户通过专家 的专业介绍可以对自己并不熟悉的资源加深认识。 2 3 推荐系统分类 推荐系统以用户为中心,为用户提供服务,可以根据用户获得推荐系统推荐 的自动化程度和持久性程度对推荐系统进行分类 s k r 9 9 。 1 ) 自动化程度:用户为了得到推荐系统的推荐是否需要显式的输入信息, 自动化程度分为自动化方式和手工方式 2 ) 持久性程度:推荐系统产生推荐是基于用户当前的单个会话还是基于用 户的多个会话。 根据用户获得推荐的自动化程度和持久性程度,可以将将推荐系统分为非个 性化推荐系统。基于属性的推荐系统,资源相关性推荐系统和用户相关性推荐系 统 s k r 9 9 。 1 ) 非个性化推荐系统:向当前用户提供的推荐结果可能基于其他用户对资 源的平均评价,或者基于访问排行,或者基于编辑推荐。这种推荐技术独立于各 个用户,每个用户得到的推荐都是相同的。非个性化推荐系统属于自动化方式推 荐,产生的推荐基于用户的单个会话。典型例子包括a m a z o n 提供的a v e r a g e c u s t o m e rr a t i n g 推荐,e b a y 提供的c u s t o m e rc o m m e n t s 推荐。 2 ) 基于属性的推荐系统:根据资源的属性特征向用户产生推荐列表,这种 推荐系统类似于搜索引擎,用户需要手工输入所需资源的属性特征。基于属性的 推荐系统需要用户显式输入资源的属性特征,因此属于手工方式推荐。产生的推 荐可以基于用户的单个会话,也可以基于用户的多个会话。典型例子包括a m a z o n 提供的d e l i v e r s 推荐,r e e l 提供的m o v i em a p 推荐。 3 ) 资源相关性推荐系统:根据资源之间的相关性向用户产生相应的推荐。 资源相关性推荐系统可以是全自动化推荐系统。也可以是全手工方式推荐系统。 这种推荐技术一般是基于用户的单个会话。典型例子如a m a z o n 提供的c u s t o m e r s w h ob o u g h tt h i sb o o ka l s ob o u g h t 推荐,c d n o w 提供的a l b u ma d v i s o r 推荐。 4 ) 用户相关性推荐系统:又称为协同过滤推荐系统,这种推荐系统首先搜 索当前用户的最近邻居,然后根据最近邻居的访问历史或评分信息向当前用户产 数字围书馆个性化服务关键技术研究 生推荐。用户相关推荐一般不需要用户显式输入信息。产生的推荐一般是基于用 户的多个会话。典型例子包括a m a z o n 提供的b o o km a t e h e r 推荐,m o v i ef i n d e r 提供的w ep r e d i c t 推:荐。 2 4 推荐系统实例简介 推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著名研究机构 和研究者的关注,出现了大量研究型推荐系统实例: 1 ) t y p e s t r y :是娩r o xp a r c 研究中心提出的一个研究型协同过滤推荐系 统 g n o + 9 2 】,用于过滤电子邮件、推荐电子新闻。t y p e s t r r t 桑统提供电子文档 存储、用户评价存储和协同过滤推荐服务。在t y p e s t r y - 系统中,设计了一种类 似于s q l 的查询语言t q l ,用户的查询请求中必须明确指出与自己兴趣爱好相似 的其他用户。由于用户之间必须了解对方的兴趣爱好,因此t y p e s t r y 推荐系统 只适用于用户群体比较小的场合。 2 ) a c f :a c t i v ec o l l a b o r a t i v ef i l t e r i n g 系统是c a r n e g i e - m e l l o n 大学开发的主 动协同过滤推荐系统 m e 9 5 ,用于电子文档推荐。a c 繇统通过指针实现协同过 滤推荐服务,指针包含指向电子文档的超链接、电子文档的上下文信息以及用户 撰写的电子文档评论。在4 c 繇统中,用户可以通过主动的方式将创建的指针推 荐给其他可能感兴趣的用户,也可以将创建的指针保存在系统中供其他用户查 看。彳c f 系统也只适用于用户群体比较小的场合。 3 ) g r o u p l e n s :由埘研发的自动协同过滤推荐系统 k m m + 9 7 1 ,用于新闻 组信息推荐。g r o u p l e n s 系统通过用户的评分信息自动搜索用户的最近邻居,然 后根据最近邻居的评分信息产生最终的推荐结果,适合于用户数量比较大的场 合。g r o u p l e n s 系统具有极好的开放性,用户可以通过g r o u p l e n s 系统提供的一肼 函数向锄础p h 娟艮务器提供评分信息,请求推荐结果。同时,g r o u p l e n s 系统提 供三种客户端工具e m a c sg n u s 、n n 和n e w s w a t c h e r 达到上述目的。 4 ) m o v i e l e n s :是m i n n e s o t a 大学开发的研究型自动协同过滤推荐系统 b k - i + 9 8 h k b + 9 9 s k k + 0 1 】,用于推荐电影。与g m u p l e n s 不同,m o v i e l e n s 系 统是一个基于w e b 的推荐系统,系统通过浏览器的方式进行用户评分数据收集与 推荐结果显示,用户使用更加方便。 5 ) r i n g o :由 册媒体实验室开发的研究型协同过滤推荐系统 s m 9 5 ,用于 提供个性化的音乐推荐服务。r i n g o 系统可以向用户推荐用户最喜欢的音乐,预 测用户最不喜欢的音乐,也可以预测用户对特定音乐的评分。 6 ) v i d e o r e c o m m e n d e r :是b e l l c o r e 开发的协同过滤推荐系统 h s r + 9 5 ,用 于电影推荐。v i d e or e c o m m e n d e r 系统通过电子邮件的方式收集用户评分数据, 数字图书馆个性化服务关键技术研究 提供推荐服务。在v i d e or e c o m m e n d er 系统中,不仅可以预测用户最喜欢的电影, 也可以预测用户对特定电影的评分。在v i d e or e c o m m e n d e r 系统提供推荐结果时, 同时向用户提供用户最近邻居的电子邮件联系方式,以及用户与最近邻居的相似 度等信息。 7 ) f a b :是s t a n f o r d 大学数字图书馆项目组开发的基于内容的过滤和协同过 滤的复合型推荐系统 b s 9 7 ,用于推荐耽6 页面。其特点是综合了基于内容过滤 的推荐和协同过滤推荐的优点,同时支持两种类型的推荐服务。f a b 系统主要包 括页面收集代理,个人推荐代理和中心路由器。页面收集代理从w e b 上收集特 定主题的页面,个人推荐代理从特定主题中选择用户感兴趣的页面推荐给用户。 个人推荐代理根据文档内容信息建立用户的用户档案,然后根据用户档案之间的 相似性搜索用户的最近邻居。产生的推荐结果可以基于用户档案中的文档内容信 息,也可以基于用户最近邻居的评价信息( 协同过滤) 。 2 。6 小结 本章着重介绍了推荐系统和个性化服务的关系、相关技术和推荐系统的分 类。个性化服务要求把合适的信息,在合适的时间,用合适的方式传达给用户。 而推荐系统能够帮助用户寻找合适的信息。因此推荐系统对数字图书馆个性化服 务具有很重要的意义。推荐系统根据个性化程度的不同分为三类,本文将着重介 绍完全个性化的推荐系统。输入和输出方式的地不同在很大程度上影响着推荐系 统的性能和用户体验,所以针对不同的系统要求,必须选择最合适输入输出方式 才能最好的实现个性化服务。 在下面的章节里,本文将着重介绍推荐系统的算法、面临的问题和本文的改 进。 数字图书馆个性化服务关链技术研究 3 1 推荐算法概述 第三章推荐算法介绍 为了产生精确而有效的推荐,保证推荐系统的实时性要求,研究者提出了各 种不同的推荐算法,其中许多方法来自于数据挖掘领域的最新研究成果。推荐算 法主要包括u s e r - b a s e d 协同过滤推荐 b h k 9 8 s k k + 0 0 、t e m b a s e d 协同过滤推 荐瞄a r 0 l 】 s k k + 0 1 】、c l u s t e r - b a s e d 协同过滤推荐 l e e 0 0 o h 9 9 u f 9 8 、基于 降维的协同过滤推荐 s k k + o u 、基于h o r t i n g 图技术的协同过滤推荐 w a w + 9 9 、 基于b a y e s i a n 网络技术的推荐 c g 9 9 、关联规则推荐 s k k 0 0 等。 基于数据挖掘技术的推荐算法通过数据挖掘技术对各种用户数据进行深入 分析,得到每个用户的兴趣爱好特征和特定的访问行为模式。基于数据挖掘技术 的推荐算法一般包括学习阶段和应用阶段,在学习阶段,数据挖掘系统对数据进 行分析并建立相应的推荐模型,推荐模型用于解释用户的行为模式;在应用阶段, 推荐算法根据建立的推荐模型和用户行为实时向用户提供推荐服务。某些推荐算 法没有离线建立推荐模型的学习阶段,直接在在线阶段实时建立推荐模型产生推 荐,如果同时访问的用户人数庞大,这种推荐系统的实时性难以保i 正 h e r 0 0 。 推荐算法可以分为基于记忆推荐算法和基于模型的推荐算法两类 s k r 0 1 : u s e r - b a s e d 协同过滤推荐算法、基于h o r t i n g 图技术的协同过滤推荐算法和 i t e m b a s e d 协同过滤推荐算法属于基于记忆的推荐算法,而c l u s t e r - b a s e d 协同过 滤推荐算法、基于降维的协同过滤推荐、基于b a y e s i a n 网络技术的推荐算法和 关联规则推荐算法则属于基于模型的推荐算法。 在大型的数字图书馆系统中,用户数据库非常庞大,在整个用户数据库产生 推荐非常耗时,从而使得整个推荐系统的实时性难以保证,这也是基于记忆的推 荐算法面临的主要挑战。在基于模型的推荐算法中,建立的模型相对于原始数据 集而言小得多,因此能有效缓解推荐算法的实时性问题。模型相对于原始用户数 据而言具有滞后效应,为了保证模型的有效性,必须周期性的对模型进行更新。 3 2 协同过滤推荐算法 3 2 1 用户数据的收集 协同过滤推荐算法根据用户的行为,如用户注册信息、用户评分数据、用户 访问行为等,建立用户的行为模型,然后利用建立的行为模型向用户推荐有价值 的资源。用户数据的收集在协同过滤推荐算法中占有重要地位,如何有效收集高 质量的用户数据直接关系到推荐算法的推荐效果。 在实际应用,推荐系统可以利用的用户数据主要包括如下三类 s k r 0 1 , 1 4 数字囤书馆个性化服务关键技术研究 i ) 用户档案:用户注册的个人基本信息,如姓名、性别、年龄、职业、收 入、教育背景等资料。 2 ) 用户访问记录:用户使用资源的情况。 3 ) 用户行为特征:用户对资源的评分信息,用户的浏览行为等。 目前许多协同过滤推荐算法使用用户对资源的评分数据最为推荐基础。用户 评分数据分为显式评分( e x p l i c i tr a t i n g ) 和隐式评分( i m p l i c i tr a t i n g ) 两类 【c l w + 0 1 】。显式评分通过专门的网页直接请求用户显式输入对某些资源的数值 评分。隐式评分则不需要用户直接提供对资源的评分,而是根据用户浏览网页时 的行为特征预测用户对该网页信息的评分。 显式评分方式存在明显的缺陷,因为用户必须暂停当前的浏览或阅读行为, 转而输入对资源的评分。从而导致用户评分数据的极端稀疏性。研究表明,只有 当每一种资源都有相当数量的评分数据时,推荐系统才能产生比较精确的推荐结 果,用户评分数据的极端稀疏性直接导致推荐系统推荐质量的下降。 协同过滤推荐系统通过对系统可以捕获的操作进行分析以获取隐式评分,这 些操作称为隐含兴趣指示操作。隐含兴趣指示操作主要分为如下几类 c l w + 0 1 : 1 ) 标记网页操作:包括将网页添加到收藏夹、从收藏夹删除网页、将网页 另存为本地文件、打印网页、以及将网页以电子邮件的方式发送给好友等。 2 ) 编辑网页操作:包括剪切、复制、粘贴等编辑操作,还包括在新窗口中 打开链接,在网页中搜索文本、下拉滚动条等操作。 3 ) 重复行为:如果用户在某个网页上重复某些操作行为,可能暗示用户对 该网页有更多兴趣。如某网页的打开时间比较长,反复上下左右拉动滚动条,重 复访问某以网页等行为。 相比较而言,隐式评分具有如下优点 c l w + 0 1 : 1 ) 不需要用户输入对资源的评分,用户使用上更方便。 2 ) 可以对用户访问的任何网页以及网页上包含的资源做出评分预测,大大 减轻了用户评分数据的极端稀疏性。 需要指出的是,隐式评分是通过一些启发式规则获取的,有时候并不准确。 同时,不同隐含兴趣指示操作的组合可能导致互相矛盾的兴趣倾向。 3 2 2u s e r - b a s e d 协同过滤推荐算法 u s e r - b a s e d 协同过滤推荐根据其他用户的观点产生对目标用户的推荐列表 b h k 9 9 h e r 0 0 h k b + 9 9 i q k r 0 0 s k k 0 0 。它基于这样一个假设:如果用户 对一些项的评分比较相似,则他们对其它项的评分也比较相似。协同过滤推荐系 统使用统计技术搜索目标用户的若干最近邻居,然后根据最近邻居对项的评分预 测目标用户对未评分项的评分,选择预测评分最高的前若干项作为推荐结果反馈 数字图书馆个性化服务关键技术研究 给用户。 表3 1 用户评分数据 星球大战泰坦尼克指环壬廊桥遗梦 t o m 5254 j a c k253 r o s e2242 p e t c r 5l57 u s e r - b a s e d 协同过滤推荐算法的核心就是通过最近邻居的评分产生最后的 推荐结果,当前用户对未评分项的评分通过最近邻居对该项评分的加权平均值逼 近。例如,在图3 所示的用户评分数据中,行代表用户,列代表项,行列中元 素代表用户对项的评分,u s e r - b a s e d 协同过滤推荐算法需要预测用户p e t e r 对项 “廊桥遗梦”的评分。通过数据分析发现,t o m 和p e t e r 对电影的评分非常相似, t o m 对“星球大战”、“泰坦尼克”、“指环王”的评分分别为5 、2 、5 ,p e t e r 的评分 分别为5 、1 、5 ,他们二者相似度最高,t o m 是p e t e r 的最佳邻居,因此t o m 对“廊 桥遗梦”的评分对预测值的影响最大。相比而言,j a c k 和r o s e 不是p e t e r 的好邻 居,因为他们对电影的评分存在冲突,所以j a c k 和r o s e 对“廊桥遗梦”的评分对 预测值的影响相对小一些。在实际的预测过程中,只搜索与当前用户相似性最高 的前若干个邻居,然后根据相似性大小预测当前用户对未评分项的评分。 由上面的例子可知,用户相似性度量、最近邻居查询和预测评分是整个 u s e r - b a s e d 协同过滤推荐算法的主要工作,相应的,u s e r - b a s e d 协同过滤推荐算 法可以划分为如下三个阶段 s k k 0 0 】: l 、数据表示:对用户已经评价过的资源进行建模,从而可以有效度量用户 之间的相似性。 2 】最近邻查询:搜索当前用户的最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 秦娜与丈夫离婚协议书中的房产分割及子女抚养权协议
- 酒店客房租赁合同客房设施及用品清单
- 集中供热管网节能降耗实施方案
- 商务楼宇物业经营权转让与业态规划合作协议
- 电子用高性能树脂生产线项目施工方案
- 矿山资源开发与管理矿长及顾问专项聘用合同
- 《离婚协议书模板打印:财产分割专业指南》
- 离婚双方子女抚养权及监护责任分配协议书
- 门急诊医技病房楼改造项目技术方案
- 20万千瓦风电项目技术方案
- 精麻药品培训知识课件
- 2025细胞与基因治疗科研领域蓝皮书
- 2025年财务核算招聘笔试模拟题
- 2025年高考语文全国二卷真题拓展:语言文字运用“衔接+感情色彩+关联词语+错别字”
- 2025年司法考试题库(附答案)
- 仪表工安全基础知识培训课件
- ISO9001质量管理体系培训
- 光电检测技术及应用 周秀云
- 2025至2030中国糠醛衍生物市场未来趋势及发展态势展望报告
- VW 50134-EN-2024 PA6用于车辆内部外部的成品零件 材料要求
- 山东省国企资产管理办法
评论
0/150
提交评论