




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 近年来,推荐系统在网络上获得了普遍的成功,协同过滤是其中应用最为 广泛的个性化推荐技术。但是。网上有效信息的数量和种类的急速增长对推荐 系统提出了严峻挑战,协同过滤推荐中存在的第一评价,稀疏问题和可扩展性 问题急待解决。为了解决这些问题,本文讨论了个性化推荐系统的推荐方法, 分析了协同过滤推荐的第一评价问题、稀疏问题的根源。在研究了i t e m - b a s e d 协同过滤推荐和基于内容推荐的特点之后,提出了一种采用基于内容的推荐改 进i t e m - b a s e d 协同过滤的组合推荐方法,利用基于内容的推荐对相似项目的分 析,弥补协同过滤推荐在新项目推荐方面的不足,利用i t e m - b a s e d 协同过滤推 荐代替传统协同过滤推荐,弥补传统协同过滤推荐在可扩展性方面的不足。这 种组合推荐算法首先利用基于内容的推荐分析项目的特征属性、找出新项目的 相似项目,然后通过用户对相似项目的评价来预测对新项目的评分,最后使用 i t e m - b a s e d 协同过滤推荐在相似项目的范围内计算邻居用户并给出最终的预测 评分。因此,这种组合推荐算法能够有效的解决传统的协同过滤推荐中的第一 评价问题、稀疏问题和可扩展性问题。 最后,设计并实现了引入组合推荐方法的文档推荐系统,并对文档推荐系 统的结构和功能实现进行了详细介绍。通过论文推荐系统的实验说明了该算法 不仅能有效的解决传统的协同过滤推荐的第一评价和稀疏问题,具有与传统的 协同过滤推荐相比更加快捷的反应速度,而且算法的准确性与传统的协同过滤 推荐的准确性具有可比性。 关键词:推荐系统,协同过滤,基于内容推荐,第一评价问题,i t e m - b a s e d 协 同过滤 山东大学硕士学位论文 a b s t r a c t r e c e n t l y r e c o m m e n d a f i o n s y s t e m s , e s p e c i a l l y c o l l a b o r a t i v e f i l t e r i n g r e c o m m e n d a t i o ns y s t e m s ,h a v ea c h i e v e dw i d e s p r e a ds u c c e s s c so nt h ew e b h o w e v e r t h et r e m e n d o u sg r o w t hi nt h ea m o l m ta n dv a r i e t yo f a v a i l a b l ei n f o r m a t i o np o s e ss o m e a u s t e r ec h a l l e n g e st or e c o m m e n d a t i o ns y s t e m s ,t h ep r o b l e m so fc o l d s t a r t , s p a r s i t y a n ds c a l a b i l i t yi nc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o na r ei nd i r en e e dt ob es o l v e d t oa d d r e s st h e s ei s s u e s ,t h ep e r s o n a l i z e dr e c o m m e n d a t i o n s y s t e m sa n d8 0 m e r e c o m m e n d a t i o nm e t h o d sa r ei n t r o d u c e di nt h i sp a p e r , a n dt h er e a s o n so ft h e p r o b l e m so fc o l d - s 1 觚a n ds p a r s i t yi nc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nf i l e a n a l y z e d a f t e rt h er e s e a r c ho nt h ec h a r a c t e r i s t i c so f i t e m - b a s e dc o l l a b o r a t i v ef i l t c r i n g r e c o m m e n d a t i o na n dc o n t e n t - b a s e dr e c o m m e n d a t i o n , ah y b r i dr e c o m m e n d a t i o n m e t h o di m p r o v i n gt h ei t e m - b a s e dc o l l a b o r a t i v e f i l t e r i n gt h r o u g hc o n t e n t - b a s e d r e c o m m e n d a t i o ni sp r e s e n t e d t h en e wm e t h o di m p r o v e st h er e c o m m e n d a t i o no f n e w i t e m so f t h ec o l l a b o r a t i v ef i l t e r i n gu s i n gt h ea n a l y s i so fs i m i l a ri t e m so f c o n t e n t - b a s e d r e c o m m e n d a t i o n , a n di m p r o v e st h es h o r t a g eo fe x t e n s i b i l i t yi nt h e t r a d i t i o n a l c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nb yr e p l a c i n gi tw i t hi t e m - b a s e ac o l l a b o r a t i v e m t e r i l l g i nt h eh y b r i da l g o r i t h m , f i r s t l y ,t h ec h a r a c t e r i s t i c so fa t t r i b u t e so fi t e m sa r e a n a l y z e da n dt h es i m i l a ri t e m st ot h en e wi t e ma r ef o u n db yc o n t e n t - b a s e d r e c o m m e n d a t i o n t h e n , t h er a t et ot h en e wi t e mi sf o r e c a s t e db yt h er a t et ot h e s e s i m i l a ri t e m s f i n a l l y ,t h en e i g h b o ru s e r so nt h es i m i l a ri t e m sf i r ec o m p u t e db yi t e m - b a s e dc o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na n dt h ef i n a l r a t eo ff o r e c a s ti s p r e s e n t e d s ot h ep r o b l e m so f c o l d - s t a r ls p a r s i t ya n ds c a l a b i l i t ya r cs o l v e d f i n a l l y ,ad o c u m e n tr e c o m m e n d a t i o ns y s t e mu s i n gt h em e t h o do fh y b r i d r e c o m m e n d a t i o ni ss h o w n , w i t hi 乜s 1 1 u c t u r ea n df u n c t i o ni n t r o d u c e di nd e t a i l t h e e x p e r i m e n t st a k i n go nt h i ss y s t e ms h o wt h a tt h em e t h o di tu s e dc a nn o to n l y e f f i c i e n t l ys o l v et h ep r o b l e m so fc o l d - s t a r t , s p a r s i t yi nt r a d i t i o n a lr e c o m m e n d a t i o n s y s t e m s ,b u ta l s oh a saf a s t e rr e s p o n d i n g s p e e dc o m p a r e d 、 t l lt h et r a d i t i o n a lo n e s i n h 山东大学硕士学位论文 t h em e a n w h i l e t h ev e r a c i t yo ft h en e ws y s t e mi sa l s oc o m p a r a b l e 、i t l it h et r a d f f i o n a l o n e s k e y w o r d s :r e c o m m e n d a t i o ns y s t e m s ,c o l l a b o r a t i v ef i l t e r i n g , c o n t e n t - b a s e d r e c o m m e n d a t i o n , c o l d - s t a r t r e c o m m e n d a t i o n , i t e m - b a s e d c o l l a b o r a t i v ef i l t e r i n g 山东大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本 文的研究作出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名:至鉴日期:尘丛垒= 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:至! 丛导师签名:墨互日期:兰型:生 山东大学硕士学位论文 第一章引言 随着互联网技术的发展,w e b 已成为人们获取信息的一个重要途径,由于 w e b 信息的日益增长,人们不得不花费大量的时间来搜索、浏览自己需要的信 息。虽然信息检索技术在一定程度上能够满足人们的查询需求,但是它不能针 对不同用户的不同需求提供有针对性的服务。为减轻用户的检索负担,并满足 不同用户的不同需求,推荐系统的研究越来越为人们所重视并被广泛应用于电 子商务,数字图书馆等领域。本章主要介绍个性化推荐系统的背景和国内外的 研究现状,讨论研究的意义,并说明本文的工作和结构安排。 + p ,q 。 1 1 研究背景 个性化推荐系统被用来帮助用户在大量的信息中寻找感兴趣的内容,它体 现的“个性化”服务目前越来越为商务网站,电子图书馆等众多领域所接受,成 为了它们的一个重要的功能旧。 1 1 1 个性化推荐系统的研究背景 i n t e r n e t 的迅猛发展将人类带入了信息社会和网络经济时代,对个人生活 和企业发展都产生了深远的影响。一方面,i n t e r n e t 的发展正在极大的改变着 我们每个人的生活,人们不出家门就可随心所欲的得到自己想需要的各种信 息;另一方面,基于i n t e r n e t 的虚拟企业也不再需要像传统企业那样的实体投 资,企业与顾客、供应商等通过网络建立起更直接的联系。 但是,随着w e b 信息的日益增长,“信息超载”( i n f o r m a t i o no v e r l o a d ) 问题随之产牛。人们不得不花费大罩的时间去从网络上搜索浏览自己需要的信 息。为了减轻用户的检索负担,搜索引擎( s e a r c he n g i n e ) 技术得到了广泛应用, 如传统的搜索引擎a l t a v i s t a ,y a h o o 和新一代的搜索引擎g o o g l e 等。信息检 索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不 同目的和不同时期的查询请求。为了解决这一问题,推荐系统被提出并得到广 泛应用。 推荐系统是指能够为人们做出推荐的系统。到目前为止,推荐系统并没有 山东大学硕士学位论文 一个统一而精确的定义。下面这段话是关于推荐系统的经典描述“1 。人们经常 必须在对所要选择的事物没有充分了解的情况下做出选择;在日常生活中,人 们依靠众口之词、推荐信、报纸上的影评或书评和调查报告等的推荐来完成这 一过程;推荐系统就是用于模拟或模仿这些物品的系统。个性化推荐系统是信 息技术发展的产物,也是社会发展的需要。对个性化推荐系统研究具有重要意 义。 与推荐系统类似,信息过滤技术是通过对用户兴趣和行为的学习来选取相 关信息的技术。推荐系统与信息过滤一个是择取所需,一个是摒弃无关,看似 是两个相反的过程,但两者的目标和方法是一样的,因此,我们不再区分推荐 系统与信息过滤两个概念。 早期的推荐系统提供的推荐信息是对全体用户提供相同的信息,如商品销 售排行榜等,并不是对个体用户进行推荐,不可避免的,这类推荐系统在个性 化推荐方面存在不足。随着信息技术的发展,为满足网络用户的个性化的需 要,推荐系统逐渐向能实时地为客户提供符合其个人需要的推荐服务即个性化 推荐系统的方向发展,从而提高客户对自身网站的信任度,为企业的数字化发 展和企业经济效益的增长提供更广泛的发展前景。个性化推荐技术为不同用户 提供不同的服务,以满足不同的需求。它通过收集和分析用户信息来学习用户的 兴趣和行为,从而实现主动推荐的目的。个性化推荐技术能充分提高站点的服务 质量和访问效率,从而吸引更多的访问者。 由于可以根据用户的爱好,为不同的用户做不同的推荐,推荐系统已经成 为个性化服务的主要技术之j 可以这么说,只要是需要提供个性化服务的领 域,就会有推荐系统的用武之地。 1 1 2 推荐系统的发展及研究现状 推荐系统在1 9 9 7 年之前一直被称作协作式过滤( c o l a b o r a t i v ef i l t e r i n g 简 称c f ) 。c f 的概念是由d a v i dg o l d b e r g 等人在1 9 9 2 年构造邮件系统t a p e s t r y 时第 一次提出的嘲。t a p e s t r y 因此也成为历史上第一个c f 系统( 基于c f 的推荐系 统) 。当时提出c f 是为了解决信息过载( i n f o r m a t i o no v e r l o a d ) 的问题。具体情 况是这样的:在当时由于电子邮件的泛滥使用,人们被淹没在各种各样的邮件 之中,于是人们开始想办法解决这一问题。最初的方法是由邮件系统提供邮件 2 山东大学硕士学位论文 分类列表,而用户仅仅选择自己感兴趣的邮件列表来过滤邮件。这一方法的主 要缺点是一个用户的兴趣很少能整齐的映射到系统提供的邮件列表之中。一种 改进方案是由用户指定一个过滤器,然后邮件系统根据每个用户指定的过滤器 来搜索整个邮件列表,提供用户感兴趣的邮件。这一方法得到了很多邮件系统 的支持。但是这些系统提供的过滤器都是基于内容的( c o n t e n t 岫a s e d ) ,没有考 虑人的因素,如用户不能指定“我的邻居d a v i d 读过的并且认为比较好的邮件” 这样的过滤器。于是d a v i dg o l d b e r g 等人定义了用于这种目的的过滤器。当用 户指定了多个这样的过滤器时,整个过滤过程就相当于多个邻居相互协作为当 前用户过滤信息,因而称之为协作式过滤。总的来说,c f 的主要思想是:把“邻 居”( 和当前用户兴趣相近的人) 们都认为好的物品推荐给当前用户。 1 9 9 7 年,c o m m u n i c a t i o no f t h ea c m 杂志组织了关于c f 的专刊,对c f 技术 进行系统的总结“1 。在那期专刊中,第一次使用了推荐系统这个名词,并把它 作为专刊的题目。从那时起,人们开始使用推荐系统这个术语,并把c f 系统作 为推荐系统的一种,称为基于c f 的推荐系统。 推荐系统有很多应用领域。1 9 9 7 年以前,推荐系统主要用于信息过滤,如 电子邮件的过滤、新闻组文章的过滤等,代表系统有t a p s t r y ,g r o u p l e n s , p h o a k s ,f a b ,r e f e r r a lw e b ,s i t e s e e r “”等。1 9 9 7 年以后,推荐系统被 引入一个新的应用领域电子商务。在引入推荐系统以后,电子商务系统可 以预测用户的喜好,仅仅把用户可能有兴趣的商品形成列表推荐给用户。由于 这种列表往往很小,顾客可以很容易的找到自己感兴趣的商品,这样不仅极大 的方便了顾客,而且潜在的增加了电子商务的交易量,为商家带来了可观的收 益。因此,电子商务商家纷纷开始把推荐系统嵌入到他们的电子商务系统中, 引发了推荐系统研究和应用的热潮。到目前为止,很多商业公司开展了推荐系 统的研究,例如i b ma l m a d e nr e a r c hc e n t e r ,c o m p a qr e s e a r c hc e n t e r 等;美 国几乎所有知名的大学都有专门从事推荐系统的研究组,如u cb e r k e l e y 的 b e r k e l e yw o r k s h o po nc o l a b o r a t i v ef i l t e r i n g 。世界上几乎所有的大的电子 商务商都为顾客提供个性化推荐服务,有的商家甚至同时提供几种推荐服务。 例如a m a z o n 书店,同时提供了c u s t o m e rw h ob o u g h te y e sa m a z o n e o m d e l i v e r s ,b o o km a t c h e r ,c u s t o m e rc o m m e n t s 等个性化推荐服务。除了可以 山东大学硕士学位论文 应用于信息过滤领域和电子商务领域之外,推荐系统还可以应用到许多其他领 城,如社会网( s o c i a ln e t w o r k ) ,大众传媒等。 1 1 3 推荐系统分类简介 总的来说,目前的推荐系统主要可分为三大类:基于规则的系统、基于内 容的信息过滤系统、协同过滤系统。 基于规则的系统中定义了许多的规则,由规则来决定不同的情况下如何提 供不同的服务,也就是说,系统利用规则来推荐信息,因此,推荐的质量也就 依赖于规则的质量和数量。m m 公司的w e b s p h c r e ( w w w i b m c o m w c b s p h e r e ) , i l o g ( w w w i l o g e o m ) 等均为基于规则的推荐系统。基于规则的系统简单、直 接,但是规则质量很难保证,随着规则数量的增多,系统也将越来越难以管 理。 基于内容的过滤是信息检索领域的重要研究内容。基于内容过滤的推荐系 统需要分析资源内容信息,根据用户兴趣建立用户档案( p r o f i l e ) ,并提取为特 征向量,然后根据资源内容与用户档案之间的相似性向用户提供推荐服务。 b a y e s i a n 概率模型、遗传算法以及其它机器学习技术也被广泛应用于用户档案 的建立和更新。基于内容过滤的实验型推荐系统主要包括m a l o n e 等人提出的电 子邮件信息过滤系统,s t a n f o r d 大学提出的信息过滤工具s i f t ,s i f t e r 原形 系统等。基于内容过滤的系统简单、有效,但是有几个主要缺科删:模型的有 效性问题,过度特征化问题,自我学习能力较差问题,很难区分相同主题的内 容质量的高低问题。 在个性化推荐系统中,协同过滤技术是应用最成功的技术。它通过比较当 前用户与其他用户的兴趣文件的相似度计算出用户间的相似度,生成与当前用 户行为兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推荐结果。 协同过滤系统的研究最早始于1 9 9 2 年的t a p e s t r y 嘲。该系统依赖于像办公小组 之类的封闭团体内人们的直接观点,这是协同过滤推荐系统的最初尝试。但 是,该系统存在着明显的问题一面向大型团体的推荐系统不能依赖于互相认识 的人。几年后,一些基于评分的自动化推荐系统应运而生,协同过滤的概念被 广泛应用到商业企业。例如,为新闻和电影提供匿名的协同过滤方案的 g r o u p l e n s 调查,分别生成音乐和电影的基于电子邮件和网络的系统r i n g o 和 4 山东大学硕士学位论文 v i d e o 推荐器等。协同过滤可克服基于内容过滤的缺点,但是在实践中,该方法 遇到以下几个问题:稀疏性问题,第一评价问题,灰羊问题,可扩展性问题。 为了克服传统协同过滤技术的缺陷,人们提出了一些改进方案如i t e m b a s e d 协同 过滤等。 在实践中,人们往往将后两类技术相结合,也就是使用基于内容和协同过 滤混合型技术来实现推荐系统,以提高推荐系统的性能并得出更好的推荐。 1 2 推荐系统面临的主要挑战 推荐系统在研究领域获得了广泛关注,在实际的电子商务,数字图书馆等 系统中也得到了广泛应用。但是,推荐系统也面i 临着一系列挑战“”,主要包 括: 1 ) 实时性与推荐质量之间的平衡:推荐系统的推荐精度和实时性是一对矛 盾。大部分推荐技术在保证实时性要求的同时,是以牺牲推荐系统的推荐质量 为前提的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量, 需要做进一步深入的研究。 2 ) 新型推荐系统体系结构研究:当前大部分的推荐系统都只是一个单一的 工具,只能提供一种推荐模型。但由于电子商务,数字图书馆等系统本身的复 杂性,不同场合需要不同类型的推荐。因此,需要研究新型推荐系统体系结 构,收集多种类型的数据,提供多种推荐模型,满足不同类型的推荐需求。 3 ) 推荐结果解释研究:推荐系统为了说服用户,需要向用户解释推荐产生 的原因。需要进一步研究更加有效的方法向用户解释产生推荐的原因,从而增 加用户对推荐系统的信任度,说服用户听从推荐系统的推荐。 1 3 本文的主要研究内容 本文对基于内容过滤和协同过滤两种技术在推荐系统中的应用以及面临的 问题和挑战进行了详细的分析与研究,试图使用基于内容的方法和基于项的协 同过滤算法解决协同过滤中的第一评价问题、稀疏问题和扩展性问题,产生更 为准确的用户兴趣度预测,从而提高系统推荐的质量并提高系统的性能。本文 山东大学硕士学位论文 提出了应用于文档推荐的一种组合推荐算法。算法首先利用文档的语义分类特 性计算文档间的相似度,然后利用文档的相似度预测用户对未评价文档的评分 值,最后在用户对项目评分以及对为评价项的评分预测值的基础上,使用i t e m b a s e d 协同过滤推荐做出最终预测。在应用层次上,以此算法为基础,实现了一 个对论文进行推荐的原型系统,并对此系统的结构和实现进行了详细说明。 1 4 本文的组织 本文的组织如下:第一章引言部分对推荐系统的一些基本概念和研究现状 进行了简单介绍,并对本文的工作做了简单说明。第二章对作为推荐系统核心 的推荐算法进行了详细介绍,并指出各自的优缺点。第三章首先介绍了i t e m - b a s e d 协同过滤的推荐算法,然后介绍了我们自己设计的结合内容预测和i t e m - b a s e d 协同过滤的推荐算法。第四章详细介绍了使用结合基于内容预测和i t e m - b a s e d 协同过滤的推荐算法实现的文档推荐系统的设计和实现。第五章对本文的 工作进行了总结和展望。 6 山东大学硕士学位论文 第二章推荐系统 推荐系统是针对不同的用户提供个性化的产品和服务的应用系统。目前, 常用的推荐技术有三类:基于规则的推荐、基于内容的推荐和基于c f 的推荐。 本章将对推荐系统的研究内容以及个性化推荐技术进行介绍,并对三类推荐技 术优缺点进行分析。 2 1 推荐系统的研究内容 推荐系统的研究内容和研究方向主要包括“”: 1 ) 推荐技术研究:设计准确、高效率的个性化推荐算法是个性化推荐系统 的核心问题。目前的推荐技术有协同过滤推荐、基于内容的推荐、基于规则的 推荐等。协同过滤推荐是个性化推荐中研究和应用最多的方法,被广泛的应用 于电子商务网站、数字图书馆、网页搜索、新闻过滤等。 2 ) 实时性研究:在大型推荐系统中,推荐系统的可扩展性能力和实时性要 求越来越难以保证。如何有效满足推荐系统的实时性要求得n t 越来越多研究 者的关注。 3 ) 推荐质量研究:在大型电子商务系统中,用户评分数据极端稀疏。用户 评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质 量难以保证。 4 ) 多种数据多种技术的集成:当前大部分的推荐系统都只利用了一部分可 用信息来产生推荐。随着研究的深入,新型推荐系统应该利用尽可能多的信 息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐 服务。 5 ) 数据挖掘技术在推荐系统中的应用:推荐系统的基础是用户兴趣资料信 息,如何尽可能获得更多的用户相关信息,并以合适的形式表示,是进行个性 化推荐的前提。随着研究的深入,各种数据挖掘技术( 主要包括关联规则挖掘、 序列模式挖掘、聚类分析、b a y e s i a n 分类等) 在推荐系统中得到了广泛的应用。 基于w e b 挖掘的推荐系统得到了越来越多研究者的关注。 7 山东大学硕士学位论文 6 ) 用户隐私保护研究:由于推荐系统需要分析用户的购买习惯和兴趣爱 好,涉及到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得 作进一步深入的研究。 7 ) 推荐系统可视化研究:推荐系统的目的是为用户提供服务,因此必须为 用户提供友好的可视化服务界面。这方面的研究主要包括推荐结果可视化研究 和推荐结果解释研究等方面的内容。 其中,推荐技术的研究是推荐系统研究的核心内容,以下三节我们将对三 类主要的推荐系统作详细介绍。 2 2 基于规则的推荐系统 2 2 1 基于规则的推荐算法 基于规则的系统中定义了许多的规则,由规则来决定不同的情况下如何提 供不同的服务,即系统利用规则来推荐信息,因此,推荐的质量依赖于规则的 质量和数量。一个规则本质上是一个i f - t h e n 语句,规则之间具有不同的支持度 ( 或重要程度) 。基于规则的推荐使用在评价表上挖掘出的关联规则对用户进行 推荐。在评价表上可以挖掘出两种关联规则:项目间的关联规则和用户间的关 联规则,分别简称为项目关联( i t e ma s s o c i a t i o n ) 和用户关联( u s e r a s s o c i a t i o n ) 。这两种关联规则都可以用于推荐。 使用项目关联进行推荐的理论解释是“”;每个用户都有多种兴趣,对应于 多个兴趣组;每条项目关联的前件相当于一个兴趣组,而规则的后件则相当于 该兴趣组的推荐。因而,当对用户应用完所有可以应用的项目关联以后,用户 也就获得了对应于其不同兴趣的推荐。 使用用户关联进行推荐时,要求用户关联的后件必须是当前用户。用户关 联推荐的墓本思想是;使用用户关联前件中的用户的共同兴趣模拟用户关联后 件( 当前用户) 的兴趣,这种模拟的可信度就是用户关联的可信度。 基于规则的系统一般分为三个部分:关键词层、描述层和用户接口层。关 键词层提供上层描述所需的关键词,并定义关键词间的依赖关系,在该层可以 定义静态属性的个性化规则。描述层定义用户描述和资源描述,由于描述层是 山东大学硕士学位论文 针对具体的用户和资源,所以描述层的个性化规则是动态变化的。描述层中的 用户描述文件和资源描述文件需用由关键词层提供的相同的关键词集合来进行 描述。用户接口层提供个性化服务,根据下面两层定义的个性化规则将满足规 则的资源推荐给用户。 推荐的具体过程如下:首先根据当前用户阅读过的感兴趣的内容,通过规 则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度( 或重要 程度) 将这些内容排序并展现给用户。 2 2 2 基于规则的推荐系统算法的优缺点分析 基于规则的系统简单、直接,可以应用于所有领域,具有通用性:不仅可以 推荐与用户过去喜欢的项目相关的项目( 项目关联) ,而且还可以推荐与用户过 去喜欢的项目不相关的项目( 用户关联) 。规则的建立可以离线进行,因此可以 保证有效推荐算法的实时性要求。 但是,由于基于规则的推荐算法推荐给用户的项目一定是曾经被某个用户 浏览过的,因而新加入的项目在任何一个用户浏览之前无法获得推荐。而且规 则质量很难保证,随着规则数量的增多,系统也将越来越难以管理。 2 3 协同过滤推荐系统 协同过滤推荐是目前应用广泛且效率较高的一种个性化推荐技术“”。本节 介绍传统的协同过滤推荐的算法,并分析该算法的优劣。 2 3 1 协同过滤算法 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 基于这样的假设:为一用户找到他真 正感兴趣内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他 们感兴趣的内容推荐给此用户“”。其基本思想非常直观:在日常生活中,人们 往往会根据亲朋好友的推荐来做一些选择( 购物、阅读、音乐等) 。协同过滤系 统就是将这一思想运用到网络信息服务( 信息推荐) 中,基于其它用户对某一信 息的评价来向用户进行推荐。 协同过滤的基本出发点是:( 1 ) 用户是可以按兴趣分类的:( 2 ) 用户对不同的 信息评价包含了用户的兴趣信息:( 3 ) 用户对一个未知信息的评价将和其相似( 兴 9 山东大学硕士学位论文 趣) 用户的评价相似。这三条构成了协同过滤系统的基础。 在个性化推荐系统中,协同过滤技术是目前应用最广泛且效率较高的技 术。协同过滤技术也称为面向用户( u s e r b a s e d ) 的技术,它通过比较当前用户 与其他用户的兴趣文件的相似度计算出用户间的相似度,生成与当前用户行为 兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推荐结果“”。协同 过滤系统的推荐是与项的内容无关的,事实上,用户所看到的项只是一个唯一 性的标示符而已。 基于协同过滤技术的推荐过程可分为3 个阶段:用户兴趣文件表示,计算当 前用户与其它用户的相似度生成“最近邻居”集,产生推荐数据集。 用户兴趣文件表示:由于基于协同过滤技术的推荐是建立在用户的相似度 比较的基础上的,因此,我们关心的是其它用户对待推荐项的评估值,而不是 项的内容描述。在一个典型的基于协同过滤技术的推荐系统中,输入数据通常 可以表述为一个m x 村的用户一项评估矩阵r ( 如表2 3 1 所示) ,m 是用户数, 一是项数,是第f 个用户对第,项的评估数值。评价值与内容有关:若项目是 电子商务中的货品,则表示用户订购与否,如1 表示订购,0 表示没有订购;若 项目是w e b 文档,则表示用户浏览与否,对它的兴趣度有多高,这样的评价值可 以分为若干等级,如1 ,2 ,3 ,4 ,5 等。相应的,用户兴趣文件( p r o f i l e ) 可 由该用户对己知项的评估值组成,即尸( ,】,吒,) ,其中,脚为该用户所评估 过的项的总数,为用户对文档i 的评估值。 u s e t i t e m i l历 五 厶 矾r t lr 1 2 r u r h r 2 |r 力 r 2 ,r 2 n u r ,ir 1 2 勘 r 拥 r m f r 叫 。 r m 表2 3 1 生成最近邻居集:计算用户间相似度并依据相似度生成“最近邻居”集是 1 0 山东大学硕士学位论文 基于协同过滤技术的推荐系统的核心。通常,我们使用p e a r s o n 相关系数或向量 空间相似度方法计算用户间的相似度。令r u 表示用户f 对文档_ ,的评估值,则 p e a r s o n 相关系数m 1 的计算用户x y 的相关度的方法如下: ( r ,一一冠) ( r ,一一瓦) 铲f f d d o c 露u m e n t si 尸丽i 萨 q d ld e a o c u , n c n 4 e d d c 删d 咄 其中,是用户x , y 的相关度,瓦表示用户x 总的评估值的平均值。向量 空间相似度的计算方法将两个用户x 和y 看做向量空间中的两个向量,通过计 算两个向量的夹角的余弦来衡量相互之间的相似度,具体方法如下: 2 c o s ( 墨y ) 5 雨x y ( 2 2 与当前用户兴趣最相似的用户构成“最近邻居”集。 邻居用户的最终确定有两种方法:一是根据预先确定的相似度阈值,选择 相关度大于阈值的作为邻居用户,二是根据预先确定的邻居数n ,选择相关度最 大的前n 个用户作为最近邻居用户。 产生推荐集:“最近邻居”集产生后,可计算出两类推荐结果:当前用户 对任意项的兴趣度的预测值和t o p - n 推荐集。 ( 1 ) 当前用户甜对任意项的兴趣度的预测值的计算 设用户“的己选项集为l ,则其对任意项f ( f 仨l ) 的兴趣度的预测值计算 通用公式如下: ( c o r r , ) x ( r a t i n g 。一i ) p r e d i c t i o n = 历+ 旦- 一 ( 2 3 ) ( c o r r ) s = l 厅是用户对项的平均评估值,i 是“最近邻居”集中的用户。c o r r , 是用 户u 和用户f 之间的相似度,r a t i n g 是用户积口项r 的评估值。,是用户f 对项 的平均评估值。 ( 2 ) t o p - n 推荐集 山东大学硕士学位论文 统计“最近邻居集”中的所有用户对不同项的兴趣度,可用访问频率衡 量,取其中个排在最前面且不属于,。的项作为t o p - 3 1 推荐集,也可将预测值 最高且不属于l 的项的个作为t o p - n 推荐集。 2 3 2 协同过滤算法的优缺点分析 基于协同过滤技术的推荐系统并不分析不同项目间的相似性,而是学习顾 客购买行为之间的相似性。由于它不依赖于项目的特征,因此它可以推荐从表 面特征上看上去不同但事实上有很大相关性的项目。而且更重要的是它可以根 据顾客购买行为数据的不断积累,来更新和增加自己的知识。但是同时它也有 自己的缺陷1 : 1 ) 稀疏性问题。基于协同过滤技术的推荐系统依赖于大量的用户兴趣评估 数据,但是通常每个用户都只对很少的项目做出评价,整个项目一用户评估矩阵 非常稀疏。这样,协同过滤推荐系统就得不到足够的用户评价来进行预测,导 致用户之间的相似度计算不准确,得到的邻居用户不可靠。 2 ) 第一评价问题。传统的协同过滤推荐是基于邻居用户资料得到目标用户 的推荐,因此在一个新的项目首次出现的时候,因为没有用户对它作过评价, 因此单纯的协同过滤无法对其进行预测评分和推荐。而且,由于新项目出现早 期,用户评价较少,推荐的准确性也比较差。相似的,推荐系统对于新用户的 推荐效果也很差。一个极端的案例是:当一个协同过滤推荐系统刚开始运行的时 候,每个用户和每个项目都面临第一评价问题。 3 ) 灰羊问题。在较小的,甚至是中等规模的用户群中,往往存在这样一些 用户,他们的偏好特殊以至找不到与其相似的用户,因此基于协同过滤技术的 推荐系统很难获得正确的预测。 4 ) 可扩展性问题。协同过滤算法在推荐是需通过计算用户的相似度以识别 “最近邻居”,随着用户和项的增加,系统的计算量也大大增加,对于上百万的 数目,通常系统会遇到严重的扩展瓶颈,直接影响到推荐系统的实时性,而实 时性好,精确度高的系统才会被用户所接受。虽然通过建立用户一用户相似度模 型可以在一定程度上解决这个问题,但是这种方法往往只适用于用户的兴趣爱 好比较稳定的情况,而且不能很好的利用最新信息。 山东大学硕士学位论文 2 4 基于内容推荐的系统 基于内容过滤推荐是最早被应用的一种个性化推荐技术对于传统的协同过 滤推荐中的稀疏性等问题有行之有效的解决效果。本节介绍传统的基于内容推 荐的算法,并分析该算法的优劣。 2 4 1 5 于内容的推荐算法 基于内容过滤的推荐系统利用信息内容( 如文本文档) 和用户兴趣的相似 性来过滤信息。基于内容的推荐,又被称为基于信息过滤的推荐,是由信息检 索( i n f o r m a t i o nr e t r i e v e ) 领域提出来的,因而使用了许多i r 领域的技术。基 于内容的推荐基本思想是:对每个用户都用一个称作用户的兴趣文件( u s e r p r o f i l e ) 的文件成数据结构来描述其喜好;对每个项目的内容进行特征抽取 ( f e a t u r ee x t r a c t i o n ) ,形成特征向量( f e a t u r ev e c t o r ) ;当需要对某个用户 进行推荐时,把该用户的用户兴趣文件同所有项目的特征矩阵进行比较得到二 者的相似度,系统通过相似度推荐文档。有些系统还收集用户的反馈信息以利 于维护用户兴趣文件。 基于内容过滤的系统的关键在于待过滤文档的特征提取( 即文档的表 示) ,用户兴趣文件的表示和相似度的计算。 文档的表示通常采用向量空间模型。首先,我们假设文档中的字或词在确 定文档类别的作用上相互独立,则根据“贝叶斯假设”,可用文档中出现的字或 词的集合来代替文档,我们称这些字或词为文档的特征项。这样做虽然会丢失 掉很多语义信息,但是它可使文档的表示和处理形式化,在信息过滤过程中取 得较好效果。任意的特征项f ,因其对文档表示的重要性不同而具有不同的权 重w ,。空间向量模型的基本思想是以向量( ,w 2 ,w 3 ,) 来表示文档。权值 w 有多种计算方法,常用方法为t f - i d f 公式,如: 矽( 厕一! ! 兰堕丝:型:! ! ! 型竺! ( 2 4 ) ”。j 【( 1 + l o g :( ,孑) ) l o g :( 啊) 】2 其中,w ( t ,孑) 为特征项,在文档孑中的权重,而矿( f ,f 1 ) 为特征项r 在文档孑 山东大学硕士学位论文 中出现的频率,为文本文档的总数,啊为在文档集中出现特征项t 的文档 数,分母为归一化因子。 用户的兴趣文件( p r o f i l e ) 同样用向量表示,包含任意肌个词的兴趣文件 用向量p “,1 2 c f ,) 表示 对于向量空间模型来说j 相似度计算的传统做法是计算两向量间的余弦相 似度( c o s i n es i m i l a r i t y ) ,用户“和文档d 的相似性可定义如下: ,删玑田2 鬲 5 ) 其中舀是表示用户甜的兴趣文件的向量,孑为表示文档d 的向量,矧、吲 为两个向量的模,表示点积。系统把与用户兴趣文件相似性高的文档推荐给 用户。 2 4 2 基于内容的推荐算法的优缺点分析 纯粹基于内容的推荐系统是忽略用户行为的,它只考虑信息和信息之间的 相似关系,因此它可以解决在协同式过滤中出现的第一评价问题,稀疏问题, 特殊用户问题等缺陷。其最大的优点就是建模和商品间的相似度量可以脱机运 行,因此它具有很快的推荐响应时间,系统简洁有效。 但是其缺点也比较明显n 町: 1 ) 模型的有效性问题。比如在电子商务中,如果我们用特征向量模型描述 商品特征的话,我们首先得建立一个商品的特征向量空间。选择商品的什么特 征和怎么用这些特征更好地表达一个商品是一件很困难的工作,如果这个工作 做得不好的话,对推荐响应时间和推荐质量都会产生负面的影响。 2 ) 所谓的过度特征化问题。由于基于内容的推荐系统过分依赖于信息的特 征,使得用这种技术实现的模型并不能总是很好的表达信息之间关联性。导致 系统只能发现和用户已有兴趣相似的资源,不能为用户发现新的感兴趣的资 源。比如一些事实上是有很大关联性但表面特征上看来它们并不是相关的信息 就有可能得不到推荐。 3 ) 这类系统的自我学习能力是较差。由于它的推荐依赖于己经建立的商品 特征向量,这种向量空间并不能快速自动地反映数据环境的变化,例如大量新 1 4 山东大学硕士学位论文 增加商品或顾客购买行为的不断积累变化的情况,这就从一定程度上影响其推 荐质量。 4 ) 基于内容的推荐系统在碰到相同主题的内容时,很难区分质量的高低。 例如在对论文的推荐中,同一研究方向的论文往往内容近似而水平相差很大, 因此应具有不同的推荐度,但是基于内容的推荐系统不能识别其质量差异,这 也从一定程度上影响了其推荐质量。 山东大学硕士学位论文 第三章结合内容预测和i t e m - b a s e d 过滤的推荐算法 在本章提出了一种用于文档推荐的组合推荐算法。算法利用项目的语义属 性计算文档的相似度,利用文档的相似度和用户对文档的评分预测相似文档的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届河北省邯郸市馆陶县九年级英语第一学期期末达标检测模拟试题含解析
- 2026届安徽省利辛县九年级英语第一学期期末经典试题含解析
- 2026届内蒙古自治区包头市九年级化学第一学期期中预测试题含解析
- 内蒙古呼伦贝尔扎兰屯市2024-2025学年九年级下学期学业测评模拟英语试题(无答案)
- 风电场安全规程考试题库(附答案)
- 2026届内蒙古自治区呼和浩特市实验中学化学九上期中复习检测试题含解析
- 2026届江苏省金坛区化学九年级第一学期期中教学质量检测试题含解析
- 广东省广州市天河区暨南大附中2026届英语九年级第一学期期末学业水平测试模拟试题含解析
- 2026届辽宁沈阳市大东区化学九年级第一学期期末质量检测试题含解析
- 离婚房产分割协议书及子女抚养及财产分配协议
- 吉利EV450车型电动汽车控制系统及检修
- 销售沟通技巧课件企业培训
- 办公楼物业服务 投标方案(技术方案)
- AQ 1095-2014 煤矿建设项目安全预评价实施细则(正式版)
- CJJ105-2005 城镇供热管网结构设计规范
- 眼的解剖结构与生理功能课件
- 2024年成都产业投资集团有限公司招聘笔试冲刺题(带答案解析)
- 《风电场并网设计技术规范 第3部分:分散式风电》
- DL-T 572-2021电力变压器运行规程-PDF解密
- 脑死亡判定标准与技术规范
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
评论
0/150
提交评论