(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf_第1页
(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf_第2页
(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf_第3页
(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf_第4页
(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于高阶潜在语义分析的音乐推荐系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术和互联网的高速发展,互联网上的多媒体资源数量呈爆炸性增 长,用户要在如此庞大的资源中快速找到自己感兴趣的资源是非常困难的。推荐 系统就是针对不同用户预定义的一些参数或者历史访问记录,推荐给用户其可能 感兴趣的资源,提供个性化服务的系统。而音乐推荐系统也就是专门针对大量的 音乐数据的一种推荐系统。 由于传统的音乐推荐系统一般只使用用户对歌曲的打分信息,或者只利用歌 曲自身的音频特征进行推荐,推荐的效果很难满足用户的需要,所以目前对于音 乐推荐系统的研究大部分都放在了将两者结合的混合推荐方法。这种方法的难点 之一就是如何从歌曲中提取出能够影响推荐效果的特征,其次就是如何将这两者 有效的结合到一起。 本文的主要工作有以下两个方面: ( 1 ) 将潜在语义分析应用在音乐推荐领域,使用了一种改进的算法一高阶潜 在语义分析。该算法能将用户对歌曲的打分信息与歌曲本身的内容信息整合在一 起,实现从高维数据到低维数据的映射。经过试验证明,这种算法应用在音乐推 荐系统之中的效果较传统算法有一定提高。 ( 2 ) 对于音乐自身的内容信息,使用了一种文本化的表示方法,使其能够应 用在高阶潜在语义分析算法当中。该方法使用隐马尔可夫模型,自动将音乐内容 进行矢量量化,表示成文本形式。经过试验证明,这种方法能够很好的与高阶潜 在语义分析结合,达到满意的推荐效果。 关键词音乐推荐系统;高阶潜在语义分析;隐马尔可夫模型 a b s t r a c t a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n di n t e m e t ,t h e m u l t i m e d i ar e s o u r c e so nt h ei n t e r n e ta r ei n c r e a s i n gd r a m a t i c a l l y , w h i c hm a k e si t r e a l l yd i f f i c u l tf o rc u s t o m e r st of i n dt h e i ri n t e r e s t e do n e sa m o n gs u c hl a r g ea m o u n t o f r e s o u r c e s r e c o m m e n d a t i o ns y s t e mi st op r o v i d er e s o u r c e st h a tm a y m e e tc u s t o m e r i n t e r e s t sa c c o r d i n gt op r e s e tp a r a m e t e r so r a c c e s sh i s t o r i e s ,s ot h a tp e r s o n a l i z e d s e r ,i c e sc a nb eo f f e r e d m u s i cr e c o m m e n d a t i o ns y s t e mi sas p e c i f i cr e c o m m e n d a t i o n s y s t e mt h a td e a l sw i t h m a s s i v em u s i cd a t a a st h et r a d i t i o n a lm u s i cr e c o m m e n d a t i o ns y s t e me i t h e ru s e si n f o r m a t i o nt h a t c u s t o n l e rr a t e st h es o n g s ,o ra u d i of e a t u r e so ft h es o n g st h e m s e l v e s ,t h ee f f e c t sr a r e l y m e e tt h ec u s t o m e rd e m a n d s a sar e s u l t ,c u r r e n tr e s e a r c h e s o nr e c o m m e n d a t i o n s v s t e me m p h a s i z em o r eo nt h eh y b r i dr e c o m m e n d a t i o nm e t h o dt h a tp u tt h et w o t o g e t h e r o n eo ft h ed i f f i c u l t i e so f t h i si sh o wt oe x t r a c tf e a t u r e sf r o ms o n g st h a th a v e i m p a c to nt h er e c o m m e n d a t i o ne f f e c t a n o t h e ro n e i sh o wt om a k et h e s et w oc o m b i n e e f f e c t i v e l y t w om a i nw o r ko f t h i sp a p e ra r ea sf o l l o w e d : f1 ) u s el s ai nt h em u s i cr e c o m m e n d a t i o nf i e l d ,c h o o s ea ni m p r o v e da l g o r i t h m , m l s a t h i sa l g o r i t h mi n t e g r a t e st h er a t i n gi n f o r m a t i o n a n dt h es o n g s o w n i n f o r m a t i o n ,w h i c hc a nm a pd a t af r o mh i g hd i m e n s i o nt ol o wd i m e n s i o n e x p e r i m e n t s p r o v e dt h a tt h i sa l g o r i t h mi nm u s i c t r a d i t i o n a lr e c o m m e n d a t i o ns y s t e m r e c o m m e n d a t i o ns y s t e mp e r f o r m sb e t t e rt h a n ( 2 ) f o rt h em u s i cc o n t e n ti t s e l f , t h ep a p e ru s e sa t e x tr e p r e s e n t a t i o nt om a k e si t a p p l yt ot h em l s a t h i sm e t h o d u s eh m mt ov e c t o rq u a n t i z a t i o nt h em u s i cc o n t e n t t ot e x tf o r m a ta u t o m a t i c a l l y e x p e r i m e n t sp r o v e d t h a tt h i sc a nh a v es a t i s f i e d r e c o m m e n d a t i o ne f f e c tt h r o u g hc o m b i n gw i t ht h em l s a k e y w o r d :m u s i cr e c o m m e n d a t i o ns y s t e m ;m l s a ;h m m i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 躲一巡:一嗍业 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:童瞍区导师签名:! 过遮坠包日期:型星:三:竺 第1 奄绪论 1 1 研究背景及意义 第1 章绪论 随着信息技术和互联网的高速发展,互联网上的多媒体资源数量呈爆炸性增 长,很多大型专业网站上所提供的文章、图片、音乐、电影等资源数量都是少则 几万,多则几十万。如此大量的网络资源,一方面给用户提供了充足的选择余地, 另一方面,用户不可能逐一查看所有的资源,想要在如此庞大的资源中快速找到 自己感兴趣的资源是非常困难的,这就是一种“信息过载 【l 】( i n f o r m a t i o n o v e r l o a d ) ,即用户在找到自己需要的资源之前,必须浏览大量的无关信息,增 加了用户查找资源的难度。 这时,就需要一种服务来帮助用户查找到自己想要的资源,而推荐系统 ( r e c o m m e n d a t i o ns y s t e m ) 【2 甜 就是一种帮助用户摆脱这种信息过载的重要系 统。推荐系统也称为个性化推荐系统( p e r s o n a l i z e dr e c o m m e n d e rs y s t e m ) ,是针 对不同用户预定义的一些参数或者历史访问记录,推荐给用户一些其可能感兴趣 的资源,提供个性化服务的系统。这种系统现在已经应用在很多大型网站上,比 如国外的a m a z o n ,y a h o o ,以及国内的淘宝网,在淘宝网主页,就有根据用户 的浏览记录所列出的推荐商品。由于可以根据用户的爱好,为不同的用户做不同 的推荐,推荐系统已经成为个性化服务的主要技术之一。可以这么说,只要是需 要提供个性化服务的领域,就会有推荐系统的用武之地。 音乐推荐系统也就是专门针对大量的音乐数据的一种推荐系统,用户通过一 些简单的输入或者对部分歌曲的打分,系统自动搜索出一些用户可能感兴趣的歌 曲推荐给用户。 在各个大型音乐网站上,一般都有一些推荐的歌曲给用户做参考。这里的推 荐,一种就是简单的类似音乐排行榜的推荐,歌曲都是比较大众化的流行歌曲, 不能针对不同的用户给出不同的推荐歌曲;另一种能够针对不同的用户给出不同 的推荐歌曲,比如国内的s o n g t a s t e 网站,但是推荐的结果往往并不能令用户满 意,而且这类网站数量非常少。这意味着音乐推荐在现实生活中有很大的实际需 求,但是目前的技术还不够完善,音乐推荐技术有很大的发展空间。 1 2 音乐推荐系统 音乐推荐系统的整体框架如图1 1 所示。 北京工业大学丁学硕士学位论文 船 用户 图1 1 音乐推荐系统框架 f i g u r e1 1f r a m e w o r ko fm u s i cr e c o m m e n d a t i o ns y s t e m 眵 音乐 每一首音乐进入数据库之前都要先进行预处理,可能包括统一音频格式、声 道选择、截取关键段等操作,然后进行音乐的特征提取。用户访问系统的时候要 有一个用户界面,可能需要用户对一部分歌曲打分,或者记录用户的访问记录, 以便针对每个用户生成不同的用户兴趣模型。 这时的数据库可能包括音乐本身、音乐的物理特征、用户对音乐的打分、用 户的访问记录等内容。接者就可以根据数据库中的信息,利用不同的推荐算法产 生推荐,并且将推荐结果返回给用户界面。 1 3 音乐推荐系统研究现状 由于音乐推荐系统具有广阔的应用前景,重要的学术和经济价值,所以使之 备受观众,研究也慢慢深入。 推荐系统最早是针对邮件的过滤提出来的,而后最主要的是对商品的推荐, 第l 章绪论 蔓曼! ! 曼! 曼! 曼! 曼曼! 曼曼! ! ! 曼! ! 曼! 曼! ! 曼曼曼! 曼曼蔓! i ! ! 曼曼! ! ! ! 曼! 曼! 曼! ! 苎曼! ! ! 曼曼! ! ! 曼! 苎! ! 曼! ! 曼曼曼! ! ! 其在电子商务网站上应用最广泛,并且取得了一定的成果。随着信息化的不断推 进,互联网上的各种资源都极大的丰富,这也就相应的出现了针对不同资源的推 荐系统,比如文章推荐、视频推荐等等。同样也出现了音乐推荐系统。有一些大 型推荐系统比较成功,比如: g r o u p l e n s :由m i t 开发的自动协作过滤推荐系统,用于新闻组信息推荐。 g r o u p l e n s 系统通过用户的评分信息自动搜索用户的最近邻居,然后根据最近邻 居的评分信息产生最终的推荐结果,适合于用户数量比较大的场合。 m o v i e l e n s :是m i n n e s o t a 大学开发的研究型自动协作过滤推荐系统,用于 推荐电影。与g r o u p l e n s 不同,m o v i e l e n s 系统是一个基于w e b 的推荐系统,系 统通过浏览器的方式进行用户评分数据收集与推荐结果显示,用户使用更加方 便。 r i n g o :由m i t 媒体实验室开发的研究型协作过滤推荐系统,用于提供个性 化的音乐推荐服务。r i n g o 系统可以向用户推荐用户最喜欢的音乐预测用户最不 喜欢的音乐,也可以预测用户对特定音乐的评分。 推荐系统使用的技术也是多种多样,比如基于规则的推荐、基于内容的推荐、 协同过滤推荐、基于降维的推荐等等。其中,协同过滤推荐是应用最广泛的技术, 上面介绍的几个大型系统都是基于这种技术。 而基于降维的推荐算法近些年发展比较快。芝加哥大学信息与语言研究中心 的s c o t td e e r w e s t e r 等人撰写了( ( i n d e x i n gb yl a t e n ts e m a n t i ca n a l y s i s ) ) p j 一文, 该论文较为全面地阐述了潜在语义分析法的产生背景和基本思路,对其中的技术 细节( 奇异值分解环节) 做了简要分析。l s a 在低维的语义空间表示原有高维 数据,缓解了推荐系统的稀疏性问题。这以后,关于l s a 的研究就在不断深入, 6 ,7 分析研究了l s a 的有效性。 但是早期的推荐系统使用的算法往往只是基于传统的推荐算法,并没有针对 文章、音乐、视频等固有的特征进行推荐,推荐效果也并不理想。因此推荐系统 目前的研究重点在于将推荐对象的固有信息加入到推荐系统中,以提高推荐效 果,研究和应用最多的是内容推荐和协同推荐的组合【8 ,j 。 基于l s a 算法也提出了一些改进算法。 1 0 提出了一种基于概率的l s a 算 法,使其能够处理共生数据。 1 1 提出了一种高阶潜在语义分析,使其能够处理 多类对象的关系。 1 4 本文研究内容和方法 由于传统的音乐推荐系统一般只使用用户对歌曲的打分信息,或者只利用歌 曲自身的音频特征进行推荐,推荐的效果很难满足用户的需要,所以目前对于推 北京= r = 业大学1 = 学硕士学位论文 ! i l i l i i 一一i |1=;: 一h i i ! ! ! 曼! ! 曼曼皇曼曼 荐系统的研究大部分都放在了将两者结合的混合推荐方法。这种方法的难点之一 就是如何从歌曲中提取出能够影响推荐效果的特征,其次就是如何将这两者有效 的结合到起。 本文的主要工作有以下几个方面: ( 1 ) 将潜在语义分析应用在音乐推荐领域,使用了一种改进的算法一高阶潜 在语义分析。该算法能将用户对歌曲的打分信息与歌曲本身的内容信息整合在一 起,并且实现从高维数据到低维数据的映射。经过试验证明,这种算法应用在音 乐推荐系统之中的效果较传统算法有一定提高。 ( 2 ) 对于音乐自身的内容信息,使用了一种文本化的表示方法,使其能够应 用在高阶潜在语义分析算法当中。该方法使用隐马尔可夫模型,自动将音乐内容 进行矢量量化,表示成文本形式。经过试验证明,这种方法能够很好的与高阶潜 在语义分析结合,达到满意的推荐效果。 1 5 本文结构 本文的组织结构如下: 第一章:绪论。介绍了音乐推荐系统的研究背景及意义、国内外研究现状、 音乐推荐系统的构架以及本文的主要工作。 第二章:推荐系统主要方法及其相关技术。介绍了推荐系统的分类,简单介 绍了一些传统的推荐算法,详细介绍了基于内容的推荐技术和协同过滤技术,最 后引出了混合的推荐算法作为本文的工作重点。 第三章:高阶潜在语义分析。先给出了潜在语义分析的基本思想、实现方法 及其优缺点。然后我们将潜在语义分析应用到音乐推荐系统,给出具体的实现步 骤。最后根据潜在语义分析缺点,我们介绍了一种改进算法一高阶潜在语义分析 算法,并且分析了其与潜在语义分析的关系。 第四章:音乐内容的文本表示。给出了音乐内容使用了一种文本化的表示方 法,使其能够应用在高阶潜在语义分析算法当中。该方法使用隐马尔可夫模型, 自动将音乐内容进行矢量量化,表示成文本形式。 第五章:音乐推荐系统的实现。综合了前面各章介绍的方法,利用音乐内容 的文本表示,整合在高阶潜在语义分析算法中,使用基于用户的协同过滤算法, 完成了音乐推荐系统,并通过大量实验对我们的方法进行了测试。 第2 章推荐系统主要方法及其相关技术 曼! 曼! 曼皇曼曼! 苎! 曼曼! ! 曼! ! 曼! ! ! i = i i 一一; i i_i i i i ! 曼! 曼! ! ! 曼! 曼曼! ! 曼! 曼! ! ! ! ! 曼曼 第2 章推荐系统主要方法及其相关技术 2 1 推荐系统主要方法概述 推荐系统的主要算法包括:基于信息过滤推荐算法、基于规则的推荐算法、 基于知识的推荐算法、基于效用的推荐算法,等等,分类如图2 1 所示。 图2 1 推荐算法分类 f i g u r e2 - 1c l a s s i f i c a t i o no fr e c o m m e n d a t i o na l g o r i t h m 其中,基于信息过滤推荐算法又分为基于内容推荐算法和协同过滤推荐算 法,这两种算法我们将在后续章节详细介绍。现在简单介绍一下其他几种推荐算 法。 2 1 1 基于规则的推荐算法 基于规则的推荐,也叫基于关联规则的推荐( a s s o c i a t i o nr u l e - b a s e d r e c o m m e n d a t i o n ) 1 2 , 1 3 】,其中定义了许多的规则,由规则来决定不同的情况下如 何提供不同的服务,即系统利用规则来推荐信息。因此,推荐的质量依赖于规则 的质量和数量。 一个规则本质上是一个i f - t h e n 语句,规则之间具有不同的重要程度。例如 下面这条规则: i f 用户喜欢项目1 】a n d 用户喜欢项目2 】 t h e n 用户有8 0 的可能喜欢项目3 基于规则的推荐使用在评价表上挖掘出的关联规则对用户进行推荐在评价 北京工业大学工学硕十学位论文 曼! 曼! ! ! ! 曼! ! ! ! ! 鼍! ! 曼曼! ! 曼! 曼! ! ! 曼曼! 曼蔓曼! 曼曼蔓! i ! ! 苎曼! 曼! ! ! ! 曼! ! 曼曼蔓! ! ! 曼! 曼! ! ! 曼曼! ! ! ! ! 曼! ! 曼曼曼! 曼 表上可以挖掘出两种关联规则:项目间的关联规则和用户间的关联规则分别简称 为项目关联和用户关联。 基于规则的推荐算法优点:基于规则的系统简单、直接,可以应用于所有领 域,具有通用性,规则的建立可以离线进行,因此可以保证有效推荐算法的实时 性要求。 基于规则的推荐算法缺点:由于基于规则的推荐算法推荐给用户的项目一定 是被某个用户浏览或评分的,因此对于新项目无法获得推荐。而且,项目名称的 同义性以及随着系统的运行,规则数量的增多,使得系统难以管理。 2 1 2 基于知识的推荐算法 基于知识的推荐( k n o w l e d g e - b a s e dr e c o m m e n d a t i o n ) 1 1 4 在某种程度是可以 看成是一种推理( i n f e r e n c e ) 技术,基于知识的方法因它们所用的功能知识不同 而有明显区别。基于知识的推荐需要相关领域的专业知识,尽量详尽描述项目的 专有属性,以达到好的推荐效果。 由于基于知识的推荐要求用户详尽描述自己的兴趣或者需求,对相关领域的 专业知识要求比较高,而且在很多领域,推荐的对象并没有足够的己知知识来获 得推荐,因此推荐的效果很难保证。 2 1 3 基于效用的推荐算法 基于效用的推荐( u t i l i t y b a s e dr e c o m m e n d a t i o n ) ”3 是建立在对用户使用项 目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数 ( u t i l i t y f u n c t i o n ) ,因此,用户资料模型很大程度上是由系统所采用的效用函数 决定的。 2 2 基于内容的推荐算法 2 2 1 基于内容的推荐算法简述 基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) ,又被称为基于信息过滤 的推荐,是由信息检索( i n f o r m a t i o nr e t r i e v e ) 领域提出来的,因而使用了许多 信息检索领域的技术。基于内容的推荐根据信息的内容和用户偏好之间的相关性 向用户推荐信息,它们利用资源与用户兴趣的相似性来过滤信息。基于内容的推 荐的基本思想是:对每个用户都用一个称作用户兴趣模型( u s e rp r o f i l e ) 1 1 6 3 的文 第2 章推荐系统丰要方法及其相笑技术 件构成数据结构来描述其喜好;对每个项目的内容进行特征提取( f e a t u r e e x t r a c t i o n ) ,形成特征向量( f e a t u r ev e c t o r ) ;当需要对某个用户进行推荐时,把 该用户的用户兴趣模型同所有项目的特征矩阵进行比较得n - 者的相似度,系统 通过相似度推荐项目。 基于内容过滤的系统的关键在于对象的特征提取,用户兴趣模型的表示和相 似度的计算。 2 2 2 基于内容的推荐算法的优缺点 基于内容的推荐算法是忽略用户行为的,它只考虑信息和信息之间的相似关 系,它的优点有: ( 1 ) 不需要其它用户的数据,没有冷启动问题和稀疏性问题。 ( 2 ) 能为具有特殊兴趣爱好的用户进行推荐。 ( 3 ) 能推荐新的或不是很流行的项目,没有新项目问题。 ( 4 ) 其最大的优点就是它具有很快的推荐响应时间,系统简洁有效。 但是其缺点也比较明显: ( 1 ) 模型的有效性问题。要求项目能容易抽取成有意义的特征,要求特征 内容有良好的结构性,对于电影、音乐等对象项目属性并不能体现一些隐含的特 点,难以区分资源内容的品质和风格。 ( 2 ) 过度特征化问题。由于基于内容的推荐系统过分依赖于信息的特征, 使得用这种技术实现的模型并不能总是很好的表达信息之间关联性。导致系统只 能发现和用户已有兴趣相似的资源,不能为用户发现其潜在感兴趣的资源。 ( 3 ) 基于内容的推荐系统在碰到相同主题的内容时,很难区分质量的高低。 例如在对专业文章资源的推荐中,同一专业科目的文章往往内容近似而水平相差 很大。因此应具有不同的推荐度,但是基于内容的推荐系统不能识别其质量差异, 这也从一定程度上影响了其推荐质量。 2 3 协同过滤技术 2 3 1 协同过滤技术简述 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 0 7 】,也叫协作过滤、社会过滤。协同过 滤分析用户兴趣,在用户群中寻找与指定用户兴趣相似用户,综合这些相似用户 对某一信息的评价,形成系统对该指定用户对此信息的喜好程度进行预测。协同 过滤技术是至今为止最成功的个性化推荐技术,被应用到很多领域中。 北京_ t 业大学工学硕j :学位论文 曼曼! 曼! 苎曼! 曼! ! ! ! ! ! ! ! ! ! ! ! ! ! 苎! 曼! ! 鼍曼! 曼苎! ! ! i = i i i ! 鼍! 曼! ! ! ! ! ! ! ! ! 曼曼! ! 鼍曼! ! ! ! ! ! 曼! 曼皇曼! 曼曼曼! ! 协同过滤的三个基本出发点是: 1 ) 用户是可以按兴趣分类的; 2 ) 用户对不同资源对象的评判或访问行为包含了用户的兴趣或潜在需求; 3 ) 用户对一个未知资源对象的评价将和其兴趣相似用户的评价一致。 这三点构成了协同过滤的基础。可以用一句话通俗的概括这三个基本出发 点,“如果和我兴趣爱好相似的人喜欢这样东西,那我也会喜欢这样东西 。 显式或隐式评分预测得分 k 预测引擎 l 图2 2 协同过滤系统的组成 f i g u r e2 - 2c o m p o s i n go fc o l l a b o r a t i v ef i l t e r i n gs y s t e m 如图2 2 所示,基于协同过滤技术的推荐系统可分为3 个阶段:首先,获得 用户信息,即获得用户对某些资源的评价;其次,分析用户之间的相似性并预测 特定用户对某一资源的喜好程度,一般来说,用户是不知道给他的推荐结果是怎 样得到的,这是一个“黑盒 的过程;最后,产生推荐资源列表。通常,基于协 同过滤的推荐系统选取与当前活动用户有相似兴趣的用户群组作为参考对象,因 此,如何定义用户的相似性以及如何选取参考用户群是协同推荐技术研究的重 点。 第一步为用户输入他对一些项目的评价。为了给用户提供有效的推荐,必须 先获得用户兴趣模型( u s e rp r o f i l e ) ,这是协同过滤系统的关键。得到一个用户 兴趣模型主要分成两步,先要根据用户的活动状况来获得用户感兴趣的信息群, 然后根据这些信息提炼出兴趣模型,所以要求获得推荐的用户,为得到推荐必须 对一些项目进行评价,以表达自己的偏好。 评价的方式有两种:显式( e x p l i c i t ) 和隐式( i m p l i c i t ) 方式。显示方式就是 让用户直接表示出对某一项目的喜好程度,比如通过用户直接给出对某一项目的 评分值( 如高分代表该用户对此项目很感兴趣,低分表示该用户对此项目很不感 兴趣) 或者填写一些问答式表格主动告诉系统他的兴趣所在;隐式方式是在用户 寻找信息过程中,系统同步跟踪用户的动作,分析用户兴趣,这过程中不需要用 户直接参与。比如当用户浏览某个网站时,如果用户对某个网页阅读的时间长或 将其保存都说明这个网页所涉及的内容是用户感兴趣的。 第2 章扮荐系统主要方法及其栩关技术 曼曼曼! ! 苎曼! 曼蔓皇曼! 曼! 曼! 曼曼! 鼍i i _ ! 曼! 曼! ! 曼曼曼曼! ! ! ! 曼! 曼曼寰 表2 1 打分矩阵示例 t a b l e2 1e x a m p l eo fr a t i n gm a t r i x 1 11 21 31 41 51 6 u 1 333 u 2445 u 3 5 u 4211 u 51 u 6551 u 71 4 表2 1 就是用户评价的一个显式表示的例子,假设某一个推荐系统有m 个用 户和,z 个项目( 表中为7 个用户“l 至“7 ,6 个项目 至厶) ,则这个系统可以表 示为一个m 门矩阵,矩阵中的每一项表示用户f 对项目,的评分。协同过滤问题 可以看成是预测用户打分矩阵中的缺失值问题。如果推荐系统正在预测某一用户 对某一项目的评分,则我们称该用户为目标用户。在协同过滤系统中,这个矩阵 一般是很稀疏的,因为每个用户通常只给所有项目中的一小部分项目打了分。 第二步就是预测引擎收集所有评分值,从现有信息资料中归纳出用户兴趣模 型,生成最近邻居集。这里的邻居可以是针对用户来说的也可能是针对项目来说 的。 图2 3 邻居形成过程 f i g u r e2 3n e i g h b o r h o o dg e n e r a t i o n 图2 3 演示了协同过滤中邻居的一种形成过程:计算当前用户和其它用户之 北京工业大学工学硕七学位论文 曼皇! 曼! ! 。一i i i ! ! 曼曼! 皇曼! 曼! 曼 间的相似性,如计算欧式距离。图2 3 中与当前用户为中心的k = 5 个最近用户 被选择为邻居。最近邻查询是整个协同过滤推荐算法的核心部分,其效果和效率 在很大程度上决定了协同过滤推荐算法的效果和效率。最近邻查询阶段实质上就 是基于用户的协同过滤推荐算法的模型建立阶段。 第三步就是要输出预测的结果。输出的预测结果主要有两种形式,一种是预 测,另外一种是推荐。预测就是系统根据上一步提取出来的相关信息,带入定义 好的预测公式,为用户对给定项目提供一个评分值。推荐是提供活动用户一个具 有n 项用户最喜欢的项目列表,根据的就是预测的评分值 2 3 2 协同过滤技术的分类 b r e e s e 等人根据协同过滤的所采用的算法,将其分为两种主要的类别,即基 于内存的( m e m o r y - b a s e d ) 与基于模型的( m o d e l b a s e d ) 两种,如图2 4 所示: 基于内存 推荐算法 基于用户协同 过滤推荐算法 基于项目协同 过滤推荐算法 协同过滤 推荐算法 基于聚类 推荐算法 基于模型 推荐算法 基于贝叶斯网 络推荐算法 基于降维 推荐算法 图2 4 协同过滤推荐算法的分类 f i g u r e2 - 4c l a s s i f i c a t i o no fc o l l a b o r a t i v ef i l t e r i n gs y s t e m 1 基于内存的推荐算法 基于内存( m e m o r y b a s e d ) 的算法,也叫全局的算法,基于邻居的算法。算 法利用整个数据库来产生推荐,系统利用统计技术搜寻一组用户,称为邻居,他 们与目标用户有一致的兴趣。一旦邻居产生,系统可利用不同的算法去合并邻居 的喜好产生预测或为目标用户产生t o p - n 推荐。 s a r w a r 等人【18 】依据协同过滤技术所使用的事物之间的关联性,将其区分为 基于用户的与基于项目的协同过滤技术: ( 1 ) 基于用户的协同过滤:其核心概念是假设人与人之间的行为具有某种 程度的相似性,即通过寻找用户的邻居来产生推荐。g r o u p l e n s 即属于此类型的 系统。 第2 章推荐系统主耍方泫及其相关技术 l i i_ii i i ! 曼! 曼! ( 2 ) 基于项目的协同过滤:其主要假设是项目与项目间具有某种程度的关 联,即通过寻找项目的邻居来产生推荐。 这两种方法将在后续章节详细介绍。 2 基于模型的推荐算法 基于模型( m o d e l - b a s e d ) 的推荐算法要是将使用者历史记录,通过统计方 法或机器学习方法来建构出使用者偏好模型,进而利用此偏好模型来产生推荐。 这种推荐算法构造模型速度较慢,不过可以离线计算,建立的模型相对于原始数 据集而言小得多,因此在推荐时只需计算项目与模型的相似度就可以进行推荐, 能有效缓解推荐算法的实时性问题。目前所广泛采用的技术包括聚类技术、贝叶 斯网络、神经网络、降维方法等。 ( 1 ) 基于聚类的推荐算法 最近邻居算法是基于对各个单个用户进行的预测,聚类算法( c l u s t e r i n g ) 则是基于对一组用户进行的预测。聚类算法通过观察与分析,可以将数据集划分 为多个类或簇( c l u s t e r ) ,使得同一簇中的对象具有较高的相似度,而不同簇中 的对象相似度差别很大。运用到个性化推荐系统中,首先根据各个用户的喜好记 录进行聚类,每类用户具有相近的兴趣习惯。一旦聚类完成,就可以依据所属类 的所有成员的共同喜好向用户进行推荐。 实验表明,使用聚类技术的预测准确率不如最近邻居方法,因为基于类进行 推荐具有较低的个性化程度,尤其是对于处于类的边缘地带的用户,其喜好可能 与类成员的共同喜好有较大的偏差。但是,将用户事先分类可以大大减少所需的 计算量,不失为正确率和效率之间一种较好的折中方法。 另外,聚类也可以用作最近邻居算法的预处理步骤,这样既可缩小下一步的 计算范围,也有利于将计算任务分布处理。 ( 2 ) 基于贝叶斯网络的推荐算法 贝叶斯网络建立的是一个概率模型。在训练得到的网络结构中,每个节点都 有一组对其有影响的父结点,一旦父节点的值已知,就可以预测该节点的值。节 点对应的条件概论表用决策树的形式表示,从中给出当父节点取各种可能值时子 节点取值的条件概率。 运用在推荐系统中,贝叶斯网络建立的模型相当小巧快捷,推荐的精确度不 亚于最近邻居算法。不过,由于模型建立的时间复杂性较高,比较适合于变化较 少的环境。 ( 3 ) 基于降维的推荐算法 基于降维的推荐算法就是将原有的高维用户一项目矩阵经过降维处理,使之 可视化,并且能够体现某些潜在的信息。 尽管协同过滤技术在个性化推荐系统中获得了极大的成功,不过随着现在实 北京工业大学 _ 学硕1 二学位论文 曼! ! ! ! ! ! 蔓! 曼! 曼! ! ! ! 曼曼苎! 曼! ! ! 曼! 曼! ! ! 皇ii ii 二i ! 苎皂! 曼! 曼! ! ! ! ! 曼! ! ! 曼曼曼曼曼曼曼曼曼曼! ! ! ! 曼曼曼詈! ! 曼! ! 曼! 曼 际系统的不断扩大,用户数和项目数呈指数级增长,导致用户评分数据的极端稀 疏性。因此在用户评分数据极端稀疏的情况下,无法搜索到某些用户其最近邻居, 导致一般的协同过滤推荐算法无法对这些用户产生任何推荐。其次,在大规模数 据集上搜索当前用户的最近邻居非常费时,难以保证协作过滤推荐算法的实时性 要求。 基于降维的协作过滤推荐算法较好地解决了数据稀疏性的问题,计算开销也 有相应的降低,有利于解决推荐算法的伸缩能力问题。 2 3 3 协同过滤技术的优缺点 迄今为止在个性化推荐系统中,协同过滤技术是应用最成功的技术。协同过 滤的最大优点是不需要分析对象的特征属性,对推荐对象没有特殊要求,能处理 非结构化的复杂对象。 协同过滤有三个主要优点是基于内容的过滤方法所没有的【1 9 】: 1 ) 在协同过滤中,人们在信息流中决定对一个项的兴趣、质量。因此可以 在计算机上过滤一些用计算机难以分析的项,如电影、c d 、思想、感觉、评论 等等。 2 ) 协同过滤系统可以通过测试某一项目满足用户需要的程度来增强信息 过滤系统的性能人们可以分析某一项目的质量或者其它内在品质,但计算机却难 以做到。例如在音乐推荐系统当中,如果只有基于内容的推荐算法,可能比较容 易可以找出其中的所有的卡通歌曲,但是如果应用上协同过滤推荐算法,则可以 找出其中比较好听的歌曲。 3 ) 协同过滤系统有时可以产生一些令人意想不到的推荐结果,而不仅仅是 用户原来就已经想到的推荐项目。协同过滤是根据用户的相似性来推荐资源,它 与基于内容的过滤技术不同,它比较的是用户兴趣文件,而不是资源与用户描述 文件。由于它是根据相似用户来推荐资源的,所以有可能为用户推荐出新的感兴 趣的内容。 协同过滤技术在理论研究和实际应用上都取得了很大的发展,但是在以下几 个方面存在很大挑战 2 0 】: 1 ) 稀疏性( s p a r s i t y ) 问题:也成为无关联( n o n a s s o c i a t i o n ) 问题。在许 多推荐系统中,每个用户涉及的信息量相当有限,在一些大的系统中,用户最多 不过就评估了成千上万种资源的1 2 ,造成评估矩阵数据相当稀疏,难以找 到相似用户集。例如,如果两个资源本身是非常相似的,但是它并没有被任何一 个用户同时打分,这样系统就不会发觉这两个资源的相似性,导致推荐效果大大 降低。 第2 章攒荐系统主要方法及其相关技术 曼曼曼! ! 曼! ! 皇! ! 曼! ! 曼! 曼! 曼! ! 曼! 曼! ! ! 曼! ! ! 曼曼! i _i i i ! ! 曼! 曼曼曼曼曼曼曼! ! 曼曼! 曼曼! ! ! ! ! 曼曼 2 ) 冷启动( c o l ds t a r t ) 问题:也称为第一评价( f i r s tr a t e r ) 问题,分为新 项目( n e wi t e m ) 问题和新用户( n e wu s e r ) 问题。如果一个新项目没有人去评 价它,则这个项目肯定得不到推荐,推荐系统就失去了作用,这在采用协同推荐 技术的系统上最为突出。同样,如果一个新用户从未对系统中的项目进行评价, 则系统无法获知他的兴趣点,也就无法对他进行推荐。 3 ) 用户偏见( u s e rb i a s ) 问题:举例来说,在表2 2 中,音乐3 和音乐4 由于拥有相同的打分历史,也就拥有相同的机会推荐给j a c k 。但是,如果系统知 道音乐3 和音乐1 、2 都属于摇滚音乐类型,它就有更高的优先级推荐音乐3 给 j a c k 。这说明仅仅通过打分历史进行推荐还是不够的。 表2 - 2 用户偏见问题打分矩阵 t a b l e2 - 2r a t i n gm a t r i xo fu s e rb i a sp r o b l e m 音乐编号 j a c kc l l i v e rp e t e rt o m ,摇滚一j 。j 乡村三 1543 t 0 一yj :,o j - - n - 2443 :? 一1 :j io l q 一 343 。j :,。y 。一i j 一一n i ji 4430 :- 村:jj :一:f i 。t ; 5 0 、j y ,i ,譬,:? :。n7 + 。0 葛 64 一y ;4 i 。“j 。n :一乏 4 ) 扩展性( s c a l a b i l i t y ) 问题:现有大部分协同过滤算法的计算量随着用户 和项目的增加而大大增加,对于上百万之巨的数目,通常的算法将遭遇到严重的 扩展性问题,但由于大多数算法可以离线进行运算,随着计算机计算能力的不断 提高,可扩展性问题相对于前面几个问题来说不是特别严重。 5 ) 精确性( a c c u r a c y ) 问题:即提高对用户的推荐质量的挑战,用户需要 一个可以让他们感到信任的推荐系统来给他们提供项目的推荐,如果一个推荐系 统推荐的项目经常不符合用户的要求,用户是不会信任这个系统的。 2 4 基于用户的协同过滤推荐算法 基于用户( u s e r - b a s e d ) l 拘协同过滤推荐算法【2 l 】是协同过滤方法中最早提出的 一种算法,所以一般情况下如果单独提起协同过滤推荐,指的就是基于用户的协 同过滤。基于用户的协同过滤推荐算法根据其他用户的观点产生对目标用户的推 荐列表,它基于这样一个假设:如果用户对一些项目的评分比较相似,则他们对 其它项目的评分也比较相似。协同过滤推荐系统使用统计技术搜索目标用户的若 干最近邻居,然后根据最近邻居对项目的评分来预测目标用户对项目的评分,产 生对应的推荐列表。 北京工业大学工学硕士学位论文 ! i 一二一一一i i i ;i 曼! 曼! ! 曼曼! 曼曼! 曼! ! 曼! 查找最近邻 为了找到目标用户的最近邻居,必须度量用户之间的相似性,然后选择相似 性最高的若干用户作为目标用户的最近邻居。目标用户的最近邻居查询是否准 确,直接关系到整个推荐系统的推荐质量,准确查询目标用户的最近邻居是整个 协同过滤推荐成功的关键。 下面详细介绍基于用户的协同过滤推荐算法。用户评分数据可以用一个 m 刀阶矩阵r ( m ,z ) 表示,m 行代表m 个用户,2 列代表以个项目,第衍j :第,列 的元素r i ,代表用户f 对项目的评分。用户评分数据矩阵如表2 3 所示。 表2 - 3 用户一项目评分矩阵r t a b l e2 - 3u s e r - i t e mr a t i n gm a t r i xr i t e m l i t e m j i t e m n u 1 r 1 ,1 0 r i : iil iiii iliii u i r i ,i 。- 。 r i j 0 : ii _- -i u 。 r 札1 0 r m m 度量用户f 和用户,之间相似性的方法是,首先得n a n pi 和用户_ 评分的 所有项目,然后通过不同的相似性度量方法计算用户f 和用户之间的相似性, 记为s i m ( i ,歹) 。而衡量相似度的算法有很多,普遍用于过滤算法中的相似性度量 公式有以下三种: ( 1 ) 余弦相似性( c o s i n es i m i l a r i t y ) : 在信息检索领域,两篇文档之间的相似度经常通过将文档看作是一个词频矢 量,然后计算两词频矢量的夹角余弦来表示。同样,也可以将这种方法用于协同 过滤,将用户评分看作是甩维项目空间上的向量,如果用户对项目没有进行评分, 则将用户对该项目的评分设为0 ,项目间的相似性通过向量间的余弦夹角度量, 余弦值越大表明两用户的相似程度越高。设用户i 和用户,在聆维项目空间上的 评分分别表示为向量7 和了,则它们之间的相似性s f m ( f ,j ) 为: 硼,萨c o s ( 7 ,歹) 2 赫 ( 2 1 ) 第2 荦推荐系统主要方法及其相关技术 i 分子为两个用户评分向量的内积,分母为两个用户向量模的乘积,用于归一 化,使得打分项目较多的用户在计算时不会优先于其它用户。 ( 2 ) 相关相似性( c o r r e l a t i o ns i m i l a r i t y ) : 设由用户f 和j 都评过分的项目集合用,表示,则用户f 和用户之间的相似 伯j :s i m ( i ,歹) 通过p e a r s o n 相关系数度量,p e a r s o n 相关系数用于衡量两个变量之间 的线性关系。 嘶萨鱼氅辈坐 嘲肛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论