(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf_第1页
(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf_第2页
(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf_第3页
(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf_第4页
(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机科学与技术专业论文)基于混合模式的个性化推荐系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 j j i j l i ji l l l l l l l l111i j i ipllri j l i j i i j f i11fllfj y 18 7 9 7 7 9 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :望迄导师( 签名 武汉理工大学硕士学位论文 摘要 现在社会,互联网已经成为我们获取信息的主要来源,人们生活的方方面面 都与互联网产生了联系,互联网让人们的生活更加便捷,与此同时也带来了一 系列的问题,大量繁复芜杂的信息充斥着网络,让我们在互联网的世界里迷失 了自己。找不到需要的东西或者花很长时间找到需要的东西。利用传统的搜索 引擎搜索查找需要的东西效率比较低,很难满足用户的需要,诸多的推荐系统 应运而生,它可以针对不同的用户提供个性化的服务,提高用户对网站的信任 度,如音乐推荐系统就是根据用户的兴趣爱好,为其提供最适合他的音乐,以 此来提高用户对网站的信任度。 不难发现,基于单一模式的推荐系统都存在不少的缺陷,例如基于内容的以 及基于协同过滤的推荐技术存在冷启现以及数据稀疏性等问题;基于关联规则 的推荐技术存在抽取难,个性化程度低等方面的问题,这造成了推荐的效率不 高。 鉴于以上的分析研究,本文针对单个模式的缺陷,将基于内容的,基于协同 过滤的以及基于日志文件的推荐技术相融合,提出了基于混合模式的推荐模式, 根据不同的用户数据选择不同的推荐技术,发挥不同推荐模式的优势,尽可能 提高推荐的精确度。 另外针对传统的推荐技术过分依赖于用户的显式信息,造成了数据源不足的 缺陷,本文提出了采用显式和隐式相结合的方法,用数据挖掘来提取用户数据, 建立用户模型,其中隐式数据主要从用户日志中提取,通过两方面的改进提高 系统的准确性。 最后,本文利用改进的推荐模式设计了一个基于混合模式的个性化音乐推荐 系统,该系统提供了不同的推荐模式,既可以提供大众推荐和搜索服务,也可 以针对注册用户提供个性化的推荐服务,从不同层面满足用户的要求。 实验数据表明运用改进的方法计算所得的m a e 值比使用传统的推荐模式计 算所得的m a e 值小,由此可以判定改进的系统很大程度上提高推荐的准确性。 关键字:混合模式;w e b 日志;数据挖掘;个性化推荐系统 武汉理工大学硕士学位论文 a b s t r a c t n o w a d a y s ,t h ei n t e m o ti st h em a i n s o u r c et og o ti n f o r m a t i o nf o rp e o p l e , a n da l l a s p e c t so fp e o p l e sl i v e sh a v eb e e nc o n n e c t e dw i t hi t , w h i c hm a k e sp e o p l e sl i f em o r e c o n v e n i e n t ,b u ta l s ob r i n g sas e r i e so fp r o b l e m sa tt h es a m et i m e w eu s u a l l yl o s t o u r s e l v e si nt h ei n t e r n e tb e c a u s eo fal o to fh e a v ya n dc o m p l i c a t e dm i s c e l l a n e o u s i n f o r m a t i o n w ec a n tf i n dw h a tw en e e do rt a k eal o n gt i m et of i n dw h a tw en e e di n t h ei n t e r a c t i ti sv e r yi n e f f i c i e n tb yu s i n gt h et r a d i t i o n a ls e a r c he n g i n e s ,8 0i ti s d i f f i c u l tt om e e tt h eu s e i s n e e d s ,n a t u r a l l y ,r e c o m m e n d e rs y s t e mw a sb o r n r e c o m m e n ds y s t e mc a np r o v i d ep e r s o n a l i z e ds e r v i c e sf r o mp e r s o nt op e r s o na n d e i l l l a n c et h eu s e r st r u s tt ot h es i t e s m u s i cr e c o m m e n d a t i o ns y s t e mp r o v i d et h em o s t s u i t a b l em u s i ct ot h eu s e l a c c o r d i n g t ou s e r si n t e r e s t sa n dh o b b i e s ,a c c o r d i n g l yt h i s c a ne n h a n c et h eu s e ro ft h es i t e st r u s t i ti sn o td i f f i c u l tt of i n dt h a tt h e r ea r ew e a k n e s s e so nt h er e c o m m e n ds y s t e m w h i c hb a s e do ns i n g l em o d e l ,s u c ha sc o n t e n t - b a s e df i l t e r i n ga n dc o l l a b o r a t i v e f i l t e r i n gt e c h n o l o g ye x i s t i n gs t a r t - c o l da n dt h ed a t as p a r s ep r o b l e m s i na d d i t i o n , r e c o m m e n ds y s t e mw h i c hb a s e do na s s o c i a t i o nr u l e se x i s te x t r a c t i n gp r o b l e m sa n d l o wa u t o m a t i o nd e g r e ep r o b l e m s ,a l lo ft h i sc a u s e dt h er e c o m m e n d a t i o ni n e f f i c i e n t i nv i e wo ft h ea b o v ea n a l y s i sa n ds t u d yt h es i n g l e m o d e l sd e f e c t s ,t h i s t h e s i so f f e ram i x e dm o d e lw h i c hb a s e do nc o n t e n t - b a s e df i l t e r i n ga n dc o l l a b o r a t i v e f i l t e r i n ga n dw e bl o ga n a l y s i st e c h n o l o g y t h i sm i x e dm o d e lc a ns e l e c td i f f e r e n t m o d e lf r o mp e r s o nt op e r s o n i tc a nm a k eu s eo fd i f f e r e n tr e c o m m e n d a t i o nm o d e l s a d v a n t a g ea n da sf a ra sp o s s i b l et oi m p r o v et h ea c c u r a c yo f t h er e c o m m e n d a t i o n t r a d i t i o n a lr e c o m m e n dt e c h n o l o g yu s u a l l yd e p e n do nt h eu s e r ) s e x p l i c i t i n f o r m a t i o n ,w h i c ho f t e nc a u s e dt h ed a t as h o r t a g e s ,a n dt h i st h e s i sp r o p o s e sam e t h o d w h i c hc o m b i n i n ge x p l i c i ta n di m p l i c i ti n f o r m a t i o na n du s i n gd a t am i n i n gt e c h n o l o g y t oe x t r a c t i n gu s e r w sd a t a , a n db u i l du s e r ) si n t e r e s t i n gm o d e l t h ei m p l i c i td a t am a i n l y d e p e n do nt h eu s e r ) sw e bl o g s t h ei m p r o v e m e n to ft w oa s p e c t sc a ne n h a n c et h e s y s t e m sa c c u r a c yr a t i n g f i n a l l y , u s i n gt h ei m p r o v e dr e c o m m e n d a t i o nm o d e lw h i c hb a s e do nh y b r i d m o d e ld e s i g n sap e r s o n a l i z e dm u s i cr e c o m m e n d a t i o ns y s t e m t h es y s t e mp r o v i d e s k e y w o r d s :m i x e dm o d l e ;w e bl o g ;d a t am i n i n g ;p e r s o n a l i z e ! r e c o m m e n d a t i o n s y s t e m i i i 武汉理工大学硕士学位论文 目录 第1 章引言l 1 1 研究背景1 1 1 1 电子商务个性化推荐系统的概念2 1 1 2 个性化推荐系统的目标3 1 1 3 个性化推荐系统的工作原理4 1 1 4 国外个性化的音乐推荐系统研究现状4 1 1 5 国内个性化的音乐推荐系统研究现状5 1 2 研究内容6 1 3 论文的结构安排一7 第2 章个性化推荐系统相关理论8 2 1 推荐系统的分类8 2 2 主要的推荐技术9 2 2 1 基于内容的推荐方法9 2 2 2 基于协同过滤的推荐方法1o 2 2 3 混合模式的推荐技术1 1 2 2 4 综合应用数据挖掘技术的推荐模式1 2 2 3 在线推荐的模块组成1 3 2 4 主要的推荐算法15 2 4 1 关联规则推荐算法15 2 4 2 基于内容的推荐算法1 6 2 4 3 协同过滤技术主要的算法分析1 6 2 5 现有推荐算法存在的问题及解决方法2 0 2 5 1 现有为问题2 0 2 5 2 现有的解决方式2 l 2 6 推荐系统的评价标准2 3 第3 章基于混合模式推荐系统的相关知识2 5 3 1 混合推荐模式的必要性:2 5 3 2 基于混合模式的个性化电子商务推荐系统基本框架2 7 i v 武汉理工大学硕士学位论文 3 2 1 推荐系统的基本框架2 7 3 2 2 推荐系统中的数据管理2 7 3 3 用户隐式信息的获取2 9 第4 章基于混合模式的个性化推荐模型的研究3 1 4 1 基于混合模式的电子商务推荐系统框架设计3l 4 1 1 基于w e b 日志的协同过滤技术3 2 4 1 2 基于内容的个性化推荐方式3 7 4 2 用户信息的提取。3 7 4 2 1 用户日志文件的获取3 8 4 3 建立用户评分矩阵3 8 4 4 用户兴趣模型的建立4 2 4 4 1 离线的用户聚类的计算4 2 4 4 2 在线部分4 3 第5 章个性化推荐模式的应用4 5 5 1 系统的需求4 5 5 2 系统的整体框架设计4 6 5 2 1 前台设计4 6 5 2 2 后台设计4 7 5 2 3 音乐推荐系统工作流程4 7 5 2 4 所使用的环境4 8 5 3 系统的功能模块4 8 5 3 1 前台功能模块4 9 5 3 2 后台的主要模块功能5 l 5 4 数据库的设计5 1 5 5 数据源获取5 4 5 6 实验结果分析5 5 第6 章总结展望。5 7 6 1 总结5 7 6 2 展望5 7 弱c 谢5 9 参考文献:6 0 攻读硕士学位期间发表的论文及参研项目6 3 v 武汉理工大学硕士学位论文 第1 章引言 本章主要介绍个性化推荐技术的发展历程,现阶段的发展状况,以及现在 主要的音乐推荐系统的特点,并且阐明了论文的研究对象和所做的主要工作, 以及论文的整体结构。 1 1 研究背景 随着互联网的普及,电子商务飞速发展,据统计,在2 0 0 6 年全国就有4 万家 商业网站,其中网上商店就超过7 0 0 家。电子商务项目大量推出,几乎每天都有 新的电子商务咨询网站、网上商店、网上商城、网上专卖店、网上拍卖等诞生。 互联网已经成为贸易的主要交易平台,仅在广交会中电子商务网上意向成交额 高达3 4 亿美元。与此同时电子商务也面临着一系列的问题,面对成千上万的商 品和服务,用户如何在最短时间内找到适合自己的产品是电子商务面临的主要 问题,而传统的平台只是提供给客户大部分人喜欢的产品,并没有考虑到不同 用户不同的需求爱好,因此很可能用户在网上一无所获。 电子商务的发展方向就是针对不同的用户提供个性化的服务,准确的预测用 户的喜欢和需要的产品,以此来提高网站的成交量和利润率,电子商务推荐系 统的作用主要体现在以下几个方面: ( 1 ) 提高用户对网站的信任度和忠诚度,电子商务网站要持续发展就要有稳 定的客户源,推荐用户需要的商品,这些需要知道每个用户的兴趣爱好。个性 化推荐系统通过抽取用户的显式信息和隐式信息,形成用户兴趣模型,预测用 户的喜好,为用户提供满足个人喜好的产品。用户在最短的时间内找到了需要 的产品,将会提高对网站的信任度,访问的次数时间都有所增加,至到成为网 站的忠实客户。与此同时用户提供自己的信息,使推荐系统的精确性进一步提 高,形成良性循环。 ( 2 ) 挖掘潜在的客户资源。大多数的用户只是在网上随意浏览,没有确定的 目标,推荐系统可以模拟实体店中的导购员,通过客户的信息,来推测客户的 喜好,以此为依据向客户推荐产品,激发用户的购买欲望,实现从浏览者到消 费者的转换。 武汉理工大学硕士学位论文 ( 3 ) 增强了交叉销售能力。推荐系统根据用户的喜好,向用户推荐他可能感 兴趣的新产品或者类似产品,如果这恰好满足了用户的需要,将大大的提高网 站的交易量。 根据权威机构f o r r c s t e r 的统计,那些在电子商务网站被推荐过商品的用 户,有三分之一的人会根据这些推荐买件东西。这是任何广告都不可能做到的 成绩。纽约的c y b c rd i a l o g u e i 在2 0 0 1 年曾做过一项调查,全球3 5 0 0 名曾使用过个 性化推荐服务的网站的客户,有5 0 的受访者表示销售网站所提供的个性化推荐 服务比提供打折服务有更大的吸引力,有6 3 的受访者愿意主动的注册成为会 员,以便享受个性化的服务。国际著名网站a m a z o n 有3 0 的销售额是由推荐系 统提供的服务所产生的,个性化推荐系统的优势显而易见。 电子商务推荐系统通过学习和了解用户的兴趣爱好和需要,为用户推荐可能 感兴趣的商品和服务,实现个性化的信息服务,这在一定程度上解决了信息过 载的问题- 提高了客户的忠诚度,为企业的数字化发展及经济效益的提高提供 了新的方向。 现在网络上的信息和音频、视频资源很丰富,迫切需要一种技术支持用户快 速的找到需要的曲目,音乐推荐系统就是为了方便用户使用户满意而提供的一 种个性化的服务。用户通过注册以及给相关的曲目打分,系统就可以自动搜索 比较符合用户兴趣的曲目。 现在大部分的音乐网站都采用的是分类以及排行的方式向用户推荐曲目,曲 目都是比较大众化的,不符合不同用户的需要,所以需要一种可以针对不同的 用户提供个性化的服务,推荐个性化的音乐,提高用户对网站的满意度。现在 这种网站还处于起步阶段,技术还不够完善,因此个性化的推荐系统有很大的 发展空间。 1 1 1 电子商务个性化推荐系统的概念 推荐系统刚开始时被称为协作式过滤( c o l a b o r a t i v ef i l t e r i n g , c f ) ,这个概念 最早是由d a v i dg o l d b c r g 于1 9 9 2 年构造t a p e r s t r y ( 1 邮件系统) 时提出来的。所以 t a p c r s t r y 是历史上第一个基于写作过滤的推荐系统。1 9 9 7 年c o m m u n i c a t i o no f t h e a c m 杂志第一次提出了“推荐系统 ,从那时起人们开始熟悉推荐系统这个名 词,并且把协作过滤f l 口c f 作为推荐系统的一种技术。 在二十世纪九十年代,人们开始研究个性化的推荐系统,推荐系统的主要目 2 武汉理工大学硕士学位论文 的是为用户提供意见,做出推荐。在w e b 2 0 的浪潮下,个性化的推荐系统已经 成为电子商务研究的一个主要方向。r e s n i c k 和v a r i a n 给出了电子商务推荐系统 ( r e c o m m e n d a t i o ns y s t e m sf o re c o i b i i i e r c o ) 的非形式化定义e l 】: “在我们每天的日常生活中,很多时候我们对于不熟悉或者是新的产品,很 难在短时间内判断是否符合我们的需要,这个时候会向朋友或者身边的人寻求 意见,根据他们的建议来做出自己的决定,而推荐系统就是在电子商务的虚拟 环境中模仿朋友的角色对我们提出参考的意见。一 推荐系统一般有三个组成要素:推荐候选对象、用户、推荐技术。首先选 择候选对象,提取关键数据,然后选择适合的推荐技术,依据数据产生推荐结 果,并把推荐结果展示给用户。 现在的推荐系统一般分为个性化的和非个性化和基于物品的三种推荐方式, 其中非个性化的主要是根据下载、购买、点击率等情况,计算出位于前几位的 商品或者服务推荐给用户,或者采取分类的方法将结果显示给用户:个性化的 推荐技术主要是利用用户的显式和隐式信息推断用户的兴趣,推荐给不同用户 适合的产品和服务;基于物品的推荐主要是依据物品本身的特征进行推荐。 刚开始时推荐系统主要应用在一些应用系统,如电子邮件过滤、新闻的过滤 等。n 1 9 9 7 年的时候,推荐系统应用到电子商务中,根据相关的信息,用户利 用推荐系统可以很快的找到需要的产品,为商家带来了很大的利益,于是很多 商家开始了对个性化推荐技术的研究。 现在不仅仅对于电子商务,许多应用系统也加入了个性化的推荐系统,在本 文中将对几个典型的国内外的音乐推荐系统做出简单介绍。 1 1 2 个性化推荐系统的目标 个性化推荐系统的目标有以下几个: ( 1 ) 提高用户的停留网页的时间,增加用户点击的次数,对于用户不感兴趣 的商品,一般情况下用户会直接关闭网页,如果页面中显示的内容正好是用户 感兴趣的内容,用户很容易被吸引,并且多次访问。 ( 2 ) 提高单个商品被访问的机会,在日常生活中,我们在购物时习惯购买一 些促销的产品,即使没有计划购买的产品,个性化的推销类似于对单个商品做 出推荐,提高商品的访问几率。 ( 3 ) 提供给客户满意的产品,因为个性化的推荐是建立在对用户兴趣爱好分 3 武汉理工大学硕士学位论文 析的基础之上,所以推荐的产品一般比较符合用户的兴趣爱好和购买习惯,所 以提供给客户的参考物品比较接近用户的想法。 ( 4 ) 促进商品的销售,用户在页面的浏览时间增加,推荐的商品又比较符合 用户的兴趣爱好,那么商务网站的销售额也会跟着增长的。 1 1 3 个性化推荐系统的工作原理 首先是基础数据的收集包含个人信息、历史行为、评分、以及社会化关系, 其次是根据具体收集到的信息分析用户偏好,建立用户模型,最后是选择合适 的推荐技术进行推荐并把结果展示给用户。 1 1 4 国外个性化的音乐推荐系统研究现状 现在社会互联网已经成为多媒体资源的主要的存储和发布中心。虽然用户在 互联网上有丰富的资源,但是却很难在如此丰富的资源中找到适合自己的影音 作品,所以对于这些资源需要强有力的管理、检索以及呈现工具的支持,当然 数字音乐内容也不能例外,将个性化的音乐推荐给不同口味的用户是当前的研 究重点,现在国内外的主要网站都推出了个性化的服务。 现在用户对音乐的收听不仅仅只是听,而是一个享受的过程,所以推荐适合 用户的音乐很重要,或许你喜欢听刘若英,那么你喜不喜欢昕梁静茹的歌呢, 喜欢周杰伦的是不是都喜欢王力宏呢,这就是推荐系统的逻辑,看看和你有相 似背景年龄身份的人在听什么。 最早的音乐推荐系统是1 9 9 5 年由r i n g o 开发的一个基于协同过滤算法的音乐 推荐系统,它是根据用户的评分及用户间的相似度给出未评价音乐项目的预测 值。 之后很长一段时间,由于音乐独特的属性以及存储方式,多是给出曲目的基 本信息如歌手名称、曲目风格等,采用基于内容的推荐技术。单一的推荐模式 使得推荐的结果缺乏准确性。 2 0 0 8 年,y o s h i i 等人提出了利用“全局g m m 模型”为音乐文件建模的思想, 这种方法首先要做的就是提取音色,并且模仿自然语言处理领域中的 “b a g - o f - w o r d s ,在建立模型之后所有的音乐文件被量化,形成了不同的向量, 所有的音乐文件向量组成共现矩阵,并且利用p o p e s c u l 的“t h r e e w a ya s p e c t m o d e l ”【2 6 】整合用户。利用这种思想形成的推荐系统就是“用递增训练的概率生 4 武汉理工大学硕士学位论文 成模型构建的组合音乐推荐系统 3 9 o 国外主要的音乐推荐网站p a n d o r a 就是一个专门从事歌曲推荐的公司。 p a n d o r a 对每一首歌都分析出了四百个属性包括音乐的属性值、速度、节奏等, 并且聘用专门的音乐专家,来分析这些属性,提取音乐内容本身的信息和结合 音乐元数据的分析,对每一个属性给出具体的数值,这样每一首歌都有不同的 属性值,相当于给歌曲一个量化。现在p 锄d o m 已经开始了一个名为“音乐基因 组计划,目的是建立包含所有歌曲的数据库。p a n d o r a 的推荐逻辑是分析你喜 欢的歌曲的“基因 ,并且寻找与之有相同或者相似基因的歌曲,并且推荐就 给你。p a n d o r a 是一种典型的基于内容过滤的推荐系统,它的特点是不管别人喜 不喜欢,只根据你的喜好、收听记录以及歌曲本身的性质来推荐曲目,也许这 首歌不流行,但是却恰好符合你的口味。据相关的统计显示,凡是使用过p a n d o r a 的人,买了很多的人占到了4 5 ,只有1 的人因为p a n d o r a 减少了音乐购买。 但是这种基于内容的推荐模式也有自身的缺点首先就是要耗费巨大的人力来完 成对曲目的分析,而且分析的结果过于专业,并且主观因素的影响很大,所以 只有少部分的公司采用这种方法。 另外一个主流的推荐网站就是l a s t f i n ,l a s t f i n 是在p a n d o r a 的基础上,通过 一些创新得到的。l a s t f i n 的侧重点在于对于歌手和用户的分析,它允许用户写 评论、歌曲标注等,记录用户的资料和收听历史,进一步挖掘用户的兴趣爱好, 找出人于音乐的关系;另外,l a s t f i n 通过对用户的分析,找去具有相似爱好的 用户组,向用户提供同组人所收听到的歌曲。简单的说l a s t f m 就是分析于用户 有相似爱好的其他听众在听什么,然后推荐给用户收听。l a s t f i n 是个典型的基 于协同过滤的电子商务推荐算法,而协作过滤的缺陷是需要面对海量数据的处 理,以及无效数据的过滤,另外一个缺陷就是很难将新的作品推出去。 1 1 5 国内个性化的音乐推荐系统研究现状 国内对于个性化的研究还处于起步阶段,在个性化推荐方面也有几个好的网 站: ( 1 ) 音乐八宝盒( w w w 8 b o x c n ) 音乐八宝盒是最早借鉴p 观d o r 圾l 嬲t f i n 的 中文音乐社区。在收听过程中八宝盒将记录你在线的整个过程包括你的分享、 试听、打分、以及对音乐的评价等,由此来掌握你的口味,并且选择适合你的 音乐作品,除此之外还可以通过分享歌曲链接的方式,将曲目推荐给其他用户。 5 武汉理工大学硕士学位论文 它所采用的原理是了解你以前的收听爱好以及与你有相似兴趣的用户群在听什 么,然后做出一定的推荐,音乐八宝盒所采用是混合模式的推荐技术,主要是 应用基于内容的和基于协同过滤的。 ( 2 ) 另外一个比较有影响的虾米音乐,首先它要求注册用户的基本信息,这 些信息包括邮箱、昵称、出生年月等,另外需要用户选择至少五位的喜欢的歌 手。当用户注册成功之后,用户会拥有个人的音乐库,包含喜欢的歌手,收藏 的专辑、喜欢的艺人,另外提供个人喜欢曲目的排行榜。通过研究发现,虾米 网所使用的推荐算法和音乐八宝盒基本一致。 ( 3 ) 目前国内比较有影响力的属于是豆瓣网,豆瓣网是一个典型的基于协同 过滤技术的推荐系统,主要是通过收集用户的评价分析用户的收藏来预测用户 的兴趣爱好,实时的推荐其他用户正在收听的曲目。 从对国内外音乐系统的对比发现,我国的电子商务推荐系统与国外还有一定 的差距,主要表现在以下几个方面: ( 1 ) 多数为大众化的推荐,缺少个性化的推荐:现在国内的很多网站只是针 对所有的用户,提供分类推荐的方式,造成推荐结果与很多用户的兴趣不一致。 ( 2 ) 自动化程度比较低:多数的网站需要客户多次的访问,并输入相关的信 息,才可以给用户提供个性化的服务,增加了用户的负担。 ( 3 ) 持久性比较差:国内的推荐技术多是依赖用户当前的会话,很少利用用 户以前的历史记录,造成了推荐的持久性比较差。 ( 4 ) 推荐的方式过于单一:国内的网站多是基于单一模式的推荐技术,缺少 多种推荐策略的混合使用。 1 2 研究内容 由于一般的音乐推荐系统多采用的是单一模式的推荐技术,使推荐的结果不 够准确,另外推荐系统中多是依赖于曲目本身的信息和用户的显式信息和用户 的评分,多数用户只是简单的收听,并没有给出评分,造成可依赖的数据源过 少,使推荐的结果不准确。针对这两个问题本文做出了一些研究,主要工作是: ( 1 ) 研究推荐系统的起源及发展,分析各种推荐技术的优缺点,研究出来一 种基于混合模式的推荐系统,提高推荐的准确性 ( 2 ) 针对推荐技术数据源较少的问题,研究综合显式信息和隐式信息来提取 用户的兴趣模型,找到目标用户的邻居用户,对目标用户做出推荐。 6 武汉理工大学硕士学位论文 ( 3 ) 利用以上的研究成果,开发出一个个性化的音乐推荐系统。实验室模拟 实验,得出数据,把现有结果和使用单一模式的推荐结果作比较, 1 3 论文的结构安排 本文的章节安排如下: 第一章:介绍了音乐推荐系统的概念、背景、发展,国内外主要的音乐推荐 系统以及本文研究的内容和文章的章节安排。 第二章:现有的推荐技术的整体框架、分类、主要使用到的算法、各种推荐 模式存在的问题、现有的主流的推荐模式。 第三章:总结各种推荐模式的优缺点,指出应用混合模式推荐技术的必要性 及混合模式推荐系统的框架设计。 第四章:对现有的推荐模式做出改变,提出新的推荐模式,针对数据稀疏性 的问题,提出解决的方法。设计出混合模式推荐系统的大概框架以及使用到的 主要算法。 第五章:应用改进的算法设计一个音乐推荐系统,通过实验,获得相关的数 据,与以往的推荐结果作比较。 第六章:对全文做出总结,总结论文的不足之处以及改进方向。 7 武汉理工大学硕士学位论文 第2 章个性化推荐系统相关理论 本章将研究个性化推荐系统的组成、分类、框架结构,研究现有的主流推 荐算法,分析存在的问题及现有的解决方法,对现有的推荐模式做出总结,并 提出未来的发展方向及主要的技术难题。 2 1 推荐系统的分类 首先我们要区别信息检索和信息过滤的区别,信息检索是指信息依照一定 的方式组织起来,并且依据用户的需要查找相关的信息的过程和技术,如我们 经常使用的搜索引擎百度、搜搜等;信息过滤指的是计算机依照用户提供的过 滤需求,从动态变化的信息流中,自动检测出满足用户个性化需求的信息。相 比较信息过滤比信息检索更加高效,而推荐系统就属于是信息的过滤。 推荐系统使用户在电子商务网站上得到个性化的服务,满足每个用户的特 定需要。这里的所谓个性化的服务,主要指的是在用户访问网站时,网站可以 根据用户的需要调整内容满足用户兴趣变化的需要,使用户感觉这个网站就是 为自己服务的。根据各个网站的个性化程度不同,推荐系统可以分为三大类n - ( 1 ) 大众推荐系统即非个性化的推荐系统:主要特点是网站对每个用户的推 荐都是一样的。推荐的结果由网站工作人员设定特定的算法来实现。例如现在 比较普遍的下载排行、分类显示等。音乐网站上主要的就是依据歌手名字、曲 风、以及排行榜形成推荐。 ( 2 ) 半个性化的推荐系统:主要是依据用户当前的行为产生相应内容的推 荐。例如音乐网站上,会根据用户的收听记录,向用户推荐熟悉的歌手的新作 品,使得针对不同的用户产生不同的推荐结果,这种方式相比较大众推荐有更 高的效率。 ( 3 ) 完全个性化的推荐系统:系统会自动保存用的各种信息,包括隐式性信 息浏览历史、浏览时间等,也包含用户的显式信息如个人注册信息、历史评分 等。系统综合收集到的信息,进行信息过滤,应用推荐算法,将推荐结果展示 给用户。这种推荐系统针对的是个体用户,因此个性化程度很高。 8 武汉理工大学硕士学位论文 2 2 主要的推荐技术 推荐方法是推荐系统的核心,是其重要的组成部分,不同类型的推荐系统 应用不同的推荐方法实现个性化的推荐服务【1 1 。 2 2 1 基于内容的推荐方法 基于内容的推荐方式,主要的功能也是实现对用户信息的过滤,是一种基 本的信息过滤的方法,基于内容的推荐首先要建立的是用户的兴趣模型和资源 模型。用户兴趣模型的建立主要是通过使用自然语言处理、人工智能、概率统 计和机器学习等技术,建立一个用空间向量模型来表示的用户兴趣模型。资源 模型的建立,首先是实现对项目特征属性的整理,形成一个项目的特征向量代 表资源模型。 基于内容的推荐产生的过程实际上就是找到与目标用户有共同兴趣爱好邻 居的过程,过程的产生主要是通过用户兴趣模型与资源模型之间、资源模型与 资源模型的比较,计算得到相似度,以此产生推荐。基于内容的推荐最大的优 点在于所产生的推荐结果是建立在项目的属性特征之上,所以不依赖于用户对 项目的评分, 在基于内容的推荐系统中用相关的特征属性来定义项目或者对象,以用户 评价对象的特征为依据,学习用户的兴趣,考察用户资料与待预测项目的相匹 配程度。经常使用决策树、神经网络和基于向量的表示方法得出用户的资料模 式。基于内容的过滤技术要要应用在过滤一些文本性质的网站如广告、垃圾邮 件等。 基于内容的过滤主要分为基于新产品的和基于新用户的过滤两类: ( 1 ) 新产品的内容过滤:主要是新产品上市以后,系统将自动将新产品与原 有的产品数据库的信息进行匹配,并且抽取出新产品的特征,然后将产品特征 与用户数据库中的用户偏好类别进行相似度的匹配,进而产生用户推荐列表, 并且根据用户的反馈信息及时的做出调整。 ( 2 ) 新用户的内容过滤:主要是在新用户成功之后,系统将自动的提取相关 的用户个性化特征。主要有三种提取方法,首先是通过向用户提出问题;其次 是通过用户的注册信息获得;第三是通过用户的行为进行提取。在获得用户的 相关信息之后系统会把用户信息和系统用户特征数据进行匹配,并给用户分组, 根据用户所在的组进行分类,然后再修正学习。 9 武汉理工大学硕士学位论文 基于内容的推荐模式有以下的优点: ( 1 ) 预先做好属性的分析,不需要其他用户的数据,所以没有冷启动和稀疏 性问题。 ( 2 ) 系统做出推荐时,会列出项目的内容特征,这样可以对项目做出解释, 增加客户的信任度。 ( 3 ) 可以为用户提供个性化的服务,提供个性化的推荐。 ( 4 ) 可以对最新的项目做出推荐,提高新项目推广的速度。 ( 5 ) 相关的技术已经很成熟,例如关于分类学习方面的技术已经很成熟,增 加了系统的稳定性。 基于内容过滤的推荐模式的缺点: ( 1 ) 提取能力很有限:在一般情况下只能对数据进行比较简单的特征提取, 在一些特定的领域,例如对音频、视频的多媒体项目的特征提取比较困难。 ( 2 ) 推荐的资源范围比较窄:系统尽可能的推荐符合用户兴趣爱好的产品, 依据仅仅是用户以前浏览过的信息资料,推荐给用户的产品也是于用户过去使 用的类似的产品,无法推荐给客户不同风格的而对客户讲有潜在购买意愿的产 品即不能为用户发现新的感兴趣的资源。 ( 3 ) 推荐的精确性:无法处理品质风格等,例如两个名称相同的产品,但是 质量不一样,基于内容的推荐模式无法有效的进行分辨。 2 2 2 基于协同过滤的推荐方法 协同过滤技术是信息过滤技术中最早应用和最为成功的技术之一,例如: w e b w a t e h 一1 3 1 ,l e t sb r o w s e 1 5 g r o u p l e n s 1 6 1 ,f i r e f l y t l 8 】和s i t e s e e t l l 9 1 , l i k e m i n d s ( w w w m a e r o m e d i a c o r n ) 。最核心的技术是最近邻技术,主要是利用用 户的历史喜好信息来计算用户之间的相似程度,利用目标用户的最近邻居用户 对商品的评价的加权值来推测用户对特定项目的喜好程度,以此对目标用户进 行推荐。协同过滤技术现在已成为推荐技术的主要研究方向。传统的基于内容 的信息过滤方式是基于物品本身的特性,而基于协同过滤的信息过滤方式主要 依赖于用户的信息,分析用户的兴趣,找到有相似兴趣的用户组,根据相似用 户组对商品的评价做出推荐。类似于我们生活中购买商品要听取好朋友的意见 和推荐,协同过滤是从用户的角度出发来做出相应的推荐,自动化程度比较高。 系统从用户的购买模式及浏览记录等不同方式获取,不需要用户自己搜索感兴 1 0 武汉理工大学硕士学位论文 趣的产品,预测的准确性进一步提高。 基于协同过滤的推荐技术,按照所使用的事物的关联性,可以分为以下两类: ( 1 ) 基于用户的协同过滤技术:主要的思想是假定人与人之间的行为具有某 种程度的相似性,即假定相同购买行为的人可能购买相似的产品。 ( 2 ) 基于项目的协同过滤技术:核心思想是如果项目间具有某种程度的相似 性,即分析用户购买产品的关联性,例如用户购买c d 机时通常会购买光盘。 与传统的信息过滤技术相比,有以下优点: ( 1 ) 协同过滤技术最大的优点在于对推荐的对象没有特别的要求,可以处理 非结构化的复杂对象,例如对音频视频对象的处理。 ( 2 ) 具有推荐新产品的能力:可以计算相似用户的爱好兴趣,对目标用户可 能感兴趣的产品做出推荐。 ( 3 ) 能够对一些复杂的、难以表达的概念,例如信息质量、个人品味等进行 过滤。 ( 4 ) 可以有效的利用其他用户的反馈信息,在反馈量较少的情况下,加快个 性化学习的速度。 虽然协同过滤技术是推荐系统的主流,但是协同过滤技术也有很多的问题, 具体的缺点如下: ( 1 ) 稀疏性问题:协同过滤技术依赖于用户的评价,但是用户对相关商品的 评价很少,用户对某些商品的通常还不到1 ,使得基于用户评价得出的用户的 相似性准确率下降。目前主要的解决途径是先使用规约技术对原始数据进行压 缩,然后再使用协同过滤的算法。 ( 2 ) 可扩展性问题:主要是随着用户和商品数量的增多,系统的整体性能会 下降。 ( 3 ) 过分依赖用户评价:如果一个商品没有一个用户对它做出评价,那么这 个商品就不可能得到相同的推荐。 ( 4 ) 同义性:主要表现是如果项目的标题不一致,但本质一样,系统就无法 准确的辨别其中隐含的意义,做出错误的判断。 2 2 3 混合模式的推荐技术 根据以上的分析发现基于内容的和基于协同过滤的推荐算法,有各自的优缺 点,所以现在的研究方向是基于混合模式的推荐系统。混合模式的组合思想是 武汉理工大学硕士学位论文 组合之后尽可能的要弥补和避免各种推荐技术的弱点。从理论上来讲,各个模 式都可以组合,但是现实中,并不是所有的模式组合都会提高推荐的准确性。 现在最主要的组合方式是内容推荐技术和协同过滤技术相结合。在组合方式上 相关技术人员给出了其中思路【9 】:首先是综合利用多种推荐技术的结果产生推荐 的加权混合模式;其次是一个系统采用多种模式,并给出不同模式的推荐结果, 让用户自己选择的混合模式;第三比较常用的是先使用一种推荐技术对数据进 行处理,在使用另外一种推荐技术进行预测的特征组合技术;另外还有很多其 他的方式例如特征扩充的混合模式、元级别的混合模式等等。 混合推荐模式的优点是显而易见的,多个模式的组合,克服了单一模式的缺 点和不足,例如基于内容的推荐技术和基于协同过滤的推荐技术相结合,克服 了基于内容的对非结构化对象无能为力,也克服了协同过滤技术中的冷启动问 题。 2 2 4 综合应用数据挖掘技术的推荐模式 数据挖掘主要是从大量的数据中抽取出潜在的不为人知的信息,根据得到的 信息预测发展趋势,数据挖掘技术可以提高市场决策能力。数据挖掘综合了多 门学科的知识包含模式识别、统计学、人工智能等。现在数据挖掘的很多办法 也用到推荐系统中。 随着网络技术的发展以及电子商务的应用,数据库中大量存储用户的信息 例如用户的注册数据、评分数据等等,另外服务器中也保存着用户访问网站的 日志

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论