(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf_第1页
(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf_第2页
(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf_第3页
(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf_第4页
(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(教育技术学专业论文)基于协同过滤推荐技术的学习资源个性化推荐系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业大学硕士学位论文 基于协同过滤推荐技术的学习资源个性化推荐系统研究 摘要 e 1 e a r n i n g 已成为企业开展员工培训的有效方式之一。目前,许多 大型企业在企业内部网或互联网搭建了e 1 e a r n i n g 平台。随着e l e a r n i n g 应用实践的深入,e 1 e a r n i n g 平台中学习资源数量日渐增多,导致员工 需要花费大量的时间和精力在平台中检索和查阅符合自己需要的学习 资源,甚至找不到符合自己兴趣和工作岗位需求的学习资源。通过分 析多个企业e - l e a r n i n g 门户系统,我们发现,当前e - l e a r n i n g 系统推送 学习资源的方式有:t o p n 推荐方式、关键字查询方式和最新资源推 荐。以上各种资源推送方式在一定程度上帮助学习者检索和发现符合 学习需要的资源,但是不能个性化地向学习者推送学习资源。因此, 如何解决e l e a r n i n g 系统中学习资源的个性化地主动式推荐就成为当前 教育技术学研究人员面临的研究主题之一。本文首先对目前已在电子 商务领域成功应用的协同过滤推荐技术及算法作了分析和研究,并总 结、概括了该算法存在的不足之处,针对这些问题介绍了几种典型的 优化算法。 然后,为了解决协同过滤算法自身存在的数据稀疏和冷启动问题, 提出了利用内容过滤推荐算法和项目评分预测方法对其进行优化的思 浙江工业大学硕士学位论文 想。同时,构建了一个基于用户学习行为的隐式评分模型,将用户对 资源的收藏、推荐、分享等能够体现用户对资源喜好的行为因素转化 为可定量的资源评分,以增加用户对资源的评分率。将以上的算法思 想加以融合,得到一个优化的组全算法。 最后,基于以上提出的优化组合后的协同过滤推荐算法,构建一 个个性化学习资源推荐模型,并通过浙江省中小企业信息化平台中的 知识库模块加以呈现。 本研究虽然在一定程度上缓解了协同过滤算法存在的数据稀疏和 冷启动问题,但仍未从根本上予以解决。通过将协同过滤推荐算法引 入到e 1 e a r n i n g 中,使该算法进入到一个新的应用领域,以启发更多 e 1 e a r n i n g 研究人员从不同的层面和角度探索协同过滤技术在e l e a r n i n g 中的应用,提高学习资源个性化推荐的精度和效率。 关键字:e 1 e a r n i n g ,学习资源,协同过滤技术,隐式评分模型, 个性化推荐系统 浙江工业大学硕士学位论文 t h er e s e a r c ho fp e r s o n a l i z e d r e c o m 匝n d a t i o no fl e a r n i n gr e s o u r c e s b a s e do nc o l l a b o r a t i v ef i i j e r i n g r e c o m m e n d a t i o nt e c h n o l o g y a b s t r a c t e l e a r n i n gh a sb e c o m ea l le f f e c t i v ew a y t oc a r r yo u ts t a f ft r a i n i n g c u r r e n t l y , m a n y l a r g ee n t e r p r i s e sb u i l de l e a r n i n gp l a t f o r mi nt h e i rc o r p o r a t ei n t r a n e to ro nt h ei n t e r a c t w i t l lt h ea p p l i c a t i o no fe - l e a r n i n gp r a c t i c ei n - d e p t h , t h en u m b e ro fl e a r n i n gr e s o u r c e si n e - l e a r n i n gp l a t f o r mi sg r o w i n gr a p i d l y ,r e s u l t i n gi nt h a tt h el e a r n e r sn e e ds p e n dal o to f t i m ea n de f f o r tt or e t r i e v et h ep l a t f o r ma n dg e tl e a r n i n gr e s o u r c e st om e e tt h e i ro w n n e e d s ,o re v e nc a n n o tf i n dl e a r n i n gr e s o u r c e st h e yw a n t b ya n a l y z i n gn u m b e r so f e n t e r p r i s e s e - l e a r n i n gw e b s i t e s ,w ef o u n dt h e r ea r es e v e r a lc o m m o nw a y so fl e a r n i n g r e s o u r c e sp u s h i n gi ne - l e a r n i n g :s u c ha st o p - n ,q u e r yw i t hk e y w o r d s a l lo ft h e a b o v ew a y sc a n h e l pl e a r n e r sf i n dl e a r n i n gr e s o u r c e st os o m ee x t e n t , t om e e tt h e i rn e e d s , b u tc a n n o tp u s hp e r s o n a l i z e dl e a r n i n gr e s o u r c e st ol e a r n e r s t h e r e f o r e ,h o wt op u s h l e a r n i n gr e s o u r c e sp r o a c t i v ea n dm e e tt h en e e d so fe a c hl e a r n e rb e c o m e so n eo ft h e t h e m e so fe d u c m i o n a lt e c h n o l o g yr e s e a r c h e r ss t u d y f i r s t , t h i sp a p e ra n a l y z e sa n dr e s e a r c h e st h ec o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g ya n d a l g o r i t h m sw h i c hh a sb e e ns u c c e s s f u l l ya p p l i e di ne - c o m m e r c e ,t h e ns u m m a r i z e st h e s h o r t c o m i n g so ft h ea l g o r i t h m ,a n di n t r o d u c e ss e v e r a lt y p i c a lo p t i m i z a t i o na l g o r i t h m s t oa d d r e s st h e s ei s s u e s s e c o n d l y , t h ep a p e rp r o p o s e sas o l u t i o nu s i n gt h ec o n t e n tf i l t e r i n gt e c h n o l o g ya n d r a t i n gp r e d i c t i o na l g o r i t h mt os o l v et h ed a t as p a r s ea n dc o l d - s t a r tp r o b l e mo f c o l l a b o r a t i v e 浙江工业大学硕士学位论文 f i l t e r i n ga l g o r i t h m s a tt h es a m et i m e ,b u i l d a ni m p l i c i tl e a r n i n gs c o r i n gm o d e lb a s e do n u s e r s b e h a v i o r w eo b t a i na l lo p t i m i z e da l g o r i t h mt h r o u g hi n t e g r a t i n ga l lo fa l g o r i t h m s a b o v e f i n a l l y , b u i l dap e r s o n a l i z e dr e c o m m e n d a t i o nm o d e lo fl e a r n i n gr e s o u r c e sb a s e d o nt h eo p t i m i z e da l g o r i t h ma b o v e t h em o d e li sp r e s e n t e dt h r o u g ht h ek n o w l e d g eb a s e m o d u l eo ft h ei n f o r m a t i o np l a t f o r mf o rs m a l la n dm e d i u me n t e r p r i s e si nz h e j i a n g p r o v i n c e t h i ss t u d ye a s e st h es p a r s ed a t aa n dc o l ds t a r tp r o b l e m so fc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m st oa c e r t a i ne x t e n t ,b u th a sn o ta d d r e s s e di tc o m p l e t e l y b yi n t r o d u c i n gt h e c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m st ot h ee - l e a r n i n g ,w eb r i n gi ti n t oan e wa p p l i c a t i o n a r e a i t w i l li n s p i r em o r ee l e a r n i n gr e s e a r c h e r st oe x p l o r ec o l l a b o r a t i v ef i l t e r i n g t e c h n o l o g yi ne - l e a r n i n ga p p l i c a t i o nf r o md i f f e r e n tl e v e l sa n da n g l e s ,a n du l t i m a t e l y i m p r o v e t h ea c c u r a c ya n de f f i c i e n c yo fp e r s o n a l i z e dr e c o m m e n d a t i o n sw h i c hb a s e do nt h e c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m s k e yw o r d s :e l e a r n i n g ,l e a r n i n gr e s o u r c e s ,c o l l a b o r a t i v ef i l t e r i n g t e c h n o l o g y , i m p l i c i ts c o r i n gm o d e l ,p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m 浙江工业大学硕士学位论文 第一章绪论 企业员工的在线培训( e 1 e a r n i n g ) 作为i n t e r n e t 及信息化的产物,以其高效、 便捷等优势越来越受到广大企业的青睐,早己成为国内外各大型企业主要的员工 培训方式,如m m 、微软( m i c r o s o f t ) 、中国建设银行、用友软件等知名企业。2 0 0 8 年的一场金融危机,更使得e 1 e a r n i n g 培训方式的另一大优势:低成本性得以突显, 许多中小型企业也加入到e 1 e a r n i n g 的探索与实践中来,以节省企业的培训耗费, 间接提高自身的盈利能力。与此同时,党中央及国务院也表现出对企业信息化的 极大重视,早在党的十七大期间就提出了2 0 0 6 2 0 2 0 年国家信息化发展战略, 浙江省政府为了响应中央号召,决定搭建“浙江省中小企业化信息化平台 ,以服 务于本省的中小企业,加快本省中小企业的信息化进程。本论文作为“信息化平 台 中的一个子模块,将着重研究如何使用个性化推荐技术以促进e 1 e a r n i n g 效率 的提升。 1 1 选题背景 在信息化程度越来越高的今天,e 1 e a r n i n g 已成为企业开展员工培训的重要方 式之一。目前,许多大型企业在企业内部网或互联网搭建了e 1 e a r n i n g 平台。然而, 一个e - l e a r n i n g 系统是否成功,或者说能否达到预期的提升员工专业技能的目的, 在很大程度上取决于能否为员工( 学习者) 提供高质量的学习资源。 随着个人计算机、i n t e m e t 的应用和普及,网络提供了海量的信息资源,其中 蕴含了各行业、各专业培训所需的学习资源。因此,在e 1 e a r n i n g 实践的逐渐深入 发展中,平台中可供选择使用的学习资源数量也日渐增多,除此之外,还可以将 其它形式的教学资料( 如书本教材等) 转化为数字化的学习资源。总之,对于一 个e - l e a r n i n g 来说并不缺乏资源。 然而,有两个较为棘手的问题摆在我们面前: ( 1 ) 学习者如何高效获得符合其兴趣特点、职业需求的高质量的学习资源。 l 浙江工业大学硕士学位论文 当学习者在面对如此庞大的一个资源库的时候,很容易在茫茫的信息海洋中 迷失方向,如何才能让学习者找到适合其学习需求,或是符合其兴趣特点、职业 特征的高质量的学习资源呢? 在个性化推荐技术出现之前,e 1 e a r n i n g 系统主要通 过以下三种方式实现对学习者的资源推送: t o p n 推荐方式 t o p - n 即采取将点击率( 点播率) 最高的前n 个热门资源推荐给用户的方式。 虽然点击率的高低在一定程度上体现了资源的受欢迎度,但无法做到对不同学习 者的个性化推荐。正所谓众口难调,尤其是在一个包含了众多学科和专业学习资 源的e 1 e a r n i n g 系统中,学习者对资源类别、媒体类型等的需求迥异,即使是点击 率较高的学习资源,也只能反映小部分学习者的需求、偏好。 关键字查询方式 这是最为传统的方式,虽然这种方式有其自身的优势,如便捷、快速,但是这 种被动式资源查询方式只追求目标资源与所提供检索关键字的契合程度,而资源 库中的资源质量往往是参差不齐的,因此无法体现目标资源质量的高低。此外, 多种媒体类型的学习资源无法用关键字得以抽象和表达,如音频、视频等。最主 要的是,这种检索方式也无法做到将个性化的资源主动地推送给不同用户。 最新资源推荐 这种方式可以将资源库的更新情况在第一时间反馈给用户,增加新进资源的被 访问率。但是资源的质量同样无法得到保证,个性化的推荐更是无从谈起。 鉴于以上各种资源推送方式存在的不足,如何解决e 1 e a r n i n g 系统中学习资源 的个性化地主动式推荐,以弥补传统检索方式的不足就成为当前教育技术学研究 人员面临的研究主题之一。 ( 2 ) 传统的e 1 e a r n i n g 系统,其导航及资源推送方式千篇一律,无法做到个 性化。 2 浙江工业大学硕士学位论文 o 卜l h 人1 r ,; 壁墨 b 燃舀| 匪攀磊 甚 r 一一一一_ i k ;篓竺。薰篓。0嚣缘凇女z “;妇:i 藿隧 图1 - 1 传统的e - l e a r n i n g 系统模型 如图1 1 所示,传统的e 1 e a r n i n g 系统不仅对各个学习者都采用一致的交互界 面、相同的学习模块。此外,系统对每个学习者产生的推荐也是统一制式,即按 照前文所说的采用将点击率( 访问率) 最高的t o p - n 项热门资源推荐给学习者的 形式,对任何学习者来说都是一成不变的。可是,就像对于一个计算机专业的学 员来说,t o p - n 中的化学或者法学资源显然毫无用处,传统e 1 e a r n i n g 系统中的推 荐方式根本无法满足学习者的个性化需求。所以,也就无法实现以学习者为中心 的,能够根据学生的起点、学习进度和能力水平,为其提供难易程度不同的教学 内容,并能够进行动态调整的、自适应的个性化学习机制。 通过将个性化推荐技术引入到e 1 e a r n i n g 系统中,利用它实现对学习者的个性 化推荐,能够很好地弥补传统资源推送方式存在的缺陷,为资源的个性化推荐提 供了很好的解决方案。在众多的个性化推荐技术中,应用最为广泛、最为成功的 就是协同过滤推荐技术【1 1 。目前,协同过滤推荐技术应用最为成熟的是电子商务领 域。也有学者开始研究在线教育领域对协同过滤推荐技术的应用。 从一方面来说,e 1 e a r n i n g 系统需要借助于个性化推荐技术来帮助它的用户( 学 习者) 精确、高效地找到适合自己使用的学习资源,而另一方面,e 1 e a r n i n g 系统 的特点也可以让个性化推荐系统发挥其功用和特长,主要体现在以下两个方面: ( 1 ) 海量的资源条目 e 1 e a r n i n g 系统往往是服务于各行业、各专业领域,因此其所包含的资源库中 具有为各行各业所使用的海量的信息资源和学习资源,通过一般的检索方式,用 户很难找到符合自己需要的资源,而个性化推荐可以在分析各用户特征的基础上, 3 一 浙江工业大学硕士学位论文 主动地为其推荐满足条件的资源,使系统用户不会因为面对巨量的信息资源而显 得无所适从。 ( 2 ) 用户对资源的评分机制 在e 1 e a r n i n g 系统中,用户对资源的喜好主要通过对资源的评分来表现,同时 也可以相对准确地反映出资源质量的高低。评分又包括显式评分和隐式评分,显 式评分即为对资源进行直接量化的打分,隐式评分通过记录可以体现用户对资源 喜好的行为动作转换得到,两者的优缺点及他们的区别将在下文的相关章节中予 以介绍说明。用户对资源的评分可以成为一部分个性化推荐系统( 如本文将要进 行研究的协同过滤推荐系统) 的数据来源。 个性化推荐系统主要通过以下两个方面促进e - l e a r n i n g 系统更好地为其用户 服务: ( 1 ) 因人制宜,满足不同用户需要。 个性化推荐系统其背后所支撑的推荐算法主要有两种运行模式:第一种,首先 建立资源模型和用户模型,而后通过计算两个模型间的匹配程度,最后将匹配程 度最高的若干个资源推荐给用户,如早期使用较多的内容过滤推荐;第二种,首 先寻找目标用户或者目标资源的相似用户集( 资源集) ,我们称之为邻居,通过邻 居来预测目标用户对目标资源的打分,也就是判断用户对资源的喜好程度,最后 由系统决定是否为用户推荐该项资源。 ( 2 ) 增加用户体验,提升用户对e - l e a r n i n g 系统的忠诚度。 由于个性化推荐系统能够为每个用户推荐其感兴趣的信息资源,而且其推荐是 主动式的,即系统通过分析用户个性、职业、专业等市面的特征,为其量身定制 一套资源菜单,而无需再让用户费力去寻找。可以较好地体现系统的人性化、个 性化服务理念,使用户获得良好的学习体验,增加用户对系统的好感度,并最终 吸引住用户,也即提升用户对系统的忠诚度。 1 2 研究现状及问题提出 协同过滤这个概念的提出要追溯到上个世纪,是在1 9 9 2 年由g o l d b e r g 、o k i 、 n i c h o l s 和t e r r y 首次提出【2 】,当时应用在t a p e s t r y 系统中,该系统只适用于较小 的用户群( 譬如在某一个单位内部) ,而且使用时需要用户的高度配合、及其它方 4 浙江工业大学硕士学位论文 面的要求( 如要求用户访问后必须显式地给出评价或评分) 。作为协同过滤推荐系 统的雏形,t a p e s t r y 展示了一种新的推荐思想,但存在许多技术上的不足【1 3 1 。以 此为原型,相关研究者开发了基于用户对资源评分基础上的,具有较高自主性的 协同过滤推荐系统,g r o u p l e n s p 】作为一个电影和新闻类的推荐系统就是一个很好 的例子。在目前,推荐系统在众多的领域得到了广泛的应用,尤其是电子商务类 的网站,以此来提高用户找寻商品的效率,以及商品的购买率。国外的诸如大型 网上书店( a m a z o n ) 、著名的网上c d 商店( c d n o w ) ,以及d r u gs t o r e 、m o v i e f i n d e r 【4 】等电子商务网站。国内的如知名的在线商城淘宝网( t a o b a o ) 、京东网 ( 3 6 0 b u y ) ,主流的视频点播网站优酷网( y o u k u ) 、土豆网( t u d o u ) 等。协同过 滤推荐技术正以其较高的推荐精度以及推荐效率,逐渐成为最为流行和受欢迎的 个性化推荐技术。 和早期常用的基于直接分析、过滤文本内容从而产生推荐不同,协同过滤推 荐技术首先分析用户的兴趣特点、职业特征等相关信息,然后在全体用户中寻找 与目标用户具有相同或相似个性化特征的用户,形成目标用户的邻居集,最后通 过分析邻居集中的用户对某一资源条目的评分情况,预测目标用户对该资源条目 的评分,即对该资源的喜好程度。 协同过滤推荐的依据和出发点在于每个人的喜好都不是孤立的,而是处于某 个群体之中;在日常生活中,人们接受的信息往往是周围人推荐的结果,协同过 滤推荐正是基于这个准则,根据相同或相近兴趣的用户对相应资源条目做出的评 价,预测用户对资源条目的偏好,向其他用户进行推荐【5 j 。鉴于协同过滤推荐算法 的算法特点,使得算法的运行不受资源内容和类型的影响,因此协同过滤推荐算 法具有很好的普适性,不仅可以推荐文本类型的资源,对于视频、音频等多媒体 类型的资源也同样有较好的推荐效果。 协同过滤推荐算法可以很好地共享他人的学习或者购买经验,以相似用户群 对资源的兴趣度来预测目标用户的爱好资源集合,并对其产生推荐。该算法建立 在一个假设的基础上:如果用户对一些项目的评分比较相似,则他们对其它项目 的评分也比较相似;如果大部分用户对一些项的评分比较相似,则当前用户对这 些项的评分也比较相似5 】【6 】。协同过滤推荐系统通过相似性计算公式,找寻目标用 户的最近邻居集,然后根据邻居集中用户对目标资源的评分,预测目标用户对该 资源的评分,并最终形成系统对目标用户的推荐列表。 s 浙江工业大学硕士学位论文 举个简单的例子,如下表所示: 表1 1 用户资源评分实例 “ r e s o u r c e ar e s o u r e e br e s o u r c e cr e s o u r c e d t - m a c5245 k o b e3 4 l2 k a r l424 9 s t e v e n3523 通过数据分析发现,t - m a c 和k a r l 对资源的评分非常相似,因此我们判定 t - m a c 是k 砌的最近邻居,为了预测k a r l 对r e s o u r c e d 的评分,我们可以通过他 的最近邻t - m a c 对r e s o u r c e d 的评分来计算得到( 如果只取一个邻居的话) 。当然 为了使预测具有更高的精确度,应该把邻居的范围扩大。鉴于t - m a c 的评分和k a r l 具有最大的相似度,我们可以对他赋予最大的权重( 比如0 7 ) ;相比而言,s t e v e n 、 k o b e 和k a r l 的相似度比较低,对他们的评分赋予较小的权重( 分别设为0 2 ,0 1 ) 。 通过加权计算,我们可以预测得到k a r l 对r e s o u r c e d 的评分为5 0 7 + 3 x 0 2 + 2 x o 】= 4 3 。 1 2 1 国外现状 协同过滤推荐技术源于国外,从19 9 2 年g o l d b e r g 、n i c h o l s 、o k 及t e r r y 等 人提出协同过滤的概念以来,有众多国外学者加入到研究协同过滤算法的行列中, 并提出了相关的算法,还有一些比较成熟的算法得以在实践中应用。 笔者通过阅读相关国外文献,对协同过滤推荐领域的国外著名学者及其研究 成果和提出的算法思想作了简单的汇总,如表1 2 所示: 表1 - 2 国外学者相关研究 2 1 1 7 圳】 黪m ”“ 9 ;。j q7 77 ”1 十。i 。“ 、+ ,+ i ”蝴 氅 学者对问研究及成果相关说明 酝b ?。i ,毋b t 。:+0l 、n ? ,。z | 。j。,j # 4 7s 霜 s h a r d a n a n d - 设计了应用于音乐领域平均绝对误差是衡量 1 9 9 5 年 m a e $ 的协同过滤推荐系统一个推荐系统性能优 6 浙江工业大学硕士学位论文 “r i n g o ”: 劣的最常用标准之 一 测试了皮尔逊相关、余弦一。目前几乎所有学 相似性等用于计算用户者在预测协同过滤算 相似性的方法: 法的精确度时都参考 一 比较了各种算法的m a e了这一标准。 值( m e a na b s o l u t ee r r o r , 即平均绝对误差) 。 提出将协同过滤分为基基于存储的协同过滤 于存储和基于模型这两算法一般都使用了最 类的观点。近邻算法;基于模型 b r p 圯s ee t a 1 1 9 9 8 年 协同过滤算法以抽象 出的数据模型为基 础。 _ 提出了“个性诊断”算法算法思想:首先判断 ( p e r s o n a l i t yd i a g n o s i s )目标用户的“个性类 型 ( p e r s o n a l i t y t y p e ) ”,然后找出与 p e n n o c k 目标用户具有相似个 1 9 9 8 年 h o r v i t z 性类型的用户群,最 后以相似用户群的对 资源的喜好预测目标 用户对目标资源的偏 好程度。 d e l g a d o 一 提出一种基于代理的协该算法使用加权投票 同过滤算法 制( w e i g h t e dm a j o r i t y v o t i n g ) 来产生推荐。 b i l l s u s一 将s v d 法( 奇异值分解 奇异值分解法是一种 p a z z a n i1 9 9 8 年 法) 引用于协同过滤推荐矩阵分解技术,通过 p r y o r 分解矩阵达到降维的 7 浙江工业大学硕士学位论文 目的,从而减小推荐 系统的计算量,但是 会在一定程度上降低 推荐的精确度。 _将协同过滤作为一种案 例式推理( c a s e b a s e d c o n o rh a y e s r e a s o n i n g ) 的形式来研 p a d r a i g 1 9 9 9 盔 究; c u n n i n g h a m - 创建了基于案例提取网 b a r r ys m y t h 络( c a s er e t r i e v a ln e t s ) 的协同过滤算法。 受以上学者所启发,许多国外的研究机构和高校都参与到了对协同过滤推荐 技术的研究之中,如美国明尼苏达大学( u n i v e r s i t y o f m i n n e s o t a ) 计算机科学与工程 学院的g r o u p l e n s 研究小组,他们专门从事过滤算法与推荐系统等方面的研究, 并且架设了一个电影推荐网站:h t t p :m o v i e l e n s 邶幔e d u 。网站访问者可以在这个 网站上进行注册,注册之后可以点播及评价网站上的电影资源,当对一定数目的 影片进行评价之后( 评价的数目足够推荐系统参考,进而为用户进行推荐) ,网站 的推荐系统便可以为用户进行推荐,生成推荐的影片资源列表。至今,g r o u p l e n s 研究小组已经对数万的用户评价数据进行了收集,这些评价数据原来可能是随意 的、凌乱不堪的,经过g r o u p l e n s 研究小组的分类、整理之后,该小组免费把它 们提供给广大研究者使用,目前m o v i e l e n s 数据集已经成为协同过滤推荐算法研 究者广泛使用的测试数据集,经过几年的发展,该数据集当前已经形成两个版本: 其中一个容量较小,容纳了1 0 万条用户评价数据;另一个版本数据容量较大,容 纳了1 0 0 万条用户评价数据,研究者针对自己的研究内容,可以选择适合于自己 使用的版本进行协同过滤推荐算法的测试研究,以评估自己提出的算法的各项性 能:u cb e r k e l e y 的a l p a hl a b 实验室是一个类似于g r o u p l e n s 研究小组的学术组 织,j e s t e r 系统是他们研发的一个基于协同过滤算法的应用系统,该系统通过收集、 整理用户评价信息,然后为他们进行笑话的推荐,类似于m o v i e l e n s 数据集,他 们也将收集整理后的数据集提供给研究者免费使用i l2 1 。以上这些研究小组为广大 8 浙江工业大学硕士学位论文 致力于协同过滤推荐研究的学者提供了免费的测试数据集,在很大程度上促使了 协同过滤推荐研究的深入开展。 1 2 2 国内现状 国内学者对协同过滤技术的研究则要相对晚一些,且所做的研究主要是建立 在国外学者所提出的协同过滤算法的基础之上,或进行研究综述,或对原来的算 法作一些改进、优化,至今尚未能提出一种全新的协同过滤算法。 北京航空航天大学软件开发环境国家重点实验室的张光卫、哈尔滨工业大学 深圳研究生院信息安全中心的李鹏等人对传统的协同过滤推荐算法,从算法的原 理到协同过滤算法中最为经典的三种相似性计算方法( 余弦相似性、修正的余弦 相似性、相关相似性) ,都作了详细的介绍:并对协同过滤推荐算法中存在的两 大问题:数据稀疏和冷启动,作了深入、细致的分析,是一篇全面介绍协同过滤 推荐算法的文章 1 3 】。复旦大学计算机科学系的赵亮、胡乃静、张守志等人,对作 为一种最常用的个性化推荐算法的协同过滤技术作了详细地介绍【l 们。 复旦大学计算机与信息技术系的邓爱林、左子叶、朱扬勇对传统的协同过滤 算法作了详细的说明【1 4 1 ,传统的协同过滤推荐算法首先计算项目之间的相似性, 然后根据用户对目标项目有较大相似性的项目的评分,来预测该用户对目标项目 的评分。算法的实现建立在以下假设的基础上:第一,假设各用户对不同资源的 评价尺度是相似的,因此如果多数用户对相同项目的评分都比较接近或者相似, 那么就可以推测当前用户对该项目也会具有相似的评分;第二,假设同一用户对 不同项目的评价尺度也是恒定不变或相似的,那么就可以通过计算该用户对目标 项目的相似项目的评分,来预测用户对目标项目的评分。以上两个假设形成了两 种不同的协同过滤推荐算法,基于用户( u s e r - b a s e d ) 的协同过滤推荐算法和基于 项目( i t e m b a s e d ) 的协同过滤推荐算法。最后在以上两个假设的基础上预测用户 对未评分项目的评分之后,就可以将预测评分最高的若干个项目作为最终的推荐 结果呈现给用户。 复旦大学信息技术学院的硕士研究生李宇澄,在其学位论文协同过滤算法 研究中,在传统协同过滤推荐算法进行概括分析的基础上,提出了一种“基于 高评价记录的协同过滤算法 ,该算法的基本思想和原理是:考虑到在用户项目 9 浙江工业大学硕士学位论文 评分数据库中,各项目的评分率有高有低,而评分率低的项目其评分数据参考意 义不大,对算法的贡献度也较小,所以在使用协同过滤算法对用户或者项目进行 相似度计算时,可以忽略该部分的评分数据,只对用户项目评分数据中评分率较 高的部分进行计算【1 5 1 。由于这种基于高评价记录的协同过滤算法舍去了部分项目 评分数据,降低了协同过滤推荐算法的运算量,从而在一定程度上提升了算法的 运行效率和速度。然而,该算法也存在着不足之处,重要的一点是该算法以牺牲 部分评分数据来换取运算速度的提升,这就增加了相似性计算的误差值,从而将 影响到推荐系统的推荐精度。 、 大连理工大学电子与信息工程学院的孟宪福、陈莉提出了一种基于贝叶斯理 论的协同过滤推荐算法,该算法的主要思想是:首先把经用户评分的资源根据用 户对资源的偏好程度归为两大类,即用户感兴趣的和不感兴趣的资源集合;然后 借助于贝叶斯理论分别在两大类资源集合中抽取出现的典型关键词,并对它们的 使用频率进行统计分析,最后,对于某一具体资源,通过计算相关关键词在资源 中出现的频率,来预测目标用户对该项资源的喜好程度,亦即用户有多大的概率 会喜欢该资源【1 6 1 。 除此之外,还有很多学者提出了改进的协同过滤算法,如清华大学信息技术 研究院的邢春晓、高凤荣、战思南、周立柱提出了“适应用户兴趣变化的协同过 滤推荐算法 ,在该文中他们提出了两种权重加以优化:基于时间( t i m e b a s e d ) 的数据权重和基于资源相似度( r e s o u r c es i m i l a r i t y b a s e d ) 的数据权重,并将两种 权重加以融合,最后用这两种权重对基于项目( i t e m b a s e d ) 的协同过滤算法进行 优化【1 7 1 ;武汉理工大学计算机科学与技术学院的肖敏、熊前兴提出了一种新的基 于项目语义相似度的协同过滤算法,这两位研究者将哲学中“本体 的概念引入 到协同过滤推荐算法之中,在计算项目或者资源之间的相似度时,将资源归类到 相关的领域之中来进行,因为领域中的本体往往具有较高的相似度,这样一来可 以使资源项目之间计算得到的相似度有较好的真实性和可靠性,用户( 项目) 之 间的相似性通过修正的余弦相似性公式进行计算得到i l8 】;同是武汉理工大学计算 机科学与技术学院的学者吴婷、熊前兴、贺曦春等学者在研究传统协同过滤推荐 算法时,通过表征和分析用户的特征以及用户的兴趣变化对算法的影响,提出了 “基于用户特征和用户兴趣变化的协同过滤推荐算法”b 9 1 ,使算法更具针对性, 能够很好地适应用户的需求变化。 浙江工业大学硕士学位论文 以上这些算法思想虽然都是基于传统的协同过滤算法,但通过这些学者的优 化设计,已经可以在某些方面,在一定程度上提高协同过滤算法的推荐精度和效 度,也为之后的学者作相关方面的研究提供了诸多理论和实践经验,可以更好地 促进国内学者对协同过滤推荐技术的深入研究。 1 2 3 提出问题 从1 9 9 2 年协同过滤概念提出至今,协同过滤推荐技术得到了长足的发展,但 到目前为止,其应用仍主要集中在电子商务领域,一些学者提出的改进算法也大 都是基于电子商务上的应用,如前文提到的“基于项目评分预测的协同过滤算法”、 “基于项目聚类的协同过滤推荐算法”、“基于高评价记录的协同过滤算法 、 “基于贝叶斯理论的协同过滤推荐算法等。 虽然协同过滤算法是基于用户对项目( 资源) ,包括商品、学习资源等的评 分,从这一点上来说,协同过滤算法的执行和项目( 资源) 的形式以及媒体类别 无关,而只依赖于“评分,似乎无论是在电子商务领域还是教育领域,上面提 到的算法都可以不加修改地完全通用。但是,我们忽略了教育领域中学习行为具 有有异于电子商务领域中购买行为的特殊性,如学习行为中的收藏、推荐、下载 学习资源,以及学习的频度、学习的时长等。这些要素均不是电子商务中所用的 协同过滤算法所要考虑的范畴,而在我们的研究中则必须加以考虑。 协同过滤算法虽然因为其良好的推荐效果,得到了广泛的应用,但仍然存在 着两大痼疾:数据稀疏【6 】和冷启动口o 】【2 。从本质上看,这两大痼疾都是由于用 户对资源评分的极度稀疏造成的,也就是说协同过滤推荐技术基于用户对资源评 分的算法特点,在为算法带来极好普适性的同时,也给当前算法的缺陷埋下了伏 笔。简单地说,所谓的数据稀疏是指由于用户对资源的评分率过低,造成协同过 滤算法可以参考的数据量严重偏少,以致最后降低算法的推荐准确度。冷启动可 以分为两种情况:首先对于一个新注册的用户来说,由于尚未对任何资源进行评 价( 评分) ,所以没有可供协同过滤推荐系统推荐用的评分数据,也就无法为用 户产生推荐;其次,对于一个新入库的资源来说,同样尚未有用户对其进行评价, 造成其无法参与到协同过滤算法中来,因此也鲜有机会把其向用户进行推荐。我 们也可以把冷启动看成是数据稀疏问题的一种极端情况。 l l 浙江工业大学硕士学位论文 通过前文对企业e - l e a r n i n g 发展现状的剖析,以及对协同过滤推荐技术存在的 优缺点分析,本文现提出以下三个研究问题: ( 1 ) 如何替学习者发现适合其学习,符合其兴趣特点、职业特征的学习资 源,发现其潜在的兴趣点,以达到更佳的学习效果,促进其专业技能的提升,职 业生涯的发展。 ( 2 ) 如何打破传统e 1 e a r n i n g 系统旧的模式,设计出以学习者为中心的、个 性化的e - l e a r n i n g 系统,提高学习者的学习兴趣和培训效果。 ( 3 ) 如何利用好e 1 e a r n i n g 中学习者的行为信息,以优化系统的个性化推荐 效率。 本论文将围绕以上三个问题进行研究和阐述,并最终完成学习资源个性化推 荐系统的设计和实现。 1 3 研究内容 本文借鉴协同过滤推荐技术在电子商务领域的成功应用,将这种推荐技术引入 到e 1 e a r n i n g 领域,以期增加e 1 e a r n i n g 系统的资源推荐效率,改善用户的学习体 验。鉴于前文所述,传统的协同过滤推荐系统存在两大问题:数据稀疏及冷启动, 这将影响协同过滤推荐算法的推荐精度和效率,在本研究中将提出一种优化的组 合协同过滤推荐算法,能够在一定程度上对存在的问题予以缓解。本论文的研究 内容主要包括以下三个方面: ( 1 ) 研究和总结目前常用的个性化推荐技术,包括内容过滤推荐技术、基于 规则的推荐技术、基于内容过滤推荐、基于聚类的推荐技术等,对他们的算法思 想及各自的优缺点作了简要地介绍、说明。 ( 2 ) 深入剖析传统的协同过滤推荐算法,包括它的算法原理、实现流程及其 优点,和不足之处。研究和对比协同过滤算法中两种经典的算法类别:基于用户 ( u s e r - b a s e d ) 的协同过滤推荐算法和基于项目( i t e m b a s e d ) 的协同过滤推荐算法, 分析了它们各自适用的情况;针对前文所述的协同过滤推荐算法存在的两大痼疾, 分析目前现有的一些解决的办法,并对他们作了比较研究。 ( 3 ) 鉴于e 1 e a r n i n g 系统中用户学习行为的特殊性,提出一种隐式评分模型, 将用户的学习行为转换为用户对资源的评分,增加用户对资源的评分率,缓解协 浙江工业大学硕士学位论文 同过滤推荐算法数据稀疏的问题,并在一定程度上提升协同过滤推荐算法的推荐 精度;提出一种经优化的协同过滤推荐算法,并将其引入到e 1 e a r n i n g 系统中,开 发一个基于协同过滤推荐算法的个性化学习资源推荐系统。 本论文研究的经优化的协同过滤推荐算法最终将通过为在线学习( e 1 e a r n i n g ) 系统服务的个性化学习资源推荐系统的形式表现出来,作为“浙江省中小企业信 息化平台项目中的一个子模块,通过更好地为用户推荐高质量的信息资源、学 习资源,改善用户的学习体验,提高用户对浙江省中小企业信息化平台的忠诚度, 为中小企业信息化平台服务。 1 4 研究的目标和意义 本论文研究的目标和意义主要体现在以下两个方面: 理论意义:通过研究传统的协同过滤推荐算法,发现目前协同过滤推荐技术 中存在的缺陷。充分利用e 1 e a r n i n g 系统中用户学习行为的特殊性,提出将能够体 现用户对资源偏好的学习行为转化为用户对资源的评分,对传统的协同过滤推荐 算法作一定程度的优化,以提高协同过滤个性化推荐算法的效率和精度,推进基 于协同过滤技术的个性化推荐应用的理论研究。同时,鉴于目前针对教育领域的 协同过滤推荐算法研究较少,本研究也将启发更多的学者致力于这方面的研究, 并使协同过滤推荐算法不断得到优化。 实践意义:本研究将信息科学中的协同过滤技术应用于教育技术学中 e - l e a r n i n g 的系统设计中,挖掘e l e a r n i n g 中学习者的潜在学习兴趣,根据学习者的 学习兴趣和需求向其推荐个性化的学习资源,作为对传统资源检索方式的有力补 充,增强e 1 e a r n i n g 系统的学习资源管理功能,改善学习者的学习体验,激起学习 者的学习兴趣,提高企业开展e 1 e a r n i n g 的效率,更好地服务于本研究的上一级系 统“浙江省中小企业信息化平台 。 1 5 研究方法 在本研究中主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论