已阅读5页,还剩47页未读, 继续免费阅读
(教育技术学专业论文)基于网络结构的学习推荐技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南科技大学硕士研究生学位论文第1 页 摘要 网络学习己成为终身学习的主要途径。随着互联网技术的发展, 学习资源呈指数增长,学习者面对如此海量的学习资源,经常会感到 迷失,找不到自己需要的知识。对于教育培训机构来说,如何向学习 者推送适合需求的学习资源也是一个问题。本文将个性化推荐技术应 用于教育领域,以期有效地缓解这些问题。 论文首先对学习资源及其个性化服务进行了分析,提出了个性化 的学习资源推荐,这是一种基于网络结构推荐算法的个性化推荐服 务。基于网络结构的推荐算法不考虑学习者和学习资源的内容特征, 能综合考虑学习者之间以及学习资源之间的相互关联,视角新颖。论 文通过对学习资源和学习者的特点分析,建立了“学习者学习资源 二分图,进而使用基于二分图网络结构的推荐算法实现了学习推荐, 并通过学习者配置文件的方式缓解了冷启动问题。论文最后将学习推 荐系统应用于课程式学习和知识搜索式学习,实现了学习推荐功能, 并使用相对位置距离的方法进行了推荐评价。 关键词:学习资源个性化推荐网络结构二分图网络 西南科技大学硕士研究生学位论文第页 a bstrac t e l e a r n i n gh a sb e c o m e oneo ft h em a i na p p r o a c hf o rl i f e l o n g l e a r n i n g a l o n gw i t h t h e d e v e l o p m e n to f i n t e r n e tt e c h n o l o g y ,t h e l e a r n i n gr e s o u r c e sg r o we x p o n e n t i a l l y ,a n di t i sh a r df o ral e a r n e rt o f i n dt h ei n f o r m a t i o nh ew a n ti nh u g ea m o u n to fi n t e r n e tr e s o u r c e s t o t h ee d u c a t i o no rt r a i n i n go r g a n i z a t i o n ,h o wt op u s hl e a r n i n gr e s o u r c e s w h i c ht h el e a r n e rn e e dt ot h el e a r n e ri sap r o b l e m t h ep e r s o n a l r e c o m m e n d a t i o nt e c h n o l o g yh a sb e e na p p l i e di ne d u c a t i o n a lf i e l d si n t h i sp a p e rt oa l l e v i a t et h e s ep r o b l e m se f f e c t i v e l y f i r s t l y ,t h el e a r n i n g r e s o u r c e sa n dt h ep e r s o n a l i z e ds e r v i c e so n t h e m ”h a sb e e na n a l y z e d f u r t h e r m o r et h ep e r s o n a lr e c o m m e n d a t i o no n l e a r n i n gr e s o u r c e sw h i c hi sak i n do fp e r s o n a lr e c o m m e n d a t i o ns e r v i c e s h a sb e e np u tf o r w a r d t h ep e r s o n a lr e c o m m e n d a t i o na l g o r i t h mw i t h n o v e lv i e wb a s e do nn e t w o r ks t r u c t u r e sd on o tc a r ea b o u tt h ec o n t e n t f e a t u r e sa n de a nt r e a tc o r r e l a t i o n b e t w e e nl e a r n e r sa n d l e a r n i n g r e s o u r c e s g e n e r a l l y i n t h i s p a p e r ,ab i p a r t i t e n e t w o r kh a sb e e n c o n s t r u c t e db a s eo na n a l y z i n gt h ef e a t u r e sa m o n gl e a r n e ra n dl e a r n i n g r e s o u r c e s a n dt h er e c o m m e n d a t i o na l g o r i t h mb a s e do n t h eb i p a r t i t e n e t w o r kh a sb e e n p u t t o i m p l e m e n tp e r s o n a l r e c o m m e n d a t i o no n l e a r n i n gr e s o u r c e t h ec o l ds t a r tp r o b l e mh a sb e e nr e s o l v e db yl e a r n e r p r o f i l e i ns o m e w a y i n t h ee n do ft h i sp a p e r ,t h i sp e r s o n a l r e c o m m e n d a t i o n s y s t e m h a b e e np u tt ot h e t e g r n i n g ,o f s o f t w a r e e n g i n e e r i n g ,a n di m p l e m e n t st h ef e a t u r e so fp e r s o n a lc o m m e n d a t i o ni n l e a r n i n gr e s o u r c e ,a n de v a l u a t i n g t h e p e r s o n a l r e c o m m e n d a t i o nb y r e l a t i v es p a c e k e y w o r d s :l e a r n i n gr e s o u r c e s ;p e r s o n a lr e c o m m e n d a t i o n ; n e t w o r k s t r u c t u r e ; b i p a r t i t en e t w o r k 西南科技大学硕士研究生学位论文第l 页 1 绪论 网络学习,包括基于校园网和远程教育网的课程学习以及基于互 联网搜索的知识获取,己成为终身学习的主要途径,是培养人才、促 进教育教学发展的重要途径。随着互联网技术的发展,学习资源呈指 数增长,学习者面对如此海量而丰富的学习资源经常会感到迷失,找 不到自己想要的知识。学习推荐技术可以帮助用户在海量的学习信息 中准确、高效地找到自己感兴趣的知识,自然成为了教育技术领域研 究的热点。 1 1 研究背景及意义 互联网发展至今,成为一个巨大的信息资源库,促进了网络学习 的产生和发展。目前,网络学习所倡导的交互性、协作性还没有真正 发展成熟,在学习者采用的各种学习方式中,通过搜索相关资料进行 学习占了较大比例。2 0l0 年,电脑、手机、平板电脑等终端的集成 以及s n s ( s o c i a ln e t w o r k i n gs e r v i c e s ) 、微博客等w e b 2 0 应用的快 速发展促进了互联网信息承载量的急剧增长,信息资源前所未有的丰 富【1 】。各大门户网站都有教育频道,各类考试培训网站在就业压力下 大量发展,像m s d n ( w w w m s d n c o r n ) 这样的专业论坛也在扩大着 自己的影响。网络学习成为人们的一种需要和时尚,“百度一下早 已成为一种习惯。 在w e b 2 0 的推动下,各大网站更加重视用户服务,兼顾个性与 共性,用户也能够更容易地广泛参与网络活动,使得更多的人愿意通 过网络进行讨论和学习,并不断在互联网上获取学习信息、输出学习 信息。学习信息的多元性和异构性非常显著,海量级、碎片化的信息 增加了人们获取有效信息的时间和成本【l 】,“信息过载”1 2 、“信息迷 航成为有效学习的主要障碍。再者,不同学习者的受教育背景、学 习兴趣、学习风格以及学习进度等方面存在着一定的差异,进而对学 习资源的需求也存在个体差异,传统学习及信息检索都不容易满足个 性化学习的需要。 西南科技大学硕士研究生学位论文第2 页 对各学习资源信息的提供者来说,如何把适合学习者的资源推送 给学习者,更好地实现因材施教,对个性化学习的发展具有至关重要 的作用。近年来做得比较多的是建设教学资源库。资源库的内容主要 包括课件、习题集、考试资料、试题库等,呈现出涵盖范围不广、知 识的动态变化性不强、重复建设严重等特征。目前大部分的学习平台 及其教学资源库都提供了基于关键词的检索或基于学科、知识点的分 类浏览功能,在一定程度上满足了用户查找学习资源的需要。但利用 关键词进行检索存在检索结果同一化倾向,并且关键词的选取和组合 需要学习者有一定的检索经验,这样一来,无形中提高了学习门槛, 也不利于给学习者提供个性化的学习资源,使得学习资源利用率低, 教育者和学习者双方的努力得不到有效的回报。 研究一种向学习者推荐合适他需要的学习资源的方法可以在很 大程度上解决上述这些问题。从本质上讲,学习推荐技术是个性化推 荐技术在教育教学领域的应用。个性化推荐是随着互联网和服务提供 的发展而发展起来的一种技术,作为信息服务最有力的一种手段,广 泛应用于电子商务、电影推荐、图书推荐、广告推送等包含海量信息, 容易“信息过载 ,需要提供个性化服务的应用领域。个性化推荐系 统对用户已选择过的资源进行分析,从而预测用户对将要选择的资源 的喜好程度,并将预测的结果返回给用户,从而进行推荐【3 】。从上世 纪九十年代初以来,国内外很多研究者对个性化推荐技术给予较广泛 地关注,既有学术研究,又有应用研究。 就目前对个性化推荐的研究来说,绝大部分研究资源都倾向于电 子商务等盈利性领域,在教育领域的研究和应用还比较少,还没有像 电子商务中诸如a m a z o n 和m o v i e l e n s 那样比较成熟的系统。另一方 面,学习资源的多元性、变化性,对知识描述的不一致性,知识表现 的异构性都导致对学习资源的推荐比对商品的推荐更复杂,进而影响 了学习推荐技术的研究和应用。学习推荐的研究固然有困难,但值得 去做,这样就可以帮助研制出符合教育教学原理和方法的更具有个性 化能满足不同学习者真正需要的网络学习平台,使学习资源提供者更 好地推出学习资源,让知识产生最大的价值;帮助学习者更有效地找 到需要的学习资源,最大限度地缓解“信息过载 与“信息迷航问 题,提高学习效率。 西南科技大学硕士研究生学位论文第3 页 1 2 国内外研究现状 个性化推荐源于个性化服务的思想,直到上世纪9 0 年代才被作 为一个独立的概念提出来。在个性化推荐的研究上,且国外比国内起 步较早,发展更好。19 9 5 年,卡内基梅隆大学提出个性化导航系 统w e bw a t c h e r 4 ,斯坦福大学推出个性化推荐系统l i r a ,麻省理工 学院提出个性化导航智能体l e t i z i a ,这些标志着个性化推荐服务的 开始。从此以后,个性化推荐技术受到了学术界和商业领域的广泛关 注。19 9 7 年3 月,“c o m m u n i c a t i o n so ft h ea c m 组织了个性化推荐 系统的专题报道,标志着技术界高度开始重视个性化服务【5 】。19 9 9 年,德国d r e s d e n 技术大学的j t a n j a 实现了个性化电子商务原型系 统t e l l i m ,标志着个性化服务开始向全球发展。2 0 0 0 年,n e c 研 究院的d b k u r t 等人为搜索引擎c i t e s e e r 增加了个性化推荐功能, 实现c i t e s e e r 的个性化。个性化推荐在电子商务领域得到充分的发 展,研制出实用的推荐系统,在电子商务网站进行应用,并取得较好 的经济效益和实用效果,如a m a z o n 6 t l 、e b a y 、c d n o w 等。用于个 性化推荐研究的非商业化系统m o v i e l e n s i s 是最著名的推荐系统之 一,当前大量推荐算法的实验数据都来自于这个项目。作为推荐系统 领域最具影响力的学术研究团体之一的g r o u p l e n s 项目组为推荐系 统的发展做出了许多卓越的贡献【9 】【l o 】。互联网搜索巨头g o o g l e 公司 推出的g o o g l en e w s 1 1 】是一个专门针对用户群体庞大和更新异常频 繁的新闻领域而开发的个性化资讯平台,使用人群非常众多。基于遗 传学方法的p a n a o r a 1 2 和基于群体社会化标签的d e l i e i o u s 13 】也是推 荐系统中比较有新意的。 随着对个性化推荐研究的深入,美国计算机协会( a c m ) 于2 0 0 7 年召开了第一届仅限于推荐系统领域的研究会议( a c mr e c s y s 0 7 ) , 在该届会议以及a c mr e c s y s 0 8 上发表了大量高质量的关于推荐系 统的研究工作,极大推动了个性化推荐的研究。 国内对个性化推荐技术的研究起步相对较晚。2 0 0 0 年,路海明 等提出了基于多a g e n t 混合智能实现个性化推荐【1 4 。2 0 0 1 年,赵亮 等通过维数简化和项集相似性计算两个过程对协同过滤算法进行了 改进,改善了原算法的稀疏性【1 5 】。张守志等通过对用户行为轨迹的 西南科技大学硕士研究生学位论文第4 页 统计数据进行分析实现了用户兴趣焦点的动态演变1 1 6 。邢春晓等结 合基于时间和资源的数据权重,并引入到基于资源的协作过滤算法的 生成推荐过程中,提高了推荐准确度【1 7 】。张光卫等采用云模型,提 出一种在知识层面比较用户相似度的方法,克服了传统基于向量的相 似度比较方法严格匹配对象属性的不足i t8 】。周涛等【1 9 】【2 0 】f 2 l 】针对用户 和产品间的关系,建立“用户产品 关联关系的二分图,提出了基 于网络结构的推荐算法,即一种全新的基于资源分配的算法,进而提 出了一个基于网络结构的个性化推荐方法,开启了一个新的研究方 向。此外,h u a n g 等在协同过滤算法中引入二部分图上的扩散动力学, 部分地解决了数据稀疏问题【2 2 】【2 3 】。国内应用最广泛的个性化推荐方 法是基于协同过滤的推荐系统,在淘宝网、当当网、互动出版网、豆 瓣网【2 4 】、3 6 0 d o c 个人图书馆等系统中均使用了基于协同过滤的方法。 而基于网络结构的推荐系统大多还处于研究阶段,还没有像基于协同 过滤的系统那样成熟的推荐系统。 目前,个性化推荐系统中使用最多的技术是基于内容过滤的技术 和基于协同过滤的技术。推荐策略最早在第一届a c m 电子商务大会 上提出,主要包括:按类别查看,电子邮件推荐,用户评论,t o p n , 推荐相似的n 种商品【2 5 】。其中后三种策略仍在广泛使用。 在教育领域,个性化服务也倡导了很多年,更多地集中在远程教 育方面。较早开始的做法是把学习资源存放在w e b 服务器上,学习 者可以随时随地通过浏览器自主地进行学习、提问、做作业、考试, 并可通过计算机网络与教师或其他同学交流,目前常用的解决方案主 要有:视频点播、音频点播、电子邮件、b bs 和新闻组。此外,还有 将个性化推荐研究放到教学资源库的建设上来做。这些系统虽然能够 提高学习者的自主性,增加学习的选择行,但是距离个性化的学习推 荐还有相当的距离,还没有像电子商务领域中那样成型的实用的学习 推荐系统。 1 3 本文研究内容 教育领域的个性化推荐越显重要,针对当前的学习推荐技术还不 够实用的问题,本文提出了一种基于二分图网络结构的学习推荐技 术,并在学习网站上进行应用实验。本文的主要研究工作如下所述: 西南科技大学硕士研究生学位论文第5 页 ( 1 ) 对学习资源、学习者的特征以及目前网络学习的情况进行分 析,建立适合推荐的学习资源模型和学习者模型; ( 2 ) 设计并实现基于二分图的学习推荐算法,并在学习网站的知 识学习个性化推荐上做原型实验,同时引入第三方搜索,以增加知识 的丰富性; ( 3 ) 采用基于相对位置的方法和基于平均准确度的方法,对推荐 实验进行初步评价。 1 4 论文结构 根据研究背景以及国内外研究现状的调查研究,结合本文的选 题,论文的划分为五个部分,每个部分的主要内容如下所示。 第一部分:绪论。简要介绍了学习推荐技术的研究背景及意义, 大致阐述了国内外研究现状,然后提出了本文的研究内容,最后对论 文结构进行了安排。 第二部分:相关理论概述。对学习资源及其个性化服务进行了简 述和分析,提出了个性化的学习资源推荐,并介绍了目前主要的个性 化推荐技术。 第三部分:学习资源和学习者建模。对学习资源和学习者的表示 做了阐述,并对当前学习者和学习资源的特征进行分析,提出了适合 于推荐的学习资源和学习者模型。 第四部分:基于二分图网络结构的学习推荐技术。对复杂网络中 的二分图网络做了简述,并提出应用于学习资源推荐的二分图网络结 构推荐算法; 第五部分:学习推荐技术的实验。将推荐算法封装成模块,在学 习资源的个性化推荐上做应用实验,并做出初步的实验评价; 第六部分:总结与工作展望。总结全文,并对进一步的研究工作 进行了展望。 西南科技大学硕士研究生学位论文第6 页 2 相关理论概述 学习网站林立,校园网中学习资源也越来越多,面对海量的学习 资源,如何解决学习者查找适合自己资源的困难成为提供个性化学习 服务的关键。解决这一困难,可以将个性化推荐技术应用到教育领域, 根据不同用户的需求,为其提供想要的学习资源,推动个性化学习的 发展。 个性化推荐是为缓解“信息过载 应运而生的一种信息服务技术, 它收集用户历史行为信息,并分析用户特点,然后通过一定的推荐算 法向用户推荐其可能感兴趣的信息。 2 1 学习资源及其个性化服务概述 教育部发布的教育资源建设技术规范【2 6 】中指出:“教育资源 是指蕴涵了特定的教育信息,以能创造出一定教育价值的各类信息资 源,特别是能以数字信号在互联网上进行传输的教育信息。 站在学 习者的角度来说,教育资源是学习资源中最主要的部分,更广泛地说, 生活常识、医药健康等有助于学习者提高自己知识面及知识水平的网 络资源都属于学习资源。本文中所指的学习资源就是这样的,在网络 上传播的学习信息。 互联网上的学习资源日益增多,推动了网络学习的快速发展,但 是还存在着一些明显的缺点,比如学习资源的重用性差、缺学习信息 过载、乏个性化教学等。解决前一个问题需要制定统一的学习资源建 设标准及相关规范,比较复杂,不容易解决。后两个问题则可以通过 个性化学习资源服务的方式加以比较有效地解决。 个性化的学习资源服务是个性化信息服务在学习资源服务领域 的具体应用。从教育资源个性化服务与普通的互联网个性化信息服务 的不同点可以看出学习资源与其他的互联网个性化信息服务的一些 区别。前者有如下描述【2 7 】: ( 1 ) 教育资源个性化服务的用户具有稳定性,不像普通的个性化 信息服务的用户那样有很强的不确定性; 西南科技大学硕士研究生学位论文第7 页 ( 2 ) 教育资源个性化服务有一定的连续性,由于知识具有连续性, 一般情况下,学习者在学习某一门课程时,他会关注该课程的先行课 程和后续课程的相关知识; ( 3 ) 教育资源个性化服务操作的教学资源是结构化的,不像普通 的个性化信息服务可利用的信息是无组织的、多种结构形式的。 学习资源个性化服务的可以分为个性化学习资源检索和个性化 学习资源推荐两个方面,本文主要对后者进行研究。个性化学习资源 推荐( 以下简称学习推荐) 是个性化推荐技术在教育教学领域的一种 应用。而学习推荐在目前的推荐系统的应用中还比较少,研究者也不 太多。 2 2 主要个性化推荐系统 推荐系统己经成为个性化服务的主要技术之一,通过分析收集到 的用户信息来建立用户兴趣模型,然后根据推荐算法,寻找用户可能 感兴趣的项目并做出推荐。这种推荐与搜索引擎是不同的:推荐系统 不需要用户主动地对其感兴趣的资源进行描述,而是通过显式或隐式 的方式来收集用户的历史行为信息( 包括浏览记录、选择行为、购买 行为、评分信息等) ,进而利用这些历史信息来构建用户的兴趣模型, 然后根据该模型来预测用户可能感兴趣的资源并将这些资源推荐给 用户,而不是像搜索引擎那样根据用户显式的指令,搜索出相关的项 目。从另一个角度来看,个性化推荐问题可以看成是预测目标用户对 未评分资源的评分情况的问题,即系统能基于目标用户已有评分信息 来预测用户对未评分资源的评分值,并将评分预测值较高的那些资源 推荐给用户。 一个完整的推荐系统由3 个部分组成:行为记录模块,模型分析 模块和推荐方法模块。行为记录模块负责记录用户的喜好行为,比如 浏览、购买、评分、下载、点击等。模型分析模块的功能能够对用户 的行为记录进行分析,建立合适的模型来描述用户的喜好信息,即用 户喜好的产品及其喜欢程度。推荐方法模块根据推荐策略,选定推荐 算法,实时地从产品集合中筛选出用户感兴趣的产品进行推荐。其中, 推荐方法模块是推荐系统中最为核心的部分。 目前,个性化推荐的方法根据算法的不同,主要分为基于规则 西南科技大学硕士研究生学位论文第8 页 ( r u l e - b a s e d ) 的推荐系统、基于内容( c o n t e n t b a s e d ) 的推荐系统、 基于协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 系统、基于网络结构 ( n e t w o r k b a s e d ) 的推荐系统以及混合式( h y b r i d ) 推荐系统。 2 2 1 基于规则的推荐系统 关联规则作为数据挖掘领域内的一项重要技术,已经被广泛应用 于电子商务推荐系统中。它根据用户的静态特征和动态属性来订制规 则,即通过挖掘用户交易数据库来产生用户的购买模式,然后结合用 户的历史购买行为,产生对目标用户的推荐列表。规则决定了在不同 的情况下如何提供不同的推荐结果。 基于关联规则的推荐系统的原理是首先统计得到挖掘出的规则 前件,然后针对目标客户的历史购买行为;向该客户推荐规则后件。 一般地,基于关联规则的推荐算法描述下所示: ( 1 ) 使用关联规则挖掘算法,找出所有满足最小支持度和最小置 信度的关联规则,并存入规则库r 中; ( 2 ) 对每个当前客户c , 设置一个候选推荐集合c ,并初始化为空: 搜索规则库r ,找出被客户c 支持的所有关联规则集合r e , 即关联规则左部的所有商品出现在客户c 的历史购买行为记录中: 将出现在集合r e 中任一规则右部的商品加入候选推荐集c ; 从候选推荐集c 中删除用户已购买过的商品; 根据关联规则集合r e 的置信度对候选推荐集c 所有候选项从 大到小进行排序,如果一个商品出现在多条规则中,则选择置信度最 高的规则作为排序标准; 从候选推荐集c 选择置信度最高的前n 个项作为推荐结果返 回给客户c 。 当前已经存在很多关联规则挖掘算法,比较著名的有a p r i o r i 算 法、f p g r o w t h 算法、d h p 算法等。采用基于关联规则的推荐系统也 比较多,如i b m 的w e b s p h e r e 、b r o a d v i s i o n 、i l o g 等系统。 基于关联规则的推荐方法的优点在于简单、直接,得到的结果容 易理解。再者,关联规则挖掘技术已经比较成熟,有现成的实现软件, 因此实践建设条件也比较好。尽管如此,基于关联规则的推荐方法也 西南科技大学硕士研究生学位论文第9 页 存在一些缺点,比如: ( 1 ) 用户事务数据规模庞大,因此在模型建立阶段( 即上述算法 描述的第一步) 需要耗费大量的时间。一种解决的方法是提前在离线 阶段完成系统模型的建立挖掘关联规则,并将得到的规则加以存储备 用,但这会使规则动态更新比较困难。 ( 2 ) 数据预处理时的数据清洗因异构数据的多样性,导致处理比 较繁杂,还需要人工进行分析。 2 2 2 基于协同过滤的推荐系统 协同过滤( c o l l a b o r a t i v ef i l t e r ,c f ) 是推荐系统中应用最早、 最广泛,最为成功的推荐技术 2 s 】【2 9 】,其原理是:首先基于系统中的 已有评分数据,计算给定用户之间的相似性;然后根据计算得到的相 似性,寻找与目标用户的最近邻集合;最后使用最近邻集合中的用户 的评分情况来预测目标用户对目标项目的评分值,以此来产生对目标 用户的推荐。 用户信息由项目及用户对该项目的评分组成的向量表示,即“用 户一项目”评分矩阵,矩阵中的数据是用户对项目的评分,如图2 1 所示,其中r i j 表示用户i 对商品j 的评分值。 j 0 m l l1 2 l j l t u s e r u lr nr 1 2 r l j r i n 1 1 2 r 2 l r 2 2 r 2 j r 2 n ii l lr i 2 r i j r i a 盈 r 啦l r m 2 r 皿j r m a 图2 一i “用户一项目”评分矩阵 fig ur e2 一im a trixo fu s er it e mm ark 西南科技大学硕士研究生学位论文第l o 页 对目标用户的所有可能的推荐,肯定都包含在项目集合中。协同 过滤就是如何过滤这个项目集,得到对目标用户的n 个推荐项目。 因为我们是根据历史数据来进行推荐的,所以在协同过滤技术中,一 般认为用户对项目的评分是不随时间改变的。 根据过滤方法的不同,协同过滤技术分为两种:基于用户( u s e r b a s e d ) 的协同过滤和基于项目( i t e m b a s e d ) 的协同过滤。 基于用户的协同过滤是根据用户和用户之间的相似性找到目标 用户的邻居用户,然后根据邻居用户的历史信息给出对目标用户的推 荐。g r o u p l e n s 【3 0 】是第一个基于邻近用户的协同过滤的系统。一般地, 基于用户的协同过滤算法可以通过评分数据的表示、最近邻居集构 建、产生推荐三个阶段来进行描述。 基于项目的协同过滤则是通过分析项目之间的相似性,以目标用 户己购买的并且比较喜爱的项目为参考,把与这些项目相似的项目推 荐给目标用户。基于项目的协同过滤算法计算相似性的方法和过程与 基于用户的协同过滤算法类似。 协同过滤技术在个性化推荐系统方面得到了广泛的应用。协同过 滤系统的优点主要有: ( 1 ) 具有推荐新信息、产生新奇推荐的能力,能够发现用户潜在 的兴趣爱好; ( 2 ) 协同过滤不需要使用资源的具体内容,适用于推荐难以进行 内容分析的资源,因此在图形、图像、视频、音乐等难以分析的项目 的推荐中情况下过滤是很好的选择。 目前基于协同过滤的推荐系统虽然应用广泛,有很多优点,但存 在以下一些难以克服的问题 3 1 】【3 2 】: ( 1 ) 数据稀疏问题 在许多推荐系统中,每个用户涉及的信息量相当有限,用户的评 分数据往往是十分稀疏的。对于大型电子商务网站来说,用户往往最 多只对其中的1 至2 进行了评分,这样就造成评价矩阵的极度稀 疏,从而使得用户( 或项目) 之间的相似性计算结果与实际相差甚大, 导致推荐质量难以令人满意。同时行相似性计算的耗费也会很大。这 是协同过滤推荐系统面临的最普遍也是最难以克服的一个问题,它已 经成为导致系统推荐质量下降的一个首要问题。 ( 2 ) 冷启动问题 西南科技大学硕士研究生学位论文第l l 页 协同过滤推荐系统依靠用户对项目的评分数据来产生推荐,因此 当一个新项目刚加入系统的时候,没有任何用户对它进行过评分,这 样一来,该项目就无法得到推荐;同理,当一个新用户刚进入系统时, 系统无法从该用户身上获得任何相关的评分信息,系统也就无法向这 个用户提供准确的推荐。 ( 3 ) 算法的扩展性问题 协同过滤算法的计算量将随着系统用户和项目数量的增加而急 剧增长。面对数以亿计的用户和项目,传统的算法将遭遇到严重的扩 展性问题。一旦推荐系统无法对用户做出及时的推荐,该系统也失去 了它原有的作用。 2 2 3 基于内容过滤的推荐系统 基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) 是协同过滤技术 的延续与发展【2 l 】,在项的内容信息上做出推荐的,而不需要依据用 户对项的评价意见,更多地需要从关于内容的特征描述事例中得到用 户的兴趣资料,从而依据用户已经选择的产品内容信息计算用户之间 的相似性,进而进行相应的推荐。 基于内容的推荐系统首先为系统用户和项目分别建立一个配置 文件,然后根据用户已浏览或者选择过的项目的内容,来更新用户的 配置文件。用户的配置文件通常记录了用户的兴趣、爱好、需求等非 常个性化的信息( 通过系统显式或隐式地跟踪用户行为来获取) 。系 统通过比较用户兴趣与项目的配置文件的相似性,选择相似性程度较 高的项目推荐给用户。 基于内容的推荐算法的核心在于信息获取和信息过滤。因为在文 本信息获取与过滤方面的研究较为成熟,现有很多基于内容的推荐系 统都是通过分析产品的文本信息进行推荐,如p e r s o n a lw e b w a t c h e r t 3 3 1 和新闻过滤系统n e w sw e e d e r 3 4 。 建立资源项目s 的配置文件c o n t e n t ( s ) ,也就是一些用来描述项 目s 内容特征的词组集合。项目的内容特征通常被描述成关键词,使 用特征抽取的方法从项目s 的描述中获取得到。这就需要使用信息获 取技术中文本表征的方法,最常用的就是t f i d f ( t e r mf r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ) 方法。 西南科技大学硕士研究生学位论文第1 2 页 假定系统中含有n 个文本文件,关键词k i 在n i 个文本文件中出 现,关键词k i 在文本文件d j 中出现的次数为如,则k i 在文本d j 中的 词频t f i j 的定义如式2 1 所示。 厂 码= 告 ( 2 1 ) j m a x m ) 嘲 其中,分母表示在文件d i 中出现最频繁的关键词k m 的出现频率。 实际使用时,将t f i j 与该关键词在文本中出现次数的逆( i d f i ) 结 合起来,i d f i 定义如式2 2 所示。 厂 z d f , = 1 0 9 二 ( 2 2 ) 嘶 由式2 8 和式2 9 ,可以得到关键词k i 在文本d j 中的t f i d f 定 义如式2 3 所示。 w j = 觋z 叫 ( 2 3 ) 可以将前述c o n t e n t ( s ) 定义为c o n t e n t ( s ) = w 。1 ,w 。2 ,w 。k ,集合中 每个分量表示对应关键词的权重,即对资源项目s 的重要程度。 同样,可以定义用户配置文件为p r o f i l e ( u ) = w u l ,w u 2 w u k ,其 中每个分量表示对应关键词对用户u 的重要程度。 这样,推荐系统中的用户和项目使用t f i d f 公式表述成w u 和 w 。,推荐计算的函数常定义为:r ( u ,s ) = s c o r e ( p r o f i l e ( u ) ,c o n t e n t ( s ) ) 。 通常p r o f i l e ( u ) 和c o n t e n t ( s ) 都可以表示成关键词的权值向量,设为吃 和氓,这样就可以利用余弦相似进行计算,如式2 4 所示。 心_ c o s ( 呱) 2 谛翻( 2 - 4 ) 除了基于信息检索和信息过滤方法外,还可以将b a y e s 分类、聚 类分析、决策树、人工神经网络等机器学习的方法应用于推荐系统, 利用机器学习和统计学习方面的技术通过分析系统已有的数据来建 立系统模型,进而基于该模型对用户进行推荐。 基于内容的推荐系统不需要使用系统用户的评分信息,而只需要 获取用户和项目的配置文件,具有如下优点: ( 1 ) 使用用户和商品的配置文件,可以较好地解决冷启动问题, 西南科技大学硕士研究生学位论文第1 3 页 并可以为特殊兴趣的用户做推荐; ( 2 ) 不需要用户的评分数据,能较好地缓解评分数据稀疏的问题; ( 3 ) 能够发现隐藏信息,从而推荐新出现的项目和非流行的项目; ( 4 ) 可以列出推荐项目的内容特征,以解释为什么推荐那些项目。 基于内容的推荐系统由于受到信息获取技术的约束,也暴露出一 些难以克服的问题: ( 1 ) 基于内容的推荐技术通常只能应用于资源内容比较容易分析 的系统,比如文本、w e b 页,而对于图形、视频、音乐等等难以进行 内容分析的数据,往往由于缺乏有效的特征提取方法而无法实施: ( 2 ) 系统总是尽可能向用户推荐与其描述文件最符合的资源项 目,因此往往无法发现用户描述文件以外的潜在兴趣,导致推荐的资 源范围过于狭窄。 2 2 4 混合式推荐系统 基于规则的、基于内容的以及基于协同过滤的推荐算法由于自身 算法的限制,在实际应用中存在缺陷,于是就有研究者把多种不同的 推荐算法结合起来,形成混合推荐算法,利用不同算法的优点而避免 相关的缺点,已达到提高推荐系统的性能和质量的目的。最常见的混 合推荐系统是基于协同过滤和基于内容的,主要有以下三种形式: ( 1 ) 独立运用前述两种或多种推荐方法,然后将推荐结果结合起 来,按照对预测打分的线性组合方式进行推荐【3 5 】【3 6 】; ( 2 ) 在协同过滤推荐系统中加入基于内容的技术,使用用户的配 置文件来计算用户之间的相似性,而不再使用用户评分信息来计算, 缓解协同过滤系统中用户评分数据稀疏的问题和冷启动问题: ( 3 ) 在基于内容的推荐系统中加入协同过滤技术,把用户的评分 信息加入用户和项目配置文件中,可以缓解基于内容推荐系统对一些 难以分析项目无法进行推荐的缺点。 虽然混合推荐系统有这些优点,但是最难的问题在于怎样对这些 方法进行组合,基本上依靠反复的实验来确定,而实验与实际应用之 间是有差距的。 西南科技大学硕士研究生学位论文第1 4 页 2 2 5 基于网络结构的推荐系统 随着近年来复杂网络研究的兴起,二分图成为复杂网络中比较 受关注的一类【3 7 】。二分图中有一类被称为“隶属网 ,成为众多研究 者的兴趣所在,其特点是一类节点是在参与某种活动或事件的“参与 者 ,而另一类就是与参与者对应的“项目 。“隶属网”中的“合作 网 是近年来研究热点之一,研究演员合作网和科研合著网的成果最 多【3 7 】。基于网络结构的推荐系统主要就是基于“用户项目”二分图 的推荐系统。 目前,基于二分图网络结构的推荐算法是基于资源分配动力学【1 9 】 的,其核心思想是:假设用户u 选择过的所有项目,都具有某种向u 推荐其他项目的能力,则这个抽象的能力可以看作相关项目拥有的某 种可分的资源,拥有资源的项目会把这些资源分配给和自己更接近的 产品。 基于二分图网络结构的推荐算法最大的特点是不考虑用户和产 品的内容特征,只把它们看成网络中的抽象节点,所有算法需要的信 息都藏在用户和产品间的选择和被选择关系之中( 比如点的度可以表 示项目的热度或者用户行为的热度) 。算法具有相对简单、计算量较 小、稀疏问题不显著和新颖的优点,但同时也存在冷启动问题,即会 受到新用户、新项目的制约。其推荐算法的根本是要建立“用户项 目”二分图关联网络。新用户或新项目刚进入系统时,没有任何选择 或被选信息,就无法与其他用户或项目建立关联网络,也就无法启动 推荐算法。 综上所述,各推荐系统在现阶段都存在一些问题,其中基于规则 的方法由于规则建立的复杂性而受到制约,导致效率较低,但并没有 影响其在数据挖掘和专家系统中的应用;基于协同过滤的方法虽然暴 露出的问题较多,但思想较简单,算法比较成熟,而且其本身就来源 于打分机制,因此在电子商务领域应用最广泛,也不断被改进;基于 内容的方法由于内容描述与获取方面的问题,应用受到制约;基于网 络结构的方法目前比较新颖,应用不是很多,还没有成熟的系统;混 合式的方法本质上是前面几种方法的搭配,相对来说算法更加复杂, 对研究者的经验要求较高,也还停留在实验阶段。同一个方法在不同 的领域,或者将不同的方法应用于同一领域,更何况各方法容易受数 西南科技大学硕士研究生学位论文第1 5 页 据集的影响,其效果肯定会不一样,关键是找到最适合该领域或者处 理方式的推荐方法。 2 3 本章小结 本章首先对学习资源的个性化服务进行了概述。然后,对个性化 推荐技术进行分析,并指出基于规则的推荐、基于内容的推荐、基于 协同过滤的推荐、基于混合方式的推荐以及基于二分图结构的推荐的 工作原理、优缺点。通过上面的总结归纳,理清了个性化推荐技术的 概况,为下面几章的进一步研究工作奠定了理论基础。 西南科技大学硕士研究生学位论文第1 6 页 3 学习资源和学习者建模 学习资源是学习推荐系统的信息基础,在互联网上,学习资源表 现为存放在各服务器上的数字信息,常见的有课件、案例、文献资料、 试卷、问题解答、资源目录索引、网络课程等,种类繁多,而且其格 式也是多样的,有文本、图像、音视频等。这样的源信息是不能直接 拿来做推荐的,需要将这些源信息进行规格化,即建立模型,便于构 建学习资源库,为推荐结果的显示服务。 学习者是网络学习的主体,主要以学习系统或学习网站或者所搜 引擎的用户形式出现,不同的学习者有不同的学习兴趣和学习需求, 也需要对学习者进行建模,便于推荐的初始化及构建推荐系统。 3 1 学习资源建模 面对种类和格式繁多的学习资源,在不能做到统一的情况下,建 立合适的模型来表述学习资源,做好学习推荐的信息基础是比较好的 解决方式。 3 1 1 学习资源概况 学习资源学习者学习的信息基础,是学习推荐系统的重要组成部 分,长期以来由于学习资源的大量性和多样性以及不同领域的表示方 式不同等因素,使得人们对它的理解有很大的不同,这就出现了现在 呈现在网络上的大量不同形式、不同属性的学习资源,在各学习网站、 培训机构和教育机构中对学习资源的管理和利用上的各自为政的情 况。虽然近年来对学习资源的规范化研究得到研究者的关注,但只是 在远程教育技术规范和网络教育课程建设中得到了体现,整体上并没 有得到有效地改观。 规范化研究中,元数据的研究是一个主要方面。元数据是对数据 资源的描述,为面向领域的数据信息提供一致的描述方法,为各种形 态的信息单元和资源提供规范化、普遍性的描述方法【3 8 】。元数据显 然也是进行网络学习资源描述的必要元素,对索引和搜索学习资源、 西南科技大学硕士研究生学位论文第1 7 页 促进学习资源重用都有重要的作用。 在网络状态下,学习资源主要分布在远程网络教育网站、培训机 构网站、学习指导网站、学习论坛这几个方面,其中,远程网络教育 网站的学习资源最为规范、完整。属于传统远程教育资源中的媒体素 材库、题库、案例库、课件库和网络课程库,是学习资源中重要部分, 也是很多学习资源模型的建构参考。 按照教育部现代远程教学资源建设委员会制定的现代远程教学 资源建设技术规范的规定,从教育资源建设的实际出发,教学资源 分为媒体素材、题库、试卷素材、课件、案例、文献资料、常见解答、 资源目录索引、网络课程9 大类。教育资源的属性用于描述该资源的 相关特征,以方便资源的管理、共享以及使用。属性共包括三个部分, 分别为严格遵守的必需数据元素、作为参考的可选数据元素和针对资 源特色属性的扩展数据元素。其中,必需数据元素与学习对象元数据 规范中的必需数据元素一致,是任何类型的资源都必须具备的属性标 注;可选数据元素可根据用户需求和开发者自身的工作过程有选择的 使用;扩展数据元素根据每类资源各自的特点,制定的与某类资源密 切相关的属性。 从上述规范中的一些内容可以看出作为学习资源中建设得最完 整、规范的远程教育资源并没有具体的规范指标,再加上教育资源的 复杂性和多样性,使得人们对它的理解各不相同,出现了大量不同层 次、不同属性的教育资源,因而不易于管理和使用。作为范围更大的 学习资源来说,这种情况更为糟糕。随着网络学习规模的逐步扩大, 网络学习资源也越来越丰富,学习资。源的有效描述和有效管理成为推 动网络学习的关键。本文所讨论的主要是对学习资源的有效描述,比 较好的方法就是对学习资源进行建模。 面向对象的观点认为世界是由各种各样具有自己的运动规律和 内部状态的对象所组成的;不同对象之间的相互作用和通讯构成了完 整的现实世界,因此,人们应当按照现实世界这个本来面貌来理解世 界,直接通过对象及其相互关系来反映世界。对象包括两个部分,即 属性和行为,其中属性是对象特征、内容的描述。学习资源不论是在 现实生活中,还是在软件系统中,均是以对象的形式出现,因此,学 习资源也应该由学习资源的属性来描述,同样,表示学习资源模型的 特征词也是从资源的属性信息中获取。 西南科技大学硕士研究生学位论文第1 8 页 3 1 2 学习资源模型 学习资源模型能够有效地抽象并描述不同学习资源。如前述,了 学习资源特征由其属性进行描述,将这些特征抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化转型下T电梯无锡分公司营销渠道管理的创新与优化
- 数字化转型下N公司物资采购管理优化策略研究
- 2025 奇妙的水的表面张力现象实验作文课件
- 2025 奇妙的静电放电现象实验作文课件
- 数字化转型下A公司采购管理策略的创新与实践研究
- 数字化虚拟手构建及其在纵形断指临床解剖学中的应用与探索
- 数字化浪潮下黄石八中多媒体教学的现状审视与优化策略
- 数字化浪潮下永州联通农村移动市场突围营销策略探究
- 2025年前台问询礼仪专项考核卷
- 半导体级单晶硅棒生产线项目初步设计
- 景区旅游经营预测研究报告
- JB-T 14179-2022 带式输送机用托辊冲压轴承座
- 第四节喀斯特地貌最全课件
- 产褥期母婴的护理-产褥期妇女的生理变化(妇产科护理学课件)
- 四川省高等教育自学考试毕业生登记表【模板】
- 低压电工试题库-含答案
- 《城市轨道交通票务管理》课程标准
- 健康管理师资料:健康管理概论
- 泌尿男生殖系统其他疾病
- 机电设备及管道安装施工方案
- GB/T 1040.2-2022塑料拉伸性能的测定第2部分:模塑和挤塑塑料的试验条件
评论
0/150
提交评论