（教育技术学专业论文）基于网络结构的学习推荐技术研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：52 大小：1.98MB 积分：0 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

（教育技术学专业论文）基于网络结构的学习推荐技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西南科技大学硕士研究生学位论文第1 页摘要网络学习己成为终身学习的主要途径。随着互联网技术的发展，学习资源呈指数增长，学习者面对如此海量的学习资源，经常会感到迷失，找不到自己需要的知识。对于教育培训机构来说，如何向学习者推送适合需求的学习资源也是一个问题。本文将个性化推荐技术应用于教育领域，以期有效地缓解这些问题。论文首先对学习资源及其个性化服务进行了分析，提出了个性化的学习资源推荐，这是一种基于网络结构推荐算法的个性化推荐服务。基于网络结构的推荐算法不考虑学习者和学习资源的内容特征，能综合考虑学习者之间以及学习资源之间的相互关联，视角新颖。论文通过对学习资源和学习者的特点分析，建立了“学习者学习资源二分图，进而使用基于二分图网络结构的推荐算法实现了学习推荐，并通过学习者配置文件的方式缓解了冷启动问题。论文最后将学习推荐系统应用于课程式学习和知识搜索式学习，实现了学习推荐功能，并使用相对位置距离的方法进行了推荐评价。关键词：学习资源个性化推荐网络结构二分图网络西南科技大学硕士研究生学位论文第页 a bstrac t e l e a r n i n gh a sb e c o m e oneo ft h em a i na p p r o a c hf o rl i f e l o n g l e a r n i n g a l o n gw i t h t h e d e v e l o p m e n to f i n t e r n e tt e c h n o l o g y ，t h e l e a r n i n gr e s o u r c e sg r o we x p o n e n t i a l l y ，a n di t i sh a r df o ral e a r n e rt o f i n dt h ei n f o r m a t i o nh ew a n ti nh u g ea m o u n to fi n t e r n e tr e s o u r c e s t o t h ee d u c a t i o no rt r a i n i n go r g a n i z a t i o n ，h o wt op u s hl e a r n i n gr e s o u r c e s w h i c ht h el e a r n e rn e e dt ot h el e a r n e ri sap r o b l e m t h ep e r s o n a l r e c o m m e n d a t i o nt e c h n o l o g yh a sb e e na p p l i e di ne d u c a t i o n a lf i e l d si n t h i sp a p e rt oa l l e v i a t et h e s ep r o b l e m se f f e c t i v e l y f i r s t l y ，t h el e a r n i n g r e s o u r c e sa n dt h ep e r s o n a l i z e ds e r v i c e so n t h e m ”h a sb e e na n a l y z e d f u r t h e r m o r et h ep e r s o n a lr e c o m m e n d a t i o no n l e a r n i n gr e s o u r c e sw h i c hi sak i n do fp e r s o n a lr e c o m m e n d a t i o ns e r v i c e s h a sb e e np u tf o r w a r d t h ep e r s o n a lr e c o m m e n d a t i o na l g o r i t h mw i t h n o v e lv i e wb a s e do nn e t w o r ks t r u c t u r e sd on o tc a r ea b o u tt h ec o n t e n t f e a t u r e sa n de a nt r e a tc o r r e l a t i o n b e t w e e nl e a r n e r sa n d l e a r n i n g r e s o u r c e s g e n e r a l l y i n t h i s p a p e r ，ab i p a r t i t e n e t w o r kh a sb e e n c o n s t r u c t e db a s eo na n a l y z i n gt h ef e a t u r e sa m o n gl e a r n e ra n dl e a r n i n g r e s o u r c e s a n dt h er e c o m m e n d a t i o na l g o r i t h mb a s e do n t h eb i p a r t i t e n e t w o r kh a sb e e n p u t t o i m p l e m e n tp e r s o n a l r e c o m m e n d a t i o no n l e a r n i n gr e s o u r c e t h ec o l ds t a r tp r o b l e mh a sb e e nr e s o l v e db yl e a r n e r p r o f i l e i ns o m e w a y i n t h ee n do ft h i sp a p e r ，t h i sp e r s o n a l r e c o m m e n d a t i o n s y s t e m h a b e e np u tt ot h e t e g r n i n g ，o f s o f t w a r e e n g i n e e r i n g ，a n di m p l e m e n t st h ef e a t u r e so fp e r s o n a lc o m m e n d a t i o ni n l e a r n i n gr e s o u r c e ，a n de v a l u a t i n g t h e p e r s o n a l r e c o m m e n d a t i o nb y r e l a t i v es p a c e k e y w o r d s ：l e a r n i n gr e s o u r c e s ；p e r s o n a lr e c o m m e n d a t i o n ； n e t w o r k s t r u c t u r e ； b i p a r t i t en e t w o r k 西南科技大学硕士研究生学位论文第l 页 1 绪论网络学习，包括基于校园网和远程教育网的课程学习以及基于互联网搜索的知识获取，己成为终身学习的主要途径，是培养人才、促进教育教学发展的重要途径。随着互联网技术的发展，学习资源呈指数增长，学习者面对如此海量而丰富的学习资源经常会感到迷失，找不到自己想要的知识。学习推荐技术可以帮助用户在海量的学习信息中准确、高效地找到自己感兴趣的知识，自然成为了教育技术领域研究的热点。 1 1 研究背景及意义互联网发展至今，成为一个巨大的信息资源库，促进了网络学习的产生和发展。目前，网络学习所倡导的交互性、协作性还没有真正发展成熟，在学习者采用的各种学习方式中，通过搜索相关资料进行学习占了较大比例。2 0l0 年，电脑、手机、平板电脑等终端的集成以及s n s ( s o c i a ln e t w o r k i n gs e r v i c e s ) 、微博客等w e b 2 0 应用的快速发展促进了互联网信息承载量的急剧增长，信息资源前所未有的丰富【1 】。各大门户网站都有教育频道，各类考试培训网站在就业压力下大量发展，像m s d n ( w w w m s d n c o r n ) 这样的专业论坛也在扩大着自己的影响。网络学习成为人们的一种需要和时尚，“百度一下早已成为一种习惯。在w e b 2 0 的推动下，各大网站更加重视用户服务，兼顾个性与共性，用户也能够更容易地广泛参与网络活动，使得更多的人愿意通过网络进行讨论和学习，并不断在互联网上获取学习信息、输出学习信息。学习信息的多元性和异构性非常显著，海量级、碎片化的信息增加了人们获取有效信息的时间和成本【l 】，“信息过载”1 2 、“信息迷航成为有效学习的主要障碍。再者，不同学习者的受教育背景、学习兴趣、学习风格以及学习进度等方面存在着一定的差异，进而对学习资源的需求也存在个体差异，传统学习及信息检索都不容易满足个性化学习的需要。西南科技大学硕士研究生学位论文第2 页对各学习资源信息的提供者来说，如何把适合学习者的资源推送给学习者，更好地实现因材施教，对个性化学习的发展具有至关重要的作用。近年来做得比较多的是建设教学资源库。资源库的内容主要包括课件、习题集、考试资料、试题库等，呈现出涵盖范围不广、知识的动态变化性不强、重复建设严重等特征。目前大部分的学习平台及其教学资源库都提供了基于关键词的检索或基于学科、知识点的分类浏览功能，在一定程度上满足了用户查找学习资源的需要。但利用关键词进行检索存在检索结果同一化倾向，并且关键词的选取和组合需要学习者有一定的检索经验，这样一来，无形中提高了学习门槛，也不利于给学习者提供个性化的学习资源，使得学习资源利用率低，教育者和学习者双方的努力得不到有效的回报。研究一种向学习者推荐合适他需要的学习资源的方法可以在很大程度上解决上述这些问题。从本质上讲，学习推荐技术是个性化推荐技术在教育教学领域的应用。个性化推荐是随着互联网和服务提供的发展而发展起来的一种技术，作为信息服务最有力的一种手段，广泛应用于电子商务、电影推荐、图书推荐、广告推送等包含海量信息，容易“信息过载，需要提供个性化服务的应用领域。个性化推荐系统对用户已选择过的资源进行分析，从而预测用户对将要选择的资源的喜好程度，并将预测的结果返回给用户，从而进行推荐【3 】。从上世纪九十年代初以来，国内外很多研究者对个性化推荐技术给予较广泛地关注，既有学术研究，又有应用研究。就目前对个性化推荐的研究来说，绝大部分研究资源都倾向于电子商务等盈利性领域，在教育领域的研究和应用还比较少，还没有像电子商务中诸如a m a z o n 和m o v i e l e n s 那样比较成熟的系统。另一方面，学习资源的多元性、变化性，对知识描述的不一致性，知识表现的异构性都导致对学习资源的推荐比对商品的推荐更复杂，进而影响了学习推荐技术的研究和应用。学习推荐的研究固然有困难，但值得去做，这样就可以帮助研制出符合教育教学原理和方法的更具有个性化能满足不同学习者真正需要的网络学习平台，使学习资源提供者更好地推出学习资源，让知识产生最大的价值；帮助学习者更有效地找到需要的学习资源，最大限度地缓解“信息过载与“信息迷航问题，提高学习效率。西南科技大学硕士研究生学位论文第3 页 1 2 国内外研究现状个性化推荐源于个性化服务的思想，直到上世纪9 0 年代才被作为一个独立的概念提出来。在个性化推荐的研究上，且国外比国内起步较早，发展更好。19 9 5 年，卡内基梅隆大学提出个性化导航系统w e bw a t c h e r 4 ，斯坦福大学推出个性化推荐系统l i r a ，麻省理工学院提出个性化导航智能体l e t i z i a ，这些标志着个性化推荐服务的开始。从此以后，个性化推荐技术受到了学术界和商业领域的广泛关注。19 9 7 年3 月，“c o m m u n i c a t i o n so ft h ea c m 组织了个性化推荐系统的专题报道，标志着技术界高度开始重视个性化服务【5 】。19 9 9 年，德国d r e s d e n 技术大学的j t a n j a 实现了个性化电子商务原型系统t e l l i m ，标志着个性化服务开始向全球发展。2 0 0 0 年，n e c 研究院的d b k u r t 等人为搜索引擎c i t e s e e r 增加了个性化推荐功能，实现c i t e s e e r 的个性化。个性化推荐在电子商务领域得到充分的发展，研制出实用的推荐系统，在电子商务网站进行应用，并取得较好的经济效益和实用效果，如a m a z o n 6 t l 、e b a y 、c d n o w 等。用于个性化推荐研究的非商业化系统m o v i e l e n s i s 是最著名的推荐系统之一，当前大量推荐算法的实验数据都来自于这个项目。作为推荐系统领域最具影响力的学术研究团体之一的g r o u p l e n s 项目组为推荐系统的发展做出了许多卓越的贡献【9 】【l o 】。互联网搜索巨头g o o g l e 公司推出的g o o g l en e w s 1 1 】是一个专门针对用户群体庞大和更新异常频繁的新闻领域而开发的个性化资讯平台，使用人群非常众多。基于遗传学方法的p a n a o r a 1 2 和基于群体社会化标签的d e l i e i o u s 13 】也是推荐系统中比较有新意的。随着对个性化推荐研究的深入，美国计算机协会( a c m ) 于2 0 0 7 年召开了第一届仅限于推荐系统领域的研究会议( a c mr e c s y s 0 7 ) ，在该届会议以及a c mr e c s y s 0 8 上发表了大量高质量的关于推荐系统的研究工作，极大推动了个性化推荐的研究。国内对个性化推荐技术的研究起步相对较晚。2 0 0 0 年，路海明等提出了基于多a g e n t 混合智能实现个性化推荐【1 4 。2 0 0 1 年，赵亮等通过维数简化和项集相似性计算两个过程对协同过滤算法进行了改进，改善了原算法的稀疏性【1 5 】。张守志等通过对用户行为轨迹的西南科技大学硕士研究生学位论文第4 页统计数据进行分析实现了用户兴趣焦点的动态演变1 1 6 。邢春晓等结合基于时间和资源的数据权重，并引入到基于资源的协作过滤算法的生成推荐过程中，提高了推荐准确度【1 7 】。张光卫等采用云模型，提出一种在知识层面比较用户相似度的方法，克服了传统基于向量的相似度比较方法严格匹配对象属性的不足i t8 】。周涛等【1 9 】【2 0 】f 2 l 】针对用户和产品间的关系，建立“用户产品关联关系的二分图，提出了基于网络结构的推荐算法，即一种全新的基于资源分配的算法，进而提出了一个基于网络结构的个性化推荐方法，开启了一个新的研究方向。此外，h u a n g 等在协同过滤算法中引入二部分图上的扩散动力学，部分地解决了数据稀疏问题【2 2 】【2 3 】。国内应用最广泛的个性化推荐方法是基于协同过滤的推荐系统，在淘宝网、当当网、互动出版网、豆瓣网【2 4 】、3 6 0 d o c 个人图书馆等系统中均使用了基于协同过滤的方法。而基于网络结构的推荐系统大多还处于研究阶段，还没有像基于协同过滤的系统那样成熟的推荐系统。目前，个性化推荐系统中使用最多的技术是基于内容过滤的技术和基于协同过滤的技术。推荐策略最早在第一届a c m 电子商务大会上提出，主要包括：按类别查看，电子邮件推荐，用户评论，t o p n ，推荐相似的n 种商品【2 5 】。其中后三种策略仍在广泛使用。在教育领域，个性化服务也倡导了很多年，更多地集中在远程教育方面。较早开始的做法是把学习资源存放在w e b 服务器上，学习者可以随时随地通过浏览器自主地进行学习、提问、做作业、考试，并可通过计算机网络与教师或其他同学交流，目前常用的解决方案主要有：视频点播、音频点播、电子邮件、b bs 和新闻组。此外，还有将个性化推荐研究放到教学资源库的建设上来做。这些系统虽然能够提高学习者的自主性，增加学习的选择行，但是距离个性化的学习推荐还有相当的距离，还没有像电子商务领域中那样成型的实用的学习推荐系统。 1 3 本文研究内容教育领域的个性化推荐越显重要，针对当前的学习推荐技术还不够实用的问题，本文提出了一种基于二分图网络结构的学习推荐技术，并在学习网站上进行应用实验。本文的主要研究工作如下所述：西南科技大学硕士研究生学位论文第5 页 ( 1 ) 对学习资源、学习者的特征以及目前网络学习的情况进行分析，建立适合推荐的学习资源模型和学习者模型； ( 2 ) 设计并实现基于二分图的学习推荐算法，并在学习网站的知识学习个性化推荐上做原型实验，同时引入第三方搜索，以增加知识的丰富性； ( 3 ) 采用基于相对位置的方法和基于平均准确度的方法，对推荐实验进行初步评价。 1 4 论文结构根据研究背景以及国内外研究现状的调查研究，结合本文的选题，论文的划分为五个部分，每个部分的主要内容如下所示。第一部分：绪论。简要介绍了学习推荐技术的研究背景及意义，大致阐述了国内外研究现状，然后提出了本文的研究内容，最后对论文结构进行了安排。第二部分：相关理论概述。对学习资源及其个性化服务进行了简述和分析，提出了个性化的学习资源推荐，并介绍了目前主要的个性化推荐技术。第三部分：学习资源和学习者建模。对学习资源和学习者的表示做了阐述，并对当前学习者和学习资源的特征进行分析，提出了适合于推荐的学习资源和学习者模型。第四部分：基于二分图网络结构的学习推荐技术。对复杂网络中的二分图网络做了简述，并提出应用于学习资源推荐的二分图网络结构推荐算法；第五部分：学习推荐技术的实验。将推荐算法封装成模块，在学习资源的个性化推荐上做应用实验，并做出初步的实验评价；第六部分：总结与工作展望。总结全文，并对进一步的研究工作进行了展望。西南科技大学硕士研究生学位论文第6 页 2 相关理论概述学习网站林立，校园网中学习资源也越来越多，面对海量的学习资源，如何解决学习者查找适合自己资源的困难成为提供个性化学习服务的关键。解决这一困难，可以将个性化推荐技术应用到教育领域，根据不同用户的需求，为其提供想要的学习资源，推动个性化学习的发展。个性化推荐是为缓解“信息过载应运而生的一种信息服务技术，它收集用户历史行为信息，并分析用户特点，然后通过一定的推荐算法向用户推荐其可能感兴趣的信息。 2 1 学习资源及其个性化服务概述教育部发布的教育资源建设技术规范【2 6 】中指出：“教育资源是指蕴涵了特定的教育信息，以能创造出一定教育价值的各类信息资源，特别是能以数字信号在互联网上进行传输的教育信息。站在学习者的角度来说，教育资源是学习资源中最主要的部分，更广泛地说，生活常识、医药健康等有助于学习者提高自己知识面及知识水平的网络资源都属于学习资源。本文中所指的学习资源就是这样的，在网络上传播的学习信息。互联网上的学习资源日益增多，推动了网络学习的快速发展，但是还存在着一些明显的缺点，比如学习资源的重用性差、缺学习信息过载、乏个性化教学等。解决前一个问题需要制定统一的学习资源建设标准及相关规范，比较复杂，不容易解决。后两个问题则可以通过个性化学习资源服务的方式加以比较有效地解决。个性化的学习资源服务是个性化信息服务在学习资源服务领域的具体应用。从教育资源个性化服务与普通的互联网个性化信息服务的不同点可以看出学习资源与其他的互联网个性化信息服务的一些区别。前者有如下描述【2 7 】： ( 1 ) 教育资源个性化服务的用户具有稳定性，不像普通的个性化信息服务的用户那样有很强的不确定性；西南科技大学硕士研究生学位论文第7 页 ( 2 ) 教育资源个性化服务有一定的连续性，由于知识具有连续性，一般情况下，学习者在学习某一门课程时，他会关注该课程的先行课程和后续课程的相关知识； ( 3 ) 教育资源个性化服务操作的教学资源是结构化的，不像普通的个性化信息服务可利用的信息是无组织的、多种结构形式的。学习资源个性化服务的可以分为个性化学习资源检索和个性化学习资源推荐两个方面，本文主要对后者进行研究。个性化学习资源推荐( 以下简称学习推荐) 是个性化推荐技术在教育教学领域的一种应用。而学习推荐在目前的推荐系统的应用中还比较少，研究者也不太多。 2 2 主要个性化推荐系统推荐系统己经成为个性化服务的主要技术之一，通过分析收集到的用户信息来建立用户兴趣模型，然后根据推荐算法，寻找用户可能感兴趣的项目并做出推荐。这种推荐与搜索引擎是不同的：推荐系统不需要用户主动地对其感兴趣的资源进行描述，而是通过显式或隐式的方式来收集用户的历史行为信息( 包括浏览记录、选择行为、购买行为、评分信息等) ，进而利用这些历史信息来构建用户的兴趣模型，然后根据该模型来预测用户可能感兴趣的资源并将这些资源推荐给用户，而不是像搜索引擎那样根据用户显式的指令，搜索出相关的项目。从另一个角度来看，个性化推荐问题可以看成是预测目标用户对未评分资源的评分情况的问题，即系统能基于目标用户已有评分信息来预测用户对未评分资源的评分值，并将评分预测值较高的那些资源推荐给用户。一个完整的推荐系统由3 个部分组成：行为记录模块，模型分析模块和推荐方法模块。行为记录模块负责记录用户的喜好行为，比如浏览、购买、评分、下载、点击等。模型分析模块的功能能够对用户的行为记录进行分析，建立合适的模型来描述用户的喜好信息，即用户喜好的产品及其喜欢程度。推荐方法模块根据推荐策略，选定推荐算法，实时地从产品集合中筛选出用户感兴趣的产品进行推荐。其中，推荐方法模块是推荐系统中最为核心的部分。目前，个性化推荐的方法根据算法的不同，主要分为基于规则西南科技大学硕士研究生学位论文第8 页 ( r u l e - b a s e d ) 的推荐系统、基于内容( c o n t e n t b a s e d ) 的推荐系统、基于协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 系统、基于网络结构 ( n e t w o r k b a s e d ) 的推荐系统以及混合式( h y b r i d ) 推荐系统。 2 2 1 基于规则的推荐系统关联规则作为数据挖掘领域内的一项重要技术，已经被广泛应用于电子商务推荐系统中。它根据用户的静态特征和动态属性来订制规则，即通过挖掘用户交易数据库来产生用户的购买模式，然后结合用户的历史购买行为，产生对目标用户的推荐列表。规则决定了在不同的情况下如何提供不同的推荐结果。基于关联规则的推荐系统的原理是首先统计得到挖掘出的规则前件，然后针对目标客户的历史购买行为；向该客户推荐规则后件。一般地，基于关联规则的推荐算法描述下所示： ( 1 ) 使用关联规则挖掘算法，找出所有满足最小支持度和最小置信度的关联规则，并存入规则库r 中； ( 2 ) 对每个当前客户c ，设置一个候选推荐集合c ，并初始化为空：搜索规则库r ，找出被客户c 支持的所有关联规则集合r e ，即关联规则左部的所有商品出现在客户c 的历史购买行为记录中：将出现在集合r e 中任一规则右部的商品加入候选推荐集c ；从候选推荐集c 中删除用户已购买过的商品；根据关联规则集合r e 的置信度对候选推荐集c 所有候选项从大到小进行排序，如果一个商品出现在多条规则中，则选择置信度最高的规则作为排序标准；从候选推荐集c 选择置信度最高的前n 个项作为推荐结果返回给客户c 。当前已经存在很多关联规则挖掘算法，比较著名的有a p r i o r i 算法、f p g r o w t h 算法、d h p 算法等。采用基于关联规则的推荐系统也比较多，如i b m 的w e b s p h e r e 、b r o a d v i s i o n 、i l o g 等系统。基于关联规则的推荐方法的优点在于简单、直接，得到的结果容易理解。再者，关联规则挖掘技术已经比较成熟，有现成的实现软件，因此实践建设条件也比较好。尽管如此，基于关联规则的推荐方法也西南科技大学硕士研究生学位论文第9 页存在一些缺点，比如： ( 1 ) 用户事务数据规模庞大，因此在模型建立阶段( 即上述算法描述的第一步) 需要耗费大量的时间。一种解决的方法是提前在离线阶段完成系统模型的建立挖掘关联规则，并将得到的规则加以存储备用，但这会使规则动态更新比较困难。 ( 2 ) 数据预处理时的数据清洗因异构数据的多样性，导致处理比较繁杂，还需要人工进行分析。 2 2 2 基于协同过滤的推荐系统协同过滤( c o l l a b o r a t i v ef i l t e r ，c f ) 是推荐系统中应用最早、最广泛，最为成功的推荐技术 2 s 】【2 9 】，其原理是：首先基于系统中的已有评分数据，计算给定用户之间的相似性；然后根据计算得到的相似性，寻找与目标用户的最近邻集合；最后使用最近邻集合中的用户的评分情况来预测目标用户对目标项目的评分值，以此来产生对目标用户的推荐。用户信息由项目及用户对该项目的评分组成的向量表示，即“用户一项目”评分矩阵，矩阵中的数据是用户对项目的评分，如图2 1 所示，其中r i j 表示用户i 对商品j 的评分值。 j 0 m l l1 2 l j l t u s e r u lr nr 1 2 r l j r i n 1 1 2 r 2 l r 2 2 r 2 j r 2 n ii l lr i 2 r i j r i a 盈 r 啦l r m 2 r 皿j r m a 图2 一i “用户一项目”评分矩阵 fig ur e2 一im a trixo fu s er it e mm ark 西南科技大学硕士研究生学位论文第l o 页对目标用户的所有可能的推荐，肯定都包含在项目集合中。协同过滤就是如何过滤这个项目集，得到对目标用户的n 个推荐项目。因为我们是根据历史数据来进行推荐的，所以在协同过滤技术中，一般认为用户对项目的评分是不随时间改变的。根据过滤方法的不同，协同过滤技术分为两种：基于用户( u s e r b a s e d ) 的协同过滤和基于项目( i t e m b a s e d ) 的协同过滤。基于用户的协同过滤是根据用户和用户之间的相似性找到目标用户的邻居用户，然后根据邻居用户的历史信息给出对目标用户的推荐。g r o u p l e n s 【3 0 】是第一个基于邻近用户的协同过滤的系统。一般地，基于用户的协同过滤算法可以通过评分数据的表示、最近邻居集构建、产生推荐三个阶段来进行描述。基于项目的协同过滤则是通过分析项目之间的相似性，以目标用户己购买的并且比较喜爱的项目为参考，把与这些项目相似的项目推荐给目标用户。基于项目的协同过滤算法计算相似性的方法和过程与基于用户的协同过滤算法类似。协同过滤技术在个性化推荐系统方面得到了广泛的应用。协同过滤系统的优点主要有： ( 1 ) 具有推荐新信息、产生新奇推荐的能力，能够发现用户潜在的兴趣爱好； ( 2 ) 协同过滤不需要使用资源的具体内容，适用于推荐难以进行内容分析的资源，因此在图形、图像、视频、音乐等难以分析的项目的推荐中情况下过滤是很好的选择。目前基于协同过滤的推荐系统虽然应用广泛，有很多优点，但存在以下一些难以克服的问题 3 1 】【3 2 】： ( 1 ) 数据稀疏问题在许多推荐系统中，每个用户涉及的信息量相当有限，用户的评分数据往往是十分稀疏的。对于大型电子商务网站来说，用户往往最多只对其中的1 至2 进行了评分，这样就造成评价矩阵的极度稀疏，从而使得用户( 或项目) 之间的相似性计算结果与实际相差甚大，导致推荐质量难以令人满意。同时行相似性计算的耗费也会很大。这是协同过滤推荐系统面临的最普遍也是最难以克服的一个问题，它已经成为导致系统推荐质量下降的一个首要问题。 ( 2 ) 冷启动问题西南科技大学硕士研究生学位论文第l l 页协同过滤推荐系统依靠用户对项目的评分数据来产生推荐，因此当一个新项目刚加入系统的时候，没有任何用户对它进行过评分，这样一来，该项目就无法得到推荐；同理，当一个新用户刚进入系统时，系统无法从该用户身上获得任何相关的评分信息，系统也就无法向这个用户提供准确的推荐。 ( 3 ) 算法的扩展性问题协同过滤算法的计算量将随着系统用户和项目数量的增加而急剧增长。面对数以亿计的用户和项目，传统的算法将遭遇到严重的扩展性问题。一旦推荐系统无法对用户做出及时的推荐，该系统也失去了它原有的作用。 2 2 3 基于内容过滤的推荐系统基于内容的推荐( c o n t e n t b a s e dr e c o m m e n d a t i o n ) 是协同过滤技术的延续与发展【2 l 】，在项的内容信息上做出推荐的，而不需要依据用户对项的评价意见，更多地需要从关于内容的特征描述事例中得到用户的兴趣资料，从而依据用户已经选择的产品内容信息计算用户之间的相似性，进而进行相应的推荐。基于内容的推荐系统首先为系统用户和项目分别建立一个配置文件，然后根据用户已浏览或者选择过的项目的内容，来更新用户的配置文件。用户的配置文件通常记录了用户的兴趣、爱好、需求等非常个性化的信息( 通过系统显式或隐式地跟踪用户行为来获取) 。系统通过比较用户兴趣与项目的配置文件的相似性，选择相似性程度较高的项目推荐给用户。基于内容的推荐算法的核心在于信息获取和信息过滤。因为在文本信息获取与过滤方面的研究较为成熟，现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐，如p e r s o n a lw e b w a t c h e r t 3 3 1 和新闻过滤系统n e w sw e e d e r 3 4 。建立资源项目s 的配置文件c o n t e n t ( s ) ，也就是一些用来描述项目s 内容特征的词组集合。项目的内容特征通常被描述成关键词，使用特征抽取的方法从项目s 的描述中获取得到。这就需要使用信息获取技术中文本表征的方法，最常用的就是t f i d f ( t e r mf r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ) 方法。西南科技大学硕士研究生学位论文第1 2 页假定系统中含有n 个文本文件，关键词k i 在n i 个文本文件中出现，关键词k i 在文本文件d j 中出现的次数为如，则k i 在文本d j 中的词频t f i j 的定义如式2 1 所示。厂码= 告 ( 2 1 ) j m a x m ) 嘲其中，分母表示在文件d i 中出现最频繁的关键词k m 的出现频率。实际使用时，将t f i j 与该关键词在文本中出现次数的逆( i d f i ) 结合起来，i d f i 定义如式2 2 所示。厂 z d f , = 1 0 9 二 ( 2 2 ) 嘶由式2 8 和式2 9 ，可以得到关键词k i 在文本d j 中的t f i d f 定义如式2 3 所示。 w j = 觋z 叫 ( 2 3 ) 可以将前述c o n t e n t ( s ) 定义为c o n t e n t ( s ) = w 。1 ，w 。2 ，w 。k ，集合中每个分量表示对应关键词的权重，即对资源项目s 的重要程度。同样，可以定义用户配置文件为p r o f i l e ( u ) = w u l ，w u 2 w u k ，其中每个分量表示对应关键词对用户u 的重要程度。这样，推荐系统中的用户和项目使用t f i d f 公式表述成w u 和 w 。，推荐计算的函数常定义为：r ( u ，s ) = s c o r e ( p r o f i l e ( u ) ，c o n t e n t ( s ) ) 。通常p r o f i l e ( u ) 和c o n t e n t ( s ) 都可以表示成关键词的权值向量，设为吃和氓，这样就可以利用余弦相似进行计算，如式2 4 所示。心_ c o s ( 呱) 2 谛翻( 2 - 4 ) 除了基于信息检索和信息过滤方法外，还可以将b a y e s 分类、聚类分析、决策树、人工神经网络等机器学习的方法应用于推荐系统，利用机器学习和统计学习方面的技术通过分析系统已有的数据来建立系统模型，进而基于该模型对用户进行推荐。基于内容的推荐系统不需要使用系统用户的评分信息，而只需要获取用户和项目的配置文件，具有如下优点： ( 1 ) 使用用户和商品的配置文件，可以较好地解决冷启动问题，西南科技大学硕士研究生学位论文第1 3 页并可以为特殊兴趣的用户做推荐； ( 2 ) 不需要用户的评分数据，能较好地缓解评分数据稀疏的问题； ( 3 ) 能够发现隐藏信息，从而推荐新出现的项目和非流行的项目； ( 4 ) 可以列出推荐项目的内容特征，以解释为什么推荐那些项目。基于内容的推荐系统由于受到信息获取技术的约束，也暴露出一些难以克服的问题： ( 1 ) 基于内容的推荐技术通常只能应用于资源内容比较容易分析的系统，比如文本、w e b 页，而对于图形、视频、音乐等等难以进行内容分析的数据，往往由于缺乏有效的特征提取方法而无法实施： ( 2 ) 系统总是尽可能向用户推荐与其描述文件最符合的资源项目，因此往往无法发现用户描述文件以外的潜在兴趣，导致推荐的资源范围过于狭窄。 2 2 4 混合式推荐系统基于规则的、基于内容的以及基于协同过滤的推荐算法由于自身算法的限制，在实际应用中存在缺陷，于是就有研究者把多种不同的推荐算法结合起来，形成混合推荐算法，利用不同算法的优点而避免相关的缺点，已达到提高推荐系统的性能和质量的目的。最常见的混合推荐系统是基于协同过滤和基于内容的，主要有以下三种形式： ( 1 ) 独立运用前述两种或多种推荐方法，然后将推荐结果结合起来，按照对预测打分的线性组合方式进行推荐【3 5 】【3 6 】； ( 2 ) 在协同过滤推荐系统中加入基于内容的技术，使用用户的配置文件来计算用户之间的相似性，而不再使用用户评分信息来计算，缓解协同过滤系统中用户评分数据稀疏的问题和冷启动问题： ( 3 ) 在基于内容的推荐系统中加入协同过滤技术，把用户的评分信息加入用户和项目配置文件中，可以缓解基于内容推荐系统对一些难以分析项目无法进行推荐的缺点。虽然混合推荐系统有这些优点，但是最难的问题在于怎样对这些方法进行组合，基本上依靠反复的实验来确定，而实验与实际应用之间是有差距的。西南科技大学硕士研究生学位论文第1 4 页 2 2 5 基于网络结构的推荐系统随着近年来复杂网络研究的兴起，二分图成为复杂网络中比较受关注的一类【3 7 】。二分图中有一类被称为“隶属网，成为众多研究者的兴趣所在，其特点是一类节点是在参与某种活动或事件的“参与者，而另一类就是与参与者对应的“项目。“隶属网”中的“合作网是近年来研究热点之一，研究演员合作网和科研合著网的成果最多【3 7 】。基于网络结构的推荐系统主要就是基于“用户项目”二分图的推荐系统。目前，基于二分图网络结构的推荐算法是基于资源分配动力学【1 9 】的，其核心思想是：假设用户u 选择过的所有项目，都具有某种向u 推荐其他项目的能力，则这个抽象的能力可以看作相关项目拥有的某种可分的资源，拥有资源的项目会把这些资源分配给和自己更接近的产品。基于二分图网络结构的推荐算法最大的特点是不考虑用户和产品的内容特征，只把它们看成网络中的抽象节点，所有算法需要的信息都藏在用户和产品间的选择和被选择关系之中( 比如点的度可以表示项目的热度或者用户行为的热度) 。算法具有相对简单、计算量较小、稀疏问题不显著和新颖的优点，但同时也存在冷启动问题，即会受到新用户、新项目的制约。其推荐算法的根本是要建立“用户项目”二分图关联网络。新用户或新项目刚进入系统时，没有任何选择或被选信息，就无法与其他用户或项目建立关联网络，也就无法启动推荐算法。综上所述，各推荐系统在现阶段都存在一些问题，其中基于规则的方法由于规则建立的复杂性而受到制约，导致效率较低，但并没有影响其在数据挖掘和专家系统中的应用；基于协同过滤的方法虽然暴露出的问题较多，但思想较简单，算法比较成熟，而且其本身就来源于打分机制，因此在电子商务领域应用最广泛，也不断被改进；基于内容的方法由于内容描述与获取方面的问题，应用受到制约；基于网络结构的方法目前比较新颖，应用不是很多，还没有成熟的系统；混合式的方法本质上是前面几种方法的搭配，相对来说算法更加复杂，对研究者的经验要求较高，也还停留在实验阶段。同一个方法在不同的领域，或者将不同的方法应用于同一领域，更何况各方法容易受数西南科技大学硕士研究生学位论文第1 5 页据集的影响，其效果肯定会不一样，关键是找到最适合该领域或者处理方式的推荐方法。 2 3 本章小结本章首先对学习资源的个性化服务进行了概述。然后，对个性化推荐技术进行分析，并指出基于规则的推荐、基于内容的推荐、基于协同过滤的推荐、基于混合方式的推荐以及基于二分图结构的推荐的工作原理、优缺点。通过上面的总结归纳，理清了个性化推荐技术的概况，为下面几章的进一步研究工作奠定了理论基础。西南科技大学硕士研究生学位论文第1 6 页 3 学习资源和学习者建模学习资源是学习推荐系统的信息基础，在互联网上，学习资源表现为存放在各服务器上的数字信息，常见的有课件、案例、文献资料、试卷、问题解答、资源目录索引、网络课程等，种类繁多，而且其格式也是多样的，有文本、图像、音视频等。这样的源信息是不能直接拿来做推荐的，需要将这些源信息进行规格化，即建立模型，便于构建学习资源库，为推荐结果的显示服务。学习者是网络学习的主体，主要以学习系统或学习网站或者所搜引擎的用户形式出现，不同的学习者有不同的学习兴趣和学习需求，也需要对学习者进行建模，便于推荐的初始化及构建推荐系统。 3 1 学习资源建模面对种类和格式繁多的学习资源，在不能做到统一的情况下，建立合适的模型来表述学习资源，做好学习推荐的信息基础是比较好的解决方式。 3 1 1 学习资源概况学习资源学习者学习的信息基础，是学习推荐系统的重要组成部分，长期以来由于学习资源的大量性和多样性以及不同领域的表示方式不同等因素，使得人们对它的理解有很大的不同，这就出现了现在呈现在网络上的大量不同形式、不同属性的学习资源，在各学习网站、培训机构和教育机构中对学习资源的管理和利用上的各自为政的情况。虽然近年来对学习资源的规范化研究得到研究者的关注，但只是在远程教育技术规范和网络教育课程建设中得到了体现，整体上并没有得到有效地改观。规范化研究中，元数据的研究是一个主要方面。元数据是对数据资源的描述，为面向领域的数据信息提供一致的描述方法，为各种形态的信息单元和资源提供规范化、普遍性的描述方法【3 8 】。元数据显然也是进行网络学习资源描述的必要元素，对索引和搜索学习资源、西南科技大学硕士研究生学位论文第1 7 页促进学习资源重用都有重要的作用。在网络状态下，学习资源主要分布在远程网络教育网站、培训机构网站、学习指导网站、学习论坛这几个方面，其中，远程网络教育网站的学习资源最为规范、完整。属于传统远程教育资源中的媒体素材库、题库、案例库、课件库和网络课程库，是学习资源中重要部分，也是很多学习资源模型的建构参考。按照教育部现代远程教学资源建设委员会制定的现代远程教学资源建设技术规范的规定，从教育资源建设的实际出发，教学资源分为媒体素材、题库、试卷素材、课件、案例、文献资料、常见解答、资源目录索引、网络课程9 大类。教育资源的属性用于描述该资源的相关特征，以方便资源的管理、共享以及使用。属性共包括三个部分，分别为严格遵守的必需数据元素、作为参考的可选数据元素和针对资源特色属性的扩展数据元素。其中，必需数据元素与学习对象元数据规范中的必需数据元素一致，是任何类型的资源都必须具备的属性标注；可选数据元素可根据用户需求和开发者自身的工作过程有选择的使用；扩展数据元素根据每类资源各自的特点，制定的与某类资源密切相关的属性。从上述规范中的一些内容可以看出作为学习资源中建设得最完整、规范的远程教育资源并没有具体的规范指标，再加上教育资源的复杂性和多样性，使得人们对它的理解各不相同，出现了大量不同层次、不同属性的教育资源，因而不易于管理和使用。作为范围更大的学习资源来说，这种情况更为糟糕。随着网络学习规模的逐步扩大，网络学习资源也越来越丰富，学习资。源的有效描述和有效管理成为推动网络学习的关键。本文所讨论的主要是对学习资源的有效描述，比较好的方法就是对学习资源进行建模。面向对象的观点认为世界是由各种各样具有自己的运动规律和内部状态的对象所组成的；不同对象之间的相互作用和通讯构成了完整的现实世界，因此，人们应当按照现实世界这个本来面貌来理解世界，直接通过对象及其相互关系来反映世界。对象包括两个部分，即属性和行为，其中属性是对象特征、内容的描述。学习资源不论是在现实生活中，还是在软件系统中，均是以对象的形式出现，因此，学习资源也应该由学习资源的属性来描述，同样，表示学习资源模型的特征词也是从资源的属性信息中获取。西南科技大学硕士研究生学位论文第1 8 页 3 1 2 学习资源模型学习资源模型能够有效地抽象并描述不同学习资源。如前述，了学习资源特征由其属性进行描述，将这些特征抽

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（教育技术学专业论文）基于网络结构的学习推荐技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档