(计算机应用技术专业论文)基于协同过滤的校园教育资源网个性化推荐研究.pdf_第1页
(计算机应用技术专业论文)基于协同过滤的校园教育资源网个性化推荐研究.pdf_第2页
(计算机应用技术专业论文)基于协同过滤的校园教育资源网个性化推荐研究.pdf_第3页
(计算机应用技术专业论文)基于协同过滤的校园教育资源网个性化推荐研究.pdf_第4页
(计算机应用技术专业论文)基于协同过滤的校园教育资源网个性化推荐研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t e r st h e s i s 中文摘要 网络在现在人们的日常生活中已经成为不可或缺的工具,通过网络寻找自己想 要的信息资源已经变成人们获取信息最快捷和简便的方式,但是海量的网络资源对 于用户来说是非常痛苦的,因为要在大量的信息中找到适合自己的,好比海底捞针, 是非常困难的。因此如何能让用户准确而又轻松找到自己需要的资源,已经是各个 网站努力必须面对并且必须解决的问题。个性化推荐技术的发展也就应运而生,为 该问题提出了一个很好的解决办法。 随着个性化技术的广泛使用,推荐系统也慢慢变成人们关注和研究的重点,因 为它通过主动向客户推荐资源来满足用户需求,很多用户不愿意花太多时间在一个 需要花费自己很长时间寻找资源的网站上个性化推荐作为一种崭新的智能信息服 务方式,可以通过分析用户的习惯、历史记录数据,根据用户提出的确定性的要求, 较为准确地向用户提供感兴趣的信息和服务,很大程度上解决了“信息过载”和“信 息迷失 带来的各种问题,如果推荐资源的精确度足够高,还是提高用户粘性的一 个非常好的途径 本文以协同过滤技术为研究基础,提出了建设个性化教育资源推荐网的具体方 法文章主要分析了建设该网站的多方面原因以及可行性分析,根据协同过滤技术包 含的输入数据、邻居形成、产生推荐三个主要部分分别建立相应的信息资源和学生 兴趣模型;获取评价矩阵,进行评分预测;根据不同资源类别进行不同的推荐在推 荐过程中,根据学生特征计算目标用户的相似群体,建立资源模型,对传统的s l o p e o n e 推荐算法在预测评分上进行改进,增加了用户和项目相似性的考虑,以缩小计 算范围和提高预测准确度在推荐过程中,将资源按照不同类别进行推荐,准确度将 会得到提高 针对文章中提出的不同类别资源进行不同的推荐,评价方法也做了改进,摒弃 了传统的以资源个数为单位进行考虑的方法,而以关键字为单位进行考虑结合用户 的访问记录集和推荐资源集进行查准率和查全率的计算,精度得到了提高文章最后 对所做的研究内容进行了总结并对后期需要改进以及深入研究的地方做了简单的 分析说明 关键词:个性化;协同过滤;主动推荐;s l o p eo n e 硕士学位论文 m a s t e r st h e s i s a b s t r a c t w i 也t h ee x p a n s i o no ft h ei n t e r a c ti n f o r m a t i o n , w w wh a sb e c o m eas e r v i c e w e b s i t et h a tc o n t a i n sv a r i e t yo fi n f o r m a t i o nr e s o u r c e s ,i tp r o v i d e st h eu s e rw i t hav e r y v a l u a b l ei n f o r m a t i o n b u tw i t ht h ei n c r e a s i n ga m o u n to fu s e ra c c e s sn e t w o r k , i th a s b e c o m ei n c r e a s i n g l yh a r df o ru s e r st of i n dt h ei n f o r m a t i o nt h e yw a n ti nt h en e t w o r k w h i c hi sl i k eao c e a n ,h o wt om a k eo u rc u s t o m e r sc o n v e n i e n t , r a p i d , a c c u r a t et oo b t a i n t h ei n f o r m a t i o nh a sb e c o m et h em a j o rp r o b l e m st h a t s o l v e db yt h ew e b s i t e s , p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yd e v e l o p m e n ta n du t i l i z a t i o ni st h ei m p o r t a n t w a y t os o l v et h i sp r o b l e m a st h ep e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m st e c h n o l o g yp r o m o t i o nb e c o m i n g i n c r e a s i n g l yp o p u l a r , a n dg r a d u a l l yb e c o m et h er e s e a r c hh o t s p o t s ,b e c a u s et h eu s a g eo f a c t i v er e c o m m e n d e dt e c h n i q u e ,a c t i v er e c o m m e n d i n gr e s o u r c e s ,s a t i s f yc u s t o m e r d e m a n d , m a n yu s e r sd on o tw i l l i n gt os p e n dt o om u c ht i m ei naw e b s i t e p e r s o n a l i z e d r e c o m m e n d a t i o n , a sak i n do fn e wi n t e l l i g e n ti n f o r m a t i o ns e r v i c em o d e , c a np r o v i d e i n f o r m a t i o na n ds e r v i c ea c c u r a t e l yt ou s e r s a c c o r d i n gt ot h e i rr e q u i r e m e n t s ,o rc l e a rb y au s e r sp e r s o n a l i t y , h a b i t sa n d p r e f e r e n c e s ,t h u si ts o l v e dt h ep r o b l e m st h a tb r o u g h tb y i n f o r m a t i o no v e r l o a da n du s e rl o s t t h i sp a p e rd os o m er e s e a r c hb a s e do nc o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g y , p u t s f o r w a r dt h e s p e c i f i c m e t h o dt oc o n s t r u c t p e r s o n a l i z e de d u c a t i o n a lr e s o u r c e s r e c o m m e n d a t i o nw e b s i t e t h ep a p e ra n a l y z e st h ec a u s e so fw e b s i t ec o n s t r u c t i o na n d f e a s i b i l i t ya n a l y s i s ,a c c o r d i n gt ot h ep a r t so fc o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g ys u c ha s d a t ai n p u t , n e i g h b o rf o r m a t i o n , r e s u l t i n gi n r e c o m m e n d ,c o r r e s p o n d i n gi n f o r m a t i o n r e s o u r c e sa n ds t u d e n t si n t e r e s t e di nm o d e l ,f o re v a l u a t i o nm a t r i x , s c o r ep r e d i c t s ,d o d i f f e r e n tk i n d so fr e o m m e n d a t i o no fd i f f e r e n tc a t e g o r yr e s o u r c e si nt h ep r o c e s so f r e c o m m e n d a t i o n i nt h ep r o c e s so fr e c o m m e n d e da c c o r d i n gt o d i f f e r e n tc a t e g o r y , i m p r o v et h et r a d i t i o n a ls l o p eo n ea l g o r i t h m ,i n c r e a s e st h eb s e ra n dp r o j e c t si no r d e rt o r c c u c et h es i m i l a r i t yc a l c u l a t i o na n di n c r e a s et h ep r e d i c t i o n a c c u r a c y t od i f f e r e n t c a t e g o r i e s ,r e s o u r c e sa l er e c o m m e n d e da n dt h ea c c u r a c yw i l lb ei m p r o v e d a c c o r d i n gt ot h e d i f f e r e n tc a t e g o r i e so fd i f f e r e n tr e s o u r c e s r e c o m m e n d e d , e v a l u a t i o nm e t h o di s i m p r o v e d , a b a n d o n e db yt h en u m b e ro fr e s o u l v , e sf o rt h e t r a d i t i o n a lm e t h o d ,t h eu n i tb yk e y w o r di sc o n s i d e r e d c o m b i n e dw i t ht h eu s e ra c c e s s r e e o r d s e ta n dr e c o m m e n d e dr e s o u r c e s ,t h ec a l c u l a t i o np r e c i s i o ni si m p r o v e d i nt h e 硕士学位论文 m a s t e r st h e s i s e n d ,t h ee s s a yd os o m es u m m a r ya n da n a l y s i st h ec o n t e n tw h i c hn e e dt oi m p r o v ea n d i n d e p t hs t u d y k e y w o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ;i n i t i a t i v e ;c o l l a b o r a t i v ef i l t e r i n g ; s l o p eo l l e 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:唐傻稍奠 日期:。c 7 年6 月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 作者签名:奶技辍 日期:1 年6 月c 7 日 导师摊:椭 帆叶午z 月夕日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程”中的 规定享受相关权益。回童论室握銮蜃澄卮;旦坐生;旦= 生;旦三生筮查! 作者签名:痞傻极 喊斯f6 月7 日 导师签名:和磊 日期:n 口年歹月 日 硕士学位论文 l 奄a s t e r st h e s i $ 第一章绪论 研究背景和意义是这一章将要讲到的主要内容,在分析了依据以及意义之后, 文章会对基于协同过滤的推荐技术在国内外的研究现状进行介绍并分析,最后写了 这篇文章的目的和意义并将文章的组织结构进行了总结,给出了大体框架。 1 1 文章选题背景 随着许多高等院校各自的校园网的不断出现,从校园网上获取教育资源( 以下 全部简称e r e d u c a t i o n a lr e s o u r c e s ) 信息已经变成学生的一种习惯,学生可以从本 校的校园网上得到自己想要的许多资源,但是就目前来看,许多高校只注重将e r 发 布到网络上,却忽视了如何将e r 推荐给学生群体,目前对于校园e r 网,当学生进 入的时候,看到的都是一样的界面和资源,由于学生群体的特殊性,兴趣爱好、研 究方向、就读年级、院系都可能不同。也就是用户存在各方面的差异,因此他们对 资源需要也不相同,教学资源越多越丰富,取舍的精确度要求就越高。 特别是刚刚进入校园的新生,大部分人对网络了解非常少,甚至是完全不知, 即使学会上网搜索信息,如果没有专门的推荐,也很难在大量的资源中找到适合自 己的,渐渐的可能会失去到网络上寻找e r 的兴趣,这样一方面使得大量的e r 浪费, 不能发挥其应有的效果。另一方面又没有满足学生的需求,使得查找资源变的困难。 如果系统能够自动的对学生特征进行分析,知道学生需要什么样的资源的话,就可 以主动的将信息推荐给学生,这就是个性化推荐( p r p e r s o n a l i z e d r e c o m m e n d a i o n ) 服务的一种。 如果我们想把一个网站做成一个具有推荐功能,实现了个性化的网站,这个网 站必须具备5 个前提条件:( 1 ) 有用户在较短时间内不断地登录网站;( 2 ) 单个用户需 要的资源远远比网站能够提供的资源数量要少很多;( 3 ) 网站信息模块固定;( 4 ) 用户 有明显的兴趣取向;( 5 ) 只有注册用户能够使用该服务,否则无法区分用户的类别。 校园e r 网满足了将其建设成为个性化主动推荐网站的以上一些要求。所以,e r 网 的个性化设计应该来说是非常合理的。 通过使用p r 服务,可以提高校园网络的访问率,加大学生的学习兴趣,整体 的提高学生的素质,使得学生可以自主选择学习的内容和方式,另外由于网络上的 资源在一个短的时间段内不会消失,因此学生可以不受时间和空间的限制进行学习 交流,避免了教师课堂教学的一些弊端,比如教师授课完毕之后学生再无法重新听 硕士学位论文 五a s t e r st h e $ i s 一次,但是有了教育网,将学生感兴趣的课堂视频发布到网络上,让学生可以反复 的研究自己不懂和薄弱的地方。教师也不用重复针对某个问题向各个学生讲解,有 精力和时间来进行其他的教学研究,对高校的整体发展也有很大的益处。结合学生 的学习深度,兴趣爱好,发展方向,把e r 个性化的推荐给学生,可以使学生在学 习上更有方向和目标性,逐渐形成自主学习的能力。对学生的综合素质和知识水平 的提高都起到了很大的作用。 要实现p r ,就必须使用相关的推荐技术,目前的推荐技术非常多,协同过滤 技术经常被用于推荐技术中,本文将介绍分析协同过滤技术的特点和优点,并将其 用在e r 网p r 中。该技术就是通过将和目标用户相似的群体用户的兴趣爱好资源推 荐给目标用户。本文将协同过滤技术的基于用户的和基于内容项的两种技术融合起 来进行使用,运用到e r p r 中,很大程度上使得个性化更加突出。协同过滤在推荐 对象上没有特别要求。考虑到校园院系以及学生的特点,协同过滤技术非常适合学 校的资源和人员组织情况。 另外,本文研究的是e r 网的p r ,针对的是一个比较小的校园这样一个独立的 整体,如果需要扩展,将各个高校的资源同时进行共享,形成一个更加庞大的系统, 学生可以访问更多更好的e r ,对促进全国整体学生素质的提高和发展是很有意义 的,但是如果涉及到多个校园之后,各个院校的学生群体、教学体制、教学重心等 都有所差别就使得推荐变得更复杂,本文的一些技术理论可能有所限制,但是仍然 具有借鉴意义。 1 2 国内外研究现状 电子商务系统以及网上商店目前很大程度的使用了协同过滤技术。用户之间类 似程度大小不同,由该技术产生的推荐结果就不相同。需要具有如下前提:按照 兴趣的不同,访问网站的用户可以进行类别区分;在关注和浏览了资源信息之后 一般的用户都会对信息给予一些评价或者评论,评论包括显示和隐形评价,隐形评 论含有用户的爱好兴趣:用户对某个信息的爱好将和与他有相同兴趣取向的人相 似,因为协同过滤认为人以类聚,一个人的爱好和兴趣总是会受到身边其他人的或 多或少的影响,基于该技术的推荐包括了收集数据信息、邻居生成、产生推荐三个 主要部分,有两种解决方法,一种是基于用户的,另外一种是基于内容项的,分别 介绍如下: ( 1 ) 基于用户:找到用户n 个,他们和某个用户有相同的兴趣爱好,并得到这n 2 硕士学位论文 m a s t e r st h e s i s 个用户对某个项目i 的评价分数,这个评分也就是这个用户对该项目的可能的评分。 ( 2 ) 基于内容项:寻找一个资源i ,它和用户曾经关注过的并有兴趣的其他资源 非常相近,取得用户对曾经兴趣资源的评分,这些评分将会是寻找到得找个资源i 的可能评分。 亚马逊很早就应用了推荐系统,它根据曾经具有过购买商品行为的用户的购 买记录,推荐出他们可能购买的其他产品,在中国,当当网在p r 方面也做的不错, 在某个用户购买书的时候,它同时能给用户推荐出该用户可能会喜欢的其他书来, 提高了产品的销售量,增加了网站的收入和增加了用户访问网站的次数以及提高 网站的信誉度。在一些文献中,作者介绍了协同过滤技术被用在了电子上网中的 在线拍卖系统中,向网站浏览用户推荐拍卖商品,但是它所实现的是一对一的推 荐,针对的是单个用户。而本文讨论的校园网络所针对的是对象既具有独立性, 又具有群体性,而且目标比较明确,同时信息资源比较固定,因为学生的学习具 有循序渐进的特性,这样在推荐的时候,其前驱和后继相对来说比较明确,也增 加了推荐的准确性。 李宝敏等人在文献 4 1 q b 指出为了能够让不同的学习者在l 塔网络得到自己想要 和需要的信息,就应该把e r 网建设成一个多层次、多元化、开放性和动态更新性 及时的网站,也很符合我们的p r 网站的定义和提出思想。目前所查询的资料来看 国内的各个高校的校园网以及e r 网还没有实现自主推荐的功能,绝大多数校园资 源网络采取的都是有专人负责将e r 发布到网上,比如本校主要是采用邱的形式, 让学生进入邱进行访问下载,这样资源量大,又有盲目性。另外有信息资源系统, 但是资源信息需要学生有目标的进行获取,实质就是通过搜索系统,由用户自己输 入自己想要的资源信息的关键字,然后寻找目标,这样的方法是让用户成为主动对 象,只有当用户有需求的时候,才会访问该资源网站,否则是不会进入该网站的。 国外有些大型的网站也实现了个性化网站,他们是通过用户自己编辑的方法,每个 栏目用户都可以自己进行设计和编辑,就好象自己在设计该网站一样,实现了个性 化服务。 个性化技术在近些年时国内外研究比较热门的技术,在国外发展的已经也比较 成熟,但是在国内还是一个新兴的技术,还不是非常完善。国外的个性化定制网站 z a z z l e 在美国很有知名度,每天访问的人数也能够达到几万次,高流量是与好技 术成正比的,与他们使用了p r 有密切的联系。但根据查询的资料,国外还很少有 将个性化技术用于教学资源的建设方面。对于这种非盈利性质的网站,研究方向相 3 硕士学位论文 m a s t e r st h e s i s 对来说比较少一些。 1 3 本文研究内容 ( 1 ) 学生特征分类以及兴趣模型的建立:学生作为本文研究的用户主体,推荐的 目的也是为了让学生进行很好的学习,所以学生的兴趣直接影响着如何进行推荐。 学生群体虽然比较固定,但是学生思维却不一定是固定的,因此建立学生兴趣模型 也是本文的重点,文中分析学生兴趣爱好,对其进行分类整理,抽取学生兴趣,建 立对应模型,并根据学生的兴趣变化进行动态变化。如何对兴趣进行建模,也是本 文需要解决的问题。 ( 2 ) 职特征抽象:推荐是内容和用户的对应,有了学生兴趣模型,那么资源也 应该有自己的特征,发布到网络上的e r 应该都是被分类的信息,从而方便推荐系 统进行搜索,定位和推荐,本文需要解决的是如何抽取r s 特征,并标识它被学生 群体所关注的程度,而且要将各个学科内容之间的不同程度的联系也要抽象出来, 这就为基于内容的推荐做好准备。 ( 3 ) 个性化及协同过滤推荐技术:分析传统e r 网站的不足,提出p r 的改进方案, 介绍了个性化及实现个性化的相关推荐技术,对协同过滤技术进行特点进行分析以 及和其他推荐技术进行对比,说明了将协同过滤技术用于e r 网站个性化建设的好 处和必要。如何将资源更准确,更及时的推荐给学生,使用好的算法是必要的,推 荐算法的使用和改进也是本文需要解决的问题,文章主要对传统的s l o p eo r l e 算法进 行了改进,并在推荐效果的评价方法上提出了以关键字比为评价标准的思想。 1 4 论文整体框架 根据以上所做的背景、意义以及国内外研究现状的调查研究,结合论文选题, 文章的主要内容被划分为五个章节,每个章节的主要内容如下: 第一部分为“绪论 。这一部分主要是概述性的内容,大概的介绍了一下本文 使用到的一些技术、理论、概念。 第二部分为“协同过滤及相关推荐技术 。这一部分主要讲了最常见的一些推 荐技术,分析他们各自的优缺点和他们之间的区别,讨论了为什么本文要采用协同 过滤技术以及它的特点和分类。 第三部分为“个性化兴趣模型构建与资源信息表示技术 。该部分依次讲述了 如何构建学生群体的个性化过滤模板,给出学生个性化模型以及如何对资源进行表 4 硕士学位论文 m a s t e r st h e s is 示,使得资源能够进行p r 。 第四部分为“p r 实现 。主要根据资源类型和学生专业类型,对推荐进行分类, 对不同的资源采取的推荐流程和算法都不一样,分小点写了具体的实现方法,算法。 第五部分为“总结与展望 。对本文所做的工作进行了总结,并指出需要进一 步完善和改进的地方。 5 硕士学位论文 m a s t e r st h e s i s 第二章个性化推荐与信息过滤技术 一些常用的p r 技术在这一章节中被详细的进行了分析、说明、介绍,主要是 分析推荐技术的特点,对各种技术之间加以比较,另外介绍了一些信息过滤技术, 重点介绍了协同过滤技术,分析了本文研究使用该技术的原因以及它特有的优点, 也指出它所存在的一些不足之处。 2 1 推荐技术相关知识 2 1 1 个性化推荐整体介绍 把用户的兴趣爱好以及需求作为推荐目标,是个性化服务的最重要的内容。根 据不同用户的需求推荐不同的服务。传统的个性化网站服务方法是采用用户定制的 形式,比如网易现在的博客、腾讯现在的q q 空间等他们是通过用户自己编辑的方 法,每个栏目用户都可以自己进行设计和编辑,就好象自己在设计该网站一样,而 且栏目的位置可以自己进行排列实现了个性化服务。 个性化服务先收集用户的兴趣信息,然后分析这些历史资料来获取用户的行为 特征,确定了用户的兴趣,就可以主动地推荐个性化的资源信息给用户。这样既防 止了用户在访问的时候出现“信息过量 的情况,还能让网站开发建设人员和使用 客户之间变成一种朋友关系,客户会不断重复多次的访问网站,使得网站的流量增 大和经济效益得到提高。 针对网站推荐服务的个性化主要分为两种: ( 1 ) 基于类别:这一种推荐服务是网站展示给用户的是可以让用户自己进行定制 模块的形式,能随心而变。这样的推荐服务的优点是表达的信息的数量特别多,而 且简单、方便、迅速。但也有缺点,就是是它局限于如何划分模块和资源内容的分 类。由于分类法的不精确,还可能会引起高差全率却是低查准率。 ( 2 ) 收集活跃登录用户的历史访问记录,分析他们的兴趣方向,预测他们的行为: 这一种方法是根据用户以往的兴趣爱好来进行预测推荐。这一种方法的局限是会出 现新的资源堆用户来说更有用一些的问题。p r 系统出现在很多领域以解决资源“爆 炸的问题,但是在教育领域中用到该技术的还比较少。 2 1 2 个性化推荐过程及优点 一般来说,个性化推荐过程可以主要包含四个部分:( 1 ) 把信息进行收集;( 2 ) 信 息类别区分和构建信息的一个模型;( 3 ) 对获取的信息进行分析;( 4 ) 对进行分析后可 6 硕士学位论文 m a s t e r 。st h e s i s 以推荐的资源进行推荐。第一步包含了收集用户信息和收集网络资源信息两个部 分。分析收集信息的方法有基于规则的过滤、基于内容的过滤和协同过滤以及w e b 使用挖掘。 将个性化e r 推荐网和传统的非p r 技术相互比对之后,总结它具有下面的一 些优点: ( 1 ) 让学生可以更加便捷的获取到他们想要得到的资源信息 已经有明确学习目标的学生也许可以借助一些检索系统来找到符合自己要求的 学习资源,但是对于许多只是随便看看网站上有什么资源的学生,他们也许还没有 确定的需要,要在海量的信息资源中找到满意的、符合自己兴趣的是非常困难和需 要有耐心的。引入推荐技术后,系统根据历史数据分析用户的行为模式,主动向其 推荐,可以将被动的浏览者变为主动的学习者。 ( 2 ) 使学生具有去访问网站获取知识资源的动力 当学生能便捷的获取到符合自己要求的资源的时候,便会更有兴趣的接着去访 问这个网站,去获取更多的资源,主动化得推荐系统主动向学生进行推荐,让他马 上看到自己感兴趣或者是应该学习的内容,使他们能够更多的访问学习网站并更有 目标性,学习的欲望会更强烈。这样网站积累的用户历史记录信息也越来越多,以 后的推荐准确度也会越来越高。 ( 3 ) 让学生在某个时间段能更多次的访问教育资源网 学生获取的资源信息准确,便捷,迅速,以后便会更加积极主动的访问网站, 而且一旦他们需要资源,便会立即访问该网站,这样提高了在单位时间内学生访问 网站的次数和频率,最终也为更好的积累历史数据提供了便捷。 2 2 过滤技术 认知过滤、社会过滤、经济过滤式信息过滤方法含有的三种过滤方法。将认知 过滤换一种说法就是我们知道的基于内容的过滤;社会过滤也被称为协同过滤。基 于内容的过滤和协同过滤是会被经常使用到的过滤方法,本章主要对这两个方法进 行介绍。 2 2 1 基于内容的过滤 基于内容过滤的技术是以资源信息为研究对象,先获取用户感兴趣的资源信 息,然后通过相似性计算公式计算得到其他资源与用户兴趣资源的相似度,通过比 较相似度的大小获取用户感兴趣的资源,当相似度在某个阈值范围内便推荐给用 户,相似度和推荐程度是成正比的关系,前者越大,推荐程度越高。所以,相似度 7 大小的计算是推荐的关键问题。“相似性的度量方法有余弦相似性、相关相似性、 皮尔森相关系数 。 ( 1 ) 余弦相似性:用户对项目的评分可以用向量进行保存,当用户没有对项目进 行评分的时候,把评分设为0 ,通过得到的各个用户的评价向量计算用户之间的相 似性。下面是余弦相似性的定义公式:i f 有两个向量x 和y ,则 c o s ) 2 南( 2 - 1 ) 其中,”表示向量点积,x y = :一。稚y 。,是向量x 的长度,删= :一,以2 ( 2 ) 相关相似性:不同用户看待事物的方式不同,对项目的评价准则也不同,余弦 相似性没有考虑到这个问题。该方法使用获取多个用户对项目的平均评价分,然后 再用用户的评价分减去该平均分,从而解决了评价准则不同的问题。 f f j i 。6 来表示用户a 和b 都进行过评分的项目,用皮尔森相关系数来表示l 和厶( 用户 评分向量) 之间的相似性,详细的数学表示公式见( 2 2 ) 。 s i m ( a ,6 ) = ( 白一r o ) ( r 。j 一) ( 2 - 2 ) 符号,= 表示用户埘某个项目的评价分数的均值。 吃表示某个用户b 对某个项目的评价分数的均值。在文献【1 3 】中作者对该相似 性计算公式做了一定得改进,是因为考虑到白- r , 以及饧一,6 的差的符号对最终结 果会有很大影响,改进之后的公式对此问题做了一定程度的解决。 基于内容的过滤系统具有很好的好处,但是也存在一定的问题,就是需要能够 将用户访问的资源信息内容表示成特征向量的形式,而且如果想直接得到其他用户 的某些评价分数情况,是不行的。如果抽取的向量表示不能很好的表示用户自己的 兴趣方向,那么用基于内容的过滤系统向目标用户推荐的信息资源根本不符合用户 兴趣,不能满足用户需求。 8 硕士学位论文 m a s t e r st h e s i s 2 2 2 协同过滤 协同过滤技术采用的就是基于邻居用户兴趣方向的方式,利用其他用户对资源 项目的喜好程度,来获取用户的相似性,或者通过相似用户对某些资源的共同的好 恶程度来预测某个用户对某个资源的评价,系统根据这些数据,都可以进行准确度 高的个性化的推荐。协同过滤算法主要分为两种:基于内存的协同过滤; 基于模型的协同过滤。基于内存的协同过滤可以从两个方面进行思考,一是基于 邻居用户,另一种是基于项目。 2 2 2 1 三种协同过滤思想 下面对以上三种协同过滤思想做简单的介绍: ( 1 ) 基于用于的协同过滤:这个过滤方法将某个用户的兴趣爱好和和其身边与其 具有相似兴趣爱好的人的兴趣爱好相互联系,目标用户需要通过从所有用户对项目 的评分形成的评价矩阵中寻找和自己具有相同兴趣爱好的用户群体,改协同过滤算 法包含三个步骤:收集信息,这些信息是用户感兴趣的。通过评价矩阵或者相 似性来寻找相似群体。根据相似群体的兴趣爱好产生推荐。该推荐算法有个缺点 就是随着用户数量的不断增加,计算量也随着会变的越来越复杂,这样性能方面就 变的越来越差。在现在这样一个对时间要求极高的世界里,人们是无法忍受打开一 个网页却长时间处于等待状态的。这一局限性限制了改算法的使用。 ( 2 ) 基于项目的协同过滤:该方法认为和用户喜欢的项目相似的项目都可能成为 用户下次喜欢的项目。例如基本上学习了数据结构的人,都必须学习c 语言。 喜欢c 语言的用户一般也会喜欢c + + 程序设计等。这种过滤方法也包含有三个步骤: 得到用户对项目的评分的数据,包括显示的和隐式的;计算用户未评分项目和 用户已经评分项目之间的相似性;产生推荐。基于项目的协同过滤的方法会计 算资源项目的相似性,然后利用计算结果来替代用户之间的相似性。由于资源项目 之间的相似性是不会有很大变化的,所以很多的计算工作可以不在网上进行,也就 是离线计算,这样对用户的访问速率不会造成很大的影响,也是它很大的优点。 ( 3 ) 基于模型的协同过滤:通过获取用户的历史记录,构造一个表示使用者兴趣 偏好的模型,构造中使用到了统计或者机器学习方法,再利用该模型进行资源推荐, 基于模型的协同过滤同基于项目的有某些共同点,就是可以离线计算,比较适合用 在大型的网站系统中,但该过滤算法也有它的缺点,就是建立模型的时间需求比较 多,建模工作量也比较大,所以采用循序渐进的方式进行模型建立,这样就导致新 的模型相对于旧的模型在数据同步上面有一定得延迟。本文所研究的校园r s 网相 9 硕士学位论文 m a s t e r st h e s i s 对于大型的电子商务系统是一个小型的系统,所以不需要采用此种基于模型的协同 过滤,因为在系统比较小时,改方法并不能体现出非常大的优越性。 2 2 2 2 协同过滤基本思想及体系结构 协同过滤的思想比较容易让人么理解和认可,他利用目标用户周围的邻居用户 的兴趣爱好和历史信息来预测单个用户的兴趣爱好。在日常生活中,人们往往会利 用好朋友的推荐来进行一些选择,协同过滤能够将用户进行分类,根据他们不同的 兴趣爱好,相同类型的用户具有相似的兴趣爱好。该系统构造一个用来存储用户评 分信息的d b ,以保存用户的兴趣爱好信息,而且系统需要用户对自己浏览的资源 信息进行评价或者评论,以表达自己的爱好程度,然后系统比较需要资源信息的用 户和与该目标用户在相同兴趣群体中的用户进行比较,为该用户推荐信息。人们对 信息进行评价可以是显式的,也可以是隐式的。显式的评价要求用户在浏览或者获 取完一个知识资源之后,通过系统提供的评分系统,直接根据自己的喜好进行打分。 隐式的评价则是通过获取用户类似评论的信息,或者用户对资源的关注程度,例如 点击率、下载次数、是否进行了收藏动作等,从这些数据中抽取数据来和用户评分 数据进行匹配,隐式的评价可以不需要用户直接对资源进行评分,在一定程度上减 少了用户的负担。 本文给出了下面的协同过滤系统的体系结构如图2 1 所示。用户对信息资源进 行访问给予评价,推荐引擎获取评价信息,结合评分数据库和用户的访问记录集, 然后运用推荐算法将信息资源推荐给用户。 图2 1 协同过滤系统体系结构图 2 。2 2 3 协同过滤的优缺点 同其他一些过滤方法比较,协同过滤包含了以下一些好处: ( 1 ) 对于机器不容易自动辨别并进行分析的一些信息,例如视频、歌曲等,它都可以 分析过滤。 ( 2 ) 使用其他人的兴趣历史数据,对一些比较复杂的,又难以表达的概念,比如一个 资源的优劣,某个人的品味等进行过滤。 l o 硕士学位论文 m a s t e r st h e s i s ( 3 ) 获取新的资源进行p r 。该方法可以可以寻找到和目标用户关注的资源完全不同 的资源,并且这些资源是用户根本没有想到的,这也是基于内容的过滤和协同过 滤的不同之处,前者进行的推荐很多都是用户原本就比较熟悉的,而后者可以发 现一些潜在的用户兴趣爱好1 4 引。 虽然协同过滤有其一定得优势,随着技术的不断深入研究以及网络技术的不断 扩展,电子商务系统的不断扩大,该技术的缺点也慢慢的被人们发现,目前发现的 主要缺点有冷开始、可扩展以及数据洗属性的问题。 ( 1 ) 冷开始问题:一个新的系统会有新的使用者,当新的使用者使用新系统的时 候,不能对系统中的资源进行评价,也就是没有评价历史记录数据,那么在进行推 荐的时候,由于历史数据记录过少而会产生不准确的推荐,有时甚至无法产生推荐。 但是在校园资源网中,这个问题可以得到解决,因为用户群体的评价数据我们可以 采用一些问卷的形式进行获取,因为群体比较集中,获取数据就很方便。 ( 2 ) 可扩展性问题:随着系统中资源数量和用户个数的不断增加,在整个用户空 间中找到和目标用户兴趣爱好相似的群体将变的越来越困难。从一些已经有的数据 来看,当相似的用户达到1 0 0 个( 在用加权平均为目标进行预测分数的时候) ,便 可以使得预测精度达到比较高的程度。但是在校园网e r 中,可以屏蔽该问题,因 为校园里的用户数量是相对稳定的,毕业的学生和新生的比例基本上是1 :1 的比 例,所以用户数量不会急剧增加,毕业的用户将不能再使用该门户网站,另外资源 数量的问题,当然,知识是无限的,但是校园里的教学资源相对比较稳定,可以在 某个固定的时间段内清除一些访问率非常低的资源和一些过时的资源。 ( 3 ) 数据稀疏性问题:资源数量不断增加就会发现用户对其评价数据就越来越 少,这是一个相对的过程,当评价数据数量不够得时候,就会产生评价矩阵中数据 稀疏的问题,对评价预测和推荐精度也会有影响。但是如果用在校园网e r 系统中, 该问题便可以得到屏蔽,因为一个校园内的资源相对于大型网站来说是比较小的, 对资源的评价可以采取用户调查,以及网上问卷调查的形式得出结果。这样就解决 了冷启动的稀疏问题。 2 2 3 评价方法 信息过滤系统的评价方法主要有两种,一种是查准率p ,表示符合用户兴趣的 资源个数在整体的过滤结果中占得百分比。另一种是查全率r ,表示过滤得到的资源 到底在总的资源中占了多大的比例。分别定义如下: p = 过滤结果中符合用户兴趣的资源个数过滤结果得到的总的信息条数 ,= 过滤结果中符合用户兴趣的资源个数所有资源中符合用户兴趣的全部信息条数 以上两个计算查准率和查全率的公式有他们的不足之处。当相关性阈值设置 不合理的时候,用户喜欢的资源信息无法正确的进行判断,因为有的资源可能不是 用户想要的。便无法精确地获取和用户兴趣模版相似的信息。查全率可能出现无 法正常计算的情况,因为资源信息总是不停地变化,而且资源数量不是固定不变的, 在这样的情况下查全率就无法计算。本文进行的查准率和查全率的计算式在以上两 个公式的基础之上进行的改了进,也在定程度上对上面的两个问题进行了解决。 2 3 本章小结 这一章节最开始介绍了p r 系统的概念、特点及其p r 的过程,p r 系统其实相 当于一个机器人,它能够事先知道用户想得到的资源内容,并且能对于不同的用户 来说,它可以提供不同的方法、程序、流程、策略,然后详细介绍了信息过滤技术 的一些有关的概念、方法、体系结构等等,对信息过滤技术的两种方法分别进行介 绍,并详细介绍了本文用到的协同过滤,对它的体系结构、分类、特点、优缺点进 行了介绍。 1 2 硕士学位论文 m a s t e r st h e s i s 第三章个性化兴趣模型构建与信息资源表示技术 这章的内容主要是对教育网涉及到的网络e r 进行特征提取,由于本文的推 荐利用协同过滤中基于用户和基于项目相结合的方式来进行推荐,所以必须对项目 和用户进行模型建立,这样才方便于推荐系统进行推荐,在建立学生用户模型时, 需要对学生进行兴趣分组,满足了协同过滤推荐的条件。 3 1 教育资源信息化表示方法 本文探讨的是校园e r 网的p r , 对网络使用范围以及网络内容进行了限制,广 义的e r 包括教学资料、支持系统、教学环境等组成部分,本文研究的是基于网络 的e r 获取,将这些教育信息资源都用信息化得方法进行表示。本节所讨论的范围 也将限于此。下面将简单对信息化e r 的概念定义进行说明。 3 1 1 相关定义 教学资源的定义非常多,根据不同的教学目的,不同的教学环境和对象,其定 义是不一样的,在查阅一些文献资料和结合本文的研究内容,给出如下几个定义: “教学资源是指蕴含了特定的教学信息并能创造曲教育价值的各种信息资源。 在文献 2 6 1 给出的定义是“教学资源是指组涵了特定的教育信息,那些可以提 供给学习者使用,能帮助和促进他们学习的各类信息资源。特别是能以数字信号在 互联网上进行传输的教学资源。数字化和教育价值是它的核心特征。力。在余胜 泉编写的由上海教育出版社2 0 0 4 年出版的信息技术与课程整合一网络时代的 教学模式与方法一书中,写到“通常认为,信息化教育资源属于信息资源的范畴, 是从狭义理解上的一种特殊的信息资源,是经过选取、组织,使之有序化的,适合 学习者发展自身的有用信息的集合”。本书所讨论的e r ,主要针对的是某个校园, 不同校园可能由于教学理念,学生层次、类型的不同,资源类型也不相同,但是这 些资源都包含了大量的教育性的信,能够让获取它们的学生从中学习到科学知识, 这些资源可以供单个学生使用,不存在连续性问题。 3 1 2 教育资源模型建立 按照教育部现代远程e r 建设技术规范中的规定,“现代远程e r 建设包括 媒体课件库、素材库、案例库、题库、和网络课程建设 。在文献【2 6 】中,作者根据 规定,总结了一些分类以及他们的定义。这些分类包括“媒体素材、题库、试卷素 材、课件、案例、文献资料、常见问题解答、资源目录索引、网络课程 。 1 3 硕士学位论文 m a s t e r st h e s i s d u b l i nc o r e ( 一个致力于规范i n t e r n e t 资源体系结构的国际性联合组织) 定义 了一个所有w e b 资源都应遵循的通用的核心标准,得到各个方面的支持和广泛的 使用。当然,也有一些其他的关于e r 的标准,但是他们基本上都能够兼容d u b l i n c o r e 标准,并且很多都是在d u b l i nc o r e 的基础上进行修改。d u b l i nc o r e 规定了基 于w e b 的资源1 5 个方面的信息,见表3 ,l 。 表3 1 基于w e b 的资源的信息 信息名称各注说明 标题资源的名称 创建看资源的创建者 主题资源的主题内容 描述资源的内容、介绍信息 出版者 正式发布资源的实体 贡献人资源生存期中作出贡献的实体 日期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论