(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据挖掘的个性化网络教学平台研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网与教育事业的日益融合,网络化教育已成为当今教育发展的新生长点 和现代教育技术主流的发展方向。当前的网络教学中普遍存在教学模式单一,教学资 源简单堆积,智能化程度低等问题,而接受教育的对象的学习能力、个人兴趣和习惯、 个人学习基础、努力程度,都存在巨大的差异。由此带来的是网络教学平台不能适应 学习者个性化需求的矛盾。 本文以国家网络教育技术规范( c e l t s ) 和w e b 数据挖掘技术为基础,研究网络教 学中的个性化服务问题,主要工作包括: 1 分析了国内外远程教育标准规范,研究了我国网络教育技术标准中与个性化 网络教学相关的学习者标准和教学资源标准。 2 研究了个性化网络教学设计的关键技术一w e b 数据挖掘。 3 分析了当前网络教学平台存在个性化服务不足,提出了个性化网络教学模型 一p e r s o n a l n e t w o r k t e a c h i n g m o d e l ( p n t m ) 。其中,学习者子模型以c e l t s 为 参照定义了学习者的基本信息和兴趣特征信息,并通过用户兴趣特征采集算 法收集学习者的兴趣特征,通过个性化提取算法向学习者提取已产生的推荐 内容;教学资源子模型定义了教学资源的基本信息;在研究w e b 数据挖掘的 基础上提出了w e b 访问事务模型,该模型定义了w e b 访问的频繁项集和关联 规则等概念。 4 研究了p n t m 的体系结构与工作原理。结合w e b 数据挖掘技术,p n t m 面向 学习者提供个性化的推荐服务和个性化的定制服务。 5 研究了p n t m 中个性化推荐服务的关键技术一一个性化推荐引擎,在个性化推 荐引擎中提出了个性化推荐算法,该算法根据学习者的兴趣特征的变化产生 不同的推荐内容。 6 展望了未来的研究工作和方向。 关键词:个性化网络教学,w e b 数据挖掘,p n t m ,个性化推荐算法 a b s t r a c t d i s t a n c ee d u c a t i o nh a sb e c o m et h en e w g r o w t hp o i n to fe d u c a t i o nd e v e l o p m e n ta n d p r i m a r yd e v e l o p i n gt r e n do fm o d e me d u c a t i o nt e c h n o l o g y t h e r ea r em a n yp r o b l e m si n c u r r e n td i s t a n c ee d u c a t i o n ,s u c ha s s i n g u l a r i t yt e a c h i n gm o d e ,e d u c a t i o n a lr e s o u r c e s t a c k i n gs i m p l y , l o wi n t e l l i g e n t i z e dl e v e le t c b u td i f f e r e n ts t u d e n th a sd i f f e r e n tl e a r n i n g c a p a b i l i t y , p e r s o n a li n t e r e s t ,p e r s o n a ll e a r n i n gf o u n d a t i o na n ds t r u g g l i n g l e v e l c o n t r a d i c t i o ng r o w su pb e t w e e nd i s t a n c ee d u c a t i o na n d p e r s o n a ld e m a n do fs t u d e n t b a s e do nn a t i o n a ld i s t a n c ee d u c a t i o ns t a n d a r d ( c e l t s ) a n dw e bd a t am i n i n g ,t h i s p a p e rm a i n l yd e a l sw i t hu s i n gp e r s o n a l i z a t i o ns e r v i c ei nd i s t a n c ee d u c a t i o n i t sm a i nw o r k i n c l u d e s : 1 a n a l y s i sd i s t a n c ee d u c a t i o ns t a n d a r da r o u n dt h ew o r l d t h el e a r n e rs t a n d a r da n d r e s o u r c es t a n d a r d ,w h i c ha r ec o r r e l a t e dw i t hp e r s o n a ln e t w o r kt e a c h i n g ,h a sb e e n s t u d i e d 2 t h er e s e a r c ho nw e bd a t am i n i n g ,w h i c hi st h ek e yt e c h n o l o g yf o rd e s i g n i n g p e r s o n a ln e t w o r kt e a c h i n g ,i sc a r r i e do u t 3 a n a l y s i st h ed i s a d v a n t a g eo fc u r r e n tn e t w o r kt e a c h i n gp l a t f o r m ,ap e r s o n a l i z a t i o n s e r v i c em o d e l ( p n t m ) i se s t a b l i s h e d b a s e do nc e l t s ,s t u d e n ts u b m o d e ld e f i n e s b a s i ci n f o r m a t i o na n di n t e r e s ti n f o r m a t i o no fs t u d e n t ,c o l l e c t ss t u d e n ti n t e r e s t c h a r a c t e rw i t hi n t e r e s tc o l l e c t i o na l g o r i t h ma n dd i s t i l l sr e c o m m e n d a t i o nr e s o u r c e w i t hp e r s o n a l i z a t i o no u t p u ta l g o r i t h m e d u c a t i o nr e s o u r c es u b m o d e ld e f i n e sb a s i c i n f o r m a t i o na n dc h a r a c t e ri n f o r m a t i o nf o rr e s o u r c e a f t e rs t u d y i n gw e bd a t am i n i n g w e ba c c e s st r a n s a c t i o nm o d e lw a sp r e s e n t ;i td e f i n e ss o m ei m p o r t a n tc o n c e p t ,s u c h a sw e ba c c e s sf r e q u e n ti t e m s e t s ,w e ba c c e s sa s s o c i a t i o nr u l e 4 t h er e s e a r c ho ns y s t e ms t r u c t u r ea n dp r i n c i p l eo fp n t m i sc a r r i e do u t c o m b i n i n g w i t l lw e bd a t am i n i n gt e c h n o l o g y , t h i sm o d e lp r o v i d es t u d e n tw i t l lp e r s o n a l r e c o m m e n d a t i o ns e r v i c ea n dp e r s o n a lc u s t o m i z a t i o ns e r v i c e 5 t h er e s e a r c ho np e r s o n a lr e c o m m e n d a t i o ne n g i n e ,w h i c hi st h ek e yt e c h n o l o g yo f i i p n t m ,i sc a r r i e do u t t h ep e r s o n a l i z a t i o nr e c o m m e n d a t i o na l g o r i t h mi sp r o p o s e d i n p e r s o n a l r e c o m m e n d a t i o n e n g i n e t h i sa l g o r i t h m g e n e r a t e sp e r s o n a l r e c o m m e n d a t i o nc o n t e n ta c c o r d i n gw i t hc h a n g i n go fs t u d e n ti n t e r e s tc h a r a c t e r 6 t h ed i r e c t i o n so f r e s e a r c hi nt h i sa r e aa r ei n 订o d u e e d k e y w o r d s :p e r s o n a ln e t w o r kt e a c h i n g ,w e b d a t a m i n i n g ,p n t m ,p e r s o n a l r e c o m m e n d a t i o na l g o r i t h m 1 i i 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适 学位论文作者签名: 枷f 。年6 月予日 、 指导教师签名乏二彩指导教师签名 职业= “秘书”,是布尔型关联规则:性别= “女” _ a v 2 ( 收入) = 2 3 0 0 ,涉及的收入是数值类型,所以是一个数值型关联规则。 ( 2 ) 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在 单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的: 而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:i b m 台式 机= s o n y 打印机,是一个细节数据上的单层关联规则;台式机= s o n y 打印机,是一 个较高层次和细节层次之间的多层关联规则。 ( 3 ) 基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在 单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关 联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个 属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒= 尿布,这条规则只涉及到用户的购买的物品:性别= “女”= 职业= “秘书”,这条规 则就涉及到两个字段的信息,是两个维上的一条关联规则。 3 5关联规则挖掘算法 实现关联规则挖掘的算法很多,下面主要研究一些典型的关联规则算法。 1 a p r i o r i 算法 a p r i o r i 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。a p r i p n 算法 使用一种称作逐层搜索的迭代方法,k - 项集用于探索( k + 1 ) 一项集。首先,找到频繁1 一 项集的集合。该集合记作l l 。l 1 用于找频繁2 一项集的集合l 2 。而l 2 用于找l 3 , 如此下去,直到找到频繁k 项集。a p r i o r i 算法的基本思想是:频繁项集中的任何子 集一定是频繁的。 a p r i o r i 算法伪代码如下: a p r i o r i 算法的候选产生并检查方法大幅度压缩了候选项集的大小,并导致很好的 性能。但是它也带来了不可忽略的问题: a p r i o r i 算法可能需要产生大量的候选项集。如果频繁1 一项集的数量达到0 。个以 上,则a p r i o r i 算法需要产生,d 7 个候选2 一项集,并且要累计和检查他们的频繁性。 当频繁项集中的模式长度过长时,将会产生大量的候选; 对于支持度较低的频集无法进行分析。由于最小支持度阈值m i n s u p 的限制,所 以就无法对小于m i n s u p 的事件进行分析;而如果将m i n s u p 设成一个很低的值, 那么算法的效率就成了一个很难处理的问题。 基于以上的考虑,可以采用其它的关联规则挖掘算法。 2 f p 增长算法 针对a p r i o r i 算法的固有缺陷,j h a n 等提出了不产生候选挖掘频繁项集的方法一 f p 一树增长算法”。该算法采用分治的策略:首先,将频繁项集压缩到一棵频繁模式 树中,同时保留项集间的关联信息;随后,将这种压缩后的数据库分化为一组条件数 据库,每个关联一个频繁项,并分别挖掘每个数据库。 算法:f p 增长。使用f p 树,通过模式段增长,挖掘频繁模式。 输入:事务数据库d ;最小支持度阈值m i ns u p 。 输出:频繁模式全集; 算法概要: 1 ) 按步构造f p 树: 扫描d ,收集频繁项的集合f 和他们的支持度。对f 按支持度降序排序 结果为频繁项表l 。 创建f p 树的根节点,对d 中的每个事务t r a n s ,执行: 选择t r a n s 中的频繁项,并按l 中的次序排序。设排序后的频繁项表为 p i p ,其中p 是第一个元素,而p 是剩余的元素。调用i n s e r t _ t r e e ( p p ,t ) 。 执行情况如下。如果t 有子女n 使得n i t e m n a m e = p i t e m n a m e ,则n 的 计数增1 ;否则创建一个新节点n 。使其计数设置为1 ,连接到它的父节 点t ,并且通过节点链结构将其链接到具有相同i t e m 1 l a m a 的节点。如 果p 非空,递归的调用i n s e r t 。_tree(p,n) f p 增长的方法将发现长频繁模式的问题转换为递归地发现一些短模式,然后链接 后缀。他使用最不频繁的项作后缀,提供了好的选择性。 当原始数据量很大的时候,也可以结合划分的方法,使得一个f p - t r e e 可以放入主 存中。实验表明,f p g r o w t h 对不同长度的规则都有很好的适应性,同时在效率上较 之a p r i o r i 算法有巨大的提高。 3 基于划分的方法。 s a v a s e r e 等”设计了一个基于划分( p a r t i t i o n ) 的算法,这个算法先把数据库从逻辑 上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产 生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这罩分块的 大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确 性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行 的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束 后,处理器之间进行通信来产生全局的候选k 一项集。通常这里的通信过程是算法执行 时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。其 他的方法还有在多处理器之间共享一个杂凑树来产生频集。 4 基于采样的方法。 m a n n i l a 等“考虑到基于前一遍扫描得到的信息,对此仔细地作组合分析,可以 得到一个改进的算法,他们认为采样是发现规则的一个有效途径。随后又由 t o i v o n e n “8 1 进一步发展了这个思想,先使用从数据库中抽取出来的采样得到一些在整 个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。t o i v o n e n 的算 法相当简单并显著地减少了i o 代价,但是一个很大的缺点就是产生的结果不精确, 即存在所谓的数据扭由 ( d a t as k e w ) 。分布在同一页面上的数据时常是高度相关的,可 能不能表示整个数据库中模式的分布,由此而导致的是采样5 的交易数据所花费的 代价可能同扫描一遍数据库相近。 5 基于散列的方法 该算法由p a r k 等在1 9 9 5 年提出”“。通过实验发现寻找频繁项集的主要计算是在 生成频繁2 项集l 2 上,p a r k 就是利用这个性质引入散列技术来改进产生频繁2 项集 的方法。 其基本思想是:当扫描数据库中每个事务,由c 1 中的候选1 项集产生频繁l 项 集l l 时,对每个事务产生所有的2 项集,将它们散列到散列表结构的不同桶中,并 增加对应的桶计数,在散列表中对应的桶计数低于支持度闽值的2 项集不可能是频繁 2 项集,可从候选2 项集中删除,这样就可大大压缩了要考虑的2 项集。 3 6本章小结 个性化网络教学中的模式发现是一项关键步骤,频繁的访问模式是向学习者产生 推荐内容的基础,而发现这些频繁访问模式的工作学要利用到w e b 数据挖掘技术。 本章研究了w e b 数据挖掘技术,探讨了w e b 使用挖掘的数据模型和体系结构并分析 了由代表性的关联规则挖掘算法。 第四章个性化网络教学模型设计 结合国家远程教育技术标准及w e b 数据挖掘技术,针对网络教学平台中个性化服 务不足的问题,本章建立个性化网络教学模型p e r s o n a ln e t w o r kt e a c h i n g m o d e l ( p n t m ) ,该模型拓展传统网络教学平台的功能,为学习者提供个性化推荐服务 和个性化定制服务。该模型通过6 个模块实现个性化推荐服务和个性化定制服务;通 过3 个子模型对系统的关键角色学习者、教学资源和w e b 访问行为建模,学习者 子模型对学习者的基本信息和兴趣特征信息建模,采用资源子模型对网络教学资源建 模,采用w e b 访问事务模型对学习者在网络教学平台中的访问行为和访问模式建模。 4 1个性化网络教学模型研究 4 1 i 传统网络教学环境的改进 当前的网络教学平台的体系结构一般有三部分组成,分别是教育资源库、学习平 台和用户。教育资源库是一个媒体服务器,存储各种类型的教育资源;用户即学习者; 学习平台是一个w e b 服务器,通过w e b 的方式把教学资源展现给用户,用户可以 自由的选择学习资源。个性化的网络教学平台将原来教学平台中的学习平台进行了改 进,在此引入个性化服务模块,使得网络教学平台能够根据学生的个性特点有针对性 的提供教学资源。两种教学平台的对比如。f 图所示 图6传统网络教学环境 图7个性化网络教学环境 从上面的图示可以看出,传统网络教学环境和个性化教学环境本质上是一样的, 但是作为中间层的学习平台进行了扩展,使之能够根据学生的特点提供个性化的学习 界面。 个性化教学环境设计的核- t l , 是对个性化服务建模,通过模型建立对学习者、教学 资源和w e b 访问的形式化描述,并为个性化推荐算法设计奠定基础。 4 1 2p n t m 模型的结构 个性化网络教学服务是个性化服务在网络教学中的应用。个性化网络教学模型 p e r s o n a ln e t w o r kt e a c h i n gm o d e l ( p n t m ) 建立了在网络教学平台当中提供个性化 服务的模型结构。 p n t m 模型的功能就是在网络教学系统中跟踪学习者的兴趣变化,利用数据挖掘 得到的知识,从教学资源中动态的为学习者推荐教学资源;根据用户描述的资源兴趣 特征,为用户提供定制的教学资源。p n t m 的结构如图8 所示: 图8个性化网络教学模型( p n t m ) 该模型中包括了6 个主要的模块,他们分别是:预处理模块、关联规则挖掘模块、 个性化定制模块、用户特征提取模块、个性化计算模块和个性化提取模块。模型中还 有4 个资源库,分别是:w e b 访问事务库、教学资源库、频繁项集库和用户特征库。 预处理模块:预处理的主要功能是对服务器端的访问日志进行清洗和过滤,目 的是得到符合关联规则挖掘要求的事务数据。预处理工作主要分为四个部分: 数据清洗、用户鉴别、会话鉴别和序列鉴别。1 ) 数据清洗:将服务器原始目志 中的垃圾信息过滤掉,如嵌入h t m l 文件中的c s s 、j p g 等文件,这些访问记录 对挖掘来说是没有意义的条目,我们真正需要的是对含有教学内容的h t m l 访 问记录。2 ) 用户鉴别:用户鉴别的任务是得到同一客户访问的所有路径的集合。 3 ) 会话鉴别:对已识别出的用户的访问集合进行区分,找出提议用户的不同的 会话。4 ) 序列鉴别:序列鉴别的目的是找出用户的有意义的访问子序列。会话 鉴别的结果是用户访问序列的合集,而序列鉴别是在这个合集上找出若干个有 意义的子序列,形成用户在一次会话中多个相对独立的访问子序列。 一般的序列鉴别进行到这里就算完成了,本文在序列鉴别中加入了内容过 滤部分,即对己识别出的子序列从内容上过滤,本文采用对每种教学资源分类、 使用关键词的方法,将w e b 访问事务库中的每一个事务进行筛选,剔出那些分 类为“索引”、“导航”等一些中间页面,或者叫非内容页面,结果得到纯粹的 关于教学内容的页面、文件。预处理模块完成之后会得到针对网络教学系统的 w e b 访问事务数据库。 关联规魁挖掘模块这一部分的功能是在w e b 访问事务数据库的基础上找出 所有的w e b 访问规则。这一模块完成的工作是与业务领域无关的。采用的方法 是经典的a p r i o r i 算法。该模块的输出是w e b 访问频繁项集,这些频繁项集是 反映学习者学习轨迹的知识。 用户特征提取模块用户特征提取的目的是从用户的每次会话中提取访问兴 趣信息。用户兴趣特征是通过学习者子模型描述的,它定义了用户的基本信息 和兴趣特征信息,学习者子模型将在4 2 节详述。下面提出用户特征提取的算 法: i n t e r e s t c o l l e c t i o n 用户兴趣特征采集算法: 输入:用户特征库u ,教学资源库r ,链接结构表t ; 输出:当前学习者在本次会话中的兴趣序列集s e s s i o n _ s e q u e c e 方法: 学习者开始一次新的登陆时,启动如下过程: 1 1 从学习者登陆接口提取学习考标识u i d ; 2 1 初始化学习者访问数组a c c e s s e d : 3 ) 每当学习者访问一个链接f 4 )i f 学习者当前会话超时 5 ) f o re a c hu r li na c c e s s e d 】以r 中的r i d 替换a c c e s s e d 中的u r l 6 1调用序列鉴别算法s e q u e n c ei d e n f i f i g ( a c c e s s e d i ) ; 7 1输出兴趣序列集s e s s i o n _ s e q u e c e 至l j 用户特征库u :) 8 ) e l s ef 提取当前链接的u r l ,并比对链接结构表t ; 9 1i f 当前u r l 是导航链接 1 0 1丢弃当前u r l ,等待学习者产生下一次访问; 11 )e l s e 将当前u r l 加入a c c e s s e d 中; 用户每次登录后,系统开始记录用户的访问轨迹,从这些访问轨迹中过滤掉 非教学内容( 如导航和索引用页面) ,直到用户的这次访问会话结束,停止本次记 录。浚模块产生的结果是学习者的访问兴趣特征,这些特征描述了学习者在最近 一次会话中访问过的教学资源序列集,这些访问序列集在学习者本次会话结束时 被写入用户特征库。 个性化计算模块该模块是个性化网络教学模型中的关键模块。这一模块完成 的功能是根据用户的兴趣特征向其提供个性化的网络教学资源。 推荐内容的产生来自于三个参数:单个学习者的兴趣特征、访问网络教学系 统的频繁模式和教学资源。系统在用户的访问过程中收集最新的会话内容,即学 习者在一次会话中的访问序列,以此作为用户最新的兴趣描述;服务器曰志经过 预处理得到w e b 访问事务数据,再通过关联规则挖掘得到频繁项集,这些频繁项 集是关于学习者w e b 使用的规则,并且是经过内容过滤的,比单纯依靠页面问的 关系得到的频繁项集能更准确的放映用户的兴趣:教育资源是经过整理分类的各 种与教学有关的资源,包括课件、讲义、案例、文献、课堂讨论等内容。 个性化计算模块将用户最近一次会话中的访问序列输入推荐算法,通过匹配 相应的频繁项集,找出w e b 访问的强规则。并将该规则的后件作为推荐集合存入 用户特征库,用于用户下次登陆时向其推荐。这样,学习者在每一次新会话的 开始将得到系统为期量身定做的推荐内容。在第五章个性化推荐引擎的研究中将 提出一个个性化推荐算法,完成向学习者产生推荐内容的功能。 个性化提取模块个性化提取模块在每次用户登录的时候从用户特征库中提取 个性化内容,这些个性化内容是个性化计算模块利用用户上次登录时的兴趣 特征得到的。下面给出个性化提取算法: 个性化定制模块个性化定制模块根据用户选择的教学资源分类、课程选项、 讨论主题等兴趣特征,为学习者提供定制化的页面内容。比如用户会在网络 教学平台中选学三门课程的内容,并填写关于其他领域的兴趣选项,这样系 统在每次学习者登录以后,就可以为这个学习者提供关于这三门课程的教学 内容和其他领域的教学资料,当关于这些领域的新的教学资源产生的时候, 系统会及时更新。 w e b 访问事务库w e b 访问事务库中存储的是所有学习者对网络教学系统的访 问事务,每一个事务是一组内容页面的集合,反映了学习者一次有意义的访 问。原始的访问同志不符合关联规则挖掘的要求,因此需要在这些原始同志 的基础上建立反映用户访问的事务,个性化网络教学模型中的w e b 访问事务 子模型正是为此而建立的,这个模型定义了w e b 访问事务、w e b 访问的频繁 项集、w e b 访问的支持度等概念。 频繁项集库频繁项集库中存储的是从w e b 访问事务集中挖掘出的频繁项集, 这些频繁项集满足系统预定义的支持度阈值和置信度阈值,改变相应的闽值 会得到不同精确度的频繁项集。频繁项集是关于学习者使用系统行为的知识, 它反映了一段时期内学习者较为频繁的访问序列( 通过w e b 访问事务模型描 述) 。 教学资源库教学资源库存储的是的教学资源基本信息以及关于这些教学资 源的特征信息,教学资源的基本信息包括资源编号、资源名称、资源提供者 等基本信息,教学资源特征信息包括资源分类、资源关键词、资源的u r l 地 址等特征信息,它是连接用户模型和教学资源的桥梁。个性化网络教学模型 中的教学资源子模型定义了每一个教学资源的基本信息描述和特征信息描 述。 用户特征库用户特征库存储的是学习者的基本信息、兴趣特征和推荐内容 ( 通过学习者子模型描述) 。学习者基本信息描述了学习者的基本属性;兴趣 特征通过最新访问的教学资源r i d s 来表示,学习者在每次登录以后,系统就 会通过用户特征提取模块产生学习者最新的访问序列集;推荐内容是通过个 性化计算模块得到的教学资源r i d s ,学习者在下一次登录教学平台时,个性 化提取模块会将这些r i d s 转化为u r l 提交给学习者。 模型中的预处理模块和关联规则挖掘模块是在离线的状态下完成的。个性化定制 模块、用户特征提取模块和个性化推荐模块是在在线的状态下完成的, 4 1 3p n t m 模型的工作原理 个性化网络教学模型的运作分为两个部分:个性化推荐和个性化定制。 个性化推荐部分通过个性化推荐引擎完成( 第五章研究内容) ,分为知识挖掘流 程和推荐流程,其中知识挖掘流程是在离线状态下完成,推荐流程是在线状态下完成 的: 1 ) 服务器r 志记载一定时期内所有用户对网络教学系统的访问过程; 2 ) 预处理模块对服务器r 志进行处理。首先清理出无用的信息。其次进行客 户鉴别、会话鉴别、序列鉴别,得到w e b 访问事务数据库,在进行序列 鉴别的过程中,通过提取教学资源库中的教学资源特征信息过滤掉序列中 的非教学资源页面,最终得到由教学资源访问序列组成的w e b 访问事务 数据库; 3 ) 关联规则挖掘模块对w e b 访问事务数据库进行挖掘,找出w e b 访问事务 库中所有的频繁项集,并将这些频繁项集存入频繁项集库中,形成频繁的 教学资源访问模式; 4 ) 当用户登录时,首先向用户提取上次个性化计算得到的推荐内容;其次用 户特征提取模块根据学习者在用户接口所做的访问操作,记录用户在本次 会话过程中访问的资源序列。因为用户的访问序列必然包括教学资源页面 和中间的导航页面,要得到精确的学习者对教学资源的兴趣特征必须剔除 掉这些中间页面,用户特征提取模块通过提取教学资源库中的教学资源特 征信息,过滤掉会话序列中的中间页面,并将最新的资源序列存入用户特 征库; 5 ) 个性化计算模块从用户特征库中提取用户的最新访问特征信息,其次从频 繁项集库中寻找与用户特征匹配的访问模式,再利用第五章介绍的个性化 推荐算法为学习者产生待推荐的页面集合,最后将计算的推荐内容存入用 户个性化特征库,以备用户下次登陆时提取。 个性化推荐服务的工作流程图如下: 知识挖掘流程 推荐流程 图9个性化推荐流程 个性化定制的工作原理: a ) 初次登陆时,要求用户注册所要学习的课程并对感兴趣的知识领域进行 定制; b ) 检查是否有新的教学资源的, o n a ,过滤掉与用户兴趣特征不同的内容, 将剩余的内容以最新t o p n 提供给用户; c ) 个性化定制模块从用户特征库中提取用户注册的课程内容,以我的课程 提供给用户操作; d ) 检查用户是否要注册新的课程或修改其感兴趣的知识领域,变更用户特 征信息。 个性化定制的流程图: 个性化定制流程 图1 0 个性化定制流程 4 2 学习者子模型设计 为了向学习者提供个性化的内容,首先要收集关于学习者的兴趣特征信息,只有 这样才能有针对性地产生推荐内容。为此,本节建立对学习者进行描述的学习者子模 型。该子模型中包括学习者基本信息、学习者兴趣特征信息、学习者的定制信息以及 向学习者推荐的信息。 4 2 1 学习者个性化信息的描述与获取 学习者的个性化信息包括学习者的基本信息和对教学资源的兴趣信息。学习者的 基本信息指的是学习者的自然属性信息( 如姓名、性别、出生日期等) 和有关管理( 交 费信息) 、安全( 密码信息) 、绩效( 学习成绩等) 和作品集( 个人作品与集体作品信 息) 的信息。 学习者对教学资源的兴趣信息是经常变化的内容。由于w e b 学习者对教学资源的 地获取途径基本上是浏览,因此用户的既往浏览教学资源中包含有用户的个性化特 征,用户对教学资源的访问次数越多,说明用户对该教学资源的兴趣度越高。因此, 本文在描述用户对于教学资源的兴趣的时候采用最近访问特征提取,即用户每次登录 的时候开始记录用户在这一次会话中的访问内容,将其作为用户最新的访问兴趣。学 习者子模型采用用户上一次登录过程中得到的序列集作为用户对教学资源的兴趣描 述,这些序列是在对会话内容进行序列鉴别后得到的。 不可避免地,用户在一次会话中的访问内容会包含一些导航页面,p n t m 模型对 用户的一次会话内容进行序列鉴别后,再从页面的内容上对每个序列进行过滤,得到 只包含教学内容的序列集,最后,将这些序列集作为用户对于教学资源最新的兴趣特 征传递给个性化推荐模块产生推荐内容。 用户个性化兴趣信息的捕捉有两种方法: 由系统记录用户的访问特征。记录的结果有两种作用,一种作用是形成系统 的访问日志文件,然后分析日志文件形成访问规则信息,如服务器产生的r 志文件;另一作用是形成单个用户的最新兴趣特征信息,如4 1 2 中用户特征 提取算法完成的功能。 通过用户填写表单来提供自己的个性化信息。这种方式的优点是能比较准确 的反映用户的需求和兴趣。但要求用户主动填写,所以系统不能主动跟踪用 户的兴趣变化。 在p n t m 模型中,采用第一种方法为学习者提供个性化的推荐服务,采用第二种 方法为用户提供个性化的定制服务。 4 2 2 学习者子模型基本描述 个性化网络教学模型中对学习者的描述是通过学习者子模型来实现的。学习者子 模型定义了在网络教学环境下学习者的基本特征和个性化兴趣特征。 基本特征描述了一个学习者作为一个独立的学习主体所应具备的基本信息内容。 本文提出的学习者基本特征借鉴了中国网络教学技术标准( c e l t s ) 中关于学习 者的学习者模型规范( c e l t s l l v 1 o ) 中的部分内容。 学习者模型没有也不会涵盖学习者的所有信息,它只是关注与网络教学密切相关 的学习者信息。规范中列举出的每一类每一条数据项,有些是必须的,有些是可选的。 随着网络教学的发展,该规范也会不断地改变。为了方便地引入改变,在规范里每一 类信息中都留有扩展的余地,它允许规范的使用者根据实际需要增加新的学习者信 息。 c e l t s 学习者信息模型中包括八类关于学习者的信息:个人信息数据、学业信息 数据、管理信息数据、关系信息数据、安全信息数据、偏好信息数据、绩效信息数据、 偏好信息数据、作品信息数据。在这八类信息中,本文提取了这八类信息中的部分字 段作为学习者子模型中的属性。 学习者子模型的形式化定义如下: 定义1 :学习者子模型定义 e l e a r n e rm o d e l = b a s i ci n f o r m a t i o n , c h a r a c t e r i s t i c i n f o r m a t i o n ,c u s t o m i z a t i o ni n f o r m a t i o n ,r e c o m m e n d i n f o r m a t i o n 其中: b a s i ci n f o r m a t i o n :学习者的基本特征信息: c h a r a c t e r i s t i ci n f o r m a t i o n :学习者兴趣特征信息: c u s t o m i z a t i o ni n f o r m a t i o n :学习者定制化特征信息; r e c o m m e n di n f o r m a t i o n :向学习者推荐的个性化信息。 定义2 :学习者基本特征信息 b a s i c i n f o r m a t i o n 。 u i d ,p e r s o n a l _ i n f o ,a d m i n i s t r a t i o n _ i n t o ,s e e u r i t y _ i n f o , p e r f o r m a n c ei n f o ,p o r t f o l i oi l i f 0 1 其中: u i d :学习者身份编码; p e r s o n a li n f o :个人信息; a d m i n i s t r a t i o ni n f o :管理信息: s e c u r i t yi n f o :安全信息; p e r f o r m a n c ei n f o :绩效信息; p o r t f o l i oi n f o :作品集信息; p e r s o n a l _ i n f o2 n a m e ,t e l e p h o n e ,e m a i l ,p o s t a l _ a d d r e s s , n a t i o n a l i t y , f o l k , n a t i v ep l a c e ,b i r t hp l a c e ,b i r t h _ d a t e ,g e n d e r , i d _ n u m b e r , l a n g u a g e ,h e a l t h 其中: n a n l e :学习者姓名; t e l e p h o n e :学习者电话; e m a i l :学习者电子邮件; p o s t a la d d r e s s :通信地址; n a t i o n a l i t y :国籍; f o l k :民族; n a t i v ep l a c e :籍贯; b i r t hp l a c e :出生地: b i r t hp l a c e :出生日期; g e n d e r :性别: i dn u m b e r :身份证号; l a n g u a g e :语言; h e a l t h :健康状况; a d m i n i s t r a t i o n i n f o2 f a r e s _ i n f o ,a w a r d i n f o ,p e n a l t yi n f o ,g r a d u a t ec e r t i f i c a t e ) 其中: f a r e si n f o :费用信息; a w a r di n f o :奖励信息; p e n a l t y _ i n f o :惩罚信息; g r a d u a t e _ c e r t i f i c a t e :毕业证信息; s e c u r i t y _ i n f o = p a s s w o r d 其中: p a s s w o r d :密码: p e r f o r m a n c e i n f o2 r e c o r d i n g _ d a t e _ t i m e ,v a l i d d a t e t i m e ,v a l i dd a t et i m e _ e n d , i s s u e _ f r o m _ i d e n t i f i e r , i s s u e d a t e t i m e ,p e f o r m a n c e _ v a l u e 其中: r e c o r d i n g _ d a t et i m e :记录时间 v a l i dd a t et i m e :生效时间 v a l i dd a t et i m ee n d :失效时间 i s s u ef r o mi d e n t i f i e r :颁布者 i s s u ed a t et i m e :颁布时间 p e f o r m a n c e _ v a l u e :绩效值 p o r t f o l i o _ i n f o = m e d i ai d _ t y p e ,m e d i a _ i d ,m e d i a l o m l i s t ,m e d i a 啊p e r f o r m a n c e _ l i s t ) 其中: m e d i ai d _ t y p e :媒体类型 m e d i ai d :作品相关媒体 m e d i al o ml i s t :相关l o m 引用的记录 m e d i ap e r f o r m a n c e :相关的绩效_list 关于管理信息、安全信息、绩效信息和作品集信息,子模型应用了c e l t s l l v i 0 中的部分属性。 定义3 学习者兴趣特征信息 c h a r a c t e r i s t i ci n f o r m a t i o n = u i d ,l a t e s t s e s s i o n n u m b e r l a t e s t s e s s i o n _ t i m e _ s t a r t ,l a t e s ts e s s i o n t i m e _ e n d ,l a t e s t s e q u e n c e 其中: u i d :学习者身份编码; l a t e s ts e s s i o nn u m b e r :上次的会话编码: l a t e s ts e s s i o nt i m es t a r t :上次会话开始时间; l a t e s ts e s s i o nt i m ee n d :上次会话结束时间; l a t e s ts e q u e n c e :最新的会话序列集; 定义4 学习者定制化特征信息 c u s t o m i z a t i o ni n f o r m a t i o n2 u i d ,l e s s i o n l _ n u m b e r , l e s s i o n 2 _ n u m b e r l e s s i o n 3 _ n u m b e r , p e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论