(计算机应用技术专业论文)教学资源配送系统中个性化规律的挖掘.pdf_第1页
(计算机应用技术专业论文)教学资源配送系统中个性化规律的挖掘.pdf_第2页
(计算机应用技术专业论文)教学资源配送系统中个性化规律的挖掘.pdf_第3页
(计算机应用技术专业论文)教学资源配送系统中个性化规律的挖掘.pdf_第4页
(计算机应用技术专业论文)教学资源配送系统中个性化规律的挖掘.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 当前在中小学资源配送的过程中存在不少问题,如用户购买了一部分本学校不需 要的资源;用户在使用过程中资源得不到及时的更新;支付昂贵的技术支持费用。解 决这些问题的一 种最好的方案是采用网络的个性化推送模式。中小学资源配送的趋势 是向 着网络化、个性化的方向发展。为了实现个性化推送,就必须对用户个性化规律 进行分析。通过对用户个性化规律的挖掘,能够主动发现用户需求,为资源库库内搜 索提供可靠依据,从而实现教学资源的智能推送过程。 这样学校用户就可以购买需要的符合教学要求的资源;并且在用户使用教学资源 的过程中,资源库的功能及内容等都能够得到及时有效的更新。通过网络化的个性化 配送,不仅仅学校用户节省了大量的资金,供应商在销售环节和售后服务环节等都节 省了大量的人力物力,工作效率也应有大幅度的提高。 为了探讨解决这些问题的途径,本文在详细分析了数据挖掘特点的基础上,构建 了一种中小学信息资源库基本架构和其上的服务模式。 通过决策树数据挖掘技术把用 户划入标准用户类,来预测用户未来对哪些教育资源有需求;用标准用户类的属性描 述用户需求模型,把资源配送给用户,以便资源的个性化推送,并针对不同类的用户 提供不同的服务。然后根据用户使用资源的不断反馈来修改用户需求模型,从而提高 仁s e r v i c e 中个性化服务的 质量。 本文通过全国1 0 0 所中 学的实际数据实现了应用决策 树分类技术进行资源库用户分类的方法,得到详细地分类规则;并且根据分类规则完 成了对实际客户的资源个性化推送。 关键词:决策树数据挖掘;资源配送;教育资源库;个性化规律;用户需求模型 ab s t r a c t n o w , t h e r e a r e m a n y p r o b l e m s i n t h e p r o c e s s o f s u p p l y i n g r e s o u r c e s f o r m i d d l e - e l e m e n t a r y s c h o o l s . f o r e x a m p l e s , c u s t o m e r s p u r c h as e p a r t s o f r e s o u r c e s n e e d l e s s t o t h e m , t h e r e s o u r c e s c a n n o t b e u p d a t e d i n t i m e d u r i n g t h e c o u r s e o f u s e s b y c u s t o m e r s a n d t h e y h a v e t o p a y e x p e n s i v e c o s t o f t e c h n o l o g i c a l s u s t a i n m e n t . t o s o lv e t h e s e p r o b l e m s , o n e o f t h e b e s t m e t h o d s i s t o a p p l y t h e p e r s o n a l i z e d s u p p l y m o d e l o f we b . t h e t e n d e n c y o f s u p p l y in g r e s o u r c e s o f m i d d l e - e l e m e n t a ry s c h o o l s i s t o d e v e l o p w e b a n d p e r s o n a l i z a t i o n . i n o r d e r t o r e a l iz e p e r s o n a l i z e d s u p p l y , i t i s r e q u i r e d t o a n a l y z e p e r s o n a l i z e d r u l e s o f c u s t o m e r s . b y t h e d a t a m i n i n g t o c u s t o m e r s p e r s o n a l i z e d r u l e s , w e c a n a c t i v e l y fi n d t h e d e m a n d s o f c u s t o m e r s , p r o v i d e r e l ia b l e b ase s t o s e a r c h i n t h e d a t a b a s e o f r e s o u r c e s , a n d r e a l i z e t h e i n t e l l i g e n t s u p p l y o f e d u c a t i o n al r e s o u r c e s . t h e r e f o r e , c u s t o m e r s c a n p u r c h a s e r e s o u r c e s s u i t e d t o t h e i r e d u c a t i o n al r e q u i r e m e n t a n d t h e f u n c t i o n s a n d c o n t e n t s o f r e s o u r c e d a t a b a s e c a n b e e ff e c t i v e l y a n d t i m e l y u p d a t e d i n t h e p r o c e s s o f u s i n g t h e e d u c a t i o n a l r e s o u r c e s . t h a n k s t o t h e p e r s o n a l i z e d s u p p l y , n o t o n l y s c h o o l s s a v e a l a r g e a m o u n t o f m o n e y , b u t p r o v i d e r s c a n al s o e c o n o m i z e l o t s o f m e n a n d m a t e r i al r e s o u r c e s i n t h e s t a g e s o f s a l e s a n d a ft e r s e r v i c e s a n d l a r g e l y im p r o v e t h e e ff i c i e n c y . a i m i n g f o r s o l v i n g t h e s e p r o b l e m s , b a s e d o n d e t a i l e d l y a n a l y z i n g t h e f e a t u r e s o f t h e d a t a m i n i n g , t h e p a p e r f o u n d s a b a s i c f r a m e o f i n f o r m a t i o n r e s o u r c e d a t a b a s e o f m i d d l e - e l e m e n t a r y a n d s e r v i c e m o d e l t i e d t o i t . t h r o u g h t h e t e c h n i q u e o f d a t a m i n i n g o f t h e d e c i s i o n t r e e s , c u s t o me r s a r e c l ass i f i e d t o t h e s t a n d a r d c l a s s e s o f c u s t o m e r s a n d w e c a n p r e d ic t w h a t e d u c a t i o n a l r e s o u r c e s c u s t o m e r s r e q u i r e i n t h e f u t u r e . t h e d e m a n d m o d e l u s e s t h e a t t r i b u t e s o f s t a n d a r d c la s s e s o f c u s t o m e r s t o d e p i c t c u s t o m e r d e m a n d m o d e l , m a t c h e s r e s o u r c e s t o c u s t o m e r s t o r e al i z e p e r s o n al i z e d s u p p l y o f r e s o u r c e s a n d p r o v i d e s d i ff e r e n t s e r v i c e s t o s u f f i c e d i ff e r e n t c u s t o m e r s . a t t h e s a m e t i m e , t h e m o d e l r e v i s e s a n d i m p r o v e s i t s e l f b y c o n t i n u o u s f e e d b a c k s o f t h e c o n d i t i o n s o f c u s t o m e r s u s e s a n d t h u s e n h a n c e s t h e q u a l i t i e s o f p e r s o n al i z e d s e r v i c e s i n t h e e _ s e r v i c e s . b a s e d o n th e o n e h u n d r e d m i d d l e s c h o o l s o f c h i n a , t h e p a p e r r e al i z e s a m e t h o d u s i n g t h e d e c i s i o n t r e e t o c l a s s i f y c u s t o m e r s o f r e s o u r c e d a t a b a s e a n d o b t a i n s a d e t a i l e d r u l e o f c l a s s i f i c a t i o n , w h i c h i s u s e d t o c o m p l e t e t h e p e r s o n a l i z e d s u p p l y o f r e s o u r c e s t o a p r a c t i c al c u s t o m e r . k e yw o r d s : d e c i s i o n t r e e d a t a mi n i n g ; r e s o u r c e s u p p l y ; e d u c a t i o n a l p e r s o n a l i z e d r u l e ; c u s t o m e r d e m a n d mo d e l da t a b a s e ; 独创性声明 本人声明所呈交的学位论文是本人在导师指导 下 进行的研究 作及取得的研究成果。据我所知,除了文中特别加以标柱和致 谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东北师范大学或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均己 在论文中作了明确的说明并表示谢意 厂|liesll际日尸阴岸 学 位 论 、 作 者 签 “ : a 李一 日 ” : 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、 使用学位 论文的规定,即:东北师范大学有权保留并向国家有关部门或机 构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权东北师范大学可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编 学位论文。 ( 保密 的学位论文在解密后适用木授权书 ) 学位论文作者签名: 日期:练 指导教师签名: 日期:鱼 生 圣 西 l , . r . 价 .$ 学位论文作 工作 单位: 通讯地址: 电话: 邮编: 引言 、基础教学资源配送现状 目前中小学教学资源的配送过程大多是教育软件公司 一 次性的把学校购买资源库 的所有内容安装在学校的服务器上。 这个过程就决定了, 如果学校购买的资源库升级, 必须山资源库的制作方面的技术支持人员逐个的把升级模块安装到学校的服务器上 , 使教学资源库得到更新。山于资源库制作方人力有限,而用户多覆盖全国各个省市 及 所属地区,这样就造成了虽然生产方积极主动地研发并生产符合新课程标准的资源, 但是用户的资源库却没有得到及时有效的更新 ” 。 在生产资源库的过程中,资源库的内容是生产方按照课程标准、按照教学的一般 特点统 一 制定的,并没有根据用户属性和需求做个性化分析。这样虽然用户得到的资 源保持了基本教学功能,但却失去了学校教学的特色;或者说,在学校的特色教学方 i ft l 没有发挥作用。 在学校购买资源库时,由于销售方的资源库是统一制定的,所以学校购买资源是 不能选择的,个别销售方可以按照学科的划分来进行销售。那么当特定情况出现时, 用户就会购买不必要的教学资源。比如说:学校己经购买了销售商a 的资源库,虽然 此资源库能够满足教学的大部分要求,但是发现它满足不了学校课外活动中的 “ 书法 课外活动小组”和 “ 小合唱团”的要求,该库中这方面的资源基木为零。所以学校决 定再购买此类资源。寻找后发现销售商q 销售的教学资源中,此类资源十分丰富和有 特色, 但是该销售商的资源库是整体出售的, 也就是说, 如果除了要购买此类资源外, 还要重复购买其它资源。 二、资源配送中存在的问题 了解了中小学校资源购买和使用的基本情况后,我们可以看到,在中小学资源配 送的过程中存在以下问题: 1 、用户购买了一部分本学校不需要的资源。 2 、用户在使用过程中资源得不到及时的更新。 3 、支付昂贵的技术支持费用。技术支持工 _ 作内容是为购买资源的学校进行安装、 调试。而且当产品升级时需要为用户更新教学资源。目 前,大批技术支持人员常年奔 波十各学校之间, 但是由于用户众多, 中小学资源库中的资源还是得不到及时地更新 三、出现问题的原因 有许多问题导致出现以上问题,经过我们的分析得出有以下原因: 、资源配送中心, 公共网络或中小学校园网的服务质量不能达标, 没有能力进朽 在线资源个性化w送或在线自动升级。 2 、由于 悄售商研发能力有限,不能够提供个性化配送和在线自 动升级等功能 3 、处在资源库开发初期,由于符合教学的资源有限,并不需要进行个性化配送。 四、中小学教学资源配送的发展趋势 中小 学资源配送的趋势是向 着网 络化、 个性化的方向 发展 ,。” 。 由十采用网络的个 性化推送模式,学校用户就可以购买需要的符合教学要求的资源,而不必再为闲置的 资 源付费:认 ” : 在用户使用教学资源的过程中, 资d库的功能及内 容等都能够得到及时 有效的更新。并且当用户对教学资源有特殊需要的时候,可以在线发出请求,提出要 求,要求即时传送资源。即便资源还不够符合用户要求,用户也可以通过资源共亨服 务,r陆供应商的资源库远程服务器,自主选择所需资源;通过网络化的个性化配送 - ) , 小仅仅学校用户节省了 大量的资金, 供应商在销售 环节和售后服务环一节 等都节省 了 大9 . 的人力 物力,工作效率也应有大幅度的提高。 五、本文重点研究内容 本选题为“ 基于工 n t e r n e t 的吉林省中小学教育资源配给中心” 中的子课题“ 智能 推送模块”中的研究内容。用户个性化规律挖掘的目的是主动发现用户需求,为资源 库库内搜索提供可靠依据,从而实现教学资源的智能推送过程。 主要的研究内容为基本用户类的建立,用户分类规则的建立和库内资源搜索模型 的建立。通过全国 1 0 0所中学的实际数据实现了应用决策树分类技术进行资源库用户 分类的方法,得到详细地分类规则;并且根据分类规则完成了对实际客户的资源个性 化推送。 第 、 章重点介绍系统中采用的基本理论、方法和技术:其中主要介绍了 数据挖掘 技术的基本理论、发展现状和挖掘方法、过程和内容。 第二章介绍了资源配送系统的整体结构;其中主要介绍了资源配送系统的总体结 构、子模块的结构及功能。 第三章建立了用户分类规则,也是本文的重点研究内容。首先根据资源配送的特 点,建立了 标准用户类;再用决策树数据挖掘的方法得出用户分类规则;并给出了 根 据用户需求模型进行库内搜索的算法。 第四章给出了本文研究内容的表达机制。 第五章以 东北师范大学附属中学为例进行实例分析; 得出 此学校的用户需求掉t o . 第一章、系统基本理论、方法和技术 本文构建的用户的个性化分析和资源的主动配送系统是 一 个教学资源主动配送系 统,它涉及的关键技术是数据挖掘等技术。为了更好理解本系统的基本理论以及涉及 到的与数据挖据有关的技术, 首先对数据挖据的基本内容、 研究现状进行必要的阐述 1 . 1 数据挖掘的定义 1 . 定义 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实 际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术。其中主要特点是 对商业数据库中的大量业务数据进行提取、转化、分析和模式化处理,从中提取辅助 it rj 业决策的 关键知识,即从一 个数据库中自 动发现相关商业模式lr l o 2 . 数据挖掘与k d d 的区别 k d d是一个综合的过程,包括实验记录、迭代求解、用户交互以及许多定制要求 和决策设计等,而数据挖掘只是k d d 中的一个具体但又关键的步骤9 , 10 3 . 数据挖掘与传统数据分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息, 与传统的数据分析( 如查询、 报 表、 联机应用分析) 的本质区别是数据挖掘是在发现知识。 数据挖掘所得到的信息应具 有先前未知, 有效和可实用三个特征川 。 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或 知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就 是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 数据挖掘最吸引人的地方就是能够建立预测型而不是回顾型模型。将数据挖掘与 传统的数据分析进行比较( 见表 1 ) ,可以发现传统数据分析重点在于向管理人员提仁 过去己经发生什么,描述过去的事实。例如,上个月的销售成本是多少。而数据挖掘 则在于预测末来的情况,解释过去所发生事实的原因。例如,下个月的市场需求情况 怎样,或者某些客户为什么会转向竞争 对手 。 1 . 2 数据挖掘的研究现状 1 . 2 . 1 研究历史 从数据库中发现知识 ( k d d )一词首次出现在 1 9 8 9 年举行的第 十 一届国际人1 _ 智 能联合 会议的专题研讨会上。到 1 9 9 5年,在美国计算机年会h 人工智能协会主办的 k d d国际研讨会己经召开了8次, 规模由原来的专题讨论会发展到国际学术大会,研 究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种 学科之间的相勺 _ 渗透川 。 表 1 数据挖掘工具与传统数据分析工具的比较 传 统 数 据 分 析数 据 挖 掘 特点回顾型的、验证型 的、 分析重点 己经发生了 什么 分析 目的 数据 集成 大小 预测未来的情况、解释发生的 原因 预测未来的情况、解释发生的 原因 锁定未来的可能客户,以减少 未来的销售成本 数据维、维中属性数、维中数 据均是庞大的 启动方式 从最近的销售文件 中列出最大客户 数据维、维中属性 数、维中数据均是少 量的 系统管理人员、系统 分析员管理顾问启 动于控制 成熟 数据与系统启动,少量的人员 指导 技术状况 统计分析7 . 具已经成熟,其他 工具正在发展 1 . 2 . 2国内现状 与国外相比,国内对 d m k d的研究稍晚,没有形成整体力量。1 9 9 3年国家自 然科 学基金首次支持我们对该领域的研究项目。目 前,国内的许多科研单位和高等院校竞 相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术 研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊 方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数 的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、 吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学 和上 海交通大学等单位探讨、 研究了 非结构化数据的知识发现以及w e b 数据挖掘l卜 1 . 数据挖掘热点 就日 前来看, 将来的几个热点包括网 站的数据挖掘 ( w e b s i t e d a t a m i n i n g ) 、生 物信息或基因( b i o i n f o r m a t i c s / g e n o m i c s ) 的数据挖掘及其文本的数据挖掘( t e x t u a l m i n i n g ) o 2 . 数据挖掘未来研究方向 当前, 数据挖掘和k d d的研究与开发的总体水平相当于数据库技术在 的地位, 刁能使 7 0 年代所处 迫切需要类似于关系模式、d b m s 系统和 s q l 查询语言等理论和方法的指导, d m k d 的应用得以普遍推广。 预计在本世纪, 数据挖掘的研究还会形成更大的高 潮,研究焦点可能会集中到以下几个方面: a .发现语言的形式化描述,即研究专门用于 知识 发现的数据挖掘语言,也许会像 s e i 语言一样走向形式化和标准化” 、 么 日 ; b .寻求数据挖掘过程中的可视化方法, 使知识发现的过程能够被用户理解, 也便于 在知识发现的过程中进行人机交互n + c .研究在网 络环境下的数据挖掘技术 ( w e b m i n i n g ) , 特别是在因特网i-. 建立d m k d 服务 器, 并且与数据库服务 器配合, 实 现w e b m i n i n g 0 s , d .加强对各种非结构化数据的开采 ( d a t a m i n i n g f o r a u d i o 处理的 数据将会涉及到更多的数据类型, 这些数据类型或者比较复杂, 或者是结构比较 独特。 为了处理这些复杂的数据, 就需要些新的和更好的分析和建立模型的方 法, 同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一 些工具和软件14 e .交互式发现; f . 知识的维护更新。 1 . 3 数据挖掘方法、过程和内容 1 . 3 . 1 数据挖掘过程 数据挖掘经历的步骤有: 分析与知识应用,实施过程中 骤需要有不同专业人员的参与 确定挖掘对象、准备数据、建立模型、数据挖掘、结果 , 上述某些步骤可能要重复多次( 如图1 ) e 。 不同的步 , 主要是业务分析人员, 数据分析人员和数据管理人员, 准备数梢 险l 带自 蕊 三 兰 兰 兰 数 t v . 4 0 鉴组 一二 二立争 t+x i 一 日 卜 业务对象源数粥 集成数拟日标数据 呼 二 兰 止 二兰 一 鬓 知钻乙 应用 敌据挖掘 h v 用方案知识 商业模式 图1 数据挖掘过程 1 . 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最 后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带 有言 性,是不会成功的。 2 . 数据准备 ( 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于 数据挖掘 应用的数据。 ( 2 ) 数据的预处理 对数据进行清洗,解决数据中的缺值、冗余、数据值的不一致、数据定义的不一 致、过时的数据等问题。 3 . 数据模型的构建 将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真 正适合挖掘算法的分析模型是数据挖掘成功的关键。 4 . 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余 一切 l 作都能自 动地完成。 5 . 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到. 丁 视化技术。 6 . 知识的应用 将分析所得到的知识集成到业务信息系统的组织结构中去。使这些知识在实际的 管理决策分析中得到应用。 1 . 3 . 2 数据挖掘研究内容和本质 随着d m k d 研究逐步走向 深入,数据挖掘和知识发现的研究已 经形成了 三根强大 的技术支柱: 数据库、 人工智能和数理统计。 日 前d m k d 的主要研究内容包括基础理论、 发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的 维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖掘所发现的知识最常见的有以下五类u e . v i l广义知识 ( g e n e r a l i z a t i o n ) 广义知识指类别特征的 概括性描述知识。根据数据的 微观特性发现其表征的、 带 有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数 据的概括、精炼和抽象。 2 . 关联知识 ( a s s o c i a t i o n ) 它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存 在关联,那么其中一项的属性值就可以 依据其他属性值进行预测。最为著名的关联规 则发现方 一法是r . a g r a w a l 提出的a p r i o r i 算法。 3 . 分类知识( c l a s s i f i c a t i o n : 翻 p 叨 r : eus n a 卜 a c e 图2 基于资源库的中小学个性化资源主动配送系统结构图 2 . 2 系统结构 该系统既能提供w w w 环境下的资源共享服务,又能提供个性化资源的主动配送服 务,它具有如下的特性: a . 系统可以在i n t e r n e t 上对教育资源进行智能收集。 d , 系统能够实现用户资源库的智能推送更新。 c . 系统能够根据用户的特殊需求,进行个性化服务。 d . 系统采用先进的可扩展系统结构,易于扩充和升级。 e . 系统提供开放式网络结构,易于与其他系统连接。 配送系统为使用其客户端的各市、县、区教育局或学校提供教育资源的个性化配 送。同理,各市、县、区教育局或学校若安装资源配送系统,也可成为二级资源配给 中心。系统的总体结构如图2 所示。其中各部分的任务、功能包括以下内容: 1 . 资源的组织与维护模块( r e s o u r c e o r g a n i z a t i o n a n d m a i n t e n a n c e m o d u l e ) 这里的资4 1,指的是资源库中能够为用户查询的各种教育资源。这部分信息的组织 与维护工作关系到系统运行效率和对用户需求的满足程度。其中主要包括资源的格式 化处理、存储和维护。教育资源应按照知识背景、产生过程、结果以及实际应用,以 知识点为基本单位组织图片、影视、动画、声音、图形及文字等多媒体教育资源。 2 . 用户接口 模块( u s e r i n t e r f a c e m o d u l e ) 根据用户需求模型及其需要的数据信息对资源进行有效地组织,并传送到用户; 准确有效地获取用户的信息,并记录用户动作,以供用户个性分析。这里的用户既包 括市、 区、 学校的教育资源库 ( 或远程教育应用系统) ,又包括教师或学生家庭安装了 理想信息化教育平台的计算机。 3用) , 需求模型库模 块( u s e r d e m a n d m o d e l m o d u l e ) 主要包括有关用户个性特征的信息及元信息。个性特征数据结构的设计是这一部 分的关键问题,决定了个性化信息服务系统的服务好坏。 4 、 用户管理模块( m a n a g e m e n t s y s t e m f o r u s e r m o d u l e ) 用户管理系统面向远程教育公共资源服务系统的管理。可以基于政策对用户进行 认证和授权、分组、以及对用户行为的分析和统计等。 ( 1 ) 注册认证: 用户注册、 用户审批、 删除用户信息、 查询用户信息、 权限设置。 ( 2 )政策管理:为各种应用服务和不同用户提供各种管理政策。 用户行为分析对 用户的各种网络行为进行各种分析和统计,提供相应的报表。 ( 3 )用户帐号管理:提供基于管理政策的用户分组形式并对用户进行分类管理, 便于对用户信息进行分组查询、增加和统计等操作。 ( 4 ) 用户组别管理:根据用户的不同身份及不同的管理政策, 划分不同的用户组 别,便于进行基于政策的用户分类管理。 5 , 标准用户类模块( s t a n d a r d u s e r t y p e m o d u l e ) 标准用户类是理论用户模型的集合,能够为用户需求分析模块提供用户的 初始分 类标准。每个新用户初始分类时,都必须被归为标准用户模型中的一种并继承他的属 性。 6 . 用户需求分析模块( u s e r d e m a n d a n a l y s i s m o d u l e ) 接收用户请求, 通过对用户使用习惯和需求调查数据对用户个性和需求进行分析, 调整系统服务角度和内容;维护用户信息数据。 7 . 信息搜索模块( i n f o r m a t i o n s e a r c h i n g m o d u l e ) 是系统中信息流控制的中心,其主要功能是接收上一部分传递过来的用户信息需 求后,区分需求是已 存在资源还是未存在资源,前者到本地资源库查询,后者将需求 传送到外部信息搜索与获取部分,以便到工 n t e r n e t 上获取相应资源。 a . 外部资源搜索与获取模块( e x t e r n a l r e s o u r c e s e a r c h i n g a n d o b t a i n i n g m o d u l e ) 获取本系统没有的用户需求的教育资源, 为用户提供多样化的资源信息处理服务。 随着信息技术的迅速发展,工 n t e r n e t 上可以获得的信息量剧增,信息发现、 注册、提 取是十分重要而又非常艰巨的事情。因此外部资源的搜索的关键问题是如何实现信息 的智能搜寻和内容交互,克服传统搜索引擎获取信息局限于u r i , 层次和查询结果精度 不高的问题 9 . 应用处理模块( p r o c e s s f o r a p p l i c a t i o n m o d u l e ) 根抓用户需求或所提取的资源信息做相应的拉式资源更新处理工作,以及当资源 库发生更新后,根据所维护的用户库信息对用户进行资源推送更新。无论拉式更新、 推式更新都借助智能代理技术来实现。 1 0 , 配给总控模块( r a t i o n g e n e r a l c o n t r o l m o d u l e ) 在配给系统中,各个子系统之间几乎都有交互活动发生,要有效地控制这些交互 动作,严格控制各模块对数据库部分的操作,协调各个模块间的操作,同时随着井发 用户数的增加,并发智能体的数量也会大量增加,需要总控模块采取一定的策略进行 协同 作,避免系统性能的显著下降。 第三章、用户分类规则的建立 3 . 1 数据预处理 3 . 1 . 1 用户摹本信息的获取 当学校成为资源库的用户时,用户就成为我们的挖掘对象。首先要在线填写 “ 用 户信息卡” , 这是我们数据收集过程, 要求收集的信息准确而全面。 表2 所示为实验过 程中用户要填写的基本信息, 每个用户的所有信息构成 一 个数据样本 ( i n s t a n c e ) , 侮 个样本中的单个信息构成样本的 一 个属性 a t t r i b u t e ) 。为了简化数据,得到一个形 式比较简单的测试数据,每个样本中属性的取值根据本属性分类的不同意义进行了划 分,分别取值a , b , c 等。 表 2 用户信息变量列表 代码属性 ( a t t r i b u t e )取值取值描述 x 上 学校名称( s c h o o l n a m e ) x , 所在地区经济发展水平 ( 平 均每人全年消费性支出) ( e c o n o m y l e v e l ) 0 1 a 6 0 0 0 元 b 2 0 0 0 元一6 0 0 0 元 c 4 0 0 0 0 0 b1 0 0 0 0 v -4 0 0 0 0 0 c5 5 个 b 3 0 个一5 5 个 c 2 5 0 0 人 b 1 0 0 0 人一2 5 0 0 人 c 1 5 0 人 ( t e a c h e r n u m b e r ) 一一一一一 教师学历 ( t e a c h e r d e g r e e ) 教师科研情况及获奖 ( s c i e n t i f i e r e s e a r c h ) 6 0 人一1 5 0 人 1 / 4 ( 1 0 分钟以上) 1 / 1 0 -1 / 4 扭一 1 0 分钟) 1 / 1 0 ( 4 分钟以一 f ) 有局域网,并接入互联网 有局域网,但并没接入互联网 无网络 资源库服务器配置高于优秀服务 器配置: 教师使用的计算机配较高 并随时可使用计算机; 学生可按时 使用配置合理的计算机 资源库服务器配置为中等配置要 求;教师可按时使用计算机 资源库服务器配置为最低配置要 求 一八二 凡一凡 其中x, 的取值根据取值描述并且参考表3 来判断: 表3学校资源库服务器配置要求及参数 最低配置p e n t i u m 1 1 2 6 6 m h z以上 3 2 m以上 硬盘空间 操作系统 4 0 6 w i n d o w s 9 5 / w i n d o w s 9 8 / w i n d o w s 推荐配置p e n t i u m 1 1 1 8 6 6 m 2 5 6 m 硬盘空间 操作系统 1 0 0 6 w i n d o w s 2 0 0 0 s e r v e r / w i n d o w s p r o f e s s i o n a l 优秀配置 p e n t . i 5 1 2 m u m i v 及以 卜 及以_ 士 二 硬盘空间: 操作系统: 1 6 0 ( ; 及以上 w i n d o w s 2 0 0 0s e r v e r / w i n d o w s p r o f e s s i o n a l / n t / w i n d o w s 2 0 0 3 reses.ileslll.ieseseseseseses卜 对收集来的信息我们需要对其进行选择和数据的预处理。这个过程主要是对数据 进行清洗,解决数据中的缺值、冗余、数据值的不一致、过时的数据等问题,最后形 成 一 个测试训练集。 接下来的任务就是将处理好的数据转化成一个针对算法建立的分析模型。首先要 在数据中选择需要的变量来建立挖掘模型,本文应用的是决策树数据挖掘方法。 3 . 2 分类规则的建立 3 . 2 . 1 标准用户类b u _ c l a s s ( b a s i c u s e r c l a s s ) 建立 这 步 骤由 我 们的 教 育 专家 和 计 算 机 专 家根 据不同 的 分 类标 准 和方 法 f ., ” 6, je, 为 b u _ c l a s s . c l a s s加入类标记,即为 b u es c l a s s的 c l a s s属性赋值,其值可为 c, c 1 . , c . 具体地对于东师理想集团的教育资源的配送过程来讲,根据不同的分类标准和方 法, 对于标准用户类( b u _ c l a s s ) 的界定也有所不同。一种是根据中国中小学教育的地 域发展状况为b u _ c l a s s . c l a s s加入类标记。如表4 所示,b u c l a s s 可以是 “ 教育发 达地区城市重点中学 ,、 “ 教育发达地区城市普通中学” 、 “ 教育发达地区农村重点中学 , 、 “ 教育发达地区农村普通中学”等。这样,当用户首次使用该系统时,首先根据用) 、 , 的基本信息 ( 条件属性) 、 用数据挖掘中决策树的分类规则把用户纳入“ 标准用户类” 向其推送个性化的教育资源。 表4 标准用户类 教育发达地区城市 重点学校 教育发展地区城市 重点学校 教育落后地区城市 重点学校 教育发达地区城市 非重点学校 教育发展地区城市 非重点学校 教育落后地区城市 非重点学校 教育发达地区农村 重点学校 教育发展地区农村 重点学校 教育落后地区农村 重点学校 教育发达地区农村 非重点学校 教育发展地区农村 非重点学校 教育落后地区农村 非重点学校 另一种单纯的从硬件设施的配置及教师信息技术水平的角度为 b u c l a s s . c l a s s 加入类标记。如表 5 所示。 优秀配置 c p u :p e n l jl i m 及以卜 内存:5 1 2 m 及以上 硬盘空间:1 6 0 g 及以上 操作系统:w i n d o w s 2 0 0 0s e r v e r w i n d o w sp r o f e s s i o n a n t w i n d o w s2 0 0 3 对收集来的信息我们需要对其进行选择和数据的预处理。这个过程主要是对数据 进行清洗,解决数据中的缺值、冗余、数据值的不一致、过时的数据等问题,最后形 成一个测试训练集。 接下来的任务就是将处理好的数据转化成一个针对算法建立的分析模型。首先要 在数据中选择需要的变量来建立挖掘模型,本文应用的是决策树数据挖掘方法。 3 2 分类规则的建立 3 2 1 标准用户类b u c l a s s ( b a s i cu s e rc l a s s ) 建立 这步骤出我们的教育专家和计算机专家根据不同的分类标准和方法”1 。! 。”。6 ”, 为b uc l a s s c l a s s 加入类标记,即为b u s a s s 的c l a s s 属性赋值,其值可为 c 。c ,c ,。 具体地对于东师理想集团的教育资源的配送过程来讲,根据不同的分类标准和方 法,对于标准用户类( b u c l a s s ) 的界定也有所不同。一种是根据中国中小学教育的地 域发展状况为b u l a s s c l a s s 加入类标记。如表4 所示,b u l a s s 可以是“教育发 达地区城市重点中学”、“教育发达地区城市普通中学”、“教育发达地区农村重点中学”、 “教育发达地区农村普通中学”等。这样,当用户首次使用该系统时,首先根据用j ! ;j 的皋本信息( 条件属性) 、用数据挖掘中决策树的分类规则把用户纳入“标准用户类”, 向其推送个性化的教育资源。 表4 标准用户类 教育发达地区城市教育发展地区城市教育落后地区城市 重点学校重点学校 重点学校 教育发达地区城市教育发展地区城市教育落后地区城市 非重点学校非重点学校非重点学校 教育发达地区农村 教育发展地区农村教育落后地区农村 鼋点学校 重点学校 重点学校 教育发达地区农村教育发展地区农村教育落后地区农村 非重点学校非重点学校 非重点学校 另一种单纯的从硬件设旌的配置及教师信息技术水平的角度为乩一c a s s c ja s s 加入类标记。如表5 所示。 表5 标准用户类属性描述 b u c标准用户类属性描述 c 硬件水平高;教师信息技术素养高 c 。硬件水平高;教师信息技术素养一般 c 3硬件水平一般;教师信息技术素养高 c 4硬件水平一般;教师信息技术素养一般 c 5硬件水平差;教师信息技术素养高 c h 硬什水平差;教师信息技术素养一般 支持第二种分类方法的专家认为:无论是教育发达地区的城市农村,还是教育落 厉地l 基的城市和农村,基础教育学校都有义务教育、知识普及的任务:也都还有以:斗 学为 := i 初i 的任务,以及智力开发和素质教育的任务。只不过不同类型的学校,这些教 学任务所处的地位不同。i f 因为有些地区教育落后,j 应该通过教育资源远程配送这 个方法把各种类的优秀资源快速、便捷提供给教师和学生,使落后地区的教育水平迅 速发展。若按照第一种分类方法,教育发达地区城市重点中学通过配送得到的总可以 囊获各类的教育资源,而教育落后地区农村非重点学校得到的教育资源总是棉对教学 层次较低的资源,那样就失去了现代远程教育的一个优势现代远程教育的宗旨之 一就是让更多的人,尤其是偏远地区、经济落t f 舌地区的学生快速、便捷接触到优秀的 学习资源并享用这些现代化的资源,从而使教育水平迅速提高。第二种分类方法的提 出就是基于以上原因的考虑。专家也指出:虽然教育落后地区的学校有公平享有优秀 教育资源的权利,但教育落后地区也往往是经济不发达地区,这些地区教学硬件的配 备以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论