已阅读5页,还剩73页未读, 继续免费阅读
(管理科学与工程专业论文)数据挖掘在教学评价中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东师范大学硕士学位论文 数据挖掘在教学评价中的应用研究 中文摘要 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被 信息产业界认为是数据库系统最重要的前沿之一,是信息产业界最有前途的交叉 学科。在各高校实际的教学评价中,存在着很多问题,面对历年来积累的大量教 学数据,而传统的教学评价手段显的无能为力,而数据挖掘这一技术就解决了这 一难题。聚类方法是数据挖掘中一个重要的研究内容。本文对数据挖掘技术尤其 是聚类挖掘技术进行了系统、深入地分析和研究,并将其投入到教学评价中。主 要包括以下一些内容: 首先对数据挖掘技术进行了简要的回顾,在提出数据挖掘基本概念的基础 上,对数据挖掘可发现的模式进行了详细地分类、归纳和总结。对数据挖掘的体 系框架及运行过程也作了详细的探讨。对数据挖掘技术的国内外研究现状和当前 的研究热点进行了归纳和总结。为本文的全面展开奠定了基础。 然后重点讨论了聚类算法。k q z 均分区算法和层次凝聚算法是数据挖掘研究 的重点之一。这两种算法的应用极为广泛。然而随着应用的深入,这两种算法也 暴露了一些不足之处。例如:层次凝聚算法由于在每次分区合并时,需要计算单链 接距离( 或全链接距离) ,耗费了大量的时间,其时间复杂度为o ( n 2 ) 。并且一旦一 个合并完成,它不能被撤消,然而对k 平均分区算法来讲,它有一个最大的优点是 不必在指定分区数。但是k 平均分区算法的缺点是必须事先设定分区数k 。这一 点对用户来讲,是相当不合理的。在k 平均分区算法中,初始分区的选择不当的话, 将会收敛成为一个局部最小的准则,找不到最优解。针对上述情况,本文提出了一 种新的改进算法( n p 算法) 。本文提出了一种新的改进算法( n p 算法) 。 将数据挖掘技术应用到实践中,对潍坊学院的成人教育数据进行挖掘,基于 m sa n a l y s i ss e r v i c e s 挖掘工具,通过决策树分析、聚集分析等方法研究而得出 的有关学生的特征,如:年龄小于或等于3 0 岁的女生学习成绩的综合表现多偏向 于中,年龄大于3 0 岁的男生学习成绩表现偏向优秀的可能性较大等特征将会提供 给学术顾问,以便潍坊学院的教务处发现成人教育存在的问题与规律,针对学生 的不同特征进行综合分析后对学生的选课提出指导意见( 数据以潍坊学院成人教 山东师范大学硕士学位论文 育教育管理专业的为例) 。 采用数据挖掘软件s p s s 对潍坊学院近几年教育技术学专业的相关数据进行 统计分析,挖掘数据背后隐藏的信息与知识,揭示若干教育现象,如:在毕业论 文方面:男女生之间存在显著性差异,再如在等级考试方面:男女生之间存在显著 性差异,女生的成绩明显高于男生。并为潍坊学院的教育决策支持提供若干参考 建议。 关键词:数据挖掘,教学评价,聚类分析,决策树,s p p s s 软件 i i 山东师范大学硕士学位论文 d a t a m i n i n gi nt e a c h i n ga p p r a i s a la p p l i e dr e s e a r c h a b s t r a c t d a t a m i n i n g i st h ep r o c e s so fa b s t r a c t i o nu b a w a l ,p o t e n t i a la n du s e f u l i n f o r m a t i o na n dk n o w l e d g ef r o mp l e n t i f u l ,i n c o m p l e t e ,n o i s y ,f u z z ya n ds t o c h a s t i c d a t a , w h i c hi sd e e m e dt oo n eo faf o r e l a n do fd a t a m i n l n gs y s t e ma n dap r o m i s i n g c r o s s s u b j e c t t h e r ei sag o o dm a n yq u e s t i o na tt h ep r a c t i c et e a c h i n ga p p r a i s a lo f t h e m ,t h et r a d i t i o nm e a n so ft e a c h i n ga p p r a i s a li sd i s a b i l i t yi nt h ef a c eo fag r e a td e a l t e a c h i n gd a t ao fa c c u m u l a t i o nf o rp a s ty e a r d a t a m i u l n gs o l v e sd i f f i c u l tp r o b l e m n 圮 c l u s t e rm e t h o di so n eo fm o r ei m p o r t a n tr o l ei nd a t a m i n l n g t i l i sd i s s e r t a t i o n s y s t e m a t i c a l l ya n dd e e p l ys t u d i e sa n da n a l y s e st h ed a t a m i n l n gt e c h n i q u e ,e s p e c i a l l y t h eo n ef o ra s s o c i a t i o nr n l e s , f u r t h e r m o r ea p p l i e si tt ot e a c h i n g ,a p p r a i s a l t h em a i n c o n t e n t sa r ci i s t e da sf o l l o w s a tf i r s t , t h ea p p e a r a n c eo ft h ed a t a m i n l n gt e c h n i q u ei sr e v i e w e di nb r i e b a s e d o nt h eb a s i cc o n c e p t so fd a t a m i n i n g , t h i sd i s s e r t a t i o nn o to n l yc l a s s i f i e sa n d s u m m a r i z e st h ef i n d a b l ep a t t e r n so fd a t a m i n i n gi nd e t a i l ,b u ta l s os t u d i e sa r c h i t e c t u r e s t r u c t u r ea n dr u n n i n g p r o c e s so fd a t a m i n i n g i ns u c c e s s i o n , t h ed i s s e r t a t i o n s u m m a r i z e sa n ds t u d i e st h ec u r r e n ts t a t u so ft h ed a t a m i n i n gt e c h n i q u ei no u rn a t i v e c o u n t r ya n do v e r a s a l lo f t h ea b o v eb e c o m et h eb a s i sf o rt h i sd i s s e r t a t i o n t h e n t h ed i s s e r t a t i o nd i s c u s s e s1 1 圮c l u s t e rm e t h o d sf o ra s s o c i a t i o nr u l e s k m e a np a r t i t i o na l g o r i t h ma n dl a y e rc l u s t e r i n ga l g o r i t h ma r et h eo n eo fe m p h a s e s c o n t e n t si nd a t a m i n i n g 1 1 1 et w oa l g o r i t h m sa r ca p p l i a n c ei na b r o a d h o w e v e r , w i t h d e e p l ya p p l i c a t i o n , t h es h o r t a g ee m e r g e s i nt h et w o a l g o r i t h m s f o re x a m p l e ,t h e r ei s c a l c u l a t i o no ft h ed i s t a n c eo ft h es i n g l el i n kw h e ns u b a r e aa n dc o m b i n a t i o nf o rt h e l a y e rc l u s t e r i n ga l g o r i t h m i tu s e sp l e n t i f u lt i m e i t st i m el i m i ti so ( 2 ) b e s i d e s , w h e nac o m b i n a t i o ni sf i n i s h e d ,i ti sn o tr e t r a c t e d h o w e v e r ,n od e s i g n a t i o ns u b a r e a c o u n ti na d v a n c ei st h em o s te x c e l l e n c ef o rkm e a n p a r t i t i o na l g o r i t h m t h ec o u n tk o f e n a c t m e n ts u b a r e ai sd e s i g n a t e di na d v a n c e ,w h i c hi si m p e r t i n e n c yf o rt h eu s e r i tw i l l b ee o n s t r i n g e n c yt ob eal e a s tr u l eo f t h ep a r tw h e nt h eb e g i ns u b a r e ai si m p r o p e r ,f o r km e a na r t i t i o n l g o r i t h m tb r i n go u tt of i n dt h ee x c e l l e n ta n s w e r a i m i n ga tt h e i n 山东师范大学硕士学位论文 i n s t a n c e ,t h ep a p e rp o i n t so u ta ni m p r o v e dn e wa l g o r i t h m ( n pa l g o r i t h m ) i t a p p l i e st h ed a t a m i n i n gt ot e a c h i n ga p p r a i s a lf o rt h ea d u l td u c a t i o n o f w e i f a n gc o l l e g eb a s eo nd a t a i n gt o o lo fm sa n a l y s i ss e r v i c e s i to b t a i n st h e s t u d e n tc h a r a c t e r i s t i ct h o r g hd e c i s i o nf r e ea n a l y s i sa n dc l u s t e r i n ga n a l y s i s f o ri n s t a n c e ,t h es y n t h e s i sr e p r e s e n t a t i o no ft h es c h o o l g i r l ss t u d yg r a d e ,w h i c h a g ei sl e s st h a no ru pt ot h i r t y ,i sl e a nt om i d d l i n g t h es y n t h e s i sr e p r e s e n t a t i o no f t h e s c h o o l b o y ss t u d yg r a d e ,w h i c ha g ei sm o r et h a nt h i r t y ,i sl e a nt 0e x c e l l e n c ee t c t h o s ec h a r a c t e r i s t i cw i l lb ep r o v i d e dw i t hl e a r n i n gc o u n s e l o r t h e yw i l lf i n dt h e p r o b l e ma n dt h ed i s c i p l i n a r i a n t h e yw i l la n a l y s ed i s t i n c t n e s sc h a r a c t e r i s t i c t h e y w i l lb r i n gf o r w a r dt h eg u i d a n c ed e l i v e r a n c e ( d a t ai sf r o me d u c a t i o np r o f e s s i o n a lo f t h ea d u l te d u c a t i o no f t h ew e i f a n gc o l l e g e ) t h er e c e n td a t ao fe d u c a t i o n a lt e c h n o l o g ym a j o rw e i f a n gc o l l e g ea r ea n a l y z e d 、v i t hs p s st e c h n o l o g y 。s o m ei n f o r m a t i o na n dk n o w l e d g ea r em i n e d ,a n ds o m e e d u c a t i o np h e n o m e n aa r ed i s c o v e r e d ,f o ri n s t a n c e ,t h es c h o o l g i r la n ds c h o o l b o ye x i s t i ns a i i e n c ed i f f e r e n c ea tt h eg r a d u a t ep a p e r t h e s ei n s t a n c eh a p p e n sa tt h eg r a d ee x a m i n a t i o n ,w h i c hg r a d eo fs c h o o l g i r li s h i 曲i n e v i d e n c et h o s eo ft h e s c h o o l b o y ,w h i c hs u p p o r t t 0e d u c a t i o n a l d e c i s i o n - m a k i n g b a s e do nt h e i rr e s e a r c h , ip u tf o r w a r dam o d e lo f t e a c h i n ga p p r a i s a l w h i c hi sa d a p t e dt ow e i f a n g c o l l e g e k e y w o r d s :d a t a m i n i n g ,t e a c h i n ga p p r a i s a l ,d i s c o v e r i n gd e c i s i o nt r e e s ,c l u s t e r i n g a n a l y s i s ,s o f t w a r eo fs p s s w 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得( 注:如没有其他需要特别声明的,本栏可 空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:王蓉婚 导师签字: 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权数可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在 解密后适用本授权书) 学位论文作者签名。j 冀姆 导师签字 签字日期:2 0 0 7 年占月1 日 签字日期:2 0 0 7 年月日 山东师范大学硕士学位论文 第一章绪论 1 1 课题研究背景及意义 目前,各普通高校都经历过国家教育部或在积极的准备着国家教育部的教学 水平的评估,能通过评估或在教学评估中取的好成绩,首先要自身要进行教学评 价。但如何进行教学评价,各高校都存在一些盲目性。 教学评价是教学过程的重要组成部分,它以教学目标为依据,制定科学的评 价标准,运用一切有效的技术手段,对教与学活动的过程及其结果进行测量,并 给以价值判断 教学评价不仅对教学起着调节、控制、指导和推动作用,而且有很强的导向 性,是学校教学管理工作的重要组成部分,是评价教学工作成绩的主要手段目 前,在教学评价中有几种常用的评价方法 定性评价是一种传统的评价方法,它主要侧重于定性分析,描述性的意见可 以使被评人员了解自己的工作存在哪些问题,以及如何去改进这些工作这种方 法虽然在过去的教学评价中被广泛应用,但运用定性评价方法对教师的教学评价 时,只能作“优秀”、“称职”、“不称职”等非量化的文字描述,不能客观、 准确、深入地反映教学实际情况 定量评价主要是通过量化分析,反映教学质量状况目前,量化分析在实际应 用中可以概括为“打分制”如对教师教学的量化分析,主要是教师同行之间相 互打分,学生给教师打分,领导给教师打分,然后再进行加权处理定量评价存 在评价内容过于简单、评价主体和评价方法单一等问题 标准差方法,它描述一组数据的离散程度,标准差越大,数据的离散程度也越 大,用这种方法考察学生的考试情况,可以从分数角度总体评价在一定范围内成 绩的差异情况,但是并不能说明分数的高低究竟与哪些因素有关,只能检验出教 学效果的某些侧面问题。 鉴于以上传统教学评价方法的不足,急切需要新的一种教学评价方法,能够 较好地指导学校进行教学决策。 信息技术的发展使收集、存储数据的能力迅速增长。当前,无论是企业、科 山东师范大学硕士学位论文 研机构或者政府部门,都积累了海量的数据资料。随着高校教学规模的扩大, 数据量快速增长,教学管理系统中积累了大量原始数据。这些数据一般通过数 据库系统来存储和管理。 二十世纪,数据库技术取得了决定性的成果并且己经得到广泛的应用。这 意味着,我们已具有将这样的“数据洪流”转换为“整齐有序”但却“堆积如 山”数据集合的能力。但是,面对“堆积如山”的数据集合,数据库所能做到 的只是对数据库中己有的数据进行存取和简单的操作,人们通过这些数据所获 得的信息量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据 之后的更重要关于这些数据的整体特征的描述及对其发展趋势的预测的信息却 无法得到,而这些信息在决定制定过程中具有重要的参考价值,因此导致了“数 据丰富,但信息贫乏”。在需要对大量数据分析之后才能做出正确决策的领域中, 这己是( 或将是) 普遍存在的问题。 这样,快速的数据产生与搜索技术和拙劣的数据分析方法之间形成了鲜明 的对照,需要新的技术来“智能地”和“自动地”分析这些原始数据,以使 消耗大量财力与物力所收集与整理的数据得以利用,面对这一挑战,数据挖掘 技术应运而生,并显示出强大的生命力。 数据挖掘技术。4 ”可以高度自动地和智能地分析原有的数据,从大量的数据 中发现隐藏于其后的规律或数据间的关系,从中挖掘出潜在的模式获取有意义 的信息,归纳出有用的结构,帮助决策者做出正确的决策,它通常采用机器自 动识别的方式,不需要更多的人工干预,是目前国际上在数据库、数据仓库和 信息决策领域最前沿的研究方向之一,也是计算机科学和技术应用的一大研究 热点。 如今,越来越多的研究投向了数据挖掘。在现有技术中,数据挖掘主要应 用州于科学研究、市场营销、金融投资、真假甄别、产品制造、通信网络管 理以及i n t e r n e t 应用等方面。从以上应用来看,数据挖掘的研究主要是面向商 业应用尤其是电子商务的,很少应用于非商业机构,尤其是与校园信息网的结 合还不够广泛。 本课题将数据挖掘技术应用到教学评价系统中经过调研,认为课程设置 是直接影响到教学质量以及学生有效掌握知识的关键因素。课题研究的目的是 2 山东师范大学硕士学位论文 通过数据挖掘技术分析学生成绩数据库,得课程相关性信息,给教务管理人员 和学生提供一个有指导意义的参考,为决策提供重要依据,适应学分制改革的 需要。采用s p s s 软件技术对潍坊学院近几年教育技术学专业的相关数据进行统 计分析,挖掘数据背后隐藏的信息与知识,揭示若干教育现象,并为教育决策 支持提供若干参考建议。 数据挖掘无论在理论还是在技术本身还不够成熟,本课题在汲取别人经验 的前提下,对数据挖掘理论进行研究并应用于高校教学管理系统,具有一定的 理论与应用价值。 1 2 国内外研究现状 自1 9 8 9 年第1 1 届国际联合人工智能学术会议上首次提出k d d l 刀这一概念 以来,数据挖掘日益受到人们的关注。并已经成为当前计算机领域的一大热点, 其研究的重点也逐渐从发现方法转移到系统应用,并且注重多种发现策略和技 术的集成,以及多学科之间的相互渗透。 1 2 1 数据挖掘技术 k d d c s , z a , u j 一词首次出现在1 9 8 9 年8 月举行的第1 l 届国际联合人工智能学术 会议上。迄今为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了7 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百 人,研究重点“2 ,”1 也逐渐从发现方法转向系统应用,并且注重多种发现策略和 技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖 掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也 纷纷开辟了k d d 专题或专刊。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊领 先在1 9 9 3 年出版了k d d 技术专刊,所发表的5 篇论文代表了当时k d d 研究 的最新成果和动态,较全面地论述了k d d 系统方法论、发现结果的评价、k d d 系统设计的逻辑方法,集中讨论了关于数据库的动态性冗余、高噪声和不确定 性、空值等问题,k d d 系统与其它传统的机器学习、专家系统、人工神经网络、 数理统计分析系统的联系和区别,以及相应的基本对策。 不仅如此,在i n t e r n e t 上还有不少k d d 电子出版物,其中以半月刊 k n o w l e d g ed i s c o v e r yn u g g e t s 最为权威,另一份在线周刊为d s * ( d s 代表决 山东师范大学硕士学位论文 策支持) ,1 9 9 7 年1 0 月7 日开始出版。在网上,还有一个自由论坛d me m a i lc l u b , 人们通过电子邮件相互讨论d m k d 的热点问题。而领导整个潮流的d m i ( d 开发和 研究中心,是设在美国e m d e n 的i b m 公司开发部。 从总体上,国外在数据挖掘领域中的研究内容“”十分广泛,从挖掘知识的 种类看,己经取得了明显的成果。 1 、关联规则的研究。近几年对关联规则的研究内容较多。现在,关联规则 的挖掘【坫,1 6 】已经从单一概念层次关联规则的发现发展到多概念层次关联规则的 发现,并把研究的重点放在提高算法的效率和规模可收缩性上。目前,人们对 于定量关联规则以及其他种类的关联规则的发现研究较为深入,提出了关联规 则的兴趣性的概念。与此同时,在提高挖掘过程的效率方面也作了不少的研究。 比较著名的算法有a p f i o r i , c h a r m ,f p - g r o w t h , m a g n u m o p u s s ,g e n m a x 等。 2 、数据分类技术研究。基于决策树的分类方法在大规模数据库条件下的应 用研究;在较高的抽象层次分类中,m m e h t e 等人针对大型数据库提出了种快速 分类算法,称为q u e s t 中的超级学习算法,s l i q :分类与回归的管状领域研究、 最近邻分类方法的改进等等。 3 、聚类规则研究。近年,聚类开始在大型数据库中得到研究,r n g 和1 h a n 基于随机搜索以及统计学中的两个聚类算法p a m 和c l a r a ,给出了一个适用于 大型应用的聚类算法:c l a r a n s 。m e s t e 等人针对c l a r a n s 算法的缺点,提出了 改进技术。t z h a n g 等人则提出了另一种聚类算法:b i r c h 。 4 、泛化、简约和特征提取研究。利用数据可视化大大扩展了数据的表达和 理解能力,这是数据简约的一种非常重要的技术,它正受到广泛的重视。 与国外相比,国内对数据挖掘与知识发现( m d k d ) 的研究t 1 刀稍晚,1 9 9 3 年 国家自然科学基金首次支持对该领域的研究项目。目前,清华大学、中科院计 算技术研究所、空军第三研究所、海军装备论证中心等竞相开展数据挖掘的基 础理论及其应用研究。其中,北京系统工程研究所对模糊方法在知识发现中的 应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究;华中 理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大 学等单位开展了对关联规则开采算法的优化和改造:南京大学、四川联合大学 4 山东师范大学硕士学位论文 和上海交通大学等单位探讨,研究了非结构化数据的知识发现以及w e b 数据挖 掘。现在尽管与国际上的迸展相差并不远,一些研究成果例如:总参六十一所 的李德毅教授在云模型方面的研究、复旦大学的施伯乐教授在关系数据厍中知 识发现方面取得很大的成果,南京大学开发的k n i g h t 系统等但在实际应用 方面却鲜有所闻,成功的饼子很少,没有形成整体力量。总的说来莓内在数 据挖掘方面的开发还停留在实验的阶段,没有能够真正的投入到实际生产应用 中去。 1 2 2 数据挖掘的工具 数据挖掘是一项应用性很强的技术,许多大型的数据库厂商,如微软, o r a c l e 等都生产出自己的数据挖掘工具i 喇。还有不少企业将自己的发展方 向就定位在数据挖掘的应用上,其中著名的有n e t p c r c e o t i o n ,a c c r u e 以及w e b t r e n d s 。在这么多企业中,i b m 更是以其独特的i n t e l l i g e n t m i n e r 走在了这项技 术研发的前列。 i ) b 2i n t e l l i g e n t m i n e r 根据i i e 的统计,i n t e l i g e n t m i n e r 目前是数据发掘领域最先进的产品。 通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律 发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据 发掘和结果呈现这一整套数据发掘操作。 d b m i n e r d b m i n e r 是加拿大s i m o nf r a s e :大学智能型数据库研究所开发的商品化数 据仓库与知识发现综合系统。该研究所的韩家伟是国际上最著名的几位k d d 专 家之一。d b m i n e r 目前在数据挖掘和知识发现领域还处在一个领先的水准上, 同时它提供免费的教育版软件。 o b m i n e r 具有以下几点特色: i 、通过o d b c 连接多种数据源( o r a c l e ,s y b a s e ,s q l s e r v e r 。s y b a s e 等) , 把数据仓库、多维数据库和数据挖掘技术综合在一个紧凑的系统中; 2 、数据挖掘的功能较为完整。d b m i n e :执行了切片、切块、旋转和下查等 操作,并且使用了高效的数据挖掘语言( f ) 辩q l ) ; 3 、o b m i n e ;具有形象化地图形用户界面,可视化的数据浏览1 :具,联机交 山东师范大学硕士学位论文 易分析和联机分析挖掘( o l 删) 能力: 4 、可处理千兆级的大型数据库。 d b m i n e r 目前也具有一些不足,如: 1 、面向数据而非面向主题的。客户需要了解被挖掘的库的结构之才一 能建立数据块; 2 、软件使用的基本概念和基础知识比较新,难以为一般用户了解,对 非专业的人士不是很友好。 1 2 3 数据挖掘与教育评价系统的结合 数据挖掘最先应用于金融和商业领域,在教育层面上还只能算是新生事 物,处于发展的初级阶段。国内高校目前在校园信息网中开展数据挖掘的研究 。”并不广泛。浙江大学使用关联规则发现技术对高校的人事信息库进行挖掘, 试图找到影响学科发展的因素,发现如何评价一个学科,以及影响学科发展的 各个要素之间的关系。另外。曲阜师范大学体育系与上海市体委就体育人才的 选拔探讨了数据挖掘的可行性。在每年对中小学生的体质调查中,积累了大量 的数据,利用数据挖掘技术,他们试图从数据中深入寻找各种因素的相互联系, 发现一些随机因素动态变化而产生的新的指导学校体育科研和教学训练的规 律,进而发现运动人才。数据挖掘在教育层面上的研究还只能算是新生事物, 处于发展的初级阶段。在教育信息化的大趋势下,将数据挖掘技术应用于教育 领域内的学生招募、市场细分、学生来源分析、课程相关性、学习评价度量、 学生生涯规划、远程开放教育的个性化服务等方面【9 】,必然有十分广阔的前景。 数据挖掘是一种技术。和其他技术一样,数据挖掘也需要时间和精力来研 究、开发、和逐步成熟,最终被人们接受。目前己经有很多通用的数据挖掘系 统,但是还不能达到期望的智能系统那样。在近来的数据挖掘研究和开发中, 一些挑战也已受到一定程度的关注,并考虑到了各种需求,而另一些处于研究 阶段。然而,这些问题将继续刺激进一步的研究和改进。我们相信,随着数据 挖掘任务和方法的发展,一定能带给我们更多的利益,可以节约我们的时间和 金钱,并发现新的知识。 1 3 论文的研究工作成果 本文研究的目的是利用数据挖掘应用到教学评价中,基于学生特征分析的 6 山东师范大学硕士学位论文 选课指导,为学生选课提供指导,适应学分制改革的需要,同时也为高层的教 务管理决策提供支持。采用s p s s 软件技术对潍坊学院近几年教育技术学专业的 相关数据进行统计分析,挖掘数据背后隐藏的信息与知识,揭示若干教育现象, 并为教育决策支持提供若干参考建议。 本文主要的工作成果如下: 1 、研究分析了目前教学评价的传统方法中存在的不足,提出了进行数据挖 掘的必要性。 2 、对数据挖掘技术进行研究,并对当前研究热点进行总结: 3 、对数据挖掘的方法聚类算法进行了研究。 4 、研究与实现选课系统下选课指导及其数据挖掘手段 ( 1 ) 选课制下的选课指导的理论研究 ( 2 ) 基于学生特征分析的选课指导的研究与实现 聚集( m i c r o s o f tc l u s t e r i n g ) :将学生分群,了解不同族群的特征 决策树( m i c r o s o f td e c i s i o nt r e e s ) :探测性别、t 年龄等学生学籍资 料对成绩是否有预测力。 5 、采用s p s s 软件技术对潍坊学院近几年教育技术学专业的相关数据进行统 计分析。 本文的特色: 透过决策树分析、聚集分析等方法研究而得出的有关学生的特征将会提供给 选课学术顾问,以便潍坊学院的教务处针对学生的不同特征进行综合分析,对学 生的选课提出指导意见( 数据以潍坊学院教育技术专业的为例) 。 挖掘数据背后隐藏的信息与知识,揭示若干教育现象,并为潍坊学院的教育 决策支持提供若干参考建议一 7 山东师范大学硕士学位论文 第二章数据挖掘技术综述 数据挖掘作为一个只有十几年研究历史的较新的研究领域,许多概念和技 术是逐步发展起来的。本章将系统介绍其相关的内容。 2 1 数据挖掘技术的产生背景 数据挖掘产生的商业需求背景分析 数据挖掘”之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注, 主要在于大型数据库系统的广泛使用和把数据转换成有用知识的迫切需要。目 前,由于各种新型技术与数据库技术的有机结合,使数据库领域中的新内容、 新应用、新技术层出不穷。形成了庞大的数据库家族。但是,这些数据库的应 用都是以实时查询处理技术为基础的。从本质上说,查询是对数据库的被动使 用。由于简单查询只是数据库内容的选择性输出,因此它和人们期望的分析预 测决策、支持等高级应用仍有很大距离。 新的需求推动新的技术的诞生。随着一个企业或行业业务数据的不断积累, 特别是由于数据库的普及,人工去整理和理解如此大的数据源己经存在效率、 准确性等问题。因此探讨自动化的数据分析技术,为企业提供能带来商业利润 的决策信息而成为必然。在强大的商业需求的驱动下,商家们开始注意到有效 地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量 数据集中获取有用信息和知识的方法。因此,在二十世纪八十年代后期,产生 了数据仓库和数据挖掘等信息处理思想。 2 1 1 据挖掘产生的技术背景分析 任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和普遍接受 是由于计算机及其相关技术的发展为其提供了研究和应用的技术基础。 归纳数据挖掘产生的技术背景“2 ”,下面一些相关技术的发展起到了决定性 的作用: t 、数据库、数据仓库和i n t e r n e t 等信息技术的发展; 2 、计算机性能的提高和先进的体系结构的发展: 3 、统计学和人工智能等方法在数据分析中的研究和应用。 8 山东师范大学硕士学位论文 2 2 数据挖掘技术 2 2 1 数据挖掘的概念 数据挖掘( d m ) 州英文是d a t a m i n i n g 。目前对数据挖掘技术一种比较公 认的定义是w j f r a w l e y ,g p i a t e t s k y - s i r o 等人提出的。数据挖掘,就是 从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知 的、潜在有用的信息,提取的知识表示为概念( c o n c e p t s ) ,规则( r u l e s ) ,规律 ( r e g u l a r i t i e s ) 等形式。这种定义把数据挖掘的对象定义为数据库。而更广义 的说法是,数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支 持过程。数据挖掘的对象不仅是数据库,也可以是文件系统,或其它任何组织 在一起的数据集合。 从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和数据库中的 知识发现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 具有很大的重合度,数据挖 掘从理论和技术上继承了知识发现领域的成果,同时又有着独特的内涵。数据 挖掘更着眼于设计高效的算法以达到从巨量数据中发现知识的目的。数据挖掘 充分利用了机器学习、人工智能、模糊逻辑、人工神经网络、分形几何的理论 和方法。 与数据挖掘关系密切的研究领域“”包括归纳学习( i n d u c t i v el e a r n i n g ) 、 机器学习( m a c h i n el e a r n i n g ) 和统计( s t a t i s t i c s ) 分析。特别是机器学习被认 为和数据挖掘的关系最密切。二者的主要区别在于:数据挖掘的任务是发现可以 理解的知识,而机器学习关心的是提高系统的性能。数据挖掘的主要对象是大 型的数据集合,如数据仓库,但一般来说机器学习处理的数据集小得多,因此 效率问题对数据挖掘是至关重要的。 2 2 2 数据挖掘方法“田 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究 和开发。这些数据挖掘工具采用的主要方法包括传统的统计分析方法、决策树、 相关规则、神经元网络、遗传算法,以及可视化、 ) l a p 联机分析处理等。 ( 1 ) 统计分析方法 统计分析方法是通过对总体中的样本数据进行分析得出描述和推断该总体 9 山东师范大学硕士学位论文 信息和知识的方法,这些信息和知识提示了总体中的内部规律,它是一门独立 学科,也作为数据挖掘的一大类方法。 ( 2 ) 决策树 决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通 过一批已知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进 行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为, 决策树实现了数据规则的可视化,其输出结果也容易理解。决策树方法精确度 比较高,结果容易理解,效率也比较高,因而比较常用。 ( 3 ) 神经网络 神经网络建立在自学习的数学模型基础之上它可以对大量复杂的数据进 行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。 神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节 点。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据 模式的工作。神经网络有相互连接的输入层、中闯层( 或隐藏层) 、输出层组成。 中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结 果。、 ( 4 ) 相关规则 相关规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些 属性同时出现的规律和模式。相关规则分析就是依据一定的可信度、支持度、 期望可信度、作用度建立相关规则的。 ( 5 ) k n e a r e s t 邻居 邻居就是彼此距离很近的数据。依据”d oa sy o u rn e i g h b o r sd o ”的原则, k - n e a r e s t 邻居方法认为:邻居数据必然有相同的属性或行为。k 表示某个特定 数据的k 个邻居,可以通过k 个邻居的平均数据来预测该特定数据的某个属性 或行为。 ( 6 ) 遗传算法 遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。它首先将 问题的可能的解按某种形式进行编码。编码后的解称为染色体:随机选取n 个 染色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能 山东师范大学硕士学位论文 较好的染色体有较高的适应值;选择适应值较高的染色体进行复制,并通过遗传 算子,产生一群新的更适应环境的染色体,形成新的种群。直至最后收敛到一 个最适应环境的个体,锝到问题的最优化解。 ( 7 ) 联机分析处理 联机分析处理主要通过多维的方式来对数据进行分析、查询和报表。它不 同于传统的联机事物处理( o n l i n et r a n s a c t i o np r o c e s s i n g ,简称o u p ) 应用。 o l t p 主要用来完成用户的事务处理,通常要进行大量的更新操作,同时对响应 时间要求比较高。丽o l a p 应用主要是对用户当前及历史数据进行分析,辅助颁 导决策。 ( 8 ) 数据可视化 对大批量数据的展现也是数据挖掘的重要方面。就数据可视化系统本身而 言,由于数据量很大,很容易使分析人员面对数据不知所措,数据挖掘的可视 化工具可以通过富有成效的探索起点并按恰当的隐喻来表示数据,为数据分析 人员提供很好的帮助。数据可视化工具大大扩展了传统商业图形的能力,支持 多维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。,有些工 具甚至提供动画能力,使用户可以“飞越”数据,观看到数据不同层次的细节。 2 3 数据挖掘系统的体系框架及运行过程 数据挖掘的体系框架 数据挖掘的体系框架1 17 】( 图2 1 ) 大体由三部分组成:数据准备体系、建模 与挖掘体系、结果解释与评价体系。然而在实际应用中,这三个体系并没有明 显的界限,因为数据挖掘的过程是个反复循环的过程,从数据预处理、模型 建立、数据挖掘、直到结果评价,可以从一个步骤返回前面的环节。为了达到 更好的效果,往往进行多次反复的过程,直到对结果满意为止。 山东师范大学硕士学位论文 图2 - 1 数据挖掘的体系框架 2 3 1 数据挖掘的步骤 d m 的数据分析过程可以分成四个步骤【2 。4 1 0 】 l 、数据准备 一般来说,计算机系统日常产生的数据并不适合直接作为数据挖掘算法的 输入,主要有以下几个原因: 数据可能来自多个数据库的记录集,需要合并为一个记录集。 如果不是对所有属性都感兴趣,需要去掉一些属性。 1 2 山东师范大学硕士学位论文 由于操作不当、网络传输错误、机器软硬件错误等原因造成的数据值错 误、属性缺失、记录重复,违反数据完整性约束等现象,必须进行数据清洗。 数据挖掘算法一般只能处理符号型数据,对数值型属性应该先用离散化 等方法转化为符号量对某些属性,如只需考虑取值落
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江苏南通苏锡通融媒科技有限公司招聘拟录用笔试历年备考题库附带答案详解试卷3套
- 2025山东黄金集团夏季校园招聘668人笔试历年典型考点题库附带答案详解试卷3套
- 2025安徽路桥集团校园招聘160人笔试历年备考题库附带答案详解试卷3套
- 甘肃林业厅公务员考试试题及答案
- 2025中国建筑一局(集团)有限公司俄罗斯公司副总经理(商务法务)招聘笔试历年备考题库附带答案详解试卷3套
- 城市公路工程建设工程方案
- 浮山区公务员考试试题及答案
- 高效热交换器系统建设方案
- 城市更新建设项目环境影响报告书
- 东方威尼斯公务员考试试题及答案
- 2025年粉尘涉爆培训题库及答案
- 厨房消防安全培训课件
- 丙型肝炎防治指南
- 2025中国农业科学院第三批统一招聘2人笔试考试备考题库及答案解析
- 2025年基层党支部书记述职报告
- 中国稀土镁合金治炼项目投资可行性研究报告
- GB/T 30340-2025机动车驾驶员培训机构业务条件
- 传统文化经典教案范例分享
- 2025艺术品买卖合同范本
- 新保密教育线上培训考试试题及答案
- 2025年幼师考编真题及答案
评论
0/150
提交评论