




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)基于粒计算的学生成绩数据库知识发现的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
济南大学硕士学位论文 曼量曼曼暑曼量曼吕曼曼曼曼曼量曼曼曼曼曼曼曼曼曼! 曼量曼曼曼曼曼曼曼曼曼曼量曼曼曼曼曼寡! ! ! 曼曼曼曼曼曼曼量曼鼍曼量曼曼皇曼寰i i i 量皇! 曼曼皇曼皇葛 摘要 通常,不同课程之间存在一定的关联和前后次序,例如学生学习某门课程之前通 常需要先修一些课程。利用学校学籍数据库中所存放的学生成绩数据,结合数据挖掘 的关联规则分析,可以从大量的成绩数据中挖掘隐藏的规律,发现有用的规则和信息, 例如可以获得课程之间的知识关联,从而对学生选课提供帮助和指导,对于教学排课 也可以提供科学的指导。 粒计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方 法、技术和工具的研究,现已成为人工智能领域研究的热点之一。将大量复杂的信息 进行粒化的本质是利用各种相关的知识对研究对象进行认识的深化。知识发现的过程 实际上是一个粒度计算的过程。本文是基于粗糙集模型的粒计算思想,进行学生成绩 数据库知识发现的研究。通过寻找课程的先修课影响课程集合,找出课程之间的制约 关系,进而导出课程之间的关联规则。 由于实际学生成绩数据库数据的影响因素非常多,本文将主要以仿真成绩数据进 行研究,。给出学生成绩数据库知识发现的一种研究思路。首先,基于正态分布、课程 依赖度等原则构造仿真数据;然后,对于该仿真成绩进行整理和预处理,将成绩表转 化为选课信息表,并进行分类,得出选课次序类别;此后,利用各选课次序中课程平 均成绩之间的差异寻找先修课程的影响课程集合,进行课程依赖关系的关联规则提 取,给出选课的合理建议:最后,利用实际学生成绩数据对上述方法进行了初步测试, 结果表明,该方法在一定程度上可以实现相关规则的提取。 此外,在研究过程中还对涉及到的相关理论问题进行了研究。 首先,研究了学生考试成绩的分布规律,提出一个学生成绩分布的数学模型。该 模型的建立有助于研究学生在学习时间投入、学习效率以及课程压力等方面的基本状 况,有助于提前预测学生学习的成绩基本分布,对于改进教学效果、促进学生学习积 极性具有重要的意义。 其次,研究利用v a g u e 集比较两个知识模式的相似性。v a g u e 集理论是一种模糊 集理论的推广理论,它既考虑了事物本身的模糊性又考虑了人们认识能力有限导致的 未知性。针对各学者提出的v a g u e 集( 值) 相似度量的公式,发现公式最后大部分都 可以转化为真隶属度t 与假隶属度,的关系,将这种关系用二维图形表示出来,绘 制出等相似度曲线。这种相似性度量的图形化不仅可以方便地进行各种相似性度量方 法的横向比较,也可以从图形分布的特点来寻求更好的相似性度量方法。该研究可用 于进行学生选课次序相似性的比较,对相似程度较大的选课次序进行耦合和聚类,得 出较为有效、精简的学生选课次序。 第三,初步研究了规则合成的d s 证据理论。d s 理论被认为是多元不确定性信 息融合的有效方法,其原理是对各自独立的结论通过组合给出一致性结果,实现信息 互补。该研究可在获得课程间的知识关联后,对结论进行融合,有助于获得一致性、 t 幕于粒计算的学生成绩数据厍知识发现的研究 有效的结论。从v a g u e 集与d s 理论的理论体系来看,发现两种理论有很多相似的地 方,将v a g u e 之间的相似性度量方法应用于改进d s 理论的组合规则,取得了较好的 组合效果。 最后,在总结全文内容的基础上,对学生成绩数据库系统知识发现研究的下一步 研究重点进行了展望。 关键词:知识发现,粒计算,成绩数据库,先修课,关联规则 i i 济南大学硕十学位论文 a b s t r a c t ac o l l e d g es t u d e n ts h a l ls t u d yas p e c i a ls e to fc o l l e d g ea c a d e m i cc o u r s e sb e f o r e g r a d u a t i n g i ng e n e r a l ,t h es t u d e n to f t e nn e e d st os t u d ys o m ep r e c e d i n gc o u r s e sb e f o r e s t u d y i n ga l la c a d e m i cc o u r s e ,i e ,ac o u r s ei ng e n e r a lo f t e nd e p e n d so ns o m eo t h e rc o u r s e s t h e r e f o r e , i t i s v e r yi m p o r t a n t t os t u d yc o l l e d g ec o u r s e sa c c o r d i n gt oac o r r e c t c h r o n o l o g i c a lo r d e ro fc o u r s e s u s i n gs t u d e n t sg r a d ed a t aw h i c hd e p o s i t so nt h es c h o o l r e g i s t e rd a t a b a s e ,u n i f i e st h ea s s o c i a t i o nr u l ea n a l y s i so ft h ed a t am i n i n g , c a nd i s c o v e rt h e h i d i n gr u l eo rt h ed a t ai n t e r d e p e n d e n c ef r o mt h em a s s i v ed a t a a n di tm a yb ev e r yh e l p f u l i ng u i d i n gs t u d e n t si nc h o o s i n gar e a s o n a b l es e q u e n c eo fc o u r s e si na c a d e m i cs t u d i e s ;a n d m a ya l s ob eh e l p f u li ni m p r o v i n gt h ea d m i n i s t r a t i o nm e c h a n i s mf o rc o l l e d g et e a c h i n g s u p e r v i s i o nd e p a r m e n t s g r a n u l a r i t yo fi n f o r m a t i o np r o c e s s i n gi san e wc o m p u t i n gp a r a d i g ma n dc o n c e p t i t c o v e r sa l lt h eg r a n u l a r i t y t h e o r i e s ,m e t h o d s ,t e c h n i q u e sa n dt o o l so fr e s e a r c ei th a s b e c o m eo n eo ft h eh o t e s tr e s e a r c hs p o t si nt h ea r t i f i c i a li n t e l l i g e n c ea r e a t h ee s s e n c eo f g r a n u l a t i o ni s t ou s ea l lr e l e v a n tk n o w l e d g ea n dd e e p e nu n d e r s t a n d i n go ft h er e s e a r c h o b j e c t s t h e r e f o r e ,t h ek n o w l e d g ei st ot h er e a lw o r l dc l a s s i f i c a t i o n t h i sp a p e ri sb a s e do n t h et h i n k i n go fg r a n u l a rc o m p u t i n ga n dr e s e a r c h i n go nt h ek n o w l e d g ed i s c o v e r ya b o u t s t u d e n t s g r a d ed a t a b a s e b e c a u s eo ft h em a s si n f l u e n c i n gf a c t o r s ,t h i sp a p e rm o s t l ys t u d i e st h es i m u l a t e dd a t a , a n db r i n g sf o r w a r dam a i n l yt h i n k i n go ft h ek n o w l e d g ed i s c o v e r ya b o u ts t u d e n t s g r a d e d a t a b a s e f i r s tc r e a t et h es i m u l a t e dd a t ab a s e do nt h er u l eo fn o r m a ld i s t r i b u t i o n ,t h e d e p e n d i n gd e g r e eb e t w e e nc o u r s e sa n ds oo n t h e nr e o r g a n i z a t i o na n dp r e t r e a t m e n ta b o u t s i m u l a t e dg r a d ed a t a , t r a n s f o r m st h er e s u l tt a b l et oe l e c t i n gc l a s si n f o r m a t i o nt a b l e ,a n d c a r r i e so nt h ec l a s s i f i c a t i o n ,o b t a i n sc h o o s e st h ec l a s so r d e rc a t e g o r y n e x tl o o k sf o rt h e i n f l u e n c i n gc o u r s e ss e t su s i n gt h ed i f f e r e n ta v e r a g es c o r e so fe a c hc o u r s e so r d e r ,c a r r i e so n t h ea s s o c i a t i o nr u l ee x t r a c t i o n ,g i v e st h er e a s o n a b l es u g g e s t i o no fc h o o s i n gc l a s s f i n a l l y u s e st h ea c t u a ls t u d e n t s g r a d ed a t at oc a r r yo nt h ee l e m e n t a r yt e s tt ot h er e l a t e dr e s e a r c h n er e s u l tm a d ec l e a rt h a tt h i sm e t h o dc o u l dm i n es o m er u l e sa b o u tc o u r s e si nac e r t a i n e x t e n t f u r t h e r m o r e ,t h ec o r r e l a t i o nt h e o r i e sq u e s t i o n st h a ti n v o l v e dh a v ea l s oc o n d u c t e di n t h er e s e a r c hp r o c e s s f i r s ts t u d i e st h ed i s t r i b u t i o no fs t u d e n t s e x a m i n a t i o ns c o r e s ,a n dt h e nb r i n gf o r w a r da s t u d e n ta c h i e v e m e n td i s t r i b u t e dm a t h e m a t i c a lm o d e l t h i sm o d e li sh e l p f u li ns t u d i n g s o m eb a s i cc o n d i t i o n so ft h es t u d e n t si ns t u d ya s p e c t ,t i m ei n v e s t m e n t ,s t u d ye f f i c i e n c y a n dc u r r i c u l u mp r e s s u r e ,w h i c hi sa l s oh e l p f u li np r e d i c t i n gt h ep e r f o r m a n c eo fs t u d e n t s n t 基于粒计算的学生成绩数据库知识发现的研究 l e a r n i n gb a s i cd i s t r i b u t i o n i ti so fg r e a ts i g n i f i c a n c ei ni m p r o v i n gt e a c h i n ge f f e c t i v e n e s s a n dp r o m o t i n gt h es t u d e n t ss t u d ye n t h u s i a s m t h es i m i l a rm e a s u r ei sa l li m p o r t a n tt o o li nc o m p a r i n gt w ok n o w l e d g ep a t t e r n s ,a n d e s p e c i a l l yp l a y st h ei n f l u e n t i a lr o l ei nt h ei n t e l l i g e n ts y s t e m sr e a s o n i n gp r o c e s s v a g u e s e t t h e o r yi so n ek i n do fp r o m o t e dt h e o r yo ff u z z ys e t i tc o n s i d e r si t s e l ft h ef u z z yt h i n g sa n d t h ea w a r e n e s so fc o n s i d e r i n gt h el i m i t e dc a p a c i t yo fl e a dt ot h eu n k n o w n t h i sp a p e r s t u d i e sv a r i o u ss i m i l a rm e a s u r ef o r m u l a so fv a g u es e t ( v a l u e ) w h i c hv a r i o u ss c h o l a r s b r o u g h tf o r w a r d ,d i s c o v e r e dt h a tt h em a j o r i t yf o r m u l af i n a l l yc a nb et r a n s f o r m e da st h e r e l a t i o n so fr e a ld e g r e eo fm e m b e r s h i pta n dt h ef a l s ed e g r e eo fm e m b e r s h i pf t h i sk i n do f r e l a t i o n sw i l lb ee x p r e s s e dw i t ha2 - dg r a p h i c sa n dd r a wt h es i m i l a r i t yc u r v e s t h i s g r a p h i c a lr e p r e s e n t a t i o no fs i m i l a r i t ym e a s u r e sn o to n l yc a nb ee a s i l yc a r r i e do u tt h e h o r i z o n t a lc o m p a r i s o nb e t w e e nv a r i o u sm e t h o d so fs i m i l a r i t ym e a s u r e s ,b u ta l s os e e ka b e t t e rm e a s u r e m e n tm e t h o d sf r o mt h ec h a r a c t e r i s t i c so ft h eg r a p h i cd i s t r i b u t i o n i nt h e k n o w l e d g ed i s c o v e r yo fs t u d e n t s g r a d ed a t a b a s e ,s i m i l a r i t ym e a s u r e sc a nb eu s e di n c o m p a r et h es i m i l a r i t yo ft h es t u d e n t se l e c t e dc o u r s e ss e q u e n c e t h eg r e a t e rd e g r e eo f s i m i l a r i t ye l e c t i v eo r d e rw o u l db ec o u p l e da n dc l u s t e r e d ,g i v i n go u tm o r ee f f e c t i v ea n d s t r e a m l i n e ds e l e c t e do r d e r t h ed st h e o r yw a sc o n s i d e r e dt h a ti st h e m u l t i - d i m e n s i o n a lu n c e r t a i n t yi n f o r m a t i o n f u s i o ne f f i c a c i o u sm e t h o d i t sp r i n c i p l ei sg i v e st h eu n i f o r mr e s u l tr e s p e c t i v e l yt ot h e i n d e p e n d e n tc o n c l u s i o nt h r o u g ht h ec o m b i n a t i o n ,r e a l i z e st h ei n f o r m a t i o ns u p p l e m e n t a r y i nt h ek n o w l e d g ed i s c o v e r yo fs t u d e n t s g r a d ed a t a b a s e ,a f t e ru s i n gc o n n e c t i o nr u l e e x c a v a t i o na l g o r i t h mg a i nc u r r i c u l u mr e l e v a n ta s s o c i a t i o nr u l e ,m a yc a r r yo nt h ef u s i o n u s i n gt h ed st h e o r ys y n t h e s i sp r i n c i p l et ot h ec o n c l u s i o n ,o b t a i n st h eu n i f o r m i t ya n d e f f e c t i v ec o n c l u s i o n l o o k i n gf r o mt h et h e o r e t i c a ls y s t e mo fv a g u es e ta n de v i d e n c e ( d s ) t h e o r y , w ec o u l d f i n dt h a tt w ot h e o r i e sh a v em a n ys i m i l a r i t i e s b ys t u d y i n gt h ec o r r e s p o n d i n gr e l a t i o n s h i p o fd st h e o r ya n dv a g u es e tt h e o r y , w eh a v er e a c h e dac o n c l u s i o n :d st h e o r yi sas p e c i a l c a s eo fv a g u es e tt h e o r y t h ee x t e n to ft h el i n k a g e so fe v i d e n c e si st h ee v i d e n c e s s i m i l a r d e g r e e a f t e rh a v i n gc o n s i d e r e dt h ec o r r e s p o n d i n gr e l a t i o n s h i pb e t w e e nd st h e o r ya n d v a g u es e tt h e o r y , w e w i l lu s et h em e t h o do fv a g u es e t ss i m i l a r i t ym e a s u r e si n t oam e t h o d o fd st h e o r y , o b t a i n sab e t t e rc o m b i n a t i o ne f f e c t i nt h ee n d ,b a s e do nt h es u m m a r yo fw h o l ep a p e r , w ed i s c u s st h en e x ts t e pr e s e a r c h a b o u tt h es t u d e n ta c h i e v e m e n td a t a b a s es y s t e mk n o w l e d g ed i s c o v e r y k e yw o r d s :k d d ,g r a n u l a rc o m p u t i n g ,s t u d e n t s g r a d ed a t a b a s e ,p r e c e d i n gc o u r s e s , a s s o c i a t i o nr u l e i v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律责任由本人承担。 论文作者签名:孟堪 e l 期:趁望叁:笸:f 翌 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学校 保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和 汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:型。 导师签名: 日期:一兰竺垒叁:! i o 济南大学硕十学位论文 第一章绪论 1 1 课题背景 随着教育改革的推进,目前在高校中普遍采用的课程模式是必修课加选修课模 式,即由学校安排一些固定的必修的课程,其余的课程由学生自主选择。这种模式可 以充分尊重学生的自主性,扩展学生的知识范围,但也会造成学生选课的盲目性。由 于学生对整个专业体系的理解较浅,选课时往往是随大流,或者倾向于选择较为容易 的课程。在这种情况下,很容易会产生选课次序不合理、多样化的结果,而不同的选 课次序所得到的成绩也会有较大的差异。有些选课次序的各门课程成绩总体上均都比 较优秀;有些选课次序的各门课程成绩优劣都有,总体上是劣势较多;有些选课次序 的各门课程成绩总体上优劣均等。 当然,影响学生成绩的因素有很多,有教学本身的因素,例如先修课程的影响, 课程体系的设置等,还有一些隐藏的因素,例如教师的教学水平,试卷的难易程度等, 当然还有教学以外的影响因素,例如学生个人的天资智力等等。但如果在规范化条件 下,即教师的教学水平、试卷的难易程度、学生的智力等均处于正常水平时,课程之 间的影响很可能是导致成绩差异的主要因素。一般来说,学生的课程学习是循序渐进 的,通常,在学习一门较高级课程之前需要先修一些课程,即需要一些基础的或入门 的知识,例如,对于计算机专业的学生来说,要学习人工智能这门专业课程时, 需要先学习离散数学这门计算机课程。这些需要先修的课程我们一般称为先修课, 如果先修课程没有学好,势必会影响后续课程的学习。而在先修课程集合中,对后续 课程有影响的课程,我们称之为先修课影响课程。因此,在学生的选课中,如果没有 学习或者只是部分学习了这些先修课影响课程,很可能会影响学生的成绩,也会影响 到学生对整个专业知识的把握。 因此,对于不同选课次序所得出的成绩我们需要进行分析,从而得出结论,供学 生进行选课的指导,也供教育管理人员做出相应的决策。但目前在高校对学生的成绩 管理工作中,普遍存在的问题是学生成绩数据量过于庞大,一般对这些数据的处理只 是停留在数据备份、查询及简单统计等方面,并没有对大量的成绩数据进行深入地分 析。些传统的管理系统也只是对大量采集的数据做一些简单的查询及统计工作,并 没有挖掘出这些数据中潜在的规律,分析出成绩本身所蕴涵的知识。而知识发现的核 心技术数据挖掘是一种决策支持过程,是深层次的数据信息分析方法。将数据挖 掘技术应用于教学评价、课程分析中无疑是非常有益的,它可以全面地分析考试结果 与各种因素之间隐藏的内在联系,可以将大量的数据转化为分类规则,从而更好地分 析这些数据。必然有利于教学质量的提高。 利用数据挖掘、粒计算和粗糙集理论等方面的方法,通过对某一专业学生各学期 成绩的分析,挖掘出其中的课程之间的相关关系,找出课程的影响课集合,由此导出 1 基于粒计算的学生成绩数据厍知识发现的研究 课程之间的关联规则,给出建议的选课次序,对学生的选课进行指导,也给教学管理 部门的排课提供一定的依据。 1 2 课题相关研究现状 数据库中的知识发现及其核心技术数据挖掘( d a t am i n i n g ,d m ) 技术是在 应用的推动下,融合了人工智能、数据库技术的一个新兴的跨学科的研究领域,具有 较为广泛的应用前景【1 ,2 1 。 自2 0 世纪6 0 年代以来,数据库和信息技术已经系统地从原始的文件处理演变到 复杂的和功能强大的数据库系统。而在过去的3 0 年中,计算机硬件技术的飞速发展 导致了计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和 信息产业的发剧3 1 。但是快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的工具,理解它们已经远远超出了人的能力,导致了“数据爆炸但知识贫 乏 的现象。人们希望能够找到从海量数据中提取有价值知识的工具,寻求知识背后 所隐藏的重要信息。 自1 9 5 6 年诞生的另一门计算机技术人工智能为更好地分析数据提供了可 能。人工智能的发展经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器学习。机器学习是用计算机模拟人类学习的- 1 2 科学,它是机器具有智能 的重要标志,同时也是机器获得知识的根本途径 4 1 。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背 后的知识,这两者的结合促成了数据库中的知识发现的产生。 k d d 这个术语首先出现在1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智 能联合会议的专题讨论会上,现在已经成为热门的研究方向。k d d 的典型应用领域 包括市场分析和预测,如大型超市销售分析与预测;工业生产,主要用于发现最佳生 产过程;金融,如a u t o m a t e di n v e s t o r 系统;科学研究,如基因的发现、地壳构造活 动的预测等。本文对学生成绩数据库的研究也属于k d d 应用的一个方面。 知识发现过程包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式 评估和知识表示【3 l 。其中,数据挖掘是较为重要的步骤,它的目标是从数据库中发现 隐含的、有意义的知识。它可以进行自动预测趋势和行为、关联分析、聚类、概念描 述和偏差检测等。常用的技术有神经网络、决策树、关联规则、遗传算法、粗糙集等。 现已应用在w e b 挖掘、文本挖掘、入侵监测、时间序列分析等各方面。 除了研究之外,也出现了很多知识发现和数据挖掘的产品和应用系统,如加拿大 s i m o nf r a s e r 大学开发的多任务知识发现系统d b m i n e r 【引,i b m 公司a l m a d e n 研 究中心开发的多任务k d d 系统q u e s t l 6 】等。 我国k d d 的研究i n b i 起步,目前的研究主要有以下几个方面【_ 7 j : ( 1 ) 在分类技术的研究上,试图建立起几何理论体系,并实现海量数据处理; 2 济南大学硕士学位论文 ( 2 ) 以粗糙集理论为基础,构造模糊系统知识模型与系统辨识方法; ( 3 ) 将b a y e s 网与p e t r i 网用于知识发现; ( 4 ) 研究粒度时空数据的数据挖掘; ( 5 ) 中文文本挖掘的理论模型与实现技术; ( 6 ) 利用概念格进行文本挖掘。 在数据挖掘的研究领域,对于关联规则挖掘的研究开展得比较积极和深入。关联 规则首先是由a g r a w a l 等人在s i g m o d 9 3 上提出。现已发表的相关研究论文包括确 定性关联规则的挖掘、量化关联规则的挖掘、增量式关联规则的挖掘、模糊关联规则 的挖掘、广义关联规则的挖掘等。关联规则挖掘就是要找出隐藏在数据间的相互关系, 即通过寻找数据集中的项集或属性事件的相互联系,获取潜在的关联知识,从而为决 策分析提供支持。它挖掘的一般对象是事务数据库。现在关联规则挖掘很多应用在 w e b 挖掘、超市商品挖掘等。 当面临海量数据、高维数据、分布式数据或动态数据时,利用传统的数据挖掘方 法可能得不到理想的知识,需要研究新的数据挖掘方法。采用粒计算数据挖掘方法从 数据中挖掘知识具有传统数据挖掘方法无可比拟的优势【8 】- 。 一 粒度计算问题,主要是研究在给定知识基上的各种子集合之间的关系和转换。现 已成为人工智能领域研究的热点之一。知识发现的过程实际上是一个粒度计算过程。 粒计算主要模型和方法有:基于模糊集合论的词计算模型【9 , 1 0 、基于粗糙集理论的粒 度计算模型【1 1 1 3 】和基于商空间的粒度计算模型【1 4 1 5 1 。近期,基于粗糙集理论来研究粒 计算尤显活跃【1 6 2 3 1 。 粗糙集理论( r o u g hs e t ) 2 4 , 2 5 1 是1 9 8 2 年由p a w l a k 等学者提出的,用于处理不确: 定性和含糊性的知识。他们认为知识是一种对对象进行分类的能力,根据等价关系对 论域中的对象进行划分,将划分所得的等价类来描述论域中的集合。粗糙集理论的一 大优势是不需要先验知识,它可以利用数据本身提供的信息来客观的描述不确定性概 念。该理论已经引起国内外学者的广泛重视,在数据的决策与分析、模式识别、机器 学习等领域得到了广泛的应用,是迅速发展的一门既有理论又有应用的研究领域。 已有不少学者进行了基于粒计算的数据挖掘与关联规则研究。例如,结合位图技 术,m 【冽提出了利用信息颗粒的位表示来进行关联模式挖掘的思想,并把该思想用 于关系数据库的建模及各种关联规则的发现。结合粗糙集理论,王国胤等人【2 7 1 利用粒 计算方法来处理不完备信息系统,从而获取近似的知识和规则。y a o 和他的合作者进 行了一系列粒计算的研究并将它应用于数据挖掘【2 8 m l ,求解一致分类问题和关联规则 挖掘。 在教育领域,随着信息化进程的推进,同样也积累了大量、复杂数据。将数据挖 掘技术应用于教育中,从大量的教育数据中发现隐藏的、有用的信息来指导教育,将 有助于教育的改革和发展。 3 基于粒计算的学生成绩数据厍知识发现的研究 在教育体系中,学生的考试成绩一向是最为重要的考虑与依据。考试成绩直接反 映了学生的学习状况,也反映了学校的教育水平。对于学生成绩的分析研究传统的方 法主要集中在统计分析【3 2 4 3 】,成绩分布【4 8 】等方面,并没有对大量的成绩数据进行深 入地分析。而实际上影响学生成绩的因素有很多,有教学本身的因素,例如先修课程 的影响,课程体系的设置等,还有一些隐藏的因素,例如教师的教学水平,试卷的难 易程度等,当然还有教学以外的影响因素,例如学生个人的天资智力等等。因此,如 何真正从定量的角度来开展研究,透过成绩本身的数据信息,发现成绩数据中所隐藏 的相关知识,对目前的研究来说就显得尤为重要。 目前,已有不少学者将数据挖掘应用于教育领域中【4 9 侧,已有的研究主要体现在 课堂教学评价、试题分析、学生成绩管理、课程相关性、教学管理决策等方面。这些 研究主要是利用数据挖掘中关联规则的经典算法一a p r i o r i 算法以及a p r i o r i 的改进 算法,来对相关对象挖掘关联规则的应用过程,以获取有用的知识。目前,基于粒计 算思想的知识发现过程的研究,尤其是进行学生成绩数据库知识发现方面的研究还很 少。 1 3 主要工作与内容安排 。 本文主要是基于粒计算的思想,利用高校学生成绩数据库进行知识发现的研究, 寻求_ 种新的研究方法,找出数据之间的规律与相互依赖性。 主要工作分成两大部分:对相关理论问题的研究和对学生成绩数据库进行知识发 现的研究。相关理论问题的研究主要包括学生成绩分布规律的研究、v a g u e 集相似性 度量的研究、d s 理论信息融合的研究等。 1 、首先研究学生考试成绩的分布规律,提出一个学生成绩分布的数学模型。该 模型的建立有助于研究学生在学习时间投入、学习效率以及课程压力等方面的基本状 况,有助于提前预测学生学习的成绩基本分布,对于改进教学效果、促进学生学习积 极性具有重要的意义。 2 、研究。v a g u e 集理论的相似性度量,针对各学者提出的v a g u e 集( 值) 相似度 量的公式,将真隶属度t 与假隶属度厂的关系用二维图形表示出来,绘制出等相似 度曲线。 3 、进行d s 理论信息融合的研究,在考虑了d s 理论与v a g u e 集的对应关系后, 将v a g u e 之间的相似性度量方法运用到已提出的证据组合改进方法中,得到较好的组 合效果。 对学生成绩数据库进行知识发现研究的主要研究思路是,首先利用仿真数据,对 学生成绩整理和预处理,将成绩表转化为选课信息表,并进行分类,得出选课次序类 别,再进行关联规则提取,给出选课的合理建议,最后利用实际学生成绩数据对相关 的研究进行了测试。 济南大学硕七学位论文 本文的内容安排如下:第二章主要介绍知识发现、数据挖掘、粗糙集、粒计算等 理论的基本知识与基本定义,旨在使读者了解这些理论最基本的思想,以更好地理解 相关的问题。第三章介绍所进行的相关理论问题的研究内容,主要包括学生成绩的分 布规律,v a g u e 集相似性理论的研究以及d s 理论相关的研究等。第四章介绍利用仿 真数据进行学生成绩数据库知识发现的实现过程,分析学生所学课程之间的知识关 联,给出选课建议。第五章用实际成绩数据进行了初步的测试,并分析测试结果。第 六章对全文进行总结,并对下一步的研究重点做出了展望。 5 济南大学硕七学位论文 第二章知识发现及粒计算理论基础 数据库中的知识发现( k d d ) 是一种决策支持过程,它能够自动化地分析大量 的数据,从中挖掘出潜在的规律,从而做出正确的决策。数据挖掘是k d d 中的核心 步骤,它可以从大量的原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识, 帮助决策者寻找数据间潜在的关联,以指导决策。在数据挖掘的研究领域,对于关联 规则挖掘的研究开展得比较积极和深入。关联规则挖掘的目的就是找出数据库中隐藏 的关联信息。 粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、 方法、技术和工具的研究。粗糙集理论用于处理不确定性和含糊性的知识。它认为知 识是一种对对象进行分类的能力,就是这种划分使知识具有了颗粒性。知识发现的过 程实际上是一个粒度计算过程。 本章从粒计算的主要模型粗糙集入手,主要介绍粗糙集:粒计算、k d d 及 其核心技术一数据挖掘、关联规则等相关理论的基础知识与基本定义,旨在使读者 了解这些理论最基本的思想,以更好地理解相关的问题。 2 1 粗糙集理论基础 粗糙集理论 6 7 - 6 9 1 是2 0 世纪8 0 年代初由波兰数学家p a w l a k 提出的一种用于数据 分析的数学理论。它也是一种新的知识表示及处理的基础,主要用于处理模糊和不确 定性的知识。 粗糙集理论是建立在分类机制的基础上。该理论认为知识是一种对对象进行分类 的能力,它将分类理解为在特定空间上的等价关系,利用这种等价关系的划分所得到 的等价类来描述论域中的集合。当集合中的元素具有相同的信息或知识时,就认为它 们是不可分辨的( i n d i s c e r n i b l e ) 。不可分辨性是指知识的粒度,它是粗糙集理论的最 基本概念,在此基础上引入了上近似、下近似等概念,来刻画不精确性和模糊性。下 近似指那些能被精确分类的元素,上近似则包括了那些可能被分类的元素,上近似与 下近似的差是一个边界集合,边界上的元素就反映了集合的粗糙程度。 粗糙集理论的基本思想是用信息库中可利用的已知知识来近似描述不精确概念。 因此,它不需要先验知识,可以利用数据本身提供的信息来客观描述不确定性概念。 这是该理论的一大优势。在粗糙集理论中,近似空间构成了可利用数据库的基本信息 粒度,不精确概念可以用近似空间的基本信息粒度来近似描述,因此,粗糙集理论是 粒计算的一个重要研究方向【8 】。 2 1 1 知识与分类 设u 是我们感兴趣的对象组成的非空有限集合,称为论域( u n i v e r s e ) ,对于任何 子集x u ,称为u 中的一个概念或范畴。为规范化起见,认为空集也是一个概念。 7 基于粒计算的学生成绩数据厍知识发现的研冤 u 中的任何概念簇称为关于u 的抽象知识,简称为知识。 设r 是u 上的一个等价关系,u r 表示r 的所有等价类( 或者u 上的分类) 构 成的集合,b k 表示包含元素x eu 的尺等价类。 一个知识库就是一个关系系统k = ( ur ) j 其中,u 为论域,r 为u 上的一族等 价关系。若p 为r 上的非空子集,则p 中所有等价关系的交集( 1 3p ) 也是一个等价 关系,称为p 上的不可分辨( i n d i s c e m i b i l i t y ) 关系,记为i n d ( p ) ,且有 b 】砌= nb k 僻p ) ( 2 1 ) 这样,u i n d ( p ) o p 等价关系i n d ( p ) 的所有等价类,就表示与等价关系族p 相关的知识, 称为k 中关于u 的p 基本知识。为简单起见,用u p 代替u i n d ( p ) ,i n d ( p ) 能j 等价类 称为知识p 的基本概念或基本范畴。令x u ,r 为u 上的一个等价关系。当x 能表 达成某些r 基本范畴的并时,称x 是可定义的,否则成x 为不可定义的。 例如:设信息系统为s = ( 叫) ,其中u = u l ,u 2 ,u 3 ,u 9 是个体域, 彳= 趣渴,五o 】是属性集,如表2 1 所示。表中的1 和0 表示相应个体的属性值。 表2 1 信息系统 。 x 1x 2x 3 x 4 x 5x 6 x , x 8x 9x 1 0 u l 111o 001111 u 2 1101o11011 u 3 0101110011 1 1 4 1110o01111 u 5 1101o11011 u 6 010 111 o011 u 7 1110 001111 u 8 1101011011 u 9 0101110011 从表2 1 可以看出属性噩、局对应到各个个体的属性值是相同的,这时只需保留 一个属性,不妨保留属性噩,而删去x 7 列;同理,通过删除相同的列,可得到表2 2 所示的简化表。 则等价关系噩噩函,蜀4 有下列等价类: u x , = m 1 ,u 2 ,u 4 ,u 5 ,u 7 ,u s , u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林油田第十二中学2025~2026学年度第一学期期初测试卷 九年级历史试卷(含答案)
- 2024年呼伦贝尔农垦谢尔塔拉特泥河哈达图浩特陶海农牧场招聘172人历年高频考题难、易错点模拟试题及1套完整答案详解
- 新时空科技盈利质量分析
- 2025内蒙古呼伦贝尔选聘政务服务社会监督员9人笔试备考及完整答案详解
- 教师招聘之《小学教师招聘》综合提升试卷附完整答案详解(各地真题)
- 押题宝典教师招聘之《小学教师招聘》试题及参考答案详解(预热题)
- 教师招聘之《小学教师招聘》通关考试题库附参考答案详解【突破训练】
- 解析卷北师大版9年级数学上册期末试题及完整答案详解(夺冠)
- 教师招聘之《小学教师招聘》能力检测【综合题】附答案详解
- 内蒙古呼伦贝尔农垦集团有限公司招聘笔试题库及答案详解(典优)
- 2025年中储粮储运有限公司招聘考试真题+答案
- 蝴蝶粘土儿童课件教学
- 氨水氨气培训课件
- 2025年生态与环境保护的法律法规考试题及答案
- 神经外科护理质量改善十佳案例
- 市政工程实验员培训课件
- 专业红娘培训课件
- 《爱的教育》题库及答案
- 妇女保健服务技术规范与诊疗常规
- 乳牙拔除护理治疗
- 华为体系文件管理制度
评论
0/150
提交评论