




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在学生成绩管理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁工稃技术大学硕士学位论文 摘要 本文旨在研究如何将数据挖掘技术与成绩管理相结合,从大量数据中 提取出隐藏在数据之中的有用的信息。本文根据当前成绩管理的具体情 况,介绍了数据挖掘相关知识,详细分析比较了数据挖掘技术的有关内 容,决定选取决策树方法及粗糙集理论应用到学生成绩分析系统。本文根 据当前成绩管理的具体情况,文中阐述了成绩管理的作用、现状以及现有 成绩管理的不足,对决策树算法及粗糙集理论进行了详细的介绍,对各自 在成绩管理中的作用进行了详尽的阐述 应用改进的i d 3 算法对不同课程类型的学生成绩进行分析,找出影响 学生成绩的潜在因素,使学生能够较好地保持良好的学习状态,从而为教 学部门提供决策支持信息,促使更好地开展教学工作,提高教学质量;应 用粗糙集理论对某教学班级的英语成绩进行分析,找出对学生总体成绩影 响最重要的因素,以便为外语教师改变教学方式和方法、提高整体教学质 量方面提供依据,该方法还可以推广到对其他教学班不同考试科目的成绩 进行分析,从而为迸一步完善成绩管理系统提供技术支持。 关键字:成绩分析数据挖掘决策树粗糙集分类 辽宁工稃技术大学硕士学位论文 a b s t r a c t ( t h er e s e a r c ho na p p l i c a t i o no fd a t am i n i n gi nm a n a g e m e n to f s t u d e n t s g r a d e s w a n t st ot a l kh o wt og e tt h eu s e f u lu n c o v e r e d i n f o r m a t i o nf r o mt h el a r g ea m o u n t so fd a t aw i t ht h ed a t am i n i n ga n d g r a d em a n a g e m e n t i ti n t r o d u c e sa n da n a l y s e st h ed a t am i n i n gi nt h e m a n a g e m e n to fs t u d e n t s g r a d e s i tu s e st h ed e c i s i o nt r e ea n dr o u g h s e ti na n a l y s i so fg r a d e s i td e s c r i b e st h ef u n c t i o n ,s t a t u sa n d d e f i c i e n c yo ft h em a n a g e m e n to fs t u d e n t s g r a d e s i tt e l lu sh o wt o e m p l o yt h ed e c i s i o nt r e ea n dr o u g hs e ti nm a n a g e m e n to fs t u d e n t s g r a d e s i ti m p r o v e st h e i d 3a r i t h m e t i ct oa n a l y z et h es t u d e n t s g r a d e s s ot h a tw ec o u l d f i n dt h el a t e n c yf a c t o rw h i c hi m p a c tt h eg r a d e s i f w ef i n do u tt h ef a c t o r s ,w ec a no f f e rt h ed e c i s i o n - m a k i n g i n f o r m a t i o nt ot e a c h e r s i ta l s oa d v a n c e st h eq u a l i t yo ft e a c h i n g ; i tu s e st h er o u g hs e tt oa n a l y z et h ee n g l i s hg r a d e s i tf i n d st h e i m p o r t a n tf a c t o rw h i c ha f f e c tt h ee n g l i s hg r a d e s i fw ef i n do u t i t ,w ec o u l dc h a n g et h ef o r e i g nl a n g u a g et e a c h e r s t e a c h i n gs k i l l s a n de n h a n c et h eq u a l i t yo ft e a c h i n g i ta l s oc a nb eu s e di no t h e r s u b j e c te x a m i n a t i o n st op e r f e c tt h eg r a d em a n a g e m e n ts y s t e m k e y w o r d s :g r a d e sa n a l y s i s ,d a t am i n i n g ,d e c i s i o nt r e e ,r o u g h s e t ,c l a s s i f i c a t i o n 创新点声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果:焦旦迭筮挝塑担筵篡盟友鎏过堂生盛缝进红 堑据揎担 尽我所知,到目前为止国内外文献未见报道。 作者: 日期: 宕晚舞 翘媲暨月墨且 辽宁1 = 稃技术大学硕士学位论文 第l 页 第一章绪论 1 1 论文背景 目前,多数高校的在校生人数都已达上万甚至十几万的规模,教师人 数也在千人以上。高校运行着的各种系统和各类数掘库,如学籍管理、成 绩管理、人事管理等,已经积累了大量的数据。管理人员只能通过简单的 统计或排序等功能获得表面的信息,由于缺乏信息意识和技术,隐藏在这 些大量数据中的信息一直没有得到应用。如何对这些数据进行重新利用, 将现有的管理数据转化为可供使用的知识,提高学校管理决策性,提高管 理水平和办学质量,是很多高校正在考虑的问题。 随着数掘库技术的广泛应用,数掘库中存储的数据量急剧增大数据 库系统提供了对这些数据的管理和处理功能,人们可以对这些数据进行分 析研究。但对如此庞大的数据需要进行较高层次的处理,从中找出规律和 模式,以帮助人们更好地利用这些数掘进行决策和研究。数据挖掘( d a t a m i n i n g ) 技术就是在这样一个背景下产生的,它的宗旨就是在数据库中发 现有用的知识。数据挖掘是从大量的、不完全的、有噪声的、模糊的数据 中,提取隐含在其中潜在有用的信息和知识的过程。数据挖掘技术从一开 始就是面向应用的,它对数据从微观到宏观的统计、分析、综合和推理, 指导实际问题的解决,发现事物之间的相互关联并做出预测,在科学研 究、市场营销、金融市场分析与预测、欺诈甄别、医疗保健、现代化教育 和通信网络管理等许多领域得到了广泛的应用。目前,数据挖掘已经成为 计算机科学与工程研究的一个热点。我国教育界一直在探讨如何加快教育 的现代化,信息化建设,如何加强学生的素质教育,如何为考生提供更人 性化的服务体现以人为本的现代化教育。 数据挖掘作为知识开发和创新的教学工具在国际上广泛地应用于金 融、市场开发、医疗诊断决策、交通管理和企业业绩评估等众多的社会信 息化领域,以此提高上述行业数据分析的可靠性和精确度,但数据挖掘在 国内各个领域的应用都不太成熟,目前达到理想状态的应用还很少,多数 用户仍处于摸索阶段 辽宁下稗技术大学硕十学付论文 第2 页 在教育考试领域,随着计算机的普及与发展,越来越多的考试的信息 使用了计算机进行处理和存放,大大减少了手工处理的工序,减少了存储 的空间,提高了存储的安全和便捷性。这样就存在了大量的各种考试的数 据,如何根据不同考试的要求和特征,找出这些考试数据中的必然联系和 潜在的关系已经成为各种考试管理机构的必然的需求。由于以前数掘挖掘 在教育考试系统中只是一个潜在的需要,没有太多的人去重视它,因而它 应用在教育考试系统中也没有太多的先例。 我的论文研究过程就是利用数据挖掘中的决策树和粗糙集算法提取考 试信息系统的数据的特征属性,并根据系统特征属性生成预测模型和分类 模型。研究的目的是:将数据挖掘看作是一种数据分析过程,着眼于对海 量数据应用数据挖掘,以一种自动和系统的手段建立一套自适应的,具备 良好扩展性的考试信息系统的分析系统,服务于教学管理部门和学生。 1 2 主要内容 随着高校招生规模的扩展,在校生人数越来越多,学生成绩分布越来 越复杂,除了传统的学生成绩分析得到的一些结论外,还有一些不易察觉 的信息隐含于其中,故而把数据挖掘技术引入到学生成绩分析中,以找到 影响学生成绩的真实原因,有利于有针对性地提高教学质量和教学效果。 本论文在辽宁工程技术大学教务管理系统基础上,利用数据挖掘技术 对学生成绩数据库进行分析和研究,应用数据挖掘中的i d 3 算法和粗糙集 算法对学生成绩数据进行分类,并对得到的结果进行了分析,得出了影响 学生成绩相关因素以及其它的一些结论。 1 3研究意义 学生成绩是评估教学质量的重要依据,也是学生是否掌握好所学知识 的重要标志。同时努力提高学生学习成绩也是每一所高校的目标。影响学 生的学习成绩的因素很多,但传统的学生学习成绩分析无非是得到均值、 方差、区别显著性检验、信度,效度等,往往还是基于教学本身来考虑, 辽宁j 挈技术大学硕十学伸论文 第3 页 比如,在后续一门课程学完时,是哪一门或哪几门前导课程对其影响最大 等,其实即使在教学中还有一些不易察觉的因素隐含其中,何况还有教学 以外的因素影响学生学习成绩,这些都是需要进一步分析,从而得出结 论,供教学管理人员做出相应的决策。但这些信息无法从传统的学生成绩 分析方法获得,而可以通过从2 0 世纪9 0 年代中期兴起的数据挖掘技术 获得,以找到影响学生学习成绩的真实原因,柬制定相应措施,提高教学 质量和效果。 1 4 论文结构 第一章绪论部分主要介绍了本论文的研究背景和研究意义。 第二章数据挖掘技术部分主要介绍数据挖掘的基本知识,包括数据挖 掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和 方法。 第三章学生成绩管理系统分析部分主要介绍对学生成绩管理的必要 性,学生成绩管理的作用,以及学生成绩管理的研究现状和现有学生成绩 管理方法的不足。 第四章数掘挖掘技术在学生成绩管理中应用部分主要介绍和探讨数据 挖掘分类技术在学生成绩管理中的应用。应用决策树算法和粗糙集理论对 学生成绩库中的数据进行分析,找出影响学生发展的各种因素,使学生能 够较好地保持良好的学习状态,从而为教学部门提供了决策支持信息,更 好地开展教学工作,提高教学质量。 第五章总结部分主要总结了在论文研究阶段的工作和论文的创新点, 并对数据挖掘技术在高校学生成绩管理中的进一步研究进行了分析和展 望。 辽宁下稗技术大学硕十学付论文 第4 页 第二章数据挖掘相关知识 随着信息技术的发展,各个行业在过去的若干年里都积累了大量的数 据。数据库系统只提供数据管理和简单处理功能。虽然人们可以在这些数 据之上进行分析和研究工作,但是进行更高层次的处理时,例如从中发现 规律和模式,对如此庞大的数据进行人工处理是非常困难的。同时,随着 数据在日常决策中的重要性越来越显著,人们对数据处理技术的要求也不 断提高,例如得到数据的总体特征以及预测发展趋势等,而这些功能对传 统的管理系统来说是无法做到的。于是,人们希望有一种方法可以帮助处 理这些十分繁杂的数掘,从中发现有价值的信息或知识为决策服务,同时 减轻工作负担。正是基于上述原因,本文将数据挖掘技术引入学生成绩管 理领域,进行一次有益的尝试。 本研究将数据挖掘技术与学生成绩管理相结合。希望通过数据挖掘技 术,得到隐藏在海量数据背后的有用信息,在一定程度上为教学部门提供 决策支持信息,促使更好地开展教学工作,提高教学质量,使信息系统的 功能得到最大程度的利用,办使之能在功能上更加清晰地认识其服务对象 及内容。 2 1 数据挖掘技术 简单的说,数据挖掘是从大量的数据中提取或“挖掘”知识。数据挖 掘应该更正确地命名为“从数据中挖掘知识”。挖掘是一个很生动的术 语,它抓住了从大量的未加工的材料中发现少量金块这一过程的特点。 数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感 兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的, 提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘 是类深层次的数据分析。 数据挖掘( d a t am i n i n g ) ,也叫数据丌采、数据采掘,就是按照既定 的业务目标从海量数据中提取可以解释为知识的规则( 或模式) ,包括关 辽宁t 。拌技术人学硕十学伸论文 第5 页 联规则、特征规则、区分规则、分类规则、总结规则、偏差规则,聚类规 则等。大多数据挖掘方法都基于机器学习、模式识别、神经网络和统计学 的试探( t r i e d ) 和测试( t e s t e d ) 。这些技术对应的方法对于无论新手还是 有经验的数据分析家都常常带有很大的迷惑性。 可以认为,数据挖掘方法主要有三部分组成:模型表示、模型评价和 搜索。模型表示是一种用于描述能够被发现的模式的语言。如果这种表示 太受限制,再多的时间和例子也不能够为数据产生一个精确的模型。对一 个数据分析家来说,充分掌握可能隐含在特定方法中的有代表性的假设是 很重要的。同样,对一个算法设计者来说,能够清楚地表达一个特定算法 能做出什么样的有代表性的假设也非常重要。注意,随着模型表示能力的 增强,模型对于训练数据的过适应性( o v e rf i t t i n g ) 的危险性也与之增 加,从而导致它对未知数据的预测准确性降低。 模型评价标准是对一个特定模式( 模型及其参数) 满足k d d 过程目标 的程度的定量描述( 或适应性函数) 。例如,我们常常用模型对于测试数 据的预测正确性来判断其性能。描述模型可以通过其预测准确度、新颖 性、可用性和可理解性的度量尺度来评估。 搜索方法由两部分组成:参数搜索和模型搜索。模型表示和模型评价 标准一旦确定,数据挖掘问题就简化为纯粹的优化任务:从已选择的模型 家族中寻找能够优化评价标准的参数和模型。参数搜索时,算法必须在给 定观察数掘和固定的模型表示的情况下,搜索能够优化模型评价标准的参 数。模型搜索以循环的形式发生在参数搜索方法之上,改变模型表示以便 考虑整个模型家族。 2 1 1 数据挖掘技术产生 从数据中发现模式( p a t t e r n ) 的提法很多,如:知识发现( k d d , k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 、知识提取、信息收割、数掘挖掘、 数据采集等。1 9 8 9 年在美国底特律召开的第1 1 届国际人工智能联合会议的 专题讨论会上首次出现了k d d 这个术语。随后,在1 9 9 1 年、1 9 9 3 年和1 9 9 4 辽宁下稃技术大学硕十学伊论文 第6 页 年都举办了k d d 专题讨论会,汇集了来自各个领域的研究人员和应用开发 者,集中讨论了数据统计、海量数掘分析算法、知识表现、知识运用等问 题。随着参加会议人数的不断增多,从1 9 9 5 年丌始,每年都要举办一次 k d d 国际会议。另外,从1 9 9 7 年开始,k d d 拥有了自己的专门杂志 k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g 。 k d d 方法应用于信息,决策支持和查询过程。各种不同的方法应用于 发现不同的知识,从而需要选择不同的技术。数据挖掘是近年来随着数据 库和人工智能技术的发展而出现的一个全新的信息技术,同时也是计算机 科学与技术迫切需要解决的重要课题。 2 1 2 数掘挖掘的定义 数据挖掘的一种比较公认的定义是w j f r a w l e y 、 p i a t e t s k y s h a p r i o 等人提出的:数据挖掘,就是从数据中获取正确、新 颖、有潜在应用价值和最终可理解模式的非平凡的过程。下面对一些概念 作详细的解释: 数据:是一组事实f 的集合( 如关系数据库中的记录) ,它是描述事 物有关方面的信息,一般来说这些数据都是准确无误的。 模式:是一个用语言l 来表示的一个表达式e ,它可以用来描述数据 集f 的某个集f e 。只有当表达式e 比列举的所有f e 中元素的描述方法更为 简单时,才可以称之为模式。 过程:数据挖掘是一个多阶段的处理过程,它涉及数据预处理、模式 提取、知识评价及过程优化,该过程具有迭代的性质;而“非平凡的”是 指其要有一定程度的智能性和自动性。 有效性:是指发现的模式对于新的数据仍保持有一定的可信度,否则 数据挖掘就毫无疑义。 新颖性:经过数据挖掘提取出的模式必须是新的。 潜在有用性:是指发现的知识将来有实际效用,如用于决策支持系统 里可以提高经济效益。 辽宁= 稃技术大学硕+ 学位论文 第7 页 可理解性:数据挖掘的一个目标就是将数据中隐含的模式能被用户理 解,目前它主要表现在简洁性上。 其中,有效性、新颖性、潜在有用性和可理解性综合在一起可称之为 兴趣性。 基于广义的数据挖掘观点,典型的数据挖掘系统具有以下主要成分, 如图2 1 所示。 清理 图2 - 1 典型的数据挖掘系统 ( 1 )数掘库、数掘仓库或其它信息库:这是一个或一组数据库、数 据仓库,电子表格或其它类型的信息库,可以对其进行数据清理和集成。 ( 2 )数据库或数据仓库服务器:根据用户的数掘挖掘请求,服务器 负责提取相关数据。 ( 3 )知识库:领域知识用于指导搜索,或评估结果模式的兴趣度。 ( 4 )数据挖掘引擎:它是数据挖掘系统的基本部分,由一组功能模 块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 ( 5 )模式评估模块:通常它使用兴趣度度量,并与数据挖掘模块交 辽宁t 稃技术大学硕士学付论文 第8 页 互,以便将搜索聚焦在有趣的模式上。 ( 6 ) 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许 用户与系统交互,指定数据挖掘查询或任务,提供提示信息,帮助搜索聚 焦。此外,它允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘 的模式,以不同的形式对模式进行可视化。 2 1 3 数据挖掘的功能 数据挖掘的任务主要有关联分析、聚类分析,分类、预测、时序模式 和偏差分析等。 ( 1 )关联分析( a s s o c i a t i o na n a l y s i s ) 两个或两个以上数掘项的取值之间存在某种规律性,就称为关联,可 以建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要 的、可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果 两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属 性值进行预测。 例如,买面包的顾客中9 0 还会买牛奶,这就是一条关联规则。在商 场中将这两样物品摆放在一起销售,将会提高销售量。 在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛 选。一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规 则。 ( 2 ) 聚类分析( c l u s t e r i n g ) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据 距离较小、彼此相似,不同类别中的数据距离偏大、彼此相异。聚类分析 可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的 相互关系。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法 是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 辽宁丁:稃技术大学硕十学位论文 第9 页 在机器学习方法中,聚类是无导师的学习。此时距离是根据概念的描 述来确定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为 概念形成。 在神经网络中,自组织神经网络方法用于聚类。如a r t 模型、 k o h o n e n 模型等,这是一种无监督学习方法。当给定距离阈值后,各样本 按阂值进行聚类。 ( 3 )分类( c l a s s i f i c a t i o n ) 分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念 描述,并用这种描述来构造模型( 一般用规则或决策树模式表示) 。类别 的概念描述代表着这类数据的整体信息,也就是该类的内涵描述。 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象 的共同特征的描述。辨别性描述是对两个或多个类之日j 的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的 特性,经过有关算法,为每一个类找到一种准确的描述或者模型,并使用 这种类的描述对未来的测试数据进行分类。 ( 4 )预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数 据的种类及特征进行预测。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量 建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归 方程就可求出该时间的状态。 近年来,发展起来的神经网络方法( 如b p 模型) ,实现了非线性样本 的学习,能进行非线性函数的判别。 分类也能进行预测,但分类一般用于离散数值:回归预测用于连续数 值;神经网络方法预测既可以用于连续数值,也可以用于离散数值。 ( 5 )时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回 归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所 辽宁1 :稃技术大学硕+ 学付论文 第l o 页 处时日j 的不同。 在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最 小百分比( 最小支持度阈值) 的规则。这些规则会随着形势的变化作适当 的调整。 时序模式中,一个有重要影响的方法是“相似时序”。用“相似时 序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个 相似的时序事件。 ( 6 )偏差分析( d e v i a t i o n ) 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情 况是非常重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满 足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏 差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 2 i 4 数据挖掘的对象 数据挖掘的对象主要是关系数掘库。随着数掘挖掘技术的发展,逐步 进入到空间数据库、时态数据库、文本数据库、多媒体数据库、环球网 等。文字、音频、图像,视频等多媒体数据已逐渐成为信息领域的重要表 现形式。音频、视频的数据量很大,要从千万计的多媒体数据中找出需要 的数据和信息是很困难的。 目前,对多媒体数掘的处理只能在存取、编辑、集成、快进快退等基 本操作上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限 性很大。目前兴起的基于内容的多媒体检索,通过实例的查询方式,检索 相似图像、音频、视频信息,己成为研究的热点。基于内容的音频、视频 信息的聚类、分类、相似查询等数掘挖掘技术正在兴起。 2 i 5 数据挖掘的过程 数据挖掘是一个多阶段的过程。一般情况下,它可以分为三个主要阶 段,即:数据准备、数据挖掘、结果表达和解释。知识发现( k d d ) 过程是 辽宁t 稗技术大学硕+ 学竹论文 第1 i 页 这三个阶段的反复过程。 ( 1 )数据准备阶段 数据准备在整个数据挖掘过程中占的比例最大,通常达到6 0 9 6 左右。 这个阶段又可以进一步划分成三个子步骤:数据选择( d a t as e l e c t i o n ) , 数据预处理( d a t ap r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。数据 选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据 ( t a r g e td a t a ) 。数据预处理对提取的数据进行处理,使之符合数据挖掘 的要求。它的主要工作有检查拼写错误,去掉重复的记录,补上不完全的 记录,推导计算缺失数据,完成数掘类型转换,等等。数据变换的主要目 的是消除数掘维数,即从初始特征中找出真正有用的特征以减少数掘挖掘 时要考虑的特征或变量个数。 ( 2 )数据挖掘阶段 这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类 型的数据挖掘方法,如数据总结、分类、聚类、关联规则发现或序列模式 发现等。然后,针对该挖掘方法选择一种算法。而算法的选择直接影响着 所挖掘模式的质量。完成了上述的准备工作后,就可以运行数据挖掘算法 了。这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称 之为真正意义上的数据挖掘。 ( 3 )结果表达和解释阶段 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息 区分出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对 于存在冗余或无关的模式要将其删除:对于不能满足用户要求的模式,则 需要退回到上一阶段,如重新选取数据、采用新的数据变换方法、设定新 的参数值,甚至采用其他的数据挖掘算法。另外,数据挖掘面对的最终用 户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的 其他方式,例如把分类决策树转化为“i f t h e n ”规则。 此外,有些学者在上述三个阶段的前后又增加了两个阶段,分别是: 目标定义阶段( o b j e c t i v e sd e t e r m i n a t i o n ) 和知识吸收阶段 辽宁- 稗技术大学硕十学付论文 第1 2 页 ( a s s i m i l a t i o no fk n o w l e d g e ) 。目标定义阶段要求定义出明确的数掘挖掘 目标。目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有应 用领域知识的人员和具有数据挖掘经验的技术人员合作进行。而知识吸收 阶段主要针对各个应用领域,例如商业公司的决策者将数掘挖掘新发现的 一组关联规则应用到新产品的促销活动之中。 2 1 6 数据挖掘的方法和技术 根据数据挖掘的数掘库类型分类,有如下几种数据库或数据源:关系 型( r e l a t i o n a l ) 数据库、事务型( t r a n s a c t i o n a l ) 数据库、面向对象型 ( o b j e c t e d o r i e n t e d ) 数据库、主动型( a c t i v e ) 数据库、空间型 ( s p a t i a l ) 数掘库、时间型( t e m p o r a l ) 数掘库、文本型( t e x t u a l ) 数据 库、多媒体( m u l t i m e d i a ) 数据库、异质( h e t e r o g e n e o u s ) 数掘库及互联网 ( w e b ) 等。 根据采用的数据挖掘方法分类,可粗分为:统计方法、机器学习方 法、神经网络方法和数据库方法。统计方法中,可以细分为:回归分析 ( 多元回归、自回归等) 、判别分析( 贝叶斯判别、费歇尔判别、非参数 判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主元分析 法、相关分析法等) 等。机器学习中,可以细分为:归纳学习法( 决策 树、规则归纳等) 、基于范例学习、遗传算法等。神经网络方法中,可以 细分为:前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映 射、竞争学习等) 等。数掘库方法主要是多维数据分析或o l a p 方法,另外 还有面向属性的归纳方法。 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的 统计分析方法、模糊教学方法及可视化技术,以数据库为研究对象,形成 了数据挖掘的方法和技术。 数据挖掘的方法和技术可分为以下六大类: a 归纳学习法 归纳学习法是目l i 重点研究的方向。从采用的技术上看,分为信息论 辽宁= r 稃技术大学硕士学位论文 第1 3 页 方法和集合论方法。 ( 1 )信息论方法( 决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策 树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由 于分类规则是比较直观的,因而比较易于理解。该类方法的实用效果好, 影响较大。由于该方法最后获得的知识表示形式是决策树,故一般称它为 决策树方法。这种方法一般用于分类任务中。信息论方法中较有特色的方 法有:i d 3 、i b l e 方法。 ( 2 )集合论方法 集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合 论方法得到了迅速的发展。这类方法中包括:概念树方法和粗糙集方法。 b 聚类方法 聚类分析是直接比较样本中各样本之问的距离,将距离较近的归为一 类,而将距离较远的分在不同类中。它把一个给定的数据对象集合分成不 同的簇,是一种无监督分类法。其中较有特色的方法有:k - m e a n s ( k - 平均 值) 、c l a r a 算法、b i r c h 算法、c h a m e l e o n ( 变色龙) 算法和c l i q u e 算法 等。 c 统计分析方法 这是利用统计学原理对数据库中的数据进行分析的方法,统计分析既 是一门独立的学科,也作为数据挖掘的一大类方法。统计分析方法包括 有:常用统计( 如求大量数据中的最大值、最小值、总和、平均值等) 、 相关分析( 求相关系数来度量变量问的相关程度) 、回归分析( 求回归方 程来表示变量| 日j 的数量关系) 、差异分析( 从样本统计量的值得出差异, 来确定总体参数之间是否存在差异) 、判别分析( 建立一个或多个判别函 数,并确定一个判别标准。对未知对象利用判别函数将它划归某一个类 别) 、b a y e s 网络( 利用联合概率和b a y e s 公式所描述的各网络变量间的 因果关系来进行数据分析) 。 d 仿生物技术 辽宁 。稃技术大学硕十学位论文 第1 4 页 仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法己经 形成了独立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 ( 1 ) 神经网络方法 它是模拟了人脑神经元结构,以m p 模型和h e b b 学习规则为基础的,建 立了三大类多种神经网络模型( f ; 馈式网络、反馈式网络、自组织网 络) 。 神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。 神经网络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或者是 累加计算) 。当需要从复杂或不精确数据中获得概念比较困难的时候,利 用神经网络技术特别有效。经过训练后的神经网络就像是具有某种专门知 识的“专家”,因此可以像人一样从经验中学习。 ( 2 )遗传算法 这是模拟生物进化过程的算法。它由繁殖( 选择) 、交叉( 重组) 、 变异( 突变) 三个基本算子组成。 这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值, 经过若干代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法已在 优化计算和分类机器学习方面发挥了显著的效果。 e 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更 清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状 况,内在本质以及规律性起到很强的作用。 可视化数据挖掘的目的是使用户能够交互地浏览数据及挖掘过程,提 高数据挖掘效果。可视化技术在数据挖掘的各个阶段都扮演着重要角色。 如在数据准备阶段,使用散点图、直方图等统计可视化技术显示源数据, 可以对数据有个初步的了解,为更好的选取数据打下基础。在挖掘阶段, 用可视化形式描述各种挖掘过程,从中用户可以看出数据从哪个数据仓库 或数据库中抽取出来,怎样抽取以及怎样预处理,怎样挖掘等。在表示结 果阶段,用可视化技术使发现的知识更易于理解。 辽宁l 稃技术丈学硕十学位论文 第1 5 页 f 模糊教学方法 一 由于模糊性是客观的存在,而且系统的复杂性愈高,使精确化能力便 愈低,这就意味着模糊性愈强。这是z a d e h 总结出的互克性原理。 利用模糊集合理论可对实际问题进行模糊评判、模糊决策、模糊模式 识别、模糊关联规则和模糊聚类分析。 g 其它的方法 还有许多其它的方法如逻辑回归方法、关联规则方法、最近邻方法、 文本采掘、w e b 采掘、序列分析、s v m ,h y b r i d 等,也常被一些特定领域 广泛采用。 辽宁工稃技术大学硕+ 学付论文 第1 6 页 第三章学生成绩管理系统分析 3 1 学生成绩管理的必要性 近年来,我国高等教育迅猛发展,教育投入增加,招生规模扩大,办 学渠道增多。为了不断适应人才培养的变化,教育改革,如教育思想和观 念、课程体系与教学内容、教学方法、教学管理等的改革,势在必行,其 中考试方法的改革对学生的培养具有重要意义。 在学校教育中,考试与教学是不可分割的,考试本身也是一种教学活 动学生对待学习,既有一定的自觉性,也存在一定的惰性。没有考试的 教学很难保证稳定、正常的教学秩序和水平的提高,是不完整的教学。各 级各类学校重视使用考试手段来检测和监控教育质量、规范和引导教师的 教学行为,对督促学生积极努力地学习、培养他们分析问题和解决问题的 能力有着非常重要的作用。 考试是教育活动中评价教学质量,衡量教学效果,鉴别人才素质的重 要手段之一。对于考试的准确定位和恰当使用就成为实施素质教育的重要 问题,在此,让我们共同回顾一下爱因斯坦对考试的痛斥:“人们为了考 试,不论愿意与否都得把有用无用的废物统统塞进自己的脑袋。这种考试 使我如此畏缩不前,以致在通过最后的考试以后有整整的一年,对科学问 题的任何思考都感到扫兴”。高校学生正值智力发展的黄金时期也是生命 的旺盛年华,对个人发展潜力之大,对社会进步影响深远,可见学生成绩 评定办法是教育改革的重要内容,考试方法急待解决。给学生创设思想自 由驰骋的卷面世界,激发学生主动探索求知欲望,把学生从机械、教条、 揣摩课本内对学生接受知识情况进行检查评定,可采用授课与讨论相结合 方式,目的是检查难点的掌握情况和发现共性的问题,通过提问和讨论检 查学生的听课效果、理解程度和思维方法,并启发学生对问题提出质疑、 讨论,形成师生双边心智对流养成良好的学风,激发创新思维,对有独到 见解的学生给予表扬和鼓励。 高校学生成绩评定是高校教学活动的主要环节之一。虽然学生成绩评 定不像高考那样一锤定终身式地备受人们的关注,尤其是随着学分制的建 辽宁t 稃技术人学硕十学竹论文 第1 7 页 立和推广,但是,由于学生的成绩评定具有潜在的引导作用,如何对学生 的学习成绩进行科学合理的评定,直接关系到学校培养怎样的人才,也在 一定程度上关系到学生本人的l j 途命运,因此高校各级领导和教学管理人 员一直都十分重视。随着我国教育深化改革与发展,教育界已明确提出我 国高等教育要从知识教育向素质教育转变。学生在校学习,应掌握扎实的 专业知识和技能培养良好的综合素质,为社会经济建设服务。那么,从学 生成绩评定的角度来看,应如何体现这个要求? 这是摆在我们面前的一个 现实而具体的问题。 高等教育的根本任务就是培养适应社会主义现代化建设需要的高素 质、高层次人才。根据多年的教育实践,在人爿培养中,变被动教育为主 动教育即变接受教育为需要教育至关重要。以知识教育为基础,丰富学生 的业余文化修养,加强能力的培养,力争达到学生素质的全面提高:除加 强专业知识、英语、计算机教育外,还应重视自学及自我更新知识能力、 社交表达写作能力、处事应变与组织协调能力、独立生活、工作与动手能 力等诸多方面的培养;激发学生的爱国与贡献意识、工程与专业意识、适 应与竞争意识、求知与创造意识、经济与环保意识、安全与健康意识。 高校学生的成绩评定,从狭义上指课程学习成绩考核,从广义上指德 智体综合测评,体现出知识教育与素质教育的内在有机联系。显然,成绩 评定具有评价、定位和引导等作用。所谓的评价作用,就是通过对学生进 行各种各样的量化考核,获得成绩,从而得知学生在校学习的好坏程度。 当然,在一定程度上也是对有关教职员工的教学和管理水平的评价。成绩 评定的定位作用,是指借助对学生的成绩评定,反映出学校的办学条件, 办学状态、办学效果、人才培养质量与模式等。成绩评定的引导作用,是 指通过对学生进行考核,引导学生掌握怎样的知识结构和向什么方向发 展。因此,从表面上来着,学生的成绩考核是针对学生而言的,实质上它 具有双重性,应引起全体师生的重视。成绩评定是手段,好好学习是目 的。 对学生成绩进行考核是高校教学环节中重要一环,成绩考核固然重 辽宁丁手早技术大学硕十学位论文 第1 8 页 要,那么如何找出影响学生成绩的因素也很重要,本论文就是针对该问 题,应用数据挖掘技术对影响学生成绩的因素进行分析,以找到影响学生 学习成绩的真实原因,来制定相应措施,提高教学质量和效果。 3 2 学生成绩管理的研究现状 考试作为教学管理过程中的重要环节之一,实现着教与学的双重功 能,既是对学生掌握的知识和应有的能力的测试,也是对教师教学质量和 效果的同步检验,因此,考试必须具有严格性、真实性和公正性。如果在 具体的考试过程中,这些特性得不到很好的落实或遵守,那么考试也就失 去了它的价值和意义。 目前,我国高校对学生总成绩评定大都是采用德智体综合测评的方 法,即将学生总成绩按德育成绩、智育成绩和体育成绩分别进行打分,然 后按一定的比例综合起来( 加权平均) 。为了能够进行量化考核,各高校 都已制定了详细的评定方案和评定系数( 指标) 。现在,问题是如何对此 来进行科学而合理的量化考核? 我认为这主要取决于对知识教育向素质教 育转变的理解程度。当然,不同的院校,也必定有自己的侧重点。应该承 认,这是一件较难而又繁琐的工作,是否可由高教研究部门组织有关人员 进行进一步的探讨研究,集思广益,制定出简单而可操作的方案并试点实 施。 高校课程设置根据课程的内容、重要性及面向对象,一般可分为公共 课、基础课,专业基础课和专业课,也可分为理论课与实践课,或必修 课、限选课与任选课,或考试课与考查课,等等。从某一门课程的性质 ( 类别) 可大概地看出其在该专业中的地位,并就此来确定应采用何种合 适的考核方式。目前,学生课程成绩考核的常用形式有笔试,面试和实 际、现场操作等多种形式,也可以一种形式为主,兼用其它形式。随着计 算机的推广应用,机试作为一种先进、高效,科学、公平的手段,必将成 为今后主要的考核方式之一,也是办公无纸化的一个标志。所谓的机试, 就是利用计算机的人机对话功能,针对所学的课程内容,在计算机( 终 辽宁t 稃技术大学硕七学付论文 第1 9 页 端) :各自单独应答操作,以实现课程考核。 至于学生课程考核的内容及题型,由于受到课程内容等诸多因素的影 响,应主要由任课老师来决定。一份好的考卷应能够考察出基本概念和基 本知识的掌握程度,判断推理和解题运算能力及运用所学知识解决实际问 题的( 工程) 能力,还要拉开学生的层次。随着计算机的推广应用,借助 计算机出题己是相当普遍,因此考卷的保密工作应引起足够的重视。例如 在公用计算机上出题,即使随后即删掉,也有可能被恢复而泄题。目前, 各高校对学生考试作弊都制定出相当严厉的处理措施,对于端正学风是大 有好处的。但是,笔者认为光这样做还不够,我们应标本兼治,即应站在 从应试教育向素质教育转变的角度上东解决这个问题。现在,各高校对学 生成绩档案大都实现计算机管理。但从目i ;i 的情况来看,由于受到管理软 。 件的限制,计算机主要仅起存储作用,其运算统计功能远未受利用。这方 面的工作迫在眉睫且难度并不大,希望有关部门能够投入必要的财力、人 力来尽快地解决。 评定学生成绩的传统做法就是一卷定锤,即仅凭一次考试成绩就认定 学生发展的程度,这种评定方法掩盖了教师的教与学生的学的发展过程, 不仅体现不出学生素质水平提高的经过与提高的层次,而且难以检测教师 是否施行了素质教育。 近代的学分制和选课制始于1 9 世纪下半叶美国的大学。经过长期演 变,己形成了多种选课制:自由选修制、分组选修制、选修课和必修课各 占一定比例、主辅修制。在我国,蔡元培先生于1 9 1 7 年任北京大学校长 后,首先在北京大学倡导学分制,我国一些院校也先后实行。然而,1 9 5 2 年学习苏联教学方式,改学分制为学年制。近年来,随着高等教育改革深 化,全国许多高等学校相继推行学分制,以此作为人才培养的重要措施。 学分制作为一种新的教学制度,具有机动性、灵活性和有效性的特点,这 对于促进高等教育的改革,提高教育质量具有重要的作用。 辽宁工稃技术大学硕十学位论文 第2 0 页 3 3学生成绩管理的作用 学校考试、考试成绩与教学、学习的关系始终是一个很重要的研究课 题。随着现代化考试理论的诞生和计算机的广泛应用,考试在技术上发生 了革命。我们应该努力探索考试的规律和方法,以学生的素质发展为最高 目标构建素质教育的考试制度及成绩评定制度,有效地克服传统考试成绩 评定方法带来的各种弊端。只要我们科学、合理地利用考试和考试成绩, 充分发挥考试的功能,实现考试测量价值、教育价值和社会价值的有机统 一,考试及考试成绩必将成为提高学生素质的有效手段。 高等教学内容必须充分体现“以应用为目的,以必需够用为度”的原 则,体现“联系实际、注重应用、提高素质”的特色。为了加强对学生教 学素质、能力的培养,应对传统高等教学内容做些取舍和重新整合。我 们必须充分认识教学教育在人才素质培养中具有其它学科不可替代的重要 地位和作用。研究教学的基本方法大都是创造性的思维方法。它们主要包 括:从大量的现象和事物中进行分析、综合和归纳,提取共性和本质的抽 象思维方法;从已有的知识和规律出发,通过演绎推理获取科学新发现的 逻辑思维方法;根据教学的理论和方法,利用计算机对所建立的教学模型 进行数值计算,对观测数据进行数值模拟的科学计算方法等。它们构成数 学素养的基本内涵。也是教学能激发和培养人们创造性的活力所在。随着 当代科学向精确化发展,各学科各领域越来越从定性研究向定量研究发 展。因此,现代科学的发展越来越离不歼数学。教学中的抽象思维、逻辑 思维和定量思维
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司新员工打卡活动方案
- 2025年网络安全工程师考试试题及答案
- 2025年心理素质与情商训练考试试题及答案
- 2025年水利工程师资格考试试题及答案
- 2025年交通工程专业知识考试试题及答案
- 2025年国际法与人权保障方法考试试题及答案
- 关于乌镇导游词
- 2024年度浙江省二级造价工程师之土建建设工程计量与计价实务题库练习试卷A卷附答案
- 2024年度浙江省二级造价工程师之土建建设工程计量与计价实务高分通关题库A4可打印版
- 中学物理超声波与次声波
- 2025年江苏瑞海投资控股集团有限公司招聘笔试参考题库含答案解析
- 医疗废物应急处理流程与方案
- 简阳市2024-2025学年数学五下期末统考试题含答案
- 体检中心投诉处理流程
- 2025山西焦煤集团公司招聘高频重点模拟试卷提升(共500题附带答案详解)
- 2025年中国东方航空股份有限公司招聘笔试参考题库含答案解析
- 畜牧饲养行业安全生产培训
- 《水龙头知识培训》课件
- (八省联考)河南省2025年高考综合改革适应性演练 化学试卷合集(含答案逐题解析)
- 用户体验量化评估-洞察分析
- 农场租赁合同范本:养殖场租赁
评论
0/150
提交评论