下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、利用K-means聚类分析技术分析学生成绩摘要:数据挖掘是在海量的数据中寻找模式或规则的过程。数据聚类则是数据挖掘中的一项重要技术,就是将数据对象划分到不同的类或者簇中,使得属于同簇的数据对象相似性尽量大,而不同簇的数据对象相异性尽量大。目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在选择专业前的各主要学科的成绩构成,对数据
2、进行选择,预处理,挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。关键字:数据挖掘聚类分析学生成绩分析Abstract:Dataminingisaprocessthatinthevastamountsofdatalookingforpatternsorrules.Dataclusteringisanimportantdataminingtechnologyforpeopletounderstandandexploretheinherentrelationshipbetweenthings.Clustering
3、istopartitiondataobjectsintodifferentcategories,orclusters,makingthesimilaritywiththeclustersofdataaslargeaspossible.Whilethedissimilarityofdifferentclustersofdataaslargeaspossible.Nowadaysdataminingtechnologyiswidelyusedinbusinessandfinance.Butitislessusedineducationfield.Withtheincreaseofenrollmen
4、tinuniversities,therearemoreandmorestudentsincampus,andthatmakesitmoreandmorecomplexinthedistributionofstudentsrecords.Besidessomeconclusionsfromtraditionalrecordanalysis,alotofpotentialinformationcannotbefounded.Importingthedataminingtechnologytostudentsrecordanalyzingmakesitmoreconvenientandimprov
5、etheteachingquality.Inthispaper,clusteringtechniqueindataminingisusedtostudentsperformanceanalysis,theuseofdatastructureofmainsubjectbeforethestudentsspecializedinchoiceofmode,pretreatmentanddatamining.Usingclusteringtechnologytoanalysewhichprofessionalstudentsaregoodat,soastochoosehowtolearnprofess
6、ionalandgivesomereferenceopinionsafterstudentsofdifferentgradeschoosetheirmajors.Keywords:DataMining,ClusteringTechnology,StudentsAchievement1 .概述1.1 背景随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。那么,如何从大量的数据中提取并发现有用信
7、息以提供决策的依据,已成为一个新的研究课题。高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用,在原基
8、础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。1.2 发展现状目前将数据挖掘技术与学校学生成绩分析管理系统相结合,通过分析和处理系统中大量的学生成绩数据,从中挖掘潜在的规律及模式,促使学校更好地开展教学工作,提高教学质量,帮助教学管理者制定教学计划,使学生成绩管理系统的功能能够更加完善。目前,在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。传统分析无非是得到均值、方差等一些简单的分析结果,往往还是基于教学本身。其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,
9、为教学管理人员及学生做出相应的决策。1.3 研究意义利用数据挖掘聚类技术挖掘发现课程与课程之间,或者每门课程中的知识点之间,以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。使得现阶段已有的数据发挥其真正的价值,为了解决这一问题,可以利用数据挖掘技术对这些数据进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。2 .数据挖掘理论概述2.1 数据挖掘概述数据挖掘是集统计学、人工智能、模式识别、并行计算、机器学习、数据库系统、数据仓库、数据可视化和信息检索等技术的一个交叉性学科。数据挖掘是数据仓库之上的一种应用。但是数据挖掘不限于分析数据仓库中的数据,它执行关联、分类、预测、聚类、时
10、间序列分析等任务,而且数据挖掘应用范围也相对较广。2.2 数据挖掘的过程数据挖掘是一个复杂的多阶段过程,如图2.2所示,主要可以分为如下几个主要阶段:(1)确定挖掘对象;(2)数据准备;数据选择;数据预处理;数据的转换。(3)数据挖掘;(4)结果分析;(5)知识表达和解释。图2.2数据挖掘过程图示聚类分析及K-means算法聚类分析是数据挖掘中的一个重要研究领域。聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。聚类分析的算法可以分为以下几类:划分方法、层次方法、基于密度方法等,其中划分方法的典型算法当推K均值算法,即K-means算法。K均值聚类,即数据挖掘中的C均值聚
11、类,属于聚类分析方法中一种基本的且应用最广泛的划分算法。K-均值算法以k为参数,把N个对象分为k个簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。K-Means算法的准则函数定义为:k2E=x-XjiHx4一j,其中E是数据库所有对象的平方误差的总和,x是空间中的点,表示给定的数据对象,Xi是簇Ci的平均值。聚类分析工具软件(WEKAWEKA是怀卡托智能分析环境(Waikato
12、EnvironmentforKnowledgeAnalysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine)的,基于JAVA环境下开源的机器学习(MachineLearning)以及数据挖掘(DataMining)软件。该软件的缩写WEKA也是NewZealand独有的一种鸟名,而WEKA的主要开发者同时恰好来自NewZealand的theUniversityofWaikato。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界面上的可视化。而开发者
13、则可使用Java语言,利用WEKA的架构上开发出更多的数据挖掘算法。读者如果想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。聚类,分类和关联分窗口提供对数据应用对应各类数据挖掘算法的界面,尤其对于成绩管理系统中大都是数值的数据。因此,选用WEKA工具来对高校学生成绩分析能够得到很有效的结果。数据准备及预处理本文在数据挖掘过程当中所使用的工具是WEKA,而WEKA所支持的数据格式有两种:ARFF文件和CSV文件。故将原始数据EXCEL文件转换为ARFF或CSV文件。转换方法为:在EXCEL中打开“MARK
14、.xls”,选择菜单一另存为,在弹出的对话框中,文件名输入“Mark,保存类型选择“CSV(逗号分隔)”,保存,便可得到“Mark.csv”文件。其结果如图3.1所示:如耻明IDBrauLCc*giiterSft*wkIarctJESflftwtytEriCLaterInrl-=HfcUlliID32LQJra.o8L.tJ7i.DAID3ZLD2T3.0M.tJT4.D3IDBZLD3n.o陶。T6.D(id眨mT4.057.06.05ID32-LD5n.O77.0e.ID9ZLD6Eli.oMi.tJ31.MFIDaSLOTEll.O61。TC.O8。瞠L08TO.O75.0T3.09ID
15、瞠L的阻口77.0蛇口LDIDD2LWT5.0W.OT3.0LLIDB2L11时口%.015.0L2:IDIL12T4D7L.0附口L3IDIfLn况.口岷。14.0IDQ2L1.4稣巾gfl.DM.SID92L15的Lt)电口L&I限的.口9L0aa.nL7前1.口13.0HAlUlfLIH的.0瞄0始0晦hlSLlfiM.0ffi0如IM凯加$3.0的。-I:Tltoiasi时白的电SO段IDIflESfft.O雨。1900ini?l23T9Q脚。就Q%工,_i刈:Cttue)图3.1数据文件截图打开WEKA软件的Exporler菜单,点击Openfile按钮,打开刚得到的“Mark.cs
16、v文件,点击“Save”按钮,在弹出的对话框中,文件名输入“Mark”,文件类型选择“Arffdatefiles(*.arff)”,这样就得到的数据文件为“Mark.arff”。算法应用3.数据挖掘实验过程打开WEKA软件中的Exporler,点击刚才得到的“Mark.arff”,出现下面的窗口,如图3.2.1所示:图3.3结果散点图图3.2.1数据分析截图切换到“Cluster,点Choose”按钮选择SimpleKmeans,这是WEKA3实现K均值的算法。点击旁边的文本框,将“numClusters”设置为3,把实例分成三个簇,即K=3。其他结果按默认值,如图3.2.2所示。育业1clu-ittrs.SiHfltOtuisClu$lerdatusingliiekalgorithm加七mnClmltr*3seed10如她,.、QE!图3.2.2设置界面截图结果及分析右击左下方“Resultlist”列出的结果,点“Visualizeclusterassignments。显示弹出的窗口给出了各实例的散点图。散点图如图3.3所示:结论在Cluster。簇里的实例,占总实例的32%,其中男生相对较多,这类学生在分专业时选择了硬件方向。故在以后计算机专业的学生在分方向时,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甘肃省甘南2026届物理八年级第一学期期末达标测试试题含解析
- 2026届湖南省湘西州八年级物理第一学期期末综合测试模拟试题含解析
- 2026届湖北省荆州市南昕学校物理八上期末检测试题含解析
- 2026届广东省梅州市梅江区实验中学物理九上期末复习检测模拟试题含解析
- 2026届山东省青岛42中物理八年级第一学期期末复习检测模拟试题含解析
- 江西省萍乡市莲花县2026届物理九年级第一学期期末教学质量检测模拟试题含解析
- 2026届辽宁省盘锦市双台子区一中学物理九年级第一学期期末综合测试模拟试题含解析
- 2026届山东省临朐县物理九上期中达标检测试题含解析
- 2026届安徽省宿州市十三校物理九上期中调研模拟试题含解析
- 2026届广西壮族自治区桂平市物理八年级第一学期期末监测模拟试题含解析
- 招标代理机构入围服务 投标方案(技术标)
- 07FK02防空地下室通风设备安装图集
- GB/T 10060-2023电梯安装验收规范
- 枪械知识讲义课件
- 第四讲 坚持以人民为中心PPT习概论2023优化版教学课件
- 烧烤店菜单模板
- (7.3.1)-7.3给水排水施工图识读实例2
- GBZ/T(卫生) 201.2-2011放射治疗机房的辐射屏蔽规范第2部分:电子直线加速器放射治疗机房
- GB/T 4688-2020纸、纸板和纸浆纤维组成的分析
- 广东省国家公务员录用体检表
- 文书档案的收集与整理
评论
0/150
提交评论