版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、学校的学生成绩进行聚类分析1、背景随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课题。目前普遍使用的成绩分析方法一般只能得到均值、方差等一类信息,且仅仅是从一门课程独立数据进行的分析,但在实际教学中,比如学生在学习某一门课程时,是哪一门或者几门课程对其影响很大,包括教学以外的哪些因素对学生成绩造成了较大的影响等
2、各种有价值的信息往往无法获知。2、聚类分析在数据库中的知识发现和数据挖掘(KDDM)受到目前人工智能与数据库界的广泛重视。KDDM的目的是从海量的数据中提取人们感兴趣的、有价值的知识和重要的信息,聚类则是KDDM领域中的一个重要分支。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知道目标数据库到底有多少类
3、的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法。聚类分析的算法可以分为以下几类:划分方法、层次方法、基于密度方法等。这里只描述一种:K-means算法,如下3、K-means算法K均值聚类,即数据挖掘中的C均值聚类,属于聚类分析方法中一种基本的且应用最广泛的划分算法。t口T回K-means算法是J.B.MacQueen在1967年
4、提出的,是聚类方法中一个基本的划分方法,也是目前诸多聚类算法中极有影响的一种技术。K-均值算法以k为参数,把N个对象分为k个簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。K-Means算法的准则函数定义为:即E是数据库所有对象的平方误差的总和。其中x是空间中的点,表示给定的数据对象,是簇的平均值。K-means算法描述为:输入:簇的数目k和包含n个对象的数据库输出:k个簇,使
5、平方误差准则最小(1) assigninitialvalueformeans;/任意选择k个对象作为初始的簇中心(2) REPEAT(3) FORj=itonDOassigneachxjtotheclusterwhichhastheclosestmean;根据簇中对象的平均值,将每个对象赋给最类似的簇(4) FORi=1tokDO更新簇的平均值,即计算每个对象簇中对象的平均值ComputeE;计算准则函数E(6)UNTILE不再明显地发生变化;从上面的算法思想和算法框架,我们不难看出,K个初始聚类中心点的选取对聚类结果具有较大的影响,因为在该算法中是随机地选取任意K个点作为初始聚类中心。如果有
6、先验知识,可以选取具有代表性的点作为初始中心点。在上面这个算法中,一次迭代中把每一个数据对象分到离它最近的聚类中心所在的类中,这个过程的时间复杂度为O(nkd),这里n指的是总的数据对象的个数,k是指定的聚类数也叫簇数,d是数据对象的维数;新的分类产生以后需要计算新的聚类中心,这个过程的时间复杂度为0(nd)o所以这个算法一次迭代需要的总的时间复杂度为O(nkd)。4、数据准备与数据预处理(1)聚类数据的预处理现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。基因表达数据也存在这种情况。有很多数据预处理技术可以去掉数据中的噪声,纠正不一致。为了提高涉及距离度量的聚类算法的精度和有效性
7、,可以采用数据规范化的一些方法。(2)数据清理在实际数据库中往往存在着一些空缺值和噪音数据。对于空缺值,可以采用以下方法填写空缺值。1)人工填写空缺值。这种方法对操作人员要求较高。并且,该方法很费时,当数据集很大时,该方法可能行不通。2)使用该空缺值所在属性的平均值来填充。比如当进行样本聚类时,如果某个样本在某个指标值上的值空缺,可使用其它样本在该指标上的平均值来填充该空缺值。对于噪声数据,我们可以采用一些数据平滑技术来平滑数据。3)数据规范化。如果数据库中的各属性的量纲和单位不同,在计算机对象间的距离之前,必须把不同的度量单位统一成相同的度量单位。由于属于不同概念范畴的属性具有不同的含义,把
8、所有的属性转化成某个特定的度量单位是不可能的。常用的方法是把属性的值域映射为一个相同的区间(通常是0,1区间),这个过程成为属性的标准化或规范化。准备500学生的成绩包含:数学、英语、语文、物理、化学、历史、地理等文件相I稣昌口靶设匚3八同号FivtPWy雁卡i式单星有自F±hi?寸7/1*二至庠厅廊厅idnamemathorglishclhemistryphysictherapyhiut&dtalg&cigraphic1张三龙江冢M07附之张三67加756736893就三日5白©05917545d微三61449gG75强二567065916667665、R
9、apidMiner聚类分析分析流程:读取数据库-聚类分析-存储csv文件-结束1、打开RapidMiner工具,进入白板界面刖-hZ身100*J"JCMUmwnBi6Clpiiiiaki-nMiItatHQlwLbr'-ErtlSwtHhpBirinArc2DriUHibLfti-111Di目.晔修HiXM4,Fi|MvbIVU2、读取数据库:拖曳-左侧中的Database-ReadDatabase标签,读取数据库,然后设置数据库的基本条件,点击白板中的ReadDatabases,查看右侧信息1)数据库连接条件:点击Connection右边的数据库连接配置按钮,输入相关信息如
10、:数据库名称、用户名、密码、Host等,然后点击下方的测试一下连接是否成功。1JManagieDatabaseCorncEtioriisUVtilrths。后曲口YCiucan0r9口的,editdnd茹电I。ccmnecion£to口slab白白os.vaiatle2onn&d:iois再“<KM/KUIK/SK*Csncsl三目拒NewClone2)读取数据库中表以及相关属性数据配置:点击属性-以及条件,可以筛选出来对应的数据query右侧的图标,选择数据库下的表如旧SQLQw*r>qu*ryTSOliSsewRW&2LOj*nWfl«VAn
11、5QtQLHR1.AGlbOlEMSQLOUBryAtlELT'j1r1chinc3-T!j'tEliRLy'.'|iyp)/lr1hliK.orlK*lLjgcvRL户kiMFROHvSFHarr'l恚艮察IT排5H里eladmErlsrQf?丁酬X帝rW3、聚类算法:拖曳-左侧中的Modeling->segmentation->K-Means标签到白板中,聚类算法插件,用于数据的聚类分析Rftp&gh-ojyproeesRPtckqcsOytcnftan1)配置聚类算法的参数:簇数、迭代次数等4、存储文件:拖曳-左侧中的DataA
12、ccess->Files->Write标签到白板中,存储文件插件,用于分析结果的存储然后在右侧csvfile配置存储路径-1U1力*Jfll3Me通工图1即QMlAlFjoaFiIIrffamMbPiiidHiMH乙锡*七仙*uUiH'iutaariLi3相*-DmmmptS.HUPlJL21mTiH«hw.成号*rti*事情.neiMM-5、分析流程图-规划,通过连接线连接整个的执行流程,并点击执行按钮如图所示T居阳0«明林Resut£Proce®.ICO*/-1与工+&也6、执行结果1)、分析具体结果数据2)、统计数据:最
13、大、最小、平均值、聚类3)、聚类分析图Fimqgjarrcim-sTRottl。isms10yMnM4QM01Ma«Ai,e*ajt540270500KUmi人dutterHamral0w(26)cU«r_O(378>JVmathReal053399“882ngfeshRMDIM917804。一.BO254Ve*wReal089用Z76chtfnKtryRN0669671067V叽gmnwReal066l«M86*:*M652MtOflCAlfUM067367JSWRiwcRe80Mn'i.88r>V卜ITrHSIMM£131SICS
14、flgmpIgSelboat)cwu”,-二3cgec.k-Anc8ngimLogiciie解内enomLOQSC*Cok*C<Muwenoit&ft,Logscale口1Mlit升由1万CPifl3MvNki»pltcifMArW。,frdhi/bmalVglhChWMt事eWph科曲+2眸hPrtjrictfKgeiddMMiATflAUljQfUiJW琬0rWE"rHH.Mfi(值*不.5”“向f»Tabpii'-lij*1>>iOUlOOfiirs-kE鲍鸵金加ra»1MoK23-4?=隼*冬mJ*3叱.馒.Eq仲lqerrratCig。触PdiWEaMjJMG7、结果分析:第一个图可以看出:1)每科目的最低分、最高分、平均分等信息2)聚类:三簇数据,每簇数据的学生个数第二个图可以看出:1)每科分值的分布情况,看出大部分学生的成绩分布在70-80】之间,90分以上的偏少第三个图可以看出:1)聚类按三簇进行聚类,也就是说分为了三类学生2)cluster_0结合第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湘西土家族苗族自治州泸溪县2025-2026学年第二学期四年级语文期末考试卷(部编版含答案)
- 焦作市沁阳市2025-2026学年第二学期四年级语文第七单元测试卷(部编版含答案)
- 临沧地区云县2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 定西地区漳县2025-2026学年第二学期三年级语文第八单元测试卷(部编版含答案)
- 机绣工QC管理测试考核试卷含答案
- 把钩信号工变革管理模拟考核试卷含答案
- 拖拉机机械加工生产线操作调整工岗前技能掌握考核试卷含答案
- 辽阳市白塔区2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 九江市浔阳区2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 昭通地区镇雄县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 2026年中国邮政集团有限公司安徽省分公司校园招聘考试参考题库及答案解析
- 2026年北京市朝阳区高三一模历史试卷(含答案)
- 湖南天壹名校联盟2026届高三下学期3月质量检测历史试卷(含解析)
- 2026年温州市瓯海区专职社区工作者公开招聘6人考试参考试题及答案解析
- 中药材采购合作框架协议书
- 2026年宁夏财经职业技术学院单招职业技能测试题库及1套参考答案详解
- 工程造价基础知识课件
- DL-T825-2021电能计量装置安装接线规则
- 公路建设项目经济评价表模板(自动计算)
- 航天禁(限)用工艺目录(2021版)-发文稿(公开)
- 人类辅助生殖技术规范1;2
评论
0/150
提交评论