




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于系统聚类法对中学教育进行研究摘要目前全国中学已经系统地设置了语文、数学、历史等各个课程,学生的学习视野日益扩大。但是,由于各个课程的特点不一,现今的科技技术、知识信息也在不断的变更,一成不变的教学方法与目前学生的性心理和生理发育格格不入,而因人而异、不断改善的教育教学比较符合当前中学学生的认知水平,能较好地提高课堂教学效果,缩短与教学目的之间的距离,因此不断的探索各个课程的教育形式和内容尤为重要。学生管理是学校教育的重要组成部分,清晰认识学生自身特点是对学生实施有针对性管理的前提。本文在掌握了系统聚类法的理论的基础之上,运用系统聚类的方法,以一实验中学七年级的学生在中期考试、期末考试中的成绩为代表,计算不同的样本距离以及不同的类间距,分析各科成绩的状况以及课程之间的联系,找到适合学生成绩分类的最佳组合,对以后老师的教学管理起一定的参考作用。 关键词:中学教育 系统聚类法 样品间距 类间距 学生成绩 一、背景分析本文列出一实验学校各个年级的学生在中期考试、期末考试中的成绩表,s1-s4依次表示7年级阶段各次半期和期末考试的成绩;e1-e4依次表示8年级阶段各次半期和期末考试的成绩;n1依次表示9年级阶段第一次月考的成绩。数据保存在文件st-grades.xls中,数据格式如表所列。为了方便班主任的管理和各个任课老师教学的方便,需要对该班学生的成绩进行分类,再将各个类别人员的变动情况进行比较,方便老师了解该同学的学习的动态状况,以便老师结合其实际情况对其指导教学,促进学生的学习,为学生中考做好准备。根据资料自主选择时间,变量,样本进行多元统计分析。本文将根据这4个主要变量的观测数据,6种不同方法,利用系统聚类法,以七年级学生的成绩为代表,进行聚类分析。二、聚类分析简介2.1系统聚类法的基本原理先假定各个样品各自成一类,这时各类间的距离就是各样品之间的距离,将距离最近的两类合并成一个新的类;再计算新类与其它类间的距离,将距离最近的两类合并,如此每次缩小一类,直至所有的样品都成为一类为止。然后根据需要或者根据给出的距离临界值(阈值)确定分类数及最终要分的类。设有n个样品,每个样品测得p项指标(变量),原始资料阵为其中为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量与之间的相似性,可以通过第K列与第L列的相似程度来刻划。如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。2.2 距离2.2.1常用的距离 假设有两个p维样本,(1)欧氏距离 (2)标准化欧氏距离 这里D表示n个样本的方差矩阵,表示第j列的方差。(3)布洛克距离(绝对距离) (4)闵可夫斯基(Minkowski)距离 注:当q=1时是布洛克距离(绝对距离);当q=2时是欧氏距离。当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。为弥补闵可夫斯基(Minkowski)距离的不足之处,平衡各个指标对欧氏距离的贡献,提高结果的正确率。因此一个合理的做法,就是对坐标加权,这就产生了“统计距离”。比如设,且Q的坐标是固定的,点P的坐标相互独立地变化。用s11,s12,spp表示p个变量的n次观测的样本方差,则可以定义P到Q的统计距离为:所加的权是,即用样本方差除相应坐标。当取 时,就是点P到原点O的距离。若时,就是欧氏距离。(5)马氏(Mahalanobis)距离马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用。假设共有p个指标,第i个指标共测得m个数据(要求mn), 于是,得到阶的数据矩阵,每一行是一个样本数据。阶的数据矩阵的阶协方差矩阵记作,其中, 如果存在,则两个样品之间的马氏距离为马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。 (6)相似距离(Correlation distance)2.3六种系统聚类法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。本节介绍常用的八种系统聚类方法,即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便,详见后。以下用表示样品与之间距离,用表示类与之间的距离。1.最短距离法定义类与之间的距离为两类最近样品的距离,即设类与合并成一个新类记为,则任一类与的距离是:最短距离法聚类的步骤如下:1)定义样品之间距离,计算样品两两距离,得一距离阵记为,开始每个样品自成一类,显然这时。2)找出的非对角线最小元素,设为,则将和合并成一个新类,记为,即。3)给出计算新类与其它类的距离公式:将中第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应,所得到的矩阵记为。4)对重复上述对的(2)、(3)两步得;如此下去,直到所有的元素并成一类为止。2. 最长距离法定义类与类之间距离为两类最远样品的距离,即最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将非对角线上最小元素对应的两类合并。设某一步将类与合并为,则任一类与的距离用最长距离公式为=再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。易见最长距离法与距离法只有两点不同:类与类之间的距离定义不同;计算新类与其它类的距离所用的公式不同。下面将要介绍的其它系统聚类法之间的不同点也表现在这两个方面,所以下面介绍其它系统聚类方法时,主要指出这两个方面。3.中间距离法定义类与类之间的距离既不采用两类之间最近的距离,也不采用有两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。如果在某一步将类与类合并为,任一类和的距离公式为:当时,由初等几何知就是上面三角形的中线。如果用最短距离法,则;如果用最长距离法,则;如果取夹在这两边的中线作为,则,由于距离公式中的量都是距离的平方,为了上机计算的方便,可将表、中的元素,都用相应元素的平方代替而得表、。4.重心法重心法定义两类之间的距离就是两类重心之间的距离。设和的重心(即该类样品的均值)分别是和(注意一般它们是p维向量),则和之间的距离是。设聚类到某一步,和分别有样品个,将和合并为,则内样品个数为,它的重心是,某一类的重心是,它与新类的距离(如果最初样品之间的距离采用欧氏距离)为利用代入上式得显然,当时即为中间距离法的公式。如果样品之间的距离不是欧氏距离,可根据不同情况给出不同的距离公式。重心法的归类步骤与以上三种方法基本上一样,所不同的是每合并一次类,就要重新计算新类的重心及各类与新类的距离。5.类平均法类平均法定义两类之间的距离平方为这两类元素两两之间距离平方平均,即设聚类到某一步将和合并为,则任一类与的距离为6.离差平方和法这个方法是Ward提出来的,故又称为Ward法。设将n个样品分成k类:G1, G2, , Gk, 用表示中的第i个样品(注意是p维向量),nt表示Gt中的样品个数,是Gt的重心,则Gt中样品的离差平方和为:k个类的类内离差平方和为Ward法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使S增加最小的两类合并(因为如果分类正确,同类样品的离差平方和应当较小)直到所有的样品归为一类为止。粗看Ward法与前七种方法有较大的差异,但是如果将与的距离定为:其中,就可使Ward法和前五种系统聚类方法统一起来,且可以证明Ward法合并类的距离公式为:其中 三、数据处理过程3.1基本数据处理步骤3.1.1数据的读取和标准化聚类之前,应先将数据标准化。这里用zscore函数进行标准化,命令如下:X,testdata = xlsread(st-grades.xls); %X = score(X); %数据标准化(减去均值,除以标准差)3.1.2提取数据 X = X(:,4:7); %提取矩阵X的第4至7列数据,即自变量观测值矩阵X3.1.3分步聚类 利用pdist函数计算距离 Y=pdist(X,metric)说明:用metric指定的方法计算数据矩阵中对象之间的距离。:一个的矩阵,它是由个对象组成的数据集,每个对象的大小。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离等。 squareform 函数squareform 函数将距离向量转为距离矩阵。为了节省储存空间和计算空间,Y被设定成向量形式,可以用squareform 函数将转成方阵形式。在本文中,我们命令如下:D = squareform(Y); %将距离向量转为距离矩阵其中,D矩阵就是上表中的距离矩阵。以上命令是把pdist函数输出的距离向量转为距离矩阵D,而后把距离矩阵D转为squareform 函数输出的距离向量。这里为包含个元素的向量,D为阶方阵。 linkage函数 Linkage函数用来创建系统聚类树,其调用格式如下:Z=linkage(Y,method); 输入参数是样品对距离,是包含个元素的向量,可以是pdist函数输出。dendrogram函数dendrogram函数用来做聚类树形图,其调用格式如下:H,T = dendrogram(Z) % 生成一个树形图生成一个树形图,并返回一个包含个元素的列向量,其元素为个观测对应的叶节点编号,这里的是原始数据中观测(即样品)的个数。当原始数据中的观测数过多时,树形图中可能会忽略某些底层节点,此时通过命令可以查询树形图中第个节点下所有被忽略的节点。cophenet函数cophenet函数用来计算系统聚类树的相关系数,函数调用格式如下: c = cophenet(Z,Y);在以上调用中,cophenet函数用pdist函数输出的Y和linkage函数输出的Z计算系统聚类树的相关系数。输出参数c为相关系数。cluster函数cluster函数在linkages函数的输出结果的基础上创建聚类,并输出聚类结果,其调用格式如下:T = cluster(Z,cutoff,c) 由系统聚类树矩阵创建聚类。输入参数Z是由linkage函数创建的系统聚类树矩阵,它是(n-1)乘3的矩阵,这里的n是原始数据中观测的个数。c用来设定聚类的阈值,当一个节点和它的所有子节点的不一致系数小于c时,该节点及其下面的所有节点被聚为一类。输出参数T是一个包含n个元素的列向量,其元素为香影观测所属量的类序号。3.2 处理过程及结果3.2.1 标准化距离与最短距离法(1)程序如下:X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,seuclidean); %样品间距离(标准化距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,single); %系统聚类树(最短距离法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图1 标准化距离与最短距离法组合所生成的聚类图通过观察整个聚类过程和聚类效果,不难发现,该组合方法组内距离小,组间距离也较小。分类特征不够明显,无法凸显大部分学生的成绩分布的特点。3.2.2马哈拉诺比斯距离最长距离法(1)程序如下X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,mahalanobis); %样品间距离(马哈拉诺比斯距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,complete); %系统聚类树(最长距离法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图2 哈拉诺比斯距离与最长距离法组合生成的聚类图树状图如图2所示,可以看到聚类的组间距离较大,组内距离较小,聚类结果较为理想。3.2.3 欧式距离与中间距离法(1)程序如下X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,euclidean); %样品间距离(欧式距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,median); %系统聚类树(中间距离法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图3欧式距离与中间距离法组合生成的聚类图 树状图如图3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。3.2.4绝对值距离与重心法(1)程序如下X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,cityblock); %样品间距离(绝对值距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,centroid); %系统聚类树(重心法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图4绝对值距离与重心法组合生成的聚类图通过上图,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,组间距离适中,既不扩张也不收缩。3.2.5标准化距离与类平均法(1)程序如下X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,seuclidean); %样品间距离(标准化距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,average); %系统聚类树(类平均法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图5标准化距离与类平均法组合生成的聚类图最后看到分类结果与前面的组合方法法有所相似,但是组内距离较大。实际效果不如前面。而且该方法需要事先设定分类的个数,并不适合没有经验知识的条件下的数据聚类。3.2.6闵可夫斯基距离与离差平方和法 (1)程序如下X,testdata = xlsread(st-grades.xls);%从Excel文件中读取数据%X = score(X); %数据标准化X = X(:,4:7);%取4到7列数据进行分析Y = pdist(X,minkowski); %样品间距离(闵可夫斯基距离) D = squareform(Y); %将距离向量转为距离矩阵Z = linkage(Y,ward); %系统聚类树(离差平方和法)H = dendrogram(Z,100); %系统聚类矩阵Z做聚类树形图c = cophenet(Z,Y); %计算系统类聚树的相关系数 T = cluster(Z,cutoff,c) %输出聚类结果(将样本分为四类)(2)聚类结果图6闵可夫斯基距离与离差平方和法组合生成的聚类图离差平方和法的思想是,同类离差平方和较小,类间偏差平方和较大。该方法并类时总是使得并类导致的类内离差平方和增量最小。树状图如图6所示,我们可以看到这个结果较为理想,组内距离都很小,然后组间距离非常大。四、总结通过这些分析和检验,我们可以进一步了解学生各科成绩状况,可以更好的对这些科目加以调节,更好的促进全面发展。在今后的教育发展中,我们可以依据这些结果,对课程比重进行调节,进而促进教育事业的突破发展。在以后的学习中,我们更要应用我们的知识解决我们生活中的事,解决一些实际问题。有目的的学习,学习与实践相结合,那样才是真正的学习五、参考文献1项静恬等. 动态和静态数据处理.气象出版社.1991.2苏金明、阮沈勇. Matlab6.1实用指南.电子工业出版社.2002.3唐鸿龄等. 应用概率.南京工学院出版社.1988.4 胡雷芳. 五种常用系统聚类分析方法及其比较J. 浙江统计. 2007(04) 5 张世强. 关于数理统计中系统聚类法的讨论J. 中国卫生统计. 2005(05) 6 赵骅,刘丹. Ward系统聚类法在多变量分层抽样技术中的运用J. 统计与决策. 2006(23)附录:七年级成绩单idsexclassyuwenmathenglishpoliticalhistory101男11161221496978102男111581926959103男19692987642104男19768954918105男1115911278578106男1981011166462107男19634365639108男194110746762109男11151131067166110男1102871136852111男11011251037669112男11071071338278113男111096736962114男19444616536115男110595836460116男110298975066117男11161071356768118男11191281377181119男11101001316161120女11231001338384121女11231021417770122女11111141397876123女1104791166346124女1115731256652125女1108531164947126女11311101057960127女1121931448363128女1117711357480129女1121861177441130女11331161467086131女1115
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑投影硬件配置方案设计
- 工厂改造景观建筑方案设计
- 观光小火车路基施工方案
- 屋面垂直爬梯施工方案
- 出入境辅警考试题及答案
- 职务代理制度管理办法
- 教师思想汇报范文大全
- 美术丝巾拓印活动方案策划
- 企业并购章程及程序
- 信息技术外包行业市场分析
- 三级安全教育档案模板(完整版)
- 2023年公务员职业道德培训考试题库
- 第三单元名著导读《朝花夕拾》之《二十四孝图》详解 课件(共17张ppt) 部编版语文七年级上册
- 八纲辨证-课件
- 房产归属协议书范本
- 服务类合同补充协议
- 学生休学申请表(新)
- 350吨履带吊地基承载力验算
- 露天采石场供配电系统安全管理制度
- TSG-R0005-2022《移动式压力容器安全技术监察规程》(2022版)
- 2020 ACLS-PC-SA课前自我测试试题及答案
评论
0/150
提交评论