




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析实习一、实验目的1)熟悉聚类分析中Q型和R型的区别,掌握SPSS软件中实现聚类分析的过程和参数选择。2)结合专业背景知识解释聚类结果。二、实验原理1聚类分析是研究“物以类聚”的一种科学有效方法,人们在认识世界的过程中,需要把某些方面相似的东西归成类,以便从中发现规律性,寻找其中共同与不同的特征。聚类分析的主要思想是:根据事物本身的特性研究个体的分类,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。2聚类分析的实质是建立一种分类方法,它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类,这里的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。3.聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类,因此聚类分析不需要建模。4.在地质研究领域,由于地质对象的复杂性,单靠定性标志或少量定量标志进行分类,常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性,分类常常不能反映客观实际,分类方案又经常因人而异,因此,多元统计分析中对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。5.在具体进行聚类分析时,出于不同的目的和要求,可能选择不同的统计量和聚类方法,因此可出现不同的聚类结果。三、相似性统计指标 聚类分析可以分为R型和Q型,对m个变量进行分类的方法,称为R型聚类法,常用的统计量称为“相关系数”;对n个样品进行分类的方法称为Q型聚类法,常用的统计量称为“距离”。怎样衡量样品或者变量之间的相似性大小?假定有N个样品,每个样品有P变量来描述,可测的一个数组,以矩阵X表示: 比较N个样品间相似性的Q型聚类分析,实际上是矩阵X的N列数据之间相似性对比;同理,p个变量之间的相似性的R型分析,是矩阵X的p行之间的比较。矩阵X中任意两个样品或两个变量之间的相似性,表现在以下三个基本方面:描述两个样品或变量的两列或两行对应元素接近的程度两列或两行对应元素成比例的程度两列或两行对应元素消长关系的密切程度因此,用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。(一)距离系数(dik)常用于Q型聚类分析,每个样品视为p维空间中的一点,dik相当于p维空间中两点之间的距离,既两样品点接近的程度。聚类时聚类相近的样本属于一个类,聚类远的样本属于不同的类。常用的方法有:欧氏距离(Euclidean):欧氏距离平方(Squared Euclidean):Chebychev: max|xi-yi|Block(绝对距离): |xi-yi|Minkowski:Customized距离(用户自定义距离):类Gp与类Gq之间的距离Dpq:(d(xi,xj)表示点xi Gp和xj Gq之间的距离)最短距离法:最长距离法:重心法:类平均法:离差平方和法。dik越小,两样品越相似,即 X矩阵中第i列与第k列对应的元素越接近。用距离系数时,如果变量之间相关性大时,相关性越大,dik越不可靠。因此,若变量不独立时,进行Q型聚类前可先进行R型因子分析,把变量变为互不相关的新变量(用因子得分去代替原始变量),再求距离系数主因子距离系数。(二)相似性系数常用于Q型聚类分析,是把第i、k样品看成p维空间中的两向量,两个样品之间的相似程度可由其向量间夹角的余弦来表示,公式为:式中:i、k1,2,,N(ik)为样品号,j1,2,p为变量号。(三)相关系数多用于R型聚类分析以表示研究对象之间的相关性,其公式为: 式中:t、j1,2,,p(tj)为变量号;i1,2,n为样品号。r的取值范围是1与1之间,|r|值越大表示两变量之间关系越密;r|值越小表示关系越不密切注意:在应用上述所有相似性统计指标计算时,由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用,在进行聚类分析之前,需要对原始数据进行处理,应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K-均值聚类法(快速聚类法)。(一)层次聚类法:基本思想是:先将要归类的n个样品(或者变量)各自看成一类,共有n类;然后按照事先规定好的方法计算分类统计量,即某种距离或某种相似系数,将关系最密切的两类并为一类,其余不变,即得n-1类;又按前面使用的计算新类与其它类的距离或者相似系数,又将关系最密切的两类并成一类,其余不变,即得n-2类;如此进行下去,每次重复都减少一类,直到最后所有样品(或者变量)归为一类为止。显然,越是后来合并的类,距离就越远。最后再利用一些相应的指标来确定聚为几类的结果是最为合适的。(二)快速聚类法 (K-均值聚类法):类别个数需要在分析前就加以确定,整个分析过程使用迭代的方式进行,首先起步于一个初始的分类,然后通过不断的迭代把数据在不同类别之间移动,直到最后达到一定的标准为止,整个计算过程中不需要存储基本数据或者距离矩阵,因此不会出现多个互相嵌套的聚类结果,而计算速度也要快得多。快速聚类法先对数据进行初始分类,然后逐步调整,得到最终分类。计算过程如下:首先需要用户指定聚类成多少类(比如k类)然后对数据进行初始分类,即确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本作为初始类中心点。如果用户的经验比较丰富,初始类中心点也可以由用户自行指定,需要指定k组样本数据作为初始类中心点。计算所有样本数据点到k个类中心点的欧氏距离,按照距离最短原则,把所有样本分配到各中心点所在的类中,选出一个新的k类,完成一次迭代过程。重新确定k个类的中心点。计算每个类中各个变量的变量值平均数,并以此均值点作为新的类中心点。重复上面两步计算过程,直到达到指定的迭代次数或终止迭代的判别要求为止。五、SPSS实现聚类分析过程参数说明(一)层次聚类分析中的Q型聚类【例】对一个班10位学生的数学水平进行聚类,数据见下表:在菜单中选择层次聚类如下图:在弹出的对话框中作如下选择:这里选择姓名变量作为标签变量将增强聚类分析结果的可读性。l 点击统计量按钮,见如下对话框:本例选择如图所示。凝聚状态表项,将输出层次聚类分析的凝聚状态表。近似性矩阵项,将显示各样本的距离矩阵。聚类成员框中:无:不显示类成员构成。单解:其后的聚类数目中的数值n表示仅显示聚类成n类时,各个类的成员。解的范围:指定显示聚类成n1类到n2类时,各个类的成员。l 点击绘图按钮,得到如下对话框:本例选择如图。SPSS层次聚类的图形结果有两种方式输出树形图(Dendrogram) 树形图以树的形式展现聚类分析的每一次合并过程,SPSS首先将各类之间的距离重新转换到 025之间,然后再近似地表示在图上。树形图可以粗略地表现聚类的过程。选中系统树形图项,即可输出树形图。 输出冰柱图(Icicle)冰柱图通过表格中的“X”符号显示,其样子很像冬天房屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(所有聚类)。选择指定聚类范围项,并输入从第几类开始显示 (Start:),到第几类结束显示(Stop),中间几个几类(By:),则可以指定显示聚类中某一阶段的冰柱图。如果选择None则不输出冰柱图。l 点击方法按钮,得到如下对话框:本例选择如图。聚类方法下拉框中指定的是小类之间的距离计算方法。SPSS提供了7种方法供用户选择: 1 Between-groupslinkage:类间平均链锁法。 2 Within-groupslinkage:类内平均链锁法。 3 Nearestneighbor:最近距离法。 4 Funhestneighbor:最远距离法。 5 Centroidclusting:重心法。 6 Medianclustering:中间距离法。 7 Wards method:离差平方和法。 SPSS默认的是类间平均链锁法。在测量框中选择计算样本距离的方法,选项如下: 间距适合于连续性变量,系统提供8种方法供用户选择 1 Euclidean distance,欧氏距离。 2 Squared Euclidean distance(系统默认方式),欧氏距离平方。 3 Cosine:变量矢量的余弦,这是模型相似性的度量。 4 Pearson correlation:相关系数距离,适用于R型聚类。 5 Chebychev,Chebychev距离。 6 Block:City-Block或Manhattan距离。 7 Minkowski,Minkowski距离。 8 Customized, 用户自定义距离。计数适合于顺序或名义变量,系统提供两种选择方式: 1 Chi-square measure,SPSS默认方式。 2 Phi-square measufe,这是2统计量。 二值适用于二值变量,系统提供多种选择方式,默认的是二元欧氏距离平方。l 点击保存按钮,得到如下对话框:本例选择如图。该对话框中将SPSS层次聚类分析的最终结果以变量的形式保存到SPSS数据编辑窗口中。输出结果:层次聚类分析的概要结果:可见,10个样本全部参与了聚类。下表为各样本的距离矩阵:从该表可以看出各个样本之间的距离。凝聚状态表:上表中共有七列,第一列表示聚类分析的步骤,本例共进行了9个步骤的分析。第二列、第三列表示某步聚类分析中,哪两个样本或类聚成了一类。第四列表示该步聚类的两个样本或类间的距离。第五列、第六列表示该步聚类分析中,参与聚类的是样本还是类,0表示参与聚类的是样本,非零数字n表示参与聚类的是第n步聚类所产生的类。第七列表示本步聚类结果将在下面聚类的第几步中用到。下表为层次聚类分析聚成3个类时,样本的类归属表:冰柱图:图中第一列表示类的数目。观察时一般从最后一行开始。最后一行中,类的数目为9,即样本聚成了9类,其中样本5和样本8用连接在了一起,表示两个样本聚成一类,其余每个样本构成一类。倒数第二行中,类的数目为8,即样本聚成了8类,其中样本1和样本10聚成一类。树形图:* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 王五 5 陈八 8 张三 3 吴二 2 韩七 7 李四 4 周大 1 钱十 10 赵六 6 魏九 9 聚类成3类时,各个样本的类归属情况保存为一个变量:(二)层次聚类分析中的R型聚类【例】对一个班同学的各科成绩进行聚类,数据如下:各参数设置如下:输出结果:* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 语文 3 政治 4 数学 1 物理 2 (三)快速聚类【例】对一个班10位学生的数学水平进行快速聚类,数据见下表:各参数设置如下:在上表的方法框中,选择类中心点的确定方法。有两种确定方法:Iterate and classify(迭代和聚类):先定初始类中心点,然后按k-均值计算作迭代分类。Classify only(仅仅聚类):仅按初始类中心点分类,仅作一次迭代计算。点击Iterate(迭代)按钮,打开如下对话框:该对话框用于确定快速聚类分析的迭代终止条件。Maximum Iterations(最大迭代次数)框:指定最大的迭代次数,迭代达到该次数时,终止聚类分析过程。SPSS默认为10次。Convergence Criterion(收敛准则)框:为迭代的距离收敛标准。当新一次迭代形成的若干个类中心点和上次的类中心点间的最大距离小于该指定值时,终止聚类分析过程。SPSS默认值为0。Use running means(使用运行中的平均值):选中该项,表示每当一个样本分配到一类后,重新计算新的类中心点,快速距离分析的类中心点将与样本进入的先后顺序有关;不选中该项,则完成所有样本依次类分配后计算各类中心点,这种方式可以节省运算时间,尤其是样本容量较大的时候。点击Save(保存)按钮,打开如下对话框:该对话框可以指定将SPSS快速聚类分析的结果以变量的形式保存到SPSS的数据编辑窗口中。Cluster membership(聚类成员):表示将所有样本所属类的类号保存到变量QCL_1中。Distance from cluter center(从聚类中心的距离):表示将所有样本距所属类中心点的欧氏距离保存到变量QCL_2中。点击Options(选项)按钮,打开如下对话框:该对话框可以选择输出其他哪些聚类分析的结果,并指定对缺失数据的处理方法。输出结果:SPSS指定的初始类中心点:快速聚类分析的迭代历史过程表:可见总共进行了两次迭代。其中的数值为每次迭代后形成的类中心点与前次类中心点的距离。快速聚类分析后的各个类包含样本的情况:最终的类中心点位置:最终的类中心点之间的距离:快速聚类分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年国内知名企业数据分析师岗位招聘面试题及答案
- 2025年人事专员面试问题及模拟题答案
- 2025年健康照护师专业资格认证考试模拟题及答案
- 2025年旋挖钻机项目建议书
- 2025年口服降血糖药项目建议书
- 2025年生物质气化机组项目建议书
- 抛光粉尘安全知识培训课件
- 抗过敏药课件
- 广西南宁市西乡塘区、江南区2024-2025学年七年级下学期期末检测地理试卷(含答案)
- 2025年电视节目自动播出设备项目建议书
- 2025年养老护理员考试试卷及答案
- 2025年宜宾市中考语文试题卷(含答案详解)
- 新能源装备制造业行业研究报告
- 家博会现场抽奖活动方案
- 芦苇创意美术课件
- 古建筑保护和修复工程项目可行性研究报告
- 第1章 勾股定理 问题解决策略 课件 北师大版数学八年级上册
- 三方检测公司管理制度
- 湖北省枣阳市实验中学2025届七年级英语第二学期期末考试试题含答案
- 公司行政综合部管理制度
- 2025至2030年中国特种石墨行业市场发展态势及投资机会研判报告
评论
0/150
提交评论