版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§10聚类分析(ClusterAnalysis)[引例10-1]统计分析-聚类分析§10聚类分析(ClusterAnalysis)[引例10-1]统计分析-聚类分析§10聚类分析(ClusterAnalysis)§10.1概述§10.2统计量§10.3系统聚类(层次聚类)§10.4快速聚类统计分析-聚类分析§10.1概述问题的提出基本思想主要步骤基本原则主要分类§10.1概述统计分析-聚类分析§10.1概述
问题的提出
聚类分析又称群分析、点群分析、簇群分析等,是研究分类问题(样本或指标)的一种多元统计方法。与其它多元统计分析方法相比,聚类分析方法比较粗糙,理论上尚不完善,目前正处于发展阶段。但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。
统计分析-聚类分析§10.1概述
问题的提出
统计分析-聚类分析
基本思想假定研究对象之间存在不同程度的相似性(亲疏程度)。根据观测样本,找出并计算一些能够度量相似程度的统计量(相似系数、相关系数、距离等)。按照相似性统计量,将相似程度大的聚合到一类,关系疏远的聚合到另一类,直到把所有样本都聚合完毕,形成一个由小到大的分类系统。最后将分类系统直观地用图形表示出来,即谱系图。§10.1概述统计分析-聚类分析主要分类R型聚类分析对变量进行聚类分析(比较:主成分、公因子)Q型聚类分析对样本进行聚类分析(比较:主成分得分、因子得分)
§10.1概述统计分析-聚类分析主要分类系统聚类(hierarchicalcluster)不指定最终的类数,结论将在聚类过程中寻求,这种聚类称为系统聚类可以对变量和样本进行聚类分析快速聚类(K-meanscluster)事先指定用于聚类分析的类数只对样本进行聚类分析,适合大样本数据§10.1概述统计分析-聚类分析
统计量为了将样本(或变量)进行分类,需要研究其关系。目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不怎么相似的样本归为不同的类。另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。对样本进行聚类(Q型聚类),常用的统计量为距离;对变量进行聚类(R型聚类),常用的统计量为相似系数。§10.2统计量统计分析-聚类分析
相似系数是指衡量全部样本或全部变量中任何两部分相似程度的指标。主要有内积系数、匹配系数等几项指标,其中内积系数(innerproductcoefficient)是普通应用于数量数据的相似性指标。两个同维向量与的各分量依次相乘再相加,称为两向量的内积(innerproduct)。内积的数值可以作为一种反映两向量相似程度的指标,称为相似系数。
统计量-相似系数
相似系数(similaritycoefficient)§10.2统计量统计分析-聚类分析
为了消除量纲的影响,对内积进行模标准化处理,经过模标准化处理后的内积正好是两个向量在原点处的夹角余弦。
统计量-相似系数
夹角余弦(Cosine)§10.2统计量统计分析-聚类分析
为了消除量纲的影响,对原始数据进行离差标准化处理,经过离差标准化处理后的内积正好是两个向量的相关系数。
统计量-相似系数相关系数(Correlationcoefficient)§10.2统计量统计分析-聚类分析
计算任何两个样本(指标)与之间的相关系数,其值越大表示样本(指标)间接近程度越大,值越小表示接近程度越小。
可以根据相似系数矩阵对样本(指标)进行分类。
统计量-相似系数
相关系数矩阵§10.2统计量统计分析-聚类分析
统计量-相似系数§10.2统计量统计分析-聚类分析
距离实质上反映的是两个向量相异的指标,它与相似是互补的概念。距离系数的种类很多,但都有一个共同的特征,即当两个向量完全相同时取最小值,完全不同时取最大值。统计量-距离
距离§10.2统计量统计分析-聚类分析
点与点之间的距离:把每一个样本视为p维空间中的一个点,则两个样本之间的距离可以定义为p维空间中两个点之间的距离。
类与类之间的距离:类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。如果每一类都由一个点组成,那么点间的距离就是类间距离。统计量-距离
距离§10.2统计量统计分析-聚类分析统计量-距离
明氏距离(Minkowskidistance)第i个样本与第j个样本间的明氏距离为:绝对值距离(absolutevaluedistance)
q=1时§10.2统计量统计分析-聚类分析统计量-距离
欧氏距离(Eculideandistance)
q=2时切比雪夫离(Chebychevdistance)§10.2统计量欧氏距离是应用最广泛的一种距离系数。统计分析-聚类分析统计量-距离
马氏距离(Mahalanobisdistance)设样本的协差阵为S,其逆阵为S-1,则第i样本与第j样本间的马氏距离为:§10.2统计量统计分析-聚类分析
统计量-距离§10.2统计量统计分析-聚类分析
类与类之间的距离
最短距离设类Gp与类Gq中两个元素之间的最短距离为Gp与类Gq之间的距离最长距离设类Gp与类Gq中两个元素之间的最长距离为Gp与类Gq之间的距离§10.2统计量统计分析-聚类分析
类与类之间的距离
重心距离设类Gp与类Gq中两个重心之间的距离为Gp与类Gq之间的距离类平均距离设类Gp与类Gq中任意两个元素之间距离的平均值为Gp与类Gq之间的距离§10.2统计量统计分析-聚类分析
系统聚类
先将每样本(变量)看成一类,然后定义样本(变量)间的距离(或相似系数,在SPSS软件中把相似系数也看成是一种距离系数)和类与类间的距离。选择距离最小的两类将其合并成一新类,再按类间距离的定义计算新类与其它类的距离,再行合并,直至所有样本都聚为一类为止。根据一定的标准确定类的个数。§10.3系统聚类统计分析-聚类分析聚类方法①“Between-groupslinkage”类间平均法,当两类之间所有样本之间距离的平均值最小时,这两类可以合并为一类。②“Within-groupslinkage”类内平均法,当合并后所有样本的距离的平均值最小时,这两类可以合并为一类。③“Nearestneighbor”最短距离法,当两类最近样本之间的距离最小时,这两类可以合并为一类。④“Furthestneighbor”最长距离法,当两类最远样本之间的距离最小时,这两类可以合并为一类。⑤“Centroidclustering”重心法,当两类重心距离最小时,这两类可以合并为一类。⑥“Medianclustering”中心法,当两类中心距离最小时,这两类可以合并为一类。⑦“Ward‘smethod”离差平方和法,当合并后类内部各个样本距离(欧氏距离)的离差平方和最小时,这两类可合并为一类。§10.3系统聚类统计分析-聚类分析
聚类方法§10.3系统聚类统计分析-聚类分析类的个数的确定根据谱系图确定分类个数的准则:各类间的距离必须较大;类中包含的元素不要太多;类的个数必须符合实际应用;如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。
§10.3系统聚类法统计分析-聚类分析SPSS软件实现§10.3系统聚类法选择对变量进行聚类统计分析-聚类分析SPSS软件实现§10.3系统聚类法对原始数据进行离差标准化处理;采用相关系数表征变量之间的相似程度;采用离差平方和最小的方法计算类与类之间的距离。统计分析-聚类分析SPSS
软件实现结果分析-数据信息§10.3系统聚类法统计分析-聚类分析SPSS
软件实现结果分析-相关系数矩阵§10.3系统聚类法统计分析-聚类分析SPSS
软件实现结果分析-聚类凝聚过程表§10.3系统聚类法Stage列出步骤序号,ClusterCombined栏中列出了合并的两个类的序号,Nextstage栏是合并的新类再次出现的步骤序号。统计分析-聚类分析SPSS
软件实现结果分析-“Icicle”冰柱图§10.3系统聚类法统计分析-聚类分析SPSS
软件实现对样本进行聚类数据标准化方法:离差标准化(Zscore法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward'smethod”离差平方和法§10.3系统聚类法统计分析-聚类分析SPSS
软件实现对样本进行聚类§10.3系统聚类法统计分析-聚类分析SPSS
软件实现对样本进行主成分聚类主成分提取方法:累积方差贡献率>85%(第八章分析结果)数据标准化方法:离差标准化(Zscore法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward'smethod”离差平方和法§10.3系统聚类法统计分析-聚类分析SPSS
软件实现§10.3系统聚类法统计分析-聚类分析SPSS
软件实现对样本进行因子聚类因子提取方法:主成分法、累积方差贡献率>85%、方差最大正交因子旋转数据标准化方法:离差标准化(Zscore法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward'smethod”离差平方和法§10.3系统聚类法统计分析-聚类分析SPSS
软件实现对样本进行因子聚类§10.3系统聚类法统计分析-聚类分析SPSS
软件实现§10.3系统聚类法CLU3-1是全变量聚类结果;CLU3-2是主成分聚类结果;CLU3-2是因子聚类结果统计分析-聚类分析SPSS
软件实现§10.3系统聚类法Friedman检验表明:全变量聚类结果、主成分聚类结果、因子聚类结果存在显著性差异Wilcoxom检验表明:全变量聚类结果与主成分聚类结果、因子聚类结果存在显著性差异,但主成分与因子聚类结果无显著性差异。统计分析-聚类分析
快速聚类分析的基本思想在快速聚类过程中,参与聚类分析的变量必须是数值型变量,分类数必须大于等于2,且小于等于观测数。一般情况下,还指定一个标识变量来标明观测的特征,以便于清楚地表明各观测的所属类。快速聚类过程始终遵照所有样本空间的点与这几个类中心的距离取最小值原则,进行反复的迭代计算,最终将各个样本分配到各个类中心所在的类,迭代计算将停止。快速聚类只对样本进行聚类。特别合适大样本聚类。§10.4快速聚类法统计分析-聚类分析SPSS软件实现§10.4快速聚类法统计分析-聚类分析SPSS
软件实现从源变量列表中选择需要聚类分析的变量选择聚类对象和聚类数系统默认的聚类数为2§10.4快速聚类法统计分析-聚类分析SPSS
软件实现从源变量列表中选择需要聚类分析的变量选择聚类方法Iterateandclassify:表示在迭代过程中不断地更新聚类中心;Classifyonly:表示用初始聚类中心对观测量进行聚类,聚类中心不变§10.4快速聚类法统计分析-聚类分析SPSS
软件实现从源变量列表中选择需要聚类分析的变量选择聚类方法Readinitialfrom:用来指定数据文件来源,表明所分析的作为凝聚点的观测来自哪一个文件;Writefinalas:用来把聚类过程凝聚点的最终结果保存到指定的数据文件里。§10.4快速聚类法统计分析-聚类分析SPSS
软件实现Iterate迭代对话框MaximumIteration:输入一个整数限定迭代步数,系统默认值为10;ConvergenceCriterion:输入一个不超过1的正数作为判定迭代收敛的标准。缺省的收敛标准值为0.02,表示当两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的2%时终止迭代。§10.4快速聚类法统计分析-聚类分析SPSS
软件实现Iterate迭代对话框Clustermembership:观测量的类别;Distancefromclustercenter:各观测量与所属类聚心之间的欧氏距离。§10.4快速聚类法统计分析-聚类分析SPSS
软件实现Options选择对话框Initialclustercenters:输出初始聚心表,列出每一类中变量均值的初始估计;ANOVAtable:输出方差分析表,这里F检验简单,并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租赁税费承担合同协议合同二篇
- 2026年企业培训服务采购合同三篇
- 完善各项采购制度
- 医院采购部门规章制度
- 加大绿色采购制度
- 医院集中带量采购规章制度
- 家具商场采购管理制度
- 半天妖烤鱼采购制度
- 题型七 有机化合物-高考化学二轮复习题型归纳与解题技巧
- 2025 奇妙的植物呼吸作用实验作文课件
- 学术自由与责任共担:导师制度与研究生培养制的深度探讨
- 法拍司辅内部管理制度
- 高中数学三年教学规划
- 保卫科部门绩效考核标准
- 2025年上海市各区高三二模语文试题汇编《现代文一》含答案
- 公司履约保函管理制度
- 数字化转型战略规划纲要
- 数字化全过程成本管理
- 二级烟草专卖管理师理论考试题库
- 2024年全国中学生生物学联赛试题含答案
- DL∕T 5157-2012 电力系统调度通信交换网设计技术规程
评论
0/150
提交评论