统计分析-聚类分析.ppt_第1页
统计分析-聚类分析.ppt_第2页
统计分析-聚类分析.ppt_第3页
统计分析-聚类分析.ppt_第4页
统计分析-聚类分析.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

10 聚类分析(Cluster Analysis),引例10-1,10 聚类分析(Cluster Analysis),引例10-1,10 聚类分析(Cluster Analysis),10.1 概述 10.2 统计量 10.3 系统聚类(层次聚类) 10.4 快速聚类,10.1 概述 问题的提出 基本思想 主要步骤 基本原则 主要分类,10.1 概述,10.1 概述,问题的提出 聚类分析又称群分析、点群分析、簇群分析等,是研究分类问题(样本或指标)的一种多元统计方法。 与其它多元统计分析方法相比,聚类分析方法比较粗糙,理论上尚不完善,目前正处于发展阶段。 但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。,10.1 概述,问题的提出,基本思想 假定研究对象之间存在不同程度的相似性(亲疏程度)。 根据观测样本,找出并计算一些能够度量相似程度的统计量(相似系数、相关系数、距离等)。 按照相似性统计量,将相似程度大的聚合到一类,关系疏远的聚合到另一类,直到把所有样本都聚合完毕,形成一个由小到大的分类系统。 最后将分类系统直观地用 图形表示出来,即谱系图。,10.1 概述,主要分类 R型聚类分析 对变量进行聚类分析(比较:主成分、公因子) Q型聚类分析 对样本进行聚类分析(比较:主成分得分、因子得分),10.1 概述,主要分类 系统聚类(hierarchical cluster) 不指定最终的类数,结论将在聚类过程中寻求,这种聚类称为系统聚类 可以对变量和样本进行聚类分析 快速聚类(K-means cluster) 事先指定用于聚类分析的类数 只对样本进行聚类分析,适合大样本数据,10.1 概述,统计量 为了将样本(或变量)进行分类,需要研究其关系。 目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不怎么相似的样本归为不同的类。 另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。 对样本进行聚类(Q型聚类),常用的统计量为距离; 对变量进行聚类(R 型聚类),常用的统计量为相似系数。,10.2 统计量,相似系数是指衡量全部样本或全部变量中任何两部分相似程 度的指标。主要有内积系数、匹配系数等几项指标,其中内 积系数(inner product coefficient)是普通应用于数量数据的 相似性指标。 两个同维向量 与 的各分量依次相乘再相加,称为两向 量的内积(inner product)。 内积的数值可以作为一种反映两向量相似程度的指标,称为 相似系数。,统计量相似系数 相似系数( similarity coefficient),10.2 统计量,为了消除量纲的影响,对内积进行模标准化处理,经过模标准 化处理后的内积正好是两个向量在原点处的夹角余弦 。,统计量相似系数 夹角余弦(Cosine),10.2 统计量,为了消除量纲的影响,对原始数据进行离差标准化处理,经过 离差标准化处理后的内积正好是两个向量的相关系数 。,统计量相似系数 相关系数(Correlation coefficient),10.2 统计量,计算任何两个样本(指标) 与 之间的相关系数 ,其值 越大表示样本(指标)间接近程度越大,值越小表示接近程 度越小。 可以根据相似系数矩阵对样本(指标)进行分类。,统计量相似系数 相关系数矩阵,10.2 统计量,统计量相似系数,10.2 统计量,距离实质上反映的是两个向量相异的指标,它与相似是互补 的概念。 距离系数的种类很多,但都有一个共同的特征,即当两 个向量完全相同时取最小值,完全不同时取最大值。,统计量距离 距离,10.2 统计量,点与点之间的距离:把每一个样本视为p维空间中的一个 点,则两个样本之间的距离可以定义为p维空间中两个点之 间的距离。 类与类之间的距离:类间距离是基于点间距离定义的,比 如两类之间最近点之间的距离可以作为这两类之间的距离,也 可以用两类中最远点之间的距离或各类的中心之间的距离来作 为类间距离。 如果每一类都由一个点组成,那么点间的距离就 是类间距离。,统计量距离 距离,10.2 统计量,统计量距离 明氏距离(Minkowski distance) 第i个样本与第j个样本间的明氏距离为: 绝对值距离(absolute value distance) q1时,10.2 统计量,统计量距离 欧氏距离(Eculidean distance) q2时 切比雪夫离(Chebychev distance),10.2 统计量,欧氏距离是应用最广泛的 一种距离系数。,统计量距离 马氏距离(Mahalanobis distance) 设样本的协差阵为S,其逆阵为S-1,则第i样本与第j样本间的马氏距离为:,10.2 统计量,统计量距离,10.2 统计量,类与类之间的距离 最短距离 设类Gp与类Gq中两个元素之间的最短距离为Gp与类Gq之间的距离 最长距离 设类Gp与类Gq中两个元素之间的最长距离为Gp与类Gq之间的距离,10.2 统计量,类与类之间的距离 重心距离 设类Gp与类Gq中两个重心之间的距离为Gp与类Gq之间的距离 类平均距离 设类Gp与类Gq中任意两个元素之间距离的平均值为Gp与类Gq之间的距离,10.2 统计量,系统聚类,先将每样本(变量)看成一类,然后定义样本(变量)间的 距离(或相似系数,在SPSS软件中把相似系数也看成是一种距 离系数)和类与类间的距离。 选择距离最小的两类将其合并成一新类,再按类间距离的定义 计算新类与其它类的距离,再行合并,直至所有样本都聚为一类 为止。 根据一定的标准确定类的个数。,10.3 系统聚类,聚类方法 “Between-groups linkage”类间平均法,当两类之间所有样本之间距离的平均值最小时,这两类可以合并为一类。 “Within- groups linkage”类内平均法,当合并后所有样本的距离的平均值最小时,这两类可以合并为一类。 “Nearest neighbor”最短距离法,当两类最近样本之间的距离最小时,这两类可以合并为一类。 “Furthest neighbor”最长距离法,当两类最远样本之间的距离最小时,这两类可以合并为一类。 “Centroid clustering”重心法,当两类重心距离最小时,这两类可以合并为一类。 “Median clustering”中心法,当两类中心距离最小时,这两类可以合并为一类。 “Wards method”离差平方和法,当合并后类内部各个样本距离(欧氏距离)的离差平方和最小时,这两类可合并为一类。,10.3 系统聚类,聚类方法,10.3 系统聚类,类的个数的确定 根据谱系图确定分类个数的准则: 各类间的距离必须较大; 类中包含的元素不要太多; 类的个数必须符合实际应用; 如果采用几种不同的聚类方 法处理,则在各种聚类图中应 该发现相同的类。,10.3 系统聚类法,SPSS 软件实现,10.3 系统聚类法,选择对变量进行聚类,SPSS 软件实现,10.3 系统聚类法,对原始数据进行离差标准化处理; 采用相关系数表征变量之间的相似程度; 采用离差平方和最小的方法计算类与类之间的距离。,SPSS 软件实现 结果分析数据信息,10.3 系统聚类法,SPSS 软件实现 结果分析相关系数矩阵,10.3 系统聚类法,SPSS 软件实现 结果分析聚类凝聚过程表,10.3 系统聚类法,Stage 列出步骤序号,Cluster Combined 栏中列出了合 并的两个类的序号,Next stage栏是合并的新类再次出 现的步骤序号。,SPSS 软件实现 结果分析“Icicle” 冰柱图,10.3 系统聚类法,SPSS 软件实现 对样本进行聚类 数据标准化方法:离差标准化(Z score法) 点与点间距离的计算:欧氏距离 类与类间距离的计算:“Wards method”离差平方和法,10.3 系统聚类法,SPSS 软件实现 对样本进行聚类,10.3 系统聚类法,SPSS 软件实现 对样本进行主成分聚类 主成分提取方法:累积方差贡献率85% (第八章分析结果) 数据标准化方法:离差标准化(Z score法) 点与点间距离的计算:欧氏距离 类与类间距离的计算:“Wards method”离差平方和法,10.3 系统聚类法,SPSS 软件实现,10.3 系统聚类法,SPSS 软件实现 对样本进行因子聚类 因子提取方法:主成分法、累积方差贡献率85% 、方差最大正交因子旋转 数据标准化方法:离差标准化(Z score法) 点与点间距离的计算:欧氏距离 类与类间距离的计算:“Wards method”离差平方和法,10.3 系统聚类法,SPSS 软件实现 对样本进行因子聚类,10.3 系统聚类法,SPSS 软件实现,10.3 系统聚类法,CLU3-1是全变量聚类结果;CLU3-2是主成分聚类结果;CLU3-2是因子聚类结果,SPSS 软件实现,10.3 系统聚类法,Friedman检验表明:全变量聚类结果、主成分聚类 结果、因子聚类结果存在显著性差异,Wilcoxom检验表明:全变量聚类结果与主成分聚类结果、 因子聚类结果存在显著性差异,但主成分与因子聚类结果 无显著性差异。,快速聚类分析的基本思想 在快速聚类过程中,参与聚类分析的变量必须是数值型变量,分类数必须大于等于2,且小于等于观测数。 一般情况下,还指定一个标识变量来标明观测的特征,以便于清楚地表明各观测的所属类。 快速聚类过程始终遵照所有样本空间的点与这几个类中心的距离取最小值原则,进行反复的迭代计算,最终将各个样本分配到各个类中心所在的类,迭代计算将停止。 快速聚类只对样本进行聚类。特别合适大样本聚类。,10.4 快速聚类法,SPSS 软件实现,10.4 快速聚类法,SPSS 软件实现 从源变量列表中选择需要聚类分析的变量 选择聚类对象和聚类数,系统默认的聚类数为2,10.4 快速聚类法,SPSS 软件实现 从源变量列表中选择需要聚类分析的变量 选择聚类方法,Iterate and classify:表示在迭代过程中不断地更新聚类中心; Classify only: 表示用初始聚类中心对观测量进行聚类,聚类中心不变,10.4 快速聚类法,SPSS 软件实现 从源变量列表中选择需要聚类分析的变量 选择聚类方法,Read initial from: 用来指定数据文件来源,表明所分析的作为凝聚点的观测来自哪一个文件; Write final as: 用来把聚类过程凝聚点的最终结果保存到指定的数据文件里。,10.4 快速聚类法,SPSS 软件实现 Iterate 迭代 对话框,Maximum Iteration: 输入一个整数限定迭代步数,系统默认值为10; Convergence Criterion: 输入一个不超过1的正数作为判定迭代收敛的 标准。缺省的收敛标准值为0.02,表示当两次迭代计算的聚心之间距 离的最大改变量小于初始聚心间最小距离的2时终止迭代。,10.4 快速聚类法,SPSS 软件实现 Iterate迭代 对话框,Cluster membership: 观测量的类别; Distance from cluster center: 各观测量与所属类聚心之间的欧氏距离。,10.4 快速聚类法,SPSS 软件实现 Options 选择 对话框,Initial cluster centers: 输出初始聚心表,列出每一类中变量均值的初始估计; ANOVA table: 输出方差分析表,这里F检验简单,并没有详细解释检验的各 种概率的含义。 Cluster information for each case:显示每个观测值的聚类信息。包括各观 测量最终被聚入的类别、各观测量与最终聚心之间的欧氏距离,以及最 终各类聚心之间的欧氏距离。,10.4 快速聚类法,SPSS 软件实现 结果分析初始聚类中心,10.4 快速聚类法,SPSS 软件实现 结果分析迭代过程中聚类中心的变化,10.4 快速聚类法,表明迭代10次后凝聚点的变化。即当初始凝聚点几乎没有变化时,结束 迭代过程,迭代次数为10。,SPSS 软件实现 结果分析各观测量所属类,10.4 快速聚类法,各观测的所属类。 Dis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论