




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二节聚类分析 聚类分析 ClusterAnalysis 是研究 物以类聚 的一种多元统计方法 国内有人称它为群分析 点群分析 簇群分析等 一 聚类分析的基本概念 研究对样品或指标进行分类的一种多元统计方法 是依据研究对象的个体的特征进行分类的方法 聚类分析把分类对象按一定规则分成若干类 这些类非事先给定的 而是根据数据特征确定的 在同一类中这些对象在某种意义上趋向于彼此相似 而在不同类中趋向于不相似 职能是建立一种能按照样品或变量的相似程度进行分类的方法 聚类分析的基本思想是认为我们所研究的样本或指标 变量 之间存在着程度不同的相似性 亲疏关系 于是根据一批样本的多个观测指标 具体找出一些彼此之间相似程度较大的样本 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样本 或指标 又聚合为另一类 关系密切的聚合到一个小的分类单位 关系疏远的聚合到一个大的分类单位 直到把所有样本 或指标 都聚合完毕 把不同的类型一一划分出来 形成一个由小到大的分类系统 最后把整个分类系统画成一张谱系图 用它把所有样本 或指标 间的亲疏关系表示出来 这种方法是最常用的 最基本的一种 称为系统聚类分析 除此以外 还有动态聚类法 图论聚类法 模糊聚类法 有序聚类法等 聚类分析有两种 一种是对样本的分类 称为Q型 另一种是对变量 指标 的分类 称为R型 R型聚类分析的主要作用 不但可以了解个别变量之间的亲疏程度 而且可以了解各个变量组合之间的亲疏程度 根据变量的分类结果以及它们之间的关系 可以选择主要变量进行Q型聚类分析或回归分析 R2为选择标准 Q型聚类分析的主要作用 可以综合利用多个变量的信息对样本进行分析 分类结果直观 聚类谱系图清楚地表现数值分类结果 聚类分析所得到的结果比传统分类方法更细致 全面 合理 在课堂上主要讨论Q型聚类分析 Q型聚类常用的统计量是距离 那么Q型系统聚类法则可以表述为 把样本看成n维空间的点 而把变量看成n维空间的坐标轴 m个样本开始时自成一类 然后规定各类之间的距离 将距离最小的一对并成一类 然后再计算距离 直到所有单位全部合并为止 二 距离和相似系数 在进行聚类分析时 样本间的相似系数和距离有多种不同的定义 通常按特性来划分 变量特征的测度尺度有三种类型 间隔尺度 由连续的实值变量表示 有序尺度 没有明确的数量表示 只有次序关系 如产品等级 名义尺度 具有某种特性 如性别 从一组复杂数据产生一个相当简单的类结构 必然要求进行 相关性 或 相似性 的度量 在相似性度量的选择中 常常包含许多主观上的考虑 但最重要的考虑是指标的性质或观测的尺度 名义 次序 间隔 以及相关知识 课堂上主要讨论的指标测量为间隔尺度的情况 距离 每个样本有p个指标 因此每个样本可以看成p维空间中的一个点 n个样本就组成p维空间中的n个点 这时很自然想到用距离来度量n个样本间的接近程度 用表示第i个样本与第j个样本之间的距离 一切距离应满足以下条件 常见的距离有 blockdistance绝对值距离 euclideandistance欧式距离squaredeuclideandistance平方欧式距离chebychevdistance切比雪夫距离minkowskidistance明考斯基距离 明氏距离 当q 1 2时 为绝对值 欧式距离 若趋近无穷时 则为切比雪夫距离 明氏距离在实际的运用很多 但有一些缺点 例如观测值的单位问题 指标间的相关问题 因此改进得到以下两种距离 Lanberra兰氏距离Mahalanobis马氏距离以上都是样本间距离的定义 相似系数 夹角余弦相关系数变量间的距离利用相似系数来定义距离利用样本协差阵来定义距离把变量Xi的n次观测值看成n维空间的点 在n维空间中定义m个变量间的距离 夹角余弦两变量的夹角余弦定义为 相关系数两变量的相关系数定义为 三 系统聚类法基本步骤 1 选择样本间距离的定义及类间距离的定义 2 计算n个样本两两之间的距离 得到距离矩阵3 构造个类 每类只含有一个样本 4 合并符合类间距离定义要求的两类为一个新类 5 计算新类与当前各类的距离 若类的个数为1 则转到步骤6 否则回到步骤4 6 画出聚类图 7 决定类的个数和类 系统聚类分析的方法 系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义 类间距离的不同定义就产生了不同的系统聚类分析方法 以下用dij表示样品X i 和X j 之间的距离 当样品间的亲疏关系采用相似系数Cij时 令 以下用D p q 表示类Gp和Gq之间的距离 1 最短距离法 SINglemethod 2 最长距离法 COMpletemethod 最长距离 最短距离 A B C D E F 例 为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律 根据调查资料做类型分类 用最短距离做类间分类 数据如下 将每一个省区视为一个样本 先计算5个省区之间的欧式距离 用D0表示距离矩阵 对称阵 故给出下三角阵 因此将3 4合并为一类 为类6 替代了3 4两类类6与剩余的1 2 5之间的距离分别为 d 3 4 1 min d31 d41 min 13 80 13 12 13 12d 3 4 2 min d32 d42 min 24 63 24 06 24 06d 3 4 5 min d35 d45 min 3 51 2 21 2 21 得到新矩阵合并类6和类5 得到新类7类7与剩余的1 2之间的距离分别为 d 5 6 1 min d51 d61 min 12 80 13 12 12 80d 5 6 2 min d52 d62 min 23 54 24 06 23 54 得到新矩阵合并类1和类2 得到新类8此时 我们有两个不同的类 类7和类8 它们的最近距离d 7 8 min d71 d72 min 12 80 23 54 12 80 得到矩阵最后合并为一个大类 这就是按最短距离定义类间距离的系统聚类方法 最长距离法类似 3 重心法 CENtroidmethod 4 类平均法 AVEragemethod 中间距离 5 离差平方和法 WARD 基本思想来源于方差分析 它认为 如果分类正确 同类间的类差平方和应较小 类与类之间的离差平方和应较大 具体做法是 先将n个样本分成一类 然后每次缩小一类 每缩小一类离差平方和就要增大 离差平方和法 WARD 系统聚类方法的统一 系统聚类法参数表 类的个数的确定 由适当的阈值确定 根据数据点的散布直观地确定类的个数 根据统计量确定分类个数 类的个数的确定 根据谱系图确定分类个数的准则 各类重心间的距离必须很大 类中保包含的元素不要太多 类的个数必须符合实际应用 如果采用几种不同的聚类方法处理 则在各种聚类图中应该发现相同的类 四 系统聚类的参数选择 聚类类别 统计 图 树型谱系图冰柱谱系图 聚类方法1 Between groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2 Within groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3 Nearestneighbor最短距离法4 Furthestneighbor最长距离法5 Centroidclustering重心法 欧式距离 6 Medianclustering中间距离法 欧式距离 7 WardMethod离差平方法 欧式距离 SPSS界面指南 五 系统聚类法之例 地区按经济效益分类某年全国28个省区经济效益指标表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年集团贯彻落实《中国共产党国有企业基层组织工作条例(试行)》情况报告单篇
- 2025高端医疗设备研发、制造及全球市场推广合作协议
- 2025年专业自行车租赁与综合保养维修保障协议
- 2025年智慧校园校服设计、研发及定制化生产采购合同
- 2025年城市物流车辆租赁与环保设备供应合同
- 2025年度金融业保险代理劳动合同规范定制版
- 不锈钢防盗门行业节能环保技术改造与推广服务合同
- 2025年茶文化主题茶楼装修验收及开业移交服务合同
- 2025年绿色环保型园林设施与材料定制批发合同
- 2025年度金融资产重组代理销售合同样本
- 农业与食品行业营销方案
- CBL教学法应用介绍
- 提高肋骨骨折影像学诊断
- 东华临床科研数据管理系统解决方案白皮书
- 辽宁省丹东市《教师基本素养及教育教学综合能力知识》教师教育
- 2023年全国保密知识竞赛全套复习题库及答案(共460道题)
- (推荐下载)家族性结肠息肉病教学课件
- 水生产企业(自来水公司)安全生产责任制(含安全手册)
- 《材料成型装备及自动化》课程大纲
- 临时用电JSA分析表
- 如何提高护士对患者病情掌握的知晓率
评论
0/150
提交评论