




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三节K均值聚类分析 K meansCluster 一 系统方法回顾K均值聚类分析 也称快速聚类或动态聚类法 适用于较大样本时的样品聚类 该法要求资料中聚类指标均为数值变量 可使用欧氏距离 计算两类间的直线距离 只有当所有变量都是数值变量时才可选用 描述样品间的相似度 此外 研究者必须事先知道应该分为多少类 即必须事先指定期望的聚类数K K均值聚类分析的具体步骤 1 先选择K个初始凝聚点 把每个凝聚点作为此后聚类的核心 2 计算样本中每个观测到这些凝聚点的距离 按照距离最近原则将每个观测分类到凝聚点所代表的类中 得到一个初始分类方案 3 计算g个初始分类的 重心 类内各样品观测值的均值作为新的凝聚点4 重复步骤2 直到前后两次的类均数变化小于一个给定的临界值或分类方案没有变化为止 在SPSS中 用户除了可以选择不断迭代更替类中心的聚类方法 也可以选择不要迭代更新类中心 而仅仅根据初始凝聚点聚类 将其作为最终的分类结果 二 SPSS操作指南15 2用耳长 EC 耳宽 EK 耳外展距 EZ 耳指数 EI 和外展指数 AI 5个数值变量对300份样品聚类 原始数据例15 1 迭代更新聚类 是在初始凝聚点基础上不断迭代聚类 形成新的凝聚点 直到前后凝聚结果没有变化为止 系统默认 不用迭代聚类 是在初始凝聚点基础上聚类 作为最终聚类结果 1 K meansCluster过程主对话框 指定数据文件中的观察值作为初始凝聚点 将最终聚类的凝聚点坐标写入指定数据文件 指定最大迭代次数 规定为1到999之间的整数 指定收敛准则 系统默认为初始凝聚点间最小距离的2 选此项后 每聚类一个样品 就会重新计算类中心 2 Iterate子对话框 类内各样品观测值的均值作为新的凝聚点 创建新变量 说明每个样品的聚类结果 新变量将出现在当前数据集中 创建新变量 说明每个样品和凝聚点的欧式距离 新变量将出现在当前数据集中 3Save子对话框 4Options子对话框 初始类中心 单变量方差分析表 对每个用于聚类的变量做单变量方差分析 比较各类间均数有无差异 可用于判断变量对聚类有无作用 每个样品的聚类信息 指每个样品的最终聚类类别以及与类中心的欧式距离 输出结果解释1 表15 2给出初始类中心的坐标 可以看到 这几个初始凝聚点来自原始数据集中4个观测 表15 2 2 表15 3给出迭代聚类过程 可以看到 第11次迭代后 聚类结果收敛 3 表15 14 表15 15给出最终的类中心坐标和最终类中心间两两距离 可以看到 最终类中心坐标为各类中的变量均值 表15 14 表15 15 表15 14给出最终的类中心坐标 表15 15 最终类中心间两两距离 4表15 16给出各变量的单因素方差分析表 从方差分析表可以看到 五个聚类变量在各类间的均数差异都有统计学意义 表明对聚类分析均有作用 5表15 17给出最终聚类后的各类的频数 此外 各观测的聚类结果及各观测到类中心的距离作为新变量保存到了原始数据集中 结果表述最终聚类结果 300例样品按5个变量聚为4类 各样品所属类别可见数据集中的新变量 三应用注意事项1在运用K均值聚类方法时 研究者必须事先指定期望的聚类数K 因此 当对样品的分类一无所知时 只能尝试地定义不同的聚类数K 或者选用上一节的两步聚类法 2K均值聚类方法需要事先指定初始聚类点 初始聚类点可以人为地选择 或人为地先将所有样品分类 计算每一类的均值作为初始凝聚点 3选用不同的变量对样品进行聚类可以得到不同的聚类结果 用于聚类的变量不同 聚类结果也不同 因此 在不同的准则下 比较聚类结果的优劣是没有意义的 4选择不同的聚类方法得到的聚类结果往往也不同 实际工作应结合背景选择适当的聚类结果 第四节系统聚类 HierachicalCluster 一系统方法回顾系统聚类适用于小样本资料的样品聚类或变量聚类 原始数据可以是数值变量 也可以是多分类变量 或二分类变量 但最好不要有不同类型变量的混合 三种变量可选择不同的距离度量 系统聚类的具体步骤如下 1每个样品 变量各成一类 假设共有n类 2计算上述n类的两两类间距离 将距离最小的两类合为一类 这时共有n 1类 3计算上述n 1类的两两类间距离 将距离最小的两类合并 这时共有n 2类 4重复上述过程 直到所有类都和并为一大类 5根据类间距离和实际意义选择适当的分类 SPSS中 用户可以选择样品聚类或变量聚类 也有多种相似性度量 多种数据标准化的方式可供选择 系统给出聚类图 据此可直观地确定适当的分类 二SPSS操作指南例15 3某研究院欲用气相色谱法分析细菌全细胞脂肪酸的含量来研究细菌的分类和鉴定 采用被试菌株共24株 其中空肠弯曲菌8株 标号CJ1 CJ8 结肠弯曲菌3株 标号CC1 CC3 幽门螺杆菌 标号HP1 HP9 和其他肠道杆菌4株 标号XX1 XX4 分别用气相色谱法测得各菌株的12种脂肪酸的百分含量 变量名X1 X12 要求依据变量X1 X12对24个菌株进行聚类分析 原始数据见例15 3 sav 一 变量设置在Viriableview中设置13个数值型变量NAME和X1 X12 指定结果输出统计量 Statistic 和统计图 Plot 1HierarchicalCluster过程主对话框 选入聚类变量选入标签变量指定对样品聚类还是对变量聚类 2statistics子对话框 输出聚类过程的详细步骤输出聚类样品 变量的距离 相似性矩阵选择输出聚类结果不输出各样品 变量的聚类结果指定类数时的聚类结果指定类范围时的聚类结果 3plot子对话框 输出分类结果树状图 推荐常规使用输出冰柱图输出所有类冰柱图输出指定范围的冰柱图不输出冰柱图纵向输出横向输出 4Method子对话框 选择计算类间距离的方法组间连接法 又叫类平均法 默认 推荐使用对不同类型的变量选择不同的距离度量方法数值变量默认分类变量二分量变量选择对距离测度再变换的方法 通常很少用到绝对取值改变符号将范围设在0 1之间 选择对变量标准化的一些方法 推荐使用标准化正态分布 Zscores 5Save子对话框 创建新变量 保存聚类结果不保存设定某一聚类数时的聚类结果设定某一聚类范围时的聚类结果 输出结果解释 1 表15 23输出了有效的样品数和缺失值数以及所占的百分比 表15 23 2 表15 24输出了系统聚类过程的详细步骤 可以看到 第一步 13和16号样品先聚为一类 第二步 13 16和19号样品聚为一类等 直到最后全部样品聚为一类 表15 24 3 图15 19输出了样品聚类的聚类图 可以看到 24份样品可聚为两类或3类 结果表述 对24份样品根据12个指标进行系统聚类 结果可聚成两类或3类 两类结果中 除HP9外 其余聚成一类 3类结果中 HP9独成一类 XX1 XX4为一类 剩余样品聚为一类 应用注意事项 1 系统聚类方法对聚类变量的要求可以是数值变量 也可以是分类变量 不同类型的变量选用不同的距离测度方法 SPSS对几种类型变量都提供了多种距离测度方法 但只能单选几种变量类型的其中之一 因此原始数据中用于聚类的变量最好是相同类型的 如需要用不同类型的变量进行聚类分析 可选用前述的两步聚类方法 2 聚类分析属于探索性的分析工具 对聚类分析结果的优劣评价目前还没有系统的检验理论 因此实际工作中 只能通过多次尝试 结合实际意义选取较优的分类结果 3 关于3种聚类方法的比较见表15 25 第五节判别分析discriminant过程 一 统计方法回顾和聚类分析一样 判别分析也是对样本个体进行分类的一种统计方法 但是 判别分析和聚类分析最大的区别在于 1 聚类分析可以对样品分类 也可以对变量分类 但判别分析只能对样品分类 2 在聚类分析中 样品的类别事先是未知的 甚至样品可以分几类都不知道 只要知道样品各变量的观察值 就可以对样品进行分类 但判别分析必须事先明确样品可以分为几类 以及每个样品的类别 根据这批样品 称为训练样品 建立一个判别函数和判别准则 再对未知分类的新样品分类 SPSS中Discriminant过程可提供两种方法判别分析方法 Fisher判别分析法和Bayes判别分析法 两种方法的区别在于两种分析方法准则不同 Fisher判别以距离作为判别准则 即样品与那个类的距离最短就分到哪一类 Bayes判别以概率作为判别准则 即样品属于哪一类的后概率最大 就分到哪一类 二 SPSS操作指南例15 4某医院眼科为研究视网膜病变严重程度和视网膜电图的关系 以便用各种指标来判断糖尿病病人的视网膜病变严重起来 测量了131例糖尿病病人的10个指标 年龄 AGE 患糖尿病年数 TIME 血糖水平 GLUCOSE 视力 VISION 及视网膜电图的A波峰时 AT A波振幅 AV B波振幅 BV QP波峰时 QPT 和QP波振幅 QPV 同时也详细检查了这些病人的视网膜病变情况 根据统一标准诊断为轻 中或重度 病变情况变量为GROUP 轻度为1 中度记为2 重度为3 要求利用训练用品 通过逐步判别分析选出作用较大的指标建立判别函数 数据见15 4 sav 变量设置在VariableView中设置11个变量 病变情况变量为GROUP 轻度为1 中度记为2 重度为3 选入分组变量 点击definerange定义分组变量的范围选入进行判别分析的变量选择所有自变量全部进入判别方程用逐步方法筛选变量进入判别方程选择符合某变量取值条件的观测进行分析 点击value设定符合条件的取值 输出统计量各组的均数和标准差各变量在各组间的单变量方差分析表 有助于判断各变量是否对判别有作用组间协方差齐性检验变量未标准化的判别系数 可方便手工回代考核 或对新样品手工计算判别 输出矩阵组内相关系数内组内协方差阵各组协方差阵总协方差阵 如果样本时随机抽样得到的 可选择用样本估计值估计先验概率 即样本中每组例数除以总数 默认各类先验概率相等用样本估计值估计先验概率输出判别考察结果输出每一例判别后的所属类别 即回顾性考核输出判别错判率结果表交叉验证考核结果选择计算所用的协方差阵组内协方差阵用变量均值代替缺失值 选择计算所用的协方差阵组内协方差阵各组的协方差阵输出判别图所有类在一张图纸上各类图单独输出领域图 创建新变量 表示用判别函数判别的各样品所属类别 对应于回顾性考核创建新变量 表示各观察单位的判别得分 两类判别时得分者高者为所属类别 多类判别时不如概率值直观创建新变量 表示各观察单位被判入每一类的概率 最大概率值对应的类别为判定所属类别 四 输出结果解释2这部分输出了逐步分析步骤 可以看到 最后变量vision at age bv进入模型 用了建立判别函数 表15 31 15 32 15 33 表15 31 表15 32 表15 33 3 这部分输出了判别系数所对应的特征和占总特征值的百分比 以及两个判别函数的无统计学意义的检验 可以看到 建立两个判别函数 第一个函数的判别作用已占78 表15 34 15 35 表15 34 表15 35 4 输出两个判别函数的判别系数 以及判别变量和判别函数间相关系数 表15 36 15 37 表15 36 表15 37 由上表可将两个标准化典型判别函数写出 Y1 0 524age 0 908vision 0 525at 0 316bvY2 0 795age 0 313vision 0 726at 0 479bv 表15 38 表15 39 5 输出每类总体的重心指标 可以计算观察单位到各类重心的距离 可按距离最近原则将观察单位分类 表15 38 表15 40 6 输出回顾型考核结果 总错判率为11 131 8 4 交叉验证考核结果 总错判率为14 131 10 69 表15 39 15 40 7 输出3类观测在两个判别函数坐标中的位置 可看到有少数观测重叠 图形略 五 结果表述对11个变量进行逐步判别分析 最后4个变量age at vision bv进入模型 建立两个标准化典型判别函数为 Y1 0 524age 0 908vision 0 525at 0 316bvY2 0 795age 0 313vision 0 726at 0 479bv回顾法考核这两个判别函数 总错判率为8 4 交叉验证考核总错判率为10 69 三 注意事项1 Fisher判别和Bayes判别通常适用于数值变量资料 Fisher判别分析对变量总体分布没有要求 而Bayes判别分析要求总体服从多元正态分布 当变量包含二分类变量或多分类变量时 可以用Logistic回归模型进行判别 2 临界值的选取对判别结果有较大的影响 如选取不当 严重影响判别函数的功能 临界值的取法取决于不同的出发点 有时要根据经验或结合问题的实际背景选取 3 样品的明确分类和各指标的特异性直接影响判别分析的效果 当各类都很接近时 无论选用什么方法都很难得到满意结果 因此 在建立判别函数前 可以先进行各类的单因素方差分析和多元方差分析 如类间差异无统计学意义 则判别效果一定不好 4 和聚类分析相似 对判别函数的判别效果评价目前尚无系统的检验理论 只能通过错判率的估计来评估判别分类的有效性 一 Fisher判别分析假设样品来自分类明确的A B两类总体 每个样品记录了k个指标X1 X2 Xk Fisher判别分析的基本思想是寻找一个综合指标y y是这个指标的线性函数y c1x1 c2x2 ckxk使两类总体上在y上的类间差异尽可能大 类内差异尽可能小 这个线性函数称为判别函数 c称为判别系数 经推导 要满足
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校招入职培训课件
- 垃圾焚烧面试题及答案
- java基础类型面试题及答案
- 综合保管副班长考试试题及答案
- 骨性关节炎考试题及答案
- 针织技术考试题及答案
- 道具趣味测试题及答案
- 检察遴选面试题及答案
- 政治试题联考试题及答案
- 胡萝卜考试题及答案
- 人体解剖实验管理制度
- 夏季安全生产试题及答案
- 配网防外破管理制度
- 不寐的中医辨证论治课件
- 天府新区招商推介报告
- 2024-2025学年人教版数学五年级下学期期末试卷(含答案)
- 高空作业安全技术交底完整
- 营运车误工费协议合同模板
- 消防设施操作员(中级监控方向)理论知识考试(重点)题库600题(含答案解析)
- 企业领导力课件百度云
- HTD9000-X5S仪表自动化培训与技能竞赛综合装置【说明书】A420241009
评论
0/150
提交评论