聚类分析与判别分析.pdf_第1页
聚类分析与判别分析.pdf_第2页
聚类分析与判别分析.pdf_第3页
聚类分析与判别分析.pdf_第4页
聚类分析与判别分析.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

聚类分析与判别分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析与判别分析 介绍 介绍 1 聚类分析 聚类分析 2 判别分析 判别分析 分类学是人类认识世界的基础科学 聚类分析 和判别分析是研究事物分类的基本方法 广泛地应 用于自然科学 社会科学 工农业生产的各个领 域 分类学是人类认识世界的基础科学 聚类分析 和判别分析是研究事物分类的基本方法 广泛地应 用于自然科学 社会科学 工农业生产的各个领 域 14 1 1 聚类分析 根据事物本身的特性研究个体分类的方法 原 则是同一类中的个体有较大的相似性 不同类 中的个体差异很大 根据事物本身的特性研究个体分类的方法 原 则是同一类中的个体有较大的相似性 不同类 中的个体差异很大 根据分类对象的不同 分为样品 观测量 聚 类和变量聚类两种 根据分类对象的不同 分为样品 观测量 聚 类和变量聚类两种 样品聚类 对观测量样品聚类 对观测量 Case 进行聚类 不同的目的 选用不同的指标作为分类的依据 如选拔运动员与 分课外活动小组 进行聚类 不同的目的 选用不同的指标作为分类的依据 如选拔运动员与 分课外活动小组 变量聚类 找出彼此独立且有代表性的自变量 而 又不丢失大部分信息 在生产活动中不乏有变量聚 类的实例 如 衣服号码 身长 胸围 裤长 腰 围 鞋的号码 变量聚类使批量生产成为可能 变量聚类 找出彼此独立且有代表性的自变量 而 又不丢失大部分信息 在生产活动中不乏有变量聚 类的实例 如 衣服号码 身长 胸围 裤长 腰 围 鞋的号码 变量聚类使批量生产成为可能 14 1 2 判别分析 判别分析是根据表明事物特点的变量值和它们 所属的类 求出判别函数 根据判别函数对未 知所属类别的事物进行分类的一种分析方法 判别分析是根据表明事物特点的变量值和它们 所属的类 求出判别函数 根据判别函数对未 知所属类别的事物进行分类的一种分析方法 在自然科学和社会科学的各个领域经常遇到需 要对某个个体属于哪一类进行判断 如动物学 家对动物如何分类的研究和某个动物属于哪一 类 目 纲的判断 在自然科学和社会科学的各个领域经常遇到需 要对某个个体属于哪一类进行判断 如动物学 家对动物如何分类的研究和某个动物属于哪一 类 目 纲的判断 不同 判别分析和聚类分析不同的在于判别分 析要求已知一系列反映事物特征的数值变量的 值 并且已知各个体的分类 不同 判别分析和聚类分析不同的在于判别分 析要求已知一系列反映事物特征的数值变量的 值 并且已知各个体的分类 训练样本训练样本 14 1 3 聚类分析与判别分析的SPSS过程 在在Analyze Classify下 下 1 K Means Cluster 观测量快速聚类分 析过程 观测量快速聚类分 析过程 2 Hierarchical Cluster 分层聚类 进行 观测量聚类和变量聚类的过程 分层聚类 进行 观测量聚类和变量聚类的过程 3 Discriminant 进行判别分析的过程 进行判别分析的过程 14 2 快速样本聚类过程 Quick Cluster 使用使用 k 均值分类法对观测量进行聚类均值分类法对观测量进行聚类 可使用系统的默认选项或自己设置选项 如分为几 类 指定初始类中心 是否将聚类结果或中间数据数 据存入数据文件等 可使用系统的默认选项或自己设置选项 如分为几 类 指定初始类中心 是否将聚类结果或中间数据数 据存入数据文件等 快速聚类实例快速聚类实例 P342 data14 01a 使用系统的默认 值进行 对运动员的分类 分为 使用系统的默认 值进行 对运动员的分类 分为4类 类 Analyze Classify K Means Cluster Variables x1 x2 x3 Label Case By no Number of Cluster 4 比较有用的结果 聚类结果形成的最后四类中心点比较有用的结果 聚类结果形成的最后四类中心点 Final Cluster Centers 和每类的观测量数目 和每类的观测量数目 Number of Cases in each Cluster 但不知每个运动员究竟属于哪一类 这就要用到但不知每个运动员究竟属于哪一类 这就要用到Save选项选项 14 2 快速样本聚类过程 Quick Cluster 中的选项 使用快速聚类的选择项 使用快速聚类的选择项 类中心数据的输入与输出 类中心数据的输入与输出 Centers选项选项 输出数据选择项 输出数据选择项 Save选项选项 聚类方法选择项 聚类方法选择项 Method选项选项 聚类何时停止选择项 聚类何时停止选择项 Iterate选项选项 输出统计量选择项 输出统计量选择项 Option选项选项 14 2 指定初始类中心的聚类方法例题P343 数据同上 数据同上 data14 01a 以四个四类成绩突出者的数据为初始 聚类中心 以四个四类成绩突出者的数据为初始 聚类中心 种子种子 进行聚类 类中心数据文件进行聚类 类中心数据文件data14 01b 但缺一 列 但缺一 列Cluster 不能直接使用 要修改 不能直接使用 要修改 对运动员的分类 还是分 为 对运动员的分类 还是分 为4类 类 Analyze Classify K Means Cluster Variables x1 x2 x3 Label Case By no Number of Cluster 4 Center Read initial from data14 01b Save Cluster membership和和Distance from Cluster Center 比较有用的结果 可将结果与前面没有初始类中心比较 比较有用的结果 可将结果与前面没有初始类中心比较 聚类结果形成的最后四类中心点聚类结果形成的最后四类中心点 Final Cluster Centers 每类的观测量数目 每类的观测量数目 Number of Cases in each Cluster 在数据文件中的两个新变量在数据文件中的两个新变量qc1 1 每个观测量最终被分配 到哪一类 和 每个观测量最终被分配 到哪一类 和 qc1 2 观测量与所属类中心点的距离 观测量与所属类中心点的距离 14 3 分层聚类 Hierarchical Cluster 分层聚类方法 分层聚类方法 分解法分解法 先视为一大类 再分成几类先视为一大类 再分成几类 凝聚法凝聚法 先视每个为一类先视每个为一类 再合并为几大类再合并为几大类 可用于观测量可用于观测量 样本样本 聚类聚类 Q型型 和变量聚类和变量聚类 R型型 一般分为两步 自动一般分为两步 自动 可从可从Paste的语句知道的语句知道 P359 Proximities 先对数据进行的预处理 先对数据进行的预处理 标准化和计算距离等标准化和计算距离等 Cluster 然后进行聚类分析 然后进行聚类分析 两种统计图 树形图两种统计图 树形图 Dendrogram 和冰柱图和冰柱图 Icicle 各类型数据的标准化 距离和相似性计算各类型数据的标准化 距离和相似性计算P348 354 定距变量 分类变量 二值变量定距变量 分类变量 二值变量 标准化方法标准化方法p353 Z Scores Range 1 to 1 Range 0 to 1等等 14 3 4 用分层聚类法进行观测量聚类实例P358 对对20种啤酒进行分类种啤酒进行分类 data14 02 变量包括 变量包括 Beername 啤酒名 称 啤酒名 称 calorie 热量热量 sodium 钠含量钠含量 alcohol 酒精含量酒精含量 cost 价格价格 Analyze Classify Hierarchical Cluster Variables calorie sodium alcohol cost 成分和价格成分和价格 Label Case By Beername Cluster Case Q聚类聚类 Display 选中选中Statistics 单击 单击Statistics Agglomeration Schedule 凝聚状态表Agglomeration Schedule 凝聚状态表 Proximity matrix 距离矩阵Proximity matrix 距离矩阵 Cluster membership Cluster membership Single solution 4 显示分为4类时 各观测 量所属的类 Single solution 4 显示分为4类时 各观测 量所属的类 Method Cluster Furthest Neighbor Measure Interval Squared Euclidean distance Transform Value Range 0 1 By variable 值值 最小值最小值 极差极差 Plots Dendrogram Icicle Specified range of cluster Start 1 Stop 4 by 1 Orientation Vertical纵向作图纵向作图 Save Cluster Membership Single solution 4 比较有用的结果 根据需要进行分类 在数据文件中的分类新变量比较有用的结果 根据需要进行分类 在数据文件中的分类新变量clu4 1等等 14 3 5 用分层聚类法进行变量聚类 变量聚类 是一种降维的方法 用于在 变量众多时寻找有代表性的变量 以便 在用少量 有代表性的变量代替大变量 集时 损失信息很少 变量聚类 是一种降维的方法 用于在 变量众多时寻找有代表性的变量 以便 在用少量 有代表性的变量代替大变量 集时 损失信息很少 与进行观测量聚类雷同 不同点在于 与进行观测量聚类雷同 不同点在于 选择选择Variable而非而非Case Save选项失效 不建立的新变量选项失效 不建立的新变量 14 3 6 变量聚类实例1 P366 上面啤酒分类问题上面啤酒分类问题data14 02 Analyze Classify Hierarchical Cluster Variables calorie sodium alcohol cost 成分和价格成分和价格 Cluster Variable R聚类聚类 Method Cluster Method Furthest Neighbor Measure Interval Pearson Correlation Transform Values Z Score By Variable Plots Dendrogram 树型图树型图 Statistics Proximity matrix 相关矩阵Proximity matrix 相关矩阵 比较有用的结果 根据相关矩阵和树型图 可知比较有用的结果 根据相关矩阵和树型图 可知calorie 热量热量 和和alcohol 酒 精含量 酒 精含量 的相关系数最大 首先聚为一类 从整体上看 聚为三类是比较好 的结果 至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量 可以根据专业知识或测度的难易程度决定 的相关系数最大 首先聚为一类 从整体上看 聚为三类是比较好 的结果 至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量 可以根据专业知识或测度的难易程度决定 14 3 6 变量聚类实例2 P368 有有10个测试项目 分别用变量个测试项目 分别用变量X1 X10表示 表示 50名学生参加测试 想从名学生参加测试 想从10个变量中选择几 个典型指标 个变量中选择几 个典型指标 data14 03 Analyze Classify Hierarchical Cluster Variables X1 X10 Cluster Variable R聚类聚类 Method Cluster Method Furthest Neighbor Measure Interval Pearson Correlation Plots Dendrogram 树型图树型图 Statistics Proximity matrix相关矩阵Proximity matrix相关矩阵 比较有用的结果 可以从树型图中看出聚类过程 具体聚为几类最为合理 根据专业知识来定 而每类中的典型指标的选择 可用 比较有用的结果 可以从树型图中看出聚类过程 具体聚为几类最为合理 根据专业知识来定 而每类中的典型指标的选择 可用p370的相关指数公 式的计算 然后比较类中各个变量间的相关指数 哪个大 就选哪个变量作 为此类的代表变量 的相关指数公 式的计算 然后比较类中各个变量间的相关指数 哪个大 就选哪个变量作 为此类的代表变量 14 4 判别分析P374 判别分析的概念 是根据观测到的若干变量值 判断 研究对象如何分类的方法 判别分析的概念 是根据观测到的若干变量值 判断 研究对象如何分类的方法 要先建立判别函数要先建立判别函数 Y a1x1 a2x2 anxn 其中 其中 Y为 判别分数 为 判别分数 判别值判别值 x1 x2 xn为反映研究对象特征的变 量 为反映研究对象特征的变 量 a1 a2 an为系数为系数 SPSS对于分为对于分为m类的研究对象 建立类的研究对象 建立m个线性判别函 数 对于每个个体进行判别时 把观测量的各变量值 代入判别函数 得出判别分数 从而确定该个体属于 哪一类 或计算属于各类的概率 从而判别该个体属 于哪一类 还建立标准化和未标准化的典则判别函 数 个线性判别函 数 对于每个个体进行判别时 把观测量的各变量值 代入判别函数 得出判别分数 从而确定该个体属于 哪一类 或计算属于各类的概率 从而判别该个体属 于哪一类 还建立标准化和未标准化的典则判别函 数 具体见下面具体见下面吴喜之教授有关判别分析判别分析的讲义 补充 补充 聚类分析与判别分析 以下的讲义是吴喜之教授有关 聚类分析与判别分析聚类分析与判别分析的讲义 我觉得比书上讲得清楚 先是聚类分析一章先是聚类分析一章 再是判别分析一章再是判别分析一章 聚类分析聚类分析 分类分类 俗语说 物以类聚 人以群分 俗语说 物以类聚 人以群分 但什么是分类的根据呢 但什么是分类的根据呢 比如 要想把中国的县分成若干类 就有很 多种分类法 比如 要想把中国的县分成若干类 就有很 多种分类法 可以按照自然条件来分 可以按照自然条件来分 比如考虑降水 土地 日照 湿度等各方 面 比如考虑降水 土地 日照 湿度等各方 面 也可以考虑收入 教育水准 医疗条件 基 础设施等指标 也可以考虑收入 教育水准 医疗条件 基 础设施等指标 既可以用某一项来分类 也可以同时考虑多 项指标来分类 既可以用某一项来分类 也可以同时考虑多 项指标来分类 聚类分析聚类分析 对于一个数据 人们既可以对变量 指标 进 行分类 对于一个数据 人们既可以对变量 指标 进 行分类 相当于对数据中的列分类相当于对数据中的列分类 也可以对 观测值 事件 样品 来分类 相当于对数据 中的行分类 也可以对 观测值 事件 样品 来分类 相当于对数据 中的行分类 比如学生成绩数据就可以对学生按照理科或文 科成绩 或者综合考虑各科成绩 分类 比如学生成绩数据就可以对学生按照理科或文 科成绩 或者综合考虑各科成绩 分类 当然 并不一定事先假定有多少类 完全可以 按照数据本身的规律来分类 当然 并不一定事先假定有多少类 完全可以 按照数据本身的规律来分类 本 章 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 本 章 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 cluster analysis 对变量的聚类称为 对变量的聚类称为R 型聚类 而对观测值聚类称为型聚类 而对观测值聚类称为Q型聚类 这两 种聚类在数学上是对称的 没有什么不同 型聚类 这两 种聚类在数学上是对称的 没有什么不同 饮料数据 饮料数据 drink sav 16种饮料的热量 咖啡因 钠及价格四种变量 如何度量远近 如何度量远近 如果想要对100个学生进行分类 如果仅仅知 道他们的数学成绩 则只好按照数学成绩来 分类 这些成绩在直线上形成100个点 这样 就可以把接近的点放到一类 如果还知道他们的物理成绩 这样数学和物 理成绩就形成二维平面上的100个点 也可以 按照距离远近来分类 三维或者更高维的情况也是类似 只不过三 维以上的图形无法直观地画出来而已 在饮 料数据中 每种饮料都有四个变量值 这就 是四维空间点的问题了 两个距离概念两个距离概念 按照远近程度来聚类需要明确两个概念 一个是按照远近程度来聚类需要明确两个概念 一个是点和点 之间 点和点 之间的距离 一个是的距离 一个是类和类之间类和类之间的距离 的距离 点间距离有很多定义方式 最简单的是歐氏距离 还有 其他的距离 点间距离有很多定义方式 最简单的是歐氏距离 还有 其他的距离 当然还有一些和距离相反但起同样作用的概念 比如相 似性等 两点越相似度越大 就相当于距离越短 当然还有一些和距离相反但起同样作用的概念 比如相 似性等 两点越相似度越大 就相当于距离越短 由一个点组成的类是最基本的类 如果每一类都由一个 点组成 那么点间的距离就是类间距离 但是如果某一 类包含不止一个点 那么就要确定类间距离 由一个点组成的类是最基本的类 如果每一类都由一个 点组成 那么点间的距离就是类间距离 但是如果某一 类包含不止一个点 那么就要确定类间距离 类间距离是基于点间距离定义的 比如类间距离是基于点间距离定义的 比如两类之间最近点 之间的距离 两类之间最近点 之间的距离可以作为这两类之间的距离 也可以用可以作为这两类之间的距离 也可以用两类 中最远点之间的距离 两类 中最远点之间的距离作为这两类之间的距离 当然也可 以用各类的中心之间的距离来作为类间距离 在计算 时 各种点间距离和类间距离的选择是通过统计软件的 选项实现的 不同的选择的结果会不同 但一般不会差 太多 作为这两类之间的距离 当然也可 以用各类的中心之间的距离来作为类间距离 在计算 时 各种点间距离和类间距离的选择是通过统计软件的 选项实现的 不同的选择的结果会不同 但一般不会差 太多 向量向量x x1 xp 与与y y1 yp 之间的距离或相似系数之间的距离或相似系数 2 ii i xy 欧氏距离欧氏距离 Euclidean 平方欧氏距离平方欧氏距离 Squared Euclidean 2 ii i xy 夹角余弦夹角余弦 相似系数相似系数1 cosine 22 1 cos ii i xyxy ii ii x y C xy Pearson correlation 相似系数相似系数2 Chebychev Maxi xi yi Block 绝对距离绝对距离 i xi yi Minkowski 1 q q ii i xy 当变量的测量值相差悬殊时当变量的测量值相差悬殊时 要先进行 标准化 要先进行 标准化 如如R为极差为极差 s 为标准差为标准差 则标 准化的数据为每个观测值减去均值后 再除以 则标 准化的数据为每个观测值减去均值后 再除以R或或s 当观测值大于当观测值大于0时时 有人 采用 有人 采用Lance和和Williams的距离的距离 1 ii i ii xy pxy 22 2 ii i xyxy ii ii xxyy Cr xxyy 类类Gp与类与类Gq之间的距离之间的距离Dpq d xi xj 表示点表示点xi Gp和和xj Gq之间的距离之间的距离 min pqij Dd x x 最短距离法最短距离法 最长距离法最长距离法 重心法重心法 离差平方和离差平方和 Wald 类平均法类平均法 中间距离中间距离 可变平均法可变平均法 可变法等可参考各书可变法等可参考各书 在用欧氏距离时在用欧氏距离时 有统一的递推公式有统一的递推公式 假设假设Gr是从是从Gp和和Gq合并而来合并而来 12 1 21 212 ipjq kpq ipipjqjq xGxG kipq xGG DxxxxDxxxx DxxxxDDDD max pqij Dd x x min pqpq Dd xx 12 1 ipjq pqij xGxG Dd x x n n Lance和和Williams给出给出 对欧氏距离对欧氏距离 统一统一递推递推公式公式 D2 k r pD2 k p qD2 k q D2 p q D2 k p D2 k q 前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得 方法方法 i i p q 最短距离最短距离 0 1 2 最长距离最长距离 01 2 重心重心ni nr p q0 类平均类平均ni nr00 离差平方和离差平方和 ni nk nr nk nk nr nk 0 中间距离中间距离1 2 1 40 可变法可变法 1 2 1 0 可变平均可变平均 1 ni nr 1 0 有了上面的点间距离和类间 距离的概念 就可以介绍聚 类的方法了 这里介绍两个 简单的方法 有了上面的点间距离和类间 距离的概念 就可以介绍聚 类的方法了 这里介绍两个 简单的方法 事先要确定分多少类 事先要确定分多少类 k 均值聚类均值聚类 前面说过 聚类可以走着瞧 不一定事先确定有多少类 但是这里的 前面说过 聚类可以走着瞧 不一定事先确定有多少类 但是这里的k 均值聚类 均值聚类 k means cluster 也叫快速聚 类 也叫快速聚 类 quick cluster 却要求你先说好要分多少类 看起来 有些主观 是吧 却要求你先说好要分多少类 看起来 有些主观 是吧 假定你说分假定你说分3类 这个方法还进一步要求你事先确定类 这个方法还进一步要求你事先确定3个点 为 个点 为 聚类种子聚类种子 SPSS软件软件自动自动为你选种子为你选种子 也就是说 把这 也就是说 把这3个点作为三类中每一类的基石 个点作为三类中每一类的基石 然后 根据和这三个点的距离远近 把所有点分成三类 再把这三类的中心 均值 作为新的基石或种子 原来的 然后 根据和这三个点的距离远近 把所有点分成三类 再把这三类的中心 均值 作为新的基石或种子 原来的 种子种子 就没用了 重新按照距离分类 就没用了 重新按照距离分类 如此叠代下去 直到达到停止叠代的要求 比如 各类最 后变化不大了 或者叠代次数太多了 显然 前面的聚 类种子的选择并不必太认真 它们很可能最后还会分到同 一类中呢 下面用饮料例的数据来做 如此叠代下去 直到达到停止叠代的要求 比如 各类最 后变化不大了 或者叠代次数太多了 显然 前面的聚 类种子的选择并不必太认真 它们很可能最后还会分到同 一类中呢 下面用饮料例的数据来做k 均值聚类 均值聚类 假定要把这16种饮料分成3类 利用SPSS 只 叠代了三次就达到目标了 计算机选的种子还 可以 这样就可以得到最后的三类的中心以 及每类有多少点 假定要把这16种饮料分成3类 利用SPSS 只 叠代了三次就达到目标了 计算机选的种子还 可以 这样就可以得到最后的三类的中心以 及每类有多少点 Final Cluster CentersFinal Cluster Centers 203 1033 71107 34 1 654 163 49 13 0510 068 76 3 152 692 94 CALORIE CAFFEINE SODIUM PRICE 123 Cluster Number of Cases in each ClusterNumber of Cases in each Cluster 2 000 7 000 7 000 16 000 000 1 2 3 Cluster Valid Missing 根据需要 可以输出哪些 点分在一起 结果是 第 一类为饮料 根据需要 可以输出哪些 点分在一起 结果是 第 一类为饮料1 10 第二 类为饮料 第二 类为饮料2 4 8 11 12 13 14 第三类为剩 下的饮料 第三类为剩 下的饮料3 5 6 7 9 15 16 SPSS实现SPSS实现 聚类分析 聚类分析 K 均值聚类均值聚类 以数据以数据drink sav为例 在为例 在SPSS中选择中选择 Analyze Classify K Menas Cluster 然后把然后把calorie 热量 热量 caffeine 咖啡 因 咖啡 因 sodium 钠 钠 price 价格 选 入 价格 选 入Variables 在在Number of Clusters处选择处选择3 想要分 的类数 想要分 的类数 如果想要知道哪种饮料分到哪类 则选如果想要知道哪种饮料分到哪类 则选 Save 再选 再选Cluster Membership等 等 注意注意k 均值聚类只能做均值聚类只能做Q型聚类 如要做型聚类 如要做R 型聚类 需要把数据阵进行转置 型聚类 需要把数据阵进行转置 事先不用确定分多少类 分层聚类事先不用确定分多少类 分层聚类 另一种聚类称为分层聚类或系统聚类 另一种聚类称为分层聚类或系统聚类 hierarchical cluster 开 始 时 有多少点就是多少类 开 始 时 有多少点就是多少类 它第一步先把最近的两类 点 合并 成一类 然后再把剩下的最近的两类 合并成一类 它第一步先把最近的两类 点 合并 成一类 然后再把剩下的最近的两类 合并成一类 这样下去 每次都少一类 直到最后 只有一大类为止 显然 越是后来合 并的类 距离就越远 再对饮料例子 来实施分层聚类 这样下去 每次都少一类 直到最后 只有一大类为止 显然 越是后来合 并的类 距离就越远 再对饮料例子 来实施分层聚类 对于我们的数据 SPSS输出的树型图为对于我们的数据 SPSS输出的树型图为 聚类要注意的问题聚类要注意的问题 聚类结果主要受所选择的变量影响 如果去 掉一些变量 或者增加一些变量 结果会很 不同 聚类结果主要受所选择的变量影响 如果去 掉一些变量 或者增加一些变量 结果会很 不同 相比之下 聚类方法的选择则不那么重要 了 因此 聚类之前一定要目标明确 相比之下 聚类方法的选择则不那么重要 了 因此 聚类之前一定要目标明确 另外就分成多少类来说 也要有道理 只要 你高兴 从分层聚类的计算机结果可以得到 任何可能数量的类 但是 聚类的目的是要 使各类距离尽可能的远 而类中点的距离尽 可能的近 而且分类结果还要有令人信服的 解释 这一点就不是数学可以解决的了 另外就分成多少类来说 也要有道理 只要 你高兴 从分层聚类的计算机结果可以得到 任何可能数量的类 但是 聚类的目的是要 使各类距离尽可能的远 而类中点的距离尽 可能的近 而且分类结果还要有令人信服的 解释 这一点就不是数学可以解决的了 SPSS实现SPSS实现 聚类分析 聚类分析 分层聚类 对 drink sav 数 据 在 SPSS 中 选 择 Analyze Classify Hierarchical Cluster 然后把 calorie 热量 caffeine 咖啡 因 sodium 钠 price 价格 选入 Variables 在Cluster选Cases 这是Q型聚类 对观测值 聚类 如果要对变量聚类 R型聚类 则选 Variables 为了画出树状图 选Plots 再点Dendrogram 等 啤酒成分和价格数据 啤酒成分和价格数据 data14 02 啤酒名热量钠含量酒精价格啤酒名热量钠含量酒精价格 Budweiser 144 0019 004 70 43 Schlitz 181 0019 004 90 43 Ionenbrau157 0015 004 90 48 Kronensourc170 007 005 20 73 Heineken 152 0011 005 00 77 Old milnaukee145 0023 004 60 26 Aucsberger175 0024 005 50 40 Strchs bohemi149 0027 004 70 42 Miller lite99 0010 004 30 43 Sudeiser lich113 006 003 70 44 Coors 140 0016 004 60 44 Coorslicht102 0015 004 10 46 Michelos lich135 0011 004 20 50 Secrs150 0019 004 70 76 Kkirin149 006 005 00 79 Pabst extra l68 0015 002 30 36 Hamms136 0019 004 40 43 Heilemans old144 0024 004 90 43 Olympia gold 72 006 002 90 46 Schlite light97 007 004 20 47 Statistics Classify Hierarchical Cluster Variables 啤酒名和成分价格等 Cluster Case Q型聚类 Display Statistics Agglomeration Schedule凝聚状态表 Proximity matrix Cluster membership Single solution 4 Method Cluster Furthest Neighbor Measure Interval Squared Euclidean distance Transform Value Range 0 1 By variable 值 最小值 极差 Plots Dendrogram Icicle Specified range of cluster Start 1 Stop 4 by 1 Orientation Vertical Save Cluster Membership Single solution 4 啤酒例子啤酒例子 下表下表 Proximity matrix 中行列交叉点为 两种啤酒之间各变量的欧氏距离平方和 中行列交叉点为 两种啤酒之间各变量的欧氏距离平方和 Case Processing SummaryCase Processing Summary a a 20100 0 0 0 20100 0 NPercentNPercentNPercent ValidMissingTotal Cases Squared Euclidean Distance useda Proximity MatrixProximity Matrix 000 111 062 724 570 140 198 147 358 556 023 213 193 391 8551 069 014 0611 109 530 111 000 090 665 623 249 098 230 745 886 161 591 376 467 9261 714 183 1641 708 933 062 090 000 390 339 337 267 348 364 482 039 301 123 323 5321 332 104 2061 142 475 724 665 390 000 0711 4511 0541 308 815 776 589 885 418 385 0542 269 8001 0371 531 756 570 623 339 071 0001 272 9361 026 682 729 471 653 345 155 0591 899 612 8011 331 656 140 249 3371 4511 272 000 222 130 661 930 228 457 555 929 1 6721 162 149 1141 497 934 198 098 2671 054 936 222 000 1371 0411 358 326 805 709 630 1 3542 086 297 1142 2391 314 147 230 3481 3081 026 130 137 000 8671 201 283 540 643 557 1 4961 416 168 0271 7861 152 358 745 364 815 682 6611 041 867 000 087 222 065 122 791 741 540 292 638 288 027 556 886 482 776 729 9301 3581 201 087 000 363 210 132 953 703 556 473 951 196 050 023 161 039 589 471 228 326 283 222 363 000 141 087 394 685 948 026 156 873 347 213 591 301 885 653 457 805 540 065 210 141 000 128 572 823 443 139 388 395 148 193 376 123 418 345 555 709 643 122 132 087 128 000 428 434 810 167 455 538 153 391 467 323 385 155 929 630 557 791 953 394 572 428 000 3951 695 412 4511 496 870 855 926 532 054 0591 6721 3541 496 741 703 685 823 434 395 0002 068 8931 1991 283 641 1 069 1 7141 3322 2691 8991 1622 0861 416 540 556 948 443 810 1 695 2 068 000 8471 314 256 607 014 183 104 800 612 149 297 168 292 473 026 139 167 412 893 847 000 086 927 455 061 164 2061 037 801 114 114 027 638 951 156 388 455 451 1 1991 314 086 0001 535 882 1 109 1 7081 1421 5311 3311 4972 2391 786 288 196 873 395 538 1 496 1 283 256 9271 535 000 217 530 933 475 756 656 9341 3141 152 027 050 347 148 153 870 641 607 455 882 217 000 Case 1 Budwei 2 Schlit 3 Ionenbr 4 Kronen 5 Heinek 6 Old mi 7 Aucsber 8 Strchs 9 Miller 10 Sudei 11 Coors 12 Coors 13 Miche 14 Secrs 15 Kkirin 16 Pabst 17 Hamms 18 Heilem 19 Olymp 20 Schli Budweis SchlitIonenbr 4 onensourHeinek 6 d milnaukAucsberg 8 rchs bohe 9 ller lit 10 deiser li 1 Coor 12 oorslich 13 chelos li 4 Secr Kkiri 16 bst extra 7 Hamm 18 ilemans o 19 ympia gol 20 hlite lig Squared Euclidean Distance This is a dissimilarity matrix 凝聚过程凝聚过程 Coefficients为不相似系数为不相似系数 由于是欧氏距离由于是欧氏距离 小 的先合并 小 的先合并 Agglomeration ScheduleAgglomeration Schedule 117 014002 111 0261011 818 0270010 920 027007 415 054006 45 0715016 910 0874012 23 0900011 1213 1280012 68 1300313 12 1832815 912 2107917 67 22210015 1619 2560017 16 348111318 414 3956018 916 810121419 141 672151619 192 26918170 Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Cluster 1Cluster 2 Cluster Combined CoefficientsCluster 1Cluster 2 Stage Cluster First Appears Next Stage 分为四 类的聚 类结果 分为四 类的聚 类结果 Cluster MembershipCluster Membership 1 1 1 2 2 1 1 1 3 3 1 3 3 2 2 4 1 1 4 3 Case 1 Budweiser 2 Schlitz 3 Ionenbrau 4 Kronensourc 5 Heineken 6 Old milnaukee 7 Aucsberger 8 Strchs bohemi 9 Miller lite 10 Sudeiser lich 11 Coors 12 Coorslicht 13 Michelos lich 14 Secrs 15 Kkirin 16 Pabst extra l 17 Hamms 18 Heilemans old 19 Olympia gold 20 Schlite light 4 Clusters 冰柱图冰柱图 icicle Vertical IcicleVertical Icicle XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXX XXX XXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXX Number of clus 1 2 3 4 1 9 O l y m p i a g o l d 1 6 P a b s t e x t r a l 1 3 M i c h e l o s l i c h 1 2 C o o r s l i c h t 1 0 S u d e i s e r l i c h 2 0 S c h l i t e l i g h t 9 M i l l e r l i t e 1 4 S e c r s 5 H e i n e k e n 1 5 K k i r i n 4 K r o n e n s o u r c 7 A u c s b e r g e r 1 8 H e i l e m a n s o l d 8 S t r c h s b o h e m i 6 O l d m i l n a u k e e 3 I o n e n b r a u 2 S c h l i t z 1 1 C o o r s 1 7 H a m m s 1 B u d w e i s e r Case 聚类树型图聚类树型图 学生测验数据 学生测验数据 data14 03 50个学生 个学生 X1 X10个测验项目 要对这 个测验项目 要对这10个变量进行变量聚类 个变量进行变量聚类 R 型聚类 过程和型聚类 过程和Q型聚 类 观测量聚类 对 型聚 类 观测量聚类 对cases 一样一样 Statistics Classify Hierarchical Cluster Variables x1 x10 Cluster Variable R型聚类 Display Statistics Proximity matrix Cluster membership Single solution 2 Method Cluster Furthest Neighbor Measure Interval Pearson correlation 用Pearson相关系数 Plots Icicle All Cluster 学生测验例子学生测验例子 下表下表 Proximity matrix 中行列交叉点为 两个变量之间变量的欧氏距离平方和 中行列交叉点为 两个变量之间变量的欧氏距离平方和 Case Processing SummaryCase Processing Summary a a 50 100 0 0 0 50 100 0 NPercentNPercentNPercent ValidMissingTotal Cases Correlation between Vectors of Values ua Proximity MatrixProximity Matrix 000 133 290 099 331 198 449 323 320 112 133 000 026 411 201 328 134 199 268 271 290 026 000 151 274 406 443 509 598 318 099 411 151 000 072 282 145 401 324 407 331 201 274 072 000 317 191 063 356 084 198 328 406 282 317 000 370 312 306 296 449 134 443 145 191 370 000 337 313 246 323 199 509 401 063 312 337 000 611 584 320 268 598 324 356 306 313 611 000 325 112 271 318 407 084 296 246 584 325 000 Case X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X1X2X3X4X5X6X7X8X9X10 Matrix File Input 分为两类的聚类结果分为两类的聚类结果 Cluster MembershipCluster Membership 1 1 2 1 1 1 1 2 2 2 Case X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 2 Clusters 冰柱图冰柱图 icicle Vertical IcicleVertical Icicle XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXX XXXXXXX XXX XXXXXXX XXXXXXX XXX XXX XXX XXXXXXX XXX X X XXX X XXXXX XXX X X XXX X XXXXX X X X X XXX X XXXXX X X X X X X X XXX X X X X X X X Number of cluster 1 2 3 4 5 6 7 8 9 X 1 0 X 9 X 8 X 3 X 4 X 2 X 6 X 5 X 7 X 1 Case 判别分析 判别判别 有一些昆虫的性别很难看出 只有通过 解剖才

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论