《聚类分析与判别》PPT课件.ppt_第1页
《聚类分析与判别》PPT课件.ppt_第2页
《聚类分析与判别》PPT课件.ppt_第3页
《聚类分析与判别》PPT课件.ppt_第4页
《聚类分析与判别》PPT课件.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章聚类分析与判别分析 管理统计学 谢湘生广东工业大学管理学院 12 1聚类分析的作法 12 1 1概述 聚类分析 ClusterAnalysis 是依据研究对象的个体特征 对其进行分类的方法 分类在经济 管理 社会学 医学等领域 有着广泛的应用 例 为制定我国成年女子的服装标准 选了14项身体指标 1 总的体高Y1 2 身高Y2 3 上体长Y3 4 手臂长Y4 5 肩宽Y5 6 胸围Y6 7 颈围Y7 8 前胸Y8 9 后背Y9 10 前腰节Y10 11 后腰节Y11 12 下体长Y12 13 腰围Y13 14 臀围Y14对3454个成年女子分别进行了测量 如何根据样本的测量数据制定合乎中国国情的成年女子服装标准 3454名成年女子14个部位的谱系聚类图 类平均法 距离00 10 20 30 40 50 60 7相关系数10 90 80 70 60 50 40 3 问如何将下述卡通人物分类 管理实际中经常会遇到类似的问题 一般地 设有p个指标 变量 n个对象 依据这n个对象在这p个指标下的数据 对这n个对象进行聚类 设数据为 指标 1 2 p 对象1对象2 对象n P维空间中的一个点 聚类问题 就是对p维空间中的n个点的聚类问题 一些要注意的问题 变量 指标 并非越多越好 变量太多 就难以判断聚类结果的实际意义 例如对企业按照技术能力的各项指标 变量 聚类 可以在技术能力等方面把企业分为不同的类别 但如果把企业相关的所有指标都包括进来 对分类结果的含义就难以判断了 只要指标间有一定相关关系 不必高度相关 就可以对所观察的一群个体分类 Q 型聚类 从而可以对个体进行进一步研究 例如可以对消费者的偏好进行分类 可以依据不同地区的有关经济特征 变量 对地区进行分类 等等 如果指标 变量 过多 也可以对指标进行分类 R 型聚类 把含义相近的指标聚在一起 将所有指标分为若干类 10 1 2聚类分析的作法 1 将数据标准化 为了消除不同变量的单位对聚类的影响 应当首先将所有的数据标准化 对上述数据矩阵X而言 按列进行标准化 就可解决不同数据单位问题 其中分别表示第j列数据的均值与标准差 2 计算对象之间的 距离 直观地 应将 相似 的对象分为一类 但如何刻画 相似 根据前面的讨论 聚类实际上是对n维空间的点进行的 因此 相似 的点的 距离 也近 具体来说 先计算第i个对象与第j个对象之间的距离rij 就可得到对象之间 相似关系 矩阵 对象1对象2 对象n 对通常的距离而言 rij rji 因此该矩阵为对称矩阵 聚类分析中的 距离 1 欧氏距离 欧氏距离的平方为 2 偏差距离 3 明考夫斯基 Minkowski 距离 的q次方 4 马氏 Mahalanobis 距离 的平方 其中V是协方差矩阵 在聚类分析中 1 2 中的常数因子 1 p 可以去掉 这样它们就是明氏距离的特殊情况 在具体应用时 可根据实际问题选用其中一种距离 1 相关系数 2 余弦 相似系数 3 选择类与类之间的距离定义 1 类的定义 由1个以上 含1个 对象组成的集合 2 类与类之间的距离 有如下几种规定 用 代表点 之间的距离表示 可以采用两个类之间距离最近 或最远 的点 分别作为这两类的代表点 具体又可分为 最短距离 取距离最近的两点间距离为两类间的距离 最长距离 取距离最远的两点间距离为两类间的距离 用两个类 设它们分别是类S和类T 中所有点之间距离 平方 的平均值 作为两个类之间的距离 的平方 其中ns nt分别是两类中点的个数 dij是点i与点j之间的距离 这种方法的优点在于 类间的距离不依赖于类内的个别点 采用这种距离聚类的方法称为组间连接法 Between grouplinkage 按照某一规则 选择类中的一点 作为该类的 代表点 然后通过代表点间的距离计算类间距离 类间距离 S1 S3 S2 S4 S5 最短距离 singlelinkage 最长距离 completelinkage 类间距离 S1 S3 S4 S5 类间距离 S1 S3 S2 S4 S5 平均距离 average 附 离差平方和法 WARD 基本思想来源于方差分析 它认为 如果分类正确 同类间的离差平方和应较小 类与类之间的类差平方和 与距离有关 应较大 具体做法是 先将n个样本分成一类 然后每次缩小一类 每缩小一类离差平方和就要增大 4 聚类 思路 聚类是一个迭代过程 首先将每个对象本身作为一类 然后进行迭代 每次迭代都将距离最近 或最远 的类合并成新的类 因此每次迭代类的数目将减少 直至最后所有的对象并为一类为止 可以用下面的图形形象地说明聚类过程 采用不同的 距离 将得到不同的聚类效果 第1层次 第2层次 第3层次 第4层次 第5层次 步骤 1 把每一个点 对象 作为一类 称为第一层的类 2 找出距离最小 或最大 的dij 从而得出距离最近 或最远 的两类i和j 把它们合并成层次更高的一类 如果有两个距离dij和dst 例如d12和d56 同时达到最小 或最大 则同时把i j并为一类 s t并作一类 若i j与s t中有一个相同 例如d12 d26 则把这三类并作一类 对有更多小类之间距离同时最小 或最大 可类似处理 3 重复 2 直至所有的点 对象 都并成同一类为止 如果做 2 之前的类是第k层次的类 进行 2 之后的类就是第k 1层的类 5 分类 将各点 对象 聚类后 最后需要确定以第几层的类作为最终的分类标准 通常使用如下的准则 1 准则1 各类重心之间的距离必须较大 为此应作假设检验 准则2 各类所包含的元素个数都不过分地多 准则3 分类的数目应该符合使用的目的 准则4 若采用几种不同的聚类方法处理 则在各自的聚类图上应发现相同的类 但是 一般不使用第一层的类 这实际上是将每个元素各自作为一类 也不使用最后一个层次的类 这实际上是将所有元素作为同一类 这样做失去了分类的意义 聚类分析的进一步说明 聚类的另一种方式 反其道而行之 将前述的聚类过程反过来 先将所有点 对象 看成一类 然后按距离的远近 逐步将类拆分成更细的类 直到最后每一点自己为一类为止 为了区分 前面的方法也称为聚集法 这里的方法也称为分解法 从上面的讨论来看 我们是根据 距离 的远近来分类 但须注意 距离的定义有多种 它们可能并不同于通常直观的距离 因此有时需要将距离最 远 的归并为一类 例如如果取相关系数作为 距离 则该 距离 越大 相应的对象的相关程度就越高 因此宜将它们并为一类 但实际进行统计分析称相关系数等为相似系数 并取距离 1 相似系数 我们上面讨论的是对对象的分类 这相当于在下列矩阵中将每一行看成一点 然后考虑对这些点的分类 指标 1 2 p 对象1对象2 对象n 但有的实际问题 可能遇到较多的指标 因此为了清楚分类的实际意义 需要先对指标进行分类 这只须将上述矩阵中的每一列 看成n维空间的点 然后用前面的方法得到适当的分类即可 或者将上述的方法应用与上面矩阵的转置矩阵即可 12 2用SPSS做聚类分析 12 2 1概述 聚类分析的方法 层次聚类法 迭代聚类法 层次聚类法 就是上一节介绍的方法 又分为 聚集法 AgglomerativeMethod 和分解法 DivisiveMethod 我们主要介绍层次聚类法 这也是最常用的聚类方法 聚类的结果可以用树状图或冰柱图表示 后面将结合例子说明这两种表示方法 迭代聚类法 也称为动态聚类法 这种方法需要指定聚类中心 这相当于指定各类的典型元素 指定聚类中心的方法 可以人为地取定各类的中心 也可由机器产生初始中心 然后通过迭代过程得到所有对象的分类 用一个简单的例子来说明动态聚类法的工作过程 例如我们要把图中的点分成两类 迭代过程是 1 先指定两个迭代 聚类 中心 2 计算每个点到迭代中心的 距离 该点到哪个迭代中心的距离近 就将其划分到那个迭代中心所在的那一类 3 修改迭代中心为各类的 重心 再回到第2步 指定聚类中心 第一次聚类 计算各类的中心 第二次聚类 层次聚类法操作过程与例子 例现有13个运动员 从体形 生理 心理三个方面对他们进行了测评 现在要根据测评的结果对这些运动员进行分类 数据 见文件 判别运动员 对运动员聚类而非对指标聚类 同时给出统计分析结果与作图结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论