聚类分析PPT课件_第1页
聚类分析PPT课件_第2页
聚类分析PPT课件_第3页
聚类分析PPT课件_第4页
聚类分析PPT课件_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 聚类分析 3 1聚类思想 3 2相关度分析 3 3聚类分析常用方法 3 4聚类分析的步骤 2 3 1聚类分析的思想 聚类分析是应用多元统计分析原理研究分类问题的一种统计方法 尽管它理论上还不是很完善 但发展很快 已广泛运用到作物品种分类 土壤分类 经济分析 地质勘测 天气预报等各个领域 一 定义聚类分析定义 又称群分析 是研究分类问题的一种方法 类指的是相似元素的集合 3 2 起源起源于分类学 考古分类学中 人们主要依靠专业知识和经验来实现分类 但随着科学的发展 分工的细化 人类认识的不断加深 就需要定性和定量分析结合 于是数学工具逐渐被引进到分类学当中 形成了数值分类学 再后来随着多元分析析的引进 聚类分析又逐渐从数值分析中分离出来从而形成一个相对独立的分支 4 如 对我国30个省市自治区独立核算工业企业经济效益进行分析 一般不是逐个省市自治区分析 而是选取能反映企业经济效益的代表性指标 如百元固定资产实现利税 资金利税率 产值利税率 百元销售收入实现利润 全员劳动生产率等等 根据这些指标对30个省市自治区技能型分类 然后根据分类结果对企业经济效益进行综合评价就易于得出科学的分析 诸如此类的例子很多 需要分类的问题很多 因此聚类分析这个有用的数学工具越来越多的受到重视 在许多领域都得到了广泛的应用 5 3 聚类分析的基本程序1 根据样本的多个观测指标 具体找出一些能够度量样品或指标之间相似程度的统计量2 利用统计量将样品或指标进行分类 根据分类对象不同可分为样品聚类和变量聚类 样品聚类在统计学中又称为Q型聚类 用SPSS的术语来说就是对事件或案例 CASE 进行聚类 是根据被观测的对象各种特征 即反映被观测对象特征的各变量值进行分类 变量聚类在统计学中又称为R型聚类 反映事物特征的变量有很多 我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 6 4 聚类分析内容 系统聚类法 序样品聚类法 动态聚类法 模糊聚类法 凸轮聚类法 聚类预报法等 本章主要介绍常用的系统聚类法 7 3 2相关度 一组复杂数据产生一个相当简单的类结构 必然要求进行 相关性 或 相似性 度量 目前研究样品之间这种关系的用得最多的方法主要有两种 一种方法是定义空间距离 一种方法是用相似系数 8 距离 每个样本有p个指标 因此每个样本可以看成p维空间中的一个点 n个样本就组成p维空间中的n个点 这时很自然想到用距离来度量n个样本间的接近程度 用表示第i个样本与第j个样本之间的距离 一切距离应满足以下条件 9 常见的距离有 blockdistance绝对值距离 euclideandistance欧式距离squaredeuclideandistance平方欧式距离chebychevdistance切比雪夫距离minkowskidistance明考斯基距离 明氏距离 当q 1 2时 为绝对值 欧式距离 若趋近无穷时 则为切比雪夫距离 10 明氏距离在实际的运用很多 但有一些缺点 例如观测值的单位问题 指标间的相关问题 因此改进得到以下两种距离 Lanberra兰氏距离Mahalanobis马氏距离以上都是样本间距离的定义 11 相关系数 通常所说的相关系数是指变量之间的相关系数 用来说明任意两样品之间由各个变量表现出的相似关系 其计算方法可参照统计学中的相关系数给出 其值介于 1与 1之间 12 计算公式 Q型聚类R型聚类 13 3 3聚类分析常用方法 1 最短距离法设抽取五个样品 每个样品只有一个变量 它们是1 2 3 5 7 9 用最短距离法对5个样品进行分类 首先采用绝对距离计算距离矩阵 14 然后和被聚为新类 得 15 16 最短距离法的递推公式 假设第p类和第q类合并成第类 第r类与其它各旧类的距离按最短距离法为 17 18 19 各步聚类的结果 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 20 2 最长距离法用最长距离法对5个样品进行分类 首先采用绝对距离计算距离矩阵 21 然后和被聚为新类 得 22 最长距离法的递推公式 假设第p类和第q类合并成第类 第r类与其它各旧类的距离按最长距离法为 23 3 中间距离法 最长距离 最短距离 中间距离 24 用中间距离法对5个样品进行分类 首先采用绝对距离计算距离平方矩阵 25 中间距离法的递推公式 26 27 类平均法定义类间的距离是两类间样品的距离的平均数 对应我们前面讨论的组间 4 类平均法 28 然后和被聚为新类 得 29 类平均法的递推公式 假设第p类和第q类合并成第类 第r类与其它各旧类的距离按最短距离法为 30 p类和q类与L类的距离的加权平均数 31 重心法 重心法的特点是定义两类之间的距离为两类重心之间的距离 何为类的重心 即该类样品的均值 计算两类样品重心的距离可以采用多种距离计算方法 如明氏距离 绝对距离 欧氏距离 马氏距离等 是将样品的所有指标值都纳入计算的方法 其聚类方法与过程同最短距离法 合并类别均是按照距离矩阵中最小距离率先合并的原则 只是生成新类后计算新的距离矩阵需按重心距离进行计算 32 离差平方和法 该方法的基本思想来自方差分析 即如果分类正确 则同类样品的离差平方和应当较小 而类间的离差平方和应当较大 具体做法是 先令每个样品各自成一类 然后每次缩小一类 计算所有可能合并结果带来的离差平方和S 选择使S增加最小的两类首先合并 依次类推 33 类间距离的统一性 上述八种系统聚类法的步骤完全一样 只是距离的递推公式不同 兰斯 Lance 和威廉姆斯 Williams 于1967年给出了一个统一的公式 其中ap aq 是参数 不同的系统聚类法 它们取不同的数 这里应该注意 不同的聚类方法结果不一定完全相同 一般只是大致相似 如果有很大的差异 则应该仔细考查 找到问题所在 另外 可将聚类结果与实际问题对照 看哪一个结果更符合经验 34 表3 1系统聚类法参数表 35 三 确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢 这是一个十分困难的问题 人们至今仍未找到令人满意的方法 但是这个问题又是不可回避的 下面我们介绍几种方法 1 给定阈值 通过观测聚类图 给出一个合适的阈值T 要求类与类之间的距离不要超过T值 例如我们给定T 0 35 当聚类时 类间的距离已经超过了0 35 则聚类结束 36 三 系统聚类法的基本性质 一 单调性 在聚类分析过程中 并类距离分别为lk k 1 2 3 若满足 则称该聚类方法具有单调性 可以证明除了重心法和中间距离法之外 其他的系统聚类法均满足单调性的条件 二 空间的浓缩和扩张 1 定义矩阵的大小 设同阶矩阵D A 和D B 如果D A 的每一个元素不小于D B 的每一个元素 则记为 37 2 空间的浓缩和扩张设有两种系统聚类法A和B 他们在第i步的距离矩阵分别为Ai和Bi I 1 2 3 若Ai Bi 则称第一种方法A比第二种方法B使空间扩张 或第二种方法比第一种方法浓缩 3 方法的比较 K G S C G W 其中 K 为最短距离法 S 为最长距离法 G 为类平均法 C 为重心法 W 为离差平方和法 38 3 3聚类分析主要的步骤 1 选择变量 1 和聚类分析的目的密切相关 2 反映要分类变量的特征 3 在不同研究对象上的值有明显的差异 4 变量之间不能高度相关2 计算相似性相似性是聚类分析中的基本概念 他反映了研究对象之间的亲疏程度 聚类分析就是根据对象之间的相似性来分类的 有很多刻画相似性的测度 39 3 聚类选定了聚类的变量 计算出样品或指标之间的相似程度后 构成了一个相似程度的矩阵 这时主要涉及两个问题 1 选择聚类的方法 2 确定形成的类数 40 例3某公司下属30个企业 公司为了考核下属企业的经济效益 设计了8个指标 为了避免重复 需要对这8个指标进行筛选 建立一个恰当的经济效益指标体系 通过计算30个企业8个指标的相关系数距离 数据是1 r2 得如下表 试用将它们聚类 x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论