聚类分析简介原理与应用课件.ppt_第1页
聚类分析简介原理与应用课件.ppt_第2页
聚类分析简介原理与应用课件.ppt_第3页
聚类分析简介原理与应用课件.ppt_第4页
聚类分析简介原理与应用课件.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析 陈龙震 聚类分析 聚类分析的简介Q型聚类统计量 距离R型聚类统计量 相似系数系统聚类动态聚类 k均值聚类其他 聚类分析的定义 聚类分析是研究如何研究对象 样品或变量 按照多个方面的特征进行综合分类的一种多元统计方法 它是根据物以类聚的原理将相似的样品 或变量 归为一类 聚类和分类有什么区别 无监督学习与分类判别不同 进行聚类前并不知道将要划分成几个组和什么样的组 也不知道根据哪些空间区分规则来定义组 商业聚类分析被用来发现不同的客户群 并且通过购买模式刻画不同的客户群的特征 聚类分析是细分市场的有效工具 同时也可用于研究消费者行为 寻找新的潜在市场 选择实验的市场 并作为多元分析的预处理 聚类分析 主要应用 聚类分析 主要应用 生物聚类分析被用来动植物分类和对基因进行分类 获取对种群固有结构的认识 Q型聚类统计量与R型聚类统计量 设有容量为n的样本观测数据 观测矩阵为 样本 变量 Q型聚类 R型聚类 变量之间的聚类即R型聚类分析 常用相似系数来测度变量之间的亲疏程度 样品之间的聚类即Q型聚类分析 常用距离来测度样品之间的亲疏程度 Q型聚类统计量 距离 明氏距离测度明考夫斯基 Minkowski 距离 设和是第i和j个样品的观测值 则二者之间的距离为 当时 绝对值距离 当时 欧氏距离 当时 切比雪夫距离 记 切比雪夫距离证明 Q型聚类统计量 距离 国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数 由于王可以往斜前或斜后方向移动一格 因此可以较有效率的到达目的的格子 上图是棋盘上所有位置距f6位置的切比雪夫距离 Q型聚类统计量 距离 明氏距离两个缺点 明氏距离的值与各指标的量纲有关明氏距离的定义没有考虑各个变量之间的相关性和重要性 明氏距离是把各个变量都同等看待 将两个样品在各个变量上的离差简单地进行了综合 兰氏距离 马氏距离 Q型聚类统计量 距离 这是印度著名统计学家马哈拉诺比斯 P C Mahalanobis 所定义的一种距离 其计算公式为 分别表示第i个样品和第j样品的p指标观测值所组成的列向量 即样本数据矩阵中第i个和第j个行向量的转置 表示观测变量之间的协方差短阵 在实践应用中 若总体协方差矩阵 未知 则可用样本协方差矩阵作为估计代替计算 R型聚类统计量 相似系数 相似系数 设和是第和个样品的观测值 则二者之间的相似测度为 R型聚类统计量 夹角余弦 夹角余弦 夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数 设在n维空间的向量 问题 马 欧 氏距离和余弦相似度的区别 问题 适用于何种不同的数据分析模型 欧氏距离能够体现个体数值特征的绝对差异 所以更多的用于需要从维度的数值大小中体现差异的分析 如使用用户行为指标分析用户价值的相似度或差异余弦相似度更多的是从方向上区分差异 而对绝对的数值不敏感 更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异 同时修正了用户间可能存在的度量标准不统一的问题 因为余弦相似度对绝对数值不敏感 问题 Q型与R型聚类区别 Q型聚类 当聚类把所有的观测记录 cases 进行分类时 它把性质相似的观测分在同一个类 性质差异较大的观测分在不同的类 R型聚类 当聚类把变量 variables 作为分类对象时 这种聚类用在变量数目比较多 且相关性比较强的情形 目的是将性质相近的变量聚类为同一个类 并从中找出代表变量 从而减少变量个数以达到降维的效果 系统聚类 凝聚的 从点作为个体簇开始 每一步合并两个最接近的簇 这需要定义簇的临近性 类间距离 的概念 分裂的 从包含所有点的某个簇开始 每一步分裂一个簇 直到剩下单点簇 在这种情况下 我们需要确定我每一步分裂那个簇 以及如何分裂 系统聚类 方法 最短距离法 设两个类 分别含有n1和n2个样本点 系统聚类 方法 若某步聚类将和合并为新类 即 新类与其他类间的距离递推公式为 系统聚类 方法 最长距离法 设两个类 分别含有n1和n2个样本点 系统聚类 方法 若某步聚类将和合并为新类 即 新类与其他类间的距离递推公式为 系统聚类 方法 重心法 重心距离 两类中心分别为 则 系统聚类 方法 类平均法 递推公式 推导 系统聚类 方法 离差平方和 设将n个样品分成k类G1 G2 Gk 用Xit表示Gt中的第I个样品 nt表示Gt中样品的个数 是Gt的重心 则Gt的样品离差平方和为 系统聚类 方法 递推公式 上述的各种类间距离定义的递推公式可以统一成如下公式 系统聚类 书 175页例子 系统聚类 类的个数确定 给定阈值 通过观测聚类图 给出一个合适的阈值T 要求类与类之间的距离不要超过T值 例如我们给定T 0 3 当聚类时 类间的距离已经超过了0 3 则聚类结束 2020 1 29 32 可编辑 系统聚类 半偏相关 半偏相关统计量 其中T是数据的总离差平方和 是组内离差平方和 比较大 说明分G个类时类内的离差平方和比较小 也就是说分G类是合适的 但是 分类越多 每个类的类内的离差平方和就越小 也就越大 所以我们只能取合适的G 使得足够大 而G本身很小 随着G的增加 的增幅不大 比如 假定分4类时 0 8 下一次合并分3类时 下降了许多 0 32 则分4类是合适的 系统聚类 半偏相关 系统聚类 伪F统计量 伪F统计量 伪F统计量用于评价聚为G类的效果 如果聚类的效果好 类间的离差平方和相对于类内的离差平方和大 所以应该取伪F统计量较大而类数较小的聚类水平 其中T是数据的总离差平方和 是类内离差平方和 系统聚类 伪F统计量 伪统计量的定义为其中和分别是的类内离差平方和 是将K和L合并为第M类的离差平方和 为合并导致的类内离差平方和的增量 用它评价合并第K和L类的效果 伪统计量大说明不应该合并这两类 应该取合并前的水平 系统聚类 伪统计量 系统聚类 CCC统计量 立方聚类准则 其中 v是方差稳定化变换 一般取值为 一般由维空间的均匀分布得到 一般选择 后的第一个局部极大值点对应的分类数 系统聚类 CCC统计量 系统聚类法的基本性质 在聚类分析过程中 并类距离分别为lk k 1 2 3 若满足 则称该聚类方法具有单调性 除了重心法和中间距离法之外 其他的系统聚类法均满足单调性的条件 单调性 系统聚类法的基本性质 空间的浓缩和扩张 设有两种系统聚类法A和B 他们在第i步的距离矩阵分别为Ai和Bi I 1 2 3 若Ai Bi 则称第一种方法A比第二种方法B使空间扩张 或第二种方法比第一种方法浓缩 D 短 D 平 D 重 D 平 D 长 D 平 方法的比较 类平均法适中 系统聚类局限 样品一旦划到某个类以后就不变了 这要求分类方法比较准确样品数n很大时 系统聚类法的计算很庞大 从而使其不方便应用 动态聚类解决的问题是 假如有个样本点 要把它们分为类 使得每一类内的元素都是聚合的 并且类与类之间还能很好地区别开 动态聚类使用于大型数据 动态聚类步骤 动态聚类 凝聚点选择 凭经验选择 如果对问题已经有一定的了解 可将所有的的样品大致分类 在每类选择一个有代表性的样品作为聚类点将所有的样品随机地分成k类 计算每一类的均值 将这些均值作为凝聚点采用最大最小原则 假设样品最终分为k类 先选择所有样品中相距最远的两个样品为凝聚点 即选择 使 选择第三个凝聚点与前面两个聚类点的距离最小者等于所有其余的样品与的最小距离中最大的 动态聚类 k均值聚类 动态聚类 k均值聚类不足 凝聚点选择不当 动态聚类 k均值聚类不足 不同的簇 动态聚类 k均值聚类不足 离群点 其他基于划分聚类算法 partitionclustering 其他基于密度聚类算法 其他基于层次聚类算法 其他 基于网格的聚类算法 基于统计学的聚类算法 R软件与聚类分析 在R软件中 dist 函数给出了各种距离的计算结果 其使用格式是其中x是样本构成的数据矩阵 样本按行输入 或数据框 Method表示计算距离的方法 缺省值为Euclide距离 距离 enclidean maximum manhattan canberra minkowski 例题一 例题二 对305名女中学生测量八个体型指标 相应的相关矩阵如下表所示 将相关系数看成相似系数 用最长距离法做系统分析 定义距离为 d 1 r 例题三 K 均值方法 kmeans 函数 对例一给出的31个省 市 自治区的消费水平进行聚类分析 参考文献 1 吴密霞 刘春玲 多元统计分析 M 北京 科学出版社

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论