已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析 分类 俗语说 物以类聚 人以群分 但什么是分类的根据呢 比如 要想把中国的县分成若干类 就有很多种分类法 可以按照自然条件来分 比如考虑降水 土地 日照 湿度等各方面 也可以考虑收入 教育水准 医疗条件 基础设施等指标 既可以用某一项来分类 也可以同时考虑多项指标来分类 一 聚类分析的基本概念 研究对样品或指标进行分类的一种多元统计方法 是依据研究对象的个体的特征进行分类的方法 聚类分析把分类对象按一定规则分成若干类 这些类非事先给定的 而是根据数据特征确定的 在同一类中这些对象在某种意义上趋向于彼此相似 而在不同类中趋向于不相似 职能是建立一种能按照样品或变量的相似程度进行分类的方法 聚类分析 对于一个数据 人们既可以对变量 指标 进行分类 相当于对数据中的列分类 也可以对观测值 事件 样品 来分类 相当于对数据中的行分类 比如学生成绩数据就可以对学生按照理科或文科成绩 或者综合考虑各科成绩 分类 当然 并不一定事先假定有多少类 完全可以按照数据本身的规律来分类 本章要介绍的分类的方法称为聚类分析 clusteranalysis 对变量的聚类称为R型聚类 而对观测值聚类称为Q型聚类 这两种聚类在数学上是对称的 没有什么不同 聚类分析的基本思想是认为我们所研究的样本或指标 变量 之间存在着程度不同的相似性 亲疏关系 于是根据一批样本的多个观测指标 具体找出一些彼此之间相似程度较大的样本 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样本 或指标 又聚合为另一类 关系密切的聚合到一个小的分类单位 关系疏远的聚合到一个大的分类单位 直到把所有样本 或指标 都聚合完毕 把不同的类型一一划分出来 形成一个由小到大的分类系统 最后把整个分类系统画成一张谱系图 用它把所有样本 或指标 间的亲疏关系表示出来 这种方法是最常用的 最基本的一种 称为系统聚类分析 饮料数据 drink sav 16种饮料的热量 咖啡因 钠及价格四种变量 如何度量远近 如果想要对100个学生进行分类 如果仅仅知道他们的数学成绩 则只好按照数学成绩来分类 这些成绩在直线上形成100个点 这样就可以把接近的点放到一类 如果还知道他们的物理成绩 这样数学和物理成绩就形成二维平面上的100个点 也可以按照距离远近来分类 三维或者更高维的情况也是类似 只不过三维以上的图形无法直观地画出来而已 在饮料数据中 每种饮料都有四个变量值 这就是四维空间点的问题了 两个距离概念 按照远近程度来聚类需要明确两个概念 一个是点和点之间的距离 一个是类和类之间的距离 点间距离有很多定义方式 最简单的是歐氏距离 还有其他的距离 当然还有一些和距离相反但起同样作用的概念 比如相似性等 两点越相似度越大 就相当于距离越短 由一个点组成的类是最基本的类 如果每一类都由一个点组成 那么点间的距离就是类间距离 但是如果某一类包含不止一个点 那么就要确定类间距离 类间距离是基于点间距离定义的 比如两类之间最近点之间的距离可以作为这两类之间的距离 也可以用两类中最远点之间的距离作为这两类之间的距离 当然也可以用各类的中心之间的距离来作为类间距离 在计算时 各种点间距离和类间距离的选择是通过统计软件的选项实现的 不同的选择的结果会不同 但一般不会差太多 二 距离 用表示第i个样本与第j个样本之间的距离 一切距离应满足以下条件 每个样本有p个指标 因此每个样本可以看成p维空间中的一个点 n个样本就组成p维空间中的n个点 这时很自然想到用距离来度量n个样本间的接近程度 常见的距离有 minkowskidistance 明氏距离 当q 1blockdistance绝对值距离 当q 2squaredeuclideandistance平方欧式距离 当q chebychevdistance切比雪夫距离 明氏距离在实际中应用的很多 但也存在一些缺点 处理办法 标准化 2 指标间的相关问题 1 量纲的问题 Mahalanobis马氏距离 改进的办法 采用马氏距离 相似系数 夹角余弦 相关系数 夹角余弦两变量的夹角余弦定义为 相关系数两变量的相关系数定义为 16 系统聚类方法 1 最短距离 NearestNeighbor 三 系统聚类法基本步骤 1 选择样本间距离的定义及类间距离的定义 2 计算n个样本两两之间的距离 得到距离矩阵3 构造个类 每类只含有一个样本 4 合并符合类间距离定义要求的两类为一个新类 5 计算新类与当前各类的距离 若类的个数为1 则转到步骤6 否则回到步骤4 6 画出聚类图 7 决定类的个数和类 系统聚类分析的方法 系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义 类间距离的不同定义就产生了不同的系统聚类分析方法 以下用dij表示样品X i 和X j 之间的距离 当样品间的亲疏关系采用相似系数Cij时 令 以下用D p q 表示类Gp和Gq之间的距离 3 重心法 CENtroidmethod 4 类平均法 AVEragemethod 例 为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律 根据调查资料做类型分类 用最短距离做类间分类 数据如下 将每一个省区视为一个样本 先计算5个省区之间的欧式距离 用D0表示距离矩阵 对称阵 故给出下三角阵 因此将3 4合并为一类 为类6 替代了3 4两类类6与剩余的1 2 5之间的距离分别为 d 3 4 1 min d31 d41 min 13 80 13 12 13 12d 3 4 2 min d32 d42 min 24 63 24 06 24 06d 3 4 5 min d35 d45 min 3 51 2 21 2 21 得到新矩阵合并类6和类5 得到新类7类7与剩余的1 2之间的距离分别为 d 5 6 1 min d51 d61 min 12 80 13 12 12 80d 5 6 2 min d52 d62 min 23 54 24 06 23 54 得到新矩阵合并类1和类2 得到新类8此时 我们有两个不同的类 类7和类8 它们的最近距离d 7 8 min d71 d72 min 12 80 23 54 12 80 得到矩阵最后合并为一个大类 这就是按最短距离定义类间距离的系统聚类方法 最长距离法类似 26 最长距离 FurthestNeighbor 27 组间平均连接 Between groupLinkage 28 组内平均连接法 Within groupLinkage 29 重心法 Centroidclustering 均值点的距离 类的个数的确定 由适当的阈值确定 根据数据点的散布直观地确定类的个数 根据统计量确定分类个数 类的个数的确定 根据谱系图确定分类个数的准则 各类重心间的距离必须很大 类中保包含的元素不要太多 类的个数必须符合实际应用 如果采用几种不同的聚类方法处理 则在各种聚类图中应该发现相同的类 聚类分析 1 系统聚类法 分层聚类 系统聚类法是应用最广泛的一种 HierarchicalCluster过程 1 聚类原则 都是相近的聚为一类 即距离最近或最相似的聚为一类 2 分层聚类的方法可以用于样本聚类 Q 型 也可以用于变量聚类 R型 2 非系统聚类法 快速聚类法 K 均值聚类法 K meansCluster 3 两步聚类法 一种探索性的聚类方法 TwoStepCluster 四 系统聚类的参数选择 聚类类别 统计 图 树型谱系图冰柱谱系图 聚类方法1 Between groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2 Within groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3 Nearestneighbor最短距离法4 Furthestneighbor最长距离法5 Centroidclustering重心法 欧式距离 6 Medianclustering中间距离法 欧式距离 7 WardMethod离差平方法 欧式距离 数据标准化处理 存储中间过程数据 数据标准化处理 并存储 指定5类 收敛标准值 存储最终结果输出情况 在数据文件中 QCL 1 QCL 2 初始聚心选项 输出方差分析表 初始聚类中心表 具体城市看后表 最终聚类中心表 聚类结果 QCL 1说明聚类结果 QCL 2说明聚类的长度情况 主要城市日照时数 注 连续变量 SPSS提供不同类间距离的测量方法1 组间连接法2 组内连接法3 最近距离法4 最远距离法5 重心法6 中位数法7 Ward最小偏差平方和法 观测量概述表 聚类步骤 与图结合看 研究各种饮料在市场消费的分配规律 试确定各种饮料消费类型 聚类分析的第几步 哪两个样本或小类聚成一类 相应的样本距离或小类距离 指明是样本 0 还是小类 n 下面第几步用到 垂直冰柱图显示层次聚类分析 从冰柱图最后一行开始观察 第一列表示类数 两步聚类法TwoStepCluster 一种探索性的聚类方法 是随着人工智能的发展起来的智能聚类方法中的一种 用于解决海量数据或具有复杂类别结构的聚类分析问题 两步聚类法特点 1 同时处理离散变量和连续变量的能力2 自动选择聚类数3 通过预先选取样本中的部分数据构建聚类模型4 可以处理超大样本量的数据 简单介绍基本原理分两步进行第一步 预聚类 对记录进行初始的归类 用户自定义最大类别数 通过构建和修改特征树 CTFree 完成 第二步 正式聚类 对第一步完成的初步聚类进行再聚类并确定最终的聚类方案 系统根据一定的统计标准确定聚类的类别数目 以后 可以通过传统的聚类方法进行聚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楼层混凝土合同范本
- 文体供货合同协议书
- 旅游健康安会协议书
- 银行理财经理考试题库及答案
- 专科教师考试题库及答案
- 心电图室质控工作试题带答案
- 2026-2031年中国生活服务O2O行业全景调研及投资风险报告
- 平面设计技能试题及答案
- 基于样本几何估计值的支持向量机:理论、算法与实践探索
- 基于柔性多层带材的集成EMI滤波器:原理、设计与应用的深度剖析
- TDS1000B和TDS2000B 系列示波器使用手冊
- 铝屑清扫安全管理制度
- 金融调解知识培训课件
- 运动鞋购销合同
- DB33-T 1406-2024 职务科技成果转化管理规范
- 2025年陕西省职教高考《英语》考前冲刺模拟试题库(附答案)
- 灭火器安全知识培训课件
- 老年期谵妄的护理
- 农村宅基地转让合同
- 《三伏天前与三伏天穴位贴敷治疗过敏性鼻炎的临床研究》
- 肺癌治疗进展2024
评论
0/150
提交评论