




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析 聚类分析是研究 样品或指标 分类问题的一种多元统计方法 类是指相似元素的集合 分类 1 系统聚类法 分层聚类 系统聚类法是应用最广泛的一种 HierarchicalCluster过程 1 聚类原则 都是相近的聚为一类 即距离最近或最相似的聚为一类 2 分层聚类的方法可以用于样本聚类 Q 型 也可以用于变量聚类 R型 2 非系统聚类法 快速聚类法 K 均值聚类法 K meansCluster 3 两步聚类法 一种探索性的聚类方法 TwoStepCluster 1 K 均值聚类分析K meansCluster 又称为快速样本聚类法 是非系统聚类中最常用的聚类法 优点 是占内存少 计算量小 处理速度快 特别适合大样本的聚类分析 缺点 应用范围有限 要求用户制定分类数目 要告知 只能对观测量 样本 聚类 而不能对变量聚类 且所使用的聚类变量必须都是连续性变量 2 基本原理具体做法1 按照指定的分类数目n 按某种方法选择某些观测量 设为 Z1 Z2 Zn 作为初始聚心 2 计算每个观测量到各个聚心的欧氏距离 即按就近原则将每个观测量选入一个类中 然后计算各个类的中心位置 即均值 作为新的聚心 3 使用计算出来的新聚心重新进行分类 分类完毕后继续计算各类的中心位置 作为新的聚心 如此反复操作 直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时 或者到达迭代次数的上限时 停止迭代 3 4 数据标准化处理 5 存储中间过程数据 6 数据标准化处理 并存储 7 8 指定5类 9 收敛标准值 10 存储最终结果输出情况 在数据文件中 QCL 1 QCL 2 11 初始聚心选项 输出方差分析表 12 初始聚类中心表 13 具体城市看后表 最终聚类中心表 14 聚类结果 QCL 1说明聚类结果 QCL 2说明聚类的长度情况 15 系统聚类法HierarchicalCluster 系统聚类法优点 既可以对观测量 样品 也可对变量进行聚类 既可以连续变量也可以是分类变量 提供的距离计算方法和结果显示方法也很丰富 16 应用实例 某电冰箱厂开发某一新产品 在投放市场前希望对以往经销的国内6个地区征集对新产品的评价 若对新产品的评价指标有三项 式样 性能 颜色 评价的调整表采用10分制 调查结果的数据如下表 123456 性能9110928颜色827946式样728357 地区 样品 指标 用分类法对6个样品进行分类 以估计哪些地区最有可能经销这类新产品 17 按公式计算两两样品间的相似系数 得相似矩阵 123456 123456 Q 按四条原则进行分类 18 作聚类分析图 X3X6X1X4X2X5 1 0 994 0 955 0 994 0 933 19 一 问题提出聚类分析 对一批样品或指标进行分类的一种统计方法 具体处理方法 思路 1 具体研究的分类对象 样品或指标2 方法 把 性质相似 或 相互关系密切 的样品或指标聚在一起 3 步骤 1 首先给出度量 相似 或 关系密切 的统计指标 20 2 形成一个由小到大的分析系统 3 把整个分类系统画成一张分类图 3 相关系数 4 关联系数 指标 1 统计指标是相似系数 根据相似性归为一类 否则为另一类 2 统计指标是样品 空间的点 之间的距离将距离近的点归成一类 否则为另一类 21 二 聚类统计量 首先定义一些分类统计指标 刻画样或指标之间的相似程度 这些统计指标称为聚类统计量 在市场研究中 样品 用作分类的事物指标 用来作为分类依据的变量 如 年龄 收入 销售量 一 相似系数 夹角余弦 一般式 假定每个样品包含有P项指标 若有几个样品的调查数据 每一个样品都可看成P维空间中的一个向量 22 对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦 来表示 Xi和Xj相重合时 夹角 相似程度为 Xi和Xj相互垂直时 相似程度为 相似密切 解析几何知识 相似系数 其中 23 如果把上述n个样品的任何两个样品的相似系数 都计算出来并排列成一 个矩阵 根据算出的 就可对n个样品进行聚类 24 用相似系数作为聚类统计量时的分类方法 1 分类原则 1 若选出一对样品 在已分好的类中未出现 则形成一个独立新类 2 若选出两个样品中 有一个是在已分好的类中出现过 则把另一个样品也加入到该类中去 3 若选出一对样品 都分别出现已经分好的两类中 则把这两个类联结在一起 4 若选出的一对样品都出现在同一组中 则这对样品就不用再分组了 按上述四条原则反复进行 直到把所有样品都分类完毕 最后以分类图形式表示 25 2 分类方法 例 设有7个样品 每个样品测得P个指标 数据如表 X1X2X3X4X5X6X7 样品 指标 26 要求对此7个样品进行聚类 采用的聚类统计量是相似系数 夹角余弦 首先计算所有的两个样品间的相似系数 27 1234567 1234567 Q 按矩阵中的数值对7个样品 按四个原则 进行聚类 28 1234567 1234567 Q 顺序连结样品相似系数 123456 X1X50 97X1X5X30 94X2X40 91X2X4X60 67X1X5X3X2X4X60 51X1X5X3X70 24X2X4X6 按矩阵中的数值对7个样品 按四个原则 进行聚类 1 记下Q中最大值q15 0 97 划去Q中的第5行第5列2 记下Q中剩余元素最大值q13 0 94 划去Q中的第3行第3列 行 29 3 记下Q中剩余元素最大值q24 0 91 划去Q中的第4行第4列 4 记下Q中剩余元素最大值q26 0 67 划去Q中的第6行第6列 5 记下Q中剩余元素最大值q12 0 51 划去Q中的第2行第2列 6 记下Q中剩余元素最大值q17 0 24 30 作聚类图 X1X5X3X2X4X6X7 0 97 0 94 0 91 0 67 0 51 0 24 31 2 利用相关作聚类分析 例 设有n个样品 每个样品测得8个指标X1 X2 X8 要求对8个指标进行聚类 聚类统计量采用相关系数 设相关矩阵R 为 32 12345678 12345678 顺序连结样品相似系数 1234567 X1X60 99X1X6X30 96X2X40 93X2X4X70 68X5X80 49X1X6X3X2X4X70 47X1X6X3X5X8 0 94X2X4X7 R 33 按矩阵R中数值对8个指标 按四个原则 进行聚类 1 记下矩阵中的最大值 划去第6行第6列 2 记下矩阵中的最大值 划去第3行第3列 以此类推 34 作聚类图 X1X6X3X4X2X7X5X8 0 99 0 96 0 93 0 68 0 49 0 47 0 94 35 主要城市日照时数 36 注 连续变量 37 38 SPSS提供不同类间距离的测量方法1 组间连接法2 组内连接法3 最近距离法4 最远距离法5 重心法6 中位数法7 Ward最小偏差平方和法 39 观测量概述表 40 2020 2 4 41 聚类步骤 与图结合看 42 4 5 43 44 聚类方法有系统聚类和逐步聚类 输入数据集可以是普通数据集 相关矩阵 CORR过程产生 或协方差矩阵 FACTOR等过程产生 SAS提供的聚类过程有 1 CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类 当观测值数太多时 不宜直接采用 2 FASTCLUS对于坐标数据 用K 均值法对观测值进行逐步聚类 当观测值很多时 则先用FACTCLUS过程对其进行初步聚类 然后再用CLUSTER过程进行系统聚类 3 VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类 4 TREE为CLUSTER或VARCLUS过程产生的输出画树状图 45 CLUSTER过程开始每个观测值自成一类 然后求两两之间的距离 将距离最近的两个观测值合成一类 这个过程一直进行下去 每次减少一类 直到合成一类为止 聚类方法有11种 可根据问题的性质选用 它们的区别在于怎样计算两类之间的距离 METHOD 指定方法AVERAGE 平均法 CENTROID 重心法 COMPLETE 最大距离法 DENSITY 密度法 MEDIAM 中位数法 等 46 美国十个城市的分类根据两个城市见航空距离将美国十个大城市作分类 47 聚类分析SAS程序 原始数据是两两之间距离的三角阵 而不是坐标 输入格式 55列为城市 15位 平均法重心法最小距离法 输出F及t统计量 48 观测值之间距离的均方根 输出结果 类数 指出被合并的类 新类中的观测值数 类间距离除以观测值间距离均方根得来 F t 2峰值 起伏 越大说明分类显著 49 50 51 52 53 54 研究各种饮料在市场消费的分配规律 试确定各种饮料消费类型 55 56 57 58 59 60 61 聚类分析的第几步 哪两个样本或小类聚成一类 相应的样本距离或小类距离 指明是样本 0 还是小类 n 下面第几步用到 62 垂直冰柱图显示层次聚类分析 从冰柱图最后一行开始观察 第一列表示类数 63 两步聚类法TwoStepCluster 一种探索性的聚类方法 是随着人工智能的发展起来的智能聚类方法中的一种 用于解决海量数据或具有复杂类别结构的聚类分析问题 两步聚类法特点 1 同时处理离散变量和连续变量的能力2 自动选择聚类数3 通过预先选取样本中的部分数据构建聚类模型4 可以处理超大样本量的数据 64 简单介绍基本原理分两步进行第一步 预聚类 对记录进行初始的归类 用户自定义最大类别数 通过构建和修改特征树 CTFree 完成 第二步 正式聚类 对第一步完成的初步聚类进行再聚类并确定最终的聚类方案 系统根据一定的统计标准确定聚类的类别数目 以后 可以通过传统的聚类方法进行聚类 SPSS中采用合并型分层聚类法 65 66 67 68 输出各变量在聚类中比重图 输出出聚类饼分图 每个变量做一张条图 每一各类别做两张
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东古代文学自考试题及答案
- 乐谱理论考试题及答案
- 护士从业资格考试试题及答案解析
- 课件显示倒计时
- 勘测测量考试题及答案
- 铝电解筑炉工内部技能考核试卷及答案
- 酒吧音乐考试题及答案
- 加工中心操作工转正考核试卷及答案
- 抗生素酶裂解工基础考核试卷及答案
- 2025年教师招聘之《幼儿教师招聘》模考模拟试题及答案详解(必刷)
- 肥胖症诊断与治疗(2024版)指南解读
- 基坑工程课程设计
- 医美注射类知识培训课件
- 高速公路文明施工文物保护保证体系及保证措施
- 监理部总控制计划
- 软件可行性报告范文
- 压裂泵往复密封动态磨损机理及失效自愈控制技术研究
- 消除三病反歧视培训
- 脑转移瘤的治疗进展
- 脚手架工安全技术交底(完整版)
- 接触网运行与检修 课件全套 薛艳红 第1-9章 电气化铁道概述-高速铁路接触网精测精修
评论
0/150
提交评论