




免费预览已结束,剩余67页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章聚类分析 ClusterAnalysis 聚类分析的基本思想 一 什么是聚类分析 聚类分析是根据 物以类聚 的道理 对样品或指标进行分类的一种多元统计分析方法 将个体或对象分类 使得同一类中的对象之间的相似性比与其他类的对象的相似性更强 聚类分析的目的使类内对象的同质性最大化和类间对象的异质性最大化 聚类分析的应用 无处不在早在孩提时代 人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗 动物和植物谁经常光顾商店 谁买什么东西 买多少 按忠诚卡记录的光临次数 光临时间 性别 年龄 职业 购物种类 金额等变量分类这样商店可以 识别顾客购买模式 如喜欢一大早来买酸奶和鲜肉 习惯周末时一次性大采购 刻画不同的客户群的特征 用变量来刻画 就象刻画猫和狗的特征一样 为什么这样分类 分类的好处 因为每一个类别里面的人消费方式都不一样 需要针对不同的人群 制定不同的关系管理方式 以提高客户对公司商业活动的参与率 挖掘有价值的客户 并制定相应的促销策略 如 对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告 比在大街上乱发传单命中率更高 成本更低 谁是银行信用卡的黄金客户 利用储蓄额 刷卡消费金额 诚信度等变量对客户分类 找出 黄金客户 这样银行可以 制定更吸引的服务 留住客户 比如 一定额度和期限的免息透资服务 百盛的贵宾打折卡 在他或她生日的时候送上一个小蛋糕 例1对10位应聘者做智能检验 3项指标X Y和Z分别表示数学推理能力 空间想象能力和语言理解能力 其得分如下 选择合适的统计方法对应聘者进行分类 例如当我们对企业的经济效益进行评价时 建立了一个由多个指标组成的指标体系 由于信息的重叠 一些指标之间存在很强的相关性 所以需要将相似的指标聚为一类 从而达到简化指标体系的目的 二 聚类分析的基本思想 是根据一批样品的多个观测指标 具体地找出一些能够度量样品或指标之间相似程度的统计量 然后利用统计量将样品或指标进行归类 把相似的样品或指标归为一类 把不相似的归为其他类 直到把所有的样品 或指标 聚合完毕 相似样本或指标的集合称为类 问题 如何来选择样品 或指标 间相似的测度指标 如何将有相似性的类连接起来 三 聚类分析类型及方法1 聚类分析的类型有 对样本分类 称为Q型聚类分析对变量分类 称为R型聚类分析Q型聚类是对样本进行聚类 它使具有相似性特征的样本聚集在一起 使差异性大的样本分离开来 R型聚类是对变量进行聚类 它使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 2 聚类分析的方法 系统聚类 层次聚类 非系统聚类 非层次聚类 系统聚类法包括 凝聚方式聚类 分解方式聚类非系统聚类法包括 模糊聚类法 K 均值法 快速聚类法 等等 相似性度量 1 样本或变量的相似性程度的数量指标 1 相似系数性质越接近的变量或样品 它们的相似系数越接近于1或一l 而彼此无关的变量或样品它们的相似系数则越接近于0 相似的为一类 不相似的为不同类 2 距离它是将每一个样品看作p维空间的一个点 并用某种度量方法测量点与点之间的距离 距离较近的归为一类 距离较远的点应属于不同的类 样本分类 Q型聚类 常以距离刻画相似性指标分类 R型聚类 常以相似系数刻画相似性 距离和相似系数有着各种不同的定义 而这些定义与变量类型有着非常密切的关系 变量可分为定性变量和定量变量 若按测量尺度的不同可以分为 1 间隔尺度变量 变量用连续的量来表示 如长度 重量 速度 温度等 2 有序尺度变量 变量度量时不用明确的数量表示 而是用等级来表示 如产品分为一等品 二等品 三等品等有次序关系 3 名义尺度变量 变量用既没有数量关系也没有次序关系 只有一些特性状态 如性别 职业 产品的型号等 一 间隔尺度变量的相似性度量1 距离设有n个样本单位 每个样本测有p个指标 变量 原始资料阵为 每个样本都可以看成p维空间中的一点 n个样本就是p维空间中的n个点 第i个样本与第j个样本之间的距离记为聚类过程中 相距较近的点归为一类 相距较远的点归为不同的类 第i个和第j个样品之间的距离满足四个条件 常用距离 1 明考夫斯基距离 Minkowskidistance 明氏距离有三种特殊形式 1a 绝对距离 Block距离 当q 1时 1b 欧氏距离 Euclideandistance 当q 2时 1c 切比雪夫距离 当时 明考夫斯基距离主要有以下两个缺点 明氏距离的值与各指标的量纲有关 而各指标计量单位的选择有一定的人为性和随意性 各变量计量单位的不同不仅使此距离的实际意义难以说清 而且 任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择 明氏距离的定义没有考虑各个变量之间的相关性和重要性 实际上 明考夫斯基距离是把各个变量都同等看待 将两个样品在各个变量上的离差简单地进行了综合 当各变量的单位不同或测量值范围相差很大时 不应直接采用明氏距离 而应先对各变量的数据作标准化处理 然后用标准化后的数据计算距离 常用的标准化处理 其中为第j个变量的样本均值 为第j个变量的样本方差 如何避免明氏距离的缺点 3 兰氏距离当时 克服量纲的影响 未考虑指标间相关性的影响 适用于变量之间互不相关的情形 这是一个自身标准化的量 4 马氏距离 克服量纲的影响 克服指标间相关性的影响 缺点 协方差矩阵难以确定 马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性 如果假定各变量之间相互独立 即观测变量的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离 因此 马氏距离不仅考虑了观测变量之间的相关性 而且也考虑到了各个观测指标取值的差异程度 为了对马氏距离和欧氏距离进行一下比较 以便更清楚地看清二者的区别和联系 现考虑一个例子 例 假设有一个二维正态总体 它的分布为 2 相似系数相似系数 或其绝对值 越大 变量之间的相似性程度越高 反之 越低 聚类时 比较相似的变量归为一类 不太相似的变量归为不同的类 变量与的相似系数用表示 满足以下三个条件 1 相关系数 设和是第和个样品的观测值 则二者之间的相似测度为 2 夹角余弦从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数 设在n维空间的向量 名义变量的相似性度量 简单匹配系数 simplematching 不配合的变量个数 配合与不配合变量个数和 例 某高校举办一个培训班 从学员的资料中得到6个变量 性别 取值男和女 外语语种 取值为英 日 俄 专业 取值为统计 会计 金融 职业 取值为教师和非教师 居住处 取值为校内和校外 学历 取值本科和本科以下 现有学员i和学员j i 男 英 统计 非教师 校外 本科 j 女 英 金融 教师 校外 本科以下 二者的距离 至此 我们可以根据所选择的距离构成样本点间的距离表 样本点之间被连接起来 距离越近的样本归为一类 距离较远的样本归为其他类 问题 如何度量样本 类之间的相似性度量类与类之间相似性度量 类和类的特征 1 类的定义相似样本或指标的集合称为类 2 类的特征描述 设类G这一集合有 m为G内的样本数 其特征 1 均值 或称为重心 2 协方差矩阵 3 G的直径 3 类与类之间的相似性度量 1 最短距离法 NearestNeighbor 类Gp与类Gq之间的距离Dpq d xi xj 表示点xi Gp和xj Gq之间的距离 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离 例2 为了研究辽宁省5省区某年城镇居民生活消费的分布规律 根据调查资料做类型划分 G1 辽宁 G2 浙江 G3 河南 G4 甘肃 G5 青海 采用欧氏距离 d12 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南与甘肃的距离最近 先将二者 3和4 合为一类G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南 甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肃4青海5辽宁1浙江2 2 最长距离法 FurthestNeighbor 以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离 例2 对例1的数据以最长距离法聚类 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南与甘肃的距离最近 先将二者 3和4 合为一类G6 G2 G4 河南 甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 3 组间平均连接 Between groupLinkage 为所有样本对间的平均距离 利用了所有样本对距离的信息 4 组内平均连接 Within groupLinkage 对所有样本对的距离求平均值 包括小类之间的样本对 小类内的样本对 5 重心法 Centroidclustering 均值点的距离 用两类的重心间的距离作为两类的距离 Gr Gt 6 离差平方和法连接 Ward smethod 2 4 1 5 6 5 红绿 2 4 6 5 8 75离差平方和增加8 75 2 5 6 25黄绿 6 5 1 5 14 75离差平方和增加14 75 8 5 6 25黄红 2 4 1 5 10 10 0故按该方法的连接 黄红首先连接 先将n个样本各成一类 然后每次缩小一类 每缩小一类离差平方和就要增大 选择使离差平方和S增加最小的两类合并 直至所有样本归为一类为止 系统聚类法 系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法 事先不用确定分多少类 一 凝聚式系统聚类法1 所有的研究对象各自算作一类 将最 靠近 的首先聚类2 再将这个类和其它类中最 靠近 的结合 直至所有的对象都合并为一类为止 系统聚类的方法 最短距离法 最长距离法3 中间距离法 类平均法 重心法 密度估计法 densitymethod 离差平方和法 聚类个数的决定通过门限值来确定通过样品的散点图直观的确定根据样本统计量确定类的个数 用于确定聚类个数的几个重要的统计量指标 一般格式为 PROCCLUSTERMETHOD name VARvariables COPYvariables IDvariable BYvariables FREQvariable 样品聚类与CLUSTER过程 METHOD nameAVERAGE 类平均法CENTROID 距离为平方距离COMPLETE 最长距离法SINGLE 最短距离法WARD ward最小方差法MEDIAN 中间距离法 options DATA data set 指定分析的数据集OUTTREE data set 记录聚类过程的输出数据集 可用于画谱系图STANDARD STD 对变量进行标准化PSEUDO 输出判断聚类个数的统计量RSQARE RSQ 只对AVE CEN WARD有效 VARID 指定一个变量作为识别聚类过程中的输出 并作为OUTTREE规定的数据集中的观测 在聚类分析中 为识别观测通常使用该语句 画谱系图PROCTREEdata data set IDvariable RUN DATA data set 该数据集为由CLUSTER过程中OUTTREE data set得到的数据集ID 该语句后的变量用来表示树图 谱系图 的合并情况 例对于北京地区1951 1961年11年的冬季12月 1月和2月三个月的气温 数据见程序 进行聚类分析 共采用四种聚类方法 类平均法 重心法 最小距离法和Ward法 datatemperat inputyearDecJanFeb cards 19511 0 2 7 4 31952 5 3 5 9 3 51953 2 0 3 4 0 81954 5 7 4 7 1 11955 0 9 3 8 3 11956 5 7 5 3 5 91957 2 1 5 0 1 619580 6 4 3 0 21959 1 7 5 72 01960 3 6 3 61 31961 3 0 3 1 0 8 procclusterdata temperatmethod averageouttree treepseudorsq varDecJanFeb idyear run proctreedata tree idyear run 分成四类的结果很有意义 我们看到若用类平均法分成四类为 5354576061 5155 5256 5859 第一类都是在12月 1月温度较低 在2月份转暖 第二类是1951年和1955年 都是12月份暖而1月 2月变冷型 第三类1952年和1956年 12月 1月 2月相对都较冷 平均气温变化不大 第四类1958年1959年则1月份平均气温最低而12月 2月相对高 procclusterdata temperatmethod centroidpseudorsq varDecJanFeb idyear run proctreedata tree idyear run procclusterdata temperatmethod wardpseudorsq varDecJanFeb idyear run proctreedata tree idyear run 55个国家和地区的女子径赛记录 其中 x1 100m s x2 200m s x3 400m s x4 800m min x5 1500m min x6 3000m min x7 马拉松 min x8 国家和地区 利用类平均法对国家和地区做聚类分析 数据见程序 datacountry inputx1 x7x8 cards 11 6122 9454 502 154 439 79178 52argentin11 2022 3551 081 984 139 08152 37australi11 4323 0950 621 994 229 34159 37austria11 4123 0452 002 004 148 88157 85belgium11 4623 0553 302 164 589 81169 98bermuda11 3123 1752 802 104 499 77168 75brazil12 1424 4755 002 184 459 51191 02burma11 0022 2550 062 004 068 81149 45canada12 0024 5254 902 054 239 37171 38chile11 9524 4154 972 084 339 31168 48china11 6024 0053 262 114 359 46165 42columbia12 9027 1060 402 304 8411 10233 22cookis11 9624 6058 252 214 6810 43171 80costa11 0921 9747 991 894 148 92158 85czech11 4223 5253 602 034 188 71151 75denmark11 7924 0556 052 244 749 89203 88domrep11 1322 3950 142 034 108 92154 23finland11 1522 5951 732 004 148 98155 27france10 8121 7148 161 933 968 75157 68gdr11 0122 3949 751 954 038 59148 53frg11 0022 1350 461 984 038 62149 72gbni11 7924 0854 932 074 359 87182 20greece11 8424 5456 092 284 8610 54215 08guatemal11 4523 0651 502 014 148 98156 37hungary11 9524 2853 602 104 329 98188 03india11 8524 2455 342 224 6110 02201 28indonesi11 4323 5153 242 054 118 89149 38ireland11 4523 5754 902 104 259 37160 48israel11 2923 0052 011 963 988 63151 82italy11 7324 0053 732 094 359 20150 50japan11 7323 8852 702 004 159 20181 05kenya11 9624 4955 702 154 429 62164 65korea12 2525 7851 201 974 259 35179 17dprkorea12 0324 9656 102 074 389 64174 68luxembou12 2324 2155 092 194 6910 46182 17malaysia11 7625 0858 102 274 7910 90261 13mauritiu11 8923 6253 762 044 259 59158 53mexico11 2522 8152 381 994 069 01152 48netherla11 5523 1351 602 024 188 76145 48nz11 5823 3153 122 034 018 53145 48norway12 2525 0756 962 244 8410 69233 00png11 7623 5454 602 194 6010 16200 37philippi11 1322 2149 291 953 998 97160 82poland11 8124 2254 302 094 168 84151 20portugal11 4423 4651 201 923 968 53165 45rumania12 3025 0055 082 124 529 94182 77singapor11 8023 9853 592 054 149 02162 60spain11 1622 8251 792 024 128 84154 48swede
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年炼油装置启动与停车操作流程模拟题详解
- 2025年特岗教师招聘考试初中英语冲刺模拟题及解题技巧
- 2025年数据分析与挖掘技术面试模拟题集及解析
- 2025年英语口语模拟测试及提高方法
- 2025年医生中级专业能力面试题及答案
- 2025年国际贸易经理面试必-备知识模拟题集及策略指导
- 2025年护士执业资格考试模拟题及备考技巧
- 北师大版高中数学必修第一册 第七章概率 7.4事件的独立性 课件
- 临床教学课件规范
- 初中阅读教学课课件
- 诊疗规范培训课件
- 《KANO模型培训》课件
- 复苏室患者的交接流程
- 【人教版化学】选择性必修1 知识点默写小纸条(答案背诵版)
- DB21-T 2523-2015矿山地质环境恢复治理规程
- 新能源集控中心建设方案
- 《中国老年糖尿病诊疗指南(2024版)》解读课件
- 幼儿园 中班语言绘本《章鱼先生卖雨伞》
- 《中国女性乳腺癌患者糖尿病和糖尿病前期管理专家共识》 (2024版)
- 6大国工匠百炼成器教案-蓝色
- 蜂种买卖合同
评论
0/150
提交评论