聚类分析 聚类分析_第1页
聚类分析 聚类分析_第2页
聚类分析 聚类分析_第3页
聚类分析 聚类分析_第4页
聚类分析 聚类分析_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析聚类分析 Cluster Analysis 知识要点 知识要点 1 什么是聚类分析 什么是聚类分析 2 理解聚类分析的基本思想 理解聚类分析的基本思想 3 聚类分析的相似性度量 聚类分析的相似性度量 4 系统聚类法 系统聚类法 Hierarchical Cluster 和快速聚类 和快速聚类 k means 的基本思想的基本思想 5 结合 结合SPSS软件进行案例分析软件进行案例分析 6 聚类分析的应用 聚类分析的应用 1 例例1 1 谁经常光顾商店 谁买什么东西 买多少 谁经常光顾商店 谁买什么东西 买多少 按忠诚卡记录的光临次数 光临时间 性别 年龄 职业 购按忠诚卡记录的光临次数 光临时间 性别 年龄 职业 购 物种类 金额等变量分类物种类 金额等变量分类 这样商店可以这样商店可以 识别顾客购买模式 如喜欢一大早来买酸奶和鲜肉 习惯周末识别顾客购买模式 如喜欢一大早来买酸奶和鲜肉 习惯周末 时一次性大采购 时一次性大采购 刻画不同的客户群的特征 如用性别 年龄等变量来刻画 刻画不同的客户群的特征 如用性别 年龄等变量来刻画 聚类分析的应用 无处不在聚类分析的应用 无处不在 为什么这样为什么这样 分类 分类 有何好处 有何好处 因为每一个类别里面的人消费方式都不一样 需要针对不同的因为每一个类别里面的人消费方式都不一样 需要针对不同的 人群 制定不同的关系管理方式 以提高客户对公司商业活动的人群 制定不同的关系管理方式 以提高客户对公司商业活动的 参与率 参与率 挖掘有价值的客户 并制定相应的促销策略 对经常购买酸奶挖掘有价值的客户 并制定相应的促销策略 对经常购买酸奶 的客户 对累计消费达到的客户 对累计消费达到1212个月的老客户 个月的老客户 针对潜在客户派发广告 比在大街上乱发传单命中率更高针对潜在客户派发广告 比在大街上乱发传单命中率更高 成本更低 成本更低 2 例例2 谁是银行信用卡的黄金客户 谁是银行信用卡的黄金客户 利用储蓄额 刷卡消费金额 诚信度等变量对客户分类 利用储蓄额 刷卡消费金额 诚信度等变量对客户分类 找出 黄金客户 找出 黄金客户 这样银行可以这样银行可以 制定更吸引的服务 留住客户 比如 制定更吸引的服务 留住客户 比如 一定额度和期限的免息透资服务 一定额度和期限的免息透资服务 百盛的贵宾打折卡 百盛的贵宾打折卡 在他或她生日的时候送上一个小蛋糕 在他或她生日的时候送上一个小蛋糕 3 如何实现聚类 如何实现聚类 聚类分析的基本思想和方法聚类分析的基本思想和方法 1 什么是聚类分析 什么是聚类分析 聚类分析 聚类分析 是根据 物以类聚 的道理 对样品或指是根据 物以类聚 的道理 对样品或指 标进行分类 使得同一类中的对象之间的相似性比与标进行分类 使得同一类中的对象之间的相似性比与 其他类的对象的相似性更强的一种多元统计分析方法 其他类的对象的相似性更强的一种多元统计分析方法 聚类分析的目的 把相似的研究对象归成类 即 使聚类分析的目的 把相似的研究对象归成类 即 使 类内类内对象的相似性最大化和对象的相似性最大化和类间类间对象的差异性最大化 对象的差异性最大化 问题的关键 问题的关键 如何刻如何刻 画研究对象 样品或画研究对象 样品或 指标 间的相似性 指标 间的相似性 有哪些方法可以实现有哪些方法可以实现 研究对象的分类呢 研究对象的分类呢 4 系统聚类 又称为层次聚类系统聚类 又称为层次聚类Hierarchical cluster 凝 凝 聚式系统聚类 分解式系统聚类聚式系统聚类 分解式系统聚类 非系统聚类 又称为非层次聚类非系统聚类 又称为非层次聚类non hierarchical cluster 如 如K 均值法均值法 快速聚类法 快速聚类法 2 2 聚类分析的方法 聚类分析的方法 5 凝聚式凝聚式 分解式分解式 以系统聚类法为例以系统聚类法为例 6 二 二 相似性度量相似性度量 1 相似性的度量指标 相似性的度量指标 相似系数 相似系数 性质越接近的变量或样品 它们的相似系数性质越接近的变量或样品 它们的相似系数 越接近于越接近于1或或 1 而彼此无关的变量或样品它们的相似系 而彼此无关的变量或样品它们的相似系 数则越接近于数则越接近于0 相似的为一类 不相似的为不同类 相似的为一类 不相似的为不同类 距离 距离 变量或样本间的距离越近 说明其相似性越高 变量或样本间的距离越近 说明其相似性越高 应归为一类 距离越远则说明相似性越弱 应归为不同应归为一类 距离越远则说明相似性越弱 应归为不同 的类 的类 样本分类 样本分类 Q型聚类 常以型聚类 常以距离距离刻画相似性刻画相似性 指标分类指标分类 R型聚类型聚类 常以常以相似系数相似系数刻画相似性刻画相似性 7 常用距离常用距离 1 明考夫斯基距离 明考夫斯基距离 Minkowski distance 明氏距离有三种特殊形式 明氏距离有三种特殊形式 1a 绝对距离 绝对距离 Block距离 距离 当当g 1时时 p k jkikij xxd 1 1 g p k g jkikij xxd 1 1 8 1b 欧氏距离欧氏距离 Euclidean distance 当当g 2时时 1c 切比雪夫距离切比雪夫距离 当当 时时 2 1 1 2 2 p k jkikij xxd jkik pk ij xxd 1 max g 9 C D A B 10 5 5 101 1 x 2 x 2 x 1 x 22 510125AB 22 101101CD 例例 横轴 代表重量 单位 kg 纵轴 代表 长度 单位 cm 有四个点A B C D 见图 明氏距离及其特殊形式的缺陷 10 21 xmmx若 用作单位 单位不变 则A坐标为 0 50 C坐标为 0 100 22 50102600AB 22 100110001CD 11 以上几种距离主要有以下两个缺点 距离的值受到各指标的量纲的影响距离的值受到各指标的量纲的影响 具有一定的人为具有一定的人为 性性 距离的定义没有考虑各个变量之间的相关性和重要性距离的定义没有考虑各个变量之间的相关性和重要性 如何克服以上如何克服以上 的缺点 的缺点 12 标准化处理 标准化处理 当各变量的单位不同或测量值范围相差很大时 当各变量的单位不同或测量值范围相差很大时 不应直接采用明氏距离 而应先对各变量的数据作标准化处理 不应直接采用明氏距离 而应先对各变量的数据作标准化处理 然后用标准化后的数据计算距离 常用的标准化处理 然后用标准化后的数据计算距离 常用的标准化处理 其中 其中 为第为第j个变量的样本均值 个变量的样本均值 为第为第j个变量的样本方差 个变量的样本方差 改进距离的定义 运用马氏距离 改进距离的定义 运用马氏距离 1 2 1 2 ijj ij jj xx xinjp s 1 1 n jij i xx n 2 1 1 1 n jjijj i sxx n 13 2 2 马氏距离 马氏距离 克服量纲的影响克服量纲的影响 克服指标间克服指标间 相关性的影响相关性的影响 2 ji 1 ji xxxx ij d 1 2 ij d 1 ijij xxxx 缺点 缺点 协方差协方差 矩阵难以确定矩阵难以确定 14 1 最短距离 最短距离 Nearest Neighbor x21 x12 x22 x11 13 d 类类Gp与类与类Gq之间的距离之间的距离Dpq min pqij Dd x x 其中 其中 d xi xj 表示点表示点xi Gp和和xj Gq之间的距离之间的距离 以当前某个样本与以当前某个样本与 已经形成的小类中已经形成的小类中 的各样本距离中的的各样本距离中的 最小值作为当前样最小值作为当前样 本与该小类之间的本与该小类之间的 距离 距离 三 类和类之间的距离度量 15 例例1 1 为了研究辽宁省为了研究辽宁省5 5省区某年城镇居民生活消费的省区某年城镇居民生活消费的 分布规律 根据调查资料做类型划分分布规律 根据调查资料做类型划分 省份 x1 x2 x3 x4 x5 x6 x7 x8 辽宁 浙江 河南 甘肃 青海 7 90 7 68 9 42 9 16 10 06 39 77 50 37 27 93 27 98 28 64 8 49 11 35 8 20 9 01 10 52 12 94 13 30 8 14 9 32 10 05 19 27 19 25 16 17 15 99 16 18 11 05 14 59 9 42 9 10 8 39 2 04 2 75 1 55 1 82 1 96 13 29 14 87 9 76 11 35 10 81 16 G1 辽宁辽宁 G2 浙江浙江 G3 河南河南 G4 甘肃甘肃 G5 青海青海 采用欧氏距离得到的距离矩阵 采用欧氏距离得到的距离矩阵 1 2 3 4 5 1 0 2 11 67 0 D1 3 13 80 24 63 0 4 13 12 24 06 2 20 0 5 12 80 23 54 3 51 2 21 0 河南与甘肃的距离最近 先将二者河南与甘肃的距离最近 先将二者 3和和4 合为一类 合为一类G6 G3 G4 17 d61 d 3 4 1 min d13 d14 13 12 d62 d 3 4 2 min d23 d24 24 06 d65 d 3 4 5 min d35 d45 2 21 6 1 2 5 6 0 D2 1 13 12 0 2 24 06 11 67 0 5 2 21 12 80 23 54 0 d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54 7 1 2 D3 7 0 1 12 80 0 2 23 54 11 67 0 河南 甘肃与青海并为一新类河南 甘肃与青海并为一新类 G7 G6 G5 G3 G4 G5 G8 G1 G2 18 d78 min d71 d72 12 80 7 8 D4 7 0 8 12 8 0 河南河南3 3 甘肃甘肃4 4 青海青海5 5 辽宁辽宁1 1 浙江浙江2 2 19 2 最长距离 最长距离 Furthest Neighbor x11 x21 12 d max pqij Dd x x 以当前某个样本与以当前某个样本与 已经形成的小类中已经形成的小类中 的各样本距离中的的各样本距离中的 最大值作为当前样最大值作为当前样 本与该小类之间的本与该小类之间的 距离 距离 20 3 组间平均连接 组间平均连接 Between group Linkage 9 91 dd 为所有样本对间的平均距离 为所有样本对间的平均距离 利用了所有样本对距离的信息利用了所有样本对距离的信息 21 4 组内平均连接 组内平均连接 Within group Linkage 123456 6 dddddd 对所有样对所有样 本对的距本对的距 离求平均离求平均 值 包括值 包括 小类之间小类之间 的样本对 的样本对 小类内的小类内的 样本对样本对 22 5 重心法重心法 Centroid method 11 x y 22 x y 类均值点的类均值点的 距离距离 23 6 离差平方和法离差平方和法 Ward s method 2 4 1 5 6 5 22 23 43 2 22 65 5 55 5 0 5 22 1 3 53 8 24 红绿 2 4 6 5 8 75 离差平方和增加8 75 2 5 6 25 黄绿 6 5 1 5 14 75 离差平方和增加14 75 8 5 6 25 黄红 2 4 1 5 10 10 0 故按该方法的连接 黄红首先连接 先将先将n个样本各成一类 然后每次缩小一类 每缩小一类离差个样本各成一类 然后每次缩小一类 每缩小一类离差 平方和就要增大 选择使离差平方和平方和就要增大 选择使离差平方和S增加最小的两类合并 增加最小的两类合并 直至所有样本归为一类为止 直至所有样本归为一类为止 25 四 系统聚类法 系统聚类法是一种其聚类过程可以用所谓的谱系结构或树 形结构来描绘的方法 事先不用确定分多少类事先不用确定分多少类 SPSS系统聚类法 凝聚式系统聚类法系统聚类法 凝聚式系统聚类法 1 所有的研究对象各自算作一类 将最 所有的研究对象各自算作一类 将最 靠近靠近 的首先聚的首先聚 类类 2 再将这个类和其它类中最 靠近 的结合 直至所有的 再将这个类和其它类中最 靠近 的结合 直至所有的 对象都合并为一类为止对象都合并为一类为止 SPSS处理 处理 Analyze Classify Hierarchical Cluster 26 聚类分析步骤 聚类分析步骤 确定待研究的问题确定待研究的问题 选择聚类用的距离或相似系数选择聚类用的距离或相似系数 选择聚类方法选择聚类方法 确定类别的个数确定类别的个数 评估聚类分析的效果评估聚类分析的效果 解释聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论