聚类分析4.ppt_第1页
聚类分析4.ppt_第2页
聚类分析4.ppt_第3页
聚类分析4.ppt_第4页
聚类分析4.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、zf,聚类分析 (Cluster Analysis),2020/7/27,2 cxt,聚类分析的基本思想,一、什么是聚类分析? 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化。,2020/7/27,3 cxt,聚类分析的应用:无处不在 谁经常光顾商店,谁买什么东西,买多少? 按记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式 刻画不同的客户群的特征(,2020/7

2、/27,4 cxt,为什么这样分类?(分类的好处) 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,2020/7/27,5 cxt,谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 在他或她生日的时候送上一个小蛋糕!,2020/7/2

3、7,6 cxt,例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,2020/7/27,7 cxt,二、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 相似样本或指标的集合称为类。 问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?,2020/7/27,8 cxt

4、,三、聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。,2020/7/27,9 cxt,2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K均值法(快速聚类法)等等,2020/7/27,1

5、0 cxt,相似性度量,1、样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性,2020/7/27,11 cxt,距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。 变量可分为定性变量和定量变量。若按测量尺度的不同

6、可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。,2020/7/27,12 cxt,一、间隔尺度变量的相似性度量 1、距离 设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:,2020/7/27,13 cxt,每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距

7、较近的点归为一类,相距较远的点归为不同的类。,2020/7/27,14 cxt,第i个和第j个样品之间的距离 如下四个条件:,2020/7/27,15 cxt,常用距离: (1)、明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: (1a)、绝对距离(Block距离):当q=1时,2020/7/27,16 cxt,(1b)欧氏距离(Euclidean distance):当q=2时 (1c)切比雪夫距离:当 时,2020/7/27,17 cxt,明考夫斯基距离主要有以下两个缺点: 明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量

8、计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,2020/7/27,18 cxt,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中 为第j个变量的样本均值; 为第j个变量的样本方差。,2020/7/27,19 cxt,如何避免明氏距离的缺点: (3)

9、兰氏距离 当 时:,这是一个自身标准化的量,2020/7/27,20 cxt,(4)马氏距离,克服量纲的影响,克服指标间相关性的影响,缺点:协方差矩阵难以确定,2020/7/27,21 cxt,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度。,2020/7/27,22 cxt,2、相似系数 相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,

10、越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。 变量 与 的相似系数用 表示,满足以下三个条件:,2020/7/27,23 cxt,(1)、相关系数,设 和 是第 和 个样品的观测值,则二者之间的相似 测度为:,2020/7/27,24 cxt,(2)、夹角余弦 从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量,2020/7/27,25 cxt,二、名义变量的相似性度量: 名义变量的相似性度量:简单匹配系数(simple matching)不配合的变量个数/配合与不配合变量个数和) 例:某高校举办一个培训班,从学员的资料中得到6个变量:性别()

11、,取值男和女;外语语种(),取值为英、日、俄;专业(),取值为统计、会计、金融;职业(),取值为教师和非教师;居住处(),取值为校内和校外;学历(),取值本科和本科以下。,2020/7/27,26 cxt,现有学员i和学员j: i=(男,英,统计,非教师,校外,本科) j=(女,英,金融,教师,校外,本科以下) 二者的距离:,2020/7/27,27 cxt,类和类的特征,1、类的定义 相似样本或指标的集合称为类。 2、类的特征描述: 设类G这一集合有 。m为G内的样本数。其特征: (1)均值(或称为重心),2020/7/27,28 cxt,(2)协方差矩阵 (3) G的直径,2020/7/2

12、7,29 cxt,3、类与类之间的相似相似性度量 (1)、最短距离(Nearest Neighbor),类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi Gp和xj Gq之间的距离),2020/7/27,30 cxt,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。,例1:为了研究辽宁省5省区某年城镇居民生活消费的 分布规律,根据调查资料做类型划分,2020/7/27,31 cxt,G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海 采用欧氏距离: d12 =(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)

13、2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4,2020/7

14、/27,32 cxt,d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=mind13,d14,d15=12.80 d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2 D3= 7 0 1 12.80 0 2 23.54 11.67 0,河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G5

15、,G8=G1,G2,2020/7/27,33 cxt,d78=mind71,d72=12.80 7 8 D4= 7 0 8 12.8 0 河南3 甘肃4 青海5 辽宁1 浙江2,2020/7/27,34 cxt,(2)最长距离(Furthest Neighbor ),2020/7/27,35 cxt,以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。,例2:对例1的数据以最长距离法聚类。,2020/7/27,36 cxt,d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d

16、35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0 D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0,河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4,河南、甘肃与青海并为

17、一新类 G7=G6,G5=G3,G4,G5,2020/7/27,37 cxt,d71=d(3,4,5)1=maxd13,d14,d15=13.80 d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2 D3= 7 0 1 13.80 0 2 24.63 11.67 0 d78=maxd71,d72=24.63 7 8 D4= 7 0 8 24.63 0,G8=G1,G2,2020/7/27,38 cxt,(3)组间平均连接(Between-group Linkage),为所有样本对间的平均距离。 利用了所有样本对距离的信息,2020/7/27,39 cxt,(4)组

18、内平均连接( Within-group Linkage),对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对.,2020/7/27,40 cxt,(5)重心法(Centroid clustering):均值点的距离,2020/7/27,41 cxt,用两类的重心间的距离作为两类的距离,Gr,Gt,2020/7/27,42 cxt,(6)离差平方和法连接(Wards method ),2,4,1,5,6,5,2020/7/27,43 cxt,红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75 离差平方和增加14.758.56.25

19、 黄红(2,4,1,5)10100 故按该方法的连接,黄红首先连接。,2020/7/27,44 cxt,先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。,2020/7/27,45 cxt,系统聚类法,系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类 (一)凝聚式系统聚类法 1、所有的研究对象各自算作一类,将最“靠近” 的首先聚类 2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止,2020/7/27,46 cxt,例:16种饮料的热量、咖啡因、钠及价格四种变量,2020/7/27,47 cxt,2020/7/27,48 cxt,非系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论