版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,经济预测与决策Economic Forecast and Decision Making,主 讲:徐 瑞,E-mail: ,2,第八章 聚类分析,第1节 聚类分析的原理 第2节 层次聚类 第3节 K-Means聚类 教学时数:4,3,第1节 聚类分析的原理,一、聚类分析的概念 1、仅仅依靠经验和专业知识常常不能进行确切的分类,有必要引入数学(统计)方法进行分类,就形成了数值分类法。数值分类一般有两种: (1)已知研究对象的分类情况,需将某些个体正确地归于其中一类,这是一种有师分类,称为判别分析。 (2)研究对象不存在事前分类,将数据进行确切分类,这是一种无师分类,称为聚类分析。,4,2、聚
2、类分析(Cluster Analysis):从研究对象的数量特征出发,在没有先验知识的情况下,按照性质上的亲疏程度(相似性)对个案(Case,个体或样品)或变量进行分类。 (1)聚类分析的基本思想:根据研究对象之间的相关程度进行类别的聚合。 (2)聚类分析的原则:同一类中的个体的相似性最大化,不同类中的个体差异性最大化。,5,例1:下表为同一批客户对经常光顾的五座商厦在购物环境和服务质量两方面的评分,现希望根据这些数据将五座商厦进行分类。 商厦的客户评分数据,6,如果将它们分为两类,则A和B商厦是一类,C商厦、D商厦和E商厦是一类。 如果将它们分为三类,则A和B商厦是一类,C商厦是一类,D商厦
3、和E商厦是一类。 二、聚类分析中“亲疏程度”的度量方法 1、对亲疏程度的测度一般有两个角度: (1)个体间的相似程度:通常用简单相关系数或等级相关系数等度量。 (2)个体间的差异程度:通常用某种距离来衡量。,7,为定义个体间的距离,应先将个案数据看成k维空间上的点,基于此定义某种距离,度量彼此间的亲疏程度。 通常,点与点之间的距离越小,意味着它们越“亲密”,越有可能聚成一类;点与点之间的距离越大,意味着它们越“疏远”,越有可能分属不同的类。 个体间的距离会受变量类型的影响。,8,2、间隔尺度变量个体间距离的计算方式:欧式距离最常用。 (1)欧式距离(Euclidean distance):两个
4、体k个对应变量值之差的平方和的平方根。 例如,A商厦和B商厦间的欧式距离为:,9,(2)平方欧式距离:两个体k个对应变量值之差的平方和。 例如,A商厦和B商厦间的平方欧式距离为 (3)切贝雪夫距离:两个体k个对应变量值之差绝对值的最大值。,10,例如,A商厦和B商厦间的切贝雪夫距离为 (4)Block距离:两个体k个对应变量值之差绝对值的总和,也称为绝对值距离。 例如,A商厦和B商厦间的Block距离为,11,(5)明考斯基距离:两个体k个对应变量值之差绝对值的p次方之和的p次平方根,p可以任意指定。 例如,A商厦和B商厦间的明考斯基距离为 如果p=1,就变成了Block距离。 如果p=2呢?
5、,12,(6)夹角余弦距离: 例如,A商厦和B商厦间的夹角余弦距离为 练习:计算D商厦和E商厦的各种距离,并与A商厦和B商厦之间的距离进行比较。,13,14,3、计数变量个体间距离的计算方式 (1)卡方距离(Chi-Square measure): 例2:下表为两名学生的选修课基本情况和其他相关数据。,15,张三和李四的卡方距离为:,16,(2)Phi方距离(Phi-Square measure): 张三和李四的Phi方距离为:,17,4、二值变量个体间距离的计算方式: (1)简单匹配系数(Simple Matching):建立在两个体的k个变量值同时为0(或1)和不同时为0(或1)的频数表基
6、础上,该频数表如:,18,表中,a为两个体同时为1的频数,d为两个体同时为0的频数,反映了两个体的相似程度。b为个体x为1和个体y为0的频数,c为个体x为0和个体y为1的频数,反映了两个体的差异程度。 简单匹配系数重点考察两个体的差异性,计算公式为: 简单匹配系数不会因编码方案的变化而变化,即0和1的地位是平等的。 SPSS计算的是 ,即x和y的相似性。,19,例3:下表为三名病人的临床表现数据。其中,1表示呈阳性,0表示呈阴性。 分析哪两位病人可能得了相同的病。,20,分别计算三个病人两两之间的简单匹配系数: 张三和李四为: 。 张三和王五为: 。 李四和王五为: 。 由于张三和李四的简单匹
7、配系数最小,因此他们两人的差异最小,有可能得的是同一种病。,21,(2)雅科比系数(Jaccard):忽略了两个体同时为0的频数。这种处理在医学上较常见,因为通常阴性对研究的意义不显著。 雅科比系数会因编码方案的变化而变化,即0和1的地位是不平等的。 SPSS中计算的是 ,即个体x和y之间的相似性。,22,以例3的数据为例,计算雅科比系数: 张三和李四为: 张三和王五为: 李四和王五为: 由于张三和李四的雅科比系数最小,有可能得的是同一种病。,23,三、聚类分析的几点说明 1、选择的变量应能说明分类之间的真实差异。 2、各变量的值不应有数量级上的差异。消除数量级差异的方法很多,标准化是最常用的
8、方法。 例如,分别以元和万元为计量单位将对两个体间的欧式距离产生较大的影响,从而影响聚类结果。 3、各变量间不应有较强的线性相关关系。 如果所选变量之间存在较高的线性关系,那么在计算距离时,这些变量将做出重复“贡献”,从而使最终的聚类结果偏向该类变量。,24,第2节 层次聚类,一、层次聚类的类型和方式 1、层次聚类(Hierarchical Cluster):按照一定的层次逐步进行聚类的也称为系统聚类。层次聚类是聚类分析方法中使用最多的。 2、层次聚类有两种类型: (1)Q型聚类:对个案(Case)进行聚类,使具有相似特征的个案聚集在一起,使差异性较大的个案分离开来,也称为个案聚类。 实际中应
9、用较多的是个案聚类。,25,(2)R型聚类:对变量进行聚类,使具有相似特征的变量聚集在一起,使差异性较大的变量分离开来,也称为变量聚类。 3、层次聚类的聚类方式: (1)凝聚式聚类:首先,每个个体自成一类;然后按照某种方式度量所有个体的相似程度,将最相似的两个个体聚为一类,形成n-1 类;再度量剩余个体和小类间的相似程度,将最相似的个体或小类聚集成一类;重复以上计算、归并过程,直到所有个体聚集成为一个大类。 SPSS中的层次聚类采用的是凝聚方式。,26,(2)分解式聚类:先把所有个体视作一大类;然后按照某种方式度量所有个体的相似程度,将其中差异最大的个体分离出去,形成两类;再次度量剩余个体间的
10、相似程度,将差异最大的个体分离出去;重复以上计算、分离过程,直到所有个体都自成一类。 二、个体与小类、小类与小类间“亲疏程度”的度量方法 1、最近邻居距离:某个体与小类中每个个体距离的最小值。,27,对于例1,五座商厦两两个体间欧式距离矩阵为: D商厦和E商厦的距离最小,在层次聚类中先聚到一起,形成一个小类。A、B、C商厦与该小类的最近邻居距离依次为26.907、34.655和9.22。,28,2、最远邻居距离:某个体与小类中每个个体距离的最大值。 A、B、C商厦与该小类(D、E)的最远邻居距离依次为30.414、38.210和12.806。 3、组间联结距离:某个体与小类中每个个体距离的平均
11、值。 A、B、C商厦与该小类(D、E)的组间联结距离依次为:,29,4、组内联结距离:某个体与小类中每个个体距离及小类内各个体间距离的平均值。 A、B、C商厦与该小类(D、E)的组内联结距离依次为: 5、重心距离:某个体与小类的重心点的距离。 小类的重心点通常是由小类中所有个体在各个变量上均值所确定的数据点。 6、离差平方和法(Wards method):小类内离差平方和增加最小的两小类应首先合并为一类。,30,三、层次聚类的基本操作与分析结果 1、数据标准化的方法:需选择对变量还是对个案进行标准化。 (1)Z scores:各数据减去均值,然后除以标准差。 (2)Range -1 to 1:
12、各数据除以全距。处理后的数据在-11之间。 (3)Range 0 to 1:各数据减去最小值后除以全距。处理后的数据在01之间。,31,(4)Maximum magnitude of 1:各数据除以最大值。处理后的数据最大值为1。 (5)Mean of 1:各数据除以均值。 (6)Standard deviation of 1:各数据除以标准差。 2、聚类分析的SPSS操作: Analyze/Classify/Hierarchical Cluster 3、聚类分析结果的分析: (1)凝聚状态表:第5、6列中的0表示个案,非0值表示第n步聚类生成的小类。,32,33,34,35,Agglomer
13、ation Schedule,36,(2)类成员表: Cluster Membership,37,(3)树状图:见教材。 (4)冰挂图:观察冰挂图应从最后一行开始。 Vertical Icicle,38,第3节 K-Means聚类,一、K-Means聚类分析的核心步骤 1、K-Means聚类仍将数据看作k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高执行效率,也称为快速聚类。 2、K-Means聚类的核心步骤: (1)指定聚类数目K:只能输出一个分类解。 (2)确定K个初始类中心:可以采用用户指定或系统指定两种方式确定。,39,(3)根据距离最近原则进行分类
14、:依次计算每个个案数据与K个类中心的欧式距离,按照距K个类中心距离最短的原则将所有个案进行分派,形成K个分类。 (4)重新确定K个类中心:依次计算各类中k个变量的均值,并以均值作为K个类的中心。 (5)判断是否已经满足终止聚类分析的条件。 聚类分析终止的条件有两个:,40,迭代次数:当前的迭代次数等于指定的迭代次数(SPSS默认为10)时终止聚类。 类中心点偏移程度:新确定的类中心距上个类中心的最大偏移量小于指定的量(SPSS默认为0.02)时终止聚类。 这两个条件中任意一个满足,聚类将结束。如果均不满足,则回到第3步。 K-Means聚类是一个反复迭代的分类过程,直到个案所属的类稳定为止。,41,42,43,44,二、K-Means聚类的基本操作与结果分析 1、初始聚类中心: Initial Cluster Centers,45,2、迭代历史记
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026安永面试题库及答案
- 工程机械租赁业务员班组评比竞赛考核试卷含答案
- 2-7.项目二-人工智能+智慧生活:智能语音客服-任务三 智能语音客服
- 非银行金融行业A股上市保险2026年一季报综述:价值持续兑现业绩分化加剧
- 钛冶炼工安全应急知识考核试卷含答案
- 金属炊具及器皿制作工诚信品质知识考核试卷含答案
- 2026安全工作面试题及答案
- 公路水运工程试验检测员安全宣贯竞赛考核试卷含答案
- 硬质合金烧结工安全生产基础知识能力考核试卷含答案
- 图书馆服务员操作规程考核试卷含答案
- 2026年吸油烟机行业分析报告及未来发展趋势报告
- 2026年安全生产月看图找隐患详解
- 技术研发项目成果验收标准与流程
- 【2025年】组织行为学试题及答案
- 2026年国开电大建筑制图基础形考考前冲刺测试卷及完整答案详解(历年真题)
- AI赋能职业技能竞赛:技术应用与实践创新
- 学校物业服务会议服务方案
- 雨课堂学堂在线学堂云《人工智能导论(复旦)》单元测试考核答案
- 玉林市玉州区云森木业家具厂家具生产建设项目环评报告
- 昆明市花卉产业高质量发展三年行动方案(23-25)
- 教师网络舆情安全培训课件
评论
0/150
提交评论