版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章
聚类分析与判别分析
聚类分析判别分析中央财经大学统计学院聚类分析引言相似性度量系统聚类K-均值聚类聚类分析的SPSS实现中央财经大学统计学院引言物以类聚,人以群分。例:中国的民族分成若干类,上市公司分类,等等对于一个数据集,人们既可以对变量(指标)进行分类(称为R型聚类),也可以对观测值(个案,样品)来分类(称为Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。3中央财经大学统计学院3例:哪些少数民族的生存状况更接近?
民族原始数据标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59朝鲜族7.4467.14蒙古族8.1165.48维吾尔族10.2158.88藏族9.5159.24哈萨克族9.8160.47*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。4中央财经大学统计学院4聚类分析需要解决的一个问题如何衡量样本点之间的距离或相似程度?距离,主要用于样品(观测)间相似性度量相似系数,主要用于变量间相似性度量5中央财经大学统计学院5常用的距离的计算方法设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。6中央财经大学统计学院6常用的距离的计算方法欧氏距离(Euclidean)平方欧氏距离SquaredEuclidean切比雪夫距离(Chebychev)7中央财经大学统计学院7明考夫斯基距离(明氏距离)**按q的取值不同可以包括多种距离计算方法。例如:8中央财经大学统计学院8相似系数的计算方法变量间的相似性可以从它们的方向趋同性或“相关性”进行考察,“夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。(1)夹角余弦* 两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然,∣cos
ij∣1。9中央财经大学统计学院9相似系数的计算方法(2)Pearson相关系数
Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为
显然也有,∣rij∣1。10中央财经大学统计学院10系统聚类法(分层聚类)
hierarchicalcluster开始时,有多少样本点就是多少类。第一步先把最近的两类(点)合并成一类;然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。11中央财经大学统计学院11需要解决的新问题:如何计算类与类之间的距离?最短距离法
最长距离法
重心法
Ward法(离差平方和法)等等12中央财经大学统计学院12最短距离S1S3S2S4S5最短距离
13中央财经大学统计学院13最长距离S1S3S4S514中央财经大学统计学院14••重心法(Centroidclustering):均值点的距离15中央财经大学统计学院15离差平方和法:合并离差平方和变动最小的两个类2,41,56,516中央财经大学统计学院16红绿(2,4,6,5)8.75
离差平方和增加8.75-2.5=6.25
黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=0故按该方法黄红首先连接。离差平方和法:合并离差平方和变动最小的两个类17中央财经大学统计学院176个不同民族的聚类:数据表
民族原始数据标准化数据标化死亡率(‰)出生时期望寿命(岁)标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59-1.591.44朝鲜族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈萨克族9.8160.470.79-0.6618中央财经大学统计学院18各民族之间的欧氏距离
满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.311019中央财经大学统计学院19最短距离法举例(1)首先合并G5、G6,再计算新类与其他类之间的距离。满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.311020中央财经大学统计学院20(2)根据计算结果合并G4,G7G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.406021中央财经大学统计学院21根据表中的结果合并G2,G3G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.1731.9731.448022中央财经大学统计学院22根据表中的数据合并G1,G9G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2080G8={S4,S5,S6}3.1731.448023中央财经大学统计学院23最后合并成一类G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.448024中央财经大学统计学院24聚类结果的谱系聚类图(最短距离法)
藏族哈萨克族维吾尔族朝鲜族蒙古族满族0.3110.4060.5261.2081.44825中央财经大学统计学院25聚类结果受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。聚类的目的是要使各类距离尽可能地远,而类内点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。聚类要注意的问题26中央财经大学统计学院26啤酒名 热量 钠含量 酒精 价格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47SPSS系统聚类的实现和结果分析:数据表27中央财经大学统计学院27相关软件操作选择分析-分类-系统聚类把热量、钠含量、酒精、价格选入变量框;
把啤酒名选入“标注个案”框。选择“绘制”,选中“树状图”;28中央财经大学统计学院28方法设定在聚类方法框中选择需要的方法;在度量标准框中选择距离的计算方法;在“标准化”框中选择Z得分。29中央财经大学统计学院29输出结果:聚类表这一步合并了1和17这一步合并了第9和12。但这里9代表第8步中形成的类,12代表第9步中形成的类。依此类推可知这一步合并之后的新类包括出9,20,10,12,13。30中央财经大学统计学院30冰柱图从图中可以读出所有的分类结果。图中标出的是分5类的情况。31中央财经大学统计学院31聚类树形图图形反映了类间的距离和聚类过程。32中央财经大学统计学院32SPSS结果分析在开始的操作中,通过相应的选项可以把分类结果存储起来。33中央财经大学统计学院33K-均值聚类系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。k-均值聚类(k-meanscluster)可以避免上述问题,适用于样本点很多的情况,但要求你先确定要分多少类。34中央财经大学统计学院34K-均值聚类的步骤先确定k个点为“凝聚点”(SPSS软件自动确定);也就是说,把这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026上海虹口区卫健系统招聘38人笔试参考题库及答案解析
- 2026年中华全国总工会在京直属单位高校应届毕业生招聘50人笔试模拟试题及答案解析
- 2026年江苏事业单位统考无锡市江阴市招聘41人笔试备考题库及答案解析
- 2026山东济南市医疗卫生二级医院招聘派遣制人员104人考试备考题库及答案解析
- 2026内蒙古呼和浩特市玉泉区第三幼儿园楠湖郦舍分园面向社会招聘1人考试备考题库及答案解析
- 2026云南师范大学实验中学招聘公费师范生5人笔试备考题库及答案解析
- 沂水城开投资发展集团有限公司 山东陌上花开品牌运营管理有限公司 公开招聘职业经理人笔试模拟试题及答案解析
- 2026四川省广元市利州中学考试招聘教师9人考试备考题库及答案解析
- 2026北京海淀区事业单位招聘134人笔试参考题库及答案解析
- 2026福建厦门市集美区侨英中心幼儿园产假顶岗教师招聘1人笔试备考题库及答案解析
- 可变速抽水蓄能机组控制方法与特性:理论、实践与优化
- RFID技术应用案例
- 2025年高考英语新课标Ⅱ卷点评及2026备考方向 课件
- DB5301∕T 102-2024 应用软件定制开发成本测算指南
- 2025护理分级新标准
- GB/T 42124.3-2025产品几何技术规范(GPS)模制件的尺寸和几何公差第3部分:铸件尺寸公差、几何公差与机械加工余量
- T/CTRA 01-2020废轮胎/橡胶再生油
- DB31/T 1363-2022口腔综合治疗台水路卫生管理要求
- 可信数据空间解决方案星环科技
- 啦啦操队形变化设计与编排
- 《公路工程质量控制》课件
评论
0/150
提交评论