聚类分析实验40834.doc_第1页
聚类分析实验40834.doc_第2页
聚类分析实验40834.doc_第3页
聚类分析实验40834.doc_第4页
聚类分析实验40834.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析用数据文件World95.sav做实例分析。例1:系统聚类法为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。第一步:首先要选出亚洲国家或地区,使用 数据选择个案选择 如果条件满足输入region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。接下类就正式进行聚类分析。第二步:选择在菜单选项中选择分析分类选择系统聚类分析第三步:在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或Q型分类)和变量(变量聚类或R型聚类)这里选择样品聚类(个案)。在输出下有统计量与图,这里都进行选择。第四步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。第五步:在系统聚类中有四个按钮。首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择Z得分。点击继续。接下来选择统计量,选择合并进程表与相似性矩阵,继续。之后在绘制中选择树状图,继续即可。最后点击确定。第六步:输出分析表1表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算使用的是平方欧氏距离,所以样品间距越大,样品越相异,从矩阵中可以看出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先聚为一类。表1近似矩阵案例 平方 Euclidean 距离 1:Afghanistan 2:Bangladesh 3:Cambodia 4:China 5:Hong Kong 6:India 7:Indonesia 8:Japan 9:Malaysia 10:N. Korea 11:Pakistan 12:Philippines 13:S. Korea 14:Singapore 15:Taiwan 16:Thailand 17:Vietnam 1:Afghanistan .0001.586.96915.50038.7435.03210.87546.57217.16123.3683.84315.76826.24739.89830.02818.41914.6162:Bangladesh 1.586.000.1467.77728.0221.2115.05434.8389.27614.806.7368.89317.44029.57119.86210.3577.6663:Cambodia .969.146.0009.39431.0801.9516.15937.82711.02416.8231.43810.34319.65332.51322.44711.8248.8934:China 15.5007.7779.394.00012.6752.975.62315.967.6172.2595.298.8064.31713.5854.889.554.4215:Hong Kong 38.74328.02231.08012.675.00019.38914.5781.8548.2228.13720.95811.3573.734.2992.56412.78115.2606:India 5.0321.2111.9512.97519.389.0001.42425.0883.8757.636.5223.6559.88320.56311.6664.8023.1027:Indonesia 10.8755.0546.159.62314.5781.424.00018.2771.1192.9583.421.6375.05815.0916.5141.119.4248:Japan 46.57234.83837.82715.9671.85425.08818.277.00011.45811.08928.11414.5345.8501.6334.63314.44117.7859:Malaysia 17.1619.27611.024.6178.2223.8751.11911.458.0001.1735.954.5951.9628.8352.421.9451.25310:N. Korea 23.36814.80616.8232.2598.1377.6362.95811.0891.173.00010.649.9041.0127.8751.7151.9052.58911:Pakistan 3.843.7361.4385.29820.958.5223.42128.1145.95410.649.0006.24612.56422.56314.2637.9775.92912:Philippines 15.7688.89310.343.80611.3573.655.63714.534.595.9046.246.0002.55911.3653.838.765.66513:S. Korea 26.24717.44019.6534.3173.7349.8835.0585.8501.9621.01212.5642.559.0003.369.3903.8215.08314:Singapore 39.89829.57132.51313.585.29920.56315.0911.6338.8357.87522.56311.3653.369.0002.65813.15015.68815:Taiwan 30.02819.86222.4474.8892.56411.6666.5144.6332.4211.71514.2633.838.3902.658.0004.5966.28916:Thailand 18.41910.35711.824.55412.7814.8021.11914.441.9451.9057.977.7653.82113.1504.596.000.29417:Vietnam 14.6167.6668.893.42115.2603.102.42417.7851.2532.5895.929.6655.08315.6886.289.294.000这是一个不相似矩阵表2反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的样品数减去这个阶段的序号。接下来的分析可根据表4自行思考。表2聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2123.146001021617.2940053514.299001241315.39000115416.4230276611.5220013747.5735098912.595009949.72378141012.90101131110131.039041412581.262301513161.74410616144102.1419111515455.694141216161410.00013150表3是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类也符合我们的目的。表3表4是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:1类2,3,1,6,11,2类5,14,8,3类16,17,4,7,9,12,13,15,10我们可以从经济发展水平和文化教育水平来理解所做的分类,第2类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。表4表5也是反映样品聚类情况的图, 如果按照设定的分类,在那类的行上从左到右就可以找到各类所包含的样品。表5例2:快速聚类还是用World95.sav的数据,从中筛选出亚洲国家或地区试图将亚洲国家或地区按经济和文化水平分为三类,使用快速聚类法。第一步:与例1相同。第二部:选择在菜单选项中选择分析分类选择K-均值聚类分析。第三步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。将分类数指定为3,在选项中选择统计量中的:初始聚类中心,ANOVA表,每个个案的聚类信息。输出分析:表6表示最初各类的重心,也就是种子点,表6初始聚类中心聚类123People living in cities (%)187771Average female life expectancy448278Average male life expectancy457672People who read (%)299991Gross domestic product / capita205198607055表7时样品的分类情况,我们看到快速聚类发将亚洲国家或地区分为三类,1类1,8,19,24,50,51,66,69,76,80,98,1082类47,57,893类86,96,我们可以对分类结果进行分析,第一类国家或地区经济和文教卫生水平较低,第二类国家或地区时亚洲国家或地区的佼佼者,其经济和文教卫生水平都有很高,第三类国家或地区处于两者之间。我们可以结合表8 来分析,可以看到,第二类的人均GDP比另外两组高。表7聚类成员案例号country聚类距离dimension01Afghanistan 1571.6158Bangladesh 1573.92419Cambodia 1516.22924China 1398.15147Hong Kong 21856.03650India 1500.04751Indonesia 194.54357Japan 23363.04566Malaysia 12220.27469N. Korea 1230.06976Pakistan 1370.16580Philippines 196.54286S. Korea 3214.03489Singapore 21507.03396Taiwan 3214.03498Thailand 11025.608108Vietnam 1545.396表8最终聚类中心聚类123People living in cities (%)299072Average female life expectancy638076Average male life expectancy607570People who read (%)668894Gross domestic product / capita775164976841表9是方差分析表,通过方差分析可看出有4个变量对分类贡献显著。表9ANOVA聚类误差FSig.均方df均方dfPeople living in cities (%)5336.4882169.5771431.469.000Average female life expectancy454.600270.494146.449.010Aver

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论