聚类分析及判别分析操作及案例_第1页
聚类分析及判别分析操作及案例_第2页
聚类分析及判别分析操作及案例_第3页
聚类分析及判别分析操作及案例_第4页
聚类分析及判别分析操作及案例_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-. z.航空航天大学研究生课程数理统计B论文地区生产总值的聚类分析与判别分析 :王青云 *:SY1001243 授课教师:伟 日期:2011-1-2地区生产总值的聚类分析与判别分析:王青云 *:SY1001243摘要:为了了解全国各地区的经济类型,需要对地区进展分类,可以利用社会科学统计软件包(简称SPSS)对地区经济情况进展聚类分析和判别分析。该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进展了聚类分析,将不同地区的经济类型划分类别;并随机抽取了、三省进展判别分析。关键词:

2、经济类型,聚类分析,判别分析,SPSS一 引言人们认识事物时往往先把被认识的对象进展分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的根底科学。统计学中常用的分类统计方法主要是聚类分析与判别分析。聚类分析是直接比拟各事物之间的性质,将性质相近的归为一类,将性质差异较大的归入不同的类。判别分析则先根据类别的事物的性质,利用*种技术建立函数式,然后对未知类别的新事物进展判断以将之归入的类别中。聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类1。二 分析方法

3、 问题:根据地区各行业收入对全国各地区经济类型进展分类。 方法:先进展聚类分析,再进展判别分析,采用SPSS软件进展。2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示2。2.1聚类分析在SPSS数据编辑窗口中输入表1中数据:表1 2009年地区生产收入地 区地区生产总值第一产业第二产业第三产业工 业建筑业交通运输和邮政业批发和零售业住宿和餐饮业金融业房地产业其 他北 京12153.03118.292303.08552.47556.641525.03262.511603.631062.474168.

4、91天 津7521.85128.853622.11365.73471.01836.84131.84461.2308.731195.54河 北17235.482207.347983.86975.971491.921157.8247.14525.67612.42033.38山 西7358.31477.593518.88474.92523.38557.86203.58361.64173.311067.159740.25929.64503.33610.67773.29915.89294.73291.1286.651134.99辽 宁15212.491414.96925.63980.71790.5614

5、10.33318.8560.2605.272206.09吉 林7278.75980.573054.6487.32341.76673.12157.73180.83200.141202.6885871154.333549.73510.99433.55757.36211227.54301.181441.32上 海15046.45113.825408.75593.03635.012183.85238.361804.281237.562831.79江 34457.32261.8616464.942101.431423.253579.81678.361596.982025.394325.28浙 江2299

6、0.351163.0810518.211390.28888.022119.39416.841899.331316.833278.36安 徽10062.821495.454064.72840.5467.92733.19157.14359.6497.941446.36福 建12236.531182.745106.38898.92751.421043.42235.98612.2656.611748.86江 西7655.181098.663196.56722.89394.9553.89167.59165.1305.91049.69山 东33896.653226.6416896.142005.69174

7、2.333106.24594.51044.91329.593950.63河 南19480.462769.059900.271110.23823.571057.81526.51499.92622.982170.12湖 北12961.11795.95183.68854.4642.72979.14337.81479.11546.112142.23湖 南13059.691969.694819.4867.79704.831221.2304.93402.57400.112369.17广 东39482.562010.2718091.561328.141595.343907.43945.762283.2924

8、70.636850.14广 西7759.161458.492863.84517.7378.75551.14208336.82348.981095.45海 南1654.21462.19300.63142.888.68168.7560.2265.73121.76243.45重 庆6530.01606.82917.4531.37347.98524.36132.88389.97229.09850.16四 川14151.282240.615678.241033.63520.71868.98405.45524.63548.142330.89贵 州3912.68550.271252.67223.95399.

9、77293.53153.41194.44136.15708.49云 南6169.751067.62088.17494.36179.45571.03162.1351.74205.141050.16西 藏441.3663.8833.11103.5221.1927.0614.723.1713.28141.45陕 西8169.8789.643501.25735.17423.24707.39175.01336.21239.921261.97甘 肃3387.56497.051203.7323.54213.64231.2188.5288.27101.37640.26青 海1081.27107.4470.33

10、10549.3266.1314.5445.6323.05199.87宁 夏1353.31127.25520.38141.94114.7774.5225.5975.5447.56225.76新 疆4277.05759.741555.84373.75209.095253.662.25198.87115.23748.672定义聚类类型:在Analyze菜单Classify中选择Hierarchical命令,在弹出的Hierarchical Cluster Analysis 对话框中,从对话框左侧的变量列表中选择地区变量,使之添加到Lable Cases by框中,同样将指标第一产业,工业,建筑业,交

11、通运仓储及邮电通讯业,批发零售贸易及餐饮业,金融保险业,房地产业,其他行业添加到Variables框中。在Cluster栏中选择聚类类型Cases,在Display中选择显示容,为系统默认选项。3设置统计量的值:单击Statistics按钮,翻开Statistics对话框,同时选中对话框上方的聚类进度Agglomeration schedule和相似性矩阵Pro*imity matri*选项,同时选中Cluster Membership中的Range of solutions,选择3到5。4设置输出图表:单击Plots按钮,翻开Plots对话框,选中树枝图。5选择聚类方法:单击Method按钮

12、,翻开Method对话框,选择默认的Between-groups linkage即组间连接法,Interval中也选择默认选项二元变量欧氏距离。Transform Values中的Standardize 选择z-cores。6单击OK,即可得到SPSS聚类分析的分析结果。表2为数据汇总表,是Processing过程中的输出信息,即数据的根本信息。31个样本参与分析,没有缺失值。表2 数据汇总表案例处理摘要a案例有效缺失合计N百分比N百分比N百分比31100.0%00.0%31100.0%a. 平方 Euclidean 距离 已使用表3是使用两组间的连接统计量进展聚类的详细过程。有31个样本,经

13、30步聚类。Stage:聚类步骤;Cluster 1,Cluster 2:该步被合并的两类中的样品号或类号,合并结果取小的序号。Stage Cluster first appears:非零数值表示合并两项前一次出现的聚类步序号,而0表示第一次出现。Ne*t Stage:表示合并结果在下一步合并时的步序号2。表4、5为聚类结果,分别为分类表表4和树状图表5。由以上树状图可以看出,如假设将全国各省和直辖市的经济类型分为三类,则分类如下:、;、*、*、*、;、。假设将全国各省和直辖市的经济类型分为四类,则分类如下:、;、*、*、*、;、;。而假设将全国各省和直辖市的经济类型分为五类,则分类如下:、;

14、、*、*、*;、;、;。表3 数据聚类表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212629.02000222630.06010732831.1690010478.23400951718.256001561427.28100972126.28902178422.35900139714.4024612102428.4490317112025.554001212720.580911161324.621081814613.6690019151723.7645019167121.055120181721241.1307102218271.443131620196171.4

15、9314152320251.6871802221191.9490026222213.635201727236164.0881902424364.543023272510154.5640028261118.09821029272310.35522242928101914.49825030291218.5382627303011061.97829280表4 分类表群集成员案例5 群集4 群集3 群集1:市 1112:*市 2223:省 3224:省 2225:自治区 2226:省 3227:省 2228:省 2229:市 11110:省 43311:省 11112:省 22213:省 32214:

16、省 22215:省 43316:省 32217:省 32218:省 32219:省 54320:*壮族自治区 22221:省 22222:市 22223:省 32224:省 22225:省 22226:自治区 22227:省 22228:省 22229:省 22230:回族自治区 22231:*维吾尔自治区222表5 树枝图2.2判别分析判别分析也是一种数据的分析方法。在生产活动、经济管理、科学实验甚至日常活动中,人们常常需要判定所研究问题的归属问题。例如经济分析中根据一个国家或地区的假设干经济指标,判断该国家或地区经济开展的程度和状态。在事先已经建立了样品分类,需要将新样本归入到分类的样本组

17、中时,就可以使用判别分析。判别分析是先根据类别的事物的性质自变量,建立函数式自变量的线性组合,即判别函数,然后对未知类别的新事物进展判断以将之归入的类别中。通常使用的判别分析方法有:距离判别法、Bayes判别法以及 Fisher判别法等方法。本文中将使用 SPSS17.0的 Classify Discriminate程序随机选取、省份进展判别分析,以确定这些地区所属的经济类型。本文使用的Fisher判别法的函数系数列表如表6,从表6可列各类的Fisher判别函数,输入相关经济指标就可以判别其它市的经济类型。表6Fisher判别函数分类函数系数表分类函数系数V121.002.003.004.00

18、生产总值.014-.001.008.048第一产业-.003.002-.018-.058工业-.012.000-.004-.027建筑业-.053.014-.011-.201交通运输和邮政业-.027.007-.030-.106批发和零售业-.027.005.023-.064住宿和餐饮业-.012.014-.064-.162金融业.063.014-.055.016房地产业-.081-.001.024.010(常量)-100.574-4.267-57.196-216.965Fisher 的线性判别式函数设:地区生产总值=*1,第一产业=*2,工业=*3,建筑业=*4,交通运输和邮政业=*5,批发

19、和零售业=*6,住宿和餐饮业=*7,金融业=*8,房地产业=*9。Y10.014*10.003*20.012*30.053*40.027*50.027*60.012*7+0.163*80.081*9100.574Y20.001*1+0.002*2+0.014*4+0.007*5+0.005*6+0.014*7+0.014*80.011*94.267Y30.008*10.018*20.004*30.011*40.030*5+0.023*60.064*70.055*8+0.024*957.196Y40.048*10.058*20.027*30.201*40.106*50.064*60.162*70

20、.016*8+0.010*9216.965将、省份的指标代入四个判别函数,判别函数值最大函数所属类别即为这个省份的分类。经判别可知属于第一类,属于第二类,属于第三类。表7为分类结果表,图1为分类散点图。表7 分类结果表分类结果b,cV12预测组成员合计1.002.003.004.00初始计数1.00200022.0002400243.00001014.0000011%1.00100.0.0.0.0100.02.00.0100.0.0.0100.03.00.0.0100.0.0100.04.00.0.0.0100.0100.0穿插验证a计数1.00200022.0002400243.001000

21、14.0010001%1.00100.0.0.0.0100.02.00.0100.0.0.0100.03.00100.0.0.0.0100.04.00100.0.0.0.0100.0a. 仅对分析中的案例进展穿插验证。 在穿插验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b. 已对初始分组案例中的 100.0% 个进展了正确分类。c. 已对穿插验证分组案例中的 92.9% 个进展了正确分类。图1 分类散点图从表8判别结果可见,9、14分别是和出现错判,从2.2聚类分析可以看出,和是比拟有代表性的省份,所以在缺少的情况下进展判别分类,造成的误判也是可能的。分析与结论:将全

22、国各省和直辖市的经济类型分为四类,则分类如下:、;、*、*、*、;、;。表8判别结果按照案例顺序的统计量案例数目最高组第二最高组判别式得分P(Dd | G=g)实际组预测组pdfP(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2函数 3初始122.06731.0007.1611.000128.851-.039-.888-.362222.93131.000.4441.000206.8482.970-.630.058322.55331.0002.0971.000193.5452.496-1.605-

23、.051422.07631.0006.8801.000238.4293.3891.6541.773522.07531.0006.9091.000147.418.4761.499-.137622.81131.000.9591.000222.3823.450.011.231722.94331.000.3881.000196.9372.452-.382.693811.72631.0001.3133.000160.071-12.153-1.102-2.5589331.00031.000.0001.000160.131-12.80411.089.7631011.72631.0001.3133.00016

24、2.819-10.035-.678-3.3231122.12631.0005.7271.000166.2811.4621.512-1.2491222.17331.0004.9821.000213.3333.0401.900-.5341322.00731.00012.0001.000219.9242.210-.0773.5611422.42731.0002.7811.000155.366.996-.899.0921522.47831.0002.4861.000231.4633.896-.732-.34116441.00031.000.0001.000238.882-24.869-5.3162.4

25、941722.86731.000.7271.000198.0702.405.019.9371822.76731.0001.1421.000205.6672.655.569.8681922.85231.000.7891.000184.7692.277.110-.7062022.42531.0002.7901.000168.8431.575-1.541-.1262122.46231.0002.5771.000205.0242.729-1.633.7192222.88731.000.6391.000214.1223.250-.127-.1492322.97531.000.2171.000204.30

26、82.891-.365-.0332422.35831.0003.2281.000206.0293.098.603-1.3982522.84731.000.8091.000210.6803.180-.552-.3272622.95831.000.3131.000202.6782.820-.618.0602722.96731.000.2651.000198.6222.704-.594-.0842822.38231.0003.0611.000216.8373.481-1.228-.870穿插验证a122.00181.00026.6641.000180.076222.00081.000243.3651.000553.934322.22181.00010.6681.000192.122422.00081.00044.9973.000351.415522.03681.00016.4581.000165.427622.65881.0005.9051.000233.412722.98181.0001.9921.000190.404811.00081.00066.1313.000166.874931*.00081.000160.1312.000361.1531011.00081.00066.1313.000173.2931122.02881.00017.2601.000166.93

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论