聚类与判别分析_第1页
聚类与判别分析_第2页
聚类与判别分析_第3页
聚类与判别分析_第4页
聚类与判别分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

我国区域经济类型的聚类分析和判别分析应用数理统计课程论文届材料科学与工程学院学号姓名年月日摘要我国幅员辽阔,省市众多,各地区经济社会发展不平衡。针对这种不平衡的现状,从定量化的角度综合评价地区经济发展水平,本文选取了8项经济指标作为决定经济类型的影响因素,利用数理统计软件SPSS对全国2010年31个省和直辖市(不包括港澳台)的经济类型进行聚类分析,得到树状谱系图,将其强制分为四类,并给出了各类发展区域的优势和特点,最后对所得的统计数据进行了判别分析。关键词:经济类型聚类分析判别分析SPSS目录1.引言 11.1研究意义 11.2研究内容及方法 12.数据预处理 22.1数据的收集 22.2数据标识 32.3数据标准化处理 33.聚类分析 53.1概述 53.2数据处理 53.3讨论 84.判别分析 104.1概述 104.2数据处理 105.结论与讨论 145.1结论 145.2讨论 14参考文献 15北京航空航天大学数理统计论文ZY1201203马胜东-PAGE15-1.引言在多元统计分析中,常常使用聚类分析(ClusterAnalysis)和判别分析(DiscriminateAnalysis)来解决样本的分类问题。在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。1.1研究意义由于历史和现实的原因,中国经济的发展呈现出明显的不均衡性,并以东西部的发展水平不平衡为最大特点,东部地区较为发达,西部地区发展滞后。区域经济差异作为经济发展过程中出现的一个普遍性问题具有明显的负面效应,直接影响着社会的安定和人民的生活水平的提高。在这一前提下,明确当前我国发达地区和落后地区的区间格局,有助于对不同地区经济发展存在的差异进行宏观调控,从而因地制宜出台相应的经济政策,促进各地区经济的协调发展,为国民经济持续协调健康发展奠定了坚实基础。同时,对于进一步的研究和分析我国各区域间经济发展的状况,并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。1.2研究内容及方法各地区经济状况评价的难点在于反映经济发展的指标众多,每项指标又会从不同角度反映经济发展状况。所以,依据它们作综合评价有一定难度。但我们可以看到,多元统计分析正是将多维因子纳入同一体系加以综合研究的定量化方法,从而很好解决了这一问题。本文采用多元统计分析方法,对我国2010年31个省和直辖市(不包括港澳台)的经济发展指标进行分析,客观地反映了当前各地区的经济类型。

2.数据预处理2.1数据的收集本文从《中国统计年鉴2011》中选取了2010年全国31个省及直辖市(不包括港澳台)的8项具有代表性的经济指标作为分类的自变量,分别是财政收入、农林牧渔业总产值、工业总产值、建筑业总产值、社会消费品总额、教育经费、餐饮业营业额和就业人员工作总额。数据整理结果如表2-1所示。表2-12010年全国31个省及直辖市(不包括港澳台)主要经济指标(单位:亿元)地区农林牧渔业总产值建筑业总产值北京2353.93328.013699.845196.026229.3528.94394.74136.1天津1068.81317.316751.822424.492902.6238.1776.21051.2河北1331.854309.431143.293231.466821.8614.5336.41629.6山西969.671047.812471.332143.463318.2380.9168.31286.5内蒙古1069.981843.613406.111125.583384.0318.7746.5888.2辽宁2004.843106.536219.424690.316887.6534.92103.81787.2吉林602.411850.313098.351348.783504.9300.7019.7776.3黑龙江755.582536.39535.151769.704039.2348.6234.31277.6上海2873.58287.030114.414300.196070.5493.73337.12611.2江苏4079.864297.192056.4812405.913606.81105.49237.12998.8浙江2608.472172.951394.2012007.910245.4891.15211.53517.5安徽1149.402955.418732.002864.964197.7487.3352.01225.1福建1151.492307.121901.232935.945310.0447.91103.51602.3江西778.091900.613883.061690.022956.2377.6534.4836.7山东2749.386650.983851.405496.5914620.3839.74315.83166.7河南1381.325734.234995.534400.618004.2763.35100.32213.6湖北1011.233502.021623.124345.207013.9519.45105.61601.7湖南1081.693787.519008.833161.735839.5566.0773.11479.9广东4517.043754.985824.644715.4617458.41284.31445.64484.3广西771.992721.09644.131222.313312.0387.3320.4952.7海南270.99821.31381.25199.48639.3117.5512.0250.0重庆952.071021.19143.552534.362938.6331.0083.1897.7四川1561.674081.823147.384163.076810.1808.85121.51840.5贵州533.73997.84206.37622.961482.7309.4111.6669.1云南871.191810.56464.631510.962500.1440.8123.1930.5西藏36.65100.862.22122.07185.359.740.5108.95陕西958.211666.111199.843063.613195.7463.7587.31215.0甘肃353.581057.04882.68751.991394.5276.1117.9568.9青海110.22201.31481.99279.61350.878.583.6189.6宁夏153.55305.91924.39342.69403.681.3110.3225.9新疆500.581846.25341.90963.721375.1295.938.0850.82.2数据标识为了便于数据处理,将收集到的2010年全国31个省及直辖市(不包括港澳台)的8项具有代表性的经济指标作为自变量进行符号标识,符号说明如表2-2所示:表2-2符号说明自变量符号财政收入X1农林牧渔业总产值X2工业总产值X3建筑业总产值X4社会消费品总额X5教育经费X6餐饮业营业额X7就业人员工资总额X82.3数据标准化处理无论是应用聚类分析还是判别分析,都要对数据进行标准化处理。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。本文采用标准差标准化对数据进行处理。标准化计算公式为:,式中:--个案的样本均值;--样本标准差。这样就把个案转换为样本均值为0、标准差为1的样本。标准化输出结果见表2-3。表2-3标准化后各省及直辖市的经济指标地区财政收入农林牧渔业总产值工业总产值建筑业总产值社会消费品总额教育经费餐饮业营业额就业人员工资总额北京0.96-1.14-0.360.950.280.192.412.30天津-0.22-1.15-0.24-0.13-0.51-0.82-0.22-0.42河北0.021.240.350.190.420.49-0.550.09山西-0.31-0.71-0.41-0.23-0.41-0.32-0.29-0.21内蒙古-0.22-0.23-0.37-0.63-0.40-0.54-0.47-0.56辽宁0.640.520.560.750.430.210.010.23吉林-0.65-0.23-0.38-0.54-0.37-0.60-0.69-0.66黑龙江-0.510.18-0.53-0.38-0.24-0.44-0.57-0.22上海1.43-1.160.310.600.240.071.940.96续表2-3标准化后各省及直辖市的经济指标地区财政收入农林牧渔业总产值工业总产值建筑业总产值社会消费品总额教育经费餐饮业营业额就业人员工资总额江苏2.541.232.833.752.032.201.111.30浙江1.19-0.041.183.591.231.450.901.76安徽-0.150.43-0.160.05-0.210.05-0.42-0.26福建-0.150.04-0.030.070.06-0.090.000.07江西-0.49-0.20-0.35-0.41-0.50-0.34-0.57-0.61山东1.322.642.501.072.271.271.761.45河南0.072.090.510.640.701.01-0.020.61湖北-0.270.76-0.040.620.460.160.020.07湖南-0.210.93-0.140.160.180.32-0.25-0.04广东2.940.912.580.762.942.822.842.61广西-0.490.29-0.53-0.59-0.42-0.30-0.68-0.51海南-0.95-0.85-0.86-0.99-1.05-1.24-0.75-1.13重庆-0.33-0.73-0.55-0.08-0.50-0.50-0.17-0.55四川0.231.100.020.550.411.170.150.28贵州-0.71-0.74-0.75-0.82-0.85-0.57-0.76-0.76云南-0.40-0.25-0.66-0.48-0.61-0.12-0.66-0.52西藏-1.17-1.28-0.92-1.02-1.16-1.44-0.85-1.25陕西-0.32-0.34-0.460.12-0.44-0.04-0.13-0.27甘肃-0.88-0.70-0.72-0.77-0.87-0.69-0.71-0.84青海-1.10-1.22-0.86-0.96-1.12-1.38-0.82-1.18宁夏-1.06-1.15-0.84-0.93-1.10-1.37-0.77-1.15新疆-0.74-0.23-0.70-0.69-0.87-0.62-0.79-0.59

3.聚类分析3.1概述聚类分析又称为群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,其基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品逐一归类。聚合分析的优点在于它确定的类别是基于对样本的观察指标的分析,分类的结果能客观地显示出样本间的本质判别与联系,尤其是内在的结构关系,且分类结果较直观。聚类分析中常用的研究样本之间的关系指标有2种:(1)距离。根据不同的距离定义方法可以测算出定义在P维空间上样本之间的距离,并根据此距离来度量样本之间的相似程度。常用的距离指标有:①欧氏距离:②马氏距离:(2)相似系数。根据描叙样本之间相似程度的量——相似系数来确定样本的类关系,常用的相似系数为夹角余弦和相关系数。聚类分析分为两种类型:Q型聚类(个案聚类)和R型聚类(变量聚类)。本文属于Q型聚类。文中先使用系统聚类的Ward’sMethod(Ward法即最小离差平方和法),并采用SquaredEuclideandistance(欧氏距离的平方,即两观察样本间的距离为其差值的平方和,该技术用于Q型聚类)量来对2010年全国31个省及直辖市(不包括港澳台)的主要经济指标进行聚类分析,得到树状谱系图,并最终划分为4类经济区域。3.2数据处理使用专业统计分析软件IBMSPSSStatistics19对2010年31个省及直辖市(不包括港澳台)的主要经济指标(标准化)进行聚类分析,聚类方法使用Ward’sMethod,距离测量技术选择SquaredEuclideandistance(欧氏距离的平方),处理结果如下表所示。表3-1案例处理汇总案例a有效缺失总计N百分比N百分比N百分比31100.00.031100.0注:a.Ward联结由表3-1可知,选取的数据均为有效数据。分层聚类分析的聚类过程如表3-2所示:表3-2群组成员聚类过程表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212930.00600322428.03500932629.0640184714.1370075820.24000146422.3460012757.469041082126.618032692431.8202021105251.03170141117181.2530015124271.50660161312131.779001914582.17610521153172.6590111816243.164012221716233.914002318364.96515019193126.27018132320197.6830028215249.24514922222511.6521621262331614.94319172824101118.764002725151924.30500272622133.3842282927101545.649242530281367.0372023292912113.73628263030110248.45929270表中第一列表示聚类分析的步骤。第二列和第三列表示该步聚类分析中,哪两个样本聚成了一类;如:第一步显示第26和29两个样本聚成了一类,第六步显示第8个样本和第四步聚类形成的新类进行了聚类,依次类推,聚类过程共进行了30步,所有的样本聚成了一大类。第四列表示两个样本间的距离,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。由此得到聚类树状图谱如图3-1所示,该图较好的反映了31个省及直辖市(不包括港澳台)经济类型的关联。图3-1使用Ward连接的树状图从树状图中可以清晰地看到聚类的全过程。它将实际的距离按比例调整到0至25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。经反复试验,将群组成员强制分为四类,结果比较令人满意,分组结果如表3-3所示。表3-3群聚成员案例4群集案例4群集1:北京117:湖北32:天津218:湖南33:河北319:广东44:山西220:广西25:内蒙古221:海南26:辽宁322:重庆27:吉林223:四川38:黑龙江224:贵州29:上海125:云南210:江苏426:西藏211:浙江427:陕西212:安徽328:甘肃213:福建329:青海214:江西230:宁夏215:山东431:新疆216:河南3由上表可以看出,全国31个省及直辖市(不包括港澳台)被强制分为四个经济区域,按其经济发展程度,定义为经济最发达地区、经济发达地区、经济较发达地区、经济不发达地区。整理的表3-4。表3-4聚类分析分类结果类别性质省份1经济最发达地区北京、上海2经济不发达地区山西、广西、内蒙古、吉林、天津、黑龙江、江西、海南、重庆、贵州、云南、西藏、陕西、新疆、甘肃、宁夏、青海3经济较发达地区河北、湖南、湖北、福建、辽宁、安徽、河南、四川4经济发达地区江苏、广东、浙江、山东3.3讨论北京是全国政治、经济、科学文化与国际交往中心,是中国重要的金融中心和商业中心之一,其综合经济实力保持在全国前列。上海是中国第一大城市,交通便利,腹地广阔,地理位置优越,是一个良好的江海港口,有着众多的国际商业组织和跨国公司,诸此种种都带动着上海的建设发展和居民收入的普遍提高。这两个直辖市的综合实力发展情况在全国属于最高水平,属于经济最发达地区。江苏是中国的经济大省,全省综合经济实力在全国一直处于前列。浙江是我国高产综合性农业区,旅游资源亦非常丰富。广东改革开放以来创新发展观念,转变发展方式,发展迅速,省内有许多规模和效益较好的大型工业企业。这类省份的综合实力水平较高,属于经济发达地区。相比之下,福建、辽宁作为沿海省份,经济要更差一些,但辽宁作为我国的重工业发展基地,福建紧靠台湾,近两年沿海交流加深,经济实力不容低估,属于经济较发达地区。经济不发达地区,这些主要集中于我国的西部和中部。

4.判别分析4.1概述判别分析是另一种处理分类问题的统计方法,是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。其主要原理是先根据已知类别的事物的性质(自变量),建立函数关系式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。常用的判别分析方法有:距离判别法、Bayes判别法以及Fisher判别法等。本文采用的是Fisher判别法,这种方法是以Fisher准则为标准来评选判别函数的。所谓Fisher准则,指的是较优的判别函数应该能根据待判对象的n个指标最大限度地将它所属的类与其他类区分开来。4.2数据处理利用使用专业统计分析软件IBMSPSSStatistics19,定义分类结果为变量“分组类别”,采用自变量全进入模型来进行判别分析,由于在聚类分析中将全国各省、直辖市的经济类型分为四类,因此该变量取值范围为1~4。输出结果如下:表4-1分析案例处理摘要未加权案例N百分比有效31100.0排除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码有至少一个缺失判别变量0.0合计0.0合计31100.0从上表中可以看出,案例均是有效的。表4-2分组统计量分类有效的N(列表状态)未加权的已加权的1.00X122.000X222.000X322.000X422.000X522.000X622.000X722.000X822.000续表4-2分组统计量分类有效的N(列表状态)未加权的已加权的2.00X11717.000X21717.000X31717.000X41717.000X51717.000X61717.000X71717.000X81717.0003.00X188.000X288.000X388.000X488.000X588.000X688.000X788.000X888.0004.00X144.000X244.000X344.000X444.000X544.000X644.000X744.000X844.000合计X13131.000X23131.000X33131.000X43131.000X53131.000X63131.000X73131.000X83131.000从表中可以得出分组变量和合计的均数、标准差和有效个案的例数。表4-3典型判别函数的特征值表函数特征值方差的%累积%正则相关性120.722a63.963.9.977210.621a32.796.6.95631.108a3.4100.0.725注:a.分析中使用了前3个典型判别式函数特征值为组间平方和与组内平方和之比,从表中可以读出三个判别函数的特征值分别为20.711、10.621、1.108,对应的典型相关系数为0.977、0.956、0.725。表4-4Willks检验函数检验Wilks的Lambda卡方dfSig.1到3.002150.64624.0002到3.04176.76614.0003.47417.8986.006从表4-4中可知,此次判别是合理的。表4-5标准化的典型判别式函数系数自变量函数123X1-1.4402.0181.174X2-.6401.5551.397X31.652-.894-1.774X4.590.295.543X5-.142-2.098.912X6.390-1.402-.667X7.5941.408.059X8.433.423-.474从上表中可知,标准化函数为:Z1=-1.44X1-0.64X2+1.652X3+0.59X4-0.142X5+0.39X6+0.594X7+0.433X8Z2=2.018X1-1.555X2-0.894X3+0.395X4-2.098X5-1.402X6+1.408X7+0.423X8Z3=1.174X1+1.397X2-1.774X3+0.543X4+0.912X5-0.667X6+0.059X7-0.474X8表4-6Fisher的线性判别式函数自变量分类1.002.003.004.00X146.4696.367-1.347-46.804X226.920.967.867-16.987X3-18.300-9.963-5.82157.192X49.178-2.5981.6078.930X5-65.4691.90611.6995.834X6-32.052-.858.95714.716X748.564-4.693-3.3589.832X814.174-3.413-4.0339.261(常量)-72.583-4.210-3.587-57.239由表4-6可以得出Fisher判别准则的四个判别函数如下:F1=-72.583+46.469X1+26.92X2-18.3X3+9.178X4-65.469X5-32.052X6+48.564X7+14.174X8F2=-4.21+6.367X1+0.967X2-9.963X3-2.598X4+1.906X5-0.858X6-4.693X7-3.413X8F3=-3.587-1.347X1+0.867X2-5.821X3+1.607X4+11.699X5+0.957X6-3.358X7-4.033X8F4=-57.239-46.804X1-16.987X2+57.192X3+8.93X4+5.834X5+14.716X6+9.832X7+9.261X8判别函数用于对观测值分类,即将各观测值代入这四个判别函数中计算,哪一个判别函数值最大,就判为那一类。表4-7分类结果分类预测组成员合计1.002.003.004.00初始计数1.00200022.0001700173.00017084.0000044%1.00100.0.0.0.0100.02.00.0100.0.0.0100.03.00.012.587.5.0100.04.00.0.0.0100.0100.0交叉验证a计数1.00200022.0001700173.00017084.0000134%1.00100.0.0.0.0100.02.00.0100.0.0.0100.03.00.012.587.5.0100.04.00.0.025.075.0100.0注:a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b.已对初始分组案例中的96.8%个进行了正确分类。c.已对交叉验证分组案例中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论