




免费预览已结束,剩余15页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海电力学院应用多元统计分析判别分析与聚类分析学院: 姓名: 学号:2016年 4 月精品资料我国部分城市经济发展水平的聚类分析和判别分析摘要: 本文基于中国统计年鉴 (2012年版)统计数据,寻找评价城市经济发展水平的指标, 包括第二三产业发展水平、 固定投资额、 社会消费零售总额和进出口贸易交流五个指标,利用统计软件spss综合考虑各指标,对所选城市进行 k-means聚类分析,利用fisher线性判别待判城市类型,进一步验证所建模型的有效性。关键字: 聚类分析,判别分析,spss,城市经济发展水平1,引言经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段, 步伐加快,质量显著提高。 同时,中国城市化又处于周期转折点上,上一周期行将结束, 下一周期将要开始。 2011 年中国城市化率首次突破50,意味着中国城镇人口首次超过农村人口, 中国城市化进入关键发展阶段, 这必将引起深刻的社会变革。根据 2011 年 4 月公布的第六次人口普查数据, 2010 年中国居住城镇的人口接近 6.6 亿人,城镇化率达到49.68% ,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去30 多年中,中国的城市化发展取得了很大成绩。然而, 总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、 农业、农民的经济利益来支持城市发展, 导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模, 而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端, 中国未来的城市化必须走出一条具有自身特色的新型城市化道路。具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等 因素的影响,我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出, 从区域角度看, 目前沿海一带城市发展起步早,与国际贸易交流往来频率高, 经济发展水平较高, 西部地区受到国家政策的大力扶持,表现出了强劲的增长势头, 西部主要城市经济发展水平仅次于沿海发达地区,而中部地区城市发展的水平已经落到了最后。显然,通过研究不同城市的经济发展状况和经 济类型,指出其发展差异所在, 可以为政府在出台相关政策来平衡区域经济发展, 缩小不同地区人民生活水平的差异提供一定的指导意见,也为我们深刻理解国家相关政策提供了扎实的基础。2,相关统计基础理论2.1 ,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。 聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类 和模糊聚类等。 采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如spss 、sas 等。本文使用统计软件spss对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上, 先给定一个粗糙的初始分类, 然后按照某种原则进行反复修改,直至分类较为合理。 在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是k-means算法。k-means算法接受输入量 k;然后将 n 个数据对象划分为k 个聚类以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象 ”(引力中心)来进行计算的。k-means算法的工作过程说明如下: 首先从 n 个数据对象任意选择k 个对象作为初始聚类中心; 而对于所剩下其它对象, 则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 一般而言, k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2 ,判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。 它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数, 并利用判别函数构建biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中, 常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。 并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(bayes )判别、费舍尔( fisher )判别等几种常用方法。距离判别的基本原理是:首先对样本到总体g 之间的距离进行合理规定, 然后依照“就近”原则判定样本的归属,常用马氏距离( mahalanobis )规定为:2d(x, g)(xu) 1(xu)式中为 p 元总体 g 的协方差阵, x 是取自 g 的样品,则该式即为样品x到总体 g 的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响, 是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时, 先把其综合成一个一维变量, 然后在对一维变量进行距离判别,费舍尔判别实际上是j一种降维处理, 降维压缩后, 样品 y 到各个总体g * 的距离可以用欧式距离度量,即:jjd 2 (y,g* )| yu *|2miij(a xa u )2i 1由此导出 fisher 判别规则为:d 2 (y,g* )min d 2 (y,g * ) , 则xgj1 j kjl本文及使用 fisher 判别建立线性判别函数进行距离判别。3,模型建立3.1 设置变量本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素, 城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现代新兴城市的主要指标, 此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:x1 :城市第二产业产值(亿元) x2 :城市第三产业产值(亿元) x3 :城市固定资产投资总额(亿元)x4 :城市社会消费品零售总额(亿元) x5 :货物进出口总额(亿元)从区域发展角度从上面5 个经济指标将城市经济发展水平划分为三大类:g1 :发达城市g2 :中度发达城市g3 :欠发达城市3.2 数据收集和整理本文所有数据来源于中国统计年鉴(2012 ),选取 2011 年度 36 个城市主要经济发展水平做模型建立及分析。其中前32 个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体g;最后四个城市(杭州、南宁、昆明、银川)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1 所示。第二产业第三产业固定资产投资社会消费品零售货物进出口总序号城市(亿元)(亿元)总额(亿元)总额(亿元)额(亿元)12表 1 我国部分城市相关经济发展水平(2011 年)北京3752.512363.25851.52016900.324623374.9884天津5928.35219.27483.69733395.066203.46423石家庄2031.91635.83026.97781662.9864850.11124太原949.21097.11024.1444973.2937513.63065呼和浩特790.01277.81031.6781890.0478121.47366沈阳3026.92609.84577.0942426.8655637.2157大连3204.22550.74580.05851924.7943630.58748长春2092.71620.22356.61891515.85371040.93229哈尔滨1647.22147.83011.9712070.4129307.054810上海7927.911142.95064.26246814.826246.15111南京2760.83220.43757.25172697.09973440.635812宁波3349.52454.52385.50722018.86175891.209213合肥2002.21426.23376.96521111.11881207.71914福州1711.21700.12720.28271947.81022083.485615厦门1297.11217.51128.0872800.27794210.000216南昌1579.3974.72022.3297928.3438473.022617济南1829.02339.51934.33892114.2868624.12318青岛3150.73158.53502.53822302.37034329.130219郑州2874.21974.03002.51987.1147959.735420武汉3254.03309.54255.16213031.78851367.374821长沙3151.72224.33510.24252201.6112449.360422广州4577.07641.93412.252436970.2623深圳5343.36155.72136.38823520.873624845.98224海口177.9487.7395.0408387.1804236.175625重庆5543.03623.87579.44543487.8071753.071626成都3143.83383.44944.01572861.28352274.379827贵阳586.8733.71600.5898584.3292392.979628拉萨75.2137.2220.5031102.594878.445229西安1697.21993.93352.121965.9774754.7430兰州656.5663.5950.5758639.7231112.765831西宁411.3332.0528.0052271.287348.937832乌鲁木齐759.1908.9427.6221695.0278541.790433杭州3323.83458.53100.02182548.35993838.30834南宁829.61076.31950.86281073.1541150.625235昆明1161.21214.62275.52861271.7298721.322436银川525.2414.4720.5627274.470572.64,数据结果及分析4.1 聚类分析4.1.1 聚类分析过程采用统计软件 spss 可以快速方便的将样本分类, “k-均值聚类”将样本分为设定好的三类,分类结果如下:(1)k- 均值聚类初始聚类中心初始聚类中心聚类123第二产业(亿元)7928592875第三产业(亿元)1114352191375064.262400007483.69730000220.503100000固定资产投资总额(亿元)00010001000社会消费品零售总额(亿元)6814.80003395.0600102.5948262464642000078.4452000000货物进出口总额(亿元)00000000000(2)样本聚类聚类成员案例号城市聚类距离案例号城市聚类距离1北京13937.77217济南31347.1542天津24379.85018青岛21710.0433石 家 庄31259.02619郑州31969.2614太原31214.06320武汉22771.8345呼和浩特31414.69721长沙32607.5836沈阳33452.67422广州25518.2357大连21842.87323深圳14887.3768长春3837.81124海口32474.7509哈 尔 滨31584.29125重庆24072.60110上海13214.67326成都21942.910最终聚类中心间的距离11南京21681.20527贵阳31402.62012宁波23455.97928拉萨32918.19013合肥31536.88129西安31652.62514福州31682.56330兰州31767.33415厦门33577.16931西宁32433.50316南昌3617.36732乌鲁木齐31898.368(3)最终聚类中心最终聚类中心聚类123第二产业(亿元)567538791467第三产业(亿元)9887384013754350.723566664655.541788882009.88436000固定资产投资总额(亿元)666888900000社会消费品零售总额(亿元)5745.33272995.78501263.807224822.37380003984.45700000782.184900000货物进出口总额(亿元)000000000000聚类123121946.79726337.272221946.7975669.843326337.2725669.843(4)聚类方差分析方差分析聚类误差fsig.均方df均方df第二产业(亿元)34313207.73521231856.4792927.855.000第三产业(亿元)100446019.01321811059.4072955.463.000固定资产投资总额(亿元)24862358.67322205819.3762911.271.000社会消费品零售总额(亿元)30454986.0502887338.5312934.322.000货物进出口总额(亿元)753836973.38321848036.99229407.912.000f 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2 聚类结果分析从上述聚类分析过程可知,样本完全有效,32 个个体被分成三大类:g1 ( 发 达 城 市 ): 北 京 , 上 海 , 深 圳 。g2(中度发达城市):天津,大连,南京,宁波,青岛,武汉,广州,重庆,程度。g3(欠发达城市):石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,合肥, 福州,厦门,南昌,济南,郑州,长沙,海口,贵阳,拉萨,西安,兰州,西宁, 乌鲁木齐。从城市分类结果可知, 北上深作为国际化城市发展代表,其经济发展水平远超其他沿海城市及内陆城市; 沿海开放城市以及内陆主要枢纽城市的发展水平高于其他城市; 中部地区级西部城市发展水平受限于地理、资源和资本等因素, 经济发展表现不强劲。 从最后的方差分析中可知, 分类检验水平显著, 分类结果值得借鉴。4.2 判别分析4.2.1 判别结果及分析一般来讲, 利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量( dependent variable): 分组变量 定性数据(个体、产品 /品牌、特征, 定类变量)。自变量 (independent variable):判别变量 定量数据(属性的评价得分,数量型变量) 。(1) 判别图精品资料图 1 典则判别函数从图中很明显, 看到三个组中心也就是经济发展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。(2) 典型判别式函数摘要特征值函数特征值方差的%累积 %正则相关性137.790 a98.098.0.9872.765 a2.0100.0.658a. 分析中使用了前2 个典型判别式函数。wilks的 lambda函数检验wilks 的卡方dfsig.lambda1 到 2.015114.10610.000精品资料2.56715.3364.004标准化的典型判别式函数系数函数12第二产业(亿元)-.974.940第三产业(亿元)-1.198.773固定资产投资总额(亿元).752.211社会消费品零售总额(亿元)1.190-.675货物进出口总额(亿元)1.409-.314结构矩阵函数12货物进出口总额(亿元).863 *.090第二产业(亿元).184.920 *固定资产投资总额(亿元).076.857 *社会消费品零售总额(亿元).231.675 *第三产业(亿元).308.567 *判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性从表中我们看到, 因为分组变量是三类, 所以我们得到两个判别函数,其中第一判别函数解释了数据的98% ,第二判别函数解释了2% ;两个判别函数解释了 100% ;当然,两个判别函数直接具有显著的差异和判别力。(3) 分类统计量组的先验概率类别先验用于分析的案例未加权的已加权的1.33333.0002.33399.0003.3332020.000合计1.0003232.000分类函数系数类别123第二产业(亿元)-.019-.001-.001第三产业(亿元)-.021-.004-.003固定资产投资总额(亿元).011.002.001社会消费品零售总额(亿元).030.006.004货物进出口总额(亿元).022.003.001(常量)-231.519-12.269-2.727fisher的线性判别式函数fisher 线性判别函数, 我们主要用来构建判别方程,理论上说: 如果我们知道某个城市在 5 经济指标的发展水平值, 我们就可以估计出该城市应该是哪种类型的。4.2.2 判别检验判别变量是数量型测量尺度变量, 分析样本个数至少比判别变量多两个, 我们为了得到判别函数, 经常需要把样本随机分成训练样本和检验样本等工作, 如本文最后四个(序号 33-36 )个体就可作为检验样本,也成待判样本。由上表可知 fisher 判别方程:g10.019 x10.021x 20.011x 30.030 x 40.022 x 5231.519g20.001x 10.004 x 20.002 x 30.006 x 40.003 x 512.269g30.001x 10.003 x 20.001x 30.004 x 40.001x 52.727判别规则:d 2 (y,g* )min d 2 (y,g * ) , 则xgj1 j kjl判别结果:1杭州21583.3912南宁3842.7743昆明3401.5674银川32095.787直观上, 杭州作为沿海省会城
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三、带参数的过程教学设计-2023-2024学年小学信息技术(信息科技)六年级上册电子工业版(宁夏)
- Self-assessment说课稿-2025-2026学年高中英语沪教版2020选择性必修第二册-沪教版2020
- 第11课 三光感走轨迹的机器人说课稿-2025-2026学年初中信息技术川教版九年级下册-川教版2018
- 2025企业采购合同执行情况yMC
- 2025年大连市房屋租赁合同
- 九年级化学下册 第11单元 化学与社会发展 第1节 化学与能源开发说课稿 (新版)鲁教版
- 本册综合说课稿-2025-2026学年高中物理第二册沪科版(2020·上海专用)
- 云南省昆明市黄冈实验学校人教版高中数学必修三:1.2.2 条件语句-教学设计
- 2024秋八年级数学上册 第十一章 三角形11.2 与三角形有关的角 1三角形的内角-三角形的内角和说课稿(新版)新人教版
- 2025年电子产品出口贸易合同范本
- 中医面瘫护理个案汇报
- 《水基路用聚合物稳定碎石基层技术规程》
- 快递柜租赁合同
- 产品研发流程管理指南
- 《车刀与切削原理》课件
- 2024高考物理全国二卷
- 2024-2030年中国猎头公司市场发展前景调研及投资战略分析报告
- 注塑检验员培训
- 消防安全操作员培训合同范本
- 消防控制室操作规程培训
- 国庆节磨豆腐活动方案
评论
0/150
提交评论