




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海电力学院上海电力学院 应用多元统计分析应用多元统计分析 判别分析与聚类分析判别分析与聚类分析 学院 姓名 学号 2016 年 4 月 我国部分城市经济发展水平的聚类分析我国部分城市经济发展水平的聚类分析 和判别分析和判别分析 摘要 摘要 本文基于 中国统计年鉴 2012 年版 统计数据 寻找评价城市经济 发展水平的指标 包括第二三产业发展水平 固定投资额 社会消费零售总额 和进出口贸易交流五个指标 利用统计软件 SPSS 综合考虑各指标 对所选城 市进行 K Means 聚类分析 利用 Fisher 线性判别待判城市类型 进一步验证 所建模型的有效性 关键字 关键字 聚类分析 判别分析 SPSS 城市经济发展水平 1 引言 引言 经过改革开放后三十多年的长足进展 中国城市化已步入中期阶段 步伐 加快 质量显著提高 同时 中国城市化又处于周期转折点上 上一周期行将 结束 下一周期将要开始 2011 年中国城市化率首次突破 50 意味着中国城 镇人口首次超过农村人口 中国城市化进入关键发展阶段 这必将引起深刻的 社会变革 根据 2011 年 4 月公布的第六次人口普查数据 2010 年中国居住城镇的人口 接近 6 6 亿人 城镇化率达到 49 68 全国已有近一半的人口居住在城镇 这 意味着中国将进入城镇时代 在过去 30 多年中 中国的城市化发展取得了很大 成绩 然而 总体上中国的城市化道路是城市化滞后于工业化的非均衡道路 是土地城市化快于人口城市化的非规整道路 是以抑制农村 农业 农民的经 济利益来支持城市发展 导致不能兼顾效率和公平的非协调道路 是片面追求 城市发展的数量和规模 而以生态环境损失为代价的非持续道路 是以生产要 素的高投入 而不是投入少 产值高 依靠科技拉动经济增长的非集约道路 传统的城市化存在着诸多弊端 中国未来的城市化必须走出一条具有自身特色 的新型城市化道路 具体而言 中国城市经济发展水平受限于地理 环境 资源以及国家政策 等因素的影响 我国不同区域的城市化进程尚存在很大差异 2012 年中国城市 发展报告中指出 从区域角度看 目前沿海一带城市发展起步早 与国际贸易 交流往来频率高 经济发展水平较高 西部地区受到国家政策的大力扶持 表 现出了强劲的增长势头 西部主要城市经济发展水平仅次于沿海发达地区 而 中部地区城市发展的水平已经落到了最后 显然 通过研究不同城市的经济发 展状况和经济类型 指出其发展差异所在 可以为政府在出台相关政策来平衡 区域经济发展 缩小不同地区人民生活水平的差异提供一定的指导意见 也为 我们深刻理解国家相关政策提供了扎实的基础 2 相关统计基础理论 相关统计基础理论 2 1 聚类分析 聚类分析 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类 的分析过程 聚类分析的目标就是在相似的基础上收集数据来分类 从统计学 的观点看 聚类分析是通过数据建模简化数据的一种方法 传统的统计聚类分 析方法包括系统聚类法 分解法 加入法 动态聚类法 有序样品聚类 有重 叠聚类和模糊聚类等 采用 k 均值 k 中心点等算法的聚类分析工具已被加入 到许多著名的统计分析软件包中 如 SPSS SAS 等 本文使用统计软件 SPSS 对所收集的数据进行快速聚类 其特点是 在确 定类别数量基础上 先给定一个粗糙的初始分类 然后按照某种原则进行反复 修改 直至分类较为合理 在选定类中心作为凝聚点的基础上进行分类和修正 的方法有很多 本文使用的是 K Means 算法 K Means 算法接受输入量 k 然后将 n 个数据对象划分为 k 个聚类以便 使得所获得的聚类满足 同一聚类中的对象相似度较高 而不同聚类中的对象 相似度较小 聚类相似度是利用各聚类中对象的均值所获得一个 中心对象 引力中心 来进行计算的 K Means 算法的工作过程说明如下 首先从 n 个数据对象任意选择 k 个 对象作为初始聚类中心 而对于所剩下其它对象 则根据它们与这些聚类中心 的相似度 距离 分别将它们分配给与其最相似的 聚类中心所代表的 聚类 然后再计算每个所获新聚类的聚类中心 该聚类中所有对象的均值 不断重复 这一过程直到标准测度函数开始收敛为止 一般都采用均方差作为标准测度函 数 一般而言 k 个聚类具有以下特点 各聚类本身尽可能的紧凑 而各聚类 之间尽可能的分开 2 2 判别分析 判别分析 判别分析是市场研究的重要分析技术 也是多变量分析技术 它可以就一 定数量的个体的一个分类变量和相应的其它多元变量的已知信息 确定分类变 量与其它多元变量之间的数量关系 建立判别函数 并利用判别函数构建 Biplot 二元判别图 概念图 同时 利用这一数量关系对其他已知多元变量的 信息 但未知分组的子类型的个体进行判别分组 判别分析属于监督类分析方 法 例如 市场细分研究中 常涉及判别个体所属类型的问题 也常涉及不同 品牌在一组产品属性之间的消费者偏好和认知概念 判别分析可以很好地对这 种差异进行鉴别 并在低维度空间表现这种差异 判别分析主要有距离判别 贝叶斯 Bayes 判别 费舍尔 Fisher 判别 等几种常用方法 距离判别的基本原理是 首先对样本到总体 G 之间的距离进行合理规定 然后依照 就近 原则判定样本的归属 常用马氏距离 Mahalanobis 规定 为 21 x x x dGuu 式中为 p 元总体 G 的协方差阵 x 是取自 G 的样品 则该式即为样品 x 到总体 G 的马氏距离 贝叶斯判别既考虑了先验分布产生的影响 也考虑到误判损失产生的影响 是衡量一个判别优劣的比较合理的准则 费舍尔判别的基本思想与主成分分析十分相似 当总体是高维向量时 先 把其综合成一个一维变量 然后在对一维变量进行距离判别 费舍尔判别实际 上是一种降维处理 降维压缩后 样品 y 到各个总体的距离可以用欧式距离 j G 度量 即 2 22 jiij 1 y G a x a u m j i dyu 由此导出 Fisher 判别规则为 则 2 2 jj 1 y G min y G j k dd l xG 本文及使用 Fisher 判别建立线性判别函数进行距离判别 3 模型建立 模型建立 3 1 设置变量设置变量 本文综合考虑了评价城市发展指数衡量因素 选取衡量一个城市经济发展 水平的主要因素 城市化进程总是伴随着工业化发展 发达的服务业水平是衡 量现代新兴城市的主要指标 此外 综合考虑了固定资产投资总额与社会消费 品零售总额以及货物进出口总额作为类别分析的主要经济指标 X1 城市第二产业产值 亿元 X2 城市第三产业产值 亿元 X3 城市固定资产投资总额 亿元 X4 城市社会消费品零售总额 亿元 X5 货物进出口总额 亿元 从区域发展角度从上面 5 个经济指标将城市经济发展水平划分为三大类 G1 发达城市 G2 中度发达城市 G3 欠发达城市 3 2 数据收集和整理数据收集和整理 本文所有数据来源于 中国统计年鉴 2012 选取 2011 年度 36 个城市 主要经济发展水平做模型建立及分析 其中前 32 个城市相关经济指标水平作为 初始样本用于划分类别 建立类别总体 G 最后四个城市 杭州 南宁 昆明 银川 及其相关经济发展水平用作待判样品 利用判别函数进行判别分析 所 有相关数据经过量纲统一规则化处理见表 1 所示 表 1 我国部分城市相关经济发展水平 2011 年 序号城市 第二产业 亿元 第三产业 亿元 固定资产投资 总额 亿元 社会消费品零售 总额 亿元 货物进出口总 额 亿元 1 北 京 3752 512363 25851 52016900 324623374 9884 2 天 津 5928 35219 27483 69733395 066203 4642 3 石 家 庄 2031 91635 83026 97781662 9864850 1112 4 太 原 949 21097 11024 1444973 2937513 6306 5 呼和浩特 790 01277 81031 6781890 0478121 4736 6 沈 阳 3026 92609 84577 0942426 8655637 215 7 大 连 3204 22550 74580 05851924 7943630 5874 8 长 春 2092 71620 22356 61891515 85371040 9322 9 哈 尔 滨 1647 22147 83011 9712070 4129307 0548 10 上 海 7927 911142 95064 26246814 826246 151 11 南 京 2760 83220 43757 25172697 09973440 6358 12 宁 波 3349 52454 52385 50722018 86175891 2092 13 合 肥 2002 21426 23376 96521111 11881207 719 14 福 州 1711 21700 12720 28271947 81022083 4856 15 厦 门 1297 11217 51128 0872800 27794210 0002 16 南 昌 1579 3974 72022 3297928 3438473 0226 17 济 南 1829 02339 51934 33892114 2868624 123 18 青 岛 3150 73158 53502 53822302 37034329 1302 19 郑 州 2874 21974 03002 51987 1147959 7354 20 武 汉 3254 03309 54255 16213031 78851367 3748 21 长 沙 3151 72224 33510 24252201 6112449 3604 22 广 州 4577 07641 93412 252436970 26 23 深 圳 5343 36155 72136 38823520 873624845 982 24 海 口 177 9487 7395 0408387 1804236 1756 25 重 庆 5543 03623 87579 44543487 8071753 0716 26 成 都 3143 83383 44944 01572861 28352274 3798 27 贵 阳 586 8733 71600 5898584 3292392 9796 28 拉 萨75 2137 2220 5031102 594878 4452 29 西 安 1697 21993 93352 121965 9774754 74 30 兰 州 656 5663 5950 5758639 7231112 7658 31 西 宁 411 3332 0528 0052271 287348 9378 32 乌鲁木齐 759 1908 9427 6221695 0278541 7904 33 杭 州 3323 83458 53100 02182548 35993838 308 34 南 宁 829 61076 31950 86281073 1541150 6252 35 昆 明 1161 21214 62275 52861271 7298721 3224 36 银 川 525 2414 4720 5627274 470572 6 4 数据结果及分析 数据结果及分析 4 1 聚类分析聚类分析 4 1 1 聚类分析过程聚类分析过程 采用统计软件 SPSS 可以快速方便的将样本分类 K 均值聚类 将样本分 为设定好的三类 分类结果如下 1 K 均值聚类初始聚类中心 初始聚类中心初始聚类中心 聚类 123 第二产业 亿元 7928592875 第三产业 亿元 111435219137 固定资产投资总额 亿元 5064 262400000 001 7483 697300000 001 220 5031000000 00 社会消费品零售总额 亿元 6814 80003395 0600102 5948 货物进出口总额 亿元 26246 15100000 0000 6203 464200000 000 78 44520000000 0 2 样本聚类 聚类成员聚类成员 案例号城市聚类距离案例号城市聚类距离 1 北 京 13937 772 17 济 南 3 1347 154 2 天 津 24379 850 18 青 岛 2 1710 043 3 石 家 庄 31259 026 19 郑 州 3 1969 261 4 太 原 31214 063 20 武 汉 2 2771 834 5 呼和浩特 31414 697 21 长 沙 3 2607 583 6 沈 阳 33452 674 22 广 州 2 5518 235 7 大 连 21842 873 23 深 圳 1 4887 376 8 长 春 3837 811 24 海 口 3 2474 750 9 哈 尔 滨 31584 291 25 重 庆 2 4072 601 10 上 海 13214 673 26 成 都 2 1942 910 11 南 京 21681 205 27 贵 阳 3 1402 620 12 宁 波 23455 979 28 拉 萨 3 2918 190 13 合 肥 31536 881 29 西 安 3 1652 625 14 福 州 31682 563 30 兰 州 3 1767 334 15 厦 门 33577 169 31 西 宁 3 2433 503 16 南 昌 3617 367 32 乌鲁木齐 3 1898 368 3 最终聚类中心 最终聚类中心最终聚类中心 聚类 123 第二产业 亿元 567538791467 第三产业 亿元 988738401375 固定资产投资总额 亿元 4350 723566666 668 4655 541788888 890 2009 884360000 000 社会消费品零售总额 亿元 5745 33272995 78501263 8072 货物进出口总额 亿元 24822 37380000 0000 3984 457000000 000 782 1849000000 00 最终聚类中心间的距离最终聚类中心间的距离 聚类 123 121946 79726337 272 221946 7975669 843 326337 2725669 843 4 聚类方差分析 方差分析方差分析 聚类误差 均方 df 均方 df FSig 第二产业 亿元 34313207 73521231856 4792927 855 000 第三产业 亿元 100446019 01321811059 4072955 463 000 固定资产投资总额 亿元 24862358 67322205819 3762911 271 000 社会消费品零售总额 亿元 30454986 0502887338 5312934 322 000 货物进出口总额 亿元 753836973 38321848036 99229407 912 000 F 检验应仅用于描述性目的 因为选中的聚类将被用来最大化不同聚类中的案例间的差别 观测到的显著性水平并未 据此进行更正 因此无法将其解释为是对聚类均值相等这一假设的检验 4 1 2 聚类结果分析聚类结果分析 从上述聚类分析过程可知 样本完全有效 32 个个体被分成三大类 G1 发达城市 北京 上海 深圳 G2 中度发达城市 天津 大连 南京 宁波 青岛 武汉 广州 重 庆 程度 G3 欠发达城市 石家庄 太原 呼和浩特 沈阳 长春 哈尔滨 合 肥 福州 厦门 南昌 济南 郑州 长沙 海口 贵阳 拉萨 西安 兰州 西宁 乌鲁木齐 从城市分类结果可知 北上深作为国际化城市发展代表 其经济发展水平 远超其他沿海城市及内陆城市 沿海开放城市以及内陆主要枢纽城市的发展水 平高于其他城市 中部地区级西部城市发展水平受限于地理 资源和资本等因 素 经济发展表现不强劲 从最后的方差分析中可知 分类检验水平显著 分 类结果值得借鉴 4 2 判别分析判别分析 4 2 1 判别结果及分析判别结果及分析 一般来讲 利用判别分析首先要明确变量测量尺度及变量的类型和关系 因变量 dependent variable 分组变量 定性数据 个体 产品 品牌 特 征 定类变量 自变量 independent variable 判别变量 定量数据 属性 的评价得分 数量型变量 1 判别图 图 1 典则判别函数 从图中很明显 看到三个组中心也就是经济发展水平 以及围绕着组中心 的样本 说明直观上分组判别式完全可以接受的 2 典型判别式函数摘要 特征值特征值 函数特征值方差的 累积 正则相关性 137 790a98 098 0 987 2 765a2 0100 0 658 a 分析中使用了前 2 个典型判别式函数 WilksWilks 的的 LambdaLambda 函数检验Wilks 的 Lambda 卡方 dfSig 1 到 2 015114 10610 000 2 56715 3364 004 标准化的典型判别式函数系数标准化的典型判别式函数系数 函数 12 第二产业 亿元 974 940 第三产业 亿元 1 198 773 固定资产投资总额 亿元 752 211 社会消费品零售总额 亿元 1 190 675 货物进出口总额 亿元 1 409 314 结构矩阵结构矩阵 函数 12 货物进出口总额 亿元 863 090 第二产业 亿元 184 920 固定资产投资总额 亿元 076 857 社会消费品零售总额 亿元 231 675 第三产业 亿元 308 567 判别变量和标准化典型判别式函数之间的汇聚组间相 关性 按函数内相关性的绝对大小排序的变量 每个变量和任意判别式函数间最大的绝对相关性 从表中我们看到 因为分组变量是三类 所以我们得到两个判别函数 其 中第一判别函数解释了数据的 98 第二判别函数解释了 2 两个判别函数 解释了 100 当然 两个判别函数直接具有显著的差异和判别力 3 分类统计量 组的先验概率组的先验概率 用于分析的案例类别先验 未加权的已加权的 1 33333 000 2 33399 000 3 3332020 000 合计 1 0003232 000 分类函数系数分类函数系数 类别 123 第二产业 亿元 019 001 001 第三产业 亿元 021 004 003 固定资产投资总额 亿元 011 002 001 社会消费品零售总额 亿元 030 006 004 货物进出口总额 亿元 022 003 001 常量 231 519 12 269 2 727 Fisher 的线性判别式函数 Fisher 线性判别函数 我们主要用来构建判别方程 理论上说 如果我们 知道某个城市在 5 经济指标的发展水平值 我们就可以估计出该城市应该是哪 种类型的 4 2 2 判别检验判别检验 判别变量是数量型测量尺度变量 分析样本个数至少比判别变量多两个 我们为了得到判别函数 经常需要把样本随机分成训练样本和检验样本等工作 如本文最后四个 序号 33 36 个体就可作为检验样本 也成待判样本 由上表可知 Fisher 判别方程 112345 212345 312345 0 0190 0210 0110 0300 022231 519 0 0010 0040 0020 0060 00312 269 0 0010 0030 0010 0040 0012 727 GXXXXX GXXXXX GXXXXX 判别规则 则 2 2 jj 1 y G min y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 考点攻克苏科版八年级物理下册《物质的物理属性》综合测评练习题(含答案详解)
- 护理纠纷的考试题及答案
- 平度初三中考试卷及答案
- 2025近五年初会考试真题及答案
- 烘焙工坊考试题及答案
- 2025换届考试真题及答案详解
- 广西安全员证题库考试试题及答案
- 四级考试第一套试卷及答案
- 彬县二年级考试试题及答案
- 2025年自考本科电力系统分析考试题及答案
- 高电位治疗课件
- 常见全身疾病的眼部表现
- 高校PPT课件:跨国公司经营与管理(第四版)
- 《公共事业管理概论》课件
- S001840D+SL基础维修与调整
- 2023年中国进出口银行招聘笔试题库及答案解析
- SB/T 10399-2005牦牛肉
- GB 2762-2005食品中污染物限量
- 停车场工程招投标书范本
- 陕西省中小学教师校本研修30问
- 网关防火墙tn-sg3000x800产品白皮书
评论
0/150
提交评论