多元统计分析小论文.pdf_第1页
多元统计分析小论文.pdf_第2页
多元统计分析小论文.pdf_第3页
多元统计分析小论文.pdf_第4页
多元统计分析小论文.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用多元分析应用多元分析课程设计课程设计论文 题目 江苏省题目 江苏省区县区县竞争力的竞争力的 主成分分析主成分分析 学号1140102013911401020102 姓名周洁何韩吉 贡献50 50 成绩 指导教师苏理云邱世芳颜青 日期 江苏省区县竞争力的主成分分析江苏省区县竞争力的主成分分析 摘要 摘要 本文以主成分分析为主要研究方法本文以主成分分析为主要研究方法 从江苏省统计局网站得到江从江苏省统计局网站得到江 苏省苏省 20152015 年年 4242 个区县的统计数据个区县的统计数据 通过通过 1313 项综合评价指标项综合评价指标 对对 4 42 2 个区县的竞争力进行计算和比较 运用个区县的竞争力进行计算和比较 运用 R R 语言 对上述语言 对上述 1313 个指标进个指标进 行标准化处理行标准化处理 通过累积方差贡献率和碎石图以及载荷系数分析得通过累积方差贡献率和碎石图以及载荷系数分析得到到 3 3 个主成分个主成分 然后根据三个主成分方程求出主成分得分然后根据三个主成分方程求出主成分得分 并结合主成并结合主成 分权数进行综合计算得到各区县的综合得分分权数进行综合计算得到各区县的综合得分 根据各区县的综合得分根据各区县的综合得分 水平水平 并分析各区县的相对优势并分析各区县的相对优势 薄弱环节及其差异导致因素薄弱环节及其差异导致因素 并提并提 出加快发展出加快发展 提高核心竞争力的建议提高核心竞争力的建议 而且对地区竞争力发展排名有而且对地区竞争力发展排名有 助于企业投资 政府改革和规划 助于企业投资 政府改革和规划 最终最终 我们通过以上方法我们通过以上方法 并且应用系统聚类法进行分析并且应用系统聚类法进行分析 分析分析 其实际性其实际性 并得出聚类树状图并得出聚类树状图 从图中直观分析判断从图中直观分析判断 得出此竞争力得出此竞争力 排名是合理的 有效的 排名是合理的 有效的 关键词 主成分分析关键词 主成分分析R R 语言语言聚类分析聚类分析 系统聚类法系统聚类法 一 引言一 引言 2016 年 11 月份 江苏省省委书记李强在全省推动长江经济带建 设工作座谈会上指出 正在谋划把长江沿江城市作为一个大的板块 打造扬子江城市群 促进沿江地区发展能级的整体提升 使之成为未 来江苏几个城市协同发展最主要的增长极 省党代会报告提出 以 长江两岸高铁环线和过江通道为纽带 推进沿江城市集群发展 融合 发展 也就是把我省的沿江城市作为一个大的板块 打造扬子江城市 群 促进沿江地区发展能级的整体提升 使之成为未来江苏最主要的 增长极 扬子江城市群的战略构想意义十分重大 一是有利于更好发 挥国家重大战略的效应 一带一路 长江经济带和长三角区域发 展一体化等战略在我省交汇叠加 有必要通过扬子江城市群的建设 把省内的力量聚合起来 形成一个整体参与到国家重大战略的实施 中 发挥出更大的战略效应 二是有利于优化全省区域发展格局 我 省发展存在南北梯度差距 多年来形成了三大板块和四沿经济带 3 4 的发展格局 三是有利于推进新型城镇化 比如苏南国家自 主创新示范区建设 中国制造 2025 苏南城市群试验试点都是以城市 群为单位进行布局的 建设扬子江城市群有利于加快释放这些试验试 点的外溢效应 使扬子江城市群成为集聚创新势能的聚能环 在新一轮发展机遇期面前 作为长三角核心区的江苏省要力求 在城市融合发展上求突破 有助于推动长江经济带发展以及实现长三 角成为世界级城市群的宏伟目标 对此 我们将对江苏省 42 个县级市县 选取 2015 年的多方面数 据 包括了国民生产总值 人均纯收入 财政预算收入 图书馆藏量 年金融机构储蓄总量 地区常住人口等 13 个重要指标 这些指标可 以从经济 文教 政治等多方面展现地区发展的实际情况 我们将采 用 R 语言对所有数据进行主成分分析 采用主成分分析得分来对地区 进行排名 另外 我们还采用聚类分析 得出排名 最终使用权重方 法综合考虑两种方法的计算结果给出一个综合评价标准和地区竞争 力评价体系 二 主成分分析基本原理二 主成分分析基本原理 一 概念 在统计学中 主成分分析 principal components analysis PCA 是一种简化数据集的技术 它是一个线性变换 这个变换把数据变换 到一个新的坐标系统中 使得任何数据投影的第一大方差在第一个坐 标 称为第一主成分 上 第二大方差在第二个坐标 第二主成分 上 依次类推 主成分分析经常用减少数据集的维数 同时保持数据集的 对方差贡献最大的特征 这是通过保留低阶主成分 忽略高阶主成分 做到的 这样低阶成分往往能够保留住数据的最重要方面 二 思路 在做数据分析时 涉及的变量往往很多 这会给问题的分析带来 复杂性 而变这些量之间通常存在着一定程度的 有时甚至是相当高 的相关性 用较少新变量代替较多原始变量 可以使问题的分析简单 化 三 原理 假定有 n 个样本 每个样本有 p 个变量 构成一个 n p 阶的数据 矩阵 X npnnXXX 21 2P2221 1P1211 XX X XX X 记原变量指标为 PXXX 21 设降维处理后的综合指标 即设 21pXXXX 是一个 p 维随机变量 记 XVXE 新变量为 21pmYYYm 则 pnpmmm pp pp XaXaXaY XaXaXaY XaXaXaY 2211 22221212 12121111 得到的第一主成分 第二主成分 第 i 主成分 使他们的方差尽可 能大 四 基本结论 1 主成分向量的协方差矩阵 YV 即iiYV pi 2 1 且pYYY 21互不相关 2 主成分的总方差 p i ii p i i 11 或者 p i i p i iXVYV 11 由此可以看出 主成分分析把p个原始变量pXXX 21的总方差 tr重新分解成了p个互不相关的mYYY 21 的方差之和 p i i 1 这种 新分解最大限度地使得在总方差的份额分配上越是靠前的主成分越 能得到尽可能多的照顾 以致前面少数几个主成分往往在总方差中占 有相当大的份额 从而有利于变量的降维 3 主成分的贡献率 总方差中属于第i主成分iY的比例为 p i i i 1 称为主成分iY的贡献率 第一主成分iY的贡献率最大 表明它解释原 始变量pXXX 21的能力最强 而mYYY 21 的解释能力依次递减 主 成分分析的目的就是为了减少变量的个数 因而一般是不是使用所有 p个主成分的 忽略一些带有较小方差的主成分将不会给总方差带来 大的影响 前m个主成分的贡献率之和 p i i i m i 1 1 称为主成分mYYY 21 的累计贡献率 它表明mYYY 21 解释pXXX 21 的能力 通常取相对于p较小的m 使得累计贡献率达到一个较高的 百分比 如 80 90 此时 mYYY 21 可用来代替pXXX 21 从 而达到降维的目的 而信息的损失却不多 4 原始变量iX与主成分kY之间的相关系数 piYtYtYtXpipiii 2 1 2211 所以 kikkkikkitYYtCovYXCov pki 2 1 5 m个主成分对原始变量的贡献率 上面的累计贡献率度量了m个主成分从原始变量pXXX 21提取 的信息的多少 而iX与mYYY 21 的复相关系数m 12 i 它是iX的方 差可由mYYY 21 联合解释的比例 称之为m个主成分mYYY 21 对原始 变量iX的贡献率 m 11 222 m 1i k m k iiikkki tyx p 11 2 2 1 k p k iiikkki tyx 6 原始变量对主成分的影响 ppkkkkXaXaXaY 2211 称ikt为第k个主成分kY在第i个原始变量iX上的载荷 它反映了iX对kY 的重要程度 五 重要应用 主成分分析在变量降维方面扮演者重要的角色 是进行多变量综 合评价的有力工具从图可知 途中变量和成分间的关系1x和2x是沿着 一定轨迹分布的数据 单独选择1x或2x都会丧失较多的原始信息 作 正交 垂直 旋转 得到新的坐标轴1y和2y 旋转后数据主要是沿着 1y方向散布 在2y方向的离散程度很低 另外 1y和2y是相互垂直的 表明他们互不相关 即使只是单独提取变量1y而放弃变量2y 丧失的 信息也是微小的 通常把1y称为第一主成分 2y称为第二主成分 主 成分的关键是要寻找一组相互正交的向量 原变量乘上该组正交的变 量后能得到新变量组 如果这两个变量分别由横轴和纵轴表示 每个观测值都有对英语 这两个坐标轴的两个坐标值 也就是这个二维坐标系中的一个点 如 果这些数据点形成一个有椭圆形轮廓的点阵 那么这个椭圆就有一个 长轴和短轴 在短轴方向上 数据变化较小 如果两个坐标轴和椭圆 的长短轴平行 那么代表长轴的变量就描述了数据的主要变化 而代 表短轴的变量就藐视了数据的次要变化 但是 坐标轴通常并不和椭圆的长短轴平行 因此 需要寻找椭 圆的长短轴 并进行变换 使得新变量和椭圆的长短轴平行 如果长 轴代表了数据包含的大部分信息 就用该变量代替原先的两个变量 舍去次要的短轴变量 降维就完成了 在极端的情况下 即端走 如果退化成一点 呢么只有长轴变量才能解释这些点的变化 这样 由二维到一维的降维就自然完成了 图即为一个这样的椭圆示意图 椭圆的长短轴相差得越大 降维也就越有道理 以1x和2x表示途中的横轴和纵轴 将1x和2x同时按逆时针方向旋 转 度 得到新的坐标轴1y和2y 1y和2y是两个新变量 其旋转公式 为 212 211 cossin sincos xxy xxy 新变量1y和2y是旧变量1x和2x的线性组合 其矩阵形式为 xU x x y y 2 1 2 1 cossin sincos 其中 U为旋转变换矩阵 它是正交矩阵 即IUU 多维变量的情况和二维类似 也有高维的椭球 只不过无法直接观看 罢了 首先 把高维椭球的各个主轴找出来 再用代表大多数数据信 息的最长的几个轴作为新变量 这样 主成分分析也就基本完成了 注意 和二维情况类似 高维椭球的主轴也是相互垂直的 这些互相 正交的新变量是原始变量的线性组合 即主成分 三 聚类分析三 聚类分析 一 基本原则 聚类分析的基本原则是将有较大相似性的对象归为同一类 而将 差异较大的个体归入不同的类 常用的聚类分析方法是 系统聚类法 快速聚类法 模糊聚类法 二 基本介绍 在确定了距离和相似系数后就要进行分类 分类最常用的方法是 在样品距离的基础上定义类与类之间的距离 首先将n各样品分成n 类 每个样品自称一类 然后每次将具有最小距离的两类合并 合并 后重新计算类与类之间的距离 这个过程一直持续到将所有的样品归 为一类为止 并把这个过程画成一张聚类图 参照聚类图克方便地进 行分类 因为聚类图很像一张系统图 所以这种方法叫作系统聚类法 三 类与类之间的距离 1 最短距离法 类与类之间的距离等于两类最近样品间的距离 2 最长距离法 类与类之间的距离等于两类最远样品间的距离 3 类平均法 类与类之间的距离等于各类元素两两之间的平方距 离的平均 4 重心法 类与类之间的距离定义为对应这两类中心之间的距 离 对样品分类来说 每一类的类重心就是该类样品的均值 5 中间距离法 最长距离夸大了类间的距离 最短距离低估了类 间的距离 介于两者间的距离法即为中间距离法 类与类之间的距离 既不采用两类之间最近距离 也不采用最远距离 而是采用介于最远 和最近之间的距离 6 离差平方和法 基于方差分析的思想 如果类分得正确 同类 样品之间的离差平方和应当较小 类与类之间的离差平方和应当应当 较大 四 主成分分析步骤四 主成分分析步骤 一 数据处理 对经济数据进行对数处理 二 根据相关举着判断研究对象是否符合主成分分析方法 三 根据相关矩阵求其特征值和特征向量 四 计算方差贡献率与 累积方差贡献率 五 画主成分的碎石图 六 根据 4 和 5 确定主成分个数 使得累计贡献率不低于 80 七 用原始变量的线性组合来计算主成分得分 以各主成分对 原始向量的载荷矩阵为权 将各主成分表示为原始变量的线性组合 而主成分的经济意义则由线性组合中权数较大的指标的综合意义来 确定 即 pipiiiXaaaY 21 mi 2 1 八 综合得分 以各主成分的方差贡献率为权 将其线性组合 得到综合评价函数 m mmYYY F 21 2211 九 得分排序 利用总得分可以得到得分名次 十 根据得分进行初步分析 十一 应用聚类分析方法进行对数据的感性认识 五 主成分分析的注意事项五 主成分分析的注意事项 主成分分析除了用来概述变量间的关系外 亦可用来削减回归分 析或聚类分析中变量的数目 此外 为了达到最大变异的目的 我们 可用主成分分析将原来的变量转变为成分 在抽出成分后 可将各变 量的原始分数转变为成分分数 以供进一步深入的统计分析 通常 在进行主成分分析时 应注意以下五点 一 主成分分析 可使用样本协差阵或相关系数矩阵为出发点 来进行分析 但大都以相关系数矩阵为主 二 为使方差达到最大 通常主成分分析是不加以转轴的 三 成分的保留 Kaiser 1960 主张放弃特征值小于 1 的成 分 而只保留特征值大于 1 的成分 四 在实际研究里 研究者如果用不超过三个或五个成分就能 解释变异的 80 就算令人满意 五 使用成分得分后 会使各变量的方差为最大 而且各变量 之间会彼此独立正交 六 实证分析六 实证分析 一 数据选取 为了使评价体系更加全面 我们从经济 文化 交通 人口等四 个方面选取了 13 个指标作为评价体系 同时我们也选取了江苏省 42 个县级行政单位 2015 年的最新数据为研究样本 对其进行主成分分 析 具体指标如表 6 1 1 核心竞争力指标选取表 变量含义 1X 地区生产总值 2X 年末长住人口 万人 3X 工业总产值 4X 公路客运量 人 5X 人均可支配收入 6X 专利申请授权量 件 7X 一般公共预算收入 8X 公共图书馆藏书量 千件 9X 社会消费品零售总额 亿元 10X 固定资产投资 11X 农林牧副渔总产值 12X 从业人员 13X 年末金融存款余额机构存款 表 6 1 1 二 主成分分析具体步骤 1 第一步 我们选择用 R 语言对数据进行处理 先将数据导入进程序中并且 做好分析前的各项准备 以下是数据导入进 R 语言以及赋值的具体过程 x read csv C Users df Desktop jiangsuaaa csv district x district x1 x x1 将数据赋于变量 x2 x x2 x3 x x3 x4 x x4 x5 x x5 x6 x x6 x7 x x7 x8 x x8 x9 x x9 x10 x x10 x11 x x11 x12 x x12 x13 x x13 x cbind x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 将 13 个变量进行列合并 并存入 x 所得 R 运行部分结果如下表 6 2 1 x1x2x3x4 x11x12x13 1 2880 86 163 68 5744 96433 89 0399 76 2954 56 2 1285 66 125 33 2779 18603 89 2274 491821 7 3 370 3394 72616 91533 137 1356 36297 36 4 605 84 111 47 1521 09884 161 8666 67378 88 5 451 89 102 28 922 791038 146 3160 11329 98 6 507 6390 91 1599 25884 128 1654 31265 82 7 731 71 143 54 2225 1857 205 4277 63411 79 8 738 1576 09 1212 73 1022 85 8549 42866 37 9 2044 88 151 01 3612 54 3792 76 2104 72 2418 4 10 2229 82 125 31 4485 74 3595 59 3277 39 2372 21 11 3080 01 165 12 8270 97 4076 52 37116 08 3062 6 12 1100 08 70 95 1993 08 2178 70 1345 83 1269 17 35 475 834 21 1255 91388 23 5321 58471 92 36 468 559 13 1361 19688 70 3739 04473 28 37 667 4125 5 1558 69 2192 164 376 12580 79 38 748 3268 69 2002 83 1375 36 3841 59823 68 39 740 77 107 72 2589 51971 83 4765 37754 29 40 630 13154 3 1319 01 1665 160 6990 22394 83 41 362 2483 7584 281096 98 8149 13263 26 42 361 3288 9720 782026 114 0352 33250 02 表 6 2 1 2 第二步 求出数据变量之间是否存在一定程度的相关性 以检验是否适合 进行主成分分析 corrx cor x 主成分分析 求出 x 的相关系数 R 运行部分结果如下表 6 2 2 所示 x1x2x3 x11x12x13 x11 00000 70090 9618 0 24280 77240 9742 x20 70091 00000 4989 0 37620 97740 6422 x30 96180 49891 0000 0 21870 65470 9035 x11 0 24280 3762 0 2187 1 00000 4412 0 2080 x120 77240 98620 6547 0 44121 00000 6484 x130 97420 64220 9035 0 20800 64841 0000 表 6 2 2 由上图可知 除114LnXLnX 与其他变量存在较小相关系数 相关 系数 0 5 外 其他变量之间的相关系数大于 0 5 接近于 1 因此 可判断这些变量之间存在信息重叠 使得变量的降维成为可能 因此 满足主成分分析的基本条件 3 第三步 进行主成分分析 得到特征值和特征向量 corrx cor x 主成分分析 求出 x 的相关系数 evigen eigen corrx 计算 corrx 的特征值和特征向量 部分结果如下表 6 3 3 表 6 3 3 1 所示 特征值如下 1 2 3 4 5 6 7 值9 53841 80940 75110 30210 17880 17430 0907 8 9 10 11 12 13 值0 05230 04030 03040 01680 00830 0070 表 6 3 3 第一 二 三主成分得分如下 1 2 3 1 2 3 1 0 3201 0 0314 0 0741 8 0 2873 0 1107 0 3093 2 0 24110 47070 0689 9 0 31170 0317 0 1414 3 0 3108 0 0472 0 0708 10 0 28230 1312 0 3848 4 0 2169 0 0375 0 8197 11 0 06970 6915 0 0207 5 0 2786 0 2749 0 1342 12 0 26500 40120 0901 6 0 2907 0 1445 0 0838 13 0 3160 0 0836 0 1202 7 0 3152 0 0281 0 0331 表 6 3 3 1 从以上程序的运行结构可以看到 相关系数矩阵的特征值从大到 小分别为 0 0070 0 00820 01670 03040 04020 05230 0907 0 17430 17880 30210 75111 80949 5384 13 1110987 654321 12 我们知道特征值在某种程度上可以看成表示主成分影响力大小 的指标 如果特征值小于 1 说明该主成分的解释力度还不如直接引 入原变量的平均解释力度大 因此一般我们会采用特征值大于 1 作为 纳入标准 由上计算可知 我们选取前两个作为主成分 但是 大量的实际情况表面 如果根据累积贡献率来确定主成分 数往往较多 而用特征值来确定又往往较少 很多时候应当将两者结 合起来 以综合确定合适的数量 所以接下来我们将结算累积贡献率 4 第四步 直接根据 R 程序得到 standard deviation 特征根开方 proportion of variance 主成分贡献率 cumulative proportion 累积贡献率 test pr princomp lnx cor TRUE cor是 逻 辑 变 量 当 cor TRUE 表示用样本的相关矩阵 R 来做主成分分析 当 cor FALSE 表示用样本的协方差阵 S 来做主成分分析 summary test pr loadings TRUE R 运行结果如下表 6 3 4 所示 Importance of components Comp 1Comp 2Comp 3Comp 4Comp 5 Standard deviation 2 95271 48400 90570 64490 5610 Proportion of Variance 0 67070 16940 06310 03200 0242 Cumulative Proportion 0 67070 84010 90320 93520 9594 Comp 6Comp 7Comp 8Comp 9Comp 10 Standard deviation 0 43990 31650 30790 25640 1973 Proportion of Variance 0 01490 00770 00730 00510 0030 Cumulative Proportion 0 97430 98200 98920 99430 9973 Comp 11Comp 12 Comp 13 Standard deviation 0 13160 10990 0754 表 6 3 4 一般来说 提取主成分的贡献率达到 85 以上就比较满意了 所 以从上图可知 第一个 第二个和第三个特征值的累计贡献率达到了 90 32 各自的方差贡献率为 67 07 16 94 和 6 31 我们结合上 一布根据特征值法选出的主成分个数 我们最终确定主成分个数为 3 个 R 运行主成分载荷矩阵表 6 3 4 1 如下 Loadings Comp 1Comp 2Comp 3 Comp 4Comp 5Comp 6Comp 7 lnx1 0 3360 lnx2 0 2390 0 46000 3590 0 1730 lnx3 0 32100 3240 0 2370 lnx4 0 1600 0 9540 0 177 lnx5 0 2840 0 3290 0 401 lnx6 0 2470 0 2770 0 727 0 420 299 lnx7 0 32000 16400 11100 29100 8320 lnx8 0 2880 0 11700 5990 0 4660 0 1080 0 2650 Proportion of Variance 0 00130 00090 0004 Cumulative Proportion 0 99860 99961 0000 lnx9 0 32500 1500 0 1100 0 1680 0 27600 1010 lnx10 0 30600 1130 0 1320 0 5760 0 2120 0 1410 lnx11 0 6200 0 1950 0 1960 0 3330 0 46800 1850 lnx12 0 2590 0 41400 2830 0 187 lnx13 0 3260 0 2500 0 194 表 6 3 4 1 5 第五步 除了以上两种确定主成分的方法 下面我们将用更加直观的图形 来说明主成分选择的合理性 我们用 R 语言来做出碎石图帮助进一步 确定主成分的选择 screeplot test pr type lines 画出主成分的碎石图 R 运行主成分碎石图结果如下图 6 3 5 所示 图 6 3 5 由碎石图可以明显看出 第三个主成分之后 斜率变大慢慢趋向 于 0 直观来看从陡峭慢慢趋于平稳 因此选择前三个主成分是没有 问题的 是合理的选择 6 第六步 对选取的三个主成分就行必要的解释和说明 因所求得是相关矩 阵 是对 lnx 进行标准化后的 由表 6 3 3 1 可知 前三个主成分分别为 13 121110987 6543211 ln32 0 ln72 0ln70 0ln28 0ln13 0ln92 0ln32 0 ln29 0ln28 0ln22 0ln13 0ln42 0ln23 0 X XXXXXX XXXXXXY 13 121110987 6543212 ln08 0 ln40 0ln09 0ln13 0ln03 0ln11 0ln03 0 ln14 0ln27 0ln04 0ln05 0ln47 0ln03 0 X XXXXXX XXXXXXY 13 121110987 6543213 ln12 0 ln09 0ln02 0ln38 0ln14 0ln30 0ln03 0 ln08 0ln13 0ln82 0ln07 0ln07 0ln07 0 X XXXXXX XXXXXXY 结果分析 由主成分载荷矩阵 表 可以看出 主成分1Y在1X 地 区生产总值 3X 工业总产值 7X 一般公共预算收入 9X 社会消费品零售总额 亿元 10X 固定资产投资 13X 年末 金融存款余额机构存款 上有较大的载荷 可以视为经济影响主成分 经济基础决定上层建筑 一切的发展都是奠定了物质基础之上 所以 经济影响占比较大也是很有道理的 2Y在2X 年末长住人口 万人 6X 专利申请授权量 件 8X 公共图书馆藏书量 千件 11X 农林牧副渔总产值 12X 从业人员 这 5 个变量上的载荷较 大 可视为社会文化主成分 科学技术作为第一生产力 对经济的推 动有着很大的作用 并且在对外吸引力方面有着极强的竞争力 3Y在 4X 公路客运量 人 上有 95 4 的载荷 可以视为交通影响主成 分 这个主成分可以看出地区的区位条件和地区的吸引力两个方面 主要还是看出地区的区位条件 对外的通达度 有了各主成分的解释 结合各个市县在三个主成分上的得分和综合得分 就可以对市县的竞 争力进行评价了 7 第七步 计算主成分得分 主成分得分计算公式如下 m mmYYY F 21 2211 9032 0 0631 01694 06707 0 0631 01694 06707 0 0631 01694 06707 0321321YYYYYY 3210699 01875 07426 0YYY R 运行主成分得分表结果如下 Comp 1Comp 2Comp 3综合得分 25 2 9386 1 2464 0 18002 1193 20 2 8052 0 6246 0 02112 1169 24 3 0260 2 15410 14232 0725 22 2 8992 2 06980 06461 9803 19 2 37890 29790 06561 9242 28 1 97271 48160 38091 8005 3 2 01500 96760 10881 7401 42 1 80290 49691 22881 5720 21 1 91120 08700 71621 5643 26 1 79380 46680 41011 5095 41 1 86190 02170 42241 4974 27 1 82840 14680 51611 4955 23 1 9647 0 59040 31471 4802 31 1 86890 0240 0 21261 4638 5 1 50621 29430 57201 4165 18 1 43940 56410 33941 2403 29 1 5915 0 52410 08141 1814 6 1 30770 8694 0 18351 1495 33 1 26930 0358 0 16030 9961 35 1 7607 3 1446 0 63070 8789 32 1 4517 1 8115 0 62070 8351 36 1 3166 1 4961 0 37910 7908 4 0 60151 8538 0 17640 7404 30 0 47412 0192 0 99400 6139 37 0 00861 85301 20800 3453 40 0 18582 83550 70900 3214 7 0 23733 3428 0 41780 2867 8 0 2531 0 7252 0 35440 0691 14 0 19790 6943 0 8203 0 1032 38 0 0350 1 8848 0 0160 0 2552 13 0 2966 0 1197 0 6598 0 2927 15 0 65460 6185 0 6328 0 4629 39 0 7687 0 00950 3964 0 5828 16 1 11650 7431 0 3474 0 7907 17 0 9348 0 1886 0 9088 0 8216 34 1 1475 0 5089 0 5972 1 0179 12 1 9345 1 96170 5741 1 7828 2 3 05720 1138 1 4549 2 4836 9 7 0091 0 05752 1932 5 3983 10 6 9297 1 39891 3749 5 5871 1 8 39070 4734 3 2180 6 7443 11 11 2050 0 78511 1666 8 8789 表 6 3 7 由上表我们可知 在经济因素方面 经济发达地区值较小 与一 般地区差距较大 所以我们选择了逆向排序的方法 最终得分值越小 说明其竞争力越大 通过这样的方法我们得到了以下的竞争力排名 表 竞争力排名表如下 排名 编号城市排名 编号城市排名 编号城市 1 11 昆 山 市15 8 溧 阳 市29 31 宝 应 县 2 1 江 阴 市16 7 邳 州 市30 23 盱 眙 县 3 10 张家港市17 40 沭 阳 县31 27 阜 宁 县 4 9 常 熟 市18 37 兴 化 市32 41 泗 阳 县 5 2 宜 兴 市19 30 东 台 市33 26 滨 海 县 6 12 太 仓 市20 4 沛县34 21 涟 水 县 7 34 丹 阳 市21 36 句 容 市35 42 泗 洪 县 8 17 海 门 市22 32 仪 征 市36 3 丰县 9 16 如 皋 市23 35 扬 中 市37 28 射 阳 县 10 39 泰 兴 市24 33 高 邮 市38 19 灌 云 县 11 15 启 东 市25 6 新 沂 市39 22 洪 泽 县 12 13 海 安 县26 29 建 湖 县40 24 金 湖 县 13 38 靖 江 市27 18 东 海 县41 20 灌 南 县 14 14 如 东 县28 5 睢 宁 县42 25 响 水 县 表 6 3 7 1 8 与聚类分析相比较 聚类分析法是研究 物以类聚 的一种现代统计分析方法 聚类 分析的目的是把分类对象按一定规则分成若干类 这些类不是事先设 定的 二是根据数据的特征决定的 在同一类中这些对象在某种意义 上趋向于彼此相似 而在不同类中对象趋向于不相似 在这里 我们将所有数据再进行聚类分析 具体用了系统聚类法 中的离差平方和法 下面是系统聚类发的基本步骤 1 计算 n 个样品两两间的距离 ij d 记作 D 2 构造 n 个类 每个类只包含一个样品 3 合并距离最近的两类为一个新类 4 计算新类与当前各类的距离 若类个数为 1 转到步骤 5 否则回到步骤 3 5 画聚类图 6 决定类的个数和类 因此 相应的聚类分析 R 程序如下 a read csv C Users df Desktop jiangsujulei csv head er T Z scale a hc hclust dist Z ward plot hc rect hclust hc 3 cutree hc 3 聚类分析竞争力排名表 排名编号城市排名编号城市排名编号城市 1 9 常 熟 市15 34 丹 阳 市29 5 睢 宁 县 2 10 张家港市16 35 扬 中 市30 28 射 阳 县 3 1 江 阴 市17 32 仪 征 市31 18 东 海 县 4 11 昆 山 市18 36 句 容 市32 3 丰县 5 12 太 仓 市19 22 洪 泽 县33 19 灌 云 县 6 39 泰 兴 市20 24 金 湖 县34 42 泗 洪 县 7 8 溧 阳 市21 20 灌 南 县35 21 涟 水 县 8 38 靖 江 市22 25 响 水 县36 41 泗 阳 县 9 2 宜 兴 市23 37 兴 化 市37 26 滨 海 县 10 14 如 东 县24 40 沭 阳 县38 23 盱 眙 县 11 15 启 东 市25 7 邳 州 市39 27 阜 宁 县 12 13 海 安 县26 30 东 台 市40 29 建 湖 县 13 17 海 门 市27 4 沛县41 31 宝 应 县 14 16 如 皋 市28 6 新 沂 市42 33 高 邮 市 表 6 3 8 通过两者的比较 我们发现在排名前列的地区 排名只是稍稍发 生了点变化 变化率不是很大 但是 14 名之后的地区排名发生了较 大的变化 其中 有一点原因是由于两种方法的评判标准具有一点差 异性 主成分分析法过多的是直接进行比较 通过数值的分析得出个 地区的最终得分 而聚类分析法确实通过数据的微小变化而在其中寻 找同类 因此我们也发现了具有相同性质的地区排名较为集中在一段 之内 但是 我们依然可以看出主成分分析法经济因素对最终的排名 产生了较大的影响 而聚类分析法就没有这么明显的体现 也缺乏了 一些特点 使得更加注重共性 让排名不具合理性 总而言之 通过 两种方法的比较 我们更倾向于使用主成分分析法 更具代表性 七 结论分析七 结论分析 一 结论 地区比较 由表 6 3 7 1 我们对其进行了分块如下表 6 3 7 2 我们将苏南 的地区标注黄色 将苏中地区标注灰色 将苏北地区标注白色 这样 我们从颜色的变化很容易的看出 地区发展的不平衡 苏南地区基本 在排名表的前列 特别是苏东南地区占据了排行榜的前 7 位 由于苏 东南地区开发较早 现在已经进入了工业转型的后期 不管是经济发 展水平 人民生活水平 科教文卫水平 生态环境水平均处于江苏省 县级地区发展的首位 而苏西南地区的溧阳市 句容市 以及临近苏 中的扬中市均是近几年才快速发展的地区 苏西南地区地处丘陵地 带 此前交通位置不便 发展一直滞后 但是随着近几年来交通基础 设施的建设 交通劣势已渐渐淡化 随之而来的旅游开发 给苏西南地区带来了新的活力 同时 沿 江高铁以及连淮扬镇高铁 京沪二线高铁的建设 给三地都带来了难 得的发展机遇 处于发展第二方针的苏中地区集中在榜单的 8 14 名 这些地区 大都属于南通市以及泰州市的沿江地区 20 世纪初的沿江开发让这 些地区抓住了机遇 迎头赶上 位于南通的六个县级行政单位 海门 市 如皋市 泰兴市 启东市 海安县 如东县 均是经济强市 更 有一句话 中国教育看江苏 江苏教育看南通 南通六个地区的 教育发展水平常年保持江苏省第一 这也是其竞争力紧随苏南地区之 后的力量源泉 也就是人才的储备已经走在了同类地区的前列 同属 沿江地区的泰兴 靖江 仪征则是抓住历史发展机遇期 目前紧跟一 带一路的号召 开拓创新 而兴化 高邮 宝应地区俗称 高宝兴 地区 位于里下河流域 水网密布 随着兴化 110 亿 高邮邮城 宝 应湿地旅游等项目的建设 以及连淮扬镇高铁的建设 区位优势会进 一步优化 其竞争力必将得到极大的提高 就目前而言 苏中地区依 然是江苏省发展的推进器 地区发展水平在全国也是领先位置 处于发展第三方阵的苏北地区集中在榜单的 25 42 名 相对于前 两个阵营 苏北地区一直是政策的盲区 但是广大的土地 众多的人 口 丰富的资源是它发展的动力源泉 正在建设的连徐高铁一线 邳 州市 沭阳市和新沂市都是人口 150 万左右的地区 同时也位于交通 枢纽位置 因此在排名上比较靠前 而东台市却是因为优越的自然环 境 广大的土地 是一般县级市的 2 3 倍 沛县则是因为近几年来 旅游开发力度的增强 提高了其知名度和城建水平 也吸引了许多人 而剩下的环洪泽湖以及沿海组团 受困于区位因素 竞争力一直不强 但是随着宁淮城际铁路的规划实施 洪泽湖沿岸迎来了新的发展机遇 期 要致富先修路 将时间距离缩短 让

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论