主成分分析和因子分析在评价区域经济发展水平中的应用_第1页
主成分分析和因子分析在评价区域经济发展水平中的应用_第2页
主成分分析和因子分析在评价区域经济发展水平中的应用_第3页
主成分分析和因子分析在评价区域经济发展水平中的应用_第4页
主成分分析和因子分析在评价区域经济发展水平中的应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、年第期现代管理科学名家观察主成分分析和因子分析在评价区域经济发展水平中的应用贾万敬何建敏摘要:文章从主成分分析、因子分析的发展过程、基本原理、应用等方面出发来全面地介绍多元数据处理的主要方法。文章以江苏省各地市经济发展水平为例,根据江苏省各市年的国民经济主要统计指标,利用软件处理的结果来说明上述方法在评价江苏省各地市的经济发展水平中的应用。关键词:主成分分析;因子分析;区域经济一、引言我国是一个经济与社会发展水平,资源与环境禀赋情况在各区域间差异非常大的国家。自科学发展观提出以来,区域经济协调发展的研究得到了充分的重视。要制订出促进区域经济协调发展的有效政策,首先,必需对区域经济发展的水平做出

2、合理的评价,从中找出形成区域经济发展水平差异的关键因素。主成分分析和因子分析是多元统计中十分常用的两种方法,本文将着重介绍这两种方法的基本原理、数学模型以便从根本上揭示出这两种方法的区别。本文还将介绍主成分分析和因子分析的发展历程和应用领域。结合江苏省区域经济发展的现状,选取反映的,而协方差矩阵对劣点值相当敏感,为了增强主成分分析的稳健性,对协方差进行算法改进,从而提高主成分分析的稳健性。主成分综合评价应用中也存在很大争议,有的学者就提出了究竟应选取多少个主成分来对样本进行排序的问题。一般来说,主要有两种观点:一是只用第一主成分,英国统计学家肯德尔认为:第一主成分能够最大限度地反映样本间的差异

3、,是概括指标差异信息的最佳线性函数。因此,只能用第一主成分对样本综合排序。我国也有部分学者持这种观点,南开大学孟生旺老师从几何投影角度阐明,在多指标综合评价中,只有第一主成分结合原始数据的信息最多,因而也就只能以第一主成分值作为综合评价值才合理。另一种观点则认为,不仅要充分重视第一主成分,而且也要顾及其它主成分在综合评价中所起的作用,否则,损失的信息较多,有时甚至回歪曲样本间的实际相对地位。提出的改进办法是:先按累积方差贡献率不低于某个阀值(比如)的原则确定前几个主成分,然后以每个主成分各自的贡献率为权数将选定主成分线性加权求和来综合评价样本的优劣。()主成分分析的原理。主成分分析是一种通过降

4、维技术把多个变量把多个变量化为少数几个主成分的统计分析分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线形组合。当原来年江苏省个地级市经济发展水平的个主要统计指标,运用因子分析方法对江苏省各地级市的经济发展的基本状况进行综合评价。二、分析方法简介统计推断的理论工作大多数都是基于总体为多元正态的假定,然而在高于一维的情况下,要说明一组样本来自多元正态总体是非常困难的,而且多个变量使用的测量单位也可能各不相同或者变量间的数值大小相差很大。因此,要对多元数据进行处理,通常将初始变量标准化。主成分分析。()主成分综合评价的产生和发展。主成分分析()的概念最早在年由皮尔逊

5、()首先引入,对非随机变量讨论,年数学家霍特林()把它推广到随机向量。和对主成分分析进行了较为系统地分析和阐述,而郭亚军教授系统地论述了综合评价的理论和方法,虽然目前还没有关于主成分综合评价方法的专著,但很多专家学者对其进行了探讨和研究。一些学者从不同的角度提出的稳健性问题,对此进行了研究,并且提出了各自的改进算法。有学者提出了独立主成分分析()的概念,引入非线性算法。也有学者从如何去除或减弱有限的样本集中少量“劣点”样本的影响从而获得准确主方向。常用的主成分分析是从样本协方差矩阵来计算个变量的总变差能够由少数几个线形组合来概括的话,那么这些线形组合中包含的信息与原来个变量几乎一样多,可以用这

6、些线形组合替代原来的个变量,这样会是观测数据从高维降到低维,简化了数据。主成分就是个变量,的一些特殊线形组合,这些线形组合把,构成的坐标系旋转产生新的坐标系,在新坐标系中提供了协差阵的简洁表示。以(,)表示标准化的原变量,(,)表示主成分,(,;,)表示组合系数,主成分分析的模型为:名家观察现代管理科学年第期主成分分析一般不是目的,而()主成分分析的应用。是研究的某个中间环节,通过这一处理来发现重要的变量和变量间的某种关系。在因子分析法中,通常用主成分分析法来确定公共因子。当,表示个指标时该模型为型模型,当,表示个样品时该模型为型模型。式中:(,)是可测个指标构成的维随机向量;(,)是不可观测

7、的向量,称为的公共因子;称为因子载荷,它是第个变量在第个公共因子上的负荷,矩阵称为因子载荷矩阵;称为的特殊因中包括了随机误差。因子分析可以分解为确定因子载子,荷、因子旋转及计算因子得分三个步骤。系数阵是初始因子载荷阵,因子载荷的统计意义就是第个变量与第个公共因子之间的相关系数。估计主轴因子法、最小二有多种方法,如主成分分析法、乘法、极大似然法、因子提取法等。其中主成分法应用最为广泛,因子分析与主成分分析并没有原理上的实质联系,主要是外观的联系。因为用主成分法得到初始载荷阵因子分析。()因子分析方法的产生和发展。因子分析()方法最早是在年由斯皮尔曼(对智)和皮尔逊()在一篇著名论文力测验得分进行

8、统计分析中提出,之后被用于解决心理学和教育学方面的问题。由于这种方法计算量大,到了世纪年代得益于计算机的应用才有新的发展。型因子分析认为变量中存在一些不可观测的共同因素同时对原始变量产生影响,需要通过一定的方法提取“重要”的公重要性”取决于因子对变量的影响程度,用二者共因子;“之间的相关系数(因子载荷)表示。根据变量与各因子的紧密”程度,把原始变量归结到各因子中,通过这些“精“炼”的因子认识复杂现象。因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系。()因子分析的原理。因子分析是假定个变量的变异主要是一些共同的因子引起的,希望用少数几个公共因子来解释变量中的主要变化。由于样本

9、内含样品和指标的两维性,因子分析分为型和型,前者是基于指标的分析,而后者是基于样品的分析。因子分析的数学模型(正交因子模型)为:(,),是的特征根对应的单位特征向量,它也是主成分分析系数阵第个系数向量,所以第列系数向量与第行系数向量仅相差倍数。用主成分法确定因子载荷的方法比较简单,但是这种方法所得到的特殊因子,之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所引起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。由于满足上述模型的系数阵不唯一,这成为因子载荷阵旋转的理论依据。一般情况下,初

10、始因子载荷阵中各变量对因子的系数没有靠近两极数值“和“,说明各变量在每个因子”上“分量”差不多,各因子并不“偏向”某些变量,这样很难提炼公共因子的意义,因此要旋转,改变它的坐标系,使变量“偏向”不同的因子,并根据系数绝对值对变量归类指标人均表年江苏省各市国民经济主要统计指标高新技术第二产第三产第三产城镇固定地方财政规模以规模以上社会消费消费品总收入(亿元)上工业工业利税品零售总零售总增加值(亿元)总额(亿元)额(亿元)额增长率()增长率产业产业产值业产值业产值资产投资值(亿元)(亿元)(亿元)增长率(亿元)(元人)()()城市南京无锡徐州常州苏州南通连云港淮安盐城扬州镇江泰州宿迁年第期命名,最

11、常用的旋转方法是最大方差正交旋转。现代管理科学名家观察验目的是确定所要求的数据是否取自多元正态分布的总体,若差异检验的值显著,表示所取的数据来自正态分布总体,可以做进一步分析;检验目的是分析观测变量之间的简单相关系数和偏相关系数的相对大小来确定该数据是否适合进行因子分析,取值变化在之间,若过小,说明变量之间的相关不能被其他变量解释,进行因子分析不适合。通过软件计算得到以上数据的检验的值等于,表明所取的数据来自正态分布的总体;检验值为,因此适合做因子分析。本文使用对数据进行因子分析,采用主成分法提取特征值大于的主成分作为公共因子,得到方差最大正交旋转后的因子载荷矩阵、特征值、贡献率和累计贡献率。

12、特征值大于的前两个公因子的累计贡献率已达到,可见提取个因子后,它们反映了原始变量的大部分信息。从旋转后的因子载荷矩阵可以得到个原始变量与这个因子之间的表达式如下:近年来,随着现代高速电子计算()因子分析的应用。机的出现,人们将因子分析的理论成功地应用于心理学、社会学、经济学、人口学、地质学,甚至在化学和物理学中也得到成功地运用,这使得因子分析的理论和方法更加丰富。三、实证研究本文选取年江苏省各地级市的个国民经济主要统计指标(资料来源:江苏省统计局,),相关数据见表。利用统计软件对表的数据进行处理,在因子分析的过程中使用主成分法提取公共因子。(注:表示原始变量,表示标准化后的变量)表因子旋转后的

13、载荷矩阵、特征值贡献率和累计贡献率变量()人均增长率高新技术产值第二产业产值第三产业产值第三产业产值增长率城市固定资产投资地方财政总收入规模以上工业增加值规模以上利税总额社会消费品零售总额社会消费品零售总额增长率特征值贡献率()累计贡献率()城市南京无锡徐州常州苏州南通连云港淮安盐城扬州镇江泰州宿迁因子得分综合因子得分综合排名从表可以看出,第一主因子在规模以上工业利税总额、地方财政总收入、第二产业产值、第三产业产值等指标上具有较大的载荷,这些指标均反映了地区的经济总量,因此可以将第一主因子命名为“经济总量因子”而第二主。因子在第三产业产值增长率上具有较大的载荷,这是反映经济增长速度的指标,因此可以将第二主因子命名为“经济增长速度因子”从表三的综合因子的分的数值来看,得。分值大的三个地区为苏州、南京、无锡,它们的综合因子得分值大于,可见这三个地区的经济发展水平居于前列,明显好于其它地区的经济发展状况。而位于苏北地区的宿迁、淮安、连云港三个地区,其综合因子得分的分值很低,说明它们的经济发展水平与苏州、南京、无锡三个地区相比要落后很多,属于经济欠发达地区,其它地区的经济发展处于居中水平。参考文献:表因子得分及综合排名,?,():,叶其孝,沈永欢应用数学手

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论