主成分分析和因子分析在评价区域经济发展水平中的应用.doc_第1页
主成分分析和因子分析在评价区域经济发展水平中的应用.doc_第2页
主成分分析和因子分析在评价区域经济发展水平中的应用.doc_第3页
主成分分析和因子分析在评价区域经济发展水平中的应用.doc_第4页
主成分分析和因子分析在评价区域经济发展水平中的应用.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

!塑!至箜!塑!塑垡笪堡型兰主成分分析和因子分析曼鱼塞翌窒在评价区域经济发展水平中的应用贾万敬何建敏摘要:文章从主成分分析、因子分析的发展过程、基本原理应用等方面出发来全面地介绍多元数据处理的主要方法。文章以江苏省各地市经济发展水平为例,根据江苏省各市卑的国民经济主要统计指标,利用软件赴理的结果来说明上述方法在评价江苏省各地市的经济发展水平中的应用。关键词:主成分分析;因子分析;区域经济一、引言我国是一个经济与社会发展水平资源与环境禀赋情况在各区域间差异非常大的国家。自科学发展观提出以来,区域经济协调发展的研究得到了充分的重视。要制订出促进区域经济协调发展的有效政策,首先必需对区域经济发展的水平做出合理的评价。从中找出形成区域经济发展水平差异的关键因素。主成分分析和因子分析是多元统计中十分常用的两种方法,本文将着重介绍这两种方法的基本原理、数学模型以便从根本上揭示出这两种方法的区别。本文还将介绍主成分分析和因子分析的发展历程和应用领域。结台江苏省区域经济发展的现状,选取反映年江苏省个地级市经济发展水平的个主要统计指标。运用因子分析方法对江苏省辑地级市的经济发展的基本状况进行综合评价。二、分析方法简介统计推断的理论工作大多数都是基于总体为多元正态的假定,然而在高于一维的情况下,要说明一组样本来自多元正态总体是非常困难的,而且多个变量使用的测量单位也可能各不相同或者变量闻的数值大小相差很大。因此,要对多元数据进行处理,通常将初始变量标准化。主成分分析。()主成分综台评价的产生和发展。主成分分析( )的概念最早在年由皮尔逊( )首先引人对非随机变量讨论,年数学家霍特林()把它推广到随机向量。和 对主成分分析进行了较为系统地分析和阐述,而郭军教授系统地论述了综合评价的理论和方法,虽然目前还没有关于主成分综合评价方法的专著但很多专家学者对其进行了探讨和研究。一些学者不同的角度提出的稳健性问题,对此进行了研究,并且提出了各自的改进算法。有学者提出丁独立主成分分析()的概念,弓人非线性算法。也有学者从如何去除或减弱有限的样本集中少量“劣点”样本的影响从而获得准确主方向。常用的主成分分析是从样本协方差矩阵来计算的而协方差矩阵对劣点值相当敏感,为了增强主成分分析的稳健性,对协方差进行算法改进,从而提高主成分分析的稳健性。主成分综合评价应用中也存在很大争议,有的学者就提出了究竟应选取多少个主成分来对样本进行排序的问题。一般来说,主要有两种观点:一是只用第一主成分,英国统计学家肯德尔认为:第一主成分能够最大限度地反映样本间的差异是概括指标差异信息的晟佳线性函数。因此只能用第一主成分对样本综合排序。我国也有部分学者持这种观点南开大学盂生旺老师从几何投影角度阐明在多指标综合评价中,只有第一主成分结合原始数据的信息最多,因而也就只能以第一主成分值作为综合评价值才合理。另一种观点则认为,不仅要充分重视第一主成分而且也要顾及其它主成分在综台评价中所起的作用,否则损失的信息较多,有时甚至回歪曲样本间的实际相对地位。提出的改进办法是:先按累积方差贡献率不低于某个棚值(比如)的原则确定前几个主成分,然后以每个主成分各自的贡献率为权数将选定主成分线性加权求和来综合评价样本的优劣。()主成分分析的原理。主成分分析是一种通过降维技术把多个变量把多个变量化为少数几个主成分的统计分析分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线形组台。当原来个变量的总变差能够由少数几个线形组合来概括的话那么这些线形组合中包含的信息与原来个变量几乎一样多可以用这些线形组合替代原来的个变量,这样会是观测数据从高维降到低维,简化了数据。主成分就是个变量。:,的一些特殊线形组合,这些线形组合把,:,。构成的坐标系旋转产生新的坐标系,在新坐标系中提供了协差阵的简洁表示。以(,)表示标准化的原变量,(,)表示主成分,(江,;,)表示组合系数,主成分分析的模型为:汁冰磷。一!垒窒翌窒!塑垡笪翌型堂!堡翌!塑u65291X()主成分分析的应用。主成分分析一般不是目的,而足研究的某个巾间环节通过这一处理来发现重要的变量和变量间的某种关系。在网于分析法中,通常用主成分分析法来确定公共网子。因子分析。()呙子分析方法的产生和发展。因子分析()方法最早是在年由斯皮尔曼()和皮尔逊( )在一篇著名论文对智力测验得分进行统计分析中提出,之后被用于解决心理学和教育学方面的问题。由于这种方法计算量大,到了世纪年代得益于计算机的应用才有新的发展。型因子分析认为变量中存在一些不可观测的共同因素同时对原始变量产生影响需要通过一定的方法提取“重要”的公共因子;“重要性”取决于困子对变量的影响程度,用二者之间的相关系数(因子载荷)表示。根据变量与各因子的“紧密”程度,把原始变量归结到各因子中,通过这些“精炼”的因子认识复杂现象。因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系。()因子分析的原理。因子分析是假定个变量的变异主要是一些共同的因子引起的希望用少数几个公共因子来解释变量中的主要变化。由于样本内含样品和指标的两维性,因子分析分为型和型,前者足基于指标的分析,而后者是基于样品的分析。因子分析的数学模型(正交因子模型)为:是,口u8216X岛当,。表示个指标时该模型为型模型,当,:,。表示个样品时该模型为型模型。式中:(,。)是可测个指标构成的维随机向量;(,)是不可观测的向量,称为的公共因子;,称为因于载荷,它是第个变量在第个公共因子上的负荷矩阵称为因子载荷矩阵;称为的特殊因子中包括随机误差。因于分析可以分解为确定因子载荷、园子旋转及纠算因子得分三个步骤。系数阵帅是初始因子载荷阵,因子载荷,的统计意义就足第个变量与第个公共因子之间的相关系数。估计一有多种方法,如主成分分析法、主轴因子法、晟小二乘法、极大似然法、因子提取法等。其主成分法应用最为广泛,因子分析与主成分分析并没有原理上的实质联系主要是外观的联系。因为用主成分法得到初始载荷阵。(、。,、凡,一,、。),是的特征根凡。对应的单位特征向量,它也是主成分分析系数阵啪。第个系数向量,所以曲第列系数向量与一第行系数向量仅相差倍数。用主成分法确定因子载荷的方法比较简单,但是这种方法所得到的特殊因子。,岛,毛之间并不相互独立,因此用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所引起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。由于满足上述模型的系数阵帅不唯一,这成为因子载荷阵旋转的理论依据。一般情况下,初始因子载荷阵中各变量对因子的系数没有靠近两极数值和,说明各变量在每个因子上“分量”差不多。备因子并不“偏向”某些变量这样很难提炼公共困子的意义,因此要旋转咖。改变它的坐标系,使变量“偏向”不同的因子,并根据系数绝对值对变量归类袁年江苏省各市国民经济主要统计指标人均高新技术第二产第产第三产城镇固定地方财政规模以规模以上社会消费消费品增长率产业产业产值业产值 业产值资产投资总收入上工业工业利税品零售总零售总(元人)()值(亿元)(亿元)(亿元) 增长率(亿元)(亿元)增加值总额额(亿元)额增长()(亿元)(亿元)率(),】南京 无锡 徐州 常州 苏州 南通 “连云港 淮安 。盐城 扬州 镇江 泰州 宿迁, 一!:至笙!塑!型垡篁堡登堂!墨量塑堑命名,最常爿的旋转方法是最大方差正交旋转。()因子分析的应用。近年来随着现代高速电子计算机的出现,人们将因子分析的理论成功地应用于心理学、社会学、经济学、人口学、地质学,甚至在化学和物理学中也得到成功地运用这使得因子分析的理论和方法更加丰富。三、实证研究本文选取年江封、省各地级市的个国民经济主要统计指标(资料来源:江苏省统计局,),相关数据见袁。利用统计软件对表的数据进行处理,在因子分析的过程中使用主成分法提取公共因子。(注:,表示原始变量,表示标准化后的变量)表因子旋转后的栽荷矩阵、特征值贡献率和累计贡献率验目的是确定所要求的数据是否取白多元正态分布的总体,若差异检验的值显著,表示所取的数据来自正态分布总体可以做进一步分析;检验目的是分析观测变量之间的简单相关系数和偏相关系数的相对大小来确定该数据是否适台进行因子分析取值变化在之间,若过小说明变量之间的榴天小能被其他变量解释进行网子分析不适台。通过软件计算得到以上数据的检验的值等于表明所取的数据来自正态分布的总体;检验值为。因此适合做因子分析。本文使用 对数据进行因子分析,采用主成分法提取特征值大于的主成分作为公共因子,得到方差最大正交旋转后的因子载荷矩阵、特征值、贡献率和累计贡变量(:)第一主因子第二主因子献率。特征值大于的前两个公因子的累计贡献率已达到人均增率高新技术产值第二产业产值第三产业产值第三产业产值增长率一城市固定资产投资地方财政总收人规模以上工业增加值规模以上利税总额社会消费品零售总额 ()。可见提取个因子后,它们反映了原始变量的大部分信息。从旋转后的因子载荷矩阵可咀得到个原始变量与这个因子之间的表达式如下:广 一从表可以看出,第一主因子在规模以上工业利税总额、地方财政总收入、第二产业产值、第三产业产值等指标上具有较大的载荷,这些指标均反映地区的经济总量,因此可以将第一主因子命名为“经济总量因子”。而第二主社会消费品零售总额增妊率特征值【贡献率()累计贡献率()表因子得分及综合排名因子在第三产业产值增长率上具有较大的载荷这是反映经济增长速度的指标因此可以将第二主因子命名为“经济增长速度因子”。从表三的综合因子的分的数值来看,得分值大的三个地区为苏州、南京、无锡,它们的综合网子得分值大于可见这三个地区的经济发展水平居于前列,明显好于其它地区的经济发展状况。而位于苏北地区的宿城市因子得分综合因综合排名迁、淮安、连云港三个地区,其综合园子得分的分值很低,子得分说明它们的经济发展水平与苏州、南京、无锡三个地区相南京 无锡 徐州】 常州 苏州 “ 南通 一 连云港 淮安 】盐城 扬州一 镇江一 泰州一 宿迁一 因子分析要求原始变量之间有比较强的相关性,如果原始变量之间不存在较强的相关关系那么就无法从中综合出共同特征的少数因子来。因此,在作因子分析时。需要对原始变量做相关分析。数据处理系统提供和检验来判断变量是否适合做因子分析:检比要落后很多,属于经济欠发达地区,其它地腻的经济发展处于居中水平。参考文献: , ,( ):, , ,叶其孝,沈永欢应用数学手册(第版)北京:科学出版社,重点项目:江苏区域经济协调发展水平剥度与促进政策研究项目()。作者简介:何建敏,东南大学经济管理学院教授、博士生导师;贾万教,东南大学经济管理学院管理科学与工程硕士生。收稿日期:一主成分分析和因子分析在评价区域经济发展水平中的应用作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:参考文献(3条)贾万敬,何建敏东南大学经济管理学院现代管理科学MODERN MANAGEMENT SCIENCE2007(9)4次1.Jean Boivin.Serena Ng Are more data always better for factor analysis? 2006(132)2.Congde Lu.Chunmei Zhang.Taiyi Zhang.Wei Zhang Kernel based symmetrical principal componentanalysis for face 20063.叶其孝.沈永欢 应用数学手册 2006引证文献(4条)1.王凯全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论