基于因子分析-聚类分析-典型分析-对湖南省2006-2014年县域经济的实证.doc_第1页
基于因子分析-聚类分析-典型分析-对湖南省2006-2014年县域经济的实证.doc_第2页
基于因子分析-聚类分析-典型分析-对湖南省2006-2014年县域经济的实证.doc_第3页
基于因子分析-聚类分析-典型分析-对湖南省2006-2014年县域经济的实证.doc_第4页
基于因子分析-聚类分析-典型分析-对湖南省2006-2014年县域经济的实证.doc_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程名称: 数据分析实验 题 目: 基于因子分析、聚类分析、典型分析 对湖南省06-14年县域经济的实证 2016年1月15日中文摘要摘 要县域经济作为国民经济的基本单元,处于承上启下、连接城乡的关键地位。湖南省依山傍湖,土地肥沃,物产丰富,是我国的经济大省,综合经济实力处于全国领先地位。然而,由于历史、区位、政策、人文环境差异等原因,导致湖南省县域经济发展不平衡。因而,科学地评价县域经济,研究县域间的经济差异对湖南省的持续发展有重要的现实意义。本文综合考虑湖南省省情分别从经济发展水平、农业发展水平、工业发展水平和发展潜力四个传统角度以及经济总量、人均均量、经济运行质量三方向选取了评价指标。在实证分析中,选取湖南省统计年鉴2006年到2014年的统计数据,应用因子分析、聚类分析和典型相关分析方法,建立数学模型,并运用SPSS统计软件对数据进行处理,获得湖南省各县域的经济综合实力排名情况。最后,结合实际情况根据综合实力排名结果将县域水平及其分布情况分湖南东部和湖南中西部两大区域,对两大区域的发展提出相应的对策建议。关键词:湖南省;县域经济;数学模型;因子分析;聚类分析;典型分析IV英文摘要ABSTRACTCounty economy as the basic unit of the national economy, in the nexus, connecting urban and rural areas a key position. Hunan Province near the mountain lakes, fertile land, rich products, is Chinas major economic province, the comprehensive economic strength in the leading position. However, due to historical, geographical, policy, human environmental differences and other reasons, resulting in Hunan Province, the countys economic development is uneven. Thus, the scientific evaluation of the county economy, the county economic differences between the study of the sustainable development of Hunan Province has important practical significance.In this paper, considering the situation in Hunan Province, respectively, from the level of economic development, the level of agricultural development, the level and development potential of the four traditional industrial development point of view as well as the total economy, both the amount per capita, economic operation quality evaluation in three directions chosen. In the empirical analysis, choose Hunan Statistical Yearbook 2006 to 2014 statistics, factor analysis, cluster analysis and canonical correlation analysis, mathematical models, and the use of SPSS statistical software for data processing, obtained Hunan Counties province comprehensive economic strength rankings.Finally, with the actual situation according to the results of the comprehensive strength ranks the county level and distribution of the two sub-regions in eastern and western Hunan Hunan, the corresponding countermeasures and suggestions for the development of the two regions.Keywords: Hunan; county economy; mathematical model; factor analysis; cluster analysis; typical analysis目录目 录1绪论11.1研究背景11.1.1湖南省概况11.1.2县域经济的内涵21.1.3研究县域经济的必要性21.1.4研究现状21.2研究的目的及意义41.2.1研究的目的41.2.2研究的意义41.3研究的基本内容52因子分析的数学模型62.1因子分析的基本概念62.1.1因子分析的基本思想62.1.2因子分析的数学模型62.1.3因子的特点72.1.4因子分析相关概念解释及意义72.2因子分析的分析步骤83聚类分析数学模型103.1聚类分析的基本思想103.2聚类分析的数学模型103.3聚类分析的分析步骤134典型相关分析数学模型144.1典型相关分析的基本概念144.2典型相关分析的数学模型144.3典型相关分析步骤155样本的选择和指标体系的建立165.1样本的选择165.2选择指标的原则165.3指标体系的建立175.4数据的获取196基于因子分析对湖南省县域经济的实证206.1湖南省2009年县域经济的实证206.2详细案例湖南省武陵源区经济实力变化的分析286.2.1武陵源区的概况286.2.2武陵源区排名变化分析296.2.3对武陵源区今后发展的建议327基于聚类分析对湖南省2009年县域经济的实证358基于典型相关分析对湖南省县域经济的实证379湖南省的县域经济评价分析及对策409.1湖南省县域经济实力综合评价409.2湖南省县域经济差异分析409.2.1历史原因419.2.2区位原因419.2.3人文环境原因419.2.4政策原因419.2.5人力资本原因429.3湖南县域经济差异的对策分析429.3.1湖南东部经济发展策略429.3.2湖南中西部经济发展策略43结 论45致 谢47参考文献48附 录50数据分析课程项目1 绪论1.1 研究背景1.1.1 湖南省概况湖南省地处长江中游以南,从所处地理环境上看,湖南省的东南西三面均被群山环绕,北边的开口毗邻长江,南边紧靠着粤港澳,东边与江西相连,西边紧挨着重庆和贵州,承东启西,联南接北,起到了将东部沿海省与西部内陆各省的相连接的桥梁作用,经济有十分明显的区位优势,为县域经济发展提供良好的发展区位。从行政区划上看,全省有14个地级行政区单位(包括13个地级市、1个自治州122个县级行政区单位(其中市辖区有35个、县级市有16个、县有6个、自治县有7个)。 2010年,全省县域人口 6286万人,国土面积20. 58万平方公里,分别占全省总人口与总面积的88.7%和97.2%。湖南作为人口密集的省份之一,平均每平方公里大约有311人次,高于全国平均人口密度1倍多。湖南还是一个多民族省,全国56个民族,都有居民在省内居住生活。少数民族呈现小聚居、大分散的态势,分布在全省14个市州。近年来,湖南省县域经济发展在不断发展同时,也面临水平差距较大,面临来自地质地貌条件、人口素质和经济基础的差异等一系列因素带来的问题。截止2014年底,湖南省拥有7202.29万的人口总数;27037.32亿元的地区生产总值(GDP),相比2006年增加了19348.65亿元;财政收入从2006年的477.93亿元增加到了2014年的2263亿元;并且,2014年,湖南省完成城镇固定资产投资21951亿元,完成社会消费品零售总额10723亿元,分别比2006年增加18708.38亿元和7863亿元。但是,不难发现湖南省区域间发展存在严重的不平衡,2014年人均GDP最高的东北部地区的雨花区为189369.23元,而最低的湘南地区的桂东县仅有10578.32元;在农民人均纯收入方面上看,最高的同样区属于湖南省东部地区的芙蓉区和最低的区属于西部的古丈县分别为32780和4626元,存在巨大的经济差距。由此可见,湖南省的东部和湘西、湘南区域之间的经济发展水平存在巨大的差异。随着湖南省新型工业化的不断进行,湖南省县域产业结构得到了提升,第一产业的比重逐渐下降,第二、三产业获得了比较大的发展,比重不断上升。2008年,县域三产业比为:24.1:42.6:33.3。但是,湖南省县域产业结构调整步子依然迟缓,产业结构层次低。突出问题表现在:第一产业比重较大,二三产业比重较小。与中国县域经济基本竞争力百强县(市)一产、二产、三产为11.8:55.3:32.9的比例相比,湖南省县域经济产业层次较低,一产业比其高出12.3个百分点,二产业低10.7个百分点。在第一产业中,传统农业占的比重还很大,产品市场占有率低。县域工业发展水平仍较低,县域工业特别是欠发达地区县域经济的主体以县属中小企业居多且传统工业比重大,缺少核心竞争能力。综上所述,近年来湖南省县域经济呈现总量有所增加、质量有所提高、效益有所提升、民生有所改善的良好势头。但实质上湖南县域的发展仍存在总体发展水平仍滞后、总体实力不强、竞争意识不强以及产业结构优化较缓慢及趋同等问题。1.1.2 县域经济的内涵县域经济是一个具有区域性、层次性、网络性、开放性等特点的经济系统,是一个功能相对完备和健全的经济系统单元。虽然国内县域经济实践发展研究的时间较短,但县域经济实践活动远早于理论研究。县域经济的涵义本身覆盖面广、形式复杂。从系统上来讲,县域经济实际上指的是以县为行政区划的经济系统。从空间上来说,县域经济是一个以县级行政区划为地理空间。从发展来说,县域经济是在县域范围内生产力与生产关系的总和、各种经济活动的总和,它包括县城、乡镇和农村三个层次,三者相互联系,互相影响并构成独立而完整的区域经济发展形式。因此不能够以一种片面的理论去解释县域经济,它不是传统体制下的行政区域经济,也不是一种简单的区域经济表现形式。而应该将县域经济看成是以行政县域区划为依托,具有独立财政、通过自然资源、人力资源、交通网络等因素联通城镇和乡村地区的复杂经济系统。1.1.3 研究县域经济的必要性从整体上看,在国民经济系列中,县域经济是极其重要的基础,它和省域经济以及国家经济共同构成整个国民经济系列。县域经济是国民经济的基本单元,在中国历史发展中,“县”都是以起着承上启下的重要作用作为基层政权形式存在的。县域经济发展的强弱直接影响着国民经济的兴衰,是国民经济的支柱。从人口、资源等方面看,整个中国人口的80%以上居住在“县域”,关系到国计民生的主要资源大都蕴藏于县域之中,从产业地位上看,第一产业是国民经济的基础,为其他产业提供了绝大多数的基础资源。县域经济是城市经济的摇篮,为城市经济提供了巨大的资金、土地、劳动力等资源,只有县域经济发展了,才能促进产业集聚、人口集聚,为富余的劳动力提供就业机会。党的方针政策、农业生产、农民增收、社会稳定等职能要由县级行政单位来实施。由此可见,县域经济发展的程度影响深远。因而,科学的评价县域经济是国民经济发展的需要,是城市经济健康发展的基础,更是社会进步的不竭动力。1.1.4 研究现状湖南省作为中部六省之一,在2014年经济发展总体平稳,在国内经济下行压力加大以及自身运行困难增多等因素的综合影响下,多数经济指标依旧快于全国平均水平。2014年湖南省GDP总量为27048.5亿元,同比增长9.5%,高于全国平均水平2.1个百分点。人均生产总值GDP为40271元,高于全国水平。第一产业增加值为3148.75亿元,同比增长4.5%,比上年加快1.8个百分点。第二产业增加值达到12481.88亿元,增长9.3%,虽比上年有所回落,但快于全国平均水平2个百分点。第三产业实现增加值11417.83亿元,增长11.1%,快于全国平均水平3个百分点。同时从上文湖南省经济概况我们也应看到,湖南县域的经济产业结构升级缓慢,经济环境需要进一步优化;县域发展大项目引进倾向程度高,中小企业重视程度不够。另外,湖南的县域经济发展也存在其他省市发展过程中普遍存在的过度依赖环境,造成综需要面临较大资源环境压力的问题1。目前关于湖南省县域经济发展的分析研究有很多。冯群芳在2006年发表的湖南省县域经济发展研究2中对造成湖南县域经济发展问题的原因进行了具体分析,并指出思想创新、资金瓶颈、行政效率偏低、人才技术缺乏等多方面原因。李玲2009年发表的在基于因子分析的湖南省区域旅游经济区区划研究3中详细说明了湖南省近年来旅游业发展的情况,同时指出县域之间由于受到地理区位、社会文化北京、旅游资源限制的影响,发展差异很大。基于因子分析提出湖南省县域旅游产业的发展水平同各旅游区域的经济发展水平差异特征具有高度的相关性。并利用聚类分析将湖南省区域旅游产业分为三类种具有地域特色旅游经济类型,得出理由区域板块的优势互补、区域合作,就能产生各具特色的旅游产业发展。霍徐强2010年的湖南省县域经济核心竞争力研究4对湖南省各县市的经济核心竞争力作了具体的讨论,并利用回归分析、因子分析等方法得到了各县市存在发展不平衡,竞争力存在巨大差距的结论,并提出了需要更新观念、充分发挥县市的自主性。刘东英2011年发表的湖南省市州综合经济实力评价 5一文中基于主成分分析方法明确了湖南城市综合经济实力东西差距显著,东部城市经济发展快,实力强;西部发展较慢,实力较弱。在地理空间格局上,综合经济实力呈湘中东、湘东、湘西的梯度分布。同样提出需要加强各市县之间的经济合作,优化产业结构以促进经济快速发展的建议。饶文竹在2012年的基于因子分析的农业综合生产能力评价以湖南省为例6一文中总结了湖南省在第一产业方面有很大的提高空间,地域间的发展极不平衡,提出湖南省应注重区域间的协调发展,促进第一产业综合生产能力整体水平的提升,提高土地承载能力的同时保持生态平衡,通过加强科技支撑能力(例如农业机械动力)建设来提高第一产业综合生产能力。胡瑶2013年在湖南省县域经济发展水平的空间计量经济学分析7中运用主成分分析方法得出近10年来湖南省近13年来湖南省县域经济发展呈现出经济发展水平整体提高,但县域间差距有逐渐拉大的趋势。提到需要加大对贫困地区经济发展的发展力度。黄玲雁在2014年的基于因子分析的湖南省区域创新环境研究8一文中针对湖南省创新环境进行了综合评价,得出了湖南省区域创新环境总体水平趋于低下,创新环境的地区存在客观上的差异。从前人的分析看来,湖南省的区域经济差异研究已取得不少成果,但大都局限于主要城市,对县域层次的研究较少。湖南省是我国中部地区的一个农业大省和资源大省,既起着内引外联的作用,又肩负着“中部隆起”的历史命运。因此县域经济研究起着深远的影响,可见湖南省县域经济研究的重要性及必要性。1.2 研究的目的及意义1.2.1 研究的目的这些年,湖南省县域经济获得了较大的发展,呈现出一些新的特征和标志性变化。一是湖南省县域经济不仅整体实力有所增强,而且经济结构开始发生明显变化,由单一结构向多元结构转变;二是农业人口和农业劳动力在县域总人口和社会劳动力中的比重有所下降;三是民营经济和市场的作用得到大幅度提升。但是,进入新的发展阶段,在新的外部环境和背景下,县域经济发展也面临着与以往不同的新问题。集中表现在以下方面:县域经济同市区经济发展不协调;产业结构在调整中陷入趋同;县域工业尚未发挥主导作用;资源浪费、环境污染严重;县域民营经济发展迟缓。9可见合理、全面地审视湖南省各县市经济发展特点的重要性。本文通过对湖南省2006年到2014年各县市综合经济实力相关数据的分析,得出湖南省各县市近年来综合经济实力排名的变化趋势,深入挖掘近年来湖南省经济增长的动力机制,深刻把握未来经济社会发展阶段性特征及动力源泉,为全省适应新常态,抓住新机遇,谋求新发展,促进经济持续健康发展,加快全面建成小康社会提供决策参考。1.2.2 研究的意义通过分析湖南省各县市区的经济状况并比较各地区的经济发展,观察湖南省县域经济发展区域特征。在制定湖南省县域经济发展战略规划时,能根据各县域发展规律,给出合理科学经济区域发展规划和发展战略。最大限度地整合资源,突出区域经济特色,发挥其优势,避免资源浪费、重复建设和内耗式竞争。促进湖南经济更好更快地发展。1.3 研究的基本内容基于以上的认识,本文以县域经济综合发展水平为研究对象,研究的基本内容如下:(1) 根据湖南省的实际情况,建立合适的评价指标体系;(2) 根据指标要求,收集数据;(3) 运用SPSS软件,利用因子分析法提取因子。根据旋转后的因子载荷,分析评价县域经济实力的因素,建立因子分析数学模型。利用因子得分,对2006到2014 年湖南省县域经济实力进行排名,分析县市排名变化的影响因素;(4) 采用聚类分析对湖南省122县市进行聚类;(5) 用典型相关分析研究选取指标的相关性;(6) 根据2006到2014年的因子分析结果进行比较和分析,研究当地政策对县域经济发展的影响。为湖南省经济全面发展提供依据,实现湖南省经济的协调发展。5数据分析课程项目2 因子分析的数学模型2.1 因子分析的基本概念2.1.1 因子分析的基本思想因子分析的概念起源于20世纪Karal Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于医学、心理学、气象、经济学等领域,并在应用中促进了理论的不断丰富和完善。因子分析是多元统计分析中常用的方法,是一种降维、简化数据的技术。它研究如何以最少的信息丢失将众多的原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的统计方法。因子分析的基本思想是通过研究众多错综复杂的变量之间的内部依赖关系,探求观测数据中的基本结构,找出能控制所有变量的少数随机变量,并用少数几个变量来表示其基本的数据结构。这几个少数变量能够反映原来众多变量的主要信息,则称作因子。2.1.2 因子分析的数学模型设有个随机变量,向量的各分量是相互独立的,向量的各分量是相互独立的,且互不相关,则因子分析的一般模型可表示为: 用矩阵可表示为:其中为公共因子,是不可观测的变量,它们的系数称为因子载荷,所组成的矩阵即为载荷因子矩阵。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因但由于减少了变量的数目又抓住了主要矛盾,从而有利于问题的分析和处理,起到了降维的效果。设有n个样品,每个样品观测个指标(变量),得到原始数据资料阵=累计贡献率为系数的线性组合,如果前k个因子的累计贡献率达到80%,表明取前k个因子基本包含了全部测量所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。当协差阵未知时,可用其估计值S(样本协差阵)来代替。当原始变量标准化后,一般求R的特征根和特征向量,它们的特征向量不变,它并不影响求因子。2.1.3 因子的特点(1) 因子是原有变量重组后的结果,能够反映原有变量的大部分信息。因子不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。(2) 因子的个数少于原有变量的个数,因此将因子代替原有变量参与数据建模,可以起到降维的效果,大大减少分析过程的工作量。(3) 因子具有命名解释性。在经济系统的评价过程中产生的公因子必须是可以解释的,否则,因子的模型是毫无意义的。(4) 因子之间的线性关系不显著,因此因子参与数学建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。2.1.4 因子分析相关概念解释及意义(1) 因子载荷所谓因子载荷,就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。在因子不相关的前提下,因子载荷反映了变量与因子的相关程度,是变量和因子的相关系数。因子载荷值小于等于1,绝对值越接近1,表明因子与变量的相关性越强。同时,因子载荷也反映了因子对解释变量的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。因子分析的理想情况,在于个别因素载荷量不是很小就是很大,这样每个变量才能与较少的共同因素产生密切关联,一般说来,载荷量为0.3或更大才能被认为有意义。所以,当要判断一个因子的意义时,需要查看其载荷是否达到了0.3或0.3以上。(2) 变量共同度变量共同度即是变量方差,指的是每个原始变量在每个共同因子上的载荷量的平方和,是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,其中共同性越大,因子可解释该变量的方差越多,即变量能被因子说明的程度越高。共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关矩阵的方法提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。变量的共同度的数学定义为:,该式表明变量的共同度是因子载荷矩阵A中第i行元素的平方和。变量的方差可由两个部分解释:第一部分是全部因子对变量方差解释说明的比例为共同度,体现了因子全体对变量的解释贡献程度。变量共同度越接近1,说明因子全体解释说明了变量的较大部分方差,如果用因子全体刻画变量,则变量的信息丢失较少;第二部分为特殊因子的平方,反应了变量方差中不能由因子全体解释说明的比例,越小则说明变量的信息丢失越少。总之,如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80以上)信息,仅有较少的信息丢失,因子分析的效果较好。因此,变量共同度是衡量因子分析效果的重要依据。(3) 因子的方差贡献因子的方差贡献(特征值)的数学定义为:,该式表明,因子的方差贡献是因子载荷矩阵中第i列元素的平方和。因子的方差贡献反映了因子对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。(4) 因子得分因子分析模型建立后,可应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。设因子得分函数由变量表示的线性组合为:=,若取m=2,则将每个样品的n个变量代入上式即可算出每个样品的因子得分F1和F2,据此可对数据进行排名。2.2 因子分析的分析步骤(1) 统计数据标准化;本文采用z-score标准化法,标准化公式为: 其中为标准差;(2) 判断变量能否进行因子分析;常用方法为:巴特利特球度检验Bartlett test of sphericity和KMO检验。Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.80.9为好,0.70.8为一般,0.60.7为差,0.50.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。(3) 抽取共同因子,确定因子数目,计算因子载荷矩阵;(4) 因子旋转通过坐标变换进行因子旋转使因子解的意义更容易解释。旋转的目的在于改变题项在各因素载荷量的大小,旋转时根据题项与因素结构关系的密切程度,调整各因素载荷量的大小。旋转后,使得变量在每个因素的载荷量不是变大(接近1)就是变得更小(接近0),使得对共同因子的命名和解释变量变得更容易。旋转后,每个共同因素的特征值会改变,但每个变量的共同性并不会改变。(5) 根据因子得分函数:=,计算因子得分。153 聚类分析数学模型3.1 聚类分析的基本思想聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同类的分析技术。系统聚类方法的基本思想是首先定义样品间的距离(或相似系数)和类与类之间的距离。初始将个样品看成类(每一类包含一个样品),这是类间的距离与样品间的距离是等价的。然后将距离最近的两类合并成为新类,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每侧缩小一类,直到所有的样品都并成一类为止。3.2 聚类分析的数学模型系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。本文采取类平均距离法和欧式平方距离法对数据进行分类。1.两点之间的距离聚类分析中常用的距离有:欧式距离(Euclidean)距离,绝对距离,马氏(Mahalanobis)距离等。假定有n个样品的多元数据,对于,为维点(向量)和之间的距离,记为。(1) 绝对距离 (2) 欧氏距离 欧氏距离是最常用的,它的主要优点是当坐标轴进行旋转时,欧式距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。称 为距离矩阵,其中(这说明距离矩阵是对称矩阵)。(3) Minkowski距离 其中。Minkowski距离又称距离,距离即欧氏距离,距离即绝对距离。(4)马氏距离其中,S是由得到的协方差矩阵, 2、两类之间的距离系统聚类中,两类之间的距离可分为8种。(1)最短距离法 类与类之间的距离定义为两类中相距最近的样品之间的距离,即列为和之间的距离定义为 当某步骤类和类合并为和后,按最短距离法计算新类与其他类的类间距离,其递推公式为:(2)最长距离法类与类之间的距离定义为两类中相距最远的样品之间的距离,即列为和之间的距离定义为 当某步骤类和类合并为和后,按最长距离法计算新类与其他类 的类间距离,其递推公式为:(3)中间距离法如果类与类之间的距离既不采用两同类之间的最近距离,也不采用最远的距离,而是采用介于这两者间的距离,这种方法称为中间距离法。当某步骤类和类合并为和后,按中间距离法计算新类与其他类的类间距离,其递推公式为:(4)重心法如果将两类间的距离定义为两类中心间的距离,这种方法称为重心法。当某步骤类和类合并为和后,它们所包含的样品个数分别为和,并定义样品间的距离为欧式距离,按重心法计算新类与其他类的类间距离,其递推公式为:(5)类平均法用两类样品两辆之间平方距离的平均作为类之间的距离,这种方法叫作类平均法。当某步骤类和类合并为和后,它们所包含的样品个数分别为和,按类平均法计算新类与其他类的类间距离,其递推公式为:(6)可变类平均法可变类平均法是将合并后的新类与其他类的距离平方公式进一步推广为:(7)可变法纪McQuitty相似分析法当某步骤类和类合并为和后,可变法把与其他类的距离平方公式进一步定义为:若则把此方法称为McQuitty相似分析法三。(8)离差平方和法 (Ward法)Ward法是先将个样品各自成一类,每次选择使所有类的总离差平方和增加最小的两类进行合并,直至所有样品合并为一类为止。Ward法把某俩国内类合并后增加的离差平方和看成为类间的平方距离。当样品间距离采用欧式距离时,步骤类和类合并为和后,它们所包含的样品个数分别为和,新类与其他类的类间距离的递推公式为:3.3 聚类分析的分析步骤 (1)个样品开始时作为个类,计算两两之间的距离,构成一个对称距离矩阵此时,。(2)选择中主对角线以下(或以上)的最小元素,设这个元素是,这是,首先将,合并成一个新类.在中消去,所对应的行与列,并加入由新类与剩下的其他未聚合的类间的距离所组成的一行与一列,得到一个更新的距离矩阵, 它是一个阶方阵。(3)从出发重复步骤(2)的做法得,再由出发重复上述步骤,直到个样品聚为一个大类为止。(4)在合并过程中要记下合并样品的编号及两类合并时的距离(称为距离水平),并绘制聚类谱系图。4 典型相关分析数学模型4.1 典型相关分析的基本概念在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型关分析就是测度两组变量之间相关程度的一种多元统计方法。典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合), 用这些指标的相关关系来表示原来的两组变量的相关关系。这在两组变量的相关性分析中, 可以起到合理的简化变量的作用; 当典型相关系数足够大时, 可以像回归分析那样, 由一组变量的数值预测另一组变量的线性组合的数值。4.2 典型相关分析的数学模型典型相关系数的数学定义为: 因为随机变量乘以常数是不会改变其相关系数的,所以为了为阻止不必要的结果重复出现,最好在其中附加如下约束条件: 这里不加证明的引入该问题的求解结果,详细推导可以参考相关书籍。记 则有,其中既是A又是B的特征根,和就是对应于A和B的特征向量。在实际问题中,也可以从样本的相关阵R出发来计算样本的典型相关系数和典型变量。已知p+q维总体Z的n次中心化观测数据阵为: 将样本的相关系数矩阵R剖分为: 若假定,则协差阵的最大似然估计为: 可以根据样本协差阵S出发,去研究两组变量间的相关关系。有 将其代入前述A、B的表达式,得:则,分别为矩阵,的相应于特征根的特征向量。从而得到第对样本的典型变量为:从而得到对样本的典型相关系数。4.3 典型相关分析步骤(1)根据分析目的建立原始矩阵原始数据矩阵:(2)对原始数据进行标准化变化并计算相关系数矩阵其中分别为第一组变量和第二组变量的相关系数矩阵,为第一组变量和第二组变量的相关系数。(3)求典型相关系数和典型变量计算矩阵以及矩阵的特征值和特征向量,分别得典型相关系数和典型相关变量。(4)检验各典型相关系数的显著性数据分析课程项目5 样本的选择和指标体系的建立5.1 样本的选择本文选取了湖南省,芙蓉区、天心区、岳麓区、开福区、雨花区、浏阳市、长沙县望城县、宁乡县、荷塘区、石峰区、芦淞区、天元区、醴陵市、株洲县、攸县、茶陵县、炎陵县、雨湖区、岳塘区、湘乡市、韶山市、湘潭县、珠晖区、雁峰区、石鼓区、蒸湘区、南岳区、耒阳市、常宁市、衡阳县、衡南县、衡山县、衡东县、祁东县、双清区、大祥区、北塔区、武冈市、邵东县、新邵县、邵阳县、隆回县、洞口县、新宁县、绥宁县、城步苗族自治县、岳阳楼区、云溪区、君山区、汩罗市、临湘市、岳阳县、平江县、湘阴县、华容县、武陵区、鼎城区、津市市、安乡县、汉寿县、澧县、临澧县、桃源县、石门县、永定区、武陵源区、慈利县、桑植县、资阳区、赫山区、沅江市、南县、桃江县、安化县、北湖区、苏仙区、资兴市、桂阳县、永兴县、宜章县、嘉禾县、临武县、汝城县、桂东县、安仁县、零陵区、冷水滩区、东安县、道县、宁远县、江永县、江华瑶族自治县、蓝山县、新田县、双牌县、祁阳县、鹤城区、洪江市、中方县、沅陵县、辰溪县、溆浦县、麻阳苗族自治县、会同县、新晃侗族自治县、芷江侗族自治县、靖州苗族侗族县、通道侗族自治县、娄星区、冷水江市、涟源市、双峰县、新化县、吉首市、泸溪县、凤凰县、花垣县、保靖县、古丈县、永顺县、龙山县这122个县市级城市作为样本。5.2 选择指标的原则(1) 全面性原则评价指标体系必须能够全面反映县域经济的各个方面,要符合县域经济的客观实际。选取的各个指标最好只是反映县域经济发展的某一侧面,各个指标相对独立,又能较全面的代表县域经济的发展状态。因此,评价指标体系中指标所反映的信息应当是充分又必要的,这样才能有效利用各个指标,使评价目标和评价指标有机联系,形成整体。(2) 可行性原则可行性包括可计量性和可操作性。可计量性指的是指标的内涵可以进行定量描述,通过对各个地区的社会经济发展状况进行定量分析,反映出各地发展水平的不均衡性。可操作性主要考虑指标的量化及数据取得的难易程度和可靠性,尽量利用现有统计资料。由于本人的个人能力有限,因此本文涉及的指标主要来源于湖南省统计局发布的数据。(3) 科学性原则指标体系应当具有科学性。指标的选 取意义要明确,统计方法要规范,要能保证评价结果的真实性和客观性。具体的指标应能客观和真实的放映湖南省的实力情况。5.3 指标体系的建立湖南省县域经济研究会在全省首次发布了“湖南县域经济三量齐升”报告。三量指的是:经济总量、人均均量、经济运行质量。将以往的“湖南县域经济综合实力排名”转化成“三量齐升”评估报告,这对县域经济发展的评价体系而言,是一种尝试和创新。新的评估体系加入了经济运行质量、人均均量等方面的多项指标,评价方式将更为全面科学16。本文指标的建立综合考虑了传统和新型综合经济实力评价的指标选取方式,在三量的基础上调整,选取出:人均GDP(元)、:职工平均工资(元)、:农民人均纯收入(元)、:农村居民人均生活消费支出(元)、:人均财政收入(元)、:人均社会消费品零售总额(元)、:人均工业增加值(元)、:社会消费品零售总额(万元)、:全员劳动生产率(元/人)、:全社会固定资产投资额(万元)、:城镇居民可支配收入(元)、:地区生产总值(万元)、:地区生产总值增长率(%)、:财政收入(万元)、:地区财政预算收入增长率(%)、:从业人口占总人口比重(%)、:地区财政总支出(万元)、:财政自给率(%)、:城镇化率(%)、:农业机械总动力(千瓦)这二十项指标。其中、这十二项指标数据直接获得。而、八项指标根据下列公式间接获得。 指标体系结构图如下图所示:县域经济综合实力评价指标体系经济总量人均均量地区生产总值全社会固定资产投资额人均GDP工业总产值社会商品零售总额地区财政收入地区生产总值增长率农民人均纯收入人均工业增加值地区财政预算收入增长率社会商品零售总额地区财政总支出农业机械拥有量全员劳动生产率财政自给率城镇化率城镇居民可支配收入人均社会消费品零售总额人均财政收入经济运行质量农民居民人均省活消费支出5.4 数据的获取根据上述指标,通过各年湖南省统计年鉴查找相应数据,少部分缺失数据通过查找找到。还有部分缺失数据不能直接获取。2006年湖南省统计年鉴中,找到不“农村居民人均生活消费支出”这项指标,而“农村居民人均生活消费支出+城镇居民人均生活消费水平支出=居民人均生活消费支出”所以通过查找已有的居民城镇消费支出获得所模拟数值。查阅背景资料发现和画趋势图的方法检验发现该模拟值大致符合研究需求,数值可用另外,多年份的统计年鉴的部分指标只有株洲市和湘潭市的总数据而没有荷塘区、石峰区、天元区、雨湖区和岳塘区的详细数据。查阅地区年鉴也无法获取。获取方式以地区生产总值这一指标为例,通过查阅这些县市区2005年的地区生产总值和2007年的地区生产总值,并参考其他相邻县市区2005年和2006年地区生产总值的发展趋势,并通过分析株洲市荷塘区、石峰区、天元区在2006年与地区生产总值相关的指标,如地区财政总收入、社会消费品零售总额等指标,对株洲市荷塘区、石峰区、天元区2006年的地区生产总值进行模拟。6 基于因子分析对湖南省县域经济的实证6.1 湖南省2009年县域经济的实证利用SPSS软件对已收集的数据进行处理,标准化后的数据用Z表示。1. 描述性统计量表6-1所示是因子分析过程提供的统计量,表中给出了20个变量的均值、标准差和样本容量,为后续的因子分析提供一个直观的数据表述。表 61 湖南省2009年各指标描述统计量指标均值标准差Z1:人均GDP21632.11 19452.64 Z2:职工平均工资24999.57 4589.24 Z3:农民人均纯收入5427.60 2917.82 Z4: 农村居民人均生活消费支出3504.29 2172.32 Z5:人均财政收入1433.82 1319.80 Z6:人均社会消费品零售总额15259.91 16293.73 Z7:人均工业增加值46346.33 73954.36 Z8:社会商品零售总额394965.80 531642.67 Z9:全员劳动生产率40673.59 57307.01 Z10:社会固定资产投资额570417.18 656509.13 Z11:居民可支配收入13157.43 3175.07 Z12:地区生产总值1069061.91 1112906.82 Z13:地区生产总值增长率16.46 22.49 Z14:地区财政预算收入34375.04 38937.35 Z15:地区财政预算收入增长率22.98 19.45 Z16:从业人口占总人口比重146.61 64.66 Z17:地区财政总支出105023.61 53120.29 Z18:财政自给率30.75 20.83 Z19:城镇化率47.25 24.84 Z20:农业机械拥有量355862.09 281027.65 表6-2给出了2009年因子分析的KMO和球形Bartlett检验结果,检验指标是否适合因子分析。Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关合进行因子分析。同时,KMO值为0.832,根据KMO的度量标准可知,KMO测度的值越高(接近1.0时),表明变量间的共同因子越多则研究数据越适合用因子分析当,可知原变量适合进行因子分析。表 62 KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。.832Bartlett 的球形度检验近似卡方2930.114df190Sig.0002因子分析的共同度表6-3所示的是因子分析的共同度。共同度表明了原始变量方差中能被共同因子解释的部而言,所有指标的共和度均大于0.7,说明所有指标的信息丢失较少。表 63 湖南省2009年各指标公因子方差初始提取Z1:人均GDP1.000.906Z2:职工平均工资1.000.687Z3:农民人均纯收入1.000.900Z4:农村居民人均生活消费支出1.000.879Z5:人均财政收入1.000.663Z6:人均社会消费品零售总额1.000.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论