安徽省各地区经济发展和居民经济生活水平分析_第1页
安徽省各地区经济发展和居民经济生活水平分析_第2页
安徽省各地区经济发展和居民经济生活水平分析_第3页
安徽省各地区经济发展和居民经济生活水平分析_第4页
安徽省各地区经济发展和居民经济生活水平分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SAS软件与统计应用论文统计软件的应用和开发安徽省各地区经济发展和居民经济生活水平分析姓 名: 苏 贺班 级: 数 学 091学 号: 3090801126联系方式: 录摘要3一、研究目的:4二、理论知识:4 2.1主成分分析4 2.2聚类分析6三、数据的预处理:9四、具体模型9 4.1数据输入9 4.2 主成分分析9 4.3 聚类分析10五、计算结果及分析10 5.1 数据输入10 5.2 主成分分析11 5.3 聚类分析12 5.4 结果分析总结 13参考文献15附录16安徽省各地区经济发展和居民经济生活水平分析摘要:本文利用多元统计分析中的因子分析法,选用8个主

2、要经济指标对安徽省各地区经济发展和居民经济生活水平进行了综合评价和分析。在SAS软件上实现运用主成分分析法和聚类分析法对安徽省各城市进行了等级划分以及城市居民收入水平存在的差异进行分析。关键字:地区经济发展 居民经济生活水平 主成分分析法 聚类分析法一 研究目的随着社会主义市场经济不断完善,安徽省各市经济发展水平不断提高,人民经济生活水平也在日益改善。但在发展的另一种趋势也明显起来,即安徽省各市之间的经济发展水平两级分化程度不断加大,某些市出现经济发展水平与居民经济生活水平不相协调的现象。本文通过运用统计分析学的相关知识以及sas软件的运用,对安徽省17个城市的7项经济指标进行分析,比较城市之

3、间经济水平之间的差异,分析居民收入的总体情况。以便于了解本段开始提到的问题。二 理论知识2.1主成分分析主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。这些新的指标是彼此既互不相关,又能综合反映原来多个指标信息,是原来多个指标的线性组合。多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。主分量分析还可用于揭示变量间的共线性。2.1.1主成分分析

4、的数学模型 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,Xp,得到原始数据资料阵:其中Xi = (x1i,x2i,xni)',i = 1,2,p。用数据矩阵X的p个列向量(即p个指标向量)X1,X2,Xp作线性组合,得综合指标向量:简写成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,p为了加以限制,对组合系数ai' = (a1i,a2i,api)作如下要求:即:ai为单位向量:ai'ai = 1,且由下列原则决定: 1) Fi与Fj(ij, i, j = 1, , p)互不相关,即Cov(Fi,Fj) = ai'

5、Sai = 0,其中是X的协方差阵。2) F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即: 其中c = (c1,c2,cp)满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值li,每一个主成分的组合系数:ai = (a1i,a2i,api),就是相应特征值li所对应的单位特征向量ti。方差的贡献率为 ,ai越大,说明相应的主成分反映综合信息的能力越强。2.1.2使用PRINCOMP过程进行主成分分析1. PRI

6、NCOMP过程的功能简介1) PRINCOMP过程计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例,累计比例等。由特征向量得出相应的主成分,用少数几个主成分代替原始变量,并计算主成分得分。2) 主成分的个数可以由用户自己确定,主成分的名字可以用户自己规定,主成分得分是否标准化可由用户规定。2. PRINCOMP过程的格式PRINCOMP过程的常用格式如下:PROC PRINCOMP <选项列表>VAR 变量列表;WEIGHT 变量列表;FREQ 变量列表;PARTIAL 变量列表;BY 变量列表;RUN;1)输入数据集可以是原始

7、数据集、相关阵、协方差阵等。输入为原始数据时,还可以规定从协方差阵出发还是从相关阵出发进行分析,由协方差阵出发时方差大的变量在分析中起到更大的作用。2) 该过程还可生成两个输出数据集:一个包含原始数据及主成分得分,它可作为主成分回归和聚类分析的输入数据集;另一个包含有关统计量,类型为TYPE = CORR或COV的输出集,它也可作为其他过程的输入SAS集。2.2聚类分析聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。2.2.1聚类分析的一般模型设有n个样品(多元观测值),每个样品测得m项指标(变量),得到观测数据xij(i=1,n;j=1,m),

8、如表所示。X1X2XmX(1)x11x12x1mX(2)x21x22x2mX(n)xn1xn2xnm图2-1表2-1中数据又称为观测数据阵或简称为数据阵,其数学表示为:其中列向量Xj = (x1j,x2j,xnj)',表示第j项指标(j = 1,2,m),行向量X(i) = (xi1,xi2,xin)表示第i个样品。2.2.2两种聚类分析根据分类对象的不同,聚类分析分为两种:(1) 样品聚类:样品聚类是对样品(观测)进行的分类处理,又称为Q型分类,相当于对观测数据阵按行分类。(2) 变量聚类:变量聚类是对变量(指标)进行的分类处理,又称为R型分类,相当于对观测数据阵按列分类。两种聚类在

9、形式上是对称的,处理方法也是相似的。2.2.3聚类分析的方法聚类方法大致可归纳如下:(1) 系统聚类法(谱系聚类)先将l个元素(样品或变量)看成l类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到l 1类,再从中找出最接近的2类加以合并变成了l 2类,如此下去,最后所有的元素全聚在一类之中。(2) 分解法(最优分割法)其程序与系统聚类相反。首先所有的元素均在一类,然后按照某种最优准则将它分成2类、3类,如此下去,一直分裂到所需的k类为止。(3) 动态聚类法(逐步聚类法)开始将l个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整为止。(4) 有序样品

10、的聚类n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。2.2.4系统聚类法的基本思想设有n个样品,每个样品测得m项指标。系统聚类方法的基本思想是:首先定义样品间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每次减少一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来。2.2.5系统聚类法的基本步骤(1) 数据变换为了便于比较或消除量纲的

11、影响,在作聚类之前常常首先要对数据进行变换。变换的方法有中心化变换、标准化变换、极差标准化变换、极差正规化变换、对数变换等。最常用的标准化变换为:其中 , j = 1,2,m。变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据与变量的量纲无关。(2) 计算n个样品两两间的距离:选择度量样品间距离的定义,计算n个样品两两间的距离,得样品间的距离矩阵D(0)。(3) 聚类过程:首先n个样品各自构成一类,类的个数k = n:Gi = X(i)(i = 1,n),此时类间的距离就是样品间的距离(即D(1) = D(0))。令j = 2,n,执行如下并类过程:1) 合并类间距离最小

12、的两类为一新类(类间距离参见下文“系统聚类分析的方法”)。此时类的总个数k减少1类,即k = n j + 1。2) 计算新类与其他类的距离,得新的距离矩阵D(j))。3)若合并后类的总个数k仍大于1,重复1)和2)步,直到类的总个数为1时止。4) 画谱系聚类图:谱系图能明确清晰地描述各个样本点在不同层次上聚合分类的情况。5) 决定分类的个数及各类的成员。2.2.6用CLUSTER过程和TREE过程进行系统聚类1、CLUSTER过程 系统聚类CLUSTER过程的一般格式为: PROC CLUSTER <选项列表>;VAR <聚类用变量>;COPY <复制变量>

13、;ID <变量名>; RUN;其中:1) PROC CLUSTER语句为调用CLUSTERS过程的开始。2) VAR语句指定用来聚类的数值型变量。如果缺省,则使用没有列在其他语句中的所有数值型变量。3) COPY语句把指定的变量复制到OUTTREE = 的数据集中,以备后用。4) ID语句中指定的变量用于区分聚类过程中的输出及OUTTREE数据集中的观测。 2、TREE过程 TREE过程可以把CLUSTER过程产生的OUTTREE = 数据集作为输入,画出聚类谱系图,并按照用户指定的聚类水平(类数)产生分类结果数据集。一般格式如下:PROC TREE <选项列表>;CO

14、PY <复制变量>;ID <变量>;RUN;其中: 1) PROC TREE语句为调用TREE过程的开始,其常用选项及功能见表8-3。2) COPY语句把输入数据集中的变量复制到输出数据集。3) ID语句用于指定在输出树状图中的识别对象,ID变量可以是字符或数值变量。如果省略,TREE过程将使用变量_NAME_。三 数据的预处理包括:1数据转置;2数据排序;3数据拆分;4数据选择。四 具体模型4.1数据输入 data ccc;input area$ x1 x2 x3 x4 x5 x6;Cards4.2 主成分分析 procprincompdata=SASUSER.ccc

15、out=work.redgrapes1 outstat=work.redgrapes2; run; proc print data=work.redgrapes2; proc print data=work.redgrapes1; 4.3聚类分析 proc cluster data=ccc.cluster_expense method=average pseudo;proc tree horizontal spaces=2;run;五 计算结果及分析5.1数据输入data ccc;input area$ x1 x2 x3 x4 x5 x6;cardsproc print data=ccc;ru

16、n; 运行结果; 5.2 主成分分析proc princomp data=SASUSER.ccc out=work.redgrapes1 outstat=work.redgrapes2; run; proc print data=work.redgrapes2; proc print data=work.redgrapes1;简单统计量和相关系数矩阵矩阵:5.2.1相关系数矩阵的特征值由结果可以看出,第一主成分方差贡献率为64.38%,第二主成分为16.7%,累积方差贡献率已经达到80.78%;说明第一第二两主成分已经能很好概括这组数据。5.2.2相关系数矩阵的特征向量由此得第一,二主成分表达

17、式Prin1=0.416066X1*+0.430303X2*+0.412482X3*+0.432652X4*+0.420463X5*+0.273269X6*+0.130505X7*+0.126108X8*;Prin2=-0.258187X1*-0.104171X2*-0.282629X3*-0.012329X4*-0.032074X5*+0.610938 X6*+0.590139X7*+0.346309X8*;)根据以上表达式对主成分的打分如下:area合肥市淮北市亳州市宿州市蚌埠市阜阳市淮南市滁州市y17.981134-0.6444-1.71305-1.29245-0.87449-1.132

18、93-0.54182-0.56208y2-1.312480.720274-1.0699-1.23174-0.62065-1.55590.224142-0.73363area六安市马鞍山市巢湖市芜湖市宣城市铜陵市池州市安庆市黄山市y1-0.917151.049127-0.452172.238458-0.401310.030574-1.4515-0.05068-1.26527y2-0.713461.3865020.8024682.2360570.3090331.4604330.773664-1.222520.547695显然第一主成分中的主要影响因素分别为X1(生产总值) ,X2(固定资产投资额)

19、,X3(金融机构本外币总预算),X4(工业总产值),X5(商品进出口总额)这些数据从宏观上面代表了城市的经济发展水平:第二主成分的主要影响因素为X6(国有经济单位职工工资),X7 (城镇集体经济单位职工平均工资),X8 (其他经济单位职工工资)这些指标也客观的反映了居民的经济生活水平。主成分的散点图如下:5.3 聚类分析 proc cluster data=ccc.cluster_expense method=average pseudo;proc tree horizontal spaces=2;run;运行结果:1、由于RSQ在NCL=3时为0.829,而在下一次合并分成两类时下降较大,根

20、据分析R2统计量可得出分3类时比较合适的;2、由于PST2在NCL=2时为30.7,值比较大,说明上一次聚类效果较好。根据伪t2准则可以得出分3类是比较合适的。综上两点:可以把给出数据分为3类。依次是:第一类:合肥第二类:淮北 巢湖 池州 黄山 淮南 宣城 马鞍山 铜陵 芜湖第三类:亳州 宿州 阜阳 蚌埠 六安 滁州 安庆5.4 结果分析总结通过分析我们可以看出各城市人均收入与城市经济发展水平有较强的正相关作用,这反映了要使得我省居民的生活质量有进一步的提高,大力发展经济是必要手段,也应当长期坚持下去。从结果来看,合肥市属于第一类城市,综合经济水平排名第一,这与合肥市是安徽省省会城市相对其他城

21、市有更多的政策优势以及经济资源这一先决条件有关,但其城市人均收入相对较低,所以合肥市需要做好优化收入分配体制,让市民切实体会到经济发展提高带来的生活质量水平的改善。第二类城市马鞍山,铜陵,芜湖等几个城市大多以工业城市为主,虽然居民收入在安徽省内相对较好,但其综合经济实力不及合肥市,所以这些城市需要的是大力发展经济,加大与外界的经济交流,改善城市的经济水平。当然在发展经济的同时不能忽视环境问题。第三类城市如亳州,宿州,阜阳等经济实力和居民收入水平在省内都比较靠后,当然这与这些城市的地理环境及国家建设投入等客观因素有关,对于这几所城市,不仅要把加大经济建设的投入还需改善居民收入水平。相对于其他省而

22、言,我省综合经济实力水平仍然有差距。为了减小差距,应该坚持经济建设不松懈,但不能以牺牲自然环境、在未来降低人民的生活质量为代价,只有坚持走可持续的道路,才能真正长久地提高人民的生活质量提高城市经济发展水平。参考文献【1】Sas软件与统计应用教程;【2】付娟,刘延平,运用多元统计分析综合评价我国西部各省市自治区域经济效益经济管理;【3】马丽荣,马丁丑,运用多元统计分析综合评价甘肃省区域经济效益,甘肃科技;【4】中国统计年鉴数据库。 2009年安徽省各城市经济发展相关指标生产总值固定资产投资额金融机构本外工业商品进出口职工年平均工资总额(元)地区亿元亿元币预算(亿元)总产值(亿元)总额(亿元)国有经济单位城镇集体经济单位其他经济单位合肥市2102.13 2294.08 3761.38 2776.4 64.28 386912294330840淮北市371.87 269.06 472.21 576.6 1.11 356481702639506亳州市431.91 15

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论