




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于SAS分析的湖南省经济研究前言本文主要运用SAS编程技术来研究湖南省33个主要的市区的综合经济发展情况,即根据选取的一些指标来判断湖南省33个市区的经济发展情况的排名分类,判断哪些地区是湖南省经济发展的主力。此次的研究分析中主要运用的方法有因子分析和聚类分析等统计分析方法。主要目的是熟练掌握SAS编程的知识,同时对湖南省33个市区的经济发展情况进行分析研究,把理论与实际相结合。关键字:因子分析,聚类分析, SAS编程一、 研究对象 此次的课程设计主要是为了分析湖南省33个主要的市区的综合经济发展的排名与分类。所谓的综合经济就是指一个地区的经济发展的所有方面,例如生产、消费、人口、居住面积、投资、进出口、旅游等,因此这些用来分析的综合经济指标是数量庞大的。经济发展状况排名就是根据一定的标准对这些地区的发展情况进行排名,由于进行因子分析,所以本文对湖南省33个主要市区的排名标准是每个公共因子的得分。分类就是把经济发展情况类似的地区分为一类,此次用到的分类方法为聚类分析。二、 理论基础因子分析是指研究从变量群中提取共性因子的统计技术。它是对主成分分析的推广和发展,也是一种重要的降维方法。因子分析的目的是,试图用几个潜在的、不可观测的随机变量来描述原始变量间的且方差关系。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。聚类分析也能够用来概括数据而不只是为了寻求“自然的”或“实在的”的分类。因此,此次研究使用聚类分析的目的就是按照选定的指标利用分层聚类的方法对湖南省的124个市区县的经济发展情况进行一个分类,把经济发展相似的地区分为一类,便于研究地区的经济发展类型。总而言之,此次的研究过程是逐渐递进的,每一个环节间都有联系,是从表面到内部的一次分析研究。三、 变量的选择及数据的收集由于用来衡量综合经济的指标是一个庞大的指标系统,在本次论文中不可能将所有的指标都进行分析,因此决定选取一些具有代表性的指标进行分析,此次一共选取了7个指标进行研究,这7个指标分别是:x1:农林牧渔业生产总值 x2:固定资产投资总额x3:轻工业 x4:重工业x5:综合能源消费量 x6:在岗职工工资总额x7:消费品零售总额原始数据,如表一和续表一:表一 湖南省各市区县经济指标列表 单位:万元地区农林牧渔业生产总值固定资产投资总额轻工业芙蓉区天心区岳麓区开福区雨花区望城区浏阳市荷塘区芦淞区石峰区天元区醴陵市雨湖区岳塘区湘乡市韶山市珠晖区雁峰区石鼓区蒸湘区南岳区耒阳市常宁市汨罗市临湘市津市市永定区武陵源区沅江市洪江市冷水江市涟源市吉首市2371919484223318807904928347830898224145810242824716044613489040182377851336453587230110555732446539505221737140752383579116554564326707233126198716190266026792281511163775446287641817891795940966363156150818163525147263798733170476388001303800123940014738001434700123430092900072230033020059601361287756321110383701157931420582567148114375677610633280064740013560077217453529670555366767742230010089762333081837397588631999043138154124605361365994897253225693664514246896871818695311174808386025385736373727179211452058490170624027110616863351168952559000257555.95446036567527117317554918955数据来源:2011湖南省统计年鉴续表一 湖南省各市区县经济指标列表 单位:万元地区重工业综合能源消费量在岗职工工资总额消费品零售总额芙蓉区天心区岳麓区开福区雨花区望城区浏阳市荷塘区芦淞区石峰区天元区醴陵市雨湖区岳塘区湘乡市韶山市珠晖区雁峰区石鼓区蒸湘区南岳区耒阳市常宁市汨罗市临湘市津市市永定区武陵源区沅江市洪江市冷水江市涟源市吉首市15087352662259944376478326215225721.18E+0749641762131523858990534912915416373009604453920389203992016469384434105277626092676081272320761.4801813300021342012531857789609144289427.852261891508157230037368976859834.6121.0730.259.4915.6268.2987.1723.145.73221.197.8175.4617.6631.7282.714.7741.6119.5142.12100.88.283.4973.2146.7676.3335.1916.01.60.0547.35150.9826.824.8278186249141570188655161273715328357350211216830526447028314725187222093527194236402315387720997124510190603184639224062194041827471390682194855736156584121798233601064755777919122613642114289043542182505563152074037685834072965184135513899953406081611580313156446451971336134474463854951188510246260241453144352178759079111719263861745729150335639660631790048122470273445287151337497453596892498416数据来源:2011湖南省统计年鉴四、 SAS操作(一)建立数据集由于所要分析的数据较多,不便使用Cards语句后面直接输入数据,因此选择使用直接导入外部文件的方法导入数据,所导入的数据集命名为Eco并保存在逻辑库Sasuser中,SAS程序如下:data sasuser.Eco; /*建立数据集*/infile D:STADY课件sas新建文件夹123.txt delimiter=09x firstobs=2; /*引用外部文件*/input x0 $ x1-x8 ;/*规定要输入的变量*/label x0=地区 x1=农林牧渔业生产总值 x2=固定资产投资总额 x3=轻工业 x4=重工业 x5=综合能源消费量 x6=在岗职工工资总额 x7=消费品零售总额 x8=编号; /*为每一个变量设定对应的名称*/run;1. data sasuser.Eco,语句是规定建立新的数据集Eco,并保存在逻辑库Sasuser中。2. infile D:STADY课件sas新建文件夹123.txt,是指定要导入文件的路径,从中可以知道要导入的文件是txt文本格式的,且文件名为123。3. delimiter=09x,是选择对数据的分割方法。4. firstobs=2, 表示的是原始数据的读入从第二行开始(因为第一行为变量名)。5. input x0 $ x1-x8 ,表示的是规定输入的变量为x0-x8,且说明变量X0为字符型数据,变量x1-x8为数值型数据,同时规定执行input语句是指针移到下一记录行,要求一条记录必须对应一个数据行。6. Label,表示的是对每一个变量贴上对应的标签,即为每一个变量命名。(二)因子分析1、公共因子的提取现在将对数据集进行因子分析,主要目的是为了分析了解在湖南省主要的33个市区,在提取的公共因子下哪些地区经济发展情况较好,哪些较差。SAS程序如下:proc factor data=sasuser.Eco; /*对数据集Eco进行因子分析*/var x1-x7; /*进行因子分析的变量为x1-x7*/run;1. proc factor data=sasuser.Eco ,表示对数据集进行因子分析。2. var x1-x7 ,选定进行因子分析的变量为x1-x7。程序主要输出结果为:图一 主成分表图一中的Eigenvalue代表的是每个变量所对应的特征根,Difference表示两个相邻的特征根之差,Proportion表示的是每个主成分的贡献率,Cumulative表示主成分的累积贡献率。根据特征根大于1原则提取公共因子,因此决定选取3个公共因子。图二 因子载荷矩阵从图二中的因子载荷矩阵的输出结果可以看出,第二和第三公共因子的结果并不好解释,因此决定使用方差最大化法进行因子旋转。SAS程序如下:proc factor data=sasuser.Eco n=3 rotate=varimax score out=sasuser.score;var x1-x7;run;1. proc factor data=sasuser.Eco ,表示对数据集进行因子分析。2. n=3 ,规定进行因子分析时提取三个公共因子。3. rotate=varimax ,进行因子旋转的方法设定为方差最大化法。4. score ,输出因子得分。5. out=sasuser.score ,规定因子得分的数据输出结果保存在逻辑库Sasuser中,取名为score。程序主要输出结果为:图三 旋转后的因子载荷矩阵从图三显示的旋转后的因子载荷矩阵中可以看出,第一公共因子在变量x2、x6、x7上的载荷较大,且这三个变量能反映经济的三个不同方面,因此把第一公共因子命名为综合经济发展因子;第二公共因子在变量x1、x2上有较大的载荷,但是为了方便解释,且x1上的载荷远大于x2上的载荷,因此把第二公共因子命名为农业发展因子;第三公共因子在变量x4、x5上有较大的因子载荷,因此把第三公共因子命名为工业发展因子。图四 因子得分矩阵根据因子得分矩阵可以写出因子得分函数:2、因子得分排名下面进行因子得分排序,首先按照第一因子得分排序,SAS程序如下:proc sort data=sasuser.score out=sasuser.F1; /*对数据集score进行排序*/by descending factor1; /*按照factor1降序排序*/run;1. proc sort data=sasuser.score out=sasuser.F1 ,对数据集score进行排序,排序的输出结果保存在逻辑库Sasuser中,取名为F1。 2. by descending factor1 ,按照变量factor1降序排序。得到结果如表二:表二 按第一公共因子排名结果地区Factor1Factor2Factor3雨花区2.449520.48849-0.76891开福区2.19298-0.45866-0.83085芙蓉区2.08796-0.50534-0.5505天心区1.88982-1.00297-0.2474岳麓区1.45699-0.580941.23258浏阳市0.826113.176740.20181望城区0.698291.185261.45853芦淞区0.21215-0.69499-0.71963雨湖区0.14624-0.126170.01155天元区-0.05968-0.20977-0.53724醴陵市-0.122831.19687-0.10693岳塘区-0.17063-0.807974.05482蒸湘区-0.26777-0.71040.11852石峰区-0.27065-1.204681.40721汨罗市-0.287021.6339-0.02957雁峰区-0.38474-0.72807-0.23814石鼓区-0.50065-0.89095-0.47746荷塘区-0.52568-0.90298-0.27158冷水江市-0.52632-0.769770.24196珠晖区-0.55723-0.56425-0.46516耒阳市-0.6040.991661.36055吉首市-0.62917-0.94762-0.53385永定区-0.65218-0.43701-0.72416湘乡市-0.66991.35216-0.2319临湘市-0.696770.64691-0.28095涟源市-0.77580.27664-0.69494沅江市-0.77881.08835-0.54515常宁市-0.812430.419440.03065津市市-0.86069-0.08185-0.62474洪江市-0.88967-0.2699-0.46717韶山市-0.91746-0.56214-0.77196南岳区.武陵源区. 从表二可以看出,排名最前面的地区是雨花区、开福区、芙蓉区、天心区和岳麓区,第一公共因子代表的是综合经济发展,说明这些地区的综合经济发展强于湖南省的其他地区,同时这些地区都是属于长沙市,长沙市是湖南的省会,其经济综合发展情况必然高于其他地区,结论与实际情况相符。排名最后的是韶山市、洪江市和津市市(由于南岳区和武陵源区的数据有缺失值,导致没有因子得分,所以不进行考虑),说明这三个地区的综合经济发展情况较为落后。按照第二因子得分排序,SAS程序如下:proc sort data=sasuser.score out=sasuser.F2; /*对数据集score进行排序*/by descending factor2; /*按照factor2降序排序*/run;上述程序与第一因子得分排名的程序类似,在此不再进行解释,得到的结果如表三:表三 按第二公共因子排名结果地区Factor1Factor2Factor3浏阳市0.826113.176740.20181汨罗市-0.287021.6339-0.02957湘乡市-0.66991.35216-0.2319醴陵市-0.122831.19687-0.10693望城区0.698291.185261.45853沅江市-0.77881.08835-0.54515耒阳市-0.6040.991661.36055临湘市-0.696770.64691-0.28095雨花区2.449520.48849-0.76891常宁市-0.812430.419440.03065涟源市-0.77580.27664-0.69494津市市-0.86069-0.08185-0.62474雨湖区0.14624-0.126170.01155天元区-0.05968-0.20977-0.53724洪江市-0.88967-0.2699-0.46717永定区-0.65218-0.43701-0.72416开福区2.19298-0.45866-0.83085芙蓉区2.08796-0.50534-0.5505韶山市-0.91746-0.56214-0.77196珠晖区-0.55723-0.56425-0.46516岳麓区1.45699-0.580941.23258芦淞区0.21215-0.69499-0.71963蒸湘区-0.26777-0.71040.11852雁峰区-0.38474-0.72807-0.23814冷水江市-0.52632-0.769770.24196岳塘区-0.17063-0.807974.05482石鼓区-0.50065-0.89095-0.47746荷塘区-0.52568-0.90298-0.27158吉首市-0.62917-0.94762-0.53385天心区1.88982-1.00297-0.2474石峰区-0.27065-1.204681.40721南岳区.武陵源区.从表三的中得到排名最前的三个地区为浏阳市、汨罗市和湘乡市,且第二公共因子代表的是农业发展因子,因此这三个地区的农业发展状况在湖南省的33市区中是最好的,同时可以知道农业发展情况最差的三个地区分别是石峰区、天心区和吉首市。按照第三因子得分排序,SAS程序如下:proc sort data=sasuser.score out=sasuser.F3; /*对数据集score进行排序*/by descending factor3; /*按照factor3降序排序*/run;上述程序与第一因子得分排名的程序类似,在此不再进行解释,得到的结果如表四:表四 按第三公共因子排名结果地区Factor1Factor2Factor3岳塘区-0.17063-0.807974.05482望城区0.698291.185261.45853石峰区-0.27065-1.204681.40721耒阳市-0.6040.991661.36055岳麓区1.45699-0.580941.23258冷水江市-0.52632-0.769770.24196浏阳市0.826113.176740.20181蒸湘区-0.26777-0.71040.11852常宁市-0.812430.419440.03065雨湖区0.14624-0.126170.01155汨罗市-0.287021.6339-0.02957醴陵市-0.122831.19687-0.10693湘乡市-0.66991.35216-0.2319雁峰区-0.38474-0.72807-0.23814天心区1.88982-1.00297-0.2474荷塘区-0.52568-0.90298-0.27158临湘市-0.696770.64691-0.28095珠晖区-0.55723-0.56425-0.46516洪江市-0.88967-0.2699-0.46717石鼓区-0.50065-0.89095-0.47746吉首市-0.62917-0.94762-0.53385天元区-0.05968-0.20977-0.53724沅江市-0.77881.08835-0.54515芙蓉区2.08796-0.50534-0.5505津市市-0.86069-0.08185-0.62474涟源市-0.77580.27664-0.69494芦淞区0.21215-0.69499-0.71963永定区-0.65218-0.43701-0.72416雨花区2.449520.48849-0.76891韶山市-0.91746-0.56214-0.77196开福区2.19298-0.45866-0.83085南岳区.武陵源区.第三公共因子代表的是工业发展因子,因此从表三中得到湖南省33市区中工业发展情况最好的前三个地区分别是岳塘区、望城区和石峰区,工业发展情况最差的三个地区分别是开福区、韶山市和雨花区。在因子分析中得出了每个公共因子发展的地区排名情况,也就是说按照综合经济发展因子、农业发展因子和工业发展因子对33个市区分别进行排名,从中可以得出每一种因子下发展最好的地区和最差的地区。下面将按照三个公共因子的得分进行聚类分析,判断哪些地区的经济发展情况较为类似。(三)聚类分析1、数据检验根据上面因子分析的结果,即三个公共因子得分,进行聚类分析,判断湖南省的33个市区的哪些地区经济发展情况类似。由于要对数据进行聚类分析,因此需要对数据进行简单分析,检验该组数据是否适合进行聚类分析,所以下面将对数据集score进行图形分析和简单统计量分析,SAS程序如下:goptions reset=all;/*恢复系统默认的作图设置*/symbol1 v=dot cv=red h=3; /*设定第一幅图的格式,用点表示数据,颜色为红色,大小为3*/symbol2 v=diamond cv=orange h=3;symbol3 v=triangle cv=green h=3;title f=隶书 c=green 湖南省33市区因子得分Bubble Plots;/*设定标题一的格式*/title2 h=1.2 2011;axis1 label=(f=complex c=blue a=90 variable factor1-factor3) c=blue;/*设定坐标轴一的格式*/axis2 label=(f=complex c=blue area) c=blue;proc gplot data=sasuser.score; /*指定需要作图的数据集*/plot factor1*x0 factor2*x0 factor3*x0 /haxis=axis2 vaxis=axis1 noframe overlay;/*指定需要作图的三个坐标,同时设置相应的格式*/run;1. goptions reset=all ,表示将所有的全局语句和有关图形的设置恢复为系统默认设置。2. symbol1 v=dot cv=red h=3 ,第一个图用点表示,颜色为红色,点的大小设定为3。3. symbol2 v=diamond cv=orange h=3 ,第二个图用菱形表示,颜色为橙色,菱形大小设定为3。4. symbol3 v=triangle cv=green h=3 ,第三个图用三角形表示,颜色为绿色,三角形的大小设定为3。5. title f=隶书 c=green 湖南省33市区因子得分Bubble Plots ,设置标题一,字体为隶书,颜色为绿色,标题的名字为“湖南省33市区因子得分Bubble Plots”。6. title2 h=1.2 2011 ,设定标题二,字的大小为1.2,标题名字为“2011”。7. axis1 label=(f=complex c=blue a=90 variable factor1-factor3) c=blue ,设置坐标轴一,坐标轴的颜色为蓝色,坐标轴标签的字体为complex、颜色为蓝色,标签形状旋转90度,标签的名字为“variable factor1-factor3”。8. axis2 label=(f=complex c=blue area) c=blue ,设置坐标轴二,坐标轴的颜色为蓝色,坐标轴标签的字体为complex、颜色为蓝色,标签的名字为“area”。9. proc gplot data=sasuser.score ,指定需要画图的数据集为score。10. plot factor1*x0 factor2*x0 factor3*x0 ,设定三个图的坐标,例如图一以factor1的数据为纵轴,x0的数据为横轴作图。11. haxis=axis2 vaxis=axis1 ,设定横轴的格式为前面设定的axis2坐标的格式,纵轴的格式为axis1的格式。12. noframe ,设定图形不需要边框。13. overlay ,表示把三幅图画在一幅图上。程序输出结果为:图五 因子得分Bubble Plots图从图五中观察三个因子的数据分布情况,认为每个因子的数据都是离散的,因此从图形的简单分析中得出这些数据适合做聚类分析,但是还是要从统计量上对数据进行检验,SAS程序如下:proc means data=sasuser.score maxdec=2 mean std max min range; /*对sasuser中的数据集score进行means过程分析*/var factor1-factor3; /*选取变量factor1-factor3进行分析*/run;1. proc means data=sasuser.score是指对逻辑库Sasuser中的数据集score进行均值(Means)过程分析。2. mean、 std、max、min、range是规定需要输出的统计量分别为均值、标准差、最大值、最小值和极差。3. maxdec=2的意思是对数据保留两位小数。4. var factor1-factor3表示的是所要进行分析的变量为factor1-factor3。根据程序的输出结果为:图六 描述性统计量分析结果从图六的输出结果中以看出每个变量的最大值与最小值之间的极差都很大所以认为该数据集适合进行聚类分析。2、分层聚类 经过前面对数据的检验,认为该数据集适合做聚类分析,因此下面将对该数据集进行聚类分析,SAS程序如下:proc cluster data=sasuser.score method=ward outtree=sasuser.abc std; /*对数据集Eco进行聚类分析*/var factor1-factor3; /*聚类分析的变量为X1-X7*/id x0; /*选定变量X0*/proc tree data=sasuser.abc horizontal ;/*对数据集abc中的数据画聚类谱系图*/run;1. proc cluster data=sasuser.score,该语句是说对数据集score进行聚类分析。2. method=ward,规定聚类分析的方法为wsrd(离差平方和法)。3. outtree=sa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 18396-2025胶乳表面张力的测定
- 高考作文中的责任与担当试题及答案
- 资本市场的风险与机遇试题及答案
- 材料疲劳裂纹扩展控制策略重点基础知识点
- 材料疲劳寿命预测模型原理重点基础知识点
- 公共体育场火灾应急预案(3篇)
- 公司火灾-爆炸应急预案(3篇)
- 血液透析火灾的应急预案(3篇)
- 信息处理技术员考试准备技巧试题及答案
- 行政管理学科发展的新思路与新途径试题及答案
- 音协入会申请书
- 外卖餐饮业食品安全管理与操作规程培训课件
- 《智慧运输运营》课程标准
- 2025届陕西省汉中南郑区数学三年级第一学期期末经典模拟试题含解析
- 员工团队合作
- 压缩空气管道管理规定模版(3篇)
- 当代中国外交(外交学院)知到智慧树章节测试课后答案2024年秋外交学院
- 舆情监测平台解决方案
- 初中地理七年级第二学期期末试卷及答案-沪教版-2024-2025学年
- 防汛抢险人员安全培训
- 《香菱形象分析》课件
评论
0/150
提交评论