主成分分析法在粮食产量中的应用_第1页
主成分分析法在粮食产量中的应用_第2页
主成分分析法在粮食产量中的应用_第3页
主成分分析法在粮食产量中的应用_第4页
主成分分析法在粮食产量中的应用_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析法在粮食产量中的应用摘要主成分分析的基本思想是设法将原来指标重新组合成一组新的互相无关的几个综 合指标来代替原指标,并根据实际需要从中取几个较少的综合指标尽可能多的反映原来 指标的信息。主成分分析法适合处理一些多变量,数据大的问题,具有广泛的应用。本文利用主成分分析法的方法对粮食产量问题予以分析。由于粮食产量受多个因素的影响,所以利用主成分分析法中降维的思想,通过多元回归分析,得到回归预测的模 型。由于预测的模型存在共线的可能,所以进一步对所预测的模型进行检验,从而得到 最优的模型。【关键词】主成分分析因子分析粮食问题Principal Component Analysis and

2、Its ApplicationsAbstractThe basic idea of principal component analysis is to try to reassemble the original indicators into a new set of several mutually independent comprehensive index to replace the original index, and according to the actual need to be taken several less comprehensive index as mu

3、ch as possible to reflect the original indicators information. Principal component analysis method is suitable to deal with some multivariate data big problem, with a wide range of applications.In this paper, the principal component analysis methods are analyzed for food production problems. Because

4、 food production affect multiple factors, so the use of principal component analysis in dimensionality reduction ideas, through multiple regression analysis, regression prediction model. May be due to the presence of the line model prediction, the prediction model further tested to obtain the optima

5、l model.key words 】 principal component analysis factor analysis food issues目录一、引言 . 1二、主成分分析法的基本概念 . 1(一)主成分分析法的简介 1(二)主成分分析法的特点 1(三)主成分分析法的基本原理 1三、主成分分析法的应用 2(一)问题的提出 2(二)样本数据的选择 2(三)问题分析 3(四)定义变量 3(五)用SPSS进行主成分分析的步骤 3(六)模型的建立与求解 4四、结束语 9参考文献 : 9致谢 11主成分分析及其应用一、引言主成分分析也称主分量分析,是利用降维的思想,把多指标转化为少数几个综

6、合指 标。在实际问题的研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。 这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的 统计数据反映的信息在一定程度上有重叠。本文主要针对我国的粮食问题,采用主成分分析的方法,利用SPSS软件对影响我国粮食产量的因素做出分析,从而得到最优的预测模型。二、主成分分析法的基本概念(一)主成分分析法的简介主成分分析法主要是将影响问题的多种因素简化,把有相关性的因素删除,通过剩 下的主要因素来分析问题。例如,企业活动中的活动项目数与项目经费、经费支出等之

7、 间会存在较高的相关性;学生综合测评中的基础课成绩和选修课成绩、获奖学金次数等 之间也会存在较高的相关性。因而我们通过运用主成分分析法来解决多变量的问题。主成分分析法 Principal component analysis(PCA)是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差, 称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依 次类推,i个变量就有i个主成分。(二)主成分分析法的特点主成分分析法是在不丢失重要信息的基础下,把众多的变

8、量缩减为几个主要因素, 缩减后的变量通常有以下特点:1. 缩减后的主要成分的个数小于原来变量的个数。2. 缩减后的主要成分必须含有大部分的原始信息。3. 缩减后的主要成分应该不再具有相关性。4. 主成分具有命名解释性。(三)主成分分析法的基本原理主成分分析实际上是一种降维方法。主要思想是将原本具有相关性的多个变量 X1,X2,,Xp (例如p个变量),通过降维,选出新的数量较少的不相关变量,组成新 的综合性指标Fm来代替原来指标。设F1为原变量中的第一个具有线性相关的主成分指标,即 R =梯1 *12X2川比1pXp,由数学知识可知,每一个主成分所提取的信息量可用其 方差来度量,其方差Var(

9、F1)越大,表示F1包含的信息越多。常常希望第一主成分 F1所 含的信息量最大,因此在所有的线性组合中选取的F1应该是XX2,Xp的所有线性组 合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来 p个指标的信 息,再考虑选取第二个主成分指标 F2,为有效地反映原信息,F1已有的信息就不需要 再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差 Cov(F1,F2)=0,所以F2是与F不相关的X1,X2, ,Xp的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1,F2,Fm为原变量指标X1,X2,Xp第一、第二、,、第 m个主成分Fi -

10、 11X i 、12 X 2 、“ i p X pFmm1X1根据以上分析得知:(1) F 与 Fj 互不相关,即 Cov(Fj,Fj)=0(2)F1是XX2,,Xp的一切线性组合(系数满足上述要求)中方差最大的,” 即Fm是与FF2,Fm都不相关的XX2,Xp的所有线性组合中方差最大者。FF2,,Fm(m乞P)为构造的新变量指标,即原变量指标的第 1、第2、,、第 m 个主成分。三、主成分分析法的应用(一)问题的提出粮食是国家的根本,失去粮食或者缺少粮食不仅会对我们个人的生活产生影响,对 国家乃至世界都会有很大的冲击。在我国,人口数量庞大,对粮食的需求量也相应增大, 因此要使粮食品种的产和销

11、、供与求满足动态的平衡,确保生产足够数量的粮食。而粮食的产量是随着投入生产要素的变化而变化的,反映出投入与产出之间存在着一种数量关系,这种关系可以用一种数学表达式表现出来,这种表达式常称作生产函数。 而本文将利用主成分分析法,研究粮食产量与影响因素之间的关系,以此寻找粮食稳定 增产的有效途径(二)样本数据的选择全文以2009年版的中国统计年鉴2009为资料来源,用到了 1995年到2008年 14年的数据作为样本点。利用 SPSS软件,建立以粮食的播种面积、成灾面积、有效灌 溉面积、农业机械总动力和农业化肥施用量为变量的多元线性回归模型,对影响粮食产 量的因素进行实证分析。表1年份粮食产 量(

12、万 吨)Y播种面积(千公顷)/X1成灾面积(千公顷)/X2农用机械 总动力(万千瓦)/X3有效灌溉面 积(千公顷)/X4化肥施用 量(万吨)/X5199546662110060458243611849281359419965045411254846991385475038138281997494171129125342742016512393981199851230113787501454520852296408419995083911316149980 1489965315841242000462181084635468852574538204146200145264106080522155

13、5172542494254200245706103891469465793054355433920034307099410545066038754014441220044694710160637106 164028544784637200548402104278388186839855029476620064980410495841091725225575049282007P 50160 10563848992 :765905651851082008528711067933999082190584725239数据来源:2009年版的中国统计年鉴2009(三)冋题分析每年的粮食产量受很多因素的影

14、响,例如劳动生产力,环境气候变化,技术提高等, 为了包含这些基本因素,本文选择了以农业化肥施用量、粮食播种面积、成灾面积、有 效灌溉面积、农业机械总动力等为解释变量,以粮食产量为被解释变量。(四)定义变量Y :表示粮食产量(万吨);Xi:表示粮食播种面积(千万顷);X2:表示成灾面积(公顷);X3:表示农业机械总动力(万千瓦);X4 :表示有效灌溉面积(千公顷);X5:表示化肥施用量(万吨);(五)用SPSS进行主成分分析的步骤1. 利用SPSS对模型进行初步拟合(1)将原始数据输入SPSS数据编辑窗口并命名。(2)在SPSS窗口点击分析,选择回归分析中的线性菜单项,调出线性回归的主界 面。(

15、3)将变量移入相应变量框。(4)方法选择:Enter。点击统计按钮,选择我们想要观察的选项,例如:回归系 数的估计、模型拟合、共线性诊断等。(5)点击确定。通过以上步骤即可得到最终模型的拟合优度检验表、方差分析表、系数分析表、共 线性诊断表等。2. 利用SPSS进行因子分析(1)在SPSS窗口中点击分析,选择数据缩减中的因子分析菜单项,调出因子分析 主界面。(2)将变量移入变量框。(3)点击描述,在相关矩阵中点击系数和显著性水平,然后点击继续。其他均为 系统默认选项。(4)点击确定。通过如上步骤即可得到特征根和方差贡献率和因子载荷阵表。3. 利用SPSS对模型进行逐步回归(1)在SPSS窗口点

16、击分析,选择回归分析中的线性菜单项,调出线性回归的主界 面。(2)将变量移入变量框。(3)方法选择:Stepwise。点击统计按钮,选择同之前一样的选项。(4)点击确定。通过以上步骤即可得到拟合的模型中只包含有用变量的相关分析表。(六)模型的建立与求解1. 多元回归模型的初步建立与初步检验1.1多元回归模型的初步建立(1)对粮食产量与粮食播种面积、成灾面积、农业机械总动力、有效灌溉面 积、化肥施用量建立一个回归模型:y =0X=2X2 川二3X3 匕4X4 匕5X5 (注:>0, >1, >2, >3, >4, >5 是待定系数)(2) 利用SPSS软件,通

17、过最小二乘估计得到系数的估计值,如表2。表2系数分析表Coefficie ntsModelUn sta ndardizedCoefficie ntsStan dardizedCoefficie ntstSig.BStd. ErrorBeta(Co nsta nt)-36622.50916184.835-2.2630.053播种面积0.6180.0771.0177.9770.000成灾面积-0.1190.039-0.255-3.0350.016农用机械总动力-0.1490.173-0.775-0.8660.412有效灌溉面积-0.1320.379-0.116-0.3490.736化肥施用量9.0

18、863.6521.6002.4880.038Depe ndent Variable:粮食产量B是待定系数值;Std. Error是标准误差;T检验是比较平均值的方法,Sig值是t值的显著性,它的意思是说,平均值是在 百分之几的概率上是相等的。所以t和Sig两者是等效的,看Sig就够了。Sig值要求 小于给定的显著性水平,一般是 0.05、0.01等,Sig越接近于0越好。一般将这个sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%勺几率 上是相等的,而在小于95%勺几率上不相等。我们认为平均值相等的几率还是比较大的, 说明差异是不显著的,从而认为两组数据之间平均值是相等的。如果

19、它小于0.05,说明平均值在小于5%勺几率上是相等的,而在大于95%勺几率上 不相等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组 数据之间平均值是不相等的。(3)确定初步模型方程由表2可以看到B对应的一列即为待定系数值,便可得到初步拟合后的多元回 归线性方程:Y =0.36622.509 0.618X0.119X0.149X0.132X4 9.08651.2多元回归模型的初步检验表3最终模型的拟合优度检验表Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate10.9840.9680

20、.949626.81275Predictors:(Constant),化肥施用量,成灾面积,播种面积,有效灌溉面积,农用机械总动力Depe ndent Variable:粮食产量R是相关系数;RSquare是相关系数的平方,又称判定系数,判定线性回归的拟合 程度,R2越大越好,一般的,大于 0.8说明方程对样本点的拟合效果很好,0.5 0.8 之间也可以接受;Adjust R Square是调整后的判定系数;Std. Error of the Estimate是估计标准误差。表4回归模型的方差分析表ANOVAModelSum of SquaresdfMean SquareFSig.Regres

21、si on96498261519299652 49.1270.000Residual31431538392894Total9964141413Predictors:(Constant),化肥施用量,成灾面积,播种面积,有效灌溉面积,农用机械总动力Depe ndent Variable:粮食产量F是检验方程显著性的统计量,是平均回归平方和与平均剩余平方和之比,越大越 好。“Sig ”,Sig=significanee ,意为“显著性”,后面的值就是统计出来的P值,如果 P值是0.01 : P : 0.05,则为差异显著,如果 P 0.01,则差异极显著。(1)从表3可以看到,R2 =0.968,

22、很接近1,表明模型拟合程度很好。而表 4 中的F=49.1 2 7 而查表得 F°.05(5,14) = 2.96,所以,F =49.127 >F°.05(5,14) =2.96,并且F检验的显著性概率(Sig )为0.000,反映 变量间呈高度线性。因此,我们可以得出结论:X1,X2,X3,X4,X 5之间存在显著的线性关系。(2)但从表2总的T检验的显著性概率(Sig )可以看出X3,X4的参数大于显著性 水平=0.05),说明差异不显著,所以没有通过检验。我们首先考虑在变量间可能存在多重共线性。2. 优化模型2.1因子分析诊断表5 KMO检验和巴特利球体检验表K

23、MO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampli ng Adequacy.0.589Bartlett's Test ofApprox. Chi-Square90.78SphericityDf10Sig.0.000可以看到KMO勺检验系数 0.5 ,巴特利球体检验的统计值的显著性概率 Sig : 0.05 , 满足做因子分析的条件,可以进行因子分析。表6变量间的相关系数矩阵表Correlati on Matrix播种面积成灾面积农用机械 总动力有效灌溉 面积化肥施用量Correlati on播种面积1.0000.

24、311-0.649-0.565-0.572成灾面积0.3111.000-0.491-0.370-0.508农用机械总-0.649-0.4911.0000.968-0.990动力有效灌溉面-0.565-0.3700.9681.0000.954积化肥施用量-0.572-0.5080.9900.9541.000从表6相关系数矩阵中,我们可以发现,X3 , X4 , X5具有高度相关性。表7总方差解释表Total Varia nee Expla inedComp onentIn itial Eige nvaluesTotal% of Varia neeCumulative %13.65973.1797

25、3.17920.74514.89988.07730.55711.13899.21640.0360.72099.93650.0030.064100.00In itial Eige nvalues是初始特征根;从总方差解释中可以看出,只有变量Xi的特征值是大于1的,所有适合作为降维的公因子,它解释的累积方差为73.179%。表8变量的因子载荷阵表Comp onent MatrixComp onent1播种面积-0.718成灾面积-0.583农用机械总动力0.987有效灌溉面积0.941化肥施用量0.971在因子载荷矩阵中,我们可以看出,第一个主成分因子是和X3,X4,X5高度相关的 2.2模型建立

26、在因子分析的基础上,我们使用 SPSS软件中的逐步分析,来观测模型的拟 合。表9最终模型拟合的优度检验表Model SummarydModelRR SquareAdjusted RSquareStd. Error of the EstimateDurbi n-Wats on10.590a0.3480.2942326.7425320.947b0.8970.878966.4229930.979c0.9580.946645.900041.750a :Predictors: (Con sta nt),b :Predictors: (Con sta nt),c :Predictors: (Con sta

27、 nt),d :Depe ndent Variable:播种面积播种面积,化肥施用量播种面积,化肥施用量,成灾面积 粮食产量 从表9中可以看出:第一种建立的模型(即只有 X1 一个变量)的R2 = 0.348,调整后的R2为0.294 ;第二种建立的模型(即有 X1,X5两个变量)的R2 = 0.897,调整后的R2为0.878 ; 第三种建立的模型(即有X1,X2,X5三个变量)的R2 =0.958,调整后的R2为0.946 因为R值越接近1,拟合程度越好,所以由R值我们可以得出第三种模型的拟合程 度较好。表10方差分析表ANOVAModelSum ofSquaresdfMea n Squa

28、reFSig.1Regressi on346766451346766456.4050.026aResidual64964769125413730Total99641414132Regressi on8936770724468385347.8430.000bResidual1027370711933973Total99641414133Regressi on9546954633182318276.2800.000cResidual417186810417186Total9964141413a :Predictors: (Con sta nt),b :Predictors: (Con sta nt

29、),c :Predictors: (Con sta nt),d :Depe ndent Variable:播种面积播种面积,化肥施用量播种面积,化肥施用量,成灾面积 粮食产量 从表10中可以看出:第一种模型的F=6.405,Fo.o5(1,14) =4.60, F>4.60,并且 Sig.=0.026;第二种模型的F=47.843,F°.05(2,14) =3.76, F- 3.76,并且 Sig.=0.000;第三种模型的F=76.280,F0.05(3,14) =3.34, F>3.34,并且 Sig.=0.000。看F检验的显著性概率sig的数值,在0.01至0.0

30、5之间就是显著,小于0.01就 是极显著。所以由表中的Sig我们也可以看出第三种模型的拟合程度最好。表11系数分析表Coefficie ntsaModelUn sta ndardized Coefficie ntsStan dardizedCoefficie ntstSig.BStd.ErrorBeta1(Co nsta nt)9851.44715228.340.6470.530播种面积0.3590.1420.5902.5310.0262(Co nsta nt)-46430.59700.65-4.7860.001播种面积0.6730.0721.1079.3770.000化肥施用量5.1310.

31、6700.9047.6520.0003(Co nsta nt)-37137.66923.74-5.3640.000播种面积0.6780.0481.11614.1330.000化肥施用量4.3300.4950.7638.7530.000成灾面积-0.1340.035-0.287-3.8240.003a:Depe ndent Variable:粮食产量 从表11我们可以看出三种模型拟合的参数,由此可写出方程:第一种模型方程:丫二 9851.447 0.359X1 ;第二种模型方程:丫二-46430.5 0.673Xi 5.131Xs;第三种模型方程:丫二-37137.6 0.678X1 -0.13

32、4X2 4.33X5。根据和,得出的结论,我们可以确定模型最佳的拟合方程为丫二37137.6 0.678X1-0.134X2 4.33X5。2.3最终模型的确定最后的回归方程为:Y - -37137.6 0.678X1 -0.134X2 4.33X5通过以上分析,我们可以得到结论:粮食的产量与播种面积,受灾面积,化肥施用 量有密切关系。 经济解释:播种面积每增加1千公顷,粮食产量就增加0.678万吨。成灾面积每增加1千公顷,粮食产量就减少0.134万吨。化肥施用量每增加1万吨,粮食产量就增加4.330万吨,说明对我国的粮食产量的 影响较大。2.4结论与建议经过实证分析,粮食产量的主要受化肥施用量、播种面积和成灾面积的影响。播种 面积的增加和成灾面积的减少使粮食产量增加,化肥施用量的增加使得粮食产量增加, 但在实际中,有限的土地上只能施用有限的化肥。近年来城市化和工业化不得不再占用耕地,在耕地不足的情况下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论