版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章相关分析与回归模型的建立与分析相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。本章主要内容:1、对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析TOC o 1-5 h z()和偏相关分析()。2、建立因变量和自变量之间回归模型(),其中包括线性回归分析()和曲线估计()。数据条件:参与分析的变量数据是数值型变量或有序变量。3.1相关分析在中,可以通过菜单进行相关分析(),菜单如图所示。图相关分析菜单3.1.简1单相关分析两个变量之间
2、的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。3.1.1散.点1图软件的绘图命令集中在菜单。下面通过例题来介绍具体操作方法。例1数据库中的变量表示山东省人均国内生产总值,表示山东省城镇居民的消费额(资料来源:山东省200年统3计年鉴),现画出散点图来观察两个变量的关联程度。具体操作步骤如下:首先打开数据-然后单击打开散点图对话框,如图所示。然后选择需要的散点图,图中的四个选项依次是:Simple简单散点图Matrix矩阵散点图Overlay重叠散点图3-D三维散点图图3.2散点图对话框如果只考虑两个变
3、量,可选择简单的散点图,然后点击,打开对话框如图所示。-图对话框选择变量分别进入X轴和Y轴,点击0K后就可以得到散点图,见图3.4。从下面输出的人均国内生产总值与城镇居民消费额的散点图3.4中可以粗略地看出,两个变量之间有强正相关的线性关系。人均国内生产总值(元)图3.4散点图3.1.1简.单2相关分析操作简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出定量分析。仍然数据为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:1打开数据库后,单击打开对话框,见图所示。2S1BivariateCorrelationsVariables:OKIPaste
4、CancelHelpI、从左边的变量框中选择需要考察的两个变量进入框内,从栏内选择相关系数的种类,有相关系数,d一致性系数和等级相关系数。从检验栏内选择检验方式,有双尾检验和单尾检验两种。3单击计描述,见图3按纽,选择输出项和缺失值的处理方式。本例中选择输出基本统所示。图:对话框4单击,可以得到相关分析的结果。从表()可以得到两个变量的基本统计描述,从表中可以得到相关系数及对相关系数的检验结果,由于尾概率就小于0.0,故1说明两变量之间存在着显著的线性相关性。表()基本统计描述DescriptiveStatisticsMeanStd.DeviationN城镇居民消费额(元)2582.28002
5、335.9638425人均国内生产总值(元)3689.88003701.5079825表()相关系数检验Correlations城镇居民消费额(元)人均国内生产总值(元)城镇居民消费额(元)PearsonCorrelation1.998(*)Sig.(2-tailed)-.000N2525人均国内生产总值(元)PearsonCorrelation.998(*)1Sig.(2-tailed).000-N2525*Correlationissignificantatthe0.01level(2-tailed).从表()中可以看到两个变量相关性分析的结果:相关系数是9相关程度非常高,且假设检验的P值
6、远远地小于,可以认为居民收入与某产品的销量存在线性正相关关系。偏2相关分析简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。例2:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表3.。2试求火柴销售量与煤气户数的偏相关系数.表3.2火柴销量及影响因素表(见参考文献1)年份火柴销售量煤气户数卷烟销量蚊香销量打火石销量(万件)(万户)(百箱)(十万盒)(百万粒)6823
7、.6925.6823.610.14.186924.125.7723.4213.312.437022.7425.8822.099.496.57117.8427.4321.4311.0925.787218.2729.9524.9614.4828.167320.2933.5328.3716.9724.267422.6137.3142.5720.1630.187526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.
8、8220.098029.2571.2553.2933.5721.228131.0573.3755.3639.5912.638232.2876.685448.4911.17解:根据数据表建立数据文件-求解火柴销售量与煤气户数的偏相关系数具体操作如下:1首先打开数据文件-单击,打开对话框,见图所示。火柴销量煤气户数打火石量蚊香销量卷烟销量2从左边框内选择要考察的两个变量进入框内,其它客观存在的变量作为控制变量进入框内,如本例中考察煤气户数与火柴销量的偏相关系数进入框内,其它相关变量(除年份外)进入框内。3单击按纽,打开对话框如图所示。从栏中选择输出项,有平均值及标准差,表示在输出偏相关系数的同时输
9、出变量间的简单相关系数。另外还有缺失值的处理方式。本例中选择简单相关系数。图对话框、选择结束后,单击得输出结果,如表所示。表偏相关分析输出表-PARTIALCORRELATIONCOEFFICIENTS-ZeroOrderPartials简单相关火柴销量1.0000.8260-.4902.8083.8788(0)(13)(13)(13)(13)P=.P=.000P=.064P=.000P=.000煤气户数.82601.0000-.0230.9489.9029(13)(0)(13)(13)(13)P=.000P=.P=.935P=.000P=.000打火石量-.4902-.02301.0000-
10、.0070-.0295(13)(13)(0)(13)(13)P=.064P=.935P=.P=.980P=.917蚊香销量.8083.9489-.00701.0000.9030(13)(13)(13)(0)(13)P=.000P=.000P=.980P=.P=.000卷烟销量.8788.9029-.0295.90301.0000(13)(13)(13)(13)(0)P=.000P=.000P=.917P=.000P=.(Coefficient/(D.F.)/2-tailedSignificance)isprintedifacoefficientcannotbecomputedPARTIALCO
11、RRELATIONCOEFFICIE(简单相关系数(自由度)(P值)NTS偏相关系数打火石量蚊香销量卷烟销量Controllingford控制变量)火柴销量1.00006046(偏相关系数)(0)(10)(自由度)P=.P=.037(P值)火柴销量煤气户数煤气户数.60461.0000(10)(0)P=.037P=.(Coefficient/(D.F.)/2-tailedSignificance)isprintedifacoefficientcannotbecomputed表中的上半部分是简单相关系数,下半部分是偏相关系数。从表中可以看出,火柴销量与煤气户数的简单相关系数为,自由度为,检验的值
12、为0而偏相关系数为,自由度为,检验的值为,表示煤气户数对火柴销量的真实影响是显著的。3.2线性回归分析线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。3.2.线1性回归模型假设条件与模型的各种检验、线性回归的假设理论1)正态性假设:即所研究的变量均服从正
13、态分布;2)等方差假设:即各变量总体的方差是相等的;3)独立性假设,即各变量之间是相互独立的;()残差项无自相关性,即误差项之间互不相关,)、线性回归模型的检验项目()回归系数的检验(检验)。()回归方程的检验(检验)。()拟合程度判定(可决系数)。()检验(残差项是否自相关)。()共线性检验(多元线性回归)。()残差图示分析(判断异方差性和残差序列自相关)。.线2性回归分析的具体步骤。如图软件中进行线性回归分析的选择项为-所9示。下面通过例题介绍线性回归分析的操作过程。分析功能菜单例仍然用例的数据,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销
14、量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。解:建立线性回归模型的具体操作步骤如下:1打开数据文件,单击打开对话框如图所示。2从左边框中选择因变量进入框内,选择一个或多个自变量进入框内。从框内下拉式菜单中选择回归分析方法,有强行进入法选消去法,向前选择法,向后剔除法及逐步回归法五种。本例中选择逐步回归法。图对话框3单击,打开:对话框,可以选择输出的统计量如图所示。栏,回归系数选项栏。系统默认输出回归系数的相关统计量:包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(值)及相应的检验统计量概率的值()。本例中只选择此项。输出每一个非标准化回归系数的置信
15、区间。输出协方差矩阵。与模型拟合及拟合效果有关的选择项。是默认项。能够输出复相关系数、及修正值,估计值的标准误,方差分析表。引入或剔除一个变量时,的变化。基本统计描述。:相关系数及偏相关系数。,共线性诊断。主要对于多元回归模型,分析各自变量的之间的共线性的统计量:包括容忍度和方差膨胀因子、特征值,条件指数等。本例中选择上面所有的统计项。残差栏:检验奇异值诊断有两个选项:奇异值判据,默认项标准差三i输出所有观测量的残差值。本例中选择检验及奇异值诊断,选择标准差为2即置信度约为图:4如果需要观察图形,可单击按纽,打开:对话框如图所示。在此对话框中可以选择所需要的图形。在左上角的源变量框中,选择进入
16、(或)轴变量框,选择其它变量进入(或)轴变量框,除因变量外,其客观存在变量依次是:标准化预测值,标准化残差,剔除残差,修正后预测值,学生化残差,学生化剔除残差。栏,标准化残差图类型,有选择项:标准化残差直方图标准化残差序列的正态分布概率图依次绘制因变量和所有自变量的散布图本例中选择因变量与标准化残差的残差图。5单击按纽,打开可以从中选择模型拟合判断准则对话框,如图13。及缺失值的处理方式。栏,设置变量引入或剔除模型的判别标准。采用检验的概率为判别依据。采用值作为检验标准。回归方程中包括常数项。缺失值的处理方式。本例中选择系统默认项。6如果要保存预测值等数据,可单击按纽打开:对话框。选择需要保存
17、的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。7当所有选择完成后,单击得到分析结果。主要的分析结果见表。表3.4(a)ModelSummary(d)模型综合分析表ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatistics变动分析Durbin-WatsonRSquareChangeFChangedf1df2Sig.FChange1.879(a).772.7552.44047.77244.085113.0002.994(b).988.986.58304.216215.772112.00
18、03.997(c).994.993.41783.00612.365111.0052.066aPredictors:(Constant),卷烟销量(万箱)bPredictors:(Constant),卷烟销量(万箱),打火石销量(百万粒)cPredictors:(Constant),卷烟销量(万箱),打火石销量(百万粒),煤气户数(万户)dDependentVariable:火柴销量(万件)表()模型综合分析中有模型的复相关系数,样本决定系数,修正的可决系数R2,估计标准误,模型变化导致的可决系数及值的变化,检验值等。由上表中知模型的修正的可决系数为9其模型的拟合程度最好,值为显然通过检验,说明
19、残差项不存在一阶自相关。表()方差分析表ANOVAdModelSofSaesdfMeanSareFSig.1egression262.5661262.56644.085.000aesidal77.427135.956Total339.993142egression335.9142167.957494.090.000besidal4.07912.340Total339.993143egression338.0733112.691645.483.000cesidal1.92011.175Total339.99314Predict。rs:(Constant)万箱Predictors:(Constan
20、t)万箱百万粒Predictors:(Constant)万箱百万粒万户DependentVariable:万件方差分析表()同时给出了个模型的方差分析表。其中模型的值最大,说明模型的回归效果最显著。表()回归系数非标准化回归系标准化回归数Unstandardized系数Standardized检验统计量P值相关系数共线性统计CollinearityModelCoefficientsCoefficientstSig.CorrelationsStatistics单相关容忍度方差膨Std.Zero-or偏相关Toleranc胀因子BErrorBetaderPartialParteVIF1(Const
21、ant)13.3921.9996.698.000卷烟销量(万箱).320.048.8796.640.000.879.879.8791.0001.0002(Constant)17.240.54531.647.000卷烟销量(万箱).315.012.86527.347.000.879.992.865.9991.001打火石销量(百万粒)-.243.017-.465-14.689.000-.490-.973-.464.9991.0013(Constant)17.420.39444.243.000卷烟销量(万箱).254.019.69813.228.000.879.970.300.1855.417打火
22、石销量(百万粒)-.243.012-.465-20.526.000-.490-.987-.465.9991.001煤气户数(万户).049.014.1853.516.005.826.727.080.1855.415aDependentVariable:火柴销量(万件)表()中的栏中,模型是先将卷烟销量作为自变量进入模型,模型将卷烟销量与打火石销量两个自变量进入模型,模型3是将卷烟、打火石和煤气户数三个自变量进入模型。第四个自变量蚊香销量没有通过检验自动剔除。回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.以7上,说明进入模型的自变量对因变量的影响都比较
23、显著。由最后两列的容忍度和方差膨胀因子的值来看,自变量之间不存在强烈的共线性。表()相关系数表Correlations火柴销量(万件)煤气户数(万户)卷烟销量(万箱)蚊香销量(十万盒)打火石销量(百万粒)PearsonCorrelation火柴销量(万件)1.000.826.879.808-.490煤气户数(万户).8261.000.903.949-.023卷烟销量(万箱).879.9031.000.903-.029蚊香销量(十万盒).808.949.9031.000-.007打火石销量(百万粒)-.490-.023-.029-.0071.000Sig.(1-tailed)火柴销量(万件)-.
24、000.000.000.032煤气户数(万户).000.000.000.468卷烟销量(万箱).000.000.000.458蚊香销量(十万盒).000.000.000.490打火石销量(百万粒).032.468.458.490.N火柴销量(万件)1515151515煤气户数(万户)1515151515卷烟销量(万箱)1515151515蚊香销量(十万盒)1515151515打火石销量(百万粒)1515151515相关分析表中表示的相关系数是全部变量(自变量与因变量)的两两变量之间的简单相关系数和相关性检验。表()残差统计esialstatistisiniaieanStd.eiatiorNPr
25、editedale17.927232.153225.98934.9140715esidal-.9332.9950.0000.3703715Std.Preditedale-1.6411.254.0001.00015Std.esidal-2.2332.381.000.88615a.eendentriaa:万件残差统计表()表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。表()共线性诊断表:CollinearityDiagnosticsodelDienioiiienaleonditionndeVarianeeroportionon
26、tant万箱百万粒万户111z100(03032016184212z2100(010103221;3031284304636861331366z100(01000200226;3200014023064688401240401118321300aDependentVariale:万件共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于2,0说明自变量之间不存在比较强烈的共线性。表()奇异值表(标准化残差值大于)CasewiseDiagnosticsaaebe-Stdeidil万件redietedValeeidal12238126286014-2233310318
27、32-332aDependentVariable:万件奇异值表()中依次是序号,标准化残差值,实际观测值、预测值及残差值。表中给出的两个个体数据的标准化残差(数据号为1和214超出了2。Scatterplot表()标准化残差图:DependentVariable:万件16182022242628303234万件由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。最终得回归模型为:j,17.42+0.254兀+0.049兀一0.243兀1243.3曲线估计上节介绍了线性回归模型的分析和检验方法。如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的
28、方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。提供了多种曲线方程。列出表如下:表3.可5化为线性方程的曲线方程函数名称方程形式相应的线性回归方程线性函数v,b+bx01二次多项式v,b+bx+bx2012y,b+bx+bxx,x2012复合模型y,bbx01Iny,Inb+xInb01生长曲线y,e(b0+bix)y,b+bxy,lny对数函数y,b+bInx01y,b+bxx,lnx01三次多项式y,b+bx+bx2+bx30123y,b+bx+bx+bxxr,x2;x,x30123曲线y,e(b0+b1/x)y,b+bxy,lny;
29、x,1/x指数函数y,bebx丿01y,b+bxy,lny;b,lnb0100逆函数y,b+(b/x)01y,b+bxx,1/x01幕函数y,b(xb1)0y,b+bxy,lny;b,lnb0100 x,lnx逻辑曲线y,(1/u+bbx)-101y,b+bx01y,ln(1/y-1/u);b,lnb;b,lnb001这里以例题说明曲线拟合的具体操作方法。例4:表3.表6示的是全国199年0至200年2人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。表3.6人均消费支出与教育支出数据表(见参考文献3)年份人均消费性支出(元)教育
30、支出(兀)解:首先根据上表建立数据-作出人均消费支出与教育支出的散点图如下:人4均消费与教育支出的散点图图由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。具体操作如下:打开1单击-对话框。如图3.1所5示、选择估计曲线:有多条曲线形式供选择。根据散点图,本例中选择,和曲线进行对比分析。、单击按纽,打开对话框如图所示。图:对话框选择需要保存到数据表中的项目。在栏中,复选项依次是:预测值、残差、预测区间,可以在下方框中选择置信度,默认值为。本例中不作选择。4、所有选择完成后,单击OK,得到输出结果如表3.7.:Independent:X决定系数自由度F值P值回归
31、系数DependentMthRsqd.f.FSigfb0b1b2YQUA.98710382.64.000252.698-.14752.5E-05YCOM.995112086.35.00020.95501.0004YPOW.95411229.58.0003.6E-051.8460表3.7曲线估计输出表与曲线图ObservedQuadraticCompoundPower年人均消费性支出(元从表中可以看出,可决系数接近1的模型是证这三个模型对观察值的拟合程度。下方选择输出方差分析表如表3.8所示:Display下面对以上三个模型进一步分析。在主对话框的AMOVAtable,可得到方差分析表的详细分析
32、结果表3.8曲线估计及方差分析表Dependentvariable.Y复相关指数MultipleR可决系数RSquareMethod.QUADRATI二次多项式.99353.98710修正的可决系数AdjustedRSquare.98452标准误StandardError45.70690AnalysisofVariance:方差分析表自由度平方和均方DFSumofSquaresMeanSquareRegression21598766.0799383.00Residuals1020891.22089.12F(检验统计量)382.64096SignifF(假设检验P值).0000Variables
33、intheEquationDependentvariable.YMethod.COMPOUND复合函数变量回归系数标准误标准化系数T值P值VariableBSEBBetaTSigTX-.147527.025041-1.134958-5.892.0002X*22.46018091E-052.2722E-062.08579710.827.0000(Constant)252.69789057.7922484.373.0014VariablesintheEquationVariablesintheEquationListwiseDeletionofMissingDataMultipleR.99737R
34、Square.99476AdjustedRSquare.99428StandardError.09002AnalysisofVariance:SumofSquares16.905289.089131MeanSquare16.905289.008103DFRegression1Residuals11F=2086.35111SignifF=.0000VariablesintheEquationVariablesintheEquationVariablesintheEquationVariableBSEBBetaTSigTX1.0004209.1977E-062.711154108768.23.00
35、00(Constant)20.9550191.22613917.090.0000Dependentvariable.YMethod.POWER幂函数ListwiseDeletionofMissingDataMultipleR.97687RSquare.95428AdjustedRSquare.95012StandardError.26578AnalysisofVariance:VariablesintheEquationVariablesintheEquationDFSumofSquaresMeanSquareVariablesintheEquationVariablesintheEquationRegression16.21738716.217387VariablesintheEqua
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 龙山龙虾活动策划方案(3篇)
- 2026上半年云南事业单位联考云南文化艺术职业学院招聘人员备考考试题库及答案解析
- 主题巴士活动策划方案(3篇)
- 2026山东济南市属事业单位招聘初级综合类岗位人员参考考试题库及答案解析
- 2026重庆市永川区朱沱镇人民政府招聘全日制和非全日制公益性岗位人员9人备考考试试题及答案解析
- 2026山东青岛崂山区事业单位招聘工作人员34人参考考试题库及答案解析
- 驾校红包活动策划方案(3篇)
- 2026湖北荆州市中心城区企业(民办高校)引进人才780人考试参考试题及答案解析
- 射门大赛活动策划方案(3篇)
- 2026年上半年黑龙江事业单位联考大庆市招聘164人备考考试试题及答案解析
- 云南省2026年普通高中学业水平选择性考试调研测试历史试题(含答案详解)
- 广东省花都亚热带型岩溶地区地基处理与桩基础施工技术:难题破解与方案优化
- 家里办公制度规范
- 基于知识图谱的高校学生岗位智能匹配平台设计研究
- GB 4053.3-2025固定式金属梯及平台安全要求第3部分:工业防护栏杆及平台
- 环氧抛砂防滑坡道施工组织设计
- 2026中央广播电视总台招聘124人参考笔试题库及答案解析
- DB15∕T 3725-2024 煤矸石路基设计与施工技术规范
- 钢结构屋架拆除与安装工程施工方案
- 动力电池储能车间事故应急处置预案
- JG/T 3030-1995建筑装饰用不锈钢焊接管材
评论
0/150
提交评论