版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 相关与回归分析Essentially, all m但一些很有用。)s are wrong, but some are useful.(从本质来说,所有模型都是错的,统计学家 Gee E. P. Box一个国家香烟的消费量与的有关系吗?父母的身高是否影响其的身高?公司的市盈率与老总的薪酬有关联吗?接受高学历教育的人是否比低学历的人有更高的薪水?现实世界中存在着大量诸如此类,用统计语言来概况,就是两个或者个变量之间,是否存在相互关联?进而,存在相关关系的变量间又是如何相互影响的?相关分析(correlationysis)和回归分析(regresysis)可以用来回答这类问题,它们是研究现象
2、之间相互关系的两种基本方法。本章介绍这两种方法的理论与应用。第一节相关分析一、函数关系与相关关系变量之间的数量关系存在着两种不同的类型:一种是函数关系,另一种是相关关系。当一个变量取一定数值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。例如,某种商品的销售收入 y 与该商品的销售量 X、商品价格 P 之间的关系可用 YPX 表示,这就是一种函数关系。当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化。这种关系称为不确定性的相关关系。例如,商品的需求量与商品价格之间的关系、商品的需求量与居民收入之间的关系。相关关系可以用一定的函数形
3、式去近似地描述。函数关系可以用数学分析的方法去研究,而相关关系必须借助于统计学中的相关与回归分析方法。二、相关关系的类型按相关程度划分按相关的程度可分为完全相关、不完全相关和不相关。当一个变量完全由另一个变量的数量变化所确定时,这两个变量之间的关系为完全相关。此时,相关关系便成为函数关系。当两个变量彼此互不影响,其数量变化各自独立时,称为不相关。两个变量之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关关系都属于不完全相关。按相关方向划分按相关的方向可分为正相关和负相关。当两个变量的变化方向相同时,称为 相关;当两个变量的变化方向相反时,称为负相关。按相关形式划分按相关的形式可分为
4、线性相关和非线性相关。当两个变量的关系大致呈现线性关系时,1正称之为线性相关。如果两个变量之间的关系呈现于某种曲线方程,称之为非线性相关。 4.按变量多少划分按所研究的变量多少可分为单相关、复相关和偏相关。两个变量的相关,即一个变量对另一个变量的相关关系,称为单相关;一个变量对两个以上变量的相关关系,称为复相关;当假定其他变量不变时,其中两个变量的相关关系称为偏相关。三、相关分析与归分析相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 归分析则是研究变
5、量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进方程可以从已知量来推测未知量,从而为估算和定,确定一个回归方程,根据这个回归提供了一个重要的方法。、相关关系的测度1.散点图散点图又称相关图,是研究相关关系的直观工具。它是以直角坐标系的横轴代表变量 X,纵轴代表变量 Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。一般在进行详细的定量分析之前,可以先利用它对现象之间存在的相关关系的方向、形式和密切程度作出大致的判断。图 7.1 就是不同形态的散点图。2四回回 (a)完全正线性相关(b)完全负线性相关 (c)正线性相关(d)负线性相关 (f)
6、不相关(e)非线性相关图 7.1不同形态的散点图2.单相关系数单相关分析是对两个变量之间的相关程度进行分析。单相关分析所用的指标称为单相关系数(简称相关系数)。通常以表示总体的相关系数,以 r 表示样本的相关系数。总体相关系数的定义式是:Cov( X ,Y ) (7.1)Var( X )Var(Y )式中,Cov(X,Y)是变量 X 和Y 的协方差;Var(X)和 Var(Y)分别为变量 X 和Y 的方差。总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。样本相关系数的定义公式是:3r ( Xt X )(Y tY )(7.2)( X X )(Y Y )2tt具体计算样本相关
7、系数时,通常利用以下公式:n XtYt X t Ytr (7.3)nX (X ) nY (Y ) tt t t2222样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量,它有以下特点:(1)r 的取值介于1 与 1 之间。(2)当 r=0 时,只是表明两个变量之间不存性关系,它并不意味着 X 与 Y 之间不存在其他类型的相关关系。因此这时不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的解释。如果|r|1,则表明 X 与Y 完全线性相关,当 r1 时,称为完全正相关,而 r1 时,称为完全负相关。在大多数情况
8、下,0|r|1,即 X 与Y 的样本观测值之间存在着一定的线性关系,当 r0 时,Y 值随着 X 增加而增加,此时 X 与 Y 为正相关;当 r0 时,Y 随着 X 增加而减少,此时 X 与 Y 为负相关。可根据经验将相关程度分为以下几种情况:当|r|0.8 时,可视为高度相关;0.5|r|0.8 时,可视为中度相关;0.3|r|0.5 时,视为低度相关;当|r|0.3 时,说明两个变量之间的线性相关程度极弱,可视为不线性相关。但是,这种解释必须建立在对相关系数的显著性进行检验的基础之上。3.相关系数的检验实际中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性,样本容量越小其程度就越
9、差,因此需要对相关系数的显著性进行检验。相关系数的显著性检验可分为两类:一是对总体相关系数是否等于 0 进行检验;二是对总体相关系数是否等于某一个给定的不为 0 的数值进行检验。这里只介绍对总体相关系数是否等于 0 进行检验。通过 r 在X 与 Y 都服从于正态分布条件下,对于0 检验,可以采用 t 检验:r n 2t (7.4)1 r 2根据给定的显著性水平和度(n2),查找 t 分布表中相应的临界值 ta/2。若|t|ta/2,表明r 在统计上是显著的。若|t|ta/2,表明 r 在统计上是不显著的。例 7.1表 7.1 是 1985-2007 年市城镇居民人均年消费性支出(变量 Y)和人
10、均年可支配收入(变量 X)的有关资料,请对 X 和Y 变量进行相关分析。表 7.1市城镇居民家庭人均年消费支出与收入情况4年 份人均可支配收入 X(千元)市城镇居民家庭系数Z(%)人均消费支出 Y(千元)X2Y2XY19850.907750.600.92330.82390.85250.838119861.067550.901.06741.13961.13931.139419871.181952.701.14761.39681.31701.356319881.437051.101.45562.06492.11862.091619891.597155.301.52042.55072.31162.4
11、282数据来源:解:统计年鉴(2008),:中计,2008。首先,绘制变量X与Y的散点图:使用 SPSS 15.0 绘制散点图的方法是:依次选择“Graphs”“Legacy Dialogs”“Scatter/Dot”,然后在弹出的“Scatter/Dot框中选择“Simple Scatter”,再点击“Define”进入“Simple Scattlot”框,将X、Y 变量分别选入“X Axis”和“Y Axis”栏中,最后点击“OK”即可。519901.787154.201.64613.19372.70952.941619912.040454.661.86024.16343.46023.79
12、5519922.363752.802.13475.58704.55675.045619933.296047.802.939610.86398.64129.689019944.731246.404.134122.384617.090919.559519955.868448.505.019834.437625.198029.457819966.885546.605.729547.409832.826639.450019977.813143.706.531861.044742.664551.033819988.472041.106.970871.774448.592559.056719999.182
13、839.507.498584.323856.227568.8572200010.349736.308.4935107.116172.139587.9051200111.577836.208.9227134.045579.6146103.3052200212.463933.8010.2858155.3488105.7983128.2016200313.882631.7011.1238192.7266123.7389154.4273200415.637832.2012.2004244.5408148.8498190.7874200517.653031.8013.2442311.6284175.40
14、88233.7999200619.978030.8014.8250399.1205219.7806296.1739200721.989032.2015.3300483.5161235.0089337.0914合计182.1632145.00462381.20161410.04621828.4322图 7.2市人均可支配收入与人均消费散点图根据表 7.1 提供的数据,计算相关系数:n23, X 182.1632,Y 145.0046, X 2 2381.2016,Y 2 1410.0462, XY 1828.4322,根据公式(7.3),计算得到:n XtYt X t Ytr nX (X ) n
15、Y (Y ) tt t t222223 1828.4322 182.1632 145.0046(23 2381.2016182.16322)(23 1410.0462145.00462) 15639.4430 0.996815689.5562对该相关系数进行显著性检验:n 2t r0.99681 21 57.19811 r21- 0.996812查表可知,显著性水平为 5%时,度为 21 的临界值为 ta/2=2.08,上式中的 t 值远大于它,因此,r 能够通过显著性检验。这说明存在正相关关系。用 SPSS 计算相关系数的具体步骤如下:市城镇居民的人均年消费支出与收入之间首先,将变量 Y 和
16、变量X 的数据输入到 SPSS“数据视图”窗口中。第 1 步:选择“yze”下拉菜单;第 2 步:选择“Correlate”选项;第 3 步:选择“Bivariate.”(双变量);6人均 20.00消费支出15.0010.005.000.000.005.0010.0015.0020.0025.00人均可支配收入第 4 步:在“Bivariate Correlations”框中,将 X、Y 变量放入右侧“Variables”窗口,并在“Correlation Coefficients”(相关系数)中选择“Pearson”相关系数,显著性检验选择“Two-tailed”(双侧检验),然后点击“O
17、K”。在 SPSS 输出窗口,得到计算结果:表 7.3SPSS 相关系数输出结果7人均可支配收入人均消费支出人均可支配收入Pearson CorrelationSig. (2-tailed)1.997(*).000* Correlation is significanthe 0.01 level (2-tailed).结果显示,X 与 Y 变量的相关系数为 0.997,且通过了显著性检验(双侧显著性检验的 P 值为 0)。用 Excel 计算相关系数的具体步骤如下:首先,将变量 Y 和变量X 的数据输入到 Excel 工作表中。第 1 步:选择“工具”下拉菜单;第 2 步:选择“数据分析”选项
18、;第 3 步:在分析工具中选择“相关系数”,然后选择“确定”,也能得出同样的相关系数计算结果,但不能直接给出相关系数显著性检验的结果。4.相关关系与因果关系统计一下世界各国人均电视机拥有量 X 和预期Y,你会得到很高的正相关系数:拥有较多电视机的国家,其人民的预期也较长。你是否能够做出结论:人均电视机拥有量与预期存在着因果关系?因果关系的基本含义是:只要改变 X 的值,就可以使 Y 的值改变。能不能运一批电视机到,来延长当地人民的呢?当然。富国人民的预期长是因为他们有较好的营养、干净的饮用水以及较好的医疗服务。电视机与长短之间并没有因果关系。人均电视机拥有量 X 和预期Y 之间的相关属于“虚假
19、相关”,相关是事实,虚是“改变其中一个变量会导致另一个变量改变”的结论。此外,相关”例子:还可以举出很多“虚假统计分析表明,庆祝生日的次数与人的利于长寿?是正相关的,因此,多庆祝几次生日是否有对小学各年级学生的抽样表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,让学生穿更大尺码的鞋,他的识字水平就会水涨船高吗?上述错误的因果推断显然是很荒谬的。实际上,变量之间的相关关系,可以有不同的来源:直接关系。变量之间存在直接的因果关系,即 X 导致Y,或 Y 导致X。共同反应。X 和 Y 都会随另一个变量 Z 的改变而改变。这种共同反应会制造出一种相关关系,即使 X 和Y 之间根本不存在直接的因果
20、关系。人均电视机拥有量 X 和预期Y 即同时受到人均 GDP 的影响。交叉关系。解释变量 X 和潜在变量 Z 可能同时影响因变量 Y。因为变量 X 和 Z 有关系,大。无法把 X 对Y 的影响和 Z 对 Y 的影响分离,因此无法界定 X 对Y 的直接影响有多第二节一元线性回归分析统计可以根据目前所拥有的信息(数据)来建立所关心的变量和其他有关变量的关系。这种关系一般称为模型(m)。如果用Y表示感的变量,用X表示其他可能与Y有关的变量(X也可能是由若干变量组成的向量),则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量,又称被解释变量或响应变量(dependent variable, r
21、esponse variable),而X8N人均消费支出Pearson CorrelationSig. (2-tailed) N23.997(*).0002323123称为自变量,也称为解释变 或协变量(independent variable, explanatory variable, covariate)。建立这种关系的过程就叫做 归(regres)。一、总体回归函数与样本回归函数1.总体回归函数在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型,又称简单线性 归模型。该模型假定因变量 Y 主要受自变量 x 的影响,它们之间存在着近似的线性函数关系,
22、即有;Y t 0 1 X t u t(7.5)(7.5)式被称为总体回归函数。式中的 Yt 和Xt 分别是 Y 和X 的第t 次观测值(t=1,n),0 和 1 是未知的参数,又叫回归系数。ut 是随机误差项,又称随机干扰项,它是一个特殊的随量,反映未列入方程式的其他各种对 Y 的影响。2.样本回归函数总体回归函数事实上是未知的,需要利用样本的信息对其进行估计。根据样本数据拟合的直线,称为样本回归直线。一元线性回归模型的样本回归直线可表示为:YX(7.6)t01t式中的 Xt 是X 的第t 次观测值(t=1,n)。Y t 是样本回归直线上与 Xt 相对应的 Y 值,E(Yt)的估计。 0 是样
23、本回归函数的截距系数, 可视为是样本回归函数的斜率系数,1它们是对总体回归系数 0 和 1 的估计。实际观测到的因变量 Yt 值,并不完全等于Y t ,如果用 et 表示二者之差(et=Yt- Y t ),则有:Y t 1 X t et0(7.7)上式称为样本回归函数,式中 et 称为残差。 3.样本回归函数与总体回归函数的区别第一,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。第二,总体回归函数中的 0 和 1 是未知的参数,表现为常数;而样本回归直线中的 0 和 是随量,其具体数值随所抽取的样1回归这个术语是由英国著名统
24、计学家 Francis Galton 在 19 世纪末期研究孩子及他们的父母的身高时提出来的。Galton 发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高要高一些。 Galton 把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。9回回量本观测值不同而变动。因此,样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是采用适当的方法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。二、一元线性
25、归模的估计1.一元线性回归模型的统计假设回归分析的主要任务就是要建立能够近似反映真实总体回归函数的样本回归函数。估计回归参数最常用的方法是普通最小二乘法(ordinary least squares, OLS),这是由德国数学家最先。为了使该方法得到模型估计结果保证优良的统计特性,同时使回归模型具有更强的客观现实代表性,一元线性回归模型需满足如下统计假设:(1)随机误差项的期望值为 0,即对所有的 t 总有:E ( ut ) 0(2)随机误差项的方差为常数,即:var( ut ) E ( ut ) 22(3)随机误差项之间不存在序列相关关系,协方差为零,即当 t s 时,有:cov( ut ,
26、 us ) 0(4)自变量Xt 是非随量,也即其取值是确定的,与随机误差项线性无关。(5)随机误差项服从正态分布。2.普通最小二乘法在根据样本数据确定样本回归方程时,一般总是希望Y的估计值Y 从整体来看尽可能地接近其实际观测值。这就是说,残差et的总量越小越好。,由于et有正有负,简单的代数和会相互抵消,因此为了数学上便于处理,通常采用残差平方和作为衡量总偏差的尺度。法。普通最小二乘法就是根据这一思路,通过使残差平方和最小来估计回归系数的设:Q (Y Y )e 22ttt(Y X )2(7.8)t01t很明显,残差平方和 Q 的大小将依赖于 和 的取值。根据微积分中求极小值的原理,01可知欲使
27、 Q 达到最小,Q 对 和 的偏导数必须等于零。01将Q对 和 求偏导数,并令其等于零,:01 2 (Y t 1 X t ) 00 “二乘”来自于古汉语,就是平方的意思;“普通”意指对各残差项 et 求平方和时,采用等权处理,与普通最小二乘法相对应的,还有“最小二乘法”等方法,有的读者可参阅计量经济学。10型回 2 X t (Y t 1 X t ) 00经整理:n X t Yt X t Ytn X ( X(7.9)12) 2ttY / n X/ n Y X(7.10)0t1t1(7.10)式中, X 和Y 分别是 X 和Y 的样本均值。3.-定理为何要使用普通最小二乘法来估计一元线性模型呢?-
28、定理为应用这种方法提供了理论依据。可以证明,在统计假设条件得到满足的条件下,回归系数的最小二乘估计量 和 的期望值等于回归系数真值( 和 ),且和 是因变量 Yt 的线性函010101数,因此,最小二乘估计量 和 是总体回归系数的线性无偏估计量。数学上还可以进一01步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;同时随着样本容量的增加,其方差会不断缩小。也就是说,此时回归系数的最小二乘估计量是最优线性无偏估计量(Best Linear Unbiased Estimator, BLUE)和一致估计量。回归系数的最小二乘估计量所具有的上述性质首先是由数学家和提出并定理。通俗的
29、讲,该定理表明,在满足上述统计假定条证明的,因此被称为-件时,普通最小二乘法是一种最佳的估计方法。但是应当明确,这并不意味着根据这种方法计算的每一个具体的估计值都比根据其他方法计算出的具体估计值更接近回归系数真值,而只是表明如果反复多次进行估计值计算或是扩大样本容量进行估计值计算,按普通最小二乘法计算出的估计值接近真值的可能性(概率)最大。三、一元线性回归模型的检验得到回归模型的参数估计,还必须对其进行检验。回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义检验主要涉及参数估计值的符号和取值区间。例如,在对恩系数进行估计时,其取值区间应在 0 至 1 之间。如果根据样本数据估计的系数
30、大于 1 或小于 0,则不能通过经济意义检验。一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体包括拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验等。本节介绍一元线性回归模型的一级检验。1. 拟合优度的评价一元线性回归方程在一定程度上描述了变量 X 与 Y 之间的数量关系,根据这一方程,可根据自变量 X 的取值来估计或因变量 Y 的取值,但估计或的精度将取决于回归直线对观测数据的拟合程度。如果各观测数据都落在这一直线
31、上,那么这条直线就是对观测数据的完全拟合,此时用 X 来估计 Y 是没有误差的。各观测数据越是紧密围绕回归直线,说明回归直线对观测数据的拟合程度越好把回归直线与各观测数据的接近程度称为回归直线的拟合优度(goodness of fit)。度量回归直线的拟合优度最常用的指标是判定系数(又称11可决系数)该指标是建立在对总离差平方和进行分解的基础之上的。因变量的实际观测值与其样本均值的离差即总离差( Yt Y )可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差( Y t Y ),它可以看成是能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与理论回归值的离差( Yt Y
32、t ),它是不能由回归直线加以解释的残差 et。图 7.3对任一实际观测值 Yt 总有:Yt Y (Yt Y) (Y Y )离差分解图对上式两边平方并求和,得到:t(Y Y )2 (Y(Y Y ) 2(Y Y)(Y Y )Y )22tt可以证明: (Yt Y)(Y Y ) 0因此: (Y Y )2 (Y Y)2 (Y Y )2tt即SSTSSRSSE(7.11)其中,SST 是总离差平方和,SSR 称为回归平方和,它是由回归直线可以解释的离差平方和。SSE 称为残差平方和,是用回归直线无法解释的离差平方和。(7.11)式的两边同时除以 SST,得:SSRSSE1SSTSST显而易见,各个样本观
33、测点与样本回归直线靠得越紧,SSR 在 SST 中所占的比例就越大。因此,可定义该比例为可决系数,即:(Y Y )2(Y Y)2SSRR 2 1 t(7.12)SST(Y Y )2(Y Y )2tt可决系数是对回归模型拟合程度的综合度量。如果所有观测点都落在直线上,残差平方12和 SSE0,R21,拟合是完全的;如果 Y 的变化与 X 无关,X 完全无助于解释 Y 的离差,则 R20,可见 R2 的取值范围是0,1。R2 越接近于 1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好;反之,R2 越接近于 0,回归直线的拟合程度就越差。在一元线性回归中
34、,相关系数 r 的绝对值,实际上是判定系数的平方根;而相关系数 r与回归系数 1 的正负号是相同的。这一结论不仅可以使能由相关系数直接计算判定系数 R2,也可以使进一步理解相关系数的意义。实际上,相关系数 r 也从另一个角度说明了回归直线的拟合优度。|r|越接近 1,表明回归直线对观测数据的拟合程度就越高。 2.估计标准误差估计标准误差(standard error of estimate)是对各观测数据在回归直线周围分散程度的一个度量值,它是对随机误差项 ut 的标准差的估计。其计算公式为: (Y Y )2SSEs ttMSE(7.13)yn 2n 2估计标准误差 Sy 可以看作是在排除了
35、X 对Y 的线性影响后,Y 随机波动大小的一个估计量。从估计标准误差的实际意义看,它反映了用估计的回归方程因变量 Y 时误差的大小。若各观测数据越靠近回归直线,Sy 越小,回归直线对各观测数据的代表性就越好,根据估计的回归方程进行的拟合优度。3.显著性检验也就越准确。由此可见,Sy 也从另一个角度说明了回归直线回归分析中的显著性检验包括两方面的内容:一是对“各回归系数”的显著性检验;二是对“整个回归方程”的显著性检验。前者通常采用 t 检验,后者则是在方差分析的基础上采用 F 检验。在一元线性回归模型中,由于只有一个解释变量 X,因此,对 1 0 的t 检验与对整个方程的 F 检验是等价的。(
36、1)t 检验。回归系数的显著性检验就是检验回归系数是否等于 0,具体步骤如下:第 1 步:提出假设H0: 1 0H1: 1 0第 2 步:计算检验的统计量t (7.14)S2是回归系数 估计的标准差,1这个统计量服从度为 n2 的t 分布。上式中的 S1统计都会给出该值的计算结果:syS(7.15)1n1X 2 2Xii第 3 步:做出决策。确定显著性水平 a,并根据度 dfn2 查 t 分布表,找到相应的临界值 ta/2。若|t|ta/2,H0,回归系数等于 0 的可能性小于,表明自变量 X 对因变量 Y 的影响是显著的,即两个变量之间存在着显著的线性关系。若|t|ta/2,则不能13H0,
37、表明自变量 X 对因变量 y 的影响是不显著的,二者之间不存在显著的线性关系。(2)F 检验。为检验两个变量之间的线性关系是否显著,需要在方差分析的基础上进行 F 检验。将回归平方和(SSR)除以其相应的度(自变量的个数 P,一元线性回归中度为 1)后的结果称为均方 归,记为 MSR;将残差平方和(SSE)除以其相应的自由度(nP1,一元线性回归中度为 n2)后的结果称为均方残差,记为 MSE。一元线性回归模型下,如果原假设成立(H0:1 0 ,两个变量之间的线性关系不显著),则比值MSR/MSE的抽样分布服从分子度为 1、分母度为 n-2 的 F 分布,即SSR1/ MSR F (1, n
38、2)F (7.16)SSE /(n 2)MSE所以,当原假设(H0: 1 0 )成立时,F 值应接近 1;但如果原假设不成立,F 值将变得无穷大。因此,较大的 F 值将导致显著的线性关系。线性关系检验的具体步骤如下:第 1 步:提出假设原假设,就可以断定变量 X 与Y 之间存在着H0: 1 0两个变量之间的线性关系不显著第 2 步:计算检验统计量 FSSR1/MSRF SSE(n 2)MSE第 3 步:做出决策。确定显著性水平 ,并根据分子度 df11和分母度 df2(n-2)查 F 分布表,找出相应的临界值 F 。若 F F ,H0,表明两个变量之间的线性关系是显著的;若 F F ,不能4.
39、利用回归方程进行回归方程通过检验后,给定一个自变量,就可以根据回归方程来H0,表明两个变量之间的线性关系不显著。因变量的数值。但值得注意的是,如果自变量超出了现有数据的范围,进行的往往是靠不住的。假设你手上有 38 岁孩子的身高资料,根据散点图,很容易发现X 和身高 Y 之间存在很强的线性相关,利用统计个人 22 岁时的身高,你很容易得到一条回归直线。但是,如果你利用该回归直线一结果会让你目瞪口呆。当然,对人的身高进行时,没人会犯这种错误。但是几乎所有的经济测常常出错。都在试图告诉未来将会发生什么事情,难怪经济预例 7.2根据表 71 的数据,建立市城镇居民消费模型,以人均年消费性支出(变量
40、Y)为因变量,以人均年可支配收入(变量 X)为自变量,建立一元线性回归模型,并对回归方程进行显著性检验。假设 2011 年市人均年可支配收入为 2.9 万元,请根据已建立的消费模型2011 年人均消费支出。已知:n23, X 182.1632, Y 145.0046, X 2 2381.2016, XY 23 1828.4322182.1632 145.0046 0.7246 。1828.4322,根据公式(7.9),计算 =123 2381.2016182.1632214回根据公式(7.10),计算 0 145.0046 / 23 0.7246 *182.1632 / 23 0.5658 。
41、所以,一元线性回归方程为: Y 0.5658 0.7246 X 。tt上式中,0.7246 是边际消费倾向,表示人均可支配收入每增加 1 千元,人均消费支出会增加 0.7246 千元;0.5628 是元。性消费,即与收入无关的最基本人均消费为 0.5628 千将带入 X 2011 29 代 入回归 方 程,得到 2011年人均消费 支 出的 值Y 0.5658 0.7246 29 21.5792 。2011用 SPSS 进行一元线性回归的具体步骤:第 1 步:选择“yze”下拉菜单;第 2 步:选择“Regres第 3 步:选择“Linear”;”选项;第 4 步:在弹出的“Linear Re
42、gres”框中,将 Y 变量选入“Dependent”栏中,将 X 变量选入“Independent(s)”栏中,最后点击“确定”。15现在对 SPSS 输出窗口的计算结果进行分析:(1) SPSS 输出的回归系数及 t 统计量值:表 74SPSS 输出的回归系数一元线性回归方程: Y0. 60. 2X ,与前面的计算相同。ttt统计量为 57.199,如果显著性水平应的临界值ta/22.08。由于|t|ta/2,则能够的,二者之间存在显著的线性关系。为 0.05,度为 21,查t分布表,找到相H0,表明自变量X对因变量y的影响是显著表中的“Sig.”即为 t 检验的边际概率(P 值),其 0
43、.000 的取值同样说明有相当大的把握原假设 H0,表明自变量 X 对因变量y 的影响是显著的。(2)F 检验结果表 75SPSS 输出的F 检验结果(方差分析表)细心的同学可能发现,表 7.4 中给出了回归系数 估计的标准差 S 为 0.013,若使用该数据依据公式 22(7.14)计算t 统计量值,应为 55.769,而不是SPSS 直接给出的 57.199。其实这是由于SPSS 输出结果仅保留三位有效数字造成的累积计算误差, 57.199 是更为精确的结果。下文关于F 统计量的计算存在同样。如果需要查询保留到Excel 中,即可查看。位有效数字的输出结果,可以双击 SPSS 结果输出表,
44、再选中相应数字16Anovab模型平方和df均方FSig.非标准化系数标准系数tSig.MB标准 误差试用版1(常量)人均可支配收入.566.1294 390.000.725.013.99757 199.000a. 因变量: 人均消费支出得到 F 统计量为 3271.723,如果显著性水平0.05,查 F 分布表(分子度为1、分母度为 21),得到临界值 F 4.32。由于F F ,可以线性关系显著。F 检验的边际概率(P 值)为 0.000,同样表明方程整体线性关系显著。对于一元线H0,表明方程整体的性回归方程,其 F 检验和t 检验是等价的,因此 F 检验与 t 检验获得相同的结论就奇了。
45、表中给出了回归平方和(SSR)492.693,残差平方和(SSE)3.162,它们除以各度分别得到 MSR=SSR/1=492.693,MSE=SSE/21=0.151,根据公式(7.16),同样自到相同的 F 统计量值。(3)拟合优度表 76SPSS 输出的拟合优度数据 0.997 ,所以人均消费支出 Y 与人均可支配收入 X由于 为正数,且上表给出 r1的相关系数为 O.997。可决系数 R2 为 0.994,其统计含义:在人均消费支出的离差中,有 99.7%可以由消费与收入之间的线性回归方程来解释;或者说,在人均消费支出的变动中,有 99.7%是由收入决定的,说明该回归方程的拟合程度较好
46、。估计标准误差 sy 为 0.38806 千元,其统计含义:根据收入对消费进行估计时,平均的估计误差为 388.06 元。根据表 75 的数据,回归平方和(SSR)492.693,残差平方和(SSE)3.162,则总离差平方和(SST)492.6933.162495.856,可决系数SSR/SST492.693/495.8560.994,与表 76 的结果是一致的。利用公式( 7.13 ),根据表 75 给 出的 SSE 数据,估计标准误差 s y 3.162 / 21 0.388 ,与表 76 的结果是一致的。Excel也可进行一元线性回归,具体步骤为:第 1 步:选择“工具”菜单;第 2
47、步:选择“数据分析”选项;第 3 步:在分析工具中选择“回归”,然后选择“确定”。第 4 步:在“Y 值输入区域”输入变量 Y 的数据,在“X 值输入区域”输入变量 X 的数据,然后选择“确定”,即到与 SPSS 类似的输出结果。17模型汇总模型RR 方调整 R 方标准 估计的误差1.997a.994.99338806a.变量: (常量), 人均可支配收入。1回归残差总计492.6933 162495.85612122492.693.1513271.723.000a变量: (常量), 人均可支配收入。因变量: 人均消费支出第三节多元线性回归分析在许多实际问题中,影响因变量的往往有多个,这种一个
48、因变量同多个自变量的回归问题就是多元回归,当因变量同各自变量之间为线性关系时,称为多元线性 归。多元线性回归分析的原理同一元线性回归基本相同,但计算上要复杂得多,因此需借助于统计来完成。一、多元线性归模设因变量为 Y,p 个自变量分别为 X1,X2,XP,多元线性回归模型可定义如下:Y t 0 1 X 1 t 2 X 2 t p X u t(7.17)p t其中下标 t 表示自变量和因变量的第 t 次观测值(t=1,n),0,1,2,P 是模型的参数,ut 为误差项。X1,X2,XP 的线性函数( 0 式(7.17)表明:Y 是pt )对 Y 的影响,是不能由 X1,加上误差项 ut。误差项反
49、映了除 X1,X2,XP 之外的随机X2,XP 与 Y 之间的线性关系解释的误差。与一元线性回归模型相似,为了保证普通最小二乘法估计结果的优良统计特性,同时使回归模型具有更强的客观现实代表性,多元线性回归模型不仅要满足前述一元线性回归模型的五项统计假外还需满足:要有足够数量的数据来进行估计,即观测值的个数要大于待估计的参数的个数:(p+1) F ,则原假设;若 F F ,则不能原假设。根据计算机输出的结果,可以直接利用 P 值做出决策:若 P假设。2.回归系数的检验回归系数检验的具体步骤如下:,原假设;若 P ,则不原第 1 步:提出假设。对于任意参数i(i=1,2,p), H0:i=0H1:
50、i0第 2 步:计算检验的统计量 i i t(n p 1) ,t(7.22)isi其中 s 是回归系数 的抽样分布的标准差,即iisys(7.23)i1X ( X2)2iin第 3 步:做出统计决策。给定显著性水平,根据度(n-p-1)查 t 分布表,得 ta/2原假设。的值。若|t|ta/2,则原假设;若|t| F ,应原假设 H0,表明销售额与两个自变量之间的整体线性关系是显著的。F 检验的边际概率(P 值)为 0.000,同样说明有相当大的把握(3)拟合优度原假设 H0。表 7.9 SPSS 输出的拟合优度数据由表 87 可以得到以下结果:可决系数为 0.997。这个指标虽然不适合衡量模
51、型的拟合优度,但在下文将要介绍的 “复相关系数”计算中要使用。修正度的可决系数为 0.997,其统计含义是,在消费支出的全部离差中,有 99.7%可以由收入与系数的二元线性回归方程所解释。回归标准误差为 0.27276,其统计含义为,根据该二元线性回归方程对城镇居民消费水平进行时,平均的误差为 272.76 元。使用 Excel 也可以进行多元线性回归分析,方法同上一节介绍的一元线性回归分析,只是需要注意的是,作为回归模型自变量的各变量,要以相邻的方式安排在 Excel 数据表中。五、复相关系数和偏相关系数在多变量的情况下,变量之间的相关关系是很复杂的,多元相关分析除了要计算单相关系数外,还要
52、计算复相关系数与偏相关系数。1.复相关系数复相关系数是反映一个变量 Y 与其他多个变量 X1,X2,Xk 之间线性相关程度的指标。复相关系数的定义式如下:R (Yt Y )(Y t Y )(7.24) Y ) Y )2(Y2(Y tt上式与单相关系数的定义式(7.2)十分类似,不同之处仅在于用根据 X1,X2,Xp 等计算的回归估计值Y t 代替了单相关系数定义式中的Xt。在多元分析中,复相关系数的平方实际上就是多元线性回归方程的可决系数 R2 。因此,实际计算复相关系数时,一般不直接根据其定义式,而是先计算出可决系数,然后再求可决系数的平方根。需要注意的是,在多个变量的情况下,复相关系数只取
53、正值。这是因为,在多个变量时,偏回归系数有两个或两个以上,其符号可能有正有负,不能按正负来区别,所以复相关系数也就只取正值。由此可见,0R1。复相关系数为 1 表明Y 与X1,X2,Xk 之间存在严密的线性关系,复相关系数为 0 则表明Y 与X1,X2,Xk 之间不存在任何线性相关关系。一般情况下,复相22模型RR 方调整 R 方标准 估计的误差1.998a997.997.27276a.变量: (常量),系数, 人均可支配收入。关系数的取值在 0 和 1 之间,表明变量之间存在一定程度的线性相关关系。例 7.4根据表 71 的数据,计算市城镇居民家庭人均消费支出(变量 Y)与城镇居民家庭人均可
54、支配收入(变量 X)、城镇居民家庭系数(变量 Z)的复相关系数。上一节已经用 SPSS 建立了二元线性回归方程,表 7.9 给出了可决系数 R2 =0.997,所以,复相关系数为 R 0.997 0.9985。这说明 Y、X 与 Z 三个变量之间,存在较为明显的线性关系。2.偏相关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。偏相关系数不同于本章第一节所介绍的单相关系数。在计算单相关系数时,只需要掌握两个变量所观测数据,并不考虑其他变量对这两个变量可能产生的影响。而在计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量相互之间可
55、能产生的影响,一方面又采用一定的方法控制其他变量,专门两个特定变量的净相关关系。在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他的影响,反映的往往是表面的非本质的联系,而偏相关系数则更能说明现象之间真实的联系。例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关。,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关
56、系数,就有可能得出价格越高需求越大的错误结论。在明确偏相关系数与单相关系数区别的基础上,再来偏相关系数的定义公式。为简明起见,下面举 3 变量的偏相关分析为例。设有 3 个变量 X1、X2 和 X3。3 个变量各自以另两个变量为自变量拟合的样本回归方程如下:3 tX 2t X1tX3t2.1321.323.1X2t为截距系数,表示当模型中的自变量取零值时因变量的平均值。以上各式中的第 1例如, 1 23 表示 X2、X3 为0时 X1 的平均值。式中其他的回归系数称为偏回归系数,例如 12 3表示 X3 保持不变时,X2 变化一而引起的 X1 平均变化的数值; 32 1 表示 X1 保持不变时
57、,X2 变化一而引起的 X3 平均变化的数值。利用以上偏回归系数,3 个变量之间的偏相关系数可定义如下: 12.3 21.3 r12.3(7.25)2313.2 31.2 r13.2(7.26)r23.1 (7.27)23.132.1偏相关系数的取值范围与单相关系数一样也是在1 至1 之间。例 7.5根据表 71 的数据,计算市城镇居民家庭人均消费支出(变量 Y)与城镇居民家庭人均可支配收入(变量 X)、城镇居民家庭利用SPSS 计算偏相关系数的步骤:系数(变量 Z)的偏相关系数。第 1 步:选择“yze”;第 2 步:选择“Correlate”;第 3 步:选择“Partial.”;第4 步
58、:在“Partial Correlations框中,将变量 Y、变量 X 选入右侧“Variables”栏,将变量 Z 选入“Controlling”栏,选择“OK”。得到如下输出结果:24表 7.10 SPSS 输出的偏相关系数表 7.10 显示,变量 X、Y 的偏相关系数为 0.98,即在保持变量 Z 不变的情况下,居民消费水平 Y 与可支配收入 X 的偏相关系数为 0.98。而例7.1计算的 Y 与X 的单相关系数为0.997,二者数值存在差异。第四节 回归分析的其他问题一、非线性归分析在实际工作中,并非所有的社会经济现象都可以用线性关系来解释。例如,尽管可以工业总产值为因变量、以固定资
59、产(K)和职工人数(L)为自变量得到线性生产函数(Y01K2L),但该生产函数实际上假定固定资产和劳动投入的边际生产率不变,即固定资产投入每增加一,产值总是增加1,劳动投入每增加一,产值总是增加2。即和劳动之间能够完全替代,即便某一生产要素的投入为 0,只要另一生产要素的投入足够多,产值还会继续增加。显而易见,这是不可能的。而要建立边际生产率递减、生产要间可以替代又不能完全替代这样一种更符合客观现实的生产函数,就必须考虑彩非线性回归模型。非线性回归分析必须着重解决两个问题:第一,如何确定非线性函数的具体形式。与线性回归分析不同,非线性回归函数有多种多样的具体形式,需要根据所要研究的性质并结合实
60、际的样本观测值做出恰当的选择。第二,如何估计函数中的参数。非线性回归分析最常用的方法仍然是普通最小二乘法,但需要根据函数的不同类型作适当的处理。1.非线性函数的主要类型(1)抛物线函数抛物线方程的具体形式为:YabXcX2式中 a、b 和c 为待估计参数。判断某种现象是否适用抛物线函数,可以利用“差分法”。其步骤如下:首先将样本观测值按 X 的大小顺序排列,然后计算 X 和 Y 的一阶差分X1、Yt 以及 Y的二阶差分Y2t。其中:X1XtXt-1(7.28)25回相关性控制变量人均可支配收入人均消费支出系数人均可支配收入相关性显著性(双侧)df1.000. 0.980.00020人均消费支出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业级3D扫描服务合同协议2026
- 1500吨宠物冻干食品透明工厂项目可行性研究报告模板-立项备案
- 市民烟花燃放违规处罚管理手册
- 海产捕捞增殖放流海域作业规范手册
- 医药药剂药剂科绩效考核手册 (标准版)
- 幼儿托管卫生消毒效果检测与评估指南 (标准版)
- 开学典礼主持词汇编15篇
- 工程项目的现场施工管理浅议-工程
- 舞台剧排练厅管理制度与行为规范手册
- 水产捕捞网具维护与保养手册
- 2026年过程装备资产管理与完整性的结合
- 2026江苏苏州市健康养老产业发展集团有限公司下属子公司招聘44人(第一批)笔试历年典型考点题库附带答案详解
- 2026广东江门开平市招聘事业单位工作人员53人考试参考试题及答案解析
- 医药经销商现场审计制度
- 物业管理安全生产检查自查表样例
- 电力5G通信模组测试规范
- (2025版)微针点阵射频临床应用专家共识
- 2025年注册会计师公司战略与风险管理试题测试题及答案
- 船舶防污染监督制度
- 2026年高考物理上海卷含解析及答案
- 2025年中国银行笔试题型及答案
评论
0/150
提交评论