最后我们给出误差项的方差的无偏_第1页
最后我们给出误差项的方差的无偏_第2页
最后我们给出误差项的方差的无偏_第3页
最后我们给出误差项的方差的无偏_第4页
最后我们给出误差项的方差的无偏_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目 录第九章 相关与回归分析2第一节 相关分析3一、相关关系的概念及分类3二、相关关系的识别4第二节 一元线性回归分析11一、一元线性回归11二、参数的最小二乘估计12三、对一元回归方程的评价14四、一元回归方程的预测区间19第三节 多元线性回归分析21一、多元线性回归模型21二、多元回归模型的参数估计23三、对多元线性回归方程的评价23第四节 非线性回归模型26一、直接代换法26二、间接代换法27英文摘要与关键词29习 题29第九章 相关与回归分析通过本章的学习,我们应该知道:1. 如何判别相关关系2. 回归分析的基本假定3. 一元线性回归分析的内容4. 如何做多元线性回归分析5. 如何将非

2、线性回归模型转换成线性模型相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。本章从介绍相关分析与回归分析的基本概念与分类入手,以一元线性回归模型为基础,引出包括多元线性回归分析及非线性回归分析中模型识别、参数估计、模型检验与预测等内容。在分析变量之间关系的时,常用的基本模型有两个,一是相关模型(correlation model),一是回归模型(regression model)。实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件。在相关分析中,变量和都被视为随机变量,服从二元分布;而回归分析中,变量不是随机变量,它被假定为一般

3、变量,在事先选好的已知值中取值,变量是随机变量,在变量的给定取值处有相应的观测值。例如,考虑太阳镜的日销售数量与日最高气温之间的关系问题。如果我们随机地选择36天,记录下这36天的太阳镜销售量和日最高气温,它们是来自二维总体(随机变量)的独立同分布样本;在这种情况下,应用相关模型进行分析。另一情况是,假如研究者决定只在日最高气温25、30、33、35、36、37、38、39、40的那些天收集数据,在日最高气温为上述事先设定的温度的那些天中随机地抽取36天,然后测量记录下相应的太阳镜日销售量,如在每一个日最高气温取值处,随机抽取4天进行测量记录;此时变量就不再是随机变量,变量是随机变量,往往应用

4、回归模型进行分析。有时这种区别并不是这么明显。第一节 相关分析一、相关关系的概念及分类(一)相关关系的概念无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。如某种商品的销售额(y)与销售量(x)之间的关系、商品销售额(y)与广告费支出(x)之间的关系以及粮食亩产量(y)与施肥量()、降雨量() 、温度()之间的关系等。统计学的主要研究对象是随机变量,在多个变量的时候,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。变量之间的依存关系可以分为两种:一

5、是函数关系,指变量之间保持的严格的、确定的关系。如圆的面积(S)与半径之间的关系可表示为S = p ,当圆的半径R的值取定后,其圆的面积也随之确定。二是相关关系,指变量之间保持着不确定的依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个或无穷多个。例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高。变量间的这种不严格的依存关系就构成了相关与回归分析的对

6、象。(二)相关关系的分类1. 按相关的程度可分为完全相关、不完全相关和不相关当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。当两个变量的变化相互独立、互不影响时,称这两个变量不相关(与下面的不线性相关或线性无关不同),实际上,这里的不相关就是(概率中的)独立,即变量间没有任何关系。当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象。2. 按相关的方向可分为正相关和负相关当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关,例

7、如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。3. 按相关的形式可分为线性相关和非线性相关当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。当变量间的关系不按固定比例变化时,就称之为非线性相关。上述的这些相关关系我们可以用图9.1来示意。图9.1 相关关系分类示意图4. 按研究变量的多少可分为单相关、偏相关和复相关两个变量之间的相关,称为单

8、相关。一个变量与两个或两个以上其他变量之间的相关,称为复相关。在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。变量之间的相关关系需要用相关分析方法来识别和判断。相关分析,就是借助于图形和若干分析指标(如相关系数)对变量之间的依存关系的密切程度进行测定的过程。二、相关关系的识别(一)散点图识别变量间相关关系最简单的方法是图形法。所谓图形法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。【例9.1】在研究我国人均消费水平的问题时,把全国人均消费记为y,把

9、人均国内生产总值(人均GDP)记为x。根据数据集01摘录样本数据(),i =1,2,9,如表9.1所示,问两者之间存在什么样的相关关系。表9.1 我国人均国内生产总值与人均消费金额数据 单位:元年份人均国内生产总值人均消费金额199519961997199819992000200120022003485455766054630865517086765182149101223626412834297231383397360938184089【解】根据表9.1,画出(),i=1,2,.,n的散点图,见图9.2。图9.2 反映相关关系的散点图从上图中我们看到本例的样本数据()大致分别落在一条直线附近

10、,这说明变量x与y之间具有明显的线性相关关系。另外,所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着一定的正相关关系,即随着人均GDP的上升,人均消费金额也会增加。图形法虽然有助于识别变量间的相关关系,但它无法对这种关系进行精确的计量。因此在初步判定变量间存在相关关系的基础上,通常还要计算相关关系的度量指标。下面我们缩小研究的范围,仅仅研究两个变量间的线性相关关系。两个变量间线性相关关系的度量指标有很多,应用最广泛的是相关系数。(二)相关系数相关系数是度量两个变量(现象)间线性关系强度的数量指标。我们先从直观上了解两个变量之间的相关系数的基本思想,然后给出相关系数的一般的、正式的

11、定义,再考虑在不知道总体精确分布的情况下,如何由样本估计相关系数,最后给出相关系数是否等于0的检验方法。1. 直线相关系数的设计思想为了从直观上了解相关系数的设计思想,我们考虑二元离散总体比较简单的一种情形。设二元离散总体只有N对可能的取值(),且,由此可以计算出随机变量和均值分别为和,方差分别为和。通过点(,)画两条平行于X轴和Y轴的直线,将散点图分成四个部分,见图9.3。图9.3 (,)分割散点图分布在、部分的点有,分布在、部分的点满足,如果使得为较大正值的点占有了总体分布的大部分概率,则有大于0,且取值较大,这时全部可能的取值点中,大多数都分布在、部分,所以X和Y是正相关;如果使得为较大

12、负值的点占有了总体分布的大部分概率,则有小于0,且其绝对值较大,这时全部可能的取值点中,大多数都分布在、部分,所以X和Y是负相关;如果使得为较大正值的点和较大负值的点占有的总体分布的概率大致相等,则有很小或近似为0,这时点不规则地(有时是均匀地)散布在四个部分,所以X与Y不相关。因此可用来衡量X与Y的相关方向与程度,值大表示变量间关系密切,值小表示变量间关系不密切。但的值与X、Y的计量单位及X、Y自身的变异程度都有关,为了使不同总体的相关系数可以互相对比,将除以X与Y的标准差、以消除变量值大小和离差值大小不等的影响。这样得到,.在上述二元总体分布的假定下,/N正是X和Y的协方差。2.相关系数与

13、Pearson相关系数受到上述设计思想的启发,将其一般化为一般二维随机变量(包括离散型和连续型)。设二维随机变量有二元分布,它可以视为总体;如果变量和的方差和都大于0,则 (9.1)称为变量和的相关系数或总体相关系数,常常简记为或,其中为变量和的协方差。可以证明:(1);(2)的充分必要条件是存在常数和使得以概率1成立。上述性质说明:(1)相关系数的取值范围是从-1到1;的大小揭示了变量和间线性相关关系的强弱,变量间的线性相关关系程度随着的减小而减弱,时,变量和之间具有完全线性关系,反之亦成立;说明变量和之间没有线性相关关系,称为不线性相关或线性无关。(2)的符号说明变量间的线性相关关系的方向

14、,大于0,和正线性相关,小于0,和负线性相关。(3)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系,如图9.1的第三幅图的变量间相关系数的绝对值是很小的。(4)需要注意的是,变量和不线性相关与和独立是两个不同的概念。如果和独立,则必有和不线性相关;但是若和不线性相关,却不一定有和独立,它们之间可能存在着非线性相关关系。然而,若服从二元正态分布,和不线性相关和独立是等价的。如果二维随机变量的概率分布完全知道,则变量和的相关系数可以由(9.1)式计算出来,这只是理想的情况,实际问题中,我们往往不知道要研究变量的概率分布,有时至多知道它们的分布类型,如仅知道服从二元正态分布,但

15、分布中的参数却不清楚(如果的概率分布完全知道了,它们间的关系自然很清楚了,就不需要做什么相关分析了!),这时将无法利用(9.1)式计算出相关系数。此时要得到变量和的相关系数,可以从总体中随机地抽取容量为n的样本,它们独立、同分布,和总体的分布相同,如何由该样本估计总体变量和的相关系数呢?变量和间的相关系数,可以由样本通过 (9.2)进行估计。(9.2)式中的统计量R是随机变量(注:相关系数只是一个常数,不是随机变量),它是的一致估计量(相合估计量)和渐进无偏估计量,称为样本相关系数。由于(9.2)式中的统计量R是由英国统计学家皮尔逊(Pearson)提出的,所以也常称为Pearson相关系数。

16、(9.2)式可以化为以下形式 (9.3)(9.3)式在计算时较为简单,经常用于实际计算。该公式看上去复杂,但由于没有了“积差”,计算要简便得多,另外该公式也便于用计算器上的统计功能计算。把样本的观测值代入(9.3)式即得相关系数的估计值 (9.4)样本相关系数是根据样本观察值计算的,随着取样的不同,相关系数的值也会有所变化。【例9.2】根据例9.1的资料,计算人均消费与人均国内生产总值的直线相关系数。【解】利用Excel表计算出公式(9.4)中所需要的有关数据,见图9.4,再带入公式计算:图9.4 相关系数的计算表学生:哦,相关系数好大,这说明人均消费额与人均国内生产总值高度相关吧。教师:现在

17、可不能这样说!至于原因嘛,且看下面分解。3. 相关系数的检验例9.2计算的Pearson相关系数相对于0来说已经相当大了,是否说明人均消费与人均国内生产总值之间线性相关呢?仅仅看这个数值是不能确定二者之间的线性相关关系的。不要忘了这个数值仅仅是基于9个样本点计算出来的,它要受到抽样误差的影响。为了说明抽样误差对Pearson相关系数的影响,请考虑图9.5所给出的二元总体(图中给出了总体的全部取值),实际上这两个变量之间没有线性相关关系,总体相关系数。假如现在从总体中抽取了一个随机样本,在图中用圆圈标出,这个样本显示所考虑的两个变量之间有很强的线性关系,根据这个样本观测值计算Pearson相关系

18、数为。在这种情况下,样本相关系数的值很大,但是两个总体变量却是独立的。因此总体的相关系数需要经过正式的假设检验,才能做出比较可靠、科学的判断和结论。在实际应用中,一般都是根据样本数据计算Pearson相关系数,然后在对总体相关系数进行检验。图9.5 从二元总体中抽取的一个随机样本假定总体变量服从二元正态分布,是来自该总体的一个随机样本。要检验的假设为; (备择假设或者为,)。 则检验统计量为 (9.5)这里为(9.2)或(9.3)式中的统计量,可以证明在原假设成立的条件下,(9.5)式的统计量t服从自由度为的t分布。计算检验的t统计量,然后,根据给定的显著性水平和自由度,查t分布表中的相应临界

19、值,若,就拒绝原假设,接受备择假设,认为总体相关系数显著不为零,总体变量间确实存在线性相关关系;反之,则不能拒绝原假设。或者计算p值,如果p值小于显著性水平,则拒绝原假设。若备择假设为,则当时,拒绝原假设,接受备择假设,否则不能拒绝原假设;若备择假设为,则当时,拒绝原假设,接受备择假设,否则不能拒绝原假设。【例9.3】根据上例结果,检验在=0.05的显著性水平下,人均消费额与人均国内生产总值是否具有线性相关关系。【解】若取显著性水平,查表得到临界值得:,检验统计量的值为:=23.65由于,所以否定原假设,接受备择假设,表明总体相关系数不为零,即人均国内生产总值与人均销售金额之间确实存在着线性相

20、关关系。自己试着检验:人均消费额与人均国内生产总值是否具有正线性相关关系。由(9.2)或(9.3)式可知,统计量是随机变量,它有自己的分布,但是的分布与总体的二元分布有关。另外,由(9.5)式可知,是t的函数,因此可以从t分布的分布密度推导出统计量的分布密度和分布函数,这里不再给出的分布密度表达式。本书附表九相关系数临界值表实际上就是统计量分布的临界值表。总体相关系数检验更简单的方法是,先计算Pearson样本相关系数,然后再查相关系数临界值表,查表时,要根据备择假设的情况和与,查出相应的临界值。(1) 对备择假设,若,则拒绝原假设,接受备择假设,否则不能拒绝原假设;(2) 对备择假设,若,则

21、拒绝原假设,接受备择假设,否则不能拒绝原假设;(3) 对备择假设,若,则拒绝原假设,接受备择假设,否则不能拒绝原假设。对于例9.3,;因为是双边检验,查得,由于|r|=0.9938>0.666,故人均国内生产总值与人均销售金额之间确实存在着线性相关关系。教师:从相关系数检验表中我们可以看出,在为0.05的水平下,当样本容量为3时,即使相关系数是0.996,也不能认为总体的两个变量是相关的。而当样本容量为47时,即使相关系数为0.288,也可以认为总体的两个变量之间是相关的。一切都是相对的哦。最后要给大家说明的是,线性相关关系与因果关系是不同的。相关系数很大未必表示变量间存在因果关系,也可

22、能两个变量同时受第三个变量的影响而使它们有很强的相关。比如,人的肺活量与人的身高会呈现高度相关,其实肺活量和身高都受人的体重的影响,因此如果固定人的体重来研究肺活量与身高的关系,则会发现相关性很低。这涉及偏相关系数的计算。又如,我们计算1980-2004年期间某地猪肉销售量与感冒片销售量的相关系数,它可能很大,但这并不说明猪肉销售量与感冒片销售量之间有线性相关关系,因为它们都受这个时期人口增长因素的影响,把两个从逻辑上不存在联系的两个变量放在一起做相关分析,没有意义,在统计上称之为“虚假相关”。第二节 一元线性回归分析一元线性回归(linear regression)是描述两个变量之间相互联系

23、的最简单的回归模型(regression model)。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在经济问题研究中的应用原理。本节将详细讨论一元线性回归的建模思想、最小二乘估计及其性质、回归方程的有关检验、预测和控制的理论及应用。一、一元线性回归在许多问题的研究中,经常需要研究某一现象与影响它的某一最主要因素之间的关系。譬如,在消费问题的研究中,影响消费的因素很多,但我们可以只研究国内生产总值与消费额之间的关系,因为它是影响消费的最主要因素;通常我们对所研究的问题首先要收集与它有关的n组样本数据(),i=1,2,n。为了直观地发现样本数

24、据的规律,我们把()看成是平面直角坐标系中的点,画出这n个样本点的散点图。图9.2就是我国人均国内生产总值与人均消费的散点图,而随后计算出的相关系数为0.9938,经过检验表明人均消费Y与人均国内生产总值x之间有着密切的相关关系。为进一步探讨变量Y与x之间的统计规律性,我们用下面的数学模型来描述它。 (9.6)(9.6)式将问题中变量Y与x之间的关系用两个部分描述。一部分是由于x的变化引起Y线性变化的部分,即;另一部分是由其他一切随机因素引起的,记为。(9.6)式表达了变量x与Y之间密切相关,但密切程度又没有到由x唯一确定Y的这种特殊关系。(9.6)式称为变量Y对x的一元线性回归总体模型。一般

25、我们称Y为被解释变量,或因变量(dependent variable);x为解释变量,或自变量(independent variable)。式中是未知参数,称它们为回归系数(regression coefficient)。表示其他随机因素的影响。在(9.6)式中一般假定是不可观测的随机误差,它是一个随机变量,通常假定服从期望为零、方差为的正态分布。在这个假定下,进一步有,它表示在x给定时随机变量Y也服从正态分布,且,。(9.6)式从平均意义上表达了变量Y与x的统计规律性。这一点在应用上非常重要,因为我们经常关心的正是这个平均值。如上例在消费Y与国内生产总值x的研究中,我们所关心的正是当国内生产

26、总值达到某个水平时,人均消费能达到多少。由(9.6)式,只要估计出回归系数和就可以算出当x已知时的值。通常 (9.7)称为一元线性回归方程,在图形上它表示一条截距为、斜率为的直线,这条直线称为一元线性回归直线。如果x=0,则是x=0时Y概率分布的均值;表示x每变动一个单位时Y概率分布的均值的变化,即当x每增加一个单位时,Y平均变化个单位。回归分析的主要任务之一就是通过n样本观察值(),i=1,2, ,n,对和进行估计。一般用和分别表示和的估计值;称 (9.8)为Y关于x的一元线性经验回归方程。二、参数的最小二乘估计为了由样本数据得到回归参数的估计值,我们将使用普通最小二乘估计(Ordinary

27、 Least Square Estimation,简记为OLSE)。对每一个样本观察值(),最小二乘法的基本思想就是希望线性回归直线与所有样本数据点都比较靠近,即要观察值(Observed value)与其期望值的差越小越好(图9.6是这种思想的直观表现),为防止差值正负抵消,于是考虑这n个差值的平方和达到最小,即 (9.9)达到最小。所谓最小二乘法,就是求使得 (9.10)图9.6 一元线性回归示意图求出(9.10)式中的和是一个求极值点的问题,这只需求(9.9)式的关于和的二元函数极小值点。由于Q是关于和的非负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理,让分别对和求偏导,

28、且令这两个偏导等于0得经整理后,得正规方程组:求解正规方程组,得: (9.11)(9.11)式中的称为的普通最小二乘估计,简称的OLSE。可以证明,的最小二乘估计满足无偏性,即,。我们记为实际观察值与其估计值的偏差,称为残差,即,称作残差平方和(Residual Sum of Square)。把(9.11)式中关于的表达式和上节(9.4)比较易得 或。回归系数的最小二乘估计和总体相关系数的估计Pearson相关系数具有上述关系式,从而可知和同号,这和我们的直觉也是一致的。事实上,可以证明总体相关系数和线性回归直线的斜率具有关系,这里就不再推导了。最后我们给出误差项的方差的无偏估计,其平方根也称

29、为估计标准误差,有时也记作,展开可得,在计算时有些情况下用它比较简单。【例9.4】根据例9.1的资料,建立人均消费与人均国内生产总值的回归方程。【解】利用上述公式就可具体计算回归方程的参数。根据图9.4已经计算好的有关数据,带入公式(9.11)得: 181.5830所以,回归方程为:。三、对一元回归方程的评价获得经验回归方程后,我们不能就用它去作分析和预测,因为是否真正描述了y与x之间的统计规律,还需必须通过统计检验。一元线性回归模型的评价分为拟合优度检验和方程的显著性检验,它是利用统计学中的抽样理论来检验回归方程的可靠性。(一)一元线性回归模型拟合优度的评价所谓拟合优度(goodness o

30、f fit),是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度好坏的最常用的指标是可决系数,又称判定系数,它是建立在对总变差平方和进行分解的基础之上的。我们把y的n个观察值之间的差异,用观察值与其平均值的偏差平方和来表示,称为总离差平方和SST(total deviation sum of squares) (9.12)将SST分解成如下:其中,(课后有时间自己证明哦!)这样有: (9.13)其中:称为回归平方和SSR(regression sum of squares),称为残差平方和SSE(residual sum of squares),这样(9.13)即为:总偏差 =

31、 回归偏差 + 剩余偏差,简记为:SST= SSR + SSE,若两边同除以SST得: (9.14)显然,在总的离差平方和中回归平方和所占的比重越大,则回归效果越好,说明回归直线与样本观察值拟合得好;如果残差平方和所占的比重大,则回归直线与样本观察值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数(coefficient of determination),又称判定系数,即: (9.15)可决系数是对回归模型拟合程度的综合度量,可决系数越大,回归模型拟合程度越高。表示全部偏差中有百分多少的偏差可由x与y的回归关系来解释。可决系数具有非负性,取值范围在0到1之间,它是样本的函数,是一个

32、统计量。等价地,也可以作为反映回归直线与样本观察值拟合好坏的一个指标,不同于可决系数的是,其值小,说明回归方程的偏离度小,即回归方程的代表性好。(二)一元线性回归方程的显著性检验对线性回归模型的显著性检验包括两个方面的内容:一是对整个回归方程的显著性检验(F检验),另一个是对各回归系数的显著性检验(t检验)。就一元线性回归模型而言,上述两个检验是等价的。1. 整个回归方程的显著性检验的步骤:(1)提出假设:;不全为0;(2)这里的F检验其实就是方差分析的内容,见表9.2;表9.2 一元线性回归方程的方差分析表方差来源平方和自由度均方F值回归SSR1 (9.16)误差SSEn-2总计SSTn-1

33、(3)给定显著性水平,确定临界值;(4)若F,则拒绝,说明总体回归系数,即回归方程是显著的。2. 回归系数的显著性检验的步骤:(1)提出假设:;(2)t检验的计算公式为:,其中是回归系数估计量的标准差 (9.17)(3)给定显著性水平,确定临界值;(4)若,则拒绝,接受备择假设,即总体回归系数;否则不能拒绝。教师:就一元线性回归方程而言,这两种检验是等价的,细心的你一定发现两种检验的原假设都是一样的。哦?【例9.5】根据例9.1的资料,计算可决系数、估计标准误差,并对回归方程进行检验(=0.05)。【解】首先将每个x 代入回归方程,得到一个序列,再根据公式(9.15)、(9.16)、(9.17

34、)和的公式,将有关数据带入计算,我们可以用Excel辅助计算,见图9.7。图9.7 计算检验回归方程统计量的辅助表可决系数: 估计标准误差:=或: 学生:这里的可决系数与第一节的直线相关系数有关系吗?用两种方法计算的还是有点差别的,什么原因?教师:可决系数在数量上确实就是直线相关系数R的平方,算出了R,就只要平方一下,就可以得到可决系数了。我们推导计算公式主要是为了方便手工计算。两种方法计算的有差别是由于在手工的计算过程中我们是保留一定量的小数的,所以最终会有微小差别。如果用计算机来算就没这个问题了。下面进行检验:t 检验: =0.05,, 因为,所以拒绝原假设,接受备择假设,即总体回归系数。

35、或者做F检验:MSR=SSR=2774636.65 ;=0.05,;因为F=558.5122>,所以拒绝原假设,说明总体回归系数。 Excel解决方案 将数据输入工作表中,见图9.7 选择菜单“工具”“数据分析”,打开“数据分析”对话框。 选择其中的“回归”,打开对话框,见图9.8 正确填写相关信息后,点“确定”,结果在H1到N18这个区域内显示,见图9.9图9.8 “回归”分析工具对话框图9.9 “回归”分析结果截图四、一元回归方程的预测区间建立回归模型的目的就是为了能够用它进行预测,经过检验的回归方程可以用以区间估计,所谓回归分析的预测区间(prediction inter

36、val)是指对于给定的x值,求出y的平均值的置信区间或y的一个个别值的预测区间,如图9.10所示。图9.10 回归分析的区间估计当自变量给定要预测因变量时,先将代入公式(9.8),得。是对应于的点估计值,但我们往往更希望能给出因变量的一个预测值范围。1. Y的平均值的置信区间估计残差为,服从正态分布。的期望是:的方差是:这部分的公式推导比较复杂,可以参阅计量经济学教材。用替代,则的标准差是:则的1-的置信区间为:,即: (9.18)2. Y的个别值的置信区间估计残差为,服从正态分布。的期望是:的方差是:;因为与相互独立,且:; 用替代,则的标准差是:则的1-的置信区间为:,即: (9.19)归

37、纳两个预测区间的特点:首先由于,故总体均值的预测区间比个别值的预测区间要窄;其次样本容量n越大,则残差的方差越小,预测精度越高;最后在n一定时,当预测点时,残差的方差最小,预测区间最窄,离越远,残差的方差越大,预测区间越宽,预测可信度下降。【例9.6】根据例9.1的资料,若2004年的人均GDP为10000元,求人均消费95%的置信区间。【解】将代入回归方程得=181.5830+0.4414×10000=4595.5830(元)查表得,其它数据参见图9.7,代入公式(9.18)和(9.19):Y的平均值的95%的置信区间:(元)Y的个别值的95%的置信区间:(元)第三节 多元线性回归

38、分析上一节主要介绍了涉及一个自变量和一个因变量的简单线性回归模型。实际生活中,客观现象非常复杂,现象之间的联系方式和性质各不相同。影响因变量变化的自变量往往不止一个,而是多个,因此有必要对一个因变量与多个自变量联系起来进行分析。本节将重点介绍多元线性回归模型及其基本假设、回归模型未知参数的估计及其性质、回归方程及回归系数的显著性检验等。一、多元线性回归模型(一)多元线性回归(multiple liner regression)模型的一般形式 (9.20)式中,是p+1个未知参数,称为回归系数。Y称为被解释变量(因变量),而是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。p=1时,

39、(9.20)式即为上一节分析的一元线性回归模型,时,我们就称(9.20)式为多元线性回归模型,这里是随机误差。与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为的正态分布。对一个实际问题,如果我们获得n组观测数据,i=1,2,.,n,把这些观测值代入(9.20)式可得样本(形式的)多元线性回归模型: (9.21)写成矩阵形式为: (9.22)其中:;= (二)多元线性回归模型的基本假定为了对模型参数进行估计和推断,常常要对回归模型(9.22)做如下基本假定:1. 解释变量是确定性变量,不是随机变量,且要求矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。2. 随

40、机误差项具有零均值和同方差,即 3. 正态分布的假设条件:由上述假定和多元正态分布的性质可知:Y服从n维正态分布,且 我们以二元线性回归模型为例,在建立彩电销售量的预测模型时,把彩电的销售量有y表示,用表示彩电的平均价格,表示消费者可支配收入,则可建立二元线性回归模型: (9.23)(9.23)式的第二式对求偏导得, ,即可解释为彩电的价格保持不变时,消费者收入每变动(增加或减少)一个单位,对彩电的平均销售量E(Y)的影响程度。一般来说,随着消费者收入的增加,彩电的需求是增加的,因此应该是正的。二、多元回归模型的参数估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样,所选择

41、的估计方法应该使得估计值与观测值y之间的残差在所有样本点上达到最小,即使Q达到最小。所以求,使得,即ee= (9.24)由多元函数求极值点的方法可求得回归系数的最小二乘估计值为: (9.25)另外,未知参数的一个无偏估计为,实际就是残差均方和(MSE)。三、对多元线性回归方程的评价(一)拟合优度检验在多元线性回归分析中,总离差平方和的分解公式依然成立:总偏差(SST)= 回归偏差(SSR)+剩余偏差(SSE),我们可以用判定系数,或称可决系数,来评价多元线性回归模型的拟合程度。即: (9.26)由判定系数的定义可知,的大小取决于残差平方和SSE在总离差平方和SSE中的比重。在样本量一定的条件下

42、,总离差平方和与自变量的个数无关,而残差平方和则会随着方程中自变量个数的增加而减小。因此是自变量个数的非递减函数。在一元线性回归方程中,由于所有方程中包含的变量个数都相同,判定系数便可以直接作为评价一元线性回归方程拟合程度的尺度,而在多元线性回归方程申,各回归方程所包含的变量个数未必相同,以厂的大小作为衡量拟合程度的尺度是不合适的,因此,在多元线性回归分析中,通常采用“修正自由度判定系数”来判定现行多元回归方程的拟合优度: (9.27)其中p是解释变量的个数,n为样本容量。可以看出:对于给定的值和n值,k值越大越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。作为

43、综合评价这方面情况的一个指标显然比更为合适。但要注意:当n为小样本,解释变量数很大时,为负。同样我们可以导出多元回归模型标准误的计算公式:= (9.28)这里的n-p-1是自由度,因为p元回归模型有p+1个参数,求解该回归方程时将失去p+1个自由度。后面在构建预测区间,要用到这个指标。(二)多元线性回归模型的显著性检验多元线性回归模型的显著性检验包括两个方面的内容:一是对整个回归方程的显著性检验(F检验),另一个是对各回归系数的显著性检验(t检验)。在一元线性回归方程的检验时,这两个检验是等价的,但在多元线性回归模型的检验时两者却不同。1. 整个回归模型的显著性检验步骤:(1)提出假设:;,i

44、=1,2,p,不全为0;(2)根据表9.3构建F统计量,见表9.3;表9.3 多元线性回归模型的方差分析表方差来源平方和自由度均方和F值回归SSRp 误差SSEn-p-1总计SSTn-1(3)给定显著性水平,查F分布表,得临界值;(4)若,则拒绝,接受备择假设,说明总体回归系数不全为零,即回归方程是显著的;反之,则认为回归方程不显著。2. 回归系数的显著性检验步骤:(1)提出假设:; (i=1,2,p);(2)t检验的计算公式为:,其中是回归系数标准差,是中第个主对角线元素。t值应该有p个对每一个可以计算一个t值;(3)给定显著性水平,确定临界值;(4)若,则拒绝,接受备择假设,即总体回归系数

45、。有多少个回归系数,就要做多少次t检验。类似于一元线性回归方程,通过检验后的多元线性模型也可以用来进行预测。下面我们举例说明。【例9.7】十个地区某种商品的需求量与其价格以及消费者收入的资料,见表9.4,推算若价格在40百元、消费者收入为1700万元时,该商品的需求量。表9.4 十个地区某商品的需求量与相关资料地区编号需求量y(吨)价格x1(百元)收入x2(万元)1591923.567622654524.449123623632.0710674647032.4611165674031.1511906644034.1412927680035.314348724038.715969757139.6

46、3180010706846.681930【解】借助Excel中的回归分析工具,完成计算任务,操作步骤见例9.7,分析结果见图9.11。图9.11 二元线性回归分析结果根据分析表所提供的数据显示:二元线性回归模型是:y=6265.5530-97.9925+2.8634 =0.8736F统计量为32.0895,其对应的概率为0.003,即若=0.05,则拒绝,方程是有意义的。(对应概率为0.0185);(对应概率为0.0018),即若=0.05,两个t检验都是拒绝,也就是说,回归系数和是有意义的。当=40,=1700时,代入方程可得:y=7213.633(吨)第四节 非线性回归模型我们讨论的线性回

47、归模型的结构特点:(1)被解释变量是解释变量的线性函数,即解释变量线性;(2)被解释变量也是相应的参数的线性函数,即参数线性。但在复杂的现象中,根据实际分析建立的模型往往不符合上述线性特点,这类模型称为非线性模型。我们熟悉的柯布道格拉斯生产函数(即C-D函数)就是典型的非线性模型。处理这类模型的基本思想是把非线性关系转化为线性关系,然后再运用线性回归的分析方法进行估计。非线性模型转换成线性模型的常用方法有:直接代换法和间接代换法。一、直接代换法直接代换法适用于变量之间关系虽然是非线性的。但因变量与参数之间关系却是线性的非线性模型。这时可以利用变量的直接代换的方法将模型线性化。1. 多项式模型令

48、,即上述模型可化为线性模型: 2. 双曲线模型令即上述模型可化为线性模型:3. 对数模型对于上述两式,令即可化为线性模型:4. S形曲线对于上式先求倒数:,然后令,即可化为线性模型:二、间接代换法间接代换法是先通过方程两边取对数后在进行变量代换,转化为线性形式。1. 指数函数对上式两边取自然对数,得,令,则得:则2. 幂函数对上式两边取对数,得,令,则得C-D生产函数也是用这种方法转换的,试试看。要提醒大家的是,如果做变换,影响到了误差项时,往往并不把非线性模型转化为线性回归模型来处理,而是直接按非线性回归模型的方法做,因此非线性回归模型及其直接的处理方法有独立存在的必要。英文摘要与关键词Co

49、rrelation analysis and regression analysis are two of the most frequently applied statistical tools to analyze the relationship between two or more variables. This chapter has introduced the basics of these two topics. Which technique we can use depends on the conditions under which the data are col

50、lected. In correlation analysis, both the x and y variable are considered to be random variables, while in regression model the y variable is considered to be random variable, but the x variable is not. Our discussion of regression analysis has been limited to situations in which you have one depend

51、ent variable and one independent variable. In these cases, the technique for modeling the linear relationship between the two variables is refered to as simple linear regression analysis. If two variables are correlated, then they are said to be linear related. When this is the case, the resulting s

52、imple linear regression model will be statistically significant. This means the fraction of variation in the dependent variable that is explained by the independent variable is significant, and the predictions for the y variable based on values of x will be superior to using the mean of y as the pre

53、dictor. This chapter also introduced the methods used to test whether the correlation is zero and whether a regression slope coefficient is zero. We introduced you to the uses of regression for descriptive and predictive purpose and showed how to construct a confidence interval for the true regressi

54、on slope coefficient and prediction intervals.Section 3 continues the discussion of regression analysis by showing how two or more independent variables are included in the analysis. The technique for modeling the linear relationship between one dependent variable and two or more independent variables is refered to a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论