线性回归模型-经济计量学.ppt_第1页
线性回归模型-经济计量学.ppt_第2页
线性回归模型-经济计量学.ppt_第3页
线性回归模型-经济计量学.ppt_第4页
线性回归模型-经济计量学.ppt_第5页
已阅读5页,还剩273页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

经济计量学,第二章 一元线性回归模型,本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一个被解释变量,是最简单的线性回归模型。通过一元线性回归模型的学习,可较容易地理解回归分析的基本理论与应用。,第一节 回归分析的相关概念,一、回归的含义,回归一词最早由F高尔顿(Francis Galton)提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高。,也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。,在现代,回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。,1高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。,就是说,我们如果知道了父辈的身高,就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成如下的散点图。图中按统计分组的方法将父亲身高分为若干组。,图4.1,给定父亲身高儿子身高的分布,图4.1中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加而增加的,这条线就是回归线。,2在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平均变化。,3在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广告策略。,4农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。 这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。,二、统计关系与确定性关系,如果给定一个变量X的结果值就可确定另一个变量Y 的结果值,则称变量Y是变量X 的函数,即X、Y之间是函数关系。,在经典物理学中,给定电阻,电流I 和电压V 之间的关系即为函数关系,即 。这种典型的变量关系就是确定性关系。,在经济系统中, 这种变量之间的函数关系或确定性关系就很少见 。常见的是变量之间是一种不确定的关系,既使变量X 是变量Y 的原因, 给定变量X 的值也不能具体确定变量Y的值, 而只能确定变量Y 的统计特征,通常称变量X 与Y 之间的这种关系为统计关系。,例如,企业总产出Y 与企业的资本投入K 、劳动力投入L 之间的关系就是统计关系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K 、L 的值并不能确定产出Y 的值。因为,总产出Y 除了受资本投入K、劳动力投入L 的影响外,还要受到技术进步、自然条件等其它因素的影响。,三、回归分析与相关分析,与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变量之间的线性关联程度的。例如,吸烟与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度,就可用相关系数来测度。,而在回归分析中,我们的主要目的在于根据其它变量的给定值来估计或预测某一变量的平均值。例如,我们想知道能否从一个学生的数学成绩去预测他的统计学平均成绩。,在回归分析中,被解释变量Y 被当作是随机变量,而解释变量X 则被看作非随机变量。而在相关分析中,我们把两个变量都看作是随机变量。,例如 ,在学生的数学成绩与统计学成绩的分析中,如为回归分析,则统计学成绩是随机变量,数学成绩是非随机变量,即数学成绩被固定在给定的水平上,以此求得统计学的平均成绩。而在相关分析中,两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,两者均为随机变量。,第二节 一元线性回归模型,一、引例,假定我们要研究一个局部区域的居民消费问题,该区域共有80户家庭组成,将这80户家庭视为一个统计总体。,我们研究每月家庭消费支出Y 与每月可支配收入X 的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将80户家庭分为10组。表4.1给出了人为数据。,表4.1 居民收入、消费数据,从表4.1中可以看出,对于每月1000元收入的7户家庭,每月消费支出为700元到940元不等。同样,当X=3000元时,9户家庭的每月消费支出在2180元到2660元之间。,表4.1给出了以X 的给定值为条件的Y 的条件分布。,对于Y 的每一条件分布,我们能计算出它的条件期望,记为E(Y/X=Xi),即在X取特定Xi 值时Y 的期望值。例如,X=1000时,Y 的期望值为:,将表4.1中的数据在直角坐标系中描出,则得到图4.2的散点图。,收入、消费散点图,图4.2,该图表明了对应于各X 值的Y 的条件分布。虽然每个个别家庭的消费支出都有异,但图4.2清楚地表明随着收入的增加,消费支出平均地说也在增加。就是说,散点图启示我们,Y 的条件均值随X 的增加而增加。,如果我们观察图4.2中那些代表Y 的各个条件均值的粗圆点,则表明这些条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是Y 对X 的回归。,总体回归线就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。 图4.2表明,对每一Xi 都有Y 值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。,二、总体回归函数,从图4.2我们可以看出,条件均值E(Y/Xi)是Xi 的函数,即:,其中,f (Xi)表示解释变量Xi 的某个函数。在我们的引例中,E(Y/Xi)是Xi 的一个线性函数。,式(4.1)就是总体回归函数,简称总体回归。它表明在给定Xi 下Y 的分布的总体均值与Xi有函数关系,就是说它给出了Y 的均值是怎样随X 值的变化而变化的。,函数f (Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。同时,对总体回归函数的形式只能据经济理论与经验去推断。,例如,我们可以假定消费支出与收入有线性关系。则总体回归函数为,(4.2),其中, 和 为未知而固定的参数,称为回归系数; 为截距系数, 为斜率系数。式(4.2)为线性总体回归函数。,三、线性的含义,1对变量为线性,对线性的第一种解释是指Y 的条件期望是Xi 的线性函数,例如式(4.2)就是线性回归函数,该回归线是一条直线。,按这种解释 就不是线性的,因为 对 的一阶导数不是常数。,2对参数为线性,对线性的第二种解释是指Y 的条件期望 是参数 的一个线性函数。它可以是也可以不是变量的X 的线性函数。,此时, 就是线性回归函数。但 则不是线性回归函数,而是非线性回归函数。,在本课中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以不是线性的。,从图4.2可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出E(Y/Xi )也在增加,这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言,消费支出Y与它的收入水平Xi的关系。,四、总体回归函数的随机设定,就个别家庭而言,收入水平增加,消费支出不一定会增加。,例如从表4.1可以看到,对于每月3000元的收入水平,有一户家庭的消费支出为2180元,少于每月收入为2500元的两户家庭的消费支出(2200元和2260元)。但应看到,每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出(2420元大于2020元)。,从图4.2可以看到,给定收入水平Xi 的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的Yi 围绕它的期望值的离差表示如下:,其中,离差ui 是一个不可观测的可正可负的随机变量,在专业术语中,把ui 称为随机干扰项或随机误差项。,在式(4.3)中,给定收入X 的水平,个别家庭的消费支出,可表示为两个成份之和。,(1) 代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。 (2)ui 为随机或非系统性成份,代表所有可能影响Y,但又未能包括到回归模型中来的被忽略变量的代理变量。,假设 对 Xi 为线性的,则:,(4.4),式(4.4)表示一个家庭的消费支出线性地依赖于它的收入加干扰项。,例如,给定X =1000,各家庭的消费支出可表达为,五、随机误差项u 的意义,1理论的欠缺。 虽然有决定Y 的行为的理论,但常常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入X 影响每月消费支出Y。但不能确定是否有其它变量影响Y,只好用ui 作为模型所忽略的全部变量的替代变量。,2数据的欠缺。 即使能确定某些变量对Y 有显著影响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费的重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财富的信息。因此,我们只得把这个很重要的解释变量舍弃掉。,3核心变量与非核心变量。 例如,在引例的居民消费模型中,除了收入X1 外,家庭的人口数X2 、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。,4人类行为的内在随机性。 即使我们成功地把所有有关的变量都引进到模型中来,在个别的Y 中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机误差项ui 能很好地反映这种随机性。,5节省原则,我们想保持一个尽可能简单的回归模型。 如果我们能用两个或三个变量就基本上解释了Y 的行为,就没有必要引进更多的变量。让ui 代表所有其它变量是一种很好的选择。,在实际回归分析中,我们无法获得像引例中的总体数据,而只能获得对应于某些固定X的Y值的一个样本。我们只能根据抽样信息估计总体回归函数。,六、样本回归函数,我们从表4.1随机抽取对应于固定X 值的Y 值的一个样本如表4.2所示,对应于给定的每个Xi 值只有一个Y 值。为了对比分析,按同样的方法再抽取另一个样本,如表4.3所示。,表4.2 总体的一个随机样本,表4.3 总体的另一个随机样本,将表4.2和表4.3的数据描点,得到图4.3。在这个散点图中画两根样本回归线以尽好地拟合这些散点。,我们可以看出,两个样本存在着差异,这是由于抽样的随机性而造成的波动。,图4.3 两个不同样本的回归线,S1是根据第1个样本画的;S2是根据第2个样本画的。那么,两条样本回归线中哪一条代表“真实”的总体回归线呢?在未知总体数据的情况下,我们就不可能知道哪一条代表真实的总体回归线。,图4.3中的回归线称为样本回归线,因抽样波动,它们都是总体回归线的一个近似。一般地讲,由几个不同的样本会得到几个不同的样本回归线,通常这些样本回归线会彼此不同。,据任一样本,我们可得样本回归线,其函数形式为,(4.5),其中,,正如总体回归函数,样本回归函数也存在随机形式。,(4.6),其中,ei为残差项,概念上,ei 类似于ui,并可把它当作ui 的估计量。将ei 引入样本回归函数中,其理由与总体回归函数中引入ui 是一样的。,回归分析中的主要目的就是根据样本回归函数:,来估计总体回归函数,(4.7),(4.8),由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似结果。因此,怎样构造样本回归函数能使 尽可能接近真实的 就成为回归分析的核心。,第三节 最小二乘估计,在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘法(method of ordinary least squares, 简记OLS),一、普通最小二乘法(OLS),普通最小二乘法是由德国数学家高斯(C.F.Gauss)最早提出和使用的。在一定的假设条件下,最小二乘估计量有着非常好的统计性质,从而使它成为回归分析中最有功效和最为流行的方法之一。,我们首先从最小二乘原理谈起。对于一元线性回归模型(总体),(4.9),这是一个不可观测的模型。因为通常得不到总体的全部观测值,我们只能通过总体的一个样本去推测它。即,只能通过样本回归模型去估计总体回归模型。,其中, 是Yi 的估计值。,样本回归模型为,(4.10),那么,样本回归模型又是怎样确定呢?将式(4.10)写成:,(4.11),残差ei 是实际值Yi 与其估计值 之差。对于给定的Y 和X 的n 对观测值,我们希望样本回归模型的估计值 尽可能地靠近观测值Yi 。,为了达到此目的,我们就必须使用最小二乘准则,使:,(4.12),尽可能地小,其中, 是残差的平方。,由式 (4.12)可以看出:,(4.13),就是说,残差平方和 是估计量 的函数,对任意给定的一组数据(样本),选择不同的 和 值将得到不同的ei ,从而有不同的 值。,微积分知识告诉我们 对 和 的偏导数为0时,将使 最小。,(4.14),(4.15),(4.16),(4.17),n 是样本容量。求解该联立方程,可得,(4.18),(4.19),上面得到的估计量 , 是从最小二乘原理演算而得的。因此,称其为最小二乘估计量。,估计量(estimator)与估计值( estimate)的区别。 估计值:由具体样本资料计算出来的结果就是估计值或点估计。是估计量 的一个具体数值。,估计量: 是的一个表达式,是 的函数,而 是随机变量,所以 也是随机变量。,小样本性质,估计量的优劣标准: 1.线性性 2.无偏性 3.有效性,大样本性质,4.渐进无偏性:样本容量无穷大时均值系列趋于总体真值。 5.一致性:样本容量无穷大时依概率收敛于总体真值。 6.渐进有效性:样本容量无穷大时,它在所有的一致估计量中具有最小的渐进方差。,二、经典线性回归模型,如果我们的目的仅仅是估计 和 ,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得 , 的估计值 , , 而是要对真实 和 做出推断。,例如,我们想知道 和 离它们的总体真值 和 有多近,或者 靠其期望值 E(Y / Xi)有多近。,为达这一目的,我们不仅要确定模型的函数形式,还要对Yi的产生方式做出某些假定。,在总体回归模型中, ,Yi 依赖于Xi 和ui 。 因此,除非我们明确Xi 和ui 是怎样产生的,否则,我们将无法对Yi 做出任何统计推断,同时,也无法对用 和 推断其真实值 , 的效果进行判断。,为了回归估计的有效解释,对Xi 变量和误差项ui 做出假设是极其重要的。,假定1,误差项ui 的均值为零。对于给定的X 值,随机误差项ui 的均值或期望值为零,即ui 的条件均值为零,记为,E(ui / Xi )=0,(4.20),这一假定的实际意义为:凡是模型中不显含的并因而归属于ui 的因素,对Y 的均值都没有系统的影响,正的ui 值抵消了负的ui 值,它们对Y 的平均影响为零。,假定2,同方差性或ui 的方差相等。对所有给定的Xi,ui 的方差都是相同的。就是说,ui 的条件方差是恒定的,即:,该假定表示对应于不同Xi 值,ui 的方差都是某个等于 的正的常数。,其中,Var表示方差。,(4.21),假定3,各个误差项之间无自相关,ui 和uj(ij)之间的相关为零。,(4.22),其中,i 和j 为两次不同的观测,而Cov表示协方差,该假定还可以称为无序列相关或无自相关假定。,假定4,ui 和Xi 的协方差为零或E(ui Xi)=0,该假定表示误差项u 和解释变量X 是不相关的。也就是说在总体回归模型中,X 和u 对Y 有各自的影响。但是,如果X 和u 是相关的,就不可能评估他们各自对Y 的影响。,假定5,正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。,正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型为条件的。因此,在建立经济计量模型时,必须谨慎而小心。,假定6,对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的线性关系。,至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。,三、最小二乘估计量的性质 高斯马尔可夫定理,在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这些性质包含在高斯马尔可夫定理之中。,高斯马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。,该定理说明最小二乘估计量 是 的最佳线性无偏估计量。即:,第一,它是线性的,即它是回归模型中的被解释变量Y 的线性函数。,第二,它是无偏的,即它的均值或期望值 等于其真值 ,即 。,第三 ,它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。,下面,就普通最小二乘估计量的性质给予说明。,1,线性性,(4.23),(4.24),(4.25),令,则,这说明 是Yi的一个线性函数,它是以ki为权的一个加权平均数,从而它是一个线性估计量。同理, 也是一个线性估计量。,2,无偏性,, ,即 是无偏的, 是无偏的。就是说,虽然由不同的样本得到的 可能大于或小于它们的真实值 ,但平均起来等于它们的真实值 。,由式(4.25)可知:,(4.26),因为 , 则,(4.27),据经典假定,ki 非随机,E(ui)=0,则,(4.28),因此, 的一个无偏估计量。同理,可证明 的一个无偏估计量。,在此要特别注意,无偏性是 的抽样分布的性质,并没有告诉我们从特定样本中得到 的估计值是什么,我们希望得到较好的样本,那样就会得到接近于总体参数 的估计值。但由于是随机获得样本,就有可能得到远离总体参数 的估计值的较差样本。并且,我们无法判定所得到的样本是哪一种。,当X 是非随机变量、E(u)=0 这些经典假定不满足时,那么无偏性也就不成立了。,3,方差最小,(1)最小二乘估计的方差与标准误,普通最小二乘估计量 的方差 代表了估计参数 的估计精度。, 据式(4.27),据方差定义,可知:,(4.29),据经典假定 ,且 E(uiuj)=0,ij,故,(4.30),式(4.30)是依赖于同方差和无序列相关假定的。,同理, 的方差为:,(4.31),影响 估计精度的因素为随机误差项的方差 和Xi的总变异 。,随机误差项的方差 越大, 越大。 因为,影响Y 的不可观测的因素变异越大,要准确地估计 就越难。,另一方面,自变量的变异越大,估计的精度就越高。因为Xi 的变异性增时, 的方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出E(Y / Xi) 和Xi 间的关系,即越容易准确估计 。,如果Xi 没有什么变化,就难以准确地确定E(Y / Xi)是如何随着Xi 的变化而变化的。当样本容量扩大时,Xi 的总变异也增加。因此,较大的样本容量会产生较小的 的方差。,最小二乘估计的标准误为,(4.32),(4.33),式中, 表示 的标准误, 表示 的标准误。除 外,上述方程中的数据都是已知的。,(2) 的最小二乘估计量,从式(4.30)、式(4.31)可以看到,影响 和 的因素除 外,均为已知数。通常误差项的方差 是未知的,只能通过观测数据去估计 ,从而估计出 和 。,我们要区分误差与残差的概念。误差ui 出现在总体回归模型 中,ui 是第i次观测的误差,由于 未知,ui无法观测到。残差ei出现在样本回归模型 m 中, 是估计参数,通过观测值Yi , Xi可得到残差 ei。,已知 。由于ui 不可观, 无法计算。我们可通过最小二乘法的残差ei 估计 。用残差ei 代替ui就得到 的一个估计量 ,但这是一个有偏估计量。,这是使用残差代替误差的缘故,调整自由度后,我们就得到 的无偏估计量,(4.35),在经典假定条件下,可以证明 。 的估计量为,(4.36),我们称其为回归的标准误。估计量 是对影响Y的不可观测因素的标准误的估计。就是说,它估计了把X 的影响排除之后Y 的标准误。,至此,用 代替 ,我们可利用式(4.32)、(4.33)估计 的标准误。,(4.37),(4.38),当对Y 的不同样本使用普通最小二乘法时,我们要注意将 看作一个随机变量,这是因为 是随着样本的不同而变化的。对于一个给定的样本, 是一个数字,就像我们用给定的数据计算 时一样,它也只是一个数字。,(3)可以证明,在满足经典假定条件下,普通最小二乘估计量 是所有线性无偏估计量中方差最小的。,四、判定系数R2拟合优度的度量,为了评价一个回归方程的优劣,我们引入拟合优度的概念。即考查对一组数据所拟合的回归线的拟合优度,表示出样本回归线对数据拟合的有多么好。,如果全部观测点都落在样本回归线上,我们就得到一个完美的拟合,但这种情况很少发生。一般情况下,总有一些正的ei 和一些负的ei ,我们只能希望这些围绕着回归线的残差尽可能小。判定系数R2 就是表示这种拟合优劣的一个度量。,计算R2的步骤如下,据样本回归模型可得:,(4.39),(4.40),为被解释变量的样本均值。,式(4.39)可表示为,(4.41),式(4.41)两边取平方得,(4.42),对所有观测值求和,得,(4.43),其中, ,因此,(4.44),式(4.44)中, 表示实测的Y 值围绕其均值的总变异,称为总平方和(TSS)。 为来自解释变量的回归平方和,称为解释平方和(ESS)。 是围绕回归线的Y值的变异,称为残差平方和(RSS)。,式(4.44)可表示为,TSS=ESS+RSS,(4.45),这说明Y 的观测值围绕其均值的总变异可分解为两部分,一部分来自回归线,而另一部分则来自扰动项ui 。从几何意义上可画出图4.4。,图4.4 Yi 的变异分解为两个部分,用TSS除式(4.45)的两边,得,(4.46),定义R2为:,(4.47),(4.48),或,上述定义的R2称为判定系数,它是对回归线拟合优度的度量。就是说,R2测度了在Y 的总变异中由回归模型解释的那个部分所占的比例或百分比。,据判定系数的定义可知:0R21。等于1的R2意味着一个完美的拟合,即对每个i都有 。另一方面,等于0的R2意味着被解释变量与解释变量之间无任何关系(即 ),这时, ,就是说,对任一Y值的最优预测值都是它的均值,从而回归线平行于X 轴。,与R2关系紧密但概念上与R2差异较大的一个参数是相关系数,它测度了两个变量之间的关联度。,也可据R 的定义计算,(4.49),从定义可以看出-1R1 。在回归分析中,R2是一个比R 更有意义的度量,因为R2告诉我们在被解释变量的变异中,由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量,而R 则没有这种作用。,五、案例,【例4.1】,根据凯恩斯理论,我们可建立消费与可支配收入的线性回归模型,模型形式如下,(4.50),其中,Y = 消费,X = 可支配收入,u = 随机误差项。,表4.4 每月家庭消费支出Y 和每月家庭收入X,调用回归分析软件EViews 3.1进行最小二乘估计可得:,EViews 报告结果为,159.8788,1,Y,图4.5 样本回归线,X,样本回归线定义:回归线上的点 是给定X值相对应的Yi的期望值或均值的一个估计值。,得到的样本回归线为:,回归线的斜率 表示,在X的样本区间(1000,5500)内 X每增加1元,平均每月消费支出增加0.7616元。,回归线的截距为159.8788,直观解释是当每月收入X值为零时,每月消费支出的平均水平, 但这种解释是不恰当的。因为X值的变化范围并不包括零这样一个观测值。截距项的解释只能借助于经济理论或其它知识来解释。通常可理解为是所有未包括在回归模型的变量对Y的综合影响。,R2=0.9970,说明有99.70%的每月消费支出的变异,可以由收入来解释。,【例4.2】,中国城镇居民消费函数 (19852003年),表4.5 中国城镇居民家庭人均收入与支出 单位:元,EViews 报告结果为:,据表4.5的数据,使用普通最小二乘法,得到中国城镇居民消费函数。,R2 = 0.9980,模型中,Yt城镇居民人均消费性支出, Xt城镇居民人均可支配收入。,模型表明,在19852003年期间,中国城镇居民可支配收入每增加1元,平均消费支出增加0.70元,边际消费倾向为0.70。,截距项 ,从表面上看是当居民可支配收入为0时的消费支出水平,但这是一种毫无意义的解释。因为在样本中,并不存在居民可支配收入为0的样本。,判定系数R2=0.9980。说明城镇居民可支配收入解释了城镇居民消费支出变异的99.80%,这是一个非常好的拟合。,第四节 置信区间与假设检验,一、置信区间的基本概念 例4.1消费模型中,边际消费倾向 的估计值为0.7616,这是对未知的总体边际消费倾向的一个点估计。由于是点估计,我们无法判断这种估计的可靠性有多大。我们只能保证在重复抽样中估计值的均值等于其真值。,为了衡量这一估计的可靠性,我们可围绕点估计量构造一个区间。要判断 对 估计的可靠性,可设定区间 ,使其包含 的概率 为 。即:,其中, , 。如果存在这样一个区间,就称设定的区间为 的置信区间。 称为置信系数或置信水平,而 称为显著性水平 , 称为置信上限, 称为置信下限。,如果 或5%,则式(4.51)的意义即为随机区间 包含真实 的概率为0.95或95%。可以看出,置信区间给出了 对 估计的可靠程度。为了正确理解式(4.51),说明如下:,1式(4.51)并不是说 落入该界限内的概率是 。因为 虽然未知,但它是总体回归函数中的边际消费倾向,是个定数,要么落在该区间内,要么落在该区间外。式(4.51)的意义为:用随机样本估计参数构造的区间包含 的概率为 。,2式(4.51)中的区间是一个随机区间,它随着样本的不同而不同。,3式(4.51)的意义为,对于多次 抽样,平均地说,这些区间有 包含 真实参数 。,4式(4.51)中,当 是一个随机变量时, 代表多种可能结果。如果选定了一个样本,就获得 的一个结果值,式(4.51)的区间就不再是随机区间,而是特定区间。,此时,我们就不能说这个给定的区间包含真实参数 的概率是 。此时, 要么在该区间内,要么在该区间外,概率只能是1或0。如果我们得到了 的95%置信区间为 ,就不能说这个区间包含真实值 的概率是95%。这个概率不是1就是0。,二、ui 正态性假定及普通最小二乘估计量 , 和 的性质,(一)ui 正态性假定,在回归分析中,我们的目的不仅仅是得到 ,而是要用 推断 。因此,我们需要得到 的置信区间,通过置信区间去判断这种推断的可靠性。,在最小二乘估计式中, 是Yi 的线性函数,从而也就是ui 的线性函数。要推 断 的置信区间,我们就必须获得ui 的概率分布。在回归分析中,人们常常假定ui 服从正态分布,即每个ui 都是正态分布的。,期望值:,E(ui)=0,(4.52),方差:,(4.53),协方差 :,(4.54),用符号表示,则为,(4.55),其中,表示“其分布为”,N 表示“正态分布”,括号中的数字为正态分布的两个参数:期望值与方差。,正态假定理由如下:,ui 代表回归模型中未包含的变量的集合。这些未引入的变量的影响是微弱的和随机的。根据中心极限定理,如果存在大量独立且同分布的随机变量,随着这些变量个数的增大,它们的总和将趋向正态分布。,即使变量个数不是很大或这些变量不是严格独立的,它们的总和仍可视同正态分布。,(二)ui 正态假定下普通最小二乘估计量 , 和 的性质,它们是无偏的。 它们有最小方差。 它们是一致估计量。就是说,随着样本容量无限地增大,估计量将收敛到它们的真值。, 服从正态分布,期望值:,方差,:,(4.56),(4.57),即:,(4.58), 服从正态分布,期望值:,方差,:,(4.59),(4.60),即:,(4.61),6 服从2(n-2)分布。,7 Yi 服从正态分布,期望值:,方差:,即:,(4.62),(4.63),(4.64),三、回归系数 和 的置信区间,在ui正态假定下, 和 均服从正态分布,将 转化为标准正态分布,则为:,(4.65),Z为期望值为0、方差为1的标准正态分布,即 :,ZN(0,1),(4.66),当已知 时,我们就可得到2的置信度为(1-)的置信区间为,但是,由于ui 的不可观测,我们无法获 知 。,我们只能用 的无偏估计量 来测定 ,如果我们用 代替 ,则式(4.65)可写为,(4.67),可以证明,这样定义的 t 变量服从自由度为n2的 t 分布,据t 分布可得,(4.68),式(4.68)中, 是显著性水平为 ,自由度为n2的t 分布的t 值,通常称为 显著水平的临界值。,(4.69),(4.70),将式(4.67)代入式(4.68)得,式(4.70)给出了 的一个100%(1- )置信区间。同理我们可得到的 置信区间:,(4.71),从式(4.70)、(4.71)可以看出, 毅 的置信区间的宽度与估计量 , 的标准误 成正比例。标准误越大,置信区间越宽。就是说,估计量的标准误越大,对未知参数的真值进行估计的可靠性越差。,因此,估计量的标准误也被用于测度估计量的精度, 就是说用估计量去测定真实的总体值有多精确。,例如,在我们的引例中,上一节中我们得到斜率系数的估计值 , ,自由度为8,当显著性水平为5%,即置信系数为95%时,查t 分布表可知, , 则 的95%置信区间为,0.7272 0.7960,(4.72),式(4.72)的意义为:给定置信系数为95%,从长远看,类似于(0.7272,0.7960)的区间,100个区间中,将有95个包含着真实的 值。,我们不能说这个固定的区间有95%的概率包含真实的 值,因为这个区间是固定不变的, 要么在该区间内,要么在该区间外。这个固定的区间包含 的概率要么为1,要么为0。,同理,我们可构建 的置信区间为,37.8500 281.9080,(4.73),式(4.73)表示,从长远看,该区间100个中将有95个包含真实的 ;但这个固定的区间包含真实的 的概率是1或0。,四、假设检验,1,检验回归系数的显著性t 检验,统计假设检验的中心思想就是判断某一特定观测或发现是否与某一声称的假设相符。如果相符就不拒绝这一假设,如不相符就拒绝这一假设。,概率性质反证法:小概率事件在一次试验中几乎是不可能发生的。 不应该出现的小概率事件出现了就拒绝原假设。,例如,在引例的回归分析中,如果事先我们已有一些研究成果认定边际消费倾向 为0.90,那么 =0.90就是我们所说的声称的假设。,如果我们的观测(估计)结果 在一定的统计原则下与0.90并不矛盾,我们就接受假设 , 即边际消费倾向的真值为0.90。如果 与 在一定的统计原则下相互矛盾,我们就拒绝假设 ,即边际消费倾向的真实值不是0.90。,我们称 这一声称的假设为虚拟假设或原假设,用符号H0表示,与之相对应 就称为备择假设,用符号H1表示。,一般地,可假设为,原假设H0:,备择假设H1:,已知:,(4.74),即t 服从自由度为n2的t分布。如原假设成立,即 ,则 :,(4.75),该t 值是一个统计量,服从t 分布,据此可得到t 统计量的置信区间,(4.76),式(4.76)建立的100( )%置信区间为原假设H0: 的接受域,置信区间以外的区域称为原假设H0: 的拒绝域。,例如:在引例中的收入消费模型中, =0.7616 , =0.0149,自由度=8,取 =5%,查t 分布表可知 =2.306。,若 , 则,(4.77),因为,(4.78),所得的t 统计量不在式(4.77)的区间内,故拒绝原假设H0: =0.9,接受备择假设 , 如图4.6 所示。,图4.6 t 的95%置信区间(自由度= 8),如果式(4.75)中的 ,则t统计量为0。可以看出,随着估计值 远离 ,t 的绝对值|t|将越来越大。就是说,随着t 统计量的绝对值的增大,原假设的可信程度在降低。,当t 统计量的绝对值大于临界值 时,就拒绝原假设。临界值 来自于t 分布表,其数值的大小决定于自由度 n-k和我们愿接受的第 I 类错误(即H0为真时拒绝它)的概率。,我们使用了t 分布对回归系数进行假设检验,因此,该检验程序称为t 检验。如果一个统计量的值落在拒绝域上,我们称该统计量是统计上显著的。此时,我们拒绝原假设。如果一个统计量的值落在接受域上,我们称该统计量是统计上不显著的。此时,我们接受原假设。,在经济计量分析中, , 代表解释变量X 对被解释变量Y的线性影响。如果X 对Y 的线性影响是显著的,则有 。若X对Y的影响不显著,则有 。,因此,我们通常设定的假设为,原假设,备择假设,此时,我们得到t 统计量为,(4.79),给定显著水平 ,自由度为n-k,查t 分布表可得临界值为 ,如果 ,则接受原假设 ,即解释变量X 对被解释变量Y 的影响是不显著的,解释变量对被解释变量没有影响,该解释变量不应包含在模型中。,如果 ,则拒绝原假设 ,接受备择假设 ,即解释变量X 对被解释变量Y 的影响是显著的,该解释变量应该保留在模型中。,(1) 设定假设,原假设,备择假设,t 检验决策规则:,(2) 计算原假设 条件下的t 统计量,(3) 在给定显著性水平 的条件下,查t 分布表得临界值,(4) 判断,如果 ,则拒绝原假设 ,接受备择假设,如果 ,则不拒 绝原假设,在引例的收入消费模型中,假设为 回归系数 的t 统计量为,t =51.11412.306,因此拒绝原假设 ,接受备择假设,即解释变量X 对被解释变量Y 的影响是显著的,回归系数 通过t 检验。,2,t 检验的相关问题,显著性水平 临界值 的大小取决于显著性水平 ,即犯第 I 类错误的概率(错误地拒绝了真实的原假设的概率)。 越小临界值 越大,犯第 I 类错误的概率越小。,实际显著水平P 值 一般经济计量分析中,都使用事先给定的显著性水平。当我们对给定的样本,算出一个检验统计量(如t 统计量)的值时,就可据相应的统计表,获知得到等于或大于该统计量的概率,我们称其为P 值。,P 值是假设检验中的实际显著性水平或犯第类错误的实际概率。更确切地讲,P 值是一个虚拟假设被拒绝的最低显著性水平。,“2倍t ”和“5%P 值”简算法 当样本容量n 较大时(n30),t 值只要大于2.0,我们就将回归系数判定为显著的。当进行多元回归时回归系数较多,利用这种方法非常方便,不需查t 分布表。,因为通常在5%的显著水平下,如果自由度在28以上(一元回归中的n30),则t分布表中的临界值 ,按四舍五入的原则,全部等于2.0。,同样,在5%的显著水平下,无论样本容量多大,当P 值小于5%时,即P0.05时,我们就可判定回归系数是显著的。,如果显著性水平不是5%或样本较小,则回归系数的显著性检验的临界值就需据t分布表来确定,而不能使用2或5%做临界水平进行t 检验。,例如,在引例的收入消费模型中,虽然 , 的t 值分别为3.021、51.135,都大于2,但样本较小,不能直接判定 , 是显著的。 , 的P 值分别为0.0165、0.0000,均小于5%,如果显著性水平 5, 可判定 , 都是显著的。,第五节 回归分析结果的报告与评价,一、回归分析结果的报告 回归分析的结果,应该以清晰的格式予以表达,通常采用如下格式(以收入消费模型为例),(4.81),Se = (52.9184) (0.0149) t = (3.0212) (51.1354) P = (0.0165) (0.0000) R2 = 0.9970 = 67.6376,式(4.81)中,第一排括号内的数字为回归系数估计值的标准误,第二排括号内的数字为在回归系数的真实值都是零的原假设下,由式(4.79)计算出来的t 统计量值。(例如3.0212=159.878852.9184)。,(4.79),第三排括号内的数字为P值,即估计值的实际显著性。P=0.0000表示当原假 设 : =0成立时,得到一个等于或 大于51.1354的t值的概率P0。也就是说,如果边际消费倾向确实为零的话,我们得到一个0.7616的估计值的机会,实际上等于零。因此,我们可以拒绝真实的边际消费倾向是零的原假设。,二、回归分析结果的评价,用最小二乘法得到回归模型后,我们要对模型的特性进行评价。回归模型的评价如下: 1经济理论评价。根据经济理论,边际消费倾向应为小于1大于0的正数。在收入消费模型中,我们得到的边际消费倾向为0.7616,与经济理论的描述是一致的。,2统计上的显著性。由于 , 由样本推断而得到的,即使 , 的真实值为0,由于抽样的波动, 我们也 会得到不为0的估计值 , 。因此,必须对回归系数进行显著性检验,判断回归系数的显著性。在收入消费例中,边际消费倾向不仅是正的,而在统计上也是显著地异于0,t 统计量的P值约等于0。,3回归分析模型的拟合优度,即解释变量X在多大程度上解释了被解释变量Y的变异。在收入消费例中,R2=0.9970,说明收入解释了消费变异的99.70%,这是一个非常好的拟合。,4检验回归分析模型是否满足经典假定。该类检验将在第六章中予以讲授。,第六节 回归分析的应用预测,一、预测概述,在时间序列分析中,预测就是指对事物未来状态的估计。在截面数据分析中,预测分析同样适用,此时的目的是预测当X 取特定值X0时,Y 的可能结果值Y0。,点预测就是对预测对象的未来值给出一个估计值,区间预测就是给出预测对象实际值的一个置信区间。,由预测分析得到信息有许多用途。经济系统中,预测常常用来指导经济政策和方针的制订。当预测到经济系统将出现高通货膨胀时,政府往往会提前采取紧缩的政策。当预测石油价格会上涨时,人们会增加石油的储备。预测结果还能用于指导建立模型。当预测结果与实际结果相差较大时,会利用误差信息对模型进行修正。,预测分事后模拟预测和事先预测。事后模拟预测指对样本期内已知Y的结果值的区间进行估计,也称为模拟值。事先预测指对样本区外未知Y 的结果进行估计。,二、均值预测,在收入消费模型中,我们得到样本回归模型为,(4.82),其中, 是对应于给定Xi 的Yi 的总体均值E(Yi)的估计量。均值预测就是预测对于给定的X0,Y 的条件均值的值,也就是预测总体回归线本身上的点。,利用式(4.82)进行预测,假定X0=2000,我们对Yi 的均值E(Y / X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论