版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 回归分析概述回归分析是寻求隐藏在随机现象中的统计规律的理论和方法,是经济计量学的最基本的方法论基础。讨论回归模型在经典假设条件下的参数估计、假设检验和估计量的统计性质,以及经典假设不完全满足条件下,有关问题的处理是理论经济计量学的任务。为了对回归分析理论和方法有一个全面深入的理解,本章先对回归分析的基本概念和性质予以介绍,在以后各章顺次展开以上问题的讨论。第一节 回归分析的性质一、“回归”一词的现代含义回归一词最早是生物统计学家高尔顿(Francis Galton)引入的。高尔顿在对人类身高之类的遗传特性的研究中,发现了他称之为“向平均回归”的现象。虽然客观上存在一种趋势,即父母高,子
2、女也高;父母矮,子女也矮,但是给定父母的身高,子女的平均身高却有 “回归”到全体人口的平均身高的倾向。也就是说,尽管父母双亲都异常高或异常矮,而子女的身高却有趋向人口总体平均身高的趋势。高尔顿的普通回归定律也被另一位统计学家皮尔逊(Karl Pearson)证实。高尔顿的兴趣在于发现人口的身高为什么有一种稳定性。这是“回归”一词的初始含义。 然而,对“回归”一词的现代解释却与初始含义有很大不同,其现代含义是回归分析研究一个被解释变量对另一个或多个解释变量的变量依存关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计或预测前者的(总体)均值。 比如,对于父母身高与子女身高的关系研究,人
3、们会发现,对于设定的每一个父辈的身高,都有一个儿辈的假想人口总体的身高分布与之对应,随着父辈身高的增加,儿辈的平均身高也增加。若把这种父辈身高与儿辈平均身高的一一对应关系绘制在平面坐标图上,可以得到一条直线,这条直线就叫做回归线,它表明儿辈的平均身高如何随父辈的身高变化。从现代回归的观点出发,人们关心的是给定父辈的身高情况下,如何发现儿辈平均身高的变化。也就是说,人们关心的是一旦知道了父辈的身高,如何估计预测儿辈的平均身高。 经济学家可以利用回归分析研究个人消费支出对其实际可支配收入的依从关系。通过回归分析可估计边际消费倾向(MPC),而边际消费倾向说明人们每增加一个单位的实际可支配收入而引起
4、的消费支出的平均变化。农业经济学家可利用回归分析研究农作物收成对施肥量,降雨量,气温等的依赖关系。这种分析能使他用给定的解释变量的信息预测或预报农作物的平均收成。劳动经济学家利用回归分析研究货币工资变化率对失业率的依存关系,著名的菲利普斯曲线就是研究这一依存关系的成果,劳动经济学家经常利用这一曲线预测在给定的某个失业率下货币工资的平均变化。由于工资的增长会引起物价的上涨,因此通过这一曲线还可以研究通货膨胀、关于经济扩张过程方面的问题。 由货币银行学的知识可知,若其它条件不变,通货膨胀率愈高,人们愿意以货币形式保存的收入比例越低。对这种关系作回归分析,使金融学家能够预测在各种通货膨胀率下人们愿意
5、以货币形式保存的平均收入比例。 公司的经理想了解人们对公司产品的需求与广告费开支的关系。对其进行回归分析在很大程度上有助于计算相对于广告费支出的需求弹性,这有助于公司经理制定“最优”的广告费预算。我们能提供关于一个变量依赖于另一个或多个变量的大量事例。现代回归分析的主要任务,就是用来研究这种变量之间的依从关系的。二、统计关系与确定关系 在经典物理学中研究的变量之间的关系是函数关系或确定性依赖关系。从上述例子可以看出,回归分析中研究的变量之间的关系都不是函数关系或确定性依赖关系,而是一种所谓的统计依从关系。在变量之间的统计关系中,人们主要处理的是随机变量,也就是具有概率分布的变量。但是在函数或确
6、定性依赖关系中,人们处理的变量是非随机的。统计关系虽然没有函数关系准确,但是它的存在比后者更为广泛,而且非常有用。因为客观社会经济现象中存在的大量统计关系可表示成确定性部分和随机性部分之和,这种统计关系的表示是回归分析的基础。例如农作物收成对施肥量、降雨量、气温的依赖关系是统计性质的。其意义在于:这些解释变量固然重要,但并不能使农业经济学家准确预测作物的收成。一方面,除了上述解释变量外,还有其他影响收成的因素(变量)存在,由于种种原因难于一一识别和测量;另一方面,对这些已考虑的解释变量的测量存在误差。因此,无论我们考虑多少个解释变量,都无法完全解释农作物收成这个应变量。它的一些“内生的”或随机
7、的变异是注定存在的。 但是在确定性现象中,人们利用函数的形式研究表示这样一类变量的依赖关系。比如,牛顿的引力定律可表示为,其中为引力,和为两个粒子的质量,为距离,而为比例常数。其物理意义说明:宇宙间的每个粒子吸引着另一个粒子,其引力与它们的质量乘积成正比,而与它们之间的距离的平方成反比。在物理学中,这类确定性现象的例子很多。如欧姆定律、波依耳的气体定律、克奇霍夫的电流定律和牛顿的运动定律等等。统计关系与确定性关系有区别,但也有联系。比方说,在牛顿的引力定律中,若的测量有误差,则原来的确定性关系就变成了一个统计关系。这时,引力只能按给定的(还有、和)近似地加以预测,于是变量之间的关系由函数关系变
8、为统计关系,变量变成了一个随机变量。三、回归与因果关系 回归分析研究大量的一个变量对一个或一些变量的依赖关系,但是它本身并不揭示和说明这些变量之间是否存在因果关系。对于这些变量代表的事物之间是否存在因果关系,要由研究这些事物的实质性科学来揭示,因果关系的理念,必须来自统计学之外。回归分析可对实质性科学揭示的因果关系给予实证。比如父辈身高与儿辈身高一例中,我们没有任何统计上的理由可以认为父辈身高不依赖于儿辈身高,人们之所以把儿辈身高作为依赖于父辈身高的被解释变量,是出于非统计上的考虑,常识告诉我们不能把这种关系颠倒过来。若从统计的角度,把儿辈身高作为解释变量而把父辈身高作为被解释变量进行回归,可
9、能得到一个很强的统计关系式,但不能由此得到一个合乎逻辑的解释,更不能得出儿辈的高矮是父辈高矮的原因的荒谬结论。也就是说,从逻辑上看,统计关系式本身不说明任何因果关系。事物之间的因果关系,必须依赖先验的或理论上的思考或揭示。四、回归分析与相关分析 以测度两个变量之间的线性关联程度为其主要目的的相关分析,虽然与回归分析具有密切的关联,然而在概念上却迥然不同。第3章中我们将要讨论的相关系数就是用来测度变量(线性)相关程度的指标。在现实中,也许我们对家庭的消费支出与家庭的可支配收入,农作物的收获率与降雨量,产品的产出量与劳动和资本的投入量,人的身高与体重,学生的统计学成绩与数学成绩,吸烟的时间与肺癌的
10、发病率等等之间的相关性感兴趣,计算它们的相关系数,进行相关分析。但在回归分析中,我们对这种度量并无太大的兴趣,感兴趣的是根据其它变量的设定值来估计或预测某一变量的平均值。比如,也许人们想知道是否能依据一个家庭的可支配收入去预测具有相同可支配收入家庭的平均消费支出。 回归分析和相关分析之间存在一些基本的区别。在回归分析中,被解释变量与解释变量的处理方法上存在不对称性。被解释变量是随机变量,具有概率分布,而解释变量则是非随机的,在重复抽样中取固定值。但在相关分析中,我们对称地对待任何(两个)变量;两个变量都被看作是随机的,没有被解释变量与解释变量的区分,大部分相关理论都建立在变量的随机性假定上。而
11、回归理论大部分都以下述假定为条件:即被解释变量是随机的,而解释变量是非随机的。所以,同样两个变量,根据理论分析,可以拟合两个意义不同的回归方程,但只能计算一个相关系数。比如我们可以拟合以人的身高为被解释变量,以人的体重为解释变量的回归模型;也可以反过来以人的体重作为被解释变量,而以人的身高作为解释变量的回归模型,但人的身高和体重之间只可计算一个相关系数。相关分析与回归分析之间也存在一些基本的联系。一般在回归分析之前,要对涉及的变量进行相关分析(定性的、定量的分析),确定有相关关系时,才进一步作回归分析。因此可以说相关分析是回归分析的前提,回归分析是相关分析的深化。第二节 回归分析的基本概念一、
12、总体回归线 上一节指出,回归分析就是要根据解释变量的已知或给定值,去估计或预测被解释变量的(总体)均值。为了弄清楚其实质含义,考虑下面的例子。例 假想一个人口总体由100户家庭组成。若我们要研究家庭人均月消费支出与人均月可支配收入之间的关系,也就是说,知道了家庭的人均月可支配收入,预测其人均月消费支出的(总体)平均水平。表2.1给出了人为的数据,将100户家庭按照其人均可支配收入大小从小到大划分为10个组,每组只给出人均可支配收入的组中值。表2.1 假想总体月家庭人均可支配收入和消费支出 单位:元月家庭人均可支配收入500100015002000250030003500400045005000
13、月家庭人均消费支出460590802108613571564200124012768305246265791111981498171221062509293132794696609901245153017792263260030103387475729103713351684193023472698310534144848271100137717551951240027923112349848889211341405180020002445282331893547490941122615711846219025002867320136584969871325178719262223257829
14、48331237499891419183219642310258730743434143618442001253126673168209026122731212527342871合计382472721138014680215762553629496278802806227584Y的条件均值E(Y|X)47880811381468179821282458278831183448 表2.1应做如下的解释:对应于每个纵列的给定组中值收入水平,都有一个消费支出的总体分布,也就是说,它给出了以的给定值为条件的的总体条件分布。比如,对应于每月1000元的人均可支配收入,具有9户家庭的月人均消费支出(590
15、元,657元,989元)构成的总体条件分布。同时我们也容易算出给定X的的条件概率。例如,当1000,得到这些消费支出中任一个的条件概率均为1/9。用符号表示为等等。同理,等等。 对于的每一条件概率分布,我们都能算出它们的条件均值或条件期望值(conditional expected values) ,记做。例如,等等。实际上我们根据表2.1的数据可绘制图2.1的散点图,观察此散点图可以发现,虽然每个个别家庭的人均消费支出都有变异,但图2.1依然清楚地表明随着收入的增加,消费支出平均说来也在增加,也就是说的条件均值随的增加而增加。若将图中粗圆点代表的的各个条件均值连起来,可以看出,这些条件均值落
16、在一条有正斜率的直线上。这条直线称为总体回归曲线(population regression curve),简称为总体回归线(population regression line, PRL)。它表示对的回归。 图2.1 不同收入水平下消费支出的条件分布及其总体回归线在几何意义上,总体回归曲线就是当解释变量取给定值时被解释变量的条件均值或期望值的轨迹。它表明对每一值都有值的一个总体(假定服从正态分布)和一个相应的条件均值。而总体回归曲线(或直线)就是通过这些条件均值的连线。二、总体回归函数 由图2.1可以清楚地看出,每一条件均值都是的一个函数,即有: ()其中表示解释变量的某个函数(在我们的人为
17、例子中,是的一个线性函数)。式()被称为总体回归函数(population regression function, PRF)或简称为总体回归(PR)。它仅仅表明在给定下的(总体)分布均值与有函数关系。换句话说,它表明的均值或平均响应是怎样随X而变化的。 函数采取什么形式是一个十分重要的问题。因为在实际情况中我们一般无法得到全部总体的观测值来做分析研究。因此,PRF的形式设定是一个经验方面的问题。或许经济理论会有所提示,但理论的提出需经过实证检验。例如,根据经济理论分析,可以认为人们的消费支出与可支配收入有线性关系,作为一个初次逼近或一个暂行的假设,可以设定PRF 是的线性函数,其形式为 ()
18、其中和未知,然而是固定的参数,称为回归系数(regressive coefficients),称为截距(intercept),称为斜率系数(slope coefficient)。式()称为线性总体回归函数或简称线性总体回归,有时也称为线性总体回归模型。 但是,如果我们把人均食品消费支出与人均可支配收入的关系也设定为线性回归函数,可能就不符合恩格尔定律的描述,还需要经验的帮助和实证的检验。 在回归分析中,我们的兴趣在于估计像式()那样的PRF,也就是说,根据和的样本观测值估计未知的参数和。该问题将在第3章展开讨论。三、“线性”一词的含义描述统计关系的回归模型在数学形式上有线性和非线性之分。但是,
19、在回归分析中,“线性”一词的含义可作两种解释。对线性的第一种解释也许是更“自然”的解释是,的条件期望是的线性函数。比如说,如同式()那样的形式。从几何意义上说,这时回归曲线是一条直线。按照这种解释,诸如,等,就不是线性函数。对于线性的第2种解释是,的条件期望是诸参数的线性函数;它可以是也可以不是变量的线性函数。对于这种解释,和都是线性回归模型,而则不是,后者(对参数而言)是非线性回归模型的一个例子。在两种线性的解释中,对于我们即将展开讨论的回归理论来说,主要考虑的是对参数为线性的情形,也就是说,从现在起,“线性”回归一词总是指对参数为线性的一种回归,即参数总是以它的一次方出现。对解释变量则可以
20、是也可以不是线性的。划分的标准是回归模型的条件期望关于参数的导数是否与参数有关,即期望函数关于参数的一阶导函数是否仍然是参数的函数。若不是,则称该回归模型是线性回归函数,若是,则称为非线性回归函数。 四、总体回归函数的随机设定1、PRF的随机设定 由表2.1和图2.1清楚地看出,随着人均可支配收入的增加,家庭人均消费支出平均地说也增加。然而对于每一个家庭来说却并非如此,某些个别家庭的人均消费支出却没有随人均可支配收入的增加而增加。例如,从表2.1可以观察出,对应于每月2500元的收入水平,有一户家庭的消费支出是1357元,不仅少于每月收入仅为2000元家庭的平均消费支出1468元,而且比该收入
21、水平的大部分家庭的消费支出都少。但是我们必须看出,每月人均可支配收入2500元的家庭的平均消费支出比每月人均可支配收入2000元的家庭的平均消费支出多330元。那么,个别家庭的消费支出与给定收入水平之间有什么关系呢? 由图2.1可以看出,给定收入水平的个别家庭的消费支出聚集在收入为的所有家庭的平均消费支出(条件期望值)的周围。因此,我们可以把个别的表示成它的条件期望值加上它与条件期望值的离差的和,即有: ()其中离差是一个不可观测的可正可负的随机变量,因此我们又把它称为随机干扰(stochastic disturbance)或随机误差(stochastic error)项。 式()中右边第一项
22、代表相同收入水平的所有家庭的平均消费支出,这部分称为确定性或系统性成分;第二项称为随机或非系统成分,假定它是所有可能影响Y的但又未能包含到回归模型中的被忽略变量的替代(surrogate)或代理(proxy)变量。 假定是的线性函数,如式(),方程(2.2.3)可写为: ()方程式()表示,一个家庭的消费支出,线性地依赖于它的收入另加随机干扰项。如果对式(2.2.3)的两边取条件期望,就得出: ()因为就是,所以由式()推出: ()由此可见,如果,则式()与式(2.2.4)等价。但式(2.2.4)有其优点,即它清楚地表示,除收入外,还有影响消费支出的其他变量。我们不能单凭回归模型中含有的(一个
23、或多个)变量就能完全解释个别家庭的消费支出。2、随机干扰项的意义我们为什么要把回归模型构造成式()那样的形式,不把所有的解释变量引进模型中,构造一个含有尽可能多的解释变量的回归模型,而把从模型中省略下来而又集体地影响着Y的全部变量用随机干扰项作为代替?随机干扰项的意义何在?可能的解释是多方面的。(1)理论的不完备性。在构造回归模型时,即便有决定Y的行为理论的指导,但由于人们认识的局限性,理论常常是不完备的。对于有些影响因素或者没有认识到或者有所认识但不确定。因此不妨用作为模型所排除或忽略的全部变量的代替变量。(2)数据的缺失。在构造回归模型时,有些重要的变量被认识到了但由于不可观测或其他原因不
24、得不被省略掉。在经验研究中,得不到想要的数据是司空见惯的事。比如,从经济原理来讲,除收入外,家庭财富也是影响家庭消费支出的重要变量,但是家庭财富的数据往往难以获得。因此,我们不得不把家庭财富这个变量用随机误差项来代替。 (3)周边变量的联合效应的随机化处理。比如在我们的消费收入例子中,除了核心变量收入外,影响家庭消费支出的还有诸如家庭人口数,户主的性别,宗教信仰,受教育程度等也影响消费支出。但相对于核心变量收入,它们对消费支出的影响是微小的,所以称为周边变量。这些周边变量的全部合起来的影响是如此之小,充其量是一种非系统的或随机的影响。从实际以及成本上考虑,把它们引入模型是不划算的。所以把它们的
25、联合效应当作一个随机变量归入随机干扰项中来处理。 (4)人类行为的内在随机性。即使模型中包含了所有的有关变量,在个别的中仍难免有一些“内在”的随机性,比如家庭主妇在购物时经常要受到情绪和购物环境的影响,随机干扰项也许能很好地反映这种随机性。 (5)变量的测量误差。在搜集和整理变量数据过程中会存在测量误差,这种真实值与观测值之间的误差是客观存在的。这时干扰项又可用来代表测量误差。 (6)节省性原则。如果我们能用尽可能少的重要解释变量就基本解释了被解释变量的行为,那么我们为什么要舍简单而求复杂呢?把大量不重要的解释变量归入随机误差项就体现了这种节省性原则。 (7)模型关系式设定不正确。即使我们能在
26、理论的指导下正确地选择变量,并且能够获得这些变量的数据,但是我们常常不知道被解释变量与解释变量之间的真实函数关系式。在双变量模型中,人们或许能从样本的散点图来判断总体的函数形式,而在多变量回归模型中,这种多维空间的散点图的形式是难以描述和想象的,要决定适当的函数形式也是不容易的。五、系统误差与随机误差 在回归分析中区分系统性误差和随机性误差是十分重要的。因为在回归模型及其估计中若只存在随机误差,则在大量重复观测或试验时其平均趋势会稳定在回归模型的期望函数上,从而说明该模型的设定是正确的;若在回归模型及其估计中含有系统误差,则在大量重复的观测或试验中其平均趋势不会稳定在回归模型的期望函数上,说明
27、模型设定有错误。 系统性误差是由系统因素产生的误差。所谓系统因素是指哪些对被解释变量作用较显著,作用方向稳定,重复观测或试验也不可能相互抵消的因素。一般来说,应把系统因素尽可能作为解释变量引入模型,而不应将其归入随机误差项。 随机误差则是指由随机因素形成的误差。所谓随机因素,是指哪些对被解释变量的作用不明显,其作用方向不稳定(时正时负),在重复观测或试验中,正负作用可以互相抵消的因素。随机因素应尽可能归入随机误差项。六、样本回归函数 直到现在,我们讨论的问题一直局限在与固定X值相对应的Y值的总体上,但在大多数的实际问题中,我们并不掌握总体的信息,我们仅有对应于某些固定X的Y值的一个样本,我们必
28、须面对抽样的问题。现实的任务就是要用样本的信息估计PRF。如果我们并不知道表2.1中的总体数据,我们仅有的信息是从表2.1总体数据中抽出的一个随机样本。表2.2列出从表2.1总体中抽出的两个随机样本资料。表2.2 表2.1总体的两个随机样本 单位:元X值Y值样本1样本25004624881000941729150010371325200011981787250017551926300017792223350025872731400027922948450031893010500032793414现在的问题是我们能用表2.2中的一个随机样本提供的信息估计PRF吗?由于抽样误差的存在,我们未必能“
29、准确”估计PRF。为说明这一点,我们利用表2.2的样本数据可以得出图2.2表示的两个散点图。在散点图中分别画两条线以尽可能好地拟合这些散点,由和分别表示的这两条直线就称作样本回归线(sample regressive line)。那么这两条回归线中的哪一条代表“真实”的总体回归线呢?在“真实”总体并不知晓的情况下,我们不可能有绝对的把握说两条样本回归线的哪一条可以更好地代表真实的总体回归线。由于抽样的原因,它们最多也不过是真实PRL的一个逼近。一般来说,从N个不同的样本,会得到N个不同的样本回归线。 图2.2 两个不同样本的回归线类似于总体回归线有一个总体回归函数PRF相对应,每一个样本回归线也有一个相对应的样本回归函数(sample regressive function, SRF)。类似于()式,样本回归函数关系式可表示为: ()其中为的估计量,和分别为和的估计量。 估计量(estimator)又称(样本)统计量(statistic),指的是一个规则或公式或方法,它告诉人们如何利用得到的样本信息去估计总体参数。根据样本信息估计计算的估计量的具体数值称作估计值(estimate)。 如同PRF可以表示成式()和式(2.2.4)两种等价的形式一样,我们也可以把SRF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 渭南公园安全生产管理讲解
- 湖南财经工业职业技术学院《检测技术与传感原理》2024-2025学年第二学期期末试卷
- 昆明艺术职业学院《社会调查原理与方法》2024-2025学年第二学期期末试卷
- 企业管理制度
- 上海出版印刷高等专科学校《设计文案写作》2024-2025学年第二学期期末试卷
- 湖北生物科技职业学院《酒店管理概论》2024-2025学年第二学期期末试卷
- 2026贵州黔东南州瑞榕实业发展有限责任公司招聘2人笔试模拟试题及答案解析
- 2026内蒙古锡林郭勒盟锡林浩特爱心口腔防治所招聘1人考试参考试题及答案解析
- 2026广西贵港桂平市农业投资发展有限公司招募见习人员1人考试参考试题及答案解析
- 八年级数学苏科版上册 1.2全等三角形 课时练( 含简单答案)
- 电力五防知识教育培训课件
- 移动电源生产工艺流程
- 建设单位与勘察单位安全生产责任书
- 水泥企业复产前安全培训课件
- 幼师线描画培训
- 句子成分和长难句精析(专项训练)-2026年高考英语一轮复习(北京专用)原卷版
- 中国古风水墨画课件模板
- 万纬冷库管理办法
- 兵团招标投标管理办法
- DGTJ08-2317-2020 土地整治项目工程质量验收标准
- 管线工程公司管理制度
评论
0/150
提交评论