双变量回归模型估计问题_第1页
双变量回归模型估计问题_第2页
双变量回归模型估计问题_第3页
双变量回归模型估计问题_第4页
双变量回归模型估计问题_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

双变量回归模型估计问题第1页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静2本章知识要点:1普通最小二乘估计(OLS)2最小二乘法(OLS)的10个基本假定3最小二乘法估计的精度或标准误差4最小二乘法估计量的性质5判定系数和相关系数第2页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静3问题的提出回归分析的目的:是运用样本数据估计SRL,使SRL能最大限度逼近于PRL。由此而提出的问题是,在什么假定下,运用何种方法形成SRL,使SRL尽可能逼近PRL?注意:总体回归函数或直线是:固定的、唯一的且是未知的。而我们每抽取一个样本,就可以得出一条样本回归直线,所以样本回归直线不是固定的,会随着样本的不同而不同,且是已知的,估计思路就是用已知的或者可以获得的信息来估计未知的总体信息。第3页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静4第4页,共80页,2023年,2月20日,星期三第5页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静6第6页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静7最小二乘估计的提出第7页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静8最小二乘估计德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第8页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静9KarlGauss的最小化图xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^第9页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静10最小二乘估计第10页,共80页,2023年,2月20日,星期三第11页,共80页,2023年,2月20日,星期三第12页,共80页,2023年,2月20日,星期三第13页,共80页,2023年,2月20日,星期三第14页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静15第15页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静16一个说明

分别为样本的均值,所以为样本点对样本均值的离差,度量第个观测值和对其均值的偏离。上述推导中,N为样本点个数或样本长度,为方便,以后以小写的表示。

第16页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静17样本回归直线的估计第17页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静18第18页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静19估计的样本回归线(SRL)具有如下性质:(1)

SRL通过样本均值点(由,即样本均值满足样本回归直线,所以通过样本均值点),如图.

第19页,共80页,2023年,2月20日,星期三第20页,共80页,2023年,2月20日,星期三第21页,共80页,2023年,2月20日,星期三第22页,共80页,2023年,2月20日,星期三第23页,共80页,2023年,2月20日,星期三一个注释暨南大学经济学院统计系陈文静24第24页,共80页,2023年,2月20日,星期三以上我们仅得到了估计量以及相应的样本回归直线,尽管从估计的角度看,运用OLS已经能求出参数的估计。但没有对残差的分布和变量X作出任何假定,因此我们无法对这种估计或SRL作出评价和推断,而回归分析的目的不仅要求出参数的估计,还需对总体作出推断,即对于PRL通过上述OLS方法,得到了SRL第25页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静26基本假定的提出问题:SRL是否为PRL的一个无偏估计?如何定义无偏?这一问题归结为估计量在期望的意义下是否与总体参数有偏差?也就是说,从SRL能否推断PRL的真值?解决这一问题的途径是对总体的残差作出分布假定,然后讨论估计量的分布性质,基于此讨论估计量是否有偏等一系列问题。另一方面,从PRL可知,Y依赖于X和扰动,只有对X和扰动作出相应的假定,才可能对Y和参数作出统计推断,亦即对模型作出评价。第26页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静273.2.OLS的基本假定

经典线性回归模型(CLRM)或称为高斯或标准直线回归模型具有10大假设,构成了计量经济学理论基础。在这10大假设下,SRL具有对总体无偏等性质。这些假定有下述10条。

第27页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静281.线性回归模型即模型对参数而言是线性的(参数只能以1次方出现)。这一假定强调的是对参数,而不是变量。如

Y=b1+b2X+uY=b1+b2X1+b3X2+u为线性模型(对参数而言),但

Y=b1+b2X1+b1b2X2+u对参数而言就是非线性模型,如果设定这样的非线性模型,则违反了性线回归模型的假设。.第28页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静29这一假定不难理解,对于上面所假定的总体,对于X=80,随机抽取一个家庭,其Y=70,直至X=260,随机抽取Y=150,在第二次抽样时,仍将X固定在X=80,再次抽取一个样本Y=55,直至X=260,随机抽取Y=175。这种重复抽样的过程是将X固定在X=80直至X=260。在重复抽样过程中,将X固定或不变,从这个意义上说,X是非随机的,X固定后,随机抽取相应的Y。注:条件回归分析(X固定的条件下讨论Y的平均变化)2.

在重复抽样中X是固定的,或X是非随机的。第29页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静303.

干扰项的均值为0这一假定是对于固定的X,如X=80,指偏离总体条件均值的和为0,无论个别的偏差有多大(小),是正还是负,其和为0。回到上例,X=80,总体为5户家庭,Y的均值为65,第一个家庭的Y为55,偏差为-10,第二个为60,偏差为-5,等等,这些偏差相加应为0,也就是说,正和负的偏差相互抵消。由上述性质2和3,回归是建立在条件回归的基础上。

第30页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静31第31页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静32补充说明当考虑随机误差项的所有可能值的全部(即总体)时,总体均值应该为0。对于小样本,误差项的均值不可能正好为0,为了弥补这一缺陷,在方程中加上常数项可以迫使任何回归中的扰动项的均值为0.本质上,常数项等于Y中不能被解释变量解释的固定部分,而误差项则等于Y中不能被X解释的随机部分。第32页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静334.同方差性或扰动的方差相同。即

第33页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静34与之不同的是异方差,如下图所示

第34页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静35这是因为由假定3即扰动的均值为0

实际上,随机干扰项的同方差假定也就意味着对应于不同的X,Y也有同样的方差。该假定意味着对应于不同的X值的全部Y值都有同样的重要性。第35页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静365扰动之间无(自)相关。即给定任意的X的两个值,对应的扰动没有自相关。基于相关和协方差的定义,不相关与协方差为0等价。第36页,共80页,2023年,2月20日,星期三如X=80和X=100两个不同的水平,与总体均值的偏差不相关。协方差正是针对不同水平之间而定义的。这一性质所强调的是,所有的与总体均值的偏差(误差)之间不相关,而不仅仅是对给定某一水平(如X=80)之下的误差而言。第37页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静386.扰动项与X不相关,或它们之间的协方差为0。这一假定的表示中,非随机是因为它已经是一个数。

第38页,共80页,2023年,2月20日,星期三如果一个解释变量与误差项相关,OLS估计量很可能把一些实际由误差项所引起的的变异归因于由解释变量所引起。例如,如果解释变量与误差项正相关,估计的回归系数可能大于(向上偏误)没有正相关时的系数估计。因为OLS估计程序会错误地把由引起的Y的变异归因于X,因此,确保解释变量与误差相不相关很重要。第39页,共80页,2023年,2月20日,星期三为理解为什么,让我们看一个例子。在一个简单的凯恩斯宏观经济模型中,消费的增加(也许是由于未预期到的偏好变化所引起)将增加总需求,于是导致总收入的增加。然而,收入的增加也会引起消费的增加,因此,消费与收入是相互依赖的。注意,消费函数中的误差项(这个误差项是由未预期到的偏好变化所引起的)和消费函数中的解释变量现在一起变动。其结果是违背了经典假定,误差项不再与所有解释变量不相关。第40页,共80页,2023年,2月20日,星期三7.观测次数或样本的长度大于待估参数的个数。8.X值要有变异性,即对于一个给定的样本,X的值不能全部相同,也就是说,X的方差必须是一个有限的正数。反之,若X在一个样本中取相同的值(无变异性),方差就为0,无法估计参数。变量必须在变!!!9.正确设定回归模型,或者说,所用的模型不存在设定误差。所谓设定问题,在本书中包括:(1)模型应包括哪些变量,(2)模型的函数形式(如线性还是非线性),(3)对模型的变量和扰动应有哪些假定等。以后我们还应看到,设定问题还有更多的内容。第41页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静4210.解释变量之间没有完全的线性关系。

第42页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静43一个说明

我们特别说明,这些假定并不全部成立,在这些假定之下,所得到的回归和SRL,为以后的分析建立了一个框架,或镜子,违反这些假定的任何一条,将得不到这些假定之下的估计量的性质。因此,计量经济学正是对这些假定的逐步取消或在某些假定之下能导出仍然有效的估计或统计推断而不断将研究的问题深入和逼近现实。第43页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静443.3OLS的精度:标准误差我们在前面有关异方差的讨论中已说明,方差越小,与总体的偏离就越小,对这一问题的正式分析即为标准差。从OLS可知,估计量均为样本数据的函数,如何评价估计量的可信度或精度?工具就是所谓标准差。第44页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静45第45页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静46第46页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静47第47页,共80页,2023年,2月20日,星期三第48页,共80页,2023年,2月20日,星期三以上的参数估计的方差和标准差都含总体扰动的方差和标准差,而总体扰动一般是不可观测的,即总体方差和标准差是未知的,故需要用样本予以估计,我们给出结果,推导详见p85。第49页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静50第50页,共80页,2023年,2月20日,星期三第51页,共80页,2023年,2月20日,星期三第52页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静533.3.OLS估计量的性质:高斯-马尔可夫定理在给定上述假定条件,由OLS所得到的估计量所具有的性质:

1.估计量关于Yi是线性的。即是关于的线性组合,由于为随机变量的一个样本,所以估计量也是一个随机变量。作为例子,第53页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静542.估计量是无偏的例子第54页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静553在所有线性无偏估计量中具有最小方差具有最小方差的估计量称为有效估计量.注意:有效估计量强调最小方差,即对所有线性和非线性估计量,只要是最小方差,就称为有效估计量。一般而言,这一定义对于大样本而定义的。第55页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静56第56页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静57第57页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静58第58页,共80页,2023年,2月20日,星期三高斯--马尔可夫定理暨南大学经济学院统计系陈文静59在给定经典线性回归模型的假定下,OLS估计量,在无偏线性估计量中,具有最小方差,即OLS估计量是最优线性无偏估计量(BLUE)

第59页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静603.5.判定系数:拟合优度的一个度量

以上所讨论的是关于估计量的性质,即线性无偏且方差最小,因此,样本回归直线是总体的一个无偏且具有高精度(方差最小)的估计,但由于总体一般是未知的,所以以下的分析针对样本回归直线。但对于所谓尽可能逼近还没有正式定义和度量,所谓尽可能逼近,其定义和度量之一是,围绕样本回归直线的偏差(残差)尽可能小,即样本数据尽可能拟合SRL,度量这种拟合程度即为判定系数,或拟合优度,记为。第60页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静61拟合优度拟合优度(goodnessoffit):回归直线与各观测点的接近程度称为回归直线对样本数据的拟合优度,通常用判定系数(coefficientofdetermination)来判断。若各观测数据的散点都落在回归直线上,那么这条回归直线就是对数据的完全拟合。各观测点越是紧密围绕直线,说明直线对观测数据的拟合程度越好,反之就越差。第61页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静62

变差(离差)因变量

y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示第62页,共80页,2023年,2月20日,星期三我们以下导出拟合优度的公式:定义:上式所度量的是所有观测值(样本点)与其均值(或总体均值,因为)的总变异(),故称为总变异或总平方和,记为TSS。

第63页,共80页,2023年,2月20日,星期三解释平方和ESS定义为:由于在ESS中,表示回归直线上的点与样本均值(等于总体均值)的总离差,因此它度量了回归直线与总体均值的“逼近”程度,故称为解释平方和,或由回归解释的平方和,即在TSS(总变异)中,由回归所解释的变异。第64页,共80页,2023年,2月20日,星期三而残差平方和RSS定义为残差(或剩余)或未被解释的部分围绕回归线的Y值的变异:

TSS=ESS+RSS这些分解的意义见下图。这表明Y的观测值围绕其均值的总变异可以分解成两个部分:一部分来自回归直线,用自变量x可以解释的部分;另一部分来自随机的非系统因素导致的变异,因为并不是所有的实际观测值都落在所拟合的直线上。这样TSS就分解为第65页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静66第66页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静67离差平方和的分解

(三个平方和的关系)TSS=ESS+RSS总平方和(TSS){回归平方和(ESS)残差平方和(RSS){{第67页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静68离差平方和的分解

(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,由回归直线来解释的y变差部分。残差平方和(SSE)反映除x以外的其他因素对y取值的影响,是不能由回归直线来解释的y变差部分,也称为残差平方和或误差平方和总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)第68页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静69总离差分解图第69页,共80页,2023年,2月20日,星期三拟合优度的定义即是在总变异中,由回归所产生的变异占的比重。

显然,有,经简单推导,可表示为

第70页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静71

判定系数R2

(coefficientofdetermination)判定系数:回归平方和占总离差平方和的比例判定系数反映回归直线的拟合程度取值范围在[0,1]之间

R21,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化解释y值变差的部分就越多,这说明回归方程拟合的越好;R20,说明回归方程拟合的越差第71页,共80页,2023年,2月20日,星期三暨南大学经济学院统计系陈文静72第72页,共80页,2023年,2月20日,星期三第73页,共80页,2023年,2月2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论