一元线性回归模型(精)_第1页
一元线性回归模型(精)_第2页
一元线性回归模型(精)_第3页
一元线性回归模型(精)_第4页
一元线性回归模型(精)_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章一元线性回归模型,模型的建立及其假定条件最小二乘估计(OLS)OLS回归函数的性质最小二乘估计量的特性yt的分布和的分布的估计拟合优度的测量回归参数的显著性检验与置信区间YF的点预测与区间预测案例分析相关系数STATA操作,第一节回归模型概述,一、概念1、相关函数关系:两个变量之间存在完全确定性关系。如价格销售量=销售收入相关关系:两个变量之间存在非确定性依存关系。如需求量与价格之间的关系Y=b0+b1X+u因变量自变量被解释变量解释变量,1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图),2、回归,回归的含义,回归的古典意义:高尔顿遗传学的回归概念(父母身高与子女身高的关系)回归的现代意义:一个因变量对若干解释变量依存关系的研究回归的目的(实质):由固定的解释变量去估计因变量的平均值,父亲身高,儿子身高,“回归”一词的由来,从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的越来越高,矮的越来越矮。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。后人将此种方法普遍用于寻找变量之间的规律,旧日本武士的身高,姚明、丁俊辉、易建联,线性回归模型的特征,一个例子凯恩斯绝对收入假设消费理论:消费(C)是由收入(Y)唯一决定的,是收入的线性函数:C=+Y但实际上上述等式不能准确实现。原因消费除受收入影响外,还受其他因素的影响;线性关系只是一个近似描述;收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。,因此,一个更符合实际的数学描述为:C=+Y+其中:是一个随机误差项,是其他影响因素的“综合体”。线性回归模型的特征:通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数;在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。,随机误差项主要包括哪些因素的影响?,一元线性回归模型,1.模型的建立及其假定条件一元线性回归模型,回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。,总体回归方程随机形式,总体回归方程,样本回归方程随机形式,样本回归方程,残差,系统变化部分,非系统变化部分,样本回归函数(SRF),SRF的特点,每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有许多条(SRF不唯一)。,SRF2,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。,对样本回归的理解,如果能够获得和的数值,显然:和是对总体回归函数参数和的估计是对总体条件期望的估计在概念上类似总体回归函数中的,可视为对的估计。,一元线性回归模型(基本假定),x=x3时的E(y),x=x2时y的分布,x=x1时y的分布,x=x2时的E(y),x3,x2,x1,x=x1时的E(y),0,x,y,x=x3时y的分布,0+1x,模型解释变量和误差项ut的假定条件如下:(1)ut是一个随机变量,ut的取值服从概率分布。(2)E(ut)=0。(3)ui具有同方差性。D(ut)=Eut-E(ut)2=E(ut)2=2。(4)ut为正态分布(根据中心极限定理)。以上四个假定条件可作如下表达。utN(0,),模型解释变量和误差项ut的假定条件如下:(5)ui非自相关。Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(ui,uj)=0,(ij)。(6)Xi是非随机的。(7)ui与Xi相互独立。Cov(ui,Xi)=E(ui-E(ui)(xi-E(Xi)=Eui(Xi-E(Xi)=EuiXi-uiE(Xi)=E(uiXi)=0.(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2),(6)成立条件下有E(Yi)=E(0+1Xi+ut)=0+1Xi,二、普通最小二乘法(OLS),普通最小二乘法是一种参数估计方法,确定估计参数的准则是使全部观察值的残差平方和最小,即ei2min,由此得出选择回归参数b0,b1的最小二乘估计式。(谁提出的呢?),Y,X,X1,X2,X3,X4,X5,X6,e1,e2,e3,e4,e5,e6,(CFGauss,1777-1855),CFGauss1809年提出OLS估计方法。,残差平方和,使偏导数为零,解得,记X,Y的平均数,则得,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,OLS估计结果:,(第2版教材第17页)(第3版教材第15页),(file:li-2-1),2.3最小二乘估计量的统计性质,一、线性性线性特性是指估计式o和1是Yi的线性函数。,证:,+,=,-,=,=,2,2,2,2,1,),(,i,i,i,i,i,i,i,i,i,i,i,x,x,Y,x,Y,x,x,Y,Y,x,x,y,x,令,,因,,故有,二、无偏性无偏性指估计量和的均值等于总体回归参数和,三、最小方差性最小方差性是指估计量和具有最小方差的性质,又叫有效性。,证明最小方差性,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,估计结果:,(第2版教材第32页)(第3版教材第29页),(file:li-2-1),高斯马尔可夫定理(Gauss-Markovtheorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。一个估计量如果它是线性的,同时又是有效的(即无偏的,又具有最小方差)那它就是最佳线性无偏估计量BLUEBestLinearUnbiasedPropertyofanEstimator,2.42.5拟合优度检验及回归系数显著性检验,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。,尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。,一、拟合优度检验,拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:判定系数(可决系数)R2,1、总离差平方和的分解,已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线,如果Yi=i即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。,对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:,TSS=ESS+RSS,Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。,在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度:回归平方和ESS/Y的总离差TSS,2、可决系数R2统计量,称R2为(样本)可决系数/判定系数(coefficientofdetermination)。,可决系数的取值范围:0,1R2越接近1,说明实际观测点离样本线越近,拟合优度越高。,注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验。,可决系数和相关系数的关系:(1)联系,(1)样本相关系数,可决系数和相关系数的关系:(2)区别,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,可决系数是怎么计算得到的呢?,(file:li-2-1),二、变量的显著性检验,回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。,变量的显著性检验所应用的方法是数理统计学中的假设检验。计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。,1、假设检验,所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的,2、变量的显著性检验,检验步骤:,(1)对总体参数提出假设H0:1=0,H1:10,(2)以原假设构造t统计量,并由样本计算其值,(3)给定显著性水平,查t分布表,得临界值t/2(n-2),(4)比较,判断若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;,对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:,假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。,三、参数的置信区间,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,回归参数的显著性检验:,H0:1=0;H1:10。在H0成立条件下,,H0:0=0;H1:00。在H0成立条件下,,Prob=P|t|t-Statistic|,检验结果:回归参数显著不为零。,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系写出标准表达式,OLS估计表达式:,(7.7)(4.3)F统计量=18.35,R2=0.67,DW=1.32,T=11,(file:li-2-1),.dwstat检验AR(1)形式的序列相关,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,真实值,拟合值,残差,S.E.,-S.E.,分析残差的正态分布性,(file:li-2-1),分析残差,如何在STATA实现:单一变量OLS(_b),Stata使用_bvarnamewhere表示某个变量的系数估计值,而常数项的估计表示为_consdisplay_b_cons+_bx*1663.63,如果我们要计算出所有x对应的y的预测值,可以使用刚才记住的系数计算完成geny_hat=_b_cons+_bx*x估计的残差项表示y的真实值与预测值之间的差异genres=y-y_hatlistxy_hatyres,predict命令,一个更快的方法是在使用regress命令之后使用predict命令predictyhatpredictres,resid检查一下答案是否一致:listlistyyhatres,3回归参数的显著性检验与置信区间,置信区间(95%的置信区间),重复构造出的20个置信区间,点估计值,例题2.1人均鲜蛋需求量Y与人均可支配收入X关系,1的置信区间:0的置信区间:,(file:li-2-1),8回归参数的显著性检验与置信区间,自由度为9的t分布的水平0.025的上侧分位数为diinvttail(9,0.025),2.6一元线性回归模型的预测,二、被解释变量平均值预测,1.基本思想运用计量经济模型作预测:指利用所估计的样本回归函数,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量数值作出定量的估计。计量经济预测是一种条件预测:条件:模型设定的关系式不变所估计的参数不变解释变量在预测期的取值已作出预测对应变量的预测分为平均值预测和个别值预测对应变量的预测又分为点预测和区间预测,预测值、平均值、个别值的相互关系,是真实平均值的点估计,也是对个别值的点估计,个别值,Y的点预测:,将解释变量预测值直接代入估计的方程:计算的是一个点估计值(个别值或平均值)。内插预测、外推预测,Y区间预测,区间预测,Y平均值的区间预测,Y平均值的区间预测,Y区间预测的特点,图示如下,Y的个别值的置信区间,Y均值的置信区间,几个拓展,变量单位变化对系数估计值被解释变量Y的单位由千元变为元解释变量X的单位由千元变为元解释变量X变化为X+C计算与案例进一步地,与系数估计值对应Se和t值有何变化?,2.7案例分析,2.8实战训练(1),例子来自伍德里奇计量经济学导论(第3版)P25,数据:WAGE1.RAW,同学们训练!包括:1)散点图、拟合线;2)估计与检验;3)经济解释等。,第1点:参考P34.,第2点(拓展):一个对数工资方程,P43,进一步讨论,一个对数工资方程,估计系数的经济含义?很重要!,R2表示educ解释了ln

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论