一元线性回归方程(本科)_第1页
一元线性回归方程(本科)_第2页
一元线性回归方程(本科)_第3页
一元线性回归方程(本科)_第4页
一元线性回归方程(本科)_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章一元线性回归模型,回归的含义总体回归函数样本回归函数普通最小二乘法(OLS)线性模型与非线性模型关于随机误差项的古典假设,OLS估计量的性质OLS估计量的概率分布假设检验与置信区间拟合优度案例分析与Eviews的应用,回归的含义,回归的历史含义,F.加尔顿最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。,回归的现代释义,回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。,商品需求函数:,生产函数:,菲利普斯曲线:,拉弗曲线:,等式左边的变量被称为被解释变量(Explai

2、nedVariable)或应变量(DependeniVariable)。等式右边的变量被称为解释变量(ExplanaioryVariable)或自变量(IndependeniVariable)。,回归的现代释义,回归分析的目的,根据自变量的值,估计因变量的均值。检验(基于经济理论的)假设。根据样本外自变量的值,预测因变量的均值。,相关与独立、协方差与相关系数相关分析的目的是测度两个变量之间线性关系的强度。回归分析关心的是根据自变量的值估计或预测因变量的均值。相关分析所研究的变量是对等的。回归分析中把变量分为自变量和因变量。自变量是确定的;因变量是随机的。,回归与相关,回归与因果关系,从逻辑上说

3、,统计关系式本身不可能意味着任何因果关系。,“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。”Kendall和Stuart,前面四个例子都是基于经济理论设定的,包括身高和体重的关系。,总体回归函数,假想案例,总体回归函数的随机设定,随机误差项的意义,假设一个国家只有60户居民,他们的可支配收入和消费支出数据如下(单位:美元):,假想案例,(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的

4、条件分布(Conditionaldistribution)是已知的,如:P(Y=55|X=80)=1/5。,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi),该例中:E(Y|X=80)=65,分析:,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,E(Y|Xi)=0+1Xi=17.00+0.6Xi,“天行有常,不为尧存,不为桀亡。应之以治则吉,应之以乱则凶。”-荀子天论,E(Y|Xi)=0+1Xi,总体回归

5、函数,其中:Y被解释变量;,X解释变量;,0,1回归系数(待定系数或待估参数),总体回归函数的随机设定,对于某一个家庭,如何描述可支配收入和消费支出的关系?,某个家庭的消费支出分为两部分:一是E(Y|Xi)=0+1Xi,称为系统成分或确定性成分;二是ui,称为非系统或随机性成分。,Yi=E(Y|Xi)+ui=0+1Xi+ui,Yi=0+1Xi+ui,E(Y|Xi)=0+1Xi,随机性总体回归函数,确定性总体回归函数,随机误差项u的意义,理论的含糊性。数据的欠缺。未纳入模型的其他变量的影响。如攀比心理、受教育水平等。模型设定误差人类行为内在的随机性。度量误差。,样本回归函数,为研究总体,我们需要

6、抽取一定的样本。,第一个样本,样本回归线,样本均值连线,样本回归函数,第二个样本,样本回归线,样本均值连线,总体回归模型和样本回归模型的比较,Xi,Yi,Y1,Y2,Y3,u1,u2,u3,e2,e3,e1,E(Y|Xi)=0+1Xi,注意:分清几个关系式和表示符号,(2)样本(估计的)回归直线:,(3)总体(真实的)回归函数:,(4)样本(估计的)回归函数:,(1)总体(真实的)回归直线:,ui随机误差项ei残差项,对于所研究的经济问题,通常总体回归直线E(Yi|Xi)=0+1Xi是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。,样本回归模型:,其中:,为Yi的估计值(拟合

7、值);,为0,1的估计值;,ei为残差,可视为ui的估计值。,普通最小二乘法,或:,如何得到一条能够较好地反映这些点变化规律的直线呢?,对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和),Q=,=,=,则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。,样本回归模型:,则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。,求Q对两个待估参数的偏导数:,=,=0,=,=0,正规方程组,即,根据以上两个偏导方程

8、得以下正规方程(Normalequation):,OLS回归直线的性质,(1)残差和等于零,(2)估计的回归直线过点.,(3)Yi的拟合值的平均数等于其样本观测值的平均数.,(4)Cov(ei,Xi)=0,(5)Cov(ei,)=0,线性与非线性,生产函数:,菲利普斯曲线:,拉弗曲线:,受教育年限与平均小时工资奥肯定律股票价格与利率古董钟与拍卖价格,一些例子,利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测

9、?,问题结束了吗?,1,密度函数,假定1:零期望假定:E(ui|Xi)=0。,古典线性回归模型的基本假定,假定2:同方差性假定:Var(ui)=Eui-E(ui)2=E(ui2)=2。,同方差,异方差,假定3:无序列相关(无自相关)假定:Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(uiuj)=0,(ij)。,无自相关,正自相关,负自相关,假定4:解释变量X与随机误差项u不相关Cov(ui,Xi)=E(ui-E(ui)(Xi-E(Xi)=E(uiXi)=0如果X为确定性变量,该假定自然满足,假定5:回归模型是关于参数线性的,但不一定关于变量线性。,假定6:回归模型设定正确,

10、即不存在设定误差或设定错误。,OLS估计量的性质,高斯-马尔可夫定理,如果满足古典线性回归模型的基本假定(假定1-假定6),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。,线性性无偏性有效性,都是Yi的线性函数。,证明:,=,=,=,令,代入上式,得:,=,线性性,线性估计量的处理要比非线性估计量更为容易,证明:,=,=,=,=,=,=,无偏性,=1,1,无偏估计量,有偏估计量,OLS估计量的方差比其他线性无偏估计量的方差都小。,最小方差性与有效性,1,一致性(了解),1,概率密度,OLS估计量的方差,为什么要估计方差?,方差反映了数据的离散程度和估计结果的精确性。,受

11、教育年限与每小时工资,1,总体(随机误差项)真实方差2的估计量:,2的估计,受教育年限与每小时工资,OLS估计量的概率分布,概率分布是进行假设检验的前提,如果受教育年限的单位为月,如果受教育年限的单位为日,2、方差,(1)的期望,(2)的期望,1、期望,(2)的方差,(1)的方差,服从,N(),N(),服从,假定7:ui服从正态分布,即uiN(0,2)。,Yi=0+1Xi+ui,所以YiN(0+1Xi,2),线性性,H0:1=0H1:10,零假设与备择假设,构造统计量,0,受教育年限与每小时工资,假设检验与置信区间,假设检验,Z检验与t检验,显著性检验(t检验)的基本步骤,首先,提出原假设和备

12、择假设:,H0:,H1:,其次,确定并计算统计量:,最后,给定显著性水平,查自由度为t-2的t分布表。则,,如果不能拒绝H0:1=0,认为X对Y没有显著影响。,如果拒绝H0:1=0,认为X对Y有显著影响。,同理,可对0进行显著性检验。,模型:,双侧,受教育年限与每小时工资,n=13,0,-2.201,2.201,H0:1=0H1:10,股票价格与利率,H0:1=0H1:10,n=20,其他零假设检验,奥肯定律,H0:1=-0.4H1:1-0.4,n=29,对于双变量模型,自由度总为(n-2)经验分析中,常用的有1%、5%和10%。为了避免显著水平选择的随意性,通常要给出p值。,p值,t(n-2

13、),-t0.025,t0.025,p/2,0,t,p值0.05,接受原假设,t(n-2),-t0.025,t0.025,p/2,0,t,p值0.05,拒绝原假设,双侧检验,用p值判断参数的显著性的方法(双侧),方法:将给定的显著性水平与p值比较:若p值,则在显著性水平下拒绝原假设H0:=0,即认为X对Y有显著影响;若p值,则在显著性水平下接受原假设H0:=0,即认为X对Y没有显著影响;规则:当p值时,p值越小,越能拒绝原假设H0,由于:,由大括号内不等式表示置信水平为1-时1的置信区间:,得:,Pt/2(n-2)=1-,同理,可求得的置信区间为:,-t/2(n-2)0t/2(n-2),受教育年

14、限与每小时工资,n=13,通过置信区间,可以直接对H0:1=0进行检验吗?,股票价格与利率,n=20,离差平方和的分解可决系数,拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的统计量是可决系数。,拟合优度与可决系数,离差平方和的分解,.,.,.,.,.,.,.,.,Y,X,Yi,Xi,A,0,=,+,=,+,总离差=回归差+残差,回归差:由样本回归直线解释的部分残差:不能由样本回归直线解释的部分,可以证明:,=,总离差平方和回归平方和残差平方TSS=RSS+ESS,可决系数,回归平方和在总离差平方和中所占的比重越大,说明样本

15、回归直线对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系数定义为:,R2=,=,=,=,=,R2=0时表明解释变量X与被解释变量Y之间不存在线性关系;R2=1时表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。,另外:,R2=,=,=,R2=,=,=,R2的取值范围是0,1。对于一组数据,TSS是不变,所以RSS(),ESS(),相关系数与可决系数的关系,(1)样本相关系数是建立在相关分析的基础之上的,研究的是随机变量之间的关系;可决系数则是建立在回归分析基础上,研究的是非随机变量X对随机变量Y的解释程度。,(2)取值上,可

16、决系数是样本相关系数的平方。,(3)样本相关系数是由随机的X和Y抽样计算得到,因而相关关系是否显著,还需进行检验。,点预测Yi区间预测(1)单个值Yi的区间预测(2)均值E(Yi)的区间预测,一元线性回归方程的预测,如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测。预测分为点预测和区间预测。,1、点预测,假设X0为解释变量的一个已知点,则带入样本回归方程即可得到Y0的估计值:,2、区间预测,估计值是一个点预测值,它可以是(1)总体真值Y0的预测值;也可以是(2)总体回归线E(Y0/X0)的预测值。现在根据来对(1)(2)进行区间预测。,的分布是:,

17、所以,E(Y0|X0)的预测区间是:,(1)条件期望E(Y0|X0)的预测区间,(1)个值Y0的预测区间,的分布是:,所以,Y0的预测区间是:,提出问题:改革开放以来随着中国经济的快速发展,居民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。研究范围:全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。,案例分析,理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于0,小于1。建立模型:其中:Y城市居民家庭平均每人每年消费支出(元)X城市居民人均年可支配收入(元),数据:从2002年中国统计年鉴中得到,(接上页数据表),估计参数,具体操作:使用EViews软件包。估计结果:,假定模型中随机扰动满足基本假定,可用OLS法。,表示为,1.可决系数:R2=0.9357,模型整体上拟合好。2.系数显著性检验:给定,查t分布表,在自由度为n-2=2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论