2一元线性回归方程(修订版)_第1页
2一元线性回归方程(修订版)_第2页
2一元线性回归方程(修订版)_第3页
2一元线性回归方程(修订版)_第4页
2一元线性回归方程(修订版)_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 一元线性回归模型,回归的含义总体回归函数样本回归函数普通最小二乘法(OLS)线性模型与非线性模型关于随机误差项的古典假设,OLS估计量的性质OLS估计量的概率分布假设检验与置信区间拟合优度案例分析与Eviews的应用,回归的含义,回归的历史含义,F.加尔顿最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到 全体人口的平均身高。,回归的现代释义,回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。,商品需求函数:,生产函数:,菲利普斯曲线:,拉弗曲线:,等式左边的变量被称为被解释变量(Explained Variable)或应 变量 (Dependeni Variable)。等式右边的变量被称为解释变量(Explanaiory Variable)或自 变量(Independeni Variable)。,回归的现代释义,回归分析的目的,根据自变量的值,估计因变量的均值。检验(基于经济理论的)假设。根据样本外自变量的值,预测因变量的均值。,回归与因果关系,从逻辑上说,统计关系式本身不可能意味着任何因果关系。,“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。” Kendall 和Stuart,前面四个例子都是基于经济理论设定的,包括身高和体重的关系。,总体回归函数,假想案例,总体回归函数的随机设定,随机误差项的意义,假设一个国家只有60户居民,他们的可支配收入和消费支出数据如下(单位:美元):,假想案例,(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=55|X=80)=1/5。,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=Xi),该例中: E(Y | X=80)=65,分析:,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,E(Y|Xi) = 0 + 1Xi=17.00+0.6Xi,“天行有常,不为尧存,不为桀亡。应之以治则吉,应之以乱则凶。” -荀子天论,E(Y|Xi) = 0 + 1Xi,总体回归函数,其中: Y被解释变量;,X解释变量;,0,1回归系数(待定系数或待估参数),总体回归函数的随机设定,对于某一个家庭,如何描述可支配收入和消费支出的关系?,某个家庭的消费支出分为两部分:一是E(Y|Xi)=0 + 1 Xi ,称为系统成分或确定性成分;二是ui,称为非系统或随机性成分。,Yi=E(Y|Xi) + ui =0 + 1 Xi + ui,Yi=0 + 1 Xi + ui,E(Y|Xi) = 0 + 1 Xi,随机性总体回归函数,确定性总体回归函数,随机误差项u的意义,反映被忽略掉的因素对被解释变量的影响。 或者理论不够完善,或者数据缺失;或者影 响轻微。模型设定误差度量误差 人类行为内在的随机性,样本回归函数,为研究总体,我们需要抽取一定的样本。,第一个样本,样本回归线,样本均值连线,样本回归函数,第二个样本,样本回归线,样本均值连线,总体回归模型和样本回归模型的比较,Xi,Yi,Y1,Y2,Y3,u1,u2,u3,e2,e3,e1,E(Y|Xi) = 0 + 1 Xi,注意:分清几个关系式和表示符号,(2)样本(估计的)回归直线:,(3)总体(真实的)回归函数:,(4)样本(估计的)回归函数:,(1)总体(真实的)回归直线:,ui随机误差项ei残差项,对于所研究的经济问题,通常总体回归直线 E(Yi|Xi) = 0 + 1Xi 是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。,样本回归模型:,其中:,为Yi的估计值(拟合值);,为 0 , 1 的估计值;,ei为残差,可视为ui的估计值。,普通最小二乘法,或:,如何得到一条能够较好地反映这些点变化规律的直线呢?,对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小” 确定直线位置(即估计参数)。(Q为残差平方和),Q =,=,=,则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。,样本回归模型:,则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。,求Q对 两个待估参数 的偏导数:,=,= 0,=,= 0,正规方程组,即,根据以上两个偏导方程得以下正规方程(Normal equation) :,OLS回归直线的性质,(1)残差和等于零,(2)估计的回归直线 过点 .,(3) Yi 的拟合值的平均数等于其样本观测值的平均数 .,=,=,由正规方程 可得。,=,=,(4)Cov(ei,Xi)= 0,=,=,(5)Cov(ei, )= 0,线性与非线性,生产函数:,菲利普斯曲线:,拉弗曲线:,受教育年限与平均小时工资奥肯定律股票价格与利率古董钟与拍卖价格,一些例子,利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测?,问题结束了吗?,1,密度函数,假定1:解释变量是非随机的。假定2: 零期望假定:E(ui) = 0。 E(ui|Xi) = 0。,古典线性回归模型的基本假定,假定3:同方差性假定:Var(ui) = Eui - E(ui) 2 = E(ui2) = 2。,同方差,异方差,假定4:无序列相关(无自相关)假定:Cov(ui, uj) = E(ui - E(ui) ) ( uj - E(uj) ) = E(uiuj) = 0, (i j )。,无自相关,正自相关,负自相关,假定5:ui服从正态分布, ui N(0,2),假定6*:解释变量X与随机误差项u不相关 Cov(ui, Xi) = E(ui - E(ui) ) (Xi - E(Xi) ) = E(ui Xi) = 0 如果X为确定性变量,该假定自然满足,假定7*:回归模型是关于参数线性的,但不一定关于变量线性。,其他一些假定的说明:,OLS估计量的性质,高斯-马尔可夫定理,如果满足古典线性回归模型的基本假定(假定1-假定4),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。,线性性 无偏性 有效性,都是Yi的线性函数。,证明:,=,=,=,令,代入上式,得:,=,线性性,线性估计量的处理要比非线性估计量更为容易,证明:,=,=,=,=,=,=,无偏性,=1,1,无偏估计量,有偏估计量,OLS估计量的方差比其他线性无偏估计量的方差都小。,最小方差性与有效性,1,一致性(了解),1,概率密度,OLS估计量的方差,为什么要估计方差?,方差反映了数据的离散程度和估计结果的精确性。,受教育年限与每小时工资,1,总体(随机误差项)真实方差2的估计量:,2的估计,受教育年限与每小时工资,OLS估计量的概率分布,概率分布是进行假设检验的前提,如果受教育年限的单位为月,如果受教育年限的单位为日,2、方差,(1) 的期望,(2) 的期望,1、期望,(2) 的方差,(1) 的方差,服从,N( ),N( ),服从,假定7:ui 服从正态分布,即ui N (0, 2 )。,Yi=0 + 1 Xi + ui,所以Yi N(0 + 1 Xi , 2 ),线性性,H0:1=0 H1: 10,零假设与备择假设,构造统计量,0,受教育年限与每小时工资,假设检验与置信区间1,假设检验,Z检验与t检验,显著性检验(t 检验)的基本步骤,首先,提出原假设和备择假设:,H0:,H1:,其次,确定并计算统计量:,最后,给定显著性水平,查自由度为 t-2 的t分布表。则,,如果 不能拒绝H0:1=0,认为X对Y没有显著影响。,如果 拒绝H0 :1=0 ,认为X对Y有显著影响。,同理,可对0 进行显著性检验。,模型:,双侧,受教育年限与每小时工资,n=13,0,-2.201,2.201,H0:1=0 H1: 10,股票价格与利率,H0:1=0 H1: 10,n=20,其他零假设检验,奥肯定律,H0:1=-0.4 H1: 1-0.4,n=29,对于双变量模型,自由度总为(n-2) 经验分析中,常用的有1%、5%和10%。 为了避免显著水平选择的随意性,通常要给 出p值。,p值,t(n-2),-t0.025,t0.025,p/2,0,t,p值0.05,接受原假设,t(n-2),-t0.025,t0.025,p/2,0,t,p值0,单侧(左侧),单侧(右侧),受教育年限与每小时工资,n=13,0,1.796,H0:1=0 H1: 10,股票价格与利率,n=20,H0:1=0 H1: 10,p值,t(n-2),t0.05,p,0,t,p值0.05,接受原假设,t(n-2),t0.05,p,0,t,p值0.05,接受原假设,t(n-2),t0.05,p,0,t,p值0.05,拒绝原假设,单侧检验,用 p 值判断参数的显著性的方法,方法:将给定的显著性水平与p值比较:若p值 ,则在显著性水平下拒绝原假设H0:=0, 即认为X对Y有显著影响;若p值 ,则在显著性水平 下接受原假设H0:=0, 即认为X对Y没有显著影响;这一判别规则对于单侧检验和双侧检验都成立!,置信区间,由于:,由大括号内不等式表示置信水平为1-时1的置信区间:,得:,P t/2 (n-2) = 1- ,同理,可求得 的置信区间为:,-t/2 (n-2) 0 t/2 (n-2),受教育年限与每小时工资,n=13,通过置信区间,可以直接对H0:1=0进行检验吗?,股票价格与利率,n=20,离差平方和的分解可决系数,拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的统计量是可决系数。,拟合优度与可决系数,离差平方和的分解,.,.,.,.,.,.,.,.,Y,X,Yi,Xi,A,0,=,+,=,+,总离差 = 回归差 + 残差,回归差:由样本回归直线解释的部分 残差:不能由样本回归直线解释的部分,可以证明:,证明:,=,=,由于:,=,=,=,= 0,所以:,=,总离差平方和 回归平方和 残差平方和TSS = ESS + RSS,可决系数,= 1,回归平方和在总离差平方和中所占的比重越大,说明样本回归直线对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系数定义为:,R2 =,=,=,=,=,R2 的取值范围是 0,1。对于一组数据,TSS是不变,所以ESS(),RSS(),R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系;R2=1时 表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。,另外:,R2 =,=,=,R2 =,=,=,相关系数与可决系数的关系,(1)样本相关系数是建立在相关分析的基础之上的,研究的是随机变量之间的关系;可决系数则是建立在回归分析基础上,研究的是非随机变量X对随机变量Y的解释程度。,(2)取值上,可决系数是样本相关系数的平方。,(3)样本相关系数是由随机的X和Y抽样计算得到,因而相关关系是否显著,还需进行检验。,点预测Yi区间预测 (1)单个值Yi的区间预测 (2)均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论