双变量线性回归分析_第1页
双变量线性回归分析_第2页
双变量线性回归分析_第3页
双变量线性回归分析_第4页
双变量线性回归分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三部分 初计量经济 (13周)经典单方程计量经济模型:一元线形回归模型经典单方程计量经济模型:多元线形回归模型经典单方程计量经济模型:放宽基本假定模型第一章 一元线性回归(双变量)(1)回归分析的基本概念(2)前提建设(3)参数估计:OLS的参数估计ML的参数估计(4)统计检验(5)预测(6)时间案例与操作(7)思考与作业§1 经典正态线性回归模型(CNLRM)1、 一个例子XY8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015

2、517570809410311613014415216517875859810811813514515717518088113125140160189185115162191总计32546244570767875068510439661211均值657789101113125137174161173注 x表示收入,y表示支出。 条件分布:以X取定值为条件的Y的条件分布条件概率:给定X的Y的概率,记为P(Y|X)。例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。条件期望(conditional Expectation):给定X的Y的期望值,记为E(Y|X)。例如,E

3、(Y|X=80)=55×1/560×1/565×1/570×1/575×1/565总体回归曲线(Popular Regression Curve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。总结总体: 总体函数:PRF:Yi=b1+b2Xi+ui=E(Y|Xi)+ui 总体方程:PRF:Yi=b1+b2Xi=E(Y|Xi)样本: 样本函数:SRF:=+=+ 样本方程:SRF:=+=2、 总体回归函数(PRF)E(Y|Xi)=f(Xi)当PRF的函数形式为线性函数,则有,E(Y|Xi)=b1+b2Xi其中b1和b2为未

4、知而固定的参数,称为回归系数。b1和b2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。3、 PRF的随机设定将个别的YI围绕其期望值的离差(Deviation)表述如下:ui=Yi-E(Y|Xi) 或Yi=E(Y|Xi)+uiPRF:Yi=b1+b2Xi+ui=E(Y|Xi)+ui其中ui是一个不可观测的可正可负的随机变量,称为随机扰动项或随机误差项。 4、 “线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。本课“线性”回归一词总是指对参数b为线性的一种回归(即参数只以它的1次方出现)。模型对参数为线性?模型对变量为线性?是不是是LRMLRM不是NLRMNLRM注:L

5、RM线性回归模型;NLRM非线性回归模型。 看几个例子:5、 随机干扰项的意义(补充内容)随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的:(1) 理论的含糊性(2) 数据的欠缺(3) 核心变量与周边变量(4) 内在随机性(5) 替代变量(6) 省略原则(7) 错误的函数形式总之把所有没有模型中没有包含,但有关的变量全部纳入干扰项之中。6、 样本回归函数(SRF)(1)样本回归函数=+其中E(Y|Xi)的估计量;的估计量;的估计量。估计量(Esti

6、mator):一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计值。样本回归函数的随机形式为:SRF:=+=+其中表示(样本)残差项(residual)。(2)样本回归线的几何意义 Xi X PRF:E(Y|Xi)=b1+b2XiSRF: =+ YE(Y|Xi)7、经典线性回归模型(CLRM)的基本假定:假定1:干扰项的均值为零。即,E(ui|Xi)=0假定2:同方差性或ui的方差相等。即,Var(ui|Xi)=s2假定3:各个干扰项无自相关。即,Cov(ui,uj|Xi,Xj)=0假定4:ui和Xi的协方差为零。即,

7、Cov(ui,Xi)=E(uiXi)=0假定5: 回归模型对参数而言是线性的假定6:§2 估计问题(b和s2)一、 普通最小二乘法1、问题:PRF:Yi=b1+b2Xi+uiSRF:=+=+=-=-(+)minf(,)=minS2=minS-(+)22、正规方程(Normal equation)由=0,以及=0得到的方程组称为正规方程。即, S=n+S S=S+S2二、 b的估计1、公式:解上述正规方程组得到和估计值:其中和是X和Y的样本均值。定义离差:=-,=-。用小写字母表示对均值的离差。2、对OLS估计量的说明(1)OLS估计量可由观测值计算;(2) OLS估计量是点估计量;(

8、3)一旦从样本数据得到OLS估计值,就可画出样本回归线。3、样本回归线的性质:(1) 通过Y和X的样本均值:;(2) 估计的Y的均值等于实际的Y的均值:=;(3) 残差的均值为零:E()=0;(4) 残差与不相关:S=0;(5) 残差与不相关:S=0。三、s2的估计四、最小二乘法估计的精度或标准误差五、OLS的性质(高斯马尔可夫定理)(补充内容)OLS估计量和是BLUE(Best Linear Unbiased Estimator)的。(1)线性:它是一个随机变量,如因变量Y的线性函数。(2)无偏:它的均值等于真值,E()=b2(3)最小方差:在所有线性无偏估计量中OLS下的估计量有最小方差。

9、注:有最小方差的无偏估计量叫有效估计量。§3 拟合优度检验拟合优度检验是指样本回归线与样本观测值之间拟合程度的检验。度量拟合程度的指标是判定系数R2。YYi O Xi X=来自残差(Yi)=总离差(-)=来自回归SRF:+一、 平方和公式总平方和(TSS):=实测的Y值围绕其均值的总变异;解释平方和(ESS):=估计的Y值围绕其均值的总变异;残差平方和(RSS):=未被解释的围绕回归线的Y值的变异。二、 R2公式,或性质:;三、 R2与相关系数r不同在回归分析中,R2是一个比r更有意义的度量,因为前者告诉我们在因变量的变异中由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多

10、大程度上决定另一个变量的变异,提供了一个总的度量。§4 置信区间本节要解决的问题: OLS估计值是一个点估计值,它离真实值有多近?一、 区间估计的一些基本概念为了回答上述问题,我们试求两个正数d和a,a位于0与1之间,使得随机区间(-d,+d)包含的概率为1-a。用符号表示,Pr(-d+d)=1-a这样的一个区间如果存在的话,就称为置信区间(Confidence interval);1-a称为置信系数(Confidence coefficient);a(0<a<1)称为显著(性)水平(Level of significance);置信区间的端点称为置信限(Confiden

11、ce limits);-d为置信下限(Lower Confidence limit);+d为置信上限(Upper Confidence limit)。二、回归系数b1和b2的置信区间在ui的正态性假定下,OLS估计量和本身就是正态分布的,ÞÞ但是很少能知道,在实践中用无偏估计量来代替,则统计量t服从自由度为n-2的t分布:其中表示估计量的标准差()的估计值。由得:b2的显著水平为a的置信区间为:同样,b1显著水平为a的置信区间为:三、s2的置信区间在正态性的假设下,变量服从自由度为n-2的分布。故可以用其来建立s2的置信区间。由得, s2显著水平为a的置信区间为:§

12、;5假设检验()问题:某一给定的观测或发现是否与某一声称的假设(stated hypothesis)相符?此处用“相符”一词表示观测的值与假设的值“足够相近”,因而我们不拒绝所声称的假设。虚拟假设(Null hypothesis):一种信以为真的、意在维护的或理论上的假设,并用H0表示。与之对立的假设称为对立假设(alternative hypothesis),记为H1。对立假设可以是简单的或复合的。例如,H1:b2=1是一个简单假设,但是H1:b2¹1则是一个复合假设。方法:有显著性检验和置信区间两种方法。一、 显著性检验1、 t检验(检验系数)方法:H0:;H1:如果H0为真,则

13、因为所以有,从而,检验的估计值是否在此区间,如果在则接受H0假设,否则拒绝H0假设。2、 置信区间方法H0:;H1:构造一个b2的显著水平为a的置信区间为:。若b2在假设H0:之下落入此区间,就不要拒绝H0假设,但落在区间之外,就拒绝H0假设。3、 t检验方法的直接计算:H0:;H1:。计算 1-a接受域 -ta/2 O ta/2 t比较|与:|>(t值大)Û“统计量的值落入临界域上Û统计量是统计上显著的Û拒绝H0假设ÛPr(t)<a(P值小)。二、s2检验的显著性(c2检验)H0:;H1:。构造s2显著水平为a的置信区间:检验s2的检验值是否在此区间内,在则接受,不在就拒绝。三、假设检验中的两类错误第一类错误:拒绝真实;第二类错误:接受错误。两类错误之间存在一种替代关系(Trade-off)。§6 F检验(总显著水平)算出F的估计值,与F分布表在选定显著水平上读出的F临界值相比较;或查找F统计量的估计值的P值。§7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论