第二章简单回归模型_第1页
第二章简单回归模型_第2页
第二章简单回归模型_第3页
第二章简单回归模型_第4页
第二章简单回归模型_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 简单回归模型简单回归模型回归的历史含义回归的历史含义lF.加尔顿最先使用“回归(regression)”。l父母高,子女也高;父母矮,子女也矮。l给定父母的身高,子女平均身高趋向于 “回归”到全体人口的平均身高。简单回归模型的定义简单回归模型的定义 回归的现代释义回归的现代释义 回归分析回归分析用于研究一个变量关于另一个(些)变量的用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。具体依赖关系的计算方法和理论。 关注对象关注对象:(1)用)用x来解释来解释y (2)研究)研究y如何随如何随x而变化而变化l商品需求函数:policecrimel警察和犯罪率:bPa

2、Ql除x外其他影响y的因素如何处理?ly和x函数关系如何设定? 简单回归的几个问题:简单回归的几个问题:y= 0 + 1 x + uLAKQ u扰动项u的引入。ux和y的非线性关系怎么办?u生产函数: yx因变量(dependent V.)自变量(independent V.)被解释变量(explained V.)解释变量(explainatory V.)响应变量(response V.)控制变量(control V.)被预测变量(predicted V.)预测变量(predictor V.)回归子(regressand)回归元(regressor)u误差项(误差项(error term)扰动

3、项、干扰项(扰动项、干扰项(disturbance) 两个例子两个例子yield= 0 + 1 fertilizer + uwage= 0 + 1 educ + ul其他因素不变,u=0,则: 1 =yield/fertilizer 1 =wage/educl 变化解释变量fertilizer或educ时,能假定其他因 素不变吗? 解释变量x和扰动项u关于均值独立:均值独立比“不相关”更强相关关系度量的是变量间的线性关系。若x表示受教育水平,u是个人能力,假定可能成立吗? 关于关于u的假定的假定E(u|x)=E(u)对于模型: 如方程包含常数项,可以假定: 若E(u)=a0,可将模型调整为:零

4、条件均值假定:零条件均值假定:y= 0 + 1 x + uE(u)=0y= 0 +a+ 1 x + u1E(u|x) = 0 总体回归函数(总体回归函数(PRF) E(y|x)= 0 + 1 x PRF是确定的,未知的总体回归函数总体回归函数(传统思路)(传统思路) 假想案例 总体回归函数的随机设定 随机误差项的意义 XY801001201401601802002202402605565798010211012013513715060708493107115136137145152657490951101201401401551757080941031161301441521651787585

5、9810811813514515717518088113125140160189185115162191户数户数5657665765总支出总支出32546244570767875068510439661211 假设一个国家只有假设一个国家只有60户居民,他们的可支配收户居民,他们的可支配收入和消费支出数据如下(单位:美元):入和消费支出数据如下(单位:美元): 假想案例 描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总

6、体回归线。E(Y|Xi) = 0 + 1Xi=17.00+0.6Xi“天行有常,不为尧存,不为桀亡。应之以天行有常,不为尧存,不为桀亡。应之以治则吉,应之以乱则凶。治则吉,应之以乱则凶。” -荀子天论E(Y|Xi) = 0 + 1Xil 总体回归函数总体回归函数其中:其中: Y被解释变量;被解释变量; X解释变量;解释变量; 0, 1回归系数(待定系数或待估参数)回归系数(待定系数或待估参数) 总体回归模型的随机设定l 对于某一个家庭,如何描述可支配收入和消费支出的关系对于某一个家庭,如何描述可支配收入和消费支出的关系? ?XiYi.E(Y|Xi) = 0 + 1 XiY1Y2Y3u1u2u3

7、总体回归直线总体回归直线uiYi - E(Y|Xi)误差项误差项某个家庭的消费支出分为两部分:一是某个家庭的消费支出分为两部分:一是E(Y|Xi)= 0 + 1 Xi ,称,称为系统成分或确定性成分;二是为系统成分或确定性成分;二是ui,称为非系统或随机性成分。,称为非系统或随机性成分。Yi=E(Y|Xi) + ui = 0 + 1 Xi + uiYi= 0 + 1 Xi + uiE(Y|Xi) = 0 + 1 Xi, 随机性总体回归函数随机性总体回归函数确定性总体回归函数确定性总体回归函数 随机误差项u的意义l 反映被忽略掉的因素对被解释变量的影响。 或者理论不够完善,或者数据缺失;或者影

8、响轻微。l模型设定误差l度量误差l 人类行为内在的随机性普通最小二乘法普通最小二乘法l对于一元回归模型:l 两个条件:l两个未知数:l所有的yi和xi都是已知数据。 E(u)=0E(u|x) = 0E(xu) = 0yi= 0 + 1 xi + ui 0 和和 1 l方程组:l 用样本矩代替总体矩: E(y- 0 - 1 x) = E(u) = 0Ex(y- 0 - 1 x) = E(xu) = 00)(1101niiixyn0)(1101niiiixyxn21)()(xxyyxxiiixy10l当满足条件: lOLS估计量 :0)-(12niixxl 实际上就是y和x的样本协方差与x的样本方

9、 差之比。1的情况:0)-(12niixxiixy10l拟合值 : 给定截距和斜率估计值,y在x=xi时的预测值 该函数为样本回归函数样本回归函数 (SRF)l残差 :iy iiiiixyyyu10 iu 4060801001201401601802004080120160200240280XY普通最小二乘法(传统思路)普通最小二乘法(传统思路)l如何得到一条能够较好地反映这些点变化规律 的直线呢?Q = niiu12=niiixy1210)(通过通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,把它们看作是为变量,把它们看作是Q的函数,就变成了一个求极值的函数,就变成

10、了一个求极值的问题,可以通过求导数得到。的问题,可以通过求导数得到。10,10,l残差的平方和最小l求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:0Q0) 1( )(2110niiixy1Q0)( )(2110iniiixxy00iiiuxu即即 XY8010012014016018020022024026055135137609310711565749511012014017594103144178759810813517588113125189115162191户数户数4226331333总支出总支出255162192627342370144337501544样本回归函数样本

11、回归函数 为研究总体,我们需要抽取一定的样本。 第一个样本第一个样本样本回归线样本回归线样本均值连线样本均值连线 XY801001201401601802002202402606579102120135607084931151451527490155801161441521657585118145180140160189185115户数户数2532323343总支出总支出135374253208336255409447654517样本回归函数样本回归函数 第二个样本第二个样本样本回归线样本回归线样本均值连线样本均值连线 总体回归模型和样本回归模型的比较总体回归模型和样本回归模型的比较 几个例子

12、几个例子l首席执行官的薪水和股本回报率?l工资和受教育程度l投票结果与竞选支出: educwage54. 090. 0shareAvoteA464. 081.26Xiyiy1y2y3u1u2u3E(y|xi) = 0 + 1 xiiixy10注意:分清几个关系式和表示符号注意:分清几个关系式和表示符号(2)样本(估计的)回归直线:)样本(估计的)回归直线:(3)总体(真实的)回归模型:)总体(真实的)回归模型: (4)样本(估计的)回归模型:)样本(估计的)回归模型: (1)总体(真实的)回归直线:)总体(真实的)回归直线: iiiuxy10iixxyE10)|(iiiuyy10iixy10u

13、i随机误差项随机误差项 残差项残差项1 u2 u3 uiu OLS操作技巧操作技巧 (1)残差和及样本均值都等于零)残差和及样本均值都等于零 0 tu OLS OLS估计量代数性质估计量代数性质= ),(iiuxvoC)(1xxuunii= 1(-)0iiiu x u xn (2)回归元和残差的样本协方差为零)回归元和残差的样本协方差为零(3) 总在总在OLS回归线上回归线上xy10),(yx (4)拟合值)拟合值 的样本均值等于的样本均值等于yi的样本均值的样本均值 yynuynynyiiii)(111iy 0),(iiuyCov (5)拟合值和残差的样本协方差为零)拟合值和残差的样本协方差

14、为零.iixy10yxyxyi iy xi Ayyiiiyyyyi0yyi=yyi+总离差总离差 = 回归差回归差 + 残差残差 回归差:由样本回归直线解释的部分回归差:由样本回归直线解释的部分 残差:不能由样本回归直线解释的部分残差:不能由样本回归直线解释的部分 可以证明可以证明: : 222()()()iiiiyyyyyy离差平方和分解离差平方和分解iiyy222)()(yyuyyiii)(2)()(2)()() (22222yyuyyuyyyyyyyyyyiiiiiiiiiii 总平方和总平方和 解释平方和解释平方和 残差平方和残差平方和 SST = SSE + SSR SST = SS

15、E + SSRyyi=yyi+iiyy0)(iiiiiuyyuyyu 利用性质(利用性质(1)和性质()和性质(5):):SSTSSESSTSSR= 1解释平方(解释平方(SSE)和在总平方和()和在总平方和(SST)中所占的比重越大,说明样)中所占的比重越大,说明样本回归模型对样本数据拟合的程度越好。因此,用来表示拟合优度的本回归模型对样本数据拟合的程度越好。因此,用来表示拟合优度的可决系数定义为:可决系数定义为:R22222)(SSTSSR1)()(SSTSSEyyuyyyyiiiiR2 的取值范围是的取值范围是 0,1。对于一组数据,对于一组数据,T TSS是不变,所以是不变,所以E E

16、SS(),),R RSS() 拟合优度与判定系数拟合优度与判定系数(可决系数可决系数)R2 2=0=0时时 表明解释变量表明解释变量x与被解释变量与被解释变量y之间之间不存在线性关系;不存在线性关系;R2 2=1=1时时 表明样本回归线与样本值重合;表明样本回归线与样本值重合; 一般情况下,一般情况下,R2 2越接近越接近1 1表示拟合程度越好,表示拟合程度越好,x对对y的的解释能力解释能力越强;越强;看似很低的看似很低的R2 2值,并不意味着值,并不意味着OLSOLS回归方程没有用!回归方程没有用! R2 2 = =222122122)()()()()()(yyxxyyxxyyyyiiiii

17、i = =2222)()()()(yyxxxxyyxxiiiii222()()()()iiiixxyyxxyy = = =(R)2度量单位和函数形式度量单位和函数形式改变度量单位对改变度量单位对OLS估计量的影响估计量的影响0132. 0501.18191.9632Rroesalaryl首席执行官的薪水和股本回报率?若salarydol=1000salary,即将薪水单位由千美元 调整为美元,模型估计结果为:0132. 0185019631912Rroesalarydol若股本回报率由百分比调整为小数,即roedoc=roe/100, 模型估计结果为:0132. 01 /p>

18、Rroedecsalary若将薪水单位调整为美元,股本回报率调整为小数, 模型估计结果?判定系数R2为什么不变? 弹性度量:双对数模型弹性度量:双对数模型 yt = a xtb 两侧同取对数,加入扰动项: Lnyt = Lna + b Lnxt + ut 令a* = Lna,yt* = Lnyt,xt* = Lnxt,上式表示为 yt*= a* + bxt*+ utCobb-Douglas生产函数 Q = A L K 模型的非线性模型的非线性双对数模型与线性模型的区别双对数模型与线性模型的区别双对数模型中斜率系数双对数模型中斜率系数b为为y对对x的弹性的弹性E: Lnyt = a* + b L

19、nxt + ut b=E=线性模型中斜率系数线性模型中斜率系数b为为x 对对y的边际影响:的边际影响: yt =a + bxt + ut b=dy/dx 从而弹性E =(dy/dx)(x/y)=b(x/y)双对数模型中弹性双对数模型中弹性E是不变的,线性模型中弹性随着是不变的,线性模型中弹性随着x/y的变化而变化。的变化而变化。 dxdyyxxdydlnln增长率测度:半对数模型增长率测度:半对数模型 Lnyt = a+bxt+utl b反映x一单位变动导致y的相对变动:l当x表示时间时,b为y的增长率。 令 yt = y0(1+r)t 两侧同时取对数: Lnyt =Lny0 +tLn(1+r

20、) 当r很小时, b=Ln(1+r) rdxydydxydblnl人力资本研究中,通常会使用半对数模型: 这里wage为工资收入,edu为受教育年限,ability为能力,work为工作经验。 引入work2是因为人们通常认为存在最优工作年限! 半对数模型中,参数1的含义为: 1 = 如果使用线性模型,即被解释变量为wage, 则参数1的含义为iuworkworkabilityeduwage233210)Ln()(1)()(lneduwagewageeduwage)()(1eduwage 线性线性对数模型对数模型 yt = a + b Ln xt + ut (b0) l 家庭预算的截面研究中,

21、一类支出y和收入x的关系。l预算花费在这种商品之前,收入要达到一个确定的临界水平e-a/b。而且支出随着收入的增加而单调增加,但其增长率递减,该商品消费的边际倾向(b/x)和弹性(b/y)都随着收入增加而递减。 倒数模型倒数模型 yt = a + b/xt + ut yxy=a0yt=a+b/xt b0,a0yx0yt=a+b/xt b0菲利普斯曲线恩格尔消费曲线多项式模型:二次函数: yt = b0 + b1 xt + b2 xt2 + ut 交叉乘积项:yt = b0 + b1 x1t + b2 x2t + b3 x1tx2t + utxbbdxdy212ttxbbdxdy2311吸烟与肺

22、癌812162024281015202530354045CIGLUNG关于参数线性,而不是关于变量线性!可以通过变量替换,转化为线性模型!“线性线性”回归的含义回归的含义OLS估计量的期望值和方差估计量的期望值和方差 高斯高斯-马尔可夫定理(参见马尔可夫定理(参见P97)如果满足古典线性回归模型的基本假定,则在所有的如果满足古典线性回归模型的基本假定,则在所有的线线性估计量性估计量中,中,OLS估计量是最优线性无偏估计量估计量是最优线性无偏估计量(BLUE)。)。线性性线性性 无偏性无偏性 有效性有效性简单回归的高斯马尔科夫假定假定假定1:关于参数线性:关于参数线性 y= 0 + 1 x +

23、u (1)假定假定2:随机抽样:随机抽样 有一个服从总体模型(1)的随机样本(xi ,yi): i =1, 2, , n,n为样本容量假定假定3:解释变量的样本有变异:解释变量的样本有变异 xi的样本实现值,xi : i =1, 2, , n不是完全相同的数值假定假定4:零条件均值:零条件均值 E(u|x)=0假定假定5:同方差性:同方差性 Var(u|x)=2 线性性线性性10,可以表示为因变量数据可以表示为因变量数据yi的线性函数。的线性函数。证明:证明:1= 2()()()iiixxyyxx= 2()()()iiiixx yyxxxx2()()iiixx yxx= 其中其中2()()iiixxxxiiy= 线性估计量分布的推导比非线性估计量容易 无偏性无偏性证明:证明:1 = = =iiy01(iiixu 01iiiiixu=1iiu=1)(1E1)(1E无偏估计量 有偏估计量11()E1()iiEu=11( )iiE uOLS估计量的方差比其他估计量的方差比其他线性无偏估计量线性无偏估计量的方差都小。的方差都小。 最小方差性与有效性最小方差性与有效性1)(1f)(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论