第三章多元线性回归_第1页
第三章多元线性回归_第2页
第三章多元线性回归_第3页
第三章多元线性回归_第4页
第三章多元线性回归_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 多元线性回归模型的建立与基本概念 为什么要研究多元回归:1.多个影响因素;2.在存在多个影响因素的情况下,分离出 “ 其他条件不变的情况下 ” ,某一自变量的影响。一、基本形式多元线性回归模型:y = b0 + b1x1 + b2x2 + . . . bkxk + u与简单线性模型一样,总体线性回归方程为:E(y|x)= b0 + b1x1 + b2x2 + . . . bkxk说明:1. b0仍是截距项2. b1 到 bk 都是斜率参数。3. u还是误差项4. 仍然需要零条件均值假设: E(u|x1,x2, ,xk) = 0。5.回归方法仍然采用最小化残差平方和,因此有k+1个正规方程(回忆简单线性回归中, 1个斜率参数, 2个正规方程)。二、参数估计多元回归的解释例: 3.1 新生儿体重 卫生部所关心的一个问题是,孕妇在怀孕期间吸烟对婴儿健康的影响。一种度量方法是婴儿出生时的体重,过低的体重会使婴儿有感染各种疾病的危险。由于除了吸烟之外,其他影响婴儿出生体重的也有许多。比如,高收入通常会使母亲得到更好的照顾和营养,表达这一点的一个方程是:bwght= b0 + b1cigs + b2faminc+u b1和 b2的符号最可能是什么?分别表示什么含义?BWGHT.DTA解释 bwght= 117-0.46 cigs + 0.09faminc 1)截距:抽烟量 =0,家庭收入 =0时婴儿体重2) -0.46:家庭收入相同的母亲,怀孕期间每天多抽 1支烟,婴儿体重减少 0.46盎司。3) 0.09:怀孕期间每天抽烟量相同的母亲,家庭收入增加 1000美元,婴儿体重增加 0.09盎司。 考虑:如果家庭收入增加 3000美元,每天抽烟量减少 5支,预计新生儿体重会如何变化?例 3.2 住房价格房产的价格( price,千美元)受许多因素的影响,如社区中的污染量 (nox,氧化亚氮)和每套住房的平均房间个数 (rooms)。一个可能的回归方程为:price=0+ 1nox+ 2rooms+u预期系数值如何?使用 HPRICE2.DTA中数据估计上述方程。price= -18423.4 - 1884.7nox+ 8178.6 rooms三、拟合值与残差在得到 OLS回归线之后 ,对每次观测都得到一个拟合值(预测值)。对观测 i,其拟合值是:类似的,残差为:( 1)残差和等于 0;残差均值等于 0( 2)每个自变量和 OLS残差的样本协方差为 0,即不相关( 3) OLS回归线总是经过样本的均值点,即:四、拟合优度 与简单线性回归一样,可以定义 总平方和: 解释(回归)平方和: 残差平方和: 并有: TSS=RSS+ESS同样表示样本变异中,由 OLS回归所解释的部分,由定义, R方介于 0 1之间例 3.1和例 3.2(续) bwght= 117-0.46 cigs + 0.09faminc R2=0.0298 n=1388也就是说,样本中每日抽烟数量和家庭收入这两个变量,仅解释了婴儿体重总变异的 3%。price= -18423.4 - 1884.7nox+ 8178.6 roomsR2=0.535 n=506样本中污染物氧化亚氮排放量和房间数量两个解释变量,解释了房价变异的 53.5%多元拟合优度的一个事实有关 R方的一个事实是,在回归中多增加一个解释变量,它绝对不会减小,通常会增加。之所以如此,是因为在模型中多增加一个解释变量,残差平方和绝对不会增加。这意味着,我们不能用 R方是否增加来判断模型中是否应该增加一个或几个解释变量。判断的依据应当是这个解释变量在总体中对 y的偏效应是否非零。例 3.1(续) 在解释变量中,额外增加一个解释变量 “ 父亲受教育程度 ” 。 R方由 0.0298增加到 0.0313;再增加一个 “ 母亲受教育程度 ” ,增加到0.0328调整 R方 出现上述问题的原因,在于并没有对增加解释变量进行 “ 惩罚 ” 。调整 R方正是出于这样的考虑,通过考虑到自变量个数,经自由度调整而避免了 R方的问题。注意: R方虽然属于 0 1,但调整 R方的值却可能是负的。调整 R方为负表明是一个很差的拟合模型 。如: R2=0.1,n=51,k=10,验证一下调整 R方 =?其他例子见 3.1和 3.2调整 R方的作用1.判断一个模型的拟合情况,判断是否应增加一个新的变量。2.利用调整 R方进行模型选择。应注意的是,在利用调整 R方做选择的时候,不同模型必须具有相同的被解释变量( y的形式相同)。例: 3.3 棒球运动员薪水 为研究棒球运动员的薪水,经济学家搜集了一系列数据,建立了两个模型Log(salary)=0+ 1years+ 2gamesyr+ 3bavg+ 4hrunsyr+uLog(salary)=0+ 1years+ 2gamesyr+ 3bavg+ 4rbisyr+uyears:加入大联盟的年数; gamesyr:每年参赛次数; bavg:职业生涯击球次数; hrunsyr:每年本垒打次数; rbisyr:每年击球跑垒得分哪个模型更好?估计结果: MLB1.DTALog(salary)=11.02+0.068years+ 0.016gamesyr+ 0.001bavg+ 0.036hrunsyr R2=0.6211 n=353Log(salary)=11.27+0.07years+ 0.011gamesyr+ 0.0007bavg+ 0.0165rbisyr R2=0.6226 n=353 注意:被解释变量的形式必须一样,如果一个是 salary,一个是 log(salary)则不可以比较。例 3.4 模型的选择(自变量形式) 另外一种是比较而在不同的自变量形式中进行选择。考虑两个将 R&D与企业销售额联系起来的模型 rdintens=0+ 1log( sales)+u rdintens= 0+ 1sales+ 2sales2+ u使用 RDCHEM.DTA中 32家化工企业数据判断。注意: stata中可以使用 generate 命令生成新变量。五、 OLS估计量的期望值和方差经典线性假设( CLM):假定 1: 对参数而言为线性 ,即总体模型可以写成: y = b0 + b1x1 + b2x2 + . . . bkxk + u式中 b为关心的未知参数; u为随机误差项。假定 2: 随机抽样性: 我们有一个含 n次观测的随机样本 (xi1, xi2, x ik,yi):i=1,2n.假定 3:条件均值为零: 给定自变量的任何值,误差 u的期望值为零。即E(u|x1, x2,x k,)=0假定 3的注释 当假定 3成立时,通常称我们具有外生解释变量,如果出于某种原因 x与 u相关,那么 x被称为 “ 内生解释变量 ” ,涵盖了一个解释变量可能与误差项相关的一切情况。假定 4:不存在完全共线性 在样本中,没有一个自变量是常数,自变量之间也不存在严格的线性关系。 如果一个自变量刚好是其他自变量的一个线性组合,那么这个模型就遇到了完全共线性的问题 . 如:假设想估计竞选支出对竞选结果的影响,每次选举 2个候选人, voteA为 A的得票率, expendA和 expendB为 A和 B的竞选支出, totexpend为竞选总支出voteA= b0 + b1expendA + b2expendB +b3totexpend +u 就存在完全共线性(续) 考察另外一种形式log(cons)= b0 + b1log(inc) + b2log(inc2 )+u和log(cons)= b0 + b1log(inc) + b2log2 (inc) +u定理 3.1 OLS的无偏性 在上述的假定条件下,总有 即 OLS估计量是总体参数的无偏估计量假定 5 同方差性Var(u|x1, x2,xk)=2如 :wage=0+ 1educ+ 2exper+ 3tenure+u这意味着,误差项的方差不依赖于教育、经历或在职年数,如果方程与任何一个自变量相关,就出现异方差性。定理 3.2 OLS估计量的抽样方差 值假定 1-5之下,以自变量样本值为条件,有其中定理 3.3BLUE 在假定 1-5下估计方差 与简单线性回归类似,定义 并有注意:此时自由度为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论