




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 经典线性回归模型2.1 概念与记号1线性回归模型是用来描述一个特定变量y与其它一些变量x1,xp之间的关系。2称特定变量y为因变量(dependent variable)、被解释变量(explained variable)、响应变量(response variable)、被预测变量(predicted variable)、回归子(regressand)。3称与特定变量相关的其它一些变量x1,xp为自变量(independent variable)、解释变量(explanatory variable)、控制变量(control variable)、预测变量(predictor variable)、回归量(regressor)、协变量(covariate)。4假定我们观测到上述这些变量的n组值: (i=1,n)。称这n组值为样本(sample)或数据(data)。2.2 经典线性回归模型的假定假定2.1(线性性(linearity)) (i=1,n)。 (2.1)称方程(2.1)为因变量y对自变量x1,xp的线性回归方程(linear regression equation),其中是待估的未知参数(unknown parameters),是满足一定限制条件的无法观测的误差项(unobserved error term)。称自变量的函数为回归函数(regression function)或简称为回归(regression)。称为回归的截距(ntercept),称为自变量的回归系数(regression coefficients)。某个自变量的回归系数表示在其它条件保持不变的情况下,这个自变量变化一个单位对因变量的影响程度,这个影响是在排除其它自变量的影响后,这个自变量对因变量的偏效应。下面引入线性回归方程的矩阵表示。记(未知系数向量(unknown coefficient vector),则 (i=1,n)。 又记X=, Y=, ,则 假定2.2(严格外生性(strictly exogeneity))=0 (i=1,n)。 严格外生性的含义误差项的无条件期望为零 (i=1,n)。正交条件(orthogonality conditions) (i=1,n ; j=1,n )。不相关条件(zero-correlation conditions) (对所有i,j,k)。由以上严格外生性的含义可知,如果在时间序列数据中存在的滞后效应(lagged effect)和反馈效应(feetback effect),那么严格外生性条件就不成立。因而,在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指自变量历史值对因变量当前值的影响,反馈效应是指因变量当前值对自变量未来值的影响。假定2.3(无多重共线性(no multicollinearity)) n(p+1)矩阵X的秩为(p+1)的概率为1。假定2.4(球面误差方差(spherical error variance)) 条件同方差(conditional homoskedasticity) (i=1,n)。 (误差方差) 误差项不相关(no correlation between error term) (对所有ij) 在经典线性回归模型的四个假定中,假定2.1和假定2.3是必不可少的,但假定2.2和假定2.4中的严格外生性、条件同方差和误差项不相关以后可以适当放宽。2.3 随机样本的经典线性回归模型若样本(i=1,n)为IID,那么假定2.2和假定2.4可简化为假定2.2: (i=1,n)假定2.4: (i=1,n)2.4 确定性自变量的经典线性回归模型若更进一步假定自变量x1,xp为确定性的变量,那么假定2.2和假定2.4可进一步简化为假定2.2: (i=1,n)假定2.4: 2.5 最小二乘估计量及其代数性质虽然我们无法直接观测到误差项,但对未知系数向量的一个假想值(hypothetical value),容易计算出 称这个量为第i次观测的残差(residual),并且称使残差平方和(residual sum of squares)=达到最小的假想值: 为未知系数向量的普通最小二乘估计量(ordinary least squares estimators),简记为OLS估计量。下面介绍OLS估计量的一些代数性质。一阶条件(first-order conditions) (正规方程(normal equations)的OLS估计量:在假定2.3成立时 估计量的抽样误差(sampling error):第i次观测的拟合值(fitted value): 拟合值向量(vector of fitted value):投影矩阵(projection matrix): (对称幂等,秩为p+1,HX=X)第i次观测的OLS残差(OLS residual):残差向量(vector of OLS residuals):e=Y-Xb=(I-H)YMY零化子(annihilator):M=In H (对称幂等,秩为n-p-1,MX=0)一阶条件:,即 ()OLS估计的几何意义:Ye L(X)残差平方和(residuals sum of squares)RSS=,(其自由度为n-p-1) 2 的OLS估计量 (残差均方,residual mean square)回归(方程)标准误(standard error of the regression (equation)) (残差标准误,residual standard error)平方和分解公式当回归方程包含常数项时,可以证明 称这个等式为平方和分解公式。记(称为总平方和,其自由度为n-1)(其中,表示每个元素均为1的n维向量) (称为回归平方和,其自由度为p)则平方和分解公式又可写成: ,(n-1)=p+(n-p-1)。 平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和表示样本中因变量的总变异,回归平方和表示总变异中能够解释的部分,因此又称为解释平方和,回归平方和是由样本中自变量的变异产生的,回归平方和可表示回归的效应。残差平方和表示总变异中不能解释的部分,残差平方和是由不可观测的误差的波动产生的。决定系数(coefficient of determination, R square), 当回归方程包含常数项时,由平方和分解公式有。当回归方程不包含常数项时,平方和分解公式不再成立,且有可能会出现 ,即,从而使R2变成负数。因此决定系数只能用于包含常数项的回归。由平方和分解公式可知,因变量的变异由解释变量的变异和误差的变异两部分组成。决定系数R2度量了由解释变量变异(回归函数)决定的因变量变异的比例。或者说决定系数R2度量了解释变量(回归函数)能够解释的因变量变异的比例。复相关系数(multiple correlation coefficient,multiple R ) 对只有一个自变量的一元线性回归,R2就是y与x的样本相关系数的平方,复相关系数就是y与x的样本相关系数的绝对值,即,且自变量的回归系数和y与x的样本相关系数之间的关系为 修正决定系数(adjusted coefficient of determination, adjusted R square)由假定2.1、假定2.2和假定2.4有, 因此理论上,由自变量变异决定的因变量变异的比例(称为理论决定系数)为理论决定系数分别用和来估计和,得修正决定系数由决定系数R2的含义可知,决定系数R2越大,回归方程对样本拟合的越好。可以证明回归方程中包含的解释变量越多,残差平方和就越小,从而决定系数R2就越大。但在样本容量不变的情况下,回归方程中包含的解释变量越多,对未知系数向量的估计就越不精确,因此并不是回归方程中包含的解释变量越多越好。而修正决定系数综合考虑了解释变量个数和对样本拟合的程度这两方面的因素。非中心化R2(Uncentered R2),()显然,非中心化R2的含义是解释变量的变异能够解释的因变量的变异的比例。在回归方程不包含常数项时,可用非中心化R2代替决定系数R2。2.6 最小二估计量的有限样本性质无偏性(unbiasedness):在假定2.1假定2.3下条件方差阵表达式(expression for the variance):在假定2.1假定2.4下,Gauss-Markov定理:在假定2.1假定2.4下,OLS估计量b是有效的线性无偏估计量。即对于任意的Y的线性函数构成的无偏估计量,都有 2 的OLS估计量的无偏性:在假定2.1假定2.4下cov(b, e |)=0Var(b|X) (它是OLS估计量b的条件方差阵的条件无偏估计量)OLS估计的标准误(standard error)SE(bk)= (k=0,1,p) 为探讨OLS估计量b的精确抽样分布,我们还需对回归方程误差项的分布作出假定,经典线性回归模型假定误差项是正态的。假定2.5(误差项的正态性(normality of the error term)) 正态分布观测向量Y的分布:在假定2.1假定2.5下 残差向量的分布:在假定2.1假定2.5下 估计量的抽样分布:在假定2.1假定2.5下的置信区间显著性检验(对的检验)的统计量 (k=0,1,p)检验线性约束(R与r为已知,#r(p+1)矩阵R是满行秩的)的F统计量 F = (Wald检验统计量) (似然比检验统计量) 其中,RSSU=RSS表示无约束最小二乘估计的残差平方和,RSSR表示在线性约束下最小二乘估计的残差平方和,即RSSR 回归方程显著性检验(对的检验)的F统计量 (其中,称为回归均方)最大似然估计(maximun likelihood estimators,ML估计)实际上,我们还能证明:在假定2.1假定2.5下,系数向量的OLS估计量也是ML估计量,而的ML估计量则为 最大对数似然函数值是 回归函数的估计和因变量的预测如果线性拟合模型经过检验是显著的,那么我们就可用它来做估计回归函数和预测因变量。对给定自变量的一组新的观测值,估计对应的回归函数值和预测对应的因变量值。显然回归函数的估计值和的预测值均为 估计值的抽样误差和预测值的预测误差分别为 在假定2.1假定2.5下,抽样误差和预测误差的分布分别为 可进一步证明由此得到回归函数的区间估计和因变量的区间预测分别为特别在只有一个自变量的情况下,回归函数的区间估计和因变量的区间预测分别为2.7 R中有关线性回的函数 下面通过一个例子来说明R中与线性回归相关的函数。例 根据经验,在人的身高相等的情况下,血压的收缩压Y与体重x1(kg)和年龄x2(岁数)有关。现收集13个男子的数据,试建立Y关于x1和x2的线性回归方程。 blood cor(blood) X1 X2 YX1 1.0000000 -0.7002831 0.9064018X2 -0.7002831 1.0000000 -0.3827729Y 0.9064018 -0.3827729 1.0000000 plot(blood)lm.sol lm.sol$coefficients(Intercept) X1 X2 -62.9633591 2.1365581 0.4002162 lm.sol$residuals 1 2 3 4 5 6 7 0.5741329 0.4639664 -3.7166848 0.6908281 -0.8312185 -4.0403788 2.7768085 8 9 10 11 12 13 -0.8355416 -2.6527288 0.5047730 3.7569456 -1.0183102 4.3274082 lm.sol$fitted.values 1 2 3 4 5 6 7 8 119.4259 140.5360 127.7167 125.3092 117.8312 129.0404 120.2232 125.8355 9 10 11 12 13 134.6527 122.4952 128.2431 156.0183 142.6726 lm.sol$df.residual1 10另外,还可通过一些函数获取更多线性拟合模型的信息。这些函数有summary( ) 计算线性拟合模型的基本统计量,返回的是一个列表。anova( ) 计算单个或多个线性拟合模型的方差分析表。coef( ) 提取系数向量的估计值。resid( ) 提取残差向量。fitted( ) 提取拟合值向量。vcov( ) 提取的OLS估计量条件方差阵的估计。deviance( ) 计算残差平方和。formula( ) 提取模型公式。summary( ) 函数的主要用法为 summary(object, correlation = FALSE)其返回的列表中的常用统计量有residuals 线性拟合模型的残差向量。coefficients 关于系数向量估计的(p+1)4矩阵。sigma 误差标准差的估计值(回归标准误,残差标准误)。r.squared 决定系数。adj.r.squared 修正决定系数。fstatistic 回归方程显著性检验的F统计量、分子自由度和分母自由度。cov.unscaled 未乘s2的的OLS估计量的条件方差阵的估计,即。correlation 如果correlation =TRUE,的OLS估计量的条件相关系数阵的估计。Residual standard error: 2.854 on 10 degrees of freedomMultiple R-squared: 0.946, Adjusted R-squared: 0.935 F-statistic: 87.84 on 2 and 10 DF, p-value: 4.531e-07 out$sigma1 2.853596 out$r.squared1 0.9461441 out$adj.r.squared1 0.935373 out$fstatistic value numdf dendf 87.84038 2.00000 10.00000 (out=summary(lm.sol) )Call:lm(formula = Y X1 + X2, data = blood)Residuals: Min 1Q Median 3Q Max -4.0404 -1.0183 0.4640 0.6908 4.3274 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -62.96336 16.99976 -3.704 0.004083 * X1 2.13656 0.17534 12.185 2.53e-07 * X2 0.40022 0.08321 4.810 0.000713 * -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 out1=summary(lm.sol,correlation =TRUE) out1$correlation (Intercept) X1 X2(Intercept) 1.0000000 -0.9896500 -0.7899354X1 -0.9896500 1.0000000 0.7002831X2 -0.7899354 0.7002831 1.0000000 out$correlation NULL out$cov.unscaled(Intercept) X1 X2(Intercept) 35.4895683 -0.362265125 -0.1372261097 X1 -0.9896500 1.0000000 0.7002831X2 -0.7899354 0.7002831 1.0000000 anova( ) 函数的主要用法为anova(object, .)如果只指定一个对象,则返回那个线性拟合模型的方差分析表。如果指定多个对象,那么返回多个线性拟合模型比较的方差分析表,特别适用于嵌套模型的F检验(Wald检验,似然比检验),一般将简单的模型排在前面,复杂的模型排在后面。anova(lm.sol) Analysis of Variance TableResponse: Y Df Sum Sq Mean Sq F value Pr(F) X1 1 1242.21 1242.21 152.549 2.227e-07 *X2 1 188.36 188.36 23.132 0.0007133 *Residuals 10 81.43 8.14 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 anova(lm(YI(X1+X2),data=blood),lm.sol)Analysis of Variance TableModel 1: Y I(X1 + X2)Model 2: Y X1 + X2 Res.Df RSS Df Sum of Sq F Pr(F) 1 11 1505.95 2 10 81.43 1 1424.52 174.94 1.164e-07 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 coef(lm.sol) (Intercept) X1 X2 -62.9633591 2.1365581 0.4002162 resid(lm.sol) 1 2 3 4 5 6 7 0.5741329 0.4639664 -3.7166848 0.6908281 -0.8312185 -4.0403788 2.7768085 8 9 10 11 12 13 -0.8355416 -2.6527288 0.5047730 3.7569456 -1.0183102 4.3274082 fitted(lm.sol) 1 2 3 4 5 6 7 8 119.4259 140.5360 127.7167 125.3092 117.8312 129.0404 120.2232 125.8355 9 10 11 12 13 134.6527 122.4952 128.2431 156.0183 142.6726 vcov(lm.sol) (Intercept) X1 X2(Intercept) 288.991861 -2.94992804 -1.117433397X1 -2.949928 0.03074496 0.010217576X2 -1.117433 0.01021758 0.006924278 deviance(lm.sol) 1 81.43009 formula(lm.sol) Y X1 + X2 在R的附加程序包CAR(Companion to Applied Regression)中的lhts( )函数可用于检验线性约束。此函数的一般用法为linear.hypothesis(model, hypothesis.matrix, rhs=NULL,)lht(model, hypothesis.matrix, rhs=NULL,)model:指定线性拟合模型对象。hypothesis.matrix:数值型的矩阵或向量,每一行表示模型系数的一个线性组合, 同rhs一起构成了模型系数的线性约束。也可以是一个字符型向量,每个元素指定系数的一个线性组合或线性约束。Rhs:指定线性约束左边常数的向量,缺省表示左边常数全等于0。 library(ca
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 疫情期间家长培训会课件
- 2025租赁合同简化版范本
- 遵守宪法主题班会课件
- 2025石油销售合同样本
- 天津市高等学校快递服务进校园管理办法全文
- 2025广州写字楼租赁合同样本
- 道法说课课件心中的110
- 2025设备租赁合同简易范本
- 2025《物业租赁、租房贷款保险合同》
- 2025- 无合同、无保险、无加班工资、无双休劳动者的困境谁来关注
- 初中数学基础必刷题
- 食品供应链食品安全员职责
- ktv商务妈咪协议书
- 《实验室操作规范》课件
- 《无人机介绍》课件
- 2025年锅炉水处理作业人员G3证考试试题题库(200题)含答案
- 慢性阻塞性肺疾病急性加重期合并II型呼吸衰竭个案护理
- 天津城投笔试试题及答案
- 外墙保温验收规范标准
- 血透患者皮下出血的护理
- 国企融资考试试题及答案
评论
0/150
提交评论