线性回归模型_第1页
线性回归模型_第2页
线性回归模型_第3页
线性回归模型_第4页
线性回归模型_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、戴之瑶, 魏凌云, 王杨, 周仕君中国人民大学统计学院2015级硕士生教材:孟生旺,回归模型,中国人民大学出版社,2015( 2 )主要内容主要内容l1.1 模型结构和假设l1.2 解释变量l1.3 参数估计l1.4 异方差与加权最小二乘估计l1.5 假设检验l1.6 模型诊断和改进l1.7 模型的评价与比较l1.8 应用示例 1 1.1.1 模型结构和假设模型结构和假设( 3 )( 4 )1.1模型结构和假设模型结构和假设 假设我们感兴趣的变量是 , 希望建立它与其他 个解释变量 之间的函数关系 。最一般的函数形式可以表示为:式中 是随机误差。 在线性回归模型中, 设 是一个线性函数, 可得

2、线性回归模型为: 如果对因变量和解释变量有n次观测, 第i次观测值记为 和 则相应的线性回归模型可以表示为:yk12,kx xx12( ,)kyf x xx12( ,)kf x xx01 1kkyxxiy12,iikixxx01 1Tiikkiiiiyxxx为方便起见, 线性回归模型可以表示为矩阵形式:式中, ( 5 )yX11110121221211(1)(1) 1111,1kknnknknnnkknyxxyxxyxx yX( 6 )基本假设基本假设(1)误差项的均值为零, 且与解释变量相互独立, 即(2)误差项独立同分布, 即每个误差项之间相互独立且每个误差项的方差都相等:(3)解释变量之

3、间线性无关(4)正态假设, 即假设误差项服从正态分布:在上述假设下, 可得: ,TEE0X022,0,( ),1,2,ijiiCovij Varin 2(0,)iN01 122()()()()( ),0(,)TTiiiiikkiTiiiiijijTiiE yExxVar yVarVarCov y yCovyN xxxx1 1.2.2 解释变量解释变量( 7 )( 8 )1.2解释变量解释变量1.2.1分类解释分类解释变量变量 如果解释变量是分类变量, 在建模过程中需要把分类解释变量转化为虚拟变量。 为避免解释变量之间出现完全共线性, 虚拟变量个数等于分类变量的水平数减去1。( 9 )Examp

4、le: 车型是一个分类解释变量, 有A, B, C, D四个水平, 可以转化为x1, x2, x3三个虚拟变量, 定义如下表所示:车型车型x1x2x3A100B010C001D000( 10 ) 假设车型是模型中唯一的解释变量, 则线性回归模型的拟合值表示为: 根据模型, 可以求得不同车型条件下对因变量的拟合值为: 在模型中, 车型D是基准水平, 也称参照水平。为了预测结果的稳定性, 通常选择观测值较多的水平为基准水平。在R中的实现:type = factor(c(A, B, C, 0D)model.matrix(type)01 12233xxx0102030车型 = A车型 = B车型 =

5、C车型 = D( 11 )1.2.2交互效应交互效应 交互效应交互效应是指一个解释变量对因变量的影响与另一个解释变量有关。 譬如, 不同性别的驾驶人, 其年龄对索赔频率的影响是不同的, 即年龄和性别之间存在交互效应。( 12 )1.2.3变量的标准化变量的标准化 为了消除量纲的影响, 可以考虑对变量进行标准化标准化处理, 即: 式中, ,jjjyjxxyyyxss221111()()11,11nnijijnniijijiyjiiyyxxyy xxssnnnn( 13 )Example: 表示汽车保险的索赔频率; 表示驾驶人的年龄, 是一个连续变量; 表示性别, 是一个虚拟变量, 值为0 表示男

6、性, 1表示女性; 表示年龄和性别的交互效应 ; 则线性回归模型的拟合值可以表示为: 在模型中, 年龄每增加一单位, 对索赔频率拟合值的影响是一个跟性别有关的值, 即:y1x2x12x x01 1223 12xxx x1321yxx( 14 ) 基于标准化以后的数据建立的回归模型为: 回归系数间有下述关系: 标准化回归系数的绝对值大小度量了解释变量的相对重要性, 值越大, 表明该解释变量对因变量的影响越大。 在R中, 用scale(data)实现标准化11iikkiyxx01,1,2, ,kyiiiiiisikyxs( 15 )1.2.4变量变换变量变换 解释变量与因变量之间如果是非线性关系,

7、 可以考虑对解释变量进行变换或建立多项式回归模型。 多项式回归多项式回归是把一个解释变量的幂变换作为新的解释变量引入回归模型。 为简化表述, 不妨假设只有一个原始解释变量, 则m次多项式回归模型的基本形式如下: 所以多项式回归也属于线性回归模型。2012mkyxxx( 16 ) 在普通多项式回归中, 多项式的阶数不同 , 参数估计结果也不同。 为了克服这种缺陷, 可以使用正交多项式回归正交多项式回归模型 , 即把原来的解释变量 转化为新的正交解释变量。 譬如 , 三阶正交多项式回归模型为表示为:01 133yzz( 17 )在R中的实现:set.seed(10)x = 1:20y = 2 +

8、x + x2 + runif(20)*50mod1 = lm(yx)mod2 = lm(ypoly(x, 2)mod3 = lm(ypoly(x, 19)plot(y x, yaxs = i, pch = 19, ylim = c(0, 500), xlim = c(0, 21), xaxs = i, las = 1)abline(mod1)points(x, fitted(mod2), col = 2, type = l, lty = 4, pch = )points(x, fitted(mod3), col = 4, type = l, lty = 5, pch = )legend(1,

9、450, c(一元线性回归, 二次多项式回归, 19次多项式回归), lty = c(1, 2, 3), col = c(1, 2, 4) ( 18 ) 如果解释变量取值较大, 多项式模型中高次项可能会导致计算溢出, 从而使得对其参数的估计值出现下溢。解决这一问题的常用方法是对解释变量进行下述变换: 如果模型中包含多个自变量(譬如两个), 则模型可表示为: 在多项式回归模型中, 如果已经包含高次项, 则所有的低次项通常也要保留在模型中。( 19 )*maxminmaxmin2xxxxxx2201 12211 12221212yxxxxx x1 1.3.3 参数估计参数估计( 20 )( 21

10、)1.3参数估计参数估计1.3.1最小二乘估计最小二乘估计 回归参数的最小二乘估计可以通过最小化残差平方和求得: 对S关于 求偏导, 并令其等于零, 即得 得到回归参数最小二乘估计最小二乘估计:21()() ()nTTiiiSyxyXyX220TTS X yX X1TT X XX y( 22 )1.3.2极大似然估计极大似然估计 假设误差项服从正态分布, 则因变量 的密度函数为: 线性回归模型的对数似然函数可以表示为: 对数似然函数的最大化等价于残差平方和的最小化, 即在正态分布假设下, 回归参数的极大似然估计等价于最小二乘估计。2222()1(; ;)exp22Tiiiyf y x22211

11、()ln(2)22nTiiinly x( 23 ) 对上式关于 求导, 并用回归参数的极大似然估计值 代入上式 , 并令上式等于零, 则可以求得方差参数 的极大似然估计值为: 这个方差估计是有偏的, 在实际中很少用。22221111()nnTiiiiiynnx( 24 )1.3.3方差参数的无偏估计方差参数的无偏估计 在线性回归模型中, 对因变量的预测值可以表示为: 线性回归模型的残差可以表示为: 残差平方和表示为: 在正态性假设下, 有: 方差的无偏估计方差的无偏估计:1(),TTyXHX X XXyHy()yyIH y () ()()TTTTSSE yIHIH yyIH y22(1)SSE

12、nk22111niink( 25 )1.3.4最小二乘参数估计值的性质最小二乘参数估计值的性质(1)无偏性无偏性 在 的所有线性无偏估计中, 最小二乘估计的方差最小。(2)协方差矩阵协方差矩阵 式中, 是 对角线上元素, 是解释变量 与其他解释变量之间的复相关系数。( )E2122221( )()()(1)()TjjjnjjijiVarVarcRxxX X21. .()1njjjjjiicsecnkjjc2jR1()TX Xjx( 26 )(3)正态分布假设下的性质正态分布假设下的性质 如果进一步假设误差项服从正态分布, 则有: 此外, 在误差项服从正态分布的假设下 最小二乘估计值与其真实值之

13、间的加权距离服从自由度为k + 1 的卡方分布。21( ,() )TN X X2(,)N yXI1 1.4.4 异方差与加权最小二乘估计异方差与加权最小二乘估计( 27 )( 28 )1 1.4.4 异方差与加权最小二乘估计异方差与加权最小二乘估计异方差的产生原因:1. 误差学习模型(error-learning models)2. 数据采集技术的改进, 使得 减小3. 产生于异常观测(outliers)4. 对CLRM假定的破坏, 即回归模型的设定有误5. 模型中一个或多个回归元的分布偏态(skewness)6. 其他, 例如:不正确的数据变形(比率、一阶差分变化等), 不正确的函数形式(线

14、性与对数线性的变换)异方差性问题在截面数据中比在时序数据中更为常见 i2( 29 )1 1.4.4 异方差与加权最小二乘估计异方差与加权最小二乘估计在线性回归模型中, 如果误差项的方差互不相同, 即可以表示为则式中的最小二乘估计值虽然是无偏估计, 但不再是最优线性无偏估计, 即在所有的线性无偏估计中, 不能保证上式的方差是最小的(有效性)。 Var(i) i22fi (XTX)1XTy( 30 )1 1.4.4. .1 1 异方差异方差条件下参数估计值的标准误条件下参数估计值的标准误 ( )(|) (|)VarE VarXVar EX11111(|)()|)()()|)()|)()( )()|

15、)TTTTTTTTTE VarXE VarX XX y XE VarX XXXXE VarX XXXE X XX VarX X XX211( )()()TTTVarX XX WX X X Var() 2W异方差不影响最小二乘估计值的无偏性 (|)0Var EX在异方差条件下, 假设误差项的协方差矩阵可以表示: 则最小二乘估计值的方差可以表示为: ( 31 )1 1.4.4. .1 1 异方差异方差条件下参数估计值的标准误条件下参数估计值的标准误 21211( )() ()()nTTTiiiiVarX Xx xX Xl矩阵W往往是未知的, 不过, 在大样本条件下可以通过下式进行估计: l其中 是

16、设计矩阵第i行的元素。l l问题在于上式可以以求出最小二乘估计值的标准误, 但无法解决最小二乘估计的有效性问题。( 32 )1 1.4.4.2.2 加权最小二乘估计加权最小二乘估计l矩阵W的逆矩阵可以分解为: l用矩阵 可以对因变量、设计变量和误差项进行变换: W1 LTLL L L L,yy XXwyXl则可以建立下述的线性回归模型: l上式模型满足线性回归所有假设:l零均值l同方差 L L( )()( )0EEE LL LL L LLL 22112( )()()() TTTTTTVarEEW( 33 )1 1.4.4.2.2 加权最小二乘估计加权最小二乘估计l所以其最小二乘估计模型的回归参

17、数为:1111TTTTwX XX yX WXX Wyl上述估计值的协方差矩阵为:11221()TTwVarX XX WXl可以证明, 是回归参数 的无偏估计, 即:w()wEl所以, 在异方差条件下回归参数的估计值可以表示为:111()TTX WXX Wy( 34 )1 1.4.4.2.2 加权最小二乘估计加权最小二乘估计l协方差矩阵W是 的矩阵, 难以通过n个样本观测值估计, 所以通常设其为对角矩阵, 且常假设有 , 所以误差项的方差与其样本量n成反比, 即:nn wi1/nil 是对因变量 的观测次数ni 2i2/niyil而且假设W为对角矩阵则意味着误差项之间是相互独立的 Cov(i,j

18、)0,ij( 35 )1 1.4.4 补充补充l异方差的检验方法:1. 残差图2. ncvTest生成计分检验, 原假设为误差方差不变, 备择假设为误差方差随拟合值水平的变化而变化#library(car)3. Goldfeld-Quandt Test4. bartlett.test( 36 )1 1.4.4 补充补充l异方差的解决方法:方法一:NeweyWest()函数可以进行异方差和自相关稳健性NeweyWest估计(sandwich)library(sandwich)NeweyWest(fit)neweywest AIC(model, k = 2) AIC(model, k = log(

19、n) 1.7.4 交叉验证得分交叉验证得分基本原理:1、把原始数据集随机分解成r个大小近似相等的子数据集;2、把第一个子数据及作为验证数据集, 其余r-1个子数据集合并后进行模型的参数估计, 并基于该模型对验证数据集的因变量进行预测, 计算误差平方和;3、将第二个第r 个子数据集分别进行步骤二;4、计算前述r个预测误差平方和的平均值。 特例:每个观察值作为一个子数据集 表示提出第i个观察值后用其他所有观察值建模对第i个观察值的预测值。 是帽子矩阵对角线上的元素; 是基于全体数据建立的模型对第i个对象的预测值。 211niiiiCVyyniiy2111niiiiiyyCVnhiihiy在R中, 交叉验证得分可编写以下函数求出:cv - function(fit, k) require(bootstrap) theta.fit - function(x, y)lsfit(x, y) theta.predict - function(fit, x)cbind(1, x)%*%fit$

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论