海洋生物学课件汇总回归分析第3章每页_第1页
海洋生物学课件汇总回归分析第3章每页_第2页
海洋生物学课件汇总回归分析第3章每页_第3页
海洋生物学课件汇总回归分析第3章每页_第4页
海洋生物学课件汇总回归分析第3章每页_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1令c (1,1), (1, 2 ),则c 1 2 是可估的,例如y1就是其一个无偏估计,但1, 2都不可估。1(或2 )不可估的理由很清楚,因为每次称量都是两物体一起称,当然无法由结果对其中单独一个物体的重量作“估计”。可估性的含义可由下面的例子形象说明。例 1:设两个物体重量1, 2未知,把它们同时放在天平上称 n 次,第 i 次结果为 yi ,模型为yi 1 2 ei ,i 1,L, n.其中 ei 为第 i 次称量误差, 且设 e (e ,L, e ),Ee 0,Var(e) 2 I 。1nn当r( X ) p时,最小二乘解有唯一解 (Y ,且此时为 的无偏估计,即E ,方差Var()

2、 2 ( X X )1。当r ( X ) p时,最小二乘解不唯一,此时最小二乘解中无 能作为 的无偏估计。此外可以证明此时 的无偏估计不存在,此时 称为不可估的(nonestimable)。定义 3.1.1:c 为 的某一线性函数 ( c已知) ,若存在Y 的线性函数 aY 使得 EaY c , ,则称 c 是可估函数。最小二乘法几何解释:Y 2 ( X )若 使得 Y X 2 min Y X 2 ,则称为 的一个最小二乘解。极小化Q( ),则 需满足方程Q( ) 0,即得到正规方程Y 。正规方程的所有解为(Y 。定理 3.1.1:是最小二乘解 是正规方程的解,即 (Y 。第三章:参数估计与分

3、布理论3.1 最小二乘估计(Least Squared Estimate)线性模型Yn1 Xn p p1 en1,其中Ee 0,通常对误差 e两种假定:1.Cov(e) 2I , 2未知;n2.e N (0, 2 I ), 2未知(比 1 强)。n由最小二乘法的, 的估计应选择使得Q( ) e 2 Y X 2 (Y X )(Y X )达到最小。2定理 3.2.1:在误差正态分布假设下,设c 为可估函数, (Y ,r( X ) r,则:1. c 为 c 的极大似然估计(MLE) ,且 c N c , 2c( X X ) c;n r22(n r) 222. 是 的 MLE,且 ;n 2nr3. c

4、与 2独立。注:对可估函数来说,其 LSE 与 MLE 一致;但对误差方差的估计,LSE 是无偏的,MLE是有偏的。定理 3.1.4:设r r( Xn p ),则2 2 ee Y (In PX )Y n rn rn r为 2的无偏估计。3.2 分布理论迄今为止,关于误差的假定是满足 GM 条件,若误差还服从正态分布即e N (0, 2I ),nn则可以确定一些估计量的精确分布。Y X注:在一切线性无偏估计类中,c 是方差最小的,但不排除比c 方差更小的非线性无偏估计;但若误差分布还是正态分布,则这种可能性不存在。下 面 考 虑 2 的 估 计 。 令e Y X (In PX )Y ,称为残差(

5、residual)向量, Ee 0, Cov (e) 2 (I P )。nX若c 可估, aY 为其一无偏估计,对b ( X ),(a b)Y 都是c 的无偏估计。在所有线性无偏估计中,找出方差最小的估计,此估计称为最优线性无偏估计(Best Linear Unbiased Estimate,简写成 BLUE),或称为 Gauss-Markov 估计(GM 估计)。定理 3.1.3:(Gauss-Markov 定理)若c 可估,则c是其唯一的 GM 估计( 为 的 LS 估计)。3.若c 可估, 是最小二乘解,则c 值唯一,与广义逆( X X )的选取无关;此外 c是c 的无偏估计。定义 3.

6、1.2:设c 可估,称c为c 的最小二乘估计。例 2:考虑如下模型yij i eij ,i 1,2; j 1,2.e i.i.d Ee 0, Ee2 2.ijijij,1,2不可估,但1 2可估。定理 3.1.2:以下三条等价 1.c 可估;2. X1 X2 c1 c2;3.c ( X )。注:1.一切c 可估 r( X ) p。2. 若 c1 , c2 可 估,则任 线性组合 1c1 2c2 也是可估。若c1, c2线性无关,称c1 , c2 也线性无关。对线性模型来说之多有r ( X )个线性无关的可估函数。3定义 3.3.1:若存在a使得EaY c 对所有满足L 0的 成立,则称c 是条

7、件可估函数,aY 为c 的条件无偏估计。定理 3.3.1: 性约束L 0的条件下,线 性 函 数 c 是 条 件 可 估 函 数 c ( X ML)。回 到 方 程 (*) , 由 L 0 解 得 (I LL)z,z,代入前一个方程得pp1X X (I LL)z L X Y(*)p由引理 3.3.2,注意到I p L L L ,有() (XX ML) XX(I LL)MLp。因此方程(*)是相容得,从而方程(*)也是相容的。引理 3.3.1:设S Ax Bx 0, x Rm ,nmkm则S为 线 性 子 空 间 且dim S r A r(B)。 B 引理 3.3.2:设Vp p 0, A为p

8、q矩阵,则1.( A) I (VA ) 0;2.V M A VA M A。由最小二乘法,此时 的估计应选择在L 0 的条件下极小化 Y X 2 ,即选择 Arg min Y X 2。引入 Lagrange 乘子LL 0,考虑Q( ,) Y X 2 2L ,由q1 0 得到方程 X X L X Y ,L 0,即 X XL X Y (*) L0 0 3.3 有线性约束时的估计考虑线性模型,其系数 满足线性约束条件L d (此约束为相容性方程)。不失一般性可假设d 0(否则,取0使得L0 d ,令Y Y X , ,考 虑线 性模 型00Y X e,此时线性约束变为L 0)。本节考虑线性模型如下Y X

9、 e, Ee 0,Cov(e) 2 InLq p 0*定理 3.2.2:在正态误差假设下T1 Y Y ,T2 X Y 是完全、充分统计量;若c 可估,则c是唯一最小方差无偏估计(Minimum Variance Unbiased Estimate,简写 MVUE); 2为 2的 MVUE。4定理 3.3.4:在约束L 0的条件下,若进一步假设误差还是正态分布,c 条件可估,则:1.c N (c , 2cG c);L11(n s) 22 X 2. 2 ns,s r r(L);L L 3.c 与 2独立。LL定理 3.3.3:性约束L 0条件下,2 2 Y (In PM )Y 为 2 的条件Ln

10、sn s无 偏 估 计 , 这 里 M X Ls r X r(L)。 L Y XL推论 3.3.2:在一些条件下L 有简单的形式。设r(Lq p ) q,1. 若(L) ( X ),则 ( X X ) LL( X X ) L1 LL其中 (Y ;2. 若r( Xn p ) p,则 ( X X )1 LL( X X )1 L1 LL其中 (Y 。Y(M) X(X)XL几何解释:XL 是Y 到子空间 (M ) X L 0的正交投影,这里M X L X (I LL)。由于pXL XG11 X Y ,故XG11 X 为 (M )上的投影算子,即PM XG11 X 。定理 3.3.2:性约束L 0的条件

11、下,约束最下二乘解为L G11 X Y ,其中, X XL GG 1112 ; L0 G21G22 对任何条件可估函数c , cL 值唯一( 不 依 赖 广 义 逆 的 选 取 ) 且Var(c ) 2cG c;L11cL 是条件可估函数c 的唯一BLUE。5上述定理表明,对通常线性模型,正规方程 Y 的解一般不唯一。若加上一个 side condition ,问题转 化求解 Y ,此时解 唯一,且对L 0Lc ,cL c。Side condition 让线性模型正规方程有一个特殊的解。由于满足 side condition 的L选择并不唯一,D 可逆, DL 0都是一个 side condi

12、tion。定理 3.3.5:设有约束L 0的线性模型,若L 0为 side condition,则约束最小二乘问题的解 L 唯一且 ( X X LL)1 X Y ;L 为方程Y 的唯一解;LL 0L 为 在L 0 条件下的无偏估计且对任何可估函数 c ( c ( X ) ) , cL c(这里 (Y )。以下不失一般性,可以假设Lq p是行满秩 的 , 若 L 满 足 条 件 (#) , 则 q p r ( X )。引理 3.3.1:设L 0为 side condition,则X LL)1 X X ,L( X X LL)1 X 0。另一方面,在约束L 0下,要对c ,c ( 条件) 可估, 则

13、 ( X ML) Rp ,即 r X p。因此,若L 满足条件:q p L ( X ) I (L) 0且r X p (#) L 则加上约束与不加约束线性模型等价,此时对对c,c 在条件L 0下可估。若 L满足条件 (#) ,则称约束 L 0 为 side condition(边界条件)。S X L 0, Rp上的投影,要使两模型 等价 ,由 于 S ( X ) ,要 求 S ( X ) dim S dim ( X ) r ( X ),由于dim S r X r (L),所以当 L r X r(L) r( X ) L 即( X ) I (L) 0时,加上约束与原模型本质上一样。当 r( Xn p

14、 ) p 时, 不可 估, 对 c ( X ),c 可估;在带有约束L 0的条件下,对c ( X ML),c (条件)可估。增加约束后,可估函数的选取范围“扩大”了。加上怎样的约束L 0,当然,加上约束后要与原模型一致(等价),可以使得c,c (条件)可估?设线性模型Y X e, r r ( X ) p,由最小二乘法,实质是找 Y 在空间 ( X )的投影;加上约束L 0后,找 Y 在空间a63.5 稳健回归与M -估计到目前为止,对线性模型都采用最小二乘法给出回归系数的参数估计。前面也指出,在误差e N (0, 2I )条件下,回归系数n的最小二乘估计还是极大似然估计。但也很多 表明当误差分

15、布偏离正态分布时,最小二乘估计可能不再是有效的估计(估计的方差会偏大)。即便误差正态分布,如果有些异常值影响,最小二乘法都会过于敏感,给出很“坏”的估计。* 1*2Y X Y X 定理 3.4.2 : ,n rr r( X )为 2的无偏估计。定理 3.4.3:若假设e N (0, 2), 0,则1.对任何可估c,c * N c , 2c( X 1X ) c;(n r) *22. 2 且c *与 *2 独立; 2nr3.若r( Xn p ) p,则 * N , 2 ( X 1X )1 且与 *2 独立。p由于可估性只涉及Y 的均值与其方差无关,且( X% ) ( X ),故此时c 可估 c (

16、 X )。注:由于X X 不依赖于广义逆的选取,令A 1X X 1,由于AX X ,因此A2 A为幂等矩阵。定理 3.4.1:对任何可估函数c ,c *是唯一的 BLUE,其方差Var(c *) 2cX 1X c。令Q( ) Y X 2 Y X 1Y X ,由最小二乘法原理, 此时 的估计应选择 * Arg min Q( )。此时得到 Aitken 方程:1Y ,解 * 1Y ,称为广义最小二乘解。注: 如果 为对角阵diag(11, 22,L nn ) ,令 1 Wg(w ,dwi ,Lw ),这里w 1,此12niii时 *也称最小二乘估计。3.4 Aitken 模型与广义最小二乘到目前为

17、止都是在误差Cov(e) 2In下估计问题,此时任何可估函数的 LS估计与其 GM 估计一致。但在许多实际情况下,误差协方差阵为Cov(e) 2, 0(已知),在此条件下线性模型Y X e, Ee 0,称为 Aitken 模型。由 于 0 为 已 知 , 则 作 变 换 Y 1/ 2Y , X 1/ 2 X , e 1/ 2e , 此 时 Y X e, Ee 0,Cov(e) 2I 。n可以选择一个“好”的 side condition 使得Y方程L 0解很容易求出。例 3: 考虑下面线性模型: yij i eij , i 1,L , n; j 1,L , m.写 成 矩 阵 形 式 Y X

18、nm ( n1) e , , ,L , , r( X ) n n 1 , side1nncondition 为一个方程,选择 L i 0 ,i 1 1 n m y 1 m y 易解的 nmij , imij 。i 1 j 1j 17Huber(1964)提出一类函数,现在称为 Huber 函数,设 & ,取 x xx k ,Hk sign xx k此时得到的估计称为 Huber 估计。一些人建议减少异常值影响,当x 时 x 0,由此可取2 。注:关于M -估计的渐近理论可参见,赵 (1996), 线性模型中的 M 方法,科学技术。M -估计的一个常用特例是取L1范数,对应函数 (x) x ,此

19、时最小化nmin yi xi , i1其解 ,称为 least absolute deviation(LAD)估计。n研究表明, 最小二乘法之所以不稳健是因为 (x) x2,x ,当 x 过大时增长太快,会“放大”异常值的影响。而 LAD 方法是稳健的方法,因为 (x) x , (x) & (x) 1(在 0处导数不存在),增长平缓。如果,函数 的导数 & 处处存在且连续,则M -估计 为下面方程的一解nn xi( yi xi ) 0。i1注:在一些情况下,导函数 & 不连续或者函数 在一些至多可数的点不存在,即 & 除去这些点存在,此时上方程可能无解。此时,M -估计的定义只能回到原始的极值

20、问题。Huber(1964) 首先考虑位置参数的稳健 (robust)估计,提出一类现在称为M -估计的估计方法。对线性模型来说,给定一合适的函数 (),考虑最小化问题nmin ( yi xi ),i1上式最小化问题的解 ,称为回归系数 的nM -估计。注:最小二乘法相当于 (x) x2。例 3.5.1:下图显示异常值对线性模型最小二乘估计的影响。8最后作为本章结束提一下两步估计方法。当Cov(e) 2( ),其中( ) 0含有未知参数 ,先设法对 作估计,得到 ,从而得到( )的估计 (),最后用广义最小二乘的 得到 的估计() ()1Y 。对于可估函数 c ,在一定条件下c()为 c的无偏估计。定理 3.6.1:对本节线性模型1. 对任何可估函数c ,其 BLUE 为c *;R2. Var(c * ) 2cX T X U c;R3. 2的无偏估计为* * *2 Y XR T Y XR Rq这里q r(T ) r( X )。引理 3.6.3:对线性模型,可估函数c 的某一个无偏估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论