【《基于岭回归的方差推断分析案例》2100字】_第1页
【《基于岭回归的方差推断分析案例》2100字】_第2页
【《基于岭回归的方差推断分析案例》2100字】_第3页
【《基于岭回归的方差推断分析案例》2100字】_第4页
【《基于岭回归的方差推断分析案例》2100字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于岭回归的方差推断分析案例本章节及整篇文章考虑的线性回归模型如下:2-(1)其中,是第i个响应变量,,是p维协变量,,是相应的系数变量,是与不相关的向量,,样本是独立同分布的。1.1参数估计2020年Liuetal.(2020)[27]在文中讨论了岭回归中误差方差的估计问题,因为线性回归模型的最小二乘估计为,但是当不具有可逆性时是求不出的,而且若无限接近0,那么此时的回归系数将会趋近于无穷大,导致估计失去意义。此时解决此类问题的方法是利用岭回归或Lasso回归,因为他们可以解决回归变量具有多重共线性或样本量n小于协变量个数p的情况。岭回归的目标函数为:2-(2)令2-(3)利用梯度下降法求得,2-(4)令2-(4)式等于0,得2-(5)我们将公式2-(5)进一步变形得到:2-(6)其中,,,并且是维的单位矩阵,因此残差和的均值为:2-(7)其中,通过计算推导得到:2-(8)2-(9)在以上推导的条件下,可以得到,2-(10)所以最终得到的误差方差的估计值为:2-(11)接下来是文中所做估计的一些渐近性质,在介绍相关性质之前,首先给出以下假设与引理,同样的,这些假设与引理在弹性网中同样适用(除假设1)。假设1:当n趋近于无穷大的时候,有。假设2:模型误差的四阶矩是有限的,即。假设3:协变量遵循成分结构,其中和分别是未知向量和矩阵,并且,。另外,对于一些常数,有;对于不相等的正整数和非负整数,其中,有。假设4:存在两个正数界,,其中表示的最大和最小特征值。假设5:的极限存在,并且有,其中,里面的A和B是任意两个维的矩阵,而且是矩阵的第j列向量。备注:上述的假设中,假设1指定协变量维数p和样本大小n的收敛状态。假设2对模型误差施加了一个矩约束。BaiandSaranadasa(1996)[35],ChenandQin(2010)[36],ZhongandChen(2011)[37],Wangetal.(2015)[38]andCuietal(2017)[39]对因子结构考略了假设3与假设4。在假设5中,假设的极限存在在随机矩阵理论中很常见,并且假设与BaiandSaranadasa(1996)[35]和ZhongandChen(2011)[37]中的是一致的。引理1:假设,设是M-P定律,且。2-(12)因此对于足够小的r,我们有如下公式,。2-(13)引理2:在满足假设3与假设4的条件下,有2-(14)其中关于引理的证明,可以参考Liuetal.(2020)[27]所写文章中的补充材料。基于前面的假设与引理,我们可以得到岭回归估计方差值的渐近性质。引理3:假设满足前面的假设1-5,并且有,那么有方差估计值的相合性,即,另外估计值也具有渐近正态性:2-(15)其中,2-(16)公式2-(16)里面的满足上面的的引理1。1.2同时置信区间同时置信(预测)区间,它是针对多个参数的置信区间,所有的参数是同时适用于我们给定的置信度的,因此,同时置信区间包含了多个置信区间,但是,当参数只有一个时,同时置信区间此时就变成了单个的置信区间。又因为多个不同置信区间的相加会在一定程度上降低同时置信区间的置信度,因此,我们在做同时置信区间的同时,还要考虑置信水平的选择。基于估计的回归系数以及方差,接下来讨论两种同时置信区间,分别是Bonferroni方法和Scheffe方法,它们都是通过求解参数的任意线性组合的置信区间来得到多个参数的同时置信区间的。2.2.1Bonferroni方法首先是利用Bonferroni方法构造同时置信区间,它的求解思想如下(Scheffe方法同样适应)。假设是某个发生的事件,那么2-(17)接下来对上式进行推导,我们知道的逆事件为,有2-(18)若想让等号成立,需满足的条件是两两互不相容。但是在一般的情况下,其中的等式是不会成立的。现在假设原假设是通过检验统计量在显著性水平上的检验,拒绝域记为,那么有2-(19)其中上式2-(19)中的,且FWER满足下面的由WuandWu(2016)[40]提出的引理4。引理4:令T表示下式2-(20)假设检验问题中检验统计量,2-(20)那么FWER可以定义为,2-(21)其中表示在参数下的概率。由此我们可以看出与同样的参数在置信水平下获得的置信区间相比较,同时置信区间就相当于把每个参数的置信水平从扩大到,由此得到一个比之前范围更大的置信区间。例如(我们以多元正态分布的均值为例),设定总体变量,其中是未知的,并且它也是我们所需要估计的参数。是已知的,我们需要考虑的p个检验问题为:2-(22)此时,假设我们获得的样本是来自总体的独立同分布的n个样本,用样本的均值与协方差来估计其中的总体均值与总体方差,,样本协方差矩阵为,因此就有2-(23)现在思考的同时置信区间形式,如下:2-(24)对上面的2-(24)式进行计算得,2-(25)其中c为待估参数,使得下面的同时置信区间,在置信水平为的条件下是成立的,即:2-(26)因此我们就可以得到,2-(27)为了使2-(27)成立,只需要2-(28)由统计量的分布我们可以知道这里的,即自由度为的分布在置信水平为处的分位数。因此,的同时置信区间为,2-(29)以上就是我们用Bonferroni方法来求同时置信区间的大致思想,将其应用到我们本次实证中,就会得到因变量的同时置信区间公式,正如凌乔楠(2020)[34]在文中所示:2-(30)因为我们是要对多个因变量进行预测,即要通过构造一个对全部预测值的置信区间,从而得到目标对象的预测区间。对于,找到d个互不相关的向量,令为的行满秩矩阵。中的任意行向量都可由A中的列向量线性表出,此时求我们所需要预测的个预测值的同时置信区间即为求这d个预测值的同时置信区间,即。而其中的是任意的向量,但是在本文中,需要满足,可知的同时置信即为的同时置信区间。可以根据WuandWu(2016)[40]在文中提到的,得到上式对因变量的2-(30)形式的同时置信区间公式。其中公式2-(30)中的K是不确定的,它需要满足:2-(31)因此通过上式得到的分位数记为K1,我们取。2.2.2Scheffe方法同样的,Scheffe方法得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论