2025超高维数据统计模型变量筛选方法_第1页
2025超高维数据统计模型变量筛选方法_第2页
2025超高维数据统计模型变量筛选方法_第3页
2025超高维数据统计模型变量筛选方法_第4页
2025超高维数据统计模型变量筛选方法_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章绪论Pearson筛选标准ujKendellτ与Pearson第2TecatorInfratecBoston第3第4章顺序LASSO停止准则EBIC的性质及ISLASSOLogisticPoisson第5第6章Gini两种Gini相关与PearsonGiniGini在分类背景下的Gini第1章绪论Fan和Lv(2008)首次提出了超高维变量筛选(VariableScreening)的概念,对线性模型协变量和响应变量的边际Pearson相关系数进行了详细的理论分析,建立了确保筛选性质,提出了确保独立筛选(SureIndependentScreening,SIS)(IterativeSureIndependentScreening,ISIS)方法,将超高维数据维数p压缩到适当的维Pearson相关分析建立确保筛选性质,选择重要变量,然后由惩罚方法实现变量选择和参线性模型Pearson其中 (x1,…,xn)T为n行p列设计矩阵,xi=(Xi1,…,Xip)T,β=(β1,…,βp)T为p维回归系数向量,ε=(ε1,…,εn)T为模型的随机误差且与X独立.当p计的有效性降低,并且设计矩阵XTX可逆性不容易满足,参数β无法通过最小二乘估计方法估计得到.为了克服设计矩阵的奇异性,参数β可以由岭估计得到,即 比较大,其中SNR=var(xiβ)/var(εi).为了减少估计误差,当较小时,取βj≈0.模型参数向量,其中β01表示向量β不为0的d(d<n)个分量构成的向 法.惩罚函数需要满足3个条件:第一无偏性,对较大 ;第二稀 其中为惩罚函数.式(1.2)估计在一定条件下满足Oracal性且-β01服从均值为0的渐近正态分布惩罚函数还有岭回归(BridgeRegression)(Franketal.,1993),theElasticNet(Zouetal.,2005),AdaptiveLasso(Zou,2006),theDantzigselector(CandesetPearson对于线性模型(1.1),不失一般性,将协变量和反应变量标准化,即假定 与Xj(i≠j)正交,可得 数定律得以概率1收敛于ρ.对于线性模型(1.1),当协变量的个数远远大于样本容量,即p≫n时,协变量个数正的参数向量β0仅仅有d个分量不为0.变量筛选的目的是在p个协变量中找到对Y有重要影响的d个重要变量,也就是要找到与Y相关系数较大的dFan和Lv(2008)提出通过从大到小排列选取重要变量,即对于向量的分量,有,则选取 令真实变量集={j:β0j≠0}.SIS方法选择得到的变量集={j:向量的所有分量的绝对值从大到小排序,排在前d个}.通过SIS方法,协变量个数p缩减到可以(C.1.4)下证明了SIS(C.1.1)协变量(X1,…,Xp)服从联合椭球型分布(Elliptical Distribution)(Fang等,1990)和集中性质(ConcentrationProerty)(Fanetal.,2008). 和c1>0,c2>0, 对于τ≥0,c3>0,有λmax(covX)≤c3nτ,ε~N(0,σ2),其中 存在ξ∈(0,1-2κ),使得logp=O(nξ),p>n.在上面的4个条件下,Fan和Lv(2008)证明了确保筛选性质:确保筛选性质保证了SIS方法的有效性.选择变量集,当n趋于∞时,选择变量集以概率1包含真正变量集,或者说SIS方法选择的变量中没有丢失掉真正的变量,因此可高选择效率,Fan和Lv(2008)提出了迭代SIS(ISIS)方法,在一定程度上补充了SIS的不足.Wang(2012)研究了超高维数据向前回归(ForwardRegression),增加了条件0<etal.,2008)决定选择变量集中元素的个数其中m(X)=为未知的回归函数 断会遇到所谓的“维数祸根”问题.为此,Hastie和Tibshirani(1990)提出了可加模型,其意的非线性函数,协变量Xj单独通过函数mj(Xj)作用于响应变量Y,因此,模型(1.5)其表示在随机变量Xj的条件下随机变量Y的条件概率密度函数,fY(y)对于可加模型(1.5),(1.6)的解fj=为因变量Y对于协变量Xj的投影.因此E(fj(Xj))2可以作识别重要变量的标准.一般情况下,函数 上确界范数 .令在适当条件下,非参独立筛选方法满足确保筛选性质(FanetY为响应变量,ε为模型误差且满足=0.假定模型是稀疏的,真正模型集(1.8)得到对于每个∈{1,…,p},如果=1,u=b().另一方面u=0等价于几乎处处等于0.因此,u可以作为判断协变量对响应变量相关性大小标准,模型(1.7)可以表示为={:u0}.筛选标准uj 其中待估计的未知系数.样本边际回归问题成其 ,其估计由最小二乘计得到.由此可求得aj(U),bj(U)和uj的估 和.于是选择变量其中vn为给定的临界值.在适当的条件下,可以证明 确保筛选性质(Fanetal.,2008).通过选择合适的vn,选择变量集所含元素个数d小可加模型和变系数模型变量筛选方法的共同之处是由B样条基近似未知函数,然后由边际最小二乘估计协变量Xj的边际效(MarginalEffect),且边际效与单调满足确保筛选性质的条件类似,模型误差ε服从均值为0的对称分布(Fanetal.,2011; 值依赖于Xj}.定义Q(y)=.显然Q(y)= .显然wj=0等价于cov(Xj,Y)=0,因此wj可以作为选择变量的标准.wj的估 .选择变量集,其中 为定的边界值.该确保独立秩筛选(SureIndependentRankingandScreening,SIRS)方法,是βX的线性函数,这个条件是逆回归估计的必备条件(ZhuetKendellτ与Pearson相关系数的关系对于随机向量(Xi,Yi),i=1,…,n,Kendellτ在定义(1.12)中,显然对于Xi或Yi的单调变换,τ不改变大小,并且如果(Xi,Yi)服从均值0,Pearson相关系数为ρ的联合正态分布,则可以证明(Huberetal.,因此Kendellτ与ρ具有相同的单调性,且τ=0与ρ=0如果(Xi,Yi)不具有联合正态分布,但相关系数ρ存在,可以利用Gram-Charlier级数展开得到Kendellτ和ρ的关系(Kendall,1949):及κ31与ρ有相同的增减性且当ρ=0时κ31=0,κ13=0.显然,当ρ=0时,E(τ)=0;当>c1(c1>0)时,存在正数c2,使得>c2.因此,在变量筛选的意义下,Kendell对于线性模型(2.1),令w=(w1,…,wp)T为p其中I(·)为示性函数,wk为Y与Xk的秩相关系数,wk=.注意到wk为U统计其中γn为给定的边界值.因此通过从大到小排列取大于γn的dn个作为重要变量,(RobustRankCorrelation等(2012)证明了w与on相关系数ρ的等价性,即在一定条件下()=,若()1n-κ,有2n-κ,并证明了确保筛选性质.秩相关筛选方法对对称单峰数据较难实现(nt.,2008;it.,2012).第2章分位数归变系数模型变量筛在许多实际问题中,线性模型Y=Xβ+ε不能很好地适合协变量与响应变量的关系,利用L1回归得到了条件中位数下β(·)的相合估计.近来,Cai和Xu(2005)(nkoe)辨别了常系数及函数系数,比较了分位数估计和均值估计,证明了分位数估计是更好的估计方法.n等(2014)基于n和v(2008)的线性模型相关学习方法提出了超高维变系数模型变量筛选方法,建立了确保筛选定理.oh hung(2012)研究了分位数回归变系数模型的变量选择问题,利用组(oohngppdbouevon)惩罚算子压缩变量,证明了估计方法的一致收敛性.本章基于n和v(2008)的变量筛选思想,提出了分位数回归变系数模型的变量筛选方法,通过两步迭代方法更精确的实现变量选择.本章内容安排如下:2.2节基于分位数回归的性质和B数回归变系数模型系数函数的边际估计,排列条件分位数损失函数得到选择变量集;2.3节建立了分位数回归变系数模型独立筛选性质,即当n趋于时,选择变量集以概率1真正变量集.并且得到错误选择率,即选择变量的数量小于o(nι)(0<ι<1);2.4节基(IQNIS);2.5节为验证提出方法的有效性,通过两个模拟例子说明所提方法的有效性;2.6节将本章所提的变量选择方法应用到Boston住房数据中去,得到不同分位数的稀疏变系数模型;2.7节为定理的证明.非参分位数归边际筛本节将非参分位数回归变量选择的方法用到变系数模型中去,假定 是稀疏的,即p维系数中仅有 个不为0,真正的稀疏模分位数边际 对于Y关于协变量Xj和观察变量U 显然.令,且其中为Y的τ分位数.为了得的估计,的估计.如果Xj与Y独立则几乎处处为0.于是选择变量集为其 ,γn为给定的边界值样条边际归估本节将给的估计方法.定义阶为dn的关于变量U的多项式样条空间,且是紧空其中是要估计的系数其.为了得到其为2dn维,元素为1的列向量,ξT(h)=其中Hnj(h)是矩阵Hnj的2dn×2dn子矩阵,Hnj为n×2dn矩阵其 .用类似的方法定其中(C.2.1)为定义在[0,1]上的函数类,β(U)∈.函数类中的函数f(x)的r阶导数fr(x)存在,且满足Lipschitz条件 为非负整数,c0为正常数,s,t∈[0,1],c∈(0,1]使得l=r+c>0.5.(C.2.2)≥c1n-ι,其中0≤ι≤,c1为正常数 (C.2.4) 假定对于j=1,…,p,有界,即存在正常数 和h2,使得h1≤ 随机变量U的密度函数g有界,即存在正常数T1和T2,使得 其中正常数K2和r2满足≥1,其中 (Heetal.,2013).条件(C.2.5)—条件(C.2.7)给出了协变量和响应变量对于随机变量命题 ≥c6n-ι. 定理 存在正数h1,c7,c8,t2,t3其中h1如果,按照定理(2.1),可以得到处理的维数p和样本量n本节讨论错误选择变量的可能性的大小.命题2.1定理 假定定理(2.1)的条件成立,取γn=c9dnn-ι,其中c9>0,那其中这个结果说明如果=o(nκ),选择的模型数=o(nι+κ)是样本的多项式本节考虑分位数非参独立筛选(une onpc ndpndnt nng,)方法.对于实际数据,协变量一般是不独立的,因此边际选择方法不可避免地面临两种错误:一种是协变量与响应变量边际相关性弱,但与响应变量联合相关性强,因边际相关选择变量方法没有选择重要的变量,出现所谓的错误负(egv);另一种是选择的变量与响应变量不相关,但与重要协变量有较强的相关性,出现错误正(e ov).为此,应用组惩罚(oup ny)方法,通过迭代优化,提高选择效率.下面思考迭代非参数分位数独立筛选(ve uneonpcndpndntnng,)方法.IQNIS算法推广了随机重排(RandomPermutation)的思想(Zhaoetal.,2010),,i与πi一般不相同,因此响应变量Yi与协变量不相关,其中{π1,…, 列,取排在前面的K个边际效较大的指标,构成集合 数回归,得到,接着计算部分残差,更新符 作为门槛值.选择的活跃变量集为:步骤3:在集合上,应用组SCAD惩罚选择变量,得到活跃变量 惩罚 InformationCriterion,BIC)选择正规参数λ.步骤4:重复步骤2—步骤3,由代 ,k=1,2,….依次得到,直到,或者对于预先给定 心对称的分布,比较了QNIS和NIS(Fanetal.,2014)筛选变量的效果.在下面的模拟中,取3次B样条基,基的个数dn=7,样本数n=50,协变量个数p=1000[例 假设{W1,…,Wp}服从独立同分布的标准正态分布,{U1,U2}来从表2.1中可以看出QNIS是有效的,对于异方差数据QNIS选择效率好于表2.1例2.1[例 考虑模型如下在例2.2中取K=5,使用条件迭代筛选方法和贪婪(Greedy)迭代筛选方法比较QINIS方法和INIS的表现.表2.2报告了选择变量中重要变量的平均个数(TP)和选择的不重要变量个数(FalsePosive,FP)及预测误差(PE).表2.2的模拟结果表明QNIS优于NIS,对于协变量与误差项相关的数据,均值变量表2.2例2.1本节应用于QNIS两个实际数据,TecatorInfratec食物数据和Boston住房数据.为了符TecatorInfratec食物数据 在TecatorInfratec数据集中,所有的协变量与反应变量有很强的相关性.为了比较结重复100次模拟,在表2.3中报告了预测误差(PE)和模型个数.从表2.3表2.3应用QNIS于MeatspecBoston房产数据(odoonouee).数据集包含506条数据,响应变量是修复过的住房数的中位数,预测变量包括,,,,.哑变量,,,,,,,,.哑变量,取影响信号的变量为.根据历史研究方法,分别对,取自然对数.为了简单起见,省去类变量D和,对剩余变量进行了标准化处理.构造预测变量,Zj~N(0,1),W服从[0,1]上的均匀分布.协变量个数p=1000,选择样本数n=406做模拟,计算预测变量个数及预测误差.从表2.4的结果可以看出,在高维背景下,提出的方法很有效的选择重要变量筛选掉噪声变量,且对于不同的分位数得到不同的模型数.因此,IQNIS方法可以分层的选择重表2.4Boston命题2.1的证明.根据Schumaker(1981)十二章的定理和条件(C.2.5),存在 满足性定义,于是由Angrist等(2006)定理1令ηj=Y-对于,从上式和条件(C.2.3)可知,存在0<v1<v2<∞其中.因其中n定理2.1的证明.首先证明(1).先获得的概率界其中其中S11,S12,S13依次表示中间3个式子.首先求S11的界.注意到由He等(2013)引理3.2,存在正常数c7,c8和任意t0>0由式(2.17)和式(2.18),接着求S12的界.其中为了求S13由式(2.17)、式(2.21)、式(2.22),因此,由式(2.21)、式(2.22)及式(2.23),类似可得到S2,S3其中t6,t7令,其中 为任意正于是由并集的概率界可得定理2.1的第(1)个结论.下一步证明定理2.1的第(2)部分.由命题2.1得因此,选择,使得.由概率界不等式因此得定理2.1定理 其中第二个不等式由定理2.1证明中S3的结果,c7为正常数,M1为式(2.23)大的正数.于是有集合元素的个数不超过O(nιλmax(∑))元素的则 不超过数,其上界 ,由此得到定理2.2第3章超高维数据可加模型经验似然变量筛其中 为响应变量 为协变量 为模型误差前面已经介绍了可加模型,这里不再赘述.值得一提的是,第 (2011)、n和(2001)的方法,n等(2011)将边际相关筛选应用到可加模型,研究了非参相关秩变量筛选,且误差是对称的高斯分布,以及对于不对称的分布表现不佳.本章应用经验似然(pl khood)方法,即在参数取0时当边际经验似然率大时,该协变量与响应变量有很大的相关性,排列协变量在0点的经验似然率,选择排在面的个重要变量,且提出了迭代变量筛选方法,建立了确保筛选的性质. (2009)验证了高维数据条件下,数据维数通过方差矩阵的迹和特征值影响经验似然率得到数据维数收敛率,修正了ot 等(2009)的收敛;ng和ng(2010)提出的经验似然惩罚方法解决了高维变量选择和估计问题,在线性回归的条件下建立了变量选择的e 性质;ng和ng(2012)将惩罚经验似然推广到一般非参模型中,证明了性质.但这些文献提出的方法,数据维数和样本量的关系为本章提出了排列在0点的边际经验似然率,选择重要变量的变量选择方法.若模型的参数不为0,则参数不为0点的经验似然率会大于参数为0的经验似然率,因此通过排列在0点的边际经验似然率,选择排在前面的d个指标构成的集合作为重要变量集.本章内容安排如下:3.2节给出了边际经验似然方法的理论基础,利用B样条基拟合边际可加函数,得到参数的经验似然估计,建立了确保独立筛选性质;3.3节提出了迭代 Song(2011)方法;定理的证明放在3.5节. E(mj(Xj))2>0}是真正的模型,模型数.设数据 来自模型3.1的假定可加部分已标准化,即的均值为0且每个Xij∈[0,1].令表示定义在3.2.3节中条件(C.3.1)的函数空间,0=t0<t1<…<tk=1是区间[0,1]的一个划我们的目标是选择重要变量,选择变量的依据是边际信号,如果边际信号 较大,因此,根据的大小顺序选择重要变量.令其中γn 数类中的函数满足 的 阶微分存在,满足 条 ,其中 存在正常数c3满足 同n和ng(2011)中的条件类似,样条近似函数需满足phz条件(.3.1),条件(.3.2)给出了活跃变量边际投影的下界,条件(.3.3)限制了样条基与样本容量n的大小关系.条件(.3.4)需要响应变量和协变量尾部满足的概率界.条件(.3.4)较n和ng(2011)中的条件E更容易满足.下面给出边际经验似然确保筛选性质.定理 其中,ι1和ι2的意义见条件定理 给出了活跃变量在 点边际经验似然率的下界,即如果j∈,.由定理3.1的结果,建立下面的可加模型经验似然确保独立筛选性质. 如果定理3.1的条件成立,那么其中定理3.2处理的样条基个数满足,则我们提出的非参边际经验似然(NonparametricMarginalEmpiricalLikelihood)(记为,即若h∈,则Xh为选择的重要变量. …,n)的一个重排.对数 ,计 .按从大到小排序,排在第得得步骤3:对指标在中的协变量,应用惩罚经验似然(Lengetal.,2012)方法做变其中pλ(0)=0.取a=3.7(Fanetal.,2001).参数λ由BIC(Wang,2009)验证,步骤4:重复步骤2、步骤3k次,直到的元素的个数达到某个预先给一般情况下选择本节列举了4个例子,每个例子都有几种不同的相关结构以及不同的误差分布,特别设定误差为对称及不对称分布来比较提出的方法EL-SIS和NLS-SIS(Fanetal.,2011),同时比较提出的迭代筛选方法EL-ISIS和NLS-ISIS(Fanetal.,2011).下面的例子中,考虑的样本数n=100,协变量个数p=1000.对于每个例子报告了在200次重复模拟中重要变量出现的次数和不重要变量被选择次数的平均数(AverageofUnimportantExplanatory[例 考虑模其中ε与协变量独立.此模型与Fan和Song(2011)相似.所不同的是考虑了3种不同其中相互独立且为[0,1]上的均匀分布.协变量随着t不同相关性也不同=0时,Xi与Xj(i≠j)不相关;t=1时,其相关系数为[例 研究的模型表3.1例3.1表3.2例3.2从表3.1和表3.2中可以看出,X1,X2,X3和X4在200较,NLS-SIS与NEL-SIS,NLS-ISIS与NEL-ISIS有类似的结果,但在误差不对称的情况下我们提出的方法有更好的变现.例3.2比较了12个变量在100次重复模拟中被选择的次数,在表3.1中模拟结果和例3.1有类似的表现.[例3.3]数据产生于模型,其中ε的分布同例3.1,协 从表3.3中可以看出,提出的迭代筛选方法可以选到重要变量Z4.因此,NEL-ISIS在[例 考虑模表3.3例3.3从例3.4模拟结果在表3.4中可以看出,在异方差的情况下,我们提出的方法较Fan表3.4例3.4大鼠基因数据(RatsGeneData)来自Lin和Zhang(2006),该数据总共包括120个年 Syndrome,是一种多个器官的变异疾病,如视网膜疾病等.分析的基因强度值由Irizarry适应组Lasso(AdaptiveGroupLasso,AGLasso)(Huangetal.,2010)和NLS-ISIS(Fan 从表3.5中可以看出,在协变量p=500时,AGLasso选择的精确性较高,但当协变量表3.5引理 假定Z1,…,Zp是p个独立同分布的随机变量,当w>3时,∞.在式(3.3)和式(3.4)中,令gijk=Zi-z,如果=O(n-u),其其中引理 对于独立同分布的随机变量U1,…,Un,假定存在T1,T2和ι使得引理 证 对正数其中其中,所以得到引理3.3的结果定理 由文献Schumaker(1981)定理12.7可知,存在正数c2其中c4=c1+c2c3.由式(3.7),其中,所以一致有界,对于j∈,由式(3.8)可.由引理3.2和引理3.3得到定理3.1的结果.定理3.2的证明.因为第4章顺序LASSO特征选择方法本章考虑在广义线性模型下迭代顺序(vequnlo,)方法的变量选择问题.和前几章变量选择的目的一样,其目标是:建立可以达到预测目标的模型和识别与响应变量相关的特征.广义线性模型(ught.,1989)更加灵活地体现了协变量与响应变量的关系,具有更加广泛的应用.=θi为连接函数.参数β其中b(θ)=(b(θ1),…,b(θn)),θ=(θ1,…,θn)T,1为n维元素都为1LASSO(Tibshirani,1996):,SCAD(Fanetal.,2001),其分区间光滑L1惩罚(对小的)和常数惩罚(对大的),自适应LASSO(Zou,2006):,其中wj是给定的权重及对于广义线性模型,n和v(2011)使用,P惩罚函数选择变量,在给定条件下建立了弱e性质.n和ong(2010)推广(nt.,2008)方法到广义相关的错误负问题.提出的顺序特征选择方法,利用传统的压缩变量正则方法,每次选择一个变量加入选择变量集,使用C作为停止准则,克服了以上两个问题.我们建立了模型选择的一致性,且在理论上证明了停止准则的可行性,同时得到了估本章内容安排如下:4.1节讨论了广义线性模型顺序特征选择(ISLASSO)的基本理论;4.2节研究了ISLASSO算法的具体算法;ISLASSO特征选择的理论性质安排在4.3节;4.4节通过几个模拟例子比较了ISLASSO算法和其他几种算法;理论证明细节在第4.5在本节,将给出ISLASSO特征选择的原理.令y是响应变量,x={x1,…,xp}T∈Rp为p维协变量,yi及xij是y及xj(j=1,…,p,i=1,…,n)独立同分布的随机变量.假定Y=(y1,…,yn)T,Xj=(x1j,…,xnj)T标准化,Y及Xj的长度为构成的矩阵的子矩阵,()指标集在中的子向量.广义线性模型对数似然函数在0其中λ1≥0为正规参数.顺序LASSO选择λ足够大,使得极大化式(4.3)得到的估计至少有一个参数非0.非0估计参数的指迭代顺序LASSO 为列向量,j∉B构成的子矩阵,命题 令k>1,β0为初值,极大化等价于证 lk+1对β(t*k)的微分令,由式(4.6)代替式(4.4)得到命题的结论式从命题(4.1)得到≠0,因此 方法选择的变量集符合命题 ,Xj,j∈t*极大化式(4.5)的唯一非0在定理的证明过程中可见命题4.2的证据.由命题4.2考虑下面ISLASSO算法: j∈计 . 更新使得它的第j1个分量是,其余部分为0.其 为第j个分量.然后更新的j2个分量 ,其余部分为0.迭代k 的jk+1分量不为 步骤3:对于h≥1,t*h={l1,…,lh},初值的非 指标集t*h.假.计算,j∈tc*h,由代替,向量的第m1分量为.通过迭代,由下式得到其 为 维向量,其第 个分量 为其子向量,其余分量为0.由迭代得到t*h∪{mk}. 时,迭代停止本节考虑非随机设计矩阵X.令t0={1≤j≤p:βj≠0}.假定lnp=O(nκ),κ>0且=O(nc)(0<c<1).首先给出的结果为ISLASSO方法以概率1选出的相关变量.然后EBIC停止准则以概率1选出全部相关变量后,ISLASSO选择过程停止.最后给出了假定设计矩阵X的列向量已标准化.设集合t⊂{1,…,p},令t-=tc∩t0,这里tc表示集合t的补集.如果t⊂t0,那么t-为t在t0中的补集.对于t⊂t0,定义(C.4.1) (C.4.3)≤C2t0n-1,其C1,C2为正常数 存在正常数C3,C4使 存在正数M1,M2和N1,N2,使得(C.4.6),其中 令E(t)由Xt的列向量的线性组合得到的空间命题 命题4.3的证明.如果Xj∈E(t*h),那么存在bh使得,因所以当Qk+1(βj)极大化时,βj一定为0定理 其中t0为真正活跃变量集.停止准则EBIC的性质及ISLASSO在本节,进一步给出ISLASSO方法的理论性质,定理4.2证明了ISLASSO估计参数的似然函数具有单调性.Chen和Chen(2008)提出EBIC准则的选择模型,表达式为EBIC作为ISLASSO算法的停止准则,定理4.3证明了最小时,以概率1定理 假定条件(C.4.3)、条件(C.4.4)成立.若,如 假定定理4.2成立.假定lnpn=O(nκ),0<κ<1-2τ1-α.令t*1⊂…⊂t*k为由ISLASSO方法得到的指标集.h*为定理4.2中的正整数.若 定理 若定理4.1的条件和条件C.4.7成立,其中An为矩阵,满足,G为q×q对称正定矩阵定理4.4的证明过程类似于Fan和Lv(2011)的定理4在定理4.2中得到ISLASSO方法选择变量的可行性,随着选择变量的增加,其似然函数增大.在定理4.3中,EBIC停止准则是单调递减的,当选择了所有活跃变量时,EBIC达到最小.定理4.3是ISLASSO估计的大样本性质.在本节考虑3种广义线性模型,包括线性回归模型、Logistic回归模型、泊松回归模型,比较提出的方法ISLASSO与SIS(Fanetal.,2008)、SIS-MLR(Fanetal.,2010)的表现.评价筛选方法的表现通过对每种方法模拟重复M=200次,令表示第k次重复模拟选择的模型数,测量选择特征的效率 (AveragedModel比较各种模型的正确选择率(PositiveSelectionRate,PSR)和错误发现率(FalseDiscoveryRate,FDR),线性归模量和参数满足下列3种情况: 协变量x独立同分布,服从标准正态分布.=8,s0中的指标随机产生于集{1,…,p}.是来自的独立样本.=0,其中P(U=1) S1来自Wang(2009)的例1.在S2中,重要变量有较大的相关性.对于S3,前4个表4.1Logistic归模数据Y服从0-1分布,(Y,x)来自Logistic回归模型,即π=P(Y=),其logit(π)=xTβ.在这个例子中取n=400,p=1000 cov(Xj,Xj-1)=2/3,cov(Xj,Xj-2)=1/3;当时,cov(Xj,Xh)= 表4.2LogisticPoisson归模在Possion回归中,取n=200,p=1000,协变量和参数满足下列3 协变量x独立同分布,服从标准正态分布.,s0中的指标随机产生于集{1,…,p}.是来的独立样本.=0,其中P(U=1)= cov(Xj,Xj-1)=2/3,cov(Xj,Xj-2)=1/3; 时 表4.3Poisson从表4.1、表4.2、表4.3可以看出,对于线性回归模型,SIS可以更精确地选择变量,对于Logistic回归模型和Poisson回归模型SIS-MLR、ISLASSO较SIS能够更好地选择变量,同时我们提出的方法ISLASSO选择效率更高.因此,ISLASSO可以作为新的变量筛选定理4.1的证明.ISLASSO在(k+1)步的参数估计,由KKT条件得其中∂ǁβǁ1为ǁβǁ1对β的次微分,当βj不为0时,∂βj=sng(βj),否则∂βj∈(-1,P(s*k+1⊂s0)→1,对所有的k使得<.若j∈sc*k,令上式中的βj由代替,令由式(4.10)和式(4.11),(4.12),显然有 定理4.2的证明.似然函数的泰勒展式为因为λmin(X(t*k)(XT(t*k)∑X(t*k))-1XT(t*k)∑)≤λmin(∑)=ρ1接着求S2的界.由条件(C.4.3)和条件(C.4.4),得时,定理时,定理4.2定理4.3的证明.由定理4.1得,t*k⊂t0.令Dk=EBICγ(t*k)-EBICγ(t*(k+1)).注意到 ,对所有的j≤p0一致成立.因此,在EBIC的表达式中由jp代 .因P(Tk≤lnn+2γln其中ǁaǁ1表示矩阵a的列向量L1范数的最大值.-1-α. ,0≤x≤1,lnp=O(nκ),k<1-2τ1-α.有其中C7=C4/C6.于是结果(ⅰ)得证.定理4.4由EBIC(Luoetal.,2011)第5章超高维非参模型变量筛选方法数,随机误差ε满足.在第3章中考虑了变系数模型、可加模型,提出了经验 Lv(2008)的特征筛选边际效应(MarginalUtility)方法.首先建立了核回归估计条件期望满足的不等式,进一步证明了选择一致性,即重要变量的边际效应以概率1总是大于不重要变量的边际效应,也证明了确保筛选性质(Fanetal.,2008),即选择的模型以概率1本章内容安排如下:5.2节给出了边际条件期望的核回归估计并提出了筛选变量方法.5.3节给出了技术条件和理论性质.5.4节提出了迭代筛选算法步骤.5.6节提出了数据模拟.定理的证明放在5.6节.其中T为(X,Y)的联合分布,L2(T)为测度T下的平方可积函数.由式(5.2)可由式(5.3)注意到如果μj=0,则cov(Y,Xj)=0.因此真实模型,模型非稀疏个SmoothingMethod)(Fanetal.,1996)估计边际条件期望(5.3), 的n个观察K(t)为核函数,h为带宽,Kh(t)=h-1K(t/h).在等式(5.4)中,按照plug-in(Ruppert,1995)选择带宽h,估计μj其中γn是给定的门槛值.在本节,建立CC-SIS方法的确保独立筛选性质.为了定理建立的技术需要,需假定 协变量 的密度函数有连续二阶导数,且有界,即存在正数T1,T2,T3使得fj(xj)≤T1, 随机变量Xj和Y一致地满足子指数尾条件,即存在t0>0,0≤t<t0 定理 条件(5.6)给出了测量重要变量和不重要变量的分界值μj.从定理5.1变量大于不重要变量的,因此重要变量的排在所前面.下面给出CC-SIS的确保筛定理 假定条件(C.4.1)—条件(C.4.5)成立,带宽h=O(n-τ),其中从定理5.2logCC-SISpenGAM(Meieretal.,2009)获得模型的活跃变量集. .从大到小排列,选择排在前d1个的指 步骤2:符号表示的补,步骤 为n×(n-d1)矩阵.对 的每一列,计算,其中d1.从大到小排列,选择排在前d2个的指标,d2满足d1+d2<d,得到在实际应用中,常选择在本节考虑了5个例子,前两个例子比较了线性和非线性模型的最小模型数,取n=400,p=1000,d=+1=5.后3个例子比较了对于不同相关程度和不同信噪比非参 其中[例 X2,X3服从[0,1]3上的均匀分布,相关系数满 .对于 否则βj=0.a=0.3912,b=1.3409,σ=0.1.此模型类似于Wu等(2010),不同的是我在表5.1中,报告了最小模型数和标准偏离的稳健估计(RSD=IQR/1.34),5.1的列中计算最小模型数使用了我们提出的CC-SIS方法,NIS(Fanetal.,2011)和SIS(Fanetal.,2008).因为例5.1为线性模型,当模型数增大时,3种方法误差增加了,但仍然适用.例5.2的模型是多指标模型对于SIS和可加模型NIS完全不可用,这里表5.1例5.1和例5.2最小模型数及标准偏离(括号中[例 考虑第2.5节变系数模型[例 考虑第3.4节模型其中hj(Xj)j=1,…,4,ε同模型 ,σ=0.1,(X1,…,X8)∽U[0,1]8,corr(Xi,Xj)=,对于j=9, Positives,FP)、预测误差(PredictionError,PE).预测误差由样本量的一半计算得到的.从表5.2中可以看出,提出的CC-ISIS方法对于例5.5的模型有很好的表现,对于例5.3、5.4的模型和NIS有类似的表现表5.2TP,FP定理5.1的证明.先证明,其中定义fj(xj)是协变量xj的密度函数,函数g(xj)=,根据泰勒展式,对于与0接近的x其中t1与t2因此,对于假定hfj(xj)>C5>0.ε0∈(0,1),C6=C5-ε0其 其中C10 .那取ε=cn-κ,h=O(n-τ),由Fatou引理,对于p=o(exp(nτ-κ)),定理5.1定理5.2的证明.由定理5.1因此有当定理5.2的第一个结果得到.定理5.2第6章Gini相关独立筛选 Gini两种Gini相关与Pearson令随机变量X,Y的分布函数分别为F,G,联合分布函数为H.常使用Pearson相关系 Pearson相关和Spearman相关的不足.其定义如下:在线性变换中如果X,Y可交换,即存在+b,cX+d)T有相同的分布时,γ(X,Y)=γ(Y,X).注意到Gini相关仅要求随机变量的一阶矩存在不像Pearson相关需要随机变量满足二阶矩条件.因此Gini相关更适合重尾分布的随机变量(Schechtmanetal.,1987,1999;Yitzhakietal.,2003).其中(X1,Y1)T及(X2,Y2)T相互独立,且与(X,Y)Ty1),(x2,y2))= 其中y(i)是ith顺序统计量,xy(i)是y取值y(i)时x的取值.其计算复杂性为O(nlogGinicov(Y,X)=cov(α+βX+ε,X)=βcov(X,X)+cov(ε,X).其中,ρp是X与Y的Pearson相关系数,σY,σX分别是Y与X的标准差.如果1,则其中 与 分别为 的 不同平均,当 时Gini相关筛选2,…,p,思考下列3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论