已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在多元线性回归模型( 变量) 选择的研究中,形成了许多有效的方法,如。准则,a l m i k e ( 1 9 7 4 ) 的 信息准则( a i c ) ,b a y e 8 信息准则( b i c ) ,妒准则,交叉验证准则;因为它们所选择的惩罚函数是固定的, 当然,使用固定的惩罚函数可能在某一情况下表现很好,但在其他情况下表现不一定会好;所以惩罚函 数的选择直接到模型选择准则的表现好坏;从而需要找到一个基于数据的惩罚函数,这样模型选择准则 就会有很好的表现,r a na n dw u ( 1 9 8 9 ) 首次提出了基于数据的惩罚函数并应用到多元线性回归的模型 选择问题,本文是基于r a oa n dw u ( 1 9 8 9 ) 的论文并对其方法作了些改进,考虑建立在交叉验证准则基 础上线性回归模型的选择问题我们对原来的交叉验证准则进行改进,通过增加惩罚函数来解决交叉验 证过程中模型过度拟合同题。从而提出个新的模型选择准则在一定的假设条件下,新准则确定的模 型具有强相合性并且在样本容量充分大时能得到最小真实模型从m o n t ec a r l o 模拟实验可以看出,我 们提出的基于数据的惩罚函数的模型选择准则比选用固定的惩罚函数的模型选择准则效果更好,并且在 小样本时表现很好 关键词: a i c ,b i c ,g i c ,相合性,交叉验证,线性回归,模型选择,变量选择,子高斯分布,m o n t e c a r l o a b s t r a c t i n t h e f i e l d o f m o d e l ( o r v a r i a b l e ) s e l e c t i o n i n t i l e m u l t i p l er e g r e s s i o n m o d e l ,m a n y m e t h o d sa r e a p p l i e d t oa d d r e s st h i sp r o b l e m ;f o re x a m p l e ,t h eq c r i t e r i o n ,a k a i k ei n f o r m a t i o nc r i t e r i o n ( a k a i k e t1 9 7 4 ,a i c ) , b a y e si n f o r m a t i o nc r i t e r i o n ( b i c ) ,t h e c r i t e r i o na n dc r o s s - v a l i d a t i o nc r i t e r i o n b e c a u s et h e s ec r i t e r i au af i x e dc h o i c eo ft h ep e n a l t yj u n c t i o n h o w e v e r ,af i x e dc h o i c em a yb eg o o di ns o l n es i t u a t i o n sa n dm a yn o t p e r f o r mw e l li ns o m eo t h e rs i t u a t i o n s ;s ot h ec h o i c eo ft h ep e n a l t yf u n c t i o nw i l la f f e c tt h ep e r f o r m a n c eo fa m o d e ls e l e c t i o nc r i t e r i o n h e n c e t h e r ei san e e dt of i n dad a t e - o r i e n t e dp e n a l t yb ot h a tap r o c e d u r ew i t hi t s u s ew i l lp e r f o r mw e l l 田地丑r 8 ta t t e m p tt op r o v i d ead a t e - o r i e n t e dp e n a l t yf u n c t i o ni sm a d ei nr a oa n dw u ( 1 9 s 9 ) ,w h i c hw 8 8a p p l i e dt om o d e ls e l e c t i o np r o b l e m si nt h em u l t i p l er e g r e i o nm o d e l i nt h i sp a p e r , o u r o b j e c ti st op u r s u et h ei n v e s t i g a t i o ns t a r t e di nr a oa n dw h ( 1 9 8 9 ) 柚dm a k e m er e f i n e m e n t s ,w ec o n s i d e r t h ep r o b l e mo fm o d e ls e l e c t i o ni nt h ec l a s s i c a lr e g r e 目i o nm o d e ib a s e do nc r o e s - v a l i d a t i o nw i t h a d d p e n a l t yt e r mf o rp e n a l i z i n go v e r f i t t i n g u n d e rs o n l ew e a kc o n s i d e r s t h en e wc r i t e r i o nj 8s h o w nt 0b es t r o n g l y c o n s i s t e n ti nt h es e n s et h a tw i t hp r o b a b i l i t yo n ef o ra l ll a r g e 1 a ss h o w ni no l l rm o n t ec a r l os i m u l a t i o n t h e c r i t e r i o nw i t h8d a e n t e dp e n a l t yp r o v i d e si m p r o v e dp e r f o r m a n c eo v e rt h ee r t e r i o nw i t h8f i x e dc h o i c e o ft h ep e n a l t yf u n c t i o na n di tw o r k sw e l li ns i n a is a m p l es i z e s k e y w o r d s :a i c ,b i c ,g i c ,c o n s i s t e n c y , c r o s s - v a l i d a t i o n , s e l e c t i o n ,s u b - g a n s s i a nd i s t r i b t i o n ,m o n t ec a r l o 一、学位论文独创性声明 东南大学学位论文 独创性声明及使用授权的说明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所知, 除了文中特别加以标明和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得东南大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意 二、关于学位论文使用授权的说明 签名;祧啉衄 东南大学,中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文 档,可以采用影印、缩印或其他复制手段保存论文本人电子文档的内容和纸质论文的内容相一致除 在保密期内的保密论文外,允许论文被查阅和借阕,可以公布( 包括刊登) 论文的全部或部分内容论文 的公布( 包括刊登) 授权东南大学研究生院办理 签 名,啦导师签名:盘睇龇 第一章引言 模型选择同题的研究在统计学中占有重要的地位本文主要研究线性回归中的变量选择问题 也就是说,我们将线性回归中自变量集划分为真自变量和冗余自变量所谓真自变量就是其对应的 回归系数非零,冗余自变量就是其对应的回归系效为零所谓变量选择问题就是通过数据从所有 可能的自变量中我出全部真自变量在变量选择过程中,我们既要考虑模型的拟合优度,又要考虑 模型的复杂性 对于一个给定的自变量集合,最普通的方法定义这两个要素就是用残差平方和( r s s 】及候选模 型中自变量的个数,其中残差平方和来度量候选模型的拟合优度,候选模型中自变量的个数来度量对 模型复杂性的惩罚;通过最小化最终预报误差( f p e ) 来对真自变量集进行估计,其中最终预报误差 就是候选模型中残差平方和与候选模銎中自变量的个数之和,例如岛准则( m a l l o w s1 9 t 3 ) 及舢幽】c e 信息准则( a i c ) 就属于这种方法 z h e n g 和l o b ( 1 9 9 5 ) 考虐了下列模蛩 瓠= :1 k 凤+ q = k t 巩 凤+ q , i = 1 ,n ,( 1 1 ) 其中t = 弘:风o ,= 1 ,必 表示真实模型的指标集,射是固定常数,并称指标集t 为模蛩 ( 1 1 ) 的真实模型,他们做的就是要得到t 的相合估计;他们假设真自变量的个数不随样本容量的增 加而增加,利用定义一类新的惩罚函数及t 绒计量来区分真自变量及冗余自变量,从而在一定条件 下得到了芏的相合估计我们将在第二章重点介绍z h e n g 和l o h 0 9 9 5 ) 的工作,因为他们的工作是 本论文的基础 注意到z h e n g 和l o h ( 1 9 9 5 ) 所选用的准则有其明显的优越性,但也有不足的地方显然与重复取 样的方法如交叉验证方法( s h a o1 9 9 3 ,z h a n g1 9 9 3 ) ,自助法( z h e n g 和l o n1 9 9 3 ) 相比它的计算量 减少很多;而且它不必为了估计真实模型而寻遍自变量集的2 ”个子集为了整理自变量只嚣计算普 通的t 统计量,t 统计量的计算可以用m a t l a b 进行计算( d o n g a r r a , m o l e r ,b u n c h 和s t e w a r t1 9 9 7 ) ; 但因为它们所选择的惩罚函数是固定的,当然,使用固定的惩罚函数可能在某一情况下表现很好, 但在其他情况下表现不一定会好;所以惩罚函数的选择直接到模型选择准则的表现好坏;从而需要 我到一个基于数据的惩罚函数,这样模型选择准则就会有很好的表现 r a o a n d w u ( 1 9 8 9 ) 首次提出了基于数据的惩罚并应用到线性回归中的模型选择同题c h e n ( 1 9 9 3 ) 使用基于数据的惩罚在a r 时间序列中进行横型选择 r a oa n dw u ( 1 9 8 9 ) 考虑下列多元线性回归模型 k = 矗声+ e 其中j 0 为,l p 的矩阵,卢为p 1 的未知回归参数向量,e n 为n l 随机误差向量( e ,i 的分量 相互独立,但分布不必相同) 芦的每个分量可以为o 或非0 。f 1 ,2 ,p 的每个子集p 称为子模 1 2第一章引言 型,显然,多元线性回归有2 p 个可能的子模型如果对于任意i # 岛岛= 0 ,则称为子模型p 为真实模 型所解决的问题是要找到最小真实模型,其中最小真实模型定义为它所有的真子模型都不是真实 模型虽然r a oa n d w u ( 1 9 8 9 ) 提出选用基于数据的惩罚函数来替代固定的惩罚函数,从而更好地拟 合最小真实模型模型;但有时会过度拟台最小真实模型模型本文是基于r a oa n dw u ( 1 9 8 9 ) 的论文 并对其方法作了一些改进;通过去掉对误差项的限制,构造了基于数据的惩罚函数;在g i c ( g e n e r a l i n f o r n l a t i o ne r i t e r i o ) 中提供一个基于数据惩罚的办法,从而提出一个在多元回归预测问题中估计模型 的程序 接下来,考虑建立在交叉验证准则基础上线性回归模型的选择问题交叉验证是一种模型选择 的方法,它能对模型进行预测。它的主要思想,假设有”个数据点,为了在模型集中选择一个适当 的模型,首先,我们删掉一个数据点,用其余”一1 个数据点去拟合模型;然后用删掉的数据点检验 模型,再对所有数据点都进行一次上面的操作,选择一个具有最佳预测水平的模型我们对原来的 交叉验证准则进行改进,通过增加惩罚函数来解决交叉验证过程中模型过度拟合同题,从而提出一 个新的模型选择准则在一定的假设条件下,新准则确定的模型具有强相合性并且在样本容量充分 大时能得到最小真实模型在本文中,构造了基于数据的惩罚函数;从而提出了基于数据的惩罚函 数的模型选择准则我们将证明新准则确定的模型在一定条件具有强相合性,并给出一般条件下模 型选择准则从m o n t e c a r l o 模拟实验可以看出,我们提出的基于数据的惩罚函数的模型选择准则比 选用固定的惩罚函数的模型选择准则效果更好,并且在小样本时表现很好 第二章线性模型中相合变量的选取 2 1 介绍 本文主要研究线性回归中的变量选择问题也就是说。我们将线性回归中自变量集捌分为真自 变量和冗余自变量所谓真自变量就是其对应的回归系数非零,冗余自变量就是其对应的回归系 数为零所谓变量选择问题就是通过数据从所有可能的自变量中找出全部真自变量在变量选择过 程中,我们既要考虑模型的拟合优度,又要考虑模型的复杂性 对于一个给定的自变量的集合,最普通的方法定义这两个要素就是用残差平方和( r s s ) 及候选 模型中自变量的个数,其中残差平方和来度量候选模型的拟合优度,候选模型中自变量的个数来度 量对模型复杂性的惩罚;通过最小化最终预报误差( f p e ) 来对真自变量集进行估计,其中最终预报 误差就是候选模型中残差平方和与候选模型中自变量的个数之和,例如g 准则( m a l l o w s1 9 7 3 ) 及 a k a i k e 信息准则( a i c ) ( a l 嘶k e1 9 7 4 ) 就属于这种方法假设真自变量的个数不随样本容量的增加而 增加时( 本文中的所有结论都在这个假设前提下) ,以上两种方法由于正偏差,有时大的方差或低效 率,从而对真实模型作出不相合的估计( s h i b a t a1 9 8 4 ,z h a n g1 9 9 2 ) ,基于交叉验证的方法同样无 法避免这个同题( b u r m a n1 9 8 9 ,s h a o1 9 9 3 ,z h a n g1 9 9 2 ) ;部分地解决这个问题的一个办法就是 用压缩估计来降低偏差及方差( l o g 和z h e n g1 9 9 7 ) 不难看出造成上述准则所得到不相合的结果是由于过度拟合,理所当然地想到,与对候选模型 的拟合优度度量相比,对候选模型复杂性的度量与不相合性有着更直接的关系在本文中,将定义 一种新的模型复杂性的度量h 。( ) 铲来检验这种效果,其中铲为误差方差的相合估计,k 为关于 的非减正函数,为拟合模型中自变量的个数,当h 。= 2 k ,k l o g n ,c k l o g l o g n ,其中c o ,就得 到了q 准则( 或a i c ) ,b a y e s 信息准则( b i c ) 及毋准则( h a n n a n 和q l l i l 1 9 9 7 ;s l d b a t a1 9 8 4 ) 我们将说明当k 满足一定条件及回归系数的t 统计量被利用来区分真自变量及冗余自变量时,新准 则将对模型的维数作出相合性估计并且构造一个相合变量选择程序;b a y e s 信息准则及庐准则下相 合性的结果将作为推论给出,而且放宽对误差服从正态分布的假设将其推广到更广泛的一类分布一 子高斯分布 2 2 新的模型选择准则及子高斯随机变量 对于给定一个因变量p 和一个自变量的集合 z l ,。版) ,考虑下列线性回归模型t 仉= 以,l 尻+ + 甄,m 。卢 h + c ,t = 1 ,住,( 2 1 ) 其中k ) 是期望为零的独立同分布的随机变量, “表示自变量的个数( 可能依赖于n ) ;假设一些 自变量与”的预测无关,从而它们对应的系数岛为零,则真实模型为模型( 2 1 ) 的子模型首先考 虑简单的情形,假设真实的卢向量具有下列形式( 伍,鼠,o ,o ) ,其中不依赖于n , 0 硒兰;对于t s b ,屈0 对于自变量没有排序的一般情况将在第4 部分介绍 3 4第二章线性模型中相合变量的选取 假设一。一* ,许多如的估计渐进等价于 b a r go 盎 脚( 功+ a 舻 , ( 2 2 ) 其中n s s ( k ) 表示在只包含前k 个自变量的模型中的残差平方和, 0 为常数,铲= r s s ( m ) ( n 一 。) 表示y 口r ( e 1 ) 的相合估计如果a l ,;一,则乌的分布为标准正态分布;z h a n g ( 1 9 9 2 ) 指 出i 不是k o 的相合估计且1 h p ( = k o ) 0 ,使得对所有的实数t ,随机变量满足, e 唧( 囝唧f 巩2 ) ,( 2 4 ) 则称箍机变量f 为子高斯随机变量 正如其名字所蕴涵的那样,子高斯髓机变量与正态随机变量在尾部的表现非常相似,它在研究随 机过程正则化中起着至关重要的作用,因为高斯过程的许多结果仅仅依赖于正态分布的尾部性质, 从而可以用子高斯分布来推广随机过程( 见j a i n 和m a r c u s1 9 7 8 ,l e d o u x 和t a l a g m n d1 9 9 1 ) 子 高斯随机变量分布族的范围比正态随机变量分布族范围要广。例如,所有有界的期望为0 的随机变 量为子高斯随机变量;另一方面。所有高斯随机变量的期望为o 以下给出在下面的讨论中将用到 的两条高斯分布的附加性质: p 1 ,子高斯随机变量所有阶的矩都有限 p 2t 任意有限个独立的子高斯随机变量的线性组合仍然是子高斯随机变量 2 3 已排序的情形 在给出主要结果之前需要用到一些记号,用凰表示前k 个自变量组成的设计矩阵,记玮= 氟陇凰) 一,= j ,b ( 岛,风。) 表示真实的回归期望函数,现在只讨论如下情形,向量 ( 尻,芦b ) 不依赖于样本容量t l 并且自变量个数满足如下条件, l i r a s u p 加 0 。m i n k ( b ( i p ) f 6 n ( 见注3 2 ) 条件a 2 提供了规范化常数,k , 如,m i n k c b ,( i p ) ,的相互作用在a 3 和a 4 将说明,关于 k 的增长性限制,a 0 弥补了过度拟合问题,而a 4 则致力于另一个方向一一防止拟合不足如果 当n 一时,m ;趋向于无穷大( 存在增长的冗于的自变量) ,则比起m ;有限时,惩罚函数k ( ) 应该增长地更快 , 定理2 3 1 :如果在模型( 2 1 ) 中,c f 是独立同分布的子高斯随机变量,则在条件a 1 一a 4 下,( 2 3 ) 准则定义的弱相合于b ,即 唧p 忙2 k o ) 2 1 注3 1 :唯一关于设计矩阵x m n 的假设是对于每个n ,x m n 列满秩;定理2 3 1 蕴涵尽管真自变量和 冗余自变量之间存在共线性关系或近似线性关系。关于真自变量和冗余自变量之间在( 2 3 ) 准则 下的效应将由x 虬通过? ( 死靠一段。k 反陕出来。其中只要( 磁x ) - 1 存在,e ( 一最。) 的极限特征主要依赖于亡r ( 蜀h ) = m n 在有限样本的情况下,共线性性会带来计算上的困难, 许多技术用来处理这个不适定问题,如主分量回归和标准回归可以用来方便通常的计算;注意 到共线性性与厶x i a 的小特征值的存在有联系对于下一部分的排序自变量,条件c 2 因为 需要x k x k 的小特征值增长到无穷大而限制加上 注3 2 :如果把条件a 3 加强为, b 3 :存在o 0 ,使得对每个k 1 ,t i m j n i k ( ) ( 矿 厶) 0 ,l i m i n f 。k 俑+ 1 ) a ( ) 1 则定理2 3 1 几乎处处成立,即p ( 1 i m 。= k o ) = 1 ;注意到在b 3 条件下,尽管当m 。固定时,对某 个a 0 ,惩罚函数k 需要至少以n “阶速度增长从条件a 4 来看,只有当m i l l k k f ( i 只) , 增长刘无穷大的速度比t l 。,才能保证惩罚函数k 的存在;但是如果条件b 1 同样地成立并且对 于某个0 c 1 ,= o ( n 。) ,则惩罚函数7 l ,l 总是存在的。因为条件a 4 可以降低到对于每 个k , i m n n h 。( ) = 0 注3 3 :因为,4 ( z - p k ) f 是关于k 的递减函数,可以通过分解j 把分解成j = ( 一1 ,。钿) , 其中默表示第i 个自变量,这样就可以把1 a 3 i 1 3 k 知,( j 一最) ,写成t 暑恕,。( j 一最) ,2 吃z 乙( j 一氏一- ) 另一方面,当只有前岛个自变量进入模型时,矗的最小二乘估计的方差v a r ( b o ) 为 口2 眩( j 一一1 ) 】- 1 ,条件a 4 蕴涵v a r ( b b ) = o ( 1 1 0 9 叫- 1 ) 6 第二章线性模型中相合变量的选取 显然。的相合性取决于惩罚函数k 的选择,丽惩罚函数k 则取决于自变量的个数 厶以及 m i n b ,。( ,一最) ,的增长性在有限样本情况下,当m k 不大时,建议选择增长速度缓慢的惩罚函 数h 。来防止拟合不足,例如,选取k ( ) = k l o g n 及k ( ) = c k l o g l o g n ,其中c 为常效,则有如下 的推论; 推论2 3 1 在定理2 ,3 1 的饭设条件下,如果 厶= o ( 1 0 9 ) ,则b 8 y e s 信惠准刘( b i c ) 具有弱相合 性;进一步。如果= 0 0 0 9 o g n ) ,则准则同样具有弱相舍性 当遇到足够多的冗余自变量时,下面的推论将给出如何选取足够多的惩罚来防止过度拟合该 推论允许瞄;以最快的增长率增长 推论2 3 。2 :在定理2 3 1 的假设条件及条件b l 成立。如果对于某个0 c l ,尬;= o ( 旷) ,则 ( 1 ) 如果k = 酽【( 1 0 9 呐k ( k + t ) 一1 1 ,则准则( 2 3 ) 具有弱相合性 ( 2 ) 知幕k ( 砷= n ( 卧1 ) 2 0 0 9 n ) 。( 抖1 ) 一1 1 ,则准则( 2 3 ) 具有强相合性 2 4 当尬;固定时未排序的情形 现在考虑一般的情形,真实的声向量不一定如( 角,芦k ,0 ,o ) 的形式,因此回归模型应如 下列形式t t = 忙:m 0 ,k = l ,胁) ( 2 5 ) 表示真实模型的指标集,并称指标集t 为模型( 2 5 ) 的真实模型,我们所要傲的就是得到t 的相合 估计;着手毹决这个向题有两个方法t 最佳子集回归和分步回归;尽管它们缺少理论上相合性的证 明,与第3 部分褶联系,给出一个t 的相合估计我们所用的方法简单而直接,该方法基于如果能 把自变量排列成如第3 部分的情形,则前面的结果就可以用来对真实模堑作相合性估计 在下面的讨论中。只考虐自变量个数巩固定的情形,从而可以去掉 厶的下标n 。对于n = 1 ,2 ,m ) 的任意子集e ,记x e 表示e 中整数所标记的自变量所构成的设计矩阵,用x 表示 置l ,记届b 表示由分量凤,e 组成的向量p ,焉= 妫( 磊x o ) “磊表示对应于的正交投 影阵, 我们所使用的估计方法是基于对t 统计量进行排序,正= 巩5 e ( 坟) 用来测试假设检验岛, = l ,m 记6 = ( b 1 ,b u ) 7 = ( x 7 x ) 1 x 口表示卢的最小二乘估计,a e ( b | ) = 争【d ( t ) 1 1 胆。其中d o ) 是( x x ) - 1 第1 个对角元,a e 玩) 表示h 的标准误差;注意到m 对于自变量的尺度改变是一个不 变量,排序标准由下列步骤组成t 步骤l :计算g 统计量墨,1 i m 。并按照它们的值进行降序排列;i z k i l t k i i 噩。i n l 1 1 ( 艮承 胁 矗 + 艮t h = 玑 中其 2 5m o n t ec a r l o 模拟结果 7 步骤2 :用它= ,嘻 对真实模型t 进行估计,其中驴= a r g 。要f 矗船( 句+ k ( ) 孛2 ) , r s 8 。( ) 表示关于自变量筑,。的残差平方和,若秘= 0 ,记量= ;被估计的真实模型 由下列自变量,量组成 为了研究该程序的性质,将对设计矩阵加一些限制条件 c 1 :x x 是可逆的,存在序列“一o o 使得对所有的0 t ,x ( k p e ) a x “l o g n c 2 :当n _ o o ,( x 工o = o ( 1 ) 注意到条件c l 与第3 部分中条件a 1 平行,因为若下标集e t 对应于模型中至少缺少一个真 自变量;条件c 2 蕴涵当n 趋向于无穷大时,( x x ) - 1 的极大特征值趋向于0 定理2 4 1 :假设瞄。= m 不依赖于样本容量n ,并且满足条件c 1 和c 2 ;进一步假设惩罚函数h 。 满足条件a 2 - a 4 ,如果q 为独立同分布的子高斯随机变量,则下列性质成立: ( 1 ) 如果e t ,则陬i 三0 ,相反,则珏= o p ( 1 ) ( 2 ) 基于对t - 统计量的排序准则具有弱相合性,即l i m t ;p ( t = t ) = 1 洼4 1 :在t 统计量排序中及本文的核心假设是真实模型为全模型的子模型;如果没有了这个假设, 以上的准则就没有意义了 洼4 2 :如果条件c 2 被下列更强的条件取代对于某个靠一o o ,( x x ) 一1 = o ( l o g n 一1 ) ,则定 理2 4 1 中8 部分应变为。 :如果t ,则p ( 1 i 陬l l o g 叫“2 = o o ) = 1 ,否则v ( n m 。i t k l l o g n 一1 2 = 0 ) = 1 再把o 部分的结论与注3 2 结合,则量是t 的强相合估计,即p ( t = t ) = 1 2 5 m o n t ec a r l o 模拟结果 我们通过1 0 0 0 次模拟实验来说明准则( 2 3 ) 准则和t 统计量排序准则模拟实验的结果所有情况 下样本容量n 都是2 0 0 ,设计矩阵x 选择x x = 2 0 0 i 对于准则( 2 3 ) 考虑三种情况t ( 1 ) 在自变 量个数尬。是5 ,取真自变量个数b 为0 ,( 2 ) 在自变量个数m 。是5 0 ,取真自变量个数b 为5 , ( 3 ) 在自变量个数是1 0 0 ,取真自变量个数为1 0 ;对于,m ) = ( 0 ,5 ) ,( 5 ,5 0 ) ,( 1 0 ,1 0 0 ) 分 别对应的真实模型t 为( o ,5 ) ,( 5 ,5 0 ) ,( 1 0 ,1 0 0 ) 在所有情况下,如果t ,则展= 1 ,并且分 别与g 准则,a i c 及b i c 作对比;q n ( 0 ,1 ) 对应于推论2 3 1 和推论2 3 2 的结论,当尬。= 5 时,取k ( ) = k n2 ,当 “= 5 0 或1 0 0 时,取 。( ) = k n 。” 0 0 9 n ) ( h 1 ) 一1 】,表5 1 给出了各种准 则下正确选择真实模型的估计概率 很显然,岛准则及a i c 选择真实模型的概率较低,准则( 2 ,3 ) 及b i c 傲了有意义的改进,尽管 在b i c 中对过度拟合的惩罚函数k l o g n 有点不足。还需要改进;t 统计量排序准则择真实模型的概 率非常接近于l ,大样本理论在这里应用地很好 注:在t 统计量排序准则下在模型中的自变量没有事先排列好 8第二章线性模型中相合变量的选取 表5 1 :真实模型的估计概率 真自变量个数硒g 或a i cb i c ( 2 3 ) 准则t 统计量排序准则 07 2 8 9 1 89 9 89 9 8 57 7 1 9 8 49 9 49 9 4 1 06 9 9 9 7 9,9 9 29 8 7 m a x s e 0 1 50 0 50 0 3 0 0 4 2 6 结论 我们研究是建立在类惩罚函数基础上相合变量的选择方法,此方法推广了f p e 准则特别地,说 明了b a y e s 信息准则和准则具有相合性我们为相合性所做的假设条件与s h a o ( 1 9 9 3 ) 和z h e n g ( 1 9 9 3 ) 相比非常弱,但惩罚函数的选择依赖于r a i n 。h f ( j p k ) ,的增长性,而m i n k 知,( j b ) ,通常是 未知的;从而需要一个更加可行的方法,此方法是基于数据的惩罚函致;目前仍然在研究之中 注意到我们所选用的准则有其明显的优越性,但也有不足的地方显然与重复取样的方法如交 叉验证方法,自助法相比它的计算量减少很多;而且它不必为了估计真实模型而寻遍自变星集的2 肘 个子集为了整理自变量只需计算普通的t 统计量,t 统计量的计算可以用m a t l a b 进行计算当自 变量的个数m 不是很大对例如m = 1 0 ,2 m 和m 差别还是很大的 第三章基于数据惩罚的模型选择 3 1 介绍 考虑多元线性回归模型 k = 卢+ e n ,( 3 1 ) 其中t 为n x p 的矩阵,芦为p x l 的未知回归参数向量,e n 为n 1 随机误差向量( 的分量 相互独立,但分布不必相同) 声的每个分量可以为0 或非0 1 ,2 ,p 的每个子集芦称为子模 氆,显然,多元线性回归有2 9 个可能的子模型如果对于任意fg “风= 0 ,则称为子模型肛为真实 模型我们要解决的问题是找到最小真实模型,其中最小真实模型定义为它所有的真子模型都不是 真实模型 在统计学的论文中提出了许多模型选择准则用来选择多元线性回归中的最小真实模型早期的工 作可以见a k a i k e ( 1 9 7 0 ,1 9 7 3 ,1 9 7 4 ) ,s c h w a r z ( 1 9 7 8 ) ,h a n n a h 和q u i n n ( 1 9 7 9 ) ,a t k i n s o n ( 1 9 8 0 ) ,s h i b a t a ( 1 9 8 4 , 1 9 8 6 ) ,r a oa n dw u ( 1 9 8 9 ) ,s h a o ( 1 9 9 3 ) 等;一些近期的工作如b o z d o g a n ( 1 9 8 8 ) ,z h e n g 和l o h ( 1 9 9 5 ) , 他们提出了一种新的选择多元线性回归中的最小真实模型的方法,与以前基于交叉验证,预测误差 及信息准则( 如a i c ,b i c 和哑c ) 的模型选择准则有些不同 本文是基于r a oa n d w u ( 1 9 8 9 ) 的论文并对其方法作了一些改进;通过去掉对误差项的限制,在 g i c ( g e n e r a li n f o r m a t i o nc r i t e r i o n ) 中提供一个基于数据惩罚的办法,从而提出一个在多元回归预测问 题中估计模型的程序 3 2 一般的模型选择准则 考虑元线性回归模型( 3 1 ) ,定义:x 。= ( x l 。,q 。) = ( x l ,鞴) ,最表示由x 1 。, 生成空间上的正交投影矩阵下面给出得到我们主要结果所需的假设条件 假设1 存在常数0 1 和眈,使得 0 0 ,使得对每个i ,1 i 曼p , n ( 吨) 3 = o 【( 磊) 3 2 l 0 9 1 + 6 ( 。) 】, 。x i n 其中t 赢表示x “= ( 如,磙) 7 的第,个元素 假设3e a = ( e l ,e 。) 的分量相互独立,期望为0 并且满足矩条件t 使得对每个t ,1 t n ( 3 2 ) ( 3 3 ) 0 0 o s 从而 l t m i n f k n b 口,3 荐考虑当k 钿时,由引理3 2 1 ( l 4 ) ,对充分大的n ( 3 7 ) g 9 ) 一g 9 ( ) = ( 岛) c k 昂( n p ) 4 - o ( 1 0 9 l o g n )( 3 8 ) 都以概率为1 成立 由( 3 5 ) 条件:g 1 0 9 l o g n o o 及引理3 2 1 的( l 6 ) 可得 g 9 ( ) 一g 擘) 0 从而 l i r as u p k 钿o ( 3 9 ) 再由( 3 7 ) 及( 3 9 ) 可碍 毛l 一。 同理可证关于模型选择准则( 2 ) 的结论,从而定瑾3 2 1 证毕 下面给出关于模型选择准则( 3 ) 的强相合定理,尽管与模型选择准则( 1 ) 。( 2 ) 的结论相似,但 在证明上有些小差别,现在就单独来证明 定理3 2 2 :假定对于n = l ,2 ,假设1 - 3 均成立,m 硒是最小真实模型如果对于充分大的n , 惩罚函数c 。以概率为1 满足( 3 5 ) 。则模型选择准则( 3 ) 强相合于最小真实模型 证明- 注意到 岛= 嚣写2 聊+ 2 喝h “佛吲篆乏 & t 由引理3 2 1 的( l 4 ) 及( l 5 ) 可得;对于1 j p ,有 并且 其中 第三章基于数据惩罚的模型选择 沪+ o ( 1 ) 5 0 n 0 口 从面 1 警挈k b ( 3 1 3 ) 再考虑当k l o g 妾柏叫瓯 n l o g o + q + o a 。( 1 ) ) 一( 岛一动c kd n 。m i 。r 娟b 口& k k o a 8 ( 3 1 4 ) 3 3 基于数据惩罚的模型选择准则 3 3 基于数据惩罚的模型选择准则 在第二,三部分所选用的模型选择准则中惩罚函数g 。只需满足条件; 鲁一o ,志l o g l o g nn 在许多的论文中有些固定的惩罚函数c ;被建议使用。例如d ;= 2 ( a k a i k e1 9 7 0 ,1 9 7 3 ,1 9 7 4 ) ,= c l o g l o g n ( h a n n a h 和q u i n n1 9 7 9 ) ,其中c 2 是常数关于选择惩罚函数g 的一些评述可以见 b a i ( 1 9 8 9 ) 和z h a o ( 1 9 8 6 ) r a oa n dw u ( 1 9 8 9 ) 首次提出了基于数据的惩罚并应用到线性回归中的模 型选择问题c h e n ( 1 9 9 3 ) 使用基于数据的惩罚在a r 时间序列中进行模型选择在这部分中我们在 对基于数据惩罚的模型选择准则作些讨论 作为例子,我们讨论模型选择准则( 1 ) ,模型选择准则( 2 ) ,( 3 ) 与模型选择准则( 1 ) 的结论类似 对于多元回归模型( 3 1 ) , ( 玑,x ( 1 ) ) ,( 加,x ( “) ) 表示基于实验测量的数据点序列定义,对于给 定的整数q ,1 口p , 矗( q ) = ( x l n ,x ”) ,卢( q ) = ( 历,岛) 如果螈为真实模型,则 y 。= ( g ) 芦( + e n 我们将通过下列的算法给出如何选择基于数据的惩罚函数c i ,然后再证明我们所选的数据的 惩罚函数c ;满足定理3 2 1 和定理3 2 2 的条件并且用m o n t ec a r l o 进行模拟实验来说明在小样本情 况下的效果很好 ( 1 ) 计算卢的相合估计反= ( 声- 。,磊。) ,一般选用卢的最小二乘估计作为良 ( 2 ) 计算磅= s 一,其中岛表示残羞平方和 ( 3 ) 计算白= h x 。磊 ( 4 ) 按如下法则定义良= ( 厨一,k ) :对于f = 1 ,p , 风= 急州凤) 让i f 厩i a i l 。, 其中一为选定的适当阀值 ( 5 ) 构造下歹| l 伪模型;对于h = 1 ,p , u ( ) = 五;( ) 赢( ) + 。 其中忍( 叼为忍前h 个分量组成的向量 ( 3 1 5 ) 1 4 ( 6 ) 计算 其中 第三章基于数据惩罚的模型选择 玩q ,矗) = 品协) 一鼠( 哟,g = 0 ,1 ,p , 如果反= 磊,则昂( h ) = 昂 ( 7 ) 定义 昂( ) = ( u ( h ) ) ( j p q ) u ( ) = 渤 糕) = 嚣 拦) 其中如果选择的集合为空集,则2 为0 令h = ( l + 2 ) 1 2 ( 8 ) 按如下方式定义惩罚函数c 妒, 犁= 竺笔等掣, 其中【6 j 表示b 的整数部分 选择c 妒作为模型的惩罚函数 我们这里选甩的基于数据惩罚的模型选择准则渐进等价于模型选择准贝i j ( 1 ) ,但在样本容量较 小时比模型选择准则( 1 ) 效果好;前者将在下面的定理3 3 1 中说明,后者将在第5 部分通过m o n t e c a r l o 模拟实验进行对比 定理3 3 1 :在定理3 2 1 的假设条件下,如果选择c 驴作为模型的惩罚函敷,则模型选择准则( 1 ) 以概率为1 选择最小真实模型 证明;由定理3 2 1 ,需要证明 由定义可得 础 一u 咿 瓣。“ ( 3 1 6 ) d 。( g , ) = ( u ( ) ) ( r p 口) ( u ( ) ) = ( 矗( ) 磊) + ) 卢) 一x n 磊+ ) ( r 一蜀) ( 墨晟( h ) + 矗( 硒) 卢) 一及- 1 - e 。) ( 3 ,1 7 ) 3 ,4 一般情况下相合模型选择准剐 因为( 幻) 卢( b ) = 五,由定理3 2 1 , 磊= 俩) ,o ,) +
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 14287.7-2025电气火灾监控系统第7部分:电气防火限流式保护器
- 【正版授权】 ISO 54002:2025 EN Quality management systems - Guidance for the application of ISO 9001:2015 in police organizations
- 国家市场监督管理局店铺租房合同范本3篇
- 2025年注册测绘师考试真题汇编模拟试卷及答案解析
- 北京理工大学北理工计算机专业基础考研真题及答案解析
- 2025年二级建造师考试试题一a4版附答案详解
- 五年级生命与安全课件-1
- 建平中学自招真题含解析
- 循证药学考试题及答案
- 投资顾问从业模拟试题及答案
- 【2025年】人防工程测试题及答案
- 北京师范大学本科生毕业论文(设计)开题报告
- 2025年中国沉香行业分析报告
- 专科会计职业生涯规划
- 制药行业质量意识培训
- 艺术幼儿园员工消防安全教育培训记录
- 浙江省A9协作体2025-2026学年高二上学期期中联考英语试卷(含音频)
- 2025贵州毕节织金县公安局面向社会招聘警务辅助人员140人考试笔试备考试题及答案解析
- 农户代耕代种协议书
- 煤油安全使用技术说明书编写标准格式
- 2025广西华盛集团北海裕泰工艺有限责任公司招聘4人(截止至11月15日)笔试历年典型考点题库附带答案详解试卷2套
评论
0/150
提交评论