




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 鲁茁,“oi埠 j叫_一一_一-1-j - l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 东北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留 并向国家有关都门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日 学位论文作者毕业后去向: 工作单位; 通讯地址: 指导教师签名: 期:趁也,互! 勿 日 叁塞二:左 邮编: 07咖,50 8iiiii咖y t l 亡 f 摘要 随着科学技术的发展,在线性回归模型中,涉及到很多变量,如果能使一些系数为零, 也就达到了变量选择的目的,如果能够准确地进行变量选择,对于各个领域的发展,尤其是基 因工程,都是极其重要的2 0 0 8 年z j o h nd a y c 和x j e s s i cj e n g 提出了w e i g l l t c df u s i o n ( w f ) 参数估计方法。同一年,h y o n h oc h u n 和s f i n d f i zk c l e s 提出通过s p a r s cp a r t i a ll e a s ts q u a r e s r c g r c s s i o n ( s p l s ) 参数估计方法本文主要比较变量问相关系数比较大和样本量较小时,这两 种估计方法的好坏。 关键词:w c i g h t e df u s i o ns p a r s ep a r t i a ll e a s ts q u a r e sr e g r e s s i o n 变量选择 a b s t r a c t 、7 i t hs c i e n t i f i ca n dt e c h n o l o g i c a ld e v e l o p m e n t t h e r ei n v o l v e sm a n yv a r i a b l e si nt h el i n e a r r e g r e s s i o nm o d e l i fan m n b e ro ff a c t o r sc a l lb e c o m e0 。i tw o u l dh a v er e a c h c dt h ep u r p o s eo f v a r i a b l es e l e c t i o n h o wt oc o r r e c t l yc a r r yo u tv a r i a b l es e l e c t i o n t oa l lf i e l d s p a r t i c u l a r l yi n g e n e t i ce n g i n e e r i n g i se x t r e m e l yi m p o r t a n t i n2 0 0 8 z j o h nd a v e a n dx j e s s i ej e n gp r e s e n t e d aw e i g h t e df u s i o n t h es a m ey e a r ,h y o n h oc h u na n ds i i n d i i zk e l c sp r o p o s e ds p a r s ep a r t i a l l e a s ts q u a r e sr e g r e s s i o n ( s p l s ) t h i sp a p e ri sm a i n l ya b o u tt h et w ok i n d so fv a r i a b l es e l e c t i o n m e t h o d sw h e nu s e dt oc o m p a r et h ec o r r e l a t i o nc o e f f i c i e n tb e t w e e nv a r i a b l e sl a r g ea n ds m a l l s a m p l es i z e ,a n dt a k e sal o o ka tw h e t h e rt h e s et w om e t h o d si sg o o do rn o t k e y w o r d s :w e i g h t e df u s i o n ;s p a r s ep a r t i a ll e a s ts q u a r e sr e g r e s s i o n ;v a r i a b l es e l e c t i o n s t a t i s t i c s i i 久 、 趣 耳录 中文摘要 i 英文摘要 i i 目录i i i 引言 1 正文 3 1 凰顾w e i g h t e df u s i o n 参数估计方法 3 1 1 回顾l a s s o 参数估计简介 3 1 2 回顾w c i g h t e df u s i o n 参数估计 3 1 3 回顾w e i g h t e df u s i o n 参数估计算法 4 2 回顾s p l s 参数估计 6 2 1 回顾偏最小二乘法 6 2 2 回顾s p l s 参数估计 6 2 3 回顾s p l s 算法 7 3 w f 和s p l s 方法的比较, 9 4 结论1 3 参考文献1 4 致谢 1 5 i i i ,了 ? 东北师范大学硕士学位论文 己l古 - ,l口 在现代统计学中,线性模型广泛应用于生物,医学,农业,工业等各个领域,而子集选择 是其中重要的一个分支。随着科学技术的发展,尤其在基因工程领域,对于多维数据的模型选 择成为现代统计学的一个重要课题 多元线性回归模型 1 j 的一般形式为y = z l p l + 。2 岛4 - z 3 瑰4 - + 昂岛+ e 这里我们只 考虑y 是一维的情形。假设我们有数据( x :纨) ,i = l ,2 ,:a x j = ( 鼢1 ,z ,z 切) 则此线 性模型我们可以表示为y = x 启+ e 其中 天= x l lx 1 2 。x l p x 2 1x 2 2 。x 2 p z 1 x n 2 z n ” 】7 = ( y l ,耽,) r p = ( 侥岛,岛) r 为未知参数, e = ( s 1 ,2 ,气尸为随机误差,且e ( e ) = 0 如果z ,z 2 ,间相关系数较小或彼此独立,这是我们常见的参数估计模型,研究此 类问题的方法很普遍,本文不做讨论。 如果z ,z 2 ,z 妒间相关系数很大且样本量r l 相对于变量个数p 较小时,对于此类问题 有很多方法,基本方法是最小二乘法,得到的p 使残差平方和最小,但它未达到剔除变量的效 果,改进最& - - - 乘法有两种办法:子集选择和岭回归,但子集选择是离散的过程稳定性不好, 岭回归的参数估计是 罗= a r g m i n :l ( 肌一p ,:lz j z f j ) 2s t 霹t f 0 是调整参数,但它并未使某些系数为零,1 9 9 3 年, b r c i m a n 提出了n o n g e r a t i v e g a r r o t , t e 3 1 :,但仍旧依赖最小二乘法的符号和数值,因而当最小二乘法表现的不好时, n o n g e r a t i v eg a r r o t t e 的可信度也不高,之后1 9 9 4 年,r o b e r t 提出了l a s s o ! 圳,它的思想是 声= o r 9 m i 佗:1 ( 玑一;:l 疡) 2 s t o j t t 0 是调整参数,在具体的算法中t 的选取有很多种,交叉核实,广义交叉核实等等 本文主要是比较另外两种参数估计方法,即w e i g h t e df u s i o n 和s p a r s ep a r t i ll e a s t , r e g r e s s i o n 以下我们分别简记为w f 和s p l s 对小样本和变量间相关系数大的线性模型参数估计 崎飞 ,夕 7,72 r l 研粥 瑶 一 东北师范大学硕士学位论文 的比较,在计算机模拟中,我采用几组样本量进行对比,并且会采用几组不同分布的随机数和 不同参数进行模拟,来说明两种方法的不同。 2 ,r 。, 东北师范大学硕士学位论文 1 w e i g h t e df u s i o n 参数估计方法 1 1 l a s s o 参数估计 对于大样本的模型选择的理论已经形成了一套理论,近些年,随着基因工程的发展,涉及 到很多自变量和因变量的个数很大,甚至上亿,但我们的观测数据却很小。即样本量小于自变 量的个数。有的时候一个自变量的数值可能会影响到另一个自变量的变化,即变量之间存在一 定的相关性。因而对于此类模型选择的研究,就显得非常重要。有很多办法,传统的最小二乘 法,子集选择,岭回归,n o n n e g a t i v eg a r r o t t e o r a c l e ,等等1 9 9 4 年矧,r o b e r t 提出l a s s o 声= a t g m i n z i 1 ( y i 一? :】f 乃z 嵇) 2s f l 国l t t 0 即运用一个惩罚,使系数的绝对值和小于常数t ,令霹j = l ,2 ,p 为最小二 乘估计,当t = 蛾3 0 i 时,l a s s o 得到的是最小二乘解,从而当t l 霹l 时,可以达到剔除 变量的作用,令s = f 斋则s 的变化范围是( 0 :1 ) ,可以在这个范围内有规律的取一些数,运 用交叉核实选取最好的s 又因为其是一个连续的过程,比较稳定,从而提高了可信度。在计 算机中l a s s o 的求解我们运用最小角回归( l c a s ta n g e lr e g r e s s i o n ) 心 1 2 w e i g h t e df u s i o n 参数估计 l a s s o 虽然兼顾了子集选择和岭回归的优点,但当变量间存在i 多维共线性,且曼样本 量较小时,其效果不好。尤其是当样本量小于自变量个数时,它选取的自变量的个数最多只能 和样本量的大小相同,可信度不高,2 ( 1 0 5 年,z o n 和h a s t i e ;5 1 提出了适用于当变量之间相关 系数较大时一个新的变量选择的方法: e l a s t i cn e t ( e n ) : 多( e ) = ( 1 + a 2 ) a r g m i n i | 】7 一x j ? f | 2 - t - , k ll i 1 1 1 + a 2 1 1 f l l l 2 即用l a s s o 惩罚和岭回归惩罚进行稀疏变量。并且当变量个数大于样本量时,岭回归惩 罚允许e n 选取多余n 的变量。在很多情况下, e n 方法比l a s s o 好,而且在某些情况下, e n 可以通过应用数据中的额外信息进一步改进。在本文中着重讨论2 0 0 8 年h y o n h oc h u n 和 s i i n d i i zk c l e s 提出的w f 它应用了对变量相关系数加权,反映变量之间线性关系的不同。即 w f 将变量闻的相关性通过相关系数惩罚函数来体现,又通过将人变为x 8 ,将】7 变为】“, 兼顾了样本量小于自变量个数的情况。 w f 是2 0 0 8 年z j o h nd a y c 和x j e s s i ej e n g 所提出的。在这里,我们考虑 = x 矽+ e 的情形其中p = ( f ;,;n ,j ? p ) 丁为未知参数,设e = ( e l :e 2 :一,。) t 为随机误差,且 e ( e ) = 0w f 是形如这样的估计【6 一 p ( 入l ,a 2 ) = a r g m i n 8 y x p i l 2 + a 1 ;:】i 国l 十a 2 j ( 3 ) ( 1 ) 这里入,0 :入2 0 是调整参数,j ( 8 ) 是由相关性控制的惩罚函数。它的具体表达式是 j ( f 1 ) = ;1 f 一 叼 一 u u12 q 1 0 东北师范大学硕士学位论文 2 s p l s 参数估计 2 1 偏最小二乘方法 1 9 6 6 年,w o l ( 1 提出偏最i j 、- - 乘回归( p l s ) 7 ,偏最小二乘回归是建立在主成分回归基 础上的一种多元数据分析方法,它在建立原始自变量x l ,z 2 ,的线性函数的同时,考虑 其相关性,它是基于最, 1 , - - 乘法的,但它只选取与因变量有关的变量,偏爱与因变量有关的部 分,所以成为偏最小二乘法 偏最小二乘回归分析的基本思想是首先在自变量中提取第一个成分正,并在因变量中也 提取第一个变量巩,并要求其相关程度达最大,然后建立因变量与五的回归方程,如果回归 方程已达到满意的精度,则算法终止。否则继续第二对成分的提取,直到能达到满意的精度为 止。 它的具体做法是这样的: ( 1 ) ,将x ,y 标准化,记为x o 1 二 ( 2 ) ,计算u 1 ,为矩阵胃碥】灭。的最大本征值所对应的本征向量 ( 3 ) ,计算o ( 1 小( 1 ) = x o w l ( 4 ) ,计算爿1 = ( f :1 ) t ( 1 ) ) - 1 t :1 ) x o 作为p 的列 计算q ;l = ( t :1 ) t f l ) ) 以t :1 ) y o ,作为q 的列 ( 5 ) ,计算残差,义l = x o t o ) p ( m = 1 0 一t m q j ( 6 ) ,若残差满足精度,则可以停止抽取成分,否则用残差x - ,h 代替弱,】乞,重复以上步 骤,即得 x o = ( 1 ) 爿+ + 只+ 义, ( 1 ) k = t o q :+ + t ,) q ,+ k( 2 ) 通过( 1 ) 将t f l ) 。t ( 2 ) ,o ( ,) 得出 t = 天w ,7 代入( 2 ) 得y = x 口 p = w q 即为估计值 2 2s p l s 参数估计 从上一节可以看出求方向向量是偏最小二乘法的重要环节,1 9 9 8 年。j o n g 提出p l s 2 f 9 思 想,p l s 2 是通过下式求方向向量: u 七= a r g m a x u ( 。丁x y 互y u )s f 。r ( 易一。女一l u 0 1 ) 。= 1 且。丁x x x w i = 0 其中x ,是x 和y 的协方差矩阵,n x 是x 的协方差矩阵,厶是单位矩阵,0 l 是 a j k 一1 = ( 1 ,u 2 ,u k 1 ) 的广义逆 5 东北师范大学硕士学位论文 另一种求方向向量;s i m p l s 9 i ,虽然选取了同p l s 2 一样的目标函数,但它的限制条件 是 丁。= 1 和u 丁e x x u f = 0 也正如此两种方法产生的向量集会有所区别。而s p l s 1 0 】的方向向量的选取同上两种方。 法无论在目标函数还是限制条件都不同,首先我们看一下它的第一个方向向量的求法: m n z 。( u 丁m _ ) s 扎,丁u :1i 。i 入( 2 ) f 这里m = x 丁】7 】玎义即对方向向量类似于l a s s o 加一个l 1 一限制。这样可以做到稀疏 的,但是j o l l i f f c 指出此方法并非充分稀疏,而且也不是凸优化问题,由此h y o n h oc h u n 和 s s n , d 赴z k e l e s 将s p c a 一般化,将( 2 ) 式改为 m i n 。一删丁m u + ( 1 一k ) ( c u ) 丁m ( c u ) + 入l l c l l + 入2 i c 睦( 即在u 的替代向量c 上分别加一个l l 一限制和l 2 一限制,从而具有e n 方法的优点 2 2 s p l s 算法 上一节介绍了第一个方向向量的求法,这一节我将描述 1 ( 1 j 中给出所有的方向的向量的方 法以及参数估计,当然可以通过n i p a l s 或者s i m p l s 将求一个方向向量的算法迭代,但是这 将失去向量的共轭性,也可以通过史密斯正交化使其共轭,但是这样得到的向量不具有克雷洛 夫子序列的性质。而这对于收敛是很重要的。从而得到的结果未必准确。考虑到这些,h c h u n 和s k e l e s 提出了一个算法,记载n i p a l s 或s i m p l s 算法的每一部寻找活跃变量,不断更新 方向向量,设a 是活跃变量的指标集,k 是方向向量的个数,令x 是x 的子矩阵,它的列 指标包含在a ,s p l s 算法可以用n i p a l s 或s i m p l s 来实现下面我们描述一下: 第一步,令口p l s = 0 ,a = ,k = 1 ,如果用n i p a l s ,令】毛= y ,如果用s i m p l s ,令 x 1 = x 第二步,若k k :则 ( 1 ) 若用n i p a l s 令m = x 7 1 l j l j 义通过( 2 ) 0 若用s i m p l s ,令m = x f y 】7 丁天l 通过f 2 ) d 。 ( 2 ) 将a 更新a 为a = i :西0ui :鲈猫0 ( 3 ) 利用k 个方向向量在义- 中求出p l s p s 压 ( 4 ) 将口p l s 更新为( 3 ) 中所求。更新膏+ 1 若用n i p a l s 将k 更新为l j = y x , 9 p l s 若用s i m p l s :将x l a 更新为x 1 a = x a ( i 只( 璎r ) - 1 呀) 。、 其中心= x j x 月“ f u j 霸x a 。a ) _ 1 重复第二步,直到k = k 时为止。 , 在( 2 ) 中有四个调整参数( k ja 1 a 2 k ) 但是在计算机模拟中,通过国= ( i & j - r j m a x l i p | 血i ) 川o i 6 东北师范大学硕士学位论文 7 1 m a x , i p 慨1 ) 叼n ( ( 2 ) ,0 ? 751 用叩替代入,那么,就变成了调整参数为( k ,叩入2 ,k ) 在本 文中我采用【1 0 | 中的令a 2 一其他参数通过交叉核实,因为本文用了多次交叉核实,故下面 我简单介绍一下交叉核实n 折交叉核实:就是把训练集分成n 份,设为义,x 。用第i 份 i = l ,m 做验证,其余扎一l 份做预测,循环1 1 次,最后选择使平均误差最小的参数。本 文我选择十折交叉核实。下面的一节中将会进行计算机模拟,看一下两种参数估计方法的优劣 性。 7 东北啼范大学硕士学位论文 3 模拟和结论 3 1模拟 这部分我主要是针对w e i g h t e df u s i o n 方法和s p l s 两种模型选择方法做模拟,我均设我 的真实模型为】7 = x d + ,为了比较的真实可靠性,我尽量做了多种情况下的比较,此外我 选用小样本数据来比较两种方法在样本量较小,且变量间存在相关性时的好坏,因为我选用小 样本数据,所以大多数模拟我选择的样本量n 和变量个数p 相等使用软件为r 统计软件。 每种检验是做1 0 0 0 次模拟, ( 1 ) 模拟一:p = ( ( o ? o ) ( 5 ? 5 ) ) 样本量7 t = 3 0 x 取多维正态随机数,x 一( 0 :) , 、- 、,_ - - 一,、_ _ 、,_ 一, 1 51 5 其中 = 1 _ p 1 3 0 p 2 1 户2 ,3 0 其中p i j = 0 5 1 卜j i 为第i 个变量和第j 个变量的相关系数,g - 一( 0 ,0 0 1 ) 两种方法的对比结果如下: 方法平均预c = 1 5c = 1 5c = 1 5 c = 1 5c 1 3 , 测误差i = 0i = 1i = 3i 墨7i 5 f 3 3 9 1 0 0 60 0 0 50 20 0 60 5 70 5 5 5 s p l s1 8 6 9 9 7 00 0 0 10 0 0 60 0 2 40 2 5 80 1 3 1 方法 m e a d i a n ( c ) m ,e a d i a n ( i ) r n e a n ( ;? 1 )m e a 钾( 3 1 5 )m e a n ( 岛5 ) m e a n ( 焉o ) ? f1 53 0 0 1 2 5 4 3 30 0 3 6 0 0 0 0 14 ,9 6 2 8 2 9 4 7 9 4 1 2 7 s p l s1 51 00 0 1 4 2 8 5 4 10 2 9 8 0 3 0 24 8 4 6 8 3 74 6 2 6 6 8 7 在本文中,我将真值是零,但估计值非零视为选错,令i 为选错的个数,将真值非零且 估计值也非零视为选对,令c 为选对的个数,m e d i a n ( i ) 为进行1 0 0 0 次模拟得到的中位数 m e d i a n ( c ) 为进行1 0 0 0 次模拟得到的中位数。此模拟中我选用非零系数较大,相关程度不一 样的变量,看他们之间的影响对变量选择的影响程度 ( 2 ) 模拟二:p = ( 0 5 0 5 0 5 0 5 ) :样本量n = 3 0 ,x 取多维正态随机数,x 一( 0 ,) , 、- _ - _ l _ _ _ _ 、,。- - _ - - - - 一 3 0 其中 8 产 疆 - 东北师范大学硕士学位论文 = 1 p 1 3 0 优1 p 2 ,3 0 p 3 0 1 , 0 3 0 。2 1 其中肠= 0 5 卜j l 为第i 个变量和第j 个变量的相关系数, 一( 0 ,0 0 1 ) 方法平均预c = 1 5 c = 1 5c = 1 5c = 1 5c 1 3 测误差i = 0i = 1i = 3i 7 i 5 f 2 3 3 8 7 8 4 0 0 5 0 0 70 1 70 7 30 6 s p l s5 0 4 0 4 6 30 0 0 10 0 0 90 0 2 30 6 4 30 2 3 7 方法 m e a d i a n ( c ) m e a d i a 7 ( 1 ) m e a n ( 3 1 )m e a t ( 岛1t r l e a t ( 岛9 )m e r z 竹( 傀ij ) f 1 5 4 0 1 3 5 9 2 6 54 5 2 3 6 8 90 0 1 5 5 6 2 2 94 7 9 4 1 2 7 s p l s1 570 5 4 9 8 5 5 74 1 5 2 6 6 10 0 3 4 2 5 0 4 94 1 8 3 5 0 8 此模拟中我也选用非零系数较大,相关程度不一样的变量,看他们之间的影响对变量选择 的影响程度。它和模拟一的不同就在于非零系数和零系数交错,他们之间的相互作用较大从 表格可以看出来,相对于模拟一,交错时,非零的系数估计值会变得大一点 ( 3 ) 模拟三;? = ( ( o ,0 ) j ( 5 5 ) ) 其他的跟模拟一相同只是胁,= o 2 5 i j :p 衍= 、_ l 、,。_ - ,、_ - - _ 。、,l _ - , 。 1 51 5 1 。i = j 其中 两种方法的对比结果如下: 方法平均预c = 1 5 c = 1 5c = 1 5c = 1 5c 1 3 测误差j = 0j = 1 ,= 3 i 7 5 u f1 9 4 1 7 2 90 0 10 0 40 1 80 g 2o 5 l s p l s2 9 5 3 0 6 90 o o0 0 0 10 0 0 30 0 9 70 0 4 4 方法m e a d i a t ? ( c ) m e a d i a n ( i ) m e a n ( 3 1 ) m e a n ( 3 1 5 ) m e a n ( 函5 ) m e a n ( ;j 3 0 ) ? f1 550 1 6 2 5 5 5 3 6 20 1 7 9 6 7 3 74 6 5 0 8 9 44 6 4 7 5 2 3 s p l s1 530 3 8 3 1 8 3 60 3 3 8 3 3 9 84 5 8 3 5 7 54 4 7 1 9 7 7 此模拟为了比较非零系数和零系数相关性一样时对剔除变量的影响。 ( 4 ) 模拟四:声= ( ( ( ) :0 ) ( 5 ,5 ) ) 样本量7 1 = 3 0 ,x 取多维正态随机数,x 一( ,) 、_ _ - l o u ,l _ _ _ ,、- l _ ,_ _ _ _ _ - , 1 51 5 9 东北师范大学硕士学位论文 = 1 p 1 3 ( ) p 2 ,1 p 2 ,3 ( p 3 0 1p 3 0 2 1 其中p 嵇= 0 5 i 卜j l 为第i 个变量和第j 个变量的相关系数,一( 0 ,o 1 ) ,p = 1 两种方法的对比结果如下: 方法 平均预 c = 1 5c 号1 5e = 1 5c = 1 5c 1 3 测误差 j = 0i = 1i = 3 i 7j 5 w f5 2 6 6 4 1 70 0 80 1 30 0 60 50 4 4 s p l s4 5 2 4 4 1 3o 0 0 1 0 0 1 70 0 3 50 3 6 2 0 2 1 2 方法 m e a d i a n ( c ) m c a d i a n ( i ) m e a n ( 3 1 )r n e a n ( t q l 5 ) m e a n ( 9 1 6 ) m e a n ( ,( ) ) 掰一f1 58 50 0 3 9 1 7 6 1 90 0 5 2 0 8 4 8 74 7 8 8 9 5 14 9 2 7 5 2 7 s p l s1 590 0 4 1 4 3 8 5 40 1 6 5 5 3 4 54 4 7 7 8 5 34 5 8 7 2 9 4 此模拟跟模拟一相同,跟前面不同的是误差项较大。可以看出误差较大时,剔除变量的效 果会变得不好。 ( 5 ) 模拟五:= ( ( 0 5 ( ) 5 ) ( 一5 :一5 ) ) 样本量佗= 3 0 x 取多维正态随机数, 、_ - - _ l _ 一、- - 、一一_ - _ _ _ - 一 1 51 5 灭一( 0 ,) 。其中 = l p 1 3 0 p 2 ,1p 2 ,3 0 p 3 0 1p 3 0 ,2 1 其中砌= 0 3 ,i 歹,p i j = 1 ,i = j 为第i 个变量和第j 个变量的相关系数,一( 0 ,o 0 1 ) 两种方法的对比结果如下: 方法平均预 c = 1 5c = 1 5 c = 1 5c = 1 5c 1 3 测误差i = 0i = 1i = 3i 7i 5 ! f1 3 ( 3 9 2 20 0 50 0 2 o 0 90 5 1 0 3 4 s p l s3 0 5 5 0 4 10 ,0 0 10 1 6 90 0 9 20 9 0 4 0 8 6 6 方法m e a d i a n ( c ) m e a d i a n ( ,) m e a n ( 3 1 ) m e a n ( 3 1 5 )m e a n ( 3 1 6 ) m f f a n , ( 昆o ) w f1 570 1 4 4 2 6 ( 20 0 8 3 9 2 6 0 6 4 5 3 4 9 4 3 4 6 6 9 0 6 s p l s1 520 0 6 7 0 2 6 5 40 0 7 8 0 6 9 9 8 4 5 0 8 0 7 84 5 2 0 6 4 7 其中c 是真值是5 估计值非0 的个数,i 是真值是0 5 估计值是0 的个数这个模拟是 1 0 , f i 1 罩 东北师范大学硕士学位论文 为了比较当非零系数有正有负,并且有一个方向很大,另一个很小时,它们会不会被错误剔除 ( 6 ) 模拟六:声= ( ( o ,o ) ? f 2 、2 ) ) 样本量竹= 2 0 ,x 取多维正态随机数,x 一( 0 ,) , 、_ - - - 、_ _ _ - _ - ,、- _ - 、,_ - _ - , 1 51 5 其中 1 p 1 3 0 晚1 p 2 3 0 p a o 。1p 3 0 2 1 其中p i j = 0 5 1 3 - t 为第i 个变量和第j 个变量的相关系数,一( 0 ,0 0 1 ) 两种方法的对比结果如下: 方法平均预 c = 1 5c = 1 5c = 1 5 c = 1 5c 芝1 3 测误差 ,= 0j r = i= 3js7i55 f8 3 0 2 7 5 50 0 10 0 1o 0 10 2 40 1 5 s p l sl2 5 9 6 9 6 0 0 0 10 0 0 0 40 0 8 20 0 3 4 方法 r n c a d i a n ( c ) m e a d i a n ( i ) m ,c a t ,( 1 )m e a n ( 3 1 5 ) r n e a n ( d 1 6 ) t r , c a ( 魄o ) f1 51 00 ( 1 3 8 4 9 8 70 1 2 2 5 3 2 ( 1 5 9 2 3 4 01 7 3 2 8 8 7 s p l s1 51 10 0 0 1 8 1 0 4 3 10 2 5 4 1 2 8 41 4 2 8 8 2 21 5 2 3 5 1 5 这个模拟和模拟一一样,只是非零系数较模拟一小,为了比较当非零系数较小,且与无关 变量相关性程度大时,对变量剔除的影响。 ( 7 ) 模拟七:口= ( 2 0 ,- 2 ,5 ,0 ,570 0 ,0 ,0 ) 样本量他= 1 0 x 取多维正态随机数,x 一( 0 :) , 其中 = 1 p l ,1 0 p 2 1 舰,1 0 p l o 1p l o 。2 1 其中= 办t ,p 1 2 = p 1 3 = p 1 4 = p 2 3 = 化4 = 阻= 0 7 5 其它p i j = 0 为第i 个变量和第j 个变量的相关系数,一( 0 :o 0 1 ) 两种方法的对比结果如下: 东北师范大学硕士学位论文 方法 平均预c = 4c = 4c = 4c = 4c 4 测误差i = 01 = 1i = 2,= 3,s4 7 f11 2 3 9 1 0 0 0 50 0 20 0 3 0 0 20 6 1 s p l s7 6 9 3 9 2 80 0 0 10 0 3 30 0 5 60 0 5 20 4 4 3 方法 m e a d i a n ( c )m e a d i a n ( i )m c a ( 岛)m 棚他( 岛)m e a ,7 ( 岛) m e a n ( 阮) w f 31 1 1 4 1 8 8 6 0 2 2 3 4 9 3 93 5 4 1 6 8 40 0 6 4 8 5 4 7 6 s p l s41 1 2 9 2 6 6 5 0 4 9 7 6 8 3 24 2 3 8 2 6 80 0 1 0 5 6 5 2 4 这个模拟是为了比较当系数有正有负,各变量相关程度一样,且较大时,对于剔除变量的 影响。 ( 8 ) 模拟八:p = ( 2 ,0 ,- 2 ,5 ,0 ,5 ,0 ,0 ,0 ,0 ) 样本量佗= 1 0 ,x 取多维正态随机数,x 一( 1 ,) , 其中 = p l o 1p l o 2 l 其中p i j = o 5 ,i j p i j = 1 为第i 个变量和第j 个变量的相关系数,e 一( o ,0 0 1 ) 两种方法的对比结果如下: 方法平均预c = 4c = 4c = 4c = 4c 4 测误差i = 0 i = 1 j = 2,= 3 is4 、f 1 2 4 8 5 6 40 0 6 o 1 50 10 0 80 g s p l s2 2 7 8 8 8 90 0 0 10 0 7 4 0 0 6 80 0 8 20 6 6 2 方法m e a d i a n ( c ) m e a d i a n ( i ) m e a n ( 3 1 ) m e a n ( 岛) l y t ( :a n ( 玩) m p o n ( 风) u f310 7 6 7 7 0 4 80 0 3 3 5 2 2 7 93 2 6 2 4 2 20 0 9 0 0 7 7 6 s p l s431 1 3 7 1 5 40 0 1 5 2 6 8 34 1 4 8 5 3 7- 0 0 0 4 0 4 3 6 8 9 这个模拟和上一个一样只是相关系数较模拟七小一点。可以看出当相关系数较小时,对于剔 除变量效果更好 ( 9 ) 模拟九:p = ( ( o o ) ( 5 ,5 ) ) 样本量n = 1 0 0 0 ,x 取多维正态随机数,x 一( 0 ) 、。,_ - ,、。、,_ _ - , 1 5 1 5 其中 1 2 , 可 、 i i i l 东:l 匕u i l i 范大学硕士学位论文 = 1 p 1 3 0 p 2 1 伪,3 0 p 3 0 1p 3 0 2 1 其中p i j = 0 5 i 扣j l 为第i 个变量和第j 个变量的相关系数,一( 0 ,0 0 1 ) 两种方法的对比结果如下: 方法平均预c = 1 5 c = 1 5 c = 1 5c = 1 5 ,c 1 3 , 测误差j = 0i = 1j = 3i 7 i15 ? f0 3 7 1 0 3 50 0 0 0 40 0 0 20 0 0 10 。 3 2 7 ( j 2 5 4 s p l s1 5 8 8 7 90 ,0 0 0 20 0 0 0 70 0 0 3 20 0 1 9 80 0 9 8 为了看大样本的情况,我做了这个模拟,它和模拟一一样,只是样本量是1 0 0 0 可以看 出,当样本量较大时,效果更好。 3 2结论 下面我通过我做的模拟对两种方法做一个总体评价,当样本量较小,变量之间存在相关 性时,w f 在模型选择时误差比s p l s 小,两者几乎都可以将作用变量选出来,且w f 剔 除变量的效果更好,两者的参数估计也很好,从模拟中可以看出来,真值是0 时,估计值是 0 0 1 左右甚至o 0 0 1 误差也很小,表中都列举了几列真值是( ) 时的估计值,对于非零值的 估计我也列了几组,从表中可以看出来,两者在参数估计方面都比较准确。另一方面,我们 做了模拟五,是为了检验当真值接近0 时,且与真值大的系数相反,且存在相关性时,被剔 除的风险。从模拟中可以看出来是s p l s 做的更好。为了比较样本量小于变量个数时,两种 方法的表现,我做了模拟六,无论在误差还是系数估计上都与相等时区别不大,两种方法在 我所设的情形下对参数估计都比较准确,但在剔除变量时,w f 做得更好,尤其是变量间相 关程度接近时,尤为明显,而s p l s 在变量接近0 ,但非0 时,可以起到保护作用变量的效果。 1 3 参考文献 【1 】王松桂史建红尹素菊吴密霞科学出版社,2 0 0 3 1 2 _ 【2 】高慧璇应用多元统计北京大学出版社, 2 0 0 3 7 【3 】b r e i m a n 工b e t t e rs u b s e ts e l e c t i 。l ll l s i n gt h en 。n - 1 1 e g a r a t i v cg a r 。t t e t e e h n i c a lr e p 。r t i u n i v e r s i t yo fc a l i f o r n i 。b c a k e l c y 1 9 9 3 【4 】r o b e r t ,t i b s h i r a n i r e g r e s s i o ns h r i n k a g ea n ds e l e c t i o nv i al a s s o j r s t a t i s t s o c b v 0 1 5 【8 , n 5 。 p p 2 6 且7 - 2 ,8 8 1 9 9 ,6 _ t z o u h a s t i et r c g u l a i z a t i o na n dv a r i a b l es e l e c t i o nv i at h ee l a s t i cn e trs t a t i s t 【5l :h , j 【6lz j o h nd a y e x j e s s i ej e n g s h i n k a g ea n dm o d e ls e l e c t i o nw i t hc o r r e l a t e dv a r i a b l e sv i a w e i g h t e df u s i o n e l s e x d e rb v 2 0 0 8 【7 】、 o l d h e s t i m a t i o no fp r i n c i p a lc o m p o n e n t sa n dr e l a t e dm o d e l sb yi t e r a t i v el e a s t s q u a r e s n e wy o r k :a c d e m i cp r e s s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AutoCAD工程制图实教程 (2024版)课件 模块二 绘制单面图形
- 幽门螺旋杆菌课件
- 巡视巡察问题整改课件
- 输电线路电塔课件
- 尹文心脏性猝死课件
- 小鸭子得救啦课件
- 地区教育培训机构代理合作协议范本
- 环保产业工伤赔偿协议书样本
- 房产抵押担保与虚拟现实产业合作合同
- 资产证券化担保合同模板:金融创新与风险防控
- 电梯安全总监培训记录课件
- 2025四川省水电投资经营集团有限公司所属电力公司员工招聘6人备考模拟试题及答案解析
- 食品执行标准对照新版表
- 大班科学《神奇的洞洞》课件
- 第二次全国陆生野生动物资源调查技术规程
- 控制计划CP模板
- 最新苏教牛津译林版英语五年级上册Unit 4《Hobbies》Grammar time 公开课课件
- 路面压浆施工方案
- 第8课时 主题阅读《雨的四季》-2022-2023学年七年级语文上册(部编版)
- Linux基础入门培训
- 现场技术服务报告模版
评论
0/150
提交评论