




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 一 , , r i y 1 f l l l lr l l r f l l r l l l l r r f 8 0 5 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论支作者签名:窭茸墨 日期: 学位论文使用授权书 。 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 黧袤,錾錾趋覃证工作单位:盎都盘速一覃诳 通讯地址: 电话: 邮编: i i ii iiiif 7 8 8 - l f 缺失 并比 a b s t r a c t w eh a v ek n o w nt h a tt h en o n p a r a m e t r i ca d d i t i v em o d e li sa ni m p o r t a n tm o d e li ns t a t i s t i c s , t h i sp a p e rm a i n l yd e a lw i t ht h en o n p a r a m e t r i ca d d i t i v em o d e l sw i t hm i s s i n gd a t a ,a n d c o m p a r et w o m e t h o d s ,e s t i m a t i n gt h em i s s i n gd a t ao rd e l e t i n gt h em i s s i n gd a t at of i tt h er e a lm o d e l k e y w o r d s :n o n p a r a m e t r i ca d d i t i v em o d e l s ;m o d e ls e l e c t i o n ;m i s s i n gd a t a ;l a r s ; i i t 目录 中文摘要 i 英文摘要i i 目录i i i 引言 1 正文 3 1 回顾模型 3 姐1 回顾模型选择方法 3 1 2 回顾非参可加模型 7 1 3 缺失数据 9 2 对含缺失数据的非参可加模型成分选取1 1 3 结论1 6 参考文献1 7 致谢1 8 i i i r 东北师范大学硕士学位论文 己i古 7i口 我们知道统计问题离不开数据,统计是通过对数据分析然后提炼出模型进而拟合模型,最 后达到预测并指导实践的目的,但是现实生活中所记录的数据经常是缺失的或是错误记录的, 这就影响后续分析,对于缺失数据的研究统计中已有大量结论,本文涉及到的是非参可加模型 ( h a s t i e ,t i b s h i r a n i ,1 9 9 0 ) 中带有缺失数据的情形。 非参可加模型是由线性回归推广模型推广而来,对于线性回归由于其研究起来比较简单, 实际应用中易于操作,因而运用非常多,这方面的研究也比较成熟,所有线性回归要锯决的问题 也是非参可加模型要解决的问题,我们知道对于线性回归模型,最重要的是估计出各个变元的 系数,并力求使模型的残差平方和或预测误差等最小,最经典的就是高斯提如的最小二乘法,这 个方法想法自然,实际操作中只需计算机一个命令就可以得到结果因而受到研究者尤其是非统 计专业研究者的欢迎,但是当变量之间的相关性很大时,最小二乘方法就会使结果变得不稳定即 使估计出来系数也不让人信服,解决这个问题的一个主要方法是岭回归( h o e r l :k e n n a r d ,1 9 7 0 ) , 岭回归的思想是在最小二乘法的基础上加入对系数估计值模长的惩罚,使得估计的系数方差 减小,估计值自然会更稳定一些,这样做虽然牺牲了无偏性,但是效果要比最小二乘法好。 另外一个重要问题就是变量选择的问题,我们建立统计模型时会给每个变量一个权值或 者说系数,但是可能真实模型中这些变量并非全部存在,也就是有些变量是不显著的,对响应 值没有影响,而无论是最小二乘方法还是岭回归方法都不能判断出哪个变元是重要或非重要 的,对于这个变量选取的问题解决方法有前项选择法,后项选择法以及逐步回归法等,这几种 方法的思想都很直观,是用某种准则判断某个变元该不该进入模型或退出模型,这样一步一 步选择最后得到最优模型,但是这些方法计算量大,而且当数据有了微小改变时模拟结果往 往相差甚远,因为这些方法可以看做是离散型方法,结果不稳定。连续型方法有n o n n e g a t i v e g a r r o t e ( b r e i m a a ,1 9 9 5 ) ,这种方法实际上也是以最小二乘为依托,对每个变元加入权值,若该变 元的最小二乘解很大说明该变元是显著的,该方法便更容易使其保留在模型之中,否则就会 将其估计的系数缩小甚至为0 目前用的最多的方法是l a s s o ( t i b s h i r a n i 1 9 9 6 ) l a s s o 方法对于 最l j 、- - 乘的依赖没有n o n n e g a t i v eg a r r o t c 那么大,而且对于不显著变量能够给出精确的0 系 数,l a s s o 方法也是通过对变元加入惩罚项得到最优解,这个惩罚项就是绝对值和惩罚,优点 可参考【3 】,本文要处理的非参可加模型自然也涉及到成分选取,所用的方法即是l a s s o 解的求 法l a r s ( e f r o n h a s t i e ,j o h n s t o n e ,t i b s h i r a n i 2 0 0 4 ) 算法 东北师范大学硕士学位论文 是含有缺失数据的非参可加模型中的变量选择,采用的是f 1 0 中提出的方 失数据进行估计,然后再拟合模型进一步选择变量。 2 东北师范大学硕士学位论文 5 1 回顾模型选择 1 1 回顾模型选择方法 通过对数据分析拟合模型进而进行预测是统计过程的常见步骤,如何建立简单准确稳定性 又好的模型一直是统计学家关注的问题。假定已知数据为,预测变量x = ( x 1 ,x 2 :,x 。) j 其 中x i = f x , 17 x i o ,置p ) ,i = 17 2 ,n 。y = ( y 1 j y 2 ,y n ) 是响应变量,建立l 与x 之间的 关系的过程就是建模过程。最简单的模型自然是线性模型y = x 廖+ ,其中为随机干扰项, 通过使残差平方和达到最小,即:m i n ( y x 3 ) 7 ( y x ) ,所求得的解为口= f x 7 x ) _ x 7 y 。 最d 、- - 乘估计的想法很自然,残差平方和度量了拟合值与真实值的差,若模型接近真实模 型则残差平方和自然会小。但我们发现并不是残差越小越好,我们可以计算出口2 ( ) 会随着模 型的共线性增大而增大也就是系数估计值分散不稳定,可能模拟1 0 0 次中可以得到完全正确 的模型只有少数几次,这样的结果自然让让实际工作者很不放心了,考虑极端的情况,如果预 测变量中既有x l :又有2 z ,或者一个变元有两种单位,操作者将两种单位的同一变元一起纳 入到模型中,我们根本得不到最 、- - 乘的解,因为得不到唯一的逆矩阵,这种情况必须删除其 中一个变元才能做接下来的模拟,而且这样删除变量,模型并来损失什么信息,当然这种精确 的共线情况是极少发生的,但是如果有变元近似有这种关系,我们也认为模型是共线的,这时 最小二乘就失去估计作用了另外即使模型中确实包含全部变量也就是模型比较大时,拟合时 剔除一部分自变量也可以使剩下的变量系数方差减小,这样做显然减少了模型的准确度,但是 估计的精度却可以提高尤其在预测变量相关性强时就更加倾向于使用有偏估计。其中岭回归 ( h o c r l 。k c n n a r d 1 9 7 0 ) 是解决共线性模型的主要的也是比较常用的方法,方法是在最j 、- - 乘基础 上加入一个惩罚项,具体为:m i n ( ( y x 3 ) ,( ( 】7 一天p ) ) + 入p 7 国 因为当预测变量共线性很大时,可以证明最小= 乘法所估计的系数模长会很大,加入 对它的惩罚就会改善这种情况,岭回归的解为:声= ( x 7 x + a ,) - 1 x 7 y 。 其中的a 称为岭系数,当a = 0 时得到的就是最小二乘解,从这个角度看最d 、- - - 乘估计其 实是岭估计的一个特例,当a 越大时岭估计越远离最小二乘估计,估计的偏也就越大,也更能 缓解自变量的共线性,这里a 的选择可以由分析者设定,a 越大,估计的偏差越大同时方差 会越小因此岭系数的选择要兼顾偏差与方差两方面,也可以根据已知数据估计岭系数,对于这 种方法这方面的研究成果有很多,但是到目前为止还没有一个统一公认的好方法。 通过最小二乘和岭回归的解我们看到它们对每个系数的估计都是不为0 的,这与某些真实 模型相矛盾,通常对响应变量可以做出解释的预测变量是未知的,研究人员为了准确将尽可能 多的预测变量放入模型中,而真正起作用的很可能不是全部预测变量,这就要求我们挑出解释 度大的预测变量,剔除掉解释性小的,而且当模型中变量很多时有时会出现过度拟台的问题。 3 东北师范大学硕士学位论文 产生共线性的原因有很多,可能数据本身就有线性或近似线性的关系,比如研究一个学生 的学习能力,如果模型中有数学成绩和物理成绩,我们知道这两个都属于需要理科思维的学 科,如果其中一科成绩高那么另一科成绩也应该不低,这样两个自变量之间本身就有一定的线 性关系,如果模型维数很大这样的关系甚至很难分析出来。另一种原因是采集数据时由于实验 提前结束或经费紧张往往得不到足够案例,这样本来没有线性关系的两组数据也可能貌似会 有线性关系,即使仍可以继续收集数据以打破这种共线性,但当自变量维数较高时要确定什么 样的数据才可以破坏掉共线性也是很困难的,如果故意收集些这样的数据又会引入很多异常 值,问题又会复杂化,因此共线性使得我们做实际问题时不止要考虑拟合还要考虑变量选择。 模型选择初等的方法有全子集法,前向选择法,后项选择法,逐步回归法等,全子集法是 指若预测变量共有p 个,所有由预测变量形成的子集数就有2 p 个,对这2 ,个子集分别进行线 性回归,残差平方和最小的那个就是最优模型。 金子集法的好处是一定能够找到最优方程,因为子集数是有限的,但是当p 稍微大一些计 算量就会以指数形式上升,有时实际操作中几乎是不可能的,而逐步回归法可以在有限步骤之 内完成运算,具体做法是,先将模型中变量系数全部镫为0 :接着选择变量使其与响应变量 做拟合所得的残差平方和最小,或者是某种准则如a i c ,b i c ,g 统计量等等达到最优,该 变量进入模型,再考虑剩下变量中与新模型的残差平方和最小的变元进入模型,如果由于新变 元的进入使得模型中本来显著的变量变得不显著了再考虑将它剔除,这样循环下去预测变量不 断进入或退出模型,直到根据某种准则得到最优模型,也就达到了选择变量的目的。 这种方法的计算量也较大,因为每做一次进出变量就要计算一次残差平方和或者各种准 则的数值,而且这种方法的结果并不十分稳定,所谓稳定就是指当数据有微小变化时,模型的 选择并不应该有太大变化,但是实际例子显示上述这些方法达不到这个要求,原因在于这种方 法是逐步的,可以认为每一步都是利用某种限制条件选择变元,也就是这种方法是离散化的选 择,模型中没有连续型因子,因此对某些变元要么就留下它,要么就踢出它,没有二者的均衡 考虑,针对这些缺点现在常用的是连续型方法,下面有述 此外共线性并不是进行变量选择的唯一原因,在许多数据集较大的时候,比如预测变量的 个数达到上千上万甚至更多,我们用这么多的变量研究响应值,一定可以得到比较精确的拟 合,但是这样的模型菲常复杂,解释起来相当麻烦,有可能看不出哪个预测变量起主要作用, 也就达不到预测或解释原因的目的,相反我们如果用它的一个子模型去拟合,也就是模型中包 含较少的变元,虽然牺牲了一些精确度,但是在分析数据时研究者就可以分清主次,将有用的 变元找到,也简化了分析结果选择模型时分析者对所分析的问题是否有一定程度的了解也是 很关键的。 4 东北师范大学硕士学位论文 例如分析到底是何种因素导致酸雨的产生,研究人员把可能导致酸雨的各类天气原因,环 境地理原因,人为原因加入到模型中去,如果研究者对这方面的知识有所了解,他可以将预测 变量进行分类,删减,将某些变元的单位适当调整,将起同一作用的因素整合在一起研究,对 不可能起作用的因素直接删除,也可以方便后续分析。 l o ob r c i m a n ( 1 9 9 5 ) 提出了n o n n e g a t i v eg a r r o t 方法,令口为最小二乘估计,求c 使得: r a i ne ( 一c k 鼠z h ) 2 :其中c k 兰= 0 ,c k s , 则西( s 1 = e k e ( k ) 就是n o n n e g a t i v cg a r r o t 估计谚,我们可以将看做加权值, c k 值越 大,说明预测变量z 岛的短著性越大,c 膏小说明z 女对响应变量的解释也很小,e k 为0 时说明 x 量已被踢出模型,n o n n e g a t i v eg a r r o t 使得模型中的一部分系数被压缩变小,另一部分系数变 为o :引,我们看到n o n n c g a t i v eg a r r o t 也是用限制性的条件将最小二乘法做了调整,而且对每 个预测变量捂。的系数调整为加权的厣,如果最小二乘法得到的系数大,说明该预测变量对模型 很重要,反之说明该预测变量并不显著,对于显著的变量,n o n n e g a t i v eg a r r o t 会更容易将它 留在模型中,不显著的变量权值小也就排除在外,从而达到了模型选择的目的,对于限制性条 件中s 的选择是用使得预测误差达到最小来选取的,用预测变量而不用残差平方和的原因在 于,预测变量要求有两组数据,一组我们称为是训练集,另一组我们称为检测集,训练集用来1 模拟模型,检测集用来验证模型的好坏,由于是新数据所以检测结果更值得信服,而残差平方 和用的是同一组数据,既用来预测又用来检测,两者之间还是会有相关作用而影响结果。由于 n o n n e g a t i v cg a r r o t 所选权值都为正值或0 ,这种方法差生的估计值并不会改变最小二乘解的 符号,也就是如果最小二乘法符号估计错误会使n o n n e g a t i v eg a r r o t e 解产生错误。正如上文所 说过的最, j , - - 乘法的弊端,当数据的共线性较大时结果并非可靠,也就导致n o n n e g a t i v cg a r r o t 的解也不会太好,但是对于一定范围内的共线性,这种方法还是比较有效的。 。 r o b e r tt i b s h i r a n i ( 1 9 9 6 ) 提出了新的变量选择的方法l a s s o ,定义为: r a i n ( y i e3 j 鼢j ) 2 ,使得el 岛;曼t i = l 3 - - - - - 1 其中x ,1 7 均为标准化的随机变量,l a s s o 的想法来源于n o n n e g a t i v cg a r r o t e ,也是加入限 制性条件求系数,这个限制性条件是绝对值和小于某个常数,这个小小的改变在一定程度上弥 补了n o n n e g a t i v eg a r r o t e 估计的不足,n o n n e g a t i v eg a r r o t e 估计过分依赖于最d , - - - 乘估计,既 依赖其大小又依赖其符号,当最小二乘估计由于共线性而效度低时,n o n n e g a t i v cg a r r o t 估计 也会随之不稳定,不准确,对于二维的情况可以从图形上看出l a s s o 是怎样使非显著变元的系 数变为0 的,而且l a s s o 没有明确的依赖于最d , - - 乘估计,令霹表示最小二乘解,观察l a s s o 的限制条件,当t2 l 御l 时,限制条件是没用的,得到的l a s s o 估计就是最小二乘估计,因此 在选择t 值时应令其小于e 旧:而且当t 逐渐缩小时,就会使一部分较小系数趋于0 或为0 5 东北师范大学硕士学位论文 于是便同时达到了变量选择和估计参数的目的,这里限制性条件中的t 的选择是个很重要的问 题,可以用交叉核实的方法选择使预测误差达到最小的f 值。 l a s s o 的求解过程是2 0 0 4 年b r a d l c y e f r o n ,t r c v o r h a s t i e ,i a i nj o h n s t o n e 和r o b e r tt i b s h i r a n i 给出的l e a s t , a n g l e r e g r e s s i o n ( l a r s ) ,最小角回归,最小角回归是逐步回归算法的变异,若预测变 量个数为仇,则只需m 步就可给出全部系数路径,l a r s 算法( e f f o r t :h a s t i c j j o h n s t o n e , t i b s h i r a n i ,2 0 0 4 ) 的步骤是:从系数全部置0 开始,计算与响应变量相关性最大的预测变量,设为z j l ,在这个 变量的方向选取最大步长使余下的预测变量中存在一个q 2 ,使得z ,。与当前残差具有相同的 的相关性,依此类推选择其他变量,所以每步都会有一个预测变量进入到模型中经过k 步后 模型中有且仅有克个非零系数1 3 ,用这个方法可以得到所有的l a s s o 路径,给出一定标准后 可以得到最优的一个。 l a r s 方法应用广泛的另一个重要原因是计算量也比前面方法小,我们知道上述方法不论使 用哪种准则选择模型都会对不同的子模型加以比较得到最优,都需要系数和准则值,大量的计 算加上繁多步骤累积起来的误差往往会使结果有偏颇,而l a r s 方法求解过程不超过p 步,在时 间胜于一切的现代自然大受欢迎。对t 值的选择用的是交叉核实求最小预测方差的方法,假设 】7 = 7 7 ) + ,其中e ( ) = o ,m r ( s ) = 盯2 ,而伍) 的均方预测误差定义为:p e = e 一疗( x ) ) 2 = m e + 盯2 我们用5 折交叉核实去估计预测误差,将数据集x 按照样本量平均分成五份,分别记为 x h 拖,虬,子训练集为x x v ,。= 1 2 ,5 ,对于每个子训练集x 一五,做l a s s o 回归,记 p e ,:为相应预测误差,总预测误差即为:府= 内。l a s s o 参数t 可以转化为5 = t 钾 产生最小户e 的即是要选择的惩罚值。 用交叉核实方法的好处在于更充分的利用了数据中包含的信息,选择一部分数据用来估 计模型,另一部分用于检测,刚好符合预测误差的定义,要进行5 折是消除偶然性误差之用, 5 次测量取平均值,使得结果更加可靠。 6 东北师范大学硕士学位论文 1 2 回顾非参可加模型 非参数可加模型是一类很重要的统计模型( h a s t i e ,t i b s h i r a n i ,1 9 9 0 ) ,它其实是线性回归的推 广,将y 与x 之间的线性关系推广为函数关系,这样就大大降低了假设的严格性,同时也使 得模型更接近真实因为并不是所有问题都可以通过线性模型解决的,引入函数关系也会使最后 的结果更易于解释,令( k ,x i ) ,i = 1 2 ,扎为独立随机变量来自分布( k x ) ,y 为响应变量, x = ( x l ,x 2 ,) 是p 维预测变量,在本文中假设其来自正态分布,非参数可加模型可以 写为:y = l ( x q ) + 岛 五f 是五的第j 个元素, 是未知的光滑函数,e ( l ) = 0 ,岛是观察不到的随机误差,其 均值为0 方差为矿2 要想拟合模型自然要先将光滑函数元拟合出来可以用线性光滑的方法, 包括核估计,三次样条等,常用的方法是核回归因为它比较简便易行,核回归首先要选择核函 数,一般是选择一个非负的偶函数,形状多为类似于正态分布的图像,在原点处取得函数的最 大值,在两侧快速趋于0 ,比如就可以选正态分布的密度函数或双三次函数等,选择好核函数 后,对于每个观测值,赋给响应变量一个权值,权值用核函数的某一点的函数值,就可以把未知 函数,估计出来了。三次样条由于自身的优良性质用的也比较多,1 9 9 0 年h a s t i e 和t i b s h i r a n i 给出在一个具有l :范数的h i l b e r t 空间,解决线性平滑方法拟合函数的问题,相当于解决一个 ( 主 线性方程 p 1 = 其中只为投影阵1 5 。 计算时要先产生投影阵只再通过解线性方程组得到模型中各个光滑函数在给定自变量时 的函数值,也就得到了函数的拟合曲线,每个变元都是用三次函数逼近得到,实际操作中可以 看到三次样条拟合曲线效果是比较好的。 本文选择的是三次样条方法,因为根据【5 三次样条函数刚好是下式的解: ”l i 札【:l ( y z 一:l 办( z t j ) ) 2 t 2 d t 其中7 f 是第。j 个变量的惩罚,群( ) 是,f 的二阶导数。我们可以将这个式子看做带限制 条件的最优化闻题,我们的目标还是要求使得真实响应值与拟合函数值的残差平方和最小,但 是限制性条件是二阶导数平方的积分,这样的选择是因为它可以使,投影的长度达到最大,也 就同时使真实值与拟合值之间的距离达到最小。 通过这个方程可以将光滑函数,估计出来,并且所估计的函数是响应变量的线性函数。 7 x x x 尼 厶 ,。 、t,组只尼b 东北师范大学硕士学位论文 关于非参可加模型的研究已经有很多成果了,比如s t o n e ( 1 9 8 5 ,1 9 8 6 ) 年证明了当p 很大但 却固定时,用可加样条估计可以获得和p = 1 时同样的最优收敛速度;邱南南( 2 0 0 8 ) 用l a s s o 方法解决由于多重共线性导致主成分选择效果不够理想的问题;姜素红,陈晓( 2 0 0 9 ) 用一种 简单的b a c k f i t t i n g 方法估计非参可加模型中的核函数并把它用在了实践中指导经济问题;j i a n h u a n g j h o r o w i t z f e n g r o n gw c i ( 2 0 0 9 ) 用g r o u pl a s s o 解决当观测次数与预测变量相近时的变量选 择问题 真实模型一样会遇到不显著变元的问题,假设其中一些成分,f 为0 或近似为0 ,其余一些 成分是显著的,我们的目的是将对响应变量作用大的成分选出来,剔除掉作用小的成分。 z h c n g ( 2 0 0 8 ) 提出一种高维非参可加模型选择成分和平滑度的方法,将不同的变元赋予不 同的惩罚,用e f r o n 的l a r s 算法根据变元的重要程度得出最优的显著成分,l a r s 算法中的调 整参数可以选择c v 统计量或b i c 等具体做法是先用三次样条将预测变量的函数值矩阵 估计出来,再将每一列视为模型选择中的自变量用最小角回归的方法找到显著的成分。 本文用计算机对上述方法进行模拟,并假设数据集是有缺失的,对不同参数情形的模拟结 果进行比较,以期达到拟合曲线,成分选择并预测的目的。通过前面对函数拟合的介绍我们知 道经过拟合后新的预测变量之间可能就会有很大的相关性了,因而用l a r s 的方法去选择重要 变元是比较可取的。 8 东北师范大学硕士学位论文 1 3 缺失数据 统计是通过分析数据达到建模和预测的目的,我们在处理统计问题时总是要基于完整的 数据集,但真实世界中的数据经常是有缺失的,很多大型的数据库由于数据量太大,统计时有 遗漏、前后不一致或纪录错误等,使得某些记录的某些条目没有记录下来,或者在某次试验中 被试者退出试验或跟踪丢失等,事实上,统计问题所面对的数据在大多数情况下是不完整的, 这就使许多统计学者们致力于研究带有缺失数据情形的各种问题,对这种缺失的情形处理方 法有: 1 、带着缺失数据直接进行统计研究。 很多方法本身就考虑到m i s s i n gd a t a 的情况。这种方法比较复杂,涉及到很多理论计算, 比如统计中常用的最大似然估计,当样本来自正态分布时,即使数据中有缺失仍然可以将最大 似然估计求出来。很多统计代码在编写的过程中也会考虑这个问题,操作者只需选择是否缺失 一项即可进行统诗分析。 2 、如果某次观测有变量的观测值缺失,则分析时将此次观测丢掉 当缺失条目很少时这样处理非常简单,得到的数据仍可看做是完整的,但是如果缺失数 据较多,这样做虽然也基于完整数据集,但是结果显然不会太好,因为数据的信息没有完全用 上。考虑极端的情况,如果某一预测变量在所有案例中缺失数据严重,比如缺失数据占案例数 的一半以上,这样的变量可以考虑将整列变量删除,但是这样删除的危险比较大,如果拟合的 模型已经正确,而由于某变量严重缺失将其删除,模型的解释性便会降低了但是由于我们拟 合模型大多都是线性拟合,这种假设本身已经属于近似,因此完全正确的模型是不易得到的, 那么对于缺失严重的预测变量删除是可以接受的,尤其若该缺失数据与某些变元成共线关系, 删除该变量对模型拟合结果更有好处 3 、将缺失的数据补上 这样做的好处和删除缺失数据一样会得到一个完整的数据集,但是给缺失数据赋什么值 最合适是比较重要的问题,理想的情况是研究者了解数据的产生机制从而可以给出合理的添加 值,比如数据是有序的,可以按照前项后项数据的值在中间插值,或用非缺失数据的均值、中 位数等代替,比如测量某种药对病人愈后血压的影响,在愈后2 4 个小时之间需要测量2 4 次, 每小时测量一次,如果某次测量忘记记录,或者数据遗失比如在第l o 个和1 2 个之间缺失第1 1 次观测,那么可以取前后两次测量的中位数或均值来代替,虽然没有足够的理论依据证明这种 代替值是对的,但是它和真实值相差不会太远,因为血压改变是一个渐变的过程,如果记录的 产生是精确随时间变化的那么缺失的值可以这样代替,当然这些补值方法都非常主观,比较符 合统计规则的办法是利用已有的数据信息估计缺失数据 9 东北师范大学硕士学位论文 比如,若z ,和z 2 呈现某种函数关系,则可以用非缺失数据模拟该函数关系再估计缺失的 函数值,再如若两者呈某种常见分布,则可用该分布产生随机数来填补缺失数据,可以通过散 点图等方法确定该分布族或分布的某些参数 本文采用的是用给定非缺失数据时对缺失数据的条件均值来补充的方法依据是统计学 已给出过证明的以下引理: 弓i 理- 誓:设x 一婀。c p ,对x ,p j 做分块:灭= ( x x 。1 ) ,p = ( :) ,= ( 茎:至:) 则给定灭l = z l 时,x 2 的条件分布为:x 2 x l = 帆一。( ) 2 + 2 l 0 ( 。1 一肛1 ,2 2 1 ) 其 中e 2 2 1 = 2 2 一e m 1 2 这样估计缺失值的好处在于使估计的缺失值更加接近真实数据,我们是在假定数据来自 正态分布的条件下作模型拟合,而正态分布具有很多很好的性质,比如边缘分布为正态分布, 条件分布为正态分布等f 1 2 ,估计出来的新数据有很大的可能处于数据的中心,这样对模型拟 合的结果影响不会很大,这样的数据集我们有理由相信是比较可信的当预测变量呈正态分布 时,响应变量可也呈正态分布,那为什么不将响应变量也作为条件分布中条件的一部分呢, 因为我们假定响应变量是严格由x 产生的,不是将预测变量和响应变量作为联合分布来看, 如果条件中包含了响应变量的信息,对后面的系数估计和成分选择一定会有影响,因此在估计 缺失值时我们只用预测变量矩阵的信息,但是这样补缺失值就不会容易产生异常值,而如果真 实数据中有异常值,比如从数据的散点图可以看到距离数据中心较远处于边界位置的数据, 那么原数据的模型可能会被异常值牵引,而我们这样估计缺失值很难产生同样的异常值,但是 这个问题是比较难解决的,因为异常值本身在数据集中数量就是偏少的,我们对它所知的信息 更少,如果想补上异常值是很难的,所以在实际问题中便要假定模型中没有异常值再去填补数 据。 本文假定缺失数据仅限于预测变量x 的某一列或两列,响应变量l ,的值是完全可观测 的,用上述定理可以将缺失数据估计出来再做成分选择并比较了这种处理方式与将缺失数据扔 掉不考虑的结果。 1 0 东北师范大学硕士学位论文 2 对含缺失数据的非参可加模型进行成分选取 仍设模型来自】7 = 乃f 为) + e ,x = ( x 1 x 2 ,曷) 一n ( o p ,) ,e ( f z j ) ) = o ,e ( ) = 0 , j = l t f n r ( ) = 盯2 ,则y i = f jc x , j ) + e i i = 1 ,2 ,他,假设响应变量完全观测,预测变量数据有缺 失,我们不妨设前n 组数据是完全观测的,其余数据部分缺失,即若( x n l + 1 l 1z 。,+ 1 2 ) 缺失, ( x n l + l ,3 ,z 。“4 ,x n l + l ,p ) 未缺失,则利用上面所述方法,对其估计为: z n l 二卜1 1 = e ( z ,l l 1 1 t z n l + l ,3 ,x n l + l ,4 ,j x n l + l ,p ) = 1 1 + e 2 1 - l l ( x n l + l ,1 一肛1 1 ) ,2 2 1 x n l + l 。2 = e ( z n l l ,2 i z 礼l + l ,3 ,z 竹1 + 1 ,4 ,:x n l + 1 ,p ) = p 1 2 + 2 】i l ( z n l + 1 ,2 一p 1 2 ) ,2 2 1 其中肛l l = e ( x a ) ,p 1 2 = e ( x 2 ) ,e = c o v ( x 1 ,j ,) 对的估计是利用完全观测的前 1 组数据; 一l 吕 厶一百4 7 = j ( z n 一西,x i p 一易) 7 叱曩 :? p完全正确成分至多含一个错误成分 至多含两个错误成分百分比 ( 1 , 0 ,1 ,o 1 0 1 0 ) 0 22 6 3 3 8 4 4 4 78 9 4 ( 1 0 1 0 ,1 ,0 1 0 ) 0 52 0 3 3 5 5 4 3 28 6 4 ( 1 , 0 ,1 ,0 1 0 1 ,0 ) 0 8 3 21 2 8 2 8 45 6 8 表1 、10, 曩 昂 一 一 n 妒 刃 z ,一 东北师范大学硕士学位论文 表中前两列为系数真值以及变量闻的相关系数,第三列表示模型中只包含完全正确成分 次数,第四列表示包含完全正确的成分,但又引入一个不显著成分的次数,第五列表示多引 两个错误成分的次数,最后一列是第五列在所有模拟结果中占的百分比可以看出变元之间 关性越小结果越好,当p = 0 2 时,完全正确的模型有2 6 3 次,但是包含完全正确成分的次 要大于等于4 4 7 次,至少有0 9 的概率可以不丢掉任何显著成分,但是当相关系数较大时选 完全正确的那些成分准确率就要低一些,但仍然有至少一半以上的概率不丢掉任何一个显 变量 如果将缺失数据估计出来再模拟,结果见表2 : 3 p完全正确成分至多含一个错误成分至多含两个错误成分百分比 f 1 0 ,1 ,0 1 ,0 1 ,0 )0 23 1 84 2 24 6 79 3 4 ( 1 , 0 ,1 0 ,1 ,0 1 0 ) ( ) 52 6 43 9 5 4 5 3 9 0 ( j ( 1 , 0 ,1 0 1 ,0 ,1 ,0 ) o 83 61 5 3 2 9 95 9 8 表2 与表1 比较起来,表2 的结果显然要好于表l ,尤其是当相关系数不是很大时,选择完全 确模型和包含完全正确成分的次数都要高于表1 ,当相关系数较大时可以看做两种处理方 没有太大差别,尽管后一种方法略好于前者,这说明估计出缺失数据再进行模型拟合的效果 直接丢掉缺失数据建模效果要好 模型中非零变量的个数是否影响拟合结果呢,我们在模型中引入6 个显著变量,只有2 个 显著变元,这样的模型模拟结果会怎么样呢,剔除缺失数据进行模拟结果如下表3 : 0 p 完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 , 0 。1 ,1 0 1 1 ,1 ) 0 23 9 0 4 8 0 5 0 0 1 0 0 ( 1 0 :11 l ,0 ,1 ,l 1 ) o 52 7 64 5 35 0 01 0 0 ( 1 , 0 ,1 ,1 0 1 1 ,1 )0 81 8 73 7 65 0 01 0 0 表3 比较表3 和表1 看出,当模型中显著变量增多时模型的选择准确度会更高,不管是完全正 的变元次数还是包含完全正确变元的次数都有很大提高,即使当相关系数较大时仍有较大 概率选择完全正确的模型。如果将缺失数据估计出来进行模拟,结果如表4 : 1 2 东北师范大学硕士学位论文 3 p完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 07 1 j 1 ,0 ,1 ,l - 1 ) 0 24 1 34 8 45 0 01 0 0 ( 1 , o ,1 1 , 01 1 1 1 ) 0 52 8 84 6 25 0 01 0 0 ( 1 , 07 11 1 ,0 ,1 ,1 1 ) 0 8 1 8 5 3 7 7 5 0 ( )1 0 0 表4 表4 的结果比起表3 要好一些,但并不十分显著,比如相关系数为0 2 时选择完全正确的 模型表3 有3 9 0 ,表4 有4 1 3 次,但是两种模拟结果都使得包含完全模型的次数达到5 0 0 ,可 见当模型中显著变元较多时,模型选择容易得到更多正确的结果 上面几次模拟随机误差的方差为9 ,我们想比较方差对模拟的影响,选择随机误差仃2 = 1 时,丢弃缺失数据模拟结果见表5 : s j 。完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 , 0 ,1 0 1 0 1 0 ) 0 24 9 35 0 05 0 01 0 0 ( 1 0 1 j 0 ,1 ,0 ,1 0 ) 0 54 5 04 9 35 0 01 0 0 ( 1 , 0 1 0 1 07 1 ,0 ) 0 81 0 2 3 0 44 6 3 1 0 f ) 表5 模拟5 和模拟1 的区别就在于误差的方差不同,比较结果,当p = 0 2 时,选择完全正确 模型次数分别为2 6 3 ,4 9 3 ,容许选错一个成分的次数为3 8 4 ,5 0 0 ;当p = 0 5 时,选择完全 正确模型次数分别为2 0 3 ,4 5 0 ,容许选错一个成分的次数为3 0 5 ,4 9 3 ;当p = 0 8 时,选择 完全正确模型次数分别为3 2 ,1 0 2 ,容许选错一个成分的次数为1 2 8 ,3 0 4 。可以看出方差对 模型拟合的影响很大,方差越小拟合结果越好。若将缺失数据估计出来再模拟,结果为表6 : d p完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 , 0 ,1 :0 ,1 ,0 ,1 0 ) 0 24 9 75 0 05 0 01 0 0 ( 1 , 0 ,1 0 1 0 :1 ,0 ) 0 54 5 74 9 55 0 01 0 0 ( 1 0 1 0 ,l ,0 ,1 0 ) o 81 0 0 2 8 3 4 5 29 1 6 表6 模拟6 和模拟2 的比较结果类似模拟5 与模拟】,前者的效果远远好于后者,还可以比较 表6 和表5 ,二者的区别在于模拟5 使用的观测值比模拟6 少但完全来自于真实数据,模拟 6 的数据集较大但是含有缺失数据的估计值,而从两表的模拟情况来看相差并不多,源因是当 误差方差小时对缺失值的估计效度更大,由于估计值距离真实值偏差小,模拟结果自然会比较 好 如果方差阵改变,结果会有什么样的影响呢,本文模拟了当为: 1 3 东北师范大学硕士学位论文 - 曩三) 彦 p完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 , 0 ,1 :0 ,1 ,0 ,1 0 ) 0 2 2 7 43 8 74 5 59 1 ( 1 , 0 ,1 ,o 1 ,0 1 ,0 ) 0 51 1 92 7 43 9 17 8 2 ( 1 07 1 j 0 1 ,0 17 0 ) 0 82 91 1 02 3 7 4 7 4 若将缺失数据估计出来模拟结果为表8 : 表7 p完全正确成分至多含一个错误成分至多含两个错误成分百分比 ( 1 0 1 :0 1 ,0 ,1 0 ) 0 2 3 0 44 3 4 4 7 0 9 4 ( 1 , 0 1 ,0 1 0 1 ,0 )o 51 4 83 0 34 1 38 2 6 ( 1 , 07 l1 0 ,l ,0 。1 ,0 ) 0 82 51 0 62 3 74 7 4 表8 观察这两组结果和模拟1 2 的结果,相关系数阵阵改变了,显然是变元之间的相关性变 大了,模拟结果不如相关系数小时那么好,但是仍然可以看出将缺失数据估计出来形成完整数 据集再进行处理要比丢掉缺失数据组直接处理效果好 上面我们假设缺失数据占观测值的百1 ,当缺失数据个数增大时比如缺失一半的情况如下, 其中盯2 = 9 将缺失数据丢掉模拟结果为表9 : 3 _ d完全正确成分至多含一个错误成分至多含两个错误成分百分比 f1 , 0 ,1 0 1 ,0 1 0 )o 21 7 62 9 74 0 88 1 6 ( 1 , 0 1 0 1 ,( ) 1 0 ) 0 51 2 62 5 93 6 ( )7 2 0 ( 1 , 0 ,1 o 1 ,0 1 ,0 ) 0 82 8 1 1 2 2 3 54 7 ( i 表9 模拟le e l - 的观测值带有缺失元,模拟9 有一半观测值带有缺失元,二者比较结果显 示缺失数据少的一组模拟结果要优于缺失数据多的,尤其是在选择完全正确成分这一列,看出 1 4 , 东北师范大学硕士学位论文 p 不是很大时表1 的数据明显好于表9 ,这也很符合直观,缺失数据较多时估计数值与拟合曲 线产生的偏差累积起来自然会影响结果。若将缺失数据估计出来模拟结果为表1 0 : 3 p完全正确成分至多含一个错误成分至多含瓶个错误成分百分比 ( 1 , 0 ,1 ,0 ,1 ,0 ,1 0 ) 0 22 7 44 0 54 6 1 9 2 2 ( 1 0 ,1 0 1 ,0 17 0 ) ( ) 52 0 93 5 74 3 28 6 4 ( 1 , 0 ,1 o ,l ,0 ,1 0 ) ( j 81 91 0 52 4 74 9 4 表1 0 观察表9 和表1 0 的结果,当p = 0 2 或0 5 时,后者的选择完全正确成分的次数比前者好 很多,当允许模型中含有一个错误变元时,后者的结果也具有明显优势,这说明数据集中含有 的缺失数据越多,用估计数值形成完整数集进行拟合的方法效果越好,但是若数据的相关系数 很大时直接扔掉缺失数据与这种方法的效果相差不是很大。 综上所述,当数据集中含有缺失数据时是直接扔掉带缺失的观测值还是利用数据本身的 信息估计出缺失值再进行处理,通过上述模拟可以看出两种方法的好坏,比较所有的模拟,结 果显示后者几乎完全优于前者,这说明估计缺失数据再进行成分选择的方法更好,对成分选择 结果有影响的有变量之间的相关系数,随机干扰项的方差,真实模型中显著变量的多少以及缺 失数据的多少等等。 1 5 东北师范大学硕士学位论文 3 结论 在这篇文章中我们研究了带有缺失数据的非参可加模型的成分选择问题,依据z h e n g ( 2 0 0 8 ) 提出的两步选取法并将之应用到缺失数据集中,并给出了一种简单易行的估计缺失数据的方 法,即用非缺失变量的条件下求得缺失数据的均值来代替,再拟合函数进而进行成分选择,并 用计算机模拟了上述算法,比较了将数据直接删除再选择成分两种方法的效果,虽然估计缺失 值和删除缺失值都能得到一个完整的数据集,但是效果是有区别的。 通过上面的模拟结果我们可以看出当模型中有数据缺失时,将缺失数据先估计出来再进 行拟合要优于将其删除不用,对结果影响比较大的因素包括: 一、变量之间的相关性的大小,当相关系数小于或等于0 5 时两种处理方法得到的结果都 是比较令人满意的,可以以较大概率得到包含所有正确成分的模型,而且我们所采用的方法得 到的结果更好一些,当相关性较大时,估计缺失值的方法也要优于丢弃缺失值,尽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社交计算中的伦理与道德问题研究-洞察及研究
- 化肥厂员工辞退办法
- 河南省驻马店市第二初级中学2024-2025学年九年级上学期1月期末历史试题(含答案)
- 社交电商与传统电商的深度融合研究-洞察及研究
- 2024-2025学年新疆喀什地区人教版四年级上册期中阶段测试数学试卷(含答案)
- 线缆厂请假审批记录细则
- 手势舞课件高难度动作
- 自动化方案规划工程师3篇
- 注册安全工程师考试真题及答案
- 中国银行网申试题及答案
- 2024-2025学年七年级语文上册第一单元测试卷(统编版2024新教材)
- 5《大学之道》《人皆有不忍人之心》理解性默写(含答案) 统编版高中语文选择性必修上册
- 先进制造技术 课件 第一章 先进制造技术概论
- GB/T 1503-2024铸钢轧辊
- FZ∕T 71006-2021 山羊绒针织绒线
- 幼儿园社会教育专题-考核测试题四(第七、八章)-国开(ZJ)-参考资料
- 明确目标方向自律成就梦想
- 《有毒动植物中毒》课件
- 《智能建造导论》 课件 刘占省 第6-12章 智能规划与数字设计-中国智能建造之路
- 《PS基础教程》课件
- 大学生励志演讲稿大全14篇
评论
0/150
提交评论