




已阅读5页,还剩49页未读, 继续免费阅读
(概率论与数理统计专业论文)偏差下估计的求法及其性质.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
黝, , , , l h | l ;l l l l i i i i i i l lrliiiiiiiiiiii f y 1 7 3 8 6 4 6 。 广西大学学位论文原创性声明和学位论文使用授权说明 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均已在论文中明确说明并致谢。 敝储戤吲泛晦 2 0 1 0 郫月1 0 日 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 囱即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名:面、爱 导师签名:彩涉2 0 1 0 年6 月1 0 日 偏差下估计的求法及其性质 摘要 在线性回归模型中,求回归系数最常用的方法就是最z b - - 乘法,也是 最基本的方法。当数据不含偏差时,所得最小二乘估计具有很好的性质。 但当数据含有偏差时,最小二乘估计便不再直接有效,需要研究新的 求解方法以便得出回归系数的估计值,并且此方法能消除偏差对估计值的 影响,也就是说此估计是稳健估计。 偏差的存在导致相应的模型发生了结构性变化,此时需要建立新的模 型以便得到未知参数的估计,然后再研究该估计的性质。目前对于不含偏 差估计性质的研究已经很完善,但对含偏差估计性质的研究却是比较少的。 由于偏差在实际的线性回归分析中有时是不可避免的,所以在偏差下研究 估计的性质更具有挑战性和实际意义。 本文的主要结果之一:在偏差是随机误差的情况下,把基于c o o k 距离 求权函数的理论推广到具有相关观测的纵向数据,并给出了理论上的证明, 然后通过简单模型导出了权函数的矩阵解析式。由于权函数的可行性与可 靠性只能通过数值计算来说明不能从理论上作出证明,所以必须通过数据 来展示此种权函数的抗差能力。实例分析表明此种权函数具有很强的稳健 性。最后又用数据分析了相关程度对稳健估计的影响。 主要结果之二:在偏差是均值移动( 系统误差) 的情况下,参照部分线性 模型理论,把系统误差看作参数,间接运用最d - 乘估计理论,求出未知 参数卢和系统误差7 7 的估计。分别讨论了所求估计的弱相合性和在无偏估计 类中唯一最小方差的存在性,并且都给出了理论上的证明。 主要结果之三:在偏差是系统误差的情况下,用结果二的方法求出未 知参数p 和系统误差,7 的估计。当随机误差和设计矩阵满足一定的条件时, 考虑叩和卢估计的,阶平均相合性,在0 , 1 和,1 两种不同的取值范围内, 分别证明了其估计嗄。) 和反。) 的,阶平均相合性。 关键词:最d - 乘估计权函数弱相合性最小方差,阶平均相合性 i i t h en a t u r ea n dt h em e t h o do f t h ee s t i m a t i o nu n d e rt h ed e v a i t i o n a b s t r a c t i nt h el i n e a rr e g r e s s i o nm o d e l ,t h el e a s ts q u a r e sm e t h o di st h em o s t c o m m o nm e t h o dt h a ti su s e dt og a i nt h er e g r e s s i o nc o e f f i c i e n t ,a n di sa l s ot h e m o s tb a s i cm e t h o d w h e nt h ed a t ad o e sn o tc o n t a i nt h ed e v i a t i o n ,t h el e a s t s q u a r e se s t i m a t eg a i n e di so fg r e a tn a t u r e w h e r e a s ,w h e nt h ed a t ac o n t a i n st h ed e v i a t i o n ,t h el e a s ts q u a r e se s t i m a t e w i l lb en ol o n g e re f f e c t i v ed i r e c t l y t h en e ws o l u t i o nn e e dt ob es t u d i e di no r d e r t od e r i v et h ee s t i m a t eo ft h e r e g r e s s i o nc o e f f i c i e n t ,a n d t h i sm e t h o dc a n e l i m i n a t et h ei m p a c to fb i a so nt h ee s t i m a t e t h a ti st os a y , t h ee s t i m a t ei sr o b u s t e s t i m a t i o n t h ee x i s t e n c eo ft h ed e v i a t i o nr u s u l t si nt h es t r u c t u r a lc h a n g e so ft h e c o r r e s p o n d i n gm o d e l n o wt h en e wm o d e ln e e dt ob eb u i l d e di no r d e rt oo b t a i n t h ee s t i m a t i o no ft h eu n k n o w np a r a m e t e r , a n dt h e ns t u d yt h en a t u r eo ft h e e s t i m a t e c u r r e n t l y , t h en a t u r eo ft h ee s t i m a t ew i t h o u tt h ed e v i a t i o nh a sb e e n s t u d i e dp e r f e c t l y b u tt h en a t u r eo ft h ee s t i m a t ew i t hd e v i a t i o nh a sb e e ns t u d i e d l e s s i nt h ea c t u a ll i n e a rr e g r e s s i o na n a l y s i s ,b e c a u s et h ed e v i a t i o ni ss o m e t i m e s i i i u n a v o i d a b l e ,i ti sm o r ec h a l l e n g i n ga n dm e a n i n g f u lt os t u d yt h en a t u r eo ft h e e s t i m a t eu n d e rd e v i a t i o n o n eo ft h em a i nr e s u l t so ft h i sp a p e r :i nt h ec a s eo ft h ed e v i a t i o nb e i n ga r a n d o me r r o r , t h et h e o r yt h a tt h ew e i g h tf u n c t i o ni sd e d v e dd e p e n d i n go nc o o k d i s t a n c ei sp u tt ot h el o n g i t u d i n a ld a t aw i t ht h er e l e v a n to b s e r v a t i o na n dt h e t h e o r e t i c a lp r o o fi sg i v e n t h e nt h ea n a l y t i c a lm a t r i xo ft h ew e i g h tf u n c t i o ni s d e r i v e dt h r o u g ht h es i m p l em o d e l b e c a u s et h ef e a s i b i l i t ya n dr e l i a b i l i t yo ft h e w e i g h tf u n c t i o nc a r l o n l yb ei l l u s t r a t e db yt h en u m e r i c a lc a l c u l a t i o nc a nn o tb e t h e o r e t i c a l l yp r o v e d ,t h er o b u s tc a p a b i l i t i e so ft h ew e i g h tf u n c t i o nm u s tb e d e m o n s t r a t e dt h r o u g hd a t a s t h ea n a l y s e so ft h ee x a m p l e ss h o wt h a tt h i sw e i g h t f u n c t i o nh a sas t r o n gr o b u s t n e s s f i n a l l yt h ei m p a c tw h i c ht h er e l e v a n c eh a so n t h er o b u s t e s t i m a t i o ni sa n a l y s e dw i t hd a t a s t h es e c o n dm a i nr e s u l t :i nt h ec a s eo ft h ed e v i a t i o nb e i n gt h em e a n s h i f t ( s y s t e m a t i ce r r o r ) ,t h et h e o r yo ft h ep a r t i a ll i n e a rm o d e lt h e o r yi sr e f e r e d , t h es y s t e m a t i ce r r o ri sr e g a r d e da sap a r a m e t e r , t h et h e o r yo ft h el e a s ts q u a r e s e s t i m a t ei su s e di n d i r e c t l y , t h ee s t i m a t e so ft h eu n k n o w np a r a m e t e r 卢a n dt h e s y s t e me r r o r ,7 a r eg a i n e d t h ew e a kc o n s i s t e n c yo ft h ee s t i m a t e sd e r i v e da n d t h ee x i s t e n c eo ft h eu n i q u em i n i m u mv a r i a n c ei nt h ec a t e g o r yo ft h eu n b i a s e d e s t i m a t e sa r ed i s c u s s e dr e s p e c t i v e l y a n da l lt h et h e o r e t i c a lp r o o f sa r eg i v e n t h et h i r dm a i nr e s u l t :i nt h ec a s eo ft h ed e v i a t i o nb e i n gt h es y s t e m a t i ce r r o r , t h ee s t i m a t e so ft h eu n k n o w np a r a m e t e r a n dt h es y s t e me r r o ri a r eg a i n e d b yt h em e t h o do ft h es e c o n dr e s u l t w h e nt h er a n d o me r r o ra n dt h ed e s i g n i v m a t r i xm e e tc e r t a i nc o n d i t i o n s ,t h er m o m e n tm e a nc o n s i s t e n c yo ft h ee s t i m a t e s o ft h e 7 7 a n dpi sc o n s i d e r e d i nt h et w od i f f e r e n tr a n g e so ft h e0 , 1a n d ,1 ,t h e ,- m o m e n tm e a nc o n s i s t e n c yo ft h ee s t i m a t e s 哦。) a n d 反。) h a sb e e n p r o v e nr e s p e c t i v e l y k e yw o r d s :l e a s ts q u a r e se s t i m a t e ;w e i g h tf u n c t i o n ;w e a kc o n s i s t e n c y ; m i n i m u mv a r i a n c e ;,一m o m e n tm e a nc o n s i s t e n c y v 目录 第一章绪论1 1 1引言”1 1 2 最小二乘估计理论2 1 3 稳健估计方法4 1 4 线性半参数回归模型9 1 5 本文研究的主要内容和结构1 0 第二章基于c o o k 距离的权函数求法1 1 2 1 预备知识1 l 2 2 独立情况下的权函数”1 2 2 3 纵向数据下的权函数一1 5 2 4 实例分析2 0 2 5 相关系数对稳健性的干扰2 2 第三章系统误差模型下估计的性质”2 3 3 1 参数估计的求法“2 3 3 2 相合性的证明“2 6 3 3 线性无偏估计类中的最小方差3 0 第四章系统误差下估计的厂阶平均相合性3 3 4 1 平均相合性概述3 3 4 2 平均相合性预备知识3 5 4 3,阶平均相合性的证明3 7 结束语4 0 参考文献4 2 致谢4 6 攻读学位期间发表论文情况4 7 v i , e - 西大掌硕士掌位论文偏差下估计的求法及其性质 第一章绪论 1 1 引言 在经济全球化和信息化的环境下,人类活动的各个方面对统计工作和统计数据的依 赖性越来越强。在自然科学、经济学、社会学、体育、环境保护、医疗卫生等领域,对 未来的预测和推断都离不开对数据的分析。数据的收集是通过多种渠道得来的,有些数 据是通过调查得来的,有些数据是通过观测得来的。如果数据是确真无误的,对未来的 预测和推断是很有意义的;如果数据是错误的或者是数据部分丢失的或者是数据带有偏 差的,如果再加上统计推断的方法运用不得当,那么对未来的预测就显得更加无意义了。 统计推断对数据的分析是很重要的,英国著名的统计学家r a f i s h e r 把统计推断归 纳为三个方面:抽样分布、参数估计和假设检验。通过对数据的分析,对未来形势的预 测和推断,参数估计显得尤为重要。当所得数据不含偏差时,通过数据得出参数的估计 是非常准确的,所求估计的方法最常用的就是最小二乘法( l s ) ,也是最基本的方法。最 小二乘法不仅仅在统计学中,就是在数学的其他分支,例如计算数学、运筹学、逼近论 和控制论等,都是很重要的求解方法。此种方法得出的估计有许多很好的性质,其中有: 估计的弱相合性、强相合性、,阶矩相合性和无偏类中最小方差等,当然这些理论都是 在设计矩阵和随机误差满足一定条件下得出来的,并且目前这些理论被研究的已经非常 完善。但是在数据分析过程中,所使用的数据含有误差是很正常的事情,并且也是不可 避免的事情,但不同的误差对数据分析也有截然不同的方法和结果。 误差分为两类t 偶然误差,是个别可预测的一类误差;系统误差,是带有部分规律 性的序列的一类误差。而偏差( 也叫粗差或异常值) 是泛指偏离群体较大的误差。实际中 所用的数据,尤其是通过观测所得到的数据,带有误差是不可避免的,为了需要常常假 设误差是偶然误差,也就是数理统计学上所说的随机误差。但有的时候是不能做这样简 单假设的,因为此时的误差偏离群体较大。若再按如此简单的假设对数据进行分析,不 但计算所得参数的估计不准确,而且对未来的预测也是不准确的。 不论是在社会经济活动中还是在科学试验中,人们作出某种决策之前总是要对许多 情况进行估计,通过所给出的数据获得一个理想的模型,以便于对未来作出预测和解决 方案。在通常情况下,人们需要通过种种方法来研究数据所适合的参数模型,以研究线 性关系模型为最基本,然后再通过所给的数据求出参数的估计值。例如最小二乘法,它 广西大掌硕士掌位论文偏差下估计的求法及其性质 是获得未知参数估计值的一个最重要方法。当然此方法也是统计学中经典的估计方法。 l s 方法历史悠久,无论是理论研究还是实际应用中,在线性回归分析领域中都可以说 是占据着中心位置。 从实际应用的角度而言,其重要性的原因在于: 一、l s 估计为线性且易求,计算应用很方便。 二、l s 估计具有很多最优性质,其中g a u s s m a r k o v 定理具有根本的重要性。 从理论研究的角度而言,其重要性的原因在于: 一、l s 估计是一个形式简单的显式表达式; 二、l s 估计的统计性质易于研究。 无论是从历史还是从逻辑的角度看,l s 估计都具有很强的生命力,但是在一些情 况下,l s 估计表现不好,却也是公认的事实。其中之一就是数据中混入少量的“异常 值”( o u t l i e r ) ,即该观测值与其他的观测值不是来自于同一个模型。其中之二就是数据是 不完全的,就是说有些数据漏掉了或者是有些数据忘记整理了。 1 2 最小二乘估计理论 最小二乘法是通过最小化误差的平方和寻找数据的最佳函数匹配的一种方法。 1 2 1 最小二乘估计的求法 下面来介绍最小二乘估计的求法【l 】。 数据的观测值要受到许多因素的影响,假设】,为因变量,五,五,x ,一。为对y 有影响 的p 一1 个自变量,并且它们之间具有线性关系 成立 y = p o + p i x l + + 9 p _ 1 xp d + e 假设我们有了五,五,一。和l ,的行组观测值“,而:,毛扩。,咒) ,i = 1 2 一,月,则有下式 乃= 风+ 毛1 j b l + + 而,一l j b ,1 + 弓 我们再对随机误差项岛作假设: ( 弓) = 0 ;矿- 口,( 弓) = 仃2 ;c 删( q ,巳) = 0 , 则可以得到矩阵形式的线性回归模型: y = 卢+ p ,( 力= 0 ,c 州0 = 口2 e 2 ( 1 1 ) ( 1 2 ) 广西大学硕士掌位论文偏差下估计的求法及其性质 其中y - - o , , ,乃,虼) ,e = ( e i ,乞,巳) 。,卢芦( 反,岛,以一,) ,x = ( 而,屯,毛) 。,葺= ( 1 ,而扩。) , y 为观测向量,x 为列满秩,被称为设计矩阵,卢为未知参数向量,p 为随机误差向量。 下面我们通过最d x - 乘法对模型( 1 2 ) 来求未知参数卢的估计,此种方法得出的估计 被称之为最小二乘估计。 这种方法的根本思想就是使得偏差向量p = y x 卢的长度之平方i i j ,一x 刎2 达到最小时 卢的取值, = l l y x a u 2 ,则 f l 昼、) = o x p 、) t 一x p 、) = y l y - 2 y x 3 + p x x po 若厂( 卢) 能取到极小值,则此时f ( f 1 ) 的导数为零,所以对卢求偏导数,并令其为零。 可以得到方程组x - x 卢= x y ,由于x 为列满秩,所以x x 是非奇异的矩阵,由此可得到 下式 声= ( x 彳) 一1 x y 这个估计确实能使得( 卢) 达到最小,并且也是唯一的。 1 2 2 最小二乘估计的性质 ( 1 3 ) 在一定条件下,最小二乘估计声具有很多优良性质:无偏性;在线性无偏估计类中, 最d , z 乘估计是唯一具有最小方差的估计( g a u s s m a r k o v 定理) ;弱相合性:强相合性; ,阶平均相合性等。 g a u s s m a r k o v 定理要求随机误差满足( 力= 0 ,c o y ( e ) = 仃2 e ,( g a u s s - m a r k o v 假设) e 为,阶单位矩阵,在这种条件下,最小二乘估计c 声( c 为p 阶列向量) 在c 卢的所有线性无 偏估计中,是唯一具有最小方差的估计。 最小二乘估计相合性的研究起始于二十世纪6 0 年代,最初研究的是弱相合性,估 计的弱相合性,是大样本理论中首位的、讨论最多、最受重视的一个问题,这是因为一 个估计若没有弱相合性,则总是不好的;另一个原因就是弱相合性的要求比较低。 在1 9 7 6 年,d r y g a s 2 】证明了一个重要结果:在g a u s s m a r k o v 假设下,最d , - 乘估 计弱相合的充要条件是! 现1 = o ,鼠= x x = 害为丐。 在1 9 7 9 年,美籍统计学家黎子良及r o b b i n s 和魏庆云【3 1 证明了另一个重要结果:将 3 广西大掌硕士掌位论文偏差下估计的求法及其性质 g a u s s m a r k o v 假设加强为巳,e 2 ,一独立同分布( i i d ) ,并_ f 1 o v a r ( e i ) = c r 2 ,则最小二 乘估计强相合的充要条件是! 骢1 = o ,瓯= x x = 芝五而。 对于最小二乘估计r 阶矩相合性的研究,陈希孺、陈桂景的贡献是很大的。 在“再论线性模型中回归系数最小二乘估计的相合性”中,陈希孺【4 】证明了:当随机 误差q ,e 2 ,一独立同分布,有,阶矩,且l , 2 ,若嚣1 = ( 喜而) 一= 。( n - ( 2 r y r ) ,则最小二乘 估计声为,阶矩相合,因而也为弱相合。 在“线性回归系数最小二乘估计弱相合性的一个结果中,陈希孺【5 1 又证明了上述结 论中的阶不能有任何改进:对任何常数列 ) ,若熙i n f ( c n n - ( 2 - r y r ) = o ,则条件! 骢1 = o 对声 为弱相合不再是充分的。 在“线性模型回归系数最d x - - 乘估计的平均相合性”中,陈桂景【6 】得到了一些结果: 对,不同的取值范围,在设计矩阵和随机误差向量满足一定条件下,证明了声是p 的,阶 平均相合估计,和一些有关的结论。 一在“线性回归系数最小二乘估计的相合性的若干结果中,李存行【7 】对 6 】中结果作了 一些改进和推广,同样得到了一些很好的结论。 有很多人对最d - - 乘估计的相合性( 弱相合性、强相合性和,阶矩相合性) 进行过研 究,陈希孺【8 1 还研究了“低阶矩条件下线性回归最d , - - 乘估计弱相合的充要条件”,白志 东网研究了“线性模型中最d x - - 乘估计的平均相合性”,今明仲等研究了“线性回归系数 最, i x - 乘估计强相合的充要条件”。 通过上面的叙述,我们可以看到对最小二乘估计理论的研究几乎已经达到了顶峰。 在性质的研究过程中,大部分学者都在进行大样本理论的研究,并且这些理论的研究都 是在假设数据不含偏差的情况下进行研究的。但对于含偏差的数据,最小二乘估计显得 无能为力。为了消除偏差对分析的影响,就必须利用具有抗差能力的方法来估计参数, 即稳健估计方法。 1 3 稳健估计方法 在实际的线性回归分析中,人人都希望得到不含偏差的数据,就是想通过正确的数 据得出准确的模型,以便于对估计作出正确的分析和未来形势的准确预测。但实际情况 却恰恰相反,得到数据往往含有偏差,并且还是不可避免的。如果数据含有偏差,最小 4 广西大掌硕士掌位论文 偏差下估计的求法及其性质 二乘估计不具有稳健性是众所周知的。 1 3 1 稳健估计的定义 g e p b o x 在1 9 7 9 年曾给出了稳健性的一个定义:“稳健性可定义为某种具有结果 输出的过程的一种性质。这种性质说明了过程结果对在实际中出现的与理论假设的偏差 的不敏感性”。h u b e r 在1 9 8 1 年给出了一个更简单的定义:“稳健性是指对与假设的小偏 差的不敏感性”。至于这个敏感性的含义,h u b e r 给出了一个准确的解释: 1 ) 稳健估计在所假定的模型下应该具有适当好的( 最佳的或近似最佳的) 结果; 2 ) 与假设模型的小偏差应该只引起估计结果的微小变化,即估计结果应该接近假 定模型下的正确值; 3 ) 与假定模型的大偏差不应该引起估计结果的灾难性变化。 以上定义表明,稳健性是指稳健估计的值应该尽量接近假定模型下的正确值。 1 3 2 稳健估计的种类 1 ) m 估计 稳健统计中一类常用的估计是肘估计,它是由h u b e r 在1 9 5 4 年对极大似然估计加 以引申而得出来的。 在最小二乘估计方法中,是按偏差平方和最小的思想来估计参数值的。可以说取的 损失函数是p ( x ) = x 2 ,该函数随i 叫的增大而迅速增大,这就使得偏差平方和对偏差非常 敏感,因而使估计失真。 为了减少偏差对估计的影响,就要设法找到一个函数p 代替x 2 ,该函数除了随h 的 增大速度应比奸慢以外,其他性质应与其类似,其实这也是需要加权的原因之一,这 便是稳健估计之一肘估计的想法的由来。 设五,五,咒是来自某总体的一个样本,p ( 工;p ) 为一选定的非负函数,若估计 舀= 舀) 满足: p ( 置;占) = m p2 p ( 一;0 ) i = ii = l 则称百为0 的一个材估计。 这样的吖估计是否存在? 下面的定理就很好的说明了它的存在性。 定理设以下三个条件成立: 广西大学硕士掌位论文偏差下估计的求法及其性质 l 、p ( 工;日) 在实数域r 上连续; 2 、存在口,使得p ( x ;日) ,当l 卅口时,菲降且不恒等于一常数;当l 】4 口时,菲增且 不恒等于一常数。 3 、矩阵x = ( 而,屯,) 为列满秩。 则存在占,使得舀为0 的一个m 估计。 若p 日) 关于9 可微,记妒o ;8 ) = o p 西( x r ;o ) ,如果占满足: 妒( 工;占) = o , 则也称6 为0 的一个m 估计。 上面两种定义并不总是等价的,但如果j d ( ) 是凸函数,且p 处处存在,则二者等价。 稳健统计的其他种类为以下几种 2 ) l 估计:设x l ,一,以是来自f ( x - o ) 的一个样本,x o ) s x o ) 是次序统计量,则形 如a ,x ( o 的统计量称为三估计。在这类估计中,最重要的代表是样本分位数,样本切 尾均值及样本w i n s o r 化均值。 3 ) r 估计:就是基于样本的秩的估计。这类估计主要用于回归分析方法中,并且它 不要求误差项服从正态分布。该方法不将残差取平方,而是将残差的秩次的某种函数作 为异常值的降权函数引入估计模型。 4 ) 矽估计:就是改变相应观测值的权的一种估计方法。 1 3 3 稳健估计中的的权函数 在线性回归模型里,获得未知参数的估计通常是通过最小二乘估计来解决的。但是 最小二乘估计对于含偏差的观测值不具有稳健性。对于这种情况,稳健估计常用的方法 之一就是改变相应观测的权。权函数的可行性与可靠性只能通过数值计算来说明不能从 理论上作出证明。 在参数线性回归估计中,虽然估计方法的表达形式有所不同,但都可以看作是线性 组合的某种权函数,不同的权函数形式产生了不同的估计方法。为了实现参数估计的稳 健性,一般遵循大误差用小权、小误差用大权、等价权公式用数值模拟经验确定的原则。 对权函数而言,有的权函数是通过经验得到的,而有的权函数是通过理论推导所得 到的,但是用的比较多的是经验权函数,如下几种都是经验权函数【1 1 1 。设残差为 6 广西大学硕士掌位论文偏差下估计的求法及:r - o k 质 v = “,v 2 ,) ,则v = y x 口。下面所用的盯都是已知的,但在实际应用中,随机误差的 方差仃2 往往是未知的,这是我们可以设法求的它的估计子:,然后用估计子:来代替盯:, 酚;丝。 1 ) h u b e r 估计法 权函数: m ,= 2 ) h a m p e l 估计法 权函数: 厂“) = 1 j i 叮 v i 阳 h a o - a c t _ _ _ v j i 厨 厨小l o c t 即:坼在+ a t r 内,采用最小二乘法,等价权取原观测权;v f 在+ a t r 与蛞之间,采用 绝对和极小法( 即中位数法,它也是稳健估计) :m 在+ a o - 与叮之间,等价权随着残差的 增大而减小,从而限制这部分观测值对参数的影响;mz e + c r y 以外,观测值不予采用。 3 ) 丹麦估计法( d a m ) 权函数: m ,e x p 一告) 2 m o ,= 1 , 2 ,刀是正定矩阵的特征值。 lllllll 根据矩阵的性质得:z j = j p d i a g ( & 一,九1 ,旯n 一2 ) p ,记z = z i y ,u = z 一2 x ,s = 一2 e 。 由矩阵知识得: lllll ( ) = e ( 1 p ) = 1 e ( 力= 0 ;c o y ( e ) = c o y ( y - , 2 e ) = y , 一2 c o v ( e x x 一2 ) = 仃2 e 则可以得到g a u s s m a r k o v 假设下的线性回归模型: z = ( ,卢+ 占,e ) = 0 ,c o ,( g ) = d 2 e 根据最d x - 乘法的解法,可以得到卢的估计值卢, 卢= c ,) 一1 u 2 = ( x z 一1 x ) 一1 x 一1 y ( 1 5 ) 一般,我们称卢为广义最小二乘估计,其实在式子p = ( u u ) 一u z = ( x 。1 x ) 川x 。1 y 中,卅就是拌演权的角色,我们称之为权阵。 一般线性回归模型最简单的例子就是随机误差独立,因变量的不同观测具有不完全 相同的方差的情况,即有c o y ( e , ) = 砰,f = l ,2 ,刀,q 2 不完全相同,经过化简整理得: 肛( 喜甜,窆i = 1 粤a i 旬 从这个式子中我们可以看到,两个和式分别是葺而和”薯的加权和,而所使用的权是 1 i 。而对于含偏差的数据而言,所得到的权函数就不这样简单了,并且有的时候所求 q 广西大学硕士学位论文偏差下估计的求法及其性质 的权函数没有显式解析式。 1 4 线性半参数回归模型 在实际的回归分析中,由于存在不可避免的系统误差,独立变量便不能被直接观测 到,而是由带有系统误差的值所代替。由于系统误差的存在,导致模型发生结构性变化, 所以许多学者就寻找别的估计方法来研究带有系统误差数据的未知参数的估计及其性 质,而他们常用的模型就是半参数回归模型,所以研究半参数回归模型比一般回归模型 更具有挑战性和实际意义。 半参数回归模型,又称为部分线性回归模型,这种重要的统计模型是在2 0 世纪8 0 年代发展起来的。半参数回归模型包括线性半参数回归模型和非线性半参数回归模型。 半参数回归模型( s e m i p a r a m e t r i cr e g r e s s i o nm o d e l ) 的具体形式如下: y = r 卢+ s + p ,e ( p ) = 0 ,c o y ( e ) = 盯2 e 其中s 表示描述系统误差的玎维非参数向量,s = ( 墨,是,最) ( 注:半参数模型的目标在 于估计参数卢,引入非参数s 的目的是为了更加准确的估计参数卢) 。 其他的量与上面模型中出现的量的定义相同,由于参数部分x p 为线性的,所以此 模型也被称之为线性半参数模型。 在线性半参数模型基础上将参数部分加以拓展便可得更加一般的半参数模型一非 线性半参数回归模型,形式如下: y = f ( x ,p ) + s + p ,e ( e ) = 0 ,c o y ( e ) = 仃2 e 其中f ( x ,卢) 是己知的二次可微函数,其它的量与线性的半参数回归模型相同。 很明显,如果简单的把半参数回归模型中的s 看作参数,则上述问题变为未知量有 刀+ p 个,观测值有刀个的不定问题,如果没有额外信息,则无法求解。目前半参数模型 的解法有两种思路:一是对非参数s 的函数施加光滑性限制,使用恰当的参数逼近,将 非参数部分参数化;二是分别对参数部分和非参数部分利用两阶段估计方法进行估计。 例如可以先假定参数为已知,再使用标准非参数方法估计非参数部分,然后去掉非参数 部分,最后使用标准的参数方法估计参数部分( 参见 1 2 】) 。 再一种方法就是对半参数回归模型中的s 进行条件限制,比如用r 7 - - s , 来代替s , 9 广西大学硕士学位论文偏差下估计的求法及其性质 i = l ,2 ,刀。则半参数回归模型的具体形式变为如下形式: y = x p + l q + e ,e 如心= 0 ,c o y ( e ) = 0 1 e 其中,表示所有元素为l 的一阶列向量。 对上式变形得y ;( x :吖卢1 l - e ;( x :,+ p ,a :f 1 1 。这样就可以用普通最小二乘法求出 l 叶l 叶, 口的最小二乘估计,即d = ( 雾) = ( 参,) - 1 ( j 了 ,进而就可以研究参数估计的性质了。 1 5 本文研究的主要内容与结构 本文的主要结果之一是:在偏差是随机误差模型的情况下,把基于c o o k 距离求权 函数的理论推广到具有相关观测条件下的纵向数据,并给出理论证明,由于权函数的可 行性与可靠性只能通过数值计算来说明不能从理论上作出证明。所以通过数据得出偏差 下未知参数卢的稳健估计如,并且与含偏差的最d , - 乘估计孱作比较,最后结果显示 了此种权函数的抗差能力,然后又用数据分析了相关系数p 对稳健估计的影响。 主要结果之二是:在偏差是均值移动模型( 系统误差) 的情况下,参照线性半参数回 归模型理论,把系统误差看作参数,间接运用最t j 、- - 乘估计理论,求出未知参数卢和系 统误差的估计,分别讨论了所求估计的弱相合性和在无偏估计类中是否具有唯一的最小 方差,并且分别都给出了理论证明。 主要结果之三是:在偏差是系统误差的情况下,把系统误差看作参数,间接运用最 小二乘估计理论,求出未知参数p 和系统误差的估计,利用估计的,阶矩相合性( ,阶平 均相合性) 理论,分0 , 露( 1 ) 其中小高( 1 ) 1 4 偏差下估计的求法及其性质 若西和蠢是事先未知的,可用估计;。2 和仃 ;2 分别来代替西和一,;:k 二竺j | 二, 。:l 盟。 通过上面的叙述可以看到,虽然权函数的得出是比较困难的,但是此种权函数的抗 差能力是比较强的。由于从推导过程中不是很容易看出权函数的计算方法,所以特制订 如下计算权函数的步骤。 计算步骤1 如下 对于观测值y ( 无偏差) ,用s p s s 软件得出参数j b 的最小二乘估计每( 2 4 ) 和会:; 对于含有偏差的观测值雎,用上述软件得出参数卢的含有偏差的估计尻( 2 5 ) 和 通过( 2 6 ) 并1 1 ( 2 9 ) 分别计算:,和会;,通过z ;与z :( 1 ) 的比较,定位偏差,通过( 2 1 0 ) 得出权函数只,得出权阵尸,进而计算刍。 在第四节用数据展示此种权函数的抗差能力。此种求权函数进而得出稳健估计的思 想也能推广到纵向数据,这种推广不但从理论上可以证明而且也可以用实例计算说明。 2 3 纵向数据下的权函数 2 3 1 引言 基于1 9 6 4 年h u b e r 所提出的m 估计理论,丹麦的k r a r u p 和k u b i k 等人于1 9 8 0 年 将稳健估计理论引人到测量界,并共同提出了著名的“丹麦法”。我国学者也做出了很多 贡献,譬如:李德仁( 1 9 8 3 误差处理和可靠性理论) ,周江文( 19 8 9 经典误差理论与 抗差估计) ,黄幼才( 1 9 9 0 数据探测与抗差估计) ,杨元喜( 1 9 9 3 抗差估计理论及 其应用) ,刘经南( 2 0 0 0 基于等价方差一协方差的稳健最d - 乘估计理论研究) 等。 其中周江文提出了等价权概念,利用等价权将m 估计化为最小二乘估计,使稳健估计 业已存在的简便算式在测量计算中得以实现,李德仁用选择权迭代法提出了处理粗差的 “李德仁法”;杨元喜首先研究了相关观测的稳健估计,提出了相关等价权的概念,并构 造了相关等价权函数,刘经南首次从等价方差一协方差的角度研究了相关观测问题的稳 健估计,并构造了相应的方差一协方差相关等价权函数,在实践中收到了良好的效果。 1 5 广西大学硕士学位论文 偏差下估计的求法及其性质 这里必须指出的是:对于独立观测的稳健估计,目前的研究从理论到实践都很完美。 而对于相关观测的稳健估计问题,目前的研究才刚刚起步,还有大量的理论和方向需要 我们去探索和研究。所以研究相关观测的稳健估计更具有挑战性和实际意义。然而有一 些数据更有意思,它里面所包含的数据有的具有独立性,而有的具有相关性。这样的数 据就是纵向数据。 2 3 2 纵向数据 纵向数据1 6 l ( 1 0 n g i m d i n a ld a t a ) 是指对同一组受试个体在不同时间上的重复观测数 据。纵向数据广泛存在于医学、流行病学、经济学和社会科学等领域中。纵向数据与截 面数据( c r o s s s e c t i o n a ld a t a ) 不同,截面数据指仅仅在某一时间点对同一组个体作一次观 测。假设有栉个观测个体,记白为第,个个体第,次观测的时间,勃和均是第f 个个体在 时间,j j 的协变量和响应变量,啊为第i 个个体重复观测的数目,则纵向数据集可记为 t c t o ,) ,l i z a 【1 j 其中小高麓叫( 1 ) 。 如果爵和砖未知,则用会:和善:分别来代替西和西,;:k ! 兰工,;:k 二盟。 对给定的p 和已求出的4 4 ,西,露,通过( 2 1 7 ) 式就可以得出权函数阵只的数值解。 并且权函数的解析式更是不简单。这对于权函数的计算非常不利,但通过计算机计算权 函数还是比较容易的。由于从推导过程中不是很容易看出权函数的计算方法,所以特制 订如下计算权函数的步骤。 计算步骤2 如下 对于观测值y ( 无偏差) ,用m a t l a b 软件得出参数卢的最小二乘估计参和毒:; 对于含有偏差的观测值咒,用上述软件得出参数卢的含有偏差的估计声。和善:; 在显著水平a 下,通过( 2 1 5 ) 和( 2 1 8 ) 计算z ,和,通过( 2 1 8 ) 式得出偏差位置; 对于给定的p 值,通过( 2 1 7 ) 式求出权函数阵只,得出权阵尸,进而通过( 2 1 6 ) 式计算出凡a 。 1 9 , r - 西大学硕士学位论文偏差下估计的求法及其性质 由这种权函数得出的稳健估计的抗差能力是很强的,当然此种方法的抗差能力是必 须通过数据来显示的。将在第四节用数据展示此种方法的抗差能力。 2 4 实例分析 2 4 1 独立观测下的分析 例1 这里先用 1 4 】中有关数据 设某产品的观测值与三个因素
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工装设计合同范本5篇
- 瑞丽风情课件
- 阜阳改造工程方案公示(3篇)
- 理想立志课件
- 农业灌溉智能化系统在农田土壤水分监测中的应用研究报告
- 广西百菲乳业股份有限公司年产90000吨水牛奶制品生产线扩建项目(非辐射类)环境影响报告表
- 安全教育规程培训心得课件
- 基于核心素养培育的整本书阅读教学与实践
- 狼牙山五壮士课件
- 狐狸分奶酪课件
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 假性软骨发育不全综合征介绍演示培训课件
- 他们创造了数学:50位著名数学家的故事
- 财务管理-企业筹资方式
- 07K103-2 防排烟系统设备及附件选用及安装
- (完整)消化性溃疡PPT课件ppt
- (完整word版)A3试卷模板
- 疫苗针对性疾病暴发疫情处置课件
- 《胆囊癌诊断和治疗指南》(2023年版)解读
- GB/T 9573-2013橡胶和塑料软管及软管组合件软管尺寸和软管组合件长度测量方法
- GB/T 13173-2021表面活性剂洗涤剂试验方法
评论
0/150
提交评论