




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复旦大学硕士学位论文 中文摘要 1 9 9 0 年o w e n 首次在完全样本下提出了经验似然的方法,此后的很多研究表 明经验似然方法具有很多优于渐近正态方法的优良性质近年来,很多学者将该 方法应用到带有截断情况的统计推断中,得到了一些比正态方法较好的结果。 但在该领域仍有很多问题有待于研究,本文将采用经验似然的方法解决截断情 况下回归模型中一些参数估计问题。 全文共分四章第一章首先介绍了截断情况下回归模型的背景和完全样本 下的经验似然方法,然后简要介绍了在该领域已经解决的一些问题,最后指出 本文解决的三个问题;第二,三两章分别考察了线性回归模型中,响应变量被 截断时回归系数的估计问题和响应变量均值的估计问题;最后在第四章考察了 偏回归模型中,响应变量出现丢失,且只能观察到带有随机误差项的解释变量 时,回归系数的估计问题。 在以上三个问题中均采用经验似然的方法构造参数的置信区间,并且通过 模拟与基于渐近正态方法得到的结论进行了比较,结果表明了经验似然方法具 有艮好的性质。 关键词:线性回归模型、偏回归模型、随机截断、经验似然 复旦大学硕士学位论文 a b s t r a c t 3 t h ee n l p i r i c a ll i k e l i h o o dm e t h o dw a sf i r s ti n t r o d u c e db yo w e ni n1 9 9 0i nt h ec o m p l e t ed a t a c a s e s i n c et h e n ,m u c hr e s e a r c hw o r kh a so u t l i n e ds o i n eo fa d v a n t a g e so ft h ee m p i r i c a ll i k e l i h o o d m e t h o do v e ro t h e rc o m p e t i t o r ss u c ha st h en o r m a la p p r o x i m a t i o n r e c e n t l y ,m a n ya u t h o r sh a v e a p p l i e dt h ee m p i r i c a ll i k e l i h o o dm e t h o di n t ot h er e g r e s s i o nm o d e lw i t hc e n s o r e dd a t a ,r e s o l v e d i n a n yp r o b l e m si nt h i sf i e l d i nt h ep a p e r ,w ew i l ld e a lw i t ht h r e ep r o b l e m si nt h ef i e l dw i t ht h e e m p i r i c a ll i k e l i h o o dm e t h o d r h ep a p e ri s o r g a n i z e da sf o l l o w s i nc h a p t e r1 ,w ew i l li n t r o d u c et h eb a c k g r o u n do ft h e r e g r e s s i o nm o d e lw i t hc e n s o r e dd a t aa n dt h em e t h o do fe m p i r i c a ll i k e l i h o o di nt h ec o m p l e t ed a t a c a s e ,t h e nl i s tt h ep r o b l e m sw ew i l ld e a lw i t hi no u rp a p e r n e x t ,i nt h er e g r e s s i o nm o d e lw i t h c e n s o r e dd a t a ,w ew i l le s t i m a t et h er e g r e s s i o nc o e f f i c i e n t si nc h a p t e r2 ,a n de s t i m a t et h em e a no f t h er e s p o n s ei nc h a p t e r3 ,r e s p e c t i v e l y i nc h a p t e r4 ,w ew i l lg i v et h ee s t i m a t o ro ft h er e g r e s s i o n c o e f f i c i e n t si nt h ep a r t i a lr e g r e s s i o nw i t he r r o r - i n - c o v a r i a b l em o d e lw i t hc e n s o r e dd a t a f o re v e r yp r o b l e ma b o v e ,w ea p p l yt h ee m p i r i a c a ll i k e l i h o o dm e t h o di ne s t i m a t i n gt h ec o n f i - d e n c eo fp a r a m e t e r s ,d e f i n ea j la d j u s t e de m p i r i c a ll i k e l i h o o da n ds h o wt h a ti ta s y m p t o t i c a l l yf o l l o w s ac h i s q u a r ed i s t r i b u t i o n s o m es i m u l a t i o ns t u d i e si n d i c a t et h a tw em a yg e tb e t t e rr e s u l t st h a n t h eo n e so fn o r m a la p p r o x i m a t i o n k e yw o r d s :l i n e a rr e g r e s s i o nm o d e l ,p a r t i a lr e g r e s s i o nm o d e l ,e m p i r i c a ll i k e l i h o o d ,r a n d o m c e n s o r e d 第一章引言 1 1截断情况下回归模型的背景 在众多的统计试验中,由于干扰因素的存在,我们想要观测的数据,往往被另一变量 随机截断,此时得到的数据称为右截断数据近年来,很多学者对这种带有截断情况的统 计模型做了大量的研究 设y 1 ,班,k 为非负随机变量,相互独立且具有共同的未知分布函数f ( - ) ,a ,伤r ,瓯 是相应的非负截断随机变量,相互独立且具有共同的分布函数g ( - ) 。我们仅能观察到: 五= m i n ( y i ,c o ,以= 1 ( k o ) i = 1 ,n , 记z o ) 冬z ( 2 ) s 墨z ( 。】为z 1 ,邑,z n 的顺序统计量,6 ( 1 ) ,6 ( 2 ) ,d ( n ) 为与z ( 1 ) ,五2 ) ,盈。) 相应的截断指示函数。在截断情况下,我们只能从观察到的数据z 和d 来推断变量x 的性 质,关于这方面的研究已有了很多的结论例如,当我们研究随机变量x 的分布函数f 的 性质时,可以利用k a p l a a l m e i e r 于1 9 5 8 年提出的k m 估计户。 在线性回归模型中,我们也会遇到截断的问题,即响应变量或解释变量被另变量随 机截断。考虑如下的线性回归模型 m = x ? z + q ,i = 1 ,n 其中k 是我们关心的生存寿命,置= ( 置,置。) 是p 维解释变量,卢是p 维的未知回 归系数,c l 足随机误差项,a 是对应的截断随机变量,g 与( 墨,m ) 独立,l = 1 ,n 。 f ,g 分别是对应于生存寿命y 和截断随机变量c 的分布函数我们只能观察到1 1 个独立 同分布的样本( 墨,五,盈) = ( 墨,k a ,j m 酬) ,l = 1 ,n 现在关心的问题是如何构造回归系数的鼍信区间通常的处理方法是首先对被截断的 生存寿命根据现有的信息进行推测,再把推测后得到的样本看作是独立同分布的,采用最 小二乘法求得回归系数良而z h e n g ( 1 9 8 4 ) 证明了反的渐近正态性,由此可以构造关于回 归系数卢的置信区间,但是由传统的渐近正态方法构造的置信区间可能存在一定的缺点。 首先,小样本下得到置信区间性质不好;其次,不具有保区间性( 所谓保区间性,即估计值 不会超出真实值可能的取值范围) 由于渐近正态方法存在一定的缺点,近年来很多学者开始采用经验似然的方法来解决 塞里盘堂亟堂焦迨塞 5 该问题,并且得到一些比渐近正态方法较好的结果。在具体应用该方法解决上述问题之前, 我们首先简单介绍o w e n 于1 9 9 0 年在完全样本下提出的经验似然的方法。 1 2经验似然方法 设x 。,x 2 ,为取自r p 的n 个独立随机变量,p 1 ,且具有共同的分布函数f 0 我们知道经验分布函数 r = 去i x 。 n _ 是分布函数f 0 的非参数的极大似然估计,其中,b 是在x 点的示性函数定义如下的似 然函数 工( f ) = f ( x d , i = 1 其中f 是胛上所有可能的分布函数,f x i ) 是分布函数为f 时在x = 甄的概率我们知 道当f = r 时,上式达到最大值 我们作如下检验t t o :t ( v o ) = t ( f ) ,其中t 为统计函数此时可以用经验似然比 r ( f ) = l ( f ) l ( r ) 来构造t ( f o ) 非参数的置信区间 c = 怛( f ) l 冗( f ) r j 上述构造置信区间的方法,称为经验似然方法实际上,t h o m a s 和g r u n k e m e i e r ( 1 9 7 5 ) 首次采用该方法研究了带有截断情况的生存函数的置信区间,而o w e n ( 1 9 9 0 ) 在完全样本下 系统地提出了经验似然的方法,并用该方法构造了随机变量均值的置信区间此后,很多 学者证明了经验似然方法具有很多优良的性质,如线性不变性,保区间性,并将该方法广 泛地应用到各种统计模型中,如线性模型( o w e n ( 1 9 9 $ ) ) ,一般线性模型( k o l a c z y k ( 1 9 9 4 ) ) ,分 位数模型( z h o u ( 2 0 0 2 ) ) ,左截断模型( l i ( 1 9 9 5 a ) ) ,偏回归模型( w a n g 和j i n g ( 1 9 9 9 ) ) 等。 近年来,很多学者也将该方法应用到带有截断情况的统计模型中,得到了一些优于渐近 正态方法的结论,如随机截断模型( h o l l a n d e r ,m c k e a g u e 和y a n g ( 1 9 9 7 ) ,l i ,h o l l a n d e r ,m c k e a g u e 和y a n g ( 1 9 9 6 ) ,a d i m a r i ( 1 9 9 7 ) ,l i ( 1 9 9 5 b ) ,m u r p h y ( 1 9 9 5 ) ,l i 和v a nk e i l e g o m ( 2 0 0 2 ) ,w a n g 和l i ( 2 0 0 2 ) ,w a n g 和j i n g ( 1 9 9 9 ) ,w a n g 和w a n g ( 2 0 0 1 ) ) 复旦大学硕士学位论文 1 3本文解决的问题 2 0 0 2 年g a n gl i 应用经验似然的方法构造模型( 1 1 ) 中回归系数的置信区间,并与渐近 正态方法下得到的结论进行了比较,证实了经验似然方法的优良性质本文第二章将g a n g l i 的统计量进一步推广,同样得到渐近服从x 2 分布的似然比统计量,构造了性质更好的置 信区间 第三章中我们将考察模型( 1 1 ) 中,响应变量的均值的估计问题q i h u aw a n g 和j n k r a o ( 2 0 0 1 ) 研究了响应变量出现丢失( m i s s i n g ) ,响应变量均值的估计问题。而对于截断 回归模型中,响应变量均值的估计问题至今尚未见到有人讨论在该章中我们分别采用渐 近正态和经验似然的方法构造响应变量均值的置信区间,并比较了在两种方法下得到的结 果结果表明,基于前者得到的置信区间是对称的,这可能与实际问题相悖而采用经验似 然的方法得到了比之较好的结果,此时的结论更符合实际问题 最后,在第四章中考察偏回归模型中的截断问题考察如下的偏回归模型 m = 霹卢+ g ( t i ) + 矗,i = 1 ,n ,( 1 2 ) 其中卢是p x l 未知向量,g 是未知函数,五是p x l 可观察的解释变量,五是取值于 1 3 , 1 的另一解释变量,m 是响应变量,随机误差项矗为独立同分布均值为零方差为o z ,并 且独立于( 珥,正) 的正态随机变量 偏回归模型可以看作是半参数模型的一种,是由e n g l ee ta 1 ( 1 9 8 6 ) 在研究天气对电力 需求量的影响时提出的关于回归系数卢和未知函数g ( ) 的估计方法有很多种,如:核方 法,三角序列法等通常估计回归系数的方法是首先假定口是已知的,通过各种方法来估 计g ( ) ,在得到了g ( - ) 的估计值之后再用最小二乘的方法来估计卢,最后利用卢的估计值 来估计g ( - ) c h e n ( 1 9 9 8 ) 证明此时得到的回归系数估计值具有强相合性和渐近正态性 q i h u aw a n g 和l i - x i n gz h u ( 2 0 0 1 ) 研究了截断情况下带有随机误差项的偏回归模型中 回归系数的渐近正态性;g e n g - s h e nq i n 和b i n g y ij i n g ( 2 0 0 1 ) 考察了截断情况下偏回归模 型中回归系数的经验似然,而本章则同时考虑截断和带有随机误差两种情况下回归系数的 经验似然,即当解释变量五不能够完全观察到,而是得到带有随机误差项的协变量,并 且响应变量m 出现随机右截断的情况时,利用经验似然的的方法构造了回归系数芦的置信 区间,并与渐进正态下的结论进行了比较,结果说明了经验似然的优良性 第二章截断情况下线性回归模型中回归系数的经验似然 2 1问题的提出 在生存分析中,人们很多时候非常关,5 - 某事物的生存寿命,例如荧光灯管的使用时间, 但有时候,我们并不能完全观察到灯管的真实生存寿命通常是由于另外一个干扰因素的 存在,而出现右截断的情况,即此时我们只能观察到生存寿命大于某个值,而不能得到具 体的真实数值解决此类问题常用是方法是c o x 提出的比例失效模型( p r o p o r t i o n a lh a z a r d s m o d e l ) ,即c o x 模型,然而c o x 模型回归系数的求解一般比较困难,要用到叠代法此时线 性回归模型是另外一个可以利用的工具 考察回归模型 m = 霹卢+ q ,i = l ,n ( 2 1 ) 其中卢是p 维的未知回归系数,龟是随机误差项,a 与( 墨,k ) 独立,i = l ,n 设 x 1 ,x 2 ,为非负随机变量,相互独立具有共同的未知分布函数f ( - ) ,c l ,仍,是相 应的非负截断随机变量,相互独立且具有共同的分布函数g ( ) 我们仅能观察到; z i = m i n ( m ,a ) ,民= 1 m o ) i = 1 ,n 记z ( 1 ) z 1 2 ) z ( 。) 为z l ,邑,z n 的顺序统计量,d ( 1 】,d ( 2 ) ,d ( 。) 为与缸1 ) ,z ( 2 ) , 置m 相应的截断指示函数 由于干扰因素的影响,不能完全观察所有的响应变量通常的做法是对被截断的变量 进行一定的推测。g a n gl i ( 2 0 0 3 ) 采用了k s * v 方法对被截断的变量进行了还原推测,把推 测后的样本看作独立同分布的,应用最小二乘求得回归系数,从而采用经验似然的方法构 造了回归系数的置信区间,并与渐近正态方法下得到的结论进行了比较而本章在推测被 截断数据时则采用更为一般的方法,即c l a s sk 方法,类似地采用经验似然的方法构造回归 系数的置信区间,并在本章最后与g a n gl i ( 2 0 0 3 ) 得到的结论进行了比较结果表明,通过 c l a s sk 方法对被截断数据进行推测可以得到更好的结论 2 2 主要结果 下面采用c l a s sk 方法处理被截断的数据当k 被截断时,对它做一些补偿;而当k 7 复旦大学硕士学位论文 未被截断时,也做一些调整所以我们以 k g = 巩庐l ( 五) + ( 1 一盈) 也( 五)( 2 2 ) 8 代替k ,用最小二乘法估计卢此处扎曲2 为连续函数,且满足 ( 1 ) l ( ) ( 1 一g ( ) ) + 眉妒2 ( t ) d g ( t ) = y ( 2 ) - ,:与y 的分布函数f 无关,可能依赖于c 的分布函数g 函数对( 咖1 ,曲2 ) 满足上述条件时,称它属于c l a s sk ,记为( ,咖2 ) k 容易看出,当( 币1 ,如) k 时, e k g l = e 也1 ( z 1 ) + ( 1 一以) 如( 五) 】 = ,! 。妒l ( y i ) d f i ( y i ) d g ( u i ) + ,厶。l 曲2 ( t ) d 最( 叭) d g ( “t ) = f + o 。c o 帅t ) ( 1 一a ( y t ) ) d r ( 玑) + 麝( 如( u ) d a ( u i ) d f i ( y ) ) = 口。1 ( 玑) ( 1 一g ( u ) ) + 厝。庐2 ( u i ) d a ( u i ) d f i ( y | 1 ) = 廿o 。y l d f i ( 玑) = e k 】i = l ,n 注意到变换后的样本仍是独立同分布的,假设e ( x i 霹) 是正定阵,利用最小二乘法,可 以得到回归系数的估计:忍= ( 日( 墨x d ) _ 1 e ( x i y i a ) ,或者e x i ( y , g - - 墨怠) = 0 z h e n g ( 1 9 8 4 ) 的定理2 和定理4 分别证明了当截断随机变量c 的分布函数已知和未知的情况下,回归系 数的估计良的渐近正态性此时可以对回归系数进行假设检验得到卢的置信区间 不同于通常的渐近正态的方法,下面采用经验似然的方法估计回归系数的置信区间 由良的表达式可以看到,对于给定的n 检验日0 :卢是真实的回归系数,就转化为检验 凰:目( 眦( 卢) ) = o ,其中,眦( 卢) = x i ( k g 一耳卢) ,i = 1 ,n 如果截断随机变量的分布函数g 已知,检验e ( 吼( 卢) ) = 0 ,可直接利用经验似然的方 法,得到 f 。( 卢) = 一2 8 u p z o g ( p i ) l p i w i ( 卢) = o ,p i = 1 ,p l o ,i = 1 ,n i = 1i = li = 1 此时由于碱( 卢) ,i = i ,n 是1 2 个独立同分布的随机变量,等同于完全样本下的经验似然, 由o w e n ( 1 9 9 1 ) 可得 f 。( 卢) x :( 2 4 ) 复旦大学硕士学位论文 当分布函数g 未知时,我们利用k a p l a n - m e i e r ( 1 9 5 8 ) 提出的k - m 估计g 。来代替g 此 时,w ”( 卢) = 墨( k 疗。一霹口) ,其中 - 乜= 盘 砉击 “气。垒a 。0 , z o ) z ( 2 ) z ( 。) 是z 的n 个次序统计量,也是对应的示性函数,i = 1 ,而此时记 经验似然比为 ( 卢) = 一2 s u p 忉( n “) i 鼽眠。( 卢) = 0 ,p i = 1 渤o ,i = 1 ,n 类似与q i - h u aw a n g ( 2 0 0 1 ) 中定理2 1 ,可以证明在适当的条件下有 ( 芦) = 2 t o a 1 + a 7 w ( 卢) , ( 2 5 ) 而a 为下面方程的根, :耋揣一。 皿。, n 鲁l + ”砚。( 口) 一 r 7 此时由于眦。( 届) ,i = 1 ,n ,依赖于g 的k - m 估计西。,所以暇。( 卢) 不再是独立同分布 的,因此t ( 卢) 的渐近分布也不再是中心化的x 2 分布,显然这不利于做假设检验与g a n g l i ( 2 0 0 3 ) 类似地定义相同的调整系数因子r n ( 卢) ,使得调整后的似然比统计量渐近服从标准 的x n 分布 在给出定理之前,我们作如下的记号,记q 。( s ) = ( n i - 1z a = s 1 ) n 岛为f 的k - m 估计,且作如下的记号 哪,= 麓蒜黼, 卿,= j ( 南础,= ;娄掣, 宝n ( 芦) = 五1 五砑( x o 。珂卢) 2 , 会2 。= ;e 1 一民) ( 月r n ( z ) 日:( z i ) ) ( 1 一a i n ( z 1 ) ) , 宝。( 卢) = 壹- 。( 卢) 一宝2 。, 岛( 纠= ( 击蓦nm n ( 剐( 击薹暇n ( 剐7 , 墓旦盘堂亟堂焦堡塞1 0 “舻箍揣揣- 定义如下的调整似然比统计量 t 。d ( 卢) = r n ( 卢) t ( 卢) 下面给出定理2 ,l 所要满足的条件: c 1 对于任意的0 ss 。,曰( x j 【s y ) 存在。 c 2 对所有的ss = i n f t :q ( ) = 1 ) ,g ( 8 ) 和f ( 8 ) 没有共同的跳跃点,其中q ( t ) = p ( z ) c 3 e 业业- 。 。( 1 一g ( ”) ) ( 1 一f ( y ) ) 5 。 c 4 靠q1 i h ( s ) l l 1 一f ( s ) ) 1 f ( 3 一) 【d g ( 8 ) ( 1 一d g ( s ) ) 】( o o , 其中h ( 8 ) = e x y o i ( s o ,s ( g ( s ) 0 ,使得m a x 。i 蜉“一幽l eo s 对所有满足 s u p 1 0 。( t ) 一g ( t ) i q 的分布函数a 8 成立 在上述条件中,c 1 c 6 是g a n gl i ( 2 0 0 3 ) 定理2 1 中的条件,c 7 一c 8 是z h e n g ( 1 9 8 4 ) 考 察瓯性质时的条件,这些均是研究截断回归模型的基础条件 定理2 1 :在条件g 1 c 8 下,我们有 k , a d ( 卢) x : ( 2 7 ) 基于上式可以得到卢的1 0 0 ( 1 一o ) 的置信区间:如= 弘:t 删( 卢) ) g 0 ) ,且满足p ( 砰2s ) 曼1 一n 由定理2 1 ,l 将会有一个( 1 一o t ) 渐近覆盖概率,即;p ( z 厶) = 1 一o + o ( 1 ) 2 3主要结论的证明过程 在证明定理之前首先证明如下的引理 复旦大学硕士学位论文 引理2 1 :在条件c 1 一c 8 下有 赤蚤眠n 一( 0 j ( 卢) ) , ( 2 _ 8 ) 其中( 卢) = l ( 卢) 一2 证明:注意到条件c 7 ,c 8 ,证明过程类似于l a i ( 1 9 9 5 ) 定理2 的证明。 引理2 2 在条件c 1 c 8 下,有 燃 眦n l l 2 o v ( n 一5 1 ) , 2 0 p ( n i ) - 证明:首先 1 m 。a xi i w | n 忙爰黑慨( k 矗一k o ) 1 1q - 1 霉黑i i w , i i - 由满足条件c 7 ,c 8 的咖1 ,也和p e t e r s o n ( 1 9 7 7 ) :0 。( t ) _ c ( t ) n 易得 1 m 洳a x 怖( 誓矗一k c ) l l = o p ( 1 ) - 又由o w e n ( 1 9 9 0 ) 定理3 得 m 瑟i i w , i i 2 0 p m i ) , 综合上面的两个式子可得引理2 2 的第一式 下面我们证明引理的第二式,设 = 印,其中p 0 ,并且i = 1 小特征值,则由o w e n ( 1 9 9 0 ) 可得 矿竞l 。( 卢) 8 设e j 为第j 个单位特征向量,则由上式和引理2 1 可得 l 畦耋弓n 瞩。忙o p ( n 一 ) t = i = l 类似与o w e n ( 1 9 9 0 ) 中( 2 1 4 ) 的证明可以得到 1 1 1 1 = o p ( n 一 ) ( 2 9 ) ( 2 1 0 ) 设唧为l ( 卢) 的最 所以引理2 ,2 得证 定理2 1 的证明:注意到m a x i i 0 ,使得p ( 1 m lsg 肌。1 3 ,is is n ) _ 1 ,当n _ 。所以有 ( 卢) = 耋+ 。( 卢) = 圣n 2 l o g 1 2 ( r 一;( 眦。) 2 ) + ( 2 1 3 ) ( 卢) = + n ( 卢) = ( 7 w 一;( 眦。) 2 ) + ( 2 t = jt = l 其中当n _ 。时有 p ( 1 i 兰c 旷暇。1 3 ) _ 1 = l 注意到 ;| | 。1 1 2 = o a i ) , 所以有冬li 7 眠。1 3 恻rm a x l i 。l l 毗。| | 饕1i | m 。1 1 2 = 唧( 1 ) 结合上面的式子可以得到 l 【= o r ( 1 ) 注意到 。= :薹熹= ;耋m 以一r 眦n 十若安甓, = :壹i = l m n c :耋睨n w 。r ,- + :耋等辛等筹 由上式和c 2 ,c 3 可以得到 nn a = ( 胍。w i t , ) 一1 。+ o p ( n 一 ) 所以有 。= 娄赢= 娄c 矿暇n ,一娄c ”炉+ 耋s 罢甓 而由c 1 c 2 和式子( 2 1 5 ) 可得 :娄筹装叫u 由( 2 1 7 ) 整理易得 a r m 。= ( 矿暇。) 2 + o p ( 1 ) , 结合( 2 1 3 ) ,( 2 1 6 ) ,( 2 1 7 ) 和上式,可得 ( 卢) = ( 赤三晰竞“酬击;聃n ) + 唧( 1 ) ( 2 1 4 ) ( 2 1 5 ) ( 2 1 6 ) ( 2 1 7 1 ( 2 1 8 ) 1 2 复旦大学硕士学位论文 由s t u t e 和w a n g ( 1 9 9 3 ) 可得下式依概率成立 e 2 。( 卢) _ 2 。( 卢) 容易证明 e 1 。( 卢) _ e 1 。( 卢) 所以下式依概率成立 e 。( 卢) 斗e ( 卢) 由引理2 1 和( 2 1 3 ) ,( 2 1 5 ) ,( 2 2 1 ) 可得 k ( 仂= ( 赤善职( 刚赤三) 邶) + 0 p ( 1 ) _ f 1 ( 卢) z _ 瑶 1n1 即调整似然比统计量渐近服从自由度为p 的x 2 分布,定理得证。 2 。4 模拟结果 ( 2 1 9 ) ( 2 2 0 ) ( 2 2 1 ) 1 3 g a n gl i 已经将基于渐近正态和经验似然方法下的结论进行了比较,实际上,本章是 将g a n gl i 中的方法推广为更为一般的情况下面我们比较g a n gl i ( 2 0 0 3 ) 与本章得到的结 果。注意到,当毋l ( z ) = f 蠢研,曲2 = 0 ,本章所得结果等同于g a n gl i ( 2 0 0 3 ) 的结果,即 g a n gl i ( 2 0 0 3 ) 为本文的一个特例而在这里我们取也( z ) = 出( z ) = 膏t 刁d u 丽,容易验证这 样的取法满足本章的要求,即( 壬1 ,如) k 模拟如下的回归方程y = 1 十x + e 中回归系数置信区间的覆盖概率,其中x 是独立同 分布均值为0 ,方差为o 2 5 的正态随机变量,且与e 独立。截断随机变量c 是均值为u ,方 差为2 的正态随机变量,通过u 的变化来决定随机截断比例的大小。q 为标准正态分布。 每个试验在同样的条件下重复作1 0 0 0 次。得到如下的结果,我们分别用a d e l ,a d e l k 表 示g a n gl i ( 2 0 0 3 ) 和本章的结果由下面的模拟结果可以看到 ( 1 ) 在相同的样本下,随着截断部分的增加,两种方法得到的置信区间的覆盖概率均逐渐降 低 ( 2 ) 在相同截断情况下,随样本容量的增加,两种方法得到的置信区间的覆盖概率均逐渐增 加 ( 3 ) 在上面的两种情况下由本文所选取l ,也所得的结论均优于g a n gl i ( 2 0 0 3 ) 的结果 塞里盘堂堕主芏焦地塞 1 4 壹竺! 回归垂塾里焦匡闻鱼盐鲤蕉童塑奎: o t = o 1n = 0 0 5 截断比例样本容量n a d e la d e l ka d e la d e l k 0 5 4 0 3 2 5 0 1 0 0 2 0 0 5 0 1 0 0 2 0 0 0 8 0 60 8 6 3 0 8 0 80 8 8 9 0 8 4 90 9 0 0 0 8 2 90 8 6 8 0 8 8 30 8 9 7 0 8 8 80 8 9 4 0 8 5 10 9 3 0 0 8 8 40 9 3 3 0 8 9 60 9 3 8 0 9 0 109 2 8 0 9 1 00 9 4 2 0 9 3 80 9 5 0 第三章截断情况下线性回归模型响应变量均值的经验似然 3 1 问题的提出 设k 足我们关心的随机变量,如荧光灯管的寿命,但是由于干扰因素q 的存在,只能 观察到两者较小的一个,并且知道k 是否被截断,即 五= r a i n ( y , ,c o ,丑= 1 ( y i ! a ) = 1 , 记z 0 ) z ( 2 ) z ( 。) 为z 1 ,面,磊的顺序统计量,6 ( 1 ) ,& 2 ) ,5 ( 。) 为与盈1 ) ,z ( 2 ) ,甄。 相应的截断指示函数我们关心的问题是如何构造k 均值的置信区间q i - h u aw a n g ( 2 0 0 1 ) 已经利用经验似然的方法很好地解决了该问题如果还有另外一个辅助的解释变量置,并 且该变量与截断指示函数巩无关,由此我们可以得到更好的结论 构造如下的回归模型 m = 霹卢+ q ,i = 1 ,n 其中月是p 维向量,e i 是独立同分布的正态随机变量,e e i :0 ,v a t e 1 _ a 2 ,且与墨是 独立的。 现在考虑响应变量的均值,由于出现了随机截断的情况,直接应用通常的方法可能得 不到很好的结果为此,首先利用辅助变量的信息,对被截断的响应变量进行一定的推测, 在得到推测值后,把此时的样本看作是普通的独立同分布的情况,应用最小二乘求得回归 系数对于被截断的数据用对应的预测值,而没有被截断的数据用原来的数值。 在该章中我们分别采用渐近正态和经验似然的方法构造响应变量均值的置信区间,并 通过模拟比较了利用两种方法得到的结果可以看到,基于前者得到的置信区间是对称的, 这可能与实际问题相悖。而采用经验似然的方法得到比之较好的结果,此时的结论更符合 实际问题。 至于截断随机变量的推测问题,很多学者进行了研究,如b u c k l e y 和j a m e s ( 1 9 7 9 ,1 9 8 4 ) 提出的b a c k l e y - j a m e 估计,k o u l ,s u s a r l a 和v a nr y z i n ( 1 9 8 1 ) 提出的k s v 估计,更为详细 的结论可以参阅参考文献【5 0 】 1 5 复旦大学硕士学位论文 议用 3 2主要结论 本章我们采用k s v 估计,对响应变量进行一定的调整k o u l ,s u s a x l a 和v a nr y s i n 建 代替y i ,解出最小二乘估计 玑。:l 南 【0 , 民= 1 & = 0 卢竹= ( x 7 x ) 。x 7 y g 从直观上讲,这一方法是把非截断的数据抬高,而把截断数据一律将为零,然后作回归分 析上述的取法是基于: 跳叫焉】 = k 酱 = e rd a ( u t ) 】南吲y i ) = y i d f i ( y i ) = e k = 砑卢 当分布函数g 已知的时候,很容易得到m g ,并且由于k 的独立性,可知良是卢的无 偏估计,且在一定条件下,易得:床+ 卢a s ,, a ( 良一犀) - - - - 4 n ( o ,0 2 ) 在得到了回归系数 的估计值后,就可以对响应变量进行调整,没有被截断的使用原来的数值,而对于被截断 的用回归模型的预测值代替,即: 五。= 民k + ( 1 一民) e = 民k 十( 1 一民) 霹怠i = 1 ,n 假设e 吲= 口,当0 = o o 为响应变量真实的均值时,利用响应变量的调整值五。可以很 容易地得到o o 的一个估计,即: 1n 1 n 乱2 :圣五n2 i 圣( 民m 十( 1 一民) 霹良) 此时我们有: 1 6 复旦大学硕士学位论文 其中 定理3 1 假设e l lx l 。o ,曰t 2 m ,0 0 是0 的真实值,则有 去n ( 五。一e o ) _ ( o ,y ( ) ) , 西鲁” 。”“1 v ( o o ) = s l 十韪s 1 岛矿+ 矿p 一2 咒 3 0 0 + 0 3 十2 韪爵1 而,s 1 = e 陋( y x 7 卢) 2 】,岛= e l ( 1 6 ) x ,岛= e d x x 7 ,& = e x x 7 】,兜= e 瞵 ,风 e 陋x 卜 当v ( o o ) 未知的时候,将v ( o o ) 中的期望形式换成n 个样本的和记作9 ( o o ) 来估计 即: s 。= n _ 1 也瞰一五良) 2 ,s 2 n l = 1 n 鼠n = n 。1 6 i x i x ,s 4 。= = n 。( 1 6 i ) x , n 。1 五霹, nnn s 5 。= n 。1 五,s 6 。一n _ 1 6 i x i ,口。2 = n _ 1 ( k 一置良) 2 扛1 = l = l 由定理3 1 ,氏的渐近正态性易得0 0 的置信区间。下面用经验似然的方法来构造舶的 置信区间。 设昂为五。的分布函数,p = ( p l ,p 。) 为对应的概率向量,即饕lp l = 1 ,p i 0 ,i = 1 , 所以目( 昂) = 冬1 p i g , 。当0 = o o 时似然函数为: 由拉格朗日乘子法易得 纠吼) _ 胁m 墨a x 一:。娶鼽 肼= : 1 + h ( 蜀。一) ) , = 1 ,n 其中k 是下面方程的根, 矗1 刍。n 再可( z l n 翮- 0 0 ) = 。 注意到,当n p i = 1 时,m “兀坠1 p i = n 1 当且仅当,p l = ;定义如下的似然比 r ( ) = i i ( 坤i ) = 1 十a 。( z i 。一岛) ) t = lf = 1 1 7 复旦大学硕士学位论文 相应的对数似然比: e c o o ) = 2 l o g 1 + h ( 五n 一如) ) i = l 与完全样本下的似然统计量相比,这里的磊。不再是独立的,所以该似然比统计量不再 服从标准的x 2 分布下面我们对该统计量进行适当的调整,使之服从标准的的x 2 分布, 以进行假设检验 定义如下统计量: z ( 口) = h ( p ) ( 日) 其中h ( 日) 是调整系数因子: r n ( 日) = 谤器, 其中,k ( 口) = i 1 厶l _ n - ( 五n 一口) 2 定理3 2 假设e l lxl l o c ,e e 2 o o ,0 0 是目的真实值,则有: 由定理3 2 可以容易得到0 0 的置信度为1 一n 的置信区间l = 日:l ( 日) ) ,其中, 满足p ( x i ) = n 通过3 4 的模拟可以看到此时构造的置信区间要优于渐近正态下 的结果 其中 定理3 1 的证明。首先 由中心极限定理,可得 3 3主要结论的证明过程 去蚤一舶) 喝l + 们 耳= n 1 ,2 盈( m 一珥口) 】, t = 1 n r 2 = n - 1 1 2 ( 1 一民) 工? ( 良一卢) i = 1 n t n 3 _ n - l 2 ( 霹卢一o o ) t = l t x n ( o ,s 1 】 复旦大学硕士学位论文 由卢。的定义,可得 直接计算可得 t , 2 t , 3 n ( 0 ,卢7 卢一2 s j 卢吼+ 磅) nnn ( ( 1 一如霹) ) ( 也置霹) 。( n 。1 2 文墨e 1 ) n = e 0 一d ) x 7 ( e e d x x 7 】) 。( n _ 1 2 也墨q ) + 0 p ( 1 ) i = 1 u ( 0 ,舅s 1 口2 ) c o v ( t , 1 ,3 ) = 0 ,c ( b 2 ,t 竹3 ) = 0 c w ( l ,晶2 ) = 墨s 1 s 6 a 2 所以定理得证 在证明定理3 2 之前先证明下面的几个引理。 引理3 1 在定理3 1 的条件下,则有t i ( 五n o o ) 2 = s l + 卢7 & 卢一2 s 弘o o + 醣+ o d a ) 证明:由大数定律易得; :耋( 磊n 一如) 2 = i 薹瞰k 一研卢) + ( 1 一瓯) 霹一卢) + ( 研卢一刚2 = 风l + 巩2 - f 3 + 0 p ( 1 ) , 其中, 吼l _ i 以( k 一研皑 。= :( 霹卢一0 0 ) 2 , 3 2 ;民( m 一霹卢) ( 胃卢一0 0 ) 所以由大数定律可得: r 1 1 s 1 2 卢7 s 4 卢一2 n 卢o o4 - 晾 1 9 复旦大学硕士学位论文 。f k 3 _ e 陋( y x 7 卢) ( x 7 芦一风) = 0 所以引理3 1 得证 引理3 2 记刍。1 :m a x l ! i g 。i 五。h 在定理3 1 的条件下,则有: z ( n 1 - o p ( 1 ) , 证明t 注意到, z ( n ) 燃l m l + 燃i i x , l l l l 卢, :l l 由o w e n ( 1 9 8 8 ) 的引理3 ,可得: 1 m 。m a x g i i2 唧( n 1 2 ) ,l l l l a , x i l x d l = o p ( n 1 2 ) 由定理3 1 ,风= o v ( 1 ) ,综合上面的式子,结论得证 引理3 3 在定理3 1 的条件下,则有: a 。= o p m 一1 卢) 证明;由定理3 1 可得: 磊1 n ( 磊n - - o o ) = o g n - 1 2 ) 由上面引理3 2 的证明,类似与o w e n ( 1 9 9 0 ) 中定理的证明易得引理3 3 定理3 2 的证明:对e ( o o ) 进行t a y l o r 展开,可得 ( 岛) = 2 妻i = l n ( 五n 一) 一互1 【 n ( 互n 一) 2 ) + 其中, n g l a 。( 磊。一o o ) 1 3 i = 1 由引理3 1 ,3 2 ,3 3 可得: 注意到 is g m 3 1 m l t ,d = o ) 1 = e ( u l m g e m g l x i ,t 1 】+ 。翻) ( u 1 h g e y 1 g i x i ,丑 + e 。翻) 7 邑= k g e ( y i a i ,t d ,。= n - 1 ( ( 一e 暇i 正 ) 良+ 。卢)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学一年级第二学期班主任工作计划
- 湘教版六年级下册音乐欣赏教学计划
- 三年级上册亲子合作活动教学计划
- 家居新零售2025年线上线下融合模式创新模式与智能家居增强现实技术应用研究报告
- 农田管理中重点环节与风险监测计划
- 农村电商背景下2025年农产品上行模式与品牌合作策略研究报告
- 金融量化投资策略优化与风险防范策略研究报告(2025年)
- 2025-2030年中国电抗器行业现状分析及及前景趋势预测报告
- 2025-2030年中国甜橙涂层行业市场现状分析规划研究报告
- 2025-2030年中国现代物流市场调研分析及投资前景规划研究报告
- CJT156-2001 沟槽式管接头
- 河南省信阳市固始县2023-2024学年四年级下学期期末数学试题
- 合作社用地租赁合同样本
- 2024-2030年中国街舞培训行业市场发展现状及竞争格局与投资战略研究报告
- 大学写作训练(第四版)课件 第15章 微型小说
- 农业生物防治技术规范
- 幼小衔接 每日一练
- 船舶装备可靠性与安全评估技术研究
- 本质安全培训课件
- 哈尔滨市木兰县文职辅警招聘考试真题
- 室上速心动过速治疗
评论
0/150
提交评论