(概率论与数理统计专业论文)区间数据的若干问题研究.pdf_第1页
(概率论与数理统计专业论文)区间数据的若干问题研究.pdf_第2页
(概率论与数理统计专业论文)区间数据的若干问题研究.pdf_第3页
(概率论与数理统计专业论文)区间数据的若干问题研究.pdf_第4页
(概率论与数理统计专业论文)区间数据的若干问题研究.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

(概率论与数理统计专业论文)区间数据的若干问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在生存分析和可靠性研究中,常常因为客观条件的限制无法得到失效时间的准 确观测值,只能观测到它所处的区间,在统计学中一般将这类数据称为区间截断数 据( i n t e r v a lc e n s o r e dd a t a ) ,简称区间数据。区间数据的存在使碍许多传统的统计 方法都无法直接使用,所以无论是从实际应用还是理论研究的角度来说,对区间数 据的相关问题进行研究都是很有意义的 区间数据的统计研究由来已久,目前已有大量的相关文献在这些研究中,较为 典型的一类是采用非参数极大似然( n p m l e ) 的思想来解决分布函数估计问题和回 归模型中的问题,得到了一些较好的理论结果但是利用极大似然方法进行区间数 据的研究也存在着一些不足,求解非参数似然方程的过程非常繁琐,常常只能通过 迭代计算的方法得到似然方程的近似解,实际操作难度较大因此,本文从无偏转换 ( u n b i a s e dt r a n s f o r m a t i o n ) 的思想出发,对区间数据的一些相关问题进行了研究 无偏转换的主要思想是;构造出一个和被截断随机变量均值相同的统计量,然后再 利用传统的统计方法进行研究使用这种方法对区间数据的相关问题进行研究,可 以得到很多传统方法所能得到的优良性质,从实际操作的角度来讲,也比n p m l e 更加便捷 文章的第一章对区间数据的定义、区间数据相关问题的一些现有研究以及无偏 转换的思想进行了介绍;从第二章到第五章,本文利用无偏转换的思想,解决了区 间数据的若干估计问题第二章将z h e n g ( 2 0 0 3 ) 对区间数据的期望进行估计的做法 进行了推广,得到了区间数据任意阶原点矩和方差的估计,并证明了估计量的强相 合性( 收敛速度可以达到礼一j ( 1 0 9 l o g n ) ) 和渐近正态性;第三章研究了线性回归模 型中响应变量为区间数据时误差项方差的估计,文中利用无偏替代变量构造了误差 项方差的一个估计类,并证明了这个估计类中所有的估计量都具有渐近无偏性、强 相合性和渐近正态性;第四章研究了非参数回归模型中响应变量为区间数据时回归 函数的估计,文中利用无偏替代变量来求回归函数的近邻权函数估计,并证明了所 得估计的强相合性;第五章考虑了截断变量的分布密度函数g 未知的情形,对区间 数据的任意阶原点矩、方差、响应变量为区间数据时简单线性模型的回归系数和误 差项方差,以及响应变量为区间数据时非参数回归模型的回归函数进行了估计,在 比较合理的条件下得到了这些估计量的强相合性质;并且证明了可以选取适当的无 偏转换,使得其中部分估计量的强相合收敛速度达到相应的一元密度函数估计的强 相合收敛速度;第六章用模拟计算验证了上述结论 关键词:区间数据无偏转换强相合性渐近正态性 a b s t r a c t i nr e l i a b i l i t ya n ds u r v i v a la n a l y s i s ,t h ed a t ao b t a i n e di nm o d e l l i n gf a i l u r et i m e s a r eo f t e ni n t e r v a lc e n s o r e d t h ee x a c to c c u r r e n c et i m eo fa ne v e n ti sn o to b s e r v e d , b u tw h a ti sk n o w ni st h ei n t e r v a li nw h i c ht h ee v e n tt o o kp l a c e t h e ya r eg e n e r a l l yn a m e d a si n t e r v a lc e n s o r e dd a t aw h e ni n t e r v a lc e n s o r i n ga r i s e s ,a h n o s ta l l t r a d i t i o n a ls t a t i s t i c a lm e t h o d sc a n n o tw o r ka n ym o r e r e c e n t l yt h e r ei sa ne n o r m o u sa m o u n to fl i t e r a t u r eo ni n t e r v a lc e n s o r e dd a t a i nt h e s es t u d i e s ,n o n p a r a m e t r i cl i k e l i h o o de s t a m a t i m r ( n p m l e ) a r ew i d e l yu s e di n e s t i m a t i n gd i s t r i b u t i o nf u n c t i o no rr e g r e s s i o np a r a m e t e r s t h e s ee s t i n l a t o r sa l l h a v e g o o da s y m p t o t i cp r o p e r t i e s i t sl i m i t a t i o n i st h a ti ti s c o m p l i c a t e dt ow o r ko u t t h el i k e l i h o o df u n c t i o n sa n di nm o s ts i t u a t i o n sw ec a no n l yu s ei t e r a t i v eo p e r a t i o m t og e ta na p p r o x i m a t es o l u t i o n i nt h i sp a p e rw ew i l lu s eu n b i a s e dt r a n s f o r m a t i o n m e t h o dt os o l v es o m ee s t i m a t i n gp r o b l e m so fi n t e r v a lc e n s o r e dd a t a b a s e do n t h eo b s e r v a t i o n sw ec o n s t r u c tas e r i e so f n e wv a r i a b l e s t os u b s t i t u t et h ec e n s o r e d v a r i a b l e t h e s en e wv a r i a b l e sh a v et h es a m ee x p e c t a t i o na st h ec e n s o r e dv a r i a b l e i nt h i sw a ym a n yt r a d i t i o n a ls t a t i s t i c a lm e t h o d sc a nb eu s e da g a i n i nc h a p t e r1 ,w eb r i e f l yr e v i e ww h a ti sk n o w na b o u ti n t e r v a lc e n s o r e dd a t aa n d t h en o n p a r e m e t r i cl i k e l i h o o de s t i m a t i o n s u b s e q u e n t l yw ei n t r o d u c et h eu n b i a s e d t r a n s f o r m a t i o nm e t h o d i nc h a p t e i2 ,w ee s t i m a t et h er t ho r i g i n a lm e m e n ta n d v a r i a n c eo ft h ec e n s o r e dv a r i a b l ea n dg e tac l a s so fe s t i m a t o r sh a v i n gs t r o n gc o n s i s t e n c y ( w i t ht h er a t eo fo ( n j ( 1 0 9 l o g n ) j ) ) a n da s y m p t o t i cn o t m a l i t y i nc h a p t e r 3 ,w ee s t i m a t et h ev a r i a n c eo fr a n d o me r r o rt e r mi nt h el i n e a rr e g r e s s i o n m o d e l w h i c ha l l o w st h ed e p e n d e n tv a r i a b l et ob ei n t e r v a l c e n s o r e da n dt h er e s i d u a ld i s t r i b u t i o nt ob eu n s p e c i f i e d t h ee s t i m a t o r sh a v eg o o dp r o p e r t i e ss u c ha ss t r o n g c o n s i s t e n ta n da s y m p t o t i cn o r m a l i t y i nc h a n p t e r4 ,w ec o n s i d e rt h en o n p a r e m e t r i cr e g r e s s i o nm o d e lw i t ht h ed e p e n d e n tv a r i a b l et ob ei n t e r v a l c e n s o r e d a f t e r u n b i a s e dt r a n s f o r m a t i o n ,t h en e a r e s tn e i g h b o u re s t i m a t o ro fr e g r e s s i o nf u n c t i o ni s s t r o n g l yc o n s i s t e n t i nc h a n p t e r5 ,w ec o n s i d e rt h es i t u a t i o n sw h e r et i md i s t r i b u t i o no ft h ec e n s o r i n gv a r i a b l e sa r eu n s p e c i f i e d a l la b o v er e s u l t sa r es u b s t a n t i a t e d b ys i m u l a t i o n si nc h a n p t e r6 k e yw o r d s :i n t e r v a lc e n s o r e dd a t a ,u n b i a s e dt r a n s f o r m a t i o n ,s t r o n gc o n s i s t e n c y a s y m p t o t i cn o r m a l i t y 论文独创性声明 本沦文是我卜人在导师指导下进行的研究:l 仵及取得的研究成果。论文 中除了特别加以标注和致谢的地方外,不包含其他人或其他机构已经发表或 撰写过的研究成粜。其他同志对本研究的启发和所做的员献均己在论文中做 了明确的声明并表示了谢意。 作者签名:半睥同期:衅 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印,缩印或其它复制手段保存论文。保密的论文在 解密后遵j :此规定。 1 一 作者签名: 丑2 星蛤一导师签名: 掀日期:必一 第一章引言 1 ,1区间数据的定义 在生存分析和可靠性研究中,常常因为客观条件的限制无法得到失效时问的准 确观测值,只能观测到它所处的区间,在统计学中一般将这类数据称为区间截断数 据( i n t e r v a lc e n s o r e dd a t a ) ,简称区问数据下面是几个区间数据的实际例子: 例1 、在生物化验和药物的毒性研究中,为了知道某种药物的最高用药剂量, 常通过实验来进行测试在实验过程中,只有通过实验对象对药物的反应来判断剂 量是否已经超过用k 表示第i 个实验对象可承受的最高剂量,显然在这个试验 中,k 的取值是无法准确观测到的假如在试验过程中让每个实验对象经历两个 试验阶段,首先采用一个较低的剂量阢,经过一段时间后如果没有出现过量反应, 再将剂量增加到如果在实验刚开始,用药剂量为阢时,实验对象已有过量反应 出现,那么其实际能承受的最高剂量k 在( 0 ,玩) 区间内,这时得到的观测数据被 称为左截断区间数据;如果采用剂量矾的那段时间内并没有过量反应出现,而当 剂量增加为k 后出现了过量反应,那么在( u l ,k ) 区间内;如果在用药剂量达 到k 时实验对象仍未出现不良反应,那么k 在( k ,+ o o ) 区间内,这时得到的观测 数据被称为右截断区间数据总的说来,这样一些观测数据,在统计学上被称为区 间数据 例2 、如在一些传染性疾病的感染时间研究中,实验对象被放入感染源后,染 上传染病所经历的时间无法准确观测到,只能通过观测知道它处在某区间中 例3 、通过破坏性实验进行的产品寿命研究( 如灭火器) ,也只能通过实验观测 到该产品的寿命和某个观测时间点的大小关系 综上所述,区间数据有着广泛的应用背景,因此对它进行深入的研究是很有必 要的 为了统计处理上的方便,常常将区间数据分为以下两类( 用y 表示原本想要观 测的随机变量) : ( 1 ) 、区间截断情况( “c a s e ”j n t e r v a lc e n s o n g ) 或称当前状态数据 ( c u r r e n ts t a t u sd a t a ) 在试验中,只观测到了( v6 ) ,v 表示“检查”或“观测”的时间,6 = ,( y v ) , 其中n 1 是示性函数,这类模型被简记为模型( i ) 例3 就属于这种情况 区间截断情况1 和右截断数据( r i g h t c e n s o r e dd a t a ) 、右截尾数据( r i g h tt r u n c a t i o nd a t a ) 有显著差异在右截断数据中,观测数据包括( r a i n ( kv ) ,j f y v 时,无法观测到任何数据;在区间截断情 况1 中,观测数据包括( vj f y c ) ,目标标量y 始终都没有观测到 ( 2 ) 、区间截断情况2 ( “c a s e2 ”i n t e r v a lc e n s o r i n g ) 在例1 和例2 中,只能知道y 相对于某个随机区间( u ,v ) 的位置,可能在区 间内,也可能在这个随机区间的左边,或在这个随机区间的右边因此观测值包括 ( u k6 1 ,6 2 ,x ) = ( u k y u ) ,i w y v ) ,x ) 这类模型被简记为模型( i i ) 在区间数据的所有情况中,如果y 是回归模型中的响应变量,那么观测值还 会包括解释向量x ,x 可能是一维的,也可能是多维的 本文将主要对模型( i i ) 进行研究,并将模型( i ) 作为模型( i i ) 的特例进行讨 论 为了表述上的方便,论文中采用统一的记号表示:用f ( ) 表示y 的分布函数, g ( ,- ) 表示( uv ) 的联合分布函数,9 ( ,) 表示( 阢v ) 的联合分布密度函数有解 释变量存在时,用b ( ) 表示给定x = 。条件下y 的分布函数 区间数据的研究中有一个最基本的假定,那就是:y 和( uv ) 独立;或者在 给定x 的条件下,y 和( uv ) 条件独立 1 2区间数据问题的处理方法回顾 当某随机变量的观测数据是区间数据时,大家比较关注的相关统计问题主要集 中在两大类:一是如何通过这批区间数据去分析该随机变量的一些统计特征,如均 值、方差以及分布函数;再就是如何通过这批区间数据去分析该随机变量和其他量 之间的关系,如回归分析在以往的区间数据研究中,有大量的工作都是集中在这两 方面的,它们大多数采取的是非参数极大似然的方法,在这里只作一个简单介绍, 详细情况可参考综述文献h u a n ga n dw e l l n e r ( 1 9 9 7 ) 1 分布函数的非参数极大似然估计( n p m l e ) 区间数据( 阢k6 。,如) 的联合分布密度函数为 p ( u , ,曲,6 2 ) = f ( u ) 以【f 扣) 一f ) 】b 1 一f ( u ) 。“2 9 ( u , ) 2 因此由独立样本( 巩,k ,6 1 。,d 2 。) ,i = 1 ,2 ,礼得到的对数似然函数为 n l 。( f ) = 6 1 。l 。g f ( 阢) + 5 2 l o g f ( v i ) 一f ( 巩) i = 1 + ( 1 一d l 。一如。) l o g 1 一f ( k ) ( 1 ,2 1 ) 由于似然函数l ( f ) 只在截断变量的观测值 巩,k ) 坠。处依赖于f ,一般考 虑在右连续不降的阶梯函数区间范围内寻找f 的n p m l e 吱,而且赢仅在观测 点 矾,v d l ,上有跳跃在这个函数范围中,通过方程( 1 2 1 ) 就可以得到f 的 n p m l e t u r b u l l ( 1 9 7 6 ) 得到了区间数据的自相合方程,这为分布函数的非参数极大似 然估计的计算提供了一种e m 算法g r o e n e b o o ma n dw e l l n e r ( 1 9 9 2 ) 运用了 i c m ( i t e r a t i v ec o n v e xm i n o r a n t ) 算法来求解似然方程,并且证实了:当样本很大 时,由i c m 算法得到的估计的收敛速度远大于e m 算法所得到估计的收敛速度 2 回归函数的非参数极大似然估计( n p m l e ) 有协变量x 存在时,区间数据( kd l ,如,x ) 的联合分布密度函数为 p ( u , ,5 - ,炙,z ) = r ( u ) 6 1 【r ( w ) 一b ( “) 6 2 1 一b ( 口) 1 - 5 1 - 6 2 h ( u ,”,z ) , 其中h ( - ,- ) 表示( uvx ) 的联合分布密度函数因此由独立样本( 阢,k ,d 。,如。,x 。) , i = 1 ,2 ,礼得到的对数似然函数为 n k = s u l o g f x 。( 矾) + d 2 i l o g f x 。( v d f x 。( 阢) z = 1 + ( 1 5 1 i 一如。) l o g 【1 一取( k ) )( 1 22 ) 在区间数据的回归分析中,加速失效时间回归模型( a c c e l e r a t e df a i l u r et i m e r e g r e s s i o nm o d e l ) 的研究得到了广泛的重视,下面就以这个模型为例来说明区间数 据的回归模型中非参数极大似然方法的使用 简单起见,令y 为失效时间的对数变换或者是其它单调的函数变换,假定u 和v 是对“观测时间”进行同样的变换得到的值,0 k ) 的一个估计再利用最小二乘 法重新得到回归系数的估计( a t ,卢) ,重复上述过程,这样就得到了回归系数的一列 估计 b u r k l e y - j a m e s 面临一个很大的问题,那就是这一列回归系数的估计可能不收 敛 j a m e sa n ds m i t h ( 1 9 8 4 ) 对b u r k l e y j a m e s 估计的相合性进行了研究,但上述 迭代算法的收敛性问题仍未得到解决 在b u r k l e y j a m e s 思想的启发下,k o u l ,s u s a r l aa n dv a nr y z i n ( 1 9 8 1 ) 考虑了 一种只依赖于分布函数g ( ) 的构造k + 的方法 假定g ( - ) 和x 无关, k ) 坠,和 。】。n 独立他们建议采用 k + 2 南文 来代替k ,其中g ( ) 是k 的分布函数从直观上讲,就是把非截断数据抬高,而 把截断数据一律降为零类似于( 1 3 1 ) 可以得出回归系数的最小二乘估计 当分布函数g ( ) 已知时,k + 可以通过观测值得到,并且由于玲,i = 1 ,2 ,n 的独立性,在一定条件下,回归系数的强相合性、渐近正态性可直接得到当分布 函数g ( ) 未知时,k o u l ,s u s a r l a 和v a nr y z i n 建议用 g 。,= 一垂 丁 每i 猕 “畸2 “勺g 来估计g ( t ) ,其中小( ) 表示超过的历的个数然后用 或2 j 蒜眦y i _ m n , 替换被截断的k ,其中( 晒。) 是一串趋于o o 的数在一定条件下可以证明,由此 得到的回归系数的估计是l 2 收敛的 和b u r k l e ya n dj a m e s ( 1 9 7 9 ) 的方法相比,k o u l ,s u s a r l a a n dv a i lr y z i n ( 1 9 8 1 ) 提出的估计方法解决了收敛问题,并得到了估计量的渐近正态性,从而使得利用无 偏转换解决截断数据的线性回归问题第一次达到了理论的高度 在前人工作的基础上,z h e n g ( 1 9 8 4 ) 提出了一类具有代表性的无偏转换方法, 命名为c l a s sk 方法这种方法的主要思想是:当k 被截断时,应该对它作一些补 偿;当k 未被截断时,也要作一些调整 假定g ( - ) 和贯无关, k ) 警,和忙0 警。独立用 k + = 6 。庐,( 五) + ( 1 一瓯) 2 ( 五) 代替m 在这里,咖,( ) ,也( ) 是连续函数,且满足 1 一g ( ) 】咖l ( ) + 西2 ( t ) d g ( t ) = y r 0 【i i - ( ) ,2 ( - ) 与y 。的分布函数r ( 一) 无关,但可能依赖g ( ) 函数对( - ( ) ,z ( ) ) 满足上述条件时,称它属于c l a s sk ,记为( 咖,2 ) k 容 易证明:当( 咖,。) k 时,k + 和有相同的均值如果把k 4 看作k 的估计,那 么c l a s sk 可以提供出很多有意义的“估计”特别地,令曲- ( z ) = i = 暑两,曲。( z ) = 0 , 就得到了k o u l s u s a r l a - v a nr y z i n 估计 实施了这种转化以后,无截断情况下的许多分析方法都可以用于处理转换后的 数据z h e n g ( 1 9 8 4 ) 证明了,当g ( - ) 已知时,在较一般的条件下,由c l a s sk 提供 的回归系数的估计具有强相合性、渐近正态性以及驴收敛;当g ( r ) 未知时,采用 修改的k a p l a n m e i e r 估计代替g ( - ) ,在较一般的条件下,由c l a s sk 的一些子集提 供的回归系数的估计具有强相合性、渐近正态性 由于k + 的生成和被截断变量m 所服从的分布无关,所以由+ 关于x i 进行线 性回归所得到的估计会有更大的可变性在数据转换后的统计处理中加入一些光滑 的技巧,可以一定程度上减缓这种弊端 f a na n dg i j b e l s ( 1 9 9 4 ) 在b u r k l e y j a m e s 转换基础上采用了局部线性回归的方法, 综上所述,“无偏转换”思想在右截断数据的统计处理中发挥了很大的作用, 按照这种思想得到的估计量具有很好的统计性质;和极大似然方法相比,“无偏转 换”的做法还具有简单易操作的优势在本文中,将把这种无偏转换的做法用在区 间数据的统计处理中 1 4 区间数据的无偏转换 在将无偏转换方法用于区间数据的相关问题处理前,不妨先将区间数据和右截 断数据( r i g h tc e n s o r e dd a t a ) 进行比较虽然区间数据和右截断数据同属于不完全 数据的范畴,但它们的统计模型有很大差异对右截断数据而言,观测值有一部分 是截断的,还有一部分是完好的数据,所以在样本中会有被截断变量的更多信息; 而且右截断数据的很多性质严格被截断变量和被截断变量的性质控制,给问题的研 究带来了很多方便从这些方面来说,区间数据的处理相比之下难度更大 在z h e n g ( 2 0 0 3 ) 中,首次将“无偏转换”的思想用在了区间数据的处理中 6 l 、在模型( i ) 中进行无偏转换 假定y 是一个非负随机变量,有连续的分布函数f ( ) 但分布函数的具体形式 未知,e y o 。e 】待估v 是一个与之独立的随机变量,有已知的正密度函数 g ( u ) 在实际进行观测时,只得到样本( k ,6 。) ,i = 1 ,2 ,一,n ,其中6 。= 7 ( k ! k 】, ) 是示性函数 令 】? = 咖1 ( k ) 文+ 咖2 ( k ) ( 1 一d 。) ,( 1 41 ) 其中- ,西。是两个和f 无关的连续函数有下面的定理: 定理1 4 1 ( z h e n g ,2 口o 如果西l ,西2 满足下面的方程 i 僦掣, 蚰, e 4 = e k 对任意的f 成立 将所有满足( 1 4 2 ) 的( 咖1 ,2 ) 组成的类用日( 7 1 表示为简单起见,也用h ( 来表示集合 y + i y + = 1 ( v ) d + 2 ( y ) ( 1 6 ) ,( l ,2 ) h ( n ,d = j ( 1 , v ) 在这个集合中所有的元素都是e y 的无偏估计,即e y = e l f 任给( 咖。,2 ) 日( ”,用 f = ;k + ( 1 4 3 ) n 一 来估计e y ,因为,t f 是一列独立同分布随机变量的和,所以大数定律、中心极限 定理都显然成立 定理1 4 2 ( z h e n g ,2 0 0 3 ) ( i ) 覃彳是平均生存时间p = j y d f ( y ) 的无偏估计; ( i i ) f 是强相合的,收敛速度为f , - ( 1 0 9 l o g n ) ; ( i i i ) 当e ( + 2 ) 0 进一步分析发现,y + 的方差总是大于或等于y 的方差,这就是信息截断所付 出的代价h ( 7 ) 是e y 的一个无偏估计类,要想从中选出一个较好的“估计”,显 然就是要选择一个方差尽可能小的y 4 但遗憾的是,要想选择一个对任给的f 而 言在估计类h u ) 中方差最小的y + ,是不可能的,z h e n g ( 2 0 0 3 ) 对此进行了详细地 证明, 定理1 4 3 ( z h e n g ,2 0 0 3 ) ( i 1v a r y + v a r y ; ( 词给定g ( t 机g ( ”) o ) ,并不存在这样的( 钾,鸲) h n ,对所有的f 而言, 可以在估计类日( 7 ) 中使y 4 的方差一致最小 虽然找不出关于f ( ) 一致最小方差的估计,但是在一些具体情况下,还是可 以对( 也,妒2 ) h ( 的不同取法进行比较的 移l 如:对 】,+ = g - ( v ) s v r 1 z + :( v e v ) i y ! v + v e v + 91 ( 、,r ) ,( v 7 r 进行比较 e ( y 4 ) 2 = g - i 一) 小,d f ( y ) r r o o e ( z + ) 2 = ( u e v ) 2 9 ( v ) d v d f ( y ) + f 0 。f i 如一z v ) + 9 一、。) 1 2 9 ( t ,l d v d f ( y ) = z 。( v - e v ) 2 ,( ”) d ”+ z 0 。z ”2 ( v - e v ) d ”d f ( v ) + _ 4 = v a r f v l + e x 2 2 e v e x + e ( y + ) 2 如果v 服从参数为凡的指数分布, e ( z ) 2 一e ( y ) 2 = 、,n r ( v ) + e y 2 2 e 、7 e y = 志一。去e y + e y 2 = ( 击- e y ) + v a t ( 吵n 即当v 服从指数分布时,在方差更小意义下,选取庐1 ( t ,) = o 比选取e l ;”一e v 更好 2 、在模型( i i ) 中进行无偏转换 下面来讨论模型( i i ) 中的无偏转换,其实它可以看作是模型( 1 1 的推广 8 假定y 是非负随机变量,有未知的连续分布函数f ( ) ,但分布函数的具体形式 未知,e y 0 0 ,e y 待估( v ) 是一个随机向量,有已知的正密度函数9 ( “, ) , 0 u 曼v 。几乎处处成立,( 【,v ) 和y 相互独立在实际进行观测时,只得 到样本( u i ,k ,d md 2 。) ( i = 1 ,2 ,n ) ,其中6 1 i = i ( y , u d ,5 e i = i ( u l q j ! k ) 、厶】是示 性函数 令 】j “= - ( 仉,k ) 6 。+ 2 ( 仉,k ) d 2 ,+ 3 ( u i ,m ) ( 1 一d l 。一d 2 。) ( 1 4 4 ) 其中- ( 乱,u ) ,如( “”) ,也( u ,u ) 是“和v 的连续函数,与f ( - ) 无关 定理1 4 4 ( z h e n g ,2 口如果上述妒l ,2 和曲3 满足方程 咖2 ( u y ) lg ( “、9 ) d u = 1 ( 14 5 ) 那么 e k ”= e m( 1 , 4 6 ) 对任意的分布函数f 成立 将满足定理的( l ,曲2 ,咖3 ) 所构成的函数类称为h ( 7 “为简单起见,也用h ( 7 ) 来表示集合 y “l l = 咖( uv ) d + 咖2 ( 乩v ) 6 2 + 3 ( u ,v ) ( 1 5 1 6 2 ) ( 咖l ,西2 ,毋3 ) 日( 7 ,d 1 = i v ! ,d 2 = 而 y ! v ) 在这个集合中所有的元素都是e y 的无偏估计,即e y ”= e y 用 f = 甲 ( 14 7 ) 。 。i :1 来估计e y 因为,z i 磊是一列独立同分布随机变量的和,所以大数定律、中心极限 定理都显然成立 定理1 4 5 ( z h e n 9 ,z o o s ) “) e y “= e y ; “i j f 磊是强相合的,收敛速度为r z ( 1 0 9 l o g n ) i i ( i i i ) 当e ( k ”2 ) o 。时有渐近正态性成立 9 九 偌 + 划汕 如 玑池烈 i 心玑吣机 一 州川岛蛐 0 r l 层f ,、【 和横戮( 1 中:惹骰,刃撕l g 搿m 3 ) 谨啤了程骥粼( i e | 时挺撒r 1f 硝f l 意 n r r + 三= v a r i + 丽履要想跌侮计奘打( 7 ) 中找出一个对任给的f 而言一致方差 最小的y “是不可能的, 定理1 4 6 ( z h e n g ,2 0 0 3 ) 在前面的假定条件下,并不存在这样的( 击2 ,理,l j i ! ;) 日( ”,对所有的f 而言,可以在估计类日( 。) 中使y “的方差一致最小 3 、区间数据的线性回归问题 考虑简单线性模型 l j = o + 卢。i + c i ( i = 1 ,2 ,一,n )( 148 ) 其中 乩) 是一列常量,矗是独立同分布的随机变量,其分布函数未知,e 矗= 0 ,e e 。= 盯2 o ,卢,盯2 是未知参数k ( i = 1 ,2 ,n ) 是区间数据,其分布函 数记为e 类似于前文中的做法,根据观测值和已知条件找一组新的随机变量来替代k ( i = l ,2 ,一,扎) 如果0 = 1 ,2 ,礼) 是模型( i ) 中的区间数据,令 k + = 咖1 ( k ) 也+ 西2 ( k ) ( 1 6 。) ,( 1 4 9 ) 其中( 西l ,2 ) h ( 。) 是两个和只无关的连续函数,但可能和g 有关 如果m ( i = 1 ,2 ,n ) 是模型( i i ) 中的区间数据,令 k + = 1 ( 氓,k ) 屯( o ,仉】+ 2 ( 玑,k ) k ( 叽,k + 九( 矾,k ) k ( k ,o 。)( 1 41 0 ) 其中( l ,西2 ,曲3 ) h ( ) 是三个和只无关的连续函数,但可能和g 有关 为了估计。和卢,只需在普通的最小二乘方法中用( 或k ”) 来代替k 就可 以了也就是说, 赢:娶罐,氐:巧一融 ( 1 4 1 1 ) p “一 三! :x j 了可。一1 i p “。1 4 1 1 其中虿= :竺。x i ,f = j 竺。+ 因此有下面的定理 定理1 4 7 ( z h e n g ,2 0 0 s ) 假定畿= n 。:1 ( 鼢一苗) 2 _ 。, ( i ) 如果s u pv a r y i + 0 成立 ( i i ) 如果s u pv a r y i + = d ( 砩) ,那么 i 赢马卢 进一步,如果0 i n fv a r y i + s u pv a r y i + 0 成立,那么 ( 1 4 1 3 ) 毒裂罴(反一卢)与(o1)(1414)v 【墨1 ( 翰一i ) 2a r y i 4 、 7 。 其中碟= 竺l ( 孔一i ) 2 v a r y i + 1 5 本文解决的问题 z h e n g ( 2 0 0 3 ) 已经开启了用无偏转换思想解决区间数据问题的窗口,本文将在 这基础上对区间数据的若干估计问题进行研究主要对区间数据的任意阶原点矩、 方差、响应变量为区曰数据时线性回归中误差项的方差,以及响应变量为区间数据 时非参数回归中的回归函数进行估计 z h e n g ( 2 0 0 3 ) 利用无偏转换的思想对区间数据的期望进行了估计,得到了被截 断随机变量期望的一个无偏估计类,所得估计类中的元素具有独立同分布随机变量 和的形式,具有强相合性( 收敛速度可以达到礼一j ( 1 0 9 l o g n ) :) 和渐近正态性本文 的第二章将这种做法推广到了区间数据的任意阶原点矩和方差的估计中,得到了一 批具有强相合性( 收敛速度可以达到礼一j ( 1 0 9 l o g n ) :) 和渐近正态性的估计量利用 无偏转换方法进行任意阶原点矩的估计得到的是一个估计类,本文对这些估计量的 方差进行了仔细的分析,从中选出了一些较好的估计量 当线性回归模型中响应变量为区间数据时,构造无偏转换变量代替被截断的响 应变量,再利用传统的最小二乘方法,z h e n g ( 2 0 0 3 ) 解决了回归系数的估计问题如 果用同样的方法来估计误差项方差,得到的估计量总是会偏高,而且这种偏度并不 会随着样本的增大而下降,所以有必要考虑用其他的方式来估计在文献 4 1 中, 曾经讨论过简单回归模型中响应变量为右截断数据时误差项方差的估计问题本文 借鉴了其中的一些做法,并根据区间数据的具体情况作了一些调整,得到了响应变 量为区间数据时误差项方差的估计,并且证明了估计量的渐近无偏性、强相合性和 渐近正态性 1 1 本文第四章研究了非参数回归模型中响应变量为区间数据时回归函数的估计 在无截断的情形下,有许多估计非参数回归函数的方法,这些方法对响应变量y 会 有不同的要求,例如y 有界,e y 5 1 等等本文选用的是近邻权 函数估计,赵林城和白志东( 1 9 8 4 ) 将l ,有界的条件减弱为e y 5 1 ) ,对权 函数的要求有所加强,证明了近邻权函数估计的强相合性当区间数据出现时,本 文构造了s ( 1 ) 阶矩存在的无偏转换变量来代替原来的响应变量,在要求权函数 达到赵林城和白志东( 1 9 8 4 ) 所给出的条件下,证明了区间数据近邻权函数估计的 强相合性 本文第五章考虑了截断变量的分布密度函数g 未知的情形,对区间数据的均 值、方差、线性回归模型中的回归系数和误差项方差,以及非参数回归模型的回归 函数进行了估计g 已知时,用无偏转换方法构造的估计类一般都和g 有关,当9 未知时,从这些估计类中“挑选”一些关于9 具有某种连续性的估计,用g 的核密度 估计去替代其中的g 在比较合理的条件下,可以证得这些估计量的强相合性质 进一步研究还发现,可以适当选取那些只和g 的边际分布密度有关的无偏转换,使 所得估计量的强相合收敛速度达到一元密度函数估计的强相合收敛速度 第六章用模拟计算验证了上述结论,从所得的表格和图形可以看出,用无偏转 换的方法处理区间数据的一些估计问题确实可以收到很好的效果 1 2 第二章区间数据任意阶原点矩估计和方差估计 2 。l区间数据任意阶原点矩估计 假定y 是一个非负随机变量,有未知的连续分布函数f ( ) ,分布函数的具体 形式未知,但满足e y o 。,r 是一个大于1 的常数要估计e y 7 ( ,y ) 是一个和y 独立的随机向量,有已知的正密度函数9 ( ) ,0 u v o 。几乎处处成立,其分布函数记为g ( ,) ( uv ) 坠。和 y 7 :- 。分别是( 以v ) 和y 的独立同分布样本在实际中只观 测到了( 阢,k ,6 l i ,d 2 ;) ( i = 1 ,2 ,- - n ) ,其中6 1 。= 1 w i u d ,6 2 。= 厶以 k ! u ) ,几) 是示 性函数 令 k = 咖1 ( 玑,k ) 6 - 。+ 咖2 ( 阢,k ) 6 2 i + 幽( 玑,k ) ( 1 6 l ;一6 2 。) ( 2 11 ) 其中。( ,) ,。( ,) ,3 ( ,) 是三个和f ( - ) 无关的连续函数,但是可能和g 有关 有下面的定理: 定理2 1 1 如果妒1 ( ,) ,移2 ( ,) ,3 ( ) 满足下面的方程 i 雁。仨。毋- ( u ,”) g ( “,v ) d u d v = 0 旷k 刚) 勘”) , v ) d v ( 2 1 2 ) 【+ 君k u ,箩) 一书。( 哪) g 池y ) d “= 咿一 那么 e k ( 7 ) = e 玎 对任意的州) 成立 证明: e 。( 阢,v d i ( 。 y i 矾) + 2 ( 阢,k ) 以 k m ) + 曲3 ( 巩,) t k k ) = j + - ( ,”) ,( “,”) d u d v d f ( ”) + 厂r 咖。( “,”) 9 ( 让,”) d 札d ”d f ( ”) + 。( “,w ) 。( 札,”) d 札d ”d f ( ,) = j o c 。诞序小,咖岫o 。咖州础 令 十z :。z :。( “,”) ,( u ,”) a u d w a f ( “) z 三z :,咖,c 乱,”,。c “,”,d u d ”+ z 三z :。咖:c 札,”,。c 扎,”,a 扎a ” + z :。z :。c u ,”,c u ,w ,d u 一” = z :z :,咖,c u ,”,c u ,”,a 札a ” + 剧州邺m m 邺协咖 + z :。z :。 咖( u ,”) + 妒( u ,”) + 一( u ,”) ,( u ,w ) d u d ” = ( z 三z :,+ 。f 。v v :。,。f 。:y 。+ f v y :。z :。) - c “,”,c “,”,d u d ” + ( z 三z = o - i - z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论