




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在可靠性分析、生存分析、医学研究等许多领域中,基于研究的数据往往是不完全 的,有一类很重要的不完全数据被称为区间删失数据。当样本是区间删失数据时,人们关 注的问题之一是如何通过这些区间删失数据去分析该随机变量和其它量之间的关系,如 相关分析、回归分析等等。 本文主要讨论了一般线性回归模型中因变量有区间删失的情况,分析了区间删失数 据对回归模型的影响。处理区间删失数据的一种重要思想即是对删失数据进行修正,再用 修正后的值代替删失的真实值用完全数据下的方法进行处理。本文先讨论了由于数据区 间删失而取值代替真实值所引起的偏差对回归模型的影响问题,并考虑如何在初始值( 比 如删失区间的中点值) 基础上进行修正,以使得用修正后的数据进行估计对回归模型的影 响较小,提出了一种修正的最小二乘估计方法。同时也从f j s h e r 信息阵角度,将数据的删 失看作一种扰动,分析了区间删失数据对回归模型的扰动影响。模拟显示本文提出的修正 的最小二乘估计方法较好,并且利用信息矩阵对回归模型的扰动影响分析也是可行的。 关键词:区问删失数据回归模型最小二乘估计f i s h e r 信息扰动影响 a b s t r a c t i nm a n yr e s e a r c hd i s c i p l i n e s ,s u c ha sr e l i a b i n t ya n a l y s i s ,s u r v i v a la n a l y s i sa n dm e d i c a l r e s e a r c h ,d a t ai so f t e ni n c o m p l e t e ,a n dt h e r ei so n ei m p o r t a n tt y p eo fi n c o m p l e t ed a t a w h i c hi sc a l l e di n t e r v a l - c e n s o r e dd a t a w h e nt h es a m p l ed a t ai si n t e r v a l - c e n s o r e d ,o n eo f t h em o s ti m p o r t a n tp r o b l e m st h a ta r ea l w a y sc o n c e r n e di sh o wt oa n a l y z et h er e l a t i o n s b e t w e e nt h er a n d o mv a r i a b l ea n dt h eo t h e rv a r i a b l e sw i t ht h ei n t e r v a l - c e n s o r e dd a t a s u c h a sc o r r e l a t i o na n a l y s i sa n dr e g r e s s i o na n a l y s i s i nt h i sp a p e r ,w em a i n l yd i s c u s st h el i n e a rr e g r e s s i o nm o d e li nw h i c ht h ed e p e n d e n t v a r i a b l ei si n t e r v a l - c e n s o r e dd a t a a n dt h ei n f l u e n c eo nt h er e g r e s s i o nm o d e l o n eo ft h e i m p o r t a n tm e t h o d st od e a lw i t ht h ei n t e r v a l - c e n s o r e dd a t ai st oa m e n dt h ec e n s o r e dd a t a , a n dt h e nu t h ec l a s s i cm e t h o di nc o m 【p l e r ed a t aw i t ht h ea m e n d e dv a l u ei n s t e a do ft h e c e n s o r e dd a t a w jf i r s ta n a l y z et h ei n f l u e n c eo nt h er e g r e s s i o nm o d e lb yt h ed e v i a t i o n w h i c ha r i s e sf r o mt h es u b s t i t u t i o no fc e n s o r e dd a t af o rt h er e a lv a l u e ,a n dt h e np r o p o s e a na m e n d e dl e a s ts q u a r e se s t i m a t em e t h o d ,c o n s i d e r i n gh o ww ec a na m e n dt h ei n i t i a l v a l u e ,s u c h 鹊t h em i d p o i n to ft h ec e n s o r e di n t e r v a l ,i no r d e rt og e t8 m a l li n f l u e n c eo n t h er e g r e s s i o nm o d e lw i t ht h ea m e n d e dd a t a d a t a - c e n s o r i n gc a nb ec o n s i d e r e da sak i n d o fp e r t u r b a t i o no nt h eb a s i so ff i s h e ri n f o r m a t i o n ,a n dt h ep e r t u r b a t i o ni n f l u e n c eo nt h e r e g r e s s i o nm o d e li sa l s oa n a l y z e d t l l es i m u l a t i o ns h o w st h a tt h ea m e n d e dl e a s ts q u a r e 8 e s t i m a t i o nm e t h o di sr a t h e rg o o d ,a n di ti sa l s of e a s i h i eu s i n gf i s h e ri n f o r m a t i o nt o a n a l y z et h ep e r t u r b a t i o ni n f l u e n c eo nt h el i n e a rr e g r e s s i o nm o d e lw i t hi n t e r v a l - c e n s u r e d d a t a k e yw o r d s ti n t e r v a l - c e n s o r e dd a t a ,r e g r e s s i o nm o d e l ,l e a s t - s q u a r e se s t i m a t i o n ( l s e ) , f i s h e ri n f o r m a t i o n ,p e r t u r b a t i o ni n f l u e n c e 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果。 据我所知,除文中已经注n j 7 j j l 用的内容外,本论文不包含其他个人已经发表或撰写 过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说 明并表示谢意。 作者签名: 1 日期:吵d 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版有权将学位论 文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学位论文 的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出版。保密的 学位论文在解密后适用本规定。 储繇必 日 期:o ? 、壶 导师签名 日期 第一章绪论 华东师范大学硕士论文1 第一章绪论 1 1区间删失数据的定义 在很多实际的统计研究问题中,有时由于客观条件的限制无法得到观测对象的准确观 测值,只能观测到它所处的区间,在统计学中一般将这类数据称为区间删失数据( i n t e r v a l c e n s o r e dd a t a ) a 在传染病研究和可靠性研究中经常会遇到数据区间删失的情形,下面是几个区间删 失数据的例子: 例l :在一些传染性疾病的感染时间研究中,实验对象被放入感染源后,染上传染病 所用的时间无法准确观测到,只知道它处于某个观测区间中。 例2 :通过破坏性实验进行的产品寿命研究( 如灭火器) ,只能通过实验观测到该产品 的寿命和某个观测时间点的大小关系,得到该产品的寿命处于某个区间内。 所以,区间删失数据有着广泛的应用背景,对其进行深入的研究是很有必要的。 当随机变量的观测数据是区间删失数据时,人们比较关注的问题主要集中在两大类: 一是如何通过这些区间删失数据去分析该随机变量的一些统计特征,如均值、方差及分 布函数;另一类就是如何通过这些区间删失数据去分析该随机变量和其它量之间的关系, 如相关分析、回归分析等等。本文将着重考虑一般线性回归模型中因变量有区问删失时, 区间删失数据对回归模型的影响问题。 1 2 对删失数据的修正 含有删失数据的线性回归问题,目前已有一些处理办法,其中有一类方法的思想是 将删失数据的观测值做一些修正,再用传统的最小二乘方法进行统计分析。 考虑简单线性回归模型 y i = q + p 戤+ 岛 0 = 1 ,2 ,礼) 其中o t ,卢是参数,矗是相互独立的随机变量,满足五= 0 ,互搿= 盯2 。 若因变量观测值存在区间删失,则最简单的处理办法是取删失区问的端点值或是删 失区间的中点代替删失值,再进行最小二乘估计。 对因变量右删失恤t “) 的情形,文献中有以下一些做法: ( 1 ) b u c k l e y & j a m e s ( 1 9 7 9 ) 提出用条件期望蝣代替删失值y i , 诉= 珧盈+ e ( 轨l 玑t i ) ( 1 一尻) ( 其中魂= 1 对应完全数据,盈= 0 对应数据右删失) 再结合k _ m 估计( k a p l a n & m e i e r ,1 9 5 8 ) ,进行迭代最小二乘估计。 第一章绪论华东师范大学硕士论文2 ( 2 ) s c h m e e & h a h n ( 1 9 7 9 ) 提出用 蝣= 抗+ a 嵩 代替删失数据挑进行迭代最小二乘,其中子= 、鲁鹭,磊= ! 争,蟊的初始值取完全数据 回归后的预测值,s s e 为残差平方和,妒( i ) ,圣( i ) 分别为标准正态分布的密度函数和分布函 数。 ( 3 ) c o n d e 等a ( 2 0 0 a ) 在s c h m e e & h a h n ( 1 9 7 9 ) 基础上做了进一步改进,主要是对c r 的 估计, 扛vs m s e , n 1 :n + a ( 磊) ”vm m 钏“+ 冬m ) 其中k 为删失数据的个数,c 为删失集, 嘏) = 篙( 篙吲 磊= u 。- - y i 并通过数据模拟分析这种迭代最小二乘方法的效果。 其实上面的情况( 2 ) 可以看作情况( 1 ) 的一种特例应用,如设 执= n + 触+ 矗,矗n ( o ,仃2 ) a = 1 ,2 ,犯) 设= 口,盈一( 0 ,1 ) 则 f ( 玑i 鼽蛳) = e 【n + p 黾+ 岛io + 卢甄+ 矗2 姚) = e ( n + 如i + 口五io + 卢翰q - a z 4 地) = e ( q + 卢奶+ 口麓i 盈兰l 二! 二二_ 里塑) 腔! 纽z 庐( z ) d z 2n + 卢戤+ 盯1 = j 罚互再 + f l x t + a 怒 事实上,对一般的回归模型玑= ,( ) + 岛,若已知,( 戤) 的函数形式( 含参数口) ,随机 误差岛独立同分布,但不一定是正态分布,设其密度函数为g ( z ) ,分布函数为g ( z ) 。若因 变量有区间删失,不失一般性,不妨设鼽h ,协】= 仉,弘为完全数据;地= 0 ,执为左 删失数据:0 他 饥 0 0 ,玑为区间删失数据;仇= 0 0 ,鼽为右删失数据。) 第一章绪论华东师范大学硕士论文3 则 e ( 佻lt y i q ) = f ( ,( z ) + 矗iu l ,( 如) + 旬地) = e ( ,( z t ) + 矗i 啦一,( 戤) 矗v i 一,( ) ) 训蝴+ 而籍 可仿照( 2 ) ,先利用完全数据做第一次回归,得到参数估计p ( 1 ) ,进而得到删失点执的估 计坑,再用孵= 蛾+ 笔蔷笔票;:型竽代替玑再进行第二次回归,得到参数估计卢i 2 ) ,这 样进行迭代得到p ( 3 ) ,口( 4 ) 基于上面的论述,处理删失数据的很重要的一种思想就是对删失值进行修正或补偿 之后再用传统方法处理。当然,修正或补偿之后的值与未观察到的真实值之间仍有一定 偏差,本文首先考虑这种由于数据删失而取值代替删失值时的偏差对估计性质的影响,然 后考虑在一定初始值( 比如删失区间的端点或中点值) 基础上怎样进行补偿,以使得用补 偿后的数据进行估计的残差平方和最小。最后,从f i s h e r 信息阵及观察信息阵角度,将数 据的删失看作一种扰动,分析了区间删失数据对回归模型的影响。 第二章基于最小二乘的区间删失数据影响分析华东师范大学硕士论文4 第二章基于最小二乘的区间删失数据影响分析 最小二乘方法是处理完全数据下线性回归模型的经典方法,有很好的估计和分析性 质。在多元线性回归模型中,参数的最小二乘估计( l s e ) 具备线性、无偏性、最小方差性, 所以此时的最小二乘估计量是最优的线性无偏估计量( b l u e ) 。 但是当线性回归模型中自变量或因变量的观测值有区间删失时,传统的最小二乘方 法就不能直接使用了。若仅用样本中的完全数据而忽略删失数据求出l s e ,由于没有用到 删失数据的信息,显然不够准确。也可以取删失区间的中间值来代替删失值再求l s e ,这 种取中问值法虽然简单易行,并且在删失度较高,没有大量样本下,有一定的优势,但实 际上这种方法是无论信息量多少,都默认删失变量服从均匀分布,是一种常规的无信息 处理法,当删失的区间长度比较大,删失变量的真实值落在靠近端点的情况下,取中间值 法会产生较大的偏差。 实际上,用任何方法取值来代替真实值再用传统方法进行处理时,都会有一定偏差, 本章主要考虑这种取值偏差对线性回归模型的影响,特别是以有偏差的数据用最小二乘 方法进行计算所引起的估计性质的变化。 2 1 完全数据下的最小二乘估计 考虑一般多元线性回归模型 y = x p + s ,e ( ) = 0 ,d ( ) = 盯2 厶 其中y 为n 维随机变量的观测向量,口为m 维未知参数向量,x 为竹m 结构矩阵,为n 维 随机误差向量,各分量问相互独立。传统的最d , - 乘估计有以下结论: 参数估计卢= ( x x ) o x l , 回归值向量y = x ( x x ) - 1 x y = 王 残差向量e = y y = ( i h ) y 残差平方和s s e = e e = ( y y ) ( y y ) = y ( i h ) y 其中,日= x ( x x 1 - 1 x 7 为对称幂等阵,= h ,日2 = 日; j 一日也为对称幂等阵,( ,一日) = i h ,( i 一日) 2 = i 一日 并且,参数估计声= ( x x ) - 1 y 有如下性质: ( 1 ) 声为卢的线性无偏估计e ( p ) = 卢,且d ( ) = o - 2 ( x x ) - 1 ; ( 2 ) 残差性质e ( e ) = 0 ,且d ( e ) = 0 - 2 ( j 一日) ; ( 3 ) 残差与参数估计量独立c o v ( e ,p ) = o ; ( 4 ) e ( s s e ) = 一m ) 矿,得到一2 的无偏估计s 2 = 熹鸳 下面考虑因变量y 有区间删失的情况,例如某个真实的玑由于删失,我们无法观察到 其真实值,只能观察到其删失于某个区间内玑k ,嘲( 不失一般性,地= q ,矾为完全 第二章基于最小二乘的区问删失数据影响分析华东师范大学硕士论文5 数据;u t = 0 ,鼽为左删失数据;0 t “ 饥 6 3 9 而不知其真实值,可取初始值为删失端点值即罐= 6 3 9 。 将y o = ( 4 7 7 ,5 1 3 ,6 0 0 ,5 9 6 ,6 3 9 ,6 3 9 ) ,u = ( 0 ,0 ,0 ,0 ,0 ,岫) 待入计算,可得约束极 值问题 s s e ( w ) = o 2 6 4 7 一o 4 5 8 1 w 6 + o 4 7 6 2 w : s t 0 很容易计算出,当= 0 4 8 0 9 时,s s e ) 有最小值0 1 5 4 6 。此时,右删失值舶补偿后 的值为缩= 醒+ = 6 3 9 + o 4 8 0 9 = 6 8 7 0 9 ,这与【3 】中提出的迭代最小二乘方法得出的 最后补偿值是一致的,而这里只需解一个简单的的一元二次函数条件极值,计算显然要 简便很多。 若取右删失值蜘的初始值为醒= 6 6 9 ,将y o = ( 4 7 7 ,5 1 3 ,6 0 0 ,5 9 6 ,6 3 9 ,6 6 9 ) ,u = ( 0 ,0 ,0 ,0 ,0 ,) 待入计算,可得约束极值问题 s s e ( w ) = o 1 7 0 1 一o 1 7 2 4 w 6 + o 4 7 6 2 w ; s t 如 - - 0 3 解得当岫= o 1 8 0 9 时s s e ( w ) 有最小值0 1 5 4 6 。此时,右删失值舶补偿后的值为缩= 醒+ = 6 6 9 + o 1 8 0 9 = 6 8 7 0 9 ,这与取初始值g = 6 3 9 时得到的修正值也是一致的。 例2 假设例1 中蜘、y 6 均为区间删失数据,其中蜘【6 1 9 ,6 5 9 ,舶【6 0 9 ,6 6 9 1 ,则 样本数据如下表: 表2含区间删失情形的样本数据 样本i自变量z因变量y 114 7 7 225 1 3 336 0 0 445 9 6 55 【6 1 9 ,6 5 9 66 【6 0 9 ,6 6 9 1 可取初始值为删失区间中点值,即猸= ;( 6 1 9 + 6 5 9 ) = 6 3 9 ,醒= ( 6 0 9 + 6 6 9 ) = 6 3 9 ,将碥= ( 4 7 7 ,5 1 3 ,6 0 0 ,5 9 6 ,6 3 9 ,6 3 9 ) ,u = ( 0 ,o ,0 ,o ,岫) 待入计算,可得约束 极值问题 s s e ( w ) = 0 2 6 4 7 + 0 2 1 8 5 w 5 0 4 5 8 1 w 6 + 0 7 0 4 8 w :一0 7 6 1 9 w 6 w 5 + 0 4 7 6 2 w : “- - 0 2 _ 6 3 9 6 8 7 = - 0 4 8 比较d ) 1 和d p ) 2 可以发现d ) 2 中的系数要小很多,说明取补偿后的值编= 6 8 7 代替右删失的拈比直接取右删失端点值傲最4 * - - 乘估计对模型的扰动影响要小很多, 也即代替未知的删失值所冒的风险要小很多。 例5 同例2 ,仍假设例1 中蜘、y 6 均为区间删失数据,其中拈【6 1 9 ,6 5 9 1 ,舶 【6 0 9 ,6 6 9 卜 取p = ( 4 7 7 ,5 1 3 ,6 0 0 ,5 9 6 ,惦,缩) ,按照定理1 的方法,可计算出局部影响矩阵”( 含 有未知数掘,鳐) ,进而可以表示出取值妮,鳐相对于真实值的扰动对回归模型的影响 d ( y + ,u ) = ;肌 其中u ;( 0 ,0 ,0 ,o ,o j 5 ,) 显然当p 取真实值y ,e p w 5 = o ,吣= o 时d ( y ,u ) = 0 ,对模型 没有影响。我们关心的是不知道y 的真实值,而取值p 代替y 产生偏差时,何时对模型的 影响最大,即下面的约束极值问题: m a x d ( y + ,u ) = ;u a + u j6 1 9 蟾s6 5 9 i i6 0 9 鳐6 6 9 s t 气 l6 1 9 一蟾龇6 5 9 一孵 【6 0 9 一鳐如6 6 9 一编 容易解出,当醒= 6 3 9 ,靠= 6 3 9 ,u 5 = - 2 2 3 1 0 _ 6 ,= 1 2 3 1 0 5 时,对模型有 最大影响d ( y ,u ) = 1 6 0 1 0 。 也即,当舶、y 8 均为区间删失数据时,若取嵋= 6 3 9 ,编= 6 3 9 ( 冈u 好为删失区间的中 点值) ,这种取值方法会是在删失区间任意取值方法中对模型的最大影响是最大的,这种 最大影响会在真实值恰为y 5 = 蟾+ 龇,舶= 编+ 时达到。 进一步地,取坭一6 3 9 ,鳐= 6 3 9 ( b p 删失区间的中点值) 时,局部影响矩阵即为例4 中 的:,其第5 和第6 对角元素都很大,分别为4 4 6 1 和2 4 6 7 。若以驺2 中的例2 中按照本文提出 的修正最小二乘得到的补偿值鳐= 6 3 9 + 0 0 0 7 2 = 6 3 9 7 2 ,编= 6 3 9 + 0 3 0 0 0 = 6 6 9 0 0 , 代入计算得到局部影响矩阵为: q = 1 8 3 02 2 1 2 - - 6 3 1 91 0 5 48 71 6 4 4 2 2 1 2 2 6 7 7- 7 6 6 01 2 7 81 0 81 9 9 7 - 6 3 1 9 - 7 6 6 02 1 9 5 33 6 6 5 - 3 2 0 - 5 7 3 9 1 0 5 4 1 2 7 8- 3 6 6 56 1 25 49 5 9 8 71 0 8- 3 2 05 478 7 1 6 “ 1 9 9 75 7 3 99 5 98 71 5 0 6 第四章基于信息阵的删失数据影响分析华东师范大学硕士论文2 1 可以看出此时局部影响矩阵的第5 和第6 对角元素小了很多,分别为7 和1 5 0 6 ,再求这 种取法对模型的最大影响: m a x d ( y * , u ) = 3 4 4 9 8 碡+ 8 7 2 8 4 2 l o s + 7 5 3 1 8 5 8 罐 i6 1 9 6 3 9 7 2 w 5 6 ,5 9 6 3 9 7 2 s t 一一 i6 0 9 6 6 9 0 0 6 6 9 6 6 9 0 0 解得当峨= - 3 4 1 0 一,= 一7 5 3 2 1 0 6 时对模型有最大影响d ( y + ,u ) = 4 2 7 5 1 0 一,比取删失区间中点对模型的最大影响要小。 例6 以考察3 2 中的例3 ,随机产生模拟数据: 以一( 1 5 ,1 ) ,q n ( o ,1 ) ,非= 1 + 2 甄+ e t 其中产生的1 0 0 组随机区间数据服从【o ,5 】【0 ,5 】上的联合均匀分布。模拟中鼽为真实值, 结合随机区间数据,形成随机区间删失数据。 对本次模拟中产生的1 9 个因变量区间删失数据。下表分别列出了真实数据、取删失区 间中点值及修正最小二乘法得到的修正值代替真实值下的局部影响矩阵的1 9 个对角元( 对 应于发生区间删失的样本点) : 表6不同局部影响矩阵的对角元的比较 影响矩阵的第i 个对角元真实数据下的a 中点值法下的钱修正的最小二乘法下的盈 i = l0 1 4 9 50 3 3 0 50 1 4 9 7 i - - - - 2 0 0 6 8 7 0 0 1 9 80 0 2 4 9 i - - - - 30 0 3 9 70 0 9 0 10 0 4 4 1 i = 40 4 2 5 90 0 2 7 80 0 1 6 7 i = 5 0 1 7 4 9 0 1 3 5 40 1 2 9 7 i = 60 0 2 5 20 0 4 5 90 0 2 0 9 i = 7 o 0 0 5 5 o 0 1 2 20 0 1 2 6 i - - - - 80 1 2 1 60 1 8 6 80 0 2 5 5 i = 90 0 2 5 20 0 5 9 5 0 0 2 5 3 i = l o0 0 2 4 70 0 4 30 0 1 7 7 i = 1 1o 0 5 7 40 1 2 70 0 4 5 3 i = 1 20 4 8 8 5 0 8 9 0 10 6 7 4 7 i = 1 3 0 9 3 1 7 1 4 2 7 91 0 6 4 5 i = 1 40 1 4 4 20 6 4 0 80 0 4 7 9 i = 1 50 1 4 5 50 0 1 8 70 0 1 3 8 第四章基于信息阵的删失数据影响分析华东师范大学硕士论文2 2 影响矩阵的第i 个对角元真实数据下的五 中点值法下的氐修正的最小二乘法下的a : i = 1 60 2 4 6 20 0 2 3 40 0 1 9 7 i = 1 7 0 4 2 1 70 1 6 2 30 0 2 9 i = 1 80 0 2 40 0 4 70 0 1 2 2 i = 1 9o 6 3 0 60 5 3 4 7o 3 2 9 0 可以这样解释,真实数据下的局部影响矩阵以对应删失点的对角元较大,说明若在 此点发生删失,对回归模型的扰动影响较大。取值代替删失的真实值后得到的局部影响 矩阵小中对角元的大小说明,真实值相对于所取的值的偏差对回归模型的影响大小。因 为任何取值方法代替删失的真实值总会产生一定的偏差,可以认为此偏差对回归模型的 影响越小,则对应的取值方法越好。 对表6 中的数据经过比较可以发现,对于发生删失的样本点,修正的最小二乘方法下 局部影响矩阵出中对应的对角元比取删失区间的中点值法下局部影响矩阵斧中对应的 对角元绝大部分都有所减小。这说明即使修正最 b - - 乘法得到的修正值相对真实值仍有 所偏差,这种偏差所引起的扰动影响相对于中值法降低了很多。 因此,在评估各种修正区间删失数据的方法时,只需计算出相应的局部影响矩阵,比 较其删失位置的对角元素的大小。对角元越小,说明此位置的修正值相对于真实值的偏 差对回归模型的扰动影响越小,并且使得可能的最大扰动影响较小的修正值是较好的。 结束语华东师范大学硕士论文2 3 结束语 本文从几个角度分析了区间删失数据对一般线性回归模型的影响问题。 在随机实验中我们只知道随机变量是否落入某个可以观察的区间,但不知道该随机 变量的具体观察值。特别是没有关于删失区间的分布信息时,分析取值代替删失值所引 起的偏差对回归模型的影响问题,并考虑怎样在一定初始值( 如删失区间中点) 的基础上 加以修正,使得修正值相对于真实值的偏差对模型的影响较小,再用传统的最小二乘方 法进行估计,提出了修正的最小二乘估计方法。 修正最小二乘估计方法是基于怎样对初始值进行补偿使得修正值的方差最小而得来 的,将删失问题转化为多元连续二次函数在闭区域的极值问题,计算比较简便,通过数据 模拟表明对回归系数的估计效果也是比较好的,但对方差的估计偏小,这是需要进一步 改进的地方。 基于f i s h e r 信息阵定义的距离及局部影响矩阵,本文将数据的删失看作一种扰动,考 虑这种扰动对回归模型的扰动影响。在这种影响定义下,可以认为各种对删失值的修正 方法中,修正值相对真实值的偏差所可能引起的最大扰动影响较小的修正方法更好些, 这可以用来对现有的各种对删失值的修正方法进行评估,同时基于观察信息阵的区间删 失数据对回归模型的影响分析有待进一步分析。 本文所讨论的因变量区间删失情形可以推广到自变量区间删失情形,区间删失数据 对般线性回归模型的影响问题的方法也可以推广到非线性的回归模型,或者其他模型 中删失数据的影响问题的研究。 参考文献华东师范大学硕士论文2 4 参考文献 1b u c k l e y , j a n dj a m e s ,i ( 1 9 7 9 ) l i n e a rr e g r e s s i o nw i t hc e n s o r e dd a t a b i o m e t r i k a ,6 6 ,4 2 9 4 3 6 1 2 b r a d l e ye f r o na n dd a v i d v h i n l d e y ( 1 9 8 7 ) a s s e s s i n gt h ea c c u r a c yo ft h em a x i m u ml i k e l i h o o de s t i m a t o r :o b s e r v e dv e r s u se x p e c t e df i s h e ri n f o r m a t i o n b i o m e t r i k a , 6 5 ( 3 ) ,4 5 7 - 4 8 2 3 】c o n d er fs m e y e r s - v e r b e k ej ,m a s s a r td l ( 2 0 0 4 ) i t e r a t i v el e a s ts q u a r e sm e t h o df o rr e - g r e 自s i o na n a l y s i sw i t hc e n s o r e dd a t a t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025租房带家具家电租赁合同样本
- 2025年农产品采购合同样本
- 2025年无息借款合同样本
- 2025兄弟姐妹共有财产转让协议合同
- (2025)知识产权考试题(含参考答案)
- 2025年护士资格考试真题及答案
- 2025年“安全生产月活动”《安全知识》备考模拟题及答案
- 全科医生考试题库及答案
- 传染病的考试题目及答案
- 大一体育文化素养考试题及答案
- 安徽省港航集团有限公司所属企业招聘笔试真题2024
- 《电力系统微机继电保护》课件-第五章 微机线路保护举例
- (2025)中小学“学宪法、讲宪法”知识竞赛题库(含答案)
- 2025年中国PC工业计算机(工控机)数据监测研究报告
- 玉米收获机械技术课件
- 大学英语写作教学课件
- 2025年中航油招聘笔试参考题库附带答案详解
- DB54∕T 0275-2023 民用建筑节能技术标准
- 办公室设备领用管理制度
- 多发性结肠息肉的护理查房
- 2025至2030年中国环保胶黏剂行业市场运行格局及产业需求研判报告
评论
0/150
提交评论