




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 基于不完全数据的统计分析是许多领域都经常遇到的问题如何更有效的利用已有 的数据信息对感兴趣的参数进行统计推断就显得特别有意义一般统计文献中对不完全 数据的统计分析方法往往要对产生缺失数据的机制做出假设,比如常见的补值方法要求 缺失机制是可以忽略的否则那些方法的优良性质将无法得到保证然而这些假设的可 靠性我们却因无法进行验证而常常引起争议在不对缺失机制做出任何假设下我们可以 得到感兴趣参数的识别界这样的界包含了参数在各种缺失机制下的所有可能取值本 文介绍了几种获得不完全数据下某些感兴趣参数识别界的方法,并对这些方法的实际效 果进行了验证,比较 关键词:不完全数据;识别界; a b s t r a c t t h ep r o b l e mo fi n c o m p l e t ed a t aa r i s e sf r e q u e n t l yi np r a c t i c e i t ss i g n i f i c a n t l ym e a n - m g f t no nh o wt om a k ee f f e c t i v es t a t i s t i c a li n f e r e n c ea b o u t t h ei n t e r e s t i n gp a r a m e t e r sw i t h i n c o m p l e t ed a t a u n t e s t a b l ea s s u m p t i o n sa b o u tt h ep r o c e s st h r o u g hw h i c hd a t ab e c o m e m i s s i n gi sa l w a y sm a d ei nt h eg e n e r a ls t a t i s t i c a ll i t e r a t u r e ,f o re x a m p l e ,i ti sac o m m o n p r a c t i c et oa q s u n l et h a td a t aa r em i s s i n gc o m p l e t ea tr a n d o m o t h e r w i s e ,f i n en a t u r e so f t h e s em e t h o d sw i l lb eu n o b t a i n a b l e h o w e v e r i ti so f t e np o s s i b l et oi d e n t i f ys h a r pb o u n d s o np a r a m e t e r sw i t h o u tm a k i n gu n t e s t a b l ea s s u m p t i o n sa b o u tt h ep r o c e s st h r o u g hw h i c h d a t ab e c o m ei n c o m p l e t e t h i sp a p e rw i l li n t r o d u c es e v e r a lm e t h o d sa b o u th o wt og e tt h e s h a r pb o u n d so ft h ei n t e r e s t i n gp a r a m e t e r sw i t hi n c o m p l e t ed a t at h e s eb o u n d sc o n t a i na l l l o g i c a l l yp o s s i b l ev a l u e so ft h ep a r a m e t e r s k e yw o r d s :i n c o m p l e t ed a t a :i d e n t i f i c db o u n d s ; i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过 的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示谢意 学位论文作者签名:悼日期:j l 鲥 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即t 东北师 范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查 阅和借阅本 行检索,可以 学位论文作者毕业后去向s 工觯位:蝴海敝 通讯地址: 电话: 邮编: 1 引言 在社会生活的许多领域中都会不同程度地存在不完全数据现象比如在一项调查中, 某些被调查者可能会拒绝回答一些比较敏感的问题;又如在某项试验中参加试验的个体 可能会在试验中途退出等等这些原因都会使我们无法得到完整的数据集如何更有效 的利用已有的数据信息对感兴趣的参数进行统计推断非常值得我们去研究 为了得到更加准确可靠的统计推断,缺失的数据必须得到合理的处理早在十九世 纪7 0 年代具有缺失值数据的统计分析已经相当旺盛,许多统计文献都讨论了有缺失数 据存在的情形但是对于不完全数据往往采用一些简单的基于完全记录单元的方法比 如n i e 和h u l l ( 1 9 7 5 ) 所编著的书中关于不完全数据处理的介绍r u b i n ( 1 9 7 6 、1 9 7 8 ) 等 介绍了基于模型的方法来分析有缺失的数据这种方法先对观测数据定义一个模型,然 后在模型下基于似然或者适当分布作出推断对于不完全数据的处理更常见的方法是借 补关于这方面的文献有许多,d e m p s t e r 和r u b i n ( 1 9 8 3 ) 所著的书中对这种方法给出了 详细的介绍另外,r u b i n 在1 9 7 8 年还提出了多重借补的方法 前面文献中介绍的这些方法都需要对数据缺失机制作出假设,而如果假设不正确这 些方法将会带来很大的偏差比如基于完全纪录单元方法必须假设数据是完全随机缺失 的( m c a r ) 当缺失数据不是m c a r 则会出现很大的偏常用的补值方法的一个基本 假设是产生缺失数据的机制是可忽略的在这种假设下,缺失必须是在某相关变量的条 件下随机发生的然而某些情况下非随机缺失数据的模型也是存在的,这时候常规的补 值方法可能不能给出好的结果对于数据缺失机制的假设,它固然可以给我们处理问题 带来很大的方便但是这种假设的合理性常常引起人们的争论很多情况下我们无法知 道这种假设正确与否如果不给出对数据缺失的假设,则会导致我们所感兴趣的参数无 法被识别尽管如此,我们却可以得到感兴趣参数的一个识别界,这样的界是不依赖于任 何假设的这正是我的这篇文章所关心的主要问题 对于有缺失数据条件下求参数识别界的问题,h o r o w i t z 和m a n s k i ( 1 9 9 8 、2 0 0 0 ) 考 虑了结果变量和协变量有缺失时条件期望的识别界的具体结构z a f f a l o n ( 2 0 0 2 ) 给出了 一些线性和分数线性目标函数的优化问题的算法用于计算条件期望的识别界m a n s k i 和 t a m e r ( 2 0 0 2 ) 考察了当结果变量或协变量是区间缺失时条件期望的识别界问题h o r o w i t z 和m a n s k i ( 2 0 0 6 ) 又考虑了更一般的问题,把求解条件期望识别界的问题推广到一般统 计泛函的识别界 可以说寻找参数识别界是与前面提到的补值方法在统计思想上截然相反的做法补 值方法的思想主要是把不完全数据变成完全数据,再用经典的统计方法来处理补全后的 数据集所有方法不可避免的都要涉及到对缺失机制的处理前面文献中方法是用事先 给出假设的方式来处理缺失机制,而寻找参数的识别界的做法则相反,它是考虑数据在 各种缺失机翩下对统计推断带来的所有可能结果这样的识别界自然包含了在已观测数 据以及缺失数据的各种数据缺失机制下参数的所有可能取值可以说这样的界提取了数 据的全部信息这样做的好处一方面在于我们可以得到各种缺失机制假设下的一个基本 的共识另一方面我们可以粗略的考察结论对某一假设的依赖程度,如果去掉某个假设 后得到的界的范围很宽则结论强烈的依赖这个假设我的这篇文章主要是在总结前人关 于求参数识别界方法的基础上对这些方法的实际效果进行验证并作出评价 本文共分四章,第一部分是引言第二部分介绍了一些获得非参数条件均值的识别 界的方法第三部分介绍了获得关于一般统计泛函的识别界的方法第四部分对这些方 法进行模拟计算 2 2 非参数条件期望的识别界 在这部分内容中,我们考虑的总体为向量w = ( x ,y ) 这里y 是结果变量,x 是 一协变量我们的目的是得到e ( y i x a ) 的识别界这里a 是x 支撑内的一个可测子 集合并且我们假定y 是有界的,不失一般性我们可以假定ye 1 0 ,l 】 2 , 1 仅结果变量数据缺失时条件期望识别界 m a n s k i ( 1 9 8 9 ) 分析了当x 无缺失,只有y 有缺失的情况令z 为一指示变量 当( y l x ) 不缺失 仅有x 被观测 e ( y i x a ) = e ( y i x a ,z = x ) p c z = 1 i x a ) + e ( yj x a ,z = o ) e ( z = o l x a ) ( 2 1 ) 在这里e ( y i x a ,z = 1 ) ,p ( z = l l x a ) ,以及p ( z = o l x a ) 是可以由抽样过程 所识别的但是e ( v i x a ,z = 0 ) 则是不可识别的在z = 0 的条件下,由于y 有缺 失,导致与x a 对应的那些y 值混在了一起,出现了不可识别的现象对于离散的情 形来说则表现为无法确定l ,在各个取值点上相对应的概率。但是由于事先我们假定了y 有界,则有e ( y i x a ,z = 0 ) 【o ,1 】于是识别问题现在清楚了:e ( y i x a ) 的不可 识别性是由于e ( y x a ,z = 0 ) 的不可识别所导致而e ( y i x a ,z = 0 ) 有界则 由( 2 1 ) 可得到e ( y i x a ) 的识别界为 e ( y x a ,z = 1 ) p ( z = a t x a ) e ( y x a ) e ( y i x a ,z = 1 ) p ( z ;i i x a ) + p ( z = o l x a )( 2 2 ) ( 2 2 ) 式不等号左右两边都是可识别的量,且包含了e ( y i x a ) 在不完全数据下各种缺 失机制的所有可能取值当p ( z = 1 i x a ) 从1 减少到0 的过程中e w i x a ) 的识 别界宽度从0 增长到1 ,也就是说当缺失数据的比例增加时,界的宽度也相应增加另一 方面,如果缺失比例一定,则界的宽度体现了已观测数据对e ( y i x a ) 所提供的信息 大小,界的宽度越大说明数据对条件期望提供的信息就越少 2 2 结果变量和协变量同时缺失时条件期望的识别界 、 h o r o w i t z 和m a n s k i ( 1 9 9 8 ) 分析了( ex ) 或者都缺失,或者都不缺失情况下的不完 全数据情况定义指示变量; 3 l 0 ,、【 = z 有0 耐h 从b a y e s 公式可知t z = 耋;娄;磊蓑羹 e ( y i x a ) = e ( y i x a ,z = 1 ) p ( z = l i x a ) + e ( y f x a ,z = o ) p ( z = o i x a ) 鲥( ye xea , z = i ) 丽赢等黑+ e ( y i xe a , z = o 丽谛等等( 2 s ) 这里”( a ,j ) = 尸( x aj z = j ) ,o = 0 ,1 ) 其中e ( y i x a ,z = 1 ) ,口( 4 ,1 ) ,p ( z = j ) ,( j = 0 ,1 ) 是可以被识别的,但是 e ( y f x a ,z = 0 ) 和”( a ,0 ) 则不可识别,但有如下的限制: 0 e ( y i x a ,z = 0 ) l ,0 ”( j 4 0 ) l( 2 4 ) 则e ( y i x a ) 的识别界的可由( 2 3 ) 在( 2 4 ) 约束下的最大、最小值来确定这个界就 包含了各种缺失数据产生机制下e ( y x a ) 的所有可能取值我们不难得到这样的界, 其具体结构如下t e ( y i x a ,z = 1 ) r ( z = 1 l x a ) e ( y i x a ) e ( y i x a ,z = 1 ) 只( z = 1 i x a ) + r e ( z = l i x a )( 2 5 ) 这里: 只( z = - i x a ) = ;巧f 弓宰罢手兰警乒 这个界与( 2 2 ) 有相同的形式,这里只是用只( z = 1 i x 棚代替了p ( z = 1 i x a ) 当7 r ( a ,1 ) 或者p ( z = 1 ) 从1 减少到0 时,这个识别界的宽度从0 增加到1 而这 两个量分别体现了数据对条件期望提供的信息以及数据缺失程度的信息 2 3 协变量缺失时条件期望的识别界 h o r o w i t z 和m a n s k i ( 2 0 0 1 ) 分析了y 不缺失,但是协变量x 有缺失时的情况同样 的定义出指示变量z : 4 z : 1 ,当! y 翟不竺失 , l0 ,只有 ,被观测 为了得到这种情况下条件期望的识别界,我们参照2 2 节中协变量和结果变量同时缺 失的情况在( 2 3 ) 式右边e ( y x a ,z = 1 ) ,7 r ( a ,1 ) 和p ( z = j ) ,o = 0 ,1 ) 是可识别 的如果只是协变量缺失,则p ( y i z = 0 ) 也是可识别的这个量对e ( y i x a ,z = 0 ) 和7 r ( a ,0 ) 这两个不可识别的量加以新的限制t 。p ( y i z = o ) = p ( y i x a ,z = o f i r ( a ,0 ) + p ( y i x 万,z = 0 ) r ( 万,o ) ( 2 6 ) 这里万是a 的补集 为了进一步说明( 2 6 ) 的含义我们记p = 7 r ( a ,0 ) 【0 ,l 】,皿为y 在x 及z 给定 下一切可能分布的集合,因为有; p ( y i x a ,z = o ) = 【p ( y i z = 0 ) 一p ( y i x - ) ( 1 一v ) v 由上式可得t m ( p ) = n p ( y i z = 0 ) 一( 1 一p ) 皿】p :妒皿) 记t g b ( p ) = i n f f d e :妒( p ) 】 9 1 ( p ) = s u p yd e :妒皿( p ) 】 则有, e ( y i x a ,z = 0 ) 9 0 ,9 x 扫) 】 于是e ( y i x a ) 的识别界可表示为 印i x “z 叫丽可p 而p ( z 习= 1 ) 雨面+ 卯丽两臀等品司 e ( y i x a ) e ( v l xea , z = i 莉可p 而p ( z 刁= 1 ) 珂面怕砰看篇剖而j 5 上式不等号左右两端除p = 丌( a ,0 ) 外都是可识别的量,如果p 已知则上式给出了 e ( yb x a ) 的识别界然而一般来说p 不能由抽样过程所确定所以e ( y i x a ) 的 识别界随不同的p 值而不同 2 4 一般模式数据缺失时条件期望的识别界 前面介绍了一些特殊的数据模式下条件期望的识别界。我们得到了这种界的结构的 具体表达式然而就一般同题则很难给出识别界的具体表达式这里我们仅就一特殊情 况来分析在一般数据缺失模式下条件期望的识别界对更一般的结果则在第三章中给于 详细介绍在这里我们考虑的总体为,( y jx ,磊,磊) 限定y 只有两种取值可能; y :1 ,成功 【0 ,失败 则e ( y i x a ) = p ( y x a ) 定义乙和忍是缺失的指示变量其中 忍= :耋妻萋篓翌裂到 。i1 ,当y 被观测到 。 l0 ,当y 未被观测到 为了下面说明问题方便,我们给出如下记号z 易t ( a ) = p ( y = l i x a ,磊= j ,毛= k ) a = p ( y = 1 l 忍= j ,毛= ) g j k ( a ) = 尸( 忍= j ,毛= k l x a ) q k ( a ) = p ( x aj 忍= j ,乙= ) b = p ( 磊= j ,乙= ) ,_ o ,1 由b a y e s 公式可知, q t ( a ) = 霞q 页j j , ( a 丽) p j 厩k 6 则, e ( y i x a ) = p ( y = i l x a ) = ( a ) 啄( a ) e j k ( a ) 奶i ( a ) 乃k 2 矗瓦万j , k q j k ( a ) p j ) k “ j 上式中,e 1 1 ( ) ,q - k ,b ,( ,k o ,1 ) 和凡1 这8 个量是可以由抽样过程所识 别的然而e j o ( a ) ,岛l ( a ) ,q 吐这5 个量则不能被识别,但是它们都取值于【o ,l 】另 外有, a 0 1 = e o l ( a ) q o l ( a ) + b o ,1 ( a ) 【l q m ( a ) 】 其中, b o l ( a ) = p ( y = i l x a ,磊= 0 ,乙= 1 ) i b l ( a ) 是不能由抽样过程所识别的,但是它可以取0 ,1 之间的任何值于是, 剐胪生气榉 根据上式可给出岛1 ( a ) 的取值范围t 【o ,堑铲】娲( 佻咖,志】 这样求e ( y i x a 1 的识别界问题就转化为, e j k ( ) q j ( a ) 弓k 砌n ( m 一) :上聂页丽虿- ( 2 7 ) 使得 0 q o k ( a ) s 1 0 弓( a ) 1 【o ,堑铲】编( 邪唧,志】 上面最优化问题可通过计算机由数值方法求得,然而h o r o w i t z 和m a n s k i 给出了识 别界的具体表达式我们给出如下定理t 7 定理1 ;令 l d ( a ) = q l k ( a ) 马 + + ( 1 一山l r l ) k = o 1 r ( a ) = q l k ( a ) 尸1 女+ + a o l p o l k = o s ( a ) = e u ( a ) q n ( a ) | p l l + q l op 1 0 + + a o l p 0 1 叫,= 丛粉严,叫) = 器 则e ( y x a ) 的识别界为t l ( a ) e ( y i x a ) g ( a ) 证明:下面证明e ( y i x a ) 的识别界的下界为( a ) ,同样的方法可以证明其上界先 令q o - ( a ) 固定不动,则 e ( y i x a ) e 1 1 ( a ) _ 堕盟坠一 q :i ( a ) p 1 j + + q o l ( a ) p o l 鹕譬 i 蕊q 鬲o l ( a ) p 忑o l 蕊 则在( 2 7 ) 限制条件下e ( y x a ) 的最小值就是0 0 - ( a ) 【o ,1 使上式右边达到最小 值首先把【0 , 1 】这一区间分成两部分【o ,1 一a 0 1 ,【1 一a o l ,1 】而在这两部分,上式右边同 时在q 0 1 ( a ) = 1 一a o 。取得最小值点代入可得最小值点为 e 1 l ( a ) q n ( a ) p l l q o k ( a ) 尸1 女+ r o + ( 1 一a o l p 0 1 ) 同样的方法可求出识别界的上界,证毕 另外,h o r o w i t z 和m a n s k i ( 2 0 0 0 ) 还给出e ( y i x b ) - e ( y i x a ) 的识别界这里 b 和a 是x 的支撑集内的两个不交的可测子集我们并不能简单的用上面求得的识别界 的下界减上界作为e ( y i x b ) 一e ( y i x a ) 的下界同理也不能如此求出上界,因为 a ,b 是两个不交的集合,x 只能属于a 、b 之一这将导致e ( y i x b ) 一e ( y i x a ) 的识别界要比直接简单求得的界小我们可以把e ( y x b ) 一e ( y i x a ) 表示为; 8 易 ( b ) q k ( b ) p j k马k ( 以) q 神( a ) 弓i e ( y i x b ) 一e ( y l x a ) = 圭l 要乏i 万一2 量芝l 云万( 2 舟) j j k 在这里,e 1 i ( a ) ,e 1 i ( b ) ,q l k ( a ) ,q l k ( b ) ,弓,山l 这1 1 个量是可以识别的,然而 e j o ( a ) ,b j o ( b ) ,e d l ( a ) ,e o l ( b ) ,q o k ( a ) ,q o k ( b ) 这l o 个量是取值于【0 ,1 】的不可 识别的量山l 对上面一些不可识别的量给于新的限制 a o l = e o l ( b ) q o l ( b ) + i ( a ) q o l ( a ) + i ( a ,b ) ( 1 一q o l ( a ) 一q o l ( b ) ) 这里, t o l ( a ,b ) = p ( y = 1 i x a ,x b ,磊= 0 ,毛= 1 ) 蜀- ( a ,b ) 也是不能由抽样过程所识别的,可取值于【0 ,l 】于是由a o l 的表达式应还有t 这样e ( y i x b ) 一e ( y i x a ) 的识别界可转化为 e j i ( b ) q j ( b ) p j k易 ( a ) 劬 ( a ) p j 俐n ( m a x ) :上董曩瓦万一上董e 甄阿 jkj知 使得: 1 所有不可识别的量都属于【0 ,1 】 2 满足( 2 9 ) 上式最优化问题的最值可以给出其显示表达式,首先给出如下的记号 9 ( 2 1 0 ) 9 但 研 0q + 似 0q 一十 脚舢 铂铂 勖晶 , ,+ + 1 1、,) 一 o ; ,= 0 , g ( o ) = t ( i ) & r r = t ( i ) + p f ( i + 1 ) p 2 ( 1 ,:) = v ( i ,:) ; b r e a k e n d e n d r r = u n i d r n d ( 2 5 ) ; f o r i = 1 :2 5 2 = u n i d r n d ( 6 ) ; l i n s h i = p 2 ( i ,:) ; p 2 ( i ,1 + 6 0 1 ) :6 + 6 $ ( :一1 ) ) = p 2 ( r r ( i ) ,1 + 6 ( 名一1 ) :6 + 6 ( 名一1 ) ) ; p 2 ( r r ( i ) ,1 + 6 $ ( 。一1 ) :6 + 6 z 一1 ) ) = l i n s h i ( 1 + 6 ( z 1 ) :6 + 6 ( z 1 ) ) e n d f o r j = 1 :5 0 m = r a n d ; :z ;u n i d r n d ( 6 1 i f r n b ( z z ) 。= s 亿e 叫( ) ; n e w ( i ) = u n i f r n d ( o ,1 ) ; s = s + n e 叫0 ) ; e n d e n d n e w ( 6 ) = b ( z z ) 一s ; p 2 ( j ,1 + 6 ( z z 一1 ) :6 + 6 $ ( :z 1 ) ) ;n e w e n d e n d p p = p 2 e n d 程序z 计算j d ( := l l x l = m ,x 2 = n ) r u n i o np = p z ( x ,s ,m ,n ) s l = o : y o r i = 1 :2 0 0 i ,x ( i ,2 ) = = m & x ( i ,3 ) = = r t s 1 = s l + l : e n d e n d p = s l s ; f u n 矗i o np = 坤缸l ,y l ,s ,m ,彩 s y 3 = 0 ;s y 4 = 0 ;s y 5 = 0 ;s y 6 = 0 ;s y 7 = o ;s y 8 = o ; t = s i z e ( x 1 ) ; i o ri = 1 :t ( 1 1 i fx l ( i ,2 ) = = m z l ( i ,3 ) = = n & y l ( i ) = = 3 s y 3 = s y 3 + 1 : e l s e i f x l ( i ,2 ) = = m & x l ( i ,3 ) =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园欺凌分类题库及答案
- 建筑公司咨询策划方案
- 2025年亳州职业医学题库及答案
- 情感咨询公司引流方案
- 2025年工业互联网平台网络隔离技术在工业生产效率提升中的应用报告
- 2025年初级粤菜考试试题及答案
- 汽车湖南专业测试题及答案
- 专业兴趣分析测试题及答案
- DB65T 4401-2021 早熟玉米新玉54号高效栽培技术规程
- 第2单元 5 草船借箭2024-2025学年五年级下册语文同步教案(统编版)
- 水暖专业试题及答案
- 2025年秋国家开放大学《形势与政策》形考大作业答案
- 化工安全网络培训课件
- 2025年超细氢氧化铝行业研究报告及未来行业发展趋势预测
- 2025-2026学年人美版(2024)小学美术二年级上册(全册)教学设计(附目录P188)
- 肺康复护理进展
- 2025人教版二年级数学上册《1-6表内除法》教案
- 2025年高考(新课标Ⅱ卷)英语试题及答案
- 电子元器件供货方案与保证措施
- 2025便利店便利店员工劳动合同范本
- 小学二年级体育教案全集全册1
评论
0/150
提交评论