




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
剖川 p哆j,1711 2】1,1 一 - 争 量 l u li ii lll l lli i l l ii111 y 18 0 5 7 6 9 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名: 稍璇 日期:沙加上弓d 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:盈簋 日 期:f 1 2 :圭:多p 学位论文作 工作单位: 通讯地址: 指导教师签 日 电话: 邮编: , 摘要 纵向数据是指对每一个个体在不同时间进行观测而得到的由截面和时间序 列融合在一起的数据。纵向数据最大的特点就是它将截面数据和时间序列数据结 合在一起,既能分析出个体随时间的变化趋势,又能分析总体的变化趋势。但是, 由于纵向数据同一个体在不同时间进行了重复观察,而且个体之间又存在着一定 的差异,这就导致了纵向数据的整体完整性难以保证。c h e n 和l i t t l e ( 1 9 9 9 ) 在 广义估计方程的基础上提出了一种w a l d - t y p e 检验,计算了并比较了不同形式下 缺失数据的样本子集的参数估计差异。q u 和p e t e r ( 2 0 0 2 ) 提出了一个更统一的 g e n e r a l i s e d s c o r e - t y p e 检验,这个检验方法是在二次推断函数的基础上提出 的,它避免了对每种缺失机制做参数估计。本文通过对具体数据做模拟分析,验 证了两种方法的渐近相同性。 关键字:缺失数据;广义估计方程;二次推断函数;完全随机缺失;缺失机制 a b s t r a c t l o n g i t u d i n a ld a t ai sd i f f e r e n tf o re a c hi n d i v i d u a lo b s e r v a t i o nt i m eo b t a i n e db y t h ec r o s s s e c t i o na n dt i m es e r i e sd a t at o g e t h e r 1 1 1 eg r e a t e s tf e a t u r eo fl o n g i t u d i n a l d a t ai st h a ti tc r o s s s e c t i o nd a t aa n dt i m es e r i e sd a t at o g e t h e r , b o t ho ft h ei n d i v i d u a l t r e n d so v e rt i m e b u ta l s oo ft h eo v e r a l lt r e n d h o w e v e r , l o n g i t u d i n a ld a t af o r t h es a m e i n d i v i d u a la td i f f e r e n tt i m e so ft h er e p e a t e do b s e r v a t i o n s ,b u ta l s ob e t w e e ni n d i v i d n a l s b u ta l s o t h e r ea r es o m ed i f f e r e n c e s w h i c hl e dt ot h e o v e r a l li n t e g r i t yo ft h e l o n g i t u d i n a ld a t ai s d i f f i c u l tt og u a r a n t e e c h e na n dl i t t l e ( 19 9 9 ) p r o p o s e da w a l d t y p et e s tb a s e do nt h eg e n e r a l i z e de s t i m a t i n ge q u a t i o n , c a l c u l a t e da n dc o m p a r e d u n d e rd i f f e r e n tf o r m so fm i s s i n gd a t as u b s e t so ft h ep a r a m e t e r so ft h es a m p l ee s t i m a t e o ft h ed i f f e r e n c e q ua n dp e t e r ( 2 0 0 2 ) p r o p o s e dam o r eu n i f i e dg e n e r a l i s e d - s c o r e t y p e t e s t ,t h i st e s tm e t h o di sb a s e do nt h eq u a d r a t i ci n f e r e n c ef u n c t i o ni sp r o p o s e d ,w h i c h a v o i d st h el a c ko fm e c h a n i s m sf o re a c hp a r a m e t e re s t i m a t i o n b a s e do nt h es p e c i f i c d a t ai ss i m u l a t e dt ov e r i f yt h et w om e t h o d sa r ea s y m p t o t i c a l l yt h es a m e k e y w o r d s :m i s s i n gd a t a ;g e n e r a l i z e de s t i m a t i n ge q u a t i o n ;q u a d r a t i ci n f e r e n c e f u n c t i o n ;m i s s i n gc o m p l e t e l ya tr a n d o m ;m i s s i n g - d a t am e c h a n i s m i i o h j 目录 中文摘要i 英文摘要i i 目录 引言1 第一章、基础知识概念介绍3 ( 一) 纵向数据3 ( 二) 缺失机制3 ( 三) 广义估计方程3 ( 四) 二次推断函数4 第二章、提出背景及发展介绍6 ( ) w a l d t y p et e s t 6 ( 二) g e n e r a l i s e ds c o r e t y p et e s t 8 第三章、实例分析1 1 ( 一) 使用g e e 和q i f 方法分析完全数据1 2 ( 二) 使用g e e 在完全随机缺失下做模拟1 2 ( 三) 补全数据后分别做模拟分析“1 3 参考文献1 4 谢辞1 6 m 东北师范大学硕士学位论文 引言 纵向数据是指对每一个个体在不同时间进行观测而得到的由截面和时间序 列融合在一起的数据。纵向数据最大的特点就是它将截面数据和时间序列数据结 合在一起,既能分析出个体随时间的变化趋势,又能分析总体的变化趋势。但是, 即使是在控制良好的情况下,在纵向数据研究中也会出现有缺失数据的情况。受 测个体可能错过某个特定的观测点,从而导致这样的个体提供的数据只是一部 分,而不是观测的每个时间点都有数据。此外,在特定的时间点评估的研究对象, 可能只对研究变量的自己提供响应变量,当然,这也是由于缺失数据造成的。最 后,受测者可能会中途退出或没有被跟踪调查,导致除了特定的时间点外没有数 据可供研究。这些都会导致纵向数据中出现缺失数据。 在最大似然推理方面,r u b i n ( 1 9 7 6 ) 把缺失数据分为三类,即,随机缺失 ( m a r ) 、完全随机缺失( m c a r ) 、非随机缺失( n m a r ) 。相较于r u b i n ( 1 9 7 6 ) 的 分类,以及与极大似然估计有关的理论分析,我们也可以把缺失机制分为两类, 即:可忽略和不可忽略缺失,这依赖于估计方程的均值是否为零。众所周知,从 估计方程的标准理论来看( h e y d e ,1 9 9 7 ,p 1 8 0 ) ,零均值的假设是一个关键条件, 确保了从估计方程取得一致性估计。 当数据是完整数据时,已有的讨论纵向数据的模型主要有几种,即,随机效 应模型、边缘模型、转移模型。特别的,g e e ( 广义估计方程) 方法是处理边缘 模型的统计推断方法,但是g e e 方法中保证其参数估计是相合估计的一个主要假 设就是均值建模必须正确,因此,g e e 方法仅适用于所研究的数据是完全随机缺 失的情形,所以在使用g e e 方法之前,有必要首先判断研究数据是否是完全随机 缺失的。 c h e n 和l i t t l e ( 1 9 9 9 ) 研究指定了w a l d - t y p e 检验法,用于g e e ( 广义估计方 程,l i a n g 与z e g e r ,1 9 8 6 ) s ( ) = ( 丘) 形。1 ( y j 一“) = 0 , 对于纵向数据中完全随机缺失数据的检验。其估计的零假设仍然是零均值的假 设。事实上,g e e 方程是估计方程中处理边缘模型的一类比较特殊的,但又是最 为常见的,应用也是比较广泛的估计方程,但是,这种做法缺少总体的目标函数, 这使得它很难在似然函数的基础上对模型做选择或者检验 东北师范大学硕士学位论文 相比于g e e 方法,q u ( 2 0 0 0 ) 提出了q i f ( 二次推断函数) 方法。q i f 方法, 它是在g e e 估计方法的基础上提炼并建立一个新的目标函数,令 季( ) = 万1 善n 蜀( ) = 专 11 ( 廖) 4 1 m 。4 1 ( 只一以) i li ( 廖) 4 1 帆4 1 ( 儿一以) 即通过这种扩展的分向量元素的线性组合建立一个二次随机函数, , g t g : q ( ) = 弦一卜,其中c 一2 气广, 通过这个二次随机函数,可以导出检验参数的推断函数,因此,q u 等( 2 0 0 0 ) 称它为q i f ( 二次推断函数) 事实上,q i f 方法是对g e e 方法的一个推广,其估计有效性的保证也是必须 保证均值建模的正确性。q u 和s o n g ( 2 0 0 2 ) 在q i f 方法的基础上提出了一个更统 一的g e n e r a l i s e ds c o r e t y p e 检验,这种方法延续使用了c h e n 和l i t t l e ( 1 9 9 9 年) 划分数据的缺失模式,但是避免了详细的描述在每种数据缺失模式下的参数 估计情况,此方法中计算在不同的缺失数据模式下,使得估计方程的q i f ( 二次 推断函数) 值最小的参数。 g e n e r a l i s e ds c o r e t y p e 检验避免了w a l d - t y p e 检验的一些限制。特别是, 对于相当大的总样本量,c h e n 和l i t t l e ( 1 9 9 9 ) 的w a l d - t y p e 方法仅可对总体 的少量缺失数据作出估计,这样的估计并不是最让人感到满意的。相对于他们的 做法,g e n e r a li s e ds c o r e t y p e 检验在做假设检验时并不需要确保测试程序渐 近服从标准z 分布。因此,在这种情况下,c h e n 和l i t t l e ( 1 9 9 9 ) 的w a l d - t y p e 检验方法不如q u 和s o n g ( 2 0 0 2 ) 的g e n e r a lis e ds c o r e t y p e 检验方法实用。 本文试对两种估计方法做一个概述,首先简介了两种方法的产生及发展,其 次将两种方法用于对a s t h m ad a t a 的分析,再次在可忽略机制的假设下,利用 e m 算法,将其数据补充成完全数据后,分别使用g e e 和q i f 方法对其进行分析, 最后对不同方法下的结果进行比较。 论文结果如下: 第一章,简单的介绍文章中涉及到的有关概念和基础知识; 第二章,系统介绍两种方法的产生及发展; 第三章,数据分析结果,对比,整理。 2 东北师范大学硕士学位论文 而此方程可以看作是扩展得分方程的一个线性组合: 蚕( ) = 专善吕( ) = 专 n ll ( 以) 4 1 m ,4 一j ( 一肛) _ vi1 ( 廖) 4 一j 以4 一j ( 只一鸬) 基于此组得到了扩展的得分函数方程,可以构造以下的二次推断函数, q ( p ) = 弦。1 虿 g ;g : 其中c = 上 n ,其中 , 使上述函数最小化的卢就是我们想得到的参数的估计量。 e h q u 等( 2 0 0 0 ) 提出的q i f ( 二次推断函数) 模型与g e e ( 广义估计方程) 模型相比,不需要那么多的假设条件,而且,即使当工作相关阵错误描述给定时, 得到的参数估计仍然是有效的。 一 ,w 东北师范大学硕士学位论文 第二章背景及发展过程介绍 2 :1 w aid t y p et e s t g e e ( 广义估计方程) 以简单高效的方法提供了多种设置参数的推论。其中 有一类是应用与纵向数据的分析。广义估计方程的方法可以适用于响应变量不完 全观测到的情况,如在损耗的纵向研究中。然而,由于l i a n g 与z e g e r ( 1 9 8 6 ) 指 出,这种方法通常会产生有偏估计,当数据是不完全随机缺失的,曾经有几种方 法被提出来调整估计方程。这些方法包括加权广义估计方程,有条件的非参数得 分估计,模型条件分布和多重填补。所有这些方法,只有第二种方法作出更多的 参数化模型假设,可能减少估计的稳定性,但是这个方法在对连续数据的处理方 面有一定的困难。大家都知道,当数据是随机缺失的,最大似然估计在忽略数据 的缺失机制时仍是有效的。因此,当数据分别处于完全随机缺失和随机缺失时, 最大似然估计方法要比估计方程方法更好。d i g g l e ( 1 9 8 9 ) 提出非参数检验,主要 用于最初的检查。r i d o u t ( 1 9 9 1 ) 提出了参数检验,基于数据丢失的过程建模。然 而,对缺失数据的过程建模有时很难,尤其是当数据的缺失模式不是单调的,在 这里概括了c h e n 与l i t t l e ( 1 9 9 9 ) 构建的w a l d - t y p e 检验统计量。 以下通过一个简单的例子给出一些记号,考虑一个假设性的药物治疗效果 的纵向研究。受试者被随机分配到治疗组或安慰剂组。响应变量治疗反应服从二 项分布。z2 ( ”i ”,) 表示第i 个个体的响应,表示治疗分组,弓2 1 代表 分到治疗组,互2u 代表分到安慰剂组。进一步假设在时间勺的边际平均响应模 型是如下的l o g i s t i c 回归模型: e ( 均iz i , 勺) = 1 1 + e x p ( a 。+ 口刁+ 口:o ) ( :l ,2 ,丁) 令岛【叫标记等式的右端,其中口2 【,口。延续l i a n g 和z e g e r ( 1 9 8 6 ) 中 的符号, 喜学- , :w - , v - , 2 ”酬- i - , 此g e e 方程仍作为参数的估计方程。这里 6 东北师范大学硕士学位论文 g ,( 口) = g ,。( 口) ,g ,( 口) , y = 纰 g l ( 口) l g 力( 口) ) ,断( 口) l g ,r ( 口) ) w 称为工作相关阵l i a n g 和z e g e r ( 1 9 8 6 ) 。 在实际情况中,往往很难获得所有的响应数据。这时,对于一些只有部分观 测的个体,估计得分可以被修改,例如,如果个体i 只有k 个观测,那么响应的 个体i 的估计得分可写为 掣吵严p 酗 , 口 、 、 f9 、 下面介绍w a l d t y p e 检验的具体形式,为了方便,把所有的变量打包做成一个简 单的向量x ,对于个体i ,z 2 y t , z ,“,) ,五,以是一个来自研究总体的 p 维的独立样本。e 代表一个来自总体的向量 s = 舭,p ,) :e i - - o o rl ,f o ra 1 1 ) 、 p ( x ) = ( ,咋) 肛毛= 置,i f e = 1 ) m ( m ,z ) 表示观测数据,的取值来源于占中,如果x 的所有组成都是可 观测的,则m 的所有值都是l ,否则为0 对于可观测个体i ,观测数据是 y = p ( z ) ,i f 鸭= l ,o rs i m p l yy i = ( 五) 。 为简单化这个问题,只考虑个体间独立的情况,令q ,。o0 9 是研可能取的值, 令爱 ( 置) ,秒) 标记吼( x ) 的估计得分;它满足 爰 吼( z ) ,伽= 0 ,( 后= i ,尺) ,( 3 ) 这里岛是口的真值。适应了不完全数据的广义估计方程( 1 ) 可以通过缺失模式 整合成为 善善& 气( 置) ,9 ) 引= ,( 4 ) 对于等式( 4 ) ,在完全随机缺失的假设下。也有等式 7 东北师范大学硕士学位论文 文 吼( x ) ) i 坍= 气 = 0 ,( 七= l ,欠)( 5 ) 成立。 统计量 d = 喜仇 耋t ( 秒) 一g t ( 刍c ) y 圪。 ;t ( p ) 一( 各c ) ) ,。6 , 可以用于这些等式的检测。其中,g k ( 目) 是一个关于参数口的极大可识别函数,仇 是模式咯下的观测个数,务。是目的局部一致估计。 检验统计量d 检验整合方程( 5 ) 的一系列子方程的完全随机缺失假设, 并以合并后的方程 套e 受 气( y ) i 朋2 气 p r ( 埘2 气) = 。,( 7 ) 为基础。 当估计方程变成似然得分方程,检验就成为一个w a l d - t y p e 检验。 2 2g e n e r aiis e ds c o r e t y p et e s t 由于估计方程对似然函数的无要求性,使得它的应用十分广泛,但是,这种 方法往往缺少一个目标函数,这使得它很难在似然函数的基础上做模型的检验或 选择。q u 等( 2 0 0 0 ) 提出的q i f ( - - 次推断函数) 方法,它是对g e e ( 广义估计 方程) 方法的一个扩展,同时也避免了上述问题的出现。 我们假设估计方程是一个关于数据集( x ,y ) 的函数s ( x ,y ,矽) ,其中为关 心的估计参数,它满足零均值假设,即 易( s ) = 0 ( 1 ) 并且,s 的维数大于的。那么由h a n s e n ( 1 9 8 2 ) 提出的g 删( g e n e r a l i s e d m e t h o do fm o m e n t se s t m a t o r ) 估计, 2 a r g 呼n s c s ,( 2 ) 其中c 是s 的方差矩阵,一般情况下是己知的。这个二次随机函数q ( ) = s c - 1 s 也提出了参数的推断函数。由此,q u 等( 2 0 0 0 ) 称q 为一个二次推断函数。 8 东北师范大学硕士学位论文 如果等式( 1 ) 的零均值假设成立,那么是渐近正态并相合的估计。另外, 当一些额外的规律性条件也满足时,g m m 方法也是一种很有效的估计方法。 这个二次推断函数对于假设检验有个很有用的卡方性质 ( h a n s e n ,1 9 8 2 :o u ,2 0 0 0 ) ,或许,二次推断函数的最重要的作用是检验等式( 1 ) 中的零均值假设;如果,r = d i m ( s ) q = d i m ( f 1 ) ,则q ( ) 渐近的服从农。这也 是所谓的拟合优度假设检验。如果零均值的假设满足了,那么直觉上,二次距离 的最小值也应该接近o 。 下面介绍可忽略缺失的两种模式,首先假定存在两个互不相交的个体集合, 一个是完全数据,一个是不完全数据。记两个估计方程分别为和j z ,令 ,、, s 2 【s - ,s 2j ,对于可忽略缺失指的是存在一个共同的参数满足 ( s ) = 0 ( 3 a ) ( 置) 2 易( s z ) = 0 ( 3 b ) 两种缺失数据模式下,计算岛20 的情况,两个估计方程组的相容性使我们可以 得到一个一致的参数估计,这时,不完全观测被忽略。 我们定义此时的q i f 函数为: q = ( 乏) ( 孑岂) - 1 ( 乏 = q 。1 而+ s ;g 。1 ,。4 , 其中c l 和c 2 分别是岛和的方差矩阵,因为而和岛互补相交,所以它们的协方差 阵为0 。 现在我们把两种缺失模式的情况扩展到r 种。假设有n 个相互独立的个体, 每个个体在时间2 l ,。,啊重复观测。为叙述方便,这里令兰力。个体f 的协变量 和响应变量分别用工= ( 砀,靠) 和咒= ( 蜘,:,虼) 来表示。以下其它标记同 c h e n 和l i t t l e ( 1 9 9 9 ) 中的规定,则对于第k 种缺失模式,估计方程可以写为: 9 东北师范大学硕士学位论文 s ( ) = 影 ( 置) ,( 只) , ,( = 气) 其中,仍是一个示性函数。那么在原假设风:易( s ) = 0 f o r k - l ,”r ,在q i f9 弓 法基础上提出的g e n e r a l i s e ds c o r e t y p e 检验统计量定义为5 q ( 多) = 喜 s ( 多) ) q l s ( 多) ,( 5 ) 这里c k - :, c a r ( s t ) ,q ( 多) 服从卡方分布,自由度为 2 ,d ;m ( s t ) 一d ;m ( ) 。 定理1 :t h e n 和l i t t l e ( 1 9 9 9 ) 中提出的w a l d t y p e 检验统计量与 ( 5 ) 中的q i f 方法优势比检验统计量在适当的规律性条件下是渐近相等的。 证明过程在0 u 等( 2 0 0 2 ) 中已详尽列出。 1 0 东北师范大学硕士学位论文 第三章实例分析 本小节,我们首先回顾了解一下c h e n 和l i t t l e ( 1 9 9 9 ) 以及q u 和s o n g ( 2 0 0 2 ) 中都曾使用过的a s t h m ad a t a b o y s a s t h m ad a t aa ta g e1 3 n oy e sm i s s i n g a s t h m as t a t u sn o5 1 41 51 4 56 7 4 a ta g e9y e s62 243 2 5 2 03 71 4 97 0 6 g i r l s a s t h m ad a t aa ta g e1 3 n o y e sm i s s i n g a s t h m as t a t u sn o 5 6 11 31 1 56 9 8 a ta g e9y e s31 382 4 5 6 42 61 2 37 1 3 这些数据来自于在s t e n b e n v i l l e ,o h i o 做的有关小儿哮喘的调查研究 ( r o t n i t z k y & w y p i j ,1 9 9 4 ) 。共有1 4 1 9 名儿童在9 岁时接受了是否忠有小儿哮 喘症的调查,四年后,即在他们1 3 岁时又做了一次跟踪调查。具体数据表现列 在表格1 中 r o t n i t z k y 和w y p i j ( 1 9 9 4 ) 他们为研究哮喘症与协变量,年龄和性别之间 的关系,建立了l o g i s t i c 边缘回归模型: l o g i tp r ( y = 1 ) = b o + f l l i ( m a l e ) :+ 殷,( 彳矽) ,( i = l ,1 4 1 9 ;t = l ,2 ) ( 】) 如果第f 个儿童在第r 个观测点患有哮喘症,则匕一,否则匕= 0 。f 指儿童个数, t = l 指在9 岁时做调查,= 2 指在1 3 岁时的调查。根据表格1 中数据可以看出, 屈和屈可以由完全数据给出估计,但是对于屈,因为在调查过程中有部分数据 东北师范大学硕士学位论文 丢失,所以只能有部分数据给出估计,此时的估计是有偏的。 r o t n i t z k y 和w y p i j ( 1 9 9 4 ) 中指出,当数据缺失时,极大似然估计,g e e 方法的估计结果都会有偏差,所以,通过计算不完全数据的估计方程,得到一个 估计值,r o t n i t z k y 和w y p i j ( 1 9 9 4 ) 给出了一个条件,用于识别这个估计可能 性的极限。 c h e n 和l i t t l e ( 1 9 9 9 ) 提出了w a l d t y p e 检验统计量,对a s t h m ad a t a 做 了检验后得到,其数据满足完全随机缺失。 q u 和s o n g ( 2 0 0 2 ) 导出的g e n e r a l i s e ds c o r e t y p e 检验统计量做了相关 模拟后,结果与c h e n 和l i t t l e ( 1 9 9 9 ) 中相符合,也就是说缺失数据是可忽略 的。 以下各小节在做分析的时候均延续使用r o t n i t z k y 和w y p i j ( 1 9 9 4 ) 中提出 的模型,及相关符号规定。 3 1 使用g e e 和q if 方法分析完全数据 本小节,我们忽略有缺失数据的2 7 2 个个体的观测数据,只对有完全数据的 1 1 4 7 个个体的数据使用g e e 和q i f 方法做分析,结果显示: c o e f f i c i e n t s :( g e e ) e s t i m a t es a n s ew a l d p ( i n t e r c e p t ) 一3 4 8 5 9 4 6 70 2 0 5 5 9 4 62 8 7 4 8 6 8 2 00 0 0 0 0 0 0 0 0 0 s e x0 4 8 8 5 9 0 50 2 5 1 8 3 5 03 7 6 4 0 7 20 0 5 2 3 6 4 9 1 3 t jm e0 3 7 7 2 9 0 70 1 2 0 7 3 5 19 7 6 5 2 8 80 0 0 】7 7 8 3 7 7 c o e f f i c i e n t s :( q i f ) e s t i m a t es t d e r r z p ( i n t e r c e p t ) 一3 4 9 5 6 7 7 7 0 2 1 2 4 2 5 3 1 6 4 5 6 0 3 20 0 0 0 0 0 0 0 0 0 s e x0 4 9 4 3 3 4 40 2 5 7 2 8 3 21 9 213 6 30 0 5 4 6 8 5 9 7 2 t i m e0 3 7 6 2 4 1 10 1 2 1 6 3 9 43 0 9 3 0 8 50 0 0 1 9 8 0 8 7 4 3 2 使用g e e 在完全随机缺失下做模拟 由c h e n 和l i t t l e ( 1 9 9 9 ) 已做检验可知,a s t h m ad a t a 可看作完全随机缺失 产生的数据,所以可直接使用g e e 对其做分析,结果显示: c o e f f ic ie n t s :( g e e ) e s ti m a t es a n s ew a l d p ( i n t e r c e p t ) - 3 3 4 0 8 4 4 80 1 8 5 2 6 8 53 2 5 1 6 9 10 90 0 0 0 0 0 0 0 0 0 s e x0 2 8 0 8 4 3 60 2 3 0 8 7 3 01 4 7 9 7 3 10 2 2 3 8 1 6 6 1 6 t i m e0 3 6 4 5 7 4 90 11 4 6 6 7 81 0 1 0 8 5 8 50 0 0 1 4 7 5 8 0 2 1 2 , 东北师范大学硕士学位论文 3 3 补全数据后分别做模拟分析 本小节,我们首先假设数据在a g e = 1 3 时,响应与否依赖于该时刻的潜在响应 值。此时数据为不可忽略缺失,我们就是基于这种不可忽略缺失机制,先利用 e m 算法将数据补全,然后将补全后的数据再利用g e e 和q i f 进行分析。结果显 示: c o e f f i c i e n t s :( g e e ) e s t i m a t es a n s ew a l d p ( i n t e r c e p t ) 一3 3 3 4 1 4 8 60 1 8 1 8 7 5 43 3 6 0 6 3 9 7 80 0 0 0 0 0 0 0 0 0 s e x 0 2 6 8 9 2 0 90 2 2 2 3 8 4 51 4 6 2 3120 2 2 6 5 6 2 6 3 6 t i m e0 3 6 1 4 0 5 30 11 0 0 9 7 21 0 7 7 5 4 8 10 0 0 1 0 2 8 5 3 5 c o e f f i c i e n t s :( q i f ) e s t i m a t es t d e r rz p v a l u e ( i n t e r c e p t ) 一3 3 3 5 2 8 9 70 1 8 4 9 9 6 3 - 1 8 0 2 8 9 5 2o 0 0 0 0 0 0 0 0 0 0 s e x0 2 6 9 0 4 1 60 2 2 4 5 9 2 61 1 9 7 9 1 0o 2 3 0 9 5 2 1 6 9 9 ti m e 0 3 6 2 5l7 90 1 0 9 9 3 0 43 2 9 7 7 0 50 0 0 0 9 7 4 7 8 5 4 结果表明,参数的估计值与前面两种分析方法得到的结果很接近, r o t n i t z k y 和w y p i j ( 1 9 9 4 ) 的结果进一步得到吻合。 1 3 东北师范大学硕士学位论文 参考文献 【1 b e c k e r r a ,c h a m b e r s ,j m a n d w i l k s ,a r ( 1 9 8 8 ) t h en e w sl a n g u a g e w a d s w o r t h b r o o k s c o l e 【2 w i c h u r a , m j ( 19 8 8 ) a l g o r i t h ma s2 41 :t h ep e r c e n t a g ep o i n t so f t h en o r m a ld i s t r i b u t i o n a p p l i e ds t a t i s t i c s ,3 7 ,4 7 7 4 8 4 【3 q u , a ,l i n d s a y ,b 。g & l i ,b ( 2 0 0 0 ) i m p r o v i n gg e n e r a l i s e de s t i m a t i n ge q u a t i o n s u s i n gq u a d r a t i ci n f e r e n c ef u n c t i o n s b i o m e t r i k a8 7 ,8 2 3 3 6 【4 】c h e n ,h y & l i t t l e ,r j a ( 1 9 9 9 ) a t e s to fm i s s i n g c o m p l e t e l y a t r a n d o mf o rg e n e r a l i s e de s t i m a t i n ge q u a t i o n sw i t hm i s s i n gd a t a b i o m e l r i k a 8 6 1 - 13 【5 l i a n g , k y & z e g e r , s l ( 1 9 8 6 ) l o n g i t u d i n a ld a t aa n a l y s i su s i n gg e n e r a l i s e d l i n e a rm o d e l s b i o m e t r i k a7 3 ,1 2 - 2 2 【6 h a n s e n ,l ( 19 8 2 ) l a r g es a m p l ep r o p e r t i e so fg e n e r a l i z e dm e t h o do fm o m e n t se s t i m a t o r s e c o n o m e t r i c a 5 0 ,1 0 2 9 1 0 5 4 【7 c h e n ,h y & l i t t l e ,r j a ( 19 9 9 ) at e go fm i s s i n gc o m p l e t e l y a t r a n d o mf o rg e n e r a l i s e de s t i m a t i n ge q u a t i o n sw i t hm i s s i n gd a t a b i o m e t f i k a8 6 ,l - 13 【8 q u , a ,l i n d s a y , b g & l i ,b ( 2 0 0 0 ) i m p r o v i n gg e n e r a l i s e de s t i m a t i n ge q u a t i o n su s i n g q u a d r a t i ci n f e r e n c ef u n c t i o n s b i o m e t r i k a 8 7 ,8 2 3 - 3 6 【9 q u , & p e t e rs o n g ( 2 0 0 2 ) t e s t i n gi g n o r a b l em i s s i n g n e s si ne s t i m a t i n ge q u a t i o na p p r o a c h e s f o rl o n g i t u d i n a ld a t a b i o m e t r i k a 8 9 ,4 ,p p ,8 41 - 8 5 0 【10 q u ,& p e t e rs o n g ( 2 0 0 4 ) a s s e s s i n gr o b u s t n e s so fg e n g r a l i s e de s t i m a t i n ge q u a t i o n sa n d q u a d r a t i ci n f e r e n c ef u n c t i o n s b i o m e t r i k a 。91 ,4 4 7 - 4 5 9 【11 l i t t l e ,r j a & r u b i n ,d b ( 19 8 7 ) s t a t i s t i c a la n a l y s i sw i t hm i s s i n gd a t a n e wy o r k j o h n w i l e y 【12 h a r d i nj w , h i l b ej m ( 2 0 0 3 ) g e n e r a l i z e de s t i m a t i n ge q u a t i o n s c h a p m a n & h a l h b o c ar a t o r t , 【13 d o n a l dh e d e k e r & r o b e r td ( 2 0 0 6 ) g i b b o n s l o n g i t u d i n a ld a t aa n a l y s i s j o h nw i l e y & s o n s ,l n c ,h o b o k e n , n e wj e r s e y 【14 m d a v i d i a n a p p l i e dl o n g i t u d i n a ld a t aa n a l y s i s m a d ed a v i d i a n ,2 2 0 - fp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咨询分析方案
- 夏天看房活动方案策划
- 客户咨询方案汇报
- 咨询互斥方案真题
- 传统行业新营销方案模板
- 蛋白饮料原料安全报告
- 咨询类技术方案
- 咨询俱乐部运营方案
- 电力结算审核咨询方案
- 餐饮机器人营销方案模板
- 基础教育教学成果奖评审组织实施方案
- 建行考试题目及答案
- 第3课 团团圆圆过中秋 第1课时(课件)2025-2026学年道德与法治二年级上册统编版
- 第6课 从小爱科学 第1课时(课件)2025-2026学年道德与法治三年级上册统编版
- 2025年铁路建设工程质量安全监督管理人员考试试题及答案
- 2025年度事业单位公开招聘考试《综合应用能力(E类)药剂专业》新版真题卷(附解析)
- 成都麓湖生态城规划建筑产品线
- TCECS 720-2020 钢板桩支护技术规程
- 华为企业应收账款管理【案例分析】
- 应用化学专业英语unit.ppt
- 原地侧向投掷垒球教案
评论
0/150
提交评论