




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文将响应变量定性为两值变量,且满足一阶马氏性,并用图模型来描述含有缺失数据的 纵向数据本文讨论的这种缺失是一种不可忽略缺失模型,即个体在每一个时刻是否响应依赖 于其当前的潜在响应值,用e m 算法对参数进行估计如果这个模型是一个或两个时间点的, 此e m 算法计算简便,但是三个或更多个时间点的,此法计算复杂并没有规律可言,所以笔者 试图找到一种简便算法,使得算法有规律可循,并将其理论结果应用于实际的一个含有缺失数 据的医学数据中,从而体现其优越性 关键词:纵向数据;缺失数据;图模型;非随机缺失;e m 算法 a b s t r a c t i nt h i sp a p e r , t h er e s p o m ev a r i a b l e sa r ed i s c u s s e da sb i n a r yv a r i a b l e sa n dm e e tt h en e e d so f f i r s t - o r d e rm a r k o v ;a n dt h eg r a p hm o d e li su s e dt od e s c r i b el o n g i t u d i n a ld a t aw h i c hi n c l u d em i s s i n gd a t a t h em i s s i n gm e c h a n i s m sd i s c u s s e di nt h i sp a p e ri sak i n do f c a n n o t b e i g n o r e d - m i s s i n gm o d e l ,i e t h ei n d i v i d u a l si ne v e r ym o m e n tr e s p o n d i n go rn o tr e l y so ni t sc u r r e n tp o t e n t i a lr e s p o n s e ,u s i n ge m a l g o r i t h mt oe s t i m a t e st h ep a r a m e t e r s 。t h i se ma l g o r i t h mi ss i m p l ei nc a l c u l a t i n gw h e nt h em o l l i sb a s e do no n eo rt w op o i n t si nt i m e h o w e v e r , i ft h e r ea r et h r e eo rm o r ep o i n t si nt i m e ,t h i se m a l g o r i t h mi sc o m p l i c a t e da n d l a c k sar e g u l a rp a t t e r n t h e r e f o r e ,t h i sp a p e ri n t e n d st of i n do u ta s i m p l e a l g o r i t h mt og i v ei tar e g u l a rp a t t e ma n da p p l yt h i sa l g o r i t h mt oas e r i e so fm e d i c a ld a t ac o n t a i n i n g m i s s i n gd a t at os h o wi t ss u p e r i o r i t y k e yw o r d s :l o n g i t u d i n a ld a t a ;m i s s i n gd a m ;g r a p hm o d e l ;n o n - r a n d o mm i s s i n g ; e m a l g o r i t h ms t a t i s t i c s 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名:二趸兰鲎翌全 日期: 学位论文使用授权书 本学位论文作者完全了解东:i l n 范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东:i l n 范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:乏圣兰窒型指导教师签名学位论文作者签名:1 垒 笤卅乞指导教师签名 日 期:2 竺呈。2 当 日期 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 引言 纵向数据( 1 0 n g i t u d i n a ld a t a ) 是指随时间的演进而追踪测得的数据更确切地说,在一项研 究实验中我们准备了一定数量的个体或样本,对每一个个体随时闻的演进作测量f 所得到的数 据就是纵向数据纵向研究应用于医学中可以是队列研究( c o h o r ts t u d i e s ) ,也可以是临床试验 研究( c l i n i c a lt r i a l s ) 它是指对于我们关心的某个医学指标,一个或多个群组( c o h o r t 或p a n e l ) 的每个成员在指定的若干个时刻都有相应的测量值,而这些测量值就组成了纵向数据如果我 们要求所有的个体在指定的每一时刻都有相应的测量值,这就构成了一个最简单的纵向研究 但更为常见的是,个体在研究中的测量次数或时间并不相同这种不同可能是试验以前就设计 好的,或是可能由于试验经历的时间太长,一些研究个体从试验中中途退出,或者是一些其他 的原因,研究个体不能按时得到随访,这就导致了纵向研究中丢失数据的发生这种缺失可能 与试验处理密切有关亦或是无关,这时,如果不能正确处理缺失数据,其所得到的统计推断往 往是有偏差的,甚至是错误的 横向研究是对研究个体仅测量一次,而与横向研究相比,纵向研究是随着时间的推移对研 究个体进行重复测量,因此同一个个体在不同时间得到的数据往往是相关的相比而言,在处 理同样的问题时,纵向研究包含的信息量更多一些纵向数据广泛应用于社会调查,经济研究 和医学实验中 关于纵向研究中的丢失数据问题,很多学者探讨了统计推断方法如l i t t l e & r u b i n ( 1 9 8 7 ) 对缺失数据统计分析的基本理论给出了系统的描述包括数据丢失模式,数据丢失机制,参数 估计方法等等l a i r d ( 1 9 8 8 ) 讨论了含有缺失数据的纵向研究中的统计推断方法,主要是讨论 了数据是随机缺失的情形同时,她也提到了数据是不可忽略缺失的情况d e m p s t e r ( 1 9 7 7 ) 不 完全数据情况下的参数估计常采用e m 算法;m o l e n b e r g h s 和g o e t h e b e u r ( 19 9 7 ) 提出一种拟合 算法来处理不完全属性数据;c o o k ( 1 9 9 7 ) 在处理带有非随机缺失数据的纵向数据时,采用了 补值的方法用似然的方法处理含有缺失数据的纵向数据通常有两种处理模型:选择模型和混 合方式模型 图链模型是由点和线组成的用来描述随机变量间独立性关系的图形,它将复杂而庞大的变 量结构用图的语言直观地表达出来,然后借助图论算法和计算机强大的计算功能,使庞大的数 据计算和推理成为可能l i t t l e ( 1 9 8 5 ) 讨论了两个时间点的专题研究( p a n e ls t u d y ) ,在每个时间点 引进一个描述响应与否的示性变量,然后采用层次对数线性模型对响应变量和示性变量的联合 分布建模f a y ( 19 8 6 ) 采用因果图模型描述响应变量和示性变量的联合分布,c o n a w a y ( 1 9 9 2 , 1 9 9 4 ) 推广了f a y ( 1 9 8 6 ) 的结果,讨论了含有不可忽略缺失重复属性数据测量的因果模型 东北师范大学硕士学位论文 本文把响应变量定性为两值的,并且在响应变量满足一阶马氏性结构,即给定当前的响应 时,未来的响应和过去的响应是独立的,在这个假设条件下,将图链模型应用于含有缺失数据 的纵向研究中,然后用e m 算法可以给出参数的估计,为了叙述的方便,本文称这种e m 算法 为“传统e m 算法”这种“传统e m 算法”如果是对含有一个或者两个时间点的含缺失的纵 向数据而言,计算量和精确度都是令人满意的,但是针对三个或更多个时间点的含缺失的纵向 数据来说,计算太复杂了,所以本文主要是针对这种多个时间点的含缺失数据的两值马氏链纵 向数据提出一个“简便e m 算法”本文先以含有三个时间点的含缺失的纵向数据为例,介绍 这种。简便e m 算法”,并与“传统e m 算法”作比较,然后把“简便e m 算法”推广到更多个 时间点最后将。简便e m 算法”应用到一个实际的医学数据中,体现这种算法的优越性 2 东北师范大学硕士学位论文 1 基本概念和记号 首先介绍有关丢失数据的几个基本概念在某个纵向研究中,假设有玎个个体在r 个时 刻进行观测,令y = 仇, 表示一个刀t 阶的不含缺失数据的数据集合,其中弗,表示第i 个个 体的第j 个变量的响应值与y 相对应的有一个示性变量矩阵r = r u 。r ,其中n ,= 1 表示 弘,观测到了,r u = 0 表示力,缺失,这个示性变量矩阵表示数据的丢失模式一般来讲,数据 的丢失模式有两种:单调丢失和非单调丢失单调丢失是指个体从第一时刻至某个第to 时刻一直响应,从f + l 时刻开始无响应,一直到丁时刻研究结束时始终再无响应,如病人从 试验刚开始f = 1 时刻直到忙p 丁) 时刻都在试验中,但从p + 1 时刻,病人退出了试验, 一直到试验结束也没回来而非单调丢失是指个体在试验的过程中有进有出 下面介绍本文中使用的记号在某个纵向研究中,假定我们要研究的目标总体中的所有 个体被重复观测了丁个时间点记第f 个时刻的响应变量为五;e 是两值变量,取0 或1 , f = 1 ,r 在每个时刻,对响应变量e ,有一个与之相对应的示性变量蜀如果个体在 该第t 时刻响应了,则r f _ 1 ,如果没响应,则r f 0 如果尺1 = r 2 = = r 卜l = 1 ,而 r t = r f + l = = r t = 0 ,贝i j 称数据为单调丢失;非单调丢失则是指个体在试验中有时候响应, 有时不响应 考察某个时刻t ,如果风j l 誓l ) ,m = 1 ,f ,其中x 为协变量,则称该时刻丢失为完 全随机丢失;如果个体在t 时刻丢失的概率只依赖于观测到的变量,而与未被观测到的变量无 关,则这种丢失称为随机丢失;如果个体在t 时刻丢失的概率与其丢失的响应变量有关,这种 丢失则称为非随机丢失本文讨论的就是这种含有非随机缺失的纵向数据 关于图模型许多学者作了描述和介绍图链模型是指一个有向无环图g = ( ke ) 其中v = k ,r 1 ,埒,r r l 为所有的节点集合,e = l i j 2 ,1 j 1 v 且1 j 2 n 为边集,这 里 表示从1 j l 指向1 j 2 的箭头我们用g ,= ( 圪f 风,) 来表示从s 时刻到t 时刻的诱 导子图,其中巧,f = b ,r 。,瓦+ 1 ,r 胂l ,k ,足) ,e = l e ,l 圪f 且 u 2e ) - en ( x 圪,) 图g 上v = 霸,尺l ,玢,r r ) 的联合概率记为j p l ,1 , ,印) = 砜矿 i 服) ,其中p a x 表示x 的父节点集合 3 东北师范大学硕士学位论文 利用e m 算法估计参数 现在我们设k ,兄,y 3 是个体的三个时间点的响应变量,它们满足一阶马氏性,并规定 k ,砭,玛分别表示一个两值的响应变量,响应值为0 或1 ,与之对应的有潜在变量尺1 ,r 2 ,r 3 , 其中r r = 1 ,( t = 1 ,2 ,3 ) 表示个体的响应值观测到了,r 产0 表示个体的响应值丢失掉了 我们研究一种非随机缺失,即个体在每一个时刻是否响应依赖于其当前的潜在响应值,即选用 如下的图模型来描述: r l r 2 兄 ( a ) 由上一节介绍的图模型的知识可知,图模型( a ) 中变量k ,兄,玛,r l ,r 2 ,r 3 的联合分布可 以写作: p 驴l ,r 2 ,r 3 ,y l ,y 2 ,y 3 ) = e ( y l 炉魄 v 1 ) p ( r l y l 妒l v 2 ) e ( r 3 吣坝圪魄)( 2 1 ) 本节重点就是针对这个模型介绍笔者提出的“简便e m 算法”,利用生成随机数的方法模 拟演示,分别用“传统e m 算法。及“简便e m 算法”对参数估计并进行比较,从而体现“简 便e m 算法”的优越性 表2 1 模拟计算边缘概率的设定 尸( y l = 1 、p ( 坎= 1 l v l = 1 )尸( y 2 = i v l = o ) 0 2 0 80 3 p ( r l = l v l = 1 1p ( r l = l v l = o )e ( r 3 = 1 眈= 1 ) 0 9o 2 o 7 p c y 3 = 1 v 2 = o 、e ( r 3 = 1 i v 3 = 1 )e ( r 3 = 1 l v 3 = o ) 0 。10 3o 6 p ( r 2 = 1 l v 2 = 1 )e ( r 2 = l i v e = o ) 0 2o 7 设尸( f 1 = i ,r 2 = 工r 3 = k , y l = l , y 2 = | j i ,y 3 = d = p ( i ,上舷厶h ,j ) ,由表2 1 给定边缘概率计 算出多项分布的6 4 个参数,列表如下: 4 东北师范大学硕士学位论文 表2 2 模拟计算的参数设定 以1 ,1 ,1 ,0 ,0 ,0 ) = 0 0 4 2 3 3 6 尸( 1 ,1 ,1 ,0 ,0 ,1 ) = 0 0 0 2 3 5 2 p ( 1 ,1 ,1 ,0 ,1 ,o ) = 0 0 0 1 7 2 8p ( 1 ,1 ,1 ,0 ,0 ,1 ) = o 0 0 2 0 1 6 p ( 1 ,1 ,1 ,1 ,0 ,0 ) = o 0 1 3 6 0 8p ( 1 ,1 ,1 ,0 ,0 ,1 ) = 0 0 0 0 7 5 6 p ( 1 ,1 ,1 ,1 ,1 ,0 ) = 0 0 0 5 1 8 4尸( 1 ,1 ,1 ,1 ,1 ,1 ) = 0 0 0 6 0 4 8 尸( 1 ,1 ,0 ,0 ,0 ,0 ) = o 0 2 8 2 2 4以1 ,1 ,0 ,0 ,0 ,1 ) = o 0 0 5 4 8 8 尸( 1 ,1 ,0 ,0 ,1 ,0 ) = 0 0 0 11 5 2以1 ,1 ,0 ,0 ,0 ,1 ) = 0 0 0 4 7 0 4 尸( 1 ,1 ,0 ,0 ,0 ,0 ) = 0 0 0 9 0 7 2以1 ,1 ,0 ,0 ,0 ,1 ) = 0 0 0 1 7 6 4 尸( 1 ,1 ,0 ,1 ,1 ,0 ) = 0 0 0 3 4 5 6p ( 1 ,1 ,0 ,1 ,1 ,1 ) = 0 0 1 4 11 2 e ( 0 ,0 ,0 ,0 ,0 ,0 ) = 0 0 0 0 4 3 2p ( o ,0 ,0 ,0 ,0 ,1 ) = 0 0 0 0 0 8 4 e ( 0 ,0 ,0 ,0 ,0 ,o ) = o 0 0 15 3 6p ( 0 ,0 ,0 ,0 ,0 ,1 ) = 0 0 0 6 2 7 2 由表2 2 给定的多项分布的“个参数产生样本量n = 1 0 0 0 0 的一个样本,对于所有含胛个数的样 本的完全数据用列联表来表示,其中频数m 胁,表示( r l = f ,r z = 工r 3 = k , y l = l , y 2 = 办,”= d 的样本数,我们称这样一个观测数据频数表为一个样本用如下列联表来描述实际观测到的数 据 表2 3 含缺失数据的观测数据频数表 r lr 2 r 3y leb人数 l1l0o0 l l l o o o 0o1 n 1 1 1 0 0 1 010 n m o l o o11 n 1 1 1 0 1 1 10o n 1 1 1 1 0 0 10l n l m o l 11on m n o 111 n 1 1 1 1 1 1 11a 00a 1 1 0 + o1a n 1 1 0 0 1 + 10a 1 1 0 l o + 11a n 1 1 0 1 1 + 5 东北师范大学硕士学位论文 r 1r 2 r 3y 1 圪玛人数 1a10a0 n 1 0 1 0 + 0 0al n l o l o + 1 lao 1 0 1 1 + o la1 n 1 0 1 1 + 1 a1 1a00 n o i i + 0 0 a01 n o l l + 0 1 a10 n o l l + 1 0 a11 n o l l + 1 1 laa0aa 1 0 0 0 + + 1aa 1 0 0 1 + + a1aa0a n 0 1 0 + o + a1a n 0 1 0 + 1 + aa1aa0 n o o l + + 0 aa1 n o o l + + 1 a aa aaa n o o o + + + 其中a 表示没有观测到, n i1 0 1 1 1 + = n i1 0 z h o + l l o 腩l , 1 0 1 1 + j = 1 0 l 胁+ n 1 0 1 1 1 j , n 0 1l + j = n 0 1l o s + n o l1l 矗s , 1 0 叭+ = l o o i o o + 1 0 0 1 0 1 + n 1 0 0 n o + n 1 0 0 1 1 1 , n 0 1 0 + + = n o l o o h o + n o l o o 厅l + n o l o l h o + n 0 1 0 1 h i , n o o l 怫= 1 0 0 s + n o o l o l j + l l 岫+ 1 1 1 j , n o o o + + + = n o o o o o o + n o o o o o l + n o o o o l o + n o o o o l l + n o o o j o o + n o o o l o l + n o o o l ! o + n o o o l l l 用同样的方法可以产生5 0 0 个样本,分别利用“传统e m 算法”和“简便e m 算法”估计参数, 由5 0 0 个样本得到参数的各5 0 0 个估计值,再取平均就得到参数估计值的平均值 2 1 传统e m 算法 模型( a ) 的联合分布为: p ( r l ,圪,如,y l y 2 ,y 3 ) = 地】) 尸( y 2 v 1 ) 只r l y 1 ) p ( y 3 忱) 尸( 您瞻) p ( r 2 忱) 为叙述方便,首先设 口1 = p ( y l = 1 ) ,劬= p ( 妇= 1 杪l = 1 ) ,口3 = 尸( 耽= 1 t e l = o ) ,0 1 4 = p ( r l = l v l = 1 ) , 口5 = 以r l = l l y , = o ) ,c 9 6 = p 0 3 = 1 忱= 1 ) ,口7 = p ( y 3 = 1 比= o ) ,口8 = 尸( 心= 1 瞻= 1 ) , 6 东北师范大学硕士学位论文 口9 = 以i 3 = il v 3 = o ) ,q 1 0 = p ( r 2 = 1 = 1 ) ,o q l = 尸( 1 2 = l t y 2 = 0 ) 再设频数, n 1 1 1 0 0 0 = x 1 ,n 1 1 1 0 0 12x 2 ,n 1 1 1 0 1 02x 3 ,n i l l 0 1 1 = x 4 , 1 1 i 1 0 02 奶,n 1 1 1 1 0 12x 6 ,l i l l l 02x 7 ,n 1 1 1 1 1 12 魂, n o o o l o o2x 6 1 ,n o o o l o l5x 6 2 ,n o o o ll o2x 6 3 ,n o o o lz l 2 x 6 4 , 其中x l ,娩,勋,x 8 是可观测到的数据,而的,x 1 0 ,x l l ,x 1 2 ,x 6 4 是缺失数据,实际中观测不 到,我们称为潜在变量,与而对应的再令, 0 12p ( r l 。l ,1 221 ,i 3 = 1 ,y l = 0 ,y 2 = o ,y 3 = o ) , 0 2 = p ( r l = 1 ,1 2 = 1 ,均= 1 ,y l = o ,y 2 = o ,y 3 = 1 ) , 0 6 4 = p ( r l = 0 ,您= 0 ,1 3 = o ,y l = 1 ,y 2 = 1 ,y 3 = 1 ) , 完全数据的联合概率密度函数为: p ;do c 卵眵尊吁曙嗜曙 其中x 9 ,x l o ,耽l ,x 1 2 ,x 6 4 是缺失数据,下面对参数进行估计具体步骤如下: 1 给定初始值,口o = o 3 ,鹾= 0 3 5 ,鹋= 0 7 6 ,础= o 1 ,醒= 0 7 6 , 口:= 0 2 4 ,0 0 = 0 8 7 ,醒= 0 5 1 ,口:= 0 4 ,哦= 0 4 6 ,0 0 l = 0 2 8 2 用e m 算法对潜在变量进行补值并估计参数第i 步的迭代过程如下t e 步:对潜在变量补值 砖= n 1 1 0 0 0 + 石 ( 1 一砟1 ) ( 1 一砰1 域一茸1x 1 一砖1 埘- l x i - 略1 圬1 ( 1 一哼1 x 1 一哼1 扣乞1 + ( 1 一吖1 1 一哼1 圬1 哼1 ( 1 一哼1 埔 j r i 。= l 蕊而孬蒜端尝谋杀籀簪再隔 墨12 n 1 1 0 0 1 + # := l - 帆丽叼研等簏篙桨幕舞硒研四 其中1 ( s = 1 2 一,11 ) 为第i - 1 步的迭代结果 m 步:对参数进行估计 畦= 羽而羽忑再丽蔫鬻爵券券籀糍舞寰篝糍燎棼丽飘藏再虿丽 吗= 以= 7 东北师范大学硕士学位论文 一直循环,直到满足m a x i q 一昨1 i ,i 一昭1i 0 0 0 0 0 0 0 1 停止其中, q = ( 1 一) ( 1 一以) ( 1 一鸱) 口;以。 噬= ( 1 一吐) ( 1 一) 呓码吐, 。 吃= n 口;( 1 一以) ( 1 一) ( 1 一q 。) 这样,由5 0 0 个样本得到参数的各5 0 0 个估计值,再取平均就得到参数估计值的平均值,如下 表2 4 表2 4 “传统e m 算法”模拟计算得到的参数估计 尸 l = 1 )尸( 娩= 1b ,l = 1 )尸魄= 1b ,1 = o ) o 2 0 1 3 3 00 7 9 9 9 0 70 2 9 9 7 5 2 p ( r l = l t v l = 1 、p ( r l = 1b ,l = 0 )p 0 3 = 1 1 1 2 = 1 ) 0 9 0 3 3 4 2 0 2 0 0 0 7 70 6 9 9 1 3 9 p ( y 3 = 1 d 2 = o )p ( r 3 = l y 3 = 1 )p ( r 3 = 1 l v s = 0 1 0 1 0 0 1 7 70 3 0 0 9 8 70 6 0 0 2 3 9 p ( r 2 = l v 2 = 1 、p ( r 2 = 1 t v 2 = 0 、 0 1 9 9 8 2 80 7 0 0 8 0 5 上面是用含有n o o o + + + 的数据做的,当然也可以用忽略掉n o o o + + + 的完全数据用同样的方法 对参数进行估计 2 2 简便e m 算法 由图模型( a ) 的特点,y l ,娩,乃满足马氏性,即给定此时,弗和乃独立,可将它拆4 j - 成 两个只含有两个时间点的图模型( b ) 和图模型( c ) ,可观察出图模型( b ) 和图模型( c ) 结构 类似。 ( b )圪 8 ( c ) 东北师范大学硕士学位论文 然后对图模型( b ) 和图模型( c ) 用e m 算法分别进行参数估计这样大大的减少了计算 量,而且估计得到的精度也很好 首先考虑图模型( b ) 它的概率分布为: h ,1 ,圪,y l ,y 2 ) = 砌1 ) 尸魄i y o p ( r l v 0 p ( r 2 忱) ( 2 2 ) 由表2 3 统计出只含有胄l ,r 2 ,y l ,此的观测频数,用如下列联表来描述实际观测到的数据, 表2 5 含缺失数据的观测数据频数表 r l 您y l y 2频数 110on 1 1 0 0 0l 1 1 0 1 1o 1 l l o 11 n j l l l 1o0a 1 0 0 + 1al o l + o1a0 n o l + 0 a1 n o l + 1 00a a n o o + + 其中a 表示没有观测到,而频数m 砌表示( r l = f ,1 2 = 工y l = 厶y 2 = h ) 的样本数, n i o r + = n 1 0 l o + n i o l l , o l + h = n o l 的+ n o l o h , 曲+ + = n o o o o + n o o o l + n o o o o + n o 0 0 1 为叙述方便,首先设 口l = p r y l = 1 ) ,眈= 月魄= l t v l = 1 ) ,= p 魄= 1 b ,l = 0 ) ,m = p ( r l = l l y l = 1 ) , 口5 = p ( r l = 1 t y l = o ) ,口6 = 以r 2 = 1 忱= 1 ) ,铆= p ( r 2 = 1 l v 2 = o ) 再设频数, 1 1 0 05x l ,1 l o l2x 2 ,1 i i o2 勋,l1 1 12x 4 , 1 0 0 02x 5 ,1 0 0 12x 6 ,n i o l o2x 7 ,n 1 0 1 t5x 8 , n 0 1 0 02 砌,o 1 0 12x 1 0 ,n 0 1 l o2x l l ,n 0 1 1 12x 1 2 , n o o o o2x 1 3 ,n o o o l = x 1 4 ,n o o l o = x 1 5 ,n o o l1 2 x 1 6 , 其中x 1 ,耽,秘,拗是可观测到的数据,奶,粕,工1 6 是缺失数据,实际中观测不到,我们称为潜 在变量,与麓对应的再令, p 1 = p ( r l = l ,r 2 = 1 ,y l = 0 ,y 2 = o ) , 眈= p ( r l = l ,r 2 = l ,y l = 0 ,此= o ) , 以= p ( r l = 1 ,r 2 = 1 ,y l = 0 ,y 2 = 1 ) , 9 东北师范大学硕士学位论文 0 1 62h r l20 ,r 220 ,y l = l ,y 2 = 1 ) , 下面对参数进行估计具体步骤如下: 1 给定初始值,a ? = o 3 ,咝= 0 3 5 ,口:= 0 7 6 ,醒= o 1 ,口! = 0 7 6 ,口:= 0 2 4 ,口;= 0 8 7 2 用e m 算法对潜在变量进行补值并估计参数。 第i 步的迭代过程如下; e 步:对潜在变量补值 = n i o o + 丽而筹警筹驾磺南币 = 1 叭丽而高瓮辚高鼠硒 墨。= + + 蕊两虿而雨蕊再而雨菇罾薏筹等袋孤嗣丽刁丽呵而孤研 其中1 ( s = 1 ,2 ,7 ) 为第i - 1 步的迭代结果 m 步:对参数进行估计。 = 堑型丛i 盈0 0 0 0 垃垃生 吐= 疆考豢 鸡= 稠蒜糍 一直循环,直到满足m a x l o ;一印1i ,i q 6 一吒1i ) izl i n t e r c e p t 0 4 7 7 10 4 4 7 51 3 5 4 10 3 9 9 91 0 70 2 8 6 3 c i t yk i n g s t o n 0 2 4 5 60 4 9 7 8 0 7 3 0 11 - 2 2 1 3 0 4 90 6 2 1 7 c i t yp o r t a g e 0 0 0 0 0 0 0 0 0 00 0 0 0 00 0 0 0 0 s m o k e 00 4 0 0 60 5 7 8 21 5 3 3 80 7 3 2 7o 6 9 0 4 8 8 5 s m o k e10 8 4 9 20 6 7 5 52 1 7 3 20 4 7 4 81 2 60 2 0 8 7 s m o k e20 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 0 ( 3 ) a r ( 1 ) : s a s 程序: t i t l e “a r ( 1 ) c o r r e l a t i o n ”; p r o cg e n m o dd a t a = w h e e z ed e s c e n d i n g ; c l a s sc h i l dc i t ys m o k et i m e ; m o d e lw h e e z e = c i t ys m o k e | d i s t = b i nl i n k = l o g i t ; r e p e a t e ds u b j e c t = c h i l d t y p e = a t ( 1 ) c o r r wc o v bm o d e l s ew i t h i n = t i m e ; r u n ; 输出结果: a n a l y s i so fg e e p a r a m e t e re s t i m a t e s p a r a m e t e re s t i m a t es t a n d a r de r r o r9 5 c o n f i d e n c el i m i t sz丹 iz i n t e r c e p t 0 5 4 4 20 4 7 3 31 4 7 1 90 3 8 3 51 1 50 2 5 0 2 c i t yk i n g s t o n 0 2 7 5 50 4 8 3 40 6 7 2 01 2 2 3 00 5 70 5 6 8 7 c l t yp o r t a g e 0 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 0 s m o k e00 3 7 7 60 5 8 9 21 5 3 2 30 7 7 7 10 6 40 5 2 1 6 s m o k el0 6 8 6 10 6 7 6 52 0 1 2 10 6 3 9 91 0 10 3 1 0 5 s m o k e20 0 0 0 00 0 0 0 00 0 0 0 0 0 0 0 0 0 由结果可见,其中“s m o k i n g ”的值是负值,表明母亲吸烟越厉害,孩子患哮喘病的概率 越大,这与实际情况是相符的以上三种工作相关阵对输出的结果都不敏感,而且结果非常相 1 5 东北师范大学硕士学位论文 似,所以我们可以选定工作相关阵是a r ( 1 ) 的,即响应变量坼,满足马氏性,说明孩子在下一 时刻患哮喘病的概率只与当前患哮喘病的概率有关,与之前患哮喘病的概率无关,而l i p s i t z , l a i r d 和h a r r i n g t o n ( 1 9 9 2 ) 认为数据的缺失是随机缺失,即数据缺失与孩子患哮喘病没有关系, 把缺失的数据都丢掉了,只用不缺失的数据作分析,这种假定可能是错误的,现在我们假定数 据的缺失和孩子患哮喘病有关系,而到底有什么样的关系是我们研究的重点。用如下的图模型 对问题进行分析 r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年江西公务员考试试题真题
- 普通日语高考试卷及答案
- 继电保护习题和答案
- 爱丽丝漫游题目及答案
- leetcode题目及答案简易
- 2025年环保产业园园区循环经济模式与区域产业布局优化实践
- 2025年应急救援预案和应急救援知识答题试题及答案
- 游戏化营销在品牌传播中的品牌故事讲述与情感营销策略报告
- 卫辉市社区工作者招聘笔试真题2024
- 2025-2030物流机器人场景渗透率调查及人机协作优化方案
- 麦肯锡-前海妈湾片区战略定位与产业规划-20170328
- 2024停车场停车协议书
- DZ∕T 0033-2020 固体矿产地质勘查报告编写规范(正式版)
- 2024急救护理常规
- 碳材料在绿色能源领域的应用
- 苏教版小学综合实践活动五年级上册教案
- NY-T 3213-2023 植保无人驾驶航空器 质量评价技术规范
- DBJ51-T 219.6-2023 四川省物业服务标准 第6分册:商场物业服务标准
- 人工髋关节置换术护理路径
- 仓储物流部门的客户投诉与问题解决
- YY 0128-2023 医用诊断X射线辐射防护器具装置及用具
评论
0/150
提交评论