




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 纵向数据是指对每一组个体在不同时间进行观测而得到的由截面和时间序列融合 在一起的数据,其特点是将截面数据和时间序列数据结合在一起,既能分析出个体随时 间变化趋势,又能分析总体的变化趋势近年来,对纵向数据各种模型的研究引起国内 外统计学者的广泛关注纵向数据广泛的应用于医学、生物学、社会学和经济学等领 域,因此对纵向数据的研究具有十分重要的现实意义 经典的l o g i s t i c 回归模型只针对截面数据,研究某一随机事件发生的概率与某些 因素之间的关系若影响某一随机事件发生的概率有很多个体,且个体随时间发生变 化,我们建立纵向数据的l o g i s t i c 回归模型本文以纵向数据的半参数模型为基础,建 立了半参数纵向数据的l o g i s t i c 回归模型,对此模型中的参数进行估计,讨论了参数 的信息矩阵,并给出它的计算方法,其中参数的估计由一组非线性方程给出,我们设计 了n e w t o n r a p h s o n 迭代算法求解此非线性方程组,从而得到未知参数的估计模拟 结果表明了算法的有效性 纵向数据的研究中,数据缺失是一个十分常见的问题缺失数据减少了样本的信 息量,给我们的统计分析带来了困难如果不了解缺失机制,统计分析的结果可能存在 很大偏差,有时甚至错误e m 算法是不完全数据问题中用于m l 估计很通常的迭代 算法本文在假定了解缺失数据机制的基础上,用e m 算法对有缺失的纵向数据的几 种常见模型中的参数进行估计,并与不了解缺失机制估计的值作比较,得出在考虑缺 失机制时,得到参数估计值的偏差较小 关键词:纵向数据;l o g i s t i c 模型;e m 算法;缺失数据 a b s t r a c t l o n g i t u d i n a ld a t at y p i c a l l yr e f e r st od a t ac o n t a i n i n gc r o s ss e c t i o na n dt i m es e r i e so b s e r v a t i o n s i nd i f f e r e n tt i m eo fan u m b e ro fi n d i v i d u a l s ,t h ec h a r a c t e ro fw h i c ht op u tc r o s ss e c t i o nd a t aa n d t i m es e r i e sd a t at o g e t h e r ,i ti sn o to n l ya b l et oa n a l y s i st h et r e n do fi n d i v i d u a l s ,b u ta l s ot oa n a l y s i s t h et o t a lc h a n g et r e n d r e c e n t l y , m a n ys t a t i s t i c i a np a ya t t e n t i o nt ov a r i o u sm o d e l so fl o n g i t u d i n a l d a t a t h el o n g i t u d i n a ld a t aa p p l i e st of i e l d ss u c ha sm e d i c a ls c i e n c e ,b i o l o g y ,s o c i o l o g ya n de c o n o m i c s b r o a d l y ,t h e r e f o r e ,t h el o n g i t u d i n a ld a t ar e s e a r c hh a sv e r yi m p o r t a n tp r a c t i c a lm e a n i n g t h ec l a s s i c a ll o g i s t i cr e g r e s s i o nm o d e lr e f e r st oc r o s ss e c t i o nd a t a ,i nw h i c hw ed or e s e a r c ho n t h er e l a t i o n s h i pb e t w e e no n er a n d o me v e n t sa n ds o m ef a c t o r s t h e r ea r em a n yi n d i v i d u a l sa f f e c t st h e p r o b a b i l i t yo fo n er a n d o me v e n t ,a n di n d i v i d u a l sc h a n g ew i t ht i m e ,w ec a l lb u i l dt h el o g i s t i cr e g r e s s i o n m o d e lo fl o n g i t u d i n a ld a t a i nt h i sp a p e rw eb u i l ds e m i p a r a m e t e rl o g i s t i cr e g r e s s i o nm o d e lo fl o n g i t u d i n a ld a t ab a s e do ns e m i p a r a m e t e rm o d e lo fl o n g i t u d i n a ld a t a ,p r o c e e dt oc a r r yo u te s t i m a t i o no n p a r a m e t e ri nt h i sm o d e l ,d i s c u s st h ep a r a m e t r i ci n f o r m a t i o nm a t r i x ,酗w e l la sg i v et h er e c k o n t h e p a r a m e t r i ce s t i m a t i o ni sg i v e no u tb yas e to fn o n l i n e a r i t ye q u a t i o n s ,w ed e s i g nn e w t o n r a p h s o ni t e r - a t i o na l g o r i t h mt or e s o l v et h ee s t i m a t i o no ft h ep a r a m e t e ro fn o n l i n e a r i t ye q u a t i o n s t h es i m u l a t i n g r e s u l tp r o v et h ea l g o r i t h m i cv a l i d i t y i nt h er e s e a r c ho fl o n g i t u d i n a l d a t a ,t h ed a t am i s s i n gi sav e r yc o m m o np r o b l e m t h em i s s i n g d a t ad e c r e a s ei n f o r m a t i o no fs a m p l ew i l lb r i n gd i f f i c u l t i e si na n a l y s i s i fw ed on o tk n o wt h em i s s i n g m e c h a n i s mt oa n a l y s i st h er e s u l t ,w h i c hm a yb ed e v i a t i o n ,s o m e t i m e se v e nw r o n g t h ee ma l g o r i t h m i sag e n e r a li t e r a t i o na l g o r i t h m ,w h i c hi su s e df o rm le s t i m a t i o ni nu n c o m p l e t e dd a t a o nt h eb a s i so f k n o w i n gt h em i s s i n gd a t am e c h a n i s mi nt h i sp a p e r ,w ea p p l ye ma l g o r i t h mt oe s t i m a t ep a r a m e t e ro f s o m ec o m m o nm o d e li nl o n g i t u d i n a ld a t a ,a n dc o m p a r ew i t hu n f a m i l i a rm e c h a n i s mo fm i s s i n gd a t a , t h e nw ec a ng e tt h ed e v i a t i o ni ss m a l lw h e nc o n s i d e r i n gm i s s i n gm e c h a n i s m k e yw o r d s :l o n g i t u d i n a ld a t a ;l o g i s t i cm o d e l ;e ma l g o r i t h m ;m i s s i n gd a t a i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 研究生签名:貌弓虽弓致 时间:2 占年;月;口日 关于论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送交论 文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、。缩印或扫描等复制手段保 存、汇编学位论文。同意宁夏大学可以用不同方式在不同媒体上发表、传播学位论文的 全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:貌,弦写崴 时间:z o o s 年;月岁d 日 导师签名:耄矗乏力 时间:j 似了年争月扩日 第一章引言 纵向数据是近几年来统计学的热点研究课题之一所谓纵向数据( l o n g i t u d i n a ld a t a ) ,是指对 同一组个体或者受试单元在不同时间观测若干次而得到的由截面和时间序列融合在一起的数据 纵向数据广泛的存在于自然界、社会界,其分析方法广泛应用于医学、生物学、社会学和经济学等 领域比如我们要研究一种药物的反应对不同个体随时间变化的趋势,我们可以随机抽取一些个 体,观测其在不同的时间对药物的反应程度纵向数据虽然广泛的应用于各种领域,但纵向数据量 大、结构复杂,针对各种不同的领域的问题,需要构建不同的模型研究和方法 1 1纵向数据简介 纵向数据在实际中的例子很多,它广泛应用于医学、生物学、社会学和经济学等领域如我们 要研究儿童阅读能力随时间变化的趋势,我们可以随机抽取一些儿童,在不同的时间对其阅读能 力进行测试,这样我们得到的就是纵向数据;再如,在研究中国城镇居民消费和收入的关系时,3 1 个省份5 0 年城镇居民人均生活性消费和人均可支配收入的数据也为纵向数据 纵向数据之所以得到如此广泛的应用,因为纵向数据是同一组个体按时问顺序观测得到的,它 将截面数据和时间序列数据结合在一起,能很好的地分析出个体随时间变化的趋势,他反映了个 体间的差异和个体内部的变化起着只利用截面数据或者时间序列数据模型不可替代的作用,有很 高的应用价值例如当分析我国的结构性失业问题它将受到各地区产业结构的影响,也受到国家 各个时期宏观政策的影响只利用截面数据,即选择同一时期不同省市的数据作为样本观测值,可 以分析各省市不同的产业结构对结构性失业的影响,但是不能分析出国家的宏观政策对各省市结 构性失业的影响;只利用时间序列数据,即选择同一省市或者全国在不同时期的数据作为样本观测 值,可以分析国家宏观政策对结构性失业的影响,但是不能分析不同的产业结构对结构性失业的 影响;如果采用纵向数据模型,即在不同时间上选择不同省市的数据作为样本观测值、无疑既可以 分析不同产业结构对结构性失业的影响,也可以分析国家的宏观政策对结构性失业的影响再如 回到前面研究儿童阅读能力的例子,我们随机抽取若干儿童,观测这些儿童在不同年龄段的阅读 能力情况随着年龄的增长,每个儿童的阅读能力均提高,但是每个儿童在我们进行观测时的初始 阅读能力却不一样,有些儿童在年龄较小时的阅读能力反而比有些年龄较大的儿童阅读能力要强 也就是说,纵向数据模型既考虑了个体间的差异( 初始的阅读能力不同) 也考虑了个体内部的变化 ( 阅读能力随着年龄的增长而提高) 但是,如果我们对此数据采用截面数据的方法进行分析,就忽 略了儿童的初始阅读能力,从而使得分析出的结果违背了实际情况纵向数据的另一个优点是它提 供各研究者大量的数据点,这样就增加了自由度并减少了解释变量之间的共线性,从而可以改进 估计的有效性 由于纵向数据是同一组个体不同时刻的多次重复观察,对于每个个体来说,都得到一个响应 向量但是它又不同于一般意义上的多元统计数据在多元统计分析中,每一个个体也得到一个响 应向量,但是这个响应向量是同一个体多个指标的一次观察得到的向量,并无重复的含义例如, 1 宁夏大学硕士学位论文 魏强强:纵向数据有关模型研究 2 我们要考察某一个中学学生在某次考试中的成绩,对于每一学生而言,他的成绩包括语文、数学、 英语等多门课的成绩,这样每一个个体就得到一个由多门考试成绩构成的向量,但我们对每- f l 功课的成绩只进行了一次观察,所以,我们得到的数据是多元统计数据而不是纵向数据由于纵向 数据每个个体的观测值是按照某种时间顺序观测得到的,这就使得每个个体的观测向量的分量之 间存在某种相关性,如a r ( i ) 结构,当然还有许多其它形式的相关性,如此一来,纵向数据就产生 了特殊结构的协方差阵,从而使我们的统计分析得到进一步简化但一般的多变量数据对协方差结 构却很少作任何假定 总之,纵向数据综合了截面数据和时间序列数据的特点和优点,同时随着计算机性能的飞速 发展,纵向数据的统计分析研究越来越受到人们的重视 1 2 纵向数据研究方法进展 纵向数据分析是近年来统计学的热点课题之一,在理论和实际应用方面都得到了很大发展 a n a l y s i so fl o n 9 5 【t u d i n a ld a t a 是第一本系统论述纵向数据分析的著作该书讨论了基于线性和广义 线性模型的纵向数据的统计分析d a v i d i a n 和g i l t i a n 研究了纵向数据的非线性模型理论;h s i a o 和 b a l t a g i 讨论了纵向数据在经济学中的应用【l 】 国内关于纵向数据的研究起步较晚,林金官,韦博成1 2 1 1 3 1 讨论了纵向数据的非线性模型中自相 关性和随机效应的存在性检验问题,模型的异方差或变离差检验等问题余火军,朱仲义【4 】主要研 究了纵向数据模型的均值参数和方差参数的统计诊断问题孙孝前,尤进红f 6 】对纵向数据半参数模 型提出了参数分量的一个迭代加权偏样条最小二乘估计钱伟民,柴根象1 7 l 对半参数混合效应模型, 在不假设随机效应服从正态分布的条件下,用傅立叶变换的方法构造了随机效应的光滑非参数密 度估计薛留根,朱力行【8 】考虑纵向数据下,部分线性模型,研究了回归系数和基准函数的经验似然 推断 既然纵向数据在社会生活中有着广泛的应用,其建模也经历了从线性模型等参数模型到非参 数模型再到半参数模型,从静态模型到动态模型的发展过程 我们先看纵向数据非参数模型,对于纵向曲线数据,s h i ,w e i s s 和t a y l o r 9 以及r i c e 和w u 1 0 1 提 出了一个非参数混合效应模型 玑( t ) = s i ( t ) + e ( t ) = o ( t ) + 嘶( t ) + e i ( t ) ,i = 1 ,2 ,m , ( 1 2 1 ) 其中鳓( t ) = ,7 ( ) + 忱( t ) 是个体曲线,7 ( t ) 表示总体均值函数,称为固定效应或总体曲线;v i ( t ) 表示 个体曲线的变异,称为随机效应曲线;i ( t ) 是测量误差;而玑( ) 表示回答过程我们假定蛾( t ) 和 矗( t ) 是独立的,仇( t ) 可被看作是均值为0 ,协方差函数为,y ( s ,t ) = e v i ( s ) v i ( t ) 】过程的实现,且c i ( t ) 是均值为o ,方差函数为口2 ( t ) 的白噪声过程对纵向数据的非参数回归模型,h o o v e r e ta 1 【l l 】提出了 样条平滑和核平滑方法,l i n 和c a r r o l l t x 2 提出了g e e 方法以拟和纵向曲线数据h u a n ge la 1 【1 3 】研 究了回归样条方法h u l i nw u 和z h a n g t l 4 提出了区部多项式线性混合效应模型估计j e o n g - g u n p a r k 和h u l i nw u 1 5 l 提出区部似然的观点和后退拟和算法结合区部多项式回归和线性混合效应模 型对总体曲线和随机效应曲线作了有效估计 2 宁夏大学硕士学位论文魏强强:纵向数据有关模型研究 3 纵向数据半参数模型 y i j = 圣荔岛+ 9 ( o 巧) 4 - 巧, i = 1 ,2 ,m ,j = 1 ,2 ,竹 ,( 1 2 2 ) 其中( 面玎,t i j ) r p r 是已知的设计点列,岛是p 维未知参数,9 ( ) 是定义在区间i 上的未知回 归函数e ( i j ) = 0 ,0 v a r ( c l j ) = 仃2 o o ,当i j 时,i 与j ,相互独立其中蛳是第t 个体 在时间t i j 的响应记n i 为有界正整数,n = t o n i z e g e r 和d i g g l e 1 6 首先对该模型进行了研究,他们通过后移算法讨论了模型的估计问题钱 伟民【17 1 在t i ,为随机设计情形下采用柴根象提出的二阶段估计方法,在一定条件下构造了p ,9 ( ) 和盯2 的估计量,证明了他们具有强相和性孙孝前和尤进红【6 j 对该模型提出了参数分量的一个迭 代加权偏样条最t b - - :乘估计方法,并证明了该方法具有渐进正态性 1 3本文工作要点及安排 第二章介绍了l o g i s t i c 回归模型的概念和基本理论第三章以纵向数据的半参数模型为基础, 建立半参数纵向数据的l o g i s t i c 回归模型,对此模型中的参数进行估计,讨论了参数的信息矩阵,并 给出它的计算方法我们不仅给出一个估计参数的非线性方程组,而且还给出了n e w t o n r a p h s o n 迭代求解过程,通过它的迭代求解,可以估计出未知参数值 第四章研究了纵向数据的分析问题缺失数据不但减少了样本的信息量,如果不了解缺失机 制,可能得不到正确结果e m 算法是不完全数据问题中用于m l 估计很通常的迭代算法,本文在 了解缺失数据机制的基础上,用e m 算法对有缺失的纵向数据的几种常见模型中的参数进行估计, 并与不了解缺失机制估计的值作比较,得出在考虑缺失机制时,得到参数估计值的偏差较小 第五章是全文的总结与下一步研究工作的展望 3 第二章l o g i s t i c 回归模型 l o g i s t i c 回归模型是二分类因变量( 因变量只取2 个值) 进行回归分析时经常使用的统计分析 方法与线性回归不同,l o g i s t i c 回归是一种非线性模型,它能对分类因变量和分类自变量( 或连 续自变量,或混合变量) 进行回归建模,有对回归模型和回归参数进行检验的标准,以事件发生 概率的形式提供结果l o g i s t i c 回归模型被广泛应用于医学、社会调查、生物信息处理等领域作 为后续章节的准备,本章简要介绍l o g i s t i c 回归模型及它的基本理论,更深入的论述可参阅文献【1 8 】 2 1l o g i s t i c 模型简介 在实际问题中,人们常常要研究某一随机事件a 发生的概率与某些因素之间的关系例如在 农业生产中,要研究农药的使用剂量与某种害虫之间的关系;在工业生产中,要研究原材料的某些质 量指标与产品的次品率之间的关系;在医学研究中,要考察人们的某些生活习惯,生存环境等因素 与某种疾病的发生率之间的关系;在教育学中,要研究某地区小学生的辍学率与家庭经济状况,家 长受教育程度及学校的教学质量等因素的关系,等等以z = ( x - ,x 2 ,玮一1 ) r 表示影响某事件 a 发生的概率因素,以7 r ) 表示相应的概率,如果我们能建立7 r ( z ) 与z = ( x i ,x 2 ,x p 一1 ) t 之间 的某个函数关系 丌( z ) = ,( x 1 ,x 2 ,x p 一1 ) 则依此可研究z 与丌 ) 间的依赖关系但是,丌( z ) 的取值在0 和1 之间,因此必须要对 f ( x z ,x 2 ,一1 ) 加以限制,使其取值在0 和l 之间,才有可能建立i r ( x ) 与,( x - ,x 2 ,昂一1 ) 间的合适关系或等价地,我们对丌( z ) 加以变换,使当丌( z ) 在0 和1 之间取值时该函数的值域为 ( 一o o ,+ ) ,这样可取f ( x l ,x 2 ,一1 ) 为常用的一些函数通常对丌( z ) 作如下一些变换: 州列乩( 尚) , 则当0 7 r ( x ) 1 时,一o o 9 【丌( z ) 】 t ) 就是要研究的对象令 , y : 1 凯”, 10 ,当st 则r ( t ) = p ( y = 1 ) 当分析可靠度r ( t ) 与元件的材料,工艺等因素的关系时,就可用l o g i s t i c 模 型 另外,在l o g i s t i c 模型中,我们并不要求x 1 ,犯,j ,p l 均为连续变量,它们中的一些,甚至全 部可以是只取几个值的变量,也可以是一些数值化的定性变量,如性别,地区,职业类别等因素若 令x 1 = l 表示男,x i = 0 表示女;x 2 = 0 表示工人,恐= l 表示农民,x 2 = 2 表示教师等等,作为 l o g i s t i c 模型中的自变量来分析它们与丌( z ) 的关系 2 2l o g i s t i c 模型理论分析 如果某一事件a 发生的概率7 r 依赖一些自变量x l ,拖,曷一1 ( 定性,定量均可) ,试验共进 行了n 次,a 发生了f 次,于是a 发生的概率7 r 可用骨= 吾来估计 由于窬= 吾是样本的频率,由大数定律和中心极限定理,得: 贫以概率1 收敛于7 r ,当n 斗o o , 贫的渐进分布是n ( 1 r ,击7 r ( 1 7 r ) ) 现在来推导p 的渐进分布记 ,和) = l n 高,0 w 1 于是 八u ) = 五d f = 丽与, 且有,( u ) i u = - = 研1 , 设m ,圪,是i i dp 1 随机向量序列,霸= 石1 垒lk ,e m = p ,( m ) = ,设 ,( 忧,忱,吻) 是p 元函数,记为,) ,它对她的各种一,二,三阶偏导数均连续歹) 是u p x l ) 的函甄。= 筹l u :p ,w = ( 菇击i u :,i ) p p ,1 ,歹p 统计量r = ,( r ) 将,( ) 在“,= 弘这一 点展开,并用五代u 后得 ,( 露) 一,( p ) :,( 矗一p ) + 昙( 玩一p ) t ( 磊一p ) + r , 其中r 是含三次项的余项如果将矗用击+ p 代替,极限分布是n ( 0 ,) ,于是得 死一,( 弘) = 万1 ,+ 磊1 w + 冗 ( 2 2 1 ) 5 宁夏大学硕士学位论文魏强强:纵向数据有关模型研究 6 容易看出下面两点结论: ( i ) 当n o 。时,a t 的极限分布是n ( 0 ,a t n ) ; ( i i ) 当n _ 0 0 时,瑶w v n 的极限分布与v t w v 相同,其中i ,一n ( 0 ,) 因此,我们求极限分 布时,只要证明( 2 2 1 ) 式中相应的余项依概率收敛于0 ,从去0 法就可得极限分布下面我们来叙 述定理并给出证明 引理2 i 1 8 1 设k ,圪,k ,是i i dp 1 随机向量序列,露= 百1 :lk ,e y l = , v a r ( y 1 ) = ,) 是u ( p x l ) 的函数,具有一,二,三阶连续偏微商,则 ( i ) 当a t a 0 时,而( 死一,( p ) ) 的极限分布是正态n ( 0 ,a t n ) ; ( i i ) 当o t a = 0 时,、,佤( r 一,( p ) ) 依概率收敛于0 ,且4 a ( t 一,( p ) ) 的极限分布与i v t w v 相同,l ,遵从n ( 0 ,) 证明:( i ) 当o t a 0 时,与( 2 2 1 ) 式相仿有 1 1 r 一,( p ) = 去,+ 麦p 2 矾,i o l l 现在令事件a n 表示l i 去l l 0 是事先给定的数,于是 p c v 伍c t n 一,( p ) ) 妙) = p ( 何( 一,( p ) ) ! ,) n a 。) + p ( 何( r 一,( p ) ) 3 ) n 氐) 上式右端第二项小于等于p ( i 。) ,当n - o 。,它趋于0 ,关键就在于上式右端第一项的极限此时 i l 去l ls6 ,因而有l l l is 何6 ,此时利用连续函数的有界性,就存在m ,使1 0 2 p :眠l ,。i m i i v 1 1 2 于是记4 a ( t 一,( p ) ) = a t + 去0 2 2r , 。t i r i r , r 。,1 , n = a t + 赤r 1 之后,知道击r 1 依概率收敛于0 , 再用去0 法,就知何( 一,( p ) ) 与o t 的极限分布相同,它就是n ( 0 ,o t 口) ( i i ) 当o t 口= 0 时,同样方法,知道( 2 2 1 ) 式中右端第一项是0 ,于是只有第二,三项,类似 可证当n 乘以第三项后依概率收敛于0 ,于是用去0 法可得结论 定理2 1 【1 8 j l n ( 禹) 的渐进分布是( 1 i l ( 南) ,磊两1 玎) 证明:由引理2 1 容易证明 理论上,由上面的定理能得到我们所需的结果,然而还有一些特殊的情况会产生麻烦如果在 n 次试验中,有r = 0 或r = 礼,此时 i n 南= h 击 会取一o o 或+ o o 的值,8 川就不是一个有限的值,所以我们要进行修正,修正的目的是使i n 石与尽 可能接近i n f 等,这实际上是一个二项分布的数据处理问题,这一问题可用下述定理描述 定理2 2 【1 8 】设r b ( n ,p ) ,b ( n ,p ) 是n 次试验,每次试验a 出现的概率为p ,各次试验相互 独立的二项分布记 2 ( q ) 地砉, 则e z ( a ) 与i n 击最接近的q 是a = 0 5 6 因此 扎一r + 口 = 1 n ( r + q ) 一i n ( n r + 口) = 1 n ( n 7 r + 而+ a ) 一l 呐1 7 r ) 一而+ 口) , 如- i n 击叫口) - l n 焉 。刮“专+ 争l n ( 卜南+ 尚) 7 r 、n7 r n 7 、 ? 丁= t 声十z 1 蜮右端两项蜘l n ( 1 + 牡叫+ o 懈嗽比寺更:阶的三嚣 如h n 击2 焘十熹小妻) ( 焘) 2 取期望,就得到 州手+ 师- - c r 吾) ( 矗) 2 + 。( 争 2 采蒜+ 拣一器嵩州知 脚hn焉712矿_e丽u+描一硒(i-2丽r)eu27r(1-7r)n1 1 7 r 7 r ( 1 7 r ) 何r 一一嚣磊j 了f 硒一2 7 r11 ” ”7 2 元茅两( a 一主) + 。( 寺) , + 。( 三) 凡。 因此要使偏差州一胁南达到最小,应选取q :;,这就证明了所要得结论 7 7 第三章半参数纵向数据的l o g i s t i c 模型 半参数回归模型综合了参数与非参数回归模型的许多优点,既充分利用了数据中的信息, 又把一些信息不充分的变量纳入模型,换句话说,就是既可以把握大势走向,适于外延预测 ( 参数回归的优点) ,又可以作局部调整,使数据较精确地拟合( 非参数回归的优势) 因而它可 以概括和描述众多实际问题,较参数和非参数回归模型更接近真实,更能充分利用数据中提 供的信息,是一类具有普遍性和代表性的统计模型而纵向数据半参数回归模型就是将二者融 合在一起,所以能够更好的分析实际问题本文将l o g i s t i c 回归应用于纵向数据的半参数模型, 既能分析因个体差异而影响某一事件发生的概率,也能分析个体随时间变化对事件发生概率的影响 3 1半参数纵向数据的l o g i s t i c 回归模型 纵向数据是指对每一组个体在不同时间进行观测而得到的由截面和时间序列融合在一起的数 据,其特点是将截面数据和时间序列数据结合在一起,既能分析出个体随时间变化趋势,又能分析 总体的变化趋势纵向数据在医学,经济学中的研究中普遍使用,它对一组独立的个体进行重复观 察,如表3 1 是m 个个体,从时刻t = 1 到t = t 的纵向数据表 表3 1 纵向数据结构表 8 宁夏大学硕士学位论文 魏强强:纵向数据有关模型研究 9 近年来,对纵向数据各种模型的研究引起国内外统计学者的广泛关注本文用l o g i s t i c 回归对 纵向数据建立模型,可用此模型分析纵向数据( 特别是包含定性数据的纵向数据) 的内部结构,及个 体间的差异 我们先看纵向数据半参数模型 3 j = 毫否体+ g ( t i j ) + 玎, i = l ,2 ,m ,j = 1 ,2 ,礼t ,( 3 1 1 ) 其中( x 。i j , 场) 舻r 是已知的设计点列,纬是p 维未知参数,9 ( ) 是定义在区间l 上的未知回 归函数e ( 巧) = 0 ,0 v a r ( s i j ) = 盯2 o 。,当i j 时,姥与如相互独立其中鳓是第i 个体 在时间t i j 的响应记哦为有界正整数,n = 1 毗 上面的模型我们考虑的是y 巧是多个输出或连续输出的情形,但在有些情况下,我们只考虑黝 只取两个值如在医药和其它行业的试验中,我们可以用蚴= 0 表示第i 个体在。巧时刻正常,用 y i j = 1 表示不正常因此我们可以建立如下纵向数据的半参数模型 可0 = 童否岛+ 9 ( t ) + e l i , i = 1 ,2 ,m ,歹= l ,2 ,n i ,( 3 1 2 ) 且 , 铲 1 凯p c ( 3 1 3 ) 10 ,当螗c 在我们研究的问题中,我们可能更关心因变量是一个二值变量,即蚴只取0 与l 两个值时, = 1 的概率p = p r ( y i j = 1 ) ,因此我们建立如下的纵向数据的半参数l o g i s t i c 模型 1 n ( t 端) = 圣丢岛+ 9 ( t 巧) + 玎,i = ,2 ,m ,歹= l ,2 ,扎t , ( 3 4 ) 其中 妇,t 玎) 冗p r 是已知的设计点列,影是p 维未知参数,9 ( ) 是定义在区间i 上的未知回 归函数e ( ) = 0 , 0 v a r ( e i i ) = 口2 o o ,当i 歹时,e 蚀与打相互独立 r ( x i j ,t i j ) 是随机变量 k j 取1 时的概率大小 3 2 参数估计 同一般的线性回归一样,首先我们要利用观测数据对模型中的参数岛及函数g ( t o ) 作出估计 函数g c t 格) 是关于时间t i j 的函数,函数9 ( 幻) 可由碍风逼近,即设 g ( t i j ) - p p b l ( t i j ) + 岛蚪l b 2 ( 巧) + + 纬+ 口一i b q ( o 巧) = 巧口。, i - - 1 ,m ,歹= 1 ,m , 其中= ( 日l ( 幻) ,岛( 幻) ,b 口( 奶) ) t 是基函数向量 设对变量z 臼 = ( l ,粕2 ,p 1 ) ?给定了 m n 组值, = ( x o l ,如2 ,勘p 一1 ) t ,i = 1 ,m ,j = 1 ,n i 对于其中的巧组直,共独立观测了n o 9 宁夏大学硕士学位论文魏强强:纵向数据有关模型研究 1 0 次i = 1 ,m ,j = 1 ,v i i 令场为在对2 甜的n 甜次观测中事件a 发生的次数,以7 r ( x i j ,2 l j ) 记在z = x i j 且t = t i j 时事件a 发生的概率,则服从参数为n 巧和7 r ( x i j ,t i i ) 的二项分布即 一b ( n i j ,7 f ( x i j ,奶) ) ,i = 1 ,m ,j = 1 ,n i ( 3 2 1 ) 令= ( 1 ,z 弓) t = ( z i j o ,x i j l ,x u p 1 ) t ,i = l ,m ,歹= 1 ,;2 i ,其中x u o = 1 再令 d i j = ( 童否,碍) t ,声= ( 霹,卢彳) t 则相应的l o g i s t i c 模型为 或 n ( 端) 名岛嗡t e 巧 = d 五卢+ ,i = 1 ,仇,j = 1 ,n i , 丌( x i i , t i i ) _ 再e x 葡p ( d 骊t 9 + e 0 ) ,江l ,m ,j = l , ( 3 2 2 ) 其中p = ( 岛,卢- ,鼽口一1 ) r 为未知参数 设在z = z 巧的n 巧次独立观测中,事件a 发生了蚴次( 即= ) ,i = 1 ,m ,歹= l ,n i 则由式( 3 2 1 ) 和( 3 2 2 ) 知( m l = y l l ,h 2 = y 1 2 ,m 。1 = y l 。,y 2 1 = 3 2 l ,y m 。= 3 。) ,的似然函数为 l ( p ;y l i ,可1 n 1 ,s 2 1 ,s m n 。) = p ( h 1 = y 1 1 ,y i 2 = y 1 2 ,h n l = y l n l ,m l = y 2 1 ,y m t i 。= ! m n 。) m = 1 m = i = 1 7 t i p ( y i j = ) j 衍= l 似k n i j 、 丌( ,幻) 如【卜丌( ,幻) r 蛐 = 嗽) “1 + e x p ( d 聊”“【e x p ( d 绷) i - - - - 1 = l 、一叼7i - - - - 1j = l mn i ,、mn i mn = i i ( 舭y i j ) ni i i + e x p ( d t f ) ”讥e x p ( e d 轨 从而对数似然函数为 i n l ( p ;y l l , ,nn = l n i i i = 1j = 1 ,l n l ,抛1 ,| m n 。) ( 嚣) , mn r n n n 0l n 1 + e x p ( d t f ,) + t p , ( 3 2 3 ) i = 1j = li = 1j = l 由于( 奶o = x i j o ,奶p 一1 = z 材p 一1 ,奶p = b 1 ( 幻) ,奶p + l = b 2 ( 幻) ,奶舛口一1 = b g ( 幻) ) 则 mn tmn i p + g 一1 物d 舌p = 物( 奶z 励) i = 1 j = l i = 1j = l1 = 1 p + q l ,n,l ( 嘶) 屈, l ;l i = 1j = l 宁夏大学硕士学位论文魏强强? 纵向数据有关模型研究 1 1 故对于反( f = 0 ,1 ,2 。,p + q 1 ) , o l n 二( 卢;y l l ,y l 。,y 2 1 ,y 。n ;) a 岛 一虽0 。j虽虽n i j d i j te x p ( d 驴) 2 吾蚤玑,奶r 吾1 若1t 曩面丽 = 1j =1仁=j= 一。 、一”7 - - - e y i j d i j t 一n i j d i j l ,r ( d i j ) l = 0 ,1 ,2 ,p + q 一1 , 其中丌( d 巧) = 看篆熹褊令 则得似然方程 业型鲤坠二堕塑_ 地盘:o ,2 _ o ,1 ,2 ,, p + q - l ,o zt 。一一 ( 3 2 4 ) z = 0 ,1 ,2 ,p + q 一1 ,( 3 2 5 ) 关于声求解方程组( 3 2 5 ) ,便得卢的最大似然估计声但式( 3 2 5 ) 关于p 是非线性方程组,我们 要用迭代方法求解 3 3 信息矩阵及其估计 下面我们在( 3 2 4 ) 式的基础上,求对数似然函数关于参数的二阶偏导数,并给出卢的信息矩 阵及其估计式 a 2 i n l ( 卢;y l l ,y t 。1 ,! 2 l ,y m n 。) b 移l d p s :一兰堑堕! ! 堕! ! ! 兰里! 竺互生! 【! ! 兰里1 2 至壁! ! 二垡堑! 堡兰! ! 望互壁! ! :! 一刍惫【l + e x p ( d 丢口) 】2 = 一姜姜箐端铲 = 一d i j l d i j 。n i i 丌( d i i ) 1 7 r ( d i j ) , 0 z ,8 p + 口一1 ,( 3 3 1 ) 卢的信息矩阵是上述( p + 口) 2 个二阶偏导数所组成0 + q ) + q ) 方阵的负矩阵 的期望,记为j 够) ,) 中各元素与随机变量y 1 1 ,i , 1 2 ,k n 。,b l ,y 仇n 。的观测值 y l l ,y 1 2 ,s 1 n 1 ,抛l ,y m n 。无关,故 邪脚( 一业蚴世端产浏) ( 舛口) ( 什口) = ( 奶l n o r ( d q ) 1 7 r ( d t j ) 】) ( m ) ( 舛口) , ( 3 3 2 ) d m 似 m 试 = 彩 d “ 讲 碱m m 博 m 汹 :室星盔堂塑圭堂垡鲨塞一一一 魏强强:纵向数据有关模型研究 1 2 根据最大似然估计理论,p 的最大似然估计声的协方差矩阵为 c o v ( p ) = 厂1 ( 卢) ( 3 3 3 ) 若利用方程( 3 2 5 ) 求得卢的最大似然估计声,代入丌( d 巧) 的表达式便得亓( d 巧) 的估计 慨) = 器,吣一m ,册, 从而可得c o v ( 芦) 的估计为c o v ( 声) :r ( 口) 3 4 似然方程的n e w t o n - r a p h s o n 迭代求解 3 4 1n e w t o n = r a p h s o n 迭代法的一般描述【1 9 】 设 ( p ) 是关于p = ( 3 0 ,卢l ,岛+ q - - 1 ) 的p + q 元函数,我们要求声,使 ( 卢) = 1 皆【危( 矾 ( 3 4 1 ) 令 吲等,等,器一 驴鬻,0 f ,8 一 日( 口( 蚪1 ) 眇) 一日( 删妒) ) 由j e s e n 不等式, l a ( * ) , y ol o g ( 嬲) 9 9 肿帆c 器筹等肛。, 故- i ( o ( 蚪1 ) 1 日( 。) ) 一日( 口( 。) 1 日( ) ) 0 ,而口( t + 1 ) 是使q ( o l o ( 。) ) 达到最大的,显然 q ( 口( 蚪1 ) i 口( 2 ) ) 一q ( p ( ) 渺( 。) ) 0 证毕 定理4 2 2 1 】 ( 1 ) 如果f ( o l y o ) 有上界,则j ( 口( ) l y o ) 收敛到某个? + ;( 2 ) 如果0 ( 口f 妒) 关于0 和 q o 都连续,则在关于f 的很一般的条件下,由e m 算法得到的估计序列口( 。) 的收敛值0 + 是l 的稳定点。 4 3可忽略缺失数据机制的模型及算法 在上面两节我们介绍了纵向数据缺失的机制和e m 算法,在很多情况下我们可以忽略缺失数 据的机制,特别是当数据是完全随机缺失时,忽略缺失数据的机制,给我们解决问题带来很大方便
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农药控制释放技术
- 2026届重庆化学高三上期中检测试题含解析
- 心肌灌注检查报告解读
- 五度标记法讲解
- 通胀消减法案解读
- 细胞呼吸方式研究
- 青年班个人汇报
- 企业读书日活动
- 医院感染暴发应急处置预案
- 胸腔闭式引流管置管护理规范
- 基层卫生岗位(社区护理组)练兵和能竞赛试题
- 2025年浙江省数字安全证书管理有限公司招聘笔试参考题库含答案解析
- 2025年两个女儿离婚协议书模板
- 施工现场危险源管理制度
- 【图文】个人简历模板大全-可直接下载使用
- 2025广西百色工业和信息化委员会事业单位招聘拟聘高频重点模拟试卷提升(共500题附带答案详解)
- 跨境运输问题应急预案
- 预包装食品采购合同样本6篇
- 2025年美术作品授权合同协议
- 《上市公司再融资》课件
- 构建学校与家庭共育的信息化平台研究
评论
0/150
提交评论