已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 纵向数据分析是近年来统计学研究的热点课题之一,d i g g l ee t a l ( 2 0 0 2 ) 系统论述了 纵向数据的统计分析方法 分位点回归是最小二乘回归和最小一乘回归( l a d ) 的推广,但它比最小二乘回归 和l a d 回归具有更强的统计分析能力,能给数据集提供更加丰富的统计推断结果回归 模型分位点估计是一类基本的稳健估计。它们受数据中异常点的影响较小,并能给条件 分布以更加全面的统计描述;当回归误差项服从重尾分布或其分布受到污染时,它们比 l s 估计有更高的效率因此,自从回归分位点的概念被提出以后,很快便赢得了许多统 计学家和经济学家的高度重视和青睬,使其在各个应用领域中得到了深入的发展,并成 为当前统计学研究的热门课题之一但基于纵向数据模型分位点回归的统计诊断问题, 还未见报导 本文首先通过研究基于固定效应的纵向数据分位点回归模型的统计诊断,得到t 无 论是对于组数据点,还是对于单数据点,基于m m 算法的c d m 与m s o m 都是等价的, 并给出了诊断模型下常见的影响度量一一c o o k 距离似然距离、拟似然距离及三者之间 的近似等量关系接着通过实际数据说明了所述诊断统计量的应用其次通过研究线性 混合效应分位点回归模蛩的统计诊断,得刭:求解回归分位点估计的m c e m 算法,并基 于该算法给出在其删除模型下的诊断统计量 关键词:纵向数据,分位点回归,回归分位点,非对称l a p l a c e 分布,c o o k 距离,似然距 离,拟似然距离,m m 距离,数据删除模型。均值漂移模型 a b s t r a c t s t a t i s t i c a la n a l y s i so fl o n g i t u d i n a ld a t ai so n eo fh o tt o p i c si ns t a t i s t i c a ls t u d i e si nr e c e n t y e a t s d i g g l ee t a l ( 2 0 0 2 ) s y s t e m a t i c a l l yd i s c u s s e ds t a t i s t i c a l 眦l y s i sm e t h o d so fl o n g i t u d i n a ld a t a q u a n t i l er e g r e s s i o nm o d e l sa r et h eg e n e r a l i z a t i o no fl e a s ts q u a r e ( l s ) r e g r e s s i o na n dl e a s t a b s o l u t ed e v i a t i o n ( l a d ) r e g r e s s i o n ,w h i c ha r em o r ep o w e r f u l lt h a nl sr e g r e s s i o na n dl a dr e g r e s - s i o ni ns t a t i s t i c a la n a l y s i s ,a n dc a ns u p p l ym u c hm o r ea t t r a c t i v ei n f e r e n c er e s u l t so ft h ed a t a s e t s r e g r e s s i o nq u a n t i l e sa r er o b u s ta g a i n s tt h ei n f l u e n c eo fo u t l i e r s ,g i v i n gam o r ec o m p l e t ep i c t u r e o ft h ec o n d i t i o n a ld i s t r i b u t i o nt h a nas i n g l ee s t i n m t eo ft h ec e n t e r ,a n dt h e y 啦m o r ee i f :c i e n t t h a nl s ew h e nt h ed a t ac o m e sf r o mh e a v y - t a i l e dd i s t r i b u t i o n so rt h em i x t u r eo fs e v e r a ld i f f e r e n t d i s t r i b u t i o n s s o ,r e g r e s s i o n q u a n t i l e sh a v eb e e nn o t i c e da n df a v o u r e db yal o to fs t a t i s t i s t sa n d e c o n o m i s t sw h e nt h e ya p p e a r e d ,a n dm a k e t h e mo n eo fh o tt o p i c si ns t a t i s t i c a ls t u d i e s t h ew o r k , h o w e v e r ,a b o u ts t a t 斌i c a ld i a g n o s t i c sf o rq u a n t i l er e g r e s s i o nm o d e l sb a s e do nl o n g i t u d i n a ld a t a 哦 v e r yl i t t l e d i a g n o s t i c sf o rq u a n t i l er e g r e s s i o nm o d e l sb a s e do nl o n g i t u d i n a ld a t aw i t hf i x e de f f e c t sa r e 6 璐t br e s e a r c h e di nt h i sp a p e r ,t h ec o r r e s p o n d i n gr e s u l t sa r eo b t a i n e d :t h ee q u i v a l e n c et h e o r e m s o fc d ma n dm s o m ,w h i c hb a s e do nt h em m a l g o r i t h m ,a r ep r e s e n t e d ,a n di n t r o d u c et h ef a m i l i a r i n f l u e n c em e w e - c o o kd i a t a n c e 、l i k e l i h o o dd i s p l a c e m e n t , q u a s i - l i k e l i h o o dd i s p l a c e m e n ta n d p r o p o s ean e wi n f l u e n c em e a s u l e ,i e t h em md i s t a n c eb a s e do nt h en e wo b j e c t i v ef u n c t i o n t h e n , t h ea p p r o x i m a t ee q u i v a l e n tf o m u l ab e t w e e nt h et h r e el i k e l i h o o dd i s p l a c e m e n t si so b t a i n e di nt h e m o d e l s t h e n ,w ei l l u s t r a t et h er e s u l t sb yt h ee x a m p l e s f i n a l l y , b yt h es t u d yo fl i n e a rq u a n t i l e r e g r e s s i o nm o d e l sw i t hr a n d o me f f e c t s ,w eo b t a i nt h a tt h em c e ma l g o r i t h mkg i v e nt oc o m p u t e t h er e g r e s s i o nq u a n t i l e si nt h i sm o d e l s a n do b t a i ns e v e r a ls t a t i 8 t i c 日d sb a s e do nc d mv i am c e m a l g o r i t h m k e yw o r d s :l o n g i t u d i n a ld a t am o d e l s ,q u a n t i l er e g r e s s i o n ,r e g r e s s i o nq u a n t i l e ,a s y m m e t r i c l a p l a c ed i s t r i b u t i o n ,c o o kd i a t a n c e ,l i k e l i h o o dd i s p h c e m e n t ,q u a s i - l i k e l i h o o dd i s p l a c e m e n t ,m m d i s t a n c e ,c a s ed e l e t i o nm o d e l ,m e a bs h i f to u t l i e rm o d e l 东南大学学位论文 独创性声明及使用授权的说明 一学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果尽我所知,除了文中特别加以标明和致谢的地方外。论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过鳃材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意 :,关于学位论文使用授权的说明 东南大学,中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印缩印或其他复制手段保存论文本人电子文档的内 容和纸质论文的内容相一致除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容论文的公布( 包括刊登) 授权东南大学研究生 院办理 签名t 导师签名:e l 期: 第一章绪论 美国著名统计学家、美国科学院院士e f r o n 曾经说过;。在二十世纪,统计思想和 方法已成为许多科学领域的理论支柱。目前,它在诸如天文学、物理学、地质学等更复杂 的科学领域中也发挥了日益重要的作用在二十一世纪,人们将广泛认识到统计学是科 学思想的中心成分之一 统计学是一门具有强烈应用背景,广泛研究内容和丰富实际成果的科学分支而回 归分析贝! l 是统计学中理论较为完善,应用较为广泛。实际效果也较好的统计方法之一 在经典的最小二乘回归( l s e ) 和最小一乘同归( l a d ) 中,我们只能得到一条回归曲 线正如m o s t e l l e ra n dt u k e y 在1 9 7 7 年所说的那样l 。慨a tt h er e g r e s s i o nc u r v ei sg i v eag r a n d s u m m a r yf o rt h ea v e r a g e so ft h ed i s t r i b u t i o nc o r r e s p o n d i n gt ot h es e to fx s w ec o u l dg of u r t h e r a n dc o m p u t es e v e r a ld i f f e r e n tr e g r e s s i o nc u r 嘴c o r r e s p o n d i n gt ot h ev a r i o u sp e r c e n t a g ep o i n t so f t h ed i s t r i b u t i o n sa n dt h u sg e tam o r ec o m p l t ep i c t u r eo ft h es e t o r d i n a i - i t yt l i i si sn o td o n e ,a n d 8 0r e g r e s s i o no f t e ng i v e sar a t h e ri n c o m p e t ep i c t u r e j u s t 蠲t h em e a ng i v e s8 ni l c o m p l e t ep i c t u r e o f8s i n g l ed i s t r i b u t i o n s ot h er e g r e s s i o nc u r v eg i v e sac o r r e s p o n d i n gi n c o m p l e t ep i c t u r eo fas e to f ad i s t r i b u t i o n ”那么我们到底能否得到一个数据集的更加全面的统计描述呢? 回答是肯 定的! 分位点回归就给数据集提供了一个作。全景图”的手段和方法通常应用较多的 l a d 回归是分位点回归在分位点为0 5 时的特例 1 1 分位点回归的研究概况 1 1 1 关于分位点回归 由于分位点回归不仅具有l a d 回归对响应变量中异常点稳健的优点,而且还有比 最小二乘回归( l s e ) 和最小一乘回归( l a d ) 更全面更强大的统计分析能力,因此,自从 k o e n k e ra n db a s s e t t 于1 9 7 8 年提出回归分位点的概念以来,分位点回归便以其出色的统 计分析能力和良好的实际应用效果,很快就赢得了许多统计学家和经济学家的高度重视 和青睬,使其在各个应用领域中得到了深入的发展,并成为当前统计学研究的热门课题 之一在国外,许多学者对分位点回归理论的完善及其在统计学、经济学等各个领域中 的广泛应用作出了杰出的贡献但是,国内除了c h e na n d ,s a l e h ( 2 0 0 0 ) 外,尚未见到更多 的关于分位点回归的研究成果 y u ,l u ,a n ds t a n d e r ( 2 0 0 3 ) 系统分析了分位点回归的统计思想和基本概念,全面总结 了分位点回归在经济金融、环境科学、医学以及异方差检验等中的应用,深入讨论了参 数和非参数回归分位点估计的各种方法和算法,并且展望了分位点回归在时间序列和拟 合优度检验中的应用前景 东南大学磺士学位论文 第一章绪论 2 k o e n k e ra n db a s s e t t ( 1 9 7 8 ) 年提出回归分位点的初衷是为了说明当误差项服从重尾 分布( h e a v y - t a i l e do rl o n g - t a i l e d ) 或误差项分布受到污染时,回归分位点估计比最小二乘估 计的有效性更高,然后他们较为系统地研究了线性回归分位点的变换不变性和渐进正态 性c h e na n ds a l e h ( 2 0 0 0 ) 在较为一般的条件下,证明了线性模型中回归分位点估计量 的强相合性和渐进正态性等大样本性质,改进了k o e n k e ra n db a s s e t t ( 1 9 7 8 ) 等人的有关工 作y ua n dm o y e e d ( 2 0 0 1 ) 用b a y e s 方法研究了分位点回归模型,他们在假定误差项服从 非对称l a p l a c e 分布的条件下证明了当未知参数p 服从无信息先验时其后验分布的合 理性尽管回归分位点估计对响应变量中的异常点稳健,但它们可能对解释变量中的高 杠杆值点敏感,基于这种考虑,a d r o v e re t a l ( 2 0 0 4 ) 提出了稳健目归分位点,使得它们对 解释变量中的高杠杆值点亦稳健y ua n dj o n e s ( 1 9 9 8 ) 通过核加权局部线性拟合方法研 究了非参数回归分位点估计,并且他们还比较了两种常用的非参数条件回归分位点估计 方法,即局部常数拟合和局部线性拟合,结果表明两者妁差异相对来说并不显著( y ua n d j o n e s ,1 9 9 7 ) 分位点回归的思想和方法还深入到其它模型,如变系数模型( h o n d a , 2 0 0 4 ) 、 纵向数据模型( k o e n k e r ,2 0 0 4 ;m a r c oa n dm a t t e o ,2 0 0 7 ) 、有约束的圃归模型、半参数回归模 型等此外k o e n k e ra n dp o r t o n y ( 1 9 8 7 ) 基于回归分位点提出了线性模型中参数p 的一种 新的l 估计,并取得了线性模型中l 估计的一般的渐进理论 在分位点回归的理论和方法不断完善和发展的同时,其应用研究也得到了较为丰富 的成果,并且其应用的领域也在不断扩展中如p o r t n o y ( 1 9 8 8 ) 把回归分位点应用到多个 异常点的诊断上,取得了较好的效果。k o e n k e ra n db a s s e t t ( 1 9 8 2 a ) 基于不同的回归分位 点之间的关系及其大样本理论提出了诊断异方差的稳健检验h e s g e r t ya n dp e p e ( 1 9 9 9 ) 用 半参数回归分位点估计评定了美国儿童相对于身高和年龄的标准体重等等 1 1 2 分位点回归的参数估计 对于通常的线性回归模型,估计其参数时通常采用最t j 、- - 乘估计,该方法计算比较 简单,而且估计结果可以用显式表示而对于一般的非线性回归模型,其参数可以用非线 性最小二乘估计求解,只需用g a u s s - n e w t o n 迭代法即可完成那么最小二乘估计能否继 续用来求解分位点回归中的参数呢? 很显然。答案是否定的! 由正文可知,分位点回归 模型的目标函数比较复杂,不可能像求非线性最小二乘估计那样用g a u s s - n e w t o n 迭代法 很容易地求出回归分位点估计从而,求解回归分位点算法的研究显得尤为重要截止目 前,主要出现了两种迭代算法:一是m m 算法,该迭代算法对基于固定效应的非线性分 位点回归模型非常有效;二是m c e m 算法,该算法广泛应用到广义回归模型中,特别是 混合效应模型所以,为解决文中参数估计,我们将采用上述两种算法 东南大学硪士学位论文第一章绪论 3 1 1 3 分位点回归的统计诊断 统计诊断是近三十年来才迅速发展起来的一门统计学新分支,它以强烈的应用背 景、新颖的统计思想,广泛的研究内容和丰富的实际成果在广大统计工作者面前展现出 一个理论与应用相结合的崭新领域 统计学研究的出发点是一个数据集。该数据集往往是根据在实际工作中逐步积累起 来的历史资料或围绕某一特定目标收集起来的数据,经初步加工整理而成为了通过数 据集研究实际问题,通常的方法是把它纳入某一方便有效的统计模型进行研究但是, 任何统计模型都只能是对客观复杂过程的一种近似描述,它不可避免地包含某些假定, 甚至模型本身也是一种假定鉴于以上种种假设,就需要对该数据集进行某种。诊断”, 检验我仍所选择的模型是否大体上反映所要研究的实际同题,它是否与数据集中绝大多 数的数据相一致等等 统计诊断就是针对上述种种同题而发展起来的一种分析方法,并迅速成为统计学的 一个新分支在许多统计学家的不懈努力下,统计诊断的理论和方法已经深入到各种统 计模型,而理论最完善、应用最广泛、成果最丰富的则是对回归模塑的统计诊断例如, c o o ka n dw e i s b e r g ( 1 9 8 2 ) 和韦博成( 1 9 9 1 ) 对于线性回归模塑的统计诊断做了全面而综合 的讨论;m c c u l l a g ha n dn e l d e r ( 1 9 8 9 ) 和w e i ( 1 9 9 8 ) 分别对广义线性模型和指数族非线性模 型的统计诊断作了深入的研究;b a n e r j e e ( 1 9 9 8 ) ,p r a me t a l ( 2 0 0 1 ) 讨论了线性随机效应模 壅中的c o o k 距离;b a n e r j e ea n df r e e s ( 1 9 9 7 ) 对线性随机效应模型利用影响曲率进行了分 析;b e c k m a na n dn a c h t s h e i m ( 1 9 8 7 ) 对混合模型的方差进行了统计诊断分析;c h r i s t e n s e n , p e a r s o n ,a n dj o h n s o n ( 1 9 9 2 ) 对混合模型进行了数据删除研究 尽管分位点回归对响应变量中的异常点稳健,然而,正如n a r u l a 等在研究l a d 回 归时所说;。即使是稳健回归方法也难以免除意外而极端异常点的影响,。并且他们的 研究结果和实际数据分析的确表明,研究l a d 回归的影响分析等统计诊断技术是必要 的,随后,在已出现的关于l a d 回归的统计诊断研究的基础上,周影辉( 2 0 0 6 ) 对非线性 分位点回归模型进行了详细的统计诊断研究,这使得我们有理由相信,研究纵向数据分 位点回归模型的统计诊断技术也是有必要的和有实际意义的,但是,有关纵向数据分位 点回归统计诊断的研究尚未见到,而与之密切相关的一般的分位点回归却有相关的研究 成果,相信这些成果能给我们研究纵向数据分位点回归的统计诊断会有所帮助 1 2 纵向数据的统计诊断问题 生物、社会、经济等领域的统计特性和变化规律,是统计学家非常关心的问题为了 探索复杂动态随机系统的统计特性和变化规律,必须从该类随机系统采集所需的数据, 东南大学磺士学位论文第一章绪论 4 而该类数据往往与时问有关,即所谓的动态性若数据又是通过重复测量得到的,通常 称为纵向数据因此所谓纵向数据,主要指对同一组受试单元在不同的时间或空间上 的重复测量所得到的数据它广泛存在于社会生活的各个领域,在社会经济统计中,它 被称为p a n e l d a t a ;在生物医药统计中。它被称为l o n g i t u d i n a l d a t m 纵向数据分析成为了近年来统计学研究的热点之一随着研究的深入,已有许多文 献对纵向数据模型进行了统计诊断,包括对期望模型的诊断和模型的异方差及相关性的 检验如v e r b e k ea n dm o l e n b e r g h s ( 2 0 0 0 ) 详细讨论了线性混合效应模型的纵向数据分析; p i n h e i r oa n db a t e s ( 2 0 0 0 ) 和d a v i d i a 沮a n dg i l t i a n ( 1 9 9 5 ) 对纵向数据进行了线性和非线性的 研究,他们主要是对纵向数据模型进行统计诊断的研究;l e s a f f r ea n dv e r b e k e ( 1 9 9 8 ) 对线 性随机效应模型利用影响曲率进行分析;林金官和书博成( 2 0 0 2 ,2 0 0 4 a ,2 0 0 4 b ) 对纵向数据 模型的方差进行了诊断研究;d i g g l ee t a l ( 2 0 0 2 ) 则首次详细地研究了基于线性和广义线 性模型的纵向数据的统计分析等 至于纵向数据的分位点回归问题,有关的文献不是很多如k o e n k e r ( 2 0 0 4 ) 考虑了 经典的线性随机效应模型的分位点估计的惩罚方法;j u n g ( 1 9 9 6 ) 提出了一类特殊的分位 点回归一中位数回归的拟似然方法;i a p s i t ze t a 1 ( 1 9 9 7 ) 则用j u n g ( 1 9 9 6 ) 中的方法来分析 纵向数据的分位点回归;m a f c d a n dm a t t e o ( 2 0 0 7 ) 改进了k o e n k e r ( 2 0 0 4 ) 中的方法,得到 了求解经典的线性随机效应模型的回归分位点估计的m c e m 算法已有的纵向数据分位 点回归的文献都是关于如何刻画相关的统计模型及其参数估计的问题,其进一步的考虑 如统计诊断则几乎没有涉及,因此这就是本文工作的重点 1 3 本文的主要工作 鉴于分位点回归及纵向数据的重要性,故本文将分位点的思想应用到纵向数据中 在已有工作的基础上,进一步研究基于纵向数据的分位点回归的统计诊断 本文对纵向数据分位点回归模型的c d m 和m s o m 进行了研究,并在此基础上做了 系统地统计诊断研究第二章深入地研究了诊断模塑的等价性问题,基于新的目标函致 饼汨i 矿) 和m m 迭代算法,我们证明了纵向数据分位点回归模型的数据删除模型和均 值漂移模型参数估计意义下的等价性定理,这在实际中更有意义并且,在证明等价性定 理的过程中得到了穹= 反( ) ,这一副产品很好地解释了数据删除模型和均值漂移模型之间 i 的关系 本文第三章系统地研究了纵向数据分位点回归模型的影响分析问题第二节,我们在 假定误差项独立同分布都服从非对称l a p l a c e 分布a l d ( o ,吼r ) 的条件下,成功地把识别强 影响点的似然距离应用到纵向数据分位点回归模型,推广了e l i a n ,a n d r ea n dn a r u l a ( 2 0 0 0 ) 和周影辉( 2 0 0 6 ) 的工作;第三节,我们得到了纵向数据分位点回归诊断的c o o k 距离和拟 东南大学磺士学位论文第一章 绪 论 5 似然距离,我们还基于新的目标函数饼i 乃,) 提出了一种新的影响度量,即m m 距离; 第四节,基于对数函数l n ( 1 + z ) 的麦克劳林展开,在包括纵向数据分位点回归和l s 回归 的一类较为广泛的统计模型中,得到了三种似然距离之间的一个近似的等量关系 本文第四章在m a r c oa n dm a t t e o ( 2 0 0 7 ) 工作的基础上,对一般的线性混合效应模型 进行了研究,得到其参数估计的m c e m 算法及数据删除模型下的统计诊断量 综上所述,本文的主要工作包括; 一,基于新的目标函数饼佃l 矿) 和m m 迭代算法,证明了纵向数据分位点回归模 型的数据删除模型和均值漂移模型参数估计意义下的等价性定理; 二,得到了纵向数据分位点回归诊断的似然距离、c o o k 距离和拟似然距离; 三、基于新的目标函数饼( pl 良) 提出了一种新的影响度量一m m 距离; 四、在某类包括纵向数据分位点回归和l s 回归在内的统计模型中得到了三种似然 距离之间的一个近似的等量关系; 五、对线性混合效应模型分位点回归,得到了估计参数的m c e m 算法,并基于数据 删除模型得到了几个统计诊断量; 六、通过实际数据分析,验证了本文理论和方法的正确性和有效性 第二章基于固定效应的纵向数据分位点回归模型的参数 估计及诊断模型的等价性 2 1 引言 首先,我们给出纵向数据分位点回归模型的含义 基于固定效应的一般的纵向数据模型可表示为, 可= ,( x i ,p ) + g , i # l ,2 , ( 2 , 1 ) 其中玑= l ,瓠。) t 为第i 个受试单元的啦次观测结果组成的向量,为相应的协 变量,而且x i = ( 甄l ,z 。) t f ( x i ,卢) = ( f ( z i l ,p ) ,f ( x i 。,p ) ) r 是模型的已知函数 向量。且关于p 维未知的固定效应向量p 二阶可微。e i = 慨l ,e 轨。) t 是t l i 1 维不可 观测的随机误差向量,且“= 1 ,2 ,) 相互独立此处及以后,t 表示矩阵或向量的 转置如果模型( 2 1 ) 是线性模型,则x t 是n i p 阶的设计矩阵,其秩为p ,即为列满秩 的;如果模型( 2 1 ) 不是线性模型,则x 满足,( x ,励的运算即可 回归模型( 2 1 ) 的分量形式为 物= ,( z 巧,卢) + 巧, j = 1 ,2 ,m ,i = l ,2 , ( 2 2 ) 若记竺ln = 则x = ( x ,x g ) t 为n p 阶的秩为p 的已知设计矩阵,耖= ( 分f ,y g ) ? 为7 l 1 的可观测随机向量,= ( e f ,) t 为n 1 的不可观测的随机误 差向量,从而其矩阵形式为 萝= f ( x ,卢) + ( 2 3 ) 为方便起见,我们分别记y ) = 型告紊旦,r ( 伪= 秒一f ( x ,p ) ,r ) = 歌一f ( x t ,3 ) , ) = 物一f ( z o ,卢) ,歹= 1 ,2 ,m ,i = 1 ,2 ,在不致混淆时,分别简记为y ,r , 对模型( 2 2 ) 及损失函数:办( t ) = t ( 丁一1 t o ) ) ,其中0 _ 1 ,j ) 为示性函数 若矿使得 爵( p ) = 办( 蜘一,( 2 巧,所) i - - - - 1j = l 达到最小值,则称矿为回归模型( 2 1 ) 或( 2 2 ) 或 2 3 ) 中未知参数p 的r 回归分位点估 计,简称为7 回归分位点,记为薜;函数s ) 称为该模型的目标函数;使用回归分位点 估计的回归模型( 2 1 ) 或( 2 2 ) 或( 2 3 ) 则称为纵向数据分位点回归模型在上述分位点回 归模型中,没必要具体指定误差项的分布,它可以服从任何形式的分布后文为了引入纵 向数据分位点回归的似然距离,可以假定误差项服从非对称l a p l a c e 分布a l d ( o ,伊,丁) ( 具 体介绍见第三章) 6 东南大学磺士学位论文第二章基于固定效应的纵向数据分位点回归模型 7 本章第二节介绍求解模型中参数p 相对于丁的r 回归分位点估计的m m 算法;第 三节中,我们基于新的目标函数口;1 矿) 和m m 迭代算法,证明了纵向数据分位点回 归模型的两种诊断形式,即数据删除模型和均值漂移模型在参数估计意义下的等价性定 理,这在实际中更有意义;第四节用实际例子来说明本章方法的应用 2 2 基于m m 算法的参数估计 由于分位点回归模型目标函数的复杂性,我们不可能像求非线性最小二乘估计那 样用g a u s s - n e w t o n 迭代法很容易地求出回归分位点估计为求目归分位点,本文采用 m m ( m a j o r i z e - m i n i m i z e ) 算法( h u n t e ra n dl a n g e ,2 0 0 0 ) 该算法编程简单,易于操作同大多 数算法一样,m m 算法也是一种迭代算法本质上。它是把一个较难的优化问题转化为 一系列较为简单的优化问题的方法它像e m 算法一样,包含两个步骤;第一步,寻找原 目标函数的优化函数( m a j o r i z e ) ;第二步,对优化函数进行最小化( m i n i m j 船) 假设我们要 最小化的目标函数是l ( o ) :t y 一冗在寻找最小值点的过程中若矿表示当前的迭代 值,财依据m m 算法的步骤,首先,我们构造一个优化函致卯f :舻t f f r ,使 其满足 q ( o 七i 矿) = l ( 0 k ) , ( 2 4 ) q ( o10 ) 工( 口) ,对所有的0 ,( 2 5 ) 其中q ( oi 矿) 被称为三( 田在0 蠹处的优化函数;然后,再去找矿+ 1 使得q ( o 10 七) 达到 最小由0 + 1 的取法以及( 2 4 ) 。( 2 5 ) 式,有 l ( o k + 1 ) q ( o + 10 2 ) sq ( 矿l0 七) = l ( o 七) ( 2 6 ) 上述下降趋势使得m m 算法有着显著的数值稳定性这里及以后,我们总认为当前迭代 值矿为已知向量 对于纵向数据分位点回归的目标函数鼻) ,先构造它的一个处处可导的近似函数 n 鲜( p ) = 西( ) , 其中群( t ) = 胁( t ) 一詈1 i l “+ i t l ) ,e 是一个很小的正常数,仞的含义见2 1 辞( p ) 在矿处 的优化函数为 nn q ;( pp ) = ( ;( 勺i 呜) , i - - - - 1j = l ( ;叫砧:1 t 2 两+ ( 4 r - 2 ) t + c , ( 2 7 ) 其中c 是一个使得( ;( 垆it k ) = 霹( 庐) 的常数,而鸣= 勺) = 挑j f ( z i j ,矿) ,歹= 1 ,2 ,l t ,i = l ,2 ,n ,矿代表某个鸣然后。对q ;l 矿) 最小化在实际应用中,我 们通常仅对饼l 矿) 进行下降搜索,自然地选择高斯一牛顿迭代法由于 警= 三砉薹c 南砌叫警 = 圭砉薹”卿一南,警 = 主( 1 一卿一焉) 警 l = 1 ,= lj ? j 0 2 粪嘴乒邮)勺 阳 1 ”7 ;昙掣p 。) 。互矿p c 归j ;三旷( 跏, ( 2 8 ) 其= ( 1 - 2 r - 踹 1 - 2 卜端, 1 - 打一端尸为m 1 的憾 y c ( p ) = ( 王,i ( 芦) t ,y ( 芦) t ,l ,知( p ) t ) t 是珏l 的向量而 警= 1 2 薹薹c 警,c 警nc 锄。+ 2 r - 1 ) 掣印叩 三2 骆南) ( 警) ( 警) r = 三薹驾乒嘲警 = 三y t ( p ) 。渺) y ( 鼽 ( 2 9 ) 其中w :( 矿) 是一个对角元为石彘i 的啦n 阶对角阵,而t ( 矿) 为n n 阶对角 块阵。一步可参见韦博成等( 1 9 9 1 ) 所以,为避免求复杂的二阶导数,在高斯一 ,用;薹薹c 南,c 警,c 訾崃近似警懒峨当 ,( z 巧,p ) = 蠕p 时,上式约等号就变为了等号 由高斯一牛顿迭代法以及上面推导出的( 2 8 ) ,( 2 。9 ) 两式可知p 1 = 矿+ :,其中 := - i v t ( 卢) w ,。( p ) y ( p ) 】一1 ( p ) l ,。( p 。) 为了保证每次迭代都能减小优化函数q ;归i 矿) 的值,我们取 p + 1 = 卢+ 口:,( 2 1 0 ) 其中矿= m a x 2 一”:鳞七+ 2 - u a 。ki 卢) 0 的条件下,讨论了纵向数据模型分位点回归的似然距离在第三节,将 c o o k 距离和拟似然距离等诊断统计量应用到纵向数据分位点回归中,并基于m m 迭代算 法中新构造的目标函数q ;i 芦,) 提出了一种新的影响度量一m m 距离第四节中,基于 东南大学硕士学位论文第三章基于m s 算法的影响分析2 l 对数函数h ( 1 + z ) 的麦克劳林展开,得到了分位点回归以及最小二乘回归模型中三种似 然距离之间的一个近似的等量关系最后用前几节介绍的各种诊断统计量进行实际数据 分析 3 2 特殊假设下纵向数据分位点回归的似然距离 3 丸l 非对称l a p l a c e 分布 巾;m 丁,= 掣唧 p r (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026抚州市护士招聘考试题库及答案
- 企业单位考试题库及答案
- 2026鄂州市教师招聘面试题及答案
- 建筑设计项目绿色节能设计标准实施手册
- 临电临水管理安全施工规范
- 深基坑开挖支护安全专项预案编制
- 保温板施工接缝封堵验收规范
- 造口护理标准化作业指导
- 华为手机功能广告介绍
- 项目环境影响评估手册编制指南
- 预防打架斗殴教育课件
- 金属非金属矿山职工安全生产应知应会培训教材
- 《认知及认知障碍》课件
- J17J177 钢丝网架珍珠岩复合保温外墙板建筑构造
- 实习律师面试宝典
- 2023届高考作文复习:寓言类材料作文审题立意写作课件(共17张PPT)
- 2023年河南地矿职业学院单招考试职业适应性测试模拟试题及答案解析
- GB/T 2653-2008焊接接头弯曲试验方法
- 大型设备说明-涂胶显影机第1台
- 气胸的急救及护理
- 科技创新引领新时代-三次科技革命及其影响下的社会发展-高三统编版(2019)历史一轮复习
评论
0/150
提交评论