(概率论与数理统计专业论文)非线性分位点回归模型的统计诊断.pdf_第1页
(概率论与数理统计专业论文)非线性分位点回归模型的统计诊断.pdf_第2页
(概率论与数理统计专业论文)非线性分位点回归模型的统计诊断.pdf_第3页
(概率论与数理统计专业论文)非线性分位点回归模型的统计诊断.pdf_第4页
(概率论与数理统计专业论文)非线性分位点回归模型的统计诊断.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 分位点回归模型是一种重要的统计模型,它比最小二乘回归和l a d 回归具有 更强的统计分析能力,能给数据集提供更加丰富的统计推断结果回归分位点是一 类基本的稳健估计,它们受数据中异常点的影响较小,并能给条件分布以更加全 面的统计描述;当误差项服从重尾分布或其分布受到污染时,它们比l s 估计的有 效性更高因此,回归分位点估计和分位点回归模型一经出现,便赢得了许多统计 学家和经济学家的青睐。使其在经济、金融,环境科学、医学等领域的应用日益广 泛。本文比较系统地研究了非线性分位点回归模型的统计诊断,尤其是影响分析 等 第二章主要介绍了非线性分位点回归模型和线性回归分位点的基本概念和重 要性质,并介绍了计算非线性回归分位点的m m 算法 第三章先在很一般的正则条件下。证明了一类使用m 估计的回归模型的数据 删除模型( c d m ) 和均值漂移模型( m s o m ) 参数估计的等价性定理,这类模型包括 通常的l 。回归、l a r d 回归,特别是分位点回归等模型其次,基于新的目标函数 饼( 口i 矿) 和m m 迭代算法,证明了分位点回归模型的c d m 和m s o m 参数估计的等 价性定理;并且,在证明等价性定理的过程中都得到了= 邑( i ) ,这一结果很好地 解释了数据删除模型和均值漂移模型之间的关系最后,基于b a y e s 方法证明了, 当漂移参数7 服从有信息先验时,在相当广泛的统计模型中,其c d m 和m s o m 的 参数估计不相等,这一结果完善了诊断模型参数估计的等价性理论 第四章先在误差项独立同分布均服从非对称l a p l a c e 分布舡a r ( o 的条件 下,得到了非线性分位点回归模型中的三种似然距离三珥:( p ,a ) ,l 珥,( 卢i 一) 和 l d , ( ,l 口) 其次,从大样本置信域的观点提出了非线性分位点回归模型中的c o o k 距离和拟似然距离,并基于新构造的目标函数娥( 卢i 屏) 提出了一种新的影响度量 一m m 距离然后,基于对数函数i n ( 1 + 。) 的马克劳林展开,在某类包括分位点 回归模型在内的较为广泛的统计模型中,得到了三种似然距离之间的一个近似的 等量关系最后,我们介绍了其它几个适用于分位点回归模型的诊断统计量,如 f d , ,f d :,a e 。和磷? 等 在第三,四两章中。我们计算了大量的实际数据,计算结果很好地说明了本文 理论和方法的正确性,有效性和实用性 关键词:非线性分位点回归; 回归分位点;统计诊断;影响分析;似然距 离;c o o k 距离;拟似然距离;m m 距离;等价性; b a y e s 方法 中囝分类号:0 2 1 2 2 a m s ( 2 0 0 0 ) 主题分类:6 2 j 0 2 ;6 2 j 2 0 a b s t r a c t q u a n t i l er e g r e s s i o nm o d e l sa r ei m p o r t a n ts t a t i s t i c a lm o d e i s ,w h i c ha r em o r ep o w e r f u lt h a n l e a s ts q u a r e ( l s ) r e g r e s s i o na n dl e a s ta b s o l u t ed e v i a t i o n ( l a d ) r e g r e s s i o ni ns t a t i s t i c a la n a l y s i s , a n dc a ns u p p l ym u c hm o r ea t t r a c t i v ei n f e r e n c er e s u l t sf o rt h ed a t a e e t s r e g r e s s i o nq u a n t i l e sa r e r o b u s ta g a i n s tt h ei n f i u e n c eo fo u t l i e r sa n d t a k e ns e v e r a la tat i m e ,t h e yg i v eam o r ec o m p l e t e p i c t u r eo ft h ec o n d i t i o n a ld i s t r i b u t i o nt h a nas i n g l ee s t i m a t eo ft h ec e n t e r ,a n dt h e ya r em o r e e f f i c i e n tt h a nt h el e a s ts q u a r ee s t i m a t ew h e nt h ed a t ac o m e sf r o mh e a v y - t a l l e dd i s t r i b u t i o no rt h e m i x t u r eo fs e v e r a ld i f f e r e n td i s t r i b u t i o n s s oq u a n t i l er e g r e s s i o nm o d e l sa n dr e g r e s s i o nq u a n t i l s s h a v eb e e nn o t i c e da n df a v o u r e db yt h es t a t i s t i s t ea n de c o n o m i s t sw h i l et h e ya p p e a r e d t h i s t h e s i si sd e v o t e dt oi n v e s t i g a t et h es t a t i s t i c a ld i a g n o s t i c s ,p a r t i c u l a r l yt h ei n f l u e n c ea n a l y s i s ,f o r n o n l i n e a rq u a n t i l er e g r e s s i o n i nc h a p t e r2 ,t h ee s s e n t i a lc o n c e p t sa n dm a i np r o p e r t i e so fn o n l i n e a rq u a n t i l er e g r e s s i o n m o d e la n dl i n e a rr e g r e s s i o nq u a n t i l e sa r ei n t r o d u c t e d a n dt h em ma l g o r i t h mi sg i v e nt oc o m p u t e n o n l i n e a rr e g r e s s i o nq u a n t i l e s i nc h a p t e r3 ,u n d e rq u i t ec o m m o nr e g u l a rs e s u m p u t i o n s ,w es h o wt h ee q u i v a l e n c et h e o r e m o f c a s ed e l e t i o nm o d e l ( c d m ) a n dm e a ns h i mo u t f i e rm o d e l ( m s o m ) f o raw i d ec l a s so f s t a t i s t i c a l m o d e i sw h i c ha d o p tt h em e s t i m a t ea n di n c l u d eq u a n t i l er e g r e s s i o na n dl sr e g r e s s i o n ,b a s e do n t h eo b j e c t i v ef u n c t i o no ft h em ma l g o r i t h m t h es a b l et h e o r e mi sp r o v e df o rq u a n t i l er e g r e s s i o n 。 w h i c hi sv a l u a b l ei np r a c t i c e = 邑( t ) i sab y p r o d u c to ft h ee q u i v a l e n c et h e o r e m ,w h i c hi su s e d t od e m o n s t r a t et h er e l a t i o n s h i pb e t w e e nc d ma n dm s o m a c c o r d i n gt ob a y e s i a nm e t h o d i ti s p r o v e dt h a tt h ee s t i m a t e so fc d ma n dm s o ma r en o te q u a li naw i d ec l a s so fs t a t i s t i c a lm o d e l s w h e n1h a si n f o r m a t i v ep r i o r i nc h a p t e r4 ,f i r s t l y , w eo b t a i nt h el i k e l i h o o dd i s p l a c e m e n tl d r l ( p 盯) ,l j 阱l ( 卢i 盯) a n d 工d ”( 盯i 口) f o rn o n l i n e a rq u a n t i l er e g r e s s i o nm o d e l sw h e nt h er a n d o me r r o r sa r ei n d e p e n d e n t l y d i s t r i b u t e da s y m m e t r i cl a p l a c ed e n s i t y , i e a l 4 f ( o ,j ) s e c o n d l y ,c o o kd i s t a n c ea n dq u a s i - l i k e l i h o o dd i s p l a c e m e n ta r ep r o p o s e df r o mt h ev i e wo ft h ec o n f i d e n c en , g i o no fl a r g e ,s a m p l e , a n dan e wi n f l u e n c em e a s u r e ,i e t h em md i s t a n c e ,i 8a l s op r o p o s e db a s e do nt h en e wo b j e c t i v e f u n c t i o n 饼( 卢i 屏) t h i r d l y , t h ea p p r o x i m a t ee q u i v a l e n tf o r m u l ab e t w e e nt h et h r e el i k e l i h o o d d i s p l a c e m e n t si so b t a i n e di naw i d ec l a s so fs t a t i s t i c a lm o d e i sw h i c hi n c l u d en o n l i n e a rq u a n t i l e r e g r e s s i o nm o d e l f i n a l l y , s e v e r a lo t h e rd i a g n o s t i cm e a s u r e sa r ea l s oc o n s i d e r e df o rn o n l i n e a r q u a n t i l er e g r e s s i o n i nc h a p t e r3a n dc h a p t e r4 ,m a n yd a t a s e t sa r ea n a l y z e dt oi l l u s t r a t et h ea c c u r a c ya n d p r a c t i c eo ft h et h e o r i e sa n dd i a g n o s t i cm e t h o d sp r o p o s e di nt h i st h e s i s k e y w o r d s :n o n l i n e a rq u a n t i l er e g r e s s i o n ;r e g r e s s i o nq u a n t i l e ;s t a t i s t i c a jd i a g n o s t i c s ;i n f l , l - e n c ea n a l y s i s ;l i k e l i h o o dd i s p l a c e m e n t ;c o o kd i s t a n c e ;q u a s i - l i k e l i h o o dd i s p l a c e m e n t ;m m d i s t a n c e ;e q u i v e l e n c e ;b a y e sm e t h o d 东南大学学位论文 独创性声明及使用授权的说明 一,学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标明和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意 二关于学位论文使用授权的说明 签名;辫咻丛u 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印,缩印或其他复制手段保存论文本人电 子文档的内容和纸质论文的内容相一致除在保密期内的保密论文外,允许论文 被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容论文的公布( 包括刊 登) 授权东南大学研究生院办理 签名:垄婚师签名: 幽日期:旦咀 第一章绪论 美国科学院院士,国际著名统计学家e f m n 曾经说过;“在二十世纪,统计思 想和方法已成为许多科学领域( 包括教育学农业、经济,生物等) 的理论支柱目 前,它在更复杂的科学,诸如天文学。地质学,物理学等领域中也发挥了日益重要 的作用,在二十一世纪,人们将广泛认识到统计学是科学思想的中心成分之一。 统计学是一门具有强烈应用背景,广泛研究内容和丰富实际成果的科学分支 而回归分析则是统计学中理论较为完善,应用较为广泛,实际效果也较好的统计 方法之一 在经典的最小二乘( l s ) 回归和最小一乘( l a d ) 回归中,我们只能得到一条回归 曲线正如m e s t e l l e ra n dt u k e y 在1 9 7 7 年所说的那样( 为了避免翻译时有失偏颇,我 们采用了原文) ;。w h a tt h er e g r e e s i o nc u r v ed o e si sg i v eag r a n ds u m m a r yf o rt h ea v e r a g e s o ft h ed i s t r i b u t i o n sc o r r e s p o n d i n gt ot h es e to fz s w ec o u l dg of u r t h e ra n dc o m p u t es e v e r a l d i f f e r e n tr e g r e s s i o nc u r v e sc o r r e s p o n d i n gt ot h ev a r i o u sp e r c e n t a g ep o i n t so ft h ed i s t r i b u t i o n s a n dt h u sg e tam o r ec o m p l e t ep i c t u r eo ft h es e t o r d i n a r i l yt h i si sn o td o n e a n ds or e g r e s s i o n o f t e ng i v e sar a t h e ri n c o m p l e t ep i c t u r e j u s ta st h em e a x lg i v e sa ni n c o m p l e t ep i c t u r eo fa s i n g l ed i s t r i b u t i o n s ot h er e g r e s s i o nc u r v eg i v e sac o r r e s p o n d i n g l yi n c o m p l e t ep i c t u r ef o ras e t o f d i s t r i b u t i o n s ”那么,我们到底能否得到一个数据集的更加全面的统计描述呢? 回 答当然是肯定的! 分位点回归就给数据集提供了一个作。全景图。的手段和方法 通常应用较多的l a d 回归是分位点回归在分位点为0 5 时的特例 1 1 1 关于分位点回归 l 1 国内外研究概况 由于分位点回归不仅具有l a d 回归对响应变量中异常点稳健的优点,而且还 具有比l a d 回归和l s 回归更全面更强大的统计分析能力,因此,自从k o e n k e ra n d b a s s e t t 于1 9 7 8 年提出回归分位点的概念以来,分位点回归便以其出色的统计分析 能力和良好的实际应用效果,很快就赢得了许多统计学家和经济学家的高度重视 和青睬,使其在各个应用领域中得到了深入的发展,并成为当前统计学研究的热门 课题之一在国外,许多学者( 如k o e n k e r ,b a s s e t t ,p o r t n o y , y uk e m i n g 和h ex u m i n g 等) 对分位点回归理论的完善以及它在统计学、经济学等各个领域中的广泛应用 作出了杰出的贡献但是,国内除了c h e n a n ds a l e h ( 2 0 0 0 ) 外,尚未见到更多的关于 分位点回归的研究成果 在y u ,l u ,a n ds t a n d e r ( 2 0 0 3 ) 这篇关于分位点回归的著名的综述文章中,他们系 统分析了分位点回归的统计思想和基本概念,全面总结了分位点回归在经济、金 2 东南大学硕士学位论支 融、环境科学医学以及异方差检验等中的应用,深入讨论了参数和非参数回归分 位点估计的各种方法和算法,并且展望了分位点回归在时间序列和拟合优度检验 中的应用前景 k o e n k e ra n db a s s e t t 于1 9 7 8 年提出回归分位点的初衷是为了说明当误差项服从 重尾分布( h e a v y t a i l e d 或l o n g - t a i l e d ) 或误差项分布受到污染时,回归分位点佑计比 最小二乘估计的有效性更高,然后他们较为系统地研究了线性回归分位点的变换 不变性和渐近正态性等( 详见2 2 ) c h e na n ds a i e h ( 2 0 0 0 ) 在较为一般的条件下, 证明了线性模型中回归分位点估计量的强相合性和渐近正态性等大样本性质,改 进了k o e a k e ra n db a s s e t t ( 1 9 7 8 ) 等人的有关工作y ua n dm o y e e d ( 2 0 0 1 ) 用b a y e s 方法 研究了分位点回归模型,他们在假定误差项服从非对称l a p l a c e 分布的条件下,证 明了当未知参数疗服从无信息先验时其后验分布的合理性尽管回归分位点估计 对响应变量中的异常点稳健,但它们可能对解释变量中的高杠杆值点敏感,基于这 种考虑,a d r o v e re t a ,( 2 0 0 4 ) 提出了稳健回归分位点,使得它们对解释变量中的高 杠杆值点亦稳健关于非参数回归,y ua n dj o n e s ( 1 9 9 8 ) 通过核加权局部线性拟合 方法研究了非参数回归分位点估计;并且他们还比较了两种常用的非参数条件回 归分位点估计方法,即局部常数拟合和局部线性拟合,结果表明两者的差异相对 来说并不显著( y ua n dj o n e s1 9 9 7 ) 分位点回归的思想和方法还深入到其它模型,如 变系数模型、纵向数据模型,有约束的回归模墅半参数回归模型等( 详见h o n d a 2 0 0 4 k o e m k e r2 0 0 4 ,z h a o2 0 0 0 和k o e n k e r1 9 9 3 ) 此外,k o e n k e ra n dp o r t n o y ( 1 9 8 7 ) 基于 回归分位点提出了线性模型中参数口的一种新的l 估计,并得到了线性模型中l 估计的一般的渐近理论 在分位点回归的理论和方法不断完善和发展的同时,其应用研究也得到了较 为丰富的成果,并且其应用的领域也在不断扩展中如p o r t n o y ( 1 9 8 8 ) 把回归分位点 应用到多个异常点的诊断上,取得了较好的效果k o e n k e ra n db a s s e t t ( 1 9 8 2a ) 基于 不同的回归分位点之间的关系以及其大样本理论提出了诊断异方差的稳健检验 h e s g e r t ya n dp e p e ( 1 9 9 9 ) 用半参数回归分位点估计评定了美国儿童相对于身高和年 龄的标准体重文献还有很多,如b u c h i n s k y ( 1 9 9 8 ) ,b a s s e t t ,t a ma n dk n i g h t ( 2 0 0 2 ) , y i na n dc a i ( 2 0 0 5 ) ,b a r r e t oa n dh u g h e s ( 2 0 0 4 ) 等,限于篇幅,这里就不一一介绍了 1 1 2 关于l a d 回归的统计诊断 统计诊断是晚近三十年来才迅速发展起来的一门统计学新分支,它以强烈的 应用背景,新颖的统计思想、广泛的研究内容和丰富的实际成果在广大统计工作 者面前展现出了一个理论与应用相结合的崭新领域在许多统计学家的不懈努力 下,统计诊断的理论和方法已经深入到各种统计模型如c o o ka n dw e i s b e r g 1 9 8 2 ) 和 韦博成等( 1 9 9 1 ) 对于线性回归模型的统计诊断作了全面而综合的讨论,对于广义线 性模型和指数族非线性模型等的统计诊断,m e c u l l a g ha n dn e l d e r ( 1 9 8 9 ) 和w e i ( 1 9 9 8 ) :;:;:;:;:! ! :! ! :! ! :i l :。:;:;:一3 亦分别作了深入的研究 尽管分位点回归对响应变量中的异常点稳健,然而,正如n a r u l a 等在研究l a d 回归时所说;“即使是稳健回归方法也难以免除意外而极端异常点的影响。”并且, 他们的研究结果和实际数据分析的确表明,研究l a d 回归的影响分行等统计诊断 技术是有必要的,这使我们有理由相信,研究分位点回归模型的统计诊断技术也 是必要的和有实际意义的,但是,有关分位点回归统计诊断的研究尚未见到,而与 之密切相关的l a d 回归却有许多相关的研究成果,相信这些成果能给我们研究分 位点回归的统计诊断会有所帮助下面,我们简要介绍一下有关l a d 回归统计诊 断的部分工作 大量的研究表明,l a d 估计对数据中的异常点具有稳健性;若误差项服从重 尾分布或误差项分布受到污染时,l a d 估计比最小二乘估计更加有效( m c k e a na n d s i e v e r s1 9 8 7 ) 但是l a d 回归仍然存在统计诊断问题正如e l i a n ,a n d r ea n dn a r u l a ( 2 0 0 0 ) 所指出,尽管l a d 估计对响应变量中的异常点稳健,但它对解释变量中的异 常点却无能为力,甚至比l s 估计更敏感( 亦可见s u na n dw e i2 0 0 4 ) 为了定量刻画 l a d 回归中异常点的影响,e l l i sa n d m o r g e n t h a l e r ( 1 9 9 2 ) 从几何的角度提出了高杠杆 值点度量;如果数据的预测变量中有异常点,d o d g e ( 1 9 9 7 ) 建议交换响应变量与每 一个预测变量的位置进行识别;e l i a n ,a n d r ea n dn a r u l a ( 2 0 0 0 ) 讨论了误差项独立同 分布,服从均值为0 方差为2 口2 的拉普拉斯分布的似然距离;m o r g e n t h a l e r ( 1 9 9 7 ) 系 统地研究了l a d 回归模型中残差的性质;s u na n dw e i ( 2 0 0 4 ) 进一步发展了l a d 回 归的诊断技术 1 2 本文的主要工作 本文基于s u na n dw e i ( 2 0 0 4 ) 和e l i a n ,a n d r ea n dn a r u l a ( 2 0 0 0 ) 中的方法,主要研究 了非线性分位点回归模型的统计诊断问题,但是对其它统计模型中目前尚未研究 的方面也有所涉及,如基于b a y e s 方法的诊断模型分析等另外,需要说明一下, 由于目前统计学界对异常点和强影响点这两个概念尚无统一的定义,所以我们在 行文中也未细加区分要深入地了解它们,请参见韦博成等( 1 9 9 1 ) s t o r e ra n dc r o w l e y ( 1 9 8 5 ) 曾经提出过一个猜想,即数据删除模型中参数p 的估 计廓目与均值漂移模型中参数卢的估计赫相等这一结论对于很广泛的非线性模型 都成立本文第三章深入地研究了诊断模型的等价性同题第二节在很一般的正 则条件下,证明了该结论对包括分位点回归模型在内的一类较广泛的统计模型都 成立;第三节中,基于新的目标函数饼( 口i 胪) 和m m 迭代算法,我们证明了非线 性分位点回归模型的数据删除模型和均值漂移模型参数估计的等价性定理,这在 实际中更有意义;并且,在二、三节证明等价性定理的过程中都得到了= 也( i ) , 这一副产品很好地解释了数据删除模型和均值漂移模型之间的关系;在第四节, 4 东南大学硕士学位论文 我们基于b a y e s 方法证明了,当漂移参数1 服从有信息先验时,在相当广泛的统计 模型( 诸如l s 回归、岭回归等) 中,其c d m 和m s o m 的参数估计不相等 本文第四章系统地研究了非线性分位点回归模型的影响分析问题第一节,我 们在假定误差项独立同分布都服从非对称l a p l a c e 分布a l a ,( 0 ,州的条件下,成功 地把识别强影响点的似然距离应用到非线性分位点回归模型,推广了e l i a n ,a n d r e a n dn a r u l a ( 2 0 0 0 ) 的工作;第二节,我们得到了非线性分位点回归诊断的c o o k 距离 和拟似然距离,并从大样本置信域的角度给它们以统计上的直观解释,我们还基 于新的目标函数鳞( 卢i 厨) 提出了一种新的影响度量,即m m 距离;在第三节,基 于对数函数i n ( 1 + x ) 的马克劳林展开,在包括非线性分位点回归和l s 回归的一类 较为广泛的统计模型中,得到了三种似然距离之间的一个近似的等量关系;其它 一些可用于非线性分位点回归的经典的诊断统计量。如f d 。f d :。a e ,和硝 等的介绍则放在第四节 综上所述,本文的主要工作包括: 1 在很一般的正则条件下,证明了包括分位点回归和最j 、- - 乘回归在内的一类较 为广泛的统计模型的数据删除模型和均值漂移模型参数估计的等价性定理 2 基于新的目标函数饼( 口i 胪) 和m m 迭代算法,证明了非线性分位点回归模型 的数据删除模型和均值漂移模型参数估计的等价性定理 3 基于b a y e s 方法证明了。当漂移参数7 服从有信息先验时,在相当广泛的统计 模型中,其c d m 和m s o m 的参数估计不相等 4 得到了非线性分位点回归诊断的似然距离、c o o k 距离和拟似然距离 5 基于新的目标函数饼( 口i 辟) 提出了一种新的影响度量一m m 距离 6 在某类包括非线性分位点回归和最小二乘回归在内的统计模型中得到了三种 似然距离之间的一个近似的等量关系 7 基于数据删除模型,得到了适用于非线性分位点回归诊断的其它影响度量,如 f d ,”f d ;。e ,l 和磷? 等 8 在第三,第四章进行了大量的实际数据分析,以检验本文理论和方法的正确性 和有效性 第二章非线性分位点回归模型及m m 算法 从分位点的角度来看,条件回归分位点函数是通常的分布函数的分位点在统 计模型中的推广;从回归的角度来看,分位点回归是均值回归( 即l s 回归) 的进 一步完善和发展,尤其是对l a d 回归的直接推广,它把中位数回归推广到一般的 分位数回归! 本章第一节介绍菲线性分位点回归模型及与其相关的一些问题;第 二节介绍线性回归分位点的性质;本文所采用的计算非线性回归分位点的算法, 即m m 算法的介绍则放在第三节;第四节先通过一个实际的数据例子直观地展现 了分位点回归的性质和优点,然后通过一个随机模拟例子简要说明了分位点回归 方法在识别异方差时的机理和作用 2 1 非线性分位点回归模型 本节先用类比的方法,由最小二乘回归逐步引出菲线性分位点回归和回归分 位点;然后系统地介绍了非对称l a p l a c e 分布和线性分位点回归的性质;最后简要 说明了一下线性分位点回归模型的统计解释 2 1 1 从最小二乘回归到分位点回归 从总体分布的分位点到样本分位点 在通常的统计推断教科书中,总体分布的r 分位点定义如下: 定义2 1 1 设任一实值随机变量y 的分布函数为f ( u ) = p ( ysy ) ,对任意的 0 t 1 。我们称 扣= f - 1 ( r ) 皇i n y y :f ( y ) 2r ) ( 2 1 ) 为f ( y ) 的r 分位点 由定义可知,总体分布f ( y ) 的r ( o r 1 ) 分位点存在且唯一在所有的分位 点中,我们通常最关心的是分位点,即中位数,它在所有的分位点中起着中一l - 作 用 正像总体均值p = e ( y ) 使得函数9 ( c ) = e ( y c ) 2 达到最小值一样,总体分布 的r 分位点也可由一个简单的优化问题导出下面,我们具体地描述这一优化问 题,以后将会看到,这种由优化导出分位点的思想在引出回归分位点的定义中起 着关键的作用! 这一优化问题为:设实值随机变量y 的分布函数为,( ) ,当损失函数取为 p r ( t ) = p f f ( 一c ) 2 ”= 得到其中f n ( ) = ;:i j t k 曼y 是经验分布函数不难看出这是在极小化 9 ( c ) = e ( y c ) 2 时用r 【v ) 代替了f ( y ) 同样,在( 2 , 3 ) 式中我们用r ( ) 代替f ( y ) , 然后对其极小化,这就得到了样本分位点,我们定义如下: 定义2 1 2 若旷使得 ,1 n p ( ,一y 胍( 沪;册( 耻 达到最小,则称旷为来自总体y 的样本h ,珏,k 的r 分位点,记为砟 当n r 是正整数时,我们对这一优化结果会有一点迷惑,因为我们得到的最优 解研可能不唯一,但这并不影响实际中的应用在实际中,我们往往关心的是目 标函数:1 雕( k 一矿) 的最小值,至于霹的多少,我们并不关心,只要找到一个就 行 从最小= 乘回归到分位点回归 在得到样本分位点的过程中,极为重要的是,我们把找样本的r 分位点这一看 似与样本的排序密切相关的问题转化为一个优化问题的解! 事实上,我们是用优 化来代替排序。这一极具艺术性的转变是我们把撵本分位点顺利推广到回归模型 ,引出回归分位点的关键! 下面,我们将基于优化的观点引出非线性分位点回归模 型和回归分位点 在上面我们提到,样本均值是优化问题m 照:】( k 一肛) 2 的解这意昧着,如 果均值p 与某个资变量x 有关,即p = 芦( v fz ) = ,0 ;国( 这对我们称p 白fz ) 为条件 均值函数) ,其中x 是与y 相关的q 维已知的协变量,口是p 维未知参数那么,当 我们观察到( 1 ,z ) ,协,$ n ,碍) 时,我们便可通过解优化问题 q l i a t = 。i 一,( 承,所) 2 来估计未知参数口,这个估计便是通常的非线性最小二乘估计同样地,由于样本 的r 分位点是优化问题r a c i n 丑一? _ 册m c ) 的解,所以,若总体的r 分位点与某个协 变量x 有关,鄄 * = 珈( z ) = f ( z ,口) 这时,我们称0 ,( z ) 皇卅= ,( z 口) 为条件回归分位点函数,其中x 是与y 相关的q 维 已知的协变量,口是p 维未知参数那么,当我们观察到( y l ,z f ) ,( 驰,z 彳) ,( 蛳,。:) 时,我们便可通过解优化问题 m i n 。p - r ( 挑一他,芦) ) 来信讦未知参数j ,这便自然迪引出了回归分位点的撬念和非线性分位点回归模 型为此,我们先介绍一般的非线性回归模型 一般的非线性回归模型为 y = f ( x ;虚) + e ,( 2 4 ) 这里y 为n 维可观察随机变量,x 是已知的n q 维设计矩阵,口是p 维未知参数 向量,e 是t l 维不可观察的随机误差项。回归模型( 2 a ) 的分量形式为 y t = y ( z t ;口) + 屯,i = 1 ,2 ,。1 ,n( 2 5 ) 其中y = ( y t ,北,鲰) r ,x r = ( z 1 ,z 2 ,z 。) 且也= ( z m ,。幻) r , = 1 ,2 ,n ,而 f ( x ;筘) = ( f ( x l ;芦) ,f ( x 2 ;口) ,一,f ( x 。;口) ) 1 ,口= ( 口i ,岛,岛) 7 ,e = ( he 2 ,f 。) 7 1 此处及以后,t 表示矩阵或向量的转置为了行文的方便,我们记v ( p ) = 型磊;旦,r ( 口) = p f ( x 口) n ( 卢) = y l f ( z 。,口) ,i = 1 ,2 ,n ,在不致混淆时,分别简记为kr ,n 回归模型的一个菲常重要的任务就是根据观测数据或试验数据( y 。,巧) ,i = 1 ,2 ,t ,n 由模型( 2 4 ) 或( 2 5 ) 来估计未知参数口最小二乘法是最常用的方法之 一,它之所以得到如此广泛的应用,是因为它计算简单,有时结果可以通过简单而 漂亮的显式表出,易于处理更进一步地,若随机误差项服从正态分布,则最小二 乘估计还有非常优良的小样本性质,但众所周知,最小二乘回归模型对响应变量中 的异常点较敏感,受其影响较大,此时所作的统计推断的可靠性降低为克服最小 二乘估计的这一缺点,有各种稳健估计可供我们选择,回归分位点估计即是其中 之一下面,我们给出回归分位点估计和分位点回归模型的定义 定义2 1 3 若矿使得 s ( 卢) = p ,( 玑一m ;卢) ) t = 1 达到最小值,则称矿为非线性回归模型凹4 j 或偿,影中未知参数s 的r 回归分位 点估计,简称为r 回归分位点,记为屏;函数鼻( 卢) 称为该模型的目标函数;使用 回归分位点估计的回归模型偿纠或俾别称为非线性分位点回归模型 特别地,若f ( x ,j ) = x , 3 ,则 p = x 3 + f ,( 2 6 ) 相应她,嚣之为线性分位点回归模型 说明;在定义2 1 3 中,r 回归分位点估计西中的下标r 主要是为了体现不同 的回归分位点估计,以示区别在模型或目标函数的表达式中,我们还用3 ,一旦 得到某个r 回归分位点估计,我们就加,这个下标,此外,为了行文的简洁,在不 必要时,我们不再强调“非线性”或。线性”,而直接称分位点回归或分位点回归 模型 2 1 2 从非对称l a p l a c e 分布到回归分位点估计 众所周知,当误差项独立同分布都服从均值为0 方差为2 a 2 的l a p l a c e 分布时, 非线性回归模型( 2 4 ) 中未知参数口的极大似然估计即其l a d 估计。那么,是否存 在这样的分布,使得当误差项独立同分布都服从这个分布时,模型( 24 ) 中未知参 数卢的极大似然估计即其r 回归分位点估计呢? 回答是肯定的,这个分布就是非 对称l a p l a c e 分布! 由于在一般的统计推断教材中大都很少介绍非对称l a p l a c e 分布,所以,下面 我们较为详细的介绍一下 定义2 1 。4 若随机变量r 的分布密度函数为 加m 咖挈“,卜( 字) ) , 协r , 其中0 r 0 办( t ) 如侣纠式所示,则称? 服从位置参数为p 、尺度参 数为,的非对称l a p l a c e 分布m s y m m e t r i c l a p l a c ed i s t m b u t i o n ) ,记为于一a 上山( p ,口) 在( 2 ,7 ) 式中,当p = 0 ,一= 1 时,便得到标准非对称l a p l a c e 分布的密度函数 ( t ) = r ( 1 一r ) 唧 一甜( t ) ) ; 当r = ;时,便得到位置参数为p 、尺度参数为。2 a ”的对称l a p l a c e 分布的密度函 数 缈m 咖丢“。h ( 字) ) = 南“,卜掣) 由上面非对称l a p l a c e 分布的密度函数,我们可以很容易地证明当误差项独立 同分布都服从a l a r ( o 口) 时,模型( 2 4 ) 中未知参数口的极大似然估计就是其r 回 归分位点估计 下面,我们具体地讨论一下非对称l a p l a c e 分布 l 山( p ,口) 的有关性质,包括 其分布函数、均值方差,分位点等,亦可参见y ue n dm o y e e d ( 2 0 0 1 ) ,s a n d r i n ea n d c h r j s t i n e ( 2 0 0 0 ) 。y u ,l ua n ds t a n d e r ( 2 0 0 3 ) 等 分布函数:非对称l a p l a c e 分布a l 山( p ,口) 的分布函数为 踯m 加 焉! 器篇,- 肼,鼍麓玺, 仁s , r 分位点:由( 2 8 ) 式易得b ( t ;“口) = r 车= 争t = 卢,所以,非对称l a p l a c e 分布 a l a ,( p 口) 的r 分位点为p ; 重要分解;若随机变量u 和v 独立同分布且u 服从位置参数为肛尺度参数为 。的指数分布e ( 弘,;) ,则 t = u 一丁。三y a l a r ( p ,d ) , ( 2 9 ) 通过积分变换,可以很容易地求出t 的密度函数即为( 27 ) 式。这个分解对我们 进行模拟计算是很重要的,因为在一般的统计软件中没有生成非对称l a p l a c e 分布随机数的函数,而生成指数分布随机数的函数一般都有,所以,我们可以 通过这一分解,由指数分布随机数得到非对称l a p l a c e 分布随机数,以便进行模 拟研究 均值和方差:由( 2 9 ) 式易得,若丁一a l a r ( # ,则 即) = 摘( 帅) 由e ( t ) 的表达式可知,只有当r = 时。 等于0 方差v a t ( t ) 在r 趋于0 或1 时, 惭( t ) = 筹一2 e ( t ) = 0 。对其它的r 值,e ( 丁) 都不 增大的很快 在通常的回归分析中,一般都要求误差项的均值为0 如果我们在模型( 24 ) 中假定误差项服从a l a ,( o ,f ) ,那么由e ( e 1 ) 的表达式知,当r 时e ( b ) 0 , 这时,我们再称模型( 2 4 ) 为回归模型还合适吗? 对于这一问题,正如y ua n dm o y e e d ( 2 0 0 1 ) 所说;“在分位点回归中,我们没必 要具体指定误差项的分布,它可以服从任何形式的分布”事实上,我们可以从以 下几个方面给其以合理的解释 1 由于通常的最小二乘回归是均值回归,所以,在最小二乘回归模型中我们 要求e ( e ) = 0 是很合理的,也是很自然的因为此时我们可得e ( y ) = ( x 口) ,这 与条件均值函数的内在要求p = e ( yj $ ) = ,( 。;口) 相一致而在分位点回归中,我 们关心的是条件分位点函数,对于能否得到e ( y ) = ,( x 口) ,我们并不关心,因此 我们也没必要要求联e ) = 0 。更进一步地,与均值回归类似,在分位点回归中我们 要求误差项的分布的某一r 分位点为0 则显得更合理例如,当我们比较关心r 回 归分位点估计时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论