(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf_第1页
(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf_第2页
(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf_第3页
(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf_第4页
(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(概率论与数理统计专业论文)两类复杂数据及相关模型的统计分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学博士学位论文 两类复杂数据及相关模型的统计分析 崔霞 ( 山东大学数学与系统科学学院,济南,2 5 0 1 0 0 ) 摘要 在过去的几十年里,随着计算机的计算速度和存储能力的提高,人们能够收集、存 储和分析在金融市场、医学诊断、生命科学、环境调查等各个领域大量涌现的复杂数 据集。这些数据集往往有下面的特征:包含异常值,有观测误差,纵向抽样,维数超高 ( 大“p ”,小“几”) 等等为了能够处理各个科学领域出现的复杂数据,一方面我们需 要拓展传统的统计方法,另一方面我们更加迫切需要提出全新的统计方法 本论文主要考察两类数据集:混杂了同一个协变量的数据集和含有异常值的数据 集。我们对前者做了回归分析的研究,对后者做了判别分析和构造稳健拟似然框架的 研究 k a y s e ne ta 1 ( 2 0 0 3 ) 给出了一个“混杂了同一个协变量的数据”的例子 血液透析病人的纤维蛋白原的数据在该数据中人们感兴趣的是纤维蛋白原水平和 铁传递蛋白水平的回归关系而这两类蛋白水平都依赖于b m i ( b o d ym a s si n d e x , w e i g h t h e i g h t 2 ) ,那么b m i 必然会对回归关系造成一定的扭曲为了刻画回归中的 这种扭曲并给出相应的调整方法,s e n t i i r k 和m i i l l e r ( 2 0 0 5 ) 建立了协变调整的线性回 归模型( c o v a r i a t e - a d j u s t e dl i n e a rr e g r e s s i o n ,c a l r ) ,同时通过将该模型转化成变系 数模型得到了模型中参数的估计在第二章中,我们给出了另一种直接估计参数的方 法:第一步,用设计变量和响应变量对协变量做回归,从而得到扭曲函数的核平滑估 计,继而得到关于不可观测的设计变量的估计和不可观测的响应变量的估计;第二步, 利用估计的设计变量和响应变量可得到参数的最小二乘估计。我们证明了新的估计方 法所得估计的、佤一致性和渐近正态性。同时我们给出了一个我们的方法具有更小的 渐近方差的充分必要条件 与第二章所讨论的数据类型相同,在第三章中,我们建立了协变调整的非线性模 型( c o v a r i a t e - a d j u s t e dn o n l i n e a rr e g r e s s i o n ,c a n l r ) 并考察了该模型的性质。同样地, 在该模型中,设计变量和响应变量不能够直接观测到,观测到的是被一些乘积因子混 淆后的版本由于非线性性的存在,s e n t i i r k 和m f i l l e r ( 2 0 0 5 ) 的估计方法不能直接用 到c a n l r 模型的参数估计上为此,我们沿用第二章中的估计方法可得设计变量和 响应变量的估计,进而利用非线性最小二乘得到参数的估计。同样地,我们考察了何 山东大学博士学位论文 一致性和渐近正态性。然而由于渐近方差的结构非常复杂并且含有很多未知待估的项, 我们如果用“正态近似”的方法去构造参数的置信域,效率会很低。为了避免估计渐近 方差,我们采用经验似然的方法来构造置信域尽管在构造的经验似然比中有无穷维 的讨厌参数的估计( 扭曲函数的估计) 插入,经验似然比的渐近分布仍然是卡方的。这 就保证了用经验似然比建立置信域是可行的 异常值很有可能是一些含有重要信息的数据点,像污染区域之于环境数据,或者 不规则情形之于病人的在线监护数据人们希望统计方法做到既能够充分利用这些异 常值信息又不要对异常值过于敏感对于此类数据,我们在第四章中主要研究了稳健 的非参判别分析。首先我们定义了推广的投影深度( e x t e n d e dp r o j e c t i o nd e p t h ,e p d ) , 然后给出了判别准则一未来的观测值关于哪个总体具有最大e p d ,则认为它来自那 个总体。我们讨论了基于e p d 的判别准则的稳健性质及其误判概率的渐近性质。进 一步地,当所考察总体的分布是椭球对称时,基于e p d 的判别准则渐近等价于最优 的b a y e s 笋i 别准贝4 。 在最后一章中,对于离散随机过程我们给出了将拟似然推断的理论框架稳健化的 一般的做法。主要是基于投影深度函数对异常的正交基降低权重,从而得到稳健的正 交基。在由稳健的正交基构造的估计函数空间中,我们仍然能够找到具有某些最优性质 的估计方程。所得估计方程和估计量都有良好的稳健性质,崩溃点值接近于1 2 仞+ 1 ) 同时,所得估计量仍然保持渐近正态性。我们还讨论了该估计方法所带来的效率的变 化。 模拟实验和实际数据的应用进一步阐释了上述各种方法 关键词:复杂数据;协变调整的回归模型;稳健判别分析;稳健拟似然;最d 、- - 乘;投影深度;核估计;经验似然;置信域;渐近行为。 山东大学博士学位论文 s t a t i s t i c a la n a l y s i sf o rt w ot y p e so fc o m p l e xd a t a a n dt n ea s s o c l a t e qm o q e l s l 11 x i ac u i s c h o o lo fm a t h e m a t i c sa n ds y s t e ms c i e n c e ,s h a n d o n gu n i v e r s i t y , j i n a n ,s h a n d o n g ,2 5 0 1 0 0 ,p r c h i n a a b s t r a c t l a r g ea n dc o m p l e xd a t a s e t sg e n e r a t e di nf i n a n c i a lm a r k e t s ,m e d i c a ld i a g n o s t i c s , e n v i r o n m e n t a ls u r v e y sa n do t h e rs o u r c e sh a v eb e e no fi n t e r e s ti nt h ep a s tt h r e eo rf o u r d e c a d e s ,s i n c et h er a p i dd e v e l o p m e n to fc o m p u t i n gs p e e da n ds t o r a g ec a p a b i l i t yh a s e n a b l e do n et oc o l l e c t ,s t o r ea n da n a l y z et h e m t h e s ed a t as e t sm a y b ei n c l u d eo u t l y i n g v a l u e s ,b em e a s u r e dw i t he r r o r ,b ec o l l e c t e dr e p e a t e d l yo v e rt i m ef r o mi n d i v i d u a l s ,h a v e v e r yh i g hd i m e n s i o n ( 1 a r g ep ,s m a l ln ) a n ds oo n n o v e ls t a t i s t i c a la n a l y s i sm e t h o d s c a p a b l eo fd e a l i n gw i t hs u c hd a t aa r er e q u i r e dm o r et h a ne v e rb e f o r ei na l m o s ta l l b r a n c h e so fs c i e n c e t h i st h e s i sm a i n l yc o n c e r n sa b o u tt w ot y p e so fd a t a :o n et h a ta r ec o n f o u n d e d b yo n ec o m m o nc o v a r i a t e ,t h eo t h e rw i t ho u t l y i n gv a l u e s a n dw ec a r r yo nd i s c u s s i o n a b o u tr e g r e s s i o na n a l y s i sf o rt h ef o r m e ra n d ,d i s c r i m i n a n ta n a l y s i sa n dr o b u s t i f y i n g t h eq u a s i l i k e l i h o o df r a m e w o r kf o rt h el a t e r a ne x a m p l ew h e r eo n ed a t ao ft h et y p ec o n f o u n d e db yo n ec o m m o nc o v a r i a t ei s r e l e v a n ti st h ef i b r i n o g e nd a t ao fk a y s e ne ta 1 ( 2 0 0 3 ) ,w h e r et h er e g r e s s i o no ff i b - r i n o g e nl e v e lo ns e r u mt r a n s f e r r i nl e v e li nh a e m o d i a l y s i sp a t i e n t si so fi n t e r e s t b o t h o b s e r v e dr e s p o n s ea n dp r e d i c t o ra r ek n o w nt od e p e n do nb o d ym a s si n d e x d e f i n e da s w e i g h t h e i g h t 2 ,w h i c ht h u sh a sac o n f o u n d i n ge f f e c to nt h er e g r e s s i o nr e l a t i o n s h i p t o e x p l o r es u c hc o n f o u n d i n gi nr e g r e s s i o na n dt od e v e l o pa p p r o p r i a t ea d ju s t m e n tm e t h o d s ,s e n t f i r ka n dm i i l l e r ( 2 0 0 5 ) c o n s t r u c t e dt h e “c o v a r i a t e - a d j u s t e dl i n e a rr e g r e s s i o n ” ( c a l r ) m o d e l ,a n dp r o p o s e da ne s t i m a t i o nm e t h o df o rt h er e g r e s s i o nc o e f f i c i e n tp a - r a m e t e r si nt e r m so ft r a n s f o r m i n gc a l rt oav a r y i n g c o e f f i c i e n tr e g r e s s i o nm o d e l i n c h a p t e r2 ,w er e c o m m e n da na l t e r n a t i v ee s t i m a t i o np r o c e d u r et h a td i r e c t l ye s t i m a t e s t h ep a r a m e t e r si nt h ef o l l o w i n gn a i v em a n n e r :i nt e r m so fe s t i m a t i n gn o n p a r a m e t r i 山东大学博士学位论文 c a l l yt h ed i s t o r t i n gf u n c t i o n sb yr e g r e s s i n gt h ep r e d i c t o r sa n dr e s p o n s eo nt h ec o m m o n c o v a r i a t e ,a n dt h e nt h ee s t i m a t o r so ft h ep a r a m e t e ra r ec o n s t r u c t e dv i ar e g r e s s i n gt h e e s t i m a t e dr e s p o n s eo nt h ee s t i m a t e dp r e d i c t o r s r o o tn c o n s i s t e n c ya n da s y m p t o t i c n o r m a l i t yo ft h ep a r a m e t e re s t i m a t o r sa r eo b t a i n e d f o rc o m p a r i s o n an e c e s s a r ya n d s u f f i c i e n tc o n d i t i o nt h a te n s u r e sas m a l l e rl i m i t i n gv a r i a n c eo ft h en a i v ee s t i m a t o r st h a n t h eo n eo fs e n t f i r ka n dm f i l l e r sm e t h o di sp r o v i d e d f o rt h es a m et y p ed a t ao fc h a p t e r2 ,c h a p t e r3s u g g e s t sa n di n v e s t i g a t e sa “c o v a r i a t e a d j u s t e dn o n l i n e a rr e g r e s s i o n ”( c a n l r ) m o d e l i nt h i sm o d e l ,b o t hr e - s p o n s ea n dp r e d i c t o rv e c t o rc a no n l yb eo b s e r v e da f t e rb e i n gd i s t o r t e db ys o m em u l t i p l i c a t i v ef a c t o r s b e c a u s eo ft h en o n l i n e a r i t y , t h ee s t i m a t i o nm e t h o dp r o p o s e db y s e n t f i r ka n dm f i l l e r ( 2 0 0 5 ) u s e df o rl i n e a rc a s ec a nn o tb ed i r e c t l ye m p l o y e d t o a t t a c kt h i sp r o b l e m f o l l o w i n gt h em e t h o do fe s t i m a t i n gt h ed i s t o r t i n gf u n c t i o n si 1 1 c h a p t e r2 ,a n dt h e nt h en o n l i n e a rl e a s ts q u a r e se s t i m a t o r so ft h ep a r a m e t e r sa r eo b - t a i n e db yu s i n gt h ee s t i m a t e dr e s p o n s ea n dp r e d i c t o r s a g a i n r o o tn c o n s i s t e n c ya n d a s y m p t o t i cn o r m a l i t ya r ea c h i e v e d h o w e v e r ,t h el i m i t i n gv a r i a n c ei so fv e r yc o m - p l i c a t e ds t r u c t u r ew i t hs e v e r a lu n k n o w n sa n dt h e nt h ec o n f i d e n c er e g i o n sb a s e do n n o r m a la p p r o x i m a t i o na r en o te f f i c i e n t t oa v o i de s t i m a t i n gt h el i m i t i n gv a r i a n c e ,t h e e m p i r i c a ll i k e l i h o o d - b a s e dc o n f i d e n c er e g i o n sa r ec o n s t r u c t e da n dt h e i ra c c u r a c yi sa l s o v e r i f i e d i ti ss o m e w h a ts u r p r i s i n gt h a t ,u n l i k et h ec o m m o nr e s u l t sd e r i v e df r o mt h e p r o f i l em e t h o d s ,b yo u rm e t h o d ,e v e nw h e nap l u g i ne s t i m a t i o ni sa p p l i e dt or e p l a c e i n f i n i t e d i m e n s i o n a ln u i s a n c ep a r a m e t e r s ( d i s t o r t i n gf u n c t i o n s ) ,t h el i m i to fe m p i r i c a l l i k e l i h o o dr a t i oi ss t i l lc h i s q u a r e dd i s t r i b u t e d t h i sp r o p e r t ym a k e si tp o s s i b l et o c o n s t r u c tt h ee m p i r i c a ll i k e l i h o o d b a s e dc o n f i d e n c er e g i o n s o u t l i e r so f t e ni n d i c a t et h em o s ti n t e r e s t i n gd a t a , p o i n t s ,l i k ep o l l u t e da r e a sf o r e n v i r o n m e n t a ld a t a ,o ri r r e g u l a r i t i e si no n l i n em o n i t o r i n go fp a t i e n t s t h ec l a s s i c a l d i s c r i m i n a n tr u l e sc a nb es t r o n g l yi n f l u e n c e db yt h ep r e s e n c eo fo u t h e r si nt h e t r a i n i n g s a m p l e 。t h r o u g hw h i c ht h er e s u l t sc a nb e c o m eu n r e l i a b l e t h i sc r e a t e san e e df o rr o b u s t a l t e r n a t i v e st h a tb e h a v e sm o r es t a b l ei nt h ep r e s e n c eo fo u t l i e r si nt h ed a t a e x i s t i n g h t e r a t u r ep r o v i d e sr e s u l t sf o rr o b u s td i s c r i m i n a n ta n a l y s i s ,a l t h o u g ht h e s er e s u l t sw e r e m a i n l yr e s t r i c t e dt ot h eh n e a ro rq u a d r a t i cd i s c r i m i n a n ta n a l y s i s w es t u d yr o b u s t n o n p a r a m e t r i cd i s c r i m i n a n ta n a l y s i sf o rt h i sc l a s so fd a t ai nt e r m so fo u rn e w l yd e f i n e d e x t e n d e dp r o j e c t i o nd e p t h ( a b b r e v i a t e dt oe p d ) i nc h a p t e r4 ,w h e r et h ec l a s s i f i c a t i o n r u l ei st oa s s i g na no b s e r v a t i o nt ot h ep o p u l a t i o nw i t hr e s p e c tt ow h i c hi th a st h e m a x i m u me p d a s ) 1 n p t o t i cp r o p e r t i e so fm i s c l a s s i f i c a t i o nr a t e sa n dr o b u s tp r o p e r t i e s 山东大学博士学位论文 o fe p d b a s e dc l a s s i f i e ra r ed i s c u s s e d i ti sf o u n dt h a tw h e nt h eu n d e r l y i n gd i s t r i b u t i o n s a r ee l l i p t i c a l l ys y m m e t r i c ,e p d b a s e dc l a s s i f i e ri sa s y m p t o t i c a l l ye q u i v a l e n tt ot h e o p t i m a lb a y e sc l a s s i f i e r t h ef i n a lc h a p t e rg i v e sag e n e r a lp r o c e d u r eo fc o n s t r u c t i n gr o b u s tq u a s i l i k e l i h o o d e s t i m a t i n gf u n c t i o n s ,r a t h e rt h a nc o n c e n t r a t eo np a r t i c u l a rp r o b l e m s ,f o rd i s c r e t e s t o c h a s t i cp r o c e s s e sb yd o w n w e i g h t i n go u t l y i n go r t h o g o n a ld i f f e r e n c e sv i ao r i g i n a lp r o - j e c t i o nd e p t h i nt h i ss t u d yw ec o n s i d e ro b s e r v a t i o n st h a tc o r r e s p o n dt os u c hp r o c e s s e s w i t ha d d i t i v eo u t l i e r s a su s u a lt h i sp r o d u c e sa ne s t i m a t i n gf u n c t i o n ,w h i c hh a sc e r t a i n o p t i m a l i t yp r o p e r t i e s ,w i t h i nas p e c i f i e dc l a s so fe s t i m a t i n gf u n c t i o n s t h eo b t a i n e d e s t i m a t i n gf u n c t i o n sa n dp a r a m e t e re s t i m a t i o nh a v ed e s i r a b l er o b u s t n e s s ,w h i c ha t t a i n v e r yh i g hb r e a k d o w nv a l u e sc l o s et o1 2 ( p + 1 ) a tt h es a m et i m e ,t h eo b t a i n e dp a r a m - e t e re s t i m a t i o ns t i l lh a so r d i n a r ya s y m p t o t i cb e h a v i o r ss u c ha sa s y m p t o t i cn o r m a l i t y 舱a l s od i s c u s st h ec h a n g eo fe f f i c i e n c yi n v o l v e di nr o b u s t n e s s s i m u l a t i o n sa n dr e a ld a t aa p p l i c a t i o n sa r eu s e dt oi l l u s t r a t ev a r i o u sm e t h o d s k e yw o r d s :c o m p l e xd a t a ;c o v a r i a t e - a d j u s t e dr e g r e s s i o n ;r o b u s td i s c r i m i n a n t a n a l y s i s ;r o b u s tq u a s i l i k e l i h o o d ;o r d i n a r yl e a s ts q u a r e s ;p r o j e c t i o nd a t ad e p t h ;k e r n e l e s t i m a t i o n ;e m p i r i c a ll i k e l i h o o d ;c o n f i d e n c er e g i o n s ;a s y m p t o t i cb e h a v i o r s 1 x 原创性声明 本人郑重声明:所呈蓟拇学囱技,是本人蝴的指导下,独立进闸辩蹶 得的成果。除文中已经注明引用的内容外,本论艾紊包含l 壬俺其他个人或集体已经发 表或搁篓浏啷乔阿诚果。对席玻巅阿院作出重要贡献的个人和燃均己在文中以明 确方堋。棚的法律责任由= 衣懒。 席消完全了解山东大学有式保留、使用学位论文的规定,同意学杖蜾留或向国家 有关部门或钆陶塑毫论文的复印件和电子 瓦允许途支啼皮查阅和借阅;本 d 雯叔山东 大学可盼盼栏糊渤玟的氢驰蝴内容编入有泡鼬即馥旆:j 匿嗉,可仑睬用影印、 缩印莸影嵫稀好锻保存论奶l : 隧缸鸥雏娩文。 :缀撇:竖日 山东大学博士学位论文 第一章绪论 1 1 两类复杂数据 1 1 1 混杂了同一个协变量的数据 在医学数据分析中,当考察几个变量的相关关系时,往往会有混杂因素出现,例 如,年龄和性别是疾病发病率的重要混杂因素。如果有混杂因素出现,我们需要将可能 会影响该关系的混杂因素变量也包含进来考察根据不同的变量的特征,我们可以选 择不同的度量该相关关系的指标。在回归的框架下,如果两个变量都是连续的,度量二 者之间的相关关系的指标可选作回归系数。这些混杂因素通常被称为“外部变量”、“控 制变量”或者“协变量”假定我们要考察变量y 和变量x 之间的相关关系,变量u 如果满足下面的条件,则认为是一个混杂因素: u 和x 是相关的 当x 取不同的值时,u 和y 也是相关的 后一条表明u 不仅仅是x 的一个中间变量,而且是对y 的一个独立影响因素关于 混杂因素要考虑的问题是是否需要以及需要的话怎样将它们纳入我们感兴趣的模型, 以更好地拟合数据 举例来说,假设我们要研究肺癌的发病率和p 一胡萝卜素的摄入量之间的相关关 系,同时考虑吸烟的可能带来的混杂效应这里的外部变量是“吸烟”,因为健康意识 差的人往往很可能既吸烟又忽视了科学的膳食结构。如果是这样的情形( 例如,吸烟 和低一胡萝b 素摄入量的人群比例比吸烟高卢胡萝b 素摄入量的人群比例大) ,那么 吸烟这个因素会混淆胡萝b 素和肺癌的关系:高吸烟与低p 一胡萝b 素摄入的人群肺 癌的患病率会高于高吸烟与高p 一胡萝b 素摄入的人群,尽管一胡萝卜素对肺癌的发 病率没有影响。 混杂因素如果没有被充分控制,将会使得两个变量的相关关系的估计出现偏差 在极端情形下。混杂因素甚至能颠倒相关关系的正负号当两个变量之间没有相关关 系式,混杂因素如果存在,完全可能观测到二者之间有相关关系,尽管是一种不真实 的关系与混杂因素相关的变量,如果不受所考察的两个变量影响,也会起到混淆的 作用例如,社会经济地位与生活条件、生活方式、是否缺乏预防保健等深切相关,因 而社会经济地位也起到了混淆的作用考察混杂因素是否有影响的通常的做法是比较 两个变量的相关关系的粗略估计( 忽略外部变量) 和调整后的估计( 以某种方式考虑进 去外部变量) 是否有显著差异。 本论文中,我们主要考察在数据集中独立变量和相依变量同时混杂了同一个协变 1 山东大学博士学位论文 量的情形。主要目的是在回归框架下探索混杂因素的影响机制并给出合适的调整方法 1 1 2含有异常值点的数据 :在实际应用中,随机变量受到污染或者数据集中含有异常值点的现象是很常见的 例如,在卫生统计和医学试验中,当考察正常个体的生理指标的分布时,会混入一些 患病的个体,反过来,当考察患病个体的生理指标的分布时,会由于误诊混入一些正 常的个体,在生产制造过程中,由于生产条件的突发性变化,而使正常产品中混入了 少量劣质产品;或者同一批产品来自几个生产条件有较大差异的车间。在数据的收集 和整理过程中,键盘录入和记录时的错误可能产生异常值;如果数据因类别不同而不 同,那么当忽视了分类变量时,会导致该数据集含有大量的异常值一般来说,很难简 单解释那些远离数据主体的数据点。 人们经常会错误地把异常值( 被污染的数据) 当作“坏”的数据予以剔除,而事 实上这些异常值往往包含相当重要的信息。通过下面这个臭氧洞的发现的故事,我们 可以看到异常值可能会含有人们意想不到的信息。1 9 8 5 年,英国人发现了南极春季的 臭氧洞并将这个结果发表在顶级杂志自然上面,引起了全球的很大的反响。美国 科学家在他这个发表之后,又把卫星资料找回来,发现确实是春季南极地区有一些地 方臭氧是大大的减少,减少的量有3 0 一4 0 也就是说,臭氧洞几年之前就形成了, 只是卫星处理数据的系统特别粗糙,把一些特别小的观测值认为是有错的,直接抛掉 了,因而与臭氧洞的发现失之交臂。当数据不存在污染时,传统方法有较好的推断效 果;但在有污染存在的情况下传统效果就会很差,甚至给出错误的判断因而我们需 要发展对数据污染不敏感的方法,换言之,稳健的方法 抽象地说,在进行统计推断或者检验时往往涉及很多假设,例如正态假设、线性 假设、独立性假设这些假设都是对实际情况的一种近似。传统“最优”的统计方法都 是在严格的模型假设条件下得到的,而当实际条件与假设条件有较小的偏离时,所谓 的传统。最优”的方法往往会表现得很差。此时要求我们的统计方法,在当理想假设有 偏离时,不要表现太敏感才好。 譬如常用的线性判别方法和二次判别方法,通常假设总体分布为正态分布,并在 正态假设下给出了判别准则。如果实际的数据和正态分布有所差别,则按照传统的线 性判别或二次判别给出的判别效果可能会很差,而采用稳健的判别方法,就会在与理 想假设( 正态总体) 有所偏离的时候得到“不算太差”的结果稳健的参数判别方法如线 性或二次判别分析可参见文献( e g c h o r k 和r o u s s e e u w ,1 9 9 2 ;h a w k i n s 和m c l a c h l a n 1 9 9 7 ;h e 和n n g ,2 0 0 0 ;h u b e r t 和v a nd r i e s s e n ,2 0 0 3 ) 他们建议用位置参数和协方 差阵的稳健估计,m 一估计量、s 一估计量和m c d 一估计量等,来代替传统的样本均值 和方差的估计,从而得到稳健的判别分析的方法。在第四章中,我们新定义了推广的 2 山东大学博士学位论文 投影深度函数( e x t e n d e dp r o j e c t i o nd e p t h ,e p d ) ,基于e p d 我们给出了一个稳健的 非参判别方法 很多文献讨论了传统估计方法( 最大似然方法,矩方法) 的稳健版本,例如,h u b e r ( 1 9 8 1 ) ,m a r t i n 和y o h a i ( 1 9 8 5 ) ,k i i m s c h ( 1 9 8 4 ) ,l i n 和c h e n ( 2 0 0 6 ) 等等然而,他们 几乎都是考察具体的问题或者专门的模型。在第五章中,我们讨论了如何使拟似然理 论框架稳健化,这将会有更加广泛的应用。k u l k a r n i 和h e y d e ( 1 9 8 7 ) 讨论过类似的问 题,但是他们构造的估计函数空间的维数的阶数是n 2 ,如此之大,因而在实际中难以 应用。 1 2 协变调整模型 1 2 1协变调整的线性模型 下面我们将介绍与“混杂了同一个协变量的数据”相关的一个数据例子及相关的 统计模型。 纤维蛋白原在血浆中的浓度是心血管疾病的一个危险信号,并且该浓度会随着炎 症的发生而增加,因而纤维蛋白原是一类急性时相蛋白。在考察透析病人的各项生理 指标时,人们往往很关心该时相蛋白水平和血清铁传递蛋白水平之间的关系( k a y s e n e ta 1 2 0 0 3 ) 而这两类蛋白的水平都会受到同一个协变量一一b m i 的影响,b m i = 体 重身高。换言之,这两类蛋白的真实水平是不可观测的,人们观测记录到的是混杂 了b m i 后的数值。医生通常的做法是用个体特征b m i 的观测值去除跟个体特征有关的 测量值( 两类蛋白的水平) ,借此以消除个体的影响尽管这样的处理方法很简单直接, 精确度很差,但是仍然给了我们一个有用的信息,那就是“扭曲”与可观测的数据之间 是一个乘法的关系。我们关心的是两类蛋白的真实水平之间的关系 受上述问题的启发,s e n t f i r k 和m i i l l e r ( 2 0 0 5 ) 提出了协变调整的线性模型( c o v a r i a t e - a d j u s t e dl i n e a rr e g r e s s i o n ,c a l r ) 如下:把考察两个变量之间的关系推广到考察多个 变量之间的关系,把扭曲函数由恒等函数( 医生的做法) 推广到未知的平滑函数, ly = z o + :墨屏+ , 矿,雾 2 m i 墨= 办( u ) 墨,r = 1 ,p , 其中y 是不可观测的响应变量,x = ( x 1 ,) 丁是不可观测的设计向量,y 和 墨是实际上能够观测到的变量,砂( u ) 和办( c ,) 是未知的扭曲函数,u 是可观测的协 变量 3 山东大学博士学位论文 我们用一个简单的回归模型来说明扭曲的影响。假设有如下模型 y = 3 + x + 。 其中一n ( 0 ,0 1 2 5 ) ,x m ( 2 ,1 ) 。另外,假定混杂变量u u n ( 1 ,7 ) ,满足可识别条 件的扭曲函数为砂( u ) = ( u o 5 ) 2 1 5 2 5 ,( 己厂) = ( u + 1 ) 2 2 s 对于y 和x 分别从 相应的分布中抽取5 0 个样本。从图1 1 ,我们看到左边图中的拟合的直线非常接近于 真实的直线,然而右边图中的拟合的直线偏离真实直线很远混杂变量的出现从本质 上改变了y 和x 的关系,因而进行适当的调整非常必要 f i t t i n gf o rc o n f o u n d e dd a t a 图1 1 在第二章中我们将主要考虑的是c a l r 模型中的参数推断问题。 1 2 2 协变调整的非线性模型 下面我们给出与“混杂了同一个协变量的数据”相关的另一个模型 肾小球过滤速度( g l o m e r u l a rf i l t r a t i o nr a t e ,g f r ) ,传统认为,是衡量健康人群和 患病人群的肾功能的最好的综合指标。g f r 的测量方法有两种:内源性过滤标记的清 除率( 如,血清和尿素) 和外部标记的清除率( 如,菊粉,碘海醇和碘酞) 外部标记的 清除率被证实为是通过频谱技术测量g f r 的非常有效的做法然而,在临床应用中, 由于该方法的难于操作和昂贵的费用,临床医生更倾向于通过血清肌酐浓度( s e r u m c r e a t i n i n e ,s c r ) 来估计g f r 由于g f r 和s c r 之间是非线性的关系,现存文献通过 对变量s c r 做不同的变换发展了很多估计g f r 的方法,最有名的是( a n d r e w s l e ta 1 1 9 9 9 ) 在m d r d ( t h em o d i f i c a t i o ni nr e n a ld i s e a s e ) 研究中得到的。另外,我们 知道变量g f r 和,s c r 都与体表面积( b s a ( m 2 ) = 0 0 0 7 1 8 4 牢k 9 0 4 2 5 术a m n 7 2 5 ) 相关 另外尽管g f r 和b s a 之间的关系是非线性的,医生通用的调整方法对g f r 的调整 4 山东大学博士学位论文 也只是用调整之前的g f r 除以b s a 然后再乘上1 7 3 。s c r 和b s a 之间的关系也是 非线性的因而通过消除b s a 对于g f r 和s c r 的非线性效应,可以改善变量g f r 和s c r 的回归关系的估计,从而可以通过s c r 更好地估计g f r 。受此启发,c u i ,g u o , l i n a n dz h u ( 2 0 0 8 ) 建立了下面的模型,称为“协变调整的非线性回归模型”( c o v a r i a t e a d ju s t e dn o n l i n e a rr e g r e s s i o n ,c a n l r ) : fy = f ( x ,p ) + , y = 矽( u ) y ( 1 2 2 ) 【x r = 办( u ) x r ,r = 1 ,口, 其中y 是不可观测的响应变量,x = ( x 1 ,蜀) 丁是不可观测的设计变量,卢是未 知的取值于紧的参数空间ecr p 的p 1 向量,f ( x ,p ) 是x r q 和卢r p 的形 式已知的连续函数,y 和墨是实际观测到的变量,砂( u ) 和办( u ) 是可观测的混杂变 量u 的未知的扭曲函数 我们用下面的例子来说明混杂变量对非线性回归的影响: y = 眺e x p ( 一8 2 x 、+ 。 关于e ,x ,u ,砂( ) 和( ) 的假定与1 2 1 中的假定一致。参数取值为卢1 = 1 5 ,2 = - 0 2 对于y 和x 分别从相应的分布中产生5 0 个样本图1 2 中左边的图表明当拟 合的是真实数据时,非线性拟合效果很好;当拟合的是被混杂之后的数据时,非线性 拟合的曲线与真实曲线偏离很大可见,混杂效应可能掩盖y 和x 之间真实的关系, 因而有必要进行适当的调整 f l t t i n gf o rc o n f o u n d e dd a t e 本论文中主要考察参数p 的点估计和置信域的构造。 山东大学博士学位论文 1 3 投影深度函数,判别分析和最优估计方程 1 3 1投影深度函数 数据排序在很多数据分析中都扮演着重要的角色。对于一维数据,人们可以根据 观测数据的大小来对数据进行排序,用排序后得到的中位数( m e d i a n ) 来估计数据分 布的位置参数,极差( r a n g e ) 可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论