(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf_第1页
(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf_第2页
(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf_第3页
(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf_第4页
(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(概率论与数理统计专业论文)纵向数据下半参数模型估计的大样本性质.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 半参数回归模型是二十世纪八十年代发展起来的一种重要的统计模型这种 模型既含有参数分量,又含有非参数分量,它可以概括和描述众多实际问题,比 单纯的参数和非参数回归模型更接近于实际,更能充分利用数据中提供的信息 兼顾了参数回归模型和非参数回归模型的优点,比单纯的参数回归模型或非参数 回归模型有更大的适应性,并具有很强的解释能力 由于纵向数据在生物学和经济学中有着广泛的应用,因而近年来对纵向数据 的研究已成为统计学上的热点课题之一特别是国外统计学者在这方面的工作尤 为突出,在理论和应用上都得到了许多有用的结果 纵向数据是指对每一个个体在不同时间进行观测而得到的由截面和时间序列 融合在一起的数据纵向数据的最大特点就是将截面数据和时间序列数据结合在 一起,既能分析出个体随时间变化的趋势,又能分析出总体的变化趋势由于同 一个体在不同时间进行熏复观测,而且个体间又存在一定的差异从不同个体间 获得的观测值是独立的,而对同一个体的重复观测值是相关的从而导致了对纵 向数据建模时协方差结构的复杂性 考虑如下的纵向数据半参数回归模型;= 码卢+ g ( 巧) + 锄,t = 1 ,n , j = 1 ,m ,其中和( 鼍j ,) 是第i 个个体第j 次观测的响应变量和协变量, ( j ,) 擗 o ,1 】是随机变量,卢是p 维未知回归参数,9 ( ) 是未知光滑函 数,是均值为。且方差有限的随机误差,与( 墨,) 相互独立,从不同个 体问获得的观测值是独立的,而对同一个体的重复观测值是相关的 本文在纵向数据下研究了半参数回归模型中参数分量和非参数分量的估计及 其大样本性质对非参数分量采用局部线性拟合的方法来逼近,该方法比通常流 行的核方法有很好的性质对参数分量的估计分别采用了最小二乘估计和p r 曲l e i 一 北京工业大学理学硕士学位论文 加权最小二乘估计方法在适当条件下分别给出了这些估计量的相合性和渐近正 态性最后,采用交叉核实准则选择光滑参数通过蒙特卡洛模拟研究表明了, 在有限样本情况下,p r 0 6 l e 加权最小二乘局部线性拟合方法比最小二乘局部线性 拟合方法有较好的性质 关键词:纵向数据,半参数回归模型,p r 0 龇加权最小二乘估计,相合性, 渐近正态性 一i i a b s t r a c t a b s t r a c t a8 e r n i p 盯a m e t r i cr e 拶e s s i o nm o d e lh a sb e e nd e v e l o p e da ni m p o r t a n ts t a t 诲 奄融掘日d 蘸鲢n c e1 9 8 。s 髻圭l i s 弛纛o fm o d 砖i 珏蠢u d e sn 蘸o 鲑yap 艇拯砖疵e o 珏卜 p o n e n tb u 七a l s o 巍n o n p a r 毡m e t r i cc o m p o n e 工l t al o to f8 c t u a lp r o b l 凹1 se a nb e d e 8 c r i b e dt h r o u g ht h i 8m o d e l t h ei n f o r m a t i o no fd a t ac a nb e1 1 8 e d 觚1 y a n di t 至$ m o r e 屯r 毽e 谯8 瓢p a r m e t r i em o 畦岛s 龋d 鞋o n p a r 蛐e t 砖er e 擎e 8 s i o 琏m o d 如s o 地h a st h ea d 瑚七鹕e so ft h ep 蹦蝌l e t r i c 豫g r e 8 s i o nm o d e l 毡n dt h en o n p 默a m 幽| c r e g r e 8 s i o nm o d e l i 七h a s 七h em o r ei i n p l e m e n t 8 龇ds t r o n g e te x p l a n a t i o n 8t h a n p u r ep 躺黼e 毫r i e 档n o 珏p 辩鑫越e t r i er e g r e 黼i o nm o d 琏 m 甜拶s t a t i 墨蜕i a 融8h a 勰b e e ni n t e r 龉纽d 瓤1 锄圆屯u d i n 越d 8 土8b e e a 强8 ei t 舭i s ef r e q u e n t l yi nb i 0 1 0 9 i c a la n de c o n o 诚ca p p l i c 舭i o 工l s e s p e c i 砒1 y m a n y0 ft h e f o r e i g ns t a t i s t i e i 8 n s 盯eo u t g t a n d i n gi 珏l o n 瘿七u d i n 8 l 幽毒a8 t u d i e s8 n do b t 拽i nm a n y o f 氆咖lr e s u l t s 蛾t b e o r y 瓤遗8 p p l i c a t i o 敏r e ( 艘1 t 坶 l o n 群t u d i n 融d 扫止ai 8r e f e r r e dt od a t ai nw h i c hi n d i v j d u m s 甜em e 鹪u r e dr 昏 p e 曲e 出yt h r o u 曲t i i n e ,s oi tc o m b i i l e se l e m e n t so fc r 0 8 争8 e c t i o n a ld a t aa n dt i m e _ 8 娃i e sd 氇毫a 霹l e 搭。瑾运蝌媾8 矗碱姆o f 娩g 诹越i a 虹d 差嚏8 呈st h 懿挂a 建姚a 1 弦e e 妊b c t i v e l yt h ed l a n g eo fi n d i v i d u a l s0 、,e rt i m e it h em e 8 8 u r e m e l l t 8a f e8 s s u m e dt o b ei n d e p e n d e n tf o rd i & r e n ts u b j e c t sb u tc 姐b ec o r r e l a t e da td 潞e r e n tt i m ep o 主工l t 锻t 基遗e 拽凌髓毯e c 毛,8 0 七疑e 铡敞i 黼c es 妇u e t 毽e l 强g i t 毽穗n 羹d 或ai so 。撼p 嚣姆e d b yr e p e a t e dm e a 8 u r e m e n tw i t h i ni n d i v i “da n d 、w i a 七i o n 唧o n gi n d i v i d u 出 w bc o 工1 8 i d 猷t h es e m i p a r a m e t r i cr e 斟e 8 s i o nm o d e l 蠡ml o n g i t u d m 出d a t a = 磁多窖( ) ,l = l ,礅j = l ,辩,w 妇e 珞繇d 蕊,) d 檄。t e 粕 ,t ht h er e s p o n s ev 甜i a b l e ,c a 豫r i a t ev e c 七o r 柚dt i m ed e 8 i g np o i 妇,r e s p e c t i v e l y i i i 。 a b 8 t r a 出 o ft h e t hs u b j e c t ( j 白,) 帮 o ,1 1 黻er a n d o mv a r i a b l e ,pi 8ap v e c t o r 娃n k 珏嘶礓r e g r e s s 呈。觳p a r 瓣e t e r ,9 ( ) 涛8u n k 黩蝴ns m o 躐h 蠡m e t i o 珏。 是 8 r e m e 擀。驵d 硒七e 谢i 撇c eo f8 t o 矗8 s 越c 删溅勰d ( 岛,) i n d e p e n d e n t , m e a 8 u r e m e n t 8 趼ea s s u m e dt ob ei n d e p e n d e n tf o rd i 矗e r e ts u b j e c t sb u tc a nb e c o r r e l 砒e da td 赶e r e n tt i m ep o i t 们t h j ne a c h8 u b j e c t 1 琏t 毯sp 8 p e r ,娥筑硅努瞧e 髓t 戳i o 粥p 越8 礤蘸f 量c 瀚p 鼬e 珏8 e d 珏。批 p 龇a m e t r i cc o m p o n e n ta sw e l l8 st h e i r1 黜g es 8 盯l p l e 8p r o p e r t i e 8i nt h es 锄i p a r 舡 m e t r i cr e g r e 器i o nm o d e lf o r1 0 n g i t u d i n “d a t a f b rt h en o n p 缸a m e t r i cc o m p o n e n t , w eu s et h em e t h o do fal o c a ll i n e a r 矗t t i n g t h em e t h o dh a 8a 砖v 爵础a g e 。唧e r 。t h 麟p o p l l 辩珏疆e 圭m e 毫敦o d 。t w o 氆e t b 惑ln a m e l y 薹e 8 s ts 辨黼e se 蘸融鑫专。r 强d p r o 触ew e i g h t e dl e a 8 ts q u 躺e se s t i i n a t o r 时ep r o p o b e df b re s t i m a t i n gp 盯a m e t r i c p o n e n ti nt h ec o ”e 1 砒i o ns t r u c t u r e u n d e rt h es u j t a b l ec o n d i t i o l l 8 ,删p _ t o t l cp r o p e r t i 船o ft h er e 8 u l 专i b ge s t i m 8 t 8 拽r e s t a b l i s h 葩 8 h 漱瓣c o n s i s t e 丑c y 8 矬d8 s y m p t o t i en o r m 躺移f i n a 珏y ,ae r 。汾谢i d a 乇主。咀r i t e 西o n 主gp r o p o s e df o r 毫k s e l e c t i o n0 ft h ec o r r e 8 p o n d i n gs m 0 0 t h i n gp 觥撇e t e r s f i n i t 争g a m p l ep e r f o r m a n c e o ft h ep r o e e d t l r e si 8a s s e 8 8 e db ym o n t ec a r l o8 嫩m l a t i o ns t u 出e 8 e 8 p e c i a l l y jt h e r e 蓦鬏l t i 蕺ge 蘸殛鑫t o r s 量l 躺藏i c e 举o p e r t e sb y 黼涎电沁p r o 鲑e 褫鬈激e 莲觚专s 翠缸e 8 a p p r o a c h k e y w o r d s :l o n 西t u d i n a l 出l t a ,8 e m i p a r a m e t r i cr e g r e 蚪i o nm o d e l ,p r o 丘l e w e i g h 七e dl e a 8 t8 q u a r e 8 ,c o n 8 i s t e 碍够瑚p t o t i cn o h n 虹i t y 。 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表和撰写过的研究成果,也不包含为获得 北京工业大学或其他教育机构的学位或证书而使用过的材料,与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 弦6 ,6 - z 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后应遵守此规定) 日期; v 锄6 _ 第1 章绪论 第1 章绪论 11 半参数回归模型及其研究现状 半参数回归模型是二十世纪八十年代发展起来的一种重要统计模型,此模型 介于参数回归模型和非参数回归模型之间在不少实际问题中,要考察对象y ( 响 应变量) 同影响y 的因素x ( 解释变量) 之间的关系对于传统的线性模型,当 假设模型成立时,其推断有较高的精度,但当参数假定与实际背离时,其拟合效 果就很差若采用非参数模型去处理,则有可能会丢失由已有经验或历史资料提 供的信息,为了充分利用数据中提供的有效信息,因而将两者有机的结合起来, 即采用半参数回归模型这种模型既有参数分量卢,又舍有非参数分量9 ( ) 在理 论上,处理这种模型的方法融合了参数回归模型中习用的方法和较近发展起来的 非参数方法,但也并非这两类方法的简单叠加总之,可以认为其复杂性和难度 都超过了单一性质的回归模型在应用上,这种模型可描述许多实际问题。比单 纯的参数模型和非参数模型有更大的适应性例如在生物学、传染病学、森林、 经济学和遥感等领域有着广泛的应用而这种模型的优点是集中了主要部分( 即 参数部分) 的信息,又保持了模型的灵活性因此,该模型不但有较强的解释能 力,而且有很大的适应性随着该模型在理论和方法上的日益成熟,必将有更广 阔的应用前景 半参数回归模型发展至今,在解决实际问题中,实际工作者和学者们提出了 许多类型的半参数模型下面主要介绍两类重要的半参数模型,这两类模型都有 其实际的意义 半参数模型( i ) 若影响y 的因素( 解释变量) 可以分为两个部分,即t ,。,z ,及t ,t 。, k + g = ) 根据经验或历史资料可以认为因素z 1 ,z 2 ,是主要的,而且y 与z 1 ,勋,唧是线性的,而t l ,t 2 ,如则是某种干扰因素( 或者看作是协变 量) ,它同y 的关系是完全未知的而且投有理由将其归入误差项因此,一类半 参数模型具有如下形式: k = 卢十g ) + 岛,t = 1 ,2 ,- 一- ,n ,( 1 1 ) 其中日= ( z n ,z 咖) 7 ,卢一洒,岛) 7 ,1 ) ,慨,t t ) 是相互独立同分布 ( i i d ) 的随机设计或固定非随机设计点列,e 是i 1 d 随即误差,且e e t = o , ( i id ) 的随机设计或固定非随机设计点列,b 是i i d 随即误差,且e e = 0 , 1 托京王韭大学理学硕士学位论文 e e ? 。o ,9 ( t ) 是定义在闭区间【o ,1 】上的朱知黼数,p 是朱知待估参数 半参数模鳖( i i ) 若影穗y 懿鑫寨x 鼍戳分秀鼹夺部分:线往帮努嚣 # 线经帮分也魏楚根 据经验线历史资料可以认为x 线性的影响y 但是,x 影响y 还存在非线性 部分和随机因索,鬯同y 的关系是究全未知的,同样没有理由将其归入误差项, 霹两将英考虑避去作势遥警调整。 m z i 茚十9 ( 搿t ) + 龟,t 一1 ,2 ,m( 1 2 ) 其中一( 彰m ,茁伽r 是随机或固定设计点列,卢一( 胁,绋) 7 ,( p 1 ) ,e t 怒注d 涟撬误差,显e 龟= o ,e 8 o 。,吠t ) 懋定义在擗上豹采籍蹲数,多是 未知待健参数霞当筑是随戡设 十点列黔,器假设茹t 积敝相蔓独立 模溅( i ) 和模毅( i i ) 让各部分“各尽其职”,既可弥补非参数回归模型的不 砖,又能发撵参数阐妇模登的优点,并充分莉用数据中所毹含的信怠,具有很强 懿鼹器悲杰 半参数凰归模越是一个浅雀发璇中的领域。目前所取得的成皋不鼹认为是最 终的对于半参数回归模型的研究目前仍集中在大样本性质上研究的基本问题 大致有黻下丸点; l 。淫羟参数多熬提合嫠计 这疆有两个基本问题,一是在t 卜么条件下,给定的估计是楣合的? 尤其感兴 趣的是,在什么条件下给定的估计是、丽一相合的? 二是猩什么条件下,参数存 在裙合信幸 ? 2 圆 暑参数筘及误差方熬盯2 接诗的濒近性 这主要包括:收敛速度,渐近分布,b e r r 鼢e 蟠e e n 界限等等关于渐近分布 燕研究在仔么条件下,所构造的估计是渐近正态的,也是瞬前文献的研究热点 掰谣b e 站争酗s e 暾券限实凌是吴春藩近委态酶稳诗豢囊歪i 答遥耋凌戆逮波极激+ 特 另4 是能否达到o ( 熹) 这一理想界,这在线性隧归的情况融证明是成沩的现在 模型有了非线性干扰,逸一性质能静继续保持,自然是值得关滋的问题与此相 关盼另一| 霹麟是西潜参数声的信计声盼渐近有效性这涉及蓟辩何秘造声酶语 谤,捷其效皋与当攘型黪 # 参数分爨已知豹情形在濑近意义下一撵好特别是如 何构造一个卢的渐近正态估计,使其具有最小的渐近协方差阵 2 , 。 第1 章绪论 3 回归参数p 估计的稳健性 这是h u b e r 提出的一个重要概念直观上说,当假设模型与实际相符时具有 良好的性质;而当与实际稍许偏离时,其性能所受影响也较小;在与实际发生严 重偏离时,其性能也还过得去在线性回归情形中已经证明m 估计作为一种稳 健估计具有良好的性能那么在出现非线性干扰时,m 估计是否仍然继承这种 性质 4 回归参数估计卢的近似置信域 要想获得回归参数估计p 的置信域,通常需要考虑回归参数卢估计的渐近 正态性,而往往要求我们得到回归参数卢估计的渐近方差 5 非参数回归函数g 的估计量查的收敛速度 非参数回归函数g 在选取具体的非参数方法。例如核估计法、近邻估计法、 局部多项式估计等方法下,构造得到的估计量争的收敛速度,主要是最优收敛速 度n 一南( r 表示夕的光滑度) 它的条件是什么? 下面就前面所提到的两类半参数回归模型的研究成果作简要介绍 对于模型( i ) 的研究,自e n 酉e ,e ta l 【1 1 在研究气候条件对电力需求影响这一 实际问题提出以来,目前文献已有一大批研究成果在( 趣,氐) 是i i d 随机子样 的情况,文献中对该模型参数分量卢和非参数分量g 的估计问题做了一些研究, 大都是综合了参数和非参数的方法其中参数的方法多为最小二乘法,所不同的 是非参数方法 h e d 口【i l a n 【2 】、m c e 【3 】、c h e n 【4 】和g a d 【5 】等学者先后讨论了当9 的估计分别取样条估计、核估计、近邻估计时卢的估计量的渐近正态性,强弱收 敛速度及渐近有效性研究的重点是设法在自然合理的条件下获得卢的估计量 的参数性质的最优收敛速度n _ 1 2 和9 的估计量的相合性及其最优收敛速度其 中条件主要施加在黾和厶的随机依赖关系,非参数分量g 的光滑性质以及具体 的非参数方法的构造上 有关1 9 9 4 年之前的研究成果大部分已收集在柴根象、洪圣岩【6 】的专著中 大部分工作都假定 她 和札) 均为随机变量高集体【1 等、胡舒合【8 】、陈明 华【9 】等都假定 甄,屯) 为固定设计柴根象【10 1 等研究了 观 为固定设计且仇) 为随机变量时卢和g 的估计问题在现有的研究工作中都要求e 1 ,为i i d 误差序列 3 北京工业大学理学硕士学位论文 大家知道,基于最小二乘法得到的估计是不稳健的假设g ( ) 为m 阶连续可 导且其m 阶导数满足指数为r o ,1 】的h 6 1 d e r 条件h e d 【i n a n 【2 】利用分段多项 式逼近方法得到了卢和g 的一类较为稳健的m 估计卢和如,在一定条件下,证明 了p 具有渐近正态性,并得到了良和如的弱收敛速度o p ( 礼一( ”+ ) 【2 ( “州+ ”) 在 一定条件下,薛留根1 1 1 1 构造了声的随机加权m 估计量卢+ ,并证明了、瓦( 矿一卢) 的分布是渐近有效的,而且该结果可以用于构造卢的大样本置信区间和进行卢的 假设检验并得到了声和甄的强收敛速度d ( n 一( ”+ 7 ) 他( ”+ 7 ) + 1 】) 1 2 纵向数据简介 “纵向数据”是指对同一个体或者受试单元在不同时间观测若干次而得到的 由截面和时间序列融合在一起的数据近年来,纵向数据模型的研究已成为统 计学的热点课题之一,在理论和应用两方面都得到了很大的发展 h s i a 0 【1 2 】和 b “t a g i 【13 】讨论了纵向数据在经济学中的应用在经济学的研究中,纵向数据有 时也称为“p 眦8 ld a t a ”d i g 西ee tm 【1 q 系统的介绍了纵向数据的线性模型,广 义线性模型,边缘模型和随机效应模型等理论d a v i d i a n 和g i l t i i l a j l 【1 5 1 研究了 纵向数据的非线性模型理论d 舶1 1 6 】也对纵向数据的线性模型进行了研究,并 通过大量的实例说明了其应用 纵向数据在实际中的例子很多,它广泛出现在医学,生物学,社会学和计量 经济学等领域中如我们要研究儿童的身体发育状况( 如身高,体重等) 随年龄 增长的趋势,我们可以随机抽取一些儿童作为研究对象,在不同时间对其身体发 育状况进行测量,这样我们得到的就是纵向数据又如儿童阅读能力随时间变化 的趋势再如,在研究我国城镇居民消费和收入的关系,2 0 个省份2 1 年城镇居 民人均生活性消费和人均可支配收入的数据也为纵向数据 纵向数据的应用如此广泛,这是由纵向数据的特点所决定的纵向数据是对 观测对象中的每个个体按时间顺序重复观测而得到的,它将截面数据和时间数 据结合在一起,能很好地分析出个体随时间变化的趋势,同时又反映了个体问的 差异以及个体内的变化趋势起着只利用截面数据或只利用时间序列数据模型不 可替代的作用,有很高的使用价值例如我们要研究儿童的阅读能力的情况我 们随机地抽取若于名儿童,观测这些儿童在不同年龄段阅读能力的情况随着年 龄的增长,每个儿童的阅读能力均有所提高,但是每个儿童在我们首次观测时的 阅读能力却不相同,有些儿童在年龄较小时的阅读能力反而比有些儿童在年龄较 d 第1 章绪论 大时的阅读能力还要强也就是说,纵向数据不但考虑了个体间的差异( 初始的 阅读能力不同) 同时也考虑了个体内部的变化( 阅读能力随年龄的增长而不同程 度地提高) 但是,如果我们对此数据采用截面数据的方法进行分析,就忽略了儿 童的初始阅读能力,从而使得分析出的结果有可能与实际情况不符再如,分析 我国结构性失业问题,它不但受各地区产业结构的影响,而且也受到国家在各个 时期宏观政策的影响若只利用截面数据,即选择同一时间不同地区的数据作为 样本观测值,可以分析出各个地区不同的产业结构对结构性失业的影响,但是不 能分析出国家的宏观政策对各地区结构性失业的影响若只利用时间序列数据, 即选择同一地区在不同时间点的数据作为样本观测值,可以分析出国家的宏观政 策对结构性失业的影响,但不能分析出不同的产业结构对结构性失业的影响如 果采用纵向数据模型,即在不同的时间选择不同的地区的数据作为样本观测值, 不但可以分析出不同的产业结构对结构性失业的影响,而且也可以分析出国家的 宏观政策对结构性失业的影响纵向数据的另一优点就是提供给研究者大量的数 据点,不但增加了自由度,而且减少了解释变量之间的共线性,从而能够改进估 计的有效性 纵向数据不同于一般意义下的多元统计数据在多元统计分析中,对每个个 体的观测都得到一个响应向量,这个响应向量是同一个体多个指标的一次观测得 到的向量,并无重复的含义而纵向数据是对每一个体在不同的时间进行多次重 复地观测而得到的一组响应向量,对不同个体进行观测时获得的响应向量是独立 的,但是对同一个体在不同时间观测获得的响应向量却是相关的,从而导致了纵 向数据协方差结构的复杂性因而对纵向数据的研究方法不同于以前的独立同分 布的情形,对纵向数据的研究在方法上有待于进一步创新 1 3 纵向数据下半参数回归模型及其研究现状 既然纵向数据在社会生活中的应用广泛,其建模也经历了从线性模型等参数 模型到非参数模型再到半参数模型的发展过程现以纵向数据半参数模型的一般 形式为例来进行说明现有m 个个体,其中第i 0 = 1 m ) 个体有m 次观测试 验,每一次观测由响应变量,协向量及相应的观测时刻幻构成,不失一般 性,我们可以假设t 【o ,1 ,记所有观测值为集合 ( z 巧,如) ,汹1 ,m j = 1 ,地) 一5 = 窳工监大学理学硬士学位论文 并对数据集建立半参数模烈 s 皤= g ;声+ ,( 幻) + , ( 1 3 ) 冀中黟爨爹维来辩嚣缮系数囊量,是来辩跫潜函数,箍均缀匆o 方差有袋 的随枕漠差过程这样的举参数模型不但保持了非参数模型的灵满性,同时也保 持了参数摸型的解释能为,因而该模型及其推广形式最近已经越来越受到重视 根据纵向数据的特点,一般假定个体间的随机谈差相互独立,个体内的随机误差 存在莱葶争壤关结构 禳獾串兹线往部分翔瓣了菜耪密变量静镶菝,瑟菲参数郝务粼粼蕾了勇一些 协变擞的特征性质,这样该模型更加符合客观察际很多统计学者已经针对模型 ( 1 3 ) 的某些方面作了大避的研究工作如果q e 参数部分,已知或者在模型中没 有这顶,则有大量的文献研究了高斯误差假设下的重复测量数撼的线性模型的 统诗攘羝,l i 勰g 移z 罐黻f 1 又进一步将误憨分带= 臻广到蓿数蘩分带族,著量建 立广义话计方程蠢纂,寒麓毽菠有重复瀚溺,帮魄兰l ,瞧藏怒嚣e & m 8 翻 和s p e d 鼢8 n 【1 8 1 等研究的部分线性模型 纵向数据常具有很高的不稳定性,主要悬由于数据的收集不规则或无规律性 和可熊个体的特定的时点因而很难直接运用传统的多元回归方汝分析这样的数 据,辩缴怒数据努辑邑缀发袋劳提出了不嚣戆参数模型秘统计工舆魏缴良数据 分橙。缀离数舞线往瀛舍摸蓬等,参数摸螫 辩分褥纵良绞据强有蘑,蕊豆为睫应交 量和它的协变量两者之间的兼系提供一个简单明了表达式,但在使用时确实存在 引入模毅偏差的风险若隳放松关于参数形式的一些假设,对纵向数据分析提出 各种不同的非参数模型。包括变系数模型,泛晒线性模型以及它们的推广延伸 如王壬o o v 8 r 等嗍对缴意数摄交系数摸垄弱燕嚣参数光漕镳诗方浚避蟹了分荣。 讯,g 赫8 丑g 帮 b 。v 贫赫1 l 对缴商数据交系数摸鍪; l | 霜棱光浮静铸计方法迸行了 分析,并给出了渐近最信域f a n 和z h 州运用泛函线性模溅的两步估计的 方法来分析纵向数据,等游从已有的研究结果来看,参数模烈襁应用范围上有 所限制,雨非参数模型与参数模型相比非常灵活丽不能得出简单嬲了的结论然 露半参数横鍪是稷好懿贽凌晨保骜了参数嚣 # 参数嚣耱模型竞好瓣特佳。 巍璃应变量关于薅溯耩啻麴存在菜静菲线慷荧系时,半参数模鍪f 1 对纵怒簸 据的 辨究非常有用 z e g e r 平d i g g l e i 勰 采用一种迭代算法( i t e r 舭i 、,ea l g o r i t h m ) 估计,( t ) ,使用后移方法( 铋eb a c k 矗t t i n gm e t h o d ) 估计卢并将这个纵向数据分 。6 第1 章绪论 析方法应用在防治艾滋病的研究中估计感染病人体内c d 4 细胞数随时间变化的 趋势m o y e e d 和d 培g l e 【2 4 | 对z e g e r 和d i g g l e i 2 3 】的方法作了改进,并给出了这 种估计的收敛速度l i n 和c a r r 0 1 l 通过利用具体的均值和方差函数考虑了纵向 数据的边缘模型,对p r o m e 核方法( t h ep r o m e _ k e r n e l ) 进行了改进并提出了核 广义估计方程的方法当参数协变量和非参数协变量不独立时,l i n 和c a 盯o u 研究表明使用局部多项式核方法不能得出半参数的有效估计l i n 和c a r r o l l 在 工作相关阵的选取上也做了一些研究,即当选用的工作相关阵等于实际相关阵的 逆时,可得到参数部分和非参数部分的最优估计,见文【2 5 ,2 6 ,2 7 】 h e ,z h u 和f u n g 【2 8 1 等在未知的相依结构( 即关于回归参数误差分布和协方差 结构未知) 情况下,采用回归样条逼近非参数函数并获得最优收敛速度,线性部 分采用m 一估计算法得出了相合估计及大样本性质钱伟民【2 9 】在 $ 甜) 为固定设 计点列, 幻) 为随机设计点列情形下利用柴根象等提出的二阶段估计方法研究 该模型的估计问题,并在一定的条件下给出了这些估计的强相合性孙孝前m 】 等提出了关于参数分量的一种迭代加权偏样条最小二乘估计,在渐近方差意义下 该估计比加权偏样条最小二乘估计更加有效,且具有渐近正态性f 缸和l i 【3 1 】 对该模型的回归系数提出了两种新的、简单的、可靠而有效的估计方法,即差分 估计( d i f f e r e n c e - b a s e de s t i m a t o r ) 和p r o 丑l e 最小二乘估计( p r 瓶l el e a 8 t8 q u 盯e 8 e s t i i n 论意义,而且也具 有很高的应用价值这是由于纵向数据来源 于实际,收集的数据不但反映了个体 间的差异,同时也反映了个体内的变化趋势纵向数据来源广泛,应用也更广泛, 在应用方面国外学者做得好一些,但在应用方面我们还有很多工作要做另外我 们所选的半参数模型也有很好的性质,兼顾了参数模型和非参数模型的优点,也 就是说它不但保持了非参数模型的灵活性,而且还具有很强的解释能力有关半 参数模型的理论研究相对成熟,但是那些理论并不能直接套用到对纵向数据下半 参数模型的研究中去原因在于以前使用半参数模型分析的数据大多是独立同分 布的情形,协方差结构简单,协方差矩阵一般是对角阵而现在研究的纵向数据, 组间独立,组内相关,从而有相对复杂的协方差阵结构因而在对纵向数据半参 数模型研究的同时不但要注重理论的创新, x 第2 章纵向数据下半参数回归模型的估计 定理3 - 2 在模型( 2 1 ) 中,在定理3 1 条件下,且鼍e e 0 。,则有 砚s 上盯2 ,n _ o 。 ( 2 1 9 ) 注1 条件3 1 3 6 是研究非参数回归估计最优收敛速度所施的基本条件, 因而为处理模型( 2 1 ) 中的非参数分量是必要的其中条件4 保证了函数g ( ) 的 泰勒展式中的余项有界,条件3 4 、3 5 、3 6 表明9 ,9 y 和奴k 都是t 的有界 函数 注2 若取p = o ,则w 舀( t ) = ( 码一t ) j “( 一t ) 即为通常的权 t j 函数 2 3 3 定理的证明 在证明定理之前,首先引入一些记号,再给出一些引理,随后给出定理的证 明过程 为在证明过程中表示方便 不同的地 ( ) 。, 以g 表示一个不依赖于凡的绝对正整数,但在 忙来表示矩阵a 的n o b e n i u 8 范数,即若a = 下文中出现的j 架,简记为s u p ,将。;兰廷,。 0 0 ) 的形式这样得到的窗宽有具 体的表达式,它的优点是有利于理论研究但在实际中,我们所假定的那些量往 往是未知的,如回归函数g ( t ) 正是所希望得到的,方差函数,密度函数也是未知 的因而在实际中使用这种方法确定出最优窗宽是困难的,但是这种方法在理论 上给我们提供了最优窗宽的基本形式 3 1 2 交叉核实法确定最优窗宽 m c e 和s i l v e 珊a n 【4 1 】提议在纵向数据的非参数均值曲线估计中窗宽选择采 用c v 标准,h 缸t 和w 赴1 y 【4 2 l 进一步验证了这个方法是相合的,使用这个方法 是一次去除一个个体的观测值进行估计,通过极小化g y ( ) 来得出最优窗宽 这种方法的优点是不依赖于数据的相关结构,便于在实际中操作使用,下面说明 一下具体的思想方法 首先对n 个个体进行观测获得相应的观测值,剔除第t 个个体的观测值后,对 模型中的未知参数p 和回归函数g ( t ) 进行估计并记为卢卜吲,互卜哪( t ) ,t = ,1 ,忆 然后计算g y ( h ) ,通过极小化a y ( ) 来确定最优窗宽 。t a y ( ) = 礼- 1 k 一置p 卜q 一参f q ( 正) ) 。2 t = 1 其中 。2 = 7 下面对g y ( 九) 进行分解,则有 ( 3 3 ) g y ( ) = 竹- 1 e 字2 + n 1 五( 磊一目一p ) ) 。2 + n _ 1 互h ) 一9 慨) ) 。2 i = ll = lt = l n 一竹- 1 磁( 白一日一p ) + 口【一目( 丑) 一g ( 正) ) i = l 一礼一1 五( 岛一q 一卢) + 卜日( 正) 一9 ( 正) ) 7 囟 t = l + n - 1 墨( 卢【一t 】一卢) ) 7 舀卜_ 目( 噩) 一9 ( 丑) ) t = l n + n 一1 互f _ 日( 五) 一9 ( 丑) ) 7 咒( 卢【- q p ) ) t = l ( 3 4 ) 选择最优窗宽九哦是在区间【6 - n - 1 5 ,6 2 n - 1 5 】内极小化g y ( 九) ,其中o 6 1 6 2 o o ( 3 4 ) 式右边的第一项与九无关不依赖于 ,右边的第二项与第三项 相比可以忽略,而且第三项后的其它各项收敛于o 的速度均比第三项快因而选 3 6 第3 章模拟计算 择窗宽准则是极小化g v ( h ) 渐近等价于极小化( 3 4 ) 式的第三项 礼一1 酢目( 正) 一9 ( 互) 。2 = n - 1 徘目( 码) 一9 ( ) ) 2 ( 3 5 ) 使用l i n 和c 盯r 0 1 l 【2 6 1 ,w a n g 【4 3 中的渐近偏差和渐近方差可证最优窗宽的阶 是几一 因而通过极小化( 3 5 ) 式求最优窗宽九印;与( 3 4 ) 式相比简化了计算量, 它仅依赖于观测值,选用的核函数以及所选用的估计方法,便于实际操作 3 2 模拟计算 本章主要采取随机模拟的方法,对本文的主要研究模型( 2 1 ) = 百卢+ g ( ) 十5 玎,i = 1 ,一,佗,j = 1 ,m 其中和( 托j ,码) 是第i 个个体第j 次观测的响应变量和协变量,( ,码) r p o ,1 】是随机变量,p 是p 维未知回归系数向量,9 ( ) 是定义在有界闭区间 【o ,1 】上的未知光滑函数,e ,是均值为。目方差有限的随机误差过程,即e ( 岛,) = o ,o v h ( 铀) = 盯2 o 。与( 鼍j ,) 相互独立,而且满足组间独立,组 内相关假设该模型的协方差结构是等相关结构,即对固定的j ( j = 1 ,m ) , e 1 ,j 相互独立,对同个 0 = 1 ,n ) ,e 弛= 盯 盯2 ,后j ,且m 是有界的正整数 3 2 1 参数卢的估计 在给定参数p ,函数9 和协方差结构情况下,进行模拟的方法步骤t a 取卢= 1 ,函数9 ( t ) = 1 + c d s ( 1 0 t + 7 ) ,协方差结构取y = 盯2 k ,其中 盯2 = o 2 5 ,0 5 ,0 8 ,1 等相关系数p 一0 7 5 = ( 1 一p ) k + p 1 。,这里的1 。 表示元索全为1 的m 阶方阵 b 随机数的产生正j ( i = 1 ,几,j = 1 ,m ) 服从【o ,1 上的均匀分 布,鼍j = 5 + a 邑,其中a 分别取o 5 ,1 b 一( o ,1 ) 随机误差 自f 一( o ,1 ) ,且同一个体间的随机误差的相关系数为o 7 5 则 = 粕+ g ( ) + ,江1 ,礼,j = 1 ,m 几分别取3 0 ,5 0 ,1 0 0 ,1 5 0 ,2 0 0 ,m 分别取3 ,4 ,5 3 7 j 窳王监大学理学硬士学位论文 a ,桉函数取k ( u ) 一o 7 5 ( 1 一u 2 ) + ,利用( 3 3 ) 选择的最优窗宽 耐,分别利 用最小二秉局部线性拟合方法和p r o m e 加权墩小二乘局部线性拟食方法得出p 镪镪谴套聚记3 0 s 18 p o d 傲重复 算,重复次效m = l o 次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论