已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在本文中,我们首先研究了连续时间下局部线性光滑回归估计的最优离 散化抽样给出了最优的离散化抽样方案,构造出局部线性光滑的估计量, 并证明了该1 卉计蕈的均方收敛速度可以达到经典的独立同分布时的收敛速 度0 ( n 一 ) 然后我们研究了当变量的观察带有误差时,抽样规则受到的影响 最后,我们对抽样规则做了数值模拟来进一步地说明我们的结论。 关键词:局部线性光滑估计,离散化抽样,不规则性- 带误差变母,分布的 光滑性,数值横拟 中图分类号:o2 1 2 7 ; 2 a b s t r a c t i nt h i sp a p e r ,f i r s tw eg i v eo u tt h eo p t i m a ls a m p l i n gs c h e m ef o rt h el o c a ll i n e a rs m o o t h e ri nc o n t i n u o u st i m e ,a n da l s ow ep r o v e dt h a tu n d e rt h i s s a m p l i n gs c h e m et h el o c a ll i n e a rs m o o t h e rw i l lr e a c hc l a s s i c a lr a t e so ft h e i i d c a s en e x t ,w es t u d ye f f e c t so fk n o w ne r r o r s - i n - v a r i a b l e so ns u c hs a m - p i i n gs c h e m e s ,a n ds t i l ld i s c u s st h er a t ew h i c ht h el o c a ll i n e a rs m o o t h e rc a n r e a c h e s l a s t ,t h r o u g h o u tt h ep a p e rw ed os i m u l a t i o nt oi l l u s t r a t eo n rr e s u l t k e y w o r d s :l o c a ll i n e a rs m o o t h e r ,d i s c r e t i z e ds a m p l i n g ,i r r e g u l a r ,e r r o r i n v a r i a b l e ,s m o o t h n e s so fd i s t r i b u t i o n ,s i m u l a t i o n c l cn u m b e r :02 1 2 7 3 第一章引言 回归分析是研究两个或者两个以上的变量之间相关关系的一种统计方法,是 最常用的统计方法之,在进行分析时常需要选择其中之为凶变量,其余的作 为自变量模型 y = m ( x 1 + s 是最常用的回归模型,其中m ( ) 是回归函数,e 表示误差,s 和x 是独立的划 于该模型的研究主要集中在对m ( ) 的估计及其性质的讨论一卜如果m ( ) 的形式己 知,模型被称为参数回归模型,例如最常见的线性回归模型y = x 口+ e 此时 对m ( ) 的估计就转化成了对p 的估计如果对于m ( ) 只是作一些整体的限制,例如 有界、可微等,则模型被称为非参数回归模型,m ( ) 的估计赢( ) 被称为回归函数 的非参数估计回归函数的非参数估计包括核估计、样条估计、近邻估计和局部线 性光滑估计等,其中常见的是核估计和局部线性估计 核估计用到了核函数k ( ) 的概念:它一般要满足如丘。| | u l l 2 k ( “) d u + o 。、 rk ( u ) d u = 1 和a ,( u ) o 等条什我们通常取有界对称的密度函数作为核函数,在 零点取值最大,囱两侧逐渐减小,表示靠近。的样本获得的权重较大常用的核函 数有: 丰h 素核( n i ek e r n e l )k ( “) = i - i 2 ,1 2 】( 札) , “德“ 正态核( 。r m 耐k e r n e l ) k ( “) = ( 2 ”) 一e x p ( 一1 1 “1 1 2 2 ) , 瓞 等等,实际上核函数的选择对于核估计量的均方误差的影响很小 历史卜最著名的核估计有两个n a d a c a y a - w a t s o n 估计和g a s s e r - m i l l e r 估计,简 称n w 估计和g m 估计n w 估计足n a d a c a y a - w a t s o n ( 1 9 6 4 ) 提出的,估计量的形 式是: 。:,k ( 与粤) k 州司2 超箫 g m 估计是g a s s e r m i i l l e r ( 1 9 7 9 ) 提出的,改进了n w 估计,假设 x i ,i = 1 ,n ) 按 递增顺序排列,定义 s l ,t = 0 ,n ) 满足:岛x 1 s 1s 茎 & ,则g m 估计量的形式为: 劬,= 宴e ,元1 k ( 罕) d “ 劬) 2 蕃丘k ( 罕) 毗 为- h j 辞b 核估计的不足,s t o n e ( 1 9 7 7 ) 、c l e v e l a n d ( 1 9 7 9 ) 、l e j e u n e ( 1 9 8 5 ) i lm u l l e r ( 1 9 8 7 ) 人提出了局部线性光滑统计量,它是基于广义最小- 乘法而得到的f a n ( 1 9 9 3 ) 进 一步完善了此估计量,指出了局部线性光滑估计较核估计的优势主要体现在 渐近方差和边界效应上:局部线性光滑估计极大地改善了回归估训量的性质如 4 它在均方意义下的收敛速度可以达到最优速度( o p t i m a lr a t e ) 等【见f a n ( 1 9 9 3 ) f a n ( 1 9 9 3 ) 给出的局部线性光滑估t i 量的形式为: 其中 俞x 0 1 暑,屿k 1 嘶+ n 1 蚴= k x o 丸- 。x j 胪、i 蝴一( z 。玛) 圳, z = 喜k 、x o k - x 心卢。一驯,1 ,。 f a n 的一系列研究离散时间情况下局部线性光滑的论文使得此估计量的理论和应 用研究都得到了很火的关注如孙曙光( 2 0 0 5 ) , n 王政( 2 0 0 4 ) 把离散时间独立似设卜 的局部线性光滑估计推广到了连续时间的情况下,获得了连续时间下的局部线性 光滑估计,而且证明了此估计量具有良好的性质,如能够达到最优、超优的收敛速 度( s u p e r o p t i m a lr a t e ) 和a ,s 收敛速度 连续时间情况下的研究在统计理论领域有着不可忽视的作用然而,在样本轨 道为连续的情况下一般只能得到离散拙样的数据同时,离散化的统计量也更易于 计算,于是我们很自然地想到对连续时间随机过程进行离散化抽样来构造更具实 用性的局部线性光滑估计 各种各样的抽样方案也曾经被提出过,如1 9 8 3 年e m a s r y 做出了由抽样数据 来构造密度函数( x ) 的估计的一些结果( 见 4 ) 在他的文章中,考虑了平稳连续 时间随机过程x = x ( t ) ,t r ) ,x ( t ) 在r 上取值,根据离散样本 置。) 2 :。给 出了密度函数,( 。) 的估计五( 。) 这里的如可以是不规则间隔的或者是随机的( 如 令t k = ;k1 m ,k = 1 ,2 ,h ) 墨1 是满足一定条件的i i d 随机变量) 在他的文 章中,对于确定性的抽样方案( d e t e r m i n i s t i cs a m p l i n g ) l l 随机抽样方案( r a n d o m s a m p l i n g ) ,他研究了基于采样方案的相应估计厶( z ) 的相合性,同时证明了在一 定条件下 ( 。) 的渐近偏差( a s y m p t o t i cb i a s ) 和协方差( c o w r i a n c e ) 与离散情况 独立假设下的经典表达是样的即o ( n 一南) 独立假设就是假设离散时间观察 值f 五。1 之问是独立的然而对于连续时间情况要求这样的假设是不现实的,只能 要求时间间隔是足够大时,观测之间渐近不相关或渐近独立,而混合系数和混合 性正是为了用来描述这样的性质的 d b l a n k p u m o ( 2 0 0 3 ) 从另一个角度研究了这个问题( 见吲) 基于概率密度估 计量,他们从不规则性角度对样本轨道进行分类,构造了渐近最优离散化采样方 案,并证明了在这样的采样方案下给出的密度核估计可以达到在独立同分布情况 下的均方相合的经典收敛速度,即oc n 一南1 样本轨道的不规则性足关于样本轨 道局部的性质,他们给出的不规则性条件一般是用来控制十分靠近的两个观测点 5 之问的相关性的因此,他们的结论同时也说明了渐近最优采样的频率与随机过程 的不规则性有着密切的联系 张娟( 2 0 0 3 ) ( 见1 9 ) 研究了连续时间下非参数回归函数m ( o ) 的核估计的最优离散 化抽样,得到了和d b l a n & p u m o ( 2 0 0 3 ) 相类似的结论,即最优采样方案和不规则 性有着密切的关系,在最优采样方案下,回归函数的核估计可以达到独立同分布 情况下的均方相合的经典收敛速度等 受上述研究成果的启发,本文基于局部线性光滑估计量,刘连续时间随机 过程的离散化抽样进行了研究我们假定可以在一个较长的时间内方便地进行 观察以得到样本,即:( 咒。k 。,。) ,( 。k 。) 其中t o = 0 t l 。 t 。,州,。一t 咖= 如矗,其中“是实数,且满足1 1 。sh 矗 是一个正的 序列,且满足当n 一+ 。o 时,氏一0 ,n s 一+ o 。其中矗的选择即采样的频率 是一个对于结果很敏感的因素,采样的频率过高不仅增加成本,而且由于过程 不规则程度的影响,对于估计的效率很可能是负面的,但采样过于稀疏的话, 数据所包含的信息不够完整。自然,估计的精度也相应降低因此我们做离散 化抽样希望给出“最优”的抽样方案,就是找到“最优”的鲒,睇被称为门 限( t h r e s h o l d s ) 靠就是使得在抽样方案下构造出来的回归函数的局部线性光滑 估计的均方相合收敛速度与独立同分布假设下得到的速度相同时的最小的“门 限酲依赖于样本轨道的性质,对于不同的规则性的轨道,有不同的抽样方案,相 应于不同的门限使构造出来的估计量可以达到相同的最优收敛速度;但是当样本 轨道比较规则时( 即相邻观测相关较大,两点代表的信息量近似相同) ,这时相应 选取的间隔要大1 二不规则隋况下的轨道当根据样本轨道性质选定了抽样方案, 不妨设为等间距抽样,那么往往有两种情况会发生,第一,给定了观测时间区 间f 0 ,r ,瓦足够人,由于咒= n “,使用最优的酲可以在 0 ,死 上得到最多的 样本量:第二,给定了最大抽取的样本量n ,当然也必须是足够大的,比如我们 希望降低在抽样上的花费时就属于这种情况,那么我们就可以利用酝来缩短抽样 所需的总时间咒= 佗矗,却不影响构造出的局部线性光滑估计的收敛速度在本文 的前半部分,根据连续时间随机过程的样本轨道的不规则性,基于局部线性光泪+ 估计我们提出了最优采样方案 上述研究均是在采样数据完全精确的情况下进行的,但是,通常由于测量工具 或者环境等的影响,使采样产生一定的误差因此带误差变量( e r r o r si nv a r i a b l e s ) 的 模型的估计也成为人们研究的一个热点;带误差的变量模型为: 咒= z o + 8 ,i = 1 ,扎 其中 包) 鍪。是噪声过程,五是实际的观测值,霹是潜在的真实值,需要解决的 主要问题是根据 咒) 坠。来估计真值 砑) 坠1 的性质,如密度函数等d b l a n k s hp u m o ( 2 0 0 6 曾给出了带误差变量对最优采样方案的影响受上述研究结果的启发,本文的后1 一 部分研究了带误差变量对局部线性光滑估计的最优离散化采样方案的影响 带误差变量( e r r o r i n - v a r i a b l e ) 的模型晶早由a n d e r s o n ( 1 9 8 4 ) ,c a r r o l l 、l a n 、 b a i l e ya n da b b o t t ( 1 9 8 4 ) ,s t e f a n s k i ( 1 9 8 5 ) ,f u l l e r ( 1 9 8 7 ) ,w h i t t e m o r e ( 1 9 8 9 ) 等开始 研究的,但他们的工作都是围绕着参数回归即回归函数给定的情况进行展开 的随后s t e f a i m k i :l c a r r o l l ( 1 9 9 0 ) 、f a n ( 1 9 9 1 ) 、m a s r y ( 1 9 9 1 ) 和b l a n k e ( 1 9 9 6 ) 对带 误差变量的核函数密度估计作了研究,其中主要用到了反卷积的方法f a na n d t r u o n g ( 1 9 9 3 ) 又研究了在非参数回归函数估计的情况给出了带误差变量对非 参数回归估计的影响记( x ,y ) 为随机变量,回归函数m ( x ) = e ( y i x = o ) , 观察值z = x + e ,通常假定e 的分布是已知的,且与( x ,y ) 是独立的,f a n a n dt r u o n g ( 1 9 9 3 ) 的文章研究了:1 ) 根据样本( 五,m ) ,( 磊,k ) 来构造回归函 数m ( z ) 的估计量,以及此估计量的优良性质;2 ) 误差e 的分布对估计量的收敛 速度的影响,结论说明了估计量的收敛速度依赖于误差e 的分布的光滑性分 布的光滑性分为一。般光滑和超光滑,般光滑是指特征函数的尾部以几何速 率趋向于零,超光滑是指特征函数的尾部以指数速率趋向于零,如双指数分 布( d o u b l ee x p o n e n t i a l ) 和伽玛分布( g a m m a ) 分布都是一般光滑,而正态分布和柯 西分布f c a u c h y ) 部是超光滑在正文中我们将对分布的光滑性用数学的语言给出 更精确的定义本文后半部分关于带误差变量模型的最优离散化抽样方案的研究均 以上述研究结论为基础的 最后,我们分别对两个模型下的最优离散化抽样方案做了数值模拟来进一步证 明我们的结论 7 第二章记号与假设 设 ( x ,k ) ,t ( 0 ,t 1 ) 为连续时间样本,对于回归函数定义如下: m ( x o ) = e y i x = o ( 2 1 ) 硒) = 撩, 其中 一k ( 警) k z 却。删 。= z 7 k ( 学) 吲, 耳( ) 是个核函数,h t 是窗宽,且易知譬w 。d t = 8 t , 0 s t , 2 一( s t l ) 2 0 为了研究连续样本的离散化抽样,给出更具实用性的m ( x o ) 的估计,这里我 们首先给出形式较为一般的抽样方案对于 ( 托,k ) ,t ( 0 ,霸 ,在。吣。茎t l 。 茎t n , n 上取观察值,其中 。t o 。, + n ,= ,一0 。,;。靠,。:。、,礼一。 其中 矗) 是个正的序列,且当n 一+ o o 时如一0 ,n 靠一+ 。, 如) 是实数数列 且满足1 k 卜所以同时包含了不规则的间隔抽样与等问距抽样( “;1 时) 。 抽样的总时间e = ;:1k “,特别在等间距时矗= n s n 。然后基于抽样得到的 离散样本 易。= ( x 。,k 。) ,i = 1 ,n ) ,构造出m ( ) 的局部线性回归统计 量疖。( z o ) 为: ( 2 2 ) 讹) = 器 其中 旷k ( 竽) k r 也小】1 一= 壹i = 1k ( 竽) 氆一卜叩,z , 其中是有界对称相对于l e b e s g u e 测度取正值的密度t 蚓时 上。i i u i i 嘲) d “ + o 。 8 不规则性是样本轨道的局部性质,样本轨道不规则表示当8 - 与s 卜分靠近 时,五的取值变化很大,样本轨道出现“抖动”,这就说明样本轨道不光滑;样 本轨道比较规则说明相邻观测值相关较大,轨道变化相对平缓。为描述样本轨道 的不规则性,首先我们记,为五的密度函数,记,( x 。,x 。) 为( j 0 ,五) 的二元密度函 数,则为描述样本轨道的不规则性,我们定义函数: 乳,t = ,( x s ,x t ) 一, f ,s t 吼是表示墨,五之间相依程度的函数,假定g i 。- t l = 9 s , t :则有: 乳= ,x 。) 一f o f 下面给出两组假设: 假设a 2 1 : ( 1 ) 同归函数m ( ) 的二阶导数有界; ( 2 ) x 的边际密度函数,x ( ) 满足i ,如) 一f ( x 引c l x z 个,其中0 o 时,存在常数c ,o o ,使得s u pf ( x 。,x 。) ( ,z ) c u 一, o l 0 m o : ( 3 ) 【i g 。| | 。o 茎7 r ( “) ,乱【u 0 ,+ o 。) ,7 r ( “) 是有界递减的函数且满足 f 巾胁 0 注: ( 1 ) 假设a 22 ( 1 ) 是有关过程的平稳性的假定 ( 2 ) 假设a 2 2 ( 2 ) 足与不规则性相关的条件,它与样本轨道的局部性质密切相关 当s 与十分靠近时,该假设给出了密度,( ,x 。) ( z ,) 的上界控制函数,使其 不至于过分大当核函数k 有一个紧支撑时,这样的条件可以被放松,即只要 在。上取上确界就可以了,a 。是d = ( z ,茁) ,。碾) 的丌邻域 ( 3 ) 假设a 2 2 ( 3 ) 是用来度量样本轨道的渐近独立性的条件 第三章最优采样方案 3 1主要定理 我们做离散化抽样希望给出“最优”的抽样方案,就是找出“最优”的酝, 鲒被称为门限( t h r e s h o l d s ) 酲就是使得在抽样方案下构造m 来的回归函数的估计 的均方相合收敛速度与独立同分布假设f 得到的速度相同时的最小的矗,门限依 赖于样本轨道的性质,对于不同规则的轨道,有不同的抽样方案,相应于不同的 门限使构造m 来的统计量均可以达到相同的最优收敛速度 在给出主要的定理之前,我们先给出一个引理 引理3 1 设( x 。,k ) ,( 墨。,k ) 是来自于未知的二元密度函数,( ,) 的独立 的样本,对于回归函数”,如) = 毋( y i x = z o ) 的局部线性光滑估计赢( z o ) ,在假 设a 2 1 下,如果k = c n ,0 7 1 ,则估计量俞( 。o ) 的均方误差m s e 为: 跏) _ m ) ) 2 = 鼢弘。) 仁以d u 2 h 。4 + ,一1 ( z 。) 口( 铷) 0 。2 ( 。) d u + 而,1 9 ( 铷) - 。酽龇 + 。( 醒+ 瓦1 ) 证明:见f a n ( 1 9 9 3 ) 引理3 2 条件及内容同引理3 1 ,但令7 = ;,即k = 5 ,则有: 脚( 训一吣0 ) ) 2 = 。( 去) = 。( n - 4 9 ) 利用上面的引理我们可以给出如下的最优抽样理论 定理3 1在假设a 2 1 和a 2 2 下,危。( z o ) 如( 2 2 ) 所定义的,如果 h 。= m 一,当n _ + o 。时,则 ( 1 ) 当o z 1 ,民d 3 h i 。时, 均有 l i m s u p n e ( 肃。x o ) 一m ( 。o ) ) 2 + o 。 注: f 1 ) 正如前面提到的一样,这里的。与样本轨道的不规则性有关,其中 1 相 应于不规则的路径( i r r e g u l a rp a t h ) ( 2 1 可以发现,为了得到相同的估计精度,不规则的样本轨道所需要的时问 ( = 氏! n ,q 1 时) ( 3 ) 常数咄是m ,与g u 决定的本文没有对哦的选择进行讨论,但可以在其他的 文献中找到关于密度函数估计中d i 取法的些讨论( 见【1 4 1 5 】) 证明:为了易于汪明我们首先把均方误差分解为我们易于着手的项: ( 3 3 ) 酬瑚炉= e ( 到篆裂字塑) 2 然后将第一项进行如下的分解 ( 3 4 ) e ( 避紫) 2 + n - 4 m 2 x o ) e ( 言。2 ) 1 2 n m ( x o ) e m ( x o ) ) 、2 。l e ( 避秽) 2 = e ( 坠监蒜掣) 2 = e ( 坠篾寿掣) 2 + e ( 皆铲) 2 垒a 】+ a 2 再考虑上式( 34 ) 中的第二项a 2 ,由模型m = m ( 五) + 岛,其中 自,te o t ) l _ j 恐,te o ,列) 之间是相互独立的,则: 1 1 二n n 一+ 一q 翘障 一 ( 3 5 ) 则把( 3 4 ) 和( 35 ) t - , k ( 3 3 ) 得 e c 俞。c z 。,一m c 加,2 = e ( 至星竺鼍塞;翥) 。 + n 一4 m 2 c 。,e ( 骞屿+ n 一2 ) 一2 b e , 地_ 2 m 徊( 鼍兰铲j + e ( 黔) 邶i 罐斋j 己知酊面四项是独立样本情况下的均方误差的分解,故由引理3 2 知: c 。,ec 俞。c 蜘,一。c 。,。:ef 坚辫 + 。( 。一;) 接下来需要计算 ( 3 8 ) 0 辫 0 ( n ) 嗲啪卜竺呷kr蕾辫 即只需要计算 q 。, - 一i m s u 。p 吨ef ew j w i c t ,n e 。n 1 匀和如 匿n ,w j + n - 2 ) 2 + o 。 由于上式期望中分母的阶数从引理3 1 的证明( 见f a n ( 1 9 9 3 ) ) 中知 ( 3 ,1 0 ) f 3 1 1 ) 嗣等而1wj s 2 f 2 ( x o + 。4 ( 1 ) ? + n 。 ) 鼢= 堋“嘲训现( ,十。,( 蜂+ 去) ) 其中魏= u k ( u ) d u , i = 0 ,1 ,2 特别地s 0 2 l ,s 1 2o 故只要考虑 ( 3 ,1 2 ) - 翌磐讽1 e ( ,曩。如矿“n ) = 1 恕篇孤1 ,蜊! 。e ( 畸锨) e ( 8 泓,n ) u o 1 42 蛳,故由假设a 2 2 知 一m 铷小孙州圳蚤n - - i ,:篆o ( 叁“) : ( 3 1 7 1茎2 m 等按( 。璃 1 + 。( 1 ) ( 兰云堕) i i k l l ;蚓吲s u p 。】7 r ( “) 2 m 挈最( z 。) s 引k 皤兰三;竽s u p ”( “) 1 1 + o ( 1 ) o n 。 “】“o p ,口1 】 :。( 鲁) 又因为”( u ) 是递减的函数,则k 项町以被控制 m 剑等肫0 ) s 孙+ 0 ( 1 ) 善,:轰0 p 驯腓 s 2 m 鲁投( z 。) s ;f 降壹壹”( 。一i ) 1 + 0 ( 1 ) j 1 = 1j = * _ v 3 + 1 ( 3 1 8 ) s 2 吖鲁段( 。) 。孙k 旧n - 1 ( n - 膏) 。( 岛霸) 【l + 。( 1 ) j 剑等舳璃2 f l 俐】e 出冲 = 。( 瓮) 下面再来看眠项,把它拆分为两项为 ln 一1 州p , 眠= 2 m 等最( 引1 + 0 ( 1 ) 】善,戛。上。玩小。一) 。_ ) ,c x 咎一如。 制等肫0 ) s 孙+ d ( 1 ) 】差警儿。一 矿彬m :i 一2 m 等最( z 。) s ; 1 + 。( 1 ) 】上,。 一 ,。( 一z ) ,( ”) ,( 。 : “ = lj = i + l jk ( x o y ) k h )dydl j 垒眠l + 眠2 由嘲的定义有: i ,。ls 2 m 鲁段( z 。) s ;n n ok 22 1 + 。( 1 ) ( 3 1 9 ) = 2 m 等段( 砌s 弘 老k 旧,慨【1 + 0 ( 1 ) 】 = 。( 鲁) 1 5 而对于2 项。由于萎! 。如s “。,则由假设a 2 2 知 ( 32 0 ) l 眠,j 剑等胁0)s孙+0(1)】善别刚;网c1 n 一件_ : 剑g 2 出2 域( 舞) 篓去 则根据取值的不问,有以下三种情况 ( 1 ) 当 1 最优的门限繇,即琵一d 2 k i n ( x h 。) 时( 3 9 ) 式成立 3 2数值模拟 这一部分,我们通过数值模拟来进一步说明前碰提出的最优离散化抽样方 案,其中对于连续时间的随机过程x ,我们选取的是实值平稳的高斯过程( d = 1 ) : o r n s t e i a - u h l e n b e c k ,n :0 5 0 ,b 0 即是 x t = e 一耐x o + 6 e - a ( 。一s ) d 矾,x 0 ( o ,1 ) ,0 t t j f 1 7 下面我们令a = 1 、b = 以,则鼍具有相同的密度n ( o ,1 ) 用e u l e rs c h e m e 谢 法见k l o e d e n s r lp l a t e n 来模拟这个过程: x ( t m + 1 ) = x ( ) 一a r x ( r m ) + 、2 ( w ( + 1 ) 一( ) ) ,x ( 丁o ) = 0 其中r t m + l 一, m ;m = 0 ,1 ,是固定的间隔取+ l 一_ 。= o 0 2 时,模 拟的样本x 的样本路径如图一, 图1 :模拙的ou 过程的样本路径 然后取正态核k ( z ) = ( 2 7 r ) 一e x p ( 一x 2 2 ) 、y = m ( x ) = x + 2 和n :1 0 5 则h 。= n - 1 1 520 4 因为o = 0 5 ,则根据最优离散化拙样方案有矗= n 一:510 4 下面的图2 是在最优抽样规则下模拟的变量x 的密度曲线和真实的 密度n ( o ,1 ) 曲线图3 是在最优抽样规则下模拟的( x ,y ) 的图形和y = x + 2 的图 图2 :o u 过程:n ( o ,1 ) 密度( 虚线) 和模拟估计的密度( 实线) 形,时间区间是 o ,r o 作为对比,我们还模拟了如= 0 ,l 和文= 0 8 的图形,如上图4 从图3 和罔4 可 以看出在最优抽样规则下采得的样本可以得到密度函数和真实曲线的非常好的近 似,回归函数估计的精确度和采样问隔的大小成反比,如在取“= o1 的情况下得 1 8 图3 :y = x + 2 :真实的曲线( 实线) 和模拟估计的曲线( 虚线) 0 8 ( 右) 时模拟估计的曲线 到的估计非常差,而在取靠= o 8 1 拘情况下的估计更加好下面我们研究一下晶的 选择对于估计效率的影响我们在每个矗下分别对0 u 过程模拟了5 0 次,计算了 f 面表示估计准确度的度量: , n , i s e ( 5 ) = 寺( 俞n ,( 。) 一m ( z ) ) 2 d x j = l 。 其中t 。一t 。= 6 ,m 是真实的变量x , ny z i n 的关系即y = x + 2 ,n2 1 0 5 ,n :5 0 而氟,5 ,j 是在固定矗的情况下第j 次模拟样的估计量下图5 清 楚地说明了在采样间距6 过分小的情况下,估计就不再是致的了,因为变 量蜀。和五。,。之间 1 9 的相关性是影响估计量的性质的主要因素:而另一方面在采样间距6 较大时 误差就趋向于平稳了,即估计量具有和i i d 情况下的估计一样良好的性质 图5 :0 u 过群的,s e ( 6 ) ,n = 1 0 5 第四章带误差的模型 现在考虑f 面的模型: x = 砰+ e t ,te o ,t 其中( e t ) 是个噪声过程,( 咒) 是变量x 的观察值而( 聊) 是变量x 的真实值但1 i 能 直接得到,例如佗个观察值( k 。五。,。) ,m 。x “。) ,其中: x c 。n = x 。o 。+ n ,i = 1 ,n 则我们的目标是通过观察值 ( h 。,五,) ) 饕1 和已知的噪声e 的分布来估计回归函 数m ( x o ) = z ( v l x = x o ) ,对这个模型给出如下的假定: 假设a 4 1 : ( 1 ) x p ,t r ) 是一维的实值过程,其中础密度函数记为0 ; ( 2 ) 龟,t 豫 是一维的实值过程,龟的密度函数是 ; ( 3 ) x y ,t 酞) 和 e ,t 皿) 是相互独立的, 由假设a 4 1 ( 3 ) 得,= ,o ; ,因此我们要解决的就是经典反卷积的问题, 独立唰分布情况下的反卷积的核函数的密度估计问题已经被,一泛的研究,例如 见f a n ( 1 9 9 1 ) 、m a s r y ( 1 9 9 1 ) 和b l a n k e ( 1 9 9 6 ) ,从这些文献中知i i d 情况r 密度函数 的核估计形式如下: 舭,= 麦娄( 警) 一 其中 ( s 3 。) ( z ) = 垂厩( 动,厩( ) = 去上e 一锄豢黯出 其中表是噪声变量的特征函数,即无( t ) = 矗e “”五( u ) d “,玉是核丽数k 的富啦 埃变换f a na n dn u o n g ( 1 9 9 3 ) 的文章研究了误差模型下的非参数回归函数的估训 及其估计量的性质,从中可知误差模型下的局部线性光滑统计量的估计形式为: f 3 3 1 ) ) = 黔 其中 呻= 帆( 竽) k 肿。吨。s 】, z = 宝( 竽) 吨一。,k 叭,。 i = l 、 “ 7 其中w h 如式子( 33 0 ) 所定义 2 1 4 1主要定理 f a na n dt r u o n g ( 1 9 9 3 ) 的文章指出估计量的收敛速度依赖于噪声分布的光滑 性,分布的光滑性可以分为一下两类: 1 阶数为p 的超光滑( s u p e rs m o o t h ) 分布:指当t 一。时,变量分布的特征函 数九( ) 满足 b o l t l 4 。e x p ( 一l 引4 - r ) sl 。“) l b l i t l 4 , e x p ( 一4 7 ) 2 阶数为卢的一般光滑( o r d i n a r ys m o o t h ) 分布:指当t o 。时,分布的特征雨 数曲。( - ) 满足 b o i t l 一9 协( t ) i 曼b l l t l 一口 其中b o ,b l ,妒和7 都是正的常数,且p 1 ,岛和p 1 是常数, 例如,常见的分布是超光滑的有: 正态分布n ( 0 ,1 ) ,阶数卢= 2 ; 苛西分布三_ 三j ,阶数p :1 7 r 1 - t - z 分布是一般光滑的有: 伽玛分布( g n m m a ) 最刍z p l e , 阶数卢= p ; 双指数分布( d 6 f ee x p o n e 疵矧) ;e 小i , 阶数卢= 2 f a na n dt r u o n g ( 1 9 9 3 1 的文章中结论还说明了误差变量的分布越光滑时,估计 量的收敛速度就越慢在超光滑时,估计量的收敛速度是非常慢的,从而估计量的 方差非常大( 甚至趋向于无穷) ,而且证明了这种很低的收敛速度通过改进估汁方 法也是改进不了的,即是确实是由于误差分布的原因造成的而不是估计方法造成 的;而在一般光滑时,只要窗宽的选择满足一定的条件,估计量仍然能够达到非 常好的收敛速度f 如m i n i m a x ) 冈此,这里我们只考虑噪声分布是一般光滑的情况,则下面的定理给f = | 了最优 抽样方案而且在最优抽样方案下亓焉( z o ) 的收敛速度依赖于口,最优抽样方案仍 然依赖于真实样本轨道的不规则性n , 定理4 1在假设a 2 1 、a 2 2 和a 4 1 下,如果k = c 4 n 一南, c 4 0 ,则当n 一+ 。时,根据n 的取值如的选择和定理3 1 中的一样,均有: l i m8 u p 扎i 琊4e ( 俞:( z o ) 一m o ( z o ) ) 2 + ”- b o o 注: ( 1 ) 这里矗的选择中常数魂的选择也依赖于噪声 2 2 ( 2 ) 假设a 2 1 、a 2 2 是对观察的过程 x t ,te o ,卅) 做出的,从y o u n 9 1 8 卷积理 论( 如见w h e e d e n 和z y g m u n d ,1 9 9 7 p 1 4 6 ) 可以得到,只要 础,te l o ,列) 或 者 白,te o ,t ) 满足假设a 2 1 ( 2 ) ,则 五,te o ,t 】) 就能满足这条假设;而 同样只要 x g ,te o ,t ) 和 ,te o ,卅) 满足假设a 2 1 ( 1 ) 和( 4 ) 则 托,t 0 ,t 】) 就能满足这条假设,根据y o u n g s 卷积理沦和下式的关系可以说明这 点: i i g 。i i 。= i i ( f ( o ,础) + ,( e 。,e 。) ) 一( ,o + 丘) o ( ,o * l ) i i 。 茎i l 如,x o ) t ( ,( e 。) 一丘 丘) i i o 。+ i i ( a ) s ( f ( 。x g ,x 3 ) 一,o 圆,。) i i 。 曼il k 。,。) 一丘ol i ! 。+ i i f ( o x g ,x 。0 ) 一f o f o l l 。 在证明此定理之前,先给出一个引理 引理4 1 条件及内容同引理3 1 ,但令7 = 丽15 ,即k = i 嘟,则 1、 e ( 俞( x 0 ) 一m ( 跏) ) 2 = o ( 、二n h 妒+ 1 ) :0 f 竹一南1 证明:山引理3 1 易证 定n 4 1 的证明:我们用w h e 替核函数,其他的均是沿用第_ 节的记号,与定 理3 1 的证明类似,对均方误差进行与( 3 6 ) 类似的分解由丁_ _ 独立同分布情况下的 收敛速度与核函数k 无关,故也与慨无关,因此分解后的前四项与独立同分布情 况下的收敛速度一样,由引理4 1 知为n - 南 由于w h 和核函数类似,即是一致连续的是函数,且若1 帆l 1 ( 瓞) ,就 有丘( z ) d x = 1 ,根据m a s r y ( 1 9 9 1 ) h 的范数依赖于h n ,特别地有1 1 l i ,= 0 ( k 4 ) ,则可以在式子( 3 6 ) 一( 3 2 9 ) 中均用l i w 4 h 替换l i k i i ,从而重复定 理3 1 的证明,得到根据。的三种不同取值情况,在“的不同的最优值的条件 下均有 l i m s u p n i 牢易e ( 最罢( 。o ) 一m o ( z o ) ) 2 + o 。 4 2数值模拟 为了建立噪声e 的模型,我们考虑下面这个随机微积分方程的过程觯 d e = - o s g n ( e t ) d t + d m 这个过程解的密度函数是l a p l a c i a n n , 数即厶( z ) = o e x p ( 一2 0 l x l ) ,则它n :p - - 般光 滑分布一族,阶数卢= 2 根据l e b l a n c ( 1 9 9 7 ) 知,在n 1 时,假设a 2 2 ( 3 ) 和假 设a 2 2 ( 4 ) 都能得到满足,则根据e u l e rs c h e m e :迭代法得到噪声的数值近似为 烈丁m + 1 ) = 毛。一目s 9 n ( 烈) ) ( + l 一丁m ) + ( + 1 ) 一w 0 - 。0 , 烈功) = 0 则在这个噪声过程下,有 眠( z ) = k ( 。) 一碱1 川z ) 然后,独立于噪声过程,我们仍然选取( 霹) 为o r n s t e i n u i l l c n b e c k 过程,同归 函数m ( z ) :y = x + 2 ,霉是0 u 过程的模拟的数值,则观察值豆= 戈p + 龟, ! f ! a j f a i - i 一量的值是根据寇来计算的选取为i e 态核,n = 1 0 5 ,h ,。= ,- 1 。10 6 , f 1 1 最优的矗20 6 图6 是模拟的是的值,和图l 可以比较看到噪声的影响 图6 :模拟的带误差的0 u 过稗的样奉路衽 下页的图7 是根据雹的值模拟( x ,y ) 的回归函数f f i 线和真实的回归l l t i 线 图7 :y = x + 2 :真实的曲线( 虚线) 和带误差模型下模拟什计的曲线( 实线) 最后,类似于没有噪声情况下的模型,我们仍然计算了误差i s e ( 6 ) ,结果如 下页的图8 从图中可以看到,误差,s e ( d ) 随着晶的增加而降低而且趋向于平稳, 和图4 相比较我们还可以看出,由于噪声e 的影响,在误差模型下的线性光滑估计 的i s e ( 5 ) 值较大而且甲稳性被推后 图8 :带误差模型一l - 雕ji s e ( 6 ) ,n = 1 0 5 r e f e r e n c e s 1 jb l a n k e ,d p r o c e s s j 1 e s t i m a t i o no fl o c a ls m o o t h n e s sc o e f f i c i e n t s f o rc o n t i n u o u st i m e s t a ti n f e t c h c es t o c h p r o c 5 8 ,2 0 0 2 ,5 ( 1 ) ;6 5 9 3 2 】b o s q ,d n o n p a r a m e t r i cs t a t i s t i c sf o rs t o c h a s t i e 砌w 斑,l e c t u r cn 。t e 8 i ns t 8 t i s t i c s ,v o l u m e1 1 0 m n e wy o r k :s p r i n g e r v e r l a g ,1 9 9 8 3 e f r o m o v i c h ,s n o n p n m m e t r i cc “州ee s t i m n 抓o n m e t h 。出,地e 。哪,鲫6 do p 口如一 c a t i o n s , s p r i n g e rs e r i e si as t a t i s t i c s m n e wy o r k :s p r i n g e r v e r l a g ,1 9 9 9 , 4 1m 8 8 。y :e p r o b a b i l i t yd e n s i t ye s t i m a t i o nf r o ms 锄p l e dd a t 删i e e et r a s i n f o r m t h e o r y ,1 9 8 3 ,2 9 ( 5 ) ;6 9 6 7 0 9 5 b l a n k e ,d a n db p u m o o p t i m a ls a m p l i n gf o rd e n s i t ye s t i m a t j o ni nc o n _ 1 n u o h st i m e ,t i m es e t a n a l ,2 0 0 3 ,2 4 ( 1 ) ;1 - 2 3 6 f a n j l o c 以l i n e a rr e g r e s s i o ns m o o t h e r sa n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心血管疾病遗传标志物的检测标准化
- 心血管介入手术区域资源均衡配置策略
- 心脏移植后感染期的营养支持与免疫功能重建策略
- 心脏电生理标测技术的精准消融联合策略
- 心理健康数据的机器学习识别模型
- 心理干预对慢病患者生活质量的提升
- 微创神经外科老年患者麻醉质量控制
- 微创手术的术后液体管理策略
- 微创三叉神经微血管减压术的术后饮食管理指导
- 影像数据采集标准化规范
- 2025年中国银行上海市信息科技岗笔试题及答案
- 固态电池系列之干法电极专题报告:革新技术方兴未艾
- 2024年《广西壮族自治区建筑装饰装修工程消耗量定额》(上册)
- 药品采购部门年度工作汇报
- 古代文学史自考课件
- 工地旧木材运输方案(3篇)
- 工厂车间企业SQCDP看板运行指南
- 2025年哈尔滨铁道职业技术学院单招笔试英语试题库含答案解析(5套100道合辑-单选题)
- 矿产企业管理办法
- 企业账期管理暂行办法
- 从大庆油田股权改革透视公司股权结构优化与治理创新
评论
0/150
提交评论