




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 一元统计中的次序统计量有非常广泛的应用,但多元分布族中没有次序 统计量这一说,而现实中有太多的数据统计分析是多元的随着概率统计学 科的发展,产生了为多元分布族服务的数据深度统计量数据深度是将多元 样本由中心向外围进行排序的尺度,越靠近中心的数据,其深度值越大数据 深度在多元分析中有很多应用,比如位置参数估计和多元非参数检验 一个统计量或统计方法的出现,其中一个重要的工作就是检验它的稳健 性统计方法的性能对模型的微小变化反应不敏感性被理解为数理统计中的 稳健性本文的主要工作就是分析数据深度和基于数据深度的多维中位数的 稳健性评价统计方法稳健性有两个典型的概念:影响函数和崩溃点本文正 是从这两个角度来分析的 本文在简要介绍数据深度的概念和一些性质之后,主要有两个工作,首 先针对文 3 】提出的基于空间秩的数据深度( 记为d ( x ,f ) ) 分析了它的影响 函数性质,得出该样本数据深度影响函数的强收敛性,并得出该样本数据深 度的渐近正态性另一个工作是根据d o n o h oa n dl l u b e r 7s 介绍的样本崩溃点, 并结合文 4 】,定义数据深度的增加型样本崩溃点和简单替代型样本崩溃点 然后分析数据深度的全局稳健性之后重点对基于r 数据深度( 记为 l 2 d ( x ,f ) ) 的多维样本中位数和基于文【4 】) 提出的加权r 数据深度( 记为 w l 2 d ( x ,f ) ) 的样本中位数,分析它们的增加型样本崩溃点和简单替代型样本 崩溃点,并得出满足一定条件的两类多维中位数有较好的稳健性 关键词:数据深度;稳健性;影响函数;崩溃点;多维中位数 i i a b s t r a c t t h eo r d e rs t a t i s t i c so fo n ed i m e n s i o nd i s t r i b u t i o nh a sav e r yw i d er a n g eo fa p p l i c a t i o n h o w e v e r , i t d o e sn o t h i n gf o rt h ed a t a sw h i c hc o m ef r o mt h em u l t i v a r i a t ed i s t r i b u t i o n w i t ht h ed e v e l o p m e n to f s t a t i s t i c s ,d a t ad e p t hc o m e si n t ob e i n gw h i c hs e r v i c i n gf o rt h ef a m i l yo fm u l t i v a r i a t ed i s t r i b u t i o n i ti s a p p l i e df r e q u e n t l yf o rt h em u l t i v a r i a t el o c a t i o ne s t i m a t e ,n o n p a r a m e t r i ct e s ta n ds oo n t h er o b u s t n e s sa n a l y s i sf o ras t a t i s t i c a lf u n c t i o ni so n eo ft h em o s ti m p o r t a n tw o r k s r o b u s t n e s s a n a l y s i sf o rs o m ed a t ad e p t h sa n dt h em u l t i v a r i a t em e d i a n si st h em a i na i mo ft h i sa r t i c l e i n f l u e n c e f u n c t i o na n db r e a k d o w np o i n ta r et w or e p r e s e n t a t i o n a lc o n c e p t i o n so fr o b u s t n e s sa n a l y s i s h e n c et h i s a r t i c l ew i l la n a l y z et h ei n f l u e n c ef u n c t i o na n dt h es a m p l eb r e a k d o w np o i n to fs o m ed a t a d e p t h sa n dt h e m u l t i v a r i a t em e d i a nw h i c hi sd e f i n e db a s e do nt h ed a t ad e p t h a f t e rs o m eb r i e fi n t r o d u c t i o nf o rt h en o t i o no fd a t ad e p t ha n di t sp r o p e r t i e s ,w ew i l la n a l y z et h e d a t ad e p t hb a s e do nt h es p a t i a lr a n kw h i c hw a sc o n s t r u c t e di n 【3 】w et a k e 万( x ,f ) a st h i sk i n d d a t ad e p t h w i t ht h ea n a l y s i sw ew i l lg e tt h el o c a lr o b u s t n e s so f f ( x ,f ) a n dt h ea s y m p t o t i co ft h e s a m p l ei n f l u e n c ef u n c t i o no f d ( x ,f ) a n o t h e rw o r ko ft h i sa r t i c l ei sa n a l y s i so ft h eb r e a k d o w np o i n t o fm u l t i v a r i a t em e d i a nb a s e do n et h e 上2 d a t ad e p t h ( 2d ( 工,f ) ) a n ds oi st h em e d i a nb a s e do nt h e w e i g h t e dl 2 一d a t ad e p t h ( 形三2d ( x ,f ) ) s a m p l eb r e a k d o w np o i n to fas t a t i s t i c a lf u n c t i o nh a st w o t y p e s o n ei st h ea d d i t i o ns a m p l eb r e a k d o w np o i n t ,a n da n o t h e ri st h er e p l a c e m e n ts a m p l eb r e a k d o w n p o i n t 【4 】h a da n a l y z e dt h es i m p l i f i e dr e p l a c e m e n ts a m p l eb r e a k d o w np o i n to ft h em u l t i v a r i a t em e d i a n b a s e do nw l 2d ( x ,f ) ,t h i sa r t i c l ew i l la n a l y z eb o t ht h ea d d i t i o na n ds i m p l er e p l a c e m e n ts a m p l e b r e a k d o w np o i n t so ft h em u l t i v a r i a t em e d i a nb a s e do nl 2 d ( x ,f ) w ea l s oa n a l y z et h em e d i a nb a s e d o nw l 2d ( x ,f ) w h o s ew e i g h t e df u n c t i o nh a ss o m ed i f f e r e n tf i t t e dc o n d i t i o n s a n dg e tt h e i rg l o b a l r o b i l s t n e s si nt h ee n d k e yw o r d s :d a t ad e p t h ;r o b u s t n e s s ;s a m p l eb r e a k d o w np o i n t ;i n f l u e n c ef u n c t i o n ; m u l t i v a r i a t em e d i a n i i i 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得逝姿盘堂或其他教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位敝作者虢彳醺 答字日期:矽曹年,月1 日 学位论文版权使用授权书 本学位论文作者完全了解 浙婆盘鲎 有权保留并向国家有关部门或机构送 交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权迸姿盘茔可以将学 位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:鼍彪 签字日期:卫1 年f 月f 日 导师签名: 签字日期:年月日 致谢 本文是在导师林正炎教授的精心指导下完成的林老师高度的敬业精 神和严谨的治学作风深深地感染着我我谨在此衷心感谢林老师的教导 两年的研究生学 - j 生涯即将结束,在此感谢所有关心和帮助过我的人感谢所有 老师对我的教导,感谢0 7 概率统计所有同学的帮助和支持,感谢家人对我的关心我 会在以后的学 - j 、工作和生活更加努力 浙江大学硕士学位论文 数据深度和基于数据深度的多维中位数的稳健性分析 第一章绪论 多元统计分析以多变量随机现象为研究对象在实际问题中,很多随 机现象涉及到多个变量,因此从一元统计到多元统计,我们有一些概念需 要扩展同时需要对新的统计函数进行相关分析本文的目标是对于多元 统计中的数据深度及基于数据深度的多维中位数进行稳健性分析 1 1 研究背景综述 次序统计量是一元统计的重要概念多元统计中的数据深度就是次序 统计量的推广,它对多维数据进行由中心向外排序越深的数据对应越大 的深度值随着数据深度的出现,分布的中位数、分位数、秩统计量等概念 都顺利推广到多维分布中同时多元统计中的位置参数估计、尺度参数估 计、非参数检验等都因数据深度的出现得到很大的进展反映统计方法优 劣的重要概念之一是稳健性,它是人们在构造统计方法时所努力追求的一 个特性在实际中对于所给的样本计算相应的统计量,经常可能由于笔误、 测量失误等原因使得样本产生偏差当样本中混入少量异常值时,统计量 的值受到的影响不大,具有这种对异常样本反应不敏感的性质的统计量被 称之具有稳健性而值得注意的是稳健性的概念是博弈的,不是说越稳健 的统计量代表越好的性能对于少量异常值反应不灵敏的统计量是好的, 而对任何异常值都反应不灵敏的统计量就失去了应用的价值 文献中的各种数据深度的概念不断提出常见的数据深度有 马氏深度( m s , d ) f = b 是d 维随机变量x 的分布函数,所是总体均 值,f 是总体协方差阵,x 是d 维向量则x 关于分布f 的深度为 m d ( x ,f ) = 【l + ( x l a f ) 。j 1 ( x i t f ) 】一1 在实际分析,用样本均值代替f ,样本协方差阵代替f ,即可得到对应的 马氏样本数据深度马氏深度是最贴切的空间距离的推广,早在1936 年被 m a h a1a n o bis 提出其计算方便,在实际中应用最广但随着维数的增加, 样本协方差阵可能出现奇异状态马氏深度的稳健性不够强在参数估 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 计和假设检验的应用中,因为样本的问题,对结果的影响比较大 似然深度( l d ) f = f x 是d 维随机变量x 的分布函数,是x 的密度 函数,x 是d 维向量则x 关于分布,的似然深度为l d ( x ,f ) = 厂( x ) 对 应的可取任意密度函数的一致估计为样本似然深度似然深度说明密度越 大深度越大但其有局限性,当密度函数是常数( 均匀分布) 时,任意向量关 于该分布的深度相等,这失去了数据深度的意义 半空间深度( 1 4 0 ) 关于分布的半空间深度为 h d ( x ,f ) = i n f p ( h ) :h 是r d 中的闭半空间,x h ) 进而,取s 扛1 = 甜rd := 1 ) 是d 维单位球于是对于z f s 扛1 和x 足d ,有 闭半空间h x ,u 】= y r d :( 甜,y ) 则半空间深度可表示为 h d ( 石,f ) = i n f p ( 日【x ,“】) 材j ” 上述半空间深度也叫做t u k e y 数据深度t u k e y 数据深度在高维中有较强的稳健性 此为,还有三p 深度、单纯形深度、投影深度等文【11 】中详细介绍了数据 深度的一些性质与其在多元分析中的一些应用 随着多维数据深度在多元统计中的应用越来越广泛,对于样本数据 深度本身及其基于数据深度的统计量的稳健性分析显得很重要稳健性分 析的一个典型概念是影响函数它体现了统计量的局部稳健性文【4 】提出加 权三p 数据深度,并分析了它的影响函数文【3 】中提出了基于空间秩的深 度函数,并基于这个深度函数构造了多维位置参数的估计量,该估计量相 比之前的位置参数估计量有更好的功效体现了这个数据深度的优越性 而该文没有分析这个数据深度的稳健性本文做的工作之一是对基于空间 秩的数据深度进行影响函数分析,得出其局部稳健性并且分析对应的样 本影响函数的强收敛性 崩溃点分析是稳健性分析中的另一个重要概念它体现了统计量的 全局稳健性比如一维分布中的样本容量为, 的样本均值的增加型样本崩 溃点是1 ( n + 1 ) ,d 维仿射等价的位置参数的m 估计增加型崩溃点接近于 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 1 d 简单替代型崩溃点是1 n 文【7 】得到有些仿射等价统计量的崩溃点 接近于1 2 ( 基于容量为聆的样本的仿射等价统计量的替代型样本崩溃点 上界是【( 咒+ 1 ) 2 】肛) 比如样本容量为刀的一维分布的中位数的简单替代 型样本崩溃点是 ( n + 1 ) 1 2 l n 有些基于数据深度的统计量具有- f d 射等价性 比如基于数据深度的多维样本中位数、截尾样本均值等这促使我们去研 究各种数据深度及其基于数据深度的统计量的样本崩溃点文 6 】得到对 于d 维中心对称的分布,d 2 ,基于t u k e y 数据深度的d 维中位数的增加 型样本崩溃点几乎必然收敛于l 3 样本容量为刀的基于t u k e y 数据深度 的k 一截尾均值的增加型崩溃点是( 胛+ 后) 文【4 】得到加权三p 数据深度 的简单替代型样本崩溃点是1 咒,t u k e y 数据深度的简单替代型样本崩溃 点是1 ,z ,d 维投影深度的替代型样本崩溃点是【,2 一d + 1 1 2 l n 基于满足一 定条件的加权三2 数据深度的中位数的简单替代型样本崩溃点是 【( ,z + 1 ) 2 】办本文的另一个工作是分析l p 数据深度的增加型崩溃点,并分 析基于三2 数据深度样本中位数的增加型和替代型崩溃点,以及分析满足 不同条件的基于加权2 数据深度的多维中位数的增加型和替代型崩溃 点,从而得出它们的全局稳健性 1 2 论文基本框架 本文第二章介绍了数据深度的基本概念,然后重点介绍三p 数据深度、 加权p 数据深度和基于空间秩的数据深度d ( x ,f ) 及它们的一些性质第 三章主要介绍稳健性分析中的影响函数概念,我们分析d ( x ,f ) 的影响函 数及其过失误差敏感性,然后给出基于经验函数的该样本数据深度的影响 函数,得出该深度的样本影响函数的强收敛性并得到样本数据深度 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 d ( x ,e ) 的渐近正态性第四章介绍崩溃点概念根据i ) o n o h o a n dh u b e r ( 1983 ) 提出的增加型样本崩溃点和简单替代型样本崩溃点,定义数据深度 的两类样本崩溃点,然后分析了三p 数据深度的增加型样本崩溃点之后重 点分析了基于2 数据深度多维中位数的增加型样本崩溃点和简单替代型 崩溃点,并对权函数给出不同条件,得出基于一定条件的加权三2 数据深度 的多维中位数的增加型样本崩溃点和简单替代型样本崩溃点的一些结论 浙江大学硕士学位论文 数据深度和基于数据深度的多维中位数的稳健性分析 第二章数据深度的概念和性质 数据深度是将高维数据进行由中心向外排序的一种尺度常见的统计 深度函数有马氏深度、单纯形深度( liu ,1990 ) 、半空间深度( t u k e y , 1975 ) 、投影深度、p 深度等这些深度函数有一些相同的性质和各自的 优缺点有关深度函数的概念和一些应用可见本文第一章和文【9 】本文的 研究对象是p 深度函数、文 4 的加权三p 数据深度和文【3 】提出的基于空 间秩的数据深度函数d ( x ,f ) 本章重点介绍这三个数据深度以及它们的 一些性质 2 1l p 数据深度和加权数据深度的概念和性质 文【9 】中提出l p 深度函数和对应的样本数据深度 定义2 1 设x 为d 维随机变量;分布函数为瓦= f ,经验分布函 数为e x 是任意d 维向量,= ) :。是来自总体f 的样本令 l p d ( x ,f ) =( 2 1 ) 肋耻一= 一1 ( 2 2 ) 其中1 1 1 l 口是通常的l p 范数称l p d ( x ,f ) 为向量x 的l p 深度;称l p d ( x ,e ) 为 x 的l p 样本深度 深度函数l p d ( x ,f ) 有如下性质 a ( 1 ) ( 对称中心最深) 若f 关于口对称( 即x - 0 与0 一x 同分布) ,且其角对 称中心唯一,则f f d ( o ,f ) g g 最大值即 u d ( o ,f ) = s u pl p d ( x ,f ) 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 a ( 2 ) ( 最深点向外深度递减) 给定分布f ,f f d ( x ,f ) 在0 处达到最 大,任意给定d 维向量x 与任意口 o ,1 】,都有 l p d ( x ,f ) l p d ( o + ( 1 - a ) ( x - 秒) ,f ) a ( 3 ) ( 无穷远处深度趋- y - :g ) 对给定分布f ,当l i x l i 一时,有 l p d ( x ,f ) 专0 如果我们对f f d ( x ,f ) 做以下修改对给定的i f _ 定阵。d 与任意向量 ve r d , 定义范数i | | l m 为m = v 7 胁令 r ,) 2 而南, 其中为总体的协方差阵可得2 d ( x ,f ) 不仅满足上述三个性质,且是仿 射不变的即满足性质a ( 4 ) a ( 4 ) ( 仿射不变性) 设随机变量x 的分布是以,对任意的d xd 阶可逆阵a 和任意的d 维向量b ,都有 z 2 d ( 叙+ 6 ,f a x + 6 ) :l d ( x ,以) 文【9 】提到了l 2 d ( x ,e ) 的相合性文【2 】详细分析了z 2 _ d ( x ,c ) 的渐近 正态度性以及其它性质 接下来我们介绍加权的l p 深度函数文【4 】提到在实际问题中,因素 对不同分布有不同的重要性,因此提出了加权l p 深度函数 定义2 2设x 为d 维随机变量,其分布函数为f ,经验分布函数 为c x 是任意d 维向量,戈一= ) :,是来自总体f 的样本假定权函数 w ( ) 在 o ,) 上连续且非减,并有w ( 一) = 0 0 令 膨。( ,) 2 丽丽1 ( 2 3 ) 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 删啦币丽1 = 巧骊1 可 ( 2 4 ) 称w l p d ( x ,) 为加权l p 深度函数;w l p d ( x ,c ) 为对应的样本数据深度 显然w l p d ( x ,f ) 也是满足性质a ( 1 ) 、a ( 2 ) 、a ( 3 ) 的且同样可对 w l 2 d ( x ,f ) 进行修改,使得 既2 。( x ,f ) = 1 + e w j ( i x 一- x l l z _ , ) , 它也是仿射不变的如果对权函数w ( ) 加一些条件,我们可以得到样本数 据深度的强相合性 引理1 1 设x f 且e i i x l l 2 ,则对任意给定的x r d 有 l d ( x ,c ) 竺= 鸟l d ( x ,f ) ,( ,zjo 。) 证明见文【1 】性质2 1 推论1 1 假定权函数w ( ) 在 o ,0 0 ) 上连续且非减,并有w ( o o 一) = 0 0 ; 且w ( ) 是利普希兹连续的x 一,且e i i x l l 2 o o 则对任意给定的x r d 有 脱。d ( x ,c ) 旦:鸟耽d ( x ,f ) ,( ,zj ) ( 2 5 ) 证明 i 吉:。w ( o x 一再l i 二- ) 一e w ( 1 l x x l 一- ) l c i 吉:。o x 一薯o 二,一e l | x 一彳o 一。1 其中c 为常数另有 由引理1 1 即得 i k ni i x 一堰产1 一z 2 毗c ) ; e 忙x l l 一。= l z 2 d ( x ,f ) 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 进而得 又有 去球一也t 与e 卜x l l 山( 刀斗咄 i 1 己硝nw ( 鼍峙) 与e w ( x b ) k 专) ( 2 6 ) 所以我们得出 f f 一- l 2 d ( x 矧一既2 d ( x l 。 ,c ) 一耽 ,f ) l 吉:。w ( i x x , i i :- ) 一e w ( 1 l x x l l 一。) ( 1 + 吉:。w ( 卜t 峙) ) ( 1 + e m x x b ) ) 悟:。w ( o x x , i i :,) 一e w ( o z 一彳o 一。) 1 既2 d ( x ,c ) 与既2 d ( _ c ,f ) ,( 以一o 。) 2 2 基于空间秩的数据深度的概念及性质 本节介绍另一种深度函数及其样本数据深度文【3 】构造了另一种深 度函数首先给定向量x r j ,定义 s ( x ) 0 , 然后给定d 维分布f ,定义x 的关于分布f 的空间秩 r ( x ,f ) = e s ( x x ) 】,x , 基于空间秩的数据函数d ( x ,f ) 的定义( 文 3 1 ) m x j j j | 三吣 ,【 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 定义2 3仍设x 为d 维随机变量,它的分布函数为f ,经验分布 函数为兄x 是任意d 维向量,x 疗= 鼍) 三是来自总体f 的样本令 西( x ,f ) = l i i r ( x , f ) 1 1 2 = 卜i i e s ( x x ) 】1 1 2 , ( 2 7 ) 石c x ,c ,= 一i i r ( x , f ) 1 1 2 = 一0 吉善s c x t ,1 1 2 c 2 8 , 称d ( x ,f ) 为基于空间秩的数据深度;d ( x ,e ) 为对应的样本数据深度 同样的,d ( x ,f ) 满足以下性质 b ( 1 ) ( 对称中心最深) 若f 关于0 对称,则d ( o ,f ) = 1 且当f 关于原点o 对 称时,有d ( x ,f ) = d ( - x ,f ) b ( 2 ) ( 最深点向外深度递减) i i x l 大,d ( x ,f ) 越小 b ( 3 ) ( 无穷远处深度趋于零) s u pd ( x ,f ) 专0 ,当m 0 0 i i x p - m b ( 4 ) ( 正交仿射不变性) 设随机变量x 的分布是矗,给定任意的d d 阶矩 阵a 满足a t a = 圾,且任意给定的d 维向量b ,都有 d ( a x + 6 ,+ 6 ) = d ( x ,f ) 可见d ( x ,f ) 不是对所有可逆阵都是仿射不变的但我们仍可以对 d ( x ,f ) 修改,使得 d ( x ,f ) = 1 一l f e s ( 一5 ( x x ) ) | 2 ,f ) = 一 i e s ( 2 ( x x ) ) i | 其中是总体的协方差阵,范数l l a l l m 同上定义 任意给定非奇异阵a 与任意d 维向量b ,则随机变量左y + b 的协方差 为彳彳r 于是( 彳么7 1 - - 1 - - a7 ) - 1 一1 彳一且有 je s ( z 气x 卅) 】1 1 2 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 = e 鼯p 吐鼯 对于向量瓜+ b 与随机变量4 x + b f 饼+ 6 , 于是有 le s ( ( 彳彳7 1 ) 彳( x x ) ) 1 1 2 卡麟街叫1 2 = ( e 【s ( x x ) 】) 7 彳7 ( 彳7 ) - 1 一1 彳一1 彳( e 【s ( x x ) 】) = 吖鼯 1d 鼯 = i i e 【s ( 一 ( x x ) ) 】1 1 2 d ( a x + 6 ,十6 ) = d ( x ,) 所以d ( x ,f ) 是满足仿射不变性的且仍满足性质b ( 1 ) 、b ( 2 ) 、b ( 3 ) 、b ( 4 ) ,一一 , 州圻 _ f :u t - 、 x 一 彳 : ,八 s 吖 一一 晦 e e 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 第三章基于空间秩的数据深度历( x ,尸) 的影响函数 稳健性分析中的一个重要概念是统计量的影响函数它考察的是统计 函数或估计量的局部稳健性文【4 】分析了加权深度函数的影响函数 与一些常见的数据深度一样,加权数据深度的影响函数是非有界的说 明加权数据深度的局部稳健性不够好文【3 】提出基于空间秩的统计深 度函数d ( x ,f ) 由其构造出来的加权位置参数估计量有比较高的效但并 未分析该数据深度的稳健性本章的目标就是通过分析d ( x ,f ) 的影响函 数来得出它的局部稳健性并通过影响函数得出样本数据深度d ( x ,c ) 的 渐近正态性 3 1 d ( x ,f ) 的影响函数 假设原始的总体分布为f ,由于某些原因使样本受到一些影响,被一 定比例的其它分布所污染我们的目标是分析当f 受污染时候,f 的泛函 丁( f ) ( 例如被估参数) 的影响程度h a m p e1 在1 974 年提出下面的定义 定义3 1给定xer d ,疋表示退化于点x 的概率分布, 记 f ( g ,瓯) = ( 1 一e ) f4 - 翻蠢,其中0 占1 令 伊( 耵= 雾丢叭) 川聊= 芸( 即( 啦) ) ) l 。 ( 3 1 ) 称i f ( x ,t ,f ) 为泛函丁基于f 的影响函数;当x 变化时,i f ( x ,t ,f ) 的图象 称为影响曲线 定义3 2影响函数模的上界定义为 伽( 丁,f ) = s u 酬胪( x ,t ,硎p , ( 3 2 ) j 尺“ 称它为丁( f ) 的过失误差敏感性 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 对于基于空i 司秩的深度函数 阶h 一陋岛,l | 2 = l c 锱删c 锱删, 我们有如下结论 命题3 1 g r e ( d ( y ,尸) ,f ) = 2 ( 1 一石( y ,f ) ) + 2 从而d 一( y ,f ) 是局部稳 健的 证明 给定点x 、y ,我们有 伊( x ,西( y ,) ,f ) :l i m 里q 竺旦兰堑奠l ! 型:旦 “m ! 二8 趟竺竺! :丛二坠2 一二- f ( y - t ) r d f ( t ) ) ( 嗣) - c :l i r a = - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 一 = l i r a ( ( 2 - 占) ( 1 - d ( y , f ) ) - 2 ( 1 - c ) ( 错刊( 嗣h 叫m d ( y , f ) ) - 2 ( 错刊( 嗣) 3 , 又由 l i r as u 驯p1 锱删c 嗣,i = l , 所以得 g r e ( d ( y ,f ) ,f ) = s u pi i f ( x ,d ( y ,) ,f ) f = 2 ( 1 一d ( y ,f ) ) + 2 4 x 戤 可见,d ( y ,f ) 的影响函数是有界的,而且过失误差敏感性较低,说 明数据深度d ( y ,f ) 的局部稳健性较好体现了该定义下的数据深度的优 浙江大学硕士学位论文 数据深度和基于数据深度的多维中位数的稳健性分析 3 2 d ( y ,f ) 的经验影响函数的渐近性和d ( 少,e ) 的渐近正态性 上节的影响函数是针对总体参数丁( f ) 的,如果有样本x n = 而) 三,那 么我们可以用丁( ) 来估计丁( f ) ,其中e 是经验分布进而我们可以用经 验影响函数来估计总体参数的影响函数 定义3 3 设扩= 鼍) :l 是来自总体分布f 的样本丁( e ) 是基于样 本x 力对t ( f ) 的估计c 是经验分布函数令 也f(,。,2(),2;:,),2;:,):!:!:;:;1;:j!:!:21:!ij;i趟1 ( :;。) 称i f ( x ,t ( y ,e ) ,c ) 为t ( f ) 的经验影响函数 对于深度函数d ( y ,f ) ,我们有如下结论 命题3 2 i f ( x ,历( 少,e ) ,c ) 与伊( x ,d ( y ,f ) ,f ) ,( 刀专o o ) 证明 i f ( x ,d ( y ,e ) ,e ) 一配,( 1 一熹) 只+ 熹正) 也y 1 n + 1 = ! 二牝二查里( 圣兰! 造堑! 二查星二至! :垒1 1 n + l 一( 1 一( 1 一古) 2 ) ( 1 一砘e ) ) 一2 ( 1 一古) 古( 击。篙鞴) 嵩罱+ 嫱) 2 一 上一一 ( 2 一鬲1 ) ( 1 也y ) _ 2 ( 1 一鬲1 ) ( i 1k n ,阿( y - 砑x s ) r ) 。呙) + 者 由五( ) ,f 瞳) 鸟历( ) ,f ) ,即得 1 3 浙江大学硕士学位论文 数据深度和基于数据深度的多维中位数的稳健性分析 i f ( x ,d ( y ,e ) ,e ) 与口( x ,d ( y ,f ) ,f ) ,( 刀寸o o ) ( 3 5 ) 接下来我们通过d ( y ,e ) 的样本影响函数得到d ( y ,e ) 的渐近正态 性 命题3 3 若x - f ,x 疗= t ) :l ,且满足 ( i k n ,网( y - x s f ( y - t ! ld f ) 去三岛叫 则有 石( 历( y ,e ) 一历( 少,f ) ) 旦专( o ,4 a ) ( 3 6 ) 其中a - - e ( i f ( x ,历( y ,) ,) 2 证明 首先,我们有 d ( y , f n 脚饥耻1 坷y ,f ,、一1 :,网( y - x f ) r ) ( i 厶n 高) 另由 删l 及堋耻2 ”配,) ) _ 2 ( 锱咧嗣) , 得 去:f ( x , ,五( ) 一 - ( 1 越圳一( 错删丢:蹦) ( 1 一d ( y , f ) ) - ( 昙:。锱) ( 丢:。岛) + ( 去:。锱一喘卿( 去:。矧) 邓魄删一( 去:。错) ( 去三网( y - x _ f ) p 。意1 浙江大学硕士学位论文 数据深度和基于数据深度的多维中位数的稳健性分析 砸以) 域y = 去二i f ( 而,石( 垆) + o p ( 匆 ( 3 7 ) e ( i f ( x , ,d ( y ,) ,) ) - 2 ( 卜配册2 ( 川f ( y _ y - 叫o s i 订顺蹦) = 2 ( 1 - d ( y ,f ) ) 一2 ( i - d ( y ,f ) ) = 0 , i f ( x j f ,d ( y ,f ) ,) 冬l 是i i d 序列,所以我们有 4 n ( b ( y ,巴) - d ( y ,f ) ) 与n ( o ,4 a ) 其中人= e ( i f ( x ,d ( y ,f ) ,f ) 2 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 第四章基于数据深度的多维中位数的崩溃点 崩溃点是讨论估计量稳健性的一个重要概念它是一个统计量抵抗异 常数据能力的一个测度h a m p e1 ( 1968 ) 提出基于总体分布的崩溃点概念, 也即渐近崩溃点1 ) o n o h o 和 t u b e ( 1983 ) 定义了有限样本崩溃点样本崩溃 点体现估计量的全局稳健性已经有很多学者分析了位置参数、回归参数 估计量的崩溃点最近崩溃点的研究已经延伸至假设检验、非参数回归等 领域多维分布中的数据深度在多元分析有广泛的应用基于数据深度的 多维位置参数估计量等有比较好的性质文【4 】分析了加权三2 深度函数的 简单替代型崩溃点以及其基于一定条件的加权三2 深度的多维中位数的简 单替代型崩溃点崩溃点有增加型和替代型两种类型从替代型崩溃点延 伸出简单替代型崩溃点在分析中,简单替代型崩溃点比较简单,而增加 型崩溃点分析更贴近实际问题学者提出简单替代型崩溃点是相对比较保 守的本章将重点分析基于三2 深度函数样本中位数的增加型样本崩溃点 和简单替代型样本崩溃点,然后分析基于不同条件的加权2 深度函数多 维中位数的增加型样本崩溃点和替代型样本崩溃点 4 1 数据深度的两类崩溃点 首先,我们假定x 玎= t ) :l 是来自总体分布为f 的样本现针对d 维参 数0 的估计或假设检验,构造丁( ) 是0e - r 一个估计量或检验统计量在实 际问题中,往往由于记录或者测量故障等原因使得样本惨杂了少量异常 值,使得样本由x 一变为y 历崩溃点的研究对象就是在样本y 所下,r ( y 用) 的 变化我们引用d o n o h o 和 t u b er 定义的崩溃点 定义4 1 设,= 鼍) :l 是来自总体分布为f 的样本,x n - k 是删掉其 中k 个观测值所剩下的容量为刀一k 的样本f 是( r d ,孵) 上的b o r e l 可测 分布函数丁( x 疗) 是基于样本,的一个估计量另有少= y ,i ,= l , ,其中 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 y j r d 令 = 删问i n 熹:吵m 枷) ; , 东= 东s r ( x , t , r a ) = m i n 黔s u pd e ) - = ) 2 , 其中l | i i 是欧式距离则称为t ( x n ) 的增加型样本崩溃点;东为t ( x 刀) 的 简单替代型样本崩溃点 因为数据深度是取值于【0 ,1 】上的针对样本数据深度的崩溃点,文 4 1 提出了数据深度的简_ q - 替代型样本崩溃点的定义我们继续引用它的定 义,然后对应的提出数据深度的增加型样本崩溃点 定义4 2 设x 盯= t ) :l 是来自总体分布为f 的样本,x n - k 是删掉其中 k 个观测值所剩下的容量为刀一k 的样本 少= 乃 :, 其中 y ,r d d ( x ,x 以) 是基于样本x ”的x 的样本数据深度令 砒腑功= m i n 熹:s 广u pl o g ( d ( x , x ) ) - l o g ( d ( x , x 0 y k ) ) = ) ; b p a ( d ;x 甩) = i n b p a ( d ( x ,x ) ) ; ( 4 3 ) b p s r ( d ( x , x ) ) = m i n 鹃s u p l l o g ( d ( x , x n ) ) - l o g ( d ( x , x - ku y k ) ) = ) ; b p s n ( d ;x 门) = i n f ,b p s r ( d ( x ,x 疗) ) ( 4 4 ) 则称b p a 为d ( x ,x n ) 基于点x 的增加型样本崩溃点,b p a ( d ;x 疗) 为对应数 据深度的增加型样本崩溃点,b p s r 为d ( x ,x 疗) 基于点x 的简单替代型样本 崩溃点,b p s r ( d ;x n ) 为对应数据深度的见到那替代型样本崩溃点 同文【5 】,我们有如下结论 命题4 1令 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 可得关系 k 1 = m i n 后:s 罗p l l o g ( d ( x , x ) ) - l o g ( d ( x , x u y k ) ) l = o 。) ; k 2 = r a i n 七:吵g c 砸哕,h 茚艘( d ( x ,) ) 蔚彳( d ( x ,x 以一岛) ) 西豫( d ( x ,x 肛与+ 屯) ) ( 4 5 ) 证明同文【5 】得 茚则一) = 鲁纛; 砒。( x ,x n - k 1 ) ) _ 彘; 当原始样本从x 加向增加成为x n - 七i + 岛= x 肛岛ux 如时,若对后来增加的样本x 足2 用y 如= 乃) 名l 进行替代,得s e p i l o g ( d ( x ,x 肛局u y 也) ) i = ,于是有 以 所以 彝歙( 以x ,x 疗一向+ 岛) ) n 一毛+ k 2 即a 艘( d ( x ,x n ) ) 画彳( d ( x ,x 月一向) ) 茚艘( d ( x ,x 肛岛+ 包) ) 文【4 】已经得到w l p d ( x ,f ) 的简单替代型样本崩溃点是1 现在我们 可得w l p d ( x ,f ) 的增加型样本崩溃点为l ( 胛+ 1 ) 对于深度w l p d ( x ,f ) ,有其增加型样本崩溃点 b p a ( w l p d ( x ,x n ) ) 刊n 熹:罗i l o g ( 膨d ( x , x ) ) - l o g ( 膨d ( x , x i jy k ) ) = 0 = r r i n 罱k 刮- 卜廿,+ 熹阳i i p + 跚二圳 :斗 浙江大学硕士学位论文数据深度和基于数据深度的多维中位数的稳健性分析 现取y 1 = 少1 ) ,则得 i l o g ( 膨y w ) ) l :i - 。g ( 1 + 刍( :i i x t i i p + i i x mi | 当i l y , i p 专,对于给定向量x ,可得忙一mk 专,于是 i i o g ( w l p d ( x , x um ) ) i 专,( 1 l y l1 1 专o o ) 进而有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校现金员管理制度
- 学校规范化管理制度
- 学生代管班管理制度
- 学生课间跑管理制度
- 安保部奖罚管理制度
- 宋朝对地方管理制度
- 定制类订单管理制度
- 实训室开放管理制度
- 审核相关方管理制度
- 客运驻站办管理制度
- 电力咨询费合同协议
- 2025-2030海洋环境监测行业市场深度调研及发展前景与投资研究报告
- 2025年中学生离队入团活动实施方案
- 玻璃基板制备技术考核试卷
- 南极磷虾油与红曲、辅酶Q10联用降低血脂效果研究
- 2025年上海市安全员C3证(专职安全员-综合类)考试题库
- 钱大妈加盟合同协议
- 基本公共卫生服务2025版培训
- 《建筑工程识图》课件-梁平法施工图识读一
- 上海杨浦区社区工作者考试真题2024
- 汽车智能制造技术考核试卷
评论
0/150
提交评论