(应用数学专业论文)两类数据深度及深度加权m估计.pdf_第1页
(应用数学专业论文)两类数据深度及深度加权m估计.pdf_第2页
(应用数学专业论文)两类数据深度及深度加权m估计.pdf_第3页
(应用数学专业论文)两类数据深度及深度加权m估计.pdf_第4页
(应用数学专业论文)两类数据深度及深度加权m估计.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(应用数学专业论文)两类数据深度及深度加权m估计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院博士学位论文 摘要 数据深度( 或称为统计深度函数) 作为一种多维数据的排序方法,已经被广泛 应用于质量控制、多元回归、置信区域、聚类判别、非参检验和风险度量等众多领 域本文利用多元分析方法并结合凸分析方法,研究了两类数据深度,包括凸深度 和投影型数据深度( 包括弱投影深度和投影不变数据深度) ,提出了线性模型下基于 数据深度的加权m 估计本文主要包括三大部分: 1 提出了凸数据深度的定义,并指出其实际上为一种理想数据深度,证明了 一种数据深度为凸深度的充要条件,并研究了凸深度的若干性质:拟凹性、截尾区 域、中位数、加权均值和截尾均值介绍了凸深度的三种构造方法 2 提出了投影型数据深度;弱投影深度( 包含强投影深度) 和投影不变数据深 度证明了数据深度为弱投影深度( 包含强投影深度) 和投影不变数据深度的充要 条件,减弱了文献 9 3 】中的定理2 中关于强投影深度的充要条件,并指出了定理3 中的一个遗漏条件在实例的讨论中首次得到了半空间深度为强投影深度的实例 研究了文献【9 3 】提出的广义数据投影深度和广义投影深度加权均值的若干稳健性 质,丰富了现有文献的结论 3 首次提出了线性模型下基于数据深度的加权m 估计,证明了该估计有不 随空间维数变化的比较好的崩溃点,并讨论在误差序列为妒混合,妒混合,p 混 合,芦混合序列和n a 序列,在矩条件较弱的条件下得到了该估计的强相合性,在 实质上改进了现有结论 关键词数据深度,统计深度函数,凸深度,投影型数据深度,弱投影深度, 强投影深度,投影不变深度,深度加权m 估计 第i 页 国防科学技术大学研究生院博士学位论文 a b s tr a c t d a t ad e p t h s ( s t a t i s t i c a ld e p t hf u n c t i o n s ) h a v eb e e nw i d e l ya p p l i e dt oq u a l i t y c o n t r o l ,m u l i t i v a r i a t er e g r e s s i o n ,c l u s t e r i n ga n dc a l s s i f i c a t i o n ,n o n p a r a m e t r i ct e s ta n d r i s km e a s u r e i nt h i sd i s s e r t a t i o n ,w es t u d ys o m ed a t ad e p t h s ,i n c l u d i n gc o n v e xd a t a d e p t h ,w e a kp r o j e c t i o nd e p t h ,s t r o n gp r o j e c t i o nd e p t h a n dp r o j e c t i o ni n v a r i a n c ed e p t h w ep u tf o r w o r da w e i g h t e dm - e s t i m a t i o nb a s e do nd a t ad e p t h t h et h e s i sc o n s i s t sm a i n l yo ft h r e ep a r t s : 1 c o n v e xd a t ad e p t hi si n t r o d u c e da n di ti sp o i n t e do u tt h a tt h ec o n v e xd e p t h i sa ni d e a ld a t ad e p t h as u f f i c i e n ta n dn e c e s s a r yc o n d i t i o nf o rc o n v e xd e p t hi s p r o v e d s o m ep r o p e r t i e so fc o n v e xd e p t h a x es t u d i e d ,i n c l u d i n gq u s i c o n c a v i t y , t r i m m e d r e g i o n ,m e d i a n ,w e i g h t e dm e a na n dt r i m m e dw e i g h t e dm e a n t h r e ec o n s t r u c t i v e m e t h o d so fc o n v e xd a t ad e p t ha r ei n t r o d u c e d 2 p r o j e c t i o nt y p ed a t ad e p t h s :w e a kp r o j e c t i o nd e p t h ( i n c l u d i n gs t r o n gp r o - j e c t i o nd e p t h ) a n dp r o j e c t i o ni n v a r i a n c ed e p t ha r ed e f i n e d s u f f i c i e n ta n dn e c e s s a r y c o n d i t i o n sf o rt h ew e a kp r o j e c t i o nd e p t h ( i n c l u d i n gs t r o n gp r o j e c t i o nd e p t h ) a n d p r o j e c t i o ni n v a r i a n c ed e p t ha r ep r o v e d o n es u f f i c i e n ta n dn e c e s s a r yc o n d i t i o ni n t h e o r e m2i nap a p e rb yr a i n e rd y c k e r h o f f ( a l l g s t a t a r c h 8 8 :1 6 3 - 1 9 0 ,2 0 0 4 ) i s w e a k e n e d o n em i s s i n gc o n d i t i o ni nt h e o r e m3i nt h ep a p e ri ss t a t e d a ne x a m p l e t h a th a l f s p a c ed e p t hc a nb eas t r o n gp r o j e c t i o nd e p t hi sg i v e nf i r s t l y s o m er o b u s t p r o p e r t i e so fg e n e r a l i z e dp r o j e c t i o nd e p t ha n dg e n e r a l i z e dp r o j e c t i o nd e p t hm e a n a r es t d u i e d e x i s t i n gr e s u l t sa r ei m p r o v e d 3 w e i g h t e dm e s t i m a t i o nb a s e do nd a t ad e p t h i sd e f i n e df i s t l yi n l i n e a rm o d e l h i g h b r e a k d o w np o i n to ft h ee s t i m a t i o ni n d e p e n d e n to fd i m e n s i o ni sa c h i e v e d n as e - q u e n c ea n ds o m em i x i n gs e q u e n c e s :矽,妒,pa n d 卢c o n s i d e r e da se r r o rs e q u e n c e si n l i n e a rm o d e la r ed i s c u s s e d ,a n dt h es t r o n gc o n s i s t e n c yo ft h ee s t i m a t i o ni so b t a i n e d i nl o w e rm o m e n tc o n d i t i o n r e s u l ti sg r e a t l yb e t t e rt h a nt h ec o r r e s p o n d i n gr e s u l t k e yw o r d sd a t ad e p t h ,s t a t i s t i c a ld e p t hf u n c t i o n ,c o n v e xd e p t h ,p r o j e c t i o n t y p ed a t ad e p t h ,w e a kp r o j e c t i o nd e t h ,s t r o n gp r o j e c t i o nd e p t h ,p r o j e c t i o ni n v a r i a n c e d e p t h ,d e p t h - w e i g h t e dm e s t i m a t i o n 第i i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我- n 工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目: 匾娄数量遂廑丞送廑垄拯丛垡盐 学位论文作者签名:蘑盗日期:劲四年p 月引日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:匾尝数量遂廑丞送廑垄拯丛焦i 土 学位论文作者签名:盈盔日期:础# o 月弓日 作者指导教师签名:;蓼0 毛趾日期:z 瞬厂d 月衫日 国防科学技术大学研究生院博士学位论文 第一章绪论 1 1 概述 1 1 1 数据深度概述 数据深度( d a t ad e p t h ) 是非参数统计、计算几何、代数和计算机科学等领域研 究的一个新概念在进行数据分析的时候,排序是一项重要的工作,对于一维数据 而言,排序的概念是不言自明的,总是可以根据数据的大小来对数据进行排序但 是,当数据的维数超过一维的时候,排序就没有统一的标准了比如,( 1 ,5 ,6 ,2 ) 和 ( 2 ,4 ,3 ,6 ) 两个数据点,哪个更“大”一些? 用不同的标准,可能得到不同的结果 随着维数的增加,这种判断的难度会不断增大几十年来,许多学者致力于在高维 数据中寻找类似于一维次序统计量的高维次序统计量b i k e l 曾把高维数据各分量 独立的对待,把高维中位数看成是各分量一维中位数组成的向量其缺点是不具有 仿射不变性,且当分量高度相关时渐近效率很差显然,由于高维数据的复杂性, 把一维中位数推广到高维中位数不是一件容易的事情基于h o t e l l i n g 2 8 】的思想, h o d g e s 3 8 于1 9 5 5 年首次把深度的概念推广到二维t u k e y 4 8 】明确提出了半空间 深度此后,有许多学者提出了上十种数据深度其中,比较常见的数据深度有半空 间深度、单纯形深度【9 6 ,9 7 1 、单形体积深度【2 6 1 、投影深度 1 4 6 ,1 5 5 、z o n o i d 深 度【2 4 1 、p 深度 1 4 6 、三2 深度 1 2 7 ,1 2 8 ,1 4 6 、凸层深度 1 2 0 1 、空间秩深度 1 5 9 和马氏深度【嘣】等数据深度( 又称统计深度函数( s t a t i s t i c a ld e p t hf u n c t i o n ) , 有时也称为中心度 3 3 1 ( c e n t r a l i t yd e g r e e ) ) 为高维数据提供了种由中心向外排序 的半序方法,从而把一维情形中的中位数、秩统计量、l 统计量等概念推广到高 维近年来数据深度已经被广泛应用于质量控制【2 ,2 9 ,9 8 1 、数据分类 4 1 、多元回 归 8 8 ,8 9 ,1 3 6 、置信区域 1 6 6 、聚类判别【9 5 1 、异方差检验【4 6 1 和风险度量【3 2 】等 众多领域中近年来,r i c a r d on a i m a n 【1 0 3 】和s a r al o p e z - p i n t a d o 1 1 0 ,1 1 1 等人还 提出了函数型数据( f u n c t i o n a ld a t a ) 的数据深度,开拓了数据深度新的研究领域 对于数据集而言,不同的数据包含的信息一般是不同的,在决策和估计中的作 用也是不同的数据深度可以看作是表示一个高维数据在相应的概率分布或者给定 样本数据集下,这个数据到底有多么的靠近中心一般来说,靠近中心的高维数据 深度较大,远离中心的高维数据深度较小这样通过数据深度就可以把隐藏在数据 中而又无法直接利用的信息挖掘出来,为数据分析和处理提供依据衡量一个数据 深度优劣的基本标准除了左义君和s e l f l i n g 1 4 6 在2 0 0 0 年提出的四条基本性质以 外,还有影响函数【2 2 1 ,最大偏差【2 2 1 ,崩溃点 1 5 ,1 6 0 和渐近性等 第1 页 国防科学技术大学研究生院博士学位论文 国内外的众多理论和应用的研究成果表明,数据深度是一个很有挑战性的新的 数据分析和处理工具,有着广阔的前景 1 1 2 数据深度的一般定义 左义君和s e l f l i n g 1 4 6 在2 0 0 0 年提出了一般数据深度的定义,并给出了构造数 据深度的四种方法下面我们介绍他们提出的一般数据深度的定义,在下面的定义 中厂表示r d 上所有分布组成的类,b 表示随机向量y 的分布,”l l 表示欧氏 范数 定义1 1 1 1 1 4 6 设d ( ;) 是r d 厂_ 酞的有界非负函数,且满足以下四条性 质: c 1 ( 仿射不变性) 对任意p p 阶的可逆矩阵a ,任意的d 维向量b 和z ,以及 r d 上的任意随机向量y ,有d ( a x 4 - 6 ;f a y - t - b ) = d ( z ;b ) ,其中,b 表示y 的分 布; c 2 ( 对称中心最深) d ( 臼;f ) = s u pd ( z ;f x ) ,对厂中任意以p ( 相对于某种多元 x e r d 分布的定义,见 1 4 6 ) 为中心的分布f 都成立; c 3 ( 沿最深点向外的射线深度递减) 对任意给定的f ,若d 在口处达到最 大,则对所有入 0 ,l 】,都有d ( z ;f ) d ( o + 入 一目) ;f ) 成立; c 4 ( 无穷远处深度为零) 对任意给定的f 厂,当恻i _ o o 时,d ( z ;f ) _ o 则称d ( ;f ) 是一个数据深度( 统计深度函数) 为了方便后面的陈述,我们把满足定义1 1 1 的数据深度称为z s 深度,或简 记为z s d 在后面我们会看到,虽然不是所有的数据深度都完全满足定义1 1 1 ,但 在习惯上我们也称它们为数据深度 设h ,蚝,k 是一组来自分布f 的样本,r 是其相应的经验分布,则称 d ( ;r ) 为d ( ;f ) 的样本深度或者样本形式在数据分析与处理中,许多情形下, 分布f 的信息是不完整的,我们经常会用到样本深度d ( ;r ) 对于定义1 1 1 的中的四条性质,注意以下几点: 1 满足性质c 1 ( 仿射不变性) ,表示点的数据深度与坐标轴的选取无关 2 满足性质c 2 ( 对称中心最深) 也是一个自然的要求,当然此处”中心”的 含义可以根据需要作出不同的定义,比如中心对称,角对称、。半空间对称和p 对称 等,具体可参考1 0 0 ,1 4 6 ,1 5 8 在某种意义上,也可以这么说,数据深度最大的 点,就是分布的中心使数据深度达到最大值的点被称为最深点,但最深点不一定 唯一 3 满足性质c 3 ( 沿最深点向外的射线深度递减) 表明o l 一截尾区域( 见定义 第2 页 国防科学技术大学研究生院博士学位论文 1 1 3 ) 是关于对称中心口的星形集一个集合a 称为关于z ( a ) 的星形集,若 v y a ,a 1 0 ,1 】,有a z + ( 1 一a ) 秒a 4 也许有人认为性质c 4 ( 无穷远处深度为零) 过于严格,函数d ( z ;f ) 可能只 满足d ( z ;f ) _ l ( l o ) ,l i x l i 一。此时,可以把数据深度定义为d 0 ;f ) 一l , 那么新的数据深度在不影响其他性质的前提下,满足性质c 4 当然,对于性质c 4 , 也有可能在某个点处的数据深度就已经等于零了 在一维空间中,用样本中位数代替样本均值,可以得到更好的性质和结果那 么,对于多维空间,我们能否找到合适的中位数呢? 【1 2 】曾介绍了一些中位数的概 念,初步探讨了一些中位数的性质与差异,并指出在多维空间里,没有哪一种中位 数是对一维中位数的绝对最优的推广下面我们介绍多元中位数的定义 定义1 1 2 1 4 6 】若d ( 9 ;f ) = a r gs u pd ( z ;咒) ,则称9 是对应于分布f 的中位 到r d 数设k ,配,k 是一组来自分布f 的样本,r 是其相应的经验分布,若 d ( 如;r ) = a r gs u pd ;r ) , 2 r d 则称为样本中位数 口有时候被称为理论中位数,而在实际应用中,许多情形下,分布f 的信息是 不完整的,所以得到的一般是样本中位数以由定义1 1 2 易知,中位数都是最深 点,但是最深点并不一定是唯一的当最深点不唯一的时候的处理方法一般是取所 有最深点的平均为中位数 在研究数据深度的性质的时候,经常还要用到截尾区域,或中心区域,在凸分 析中,也称为水平集 定义1 1 3 1 4 6 对于给定的数据深度d ( z ;f ) 和o l 0 ,称 d q ( f ) 三 z r d i d ( x ;f ) a ) 为相应的a 一截尾区域,它的边界o d n ( f ) 称为相应的q 一等深 我们用d a ( r ) ,o d q ( r ) 分别表示相应的样本q 一截尾区域和样本o l 一等深 由定义1 1 1 ,可知z - r 深度的o l 一截尾区域满足仿射不变性,即d a ( f a y + b ) = a d a ( f ) + b 这里有一个有趣的问题,当数据深度给定的时候,若两个分布f 和g 的口一截 尾区域完全相同,那么f 和g 是否相同呢? 【5 2 】给出的答案是不一定也就是说, 对于给定的数据深度,q 一截尾区域不一定能唯一确定随机向量的分布例如,马 氏深度的q 一截尾区域不能唯一确定随机向量的分布,而z o n o i d 深度可以( 条件是 分布的一阶矩存在) 对q 一截尾区域的研究结果还可以参考 1 3 5 和【1 4 7 第3 页 国防科学技术大学研究生院博士学位论文 此外,【9 3 】提出了数据深度的另一种一般定义,并在此基础上提出了两类数 据深度,并讨论了其一些重要性质在后面的章节我们将会讨论 9 3 提出的数据深 度 1 1 3 主要数据深度 对于不同的数据深度定义,对数据进行计算会得到不同的结果本节将简要介 绍一些比较常见的数据深度 1 半空间深度( h a l f s p a c ed e p t h ) 4 8 】 半空间深度( h d ) 也称为t u k e yd e p t h 或者位置深度( l o c a t i o nd e p t h ) ,掣中 z 关于分布f 的半空间深度为: 日d ( z ;f ) = u i n r f 。p f ( 也,u ) 2 i n :f 1 斥( 也,u ) 其中,也,u = 秒r d l 钆7 y u 7 z ) 是包含z 的闭半空间,u 表示u 的转置 样本深度为: h d ( z ;r ) = 瓢i n 甜f 教i u 7 五u l x ) 其中,轷a 表示集合a 中元素的个数 特别地,当d = 1 时, h d ( x ;f ) = m i n f ( x ) ,1 一f ( x 一) 1 h d ( x ;r ) = 三m i n 移 z i x i z ) ,弁 i i 五z ) ) ,0 对半空间深度深度的研究结果比较多 1 研究了对应于原子测度的半空间深 度的性质,并利用其性质重新证明了k o s h e v o y 定理 5 】讨论了一般位置情形下, 半空间深度及与其相关的回归深度的性质 2 0 】得到了半空间深度的一个类似位置 分析的特征 3 6 】提出了r a n d o mt u k e yd e p t h 的定义,在维数较高时,大大减少 了半空间深度中投影的计算量 6 8 】证明了半空间深度的影响函数的有界性和连续 性 【1 4 6 】证明了半空间深度是z s 深度【1 6 4 】研究了对称稳定分布条件下半空 间深度及相应中位数的性质半空间深度比较直观,对随机向量的矩没有要求,稳 健性好,但是计算量比较大 2 单纯形深度( s i m p l i c i a ld e p t h ) 9 6 ,9 7 单纯形深度也称单形深度,设x 1 ,咒,x d + l i i d f ,则r d 中z 关于分布 f 的单纯形深度为: s d ( x ;f ) = p f z s 【x 1 ,x 2 ,托+ 1 】) 第4 页 国防科学技术大学研究生院博士学位论文 其中,s 1 ,x 2 ,托+ 1 】是以墨,恐,x a + 1 为顶点的随机闭单形 它的样本深度s d ( x ;r ) 为: 删编,= ( d “ni - - il i 1 0 1 4 6 】提出了驴深度的概念,并证明了其在p 1 时,满足性质c 3 和c 4 ,在 f 为中心对称的时满足性质c 2 而该深度不满足性质c 1 ,即仿射不变性【1 5 6 】把 汐深度推广到了加权深度,并讨论了该深度及其中位数的性质 【1 4 6 】还提出 了在p = 2 的时候,驴深度修改为一个满足仿射不变性的三2 深度: l 2 d ( x ;f ) = ( 1 + e i i x x l 医1 - 1 , x f 其中,为f 的协方差阵 但 1 4 6 没有对其进一步讨论 【1 2 7 和 1 2 8 详细讨论了三2 深度的性质 7 空间秩深度( r a n k - b a s e dd e p t h ) 1 4 6 ,1 5 9 和仿射不变空间秩深度 1 2 6 ,1 2 8 1 删中z 关于分布f 的空间秩深度为: r b d ( x ;f ) = 1 一l i r ( x ;f ) lj 2 ,y f 第6 页 、, n 0 ,d 口) 是闭集; p 3 ( 凸性) 比 0 ,d n ( f ) 是凸集; p 4 ( 无穷远处深度为零) 对任意给定的f 厂,当恻l 一时,d ( z ;f ) 一o 则称d ( z ;f ) 是分布f 下的凸深度,简记为d ( z ) 第1 3 页 国防科学技术大学研究生院博士学位论文 定义2 1 1 与定义1 1 1 不完全相同,不同之处在于性质尸2 和p 3 在凸深度的 定义中,并没有提到性质c 2 和c 3 在后面的证明中,我们可以看到凸深度一定有 最深点,至于对称中心是不是最深点,关键如何理解高维情形下的对称中心如果 把唯一的最深点理解为对称中心,也未尝不可后面我们将证明凸深度必然满足性 质c 3 显然,性质p 2 等价于d ( z ;f ) 关于x 上半连续,性质p 3 等价于d ( z ;f ) 是关于z 的拟凹函数 对数据深度的截尾区域及相关性质研究一直是数据深度研究的一个重点,截尾 区域不仅能反映数据深度的基本性质,而且可以直观描述数据集内的各数据点的深 度分布情况对于凸数据深度,可以完全采用截尾区域的方法来定义 定义2 1 2 若数据深度d ( z ;f ) 的截尾区域满足以下四个条件: z 1 ( 仿射不变性) 对任意pxp 阶的可逆矩阵4 ,任意的d 维向量b 和z ,以及 础上的任意随机向量y ,有d a ( f a y + b ) = d a ( 乃) ,其中,乃表示y 的分布; z 2 ( 闭性) v a 0 ,d 口( f ) 是闭集; z 3 ( 凸性) v a o ,d 口( f ) 是凸集; z 4 ( 有界性) v a o ,d q ( f ) 是有界集 则称数据深度d ( z ;f ) 是分布f 下的凸深度简记为d ( x ) 或d 命题2 1 1 对于数据深度d ( z ;f ) ,有z 1 骨p 1 ,z 4 铮p 4 证明对任意p p 阶的可逆矩阵a ,任意的d 维向量b 和x ,以及酞d 上的任 意随机向量y ,有d ( a z + 6 ;乃什6 ) = d ( z ;b ) ,其中,b 表示y 的分布那么 d ( a z + 6 ;f a | ,+ 6 ) q 铮d ( z ;b ) q ,故z 1 错p 1 若v q o ,d 口( f ) 是有界集,设有一个序列 z n ) ,n n 满足l i ml i x n i i = 比d a ( f ) ,3 m 0 ,满足恻i m ,此时z n 隹d a ( f ) 由q 的任意性,易知d ( z ;f ) 满足性质尸4 若d ( z ;f ) 满足性质尸4 假设| q o 0 ,d 子( f ) 是无界集那么存在一个序列 z n ) ,佗n 满足l i mi i x n | i = o 。且d ( x n ;f ) a ,与性质p 4 矛盾 口 由命题2 1 1 可知,定义2 1 2 和定义2 1 1 中所定义的凸深度是等价的 2 1 2凸深度与z s 深度 。 引理2 1 1 凸深度d ( z ;f ) 至少有一个最深点z o r d ,即 i x 刺,有 d ( z o ;f ) d ( z ;f ) 证明若d ( z ;f ) 三0 ,那么命题显然成立若存在y r d ,使得d ( y ;f ) = o l 0 由凸深度的性质p 2 可知。d 口( f ) 是闭集,且d ( z ;f ) 是上半连续的同时,由 性质尸4 易知d a ( f ) 是有界集故d n ( f ) 是紧集上半连续函数d ( z ;f ) 在紧集 第1 4 页 国防科学技术大学研究生院博士学位论文 d q ( f ) 上必有最大值引理得证 口 由引理2 1 1 的证明过程可知,只要一个数据深度满足性质p 2 和尸4 ,就至少 有一个最深点 命题2 1 2 若凸深度d ( z ;f ) 沿最深点向外的射线深度严格递减,则凸深度 d ( z ;f ) 有唯一最深点 证明由引理2 1 1 的结论和命题条件易知 口 引理2 1 2 凸深度d ( z ;f ) 满足性质c 3 ,即沿最深点向外的射线深度递减 证明设最深点为0 , v x r d , d ( z ;f ) = q 那么,0 ,q d a ( f ) 由于d a ( f ) 是 凸集,故坝 0 ,1 ,都有( 1 - a ) 0 + x d q ( f ) 成立,即d ( z ;f ) d ( e + a ( x - o ) ;f ) 成立 口 从引理2 1 2 可以看出,性质p 3 是性质c 3 的充分条件,有时候直接证明数据 深度d ( z ;f ) 满足性质c 3 比较困难,而证明d a ( f ) 是凸集相对容易,此时利用引 理2 1 2 也不失为一种方法 定理2 1 1 若f 是一个关于护对称的分布,且满足 a r g 砌s u p 。d ( z ;b 一口) na r g 础s u p 。d ( z ;乃一) 咖 ( 2 1 1 ) 则凸深度d ( z ;f ) 是z s 深度,且0 为最深点 证明根据z s 深度和凸深度的定义,以及引理2 1 2 ,我们只需证明凸深度 d ( z ;f ) 满足性质c 2 即可下面证明对称中心p 是最深点,由定理条件易知, 3 x o a r gs u pd ( z ;毛一口) na r gs u pd ( 等;f o 一) ,使得r d ,有 2 r dz r d d ( x o + 矽;b ) = d ( x o ;乃一口) = s u pd ( z ;日一p ) d ( 一z + p ;毛) 茁r 4 d ( - x o + 护;日) = d ( x o ;易一! ,) = s u pd 0 ;f o 一| ,) d ( x + 口;蜀) z r 4 故 d ( x o + 口;b ) = d ( 一x 0 + 口;乃) = s u pd ;b ) z r 4 同时, d p ;日) = d ( 1 2 ( - x o + 毋) + 1 2 ( - - x o + 秒) ;毛) m i n d ( x o + p ;日) ,d ( 一x 0 + 目;乃) = d ( x o + 目;b ) = d ( - x o + p ;毛) = s u pd ( z ;b ) 第1 5 页 国防科学技术大学研究生院博士学位论文 u 应当注意,定理2 1 1 中关于口对称,不一定是中心对称,中心对称的定义如 下: 定义2 1 3 1 4 7 对于服从分布f 的随机向量x ,若存在一个向量0 ,使得口一x 与x p 同分布,则称x 关于口中心对称,或称f 是一个关于口中心对称的分 布 推论2 1 1 若f 是一个关于0 中,1 、5 - 对称的分布,则凸深度d ( z ;f ) 是z s 深 度,且p 为最深点 证明根据z s 深度和凸深度的定义,以及引理2 1 2 ,我们只需要证明凸深度 d ( z ;f ) 满足2 1 1 式即可由于f 是一个关于口中心对称的分布,故 d ( z ;乃一一) = d ( z ;f o 一) 同时,由凸深度的定义,比r d ,有 d ( z ;乒一口) = d ( x - f9 ;j 0 ) , d ( z ;f o 一) = d ( - x + 口;乃) , 由引理2 1 1 ,凸深度d ( z ;f ) 有最深点故凸深度d ( z ;f ) 满足2 1 1 式 口 由推论2 1 1 可以知道,若f 是一个关于口中心对称的分布,所有凸深度d ( z ;f ) 都是z s 深度,说明了凸深度是一种理想的数据深度推论2 1 1 的中心对称条件只 是一个充分条件,而非一个必要条件在半空间对称的条件下,对于半空间深度, 既为z s 深度,也为凸深度 定义2 1 4 1 1 4 7 对于服从分布f 的随机向量x ,若存在一个向量0 ,使得对于 任何包含伊与的闭半空间日,有p ( x h ) 1 2 ,则称x 关于口半空间对称,或 称f 是一个关于口半空间对称的分布 命题2 1 3 若f 是一个关于0 半空间对称的连续分布,那么h d ( x ;f ) 是一个 凸深度,且有唯一最深点p 证明由 1 4 6 定理2 1 可知,h d ( x ;f ) 是一个有唯一最深点0 的z s 深 度,故只须证明h d ( x ;f ) 满足性质尸2 和p 3 由【1 4 7 中定理3 1 ( d ) 可知, d 口( f ) 是紧集最后,只要证明d q ( f ) 为是凸集 比1 ,x 2e d 口( f ) ,入 0 ,1 】,对 于x = 入z 1 + ( 1 一a ) x 2 ,任何一个包含x 的闭半空间必然至少包含x 1 和z 2 中的一 点也就是说,h d ( x ;f ) m i n h d ( x a ;f ) ,h d ( x 2 ;f ) ) a ,故x d 口( f ) 命 题得证 口 第1 6 页 国防科学技术大学研究生院博士学位论文 我们称一个集合a 为关于p 的中心对称集,若比a ,有2 0 一z a 特别 地,若口= 0 ,则有a = 一a ,此时,我们称集合a 为对称集由定理2 1 1 ,可以得 到下面两个推论 推论2 1 2 若f 是一个关于口中心对称的分布,则凸深度d ( z ;f ) 的q 截尾 区域d a ( f ) 是关于p 的中心对称集 证明在定理2 1 1 的证明过程中,把z o 换成任意点x e r d 即可 口 推论2 1 3 若f 是一个关于p 中心对称的分布,数据深度d ( z ;f ) 满足性质 p 1 ,p 2 ,c 3 和p 4 ,则它的q 截尾区域d a ( f ) 是关于口的中心对称集 证明由引理2 1 1 的证明过程易知 口 2 2 凸深度的若干性质 2 2 1凸深度的拟凹性 定义2 2 1 设sc 础是非空凸集,( z ) 是定义在s 上的实值函数,若对于 任何x l ,x 2 r 和入【0 ,1 ,有 ,( z ) r a i n f ( x 1 ) , 2 ) ) , 则称,( z ) 是定义在s 上的拟凹函数 在2 。2 。1 中把d ( z ;f ) 简记为d ) 命题2 2 1 凸深度d ( x ) 是拟凹函数 证明由v a o ,d q ( f ) 是凸集,易知凸深度d p ) 是拟凹函数 口 引理2 2 1 若数据深度d ( x ) 满足性质尸2 ,且集合 k = 入( 0 ,1 ) i d ( 入z 1 + ( 1 一a ) x 2 ) m i n d ( x x ) ,d ( z 2 ) ) ,v z l ,x 2 r d ) ( 2 2 1 ) 非空,则k 在【o ,1 】中稠密 证明不妨设a k ,那么1 一入k 而d ( a 2 x l + ( 1 一入2 ) z 2 ) = d d ( 入z 1 + ( 1 一a ) x 2 ) + ( 1 一a ) x 2 ) m i n d ( ) , x l4 - ( 1 一入) z 2 ) ,d ( z 2 ) m i n d ( x 1 ) ,d ( z 2 ) , 故久2 ,1 一a 2 k 用归纳法可以证明对于任意自然数1 1 ,都有入竹,1 一a 亿k 用反证法证明稠密性设有a o ( 0 ,1 ) ,存在 0 ,使得k m ( 入o - - 6 ,入o + ) 二咖 定义a = _ 入k i a a o ) ,显然,当n 充分大时,有 a ,1 一 b ,故a 和b 非空设s u pa = a ,i n fb = b 可以找到充分小的 1 和9 2 ,满足条件: a 一1 a ,b + 2 b 第1 7 页 国防科学技术大学研究生院博士学位论文 那么, e 1 a 一( 1 一a ) e 2 i 0 ,d 口( f ) 是凸集,易知k = ( 0 ,1 ) 非空 下面证明充分性由引理2 1 3 ,知k 在 o ,1 】中稠密故v a o ( 0 ,1 ) ,存在序 列 入n ) ( 入n ,v x l ,x 2 r d 故 ,l i r a d ( 入n x l + ( 1 一入n ) z 2 ) n l i n d 1 ) ,d ( z 2 ) ) ,比1 ,x 2 r d n + o o 由于比 o ,d a ( f ) 是闭集,故d ( z ) 是上半连续函数,有 d ( 入n x l + ( 1 一入n ) z 2 ) l i md ( 入n z l + ( 1 一入n ) z 2 ) n ,o o m i n d ( z 1 ) ,d ( z 2 ) ) ,比1 ,x 2 r d 故d ( z ) 为凸深度 口 在凸分析中,我们知道,对于凸( 凹) 函数而言,极小( 大) 值点即为最小( 大) 值 点,但对于拟凹函数而言,却不一定有这样的性质如果对条件进行适当的修改, 也可以得到极大值点为最大值点的结论 定理2 2 2 若x 0 为凸深度d ( x ) 的一个极大值点,且d ( z o ) = q o ,那么x 0 为 凸深度n ( x ) 的一个最深点的充要条件是 第1 8 页 国防科学技术大学研究生院博士学位论文 比n 陋o ,q + 】,q n q o ,q 竹一q o ,几一( 3 0 ,其中o 。= s u pd ( z ) ,存在一个序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论