(概率论与数理统计专业论文)基于数据深度的判别分析.pdf_第1页
(概率论与数理统计专业论文)基于数据深度的判别分析.pdf_第2页
(概率论与数理统计专业论文)基于数据深度的判别分析.pdf_第3页
(概率论与数理统计专业论文)基于数据深度的判别分析.pdf_第4页
(概率论与数理统计专业论文)基于数据深度的判别分析.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在过去二十年时间里,数据深度在多元数据分析领域里正成为越来越有用 的工具,并得到了广泛的应用统计深度的主要思想是在高维情况中,根据深 度函数对给定的数据集或是分布得到一个中心向外的数据排序,并能由此定义 出高维中位数的概念 本文首先在第一章介绍了一些最常用的统计深度函数的定义,以及基于这 些深度函数得到的分布位置参数的估计的稳健性在第二章中我们改进了投影 深度最深点的近似算法并提出了s p d ( s p a t i a l ) 深度最深点的近似算法,并且通 过数据模拟可以看出这些算法的精确度较高,而且计算复杂度也不高我们在 第三章第二节中通过用稳健的投影深度中位数和s p d 中位数代替样本均值改 进了经典的l d a 和q d a 判别法;另外在第三节中还把投影深度和s p d 深度引 入到最大深度判别理论中,相应得到的判别法对判别函数的形式和总体的概率 分布都没有任何要求而最后一节我们用一些模拟的带污染数据集来检验这些 基于深度的判别法则的表现,证实了它们相对经典判别法有着更强的稳健性 关键词:投影深度,s p d 深度,有限样本崩溃值,判别分析,错判率 a b s t r a c t o v 贫虹屺l a s t 咖p l eo fd a c a d 鹤,d a t ad e p t hh 雒b e e ni n c r 朗d i n g l yp u 瑙l l e da 8 a 璐e “t 0 0 lf o ri n l d t i v 撕a t ed a t a 眦a l y 8 i 8 谢t h 谢d e - s p r e a d 印p h c a t i o n s t h em a i n i d e ao f l o c a t i o n d e p t h i 8 t o p 删d e a c e n t e 卜o u t 哟r d o r d 嘶n go f p 曲1 t s 盐d t h e n o t i o n o fm e d i a ni nh i g hd i m 朗戚o n 阳1 8 t i v et o8g i v e nd a t a8 e to rd i s t r i b u t i o n t h e p a p e ri 玎土r o d u c e s 吕0 m em 0 8 tp o p l l l 缸d 印t hf i m c t i o 墙觚dt 士圯r o b u 8 t n e 鹋o f l o 嘶i o n 档t i l a t o 玛b a s e d t h ed e p t hf u n 硝o n si nc h a p t e r1 w e 幽i n v e s t i g a t e t h ea l g o r i t h m st 0c o m p u t et h ed e 印鹤tp o h l tb 勰e d0 nt h ep r o j e c t i o nd e p t h 觚dt h e 印a t i a ld e p t hi nc h a p t e r2 ,a n dt h 】o u g hb i m la _ 廿o nw ec a no o n c l u d et h a tt h 瞪em 眇 r i t h 【l s 缸ev e r y 既a 晚锄d8 i m p l e i n s e c t i o n2o f c h a p t 口3w e j m p r o 僧t h ec l a s s i c a l d i s c r i m i n a tr 1 1 1 嘴t h m u g hr e p l a c i n gs a m p l em e a na n d a t t e rm a t r 故b ym b l l s te 8 t i - m a t e sb a s e do nt h ep r o j e c t i o nd e p t h 瓶dt h e 印a t i a ld 印t h w 毛a 1 8 0u s et h ep r o j e “i o n d e p t h 强dt h e 啦撕a ld 印t hi nt h em 娃i m 皿d 印t hc l a s 8 进c a t i o nm e t h o di ns e c t i o n 3 a n dt h ec l a 8 s i 矗哪d on o t 船s u m ea n y 印e c i j 比p a r 锄e t r i c 劬o ft h es 印a r a t i n g 8 1 1 i f a 胱n o rd ot h e ya 船u m e 姐yp a r t i c u l 盯t y p eo fp r o b a b i l i 蚵d i s t r i b u t 王o nf 出t h e p o p l l l a t i 咄w 毫u 8 0 m e8 h n l l l a t e dd a t a8 e t 8w h i 出a r ec o n t a m i n a t e dt oe v a l u 咖 t h ep 盱如m a n c e0 ft h e d e p t h _ b 蠲e de i a 黯进e 珥,a n dp r 唧t h a tm 0 8 tc i a s 蒯! ;e 】瞎a r e m o r er o b 瑚tt h a nt h ec l a 8 s i c a ld i 团= i _ i 】卫j n a n tm e t :h o d k e y 啊r o r 凼:p r o j e c t i o nd e p t h ,s p a t i a ld 印t h ,f i n i t es a l p l eb 础d mp o i ,d 珏 c r :h n i n a n ta n a 劬s i 8 ,m i s c 卫孵g a t i o nr 咖 南开大掌学位论文电子版授权使用协议 ( 请将此协议书装订于论文首页) 论文墓j 数刁后;泵敦 s 半善j 兮坼 系本人在 南开大学工作和学习期问创作完成的作品,并已通过论文答辩 本人系本作品的唯一作者( 第一作者) 。即著作权人。现本人同意将本作品收 录于“南开大学博硕士学位论文全文数据库”本人承诺:已提交的学位论文电子 舨与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。 本人完全了解直珏太堂国壹焦差壬堡叠,箧旦堂僮j 金塞的壁理盘选! 同意 南开大学图书馆在下述范围内免费使用本人作品的电子版: 本作品呈交当年,在校园网上提供论文目录检索、文摘浏览以及论文全文部分 浏览服务( 论文前1 6 页) 。公开级学位论文全文电子版于提交1 年后,在校园网上允 许读者浏览并下载全文。 注:本协议书对于“非公开学位论文”在保密期限过后同样适用。 院系所名称:数峙甜嗤譬,见 作者签名:影氧里超 学号: 四d d d o 日期:口喀年歹月;j 日 甫开大学非公开学位论文征萌 学号:姓名: 论文题目: 不宣公开原因( 请在口中选择) ; 口1 、申请专利或技术转让密级:内部 口2 、保密科研项目或课题。密级:秘密或机密 口3 、其它( 请说明) 保密期限: 内部 秘密 机密 绝密 年( 请填写保密年限,3 年) 年( 请填写保密年限,5 年) 年( 请填写保密年限,1 0 年) 年( 请填写保密年限,2 0 年) 注意:l 、非公开论文电子版全文亦需要在网上提交。呈交当年,在校园网上提供论 文耳录检索、文摘浏览以及论文全文部分浏览服务( 论文前1 6 页) 保密 期限过后,允许校园网上的读者浏览并下载全文。 2 、请在印刷本封面右上角注明具体密级和保密期限。 导师签字: 单位负责人签字: 单位盖章: 日期:年月日 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容;按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:夕氛星匙 卯年y 月;j 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 涂星超 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:彰& 星越 加0 6 年岁月;徊 第一章统计深度函数的介绍 1 1 统计深度函数的提出及定义 在统计学中,多元统计分析扮演着越来越重要的角色,它已被广泛地应用 到社会科学和自然科学的许多领域中随着计算机技术爆炸式的发展,许多统 计试验所产生的海量高维数据都能较容易地得到收集和处理,经典的多元统计 分析方法都假定总体分布形式已知,然而在现实生活中,大部分对象的总体分 布是未知的或者样本数据是受污染的,这使得经典多元统计分析的方法在实际 中的应用受到很大的限制于是,人们希望发展简单、实用,有效的高维数据 分析方法 在很多数据分析中,数据排序都扮演着重要的角色对于一维数据,人们 可以根据观测数据的大小来对数据进行排序,用排序后得到的中位数( m e d i a n ) 来估计数据分布的位置参数,用极差( r n g e ) 可以用来估计数据的方差但当数 据是高维的时候,数据便不存在自然的线性序列关系,从而给多元非参统计分 析方法的发展带来了极大的困难 i 恤帮( 1 9 7 5 ) 提出了半空间深度的概念,并根据深度值得到一个从中心向往 的数据排序此后,各种有着类似作用的深度函数被提出,使得深度函数在多 元分析领域的应用迅速发展起来相对一个给定的高维数据集或是多元分布, 观测值x 的数据深度值所测量的是它相对于给定的数据集或是多元分布的中心 程度它建立了一种系统的非参方法把一元分布推断中的各种性质推广到多元 分布的情形,产生了许多不同概念的高维中位数以及多元数据散度的测量我 们应该注意到,通过不同的深度定义,对数据的排序会得到不同的结果本文 先介绍一些应用较多的深度定义如下。 定义1 1 1 半空间深度( h 幽p a c ed e p t h ) ( 1 9 7 5 ) 】 设x 是掣中的一点,f 是则上一个分布函数,那么x 相对于f 的半空 间深度就是包含x 的半空间上的最小概率 日d ( f ;$ ) 2 警 p f ( 日) :h 是一个闭的半空间,z 日) ,善醒4 ( 1 1 1 ) 设有数据集x r 4 ,用x 的经验分布晶来代替f ,就可以得到点x 相对于 整个数据集x 的半空间深度日d ( 罨x ) ,x 不必属于数据集x ,它可以是彤上 第一章统计深度函数的介绍 2 的任意一个点 定义1 1 2 马氏深度( m a h a l m b i sd 印t h ) 【m a h a l a n o 妇( 1 9 3 6 ) 】 令 和f 分别为分布f 的均值向量和协方差阵,则一点。r 4 相对于 分布f 的马氏深度定义为s m d ( f ;$ ) = l + 0 一p f ) 扛一m ,) ) 一( 1 1 2 ) 用样本估计来代替p f 和z f ,则可以得到x 相对整个数据集x 的马氏深 度 定义1 1 3 单纯形深度( s i m p h c i a ld 印t h ) 【l i u ( 1 9 9 0 ) 】 x 相对于f 的单纯形深度定义为x 属于个随机单纯形( m m d o ms i m p l e x ) 的概率值 s d ( f ;) = 曙 $ s 陋1 ,z 2 ,。d + 1 】) ( 1 1 3 ) 其中z 1 ,z 2 ,。d + 1 是来自分布f 的随机样本,s 陋1 ,z 2 ,茁“1 】表示顶点为 z 1 ,z 2 ,$ “1 的d 维单纯形 用样本的经验分布晶来代替f 就可以得到x 相对于整个数据集x 的单纯 形深度s d ( f ;z ) ,相当于从x 中随机的取d + 1 个数据点,以这d + 1 个点为顶点 的单纯形包含x 的比例,即t s d ;z ) 2 , s k - ,毛z ,+ l 】) 其中) 表示示性函数 定义1 1 4m a j 耐t ) r 深度( m 8 j 喇t yd 印t h ) 【s i n g h ( 1 9 9 1 ) ,l i u & s i n g h ( 1 9 9 3 ) 】 m a j o f i 蚵深度定义为x 属于穿过d 个样本点的随机超平面主要部分( 有较 大概率测度的半空间) 的概率值,即: m t ,d ( f z ) = p f z 属于z 1 ,z 2 ,。d 决定的超平面的主要部分) ( 1 1 4 ) 其中z l ,z 2 ,知是来自分布f 的随机样本 定义1 1 5 单纯形容积深度( s i m p l i c i a lv o h l 娥d e p t h ) 【z u o & s e m i n g ( 2 0 0 0 a b ) 1 点霉刑相对于分布f 的单纯形容积深度定义为。 s 加协) - 【1 + e f t 坠篱户n ( 1 1 5 ) 第一章统计深度函数的介绍 堤宰蠢- 塞驴 荔0 照箩4 a 垃 譬 l 嘲) 弘毡l 蠹囊翻l “l 图1 1 1 观测点。1 和钇的s p d 深度计算 3 其中$ 1 ,z 2 ,。d 是来自分布f 的随机样本,v 1 ,勋,黝) 是以z 1 ,z 2 ,黝 为顶点的d 维单纯形的容积,f 是分布f 的协方差阵我们注意到,除去i 引 是为了使深度函数具有仿射不变性 定义1 l 6 投影深度( p r o j e c t i o nd e p t h ) 【s t a h e l ( 1 9 8 1 ) ,d o n o h o ( 1 9 8 2 ) 1 投影深度通过将数据投影在某些方向上来获取信息它描述了x 与中心点 的离群程度,离群程度越小,投影深度就越大;相反,离群程度越大,投影深 度也就越小 令p ( ) 和叮( ) 分别为位置和尺度参数一点。耐相对于分布f 的投影 深度定义为一个离群值的函数; p d ( f ;z ) = 1 ( 1 + d d ( f 。) ) ( 1 l 6 ) 其中离群值 d d ( f z ) = 8 u pd 1 ( z ,r ) i 阻;1 而0 l ( ,r ) = 0 $ 一p ( 兄) 肛( 凡) ,其中凡是t ,。的分布我们通常取,盯) 为( m e d m a d ) ,m e d 表示分布的中位数,m a d = m e d 忙一m e d ( z ) | 定义1 1 7s p t i a l 深度或l 1 深度陋d i & z h g 0 0 ) ,s 娃a i n g ( 2 0 0 2 ) 】 点z r d 相对于分布f 的8 p a t i 以深度定义为: s p d ( f ;善) = 1 一i l i 强:三南 其中x f ( 1 1 7 ) 第一章统计深度函数的介绍 4 设有数据集x = 伽1 ,2 ,黝 ,则x 相对于整个数据集x 的s p d 深度 为: s p d ( x ;z ) = 1 一m ( o ,忙0 ) 0 一,( z ) ) 舯_ ( 加击瓢赫) i ,= 宇淼1 2 朋l 当观测点x 离分布中心很近时,e ,t 1 孟高 接近于o ,那么s p d ( f 劝就接 近于1 ;相反,当测点x 离分布中心很远时,e f ( 福南) 接近于某一方向的单 位向量,那么s p d ( f ;茁) 就接近于o 这一点我们从图1 1 中很容易就能看出来 1 2 统计深度在参数估计中的应用 上一节我们介绍了几种常用的深度函数,并且已经提到了在数据分布的中 心处深度值最大,那么很自然的,我们对给定的深度函数,可以用深度最大的 那一点作为分布的位置参数的估计,我们把这一点作为一维中位数的推广,称 为高维的中位数 给定一个深度定义d ( f ,) 和分布f r d ,相对应的f 的中位数( 最深点) 定义为: p = a r g8 u pd ;霉) ( 1 2 1 ) 0 r d 对投影深度p d 和分布f 彬来说,其投影中位数为, p 彳( f ) = a r gs u pp d ( ,;力 z r 4 而对s p d 深度和分布f 彬来说,其投影中位数为; 卯m ( f ) = 哪舳ps p d ( f ;。) z r 4 样本均值( m e a n ) 是我们最常用的位置参数估计,但均值的大小极易受到 离群值( o u t l i e r ) 的影响,这样在数据处理和统计推断的过程中可能就会出现较 大的误差而在实际生活中,大部分对象的总体分布是未知的,获得的数据中 也经常存在离群值因此,寻找较稳健的位置参数估计在统计学中是非常重要 的工作和用样本均值m e a 来估计位置参数相比,用以深度函数定义的多维 中位数来估计分布的位置参数具有较好的稳健性 第一章统计深度函数的介绍 5 深度函数的引入极大的丰富了多元统计分析方法,但对于不用的深度定 义,我们能得到不同的中位数作为位置参数的估计因此,我们在实际应用中 必须考虑如何判定一个深度函数的优劣,进一步选择较好的深度函数来作相应 的分析和推断 首先,我们从深度函数定义的优劣性来考虑,z u o 和s e r 丑i n g ( 2 0 0 0 a ) 中给 出了判定深度函数d ( f ;z ) 优劣的4 个标准,即,仿射不变性,中心点深度最 大性,点的深度关于最深点的单调性以及点在无限远处深度为。的性质z u o 和s e r 丑i n g ( 2 0 0 0 a ) 中详细分析了各种深度函数是否满足这四个标准以及满足这 四个标准的条件,并证明了半空间深度和投影深度是满足所有标准的较好的深 度定义而s p d 深度函数同样有着很多很好的性质:当d 2 时,s p d 最深点 唯一,且对任意分布f 五, t f ;三知 在彬上连续且单调变化;另外,和其他许 多深度函数不同的是,s p d 在高维情况下也非常容易计算;s p d 深度函数有 坐标旋转不变的性质,并且在所有坐标作相同的刻度变换时,各点深度值仍保 持不变;我们可以通过甩0 一x ) 代替。一x 来使它具有仿射不变性 其次,我们从稳健性角度评价估计的优劣我们先给出最大偏差( m a 硒m 一- m b i a s ) 和崩溃值( b r e a k d o w nv a l u e ) 的概念 对个给定的分布f 倒和常数f o ,设f ( c ,g ) 是f 被分布g 以程度e 污染后的分布,也即;f ( e ,g ) = ( 1 一e ) f + f g 一个相对于分布f 的估计t 的最大偏差定义为, b ( e t ,f ) = s u pl l t ( f ( e ,g ) ) 一t ( f ) ( 1 2 2 ) g 其中0 表示e u c l i d 范数 一个相对于分布f 的估计t 的崩溃值定义为; e = m m “:b ( e ;e f ) = o o ) 。( 1 2 3 ) 崩溃值是衡量估计稳健性的一个非常重要的标准d o n o h o 和h u b e r ( 1 9 8 3 ) 提出了有限样本崩溃值( f i n i t e8 锄p kb r e 如d o w np o i n t ) 的概念,它成为现在最 流行的用来评价一个估计稳健度的工具 设x “= 伽l ,z 。是n 个属于r d 的样本点集合,d 1 那么一个关于 x n 的估计t 的崩溃值定义为。 船p x ”) = m i n 等:磐咿) 一t ( x ”) o = o 。) ( 1 删 第一章统计深度函数的介绍 6 其中五焉表示x n 中m 个点被以任意值污染后的集合 换句话说,一个估计的r b p 值就是能使估计无穷远的最小的替换点集部 分比例z u o ( 2 0 0 3 ) 中研究了基于投影深度的中位数的稳健性,得到了下面这 个重要的引理,证明了p 尬。具有相当高的崩溃值 引理1 2 1 设( p ,盯) = ( m e d ,m a d k ) ,p d ( f ;。) 是投影深度函数,x “在一般 位置上且满足n 2 ( d 1 ) 2 + + 1 ,英中当d 2 时,七( d 一1 ) 那么 脚c 嗽耻 牟鬻:n z 劫 其中m a d ( x “) = m e 呶( 1 $ 1 一m e d ( x “) i ,b m e d ( j p ) 1 ) ,m e 也( j p ) = ( z 【似+ 奄) 2 】+ z i ( 。+ l + 七) 2 1 ) 2 ,1 七n ,z ( 1 ) ,z ( 帕是。1 ,z n 的次序统计量 p 站在所有具有变换不变性的估计里是崩溃值最高的【l 昭u 耽a 和勘u s 8 e b 。 帆,( 1 9 9 1 ) 】当= o 时,m a 巩= m a d ,此时p m 妻就是p 如,它的崩溃值也 是比较高的同样,s p d 中位数s p 。也具有非常高的崩溃值并被证明是; 【p r d e e 哪( 1 9 8 5 ) 】因此,我们在后面的实际应用中将采用p 厶和s p 毛作 为位置参数的估计 第二章深度函数值及其相应中位数的计算 深度函数的提出不仅解决了高维数据的排序问题,还引入了商维中位数的 概念基于投影深度的p 在高维情况下具有很高的崩溃值和非常好的仿射 不变性,而基于s p d 的估计同样有着很好的性质因此我们考虑,在统计分析 中用它们代替不稳健的均值估计应该会有很好的效果但与一维数据的排序和 中位数的计算相比,高维情况下的深度值和相应的最深点的计算都十分困难繁 琐,我们在这章将讨论如何计算投影深度和s p d 深度,以及给定数据集x “ 后,求相应的中位数p 。和s p 尬;的计算方法 2 1投影深度值及p 尬。的算法 给定一个未知分布的数据集x n ,我们求任意一点x 相对于x n 的投影深 度,实际运算的困难在于计算定义1 1 6 中的d d ( f ;。) ,因为d d ( f z ) 的计算需 要我们考虑所有的投影方向,这在实际计算中是不可能完成的但是我们可以 作x 点投影深度的近似计算最简单朴素的方法就是在空间均匀的固定m 个 方向,在这n 个方向上算投影深度值 对于求基于投影深度的中位数,困难不仅仅是求0 d ( f ;z ) 值,还在于如何 去搜索使得0 d ( f 。) 最小的点x 一些近似的算法,如“子抽样”( s t a h e l ,1 9 8 1 ) 和“鸽洞”( r 0 1 1 8 j e e u w ,1 9 9 3 ) 方法已经被应用到实践中了最新的结果是z u o ( 2 0 0 4 ) 中提到的精确算法,但考虑到z u o 的算法的复杂性,我们用下面的近似 算法来求d 维数据集x “= z 1 ,。2 ,) 的最深点p 霸,并用模拟的数据来 看这种算法的实际效果 1 均匀的选出一些投影方向u 1 ,u 2 ,u 。,记这些方向的集合为a 2 先选择一个已知的靠近中心的点来作为初始点,我们通常采用逐坐标中 位数作为初始点,记作尬= ( m e 出o n ( 。) ,m e 出n n ( 。) ) 尬的p d 值相对 较高,且通常易于计算 3 对于a 中的每个投影方向t i ,按照定义1 1 6 计算d 1 ( “:尬,冠) ,其中 磁为x “在t i 方向上投影的分布找出使得0 1 ( 尬,x 毫) 最大的方向n ,如 果不唯一,则取这些方向的平均值 4 如果u 是使得0 1 ( 晒,磁) 最大的方向,也就是尬点相对于这个方 7 第二章深度函数值及其相应中位数的计算 无污染1 0 污染2 0 污染 n = 1 0 0 p m 。 ( - o 0 6 0 6 ,0 1 6 9 6 )( 0 0 1 8 1 ,0 2 7 6 0 )( o 1 4 3 4 ,o 3 2 9 6 ) 深度值 o 8 1 5 90 8 3 1 00 7 7 0 5 n = 2 0 0 p ( 0 0 2 0 5 ,o 0 3 9 2 )( 0 1 0 1 9 ,0 1 8 4 5 )( o 3 2 2 2 ,o 3 6 0 9 ) 深度值 0 9 2 5 50 9 0 1 1 o 8 1 0 6 n = 5 0 0 p m 。 ( o 0 2 5 8 ,一o 0 0 2 6 )( 0 1 8 5 1 ,0 1 3 4 0 )( 0 3 2 2 6 ,0 2 8 9 4 ) 深度值 0 9 6 0 70 8 8 4 30 8 0 5 4 8 向上的离群程度最大,我们让尬朝着x ”在u 方向投影的中位数肌d ( 珊) 方向前进一小步到 如点,希望能使得d 1 ( ,j 磁) o l ( ,j k ) ,即在 u 这个方向上点的离群程度得到改善如果p d ( ) p d ( 尬) ,则第4 步停 止;如果尸d ( ) p d ( 尬) ,则减小前进步的步长,找到新的朋j 点,使得 p d ( 尬) p d ( 尬) ,从而终止第4 步若步长减少到一定程度仍找不到 毛点 使得p d ( m j ) p d ( 舰) ,则终止整个算法,认为尬为最深点这里要注意的 是最初选择的步长不宜过大,因为点在u 方向移动很大时,在u 这个方向 上的离群程度虽然减小较多。但在其它方向上的离群程度可能也会增加很多, 从而达不到增加深度值的目的 5 用前面得到的m j 作为新的初始点,重新进行第3 步和第4 步重复这 些步骤,直到m 点达到最大深度1 ,或者经过一定步骤该算法得到的最深点的 深度值改进不超过o 0 0 1 我们可以做一些2 维的数据模拟来看看上述算法的效果数据个数分别取 竹= 1 0 0 ,2 0 0 ,5 0 0 ,数据服从标准的二元正态分布,但分别有o ,1 0 ,2 0 的点 被2 ( 1 0 ,1 2 ) 污染,黑体1 0 表示为元素都为l o 的二维向量用上述算法计算 p 靠,得到的最深点的近似值坐标和相应的投影深度值列于表2 1 中从模拟 的结果可以看出该算法的效果非常不错,而且算法每个步骤的复杂度也较低 2 2s p d 深度值及s p 厶的算法 给定高维空闻一个未知分布的数据集x n ,任意一点x 相对于j p 的s p d 第二章深度函数值及其相应中位数的计算 表2 2s p m 。算法的数据模拟结果 无污染 1 0 污染 2 0 污染 n = 1 0 0s p m 。 ( - o 0 9 2 6 ,o 1 4 6 5 )( o 0 1 6 8 ,0 0 2 8 8 )( 0 0 2 8 7 ,一0 0 0 1 7 ) 深度值 0 9 9 7 811 n = 2 0 0s p m n ( o 0 0 2 2 ,0 2 0 1 5 )( 0 0 9 0 4 ,o 1 7 2 5 )( 0 1 5 5 4 ,o 0 7 7 1 ) 深度值 1 11 n = 5 0 0s p m n ( o 1 3 6 3 ,一o 2 6 l o )( 0 2 6 1 3 ,0 4 0 9 2 )( o 3 0 4 3 ,o 2 5 4 2 ) 深度值 11 1 9 值都可以方便地直接用s p d 的定义计算而相对于s p d 深度的最深点s p , d s c a t 岛( 1 9 3 3 ) 指出了当数据点数n 3 时s p ;是不能被精确计算的另 外,l g a l v a n i ( 1 9 3 3 ) 证明了当维数不小于2 时s p 死是存在且唯一的,j g a w 盯 ( 1 9 7 4 ) 第个提出了在高维空间s p 尬;的近似算法,然后c g r o b 和t s t r 锄p e l ( 1 9 9 8 ) 讨论了用反复倾斜的方法计算s p 靠在本文中,我们提出下面的方法 来求d 维数据集x ”= 扛1 ,z 2 ,) 的最深点s p ;,后面的数据模拟也证明 了该算法的精度较高,复杂度较低 1 先选择个已知的靠近中心的点来作为初始点,我们通常采用逐坐标中 位数作为初始点,记作尬= ( m e 出慨,) ,m 碱肌( 以。) ) 舰的s p d 值相对 较高,且通常易于计算 2 按照定义算出虿( 毛) = 击銎1 ( 筹乍孙) ,得到可( a 矗) 的方向,这也说明 了尬点是因为这个方向上的向量剩余导致了深度值比1 小,要提高点的深度 值,最好的办法就是沿着这个方向前进一小步到 幻需要注意的是前进的步长 不能太大,因为前进的过程中 毛和其他点的连线方向都在改变,步长太大可 能会导致其他方向上的向量剩余增加过多,就可能无法实现我们增加深度的目 的计算的深度值,如果尬的深度值比舰的深度值小,则选择更小的步 长,若步长小到一定程度必的深度值仍比 矗的深度值小,那我们就认为j l 矗 是最深点;如果求得的a 如的深度值比尬的深度值大,我们进入第3 步 3 重新把 如设为初始值,记作尬重复第2 ,3 步,直到深度值达到1 或 是在一定精度内无法再提高,最后得到的点我们就认为是最深点p d 尬。 上述算法的计算复杂度不高,我们同样用模拟数据来检验一下算法的精 度数据个数分别取n = 1 0 0 ,2 0 0 ,5 0 0 ,数据服从标准二元正态分布,但分别有 第二章深度函数值及其相应中位数的计算 1 0 o ,1 0 ,2 0 的点被2 ( 1 0 ,1 2 ) 污染,黑体1 0 表示为元素都为1 0 的二维向量 用上述算法计算s p 磊,得到的最深点的近似值坐标和相应的投影深度值列于 表2 2 中从模拟的结果可以看出用上述算法求到的最深点的深度值已经近似 为l 了,说明算法的精度也是非常高的,而且相对的复杂度也较低 第三章基于数据深度的判别分析 判别分析是用于判断样品所属类型的一种统计分析方法,已渗透列各个领 域例如,在考古学中,根据挖掘出来的人头盖骨的高,宽等特征来判别其民 族或性别,又如在气象学中,根据已有气象资料( 气温、气压,湿度等) 来判 断明天是阴天还是晴天,是有雨还是无雨等等。这些都属于判别问题当然, 对这类问题在作判别之前,首先必须对可能归属的各种类别应有所了解,用统 计的话来说,就是对可能发生的各个总体的分布或者某些特征是清楚的我们 可以这样来描述一个判别分析问题t 设有k 个d 维总体n ,丌2 ,饥,其分布特 征已知( 如已知分布函数分别为f 1 ( 茹) ,尼( 。) ,最( z ) ,或知道来自各个总体的 训练样本) ,对一个新观测得到的样本x 我们要判断它来自哪一个总体 3 1 经典b a y e s 判别方法 b 髑的统计思想总是假定对研究的对象已有一定的认识,常用先验概率 分布来描述这种认识;然后抽取个样本,用样本来修正已有的认识( 先验概 率分布) ,得到后验概率分布各种统计推断都通过后验概率分布来进行。将 b a y 铭思想用于判别分析就得到b 髑判别法 设有k 个d 维总体 r l 耽,且仉一 ( z ) ,i = l ,样本来自仉的 先验概率是吼 o , = l ,七) ,且满足q l + + 虬= 1 当错判损失都相等 的情况下,b a y 鹊判别规则是:如果x 属于第i 组的后验概率d l ( z ) = 1 9 ( 玑 ( z ) ) 最大,则把x 归到第i 组也即: z 仉, 如果函( z ) = 熙 吗p ) ( 3 l 1 ) 我们先看一种情况设两个d 元正态分布p l 和尼有着相同的先验概率, 它们的分布函数为 ( 。) = r d 沁,) , = 1 ,2 ,那么b a 鹕s 判别规则为; z p 1 ( 马) ,如果丸d a ( $ ) = ( 以一p 2 ) - 1 陆一似1 + 舰) 2 】 ( s ) 0 ( 3 1 2 ) 如果式中的参数p 1 ,舰和是未知的,则需要用样本数据来估计设x m ; 扛t ,) 和p = 协,) 分别是这两个总体抽出来的独立随机样本,我 们称它们为训练集在b a y 鹊判别规则中的未知参数最常用的估计是均值向量 1 1 第三章基于数据深度的判别分析 1 2 虿和可以及样本协方差阵舷和函由于判别函数如肌( z ) 对x 来说是线性 的,因此这种判别方法被称为经典的线性判别分析法( l d a ) 考虑另一种情况设两个d 元正态分布p 1 一d ( p 1 ,e 1 ) ,尼一d ( p 2 ,e 2 ) , p 1 舰,e 1 和e 2 也不相同且和恳有着相同的先验概率,那么b 驰判别 规则变成二次的函数: $ p 1 ( 危) , 如果南d o ) = ( r ( 2 ) 2 一( r ( 1 ) 2 + k ( 总) ( ) o ( 3 1 3 ) l z 卅l 其中 r ( 2 ) = l l = 1 2 扛一肌) 1 1 , i = 1 ,2 这里未知的参数我们一般用样本均值向量z 和可以及样本协方差阵s 又和 来估计上述判别法则我们称为经典的二次判别分析法( q d a ) 3 2用深度中位数改进的b 嘲判别方法 由于通常分布的均值和协方差阵都是未知的,经典的方法都是用样本均值 和样本协方差阵来估计,但是这两个估计都不稳健,很容易受到离群值的影响 为了获得稳健的线性和二次判别函数,可以用较稳健的估计来代替样本均值和 样本协方差阵( 参见r 舢u d l 鹤e ta 1 ( 1 9 7 8 ) ,h e 和f 、l n g ( 2 0 0 0 ) 以及c r o u x 和 d e h o n ( 2 0 0 1 ) ) 在本文中,我们将采用崩溃值很高的p 霸和s p ,来代替样 本均值,以及用由它们得到的协方差阵p d s 和s p d s 来代替样本协方差阵, 得到4 种稳健的线性和二次判别函数 1 设x m = 如1 ,z 。) 和y “= 讥,分别是从分布p 1 和恳抽出 来的独立随机样本,那么用p 厶改进的l d a 判别法则为, o p 1 ( 岛) ,如果 如l d a ( 劝= ( p ( 1 ) 一p 厶( 2 ) ) p d s 一1 陆一( p 。( 1 ) + 尸。( 2 ) ) 2 】 ( ) o ( 3 2 1 ) 其中p 尬。( 1 ) ,p 。( 2 ) 分别是x ”和y w 的投影深度中位数,p d s 为合并样本 的深度协方差阵,p d s = 南( p d s l + p d s 2 ) ,p d 鼠“= 1 ,2 ) 分别为两总 体的组内深度协方差阵,即: 一 m p d 毋= ;i 兰了( 轧一尸m 击( 1 ) ) ( 祝一p ( 1 ) ) 7 ( 3 2 2 ) 第三章基于数据深度的判别分析 p 。= 击砉( 玑一p ( 2 ) 地一p ( 2 ) ) , 1 3 ( 3 2 3 ) 我们把用p 尬;改进的l d a 判别法则称为p l d a 判别法则 2 用同样的方法通过s p j l 厶改进得到另一种稳健的线性判别函数设 x ”= 。1 ,z 。 和l ,”; 讥,) 分别是从分布p l 和马抽出来的独立随 机样本。那么用s p 螈改进的l d a 判别法则为t 。p 1 ( 屁) ,如果 幽l d ( 功= ( s p ( 1 ) 一s p ( 2 ) ) 7 s p d s 一1 陋一( s p ( 1 ) + s p 肘赢( 2 ) ) 2 】 ( ) o ( 3 2 4 ) 其中s p 。( 1 ) ,s p ( 2 ) 分别是x ”和y ”的s p d 中位数,s p d s 为合并样本 的s p d 协方差阵,s p d s = 岳b ( s p d 岛+ s p d ) ,s p d & 0 = 1 ,2 ) 分别 为两总体的组内深度协方差阵,即: 一 m s p d 研= 击善( 驴s p ( 1 ) ) ( 驴s p ( 1 ) ) 7 ( 3 伽 , n 卯d 岛= 若i 萎( 玑一s p ( 2 ) ) ( 玑一s p ( 2 ) ) ( 3 2 6 ) 我们把用s p 矗改进的l d a 判别法则称为s l d a 判别法则 3 设x ”= z 1 ,$ 。) 和y “= 1 ,) 分别是从分布p 1 和恐抽出 来的独立随机样本,那么用p 霸改进的q d a 判别法则为t $ p 1 ( 恳) ,如果 咖删= ( r ( 2 ) ) 2 卅) 2 + l g ( 善端) ( ( l 满足 g ( 七o ) 9 ( 霉) m 和。如前面所定义那么,在先验概率相等的情况下,对于 基于半空间深度,单纯形深度,m 吼啊坷深度和投影深度的最大判别法则,当 m i n n 1 ,n 2 ,佻卜o 。时,有。趋向于最优劢口即风险 引理3 3 2 和引理只3 i 假设相同,另外若9 是球形对称的,则对基于舒 d 的 的最大判别法则,当m i n n 1 ,他,n 一o 。时,有。趋向于最优b 叼甜风 险 由这两个引理可以看出,在先验概率相等的情况下,当一些椭圆( 球形) 分布只是位置参数不同时,基于半空间深度。单纯形深度,m a j 删t y 深度,投 影深度和s p d 深度的最大判别法则和最优b a y 判别法效果是一样的用上述 各种深度进行最大深度判别时会发现,对在包含所有训练集样本的最小凸包之 外的点,它们的单纯形深度和半空间深度总是为0 ,这样的点就无法对它们进行 最大深度判别如图3 3 1 ,a ,b 两点在图上很容易就能看出是属于哪一个总体 的,但由于它们的单纯形深度和半空间深度值为o ,无法用最大深度判别法则进 行正确的判断因此本文中不考虑应用这两种深度到最大深度判别中去 第三章基于数据深度的判别分析 图3 3 1 两个数据组的散点图 1 6 而p m 深度和s p d 深度则不会有这种情况出现,另外本文前面已经介绍 到p m 深度和s p d 深度都是性质非常好的深度函数,基于它们的最大深度判 别应该有着较好的判别效果在下一节中我们将选择基于p m 深度和s p d 深 度的最大深度判别法则进行数据模拟,包括用受污染的训练集来看看它们的稳 定性和实际判别效果 目前,基于s p d 的最大深度判别法则已经被j o r n s t ( 2 0 0 4 ) 研究应用在 微排列基因表达数据的判别分析和聚类分析上;h 0 b e r g ( 2 0 0 0 ) 则讨论了基于 z o n o i d 深度的最大深度判别理论 3 4 数据模拟及相关结论 这一节做的模拟研究主要目的是对以下几种判别法则的判别效果进行比 较。 经典l d a 和q d a 判别法 用p 尬;和s p 厶改进后的l d a 和q d a 判别法 基于p d 深度的最大深度判别法 基于s p d 深度的最大深度判别法 我们希望这些判别法则在训练数据有一些异常点的情况下也能有稳健的表 现,因此我们会用一些受污染的训练集来说明以上法则的稳健性取两组训练 集样本个数都为2 0 0 ,其中的2 维样本数据x 2 0 0 和l ,卿是由下面分布产生的; 第三章基于数据深度的判别分析 ) ) ) ) 彻飓( 2 ,( 和 ) ) ( 矗( ) ) 彻飓( 2 ,( 一) ) ) + 龇( s ,去( 和 讲地( 吨击( ) ) ) ) ) ) ) ) ) ) 一1 2 和。呲。f 。,f o 1 饿( 喵( 蛳。( 吃去i s ( 3 ,( 蛳a ( s ,击( ) ) 蛳( 咄 10 01 和 :) ) m ) ) 和 以上式子中,n 1 m ( p 1 ,1 ) + n 2 帆( p 2 ,2 ) 代表有n 1 + 抛个独立观测值,其中从 肌( p l ,1 ) 抽取的观测值有m 个,从( p 2 ,2 ) 中抽取的观测值有n 2 个;同样 的n 1 “( p 1 ,1 ) + n 2 岛,2 ) 代表有n 1 + n 2 个独立观测值,其中从“( 肛l ,e 1 ) 抽 取的观测值有n 1 个,从“( p 2 ,2 ) 中抽取的观测值有他个,“是自由度为p 、 。一。以=弋 o 1 o l o l 1 3 1 3 2 l 0 l o 1 0 1 1 2 l 2 : 1 o l 0 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论