(概率论与数理统计专业论文)基于深度函数的秩检验.pdf_第1页
(概率论与数理统计专业论文)基于深度函数的秩检验.pdf_第2页
(概率论与数理统计专业论文)基于深度函数的秩检验.pdf_第3页
(概率论与数理统计专业论文)基于深度函数的秩检验.pdf_第4页
(概率论与数理统计专业论文)基于深度函数的秩检验.pdf_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 秩检验是基于秩统计量的一种简单实用的非参数统计方法,秩统 计量是基于秩的统计量。对于一维样本,由于数据之间存在一种自然 的线性序关系,故可按照样本的大小排序,从而得到秩向量。但对于 多维样本,数据之间则不存在自然的线性序关系,无法按照样本的大 小排序而得到高维样本的次序统计量并由此把一维非参数统计的许 多有用的方法直接推广到高维情形,使得对多元数据的统计分析十分 麻烦。因此,发展高维统计的非参数方法是统计学家们所关心的一个 十分重要的问题。文献 1 中介绍了一种新的方法,即引入深度函数d 进行高维数据的排序,从而得到基于深度函数d 的秩向量。秩检验之 所以在理论上与应用上起着重要的作用,是因为在一定条件下秩向量 r = ( r 】 一,r ,) 在集合孵= ( h ,。) ( r l , r n ) 是( 1 ,j ) 的排列 上服从 均匀分布,与总体分布无关。只要样本是简单随机样本,且总体分布 连续,一维样本的秩一向量,就服从集合 贸= 缸一,。) ( n ,) 是( 1 ,) 的排列 上均匀分布。而多维样本的基于 深度函数d 的秩向量与深度函数和总体分布有关。这使得它的应用受 到限制。目前统计学家们还没有形成系统的理论来讨论基于深度函数 的秩统计量及其应用。由于线性秩统计量是非参数统计中应用最广的 一类统计量,所以本文构造了基于深度函数的线性秩统计量,并对其 渐近性质和应用做了一些研究,具体结果如下: 1 给出了r 服从贸上的均匀分布的条件。 2 证明了当总体分布f 属于椭球分布族时,基于统计深度函数 的秩统计量r 服从贸上的均匀分布。 3 证明了基于深度函数的线性秩统计量s j = c 。( q ,) n 。( 胄,) 在 i = 1 一定条件下与s 。= 。( 嘞。( 只i ) 有相同的渐近分布。 i :j 4 利用基于深度函数的线性秩统计量检验两d 维随机向量的 独立性。 , 5 、利用基于深度函数的线性秩统计量讨论两d 维样本尺度与 位置问题。 关键词:深度函数d ;秩向量r ;线性秩统计量s ,椭球分布族 a b s t r a c t r a n kt e s ti sa s i m p l e a n d p r a c t i c a l m e t h o do f n o n - p a r a m e t r i cs t a t i s t i c sb a s e do nr a n ks t a t i s t i c s ,w h i c hi s a k i n do fs t a t i s t i c sb a s e do nr a n k s t h e r ei san a t u r a ll i n e a r o r d e r r e l a t i o n s h i pa m o n gt h ed a t ao fo n e d i m e n s i o n a l s a m p l e ,s o w h i c hc a nb e o r d e r e d a c c o m i n g t ot h es i z eo ft h e s a m p l ep o i n t s h o w e v e r ,s i n c et h e r ei sn on a t u r a l l i n e a ro r d e r r e l a t i o n s h j o a m o n gd a t ao fm u l t i _ d i m e n s i o n a l s a m p l e ,i ti s i m p o s s i b l et 0 g a i nm u l t i - d i m e n s i o n a lo r d e rs t a t i s t i c s i n a c c o r d a n c ew i t ht h e o r d e ro ft h es i z eo fs a m p l e ,n e i t h e ri s i t i m p o s s i b l et oe x t e n d m a n y u s e f u lm e t h o d s f o r o n e d i m e n s i o n a l n o n p a r a m e t r i c s t a t i s t i c st ot h o s ef o r h i g hd i m e n s i o n a lo n e s t hu so c c u r r e d m u c ht r o u b l ei nt h e a n a l y s i so fm u l t i d i m e n s i o n a ld a t as t a t i s t c s s oi t sav e r yi m p o r t a n tp r o b l e mf o rs t a t i s t i c i a n t o d e v e l o pt h e m u l t i - d i m e n s i o n a l n o n p a r a m e t r i cm e t h o d i nd o c u m e n ff 1 】,a n e wm e t h o di s i n t r o d u c e d ,t h a ti s ,w ea r ea b l et oc a l c u l a t et h e j i r a n kb a s e do n d e p t hf u n c t i o nb yi n t r o d u c i n gt h ed e p t hf u n c t i o n f o r h i g hd i m e n s i o n a ld a t a r a n kt e s tm a k e sg r e a td i f f e r e n c e t h e o r e t i c a l l ya sw e l la sp r a c t i c a l l yo n l yb e c a u s eu n d e rc e r t a i n c o n d i t i o n s r a n kv e c t o r r = ( 最1 i 一,r 。) h a v eau n ;f o r md i s t r i b u t i o n o v e r 贝= ( h ,r ”) ( n ,) i s a p e r m u t i o no f ( 1 ,) f r e eo f u n d e r l y i n gd i s t r i b u t i o n r a n kv e c t o ro fo n e d i m e n s i o n a ls a m p l e m e e t st h e p r o p e r t y t a l k e da b o u t p r e v i o u s l y i fi t sas i m p l e r a n d o m s a m p l e w i t hc o n t i n u o u s u n d e r l y i n g d i s t r i b u t i o n h o w e v e r ,r a n kv e c t o ro fm u l t i - d i m e n s i o n a ls a m p l eb a s e do n d e p t hf u n c t i o n h a ss o m e t h i n gt od ow i t h d e p t hf u n c t i o n a n d u n d e d y i n gd i s t r i b u t i o n ,w h i c h l i m i t si t s p r a c t i c e s o f a r s t a t i s t i c i a nh a v e n tf o r m e ds y s t e m a t i ct h e o r yt od i s c u s sr a n k s t a t i s t i c sb a s e do nd e p t hf u n c t i o n a n di t s a p p l i c a t i o n s i n c e n e a rr a n ks t a t i s t i c sh a st h em o s tp o p u l a r i t yi n a p p l i c a t i o n i n n o n p a r a m e t r i cs t a t i s t i c s ,t h i sa r t i c l ef a b r i c a t et h ei i n e a rr a n k s t a t i s t i c sb a s e do nd e p t hf u n c t i o n ,a n dd i s c u s s e di t sa s y m p t o t i c p r o p e r t ya n da p p l i c a t i o n p a r t i c u l a rr e s u l ti sa sf o l l o w s : 1 t h ec o n d i t i o n o f 只h a v i n gau n i f o r md i t r i b u t i o no v e r 婀i sg i v e n 2 w h e n u n d e r l y i n g d i s t r i b u t i o n b e l o n g s t o e l l i p t i c a d i s t r i b u t i o n f a m i l y ,r a n k s t a t i s t i c sb a s e do n d e p t h f u n c t i o n h a v i n gau n i f o r md i s t r i b u t i o no v e r 婀i sp r o v e d 3 u n d e rp r o p e rc o n d i t i o n ,t h el i n e a rr a n ks t a t i s t i c sb a s e d o n d e p t h f u n c t i o n h a v i n g t h es a m e n a s y m p t o t i cd i s t r i b u t i o na s s 。= c ( z ) 口( 尺f ) i sp r o v e d i ;l 4 t h e i n d e p e n d e n c e o ft w o d d i m e n s i o n a lr a n d o m v e c t o r s st e s t e db ye m p l o y i n gt h el i n e a rr a n ks t a t i s t i c sb a s e do nd e p t h f un c t i o n 5 t h e p o s i t i o n a n ds c a l e p r o b l e mo ft w od - d i m e n s i o n a s a m p l e si sd i s c u s s e db yu s i n gt h el i n e a rr a n ks t a t i s t i c sb a s e do n c ! e p t hf u n c t i o n v ) r ( 口 )q( c m = s k e yw o r d s :d e p t h f u n c t i o nd :r a n k v e c t o rr :l i n e a rr a n k s t a t i s t i c s s 。:e l l i p t i c a ld i s t r i b u t i o nf a m i l y v 1引言 非参数统计方法是2 0 世纪3 0 年代中、后期开始形成并逐步发 展起来的,也是近年统计学家们最感兴趣的一种简单实用的统计方 法。它是与“参数统计”相比较而存在的,不依赖于总体分布及其 参数,亦即不受分布约束的统计方法。其中以秩为根据的非参数方 法应用最广,主要是因为秩向量r = ( rn ,r 。) 在集合: 吼= ( h ,) ( r i ,。) 是( 1 ,) 的排列 上服从均匀分布,从而秩统计量与总体分布无关,因而用秩统计量 来进行一些统计推断,就比较方便。一维秩向量是根据一维样本间 的自然序做简单的排序得到。但实际生活中,存在着很多不止一个 属性的对象,研究时,往往同时观测对象的a ( a 1 ) 个属性,得到 d ( d 1 ) 维总体。多元统计分析是处理这类数据的一种统计方法。多 元统计的参数方法,假定总体分布形式己知。然而生活中,大部分 对象的总体分布是未知的,这使得多元统计的参数方法在实际中的 应用受很大限制。于是,人们希望发展简单、实用、有效的非参数 统计方法。 一元非参数统计方法大多是基于秩统计量,而秩统计量又是基 于一元样本数据间的线性序关系。而多元样本数据之间不存在自然 的线性序关系,因此,对多元样本不能直接定义多元样本的秩,从 而给多元非参数统计方法的发展带来了极大的困难。 0 j a ( 1 9 8 3 ) 引入0 j a 深度对多维数据进行排序,得到基于深度 函数的从中心向外的顺序统计量,b r o w n ( 1 9 8 7 ) 和0 j a ( 1 9 8 9 ) 在此基 础上发展了二维秩检验,并检验了位置平移参数,l i u y ( 1 9 8 9 ) 引 入一种新的深度函数s d 对多维数据进行排序,并定义了多元l 一统 计量。l i u ( 1 9 9 3 ) 构造了基于m h d ,h d ,s d ,m ;d 四种深度函数的指 数q 来测量一个总体相对于另一个总体远离中心的程度。l i u ( 1 9 9 9 ) 发展了基于m h d ,h _ d ,s d ,o d ,m d ,l d ,c d 七种深度函数的描述性 的非参数多元理论。z h i d o n g ( 1 9 9 9 ) 讨论了最大深度估计量的渐近 性。y i j u nz o o ( 2 0 0 0 ) 给出了统计深度函数的一般定义,并讨论了 样本统计深度函数围道的结构特征及收敛性。但基于一般深度函数 的秩方法的研究尚未见到,故本文拟以下两个问题进行讨论: 1 基于深度函数的秩统计量是否与常规直线上的秩统计量有 相同的性质? 2 若有相同的性质,是否可利用基于深度函数的秩统计量把 一元非参数统计方法推广到高维情形? 2 记号和背景 设f 是r 4 ( d 1 ) 上的绝对连续分布函数x ,x 。是来自于 总体f 的d 维样本对于一维样本,可根据样本点的大小排序,从而 确定样本点的秩,但对于多维样本,不可能按样本点的大小排序。 所以文献 1 中引入了统计深度函数d ,根据样本点深度函数的大 小排序,从而得到基于深度d 的顺序统计量,记为五啦,噩满足 d ( f ;x ) d ( f ;丑:】) d ( f ;。】) ,在此,若总体分布,未知,则用经 验分布函数f 。代替。若d ( f ;x 。) = d ( f ;刖) ,则称r ,为x ,的基于d 的秩, i = l ,一,n ,r = ( r ,r 。) 为基于d 的深度秩向量设a ( o ,4 ( ) 和 c o ) ,c ( ) 是两个常数集合,每个集合里的元素不完全相同。 s = c ( i ) a ( r ,) 就叫做基于d 的线性秩统计量。其中常量a ( 1 ) ,a ( ) 叫做分值:c ( 1 ) ,c ( v ) 叫做回归常量。回归常量的选取通常根据实 际问题而定。为了讨论渐近性质,记线性秩统计量肌= c n ( i ) 。,( r ,) , 对分值和回归常数。( f ) 和。( f ) 加上附标n ,表示它们是样本量v 时 的两组数,并且对这两组数作一些限制。对回归常数 。鼢要求满 足n o e t h e r 条件: 豢msx c o c 一。,其中石:专姜。撕, 2 一。o ( 一) 共甲c = i 乞c ( f ) , 【c ( f ) 一c “ 这就是说 。,“) l 没有特别显著的离群值。而对分值 。( f ) ) 要求: “。( f ) = 6 彬( 熹) + d , i = l ,n ,其中b ,d 。是仅依赖,而不随i 变 化的常数。而妒万l - ) 是函数似) 在南( i = l ,) 处的取值a 函数 ( “) 满足: ( 1 ) 庐( “) 是定义在( o ,1 ) 上的函数,i f i 随变化; ( 2 ) ( “) 可表成两个非降函数之差,即( “) = ( “) 一”( “) 。而痧( “) 与 ”( “) 均是“的非降函数。 ( 3 ) 痧( “) 平方可积,即o c f 妒( “j 一习2 d “c 。,其中历= f ) d z r 。 满足( 1 ) ,( 2 ) ,( 3 ) 的函数( “) 称为平方可积分值函数。 设f 是r 。( d 1 ) 上的绝对连续分布函数,一,x 。是来自于总 体f 的d 维样本,下面定义几个有用的深度函数: 定义1 x c i 壬, - g , 工s r 4 ,令s d ( f ;x ) = p , z s i x i ,x 。 。 其中s i x l ,一,x 。1 是由( d + 1 ) 个随机样本点所构成的闭单形。则称 s d ( f ;x ) 为s i m p l i c i a la e p t h ,简称为。 若总体分布f 未知,则用经验分布函数f 。来代替,从而得到的 样本形式:s d ( f ”:工) = 去m 。s k , ) 。 其中c 分表示从n 个元素中选( d + 1 ) 个的组合,。是示性函数。 定义2 对任意的z e r 4 ,令帆d ( ,;一) = l + ( 工一脚) o 一,) - 】 其中,和,分别是总体均值向量和协方差矩阵,则称mh d ( f ;x ) 为 m a h a l a n o b i sd e p t h ,简称为m u 9 。若总体分布,未知,则分别用。,和, 的样本估计来代替,就可得到m d 9 的样本形式。 定义3h a l f s p a c e d e p t h ( 1 i d ) 对任意的工岔,令 一 h d ( f ;x ) = i n f f p ( 日) :日是穴址的闭半空间且z 日) 。则称h d ( f ;x ) 为 h a l f s p a c e d e p t h ,简称为l i d 。若总体分布f 未知,则用经验分布函 数f 。来代替,即可得到h d 的样本形式。 定义4 若d 维随机向量石的密度函数的形式为: 厂o ) = c f | - j ( ( z 一) - 1 ( 石一) ) ,其中:d x l ,:d x d ,且o ,贝。称x 遵从具有参数 ,卢,的椭球等高分布。记作x e 。( ;,) 。正态分布 是椭球等高分布的特例。 记秩向量r = ( 尺一,r 。) ,倪= f ( ,矿一,r 。) l ( r 一,r ”) 是( 1 ,- 一,) 的排列 3一些引理 引理1 若k ( ,) ( r 巩) 是吼到婀的一对一映射,太是在倪上均匀分 布的秩向量,则统计量s = k ( 尺) 也在贸上均匀分布。 证明见 6 。 下面列举几个常用的对一映射: 例l定义蜀( 尺) = d ,其中d = ( d l ,一,d ,) ,d ,= ,当,= i ( f = 1 ,) 时,即d j 是f 在,= ( h ,r 。) 中的位置。例如n = 6 ,= ( 4 ,1 ,6 ,2 ,3 ,5 ) ,则 k ,( j r ) = ( 2 ,4 ,5 ,1 ,6 ,3 ) 。k ,( r ) 是贸到吼的对映射。 例2 考虑( 1 ,) 的两个排列r = ( n ,。) 和f = ( “,s ,) 的复合排 列。r 对s 的复合排列为r 。s = ( “,以,) 而s 对r 的复合排列为 s 。r = ( 5 。,s ,。) 。一般ro s r 。s 。例如:r = ( 2 ,4 ,3 ,i ) ,j = ( 1 ,3 ,4 ,2 ) ,则 ,。s = ( 2 ,3 ,1 ,4 ) , s or = ( 3 ,2 ,4 ,1 ) 。 对一给定的排列s ,映射:匠( 尺) = ,。s ,暇和墨( r ) :s 。r ,r 蝣 都是吼到孵的一对一映射。 引理2 设x 一,x 。是独立同分布的d 维随机向量,( 蛳,a n ) 是 ( 1 ,) 的任意一个置换,则( x ,x ,) 三( 甄,_ x 。) 。其中“兰”表示 “同分布! 。 证明见 2 。 引理3 设v u = 芝( 。o ) 一乃o ( u ,) + 云五,其中c ,( 1 ) ,c ”( ) 满足 线性秩统计量回归常数的n o e t h e r 条件,( ) 是一个平方可积分值 函数,u l 一,u 。是独立同分布( o ,1 ) 均匀分布的随机变量列, 设a u ( i ) 2 ( 高) ,吣一,则訾洲( o 1 ) ( 枷,) 其中。= 云i ,仃:。= 芝( 。,( 力一磊) 2f ( ( “) 一孑) 2 幽,其中 = 刮( u = f 庐( “) 砌,砌r 矿w 2 姜( c ) 一i ) 2 地“( ( ,2 o 2 n 证明见 2 。 引理4 设了芝“( f ) 卧( r 。j = 芝( 。= ( f ) 一云) 影( r ) + ii 是一个 基于深度函数的线性秩统计量,回归常量。( 1 ) ,。( ) 满足。聃仃 条件,分值a 一( i ) _ 万备) ,f - l ,其中妒( ) 是个平方可积分值 函数糠“v = i i ,盯2 。2 志良脚罚洳n ( f ) 南二i ,则 虹呻n ( 0 ,1 ) ( 一) 证明见 2 。 引理5 若d 维向量f 西( ;麒) ,则s d ,m p ,h d 的深度围道: 工e 尺4 :d ( ,;工) 2 口 为辑球面,即有 z r 。:“一a ) 一1 一一) = c 。 的形式。 其中盘 0 ,c 。 0 。 证明见 3 。 引理6 设s 。是一个基于深度函数d 的线性秩统计量,回归常 量c w ( 1 ) ,c w ( ) 满2 :n o 口旃e ,条件,分值为口”( f ) 2 妒万f _ ) ,i = l ,n 其中( ) 是平方可积分值函数;设s ;是另外一个基于深度函数d 的线性秩统计量,回归常量与s 。相同,分值为。j ( f ) ,f :l ,n 。 若熙专缸撕h 撕) 2 = 。则等警斗删) ( 刊。 证明见 2 。 4 主要定理及证明 定理1 r ,贸由前面定义,假设对于任意实常数。, p d ( f t 柳= c ) = o ,其中f 是总体分布。则r 服从吼上的均匀分布。 当总体分布未知时,用样本深度函数o ( f ,。) ,对样本进行排序, 得到样本秩r ,若p d ( c ;置) = d ( f , ;x a - 0 ,则r 服从吼上的均匀分 布。 证明:显然r 的值域为贸,锨中共有! 个不同元素。对任意的 r 婀, p ( r = ,) = p ( r l = ,一,r = ,。) = ? ( d ( ,;x - ) ,d ( f ;x v ) ) = ( d ( f ;x r ) ,d ( ,;z p 。 ) ) = p ( d ( f ;。) ,d ( f ;x a 。) ) = ( d ( ,;石) ,d ( f ;) ) = p d ( f ;x d ) d ( f ;x d ,) 其中d ,表示f 在,中的位置 由于对于任意常数c ,p ( d ( f ;工) = c ) = 0 ,其中x 是总体的任意样 本点,所以对于任意的i j ,f ,= 1 ,n ,有p ( d ( f ;x 。) = d ( f ;x ,) ) = 0 。 于是 p d ( f ;x d ) d ( f ;x d 。) 2p ( f ;x d ,) d ( f ;x d 。) 由于x ,。是独立同分布的,且( 打一d ,) 是( 1 ,) 的一个置 换。由引理2 知: ( d ( fx 女) ,d ( f ;x 。j ) = ( d ( ,;五) ,一,d ( f ;x w ) ) p ( r = r ) = p ( f ;_ 。) d ( ,;z 。) = p d ( f ;x 。) d ( f ;x ) 对任意的r e 吼,上式均成立,所以对于任意的r ,这个概率均相等。 而全部这样的事件互不相容且它们的和是必然事件,故对任意的 ,吼,有p ( r = ,) 2 丽1 ,即r 服从贝上的均匀分布。 对样本深度函数情形,类似可证。 定理2 若总体分布,属于椭球分布族,则基于深度函数 s d ,m 。d ,h d 的秩统计量r 服从塌上的均匀分布。 证明:由引理5 知:对v a o ,s d ,m 。d ,h d 对应的深度围道: 工r 4 :d ( ,;。) = 口 有 z 只“:协一f ) 一1 ( x 一奶= 已 形式, 若总体分布f 已知,即卢与己知,则 x r 。:( x - ) 一,( x - 1 ) :岛 是椭球面,而椭球面上的勒贝格测度为0 ,故 尸 d ( f ;x ) = c ) = j 卑。月幻。矿叫印( z ) 2 0 。由定理1 可知此定理结论 成立。 若总体分布f 未知,即与未知,则s d ,m 。d ,肋对应的深 n n n n : z r d :d ( 目;一) = 口) = f x e r 一:o i ) 。s 一o i ) :c 。 。其中i , s 分别为样本均值与样本协方差矩阵。设x ,x 。是来自总体的简单 随机样本,若能证得对于任意的。n ,x j 有 p ( x i 一- 2 ) 一s1 ( x ;一孑) = ( 一i ) s 一。( x 厂i ) :o 成立,则可得定理结 论。 下面只考虑一未知,已知的情况: p ( 五一i ) 一1 ( 五一) = ( 乃一动一1 ( 以一_ ) 2 px i 。一1 五一2 i 。( 一) 五十夏一1 牙= _ 一乃一2 夏+ ( 一1 ) + - 2 t 叉 2 p 五。“置一2 i ( “) 五一_ 。一l x j + 2 - 2 + ( 5 2 1 ) 乃= o l ( 木) 令= ( 五【一,+ 。) 。,则( = l = ) = p x 。a z x = 0 ,其中一是一对称矩 阵,其秩大于l ,故a = p i x & x = o 是一维数低于n d 的曲面,其 l e b e s g u e 测度为0 。由于总体分布为椭球分布,故p 连x = o = 0 。 即 尸 ( 置一i ) 。一1 ( 置一i ) = ( 一一i ) 一( x ,一i ) 0 。 故定理结论成立。 , 定理3 设q = ( q i ,一,o 。) 是x l ,工。基于深度函数d ( f 。;) 的秩向 量,r = ( r l j t ,r 。) 是y l i 一,】,。基于深度函数d ( f “) 的秩向量,若 c w ( 1 ) ,c ) 满足d 幽e r 条件,“”( f ) = 妒万f _ ) ,f = l ,n 。( 其中妒是平 方可积分值函数) ,且q 与r 都服从贸上的均匀分布,则线性秩统计 量“= c 。( q 。) 。( r ,) 与s 。= c 。( i ) 。( r r ) 有相同的渐近分布。 证明:由引理1 及例1 中的映射k ( r ) 确定的统计量d = k ( q ) 服 从披上的均匀分布,即d 兰q ( d 与q 同分布) ,而一 s = c 。( q ;k ,( r r ) = c 。( j k 。( 月。,) 由引理1 及例2 中的映射确定 i u lj - i 的统计量k :( r ) = ro d = ( r 。l ,r 。) 兰r s l , :兰。( q ,) 。( r ;) :羔。( ) 。( 兄。,) 兰羔。( k ,( 足力:s 。而由引 洋l = lj = l 理4 可知:s 。有渐近正态分布,则s j 与s 。有相同的渐近正态分布。 证毕。 5 定理的应用 1 独立性检验: 设和y 是两d ( d 1 ) 维连续型随机向量,f ( x ,_ y ) ,f 。( z ) ,f ,( j ,) 分别是x 和 ,的联合分布及边缘分布。为了讨论x 和y 之间的独立 性,提出检验假设: h 。:x 与y 独立 备择假设可以是单边的( z 和l ,有正相关,或彳和y 有负相关) ,也 可以是双边的,( z 和】,相关) ,此处只讨论单边备择假设: 日。:石和y 有正相关 设( 凰,y ,) ,( x 。,y 。) 是来自于连续分布f ( x ,y ) 的一列随机 样本。给定深度函数d ,单调且满足定理1 的条件。设q = ( q l ,q 。) 是 x 1 ,一,z 。基于深度函数d ( f 0 ) 的秩向量,r = ( 肌,r 。) 是h 一,y 。 基于深度函数d ( f 茹) 的秩向量。当x 和y 有正相关时,样本值x ;,y ; 会存在同时取大值或同时取小值的倾向,因而秩统计量对 ( q l ,r ,) ,( q 。,r 。) 的相关系数会取较大的值,即 兰( 2 一掣) 尼( 2 一之坠) 尺。 = 型= 一 n ( n 2 - 1 ) 7 1 2 取大的值有利于胃,由s 化简后的结果司知:s 的值的变化只 与兰( q ;一掣) 丑,有关,于是可构造等价的检验统计量: s ,:艺( g 一掣) 忍 很容易看出:s 。是一个线性秩统计量,此时的c f ) :f n - + l , “= i ,i = l ,n 。则i = 0 , 善m 而 2 = 磐- 等- - a 1 2 = t n ( n - i ) ( n + 1 ) 雹嚣 “沪- 12 = 半, 于是辐= 鬻斗m 即满足d e t h e r7 f 牛- 。 a n d ) = i = ( + 1 ) ( 万备j ,一l 一,。对应的可 积分值函数为( “) = “,b ,= ( + 1 ) 。易知:( “) 是平方可积分值函数。 当原假设h 。成立时,由定理l ,秩向量a = ( q l ,一,q 。) 与r = ( r - ,一,r 。) 都服从毗上的均匀分布,且q 与r 独立于是由定理3 及引理4 知: s # - n c a 专n ( o ,1 )( 寸) 利用u 检验法:给定显著性水平口,查标准正态分布函数值表 得i 临界值。,使得: p 学狐卜于是否定域的形规 学狐 ,对 于双边备择假设日。,否定域的形式为: 落于否定域,则拒绝日。 学h 。若观测值 2 。两样本位置与刻度问题 ( 1 ) 两样本位置问题: 设x l i ,和y 。,y 。是来自于连续总体分布f ( x ) 和f ( x 一) 的d 维随 机样本,其中工= ( m 。) 7 ,= ( 1 ,。) 7 为位置参数 为了讨论这两个样本是否来自于同一个总体,提出检验假设: h o :a = 0日1 :a 0 若日。成立,则z 一,x 。,y i ,y 。是来自于连续总体分布f ( 上) 的 样本容量为:朋+ 甩的随机样本给定深度函数d ,单调且满足定理 1 的条件。设q f ( r ,) 是z ,( y ,) 所有个观察值基于深度函数d 的秩, 则在h 。成立的条件下,r = ( q 1 ,q ,;眉b 一,r ) 在倪上服从均匀分布设 f 0 c ( i ) =t1 m 一+ 忍 即两样本回归常量 令s ”2 a n ( 胄。)( 两样本线性秩统计量) ,其中 i = 1 7 i = l , - - - , n ,b 。 0 ,( ) 是非降平方 司积分值函数。 当备择假设h 。为真时,即 0 ,则y x ,于是y 样本在混合样 本中的秩( r ”一,r 。) 应较大,所以5 ,的值应较大,于是s ,可作为检验 统计量。否定域的形式为: s 。 - s ( a ;m ,h ) ,其中s ( a ;r e n ) 是由s n 在h 。 下的分布按检验水平口确定的临界值。所以下面只要求出s n 在h 。下 争a ( r i ) - n = 的分布即可。由引理2 :互一寸n ( o ,1 ) r 斗o 。1 , 其中t t 。n 2 2 v a r i s “】2 丙而m n喜( a 廊) 一i ) 2 ,e 陋。】= ”i 利用u 检验法:给定显著性水平口,查标准正态分布函数值表 得临界值。,使得: r 一 、 户 点卫查2 。 = 口。令,( a ;肼,) = 月= + 盯。“。 【 盯州 j 当s s ( a ;m , ) 时,拒绝日。 ( 2 ) 两样本刻度问题: 设置l ,一,x 。和y i ,一,y 。是来自于连续总体分布f 缸,) 和 f ( ( j ,一目,) 7 7 ) 的d 维独立随机样本;其中良( 口,) 是x ,( y ,) 的分 布的中位向量:玎 0 。 h o :p ,2 臼,叩= 1 h 1 :秽,2 巩印 1 若原假设日。成立,则xb 一,z 。和y w , y 。是来自于连续总体分 布f ( x 一0 ,) 的样本容量为n = m + n 的随机样本给定深度函数 d ,使之满足定理l 的条件;设q ,( r ,) 是x 。( y ,) 所有个观察值基 于深度函数d 的秩,则在h 。条件下,r = ( q 一,q 。;r l ,一,r ,) 在巩上服从 均匀分布。令 。 c ( i ) : ) i i := 聊1 三j :_ 优+ n 即两样本回归常量 令s ”2 a 。( r ,) ( 两样本线性秩统计量) ,其中 暗1 口一( ) 。b ”万音) + d ” f - 1 ,n ,6 ” o ,庐( ) 是非降平方 可积分值函数。 当备择假设h ,为真时,即 0 ,则y x ,于是y 样本在混合样 本中的秩( r l ,一,r 。) 应较大,所以s 。的值应较大,于是s 。可作为检验 统计量。否定域的形式为: s n s ( 口;m ,n ) ) ,其中s ( 口;m ,”) 是由s 。在h 。 下的分布按检验水平口确定的临界值。所以下面只要求出s ,在h 。下 y d 。( 尺f ) 一”i 的分布即可。由引理2 :互一_ n ( o , d ( n - , o o ) 口州 其中( :t a n 2 2 v a r s 4 2 面焉喜 n 施) 一i , 醪”= n i 利用u 检验法:给定显著性水平口,查标准正态分布函数值表 得临界值。,使得:p 叠坐。 = 口。令s ;m ,n ) = ”五+ 叮。 【乳wj 当s s ( a ;m ,月) 时,拒绝。 上面的三个问题,都有一个特定的检验。每个特定的检验其功 效如何,与记分函数口,的选取及分布f 有关。某个特定的检验对这 个f 功效高,而对另一个f 功效低。若f 已知,则可选择一秩检验, 它针对这个,最有效。在这里不做详细讨论。 6 例子 例l 每个家庭都有长子与次子。试图想分析长子的头x 与次子 的头y 是否独立,这里只考察头长及头宽两个属性:调查n :2 5 个家 庭,今分别测得长子的头长( 期) 及头宽( x :) 与次子的头长( _ y ) 及头宽 ( y :) 的数据如下表( 见 9 ) : 分长子( x )次子y 量 x ix 2 y iy z 样品 11 9 l1 5 51 7 91 4 5 21 9 51 4 92 0 11 5 2 31 8 l1 4 81 8 51 4 9 41 8 31 5 31 8 81 4 9 51 7 61 4 41 7 11 4 2 62 0 81 5 71 9 21 5 2 71 8 91 5 01 9 01 4 9 81 9 71 5 91 8 91 5 2 91 8 81 5 21 9 71 5 9 1 01 9 21 5 01 9 01 4 9 为了检验长子的头与次子的头是否独立,提出检验假设: 日。:x 与y 独立日:与】,正相关 这是一个两维随机向量的独立性检验问题。所以可以按照应用1 的 方法来检验。 设x l ,x 。是来自于x 的随机样本;y l ,y 。是来自于y 的随机 样本。它们都是二维样本,无法按照直线上的常规办法来排序,给 定深度函数s d ( 见定义1 ) ,由于总体分布未知,故用其样本形式: 1 一 ( f ”;曲= 音邛e s 协如z 。 ln i e i j 2 3 3 , d n 从而否定原假设。即x 与r 不独立,正相关。与多元分析中典型相 关分析得出的结论一样。 参考文献 1 l i u ,r y m u l t i v a r i a t ea n a l y s i s b yd a t a 。d e p t h : d e s c r i p t i v e s t a t i s t i c s ,g r a p h i c s a n d i n f e r e n c e 1 9 9 9 , a n n s t a t i s t 2 7 :7 8 3 8 5 8 2 r o n a l dh r a n d l e sa n dd o u g l a sa w o l f e ,i n t r o d u c t i o n t ot h e t h e o r yo fn o n p a r a m e t r i cs t a t i s t i c s 。w o r l d p u b l i s h i n gc o r p o r a t i o n ,1 9 7 9 。 3 y i j u nz u oa n dr o b e r ts e r f l i n g s t r u c t u r a lp r o p e r t i e s a n d c o n v e r g e n c er e s u l t s + f o rc o n t o u r so f s a m p l e s t a t i s t i c a ld e p t h f u n c t i o n s ,t h ea n n a l so fs t a r i s t i c s 2 0 0 0 ,v 0 1 2 8 ,n o 2 ,4 8 3 4 9 9 4 l i u ,r y a n ds i n g h ,k aq u a li t yi n d e xb a s e do nd a t a d e p t ha n dm u l t i v a r i a t er a n kt e s t s j a m e r s t a t i s t 1 9 9 3 , a s s o c 8 8 :2 5 7 2 6 0 5 b a r n e t t ,v t h eo r d e r i n go fm u l t i v a r i a t ed a t a j r o y s t a t i s t s o c s e r 1 9 7 6 ,a1 3 9 :3 1 9 3 5 4 6 孙山泽,非参数统计讲义。北京:北京大学出版社,2 0 0 0 4 。 7 方开泰张尧庭,广义多元分析,北京:科学出版社,1 9 9 3 ,3 第一版。 8 l i u ,r o nan o t i o no fd a t ad e p t hb a s e do nr a n d o ms i m p l i c e s t h ea n n a l so fs t a t i s t i c s ,1 9 9 0 v 0 1 1 8 n o 1 4 0 5 4 1 4 6 9 樊家琨,应用多元分析,河南:河南大学出舨社,1 9 9 3 ,第一 版。 1 0 y i j u nz u oa n dr o b e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论