(概率论与数理统计专业论文)各种似然中结点问题的研究.pdf_第1页
(概率论与数理统计专业论文)各种似然中结点问题的研究.pdf_第2页
(概率论与数理统计专业论文)各种似然中结点问题的研究.pdf_第3页
(概率论与数理统计专业论文)各种似然中结点问题的研究.pdf_第4页
(概率论与数理统计专业论文)各种似然中结点问题的研究.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 各种似然中结点问题的研究 贺飞燕 ( 山东大学数学与系统科学学院,济南,山东2 5 0 1 0 0 ) 中文摘要 在研究各种统计问题时,我们常常要对来自于某个参数或非参数模型的样 本( x z ,恐,) 的一组或多组观测值( z ,z 2 ,o 。) 进行运算通常我们 都假设得到的一组观测值z 1 ,z 2 ,z 。是独立同分布且互不相等的,即当 j 时,盈巧如果观测值中,存在i j 时,翰= 巧,我们称样本观测 值盈与奶打结,其中毛,巧称为结点 值得注意的是,在对经验似然及其它各种似然( 参数似然、由经验似然衍生 的欧式似然、包含经验似然与欧式似然的更为一般的经验幂发散统计量) 的应用 及研究中,学者们往往直接假定样本观测值无结点,即样本的观测值独立同分布 且互不相等,而对于含有结点的情况没有一个系统的理论论述本文致力于讨论 在各种似然背景下,含有结点与不含有结点的情况对结果是否有不同影响我们 受o 叫e 礼( 1 9 8 8 ) 对无偏抽取的一组样本的观测值应用经验似然时处理结点问题 方法的启发,对经验似然的其它情形及其它几种似然中的结点问题进行了系统 论证,独立给出了在e 钆d l d e 口n 似然方法及经验幂发散统计量方法下,观测值有 结点与无结点时得到的结果并无本质上的不同,故我们可以直接按照观测值没 有结点,即简单样本独立同分布且互不相等的假定进行参数似然、经验似然,欧 式( e u c l i d e 彻;) 似然及经验幂发散统计量方法的应用,这使得似然比理论及其以 上几种似然方法的理论系统更加完整,所得到的结果更加严谨 传统的对数似然原则就是求观测值加权和的最大值本文中我们巧妙地将概 率加权和转化为一般意义下的加权和由此得到似然比的表示与样本观测值是否 含有结点没有关系的结论,进而我们能继续利用条件约束构造边际似然函数并得 到同样的置信域利用此技巧本文给出在应用各种情况的经验似然方法、由经验 i 山东大学硕十学位论文 似然衍生的欧式似然方法及包含经验似然与欧式似然的更为一般的经验幂发散 统计量方法时,样本观测值含有结点与不含有结点得出的结果完全相同,并证明 了参数似然中样本观测值足否含有结点对结果同样没有影响 关键词: 参数似然;经验似然;欧式( e “c f t d 几) 似然;经验幂发散统计量;结 点;似然比;边际似然比函数 i i 山东大学硕士学位论文 a b s t r a c t i nt h e 溉a r c ha b o u ts t a t i s t i c sf i e l d s ,w es h o u l dt oo p e r a t eo n eo r 跚v e r a l g r o u p so f o b s e r v a t i o 璐0 l ,z 2 ,z n ) 0 fs a m p l e ( x 1 ,x 2 ,x n ) w h i c l lc o m e f r o ma p a r a m e t r i co rn d n p a r a r n e t r i ci n o d e l w eo f t e ns u p p o s et h a tt h es 啪p l e o b s e r v a t i o n 8z 1 ,z 2 ,霉na r ei n d e p e n d e n tr 肌d o mv a r i a b l e s 硒t hac o 咖o n c d f 毗l d n o te q u 胡e a c ho t h e r ,t h a t i s ,鼢巧f o r i 歹i f 墨= 巧f b fi ji n t h eo b 阮m t i o 璐,w es a yt h a t 缸粕d 巧a r et i e d ,i nw h i c h 文a i l d 巧缸e t i 雠 i n t h ed a t a i t i 8n o t e w o r t b l yt h a t ,i nt h ea p p l i c a t i o na n dr e a ha b o u te m p i r i c a ll i 虹 1 i h o o d8 n do t h e r1 i k e h h o o d ( p a r 砌e t r i cl i m i h o o d e u c l i d e 明1 i k e l i h o o dd e r i v e d 血o m 锄p i r i c a ll i k e l i h o o d 、m o r eo r d i n a r ym e t h o dw h i c hi n c l u d ee m p i r i c a ll i k e k h o o da n de u c l i d e 趿h k m h o o d e m p i r i c a lp o w e rd i v e r g e n c es t a t i s t i c s ) ,h d 甜s a l w a y ss u p p o t h a tt h es a m p l eo b s e r v a t i o n sh a v en ot i i nn 【ed a t a ,t h a ti 8 , o b s e n ,砒i o 璐a r et t d a n dn o te q u a le a c ho t h e r ,a n di th 嬲n o ta8 y s t e m a t i ct h e - o r e t i cd i s c u s s i o na b o u tt h ec a 8 e sh a 埘n gt i 器i nt h i sp a p e rw ed i s c u 鹋w h e t h e ri t h a sd i f f e r e n te f f & to r e s u l tb e t w e e nt h ec a s 龉h a v i n gt i 镐o rn o tu n d e r 、w i o l l 8 l i l ( e l i h o o d e n l i g h t e n e db yt h em e t h o du s i n gb yo w 雠( 1 9 8 8 ) t ot r e a tt h ep r o b l e m o ft i e sw h e na p p l y i n ge m p i r i c a l1 i k e l i h o o dt oo b s e r v a t i o 璐o fs a m p l e ,w es y s t e m - a t i c a l l ya r g u et h et i e 8p r o b l e ma b o u to t h e rc a s e sd fe m p i r i c 出l i k e l i h d o da i l do t h e r l i k e l i h o o d ,a i l dd r a wt h ec o n c l l l s i o ni n d e p e n d e n t l yt h a tt h er e s l l l th a sn oe s 鲫n t i a l d i f f e r e n c eb e t w e e no b s e r v a t i o n sh a 埘n gt i 髑o rn o tm l d e rt h em e t h o do fe u c h d e a l l h k e l h o o da n de m p i r i c a lp o w e rd i v e r g e n c es t a t i s t i c s ,s ow ec a nd i r e c t l ya p p l y i n g t h em e t h d d0 fp a r 锄e t r i cu k e n h o o d ,e m p i r i c a ll i k e u h o o d 、e u c l i d e 衄l 龇n h o o d a n de m p i r i c a lp 椰,e rd i v e r g e n c es t a t i s t 豳皿d e rt h eh y p o t h e s i 8t h a to b 8 e a t i o n s h a en ot i e 8 ,n 砌e l yt h es a m p l e 盯ei d 8 i l dn o te q u a le a c ho t h e r ,a n di tm a k e s t h et h e o r e t i c a ls y s t e mo fl i k e l i h o o dr a t i o sa n dt h el i k e h h o o dm e t h o d su p w a r d m o r ei n t e g r a l i i i 山东大学硕七学位论文 t h e p r i n c i p ko ft r a d i t i o n a ll o gl i k e l i h o o di st os e e kf b rt h em 脚m 眦a b o u t t h es 呦o fe v e r yo b s e r v a t i o n sw e 塘h t i nt h i sp a p e r ,w es k n l f t l u yc h a n g et h es 眦o f p r o b a b i l i t yt ot h es u mo f 、】l ,e i g h t s ow ec a nd r a wt h ec o n c l 璐i o nt h a tt h ee x p r e 鹄i o n o fi i i 汜1 i h o o dr a t i o sh a sn or e l a t i o nw i t ht h ef a c tw h e t h e rt h eo b s e r v a t i o 璐o f s a i n p l eh a v et i e so rn o t ,h e n c ew ec a nc o n s t r t l c tt h ep r 0 6 l e 唧p i r i c a ll i k e l i h o o d r a t i of u n c t i o nw i t hc o n d i t i o n a lr e s t r 戤i o n 锄dg e tt h es a m ec o n f i d e n c er e 西。璐 u s i i l gt l l i ss l 【i ut h et h e s i sg e tt h ec o n c l l l s i o nt h a tw h e n 聊a p p l y i n ge m p i r i c a j 1 i k e j i h o o d ,e u c l i d e a nl i k e l i h o o da i l de m p i r i c a lp o 吣m v e r g e n c es t a t i s t i c s ,t h e r e s l l l ta r ea b s o l u t e l yp a r a l l e lw h e t h e rt h eo b s e n ,a t i o 璐o fs 锄p l eh 8 v et i e so r 肿t , a n dp r o v e di th a sn oe 插e c tt or e s l l l ti np 8 r a m e t r i cl i k e h h o o di ft h eo b 靶m t i o 璐 o f8 啦p l eh 8 et i 船 k e y 厂o r d s :p a r 锄e t r j c 埘d j h o o d ;e m p i r i c a l1 i k e l i h o o d ;e u c n d e a n1 i k e l i b o o d ; e m p i r i c a lp o w e rd i v e r g e n c es t a t i s t i 璐;t i 船i nt h ed a t a ;l 她l m o o dr a t i o s ;t h e p r o 右l ee m p i r i c a lu k e l i h o o dr a t i of h n c t i o n 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在本文中以明确方式标明本声 明的法律责任由本人承担 论文作者签名;董! 垫日期:主丑笙旦垄堕 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他手段保存 论文和汇编本学位论文 ( 保密论文在解密后应遵守此规定) 论文作者签名:熊导师签名论文作者签名:坠! 苎刍导师签名期:超生垒蚋 第一章绪论 在研究各种统计问题时,我们常常要对来自于某个参数或非参数模型的样本 的观测值进行各种统计方法的运用,以得到我们期望的结果学者们往往直接假 定样本观测值不包含结点,即样本的观测值独立同分布且互不相等,而对于含有 结点的情况没有一个系统明确的理论论述本人受0 伽e n ( 1 9 8 8 ) 对无偏抽取的 一组样本的观测值应用经验似然时处理结点问题方法的启发,对参数似然、经验 似然的更一般情形( 如有偏抽取的多组样本) 及以经验似然为基础的其它几种似 然( 由经验似然衍生的欧式似然、包含经验似然与欧式似然的更为一般的经验幂 发散统计量) 中的结点问题进行了系统论证,得出了在对样本观测值应用参数似 然方法各种情况的经验似然方法、欧式似然方法及经验幂发散统计量方法时, 样本观测值是否含有结点对最终结果并无影响的结论故我们可以直接按照观测 值没有结点,即简单样本的独立同分布且互不相等的假定进行参数似然、经验似 然,欧式( e “c f i d e o n ) 似然及经验幂发散统计量方法的应用,这使得似然比理论 及其以上几种似然方法的理论系统更加完整,所得到的结果更加严谨 正如前面提到的那样,本文致力于研究以经验似然为基础的各种似然中的结 点问题,首先我们给出结点的定义在研究各种统计问题时,我们要对来自于某个 参数或非参模型的样本( x l ,恐,五。) 的一组或s 组观测值( z l ,z 2 ,) 进 行运算通常我们都假设得到的一组观测值z 1 z 2 ,是独立同分布且互不 相等的,即当f j 时,霸哟如果观测值中。存在当i j 时,戤= 巧,我 们称样本观测值嗣与互,打结,其中戤,劫称为结点 在本文中,我们处理各种似然中结点问题的方法与d t ,e 扎( 1 9 8 8 ) 对无偏抽取 的一组样本的观测值应用经验似然时处理结点问题的方法一脉相承值得注意的 是,本文除第二章以外,均按照惯例用x l ,恐,x ;来表示样本观测值对观 测值有结点的情况,即对来自分布函数f 的试d 向量x l ,恐,五。, 存在当i j ,五= 托的情况,我们设其中有七个不同值o l ,沈,且在 分布f 下有概率p j ( 1 j 七) 首先我们对每个观测值五赋以权重岫,并 山东大学硕士学位论文 选择合适的权重使西恰好足所有咄:咒= 的和接着我们用权重嘶重新定 义f 的似然,当有结点时,似然值不唯一对某个满足t ( f ) = 口的f ,当且仅 当用峨定义的似然的最大值超过一个门限时,口就可进入置信域因此问题转 化为求权重讪定义的f 的似然的最大值经过运算,我们知道关于权重咄的 似然是关于概率肼的似然的常数倍,同样地,对分母中的经验分布f 进行运 算,其关于权重啦的似然与关于概率肼的似然也有整齐的倍数关系应用非 参似然比模型时,这个常数因子上下同时约掉,r ( f ) 的表达形式与没有结点的 形式完全相同,因此我们可以在计算上和理论上忽略结点,进而我们能继续利用 条件约束构造边际似然函数并得到同样的置信域 本文对各种似然中的结点问题进行了系统、详细的阐述在第一章中我们回 顾了经验似然的发展历程及理论思想,接着阐述了结点的概念及处理方法在第 二章中我们回顾了参数似然的一些性质,并在参数似然情况下对观测值结点的问 题进行了详细的论述在第三章中我们分别介绍了结点问题具体到经验似然中无 偏抽取的一组观测值,有偏抽取的一组观测值及有偏抽取的多组观测值的情况 第四章我们证明了在e 札c f i d e 帆似然方法下。观测值有结点与无结点时得到的 结果并无本质上的不同我们在第五章给出了在经验幂发散统计量背景下,观测 值有结点与无结点时对最终结果并无影响的结论 2 第二章参数似然中的结点问题 在参数模型的统计推断中,似然方法( 极大似然估计和似然比检验等) 占有十 分重要的地位而我们对似然的定义是通过来自于某个参数样本( x l ,x z ,) 厶) 的一组观测值( z 1 ,z 2 ,。) 给出的,这自然会涉及到如摘要中所定义的结点 问题本章主要研究参数似然中的结点同题 2 1 参数似然 本节我们简单介绍一下参数似然的方法和理论设一个参数模型( q 3 ,局) 0c r p ) 被一个仃一有限测度p 所控制,相应的密度函数为局( x ) ( z 1 ,。2 ,z 。) 是取自该参数模型的样本( x 1 ,恐,五。) 的一组观测值,那么似然函数定义为 从假定参数模型取出该组样本观测值的概率,作为参数的函数记为 l ( p ;z 1 ,2 _ 。) = l ( p ) = n p ( ;口) ( 2 1 1 ) l = 1 记参数目的真值为如,我们称使得样本观测值出现可能性最大的参数值p 为的 极大似然估计( 肘l e ) ,即 口2 哪糟己( 口;z l ,z 2 ,z n ) ( 2 l 2 ) 因为对数函数的单调性,为求m l e ,我们可以等价地考虑对数似然函数 = 1 0 9 l ( p ) = l o g ( p ( 翰; ( 2 1 3 ) i = 1 由极值理论,我们通常可以通过解似然方程刮( 移) 硼= o 来求口 在参数模型中,我们可以用参数似然比函数兄( 口) = l ( 口) l ( p ) 作为检验统 计量和构造置信域假设没有讨厌参数存在,并设礼 台的渐近方差阵阶数 为口,根据以k s ( 1 9 3 8 ) 的理论,在一定的正则条件下有 一2 1 0 9 r ( 如) x 己) ,n 一。o , ( 2 ,1 4 ) 山东大学硕士学位论文 这样我们可以用 c t r = e r ( 口) 2r ( 2 1 5 ) 作为如的近似置信域,为得到近似l q 置信域,可取= 唧( 一x 磊“2 ) , 其中x 磊”表示分布x 乙的1 一a 分位数一般情况下参数似然比置信域误 差的阶为d ( n 以) 。即 p ( ( 弄。) = 1 一q + d ( 礼一1 ) ( 2 1 6 ) 参数似然比置信域具有b 甜f e 扰可修正性。即可以找到实数8 ,令吒;钍p ( 一( 1 + a n ) x 蕊_ 口2 ) 将误差的阶降为d ( n 一2 ) ,即 p ( g t ) = 1 一口+ d ( 佗一2 ) ( 2 1 7 ) 对于存在讨厌参数的情况,设我们感兴趣的参数是口1 为讨厌参数此时似然 函数为l ( 日,7 ) ,通过极大化l 我们可以求得口和1 的m 工e ,分别记为5 与寺 为求口的置信域和对它构造检验统计量,我们考虑边际似然函数 砩( p ) = 己( 8 ,( 口) ) 三( 口,) ( 2 1 8 ) 其中亏( 口) = b r g m a h ( 口,7 ) 对一2 l o g ( ( ) 。在一定条件下,仍有类似于 无讨厌参数时的p 收敛性及b n r 胁t 可修正性 参数似然置信域具有函数变换不变性设可= 9 ( 护) ,簟为一一映照,那么玎的 参数似然比置信域c b 与口的参数似然比置信域g 口满足 g = ( 9 ( 口) l p g ,口) ( 2 1 9 ) 2 2 参数似然中的结点问题 本节我们来讨论本文的研究内容一结点问题具体到参数似然方法中的影响, 并得出无论来自总体样本的一组观测值是否打结,对其应用参数似然方法并无影 4 山东大学硕士学位论文 响的结果,即;在参数似然方法下,观测值有结点和无结点情况完全相同,我们 可以直接按照观测值没有结点的假设进行计算 情况1 首先考虑没有结点的情况:( g l ,勋,z n ) 是取自有个参数模型的 样本( x l ,x 2 ,) 的一组观测值,z l ,z 2 ,独立同分布且互不相等,即 若t j ,甄巧,由2 1 内容知道其似然函数为 l ( 口;z 1 ,z 2 ,) = l ( 口) = n p ( z t ;p ) ( 2 2 1 ) 对数似然函数 z ( p ) = l o gl ( 口) = 乏二l o g ( p ( 以;毋) ) ( 2 2 2 ) 为了更清楚的讨论有结点与无结点数据对参数似然结果的影响,我们对c r o m e r 只正则族函数做进一步的推导我们知道,当分布族 局( x ) ,口0 ) 满足正 则条件时,极大似然估计能通过将对数似然函数转化为似然方程来解决,这时 对j ( 口) 求导解似然方程扰( 口) 踟= 0 得到方程的几乎处处唯一解,即参数真 值如的极大似然估计占, o :警:去 妻喇“钏 。 硼踟刍? ”“ 。 “ ( 2 2 3 ) = 【茜( 1 0 9 蛾哪 令品【l o g p ( 矧口) 】= a ( 矧口) ,则p 满足 a ( 甄;口) = o ( 2 2 4 ) 接下来,彻可以利膀数似然比函煳仆器= 垂糍作为检 验统计量和构造置信域,应用参数似然方法的理论得到需要的结果 情况2 来自总体样本的观测值含有结点的情况;( z t ,z 2 ,) 是取自 有个参数模型的样本( x l ,x 2 ,x 。) 的一组观测值,z l ,z 2 ,z 。独立同分 布但有打结情况,即存在当t j 时,= 巧,我们设其中有七个不同 5 山东大学硕士学位论文 值2 “2 2 ,钰,并假定每个不同的值z j ( 1sj 七) 在观测中出现嘞1 次, 则此时似然函数可表示为 l ( 口;z 1 ,z 2 ,。) = l ( p ) = n p ( 勺;口) “ ( 2 2 5 ) j = l 对数似然函数为 z ( 口) = l o gl ( 护) = 吩l o g ( 刁;口) ) ( 2 2 6 ) j = i 同样的,我们对满足正则条件的分布族 b ( x ) ,p e ) 做进一步推导对f ( p ) 求 导得到似然方程 。= 等= 茜睦码l o g ) 】 。 ”1 ( 2 2 7 ) n 7 = 【斋( 1 。唰;吼 我们令上式中的 刍【l o g p ( 勺;p ) 1 = a ( 勺;口) , 对( 2 2 7 ) 式求解,得到来自总体样本的观测值在有结点情况下参数真值如的 极大似然估计占,每几乎处处唯一且满足 吻以( 备;p ) = o ( 2 2 8 ) ,= i 对来自于z l ,z 2 ,z 。的与勺相等的吩个观测值,我们分别记做巧l ,巧2 ,巧m 。 那么 6 嘞a ( 乃;口) f a ( 巧l ;口) + a ( 巧2 ;日) + + a ( 巧;p ) 】 ( 2 2 - 9 ) a ( 巧t ;伊) t = l a ( 龟;p ) 。硝。傅。纠。鳓 山东大学硕士学位论文 可见,对满足正则条件的分布族 局( x ) ,p e ,当总体样本的观测值有结 点时求得的p 与观测值无结点时求得的口满足同样的方程:。a ( 戤;口) = o 因此在参数似然方法下,对满足正则条件的分布族 局( x ) ,口e ,无论来自总 体样本的观测值( 霉1 ,z 2 ,) 无结点还是有结点,得到的参数真值的极大 似然估计p 的表达式是一致的进一步来看,仅由于观测值无结点取样和有结点 取样带来的前后两次( z 1 ,z 2 ,z n ) 值的不同,从而使得虽然结点与9 无锆点的 表达式相同,但结点的值和结点的值却不相等。显然我们可以得到这样的 关系式;结点= 詹6 | 无结点,其中后为固定常数另外,通过( 2 2 9 ) 式我们易 知n :l p ( 孔;移) 与n 名l 加( 乃;口) p 也是一致的,所以结果可以由正则族推广到 整个参数似然情况下 观测值有结点的参数似然比函数的表达式为 阶器= 垂c 然九 通过应用相同幅度的参数似然比函数r ( 口) ,我们可以得到与观测值无结点时相 应成比例的置信域及其它结果 综上所述,我们证明了在参数似然方法下,无论来自总体样本的观测值有结 点还是无结点,得到的结果并无影响,故我们可以直接按照观测值没有结点的假 设进行参数似然方法的应用 7 第三章经验似然中的结点问题 参数似然与参数似然比在参数模型中有着重要的作用,然而在实际应用中 我们往往没有理由假定我们的数据来自于某个参数模型对非参数模型。本章 主要围绕经验似然方法展开讨论,并对观测值不包含结点及含有结点的情况进 行了讨论由第一章我们知道,由于( z 1 ,现,z 。) 只是从总体中抽取出的样 本的一组观测值,戤是否打结,即当i j 时,是否有瓤= z f 存在,对似 然函数l ( p ;z l ,z 2 ,z 。) 从而对参数似然比函数r ( 口) 并无本质影响值得注 意的是,与参数似然不同,经验似然是一个以抽取为样本的观测值为支撑的多项 式,即分布f 必须在每个观测数据上有正的概率,且赋在每个观测值上的概率 和为1 观测值是否打结,对赋在每个观测值的概率进而对似然函数都有影响, 因此,在这种情况下研究结点问题,显得极为必要而且很有意义 3 1 经验似然 首先我们来介绍非参似然与经验似然比的方法和理论对非参模型,传统方 法是用正态近似来求置信域d 伽e n ( 1 9 8 8 ,1 9 9 0 ) 提出一种用经验似然比( e m p 洲f 肋七e “h 0 0 dr n t d ) 方法构造置信域, d 切e n 指出,对于未知分布f 的很多参 数p ( f ) ,它们的经验似然比统计量和参数似然一样满足l l 七s 定理,即具有x 2 分布因此和参数似然完全类似。我们可以用它们的经验似然比统计量构造置信 域和进行假设检验事实上。如d 埘e n 所言。t 切m g r u n 七e m e e r1 9 7 5 年在 用k 印f 帆一m e i e r 曲线估计生存概率时已经采用这种方法并得到生存概率的良 好区间估计如今,经验似然方法已经得到广泛的发展与应用相对于6 d 甜s r 印方 法,经验似然置信域有很多优点,比如经验似然置信域的形状完全由数据决定而 不是预先指定;经验似然置信域和参数似然置信域一样具有b 口r t f e t 可修正性 和函数变换不变性;经验似然置信域不需要构造枢轴量,因此在枢轴量不容易构 造时尤其有效 山东大学硕士学位论文 定义1 设x l ,咒。是来自分布函数f 的i i d 向量,它们的经 验分布定义为 r ( ) = : 一刚l ( 五) ,t ( 3 - 1 1 ) 其中对于任何口= ( 口1 ,观,) 舻,( 一,胡表示集合( 一o o ,n 1 】 ( 一,口d 】 定义2 设x l ,尥,j 0 彤是来自分布函数f 的o i d 向量,定义俨上 的分布函数f 的非参数似然泛函为 l ( f ) = 斥( 五) ) , ( 3 1 2 ) t = l 其中p ,表示分布函数f 对应的概率测度 定理1 【k 钯,e r & w o l ,d 叫计z ( 1 9 5 6 ) 】设x l ,拖,x 。础是来自分布 函数f 的t i d 向量,r 为其经验分布,那么对于上的任何分布f 。 有l ( f ) 工( r ) ,其中等号成立当且仅当f = r 证明:k t e ,e r & o l ,伽i 钯( 1 9 5 6 ) 由定理1 ,r 为f 的非参极大似然估计p m 三e 我们知道,在参数模 型中,若叩的m l e 为f ,那么,7 的函数p = p ( ,7 ) 的m l e 为口= 自( 7 7 ) 同样地对非参数模型,若我们感兴趣的参数为p = t ( f ) ,丁为统计泛函,那 么口的p m l e 为p = t ( r ) 例如f 的均值p = 厂甜f 的p m l e 为豇= 厂z d r = 贾,即样本均值 在参数推断中人们利用参数似然比进行假设检验与置信区间估计类似地, 在分布完全未知的情况下,我们引进经验似然比定义与边际经验似然比函数定义 如下, 定义3 设x l ,磁,五。是来自分布函数f 的i i d 向量,f n 为其 经验分布,那么对于j 尹上的分布f 。定义似然比 r ( f ) = l ( f ) l ( r )( 3 1 3 ) 9 山东大学硕士学位论文 为f 的经验似然比泛函 定义4 设x 1 ,局,k 是来自分布函数f 的i t d 向量,f 为上 的一个分布函数的集合,那么对参数口= 丁( f ) ,定义边际经验似然比函数为 泥( 口) = s u p 尺( ,) f 丁( f ) = p ,f 。尹) ( 3 1 4 ) 很显然,经验似然比实际上是一种截面非参数似然比函数,它要求f 在满 足约束条件t ( f ) = 口下使非参数似然比达到极大( 在无约束条件时,极大非参 数似然比是1 ) ,而参数日由这一约束条件引入这一极大似然比中,从而得到关 于参数口的极大截面非参数似然比函数,用这一非参数似然比作假设检验,区间 估计或进行其它统计推断,这一方法就是所谓的经验似然方法如果跪( 如) r 而易知分布f 的均值为( 1 一s ) 贾+ z 随x 的任意性总可以取到整个,因 此对任意一剜都有驼( 口) r ,从而g = 础失去置信域的意义为了解决 这个问题,我们将莎界定为样本上的多项式分布族,即+ 萝= f 1 f r ) , 这样我们有 r ( f ) = n 唧i ,终o ,仇= 1 ( 3 1 8 ) 3 2 无偏抽取的一组观测值情况下的结点问题 本节我们重点来研究结点问题具体到应用经验似然方法解决无偏抽取的一 组观测值的情况前面我们已经强调过经验似然情况下结点问题的重要性,幸运 的是,o 叫e 札( 1 9 8 8 ) 早在1 9 8 8 年就指出:在经验似然问题中,来自于总体样本的 观测值在无结点和有结点的情况下,所得到的经验似然是相同的。3 3 和3 4 节 对经验似然中以有偏概率抽取的一组及多组观测值存在结点的情况进行了扩展 和进一步研究,得出了与经验似然无偏抽取一组观测值情况相同的结论:观测值 有结点与无结点时,运用经验似然方法得到的结果完全相同,即当观测值存在结 点时,可看作无结点情况来应用经验似然方法 情况1 首先考虑没有结点的情况t 设x 1 ,恐,五。是来自分布函 数f 的i i d 向量且互不相等。即若 j ,五恐,设分布,置咒r 上 的概率鼽o ,且:。a = l ,那么我们有 即) = 怒= 如 ( 3 z 1 ) 山东大学硕士学位论文 情况2 观测值含有结点的情况:设x l ,尥,j 0 f 一是来自分布函 数f 的t t d 向量但有数据打结情况,即存在当i j 时,x ;= 玛,我们设 其中有七个不同值。l ,勿,钰,并假定每个不同的值( 1sjs 自) 在观测 中出现码1 次,且在,i 下有概率乃,易知名lp j = 1 及名1 吩= n , 则( 3 2 1 ) 变为 即) 2 驵( 耖翼( 鲁卜 ( 3 2 2 ) 方程( 3 2 1 ) 体现的经验似然要比方程( 3 2 2 ) 简单尽管结点数量很大( 即七 礼) 时,方程( 3 2 2 ) 可能有很快的算法,但一般来说方程( 3 2 1 ) 的计算比较简单 幸运的是,我们有这样的选择:若我们用( 3 2 1 ) 来代替真实的似然比( 3 2 2 ) 。 我们可以得到相同的边际似然函数乳( p ) ,这对任意的分布族f 及任意的函 数p = t ( f ) 都成立 为说明这一点,我们对观察值的分布f 的概率扔赋以权重岫o ,i = l ,2 ,n ,选择合适的权重使聊恰好是所有蚋:置= 勺的和,。因而对观察 值x 赋以权重峨的分布复制了f 及t ( f ) 我们用权重定义f 的似然为兀:l 咄,当有结点时,似然值不唯一对某个 有t ( f ) = p 的f ,当且仅当n :1 岫的最大值超过一个门限,p 就可进入置 信域故我们只考虑使n :1 咄达到最大值时生成功的屿由以往知识我们 易知,当屿= b f t ) ( t ) ( j ( i ) 由五= 勺( ) 决定) 时,n :】汕达到最大值 对给定的f ,兀:。的最大值为 ( 烹) = l ( f ) n ( ) 一 ( 3 2 3 ) 从而。 即) = 怒 :型睾譬出 ( 3 。_ 4 ) 2 币写胃f 一 ( 3 2 _ 4 ) = 器群= 辨 = = 一= _ t “止 n :。:n 知,昔 山东大学硬十学位论文 可见当我们通过比值l ( f ) l ( r ) 应用非参数似然时,因子n 名。扎i 就消失 了,所以我们可以在计算上和理论上当作没有结点来继续,记 n 兄( f ) = n 以: ( 3 2 5 ) l = l 其中岫2o ,鍪l 咄= l ,f 分给托的概率为,x 。;局屿,可见方 程( 3 2 2 ) 和( 3 2 1 ) 是等价的由此根据边际经验似然比函数定义,我们可以 用n 警l 舭 代替r ( f ) 将得到同样的乳( p ) ,从而得到同样的置信域g 综上,当我们在无偏抽取一组样本的情况下应用经验似然方法时,我们总是 令 乳( 口) = s u p n :l 讹 l t ( 蛾) = p ,咄芝o ,:l 咄= 1 例如对最简单而且最重要的总体均值推断应用经验似然方法,参数均值p 的边 际经验似然比函数可表示为 d 伽e 竹( 1 9 8 8 ) 应用凹r 口n 9 e 法求得满足上式的蚺由下式给出 ( 3 2 6 ) 吣( p ) 2 而砑涌,江1 ,2 m ( 3 加 其中a 是下面方程的解 喜褊一o 鲁1 + ( x 。一p ) 一 因而均值肛的经验对数似然函数为 f ( “) = 一2 l o g 跄( p ) = 一2 l o g m 以( p ) = 2 l o g :1 1 0 9 l + ( 。k 一“) ) 当托,尼,墨是中独立同分布随机向量,有均值伽及秩为q o 的有限协方差,d 加e 竹( 1 9 8 8 ) 证明f ( 肛) 是渐近自由度为标准x :分布,这一 结果可应用于构造p 的置信域如下 厶= p :f p sx :,。 , ( 3 2 ,8 ) 其中x :。是自由度为q 的x 2 分布的l d 分位点 与参数似然比置信域类似地,我们给出均值的经验似然置信域定理: 1 3 u i i 咄 。:i o 一 挑p = 墨 峨 。:l 毗 。汹 ,t 宅苫m = 盼 山东大学硕士学位论文 定理2 【o e 付( 1 9 9 0 ) 】设x l ,x 2 ,x 。是来自分布函数f 的玩d 向 量,且f 的均值为伽,有限方差阵阶为q 0 ,那么g 为凸集而且 一2l o g 蹰( ,幻) ! 一x 乙) ,竹+ ( 3 2 9 ) 进一步,若e ( 0 x l | 4 ) o o ,则 p ( 一2l o g 验( 肛o ) z ) = p ( x 乙) z ) 十d ( 几- 1 7 2 ) ( 3 2 1 0 ) 证明:o 叫e 礼( 1 9 9 0 ) 在前面的论述中我们知道均值弘的p m l e 为豇= 贾,由中心极限定理 我们知道若分布f 的方差阵有限,则有 他( 元一脚) 生一( 0 ,) ( 3 2 1 1 ) 从而他元的渐近方差阵就是e 由此可见定理2 中x 2 分布的自由度与( 2 1 4 ) 式 吻合,定理2 可以看成是( 2 1 4 ) 的非参数推广 值得注意的是,由本节的讨论我们知道数据中有无结点的情况对似然比r ( f ) 的表达没有本质上的影响,那么当我们通过约束对数据应用经验似然方法,结果 自然不会受到影响根据边际经验似然比函数定义,我们可以直接用n :ln 咄代 替r ( f ) ,将得到同样的腑( 口) ,从而得到同样的置信域类似的,当我们在以下 章节讨论经验似然,由经验似然衍生的欧式似然及更为一般的经验幂发散统计量 中的结点闻题时,可仅对其似然比r ( f ) 进行比较即可得出结论,而不必赘述约 束条件下的情况 3 3 有偏抽取的一组观测值情况下的结点问题 首先简单介绍一下有偏抽样的基本知识最直观的一类有偏抽样的例子是长 度有偏抽样样本例如从棉线纤维中随机抽取到某个样本的概率是与其长度成正 比的再比如,任意一个随机时刻,抽取到的在医院候诊那些病人。就有极大的 可能是那些已经等了很长时间而且不需要急诊抢救的病人 1 4 山东大学硕士学位论文 假设一个随机变量y 服从于分布厅,但我们获得的是一个长度有偏样本 令x 是一组观测值,那么x 的累积分布函数g 。【( 一o o ,x 】) = 善啬器 更一般的,假设y r d 服从于分布昂,观测值x ,产是以有偏概 率p ( ) 抽取的,若观测值x 础服从分布g o ,那么当 时。 g 。( a ) = 燃 对有偏概率函数p ( 可) 。,有。 o , 令蜥= “( 刁) ,这时其j 】v p m l e 为 nf k 1 拈e 善善却老,其中伊k 喜壶 3 柳 箸池 心 嚣m 户的非参数似然为 怫垂c 暴卜鱼c 彘严= 睁“一。, 则( 3 3 - 4 ) 变为 。 即) 2 翼( 芒 ( 3 3 7 ) 我们对观察值的分布f 的概率功赋以权重咄o ,i = 1 ,2 , ,并选择 合适的权重咄使功恰好是所有( 置= 勺) 的和,运用与经验似然无偏抽样结 点问题中相同的理论,权重吣定义的f 的似然为 娶蓬r ( 。s s ) 。一1l f = l “h 达到最大值,注意到当五= 勺时,概率功如何分配给权重蛾对分母是没 有影响的,我们要求峨的似然( 3 3 8 ) 式的最大值,也就是使n :,叫。达到最大 值易推得,对固定的力。当岫= 黑时,n :- 劬达到最大此时( 3 3 8 ) 可 化为 娶e 嚣懒,龇, = n ( 享蜥姚) i 1 唧叫 。 【3 删 七 女 、 2 娶c 盏p 里丐 = l ( 尸) n 啄唧 1 6 山东大学硕士学位论文 由于我们是通过比值l ( f ) l ( 户) 来应用非参数似然的,因此分子,分母中 共同的因子n 名。町会消失因而在有偏抽取的一组样本情况下,我们也可以 同样地在计算上和理论上忽略结点。 3 4 有偏抽取的多组观测值情况下的结点问题 本节讨论的有偏抽取多组样本的内容是上节有偏抽取一组样本情况的一般 化推广同样地,经过本节的阐述,我们将会说明在这种复杂的情况下,抽取到 含有结点的情况也可以被忽略0 叫e n ( 2 0 0 1 ) 及q l n ( 1 9 9 3 ) 给出了有偏抽样情况 中,在一定温和的条件下,一21 0 9 ( 兄( 如) ) 的渐进分布同样是x 乙) ,其中p 是p 的 维数 现假设可获得s 组观测值托,i = 1 ,2 ,s ;j = 1 ,2 ,仇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论