




已阅读5页,还剩73页未读, 继续免费阅读
(概率论与数理统计专业论文)样本峰度最大值与weibull分布参数的极大似然估计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 论文分为两部分,第一部分讨论了总体峰度的统计意义,给出了样本 峰度的最大值;第二部分讨论了不同情况下w e i b u l l 分布参数的极大似然估 计。全文共分为五章来讨论这两部分的内容。第一章是绪论部分,第二章 介绍样本峰度的最大值,其余三章介绍不同情况下w e i b u l l 分布参数的极大 似然估计。 论文第一部分依据峰度是衡量总体数据离群度的一个特征量的观点, 给出了样本峰度的最大值。设来自某总体的一个不全相等的样本,由样本 峰度的定义,给出了样本峰度最大值的表达式。 w e i b u 【1 分布是生存分析中应用最广泛的产品寿命分布之一,论文第二 部分关于w e i b u l l 分布参数极大似然估计工作如下。 第三章中讨论了样本来自完全数据w e i b u l l 分布时,分布参数的极大似 然估计。对于完全w e i b u l l 分布数据,文中分别研究了参数估计的 n e w t o n - r a p h s o n 算法和c m 算法,并在c m 算法的基础上提出修正的c m 算 法,通过随机模拟比较了三种算法的特点和试用范围。 在处理区间型w e n “1 分布数据参数极大似然估计时,计算极其复杂, 近乎不可能计算。针对此问题,文中第四章引进e m 算法,第五章引进一种 广义e m 算法- - e c m 算法,分别予以处理。通过随机模拟计算,验证了e m 算法和e c m 算法在处理区间型w e i b u l l 数据参数极大似然估计的可行性与 优良性。从算法的简洁性和收敛性看,e c m 算法较e m 算法更简洁更稳定。 关键词峰度;离群度;区间型数据;w e i b u l l 分布;n e w t o n - r a p h s o n 算 法:e m 算法;e c m 算法;c m 算法 燕山大学理学硕士学位论文 a b s t r a c t t h i sp a p e rc o m a k 喀t w op a r t so fc o n t e n t s i nt h ef i r s tp a r t ,s t a t i s t i c a l m e a n i n go fk u r t o s i sw a sd i s c u s s e d ,t h e nt h en l a x i n l u mo fs a m p l ek u r t o s i sw a s g i v e n i nt h es e c o n dp a r t ,t h em a x i m u ml i k e l i h o o de s t i m a t i o no fw e i b u l l d i s t r i b u t i o np a r a m e t e r sw a sd i s c u s s e d t h ef u l lt e x ta l t o g e t h e rd i v i d e si n t of i v e c h a p t e r s t h ef i r s tc h a p t e ri si n t r o d u c t i o n i nt h es e c o n dc h a p t e r , m a x i n l u mo f s a m p l ek u r t o s i s w a sd i s c u s s e d i nt h er e s to ft h r e ec h a p t e r s ,m a x i m u m l i k e l i h o o de s t i m a t i o no f w e i b u l ld i s t r i b u t i o np a r a m e t e r sw a sd i s c u s s e d , i nt h ef i r s tp a r tac o n c l u s i o nw a si n t r o d u c e di n t o :k u r t o s i si sak i n do f m e a s u r eo f d a t ad e g r e eo f o u t l i e r o nt h eb a s i so f t h i sc o n c l u s i o n , t h ef i r s tp a r t g i v e sm a x i m u mo fs a m p l ek u r t o s i s p r o v i d e das t y l e b o o kt h a ta en o ta l le q u a l c o m ef r o ms o m ee n s e m b l e b yd e f i n i t i o no fs a m p l ek u r t o s i s ,t h em a x i m u mo f s a m p l ek u r t o s i sc a nh eg o t t e n w e i b u l ld i s t r i b u t i o no f t e na p p e a r si nt h es u r v i v a la n a l y i n g i nt h es e c o n d p a r t ,t h ew o r ka b o u tm a x i m u ml i k e l i h o o de s t i m a t i o no fw e i b u l ld i s t r i b u t i o n p a r a m e t e r si sa sf o l l o w s : i nt h et h i r dc h a p t e r , t h ep a p e rm a i n l yd i s c u s st h em a x i m u ml i k e l i h o o d e s t i m a t i o no fw e i b u l ld i s t r i b u t i o np a r a m e t e r s , w h e nt h es a m p l ec o e a e s 丘o m w e i b u l ld i s t r i b u t i o n f o rc o m p l e t ed a t ao fw e i b u i ld i s t r i b u t i o np a r a m e t e r s n e w t o n - r a p h s o na l g o r i t h ma n dc ma l g o r i t h mw e r eu s e d ,a tt h es a m et i m e a m e n d e dc ma l g o r i t h mw a sp u tf o r w a r d a tt h eb a s eo ft h eo u t c o m eo f s t o c h a s t i cs i m u l a t i o n , d i f f e r e n c e sa n da p p l i c a b i l i t yi nt h r e ea l g o r i t h m sw a s c o m p a r e d f o ri n t e r v a ld a t ac o m i n g 丘0 mw e i b u l ld i s t r i b u t o n , i nt h ef o u r t hc h a p t e r , e ma l g o r i t h mw a si n t r o d u c e di n t oa n di nt h ef i f t hc h a p t e re c ma l g o r i t h mw a s i n t r o d u c e di n t o u s et h e s ea l g o r i t h m sc a r r y i n gt h r o u g hs t o c h a s t i cs i m u l a t i o n s e e i n gf i :o mt h ec o n c i s i o na n da s t r i n g e n c yo ft h e s ea l g o r i t h m s ,e ma l g o r i t h m a b s 订a c t a n de c m a l g o r i t h ma r ct w oo p t i m i z a t i o na l g o r i t h m s , a n de c ma l g o r i t h mi s m o r es t e a d ya n dc o n c i s et h a ne m a l g o r i t h m k e y w o r d sk u r t o s i s ;d e g r e eo fo u t l i e r ;i n t e r v a ld a t a ;w e i b u l ld i s t r i b u t i o n ; n e w t o n - r a p h s o na l g o r i t h m ;e ma l g o r i t h m ;e c ma l g o r i t h m ;c m a l g o r i t h m n i 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文样本峰度最大值与w e i b u l l 分布参数的极大似然估计,是本人在导师指导下,在燕山大学攻读硕士学 位期间独立进行研究工作所取得的成果据本人所知,论文中除已注明部 分外不包含他人己发表或撰写过的研究成果。对本文的研究工作做出重要 贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完 全由本人承担。 作者签字涩韵痛 日期:枷辞f 月憎日 燕山大学硕士学位论文使用授权书 样本峰度最大值与w e i b u l l 分布参数的极大似然估计系本人在燕 山大学攻读硕士学位期间在导师指导下完成的硕士学位论文本论文的研 究成果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及 相关人员本人完全了解燕山大学关于保存、使用学位论文的规定,同意 学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和 借阅。本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文, 可以公布论文的全部或部分内容 保密口,在年解密后适用本授权书。 本学位论文属于 不保密衫 日期:) 侔f 月谚日 日期;劫d f 年,1 月咖日 。 缘 v 眵 焉孔 打龟 b 懒潞绑 一蹴细奶: 晰 戤 馘 酬 储 聊 潸 第1 章绪论 第1 章绪论 1 1 峰度的背景及简介 峰度的定义可以在很多统计课本中找到,关于峰度的统计意义却有许 多种不同的解释。文献【1 】用尾重来解释峰度,认为峰度和尾重有密切的关 系。文献 2 】中用尖锋度来解释峰度。文献 3 】中认为峰度是分布尖峰和平坦 度的度量,高峰度总体分布倾向于在均值附近有显著的尖峰,然后迅速衰 减,并且有一重尾;低峰度倾向于在均值附近峰值较低,均匀分布为其极 端情况。然而关于尾重没有一个明确的定义,一般把“不存在矩母函数” 作为尾重的定义( 见文献【4 】) 。一般地认为,要定义尾重,首先应当明确尾 的概念。总体的尾应是相对总体分散度面言的,即总体的尾应与刻度参数 有关,而尾重应与位置和刻度参数无关。d a r l i n g t 0 1 1 ( 1 9 7 0 ) 瞪】把峰度解释为 对总体双峰性的度量,强调尖峰的对立是双峰,这是一个中庸的产物。 m o o r s l 6 认为峰度度量的是总体相对于“仃两点的分散度。l e v i n ( 1 9 8 4 ) 同 中讲解了常峰度、高峰度和低峰度的区别,但是关于峰度的论述非常简短, 并且没有给出详细的解释。关于峰度还有其它的度量方法,但其度量峰度 的方法与文献 8 】给出的峰度定义有了明显区别。文献【9 】中作者提出峰度是 衡量总体数据离群度的一个特征量。 历史上第一次需要研究峰度和偏度是,当发现正态曲线不能给出真实 数据一个准确陈述。在p e a r s o n 的曲线体系中,选择数据模型以观测标准 三阶矩和四阶矩。因此以后关于正态性的检验都用到了这些统计量。有三 个或更多个参数的分布,若能指示出峰度和偏度的,常被看作是正态性模 型。峰度和偏度的定义和序关系已被用于研究稳定性、选择位置参数、可 靠性理论、非参数统计等等。下面介绍了d a r l i n g t o n 和m o o r s 关于峰度统 计意义的探讨。 d a r l i n g t o n 认为峰度是单峰对双峰的度量。 假设m 和s 分别代表一个分布的均值和标准差,则d a r l i n g t o n 将峰度 燕山大学理学硕士学位论文 定义为 七:n - e ( x - m ) r m o o r s 将峰度定义为 后:掣 0 4 其中凹:p ,砌= d z ,令z = 型( 或= 型) ,则有膏:n - | , z 4 ( 或 j = e z 4o d a r l i n g t o n 用了三种方法证明峰度的最佳术语是“双峰”,并且峰越低, 双峰性越强。这三种方法是: ( i ) 通过关于_ j 的公式进行分析; ( 2 ) 检查分析低峰度和高峰度的分布; ( 3 ) 通过在各个点上加上观测值使已有分布发生改变并检测的变化。 下面分别进行讨论。 ( 1 ) 由z 的定义可以得到e z 2 = 1 ,则 啪,:e ( :) 2 一e ( :z ) ) 2 :瑙n 小 由此,d a r l i n g t o n 认为后可以被解释为z 2 在其期望1 周围取值程度的度量。 并认为聚集度越高,峰度_ j 就越小。又因为z 2 = 1 时z = 1 或z = 一i ,七就 可以解释为一个分布在土1 周围取值的程度的度量。因此,他认为这种聚集 最具有说服力的总结是“双峰”。 m o o r s 对此进行了反驳,认为最后一步是不成立的。他认为双峰分布 可以有大峰度,即当众数都不接近z = 1 这两点时就会发生,并用双 g a m m a 分布族的例子进行了说明,m o o r s 认为峰度是在“+ o r 周围的离差 度量。 ( 2 ) d a r l i n g t o n 认为具有“最大双峰”的分布应该是一个双称( 概率相等) 的两点分布,而“最小双峰”( 即最大单峰) 是当工完全集中于一点时。因为 v a r z 2 0 ,所以七= 陷圮2 + 1 1 。当v a r z 2 = 0 时七取最小值l ,此时所有 2 第1 章绪论 的z 的取值都在1 上,而x 将全在+ 仃和一仃处取值。 m o o r s 认为高峰度可能出现以下两种情况:( i ) 概率大部分聚集在t ( 此时为尖峰分布) 周围;( i i ) 概率大部分聚集在该分布的尾部。这两种概率 的存在造成了关于峰度的理解的混乱状态。如果确实有尾重,v a r z 2 可能 是确定的,则该分布的尾行为对k 就可能有强烈的影响。d a r l i n g t o n 通过认 为额外点对k 的影响给出了另外的观点。 ( 3 ) 把观测点加到z 上,期望不会改变,令d 代表k 关于某分布的全 体改变量的导数,它是新观测点对i 的影响的度量。如果d 是正的,新观 测点使k 值增大;如果d 是负的,新观测点使女值减小。如果在一个密度 分布中某点和它关于期望的对称点的密度总的增加量为p ,则 d = 熹= ( 办七) 2 一( n 后) 如、 ,、7 厂il 、 由上式可知z 2 在lk - ( _ i 2 一j i ) - ,| j + ( 七2 一i rl 内取值时d 是负的,使值减 小。若z 2 = i ( 旷一_ i ) l 时,则d = 0 ,而当z 2 在区间外取值d 是正的时, k 值增大。当k = l 时,区间宽度为0 ,z 2 被完全地集中于1 点处,此时工完 全集中于仃处,即分布有最大双峰。当k o o 时,在区间左端点处 z 2 一寺,在区间右端点处z 2 _ ,即当k 0 0 ,z 2 去时,d 是负的, 使k 值减小。 上面主要叙述了d a r l i n g t o n 和m o o r s 关于峰度统计意义的观点,可以 看出有关峰度的统计意义的观点不是唯一确定的。本文根据文献【8 】中峰度 的定义,依据文献 9 r p 作者关于峰度统计意义的观点:峰度是衡量总体数 据离群度的一个特征量。由此引出进一步值得思考的问题:片个数据的总 体中,离群度最强的情况应是珂一1 个数据点相同,而只有一个数据点与其 它不同的情况,此时样本峰度为吒= i t - - 2 + 。一个总体( 随机变量) x 的 峰度【8 1 定义为 燕山大学理学颐士学位论文 小嚣器 1 僻一yi 根据总体峰度的定义,设而,是来自某总体x 的样本,那么样本峰度 通常定义为 一玎z ( x , - r ) 4 铲裔2 藤研 l 。lj 其中 i = i 1 n = 去喜( 薯一i ) 4 ,乒x 妻一x , 一芽) 2 1 2w e i b u l l 分布简介 生存数据分析【1 7 1 的统计方法在生物医学和可靠性研究中,而且在犯罪 学、社会学、市场学以及健康保险领域的研究中有重要的应用。生存分析 中的观测数据具有样本小、数据随机删失的特点。w e i b u l l 分布i 肪7 1 是瑞 典科学家w a l o d d iw e i b u l l 于1 9 3 9 年首先提出的。w e i b u l l 分布是生存分析 中最重要的而且是常用分布之一,它具有样本小、数据随机删失的特点。 w e i b u l l 分布也用来研究材料强度及疲劳寿命,它在- i - 程中有着广泛的应 用,目前国内外机械产品可靠性分析、设计一般都建立在w e i b u l l 分布的 基础上。应f f j w e i b u l l 分布可以对机械设备中许多通用的基础零部件如齿 轮、轴承等进行可靠性分析。参数为( a ,芦) 的w e i b u l l 分布概率密度函数为 ,( x ) = 印( a x ) a - t e x p ( 一( a 工) 4 1 ,x 0 其分布函数为 ,( x ) = 1 一o x p ( - i 五x ) 4 1 , x 0 其中a 为尺度参数,口为形状参数,且参数a 0 ,卢 0 。 第1 章绪论 目前关于w e i b u l l 分布的经典分析方法主要是极大似然估计方法。尺 度参数a 表征的是产品的寿命信息,形状参数口则表征产品寿命的散布程 度。卢越大,散布越小;卢越小,散布则越大。 1 3 极大似然估计的背景及简介 极大似然估计方法 1 1 4 1 是统计中最重要,应用最广泛的方法之一。该 方法最初由德国数学家g a u s s 于1 8 2 1 年提出,但未得到重视,ra f i s h e r 在1 9 2 2 年再次提出了极大似然的思想并探讨了它的性质,使之得到了广泛 研究与应用。 在概率统计中,概率密度函数p ( x ;8 ) 扮演了重要角色。当0 已知时, v ( x ;e 1 显示概率密度怎样随z 变化;反过来,当样本工给定后,可考虑对 不同的0 ,概率密度如何变化,它反映了对x 的解释能力,这便是似然。 定义1 3 1 设p ( x ;p ) ,0 是( ,) 上的一族联合概率密度函数, 对给定的x ,称 l ( o ;x ) = k p ( x ;8 ) 为0 的似然函数,其中k 0 是不依赖于0 的一个量,常取k ;1 。 进一步,若在( 彤,& 。) 到( ,) 的统计量百( 工) 使 三( 舀( x ) ;工) = s :p l ( o ;工) 则百( x ) 称为8 的一个极大似然估计( m a x i n l 啪l i k e l i h o o de s t i m a t e ) ,简称 m l e 。 由于概率密度函数大多具有指数形式,采用似然函数的对数通常更为 简便。称 ,( p ;工) = l n t ( o ;z ) 为0 的对数似然函数。由于对数变换是严格单调递增的,故,( p ;工) 与l ( o ;x ) 在寻求极大似然估计值时是等价的。 燕山大学理学项士学位论文 当m l e 存在时,寻找m l e 最寻常的方法是求导数。如果百( x ) 是。的 内点,则占( 砖是下列似然方程的解 a l ( o ;x ) 0 0 , = o ,f = 1 ,k 记样本j = ( 墨,以) ,参数空间 ,参数向量口o ,假设置之间 两两相互独立。则对数似然函数为 1 ( x i o ) = l p ( x i o ) = p ( x , l o ) 然后求解p 使得似然函数达到最大值,即 0 = m a x l ( x 0 0 ) c v , 1 4 研究的问题 大家都知道样本是由数据组成的,观测到的随机样本数据有时能观测 到,有时观测不到。假如观测到的随机样本的数据全部能观测到,则称得 到的数据为完全数据。在实际闽题中,由于某种原因,要考虑的交量可镗 有一部分未观测到,称这些未观察到的数据为缺失数据 2 6 - - 3 0 l ,而观察到的 数据为观测数据。观测数据和缺失数据全体就称为完全数据。 从2 0 世纪8 0 年代后期开始,随着社会的进步与科学研究的发展,对数 据统计的要求不断提高,如何处理不完全数据已经成为了一项热点课题。 而在日常的数据处理工作中,我们经常会遇到的一种不完全数据就是截断 数据。截断数据有时也称为区问型数据。 在处理完全数据或不完全数据参数的极大似然估计对使用经典的极 大似然估计方法进行计算有时非常困难,这时需要借助其他算法,常用的 算法有n 州o n r a p l l s o n 算澍埽啦】,c m 算法【2 4 1 ,e m 算法及其加速算法。处 理完全数据极大似然估计时经常使用n e w t o n - r a p h s o n 算法、c m 算法。处 理不完全数据时使用e m 算法及其加速算法。 n e w t o n - r a p h s o n 算法简称n e w t o n 法1 1 8 2 2 l ,是一种解非线性方程的数 6 第1 章绪论 值迭代算法。数理统计中讨论的各种参数的极大似然估计可用n e w t o n 法 计算。c m 算法是e c m 算法 2 3 2 4 的特例,即没有缺失数据的e c m 算法。 c m ( c o n d i t i o n a lm a x i m u m ) 算法是条件最大化方法简称,可用于求统计模型 中没有缺失数据样本参数的极大似然估计。 e m ( e x p e c t a t i o n _ m a x i 胁i o n ) 算法【3 1 5 1 】是近几年一种非常流行的极大 似然估计方法,这个名字首先是f l q d e m p s t e r 、l a i r d 和r u b i n ( 1 9 7 7 ) 给出的。 e m 算法是一种被广泛使用的极大似然估计迭代算法,在存在缺失数据的情 况下,使用传统的估计方法计算常常比较复杂,因而引进e m 算法。e m 算 法是一种存在缺失数据情况下参数估计的特别算法。其基本思想是首先在 给出缺失数据初始值的条件下,估计出模型参数的值,然后再根据参数值 估计出缺失数据的值。根据估计出的缺失数据的值再对参数值进行更新, 如此反复迭代,直至收敛,迭代结束。 e m 算法自提出以来得到了迅速发展,出现了自e m 算法之后的许多加 速算法i 4 6 。m e n g 和r u b i n l 4 7 1 使用e m 算法及f i s h e r 信息阵得出s e m 算法,是 用来得到样本渐近协差阵的一种算法。e m 算法的缺点之一收敛速度慢,因 此有很多统计学家在改进收敛速度方面作了一定的工作。m e n g 和d y k 2 3 埘1 提出了一种扩充参数的方法来提高速度,同时维持e m 算法的简单性和平稳 收敛性,此外还提出了e c m 算法,并在1 9 9 4 年研究了e c m 算法的收敛性质。 l i u 和r u b i n f 5 2 】在e m 算法和e c m 算法的基础上提出了一种更快的收敛方法 即e c m e 算法。y a s u om a t s u y a m a l 5 3 i 在2 0 0 3 年使用矩阵在e m 算法的基础 上提出a e m 算法1 5 3 , $ 4 。 本文对于w e i b u l l 分布完全数据使用n e w t o n - r a p h s o n 算法、c m 算法、 修正的c m 算法。不完全数据主要讨论区间型数据,对于区间型w e i l ) u l l 数据使用e m 算法及e c m 算法进行处理。 1 5 本文的主要工作及章节安排 本文结构如下: 第一章是绪论部分,首先阐述了峰度的背景、起源、发展以及应用, 给出研究现状。继而阐述了w e i b u u 分布,介绍了极大似然估计的背景及 7 燕山大学理学硕士学位论文 主要内容,给出了w e i b u l l 分布极大似然估计所研究的问题。最后给出本 文的主要工作及章节安排。 第二章依据峰度是衡量总体数据离群度的一个特征量的观点,给出了 样本峰度的最大值。设五,( 不全相等) 是来自某总体的一个样本,由样 本峰度的定义,给出了样本峰度的最大值 一2 + l _ 。 力一l 第三章中讨论了当样本来自完全数据w e i b u 1 分布时,计算参数的极大 似然估计。对于完全w e i b u l l 分布数据,文中分别研究了参数估计的 n e w t o n - r a p h s o n 算法和c m 算法,并提出修正c m 算法,通过随机模拟比较 了三种算法的简洁性和平稳性。 第四章在处理区间型w e i b u l l 分布数据时,参数极大似然估计极其复 杂,近乎不可能计算。针对此问题,文中引进e m 算法,首先叙述了e m 算 法的概念、步骤及其收敛性质,然后使用e m 算法处理区间型w e i b u l l 数据 参数极大似然估计,并且进行了随机模拟。 第五章在第四章的基础上引进一种广义e m 算法目 j e c m 算法进行处理 区间型w e i b u l l 分布数据。通过随机模拟,验证了e m 算法和e c m 算法处理 区间型w e i b u l l 数据参数极大似然估计的可行性与优良性。从算法的简洁性 和收敛性看,e c m 算法比e m 算法更简洁更稳定。 3 第2 章样本峰度最大值 第2 章样本峰度最大值 2 1引言 目前关于蜂度统计意义的解释是比较模糊的。文献【1 】用尾重来解释峰 度,文献【2 】用尖锋度来解释峰度。文献【3 】中认为峰度是分布尖峰和平坦度 的度量,高峰度总体分布倾向于在均值附近有显著的尖峰,然后迅速衰减, 并且有一重尾;低峰度倾向于在均值附近峰值较低,均匀分布为其极端情 况。然而关于尾重没有一个明确的定义,一般把“不存在矩母函数”作为 重尾的定义( 见文献【4 】) 。一般认为,要定义尾重,首先应当明确尾的概念。 总体的尾应是相对总体分散度而言的,即总体的尾应与刻度参数有关,而 尾重应与位置和刻度参数无关。d a r l i n g t o n 5 1 把峰度解释为对总体双峰性的 度量,m o o r s l 6 1 认为峰度度量的是总体相对于仃两点的分散度。关于峰 度还有其它的度量方法( 见文献【7 】) ,但其度量峰度方法与等式( 2 - 1 ) 定义的 峰度( 见文献【8 】) 有了明显区别。 文献 9 】中提出:峰度是衡量总体数据离群度的特征量。由此引出进一 步值得思考的问题:疗个数据的总体中,离群度最强的情况应是玎一1 个数 据点相同,而只有一个数据点与其它不同的情况,此时样本峰度为 吒= 疗一2 + 。据此,文献【9 】中猜测:任意取有限值的h 个数据点,毛最 大值应为b = n 一2 + 七。本文就是针对文献【8 】给出的峰度定义如式( 2 - 1 ) , 通过证明,给出样本峰度的最大值为 吒= 抑一2 4 - 击 这支持了文献【9 】中作者关于峰度统计意义的观点。 一个总体( 随机变量) x 的峰度8 1 定义为 9 燕山大学理学硕士学位论文 如嚣希 le 一凹) 2i 设耳,矗是来自总体x 的样本,样本峰度通常定义为 其中 ( 2 1 ) 。”“一i ) 4 和裔2 赢可 i = 击喜t ,= 三喜( x , - - i ) 4 ,= 丢喜( 一i ) 2 由式( 2 1 ) 和式( 2 2 ) ,容易证明总体峰度和样本峰度都是与位置和刻度 无关的量,即下面引理成立。 引理2 1 1设总体峰度和样本峰度分别由式( 2 i ) 和式( 2 2 ) 定义,则 总体峰度和样本峰度在线性变换下都具有不变性。 根据引理2 1 1 ,对方差有限的总体x ,讨论其峰度值时,可以在约束 条件 e x = 0 ,w r ( x ) = 1 ( 2 - 3 ) 下进行。为了后面理论的需要,首先考察两点分布总体的峰度。 例2 1 1 设变量工服从如下两点分布: e ( x = 0 ) = - l - p ,p ( x = 口) = p ,v a r ( 口o ) 容易得到 e ( x e x ) 2 = 口2 p ( 1 一p ) e ( z e x ) 4 = a 4 p ( 1 一p ) p 3 + ( 1 一p ) 3 因而,变量x 的峰度 l o 第2 章样本峰度最大值 丘=而e(x-fx)e(x = 瑞鲁= 志j s ( 2 - 4 ) (一麟) 2 ) 2 p ( 卜p )p ( 1 - p ) 、 这与引理2 1 1 是一致的,即两点分布总体的峰度与两点的具体取值无关。 设五,毛( 珂2 3 ) 只取两个值,不妨设其中有,( f 为整数且1 ,疗一1 ) 个为0 ,忍一f 个为1 ,这相当于式( 2 4 ) 中的p :i 一三,则 删2 丽n 2 3 ,l t n - 1 旦业:塑型:o 一= - = i , o t t 2 ( t - n ) 2 可得出f = 詈,且1 f 呈时吒( f ) 单调递减,n 2 t 胛一1 时吒( f ) 单调递增。 又由于吒( 1 ) = k 。( n - 1 ) ,所以容量为珂的样本只取两个值,且,l 一1 个观测 取僵相同时,吒= ,2 2 + 取最大值,而 = 2 t 时,岛,( f ) = 1 取最小值。 一i 文献【9 】中作者认为:峰度是衡量总体数据离群度的特征量。由此可引 出值得思考的问题:疗个数据的总体中,离群度最强的情况应是疗一1 个数 据点相同,而只有一个数据点与其它不同。由例2 1 1 知,此时峰度 吒= n - 2 + 二_ 。如果作者的观点正确,那么任意取值的行个不全相同的 数据点( 而,毛) ,应有 m 不a x 全相等吒( 而,) - - n - 2 + 刀j 其中颤( 而,矗) 由式( 2 - 2 ) 定义。 2 2 主要结果 燕山大学理学硕士学位论文 峰度恒为妄。 证明根据引理2 1 1 ,不妨设总体等概率取而= - 1 ,屯= 1 ,x 3 = x , 则有 砸瑚,篇x 焉器毋墼3 6 ( x 铲专 i+ 3 ) 2 + ( x 一3 ) 2 + ( 2 x ) 2 l 2 + 3 ) z 引理2 2 1 说明容量为3 ( 不全相等) 的样本的样本峰度岛;昙。 引理2 2 2 设非退化变量工的概率分布为 p ( x = x ) = p 1 ,p ( x = y ) = p 2 ,e ( x = z ) = p 3 ,p 1 + 见+ 见= 1 ( 2 5 ) 其中x , y z 为任意有限实数。若 工+ y + z = 0 ,0 p 3s p 2 p l 1 且a ,p 2 ,p 3 中至少有两个相等,则当x = y 时,总体x 的峰度达到最大值 l 一, p 3 ( 1 - p 3 ) 。 证明根据引理2 1 1 ,在式( 2 3 ) 条件下讨论x 的峰度。当p l = p 2 皇p , 根据引理条件。结合a + p 2 + 见= 1 ,容易得到o 岛s p 吾,且 l x + y + z = o jz = - ( x + y ) p ( x + y ) 十易z = o j ( 工+ y ) ( 3 p 一1 ) = o 【p ( x 2 + y 2 ) + 马z 2 = 1 当p = ;,由引理2 2 1 知,此时总体x 峰度恒为吾,- 与x = y 时总体 峰度相同。当石+ y = 0 ,容易推出二= 0 ,x 2 = 。此时彳的峰度 嘞“脚4 + p 3 办z 小去 搿,- p 1 o ,三 p 三 2 p ( 1 - 2 p )2 p1 - 2 p 3 。 2 类似地,p 2 = 见皇g 时,容易得到o g s ;,且 当y + z 2 。,容易推出x = 。,= 寺。此时z 的峰度 瑚小寺 粼, 其中尘麦呈等为x = y 时的峰度。事实上 o 鼋 o o g j 1g ( 1 一g ) 2 92 9 ( 1 一g ) 1 3 证毕。 引理2 2 3 设o 见 p 2 p t 1 且a + p 2 + 仍= 1 ,则有 而蛙皿氅黼而1plp 2 - p 3 ) + p z ( p 3 + p 3 ( p l - p p 3 。 ( 2 - s ) ( 2 一p 1 ) 2:) 2见( 1 一 ) 、7 证明把p l = l - p 2 一岛代入式( 2 6 ) ,即往证 ( p 2 一岛) 2 + ( 1 - 2 p 2 一p 3 ) ( 1 - p 2 2 p 3 ) 。1 ( 1 一p 2 一岛) ( p 2 一p 3 ) 2 + 扔( 1 一p 2 2 p 3 ) 2 + p 3 ( 1 2 见一岛) 2p , o - p , ) 褥 抖 舻 燕山大学理学硕士学位论文 只要能证明0 :1 ,p20 p 3p 3p 2 三兰时, 只要能证明 i , o ( 2 7 ) 即可。显然,当o 见三9 时,式( 2 7 ) 成立。 考查函数厂( 见) 的稳定点,令 鱼霎生:1 + 9 西一1 0 p 2 2 p a l 一9 仍) :( 1 9 p 2 ) ( 1 - p 2 - - 2 岛) :o a 巩 由上规知 半时,总有掣北此州岛) 在( 。, ) 上单 调递减。注意到岛专j i 一蕴含着p 2 斗j 1 ,a 专j 1 + ,由式( 2 _ 7 ) 易得 一l i 珥l f ( p 3 ) - o o 因而。 见 ,吉 见 。而 o 马 o 综合之,o 岛 j 1 , 见 p 2 o 证毕。 定理2 2 1设非退化变量x 的概率分布由式( 2 - 5 ) 给出,且满足 0 见p 2 s p l 1 则当膏2 y 时,x 的峰度达到最大值i 百三万一3 。 证明根据引理2 1 1 ,不妨仍在条件( 2 3 ) 下讨论问题,此时条件( 2 3 ) 变为 e r = p l x + 见) ,+ 岛:= o ,v a r ( x ) = p l x 2 + a j ,2 + p 3 2 2 - - 1( 2 - 8 ) 由峰度定义( 2 1 ) ,此时把峰度看成( x ,y ,z ) 的函数,有 1 4 第2 章样本峰度最大值 k ( x ,y ,z ) = p j x 4 + 岛y 4 + p 3 2 4 往证x = y 时,函数k ( x ,y ,z ) 在条件( 2 - 8 ) 下取得最大值。 注意到约束条件( 2 8 ) 说明x ,y ,z 在一条封闭曲线上取值,且工,弘z 不全 相等,那么k ( x ,y ,z 1 在条件( 2 8 ) 下的最值点一定是该条件下的极值点。又 由于j a c k b i 矩阵 。,一o(ex,var(x)f岛 p 2 p 3 、- ,h o 。 a ( 工,y ,:) t , 2 p :2 p 2 y2 p :j 所以在o p 3 p 2 p l l 条件下,只要x ,y ,2 不全相等,就有r a n k ( j 1 = 2 , 根据多元连续可微函数条件极值的必要条件( 参见文献【1 0 】p 1 3 0 定理1 ) ,知 函数k ( x ,y ,z ) 在式( 2 - 8 ) 下的条件极值点一定是相应l a g r a n g e 函数 f ( x , y ,z ,d ,卢) = 足( x ,y ,z ) 一a ( p l x + p 2 y + p 3 z ) 一f l ( p l x 2 + p 2 y 2 + p 3 2 2 1 1 的稳定点。下面求l a r g a n g e 函数,的稳定点,令 差= 4 局x 3 - - a p l 一2 f l p 。删j 钳一a 一2 , 8 例( 1 ) 砂o f = 4 仍y 3 - - a 易一2 卢岛y = 。j 4 y 3 - a - 2 f l _ ) ,= 。( 2 ) 鼍= 4 见z 3 - - 0 见一2 卢p 3 z = o 等4 2 3 - c t - 2 f l z = o ( 3 ) ( 2 - 9 ) p l x + p y + p 3 z = 0( 4 ) p l x 2 + p 2 y 2 + p 3 2 2 = 1 ( 5 ) 式( 2 9 ) 中的( 1 ) x + ( 2 ) x y + ( 3 ) z ,结合( 4 ) ,( 5 ) ,有 卢= 2 ( p l x 4 + p 2 y 4 + p 3 2 4 1 式( 2 - 9 ) 中的( 1 ) 一( 2 ) ,( 1 ) - ( 3 ) ,有 综合上述,函数圈鼻,y , z ) 在条件( 2 8 ) 下的最值点一定满足方程组 户枷 一訇 嚣 卅咿 营 兮 力力 o o 邛筇 卜卜 矿驴 p p h 一 燕山大学理学硕士学位论文 卢= 2 ( p l x 4 + p 2 y 4 + p 3 2 4 1 x y ) ( 苫2 + x y + y 2 一导) = o o z ) ( x 2 + 圮+ z 2 一= o ( 2 1 0 ) p i x + p 2 y + p ;z = 0 p l x 2 + p 2 y 2 + p 3 2 2 = 1 注意到x , y ,z 不能同时相等,由式(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届长治市重点中学高三化学第一学期期中教学质量检测模拟试题含解析
- 车间消防知识培训课件考试
- 2025年晋升兽医师试题及答案新版
- 2025年科研骨干考试试题及答案
- 单位普法宣传教育制度
- 2025年马克思主义相关理论及历史事件知识试卷及答案
- 小何妈妈笑了教学课件
- 特色食品知识培训课件
- 特色面知识培训课件
- 特种车辆基础知识培训课件
- 吉安市新庐陵投资发展有限公司及下属子公司2025年第二批面向社会公开招聘笔试备考题库及答案解析
- 幼儿园卫生及安全检查标准
- 儿童动漫消费偏好-洞察及研究
- 2025年12345热线考试题库
- 2025年森工集团面试题目及答案
- 2025年教育综合知识试题及答案
- 网络接入管理办法
- 隧道二衬安全注意事项
- 绿色矿山培训课件
- 银行科技架构管理办法
- 110接处警课件培训
评论
0/150
提交评论