(概率论与数理统计专业论文)基于boxcox变换的gamma模型.pdf_第1页
(概率论与数理统计专业论文)基于boxcox变换的gamma模型.pdf_第2页
(概率论与数理统计专业论文)基于boxcox变换的gamma模型.pdf_第3页
(概率论与数理统计专业论文)基于boxcox变换的gamma模型.pdf_第4页
(概率论与数理统计专业论文)基于boxcox变换的gamma模型.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ag a m m am o d e lb a s e do nb o x c o x t r a n s f o r m a t i o n at h e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t f o rt h em s d e g r e ei nn a t u r a ls c i e n c e b y c a o y u z h a n g p o s t g r a d u a t ep r o g r a m s c h o o lo fm a t h e m a t i c sa n ds t a t i s t i c s c e n t r a lc h i n an o r m a lu n i v e r s i t y s u p e r v i s o r :z h a oh u i a c a d e m i ct i t l e :a s s o c i a t ep r o f e s s o r s i 印丝! z ! 丕心 a p r i l 2 0 1 1 硕士学位论交 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 曹五本 日期:洲f 年广月i ;日 学位论文版权使用授权书 学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅: 学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手 段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密,在年解密后适用本授权书。 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名:曹玉璋 日期:t t 年f 月l b 日 导师娩币i 7 日期:如t 年歹月i 日 本人已经认真阅读“c a l l s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。 作者签名:曹玉 日期:2 ,u 年岁月f 1 ) 日日期:工。l 、年岁月眵日 = : 硕士学位论文 m a s t e r st h e s i s 中文摘要 在统计分析过程中,建立数学模型是一项十分重要的研究任务,如气象学家要 根据日降水量、大气压、风速的数学模型来预测天气;地震学家更需要建立一个包 括人口、污染、历年地震时间的数学模型,为人类的安全和社会的发展做出贡献。 我们通常对多指标的数据集应用回归分析的方法来建立模型。但是,对单变量的分 析,往往因很多不确定性因素,我们需要对数据拟合概率分布,从而可以对该变量 进行较深入的统计推断,如自然界及工程技术中的许多计数型随机变量服从p o i s s o n 分布;许多电子产品的寿命服从指数分布;在地震序列的有序性、地震发生率的齐 次性、计数特征具有独立增量和平稳增量情况下,我们可以导出地震发生i 次时间 的概率密度为g a m m a 密度函数。此外在建模过程中,原始数据不一定能与某种分 布吻合,此时可以对数据进行线性或非线性变换,对变换后的数据来拟合某种分布。 本文针对关于梦的不同程度的频数表,对年龄变量做b o x c o x 变换,拟合出 g a m m a 分布。第二章给出了解决参数点估计的两种理论方法:两步估计法、均匀 布点法。这两种方法相互弥补,基本上可以求出所有参数的估计值。第三章给出在 和互的相合性和渐进正态性及理论证明。第四章对表( 1 ) 中的数据进行分析,利用第 二章中的两种方法分别求出f 值和口、旯的估计值。此外,4 3 利用回归的思想方法, 得到口、a 的粗糙估计值。我们将三种方法的估计值记录在表( 5 ) ,结果证实表( 1 ) 中 数据基于b o x c o x 变换后可以建立g a m m a 模型。 关键词:g a m m a 分布;b o x c o x 变换;极大似然估计;两步估计;均匀布点法 硕士学位论文 m a s t e r st h e s i s a b s t r a c t d u r i n gs t a t i s t i c a la n a l y s i sp r o c e s s ,e s t a b l i s h i n gam a t h e m a t i c a lm o d e li sa ni m p o r t a n t r e s e a r c ht a s k f o re x a m p l e ,m e t e o r o l o g i s t se s t a b l i s ha c o m p l i c a t e dm o d e lc o n s i s t i n go f d a i l yr a i n f a l l ,a t m o s p h e r i cp r e s s u r ea n dw i n ds p e e dt of o r e c a s tw e a t h e r ;t om a k ea c o n t r i b u t i o nf o rh u m a ns e c u r i t ya n d s o c i a l d e v e l o p m e n t ,s e i s m o l o g i s t s a r em o r e r e s p o n s i b l ea n de a g e rt os e tu pam a t h e m a t i c a lm o d e lc o n t a i n i n gp o p u l a t i o n ,p o l l u t i o n , r e c o r d e dt i m e w eu s u a l l ya p p l yt h em e t h o do fr e g r e s s i o nf o rd a t as e t sw i t hm a n y i n d e x t oe s t a b l i s ham o d e l h o w e v e r , a c c o r d i n gt om u c hu n c e r t a i n t yo f u n i v a r i a t eo raf e wo f i n d e x ,t h ed a t a s e ts h o u l db ef i t t e dt oap r o b a b i l i t yd i s t r i b u t i o nf o rs t a t i s t i c a li n f e r e n c e f o ri n s t a n c e ,m a n yk i n d so fc o u n t i n gr a n d o mv a r i a b l e s i nt h en a t u r ef i e l da n d e n g i n e e r i n gf i e l df o l l o wa p p r o x i m a t e l yp o i s s o nd i s t r i b u t i o n ;t h eg a m m ad i s t r i b u t i o n o f f e r sag o o df i tt ot i m eo ft h ei - t h h a p p e n e de a r t h q u a k eu n d e rc o n d i t i o n so ft h e e a r t h q u a k es e q u e n c ew i t ho r d e r l i n e s s ,h o m o g e n e i t ya n dc o u n t i n gw i t hi n d e p e n d e n ta n d s t a t i o n a r yi n c r e m e n t a lf e a t u r e s d u r i n gm o d e l i n g ,w eo f t e nd e a ld a t aw i t hl i n e a ro r n o n l i n e a rt r a n s f o r m a t i o n s t h i sp a p e rc o n d u c t sas t a t i s t i c a la n a l y s i sa b o u tt h ed i f f e r e n td r e a ml e v e l so fs t u d e n t s b a s e do nt h ef r e q u e n c yt a b l e ,w em a k eab o x c o xt r a n s f o r m a t i o nt ot h e a g ev a r i a b l ea n d t h e ne m p l o yag a m m ad i s t r i b u t i o nt om o d e lt h et r a n s f o r m e dv a i l a b l e c h a p t e r2g i v e s t w ok i n d so fm e t h o d sa b o u th o wt os e e kf o rm a x i m u ml i k e l i h o o de s t i m a t e s ,s u c ha s t w o s t a g ee s t i m a t ea n dt h em e t h o do fd i s t r i b u t i n gp o i n t su n i f o r m l y b o t hs u p p l e m e n t e a c ho t h e ra n dc a ns o l v ea l m o s ta l l l o g l i k e l i h o o df u n c t i o n s c h a p t e r3d i s c u s s e s c o n s i s t e n c ya n da s y m p t o t i cn o r m a l i t y , a n dg i v e st h e o r yp r o o f c h a p t e r4s h o w st h a t p a r a m e t e r se s t i m a t e sa r ew o r k e do u tt h r o u g ht h ea b o v em e t h o d sf r o mc h a p t e r2 b e s i d e s w ec a na l s og e tt 1 1 ee s t i m a t e so ft h r e ep a r a m e t e r sb y u s i n gr e g r e s s i o ni n4 3 w er e c o r d t h er e s u l t so ft h et h r e em e t h o d st o g e t h e ra n dc o n f i r mt h a ta g a m m am o d e li sap e r f e c tf i t t od a t ai nt a b l elb a s e do nb o x c o xt r a n s f o r m a t i o n k e yw o r d s :g a m m ad i s t r i b u t i o n ;b o x - c o xt r a n s f o r m a t i o n ;m a x i m u ml i k e l i h o o d e s t i m a t e ;t w o s t a g ee s t i m a t e ;u n i f o r md i s t r i b u t e dp o i n t 中文摘要 目录 a b s t r a c t 第一章引言 i i l 1 1 研究背景及现状1 1 2 准备知识2 1 2 1g a m m a 分布2 1 2 2b o x - c o x 变换3 1 3 本文研究概述3 第二章参数的点估计5 2 1 两步估计法。5 2 2 均匀布点法。9 第三章估计量的性质。 第四章实例分析1 3 4 1 两步估计算法14 4 2 均匀布点算法15 4 3 同归分析算法15 第五章小结与展望1 8 附录。1 9 参考文献2 0 致谢2 2 硕士学位论文 m a s t e r st h e s i s 第一章引言 1 1 研究背景及现状 众所周知,g a m m a 分布在可靠性、生存分析中有着极为重要的地位并得到广 泛的应用【l 】。在流行病学中,g a m m a 分布也是一种常见的分布,常被用于拟合时间 延迟分布,包括感染至发病、发病至入院、入院至出院以及入院至死亡的时间延迟 分布,如蔡全才( 2 0 0 5 ) 就中国内地s a r s 爆发资料分析,发现s a r s 潜伏期服从 g a m m a ( 2 1 ,2 3 3 ) 分布,潜伏期均值和方差的估计值分别为4 8 9 ( 9 5 c i4 4 3 5 3 5 ) 和 1 1 4 0 天2 ,9 5 的病人感染s a r s c o v 后将在1 1 4 2 天内发病【2 1 。在地震学中,若 在地震序列具有有序性、地震发生率具有齐次性、计数特征具有独立平稳增量 的情况下,则我们可以导出地震发生f 次时间的概率密度为g a m m a 密度函数 1 3 1 。在水文学中,d a s ( 1 9 5 5 ) 和s t e p h e n s o n ( 1 9 9 9 ) 都利用某区域的日降水量、a s h k a r 与b o b e e ( 1 9 8 8 ) 年da k s o y ( 2 0 0 0 ) 对水文学中数据集,建立了与g a m m a 分布相关的模 型1 4 , 5 , 6 , 7 1 。最近的一些文章中,k o ,b u r g e ,n a r d e l l 和t h o m p s o n ( 2 0 0 1 ) 在研究社会动荡 引起的事故和风险时指出g a m m a 模型很好的拟合在社区医院等候室所花的时间数 据【8 1 ;m a x i m ( 2 0 0 6 ) 发现:植物中产生的绿色素和石油焦的碳纤维的浓度服从 g a m m a 分布1 9 1 。可见,g a m m a 分布在许多领域有着极其重要的地位。 表( 1 ) 中数据来源于m a x w e l l ( 1 9 6 1 p 7 0 - 7 2 ) ,他利用y a t e s ( 1 9 4 8 ) 中的方法得到 p e a r s o nz 2 的分解式。m a x w e l l 针对2 3 3 名中小学生的做梦情况进行5 4 列联表分 析,将学生的年龄划分为五个区间段,对做梦的严重程度分为四个等级:正常、较 轻、较重、非常严重;他还发现一种结果:做梦的程度越严重,学生越容易做梦。 j a n e l d e r ( 1 9 7 2 p 3 7 8 3 8 0 ) 对表( 1 ) 数据建立了有交互作用的方差分析模型,分 别拟合出年龄、梦的程度的主效应,以及在固定主效应的条件下,利用协变量( 频数) 对年龄和程度拟合出双线性负交互效应( 0 2 0 5 ) ,即做梦的程度随年龄的增大而降 低。 根据表( 1 ) 中的数据,我们得到图( 3 ) 中的三组频数直方图。由年龄区间及直方图, : 硕士学位论文 m a s t e r st h e s i s 我们猜测年龄变量服从g a m m a 分布,结果证实猜测是合理的。 表( 1 :关于萝的不同程岛的擞表 箩啊广里崔匿 年龄区间 非常严重较重鞍轻 正常 总计 5 773472 1 8 91 31 l1 51 04 9 1 0 1 l7l l92 35 0 1 2 1 31 01 292 85 9 1 4 1 53453 2 4 4 总计 4 04 l4 21 0 02 2 3 1 2 准备知识 1 2 16 a m 唧a 分布 假设随机变量】,g a m m a ( y ;a ,a ) ,则其密度函数为 f ( y ;a , 2 ) = 高p 啼 其中口 。、旯 。分别代表形状参数和尺度参数。记普赛函数、壬,( 口) = ;等,其中 r ) 2 f j ,口_ 1 e - y 方,口 o 。 根据心理学的相关知识,我们可以将参数解释为:a 决定d r e a m 的强度( r a t e ) ,口决 定d r e a m 的严重程度( 1 e v e l ) 。即固定旯时,口越大表示梦越严重;固定口,旯越大 表示单位时间内做梦的次数越多。 王文军( 1 9 8 7 ) 巧妙的发现:若假设变量】,g a m m a ( y ;a ,允) ,其尺度参数6 = 1 2 等于随机变量及其对数的协方差值即b = c o v ( y ,l o g j ,) ,而且可以构造出其尺度参数 2 : 硕士学位论文 m a s 丁e r st h e s l s 的自协方差估计量i = y l o g y 一一y l o g y ;此估计量计算简便、比矩法有效得多,非 常接近极大似然法。 1 2 2b o x - c o x 变换 在实际处理中,为了使数据有良好的解释性,或者为了使其接近一个理想的分 布,我们可能要对数据进行预处理,对处理后的数据进行建模、统计分析以及预测 控制。由于数据的线性变换只改变原点和度量单位,而不改变数据的分布形状,在 很多时候并不能够满足我们的要求,所以有时需要采用一些非线性变换。b o x 和 c o x ( 1 9 6 4 ) 提出了一种变换: f ,一1 y ( r ) 一j ,t 0 “ l l 。t gx ,f :0 在数据进行变换时,值不值得、如何变换的问题自然的被提出来。通常,我们 会通过某个统计准则来对变换前后的数据作比较。b o x c o x 变换的优势在于对选择 变换的问题给出了一个系统化的处理方法,把寻找变换的问题转化为一个参数,的 估计问题。在建立回归模型时,我们常对数据进行诊断,通过对变量进行上述变换 使其满足一定的分布假设。实践证明,这种变换对许多实际数据都是行之有效的, 它可以明显地改善数据的正态性,对称性和方差相等性。本文针对g a m m a 模型, 采用如下修改了的b o x c o x 变换: x ( f ) :jx t ,f 0( 1 ) 【l o g 工,f = 0 1 3 本文研究概述 假设变量x ( ) g a m m a ( x ( ;口,力) ,引进参数r 。本文第二章给出了参数点估计 的两种方法: 2 1 利用两步估计法,首先将对数似然函数中的t 看成已知值,分别对对数似然 函数关于口和五求导,从而可得到g a m m a 分布中两个参数口、旯估计量,此时估 计量都是关于t 的一元函数;再把这两个估计量代入原对数似然函数,我们发现新 对数似然函数是关于t 的一元函数,利用散点图法我们可以粗略估计出参数r ;最后, 硕士学位论交 m a s t e r st h e s i s 我们可得到参数f 、口及允估计值。此外,我还利用蒙特卡洛法产生服从g a m m a 分布的随机数,进行估计参数f 、口及a ,散点图( 1 ) 和表( 2 ) 证实了通过两步估计法 求t 值、在和互表达式的合理性。假定t 已知,变量x 经过确定的b o x c o x 变换 】,= x ( ) 满足y g a m m a ( y ;口,旯) ,我们知道对对数似然函数进行求导,无法得到 参数口和a 的显示解,而只能通过循环迭代得数值近似解。 2 2 介绍了一种基于均匀布点的思想求极大似然解的方法:对每维参数设计一 个初始区间,这样就有一个初始的长方体,在这个长方体里采用均匀布点,也就是 按均匀分布随机取一定比例的点,计算每个点的似然函数值,再选似然函数值最大 的那个点为中心,缩小搜索范围,在它周围继续按均匀分布来取点,计算似然函数 值,等等迭代下去,至收敛为止。实际上,我们将三个未知参数看做三个因素、求 极大似然估计值看似寻找三个因素在不同水平下的最佳组合。这种方法通过计算机 进行简单的迭代求出极大似然估计值,避免了前方法复杂的求导和推导。 实际上,两步估计法和均匀布点法都来源于极大似然法的思想。 第三章给出2 1 中& 和互的相合性和渐近正态性,互的渐近无偏性,以及简单 的理论证明。 第四章对表( 1 ) 中的数据进行实证分析:首先假设变量( 年龄) 服从g a m m a 分布, 对其密度函数做变换( 见附录) ,由散点图( 2 ) 发现年龄对g a m m a 分布的吻合度较差: 于是,我们对年龄数据进行b o x - c o x 变换,引进参数,通过第二章中的两种方法 分别求出t 值和口、旯的估计值。此外,4 3 再次利用回归的思想方法,得到口、旯的 估计值。我们将三种方法的结果记录在表( 5 ) ,发现估计值较接近,也证实表( 1 ) 中 数据经过b o x - c o x 变换后的确可以拟合成g a m m a 分布。 4 2 1 两步估计法 第二章参数的点估计 第一步,假设随机变量x l ,x 2 ,以经过b o x c o x 变换后y = x 服从g a m m a 分布( 首先考虑当f 0 时的变换) 。已知样本观测值为而,x 2 ,矗,则似然函数 胤c 咖;” ,= 鱼志粤,a - 1 x i t - ie x p ( - - 孚) ,m 毗翱 。 = a 1 n 而a t n o - a ) ( 墨nx ,t 口一1 ) e x p ( 一孚至x ;) = 一i il 工j c x d i 一一厶工:, 两边同时取对数,并稍加整理得到: ,砧) 圭刀礼g 旯一讹一1 ) 1 0 9 ,一疗l o g f ( 口) 川口_ 1 ) 至1 。酗一孚三o ( 2 ) 对z 分别关于口、旯求偏导数,记甲 ) = ;等,令 g ( 口,力) :i 兰:珂l 。g 力一行l o g t - n 甲( 口) + 曼l 。g x f 倪 i = l = 甏= 了n a i 兰= 1 王t 根据隐函数组定理,由g ( a ,旯) = h ( a ,旯) = o 可以确定形如口= a f t ) ,a = 旯( r ) 的 隐函数组。对( 3 ) 式稍加处理可以得到,、壬, ) 一o g a + 三墨1 。9 0 ,再结合( 4 ) 式得 f刀i = l 兰:_ 可得: ! 兰而, 1 1i = l 1 ii 甲( 口) - l o g 口2 i 瑚xi 。g x f t - l o g ( 吉三x f t ) 5 硕士学位论丈 m a s l e r st h e s i s 当口 0 时,、王,位) 一l o g a 是连续的严格单调递增函数( 见引理1 ) ,则存在口极 大似然解& = 西( f ) 且满足: 、y ( & ( f ) ) = l 。g 在( f ) + 去墨l 。g 工;一l 。g ( 吉i 参= l x ;)打f = l 刀 由( 4 ) 式可以求出参数a 的极大似然解互:互( f ) = 警尘,最后将& ,互代入( 2 ) 中, 二x ! 此时对数似然函数是关于t 的函数,记为e ( t ) ,进一步假定粤( r ) 在某定义区间内存在 最大值。 砸) 圭,2 & l 。西一& 一1 ) l 。眵一刀l 。萨) + o & 一1 ) 墨l 。既一孚至五。 = 聆研l o 西一1 0 9 t + l o g x + 殖l o 眵一l o 百) 一五i 一拿】 = n 讲l o g & + l o g x t - l o g x + n 1 0 9 t - l o g f ( & ) - l o g x 一翻 一1h 一1 一 其中x 圭二x f ,l o g x 圭一1 l o g x ;。 刀f = l 。”i = l f l :1 ( 6 ) 式,可得: “f ) = n c 即( & ) + n 1 0 9 t - l o g f ( ) 一l o 黟一】 我们采用对数似然函数极大化的方法,并假定f = 龟,则对( 7 ) 式关于f 求导,得: 掣:耐甲( & ) + ,z 抛匕棚t 1 ,一& 咐) 一& 】 优 f = 畸+ 耐匕) 对( 6 ) 式关于f 求导,得: 变形,可得: & 匕= 鲁+ 面一x t l o g x 口 v f 6 ( 其中甲口:o r _ ( a ) ) d 口 : 硕士学位论文 m a s t e r st h e s i $ 越一爱= & 一l o g x 一& 孥 爻 将上式代入( 8 ) 式得到: 由( 9 ) 得到: 一o g ( t ) :玎( 二1 + & 一l o g x 一& 坐)o t、t x l j a = & ( ) = x t ol o g x t o - x t 0 l o g x t o 互= 互( b ) = ( 如l o g x x t o 一l o g x ) 一 ( 1 0 ) ( 1 1 ) 同理,当,= 0 时,即数据经过对数变换x ( o ) = l o g x ,我们可以得参数估计量的 表达式满足: 、l ,( 西) 一l o g 霞:l o gl o gx l o g l o gx 和要= l o g x 总之,随机变量墨,x 2 ,以经过召锻一c o x 变换后】,= x 7 服从g a m m a 分布, 口、a 的估计量满足: 州川。g 西= 驴- 1 0 9 万和署- l o 将( 1 0 ) 和( 11 ) 式结合( 1 ) 式,我们发现: 口2 x ( t o ) l o g x ( t 。) 一x ( t o ) 1 0 9 x ( ,o ) 互= ,o l o g x ( t o ) 一x ( t o ) 1 0 9 x f o ) 。1 ( 1 0 ) ( 11 ) 实际上,( 1l ) 式与王文军( 1 9 8 7 ) 发现的自协方差估计量【1 0 】一致,也证明白协方差估 计量的合理性。 第二步,为了方便解出t o 值,借用p a i r m a n ( 1 9 5 4 ) 分别给出函数甲和、玉,口的伯努 利级数展开式: 7 : 硕士学位论文 m a s t e r st h e s i s 其中欧拉常数y = o 5 7 7 2 1 5 7 - 2 匕= ( f + o r ) i = 0 j o r d a n ( 1 9 6 0 ) v 。分别给出了函数、王,和甲口的逼近式: 、王,( 口) l o g a 一 1 + 【l 一( 1 1 0 1 ( 2 l a 2 ) ) 口2 】( 6 口) “2 口) 么 l + 1 + 【1 一( 1 5 1 ( 7 a 2 ) ) 口2 ( 3 a ) ( 2 a ) a ( 1 2 ) ( 1 3 ) ( 1 4 ) ( 1 5 ) 为了验证上述方法的合理性,我们通过产生两组随机数x ( 7 ) g a ( a ,五) ,估计 参数f 、口和旯。 表绍) 参勤盼估计值及均方误差咂潮毅个致强重氦定敦回 汰 ( x ( 扎,4 ) o a ( x ( 2 ) ;0 8 ,3 ) 豳谚星 钟= 5 0 0 0 ,g = 1 0 0 0 )心= 5 0 0 0 ,g = 1 0 0 0 ) 掰颤国 2 0 0 1 3 30 0 3 6 3 7 4 8 60 8 0 0 4 3 4 80 01 4 0 5 2 3 8 名掰甜( 乃 3 9 9 9 9 0 80 0 8 2 5 2 93 0 0 1 9 2 90 0 6 9 9 9 6 0 8 o 1 0 3 0 5 0 7 0 51 01 52 。02 5 囝( 1 ) = z 0 ) n 8 一 、,、, 口+ up = 匿 口+ 口 一 厂 一 = 、, 口 l 甲 o o 价r o 渤寸r o 寸r o 卜寸1 硕士学位论文 m a s t e r st h e s i s 因此,通过表( 2 ) e e 的数据和散点图( 1 ) ,我们可以发现利用两步估计法求参数t 值具有应用上的合理性,以及另外两个估计量的表达式也具有一定的科学性。根据 数据实际处理的方便,t 不一定取精确的极大似然估计值,而取它的近似值。 2 2 均匀布点法 均匀设计是2 0 世纪8 0 年代初由方开泰教授和王元院士提出的一种能适应多因 素多水平的试验设计方法。张鹏( 2 0 0 1 ) 提出了基于均匀布点法的全局优化方法,把 实验设计中的均匀设计思想引入优化设计,这是一种将确定性和随机性相互结合的 优化方法。首先,根据均匀设计原理在优化模型的设计变量空间内均匀分布一系列 点;然后,将可行域内的上述系列布点作为优化计算的系列初始点、并选用常规优 化算法,分别开始进行优化计算,得到优化模型的一系列局部最优点;最后,比较 所有局部最优点的最优值。 我们知道实际问题中的数学模型大多为结构复杂、变量维数偏高。若仅仅通过 繁琐的求导方法,即使是2 1 中两步估计法也难以解决所有的最值问题。本文也利 用均匀布点的思想来搜索极大似然估计值,其方法的实施步骤如下: 第一,设计参数的初始可行空间 o = 【a o , b o 】,按照某种均匀布点的思想( 如: 数论思想,最大对称差准则,等等) ,在 o 内均匀布伪个点岛l ,岛; 第二,计算上面伪个点的似然函数值,进行比较,得到似然函数的局部最优点 岛; 第三,通过岛重新构造参数可行空间 l = e l l , b l 】,口l = m a x a o , o l s 冬) , 二 b l :m i n b o ,岛+ s 兰) ,这里收缩系数s 为实数,其他小写字母均代表向量; 二 第四,在0 1 内均匀布刀2 个点如1 ,0 2 ,计算并比较似然函数值;按此步骤依 次迭代到第k 次,得到。足,使得b 尼一a 七 0 时,v ( a ) - l o g a 是连续的严格单调递增函数。 证明:由( 1 3 ) 式、圪2 薹( 口) _ 2 o + 口) - 2 出2 吉,所以当口 o 时,l = u一 ( 甲位) - l o g a ) 0 恒成立。再结合v ( a ) 一l o g a 的连续性,结论成立。 引理2 ( 王文军,1 9 8 7 ) 若随机变量x ( ) g a ( a ,a ) ,则 = c o v ( x f ,l o g x ( ) 。 l 根据p r o f i l e 极大似然的思想,若能得到,的极大似然估计f ,则我们可以由( 1 0 ) 式和( 1 1 ) 式( 或( 1 0 ) 并- f l ( 1 f ) ) 分别分别解出口和a 的极大似然估计。于是,我们可以总 结估计量的如下性质: 性质1 设随机变量x ( ) 一g a ( a ,力) ,口 0 ,旯 0 未知,f 0 己知,则口的极大似 然估计是强相合估计,即当刀一时,= x l o g x 一x l o g x 证明:由( 0 6 ) 式得甲( 在( f ) ) 一l o g 在( f ) = l o gj c 。一l o gx 7 。因为当刀一o o 时, l o g x 竺- e l o g x ,x 。! :鸟凰7 ,l o g x 坠一l o g 及,所以我们有 一i o g x t - l o g 了与el o g x t - l o g 彤= e l 。叮x t l 。g 乜了x t 。 由y = 芋白( 口,允) ,得母= 羞i e i e l o g y = 甲( 口) 一l 。g 旯( 【1 2 】) ,得到 、王,( & ( f ) ) 一l o g 0 ) j ! - 、壬,( a ) 一l o g a , 再由函数、= f ( a ) - l o g a 是连续的严格单调递增函数( 引理1 ) ,则有当r l 一时, 舀与口。 性质2 设随机变量x ( ) 一g a ( a ,a ) ,a 0 ,a 0 未知,t 0 已知,则 & 2 ilo南渐近地服从正态分布,南)ogxl o g x x 一x 刀l 口i ,口一l j 证明:( 参考文献 1 1 】p 1 2 0 ) 令p = ,旯) ,则p 的极大似然估计满足 痧一口与n ( o ,j 一1 ( 口) ) 。其中j ( 9 ) 为f i s h e r 信息矩阵: 于是 j ( 9 ) = ,一1 ( 口) = 口旯 嘏翟 a a w a 1 ) n ( a w 口 a 2 、壬, 一1 ) ,2 ( 洲 1 1 所以,修正的极大似然估计反的渐近正态分布为 ,丽葫i a 面) 。 性质3 设随机变量x ( ) g a ( a ,旯) ,口 0 ,允 0 未知,t 0 已知,则a 的极大似 然估计是强相合估计,即当刀j 时,互:( 面一了面) _ 1 竺:鸟旯;且岔1 的 无偏估计量为三一。 刀一l 证明:互的相合性可以由毋:等,有等_ 和舀相合性,通过s l u t s k y 定理可 九f以 证之。由引理2 :_ 1 = c o v ( x ( ,l o g x ( ) ) = e ( x ( ) l o g x ( ) ) 一( 尉( ) ) ( e l o g x ( ) ) , l e ( 于1 2 - 1 ) = e v ( 7 ) l o g x ( ) 一e ( x ( ) l o g x ( ) ) + ( e z ( ) ) ( e l o g x ( ) ) 一x ( ) 1 0 9 x ( ) = e x ( ) l o g x ( ) 一e ( x ( ) l o g x ( ) ) ) + e ( e l o g x ( ) ) 【以( ) 一义( 7 ) 】) + e ( x ( ) ) e l o g x ( ) 一l o g x ( ) 】) 1 2 一、 卫旯里矛 口哩一丸匕卫a 一 ,。l = e ( x ( ) ) e ( 1 0 9x ( ) ) 一e ( x ( 7 ) 1 0 9x ( 7 ) ) :e ( x ( f ) e ( 1 。g x ( f ) 一lx e 0 ,名 0 未知,f 0 已知,则 拈( 一x tl o g x _ _ v o g x ) 嘞龇服脏搠栅篆) 。 证明:由性质2 证明盲接可得。 1 3 : 硕士学位论文 m a s l e r st h e s i s 4 1 两步估计算法 第四章实例分析 在实际应用中,由于求m l e 的计算公式中t 与口交织在一起,造成估计量没有 显式表达式,从而只能寻求数值解法或其他算法。但为了应用中的简便,人们对 b o x - c o x 变换常常选取一个恰当的较为简单的f 值( 比如整数或分数) ,因此我们这 里采用一种两步估计算法:首先根据散点图求出f 的一个近似估计值,然后代入 公式( 1 0 ) 和( 1 1 ) ,求出口和名的估计值。但需要说明的是这样得到的估计值虽然不 再是严格意义上的最大似然估计,但在实际应用中却是合理有效的。 i o n 叩 n q o 够 啦 哗 o “ 嫂 q o n 赡 q o 寸 q 呷 234 523 4 5 图( 2 ) :e ( t ) 刀f 本文针对青少年做梦的不同程度的数据进行了相关的统计分析,根据生活的背 景知识,我们习惯性地将年龄区间划分为:【5 ,8 ) ,【8 ,1 0 ) ,【1 0 ,1 2 ) ,【1 2 ,1 4 ) ,【1 4 ,1 6 ) , 1 4 硕士学位论文 m a s t e r st h e s i s 再分别取区间的中点毛= 6 5 ,x 2 = 9 ,吻= 1 1 ,确= 1 3 ,x 5 = 1 5 ,由在四种程度下不同年 龄区间出现的频数,通过两步估计法求出,、口及a 的估计值( 见表( 5 ) ) 。 由图( 2 ) 可知 = 2 ,2 = 4 ,7 3 = 1 5 ,并且图( 2 ) 与图( 4 ) 中四组散点图对照比较,可 以发现表( 1 ) 前三组年龄数据经b o x c o x 变换后对g a m m a 模型的拟合程度较好,然 而第四组数据却没有这一特性。 4 2 均匀布点算法 由( 2 ) 式e ( a ,允,f ) ,我们选择未知参数的初始可行空间及初始点,以及a = 0 0 0 5 , j = 0 6 ,咒l = 3 0 0 0 ,力2 = 3 0 0 如下表: 表0 ) :三种程度对圈的爱型曲参数初蛤设计 毂三绷参曼的翩始可行空问 丰鼋严重3s 啦s 5 , 0 0 2s 丑0 0 4 ,1 2 l 蔓3 较重 1 兰钧蔓3 , 0 0 0 0 0 5 局s0 0 0 0 2 5 , 3 _ t 2 5 5 鞍轻 7 哟1 0 ,0 1 5 冬如0 5 5 ,0 5 - t 3 2 5 通过过2 2 方法,我们得到三组极大似然估计表( 5 ) ,即为表( 1 ) 中的前三组数据建立 了g a m m a 模型。 4 3 回归分析算法 当汜知,p ( x 纶焉x ( t ) a t - 1 e x p ( 一触 1 ,简记p ( x 协p 川一1 2 3 ,4 ,5 ) , l o g 胪l o g 币2 a ,( a - 1 ) l o g x ;f ) 叫山g 等却- 1 ) 1 0 9 参叫x 络卅) 。 记第f 个年龄区间中的观测数为z ,第i 个年龄区间的长度为i ,通过频数与组 1 5 、 硕士学位论文 m a s t e r st h e s l s 距的比值等于频率,来估计随机变量的概率密度:p ( x i ) = 鲁。 。g 等礼g 等叫x 搿一x t ) ) + ( a - 1 ) l o g 参,其中等= 每车磬 记川。g 百f + i _ 删卅呐礼g 参,根撕- 2 f 2 = 4 f 3 乩5 将都) 整 理如下表: 裹( 4 ) :表( 1 旌癌唾 m x lx 2y 2x lx 2均川x 2 l o g ( 1 3 1 7 ) 1 9 40 6 5 0 8 b g ( 1 1 3 ) 1 1 9 413 0 1 7 b g ( 1 5 ;4 ) 6 9 50 4 8 8 1 b g ( t y l 3 ) 2 00 4 0 1 3 l o g ( 1 1 n 1 ) 2 0 2 0 0 8 0 2 7 】| 。惑9 n 5 ) 6 3 20 3 0 1 0 1 0 6 , ( 1 0 1 7 ) 2 40 3 3 4 1 o g ( 1 2 , t l1 ) 3 4 8 00 6 6 8 2 o g ( g s 9 ) 6 9 30 2 5 0 6 l o g ( 3 , t l o ) 2 80 2 8 6 2 o 贰4 n 2 ) 5 5 1 60 5 7 2 4 l o g ( s t 9 ) 7 4 80 2 1 4 7 表( 5 ) :估计量的比较 、方苦 f lq丑2鲍屯f 3钝如 参露 两步估计 2 :4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论