




已阅读5页,还剩99页未读, 继续免费阅读
(概率论与数理统计专业论文)广义线性模型的渐近理论.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学博士学位论文摘要 摘要 广义线性模型( g l m ) 是常见的正态线性模型的重要推广,它包括l o e i s t i c 模型,对 数线性模型等重要模型它可适用于连续数据和离散数据,特别是后者,如计数数据,属 性( c a t e g o r i c a l ) 数据这在实用中,尤其是在生物,医学,经济和社会数据的统计分析上 有着重要意义 全文共分六章第1 章是引言,简要介绍了广义线性模型渐近理论方面的有关的重要 文献,以及我们在这方面所取得的主要成果第2 章介绍的是几种常见类型的g l m 的统计 建模第3 章到第6 章详细介绍了我们的有关工作及有关证明 第3 章研究了g l m 中回归参数极大拟似然估计( m q l e ) 的渐近理论假定在一个具有 般联系函数的g l m 中,g 1 响应变量饥是可观测的,磊是p 口的有界和固定的设计 阵,分别记互召的最小特征根和最大特征根为b 和k 本章在k 俨( 对某个q o ) , s u p l 1 驯玑旷 l o ) 和其它正则条件下,证明了以概率为1 ,当n 充分大 时,未知回归参数向量的拟似然方程有一个解,它收敛于参数真值,即m q l e 是渐近存 在的且具有强相合性在& 一,8 u p 洲剐鼽旷 2 ) 和其它正则条件下证 明了m q u 0 的渐近存在性和渐近正态性这两个结果是对文献中强相合性和渐近正态性结 果的实质性改进 自适应的g l m 也有广泛的应用,但文献中对其渐近理论研究较少设 只) 是一列非 减的俨域,执为五一可测,磊为五一1 一可测,t 1 我们在第4 章证明了,若以概率为1 ,对 某个o o 有l i m m f 玉。 硝2 ( 1 d g 天。) 1 ,2 “) o 对某个r 2 有s u p e ( 挑五一1 ) 0 ) 等条件下证明了回归参数向量m l e 的渐近 存在性,唯一性,强相合性与渐进正态性,其中硼磊) 可以为无界序列 第6 章研究了g l m 中回归参数的假设检验问题,在与m q l e 渐近正态性同样条件 下,证明了用于检验线性假设的w a l d 检验统计量的渐近分布是x 2 分布为了极限x 2 分布 和渐近正态的有关定理能够分别用于假设检验和区间估计,我们研究了包含多余参数 的f i s h e r 信息阵和它的c h o l e s k y 平方根的估计,并且建立了这类估计在定意义下的相合 r 陛 第l 耍 广义线性模型的渐近理论摘要 关键词:广义线性模型,极大似然估计,极大拟似然估计,渐近存在性,强相合- 生,渐 近正态性,自适应设计,假设检验,c h 0 1 e s k y 平方根 第l i 页 中国科学技术大学博士学位论文英文摘要 a b s t r a c t t h e t h e o r yo fg e n e r a l i z e dl i n e a rm o d e l s ( g l m ) i sa ne x t e n s i o no ft h ec l a s s i c a lt h e o r yo f l i n e a rm o d e l sw e l l k n o w n l o g i s t i cr e g r e s 8 i o nm o d e l a n d l o 乎l i n e a rm o d e l a r et w o i m p o r t a n t e x 趣1 1 p 1 so fg l mi tp r ( v i d e sm o l - e 丑e x l b kh l o d e l _ b a s e dt o n l sf o rs t 赫i s t i c 破i n 。d e l l i l l ga n d d a t aa n a l y s i s 。e s p e c l a 1 1 yf o rc a t e g o r i c a lo rc o u n t e dd a t a i th a sb e e na p p l i e dt om a n yf i d d s s u c ha sb i 0 1 0 9 y ,m e d i c i n e ,e c o n o m ya n ds o c i “s c i e n c e s ,a n dp l a y e da ni m p o r t a n tr o l ei n s t a t i s t i c a la 出y s i so ft h er e l e v a n td a t a t h e r ea r es i xc h a p t e r si nt h i 8t h e s i s i nc h a p t e r1 ,w e8 i m p l yi n t r o d u c e8 0 m en n p o r t a n t l i t e r 8 t u r eo n g e n e r a l i z e dl i n e a rm o d e i s ,a n di n t r o d u c e o u rm a i nr e s u l t so na s y m p t o t i c 乞h e o r y o fg l m ,w h i c hc o n s t i t u t et h em a i np a r to ft h i sc h 印t e r i nc h 印t e r2 ,t h es t 8 t i s t i c a lm o d e l l i n go fs o m ei m p o r t a n tg e n e r a l i z e dl i n e a rm o d e l si s i n t r o d u c e d i nc h a p t e r3 ,、楷s t u d ya s y m p t o t i c so fm a 。( i m u m ( 1 u a s i l i k e l i h o o de 8 t i m a t e s ( m q l e ) o fg l m f b rag e n e r a n z e dl i n e a rm o d e lw i t h 口lr e s p o n s 鹊,b o u n d e da n d 矗x e dpxg r e g r e s s o r s 五,a n dg e n e r a ll i n kf u n c t i o n ,w ep r o v et h 砒i fs u pi i 磊0 0 ,8 u n 1e f f 鼽旷 l a ,a n ds o m e8 m o o t h n e 8 8c o n d i t i o n 8 a r em e t , w h e r ebi 8t h em i n i m u m e i g e n v 越u e0 f 施召,t h e nm q l e i s8 s y m p t o t i c a l l ye x i 8 t e n ta n d 8 t r o n 9 1 yc o n s i s t e n t ,i e ,w i 七hp r o b a b i l i t y1 f o rl a r g e 札,t h eq u a 8 i l i k e l i h o o de q u a t i o nh a sa s o l u t i o n ,w h i c hc o n v e r g e st ot h et r u ev a l “e0 ft h er e g r e s s i o np 8 r a m e t e r w ea 1 8 0p m v et h a t m q l b i s a s y m p t o t i c “ye x i 8 t e n ta i l da s y m p t o t i c 出l yn o r m a l ,i fs u pi i 磊 1 le 8 轨旷 2 ,a n ds o m es m o o t h n e s sc o n 幽t i o n 8w e m e t t h e 8 et w o t e s u l t 8a r ee s s e n t i a li m p r o v e m e n t s 叭帕rt h er e l 8 t e dr e 8 u l t si nt h el i t e r a 七u r e i n c h a p t e r4 ,f o r ag e n e r a h z e dl i n e 缸m o d e lw i t hq 1r e 8 p o n 8 e s ,b o u n d e da n d a d a p t i v ep xgr e g r e s 8 0 r s 五脚dg e n 凹a | l i n kf u n c t i o n ,w ep r o v et h 且tm q l ei ss t r d n g 】y c o n s i s t e n ta n da 8 y m p t o t i c a l l yn o 珊a li fw i t hp m b b i l i t y1 ,8 u pl i 互1 l of o rs o m e 。 o ,s u p e ( 1 | 饥旷l 五一1 ) 2 , 一【 t ,l r l a n do t h e rr e g u l a rc o n d i t i o n sa r em e th e r ek l st h em a x i 工r m me i g e n v a l u eo f 邑召,a n d z 2 1 五i 1a t en o n d e c r e a s i n g 盯一6 e l d 8 i nc h a p t e r5 ,f o rs o m ei m p o r t a n tg e n e r a l l z e dl i n e a rm o d e l sw i t hd i s c r e t er e 8 p o n 8 e s , w ee s t a b l i s h 池es t r o n gc o n s i s t e n c ya n da s y m p t o t i cn o r m a h 乇y 。ft h em l e 。f t h er e g r e 8 s l o n p a r a m e t e rv e c t o r ,u n d e rs o l em i l dc o n d i t i o n 8s u c ha sl l 互州= o ( 1 0 9 n ) ,b n of o rs o m e 血 o h e r ew ed o e sn o tn e e dt h a 上t h es e q u e n c eo fz ni sb o u n d e d i nc h a p t e r6 ,w es t u d yt h et o p l co ft e s t i n ga1 i n e a 工h y p o t h e s i si nag l mu n d e rt h e s a m ec o n d i t i o n s8 st h o s eo ft h et h e o r e mo na s y m p t o t i cn o r m 出i t yo fm q u 王w ep r o v et h a t t h ew a l ds la t i s t i eh a sal i m i t i n gx 2d i s t r i b u t l o nu n d e rh u l lh y p o t h e s i s i no r d e rt h a tt h e t h e o r e m so i ll i m i t i n gx 2d i 8 t r i b u t i o na n da s y m 皿o t i cn o r m a l i t yc a nb eu s e df o r1 1 y p o t h e s l 8 第m 页 广义线性模型的渐近理论英文摘要 t e s ta n di n t e r v a le s t i m a t e sr e s p e c t i v e l y ,w es t u d ye s t i n l a t e so ff i s h e ri n f o r n l 8 l l o l ln 】a t l 王一 c e sa n dt h e i rc h o l e s k ys q u a r er o o t si nw h i c hs 。m en u i s a n c ep a r a n l e t e r sa r ei l l v o l v e d a n d e s t a b l i s ht h ec o n s i s t e n c yo ft h e s ee s t i m a t e si ns o m es e n s e k e y w o r d s :驴n e m 托名e dl 伽e o rm d d e 2 s j m o g 。m u mf z 娩乩 d o de s 胁n n 幻倦,m n 研m t z m 口“。鲥 眈忌e f 访0 0 d e s i m o o 邝,n s 苕竹印f o t ce z 话t e 札c e , s t r d 7 wc d 礼s 2 s t e n c , n s 可7 n p t d 比n d n n 梳可 n d 印细ed e s z 9 船, 卯d t e s z st es f ,( 玑d f e s 幻s q 钍。他们。 第l v 页 中国科学技术大学博士学位论文第一章引言 第一章引言 广义线性模型( g l m ) 是常见的正态线性模型的重要推广它既适用于连续数 据,也适用于离散数据,特别是后者,如计数数据和属性( c a t e g 。r i c 出) 数据这在应 用上,尤其是在生物、医学、经济和社会数据的统计分析上有着重要的意义 广义线性模型的个别例子的统计研究可以追溯到很久以前f i s h e r 在1 9 1 9 年 就曾有这方面的研究有着广泛应用的l o g i s t i c 模型,在2 0 世纪四五十年代曾 由b e r k 8 0 n ,d y k e 和p a t t e r s o n 等人用于统计建模1 9 7 2 年,n e l d e r 和w e d d e r b u r n 在一篇 著名文献( f 6 6 ) 中,把用于非标准层面的回归分析、响应变量非正态情形的一类模 型统一为广义线性模型,并提出了计算极大似然估计的统一方法此后它们被人 f 】 通过多种途径推广到更一般的情形w j d d e r b u r n ( 【7 7 】) 首次提出了拟似然方程和极大 拟似然估计的思想,对这类模型和纵向( i o n g i t u d i n a l ) 数据模型的统计推断和统计分 析产生了深刻的影响1 9 8 3 年m c c u u a g 1 和n e l d e 芏出版了系统论述g l m 的专著( 【6 3 1 ) 井 于1 9 8 9 年再版涉及这个领域的研究论文数以千计,但大部分不涉及严格的数学推 导 本文主要介绍广义线性模型的一般理论,如何将它l f 用于统计建模,以及 文献中的有关工作,而重点则是介绍我们关于广义线性模型渐近理论的若干 研究成果关于统计建模的有关论述,主要参考r 陈希孺教授的广义线性模 型( 9 2 】一1 9 4 ) 以及f 址r m e i r 秘t u t s 的专著( 3 6 】) ,我们将在第2 章详细加以介绍, 设g 】响应变量叭是相互独立的;协变量五是已知的p g 矩阵,矾服从指数分布 第1 页 广义线性模型的渐近理论 假设们的期望f t ,与线性预测囡子乏p 有f 列关系 9 ( p i ) = 乏芦口砘= ( z ;p ) ,( 1 2 ) 其中9 :即一_ r 目是充分光滑的一一映射, 是9 的逆,p 胛是未知的回归参数,廓是 它的真值函数9 称为联系( 1 i n k ) 函数,而当 ( t ) = a b ( t ) 0 棚寸,称9 为自然联系函数 如果g 服从正态分布,且联系函数g 是恒等变换,就得到经典线性模型 若服从二项分布,即p = 1 ) = l 一尸 = o ) ,而联系函数g ( p ) = i o g ( 肛( 1 一 f 。) ) 或9 ( p ) = 垂一1 ( p ) ,其中圣是标准正态累积分布函数,就分别得到l o g i s t i e 模型 或p r o b i t 模型这两类模型主要用于属性数据的统计分析 、 若服从p o i s s o n 分布,即p 白= ) = e 。鲁,k = o ,1 ,而联系函数9 ( 芦) = l o g ( p ) ,就得对数线性( 1 0 9 l i n e a r ) 模型该模型主要用于记数数据的统计分析在列联 表分析中,对数线性模型的构造和分析与方差分折很相似( 【9 0 】) 利用这种模型还 可以进行探索性数据分析 似然方法是一类重要的统计推断方法我们把对数似然方程 n f 五日( 罨芦) ( ( 乏卢) ) 1 ( 乏p ) ) = o ( 1 3 ) 吾 的根称为阮的极大似然估计( m l e ) ,其中h ( ) = a h 沁) 矾为q g 矩阵值函数,e ( 墨卢) = c o v 口( 矾) , 心) 是 ( ) 的转置,( ) 可由6 ( ) 和 ( ) 求得在许多情形下假定g 。服从指数 分布( 1 1 ) 是不切实际的,两且( ) 的确切表达式也常常不知道( 在纵向数据的分析 中,协方差阵的确切表达式一般就不知道,见【5 8 ) 但若关于期望的假定( 1 2 ) 是正 确的我们仍可用w e d d e r b u r n ( 【7 7 ) 引入的拟似然方法,用拟似然方程 第2 页 中国科学技术大学博士学位论文第一章引言 ” 鼽( _ 臼) ! 五爿( 乏卢) a ( 倒口) ( 矶一 ( 乏卢) ) = o ( 1 4 ) 2 = l 的根估计肺,称它为极大拟似然估计( m q l e ) ,其中a ( ) o 是适当选择的g g 矩阵僮 函数详细情况可参看m c c u l l a g h 和n e l d e r ( 【6 4 ) 在本文中,c 表示一个一般( 的正的) 常数,在不同的地方可取不同的值 n ”i i 表示欧氏模氩和k 分别表示五召的最小和最大特征根e 岛,c o v 岛和p 风分 = l 别简写为e ,c o v 和p 关于g l m 的m l e 或m q l e 的渐近理论,文献中有不少讨论,例如可参看 4 j , 1 5 】,【3 8 】,【4 3 ,【6 2 ,【6 3 】 6 5 】,和 7 0 】在肌服从指数分布( 1 1 ) 且 响应变量是q 维的情形,f 址¥m e k 和k 8 u f m 拙n ( f 2 9 1 ) 研究了岛的m l e 的渐近存 在性,相合性和渐近正态性在一些光滑性条件成我的前提下,他们证 明了,若s u p i 1i | 磊0 c 霹( 其中o l 2 ) , 对一般联系函数情形有b c k ,则m l e 是强相合的;若s u p ,1l i 乙l i 1 7 7 有s u n j l 酬刚7 o 和d e t h ( t ) o ,其中h ( t ) 兰0 h 他) ma ( t ) 的阶导 函数连续,h ( t ) 的二阶导函数连续 a 2 s u 吼,1 【lz l i 1 肛有8 u p l 剐蛐旷 l 有8 u p ,1 驯训7 li i z 。| | 2 有s u p : 1 酬弘1 | 7 2 有s u p ! l 驯训” 1 i l 磊| | o 有 l i m i n f k 硝2 ( 1 0 9 i 。) 1 2 + 。) o t l 一o 。 a 7 对z 1 ,玑为五,可测:五为五一1 一可测:以概率为1 ,e ( y :j 五一1 ) ; ( 彰卢o ) 且s u “1 1e ( 五一1 ) o ( 对某 n _ o 。o o 个n 1 2 ) 强 定理4 5 若假定a 1 ,a 6 ,a 7 和以下假定条件a 8 成立 a 8 , 以概率为l ,对一切l 1 有e o v 1 五一1 ) c 如,对某个r 2 有s u p :2 1e ( 慨五一1 ) o 。,且存在非随机的正定对称阵矗使 其中霞2 是良的对称正定平方根 繇1 坞r 酥1 2 三i p ( 1 9 ) 则存在良使( 1 7 ) 和( 1 _ 8 ) 式成立 注:若 是非线性函数,一般需要s u n ! ll l 五 o 使h 胪,则m l e 是渐近正态的我们在同样条件 下,证明_ 其m l e 也是强相合的,详见第5 章定理5 l , 由于岛和e ,未知,所以定理31 9 不能直接用于区间估计:我们在第6 章得到的如下 结果可解决此问题 第6 页 中国利学技术大学博士学位论文第一章引言 定理6 3若定理31 9 条件成立j n l j 存在赢使( 1 7 ) 式成立,且 最。( 荔。一岛) 三( o ,昂) 、 ( 1 1 。) 此处,岛是对角线元素为正且满足鼠= e 。露1 0 ,。的上三角矩阵,称为矩 n 阵0 ,。爵1 0 。的c h o l e s k y 平方根,或i z i 甄凡( 肼一) ( 们一) 7 a ,叫彰l 廓:o 。,g n 兰 g n j 口0 :反,垃i ( 历肪) 在实际应用中经常需要检验线性假设 h o :g p = a h h 1 :c 8 。 其中g 是己知的行满秩的r p 矩阵,n 是已知r 1 向量 我们在第6 章也证明了如下结果: 定理6 8设定理3 1 9 的条件成立则在之下,、d 检验统计量 帆:( g 良一。) , g 0 i 1 岛0 二1 g 7 ) 一1 ( g 风一8 ) 三霹, ( 1 。1 2 ) 其中) ( ;为自由度为r 的中心的x 2 分布 第7 页 广义线性模型的渐近理论 第二章统计建模 本章对几类在实用上常见的问题建立其广义线性模型 建模是对问题的统计总体的概率性质的一种刻画和规定这种规定可以很小, 如给定了分布的具体形式,也可以较粗,如只规定了均值与方差的形式,甚至只 规定了均值的形式在回归性质的的问题中,这意味着规定在给定自变量。值的条 件下,因变量y 的条件分布y k 或分布y i 茁的均值与方差等 建模问题的正确解决在很大程度上依赖于对问题的实际背景的了解以及对所要 解决的问题的正确定位因为在建模过程中,往往面临一些选择问题,其解决不可 能仅依赖于数学上的考虑,如在回归问题中自变量的选择,回归函数的形式及误 差的分布等等数学的作用当然也不可忽视,不仅对各种类型的分布的性质的了解 很有指导意义还有在自变量的选择中,如问题的实际背景不足以提供一个唯一的 合理答案,则数学方法一般可以提供一种远优于随意选择的答案在模型诊断中数 学工具也可以发挥重要的作用 2 1 一元广义线性回归 2 1 1 定义 设有因变量y ,自变量zy 为1 维,z 一般为多维通常的线性回归有以下几个 特征: 1 e ( 1 厂) = = z ( z ) 卢( 线性指卢对,非z ) ,z 7 ( z ) 为。的已知向量函数,z 表 示z 转置( 本文中7 都表示转置,而不是导数)z ( z ) 常简记为z 2z ,z f 。1 ,y 都是取连续值的变量如农作物产量,人的身高,体中之类 3y 的分布为正态,或接近正态 第8 页 童垦墼兰塞查奎童堡圭耋堡垒奎 :丝三塞丝 广义线性回归从以下几个方面推广 1 0e ( 】,1 :p : ( z ,p ) , 为一严格单调,充分光滑的函数, 已知9 5 n1 f 的反函数) 称为联系函数( 1 i n kn n c t i o n ) ,有口( ,) = z 口t 2 。,z ( 。1 ,y 可取连续或离散值,且在应用上更多见的情况为离散值, 如 o ,1 ) , o ,1 ,2 ) 3 0y 的分属于指数型,正态是一特例 这里考虑的y 为1 维,故属于1 维指数型,其形式为 c ( ) e x p ( 一b ( 口) ) 幽, 。e ( 参数空间) ( 2 1 ) 口为参数( 称为自然参数) ,6 ( 日) 为口的已知函数,芦为一测度( 不一定是概率测度) 常 用的有两种可能: a当y 为连续变量时,d ”( 口) 为l e b e s g u e 测度:d 叭 b 当y 为离散变量时,g 取有限个值。l ,。或可列个值。1 ,。2 ,这时 故 州啦) ) ;l ,i ;1 ,m ;或肛( ) = 1 ,江1 ,2 , ( 2 2 ) 厂d ,f 。、。,一“8 抄( 1 :1 ,一切口e ( 连续情况) ( 2 3 ) c ( 9 ) e x p ( 的一b ( 8 ) ) 如( ) 21 ,一训口廿( 琏联再妇j 卜。 【。,d 】( 或( 。,d ,( 。,d ) 等) 为的取值区间,可为( 一。o ,o o ) ,( o :d 。) ,( 一o 。,。) 或任何其他 有限或无限区间 或 fc ( 如) e x p ( 口毗一b ( ) = l :一切日。( 离散情况) ( 2 _ 4 ) 在这一情况,。( 。:) 。x p ( 日啦一b ( p ) ) 为取啦的概率( 参数为8 时) 第9 页 广义线性模型的渐近理论5 21 一元广义线性回归 若有分布( 2 1 1 式则 e ( y ) = d b ) d 9j5 ( 目) :v a r ( y ) = d 2 6 ( 8 ) d 目2 ( 2 5 ) ,d ( 一5 ( 口) ) c ( ) e x p ( 助一6 ( 口) ) 西= o , ( 2 6 ) 注意到( 2 3 ) 式以及e ( y ) = f 9 c ( 。) e x p ( o w b ( e ) ) 缸( 1 ) 得( 2 5 ) 第一式再在( 2 6 ) 式两边 z 8 ( 可“踟:c ( ) e x p ( 旷咿) ) d y d 2 b 缈z 。如) e x p ( 旷咿) ) 妒。, 此式左边第一项为v a r ( y ) ,第二项为护b ( 8 ) 枷2 ,故得( 2 - 5 ) 第二式一上面对积分 例2 1研究一些因素( 自变量) 对割腹”产后是否有感染”的影响 y = 篡 z = ( z ( 1 ) ,。( 3 ) ) , ( 2 7 ) 即,= :兰;凳喜蕃兰 即,= :棠嚣蓍生素 z t = :戛危险因子( 女口产妇有高血压、糖尿病之类) 兰里登兰垫垄奎堂堡主堂焦堡壅一一一 第二章统计建模 2 2 。2 。2 2 2 2 。2 2 2 = 2 2 ! = = = = = = = = = = ! ! = = 一 :! ;:;:; 记 = p ( y = 1 ) ,有( 9 = 0 ,1 ) p ( y = 们= 。( 1 7 r ) 1 一。= ( 1 ”) e x p l o g ( 7 r ( 1 一) ) ) 。( ? 一8 ) 令8 = l o g ( f ( 1 一n ) ) ,则l * = l ( 1 + ) ,( 2 8 ) 可写为 p ( y = 可) = e x p 臼甜一l o g ( 1 + e 。) ,。 日 0 ( 2 一1 2 ) p ( y = ) = e x p 9 口一e 。 g ! ;g = o ,1 ,2 ,一。 口 o , 故5 ( 严格上升,因此有反函数故由8 = b 一1 ( e y ) 有 盯2 = v a 篁( y ) = 五( 口) = 五( 云一1 ( e y ) ) = 五( 云一1 ( 弘) ) 兰盯2 ( 弘) ( 2 2 1 ) 在有些实际问题中,数据显示均值与方差之间的关系不符合( 2 2 1 ) ,这时就不 可使用单参数指数族的模型,在正态分布的例中包含了个冗余参数,调整 它的值可以有时解决上述问题 如在例21 这类例子中,自变量的可能组合数很少( 在例2l 中只有2 3 = 8 个) ,这 时样本呈现分组的状态设挑,是同一z 值下的样本,这时往往用一个样 第1 3 页 笔圣垒丝堡墼塑塑兰堡童 ! ! :! ;三垂苎丝竺旦堕 本 y = 阢或矿= 饥”t z = lf = l 取代9 1 ,孰( 即我们只见到y 或穸和m ,而不一定能见到原始记录口l ,) 这样做并无损失,因:a y 或p 是充分统计量,因此无信息损失by 或矿仍 为指数型分布:当肌有分布( 2 一1 ) 式时, y 有分布c l ( y ) e x p ( p y m “口) ) d l ( y ) ;( 2 2 2 ) p 有分布c 2 ( p ) e ) 【p ( p m p m b ( 口) ) d 吨( 矿)( 2 2 3 ) ( 2 2 2 ) ,( 2 2 3 ) 式中的c 1 ,c 2 及p 1 ,p 2 可以与( 2 1 ) 式中的c 及p 不同,但不失为指数 型分布形状,其中( 2 2 3 ) 式非标准形式引进新参数目= m p ,将( 2 2 3 ) 式写为 c 2 ( p ) e x p ( 自p m 6 ( 影m ) ) d 屹( p ) 兰c 2 ( p ) e x p ( i p 一6 1 ( 口) ) d 屹( p ) ,( 2 2 4 ) 则成为标准形式有 e ( 矿) = d 6 1 ( 5 ) 面= 5 ( 口m ) = 5 ( 口) , v a r ( p ) = d 2 6 l ( 6 ) d 6 2 = m 一1 b ( d m ) = m 一1 5 ( 日) 即e ( 矿) = e 班,v ”i y ) = v a r ( 瓠) m ,与常见公式符合 以上的讨论是在9 l ,跏为i i d 的条件下进行的,实际问题中这可能不完全成 立如a 同一组。值上所观察g 的值有正相关性b 有些未包含在茹中的因素( 问 题中未予考虑或尚未认知) 对各观察值的影响不同,而使h,孰不同分布这 两点总的影响是加大y :曼玑的方差,即比按公式算的m 5 ( 日) 大,称为超散布 仁;1 第1 4 页 中国科学技术大学博士学位论文第二章统计建模 21 2 哑变量 设有个因素( 自变量之一) 有个“状态”我们固然可以用数字1 , 来标识它,但不可用于计算,因为它们无数量意义例如农业试验中,品 种是一个因素,有k 类种子解决的办法是引进哑或虚变量( d u m n l yv a r i a b l e ) z 1 ,。q ,q = 一l ,j = l ,q : 故 = :| 若品种处在状翟筝试验用种子j ) c z 一。s , z 1 = = = o ,当样品处在状态k , 设这个试验只包含”品种”这一个躅素。模型为 ( 2 ,2 6 ) e ( y ) = 卢o + 口l z l + + 岛。q y 为产量, ( 2 2 7 ) 驴f e ( yj 状蠲) = 风协j “,崩 ( 2 2 8 ) q 。1 e :y 黼蜘硒 心矗驯 圹笋 协冽 广义线性模型的渐近理论21一元广义线性回归 这时 因此按( 2 2 7 ) 式有 于是 。l 一一= 一1 ,当样品处在状态k ( 2 3 0 ) 。,:e ( y l 状态j ) = 凤+ 岛,j = 1 ,一,口; ( 2 3 1 ) 。2 e ( y l 状态k ) :阮( 风+ 十岛) 。2 3 1 一1 e ( y | 状态j ) = 励 j = 1 故风为平均效应,而岛衡量状态j 效应超出平均之值 5 2 1 3 自然联系涵数 联系函数g :9 ( 弘) = 7 = z 7 芦,p = e y ,其反函数酞皂很常用作为联系函数,9 必 须严格单调且充分光滑,即有足够阶的导数 有一个特殊的联系函数即 9 = 5 1 或 = 5 ( 2 3 2 ) 起着重要的作用,它称为自然联系函数这时有 z 卢= 9 ( p ) :9 ( 舂( 8 ) ) = 毋 ( 2 3 3 ) 因此指数型分布( 2 1 冲的自然参数就是z 7 p 这一重要关系式是”自然联系函数” 这一名称的由来其方便之处,目前我们可以看到一点:着有了样本叭 鲰, 与g ;相应的z 值为互则( g h 一,) 的联合密度为 nnn c ( 玑) e x p 卢7 磊蛳一6 ( 乏卢) ) 2 = 12 = 1 i = 1 第1 6 页 中国科学技术大学博士学位论文第二章统计建模 其形式比其它联系函数下来得简单,且由此形式看出:,五胁为充分统计量,其 最重要的优点是:它使广义线性模型下统计推断的大样本理论更易处理当然,在 一个实际问题中选择联系函数,主要根据问题本身的情况 例2 1 ( 续) 因本例7 r = 肛,自然联系函数由z 7 口= 日= l o g 丌( 1 一”) 确定,即 9 ( t ) = 1 0 9 ( t ( 1 一t ) ) ,或h ( ) = ( 1 + e 。) ( 2 3 4 ) 这就是很知名很重要的1 0 9 i t ( 或l o g i s t i c ) 模型注意( 2 3 4 ) 式右边之值总在( o ,1 ) 内,符 合”作为概率的要求 一般,n = ( z 7 p ) 故h 应满足o 1 若彬9 严增,则 ( 一o 。) 一般应 为o ,h ( o 。) 一般应为1 ,这样”可取( o ,1 ) 内任何值 如果问题的性质限定了”只能 取( o ,1 ) 内某个子区间中的值,则另当别论) ,因此,h 应为一分布函数,有几个选择 在实用中用到: 称为p r o b i t 模型 1 ( ) = 垂( t ) ( ( o ,1 ) 的分布) :联系豳数口= 垂( 2 3 5 ) 九2 ( t ) = l e x p ( 一一) :联系函数9 ( r ) = 1 0 9 ( 一l o g ( 1 一”) )( 2 3 6 ) 其联系函数的形式使之有l o l o g 模型的名称 2 2 多维广义线性模型 22 ,1 定义 在52 ,1 我们见过几种目标变量取值的情况:l 连续取值:人的身高,元件的寿 命之类2 取离散值,但仍有数量意义如受”感染细胞数”取o 12 ,- 用p o s s o n 分 第1 7 页 广义线性模型的渐近理论 22 多维广义线性模型 布描述m 个患者中痊愈的个数,取o ,1 ,2 ,n 为值3 变量为属性,但只有2 个状 态如”产后感染或否”,用ol 变量描述o 1 无数量意义,只指示有无 以上这些情况都可以用一个单变量描述之,其统计模型取为单参数指数型分 布另有一些情况,其目标变量y 须取为向量的,如y = ( y ( 1 】;2 ) ) = ( 身高,体重) 这 种取连续向量值的目标变量如用多元正态统计模型,得到熟知的多重线性回归 除此以外,还有一种重要的情况:y 取个”状态”之一,3 如在例2 1 中,感染 可分2 两种类型于是每个产妇处在3 个状态之一:无感染,i 型感染,u 型感染 它当然可用0 ,1 ,2 这3 个数字标识,因此可能会认为,此例中的目标变量y 只取3 个 值,非向量但这一看法是错误的,因为此处0 ,1 ,2 并无数量意义,只是一种标签 正确的做法是2 1 2 中那样引入哑变量k 1 ) ,y 【口) ,q = k 一1 , k j ) = 而把目标变量y 定为y = ( y ( 1 ) ,k ,若y 取状鹳 其它 h 它共取k 个值 ( 2 3 7 ) o l = ( 1 ,o ,0 ) ;q = ( 0 ,o ,1 ,o ,o ) ;“= ( o ,0 ) ( 2 3 8 ) y = 嘶舒y 取状态j ,j = l , ( 2 3 9 ) 一般,设目标变量y 为q 维:y = ( k 1 ) ,k 口) ) 7 ,它取值于搿中的一b o r e l 集a 应用上a 有两个情况:1 离散情况,4 为一有限或可列集,如在上例有 a 一 口h 一:)( 2 4 0 ) 2 连续情况,_ 为r q 中一区间,即形如 l = ( t l :如) 。,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年法院聘用书记员考试试题(附答案)
- 第1课时 时、分、秒(教学设计)-三年级上册数学人教版
- 广东2025年广东嘉应学院招聘后勤服务集团工作人员笔试历年参考题库附带答案详解
- 2025福建厦门水务集团有限公司6个岗位校园招聘笔试历年参考题库附带答案详解(3卷合一)
- 本册综合教学设计-2025-2026学年小学信息技术(信息科技)六年级上册甘教版
- 4.2.3 合理营养与食品安全教学设计2023-2024学年人教版生物七年级下册
- 2025广东省建筑工程集团有限公司校园招聘笔试历年参考题库附带答案详解
- 政安消防知识培训学费课件
- 2025年安全月竞赛应知应会题库(必答题抢答题风险题)含答案
- 2025年动物防治专员考试题库(含答案)
- 医院环境卫生学监测课件
- 黑布林英语阅读初一年级16《柳林风声》译文和答案
- 特殊儿童融合教育档案
- 各种汉服款式剪裁图大全
- GB/T 6391-2003滚动轴承额定动载荷和额定寿命
- GB/T 28733-2012固体生物质燃料全水分测定方法
- GB/T 18591-2001焊接预热温度、道间温度及预热维持温度的测量指南
- 儿童和青少年社会工作伦理课件
- 国家外汇管理局国际收支申报培训课件
- 血管活性药物课件
- 四年级上册心理健康教育教案 -全册教案 通用版
评论
0/150
提交评论