




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 广义线性横整应用于匿l 露分麟,英嚷盛变量缀赖于线性形式z 多,露显广义 线性横烈允许把许多用于线性模型的方法成用于煲一般的实际问题广义线性 模基嚣响应交薰y 舔震于捧麸分希簇,孬撵散蔟鑫数学楚壤土簿穰多穷便。并 萎穗合犍是最基本螅、疆突最深入翡夫襻拳缝震。毽魏,礤突广义线瞧模鳖援 犬似然估计的相合性及淅近正态性,可以对实际问题中收集的数据和提炼的模 登俸窭合理箍蘸和深入分耩,共有一定酶壤论和寨弼徐德本文研究广义线性 横整壤夫钕然磐曹翡翔套幢藏澎遂藏态经,囊癸奔绍了广义或缝模鳖瓣鐾梅、 实际横烈的建立和联舔函数的选择,讨论了序贯指数模型的极大似然估计的棚 合性与渐近正惑性。骥将主要内容耩遴如下: 一、第一霉雷毙余舞了广义绞拣模壁舞罄稳和蓉奉辙念,德熹奔黧霸然籀 数族的一些特征牟口例母。其次,介绍哑变煮的掰种取值方法,遐在研究离散喊 盅变嚣广义线性模型中是菲常蘸璺壤。 = 、第二章主要务绍模羹曲建囊和联系涵散的选择,系统瓣述了凡种舆体 的广义线性模型。 兰、第三章夯绍了广义线性横溅蟾撅犬儆然髂计。 西、第四章讨论了序黄指数横麓的极太似然估计的强相念性和潍近溅态 性,势遴嚣了逆明。 关键词:广义线性横烈,模型建立,联系函数,极大似然估计,相合性,渐近 萎态瞧。 a b s t r a c t g e 黼r 盛i 髓dl i n 酶rl h o d 越s8 聘辅戚f b r 辑霉嘲沁na 辩柏y s 主s ,w 妊e h 诲蛔e n d e n to n 莪n e 王谨 c o m b i n 驰i o nz p ,g e n 盯a l i 痢1 i n e a rm d d e l 8c 曲执& b kt ou s e d 协m 甜净1 i n e 甜瑚o d e l i np r t i c e t h er 8 8 p n n 8 皤0 fg e n e r 甜k e dl i e a rm o d e i sb e l o n g 怕an a t l i r a l 既p o n t f 8 m i l yw h i e hc 强b 静b 搬l d l 葩e 骟i 王yi 狂黼b 毫h e m 贰i c s 剽c e s s 咚,e o n 蝣s t e b e yi st h eb 8 8 i e 粕d d e 印l p r e s e a r c hs a m 搏ep r o p 鳐够s ot 躲8 t n d y t h ec o 硝逛t 曲帮。fm 8 x i l r m ml i k e l i 轴o d e s t i m a 七eo fg e n e r a l i z e dl i l l e 8 r 1 0 d e l s 躺d a 驰p 乞o t i cn o r m a l i t yi sf u n d 8 m e n t a l 协d e d u c e r e a s o h a b 跨a n d8 n d y s i 8d e e p l yf b f 也ed 疆睡e c t i n gf 幻mp r 端t i c 8 lp r o b l e m sa n da b 8 t r a e t m o d 稿,飘砖屯h e s i s8 童# 琳毫ot h es 憾d yo m 鑫x i 氆班bl i 巍h h o 醴器鼬n 堍o f 鲫 e r 8 l 拓醴珏n 档t m o d e l sa n di t s 雒妒m p t o t i cn o 瑚8 1 i t hw em a i n l yd t 8 c u 鼹t h es t r u c t u r 姻o fg e n e r a i i z e dl i n e a r m o d e l s ,t h e 艚t - u p0 ft h ep r a c t i c em o d e l s ,t h ec h o i c eo ft h el i n k 如n c t i o n 她dc o n 8 i s t e n c y 蕊l d8 斟琢p _ 幻蛀el i 僻l 戳蠡毫y t w e a n g e t h e t b i 8 f o l l o w s : 1 i nc h a p t e rl ,w e 如滔ti n t r o d u c et h e8 t r u e t u r e0 f 胛n e r a l i 钟du n e 村m o d e l sa n db 晶s i c o o 娃e e p t s 珊琢8 y 畦辩f o 聪o w b g 曲8 p t e s 。f i 搀t ,l u so 珏8 。璐e 曲瓣8 t e r i 或i c so fn 戢毪r 畦 麟p o n e n t i 8 l 妇n i l y 矗n d 船池m p l 髓s e n d l y w ei n t d “t h ed n m 瑚节v 神i 8 b ka n d 批。w a y o ft a l ( i n gi t sv a l 啪,w h i c l ii sv e r _ yi m p o r t 8 n tf b rt h e 蚺u d yo ft h eg e n e r a l i z e dl i n e a rm o d e l w i 柏d i t er e 印 o 】璐e 2 i ne h 珥砖e r2 ,w ed i s 明鄙裁r 8 l 湖c 吐e 黔n 锻越i z e d 矗n e 躺m o d e l s 证as y s t e m i c w a yb r i 胡yo n t h es e t - u po f t h e m o ( 1 e l s8 n d t h ec h o i c 档o f h i l k “l c t i o n 3 i nc h 印t 靠3 ,w ei n t r o d u c et l em e 曲o d so fs t u d y i i l gm a x i m u ml i k e b h o o de 8 t i m 8 t e , 8 n du s e 髓璋mt ot 瞰嚣e n 翻越z 醴强n e 擞豫联k 圭s 4 i nc h a p t e r4 ,w ed i s c u 船a n dp r o v et h ec o n 幽t c y8 i l d 批y m p t o t i cn o r m i i t yo f m a x i m u ml i l c e l i h o o d 髑t i i 】4 a 七et ot h e ( p o n e n t i 8 lm o d e l 8 k e y w o 油:g 翱删砧i e dh n 髓rm 。d e 拇;氧疰o d e ib n 赫i 挑;l 速k 扭n c 毛i o 珑m 睬i 删瑚珏如l l h o 。d e s t i i n a t e ;c o l l s i s t e n c y ;a s y m p t o t i cn o 娜l a l i t y i i 西北大学学位论文细识产权声明书 本人完全了解学校有关保护知识产权的规定,郾:研究生在校攻i 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 、 学位论文作者签名卜錾羞,叠 指导教师签名:趁丝纽2 刃影年月上日矽,年月,日 蔫黎袅学学位论文独刨性声明 本人声明:所壁交酶学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名:召j ,曲 矿占年么月j 日 第一章绪论 1 1 引言 就形式而言,广义线性模型是常见的多维正态线性模型的推广,它可适用 于连续数据或离散数据,特别是后者( 如属性数据和计数数据) ,在许多领域 应用广泛,如生物、医学和经济、社会等数据的统计分析上。 广义线性模型的个别特例起源很早。f i s l l e r 在1 9 1 9 年曾用过它。虽重 要的l o g i s t i c 模型,在2 0 世纪四五十年代曾由b e r k 8 0 n ,d y k e 和p a t t e r s o n 等 人使用过。1 9 7 2 年n e l d e r 和w 醐d e r b u r n 在一篇论文中引进广义线性模型一 词,从那以后研究工作逐渐增加。1 9 8 3 年m c c u l l a g h 和n e l d e r 出版了系统论 述此专题的专著g e n 口8 l i z e dl i n e a rm 0 d e l s 。1 9 9 4 年l f 址r m e i r 等出版了 m u l t i 、r a r i a t es t a t i s t i c a lm o d e n n gb 嬲e do ng e n e r a l i z e dl 证e a rm o d e l s 。 目 前,研究论文数以千计。 广义线性模型要求响应变量通过线性形式依赖于自变量,这保持了线性自 变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般 的实际问题。广义线性模型的响应变量y 都属于指数分布族,而指数分布族不 仅包含了许多常见的重要分布,如正态分布,二项分布,p o i s s 锄分布,r 分布 等,而且它有良好的分析性质,在数学处理上有很多方便。 对于广义线性模型参数的估计主要通过极大似然估计来完成,进一步研究 它的相合性和渐近正态性,以解释估计结论的好坏与否。 总之,广义线性模型为今后回归模型提供了一个重要的统一研究方法。 1 2 自然指数族的概念 设( 彤,留彤) 为一可测空间,毋算为j 旷的子集构成的口一代数。设为匆掣上 的口一有限测度,b 徊e ) 为定义于劈g 上的一族概率测度,它被p 所控制,即 有b 芦。考虑到p 的口一有限性,根据r 0 d o m 一 o 由m 定理,因此昂对p 有 导数,记为d b 缸= ,( 1 日) 。这里e 垒 日:o 厶c ( ) e x p ( 口) 咖 o o ) , 称ec 露口为自然参数族。 定义l ,l :设y 为一口维随机变擞,其分布族忍婶有密度丽数 f f | 8 ) = c 秽) e 印p 掣一( 8 ) )1 1 ) 那么,就把弓i 口称为关于仃一有限测度p 在自然参数空间e 下的自然指数族。 涟: ( i ) 攫l 发辩为口一有鼹测度,常见的霄蘸种可熊: 瓢当y 连续,勘转) 为l e b e s 器u e 涎菠时,剃有雄 = 却; b 、当y 为离散数据, 即y 取有限个值o l ,d 2 ,o 。或可列个 佳8 l ,啦,时,则蒋 舻辞) = l , = l ,m ;或弘( 戳) = l , = l ,2 , 称“为计数测度。 ( i i ) 在一定的磁则条件下,对予自然指数族宵: e ( y ) 一5 彩= 曲释) 拶, y 卵( y ) 一5 ( 口) = 扩( 瑚瑚7( 1 2 ) 这擞层( y ) 为y 的期辍,y 口r ( y ) 为y 的协方差阵。 ( i i i ) 叁然参数窆闻e 是凸集,且e 斡砖郯0 。,a 铡姆= 5 一e ( 缈 在e o 上是正定簿。 常见自然指数族的例子。 键1 1 :设y 一磐( 珏,痨( 狂已雏,0 p l ;,这融分毒避数势 p ( y = 掣) 一掣( 1 一p ) “一,= 罐e x p l n r 兰i + 竹l n ( 1 一p ) ) 掰鞋二璎分毒灸叁然援数族,荸一氇芒;,6 猡) 一耗k l + ) 燕蠢 e ( y ) 鞴5 p ) = n e 。( 1 + e 9 ) = 他p,y o r ( y ) 拳5 ( p ) = 佗( 1 + e 。) 2 = m p ( 1 一p ) 铡i 2 ;竣y 一尹( a ) ,这封癸蠢溺数羹 p ( y = ”) = ! 雠p l n 一a ) 一引唧 目一e 。 这堂# = k 醒8 ) 一e 8 且有 r ( y ) = 5 ( 口) = e 8 = v d r ( y ) = 5 ( 目) = ,= a 2 贺l 。3 : 设y 一( d 2 ) ,这对密度溺数为 ,( lu ,a ) 一( ( 2 霄) 1 2 盯) 州e x p 一堕云窘) = ( ( 2 丌) 1 脂盯) 一l e 一筘e x p 墨y 一杀) 这警口= 嚣,6 ( = 譬p 2 飘有 e y ) = 5 ( = 一2 口= 珏,y n r ( y ) :敏口) :寸2 注:对于例3 中的参数盯,在这里称为冗余参数,般视为已知,若它未知 对,则必须从样本估计用其估计值代替后可视为融知。 1 3 广义线性模型的基本概念 设有响应变量y ,自变量x 。y 为q 维向量,x 为p 擐阵。 一般绫毪模螫有魏下特薤: l 、b ( y ) = 让= z ( x 阳汉) 为x 的已知( 矩阵、向量) 函数,z 为z 的 转置。 2 、x 、z ( x ) 、y 罄楚取连续数据豹嶷薰。 3 、y 的分布是正态域渐进正态分椎。 广义线性模型进行了如下推广: 1 、嚣( y ) 一珏= 矗f 国,h 为一壤单调、充分毙港的蘧数。这里h 已 知,9 = 危1 称为联系添簸( 珏n kf u n e t i o n ) 。且育9 ( 瓤) = 9 ( 危( z p ) ) = z 芦。 2 、x 、z 伍) 、y 撼掰取连续数据躐离散数据的畿璧。 3 、y 豹分布是捃数族分布,正态怒一特朔。 定义1 2 :称随机变量序列m ,班,碥为广义线饿模型,如果满足结构 ( i ) 随机成分:m ,砺,k 相飘独立,并且k 有密度函数: ,( 虢| # ;) = c ( 热) e ) ( p 或软一6 ( 壤) ) , = l ,一,。 ( i i ) 系统成分:z ( x ) 通过线性缀合7 = 寥( x ) 廖瓣y 产生影嗨。 这里是p 维参数。 ( i i i ) 联系成分:线性组合? = ( 并) 岁与y 豹期望( 目) 通过零调霹微函数 警:e o + 粥,乍= g ( “( 8 ) ) 关联; 注; i ) 在n 秘d e r 释磷麓d 艘b 疆r 箍麓驻毙褰义中雩 入了残众参鼗,这襻镰惑箨藏 赫须要乘以个来鲻参数羧子,毽簸聪雅搬中筘鲍m 五嚣辍持致,救靛稍只考 憋简单豹形筑,靼恕强余参数卷作眭知。 疆) 鳌辫遴广交凌拣糗黧遮藏变爨¥热黎鎏露浚瞧绦会警一嚣江y 移之窝美 瀑的龋数,称幸挈广义线性攒擞的联系醚教。联系避数的全体称为联籁黼数族。 作为联系函数,必须严格鹅濑且充分光瀵,即遨数应霄经意阶豹导数。对联系 缀鼗奏一簿豫骛凝,巍 譬一5 1 蠛扭= ( 邋墨一始口) 掰)( 1 3 潜+ 鲻稼彗瓷巍然鼗系滋数。邀辩 = 黟和* 劈疗) ) 一擘 藉i ) 瓷上黉定义耱爨辫磊羧竣蕊楚邈辩熬豢鼗簿,赘量缀 设滋,嚣,蕊椿d * 鑫l 。4 避( 壤) 褒鳖 状态l 【豹馕,朝菇。 ( i i ) 设西交激y 有个k 状态,记为茹l ,口= 七一1 : 令 蒋品种为状态i , 罄磊耱鸯获态爱, 其它 当状态为k 时: 吼一- 一= 一l 蔽_ 龟赢 e ( y l 状态i ) 一岛+ 反, 一1 ,粥( 1 4 ) e ( y l 状态k ) ;岛一( p l 十+ 岛) 蠡 予是奏i 磐| 状态蛰= 您 l = l 因此,岛表示平均效应,隗衡量状态i 超出( 减少) 平均的值。 l 。5 本文的辑究内容及安摊 本文对广义线靛模型极大缎然估计的相台性与濒近芷淼性润题避彳亍了系统 的研究,首先从横溅建立和联系黼数选择入手,讨论了实际问题的几个横烈。 接嚣讨论极大戗然髂计方法。最瑟,把这一方法鹿用于广义线性模型,辩序贯 指数援型进行了研究。 0 素 西种酷 有 疑毽型f | 摸 十 强个 姘 | | 这 为, 采凳蕊故fl霹 i k 一 吼 ,lflll,、lil【 | l 茹 接满介绍极大似然估计方法。嫩后,把这方法应用于广义线性模型,对序贯 指数模型进行了研究。 全文共分纛攀:篱一章夯缀了塞然攒数羧蠢广义线瞧攘壅熬基零搬念,殛 燮豪的取法第二章详细讨论了实际生活中的几个模型,煎点分析了它们的联 系函数。第三章介绍了极大似然估计的方法,研究了广义线性模型的极大似然 镰诗。簧四章讨论了彦羹摆数模型的摄太钕然镳诗懿强稳念牲葙渗透爱态 ! 至, 并避行了证明。第五章对本文进行了总结,提出了进一疹要研究和解决的问 题。 6 第二章模型建立与联系函数选择 在广义线性模型中常没有或很少有联系函数的选择信息,但联系函数的重 要性是不言而喻的。因此从实际问题中构建好模型后,只有选择恰当的联系函 数才能做出准确的估计,减少误差的增大。 本章主要讨论实际问题的几个模型。 2 1 概率单位( 1 0 9 i t ) 模型 我们先看例子。 仞2 1 : c | 冗一些凼录( 目燹量) 聪“副腹产后是宙有感染”的影响。 设 , y = :霎塞蓁 z = c 。c - ,z c :,z c s ,: 。f1 ,剖腹事先未计划 z f l ) = 气。 io ,剖腹事先计划 f1 ,服用抗生素 q 2 广10 不服用 fl ,有危险因子( 如产妇有高血压,糖尿病之类) q 3 广1o ,无 记7 r = 声( y = 1 ) ,对”= l ,o 贝0 有 p ( y = g ) = 矿( 1 一”) 1 一 = ( 1 一”) ( 击) ”= ( 1 一”) 唧( l n 禹) ( 2 1 ) 令口= 1 n 南,则1 7 r = 南,那( 2 1 ) 可写为: p ( y = 可) = e x p ( 扫掣一l n ( 1 + e 口) ) ,一o o 口 o o( 2 2 ) 因u = e y = ”,那么自然联系函数就是卢= 口= l n ( 南) ,即 ,- l n ( 击) 或吣) :南则”:志( 2 3 ) 这就是特别重要的l o g i t ( 或l o g i s t i c ) 模型。 7 注意到( 2 3 ) 式中o 7 r l ,则易知九( z 卢) = 晋戋的值域也为( o ,1 ) 区 间。所以若假设7 r 可取( 0 ,1 ) 区间内任何值,若h 满足: 为严增函数,且o 危 1 , ( 一o 。) = 0 , ( o 。) = 1 则易知h 为一概率分布函数。由此可见每一概率分布函数的逆都可作为某模型的 联系函数。 我们把这类用概率密度函数的逆用做联系函数的模型,通称为概率单位 ( 1 0 9 i t ) 模型。 实际应用中,主要有: ( i ) p r o b i t 模型。 1 ( t ) = 垂( t ) ( ( 0 ,1 ) 分布) :联系函数g = 圣一1 ( 2 4 ) ( i i ) l o g - l o g 模型。 2 ( ) = 1 一似p ( 一e ) :联系函数9 ( 7 r ) = 1 0 9 ( 一l o g ( 1 7 r ) )( 2 5 ) 我们比较( 2 3 ) 一( 2 5 ) 这三个联系函数,表面上看它们差距很大,根本就是 三个不同的函数。但若考虑到中心极限定理,它们都可渐近于正态分布,那么 它们之间是不是有什么联系? 看下面的引理。 引理2 1 :用分布函数的逆作联系函数,选择 ( t ) 或选择九( 警) ,在用极大似然 法作统计分析时,结果一致。其中n 是分布的期望,a 是方差。 证明:设分布函数为 ( ) ,则令 1 ( t ) = 危( 霉) 这样就有了两个分布函数,相应的就有了两个模型 7 r = ( 2 + p ) ”= ,( z 卢+ ) = 九( 兰堡2 ) 8 ( 2 6 ) ( 2 7 ) 当有了样本( z t ,m ) ,l i 札时,按照( 2 ,6 ) 和( 2 7 ) ,分别有两个联合密 度: n ,= ( ( z 翩弘( 1 一 ( 甜一* ) ( 2 8 ) t = 1 = n ( t ( z ) “( 1 一九,( z 俐1 。“) = ( ( 卢) ) 鼽( 1 一 ( 刚一m ) ( 2 9 ) l = 1i = 1 其中下边式里卢= 矿一口归 比较易知这两个式子完全相同,故结果一样。 若设口为口的极大似然估计,则有 声= 巨代入( 2 7 ) 得 l ( z 声+ ) = ( 五8 号掣) = 危( z 西) 二者完全一致,所 以选择哪个分布函数不影响分析结果。 因此,这个差距的一部分是由“位置”参数( 期望) 和“刻度”参数( 方 差) 影响的,只要将这二者调到同一个数( 比如都为0 ,1 ) 那差距就会很小( 图 例可参看文献 8 ) ) 。故在实际运用中,因 l ( t ) = 圣( # ) 易计算,用的最多。 2 2 多维概率单位( 1 0 9 s t i c ) 模型 响应变量y = ( k 1 ) ,k 。) ) 取。l ,口 等k 个值,其分布为 p ( y = o t ) = 仉, 一1 ,一,g ,口= 一l ( 取钒的概率记为1 一( 丌1 + + 丌q ) ) 。记7 r = ( ”( 1 ) 若y = ( y ( 1 ) ,y ( g ) ) ,是n l ,钆的其中一个, p ( y = ( 可( 1 ) ,一,( q ) ) ) ) = ( 1 一丌( 1 ) 一 一,丌( g ) ) 则 令27 r ( 1 ) + 。一+ 7 r ( q ) ,则整理口j 得 _ ( 1 圳垂尚矾。 一p l n ( 1 圳+ 砉( 1 n 尚严吖 ( 2 1 0 ) ” 丌 。渊 ” + v 一 口 丌 一 = 唧日一6 ( 口) ) ) _ l n 尚却i 。惫一;尚 宇毋t 6 ( 口) = l i l ( 1 + 毋t ) ) 注意到u = 7 r = e ( y ) = ( “( 1 ) ,t 一,“( q ) ) 则自然联系函数为 咖) = ( ( u ) j 一圳,酬妒l i l f 石 g 的反函数h 是定义于e = p = ( 8 ( 1 ) ,吼口) ) 7 :一o o 口( t ) 。,i = 1 e 吼- ) h ( p ) = ( ( 1 ) ( 口) , ( 口) ( 口) ) ,( 日) = j 号广一 l + e 。仰 2 3 积累线性模型 ( 2 1 1 ) g ) ( 2 1 2 ) 在实际生活中,有些问题的状态有明显的优劣次序,如学生的考试成绩分 不及格,中,良,优四个等级,病情分l 、2 、3 期,产品品质分1 、2 、3 和等 外等四个等级,都有公认的优劣次序。( 注意:在这种场合,其序号1 ,2 ,无 数量意义) 倒2 2 :呼吸测验:目标y 分3 个状态:正常、边缘、不正常。自变 量x 分2 个:曩1 ) 年龄,分 4 0 和4 0 一5 9 两级;x ( 2 ) 吸烟史:分“从不吸烟”、 “以前级”、“现在吸”3 级。 这种有次序模型的产生原理: 有一个( 或几个,此处只考虑一个的情形) 变量u 及门限一o o = 日l - l ,因此在。1 之下y 取小值的概率大 于y 在z 2 之下取小值的概率。我们称y i z l 随机的小于y i 。l 。反之亦然。 当( z 1 一。2 ) p = o 时,有p ( y 茎r iz 1 ) = 尸( y 墨r i 。2 ) 。因此在z 1 和z 2 之下样品 的表现完全一样。 2 分组c o 模型: f 为极小值分布:f ( t ) = 1 一e x p ( 一e t ) ,有 p ( y r i 。) = 1 一f ( 啡+ z 7 p ) = e x p ( 一e “+ 。卢)( 2 1 6 ) 因此有 l n ( 一l n p ( y r io ) ) = 啡+ o p( 2 1 7 ) 3 极大值分布模型 f 为极大值分布:f ( t ) = 唧( 一e 。) ,有 p ( y 兰r l 芏) = 泽( 一e 一( 靠如功)一k ( 一瓤p ( y r l 茹) ) 嚣岛+ 多罗( 2 。i 8 ) 积累线性模型的联系函数: 仍用前面的记号,记p ( y i ) = 啦, = l ,一,吼口一七一1 , 丌 那么联系函数g ( 口维) 要满足: ,孽1 姆 9 ( 霄) 鬲f ; i, 鲡( 霄 扩一一戈o ) ( # ) 芦+ e 考悲( 2 1 2 ) 和( 2 1 8 ) ,可得 联以存 产( ; ( 2 1 9 ) 叫咖= 隧黝协 p ( y 兰r l 。) = 丌( 1 十- + 丌( ,) , r = l ,喀 ( 2 2 1 ) 跏( 丌) ;f 一1 ( 7 r ( 1 ) + 十霄p ) ) = 啡+ z ;0 ) ( 。) 卢 r = 1 ,譬 ( 2 。2 2 ) 求簿 ,褥戮譬韵爱聪数毳: 7 r ( 1 ) + + 丌( , = ,( 靠+ o ) ( ) p ) r = l ,口 ( 2 ,2 3 ) 荨缀次令r = i ,一,q ,哥褥 7 r ( 1 】湍f ( 巩+ o ) ) 卢)7 r ( ,) 端f ( 睇十互o ) 如) p ) = f ( 啡一l 十z ;o ) ( z ) p ) ( 2 2 4 ) 1 2 、;k 囊 和弑 荆秽;荆腻 般络 写 l 一书厂;0一队 删,弋一 一,令 硪 这 拜 注:( i ) 在许多情况下,9 值住为划分序级的门限,是事先融知丽无须估计的 ( 翔考试残续定缀鹣赛袋) 。在努一些壤撬下,# 蓬霹爱来黧,在瑗论上诀为宅 是潜在的,因而也需要估计。本文都认为p 值怒已知的,故对其不作估计。 ( i i ) 这里的联系函数可通过挑选分布函数f 来进行简化,一般都不怒自然 联系蹑数。 2 4 序贯模烈 窭舔淹髦串蠢蹙强蠡瓣善令获态形成一攀争蠡然熬苓遴转熬蔟彦( 魏处鬟 考虑能上不能下的情况) 。通常,一个对象从状态l 开始,可能最终停觏在这 个状态,也可能,e 升到状态2 。在对象进至状态r 后,它可以最终保持戳r 戚上 舞鼙r + l 。热职务豹舞迂,学谖瓣增长,痰瘸不可逆转静分期等,帮嚣予这静 状况。主要观察醋标对象的最终状态,弄清楚最终取某些状态的概率与篥楚因 素( 自变量) 之间的关系。 状态过渡的联壤: 设一共有个状态,y 记强禄对象所处状杰,而哥记箕激终狭态。 目标对象此时处在状态r ,即此时的y r 硪p r 。怒否最终固定在r ,取 决予一潜在的变爨瓣和门限& 若y = r 划矿= r懈珥靠 ( 2 2 匐 这里 骐一一芦+ 岛( 2 + 2 6 ) 即对象漤在的阱饿与z 成线性关系,再加上一个随机误差部。所以有: p ( p r l y = r ,g ) 一p ( ( 一茹廖+ 岛) 冬靠) = f ( # 厣+ 毋)2 ,2 7 ) 谢 p ( 1 ,= r ) 。) = p ( ( 矿 1 y = 1 ,劣) n ( p 2iy = 2 ,z ) r 1 n ( 尹 r l | y = r l ,劫门罗 r l y 一。) ; 故 p ( p l l y 篇i ,茹) = 芦氓 壤) = l f ( 茹芦+ 鬈) , ;l ,r l j 3 p ( 矿r i y r ,z ) = 1即有p ( p r l 。) = p ( y * r lz ) 总结, :藤尼式,霹褥 r l p ( p r i z ) = f ( 髫芦+ 啡) ( 1 f ( 卢+ 矾) ) ( 2 2 8 ) t = l 这里警游l 蹿乘积羧为l 。 对分布函数f 的不同选择,有不同的序贳模测: 1 序贯l 晒t 模型: 当选取f ( 亡) = 南时- 有 p ( p = r y n z ) = r 草编 ( 2 七9 ) 剃寿 p ( p 。r i y :n 茁) 一p ( p = r i p n z ) = 嬲= j 覃,= i j ! 蓦 ( 2 3 0 ) 菪设8 嚣粼,粼上式= 惫 所以有 廿一删;e x p ( 薛m ) l n ( 芳渊m “厣( 2 1 3 1 ) 2 极值模型o f 必极,l 、佳分毒:f ( 辞= l 一联p ( 一e ) ,鸯 p ( p = r l y = r ,z ) = 1 一嘞咐( 一e 毋+ 。4 ) ( 2 3 2 ) 因此露 嬲小唧( 懈一号端= e x p ( 扣冶) ( 2 删 所以有 n 一l 矬粼) 一繇+ z 参 ( 2 3 4 ) 1 4 3 指数模型: f 为指数分布:f ( t ) = l e 一。( t 0 ) ,有 p ( p = r y = r ,。) = 1 一e 一+ 。口)( 2 3 5 ) 因此有 蹦= l e x p 一( 啡+ z 卢) ) 辛揣= 麟p 一( 啡+ z 卢) ) ( 2 3 6 ) 所以有 一l n 端) = 啡+ z 卢 ( 2 3 7 ) 序贯模型的联系函数: p ( p = r i y 2 n z ) = 揣= r 二i 五_ 于是由( 2 2 7 ) 有 跏竹) 垒f 一1 ( 丁= i i ) = 砟+ z 卢r = 1 ,口( 2 3 8 ) 因此 z ( z ) = 习 7 = i 。i ( 2 3 9 ) 。c 霄,= ( 二 :;) = z c z ,7 c 。a 。, 2 5 小结 木章主要介绍了广义线性模型中的几个常见模型描述如何构建模型和求 解联系甬数。而且通过哑变量的使用,可以对实际问题做出切实可行的模型。 1 5 第三章广义线性模型的极大似然估计 极大议然估计爨统计理论中应用最广泛的方法之一。该方法最出由德因数 学家g a u s s 于1 8 2 1 年提出,但未得到重视,1 9 1 2 年英国统计举家f i s h e r 再次提出 并搽蕾 了它静性葳,使之广泛应怒。 3 1 极大似然估计( m a x i i n u ml i k e l i h o o de 8 t i m a t e ) 方法 焱裰辜统诗审,凝攀密度爨数p 江l 璐起黄爨要终鬟,警$ 琵酝,表嚣缀零密 度如何随x 变佬;相反,当样本x 确定后,可以对不同8 的,考虑概率密度如何变 化,遮体现了日对x 的解释能力,称为似然。 设榉本的概攀空瓣为髫,席,伊) ,炉一 马,学e ,设弘兔( 影,瓣) 上 豹口一有限溺度,并设泸芦,帮妫对芦有导数,记为赢r 蛳一,( f i 8 ) 。 定义3 1 :称未知参数口的估计为篡极大似然估计,如果满足 p ( # l 囝一8 毽p p 国移)8 s ,弘( 3 。1 ) p 日 常记为目的m l e 。 嚣夷德谯鹄是维寅量遁数,记q = 9 ( e ) ,是磷串的一个子集,懿9 鼢懿 估计( 茹) 为其较大饭然估计,赫聚韶在晷孽一1 ( 雪( z ) ) 使 s u p p ( 掣l 挣) = = p ( 掣 d )o s 。p( 3 。2 ) 口e 现在讨论极大议然嵇计的不变性簸则: 引理3 1 :若9 ( p ) 撼在e 上定义的可测向量函数,e 为自维非退化凸 集( 茹) 为p 静挺墨爨当酲嚣) 譬。畦+ 对在意点捌毽 e ,罄您壤= 蚕露) ,投 限值1 i m9 娩) 存在氨相同,并且擘( e ) ,那么 4 嘶 ,口( 口( 。) ) , 当p ( 嚣) e ( 茹) 2 l i 翠警( 壤) , 馥 。9 ,当嚣譬。 是g ( 口) 的m 工e 。 一般说来,我们并不要求似然函数一定关于d 可微,如果宦关于口可微,则 往往用求似然方程盟2 蓉产= o 的根米求解8 的m 厶层。要指出的怒,似然方程的 辗不斑楚掰霉,爱涟寒,蓑辍然方程无壤,毽麓有掰三嚣孬在。 对于指数型分布族,情况比较简单,有较好的结论。 设样本y = ( m ,k ) 的分布为自然指数型: ,( f i 艿) 奄薛( 萝) ;= c ( 掣) e x p ( f 护一6 护) ) 矗! 口轻)( 3 。3 ) 其自然参数空间0 是时中一凸集。设e 的内点集( 作为r 七中的集合的内点 集) e o 嚣空。e 豹闻谯琵鸯e 1 程黻钒孛一点鹩,蔫扩建边赛转l 一铋上乏一 点,联缩和矿的直线段,除扩扑,都是e 的内虑。又假定对任何口e o ,变 量y = ( m ,k ) 在概率分布昂( 即( 3 3 ) ) 之下为线性无关,即其协差阵协教 阵的g o k ( y ) 鸯正定。囊8 e e 时换燕阵约存在为 e d ( k ,写) 一一a 2l na p ) 0 峨a 码 则鸯 引理文2 :在以上的金部假定下,似然方程至多只有一解,盥只有一解,此解 就是p 的m 厶e 。 其诞碉霹参看文献( 2 l j 。 3 2广义线性模型的极大似然估计 形 设( 强,甄) 麦稳重猿立戆样本,l ;l ,锋。麓豹努毒写戏巍然指数族拣礁 c ( 弘) e x p ( 葫陡一6 ( 哦) ) , 一l ,- 一,n( 3 4 ) 这里良奄蕊有关,穗与参数多蠢荚。英串魏秘砼为g 维囱爨,黟受p 维囱 量,蕊为p g 已知矩阵。 似然函数为: # 三= 羹c ( 瓠) e x p 积函) ( 3 - 5 ) t = l 1 7 要求卢= 反,使l 达到最大。这就是口的m 三e 。取对数 nn l n 三= l n c ( 鼽) + ( “吼一6 ( ) i = l i = l 其中c ( 玑) 不依赖于参数卢,对估计口无影响,故可略去。记 n n 皇k ( 仉( p ) ) = ( 如一6 ( 吼) ) ( 3 6 ) = 1 = l 称为对数似然函数。有似然方程 等= 喜( 玑珂) ) 警= 。融剐= 警) ( 3 7 ) 方程的解即为口的m l e 。 用前面的记号,记9 为联系函数,9 1 = ,( 吼 :口1 ) ,则由前面可知 咄垒f m = ( 2 :卢) = ( 仇( 卢) ) 且为哭出u 与卢的关系,常写为i ( p ) ,那么笃铲就取决于联系函数9 的形式。 记 为g 的反函数,有啦( 卢) = 九( z p ) ,故得 警= 学氧w ,警,而警= 警= 帮z 故得 笔铲一是萨( 眦) ) ) 一= 警i ( 协) ) ) 一, ( 3 s ) 这里i ( 吼( 芦) ) = 黜= y n r ( 玑) 垒。( 卢) 。 代入( 3 7 ) ,得对数似然方程为 s ( 舻塾肛o j s 舻) = 鬻【莩( ( 玑喵( 剐( 3 9 ) 记d 。( 卢) = ! ;警可得 nn s ( 卢) = & ( 序) = 现( p ) 匹( 卢) - l ( 玑一啦( p ) ) ( 3 1 0 ) f = 1i = li 1 8 上式又可写为 这里 耶) 垒喜s 舻) 垒娄础) 掣( 矾咄( 口) ) ( 3 1 1 ) 咄) 锄( 酬( 别_ 1 d :( 舻【笔掣( 卢) 宅】- 1 ( 3 1 2 ) 这里利用了等式 鼬o 。h 辛掣掣= 号掣d i ( 舻岛号掣= 瞰酬一 则有( g d 表示协方差在参数为口时计算) nn r ( p ) = 吻( s t ( 卢) ) = 苁功( 卢) 匹( 酬一1 y n r ( 玑) 匹( 口) 】一1 d 细z t = 1i = 1ti = 魂w l ( p ) i 垒z ( 卢) = 1 则可将对数似然方程写为 s ( 卢) = 功( p ) 匹( p ) l - 1 ( y u ( 口) ) = o ( 3 1 3 ) i 在自然联系的情况下形式大为简化 n s ( p ) = ( 玑一u ( 卢) ) = o ( 3 1 4 ) ;1 在一定的条件下,可以证明: p ( s ) = o 有解) = l , 当n o o ( 3 1 5 ) 如果是自然联系函数,则其解必惟一。 具体求解可用迭代法,详细过程可参看文献( 1 2 ) 。 1 9 第四章广义线性模型的极大似然估计的相合性与 渐近正态性 4 。l 弓l 言 极大似然估计有良好的大样本性质,在统计方法中特别踅要。而相含性是 最基本的、研究最深入的大样本性质。若一个估计量没有相会性,则无论用多 大懿襻零取售诗,都霹戆毒较大麴误差。因藏戮究广义线毪貘型懿较大骰然绩 计的相合性与渐避难态性是对从寓际问题中收鬃的数据和提炼的模型以及由此 所作出推断的合理性进行深入细致的分析,井通过分析来检森数据、模型及推 颧方法审可戆存在瓣遥题,鞋提爨浚进熬方法。 对于广义线健模型豹极犬叛然估计榴含性与渐避雁态性,眦r m e i r 和k a n f m a l l n ( 1 9 8 5 ) 作了系统的研究( 参考文献【1 1 ) ,对自然联系函数, 在& c ( k ) 0 ( 辩嫠个8 ( ,l 】) ,& 一簿条馋下建立了广义线懔攘型 中两的极大窀萁然 鑫计反的辐台性;对菲自然联系函数,农如 c ( k ) n 蒋条 件下建立了广义线性模型中扁的极大似然估计风的相合性,在b 一。镣条 件下褥剥了& 的濒近正态性。丁洁丽( 2 0 0 6 ) 在文献( 3 】申。对文献( 1 ) 豹弱鞠合性静条传递符了改进,在k ,& 一。簿条箨下试弼了广义线魏模型 中廓的极大似然估计风的弱相台性。尹长明,赵林城( 2 0 0 5 ) 在文献( 4 ) 详 细讨论了在序贯l c 嚼t 模型、p r o b i t 模型在| l 磊i 一o ( 1 n ) 条件下,分组c 似模型 在| | 磊| | = 。 l n k 稚) 蘩舞下,著嚣都满是& 2 舻精熬广义线性模鳖串岛豹掇丈 似然估计风的相合性和渐近正态性。 本章基于上述储计的方法,讨论了序贯指数模型中岛的极大似然估计风的 攘仑魏_ 饔濒运歪态瞧。 4 2 广义线性模型的极大似然估计的相合性和渐近正态性 设( 五,誓) 为赣嚣独立靛样本,= l ,t c ( 们) e x p ( 疵哦一6 ( 仇) ) 2 0 社。k 宥自然指数族标准形分布: = l ,- 一,n( 4 ,1 ) f ( 玑) = 云( 巩) 垒 ( 7 ) ,一y = ( 置) 卢, ls n ( 4 2 ) 对数似然函数为: k ( 卢) 垒啦( 卢) ) = ( 越巩“( 仇) + l n c ( 们) ) ( 4 3 ) 其中c ( 们) 不依赖于参数卢,对估计p 无影响,故可略去。 记微分函数与其协方差函数分别为 s 。( 卢) = 譬铲和r ( p ) = g 唧( 剐 ( 4 4 ) 为了后面叙述简洁,引入下列记号: ( 廓) 和r ( 肺) 分别记作s 。和r ,b 和k 分别表示磊的最小和最大特 征值,c 在不同地方表示不同的正常数,0 a | | 表示a 的欧氏模。 本文中的极大似然估计就是: 。( 岛) = m a x f 。( 卢) :芦b )( 4 5 ) 的任一可测解。 先引入下面的正则条件: a l :对序贯指数模型有| | 磊| i = o ( 1 n 竹) ; a 2 :存在a 0 ,使当n 充分大时,有b m “。 定理4 1 :( 强相合性) 若假定a 1 和a 2 成立,则当n 充分大时,以概率l 存 在风的极大似然估计反,且都具有强相合性,即 良一岛 n s ( 4 6 ) 这里肺的任一良均为似然方程s 。( 卢) = o 的任一解。 定理4 2 :( 渐近正态性) 若对序贯指数模型有| | 磊i i = o ( 1 n n ) ,且假定a 2 成 立,则当n 充分大时,以概率1 存在阮的极大似然估计良,且有 碟7 2 ( 反一岛) 一( o ,厶) , ( 4 7 ) 其中露7 2 是r 的平方根,是p 阶单位阵。 2 】 4 3 定理的证明 要证明定理,先引入下列引理。 引理4 1 :( b e r i l s t e i n 不等式) 设x 1 ,弱,j 乇是独立随机变量,i 冠i 6 o 有 n 2 p ( 五e ) 唧面赫) ( 4 - 8 ) t = i 其证明可参看文献( 1 9 ) 。 引理4 2 :若假定a l 成立,则对任意 0 ,当n 充分大时,对风的任一给定的 有界邻域内的任意p ,一致有 m l n ( u ( 7 ) ( 7 ) ( ,y ) ) 1 1 ;p n 一, i _ 1 ,n ( 4 9 ) 其中p = 5 1 ( ( ,y ) ) 垒t ( 7 ) ,记u ( 7 ) = a 0 卸,( ,y ) = c d 啪( 弘) l 口= u ( ,)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卓顶精文-店铺承包转让合同5篇
- 2025年招标采购从业人员专业技术能力考试(招标采购项目管理中级)冲刺试题及答案(山西阳泉)
- 江西省鹰潭市招标采购从业人员专业技术能力考试(招标采购合同管理中级)测试题库及答案(2025年)
- 《童心童画》课件
- 隔离防护总结汇报
- 食管癌护理说课
- 2025年签订的违章建筑房屋租赁合同是否有效
- 广告公司股东合作协议5篇
- 公司月度安全培训记录内容课件
- 2025年被迫解除劳动合同样本
- 加工中心课件培训
- 化妆品检验试题及答案
- 《医疗机构工作人员廉洁从业九项准则》解读
- 2025年山西太原供水集团有限公司招聘笔试参考题库含答案解析
- 车位租赁协议
- 中建《质量标准化管理手册》水利水电工程
- 电力建设土建工程施工试验及验收标准表式施工
- 药用高分子材料学(78)
- 再生资源回收利用基地项目资金申请报告写作模板+
- ISO 1110-95 尼龙-测试样品的加速调节
- 美国寿力空压机控制原理图
评论
0/150
提交评论