(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf_第1页
(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf_第2页
(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf_第3页
(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf_第4页
(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(概率论与数理统计专业论文)对数线性模型中若干统计问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 属性数据分析是研究名义数据和有序数据的有效工具。在属性数据分析中,经常用 对数线性模型来拟合列联表;可以用对数线性模型来分析列联表中变量之间的关联性, 这是对数线性模型的一个突出的优点。步散度测度( 咖d i v e r g e n c em e a u s u r e ) 是c s i s z 6 r ( 1 9 6 7 ) 和a l i ( 1 9 6 6 ) 引进的一种刻画概率分布之间差异的度量。近年来,许多统计学家 将西散度测度应用于各种不同的( 回归) 模型,其中就包含了多项抽样下的对数线性模 型,定义和研究了最小步散度估计( m e ) 及其性质。最小步散度估计是m l e 推广,引 进它的动力是与m l e 相比它具有某种稳健性。可以预测,基于对数线性模型的重要性和 咖散度测度这种优良的性质,对这个方向的研究将会持续一段时间。正是因为这一点, 我们将砂散度测度应用于乘积多项抽样下的对数线性模型,工作可以分成三个主要部 分。 首先,在乘积多项抽样的对数线性模型下,我们定义了最小咖散度估计,研究了这个 估计的性质和基于这个估计的一些检验问题,其中就包含拟合优度检验、嵌套( n e s t e d ) 假设检验和局部对立假设检验。在一定的条件下,得到了最小西一散度估计的渐近展开 和渐近正态性;用这个估计和咖散度测度来构造统计量,用它们做拟合优度检验、嵌套 假设检验和局部对立假设检验,在各自的原假设下,这些统计量有渐近的( 非中心) z 2 分布。另外,还得到了拟合优度检验的功效函数的渐近逼近。 其次,在乘积多项抽样的约束对数线性模型下,我们定义了约束最小妒散度估计 ( r m 曲d e ) ,研究了这个估计的性质和基于这个估计的拟合优度检验和模型诊断问题。 在一定的条件下,得到了约束最小咖散度估计的渐近展开和渐近正态性;用这个估计和 参散度测度来构造统计量做拟合优度检验,以检验数据是否来自一个乘积多项抽样下的 约束对数线性模型,得到了拟合优度检验的功效函数的渐近逼近;考虑了局部对立假设 检验问题,得到了在局部对立假设下,检验统计量有渐近非中心爿2 分布;另外,还利用 约束最小咖散度估计做了模型诊断研究。 最后,我们用一散度测度和最小步散度估计构造统计量对对数线性模型的非可加性 检验和模型选择问题进行研究。考虑到用对数线性模型对实际数据进行建模可能不充 分,我们构造了三类统计量对乘积多项抽样下对数线性模型的非可加性( n o n a d d i v i t y ) 进行检验,这三类统计量都有渐近的z 2 分布;利用咖散度测度和最小咖散度估计构造 了一个对数线性模型的模型选择准则,证明了这个模型选择准则是强相合的,还得到了 这个模型选择准则的错判概率有指数型上界。 中文摘要 关键词:对数线性模型约束对数线性模型乘积多项抽样步散度测度最小步散度估计 ( m 矽e ) 约束最小矽一散度估计( r m 矽d e ) 嵌套假设近邻假设变量选择模型选择错判 概率 i i 英文摘要 a b s tr a c t w h e nt h ed a t au n d e rc o n s i d e r e da r en o m i n a lo re v e no r d i n a l ,c a t e g o r i c a ld a t aa n a l y s i s i sa ne s s e n t i a la n de m c i e n tt 0 0 1t os t u d yt h e m i ti sa s t r o n g p o i n tf o rl 0 9 1 i n e a rm o d e l st h a t i ti sau s e f u lt o o lt oi d e n t i 移t h ea s s o c i a t i o nb e t 、阮e nv a r i o u sv a r i a b l e si nm u l t i d i m e i l s i o n “ c o n t i n g e n c yt a b l e s t h e 步d i v e r g e n e em e a u s u r ew h i c hi su s e dt om e a s u r et h ed i 髓r e n c eb e t w e e nt w dd i s t r i b u t i o n si si n t r o d u c e db yc s i s z 6 r ( 1 9 6 7 ) a n da l ie t 址( 1 9 6 6 ) r e s p e c t i v e l y i nr e c e n t ”a r s ,咖d i v e r g e n c em e a s u r eh a sb e e nu s e dt ov a r i o u s ( r e g r e s s i o n ) m o d e l si n c l u i n g l o g l i n e a rm o d e l su n d e rm u l t i n o m i a ls a m p l i n gb ym a n ys t a t i s t i c sw h od e 矗n e dt h em i n i m u m 咖d i v e r g e n c ee s t i m a t o r ( m e ) a n ds t u d i e di t sp r o p e r t i e s t h em i n i m u m 步d i v e r g e n c ee s t i m a t o ri sag e n e r a l i z a t i o no f 七h em l ea n dh a ss o m ek i n do fr o b u s t n e s s f b rt h es t r o n g p o i n t o f1 0 9 1 i n e a rm o d e l sa n dt h er o b u s t n e s so ft h em i n i m u m 咖d i v e r g e n c ee s t i m a t o r ,、ef o r e c a s t t h a tt h es t u d yi nt h i s e l dw d u l dl a s to u tf o rap e r i o do ft i m e f b rt h i sp o i n t ,、】l ,es h a u a p p l yt h e 咖d i v e r g e n c em e a s u r et op r o d u c t m u l t i n o m i a ll 0 9 1 i n e a rm o d e l sa n dc o u l dd i v i d e o u rw o r ki n t ot h r e em a i np a r t s f i r s t l y ,、d e 丘n et h em i n i m u m 仁d i v e r g e n c ee s t i m a t o ru n d e rl 0 9 1 i n e a rm o d e l sw i t h p r o d u c t m u l t i n o m i a ls a m p l i n g ,a n ds t u d yi t sp r o p e r t i e sa n ds e v e r a lk i n d so fh y p o t h e s i st e s t p r o b l e m si n c l u d i n gt h eg o o d n e s s o f f i tt e s t ,t h en e s t e dh y p o t h e s i st e s ta n dt h ec o n t i g u o u s h y p o t h e s i st e s t u n d e rc e r t a i nc o n d i t i o n s ,w ep r e s e n tt h ea s y m p t o t i ce x p a n s i o na n dn o r m 4 i t yo ft h em i n i m u m 咖d i v e r g e n c ee s t i m a t o r ;b a s e do nt h em ea n d 咖d i v e r g e n c em e a s u r e , v a r i o u ss t a t i s t i c sa r ec o n s t r u c t e da n du s e dt ot e s tw h e t h e rt h ed a t aa r es a m p l e d 仔o ml o 分 l i n e a rm o d e l sw i t hp r o d u c t m u l t i n o m i a l ls a m p l i n ga n dt od e c i d ew h i c hh y p o t h e s i si st r u e i n 七h en e s t e dh y p o t h e s e s a na p p r o x i m a t i o nt ot h ep o w e rf h n c t i o no ft h eg o o d n e s o f - f i t t e s ti sg i v e na n dt h e s et e s 七sa r ec o n s i s t e n t u n d e ras e q u e n c eo fc o n t i g u o u sb y p o t h e s e s ,t h e a s y m p t o t i cd i s t r i b u t i o no ft h es t a t i s t i c si s 疋2w i t hs o m en o n c e n t r a l i t yp a r a m e t e r s e c o n d l y lw ea l s od e 6 n e dt h er e s t r i c t e dm i n i m u m 痧一d i v e r g e n c ee s t i m a t o r ( r m 驴d e ) u n d e rl o g l i n e a rm o d e l sw i t hp r o d u c t m u l t i n o m i a ls a m p l i n g ,a n ds t u d yi t sp r o p e r t i e sa n d s o m ek i n d so fh y p o t h e s i sp r o b l e i n sa l o n gw i t hm o d e ld i a g n o s t i cs t u d y u n d e rs o m ec o n - d i t i o n s ,t h ea s y m p t o t i ce x p a n s i o na n dn o r m a l i t yo ft h er e s t r i c t e dm i n i m u m 一d i v e r g e n c e e s t i m a t o ri sp r e s e n t e d ;b a s e do nt h em ea n d 护d i v e r g e n c em e a s u r e ,v a r i o u ss t a t i s t i c sa r e c o n s t r u e t e da n du s e dt ot e s tw h e t h e rt h ed a t aa r es a m p l e df r o ml o g l i n e a rm o d e l sw i t hc o n - s t r a i n t su n d e rp r o d u c t m u l t i n o m i a l i no r d e rt oe v a l u a t et h ep o w e ro ft h eg o o d n e s s o f - f i t t e s ta na p p r o x i m a t i o nt ot h ep o w e rf h n c t i o ni sg i v e na n di nc o n c l u s i o nt h eg o o d n e s s o f 舭 t e s ti sc o n s i s t e n t u n d e ras e q u e n c eo fc o n t i g u o u sh ) r p o t h e s e s ,t h ea s y m p t o t i cd i s t r i b u t i o n o ft h es t a t i s t i c si sz 2w i t hs o m en o n c e n t r a l i t yp a r 锄e t e r f 恤t h e rm o r e ,w eu s er e s t r i c t e d m i n i m u m 咖d i v e r g e n c ee s t i m a t o rt od od i a g n o s t i cs t u d y f i n a l l y ,w eu s et h em i n i m u m 步d i v e r g e n c ee s t i m a t o ra n d 咖d i v e r g e n c em e a s u r et os t u d y t h en o n a d d i t i v i t ya n dm o d e ls e l e c t i o no fl o g l i n e a rm o d e l s c o n s i d e r i n gt h a tl o g l j n e a rm o d e l s w i t hp r o d u c t m u l t i n o m i a ls a m p l i n gm a yn o tb ea d e q h a t ef o ro u rd l t au n d e rc o n s i d e r e d ,w e c o n s t r u c tt h r e ek i n d so fs t a t i s t i c sb a s e do nt h e 伊d i v e r g e n c em e a s u r ea n dm i n i m u m 咖 d i v e r g e n c ee s t i m a t o ra n du s et h e mt ot e s tt h en o n a d d i t i v i t yo f1 0 9 l i n e a rm o d e l s b a s e do n t h e 咖d i v e r g e n e em e a s u r ea n dm i n i m u m 步d i v e r g e n c ee s t i m a t o r ,am o d e ls e l e c t i o np r o c e d u r e i sp u t t e df o r w a r da n dp r o v e nt ob es t r o n gc o n s i s 七e n t m o r e o v e r ,t h em i s s i n gd e t e c t i o n p r o b a b i l i t yo f t h i sm o d e ls e l e c t i o np r o c e d u r eh a sa 工1u p p e r b o u n di na ne x p o n e n t i a l v e r s i o n k e y 、o r d s :l o g l i n e a rm o d e l ,l o 百i n e a rm o d e lw i t hc o i l s t r a i n t s ,p r o d u c t m u l t i n o m i a ls 锄一 p l i n g ,莎一d i v e r g e n c em e a s u r e ,m i n i m u m 步d i v e r g e n c ee s t i m a t o r ( m 矽e ) ,r e s t r i c t e dm i n i m u m 步d i v e r g e n c ee s t i m a t o r ( r m d e ) ,n e 8 t e dh y p o t h e s e s ,c o n t i g u o u sh y p o t h e s e s ,v 打i a b l es e 一 1 e c t i o n ,m o d e ls e l e c t i o n ,m i s s i n gd e t e c t i o np r o b a b i l i t y 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 多侈 作者签名: 口7 年 l 第一章绪论 第一章绪论 属性数据分析是分析有序和无序数据的重要工具。在属性数据分析中,用列 联表对数据进行建模是一个基本的、直接的方法,譬如,医学研究人员按年龄和 性别对病例进行分类建立频数表;教育工作者按年龄、性别和种族背景对辍学学 生进行分类建立频数表;经济研究者按照行业、地区和初始投资对商业成败进行 分类建立频数表和市场研究者按年龄、性别和对商品的消费倾向对消费者进行分 类建立频数表等等。上世纪六十年代后期,p e a r s o n s 疋2 统计量被用来检验二维列 联表的独立性假设;当变量多于两个时,多维列连联表被分解成多个子二维列联 表,p e a r s o nz 2 统计量被用来检验这些子二维列联表的独立性假设,进而判断这些 变量之间的关联性。七十年代,g o o d m a n ( 1 9 7 0 ,1 9 7 1 a ,1 9 7 1 b ,1 9 7 3 ,1 9 7 4 ) 在他发表的 一系列文章中,将对数线性模型应用于列联表数据,这是属性数据分析领域的重 大进步。应用对数线性模型,可以分析属性( 分组) 数据中变量之间的关联性, 各水平的主效应和交叉效应,另外可以对对数线性模型做模型选择研究( 比较饱 和模型与非饱和模型之间的优劣来选出很保守的但可以很好的拟合列联表数据的 模型) 。而后,b i s h o p ,f i n b e r g h o l l a n d ( 1 9 7 5 ) 和h a b e r i i l a n ( 1 9 7 5 ) 在他们的著作 中介绍了g o o d m a n 在这方面的工作。尽管已经有很多的模型可以用来拟合列联表 数据,但能严格描述变量之间关联性的还是对数线性模型。 咖散度测度( 步d i v e r g e n c em e a s u r e ) 是c s i s z 6 r ( 1 9 6 7 ) 和a l i s i l v e y ( 1 9 6 6 ) 引进 的一种刻画概率分布之间差别的度量。设p = 1 ,p 后) t 和q = ( 口1 i 鲰) 丁是两 个概率向量。定义p 和q 之间的步散度如下: 忌 d 妒( 只q ) = 吼( 票) ,西木, ( 1 1 ) t = l 孙 其中圣宰是凸函数: o ,+ o o ) _ ru ) 组成的集合,矽满足( 1 ) = o 和( 1 ) o 。当仇= 吼= o 时,定义o ( o o ) = 0 ;当砘 o ,吼= o 时,定义o 慨o ) 三 l i m 一( u ) u 。当扩在z = 1 处可导时,定义 妒( z ) 兰( z ) 二- ( 1 ) ( z 一1 ) 第一章绪论 可以证明妒垂牛。另外,很容易验证d 毋( p q ) = 巩( 只q ) 和砂( 1 ) = o 。因为和 砂定义的散度是相同的,考虑等价于量+ 的一个集合 圣三圣n 妒:( 1 ) = o 只需要研究雪时的咖散度的理论性质;而在实际应用中,可将这些理论结果 应用于咖西事时的咖散度。 咖散度中一个重要的类是功效( p o w e r ) 散度族j a ( 只q ) 兰功( 。) ( 只q ) ( c r e s s i e r e a d ( 1 9 8 4 ) ) ,其中 晰( z ) 2 丽( z 抖1 一z ) ,当入o ,一1 柏( z ) 。溉抵( z ) = 山g z 一卅1 ,( 1 2 ) 矽( 一1 ) ( z ) 2a 粤竺1 妒( a ) ( z ) = 一l o gz + z 一1 ( a ) ( z ) 和妒( a ) ( z ) 兰咖( a ) ( z ) 一( z 一1 ) ( 入+ 1 ) 定义的散度是相同的,也就是d 蛔( p q ) = d 灿,( p ,q ) 。功效散度族包含了很多的常用散度,譬如,o ( p ,q ) 就是著名的 k u l i b a c k - l e i b l e r 散度。 本章分成两大部分,第一部分将介绍近年来咖散度应用于对数线性模型的历史 背景和一些结果。第二部分将介绍我们在这个领域所做的工作,主要包含三个方 面:乘积多项抽样下对数线性模型的最小咖散度估计的渐近性质和相关的假设检 验问题;乘积多项抽样下约束对数线性模型的约束最小咖散度估计的渐近性质和 相关的假设检验问题;对数线性模型的非可加性检验和模型选择( 基于咖散度方 法) 。 1 1咖散度应用于对数线性模型的历史背景 咖散度已经被广泛应用于对数线性模型,主要有以下三方面的内容: ( 1 ) 多项抽样下对数线性模型的最小步散度估计的渐近性质以及假设检验问题的研 究; ( 2 ) 多项总体下的约束最小咖散度估计的渐近性质以及假设检验问题的研究; ( 3 ) 对数线性模型的非可加性检验和模型选择。 2 第一章绪论 1 1 1 多项抽样下对数线性模型的矽散度方法 在介绍多项抽样下对数线性模型最小参散度估计的研究历史之前,先给出一些 假设条件: ( a 1 ) m 且( z ) 在z o 上是二阶连续可导的。 ( a 2 ) 真参数目。是参数空间e 的内点。 设扎= ( 竹l ,辄) t 服从多项分布m ( ,( 口) ) ,即 n m ( ,n ( 口) ) ,( 1 3 ) 这里是大于零的整数,( 伊) = 何1 ( 伊) ,7 r 2 ( 口) ,巩( 日) ) ? 是概率向量函数,参数 p e 序,其中亡 尼一1 。对不同的模型,参数空间e 是不同的。记壶= n 。 c r e s s i e a d ( 1 9 8 4 ) 为了研究多项总体( 1 3 ) 的拟合优度检验引进了功效散度 族,a ( p ,q ) ( 参看( 1 2 ) ) 和定义了最小,a 一散度估计 驴= 鹕卿,a ( n ,( 伊) ) , 。p e 、7、“ 得到了在一定的正则条件下最小,a 一散度估计务是最好渐近正态的( b a n ) 。最 小j a 散度估计包含很多常见的估计,譬如,伊是m l e ,伊是最小刀2 估计( t h e m i n i i i m mc h i - s q u a r e de s t i m a t o r ) ,矿2 是最小修正疋2 估计( t h em i n i m u mm o d i f i e d c h i s q u a u r e de s t i m a t o r ) ,萨1 是最小修正m l e 估计( t h em o d i f i e dm l e 0 rm i n i m u m d i s c r i m i n a t i o ni n f o r m a t i o ne s t i m a t o r ) ,矿1 2 是最小h e l l i n g e r 距离估计( t h em i n i m u m h e l l i n g e rd i s t a n c e ( 0 rm a t u s i t ad i s t a n c e ) e s t i m a t o r ,1 9 5 4 ) ,萨3 是最小c r e s s 珏r e a d 距离估计( t h em i n i h l u mc r e s s 涪r e a dd i s t a n c ee s t i m a t o r ) 。 m o r 甜e s ,p a r d o v a j d a ( 1 9 9 5 ) 定义了多项总体( 1 3 ) 的最小咖散度估计 = a r g 黯d ( ,( 毋) ) , 得到了最小咖散度估计有何的渐近相合性和有效性。 最小j a 一散度估计分是m l e 伊的推广,引进它的动力是它有某种稳健性;最 小咖散度估计瓦是最小j a 散度估计的推广。b e r a n ( 1 9 7 7 ) 第一次用h e l l i n g e r 距离 ( 对应a = 一1 2 的功效散度) 研究了连续模型下的参数估计,得到了比m l e 稳 健的估计。l i n d s a y ( 1 9 9 4 ) 研究了多项总体下的最小h e l l i n g e r 距离估计的稳健性和 3 第一章绪论 有效性,他用残差矫正函数( t h er e s i d u a la d j u s t m e n tf u n c t i o n ) 来刻画这个估计的稳 健性和有效性之间的平衡。b a s u l i n d s a y ( 1 9 9 4 ) 研究了连续模型下最小步散度估 计的有效性、分布和稳健性,他们也用了残差矫正函数来刻画最小乒散度估计的 稳健性和有效性之间的平衡。j i m 6 n e z s h a o ( 2 0 0 1 ) 研究了多项总体下的最小步散 度估计的有效性和稳健性,得到了在二阶有效性和稳健性下,最小h e l l i n g e r 距离 估计的表现是最好的。 迸一步,假设多项总体礼服从对数线性模型 础) = 端,当j :1 _ , ( 1 - 4 ) 其中是亡1 阶的列向量,w = l , 七) 丁是一个忌亡阶列满秩的矩阵,即 r a i l l 【( ) = ( 七一1 ) ,p e = 芹,形的列向量组和后1 阶的列向量( 1 。,1 ) t 是线性无关的。 c r e s s i e p a r d 0 ( 2 0 0 0 ) 研究了在模型( 1 4 ) 下的最小步散度估计瓦和几类假设 检验问题。他们得到了: 定理如果条件( a 1 ) 和( a 2 ) 成立,则在模型( 1 4 ) 下的最小咖散度估计有 下面的渐近展开和正态性: 瓦= p o + ( t o w ) 一1 w t o d i a g ( ( 舶) ) 一1 ( 疗一( ) ) + d ( 怖一( ) 1 1 ) a s 何( 瓦岫) 三( 。,( w t 。w ) 。1 ) , 俪( ( 瓦) 一( ) ) 三( o ,。w ( w t 。) w t 。) ,、 、7 , 其中o = d i a g ( ( 6 o ) ) 一( p o ) ( 秽o ) 丁。 而后,他们用这个估计瓦研究嵌套( n e s t e d ) 假设检验问题。设一列嵌套假设 凰:p e f ,z = 1 ,m ,m 亡 忌一1 , 其中e mce m 一1c ce 1 = 群,t 七一1 ,d i m ( e f ) = d j ,d m i d m l o , 其中d = ( d 1 ,丸) t ,冬l 函= o 。0 是充分大的整数,以保证概率向量的所有分 量是大于零的。c r e s s i e ,p a r d o & p a r d o ( 2 0 0 3 ) 也得到了: 定理如果条件( a 1 ) 和( a 2 ) 成立,则在局部对立假设凰+ l ,j 下磁加有非中 心的渐近z 2 分布。 当1 = ( o ) 和晚= ( o ) ( 参看( 1 2 ) ) 时,磁也是对数似然比检验统计量;当 毋1 = ( 1 ) 和矽2 = 多( o ) 时,磁如是p e a r s o n 统计量( 参看a g r e s t i ( 1 9 9 6 ) 第六章和 c h r i s t e n s e n ( 1 9 9 7 ) 3 3 8 页) 。通过模拟比较嵌套检验的渐近水平和功效后,c r e s s i e , p a r d 。p 龃d o ( 2 0 0 3 ) 得到c r e s s i 争a d 型检验统计量( 磺,毋。) ) 有比对数似然比 检验统计量和p e a r s o n 统计量更好的表现。a d c r e s s i e ( 1 9 8 8 ) 也得到类似的结 论。 更多的介绍可以参看:c h r i s t e n s e n ( 1 9 9 7 ) ,c r e s s i e & p a r d o ( 2 0 0 2 ) ,p a r d 0 p a r d o ( 2 0 0 1 ) ,p a r d o ,p a r d o p a r d o ( 2 0 0 5 ,2 0 0 6 ) 和p a r d o ( 2 0 0 6 ) 等参考文献。 1 1 2 约束多项总体的咖散度方法 在很多的情形下,多项总体( 1 3 ) 的参数6 受到某种限制,譬如,必须满足下 5 第一章绪论 面秒( 2 , 古) 个方程: 竹( 6 ) = 0 ,仇= l ,u p 龇d o ,p a r d o & z o g r a f o s ( 2 0 0 2 ) 研究了多项总体( 1 3 ) 满足上面u 个约束方程时的约 束最小咖散度估计 露= 缸g 卿洲黜m = 1 , 功( f i ,( 口) ) 当函数咖= ( 入) ( 参见( 1 2 ) ) 时,记约束最小多( 入) 一散度估计为弘) ,入。值得注意的 是承r ) ,o 是约束m l e 。 他们假设了这u 个约束方程满足下面两个条件: ( a 3 ) 函数,仇( 口) 有连续的二阶偏导数。 ( a 4 ) 这个函数的口右阶j a c o b i a n 矩阵 础,= ( 筹) 一,州乩 t 是行满秩的,即,r a n k ( b ( p ) ) = 锄。另外,他们假设概率向量函数( 伊) 满足下列正 则性条件( b i r t h1 9 6 4 ) : ( b 1 ) 函数p _ ( p ) 是可逆的且逆函数在真值铂处是连续的。 ( b 2 ) 函数( 伊) 在真值p o 的某个邻域内有连续的可导函数,也就是说,( 6 ) 在真 值伊。处附近可以渐近一阶展开。 ( b 3 ) f i s h e r 信息阵,( 印) = a ( ) t a ( ) 是正定的,这里的a ( ) 定义如下: 舶川i 螂圹( 警) 谢,旃庐k ,l p a r d o ,p a r d o z o g r a f o s ( 2 0 0 2 ) 得至 j 了: 定理如果条件( a 1 ) 一( a 4 ) 和( b 1 ) 一( b 3 ) 成立,则多项总体( 1 3 ) 的约束最小步散 度估计磅有下面的渐近展开和正态性: 6 露= 舶+ 日( 舶) ,( ) 一1 a ( ) 一1 d i a g ( ( 铴) ) 一1 7 2 ( 疗一n ( ) ) + 。( 矗一( ) ) ,a s 、丙( 磅一如) 三( o ,日( 如) ,( ) 一1 日( 蚀) t ) , 何( n ( 露) 一( ) ) 三( o ,d i a g ( ( ) ) 一1 2 a ( 6 1 d ) 日( ) 砌o ) 一1 a ( p o ) 一1 日( p o ) t a ( 6 o ) t d i a g ( ( p o ) ) 一1 2 ) , 第一章绪论 其中( 钆) = j 一,( 臼o ) 一1 b ( ) t ( b ( p o ) ,( ) 一1 b ( ) t ) 一,这里的,表示鬼阶单位阵。 为检验数据是否来自一个约束的多项总体,考虑下面的假设检验问题: = ( 口) ,口e 簟 v s p ( p ) ,p e + ) , 其中p = p = p 1 ,p 后) t :o 胁 0 , 7 第一章绪论 其中d = ( d 1 ,如) t ,冬1 西= o 。0 是充分大的整数,以保证概率向量的所有分 量是大于零的。p 盯d 0 ,p a r d o z o g r a f o s ( 2 0 0 2 ) 得到了: 定理如果条件( a 1 ) 一( a 4 ) 和( b 1 ) 一( b 3 ) 成立,则在约束多项总体( 1 3 ) 和局部 对立假设鼬下,巧,毋。有渐近的自由度为后一1 一亡+ 口的非中心的x 2 分布。 另外,p a r d o m e n 6 n d e z ( 2 0 0 6 ) 和m a r 血p a r d 0 ( 2 0 0 8 ) 考虑了多项抽样下有线 性约束的对数线性模型的约束最小咖散度估计。通过模拟,m a r t 缸p a r d o ( 2 0 0 8 ) 得到了最小x 2 估计( 承r ) ,1 ) 和最小c r e s s i 争髓a d 估计( 承r ) ,2 3 ) 有和m l e ( 如) ,o ) 一样甚至更好的表现。 最早研究这类带限制的估计问题的是a i t c h i s o n s i l v e y ( 1 9 5 8 ) ;在模型的分布 函数依赖芒个参数占l ,巩且它们满足口个泛函( 这舌个参数是互相依赖的) 的情况下,他们研究了带限制的m l e 。利用l a g r a n g e 乘数法,得到了受限制 的m l e 。s i l v e y ( 1 9 5 9 ) 进一步讨论了l a g r a n g e 乘数法和受限制的m l e 存在的条 件。h a b e r b r o w n ( 1 9 8 6 ) 考虑了在期望频数受到线性限制的对数线性模型中期望 频数的约束m l e 的一个两步( t w o - s t e p ) 算法。想要详细了解这方面的问题,可以 参看b h 印k a r ( 1 9 7 9 ) ,b o n e t t ( 1 9 8 9 ) ,g o k h a l e ( 1 9 7 3 ) ,h a b e r ( 1 9 8 5 ) ,h a b e r m a n ( 1 9 7 4 ) 和w 色d d e r b u r n ( 1 9 7 4 ) 等。 1 1 3对数线性模型的非可加性检验和模型选择 i 先考虑非可加性检验。 这一小节考虑的是乘积多项抽样下的对数线性模型。设有独立的r ( 大于。的整 数) 个样本,第i 个样本1 ,) t 服从多项分布m ( m ,t ( p ) ) ,这里m 是大 于零的整数,i ( 口) = ( 仉1 ( p ) ,仉( 9 ) ) r 是概率向量函数,参数目e ,e 是参数 空间。不同的模型下,参数空间e 是不同的。 令后= ;l ,= 釜1 ,p ( 口) t = ( 静n l ( 护) t ,静r ( 口) t ) ,户t = ( n l l , n l 七。;n r l ,n r k ) 和t ( p ) = ( ( p ) ,( p ) ) 。考虑乘积多项抽样下的对数 线性模型 哟( p ? = 揣,当t = 1 ,n 歹= 1 , ( 1 5 ) 第一章绪论 这里叫订是亡1 阶的列向量,= ( 叫1 l ,伽1 七。;嘶1 ,叫r b ) 1 是一个七t 阶 列满秩的矩阵,即r a n k ( w ) = 亡( 尼一7 ) ,p e = 形,w 的列向量组和列向量组 以,脚是线性无关的。耽定义如下 圪= ( o 五,o 五一,堙,o 乏+ ,o 乏) t ,当主= 1 ,7 , 其中五= ( 1 ,1 ) t ,0 f = ( o ,0 ) t 都是f 1 向量。 对数线性模型( 1 5 ) 有另一种形式 1 0 9 ( p ( 7 7 ) ) = x 7 7 ,( 1 6 ) 其中x 丁= ( z 1 1 ,z 1 七。;研l ,z r k ) 是忌( 件7 ) 阶列满秩的矩阵,即r a i l k ( x ) = 亡+ 7 t a + 7 。函数z ( ) 形式是已知的但是是非线性 性的,这时模型( 1 8 ) 包含非线性项。检验对数线性模型的可加性就要检验下面的 假设检验问题 凰:7 = ov s 日1 :7 0 ( 1 9 ) 因为模型( 1 8 ) 是对数非线性性的,没有一个好的方法来拟合这个模型并得到 这个模型的参数估计。幸运的是,我们可以采用c h r i s t e n s e n u t t s ( 1 9 9 2 ) 提出的两 步拟合法( t w 伽s t a g e 矗t t i n gp r o c e d u r e ) 来拟合模型( 1 。8 ) 。两步拟合法的步骤如下: 第一步:用某个估计弘去估计模型( 1 7 ) 中的参数萨。将估计驴代入模型( 1 8 ) 中,得到模型 尸矿p y ) = e x p ( 托p a + z ( p a ( 萨) ) 一y ) ( 1 1 0 ) 第二步:考虑下面的检验问题 u l l :模型( 1 7 ) v s l t :模型( 1 1 0 ) ( 1 1 1 ) 这就是说,用检验( 1 1 1 ) 替换检验( 1 9 ) 。 为检验( 1 1 1 ) ,c h r i s t e n s e n u t t s ( 1 9 9 2 ) 提出了对数似然比检验统计量;另 外,p a r d 0 p a r d o ( 2 0 0 5 ) 用分散度和m l e 构造了三类统计量用来检验( 1 1 1 ) ,这 三类统计量是对数似然比检验统计量的推广。这三类统计量是 = 茄蹦以吮取鳓, 磊= 茄蹦川矿眺轳) ) , 、 ( 1 - 1 2 ) 二;告( 功( 户,p a ( 轳) ) 一功( 声,尸y ( 矿) ) ) , 其中弘,矿分别是在假设检验( 1 ,1 1 ) 的原假设和对立假设下的m l e 。当= 矽( 1 ) ( 参看( 1 2 ) ) 时,磊是对数似然比检验统计量;当= ( 1 ) 时,元是p e a r s 衄 统计量。他们得到: 定理如果条件( a 1 ) 一( a 2 ) 成立,则在假设检验( 1 1 1 ) 的原假设下,& 都 有渐近的自由度为y 一如的x 2 分布。 第一章绪论 最先考虑模型的可加性检验的是n k e y ( 1 9 4 9 ) ,他研究了线性模型中非线性项的 可加性检验。而后,h a r t e r l u m ( 1 9 6 2 ) ,m a l l d e l ( 1 9 5 9 ,1 9 6 1 ) 和n k e y ( 1 9 5 5 ,1 9 6 2 ) 又 将这个思想推广到其它的模型,这些模型有不同的设计和交叉关联函数。m i l l i k e n g r a y b i l l ( 1 9 7 0 ) 将这一方法推广到了广义线性模型。更多介绍可以看参,j o h n s o n g r a y b i l l ( 1 9 7 2 ) ,s n e e ( 1 9 8 2 ) ,p e t t i t t ( 1 9 8 9 ) 和c h r i s t e n s e n u t t s ( 1 9 9 2 ) 等参考文 献。 i i 接下来考虑模型选择问题。 设有独立的7 ( 大于。的整数) 个样本,第蕾个样本( 嘞1 ,仃i h ) t 服从多 项分布m ( m ,i ) ,嘞是大于零的整数, = ( 亿1 ,孤) t 是概率向量。记七= 距1 ,= 1 耽和r = ( ,歹) 。令p = 1 0 9 ( ) 。在对数线性模型中,假设 弘m ,其中m 是舻中一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论