(概率论与数理统计专业论文)关于线性ev模型的研究.pdf_第1页
(概率论与数理统计专业论文)关于线性ev模型的研究.pdf_第2页
(概率论与数理统计专业论文)关于线性ev模型的研究.pdf_第3页
(概率论与数理统计专业论文)关于线性ev模型的研究.pdf_第4页
(概率论与数理统计专业论文)关于线性ev模型的研究.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(概率论与数理统计专业论文)关于线性ev模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文主要研究线性e v ( e r r o m - i n v a r i a b l e s ) 模型,即考虑自变量带有测量误差 的回归模型由于在实际应用中,数据的获得总是带有误差的,因此e v 模型是 更符合实际情况的模型但是由于在统计推断和分析上的复杂性,它的理论研究 是比较困难的 本文主要结果包括如下三个方面的工作 1 比较彻底的解决了简单线性e v 模型中回归参数的无犏估计的存在性问 题,证明了在些常见的约柬下无俯估计并不存在将可詹事( r e l i a b i l i t yr a t i o ) 已知”这一条件加以推广,指出了一种使无偏估计存在的重要情况,确定了其存 在的充要条件以及无偏估计的形式 2 探讨了最小二乘估计在线性e v 模型中的大样本性质,即相台性与渐近正 态性得出最小二乘估计的强、弱相合性的充要条件是相同的,从而证明了强、 弱相合性是等价的但是不再与矩相舍等价给出了两种满足矩相合的情况,并 通过反例证明了弱相合与矩相合不等价,即使误差存在任意阶矩也不能保证矩相 合性 3 研究了一类仅允许自变量可进行重复观测的线性e v 模型,给出了参数的 估计,通过推广j a m i s a n 的定理证明了估计量的相合性和渐近正态性 关键诲线性e v 模型,无偏性,相台性,新近正态性,重复蔑测 a b s t r a c t t h ec o n t e n to ft h i st h e s i si sl i n e a re v ( e r r o r s - i n - v a r i a b l e s ) r e g r e s s i o nm o d e l s ,t h a t i sr e g r e s s i o nm o d e l sw i t hm e a s u r e m e n te r r o r b e c a u s ed a t aa r eo f t e no b t a i n e dw i t h m e a s u r e m e n te r r o ri nf a c t e vm o d e li sm o r ef i ti na p p l i c a t i o nt h a nt h eo r d i n a r y r e g r e s s i o nm o d e l w h i l ei t i sm o r ec o m p l i c a t ei ns t a t i s t i c a li n f e r e n c ea n da n a l y s i s r e s e a r c ha b o u tt h e o r yi sv e r yd i f f i c u l t y t h em a i nr e s u l t so ft h i st h e s i sa r et h ef o l l o w i n gt h r e ep a r t s 1 p r o b l e ma b o u tt h ee x i s t e n c eo ft h eu n b i a s e de s t i m a t o ro fr e g r e s s i o np a r a m e t e r s i nt h es i m p l el i n e a re vm o d e li st h o r o u g h l ys o l v e d t h en o n - e x i s t e n to fu n b i a s e d e s t i m a t o ru n d e rs o m ec o m m o nr e s t r i c t i o n sa r ep r o v e d t h ec o n d i t i o nt h a t r e h a b i l i t y r a t i oi sk n o w n ”i sg e n e r a l i z e dt oa ni m p o r t a n tc a s eu n d e rw h i c hu n b i a s e de s t i m a t o r e x i s t s ? t h es , :f f i c i e n ta n dn e c e s s a r yc o n d i t i o nf o ri t se x i s t e n c ed a dt h ef o r m a t i o no f u n b i a s e de s t i m a t o ra r ea l s op u tf o r w a r d 2 t h el a r g es a m p l ep r o p e r t i e so fl se s t i m a t o ri nt h el i n e a re vm o d e la r ed i s - c u s s e d t h es u f f i c i e n ta n dn e c e s s a r yc o n d i t i o nf o rt h es t r o n ga n dw e a kc o n s i s t e n c ya r e p r o v e dt ob et h es a m e ,h e n c et h es t r o n ga n dw e a kc o n s i s t e n c yf o rl se s t i m a t o ra r e e q u i v a l e n tj u s ta st h eo r d i n a r yl i n e a rr e g r e s s i o nm o d e l t w oc o n d i t i o n su n d e rw h i c h q u a d r a t i c - m e a nc o n s i s t e n c yh o l d sa r eg i v e n ac o u n t e re x a m p l es h o w st h a tw e a kc o n - s i s t e n c ya n dq u a d r a t i c - m e a nc o n s i s t e n c ya r en o n - e q u i v a l e n ta n dt h a tt h ee x i s t e n c eo f a r b i t r a r yo r d e rm o m e h t sc a n n o tg u a r a n t e et h eq u a d r a t i c - m e a nc o n s i s t e n c y 3 t h el i n e a re vm o d e lw i t hr e p l i c a t e do b s e r v a t i o n so n l yo ne x p l a n a t o r yv a r i a b l e s i ss t u d i e d e s t i m a t o r so fp a r a m e t e r sa r eg i v e n t h ec o n s i s t e n c ya n da s y m p t o t i cn o r - m a l i t yo ft h eg i v e ne s t i m a t o r sa r ep r o v e dw i t ht h eh e l po fe x t e n s i o no fj a m i s o n t h e o r e m k e y w o r d s :l i n e a re vm o d e l u n b i a s e dp r o p e r t y , c o n s i s t e n c y , a s y m p t o t i cn o r m a l i t y , r e p l i c a t e do b s e r v a t i o n s 1 1 1 第一章前言 1 1e v 模型简介及研究现状 e v ( e r r o r s - i n v a r i a b l e s ) 模型也称为测量误差( m e a s u r e m e n te r r o r ) 模型,是指 在模型中自变量也有测量误差的回归模型它的一般形式为 y = f ( x ,p ) ,y = y + e ,x = z + t ( 1 1 1 ) 其中自变量和因变量的真实值分别为z ,可,它们是不可直接观测的x 和y 为 其观测值,u 和e 为相应的测量误差e v 模型的研究目的就是通过可观测的数 据x 和y 有效的进行统计分析和推断由于自变量测量误差的引入,导致了参 数估计的偏差在一定意义上而言,e v 模型的研究,就是为了修正这种偏差以 及研究它昕带来的影响 e v 模型中,自变量和因变量通过函数,联系起来一般来说,若,形式已 知,只是含有未知参数,可以把e v 模型分为线性e v 模型、多项式e v 模型、 部分线性e v 模型和一般非线性e v 模型若,形式也未知,般有半参数e v 模型以及非参数e v 模型等。根据自变量z 的真实值是否为随机的,可以把e v 模型分为结构模型( s t r u c t u r a lm o d e l ) 和函数模型( f u n c t i o n a lm o d e l ) 两种 在实际问题中,数据的获得通常都是带有误差的,比如医学中的变量:血压i 脉搏、体温以及农业生产中的降水量、土壤中氮成分含量、农作物产量等因此 e v 模型更符合实际情况,但是由于在统计推断和分析上的复杂性,人们往往宁 愿牺牲准确度而使用通常的回归模型来处理数据 1 1 1 线性e v 模型 对e v 模型的研究已经有了很长一段时间的历史,最早的工作见于a d c o c k ( 1 8 7 7 , 1 8 7 8 ) 关于简单线性e v 模型的研究k u m m e l ( 1 8 7 9 ) 将a d c o c k 的结果扩展到误 差方差已知的情形p e a x s o n ( 1 9 0 1 ) 将a d c o c k 的工作扩展到多维情形这几项工 作都是通过最小化观测值与回归直线间的距离来拟合数据的延续到上世纪八十 年代,对e v 模型的研究还主要局限在线性情形,这方面的成果大体上都已经总 结在f u l l e r ( 1 9 8 7 ) 的专著中但该书也只是对一元线性回归的情形有比较系统的 结果,推广到多元线性回归模型即需要附加上一些比较苛刻的条件近些年来关 于线性e v 模型的结果可以参看m i c h a e l ( 1 9 9 6 ) 、m a r c e le ta 1 ( 1 9 9 7 ) 、s r i v a s t a v a s h a l a b h ( 1 9 9 7 ) 、h e & l i a n g ( 2 0 0 0 ) 、j o e r g & s i l v e l y n ( 2 0 0 4 ) 以及o r i ( 2 0 0 5 ) 等 3 4 刘继学:关于线性e v 模型的研究 简单线性e v 模型可以描述为 y = n + 触- - e ,x = z + t 上( 1 1 2 ) 而我们有样本( 墨,k ) ,i = 1 ,n 将第二式代入第一式中可得 y = 乜+ p x - be 一卢u 三a + 卢x + 虽然从形式上看,它与通常的回归模型没有差别,但是此时我们有 c o y ( x ,e ) = 一p z 仅当= 0 或者p = 0 这种平凡的情形时,才会有o d t ,( x ,e ) = 0 ,从而与通常 的回归模型一致在后面的章节中,我们将看到由于这种差异而引起的最小二乘 估计性质上的变化对于模型( 1 1 2 ) ,d o l b y ( 1 0 7 6 ) 对结构模型又进行了新的划 分当真实值奶是独立同分布时,称其为结构模型,而当以相互独立但不同分 布时称其为超结构模型( u l t r a s t r u c t u r a lm o d e i ) 在e v 模型中存在着关于模型的辨识性的问题( f u l l e r ( 1 9 8 7 ) ) 称分布族 f o ( z ) ) 是可辨识的,如果对于任意的两个参数0 1 0 2 ,都存在某个z ,使得f o ,( z ) 如 假设在模型( 1 1 2 ) 中,z ,e ,u 相互独立,并都服从正态分布: z ( 触,蠢) ,e 一0 ,吒2 ) ,u ( o ,茈) 则模型共有q ,卢,如,程,蠢,畦六个参数一且 一麓) ( 管俨鬈2 蠢) ) 取两组参数值分别为 0 1 = ( q ,p ,比,蠢,吒2 ,砖) = ( 1 ,1 ,1 ,1 ,1 ,1 ) , 0 2 = ( q ,卢,如,蠢,蠢,砖) = ( 1 5 ,0 5 ,1 ,2 ,1 5 ,o ) 则此时都有 x ,” 因此在这种情况下,由样本的分布不能唯一的确定模型的参数,从而模型是不可 辨识的。但对于参数阮而言,由于肚= e x ,所以它是可辨识的 中国科学技术大学博士学位论文 5 由于辨识性问题的存在,为了获得有意义的结果,在研究e v 模型时,通常 都需要附加上一些约束条件,常见的有: ( a ) 误差方差比蠢茈已知; ( b ) 方差比三程吸= 程( 盯;+ 元) 已知; ( c ) 砣已知; ( d ) 蠢已知; ( e ) 元和砣都已知; ( f ) 常数项a 已知,且0 t 条件( a ) 是e v 模型中最常见的一种约束,而且也出现于a d e o e k ( 1 8 7 7 ,1 8 7 8 ) 的工作中条件( b ) 经常出现于社会科学以及心理学等研究领域中,在遗传学中, 它称为遗传力,表示在决定一个性状中遗传所占的比重;工业上称为可信率,刻 画一个量测结果的可信程度。条件( c 是非线性e v 模型中常见的一种约束,- 而 且由于在实际应用中,经常可以对真实值进行重复观测,从而可以对方差矗做 出某种估计,因此条件( c ) 也是实际应用中较为合理的一种约束条件( d ) 的作 用很小,它并不能解决方程误差( e q u a t i o ne r r o r ) 模型以及多个自变量的e v 模型 的辨识性问题,因此它常常是为了理论上的结果而出现使用条件e ) 的模型常 常会得到类似于( a ) 的估计条件( f ) 一般并不能解决自变量是多维的正态e v 模型的辨识性问题其它的一些约束,比如“程已知”等虽然也可以解决模型 的辨识性问题,但是却很少使用,因为z 是个不可确切观测的变量 r e i e r s o l ( 1 9 5 0 ) 证明了在模型( 1 1 2 ) 中,如果假设( u ,e ) 服从联合正态分布, 那么z 服从非正态分布是参数n 和p 可辨识的充要条件而当z 服从正态分布, 并且u 和e 相互独立时,q 和p 可辨识的充要条件是u 和e 的分布都不能被正 态分布所分解( 某个随机变量w 的分布可以被随机变量u 和y 分解,是指相应 的特征函数有c w = 西u 圣y ) r e i e r s o l ( 1 9 5 0 ) 还证明了当u 和e 相互独立时, z 服从非正态分布是q 和p 可辨识的充分条件 对于函数模型,贝9 不存在q 和卢的辨识性问题此时我们有样本( 墨,m ) ,i = 1 ,2 ,n ,只要真实值z l ,z 。不全相等,不妨设z 1 x 2 ,则a 和p 可以完全 由样本分布所决定,即有 p :e y 2 - e y l - ,q :e m p e x 】 p = 一,q 2 e 1 一正) e 五1 关于辨识性的文章,还可以参考b o w d e n ( 1 9 7 3 ) 、d e i s t l e r s e i f e r t ( 1 9 7 8 ) 以 及a i g n e re ta 1 ( 1 9 8 4 ) 等当然,参数可辨识并不意味着它一定存在相合估计,由 6 刘继学:关于线性e v 模型的研究 于这个原因,一些学者( m a l i n v a u d ( 1 9 7 0 ) 等) 从另外的角度定义了辨识性,即将 可辨识等同于存在相合估计 关于e v 模型的研究,在很长一段时间内都未曾考虑模型的选择所带来的误 差,即认为在模型中,因变量和自变量确实是通过函数,联系起来的但是后来 人们发现,在经济分析等领域中,这种误差却是确实存在的j o h n s t o n ( 1 9 7 2 ) 便 陈述了这种现象当因变量和自变量的关系不能确定,而考虑这种误差时,模型 ( 1 1 2 ) 可以描述为 y = q - f 肚- - q + e ,x = z + u ( 1 1 3 ) 其中q 为模型的选择而带来的方程误差,这种模型被称为方程误差e v 模型有 些学者也依据是否考虑方程误差而对e v 模型加以分类由于在模型( 1 1 3 ) 中, 误差q 和e 是混合在一起的,因此若我们无法获得关于误差e 的知识,那么仅 能对司+ 程做出估计,而无法将砖和元区分开来。尽管在方程误差e v 模型 中,q 和e 可以合为体考虑,从而我们可以象一般的e v 模型那样加以处理, 但是由于q 的出现,却会改变为解决辨识性问题而附加的约束条件比如“方差 比元已知”就需要改变成“( 蠢+ 盯;) 以已知”,但这通常是不太合理的, 因为酲和司砖都是未知的 。 在e v 模型中,有时还能够获得一些有助于统计分析和推断的辅助信息 很常见的一种信息是仪器变量( i n s t r u m e n t a lv a r i a b l e ) 的出现,即除了自变量和因 变量的观测值外,还可以获得个与自变量相关的变量例如,在一项农业试验 中,如果自变量z 是植物叶子中氮成分的含量,那么我们除了可以获得其观测值 x ,还可以获得一个与之相关值,即氮的施肥量,那么w 便可以作为仪器变 量进入到模型分析中 在结构模型( 1 1 2 ) 中,由于测量误差的出现,导致参数卢的最t j 、- - 乘估计 n ( 咒一) x 反三号- ( 五一) i - - - - i 是有偏的,其中j 三佗- 1 五而且在后面的章节中,我们还将看到,反的大 样本性质也需要一些应用中难以实现的条件。我们考虑在模型中引入与自变量相 关的仪器变量,假定它与误差t t 和e 都不相关那么可以定义参数的估计为 t l 一 ( 比一) k 磊兰鲁一 ( 眠一) 五 中国科学技术大学博士学位论文 7 由于 ( 眠一帆) k = ( 眠一帆) 陋+ 卢墨+ ( e t p u i ) 】 i = 1i = - i nn = 口( 磁一帆) 五十( w ;f 一矾) 慨一届啦) 因为与x 的相关系数不为零,并且彬与误差项不相关,可知磊是p 的相 合估计。关于引入仪器变量的e v 模型,可以参看f u l l e r ( 1 9 8 7 ) 以及c h e n g v a n n e s s ( 1 9 9 9 ) 等 b e r k s o n ( 1 9 5 0 ) 提出了一种带有测量误差的有别于一般e v 回归的模型,被称 为b e r k s o n 模型。在模型中,他假定真实值的测量值是确定的值,而不像一般的 e v 模型中那样是随机变量。在模型( 1 1 2 ) 中,如果把x 看作是确定的值,那么 可以得到 y = q + 卢( x 一乱) + e = q + p x + e 一触三q + x + 由于此时的x 是非随机的,因此有c 聊( x ,e ) = 0 ,可以象一般的回归模型那样 使用最t 、- - 乘法来估计参数。 b e r k s o n 模型虽然看起来有些不可思议,但是在医学和农业生产等领域中, 它却常常是一种合理的选择比如在医学上,想要研究一种药物的不同药剂量的 效果如何,那么可以选择药剂量分别为x = o 5 c m 3 ,1 0 c m 3 等但是实际的摄 入量却要依赖于受验个体的尺寸、物理活性和物理构成等因素当主要研究的是 实际摄入量的影响时,就需要使用b e r k s o n 模型;在农业生产上,要研究一种肥 料对农作物的影响,那么施肥量可以控制在一定的水平上,即事先给定x ,但 是,肥料的实际吸收量却与许多诸如降水量、风向、土壤成分等因素有关,此时 使用b e r k s o n 模型就是一种合理的选择关于b e r k s o n 模型,还可以参看c h e n g v a nn e s s ( 1 9 9 9 ) 等 当自变量是多维向量时,线性e v 模型可以描述为 y = q + z + e ,x = z + t 上 ( 1 1 4 ) 其中卢,z ,u 都廷p 维列向量。以轫记随机变量和叼的协方差矩阵 对于多维线性e v 模型,b e k k e r ( 1 9 8 6 ) 研究了结构模型的辨识性向题,指出 当假定( 让7 ,e ) 服从联合正态分布并且。= 0 时,参数卢可辨识的充要条件是存 在非奇异矩阵a p p = ( 码1 ,a p 2 ( p 1 ) ) ,使得z a 1 服从正态分布,并且与z a 2 相 8 刘继学:关于线性e v 模型的研究 互独立 g l e s e r ( 1 9 9 2 ) 在可信矩阵( r e l i a b i l i t ym a t r b ( ) ,即p = ( x x ) 一1 。= ( 。+ 。) - 1 。已知的情况下,研究了多维线性e v 模型关于多维线性e v 模 型中的辨识性问题以及参数的估计问题,还可以参看a m e m i y a f u l l e r ( 1 9 8 4 ) 、 c h a n m a r k ( 1 9 9 4 ) 、c h e n g t s a i ( 1 9 9 6 ) 以及k u k u s he ta 1 ( 2 0 0 5 ) 等 1 1 2 非线性e v 模型 随着人们意识到自变量的测量误差可能会引起很大的影响,e v 模型被越来 越多的引起重视,从上世纪八十年代以来,对于非线性e v 模型的研究也越来越 引起人们的关注如p r e n t i c e ( 1 9 8 2 ) 关于生存分析、c a r r o l l g a u o ( 1 9 8 4 ) 关于二项 回归、a r m s t r o n g ( 1 9 8 5 ) 关于广义线性模型以及a m e m i y a ( 1 9 8 5 ) 关于仪器变量等 关于非线性e v 模型的辨识性问题可以参看h a u s m a ne ta 1 ( 1 9 9 1 ) 、l e o n ( 1 9 9 6 ) 、 v a j k ( 2 0 0 3 ) 、p a v a ne ta 1 ( 2 0 0 4 ) 以及g e o r g ee ta 1 ( 2 0 0 5 ) 等 在c a r r o l l ( 1 9 9 5 ) 的专著中,系统的介绍了关于非线性e v 模型的一些研究成 果包括似然方法、b a y e s 方法等统计方法在非线性e v 模型中的应用、带有核 实数据( v a l i d a t i o nd a t a ) 的e v 模型、广义线性e v 模型以及非参数e v 模型等 在c h e n g v a nn e s s ( 1 9 9 9 ) 的专著中,系统的介绍了e v 多项式模型,并将稳健 性思想引入到e v 模型中 w o l t e r f u l l e r ( 1 9 8 2 ) 研究了函数关系的非线性e v 模型在误差协方差阵 已知并趋于零的假定下,通过修正正态误差假定下的极大似然估计,给出了参数 的相合估计及其渐近正态性。、c h a n m a r k ( 1 9 8 5 ) 研究了函数关系的多项式e v 模型,在误差是正态分布,并且误差协方差阵完全已知或者仅一个比例因子未 知的假定下,他们给出了参数的相合估计,而对于误差非正态的情况,给出了误 差协方差阵完全已知的二次多项式e v 模型中参数的相合估计b u n k e ( 1 9 8 9 ) 在 一定的条件下,研究了非线性函数模型以及稳健性的问题h s i a o ( 1 9 8 9 ) 研究了 非线性结构模型中的辨识性问题,对于真实值密度函数已知的模型,证明了参数 的最t b - - 乘估计是相合的并且具有渐近正态性,他还通过两步估计法( t w o - s t e p e s t i m a t i o np r o c e d u r e ) 给出了参数估计的简化算法,即先给出一部分参数的相合 估计,然后将其视为已知,再给出剩余参数的相合估计;文中还给出了两步估计 和渐近协方差的相合性所需要的条件李勇( 1 9 9 6 ) 等人在假定z ,e ,牡都服从正态 分布的情况下,给出了参数的估计,并证明了它的强一致相合以及渐近正态性 当真实值密度函数未知时,l i ( 1 9 9 8 ,0 0 2 ) 研究了真实值密度函数的非参数估 计以及非线性e v 模型中的稳健性和相合性估计t a u p l i n ( 2 0 0 1 ) 利用改进的最 小二乘估计提出了参数的一个相合估计,并给出了收敛速度的一个上届砒哐阿 d a n i e l ( 2 0 0 1 ) 研究了极大似然估计的计算s h k l y a r s c h n e e w e i s s ( 2 0 0 5 ) 比较了 中国科学技术大学博士学位论文 9 p o i s s o n 回归模型中三种相合估计的渐近协方差阵关于非线性e v 模型的结果还 可以参看g l e s s e r ( 1 9 9 0 ) 、h a u s m a ne ta 1 ( 1 9 9 5 ) 、m y u n g ( 1 9 9 5 ) 、h a n & e l i e ( 2 0 0 3 ) 以及k u k u k s he ta 1 ( 2 0 0 2 ,2 0 0 4 ) 等关于非线性e v 模型中,估计参数的算法也有了 很多的结果,可以参看d e m i n g ( 1 9 3 1 ,1 9 4 3 ) 、c o o k ( 1 9 3 1 ) 、c l u t t o nb r o c k ( 1 9 6 7 ) 、 d o l b y l i p t o n ( 1 9 7 2 ) 、d o l b y ( 1 9 7 2 ) 以及b r i t t l u e c k e ( 1 9 7 3 ) 等 对于部分线性e v 模型, c u i l i ( 1 9 9 8 ) 使用近邻广义最t j 、- - 乘估计方法 ( n e a r e s tn e i g h b o r - g e n e r a l i z e dl e a s ts q u a r e s ) 研究了这类模型l i a n g ( 1 9 9 9 ,2 0 0 0 ) 利 用权函数的方法先给出模型中非参数部分的估计,然后利用有重复观测的数据给 出模型中线性部分的估计h e l i a n g ( 2 0 0 0 ) 利用权函数的方法和m 一方法讨论 了分位数回归估计问题,并在一定的条件下建立了渐近性质对于广义线性e v 模型以及其它更一般的非线性e v 模型,可以参考f a n t r u o n g ( 1 9 9 3 ) 、d e l l a - , p o r t a s s t e p h e n s ( 1 9 9 5 ) 、f a z e k a s k u k u s h ( 1 9 9 7 ) 、i o a n n i d e s a l e v i z o s ( 1 9 9 7 ) 、 t o m ( 2 0 0 1 ) 、l i ( 2 0 0 4 ) 以及y o u g e m a i ( 2 0 0 6 ) 等 为了解决e v 模型中关于参数的辨识性问题,除了对误差附加一定的约束 外,还可以采用重复观测的方法,即在同一个样本点处进行多次采样,通过重复 数据可以对误差的方差进行一定的估计,从而避免了附加在误差上的某些不合理 的人为约束很多学者对自变量和因变量可以同时进行重复观测的模型进行了研 究z a m a r ( 1 9 8 9 ) 、c h e n g v a nn e s s ( 1 9 9 2 ,1 9 9 7 ) 、b a s u & s a r k a r ( 1 9 9 4 ,1 9 9 7 ) 、 v i s w a n a t h ( 2 0 0 2 ) 、s h a l a b h ( 2 0 0 3 ) 以及p a t r i c i a m a r i a ( 2 0 0 5 ) 等研究了可重复观 测的线性e v 模型中参数的估计,并在一些正则条件下建立了相应的大样本性 质c 1 1 i ( 1 9 9 7 ) 研究了广义最小一乘估计在可重复观测e v 模型中的表现在张 三国的一系列工作中( 2 0 0 0 ,2 0 0 1 ,2 0 0 2 a ,2 0 0 2 b ,2 0 0 2 c ,2 0 0 2 d ) ,研究了可重复观测 的线性e v 模型、多项式e v 模型、部分线性e v 模型等,在一定的条件下,给 出了关于参数相合性以及渐近正态等性质 很多学者还将其它的统计方法应用在此类模型中,如b o o t h h a l l ( 1 9 9 3 ) 使 用b o o t s t r a p 方法、p o l a s e k k r a u s e ( 1 9 9 3 ) 、z h a n g k a r u n a m u n i ( 1 9 9 7 ) 使用 b a y e s 方法、e r i k & t o r ( 1 9 9 8 ) 使用g m m 方法以及k o o l e e ( 1 9 9 8 ) 使用b 一样 条方法以及h o m c o m b ( 1 9 9 9 ) 使用f o u r i e r 变换等对于e v 模型除了研究其参数的 点估计及其性质外,其它的统计分析和推断问题也受到了许多学者的关注例如 b o o t h h a l l ( 1 9 9 3 ) 、h u w a n g ( 1 9 9 5 ,1 9 9 6 ) 、t s a o ( 1 9 9 8 ) 、h u a n g h u w a n g ( 1 9 9 9 ) 等研究了置信区间的估计 关于e v 模型的研究还可以从另一个角度进行,也就是我们除了可以获得自 变量的观测值之外,还能够获得一部分自变量的真实值,即可以获得一部分的核 1 0 刘继学:关于线性e v 模型的研究 实数据,从而基于这一部分的核实数据来对模型进行统计推断和分析这种方法 已经引起了国内外学者的重视例如s e p a n s k i l e e ( 1 9 9 5 ) 、f a z e k a se ta 1 ( 1 9 9 9 ) 、 w a n g ( 1 9 9 9 ,2 0 0 0 ,2 0 0 2 ,2 0 0 3 ) 等 本文主要研究线性e v 模型,共分为六章在第二章中介绍关于简单线性e v 模型中,参数的无偏估计的存在性向题第三章和第四章分别介绍在线性e v 模 型中最小二乘估计的相合性和渐近正态性第五章介绍仅允许自变量作重复观测 的线性e v 模型 1 2 本文主要结果 本文主要研究线性e v 模型,所得结果包含以下三方面的工作 一关于无偏估计的存在性问题 无偏性通常是衡量一个统计量好坏的基本准则,在通常的回归模型中,对于 无偏性的处理是很容易的但是在e v 模型中,这却是一项很困难的工作,因为 在证明无偏估计不存在时,并没有统一的模式可循,只能针对各个情况采取不同 的方法通过研究,我们所得到的结果也与通常的回归模型有很大的差别。考虑 简单线性结构e v 模型 f y = q + 触+ e ,x = z + u , ( a ) : z ,e ,嘲互独立, iz 一( o ,蠢) ,e n ( o ,程) ,札一n ( o ,砣) ( 咒,x ) ,1 i n 是i i d 样本记口;= v a r ( y ) ,以= v a r ( x ) 关于无偏估计的存在性的问题,有如下结果 1 当如下条件满足其一时,参数a 和卢的无偏估计不存在: ( 1 ) 程和以都已知; ( 2 ) 程= c 磅,0 c 0 ; ( 4 ) 砣= c 砖,c 0 以上我们是将真实值z 视为服从某个分布的随机变量,当把z 1 ,z 。看作 是未知的常数时,则有如下结果: 2 假设e 和让仍然满足模型( a ) 中的条件,甄a i ,1 t 礼若每个a 都至少有一个有限的极限点,那么a 和p 的无偏估计都不存在 中国科学技术大学博士学位论文 由于在某一约束下没有无偏估计,那么在比它弱的约束下更不会有,因此由 条件( 1 ) 可知,在诸如“以程已知”、“砖和中有二个已知”等约束下,a 和卢都没有无偏估计 关于无偏估计存在的一个常见的约束是“可信率程盯支已知”,我们将这一 约束加以推广,得到如下结果 3 假设蠢= ,( 口 ) 定义函数 脚) = ( u 孚,( 百n - 1 ) ) - 1 舡 o ) 则p 的无偏估计存在的充要条件是函数f ) 为某函数的l a p l a c e 变换 二线性e v 模型中最小二乘估计的大样本性质 我们已经知道在通常的一些约束下,参数是不存在无偏估计的,但是人们在 实际应用中,为了避免测量误差所带来的统计分析和推断上的复杂性,常常不自 觉的使用通常的回归模型来处理e v 模型因此有必要研究参数的估计量的大样 本性质通过我们的研究发现,即使对于最常见的最小二乘估计j 在e v 模型中, 也有着出人意料的表现我们考虑线性的函数e v 模型 f k 铷+ 触+ q ,五础i + ,1st n ( e i ,) ,1 isn ,i i d 1 曰e l = e u l = 0 ,e u 2 1 = 仃:,e 砖= 磋,0 0 ,使得e i t , 1 2 扣 1 ,使得当k 充分大时,帆q k 那么反和氟分别为卢和q 的 强相合估计 3 假设相合性的条件都满足,并且存在6 【1 ,2 ) ,使得序列 前,i 1 ) 一满足 条件( 2 ) 如果z ,e ,u 都服从正态分布,则有 雨22 高鬻如n( 哞u 。+ 伊( 帆畦砖+ 型号舻畦) ) 叫2 一“ 而殍藩若慧寿研d n ( 0 , 1 ) p 2 陋( 型号罢譬尘酲+ 帆畦吒) + 地畦吒 + 磁) v 2 其中婵= n ;蠢+ v k 以,磁= p :畦碍+ 七_ 1 艟程 为了将以上结果应用于假设检验等方面,我们给出砖,砣,以及的相合性 估计: 竞2 志蚤蚤( 一对, 中国科学技术大学博士学位论文 1 5 硅= 击 砉mc 五一司2 一忌碗 , 逮= 昙塞( k 棚2 一鹃 应= x 在应用中,f 砚) _ 般是有界的。此时有如下关于渐近正态性的结果 4 假设相合性的条件成立,并且存在r o ,s 0 ,使得e l u 4 + r , e i x 2 + 吾 0 使e l u ( m 1 2 + r 1 ,使当七充分大时,有帆拈 记: =圭薹(粕一贾)(一贾)r一瓦_arki_1刍k蓦wk ( 粕一五) ( 硒一五一= ( 粕一贾) ( 一贾) r 一丽i 乙( 粕一五) ( 硒一五) r , = 1 ,= l 拧 = 】j = 】 l 七= 啦( 五一又) ( m 一矿) 1 6 刘继学:关于线性e v 模型的研究 则口,q 的估计量定义为 反= w f l l 七, a 七= p 一贾t 反 关于估计的大样本性质有如下的结果 5 如果条件n g 都成立,则反和氨分别为p 和q 的强相合估计 6 记 皑2 卢= ( a 1 ,一,a p ) t ,g = 人。卯t 氏,b = a u d i 。9 ( a ; ,碍) a 。, 伉= 帆虬,仇= ( 妾癣) 也 如果条件n 9 都成立,并且序列 n i 2 ,i 1 ) 满足j a m i s o n 定理推广中的条 件( 2 ) 又u i j ,e i 都服从正态分布,则我们有 以及 其中 h - 1 2 c k ( 反- 3 ) 三n ( o ,易) , r 一1 2 ( a q ) 三n ( o ,1 ) f k l l 2 ( 复二;) 钢唰 日= ( 仇+ 讯凡) 蠢+ 矿a | f ,c k + 粤号警笺型( g + b ) , r = 恤r z u k - - 1 ( d k + n k 氏dc 毛1p 。七k - 1 0 2 e + i 乎八。| 3 避c 毛1p z + 町1 3 t a * * 3 + 譬秽掣伊t 七- 1 ( g 倒何1 池, s = 一 何1 ( d kq - n k a u ) a 2 + 矿凡p + 四堡;邕譬尘( g + b 母何1 触 最= ( ;何妥,) 第二章无偏估计的存在性问题 2 1引言 一元线性e v 回归模型的形式为 y = o t + p z + e ,x = z + 让 ( 2 1 1 ) ( 2 1 1 ) 的第一式就是通常的一元线性回归,自变量和因变量分别为z 和y ,e 为 随机误差在e v 回归中,z 带有测量误差让,不能被直接观测,而我们只能观 察到x = z + u 因变量也可以有测量误差,这测量误差与模型误差叠加,结果 即为e 因此e v 模型尤其着重在自变量有测量误差上这里讲的“测量误差” 不一定只与量测仪器有关有些量,如人的血压、社会调查中人的收入,本身就 有一种不确定性,或由于其敏感性而难于测定的特点另有些量本身就是一种平 均值如一块试验田的肥力,是指其平均值,而测定时只能取少量的土壤样本 从这个观点看,现实中碰到的大多数回归问题都应归入e v 模型 本章假定 z ,e ,让独立,z 一池,畦) ,e 一( o ,蠢) ,t t 一( 0 ,吒2 ) ( 2 1 2 ) 其中池,程,砖,蠢都未知,连同口和p ,这模型共有六个未知参数 由于辨识性的原因,为了使问题确定并使有关参数能得到有用的估计,需要 对模型中的参数附加上某种约束条件应用上常见的一种约束条件是施加在方差 蠢和盯:上:二者知道其一,或知道其比另一种重要的约束条件是假定方差比 k = 吒2 吱= 砣( 畦+ 砣) 已知这个比值在应用上很重要:在遗传学上称为遗 传力,在工业上称为可信率前者表示在决定一个性状中遗传所占的比重,后者 则刻画一个量测结果可信的程度 现设有( x ,y ) 的i i d 样本( 墨,k ) ,1 i n 即 五= 甄+ u i ,k = a + 触i + e i ,1 i n 其中2 :1 ,z 。i i d ,公共分布为( ,畦) ;e l ,e ,li i d ,公共分布为 n ( o ,以) ;让l ,i i d ,公共分布为n ( o ,砖) ,x l ,z 。,e l ,e 。,t t l ,u 。 全体独立。 如果我们施加约束“k = 磋政已知。,那么可以定义p 和o c 的估计如下 、( 五一) k 肛去蒜赢碱戈艮 1 8 刘继学:关于线性e v 模型的研究 其中兄:n 一苎x i ,矗:n 一,苎k 由正态分布的性质有 t = li = l e ( k i 墨) = q + 卢p z + 忌卢( 置一阮) 因此我们有 e ( 良) = e ( e ( 岛i x ,墨) ) = p , e ( a 。) = a + 卢p 。一e ( e ( 文i n 反l x - ,k ) ) = a 此时a 和卢都存在无偏估计 如果约束施加在( 砖,程) 上,则也可得到其有用的估计,但这种估计通常都是 有偏的在应用上,获得无偏估计常是致力的一个目标因此就产生下述问题: 在何种约束之下,我们所关,l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论