(应用数学专业论文)污染线性回归模型的参数估计.pdf_第1页
(应用数学专业论文)污染线性回归模型的参数估计.pdf_第2页
(应用数学专业论文)污染线性回归模型的参数估计.pdf_第3页
(应用数学专业论文)污染线性回归模型的参数估计.pdf_第4页
(应用数学专业论文)污染线性回归模型的参数估计.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 线性模型是数理统计学中发展较早、理论丰富、应用性强的一个重要分支。过 去的百余年中,线性模型在理论研究方面甚为活跃,获得了长足的发展。污染线性模 型作为线性模型前沿科学研究的一部分,由于它在实际生活中的广泛存在性,越来 越受到人们的关注,具有很高的应用价值。 污染数据是生物统计和金融统计中常见的一类数据,它也是一类不完全数据。 不完全数据并不是完全不能利用的数据,虽然有时我们可以再做一次数据的统计工 作,但大多数时候是不可重复,费时太长或代价太高;而且在固定的污染源未查明 或被消除的情况下,只可能得到被污染的数据。本文重点研究了带污染数据的线性 回归模型的参数估计问题。 第一章简要介绍了选题的背景,以及国内外研究状况和一些预备知识。 第二章把污染数据简单线性回归模型推广到了污染数据多元线性回归模型,用 最小二乘法得到污染系数及回归系数的估计,并证明其强相合性;接着,假设误差 分前j 为正态时,给出了参数的区间估计。 第三章给出了具有线性约束条件的参数估计,并证明估计的强相合性。 第四章当设计阵呈病态或秩亏时,用泛最小二乘估计准则1 2 7 ,给出了回归系数 的估计,并对估计进行了改进,提出了型泛最小二乘估计,随之用口。型泛最小二 乘估计给出了回归系数及污染系数的估计。 关键词 污染数据,参数估计,强相合性,泛最d - - 乘法,型泛最d 、- c - 乘估计 a b s 仃a c t l i n e a rm o d e li so n eo ft h em o s ti m p o r t a n tb r a n c h e s ,w h i c hd e v e l o p se a r l i e ra n d c o n c l u d e sm o r et h e o r i e si nm a t h e m a t i c a ls t a t i s t i c s d u r i n gt h ep a s ts e v e r a lh u n d r e dy e a r s , l i n e a rm o d e li sa c t i v ei nt h e o r yr e s e a r c hw h i c hd e v e l o p sd e e p l y a sam o s tp o p u l a rp a r ti n t h es c i e n t if i cr e s e a r c hi nt h el i n e a rm o d e l ,c o n t a m i n a t e dl i n e a rm o d e la t t r a c t sm o r ee y e s b e c a u s eo ft h ew i d e s p r e a de x i s ti n a c t u a ll if ea n dh a st h ev e r yh i g hv a l u ei nt h e a p p l i c a t i o n c o n t a m i n a t i o nd a t ai sac o m m o ns t a t i s t i c a ld a t ai nb i o l o g i c a ls t a t i s t i c sa n df i n a n c i a l s t a t i s t i c s ,i ti sa l s oai n c o m p l e t ed a t a h o w e v e r , t h eu s eo fi n c o m p l e t ed a t ai sn o te n t i r e l y a l t h o u g hs o m e t i m e sw ec a nd oas t a t i s t i c a ld a t a ,b u tm o s to ft h et i m ei t i sc a n n o tb e d u p l i c a t e d ,t i m e c o n s u m i n gt o ol o n go rt h ep r i c et o oi sh i g h m o r e o v e r , i nt h es i t u a t i o n w h i c ht h es t a t i o n a r ys o u r c eh a sn o tv e r i f i e do r e l i m i n a t e d ,w eo n l yo b t a i n t h e c o n t a m i n a t e dd a t a t h i sp a p e ri m p o r t a n t l ys t u d i e st h ee s t i m a t i o no fp a r a m e t e ri nl i n e a r r e g r e s s i o nm o d e lw h i c h c o n t a i n sc o n t a m i n a t i o nd a t a t h ef i r s tc h a p t e ri n t r o d u c e st h eb a c k g r o u n do ft h i st o p i c ,a sw e l la sd o m e s t i ca n d f o r e i g nr e s e a r c ha n ds o m ep r e p a r a t o r yk n o w l e d g e m e n t i nt h es e c o n dc h a p t e rt h es i n g l el i n e a rr e g r e s s i o nm o d e lo fc o n t a m i n a t i o nd a t ai s p r o m o t e dt ot h em u l t i - d i m e n s i o n a ll i n e a rr e g r e s s i o nm o d e l ,w ee s t i m a t et h er e g r e s s i o n c o e f f i c i e n ta n dc o n t a m i n a t i o nc o e f f i c i e n tb yl e a s ts q u a r e se s t i m a t i o n ,a n dp r o v et h es t r o n g c o n s i s t e n c yo fe s t i m a t i o n so fr e g r e s s i o nc o e f f i c i e n ta n dc o n t a m i n a t i o nc o e f f i c i e n t w ea l s o g i v et h ei n t e r v a le s t i m a t i o no fp a r a m e t e r so nt h ec o n d i t i o nt h a tt h ee r r o rd i s t r i b u t i o ni s n o r m a l i nt h et h i r dc h a p t e rw eo b t a i nt h ep a r a m e t e re s t i m a t i o nw i t ht h er e s t r i c to fl i n e a r , m e a n w h i l e ,w ep r o v et h a tt h es t r o n gc o n s i s t e n c yo ft h e s ee s t i m a t i o n t h ef o r t hc h a p t e rd i s p l a y st h e e s t i m a t i o no fc o e f f i c i e n t sw i t ht h ep r i n c i p l eo f u n i v e r s a ll e a s t s q u a r e s e s t i m a t i o nw h e nt h ed e s i g nm a t r i xi s i l l c o n d i t i o n e do r r a n k d e f i e i e n t w ep u tf o r w a r d c l a s so fu n i v e r s a ll e a s ts q u a r e se s t i m a t i o no nt h eb a s i s o fi m p r o v e m e n to ne s t i m a t i o n i nt h ee n d ,w eg e tt h ee s t i m a t i o no fr e g r e s s i o na n d c o n t a m i n a t i o nc o e f f i c i e n tb yu s i n gt h em e t h o do f c l a s so fu n i v e r s a ll e a s ts q u a r e s e s t i m a t i o n k e yw o r d s c o n t a m i n a t e dd a t a ,p a r a m e t e re s t i m a t i o n ,s t r o n gc o n s i s t e n c y ,u n i v e r s a ll e a s ts q u a r e s e s t i m a t i o n ,口oc l a s so fu n i v e r s a ll e a s ts q u a r e se s t i m a t i o n 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 尼、 学位论文作者签名:豳:丛聋指导教师签名:幺! ! 兰2l 7 乙 一尸 年v 月d 日 知7 年多月f o e 西北大学学位论文独创性声明 本入声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名;翟、多身鲁 如r 年么月口日 西北大学硕i :学位论文 第一章绪论弟一早三百下匕 线性模型是现代统计学中理论丰富,应用广泛的一个重要分支。线性模型是一 类重要的统计模型,它包括了线性回归模型、方差分析模型、协方差分析模型和线 性混合效应模型等,其应用非常广泛,如生物、医学、经济、金融、地质、气象、 农业、管理、工业、工程技术等领域中的许多现象都可以用线性模型来描述或近似 描述。随着高速电子计算机的同益普及,在以上领域的应用获得长足发展。 线性回归模型是数理统计学发展比较早的分支之一。在现实世界中,存在着大 量这样的情况:两个变量x 和y 之间存在依赖关系,这种依赖关系一般来说分为确 定性和不确定性两种。确定性关系是指变量之间的关系可用函数关系来表达。变量 之| 日j 的不确定性关系,称为相关关系。在许多实际问题,往往要考虑对象y ( i i f ,j 应变量) 同影响y 的因素( 解释变量) x 之问的关系。若响应变量y 与解释变量x 之间存在某 种相关关系,即当x 取一定值时。不足以确定y 的值,但能确定y 的条件分布。 y 对x 取值的依赖关系,是广义下的回归关系。 自f g a l t o n 于1 8 8 6 年首次提出回归模型以来,在过去的几十年来,该模型被广 泛的应用于工农业、气象、经济管理以及医药卫生等领域。同时由于实际应用的需 要,回归模型也在不断发展,已越来越深刻地应用于实际。 1 2 选题背景 在实际应用中,随机变量受到污染的现象是很常见的。在卫生统计和医学试验 中,当考察正常个体的生理指标的分布时,会混入一些患病的个体,反过来,当考 察患病个体的生理指标的分布时,会误诊混入一些正常的个体;在生产制造过程中, 由于生产条件的突发性变化,而使j 下常产品中混入了少量劣质产品,或者同一批产 第一章绪论 品来自几个生产条件有较大差异的车间。事实上,一般观察到的数据都或多或少地 受到污染,没有污染的数据可以看成特例。 污染数据是在实践工作中常常会遇到的一类数据,在生物统计和金融统计中尤 为常见。污染数据如同删失数据和截尾数据,也是一类不完全数据。早在上世纪6 0 年代,在研究统计方法的稳健性的时候,就提出了污染分布模式,并且建议用h u b e r 分布作为解。所谓污染分布模型,即是主体分布未知或者至少部分未知,由于污染 源的随机干扰,试验获得的观察数据是已经受到污染的数据。 不完全数据并不是完全不能被利用的数据,有时我们可以再做一次数据的统计 工作,但大多数时候是不可重复,费时太长或代价太高。尤其对污染数据来说,在 固定的污染源未查明或被消除的情况下,只可能得到被污染的数据。作为统计工作 者,深知完全的无污染数据对于模型分析、参数估计、统计决策的方便性和重要性。 因此,对污染数据的研究显得尤为必要。 1 3 国内外研究状况 早在1 9 5 2 年,d a v i s 【l 】就注意到在寿命试验中,元件寿命分布函数可能为两个 分布函数的混合,考虑墨,x z ,以为一列非负独立同分布的随机变量,具有分布函 数f ,( x ) , f a x ) = ( 1 - v ) f l ( x ) + 幔( z ) ( 1 1 ) 其中v 【o ,l 】,e ( x ) ,五( x ) 都是定义在r = o ,- t - o o ) 上的分布函数,试验所观察到的 元件寿命数据以概率l _ v 来自分布e ( x ) ,以概率v 来自分布e ( x ) ,通常我们更关心 鼻( x ) ,认为数据本应该服从互o ) ,但却受到少量来自分布e ( x ) 的数据污染,我们 称v 为污染系数,它衡量了数据受污染的程度。 1 9 6 4 年,h u b e r 【2 1 考虑了一类“被污染的讵态分布族”,即( 1 1 ) 式中曩( x ) 为 2 两北人学硕: :学位论文 f 态分布n ( 0 ,1 ) 的情况,而f 2 ( x ) 是一族关于原点对称的分布。1 9 9 1 年,k f y u 嘲提 出了几种估计污染系数1 ,的方法:矩估计、b a y e s 方法、最大似然法。 1 9 9 6 年,郑祖康4 1 5 1 研究了污染数据回归分析,他提出了两类污染数模 型:y ;= ( 1 一v ) y g - 1 - v l j ”与”0 :( y ) = ( 1 一v ) 矗( y ) + 吃( y ) ”其中y j2 a + p x j + 巳 ( = 1 ,2 ,甩) ,e j * h k 独立,且都服从( o ,砰) ,o o o 时,有龟山乡,则称龟 是9 的弱相合估计,进一步如果包旦= o 臼,则称眈是目的强相合估计。 1 4 3 损失函数和风险函数: 在统计决策中,人们根据某种方法所采取的行动否与实际状态臼往往带有一 定的偏差,如果将这种偏差所造成的损失用非负函数三来衡量,那么三一就 ( 口口)( 日,护) 称为此决策下的损失函数。设基于样本x 对与实际状态口的决策函数为万( x ) , 则其损失函数为厶印( 枷关于样本x 的分布的数学期望称为决策函数万( x ) 的风险 函数。 1 4 4 可容许性: 参数估计中,设鼠,岛为口的两个估计,如果对于风险函数丘,) ,有: 0 l ( 口,岛) s 厶口,岛) ,对于一切秒成立; 至少存在一个o o ,使得上述不等式成立: 则称q 关于风险函数丘) 一致优于岛。 若在某个估计类中,不存在一致优于估计各的估计,则称刍在该估计类中关 于风险函数丘,) 为参数秒的可容许估计,简称各为p 的可容许估计。反之,如果 两北人学硕二j :学位论文 上述定义中的两个条件不完全成立,则称目为目的不可容许估计。 1 。4 5 线性回归模型: 假设我们对因变量】,和p 1 个自变量玉,屯,讳一。进行了1 1 次预测,n 组观 测值_ ”x :, - - - 而扩,乃,i = 1 ,2 ,玎它们满足关系式 y i = 风+ t ,l 届+ - 。+ x i 扩i 辟一1 把,i = 1 ,2 ,z 这里q 为对应的随机误差,引进矩阵记号 j ,2 m 儿 : 儿 1 而i 扩i 1 而l 恐p l 1 x q t x q 。p 一1 ,= 8 氇 届 p m q 岛 : 巳 那我们就可以写成如下的简洁形式:y = x f l + e ,这里y 为n x l 的观测向量,x 为挥p 已知矩阵,通常称为设计矩阵,为未知参数向量,其中反为常数项, 届,岛一。为回归系数。 1 4 6 中心化线性回归模型: 在实际应用中,有时需要对数据中心化,中心化就是指把自变量的度量起 点移至它在n 次试验中所取值的中心点处,记: i = 去喜勃, = ,2 ,p 一 它是自变量勺在n 次试验中取值的算术平均。则乃可改写 乃= 虼+ 届( _ i 一) + + 屏一l ( _ ,p l 一一1 ) + q ,i = l ,2 ,n ( 1 3 ) 这里 r o = 属+ 届i + + 屏一。i := 属+ i 彦,i = ( i ,i :) 用矩阵来表示,即为: y = r o1 。+ t 屏+ e , e ( p ) = 0 ,c o v ( e ) = 仃2 1( 1 4 ) 其中乏:( 一三1 1 ) ,二为中心化设计阵,它具有性质l :0 ,我们称( 1 3 ) 和 咒 第一章绪论 ( 1 4 ) 为中心化线性回归模型。 1 4 7 线性回归模型的最d - 乘估计 线性回归模型是数理统计学发展比较早的分支之一,关于它的参数估计问 题的研究可以追溯到上世纪初。在众多的估计参数的方法中,有一种方法占有 中心基础的地位,这就是最小二乘法。对线性回归模型 y = x f l + e ,e ( e ) = o ,c o v ( e ) = 仃2 厶 ( 1 5 ) 的参数的估计问题,其中y 为nx l 的观察向量,x 为玎p 的设计矩阵,e 为 n x l 的随机误差向量,l 为n 阶单位矩阵,盯2 o 为误差方差,为待估参数 向量。最小二乘法的基本思想是:的真值应该使误差向量e = y x p 达到最 小,也就是使它的模的平方 2 - - l i t x p l l 2 = ( 】,一x p ) 。( r - x p ) 达到最小。利用矩阵微商公式及函数极值理论解得回归系数的厶估计 = ( x x ) 叫x y( x 满秩) 著名数学家a m 。l e g e n d r e 和c f g a u s s 先后于1 8 0 6 年和1 8 0 9 年独立地把最小 二乘法应用于观测数据的误差分析。后来,a a m a r k o v 于1 9 0 0 年证明了在无 偏估计类中厶估计的方差最小性质,即著名的g a u s s m a r k o v 定理,奠定了厶估 计在参数估计理论中的地位。 自从1 9 世纪初,a m l e g e n d r e 和c f g a u s s 独立地创立厶估计以来,统 计学家们就一直孜孜不倦地研究这种估计的优良性。我们已经知道,回归系数 的厶估计具有许多优良的性质,其中最重要的是g a u s s m a r k o v 定理。它表明在 一切线性无偏估计中,厶估计具有最小方差。后来,k a r i y a 把所研究的估计类 作了推广,不荐限制在线性估计类,而且包括有偏估计,并证明了厶估计在这 个大估计类中的优良性,这个结果被看成g a u s s m a r k o v 定理的非线性形式,衡 量一个估计优劣的标准是估计量与被估计参数的接近程度。 1 4 8 复共线性: 厶估计具有许多优良胜质,特别是g a u s s m a r k o v 定理。随着现代电子技 6 两北人学硕 :学位论文 术的飞速发展,使人们有可能处理包含较多自变量的大型回归问题。这时,因 为自变量很多,有时难免自变量间存在近似的线性关系,从而导致设计阵x 的 列向量近似地线性相关,我们称这样的设计阵为病态。这时虽然厶估计的方差 在线性无偏估计类中最小,但其值却很大,三s 估计有较大的方差,此时厶估计 的估计精度比较差,表现出相当的不稳定,有时可能导致一些错误的结果。于 是近几十年来,许多学者致力于改进厶估计,提出了许多新的估计,比如运用 b a y e s 估计和约束最小二乘估计改进线性模型参数估计的性能。在这些新的估计 中很重要的一类估计就是有偏估计,如岭估计、广义岭估计、压缩估计、主成 分估计等,它们都含有待定的参数。在众多的有偏估计类中,影响较大的是岭 估计,对于线性回归模型( 1 5 ) ,h o e r l 和k e n a r d 于1 9 7 0 年提出了岭估计,以牺 牲无偏性来换取较小的均方误差,岭估计是一个估计类。二十多年的应用实践 表明,岭估计大大改进了厶估计,它是目前使用最广泛的非厶估计之一,对岭 估计的理论研究可以从h o e r l 、k e n a r d 、h a w k l n s ,h o c k i n g ,f a r e b r o t h e r ,w i c h e r n 等人的著作中找到,其主要结果是一系列岭估计优于厶估计的充分条件以及岭 参数在隐式表示时的充要条件。戴俭华、陈希儒等讨论在均方误差意义下岭估 计优于厶估计的问题,给出了岭估计优于厶估计的必要条件及较一般的充分条 件。王铭君讨论了带约束广义岭估计的岭参数的求解问题,并给出其显示解。 王平华讨论了g u a s s m a r k o v 模型中未知参数的厶估计的改进,引入了一种估计 的相对效率,证明了广义岭估计比岭估计的效率高。王志福给出了广义岭回归 估计的一般形式,通过极限方法给出了广义岭回归估计的一个精确解。刘万里 等给出了广义岭估计优于厶估计的一个充分条件。1 9 9 9 年,史建红提出约束线 性回归模型下回归系数的条件岭型估计的概念,证明其是约束可容许估计且在 均方误差意义下优于约束最优线性无偏估计。2 0 0 1 年,史建红又对般的线性 回归模型提出了条件岭型估计,证明了在一定的条件下,在均方误差意义下及 均方误差矩阵意义下都优于回归系数的约束厶估计,并讨论了它的容许性。 7 第二章污染线性i 口l 归模型的参数估计 第二章污染线性回归模型的参数估计 1 9 9 6 年,郑祖康等研究了污染数据回归分析,他们讨论了两类污染数据的回归 分析,其模型分别为: 第1 类简单线性回归模型: y j = c c + p x j + e j ,j = 、,2 ,n 其中勺相互独立,服从( o ,砰) ,乃受到另一串与之独立的随机变量 ,;,的干扰, t ,相互独立,且都服从( o ,呸2 ) ,砰、盯;均已知,仅能观察到 巧= ( 1 - v ) y j + ,吩,0 y 1 第1 i 类简单线性回归模型: y 1 = a + p x j + e j j = 、,2 ,n 其中勺相互独立,服从( o ,砰) ,乃受到另串与之独立的随机变量k i 。的干扰, o 相互独立,且都服从( o ,蠢) ,仅能观察到 一 :;,y ;的分布函数为: 乞:( 少) = ( 1 一y ) ,z ( 少) + v 气( j ,) ,0 v 1 其中f y l ( y ) 与( y ) 分别为乃与0 的分布函数。 此后的研究基本上在上述两类模型的基础上展丌,这方面的情况在前面的背景 介绍中有所提及,这里就不再重复。 本章的内容均是在第1 类模型上展丌。首先,我们参照文 1 5 1 ,对已有的研究结 果作以整理:文中,作者把简单线性回归模型推广到了多元线性回归模型,并给 出了参数的估计量及其强相合性的证明;其次,参照文 1 6 1 ,我把简单线性回归模 型推广到了多元线性回归模型,得到了方差已知时污染系数在置信度为1 一口时的区 问估计;最后,我在文【1 7 1 的基础上做了同样的推广,利用矩估计的方法得到了参数 的估计,并证明所得估计具有强相合性。 本章内容安排如下: 第一节是方差已知时参数的点估计及其强相合性。 8 西北大学硕i j 学位论文 第二节是方差已知时污染系数的区间估计。 第三节是方差未知时参数的点估计及其强相合性。 2 1 方差已知时参数的点估计及其强相合性 1 预备知识与王要结果 考虑线性回归模型 咒= z + q ,f = 1 ,2 ,栉 ( 2 1 ) 其中_ 是已知p 维向量,是未知p 维回归系数向量,p f 是随机误差,假定q 独 立同分布,f = i ,2 ,理,如= o ,e 4 = 彳,0 砰 ( 2 2 ) y i ( i = l ,2 ,刀)受到另一与之独立的随机变量序列( f _ 1 ,2 ,刀) 的干 扰,设t i 独立同分布,e t 。= o ,e t ? = 呸2 ,0 吒2 上, o 1 ,s1 f - 1 ,2 ,行 ( 2 4 ) 我们假定: 其中 记: 一= o - y ) m + = o - y ) z + o - y ) q + 嵋= z 屈+ 7 乃 ( 2 5 ) 届= ( 1 - v ) ,7 7 f = ( 1 一v ) 岛+ v t i , y - = ( y ? ,以,一) 。, l = ( p ,y :,) 以= ( ,x 2 ,) , 7 7 = ( 仍,7 7 2 ,7 九) 9 第一二章污染线性l 口| 归模型的参数估计 则( 2 5 ) 式的向量形式为: 巧= t 届+ r ( 2 6 ) 下面构造、v 的估计: 由于= o ,c o y ( 研) = ( 1 一y ) 2 砰+ v 2 霹= 盯2 , i = 1 ,2 ,撑 则我们可得出届的最小二乘估计为: 届= ( z 以) _ z 巧 我们用 耻击喜( 一叫a ) 2 来估计随机误差研的方差仃2 ,即令: r 。= ( 1 - v ) 2 盯卜v 2 呒2 解得: v a :盔圭亟i 2 殛2 2 o :+ o ; 结合( 2 4 ) ,取v 的估计为: 0 :生! 堕堕堡二盔堕 仃1 2 十盯2 2 进而可得的估计为: 多:乓 1 一v 2 估计量的强相合性 引理2 1在模型( 2 1 ) 中,如果( 2 2 ) 成立,且l i m ( z 以) = o ,则: = ( e 鼍) 。1el 一 ( ,l _ o o ) a s 引理2 2在模型( 2 1 ) 中,如果( 2 2 ) 成立,则: 砰2 i i _ 善( m - x l p ) 2 一砰 ( 以一。o ) 口j 1 0 ( 2 7 ) ( 2 8 ) 两北人学硕:l j 学位论文 其中同引理2 1 。 证明: 引理2 1 与引理2 2 为文2 2 1 中罡。l 定理2 3 。 定理2 1如果( 2 1 ) ,( 2 2 ) ,( 2 。4 ) 式成立,e i 1 i m ( e 以) 一= o , 则: 1 ,一v寸0 j o o ) 口s 证明:对于模型( 2 5 ) ,屈= ( 1 一v ) ,r l i = o - v ) q + v t i ,显然q i ( 待1 ,2 ,n ) 独立同分布且 e 7 7 1 :0 ,e 7 7 7 :( 1 - v ) 2 砰+ ,2 呸2 全仃2 , o 仃2 o o ) 口s( 2 1 0 ) 做出新模型( 2 5 ) 的误差方差盯2 的估计盯2 , 耻0 2 = 击喜( 一叫a ) 2 又由( 2 9 ) 式知对模型( 2 5 ) 的引理2 的条件满足,所以 r n = 仃2 一仃2 = ( 1 - 1 ,) 2 砰+ 1 ,21 3 ; 0 一o o ) a s 再注意到( 2 4 ) 式,易得: v a :堕二! 堕堡! 堡:堕堕一 g :2 o ,2 盔二! 盔妄堕! 孚:二盔堕= v ( 以j 。) 口s o i + o i 又由( 2 1 0 ) ,( 2 1 1 ) 式可得: 多= 惫一告= 警= c ,黜 定理2 1 得证。 第二章污染线性| 口i 归模型的参数估计 小结:本节主要是在参考文献【1 5 1 的基础上,对已有的研究结果作以整理,说 明污染线性回归模型在方差已知时,可用最t b - - 乘法得出参数的点估计,并证 明该估计具有强相合性( 该估计量也具有渐近正态性,可参考文献喁】) 。 2 2 方差已知时污染系数的区间估计 引理2 3 设x 一虬( “,l ) ,彳对称,则x 从x 。2 爿。4 幂等,( 一) = ,a 证明:这是文 另。定理3 4 3 。 引理2 4 对于模型( 2 6 ) ,若7 7 n ( o ,盯2 l ) ,则 学砣训, 其中疋同上 仃 、 证明: 因为p x 。以= 以,( 这里只= 以( x :以) 一e 是向m ( ) 上的正交投影阵) , 所以: 坠尝:穿:塑等盟:掣_ z u 吱) z g g g o 1 其中z = 詈m ( o ,厶) ,由,一气的幂等性及 r k ( i 一气) = t r ( ,一& ) = 刀一t r ( 气) = 玎一瓜( ) = 刀一p 利用引理2 3 ,即得: ! 竺二翌2 堡y z 仃2 “一p ) 定理2 2 : 对于模型( 2 5 ) ,设片,以,以为观察到的一组数据,且 y i = ( 1 一 ,) m + v t f 其中y ,= x ;+ q ( i = 1 ,2 ,z ) ,t 为已知p 维向量,y i ,乞,均相互独 立,e i n ( o ,砰) n ( o ,蠢) ,砰,仃;已知,则污染系数v 的置信度为l - a 1 2 的置信区间为( 以,b ) , 其中 口2 b = 砰一 西北大学硕:lj 学位论文 砰+ 蠢 r n = 砰+ 仃; a 屈= ( e e ) 叫e 巧 证明:由引理2 4 知: ( ,2 一p ) r 仃。 v 2 兀( 月一j 口) 给定置信度为卜口,则由z 2 ( 。- p ) 分布的性质知: 解之得: 尸2 ( n - p ) r , , - z 季。一p ,) = 一口 1 筹 所以仃2 的置信度为卜口的置信区间为: 由于仃2 解得: = ( 1 一v ) 2 砰+ y 2 西 ( 门一p ) r y 2 7 i 一号( 月一尸) ,由( 1 一y ) 2 砰+ l ,2 蠢 1 3 = 1 一口 r 屈 描 。m 。阔南 r 一力 、,一 ! p 一 二:v i 胛一z 筹华渺喾 ,l一 ,、l 芦咖 一z = 第二章污染线性i 口i 归模型的参数估计 由 解得: 仃卜 o i 七o i 0 - v ) 2 砰蠢= 等监 z 等( p , 彳一 盯卜仃; 所以v 的置信度为卜口的置信区间为( a ,b ) ,其中 b = 砰一 才一 砰+ o - ; 砰+ 司 定理2 。3 在定理2 2 的条件下,y 在区间( 口,b ) 内任取一值y ,可得的估 计值为: 多:乓,其中厶:( z t ) 一- z 巧 小结:本节在已有的研究结果的基础上,把简单线性回归模型推广到多元线性 回归模型,在假设方差已知的情况下,得到污染系数在置信度为卜口时的区间 估计( 定理2 2 ) ,从而得到置信度为卜口的回归系数的区间估计( 定理2 3 ) 。 1 4 西北大学硕i :学位论文 2 3 方差未知时参数的点估计及其强相合性 2 3 1 方差未知时参数的点估计 考虑线性回归模型 y i = z + e f , f = 1 ,2 ,刀 ( 2 1 2 ) 其中葺是已知p 维向量,p 是未知p 维回归系数向量, 乞是随机误差,这里假定 r 龟,f l 仃 l 已( 。,井) ,o 仃f 一 , svsik 上o v 我们假定: y ;= ( 1 - v ) y i - t - v t ,= ( 1 - v ) x l p + ( 1 一v ) q + v t , 其中: = z 屈+ r i i = l ,2 ,, ( 2 1 6 ) 屈= o - v ) p ,仍= ( 1 一v ) 弓+ v t i ,r l i n ( o ,( 1 一y ) 2 彳+ y 2 蠢) 巧= ( y :,虻,y :) , 以= ( ,屯,吒) , 则( 2 1 6 ) 式的向量形式为: 艺= ( y l ,y 2 ,虬) r l = ( r l l ,r 1 2 ,仉) 第二章污染线性同归模型的参数估计 下面求、y 的估计: y := x ,】b 。+ 叼 由最小二乘法可以得到届的估计量 r - 一ip 窆n 陪。 一k l 因为 r l i n ( o ,( 1 - v ) 2 砰+ y 2 呸2 ) , e ( 7 7 7 ) = o - v ) 2 砰+ y 2 司 故 e ( 7 7 7 ) = ( 1 - v ) 4 群+ 6 盯? 仃;( 1 - v ) 2 l ,2 + i ,4 蠢 = ( ( 1 一y ) 2 砰+ y 2 仃;) 2 + 4 c r c r ;( 1 - v ) 2 y 2 用矩估计的方法可以得到方程 = ( 1 - v ) 2 0 - + 1 ,2 西 a = + 4 砰吒2 ( 1 - v ) 2 1 ,2 其中= 而1 喜群,帅2 0 ) 式得: ( i - 1 ,) 2 砰= r y 2 蠢 将( 2 2 2 ) 带入到( 2 ,2 1 ) 得到方程 山此得到: a 4 ( v 2 吒2 ) 2 - 4 v 2 呸2r + 群- r ;= 0 出条件( 2 1 5 ) 知: 结合( 2 2 0 ) 即得: v 2 仃;= v 2 呸2 = 兄 兄一 2 2 1 6 ( 2 1 7 ) 一x ( 2 1 8 ) ( 2 1 9 ) ( 2 2 0 ) ( 2 2 1 ) ( 2 2 2 ) ( 2 2 3 ) ( 2 2 4 ) ( 2 2 5 ) 。” i i 协 记 巧e厂以疋 ,f = 屈 矿 西北大学硕lj 学位论文 ”分去:译 综合( 2 2 5 ) ,( 2 2 6 ) 及假设吒2 = z 2 砰,得到: 由式( 2 2 7 ) 得: 令: 乙= 号 r 一4 2 r :一霹 r 。+ 2 群一霹) 由此解出污染系数为v 的估计 则可得: 结合( 2 2 6 ) 和条件盯;= 1 2 0 ? 得: 1 , = = - 一 ( 1 一y ) ,、 瓦 v = l 1 + l 刍:乓 1 一y 仃a ? :堡堡二笠 2 ( 1 一v a ) 2 ,、:,2n :,:咒+ 2 尺:一$ 仃;= ,2 砰= ,2 竺j 兰 立 于是我们得到了在假设( 2 1 3 ) ( 2 1 6 ) 下,参数的估计量分别为: 一 v = l 1 + 乏 1 7 ( 2 2 6 ) ( 2 2 7 ( 2 2 8 ) ( 2 2 9 ) ( 2 3 0 ) 爝 一一+ r r i i 者l 研 伊一d 2 一 一 ,一o 第二章污染线性同归模型的参数估计 其中: 参:鸟 l y :堡2 :1 2 二笠 2 0 0 ) 2 n : ,:二,:+ 2 群一霹 司= ,2 砰= ,2 竺j 匕 羔 l = 詈 r n 一0 2 r :一s : pj hd 2 一c 2 、 民= 南缸叫a ) 2 霹= 而荟n ( j ,h 厶) 4 五:( z 以) 一1z 巧 2 3 2 估计量的强相合性 引理2 5 在模型( 2 1 2 ) 下,若( 2 1 3 ) 式成立,且当l i r a ( z 以) = o 成立, n - - 0 0 则 p = ( x :以) 。x o r 。一p 卉= 击喜( 儿叫幻2 一砰 ( ,z o 。) ( ,z o o ) 口j 口s 推论2 1在模型( 2 1 2 ) 下,若( 2 1 3 ) 式成立,且当l i m ( e k ) = o 成立, 一 则 s jj e ( 7 7 7 ) = ( ( 1 一y ) 2 砰+ y 2 盯;) 2 十4 盯;霹( 1 - v ) 2 y 2 ( 甩jo o ) 口j 证明:引理2 5 及推论2 1 可参阅文 2 0 卜 2 2 。 定理2 4 在模型( 2 1 6 ) f ,若( 2 1 3 ) 、( 2 1 4 ) 、( 2 1 5 ) 式成立且l i m ( e 以) = o , n - + 0 0 1 8 西北人学硕l :学位论义 则当甩寸o o 时, v 争1 , 文专文以一霹 证明: 对于模型( 2 1 6 ) ,由于现= ( i - v ) e , + 嵋,届= ( 1 - v ) f l ,e r l = 0 , e 卉= ( i - v ) 2 砰+ v 2 吒2 = 仃2 , 0 ) ( 刀一o o ) ( 玎- - + o o ) = 1 2 c r l 2 = 仃; ( ,z o o ) 小结: 本节在参考文献【1 7 1 的基础上,把简单线性回归模型推广到多元线性回归 模型,在假设方差未知但呸2 = ,2 彳,是已知的正常数时,利用矩估计的方法得 到参数的估计,并证明所得估计具有强相合性( 定理2 4 ) 。 2 0 主咭 斗 土m 西北大学硕。i :学位论文 第三章具有线性约束条件的污染回归模型的参数估计 考虑模型( 2 6 ) ,在对参数向量没有附加任何约束条件的情况下,在前面我 们求出了的最小二乘估计,并讨论了它的强相结合性。但在一些检验问题的讨 论中或其它一些场合,我们需要求带一定线性约束的最d - - - 乘估计。在这方面我 查阅了很多资料,还很少碰到具有约束条件的污染线性模型的相关讨论,于是我 在这方面做了一些尝试,所得结果便是我第三章的内容。 本章内容安排如下: 第一节是具有线性约束条件的参数估计。 第二节是受约条件下估计量的强相合性。 3 1 具有线性约束条件的参数估计 假设:a p = b ( 3 1 ) 是一个相容线性方程组,其中彳为k xp 的已知矩阵,且秩为k ,b 为kx l 已知向 量,我们用l a r g r a n g e 乘子法求模型( 2 6 ) 满足约束( 3 1 ) 的最小二乘估计, a 蚓b = 豳 = ljl= iii 2 l ( 3 。2 ) ( 3 3 ) 第三章具有线性约束条件的污染川归模型的参数估计 q ( p ,= 0 巧一k 屈4 2 = l i 巧一( 1 一v ) x p l l 2 达到最小值。 应用l a r g r a n g e 乘子法,构造辅助函数: q :帏一( 1 一v ) 以耶+ 2 圭a ( 口:一包) = 帏一( 1 一v ) e 硝+ 2 旯( a p 一6 ) = ( 巧一( 1 - v ) 以) ( 巧一( 1 - v ) x ) + 2 a ( a p 一6 ) = 巧巧一2 ( 1 一v ) r ;x 。p + ( 1 - v ) 2 z x 。3 + 2 3 , ( a 3 6 ) 其中a = ( a ,丑,五) 为l a r g r a n g e 乘子。 求万8 0 ,并令其等于零,有: 器一2 ( 1 - v ) z 巧+ 2 ( 卜x , x 3 + 2 彳肚。 即得: 一( 1 一,) x : :+ ( 1 一y ) 2 x :x + 兄=(4)3 a0 3 我们用厦和旯。表示( 3 1 ) 和( 3 4 ) 的解: 用( e 以) 一左乘( 3 4 ) 得: 一( 1 一v ) ( z 一) 一1z 巧+ ( 1 一v ) 2 ( z 以) 。1x :以+ ( e 以) 。1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论