毕业论文线性模型的估计.docx_第1页
毕业论文线性模型的估计.docx_第2页
毕业论文线性模型的估计.docx_第3页
毕业论文线性模型的估计.docx_第4页
毕业论文线性模型的估计.docx_第5页
免费预览已结束,剩余20页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 绪论.线性模型的估计的发展 线性回归模型是现代统计学中内容丰富、应用广泛的一个研究分支。它的最终目的是确定并数字性地表示所研究的自变量和应变量之间的线性关系。随着计算机的日益普及与数字计算能力的不断提高,它被广泛应用于生物、医学、经济、管理、金融、工农业、工程技术等领域,并在其中发挥着重要作用。近几十年来,很多学者对线性模型进行了深入细致的分析和研究,使它无论在广度和深度上都有不少新的发展,例如有偏估计、可容许性理论、非参数回归、稳健回归、大样本理论、序贯理论、Bayes 方法、回归诊断等等。这些新的研究方法中,多数在一定程度上扩大了线性模型的研究范围,有的具有很强的实用价值,有的则是对原有方法及其理论的修正和改进。总之,这些新的理论和方法进一步将线性模型的研究推向新的高峰,使得线性模型更加广泛地应用于国民生产各个领域。简而言之,有偏估计的产生源于传统的最小二乘估计(Least SquaresEstimation,简称 LSE)方法在处理共线性问题中的缺陷和估计的不可容许性。最小二乘法是线性模型中最经典的结果之一。著名数学家 A.M.Legendre 和C.F.Gauss 分别于 1806 年和 1809 年把最小二乘法应用于观测数据的误差分析,从而开启了最小二乘法的大门。1900 年 A.A.Markov 证明了著名 Gauss-Markov 定理刻画最小二乘估计在线性无偏估计类中的最优性,从而奠定了最小二乘估计在线性模型参数估计理论中的地位。1971 年,针对奇异线性模型的情况,Rao 提出了最小二乘统一理论,这种方法既适用于设计阵列满秩或列降秩情形,又适用于协方差阵奇异或非奇异的情形,进一步巩固了最小二乘估计在参数估计中的地位。这些结果1使得人们在很长时间里认为最小二乘估计是解决线性模型参数估计的最好的估计。随着回归分析研究的深入,统计学家在理论分析和实际应用中发现最小二乘估计存在一些问题(1)理论分析中,最小二乘估计的不可容许性。1955 年,Stein2证明了对多元(维数大于 2)正态分布,在平方损失下,其均值向量的最小二乘估计是不可容许的。这一新的发现使得人们重新对最小二乘估计加以研究。人们发现,最小二乘估计的优越性仅仅在线性无偏估计类中才能表现出来,如果将估计类由线性无偏估计类扩展到有偏估计类或非线性估计类中,最小二乘估计的优势便会不复存在(2)实际应用中,最小二乘估计(LSE)对处理高维的复共线性数据的无力性。随着回归分析应用的广泛,特别是信息化时代带来的涉及众多参数的大型回归系统的进行,研究者发现随着回归变量的增多,自变量之间难免存在近似的线性关系,从而导致设计阵的列向量近似地线性相关2,3,我们把这样的设计阵称为病态的。当设计矩阵 X 为病态时,利用 LSE 得到的估计参数 在 p 维空间的某些方向上严重偏离实际值, 估计出的系数往往不稳定或与实际结果大相径庭。这种结果导致了虽然利用快速且高精度的计算机但估计得到的参数往往不理想,甚至会误导结论。为了解决最小二乘法带来的问题,很多统计学者提出了包括非参数回归、稳健回归等方法来克服它,并想找出导致这种结果的根本原因。经过研究,人们发现导致这种结果的原因之一是由于度量估计优劣标准的选取。我们知道,回归系数的最小二乘估计在一切线性无偏估计中具有最小的方差,但这并不表明在整个线性估计类中它仍然是最好的估计,而且如果将估计类扩展到线性和非线性的综合估计类,就更难将最小二乘估计看作是最优估计了。长期以来,人们考虑最优估计时,仅仅在估计必须是无偏估计前提下,寻找使估计方差最小(方差越小,估计越稳定)的估计,这种思路显然是先强调估计的无偏性,而将估计的稳定性放在了次要位置,最小二乘估计便是这种思路下的最优结果。实际上,参数估计的很多情况下,要同时考虑估计的无偏性和稳定性,因而要建立同时兼顾无偏性和稳定性的标准,其中最常用的标准2-4就是均方误差(MSE),或者是均方误差矩阵(MSEM,也称为是离差阵 MDE),线性有偏估计便是这种新的度量标准下的有效估计。线性有偏估计是针对病态阵 X 来改进 LSE 最直接的方法。1955 年 Stein 证明了最小二乘估计在平方损失下的不可容许性,紧接着 James和 Stein 提出了著名的 James-Stein 压缩估计2(James-Stein Shrinkage Estimation),在二次损失下,它优于原有的最小二乘估计。这种新的结果使得大量的统计学家对有偏估计的研究产生了兴趣,并相继提出了很多新的有偏估计。除了压缩估计,在众多的有偏估计中,影响较大还有主成分估计2,3(PrincipalComponents Estimation)、岭估计2,3(Ridge Estimation)、广义岭估计2(General RidgeEstimation)和 PLS 估计3(Partial Least Squares Estimation)等。1965 年,WFMassy3针对设计矩阵的病态提出了一种有偏估计主成分估计。它的本质是先把回归自变量变换到它们的主成分,然后选择其中一部分重要的主成分作为新的自变量,对它们应用最小二乘法作 LS 估计,然后再转换到原来参数的估计。这种中间转换过程避免了由于设计阵的病态而导致的估计误差。1970 年,Hoerl 和 Kennard2,3提出了另外一种有偏估计,称为岭估计(也称狭义岭估计)。其基本思想是在设计阵计算中引入一个偏参数,通过对此参数的合理取值来消除由于复共线性带来的估计误差。后来统计学家又将这种估计方法中的单变量的偏参数扩展到了偏参数矩阵,称为广义岭估计。近几十年来的应用实践表明,当设计阵病态时,岭估计确实改进了 LS 估计,它是目前应用最为广泛的一种非最小二乘估计。Wold3基于他 60 年代中期的固定点的算法建立了偏最小二乘估计的理论基础。其基本思想是基于对解释性变量的线性转换而对回归变量进行预测,即要从现有的存在共线性的自变量中提取出新的互不相关的线性组合(也称为因子,潜在变量或成分)。这种方法在化学统计、心理学统计等领域获得普遍采用。随着时间的发展,上述每种估计也在不断丰富和扩充。其中,Singh和Chaubey6于1986年提出了几乎无偏的岭估计,贾忠贞7于1987年提出了组合主成分估计,杨虎81989年提出了单参数主成分估计,归庆明9于1994年提出了多元广义主成分估计类,徐文莉和林举干101995年提出了岭型组合主成分估计,于义良和宋卫星11,121995年提出根方型主成分估计和stein型主成分估计,黄养新13于1995年提出了增长曲线模型回归系数的广义岭估计,林路14于1996年提出了综合岭估计,Aldrin15于1997年提出的改进的岭估计等。上述的压缩估计、主成分估计、岭估计和 PLS 估计四种估计方法都是利用兼顾估计的无偏性和稳定性的度量准则得到的。然而,近年来人们研究发现,在同时兼顾无偏性和稳定性时,还可以进一步使估计参数接近真实值,即所谓的几乎无偏(或近似无偏)。其中最具代表性的是 1991 年杨虎16提出的泛岭估计类(2004年改为统一有偏估计类 Unified Biased Estimation ,简称 UBE),目前讨论较多的Liu 估计是 Liu17,18于1993年对岭估计进行修正和改进而提出的,它实际上是UBE的特殊情况。这种近似无偏估计方法是在原来的有偏估计的基础上再增加偏参数,从而不但降低了估计的均方误差,而且使得估计更接近于无偏性。因而已经有很多文献对它们进行讨论19,20。值得提出的是,在所有这些方法中,岭估计以其原理的简洁性受到人们的青睐。在实际应用中,岭估计也是取代最小二乘估计的最常用的一种有偏估计,因此人们对岭估计的研究倍加重视,时至今日,还有很多的文献对岭估计的性质及其偏参数的确定方法进行讨论,并提出了各种修正岭估计,其中minimax估计3便是其中之一。在岭估计的研究中,偏参数k的选取也是一个非常活跃的研究方向,到现在为止确定k的方法已有十多种,如岭估计的提出者Hoerl和Kennard于1970年提出的岭迹法及其HK公式,后来1976年又与Baldwin合作提出了HKB公式,1976年Lawless和Wang从Bayes观点出发,提出了LW公式,同年Hocking、Speed和Lynn提出了HSL公式,国内的学者如陈立萍、鲁国斌、汪明瑾与王静龙等都对偏参数的确定做了相应工作4。在实际应用中,这些方法各有优劣,很难给出统一的方法,GolamKibria于2003年给出了现有的几种常用的偏参数的确定公式的比较。.本文研究的目的和内容通过本文的讨论,笔者想达到的目的:我们经常讨论的都是假定协方差阵为,但是,客观上还是存在着许多的线性模型,其协方差阵的形式为,并且V往往还包含未知参数,这就叫做异方差阵。本文讨论的就是假设在V是已知的正定矩阵的条件下,线性模型的一些基本估计的变型,及其MSE优良性的比较。本文的内容:1 求出基于异方差阵线性模型的最小二乘估计及其相应的一些性质 2 求出基于异方差阵线性模型的其他有偏估计:岭估计和LIU估计以及 其相应的一些性质 3 比较岭估计和LIU估计与最小二乘估计的MSE有有良性 基于异方差线性模型的估计.基于异方差阵线性模型的最小二乘估计 本节讨论的线性模型, (1)假设X是列满秩的,其中的参数,的估计问题。因为我们假设了,所以存在唯一的正定矩阵。用左右乘以(1),并记:,就可以得到:,这就转化为以前讨论过的情形。对模型(1)用最小二乘法求的LS解,即是求解求导,就可得到正则方程为 于是就可以得到的LS估计为我们可以得到的期望以及方差:所以为的无偏估计。我们定义偏差为因为为的无偏估计,所以为0.因此我们就可以得出的均方误差阵为: .基于异方差阵的的线性模型的岭估计对于常规的线性模型: ,的LS估计为。那么如果X的列间具有近似的线性关系,则将是病态的。因此就是不可信赖的。为了改进估计的性能,我们改写的估计为这样就改变了由于的病态带来的求逆问题。因此这种方法我们把它叫做岭估计。对于现在我们研究的异方差阵的线性模型: ,我们同样可以用上面同样的方法装成我们以前讨论的常规线性模型: ,因此我们可以给出基于异方差模型的岭估计: 下面我们讨论的期望与方差: 因为不等于,所以不为无偏估计。 以及他的偏差为: 均方误差为: .基于异方差阵的线性模型的LIU估计 岭估计在克服近似的共线性的问题上比最小二乘估计有了很大的进步,然而,当近似共线性的程度很严重时,岭估计也是无能为力的。为了更好的克服多重共线性问题,K.J.LIU提出了一种新的有偏估计LIU估计:同样的道理,我们可以根据上面的方法把 ,装成我们以前讨论的常规线性模型: ,因此我们可以给出基于异方差模型的LIU估计: 下面我们讨论这种情况下的LIU估计的期望方差: 那么其偏差为: 那么其均方误差为: , 比较和的MSEM优良性 上式成立的充分条件为: 充分必要条件为:令即是: 根据代数基本定理:设,则有,其中有A为矩阵,d为实数,x为向量。那么我们就有气充分条件为:充分必要条件为: 那么我们就可以得出定理1: 当时,就MSEM优于。也就是: .比较和的MSEM优良性所以成立的充分条件为: 充分必要条件为: 令,有: 同样根据上面的代数定理,我们就可以等价的得出:充分条件为: 充分必要条件为: 因此我们可以给出定理2:存在 当时,就MSEM优于,也即是: 实证分析我们采用一组1994年到2002年的国内旅游数据做实例分析。具体数据见表:年份国内旅游收入Y(亿元)国内旅游人数X1(万人次)城镇居民人均旅游支出X2(元)农村居民人均旅游支出X3(元)公路里程X4(万公里)铁路里程X5(万公里)19941023.552400414.754.9111.785.9019951375.762900464.0615115.705.9719962112.764400599.8145.7122.646.6019972391.269450607.0197.0127.856.6419982831.971900614.8249.5135.176.7419993175.574400678.6226.6140.276.87200035522.478400708.3212.7169.87.0120013878.487800739.7209.1176.527.1920023442.387000684.9200.0180.987.30其中Y表示国内旅游收入,X1为国内旅游人数,X2为城镇居民人均旅游支出,X3为农村居民人均旅游支出,X4为公路里程,X5为铁路里程。其中的我们取得为通过上面的方法我们可以转化成以前我们学过的模型来研究,用R软件可以求出他的特征值:所以其条件数是大于1000的,这表明该设计矩阵存在严重的复共线性。运用最小二乘估计得到: 所以我们还可以计算出其MSE=105952.5当我们取K=0.0001时,可以得出其岭估计为:则则我们可以计算出其MSE=78869.5当d=0.9995时,可以得出其LIU估计为: 则则MSE=105846.7上面的结果都表明,是存在这样的K,d使岭估计和LIU估计MSE优于最小二乘估计。从而验证了岭估计和估计的优良性。参考文献:1 C.R.Rao, H.Toutenburg, Shalabh, C. Heumann, Linear Models and Generalizations: Least Squares and AlternativesM,New York: Springer-Verlag,2008.2 王松桂,史建红,尹素菊,吴密霞.线性模型引论M.北京:科学出版社,2004.3 陈德英,线性模型中的liu型估计,北京交通大学硕士学位论文,20084 钟 震,线性模型中的约束型有偏估计的研究,重庆大学硕士学位论文,20055 封维波,半参数模型的进一步研究,重庆大学硕士学位论文,20086 F. Akdeniz, S. Kaciranlar. On the almost unbiased generalized Liu estimator and unbiased estimation of the bias and MSE J. Comm. Stat. Theory Methods, 1995, 24(7):1789-1797.7 Kejian Liu. Using Liu-Type Estimator to Combat CollinearityJ. Comm. Stat. Theory Methods, 2003, 32(5):1009-1020.8 A. E. Hoel, R. W. Kennard. Ridge regression: biased estimation for non-orthogonal problems J. Technometrics, 1970, 12:55-88.一种新的估计在随机线性约束条件下结合岭估计和主成分估计提出一个新的估计在线性模型中的多元共线性的问题以及他的统计学性质大家都很熟悉。多元共线性会导致最小二乘法远离真实值,使其方差变大。为了克服这个问题,不同的纠正措施被采取。其中最出名的方法就是有偏估计,例如有:Stein估计,岭估计,主成分估计。另一种方法就是在参数估计中对未知参数加一些约束,这些约束可以是确定的也可以是随机约束,例如有:约束最小二乘估计(RLSE)和混合估计。结合两个不同的函数可能会继承这两个估计的优良性,比如LIU估计就是就是结合了Stein估计和岭估计。Sakallolu and Karanlar (2008)引进了一个基于岭估计的新的有偏估计。Li和Yang结合岭估计和混合估计,提出了随机约束岭估计(SRRE),这个包含了LSE,岭估计和最小二乘估计。Baye和Parker(1984)结合Liu估计和(PCR)主成分估计提出了r-k估计,并证明了其MSE优于主成分估计。另外,Karanlar and Sakallolu (2001)提出了r-d估计包含PCR估计,Liu估计。另外,zkale and Karanlar (2007)比较了r-d估计在MSE准则下与PCR,LSE,r-k估计估计的优良性。zkale (2009) 引入了约束主成分估计通过把PCR估计植入到RLSE。下面的我们就引入一个新的参数有偏估计,并且提供一个方法去克服在参数随机约束条件下的多元共线性的问题。这个新的有偏估计可以看着是PCR估计,r-k估计和SRRE的一般化。并证明了新的估计在MSE准则下优于其他的估计。下面我们考虑模型:其中y为维的向量,X是已知的设计矩阵,秩为p。为未知向量。是服从均值为0.方差为的分布。h是给定的向量,R是一个的矩阵,秩为m。e是服从均值为0,方差为的分布,W是已知的正定矩阵。并且和是相互独立的 。 Li and Yang(2010)提出了SRRE估计。定义为: 其中k大于0、设是正交阵,则有:其中,。是主成分矩阵。是有序的特征值。,其中0rp。上面的模型就可以转化为:其中PCR方法是用来减少估计问题的维数。的PCR估计就是删除了对应于0 特征值的这部分主成分矩阵。然后在用最小二乘法去估计。就可以得到PCR估计: 我们现在引入一种新的有偏估计通过一种特殊的方法结合随机约束岭估计和PCR估计。采用SRRE的定义,就有:对应的估计叫做随机约束r-k估计为: 其中我们可以发现SRRE的特殊情形:如果,就为PCR估计如果,就为r-k估计如果,为SRRE由上面我们可以发现可以看做这三种估计的一般化。比较随机约束r-k估计的优良性在这一小节,我们将会讨论随机约束r-k估计的优良性。我们首先给出一些基本的引理:引理1 设为的两个同种线性估计,设,那么当且仅当,其中的为偏差。引理2 如果定义两个的矩阵,有:引理3 设A,C矩阵不是奇异的,B,D是满秩的矩阵,就有:根据前面的式子我们可以得到:其中的,下面我们比较他们的MSE优良性:其中:下面我们给出随机约束r-k估计MSE优于PCR估计,r-k估计和SRRE估计的充分必要条件:定理1 当,那么是MSE优于PCR估计,也即是当且仅当。证明:因为,因此就有当,通过引理2得,在结合引理,可以得到当且仅当。定理 2 新的随机约束r-k估计一致优于r-k估计。证明:我们考虑:由定理3 我们可以得: 很显然就有:。我们就可以得出定理2定理 3 当,新的随机约束r-k估计MSE优于SRRE估计,也即是当且仅当。证明:很显然有:,因此当由引理2我们可以得出,又由引理3得到:当且仅当。定理得证。实证模拟半参数最近几十年大量的学者对半参数模型的参数估计和非参数估计做了大量的工作,现在我们其中主要方法进行一个概括介绍,并对其中的补偿最小二乘法和二步估计最小二乘核估计做主要详细的介绍。第一种参数估计法,就是将非参数分量参数化的估计方法。关于半参数模型的早期工作是这样的思路:对函数空间附施加一定的限制(主要指光滑性),由于W常是无穷维的,通常由光滑性可使用合理的逼近形式,使得W中的元素参数化。例如:在函数空间中选定一组基,于是。若W中的元有某种光滑性,使此级数一致收敛,则可用有限和逼近。于是估计的问题转化为估计有限维参数,从而可使用线性模型的方法(如最小二乘法,)同时估计及。由于这种估计是以非参数分量的参数化为特征,故大多以使用的参数化的方法命名(如偏光滑样条估计、偏分块多项式估计、分段多项式估计等)。第二种是两步估计。两步估计的思路是:先假设x已知,我们可以做出S的非参数估计,其中的为任意的参数,根据采用的方法的不同,将两步估计分为不同的估计方法(如近邻估计、权估计、核估计、小波估计等).然后定义X的估计为下述极小问题的解 :求出的解为,从而就可以求出。第三种估计方法是两阶段估计.其思路是:,则是相互独立的同分布。且,。那么模型就化为:对于模型上面的模型使用最小二乘法得到的估计 (称为的一次估计):然后基于残差,在模型中使用某种方法(如核光滑、概率权、多项式、小波等)估计,记为。最后将代入模型中,再次使用最小二乘法,得到的二次估计.第四种估计方法为抗差或稳健估计。以上两种途径的共同点是使用最小二乘法,而且在多数情况下得到的估计是线性的,这对理论分析和实际应用带来不少方便。但众所周知,由最小二乘法得到的估计缺乏稳健性,故近来一些学者使用由Hube(r1964)提出的稳健估计的思想,考虑半参数模型的M估计,即引进一个定义在R上的凸函数,寻找和使:或其中一般取为实数权,但在理论研究时,它可为随机权。对此,上面提到的方法和思想同样适用。第五种途径是补偿最小二乘法。补偿最小二乘法先后由Wahha(1984)、Grene等(1985)、Engle等(1988)引入的,是半参数回归模型最为广泛使用的一种方法.这种方法既考虑到估计量同数据的拟合,又顾及到非参数分量估计的光滑性。前者一般用残差平方和度量,后者则需要确定一个定量指标J(s).如文献22的准则是: 其中:,a是一个给定的非负纯量因子,在极化过程中对V和S起平衡作用,称为平滑因子,R为适当给定的正定矩阵,称为正规化矩阵。平滑因子a及正规矩阵的选取问题参见文献【63。第六种是泛最小二乘估计。补偿最小二乘法则的提出是基于两个方面的原因:一方面,是为了使最小值问题可以求解;否则,因未知数的个数多于方程的个数,使的解不唯一;另一方面,是为了对估计的曲线起平滑作用(a因此而称为平滑因子)。尽管它们都是必要的而且是可行的,但仍有不足之处:该法则没有直接体现参数分量,从而使参数分量的估计有时并不理想。因此胡宏昌提出了其中,是给定的非负纯量因子,在极化过程中对起平衡作用,分别称为平滑因子和平衡因子;R、Q均为适当给定的正定矩阵(有时可以是半正定),称为正规化矩阵。不仅它是补偿最小二乘估计及岭估计的推广,而且更重要的是:它既发扬了以上两个方面的优点,又考虑了参数分量X的估计,从而提高了估计的准确性,得到了满意的结果。第七种是差分估计方法。一半参数的补偿最小二乘法半参数模型为: (1)其中的是一个描述模型的误差或系统误差的n维未知变量,X为列满秩的设计矩阵,为偶然误差。半参数的模型相对于经典的线性模型,将除线性模型的误差分为两类:系统误差和偶然误差,这在系统误差不能简单的忽略的情况下是很重要的。在后面将比较,补偿最小二乘法是优于一般的最小二乘法。我们可以得出模型(1)对应的误差方程: 利用经典的的最小二乘法,可以通过最小化,这里P为对称的正定阵。可以得到法方程:由于待估计的参数的数目为个,而法方程只有个,就无法得到唯一解。因此就需要对进行修改。因此我们引入正规化矩阵和平滑因子,那么进行修改为: 为给定的适当的正定矩阵,为给定的纯量因子,对极化过程中的和起平衡作用,称为平滑因子。利用Lagrange乘数法,就可以构造函数:分别令,可以如下方程:(2,10)(2.11)(2.12)将式(2,10)和(2.11)相加,有将(2.10)乘以,然后再将(2.12)和(2.4)带入,就有:设,由于可逆,所以有:下面就是求出.将(2.4)带入(2,13)得到:将(2.15)带入上式:令,可以证得M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论