版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 绪论1.1线性回归模型和最小二乘估计近现代统计学中线性回归模型是最为重要的模型,它在科学研究以及工农业生产当中都有十分广泛的应用,比如产品统计质量管理,经验公式的搜寻,试验数据的处理,市场预测,地质勘探,气象预报等。线性回归模型是用来描述一个随机变量y与变量之间的线性关系的,一般具有下述形式 , (1.1)一般我们将矩阵X称为设计矩阵。为了简便起见,我们之后的研究讨论都基于以下模型 , (1.2)线性回归模型中最为常见也是最基本的问题是其回归系数的估计。回归系数的估计方法很多,发展最早也是最基本的方法是最小二乘法,这种方法是由Legendre和Gauss先后于1806年和1809年独立提出
2、。对于参数和,将它们的最小二乘估计(LS)定义为统计学家通过对的大量研究,发现其具有很多优良的性质。性质1.1 是的无偏估计,并且。性质1.2 对于模型(1.1),的任意一个线性函数的最小方差线性无偏估计(BLUE)是,是维向量。性质1.3 LS估计在线性估计类中是可容许估计。我们假设误差向量服从多元正态分布,那么模型(1.1)中参数的最小二乘估计有更好的性质。1.2 最小二乘估计变坏的原因由于最小二乘估计在线性估计类中的最优性,我们在很长一段时间内都把最小二乘估计当作线性回归模型参数估计的最好估计。然而,容许性理论的不断发展和人们对于含有很多变量的回归问题的研究,人们逐渐发现在某些情况下最小
3、二乘估计的性质变得不再那么优秀。为了探讨最小二乘估计性质变坏的原因,为了方便后文讨论研究,先给出可容许估计的定义以及度量估计好坏与否的均方误差的定义。定义1.1 和是的两个估计,若对于损失函数(1),对于所有成立,(2)至少存在一个,使得上式中不等号成立。那么我们称关于损失函数一致优于。如果在一个估计类中,不存在一致优于的估计,我们就称在这个估计类中关于损失函数是的可容许估计。我们简称为的可容许估计。若不然,我们称是的不可容许估计。定义1.2 假设参数向量的估计量是,我们称是的均方误差。在理论分析当中,最小二乘法估计具有不可容许性。1955年,Stein证明了对于多元正态分布,在平方损失函数下
4、,它的均值向量的最小二乘估计具有不可容许性。这一重大发现促使人们对最小二乘估计重新加以研究。经研究发现,最小二乘估计的优良性质仅在线性无偏估计类中存在,然而在非线性估计类中,最小二乘估计的优越性便不再存在。在实际应用中,最小二乘估计法对于处理多维的复共线性数据的乏力性。电子计算机的飞速发展,使得人们经常处理一些包含较多变量的回归问题,大量应用实践证明,在复杂的大型回归模型问题中。最小二乘估计表现并不理想。比如某些回归系数的估计的绝对值非常大,有时回归系数的估计值的符号和问题的实际意义互相矛盾等等。科学研究表明,产生上述问题的重要原因就是回归自变量之间存在近似的线性关系,我们称为复共线性。这时设
5、计矩阵X的病态(矩阵的特征根中至少有一个接近于0)的,即使最小二乘法估计的方差在线性无偏估计类中是最小的,但其值很大,这就说明这种情况下的最小二乘估计的精度不高。这是由于最小二乘估计均方误差是由上式可以看出,矩阵的特征根只要有接近于零的,的值就会异常大。遇到这种情况,我们就不能再用最小二乘估计来估计回归参数了。那么我们就需要寻找更好的估计来替代最小二乘估计。1.3 几种影响深远的有偏估计由于某些最小二乘估计不再优良的估计此类情况,近五十年来统计学家们研究了关于最小二乘估计的改进问题,相继提出了一些改进方法。一种方向就是设法消除回归自变量之间的复共线性,从而提出了特征根估计,主成分估计等。第二种
6、方向是减小的最小二乘法估计的均方误差,从而提出了Stein估计,岭估计以及Liu估计等。这些方法有一个共同点,就是估计的数学期望不等于待估的未知参数,故人们将这些估计统称为线性回归参数的有偏估计。我们考虑从减小均方误差的方向出发得到的有偏估计,影响力较大的有下面几种。(一)岭估计及广义岭估计岭估计是一种有偏估计,是对最小二乘法估计的改进,这种估计的研究与应用受到统计学家们的广泛重视。定义1.3 对线性回归模型(1.2),回归系数的岭估计定义为 (1.3)上式中称作岭参数,显然,我们发现最小二乘估计是时的特殊情况。岭估计与最小二乘估计相比,把换成了。直观上来说这样做的原因也是十分明显的。当呈病态
7、的时候,的特征值至少存在一个非常接近零,然后的特征根接近于零的程度就会大大改善,先前设计矩阵的复共线性也就不复存在,岭估计的均方误差也就小于最小二乘估计了。由大样本理论来看,满足一定条件下的岭估计的收敛速度不低于最小二乘估计。沿着上述方向深入思考,我们发现如果以对角元不必全都相等的对角矩阵替代,能够进一步减小均方误差。于是我们有了下面的广义岭估计。定义1.4 对线性回归模型(1.2),定义回归系数的广义岭估计为 (1.4)其中。(二)Stein估计岭估计是将最小二乘估计向远点压缩后得到的,一般,他们是对各个分量的不均匀压缩。而Stein估计是一种均匀压缩估计,是由统计学家Stein于1955年
8、提出的。它是提出最早,也是最简单的无偏估计。虽然它的应用不及岭估计,但扔在有偏估计领域占有重要地位。定义1.5 是的Stein估计,此处我们称之为压缩系数,在区间上变化时,就生成了一个估计类。Stein估计中最为重要的是James-Stein估计,我们简记为J-S估计。Stein估计的具体性质我们会在后文作出详细的介绍。(三)Liu估计下面介绍一种比较新的估计,也就是Liu估计。Liu估计是Liu于1993年提出的新的有偏估计。近十年以来,Liu估计得到了众多统计学家的广泛关注,统计学者对其进行了大量研究。定义1.6 在线性模型(1.2)中,我们称 (1.5)为回归系数的Liu估计。其中是非随
9、机常数,实际应用中,我们要慎重考虑d的选取。和前文的岭估计类似,我们可以将式(1.5)中的换成矩阵,这样即可将Liu估计推广得到广义Liu估计。不难看出,上述三种估计均是从减小均方误差的方向提出,一些统计学家讨论了这些有偏估计之间的关系。4得出了J-S估计优于岭估计的条件,5将Liu估计,和岭估计,广义Liu估计和广义岭估计进行了深入比较。6将Stein估计与岭估计组合在一起,7中把Liu估计与岭估计组合在了一起,最后得出的新估计从某种意义上更进一步地改进了最小二乘法估计。1.4平衡损失函数对于模型(1.2)中回归系数, 以拟合优度的角度出发能够得到最小二乘估计,以统计判决角度理论的角度,就是
10、在二次损失函数下从线性估计类中选择使风险达到最小的估计,从而得到各类可容许估计。但是,我们在对回归系数进行估计时,既要考虑拟合优度,还要考虑估计的精度。 为此,Zellner在比较总结了两种方法的优劣后,将两种方法进行综合,得出了一种新的称为平衡损失函数的标准 (1.6)上式中,S是已知正定矩阵,是的估计。损失函数(1.6)同时考虑了模型拟合优度以及估计的精度,比二次损失以及残差平方和更加全面也更加合理。学术领域中,平衡损失函数参数估计,估计比较和未来观察值预测等方面得到了广泛应用。例如Wan8研究了不等式约束下参数的最小二乘法估计及其他相关风险比较,Giles9等共同研究了Stein估计及某
11、些回归系数的先验估计的风险。Bansal10等人在平衡损失函数条件下对有限总体回归系数的Bayes预测做出了适当的讨论。1.5全文安排本文第一章主要介绍了线性回归模型,最小二乘估计和几种著名的有偏估计,探讨了最小二乘估计不再优良的原因,并简单介绍了平衡损失函数的研究成果。第二章给出了Stein估计的定义以及基本性质,并分别介绍了三种影响力较大的Stein估计,它们是Farebrother估计,J-S估计以及重K类估计。第三章是本文的主要内容,在本章中我们证明了在一定条件内在平衡损失函数下Stein估计相对于最小二乘估计的优越性,并给出了Stein估计优于最小二乘估计的充要条件,在证明之前给出了
12、基本理论用以铺垫。第四章也是本文的主要内容之一,本章着重研究了在平衡损失函数意义下Stein估计的压缩系数的选取方法。第五章对本文所探讨的内容进行了简单的总结,并提出了目前尚待解决的问题和一些解决思路。2 几种重要的Stein估计2.1 Stein估计基本定义及研究背景在统计决策理论当中,可容许估计是对估计最基本的要求。若一个估计是不可容许的,我们就能找到更好的估计代替它。一般情况下,未知参数向量的可容许估计是很多的,它们组成了一个庞大的估计类。故在实际应用时,我们应该根据一些其它标准,例如方差最小性,无偏性,平衡损失函数最小性等,从估计类中选取一个特殊估计。如最小二乘法估计因为自身的优良性质
13、得到了广泛应用。而Stein在1956年发现在多元正态总体中,的最小二乘估计在的情况下在均方误差的意义下不可容许,这也就说明了之前被普遍接受并且应用非常广泛的最小二乘估计是不可容许的。这个惊人的发现,促使了一个新的研究领域的出现,著名的Stein估计便应运而生了。我们称为的Stein估计,此处我们称之为压缩系数,c在区间上变化。那么Stein估计有下述性质:(1) 若,那么是的有偏估计,同时是压缩估计,即(2) 存在这样的,它使成立。证 记得均方误差为对求导,且令其等于零,求得最优解我们发现,在处取到最小值,并且当时成立。不难发现,Stein估计中压缩系数的最优值依赖于未知参数与,我们必须通过
14、数据来选测压缩系数。在应用上,我们通常用未知参数的估计值来替代未知参数从而求得压缩系数的最优值。2.2 几种Stein估计1 Farebrother估计定义2.1 假设参数向量的估计量是,我们称是的均值偏离误差。考虑模型(1.2),假设的估计是,我们可以将它写成下述形式:其中是阶矩阵,那么 (2.1)我们将上式求关于的偏导数,并让它为零,就有因而我们得到了的最小MDE估计是 (2.2)我们可将(2.2)式改写 (2.3)在上述计算中,我们分别用与的最小二乘估计来替代它们,得到 (2.4)我们把上式中的称作Farebrother估计。2 重K类估计考虑将(2.3)式中扩充成如下形式 (2.5)若
15、我们分别将,与以,与,那么改写为可计算形式上式中其中,它是幂等矩阵。我们发现与所以可以将改写成如下形式:不难发现,时,时。我们把改写成为更一般的如下形式 (2.6)上式中,是任意的非随机或者随机纯量,我们将称为的重K类估计。对于重K类估计,8中详细探讨了它相对于最小二乘估计的优越性。3 J-S估计我们在研究一些多元统计关于均值估计的问题时,知道在正态随机向量中,已知,在获得样本后,若取得估计为上式中是常数,那么当时,估计与样本X的均值相比有较小MSE,也就是说,样本均值不是的容许估计,这是由James-Stein于1961年提出的。现在将这种思想方法应用于模型(1.2),首先考虑模型 (2.7
16、)上式中,是奇异值分解,H是阶矩阵,使成立,是阶矩阵,它是的特征向量矩阵,是阶矩阵,它是由的特征值的平方根构成的对角阵。我们记,所以上式中。这样以来,我们可以利用的J-S估计,借助等式(2.7),我们可将估计记为 (2.8)我们在得到上式的过程中只需要注意所以,并且。若未知,那么我们就用的无偏估计替代,这时,我们称具有上述形式的估计为James-Stein估计,简记为J-S估计。不管是从实际应用的角度还是理论研究的角度出发,J-S估计都是最为重要的一种Stein估计,11讨论了J-S估计和Bayes估计以及经验Bayes估计之间的关系,12给出了非常重要的J-S估计的应用。除了上述提到的三种估
17、计以外还有1314等等重要的Stein估计。近些年来,统计学家们在其文献中提出了许多其它的Stein估计,本文不再介绍。3 平衡损失函数下Stein估计相对于LS估计的优良性3.1 理论准备 前文简单讨论了Stein估计在均方误差意义下相对于最小二乘估计,也就是LS估计的优良性,那么在平衡损失函数意义下,Stein估计和最小二乘估计又会表现出怎样的优劣性呢?在进入优劣性的证明之前,我们先熟悉下述理论。定义3.1 在模型(1.2)中,参数向量的估计量为,那么的平衡损失风险函数为这里是已经正定矩阵,在第一章中我们已经知道平衡损失为其中。平衡损失风险函数准则下讨论Stein估计对于最小二乘估计的优良
18、性,模型(1.2)中,取平衡损失中的S为。引理3.1假设,为已知,是实函数,并且,那么引理3.2 假设,那么其中表示参数为的Poisson分布。3.2平衡损失函数意义下Stein估计优于最小二乘估计的证明熟悉了上述理论铺垫后,下面开始Stein估计在平衡损失意义下相对于最小二乘估计优越性的探讨。定理3.1 模型(1.2)中,平衡损失函数下的Stein估计优于最小二乘估计的充分必要条件为:证明 由于由于,平且与独立,故有根据已有条件我们可以求出接下来取,由引理3 1可得上式中故可以求得然后令,根据引理3.2,可得 所以从而可以得到它等价于定理3.1说明了只需要控制c在一个特定范围内取值,那么我们就能保证在平衡损失风险下Stein估计是优于最小二乘估计的。4 平衡损失函数下Stein压缩系数的选取4.1Stein压缩系数求解思路前文中已给出了在均方误差最小意义下,Stein估计的压缩系数的选取方法,那么在平衡损失函数意义下,压错系数该如何选取?我们已经知道平衡损失函数的形式为其中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 锦鲤周年活动策划方案(3篇)
- 烟花庆典策划活动方案(3篇)
- 河南省新乡市、鹤壁市、安阳市、焦作市2026届高三上学期1月一模历史试卷
- 医联体医疗设备基层共享模式探索
- 医疗资源分配的基层服务能力建设
- 医疗设备预算编制中的供应商谈判技巧
- 医疗设备采购中的跨部门协作机制
- 数字与篮球手抄报
- 医疗设备维护与医院合规管理实践
- 云南国防工业职业技术学院《会计信息管理(军工企业)》2024-2025 学年第一学期期末试卷(财经专业)
- 超声内镜穿刺的护理配合
- 网络空间测绘与安全可视化技术
- 2022年中国工艺美术馆招聘考试真题
- 辅导员工作的职责与使命课件
- 防造假管理程序文件
- ktv股东合作协议书
- 2023年北京海淀区高三一模化学试题及答案
- 肿瘤内科静脉给予抗肿瘤药物评价标准
- 医疗器械生产质量管理规范无菌医疗器械实施细则和检查评定标准
- 吊篮租赁安拆分包合同
- GB/T 20728-2006封闭管道中流体流量的测量科里奥利流量计的选型、安装和使用指南
评论
0/150
提交评论