线性回归专题_第1页
线性回归专题_第2页
线性回归专题_第3页
线性回归专题_第4页
线性回归专题_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.线性回归专题一元线性回归在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达。另一种非确定性的关系即所谓相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样,这是因为我们涉及的变量(如体重、血压、湿度)是随机变量,上面所说的变量关系是非确定性的。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一变量所取的值。(一)一元线性回

2、归 设随机变量与之间存在着某种相关关系。这里,是可以控制或可以精确观察的变量,如年龄、试验时的温度、施加的压力、电压与时间等。换句话说我们可以随意指定个值。因此我们干脆不把看成随机变量,而把它当作普通的变量。本章中我们只讨论这种情况。由于是随机变量,对于的每一个确定值,有它的分布。若的数学期望存在,则其取值随的取值而定,即的数学期望是的函数,记为或。称为关于的回归。由于的大小在一定程度上反映在处随机变量的观察值的大小,因此如果能设法通过一组样本来估计,那么,在一定条件下我们就能解决如下的问题:在给定置信度下,估计出当取一定值时,随机变量的取值情况,即所谓预测问题;以及在给定置信度下,控制自变量

3、的取值范围,使在给定的范围内取值,即所谓控制问题。我们对于的、取定的一组不完全相同的值,作独立试验得到对观察结果,其中是处对随机变量观察的结果。这对观察结果就是一个容量为的样本。我们首先要解决的问题是如何利用样本来估计关于的回归。为此,首先需要推测的形式。在一些问题中,我们可以由专业知识知道的形式。否则,我们可将每对观察值在直角坐标系中描述出它的相应的点,这种图称为散点图。散点图可以帮助我们初略地看出的形式。例1 为研究某一化学反应过程中,温度对产品得率的影响,测得数据如下。温度1180190得率45515461667074788589这里自变量是普通变量, 是随机变量。画出散点图如图9-2所

4、示。由图大致看出具有线性函数的形式。图9-2设关于的回归为。利用样本来估计的问题称为求关于的回归问题。特别,若为线性函数:,此时估计的问题称为求一元线性回归问题。本节我们只讨论这个问题。我们假定对于(在某个区间内)的每一个值有,其中及都是不依赖于的未知参数。对作这样的正态假设,相当于假设,(3.2)其中未知参数及都不依赖于。(3.2)式称为一元线性回归模型。如果由样本得到(3.2)式中的估计,则对于给定的,我们取做为的估计。方程称为关于的线性回归方程或回归方程,其图形称为回归直线。思考:回归模型与回归方程有何异同?(二)的估计 取的个不全相同的值作独立试验,得到样本。由(3.2)式,得,各相互

5、独立。(3.3)于是,。且由的独立性,知的的联合密度为(3.4)现用极大似然估计法来估计未知参数,。对于任意一组观察值,(3.4)式就是样本的似然函数。显然,要取最大值,只要(3.4)式右端方括弧中的平方和部分为最小,即只需函数(3.5)取最小值。注意:如果不是正态变量,则直接用(3.5)式估计未知参数,使得的观察值与偏差的平方和为最小。这种方法叫最小二乘法。它是求经验公式的一个常用方法。若是正态变量,则最小二乘法与极大似然估计法给出相同的结果。取分别关于,的偏导数,并令它们等于零:(3.6)得方程组(3.7)(3.7)式称为正规方程组。为了和多元线性回归结合,设样本为则正规方程组也可以表示为

6、:若用矩阵表示,则 那么 正规方程组可表示为由于不全相同,正规方程组的系数行列式即故(3.7)式有唯一的一组解。解得的极大似然估计为(3.8)于是,所求的线性回归方程为(3.9)若将代入上式,则线性回归方程变为(3.10)(3.10)表明,对于样本观测值,回归直线通过散点图的几何中心。今后我们将视方便而使用(3.9)或(3.10)。为了计算上的方便,我们引入下述记号:这样,的估计可写成(3.12)(三)的估计 ,称为处的残差,平方和称为残差平方和。残差平方和服从分布:(3.14)于是,即,即知(3.15)是的无偏估计。为了便于计算,我们将作如下的分解:由(3.12)式,得的一个分解式(我们经常

7、使用)另外一个分解式是(我们不常使用,因为公式中含有这个随机变量)。(四)线性假设的显著性检验 在以上的讨论中,我们假定关于的回归具有形式,在处理实际问题时,是否为的线性函数,首先要根据有关专业知识和实践来判断,其次就要根据实际观察得到的数据运用假设检验的方法来判断。这就是说,求得的线性回归方程是否具有使用价值,一般来说,需要经过假设检验才能确定。若线性假设(3.1)符合实际,则不应为零,因为若,则就不依赖于了。因此我们需要检验假设(3.17)我们使用检验法来进行检验。我们有又由(3.14),(3.15)知且与独立。故有即(3.20)思考:与上式有何异同?提示:若,则,即,且提示完毕。思考完毕

8、。当为真时,此时且,即得的拒绝域为,(此处为显著性水平。)回顾:三种重要分布为:(一)设是来自总体的样本,则称统计量服从自由度为的分布,记为。(二)设,并且与独立,则称随机变量服从自由度为的分布,记为。(三)设,且与独立,则称随机变量服从自由度为的分布,记为。回顾完毕。请证明:服从自由度为的分布的随机变量的平方服从分布。证明:在此题中,设,且与独立,则根据分布的定义有另外,根据分布的定义,有,且根据题意,与相互独立,又根据分布的定义,有,而,即证明完毕。推论:根据上述命题,有所以即的显著性水平为的拒绝域为。推论完毕。当假设被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。回归效果不显

9、著的原因可能有如下几种:影响取值的,除了外,还有其它不可忽略的因素。与的关系不是线性的,而是存在着其它的关系。 与不存在关系。因此,当拒绝时,需要进一步地分析原因,分别处理。(五)系数的置信区间 当回归效果显著时,我们常需要对系数作区间估计。事实上,可由(3.20)式得到的置信度为的置信区间为(3.23)(六)预测 回归方程的一个重要应用是,对于给定的点,可以以一定的置信度预测对应的单个观察值或其均值的取值范围,即所谓预测区间。1. 均值的预测区间设是在处对随机变量的观察结果,它满足,(3.24)容易知道,(3.25)我们可以取处的回归值作为的预测值。命题:(3.26)证明:因为,所以又因为(

10、注意:与相互独立),所以因为服从正态分布,也服从正态分布,而是它们的线性组合,所以也服从正态分布,其均值和方差分别如上所述。即即证明完毕。根据上述命题,容易得到均值的置信度为的置信区间为当未知时,用来代替,此时有2. 单个值的预测区间因为是将要做的一次独立实验的结果,故相互独立。而根据知是的线性组合。因为,所以是的线性组合。故与相互独立。于是得或(3.27)备注:这是因为。另一方面由(3.14),(3.15)式且相互独立,故有于是对于给定的置信度,有若记。于是区间(3.29)称为单个观测值的置信度为的预测区间。备注:由此可见预测区间的意义与置信区间的意义相似,只是预测区间是对随机变量而言,置信

11、区间是对未知参数而言。由(3.29)式知对于给定的样本观察值及置信度而言,当愈靠近,预测区间的宽度就愈窄,预测就愈精密。记 则上述预测区间可写成或对于给定的样本观察值,作出曲线和这两条曲线形成包含回归直线的带域,这一带域在处最窄。多元线性回归在实际问题中,随机变量往往与多个普通变量()有关。对于自变量的一组确定的值,有它的分布。若的数学期望存在,则它是的函数,记为或,它就是关于的回归。我们感兴趣的是是的线性函数的情况。在这里,仅讨论下述多元线性回归模型: ,(4.1)其中都是与无关的未知参数。设,是一个样本。由模型知,。且由的独立性,知的联合密度为我们用极大似然估计法来估计参数,对于任意一组观察值,上式就是样本的似然函数。显然,要取最大值,只要使上式右端大括弧中的平方和部分为最小,即只需函数取最小值。取分别关于的偏导数,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论