应用数理统计-叶慈南-第五章1.doc_第1页
应用数理统计-叶慈南-第五章1.doc_第2页
应用数理统计-叶慈南-第五章1.doc_第3页
应用数理统计-叶慈南-第五章1.doc_第4页
应用数理统计-叶慈南-第五章1.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 回归分析5.1 一元线性回归 在自然界的现象中,同一过程中的各种变量之间往往存在着一定的关系,这种关系大致可以分为两类:确定性关系例如电路中的电压V、电阻R和电流I三者之间服从欧姆定律V=IR只要知道其中两个变量的值,另一个变量的值就唯一确定了相关关系例如人的年龄、身高、体重和血压之间也存在一定的关系,一般来说年龄大的、体重重的人血压也要相应的高一些,但这种关系并不是确定的,因为即使年龄和体重都相同的人,其血压也不一定相同又如在土地和耕作条件相同的条件,每亩的施肥量、播种量与农作物的产量之间也存在一定的关系,一般来说施肥量、播种量适当时产量较高,同样这种关系也不是确定的,具有某种随机性,变量之间这种不确定性关系在社会现象和自然现象中普遍存在,其原因主要是由于一些随机因素的干扰和测量上的误差,我们称变量之间的这种不确定关系为相关关系回归分析就是分析和处理这些具有相关关系的变量之间关系的一种有效方法在研究具有相关关系的变量之间的关系时,往往要考虑一些变量的变化对另一些变量的影响,这其中的一些变量就相当于通常函数中的自变量,对它们能赋予一个需要的值(如施肥量、播种量)或能取到一个可观测但不能人为控制的值(如年龄、身高),这类变量称为自变量(预报变量),而因自变量变化而变化的这类变量称为因变量(响应变量)“回归”一词是英国统计学家高尔顿(P.Galton 1882-1911)在1889年发表的关于遗传的论文中首先应用的他在研究前辈与后代身高之间的关系时,发现儿子的身高介于父亲身高与种族(父辈)平均身高之间,有回归于种族平均身高的趋势后来他的朋友,英国著名统计学家K.Pearson等人搜集了上千个家庭成员的身高数据,分析出儿子的身高y与父亲的身高x大致可归结为以下关系: y = 0.516 x +33.73 (英寸)从而进一步证明了Galton的回归定律这就是“回归”一词最早在遗传学上的含义发展到今天,回归的现代意义要比原始的意义广泛的多在回归分析中要研究的主要问题是:(1) 确定因变量(响应变量)和自变量(预报变量)之间的定量关系表达式即建立回归模型(2) 对回归模型进行检验(3) 从众多的自变量中选择出对因变量影响显著的自变量(4) 利用所建立的回归模型进行预测和控制5.1 一元线性回归我们先从最简单的情况开始讨论,只考虑一个因变量y和一个自变量x之间的关系一一元线性回归模型我们先看一个例子例5.1.1为研究某种物质在水中的溶解度(y)和温度(x)的关系,独立作了11组试验,记录数据如下:表5.1.1x0 5 10 15 20 25 30 35 40 45 50 y14.0 15.0 17.5 18.9 21.4 23 26.1 28.5 29.2 31.5 33 为了直观起见,可以x为横坐标,y为纵坐标,作上述数据的平面散点图(图5-1),每一数据对(,)为x-y坐标系中的一个点,(i =1,2, ,11) 图5-1从图上可以看出溶解度(y)基本随温度(x)升高而增加;点分布在某一直线两侧,不全在直线上,从而可以认为y与x大致成直线关系,这些点与直线的偏离是由其他一些不确定的因素的影响所造成的因此可以假设y与 x满足以下关系: y = +x + (5.1.1)其中+为y随x线性变化的部分, 和是未知待估计的参数;是许多不可控或不了解的随机因素的总和,所以是不可观测的随机变量,但为了估计上的方便,通常假定E= 0 D= 未知 (5.1.2)y是可观测的随机变量一般,称由(5.1.1)和(5.1.2)所确定的模型为一元线性回归模型记为 (5.1.3)未知参数为常数项,称为回归系数,自变量x称为回归变量显然有E y = +x (5.1.4)(5.1.4)称为回归函数注意:这里我们说一个模型是线性的,是指它关于参数(和)是线性的,模型中自变量的最高次幂为该模型的阶,如 y = +x +是一个二阶(x的)线性(对,)回归模型 若利用试验数据求出和的估计值和,于是有=+x (5.1.5)为由估计值和确定后对给定的x值相应y的回归值(预报值)(5.1.5)称为 回归方程(预报方程)其对应的直线称为回归直线(预报直线) 图5-2二和的最小二乘估计及其性质设有n组独立的样本观测值(,)(i = 1,2, n),由(5.1.3)有 i = 1,2, n ,相互独立(5.1.6)称为样本回归模型1和的最小二乘估计如何利用样本数据求出和的估计值和呢?一个最直观的想法就是在散点图上确定一条直线l:+x ,使得所有的点总的看来最接近这条直线这时将直线l的截距的取值与斜率的取值,作为和的估计值和是比较合适的所谓所有的点总的看来最接近这条直线的含义即可以认为是使得Q (,) =达到最小求出使函数Q (,)达到最小的, 的值,作为和的估计值和即和应满足Q (,)=则称和为和的最小二乘估计(L.S估计)由Q (,)是,的二元函数,要使Q达到最小值,必要条件是,满足 即 (5.1.9)其中=,=,(5.1.9)称为正规方程组由正规方程组解得 (5.1.10)其中 ,因为 =2n2= -4 n0及=2n0所以(5.1.9)的解,使Q取到最小值于是和的最小二乘估计为 (5.1.11)由(5.1.11)式可得 ,说明由最小二乘估计得到的回归直线过样本均值下面我们利用(5.1.11)式来计算例5.1.1中的回归直线由表5.1.1的数据算得=275,=25,=9625,= 258.1,=23.4636,=7552.5=11= 9625-6875=2750=11=7552.5-6452.49=1100回归方程为2最小二乘估计的统计性质性质1.和分别是的线性组合证:= (5.1.12)其中= = =(5.1.13) 其中=性质2.E () = , E () = (5.1.14) D () = ,D () = ,Cov (,)=证:由模型(5.1.3)知 E= 0 D= 则有E()= + D()=再由性质(1)有 E= E()= E()= =+=(注意到:)E = E()= E E = = += D () = D =D () = D ()= D +D ()2Cov (,)=由此性质可得:(1)E = E y 即预报值的均值等于相应的观测值y的均值(2)与的估计值波动的大小不仅与y的方差有关,而且还与预报变量x取值的离散程度有关,x取值分散,则与作为与估计值较精确,反之,若x在的一个较小范围内取值,则与作为与估计值精确度较差因此若x是可控变量时,则在安排实验时(i = 1,2, n)应取得尽可能的分散,并且n 不能太小3的无偏估计由于与作为与估计值的精确度与y的方差有关,而是未知的,所以下面给出的无偏估计记 = -= -称为残差,为残差平方和或剩余平方和,记作=取 =,则为的无偏估计 因为在模型(5.1.3)下,有性质 E()=(n-2) (5.1.15)证 = =- 2 + =- 2 + =- E()= E- E ()= E -E ()= -E ()= -= =(n-2)+=(n-2)+=(n-2) E()= E()= 因此 = 为的无偏估计三. 回归方程的显著性检验1方程的显著性检验若变量x,y之间存在线性关系y = +x +,则0 ,因此检验变量x,y之间是否真正存在线性关系的问题可化为对假设 := 0; :0 作显著性检验,若拒绝,则认为变量x,y之间存在线性关系,所求出的回归方程有意义;若不拒绝,则认为变量x,y之间不存在线性关系,自然也就不能用一元线性回归模型来描述,所得回归方程也就无意义为了进行检验,首先对模型(5.1.3)进一步假定 N (0,),于是模型(5.1.6)改为 i = 1,2, n ,相互独立(5.1.16)在模型(5.1.16)下有如下定理定理5.1.1 (1) N ( ,) (5.1.17)(2) N ( ,) (5.1.18)(3)=(n2) (5.1.19)(4),相互独立证:由性质1,和分别是服从正态分布的随机变量的线性组合,故和服从正态分布,再由性质2即得到(1)与(2)由式(5.1.16)可得 (i = 1,2, n) 将上式写成矩阵形式为 其中 I = Y = X = 为n 阶单位阵构造n 阶正交矩阵A,其中第1,2行分别为 (,) (,)作正交变换 Z = A Y Z = ()则有其中=()因此相互独立,且有, (i = 3,4, n)又因 = ,=所以 = =故有 (n2)由于相互独立,且= ,=,=则有,相互独立为引入合适的检验统计量,介绍如下平方和分解公式:= U + (5.1.20)其中= 称为 总偏差平方和U = 称为 回归平方和= 称为 残差平方和恒等式 =()+()的几何意义如图4-2,由其出发有=+2=+其中交叉项= = = 0图5-2平方和分解公式(5.1.20)说明总的偏差平方和可以分为两个部分,一部分是,是由实际观测值与回归值的偏差即残差所引起的,另一部分U是由回归直线所引起的当U越大时就越小,则y与 x之间的线性关系就越显著,反之y与 x之间的线性关系不显著因此,可考虑当U/的值较大时,则认为y与 x之间的线性关系较显著事实上,当成立时,由定理5.1.1知N (0,) ,由此得N (0,1),从而有 =(1)由定理5.1.1又知 =(n2),且U与独立,从而有与独立因此,由F-分布的定义知,当成立时,统计量F = F(1,n-2) (5.1.21)由前面的分析可知,当F 值较大时,则认为y与 x之间的线性关系较显著,即应拒绝,则由(5.1.22)式,可给出如下判别法则:对给定的显著性水平,当F 时,拒绝,否则就不能拒绝在实际作检验时,通常将此检验过程用表5.1.2的形式给出,表5.1.2称为方差分析表表5.1.2一元正态线性模型的方差分析表方差来源平方和自由度均方F值回 归U1U残 差Qn-2Q/( n-2)总 和n-1若经过检验拒绝了,也可称回归系数的效果是显著的;否则,称回归系数的效果不显著此时y与 x的关系可能有如下几种情况:(1)x 对y无显著影响,应丢弃x这个自变量,进而考虑其它自编量;(2)x 对y有显著影响,但这种影响不是线性的,应考虑非线性回归;(3)除了x 外还有其它自变量对y有显著影响,从而减弱了x 对y的影响程度,这时应考虑采用多元线性回归2样本相关系数和判定系数(拟合优度)若拒绝了,即y与 x之间的线性关系是显著的,我们可用样本相关系数r= (5.1.22)来刻划y与 x之间的线性关系的密切程度比较(5.1.23)式与=,得r与的符号一致。又有 = = (5.1.23)称为判定系数(拟合优度)。由(5.1.21)知| r | 1,且值越大,即回归平方和U越大,残差平方和越小,y与 x之间的线性关系越密切,极端的情况是当| r |=1时,即=0,这时,n个点(,)i=1,2,n全部落在回归直线=+x上故拟合优度可以定量描述回归方程拟合的好坏。3回归系数的置信区间若拒绝了,我们还可以给出回归系数的置信区间,由定理5.1.1可推得 t(n-2)由此得置信度为1-的置信区间为 - ,+ (5.1.24)例5.1.2 (1)对例5.1.1的回归方程进行检验;(2)求出样本相关系数r,(3)求的置信度为1-的置信区间(=0.05)解 由例5.1.1中计算的结果有2750,1100 =11= 6498.77-6055.94 =442.83U = = 440Q = - U = 442.83 -440=2.83列出如下方差分析表 表5.1.3方差来源平方和自由度均方F值回 归44014401411.536残 差2.8055 90.3117总 和442.805510由=0.05,查得分位数= 5.12,由于F = 5.12,故拒绝,认为已求得的回归方程效果是显著的(2)由(5.1.24)式得= = 0.9936 | r| = 0.9968由| r|接近于1,又一次说明y与 x之间的线性关系是非常显著的 (3)由=0.05,1-/2 = 0.975,查得= 2.2622,则有= 2.2622=0.0241由(4.1.25)式得的置信度为0.95的置信区间为 0.3759,0.4241四、 回归诊断 对回归模型进行回归诊断的方法有很多,最重要的方法是残差分析和共线诊断(对多元回归的情况)。1 残差分析残差分析的基本思想是用能够计算出来的残差作为随机误差的估计,利用残差的特征来考察原模型的合理性,主要是对于误差假设的合理性。 残差分析就是检验: 误差项正态分布的假设 误差项的独立性假设 误差项的等方差假设 观测值中是否有异常值存在1) 误差项正态分布的假设是否成立的判断:残差的正态性检验,对所得的残差数据作正态性检验。2) 误差项的独立性假设是否成立的判断:当误差项存在序列相关时,可能导致最小二乘估计的方差变大,回归系数的t检验失效。 可用D-W检验(J.Durbin和G .S.Watson于1951年提出的一种适用于小样本的检验方法) 随机扰动项的一阶自回归的形式为 : DW= 0DW4在给定样本容量n、自变量个数及显著性水平之后,在D-W检验临界值表中可以查到D-W检验的下临界值和上临界值 0DW误差项间存在正相关DW不能判断是否存在自相关DW4-误差项间无自相关4-DW4-不能判断是否存在自相关4-DW4误差项间存在负相关残差的序列图和残差的散点图残差的序列图:以为纵轴,以时间t为横轴来绘制的 残差的散点图:分别以和为纵轴和横轴来绘制的序列图呈随机走势,散点图呈随机分布,则认为不存在序列相关3)误差项的等方差假设是否成立的判断:残差图:凡是以残差为纵坐标,而以观测值,预测值 ,自变量Xj(j = 1,2,p)或序号、观测时间等为横坐标的散点图,均称为残差图。 如果线性回归模型的等方差假定成立, ,(i=1, 2,n)应相互独立且近似服从N(0,1),那么残差图中散点应随机地分布在2到+2的带子里。这样的残差图称为正常的残差图。4)样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。一般认为,如果某样本点对应的标准化残差的值超出了-3+3的范围,就可以判定该样本数据为奇异值。五预测若经过检验,拒绝了,说明回归方程是有意义的,即回归方程与实际数据的拟合效果是显著的,则可用已求得的回归方程=+x来进行预测所谓预测是指对自变量x的某一确定值用已求得的回归方程=+x来估计因变量y的相应值所在的范围设变量y与x满足模型(5.1.3),且由数据(,)(i =1,2, ,n)求得回归方程=+x ,为x的某一确定值,=+,N(0,)且, ,相互独立在以上假设下先给出E的置信区间,然后再给出的预测区间由=+和定理5.1.1可知= +(- x)N(+,+)(5.1.25) 且与独立,再由t-分布的定义有= t(n-2)于是E的置信度为1-的置信区间为- ,+ (5.1.26

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论