版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、回归分析回归分析山东建筑大学贺长伟1;.引言引言 回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺优化等学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺优化等问题。它在工农业生产和科学研究各个领域中均有广泛的应用。问题。它在工农业生产和科学研究各个领域中均有广泛的应用。 回归分析一般分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析一般分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析的基本结论及其在回归分析的基本结论及其在Matl
2、abMatlab中的相应命令。线性回归分析是两类回归中的相应命令。线性回归分析是两类回归分析中较简单的一类,也是应用较多的一类。分析中较简单的一类,也是应用较多的一类。2;.一一 一元线性回归分析一元线性回归分析 针对一组(二维)数据针对一组(二维)数据 (其中(其中 互不相同),其最简单互不相同),其最简单的数据拟合形式为寻求直线的数据拟合形式为寻求直线 ,使,使 在最小二乘准则下与在最小二乘准则下与所有数据点最为接近。所有数据点最为接近。 但由于随机观测误差的存在,满足上述数据点的直线应该是但由于随机观测误差的存在,满足上述数据点的直线应该是 (1.1)(1.1) 其中其中x x, , y
3、 y是准确的是准确的, , 是两个未知参数,是两个未知参数, 是均值为零的随机观测误差,具有是均值为零的随机观测误差,具有不可观测性,不可观测性, 可以合理地假设这种观测误差服从正态分布。可以合理地假设这种观测误差服从正态分布。ix3;. 于是我们得到一元线性回归模型为于是我们得到一元线性回归模型为 (1.2)(1.2) 其中其中 未知,固定的未知参数未知,固定的未知参数 称为回归称为回归系数,自变量系数,自变量x x称为回归变量。称为回归变量。 (1.1)(1.1)式两边同时取期望得:式两边同时取期望得: 称为称为y y 对对x x的回归直线方程。的回归直线方程。 在该模型下,第在该模型下,
4、第i i个观测值可个观测值可以看作样本(这些样本相互独立但不同分布以看作样本(这些样本相互独立但不同分布, ,i i = 1,2,= 1,2, ,n n)的实际抽样值,即样本值。)的实际抽样值,即样本值。4;. 一元线性回归分析的主要任务是:一元线性回归分析的主要任务是:a.a.用实验值(样本值)对用实验值(样本值)对 作点估计;作点估计;b.b.对回归系数对回归系数 作假设检验;作假设检验;c.c.在在 处对处对y y 作预测,并对作预测,并对y y作区间估计。作区间估计。1 1、 回归参数回归参数 估计估计 假设有假设有n n组独立观测值:组独立观测值: 则则由由(1.2)(1.2)有有
5、(1.31.3)5;.其中其中 相互独立。记相互独立。记称称 为偏离真实直线的偏差平方和。由最小二乘法得到的估计为偏离真实直线的偏差平方和。由最小二乘法得到的估计 称为称为 的最小二乘估计,其中的最小二乘估计,其中(经验)回归方程为(经验)回归方程为 (1.4) 6;.这样我们得到这样我们得到 的无偏估计的无偏估计 ,其中其中 服从正态分布服从正态分布7;.2 模型的假设、预测、控制模型的假设、预测、控制1 1、回归方程的显著性检验、回归方程的显著性检验 在实际问题中,因变量在实际问题中,因变量y y 与自变量与自变量x x之间是否有线性关系之间是否有线性关系(1.1)(1.1)只是一种假只是
6、一种假设,在求出回归方程之后,还必须对这种回归方程同实际观测数据拟合的效设,在求出回归方程之后,还必须对这种回归方程同实际观测数据拟合的效果进行检验。果进行检验。 由由(1.1)(1.1)可知,可知, 越大,越大,y y 随随x x变化的趋势就变化的趋势就 越明显;反之,越明显;反之, 越小,越小,y y 随随x x变化的趋势就越不明显。特别当变化的趋势就越不明显。特别当 =0=0时,则认时,则认为为y y 与与x x之间不存在线性关系,当之间不存在线性关系,当 时,则认为时,则认为y y与与x x之间有线性关系。因之间有线性关系。因此,问题归结为对假设此,问题归结为对假设 进行检验。进行检验
7、。111108;. 假设假设: : 被拒绝,则回归显著,认为被拒绝,则回归显著,认为y y 与与x x之间存在线性关系,所求之间存在线性关系,所求的线性回归方程有意义;否则回归不显著,的线性回归方程有意义;否则回归不显著,y y与与x x的关系不能用一元线性回归的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。此时,可能有如下几种情况:模型来描述,所得的回归方程也无意义。此时,可能有如下几种情况:(1 1)x x对对y y没有显著影响,此时应丢掉变量没有显著影响,此时应丢掉变量x x;(2 2)x x对对y y 有显著影响,但这种影响不能用线性关有显著影响,但这种影响不能用线性关 系
8、来表示,应该用非线性回归;系来表示,应该用非线性回归;(3 3)除)除x x之外,还有其他不可忽略的变量对之外,还有其他不可忽略的变量对y y 有显有显 著影响,从而削弱了著影响,从而削弱了x x对对y y 的影响。此时应用的影响。此时应用 多元线性回归模型。因此,在接受多元线性回归模型。因此,在接受H0 H0 的同的同 时,需要进一步查明原因以便分别处理。时,需要进一步查明原因以便分别处理。9;.检验方法:(检验方法:(a a)F F检验法检验法 对样本方差对样本方差 进行分解,有进行分解,有 上式中的上式中的 是由实际观测值没有落在回归直线上是由实际观测值没有落在回归直线上引起的(否则为零
9、),引起的(否则为零),U U 是由回归直线引起的。因是由回归直线引起的。因此,此,U U 越大,越大, 就越小,表示就越小,表示y y 与与x x的线性关系就越的线性关系就越显著;否则,显著;否则,U U 越小,越小, 就越大,表示就越大,表示y y 与与x x的线性的线性关系就越不显著。这样我们就找到了一种判别回归关系就越不显著。这样我们就找到了一种判别回归直线拟合程度好坏的方法:直线拟合程度好坏的方法:如果如果U U /s/s接近于接近于1 1,即,即U U / / 较大时,则对拟合效果感到满意。较大时,则对拟合效果感到满意。10;.由由F F分布有分布有其中其中r r称为相关系数。对给
10、定的显著水平称为相关系数。对给定的显著水平a a ,有置信,有置信水平为水平为1-a 1-a 的临界值的临界值 ,从而,从而F F检验法检验法的检验准则为:当的检验准则为:当 时,拒绝时,拒绝 ;否则就接受;否则就接受11;.(b b)t t检验法检验法当成立时,由当成立时,由T T分布的定义有分布的定义有因此,对于给定的显著水平因此,对于给定的显著水平a a ,用,用T T统计量检验统计量检验 ,有置信水平为有置信水平为1-a 1-a 的临界值的临界值, ,从而从而t t检验法的检验准则为:检验法的检验准则为:当当 时,拒绝时,拒绝 ;否则就接受;否则就接受12;.2 2、预测与控制、预测与
11、控制当检验结果拒绝了当检验结果拒绝了: : ,接下来的问题是如,接下来的问题是如何利用回归方程何利用回归方程 进行预测和控制。进行预测和控制。预测就是对固定的预测就是对固定的x x值预测相应的值预测相应的y y 值,控制就是通值,控制就是通过控制过控制x x的值,以便把的值,以便把y y 的值控制在制定的范围内。的值控制在制定的范围内。(a)(a)预测预测 设设y y 与与x x满足模型满足模型(1.2)(1.2)。令。令 表示表示x x的某个固的某个固定值,且定值,且 假设假设 相互独立,则相互独立,则 的预测值和预的预测值和预测区间如下。测区间如下。13;. y y 的预测值为的预测值为
12、的回归值的回归值 。它是。它是 的无偏估计,即的无偏估计,即 给定显著水平给定显著水平 , 的置信水平为的置信水平为1- 1- 的预测区间的预测区间 为为 ,其中,其中 由上式可知,剩余标准差由上式可知,剩余标准差 越小,预测区间越越小,预测区间越小,预测值越精确;对于给定的样本观测值和置信小,预测值越精确;对于给定的样本观测值和置信水平而言,水平而言, 越靠近越靠近 时,预测精度就越高。时,预测精度就越高。14;.(b)(b)控制控制 若要若要 的值以的值以1- 1- 的概率落在的概率落在 指定区间指定区间( (c c, ,d d) )之内,变量之内,变量x x应控制在什么范围内应控制在什么
13、范围内 的问题就是所谓的控制问题。它是预测问题的反的问题就是所谓的控制问题。它是预测问题的反 问题。问题。 只要控制只要控制x x满足以下两不等式满足以下两不等式 这要求这要求 若方程若方程 分别有解分别有解a a, ,b b,则,则( (a a, ,b b) )就是所就是所求的求的x x的控制区间的控制区间。15;.二二 可线性化的一元非线性回归(曲线回归)可线性化的一元非线性回归(曲线回归) 在工程技术中,自变量在工程技术中,自变量x x与因变量与因变量y y 之间有时呈现出非线性(或曲线)之间有时呈现出非线性(或曲线)关系,这是通常出现两种情况:一种是呈现多项式的关系,这种情况通过变关系
14、,这是通常出现两种情况:一种是呈现多项式的关系,这种情况通过变量替换可化为多元线性回归问题给予解决;另一种是呈现出其它非线性关系,量替换可化为多元线性回归问题给予解决;另一种是呈现出其它非线性关系,通过变量替换可化为一元线性回归问题给予解决。通过变量替换可化为一元线性回归问题给予解决。 若匹配曲线(经验公式)为含参量若匹配曲线(经验公式)为含参量a a, ,b b的非线性曲线,采用的办法是通过的非线性曲线,采用的办法是通过变量替换把非线性回归化为线性回归。通常匹配的含参量变量替换把非线性回归化为线性回归。通常匹配的含参量a a, ,b b的非线性曲线有的非线性曲线有以下六类,具体的替换方法如下
15、:以下六类,具体的替换方法如下:16;.1 1 双曲线双曲线 作变量替换作变量替换 得得 2 2 幂函数曲线幂函数曲线 两边取常用对数:两边取常用对数: ,再作,再作 代换代换 则幂函则幂函 数曲线方程就变成直线方程数曲线方程就变成直线方程注:对于非线性回归问题的注:对于非线性回归问题的MatlabMatlab实现问题,一种方法是化为相应的线性模实现问题,一种方法是化为相应的线性模型实现,另种方法是直接应用型实现,另种方法是直接应用MatlabMatlab中相应的命令,其结果是一致的。中相应的命令,其结果是一致的。17;.三三 多元线性回归分析多元线性回归分析一般地,在实际问题中影响应变量一般
16、地,在实际问题中影响应变量y y 的自变量往的自变量往 往不止一个,不妨设有往不止一个,不妨设有k k 个为个为 。通。通 过观测得到一组(过观测得到一组(k k +1+1维)相互独立的试验观测维)相互独立的试验观测 数据数据 , 其中其中n n k k +1+1。假设变量。假设变量y y 与变量与变量 之间有线性关系:之间有线性关系: (1.5)(1.5) 其中其中 是随机变量,一般假设是随机变量,一般假设 则观测数据满足则观测数据满足 (1.6)(1.6)18;.其中其中 互不相关且均是与互不相关且均是与 同分布的随机变量。令同分布的随机变量。令则则(1.6)(1.6)可简写为可简写为 其
17、中其中X X 为已知的为已知的n n* *( (k k +1)+1)矩阵,称为回归设计矩阵或资料矩阵,矩阵,称为回归设计矩阵或资料矩阵,Y Y 是是n n维观察维观察值列向量,值列向量, 为为k k +1+1维未知的列向量,维未知的列向量, 是满足是满足 的的n n维随机列向量维随机列向量. .19;.一般称一般称 (1.7)(1.7) 为为k k 线性回归模型(高斯线性回归模型(高斯马尔科夫线性模型)马尔科夫线性模型) 对对(1.7)(1.7)取数学期望得到取数学期望得到 称为线性回归方程。称为线性回归方程。20;. 对线性模型所要考虑的主要问题是:对线性模型所要考虑的主要问题是:(i i)
18、用实验观测数据对未知参数)用实验观测数据对未知参数 做点估计和假设检验,从而建立因变量做点估计和假设检验,从而建立因变量y y 和自和自 变量变量 之间的线性关系;之间的线性关系;(iiii)在)在 处对处对y y 的值作预测和的值作预测和 控制,并对控制,并对y y 作区间估计。本部分总是假设作区间估计。本部分总是假设 n n k k +1+1。 (具体方法略)(具体方法略)21;.四、逐步线性回归分析四、逐步线性回归分析 逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是
19、在多元线性回归基础上派生的一种算法技巧,回归方程比较重要的变量的方法,它是在多元线性回归基础上派生的一种算法技巧,详可参阅相应的文献。详可参阅相应的文献。 其基本思路为:从一个自变量开始,视自变量对其基本思路为:从一个自变量开始,视自变量对y y 作用的显著程度,从大到小作用的显著程度,从大到小依次逐个引入回归方程。当引入的自变量由于后面自变量的引入而变得不显著时,依次逐个引入回归方程。当引入的自变量由于后面自变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步,
20、都要进行步。对于每一步,都要进行y y 值检验,以确保每次引入新的显著性变量前回归方程值检验,以确保每次引入新的显著性变量前回归方程中只包含对中只包含对y y 作用显著的变量。这个过程反复进行,直至即无不显著的变量从回归作用显著的变量。这个过程反复进行,直至即无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程止。方程中剔除,又无显著变量可引入回归方程止。22;.五五 回归分析的回归分析的Matlab实现实现MatlabMatlab统计工具箱中提供了一些回归分析的命令,现介绍如下。统计工具箱中提供了一些回归分析的命令,现介绍如下。1 1、多元线性回归、多元线性回归 多元线性回归的命令是多
21、元线性回归的命令是regressregress,此命令也可用于,此命令也可用于一元线性回归。其格式为:一元线性回归。其格式为:(1 1)确定回归系数的点估计,用命令:)确定回归系数的点估计,用命令: b=regress(Yb=regress(Y,X)X)。(2 2)求回归系数的点估计和区间估计,并检验回归)求回归系数的点估计和区间估计,并检验回归 模型,用命令:模型,用命令:bb,bintbint,r r,rintrint,stats=regress(Ystats=regress(Y,X X,alpha)alpha)。(3 3)画出残差及其置信区间,用命令:)画出残差及其置信区间,用命令: r
22、coplotrcoplot(r r,rintrint)。)。23;.在上述命令中,各符号的含义为:在上述命令中,各符号的含义为:(i i) ,Y Y,X X的定义同本部分前面所述。对一元线性回归,在的定义同本部分前面所述。对一元线性回归,在 ,Y Y,X X中取中取k k=1=1即可;即可;(iiii)alphaalpha为显著性水平(缺省时为为显著性水平(缺省时为0.050.05););(iiiiii)bintbint为回归系数的区间估计;为回归系数的区间估计;(iviv)r r与与rintrint分别为残差及其置信区间;分别为残差及其置信区间;(v v)statsstats是用于检验回归模
23、型的统计量,有三个数值,第一个是是用于检验回归模型的统计量,有三个数值,第一个是 ,第,第二个是二个是F F值,第三个是与值,第三个是与F F对应的概率对应的概率P P。其中。其中 与与F F定义同前,值越大,说明定义同前,值越大,说明回归方程越显著,回归方程越显著,P P a(0.01a(0.01或或0.05) 0.05) 时拒绝时拒绝 ,回归模型成立。,回归模型成立。24;.例例1 1 合金的强度合金的强度y y 与其中的碳含量与其中的碳含量x x有比较密切的关系,今从生产中收集了一批数有比较密切的关系,今从生产中收集了一批数据如下表。试先拟合一个函数据如下表。试先拟合一个函数y y( (
24、x x) ),再用回归分析对它进行检验。,再用回归分析对它进行检验。x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0解解 先画出散点图:先画出散点图:x=0.10:0.01:0.18;x=0.10:0.01:0.18;y=42.0,41.5,45.0,45.5,45.0,47.5
25、,49.0,55.0,50.0;y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;plot(x,y, + )plot(x,y, + )可知可知y y与与x x大致为线性关系。大致为线性关系。设回归模型为设回归模型为 ,用,用regressregress和和rcoplotrcoplot编程如下:编程如下:clc,clearclc,clearx1=0.10:0.01:0.18 ;x1=0.10:0.01:0.18 ;y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0 ;y=42.0,41.5,45.0,45.5,
26、45.0,47.5,49.0,55.0,50.0 ;x=ones(9,1),x1x=ones(9,1),x1;b,bint,r,rint,stats=regress(yb,bint,r,rint,stats=regress(y,x);,x); b,bint,stats,rcoplot(r,rint) b,bint,stats,rcoplot(r,rint)25;.26;.得到得到b=27.4722 137.5000b=27.4722 137.5000 bint=18.6851 36.2594 bint=18.6851 36.2594 75.7755 199.2245 75.7755 199.2
27、245stats=0.7985 27.7469 0.0012stats=0.7985 27.7469 0.0012即即 =27.4722=27.4722, =137.5000=137.5000, 的置信区的置信区18.685118.6851,36.259436.2594, 的置信区间是的置信区间是75.775575.7755,199.2245199.2245;R R2=0.79852=0.7985,F F =27.7469=27.7469, p p = 0.0012= 0.0012。可知所设回归模型。可知所设回归模型成立。成立。 观察命令观察命令rcoplot(r,rint)rcoplot(r
28、,rint)所画的残差分布,除第所画的残差分布,除第8 8个数据外个数据外其余残差的置信区间均包含零点,第其余残差的置信区间均包含零点,第8 8个点应视为异常点,将其个点应视为异常点,将其剔除后重新计算,可得剔除后重新计算,可得b=30.7280 109.3985b=30.7280 109.3985bint=26.2805 35.2834bint=26.2805 35.2834 76.9014 141.8955 76.9014 141.8955stats=0.9188 67.8534 0.0002stats=0.9188 67.8534 0.0002应该用修改后的这个结果应该用修改后的这个结果
29、。27;.28;.2 2、多元二项式回归、多元二项式回归多元二项式回归可用命令:多元二项式回归可用命令:rstool(x,y,model,alpha)rstool(x,y,model,alpha)。其中,输入数据。其中,输入数据x x、y y分别为分别为n n m m矩阵和矩阵和n n维列向量;维列向量;alphaalpha为显著性水平为显著性水平(缺省时为(缺省时为0.050.05););modelmodel由下列由下列4 4个模型中选择个模型中选择1 1个个(用字符串输入,缺省时为线性模型):(用字符串输入,缺省时为线性模型):linearlinear(线性):(线性):purequadr
30、aticpurequadratic(纯二次):(纯二次):interactioninteraction(交叉):(交叉):quadraticquadratic(完全二次)(完全二次):29;.3 3 、非线性回归、非线性回归非线性回归可用命令非线性回归可用命令nlinfit,nlintool,nlparci,nlpredcinlinfit,nlintool,nlparci,nlpredci来实现。来实现。命令格式如下:命令格式如下:回归:回归可用命令回归:回归可用命令 beta,r,J=nlinfit(x,y,model,beta0)beta,r,J=nlinfit(x,y,model,bet
31、a0)或者或者 nlintool(x,y,model,beta0,alpha)nlintool(x,y,model,beta0,alpha)来实现。来实现。其中命令其中命令beta,r,J=nlinfit(x,y,model,beta0)beta,r,J=nlinfit(x,y,model,beta0)的作用的作用为确定回归系数;为确定回归系数;而命令而命令nlintool(x,y,model,beta0,alpha)nlintool(x,y,model,beta0,alpha)产生一个交互产生一个交互式的画面,画面中有拟合曲线和式的画面,画面中有拟合曲线和y y的置信区间。通过左下的置信区间
32、。通过左下方的方的ExportExport下拉式菜单,可以输出回归系数等。下拉式菜单,可以输出回归系数等。30;. 这里的输入数据这里的输入数据x x、y y分别为分别为n nm m矩阵和矩阵和n n维列向量,对一元非线性回归,维列向量,对一元非线性回归,x x为为n n维列向量;维列向量; modelmodel是事先用是事先用m-m-文件定义的非线性函数;文件定义的非线性函数;beta0beta0是回归系数的初值。是回归系数的初值。BetaBeta是估是估计出的回归系数,计出的回归系数,r r(残差)、(残差)、J J(JacobianJacobian矩阵)是估计预测误差需要的数据。矩阵)是估计预测误差需要的数据。a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北京航空航天大学可靠性与系统工程学院招聘备考题库附答案详解
- 云南省曲靖健康医学院公开引进2026年教育人才专项5人备考题库及参考答案详解1套
- 2025年长沙市湘一史家坡学校(初中部)公开招聘教师备考题库及1套参考答案详解
- 2025年金华市正信公证处招聘工作人员备考题库及1套参考答案详解
- 2025年中国国际货运航空股份有限公司华东大区应届毕业生招聘备考题库及1套完整答案详解
- 2025年龙里县万顺能源发展有限公司招聘备考题库附答案详解
- 2025年桂平市顺达食材配送有限公司公开招聘会计人员备考题库及参考答案详解1套
- 中国铁路郑州局集团有限公司2026年招聘普通高校毕业生备考题库附答案详解
- 2025年重庆大学附属江津医院招聘备考题库(中药调剂岗)及完整答案详解1套
- 2025年湖北省医学会招聘备考题库及一套完整答案详解
- TCASTEM1007-2022技术经理人能力评价规范
- (14)普通高中音乐课程标准日常修订版(2017年版2025年修订)
- 小企业会计准则科目表
- 安全意识培训课件 38、安全意识培训
- GB/T 8165-2008不锈钢复合钢板和钢带
- 2023年潍坊环境工程职业学院高职单招(语文)试题库含答案解析
- GB/T 28267.4-2015钢丝绳芯输送带第4部分:带的硫化接头
- 西门子数控(SINUMERIK)802D电气培训
- 项目2-电动汽车新车检查交付-课件
- 针灸治疗之腰痛课件
- 财政与金融基础知识全套教学课件(中职)
评论
0/150
提交评论