




已阅读5页,还剩102页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章回归分析,前几章所讨论的内容均是围绕寻求被测量的最佳估计值及其精度的,在生产和科学实验中,测量与数据处理的目的有时并不在于被测量的估计值,而是为了寻求两个变量或多个变量之间的内在关系。表达变量之间的关系的方法有散点图、表格、曲线、数学表达式等,其中数学表达式能较好地反映事物的内在规律性,形式紧凑,且便于从理论上作进一步分析研究,对认识自然界量与量之间关系有着重要的意义。而数学表达式的获得可通过多种数据处理方法完成。其中回归分析是处理变量之间相关关系的一种数理统计方法,也是广泛用于获得数学表达式的较好方法。本章介绍测量中常用的一元与多元线性回归以及一元非线性回归、线性递推回归的基本方法。,第一节回归分析的基本概念第二节一元线性回归第三节两个变量都具有误差时线性回归方程的确定第四节一元非线性回归第五节多元线性回归第六节线性递推回归,第一节回归分析的基本概念,一、函数关系与相关关系,在科学实验和生产实践中,经常需要研究事物变量之间的关系,它们之间的关系一般来说可分为两种类型:函数关系(确定性关系)和相关关系(随机性关系)。本节主要介绍这两种关系,并对回归分析的一些基本概念作一个简要的介绍。1.函数关系(确定性关系)functionalrelation函数关系指的是变量之间可以用确定的函数来描述。如以速度v作匀速运动的物体,走过的距离s与时间t之间,有如下的函数关系:svt,式中的变量若有两个已知,则可凭借函数关系精确地求出另一个变量。实际上这种确定的函数关系只在理论分析上存在。,2.相关关系(随机性关系)correlationrelation在实际问题中,绝大多数情况下,由于测量误差等原因,变量之间的关系不那么简单。例如,在等间隔时刻t1,t2,tn测得运动物体位移为s1,s2,sn,若已知其为匀速运动,但又存在一些影响准确测量的因素,则如何确定速度v呢?或者事先未知运动规律,需要分析时间与速度之间的关系。这种变量之间既存在着密切关系,又不能由一个或几个变量的数值精确地求出另一个变量的数值,而是要通过试验和调查研究,才能确定它们之间的关系,我们称这类变量之间的关系为相关关系。例如,人的身高与体重之间有联系,但身高与体重之间并不存在确定的函数关系,也即由身高不能确切地知道其体重,但能经过统计大致地知道其体重按一定的概率落在一个范围内。,注意:函数和相关关系虽然是两种不同类型的变量关系,但是实际上它们之间并没有清晰的界限。一方面由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来。例如,尽管从理论上匀速运动的物体,其运动的速度、时间和距离之间存在着函数关系,但如果作多次反复地实测,由于存在许多影响因素,每次测得的数值并不一定满足svt的关系。在实践中,为确定某种函数关系中的常数,往往也是通过试验。另一方面,当对事物内部的规律性了解得更加深刻的时候,经过排除某些主要影响因素后,相关关系又能转化为确定性关系。事实上,试验科学(包括物理学)中的许多确定性的定理正是通过对大量实验数据的分析和处理,经过总结和提高,从感性到理性,最后才能得到更深刻地反映变量之间关系的客观规律。,二、回归分析RegressionAnalysis主要解决的问题,1.从一组数据出发,确定这些变量之间的数学表达式回归方程或经验公式。2.进行因素分析,例如从对共同影响一个变量的许多变量(因素)中,找出哪些是重要因素,哪些是次要因素。3.对回归方程的可信程度进行统计检验。,由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这些变量的数据中,存在着不同程度的差异。英国生物学家兼统计学家高尔顿(Galton)在1889年出版的自然遗传一书中首先提出了回归分析的概念,回归分析是处理变量之间相关关系的一种数理统计方法。它应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式。,回归模型的类型,回归模型,一元回归,线性回归,非线性回归,线性回归,非线性回归,多元回归,一个自变量,两个及两个以上自变量,线性递推回归,动态测量回归方程系数不定,回归分析广泛应用于实验数据处理、经验公式的求得、因素分析、仪器的精度分析、产品质量的控制、某些新标准的制定、气象及地震预报、自动控制中的数学模型的制定及其他许多场合中。回归分析通过回归模型回答“变量之间是什么样的关系?”,第二节一元线性回归,一元回归是处理两个变量之间的关系,即两个变量x和y之间若存在一定的关系,则可通过试验,分析所得数据,找出两者之间的相关关系。若两个变量之间的关系是线性的就称其为一元线性回归。工程上和科研中常遇到的直线拟合问题即属于一元线性回归问题。,一、一元线性回归方程onedimensionallinearregressionequation,下面通过具体实例来讨论如何获得回归方程。,(一)回归方程的求法例6-1测量某导线在一定温度x下的电阻值y得如下结果:试找出它们之间的内在关系。为了研究电阻x与温度y之间的关系,以温度x为横坐标,电阻y为纵坐标,把测得的数据点在坐标纸上,如所示。这种图叫散点图,从散点图上可以看出,电阻y与温度x大致成线性关系。因此,我们假设x与y之间的内在关系是一条直线,这些点与直线的偏离是实验过程中受其他一些随机因素的影响引起的。这样就可以假设这组测量数据满足如下的关系:,图6-1,式中,1,2,N分别表示其他随机因素对电阻y1,y2,yN影响的总和,一般假设它们是一组相互独立、并服从同一正态分布N(0,)的随机变量(本章对t,t=1,2,N均作这样的假设)。变量x可以是随机变量,也可以是一般变量,不特别指出时,都作一般变量处理,即它是可以精确测量或严格控制的变量。这样,变量y是服从N(0+xt,)的随机变量。式(6-1)即为一元线性回归的数学模型。在本例中,N=7,将表中的数据分别代入式(6-1),得到一组测量方程,该方程与式(5-7)完全相似,只是方程组中每个方程形式都相同即都为式(6-1)的形式,但比式(5-7)中的方程形式更规范。,由式(6-1)组成的方程组中有两个未知数0和,且方程个数(N=7)大于未知数的个数,适合于用最小二乘法求解。由此可见,回归分析只是最小二乘法的一个应用特例。下面用最小二乘法来估计式(6-1)中的未知量0和。设b0和b分别是0和的最小二乘估计,于是得到一元线性回归的回归方程又称回归直线式式中,b0和b为回归方程的回归系数。对每一个xt由式(6-2)可以确定一个回归值实际测得值yt与这个回归值(yt的最佳估计值)之差就是残余误差vt应用最小二乘法求解回归系数,就是在使残余误差平方和为最小的条件下求解回归系数b0和b。,用矩阵形式,令则式(6-3)的矩阵形式为Y-Xb=v(对比第五章最小二乘原理v=L-AX,有L=Y,A=X,X=b)假定测得值yt的精度相等,根据最小二乘原理,回归系数b0和b的矩阵解为计算式(6-5)的下列矩阵,将C、B代入式(6-5),解得b0和b为:,式中,lyy是为了以后作进一步分析的需要,在这里一并写出。,将式(6-8)代入回归直线式(6-2),可得回归直线的另一种形式:由此可见,回归直线式(6-2)通过点,明确这一点对回归直线的作图非常有帮助。由式(6-7)、式(6-8)求回归方程的具体计算,通常是通过列表进行。本例的计算见表6-1和表6-2,由此可得回归方程这条回归直线一定通过这一点,再令x取某一x0,代入回归方程(6-15)求出相应的,连接和就是回归直线,并把它画在图6-1上。在本例中回归系数b的物理意义是温度上升1,电阻平均增加0.2824。,(二)回归方程的稳定性回归方程的稳定性是指回归值的波动大小,波动愈小,回归方程的稳定性愈好。和对待一般的估计值一样,的波动大小用的标准差来表示。根据随机误差传递公式及回归方程(6-2)有式中,为b0、b的标准差;为b0和b的协方差。设为测量数据y的残余标准差(残差的平方和除以它的自由度所得商称为残余方差,残余方差的平方根称为残余标准差,将在本节的二(三)作详细讨论),由相关矩阵式(6-6)可得,将式(6-17)、式(6-18)、式(6-19)代入式(6-16)得,或,由式(6-21)可见,回归值的波动大小不仅与残余标准差有关,而且还取决于试验次数N及自变量x的取值范围。N愈大,x的取值范围愈小,愈小回归值的精度愈高。,二、回归方程的方差分析及显著性检验,对于例6-1,回归直线式(6-15)求出来了,但它是否有实际意义呢?这里有两个问题需要解决:其一,就这种求回归直线的方法本身而言,对任何两个变量x和y的一组数据(xt,yt),t1,2,N,都可以用最小二乘法给它们拟合一条直线。要知道这条直线是否基本上符合y与x之间的客观规律,这就是回归方程的显著性检验要解决的问题。其二,由于x与y之间是相关关系,知道了x值,并不能精确地知道y值。那么,用回归方程,根据自变量x值预报(或控制)因变量y值,其效果如何?这就是回归直线的预报精度问题。为此,必须对回归问题作进一步分析。现介绍一种常用的方差分析法,其实质是对N个观测值与其算术平均值之差的平方和进行分解,将对N个观测值的影响因素从数量上区别开,然后用F检验法对所求回归方差进行显著性检验。,(一)回归问题的方差分析观测值y1,y2,yN之间的差异(称变差),是由两个方面原因引起的:自变量x取值的不同;其他因素(包括试验误差)的影响。为了对回归方程进行检验,首先必须把它们引起的变差从y的总变差中分解出来。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。N个观测值之间的变差,用观测值y与其算术平均值的离差平方和S来表示,称为总的离差平方和,记作,因为(见图6-2),可以证明,交叉项因此总的离差平方和可以分解为两个部分,即或者写成称为回归平方和,它反映了在y总的变差中由于x和y的线性关系而引起y变化的部分。因此回归平方和也就是考虑了x与y的线性关系部分在总的离差平方和S中所占的成分,以便从数量上与Q值相区分。,称为残余平方和,即所有观测点到回归直线的残余误差的平方和。它是除了x对y的线性影响之外的一切因素(包括试验误差、x对y的非线性影响以及其他未加控制的因素)对y的变差作用,这部分的变差是仅考虑x与y的线性关系所不能减少的部分。这样,通过平方和分解式(6-23)就把对N个观测值的两种影响从数量上区分开来。U和Q的具体计算通常并不是按它们的定义式(6-25)和式(6-26)进行,而是按下式计算:因此,在计算S,Q,U时就可以利用回归系数计算过程中的一些结果。,对每个平方和都有一个称为“自由度”的数据跟它相联系。如果总的离差平方和是由N项组成,其自由度就是N-1。如果一个平方和是由几部分相互独立的平方和组成,则总的自由度等于各部分自由度之和。正如总的离差平方和在数值上可以分解成回归平方和与残余平方和两部分一样,总的离差平方和的自由度S也等于回归平方和的自由度U与残余平方和的自由度Q之和,即在回归问题中,S=N-1,而U对应于自变量的个数,因此在一元线性回归问题中U=1,故根据式(6-29),Q的自由度Q=N-2。,两端平方后求和得到,总偏差平方和,回归平方和,残余平方和,三个平方和的关系,自由度,计算公式,在总的偏离中除了对线性影响之外的其它因素而引起变化的大小,在总的偏差中因和的线性关系而引起变化的大小,总偏差平方和,回归平方和,残余平方和,意义,反映因变量的n个观测值与其均值的总偏差,三个平方和的意义,(二)回归方程显著性检验由回归平方和与残余平方和的意义可知,一个回归方程是否显著,也就是y与x的线性关系是否密切,取决于U及Q的大小,U愈大Q愈小说明y与x的线性关系愈密切。回归方程显著性检验通常采用F检验法,因此要计算统计量F对一元线性回归再查附录表4F分布表。F分布表中的两个自由度1和2分别对应于式(6-30)中的U和Q,即式(6-31)中的1和N-2。检验时,一般需查出F分布表中对三种不同显著性水平a的数值,设记为Fa(1,N-2),将这三个数与由式(6-31)计算的F值进行比较:,若FF0.01(1,N-2),则认为回归是高度显著的(或称在0.01水平上显著;若F0.05(1,N-2)FF0.01(1,N-2),则称回归是显著的(或称在0.05水平上显著);若F0.10(1,N-2)FF0.05(2,26)=3.37,因此回归方程在0.05水平上显著,即置信概率P95%。残余标准差0.41,于是20.82,用该回归方程进行预报,95%的误差不会超过0.82。,表6-19,三、每个自变量在多元回归中所起的作用,一个多元线性回归方程是显著的,并不意味着每个自变量x1,x2,xM对因变量y的影响都是重要的。在实际应用中,为了建立简单的线性回归方程,以便于更好地对y进行预报和控制,因此希望能分析出众多因素中影响y的主要因素和次要因素,以便从回归方程中剔除哪些次要的、可有可无的变量,简化回归方程。首先需要考察每个特定因素在总回归中所起的作用:回归平方和是所有变量对y变差的总影响。考察的自变量愈多,回归平方和就愈大(尽管增加那些与y关系很小的因素只会使平方和有很小的增加)。因此,在所考察的因素中去掉一个因素,回归平方和只会减少,不会增加。减少的数值愈大,说明该因素在回归中起的作用愈大,也就是说该因素愈重要。,利用偏回归平方和Pi来衡量每个自变量xi在回归分析中所起作用的大小。取消一个自变量xi后回归平方和减少的数值称为y对某个自变量xi的偏回归平方和,记作Pi,即式中,U为M个变量x1,x2,xM所引起的回归平方和;为去除xi后的M-1个变量x1,xi-1,xi+1,xM所引起的回归平方和。直接按式(6-87)计算Pi非常复杂,偏回归平方和Pi一般按下式计算:式中,cii为原M元回归的正规方程系数矩阵A或L的逆矩阵C或L-1中的元素;bi为回归方程的回归系数。,因为各自变量之间可能有密切的相关关系,因此一般不能按偏回归平方和的大小,把一个回归中的所有自变量对因变量y的重要性大小进行逐个排列。在计算偏回归平方和后,按下列步骤对各因素的重要性进行分析:1.凡是偏回归平方和大的变量,一定是对y有重要影响的因素。偏回归平方和Pi的显著性检验也用残余平方和Q来进行F检验,也称为回归系数显著性检验。类似的,有统计量当FiF(1,N-M-1)时,则认为变量xi对y的影响在水平上显著。,2.凡是偏回归平方和小的变量,不一定不显著。但偏回归平方和最小的那个变量,肯定是所有变量中对y作用最小的一个。假如此时变量检验结果又不显著,则可以将该变量剔除。剔除一个变量后,得重新建立M-1元新回归方程,计算回归系数和偏回归平方和。,在对x1,x2,xM的多元回归中,当取消一个变量后,M-1个变量新的回归系数(),与原来的回归系数bj之间有如下关系:式中cii、cij为原M元回归中相关矩阵C=(cij)的元素。当采用第二种模型时,不变。,例6-14分析例6-13两个自变量x1、x2在回归中所起的作用。查附录F分布表,得F0.1(1,26)=2.91,F0.01(1,26)=7.72。因F1F0.01(1,26),故P1在=0.01水平上显著;F2F0.1(1,26),故P2不显著。因此x1是影响y的一个主要因素,而x2的影响很小。这样,可以在回归方程(6-83)中将自变量x2剔除,此时,y对x1的回归系数可按式(6-90)求得从而得到新的回归方程或,第六节线性递推回归,前面介绍的回归方法均是针对静态测量的,一次性的利用全部测量数据计算回归系数。而在动态测量中,数据是循序测出的,而且有的要求进行实时处理,即每获得一个新数据,就要及时解算出回归方程新的系数,若采用式(6-5)或式(6-76),每一个中间参数(如B、C或lxx、lxy等)都要重新计算,数据增加次数越多,计算工作量越大,其中很多计算是重复性的,所以数据积累的越多,实时性就越差。采用递推算法可以解决上述问题。递推算法的基本思想是:首先根据初始的测量数据,利用式(6-5)或式(6-76)计算出回归系数初始值;新增加一组数据后,计算出新增数据带来的回归系数增量,回归系数初始值加上其增量就是回归系数新的解;再增加新数据时,按此法类推解算。由于回归系数增量的计算工作量较少,而且无重复性计算,故可以大大的提高计算速度。,一、回归系数的递推计算公式,设回归方程为获得N组测量数据,根据式(6-5)或式(6-76)可得到回归系数的矩阵解为:设yN+1为新增加的一个测量值,与yN+1相对应的自变量值为(x(N+1)1,x(N+1)2,x(N+1)M)。新的系数矩阵为式中,设YN+1为、bN+1分别为测量值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论