




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 回归分析客观现象之间总是普遍联系和相互依存,反映这些联系的数量关系可分为两类,一类是确定性关系,另一类是不确定性关系,也称为相关关系。对确定性关系,可用函数来描述它们,如出租车费用与行驶里程之间的关系;某种商品的销售收入与该商品的销售量和价格之间的关系等,其特点是,当一个或几个变量的值取定时,相应的另一个变量的值就能完全确定。若一个或几个变量的值给定时,相应的另一个变量的值不能完全确定,而是在一定范围内变化,则称变量之间的这种关系为不确定性关系或相关关系。例如,人的身高与体重之间的关系、空气污染度与人口寿命之间的关系、广告投入费用与销售量之间的关系等。变量之间的确定性关系或不确定性关系
2、不是永恒不变的,在一定条件下可以相互转化。对具有确定性关系的变量,由于观测误差的存在,其表现形式也具有某种不确定性;对具有不确定性关系的变量,当我们深刻认识了它们内部之间相互联系和变化规律时,不确定性关系就可能转化成确定性关系。对确定性关系常用数学分析的理论与方法研究,对不确定性关系,一般用概率统计的理论与方法研究,回归分析(regression analysis)就是其中的一种常用的方法。§4.1回归分析概述将在不确定性关系中作为影响因素的变量称为自变量或解释变量,用表示,受取值影响的响应变量称为因变量,用表示。一般地,与都可能是随机变量,但在回归分析中通常假定自变量为标量,用来表
3、示,并假设是可控制变量,即它的取值是可以事先给定的,是可观测的随机变量,当取定一个值时,就有一个随机变量与之对应。令 (1.1)那么其它随机因素引起的偏差是 (1.2)这时与的不确定性关系表示为 (1.3)满足 (1.4)常假定 (1.5)(1.3)式表示因变量的变化由两个原因所致,即自变量和其它未考虑到的随机因素。当随机因素的干扰较小时,主要受的影响,这个影响关系的一种平均性质的概括性描述是 (1.6)倘若知道了,则可以从数量上掌握与之间复杂关系的大趋势,就可以利用这种趋势研究对的预测问题和对的控制问题。这就是回归分析处理不确定性关系的基本思想。实际上,回归分析就是通过因变量的均值与自变量之
4、间的确定性关系研究与之间的不确定性关系,虽然随机因素的干扰使得与之间的关系不确定,但从平均性质看,不确定性关系有向确定性关系回归的趋势。(1.3)(1.4)式称为回归模型,(1.6)式称为理论回归函数或回归曲线或回归方程。在实际问题中,理论回归函数一般是未知的,回归分析的任务就是根据的值和的观测值去估计这个函数以及讨论与此有关的种种统计推断问题,如假设检验问题和区间估计问题。所用方法在相当大的程度上取决于回归模型的假定。对的数学形式无特殊假定的回归分析称为“非参数回归”;对已知的数学形式,只是其中的若干个参数未知的回归分析称为“参数回归”,这是目前研究最多、应用最多的情形。对“参数回归”,根据
5、的不同数学形式,可分为:需要解决的基本问题是:(1)如何根据抽样信息确定回归函数类型及其参数的估计量;(2)如何判断与的相关关系是否密切;(3)如何应用回归分析进行预测或控制。线性回归(linear regression )是应用上最重要、理论上最完善的回归分析方法,本章以线性回归为主,非线性回归(non-linear regression )作为扩展。“回归”的概念是英国生物学家葛尔顿(Galton)在研究生物遗传现象时提出的。他当时研究这样一个问题:高个子的人生的子女一般偏高,照这样看,各代人在身高分布上将有两极分化的趋势。个子很高和很矮的会愈来愈多,而处在中间状态的会愈来愈少。但现实却是
6、各代人的身高分布基本保持稳定。如何解释这个现象?葛尔顿收集了1074对夫妇及其一成年子女的身高资料,建立了下列关系式其中,、分别表示父母的平均身高和其子女的身高(单位:英寸)。68.25是父代、子代的平均身高,超过这个高度的就认为是高个子,低于这个高度的就认为是矮个子。由此得出结论:父母个子高,其子代一般也高,但不如父母那么高;父母个子矮,其子代一般也矮,但不如父母那么矮。“下一代身高有向中心(68.25)回归的趋势”,这解释了各代身高分布能保持稳定的原因。葛尔顿的学生皮尔逊以后继续研究此课题,并把回归概念与数学方法联系起来,把反映变量之间的一般数量关系的直线或曲线称作回归直线或回归曲线。
7、167;4.2 一元线性回归若理论回归函数(1.6)式是一元线性函数,即 (2.1)则 (2.2)称为一元线性回归模型。(2.1)式称为对的一元线性回归方程或一元线性回归直线,、称为回归系数,常数、均未知。一、参数的最小二乘估计设为取得的一组试验数据,则有 (2.3)需要在此基础上给出回归系数、的估计值、,并称由此得到的 (2.4)为样本回归直线(sample regression line)或经验回归直线。回归系数的估计方法很多,常用的是最小二乘估计法(least squares estimation,简记LSE)。对给定的一组观测数据,记 (2.5) (2.6)称为残差。残差平方和记为 (
8、2.7)表示样本回归直线对观测数据拟合的总离差。在最小二乘估计中,、选择为的最优解。因此、为方程组 , 即 (2.8) (2.9)或 (2.10) (2.11)的解。称(2.10)(2.11)式为正规方程,求解正规方程,便得到、的最小二乘估计值: (2.12) (2.13)其中,。为便于计算,常使用下列符号和等式: (2.14) (2.15) (2.16)这样、可简记为: (2.17)注意,如果我们用随机变量取代时,由(2.17)式得到的就是、的最小二乘估计量,并且我们用分别表示、相应的随机变量,需要注意的是为标量,不需要变化,最小二乘估计的这种两重性和上面的约定对于后面进一步讨论最小二乘估计
9、性质时很重要。当时,理论回归值的估计为 , (2.18)二、样本回归直线和参数估计量的性质利用最小二乘估计求解的参数估计量和样本回归直线具有许多优良性质。性质2.1 残差和为零,即 证明:因为 ,所以性质2.2 在样本回归直线上,即 (2.19)且 (2.20)证明:由(2.17)式得,由性质2.2易得为节约篇幅,下面性质2.3 2.7作为多元线性回归性质的特例请参见本章第四节的证明。性质2.3 (1);(2);(3);(4)。注意其中的为随机变量,因而亦为随机变量。从该性质可以看出,、的波动大小不仅与的方差有关,而且还与自变量的离散程度有关。如果它的离散程度较大,则、的波动就较小,也就是估计
10、比较精确;反之,若在一个较小范围取值,则对、对、的估计精确度不高。因此,对可控制变量,在安排试验时应注意以下几点:(1)可取正负值时,选择使,以减小的波动;(2)越分散越好,即越大越好;(3)试验次数不能太小。另外可见,当时,与不独立。性质2.4 ,从而是的无偏估计量。记,反映了的观测值的总离差,称为总离差平方和;反映了回归直线引起的离差,称为回归平方和; 反映了随机因素影响引起的偏差,称为残差平方和。它们之间有下列关系:性质2.5 (2.21)(2.21)式称为平方和分解公式,说明因变量观测值的总离差可分解为两部分,一部分是回归直线引起的离差,另一部分是随机因素引起的离差,(2.21)式请读
11、者自行证明。性质2.6 、分别与相互独立。性质2.7 (1)与独立; (2) ; (3)当成立时,有 三、显著性检验由(2.17)式知,不管与是否有线性相关关系,只要给定一组不完全相同的数据就能得到一条样本回归直线。显然,如果与之间不存在线性相关关系,那么寻求回归直线就失去了实际意义。因此,使用样本回归直线前需要对与之间的线性关系、样本回归直线拟合效果进行检验。通常的方法是首先根据专业知识和散点图做出粗略的判断(需要深入研究的读者可参见本章第五节),然后根据抽样信息进行假设检验。从线性回归方程可见,若越大,随的变化的趋势就越明显;反之,若越小,随的变化就越不明显。特别是,当时,则表明无论如何变
12、化的值都不受影响,因而与之间不存在线性相关关系。当时,则认为与之间有线性相关关系。于是,问题归结为对统计假设: (2.22)的检验。若拒绝,就认为与之间有线性相关关系,所求的样本回归直线有意义;若接受,则认为与之间不存在线性相关关系,它们之间可能存在明显的非线性相关关系,也可能根本就不相关,所求的样本回归直线无意义。下面介绍3种检验方法,它们本质上是相同的。 1.F检验法由性质2.3(2)知是的无偏估计量,因而一般情况下应很小,当成立时,也应很小,否则,就拒绝。因此,拒绝域形式选择为 (2.23)满足 (2.24)根据性质2.7,在成立下有 又 所以因此,检验统计量选择为 (2.25)拒绝域为
13、 (2.26) 2.t-检验法由性质2.3、2.7得所以,当成立时,有 因此,对拒绝域形式(2.23),选择 (2.27)为检验统计量,得拒绝域 (2.28)3.r检验法因为令 (2.29)则 (2.30)当也是随机变量时,就是与的相关系数的矩估计量,所以,称为样本相关系数。根据平方和分解公式(2.21)式,有,当接近1时,接近,接近0,表明与的线性相关程度高;当时,有=,=0,说明的变化完全由引起;当接近0时,接近0,接近,表明与的线性相关性不显著;当时,有=,=0,表示的变化与无关,完全由其它随机因素引起。因此,可用来检验与之间的线性相关程度。设统计假设为: 与线性无关, 与线性相关 (2
14、.31)检验统计量为,拒绝域 (2.32)(是的样本值,可从相关系数检验临界值表查得)。样本相关系数与回归系数估计量有下列关系 (2.33)三个检验统计量之间有关系 (2.34) (2.35)四、线性回归的应用预测与控制预测与控制是回归分析的重要应用之一,当然前提必须是样本回归直线先通过回归显著性检验。1.预测 预测同样可分为点预测和区间预测。点预测指对给定的,预测对应的随机变量或的值;区间预测指在一定置信度下预测或的取值范围。因为 (2.36) (2.37) (2.38)由性质2.3(4)知,对 (2.39)有即是的无偏估计,所以可用作为或的点预测值。1)的区间预测由性质2.3 得 由性质2
15、.7(2)知 (2.40)所以其中 (2.41)于是,对给定的置信度 有 由此得到 (2.42)其中 (2.43)从而得到的置信度为的预测区间: (2.44) 从(2.41)、(2.43)式可知,残差标准差越小,预测区间越窄,预测精确度越高;对给定的样本观测值和置信度,越靠近,预测精度也越高。 由的任意性,预测区间(2.44)式构成一个喇叭形的预测带,样本回归直线夹在两条曲线 (2.45) (2.46)之间,如图2.1 所示。2)的预测区间,由 (2.47)知 (2.48)结合(2.40)式,有 (2.49)其中 (2.50)对置信度有 (2.51)其中 (2.52)因此,的预测区间为 (2.
16、53)的预测区间具有与预测区间同样的特点,即在一定的置信度下,越接近,其预测区间越小,预测精度越高,反之,离越远,其预测区间越大,预测精度越低,预测区间形状也呈喇叭形。但由于(2.50)式比(2.41)式中多了一项1,所以在其他条件相同的情况下,的预测区间要比的预测区间大。如果给定的是在样本值以内,则其预测过程称为内推预测,否则称为外推预测。当离较远时,样本回归直线的预测能力下降,预测结果也较不可靠。原因是所构造的模型仅仅反映样本的状况,对总体只是一种近似描述,当所要预测的特定值远离样本时,根据原样本拟合的回归直线的预测结果可信度必然下降。所以利用样本回归直线进行预测时,一般局限于原来观测数据
17、的变动范围,不得随意外推,尤其是远距离的外推,除非有充分的依据证明样本回归模型仍然具有代表性。另外,当样本容量很大,且在附近时,有, 此时 (2.54)预测区间为 (2.55)当时,预测区间是 (2.56)当时, (2.57)为方便起见,甚至记置信度为95%的预测区间为 (2.58)置信度为99%的预测区间为 (2.59)这时的预测带为平行于样本回归直线的两条平行线之间的部分,如图2.2 所示。这种近似处理使得预测工作得到很大的简化。例2.1 为研究家庭收入与家庭食品支出的关系,随机抽取了10个家庭,得到表2.1的数据。试根据这些数据: (1)建立家庭食品支出对家庭收入的样本回归直线; (2)
18、预测当家庭收入为4200元时,家庭的平均食品支出及其置信度为95%的预测区间。 表2.1 家庭收入与食品支出数据(单位:百元)家庭12345678910收入20303340151326383543食品支出7981154810910解:设家庭收入为(单位:百元),家庭食品支出为(单位:百元)。(1)做出表2.1 中家庭收入与食品支出数据的散点图,如图2.3所示。该图形显示家庭收入与食品支出之间存在线性相关关系。(2)求家庭食品支出对家庭收入的样本回归直线。由样本资料计算所需数据,如表2.2所示。由表2.2得: 293/10=29.3,8.1/10=8.1, =2574-10×29.3&
19、#215;8.1=200.7表2.2 家庭收入与食品支出回归计算家庭收入支出12074004914023099008127033381089642644401116001214405155225257561341691652726867664208838101444100380935912258131510431018491004302938195777012574=9577-10×29.32=992.1=701-10×8.12=44.9200.7/992.1=0.20238.1-0.2023×29.344.9-0.20232×992.1 =4.2983
20、所以,家庭食品支出对家庭收入的样本回归直线方程是该方程说明,当收入为零时,也必须有217.26元的食品支出,这部分支出可视为基本支出或固定支出水平;在一定范围内,收入每增加100元,支出就增加20.23元。(3)检验。取显著水平。 用F检验法:拒绝域为检验统计量的样本值,拒绝,即认为家庭收入对家庭食品支出有着显著的线性影响作用。用t-检验法:拒绝域为检验统计量的样本值,拒绝,也认为家庭收入与家庭食品支出有显著的线性相关关系。用r检验法:由于相关系数的样本值所以认为家庭收入与家庭食品支出之间的线性关系显著。(4)当家庭收入4200元时,平均食品支出预测为(百元)=1066.92(元).置信度为9
21、5%的预测区间为是由.得即,有95%的把握估计当家庭收入是4200元时,平均食品支出额在980.31到1153.53元之间。2.控制控制问题指,若要使的取值以的概率落在指定的区间内,自变量应控制在什么范围,即求出自变量的取值区间,使得对应的因变量以的概率落在内。事实上这是预测问题的反问题。为使,当时,只需满足 (2.60) (2.61) (2.62)一般取如果能从这两个方程中分别解出,便得到控制区域。但由于很复杂,难于从上述方程中求出。但当样本容量很大,且在附近时,问题就可以大大简化。令: (2.63) (2.64)得 (2.65) (2.66)从图2.4、2.5可以很直观地看出,当或时,的不
22、同控制区间。注意为了实现上述控制,必须使区间的长度满足: §4.3一元非线性回归前面讨论了描述不确定性关系中线性相关关系的线性回归模型,在实际问题中,变量之间的关系往往是比较复杂的非线性相关关系,对这类问题不能直接应用线性回归模型,但大部分可以通过适当的变量变换将其转化为线性回归问题研究。下面列举了常见的非线性回归模型中的曲线回归函数和图形以及线性化方法,在一些数学和工程手册上可找到更多的曲线回归函数。1.双曲线回归函数 (3.1)对应图形如图3.1所示。 图3.1 双曲线图形 作变换 (3.2)得线性函数 (3.3) 2.幂函数 (3.4)对应图形如图3.2所示。 图3.2 幂函数
23、图形作变换 (3.5)得线性函数 (3.6)3.指数曲线 (3.7)对应图形如图3.3所示。图3.3 指数曲线图形作变换 (3.8)得线性函数 (3.9)4.倒指数曲线 (3.10)对应图形如图3.4所示。图3.4 倒指数曲线图形作变换 (3.11)得线性函数 (3.12)5.对数曲线函数 (3.13)对应图形如图3.5所示。图3.5 对数曲线图形作变换 (3.14)得线性函数 (3.15)6.S型曲线 (3.16)对应图形如图3.6所示。图3.6 S型曲线图形作变换 (3.17)得线性函数 (3.18)7.多项式曲线 (3.19)作变换 ,,, (3.20)则 (3.21)对于一个实际的一元
24、非线性回归问题,一般先按观测值描绘出散点图,看散点图与哪类回归曲线图形接近,然后选用对应的曲线回归模型,通过适当的变量变换使其化成直线回归模型,按线性回归分析方法解算和进行显著性检验,检验通过后再还原求得曲线回归方程。例3.1 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大。希望找出使用次数与增大的容积之间的关系。试验数据列于下表3.1。表3.1 使用次数与增大的容积的试验数据234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76解:首先根据实测数据作
25、出图3.7所示的散点图,确定与之间的回归函数类型。从图中看出,最初容积增大得很快,以后逐渐减慢趋于稳定。 根据这个特点,选用双曲线 (3.22)作为回归函数来表示增大容积与使用次数之间的关系。令 (3.23)则得线性函数 (3.24)由、的数据取倒数得的数据,见表3.2。表3.2 的实验数据v0.50000.33330.25000.20000.16570.14290.12500.1111u0.15580.12200.10440.10530.10310.10000.10070.1001v0.10000.09090.08330.07690.07140.06670.0625u0.09530.0944
26、0.09430.09260.09430.09170.0929利用上面的数据,按线性回归公式算得,得到样本回归直线方程 (3.25)用相关系数检验法检验(3.25)式。对,查相关系数临界值,得。由于>0.6411所以线性回归方程(3.25)式的作用高度显著。由(3.23)式得样本双曲线回归方程或 (3.26) 这就是使用次数与增大的容积之间数量关系的概略化描述。上述运算中,由于对作了变换,故实际上所求的回归方程是按达到最小这个意义求得的,这并不说明残差平方和最小,因此,所求得的回归曲线不一定是最佳的拟合曲线。而作回归曲线的目的,是要它使残差平方和达到最小,所以在选用曲线来表示与之间的关系时
27、,最好选用不同的曲线类型分别进行计算,然后进行比较,残差平方和最小者为最优。例3.2 (续例3.1)对表3.1中的数据,把所作的散点图与倒指数曲线图形比较,可知用倒指数曲线 (3.27) 作为与的回归曲线也是合理的。求回归结果,并比较哪个模型最优。解:对(3.27)式两边取对数,得再令 (3.28)则得 (3.29)由表3.1算得的数据如下:表3.3 的实验数据v0.50000.33330.25000.20000.16570.14290.12500.1111u1.85942.10412.25972.25132.27212.30262.29552.3016v0.10000.09090.08330
28、.07690.07140.06670.0625u2.35042.35992.36082.37952.36082.38872.3758按线性回归公式进行计算,有表3.4 双曲线模型与倒指数曲线模型的残差平方和使用次数增大容积双曲线模型倒指数曲线模型残差残差26.42-0.341-0.28238.200.2660.13549.580.8920.73359.500.2870.14769.700.100-0.005710.000.1040.03489.93-0.201-0.23599.99-0.332-0.3331010.490.0100.0391110.59-0.0220.0331210.60-0.
29、125-0.0461310.80-0.0230.0771410.60-0.308-0.1881510.90-0.0830.0551610.76-0.289-0.136残差平方和1.43860.8915所以回归方程为由于因此,线性回归方程的作用高度显著。因为得倒指数曲线回归方程为 (3.30)为了比较(3.26)与(3.30)哪一个拟合得更好些,分别求两个模型下的残差平方和,见表3.4。由于,故用倒指数曲线模型比用双曲线模型更好些。§4.4 多元线性回归一元线性回归是最简单的线性回归,模型中仅含一个自变量。而实际问题中,影响因素往往不止一个,如家庭消费支出不仅与家庭收入有关,还与家庭成
30、员数、年龄结构、消费习惯、地理位置、商品供应条件等因素有关。下面我们就来讨论受多个自变量影响的多元线性回归模型,由于篇幅限制,介绍自然是很基本的。一、多元线性回归模型及参数的最小二乘估计一般地,设有个影响因素,与因变量有如下相关关系 (4.1) (4.2)称(4.1)(4.2)式为多元线性回归模型,线性函数 (4.3)称为多元线性回归函数或方程,称为回归系数。与均未知。 设是来自总体的样本,且 (4.4)记 ,则(4.4)式表示为: (4.5)这就是通常所说的线性模型(linear model),它是统计学中及其重要的研究分支之一,式中是一个纯量矩阵,称为设计矩阵或结构矩阵,在回归分析中一般假
31、设为列满秩,即;是维零向量(下同,请读者注意在不同场合的意义,根据上下文很容易加以区分),是阶单位矩阵。设是的估计向量,则称 (4.6)为(多元)样本线性回归方程。记 , (4.7),则 (4.8)残差平方和为 (4.9)对给定的观测数据,选择为 (4.10)的最优解。因此为 (4.11)的解。由(4.11)式得到 (4.12)称之为正规方程。因为,所以存在,故得到的最小二乘估计 (4.13)从而,(4.8)式为 (4.14)需要注意的是(4.13)同样具有两重性,如果是随机变量的一组样本,则是随机向量,为回归系数的估计量;同样可以看成的观测值,从而(4.13)式又是一个纯量向量,是回归系数向
32、量的一个估计值。有些时候为了方便,不从符号上去区分它们,请读者在看其它参考书时需要留意。二、 最小二乘估计量的性质性质4.1 证明:由(4.5)式知而 为的各分量的线性组合,根据第一章§1.3 多元正态分布的性质有,服从正态分布,且 所以 证毕特别地对一元线性回归模型(2.3)式,有,且,由性质4.1,得服从正态分布,。由此可知,服从正态分布,且,。这就是第四章§4.2的性质2.3。记,称为投影矩阵,则,且 是对称幂等矩阵,即,。也是对称幂等矩阵。具有重要的性质:,。记,称为残差向量,则。性质4.2 证明:由和(4.5)式知,服从正态分布。而 所以 证毕性质4.3 证明:。
33、 证毕性质4.4 设则,从而是的无偏估计量。证明:由性质4.2得所以 证毕当时,该性质就是第四章§4.2的性质2.4。与一元线性回归一样,仍用、分别表示总偏差平方和、回归平方和,即,则有下列平方和分解公式。性质4.5 (4.15)证明: 由于 满足,得,而 故 证毕显然,这个证明方法也适合第四章§4.2一元线性回归性质2.5的证明。性质4.6 与独立,与独立。证明:因为与服从正态分布,所以与独立等价于。根据性质4.3得证与独立。而=,所以与独立。 证毕当时,该性质就是第四章§4.2的性质2.6。 由于下面性质的证明较复杂,在此仅给出结论,其证明请见书末的参考文献。
34、性质4.7 (1) 与独立; (2) ; (3) 若,则,。当时,由性质4.7得到第四章§4.2性质2.7。三、多元线性回归的显著性检验对多元线性回归需要对整个自变量与之间是否有密切的线性相关关系,或线性回归模型的显著性进行检验。但是即便与之间有着密切的线性关系,也不意味着每个变量对都有显著的影响。因此,还必须检验每个变量对的影响的显著性,对那些影响不显著的自变量应从模型中逐个剔除,重新建立只包含对有显著影响的自变量的回归方程,也就是说需对回归系数进行显著性检验。1.线性回归模型的显著性检验与一元线性回归情况类似,如果整个对的影响不显著,那么模型(4.1)中的系数。因此,问题归结为检
35、验 (4.16)由性质4.5可知,在成立条件下,对确定的,应较小,也就是说较大是一个小概率事件。再由性质4.7知,当成立时,有 所以对,选择 (4.17)为检验统计量,拒绝域为 (4.18)此检验方法称为F检验法。仍可利用回归平方和在总离差平方和中所占比例大小衡量与 之间线性相关的密切程度。称 (4.19)为样本复相关系数或多元相关系数。这时,越接近于1,说明与 之间的线性相关性关系越密切;越接近于0,说明与 之间的线性相关关系越不显著。因此,对给定显著性水平,当的样本值(相关系数临界值)时,认为与 之间的线性关系显著,否则认为与 之间的线性相关性不显著。2回归系数的显著性检验当与之间有显著的
36、线性关系时,还必须检验每个变量的显著性。如果对的作用不显著,那么应为零,也就是要对 (4.20)进行检验。由性质4.1知记,则 (4.21)从而 (4.22) (4.23)由性质4.6知与独立,从而与独立,再由性质4.7得,当成立时,有 (4.24) (4.25)于是,与都可以用来检验,对给定的显著性水平,检验规则为:当的样本值 (4.26) 时,拒绝,否则,接受;或当的样本值 (4.27)时,拒绝,否则,接受。如果检验结果是接受,即,则应将从回归方程中剔除,重新用最小二乘法估计回归系数,建立新的回归方程 (4.28)一般,但有如下关系: (4.29)注意,在剔除不显著自变量时,考虑到自变量之
37、间的交互作用对的影响,每次只剔除一个自变量,如果有几个自变量检验都不显著,则先剔除其中值最小的那个自变量。当剔除,并利用(4.29)式建立新的回归方程(4.28)后,还必须对剩下的个自变量再用上述方法检验它们的显著性。如果不显著,则还需逐个剔除直至保留下的自变量对都有显著的作用为止。例4.1 在平炉炼钢中,由于矿石与炉气的氧化作用,铁水的总含碳量在不断降低,一炉钢在冶炼初期总的去碳量与所加的两种矿石的量及熔化时间(单位:5min)有关。经实测某号平炉的49组数据如表4.1所示。求对的线性回归方程,检验回归方程和回归系数的显著性。如有不显著的变量,请剔除之并求剔除不显著的变量之后的回归方程。解:
38、(1)由(4.13)式,求得回归系数的估计值多元样本线性回归方程为 此方程的有明确的含义。如,表示第一种矿石量每增加一个单位,铁水的平均去碳量增加;,表示冶炼时间每增加一个单位时间(5min),铁水去碳量增加。(2) 检验回归方程的显著性,即检验:为此先计算各偏差平方和其中于是表4.1 某号平炉的49组实测数据编号(槽)(槽)(5min)(t)编号(槽)(槽)(5min)(t)1218504.33022696392.7066279403.648527125515.63143514464.483028613415.81524123435.5468291274754970
39、30024615.39106312403.112531512374.45337317645.118232415494.6569865393.875933020454.5212978374.670034616424.865010023554.953635417485.356611316605.006036104484.609812018495.270137414362.38151384505.377238513363.874614614515.48493998514.591915021514.596040613545.158816314515.664541581005.437317712566.
40、079542511443.996018160483.21944386634.397019616455.807644213554.062220015524.73064578502.29052190404.680546410454.71152246323.127247105404.531023017472.610448317645.36372490443.717449415726.077125216393.8946取显著性水平,查分布表得,由于f=7.692>4.24,故拒绝,即两种矿石及熔化时间对去碳量的线性影响在下是显著的。 (3) 回归系数的显著性检验,即对 进行检验。因 计算得;取,
41、查F分布表,得,因,所以在显著性水平下,第一种矿石()对去碳量的线性影响不显著,但另外两个因素对去碳量的线性影响都显著。因此,在下,变量应从回归方程中剔除。为了建立新的回归方程,利用(4.29)式求出新的回归方程的系数由此得到新的线性回归方程§5.5* 回归诊断回归诊断(regression diagnostic)是上个世纪70来年才发展起来的新兴统计理论与技术,可以说它的产生和发展是和计算机技术和计算能力的飞速发展分不开的,上个世纪后半叶,回归分析愈来愈成为各个领域科技工作者分析数据的一种常用工具,但在长期的实际应用中,人们逐渐地发现经典的最小二乘估计的结果并不总是令人满意,因而统计学家从多个方面进行努力试图改进最小二乘估
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子商务平台区域经销商网络合作协议
- 数据挖掘工程师跨区域合作合同
- 国际化新材料专利许可与全球市场研发合作协议
- 抗癌生物制药研发有限合伙人投资协议
- 影视版权代理与影视行业培训教育合作协议
- 小红书平台店铺综合运营与品牌推广合作协议
- 影视后期剪辑师聘用及影视版权合作合同
- 跨界合作影视剧本改编权转让合同
- 农业生态农场合伙人生态农业农业保险合作协议
- 豪宅房产优先购买权转让及执行协议
- 7.1 自由平等的真谛 课件- 2024-2025学年八年级道德与法治下册 统编版
- 2025年内蒙古中煤蒙大新能源化工有限公司招聘笔试参考题库附带答案详解
- 插画版权授权协议书
- 地理西亚+课件-2024-2025学年七年级地理下册人教版
- 放射科质量管理制度
- 科研助理笔试题库及答案
- 产品上市计划
- CHINET2024年全年细菌耐药监测结果
- 药物临床试验质量管理规范解读
- 膀胱癌健康宣教课件
- X线腰椎临床意义
评论
0/150
提交评论