版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章一元回归分析在研究客观现象时.经常发现因索(变量)之间存在一种相互制约、相互联系的关系.这种关系可以分为两类:一类是因数之间存在函数关系;另一类是因数之间存在相关关系。函数关系是指若干变量彼此之间存在完全的确定关系。相关关系是指因变量y与自变量二的关系没有密切到可以完全唯一确定的程度.y的取值带有一定的随机性.它只是随自变量二大体上按某种关系变化在实际工作中.绝大多数情况下.杏量之间的关系是相关关系。下一页返回第2章一元回归分析回归分析是处理杏量之间相关关系的数学工具.即应用数学方法.对大量的观测数据去粗求精.去伪存真.由此及彼.由表及里地改造制作.从而得出反映事物内部规律性的东西。回归分析主要解决以下几个方面的问题:①确定几个特定的变量之间是否存在相关关系.如果存在.找出合理的数学方程式来表达它们之间的统计相关关系;②利用这种统计相关关系.在一定的置信度下.根据一个或者几个变量的取值去预测或者控制另一个变量的取值.或者当希望某一变量值落在某一范围内时.应如何去控制影响该变量的各因数的取值范围;③进行因数分析.例如对于共同影响一个变量的许多变量.找出哪些是重要的因数.哪些是次要的因数.这些因数之间又有什么重要关系。在讨论回归分析时.通常都是假定因变量是服从正态分布的。如果影响因数(自变量)只有一个.我们称为一元回归。一元回归分为一元线性回归和一元非线性回归。上一页返回2.1一元线性回归一元线性回归只能处理两个变量之间的关系.它又被称作为直线拟合。假设x为自变量.y为因变量.现经过试验得到n对数据(xi,yi)(i=1,2,...,n).把各个数据点画在坐标纸上.如果各点的分布近似一条直线.则可以考虑采用一元线性回归。下一页返回2.1一元线性回归2.1.1一元线性回归方程的求法若有n个实验点(xi,yi)(i=1,2,...,n),则y的观测值yi可由式(2.1)表示式中,ei为残差令为yi的估值.即则上一页下一页返回2.1一元线性回归在回归分析中.主要问题是根据一组观测值找出最佳的a,b估值.使得与y达到最接近的程度。a,b的估值可由最小二乘法得到.即选取a,b使残差平方和达到最小。根据数学分析中的极值原理.要使Q达到极小.仅需对式(2.4)分别求a和b的偏导数.即a,b满足如下方程上一页下一页返回2.1一元线性回归由此可得上一页下一页返回2.1一元线性回归其中在式(2.6)中.若令上一页下一页返回2.1一元线性回归同理上一页下一页返回2.1一元线性回归由此.式(2.6)可表示为由式(2.5)不难看出,回归直线一定通过点。上一页下一页返回2.1一元线性回归如荧光索标准溶液的荧光强度(任意值)测定结果如下:浓度0.02.04.06.08.010.012.0荧光强度2.15.09.012.617.312.024.7由此得到表2.1。则上一页下一页返回2.1一元线性回归利用式(2.7)和式(2.5)可以分别得到回归直线的斜率b和截距a:即上一页下一页返回2.1一元线性回归本组测定值的回归直线如图2.1所示。需要指出的是.在上述计算中.对于观测值的误差通常有如下三个假设。①误差ei是非系统性的.即它的期望值为零。
E(ei)=0(i=1,2,…,n)②各次观测值彼此独立.且精度相同.即ei间协方差可表示为③观测误差遵从正态分布。上一页下一页返回2.1一元线性回归2.1.2相关系数和显著性检验根据上节关于最小二乘法的原理可知.即使一堆杂乱无章的测试点[图2.2(c)]也可以求出一元线性回归方程.显然这样的方程式是毫无意义的。为了表征变量x与y的线性相关关系.引入一数量性指标相关系数r。上一页下一页返回2.1一元线性回归如第2.1.1节中荧光索荧光强度的测定.其相关系数为相关系数|r|≤1。如果|r|=1.则表明x,y完全线性相关.当r=1时.称为完全正相关.而r=-1时.称为完全负相关。x与y正相关时.此时全部测试点准确地落在斜率为正的直线上[图2.2(a)];当r=-1(x与y负相关)时.全部测试点准确地落在斜率为负的直线上[图2.2(b)]。事实上.在绝大部分情况下0<|r|<1。上一页下一页返回2.1一元线性回归平方相关系数可用式(2.8b)表示式中,是由回归方程所得的计算值。上一页下一页返回2.1一元线性回归通过分析可知式(2.8b)与式(2.8a)在代数上是等价的。r^2表不由x变化能够解释的y的方差在总方差中的比例。若r^2接近1.则说明y的方差绝大部分由于回归所引起,而部分是由x变化不能够解释的y的方差在总方差中的比例。相关系数可正可负.即有符号.此符号表不相关的方向.即正的相关或负的相关。但是,不能够有符号.因为它的大小是不能够由相关性表征的部分.是没有方向性的。关于式(2.8a)和式(2.8b).由后面2.1.3节一元线性回归方差的分析还可以进一步理解。由图2.3(a)可以看出.因变量y的变化并不与x成线性相关。但是根据相关系数r的计算可知r=0.986.已经非常接近1.这与相关系数的性质相矛盾。所以若仅仅依赖于r值来判断y与x的相关性尚不够。再如图2.3(b).由式(2.8a)计算所得r=0.它只意味着y与x对于直线而言是不相关的上一页下一页返回2.1一元线性回归为判断厂究竞要多大才可能认为变量y与x具有线性相关关系.我们用显著性检验的方法来解决F检验的公式为假设ρ=0(r为ρ的估计值),在给定显著性水平α下,将F的计算值与F分布表中临界值Fa(自由度:1,n-2)相比较.若F>Fa,则拒绝ρ=0的假设.说明变量y与x间的相关关系明显。上一页下一页返回2.1一元线性回归仍以第2.1.1节中荧光索的荧光强度测定为例:查F分布表F0.01(1.5)=16.3.即F>F0.01(1.5),所以在此测定中.荧光强度与荧光索浓度相关关系显著。若将式(2.9a)变换一下可得式(2.9b)只要给定F的临界值.则可算出临界的相关系数r。如上例,临界值r=0.87。上一页下一页返回2.1一元线性回归2.1.3一元线性回归的方差分析一元线性回归的方差分析法是通过对试验结果的回归分析,建立回归方程,再对回归方程进行方差分析等一系列步骤.判断线性回归的效果好坏.估算各点的测定误差和置信界限.确定标准曲线的校正范围.从而有效地达到提高检测精度的目的。本节通过回归方程方差的分析.给出判断回归效果好坏的标准。上一页下一页返回2.1一元线性回归对变量y与它的平均值之间的总偏离平方和进行分解上一页下一页返回2.1一元线性回归在式(2.10)的推导中即上一页下一页返回2.1一元线性回归式(2.10)可分为两个部分.即式中.U为x变化时.y按回归方程线性变化而引起对的偏离平方和.称之为回归平方和;Q为除回归模型之外的其他因索所引进的偏离平方和.称之为剩余(或残差)平方和。上一页下一页返回2.1一元线性回归如图2.4所示,有6个实验点.L为这6个实验点的一元回归线.为均值。以第6点为例.总偏差为AC.它是测试点i,i=6.到均值的距离为(yi-)。其中AB段为L到均值的距离为(
),即由回归模型所能解释的偏差部分;BC段为回归模型所示能解释的偏差(
).则上一页下一页返回2.1一元线性回归2.1.4斜率b和截距a的区间估计及斜率b的显著性检验1.斜率b和截距a的区间估计根据最小二乘法求得斜率b和截距a进而获得回归直线方程。可以通过内插求取x值(如样品的浓度).因而需要将随机误差对回归方程的斜率b及截距a所产生的影响进行估计。首先令上一页下一页返回2.1一元线性回归式(2.13)即为一元回归分析的标准偏差。在第1章中.我们曾采用“s”表示一组重复测定数据的标准偏差;此处.我们采用了同样的符号“s”来表示一元回归分析的标准偏差。两者形式相似.但意义却不相同注意不要混淆它们的主要别使:前者的计算为,自由度为n-1;后者的计算为,即残差平方和Q.自由度为n-2。由s则可分别进行斜率b和截距a的标准偏差计算上一页下一页返回2.1一元线性回归sb和sa值通常可分别用于计算斜率b和截距a的置信区间式中,t为自由度是n-2时的某显著水平下的t值。例如.第2.1.1节中荧光索强度的测定.为其回归直线斜率和截距的标准偏差及置信区间的计算.我们首先列出表2.2。上一页下一页返回2.1一元线性回归根据式(2.13)可得由表2.1知,并由式(2.14)可得在t值表中.自由度为5,置信度为95%(即显著水平为0.05)的t值为2.57,则置信度为95%的b为上一页下一页返回2.1一元线性回归由表2.2及式(2.15)可计算sa因而置信度为95%的a为上一页下一页返回2.1一元线性回归2.斜率b的显著性检验斜率b的显著性检验用如下公式式中βH为β的假设值;b为β的估计;sb为前面已述的斜率b的标准偏差。做0假设,即RβH=0(假设回归方程的斜率为0)时当t计算值大于t分布的查表值时.则否定原假设.说明回归方程显著上一页下一页返回2.1一元线性回归如上荧光索的例子在显著性水平α=0.05时.t=2.57.计算值大于临界值.说明关于荧光索的一元回归方程是显著的。上一页下一页返回2.1一元线性回归2.1.5x值和检测限的计算1.x值的计算一旦回归方程得到之后.给定一个y值计算相应的x值是简单的。但是.由于斜率和截距均带有误差.若对所计算出的x值的误差做出估计尚比较复杂。通常用式(2.16)进行近似计算。式中.yi为y的测定值.由它可计算出值;为的标准偏差。上一页下一页返回2.1一元线性回归若yi为m次测定所得.则的表达式为显然.当m=1时.式(2.17)退化为式(2.16)。的置信区间为+t,其自由度为(n-2)。在前面的例子中.若所测定的荧光强度yi分别为2.9,13.5,23.0,应用回归方程(见第2.1.1节)上一页下一页返回2.1一元线性回归可计算其值(pg/mL)分别为0.72,6.21,11.13。根据前面几节,知n=7,b=1.93,s=0.4329,=13.1及那么.将yi值2.9,13.5,23.0分别代入式(2.16),则计算可得值分别为0.26,0.24,0.26,相应于95%的置信度(t=2.57),其置信区间分别如下上一页下一页返回2.1一元线性回归由此可见.相应于yi=13.5所得置信区间最小.其原因由式(2.16)可以得到解释。因为当yi趋近于时,则式(2.16)括号中的第三项将趋近于0.由此达到极小值。通过回归方程.由测定值yi计算的置信区间的一般形式如图2.5所示。显然.在实际分析中.当测定信号越是接近回归线重心.则所得结果误差越小。换句话说.测定值偏离回归线重心越远.则计算出的的误差越大。另外.由式(2.16)和式(2.17)可知.若希望改进(即变窄)置信区间.则可采取如下措施:上一页下一页返回2.1一元线性回归①增加的测定次数.即yi为m次测定的均值.如在上面的计算中.若yi=13.5为4次测定的平均值.即m=4.则将为0.14,置信区间为6.21±0.36。当然.重复测定次数不能太多.因为太多时.工作量过大.而精度的提高却没有那么多。如yi为8次均值时.则和置信限分别为0.12和6.21±0.30。②增加校正点数n。当然,当n过大时,工作量加大,如需配置比较多的标准溶液。但是n不能太小.因为n小时.1/n将增大.同时自由度n-2变小.导致在计算中运用较大t值。在实验中.欲增加精度.可重复测定yi值。上一页下一页返回2.1一元线性回归2.检测限的计算有研究者建议检测限的定义为式中.y为试样测量信号;yB为背景信号;sB为背景信号的标准偏差。sB的得到需要反复测定背景yB.比较费时.但可以运用回归分析结果进行近似计算.即以标准偏差s代替sB,截距a代替yB那么然后,由所得y值再进行x即检测限的计算。上一页下一页返回2.1一元线性回归2.1.6标准加入法假若希望(如用原子吸收光谱法)测定显相废液中的银.由于基体的影响而不能够运用纯水的银盐作为标准溶液.否则必须设法使纯水标准溶液与显相废液含有同样的基体的吸收效应标准加入法是解决这一问题的有效途径.即取等量的样品溶液.在每一份中加入不等量的已知标准样.然后稀释到同一刻度(体积)测定。图2.6为标准加入法的示意图。图2.6中.y轴为信号.如光度吸收值;x轴为分析试样浓度(或绝对量)。运用通常的方法绘出回归曲线.但需要将之外推.即外推到y=0的x轴处(设为xE)。显然.在x轴上的负截距即为实际样品中拟测试元索的量。由于a/xE=b.其中a和b分别为回归直线的截距和斜率.由此.xE=a/b。上一页下一页返回2.1一元线性回归由于在回归分析中a与b均有误差.所以计算值也必然包含有误差。在现在的情况下.x值的计算并非由单一的y值而得出,所以用于外推x值(xE)的标准偏差公式不同于式(2.16)。此时,式中.n的意义同前.即样品个数。增大n,可以提高测试精度。一般情况下.对于标准加入应至少应该有6个点,即n≥6。另外,若拟提高精度,可以增大也就是说,x的取值范围要尽可能宽。xE的置信区间为xE±tSxE。上一页下一页返回2.1一元线性回归由方程(2.5)和方程(2.6)可得并且继而得到实际试样中银的浓度为17.3μg/mL。然后.由式(2.13)算得s=0.01094.而上一页下一页返回2.1一元线性回归那么SxE=0.749。由上述这些数据.最后可以通过式(2.18)计算得到置信区间为标准加入法的优点是可以消除基体的影响。此种方法的主要不足是二值由外推法求得。由统计学的原理可知.外推比内插引进的误差要大。如加入一定量银的标准试样到显相废液中.若吸收值为0.65.则可求得废液中银的浓度为17.6μg/mL,置信区间为(17.6±1.6)μg/mL,与前面外推时所得结果相比较.精度的提高是很明显的。上一页下一页返回2.1一元线性回归2.1.7借助回归线进行分析方法的比较当一种新的分析方法提出后.很自然的做法是通过已知样的测定.与标准操作相比较.以确证该方法的可用性。可以借助回归分析来完成这种比较。如图2.7所示,在回归分析中.其中一坐标为所建议的新方法.另一坐标为用于比较的另一方法.图中的点为两种方法对同一样品的分析结果.直线的斜率b,截距a和相关系数r由回归分析所得。若截距a=0.斜率b=1.相关系数r=1[图2.7(a)].此时两种方法所测结果相同。事实上.两种方法所测结果准确地相一致的情况是不存在的.因为即使没有系统误差.但测试中的偶然误差也是存在的。上一页下一页返回2.1一元线性回归在实践中主要有如下几种情况:①回归直线的斜率b=1.但截距a≠0,[图2.7(b)]。在此情况下一种方法的结果系统地比另一种偏高(或偏低).其原因很可能是由于其中一种方法对于背景值的计算不当;②回归线斜率b>1(b<1)[图2.7(c)],其原因可能是系统误差在其中一种方法中起了作用;③图2.7(d)所示为系统误差在两种方法中均有影响;④系统误差致使回归线为一曲线[图2.7(e)];⑤图2.7(f)所示有可能发生,但极为罕见。上一页下一页返回2.1一元线性回归在实际应用中.尚需以斜率b和截距a的置信限进行测试。例如.果汁中铅的质量浓度由电位溶出法分析(potentionmetricstrippinganalysis,PSA)和无焰原子吸收光谱(AAS)法所测试.其结果如下:以AAS测试结果为横坐标.以PSA测试结果为纵坐标.其回!归分析结果如图2.8所示。运用前面介绍的方法可得上一页下一页返回2.1一元线性回归当置信率为95%.自由度为8(即10-2)时.t值为2.31.则截距和斜率的置信区间分别为由此可见.斜率b和截距a与“理想值”1及0并无较大的差别。值得指出的是.在两种方法比较中.仅仅应用相关系数r作为判据是不够的.因为在某些情况下.回归线已稍有弯曲[图2.3(a)],但相关系数仍可较高;相反.有时r并不十分接近1,但斜率和截距与1及0并无较大差别.此种情况主要是由于其中一种或两种方法的精密度较差所致。上一页下一页返回2.1一元线性回归另外.在本章的讨论中.关于y对x的回归均是忽略了x带有误差.即认为x值为精确值.而所有的误差是由y值引起的。对于单一的某一种方法一般来说这种假设是成立的。但是.作为两种方法的比较.即一种方法所得结果为x值;另一种方法所得结果为y值.则显然x和y均有误差。为使比较较为合理.即符合本章中x值为精确值的约定.必须注意如下几项:①在回归分析中.以较准确的方法为x轴.而另一种方法为y轴。②由于置信区间的计算依赖于自由度(n-2).因而应使n值大些.即测试点多些。一般来说应使n≥10。③在所测定的浓度范围内.试样的情况应尽可能相一致。上一页下一页返回2.1一元线性回归还应提及一点.在上述两种方法的比较中.实际上不仅假设了x值是精确值.而且认定y值的误差不随其值的变化而变化。事实上.当y值变化时.误差也将随之变化。即这种假设有其不合理性.而应当代之以权重最小二乘法(见第2.1.8节)但是.在实际工作中.前述两种假设大体上可以得到满足.因而非权重回归方法并不失其应用的一般性。上一页下一页返回2.1一元线性回归2.1.8权重回归分析从理论上讲.权重回归分析应该应用面更广.但是恰恰相反.在实际工作中.权重回归分析比一般回归分析应用得更少。固然.权重回归法的计算要稍复杂.而应用较少的主要原因是在于计算中需要知道不同浓度下(自变量变化范围内)有关误差的情况。假设误差大体上与分析试样浓度成正比.如图2.9所示(校正曲线上的每一点以误差范围形式表不).即浓度越大.误差范围也越大。显然.所求回归曲线通过误差小的点比通过误差大的点更重要.因而.给定权重与误差大小相反.也就是说.对于误差大的测试点赋子小的权重.而对于误差小的测试点赋子大的权重。上一页下一页返回2.1一元线性回归若测试点以通常的方式表示,即(x1,y1),(x2,y2),...,相应的标准偏差为s1,s2,...,则权重ω1,ω2,...为由此.回归线的斜率和截距分别为上一页下一页返回2.1一元线性回归式中.和为权重重心的坐标.即权重回归线一定通过点()对于下列数据分别计算非权重和权重回归线.以及对于吸收值0.100和0.600时.分别计算测试试样的浓度:上一页下一页返回2.1一元线性回归根据式(2.5)和式(2.6).可以得到非权重回归线的斜率和截距分别为0.0725和0.0133;相应于吸收值0.100和0.600的浓度分别为1.20μg/mL和8.09μg/mL。为权重回归线的计算.首先列出表2.3。由表2.3可得=0.1558/6=0.0260,=1.372/6=0.229,由式(2.19)和式(2.20)分别得由此可得相应于吸收为0.100和0.600的浓度分别为1.23μg/mL和8.01μg/mL。上一页下一页返回2.1一元线性回归比较非权重和权重回归计算结果可以发现.其权重的影响还是比较明显的。权重重心非常靠近坐标原点.最为靠近的是第一个点(0,0.009).此点误差最小。权重回归线的斜率和截距与非权重回归线非常相似.因此.由吸收值0.100和0.600所得浓度也非常接近。一般说来.即便是测试点比较离散.所得权重回归线与非权重回归线总是比较相似。不过.由权重回归线所得结果比非权重回归线所得的结果要更可靠些。由权重回归线反过来计算自变量(如浓度值)的标准偏差由式(2.21)完成:上一页下一页返回2.1一元线性回归在式(2.21)中的ω0相应于y0的权重.由此可见.接近坐标原点的点权重最大.而靠近重心的点.即(y0-)趋近于零时.置信限将趋于最小(图2.10)在这一点上.式(2.21)与式(2.16)相似。在式(2.21)中.由于y值的增加ω0急剧下降.即1/ω0急剧上升.如我们所期待的.此项保证了随着测定值y0增加.而置信区间也将相应增大。由式(2.21)可计算相应于吸光度为0.100和0.600时的置信区间.它们分别是(1.23±0.12)μg/mL和(8.01±0.72)μg/mL。对于非权重回归分析.其置信区间分别为(1.20±0.65)μg/mL和(8.09±0.63)μg/mL.由此可见.当浓度小时.权重回归分析的置信区间小于非权重回归分析的置信区间;与之相反.当浓度大时.其权重回归分析的置信区间则大于非权重回归分析的置信区间。事实表明.由权重回归分析所得结果优于非权重回归分析结果。上一页返回2.2一元非线性回归在实际测试中.有时数据点并不符合直线关系.这时需要对变量进行变换下列几种情况可以认为是线性模型:下一页返回2.2一元非线性回归因为系数bi与因变量y呈线性关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八年级数学(人教版)上册《完全平方公式》深度探究导学案
- 2025年煤炭生产经营单位(机电运输安全管理人员)复审考试及考试题库(含答案)
- 初中八年级地理:《北方地区的自然人文特征与可持续发展》大单元复习导学案
- 《倍数和因数》大单元探究式教学设计(西师大版五年级下册)
- 2026年(碳排放管理师)碳排放监测技术试题及答案
- 隔墙隔音施工方案及技术措施
- 室外排水提升泵站验收记录
- 物业电工知识竞赛试题及答案
- 施工现场安全瓦斯爆炸计划
- (正式版)DB22∕T 3197-2020 《快速测定玉米种子发芽率技术规程》
- 潍坊市2026电子商务师初级职业技能测试卷(含答案)
- 2026年高考日语试题及答案(全国卷)
- 2026春季外研版(三起)(新教材)小学英语四年级下册(全册)各单元知识点复习要点梳理
- 2026秋招:中国华电真题及答案
- 七十岁驾照换证“三力测试”题库(含答案及解析)
- 2026年中国疗愈经济蓝皮书
- 2026年北京市中考语文5年中考2年模拟试题作文讲练(解析版)
- 《劳动通论》课程考试复习题库及答案
- TCERS0005-2020电力线路跨越电气化铁路施工防护技术规范
- 课外活动合同协议书
- 2024~2025学年天津市南开区中心小学统编版六年级下册期末考试语文试卷
评论
0/150
提交评论