植物营养究法第四章 植物营养的生物统计研究方法学习资料_第1页
植物营养究法第四章 植物营养的生物统计研究方法学习资料_第2页
植物营养究法第四章 植物营养的生物统计研究方法学习资料_第3页
植物营养究法第四章 植物营养的生物统计研究方法学习资料_第4页
植物营养究法第四章 植物营养的生物统计研究方法学习资料_第5页
已阅读5页,还剩193页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容:基本概念

古典回归分析

施肥模型的回归设计第四章回归分析一、变量之间的关系1、函数关系(确定性关系)指当其中一个变量(自变量)在其变化范围内取定某一数值时,另一变量(因变量)按照一定法则总有确定的数值与它对应。这种关系称为函数关系或者是确定性关系。第一节基本概念如:圆的面积与它的半径之间的关系为

A=πr2。当半径r在区间(0~∞)内任意取定一个数值时,就可根据上式确定圆面积A的相应数值。函数关系常见于物理化学等学科中,在生物学中极为少见。2、相关关系在同一自然现象或技术过程中的两个变量,它们互相联系并遵循一定规律变化。当其中的自变量在其变化范围内取定某一数值时,因变量虽然没有一个确定的数值与之对应,却有一个特定条件概率分布的因变量与之对应,也就是在一次抽样中,因变量出现的数值其具有偶然性;在多次抽样中,因变量出现的数值便具有一定的规律性,即服从一定的概率分布。这种关系称相关关系。一、变量之间的关系例如:施肥量与作物产量之间的关系,在一定限度内随着施肥量的增加,作物产量也相应提高,但却不能根据施肥量计算出一个完全确定的作物产量,而只能估计出一个作物产量的范围二、相关分析和回归分析的概念、相关分析分析研究变量之间相关关系的密切程度,并用一数量性指标描述(相关系数)。但是,要注意两个变量之间要有一定的相关关系,否则所研究的相关关系就没有任何意义。例如:若你想要研究你的身高(或年龄)增长与教室外面刚种下小树的株高之间的相关关系,可能他们之间的相关系数都达到极显著的水平,但是对于这个试验来说,没有解决任何问题,也就没有任何意义。2、回归分析是处理相关关系中变量与变量间数量关系的一种数学方法。在相关关系中,自变量x与因变量y的关系具有不确定性,即当x为一确定值时与之相对应的y不是一个完全确定的值,而是多个乃至无穷多个y值,但是这些y值却是一个具有一定概率分布的总体,这个总体的平均值数是一个确定的值,称为y的条件平均数,x与y的条件平均数呈函数关系。这种关系称y依x而回归,不称y是x的函数,用方程形式表达:µy.α=f(x)其中µy.α为y的条件平均数,也称回归值,若用样本估计时,为ŷ=f(x),其中ŷ是µy.α的估计值。因此,回归分析的实质是通过对大量测定数据的统计分析,建立一个能反映具有相关关系变量间的回归方程。3、相关分析和回归分析之间的关系回归分析实质上包含了相关分析的意义,但是回归分析不是相关分析,只有具有相关关系的变量才能做回归分析,但不是所有具有相关关系的变量都可做回归分析。除此之外,在回归分析中需要明确自变量和因变量:当两个变量具有原因和反应关系时,原因变量即为自变量,反应变量为因变量。当两个变量不是原因和反应的关系,而是平行关系时,则哪一个作为自变量都可以,因根据研究目的而定。只有一个自变量的回归问题称为一元回归,有两个或两个以上自变量的回归问题称多元回归。回归又以自变量和因变量间联系特征的不同而分为线性回归与非线性回归。第二节古典回归分析一、一元线性回归(直线回归)指只有一个自变量的回归方程,因此,只有两个变量例如:土壤有机质含量与全氮含量之间的关系(一)、直线回归的数学模型在抽样研究中,因变量y的观察值ya与其条件平均数µy.α总有一定的差异,即:µy.α=ya+εa,因此直线回归的数学模型用下式表示:其中a=1,2,…N当由样本估计时,相应的回归方程为:ŷ=b0+bx(二)、回归系数b0,b的确定:(最小二乘法)

对于试验的每一个xa,由方程ŷ=b0+bx可以确定一个回归值ŷa=b0+bxa,要使回归方程ŷ=b0+bx能更好地反映x和y的数量关系,应使观察值ya与回归值ŷa的偏差尽可能小,最小二乘法就是在观察值ya与回归值ŷa的偏差平方和

最小来确定。也就是:此时来求解b0和b。由于Q(b0,b)是b0和b的二次函数,又是非负的,所以它的最小值总是存在的,因此,b0和b就是下列方程组的解:该方程组称为正规方程组,它还可以写成如下形式:解正规方程组得(X的离均差与y的离均差乘积之和)由可得说明回归直线通过()。,(三)、回归方程的显著性检验1、总平方和的分解(观察值之间的变异)2、自由度的确定(y的自用度)3、F检验即:其中:称为回归平方和称为剩余平方和回归方程偏差示意图ya-Ӯ=(ya-ŷa)+(ŷa-Ӯ)把上式左右取平方并对N个测定值求和得SS总=Lyy=∑(ya-Ӯ)2=∑[(ya-ŷa)+(ŷa-Ӯ)]2=∑(ya-ŷa)2+∑(ŷa-Ӯ)2+2∑(ya-ŷa)(ŷa-Ӯ)=∑(ya-ŷa)2+∑(ŷa-Ӯ)2这是因为2∑(ya-ŷa)(ŷa-Ӯ)=0。证明在课本P2392、自由度的确定

在回归方程的方差分析中,总平方和为y的平方和,故总自由度应为y的自由度,即dfT=N-1,N为观察值ya的个数。设K为包括b0在内回归系数的个数,则总自由度dfT可作如下分解:dfT=(K-1)+(N-K)。其中(K-1)为回归自由度,记做dfu=2-1=1,(N-K)为剩余自由度记做dfQ=N-2。3F检验直线回归方程的显著性检验,就是检验Y与x之间是否有线性关系,实质上就是检验回归系数是否为0。因此,无效假设为H0:β=0,即y与x无线性关系;对应假设为HA:β≠0,即y与x之间有线性关系;检验所用统计量F为:F=Su2/SQ2

=u/Q/(N-2)F值计算出来后,与附表中相应F值相比较,若计算值大于F0.05表示所建立的回归直线方程是显著的(其可信程度为95%),若计算值大于F0.01,表示所建立的回归直线方程是极显著的,其可信程度为99%以上。(四)、利用回归方程进行预报和控制

建立回归方程的目的之一是为通过自变量来预测因变量y,就是对y的条件平均数µy.x和个体值进行区间估计。当回归方程通过检验并拟合得好时,就可利用它进行y的区间估计。当x为某一给定值xa时,根据回归方程可得回归值ŷ=b0+bxa,对条件平均数µy.x进行区间估计的估测标准误差Sŷ为:其中Se2剩余方差。y的条件平均数µy.x的置信区间为:ŷa-taSŷ≤µy.x≤ŷa+taSŷ(2)对y的个体值进行区间估计的估测标准误差Sŷ为:y个体值的置信区间为:

ŷa-taSy≤µy.x0≤ŷa+taSy应该指出的是:根据回归方程对y进行区间估计,自变量x的取值必须在实验数据x值的全距内才为有效,不能随意外推。(五)、计算实例为了探讨土壤速效磷含量与产量之间的关系,在马江娄图上选择了20个地块种植小麦,品种为小偃六号,0.07ha施6kgN,播前采取土样,用Olsen法测定土壤速效磷含量,试验结果间下表,试作回归分析。地块号速效磷小麦产量

(µg.g-1)(kg/0.07ha)地块号速效磷小麦产量

(µg.g-1)(kg/0.07ha)125.4356.025.3260.339.6273.3412.0251.154.4143.5612.3291.1711.4300.5817.0284.697.5294.5103.5130.41114.7273.01214.3295.61313.3231.91411.4206.5157.2270.21616.2319.0176.4251.01827.0390.2197.8243.12010.1277.7(1)、根据试验数据,先做散点图,从图判断该配置的方程模型。小麦产量是随着土壤速效磷含量的增增加而增加,它们之间大致成直线关系,这就是说x和y的关系可以基本上看作是直线关系,可按直线配置回归方程。

本题基础数据结果如下:∑x=236.8∑y=5343.5∑xy=68834.39n=20=11.84Ӯ=267.175∑x2=3542.04∑y2=1497168.67B:方程配置计算需要数据:计算Lxx=∑x2-1/N(∑x)2=3542.04-1/20(236.8)2=3542.04-2803.712=738.328计算Lxy=∑xy-1/N(∑x∑y)=68834.39-1/20х236.8х5343.5=68834.39-63267.04=5567.35Lyy=∑y2-1/N(∑5343.5)2=69519.所以回归直线方程为:(3)、回归方程的检验Lyy=∑y2-1/N(∑5343.5)2=69519.06dfT=20-1=19u=bLxy=7.540×5567.35=41977.819dfu=1Q=Lyy-u=27541.241dfQ=20-2=18=41977.819/27541.241/18=27.435**(F0.05=4.41,F0.01=8.28)(4)、根据回归方程对y进行区间估计小麦产量对土壤速效磷含量x的回归方程为ŷ=177.9057+7.540x,设土壤速效磷含量x=11.4ug/g,则其回归值为:ŷ=177.9057+7.540х11.4

=263.9kg但是,实际观察值由于受到随机误差的影响,总会在一定的范围(和区间)内波动,如何估计这个区间呢?

条件平均数µy.x的区间估测A:计算标准误差Sŷ(当df误=18时,t0.05=2.10,t0.01=2.88)B:区间估计:ŷa-taSŷ≤µy.x≤ŷa-taSŷ263.9-2.1×8.766≤µy.x≤263.9+2.1×8.766(95%置信区间)245.5≤µy.x≤282.3263.9-2.88х8.766≤µy.x≤263.9+2.88х8.766(99%置信区间)238.7≤µy.x≤289.1

个体值的区间估测A:计算标准误差Sŷ(当df误=18时,t0.05=2.10,t0.01=2.88)B:区间估计:ya-taSy≤y≤ya-taSy263.9-2.1×40.071≤µy.x≤263.9+2.1×40.071(95%置信区间)197.8≤y≤348.0263.9-2.88х40.071≤µy.x≤263.9+2.88х40.071(99%置信区间)148.5≤y≤379.3(六)、可直线化的曲线回归1、常见可直线化的曲线前一节,我们学习了一元线性回归分析问题,在实际应用中,有些变量之间并不是线性相关关系,但可以经过适当的变换,把非线性回归问题转化为线性回归问题。

可线性化的一元非线性回归

常见的几种变换形式:(1)、双曲线令(2)、幂函数曲线令

化非线性回归为线性回归变形(3)、指数函数曲线令变形(4)、负指数函数曲线令

化非线性回归为线性回归变形(5)、对数函数曲线令(6)、S型(Logistic)曲线令

化非线性回归为线性回归变形2、可直线化曲线回归方程配置与检验(1)确定可直线化曲线回归的函数类型:根据试验数据作散点图,将散点图与各种函数图形对照(附录一),并结合专业知识确定其曲线回归的函数类型,同时判断其是否可直线化,如可直线化,可继续进行以下步骤(2)、进行变量变换

根据所选函数类型直线化变量变换的要求,将试验的原始数据作相应变换。(3)、配置回归方程并进行检验用变量变换后的数据配置直线回归方程并进行显著性检验,检验方法与直线回归的检验方法相同。(4)、将直线回归方程复原为曲线回归方程。如果所配置的回归直线方程经过检验是显著的,则可根据直线化时所作变量变换的方法进行逆变换,将其复原为曲线回归方程。3、实例

某夏季绿肥在播种15天后,开始测定其生长量,每隔5天测定一次,共测定7次,结果,结果见表,试对绿肥生长量与生长天数的关系作回归分析。生长天数15202530354045生长量(kg/0.0134ha)586779140200320480(1)、将测定数据作散点图

从散点图和专业经验看,并与附录中的函数图形相对照,这批数据x与y之间有指数关系,

y=b0ebxb>0(2)、变量变换变形:两边取自然对数得令:则可得直线方程:(3)、用变量变换后的数据配置回归方程编号xyy`=lnyx2y`2xy`115584.060422516.486860.9060220674.204740017.679584.0940325794.369462519.0917109.23504301404.941690024.4194148.24805352005.2983122528.0720185.44056403205.7683160033.2733230.73207454806.1738202538.1158277.8210∑210134434.81657000177.13851096.4765根据上表计算得:b=0.0743得方程为:(4)、回归方程的显著性检验

用变换后的数据进行显著性检验:计算回归方程方差分析表如下:变因dfSSMSFF0.05F0.01回归13.86223.8622181.32**6.6116.26剩余50.10650.0213总变异63.9687(5)、回归方程的复原及预测预报例2

有下列一组数据,请配置回归方程并对回归方程进行F检验和复原(提示,该数据组可配置多种类型的回归方程,请逐一配置,并给出最优方程)处理号xy1101002207033050440405502566020(1)、作散点图:通过散点图可看出,这组数据有多种曲线模型与之相对应(2)、方程配置第一种模型:双曲线

计算过程见下表处理xyx`=1/xy`=1/y(x`)2(y`)2x`y`123456∑10203040506010272483826240.10.050.0333333330.0250.020.0166666660.2459.803921568×10-30.0138888880.0208333330.0263157890.0384645380.0416666660.1509701380.012.5×10-31.111111111×10-36.25×10-44×10-42.777777778×10-40.0149138889.611687812×10-51.929012345×10-44.340277778×10-46.925207756×10-41.479289941×10-31.736111111×10-34.630967718×10-39.80392156×10-46.94444444×10-46.94444444×10-46.57894736×10-47.69230769×10-46.94444444×10-44.49085099×10-3经计算得:Ly`y`=∑(y`)2-1/N(∑y`)2=8.323039374×10-4Lx`x`=4.909722222×10-3Lx`y`=-1.67376298×10-3从而计算得b=-0.34090787b0=Ӯ`-b`=0.039082094回归方程为:回归检验方差分析表如下:变异来源平方和df均方F回归5.705989896×10-415.705989896×10-48.72**剩余2.617049478×10-446.542873695×10-5总数8.323039374×10-45第二种模型为:y=a+blogx计算回归方程为:ŷ=206.1207-104.6279logx(F=474.0075**)第三种模型为:y=dxb回归方程:ŷ=795.057x-0.8445(F=117.12**)第四种模型y=abx回归方程为:ŷ=129.0442×0.9704x(F=170.27**)其它模型还有:(1)y=ab1/x回归方程为:ŷ=22.8654×16312396.081/x(F=20.43**)

(2)y=1/(a+bx)回归方程为:ŷ=1/(1.3103×10-3+6.8147×10-4)(F=165.82**)(3)直线形式:y=a+bxŷ=105.4667-1.53714(F=37.89857**)3、适宜回归方程的选择经常采用的方法是计算剩余平方和∑(y-ŷ)2,如果这一剩余平方和小,说明这种模型的曲线回归方程是最适宜的。现把这7种模型比较如下.模型

方程

F值

∑(y-ŷ)2

1/ŷ=0.03908-0.3409/x8.72**10611.30777

或ŷ=x/(-0.3409+0.03908x)y=a+blogxŷ=206.1207-104.6279logx474.0075**38.25323198y=dxb

ŷ=795.057x-0.8445

117.12**240.6926752y=abx

ŷ=129.0442×0.9704x

170.27**77.88514631y=ab1/xŷ=22.8654×16312396.081/x20.43**2486.686934y=1/(a+bx)ŷ=1/(1.3103×10-3+6.8147×10-4)65.82**488.2212862y=a+bxŷ=105.4667-1.5371437.8985**4436.429二、多元线性回归(一)、多元线性回归的数学模型

设依变量y与自变量x1、x2、……xm,共有n组观测数据结果如下:结果如课本P177其数学模型为:

多元线性回归模型

设有自变量x1,x2,…,xp和因变量Y以及一份由n个个体构成的随机样本(x1i,x2i,…,xpi,,Yi),且有如下关系:

y=B0+B1x1+B2x2+…+Bpxp+

(模型)

B0、B1、B2和Bp为待估参数,为残差。由一组试验样本数据,可求出待估参数的估计值b0、b1、b2和bp,,得到如下回归方程:

ŷ=b0+b1x1+b2x2+…+bpxp

(二)、回归方程中b0和bj的确定1、参数的最小二乘估计实际观察值和回归方程估计值之间残差平方和最小即Q=

(yi

-ŷi)2=

(yi

-b0-b1xi1-b2xi2-…-bpxip)2

由于Q是b0、bj的非二次式,故最小值一定存在,要在Q最小时确定b0、bj,根据微积分中多元函数求极值的方法则对b0、b1…、bp分别求偏导数,令偏导数为零可获得正规方程。即:(i=1、2、……m)(j=1、2、……n)经整理得:该方程组称为正规方程组。

对正规方程组求解,即得b0和bj。求解正规方程组:方式很多,这里介绍矩阵法令A为正规方程组的系数矩阵,即有=11……1x11x21……xN1x12x22……xN2………x1mx2m……xNm1x11x12……x1m

1x21x22……x2m

………1xN1xN2……xNm=X’X令B为正规方程组右端的常数项矩阵,即:

B=X‘Y=

111…1y1x11x21x31

…xn1y2x12x22x32

…xn2y3..........x1mx2mx3m

…xnmyn

∑ya

∑xa1ya

∑xa2ya

.

∑xakya==X`Y令b`=(b0b1b2……bp)则正规方程组可以写成矩阵形式Ab=(X`X)b=X`Y求解得b=A-1B求得逆矩阵A-1中的元素便可得到b2、求解b0和b要计算b0和b,要求逆矩阵,求逆矩阵的方法很多,请参考线性代数,这里介绍2种(1)公式法:A-1=A11A21….AP1A12A22….AP2… ….…A1PA2P….APP式中|A|为A的行列式;Aij为|A|中元素aij的代数余子式。例如:求下列正规方程组系数矩阵A的逆矩阵,并求出b0和bj。8b0+4b1+10b2=164b0+10b1+15b2=410b0+15b1+30b2=25A=841041015101530B=16425

841041015101530=320|A|=A11=(-1)1+1

10151530A12=(-1)1+2415

1030=75=30其余代数余子式Aij经计算得A13=-40A21=30A22=140A23=-80A31=-40A32=-80A33=64A-1=

A11A21….AP1A12A22….AP2… ….…A1PA2P….APP=1/320

30-4030140-80-40-8064=0.2343750.093750-0.1250000.0937500.437500-0.250000-0.125000-0.2500000.200000b=

b0b1b2=A-1B

0.234375

0.093750-0.1250000.0937500.437500-0.250000-0.125000-0.2500000.200000=16425=1-32因此,回归方程为:ŷ=1-3x1+2x2(2)求解求逆紧凑变换法:

2.1将系数矩阵组成增广矩阵8b0+4b1+10b2=164b0+10b1+15b2=410b0+15b1+30b2=25增广矩阵为:A(0)=

84101641015410153052.2求解求逆紧凑变换

求解求逆过程就是对bk施行消去变换的过程。在正规方程组中有n个未知数b,就要对增广矩阵A(0)施行n次消去变换。A(0)经n次消去变换后得到A(n),A(n)中的前n列为系数矩阵A的逆矩阵A-1,最后一列为正规方程组的解。

求解求逆紧凑变换消去变换的公式为式中K为消去未知数b的编号,K=1,2,3……n;L为增广矩阵经过消去变换的次数;L=1,2,3…n,解上例:增广矩阵为:A(0)=8410164101541015305根据上面的公式对b1,b2,b3施行消去变换当k=1时a(1)11=1/a(0)11=1/8=0.125(此时i=j=k=1,,因此用到第4个公式)a(1)12=a(0)12/a(0)11=4/8=0.5(此时i=k=1,j≠k,因此用到第2个公式)a(1)13=a(0)13/a(0)11=10/8=1.25(此时i=k=1,j≠k,因此用到第2个公式)其余的请同学自己计算

A(1)=

0.1250.51.252-0.5810-4-1.251017.55当k=2时a(2)11=a(1)11-a12(1)×a21(1)/a(1)22=0.125-0.5×(-0.5)/8=0.15625(此时j,i≠k,因此用到第1个公式)a(2)12=-a(1)12/a(1)22=-0.5/8=-0.625(此时j=k=2,i≠k,因此用到第3个公式)a(2)13=a(1)13-a12(1)×a23(1)/a(1)22=1.25-0.5×10/8=0.625(此时j,i≠k,因此用到第1个公式)得A(2)=0.15625-0.06250.6252.25-0.06250.1251.25-0.5-0.625-1.25510当k=3时A(3)

0.2343750.093750-0.12500010.0937500.4375-0.250000-3-125000-0.2500000.2000002=

所以A-1=0.2343750.093750-0.1250000.0937500.4375-0.250000-0.125000-0.2500000.200000

b0=1,b1=-3,b2=2因此,回归方程为:ŷ=1-3x1+2x2P182例题:这里求逆矩阵可用公式法和紧凑变换法如课本求解该方程组可用常规方法,也可以用我们上面讲的公式法也和求解求逆法最后计算得b1=1.7848,b2=-0.0834,b3=0.1674,=42.89(三)、回归方程的显著性检验(1)总平方和与总自由度的分解SS总=Lyy=∑(ya-Ӯ)2=∑(ya-ŷa)2+∑(ŷa-Ӯ)2∑(ŷa-Ӯ)2为回归平方和u

,∑(ya-ŷa)2为剩余平方和Q。

Q=∑ya2

-b0B0-u=Lyy-Q或u=

Q=Lyy-u自由度可按下式确定:dfT=N-1=dfu+dfQdfu=pdfQ=N-1-p2、

F检验F=Su2/SQ2=u/dfu/Q/dfQ上例中Lyy=∑y2

-1/N(∑y)2=12389.61Q=5592.61u=6797.00计算得F=u/dfu/Q/dfQ=5.67**(F0.05=3.34F0.01=5.56),(四)、回归系数的显著性检验1、偏回归系数的显著性检验1.1偏回归平方和(记作Pj)的计算计算Pj的公式为:Pj=bj2/Cjj其中Cjj为逆矩阵中主对角线上第j个元素,bj为回归方程中xj的偏回归系数。1.2F检验Fj=Pj/Q/dfQ上述例子回归系数的显著性检验如下:表偏回归系数显著性检验方差分析表

变异来源SSDfMSFF0.05F0.01

x1的偏回归4393.8114393.8111.00**8.864.60x2的偏回归15.92115.920.04x3的偏回归837.201837.202.10

剩余平方和5592.6114399.472、自变量剔除与重新建立多元线性回归方程(1)、自变量的剔除

当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔除一个不显著的偏回归系数对应的自变量,被剔除的自变量的偏回归系数,应该是所有不显著的偏回归系数中的F值(或∣t∣值、或偏回归平方和)为最小者。(2)、重新进行少一个自变量的多元线性回归分析,方法与前面所讲的相同

因此,对该例,我们可以得出结论,影响土壤供磷能力的主要因素是用酸性氟化铵溶液浸提的无机磷。(五)据多元线性回归方程对y进行区间估计P187四、多项式回归(一)、多项式回归的概念

研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomialregression)。

如果自变量只有一个时,称为一元多项式回归;一元m次多项式回归方程为:如果自变量有多个时,称为多元多项式回归。二元二次多项式回归方程为

(二)、多项式回归分析的一般方法多项式回归问题可以通过变量转换化为多元线性回归问题来解决。对于一元m次多项式回归方程令

=

…=

就转化为m

元线性回归方程对于二元二次多项式回归方程对于二元二次多项式回归方程令

就转化为五元线性回归方程(三)、多项式回归分析实例1、一元二次多项式回归分析

例:有一玉米氮肥用量试验,试验方案及试验结果见下表处理号N(kg/0.07ha)产量(kg/0.07ha)

xx2yy2100229.952854.0123.512.25394.1155314.8137.049.00522.4272901.76410.5110.25548.1300413.61514.0196.00578.4334546.56617.5306.25628.1394509.61721.0441.00591.2349517.44∑73.51114.753492.21860057.80平均10.5498.891、根据表中的数据资料绘制x与y的散点图从散点图上看,玉米产量随施氮量的增加而增加,但y增加的速度是逐渐减少,当x超过一定值后,y随之又减少,因此可以配置一元二次多项式。2进行变量转换设一元二次多项式回归方程为:令则得二元线性回归方程3、进行二元线性回归分析(方法与前相同)计算基础数据得

X=10013.512.2517.049.00110.5110.25114.0196.00117.5306.25121.0441.00y=229.9394.1522.4548.1578.4628.1591.2A=X`X=

N∑x1

∑x2∑x1∑x12∑x1x2∑x2

∑x22∑x22773.5

1114.7573.51114.75

18907.8751114.7518907.875

341392.1875=

B=X`Y=∑y∑x1y∑x2y=

3492.242295.75657294.575求解得A-1=0.761905-0.1326530.004859-0.1326530.037901

-0.00166660.004859-0.0016666

0.000079b=A-1B=

243.914344.7602-1.3501则得二元一次回归方程为:复原为一元二次回归方程:4、回归方程的显著性检验与多元线性回归方程相同P1925、回归系数的显著性检验该例的回归系数检验都是显著的。

作业:利用该组数据再配置一元直线方程和一元三次多项式方程,请大家配置试一试,并给出最适宜的模型(即∑(y-ŷ)2最小(四)、多元多项式回归

以二元二次多项式为例P197例:有一氮磷肥用量配比试验,施氮量为0.07ha施N:0,2.5,5.0,7.5,10.0kg五个水平,施磷量为:0.07ha0,2,4,6kg四个水平,共20个处理,试验结果列于下表,试作回归分析。

NP2O502.55.07.510.0084.5100.0142.0175.5161.02105.5131.5165.5193.0172.04156.0177.0211.0245.0233.56154.0188.0217.0255.0235.5通过对资料的分析,配置二元二次回归方程设x1=x1,x2=x2,x3=x12,x4=x22,x5=x1x2

则多项式回归变换为多元线性回归

按多元线性回归进行分析X=

1000001020401040160106036012.506.250012.526.254512.546.25161012.566.25361515025001522541015425162015625363017.5056.250017.5256.2541517.5456.25163017.5656.25364511001000011021004201104100164011061003660

x0x1x2x3=x12x4=x22x5=x1x2

y=84.5105.5156.0154.0108.0131.5177.0188.0142.0165.5211.0217.0175.5193.0245.0255.0161.0172.0233.5233.5A=N∑x1

∑x2∑x3

∑x4

∑x5∑x1∑x12∑x1x2

∑x1x3

∑x1x4

∑x1x5∑x2∑x1x2

∑x22

∑x2x3

∑x2x4

∑x2x5∑x3∑x3x1∑x3x2∑x32∑x3x4

∑x3x5∑x4

∑x4x1∑x4x2

∑x4x3∑x42

∑x4x5

∑x5

∑x5x1∑x5x2∑x5x3

∑x4x5

∑x522010060750280300100750300625014002250603002802250144014007506250225055312.510500187502801400144010500784072003002250140018750720010500=解得

A-1=

0.541429-0.113143-0.1650.0057140.01250.012-0.1131430.0569140.012-0.0045710-0.0024-0.1650.0120.14250-0.01875-0.0040.005714-0.00457100.000457000.01250-0.0187500.00312500.012-0.0024-0.004000.0008B=

∑y∑x1y∑x2y∑x3y∑x4y∑x5y=3510.5019722.5011922.00151218.7557212.0066262.50b0=76.5021b1=18.0523b2=18.5475b3=-0.9714b4=-0.8688b5=0.1140所以回归方程为:建立回归方程后,仍按多元线性回归的方法对回归方程及回归系数进行显著性检验,方差分析见下表回归方程及偏回归系数显著性检验方差分析表变异来源SSDfMSFF0.05F0.01

回归x1的偏回归40494.145725.98098.8315725.9337.44**26.47**2.964.604.608.86x2的偏回归2414.1012414.1011.16**x12的偏回归x22的偏回归x1x2的偏回归2064.81241.5416.242064.81241.54116.249.55**1.12〈1

剩余平方和3028.1014216.29补充材料(实验课程上)1、用excel实现回归分析(见补充材料一)2、用SAS实现回归分析用于研究产量等生物效应与施肥量等试验因素之间的定量关系。这类试验需要用回归分析方法进行统计,因而需要制定能够和有利于进行回归统计的试验方案。回归设计第三节、施肥模型的回归设计一、回归设计的原则(P57-59)(1)处理数:回归分析的目的是要建立试验因素效应方程,因而,试验处理数不能少于效应方程待估参数的个数,并要为统计检验留有足够大的剩余自由度。例如:P元二次多项式回归方程为:

其回归系数(包括b0

)m=(p+1)(p+2)/2,为建立上述回归方程,应使试验处理数N≥m。N=m的试验设计称为饱和设计。饱和设计具有最高试验效率,但如果不设重复,无法进行统计检验。(2)、水平数作物产量和植物营养投入量之间关系遵从报酬递减律。因此,每个试验因素至少3个水平才能建立植物营养生物效应的回归方程。设水平数为r,必须使r≥3。。(3)、信息矩阵:

线性或线性化回归方程回归系数求解矩阵公式为:b=A-1B,其中A为信息矩阵,数学证明,只有A的行列式|A|≠0(|A|=0时,A为退化矩阵)回归系数才有解,且|A|越大,设计方案越优良。2、设计方法(1)、凡符合上述设计要求的试验方案,不管均衡还是不均衡,都可以作为回归设计方案。(2)、回归分析和方差分析的试验设计都要消除非试验因素的影响。

(3)、施肥量一般以纯养分(如N、P2O5、K2O)表示和计算4、某些随时间变化的试验效应,如化肥氨态氮的挥发等,试验初,单位时间的效应量变化很大,以后逐渐稳定。5、在定量研究方面,方差分析的目的是比较有限处理的效应差异,回归分析的目的是从有限处理的效应差异上寻求试验因素和试验效应的定量关系。因此,回归设计对试验条件,特别是土壤肥力均匀性的要求较一般试验设计更为严格。古典的回归分析是在试验后整理已有试验数据,由已有的试验数据建立回归方程。回归方程的预报效果不仅受到建立方程的统计方法的影响,它还受试验者所安排试验点的影响。例题3.4.4P182预报预测如下:样品号x1x2y预测值(理论值)预测值标准误(S)剩余值(e=y-)10.4536461.16.272.920.4236064.435.42-4.4333.1197168.365.882.6440.6346163.464.44-2.4654.7245469.864.93-15.8661.7657761.448.9315.5679.4448173.713.157.29810.1319376.053.8316.95911.6299378.214.2914.791012.6585176.284.98-25.281110.9377676.423.14-0.421223.1469691.164.824.841323.1507790.724.84-13.721421.6449389.454.53.551523.1569590.055.224.94161.9365464.924.14-10.921829.9519999.386.62-0.38在古典回归中,试验前并未考虑如何安排这些试验点的问题,故这些试验点在因子空间中分布是随机的,散乱而不均匀的。这就要摆脱古典回归中被动处理试验数据,对试验处理几乎不提任何要求,对方程的精度研究少,盲目的增加试验次数,试验数据往往不能提供充分的信息,因此必须主动地把试验的安排、数据的处理和回归方程的精度统一成一个整体加以考虑和研究,这就是现代回归设计问题回归设计的总体思路

从古典回归分析我们知道,试验结果总效应包括试验处理效应和试验误差二种变异因素之和,因此回归分析的统计效果取决于试验设计和试验误差两个方面,因此,可通过试验设计来控制回归系数的估计效果。

二、回归正交设计(P256)

(orthogonalregressiondesign):是将古典回归分析方法与正交试验法有及结合起来的试验方法是利用正交试验所具有的选点均衡,试验次数少,各列之间具有正交性等优点,利用已有的试验数据,给出整个区域上的变量间的回归方程的一种科学的试验设计方法在因素的试验范围内选择适当的试验点,用较少的试验建立一个精度高、统计性质好的回归方程的一种试验设计方法。例如把课本翻到P54页,假设我们同样作三因素试验,把其中“2”改为“-1”我们可以得到什么样的结构矩阵呢?系数矩阵是什么?逆矩阵又是什么呢?求得的回归系数又是什么呢?那么,我们怎样才能通过系列变化得到我们想要的结构矩阵呢?(一)一次回归正交设计的基本方法1、确定每个因素的变化范围,设为Xj[Xj1,Xj2],并将它们的算术平均值称作因素Xj的零水平,用Xj0表示上水平与零水平之差称为因素的变化间距,用∆j表示,即:或2、因素水平的编码(coding)

是将Xj的各水平进行线性变换,即:其中zj就是因素xj的编码,两者是一一对应的,则xj1,xj0和xj2的编码分别为-1,0和1,即zj1=-1,zj0=0,zj2=1.一般称xj为自然变量,zj为规范变量.

对因素xj的各水平进行编码的目的:为了使每个因素的每个水平在编码空间是“平等”的,即规范变量zj的取值范围在【1,-1】内变化,不会受到自然变量xj的单位和取值大小的影响。所以编码将试验结果y与因素xj(j=1,2,…,m)各水平之间的回归问题,转换成试验结果y与编码值zj之间的回归问题,简化了回归计算量。3、一次回归正交设计表根据试验因素选择二水平正交表,将正交表中的“1”用1,“2”用-1代换,就可以得到一次回归正交设计表,该回归正交设计表具有如下特点(正交性):(1)任一列编码的和为0。(2)任两列编码的乘积之和等于零。4、试验方案的确定把因素安排到相应的列位上,方法与前面的正交试验设计相同5、一次正交回归设计及分析应用实例某冬小麦氮(N,kg/hm2)、磷(P2O5,kg/hm2)、有机肥(kg/hm2)试验,采用三元一次正交设计,以寻求优化施肥配方。各试验因子的实际自变量(x)的编码自变量(z)如下表。(1)冬小麦肥料回归正交试验的因子及水平编码变量及编码水平实际变量及实施水平(kg/hm2)

氮肥

磷肥有机肥氮肥磷肥有机肥z1z2z3x1x2x3111122.7107.712263100082.567.582500-1-1-142.327.342369间距11140.240.240131试验号编码变量实际变量产量z1z2z3x1x2x3y1111122.7107.71226314470211-1122.7107.742369426031-11122.727.3122631391541-1-1122.727.34236936605-11142.3107.712263138556-11-142.3107.74236934807-1-1142.327.312263132258-1-1-142.327.3423693315900082.567.58250043051000082.567.58250045151100082.567.58250039601200082.567.58250044101300082.567.58250040651400082.567.5825004440(2)、冬小麦肥料回归正交试验方案及结果(kg/hm2)1111144702111-14260311-113915411-1-1366051-111385561-11-1348071-1-11322581-1-1-1331591000430510100045151110003960121000441013100040651410004440SSi=∑x214888225498375Bi=∑xy5587524301950750bi=Bi/SSi3991.07303.75243.7593.75Ui=biBi738113475313703132497259(3)、冬小麦肥料回归正交试验计算(kg/hm2)(4)、冬小麦一次正交回归方程的建立A、根据上述计算结果得编码变量回归方程B、把编码变量回归方程转变为实际变量回归方程按照以下公式将代入编码变量回归方程后得实际变量的回归方程为(5)、冬小麦肥料回归正交试验方案方差分析来源dfSSMSFF0.05F0.01回归312837394279133.533.716.55x117381137381136.08*4.9610.04x214753134753133.924.9610.04x3170313703130.584.9610.04剩余101213520121352失拟5966582.4193316.53.915.0510.97误差5246937.549387.5总132497259(6)、冬小麦肥料一次回归正交试验y的预测及标准误(参考P258)试验号产量y预测值预测值标准误剩余值e144704632.3232.755-162.3242604444.8232.755-184.8339154144.8232.755-229.8436603957.3232.755-297.3538554024.8232.755-169.8634803837.3232.755-357.3732253537.3232.755-312.3833153349.8232.755-34.8943053991.193.102-313.91045153991.193.102-523.91139603991.193.102-31.11244103991.193.102418.91340653991.193.10273.91444403991.193.102448.9(二)、二次回归设计在一次回归正交设计应用中,经统计检验发现一次回归方程不适合,需要采用二次或高次多项式回归方程拟和。1、二次回归组合设计设P元二次多项式回归方程为:要建立回归方程,必须使试验方案的水平数r›3

处理数N≥(P+1)(P+2)/2,且留有足够大的剩余自由度,以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论