《线性回归与相关》PPT课件.ppt_第1页
《线性回归与相关》PPT课件.ppt_第2页
《线性回归与相关》PPT课件.ppt_第3页
《线性回归与相关》PPT课件.ppt_第4页
《线性回归与相关》PPT课件.ppt_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 线性回归与相关,Chapter 5 Linear regression and correlation,第一节 一元线性回归与相关,1. 回归与相关的概念,1)变量 (Variable),描述事物特征或特质的数量指标,这些指标因条件不同而按一定的规律变化,故称变量。如:不同田块的土壤有机质含量; 不同小麦品种的千粒重;不同大丽轮枝菌的致病力等等。,2)变量间的关系 (Relationships between variables),函数关系 (Functional relationship): 处于同一个统一体中的两个变量,它们之间互相联系着同时在变化,其中一个变化,另一个也按一定的规

2、律相应地变化,而且一个变量取定某个数值,另一个变量也按照一定的规律有一个完全确定的数值与之对应。常以 y=(x) 表示。如:路程和时间的关系:s = vt;消光值和溶液浓度的关系:E = RC,等等。,相关关系 (Correlation relationship): 当一个变量取定某个数值时,另一个变量出现的对应值不是完全确定的。如:施氮量和作物产量的关系; 土壤有机质和土壤全氮含量。,2. 相关关系的类型,相关关系的规律是概率性的,相关关系资料必须用适当的统计方法处理后,才能使其规律呈现出来。,1) 对具有相关关系的变量进行抽样研究,建立能表达两者关系的回归方程。,3. 回归分析 (Regr

3、ession analysis),研究相关关系中变量与变量间数量关系的一种数学方法。主要包括:,2) 通过对方程的统计检验,判断变量相关关系的密切程度;,3) 依据回归方程及其误差(精度),从一个或多个变量的已知值估测另一个变量的取值范围,进行预测。,Relationship between ear length (cm) and yield per plant of maize (g),陕西旬邑县苹果黑星病病叶率随时间变化图,陕西杨凌小麦条锈病病叶率随时间变化图,表1 双变量(X, Y)总体模式表,X Y y,x,X1 Y11 Y12 Y1n Y1 X2 Y21 Y22 Y2n Y2,Xn

4、Yn1 Yn2 Ynn Yn,对于一个双变量总体 : 令 是 时所有 的平均值,在统计学上称为 的条件平均数或条件期望值则:,称为回归函数,表示 y 依 x 变化而回归。,如果变量 x 和 y 是直线相关关系,则上述回归函数可表示成:,称为直线回归方程。,又称为Y的回归值。,如果变量 x 和 y 是直线相关关系,则上述回归方程可表示成:,用 作为 的估计值,则上述回归函数可表示为:,称为样本回归方程。,称为样本线性回归方程。,如果变量 x 和 y 呈曲线相关关系(如抛物线),则上述回归方程可表示成:,称为样本非线性回归方程。,对于一个双变量样本 :,1)当两个变量有因果关系时,则原因变量为自变

5、量,结果变量为依变量。 2)当两个变量没有因果关系时,则根据研究目的确定。 3)当两个变量中,有一个是非随机变量时,则非随机变量必为自变量。 4)当两个变量均为随机变量时,则根据研究目的确定。,例: 1)施肥量 (x) 作物产量 (y)。 2)土壤有机质含量 (x) 土壤全氮含量 (y) 。,自变量 (x, independent variable) 和依变量 (y, dependent variable),4. 相关分析 (Correlation analysis),研究变量之间相关关系的密切程度及其性质 (正相关或负相关), 并用一个数量性指标来描述,这个指标称为相关系数 (r) 。相关分

6、析不具备预测功能。,相关分析与回归分析有何关系?,5. 相关分析与回归分析必须注意的问题,1)相关的科学性。 2)相关的可比性。 3)作回归和相关分析时,x 的取值范围要尽可能大,而且观察值应在5 对以上。,表1 一个双变量(X,Y)样本的模式表,X,X1 Y11 Y12 Y1n,X2 Y21 Y22 Y2n,Xm Ym1 Ym2 Yma,Y,二、 一元线性回归分析,1. 一元线性回归方程的建立,1)利用变量 (x, y) 作散点图 (Scatter diagram) 进行初步判断。,2)直线回归方程 (Linear regression equation) 的配置,确定直线方程的原则:,确定

7、 b0 及 b 值的方法 (最小二乘法):,要使,则有:,= 最小,因为,上式及本式称为正规方程组 (Normal equations). 亦可用矩阵形式表示。,直线回归方程的特点,(1)直线回归方程一定通过点,(2)回归系数 b 的符号取决于 lxy b 0 时,x 与y 正相关; b 0 时,x 与y 负相关。,2. 回归关系的显著性检验,1)因变量观察值的变异来源划分:,总变异 = 离回归变异(剩余变异) + 回归变异,2)总变异平方和的分解与计算,总平方和 (SST ) = 离回归 (剩余) 平方和 (SS剩) + 回归平方和 (SS回),SS回 =,SS剩 = SST - SS回,3

8、)自由度的分解与计算,总自由度: dfT = N 1 回归自由度: df回 = M 1 = m 剩余自由度: df剩 = dfT - df回 = N - M,4)平方和的分解与F值的计算,5)统计推断,F F 否定H0 ,接受HA,3. 一元线性回归方程的应用,当x = x0 时, y0 的取值区间为:,,,置信度为:95%,置信度为:99%,=,线性回归估计标准误:,预测依变量 y 的取值:,二、 简单相关分析,1. 相关系数 (Correlation coefficient),1)相关系数的直观定义,A,对于样本:,r 就定义为样本相关系数,即,2)相关系数的回归定义,总平方和 = 剩余平

9、方和 + 回归平方和,SST = SS剩 + SS回,由:,相关系数可定义为:,3)相关系数的性质,2)r 的绝对值愈大,两变量的相关愈显著。,3)相关系数 r 的符号取决于乘积和 Lxy, 与回归系数 b 的符号一致。,1)相关系数的取值: -1 r 1,回,SS,T,2. 决定系数 (Coefficient of determination),1)决定系数的定义,决定系数为相关系数 r 的平方,记为 r2 。,r2 =,SS回,SST,=,L2xy,Lxx,Lyy,2)决定系数的含义,1. 决定系数仅表示两个变量相关的密切程度, 不表明相关的性质;,2. 决定系数的取值: 0 r2 1,3

10、. 相关系数和决定系数的显著性检验,1. 计算 r。,2. 由 df = n 2 查相关系数表(附表10)得 r,如果: r r 表明两变量的相关关系达显著或极显著水平。,3. 表示总平方和中,回归平方和所占的比重,或说在 y 的变异中有多大部分是由 x 变化引起的。,三、直线回归方程,回归系数,回归截距,确定直线回归方程参数的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。,分别对上式的a和b求偏导:,解方程组得:,a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。,因方程使用了a,b两

11、个统计数,故自由度为n2。,例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,解:以X为横坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。,因此,该例数据的回归直线方程为:,Old Y Fitted Y Residuals STD Residuals 1421.801429.89-8.09 -0.28 1423.301429.89-6.59 -0.34 1440.701439.970.73 0.03 1471.301439.97

12、31.33 1.33 1440.001470.23-30.23 -1.28 1547.101520.6626.44 1.11 1533.001561.01-28.01 -1.19 1610.901591.2619.64 0.83 1616.301621.52-5.22 -0.22,表 残差值,残差的方差及标准差为:,用Se对残差进行标准,得到标准化残差,结果见上表。 计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括总体平均数在内。,UCL: upper confidence limit LCL: lower confidence limit,计算y值的95%置信区间的计算公式:,

13、X Y UCL95 LCL95 51.001421.801408.841450.93 51.001423.301408.841450.93 52.001440.701420.371459.58 52.001471.301420.371459.58 55.001440.001454.021486.44 60.001547.101505.161536.16 64.001533.001541.401580.61 67.001610.901567.031615.49 70.001616.301592.011651.03,表 95%置信区间,图 Y的95%置信区间,包括总体平均数在内 95%可靠度的置信

14、区间,一般来讲,y关于x的回归方程y=f(x)是未知的,由样本来拟合是一种探索的过程,或者说是一个选择合适函数逼近的过程。,直线回归的显著测验: H0:b=0, HA:b不等于0。,b的显著性测验:,b的(1-)*100%的置信区间为:,a的显著性测验:,a的(1-)*100%的置信区间为:,预测与控制:,1、预测 在x=x0处,用y=a+bx进行预测。预测包括平均值的预测和个别值的预测。,平均值预测,个别值预测,2、控制 控制问题是预测的反问题。若要求y的个别值在y1,y2内的可靠性为(1-)100%,应该把x控制在什末范围内?,第二节 非线性回归方程,非线性回归方程参数的求解过程:,(1)

15、整理数据,(2)画散点图,(3)选方程,(4)线性化,(5)求解参数,(6)参数带回原方程,非线性模型参数的计算及其检验:,在生物学研究领域中,许多变量间的关系呈非线性关系(curvilinear relations)。非线性模型的形式是多种多样的,这里只讨论在农学和生物学研究中常遇到的非线性模型。 对这类模型参数据的求解有两种方法:一是将非线性模型线性化,然后按直线模型参数的求解过程确定其参数,并进行检验;二是采用Gauss-Newton法、Marquardt法、Newton法、Gradient法、DUD法等进行参数的求解。下面以实例详细说明计算过程。,例1 美国纽约1980年观察到马铃薯晚

16、疫病(Phytophthora infestans)在四个马铃薯品种(Katahdin, Kennebec, Monona, Sebago)上的严重度,结果见下表,请用 Gompertz, Monomolecular和Logistic模型拟合数据。,接种天数 重复 严重度 Katahdin Kennebec Monona Sebago 1110.00.00.00.0 20.00.00.00.0 30.00.00.00.0 40.00.00.00.0 1412.50.911.80.7 211.80.87.81.7 32.31.72.81.0 43.91.08.01.4 。 37198.392.5

17、100.075.5 298.389.3100.079.5 398.087.5100.083.0 498.388.8100.078.0,表 四个马铃薯品种上晚疫病发生程度数据,马铃薯晚疫病病情增长散点图,根据散点图趋势,选择较适合的曲线模型:,单分子模型:,Gompertz模型:,Logistic模型:,单分子模型:ln 1 / (1-y) = - lnA + Bt,Gompertz模型:ln 1 / ln ( 1/y ) = - lnA + Bt,Logistic模型:ln y / (1-y) = A + Bt,非线性模型的线性化形式:,参数 参数估计 T 概率值 INTERCEPT -6.7

18、654 -24.36 0.0001 DAY 0.2879 27.07 0.0001,Logistic线性模型的参数估计:,参数 参数估计 T 概率值 INTERCEPT -4.3666 -20.40 0.0001 Day 0.2139 26.10 0.0001,Gompertz线性模型的参数估计:,参数 参数估计 T 概率值 INTERCEPT -2.1898 -8.64 0.0001 DAY 0.1458 14.23 0.0001,Monomolecular线性模型的参数估计:,Monomolecular: M = - 2.1898 + 0.1458 DAY Gompertz: G = -

19、4.3667 + 0.2140 DAY Logistic: L = - 6.7655 + 0.2880 DAY,三模型的线性化形式:,三模型的非线性化形式:,Monomolecular:,Gompertz:,Logistic:,例2 酵母种群的增长资料如下表,试拟合生长模型。,表 酵母种群增长资料,时刻X 酵母数Y时刻X 酵母数Y 09.610513.3 118.311559.7 229.012594.8 347.213629.4 471.114640.8 5119.115651.1 6174.616655.9 7257.317659.6 8350.718661.8 9441.0,制作散点图,

20、选择适合的曲线方程, 这里以Logistic方程为例,说明非线性方程参数的求解过程。,表 Logistic参数估计表,参数参数估计标准误95%下限95%上限 K663.01.7027659.4666.6 A4.27080.04094.18414.3575 B-0.54700.00558-0.5588-0.5352,Logistic方程为:,K称为环境最大容纳量。,5.3 相关分析,相关系数:用r来表示,其取值范围为1到1,表示两个变数间相关的密切程度和性质。r的绝对值愈大表示两个变数愈密切;当r取负值时表示两个变量间呈负相关;当r取正值时表示两个变量间呈正相关。 决定系数:是由x不同而引起的y

21、变数平方和U占y变数总平方和SSy的比率,即决定系数是相关系数的平方值。,决定系数和相关系数的区别主要有:,1、除掉|r|=1 和|r|=0两种情况外,决定系数总小于相关系数;,2、r的取值范围为1到1,而决定系数的取值范围为0到1;,3、r可以用来表示相关的程度和性质,而决定系数只用来表示相关的程度,不表示相关的性质。,直线相关系数的假设测验: H0:0;HA: 0。其中, 样本是从总体0中抽样得到。 直线相关系数的标准误为:,标准差(Standard Deviation,STD) 标准误(Standard Error,SE),STD,SE,例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的

22、数据如下。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,Data new; Input x y; Cards; 70 1616.3 67 1610.9 55 1440.0 52 1440.7 51 1423.3 52 1471.3 51 1421.8 61 1547.1 64 1533.0 ; Proc corr; Var x y; Run;,The CORR Procedure Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum x 9 58.11111 7.49074 523.00000

23、 51.00000 70.00000 y 9 1500 78.31672 13504 1422 1616 Pearson Correlation Coefficients, N = 9 Prob |r| under H0: Rho=0 x y x 1.00000 0.96412 .0001 y 0.96412 1.00000 .0001,1. Pearson correlation,2. Spearman correlation,3. Kendall correlation,4. Hoeffding correlation,例 一些害虫盛发期的迟早和春季温度高低有关。测定某地19561964年

24、间3月下旬至4月中旬旬平均气温累积值和一代三化螟蛾盛发期得关系见下表,请计算相关系数。 表 积温和一代三化螟蛾盛发期的关系,Data new; Input x y; Cards; 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1 ; Proc corr outp=a; Var x y; Run;,解:计算相关系数得SAS程序为:,Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum x 9 37.07778 4.25199 333.70000

25、 31.70000 44.20000 y 9 7.77778 5.58520 70.00000 -1.00000 16.00000 Pearson Correlation Coefficients, N = 9 Prob |r| under H0: Rho=0 x y x 1.00000 -0.83714 0.0049 y -0.83714 1.00000 0.0049,outp, Pearson,outs, Spearman,outk, Kendall,outh, Hoeffding,说明3月下旬至4月中旬积温和一代三化螟蛾盛发期间存在 真实的直线相关关系。,相关系数的t测验,T测验法,查r

26、表,当自由度为7,显著水平分别为0.05和0.01时,对应的r值分别为0.666和0.798。 |r|=0.83710.798 因此,两个变量在0.01 水平上显著,即认为两个变量之间存在显著的直线相关关系。,r值法,第三节 多元线性回归与相关 Multivariate linear regression,在自然界中,与依变量y有关系的变量不止有一个,而是多个,它们之间的关系也不一定是线性的。,例如,作物产量的高低。,多元回归: 研究变量y 与多个变量之间的定量关系称为多元回归 (Multiple regression)。许多多元非线性回归都可以化为多元线性回归来处理。,播期 (Sowing

27、date),密度(Density),施肥量 (Fertilization rates),土壤肥力 (Soil fertility),雨量 (Rainfall),光照 (Sunshine),气温 (Temperature),病虫害 (Damage by pests and disease),1. 多元线性回归的数学模型(Mathematical model of multiple regression),试验号,设变量 y 与另外 p 个变量 x1, x2, , xp 的内在关系是线性的,如果做了 N 次试验,其结果如下表:,上表中的数据可以假定具有如下数学模型:,即,或者,式中,是待估计参数,

28、,是N个独立且服从正态分布,的随机变量。,、称为多元线性回归的数学模型。,用试验结果进行估计时,可得相应的多元线性回归方程为:,式中 b0 为常数项,bj 为 y 对 xj 的偏回归系数,它是表示当其它 x 固定不变时,xj 变化一个单位而使 y 平均变化的数值。,如果令:,则模型可以写成矩阵形式:,多元线性回归 的数学模型:,则模型可以写成矩阵形式:,N 1,N (p+1),(p+1) 1,N 1,Why?,2. 多元线性回归方程的建立,确定直线方程的原则:,确定 b0 及 bj 值:,欲使建立的回归方程最好,须使 和 之间的差异最小。,= 最小,即,上式及本式称为正规方程组 (Normal

29、 equations). 对正规方程组求解,即得b0, bj.,如果令A为正规方程组的系数矩阵,即 :,(p+1) (p+1),方阵,(p+1) p,p (p+1),Structure matrix,(p+1) p,N 1,令B为正规方程组右端的常数项矩阵,即:,令,则正规方程组,对上式求解,得:,可以写成矩阵形式:,表 10株玉米穗行数 x1,行粒数 x2与单株产量 y,例:,欲建立的二元线性回归方程为:,调查某玉米综合种10株,该品种每株玉米皆为单果穗。试建立每穗行数、行粒数与单株产量间的二元线性回归方程。,常数项矩阵,y 矩阵,结构矩阵,结构矩阵,y 矩阵,常数项矩阵,该方程有唯一解的条

30、件是:,A-1 是方程系数矩阵的逆矩阵, 称相关矩阵。,是系数矩阵 A 的行列式。,Aij 是 中元素 aij 的代数余子式。,式中:,对 求解得:,每穗行数、行粒数与单株产量间的二元线性回归方程为:,3. 多元线性回归方程的显著性检验,1) 因变量观察值的变异来源划分,2) 变异平方和的分解与计算,(1) 回归方程的显著性检验,总变异 = 剩余变异 + 回归变异,SST = SS剩 + SS回,其中 B0, Bj为常数项矩阵 B 中的元素,平方和的计算,SST = SS剩 + SS回,即,令,3) 自由度的分解与计算,4) F值的计算,5) 统计推断,F F 否定H0 ,接受 HA,总自由度

31、: dfT = N 1 回归自由度: df回 = m 剩余自由度: df剩 = dfT - df回 = N m 1,1) 偏回归平方和,各偏回归系数的平方和,称为偏 回归平方和。记作 Pj,Cjj为正规方程组系数矩阵 A 的逆矩阵 A-1 主对角线上元素。bj为 y 对 xj 的偏回归系数,2) 自由度的计算,3) F值的计算,4) 统计推断,(2) 偏回归系数的显著性检验,F F 否定H0 ,接受 HA,偏 回归平方和的自由度为偏回归系数的自由度,即为:1,(3) 自变量的重要性和取舍,对于偏回归系数不显著的自变量应按照其偏回归平方和的大小,从小到大逐步舍去,并重新进行回归及检验,直到所保留

32、自变量的偏回归系数均显著为止。此称为逐步回归。,多元线性回归方程的显著性检验 (F检验) H0: 回归关系不显著;HA: 回归关系显著; 计算统计量F:,回归 1292.29 2 646.145154.318* 4.74 9.55,剩余 29.31 7 4.1871,变因 SS df MS F F0.05 F0.01,总变异 1321.6 9,二元线性回归方程的显著性检验方差分析表,故该二元线性回归方程的回归关系极显著水平,偏回归系数的显著性检验 计算偏回归平方和,偏回归系数的显著性检验方差分析表,可以使用,二、 多元相关分析,1. 多元相关,指 m 个自变量与 1 个因变量的总相关。多元相关

33、系数记作:,R的存在区间为 0,1 。,简记作:R,多元相关系数或复相关系数 (R),或,多元相关系数的显著性检验:,= 0.9888 *,m=3, df剩 = N m 1=6, R0.01= 0.886,2. 偏相关 (Partial correlation) 偏相关系数 (Partial correlation coefficient) 偏相关系数的定义: 在其它各个变量都保持一定时,指定的两个变量间相关的密切程度。偏相关又称为净相关。 偏相关系数的表示方法: r12, 34m, 简记作: r12 , rij 偏相关系数的取值范围 : -1, 1,由 Df= N m,查表变量个数为 2, 查相关系数表(附表10)得 r,如果: r r 表明两变量的相关关系达显著或极显著水平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论