大学课件-直线回归和相关-_第1页
大学课件-直线回归和相关-_第2页
大学课件-直线回归和相关-_第3页
大学课件-直线回归和相关-_第4页
大学课件-直线回归和相关-_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章直线回归与相关下一张

主页

退出

上一张

1大学各学科PPT课件持续更新欢迎收藏 变量之间常常是相互影响、彼此相关的, 例如:产量与施肥量有关; 病虫害发生时期与温度有关; 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重有关,等等。 常常需要研究两个或多个变量之间的关系。下一张

主页

退出

上一张

2大学各学科PPT课件持续更新欢迎收藏

变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。 如长方体的体积(V)与长(a)、宽(b)、高(h)的关系可以表达为:

V=abh它们之间的关系是确定性的,只要知道了其中3个变量的值就可以精确地计算出另一个变量的值。这类变量间的关系称为函数关系。下一张

主页

退出

上一张

3大学各学科PPT课件持续更新欢迎收藏 另一类是变量间不存在完全的确定性关系,不能用精确的数学公式来表示。 如:产量与施肥量的关系; 病虫害发生时期与温度的关系; 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重的关系等。下一张

主页

退出

上一张

4大学各学科PPT课件持续更新欢迎收藏 这些变量间都存在着十分密切的关系,但由于随机误差的影响,不能由一个或几个变量的值精确地求出另一个变量的值。这样的变量在生物界中是大量存在的,统计学中把这类变量关系称为统计关系。下一张

主页

退出

上一张

5大学各学科PPT课件持续更新欢迎收藏

统计关系分为两种: 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。 如:病虫害发生时期受温度的影响; 小麦单位面积产量受单位面积穗数、每穗粒数、千粒重的影响;下一张

主页

退出

上一张

6大学各学科PPT课件持续更新欢迎收藏 另一种是相关关系,即二个变量相互影响,互为因果。 如小麦每穗粒数与千粒重之间的关系,株高与穗长之间的关系等都属于平行关系。 统计学上采用回归分析研究呈因果关系的相关变量间的关系。 表示原因的变量称为自变量X(independentvariable),表示结果的变量称为依变量Y(dependentvariable)。7大学各学科PPT课件持续更新欢迎收藏 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。下一张

主页

退出

上一张

8大学各学科PPT课件持续更新欢迎收藏

回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。下一张

主页

退出

上一张

9大学各学科PPT课件持续更新欢迎收藏 统计学上采用相关分析研究呈平行关系的相关变量之间的关系。 对两个变量间的直线关系进行相关分析称为直线相关分析(也叫简单相关分析); (对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;)下一张

主页

退出

上一张

10大学各学科PPT课件持续更新欢迎收藏 在相关分析中,不区分自变量和依变量。 相关分析只研究两个变量之间线性相关的程度和性质或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化。 本章介绍直线回归与相关分析。下一张

主页

退出

上一张

11大学各学科PPT课件持续更新欢迎收藏第一节直线回归分析 对于两个相关变量x和y,通过试验或调查获得n对观测值,(x1,y1),(x2,y2),­­……,(xn,yn),作出散点图。下一张

主页

退出

上一张

12大学各学科PPT课件持续更新欢迎收藏xy0.......X,最高叶面积指数y0.........X,每平方米颖花数(万)y0.......水稻单株生物产量与稻谷产量的散点图水稻每平方米颖花数与结实率的散点图水稻最高叶面积指数和亩产量的散点图ABC结实率生物产量13大学各学科PPT课件持续更新欢迎收藏从散点图可以看出:

①两个变量间关系的类型,是直线还是曲线。图9.1A、9.1B表明x与y是直线相关关系;图9.1C表明x与y是曲线关系,这几种情况在生物界较常见。下一张

主页

退出

上一张

14大学各学科PPT课件持续更新欢迎收藏

②两个变量间关系的性质(是同向增减还是异向增减。图9.1A表明x与y的直线关系是同向增减,图9.1B表明x与y的是直线关系是异向增减。还可以表示密切的程度。

③是否有异常观测值。下一张

主页

退出

上一张

15大学各学科PPT课件持续更新欢迎收藏一、直线回归方程的建立如果呈因果关系的两个相关变量x与y间的关系是直线关系,由于依变量x与y间的关系是直线关系下一张

主页

退出

上一张

16大学各学科PPT课件持续更新欢迎收藏 在x,y的直角坐标平面上可以作出无数条直线,回归直线是指所有直线中最接近散点图全部散点的直线。设直线回归方程为:(8-1)下一张

主页

退出

上一张

a是回归直线在y轴上的截距,叫回归截距(regressionintercept);b是回归系数(regressioncoefficient)。17大学各学科PPT课件持续更新欢迎收藏 a、b应使回归估计值与实际观测值的偏差平方和最小,即:最小令Q对a、b的一阶偏导数等于0,即:

下一张

主页

退出

上一张

18大学各学科PPT课件持续更新欢迎收藏 整理得关于a、b的正规方程组

下一张

主页

退出

上一张

19大学各学科PPT课件持续更新欢迎收藏解正规方程组,得:(8-2)(8-3)下一张

主页

退出

上一张

20大学各学科PPT课件持续更新欢迎收藏 (8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和,简称乘积和(sumofproducts),记作SP,分母是自变量x的离均差平方和,记作。 a叫做样本回归截距,是总体回归截距的最小二乘估计值也是无偏估计值,是回归直线与y轴交点的纵坐标,当x=0时,=a;下一张

主页

退出

上一张

21大学各学科PPT课件持续更新欢迎收藏 b叫做样本回归系数,是总体回归系数的最小二乘估计值也是无偏估计值,表示x改变一个单位,y平均改变的数量,b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的大小,a和b值有专业上的意义; 叫做回归估计值,是当x在其研究范围内取某一个值时,y总体平均数()的估计值。下一张

主页

退出

上一张

22大学各学科PPT课件持续更新欢迎收藏 如果将(8-2)式代入(8-1)式,得到回归方程的另一种形式:(8-5)下一张

主页

退出

上一张

说明直线回归方程一定通过点。23大学各学科PPT课件持续更新欢迎收藏 【例8·1】江苏武进县测定1956-1964年间3月下旬至4月中旬平均温度累积值(x,单位:旬•度)和一代三化螟蛾盛发期(y,以5月10日为0)的资料如下表,建立y与x的直线回归方程。下一张

主页

退出

上一张

24大学各学科PPT课件持续更新欢迎收藏表8-1平均温度累积值(x)与一代三化螟盛发期(y)资料下一张

主页

退出

上一张

25大学各学科PPT课件持续更新欢迎收藏计算6个一级数据n=9∑x=35.5+34.1+…+44.2=333.7∑x2=35.52+34.12+…+44.22=12517.49∑y=12+16+…+(-1)=70∑y2=122+162+…+(-1)2=794∑xy=(35.5×12)+(34.1×16)+…+[44.2×(-1)2]=2436.426大学各学科PPT课件持续更新欢迎收藏计算5个二级数据27大学各学科PPT课件持续更新欢迎收藏

2、计算回归系数b,回归截距a,建立直线回归方程

1、作散点图

(天/旬·度)(天)28大学各学科PPT课件持续更新欢迎收藏直线回归方程为:下一张

主页

退出

上一张

或29大学各学科PPT课件持续更新欢迎收藏注意,由于实测区间为[31.7,44.2],当<31.7或 >44.2时,的变化是否还符合 的规律,还必须提供新的依据。

回归系数=-1.1的意义为:当3月下旬的积温()每提高1旬•度时,一代三化螟盛发期将平均提早1.1天; 回归截距=48.5485的意义为:若3月下旬的积温为0,则一代三化螟盛发期为48.5,即在6月27-28日。30大学各学科PPT课件持续更新欢迎收藏3、直线回归方程的图示P1614、直线回归方程的离回归标准误Q=的大小表示了实测点与回归直线偏离的程度,又称为离回归平方和(sumofsquaresduetodeviationfromregression)。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2(由于在建立回归方程时用了a、b两个统计数)。于是可求得离回归均方为:S2y/x=Q/(n-2)=31大学各学科PPT课件持续更新欢迎收藏 离回归均方是模型(8-1)中方差σ2的估计值。 离回归均方的平方根叫离回归标准误,记为Sy/x,即(8-6)下一张

主页

退出

上一张

32大学各学科PPT课件持续更新欢迎收藏 离回归标准误Sy/x

的大小表示了回归直线与实测点,即回归估计值与实际观测值y偏离度的大小。计算Sy/x值主要是求Q,直接计算工作量大,而且容易引入误差,可以用下列恒等式计算(8-7a)Q==SSy-b(SP)=SSy-b2(SSx)=∑y2-a∑y-b∑xy(8-7b)(8-7c)(8-7d)33大学各学科PPT课件持续更新欢迎收藏对于【例8·1】有下一张

主页

退出

上一张

34大学各学科PPT课件持续更新欢迎收藏所以=3.2660(天)下一张

主页

退出

上一张

35大学各学科PPT课件持续更新欢迎收藏三、直线回归的显著性检验 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量y与x间是否存在直线关系,也就是须对直线回归进行显著性检验。 直线回归显著性检验的方法有F检验和t检验两种。下一张

主页

退出

上一张

36大学各学科PPT课件持续更新欢迎收藏 从图8.3(P161)看到,可表示为与之和,即则有

下一张

主页

退出

上一张

(一)F检验

1、依变量y的总平方和与自由度的分解37大学各学科PPT课件持续更新欢迎收藏由于所以下一张

主页

退出

上一张

38大学各学科PPT课件持续更新欢迎收藏于是

下一张

主页

退出

上一张

39大学各学科PPT课件持续更新欢迎收藏所以(8-8)

反映了y的总变异程度,称为y的总平方和,记为;下一张

主页

退出

上一张

40大学各学科PPT课件持续更新欢迎收藏 反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR; 反映了除y与x存在直线关系以外的原因(包括随机误差)所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。下一张

主页

退出

上一张

41大学各学科PPT课件持续更新欢迎收藏于是,(7-8)式又可表示为:SSy=SSR+SSr

与此相对应,dfy=dfR+dfr

(8-9)(8-10)在直线回归分析中dfy=n-1dfR=1dfr=n-2下一张

主页

退出

上一张

42大学各学科PPT课件持续更新欢迎收藏2、回归关系显著性检验—F检验 对y与x间是否存在直线关系的假设检验其无效假设:=0,备择假设:≠0。 在无效假设成立的条件下,回归均方与离回归均方的比值服从和的F分布,所以可以用下一张

主页

退出

上一张

43大学各学科PPT课件持续更新欢迎收藏,df1=1,df2=n-2(8-11)来检验回归关系即回归方程的显著性。下一张

主页

退出

上一张

44大学各学科PPT课件持续更新欢迎收藏

(8-12)(8-13)下一张

主页

退出

上一张

45大学各学科PPT课件持续更新欢迎收藏对于【例8·1】,,,下一张

主页

退出

上一张

46大学各学科PPT课件持续更新欢迎收藏而,于是下一张

主页

退出

上一张

47大学各学科PPT课件持续更新欢迎收藏,,p<0.01,表明一代三化螟蛾盛发期(y)与积温()的直线回归关系极显著。下一张

主页

退出

上一张

48大学各学科PPT课件持续更新欢迎收藏3、回归系数的显著性检验—t检验 回归系数显著性检验的无效假设和备择假设分别为:β=0,:β≠0。t检验的计算公式为:(7-14)其中,为回归系数标准误:(7-15)下一张

主页

退出

上一张

49大学各学科PPT课件持续更新欢迎收藏对于【例8·1】,已计算得,

故有下一张

主页

退出

上一张

50大学各学科PPT课件持续更新欢迎收藏,因,,否定:β=0,接受:β≠0,即一代三化螟蛾盛发期(y)与积温(x)的直线回归系数b=-1.0996极显著,表明一代三化螟蛾盛发期与积温间存在极显著的直线关系。 F检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。

下一张

主页

退出

上一张

51大学各学科PPT课件持续更新欢迎收藏四、直线回归的区间估计经检验直线回归关系显著之后:可用样本统计数来估计总体参数,可利用来估计某一值对应的总体的平均数();下一张

主页

退出

上一张

52大学各学科PPT课件持续更新欢迎收藏 还可对总体参数,某一值对应的总体的平均数()和单个观测值作出区间估计,即求出它们在一定置信度下的置信区间。

表8-2回归截距,回归系数,总体平均数()和单个观测值y置信度为()的置信区间

下一张

主页

退出

上一张

53大学各学科PPT课件持续更新欢迎收藏下一张

主页

退出

上一张

54大学各学科PPT课件持续更新欢迎收藏【例8·2】根据【例8·1】的资料估计: (1)当3月下旬至4月中旬的积温为40旬•度时,历年的一代三化螟蛾平均盛发期在何时(置信度为95%)? (2)某年3月下旬至4月中旬的积温为40旬•度时,该年的一代三化螟蛾盛发期在何时(置信度为95%)?下一张

主页

退出

上一张

55大学各学科PPT课件持续更新欢迎收藏 利用直线回归方程计算当时的,因为下一张

主页

退出

上一张

56大学各学科PPT课件持续更新欢迎收藏将=4.56、、2.36代入,得 所以(1)在置信度为95%时,的总体平均数()的置信区间为:下一张

主页

退出

上一张

57大学各学科PPT课件持续更新欢迎收藏 即当3月下旬至4月中旬的积温为40旬•度时,历年的一代三化螟蛾平均盛发期在[1.4,7.7]或5月12—18日,置信度为95%。 (2)在置信度为95%时,的单个观测值的置信区间为:下一张

主页

退出

上一张

58大学各学科PPT课件持续更新欢迎收藏 将=4.56、、2.36代入,得

即当某年3月下旬至4月中旬的积温为40旬•度时,该年的一代三化螟蛾盛发期在[-3.8,19.9]或5月6—30日,置信度为95%。 类似地可求出取其它值时总体平均数()和单个观测值的95%置信区间,列于表8-3。下一张

主页

退出

上一张

59大学各学科PPT课件持续更新欢迎收藏表8-3一代三化螟蛾盛发期95%置信区间下一张

主页

退出

上一张

60大学各学科PPT课件持续更新欢迎收藏 从和的计算公式看出,越接近,和越小,置信区间的置信距也越小,预测越精确。

下一张

主页

退出

上一张

61大学各学科PPT课件持续更新欢迎收藏第二节直线相关分析 进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计数——相关系数r,并进行显著性检验。下一张

主页

退出

上一张

62大学各学科PPT课件持续更新欢迎收藏、决定系数和相关系数已经证明了等式:。

从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方和与离回归平方和的大小,或者说取决于回归平方和在y的总平方和中所占比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。下一张

主页

退出

上一张

63大学各学科PPT课件持续更新欢迎收藏 比值叫做x对y的决定系数,记为r2,即(7-16) 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,显然0≤r2≤1。下一张

主页

退出

上一张

64大学各学科PPT课件持续更新欢迎收藏因为 而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。 若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy。下一张

主页

退出

上一张

65大学各学科PPT课件持续更新欢迎收藏 所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。 这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。下一张

主页

退出

上一张

66大学各学科PPT课件持续更新欢迎收藏 若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy、byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示y与x直线相关的性质。 统计学上把这样计算所得的统计数称为x与y的相关系数,记为r,即下一张

主页

退出

上一张

67大学各学科PPT课件持续更新欢迎收藏(7-17)(7-18) 显然-1≤r≤1。当r<0时,相关变量x与y异向增减,称为x与y负相关;当r>0时,相关变量x与y同向增减,称为x与y正相关。下一张

主页

退出

上一张

68大学各学科PPT课件持续更新欢迎收藏 【例8·3】计算【例8·1】资料3月下旬至4月中旬积温和一代三化螟蛾盛发期的决定系数和相关系数。下一张

主页

退出

上一张

69大学各学科PPT课件持续更新欢迎收藏已经算得、

、下一张

主页

退出

上一张

70大学各学科PPT课件持续更新欢迎收藏 表明,用一代三化螟盛发期(y)与3月下旬至4月中旬积温(x)的直线回归方程来进行预测其可靠程度为70.07%。下一张

主页

退出

上一张

71大学各学科PPT课件持续更新欢迎收藏二、相关系数的显著性检验 上述根据实际观测值计算得来的r是样本相关系数,它是双变量正态总体的总体相关系数ρ的估计值。样本相关系数r是否来自≠0的总体,还须对样本相关系数r进行显著性检验。此时无效假设、备择假设分别为:=0,

≠0。下一张

主页

退出

上一张

72大学各学科PPT课件持续更新欢迎收藏由于r的取值区间在[-1,1],r本身并不服从某个已知的理论分布。r的抽样误差为:当H0正确时此t值遵循ν=n-2的t分布,由之可检验H0。

73大学各学科PPT课件持续更新欢迎收藏由于ν一定时,t0.05(0.01)是一定的,采用查表法对相关系数r进行显著性检验.具体作法是:先根据自由度n-2查临界r值(附表8),得,。 若|r|<,p>0.05,则相关系数r不显著,在r的右上方标记“ns”或不标记符号;下一张

主页

退出

上一张

74大学各学科PPT课件持续更新欢迎收藏 若≤|r|<,0.01<p≤0.05,则相关系数r显著,在r的右上方标记“*”; 若|r|≥,p≤0.01,则相关系数r极显著,在r的右上方标记“**”。下一张

主页

退出

上一张

75大学各学科PPT课件持续更新欢迎收藏 对于【例8·3】,=0.666,=0.798,而|r|=0.8371>,p<0.01,表明一代三化螟盛发期与3月下旬至4月中旬积温的相关系数极显著,即一代三化螟盛发期与3月下旬至4月中旬积温呈极显著负相关,积温越高,螟蛾的盛发期越早。下一张

主页

退出

上一张

76大学各学科PPT课件持续更新欢迎收藏三、直线相关分析与回归分析的关系 相关变量x与y的相关系数r是y对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论