第12章一元线性回归与相关_第1页
第12章一元线性回归与相关_第2页
第12章一元线性回归与相关_第3页
第12章一元线性回归与相关_第4页
第12章一元线性回归与相关_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第12章一元线性回归与相关 第12章 一元回归与相关 第12章一元线性回归与相关 对于两个变量,常用符号X、Y来表示,X、Y的各 对观察值用(x1,y1),(x2,y2),.(xn,yn)表示。 两个变量之间的关系可分为两类: 一是函数关系,两个变量均为一般变量,关系确 定。在生物界中极少见。 二是相关关系,一个变量受另一变量的影响,两 者之间既有关系,又不存在完全确定的关系。若用 一个变量X(可以是一般变量,也可以是随机变量) 去推测另一个变量Y(必需是随机变量),则称X为 自变量,Y为因变量,X和Y之间为回归关系。若两 个变量均为随机变量,X和Y均可作为自变量,则称 X和Y之间存在相关关系

2、。 第12章一元线性回归与相关 v在具有回归关系的两变量之间,对于任一个 xi,都不会有一个确切的yi与之对应。为了描 述两变量间的数量关系,可以用当X=xi时Y的 平均数 与之对应。称为Y的条 件平均数。 , i Y Xx ,Y X 第12章一元线性回归与相关 在相关模型中,其X和Y变量是平行变化关系,皆具 有随机误差,因而不能区别哪一个是自变量,哪一 个是因变量。 相关模型的特征是仅表示两个变量的偕同变异, 没有自变量和依变量之分,也不具有预测性质。 第12章一元线性回归与相关 回归分析回归分析 regression analysis: : 对符合回归理论模型的资料进行统计分析,研究呈因果

3、 关系的相关变量间的关系 回归分析是要导出由X来预测或控制Y的回归方程,即变 量间的联系形式,并在某一可靠程度下确定当自变量X为某 一值时因变量Y将会在什么范围内变化。 相关分析相关分析 correlation analysis: : 对符合相关理论模型的资料进行统计分析,研究呈平行 关系的相关变量间的关系。 相关分析是要测定两个变量在数量关系上的密切程度和 性质。 第12章一元线性回归与相关 回归分析和相关分析的类型很多,包含一个因变量、 一个自变量的回归分析为一元回归分析,它又分为直线回 归分析和曲线回归分析两类;包含一个因变量、多个自变 量的回归分析为多元回归分析,它又分为多元线性回归分

4、 析和曲面回归分析两类。 对两个相关变量的直线关系进行相关分析为直线相关 分析;对多个相关变量进行相关分析时,研究一个变量与 多个变量间的线性相关为复相关分析。 研究在其余相关变 量保持不变的情况下两个相关变量间的线性相关为偏相关 分析。 第12章一元线性回归与相关 变 量 间 的 关 系 函数关系有确定的数学表达式 (确定性的关系) 相关关系 (非确定性的关系) 因果关系 回归分析 平行关系 相关分析 一元回归分析 多元回归分析 简单相关分析直线相关分析 多元相关分析 直线回归分析 曲线回归分析 多元非线性回归分析 多元线性回归分析 复相关分析 偏相关分析 第12章一元线性回归与相关 第一节

5、 直线回归 一、直线回归方程的建立 二、直线回归的显著性检验 (一)回归系数的显著性检验t检验 (二)回归关系显著性检验 第二节第二节 相关相关 一、决定系数和相关系数 二、相关系数的计算 三、相关系数的显著性检验F检验 四、应用直线回归与相关的注意事项 主要内容:主要内容: 第12章一元线性回归与相关 一、直线回归方程的建立 (一)散点图 研究两个变量之间的关系时,一般先把n对观察值 (x1,y1),(x2,y2),(xi,yi),(xn,yn)先以x为横坐标,y为纵 坐标在直角坐标纸上描出 n 个点, 所描出的图形叫散点图散点图。 第一节 直线回归 (x (xi i,y,yi i) )散点

6、图散点图 第12章一元线性回归与相关 (二)直线回归的数学模型 如果把表示变量y与x内在联系的总体直线回归 方程记为 ,由于因变量的实际 观察值总是带有随机误差的,因而实际观察值 可表示为: 其中为随机误差与、相互独立,且都服从N(0, 2)。这就是直线回归的数学模型直线回归的数学模型。 x XY i y ;(1,2,3, ) iii yxin 第12章一元线性回归与相关 (三)直线回归方程的建立 我们可根据样本实际观察值对、以及误差方差作 出估计, 即建立样本回归方程并估计出误差的大小。建立样本回归方程并估计出误差的大小。 在x、y的坐标平面上可作出无数条直线,而回归直线 是所有直线中最接近

7、散点图中全部散点的直线。设样本直 线回归方程为: bxay 图122 直线回归散点图 其中a是的估计值,称为回归截回归截 距距;b是的估计值,称为回归系回归系 数数; 是是 +x+xi i的估计值的估计值。 i y 第12章一元线性回归与相关 回归值 与yi观察值间的偏差(或称残差)为: 全部偏差平方和为: 利用最小二乘法最小二乘法,即使偏差平方和最小的方法求a与b 的值。根据微积分学中求极值的原理,令Q对a、b的一阶偏 导数等于零,即等 i y iii yye 2 22 )()( iiiii bxayyyeQ 0)(2 0)(2 iii ii xbxay b Q bxay a Q 第12章一

8、元线性回归与相关 整理后可得有关a与b的正规方程组正规方程组: 解此正规方程组可得: 或简记为 iiii ii yxxbxa yxbna 2 2 ()() () xxyy b xx aybx xbya nxx nyxxy b /)( /)( 22 第12章一元线性回归与相关 (x- )(y- )记为 S SXY XY ,称为x和y的校正交叉乘积和 校正交叉乘积和. . 同样可将 记为S SXX XX,称为x的校正平方和校正平方和. 则上式可简记为: 。 同理可将记为SYY YY,称为Y的校正平方和。 xy / XYXX bSS aybx 2 ()xx 2 ()yy 第12章一元线性回归与相关

9、a是的估计值,称为回归截距回归截距,是回归直线与y轴交点的纵 坐标,当x=0时, ; b是的估计值,称为回归系数回归系数,表示自变量x每改变一个单 位数时, 因变量y平均改变的单位数.b的符号反映了x影响 y的性质(b0时,增加;b0时,减少),b绝对值的大小 反映了x影响y的程度(b绝对值越大影响程度越大,b等于 或接近零时,表示y的变化与x的取值无关,两变量之间不 存在直线关系); 叫做回归估计值,叫做回归估计值,是当x在其取值范围内取某一值时,的 所有y值总体的平均数+xi的估计值,所以确切地说 是是对应于xi的因变量y值总体平均数的估计值。 i y ay i y 第12章一元线性回归与

10、相关 【例12.1】 在四川白鹅的性能研究中,得到如下 一组关于雏鹅重(g)与70日龄重(g) 的数据,试建 立70日龄重(y)对雏鹅重(x)的直线回归方程。 x808698901201029583113105110100 y235024002720250031502680263024003080292029602860 四川白鹅的雏鹅重x与70日龄重y测定结果表 (单位:g) 第12章一元线性回归与相关 1. 作散点图: 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图, 见图。 由图形可见四川白鹅的70日龄重与雏鹅重间存在直线 关系,70日龄重随雏鹅重的增大而增大。 2. 参数估计

11、: 计算回归截距a,回归系 数b。先计算出下列数据: 00.1685 12 )1182( 118112/)( 36585 )( 8333.272012/32650/ 5.9812/1182/ 2 22 nxxS n yx xyS nyy nxx XX XY 第12章一元线性回归与相关 再代入(12-2)式,得: 则四川白鹅的70日龄重y对雏鹅重x的直线回归方程为: 1816.5825.987122.278333.2720 7122.27 00.1685 36585 xaya S S b XX XY xy7122.271816.582 图11-4 70日龄重随雏鹅重的回归线 2250 2450

12、2650 2850 3050 8090100110120 雏鹅重X 70日龄重Y xy7122.271816.582 第12章一元线性回归与相关 v【例12.2】土壤中NaCl含量对植物的生长有很 大的影响。下表中的数据为不同NaCl含量的土 壤对植物单位叶面积干重的影响,计算植物干 重在NaCl含量上的回归方程。 NaCl含量(g/kg土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8 干重(mg/dm2) 80 90 95 115 130 115 135 第12章一元线性回归与相关 XX= X-2.4 X2YY= Y-110 Y2XY 0 0.8 1.6 2.4 3.2 4.0 4

13、.8 和 -2.4 -1.6 -0.8 0 0.8 1.6 2.4 0 5.76 2.56 0.64 0 0.64 2.56 5.76 17.92 80 90 95 115 130 115 135 -30 -20 -15 5 20 5 25 -10 900 400 225 25 400 25 625 2600 72 32 12 0 16 8 60 200 第12章一元线性回归与相关 vSXY=200 vSXX=17.92 vb=SXY/SXX=200/17.92=11.16 va=108.57-11.162.4=81.79 vY=81.79+11.16X 第12章一元线性回归与相关 二、直线回

14、归的显著性检验 检验的方法有回归关系的F F检验检验和回归系数的t t检验检验二种。 ( (一一) )回归系数显著性检验回归系数显著性检验 t t检验检验 1. b的显著性检验 若总体不存在直线关系,则总体回归系数=0;若 总体存在直线关系,则0。所以对直线回归系数b的 假设检验为:HO:=0;HA:0。 在HO成立的条件下,回归系数b服从t分布。 第12章一元线性回归与相关 2 2 ,2 / () 2 () byxXX ii yx iiYYXYe b tdfn Sb SSS yy S n yySbSSS 统 计 量 其 中 , 称 为 回 归 系 数 标 准 误 其 中 , 离回归标准误的大

15、小表示了回归直线与实际观测点的 吻合程度,即回归估测值与实际观测值差异的程度,可将 其作为回归方程估测准确度的标志。 第12章一元线性回归与相关 【例12.1】试检验回归系数b的显著性。 对于【例12.1】资料,已计算得b=21.7122,SXX=1685, SYY=831491.67, SXY=36585 2 2 () 831491.6727.71223658537152.07 () 37152.07 (122)60.9525 2 /60.9525 /16851.4849 /21.7122 /1.484914.62 iiYYXY ii yx byxXX b yySbS yy S n SSS

16、tbS 故 有 : 第12章一元线性回归与相关 即四川白鹅的70日龄重(y)对雏鹅重(x)的回归系数 b=21.7122是极显著的,表明四川白鹅70日龄重与雏鹅 重间存在极显著的直线关系,可用所建立的直线回归方 程来进行预测和控制。 0:,0:,01.0 169.362.14 169.3,228.2 4,102122 0 )10(01.0)10(05.0 A HHp t tt ndf 接受否定 得查附表当 第12章一元线性回归与相关 2. a的显著性检验 处理和b相似,对直线回归系数a的假设检验为: HO:=0(或=m);HA:0(m )。 在HO成立的条件下,回归系数a服从t分布,,检验统计

17、量: 2 /,2 1 () a ayx XX taSdfn x SS nS 其 中 , 第12章一元线性回归与相关 【例12.1】试检验1回归参数a的显著性。 对于【例12.1】资料,已计算得a=582.1816,SXX=1685, 5.98x 0:,0:,01.0 169.39616.3 169.3,228.2 4,102122 9616.39467.1461816.582 9467.146 1685 5.98 12 1 9525.60 ) 1 ( 0 )10(01.0)10(05.0 2 2 A a a XX yxa HHp t tt ndf s a t S x n SS 接受否定 得查附

18、表当 第12章一元线性回归与相关 3. 两个回归方程的比较 对两个回方程的比较就是检验两个抽样样本是否来自 同一总体检验过程包括以下三个方面: 回归方程方差的检验: 2 2 , yxe e SMS MS 的无偏估计为称为剩余均方 )511( :;: 1 2 2121 2222 0 e e A MS MS F HH 统计量 第12章一元线性回归与相关 回归系数b的检验 回归参数a的检验 2211 2 2 2 1 21 21 21210 11 :;: XXXX xy A SS xx nn S aa t HH 统计量 2211 11 :;: 21 21210 XXXX xy A SS S bb t

19、HH 统计量 第12章一元线性回归与相关 从图115看到:因变量y的总 变异(y- )由y与x间存在直线 关系所引起的变异( - )与 偏差(y- )两部份构成。 即(y- )=( - )+(y- ) 上式两端平方,然后对所有 的n点求和,则有 ( (二二) )回归关系显著性检验回归关系显著性检验 F检验检验 1. 直线回归的变异来源 的分解图)(511yy y y y y y y y y 22 2 2 )()( )(2)( )()()( yyyyyyyy yyyyyy 第12章一元线性回归与相关 222 2 2 )()()( 0)( )()()( )( )()()( )( )()( )( )

20、( )()( yyyyyy S S S S S S SbbS xxbxxbyyxxb xxbyyxxb yyxxbyyyy xxbyy xxbybxxbybxay XX XX XY XY XX XY XXXY 所以有 所以有 所以 由于 第12章一元线性回归与相关 (y- )2反映了y的总变异程度,称为y y的总平方和的总平方和, 记为SYY; ( - )2反映了由y与x间存在直线关系所引起的 变异程度,称为回归平方和回归平方和,记为SSR; ( y - )2反映了除y与x间存在直线关系以外的 原因,包括随机误差所引起的y的变异程度,称 为离回归平方和或剩余平方和回归平方和或剩余平方和,记为S

21、Se; 三者的关系可表示为: SYY = SSR+Sse 这表明y的总平方和剖分为回归平方和与离回归平 方和两部分。 y y y y 第12章一元线性回归与相关 y的总自由度dfy也剖分为回归自由度dfR和离回归自由度dfe 两部分,即. 直线回归分析中,回归自由度等于自变量的个数即 y的总自由度 离回归自由度 于是:回归均方 离回归均方 1 R df 1 ndf y 2 ndf e RRRR SSdfSSMS )2(nSSdfSSMS eeee .(811) eRy dfdfdf 第12章一元线性回归与相关 2. 回归关系显著性检验F检验 零假设 备择假设 统计量 0: 0 H 0: A H

22、 2, 1 )2( 21 ndfdf nSS SS dfSS dfSS MS MS F e R ee RR e R 第12章一元线性回归与相关 回归平方和的计算方式: 离回归平方和的计算公式: XX XY XX XX XY XYXX R S S S S S bSSbxxb xxbyySS 2 2 222 22 .)( )( )()( XX XY YYRye S S SSSSSSS 2 第12章一元线性回归与相关 对于【例12.1】资料,有 而dfy=n-1=12-1=11,dfR=1,dfe=n-2=12-2=10。 于是可列 出方差分析表进行回归关系显著性检验。 表11-2 四川白鹅70日龄

23、重与雏鹅重直线回归关系方差分析表 07.3715260.79433967.831491 60.794339 1685 )36585()( 1685,36585,67.831491 22 RYYe XX XY R XXXYYY SSSSS S S SS SSS 变异来源SSdfMSF值 回归79439.601794339.60213.81* 离回归37152.07103715.21 总变异831491.67 11 01.0,81.213,04.10 01.0,10,101.0,10,1 PFFF而因为 第12章一元线性回归与相关 表明四川白鹅的 70日龄重与雏鹅重间存在极显著的直 线回归关系。

24、F检验的结果与t检验的结果一致。统计学已证明,在直线统计学已证明,在直线 回归分析中这二种检验法是等价的,可任选一种进行检验。回归分析中这二种检验法是等价的,可任选一种进行检验。 由于四川白鹅 70日龄重与雏鹅重间的直线回归关系极 显著,在实际生产中, 可以通过四川白鹅的雏鹅重来对70 日龄重作出预测或控制。 特别要指出的是:特别要指出的是:利用直线回归方程进行预测或控制时, 一般只适用于原来研究的范围,不能随意把范围扩大一般只适用于原来研究的范围,不能随意把范围扩大。 t检验 第12章一元线性回归与相关 3. 有重复时的情况 SSpe称为纯实验误差平方和;SSLOF称为失拟平方和 设实验共收

25、集对数据,在每一下做了 重复,则有: n i iiLOF n i m j iijpe n i iR n i m j ijYY yymSS yySS yymSS yyS 1 2 11 2 1 2 11 2 )( )( )( )( peLOPRYY SSSSSSS ni,2,1 mj,2,1 第12章一元线性回归与相关 回归自由度等于自变量的个数即 y的总自由度 失拟项的自由度 纯误差项的自由度 在回归分析中,先用纯实验误差均方对失拟均方做检验: 若结果不显著,则要合并失拟平方和与纯误差平方和及合 并后的均方,然后在对回归均方作检验: 1 R df 1 mndf y 2 ndf LOP nmndf

26、 pe nmndfndf MS MS F pe LOF 21 ,2; 2, 1; 21 mndfdfdfdf dfdf SSSS MS F peLOF peLOF peLOF R 第12章一元线性回归与相关 进行直线相关分析的基本任务基本任务在于根据x,y的实际观察数 据,计算出表示x,y两个变量间线性相关的程度和性质的统计 量相关系数,并进行显著性检验。 一、决定系数和相关系数 对于相关变量x与y的n对观测值,可建立直线回归方程: 已证明了等式: 。所以:y与x直 线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和 在y的总平方和 中所占比例的大小。这个比例越大

27、,y与x的直线回归效果就越 好,反之则差。 第二节 直线相关 bxay 222 )()()(yyyyyy 2 )(yy 2 )(yy 2 )(yy 2 )(yy 第12章一元线性回归与相关 (一)决定系数 决定系数的大小表示了回归方程估测可靠程度的高低, 或说表示了回归直线拟合度的高低 10, )( )( 2 2 2 2 ryx yy yy r的决定系数对称为 YY e S SS r 1 2 XX YYXY XX XY YYXYYYe YYXXYY XY XX XY YY XY YY R S S SS S S SbSSSS SS S S S S S S bS S SS yy yy r XY X

28、Y 2 2 2 2 2 )( )( 由于 第12章一元线性回归与相关 但决定系数介于0与1之间,不能反映x与y直 线关系的性质是同向增减或异向增减。若求 r2的平方根,且取平方根的符号与乘积和SXY的符 号一致,这样求出的平方根既可表示y与x的直线 关系的程度,也可表示其性质。 统计学把这样计算所得的统计量称为x与y的相相 关系数关系数(coefficient of correlation),记为r, 即X Y X XYY S r SS (二)相关系数(二)相关系数 第12章一元线性回归与相关 相关系数反映了相关变量x与y的直线相关的程度和性质 -1r1, 若r=-1,为完全负相关完全负相关;

29、 r=+1,为完全正相关完全正相关。 r0,为正相关 r0 b0 b0 第12章一元线性回归与相关 3.指数函数: ) 0( aaxy b xbay :则可将幂函数直线化为lna,alnx,xlny,y令 lnxlnalny两端求自然对数,得axy若 b 对幂函数 2.幂函数: )0( aaeyaey xbbx或 xbaybxay :则可将幂函数直线化为lna,a ,x1xxlny,y令 bxlnalny得 两端求自然对数,aeyaey若对 xbbx 或 或 )(或 或指数函数 x xb 第12章一元线性回归与相关 4. 对数函数: xbaylg xbay则可将其直线化为:lgx,x令 5.

30、Logistic生长曲线: bx ae k y 1 xbay则可将其直线化为: -bblna,a, y y-k lny bx-lna y y-k ln aeae1 bx-bx- 令 对两端取自然对数,得 ,得若将该函数两端取倒数 y yk y k 第12章一元线性回归与相关 三、曲线配合的拟合度检验 相关指数(correlation index) 曲线配合的好坏即所配曲线与实测点吻合的好坏,取 决于离回归平方和 与y的总平方和 比例 的大小,若比例小说明所配曲线与实测点吻合程度高,反 之则低 一般不用剩余方差来衡量曲线拟合度的优劣,而是用 相关指数R2: R2的大小表示了回归曲线拟合度的高低,

31、或者说是表示 了回归方程估测的可靠程度的高低 2 2 2 )( ) ( 1 yy yy R 2 ) (yy 2 )(yy Pearson correlation index 第12章一元线性回归与相关 【例11.5】测定黑龙江雌性鲟鱼体长(cm)和体重(kg),结 果如下表所示,试对鲟鱼体重与体长进行回归分析 序号12345678 体长x 70.7098.25112.5 7 122.4 8 138.4 6 148.0 0 152.0 0 162.0 0 体重y 1.004.856.599.0112.3415.5021.2522.11 【解析】 1. 作散点图,选定曲线类型: 接近幂函数曲线图形

32、,因而 选用进行拟合 鲟鱼体长与体重关系散点图 0 4 8 12 16 20 24 6090120150180 体长cm 体重kg b axy 第12章一元线性回归与相关 xbay :则可将幂函数直线化为lna,alnx,xlny,y 令 2. 对x,y进行直线回归分析: 序号体长x体重y 1 2 3 4 5 6 7 8 70.70 98.25 112.57 122.48 138.46 148.00 152.00 162.00 1.00 4.85 6.59 9.01 12.34 15.50 21.25 22.11 1.8494 1.9923 2.0514 2.0881 2.1413 2.1703 2.1818 2.2095 0 0.6857 0.8189 0.9547 1.0913 1.1903 1.3274 1.3446 1.16305 3.86206 6.34346 8.62909 13.49604 17.20854 18.96637 23.92790 -0.16306 0.98794 0.24654 0.38091 -1.15604 -1.70854 2.28363 -1.81970 xxlgyylg y yy 第12章一元线性回归与相关 根据上表进行下列计算: 系间存在极显著的线性关与表明 时,当 的相关系数为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论