第十章相关和回归_第1页
第十章相关和回归_第2页
第十章相关和回归_第3页
第十章相关和回归_第4页
第十章相关和回归_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章第十章 一元线性回归分析与相关分析一元线性回归分析与相关分析10.1 回归与相关关系回归与相关关系 回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。 在现实问题中,处于同一个过程中的一些变量,在现实问题中,处于同一个过程中的一些变量,

2、往往是相互依赖和相互制约的,它们之间的相互关系往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:大致可分为两种: 相关关系问题相关关系问题 (1 1)确定性关系)确定性关系函数关系;函数关系; (2 2)非确定性关系)非确定性关系相关关系;相关关系; 相关关系表现为这些变量之间有一定的依赖关,但这种关相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。这些变量其实是随机变量,或至少有一个是随机变量。相关和回归分析是生物学研究中

3、最为常用的统计分析方法之一。相关和回归分析是生物学研究中最为常用的统计分析方法之一。10.2 相关和回归分析基本概念回归分析(Regression Analysis)是研究一个依变数与一个或多个自变数之间数量关系的统计方法。在建立(线性)回归模型的条件下,以离回归平方和最小(最小二乘法)为目标求解模型统计数,获得优化回归方程和离回归标准误。从而能依据自变数x的数据对目标变数y进行预测或插值。相关分析(Correlation Analysis)是用来考察两个变量间(x与y)的相互变化的关联关系,x与y的地位是平等的,两变量间没有因果关系。回归分析依自变数个数的多少分为一元回归和多元回归;依依变数

4、和自变数之间关系的性质分为线性回归和非线性回归。相关分析计算反映各个变数之间相关密切程度和性质的统计数。线性相关和回归分析的SAS过程主要有相关分析(CORR)、回归分析(REG)和广义线性模型(GLM)。 相关关系举例相关关系举例 例如:在气候、土壤、水利、种子和耕作技术等条件基本例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量相同时,某农作物的亩产量 Y Y 与施肥量与施肥量 X X 之间有一定的关系,之间有一定的关系,但施肥量相同,亩产量却不一定相同。但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。亩产量是一个随机变量。 又如:人的血压又如:人的血压 Y

5、 Y 与年龄与年龄 X X 之间有一定的依赖关系,一之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。一定相等。血压是一个随机变量。血压是一个随机变量。 农作物的亩产量与施肥量、血压与年龄之间的这农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,论相关关系问题中,可控变量称为自变量,不可控变可控变量称为自变量,不

6、可控变量称为因变量或响应变量。量称为因变量或响应变量。函数关系与相关关系的区别函数关系与相关关系的区别 相关关系相关关系x影响影响Y的值,的值,xY函数关系函数关系唯一决定唯一决定的值,的值, 因此,统计学上讨论两变量的相关关系时,是设法因此,统计学上讨论两变量的相关关系时,是设法确定:在给定自变量确定:在给定自变量 的条件下,因变量的条件下,因变量 的的条件数学期望条件数学期望xX Y(| )E Y x不能唯一确定。不能唯一确定。10.3 一元线性相关1.回答两个变量间的线性关系有多么密切?2.利用相关系数 :总体相关系数总体相关系数 的值在的值在 1 1 与与 1 1 之间之间度量线性相关

7、的程度度量线性相关的程度)()(),(YVarXVarYXCOV3.样本的相关系数用样本的相关系数用r表示表示,r的值在的值在 1 与与 1 之间之间相关系数的值相关系数的值相关系数的值相关系数的值相关系数的值相关系数取值相关系数实例Y YX XY YX XY YX XY YX Xr = 1r = -1r = .89r = 0判定判定两变量两变量线性相关程度线性相关程度 简单相关系数简单相关系数一般地一般地,|r| 越接近越接近 1 ,X 与与Y 的关系越密切的关系越密切,但严格的意义上要作但严格的意义上要作相关系数的显著性测验相关系数的显著性测验,设零假设为设零假设为X 与与Y没有线性相关关

8、系,没有线性相关关系,则对给定的检验水平则对给定的检验水平 ,查以,查以df=n2相关系数检验表得拒绝域相关系数检验表得拒绝域 ,则相关关系在给定的检验水平,则相关关系在给定的检验水平下下,有统计意义;否则没有显著性的相关关系有统计意义;否则没有显著性的相关关系. )2(nrr若若相关系数检验1.检验两个变量之间是否存在线性关系2.跟检验总体斜率1有同样的结论3. 假设零假设零假设H0: = 0 (不相关)(不相关) 备择假设备择假设Ha: 0 (相关)(相关)例例10-1:试求橡胶树幼苗期刺检干胶量与正式割试求橡胶树幼苗期刺检干胶量与正式割胶量之间的相关系数。胶量之间的相关系数。刺检干胶量(

9、x毫克)与正式割胶量(y克)数据如下x 77 64 62 72 71 83 79 94 104 96 61y 8.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9x 90 81 122 65 130 111 160 188 81 92y 8.1 12.0 15.7 11.9 11.1 6.5 15.3 17.7 5.9 10.6x 80 63 105 89 73y 8.3 6.0 8.5 10.1 3.5 样本样本n=26, , , , , 代入公式得代入公式得 查相关系数显著性表,得在检验水平为查相关系数显著性表,得在检验水平为0.01 临界值为临界值为0.

10、4959 ,因,因0.71020.4959 ,故推断为相关关系极具显著性。故推断为相关关系极具显著性。 由由 10.4 一元线性回归的SAS实现一、REG过程u1. 语句格式uProc reg data= 数据集名 【选项】u选项u(1)data=指定分析的sas数据集u(2)outest=输出数据集u(3)outsscp=输出相关矩阵u(4)model 因变量=自变量、【选择项】u例例10-1Data ex; input x y ;Cards;778.8908.1808.3647.98112636628.912215.71058.5727.76511.98910.1718.613011.17

11、33.5838.11116.5967.6799.116015.3614.9945.618817.79210.61048.5815.9;Proc reg; model y=x/xpx I; Run;F=24.42,P0.05,说明回归方程在0.05水平上有意义,R2=0.5044,表明回归模型较好。回归方程:y=1.9683+0.0776x,回归系数t检验,t=4.94,P |r| under H0: Rho=0 x y x 1.00000 0.71019 .0001 y 0.71019 1.00000 .0001因为P=0.0010.01,故拒绝相关系数r=0的原假设.例题例题10-210-2

12、 许多害虫的发生都和气象条件有一定的关系。许多害虫的发生都和气象条件有一定的关系。1964197319641973年年1010年间测定年间测定7 7月下旬的温雨系数月下旬的温雨系数( (雨量雨量mm/mm/平均平均温度温度) )和大豆第二代造桥虫发生量和大豆第二代造桥虫发生量( (每百株大豆上的虫数每百株大豆上的虫数) )的关系如下表,试求相关系数。的关系如下表,试求相关系数。温雨系数温雨系数虫口密度虫口密度温雨系数温雨系数虫口密度虫口密度1.581.581801802.412.411751759.989.98282811.0111.0140409.429.4225251.851.851601

13、601.251.251171176.046.041201200.30.31651655.925.928080data new2;input x y ;cards;1.58 180 2.41 175 9.98 28 11.01 40 9.42 25 1.85 160 1.25 117 6.04 120 0.3 165 5.92 80;proc corr;var x y;run;基本概念协方差分析解决的问题为多组(多个处理)x, y双变数资料,其自变数(协同变数)x往往对目标变数y有一定的线性回归效应。协方差分析是把线性回归与方差分析结合起来,检验两个或多个修正均数间有无差别的方法。如研究不同的饲

14、料对动物体重的增长情况,但每只动物的进食量是不同的,对体重的增长是有影响的,进食量即为混杂因素,亦称为协变量。协方差分析检验的意义是,用直线回归的方法找出食量(协变量x)与所增体重(应变量y)的线性关系,求得当食量化为相等时(即扣除食量的影响),各饲料组动物所增体重的修正均数,然后用方差分析检验各修正均数间的差别。要真正反映目标变数y的处理效应,应先将不易控制的自变数x对目标变数y的影响剔除,再进行方差分析,这种分析即是协方差分析。利用回归分析的原理分析目标变数y与自变数x之间的关系,从而将方差分析和相关、回归分析结合起来。简单的说,协方差分析是扣除协变量影响,再对修正y的均值进行方差分析。协

15、方差分析的SAS过程为广义线性模型(GLM)。例例8:为研究:为研究A、B、C三种肥料对于苹果树三种肥料对于苹果树的增产效果,选了的增产效果,选了24株同龄的苹果树,记下各树株同龄的苹果树,记下各树基础生产力基础生产力(上年度的产量,上年度的产量,X),将每种肥料随,将每种肥料随机施于机施于8株苹果树上,记下当年产量株苹果树上,记下当年产量(Y,公斤,公斤)。得结果于下表。试作协方差分析。得结果于下表。试作协方差分析。 肥料肥料变数变数观察值观察值AX:4758534649565444Y:5466635156666150BX:5253645859616366Y:5453676262636469

16、CX:4448465059575853Y:5258546170646866分析方法先对x、y进行方差分析,检验其差异显著性,然后对处理内(误差)项做回归分析,测验去除处理影响的x与y是否存在显著的线性回归关系。若无,表明x对y无影响,对y作方差分析即能说明3种肥料对苹果树产量的效应差异显著性。若x和y之间存在线性回归关系,说明基础生产力对来年产量有影响,不能用原有的y值进行方差分析,必须消去x的不同对y带来的影响,即通过求y依x的线性回归方程,将各处理的yi都矫正到x在同一水平时的值。最后对矫正平均数作方差分析,比较3种肥料对苹果树产量的影响有无显著差异。GLM过程过程格式PROC GLM 选

17、项;CLASS 变量表;MODEL 依变量=效应/选项;MEANS 效应/选项;LSMEANS 效应/选项;RUN;语句说明PROC GLM语句选项为可设定分析数据集等。CLASS 语句指明分类变量,协方差分析时必须设立,且必须出现在MODEL语句之前。MODEL 语句定义协方差分析的线性数学模型。例如:MODEL y=a t;选项SOLUTION给出参数的估计值。MEANS 语句用于计算依变量的平均数。选项用于多重比较。LSMEANS 语句计算效应的最小二乘估计的平均数(LSM)。选项E=效应,设定测验误差项,缺省为试验分析误差。STDERR给出LSM的标准误。TDIFF,PDIFF要求显示

18、测验H0:LSM(i)=LSM(j)的t值和概率值。结果输出包括依变量的方差分析表、参数估计值和最小二乘估计的平均数等。例 程序1data xfc;do a=1 to 3; do i=1 to 8;input x y ;output ;end;end;cards;47 54 58 66 53 63 46 51 49 56 56 6654 61 44 50 52 54 53 53 64 67 58 6259 62 61 63 63 64 66 69 44 52 48 5846 54 50 61 59 70 57 64 58 69 53 66;proc print;proc glm;class a;model y=x a/solution;/*指定协方差分析模型,SOLUTION给出参数的估计值*/means a/t; /*计算a各个水平均值,用t检验进行多重比较*/lsmeans a/stderr pdiff tdi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论