线性相关与回归教案课件_第1页
线性相关与回归教案课件_第2页
线性相关与回归教案课件_第3页
线性相关与回归教案课件_第4页
线性相关与回归教案课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性相关与回归线性相关与回归1一、线性相关的基本概念二、线性相关系数三、相关系数的显著性检验四、进行线性相关分析的注意事项第一节线性相关(linearcorrelation)第1页/共43页一、线性相关的基本概念第一节线性相关(linearco2

例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810第2页/共43页例从男青年总体中随机抽取11名男青年组成样本,编号身高3一、线性相关的基本概念

为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图如图所示:

第3页/共43页一、线性相关的基本概念为直观地判断两个变量之间的4

若一个变量X由小到大(或由大到小),另一变量Y亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有“相关关系”。

男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。第4页/共43页若一个变量X由小到大(或由大到小),另第4页/共435

线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:

1.正相关2.负相关3.无相关第5页/共43页线性相关用于双变量正态资料。它的性质可由散点图直观地6二、线性相关系数

在分析两个变量X与Y之间关系时,常常要了解X与Y之间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。皮尔森(Pearson)相关系数的计算公式为:

相关系数r没有测量单位,其数值为-1≤r

≤1

第6页/共43页二、线性相关系数在分析两个变量X与Y之间关系时,常常要了7相关系数的计算方法

计算时分别可用下面公式带入相关系数r的计算公式中第7页/共43页相关系数的计算方法

计算时分别可用下面公式带入相8

例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。

编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810第8页/共43页例从男青年总体中随机抽取11名男青年组成样本,编号身高9第9页/共43页第9页/共43页10三、相关系数的显著性检验

与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。

第10页/共43页三、相关系数的显著性检验与前面讲的其它统计量一样,根11常用的检验方法有两种:

1.按自由度直接查附表11的界值表,得到P值。2.用假设检验法,计算统计量,其公式为:第11页/共43页常用的检验方法有两种:1.按自由度直接查附表11的界值表,12

例10.1所得的r值检验男青年身高与前臂长之间是否存在相关关系?第12页/共43页例10.1所得的r值检验男青年身高与第12页/共13第13页/共43页第13页/共43页14第14页/共43页第14页/共43页15四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。⒉相关分析要求x、y是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。第15页/共43页四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间16四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。第16页/共43页四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数17四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。

第17页/共43页四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描18出现异常值时慎用相关分层资料盲目合并易出假象第18页/共43页出现异常值时慎用相关分层资料盲目合并易出假象第18页/共4319一、线性回归的基本概念二、线性回归方程的计算三、线性回归方程的显著性检验四、进行线性回归分析的注意事项第二节线性回归(linearregression)第19页/共43页一、线性回归的基本概念第二节线性回归(linearreg20一、线性回归的基本概念

相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X、Y中,当一个变量X改变时,另一个变量Y也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示Y与X的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程linearregressionequation。第20页/共43页一、线性回归的基本概念相关是分析两个正态变量X与Y之间的21第21页/共43页第21页/共43页22a为回归直线在Y轴上的截距

x

取0时,y

的平均估计值

a>0,表示直线与纵轴的交点在原点的上方

a<0,则交点在原点的下方

a=0,则回归直线通过原点第22页/共43页a为回归直线在Y轴上的截距

x取0时,23b为回归系数,即直线的斜率

b>0,直线从左下方走向右上方,Y随X增大而增大

b<0,直线从左上方走向右下方,Y随X增大而减小

b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位第23页/共43页b为回归系数,即直线的斜率b>0,直线从左下方走向右上方,24最小二乘法原理:各点到回归线的纵向距离的平方和最小。直线回归Methodofleastsquare使计算出的回归直线最能代表实测数据所反映出的直线趋势第24页/共43页最小二乘法原理:直线回归Methodofleastsq25二、线性回归方程的计算

例10.3有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。对象温度(X)

心率(Y)XYX2Y212510425241144161213611663612148141126419651022220100484612232761445297143244819610248162946425684191832576324102410203468040011561122337264841089合计132246362220246610第25页/共43页二、线性回归方程的计算例10.3有人研究了温度对蛙26根据表10-2数据绘制散点图,如下图所示:第26页/共43页根据表10-2数据绘制散点图,如下图所示:第26页/共43页272.计算回归系数与常数项

在本例中:

则,回归方程为第27页/共43页2.计算回归系数与常数项在本例中:则,回归方程为第27283.作回归直线第28页/共43页3.作回归直线第28页/共43页29第29页/共43页第29页/共43页30三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。

第30页/共43页三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就31

H0:β=0(两变量之间无直线关系)

H1:β≠0α=0.05

ν=n-2第31页/共43页H0:β=0(两变量之间无直线关系)ν=n-2第332对例10.3的回归方程用t检验进行假设检验(1)建立假设检验

β=0β≠0α=0.05(2)计算统计量V=11-2=9

(3)确定P值作结论根据

V=9,

3.250,P<0.01,拒绝H0,第32页/共43页对例10.3的回归方程用t检验进行假设检验(1)建立假设检33直线回归方程的应用1.描述两个变量之间的数量依存关系。2.利用回归方程进行预测(1)由现在已知的变量值预测将来未知的变量值

(父母身高预测子女身高)(2)由易测的变量值估算难测的变量值

(体重预测体表面积)3.利用回归方程进行控制

利用回归方程进行逆估计第33页/共43页直线回归方程的应用1.描述两个变量之间的数量依存关系。第334

四、进行线性回归分析的注意事项⒈只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。⒉作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果”的变量为Y。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X。⒊在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。第34页/共43页四、进行线性回归分析的注意事项⒈只有将两个内在有联35四、进行线性回归分析的注意事项⒋回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。⒌使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。

第35页/共43页四、进行线性回归分析的注意事项⒋回归方程建立后必须作假设检36

第三节线性相关和回归的区别与联系

1.应用情况不同说明两变量依存变化的数量关系用回归说明两变量间的相关关系用相关区别第36页/共43页第三节区别第36页/共43页372.资料要求不同回归:Ⅰ型回归y是随机正态变量,

x是一般变量,可以精确测量和控制的变量

Ⅱ型回归双变量均为随机正态变量,可计算两个回归方程由x推y的回归方程由y推x的回归方程相关:双变量均为随机正态变量区别第37页/共43页2.资料要求不同区别第37页/共43页383.意义:

b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。4.计算:5.取值范围:-∞<b<+∞;-1≤r≤1区别第38页/共43页3.意义:区别第38页/共43页391.假设检验等价对同一样本,r和b的假设检验得到的t值是相等的,实际应用中常以r的假设检验代替b的假设检验。2.方向一致对一组数据,若同时计算b、r,则它们的正负号是一致的联系第39页/共43页1.假设检验等价联系第39页/共43页40一、线性相关与回归的区别⒈相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X取值相对应的变量Y必须服从正态分布)。⒉线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。第40页/共43页一、线性相关与回归的区别⒈相关系数的计算只适用于两个变量都41二、线性相关与回归的联系⒊如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。⒋在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。第41页/共43页二、线性相关与回归的联系⒊如果对同一资料进行相关与回归分析42⒌相关回归可以互相解释。R的平方称为确定系数(coefficientofdetermination)应用确定系数,也可以从回归的角度对相关程度做进一步的了解。二、线性相关与回归的联系第42页/共43页⒌相关回归可以互相解释。R的平方称为确定系数应用确定系数43线性相关与回归线性相关与回归44一、线性相关的基本概念二、线性相关系数三、相关系数的显著性检验四、进行线性相关分析的注意事项第一节线性相关(linearcorrelation)第1页/共43页一、线性相关的基本概念第一节线性相关(linearco45

例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810第2页/共43页例从男青年总体中随机抽取11名男青年组成样本,编号身高46一、线性相关的基本概念

为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图如图所示:

第3页/共43页一、线性相关的基本概念为直观地判断两个变量之间的47

若一个变量X由小到大(或由大到小),另一变量Y亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有“相关关系”。

男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。第4页/共43页若一个变量X由小到大(或由大到小),另第4页/共4348

线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:

1.正相关2.负相关3.无相关第5页/共43页线性相关用于双变量正态资料。它的性质可由散点图直观地49二、线性相关系数

在分析两个变量X与Y之间关系时,常常要了解X与Y之间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。皮尔森(Pearson)相关系数的计算公式为:

相关系数r没有测量单位,其数值为-1≤r

≤1

第6页/共43页二、线性相关系数在分析两个变量X与Y之间关系时,常常要了50相关系数的计算方法

计算时分别可用下面公式带入相关系数r的计算公式中第7页/共43页相关系数的计算方法

计算时分别可用下面公式带入相51

例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。

编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810第8页/共43页例从男青年总体中随机抽取11名男青年组成样本,编号身高52第9页/共43页第9页/共43页53三、相关系数的显著性检验

与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。

第10页/共43页三、相关系数的显著性检验与前面讲的其它统计量一样,根54常用的检验方法有两种:

1.按自由度直接查附表11的界值表,得到P值。2.用假设检验法,计算统计量,其公式为:第11页/共43页常用的检验方法有两种:1.按自由度直接查附表11的界值表,55

例10.1所得的r值检验男青年身高与前臂长之间是否存在相关关系?第12页/共43页例10.1所得的r值检验男青年身高与第12页/共56第13页/共43页第13页/共43页57第14页/共43页第14页/共43页58四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。⒉相关分析要求x、y是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。第15页/共43页四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间59四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。第16页/共43页四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数60四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。

第17页/共43页四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描61出现异常值时慎用相关分层资料盲目合并易出假象第18页/共43页出现异常值时慎用相关分层资料盲目合并易出假象第18页/共4362一、线性回归的基本概念二、线性回归方程的计算三、线性回归方程的显著性检验四、进行线性回归分析的注意事项第二节线性回归(linearregression)第19页/共43页一、线性回归的基本概念第二节线性回归(linearreg63一、线性回归的基本概念

相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X、Y中,当一个变量X改变时,另一个变量Y也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示Y与X的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程linearregressionequation。第20页/共43页一、线性回归的基本概念相关是分析两个正态变量X与Y之间的64第21页/共43页第21页/共43页65a为回归直线在Y轴上的截距

x

取0时,y

的平均估计值

a>0,表示直线与纵轴的交点在原点的上方

a<0,则交点在原点的下方

a=0,则回归直线通过原点第22页/共43页a为回归直线在Y轴上的截距

x取0时,66b为回归系数,即直线的斜率

b>0,直线从左下方走向右上方,Y随X增大而增大

b<0,直线从左上方走向右下方,Y随X增大而减小

b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位第23页/共43页b为回归系数,即直线的斜率b>0,直线从左下方走向右上方,67最小二乘法原理:各点到回归线的纵向距离的平方和最小。直线回归Methodofleastsquare使计算出的回归直线最能代表实测数据所反映出的直线趋势第24页/共43页最小二乘法原理:直线回归Methodofleastsq68二、线性回归方程的计算

例10.3有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。对象温度(X)

心率(Y)XYX2Y212510425241144161213611663612148141126419651022220100484612232761445297143244819610248162946425684191832576324102410203468040011561122337264841089合计132246362220246610第25页/共43页二、线性回归方程的计算例10.3有人研究了温度对蛙69根据表10-2数据绘制散点图,如下图所示:第26页/共43页根据表10-2数据绘制散点图,如下图所示:第26页/共43页702.计算回归系数与常数项

在本例中:

则,回归方程为第27页/共43页2.计算回归系数与常数项在本例中:则,回归方程为第27713.作回归直线第28页/共43页3.作回归直线第28页/共43页72第29页/共43页第29页/共43页73三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。

第30页/共43页三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就74

H0:β=0(两变量之间无直线关系)

H1:β≠0α=0.05

ν=n-2第31页/共43页H0:β=0(两变量之间无直线关系)ν=n-2第375对例10.3的回归方程用t检验进行假设检验(1)建立假设检验

β=0β≠0α=0.05(2)计算统计量V=11-2=9

(3)确定P值作结论根据

V=9,

3.250,P<0.01,拒绝H0,第32页/共43页对例10.3的回归方程用t检验进行假设检验(1)建立假设检76直线回归方程的应用1.描述两个变量之间的数量依存关系。2.利用回归方程进行预测(1)由现在已知的变量值预测将来未知的变量值

(父母身高预测子女身高)(2)由易测的变量值估算难测的变量值

(体重预测体表面积)3.利用回归方程进行控制

利用回归方程进行逆估计第33页/共43页直线回归方程的应用1.描述两个变量之间的数量依存关系。第377

四、进行线性回归分析的注意事项⒈只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。⒉作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果”的变量为Y。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X。⒊在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。第34页/共43页四、进行线性回归分析的注意事项⒈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论