线性相关与回归_第1页
线性相关与回归_第2页
线性相关与回归_第3页
线性相关与回归_第4页
线性相关与回归_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 线性相关与回归线性相关与回归(Linear Correlation & Regression )安徽医科大学安徽医科大学王斌王斌线性相关与回归线性相关与回归第一节第一节 线性相关线性相关第二节第二节 线性回归线性回归第三节第三节 线性相关与回归的区别和联系线性相关与回归的区别和联系第三节第三节 等级相关等级相关一、线性相关的基本概念一、线性相关的基本概念二、线性相关系数二、线性相关系数三、相关系数的显著性检验三、相关系数的显著性检验四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项线性相关线性相关(linear correlation)一、线性相关的基本概念一、线性相关的基

2、本概念 为直观地判断两个变量之间的关系,可在直角坐标系中为直观地判断两个变量之间的关系,可在直角坐标系中把每对(把每对(X Xi i,Y,Yi i)值所代表的点绘出来,形成散点图。例如)值所代表的点绘出来,形成散点图。例如1212名男青年身高与前臂长资料绘制的散点图如图所示:名男青年身高与前臂长资料绘制的散点图如图所示: 身高190180170160150前臂长52504846444240 若一个变量若一个变量X X由小到大(或由大到小),另由小到大(或由大到小),另一变量一变量Y Y亦相应地由小到大或由大到小,则两个亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为变

3、量的散点图呈直线趋势,我们称这种现象为共变,共变,也也就是这两个变量之间有就是这两个变量之间有“相关关系相关关系”。 男青年身高与前臂长散点呈直线趋势,即男男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系我们把这种关系称为直线相关。存在线性相关关系我们把这种关系称为直线相关。 线性相关用于双变量正态资料。它的性质可由散点图线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:之间

4、的密切程度,可分为以下几种情况: 1.1.正相关正相关 2.2.负相关负相关 3.3.无相关无相关 二、线性相关系数二、线性相关系数 在分析两个变量在分析两个变量X X与与Y Y之间关系时,常常要了解之间关系时,常常要了解X X与与Y Y之之间间 有无相关关系,相关是否密切,是呈正相关还是负相有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。密切程度和相关方向的统计量。 皮尔森皮尔森(Pearson)(Pearson)相关系数的计算公式为:相关系数的计算公式为: YYXXXY

5、2i2iXYL .LL)YY()XX()YY)(XX(rr相关系数相关系数r r没有测量单位,其数值为没有测量单位,其数值为-1+1-1+1 r相关系数的计算方法相关系数的计算方法 计算时分别可用下面公式带入相关系数计算时分别可用下面公式带入相关系数r r的的计算公式中计算公式中NYXXYYYXXNYYYYNXXXX222222 例例10.1 10.1 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成样名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长本,分别测量每个男青年的身高和前臂长,身高和前臂长均以均以cmcm为单位,测量结果如下表所示,试计算身高与前为单位

6、,测量结果如下表所示,试计算身高与前臂长之间的相关系数。臂长之间的相关系数。 编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1 170 47 7990 2890022092 173 42 7266 2992917643 160 44 7040 2560019364 155 41 6355 2402516815 173 47 8131 2992922096 188 50 9400 3534425007 178 47 8366 3168422098 183 46 8418 3348921169 180 49 8820 32400240110 165 43 7095 27225184911

7、166 44 3174 285612116合计18915008618532608122810三、相关系数的显著性检验三、相关系数的显著性检验 r 与前面讲的其它统计量一样,根据样本资料与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设计算出来的相关系数同样存在抽样误差。即假设在一个在一个X X与与Y Y无关总体中作随机抽样,由于抽样误无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量因此要判断两个变量X X与与Y Y是否真的存在相关是否真的存在相关关系,仍需根据作总体相关系数

8、关系,仍需根据作总体相关系数是否为零的假是否为零的假设检验。设检验。 r常用的检验方法有两种常用的检验方法有两种: : 1.1.按自由度直接查附表按自由度直接查附表1111的界值表,得到的界值表,得到P P 值。值。2nr10rt2r2 n2.2.用假设检验法,计算统计量用假设检验法,计算统计量 ,其公式为:,其公式为: 例例10.110.1所得的所得的 值检验男青年身高与值检验男青年身高与前臂长之间是否存在相关关系前臂长之间是否存在相关关系? ?r四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 线性相关表示两个变量之间的相互关系是双向的,线性相关表示两个变量之间的相互关系是双向

9、的,分析两个变量之间到底有无相关关系可首先绘制散点分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。图,散点图呈现出直线趋势时,再作分析。 相关系数的计算只适用于两个变量都服从正态分布的相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,情形,如果资料不服从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。使之正态化,再根据变换值计算相关系数。 四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 依据公式计算出的相关系数仅是样本相关系依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的

10、一个估计值,与总体数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假物之间有无相关及相关的密切程度,必须作假设检验。设检验。四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 相关分析是用相关系数来描述两个变量间相相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关伴随的数量关系。决不可因为两

11、事物间的相关系数有统计学意义,就认为两者之间存在着因系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。必须凭借专业知识加以阐明。 一、线性回归的基本概念一、线性回归的基本概念二、线性回归方程的计算二、线性回归方程的计算三、线性回归方程的显著性检验三、线性回归方程的显著性检验四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项第二节第二节 线性回归(线性回归(linear regression)linear regression)一、线性回归的基本概念一、线性回归的基本概念 相关是分析两个正态

12、变量相关是分析两个正态变量X X与与Y Y之间的互相关系。在相关分析之间的互相关系。在相关分析中,分不清中,分不清X X与与Y Y何者为自变量,何者为因变量。现在假设两何者为自变量,何者为因变量。现在假设两个变量个变量X X 、Y Y 中,当一个变量中,当一个变量X X 改变时,另一个变量改变时,另一个变量 Y Y 也也相应地改变,当这样的两个变量之间存在着直线关系时,不相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数仅可以用相关系数 r r 表示变量表示变量Y Y与与X X线性关系的密切程度,线性关系的密切程度,也可以用一个直线方程来表示也可以用一个直线方程来表示 Y Y

13、 与与 X X 的线性关系。的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。性回归关系,这样得出的直线方程叫做线性回归方程。二、线性回归方程的计算二、线性回归方程的计算 例例10.3 10.3 有人研究了温度对蛙的心率的影响,得到了有人研究了温度对蛙的心率的影响,得到了表表10-210-2中所中所示的资料,试进行回归分析示的资料,试进行回归分析。对象对象温度(温度(X X) 心率(心率

14、(Y Y) XY XY X X2 2Y Y2 21 2 5 10 4 252 4 11 44 16 1213 6 11 66 36 1214 8 14 112 64 196510 22 220 100 484612 23 276 144 529714 32 448 1961024816 29 464 256 841918 32 576 32410241020 34 680 40011561122 33 726 4841089合计合计1322463622202466101.1.根据表根据表10-210-2数据绘制散点图,如下图所示数据绘制散点图,如下图所示:温度3020100蛙心律4030201

15、002.2.计算回归系数与常数项计算回归系数与常数项 在本例中: 132X 20242X12X 246Y26610Y 22.363Y 3622XY222()()(132)(246)3622670111.523()132440202411XYXXXYXYlnbXlXn22.3631.523124.087aYbX4.0871.523YX则,回归方程为3. 3. 作回归直线作回归直线三、线性回归方程的显著性检验三、线性回归方程的显著性检验 对线性回归方程要进行假设检验,就是要检验对线性回归方程要进行假设检验,就是要检验b b是否为是否为=0=0的总体中的一个随机样本。该假的总体中的一个随机样本。该假

16、设检验通常用方差分析或者设检验通常用方差分析或者t t检验,两者的检检验,两者的检验效果等价。验效果等价。 线性回归方程的显著性检验线性回归方程的显著性检验- -方差分析方差分析 检验的基本思想检验的基本思想: : 如果如果 X X 与与 Y Y 之间无线性回归关系,之间无线性回归关系, 则则 SSSS回归回归 与与 SSSS剩余剩余 都是其它随机因素对都是其它随机因素对Y Y的的影响,由此描写变异的影响,由此描写变异的 MSMS回归回归 与与 MSMS剩余剩余 应近似应近似相等,总体回归系数相等,总体回归系数=0=0,反之,反之,00。于。于是,可用是,可用 F F 检验对检验对 X X 与

17、与 Y Y 之间有无回归关之间有无回归关系进行检验。系进行检验。回归回归回归SSMS剩余剩余剩余SSMS剩余回归MSMSF对例对例10.310.3的回归方程用方差分析进行假设检验的回归方程用方差分析进行假设检验 (1 1)建立假设检验)建立假设检验 =0=0 00 =0.05 =0.05(2 2)计算统计量)计算统计量SSSS总总SSSS回归回归SSSS剩余剩余= = SSSS总总SSSS回归回归=88.31=88.31222()24666101108.5411YYn23.102044067022XXXYll/1020.23/1103.97/88.31/9MSSSFMSSS回归回归回归剩余剩余

18、剩余(3 3)确定)确定P P值得出统计结论值得出统计结论 查查F F界值表,界值表, V V回归回归 = 1,= 1, V V剩余剩余 = 9= 9, 拒绝拒绝 可以认为温度与蛙的心率之间存在线性回归关系。可以认为温度与蛙的心率之间存在线性回归关系。0.01(1,9)10.56F0.01(1,9)FF0.01P 0H0H方差分析表方差分析表 变异来源SSMSFP总变异1108.5410回 归1020.2311020.23103.97 0.01剩 余 88.319 9.81对例对例10.3的回归方程用的回归方程用t 检验进行假设检验检验进行假设检验(1 1)建立假设检验)建立假设检验 =0=0

19、 00 =0.05 =0.05(2)计算统计量)计算统计量88.313.139Y Xs3.130.149440bs 1.523 010.220.149tV =112=9 (3 3)确定)确定P P值作结论值作结论根据根据 V =9, 0.01/2(9)t3.250, P 0.01,拒绝拒绝H H0 0,结论与结论与F F 检验相同。检验相同。tF 细心的读者可以发现统计量细心的读者可以发现统计量 F F 与与 t t 之间存在着关系之间存在着关系 。本例本例 。tF 103.9710.22 四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 只有将两个内在有联系的变量放在一起进行回归

20、分析才是只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。有意义的。 作回归分析时,如果两个有内在联系的变量之间存在的是作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以一种依存因果的关系,那么应该以“因因”的变量为的变量为X X , ,以以“果果”的变量为的变量为Y Y 。如果变量之间并无因果关系,则应以易。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为于测定、较为稳定或变异较小者为X X 。 在回归分析中,因变量是随机变量,自变量既可以是随机在回归分析中,因变量是随机变量,自变量既可以是随机变量(变量(IIII型回归模型,两个变量应

21、该都服从正态分布),也型回归模型,两个变量应该都服从正态分布),也可以是给定的量(可以是给定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对取值相对应的变量应的变量Y Y必须服从正态分布),如果数据不符合要求,在必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。进行回归分析前,必须先进行变量的变换。四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 回归方程建立后必须作假设检验,只有经假回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。设检验拒绝了无效假设,回归方程才有意义。 使用回归方程计算估计值

22、时,不可把估计的使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之范围扩大到建立方程时的自变量的取值范围之外。外。 第三节第三节线性相关和回归的区别与联线性相关和回归的区别与联系系 一、线性相关与回归的区别一、线性相关与回归的区别 相关系数的计算只适用于两个变量都服从正相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(机变量,自变量既可以是随机变量(IIII型回归型回归模型,两个变量都应该服从正态分布),也可模型,两个变量都应该服从正态分布),也可以是给定的量(以是给

23、定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应的变量取值相对应的变量Y Y必须服从正态分布)。必须服从正态分布)。 线性相关表示两个变量之间的相互关系是双线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,向的,回归则反映两个变量之间的依存关系,是单向的。是单向的。 二、线性相关与回归的联系二、线性相关与回归的联系 如果对同一资料进行相关与回归分析,则得到如果对同一资料进行相关与回归分析,则得到的相关系数的相关系数r r与回归方程中的与回归方程中的b b正负号是相同的。正负号是相同的。 在相关分析中,求出在相关分析中,求出r r后要进

24、行假设检验,同样,后要进行假设检验,同样,在回归分析中,对在回归分析中,对b b也要进行假设检验。实际上,也要进行假设检验。实际上,通过数学推导,对同一样本可以得出通过数学推导,对同一样本可以得出r r与与b b互化的互化的公式,同一样本的这两种假设检验也是等价的。公式,同一样本的这两种假设检验也是等价的。因此,由于因此,由于r r的假设检验可以直接查表,较为简的假设检验可以直接查表,较为简单,所以可以用其代替对单,所以可以用其代替对b b的假设检验。的假设检验。 相关回归可以互相解释。相关回归可以互相解释。总回归SSSSll/llllrRYYXX2XYYYXX2XY22R R 的平方称为确定

25、系数的平方称为确定系数 (coefficient of determinationcoefficient of determination)应用确定系数,也可以从回归的角度对相关程度做应用确定系数,也可以从回归的角度对相关程度做进一步的了解。进一步的了解。二、线性相关与回归的联系二、线性相关与回归的联系 第四节第四节 等级相关等级相关n如果观测值是等级资料,则可以用等级相关来如果观测值是等级资料,则可以用等级相关来 表达两事物之间的关系。表达两事物之间的关系。n等级相关是分析等级相关是分析X X、Y Y 两变量等级间是否相关的一种非两变量等级间是否相关的一种非参数方法。参数方法。n常用的等级相

26、关方法是常用的等级相关方法是SpearmanSpearman等级相关。等级相关。n与线性相关系数与线性相关系数r r 一样,等级相关系数一样,等级相关系数 r rs s的数值亦在的数值亦在 -1-1与与 +1+1之间,数值为正表示正相关,数值为负表示负之间,数值为正表示正相关,数值为负表示负相关。相关。 一、等级相关系数的计算一、等级相关系数的计算 Spearman Spearman 等级相关系数等级相关系数 r rs s 可由公式计算可由公式计算)1(6122nndrs式中,式中,n n 表示样本含量;表示样本含量; d d 表示表示 X X、Y Y 的秩次之差。的秩次之差。例例10.4 1

27、0.4 某医生做一种研究,欲了解人群中氟骨症患病率(某医生做一种研究,欲了解人群中氟骨症患病率(% %)与饮用水中)与饮用水中氟含量(氟含量(mg/lmg/l)之间的关系。随机观察)之间的关系。随机观察8 8个地区氟骨症患病率与饮用水中氟个地区氟骨症患病率与饮用水中氟含量,数据如表含量,数据如表10-410-4(2 2)、()、(4 4)两栏。试计算等级相关系数)两栏。试计算等级相关系数r rs s。2.差数d,见(6)栏,注意 0d3.算d2见(7)栏,本例 5 .122d4.代入公式(10-18)计算 rs85.018812.5612)(sr若资料中相同观察值的例数较多时,计算的结果偏差较大,若资料中相同观察值的例数较多时,计算的结果偏差较大,此时可由公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论