第八章相关与回归分析_第1页
第八章相关与回归分析_第2页
第八章相关与回归分析_第3页
第八章相关与回归分析_第4页
第八章相关与回归分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章第八章 相关与回归分析相关与回归分析 本本 章章 重重 点点1 1、判断相关关系的方法、判断相关关系的方法2 2、相关系数的计算及其判断标准、相关系数的计算及其判断标准3 3、一元线性回归方程的求解、一元线性回归方程的求解1 1 相关的意义和种类相关的意义和种类一、相关关系的概念一、相关关系的概念函数关系:函数关系是一种严格的依存函数关系:函数关系是一种严格的依存关系,这种关系可以用关系,这种关系可以用y = fy = f(x x)的方)的方程来表现。程来表现。 (一对一的关系)(一对一的关系)设有两个变量设有两个变量x x和和y y ,变量变量y y 随变量随变量x x 一起变一起变化

2、化, ,并完全依赖于并完全依赖于x x , ,当当变量变量x x 取某个数值时,取某个数值时,y y 依确定的关系取相应依确定的关系取相应的值的值, ,则称则称y y 是是 x x 的函的函数,记为数,记为y y = = f f ( (x x) ),其中其中x x 称为自变量,称为自变量,y y 称为因变量称为因变量是一一对应的确定关系是一一对应的确定关系各观测点落在一条线上各观测点落在一条线上 变量间关系不能用变量间关系不能用函数关系精确表达函数关系精确表达一个变量的取值不一个变量的取值不能由另一个变量唯能由另一个变量唯一确定一确定当变量当变量 x x 取某个值取某个值时,变量时,变量 y

3、y 的取值的取值可能有几个可能有几个相关关系:相关关系是一种不完全确相关关系:相关关系是一种不完全确定的随机关系。(一对多的关系)定的随机关系。(一对多的关系)二、相关的种类二、相关的种类按相关程度划分:按相关程度划分:1 1、完全相关:指某变量的变化,另一变量、完全相关:指某变量的变化,另一变量有一确定的值对它对应。(函数);有一确定的值对它对应。(函数);2 2、不完全相关:指两个变量之间有数量联、不完全相关:指两个变量之间有数量联系,但是数量是不确定的关系。系,但是数量是不确定的关系。3 3、零相关:指两个现象在数量上完全独立,、零相关:指两个现象在数量上完全独立,在一定的形式下,互不影

4、响,互不相干的在一定的形式下,互不影响,互不相干的关系。关系。(“零相关零相关”不能称为不能称为“不相关不相关”,因为事,因为事物的联系是绝对的,而孤立是相对的,只物的联系是绝对的,而孤立是相对的,只有在某种形式下它才能互不影响互不相有在某种形式下它才能互不影响互不相干。)干。)按相关的方向划分按相关的方向划分:1 1、正相关:指两个变量按照相同的变、正相关:指两个变量按照相同的变量变化。或者说某个现象的数量增加,量变化。或者说某个现象的数量增加,另一个现象的数量增加的现象。另一个现象的数量增加的现象。2 2、负相关:指两个变量按照相反的方、负相关:指两个变量按照相反的方向变化,或者说某个现象

5、的数量增加,向变化,或者说某个现象的数量增加,另一个现象的数量减少的现象。另一个现象的数量减少的现象。按相关形式划分:按相关形式划分: 1 1、线性相关:指两个变量之间呈线性、线性相关:指两个变量之间呈线性关系的相关。关系的相关。 2 2、非线性相关:指变量之间的关系、非线性相关:指变量之间的关系为非线性的相关关系。为非线性的相关关系。按变量多少划分:按变量多少划分:1 1、单相关:指两个因素之间的相关关系。、单相关:指两个因素之间的相关关系。2 2、复(多元)相关:反映一个变量与其、复(多元)相关:反映一个变量与其他多个因素之间的相关关系。他多个因素之间的相关关系。3 3、偏相关:指在某一现

6、象和多种现象相、偏相关:指在某一现象和多种现象相关的场合,假定其他变量不变,其中关的场合,假定其他变量不变,其中的两个变量间的相关关系。的两个变量间的相关关系。按相关性质划分:按相关性质划分:1 1、真实相关:现象之间确实具有内在、真实相关:现象之间确实具有内在联系的相关。联系的相关。2 2、虚假相关:现象之间只是表面存在,、虚假相关:现象之间只是表面存在,实质上并没有内在联系的相关。实质上并没有内在联系的相关。(精神病患者(精神病患者GDPGDP人口总量)人口总量)1 1、按相关的程度划分、按相关的程度划分完全相关完全相关不完全相关不完全相关无相关无相关2 2、按相关的方向划分、按相关的方向

7、划分正相关正相关负相关负相关3 3、按相关的形式划分、按相关的形式划分线性相关线性相关非线性相关非线性相关4 4、按影响因素的多少划分、按影响因素的多少划分单相关单相关复相关复相关三三、相关分析的内容:、相关分析的内容:1 1、确定现象之间有无关系,以及相关、确定现象之间有无关系,以及相关的形态。的形态。(相关图、表)(相关图、表)2 2、确定相关关系的密切程度。、确定相关关系的密切程度。(相关(相关系数)系数)3 3、选择合适的数学模型。、选择合适的数学模型。(建立回归(建立回归方程)方程)4 4、测定变量估计值的可靠程度。、测定变量估计值的可靠程度。(估(估计标准误差)计标准误差)2 2

8、简单线性相关分析简单线性相关分析一、相一、相 关关 表表主要有定性判断、相关表、相关图、相关系数。主要有定性判断、相关表、相关图、相关系数。 它是把取得的数据以表的形式显示出来,据此它是把取得的数据以表的形式显示出来,据此观察变量的走势是否有关,从而判断有无相关关观察变量的走势是否有关,从而判断有无相关关系的方法。系的方法。(一)简单相关表(一)简单相关表 其中一个变量的值按顺序排列,将两个变其中一个变量的值按顺序排列,将两个变量的值一一对应地填列在同一张表格上,即量的值一一对应地填列在同一张表格上,即形成简单相关表。形成简单相关表。适用于项目较少的情况。适用于项目较少的情况。表表1 1 家庭

9、人均月收入与家庭人均月支出简单相关表家庭人均月收入与家庭人均月支出简单相关表 家庭人均月收入(元)家庭人均月收入(元) 家庭人均月支出(元)家庭人均月支出(元)515515480480515515490490519519500500530530500500530530506506530530510510570570520520570570540540600600560560680680590590(二)分组相关表(二)分组相关表 1 1、单变量分组相关表、单变量分组相关表 它是一个变量分组,另一个变量不分它是一个变量分组,另一个变量不分组的相关表。组的相关表。 表表2 2 家庭人均月收入与家庭

10、人均月支出家庭人均月收入与家庭人均月支出单变量分组相关表单变量分组相关表 家庭人均月收入家庭人均月收入(元)(元) 户数户数家庭人均月支出家庭人均月支出(元)(元) 5155152 24854855195191 15005005305303 3 505 5053 3 5705702 25305306006001 15605606806801 15905902 2、双变量分组相关表、双变量分组相关表它是两个变量都分组的相关表。它是两个变量都分组的相关表。表表3 3 家庭人均月收入与家庭人均月支出家庭人均月收入与家庭人均月支出双变量分组相关表双变量分组相关表家庭人均月家庭人均月支出(元)支出(元)

11、 家庭人均月收入(元)家庭人均月收入(元) 合计合计 510510570 570 570570630 630 630630690 690 475475500 500 2 22 2500500525 525 4 41 15 5525525550 550 1 11 1550550575 575 1 11 1575575600 600 1 11 1合计合计6 63 31 11010二、相关图二、相关图可通过可通过ExcelExcel绘制相关图(散点图)。绘制相关图(散点图)。三、相关系数三、相关系数 (简单相关系数(简单相关系数 )相关系数可以测定变量之间相关的密切相关系数可以测定变量之间相关的密切

12、程度。程度。r(一)原始公式及判断标准(一)原始公式及判断标准 1 1、原始公式、原始公式 yxNyyxxr它是著名英国统计学家卡尔它是著名英国统计学家卡尔. .皮尔逊设计的。皮尔逊设计的。 以上公式中,除去以上公式中,除去 、 ,剩下的,剩下的叫做叫做x x与与y y的协方差,用的协方差,用COVCOV或或 表示。表示。 xy2xy所以所以 ,yxxy2协方差的作用:协方差的作用:显示显示 x x 与与 y y 是正相关,还是负相关。相是正相关,还是负相关。相关系数的正负完全取决于协方差的正负。关系数的正负完全取决于协方差的正负。显示显示 x x 与与 y y 相关程度的大小。相关程度的大小

13、。 协方差的绝对值小,表示相关程度低;协方差的绝对值小,表示相关程度低;协方差的绝对值大,表示相关程度高。协方差的绝对值大,表示相关程度高。 但但x x与与y y的协方差是名数,不同现象的协方差是名数,不同现象的变异情况不同,相关程度不能直接以的变异情况不同,相关程度不能直接以协方差大小加以比较。需要以协方差大小加以比较。需要以x x与与y y的标的标准差加以标准化,使协方差化为无名数,准差加以标准化,使协方差化为无名数,使相关系数可以比较不同现象相关程度使相关系数可以比较不同现象相关程度的高低。而且以的高低。而且以x x与与y y的标准差加以标准的标准差加以标准化以后,使相关系数的绝对值不超

14、过化以后,使相关系数的绝对值不超过1 1。标准差的作用标准差的作用2 2、判断标准、判断标准(2 2)相关系数的取值范围在)相关系数的取值范围在-1-1至至1 1 之间。之间。 其值大小反映两变量之间相关的密切程度,其值大小反映两变量之间相关的密切程度,(1 1)相关系数有正负号,分别表示正相关)相关系数有正负号,分别表示正相关和负相关。和负相关。(3 3)1表明两变量完全直线相关;表明两变量完全直线相关;表明两变量不存在表明两变量不存在直线直线相关;相关;03 3、习题:试证明完全正直线相关时,、习题:试证明完全正直线相关时,r r等等于于1 1;完全负直线相关时,;完全负直线相关时,r r

15、等于等于-1-1。 2222 yynxxnyxxyn(二)常用计算公式(二)常用计算公式 由由xnxnx22ynyny222xynynxnxyyyxxyxxyr22221 1、2 2、相关系数计算分析例题相关系数计算分析例题 880 880 36.4 36.4 62 62 86 86 80 80 110 110 115 115 132 132 135 135 160 160 1.2 1.2 2.0 2.0 3.1 3.1 3.8 3.8 5.0 5.0 6.1 6.1 7.2 7.2 8.0 8.0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8生产费用生产费用 月产量月产量序

16、序 号号xy2x2yxy1.441.444.004.009.619.6114.4414.4425.0025.0017.2117.2151.8451.8464.0064.00207.54207.543844384473967396640064001210012100132251322517424174241822518225256002560010421410421474.474.4172.0172.0248.0248.0418.0418.0575.0575.0805.2805.2972.0972.01280.01280.04544.64544.6例:例:7-2-17-2-1,54.207, 8

17、,880, 4 .362xnyx6 .4544,1042142xyy根据计算结果可知:根据计算结果可知:则相关系数为:则相关系数为:2222 yynxxnyxxyn2288010421484 .3654.20788804 .366 .4544897. 0说明产量和生产费用之间存在高度正相关。说明产量和生产费用之间存在高度正相关。1 1、两个变量都是连续性的;、两个变量都是连续性的;2 2、必须是成对数据,且每对数据相互独立;、必须是成对数据,且每对数据相互独立;3 3、两个变量的总体都接近正态分布;、两个变量的总体都接近正态分布;4 4、两个变量的关系是线性的;、两个变量的关系是线性的;(三)

18、直线积差相关系数的应用条件(三)直线积差相关系数的应用条件5 5、排除共变因素的影响。、排除共变因素的影响。 6 6、只能描述两变量之间线性关系的密切程度、只能描述两变量之间线性关系的密切程度和方向,不能阐明二者的本质联系。和方向,不能阐明二者的本质联系。7 7、一般地说,、一般地说,n n小于小于3030时计算出的时计算出的r r缺乏有效缺乏有效意义。意义。3 3 回回 归归 分分 析析一、回归分析的概念一、回归分析的概念 回归分析是对具有相关关系的两个回归分析是对具有相关关系的两个或两个以上变量之间的数量变化的一般或两个以上变量之间的数量变化的一般关系进行测定,确立一个相应的数学表关系进行

19、测定,确立一个相应的数学表达式,以便从一个已知量来推测另一个达式,以便从一个已知量来推测另一个未知量,为估算预测提供一个重要的方未知量,为估算预测提供一个重要的方法。法。区别联系:区别联系: 区别:区别: (1 1)相关分析不说明)相关分析不说明谁是自变量,谁是因谁是自变量,谁是因变量,而回归分析必变量,而回归分析必须首先要确定谁是自须首先要确定谁是自变量,谁是因变量,变量,谁是因变量,不能颠倒。不能颠倒。(2 2)相关分析中的每)相关分析中的每一个变量都是随机的;一个变量都是随机的;回归分析中自变量是回归分析中自变量是一般变量,因变量是一般变量,因变量是随机变量。随机变量。 联系:联系: (

20、1 1)相关分析要依)相关分析要依靠回归分析来表现靠回归分析来表现现象数量相关的具现象数量相关的具体形式;体形式;(2 2)回归分析必须)回归分析必须依靠相关关系来表依靠相关关系来表明变量之间的密切明变量之间的密切程度。程度。 因此,相关分析与因此,相关分析与回归分析被合称为回归分析被合称为广义的相关分析。广义的相关分析。二、回二、回 归归 的的 种种 类类按自变量的个数分按自变量的个数分一元回归一元回归多元回归多元回归按回归线的形态分按回归线的形态分线性回归线性回归非线性回归非线性回归回归模型的类型回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归三、简单线性回归方程的求解三、简单

21、线性回归方程的求解bxayc1 1、方程式为:、方程式为:自变量归系数:直线的斜率,又称回直线的起点值,:因变量的估计值:,xbayc( (一)方程式一)方程式2 2、回归系数、回归系数b b的经济涵义:的经济涵义:当自变量变动一个单位时,因变量的当自变量变动一个单位时,因变量的平平均均变动值。变动值。b0b0,x x与与y y为正相关为正相关b0b0,x x与与y y为负相关为负相关 3 3、条件:所分析的两个变量之间必须、条件:所分析的两个变量之间必须存在相关关系,且相关程度在显著相关存在相关关系,且相关程度在显著相关以上。以上。1 1、用最小平方法配合回归直线的基本思想是:、用最小平方法

22、配合回归直线的基本思想是:在所有的相关点中,通过数学方法配合一条在所有的相关点中,通过数学方法配合一条较为理想的直线,这条直线必须满足两点:较为理想的直线,这条直线必须满足两点: 、原数列与趋势线的离差平方和为最小值。即、原数列与趋势线的离差平方和为最小值。即最小值2)(cyy、原数列与趋势线的离差之和为零。即:、原数列与趋势线的离差之和为零。即:0)(cyy(三)(三)a a、b b的最小二乘估计的最小二乘估计 最小值22)()(bxayyybxaycc通过求通过求a a、b b的一阶偏导可得到求解的一阶偏导可得到求解a a、b b的联立的联立方程:方程:xyxbxayxbna2解联立方程得

23、到:解联立方程得到:2222)(xxnyxxynxxyxxybnxbnyxbya2 2、具体求解、具体求解 简单直线回归方程建立的步骤为:简单直线回归方程建立的步骤为: 确确定自变量定自变量x x和因变量和因变量y y; 计计算算x x2 2、xyxy、xx、yy、xx2 2、xyxy; 代代入公式,先求入公式,先求b b,再求,再求a a。 4544.6 4544.6 74.4 74.4 172.0 172.0 248.0 248.0 418.0 418.0 575.0 575.0 805.2 805.2 972.0 972.0 1280.0 1280.0104214104214 3844

24、3844 7396 7396 6400 6400 12100 12100 13225 13225 17424 17424 18225 18225 25600 25600207.54207.54 1.44 1.44 4.00 4.00 9.61 9.61 14.44 14.44 25.00 25.00 37.21 37.21 51.84 51.84 64.00 64.00 880 880 36.4 36.4 62 62 86 86 80 80 110 110 115 115 132 132 135 135 160 160 1.2 1.2 2.0 2.0 3.1 3.1 3.8 3.8 5.0 5

25、.0 6.1 6.1 7.2 7.2 8.0 8.0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8生产费用生产费用 月产量月产量序序 号号2xxy2yxy例例7-3-17-3-1:根据例:根据例7-2-17-2-1资料配合生产费用依产量变化资料配合生产费用依产量变化的回归方程:的回归方程:,54.207, 8,880, 4 .362xnyx6 .4544,1042142xyy22)(xxnyxxynb9 .124 .3654.20788804 .366 .454482nxbnya3 .5184 .369 .128880则回归方程为则回归方程为: :xyc9 .123 .51回

26、归系数回归系数b b的涵义的涵义: :月产量每增加月产量每增加10001000吨吨, ,生产费用平均增加生产费用平均增加12.912.9万元。万元。计算得到:计算得到: 670 82 90 100 114 140 144耐用消费品销售额(万元)耐用消费品销售额(万元) 2820 340 380 450 470 560 620人均年收入(元)人均年收入(元)合计合计200020012002200320042005时间时间要求:分析两变量相关密切程度,若为显著相要求:分析两变量相关密切程度,若为显著相关以上,则对两变量进行回归分析关以上,则对两变量进行回归分析。例例7-3-27-3-2某地区人均年

27、收入与耐用消费品销售额资料如下某地区人均年收入与耐用消费品销售额资料如下:答案:相关系数答案:相关系数 r = 0.98 r = 0.98 b = 0.24 b = 0.24 a = -1.13 a = -1.13 y yc c = -1.13+0.24x = -1.13+0.24x回归系数回归系数b b的涵义的涵义: :人均年收入每增加一人均年收入每增加一元元, ,耐用消费品销售额平均增加耐用消费品销售额平均增加0.240.24万元。万元。四四 回归系数与相关系数的关系回归系数与相关系数的关系因为:因为:2222 yynxxnyxxyn22)(xxnyxxynb所以:所以:xyrb4 4 估

28、计标准误差估计标准误差一、估计标准误差的涵义一、估计标准误差的涵义二、估计标准误差的测定二、估计标准误差的测定2)(12nyyScyx、222nxybyaySyx、它是用来说明回归直线代表性大小的指它是用来说明回归直线代表性大小的指标,用标,用 表示表示yxS例例7-4-17-4-1:用两种方法计算例:用两种方法计算例7-3-17-3-1中的估计标准误差中的估计标准误差解:法一,根据公式解:法一,根据公式 有有2)(2nyyScyxy y626286868080110110115115132132135135160160y yc c66.866.877.177.191.391.3100.100

29、.3 3115.115.8 8130.130.0 0144.144.2 2154.154.5 523.023.04 4 79.21 79.21 127.127.69 69 94.094.09 9 0.64 0.64 4 4 84.684.64 4 30.30.25 25 ycy2则有则有 = = 60. 82856.443yxS法二,根据公式有法二,根据公式有22nxybyaySyx286 .45449 .128803 .51104214yxS61. 8三、相关系数与估计标准误差的关系三、相关系数与估计标准误差的关系yxSry211 1、相关系数与估计标准误差呈反向关系、相关系数与估计标准误差

30、呈反向关系2 2、当变量之间为完全直线相关时,估计、当变量之间为完全直线相关时,估计标准误差为标准误差为0 03 3、当变量之间不存在直线相关时,估计、当变量之间不存在直线相关时,估计标准误差等于标准误差等于y y的标准差,即回归直线和的标准差,即回归直线和y y数列的平均线重合数列的平均线重合第七章第七章 相关与回归相关与回归一、判一、判 断断 对对 错错1 1、施肥量与收获率是正相关关系。(、施肥量与收获率是正相关关系。( )2 2、利用一个回归方程,两个变量可以互相推算。、利用一个回归方程,两个变量可以互相推算。 ( )3 3、若直线回归方程为、若直线回归方程为 y yc c= 170

31、= 170 2.5X 2.5X, 则变量则变量X X与与Y Y之间存在负相关关系。之间存在负相关关系。 ( )4 4、回归系数和相关系数都可用来判断现象之间相关的密切程度。、回归系数和相关系数都可用来判断现象之间相关的密切程度。 ( )5 5、当两个变量之间存在曲线相关时,回归估计标准误差为、当两个变量之间存在曲线相关时,回归估计标准误差为1 1 。(。( )6 6、完全相关的关系就是函数关系。、完全相关的关系就是函数关系。 ( ) 第七章第七章 相关与回归相关与回归二、选二、选 择择 题题1 1、相关系数的取值范围是(、相关系数的取值范围是( ) A A、r r B B、1r0 1r0 C C、0r1 D0r1 D、1r1 1r1 2 2、相关系数与回归系数的符号(、相关系数与回归系数的符号( ) A A、相同、相同 B B、相反、相反 C C、视、视a a的符号而定的符号而定 D D、不能确定、不能确定 3 3、如果相关系数为、如果相关系数为0 0,则二变量(,则二变量( ) A A、无直线相关、无直线相关 B B、负线性相关、负线性相关 C C、可能存在曲线相关、可能存在曲线相关 D D、无线性相关,也无非线性相关、无线性相关,也无非线性相关 4 4、变量、变量X X对变量对变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论