版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学:思想、方法与应用统计学:思想、方法与应用袁卫袁卫 刘超刘超 第第8 8章章 相关和回归分析相关和回归分析8.1 两个变量间是什么关系两个变量间是什么关系8.2 两个变量间的关系强度两个变量间的关系强度8.3 回归分析回归分析8.4 总体中的关系总体中的关系8.5 多元回归分析多元回归分析8.6 虚拟变量虚拟变量学习目标学习目标 了解相关分析,能计算和解释相关系数与判定了解相关分析,能计算和解释相关系数与判定系数;系数; 了解回归分析方法的统计思想;了解回归分析方法的统计思想; 能对回归模型进行参数估计和有关假设检验;能对回归模型进行参数估计和有关假设检验; 相关理论在统计学软件中的应用
2、;相关理论在统计学软件中的应用; 相应统计分析结果的解读。相应统计分析结果的解读。 对于现实世界,不仅要知其然,而且要知其所对于现实世界,不仅要知其然,而且要知其所以然。以然。 发现变量之间的统计关系,并且用此规律来帮发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为量的关系。这种关系一般称为模型(模型(model)。 假如用假如用Y表示感兴趣
3、的变量,用表示感兴趣的变量,用X表示其他可能表示其他可能与与Y有关的变量(有关的变量(X也可能是若干变量组成的向也可能是若干变量组成的向量),则需要的是建立一个函数关系量),则需要的是建立一个函数关系Y=f(X)。 这里这里Y称为称为因变量因变量或或响应变量响应变量(dependent variable, response variable),而,而X称为称为自变量自变量,也称为也称为解释变量或协变量解释变量或协变量(independent variable, explanatory variable, covariate)。 建立这种关系的过程就叫做回归建立这种关系的过程就叫做回归(regr
4、ession)。 一旦建立了回归模型,除了对变量的关系一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用有了进一步的定量理解之外,还可以利用模型(函数)通过自变量对因变量做模型(函数)通过自变量对因变量做预测预测(prediction)。 这里所说的预测,是用已知的自变量的值这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。并不一定涉及时间先后。8.1 8.1 两个变量间是什么关系两个变量间是什么关系表表8.1 偷税识别中的销售收入和工人工资总额偷税识别中的销售收入和工人工资总额企业销售收入(
5、万元)工人工资总额(万元)1271.576.12155.145.63318.287.54923.3253.95202.660.56443.3129.271325.53718648.2194.59553.615510337.998.48.1 8.1 两个变量间是什么关系两个变量间是什么关系 从表从表8.1出发,我们能在多大程度上回答销出发,我们能在多大程度上回答销售收入和工资有怎样的关系这个问题呢?售收入和工资有怎样的关系这个问题呢? 大致地看一下数据,我们发现高销售收入的大致地看一下数据,我们发现高销售收入的企业的工资总额也较高,而低销售收入的企企业的工资总额也较高,而低销售收入的企业的工资总
6、额则较低,这两个变量看上去是业的工资总额则较低,这两个变量看上去是相关的。相关的。 但要得到数据包含的详细信息但要得到数据包含的详细信息例如,一例如,一家企业如果销售收入是另一家企业的两倍,家企业如果销售收入是另一家企业的两倍,其工资是否也为另一家企业的两倍呢其工资是否也为另一家企业的两倍呢我我们要利用回归分析和相关分析。们要利用回归分析和相关分析。8.1 8.1 两个变量间是什么关系两个变量间是什么关系 怎样才能发现两个变量有没有关怎样才能发现两个变量有没有关系呢?系呢? 最简单的直观办法就是画出它们最简单的直观办法就是画出它们的散点图。下面是四组数据的散的散点图。下面是四组数据的散点图;每
7、一组数据表示了两个变点图;每一组数据表示了两个变量量x和和y的样本。的样本。-3-2-1012-2-1012(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy不相关不相关 正线性相关正线性相关 负线性相关负线性相关 相关但非线性相关相关但非线性相关 8.1.18.1.1散点图散点图 散点图8.1表明,一家企业中销售收入越高,工人工资总额也越高。图中点的趋势说明两变量间确实存在一定的关系。这个图支持了我们仅仅从数据表所得出的结论,从这个图我们确信这两个变量是相关的。 另外,由于这些点散布在从左下角到右上角的区域,说明这两
8、个变量是正相关的,也就是说,一家企业中销售收入越高,工人工资总额也越高。8.1.2 8.1.2 线性关系线性关系 再考虑另一个问题:当再考虑另一个问题:当x值值(销售收入销售收入)增加或减少时增加或减少时,y值值(工人工资总额工人工资总额)如何变化。如何变化。 我们取自变量销售收入的一些值,看看因变量我们取自变量销售收入的一些值,看看因变量(工人工人工资总额工资总额)的相应的值。的相应的值。 例如,对销售收入为例如,对销售收入为202.6万元时,相应的工人工资万元时,相应的工人工资总额平均值为总额平均值为60.5万元,销售收入为大约万元,销售收入为大约1325.5万元万元时,相应的工人工资总额
9、平均值大约为时,相应的工人工资总额平均值大约为371万元。万元。 回归分析就是基于对于自变量的不同取值,因变量回归分析就是基于对于自变量的不同取值,因变量相应的平均值也不同这一事实。如果数据足够相应的平均值也不同这一事实。如果数据足够对于销售收入的每一个值,工人工资总额变量都有对于销售收入的每一个值,工人工资总额变量都有许多值许多值我们就可以对销售收入变量的每一个值我们就可以对销售收入变量的每一个值来计算工人工资总额的实际平均值了。来计算工人工资总额的实际平均值了。8.1.2 8.1.2 线性关系线性关系 如果对销售收入不同的值,工人工资总额平均值如果对销售收入不同的值,工人工资总额平均值也彼
10、此不同,那么我们可以认为这两个变量是相也彼此不同,那么我们可以认为这两个变量是相关的。关的。 另外,在一个散点图中代表平均值的那些点分布另外,在一个散点图中代表平均值的那些点分布在通过散点图中心的一条直线旁,我们就可以对在通过散点图中心的一条直线旁,我们就可以对这些数据用回归分析和相关分析。这些数据用回归分析和相关分析。 在这里我们没有足够的数据来计算平均值,但这在这里我们没有足够的数据来计算平均值,但这些数据点多少分布在一条直线旁边,我们可以继些数据点多少分布在一条直线旁边,我们可以继续作下去。如果散点图中的点的分布看上去像一续作下去。如果散点图中的点的分布看上去像一条曲线,我们就不能用这些
11、分析了。如果这些点条曲线,我们就不能用这些分析了。如果这些点像云一样,没有任何模式,这些数据也许是随机像云一样,没有任何模式,这些数据也许是随机的,而变量间没有任何关系。的,而变量间没有任何关系。8.2 8.2 两个变量间的关系强度两个变量间的关系强度 如何在数量上描述相关呢?下面引进几如何在数量上描述相关呢?下面引进几种对相关程度的度量。种对相关程度的度量。 Pearson相关系数(相关系数(Pearsons correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变
12、量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。8.2 8.2 两个变量间的关系强度两个变量间的关系强度Kendall t t 相关系数(相关系数(Kendalls t t)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同协同(concord
13、ant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。8.2 8.2 两个变量间的关系强度两个变量间的关系强度Spearman 秩相关系数(秩相关系数(Spearman rank correlation coefficient 或或Spearmans r r)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。8.2 8.2 两个变量间的
14、关系强度两个变量间的关系强度 人们可能会问,上面的三种对人们可能会问,上面的三种对相关的度量都是在其值接近相关的度量都是在其值接近1或或-1时相关,而接近于时相关,而接近于0时不相关时不相关。到底如何才能够称为。到底如何才能够称为“接近接近”呢?呢? 这很难一概而论。但在计算机这很难一概而论。但在计算机输出中都有和这些相关度量相输出中都有和这些相关度量相应的检验和应的检验和p-值;因此可以根据值;因此可以根据这些结果来判断是否相关。这些结果来判断是否相关。8.2 8.2 两个变量间的关系强度两个变量间的关系强度 这三个统计量相关的检验这三个统计量相关的检验(零假设均为不零假设均为不相关相关)全
15、部显著,全部显著,p-值都是值都是0.000。注意这。注意这种种0.000的表示并不表示这些的表示并不表示这些p-值恰好等值恰好等于零,只是小数点前三位是于零,只是小数点前三位是0而已。而已。8.2 8.2 两个变量间的关系强度两个变量间的关系强度我们已经知道相关系数r度量两个变量的关系强度,然而,很难给出一个对r的确切解释。例如,r=0.91意味着两变量间有很强的关系,r=0.41则代表适中的相关关系。但除了强和适中这些描述以外,r到底意味着什么?一种更易于解释的度量尺度便是判定系数。判定系数(判定系数(coefficient of determination,也叫测定系数测定系数或可决系数
16、)可决系数)是指因变量的总变差中能被自变量的变差所解释或说明的比例。判定系数是由相关系数的平方计算得到的,一般记为R2。对销售收入和工人工资总额的例子,R2=0.9992=0.998,0.998有一个很具体的解释,即0.998说明工人工资总额的99.8的变异可以被销售收入的变异解释或说明。8.3 8.3 回归分析回归分析 对前面例子中的两个变量的数据进行线对前面例子中的两个变量的数据进行线性回归,就是要找到一条直线来适当地性回归,就是要找到一条直线来适当地代表散点图代表散点图8.1中的那些点的趋势。中的那些点的趋势。 首先需要确定选择这条直线的标准。这首先需要确定选择这条直线的标准。这里介绍里
17、介绍最小二乘回归(最小二乘回归(least squares regression)。古汉语。古汉语“二乘二乘”是平方的是平方的意思。意思。 这就是寻找一条直线,使得所有点到该这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做寻找一条直线的过程也叫做拟合(拟合(fit)一条直线。一条直线。8.3 8.3 回归分析回归分析例例8.1(继续)根据计算,找到销售(继续)根据计算,找到销售收入与工人工资总额的回归直线。收入与工人工资总额的回归直线。计算机输出给出来截距(计算机输出给出来截距(Constant)3.457和斜率和斜
18、率(销售收入的系数销售收入的系数) 0.277。3.4570.277yx截距截距=3.457; 斜率斜率=0.2778.3 8.3 回归分析回归分析 这个直线实际上是对所假设的下面这个直线实际上是对所假设的下面线性回归模型的估计(这里的线性回归模型的估计(这里的e e是是随机误差):随机误差):01yxe我们得到的截距和斜率(我们得到的截距和斜率( 3.457和和0.277 )是对)是对 0和和 1的估计。的估计。8.3 8.3 回归分析回归分析对于该例,判定系数对于该例,判定系数R2=0.998;这;这说明这里的自变量可以大约解释说明这里的自变量可以大约解释63的因变量的变化。的因变量的变化
19、。R2越接近越接近1,回归就越成功。,回归就越成功。由于由于R2有当变量数目增加而增大的有当变量数目增加而增大的缺点,人们对其进行修改;有一缺点,人们对其进行修改;有一修修正的正的R2(adjusted R square)。8.4 8.4 总体中的关系:总体中的关系:t t检验检验由于不同的样本产生不同的估计,所由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量布,也可以用由他们构造检验统计量来检验来检验 0和和 1是不是显著。拿回归主要是不是显著。拿回归主要关心的来说,假设检验问题是关心的来说,假设检验问题是011
20、1:0:0HHo 计算机输出也给出了这个检验:计算机输出也给出了这个检验:t检验检验统计量为统计量为61.188,而,而p-值为值为0.000。8.4 8.4 总体中的关系:置信区间的方法总体中的关系:置信区间的方法这个置信区间最值得注意的一点是它不包含这个置信区间最值得注意的一点是它不包含0。我们提及这一点是说明我们提及这一点是说明0不是总体回归系数的一个可不是总体回归系数的一个可能的值。既然能的值。既然不可能等于不可能等于0,我们可以认为,我们可以认为一定与一定与0有差别。如果总体的直线的斜率不等于有差别。如果总体的直线的斜率不等于0,则对于包,则对于包含所有企业的总体(而不仅仅是样本),
21、两个变量销含所有企业的总体(而不仅仅是样本),两个变量销售收入和工人工资总额间一定存在一定的关系。售收入和工人工资总额间一定存在一定的关系。注意表注意表8.5的置信区间上限是的置信区间上限是0.288,不是,不是0.287,这其实没有本,这其实没有本质差异,只是两种方法计算过程中在不同阶段保留小数位数质差异,只是两种方法计算过程中在不同阶段保留小数位数导致的差异导致的差异。模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准误差下限上限1(常量)3.4572.8271.223.256 -3.0639.976销售收入.277.005.999 61.188.000.267.288因
22、变量: 工人工资总额8.4 8.4 总体中的关系:总体中的关系:F F检验检验此外,计算机还计算了一个在零假设下此外,计算机还计算了一个在零假设下有有F分布的检验统计量,它是用来检验分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自回归拟合好坏的(零假设是因变量和自变量没有关系)。变量没有关系)。8.5 8.5 多元回归分析多元回归分析和简单回归模型类似,一般的有和简单回归模型类似,一般的有k个个(定量)自变量(定量)自变量x1, x2, xk的对因变的对因变量量y的线性回归模型为(称为多元回的线性回归模型为(称为多元回归)归)01 122kkyxxxeo 这里这里 0, 1,
23、k称为回归系数。对称为回归系数。对计算机来说,计算多个自变量的回计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结计算机也会自动输出相应的检验结果。果。8.5 8.5 多元回归分析多元回归分析并且用数据来拟合所选的一个模型时,并且用数据来拟合所选的一个模型时,并不一定所有的变量都显著并不一定所有的变量都显著(并不一定所并不一定所有的系数都有意义有的系数都有意义)。软件有一种一边回归,一边检验的所谓软件有一种一边回归,一边检验的所谓逐步回归(逐步回归(stepwise regression)方法。方法。该方法或者从只有常数项开
24、始,逐个地该方法或者从只有常数项开始,逐个地把显著的变量加入;或者从包含所有变把显著的变量加入;或者从包含所有变量的模型开始,逐步把不显著的变量减量的模型开始,逐步把不显著的变量减去。注意不同方向逐步回归的结果也不去。注意不同方向逐步回归的结果也不一定相同。一定相同。8.6 8.6 虚拟变量:自变量中有定性变量的回归虚拟变量:自变量中有定性变量的回归有有50个从初中升到高中的学个从初中升到高中的学生。为了比较初三的成绩是生。为了比较初三的成绩是否和高中的成绩相关,得到否和高中的成绩相关,得到了他们在初三和高一的各科了他们在初三和高一的各科平 均 成 绩平 均 成 绩 ( 数 据 在数 据 在h
25、ighschool.txt)。还有一个自变量是收入,但还有一个自变量是收入,但它是定性变量,以它是定性变量,以虚拟变量虚拟变量或或哑元(哑元(dummy variable)的方式出现。(这里收入的的方式出现。(这里收入的“低低”,“中中”,“高高”,用用1,2,3来代表)来代表)8.6 8.6 虚拟变量:自变量中有定性变量的回归虚拟变量:自变量中有定性变量的回归如果要用这种哑元进行前面的回归就如果要用这种哑元进行前面的回归就没有道理了。可以用下面模型描述:没有道理了。可以用下面模型描述:011012013,1,2,3yxxxeee代表家庭收入的哑元 时,代表家庭收入的哑元 时,代表家庭收入的哑
26、元 时。8.6 8.6 虚拟变量:自变量中有定性变量的回归虚拟变量:自变量中有定性变量的回归注意,哑元的各个参数注意,哑元的各个参数 1, 2, 3本身本身只有相对意义只有相对意义,无法三个都估计,只,无法三个都估计,只能够在有约束条件下才能够得到估计能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默。约束条件可以有很多选择,一种默认的条件是把一个参数设为认的条件是把一个参数设为0,比如,比如 3=0,这样和它有相对意义的,这样和它有相对意义的 1和和 2就可以估计出来了。对于例就可以估计出来了。对于例7.1得到得到28.7080.68811.066,28.7080.6884 6
27、79,28.7080.688 ,yxyxyx(低收入家庭),.(中等收入家庭),(高收入家庭)。Parameter EstimatesDependent Variable: s128.7084.9045.854.00018.83738.579.688.06310.925.000.561.814-11.0662.641-4.190.000-16.382-5.750-4.6792.176-2.150.037-9.059-.2990a.ParameterInterceptj3income=1income=2income=3BStd. ErrortSig.Lower BoundUpper Bound9
28、5% Confidence IntervalThis parameter is set to zero because it is redundant.a. 对对 0, 1, 1, 2, 3的估计分别为的估计分别为28.708, 0.688, -11.066, -4.679, 0。8.6 8.6 虚拟变量:虚拟变量:logisticlogistic回归回归 但是如果因变量为取两个值的但是如果因变量为取两个值的定性变量,前面介绍的回归模定性变量,前面介绍的回归模型就无法解决了。型就无法解决了。 我们通过例子来介绍另一种回我们通过例子来介绍另一种回归,即归,即Logistic回归(回归(logistic regression)。8.6 8.6 虚拟变量:虚拟变量:logisticlogistic回归回归这是这是200个不同年龄个不同年龄和性别的人对某项服和性别的人对某项服务产品的认可的数据务产品的认可的数据(logi.txt)。这里)。这里年年龄龄是连续变量,是连续变量,性别性别是有男和女(分别用是有男和女(分别用1和和0表示)两个水平表示)两个水平的定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽高中分类试卷及答案
- 2025年莒县考试真题试卷及答案
- 2025年师幼互动研讨考试题及答案
- 广州美院艺考题库及答案
- 南艺附中艺考试题及答案
- 2025年财税经济师考试题及答案
- 病原微生物生物安全课件
- 建筑施工技术规范及实施要点
- 外研版2025年秋期五年级英语(上)期末综合练习题(含答案含听力原文无听力音频)
- 山西省晋中市部分学校2025-2026学年高二上学期12月质量检测语文试题(含答案)
- 修坟墓合同协议
- 2024鄂尔多斯市东胜国有资产投资控股集团有限公司招聘26人笔试参考题库附带答案详解
- 外研版(三起)(2024)三年级下册英语Unit 5 单元测试卷(含答案)
- 山东省济南市2024-2025学年高三上学期1月期末考试 化学试题(含答案)
- 幼儿园防食物中毒安全主题
- 我的家乡四川南充
- 市场拓展与销售渠道拓展方案
- 工地大门施工协议书
- 文史哲与艺术中的数学智慧树知到期末考试答案章节答案2024年吉林师范大学
- 《物联网工程项目管理》课程标准
- 劳动合同英文版
评论
0/150
提交评论