线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关_第1页
线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关_第2页
线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关_第3页
线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关_第4页
线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、spss软件在医学科研中的应用软件在医学科研中的应用北大医学部流行病与卫生统计学系北大医学部流行病与卫生统计学系tel:82801619线性相关与回归线性相关与回归内容:内容:多重线性回归分析多重线性回归分析简单线性相关与回归简单线性相关与回归spearman等级相关等级相关特例特例(一)(一)直线回归(直线回归(linear regression)1.1.定义:用直线方程表达定义:用直线方程表达x(自变量,(自变量,independent variable;解释变量,;解释变量,explanatory variable;预测变量,;预测变量,predictor variable )和和y (

2、因变量,(因变量,dependent variable;响应变量,;响应变量,response variable;结局变量,;结局变量,outcome variable )之间的数量关系。之间的数量关系。一、一、简单线性相关与回归简单线性相关与回归yabxy:是:是y(实测值)的(实测值)的预测值(预测值(predicted value),是直线上点的纵坐标。对于每一个是直线上点的纵坐标。对于每一个x值,根据直线值,根据直线回归方程都可以计算出相应的回归方程都可以计算出相应的y预测值。预测值。(具体计算过程参见(具体计算过程参见卫生统计学卫生统计学第第4版)。版)。2.2.b和和a的意义的意义

3、a:是回归直线在:是回归直线在y轴上的截距,即轴上的截距,即x0时时y的预测值。的预测值。b:是回归直线的斜率,又称为回归系数。:是回归直线的斜率,又称为回归系数。 表示当表示当x改变一个单位时,改变一个单位时,y的预测值平均改变的预测值平均改变| |b| |个单位。个单位。3.3.b和和a的估计的估计最小二乘方法(最小二乘方法(the method of least squares): :各实测点到直线的纵向距离的平方和最小。各实测点到直线的纵向距离的平方和最小。4.4.b的假设检验的假设检验: b为样本回归系数,由于抽样误差,为样本回归系数,由于抽样误差,实际工作中实际工作中b一般都不为一

4、般都不为0。要判断直线回归方程是否成。要判断直线回归方程是否成立,需要检验总体回归系数立,需要检验总体回归系数 是否为是否为0。只有当只有当 0 0时,才能认为直线回归方程成立(具有统计时,才能认为直线回归方程成立(具有统计学意义)。学意义)。h0: =0 h1: 0bbts方法一:方法一:t检验检验方法二:方法二:f检验检验msfms回归剩余两种方法等价,两种方法等价,ft5.5.直线回归方程的置信区间估计直线回归方程的置信区间估计(1)总体回归系数总体回归系数 的的95置信区间估计置信区间估计0.05/2,2nbbts(2) y的均数的均数的的95置信区间估计置信区间估计当当xx0时,以时

5、,以95的概率估计的概率估计y的均数的均数的置信区间为的置信区间为0.05/2,2nyyts(3)个体个体y值的值的95容许区间估计容许区间估计当当xx0时,以时,以95的概率估计的概率估计个体个体y值值的波动范围为的波动范围为0.05/2,2ny yyts1.1.定义定义描述具有直线关系的两个变量之间的相互关系。描述具有直线关系的两个变量之间的相互关系。 (二)直线相关(二)直线相关(linear correlation)r:相关系数,相关系数,correlation coefficient用来衡量有直线关系的两个变量之间相关的密切程度和用来衡量有直线关系的两个变量之间相关的密切程度和方向。

6、方向。-1-1 r 1 1r00,正相关;,正相关;r=1为完全正相关为完全正相关r 00,负相关,负相关;r=-1为完全负相关为完全负相关| |r| |越大,两变量相关越密切越大,两变量相关越密切(前提:(前提:r有统计学意义)有统计学意义)2.2.相关类型相关类型正相关:正相关:0r 1负相关负相关-1 r0零相关零相关 r =02.2.相关类型相关类型曲线相关曲线相关r为样本相关系数,由于抽样误差,实际工作中为样本相关系数,由于抽样误差,实际工作中r一般都一般都不为不为0 0。要判断两变量之间是否存在相关性,需要检验。要判断两变量之间是否存在相关性,需要检验总体相关系数总体相关系数 是否

7、为是否为0 0。212rrrtsrn只有当只有当 0 0时,才能根据时,才能根据| |r| |的大小判断相关的大小判断相关的密切程度。的密切程度。3.3.r的假设检验的假设检验h0:=0 h1: 04.相关与回归的区别和联系相关与回归的区别和联系(1)相关与回归的意义不同相关与回归的意义不同 相关表达两个变量相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知量之间的数量关系,已知x值可以预测值可以预测y值。从散点值。从散点图上,散点围绕回归直线的分布越密集,则两变量图上,散点围绕回归直线的分布越密集,则两变量相关系数越

8、大;回归直线的斜率越大,则回归系数相关系数越大;回归直线的斜率越大,则回归系数越大。越大。(2)r与与b的符号一致的符号一致 同正同负。同正同负。(3)r与与b的假设检验等价的假设检验等价(4) 可以用回归解释相关可以用回归解释相关2ssrss回归总r2称为决定系数(称为决定系数(coefficient of determination), , 其越接近于其越接近于1,回归直线拟和的效果越好。,回归直线拟和的效果越好。4.相关与回归的区别和联系相关与回归的区别和联系例例1 1 为研究中年女性体重指数和收缩压的关系,随机测量为研究中年女性体重指数和收缩压的关系,随机测量了了1616名名4040岁

9、以上的女性的体重指数和收缩压(见数据文件岁以上的女性的体重指数和收缩压(见数据文件p237.savp237.sav)。)。变量说明:变量说明:x: :体重指数;体重指数;y: :收缩压(收缩压(mmhg)。)。1.1.绘制散点图绘制散点图散点图显示:收散点图显示:收缩压与体重指数缩压与体重指数之间有线性相关之间有线性相关趋势,因此可以趋势,因此可以进一步做直线回进一步做直线回归与相关归与相关2.2.直线回归与相关分析直线回归与相关分析regression, 回归回归 linear, 线性线性2.2.直线回归与相关分析直线回归与相关分析因变量因变量自变量自变量p值值相关相关系数系数r决定决定系数

10、系数r2调整调整r2截距截距a回归系数回归系数bsb标准化回归系数标准化回归系数t值值p值值f值值3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计给定给定xx0,预测预测y3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计因变量因变量自变量自变量统计统计保存(产生新变量,保保存(产生新变量,保存在当前数据库)存在当前数据库)3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计总体回归系总体回归系数的置信区数的置信区间估计间估计3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计预测值预测值非标准化非标准化预测区间预测区间y的均数的均数个体个

11、体y值值总体回归系数的总体回归系数的95置信区间置信区间预测值预测值残差残差3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计x0y的预测的预测值值y的均数的置信区的均数的置信区间的下限及上限间的下限及上限个体个体y值的容许区值的容许区间的下限及上限间的下限及上限例例2:由于改革开放政策,深圳特区中外来人口大幅度增由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在圳特区统计局收集了所属的宝安县

12、在1987年末年末18个镇的个镇的人口与工农业总产值数据(人口与工农业总产值数据(见数据文件见数据文件reg.sav)。此处)。此处把工农业总产值当作因变量(把工农业总产值当作因变量(w),而把外地及本地人口),而把外地及本地人口数当作两个自变量(数当作两个自变量(z1,z2)。)。二、多重线性回归分析二、多重线性回归分析(有关统计方法的原理及计算参见(有关统计方法的原理及计算参见孙尚拱,孙尚拱,医学多变医学多变量统计与统计软件量统计与统计软件,北京医科大学出版社,北京医科大学出版社,2000)数据文件数据文件reg.sav1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间

13、的相互关系?(估计回归估计回归方程)方程)2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)3.哪一个自变量对因变量的影响更重要?(哪一个自变量对因变量的影响更重要?(自变量的相对自变量的相对重要性分析重要性分析)4.如何用自变量预测因变量?(如何用自变量预测因变量?(预测分析预测分析)(一)多重回归分析的任务(一)多重回归分析的任务(二)多重回归分析的适用条件(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系2.残差的正态性残差的正态性3.残差的等方差性残差的等方差性4.剔除强影响点(突出点,剔除强影响点(突出点,

14、outliers)5.自变量之间不应存在共线性自变量之间不应存在共线性6.独立性独立性关于独立性:关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。列、重复测量等情况。spss软件在软件在“linear regression:statistics”对话对话框中,提供了框中,提供了durbin-watson统计量统计量d,以检验自相,以检验自

15、相关系数是否为关系数是否为0。当。当d值接近于值接近于2,则残差之间是不相,则残差之间是不相关的。关的。1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间的相互关系?(估计回归方程估计回归方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中其中y为实测值,为实测值, 为预测值(为预测值(predicted value) y估计模型中系数的方法:估计模型中系数的方法:最小二乘方法(最小二乘方法(least square,ls),即残差平方和最小。),即残差平方和最小。b1, b2. bm称为偏回归系数(称为偏回归系数(partial re

16、gression coefficient) :当固定其他变量时当固定其他变量时,xm每增加一个单位,每增加一个单位,y的增加值都是的增加值都是bm。 (一)多重回归分析的任务(一)多重回归分析的任务模型拟和的优良性指标模型拟和的优良性指标r:复相关系数,反映了复相关系数,反映了y与与m个自变量的总体相关系数;个自变量的总体相关系数;r2:决定系数(决定系数(r square)r2c:调整决定系数(调整决定系数(adjusted r square ),是对决定系),是对决定系数的修正,是数的修正,是更客观更客观的指标。的指标。 这些指标越接近于这些指标越接近于1,说明回归模型拟合越好。,说明回归

17、模型拟合越好。 除了上述指标,还有残差标准误除了上述指标,还有残差标准误s,残差标准差越小,说,残差标准差越小,说明回归模型拟合越好。明回归模型拟合越好。 2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)对回归模型的统计检验对回归模型的统计检验1regssnmfmsse当当p0.05,则认为此回归模型有显著性。则认为此回归模型有显著性。对自变量的统计检验对自变量的统计检验/( )iitbse b当当p0.05,则认为此自变量对因变量有影响。则认为此自变量对因变量有影响。自变量的筛选自变量的筛选实际应用中,通常从专业知识出发,建立一个简约实际应用中,通常从专

18、业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟)的回归模型,即用尽可能少的自变量拟合模型。合模型。 常用方法:常用方法:1.前进法(前进法(forward):):逐步增加变量到模型中(由少到逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;多),对已经进入的变量不再剔除;spss中默认的选入自中默认的选入自变量的检验水准为变量的检验水准为0.05。2.后退法(后退法(backward):):从模型中逐步剔除变量(由多到从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;少),对已经剔除的变量不再进入;spss中默认的剔除自中默认的剔除自

19、变量的检验水准为变量的检验水准为0.10。 3.逐步法(逐步法(stepwise):):结合了前进法和后退法,变量边进结合了前进法和后退法,变量边进入边剔除。入边剔除。3.哪一个自变量对因变量的影响更重要?(哪一个自变量对因变量的影响更重要?(自变量的相对重要自变量的相对重要性分析性分析)当自变量的量纲相同时,衡量自变量相对重要性的指标:当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。对因变量的影响就越大。当自变量的量纲不同时,衡量自变量相对重要性的指标:当自变量的量纲

20、不同时,衡量自变量相对重要性的指标:标准化偏回归系数(标准化偏回归系数(standardized regression coefficient)、)、偏相关系数(偏相关系数(partial correlation)和部分相关系数()和部分相关系数(part correlation)。)。上述指标的绝对值越大,则相应自变量对因变上述指标的绝对值越大,则相应自变量对因变量的影响就越大。量的影响就越大。 标准化偏回归系数标准化偏回归系数:对自变量、因变量作标准化处理后计算的:对自变量、因变量作标准化处理后计算的回归系数。回归系数。偏相关系数偏相关系数:因变量与自变量均扣除其他自变量影响之后,二:因变

21、量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(者之间的相关系数。与简单相关系数(pearson相关系数)不同;相关系数)不同;例如:考察因变量例如:考察因变量y与自变量与自变量x1 、x2的多元回归分析,的多元回归分析,y与与x1的的偏相关系数为偏相关系数为扣除扣除x2影响后的影响后的y与与x1的相关性。的相关性。 y与与x1的简单相的简单相关系数为关系数为忽略忽略x2影响后的影响后的y与与x1的相关性。的相关性。部分相关系数:部分相关系数:自变量扣除其他自变量影响之后,因变量与自自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系

22、数中因变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。变量未扣除其他自变量的影响。 4.如何用自变量预测因变量?(如何用自变量预测因变量?(预测分析预测分析)000001 122.mmybb xb xb x当自变量取某个数值时,当自变量取某个数值时,y的预测值为的预测值为y的均数的的均数的9595置信区间置信区间个体个体y值的值的95容许区间容许区间预测分析时,(预测分析时,(x10,x20 xm0)应该在样本的自变)应该在样本的自变量取值范围内。量取值范围内。 1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系通过绘制通过绘制y与每个自变量的偏

23、相关散点图,可以判断与每个自变量的偏相关散点图,可以判断y与与自变量之间是否存在线性关系。自变量之间是否存在线性关系。 2.残差的正态性残差的正态性通过绘制标准化残差的直方图以及正态概率图(通过绘制标准化残差的直方图以及正态概率图(p-p图),可以图),可以判断判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。正态即可。3.残差的等方差性残差的等方差性通过绘制标准化残差与预测值的散点图,若标准化残差在零通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断水平线上下波动,无明显的规律性,则

24、可以判断y满足等方差满足等方差的假定。的假定。 (二)多重回归分析的适用条件(二)多重回归分析的适用条件通过标准化残差(通过标准化残差(standardized residuals)、学生氏残)、学生氏残差(差(studentlized residuals)来判断强影响点)来判断强影响点 。当指标。当指标的绝对值大于的绝对值大于3时,可以认为样本存在强影响点。时,可以认为样本存在强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:况可以考虑删除强影响点:1.强影响点是由于数据记录错强影响点是由于数据记录错误造成的

25、;误造成的;2.强影响点来自不同的总体。强影响点来自不同的总体。4.剔除强影响点(剔除强影响点(influential cases;或称为突出点,;或称为突出点,outliers)5.自变量之间不应存在共线性(自变量之间不应存在共线性(collinear) 当一个(或几个)自变量可以由其他自变量线性表示时,称当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:该自变量与其他自变量间存在共线性关系。常见于:1.一个一个变量是由其他变量派生出来的,如:变量是由其他变量派生出来的,如:bmi由身高和体重计算由身高和体重计算得出得出 ;2.一个变量与其他变

26、量存在很强的相关性。一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对预测值的精度降低以及对y有影响的重要自变量不能选入模有影响的重要自变量不能选入模型型 。共线性诊断方法:共线性诊断方法:1.tol(容许度,(容许度,tolerance)法:)法:tol越接近零,共线性越大。越接近零,共线性越大。2.vif(方差膨胀因子,(方差膨胀因子,variance inflation factor,vif )法:)法:vif越大,共线性越大。越大,共线性越大。3.特征根(特征根(eigenv

27、alue)法:)法:如果自变量相关矩阵的特征根近似如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。于零,则自变量之间存在共线性。4.ci(条件指数,(条件指数,condition index)法:)法:ci越大,共线性越大。越大,共线性越大。当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归分析(归分析(ridge regression analysis)。)。1. 数据预处理:根据经济学专业知识,需要先对数据预处理:根据经济学专业知识,需要先对z1、z2、w作对数变换,分别记为作对数变换,分别记为x1、x2、y。(三

28、)多重线性回归:实例分析(三)多重线性回归:实例分析变换后的数据变换后的数据回归回归线性线性2.多重回归分析多重回归分析因变量因变量自变量自变量statistics对话框对话框回归系数回归系数的估计的估计模型拟和模型拟和共线性诊断共线性诊断部分相关与偏相关系数部分相关与偏相关系数统计描述统计描述plots对话框对话框标准化标准化残差图残差图直方图直方图正态概率图,正态概率图,p-p图图绘制所有的绘制所有的偏相关图偏相关图 save对话框对话框分别给出分别给出y、x1、x2的均数与标的均数与标准差准差相关系数阵相关系数阵简单相关系数简单相关系数(pearson相关相关)p值值从简单相关系数可见:

29、从简单相关系数可见:y与与x1、x2存在较强相关性,存在较强相关性,x1、x2存在中等相关性。存在中等相关性。3.输出结果解释输出结果解释复相关系数复相关系数 决定系数决定系数 调整决定系数调整决定系数f值值p值值此模型的复相关系数为此模型的复相关系数为0.857,调整决定系数为,调整决定系数为0.699,反映此模型拟反映此模型拟和较好和较好;模型经统计学检验,;模型经统计学检验,f=20.738,p0.05,说明此多元回归,说明此多元回归模型有显著性。模型有显著性。非标准化系数非标准化系数 标准化系数标准化系数 t值值 p值值简单相关简单相关 偏相关偏相关 部分相关部分相关tolvif6.8

30、890.695 10.8382yxx 经统计学检验,经统计学检验,x1与与x2均有显著性,因此回归模型为均有显著性,因此回归模型为 ;根据偏回归系数的大小,根据偏回归系数的大小,可以认为可以认为x2对对y的影响比的影响比x1大。大。特征根特征根条件指数条件指数, ci方差比例方差比例共线性诊断共线性诊断共线性诊断:共线性诊断:两个自变量之间不存在共线性。两个自变量之间不存在共线性。因为标准化残差、学生化残差的绝对值小于因为标准化残差、学生化残差的绝对值小于3,所以,所以从统计学上从统计学上认为样本不存在强影响点。认为样本不存在强影响点。残差统计量残差统计量学生化残差学生化残差标准化残差标准化残差直方图及直方图及p-p图图从残差直方图及从残差直方图及p-p图可见:残差正态性不太好,图可见:残差正态性不太好,可能与样本量太小有关。可能与样本量太小有关。通过绘制通过绘制y与与x1的偏相关散点图,可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论