九、相关与回归_第1页
九、相关与回归_第2页
九、相关与回归_第3页
九、相关与回归_第4页
九、相关与回归_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅v 内容提要内容提要 相关分析简介相关分析简介 简单相关分析简单相关分析 偏相关分析偏相关分析 Distance 过程过程 简单回归分析简单回归分析 小结小结浙江大学医学院流行病与卫生统计学教研室 沈毅相关分析简介相关分析简介 在医学科学研究中,常常要分析两个变量之间的在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两

2、个变量之间个变量的相互关系。这时就涉及到两个变量之间的相关与回归。的相关与回归。浙江大学医学院流行病与卫生统计学教研室 沈毅u积差相关系数,又称积差相关系数,又称Pearson相关系数:定量描述线性相关相关系数:定量描述线性相关程度好坏的常用指标,只适用于两变量呈线性相关时。程度好坏的常用指标,只适用于两变量呈线性相关时。 特点:特点: 相关系数相关系数r 是一个无单位的量值,且是一个无单位的量值,且-1 r 0 为正相关,为正相关,r 0 为负相关;为负相关; r 越接近于越接近于1,说明相关性越好;越接近于,说明相关性越好;越接近于0,相关性越差。,相关性越差。uSpearman等级相关系

3、数:当数据不满足条件双变量正态时。等级相关系数:当数据不满足条件双变量正态时。相关分析简介相关分析简介v 连续变量的相关指标(最常见)连续变量的相关指标(最常见)浙江大学医学院流行病与卫生统计学教研室 沈毅uGamma统计量:统计量:描述有序分类变量数据联系强度的指标,描述有序分类变量数据联系强度的指标,以下指标都是基于以下指标都是基于Gamma统计量衍生出来的。统计量衍生出来的。uKendalls Tau-b:反映两个有序分类变量的一致性。反映两个有序分类变量的一致性。uKendalls Tau-c: 对对Kendalls Tau-b进行了校正。进行了校正。相关分析简介相关分析简介v 有序变

4、量的相关指标有序变量的相关指标浙江大学医学院流行病与卫生统计学教研室 沈毅u列联系数:基于列联系数:基于 2值得出值得出uPhi and Cramers V:也是基于:也是基于 2值得出值得出uLambda 系数:系数:用于反映自变量对因变量的预测效果用于反映自变量对因变量的预测效果u不确定系数不确定系数相关分析简介相关分析简介v 名义变量的相关指标名义变量的相关指标浙江大学医学院流行病与卫生统计学教研室 沈毅uEta uKappa 值值uOR、RR等等相关分析简介相关分析简介v 其他相关指标其他相关指标浙江大学医学院流行病与卫生统计学教研室 沈毅相关分析简介相关分析简介v 实际上,在实际上,

5、在Crosstabs Crosstabs 过程的过程的statistics statistics 子对话框子对话框 中提供了非常整齐的相关分析指标体系,如左图。中提供了非常整齐的相关分析指标体系,如左图。浙江大学医学院流行病与卫生统计学教研室 沈毅 除了除了Crosstab过程的过程的statistics 子对话框外,子对话框外,SPSS还在还在statistics菜单的菜单的correlation中提供了几个更专业的相关分析中提供了几个更专业的相关分析过程:过程:uBivariate 过程:最常用过程:最常用uPartial 过程:专门进行偏相关分析过程:专门进行偏相关分析uDistance

6、s 过程:一般不单独使用,而用于因子分析、聚过程:一般不单独使用,而用于因子分析、聚类分析和多维尺度分析的预分析类分析和多维尺度分析的预分析相关分析简介相关分析简介浙江大学医学院流行病与卫生统计学教研室 沈毅 例例1 某医院研究某种代乳粉的营养价值是用大白鼠做试验,某医院研究某种代乳粉的营养价值是用大白鼠做试验,得大鼠进食量和体重增量间的关系的原始数据如下,试分得大鼠进食量和体重增量间的关系的原始数据如下,试分析两者有无直线相关关系。(数据文件见析两者有无直线相关关系。(数据文件见corr.sav)动物编号12345678910进食量feed82078072086769078793467963

7、9820体重增量weight165158130180134167186145120158进食量和体重增量的数据进食量和体重增量的数据简单相关分析简单相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅首先绘制散点图,结果如下:首先绘制散点图,结果如下:简单相关分析简单相关分析v 两变量间存两变量间存在线性相关趋势在线性相关趋势v 没有发现明没有发现明显的异常值显的异常值浙江大学医学院流行病与卫生统计学教研室 沈毅简单相关分析简单相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅选入希望进选入希望进行相关分析行相关分析的变量的变量选择相关分选择相关分析指标析指标简单相关分析简单相关分析浙江大学

8、医学院流行病与卫生统计学教研室 沈毅Correlations1.940*.0001010.940*1.0001010Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N进食量体重增量进食量体重增量Correlation is significant at the 0.01 level (2-tailed).*. 简单相关分析简单相关分析结果分析结果分析v Pearson Pearson相关系数为相关系数为0.9400.940,且具有统计学意义,表,且具有统计学意义,表明明feedfeed和和weightwe

9、ight有非常密切的关系,随着有非常密切的关系,随着feedfeed的增加,的增加,weightweight也随之增加。也随之增加。浙江大学医学院流行病与卫生统计学教研室 沈毅简单相关分析简单相关分析v 利用上述对话框可以计算秩相关系数,利用上述对话框可以计算秩相关系数,即即spearmanspearman相关系数,相关系数,对原始数据分布不作要求,利用两变量的秩次关系作线性相关分对原始数据分布不作要求,利用两变量的秩次关系作线性相关分析,适用范围更广,但效能也较低。析,适用范围更广,但效能也较低。浙江大学医学院流行病与卫生统计学教研室 沈毅Correlations1.000.899*.000

10、1010.899*1.000.000.1010Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N进食量体重增量Spearmans rho进食量体重增量Correlation is significant at the 0.01 level (2-tailed).*. 简单相关分析简单相关分析结果分析结果分析v 对上面的例子计算秩相关系数的结果显示,秩相关系数对上面的例子计算秩相关系数的结果显示,秩相关系数为为0.8990.899,P P 值值0.0010.001。浙江大学医学院流行病与卫生

11、统计学教研室 沈毅简单相关分析简单相关分析v 上述对话框可用于计算上述对话框可用于计算kendallskendalls等级相关系数,等级相关系数,适用适用于两变量均为有序分类的情况。于两变量均为有序分类的情况。浙江大学医学院流行病与卫生统计学教研室 沈毅Correlations1.000.750*.0031010.750*1.000.003.1010Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N进食量体重增量Kendalls tau_b进食量体重增量Correlation is sig

12、nificant at the 0.01 level (2-tailed).*. 简单相关分析简单相关分析结果分析结果分析v 对上面的例子计算等级相关系数,结果显示,等级相关系数为对上面的例子计算等级相关系数,结果显示,等级相关系数为0.750,P P 值值0.003。v 注意本例并未违反计算积差相关系数的适用条件,这里仅仅是注意本例并未违反计算积差相关系数的适用条件,这里仅仅是作为演示用。作为演示用。浙江大学医学院流行病与卫生统计学教研室 沈毅v 大家可以发现,大家可以发现,对相同的数据,秩相关系数和对相同的数据,秩相关系数和等级相关系数的绝对值均比积差相关系数小,为等级相关系数的绝对值均比

13、积差相关系数小,为什么?什么?简单相关分析简单相关分析v 显然,这是由于在秩变换或数据按有序分类处显然,这是由于在秩变换或数据按有序分类处理时损失信息所导致的。理时损失信息所导致的。浙江大学医学院流行病与卫生统计学教研室 沈毅v 前面介绍的相关分析是分析两个计量资料间的关前面介绍的相关分析是分析两个计量资料间的关系,在计算积差相关系数、系,在计算积差相关系数、Spearman Spearman 相关系数和相关系数和KendallsKendalls相关系数的时候,都没有考虑第三方的相关系数的时候,都没有考虑第三方的影响,这就导致可能对事物的解释出现偏差。下面影响,这就导致可能对事物的解释出现偏差

14、。下面以一个例子对此作进一步的说明。以一个例子对此作进一步的说明。偏相关分析偏相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅 例例2 某地某地29名名13岁男童身高(岁男童身高(x1,cm)、体重()、体重(x2,kg)及肺活量的实测数据文件为及肺活量的实测数据文件为partial.sav。试计算其简单。试计算其简单相关系数。当体重固定时,计算身高与肺活量的偏相关相关系数。当体重固定时,计算身高与肺活量的偏相关系数,并做假设检验。系数,并做假设检验。偏相关分析偏相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅偏相关分析偏相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅偏相关分析偏

15、相关分析选择需要选择需要在偏相关在偏相关分析时进分析时进行控制的行控制的变量。变量。浙江大学医学院流行病与卫生统计学教研室 沈毅 选择选择Zero-order correlations 复选框,则可以给出包括复选框,则可以给出包括协变量在内所有变量两两相关的系数阵。协变量在内所有变量两两相关的系数阵。偏相关分析偏相关分析浙江大学医学院流行病与卫生统计学教研室 沈毅偏相关分析偏相关分析结果分析结果分析v 可见,控制了体重的影响后,身高和肺活量之间的关系无统可见,控制了体重的影响后,身高和肺活量之间的关系无统计学意义。计学意义。包括协变包括协变量在内所量在内所有变量两有变量两两相关的两相关的系数阵

16、。系数阵。浙江大学医学院流行病与卫生统计学教研室 沈毅Distance 过程过程 简单相关和偏相关有一个共同点,那就是对所分析的简单相关和偏相关有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但有时会遇到一种数据背景应当有一定程度的了解。但有时会遇到一种情况,在分析之前对数据所代表的专业背景知识了解情况,在分析之前对数据所代表的专业背景知识了解尚不充分,本身就属于探索性的研究,这时往往就需尚不充分,本身就属于探索性的研究,这时往往就需要先对几个指标或者案例的差异性、相似程度进行考要先对几个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步的了解,然后再根据结果察,以先对数

17、据有一个初步的了解,然后再根据结果考虑如何进行深入的分析。考虑如何进行深入的分析。浙江大学医学院流行病与卫生统计学教研室 沈毅 Distance Distance 过程用于计算记录或变量间的距离(或相似过程用于计算记录或变量间的距离(或相似程度),根据变量的不同类型可以有许多距离、相似程程度),根据变量的不同类型可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的过程,因此距离分析并不会给出常用的P P 值,而只给值,而只给出距离大小,以供用户自行判断相似性。出距离大小,以供用户自行判断相似性。

18、Distance 过程过程浙江大学医学院流行病与卫生统计学教研室 沈毅 例例3 某实验室制作了一张基因芯片,上面一共检测了某实验室制作了一张基因芯片,上面一共检测了上万个基因,现在从数据库中提取出上万个基因,现在从数据库中提取出7个基因的数据,个基因的数据,由于对这由于对这7个基因的生物学功能现在一无所知,因此首个基因的生物学功能现在一无所知,因此首先想对其进行距离测量,看看哪几个基因先想对其进行距离测量,看看哪几个基因“距离距离”比比较接近,然后可以通过临床或实验室进一步验证。较接近,然后可以通过临床或实验室进一步验证。(数据见(数据见distance.sav。)。)Distance 过程过

19、程浙江大学医学院流行病与卫生统计学教研室 沈毅Distance 过程过程浙江大学医学院流行病与卫生统计学教研室 沈毅Distance 过程过程注意选择注意选择该项该项浙江大学医学院流行病与卫生统计学教研室 沈毅Proximity Matrix.000.7792.416.7491.006.7811.424.779.0001.749.8041.106.9331.5782.4161.749.0002.1062.4802.3492.784.749.8042.106.0001.312.5211.0851.0061.1062.4801.312.0001.4001.864.781.9332.349.5211

20、.400.000.9621.4241.5782.7841.0851.864.962.000FPGSELF3CDK2AP1GFRA2TCEB1NFE2IRF2FPGSELF3CDK2AP1GFRA2TCEB1NFE2IRF2 Euclidean DistanceThis is a dissimilarity matrixDistance 过程过程结果分析结果分析v 可见,可见,代号为代号为CDK2AP1CDK2AP1,TCEB1TCEB1和和IRF2IRF2三个基因比较接近,三个基因比较接近,可以粗略的划为一类,而可以粗略的划为一类,而FPGS,ELF3FPGS,ELF3和和GFRA2GFRA2

21、可以划为另一类,可以划为另一类,而而NFE2NFE2可能作为单独一类,这样就可以进一步研究了。可能作为单独一类,这样就可以进一步研究了。浙江大学医学院流行病与卫生统计学教研室 沈毅 例例4 仍以数据仍以数据corr.sav为例,进一步作回归分析,为例,进一步作回归分析,计算进食量与体重增量之间的回归方程。计算进食量与体重增量之间的回归方程。 分析:分析: 与相关分析类似,在回归分析之前首先要考虑的问题是两与相关分析类似,在回归分析之前首先要考虑的问题是两变量是否存在某种趋势,通过前面的变量是否存在某种趋势,通过前面的散点图散点图已经得到了肯已经得到了肯定的结论,因此直接进行回归分析。定的结论,

22、因此直接进行回归分析。简单回归分析简单回归分析浙江大学医学院流行病与卫生统计学教研室 沈毅绘制散点图如下:绘制散点图如下:简单回归分析简单回归分析v 两变量间存两变量间存在线性相关趋势在线性相关趋势v 没有发现明没有发现明显的异常值显的异常值浙江大学医学院流行病与卫生统计学教研室 沈毅简单回归分析简单回归分析浙江大学医学院流行病与卫生统计学教研室 沈毅选择选择应变量应变量选择选择自变量自变量简单回归分析简单回归分析浙江大学医学院流行病与卫生统计学教研室 沈毅Variables Entered/Removedb进食量a.EnterModel1VariablesEnteredVariablesRe

23、movedMethodAll requested variables entered.a. Dependent Variable: 体重增量b. 简单回归分析简单回归分析结果分析结果分析v 对各自变量纳入模型情况的汇总,本例只有一个对各自变量纳入模型情况的汇总,本例只有一个自变量。自变量。浙江大学医学院流行病与卫生统计学教研室 沈毅Model Summary.940a.883.8687.87948Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 进食量a. 简单回归分析简单回归分析结果

24、分析结果分析v 对模型的简单汇总,即对回归方程拟合情况的描述。对模型的简单汇总,即对回归方程拟合情况的描述。本例决定系数为本例决定系数为0.883。浙江大学医学院流行病与卫生统计学教研室 沈毅ANOVAb3737.41113737.41160.197.000a496.689862.0864234.1009RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 进食量a. Dependent Variable: 体重增量b. 简单回归分析简单回归分析结果分析结果分析v 对模型进行方差分析的结果,说明模型具有统计对模型进行方差分析的结果,说明模型具有统计学意义。学意义。浙江大学医学院流行病与卫生统计学教研室 沈毅Coefficientsa-17.35722.264-.780.458.222.029.9407.759.000(Constant)进食量Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论