版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Linear correlation线性相关两指标间的关系分析易洪刚Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University直线相关分析(linear correlation analysis)1 问题的提出 the Relationship 2 确定性关系与相关关系3 相关关系4 散点图5 Pearson相关系数6 相关系数的计算7 相关系数的性质8 相关关系示意图9 相关系数的含义10 相关系数的假设检验11 总体相关系数的区间估计12 相关分析的正确应用问题
2、的提出以往方法的局限仅限于考察一个观察指标 昆明治疗羊角风医院/ 昆明军海医院癫痫病/ 昆明治疗羊角风医院/ 昆明治疗癫痫病比较好的医院/问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率R1R1R2R1R2R31 the Relationship Type One1 the Relationship
3、 Type Two相关关系与确定性关系(2)当对事物的规律了解加深时,相关关系可以转变为确定性关系。父亲患白化病X, (X=是,否);子女患白化病Y, (Y=是,否);X与Y的关系不确定。当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者出外。)3 相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。 若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变
4、化趋势是反向的,则称为负相关(negative correlation)。3 相关关系3 相关关系 The story Sir Francis Galton 1822-1911 an explorer and anthropologist half-cousin of Charles Darwin Heredity experiments lead to initial concepts of correlation and regression. Sweet peas experiment (1875) Symmetric studies of Stature (1885)3 相关关系 Th
5、e storyCorrelation exists between two variables when one of them is related to the other in some way.3 相关关系 The story4 Scatter plot (or scatter diagram)is a graph in which the paired (x,y) sample data are plotted with a horizontal x axis and a vertical y axis. Each individual (x,y) pair is plotted a
6、s a single point.散点图(Scatter plot )在平面直角坐标系上标识两变量(x,y)间关系的统计图。16.51717.51818.515161718192021Figue 1 Plot of Diameter of Daughter Seed versus Diameter of Parent Seed from the data in Table 1. 反映两定量指标间的相关关系用 Pearson 相关系数,r。 (Pearson correlation coefficient) 用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标.Correlatio
7、n analysis Analysis of the degree to which changes in one variable are associated with changes in another variable.5 Pearson相关系数5 Pearson相关系数X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和: 以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。6 相关系数的计算6 相关系数的计算6 相关系数的计算10名3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面
8、积Y(103cm2)例10.1资料相关系数的计算6 相关系数的计算6 相关系数的计算7 相关系数的性质-1 r 1r0为正相关r0为负相关r0为零相关或无相关相关系数绝对值越大,两变量间相关程度越密切;相关系数越接近于0,表示相关越不密切。r = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关8 相关关系示意图r =-1-1r 0r =0直线相关的图示与相关系数的关系0r 1r =1相关系数的正负示意图体重(kg),X肺活量Y(L)40424446485052545658602.22.42.6
9、2.83.03.23.43.6体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6相关系数的大小示意图r = 1 0 r 1r = 09 相关系数的含义(了解)协方差(covariance,COV):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。样本协方差:9 相关系数的含义(了解)对协方差的理解为正为负为正为负协方差为大的正值时,表示强的正相关。对协方差的理解协方差接近于零时,表示很小或没有线性相关关系。对协方差的理解协方差为大的负值时,表示强的负相关。协方差为大的正值时,表示强的正相关。协方差接近于零时,表示很
10、小或没有线性相关关系。协方差为大的负值时,表示强的负相关。对协方差的理解-Are they right?-Maybe.cmkgmmkg大于基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。 相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。XY10 相关系数的假设检验0H 0:0,亲代种子直径与子代无相关关系;H 1: 0,亲代种子直径与子代有相关关系。 = 0.05。t 服从自由度为n-2的 t 分布。10 相关系数的假设检验Table 1 资料相关系数的假设检验自由度102,P=0.0020拒绝H0,接受H1。可以认为亲代种子直径与子代之间有正相关关系,相关
11、系数为0.93。H 0:0,体重与体表面积无相关关系;H 1: 0,体重与体表面积有相关关系。 = 0.05。t 服从自由度为n-2的 t 分布。例10.1资料相关系数的假设检验例10.1资料相关系数的假设检验自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。11 总体相关系数的区间估计从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。 相关系数的抽样分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0相关系数的抽样分布( = 0)-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81
12、.00100200300相关系数的抽样分布( =0.8) 00.20.40.60.81.00100200300R.A. Fisher(1921) 的 z 变换 z 近似服从均数为 ,标准差为 的正态分布。 相关系数的z 值的抽样分布( = - 0.8)00.51.01.52.0050100150200相关系数的z 值的抽样分布( = 0)-2-1012050100150200相关系数的z 值的抽样分布( = 0.8) 01234050100150200相关系数的可信区间估计将 r 变换为 z ;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r 。相关系数的可信区间估计 Fis
13、hers 变换 r z 正态近似 Fishers 反变换 的95CI z的95CI 该可信区间有什么含义?例 某医院分别测定正常成年男子12人和正常成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。两个相关系数的比较(了解)两个相关系数的比较(了解)男女的心率和电机械收缩时间分析思路:两组资料的相关性如何?两个相关系数是否相等?由于相关系数并不服从正态分布,因此对两个相关系数的差别的假设检验可以通过z变换的原理,对两个z变换值作假设检验得到。24名成年男女的心率(X)
14、与收缩时间(Y)的散点图 男性 女性 5060708090100300350400450心率(次/分)收缩时间(毫秒)5060708090300350400450100心率(次/分)分别对两相关系数是否为0进行假设检验。=122=10,则P10.001,P20.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。等级资料的相关(了解)Spearman等级相关将各变量X,Y分别编秩RX, RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs1例 抗白指数与临床疗效的关系某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗
15、效的分析,问抗白指数与临床疗效间有无关系? 病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290RX(3)123456789101112RY(4)99911.511.53336.56.533RX(3)123456789101112RY(4)99911.511.53336.56.533rs = = -0.6894等级资料的相关(了解)等级相关的假设检验H 0:S0,抗白指数与疗效无相关关系;H 1: S0,抗白指数与疗效有相关关系。 = 0.05。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由
16、度为n-2的 t 分布。资料的假设检验本例 n = 12, 查界值表,得: rs(0.05,12)=0.587即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs = -0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。例 母亲文化程度与儿童智商的关系母亲文化程度 儿童智商等级 (Y)合计 (X) 中下中等中上上等 小学2281303136 初中5723613526454高中或中专1111210517245大专及以上1410722 合计9143328053857rs=0.2261大样本时的等级相关检验本例 n =857,大于50,用
17、 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。 相关关系不等于因果关系; 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; 极端值可能影响相关系数; 注意相关关系成立的数据范围; 警惕虚假相关。12 相关分析的正确应用定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;12 相关分析的正确应用某地160名20岁男子身高与体重散点图(双变量正态分布) 成都市男中小学生12个年龄组的平均身高 紫外光对新生小鼠背皮ATP酶阳性的郎格汉斯细胞(LC)照射不同时间的细胞密度(个/mm3)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水风光一体化低碳生产运营优化改良方案
- 医疗护理安全管理规范更新
- 施工现场临时用电设备维护规定
- Java微服务网关安全认证规范
- 工程机械进退场交接管理方案
- 会议室空气质量监测手册制度
- 建筑幕墙施工投标答辩材料策划
- 医疗废物分类收集转运处置流程
- 胃肠外科科室管理制度
- 手卫生依从性监测与改进措施
- 七脉轮教学课件
- 110KV输电线路工程监理实施细则
- 废金属拆除回收合同范本
- 行业调研方法课件
- 《NBT-页岩气工具设备第4部分:套管漂浮器编制说明》
- 688高考高频词拓展+默写检测- 高三英语
- 贵州省2025届高三下学期普通高中学业水平选择性考试物理试题(解析版)
- 尚贤中学考试试题及答案
- 汽修厂维修质量事故责任追究制度
- 护理专业人才培养综述论文范文
- 2025年四川省宜宾市中考物理试卷及答案
评论
0/150
提交评论