两变量关联性分析ppt课件.ppt_第1页
两变量关联性分析ppt课件.ppt_第2页
两变量关联性分析ppt课件.ppt_第3页
两变量关联性分析ppt课件.ppt_第4页
两变量关联性分析ppt课件.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章 两变量关联性分析,卫生统计学第六版,1,研究两个事物或现象间的关联性强度。 第一节 线形相关 -两个连续性正态分布资料之间的相关 第二节 秩相关 -两个连续性非正态分布资料 第三节 分类变量的关联性分析 -两个有序变量之间的相关性分析,2,第一节 直线相关,3,直线相关(linear correlation)又称为简单相关(simple correlation),用于研究两个连续性随机变量X和Y之间的线性关系。 为了直观地说明两相关变量的线性依存关系,用表10-1第(2)、(3)列中14名中年健康妇女的基础代谢(kj/d)与体重(KG)的数据在坐标纸上描点,得图11-1所示的散点图(scatter plot)。,一、线性相关的概念及其统计描述,4,5,图10-1 14例中老年健康妇女基础代谢一体重的散点图,基础代谢(kj/d),体重(kg),6,相关的类型,正相关 负相关 完全正相关 完全负相关 称零相关,10-2,7,二、相关系数的意义及计算,样本的相关系数用r (correlation coefficient) 相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,8,相关系数的计算公式,r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,9,计算例10-1的相关系数,10,1、建立假设:H0:=0 H1: 0 =0.05 2、计算检验统计量 n=14,r=0.964,自由度=14-2=12。,3、相r界值表,得统计结论 查r界值表(附表13),得r0.005(12)=0.514,因为r r0.005(12),故P0.005,按=0.05水准拒绝H0,接受H1,可以认为体重和基础代谢之是存在正相关关系。,三、相关系数的统计推断,第一种方法:,11,第二种方法:,12,1、建立假设:H0:=0 H1: 0 =0.05 2、计算检验统计量,3、确定P值,作出统计推论,13,相关系数的可信区间 已知r=0.964,相关系数的可信区间为 (0.8872,0.9888),14,第二节 秩相关,适用条件: 1、不服从双变量正态分布 2、总体分布型未知 3、原始数据用等级表示的资料,15,一、Spearman等级相关,基本思想:观察值 秩 相关系数 计算公式:,相同秩次较多,16,总体等级相关系数s的检验,1、n50时,用查表法(附表14) 2、n50时,,或用直线相关的t检验,17,1、假设: H0:s=0 H1: s0 =0.05 2、计算检验统计量,例10-5 某研究者观测了10例6个月7岁的贫血患儿的血红蛋白含量与贫血体征,研究其相关性。,18,19,本例n10,查rs界值表,得P0.05。按0.05水准拒绝H0,接受H1,可认为贫血患儿的血红蛋白含量与贫血体征之间有负相关关系。,20,第三节 分类变量的关联性分析 关联系数:(r, ) 一、两组二分类 2 2表资料的关联性分析 二、配对22表资料的关联性分析 三、RC表资料的关联性分析,21,问题:两种药物的治愈效有无差别? (平均p=115/169=68.05%),愈合率:奥美拉唑p1=64/85=75.29%,雷尼替丁p2=51/84=60.71%,22,对应奥美拉唑组样本观察值为64和21,构成一个频率分布; 对应雷尼替丁组样本观察值为51和33,构成一个频率分布; 问题:两个样本分布的总体分布是否相等,或两样本是否来自同一总体。,23,独立样本资料的四格表,24,H0:两种药物治疗消化道溃疡的愈合率相同。 即相当于两样本分布的总体分布相等。总体分布未知,用两样本联合计算的频率分布作为总体分布的近似。 属性Y1的理论频率近似地等于m1/n 属性Y2的理论频率近似地等于m2/n 那么各个格子的理论频数分别为:,25,那么每个格子的理论频数分别为:,26,27,一、两组独立二分类资料的 2 2表关联性分析,资料特点:是两组独立设计的二分类资料。 问题:试分析两种属性的关联性?,28,在H0条件下 rinri/n, cjmcj/n. (用频率作为概率的估计值) 这时每一格子中的概率ij: ij= ricj=(n ri/n)(mcj/n) i,j=1,2 (10-11) 或期望频数: Tij= n ij =n (n ri/n)(mcj/n) = n ri(mcj/n) i,j=1,2 (10-12) 可以得到卡方统计量:,29,(Phi coefficient): 四格表专用,关联系数,Pearson列联系数,Cramer V系数,30,假设检验的步骤: 1)提出检验假设, H0:两种属性相互独立 H1:两种属性相互关联 0.05,双侧概率,2)计算统计量,31,4) 计算 (Phi coefficient):,统计学推论:大学生专业与艾滋病知晓程度有轻度关联性.,确定P值和统计学判断: 2(1)=3.8442.58, P0.05, 在=0.05水平上拒绝无效假设,32,二、配对22表资料的关联性分析,问题:两种检验方法的结果是否存在关联?,33,1. 建立检验假设,确定检验水平 H0:培养基与结果间独立 H1:培养基与结果间不独立 0.05,双侧概率 2. 计算统计量,3.两种检验方法的结果存在关联性,34,三、多组多分类的RC表资料的关联性分析,资料特点:三个组是独立设计。 问题:胃病类型与职业类型之间是否有关?,35,1. 建立检验假设,确定检验水平 H0:胃病类型与职业类型之间独立 H1:胃病类型与职业类型之间不独立 0.05,双侧概率 2. 计算检验统计量 ,作假设检验。用(9-10)式作卡方检验,3.结论:胃病类型与职业类型之间有关联,36,1. 建立检验假设,确定检验水平 H0:两种血型间无关联 H1:两种血型间有关联; 0.05,双侧概率 2. 计算检验统计量 ,作假设检验。,37,3. 计算列联系数:,统计学判断:ABO血型与MN血型之间有很轻微的关联性。,38,三、相关系数应用中的注意事项,1. 必须先绘制散点图,决定是否为直线相关、是否有异常值和是否某一变量为固定取值变量。 2. 一个变量的数值人为选定时莫作相关。 因为X不随机,样本散点分布可能与总体分布情况相差甚远。计算的r不接近。,39,3、出现离群值时慎用相关11-4(a) 4、相关关系不一定是因果关系 (1)因果关系 (2)伴随关系 (3)间接关系,40,某地有风俗,每当小孩出生,均在自家庭院中种上一棵树,随着树的生长,小孩也在长高。你认为两者是什么关系?,伴随关系,41,5慎重合并分层资料 当且仅当分层情形下,两变量的关系不会因为合 并而被歪曲时才可考虑合并。 (b)无相关相关 (c)相关无相关 (d)正相关负相关,42,案例分析(相关),43,案例分析(相关),44,1. 理解线形相关的概念

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论