




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1分类资料的统计分类资料的统计分析分析邹宇量邹宇量武汉大学公共卫生学院武汉大学公共卫生学院2变量类型3 此类资料的整理常常先将研究对象按其性此类资料的整理常常先将研究对象按其性质或特征分类,再分别计数每一类的例数,质或特征分类,再分别计数每一类的例数,常用常用率、构成比、相对比率、构成比、相对比等指标来进行统等指标来进行统计描述计描述4一、相对数一、相对数的概念的概念二二、相对数使用相对数使用时时应注意的问题应注意的问题三三、分类资料的统计、分类资料的统计主要内容5一、相对数一、相对数的概念的概念二二、相对数使用相对数使用时时应注意的问题应注意的问题三三、分类资料的统计、分类资料的统计主要内容
2、6例:某病用例:某病用A A法治疗法治疗100100人,有效人,有效8080人;人;B B法治疗法治疗 150150人,有效人,有效100100人。若仅用绝对数人。若仅用绝对数8080人和人和100100人比人比较会得到较会得到B B法比法比A A法好的错误结论。法好的错误结论。 在比较两法的疗效,使计数资料具有可比性,在比较两法的疗效,使计数资料具有可比性,将原始的两个资料(绝对数)之比所得指标统称为将原始的两个资料(绝对数)之比所得指标统称为相对数(相对数(relative numberrelative number)。)。 相对数的引入7比(比(ratio)构成比(构成比(proport
3、ion) 率(率(rate)相对数种类8比(ratio) 两个变量之比两个变量之比 可以是性质相同的两个指标可以是性质相同的两个指标 两个地区相同时期内某病新发病例数之比两个地区相同时期内某病新发病例数之比 也可以是性质不相同的两个指标之比也可以是性质不相同的两个指标之比 性别比,货物性别比,货物/销售人员比、人口密度等销售人员比、人口密度等 两者的比值须有专业意义,不能任意求两个指标之比值两者的比值须有专业意义,不能任意求两个指标之比值ARB=指标指标9流行病学中常用的比 相对危险度相对危险度(RRRR,Relative RiskRelative Risk) 两个率之比两个率之比 12PRP
4、=10 比值比比值比/ /优势比优势比(Odds RatioOdds Ratio) Odds:某事件发生(存在)与不发生之比。反映了两:某事件发生(存在)与不发生之比。反映了两种结局出现的概率差异(种结局出现的概率差异(优势优势) OR:两种情况下的优势之比:两种情况下的优势之比两个比的两个比的“比比”,不太好解释,大多数情况下人们希望,不太好解释,大多数情况下人们希望能够将优势比按照相对危险度的含义来解释能够将优势比按照相对危险度的含义来解释当所关注的事件发生概率比较小时(当所关注的事件发生概率比较小时(0.10.1),优势),优势比可作为相对危险度的近似比可作为相对危险度的近似流行病学中常
5、用的比11构成比(proportion) 部分占总体的比例部分占总体的比例 构成比的分子是分母的一部分,所以其构成比的分子是分母的一部分,所以其取值必在取值必在0与与1之间,各部分的构成比之和之间,各部分的构成比之和应当为应当为112率(rate)某个时期内某事件发生的某个时期内某事件发生的频率频率或或强度强度具有时间概念的具有时间概念的比比,实际上可以和物理中速率的,实际上可以和物理中速率的定义相对照定义相对照严格意义上的率:按上式计算,率的分子也应是分母的严格意义上的率:按上式计算,率的分子也应是分母的一部分,故其取值也应在一部分,故其取值也应在0到到1之间变动之间变动某时期内发生某事件的
6、观察单位数率该时期开始时暴露的观察单位数13实际应用中的率 真正意义的率:真正意义的率: 死亡率死亡人数与手术人数之比(死亡率)死亡率死亡人数与手术人数之比(死亡率) 术后出院肝癌病人在术后出院肝癌病人在5年内因肝癌死亡人数与年内因肝癌死亡人数与观察满观察满5年的人数之比(年的人数之比(5年生存年生存/死亡率)等死亡率)等 需观察一段时间后才能得出,它们也是需观察一段时间后才能得出,它们也是相应相应概率概率的估计值,可以用以后介绍的方的估计值,可以用以后介绍的方法计算其可信区间和进行差别的假设检验法计算其可信区间和进行差别的假设检验14二、相对数使用时应注意的问题15率的误用 由于传统原因,医
7、学中有许多指标也会被称为由于传统原因,医学中有许多指标也会被称为“率率”,他们实际上并不符合率的定义,因此不,他们实际上并不符合率的定义,因此不能使用和率有关的统计推断方法来进行分析能使用和率有关的统计推断方法来进行分析名名称为率,实质为构成比的指标。称为率,实质为构成比的指标。16率的误用(举例) 横断面调查中常可得出某人群某病患病率,是对横断面调查中常可得出某人群某病患病率,是对人群中该病患者比例的描述,静态人群中该病患者比例的描述,静态 类似还有入院诊断符合率、艾滋病知识知晓率、类似还有入院诊断符合率、艾滋病知识知晓率、低体重儿发生率。其特点也是分子是分母的一部低体重儿发生率。其特点也是
8、分子是分母的一部分,它们也是相应分,它们也是相应概率概率的估计值,可以用以后介的估计值,可以用以后介绍的方法计算其可信区间和进行差别的假设检验绍的方法计算其可信区间和进行差别的假设检验17称为率,实为比(ratio)的指标 分子与分母不是同一范畴分子与分母不是同一范畴 婴儿死亡率(某年不足一岁死亡婴儿数婴儿死亡率(某年不足一岁死亡婴儿数/同年活产数)同年活产数) 分子可重复计数分子可重复计数 计算某地区某年内流感计算某地区某年内流感发病率发病率 这两种情况的这两种情况的“率率”,不能直接用后面介绍的有,不能直接用后面介绍的有关率的统计推断方法作差别的假设检验,也不能关率的统计推断方法作差别的假
9、设检验,也不能简单地进行可信区间的计算。此类问题可用计算简单地进行可信区间的计算。此类问题可用计算统计学方法来解决推断问题,也可按其概率分布统计学方法来解决推断问题,也可按其概率分布规律来进行建模规律来进行建模18相对数使用应注意的问题 不要把构成比与率相混淆不要把构成比与率相混淆 (地铁时代报新闻)清华大学今年的研究结(地铁时代报新闻)清华大学今年的研究结果表明,黑车行驶在路上的事故率为果表明,黑车行驶在路上的事故率为50%以以上,而粉色和白色车的事故率则最小。上,而粉色和白色车的事故率则最小。19相对数使用应注意的问题已婚育龄妇女不同情况下放环失败率的比较已婚育龄妇女不同情况下放环失败率的
10、比较 原因:分母差异,初期暴露人数原因:分母差异,初期暴露人数另外:观察时间?另外:观察时间?20相对数使用应注意的问题 不要把不要把构成比与率构成比与率相混淆相混淆如:临床上观察到如:临床上观察到100100例避孕失败例避孕失败 安全期:安全期:5050 避孕套避孕套:3030 子宫环子宫环:1010 药物及其他:药物及其他:101030 / 100,000 = 万分之三万分之三10 / 10000 = 千分之一千分之一时间跨时间跨度相同度相同21相对数使用应注意的问题 计算相对数时计算相对数时分母分母不宜过小不宜过小 除非公认结局的事件,否则只有一两例除非公认结局的事件,否则只有一两例的样
11、本并不能说明什么问题的样本并不能说明什么问题 某医师用组织埋藏法治疗两例视网膜炎患者,某医师用组织埋藏法治疗两例视网膜炎患者,一例有效,有效率一例有效,有效率50% 某医院治愈了一例某医院治愈了一例AIDS 以前的千万个未治愈病例在共同提供信息以前的千万个未治愈病例在共同提供信息22相对数使用应注意的问题 计算相对数时计算相对数时分母分母不宜过小不宜过小- 但动物实验时,可以通过周密设计,严格控制但动物实验时,可以通过周密设计,严格控制实验条件,例如某毒理实验,每组用实验条件,例如某毒理实验,每组用10只纯种只纯种小鼠也可以了小鼠也可以了 分母分母到底多大才可以?到底多大才可以? 要根据研究目
12、的、研究设计、研究指标而要根据研究目的、研究设计、研究指标而定!定!23相对数使用应注意的问题 要注意资料的要注意资料的可比性可比性 影响率或构成比变化的因素很多,除了研究因素外,影响率或构成比变化的因素很多,除了研究因素外,其余影响因素应尽可能相同或相近,即在相同条件其余影响因素应尽可能相同或相近,即在相同条件下比较才有意义下比较才有意义 观察对象、研究方法、观察时间、地区和民族等因素应观察对象、研究方法、观察时间、地区和民族等因素应相同或相近。这些因素须在设计或分析阶段很好地控制。相同或相近。这些因素须在设计或分析阶段很好地控制。 其它对观察结果有影响的因素在比较的各组内部其它对观察结果有
13、影响的因素在比较的各组内部构成构成是是否相同。否则只比分组比较,或进行标准化否相同。否则只比分组比较,或进行标准化24相对数使用应注意的问题 要注意使用率的要注意使用率的标准化标准化除研究因素外的其他影响因素在各组的内部构除研究因素外的其他影响因素在各组的内部构成不相同成不相同如比较两地区总如比较两地区总死亡率死亡率时,两组资料年龄、性时,两组资料年龄、性别构成不同,只能比较分性别、分年龄的率或别构成不同,只能比较分性别、分年龄的率或标准化率标准化率25相对数使用应注意的问题 比较两个样本率或构成比时,应考虑存在比较两个样本率或构成比时,应考虑存在抽样误差抽样误差,对于样本之间的差异应作,对于
14、样本之间的差异应作统计统计学检验学检验26三、相对数的统计分析272检验检验(Chi Square Test )28 推断两个总体推断两个总体率率或或构成比构成比之间有无差别之间有无差别 多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别 多个样本率比较的分割多个样本率比较的分割 两个分类变量之间有无关联性两个分类变量之间有无关联性 频数分布拟合优度的检验。频数分布拟合优度的检验。 检验统计量检验统计量: 应用:计数资料应用:计数资料2目的29率差异的显著性检验 当样本量较大,当样本量较大,P 和(和(1-P)都都不太小时不太小时,样,样本率的频数分布近似正态分布,可用本率的频数分布
15、近似正态分布,可用u检验或检验或卡方检验。卡方检验。 如果率比较低,样本较小时,样本率的频数分布不符合正态如果率比较低,样本较小时,样本率的频数分布不符合正态分布,可用直接概率法、二项分布或泊松分布检验。分布,可用直接概率法、二项分布或泊松分布检验。 SMR或或SPMR的检验可用卡方检验。的检验可用卡方检验。22()()()()()ad bc na b a c b d c d30第一节 两个率(或构成比)的比较概要概要 比较两组具有二分类结局的数据比较两组具有二分类结局的数据 2 2 表(四格表)表(四格表) 将数据整理入四格表中将数据整理入四格表中 统计量:统计量:2 四格表计算四格表计算2
16、的简便公式的简便公式31两个率(或构成比)的比较 我们感兴趣的是:两组中某两分类的结局我们感兴趣的是:两组中某两分类的结局或特征的分布是否相同?或特征的分布是否相同?推断两个总体率(构成比)是否有差别 数据可整理为数据可整理为 2 2 (四格表)表资料(四格表)表资料32 例:为了解某中药治疗原发性高血压的疗例:为了解某中药治疗原发性高血压的疗效,将效,将7070名名高血压患者随机分为两组。试验高血压患者随机分为两组。试验组用该药加辅助治疗,对照组用安慰剂加辅组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如下表,问该药治疗原发助治疗,观察结果如下表,问该药治疗原发性高血压是否有效?性高
17、血压是否有效?基本公式和基本思想33表 两种疗法治疗原发性高血压的疗效 34原始数据35数据整理36数据整理 治疗组有效治疗组有效率率:81% 安慰剂组有效率:安慰剂组有效率:45% 疗效的绝对差异:疗效的绝对差异:36% 治疗组与安慰剂组相比,疗效的相对差异治疗组与安慰剂组相比,疗效的相对差异是是80% (0.81-0.45)/0.45=0.8100% =80% 率比率比:81%45%=1.837数据整理 中药有效中药有效优势优势: P(有效有效)/P(无效无效)=(21/26)/(5/26)=4.2 安慰剂有效优势:安慰剂有效优势: P(有效有效)/P(无效无效)=(20/44)(24/4
18、4)=0.83 两组疗效的两组疗效的优势比优势比: 中药中药 比比 安慰剂安慰剂 (中药有效优势中药有效优势)/(安慰剂有效优势安慰剂有效优势)= 4.2/0.83 =5.0638问题 中药和安慰剂治疗有效率的差异是否大于中药和安慰剂治疗有效率的差异是否大于由于由于抽样误差抽样误差造成的差异?造成的差异?39两组比较 如果两组如果两组疗效一致疗效一致,将可能是何种频数分布?,将可能是何种频数分布?表表 两种疗法治疗原发性高血压的疗效两种疗法治疗原发性高血压的疗效 40两组比较表表 两种疗法治疗原发性高血压的疗效两种疗法治疗原发性高血压的疗效 41实际观察数与期望数比较实际观察实际观察疗效一致的
19、期望数疗效一致的期望数422统计量 2统计量统计量 行行列表中,所有列表中,所有k个格子,实际观察数与期望数之间个格子,实际观察数与期望数之间的的差值差值 计算所有的计算所有的频数频数(计数),不计算构成比(计数),不计算构成比22()A TT式中,式中,A为为实际实际频数(频数(actual frequency) T为为理论理论频数(频数(theoretical frequency)43由公式可看出:卡方值大小还取决于格子数的多少由公式可看出:卡方值大小还取决于格子数的多少检验的检验的自由度自由度取决于可以自由取值的格子数目,而不取决于可以自由取值的格子数目,而不是样本含量是样本含量n n。
20、四格表资料只有两行两列,自由度。四格表资料只有两行两列,自由度=1=1,即在周边合计数固定的情况下,即在周边合计数固定的情况下,4 4个基本数据当中只有个基本数据当中只有一个可以自由取值一个可以自由取值自由度44实例计算两种疗法治疗原发性高血压的疗效两种疗法治疗原发性高血压的疗效 222222025.824 18.221 15.25 10.88.4025.818.215.210.8(2 1)(2 1)1P1 危险因素,危险因素,RR越大,联系强度越强;越大,联系强度越强; RR1 保护因素,保护因素,RR越小,联系强度越强;越小,联系强度越强; RR=1 研究因素与疾病无联系。研究因素与疾病无
21、联系。 RR的点估计值(样本值)的点估计值(样本值) RR的的95%可信区间(总体范围):可信区间(总体范围): 59OR vs. RR Cohort sampling Full population (unobserved) HRT: Hormone replacement therapy MI: myocardial infarction60OR vs. RR Cohort sampling RR=I1/I0=a/(a+b)/c/(c+d)=(15/500)/(25/500)=0.60 OR=odds1/odds2=(15/485)/(25/475)=0.5961软件实现 csi 15 2
22、5 485 475, or level(95)62OR vs. RR Case-control sampling63OR vs. RR Case-control sampling RR? OR=odds1/odds2 =ad/bc=(60366)/(94400)=0.58 Bayes公式公式64软件实现 cci 60 400 94 366, level(95)65OR vs. RR Full population (unobserved) Cross-sectional sampling?66两相关样本率检验(McNemar检验) 配对四格表资料的 检验267与计量资料推断两总体均数是否有差与
23、计量资料推断两总体均数是否有差别有别有成组设计成组设计和和配对设计配对设计一样,计数一样,计数资料推断两个总体资料推断两个总体率率(构成比)是否(构成比)是否有差别也有成组设计和配对设计,即有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。四格表资料和配对四格表资料。68例:例:某抗癌新药的毒理研究中,将某抗癌新药的毒理研究中,将78只大鼠只大鼠按性别、窝别、体重、年龄等因素配成按性别、窝别、体重、年龄等因素配成39对,对,每个对子的两只大鼠经随机分配,分别接受每个对子的两只大鼠经随机分配,分别接受甲剂量和乙剂量注射,试验结果见下表。试甲剂量和乙剂量注射,试验结果见下表。试分析该新药
24、两种不同剂量的毒性有无差异。分析该新药两种不同剂量的毒性有无差异。 69表 某抗癌新药两种剂量的毒理实验结果乙 剂 量 甲 剂 量 死 亡 ( ) 生 存 ( ) 合 计 死 亡 ( ) 6( a) 12( b) 18 生 存 ( ) 3( c) 18( d) 21 合 计 9 30 39 70 上述配对设计实验中,就每个对子而言,两种处上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有理的结果不外乎有四种可能四种可能:两只大鼠均死亡(甲两只大鼠均死亡(甲乙乙)数数(a);两只均生存(甲两只均生存(甲乙乙)数数(d);其中一只死亡(甲其中一只死亡(甲乙乙 )数数(b);其中一只死亡(甲
25、其中一只死亡(甲乙乙)数数 (c)。71其中,其中,a, d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况, b, c为两法观察结果不一致的两种情况为两法观察结果不一致的两种情况。检验统计量为检验统计量为cbcb22)(cbcbc22) 1(1172H0: 总体四格表中甲乙 的对子数与甲乙的对子数出现频率相同 (两剂量毒性相同) ; H1: 总体四格表中甲乙 的对子数与甲乙的对子数出现频率不同 (两剂量毒性不同) ; =0.05 已知样本四格表中,b=12,c=3,因 b+c=15,故将其代入公式 9-13,有 查附表 8,20.025,15.02,20.05,13.84,得 0
26、.025P0.05,按=0.05 水准拒绝 H0,接受 H1,可以认为两种剂量的毒性有差异,甲剂量组的死亡率较高(因 bc) 。 27. 4312) 1321(22c73软件实现 mcci 6 12 3 18, level(95)74注意:注意:本法一般用于本法一般用于样本含量不太大样本含量不太大的资料。因为它仅考的资料。因为它仅考虑了虑了两法结果不一致两法结果不一致的两种情况的两种情况(b, c),而未考虑样,而未考虑样本含量本含量n和两法结果一致的两种情况和两法结果一致的两种情况(a, d)。所以,。所以,当当n很大且很大且a与与d的数值很大(即两法的一致率较的数值很大(即两法的一致率较高
27、),高),b与与c的数值相对较小时,即便是检验结果有的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。统计学意义,其实际意义往往也不大。75行行 列(列(R C)表 检验2 多个样本率比较时,有多个样本率比较时,有R行行2列,称为列,称为R 2表;表; 两个样本的构成比比较时,有两个样本的构成比比较时,有2行行C列,称列,称2C表;表; 多个样本的构成比比较,以及双向无序分类资料关多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为联性检验时,有行列,称为R C表。表。76检验统计量22(1)(1)(1)RCAnn n行数列数77例例:用用A、B、C三种不同方
28、法分别处理新生儿脐带,发生感染三种不同方法分别处理新生儿脐带,发生感染的情况见下表,的情况见下表,试比较试比较3种不同方法的脐带感染率有无差异。种不同方法的脐带感染率有无差异。脐带感染 处理组 感染 未感染 合计 感染率(%) A 76 3143 3219 2.36 B 15 2409 2424 0.62 C 2 762 764 0.26 合计 93 6314 6407 1.45 一、多个样本率的比较表表 三种脐带处理方法的脐带感染情况三种脐带处理方法的脐带感染情况7879软件实现 tabi 76 314315 24092 762, all exact80例:例:为研究某种新药对尿路疼痛的止痛
29、效果,将有尿路疼痛的为研究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者患者144例随机分为两组,每组例随机分为两组,每组72例,一组服该新药(治疗例,一组服该新药(治疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因见下表,问两组患者尿路疼痛原因的分布有无差异?见下表,问两组患者尿路疼痛原因的分布有无差异?表表 两组患者尿路疼痛原因的分布两组患者尿路疼痛原因的分布 尿路疼痛原因 分 组 尿路感染 器械损伤 其它 合计 治疗组 34 29 9 72 对照组 29 35 8 72 合 计 63 64 17 144 二、两组构成比的比较
30、81822. 求检验统计量和自由度。将表 9-7 数据代入公式 9-14,有 22222234299293582144(1)1.027263726472 177263726472 17(21)(31)2 3. 确定 P 值,下结论。查2界值表,20.5,21.39, 20.5,21.018,所以,P0.50,以0.05水准不拒绝 H0,即尚不能认为两组患者尿路疼痛原因的分布有差异。 83软件实现 tabi 34 29 929 35 8, all exact84例:在某项疼痛测量研究中,给在某项疼痛测量研究中,给160例手术后疼痛例手术后疼痛的患者提供四种疼痛测量量表,即直观模拟量表的患者提供四种疼痛测量量表,即直观模拟量表(VAS),数字评估量表(),数字评估量表(NRS),词语描述量表),词语描述量表(VDS),面部表情疼痛量表(),面部表情疼痛量表(FPS),患者首选的患者首选的量表以及患者的文化程度见表量表以及患者的文化程度见表9-8,问患者首选疼,问患者首选疼痛量表与文化程度是否有关痛量表与文化程度是否
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纺织行业投资趋势试题及答案
- 幼儿园母亲节活动主题
- 医学合同协议书
- 解密2024年助理广告师考试试题及答案
- 职员合同协议书
- 设计实践中的团队协作能力试题及答案
- 合同履行协议书
- 瓜苗购销合同协议书
- 合同演出协议书
- 合同协议书转让
- 2024年计算机软考(初级)程序员考试题库大全(含真题等)
- 思辨与创新智慧树知到期末考试答案章节答案2024年复旦大学
- 职业道德与法律第一课第一节课件市公开课一等奖省赛课微课金奖课件
- 部编人教版《道德与法治》九年级下册教案(全册)
- 2024中国南水北调集团东线有限公司招聘笔试参考题库含答案解析
- 2024春期国开电大思政课《中国近现代史纲要》在线形考(专题检测一至八)试题及答案
- 全过程工程咨询服务项目管理服务方案
- 复方氨基酸注射液(17AA-II)-临床用药解读
- 贫血中医辨证分析
- PLC的故障排除与维护技巧与方法
- 2019版新人教版高中英语必修+选择性必修共7册词汇表汇总(带音标)
评论
0/150
提交评论