




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章 分类变量的检验,目录,第一节 检验的基本思想,第二节 率的比较,第三节 独立性检验,第四节 拟合优度检验,第五节 确切概率法,01,02,03,04,05,重点难点,独立样本列联表资料的 检验 配对设计资料的 检验 四格表的Fisher确切概率法,第一节 检验的基本思想,1. 检验的基本思想,(一) 统计量,第一节 检验的基本思想,例1 为比较不同大骨节病区的大骨节病检出情况,分别随机抽取河水饮用区377人,泉水饮用区301人,采用X光拍片进行大骨节病诊断。结果见表9-1。现检验两个病区的大骨节病检出率是否不同? 不同病区的大骨节病检出情况,其中, Aij (i,j =1,2)为实际频数,Tij (i,j =1,2)为理论频数,第一节 检验的基本思想,独立样本数据22交叉表,2. 理论频数,四格表中所有格子Aij 的Tij 和之间的差异,可用式(9-1)计算的统计量来衡量: 可以证明, 成立时,统计量 服从自由度为 的分布。自由度的计算公式为: 。上面公式可简化为:,1. 分布 分布是一种连续型随机变量的概率分布,自由度 是其唯一参数,记为 。 4种自由度 分布的概率密度曲线,(二) 分布的性质,第一节 检验的基本思想,2. 分布的性质 (1) 分布也可看作一种特殊的抽样分布。 (2) 分布是一簇连续光滑曲线,不同自由度的 曲线形状各有不同。各种自由度取值下 分布右侧尾部面积(概率)为 时的临界值记为 ,列于 界值表。当 =1时, 。,第一节 检验的基本思想,(3) 分布的期望值(均值)为自由度 ,方差为 。随着自由度 的增大, 分布将随均值的增大向数轴右侧延伸,而分布曲线也将随方差 的增大越趋低阔。 (4) 检验的基本思想实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。,第一节 检验的基本思想,第二节 率的比较,结合例1,四格表 检验基本步骤为: (1)建立检验假设,确定检验水准 ,即河水饮用区和泉水饮用区大骨节病的总体检出率相同 ,即河水 饮用区和泉水饮用区大骨节病的总体检出率不同 = 0.05,(一) 22交叉表数据的 检验,第二节 率的比较,(2) 检验统计量的选择与计算 (3)确定 P 值,作出统计推断 =3.84。本例 =14.823.84,即P0.05。在 =0.05水平上拒绝 ,接受 。可以认为两个病区大骨节病的检出率之间差别具有统计学意义,且泉水饮用区的检出率较高。,第二节 率的比较,第二节 率的比较,检验适用条件: (1)若n 40,且任意一个格子的理论频数Tij 5,可直接使用 检验公式。 (2)若n 40,但出现1个格子的理论频数1 Tij 5时,则需对值按以下公式进行连续性校正。 (3)若n 40或者任意一个格子的理论频数Tij 1 时,则检验不再适用,宜采用 Fisher 确切概率法进行处理。,1. 用于推断3个以上的总体率(或构成比)之间的差异 2. 与22交叉表 检验比较不同之处: (1)理论频数 Tij 的公式可泛化为: (2)可直接使用下面公式 计算统计量:,(二) RC交叉表数据的 检验,第二节 率的比较,1. 多个构成比的比较 例2 比较大骨节病区男、女性的膳食结构是否存在差异,研究组对病区555名男性,819名女性大骨节病患者的膳食结构进行调查。数据整理如下。,大骨节病区男性和女性主食情况比较,第二节 率的比较,对上述23列联表,作 检验:,第二节 率的比较,(1)建立检验假设,确定检验水准 大骨节病区男、女性的膳食结构相同 大骨节病区男、女性的膳食结构不全相同 =0.05,(2)检验统计量的选择与计算 (3)确定 P 值,作出统计推断 自由度 =(2-1)(3-1)=2, = 5.99,则 P 0.05,在=0.05水平上不拒绝 ,尚不能认为大骨节病区男女膳食结构不同。,2. 多个率的比较 例3 为研究NOC(N-亚硝基化合物)和DON(脱氧雪腐镰刀菌烯醇)对小鼠肝脏的致病作用,将94只小鼠随机分配到NOC组、DON组和(NOC+DON)组,染毒剂量分别为:NOC:0.25mg/kg;DON:0.5mg/kg;NOC:0.25mg/kg + DON:0.5mg/kg,60天后观察小鼠肝脏出现大片脂肪变性的数量,整理结果如表所示。现比较3种处理对小鼠肝脏的影响。,第二节 率的比较,3种处理致小鼠肝脏组织大片脂肪变性的比较,第二节 率的比较,(1)建立检验假设,确定检验水准 三组脂肪变性的总体发生率相同 三组脂肪变性的总体发生率不全相同 = 0.05 (2)检验统计量的选择与计算 (3)确定 P 值,作出统计推断 自由度 =(3-1)(2-1)=2, = 5.99, =14.29 ,则P0.05,在 =0.05水 平上拒绝 ,接受 ,可以认为三组脂肪变性的发生率不全相同。,第二节 率的比较,3. 分割 多个率或多个频率分布比较的 检验,当结论为拒绝 时,仅表示多组之间是有差别的。若需明确究竟是哪两组之间存在差别,可做率的多重比较,将RC表分割为若干个小的四格表进行检验。但在具体分割过程中,需根据比较的次数合理地修正检验水准,否则将人为地增大犯第类错误的概率。 如:原有检验水准=0.05,若进行组数 k 为 3 的两两比较,需比较 =3次,故调整后的水准 =0.05/3=0.0167;若设置一个共用对照进行3组比较,则只需(k1)= 2次,调整后的水准 =0.05/2=0.025。,第二节 率的比较,现将例3中的DON组设置为共用对照,以下表为例介绍 分割的过程。结果如下: 1. NOC组和DON组比较,DON组和NOC组致小鼠肝脏组织组织大片脂肪变性比较,第二节 率的比较,(1)建立检验假设,确定检验水准 ,即DON组和NOC组肝脏脂肪变性发生率相同 ,即DON组和NOC组肝脏脂肪变性发生率不同 = 0.025 (2)检验统计量的选择与计算 (3)确定 P 值,作出统计推断 自由度 =(2-1)(2-1)=1, = 5.02,可知 =0.340.025,在=0.025水平上不拒绝 ,尚不能认为DON组和NOC组脂肪变性的检出率不同。,第二节 率的比较,2. (NOC+DON)组与DON组进行比较 DON组和(NOC+DON)组致小鼠肝脏组织组织大片脂肪变性比较,第二节 率的比较,(1)建立检验假设,确定检验水准 ,即DON组和(NOC+DON)组肝脏脂肪变性发生率相同 ,即DON组和(NOC+DON)组肝脏脂肪变性发生率不同 = 0.025 (2) 检验统计量的选择与计算 (3)确定 P 值,作出统计推断 自由度 =(2-1)(2-1)=1, = 5.02,可知 =11.825.02,则P0.025,在 = 0.025水平上拒绝 ,接受 ,即可认为DON组和(NOC+DON)组脂肪变性的检出率不同。,第二节 率的比较,(三)配对设计数据的 检验 1. 配对四格表 检验 例4 为比较间接酶联免疫法和双抗原夹心酶联免疫法对丙肝病毒(HCV)抗原的诊断性能,某检验室将135名血清样本一分为二,分别进行两种试剂盒检测,结果见下表。现比较两种检测方法的结果是否不同? 间接法和夹心法检测结果,第二节 率的比较,配对四格表的通用表格如表所示 配对四格表的一般格式 表中的实际频数分别为: a=80为两种检测方法均阳性的对子数,d=10为两种检测方法均阴性的对子数,很显然,a 与 d 都不能反映两种检验方法的差别。而 b=15 和 c=30 则是两种检测方法检验结果不一致的对子数,故两种方法的检测结果有无差别就体现在 b 和 c 这两个对子数。,第二节 率的比较,变量 1 的阳性率 ;变量 2 的阳性率 。 变量 1 的阳性率 - 变量 2 的阳性率 ,同样提示两个变量阳性率的比较只和 b、c 有关,而与 a、d 无关。 在原假设 成立的条件下,b 与 c 两个格子理论频数都应该为 (b+c)/2。当 时,可进行简单推导: 类似地,若 ,则需对式(9-6)进行连续性校正。校正公式为,第二节 率的比较,结合例4,简述配对四格表检验的过程: (1)建立检验假设,确定检验水准 ,即两种检验方法的阳性率相同 ,即两种检验方法的阳性率不同 = 0.05,(2)检验统计量的选择与计算 由于b + c = 15 + 30 = 45 40,按式(9-6)求出 (3)确定 P 值,作出统计推断 自由度 =1,查 界值表, = 3.84, =53.84,则P 0.05。在=0.05水平上,拒绝 ,接受 ,认为两种检测方法的阳性率有差别,且间接法阳性率高于夹心法阳性率。,第二节 率的比较,2. 配对RR交叉表数据的检验 实际工作中,不少分类变量都具有R(R2)个可能的“取值”,则构成更泛化的配对RR交叉表。这类研究通常需解决的问题为,两个样本分布所对应的总体概率分布是否相同,即类似于配对四格表 检验的基本原理,对配对设计下两总体分布进行推断,应采用的检验统计量为: 成立时上式中的统计量T服从自由度为 k-1 的 分布,第三节 独立性检验,例5 为分析肥胖与糖尿病是否有关,随机调查某社区678名居民,询问其病史,并对其进行体检,收集糖尿病及肥胖情况,结果整理如下表。现分析肥胖与患糖尿病之间是否存在关联性。,(一)22交叉表的独立性检验,第三节 独立性检验,肥胖与糖尿病检出情况的分布,(1)建立检验假设,确定检验水准 患糖尿病与是否肥胖之间互相独立 患糖尿病与是否肥胖之间存在关联 =0.05 (2)检验统计量的选择与计算 , (3)确定 P 值,作出统计推断 ,P0.05,拒绝 ,接受 ,认为肥胖与糖尿病患病之间存在关联。,第三节 独立性检验,(4)关联系数的计算 本例的关联系数为: 分类变量的关联性分析与率(或构成比)的差异性分析这两大类着本质的区别。前者主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间存在关联性与否;而后者主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率(或构成比)之间是否存在差异性。,第三节 独立性检验,例6 某医院甲乙两位检验师对同一批血液标本的病毒抗原进行检测,检测结果整理如表。两位检验师的检测结果是否存在关联?,(二)22配对数据的独立性检验,第三节 独立性检验,(1)建立检验假设, 确定检验水准 两位检测师的结果之间互相独立 两位检测师的结果之间互相关联 =0.05 (2)检验统计量的选择与计算 (3)确定 P 值,作出统计推断 P0.05,拒绝 ,接受 。认为两种检测方法之间存在关联性。 (4)计算列联系数,第三节 独立性检验,示例数据见例3,现比较不同毒害作用与小鼠肝脏脂肪变性的关联性。 (1)建立检验假设, 确定检验水准 NOC与DOC的作用与肝脏脂肪变性无关 NOC与DOC的作用与肝脏脂肪变性有关 =0.05 (2)检验统计量的选择与计算 ,,(三)RC交叉表的独立性检验,第三节 独立性检验,(3)确定 P 值,作出统计推断 , P 0.05,拒绝 ,接受 ,说明不同毒害作用与肝脏脂肪变性之间存在关联。,第三节 独立性检验,第四节 拟合优度检验,例7 随机抽取某医院恶性肿瘤患者199名,询问其年龄如下: 65,68,56,82,65,41,61,44,78,53,64,69,62,57,70,74,59,61,59,66,68,56,52,56,77,74,61,62,57,59,74,62,69,67,69,56,45,44,58,89,60,66,76,40,46,58,55,66,56,61,71,49,62,46,64,61,38,74,57,70,48,42,68,68,59,75,44,64,42,59,60,52,52,41,85,61,52,48,48,80,66,80,80,51,41,67,55,56,75,63,74,61,69,76,38,66,57,63,55,56,41,79,58,41,66,28,66,83,43,69,63,31,51,52,80,60,49,48,36,75,87,43,79,63,52,70,73,66,56,76,59,59,64,51,65,55,33,63,81,66,69,56,73,38,32,66,44,43,73,44,66,62,62,61,36,42,75,74,73,47,72,69,72,39,65,44,82,49,63,77,66,64,49,67,67,81,57,61,58,61,57,67,66,73,53,58,78,77,51,43,55,65,67,61,81,61,76,76,52,第四节 拟合优度检验,(1)计算样本统计量 获得199名患者年龄的基本信息: = 60.69, = 12.49 将样本均数 和样本标准差 作为总体参数 和 的近似值。 (2)建立假设检验,确定检验水准 总体分布服从 N(60.69, 12.492) 总体分布不服从 N(60.69, 12.492) =0.05,第四节 拟合优度检验,现采用拟合优度检验,判断恶性肿瘤患者的年龄分布是否服从正态分布?,(3)检验统计量的选择与计算 假设是来自总体的一个随机抽取的样本,共199个样本观测值(n =199)。 计算全距 R,确定拟分组数。本例 R=89-28=61(岁),分为 5 组,组距m=61/5=12.212。 计算样本观测值落在各组段的实际频数。本例 k=5, 。,第四节 拟合优度检验,(4)计算样本值落在第 i 组段的概率。 正态分布下各组段的概率值: 通过对 和 作标准正态变换后,查标准正态分布界值表获得相应的概率值 Pi 。 (5)计算各组对应的理论频数 (6)计算 值,第四节 拟合优度检验,(7)确定 P 值,作出统计推断 , ,P0.05。在=0.05水平上不拒绝 ,则该样本的总体分布服从均数为60.69,标准差为12.49的正态分布。 某医院199名恶性肿瘤患者年龄频率分布,第四节 拟合优度检验,注意: 拟合优度检验要求足够的样本含量。若样本含量不够大(如:频数表有1/5以下组的理论频数1T5),可以通过连续性校正的检验公式进行统计量的估算。若样本量仍然很小,可人为进行适当的合并。,第四节 拟合优度检验,第五节 确切概率法,1. Fisher确切概率法基本思想 保持周边合计数不变,计算交叉表中各个实际频数变动的所有可能组合所对应的概率,再将获得现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累计概率进行推断。 2. 当22交叉表出现以下情况之一时,需采用Fisher确切概率法 (1)样本含量 n40。 (2)有一个格子的理论频数 T1。 (3)检验后所得概率 P 接近检验水准。,(一)22交叉表的确切概率法,第五节 确切概率法,例8 陕西省为地方性氟中毒病区之一,为了解陕西省病区内不同区县儿童氟斑牙发病率是否存在差异,分别抽取镇巴县(以下简称 A 县)和紫阳县(以下简称 B县)812 岁儿童17 和 14 名,并进行儿童牙齿的检查,检查结果如下。现比较两县812岁儿童氟斑牙检出率是否存在差异。 本例 n=3140,不宜采用第 2 节的独立样本率检验,故采用 22 交叉表的Fisher确切概率法。,第五节 确切概率法,(1)建立检验假设, 确定检验水准 ,即镇巴县和紫阳县儿童氟斑牙的检出率相同 ,即镇巴县和紫阳县儿童氟斑牙的检出率不同 = 0.05 (2)计算所有可能组合的概率 Pi 本例中,周边合计最小值为 6,则在四格表边缘合计固定不变的条件下,4 格表内实际频数变动的组合数 i=6+1=7。,第五节 确切概率法,第五节 确切概率法,(3)将现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累计概率,做出推断。 本示例的目的在于比较两县儿童氟斑牙检出率是否相同,故可选择双侧检验。将表中 PA-PB 0.1681,共 5 个四格表的概率 P 值相加: P = P1+ P2+ P3+ P6+ P7 = 0.3697 获得累计概率 P = 0.36970.05。故在 =0.05 的水平上不拒绝 ,尚不能认为两县儿童氟斑牙的检出率不同。,第五节 确切概率法,多个样本率或多个频率的分布比较 检验中,一般要求其理论频数不能过小,不能有1/5以上格子的理论频数1T5,也不允许有一个格子的理论频数T1,否则结果容易产生偏性。如果实际工作中,确实避免不了上述情况,则可增大样本量,以达到 检验的应用条件;亦可采用 Fisher 确切概率法,但手工计算量巨大且繁琐,一般通过软件计算实现。,(二)RC交叉表的确切概率法,第五节 确切概率法,小结,1. 检验是一种用途广泛的假设检验方法。 2. 分布是描述连续型变量的一种较为特殊的概率分布。一般地, 检验的基本条件为:n 40 且任一格子的理论频数 T 5;若该条件不满足,则需考虑进行连续性校正或采用另外的检验方法。 3. 检验的本质在于衡量实际频数 A 和理论频数 T 之间的吻合程度。A 与 T 的吻合程度越高, 值越小,越有理由不拒绝 ;反之,A 与 T 的吻合程度越低, 值越大,越有理由拒绝 。,小结,4. 统计量的常用计算公式有: 检验基本公式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《税收合规性补充申报智能管理系统》介绍课件
- 计算机一级试题及参考答案解析
- 5月消防设施操作员试题(含参考答案)解析
- 毛织造企业组织结构与人力资源管理考核试卷
- 班主任家长会课件下载
- 纸容器生产过程中的能耗监测与优化考核试卷
- 2025年印刷品、记录媒介复制品项目合作计划书
- 空调器智能湿度控制系统考核试卷
- 《秋天的落叶》课件
- 网络安全防护在智慧城市的智能垃圾分类系统中评估考核试卷
- 2025年湖北荆州市监利市畅惠交通投资有限公司招聘笔试参考题库含答案解析
- 酒店入股合同协议书
- 2025-2030中国无烟原煤行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- GB/T 32960.3-2025电动汽车远程服务与管理系统技术规范第3部分:通信协议及数据格式
- 2024年江苏省劳动关系研究院招聘考试真题
- 2024年四川省公安厅招聘警务辅助人员真题
- 突发性聋诊疗指南(2025版)
- 2025年电子信息工程师职业资格考试试卷及答案
- 粮食局业务知识课件
- 小学科学青岛版 (五四制2017)五年级下册26 探索宇宙教案
- 全套教学课件《工程伦理学》
评论
0/150
提交评论