




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 2检验Chi squaredtest 第7章 蒋红卫Email JHWCCC 21CN COM 2 讲课内容 1 概述 基本思想2 2 2表卡方检验3 配对四格表卡方检验4 Fisher确切概率检验5 R C表卡方检验6 多个样本率的多重比较7 有序分组资料的线性趋势检验 3 概念回顾 在总体率为 的二项分布总体中做n1和n2抽样 样本率p1和p2与 的差别 称为率抽样误差 在总体率为 1和 2的不同总体中抽样 得p1和p2 在n 5 可通过率的u检验推断是否 1 2 二项分布的两个样本率的检验同样可用 2检验 4 目的 推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较两个分类变量之间有无关联性频数分布拟合优度的检验 检验统计量 2应用 计数资料 5 基本概念 例1某院比较异梨醇 试验组 和氢氯塞嗪 对照组 降低颅内压的疗效 将200名患者随机分为两组 试验组104例中有效的99例 对照组96例中有效的78例 问两种药物对降低颅内压疗效有无差别 6 表200名颅内高压患者治疗情况 如何整理此类资料 如何分析此类资料 7 四格表 fourfoldtable 资料的基本形式 实际频数 actualfrequency 是指各分类实际发生或未发生计数值 记为A 单元格 8 理论频数 theoreticalfrequency 是指按某H0假设计算各分类理论上的发生或未发生计数值 记为T 式中 TRC为第R行C列的理论频数nR为相应的行合计nC为相应的列合计 9 残差设A代表某个类别的观察频数 T代表基于H0计算出的期望频数 A与T之差 A T 被称为残差残差可以表示某一个类别观察值和理论值的偏离程度 但残差有正有负 相加后会彼此抵消 总和仍然为0 为此可以将残差平方后求和 以表示样本总的偏离无效假设的程度类似于方差的计算思想 10 Pearson 2检验的基本公式 残差大小是一个相对的概念 相对于期望频数为10时 20的残差非常大 可相对于期望频数为1000时20就很小了 因此又将残差平方除以期望频数再求和 以标准化观察频数与期望频数的差别 卡方统计量 1900年由英国统计学家K Pearson首次提出 KarlPearson 1857 1936 11 从卡方的计算公式可见 当观察频数与期望频数完全一致时 卡方值为0 观察频数与期望频数越接近 两者之间的差异越小 卡方值越小 反之 观察频数与期望频数差别越大 两者之间的差异越大 卡方值越大 当然 卡方值的大小也和自由度有关检验的自由度取决于可以自由取值的格子数目 而不是样本含量n 理论上 在n 40时下式值与 2分布近似 在理论数 5 近似程度较好 12 连续型分布 正态分布 Normaldistribution 学生氏t分布 Student st distribution F分布 Fdistribution 另一个同样重要的分布 2卡方分布 Chi squareddistribution 此分布在1875年 首先由F Helmet所提出 而且是由正态分布演变而来的 即标准正态分布Z值之平方而得 2分布 13 设Xi为来自正态总体的连续性变量 称为自由度df n的卡方值 显然 卡方分布具有可加性 14 3 84 7 81 12 59 P 0 05的临界值 2分布的概率密度函数曲线 15 当 1时 16 第二节2 2表卡方检验 17 两组样本率比较的设计分类 1 两组 独立 样本率的比较组间数据是相互独立 非配对设计 2 2表卡方检验2 配对设计两组样本率的比较组间数据是相关的 配对设计 配对四格表卡方检验 18 两组 不配对 样本率的比较 1 四格表形式2 四格表不配对资料检验的专用公式 二者结果等价 各组样本例数是固定的 19 例1 续 20 H0 1 2即试验组与对照组降低颅内压的总体有效率相等H1 1 2 0 05 以 1查附表8的 2界值表得P 0 005 按 0 05检验水准拒绝H0 接受H1 可以认为两组降低颅内压总体有效率不等 即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪 地塞米松的有效率 21 值得指出 成组设计四格表资料的 2检验与前面学习过的两样本率比较的双侧u检验是等价的 若对同一资料作两种检验 两个统计量的关系为 2 u2 其对应的界值也为平方关系 两者的应用条件也是基本一致的 连续性校正也基本互相对应 22 卡方检验假设的等价性 两组颅内压治疗有效率相同两组有效率的比较实际数据的频数分布和理论假设相同理论分布与实际分布的检验使用不同的药物并不会影响颅内压的治疗 两个分类变量间无关联 两变量的相关分析 23 四格表 2值的校正 英国统计学家Yates认为 2分布是一种连续型分布 而四格表资料是分类资料 属离散型分布 由此计算的 2值的抽样分布也应当是不连续的 当样本量较小时 两者间的差异不可忽略 应进行连续性校正 在每个单元格的残差中都减去0 5 若n 40 此时有1 T 5时 需计算Yates连续性校正 2值T 1 或n 40时 应改用Fisher确切概率法直接计算概率 24 1 校正公式的条件 1 T 5 同时N 40 用校正公式计算 2 连续校正 continuitycorrection 公式 3 当T 1 或N 40 用Fisher确切概率法 四格表 2检验的校正公式 两组不配对资料 25 例2某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效 将78例脑血管疾病患者随机分为两组 结果见表7 2 问两种药物治疗脑血管疾病的有效率是否相等 H0 1 2即两种药物治疗脑血管疾病的总体有效率相等H1 1 2 0 05 26 表两种药物治疗脑血管疾病有效率的比较 27 本例n 78 但T22 4 67 故用四格表资料 2检验的校正公式 不校正 2 4 35 p 0 05 以 1查附表8的 2界值表得P 0 05 按 0 05检验水准 不拒绝H0 无统计学意义 尚不能认为两种药物治疗脑血管疾病的有效率不等 28 卡方检验的连续性校正问题 正方观点 卡方统计量抽样分布的连续性和平滑性得到改善 可以降低I类错误的概率 校正结果更接近于Fisher确切概率法 校正是有条件的 反方观点 经连续性校正后 P值有过分保守之嫌 连续性校正卡方检验的P值与Fisher确切概率法的P值没有可比性 这是因为Fisher确切概率法建立在四格表双边固定的假定下 而实际资料则是单边固定的四格表 29 就应用而言 无论是否经过连续性校正 若两种检验的结果一致 无须在此问题上纠缠 但是 当两种检验结果相互矛盾时 如例2 就需要谨慎解释结果了 为客观起见 建议将两种结论同时报告出来 以便他人判断 当然 如果两种结论一致 如均为有或无统计学意义 则只报道非连续性检验的结果即可 30 第二节配对设计两个样本率的 2检验 McNemer检验 配对设计 通常为同源配对 对同一观察对象分别用两种方法处理 观察其阳性与阴性结果 基本用途 常用于比较两种检验方法或两种培养基的阳性率是否有差别 数据形式 配对四格表形式 31 例3某实验室采用两种方法对58名可疑红斑狼疮患者的血清抗体进行测定 问 两方法测定结果阳性检出率是否有差别 测定结果为 阳性 阴性 共116标本 58对 方法 X 乳胶凝集法免疫荧光法对子例数 11 33 2 12 结果 32 上述配对设计实验中 就每个对子而言 两种处理的结果不外乎有四种可能 两种检测方法皆为阳性数 a 两种检测方法皆为阴性数 d 免疫荧光法为阳性 乳胶凝集法为阴性数 b 乳胶凝集法为阳性 免疫荧光法为阴性数 c 其中 a d为两法观察结果一致的两种情况 b c为两法观察结果不一致的两种情况 33 表两种方法的检测结果 34 方法原理 按照配对设计的思路进行分析 则首先应当求出各对的差值 然后考察样本中差值的分布是否按照H0假设的情况对称分布 按此分析思路 最终可整理出如前所列的配对四格表 主对角线上两种检验方法的结论相同 对问题的解答不会有任何贡献斜对角线上两种检验方法的结论不相同 显示了检验方法间的差异 35 配对 2检验统计量为 36 H0 b c 12 2 2 7 两法总体阳性率相等 H1 b c 两方法总体阳性率不等 0 05本例b c 12 2 14 40 用校正公式本例 2 5 79 3 84 P 0 05 在 0 05水准 拒绝H0 接受H1 有统计学意义 认为两方法的检测率不同 乳胶凝集法的阳性检测率22 41 低于免疫检测率39 66 37 注意事项 McNemar检验只会利用非主对角线单元格上的信息 即它只关心两者不一致的评价情况 用于比较两个评价者间存在怎样的倾向 因此 对于一致性较好的大样本数据 McNemar检验可能会失去实用价值 例如对1万个案例进行一致性评价 9995个都是完全一致的 在主对角线上 另有5个分布在左下的三角区 显然 此时一致性相当的好 但如果使用McNemar检验 此时反而会得出两种评价有差异的结论来 105 38 第三节 四格表资料的Fisher确切概率法 105 39 条件 理论依据 超几何分布 非 2检验的范畴 105 40 例4某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果 将33例HBsAg阳性孕妇随机分为预防注射组和非预防组 结果见表7 4 问两组新生儿的HBV总体感染率有无差别 105 41 表7 4两组新生儿HBV感染率的比较 42 基本思想 在四格表周边合计数固定不变的条件下 计算表内4个实际频数变动时的各种组合之概率Pi 再按检验假设用单侧或双侧的累计概率P 依据所取的检验水准 做出推断 43 1 各组合概率Pi的计算在四格表周边合计数不变的条件下 表内4个实际频数a b c d变动的组合数共有 周边合计中最小数 1 个 如例7 4 表内4个实际频数变动的组合数共有9 1 10个 依次为 44 各组合的概率Pi服从超几何分布 其和为1 计算公式为 45 2 累计概率的计算 单 双侧检验不同 46 47 48 检验步骤 49 50 表5例4的Fisher确切概率法计算表 51 例5某单位研究胆囊腺癌 腺瘤的P53基因表达 对同期手术切除的胆囊腺癌 腺瘤标本各10份 用免疫组化法检测P53基因 资料见表7 6 问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别 52 表6胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较 53 本例a b c d 10 由表7 7可看出 四格表内各种组合以i 4和i 5的组合为中心呈对称分布 表7例5的Fisher确切概率法计算表 为现有样本 54 1 计算现有样本的D 和P 及各组合下四格表的Di 本例D 50 P 0 02708978 2 计算满足Di 50条件的各组合下四格表的概率Pi 3 计算同时满足Di 50和Pi P 条件的四格表的累计概率 本例为P7和P8 4 计算双侧累计概率P P 0 05 按 0 05检验水准不拒绝H0 尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等 55 56 一点补充 确切概率法的原理具有通用性 对于四格表以外的情况也适用 如行乘列表 配对 配伍表格均可对于较大的行乘列表 确切概率法的计算量将很大 有可能超出硬件系统可以支持的范围此时可以采用计算统计学中的其他统计计算技术加以解决 如Bootstrap方法等 57 第四节行 列表的 2检验 当比较组行或列分类数 2 称为行 列表 即R C表 研究者感兴趣的问题有 2检验的目的 1 多组 独立样本 样本率差别有无统计意义 2 两组 独立样本 构成比 分布 有无统计意义 3 两个分类变量分布是否独立 有关联 58 自由度 行数 1 列数 1 等价 检验统计量 59 例6某医师研究物理疗法 药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效 资料见下表 问三种疗法的有效率有无差别 表7 8三种疗法有效率的比较 60 H0 1 2 3 90 4 三组总体有效率相等 H1 三组总体率不等或不全等 0 05 结论 在 0 05水准 拒绝H0 P 0 01 认为三组疗法有效率不等或不全等 注意 此结果不能得到各两两组比较的结论 61 二 两组和多组构成比的比较 例7某医师在研究血管紧张素I转化酶 ACE 基因I D多态 分3型 与2型糖尿病肾病 DN 的关系时 将249例2型糖尿病患者按有无糖尿病肾病分为两组 资料见表7 9 问两组2型糖尿病患者的ACE基因型总体分布有无差别 表9两组 型糖尿病患者ACE基因分布比较 62 63 三 双向无序分类资料的关联性检验 R C表中两个分类变量皆为无序分类变量的行 列表资料 又称为双向无序R C表资料 目的 检验两事物分类 行分类和列分类 是否独立 从而说明两事物分类是否有关系 需要注意的是 双向无序分类资料为两个或多个样本 做差别检验 例7 若为单样本 做关联性检验 64 统计分析 1 回答两事物的分类是否独立 有关系 Pearson 2检验2 如有关 关系密切程度如何 度量指标 列联系数 Contingencycoefficient 列联系数C取值范围在0 1之间 愈接近于0 关系愈不密切 愈接近于1 关系愈密切 65 两分类变量独立与有关 两事物独立的假定 行或列各分类的构成比相同 或在A事物不同水平下 B事物不同分类的作用 构成 相等 66 例8测得某地5801人的ABO血型和MN血型结果如表7 10 问两种血型系统之间是否有关联 表10某地5801人的血型 67 H0 两种血型系统分类无关联 即行或列构成比相等 H1 两种血型系统分类有关联 即行或列构成比不等 0 05 结论 两种血型系统分类有关联 列联系数为0 1883 两种血型系统间虽然有关联性 但关系不太密切 68 第五节多组样本率的两两比较的 2分割 当比较组k 3时 2值有统计意义 可分解多个四格表了解各样本率两两间的差别 要进一步推断哪两两总体率有差别 若直接用四格表资料的检验进行多重比较 将会加大犯 类错误的概率 多重比较的方法 2分割法 Scheffe 可信区间法 SNK法 69 2分割法基本思想 检验水准 其目的是保证检验假设中I型错误 的概率不变 因分析目的不同 主要有两类多重比较形式 多个实验组间的两两比较实验组与同一个对照组的比较 检验水准 70 多个实验组间的两两比较 分析目的为k个实验组间 任意两个率均进行比较时 须进行k k 1 2次独立的四格表检验 再加上总的行 列表资料的检验 共k k 1 2 1次检验假设 故检验水准 用下式估计 71 实验组与同一个对照组的比较 分析目的为各实验组与同一个对照组的比较 而各实验组间不须比较 检验水准 用下式估计 72 表7 11 1时的 2界值表 供多个样本率间的多重比用 73 例9对例6的资料进行两两比较 以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别 1 2 即任意两对比组的总体有效率相等 1 2 即任意两对比组的总体有效率不等 0 05本例为3个实验组间的两两比较 74 表三种疗法有效率的两两比较 拒绝H0 接收H1拒绝H0 接收H1不拒绝H0 75 例10对例6资料的药物治疗组为对照组 物理疗法组与外用膏药组为试验组 试分析两试验组与对照组的总体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现场处置方案编制课件
- 2025年能源行业CCS项目经济性研究报告:市场前景与投资建议
- 2025年物流行业物流园区智能化改造对物流行业行业政策法规的适应报告
- 山西省晋中市左权县2022-2023五年级上学期期中科学试题(含答案)
- 2026届贵州省贵阳市清镇北大培文学校贵州校区化学高一上期末考试试题含解析
- 2025年导游资格证专项训练试卷:导游业务与法规冲刺押题
- 2025年Python大数据处理培训试卷:实战演练与冲刺押题
- 2025年秋季初级经济师职业资格考试 经济基础知识模拟试卷及答案
- 2025年注册会计师(CPA)考试 会计科目历2025年真题解析与模拟试卷
- 江西省白鹭洲中学2026届高二化学第一学期期中学业水平测试试题含解析
- 企业信息化项目建设进度和成果汇报课件
- 高等数学期末试卷及答案
- 从0开始跨境电商-第三章-阿里巴巴国际站入门-OK
- 新能源电站远程监控系统建设方案
- 《紫藤萝瀑布》《丁香结》《好一朵木槿花》
- 2023柔性棚洞防护结构技术规程
- 河流地貌的发育 - 侵蚀地貌
- 离网光伏发电系统详解
- 广告文案写作(第二版)全套教学课件
- 《国家电网公司电力安全工作规程(配电部分)》
- 金融学黄达ppt课件9.金融市场
评论
0/150
提交评论