分类变量的统计推断课件_第1页
分类变量的统计推断课件_第2页
分类变量的统计推断课件_第3页
分类变量的统计推断课件_第4页
分类变量的统计推断课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 预防医学分类变量的统计推断 2 提纲 样本率的抽样分布总体率的估计关于总体率的假设检验 3 一 样本率的抽样分布 在上个章节中我们讨论了从正态分布总体中作随机抽样 由于存在个体变异 产生抽样误差显然 由于个体差异和偶然性的影响 样本率通常也和总体率情况不同由抽样造成样本率之间以及样本率与总体率的差异称为率的抽样误差 4 样本率的抽样分布 随机抽样试验 分别在总体率 0 4 n 20 0 4 n 100 0 01 n 100以及 0 5 n 10的总体中随机抽样每种情况分别随机抽10000个样本 每个样本计算其样本率 把同一种情况的10000个样本率视为一个新的样本资料作频数图 5 6 7 8 总体率 相同时 样本含量越大 样本率的分布越趋向对称样本含量n相同时 越偏离0 5 样本率的分布越偏态分布总体率 0 5时 很小样本含量的样本率都呈对称分布样本率的平均值等于总体率 样本率p的样本标准差 样本率的抽样分布 9 样本率的抽样分布 样本率的总体均数等于总体率样本率的标准差 即率的标准误 由于总体率通常是未知的 因而用样本率p来估计p 故率的标准误的估计值常表示为 10 样本率的抽样分布的正态近似 对于大量重复随机抽样而言 样本率p围绕着总体率波动 样本含量n越大 这种波动越小当n的值充分大时 p的分布就近似于均数为p 标准差为sp的正态分布 这里样本含量n 充分大 指np与n 1 p 均大于5当总体率 0 5时 则样本率p的分布为对称分布当样本含量n为定值时 总体率 越接近0 5 样本率p近似正态分布的程度就越好 11 二 总体率的可信区间 与总体均数的可信区间相同 率的可信区间的含义同样也是 按照一定的可信度 95 或99 确定的包含未知总体率的可能范围不过由于样本中阳性数的取值满足的是二项分布 所以计算样本所来源的总体率也必须从二项分布入手 直接计算过程繁琐 12 总体率的可信区间的正态近似法 当np与n 1 p 均大于5且n足够大 n 50 时 样本率p的抽样分布近似正态 可以写为p N p sp2 此时 计算p的95 CI的方法就和前面介绍的标准正态分布法求总体均数的可信区间相似总体率的1 a可信区间为 13 用ELISA法检测某地105名7岁男生的乙肝表抗 共有67例阳性 检出率为63 8 试估计检出率的95 可信区间 解 14 三 关于总体率的假设检验 医学研究中经常涉及样本率与总体率的比较 两个或多个样本率的比较等问题类似于定量变量的假设检验 t检验 对于分类变量也可以用假设检验的思想分析上述问题 15 1 样本率与总体率的比较 Z检验 例9 3 据大量观察 旧药物治疗某病的治愈率为70 今随机抽取该病患者200人 改用新药治疗治愈160人 试问两种药物的疗效是否不同 16 样本率与总体率的比较 当前的样本率为80 和旧药物的不一样 那么究竟是由于抽样所导致还是两种药物疗效的确有别 假设两种药物的疗效相同 那么在总体治愈率为70 的情况下 200例患者中出现治愈人数n 160例以及n 120的可能性只和是否是小概率事件 思考为何如此表达 如果不是小概率事件 我们还不能认为两种药物疗效有别 而如果是小概率事件 那么新旧药物的疗效看来是不同的 17 样本率与总体率比较 18 样本率与总体率比较 19 2 两个大样本率比较 Z检验 例9 4 某地随机抽查206名成年男性与201名成年女性的乙肝表抗携带情况 其中男性阳性33人 女性阳性22人 问男女的阳性情况是否不同 20 两个大样本率比较 例题中可见两个样本率不相同 不同性别的阳性率的差别是由于抽样所导致还是本质的差别 与前面的两个样本均数比较的t检验类似 下面采用类似的方法分析两个样本率的问题 21 两个大样本率比较Z检验原理 22 两个大样本率比较Z检验原理 23 两个大样本率比较Z检验原理 24 两个大样本率比较Z检验 25 3 卡方检验 2检验chi squaretest是现代统计学的创始人之一 英国人Karl Pearson于1900年提出的一种具有广泛用途的统计方法可用于两个或多个率间的比较 分类资料的关联度分析 拟合优度检验等等 26 Karl Pearson CarlPearsonorKarlPearson 1857 1936 JournalBiometrikaPearsonproduct momentcorrelationcoefficient Linearregressionandcorrelation Pearson schi squaretest 27 卡方检验的基本思想 例9 5 某中药在改变剂型前治疗152例 治愈129例 改变剂型后又观察130例 治愈101例 改变剂型前后的疗效是否不同 28 卡方检验的基本思想 从表中可见两剂型的治愈率不相同 那么这种差别究竟是由于抽样误差还是由于不同剂型疗效的确有差别 不妨假设两剂型的疗效是相同的 那么此时两种剂型的疗效之差仅仅来源于抽样误差 我们可以使用前面介绍的两个大样本率比较的Z检验分析还可以考虑使用本章节介绍的卡方检验分析 29 卡方检验的基本思想 既然假设两剂型的总体疗效相同 可以考虑将两组样本资料合并 计算一个 合计率 作为总体率的估计两剂型的合计治愈率Pc 230 282 81 56 在此合计治愈率的情况下 治疗152例患者应该有Pc 152 124 0例治愈 1 Pc 152 28 0例未愈 同理如果治疗130例患者 应该有106 1例有效 23 9例无效将上述数据称为疗效的理论数 列表如下 30 卡方检验的基本思想 31 卡方检验的基本思想 从表中可见 疗效的理论数 根据假设两总体疗效相同得到 与实际人数存在差别如果我们的假设成立的话 这种差别属于抽样误差 应该不会很大 反之 如果这种差别很悬殊 则因该怀疑原假设不成立如何评价 悬殊 与 不悬殊 使用卡方检验 32 卡方检验的基本思想 卡方检验基本公式 如果假设成立 实际数与理论数的差距应该较小 按照上式计算的卡方值因该接近0 如果卡方值远离0则应该拒绝原假设卡方值满足卡方分布 求得相应卡方值的曲线下面积就可以得到P值 进而作结论可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度 拟合度 33 成组设计的四格表卡方检验 如例9 7 在表格中有两组 每组的结果为二分类结果 2 2 这样的表格称为四格表 其通用格式表达如下 34 分类资料的列联表 如果有R个分组 处理因素 每组的结果又有C个分类 结局 则所作的表格有R行 C列 称之为R C列联表 R Ccontingencytable 四格表卡方检验是最简单的列联表 2分组 2分类 35 成组设计的四格表卡方检验 完全随机设计的四格表卡方检验可以分析两样本来源的总体率间有无差别 以及两变量间有无关联在计算卡方值之前需要先估计理论频数理论频数的计算 36 成组设计的四格表卡方检验 37 成组设计的四格表卡方检验 H0 两总体率相同H1 两总体率不同a 0 05c2 A T 2 T计算卡方值为2 428自由度v R 1 C 1 1 即四个格子中可自由取值的个数 本例中 由于行列的合计值固定 所以四个格子中只有一个可自由取值 故v 1查表得 c20 05 1 3 84 所以P 0 05 在a 0 05的水准上不拒绝H0 尚不认为两种剂型的治愈率不同 38 关于四格表卡方检验的一些说明 关于自由度 在列联表资料中 四格表也是一种列联表 自由度可以简单地表达为 行数 1 列数 1 即 R 1 C 1 其含义为列联表中除合计值外可以自由取值的格子个数关于理论数 如同拟合优度检验中提到的 如果理论数较小时 卡方检验需要进行连续性校正 甚至由于理论数过小而无法进行 39 四格表卡方检验的理论数要求 当理论频数T有T 5 而且n 40时 卡方公式不需要校正 直接使用当理论频数T有1 T 5 而且n 40时 需要校正 或者用精确概率法计算概率值当理论频数T有T 1 或者n 40时 只可用精确概率法计算概率值 40 Yates correctionforcontinuity 由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势 使得我们偏向于拒绝原假设 尤其是当自由度 1而且理论数较小时 偏差较大FrankYates 1934 提出对卡方值进行连续性矫正矫正方法是 先将各组实际观察数与理论数的差数的绝对值分别减去0 5 然后再平方进行计算 矫正后的卡方值记为c2c 41 四格表卡方检验专用公式 原始卡方公式需要计算理论数 略显麻烦在四格表资料中 可以使用专用公式 省略计算理论数的过程专用公式如下 42 四格表卡方检验专用公式校正 若有1 T 5 而且n 40时 该专用公式同样需要校正 43 四格表卡方检验的校正 例 将病情相似的淋巴系统肿瘤患者随机分成两组 分别作单纯化疗与复合化疗 缓解情况见下表 问两疗法的缓解情况是否不同 44 四格表卡方检验的校正 在上表中最小的理论数应该是 单纯化疗 缓解 所对应 因为它所对应的行 列合计值最小 2所对应的理论数为4 8 小于5 而且例数不小于40 所以本题应该作校正校正后卡方值为2 624 未校正时为3 889 故尚不认为两方案缓解情况不同 45 配对设计的四格表卡方检验 什么是配对设计 常见配对设计的情况是那些 46 常见的配对四格表资料 同一批样品用两种不同的方法处理 处理的结果为二分类资料观察对象根据配对条件配成对子 同一对子中的不同个体分别接受不同的处理 处理的结果为二分类资料 47 例9 8 研究者分别用反向血凝法和酶标法两种方法对200名献血者进行乙肝表抗检查 得到如下资料 48 配对四格表资料 在本例题中每份标本被一分为二 两份标本实质上是一样的 同时接受两种方法检测 这样乙肝表抗检出情况差别完全取决于不同的方法 而与受检者的基本情况无关所以本例为配对设计 目的是通过样本资料判断两方法的总体阳性概率是否有差别 49 配对四格表资料 我们将上述表格稍作改变 得到如下四格表 该四格表与前面所介绍的普通四个表有所不同 普通四格表的 行 为分组因素 列 为分组的结局 而在配对四个表中 行 中既包含分组因素 同时也有该因素的结局 列 也同样 所以这种四格表称为配对四格表 50 配对四格表资料的一般形式 对含量为n的一份随机样本同时按照两个二项分类属性 进行交叉分类形成的四格表 51 成组与配对四格表资料的比较 52 配对四格表资料卡方检验原理 在配对设计的四格表中 如果要了解不同的处理方案的结局是否有别 例如两种检测方法的阳性率是否有别 并不需要用到所有四格中的数据酶标法中的阳性率为 30 18 200 反向血凝法中的阳性率为 30 2 200 可见两者都阴性的150份标本对二者阳性率的差别没有影响 而且二者都阳性的30份标本也对结果没有影响 两种方法结果一致的对二者的率差没有影响 导致两者阳性率的差别主要来源于培养结果不一致的20份样本 18 2 53 配对四格表资料卡方检验原理 假设18 2的主要原因是抽样误差导致 那么两方法的总体阳性率就是一致的所以其假设主要针对18与2 即H0为b c 两种方法的乙肝表抗阳性检出率相等如果H0成立 则二者检测结果不一致的两个格子理论数都应该是 b c 2所以卡方检验的公式变为 54 配对四格表资料卡方检验原理 将数据代入上述公式中 因为18 2小于40 故需要校正 校正卡方值为11 25因为11 25 3 84 故P 0 05 在a 0 05的水准上拒绝H0 认为两法的阳性检出率不同 55 配对四格表资料的关联性分析 有研究者发现上述研究的一致情况达到 30 150 200 90 于是想了解两种培养基的结果间是否存在关联性所谓存在关联性可以理解为 当该份样本用甲法结果为阳性时 乙法的结果也大多是阳性的 正关联 或者乙法的结果大多为阴性的 负关联 56 配对四格表资料的关联性分析 如果两种方法的检测结果没有关联 意味着 酶标法阳性时反向血凝法的阳性率 30 48 62 5 与酶标法阴性时的 2 152 1 3 应该相同那么62 5 与1 3 间的差别到底是由于抽样误差还是本质的差别 需要借助卡方检验 57 配对四格表资料的关联性分析 58 配对四格表资料的关联性分析 59 配对四格表资料的关联性分析 60 完全随机设计的列联表卡方检验 如果有超过2组 每组的结局超过2种分类 就构成了R C列联表 四格表是最简单的列联表完全随机设计的列联表资料的卡方检验原理与四格表的相同 只不过组数或结局增多了而已 61 完全随机设计的列联表卡方检验 例9 6 研究者从水氟含量不同的三个地区随机抽取10 12岁儿童 检测其第一恒齿龋患率 结果如下 62 完全随机设计的列联表卡方检验 其检验思想同四格表卡方检验 先假设三种剂量的总体镇痛效果相同 将三组的治疗情况合并作为总镇痛效果的估计值 而后可以据此计算各剂量的理论有效与无效人数 如果假设成立的话它们间的差别应该很小 卡方值应该不大 否则就有理由认为它们不是来源于同一总体H0 三地区的龋患率相同 H1 三地区的龋患率不全相同 63 完全随机设计的列联表卡方检验 请注意 对立假设包括多种情况 例如三组间互不相同 某两组间相同且都与第三组不同 所以如果拒绝原假设 还需要对三组进行两两比较 卡方分割 才可以最终下结论卡方检验的公式既可以使用基本公式 c2 A T 2 T 也可以通过下列公式减少计算量 64 完全随机设计的列联表卡方检验 需要说明一点 该公式也可以用于普通四格表 它的结果与四格表专用公式 未校正 计算结果完全相同将表中数据代入 查表得 c20 05 2 5 99 所以P 0 05 在a 0 05的水准上拒绝H0 认为三个地区的龋患率不全相同 65 卡方检验注意事项 同四格表资料一样 R C表的 2分布是建立在大样本的假定上的 要求总例数不可过少 不能有1 5以上的格子理论频数小于5 且不能有一个格子的理论频数小于1如果出现上述情况 可以考虑 增大样本量 根据专业知识合理地合并相邻的组别 删除理论数太小的行列 改用其它方法分析 例如确切概率法或似然比卡方检验当多个样本率 或构成比 作 2检验 结论为拒绝零假设时 只能认为各总体率 或总体构成比 之间总的有差别 不能说明两两之间有差别 两组间的比较可参考 2分割的方法 66 卡方检验注意事项 并非所有的R C列联表作卡方检验都是合理的 R C表可以分为双向无序 单向有序 双向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论