分类资料的统计推断_第1页
分类资料的统计推断_第2页
分类资料的统计推断_第3页
分类资料的统计推断_第4页
分类资料的统计推断_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节分类资料的统计推断 一 率的抽样误差与标准误二 总体率的区间估计三 率的z u 检验 从同一总体中随机抽取n个观察单位的一组样本 计算得到的各个样本率 p 不会都与总体率 完全相同 这种由于抽样误差引起的样本率与总体率之间的差别称为率的抽样误差 抽样误差的大小用样本率的标准差来表示 即率的标准误 一 率的抽样误差与标准误 1 率的标准误计算 理论值 估计值 计算公式 例 在某镇按人口的1 20随机抽取329人 作血清登革热血凝抑制抗体反应检验 得到阳性率为8 81 试求此阳性率的抽样误差 本例 已知 n 329 p 0 0881 代入公式可得 举例说明标准误的计算 例10 6为了解某地人群结核菌素试验阳性率情况 某医疗机构在该地人群中随机检测了1773人 结核菌素试验阳性有682人 阳性率为38 47 试计算其标准误 课堂练习 它是反映含量相同的样本率的离散趋势或变异程度的指标 率的标准误大 则说明样本率或率的抽样误差波动程度大 样本对总体的代表性差 可靠性低 反之 则表示样本率与总体率间教接近 2 率的标准误用途 它可以用于对总体率的区间估计与频率间的显著性检验 二 总体率的估计 点估计 p 用样本率估计总体率 用的较少 区间估计 1 正态近似法 当样本含量n足够大 样本率p和 1 p 均不太小时 可通过np与n 1 p 均大于5 样本率p的分布近似正态分布 这时可利用正态分布理论来估计总体率的可信区间 u 是标准正态分布双侧临界值 在估计总体率的95 置信区间时 其值为1 96 99 置信区间时 其值为2 58 计算公式 用一定概率来估计总体率的所在范围 9 95 的置信区间 38 47 1 96 1 16 36 20 40 74 99 的置信区间 38 47 2 58 1 16 35 48 41 46 示例 求例题10 6中所示该地人群中结核菌素试验阳性率95 和99 的置信区间 已知其阳性率为38 47 标准误为1 16 在某镇按人口的1 20随机抽取329人 作血清登革热血凝抑制抗体反应检验 得到阳性率为8 81 求得阳性率的抽样误差为0 0156 试求抗体阳性率的95 及99 的可信区间 已知 n 329 p 0 0881 sp 0 0156n p 329 0 0881 28 98 5 符合正态近似法的条件95 可信区间 p 1 96 sp 0 0881 1 96 0 0156 0 0575 0 1187即 5 75 11 87 99 可信区间 p 2 58 sp 0 0881 2 58 0 0156 0 0479 0 1283即 4 79 12 83 课堂练习 2 查表法 当n p不符合上述条件 如n较小 n 50 特别是p接近于0或1时 需按二项分布原理估计总体率的可信区间 因其计算比较复杂 统计学家已经编制了总体率可信区间估计用表 可根据样本含量n和阳性数X查阅统计学专著中的附表 教材附表 例 某校校医用仪器矫治25名学生的近视眼 其中3人近期有效 求该方法近期有效率的95 的可信区间 n 25 50 采用查表法 在n 25横行 和x 3的纵列交叉处上行的数值为2 5 31 2 即该法近期有效率的95 可信区间为 2 5 31 2 附表7百分率的可信区间上行 95 可信区间下行 99 可信区间 注意 表中X值只列出X n 2部分 当x n 2时 应以n X值查表 然后用100减去查得的数值 即为可信区间 例 某县抽查了10名献血员的HBsAg携带情况 阴性者8人 求该县献血员HBsAg阴性率的95 的可信区间 本例n 10 X 8 X n 2 故以X 10 8 2查表 得到2 5 55 6 再用 100 2 5 97 5 100 55 6 44 4即该县献血员HBsAg阴性率的95 的可信区间为44 4 97 5 例题 三 率比较的z u 检验 当样本含量n足够大 样本率既不接近于0也不接近于1时 样本率的分布近似正态分布 样本率和总体率之间 两个样本率之间的比较可用z u 检验 1 建立检验假设 确定检验水准2 选定检验方法和计算统计量3 确定P值并作出推断结论 U检验的步骤 1 单个总体率的假设检验 计算公式 样本率与总体率的比较 样本率与总体率比较的目的是推断该样本是否来自于已知总体 即推断样本率与总体率的差异是否由抽样引起 总体率一般为理论值 标准值或大量观察所得的稳定值 例题 经长期临床观察 发现胃溃疡患者发生胃出血症状的占20 现某医院观察了304例65岁以上的老年胃溃疡患者 有96例发生胃出血症状 问老年胃溃疡患者是否较一般患者更易发生胃出血 65岁以上老年胃溃疡患者胃出血率为 P 96 304 31 58 样本p和1 p均不接近于零 且np与n 1 p 均大于5 样本率的分布近似于正态分布 1 建立检验假设 确定检验水准H0 0 即老年胃溃疡患者胃出血发生率与一般患者相同H1 0 即老年胃溃疡患者胃出血发生率高于一般患者单侧 0 05 2 计算检验统计量 3 确定P值 做出推断结论 查t值表 附表2 得 P 0 05 按 0 05水准拒绝H0 接受H1 认为老年胃溃疡患者较一般患者更易发生胃出血 2 完全随机设计两样本率的比较 计算公式 表示为 Sp1 p2 两个总体率的假设检验主要是通过在两个总体中分别进行抽样所得的样本率 p1 p2 来推断总体率 1 2 是不是相等 两个总体率的假设检验 分母实为两个率的标准误 例题 为了解某地小学生蛔虫感染率的城乡差异 抽样调查了该地小学生共22792人 其中城镇小学生抽查8207人 粪检蛔虫卵阳性数为701人 蛔虫感染率为8 54 乡村小学生抽查14585人 粪检蛔虫卵阳性数为2167人 蛔虫感染率为14 86 试比较该地小学生蛔虫感染率城乡差异有无统计学意义 建立检验假设 确定检验水准H0 1 2 H1 1 2 0 05 2 计算统计量u值 1 先计算 3 确定P值 判断结果 确定P值和判断结果 本题 13 739 2 58 P 0 01 按 0 05的水准拒绝H0 接受H1 差异有统计学意义 据此结果可以认为乡村小学生蛔虫感染率显著高于城市小学生 2 计算标准误 3 计算u值 Chi squaretest 2检验是现代统计学的创始人之一 英国统计学家K Pearson于1900年提出的一种具有广泛用途的假设检验方法 常用于分类变量资料的统计推断 三 2检验 1 2检验的定义与基本思想 定义 当需要进行两个或两个以上样本率比较 并试图从样本率的差别来推断其所代表的总体率是否也存在差别时 为保证推断的科学性 必须做样本率的显著性检验 这种检验的方法叫做 2检验 2检验的基本思想假设两组资料率的差异来自抽样误差 用 2值反映实际频率和理论频数吻合的程度 一 四格表资料的 2检验 四格表资料的 2检验可分为完全随机设计 成组设计 两样本率比较的 2检验和配对设计 2的检验 四格表资料形式 对于任何两样本率的资料 都可表达为以下四格表基本形式 2值 P值和统计结论 2界值表 附表7 P362 根据自由度 和检验水准 查表可得 2界值 若 2值 20 05 则可按 0 05的检验水准拒绝H0 若 2值 20 05 则还不能拒绝H0 2值的大小与格子数多少有关 格子数越多 自由度越大 2值也会越大 格子数实际就是指自由度 在四格表中 在周边合计不变的条件下 其中一格的理论数确定以后 其余3个格子的理论数就没有自由变动的余地了 故自由度 等于1 自由度 计算公式为 2界值表 P362 四格表专用公式 为简化计算 省去求理论频数的过程 对于四个表资料可直接用专用公式计算值 连续性校正方法计算 后述 若不能满足条件 可用四格表校正公式 如下 例题 某医师研究奥美拉唑 洛赛克 治疗消化性溃疡的疗效 以西咪替丁 泰胃美 作为对照组 观察结果如下表 试问两组病人的疗效是否有差异 1 完全随机设计两样本率的比较 通过例题说明 表3 5 注 a b c d分别为四格表中的四个理论频数 需计算 n为总例数 首先制四格表资料的效果计算表 表3 5 1 建立检验假设 确定检验水准 即洛赛克组与泰胃美组患者的有效率相同 即洛赛克组与泰胃美组患者的有效率不同 检验水准 操作步骤 2 计算统计量值 A为基本格子的实际频数 T为其理论数 理论数是根据无效检验假设推算出来的 例题的无效假设为两种药物治疗的有效率相同 都等于合计的有效率75 0 90 120 值的大小反映了实际数与理论数的相差情况 若无效假设成立 则理论数和实际数相差不应该太大 较大的值出现的概率较小 故根据资料计算的值越大 就越有理由推翻无效假设 或 为第R行第C列格子的理论数为R行的合计数为第C列的合计数为总例数 d 第2行第2列 因为四格表的一个数 45 确定后 其他就不可变了 所以直接减就可以了 c 第2行第1列 a 第1行第1列 理论数计算公式 b 第1行第2列 求行列的 理论数 求 表中的a b c d 为什么是60 45 表3 5 表3 8两种药物治疗溃疡病的效果计算表 将计算得出的理论频数填入表内 带入公式计算值 3 查表确定P值 做出统计推断 按水准 做出拒绝的结论 结论 洛赛克组患者的疗效显著高于泰胃美组患者的疗效 用四格表专用公式计算 两者计算结果完全相同 一般很少用基本公式计算 本例计算 本例满足 再次复习以上操作步骤 1 建立检验假设 确定检验水准即洛赛克组与泰胃美组患者的有效率相同即洛赛克组与泰胃美组患者的有效率不同 检验水准 表两种药物治疗溃疡病的效果计算表 2 求理论频数 求出一个即可 表3 5 3 计算统计量值 4 确定P值 5 判断结果按水准 做出拒绝还是接受的结论 校正公式 英国统计学家YatesF认为 2分布是一种连续性分布 而原始资料 分类变量资料 属离散性分布 因此得到的统计量也是不连续的 由此计算的 2值只能说近似于 2分布 在自由度大于1 理论频数皆大于5时这种近似性很好 而当自由度为1 四格表 尤其当有理论频数小于5时 这种近似性就差一些 为改善 2统计量分布的连续性 他建议将实际频数和理论频数之差的绝对值减去0 5以作校正 附 2统计量的连续性校正 基本公式 在实际工作中 对于四格表资料 通常规定 1 所有T 5 且N 40时 直接计算值 不用校正 2 1 T 5 且N 40时 用连续性校正检验 3 T 1或N 40 不能用卡方检验 用直接计算概率的方法 直接计算概率方法 可参考相应相关统计学专著 以下介绍连续性校正检验方法 例题 某医生研究比较A B两种药物对急性细菌性肺炎的疗效 有关资料见下表 问两种药物的疗效差别有无统计学意义 表3 9A B两药治疗急性细菌性肺炎的疗效比较 该例属于 1 T 5 且N 40 用连续性校正检验 T22 22 8 64 2 75 5 按 1 查 2值表 20 05 1 3 84 2 4 79 3 84 P 0 05 按 0 05水准 拒绝H0 接受H1 认为两药的疗效差别有统计学意义 A药疗效要好于B药 计算公式 配对四格表资料也叫2 2列联表 是对配对设计研究所获得的计数资料进行比较 配对设计 1 同一批样品用两种不同的处理方法 2 观察对象根据配对条件配成对子 同一对子内不同的个体分别接受不同的处理 3 在病因和危险因素的研究中 将病人和对照按配对条件配成对子 研究是否存在某种病因或危险因素 二 配对资料的卡方检验 应用公式 b c 40b c 40 行数 1 列数 1 1 配对卡方检验又称McNemar检验 配对资料卡方检验公式的推导 某研究者用凝集试验和细菌培养两种方法 同时对65例慢性菌痢患者的粪便进行检查 结果如下表 问两种方法检出率是否有差别 基本思想 表中a与d为结果相同的部分 两种方法是否有差别可以不予考虑 主要比较结果不同部分b与c 如果两种方法检查效果相同 理论上应有总体B C 故可以通过b c的差别大小来判断两种方法的差别 例题 表3 10两种方法检出结果 注意 a b c d和前面讲的理论数概念不同 检验步骤 建立假设 H0 B C H1 B C 0 05 计算 2值 b c 15 40 故采用校正公式 确定P值 2 1 2 1 1 查界值表得 20 05 1 3 84 本例 2 1 07 3 84 P值 0 05 结论 按 0 05水准 不拒绝H0 故认为两种方法检查无差别 两种方法检出结果 注意 由于该检验只考虑了不一致的情况 b与c 而未考虑样本含量n及一致结果 a与d 因此 当n很大而且两法一致率较高 即a与d数值较大 b与c的数值相对较小时 即使检验结果有统计学意义 但实际意义并不大 例11 11用两种血清学方法对100例肝癌患者进行检测 有关检测结果见表10 9 问两种血清学方法检测结果有无差别 表3 11两种血清学方法对肝癌检测的结果比较 课堂练习 H0 两种方法检出率相同 即B CH1 两种方法检出率不同 即B C 0 05 查表得 P 0 025 按 0 05水准 拒绝H0 接受H1 差别有统计学意义 可以认为两种方法的检出率不同 甲法较高 1 2 3 b c 40 两分类变量的关联性分析教材 208自主学习 甲法阳性检出率 82 100 82 乙方法 65 100 65 三 行 列表资料的卡方检验 行 列表卡方检验的通式 R 1 C 1 当计数资料分析的表格行数或列数大于2时 其基本数据有R行C列 称为行列表 简称R C表 R C表有多种资料形式 如多个样本率的比较 构成比的比较 计数资料的关联性分析等 表3 12三个地区花生的黄曲霉毒素B1污染率的比较 例题 某研究者欲比较三个地区花生中黄曲霉毒素B1的污染情况 详见下表 试比较三个地区污染情况有何差别 1 多个样本率的比较 检验步骤 确定P值 3 1 2 1 2 查界值表得 20 05 2 5 99 本例 2 17

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论