统计学--第十二章卡方检验.ppt_第1页
统计学--第十二章卡方检验.ppt_第2页
统计学--第十二章卡方检验.ppt_第3页
统计学--第十二章卡方检验.ppt_第4页
统计学--第十二章卡方检验.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章卡方检验 一 用于检验 1 两组或几组率或构成比的差异有无显著性2 各行的平均分间有无差异3 行与列两个顺序分类变量之间是否相关4 拟合优度检验 第一节四格表资料的 2检验 以P153例12 1为例1 四格表 将资料列成表格 表格中四个数字是基本的 63 17 31 68 称四格表fourfoldtable2 实际数 表内各格数字为实际资料的数字 称observedvalue actualfrequency 记为O或A两样本率不同的原因 抽样误差 总体率确实不同 两种类型胃溃疡病内科疗法治疗结果 为检验是否为第二种情况 无效假设为两种治愈率本无不同 差别仅由抽样误差所致 3 理论治愈率 根据两组治愈率相同的假设 合计治疗179人 总治愈94人 得理论治愈率为94 179 52 51 4 理论数 一般溃疡患者80 按理论治愈率应治愈80 52 51 42 01 称theoreticalvalue theoreticalfrequency 记为T 同理可得其余理论数 亦可由减法求得 Trc nrnc n 理论数为行合计乘列合计除总合计理论数有两个特征 1 理论频数表的构成比相同 即不但各行构成比相同 而且各列亦相同 2 各个基本格子实际数与理论数的差别 绝对值 相同5 样本率的差别演绎为实际数与理论数的差别 两样本率相差愈大 则实际数与理论数的差别就愈大 若无效假设成立 实际数与理论数之差就不会很大 1 实际数与理论数之间的差别等价于两样本率的差别2 检验假设H0 四格表的构成比相同 等价于H0 两总体率相等3 对实际数与理论数差值的假设检验 等价于对两样本率差值的假设检验 6 2检验的基本思想 及计算步骤 1 假设两总体率相等 构成比相同 HO 1 2 即两总体阳性率相等H1 1 2 即两总体阳性率不等 0 05不妨把H0看作 1 2 两样本合并的阳性率2 实际数与理论数的差值服从 2分布 又称pearson 2 2值是以理论数为基数的相对误差 它反映了实际数与理论数吻合的程度 差别的程度 若检验假设成立 则实际数与理论数的差别不会很大 出现大的 2值的概率是很小的 若P 就怀疑假设 因而拒绝它 若P 则尚无理由拒绝它 2值的大小随着格子数的增加而变大 即 2分布与自由度有关 因而考虑 2值大小的意义时 要考虑到格子数 当周边合计数固定的情况下 四个基本数据当中只有一个可以自由取值 即自由度为1 R 1 C 1 R行C列时 R行中有一行数据受到列合计的限制而不能自由变动 C列中亦有一列数据在行合计的限制下不能自由取值3 查 2分布界值表确定P值并作出推论 2 39 93 自由度为1 查附表6 7 20 05 1 3 84 20 01 1 6 63 20 001 1 10 83一般类型的治愈率高于特殊类型 结合样本率作实际推论 P 0 001 按 0 05水准 拒绝H0接受H1 因而认为两总体的阳性率有差别 统计学推论 结果说明 两组胃溃疡病人治愈率的差别有高度统计意义 7 2值的校正 四格表 2检验的条件实际上 2值是根据正态分布中 2 xi 2的定义计算出来的 用前述公式算得的值只能说近似于 2分布 在自由度大于1 理论数皆大于5时 这种近似较好 自由度为1 当有理论数小于5时 需进行 连续性 校正 2检验条件 四格表 1 当n 40且所有T 5时 用普通的 2检验 若所得P 改用确切概率法 2 当n 40但有1 T 5时 用校正 2检验3 当n 40或有T 1时 不能用 2检验 改用确切概率法 8 四格表专用公式为方便起见 当基本格子的实际数命名为a b c d 行合计写为a b c d 列合计写为a c b d n为总观察数 第二节行 列表的 2检验 当行或列超过2组时通称为行 列表 或R C表 亦称列联表contingencytable 可用于1 多个率的比较可用以下简化公式 无相应校正公式 适用条件 不能有理论数小于1 并且1 T 5的格子数不超过总格子数1 5 条件不足时的三种处理方法 1 增大样本例数使理论数变大2 删除理论数太小的行或列3 将理论数太小的行或列与性质相近的邻行或邻列合并 使重新计算的理论数增大 但是此处理可能损失信息 也会损害样本的随机性 不同的合并方式所得的结果也不一样 因而在不得已时慎用 2 多个构成比比较3 双向有序分类资料的关联性检验表格是按两个变量从小到大顺序分类整理出来的 目的是研究两变量间有无关联性 从左上角往右下角看 频数有无集中在此对角线上的趋势 即两变量有关联 若频数在这些格子均匀分布 或各行分布 构成比 相同 且各列分布 构成比 相同 则表示两个变量无关联性了 R C表 2检验注意事项若表格有一个方向按多个等级分类 则称为单向有序行列表 当等级数大于3时 一般用秩和检验分析更为合适 似然比卡方统计量 Likelihoodratiochi square自由度的确定及临界值与Pearson卡方一致理论上当样本量相当大时 Pearson卡方和似然比卡方都接近卡方分布 样本不够大时都偏离卡方分布 两者的数值不同但接近 实践中这两个统计量可同时使用 结合起来下结论 第三节四格表精确检验法 卡方检验的基本公式和校正公式有其应用条件 且仅为近似 当四格表中有理论数小于1或总观察例数小于40时 需改用四格表的确切概率法exactprobabilitiesin2 2table 基本思想 在四格表周边合计不变的情况下 获得某个四格表的概率为a 表示factoriala或afactorial0 1 3 3 2 1 6该方法计算出的概率为分布中单侧的概率 故双侧时应以0 025为显著性水平 结合实际确定采用单侧还是双侧 1 有实际数为0的情况下 只需代入公式计算P值即可2 没有实际数为0的情况时 要把更加极端的情况都算入 更加极端的情况是指 原来治愈率高的治愈人数更要加多 治愈率低的治愈人数更要减少 直至出现0为止 但保持合计及总合计数字不变 见P157例12 4最后将几情况的概率相加得P值 单侧 可用查表法或计算机直接给出 双侧检验时 1 单侧概率加倍2 加上对侧 当前四格表的概率的所有概率 这两种方法的结果有时可能会有所不同 教科书建议以第二种方法为准 第四节配对计数资料的 2检验 一 两种处理方法的比较 P169 其中b c为两种培养基生长情况不同的数字 a b两培养基相同可不考虑当b c 40时可不校正 而b c 40时 则一定要用校正公式 注意 1 配对四格表中的数字为对子数2 当a格与d格的数字都特别大 而b c格的数字都相对较小时 即使配对四格表卡方检验结果有统计意义 其实际意义也不大 因此 配对四格表的卡方检验一般用于检验样本含量不太大的资料 二 两种以上处理方法的比较见P170 171例12 15仅供了解 第五节列变量为顺序变量的列联表 行平均分差检验 一 2 C表P163例12 10Pearson卡方只能得出两组构成是否相同的结论 不能得出哪组疗效较好的结论人为地给各疗效一个分数 如无效为1 好转为2 显效为3 痊愈为4 计算其均数 称行平均分rowmeanscore aj为各疗效得分 n1j为第一行各疗效的频数 n1 为第一行合计同理计算第二行平均分再进行行平均得分差检验 s2 为平均期望得分 为方差 平均得分统计量的样本大小较容易达到 只要主观确定一个分割点 把列分为 J和J 1 r两部分 变成四格表 把新的四格中各部分实际数相加 只要四格表中大部分超过 即可 二 行为名义变量列为顺序变量的行 列表1 行平均分的计算行平均分可采用 整数给分法2 行平均分差别统计意义检验 第六节行列变量的相关检验 行与列变量都是顺序变量时可检验两者是否相关 P166例12 12行c与列a都给予得分用a和c计算线性函数f再分别计算行平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论