《卫统卡方检验》PPT课件.ppt_第1页
《卫统卡方检验》PPT课件.ppt_第2页
《卫统卡方检验》PPT课件.ppt_第3页
《卫统卡方检验》PPT课件.ppt_第4页
《卫统卡方检验》PPT课件.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章卡方检验 小组成员 彭渝轩冯丹杨芳 卡方检验 第一节四格表资料的 2检验第二节配对四格表资料的 2检验第三节四格表资料的Fisher确切概率法第四节行 列表资料的 2检验第五节多个样本率间的多重比较第六节有序分组资料的线性趋势检验第七节频数分布拟合优度的 2检验 四格表资料的 2检验 卡方检验是 2检验 Chi squaretest 是现代统计学的创始人之一 英国人K Pearson 1857 1936 于1900年提出的一种具有广泛用途的统计方法 是分类计数资料的假设检验方法 可用于两个或多个率间或构成比之间的比较 计数资料的关联度分析 拟合优度检验等等 这就是著名的pearson 2检验 卡方检验的检验统计量为 卡方检验是建立在卡方分布的基础上 2分布是一种连续型分布 只有自由度一个参数 按分布的密度函数可给出不同自由度的一簇分布曲线 2分布的形状依赖于自由度的大小 当自由度 2时 曲线呈L形 随着自由度的增加 曲线逐渐趋于对称 当自由度趋向于无穷大时 2分布趋向正态分布 3 84 7 81 12 59 P 0 05的临界值 2分布 chi squaredistribution 2分布具有可加性 如果两个独立的随机变量X1X2分别服从自由度v1v2的 2分布 那么它们的和 X1 X2 服从自由度 v1 v2 的 2分布 自由度一定时 P值越小 2值越大 当P值一定时 自由度越大 2越大 2检验时 先计算检验统计量 2值 然后按自由度查 2界值表 确定P值 卡方检验的基本原理 卡方检验的基本思想是检验列联表的实际频数和理论频数的差别是否由抽样误差所引起 x2反映了实际频数与理论频数的吻合程度 卡方检验就是通过二者的吻合程度大小作出统计推断 对于同一份资料 u2 x2 表 两组工人的骨质增生发生率比较 期望频数的分布 根据前面的表格 假设两总体发生率相等 均等于合计的骨质增生发生率35 5 27 76 根据上述假设 计算表格中对应的期望频数 也可称为理论数 记作T 根据上述假设 计算得到井下矿工组发生骨质增生的期望频数T11 40 27 76 14 2 井上工人组发生骨质增生的期望频数T21 36 27 76 12 8 表 两组工人的骨质增生发生率比较 综合以上思路 列联表期望频数的统一计算公式为 如果H0成立 A与T不应相差太大 x2值不应很大 如果H0不成立 由H0为真的条件下所计算的理论频数与样本的实际频数的差别会很大 大多数情况下的检验统计量x2会较大或很大 理论上可以证明 若H0成立 服从x2分布 A 表示实际频数 即实际观察到的例数 T 理论频数 期望频数 即如果假设检验成立 应该观察到的例数 计算出x2值后 查表判断如此大的x2是否为小概率事件 以判断建设检验是否成立 如果x2值大于临界值 P a 所以可以拒绝H0 x2值的大小除了与 A T 的差值有关外 还取决于格子数 严格说是自由度 的多少 因为每个格子的 A T 2 T都是正值 因此格子数越多 x2值就越大 所以考虑x2值大小的意义时就要同时考虑自由度自由度 R 1 C 1 其中 R行数 C列数 例题 为了解井下矿工腰脊椎退行性变化情况 2002年某医生从某煤矿井下作业15 20年的40岁以上矿工的名单中按系统抽样的方法随机抽取40名工人为观察组 同时从年龄 工龄和身高相近的井上体力劳动者中按同样方法随机抽取36名工人作为对照组 对每个观察单位做X光影像检查 并根据检查结果将76名调查对象分为骨质增生发生和未发生两种情况 用卡方检验来回答井下矿工与井上工人的骨质增生发生率有无不同 例题 表 两组工人的骨质增生发生率比较 具体步骤 1 建立假设 2 计算卡方统计量 3 确定P值 并做出结论 卡方检验的使用范围 两组及多组率的检验两组及多组构成比分布的检验独立性检验拟合优度检验 四格表资料的x2检验 什么是四格表资料 凡是两个率或构成比资料都可以看做四格表资料 即2 2列联表 四格表的一般形式 假设一组和二组的总体阳性率相等 均等于 即 因此 以两样本组的合计阳性率作为理论频率 期望频数就可以通过每组的合计数与总体阳性率乘积得到 也即 四格表资料的一般公式 A是实际频数 T是根据假设检验来确定的 是当H0成立时 计算出的理论频数 四格表资料的一般公式展开式 四格表资料的专用公式 该公式从基本公式推导而来 计算结果与基本公式相同 适用条件 N 40且T 5 表 两组工人的骨质增生发生率比较 具体步骤 1 建立假设 2 计算卡方统计量 按照四格表专用公式 3 确定P值 并做出结论 四格表资料的校正公式 卡方值的分布原本是连续性分布 界值表是根据这种连续性的理论分布计算出来的 而分类数据都是不连续的 由此计算的x2值也是不连续的 与真正的卡方分布有一定的误差 统计学家已经证明 当自由度比较大时 误差较小 当自由度为1时 特别是n较小或者期望频数 5 则误差较大 使得所得概率偏小 统计学家提出了校正公式 一般来说 当n 40 1 T 5时 采用校正公式 对四格表资料 如果n 40 且所有的格子的理论频数 5 无须进行校正 该方法是由R A Fisher1934提出的 其理论依据是超几何分布 简称Fisher确切概率法 此方法不属于卡方检验范畴 但可作为四格表卡方检验应用上的补充 实际上 当有统计软件条件下 大样本四格表的资料也可用确切概率检验 当T 1或n 40时 或者当卡方检验的P值 a时 采用确切概率法 例 某食品检验所对来自同一屠宰场的甲 乙两肉食零售点的猪肉 检查其表层沙门菌带菌情况 资料见表 问甲 乙两零售点的猪肉带菌率有无差别 表 比较甲 乙两零售点猪肉表层沙门菌带菌率 首先计算最小的期望频数 T21 14 7 42 2 33由于最小期望频数小于5 应选用校正公式第一步 建立假设H0 1 2H1 1 2第二步 确定显著性水平 0 05第三步 计算统计量 第四步 确定P值 判断结果 确切概率法 确切概率计算方法的基本思想 在四格表边缘合计固定不变的条件下 利用公式直接计算表内四个格子数据的各种组合的概率 然后计算单侧或双侧累计概率 并与检验水准比较 作出是否拒绝H0的结论 例题 将23名精神抑郁症患者随机分到两组 分别用两种药物治疗 结果见表 问两种药物的治疗效果是否不同 本例n 40 只能选择四格表的确切概率法 1 建立检验假设H0 两种药物治疗效果相等H1 两种药物治疗效果不等 2 计算概率 在边缘合计数不变的条件下 计算所有组合四格表的概率P 表 各种组合的四格表计算的确切概率 3 确定P值和作出判断双侧检验的P值是指上表中P 0 114各种组合的四格表确切概率相加所得到的累积概率 单侧检验则取a 7 或a 7一侧的累积概率为单侧P值 本题的研究目的是甲乙两种药物的治疗效果何者为优 所以用双侧检验 将上表中P 0 114的8个四格表的P值相加 得累计概率P 0 214 按显著性水平0 05水准不能拒绝原假设 两组药物疗效的差别无统计学意义 尚不能认为两药治疗精神抑郁症的效果不同 若研究的目的是说明甲药是否优于乙药 并有证据说明甲药不会次于乙药 则用单侧检验 将表中a 7的1 4四格表的P值相加得累计概率P 0 14 按显著性水平0 05检验水平 不能拒绝原假设 两组药物疗效的差别无统计学意义 尚不能认为甲药治疗精神抑郁症的效果优于乙药 四格表卡方检验条件总结 当n 40 且所有T 5时 用基本公式或四格表专用公式 如果P a 最好用确切概率法 当n 40 但有1 T 5时 用四格表校正公式 或用确切概率法 当n 40 或T 1时 需用确切概率法 在实际应用中 通常先计算四格表中最小的T值 也就是最小行合计与最小列合计对应的那一格子的T值 以确定是否采用校正公式 什么是配对资料 计数资料的配对设计同计量资料一样 可以将条件相似的两个受试对象配成一对 随机地让其中一个接受A处理 另一个接受B处理 也可以把两种处理分别施与同一受试对象 或观察同一受试对象处理前后的变化 把每种处理的结果分类整理成表格的形式 这种设计类型的资料称为配对资料 配对四格表资料的x2检验 例 为比较两种检验方法是否有差别 某实验室将75份受大肠杆菌污染的乳制品依相同的实验条件分别用乳胶凝聚法 A法 和常规培养法 B法 作细菌培养 并将培养结果整理成下表 问两种实验的细菌培养效果有无不同 研究目的是检验两种处理方法的总体阳性率是否有差别 而两种处理的样本阳性率及其差值分别为 PA a b n PB a c n PA PB b c n可见 两样本阳性率差值的大小完全是由b和c决定 如果b c 则两样本的阳性率相等 因此推断总体率是否相等 只需推断总体B C即可 假设检验仍然采用卡方检验 又称为McNemar检验 在H0 总体B C成立的情况下 b与c的理论频数相等 均等于因此 当b c 40时 需要做连续性校正 校正公式为 行 列表资料的x2检验 四格表是指只有2行2列的表格 当行数或列数超过2时 统称为行 列表 或R C表 行 列表的卡方检验多用于 多个独立样本率的比较 R 2 两个或多个样本构成比分布的比较 2 C表 或R C表 单个样本资料的两个无序分类变量间有无关联性的统计推断 基本公式 基本公式的展开式 其中 自由度 R 1 C 1 适用条件 表中不宜有1 5以上格子的理论频数小于5 或有一个格子的理论频数小于1 表三种疗法有效率的比较 例 三种疗法治疗周围性面神经麻痹的有效率比较 一 多个独立样本率的比较 H0 1 2 3 即三种疗法治疗周围性面神经麻痹的有效率相等H1 三种疗法治疗周围性面神经麻痹的有效率不全相等 查 2界值表 得p 0 005 按 0 05水准 拒绝H0 接受H1 三种疗法治疗周围性面神经麻痹的有效率有差别 例 某研究人员收集了亚洲 欧洲和北美洲人的A B AB O血型资料 结果见表所示 其目的是研究不同地区的人群血型分类构成比是否一样 二 样本构成比的比较 建立假设H0 不同地区的人群血型分布构成相同H1 不同地区的人群血型分布构成不同或不全相同 0 05计算检验统计T11 1080 987 2592 411 5T12 215 83T13 64 17T14 388 75T21 196 87T22 103 32T23 30 72T24 186 10T31 378 88T32 198 8T33 59 12T34 358 15 方法1 查 2界值表v 3 1 4 1 6 由于 则P 0 05 拒绝H0 认为三个地区的人群血型分布构成不同或不全相同 建立假设H0 不同地区的人群血型分布构成相同H1 不同地区的人群血型分布构成不同或不全相同 0 05计算检验统计 方法2 查 2界值表v 3 1 4 1 6 由于则P 0 05 拒绝H0 认为三个地区的人群血型分布构成不同或不全相同 除了关联性检验外 用于说明两个变量之间关系的密切程度 则需计算关联系数 contingencycoefficient 符号C 计算公式为 C值表示密度程度 关联系数C的取值大小是在0 1之间 0表示两个分类变量完全无关 即完全独立 1表示两个分类变量完全相关 即完全不独立 C值越接近0 表示关系越不密切 越接近1 表示关系越密切 适用于双向无序分类资料的关联性检验 也叫独立性检验 三 双向无序分类资料的关联性检验 表某地5801人的血型 问题 1 两分类变量有无关联 2 关联程度如何 例 注意 此资料不同于配对分类资料 分类不同 H0 两种血型系统间无关联H1 两种血型系统间有关联 提出假设 2 计算检验的统计量 3 根据显著性水平 作出判断 查界值表得P 0 005 按 0 05检验水准拒绝H0 接受H1 认为两种血型系统间有关联 结论 两种血型系统间虽然有关联性 但列联系数数值较小 虽然有统计学意义 仍可认为关系不太密切 进一步计算列联系数 行 列表 2检验注意事项 一般认为不宜有1 5的理论频数小于5 或有1个格子的理论频数小于1 如果理论频数太小 可采取下列方法 进一步增大样本含量 删去上述理论频数太小的行和列 将太小理论频数的行或列与相临的两行或两列合并 改用确切概率法 多重比较时 当拒绝H0 说明总体有差异 并不说明任意两组间都有差异 需要做行 列表的分割才能检验任意两组间是否有差异 有些资料不适合做x2检验 如等级资料 多个样本率间的多重比较 对于比较多组独立样本的卡方检验 拒绝H0只能说各组总体概率不全相同 即多组中至少有两组的有效概率是不同的 但并不是多组有效概率之间彼此之间均不相同 若要明确哪两组不同 还需要做进一步作多组间的两两比较 4个处理组 两两比较有6组对比 如果直接对每种对比分别作四格表的卡方检验 将增大犯一类错误的机会 为此在进行多组频率的两两比较时 需根据比较的次数修正检验水准 RXC表可以分为双向无序 单向有序 双向有序属性相同和双向有序属性不同4类 双向无序的RXC表资料 1 若研究目的为多个样本率 或构成比 的比较 可用行X列表资料的卡方检验 2 若研究目的为分析两个分类变量之间有无关联性以及关联性密切程度时 可用行X列表资料的卡方检验以及Pearson列联系数进行分析 单向有序的RXC表资料 两种形式 1 分组变量 如年龄 有序 指标变量 如传染病类型 无序 其研究目的通常是分析不同年龄各种传染病构成情况 用行X列表资料的卡方检验 2 分组变量 如疗法 无序 指标变量 疗效 有序 其研究目的为比较不同疗法的疗效 此种单向有序资料宜用秩转换的非参数检验 双向有序属性相同的RXC表资料 RXC表资料中的两个分类变量皆为有序且属性相同 实际上是配对四格表资料的扩展 如用两种检测方法同时对同一批样品的测定结果 其研究目的通常是分析两种检测方法的一致性 此时用一致性检验即Kappa检验 双向有序属性不同的RXC表资料 1 若研究目的为分析不用年龄患者疗效之间有无差别时 可是为单向有序RXC资料 选用秩转换的非参数检验 2 若研究目的为分析两个有序分类变量之间是否存在相关关系 宜用等级相关分析 3 若研究目的为分析两个有序分类变量间是否存在线性变化趋势 宜用有序分组资料的线性趋势检验 拟合优度检验 goodnessoffittest 也称适合性检验 是根据样本频率分布检验其总体分布是否等于给定的理论分布用到的检验统计量是卡方检验统计量 常用于判断是否符合正态分布 二项分布 Poisson分布等 拟合优度检验不针对具体参数 而是针对分布的类型 是推断单样本的k组频数的分布与某一理论分布是否相同的一种假设检验方法 拟合优度 意指样本实际频数拟合期望频数的优劣程度 自由度v k 1 计算期望频数时利用样本资料估计的参数个数 Pearson早在1900年就提出了一个用于检验 总体具有某种分布 的假设检验方法 卡方检验 拟合优度检验的基本思想 假设样本资料服从某一理论分布 如果原假设成立 则实际频数与理论频数的差值在大多数情况下很小 所以检验统计量x2一般情况下很小 反之 当总体分布不服从理论分布 则实际频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论