生物统计学卡方检验ppt课件.ppt_第1页
生物统计学卡方检验ppt课件.ppt_第2页
生物统计学卡方检验ppt课件.ppt_第3页
生物统计学卡方检验ppt课件.ppt_第4页
生物统计学卡方检验ppt课件.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章卡方检验 应用统计学 卡方 c2 分布 设总体服从正态分布N 2 X1 X2 Xn为来自该正态总体的样本 则样本方差s2的分布为 将 2 n 1 称为自由度为 n 1 的卡方分布 主要适用于对拟合优度检验和独立性检验 以及对总体方差的估计和检验等 卡方 c2 分布 卡方 c2 分布的特点 不同容量样本的抽样分布 c2 1 2分布是一个以自由度n为参数的分布族 自由度n决定了分布的形状 对于不同的n有不同的卡方分布2 卡方分布于区间 0 是一种非对称分布 一般为正偏分布 3 卡方分布的偏斜度随自由度降低而增大 当自由度为1时 曲线以纵轴为渐近线 当自由度增大的时 分布曲线渐趋近左右对称 当自由度大于等于30的时候 卡方分布接近正态分布 4 卡方分布具有 可加性 X Y独立 X 2 n1 Y 2 n2 则X Y 2 n1 n2 卡方 c2 分布的函数 CHIDIST 自由度为n的卡方分布在x点处的单尾概率CHIINV 返回自由度为n的卡方分布的单尾概率函数的逆函数 2检验是以 2分布为基础的一种假设检验方法 主要用于分类变量 根据样本数据推断总体的分布与期望分布是否有显著差异 或推断两个分类变量是否相关或相互独立 卡方检验基础 2值的计算 由英国统计学家KarlPearson首次提出 故被称为Pearson 2 卡方检验基础 检验某个连续变量的分布是否与某种理论分布一致 如是否符合正态分布等检验某个分类变量各类的出现概率是否等于指定概率检验两个分类变量是否相互独立 如吸烟是否与呼吸道疾病有关检验控制某种或某几种分类变量因素的作用之后 另两个分类变量是否独立 如上例控制年龄 性别之后 吸烟是否与呼吸道疾病有关检验两种方法的结果是否一致 如两种诊断方法对同一批人进行诊断 其诊断结果是否一致 卡方检验基础 用途 卡方检验的用途 一个样本方差和总体方差是否相同 同质性检验 适合性检验 独立性检验 观察值和理论值是否符合 两个或两个以上因素之间是否相关 计数资料和属性资料 一个样本方差的同质性检验 从标准正态总体中抽取k个独立u2之和为卡方 2 其 2服从自由度为 k 1 的卡方分布 当用样本平均数估计总体平均数时 有 将样本方差代入 则 卡方函数的使用 假设 假设 假设 例 已知某农田受到重金属污染 经抽样测定铅浓度分别为 4 2 4 5 3 6 4 7 4 0 3 8 3 7 4 2 ug g 方差为0 150 试检验受到污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差 0 065 相同 分析 1 一个样本方差同质性检验2 事先不知道受污染的农田与正常农田的铅浓度方差的大小 故双尾检验 2 选取显著水平 解 1 假设即受到污染的农田铅浓度的方差与正常农田铅浓度的方差相同 对 3 检验计算 4 推断 当df 8 1 7 由CHIINV 0 025 7 16 01 即 否定H0 接受HA 即样本方差与总体方差试不同质的 认为受到污染的农田铅浓度的方差与正常农田的方差有显著差异 卡方检验的原理和方法 Pearson定理 当 P1 P2 Pk 是总体的真实概率分布时 统计量 随着n的增加渐近于自由度df k 1的卡方分布 其中P1 P2 Pk为k种不同属性出现的频率 n为样本容量 ni为样本中第i种属性出现的次数 是观测值 记为Oi pi为第i种属性出现的概率 npi则可以看成理论上该样本第i种属性出现的次数 理论值记为 Ei 即 卡方检验的原理和方法 Pearson定理的基本含义 如果样本确实是抽自由 P1 P2 Pk 代表的总体 Oi和Ei之间的差异就只是随机误差 则Pearson统计量可视为服从卡方分布反之 如果样本不是抽自由 P1 P2 Pk 代表的总体 Oi和Ei之间的差异就不只是是随机误差 从而使计算出的统计量有偏大的趋势因此 对Pearson统计量进行单尾检验 即右尾检验 可用于判断离散型资料的观测值与理论值是不是吻合 卡方检验的原理和方法 统计假设 H0 观测值与理论值的差异是由随机误差引起HA 观测值与理论值之间有真实差异所以卡方值是度量实际观测值与理论值偏南程度的一个统计量卡方值越小 表明观测值与理论值越接近卡方值越大 表明观测值与理论值相差越大卡方值为0 表明H0严格成立 且它不会有下侧否定区 只能进行右尾检验 卡方检验的原理和方法 由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布 所以在对离散型资料进行卡方检验计算的时 结果常常偏低 特别是当自由度df 1时 有较大偏差 为此需要进行矫正 当自由度df 1时 与连续型随机变量卡方分相近似 这时可以不做连续性矫正注意 要求各个组内的理论次数不小于5 如某组理论次数小于5 则应把它与其相邻的一组或几组合并 知道理论次数大于5为止 适合性检验 适合性检验 吻合性检验或拟合优度检验 步骤 1 提出无效假设 即认为观测值和理论值之间没有差异2 规定显著性水平3 计算样本卡方值4 根据规定的显著水平和自由度计算出卡方值 再和实际计算的卡方值进行比较 例 有一鲤鱼遗传试验 以荷包鲤鱼 红色 隐性 与湘江野鲤 青灰色 显性 杂交 其F2获得下表的所列的体色分离尾数 问这一资料的实际观测值是否符合孟德尔一对等位基因的遗传规律 鲤鱼遗传试验F2观测结果 分析 1 适合性检验问题2 自由度为 2 1 1 需要连续性矫正 2 选取显著水平 解 1 假设鲤鱼体色F2性状分离符合3 1对鲤鱼体色F2性状分离不符合3 1 3 检验计算 计算鲤鱼体色的理论值 4 推断 由CHIDIST 301 63 1 1 45E 67 即故应否定H0 接受HA 认为鲤鱼体色F2性状比不符合3 1比率 4 推断 由CHIINV 0 025 1 5 02 即故应否定H0 接受HA 认为鲤鱼体色F2性状比不符合3 1比率 独立性检验 步骤 1 提出无效假设 即认为所观测的各属性之间没有关联2 规定显著性水平3 根据无效假设计算出理论数4 根据规定的显著水平和自由度计算出卡方值 再和计算的卡方值进行比较 如果接受假设 则说明因子之间无相关联 是相互独立的如果拒绝假设 则说明因子之间的关联是显著的 不独立 一 2X2列联表的独立性检验 设A B是一个随机试验中的两个事件 其中A可能出现r1 r2个结果 B可能出现c1 c2个结果 两因子相互作用形成4个数 分别以O11 O12 O21 O22表示 即2X2列联表的一般形式 一 2X2列联表的独立性检验 2X2列联表的卡方检验步骤 1 提出无效假设H0 事件A和B无关 即事件A和B相互独立 同时给出HA 事件A和B有关联关系2 给出显著水平3 依据H0 可以推算出理论值 计算卡方值4 进行推断 例 现随机抽样对吸烟人群和不吸烟人群是否患有气管炎病进行了调查 其调查结果如下表 试检验吸烟与患气管炎病有无关联 不同人群患气管炎病调查 分析 1 独立性检验问题2 自由度为df 2 1 2 1 1 需要连续性矫正 2 选取显著水平 解 1 假设吸烟与患气管炎无关对吸烟与患气管炎有关联 3 检验计算 计算联表中的各项的理论次数 4 推断 由CHIDIST 23 174 1 1 48E 6 即故应否定H0 接受HA 认为吸烟与患气管病极显著相关 4 推断 由CHIINV 0 025 1 6 63 即故应否定H0 接受HA 认为吸烟与患气管炎病密切相关 二 rXc列联表的独立性检验 rXc列联表是指r 2 c 2的计数资料 一般形式如下rXc列联表的一般形式 二 rXc列联表的独立性检验 rXc列联表中各项理论频率的计算方法如2X2列联表 即 Eij RiCj T 由于自由度df r 1 c 1 由于r 2 c 2 故自由度df 1 因而不需要进行连续性矫正 其计算公式如下 例 某医院用碘剂治疗地方性甲状腺肿 不同年龄的治疗效果如下表 试检验不同年龄的治疗效果有无差异 不同年龄用碘剂治疗甲状腺肿效果比较 分析 1 独立性检验问题2 自由度为df 4 1 3 1 6 不需要连续性矫正 2 选取显著水平 解 1 假设治疗效果与年龄无关对治疗效果与年龄有关 3 检验计算 计算联表中的各项的理论次数 4 推断 由CHIDIST 46 988 6 1 88E 8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论