分类变量资料的统计分析-统计推断.ppt_第1页
分类变量资料的统计分析-统计推断.ppt_第2页
分类变量资料的统计分析-统计推断.ppt_第3页
分类变量资料的统计分析-统计推断.ppt_第4页
分类变量资料的统计分析-统计推断.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第三节 分类变量资料的统计分析 统计推断,信阳职业技术学院 赵玉霞,一 率的抽样误差与可信区间 二 率的统计学推断 1.样本率与总体率比较的u检验 2.两个样本率比较的u检验 三 卡方检验 1.四格表2检验(两个率比较) 2.配对四格表2检验(两个率比较) 3.行列(RC)2检验(多个率或构成比比较),主要内容,能够计算率的标准误并能进行两个率差别的u检验 描述总体率的估计方法 能够进行两个率或多个率(或构成比)差别的 2检验,学习目标,一 率的抽样误差与可信区间,1.率的抽样误差与标准误 2.总体率的可信区间,1. 率的抽样误差与标准误,如果总体均数 未知,用样本均数 估计,样本均数( )和总体均数()的差异称为均数的抽样误差(sampling error of rate) ,用均数的标准误(standard error of rate)度量。,复习,1. 率的抽样误差与标准误,样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate) ,用率的标准误(standard error of rate)度量。,如果总体率未知,用样本率p估计,率的标准误的计算,2. 总体率的可信区间 (confidence interval of rate),根据样本率推算总体率可能所在的范围,二 率的统计学推断,1.样本率与总体率比较u 检验 2.两个样本率的比较u 检验,1.样本率与总体率比较的u 检验,u检验的条件:n p 和n(1- p)均大于5时,2.两个独立样本率比较的u 检验,两种疗法的心血管病病死率比较,u检验的条件: n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 5,小 结,1样本率也有抽样误差,率的抽样误差的大小用p或Sp来衡量。 2率的分布服从二项分布。当n足够大,和1-均不太小,有n5和n(1-)5时,近似正态分布。 3总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时,可用正态近似法估计率的可信区间。 4根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。,率的u检验能解决以下问题吗?,率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关系(如治疗A、治疗B);反应为多分类,如何进行假设检验? 率的u检验要求:n足够大,且n5和 n(1-)5。如果条件不满足,如何进行假设检验?,三 卡方检验,2检验(Chi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。 本章仅限于介绍两个和多个率或构成比比较的 2检验。,三 卡方检验,1.四格表2检验(两个率比较) 2.配对四格表2检验(两个率比较) 3.行列(RC)2检验(多个率或构成比比较),卡方检验的基本思想,1.四格表(fourfold table) 2检验 两种疗法的心血管病病死率的比较,如果确实p1= p2,那么两种疗法的病死率理论上都应该等于pc,故可算出实际频数A ( a、b、c、d)所对应的理论频数T(T11 ,T12 ,T21 ,T22) (H0:1=2=),卡方检验的基本思想 1.四格表(fourfold table) 2检验,两种疗法的心血管病病死率的比较,T11 (a+b)pc= (a+b)(a+c.)/ n=R1C1/n =21.3 T12 (a+b)(1-pc)= (a+b)(b+d.)/ n =R1C2/n =182.7 T21 (c+d)pc= (c+d)(a+c)/ n =R2C1/n =6.7 T22 (c+d)(1-pc)= (c+d)(b+d.)/ n =R2C2/n =57.3,如果, H0:1=2=成立,实际数值与理论数值之间差异是抽样误差造成的;若H0:1 2,实际数值与理论数值的差异也有统计学意义。两种疗法病死率的比较,就转变成了格子内的实际数值与理论数值的比较。 计算检验统计量:,各种情形下,理论与实际偏离的总和即为卡方值(chi-square value),它服从自由度为的卡方分布。,卡方检验的基本思想 1.四格表(fourfold table) 2检验,卡方检验的基本思想 1.四格表(fourfold table) 2检验,实际数值与理论数值的差异越大, 2值就越大,H0发生的概率(P)越小,若P0.05或0.01,我们就认为,两疗法病死率差异不显著,无统计学意义。,卡方检验的基本思想 1.四格表(fourfold table) 2检验,两种疗法的心血管病病死率的比较,查表2 (0.05,1) =3.84, 2 =4.823.84,P0.05 两种疗法病死率差异显著。,3.84,7.81,12.59,P0.05的临界值,2分布(chi-square distribution),2检验的基本公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。,四格表专用公式,为了不计算理论频数T, 可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:,四格表专用公式,2(1) u2 2.194924.82(n40,所有T5时),四格表连续性校正公式,2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称Yates校正(Yates correction)。 当n40,而1T5时,用连续性校正公式 当n40或T1时,用Fisher精确检验(Fisher exact test ),校正公式:,四格表连续性校正公式,因为1T5,且n40时,所以应用连续性校正2检验,2.配对四格表资料的2检验,配对四格表资料的2检验,H0:b,c来自同一个实验总体(两种剂量的毒性无差异); H1:b,c来自不同的实验总体(两种剂量的毒性有差别); =0.05。,3.行列(RC)表资料的2检验,RC表的2检验通用公式,几种RC表的检验假设H0,RC表的计算举例,RC表2检验的应用注意事项,1. 对RC表,若较多格子(1/5)的理论频数小于5 或有一个格子的理论频数小于1,则易犯第一类错误。 出现某些格子中理论频数过小时怎么办? (1)增大样本含量(最好!) (2)删去该格所在的行或列(丢失信息!) (3)根据专业知识将该格所在行或列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论