定性数据统计分析四格表_第1页
定性数据统计分析四格表_第2页
定性数据统计分析四格表_第3页
定性数据统计分析四格表_第4页
定性数据统计分析四格表_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 四格表22列联表什么是四格表【例3.1】为了解吸烟与肺癌的关系,选择63个肺癌患者和43个与肺癌患者年龄、性别和其他属性类似的健康人(对照组)进行研究,调查结果见表3.1。问总体中肺癌患者吸烟的比例是否比健康人吸烟的比例高?表3.1 对肺癌患者和对照组的调查结果吸烟 不吸烟吸烟比例%肺癌患者对照组 60 3 32 1195.274.4什么是四格表 上述检验问题可以一般化为: 其数据结构关系包括五个等式。 从略 有B 没有B合计有A没有A合计11n12n21n22n1n2n1n2nn四格表的抽样方式 根据四格表的边缘分布是否给定,可能的抽样方式有以下四种: 1、单侧给定,如 n1+ 和n

2、2+给定,则在四格中有两个随机变量,服从二项分布; 如:63个肺癌患者和43个对照组,属于行边缘分布给定的情况 2、总样本容量 n给定,则有三个随机变量,n11 , n12 , n21 , n22 服从多项分布; 如: Mendel豌豆实验,属于n给定的情况四格表的抽样方式 3、都不给定时, n11 , n12 , n21 , n22都是随机变量,通常假定它们服从Poisson 分布 如:某商店在某一天可能来的顾客数未知,顾客的性别以及有没有购买的情况,存在4个随机变量 男 女合计购买不购买合计11n12n21n22n1n2n1n2nn四格表的抽样方式 4、两侧都给定时,只有一个是随机变量,它

3、服从超几何分布。 如:假设100件产品中有8件次品,随机抽5件加以检验,问有多少件次品? 对不同抽样方式下得到的四格表,其数据分析方法也有可能不同。 抽取 未抽取合 计不合格合格892合 计 5 9510011n12n21n22n属性之间独立与不相关 两个相互独立的随机变量一定不相关,但不相关不一定独立。 这里相关指线性相关 四格表中属性A与B相互独立等价于不相关。 根据前面的频数分布表可以得到概率四格表:X Y 有B(b1) 没有B(b2)合计有A(a1)没有A(a2)合计11p12p21p22p1p2p1p2p1属性之间独立与不相关 若以下等式成立,则称属性A和B相互独立。 该式包括: 且

4、有:,1,2ijijpp pi j,1111121221212222pp ppp ppppppp1111121221212222pp ppp ppppppp属性之间独立与不相关 在四格表中,独立等价于不相关。 可以通过考察随机变量X(属性A)与Y (属性B)的协方差知: 其中,a1,a2和b1,b2分别是属性A和B的分类(取值) 当A与B不相关时,有: 可见,四格表中属性A与B无关也就是相互独立。12121111ov(, )()() ( )()()()CX YE XYE X E Yaabbpp p111100ijijpp ppp p属性之间独立与不相关 在协方差的基础上,不难计算出随机变量X(

5、A)和Y(B)的方差,并得到它们的相关系数。 各自方差分别为: 则相关系数: 可见,四格表中属性间的关系与属性的赋值无关。2121221212()()( )()D Xaap pD Ybbp p11111212pp prp pp p单侧给定的四格表的检验 单侧给定时四格表中仅有两个随机变量,且服从二项分布 如:当n1+和n2+给定时,n11和n21分别服从: B(n1+,p1)和B(n2+,p2),其中, 上例肺癌患者吸烟比例是否比对照组高,也即要求验证假设p1=p2还是p1p2.1121112112111111212pppppppppppppp12(|),(|)pP B ApP B A单侧给定

6、的四格表的检验 可见,原假设成立时,实际上是检验属性A与B相互独立或不相关。因此,四格表的检验有以下三种情况: 单侧给定的四格表检验,其实就是两总体的比例差的检验,区别仅在于使用的值不同,一个是样本比例,一个是观测频数。原假设H0备择假设H1有方向检验p1=p2p1p2p1=p2p1p2时, 公式1: 当备择假设为p1p2,统计量n11的抽样分布为超几何分布(P56)。 n11的概率含义具有属性B的个体中恰有n11个个体具有属性A的概率。两侧给定时的四格表检验 于是有, 故可以认为n11比较大时拒绝原假设,即认为p1p2。对给定的显著性水平,临界值c满足: 且c应尽可能的小。即11211211

7、1112121111122122(|)!( ,)!nnnnnnCCP XnXYnCnnnnHG n nnn nnnn11()P nc*11inf:()ccP nc两侧给定时的四格表检验 当备择假设为p1p2, 备择假设p11时,第一行(试验)“成功”的优势大于第二行(试验),且前者是后者的倍,有12或p1p2;1122/(1)1=2/(1)oddsodds优势比的性质 当优势比1时,第一行比第二行更不容易“成功”,有12或p1p2; 值在给定方向离1越远,代表两个属性间的关联性越强; 如:优势比=4比优势比=2有更强的关联性; 再如:优势比=0.25比优势比=0.5有更强的关联性; 当一个值是

8、另一个的倒数时,它们具有相同的关联程度,只是方向相反。 如:当=0.25时说明第1行成功的优势是第2行的1/4倍;反过来,第2行成功的优势是第1行成功的优势的4倍。故行或列的排列顺序不影响关联程度。优势比的性质 当用联合概率表示时,称为交叉积比例 当两个属性独立时,有=1,则: 该形式即为四格表独立性的第三种表达形式 同理,如果用样本优势比来表示时,有:1112112221221221/ 11221221 11221221p pp p优势比的性质 样本优势比等于各行样本优势的比. 当两个变量相互独立时,有 ,等价地有: 优势比与相对风险的联系: 当p1和p2都接近于0时,优势比和相对风险取值相

9、近。1122122111221221p pp pn nn n1112221/(1)1/(1)1pppoddsrelativeriskppp111112112222212212211122112212211221/(1)/(1)/ppppp pppppp pnn nnn nnn nnn n优势比与对数优势比的推断 在样本容量不是充分大的情况下,优势比的样本分布通常有强烈的偏倚性; 为此优势比的统计推断使用对数优势比; 此时,独立性对应于:当=1时,ln=0;故对数优势比关于0对称; 颠倒行或列的排列顺序仅改变对数优势比的符号,两个对数优势比除符号外相同时代表相同的关联程度。 如:ln(2)=0.

10、7和ln(0.5)=-0.7,代表了相同的关联程度。四格表的优比检验法 基于优势比的性质,四格表的检验可以转化为优比的检验问题。 已知样本优势比 的抽样分布为: 在原假设=1成立时,将其标准化后有:111221221111(lnln ) (0,)nNpppp11122122ln(0,1)1111UNnnnn222211122122(ln )(1)1111Unnnn四格表的优比检验法原假设备择假设P-值111111(0,1)()P NUU (0,1)( )P NUU 22(1)P四格表的优比检验法【例3.8】用优比检验法检验例3.10111221221:1,:160 1111116.875,0.

11、47232 36032311ln2.81()0.0025HHn nan nUaU 肺癌与吸烟相互独立,肺癌患者吸烟比例高经查,p=,故认为肺癌患者吸烟比例高。边缘齐性检验 用于当四格表的两种属性相互不独立(相关)时; 边缘齐性检验就是检验边缘概率是否相等。【例3.9】 此类问题的原假设应为:H0:p1+=p+1 当原假设成立时,可以得出: 此时,称四格表有对称性。故对四格表而言边缘齐性检验和对称性检验等价。 边缘齐性检验的卡方统计量:111211111121pppppppp222212211221()()(1)ijijijnnpnnnpnn边缘齐性检验 按照ML估计法得到pij的估计值,代入卡方统计量即得上式。 将这一卡方检验特称为McNemar 2检验 似然比统计量:1111222212211221/ ,/()/ 2pnn pnnppnnn212211221122112212ln2ln()2lnln22ijijijnpGnnnnnnnnnn 边缘齐性检验 经计算前例的统计量值和P-值分别为:22222(5238)2.17785238(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论