列联表分析附录.docx_第1页
列联表分析附录.docx_第2页
列联表分析附录.docx_第3页
列联表分析附录.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1. 独立性检验假设有个随机试验的结果按照两个变量A和B分类,A取值为A1,A2,Ar,B取值为B1,B2,Bs,则形成了一张的列联表,称为二维列联表。其中表示A取Ai及B取Bj的频数,其中:表示各行的频数之和表示各列的频数之和令(),和分别表示各行和各列的边缘概率,对于二维列联表,如果变量A和变量B是独立的,则A和B的联合概率应该等于A和B边缘概率的乘积。因而有如下检验:在H0成立的条件下,二维列联表中的期望频数为:则如果期望频数,则统计量近似服从自由度为的卡方分布。如果Pearson值过大,或p值过小,则拒绝H0,认为变量A和变量B存在某种关联,即不是独立的;否则不能拒绝H0,认为是独立的。 如果期望,则需要将其合并使得期望频数,否则容易夸大卡方统计量值,导致拒绝原假设的结论。关于独立性检验还可以采用另一个基于多项分布的似然函数的检验统计量,称为似然比检验统计量。该统计量采用一般的最大似然函数与零假设下的最大似然比,然后取对数的2倍:T=2i,jni,jln(nijeij)在零假设下,T有自由度为r-1(c-1)的卡方分布。2. 齐性检验与独立性检验类似的是齐性检验。实际问题中,假设有n组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计上我们可以将这些问题表述为:假定有k组样本,分别取自k个总体,要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。对一般的二维列联表,可以提出假设:()在H0成立的条件下,这些概率与j无关,因此的期望值(理论频数)为,因此期望值,则检验统计量为:与独立性检验一样,如果,则统计量近似服从自由度为的卡方分布。如果Pearson值过大,或p值过小,则拒绝H0,;否则不能拒绝H0。 3. Fisher检验对于观察值数目不大的低维列联表的齐性和独立性问题还可以不采用近视的卡方统计量来检验,而采用Fisher精确检验。若样本大小n不很大,则基于渐近分布的卡方检验方法就不适用。对此,针对四格表情形,R.A.费希尔(1935)提出了一种适用于所有 n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。B1B2总和A1n11n12n1.A2n21n22n2.总和n.1n.2n在这里,假定边际频数以及总数n都是固定的。在A和B独立或齐性的假设下,在给定边际频率时。这个具体的列联表的条件概率只依赖四个频数中的任意一个。在零假设下,该概率满足超几何分布:Pnij=n1.n11n2。n21n。n。1=n1.n11n2。n21n。n。1=n.1!n1.!n.2!n2.!n.!n11!n12!n21!n22!如果零假设正确,任何一个与nij实现值有关的尾概率不应该太小,否则都可能拒绝零假设。4 . 超几何分布产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率p=M/N。在产品中随机抽n件做检查,发现k件不合格品的概率为P(X=k)=C(M,k)*C(N-M,n-k)/C(N,n),k=0,1,2,.,minn,M。通常称这个随机变量X服从超几何分布。这种抽样检查方法等于无放回抽样。数学上不难证明,N趋近无穷,limC(k,M)*C(n-k,N-M)/C(M,N)=B(n,p) (二项分布) 因此,在实际应用时,只要N=10n,可用二项分布近似描述不合格品个数。也就是已经知道某个事件的发生概率,判断从中取出一个小样本,该事件以某一个机率出现的概率问题。例子:假设细胞中有某种现象以90%的几率在发生着,被我们的三次实验抓到三次的几率是多大呢?不过可惜的是我们往往不能知道某个事件发生的先验的概率。不过至少可以拿来做假设检验。超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。在产品质量的不放回抽检中,若N件产品中有M件次品,抽检n件时所得次品数X=k则P(X=k)=C(M k)C(N-M n-k)/C(N n), C(a b)为古典概型的组合形式,a为下限,b为上限此时我们称随机变量X服从超几何分布(hypergeometric distribution)1)超几何分布的模型是不放回抽样2)超几何分布中的参数是M,N,n上述超几何分布记作XH(n,M,N)。5. 多项分布多项式分布(Multinomial Distribution)是二项式分布的推广。把二项分布公式再推广,就得到了多项分布(在一般概率书中很少介绍它,但是热力学中涉及到它)。二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。(严格定义见二项分布中伯努利实验定义)把二项扩展为多项就得到了多项分布。比如扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有x次都是点数6朝上的概率就是:更一般性的问题会问:“点数16的出现次数分别为(x1,x2,x3,x4,x5,x6)时的概率是多少?其中sum(x1x6)= n”。这就是一个多项式分布问题。这时只需用上边公式思想累乘约减就会得到下面图1的概率公式。某随机实验如果有k个可能结局A1,A2,Ak,它们的概率分布分别是p1,p2,pk,那么在N次采样的总结果中,A1出现n1次,A2出现n2次,Ak出现nk次的这种事件的出现概率P有下面公式:多项式分布的概率公式6. 泊松分布泊松分布(Poisson distribution),台译卜瓦松分布,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。泊松分布是以1819 世纪的法国数学家西莫恩德尼泊松(Simon-Denis Poisson)命名的,他在1838年时发表。但是这个分布却在更早些时候由贝努里家族的一个人描述过。就像当代科学史专家斯蒂芬施蒂格勒(Stephen Stigler)所说的误称定律(the Law of Misonomy),数学中根本没有以其发明者命名的东西。泊松分布的概率分布函数为:泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布P ()中只有一个参数 ,它既是泊松分布的均值,也是泊松分布的方差。在实际事例中,当一个随机事件,例如某电话交换

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论