几种离散型变量的分布及其应用_第1页
几种离散型变量的分布及其应用_第2页
几种离散型变量的分布及其应用_第3页
几种离散型变量的分布及其应用_第4页
几种离散型变量的分布及其应用_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第六章第六章 几种离散型变量的几种离散型变量的 分布及其应用分布及其应用 Distribution and Application of Discrete Data Binomial distribution Poissin distribution 随机变量有连续型和离散型之分,相应 的概率分布就可分为连续型分布和离散型 分布。 有关连续型分布如正态分布、t分布和F 分布等在前面的章节中已作了介绍。 本章主要介绍在医学中较为常用的离散 型分布,即二项分布、Poisson分布。 第一节第一节 二项分布二项分布 二项分布(binomial distribution)是指在只 会产生两种可能结果

2、如“阳性”或“阴性 ”之一的n次独立独立重复试验(常常称为n重 Bernoulli试验)中,当每次试验的“阳性” 概率保持不变时,出现“阳性”的次数X=0 ,1,2,n的一种概率分布。 在医学中类似如这种n重Bernoulli试验的 情形较为常见。 如用某种药物治疗某种疾病,其疗效分 为有效或无效; 在动物的致死性试验中,动物的死亡或 生存; 接触某种病毒性疾病的传播媒介后,感 染或非感染等。 若从阳性率(死亡率、感染率等) 为的总体中随机抽取大小为n的样本 ,则出现阳性数为X的概率分布即呈二 项分布,记为XB(n,). 二项分布有两个参数:二项分布有两个参数: 总体率总体率 样本含量样本含量

3、 记作:记作:XB(n,) n 在n个独立的个体中出现X个阳性的概率可由下 式求出: ! ()(1) 0,1,2, !()! Xn X n P XXn XnX )(XP实际上就是二项函数n)1 (展开式中的通项,式中的 )!( ! ! XnX n 称为二项系数。总有: n x XP 0 1)(。 例6-1 某种药物治疗某种非传染性疾病的有 效率为0.70。今用该药治疗该疾病患者10 人,试分别计算这10人中有6人、7人、8人 有效的概率。 本例n=10,=0.70,X=6,7,8。按公式( 6-1)计算相应的概率为 0.20012 6106 )70. 01 (70. 0 )!610( ! 6

4、!10 )6(P 7107 )70. 01 (70. 0 )!710( ! 7 !10 )7(P0.26683 8108 )70. 01 (70. 0 )!810( ! 8 !10 )8(P0.23347 一、二项分布的适用条件和性质一、二项分布的适用条件和性质 ( (一一) ) 二项分布的适用条件二项分布的适用条件 1. 1. 每次试验只会发生两种对立的可能结果每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和之一,即分别发生两种结果的概率之和 恒等于恒等于1 1; 2. 2. 每次试验产生某种结果(如每次试验产生某种结果(如“阳性阳性”) 的的 概率概率固定不变;固定不

5、变; 3. 3. 重复试验是相互独立的,即任何一次试重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出验结果的出现不会影响其它试验结果出 现的概率。现的概率。 在上面的例在上面的例6-16-1中,对这中,对这1010名非传名非传 染性疾病患者的治疗,可看作染性疾病患者的治疗,可看作1010次独次独 立的重复试验,其疗效分为有效与无立的重复试验,其疗效分为有效与无 效,且每一名患者治疗有效的概率(效,且每一名患者治疗有效的概率( =0.70=0.70)是恒定的。这样,)是恒定的。这样,1010人中发人中发 生有效的人数生有效的人数X XB B(10(10,0.70)0.70)

6、。 ( (二二) ) 二项分布的性质二项分布的性质 1. 1. 二项分布的均数与标准差二项分布的均数与标准差 在在n n次独立次独立 重复试验中,出现重复试验中,出现“阳性阳性”次数次数X X的的 总体均数为总体均数为 总体方差为总体方差为 总体标准差为总体标准差为 n )1 ( 2 n )1 (n 若以率表示,则样本率p的 总体均数为 总体方差为 总体标准差为 p n p )1 ( 2 n p )1 ( 样本率的标准差也称为率的标准误,可用样本率的标准差也称为率的标准误,可用 来描述样本率的抽样误差,率的标准误越来描述样本率的抽样误差,率的标准误越 小,则率的抽样误差就越小。小,则率的抽样误

7、差就越小。 在一般情形下,总体率在一般情形下,总体率往往并不知道。此往往并不知道。此 时若用样本资料计算样本率时若用样本资料计算样本率p=X/n作为作为的的 估计值,则估计值,则 的估计为的估计为: p nppS p / )1 ( 2.二项分布的图形 对于二项分布而言,当 =0.5时,分布是对称的,见图6-1; 图 6-1. =0.5 时,不同 n 值下的二项分布 当 0.5时,分布是偏态的,但随着n的增大 ,分布趋于对称。当n 时,只要不太 靠近0或1,二项分布则接近正态分布,见 图6-2。 二、二项分布的应用二、二项分布的应用 ( (一一) )总体率的区间估计总体率的区间估计 1. 1.

8、查表法查表法 2. 2. 正态近似法正态近似法 1. 查表法 对于n 50的小样本资料,直接 查附表6百分率的95%或99%可信区间表, 即可得到其总体率的可信区间。 例6-2 在对13名输卵管结扎的育龄妇女经壶 腹部-壶腹部吻合术后,观察其受孕情况, 发现有6人受孕,据此资料估计该吻合术妇 女受孕率的95%可信区间。 本例n=13,X=6。查附表6,取0.05时,在n=13 (横行)与X=6(纵列)的交叉处数值为1975 ,即该吻合术妇女受孕率的95%可信区间为( 19%,75%)。 附表6只列出 的部分。当 时,可先按“ 阴性”数n-X查得总体阴性率的 可信区间QL QU,再用下面的公式转

9、换成所需的阳性率的 可信区间。 PL=1-QU, PU=1-QL 2 n X 2 n X 1 1 2. 正态近似法 根据数理统计学的中心极限 定理可得,当n较大、不接近0也不接近1 时,二项分布B(n,)近似正态分布 ,而相应的样本率p的分布也近 似 正态分布。为此,当n较大、 p和1-p均不太小,如np和n(1-p)均大于5时 ,可利用样本率p的分布近似正态分布来估 计总体率的可信区间。 (,(1)N nn 2 ( ,) p N 的的 可信区间为:可信区间为: 如:如: 的的95%可信区间可信区间为为 的的99%可信区间为可信区间为 22 (,) pp puSpuS 1 (2.58,2.58

10、) pp pSpS (1.96,1.96) pp pSpS 例例6-3 6-3 在观测一种药物对某种非传染性疾病在观测一种药物对某种非传染性疾病 的治疗效果时,用该药治疗了此种非传染性的治疗效果时,用该药治疗了此种非传染性 疾病患者疾病患者100100人,发现人,发现5555人有效,试据此估人有效,试据此估 计该药物治疗有效率的计该药物治疗有效率的95%95%可信区间。可信区间。 (1)0 .5 5 (10 .5 5 ) 0 .0 4 9 7 1 0 0 p pp S n (二)样本率与总体率的比较 1.直接法 在诸如疗效评价中,利用二项分 布直接计算有关概率,对样本率与总体率 的差异进行有无

11、统计学意义的比较。比较 时,经常遇到单侧检验,即“优”或“劣 ”的问题。那么,在总体阳性率为的n次 独立重复试验中,下面两种情形的概率计 算是不可少的。 (1)出现“阳性”的次数至多为k次的概率为: (2)出现“阳性”的次数至少为k次的概率为 P(Xk) XnX k X k X XnX n XP )1 ( )!( ! ! )( 00 P(Xk) XnX n kX n kX XnX n XP )1 ( )!( ! ! )( 例6-4 据报道,对输卵管结扎了的育龄妇女实施 壶腹部-壶腹部吻合术后,受孕率为0.55。今对10 名输卵管结扎了的育龄妇女实施峡部-峡部吻合术 ,结果有9人受孕。问实施峡部

12、-峡部吻合术妇女 的受孕率是否高于壶腹部-壶腹部吻合术? 显然,这是单侧检验的问题,其假设检验为 H0:=0.55 H1:0.55 =0.05 对这10名实施峡部-峡部吻合术的妇女,按 0.55的受孕率,若出现至少9人受孕的概率 大于0.05,则不拒绝H0;否则,拒绝H0, 接受H1。 本例n=10,=0.55,k=9。按公式(6-12) 有: P(X9) XX XX XX XP 10 10 9 10 9 )55. 01 (55. 0 )!10( ! !10 )( =0.023257 按=0.05水准,拒绝H0,接受H1,即认 为实施峡部-峡部吻合术妇女的受孕率要高 于壶腹部-壶腹部吻合术。

13、2.正态近似法 当n较大、p和1-p均不太小 ,如np和n(1-p)均大于5时,利用样本率的 分布近似正态分布的原理,可作样本率p与 已知总体率0的比较。检验统计量u值的计 算公式为: n p u )1 ( 00 0 例例6-6 对某疾病采用常规治疗,其治愈率对某疾病采用常规治疗,其治愈率 为为45%。现改用新的治疗方法,并随机抽。现改用新的治疗方法,并随机抽 取取180名该疾病患者进行了新疗法的治疗名该疾病患者进行了新疗法的治疗 ,治愈,治愈117人。问新治疗方法是否比常规人。问新治疗方法是否比常规 疗法的效果好?疗法的效果好? 本例是本例是单侧检验,记单侧检验,记新治疗方法的治愈率新治疗方

14、法的治愈率 为为,而,而0=0.45。其假设检验为其假设检验为 H0:=0.45 H1:0.45 =0.05 本例n=180,p=117/180=0.65 查u界值表(t界值表中 为 的一行)得 单侧 。按 =0.05水准,拒绝H0, 接受H1,即新的治疗方法比常规疗法的效 果好。 0005. 0P 394. 5 180)45. 01 (45. 0 45. 065. 0 u (三)两样本率的比较 两样本率的比较,目的在于对相应的两总体率进 行统计推断。 设两样本率分别为p1和p2,当n1与n2均较大,且p1 、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及 n2p2、n2(1

15、-p2)均大于5时,可利用样本率的分布 近似正态分布,以及独立的两个正态变量之差也 服从正态分布的性质,采用正态近似法对两总体 率作统计推断。 检验统计量u的计算公式为: 21 21 pp S pp u ) 11 )(1 ( 2121 21 21 21 21 nnnn XX nn XX S pp 例例6-7 为研究某职业人群颈椎病发病的性为研究某职业人群颈椎病发病的性 别差异,今随机抽查了该职业人群男性别差异,今随机抽查了该职业人群男性120 人和女性人和女性110人,发现男性中有人,发现男性中有36人患有颈人患有颈 椎病,女性中有椎病,女性中有22人患有颈椎病。试作统人患有颈椎病。试作统 计

16、推断。计推断。 记该职业人群颈椎病的患病率男性为记该职业人群颈椎病的患病率男性为1,女,女 性为性为2,其检验假设为其检验假设为 H0:1=2 H1:12 =0.05 本例 n1=120,X1=36,p1=X1/n1=36/120=0.30; n2=110,X2=22,p2=X2/n2=22/110=0.20 ) 110 1 120 1 )( 110120 2236 1 ( 110120 2236 21 pp S=0.0573 0573. 0 20. 030. 0 u=1.745 查u界值表得0.05P0.10。按=0.05水准,不拒绝H0,即 尚不能认为该职业人群颈椎病的发病有性别差异。 (

17、四)研究非遗传性疾病的家族集聚性 非遗传性疾病的家族集聚性(clustering in families),系指该种疾病的发生在家族成员 间是否有传染性?如果没有传染性,即该 种疾病无家族集聚性,家族成员患病应是 独立的。此时以家族为样本,在n个成员中 ,出现X个成员患病的概率分布呈二项分布 ;否则,便不服从二项分布。 例6-8 某研究者为研究某种非遗传性疾病 的家族集聚性,对一社区82户3口人的家庭 进行了该种疾病患病情况调查,所得数据 资料见表6-1中的第(1)、(2)栏。试分 析其家族集聚性。 表 6-1 患病数据资料与二项分布拟合优度的 2 c检验 X (1) 实际户数A (2) 概率

18、P(X) (3) 理论户数 T=82P(X) (4) A T (5) 2 )(A T (6) T AT 2 )( (7) 0 26 0.13265 10.8774 -15.1226 228.6936 21.0247 1 10 0.38235 31.3525 21.3525 455.9273 14.5420 2 28 0.36735 30.1229 2.1229 4.506 9 0.1496 3 18 0.11765 9.6472 -8.3528 69.7690 7.2320 合计 82 82.0000 42.9483 如果该社区的如果该社区的此种疾病存在家族集聚性,则此种疾病存在家族集聚性,则

19、 以每户以每户3口人的家庭为样本,在口人的家庭为样本,在3个家庭成员个家庭成员 中,出现中,出现X(=0,1,2,3)个成员患病的)个成员患病的 概率分布即不服从二项分布。为此,可作如概率分布即不服从二项分布。为此,可作如 下假设检验。下假设检验。 H0:该该疾病的发生无家族集聚性疾病的发生无家族集聚性 H1:该该疾病的发生有家族集聚性疾病的发生有家族集聚性 =0.10 本例调查的总人数为:N=823=246(人 ) 其中患病人数为: D=026+110+228+318=120(人) 以这246人的患病率估计总体的患病率,即 =D/N=120/246=0.49。 在n=3、=0.49时,利用二

20、项分布,求得 X=0,1,2,3的概率P(X),并以此得到相 应的理论户数。对理论户数与实际户数进 行拟合优度(goodness of fit)的检验。此 时,自由度为=组数2=42=2。计算结 果列于表6-1中的第(3)至(7)栏。 以=2、 2 c=42.95查附表 8 的 2 c界值表得005. 0P。按=0.10 水准,拒绝 H0,接受 H1,即此种疾病存在家族集聚性。 (五) 群检验 在工作中有时会遇到需对收集的一大批标 本进行实验室检验,以了解其阳性率的问 题。但要在实验室对所有标本一一作阳性 认定往往需要大量的人力和物力,也不切 实际,使用所谓的群检验技术即可解决这 一问题。 群

21、检验的具体做法是,将N个标本分成n群 ,每群m个标本,即N=mn。每个群都送试 验室检验是否为阳性群。对于某群,一旦 检验出阳性标本就停止此群中剩余标本的 检验,该群即为阳性群。显然,只有对阴 性群,才需检验群中所有的m个标本,这样 可大大地减少检验标本的个数。 若记每个标本为阳性的概率为,则1-=Q 是每个标本为阴性的概率,Qm便是某群m 个标本均为阴性的概率,即一个群为阴性 群的概率,而1- Qm就是一个群为阳性群的 概率。假定受检的n个群中有X个群是阳性 群,用X/n作为一个群为阳性群概率的估计 值,于是便有 n X Q m 1 m n X Q1 这样,阳性概率的估计值为: m n X

22、QP111 利用公式可估计某一地区某种病毒对生物的总体感染率, 也可用 于混合样品(mixed sample)的分析。 第二节 Poisson分布 PoissonPoisson分布(分布(Poisson distributionPoisson distribution )作为二项分布的一种极限情况,已)作为二项分布的一种极限情况,已 发展成为描述小概率事件发生规律性发展成为描述小概率事件发生规律性 的一种重要分布。的一种重要分布。 PoissonPoisson分布是描述单位面积、体积、分布是描述单位面积、体积、 时间、人群等内稀有事件(或罕见事时间、人群等内稀有事件(或罕见事 件)发生数的分布

23、。件)发生数的分布。 医学上:诸如人群中遗传缺陷、癌症等发 病率很低的非传染性疾病的发病或患病人 数的分布, 单位时间内(或单位空间、容积内)某 罕见事件发生次数的分布,如分析在单位 面积或容积内细菌数的分布,在单位空间 中某种昆虫或野生动物数的分布等。 所谓随机变量所谓随机变量X X服从服从PoissonPoisson分布,是指在分布,是指在 足够多的足够多的n n次独立次独立BernoulliBernoulli试验中,取值试验中,取值 X X的概率为的概率为 () 0,1,2, ! X e P XX X 一、一、PoissonPoisson分布的适用条件和性质分布的适用条件和性质 ( (二

24、二) Poisson) Poisson分布的性质分布的性质 1. 1. 总体均数总体均数 与总体方差与总体方差 相等是相等是 PoissonPoisson分布的重要特征。分布的重要特征。 2. 2. 当当n n很大,而很大,而很小,且很小,且n/n/= = 为常为常 数时,二项分布近似数时,二项分布近似PoissonPoisson分布。分布。 3. 3. 当当 增大时,增大时,PoissonPoisson分布渐近正态分布渐近正态 分布。一般而言,分布。一般而言,2020时,时,PoissonPoisson分布资分布资 料可作为正态分布处理。料可作为正态分布处理。 2 4. Poisson分布具

25、备可加性。即对于服从 Poisson分布的m个互相独立的随机变量X1 ,X2,Xm,它们之和也服从Poisson 分布,且其均数为这m个随机变量的均数之 和。 (三三) Poisson分布的图形分布的图形 不同的参数不同的参数 对应不同的对应不同的Poisson分布,即分布,即 的的 大小决定了大小决定了Poisson分布的图形特征,见图分布的图形特征,见图6-3。 当当 越小,分布就越偏态;越小,分布就越偏态; 当当 越大时,越大时,Poisson分布则越渐近正态分布。分布则越渐近正态分布。 当当 1时,随时,随X取值的变大,取值的变大,P(X)值反而变小;值反而变小; 当当 50时,可采用

26、正态近时,可采用正态近 似法估计似法估计总体均数的总体均数的 可信区间,可信区间,计计 算公式为算公式为: 如:如: 的的95%可信区间为可信区间为 1 2 XuX 1.96 X X 例6-11 某研究者对某社区12000名居民进 行了健康检查,发现其中有68名胃癌患者 。估计该社区胃癌患病数的95%和99%可 信区间。 本例 X=68,05. 0时, 0.05 2 1.96u;01. 0时, 0.01 2 2.58u。分 别按公式(6-18)进行计算便可得到其 95%可信区间为6896. 168, 即 (51.84, 84.16) ; 其 99%可信区间为6858. 268, 即 (46.7

27、2, 89.28) 。 (二) 样本均数与总体均数的比较 对于Poisson分布资料而言,进行样本均数与总体 均数的比较有两种方法。 1. 直接法 当总体均数 0.008,即母亲吸烟会增大其小孩的先天性心脏病的发病 危险 =0.05 本例 n=120,=n0=1200.008=0.96 P(X4) ! 96. 0 1)(1 96. 0 3 0 3 0 X e XP X XX =0.016633 按=0.05 水准,拒绝 H0,接受 H1,即认为母亲吸烟会增大其小 孩的先天性心脏病的发病危险。 X u 2. 正态近似法 根据 Poisson分布的性质,当20时,可用正 态分布来近似。样本计数X

28、与已知总体均数的比较,采用下式计算 标准正态检验统计量 例6-13 有研究表明,一般人群精神发育不全的发 生率为3,今调查了有亲缘血统婚配关系的后代 25000人,发现123人精神发育不全,问有亲缘血 统婚配关系的后代其精神发育不全的发生率是否 要高于一般人群? 可以认为人群中精神发育不全的发生数服从 Poisson分布。本例n=25000,X=123,0=0.003 , =n0=250000.003=75。 H0:=0.003 H1:0.003。 =0.05, 按公式(6-19)有 u= 75 75123 =5.543 查 u 界值表得单侧0005. 0P。按=0.05 水准,拒绝 H0,接

29、受 H1, 即认为有亲缘血统婚配关系的后代其精神发育不全的发生率高于 一般人群。 (三) 两个样本均数的比较 对服从Poisson分布的样本,其样本计数可 看作是样本均数。两个样本均数的比较, 目的在于推断两样本所代表的两总体均数 是否有差别。 设两个样本计数分别为X1和X2,可利用正 态近似法进行比较。 1. 两个样本的观察单位数相等,即n1=n2 。 当 X1+X220 时, 21 21 XX XX u (6-20) 当5X1+X220时, 21 21 1 XX XX u (6-21) 2. 两个样本的观察单位数不相等,即n1 n2 。 当 X1+X220 时, 2 2 2 2 1 1 21 n X n X XX u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论