




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第六章第六章 几种离散型变量的几种离散型变量的分布及其应用分布及其应用Distribution and Application of Discrete VariablenBinomial distribution nPoisson distribution n 随机变量有连续型和离散型之分,相应的概率分布就可分为连续型分布和离散型分布。n 有关连续型分布如正态分布、t分布和F分布等在前面的章节中已作了介绍。n 本章主要介绍在医学中较为常用的离散型分布,即二项分布、Poisson分布。第一节第一节 二项分布二项分布n二项分布(binomial distribution)是指在只会产生两种可能结
2、果如“阳性”或“阴性”之一的n次独立独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,n的一种概率分布。 n 在医学中类似如这种n重Bernoulli试验的情形较为常见。n 如用某种药物治疗某种疾病,其疗效分为有效或无效;n 在动物的致死性试验中,动物的死亡或生存;n 接触某种病毒性疾病的传播媒介后,感染或非感染等。 n 若从阳性率(死亡率、感染率等)为的总体中随机抽取大小为n的样本,则出现阳性数为X的概率分布即呈二项分布,记为XB(n,).二项分布有两个参数:二项分布有两个参数: 总体率总体率 样本含量样本含量 记作:
3、记作:XB(n,) n在n个独立的个体中出现X个阳性的概率可由下式求出:!()(1) 0,1,2,!()!Xn XnP XXnXnX)(XP实际上就是二项函数n)1 (展开式中的通项,式中的)!( !XnXn称为二项系数。总有:nxXP01)(。 例6-1 某种药物治疗某种非传染性疾病的有效率为0.70。今用该药治疗该疾病患者10人,试分别计算这10人中有6人、7人、8人有效的概率。本例n=10,=0.70,X=6,7,8。按公式(6-1)计算相应的概率为 0.200126106)70. 01 (70. 0)!610( ! 6!10)6(P7107)70. 01 (70. 0)!710( !
4、7!10)7(P0.26683 8108)70. 01 (70. 0)!810( ! 8!10)8(P0.23347 一、二项分布的适用条件和性质一、二项分布的适用条件和性质n( (一一) ) 二项分布的适用条件二项分布的适用条件n1. 1. 每次试验只会发生两种对立的可能结果每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和之一,即分别发生两种结果的概率之和 恒等于恒等于1 1;n2. 2. 每次试验产生某种结果(如每次试验产生某种结果(如“阳性阳性”)的的 概率概率固定不变;固定不变;n3. 3. 重复试验是相互独立的,即任何一次试重复试验是相互独立的,即任何一次试 验
5、结果的出现不会影响其它试验结果出验结果的出现不会影响其它试验结果出 现的概率。现的概率。 在上面的例在上面的例6-16-1中,对这中,对这1010名非传名非传染性疾病患者的治疗,可看作染性疾病患者的治疗,可看作1010次独次独立的重复试验,其疗效分为有效与无立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率效,且每一名患者治疗有效的概率(=0.70=0.70)是恒定的。这样,)是恒定的。这样,1010人中人中发生有效的人数发生有效的人数X XB B(10(10,0.70)0.70)。n( (二二) ) 二项分布的性质二项分布的性质n1. 1. 二项分布的均数与标准差二项分布的均数与
6、标准差 在在n n次独立次独立重复试验中,出现重复试验中,出现“阳性阳性”次数次数X X的的n总体均数为总体均数为n总体方差为总体方差为n总体标准差为总体标准差为n n)1 (2 n)1 (nn若以率表示,则样本率p的n总体均数为n总体方差为 n总体标准差为 pnp)1 (2np)1 (n样本率的标准差也称为率的标准误,可用样本率的标准差也称为率的标准误,可用来描述样本率的抽样误差,率的标准误越来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。小,则率的抽样误差就越小。n在一般情形下,总体率在一般情形下,总体率往往并不知道。此往往并不知道。此时若用样本资料计算样本率时若用样本资料计
7、算样本率p=X/n作为作为的的估计值,则估计值,则 的估计为的估计为:pnppSp/ )1 ( n2.二项分布的图形 对于二项分布而言,当=0.5时,分布是对称的,见图6-1; 图 6-1. =0.5 时,不同 n 值下的二项分布 n当 0.5时,分布是偏态的,但随着n的增大,分布趋于对称。当n 时,只要不太靠近0或1,二项分布则接近正态分布,见图6-2。二、二项分布的应用二、二项分布的应用n( (一一) )总体率的区间估计总体率的区间估计n1. 1. 查表法查表法 n2. 2. 正态近似法正态近似法 n1. 查表法 对于n 50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可
8、得到其总体率的可信区间。n例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。 本例n=13,X=6。查附表6,取0.05时,在n=13(横行)与X=6(纵列)的交叉处数值为1975,即该吻合术妇女受孕率的95%可信区间为(19%,75%)。 附表6只列出 的部分。当 时,可先按“阴性”数n-X查得总体阴性率的 可信区间QLQU,再用下面的公式转换成所需的阳性率的 可信区间。 PL=1-QU, PU=1-QL 2nX 2nX 11n2. 正态近似法 根据数理统计学的中心极限定理可得,当n较大、不接近0
9、也不接近1时,二项分布B(n,)近似正态分布n ,而相应的样本率p的分布也近似 正态分布。为此,当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布来估计总体率的可信区间。 (,(1)N nn2( ,)pN 的的 可信区间为:可信区间为:如:如: 的的95%可信区间可信区间为为 的的99%可信区间为可信区间为22(,)pppuSpuS1(2.58,2.58)pppSpS(1.96,1.96)pppSpS例例6-3 6-3 在观测一种药物对某种非传染性疾病在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性的治疗效果时,用该药治疗了此种
10、非传染性疾病患者疾病患者100100人,发现人,发现5555人有效,试据此估人有效,试据此估计该药物治疗有效率的计该药物治疗有效率的95%95%可信区间。可信区间。(1)0.55(1 0.55)0.0497100pppSnn(二)样本率与总体率的比较n1.直接法 在诸如疗效评价中,利用二项分布直接计算有关概率,对样本率与总体率的差异进行有无统计学意义的比较。比较时,经常遇到单侧检验,即“优”或“劣”的问题。那么,在总体阳性率为的n次独立重复试验中,下面两种情形的概率计算是不可少的。(1)出现“阳性”的次数至多为k次的概率为:(2)出现“阳性”的次数至少为k次的概率为P(Xk)XnXkXkXXn
11、XnXP)1 ()!( !)(00 P(Xk)XnXnkXnkXXnXnXP)1 ()!( !)( n例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55。今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?n显然,这是单侧检验的问题,其假设检验为nH0:=0.55nH1:0.55n =0.05n对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1。n本例n=10,=0.55,k=9。按公式(6-1
12、2)有:P(X9)XXXXXXXP10109109)55. 01 (55. 0)!10( !10)( =0.023257 n 按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。n2.正态近似法 当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,利用样本率的分布近似正态分布的原理,可作样本率p与已知总体率0的比较。检验统计量u值的计算公式为: npu)1 (000n例例6-6 对某疾病采用常规治疗,其治愈率对某疾病采用常规治疗,其治愈率为为45%。现改用新的治疗方法,并随机抽。现改用新的治疗方法,并随机抽取取180名该疾病患者进行
13、了新疗法的治疗,名该疾病患者进行了新疗法的治疗,治愈治愈117人。问新治疗方法是否比常规疗人。问新治疗方法是否比常规疗法的效果好?法的效果好?n本例是本例是单侧检验,记单侧检验,记新治疗方法的治愈率新治疗方法的治愈率为为,而,而0=0.45。其假设检验为其假设检验为nH0:=0.45nH1:0.45n =0.05n本例n=180,p=117/180=0.65n查u界值表(t界值表中 为 的一行)得单侧 。按 =0.05水准,拒绝H0,接受H1,即新的治疗方法比常规疗法的效果好。0005. 0P394. 5180)45. 01 (45. 045. 065. 0un(三)两样本率的比较n两样本率的
14、比较,目的在于对相应的两总体率进行统计推断。n设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布,以及独立的两个正态变量之差也服从正态分布的性质,采用正态近似法对两总体率作统计推断。 n检验统计量u的计算公式为: 2121ppSppu)11)(1 (212121212121nnnnXXnnXXSppn例例6-7 为研究某职业人群颈椎病发病的性为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性别差异,今随机抽查了该职业人群男性120人和女性人和女
15、性110人,发现男性中有人,发现男性中有36人患有颈人患有颈椎病,女性中有椎病,女性中有22人患有颈椎病。试作统人患有颈椎病。试作统计推断。计推断。n记该职业人群颈椎病的患病率男性为记该职业人群颈椎病的患病率男性为1,女,女性为性为2,其检验假设为其检验假设为nH0:1=2nH1:12n =0.05本例n1=120,X1=36,p1=X1/n1=36/120=0.30;n2=110,X2=22,p2=X2/n2=22/110=0.20 )11011201)(11012022361 (110120223621ppS=0.0573 0573. 020. 030. 0u=1.745 查u界值表得0.
16、05P0.10。按=0.05水准,不拒绝H0,即尚不能认为该职业人群颈椎病的发病有性别差异。 n(四)研究非遗传性疾病的家族集聚性n非遗传性疾病的家族集聚性(clustering in families),系指该种疾病的发生在家族成员间是否有传染性?如果没有传染性,即该种疾病无家族集聚性,家族成员患病应是独立的。此时以家族为样本,在n个成员中,出现X个成员患病的概率分布呈二项分布;否则,便不服从二项分布。n例6-8 某研究者为研究某种非遗传性疾病的家族集聚性,对一社区82户3口人的家庭进行了该种疾病患病情况调查,所得数据资料见表6-1中的第(1)、(2)栏。试分析其家族集聚性。n 表 6-1
17、患病数据资料与二项分布拟合优度的2c检验 X (1) 实际户数A (2) 概率P(X) (3) 理论户数T=82P(X) (4) AT (5) 2)(AT (6) TAT2)((7) 0 26 0.13265 10.8774 -15.1226 228.6936 21.0247 1 10 0.38235 31.3525 21.3 525 455.9273 14.5420 2 28 0.36735 30.1229 2.1229 4.5069 0.149 6 3 18 0.11765 9.6472 -8.3528 69.7690 7.2320 合计 82 82.0000 42.9483 n如果该社区
18、的如果该社区的此种疾病存在家族集聚性,则此种疾病存在家族集聚性,则以每户以每户3口人的家庭为样本,在口人的家庭为样本,在3个家庭成员个家庭成员中,出现中,出现X(=0,1,2,3)个成员患病的)个成员患病的概率分布即不服从二项分布。为此,可作如概率分布即不服从二项分布。为此,可作如下假设检验。下假设检验。nH0:该该疾病的发生无家族集聚性疾病的发生无家族集聚性nH1:该该疾病的发生有家族集聚性疾病的发生有家族集聚性n =0.10n本例调查的总人数为:N=823=246(人)n其中患病人数为:nD=026+110+228+318=120(人)n以这246人的患病率估计总体的患病率,即=D/N=1
19、20/246=0.49。 n在n=3、=0.49时,利用二项分布,求得X=0,1,2,3的概率P(X),并以此得到相应的理论户数。对理论户数与实际户数进行拟合优度(goodness of fit)的检验。此时,自由度为=组数2=42=2。计算结果列于表6-1中的第(3)至(7)栏。以=2、2c=42.95查附表 8 的2c界值表得005. 0P。按=0.10水准,拒绝 H0,接受 H1,即此种疾病存在家族集聚性。 n(五) 群检验n在工作中有时会遇到需对收集的一大批标本进行实验室检验,以了解其阳性率的问题。但要在实验室对所有标本一一作阳性认定往往需要大量的人力和物力,也不切实际,使用所谓的群检
20、验技术即可解决这一问题。n群检验的具体做法是,将N个标本分成n群,每群m个标本,即N=mn。每个群都送试验室检验是否为阳性群。对于某群,一旦检验出阳性标本就停止此群中剩余标本的检验,该群即为阳性群。显然,只有对阴性群,才需检验群中所有的m个标本,这样可大大地减少检验标本的个数。 n若记每个标本为阳性的概率为,则1-=Q是每个标本为阴性的概率,Qm便是某群m个标本均为阴性的概率,即一个群为阴性群的概率,而1- Qm就是一个群为阳性群的概率。假定受检的n个群中有X个群是阳性群,用X/n作为一个群为阳性群概率的估计值,于是便有nXQm1mnXQ1n这样,阳性概率的估计值为:mnXQP111利用公式可
21、估计某一地区某种病毒对生物的总体感染率, 也可用于混合样品(mixed sample)的分析。 第二节 Poisson分布nPoissonPoisson分布(分布(Poisson distributionPoisson distribution)作为二项分布的一种极限情况,已发作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的展成为描述小概率事件发生规律性的一种重要分布。一种重要分布。nPoissonPoisson分布是描述单位面积、体积、分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事时间、人群等内稀有事件(或罕见事件)发生数的分布。件)发生数的分布。 医学上:诸如人
22、群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布, 单位时间内(或单位空间、容积内)某罕见事件发生次数的分布,如分析在单位面积或容积内细菌数的分布,在单位空间中某种昆虫或野生动物数的分布等。 所谓随机变量所谓随机变量X X服从服从PoissonPoisson分布,是指在分布,是指在足够多的足够多的n n次独立次独立BernoulliBernoulli试验中,取值试验中,取值X X的概率为的概率为() 0,1,2,!XeP XXX一、一、PoissonPoisson分布的适用条件和性质分布的适用条件和性质n( (二二) Poisson) Poisson分布的性质分布的性质n1.
23、 1. 总体均数总体均数 与总体方差与总体方差 相等是相等是PoissonPoisson分布的重要特征。分布的重要特征。n2. 2. 当当n n很大,而很大,而很小,且很小,且n/n/= = 为常为常数时,二项分布近似数时,二项分布近似PoissonPoisson分布。分布。n3. 3. 当当 增大时,增大时,PoissonPoisson分布渐近正态分布渐近正态分布。一般而言,分布。一般而言,2020时,时,PoissonPoisson分布资分布资料可作为正态分布处理。料可作为正态分布处理。2n4. Poisson分布具备可加性。即对于服从Poisson分布的m个互相独立的随机变量X1,X2,
24、Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和。n(三三) Poisson分布的图形分布的图形n不同的参数不同的参数 对应不同的对应不同的Poisson分布,即分布,即 的的大小决定了大小决定了Poisson分布的图形特征,见图分布的图形特征,见图6-3。n 当当 越小,分布就越偏态;越小,分布就越偏态;n当当 越大时,越大时,Poisson分布则越渐近正态分布。分布则越渐近正态分布。当当 1时,随时,随X取值的变大,取值的变大,P(X)值反而变小;值反而变小;当当 50时,可采用正态近时,可采用正态近似法估计似法估计总体均数的总体均数的 可信区间,可信区间,计计算
25、公式为算公式为:n如:如: 的的95%可信区间为可信区间为12XuX1.96 XXn例6-11 某研究者对某社区12000名居民进行了健康检查,发现其中有68名胃癌患者。估计该社区胃癌患病数的95%和99%可信区间。本例 X=68,05. 0时,0.05 21.96u;01. 0时,0.01 22.58u。分别按公式(6-18)进行计算便可得到其 95%可信区间为6896. 168,即 (51.84, 84.16) ; 其 99%可信区间为6858. 268, 即 (46.72, 89.28) 。 n(二) 样本均数与总体均数的比较n对于Poisson分布资料而言,进行样本均数与总体均数的比较
26、有两种方法。n1. 直接法 当总体均数 0.008,即母亲吸烟会增大其小孩的先天性心脏病的发病 危险 =0.05 本例 n=120,=n0=1200.008=0.96 P(X4)!96. 01)(196. 03030XeXPXXX=0.016633 按=0.05 水准,拒绝 H0,接受 H1,即认为母亲吸烟会增大其小孩的先天性心脏病的发病危险。 Xu2. 正态近似法 根据 Poisson 分布的性质,当20 时,可用正 态分布来近似。样本计数X 与已知总体均数的比较,采用下式计算标准正态检验统计量 n例6-13 有研究表明,一般人群精神发育不全的发生率为3,今调查了有亲缘血统婚配关系的后代25
27、000人,发现123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群?n可以认为人群中精神发育不全的发生数服从Poisson分布。本例n=25000,X=123,0=0.003, =n0=250000.003=75。H0:=0.003 H1:0.003。 =0.05, 按公式(6-19)有 u=7575123=5.543 查 u 界值表得单侧0005. 0P。按=0.05 水准,拒绝 H0,接受H1, 即认为有亲缘血统婚配关系的后代其精神发育不全的发生率高于一般人群。 n(三) 两个样本均数的比较n对服从Poisson分布的样本,其样本计数可看作是样本均数。两个样本均数的比较,目的在于推断两样本所代表的两总体均数是否有差别。n设两个样本计数分别为X1和X2,可利用正态近似法进行比较。n1. 两个样本的观察单位数相等,即n1=n2 。当 X1+X220 时, 2121XXXXu (6-20) 当5X1+X220时, 21211XXXXu (6-21) n2. 两个样本的观察单位数不相等,即n1 n2 。当 X1+X220
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 街头诵读测试题及答案
- 青岛学位英语试题及答案
- 道路工程施工技术试题及答案
- 音乐备课考试题及答案
- 深入探讨乐理考试难点试题及答案
- 医疗器械行业绿色发展与创新路径
- 医疗器戒企业如何应对国际化的监管挑战
- 薪资测试题及答案分析
- 财务风险防控试题及答案
- 提升团队协作能力的试题及答案
- 2024年四川省公安厅招聘警务辅助人员真题
- 2025年电子信息工程师职业资格考试试卷及答案
- 机械制造及非标零部件加工项目突发环境事件应急预案
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 劳动保障监察执法课件
- 小学奥数:乘法原理之染色法.专项练习及答案解析
- 西藏林芝地区地质灾害防治规划
- 入团志愿书样本(空白)
- 老年人烫伤的预防与护理课件
- 部编版小学道德与法治六年级下册《各不相同的生活环境》课件
- 国内外经济形势和宏观经济政策展望课件
评论
0/150
提交评论