第三章 概率分布.ppt_第1页
第三章 概率分布.ppt_第2页
第三章 概率分布.ppt_第3页
第三章 概率分布.ppt_第4页
第三章 概率分布.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章概率分布,第一节事件与概率,一、事件 (一)必然事件 在一定条件下必然会发生的事件称为必然事件(certain event),用U表示。例如,在标准大气压下,水加热到100必然沸腾;步行条件下必然不可能到达月球等。 (二)不可能事件 在一定条件下不可能发生的事件称为不可能事件(impossible event),用V表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡;种子发芽率不可能超过100%,,(三)随机事件 在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。,二、概率,在相同条件下进行n次重复试验,如果随

2、机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency); 当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。 在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。 即 P(A)=pm/n (n充分大),概率有如下基本性质:,1、对于任何事件A,有0P(A)1; 2、必然事件的概率为1,即P(U)=1; 3、不可能事件的概率为0,即P(V)=0。,三、概率计算,(一)事件的相互关系 1、和事件 事件A和事件B至少有一件发生而构成的新事件称为事件A和事件B的和

3、事件,以AB表示。 2、积事件 事件A和事件B同时发生,以AB表示,3、互斥事件 事件A和事件B不能同时发生,AB=V 如新生儿男为A,女为B 4、对立事件 A和B必有一个发生,但二者不能同时发生,即ABU, AB=V 。 B为A对立事件,可表示为A,5、独立事件 A的发生与B没有关系 如播种玉米时,一穴中播种2粒,第一粒发芽与否与第2位无关系 6、完全事件系 如果多个事件A1、A2An两两排斥,每次必然发生其一, A1、A2An称为完全事件。 如随机抽取一位阿拉伯数字,数字09构成完全事件。,(二)概率计算法则,1、加法定理 互斥事件A和B的和事件的概率等于事件A和B的概率之和,即 P(A+

4、B)=P(A)+P(B) 例:调查某玉米田,一穗占67.2%,双穗占30.7%,空穗占2.1%,计算一穗株和双穗株的概率 P(A+B)=P(A)+P(B)=0.672+0.307=0.979,推理1: A1、A2An为n个互斥事件,其和事件的概率为: P(A1+A2+An)=P(A1)+P(A2)+P(An) 推理2:对立事件的A的概率为: P(A)=1P(A) 推理3:完全事件系的和事件的概率1,2、乘法定理 A和B为独立事件,则A与B同时发生的概率为: P(AB)=P(A) P(B) 播种玉米时,每穴2粒,种子的发芽率为90%,求两粒种子均发芽和一粒种子发芽的概率。 两粒种均发芽: P(A

5、B)=P(A) P(B)=0.90.9=0.81,一粒种子发芽的概率: P(AB)+P(AB)=P(A) P(B)+ P(A) P(B) = 0.90.1 + 0.10.9=0.18 推理:如果A1、A2An为彼此独立,则: P(A1A2An)=P(A1) P(A2) P(An),四、概率分布,(一)离散型变量的概率分布,离散型随机变量x的一切可能取值xi (i=1,2,),及其对应的概率pi,记作 P(x=xi)=pi i=1,2,(二)连续型变量的概率分布,连续型变量,可通过分组整理成频率分布表。如果从总体中抽取样本n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,图4-1

6、 表2-7资料的分布曲线,若概率分布密度函数为f(x),则x取值于区间a,b的概率为图中阴影部分的面积,即: P(axb)=,连续型随机变量概率分布性质:,分布密度函数总是大于或等于0,即f(x)0; 当随机变量x取某一特定值时,其概率等于0;即 (c为任意实数) 在一次试验中随机变量x之取值必在-x+范围内,为一必然事件。所以 表示分布密度曲线下、横轴上的全部面积为1。,第二节几种常见的理论分布,一、二项分布 在生物学研究中,我们经常碰到的一类离散型随机变量,如动物雄性还是雌性、种子发芽与不发芽、后代的成活与死亡等。这样的结果只能是非此即彼两种情况,构成对立事件。 我们把这种非此即彼事件所构

7、成的总体,称为二项总体,其分布称为二项分布。,(一)二项分布的概率函数,二项总体,具有的共同特征: (1)每次试验只有两个对立结果,记作A与A,它们出现的概率分别为p与q(q=1-p) (2)试验具有重复性和独立性。重复性是指每次试验条件不变,A出现的概率为p。独立性是指任何一次试验中事件A的出现与其余各次试验中出现的何种结果无关。,以x表示在n次试验中事件A出现的次数。x取的值为零和正整数:0,1,2,,n,其概率分布函数为: P(X)为x的二项分布,记作B(n, p)。,二项分布是因为Cnxpxqn-x恰好等于二项式(p+q)n按牛顿二项式展开含有px的相应各项: Excel二项分布计算方

8、法: =BINOMDIST(x,n,p,false) 说明:x为试验成功数;n为观察数或试验次数;p为概率;,由于(p+q)n=1,上式可写为:,理论次数则以单位总数N乘以各项概率: 理论次数NP(x) 二项分布的概率累积函数可用下式表示:,Excel二项分布的概率累积函数计算方法: =BINOMDIST(x,n,p,true) 说明:x为试验成功数;n为观察数或试验次数;p为概率; 相当于小于x的累积概率,(二)二项分布概率计算,例1豌豆的红花纯合基因型和白花纯合基因型杂交后,在F2代红花与白花植株的比率为3:1,若每次随机观察4株,共观察100次,问得红花为0株、1株、2株、3株和4株的概

9、率各为多少? 解: 红花概率0.75,白花概率0.25,观察数n=4代入公式,例2:某批鸡种蛋的孵化率是0.90,今从该批种蛋中每次任选5个进行孵化,试求孵出小鸡的各种可能概率。 解:n=5,p=0.9,q=0.1,每次孵化5个种蛋服从二项分布B(5,0.90)。 0只小鸡:P(0)=C50p0q5=10.9000.105 1只小鸡:P(1)=C51p1q4=50.9010.104 2只小鸡:P(2)=C52p2q3=100.9020.103 3只小鸡:P(3)=C53p3q2=100.9030.102 4只小鸡:P(4)=C54p4q1=50.9040.101 5只小鸡:P(5)=C55p5

10、q0=10.9050.100,例3某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株? 解: (1) 0株:P(0)=C1000p0q100=10.004500.99551000.6370 1株:P(1)=C1001p1q99=1000.004510.995599=0.2879 2株以上变异概率为: P(x2)=1-P(0)-P(1)=0.0751,(2)应调查的株数满足P(0)=Cn0p0qn=0.01 0.9955n=0.01 nlg0.9955=lg0.

11、01 n=lg0.01/lg0.9955=1021 因此,期望有0.99概率得到1株或1株以上变异植株,应至少调查1021株。,(二)二项分布的形状和参数,1、二项分布的形状 由n和p两个参数决定 (1)当p值较小且n值不大时,图形是偏倚的。随着n值的增大,分布逐渐趋于对称。 (2)当p值趋于0.5时,分布趋于对称。,2、二项分布的参数 总体平均数(次数): x=np 总体标准差(次数): x= 如例1,n=4, p=0.75,可求红花出现的株数为40.75=3株,=(40.750.25)1/2=0.866株 二项百分数的平均数p=p 二项百分数的标准差x=(pq/n)1/2,二、泊松分布,在

12、生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却很大,即有很小的p值和很大的n值。这时,二项分布变成泊松(poisson)分布。 如显微镜视野内染色体有变异的细胞计数、由突变引起的遗传病患的分布、田间小区内出现变异植株数、作物种子内杂草计数、单位容积中的细菌数目分布、家畜产怪胎数等都属于泊松分布。,若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为: ,k=0,1, 其中=np0;e=2.7182是自然对数的底数,则称x服从参数为的波松分布(Poissons distribution),记为P()。 泊松分布平均数=方差2=。利用这一特征, 可以初步判断一个离散型随

13、机变量是否服从泊松分布。,泊松分布的形状由参数确定。值愈小分布愈偏倚,随着的增大,分布趋于对称。当=20时分布接近于正态分布;当=50时,可以认为波松分布呈正态分布。 所以在实际工作中,当20时就可以用正态分布来近似地处理波松分布的问题。,不同的波松分布,泊松分布应用条件:小概率事件p0.1,np5。 例1:为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数, 共得400个记录如下 试分析饮用水中细菌数的分布是否服从波松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与泊松分布作直观比较。,经计算得每毫升水中平均细菌数x=0.500= ,方差S2=0.496。两

14、者很接近, 故可认为每毫升水中细菌数服从波松分布。 Excel计算: 0次:=poisson(0,0.5,false) 1次:=poisson(1,0.5,false) 3次:1-poisson(2,0.5,true) False:符合条件的泊松概率密度函数 True:符合条件的泊松累积分布概率,理论数N各p,例2:某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株? 解: =np=1000.0045=0.45 P(2)=1-poisson(1,0.45,tr

15、ue)=0.0755 调查株数:e-=e-np=0.01 n=-ln0.01/p=-LN(0.01)/0.0045=1023株,三、正态分布,正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。 因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。,(一) 正态分布的定义 若连续型随机变量x的概率分布密度函数为 其中为平均数,2为方差,则称随机变量x服从正态分布

16、(normal distribution), 记为xN(,2)。 相应的概率累积函数为,图42 正态分布密度曲线,(二) 正态分布的特征,1、当x=时,f(x)值最大,所以正态分布曲线是以平均数为中心的分布。 2、当x-的绝对值相等时,f(x)值也相等,所以正态分布是为中心向左右两侧对称分布 3、(x-)/的绝对值越大,f(x)越小,但不会为0 4、正态分布曲线由和决定的。确定正态分布在x轴上的中心位置,确定正态分布的变异度。,5、曲线在x=处各有一个拐点,即曲线在(-,-)和(+,+) 区间上是下凸的,在-,+区间内是上凸的; 6、分布密度曲线与横轴所夹的面积为1,(三)标准正态分布,由上述

17、正态分布的特征可知,正态分布是依赖于参数和2, 正态曲线之位置及形态随和2的不同而不同。 这就给研究具体的正态总体带来困难, 需将一般的N(,2)转换为=0,2=1的正态分布。 我们称=0,2=1的正态分布为标准正态分布(standard normal distribution),记作N(0,1) 。,令u=(x-),正态分布概率分布密度函数可标准化为: f(u)= 相应的概率累积函数为 F(ui)=P(uui),i,对于u在区间a,b的概率,有,a,b,(三)正态分布的概率计算,正态分布的概率累积函数具有广泛应用,所以统计学家已计算好实际需要的各个F(u)值,列于附表1。 在计算一般正态分布

18、的概率时,只需将服从正态分布的随机变量x取值区间的上、下限,按u=(x-)转换,并查附表1即可。 附表1,左侧纵列表示a,上侧橫行表示b,如果手头没有附表1,可在Excel中输入“=NORMSDIST(数据)”即可查出。 注意p(u)是指-到u 例1,设u服从正态分布N(0,1),试求P(u1), P(-2.02.58)。 解: P(u1)=1- P(u2.58)=P(u2.58)+P(u-2.58) =1-F(2.58)+F(-2.58)=0.00988,例2,试计算概率值 (1)P(- +1.96) (6)P(|x|+2.58),从上述计算可知,|u|2.58概率是0.01, |u|1.9

19、6是0.05,也就是说1.96和2.58范围内已分别包含了95%和99%的变量。 例3,随机抽取20株小麦,其株高(cm)分别为8279858486848382838384818081828182828280 计算(1)小麦株高的95%正常值范围(2)株高85cm的概率,第三节抽样分布,研究总体与从中抽取的样本之间的关系是统计学的中心内容。 对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题。 统计推断是以总体分布和样本抽样分布的理论关系为

20、基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。,一、样本平均数抽样分布,由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。 前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。 对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。,(一)样本平均数的分布,设有一个总体,总体平均数为,方差为2,总体中各变数为x, 将此总体称为原总体。 现从这个总体中随机抽取含量为n的样本,样本平均数记为x。可以设想,从原总

21、体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的, 称为抽样误差(sampling error)。,显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数x构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为x和x 。 x是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。 由抽样试验及统计学证明,样本平均数有以下性质: (1)样本平均数分布的平均数等于总体平均数,即x=,(2)样本平均数分布的方差等于总

22、体方差除以样本容量: 样本平均数的标准误差: (3)如果从正态总体N(,2)进行抽样,其样本平均数x是一具有平均数、方差2/n的正态分布,记作N(,2/n) (4)若被抽样总体不是正态分布,但具有平均数、方差2,当样本容量n不断增大,样本平均数x的分布也越来越接近正态分布,且具有平均数、方差2/n,这叫做中心极限定理。这个性质对连续型变量或非连续型变量都适用。,不论总体为何分布,只要样本容量n30,就可应用中心极限定理,认为样本平均数x的分布是正态分布。在计算样本平均数出现的概率时,样品平均数x可按下式进行标准化:,(二)样本平均数差数的分布,设两个相互独立的正态总体,N1和N2,分别抽样,样

23、本平均数差数分布的基本性质有: (1)样本平均数的平均数等于总体平均数的差数,即:x1-x2=1-2 (2)样本平均数差数的方差等于两样本平均数方差除以各自样本容量之和,即,样本平均数差数的标准误: (3)从两个独立正态总体中抽出的样本平均数差数的分布,也是正态分布,并具有平均数1-2 ,方差,记作(1-2,),二、t分布,前面在计算样本平均数分布和样本平均数差数分布的概率时,需要总体方差2为已知,或者2未知但样本容量较大(n30),用样本方差s2估计2 。 但在实际研究中,经常遇到总体方差2未知且样本容量不大(n30)的情况,如果仍用s2估计2 ,这时标准差就不呈正态分布了,而是服从自由度d

24、f=n-1的t分布了,即:,式中,Sx为样本平均数的标准误,是x的估计值,即: t分布的概率密度函数为:,t分布的平均数t=0(df1) t分布的方差t=df/(df-2)(df2) t分布特征 (1)t分布曲线是左右对称的,围绕平均数t=0向两侧递降。 (2)t分布受自由度df=n-1的制约,每个df都有一条t分布曲线 (3)与正态分布相比,t分布的顶部偏低,尾部偏高,当n 30时,t分布与标准正态分布的区别很小;n 100时,t分布基本与标准正态分布相同;n时,t 分布与标准正态分布完全一致。,图4-13 不同自由度的t分布密度曲线,对于不同自由度下t分布的两尾概率及其对应的临界t值已编制

25、成附表3,即t分布表。该表第一列为自由度df,表头为两尾概率值,表中数字即为临界t值。 例如,当df=15时,查附表3得两尾概率等于0.05的临界t值为 =2.131,其意义是:P(-t-2.131)= P(2.131t+)=0.025;P(-t-2.131)+ P(2.131t+)=0.05。,Excel计算t值公式为: tinv(probability, df) 如双尾概率0.05,df为10的t值为= tinv ( 0.05 , 10 )=2.228 单尾概率0.05,df为10的t值为= tinv ( 0.1 , 10 )=1.812。将概率乘以2后,再用公式。 当已知t时,用=tdist(t, 自由度,1或2) 1表示单尾概率,2表示双尾概率 如t=2.571,df=5时 =tdist(2.571, 5, 1)=0.025 =tdist(2.571, 5, 2)=0.05,三、X2分布,设有一平均数为、方差为2 的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论