生物统计学 第三章 概率与概率分布._第1页
生物统计学 第三章 概率与概率分布._第2页
生物统计学 第三章 概率与概率分布._第3页
生物统计学 第三章 概率与概率分布._第4页
生物统计学 第三章 概率与概率分布._第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

样本,总体,统计推断,随机抽样,统计推断,第三章概率与概率分布,第一节:概率基础知识,一、概率的概念,二、概率的计算,三、概率的分布,四、大数定律,一、概率基本概念,(一)事件,在一定条件下必然出现某种结果或必然不出现某种结果。,水在标准大气压下,加热到100,异性电荷,种子的发芽率,沸腾,相互吸引,不可能超过100%,必然事件(U)(certainevent),不可能事件(V)(impossibleevent),掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面。给病人做某血样化验,其结果可能为阳性,也可能为阴性。某种疾病的患者服用相同剂量的药物,有的痊愈,有的无效,有的显效但未痊愈。,一、概率基本概念,在一定条件下可能发生也可能不发生。,随机事件(randomevent)不确定事件(indefiniteevent),事件(event),一、概率基本概念,(二)频率,若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequency),记为W(A)=m/n。,种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。,在大量重复试验中,随机事件的频率总是围绕着某一确定值稳定地摆动,这是一种统计规律,称之为频率的稳定性。,一、概率基本概念,频率表明了事件频繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。,概率,某事件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)越来越接近某一个确定值p,于是定义p为事件A发生的概率(probability),记为,P(A)=p,(三)概率(probability,P),在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。,P(A)=p=lim,0P(A)1,随机事件,P(U)=1,必然事件,P(V)0,不可能事件,二、概率的计算,(一)事件的相互关系,和事件,积事件,互斥事件,对立事件,独立事件,完全事件系,二、概率的计算,(一)事件的相互关系,事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件,记作A+B。n个事件的和,可表示为A1+A2+An。,和事件,A,B,A,B,事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作AB。n个事件的积,可表示为A1A2An。,积事件,A,B,二、概率的计算,(一)事件的相互关系,A,B,事件A和事件B不能同时发生,则称这两个事件A和B互不相容或互斥。n个事件两两互不相容,则称这n个事件互斥。,互斥事件,二、概率的计算,(一)事件的相互关系,A,B,事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。,对立事件,二、概率的计算,(一)事件的相互关系,如果多个事件A1、A2、A3、An两两互斥,且每次试验结果必然发生其一,则称事件A1、A2、A3、An为完全事件系。,完全事件系,二、概率的计算,(一)事件的相互关系,事件A和事件B的发生无关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。,独立事件,二、概率的计算,(二)概率的计算法则,1.加法定理(additivetheorem),若事件A与B互斥,则事件A和B的和事件的概率等于事件A和事件B的概率之和。P(A+B)=P(A)+P(B),推理1P(A1+A2+An)=P(A1)+P(A2)+P(An),推理2P(A)=1-P(A),推理3完全事件系的和事件的概率为1。,一般的加法定理,P(A+B)=P(A)+P(B)-P(AB),A,B,二、概率的计算,(二)概率的计算法则,2.乘法定理,事件A和事件B为独立事件,则事件A与事件B同时发生的概率为各自概率的积。P(AB)=P(A)P(B),推理:A1、A2、An彼此独立,则P(A1A2A3An)=P(A1)P(A2)P(A3)P(An),二、概率的计算,(二)概率的计算法则,例3.3播种玉米,两粒种子,种子的发芽率为90%,A:第一粒种子发芽,B:第二粒种子发芽,C:两粒种子均发芽,D:一粒种子发芽,E:两粒种子均不发芽,三、概率分布,要了解离散型随机变量x的统计规律,必须知道它的一切可能值xi及取每种可能值的概率pi。对离散型变量x的一切可能值xi(i=1,2,3)及其对应的概率pi。,随机变量的取值与取这些值的概率之间的对应关系称为随机变量的概率分布(probabilitydistribution),(一)离散型变量的概率分布,三、概率分布,(一)离散型变量的概率分布,此表列出了该鱼群年龄构成的全部,称为该鱼群年龄的概率分布。,此表列出了性别变量的取值及相应值的概率,揭示了观察婴儿性别试验的统计规律。,三、概率分布,(一)离散型变量的概率分布,设离散型变量x的所有一切可能值xi(i=1,2,3),取相应值的概率为pi,则pi称为离散型随机变量x的概率函数。,定义,三、概率分布,(一)离散型变量的概率分布,特点,表3-3投掷一枚质地均匀骰子可能得到点数的概率分布,三、概率分布,(二)连续型变量的概率分布,当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的容量n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,频率,频率/组距,每一个直方图的矩形面积就表示改组的频率。,阶梯形曲线,三、概率分布,(二)连续型变量的概率分布,n增加,组距减少,分组多,直方条增加;,阶梯形曲线趋于光滑。,概率分布曲线,当n无限大时,频率转化为概率,频率密度也转化为概率密度,阶梯形曲线成为总体的概率密度曲线。曲线函数用f(x)表示。,三、概率分布,(二)连续型变量的概率分布,连续型随机变量的概率由概率分布密度函数所确定。,三、概率分布,(二)连续型变量的概率分布,概率密度函数f(x)与x轴所围成的面积为1。,四、大数定律,Why?,大数定律:概率论中用来阐述大量随机现象平均结果稳定性的一系定律的总称。,四、大数定律,伯努利大数定律,辛钦大数定律,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数,四、大数定律,我们可以这样来理解大数定律:设一个随机变量xi是由一个总体平均数和一个随机误差i所构成,可以用下面的线性模型来表达:=+如果从同一总体抽取n个随机变量构成一个样本,那么样本平均数可表示为=1=1=1=1(+)=+1=1当试验次数n越来越大时,1=1部分会变得越来越小。因为有正有负,正负相互抵消,且随着n的增大,1=1会变得非常小,使得越来越近。,只要从总体中抽取的随机变量相当多,就可以用样本的统计数来估计总体的参数。,参数,统计数,四、大数定律,尽管存在随机误差,但通过进行大量的重复试验,其总体特征可以透过个别的偶然现象显示出其必然性。,离散型变量(discreterandomvariable),连续型变量(continuousrandomvariable),二项分布泊松分布,正态分布,变量,第二节:几种常见的理论分布,离散型随机变量的分布,哺乳动物,种子,穗子,生物个体,雄性,雌性,发芽,不发芽,有芒,无芒,成活,死亡,一、二项分布,“非此即彼”事件所构成的总体二项总体。,其概率分布:二项分布(binomialdistribution)。,二项总体,试验只有两个对立结果,重复性独立性,一、二项分布,(一)二项分布的概率函数,试验的条件不变,即在每次试验中事件A出现的概率皆为p。,任何一次试验中,事件A的出现与其余各次试验中出现何种结果无关。,如种子的发芽和不发芽,分别记作与,它们出现的概率分别为和(=1),从雌雄各半的100只动物中,做一抽样试验。,A.第一次从这100只动物中随机抽取1只,记下性别后放回,再做第二次抽样。,不论第一次抽样结果,第二次抽样中,得到雌性或雄性的概率仍是50100。,这两次试验是独立的,如何理解独立性?,B.第一次抽样后不放回,再做第二次抽样。,这两次试验是非独立的,第一次抽到雄性动物,抽到雄性的概率是4999,抽到雌性的概率是5099,第一次抽到雌性动物,抽到雄性的概率是5099,抽到雌性的概率是4999,如何理解独立性?,在放回式抽样中,若抽样试验共进行10次,,其中包括3只雄性动物的概率是多少?,包括3只及3只以下的概率是多少?,在10次试验中,抽到雄性动物的只数是一随机变量,记为X,X的可能值是0,1,2,10。现在要求出X3和X3的概率。,一、二项分布,符号说明:n:试验次数(或样本含量)n=10 x:在n次试验中事件A出现的次数x=3p:事件A发生的概率(每次试验是恒定的)p=0.51-p:事件A不发生的概率1-p=0.5P(X=x):概率函数p(3)F(x)=P(Xx):概率累计函数F(3),m表示雄性动物f表示雌性动物,mmmfffffff表示在10次抽样中,前3次抽中的都是雄性动物。,抽样间相互独立,每次抽到雄性动物的概率是p,抽到雌性动物的概率是1-p,P(mmmfffffff)=p3(1-p)7,一、二项分布,但这只是其中一种抽法,在10次抽样中,抽到3只雄性动物的所有方式数,相当于从10个元素中,取3个元素的组合数C103,一、二项分布,mmfmffffff,mfmmffffff,fmmmffffff,ffmmmfffff,它们出现的概率同理可以求出也是p3(1-p)7,所以抽到3只雄性动物的概率:p(3)C103p3(1-p)7,p(3)C103p3(1-p)7,p(x)Cnxpx(1-p)n-x,这正好是二项式p+(1-p)n展开式的第x+1项,因此称为“二项分布”,记作B(n,p)。,因为p+(1-p)n=1,所以p(0)+p(1)+p(2)+p(x)+p(n)=1,p(x)=1,一、二项分布,若将以上试验重复N次,每次在n个试验中出现事件A为x次的理论次数则等于N乘以事件A出现x次的相应概率:理论次数=N*P(x),p(0)=0.0009766p(1)=0.0097656p(2)=0.0439453p(3)=0.1171876,F(3)=p(0)+p(1)+p(2)+p(3)=0.1718751,3只以下的概率是多少?,(二)二项分布的计算,例3.6某小麦品种在田间出现自然变异的概率为0.0045,(1)调查100株,获得两株或两株以上变异植株的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?,(1)求P(x2)=1-P(0)-P(1)(2)P(x)=B(n,p),p已知,所以只需解关于n的P(x1)=1-P(0)=0.99的方程。,一、二项分布,(三)二项分布的形状和参数,二项分布B(n,p)的形状由n和p两个参数决定:,(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,(2)对于固定的n和p,当x增加时,P(x)先随之增加并达到极大值,以后又下降。,(3)当p值趋于0.5时,分布趋于对称。,服从二项分布B(n,p)的随机变量所构成的总体的平均数、标准差与n、p这两个参数有关。,一、二项分布,(三)二项分布的形状和参数,一、二项分布,(三)二项分布的形状和参数,n=4,p=0.75,3:1,豌豆的红花纯合基因型和白花纯合基因型杂交后,在F2代红花植株与白花植株出现的比率为3:1,每次观察4株,共观察100次。,(三)二项分布的形状和参数,n1,n2,n3,n4,n5,n100,总体,红花出现株数,(三)二项分布的形状和参数,n1,n2,n3,n4,n5,n100,总体,红花出现频率,二项分布的百分数,二项成数的平均数,(三)二项分布的形状和参数,n1,n2,n3,n4,n5,n100,总体,红花出现频率,二项成数的标准差,显微镜视野内染色体有变异的细胞计数,抽检大量产品中出现次品的件数,田间小区内出现变异植株的计数,n很大,p值很小。,二、泊松分布,在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却很大:,二、泊松分布,泊松分布(Poissondistribution)是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。是二项分布的一种特殊类型。,概率函数可由二项分布概率函数推导出来:,为参数,np,记作P(),二、泊松分布,概率函数可由二项分布概率函数推导出来:,泊松分布的平均值、方差和标准差,二、泊松分布,P()的形状由确定,较小时,泊松分布偏倚。增大时,泊松分布趋于对称。无即增大时,泊松分布接近正态分布。,泊松分布的形状和参数,泊松分布适用范围为p0.1和np5,二、泊松分布,对于小概率事件,可用泊松分布描述其概率分布。,二项分布当p0.1和np5时,可用泊松分布来近似。,2,1,二、泊松分布,显微镜检查某样本内结核菌的数目,然后:,理论次数=N*P(x),二、泊松分布,某人在一次试验中遇到危险的概率是1%,如果他在一年里每天都要独立重复做一次这样的试验,那么他在一年中至少遇到一次危险的概率是多少?,n=365,p=0.01,np=3.65符合条件,P(365次试验中至少遇到一次危险)1-P(一次也未遇到危险)=1-P(0)0.97,n大p与1-p接近,P0.1np5,二项分布,泊松分布,正态分布,正态分布是生物统计学的重要基础。,围绕在平均值左右,由平均值到分布的两侧,变量数减少,即两头少,中间多,两侧对称。正态分布也称为高斯分布,是一种连续性随机变量的概率分布。,正态分布(normaldistribution),特点,三、正态分布,图2.2月产蛋数次数分布柱形图,图2.3鲢鱼体长次数分布图,三、正态分布,(一)正态分布的概率函数,连续型随机变量的概率分布是用概率密度函数来描述的。,p(x)Cnxpx(1-p)n-x,它为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。,记作N(,2),当,x=时,f(x)值最大,正态分布曲线以平均数为中心的分布。,1,x-的绝对值相等时,f(x)也相等,正态分布密度曲线以为中心向左右两侧对称。,2,三、正态分布,(二)正态分布的特征,f(x)是非负函数,以x轴为渐近线,x的取值区间为(-,+)。,3,正态分布曲线由参数,决定,确定正态分布曲线在x轴上的中心位置,确定正态分布的变异度。,三、正态分布,(二)正态分布的特征,4,大,曲线展开度越大,数据分散;小,曲线展开度小,数据集中。,正态分布曲线在x=处各有一个拐点,曲线通过拐点时改变弯曲度。,5,分布曲线与x轴围成的全部面积为1,6,三、正态分布,(二)正态分布的特征,三、正态分布,(三)标准正态分布,N(,2),正态分布是依赖于参数(,2)的一个曲线系,正态曲线的位置及形态随(,2)的不同而不同,这就给研究具体的正态分布总体带来了困难,我们现将其标准化。,u表示标准正态离差(standardnormaldeviate),它表示离开平均数有几个标准差。,三、正态分布,f(u)称为标准正态分布或u分布方程,记为N(0,1)。,=+,代入原始公式:,三、正态分布,正态分布标准化实质上做出了座标轴的平移和尺度转换,使正态分布具有平均数为0,标准差为1。记作N(0,1)。,三、正态分布,标准正态分布的概率累积函数记作F(u),它是变量u小于某一定值的概率。,三、正态分布,而对于u落在区间(a,b),其概率为:,三、正态分布,对于不同的u值,编成函数表,称为正态分布表,从中可以查到u任意一个区间内取值的概率。,三、正态分布,(四)正态分布的概率计算,正态分布的概率计算,从标准正态分布入手。,(1)标准正态分布在正态分布中形式简单,而且任何正态分布都可化为标准正态分布。,(2)只有标准正态分布的分布函数有分布表。,三、正态分布,(四)正态分布的概率计算,1标准正态分布的概率计算,设u服从标准正态分布,则u在a,b内取值的概率为,三、正态分布,(四)正态分布的概率计算,P(-1u1)=0.6826,P(-2u2)=0.9545,P(-3u3)=0.9973,P(-1.96u1.96)=0.95,P(-2.58u2.58)=0.99,三、正态分布,(四)正态分布的概率计算,2一般正态分布的概率计算,正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了随机变量x取值在(-,+)之间是一个必然事件,其概率为1。,若随机变量服从正态分布N(,2),则x的取值落在区间x1,x2的概率,记作P(x1xx2)。,三、正态分布,(四)正态分布的概率计算,2一般正态分布的概率计算,三、正态分布,(四)正态分布的概率计算,通过标准化:,服从正态分布N(,2)的随机变量,x的取值落在区间x1,x2的概率,记作P(x1xx2),等于服从标准正态分布的随机变量u在(x1-)/,(x2-)/内取值的概率。,三、正态分布,(四)正态分布的概率计算,2一般正态分布的概率计算,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,三、正态分布,(四)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论