第三章概率与概率分布.ppt_第1页
第三章概率与概率分布.ppt_第2页
第三章概率与概率分布.ppt_第3页
第三章概率与概率分布.ppt_第4页
第三章概率与概率分布.ppt_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概 率,概率分布,与,第三章,一、概率的概念,二、概率的计算,三、概率的分布,四、大数定律,一、概率基本概念,(一)事件,定义:在一定条件下,某种事物出现与否就称为是事件。 自然界和社会生活上发生的现象是各种各样的,常见的有两类。,在一定条件下必然出现某种结果或必然不出现某种结果。,确定性事件,必然事件(U) (certain event),不可能事件(V) (impossible event),一、概率基本概念,在一定条件下可能发生也可能不发生。,随机事件(random event) 不确定事件(indefinite event),一、概率基本概念,为了研究随机现象,需要进行大量重复的调查、

2、实验、测试等,这些统称为试验。,一、概率基本概念,(二)频率(frequency),若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequency),记为W(A)=m/n。,0W(A) 1,一、概率基本概念,种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。,例:,一、概率基本概念,(三)概率(probability,P),概率的统计定义:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的

3、概率。,P(A) = p,统计概率(statistics probability) 后验概率(posterior probability),统计概率,一、概率基本概念,抛掷一枚硬币发生正面朝上的试验记录 实验者 投掷次数 发生正面朝上的次数 频率(m/n) 蒲丰 4040 2048 0.5069 K 皮尔逊 12000 6019 0.5016 K 皮尔逊 24000 12012 0.5005,随着实验次数的增多,正面朝上这个事件发生的频率稳定接近0.5,我们称0.5作为这个事件的概率。,概率的古典定义,一、概率基本概念,对于某些随机事件,不用进行多次重复试验来确定其概率,而是根据随机事件本身的

4、特性直接计算其概率。,随 机 事 件,(1)试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;,(2)各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;,(3)试验的所有可能结果两两互不相容。,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,随机抽取一个球,求下列事件的概率; (1)事件A抽得一个编号 4 (2)事件B =抽得一个编号是2的倍数,该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有3个,即抽得编号为1、2、3中的任何一个,事件A便发生。,P(A)=3/10=0.3,P(B)=5/10=0.5,一、概率基本

5、概念,1,2,3,4,5,6,7,8,9,10,A“一次取一个球,取得红球的概率”,10个球中取一个球,其可能结果有10个基本事件(即每个球被取到的可能性是相等的),即n=10,事件A:取得红球,则A事件包含3个基本事件,即m=3,P(A)=3/10=0.3,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,B “一次取5个球,其中有2个红球的概率”,10个球中任意取5个,其可能结果有C105个基本事件,即n= C105,事件B =5个球中有2个红球,则B包含的基本事件数m= C32 C73,P(B) = C32 C73 / C105 = 0.417,一、概率基本概念,0P(A)1,

6、任何事件,P(U)=1,必然事件,P(V)0,不可能事件,0P(A)1,随机事件,概率的基本性质,概率的计算,第二部分,二、概率的计算,(一)事件的相互关系,和事件,积事件,互斥事件,对立事件,独立事件,完全事件系,二、概率的计算,1,和事件,事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件,记作A+B。,n个事件的和,可表示为A1+A2+An,二、概率的计算,2,积事件,事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作AB。,n个事件的积,可表示为A1 A2 An,二、概率的计算,3,互斥事件(互不相容事件),事件A和事件B不能同时发生,则称这两个

7、事件A和B互不相容或互斥。,n个事件两两互不相容,则称这n个事件互斥。,二、概率的计算,4,对立事件,事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。,二、概率的计算,5,独立事件,事件A和事件B的发生无关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。,如果多个事件A1、A2、A3、An 彼此独立,则称之为独立事件群。,二、概率的计算,6,完全事件系,如果多个事件A1、A2、A3、An两两互斥,且每次试验结果必然发生其一,则称事件A1、A2、A3、An为完全事件系。,完全事件系的和事件概率

8、为,任何一个事件发生的概率为1/n。即: P(A1A2An),二、概率的计算,(二)概率的计算法则,定理: 若事件A与B互斥,则 P(A+B)=P(A)+P(B),试验的全部结果包含n个基本事件,事件A包含其中m1个基本事件,事件B包含其中m2个基本事件。由于A和B互斥,因而它们各包含的基本事件应该完全不同。所以事件AB所包含的基本事件数为m1+m2。,P(A+B)=m1+m2/n=m1/n+m2/n=P(A)+P(B),二、概率的计算,推理1 P(A1+A2+An)=P(A1)+P(A2)+P(An),推理3 完全事件系的和事件的概率为1。,二、概率的计算,例:玉米田中,一穗株(A)占67.

9、2%,双穗株(B)占30.7%,空 穗株(C)占2.1%,试计算一穗株和双穗株的概率。,P(A+B)=P(A)+P(B)=0.672+0.307=0.979,因为P(A)+P(B)+P (C) =1 P(A+B)=1-P(C)=1-0.021=0.979,或,二、概率的计算,定理: 事件A和事件B为独立事件,则事件A与事件B同时发生的概率为各自概率的乘积。 P(AB)=P(A)P(B),推理:A1、A2、An彼此独立,则 P(A1A2A3An)=P(A1)P(A2)P(A3)P(An),二、概率的计算,例:播种玉米,种子的发芽率为90%,每穴两粒,则:,C:两粒种子均发芽,C = AB,P(C

10、) = P(A) P(B) = 0.81,求:,概 率 分 布,第三部分,三、概率分布,(一)离散型变量的概率分布,要了解离散型随机变量x的统计规律,必须知道它的一切可能值xi及取每种可能值的概率pi。,对离散型变量x的一切可能值xi(i=1,2,3),及其对应的概率pi,P (x=xi) = pi, i=1,2,3,三、概率分布,此表列出了性别变量的取值及相应值的概率,揭示了观察婴儿性别试验的统计规律。,用随机变量的可能取值及取相应值的概率来表示随机试验的规律称为随机变量的分布律或概率函数。,例:,三、概率分布,P (x=xi) = pi, i=1,2,3,设离散型变量x的所有一切可能值xi

11、(i=1,2,3),取相应值的概率为pi,则P (x=xi)称为离散型随机变量x的概率函数。,三、概率分布,离散型变量的概率分布的特点,特点,Pi 0 (i=1,2,),= 1,三、概率分布,(二)连续型变量的概率分布,当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的容量n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,三、概率分布,三、概率分布,对于一个连续型随机变量x,取值于区间a,b内的概率为函数f(x)从a到b的积分,即:,连续型随机变量的概率由概率分布密度函数所确定。,概率密度函数f(x)曲线与x轴所围成的面积为1。,大 数 定 律,第四部

12、分,四、大数定律,大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。,主要内容:样本容量越大,样本统计数与总体参数之差越小。,四、大数定律,贝努里大数定律,辛钦大数定律,四、大数定律,(1)贝努里大数定律,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:,四、大数定律,(2)辛钦大数定律,设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数,有如下关系:,几种常见的理论分布,第二节,随机变量的概率分布 (probability distribution),离散型变量 (discrete random v

13、ariable),连续型变量 (continuous random variable),二项分布 泊松分布,正态分布,变 量,一、二 项 分 布,离散型随机变量的分布,哺乳动物,种子,穗子,生物个体,雄性,雌性,发芽,不发芽,有芒,无芒,成活,死亡,对立事件,一、二项分布的概率函数,非此即彼,一、二项分布,在种子发芽试验中,设事件A为“种子发芽”,则A为“种子不发芽”。取4粒种子(n=4)来做试验,求有2粒种子发芽(x=2)的概率。,在贝努里试验中,独立将此试验重复n次,求在n次试验中,一种结果A出现x次的概率P(x)是多少。,在4次试验中,事件A发生2次的方式有以下 种:,由于试验是独立的,

14、按概率的乘法法则,于是有: P( )=P( )= P( ) = P( )P( )P( )P( )=,又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4 粒种子中正好有2粒种子发芽的概率为:,P4(2) = P( ) + P( ) + + P( )=,若把上式与二项展开式 相比较就可以发现,在n重贝努里试验中,事件A发生x次的概率恰好等于展开式中的第x+1项,所以把P(x)称为随机变量x服从参数为n和p的二项分布(binomial distribution),也称为贝努里分布,记作B(n,p)。这种“非此即彼”的事件所构成的总体称为二项总体。,x,x,x,x,n=试验次数(

15、或样本含量) n=4 x=在n次试验中事件A出现的次数 x=2 p=事件A发生的概率(每次试验是恒定的) p=0.9 1-p=事件A不发生的概率 1-p=0.1 p(x)=X的概率函数=P(X=x) P(2),则4粒种子有两粒发芽的概率为: P(x)= p2 q4-2=60.920.12=0.0486,例:,由于二项式中p+q=1,,( p+q ) n = 1,p(0) +p(1) +p(2) + + p(x) + + p(n) =1,一、二项分布,或者n个事件构成一个完全事件系,所以有:,现已求出某事件发生的概率,若试验N次,则该事件发生的理论次数为: 理论次数NP(x),二项分布的概率累积

16、函数为:,3:1,若每次观察4株,共观察100次,问花为0、1、2、3、4株的概率各为多少?,(二)二项分布的计算,例:豌豆F1为红花和白花,杂交后F2红花:白花3:1,F1,F2,概率函数 Cnxpxqn-x P(x) F(x) NP(x) P(0) C40p0q4 0.0039 0.0039 0.39 P(1) C41p1q3 0.0469 0.0508 4.69 P(2) C42p2q2 0.2109 0.2617 21.09 P(3) C43p3q1 0.4219 0.6836 42.19 P(4) C44p4q0 0.3164 1.000 31.64 合计 1.000 100,表 观

17、察4株出现红花的概率分布表 (p=0.75 q=1-p=0.25),二项分布概率函数,概率的计算,样本容量的确定,p(x) Cnxpx(1-p)n-x,一、二项分布,(三)二项分布的形状和参数,(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,二项分布的形状由n和p两个参数决定。B(n,p),一、二项分布,(三)二项分布的形状和参数,(2)当p值趋于0.5时,分布趋于对称。,统计学证明,服从二项分布B(n,p)的随机变量所构成的总体的平均数 、标准差与n、p这两个参数有关。,一、二项分布,(三)二项分布的形状和参数,n p,在二项分布中,事件A发生的频率 x/n称为二项成数

18、,即百分数或频率。则二项成数的平均数和标准差分别为: 也称为二项总体百分数的标准误,当 p 未知时,常以样本百分数 来估计。此时上式改写为: = 称为样本百分数标准误。,例:豌豆红花纯合基因型和白花纯合基因型杂交后,在F2代红花植株与白花植株出现的比例为3:1。每次观察4株,n=4, 红花出现概率为p=340.75。,(1)红花出现的平均株数=n p = 3.0 (株),n1,0,1,2,3,4,总体,红花出现株数,一、二项分布,(三)二项分布的形状和参数,(1)红花出现的频率的平均数:p n p /n = 3.0/4 = 0.75 = p,二项分布的百分数,成数,二、泊 松 分 布,二、泊松

19、分布,泊松分布(Poisson distribution) 是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。,泊松分布是二项分布的一种特殊类型。,二、泊松分布,泊松分布的概率函数 可由二项分布概率函数推导出来,为参数, = np x = 0,1,2,p(x) Cnxpx(1-p)n-x,= 2 = =,P( ),p(x) Cnxpx(1-p)n-x, n p,2=np(1-p),= ,np =,二、泊松分布,显微镜检查某样本内结核菌的数目,三、正 态 分 布,围绕在平均值左右,由平均值到分布的两侧,变量数减少,即两头少,中间多,两侧对称。

20、,特点,正态分布也称为高斯分布(Gauss distribution)。,三、正态分布,三、正态分布,(一)正态分布的概率函数,连续型随机变量的概率分布是用概率密度函数来描述的。,三、正态分布,(一)正态分布的概率函数,f(x) 为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。,总体平均数,总体标准差,圆周率,3.14159,e为自然对数底,2.71828,x=时,f(x)值最大,正态分布曲线以平均数为中心的分布。,(二)正态分布的特征,1,x-的绝对值相等时,f(x)也相等,正态分布密度曲线以为中心向左右两侧对称。,三、正态分布,(二)正态分布的特征,2,f(x)是非负函数,以

21、x轴为渐近线,x的取值区间为(-,+) 。,三、正态分布,(二)正态分布的特征,3,正态分布曲线由参数,决定, 确定正态分布曲线在x轴上的中心位置,确定正态分布的变异度。,三、正态分布,(二)正态分布的特征,4,正态分布曲线在x=处各有一个拐点,曲线通过拐点时改变弯曲度。,三、正态分布,(二)正态分布的特征,5,分布曲线与x轴围成的全部面积为1,三、正态分布,(二)正态分布的特征,6,三、正态分布,若一个连续型随机变量x取值于区间a,b,其概率为,三、正态分布,(三)标准正态分布,N (,2),正态分布是依赖于参数(,2)的一个曲线系,正态曲线的位置及形态随(,2)的不同而不同,这就给研究具体

22、的正态分布总体带来了困难,我们现将其标准化。,N(,2),N(0,1),三、正态分布,u表示标准正态离差(standard normal deviate),它表示离开平均数有几个标准差。,f(u)称为标准正态分布(standard normal distribution)或u分布方程。,三、正态分布,为了计算方便,对于不同的u值,计算出不同的F(x),编成函数表,称为正态分布表,从中可以查到u任意一个区间内取值的概率。,三、正态分布,若随机变量服从正态分布N(,2),则x的取值落在区间x1,x2 的概率,记作P(x1xx2)。,三、正态分布,(四)正态分布的概率计算,服从正态分布N(,2)的随

23、机变量,x的取值落在区间x1,x2 的概率,记作P(x1xx2),等于服从标准正态分布的随机变量u在(x1-)/ , (x2-)/ 内取值的概率。,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,三、正态分布,三、正态分布,(四)正态分布的概率计算,P(-x+),P(-2x+2),P(-3x+3),=P(-1u1)=0.6826,= P(-2u2)=0.9545,= P(-3u3)=0.9973,三、正态分布,P(-1u1)=0.6826,P(-2u2)=0.9545,P(-3u3)=0.9973,P(-1.96u1.96)=0

24、.95,P(-2.58u2.58)=0.99,统计数的分布,第三节,一、抽样试验与无偏估计,根据样本对总体做出估计和推断,并不是直接用样本本身,而是用样本的统计量来对总体做出估计和判断。但由于从总体中抽取的样本提供的信息仅是总体的一部分,因此它不能提供完全准确的信息,必然存在着一定的误差。即,对于样本容量相同的多次随机抽样,得到样本函数的观察值也是不同的,且其取值有一定的概率,即统计量也是一个随机变量,因而也有它的分布,称为抽样分布(sampling distribution)。,抽取一部分样本进行研究,或对小的有限总体进行放回式的抽样,这种部分抽样比较接近实际。,现有一N=3的近似正态总体,

25、具有变量3,4,5,可以求出 =4, 20.6667, 0.8165。 现以n=2作独立的有放回式抽样。,一、抽样试验与无偏估计,总共可得到Nn329个样本,=4 20.6667 0.8165,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。,样本平均数是总体平均数的无偏估计值。,样本方差是总体方差的无偏估计值。,样本标准差s不是总体标准差的无偏估计值。,一、抽样试验与无偏估计,二、样本平均数的分布,由于从总体中抽出的样本为每一个可能样本,且每个样本中的变量均为随机变量,所以其样本平均数也为随机变量,也形成一定的理论分布,这种理论分布称为样本平均

26、数的概率分布,或称样本平均数的分布。,样本平均数的平均数:,样本平均数的方差:,对N=3(3,4,5),n=2抽样试验所得的9个样本平均数,整理成次数分布表。,n=2,(1)样本平均数分布的平均数总体平均数。,(2)样本平均数分布的方差总体方差除以样本容量。,样本平均数分布的基本性质,标准误大,各样本平均数间差异程度大,样本平均数的精确性低。,标准误小,各样本平均数间差异程度小,样本平均数的精确性高。,标准误的大小与原总体的标准差 成正比,与样本含量n的平方根成反比。,从某特定总体抽样,因为是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。,样本平均数的标准误差(标准误) (sta

27、ndard error of mean),在实际工作中,总体标准差 往往是未知的,因而无法求得标准误。,此时,可用样本标准差s估计总体标准差 。,样本标准误或均数标准误,是平均数抽样误差的估计值。,均数的标准误与标准差成正比,而与样本例数n的平方根成反比。若标准差固定不变,可通过增加样本含量n来减少抽样误差。,(3)如果从正态分布总体N(,2)进行抽样,其样本平均数x是一具有平均数 ,方差2/n的正态分布,记作N(,2/n)。,样本平均数分布的基本性质,中心极限定理 (central limit theorem),(4)如果被抽总体不是正态分布总体,但具有平均数和方差2 ,当随样本容量n的不断

28、增大,样本平均数 x 的分布也越来越接近正态分布,且具有平均数,方差2 /n 。,样本平均数分布的基本性质,不论总体为何种分布,只要是大样本,就可运用中心极限定理,认为样本平均数的分布是正态分布,在计算样本平均数出现的概率时,样本平均数可按下式进行标准化。,三、样本平均数差数的分布,变量3,6 1=4.5 12= 2.25,n1=3,变量2,4,6 2=4 22= 2.6667,n2=2,1=4.5 x12= 0.75,2=4 x22=1.333,(1)样本平均数差数的平均数 = 总体平均数的差数.,样本平均数差数分布的基本性质,(2)样本平均数差数的方差 = 两样本平均数方差之和.,样本平均数差数的标准误,样本平均数差数分布的基本性质,(3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。,样本平均数差数分布的基本性质,四、t 分布,t分布,当2已知,当2未知,且n30

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论