




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 随机变量的概率分布与数字特征在第一章中,我们介绍了随机事件及其概率,可以看到很多事件都可以采取数值标识。如一个人的身高、体重、血压、脉搏;抽检产品时出现的废品个数;掷骰子出现的点数等对于那些表现为某种属性的非数值标识的随机事件,实际上也可以给它们以数值标识。例如,对新生儿的性别,可以0表示女,1表示男;对生化检验的结果,可以0表示为阴性,1表示为阳性;对生产的产品,可以2表示为优质品,1表示为次品,0表示为废品等。这样一来,随机事件就都可以用数量来描述,从而,随机试验的结果可用一个变量来表示,随机试验的不同结果(随机事件)表现为变量取不同的值。因此,本章先引入随机变量的概念,把对随机事
2、件及其概率的研究转变成为对随机变量及其概率分布的研究,本章主要讨论两类常用的随机变量的概率分布及几个常用的数字特征。§2-1离散型随机变量及其概率分布2-1.1随机变量例如一位隐性遗传疾病的携带者有三个女儿,则每个女儿都有1/2的可能性从母亲那里得到一个致病的X染色体而成为携带者(假设父亲正常),以A,B,C分别表示大女儿、二女儿和小女儿是携带者。若用X表示她们中的携带者人数,那么X=0,1,2,3是变量。但X等于多少要与试验结果联系在一起。如“X=0”=“X=3”=ABC“X1”=A+B+C等等,X取特定的值或特定范围里的值是一个随机事件,随机事件的出现总是有一定的概率的,因而,变
3、量取特定值或某些值也有确定的概率。如:P(X=0)=P()=P()P()P()=()3=0.125P(X=3)=P(ABC)=P(A)P(B)P(C)= ()3=0.125P(X<)=P(X=0)+P(X=1)+P(X=2)+P(X=3)=P()=1通过该例,我们可对表示随机试验结果的变量下一个定义。定义1若对随机试验E的每一个可能的结果e,··都有惟一的实数x(e)与之对应,则称x(e)是随机变量,记为X。亦可用Y,Z等表示。随机变量通过随机事件与概率联系起来,对任何形式的随机变量都有性质1随机变量取任何值的概率均为非负。性质2随机变量取所有可能取的值的概率为1。按
4、随机变量的取值情况通常将其分为两种基本类型,即离散型随机变量和非离散型随机变量,而非离散型随机变量中最重要的也是实际工作中经常遇到的是连续型随机变量。本书只简单介绍离散型及连续型这两种随机变量。(1) 离散型随机变量其可取值是有限个或可列个。(2) 连续型随机变量可以取得某一区间内的任何数值或在整个数轴上取值。2-1.2离散型随机变量的概率分布对一个随机变量进行研究,首先要判断它的取值范围以及可能取哪些值,其次还要知道它取这些值的概率,也就是要知道它的取值规律。随机变量X的取值规律称为X的概率分布,简称分布。通常用随机变量的概率函数(或概率密度函数)、分布函数来描述随机变量的分布。定义2设离散
5、型随机变量X的所有可能取值为xi(i=1,2,n),X取各个值的对应概率为pi(i=1,2,,n),则称P(X=xi)=pi(i=1,2,n)(2-1)为离散型随机变量X的概率函数(又称分布律)。概率函数也可用列表的方式来表示(表2-1):表2-1Xx1x2xixnP(X=xi)p1P2pipn这张表称为X的概率分布表(又称分布列)。概率函数具有下列基本性质:(1)Pi0(i=1,2,n)(2)(2-2)从概率函数中能够得到所有像“X=xi”这样事件的概率,但有时,我们更关心如“Xxi”或“Xxi”这类事件的概率,如病人的身体状况至多能承受多大剂量的放射治疗;从失效率为1%的针剂中任取10支,
6、取到2支以上失效的概率是多少等,就需要计算事件Xxi或Xxi的概率,即P(Xxi)或P(Xxi)。定义3设X是随机变量(可以是离散型的,也可以是非离散型的),对任何实数x,令F(x)=P(Xx)(-<x<+)(2-3)称F(x)是随机变量X的分布函数。对于任意实数x1<x2,有P(x1<Xx2)=P(Xx2)-P(Xx1)故P(x1<Xx2)=F(x2)-F(x1)因此,若已知X的分布函数F(x),就能知道X在任何一个区间上取值的概率。从这个意义上来说,分布函数完整地描述了随机变量的变化情况,它具有下列性质:(1) 0F(x)1(-<x<+);(2)
7、F(x)是x的不减函数;(3) F(-)=F(x)=0,F(+)=F(x)=1;(4) F(x)至多有可列个间断点,且在间断点右连续。对于离散型随机变量有F(xi)=P(Xxi)=P(X=x1)+P(X=x2)+P(X=xi)(2-4)即F(xi)=p1+p2+pi而pi=P(X=xi)=P(Xxi)-P(Xxi-1)=F(xi)-F(xi-1)(2-5)例1设某药检所从送检的药品中先后抽检3件,如果送检的10件中有2件失效,试列出检得次品数的概率分布表,求出分布函数。解检得次品数为随机变量,设为X,则X的可取值为0,1,2,由第一章中古典概率的定义可计算得P(X=0)=0.4667P(X=1
8、)=0.4667P(X=2)=0.0666所以,其概率分布表为(如表2-2)表2-2X012Pi0.46670.46670.0666X的分布函数为:当x<0时,F(x)=P(Xx)=0;当0x<1时,F(x)=P(Xx)=p1=0.4667;当1x2时,F(x)=P(Xx)=p1+p2=0.9334;当x2时,F(x)=P(Xx)=p1+p2+p3=1于是,X的分布函数为如果取X的值于横轴,pi的值于纵轴,便得到X的概率函数图,它由几条函数线组成,每条线长的值等于该点上的概率;如果仍取X的值于横轴,而取F(x)的值于纵轴,便得到X的概率分布函数图,它的图形呈递增台阶形,在分段点右连
9、续。本例X的概率函数图如图2-1,分布函数图如图2-2。图2-1图2-22-1.3二项分布、泊松分布及其他常见的离散型变量的分布一、 伯努利模型为了说明二项分布,先介绍伯努利模型。在医药领域内,许多试验只有两种互斥的结果,如对病人治疗的结果,有效或无效;生化检验的结果,阴性或阳性;毒性试验的结果,存活或死亡;射击试验的结果,击中与未击中等。为了找到这些试验结果的规律性,往往需要在相同条件下做n次独立重复试验,我们把这种试验结果具有对立性的n重独立重复试验称为n重伯努利试验,简称伯努利试验。伯努利试验的共同特点是:(1) 对立性,每次试验的结果只能是对立事件中的一个,要么出现A,要么出现。(2)
10、 独立重复性,每次试验的结果互不影响,且各次试验中事件A出现的概率都相等,设为p,当然事件出现的概率亦相等,设为q,则q=1-p。例2某药治某病的治愈率为p,今用此药试治该病5例,问治愈3例的概率是多少?解设Ai=第i例治愈,则=第i例未愈(i=1,2,,5),B=治愈3例,在5例治疗中各例的治愈率都相等,即P(Ai)=p(i=1,2,,5),且各例间的治疗结果是独立的,故治疗5例就是做5次伯努利试验。治疗5例治愈3例的情况有种:A1A2A3,,于是+由于各例治疗是相互独立的,因此有=又由于种事件是互斥的,因此即治疗5例治愈3例的概率为。这类问题的一般情形如下面的定理所述。定理1(伯努利公式)
11、在伯努利试验中,若事件A在一次试验中出现的概率为p,则在n次试验中事件A恰好出现k次的概率为(2-6)如果上例的治愈率为0.7,那么治疗5例治愈3例的概率是例3作抽球试验,每次抽球一个:(1) 袋中装有白球20个和黑球10个,作有放回抽取5次,求抽到白球3次的概率;(2) 袋中装有白球2个和黑球1个,作有放回抽取5次,求抽到白球3次的概率;(3) 袋中装有白球20个和黑球10个,作无放回抽取5次,求抽到白球3次的概率。解(1) 有放回抽球属伯努利试验,令A=抽到白球,有,所以(2) 属伯努利试验,。(3) 无放回抽球不属伯努利试验,无放回抽球5次,可转换成一次抽5个球,此时抽球的概率,参照1-
12、2.2古典概率例2的算法,有P(抽白球3次)对于伯努利模型应当注意的是要区别P(A)和Pn(k)的含义。前者体现一般性(每次试验中A 发生的概率),后者体现特殊性(n次试验中A恰好发生k次的概率)。两者的关系是P(A)=P1(1)。二、 二项分布定义4若随机变量X的概率函数为(k=0,1,n)其中0<p<1,则称X服从参数为n,p的二项分布,记为XB(k;n,p)或XB(n,p)由于诸概率函数值(k=0,1,n),正好是二项式p+(1-p)n展开式中按p的升幂排列的对应各项,故名二项分布。显然二项分布对应于n重伯努利试验,其概率函数具有离散型随机变量概率函数的两个基本性质,即(1)
13、(2-7)(2)(2-8)它的分布函数为(k=0,1,2,n)(2-9)对于二项分布的有关计算,可直接用概率函数、分布函数的公式进行计算,但通常n较大计算较烦,这时可利用书后附表1即二项分布累积概率P(Xk)(n30时)表进行查表计算。例4设XB(k;20,0.20),求P(X=4),F(4),P(26)的值。解用公式计算用查表法计算较简便,P(X=4)=P(X4)-P(X5)=0.58855-0.37035=0.2182F(4)=P(X4)=1-P(X5)=1-0.37035=0.62965P(2<X<6)=P(3X5)=P(X3)-P(X6)=0.79392-0.19579=0
14、.59813对于二项分布中概率p较大(p>0.5)时,就不能直接查表计算,但可以转化为其对立事件(p<0.5,且亦服从二项分布)的概率计算。因为二项分布对应于n重伯努利试验,若事件A出现的次数XB(k;n,p),则其对立事件出现的次数YB(k;n,1-p)(k=0,1,2,n),两变量取值间受如下关系的限制k+k=n,因此通过上述转换式可将对X的有关概率的计算转化为对Y的有关概率的计算。例5设XB(k;10,0.7),求P(X7)。解 设Y为X所代表的事件的对立事件,则YB(k;10,0.3), k+k=10,所以P(X7)=P(Y3)=1-P(Y4)=1-0.35039=0.64
15、961在二项分布中,X取不同值k(k=0,1,2,n)的概率是不同的,使P(X=k)取最大值的k(记为k0)称为二项分布的最可能值,即n次独立重复试验中事件A最可能出现次数。因为显然,当k<(n+1)p时,有单调增加,k>(n+1)p时,有单调下降,因此,当k在(n+1)p附近时,P(X=k)达最大值。若(n+1)p为整数,则,故最可能值k0为(n+1)p和(n+1)p-1;若(n+1)p为非整数时,则最可能值k0为(n+1)p取整数。例如:最可能值为4;最可能值为3和2;最可能值为2;最可能值为0。例6据报道,有10%的人对某药有肠道反应。为考察此药的质量,现随机选5人服用此药,
16、试求:(1)其中k个人(k=0,1,2,3,4,5)有反应的概率;(2) 不多于2人有反应的概率;(3) 有人有反应的概率。解随机选5人服药,各人间对药物的反应具有独立性,且每人服药后有反应的概率均可视为0.10,这相当于做5次独立重复试验,即p=0.10,n=5的伯努利试验。因而反应的人数X服从二项分布B(k;5,0.10)。按二项分布公式计算得概率分布表如下(1) k个人(k=0,1,2,3,4,5)有反应的概率如表2-3。表2-3X=k012345P(X=k)0.590490.328050.072900.008100.000450.00001(2) 不多于2人有反应的概率为这就是说,服药
17、的人中不多于2人有反应几乎是肯定的,而多于2人有反应几乎不可能。因此,如果试验结果超过2人有反应,则可认为10%的人有反应的报道是值得怀疑的。(3) 有人有反应的概率P(X1)=1-P(X=0)=1-0.59049=0.40951例7某批产品有80%的一等品,若进行重复抽样试验,共取出4个样品,求其中一等品数X的最可能值k0,并用二项分布公式验证这一结果。若4个样品中没有或只有1个一等品,试说明此产品的质量。解依题意,抽检4个样品,相当于做4重伯努利试验,其中一等品的个数X应服从二项分布B(k;4,0.8),因为(n+1)P=5×0.8=4为整数,所以X的最可能值为4和3,即k取k0
18、=3和k0=4时,概率为最大。若用二项分布公式计算X取各值的概率列表2-4:表2-4X=k01234P(X=k)0.00160.02560.15360.40960.4096由上表可以看出,当X=3和X=4时概率最大,与前面所推测结果一致。另从上表中可知,4个样品中没有或只有一个一等品的概率为P(X1)=0.0016+0.0256=0.0272通常约定,概率不超过0.05的事件算作小概率事件。因为概率小,可以认为这种事件在一次试验中几乎不会出现,此谓“小概率原理”。如果它一旦出现,便被视为反常,从而有理由怀疑以至否定导致它出现的原因。例7中事件发生的概率为0.0272,属于少概率事件。可见出现这
19、种情况的可能性很小,如果在一次抽检中出现,说明80%的一等品的说法是可疑的。三、 泊松分布(稀有事件模型)在很多实际问题中,n次独立重复试验中的n往往很大,p往往很小。例如某人独立射击,每次射击的命中率为0.02,射击400次,若按二项分布来计算击中次数X的概率分布是很麻烦的,如果np=又是个较小的常数时,便可根据下面的泊松分布公式进行近似计算。定义5如果随机变量X的概率函数为(2-10)其中>0,则称X服从参数为的泊松分布。记为XP(k;)。对于泊松分布同样有性质:(1)(2-11)(2)(2-12)它的分布函数为(2-13)此外,它还有一个规律(2-14)当需要计算一连串概率函数值时
20、,可利用此规律进行递推计算。服从泊松分布的随机变量在实际中是很多的,例如三胞胎出生次数,癌症发病人数,放射的粒子个数,特大洪水发生的年数,抽检大量产品中出现次品的件数,同类型的设备在工作中出现故障的台数等等。例8已知某厂生产的针剂的废品率为0.01,400支针剂中,废品有5支以上的概率是多少? 解由题意知针剂中出现废品的支数X应服从二项分布,即XB(k;400,0.01),有由于n=400较大,P=0.01较小,且np=400×0.01=4<5。故X可认为近似地服从泊松分布,=np=4,可按泊松分布来计算概率。按公式计算查表计算,按=4,k=5,查附表2得P(X5)=0.371
21、163例9某人在一次试验中遇到危险的概率是1%,如果他在一年里每天都要独立重复做一次这样的试验,那么他在一年中至少遇到一次危险的概率是多少?解因为他要独立重复做365次试验,所以n=365,p=0.01,=np=365×0.01=3.65。P365次试验中至少遇到一次危险=1-P365次试验都未遇到危险此结果表明,即使在一次试验中很难碰到危险,当试验经常重复时,至少遇到一次危险的概率仍然可以达到很大。四、 其他离散型变量的分布(1) 二点分布定义6设随机变量X的概率函数为P(X=k)=pkq1-k(k=0,1)(2-15)即其中0<p<1,则称X服从二点分布。例10一批产
22、品共100件,其中有95件正品,5件废品,从中任取一件,其结果用随机变量X来描述,试求X的概率分布。解设X=0表示“抽到正品”,X=1表示“抽到废品”,由古典概型可知即X服从二点分布二点分布是特殊的伯努利模型,即为n=1时的二项分布。(2) 几何分布定义7设随机变量X的概率函数为(k=1,2,) (2-16)其中0<p<1,q=1-p,则称X服从几何分布。在伯努利试验中,若事件A的概率为p,那么首次出现A时所做过的试验次数X(包括A出现的那一次)服从几何分布。pqk-1就是等待A出现共等了k-1次的概率。如袋中装有白球3个,黑球2个,今有放回地多次抽球,每次抽一个球。有p=P(白)
23、=0.6,那么到第6次才首次抽到白球的概率是P(X=6)=0.6×0.45=0.006144(3) 超几何分布定义8设随机变量X的概率函数为(k=0,1,2,,l)(2-17)其中nN-M,l=min(M,n),则称X服从超几何分布。设N个产品中有M个正品,现在无放回地抽取n次,每次抽一个,那么所抽n个中的正品个数X服从超几何分布。因为它是无放回抽取,各次抽取试验非独立,所以不属于伯努利试验。而当N时,有,能证明这就是说,如果产品总数很多,无放回地抽取可以当作有放回抽取来看待,即可按二项分布计算,这时。§2-2连续型随机变量及其概率分布由于连续型随机变量能够取某区间中的所有
24、值,它不能像离散型变量那样将其可取值与对应概率一一列出,因而不能用概率函数来描述,另外,从实际出发,没有必要确认连续型变量X取某一值的概率,如追究人的体温恰好等于37001度的概率未必有现实意义,人们关心的是体温属于正常值范围的概率,故也没必要用概率函数来描述。在这一节中我们引入概率密度函数来描述连续型随机变量的概率分布,并介绍一些常见的连续型变量的概率分布。2-2.1连续型变量的概率分布定义1对于随机变量X,如果存在一个非负的可积函数f(x)(-<x<+),使对任意a,b(a<b),都有P(a<x<b)=(2-18)则称X为连续型随机变量,称f(x)为X的概率密
25、度函数,有时简称为概率密度或密度函数。概率密度函数具有以下性质:(1)f(x)0;(2)。对于连续型随机变量X来说,它取任意一指定的实数值x0的概率为零,即P(X=x0)=0。事实上由定义式有0P(X=x0)P(x0-x<Xx0)=令x0,则上式右端0,故P(X=x0)=0。据此,对于连续型随机变量X有P(x1<X<x2)=P(x1Xx2)=P(x1Xx2)=P(x1Xx2)(x1<x2)即在计算X落在某区间里的概率时,可以不考虑区间是开的、闭的或半开半闭的情况。这里要说明一点,P(X=x0)=0并不意味着X=x0为不可能事件,它是可能会发生的。也就是说零概率事件也是有
26、可能发生的。如X为被测试某地大学生的身高,若大学生的身高都在1.60m以上,则P(X=1.60)=0,但事件X=1.60是可能发生的。可见,不可能事件的概率为零,但概率为零的事件不一定是不可能事件。同理,必然事件的概率为1,但概率为1的事件不一定是必然事件。由定义和上述性质可以看出(2-19) 即f(x)表示了随机变量X在区间 (x,x+x)上的平均概率,它与物理学中线密度的定义类似,故称为密度函数。它是连续函数。若不计高阶无穷小,则当x很小时,由上式可得P(x<Xx+x)f(x)x从几何上看,介于概率密度函数曲线y=f(x)与x轴间平面图形的面积为1(图2-3),而X落在区间(x,x+
27、x)里的概率等于图2-4中阴影部分的面积。图2-3图2-4定义2设X为连续型随机变量,称(2-20)为随机变量X的分布函数。它具有以下性质:(1) 0F(x)1;(2) F(x)是不减的函数;(3)另由定义有P(x1<X<x2)=(x1<x2)(2-21)P(X>x)=1-P(Xx)=1-F(x)从几何上看F(x)等于曲线y=f(x)与x轴间平面图形在点x处左边部分的面积。分布函数F(x)与概率密度函数互为逆运算关系,即(x)连续型随机变量的概率分布就是指概率密度函数和分布函数。2-2.2正态分布及其他常见的连续型变量的分布一、 正态分布(1) 正态分布的定义定义3若随
28、机变量X的概率密度函数为(-<x<+)(2-22)其中和>0是常数,则称随机变量X服从参数为和的正态分布(或高斯分布),记为XN(,)。其分布函数为(2-23)(2) 正态分布的图形与性质。正态分布的概率密度函数f(x)和分布函数F(x)的图形见图2-5,2-6。图2-5图2-6从正态分布的概率密度曲线可以看出正态分布的以下性质:1) 概率密度函数f(x)>0,曲线y=f(x)以x=为对称轴,以x轴为水平渐近线,在x=±处有拐点,当x=时取得取大值的单峰钟形曲线。2),即曲线与x轴间平面图形的面积恒为1。当固定时,改变的值,y=f(x)的图形沿x轴平行移动而不
29、改变形状,故又称为位置参数。若固定,改变的值,则y=f(x)的图形的形状随的增大而变得平坦,随的减小而变得陡峭,故称为形状参数。(3) 标准正态分布定义4称参数=0,的正态分布为标准正态分布,记为XN(0,1)。其概率密度函数记为(2-24)其分布函数记为(2-25)标准正态分布具有正态分布的一切性质,只是因为=0,y=(x)的图形关于x=0对称,因而具有更特殊的性质:(-x)=(x)和(-x)=1-(x),如图2-7所示。标准正态分布非常重要,它是我们解决一般正态分布和许多其他统计分布的工具和桥梁。为了使用方便,前人已编制了标准正态分布概率密度函数(x)值表(附表3)和标准正态分布分布函数(
30、x)值表(附表4),以供查用。(4) 正态分布的有关计算1) 对标准正态分布,(x)和(x)的值可借助于图2-7附表3、附表4进行查表计算。如查表得(0)=0.3989,(-1.45)=(1.45)=0.1394(-2.42)=0.007760或(-2.42)=1-(2.42)=1-0.992240=0.0077602) 对于一般正态分布,可先将其标准化。设XN(,),则即得(2-26)(2-27)通过上两式可将一般正态分布转化成标准正态分布再利用(x)和(x)值表进行计算。例1设XN(0,1),求:(1) P(X<-4.64);(2) P(X>2.58);(3) P(X<1
31、.96)。解(1) P(X<-4.64)=(-4.64)=0.000001742(2) P(X>2.58)=1-P(X<2.58)=1-(2.58)=1-0.995060=0.00494(3)P(X<1.96)=P(-1.96<X<1.96)=(1.96)-(-1.96)=0.97500-0.02500=0.9500例2设XN(1.5,4),计算:(1) f(5.5);(2) P(-4<X<2)。解(1)(2) P(-4<X<2)=F(2)-F(-4)=例3设XN(,),求:(1) P(X-<1.96);(2) P(X-<
32、2.58)。解(1) P(X-<1.96)=P(-1.96<X-<1.96)=P(-1.96<X<+1.96)=F(+1.96)-F(-1.96)=(1.96)-(-1.96)=0.975-0.025=0.95(2) 同理可得P(X-<2.58)=0.99该例说明,若XN,则在试验中X的取值落在区间(-1.96,+1.96)的概率为95%,落在区间(-2.58,+2.58)的概率为99%。用上例中同样的方法还可求得P(X-<3)=0.9974说明在一次试验中,X落在区间(-3,+3)内的概率相当大,即X几乎必然落在上述区间内。或者说,在一般情形下,X在
33、一次试验中落在区间(-3,+3)以外的概率可以忽略不计,这就是通常所说的3原理。例4设XN(,2),求X以95%的概率所落入的区间(关于的对称区间)。解设X落入的区间是(-m,+m),由题意知反查值表得m=1.96故X以95%的概率落入的区间是用同样的方法可求出X以99%的概率落入的区间是医学上,常把正态变量的95%或99%的概率的落入区间即(±1.96)或(±2.58)称为正常值范围。对于标准正态分布而言,正常值范围为(-1.96,1.96)或(-2.58,2.58)。在自然现象和社会现象中,存在许多服从正态分布的随机变量。如测定正常人的各项生理指标,一台机器所生产药丸的
34、丸重,对一个物理量在相同的条件下进行多次重复测试的结果,一种农作物的产量等等都服从正态分布,它们都可以看做由许多微小的、独立的随机因素作用的结果,且每种因素都不起压倒其他因素的主导作用。凡具有这种特点的随机变量,都可认为近似地服从正态分布,故正态分布又称为随机误差模型。另外,许多其他分布在一定条件下也常用正态分布作为近似分布,因此正态分布在概率论与数理统计中特别重要。二、 其他连续型变量的分布(1) 均匀分布定义5若随机变量X的概率密度函数为(2-28)则称X在区间a,b上服从均匀分布。由定义式显然有f(x)0,f(x)的图形如图2-8所示。显然,X落在区间(a,b)以外的概率为零。考虑X落在
35、区间(c,c+l)(ac<c+lb)上的概率这表明X落在区间(a,b)中任意长度相同的子区间的概率是相同的,或者说X落在子区间的概率只与子区间的长度有关而与子区间的位置无关。在a,b上服从均匀分布的随机变量X的分布函数为(2-29)分布函数F(x)的图形如图2-9所示。图2-8图2-9(2) 对数正态分布定义6若随机变量X的概率密度函数为(2-30)其中>0,为常数,则称X服从对数正态分布。因变量X的对数lgXN(,2)而得名。显然有f(x)0,且在实际中,当验证某一随机变量服从正态分布失败时,接着考虑的常常是对数正态分布。(3) 韦布尔分布定义7若随机变量X的概率密度函数为(2-
36、31)则称X服从韦布尔分布。其中m>0称为形状参数,称为位置参数,>0称为尺度参数。显然有f(x)0,且=1韦布尔分布的概率密度函数和分布函数的图形分别如图2-10(a),2-10(b)所示。图2-10韦布尔分布最有用的特殊情况之一是指数分布,它的密度函数为(2-32)它是在式2-31中取参数的结果。指数分布在实际中亦有重要意义,许多元件或设备的寿命、一些动物的寿命等都服从指数分布。凭借形状参数m的调节,使得韦布尔分布可以概括许多不同类型的情况。近年来,它在药学领域中获得了广泛的应用。(4) 分布定义8若随机变量X的概率密度函数为(2-33)其中>-1,>0,则称X服从
37、分布。记为X()。这里是微积分中所熟知的函数。顺便指出,当=0时,我们再次由分布密度函数得出了指数分布的密度函数。分布在推导统计学中有重要地位的2分布,t分布,F分布中很有用,它是一种非常重要的非正态分布。§2-3随机变量的数字特征前面介绍的概率分布能完整地描述随机变量的统计规律,然而在一些实际问题中要确定一个随机变量的概率分布却并非容易,且有些实际问题并不需要知道它的完整的分布,而只需知道它的某些特征,对随机变量的全貌有个概括的了解就可以了。这些特征的数字表示就称为随机变量的数字特征。这节中我们将介绍其中最重要也是最常用的两种数字特征,均数和方差。2-3.1均数(数学期望)例1设有
38、一批药材是由1等、2等、3等这三个等级的药材组成,今任取一件药材观察它的等级X。显然X是随机变量,且它所有可能的取值为1,2,3。如果有放回地抽取10件,在取得的10件中有5件1等,3件2等,2件3等,那么所取的10件产品的平均等级是多少?解如果用(1+2+3)/3=2作为平均等级显然不合理,因为1,2,3三个等级在所取10件药材中的地位不平等,如1等品的件数比3等品的件数的两倍还多。那么自然会想到按算术平均的方法去计算:把上式换个写法这种把每个等级与相应的频率乘积的和,称为1,2,3等分别以为权的加权平均。我们知道,如果再抽取10件,1,2,3等品出现的件数就不一定是5,3,2了,也就是它的
39、频率不一定是了,因此平均等级就不一定是1.7(等)了。可见由于抽样不同,抽样的平均等级亦不同,它也是一个随机变量。但是,随着试验(抽取药材)的次数增大,出现1,2,3等品的频率就会逐渐稳定在各自的概率附近,设pi表示第i(i=1,2,3)等药材出现的概率,在求药材平均等级时,用概率代替频率,所得平均等级数1×p1+2×p2+3×p3就是一个确定的数,它表示该批药材的平均等级。我们称这种加权平均值为均数(数学期望)。下面分别对离散型随机变量和连续型随机变量的均数给出定义。定义1设离散型随机变量X的概率分布表如表(2-5)表2-5Xx1x2xiP(X=xi)p1p2p
40、i则规定X的均数(2-34)这里,当X的可取值为无穷可数多个时,等式右端是一个无穷级数。由于平均值应该与x1,x2,,xi的排列次序无关,因此要求这级数绝对收敛。所以,只有当级数收敛时才说X的均数存在。均数是反映随机变量取值的集中趋势的一个数字特征。例2甲乙二射手在同样条件下进行射击,它们命中的环数X、Y的概率分布表分别如表2-6,表2-7:表2-6X678910P(X=xi)0.100.200.300.300.10表2-7Y678910P(Y=yi)0.150.150.250.250.20试问谁的射击水平较高?解由定义得甲平均命中环数为EX=6×0.10+7×0.20+8
41、×0.30+9×0.30+10×0.10=8.10(环)乙的平均命中环数为EY=6×0.15+7×0.15+8×0.25+9×0.25+10×0.20=8.2(环)可见乙的平均射击水平较高。对于连续型随机变量,由于它没有像离散型变量那样的分布律,因此不能以级数去定义它的均数。但是可设想把连续型变量X的取值区间分成无穷多个小区间(xk,xk+xk),然后求出它在每个小区间上取值的概率。设f(x)为连续型随机变量X的分布密度,当xk很小时有Pxk<X<xk+xkf(xk)xk仿定义1得这样自然会想到利用此式
42、右端的极限(若存在),即去定义X的均数。定义2设连续型随机变量X的概率密度函数为f(x),则规定X的均数为(2-35)与离散型变量类似,这里只有在右端的广义积分收敛时,才说EX存在。例3求在区间a,b上服从均匀分布的随机变量X的均数。解依题意有由式(2-35)得X的均数为下面我们再求常见的二项分布、泊松分布和正态分布的均数。例4若XB(k;n,p),求EX。解例5若XP(k;),求EX。解例6若XN(,求EX。解令,有,则均数有如下一些基本性质:(1) E(c)=c(c为常数);(2) E(kX)=kEX(k为常数);(3) E(kX+b)=kEX+b(k,b为常数);(4) E(X±
43、;Y)=EX±EY(可推广到有限个变量的情形);(5) E(XY)=EX·EY(X与Y独立)。2-3.2方差和标准差均数反映了随机变量取值的平均情况,它是随机变量的一个重要数字特征。但只看均数是不够的,还应该知道随机变量的取值对均数的偏离程度。例如,设有甲、乙两台制丸机生产同一种药丸的直径(单位:mm)的概率分布表分别如下表2-8,表2-9:表2-8X56789P(X=xi)0.050.10.70.10.05表2-9Y45678910P(Y=yi)0.050.10.20.30.20.10.05如果药丸的标准直径为7,问哪台机器的性能更好?容易算出EX=EY=7,可见两台机器
44、都是按标准生产的。但是从分布表可见,甲机器生产的丸径比乙稳定,也就是甲机器生产的丸径与标准丸径的总离差要小。因此,甲机器的生产性能比乙更好。为了用一个数字来刻画随机变量X取值对其均数EX的偏离程度,容易想到取(X-EX)的均数E(X-EX),但这样常常会造成正、负抵消,从而掩盖实际偏差的大小,如果用E(X-EX)则可以反映全部偏差的大小,但绝对值运算起来不方便。因此常用E(X-EX)2来刻画随机变量X的取值对其均数EX的偏离程度,或刻画X取值对其均数的波动程度。定义3 设X是一个随机变量,则称E(X-EX)2为X的方差,记作DX。即DX=E(X-EX)2(2-36)而DX称为X的标准差。离散型
45、随机变量X的方差为(2-37)其中pi=P(X=xi)(i=1,2,)连续型随机变量X的方差为(2-38)其中f(x)是X的概率密度函数为了便于计算方差,可以由DX=E(X-EX)2推导出实用计算公式为DX=EX2-(EX)2(2-39)因为根据均数的性质有DX=E(X-EX)2=EX2-2XEX+(EX)2=EX2-2(EX)·(EX)+(EX)2=EX2-(EX)2例7设X的概率分布表如表2-10:表2-10X01Pi1-pp求DX。解EX=0·(1-p)+1·p=p,EX2=p若记1-p=q,则DX=E(X-EX)2=(0-p)2(1-p)+(1-p)2
46、183;p=p2(1-p)+(1-p)2p=p(1-p)=pq或DX=E(X2)-(EX)2=p-p2=p(1-p)=pq例8设X的概率密度为求DX。解由本节例3已知又于是下面再计算常用的二项分布、泊松分布和正态分布的方差及标准差。例9若XB(k;n,p),求DX和。解由本节例4知EX=np,又所以例10若XP(k;),求DX和。解由本节例5知EX=,又所以例11若XN(,2),求DX和。解由本节例6知EX=,又令u=,x=u+,dx=du,得从以上例题可以看出,上述三种重要分布完全可由它们的均数和方差所确定。方差有如下一些基本性质:(1) D(C)=0(C为常数);(2) D(kX)=k2D
47、X(k为常数);(3) D(X±Y)=DX+DY(X与Y相互独立)(可推广到任意有限个相互独立随机变量的情况)。2-3.3变异系数用方差或标准差来描述一个随机变量取值的离散程度固然满意,但在比较两个变量取值的离散程度时,如果两个变量的均数相差悬殊或者取值单位不同,这时用方差或标准差就不行了。为此,引入又一数字特征,称随机变量X的标准差与均值之比为X的变异系数,记为CVX。即(2-40)变异系数是标准差相对于均数的变化率,它同样是描述随机变量的离散程度,因其无量纲,更便于对不同随机变量之间波动程度的比较。例12据调查,某地18岁男子身高均数为165.08cm,标准差为4.98cm,体重
48、均数为51.60kg,标准差为5.01kg,试比较该地男子的身高和体重波动程度哪个大。解因为身高和体重单位不同,直接用标准差比较波动程度不合适,应该用变异系数来比较。×100%=3.02%×100%=9.71%可见,体重的相对波动程度大于身高的相对波动程度。§2-4三种重要分布的渐近关系离散型变量的二项分布、泊松分布和连续型变量的正态分布,是三种最基本也是最重要的概率分布,它们之间有着密切的渐近关系,也即:当n时,二项分布B(k;n,p)以泊松分布P(k;np)为极限分布。当n时,二项分布B(k;n,p)以正态分布N(np,npq)为极限分布。当n增大时,泊松分布
49、P(k;)以正态分布N(,)为极限分布。2-4.1二项分布的泊松近似定理1对于二项分布B(k;n,p),若,则(2-41)证明从略。由此可得,当n充分大时,二项分布的概率函数可用泊松近似表示。例1某车间送检一批针剂,其中次品的概率是0.01,问抽检500支针剂,有5支次品的概率是多少?解抽检500支针剂中,检出次品的支数为XB(k;500,0.01),有5支次品的概率为(2-42)由于用二项分布公式直接计算难度很大,又n=500,因此可以近似化为泊松分布来计算,即是(2-43)有5支次品的概率是0.1755。2-4.2二项分布的正态近似定理2如果X表示在n次独立试验中的成功次数,p为每单一试验
50、成功的概率,则当试验次数无限增大时,变量X的分布趋于具有均数为np,标准差为的正态分布。这个定理表明,当n为大数时,某事件成功的概率的近似值,可用正态分布求得。二项分布的正态近似的几何意义如图2-11。当n大时,二项分布概率函数的包络近似于正态概率密度曲线f(x)。从数值上看,二项分布概率函数值P(X=k)近似于正态分布概率密度f(k)值。即(2-44)接着讨论二项分布累积概率的正态近似。设二项分布B(k;n,p)的概率函数如图2-12所示,则其累积概率P(k1Xk2)等于从k1到k2共k2-k1+1条概率函数线之和,注意到小区间k-0.5,k+0.5的长度为1,因而概率函数P(X=k),在数
51、值上正好等于该小区间上,高为P(X=k)的矩形面积,又因为X每相邻两个取值点的间隔为1。因此,二项分布累积概率P(k1Xk2)在数值上应等于区间k1-0.5,k2+0.5上的k2-k1+1个矩形所组成的阶梯形的面积,而这面积可以近似等于该区间上那条近似正态曲线所围成的曲边梯形的面积。因此,可得二项分布累积概率的正态近似图2-11 图2-12(2-45)若化成标准正态近似,可得(2-46)其中np,。有了二项分布的两个近似计算,可以总结一下二项分布问题中的计算方法的选择:(1) 当n为一个小的数时,可直接应用二项分布公式计算;(2) 当n是一个大的数,而且p值很小或接近于1,np不很大,则应用泊
52、松分布近似计算;(3) 当n是一个大的数,p不是很小或不是接近于1时,可应用正态分布近似计算。例2对于某一癌症高发病地区进行普查结果,其患癌症的概率是0.005,现有这地区一万人的乡村,试推测:(1) 这个乡有70人患癌症的概率;(2) 有30至50人患癌症的概率;(3) 有不少于50人患癌症的概率。解全乡1万人中患癌症人数X服从二项分布。因为n=104,p=0.005,np=104×0.005=50,可用正态近似计算。(1)(2)(3)有70人患癌症的概率为0.001;有30至50人患癌症的概率为0.4977;全乡不少于50人患癌症的概率为0.5557。2-4.3泊松分布的正态近似
53、上面已讨论过,当n大时,二项分布B(k;n,p)近似于泊松分布P(k;np),同时它又近似于正态分布N(np,npq),由此可推出当n大时,泊松分布也会近似于正态分布,一般说,当变量X服从泊松分布时,p的值较小,因此q的值可以近似看为1,则从二项分布的参数推算可得,,所以,对于P(k;)向N(,2)逼近的参数替换为。 经标准化,可得到泊松分布的标准正态近似。(2-47)(2-48)其中例3某药厂大批量生产外用药,平均每个月的废品数为35件,试估计该厂:(1) 下个月内出现废品件数为65件的概率;(2) 下个月内出现废品少于40件的概率。解此厂出现废品属于伯努利试验之稀有事件,可认为其每月出现废
54、品的件数X服从参数=35的泊松分布,泊松分布可用正态近似:,。(1)(2)该厂下个月内出现废品为65件的概率为0;出现废品少于40件的概率为0.7517。§2-5大数定律及中心极限定理所谓极限定理,就是采用极限的方法得出随机变量分布的一系列定理,也就是说,极限定理是研究随机变量的极限分布的。一般可以分为两类,第一类极限定理,是阐述若干个随机变量的均数的极限定理,统称为大数定律。第二类极限定理是阐述在怎样的条件下,当n时,独立随机变量之和的极限分布为正态分布,有关第二类极限定理的命题统称为中心极限定理。下面我们简单地不加证明地给出有关的一些定理。2-5.1切比雪夫不等式我们知道,一个随
55、机变量离均差平方的数学期望就是它的方差,而方差又是用来描述随机变量取值的分散程度。切比雪夫不等式就是研究随机变量的离差与方差之间关系的工具。定理1(切比雪夫不等式)设随机变量X有均值EZ及方差DZ,则对任给的0,有(2-49)或(2-50)切比雪夫不等式只利用均值及方差就描述了随机变量的变化情况,如(2-50)断言不管X的分布是什么,X落在(EZ-,EZ+)中的概率不小于。 因此它在理论研究及实际应用中很有价值。例1某地区调查10000名某疾病的患者,该病需住院治疗的概率是07,估计10000名患者中同时需住院治疗的人数在6800与7200之间的概率。解令Z表示同时住院的患者数,它服从二项分布,P=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025数据中心空调安装工程分包合同
- 2025年小型挖机买卖合同范本
- 2025年土地整治项目合同
- 2025家具订购合同书模板
- 2025年光纤和特种光缆项目建议书
- 山体防汛施工方案
- 碎裂地板施工方案
- 标志板施工方案
- 商场橱窗施工方案
- 高温限电施工方案
- 广西某农贸市场建设项目可行性研究报告
- TSHNX 001-2024 乳制品企业有害生物防制技术规范
- 2024-2030年中国脑动脉瘤治疗行业市场发展趋势与前景展望战略分析报告
- 辽宁省协作校2024-2025学年高二英语下学期期末考试试题
- DL∕T 5362-2018 水工沥青混凝土试验规程
- 药品生产企业质量管理评审要求
- (权变)领导行为理论
- DZ∕T 0282-2015 水文地质调查规范(1:50000)(正式版)
- DZ∕T 0248-2014 岩石地球化学测量技术规程(正式版)
- JTG-T 3331-07-2024 公路膨胀土路基设计与施工技术规范
- 行政复议法-形考作业1-国开(ZJ)-参考资料
评论
0/150
提交评论