已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,第四章 理论分布与抽样分布,&4.1 事件与概率,&4.2 正态分布,&4.3 二项分布和普阿松分布,&4.4 抽样分布,在一定条件下,可能发生,也可能不发生的现象称为随机事件。,&4.1 事件与概率,一、事件及其相互关系,(一)事件的意义,1.必然事件,2.不可能事件,3.随机事件,(二)、事件的相互关系 1. 和事件 事件A和事件B至少有一个发生,这一事件称为和事件,记为“A+B”,读作“或A发生,或B发生”。,2.积事件 事件A和事件B同时发生,这一事件称为积事件,记为“AB”。,3.互斥事件(不相容事件) 事件A和事件B不能同时发生,这一事件称为互斥事件,记为“A.BV”,4.对立事件 若事件与是互不相容,且为必然事件,则称为的对立事件。,例如、“产品合格”A和“产品不合格”B,A+B=必然事件,AB=不可能事件。,5.完全事件系 若事件A1、A2、A3、An两两互斥,且每次试验结果必发生其一,则称这n个事件为完全事件系。,6. 事件的独立性 若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。 例如花色与产量无关的例。,二 、概率的统计定义及估计方法,表3.1 在相同条件下水稻种子发芽试验结果 试验粒数(n) 5 10 50 100 200 500 1000 发芽粒数(a) 5 8 44 91 179 452 901 发芽频率(a/n) 1.0 0.8 0.88 0.91 0.895 0.904 0.901,(一)概率的统计定义 假定在相似条件下重复进行同一类试验,调查事件A发生的次数a与试验总次数n的比数称为频率(a/n),则在试验总次数n逐渐增大时,事件A的频率愈来愈稳定的接近一个定值P,则定义为事件A发生的概率.记为,P(A)=p=a/n,概率的基本性质:,3、不可能事件的概率等于0,即: P(V)=0,1、任何事件的概率都在0与1之间,即: 0P(A) 1,2、必然事件的概率等于1,即: P(U)=1,(二)概率的运算方法 1.加法定理 两个互斥事件A和B的和事件的概率等于事件A和事件B各自的概率之和,既:P(A+B)=P(A)+P(B),例如 有一批种子,其中二级占5%,一级占10%,其余为三级,问三级种子占多少?,2.乘法定理 两个独立事件A和B的积事件的概率等于事件A和事件B各自概率的乘积,即: P(AB)=P(A) P(B),若一批玉米种子发芽率为0.9,发芽后能出土的概率为0.8,求这批种子的出苗率? P(AB)=P(A) P(B)=0.90.8=0.72,3.对立事件的概率 若事件A的概率为P(A),那么对立事件的概率 为: P( )=1-P(A),若一批种子发芽率为0.9,则不发芽率的概率为1-0.9=0.1,4.完全事件系的概率 若有几个事件A1,A2,An是试验的完全事件系,则这些事件的概率之和为1。 即:P(A1+A2+ + An) =P(A1)+P(A2) + +(An) =1,一批棉花纤维长度30cm事件A3,概率为0.2;这三种情况构成一个完全事件系,其概率之和为:,P(A1+A2+A3)=P(A1)+P(A2)+P(A3)=0.2+0.6+0.2=1,三. 小概率事件实际不可能性,随机事件概率的大小客观地反映事件在一次试验中发生的可能性的大小。概率大表示该事件发生的可能性大;概率小,说明该事件发生的可能性小; 农业研究中多采用5%、1%这两个标准作为小概率事件。,&4.2 正态分布,一、正态分布的概念 正态分布或称高斯(Gauss)分布,是连续性随机变量的一种最重要的理论分布。,正态分布概率密度函数:,x : 所研究的变数; :x的函数值,称为概率密度函数; :总体平均数; :总体标准差,其中 , 是两个常数,正态分布记为N( , ) ,表示具有平均数为 ,方差为 的正态分布。,2、正态分布的算术平均数、中数及众数三者 合一,都位于点。,3、正态分布的多数观察值集中于算术平均数 的附近,离平均数愈远,相应的次数愈少, 在-3 以外,次数极少。,二、正态分布曲线的特征:,1、正态分布曲线围绕算术平均数向左右两侧 作对称分布,所以它是一条对称曲线。,4、正态分布曲线的形状完全取决于 和 两个参数。 确定正态分布在X轴上的 中心位置, 确定正态分布的变异度。 5、正态分布概率密度函数曲线与X轴所围 成的全部面积必等于1; 6、正态分布曲线在 和 处各有一 拐点。曲线两尾向左右伸展,永不接触 横 轴,x 的取值范围-,+ 。,三、正态分布的概率计算,根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其x轴在该区间围成的面积。 因此概率的计算即正态分布概率密度函数的定积分计算。 是一个曲线系统。为了一般化的应用,需将正态分布标准化。,正态分布的标准化,将随机变量x 标准化,令,u称标准正态离差,表示离开平均数有几个标准差单位。,标准化正态分布函数:,(u) 称为标准化正态分布密度函数,即 =0, =1时的正态分布记作N(0,1),从N(, 2 )到 N(0,1),从几何意义上说,仅仅是将变量x作了横坐标轴的平移和尺度单位的变化。,对标准正态分布方程计算从-到ui的累积概率计算公式如下: ,前人已计算出从-3到3之间各个u值的FN(ui) 值,列入P357附表2。,【例如】有一随机变数X服从正态分布,平均数 =30,标准差 =5,试计算X小于26,大于40,介于26-40区间的概率。,x小于26:,=(26-30)/5= -0.8,查附表1,大于40:,=(40-30)/5=2,查表1, F(u=2)=0.9773 则,x介于26与40之间:,=0.7654,【例如】已知某正态分布 =30, =5 ,试计算x偏离平均数达9.8和14.9 以上的概率?,计算,标准化,查附表2,得知它们对应的概率分别为0.05和0.01,即 P(x-9.80)=P(x-1.96)=0.05 =P(x-)1.96+P(x-)-1.96 P(x-14.90)=P(x-2.58)=0.01 =P(x-)2.58+P(x-)-2.58 以上两式等号右侧的前一项为右尾概率,后一项为左尾概率,其和概率为两尾概率。附表2列出的就是两尾概率。,&4.3 二项分布和泊松分布,一、二项总体与二项分布 在独立重复试验中,总体的某个性状每一次试验只有非此即彼两个可能结果,这种非此即彼事件所构成的总体叫二项总体,也叫0,1总体。,当每次独立的从二项总体抽取n个个体,这n个个体:“此”事件出现的次数X可能有0、1、2、.n,共有n+1种,这n+1种可能性有它各自的概率,组成一个分布,此分布叫二项概率分布或简称二项分布。二项分布是一种离散型分布。,例如,观察玉米播种后的出苗数,出苗记为“此”事件,概率为p;不出苗记为彼事件,概率为q。 若每窝播种5粒种子,则对每窝出苗情况的观察结果会有如下几种可能:,X : 0 1 2 3 4 5 P: P(0) P(1) P(2) P(3) P(4) P(5),由这6种情况的相应概率组成的分布,就是n=5时出苗数的二项分布。,二、二项分布的概率计算,1、二项分布的概率密度函数,现以玉米种子播种后的出苗和不出苗为例,说明二项分布的概率密度函数。出苗看作“此”事件,p=0.7, 不出苗看作“彼”事件,q=0.3, 每窝中种子的出苗与不出苗为对立事件。,若每窝种1粒种子,相当于n=1, 则出苗数有2种情况即: x=0;x=1 相应的概率f(x=0)=q=0.3; 相应的概率为 f(x=1)=p=0.7.,若每窝种2粒种子,相当于n=2, 则出苗数有3种情况:x=0, 1, 2, 相应的概率为: f(x=0)=qq=0.30.3=0.09 f(x=1)=pq+qp=2pq=20.30.7=0.42 f(x=2)=pp=0.70.7=0.49,若每窝种3粒种子,n=3, 则出苗数有0,1,2,3四种情况, 其相应的概率为: f(x=0)=qqq=0.027 f(x=1)=pqq+qpq+qqp=30.70.30.3=0.189 f(x=2)=ppq+pqp+qpp=30.70.70.3=0.441 f(x=3)=ppp=0.70.70.7=0.343,由上面的分析可看出: (p+q)n=(p+q)1=0.3+0.7=1 (p+q)n=(p+q)2=p2+2pq+q2 =0.49+0.42+0.09=1 (p+q)n=(p+q)3=p3+3p2q +3pq2+q3 =0.343+0.441+0.189+0.027=1,二项式展开后的各项系数,正是从n个事物种抽得x个的组合数即 由此得出二项分布中任何一项的概率通式: 即为二项分布的概率函数,二项分布的概率累积函数:,由于变量x=0,1,2, ,n,为完全事件系,所以这个分布的概率之和必等于1。,【例如】有一批玉米种子,其发芽率为70%,如每窝播种4粒,问出苗数为2和3时的概率分别为多少?,例:某小麦品种在田间出现自然变异的概率为0.0045, (1)调查100株,获得两株或两株以上变异植株的概率是多少? (2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?,n=100, p=0.0045,P(x2)=1- P(0)- P(1)=0.0751,P(0)=0.01,n=1021(株),三、二项分布的形状和参数,二项分布的形状决定于n和p的大小。如p=q,二项分布呈对称分布;如pq 为偏斜分布。,1、二项分布的形状B(n,p),(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,(2)当p值趋于0.5时,分布趋于对称。,2、二项总体的参数,对于一个给定的二项分布,n和p是常数。二项总体的平均数、方差和标准差的计算公式如下:,在n较大,np、nq较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,三、泊松分布,二项总体中稀有事件的概率分布不呈二项分布,而是遵从另一种理论分布泊松分布(poisson distribution),1、统计定义 若变量x服从二项分布,当P很小,n且np=m为一常数时,该二项分布的极限为普阿松分布。,2、概率函数,其中m=np, e=2.71828 普阿松分布的平均数和方差都等于常数m,即:,3.泊松分布的概率计算 【例3.9】田间分区调查“岱字棉”的纯度,每区一亩,调查了310个区,共发现杂株341株,试求变量x的概率分布。 首先求平均数=341/310=1.1株,即每区(亩)出现杂株为1.1株,这在种植密度上千株的一亩棉田里,是一个很小的数,因此可以认为不纯株出现的概率分布服从普阿松分布。,P(x=0)=e-1.1=0.3329 P(x=1)=1.1e-1.1=0.3662 P(x=2)=1.12/2e-1.1=0.2014 P(x=3)=1.13/6e-1.1=0.0738 P(x=4)=1.14/24e-1.1=0.0203 P(x=5)=1.15/120e-1.1=0.0045 P(x=6)=1.16/720e-1.1=0.0008 P(x7)=1-60f(x)=1-0.9999=0.0001 ,泊松分布是一个偏斜分布,但随着m的增大,分布渐趋对称,接近正态分布。通常当m大于50时,可用正态分布来处理普阿松分布的问题。,第四节 抽样分布,统计学:1、总体 样本 抽样分布 2、样本 总体 统计推断,一、抽样分布试验,复置抽样 不复置抽样,总 体,.,样本1,样本2,样本n,例如,设有一个N=4的有限总体,其变量值为2、3、3、4。,总体的平均数、方差和标准差,当以样本容量n=2进行独立抽样,抽取的所有可能样本数 ,其平均数、方差和标准差如下表。,样本观察值x,2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4,2,3,4,3,2,3,3,4,2,3,3,4,x,4 5 5 6 5 6 6 7 5 6 6 7 6 7 7 8,2,3,3,4,2.0 2.5 2.5 3.0 2.5 3.0 3.0 3.5 2.5 3.0 3.0 3.5 3.0 3.5 3.5 4.0,0.0 0.5 0.5 2.0 0.5 0.0 0.0 0.5 0.5 0.0 0.0 0.5 2.0 0.5 0.5 0.0,0.00 0.25 0.25 1.00 0.25 0.00 0.00 0.25 0.25 0.00 0.00 0.25 1.00 0.25 0.25 0.00,s,0.000 0.707 0.707 1.414 0.707 0.000 0.000 0.707 0.707 0.000 0.000 0.707 1.414 0.707 0.707 0.000,96 48 8.0 4.0 8.484,以自由度(n-1)作分母计算的样本方差 之均数:,以样本容量n作分母计算的样本方差 之均数:,样本标准差S之均数:,各样本均数总和之均数:,如果所有可能样本的某一统计数的平均数等于该总体的相应参数,则称该统计数为总体参数的无偏估计值(unbiased estimate)。,是 的无偏估计值;,是 的无偏估计值;,以n为分母得到的样本方差 不是 的 无偏估计值;,S不是 的无偏估计值;,因此,为了得到 的无偏估计值,估算样本方差时,必须以自由度df=n-1而不用n做分母。,抽样结论,二、样本平均数的分布,按上述抽样方法,再以n=4,从上述有限总体2,3,3,4中抽出全部所有样本,同样可以计算出所有样本的平均数、方差和标准差。,各种不同样本容量的样本平均数 的抽样分布,n=1,2 3 4,f,1 2 1,n=2,f,2.0 2.5 3.0 3.5 4.0,1 4 6 4 1,n=4,f,2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00,1 8 28 56 70 56 28 8 1,各种不同样本容量 的分布图,f,2 3 4,2 1 0,f,f,2 3 4,6 5 4 3 2 1 0,2 3 4,70 60 50 40 30 20 10 0,n=1;2=1/2,n=2; 2=1/4,n=4; 2=1/8,从上述的表和图来看,从总体抽出的全部所有样本的平均数,当n增大时,其方柱形图逐渐趋向于正态分布曲线形状,说明样本平均数是做正态分布的。,样本平均数分布的平均数 、标准差 与其原总体平均数 、标准差 的关系为:,根据次数表,n=2抽样的样本平均数为:,样本平均数的方差为:,当n=4时,同理可得:,称为样本平均数的标准差,简称标准误(standard error),度量平均数抽样误差的大小。,从正态总体抽出的样本, 无论样本容量的大小,其样本平均数 的抽样分布必做成正态分布,具有平均数 和方差 ,而且方差随样本容量的增大而降低。平均数的分布一般记为: 。,如果总体不是正态分布,但如具有一定量的 2和平均数,那么,当样本容量足够大时 ,从这一总体抽出的样本平均数的抽样分布也必趋于近正态分布,具有平均数 和方差 ,这称为中心极限定理。,随着样本容量的增加,分布的集中程度增加了,说明方差减少了。,-3 -2 -1 +1 +2 +3,n=9,n=4,n=1,f,(二)样本平均数差数的抽样分布,设有两个总体:,抽k个样本容量为n1,抽m个样本容量为n2,抽样试验表明:,表3.6 抽样平均数次数分布表 f1 f2 2.0 1 1.0 1 2.5 4 1.5 2 3.0 6 2.0 3 3.5 4 2.5 2 4.0 1 3.0 1 16 9,表3.7 样本平均数差数(d)的分布及其平均数与方差计算 f f -1.0 1 -1.0 4.00 4.0 -0.5 6 -3.0 2.25 13.5 0.0 17 0.0 1.00 17.0 0.5 30 15 0.25 7.5 1.0 36 36 0.00 0.0 1.5 30 45 0.25 7.5 2.0 17 34 1.00 17.0 2.5 6 15 2.25 13.5 3.0 1 3.0 4.00 4.0 144 144 15.00 84.0,样本平均数差数的平均数必等于两个总体平均数的差数:,若 x1 和x2所在总体呈正态分布,其平均数分别为 1 和2 ,方差分别为12 和2 2,不论样本容量大小,则两样本平均数的差数呈正态分布,具有平均数d 和方差d2 。,样本平均数差数的方差必等于两个总体平均数方差的总和:,三 二项总体的抽样分布,(一) 二项总体的分布参数 为了说明二项(0,1)总体的抽样分布特征,以总体内包含5个个体为例,每一个体,y=0或y=1。若总体的变量为:0,1,0,1,1,则总体平均数和方差为: =(0+1+0+1+1)/5=3/5=0.6 2=(0-0.6)2+(1-0.6)2+(0-0.6)2+(1-0.6)2+(1-0.6)2/5=0.24 =0.241/2 =0.49 二项总体的平均数为 = p 方差为 2= p(1-p)= pq 标准差为 其中p为二项总体中要研究的属性事件发生的概率,q=1-p。,(二) 样本平均数(成数)的抽样分布,从二项总体进行抽样得到样本,样本平均数(成数)的分布为二项式分布。样本平均数抽样分布的参数为: 平均数 x= p 方 差 2x= p(1-p)/n= pq/n 标准误 x=(pq/n)1/2 样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业房买卖合同
- 施工期间合同
- 完成工作任务合同
- 出宣传册合同
- 必修1《中国特色社会主义》主观题必背模板 2026年高考政治一轮复习 必修一 中国特色社会主义
- 监控设备采购安装合同
- 未成立的合同
- 第四课人民民主专政的社会主义国家(习题) 2026年高考政治一轮复习 必修三 政治与法治 含解析 含解析
- 理发购卡合同
- 技术承包合同
- 荣县2025年度公开招聘社区专职工作人员(8人)笔试备考试题及答案解析
- 黑龙江省 2025 年专升本英语全真模拟卷
- 浙江南海实验高中2025年秋9月月考高一数学试题+答案(9月29日)
- 责任制整体护理持续改进
- 公路养护培训课件下载
- 伸展增强运动后恢复-洞察及研究
- 2025江苏苏州常熟市基层公共服务岗位招聘高校毕业生笔试备考题库及答案解析
- 供应链现场质量审核通知函范本
- 2025年住建局公务员面试模拟题案例分析题及答案解析
- 美牙全瓷贴面知识培训课件
- 2025至2030中国工程塑料行业发展分析及产业运行态势及投资规划深度研究报告
评论
0/150
提交评论