版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物统计学复习生物统计学复习1生的物基统本计内学容试验设计统计分析基本原则方案制定常用试验设计方法资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析对比设计随机区组设计裂区设计拉丁方设计正交设计生的试验设计统计分析基本原则资料的搜集和整理对2第一章概论总体:具有相同性质或属性的个体所组成的集合个体:组成总体的基本单元样本:从总体中抽取的部分观察单位变量:指相同性质的事物间表现差异性或差异特征的数据,表示在一个界限内变动着的性状数值常数:表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。第一章概论总体:具有相同性质或属性的个体所组成的集合变量3参数:描述总体特征的数量统计数:描述样本特征的数量效应:通过施加试验处理,引起试验差异的作用互作:又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。实验误差:实验过程中由于无法控制的因素引起的实际观察值与客观真实值之间的差异参数:描述总体特征的数量效应:通过施加试验处理,引起试验差异4系统误差:也称片面误差,在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等固定因素造成的有一定倾向性或规律性的误差。可以通过严格的实验设计和技术措施消除。随机误差:试验中受多种无法控制的偶然因素的影响。也称偶然误差。可通过增加抽样或实验次数降低随机误差,但不可避免,但有一定的分布规律,可估计。系统误差:也称片面误差,在实际观测过程中,由受试对象、研究者5准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。精确性:也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测6第二章试验资料整理与特征数的计算
一、资料的整理(定性描述)1.数量性状资料Quantitativedata2.质量性状资料Qualitativedata第二章试验资料整理与特征数的计算
一、资料的整理(定性描述7连续性变异资料:资料间的变异是连续性的不连续性变异资料:观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料。质量性状/属性资料:只能观察而不能直接测量的性状,如花的颜色、动物的性别、人的血型、药物的疗效、植物的抗性等。连续性变异资料:资料间的变异是连续性的8二、资料的整理——定性描述编制次数/频数分布表全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)每组最大值与最小值之差称为组距,记为i组距(i)=全距/组数
组限:每个组变量的起止界限,即各组的最大值与最小值。其中,最小值称为下限,最大值称为上限。二、资料的整理——定性描述编制次数/频数分布表全距是资料中最9组中值:每一组的中点值,是该组的代表值。组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2表号标题组中值:每一组的中点值,是该组的代表值。10绘制统计分布图条形图(barchart)直方图(histogram)折线图(broken-linechart),又称多边形图饼图(piechart)散点图(scatterchart)绘制统计分布图条形图(barchart)11统计图绘制的基本要求
1、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4、图中需用不同颜色或线条代表不同事物时,应有图例说明。统计图绘制的基本要求12变量的分布具有基本特征:①集中趋势(centraltendency):变量值集中位置。②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。特征数可以反映变量分布的性质。二、资料的特征数的计算(定量描述)
变量的分布具有基本特征:二、资料的特征数的计算(定量描述)13(一)集中趋势:平均水平指标(特征数:平均数——算术平均数)(二)离散趋势:变异水平指标(特征数:变异数——标准差)(一)集中趋势:平均水平指标14平均数(average):是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置,即反映资料的集中趋势。平均数的种类主要有:
1.算术平均数(arithmeticmean)2.中位数(median)
3.众数(mode)4.几何平均数(geometricmean)
平均数(average):是统计学中最常用的统计量,用来表明151.算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数样本平均数记为1.算术平均数算术平均数是指资料中各观测值的总和除以观测值16平均数的基本性质A.样本各观测值与平均数之差的和为零,即离均差之和等于零。
或简写成平均数的基本性质17B.离均差的平方和最小,即0B.离均差的平方和最小,即0182.中位数(median)
中位数是将一批数据从小至大排列后,位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。
1、当观测值个数n为奇数时,Md=
2、当观测值个数为偶数时,2.中位数(median)中位数是将一批数据从19
反映数据的离散度(Dispersion),即个体观察值的变异程度。常用的指标有:
1.极差(Range)
(全距)
2.方差Variance
3.标准差StandardDeviation
4.变异系数CoefficientofVariation反映数据的离散度(Di20全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。各个观测值与平均数的离均差(x-μ)Σ(x-μ)=0离均差平方和即,简称平方和,记为SS(sumofsquare,SS);离均差平方和的平均数,即方差,也称均方(meansquare,MS)
全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。21统计学上把样本方差S2的算术平方根叫做样本标准差,记为S,即:若比较两个样本的变异度,则因单位不同或平均数不同,不能用标准差直接比较。这时要构造一个不代单位,不受平均数大小影响的变异数,这就是变异系数(coefficientofvariation),用CV表示。统计学上把样本方差S2的算术平方根叫做样本标准差,记为S22第三章概率与概率分布
1、和事件事件A和事件B至少有一个发生构成的新事件称为事件A和事件B的和事件,记为A+B,读作“或A发生,或B发生”。P(A+B)=P(A)+P(B)2、积事件事件A和B同时发生而构成的新事件,称为事件A和B的积事件,记为AB,读作“A和B同时发生或相续发生”。3、互斥事件如果事件A和B不能同时发生,即A和B是不可能事件,则称事件A和B互斥P(A+B+…+N)=P(A)+P(B)+…P(N)一、事件间的关系第三章概率与概率分布
1、和事件一、事件间的关系234、对立事件事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为5、完全事件系若事件A1、A2、···An两两互斥,且每次试验结果必发生其一,则称A1、A2、···An为完全事件系。4、对立事件24一、二项分布二、泊松分布三、正态分布四、t分布五、卡方分布六、F分布离散型变量的概率分布连续性变量的概率分布总体分布抽样分布一、二项分布离散型变量的概率分布连续性变量总体分布抽样分布25总体的概率分布一.离散型随机变量的概率分布(一)二项分布P=0.35,n=5的概率分布图总体的概率分布一.离散型随机变量的概率分布P=0.35,n=261.二项分布的性质和特点二项分布由n和p两个参数决定:当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称当p值趋于0.5时,分布趋于对称即趋于正态分布在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。1.二项分布的性质和特点二项分布由n和p两个参数决定:27统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标准差σ与参数n、p关系如下:当试验结果以事件A发生次数k表示时μ=np;σ=当试验结果以事件A发生的频率k/n表示时也称为总体百分数标准误(百分数分布的平均数与标准差)2.二项分布的平均数与标准差实验次数或样本容量n足够大,p非常小的时候,二项分布近似possion分布统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标28例某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?7头愈好,3头死去的概率为:10头中不超过2头死去的概率为多少?则应该应用累积概率,即:例某种昆虫在某地区的死亡率为40%,即p=0.4,现对这29(二)泊松分布其中λ=np;e=2.7182…是自然对数的底数(二)泊松分布其中λ=np;e=2.7182…是自然对数的30泊松分布重要的特征:平均数和方差相等,都等于常数λ,即μ=σ2=λλ是泊松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为泊松分布呈正态分布。泊松分布的特征泊松分布重要的特征:平均数和方差相等,都等于常数λ,即μ=σ31二.连续型随机变量的概率分布在数学意义上它是一个二项分布的极限曲线。随机变量x服从正态分布,记为x~N(μ,σ2)正态分布二.连续型随机变量的概率分布在数学意义上它是一个二项分布的极321.正态分布曲线的特性1、以x=μ为对称轴的悬钟形对称曲线,向左右两侧作对称分布,其算术平均数、中数、众数相等,均在μ点上。2、正态分布曲线由参数μ和σ决定,所以它是曲线簇而不是单一的曲线。3、X轴表示变量可能的取值,从X轴任意两点做X轴的垂线,跟密度曲线交叉后所构成的图形面积表示,变量分布在这两点之间的概率;4、对于任何正态分布,变量在偏离平均数相同个标准差上分布概率是恒定的;正态曲线与横轴之间的面积等于1。1.正态分布曲线的特性1、以x=μ为对称轴的悬钟形对称曲线,334、正态分布资料的分布表现为多数次数位于算术平均数μ附近,在|x-μ|≥3σ以上其次数极少,在实际应用中,x通常在±3σ范围之内取值,这就是6σ法则。5、正态曲线在|x-μ|=1σ处有拐点,并以横轴为渐进线,因此曲线全距从-∞到+∞。0.00.10.20.30.40.5012345-1-2-3-4f(y)y68.27%95.45%99.73%4、正态分布资料的分布表现为多数次数位于算术平均数μ附近,在34μ1μ2μ30.00.10.20.30.40.5012345-1-2-3-4f(y)y0.00.10.20.30.40.5012345-1-2-3-4f(y)yσ=1σ=1.5σ=2正态分布是由参数μ和σ2(或σ)决定的的一簇分布,其中平均数μ为位置参数,决定对称轴的位置,标准差σ为变异度参数,决定钟形曲线的开口度。μ1μ2μ30.00.10.20.30.40.50123435由于正态曲线受μ和σ的制约,曲线随这两个参数的变化而改变。构造一个新变数,这个变数要消去μ和σ的影响。假定新变数用u来表示,则:2.正态分布的标准化u称为正态离差,标准化正态分布是参数μ=0,σ2=1时的正态分布,记作N(0,1)由于正态曲线受μ和σ的制约,曲线随这两个参数的变化而改变。236
在计算一般正态分布概率时,只需将服从正态分布的随机变量x取值区间的上下限按转化成u取值区间上下限,查表即可在计算一般正态分布概率时,只需将服从正态分布的371.对于二项分布,在n→∞,p→0(一般当p<0.1),且np=λ(较小常数)情况下,二项分布趋于泊松分布,此泊松分布中的λ用二项分布的np代之;2.在n→∞,p→0.5时(一般当p>0.1),二项分布趋于正态分布。此时正态分布中的μ,σ2用二项分布的np、npq代之。3.对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。
正态,二项和泊松分布的关系1.对于二项分布,在n→∞,p→0(一般当p<0.1),且38抽样分布总体的参数是无法得到的,需要用样本的统计数进行估计。首先必须知道统计数与参数的关系,即要弄清楚总体和样本的关系。抽样分布目的:搞清楚从总体中抽出所有可能的样本统计量的分布与原总体之间的关系。抽样分布总体的参数是无法得到的,需要用样本的统计数进行估计。39抽样分布的定义:样本统计量的抽样总体的概率分布;
抽样分布的类型:样本均数的抽样分布理论样本方差的抽样分布理论在统计上,如果所有可能样本的某一统计数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值(unbiasedestimate)。抽样分布的定义:样本统计量的抽样总体的概率分布;抽样分布的40总体(population)N;μ;σ2抽取容量为n的样本X11,X12,…,X1j,…,X1nX21,X22,…,X2j,…,X2n...Xi1,Xi2,…,Xij,…,Xin...XNn1
,XNn2,…,XNnj,…,XNnn样本平均数随机变量概率分布(一)样本平均数的抽样分布总体(population)抽取容量为n的样本X11,41
标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。
标准误(平均数抽样总体的标准差)42样本标准误是平均数抽样误差的估计值大小说明了样本间变异程度及样本统计量推断总体参数时的精确性的高低。样本标准误是平均数抽样误差的估计值大小说明了样本间43(二)样本平均数差数的抽样分布(二)样本平均数差数的抽样分布44大数定律:用来阐述大量随机现象平均结果稳定性的一系列定律。中心极限定律:研究随机变量的极限分布是正态分布的一类定理。(三)样本平均数的抽样分布的理论基础大数定律:用来阐述大量随机现象平均结果稳定性的一系列定律。(45σ2未知,n<30,用s2估计计算样本平均数分布和样本平均数差数分布概率时,需要总体方差σ2为已知;或者σ2未知但样本容量较大(n>30),此时用样本方差s2估计σ2在计算时,由于采用S来代替σ,使得t变量不再服从标准正态分布,而是服从t分布(t-distribution)。(四)样本均数的抽样分布理论(1)t分布σ2未知,n<30,用s2估计计算样本平均数分布和样46df=n-1为自由度t分布密度曲线df=n-1为自由度t分布密度曲线47t分布特征t分布只受一个参数——自由度的制约,每一个自由度下都有一条t分布概率密度曲线。t分布密度曲线以纵轴(t=0)为对称轴,左右对称,在t=0时密度函数取得最大值。与标准正态分布曲线相比,t分布曲线顶部略低两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。*n>30时,t分布与标准正态分布的区别很小;*n→∞时,t分布与标准正态分布完全一致。t分布特征t分布只受一个参数——自由度的制约,每一个自由度48随机变量XN(m,s2)①σ2已知
②σ2未知,S2估计σ2随机变量X①σ2已知②σ2未知,S2估计σ249t分布曲线下面积(附表3)df=9的t分布t分布曲线下面积(附表3)df=9的t分布50随机变量概率分布总体(population)N;μ;σ2抽取容量为n的样本X11,X12,…,X1j,…,X1nX21,X22,…,X2j,…,X2n...Xi1,Xi2,…,Xij,…,Xin...XNn1
,XNn2,…,XNnj,…,XNnnS12...Si2..Si2(2)2分布随机变量概率分布总体(population)抽取容量为n的样51生物统计学复习课件522≥0,即2的取值范围是[0,+∞;2分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;df≥30时,2分布接近的正态分布。下图给出了几个不同自由度的2概率分布密度曲线。p263附表4给出了不同自由度下,不同的概率对应的2临界值。(右尾函数)2分布的特点2≥0,即2的取值范围是[0,+∞;2分布53生物统计学复习课件54生物统计学复习课件55注:一般大方差作分子,小方差作分母(3)F分布
从一正态总体中随机抽取样本容量为n1,n2的两个独立样本,其样本方差为S12;S22,它们的比值为F:如果对一正态总体在特定的df1和df2下进行一系列随机独立抽样,则所有的F构成一个分布——F分布注:一般大方差作分子,小方差作分母(3)F分布56F分布的特征F分布的概率密度曲线是受自由度df1和df2约束的一组曲线;F临界值表。(右尾函数)当两样本均为大样本时,F分布趋于正态分布;F分布的特征F分布的概率密度曲线是受自由度df1和df2约束57生物统计学复习生物统计学复习58生的物基统本计内学容试验设计统计分析基本原则方案制定常用试验设计方法资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析对比设计随机区组设计裂区设计拉丁方设计正交设计生的试验设计统计分析基本原则资料的搜集和整理对59第一章概论总体:具有相同性质或属性的个体所组成的集合个体:组成总体的基本单元样本:从总体中抽取的部分观察单位变量:指相同性质的事物间表现差异性或差异特征的数据,表示在一个界限内变动着的性状数值常数:表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。第一章概论总体:具有相同性质或属性的个体所组成的集合变量60参数:描述总体特征的数量统计数:描述样本特征的数量效应:通过施加试验处理,引起试验差异的作用互作:又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。实验误差:实验过程中由于无法控制的因素引起的实际观察值与客观真实值之间的差异参数:描述总体特征的数量效应:通过施加试验处理,引起试验差异61系统误差:也称片面误差,在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等固定因素造成的有一定倾向性或规律性的误差。可以通过严格的实验设计和技术措施消除。随机误差:试验中受多种无法控制的偶然因素的影响。也称偶然误差。可通过增加抽样或实验次数降低随机误差,但不可避免,但有一定的分布规律,可估计。系统误差:也称片面误差,在实际观测过程中,由受试对象、研究者62准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。精确性:也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测63第二章试验资料整理与特征数的计算
一、资料的整理(定性描述)1.数量性状资料Quantitativedata2.质量性状资料Qualitativedata第二章试验资料整理与特征数的计算
一、资料的整理(定性描述64连续性变异资料:资料间的变异是连续性的不连续性变异资料:观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料。质量性状/属性资料:只能观察而不能直接测量的性状,如花的颜色、动物的性别、人的血型、药物的疗效、植物的抗性等。连续性变异资料:资料间的变异是连续性的65二、资料的整理——定性描述编制次数/频数分布表全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)每组最大值与最小值之差称为组距,记为i组距(i)=全距/组数
组限:每个组变量的起止界限,即各组的最大值与最小值。其中,最小值称为下限,最大值称为上限。二、资料的整理——定性描述编制次数/频数分布表全距是资料中最66组中值:每一组的中点值,是该组的代表值。组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2表号标题组中值:每一组的中点值,是该组的代表值。67绘制统计分布图条形图(barchart)直方图(histogram)折线图(broken-linechart),又称多边形图饼图(piechart)散点图(scatterchart)绘制统计分布图条形图(barchart)68统计图绘制的基本要求
1、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4、图中需用不同颜色或线条代表不同事物时,应有图例说明。统计图绘制的基本要求69变量的分布具有基本特征:①集中趋势(centraltendency):变量值集中位置。②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。特征数可以反映变量分布的性质。二、资料的特征数的计算(定量描述)
变量的分布具有基本特征:二、资料的特征数的计算(定量描述)70(一)集中趋势:平均水平指标(特征数:平均数——算术平均数)(二)离散趋势:变异水平指标(特征数:变异数——标准差)(一)集中趋势:平均水平指标71平均数(average):是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置,即反映资料的集中趋势。平均数的种类主要有:
1.算术平均数(arithmeticmean)2.中位数(median)
3.众数(mode)4.几何平均数(geometricmean)
平均数(average):是统计学中最常用的统计量,用来表明721.算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数样本平均数记为1.算术平均数算术平均数是指资料中各观测值的总和除以观测值73平均数的基本性质A.样本各观测值与平均数之差的和为零,即离均差之和等于零。
或简写成平均数的基本性质74B.离均差的平方和最小,即0B.离均差的平方和最小,即0752.中位数(median)
中位数是将一批数据从小至大排列后,位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。
1、当观测值个数n为奇数时,Md=
2、当观测值个数为偶数时,2.中位数(median)中位数是将一批数据从76
反映数据的离散度(Dispersion),即个体观察值的变异程度。常用的指标有:
1.极差(Range)
(全距)
2.方差Variance
3.标准差StandardDeviation
4.变异系数CoefficientofVariation反映数据的离散度(Di77全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。各个观测值与平均数的离均差(x-μ)Σ(x-μ)=0离均差平方和即,简称平方和,记为SS(sumofsquare,SS);离均差平方和的平均数,即方差,也称均方(meansquare,MS)
全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。78统计学上把样本方差S2的算术平方根叫做样本标准差,记为S,即:若比较两个样本的变异度,则因单位不同或平均数不同,不能用标准差直接比较。这时要构造一个不代单位,不受平均数大小影响的变异数,这就是变异系数(coefficientofvariation),用CV表示。统计学上把样本方差S2的算术平方根叫做样本标准差,记为S79第三章概率与概率分布
1、和事件事件A和事件B至少有一个发生构成的新事件称为事件A和事件B的和事件,记为A+B,读作“或A发生,或B发生”。P(A+B)=P(A)+P(B)2、积事件事件A和B同时发生而构成的新事件,称为事件A和B的积事件,记为AB,读作“A和B同时发生或相续发生”。3、互斥事件如果事件A和B不能同时发生,即A和B是不可能事件,则称事件A和B互斥P(A+B+…+N)=P(A)+P(B)+…P(N)一、事件间的关系第三章概率与概率分布
1、和事件一、事件间的关系804、对立事件事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为5、完全事件系若事件A1、A2、···An两两互斥,且每次试验结果必发生其一,则称A1、A2、···An为完全事件系。4、对立事件81一、二项分布二、泊松分布三、正态分布四、t分布五、卡方分布六、F分布离散型变量的概率分布连续性变量的概率分布总体分布抽样分布一、二项分布离散型变量的概率分布连续性变量总体分布抽样分布82总体的概率分布一.离散型随机变量的概率分布(一)二项分布P=0.35,n=5的概率分布图总体的概率分布一.离散型随机变量的概率分布P=0.35,n=831.二项分布的性质和特点二项分布由n和p两个参数决定:当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称当p值趋于0.5时,分布趋于对称即趋于正态分布在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。1.二项分布的性质和特点二项分布由n和p两个参数决定:84统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标准差σ与参数n、p关系如下:当试验结果以事件A发生次数k表示时μ=np;σ=当试验结果以事件A发生的频率k/n表示时也称为总体百分数标准误(百分数分布的平均数与标准差)2.二项分布的平均数与标准差实验次数或样本容量n足够大,p非常小的时候,二项分布近似possion分布统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标85例某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?7头愈好,3头死去的概率为:10头中不超过2头死去的概率为多少?则应该应用累积概率,即:例某种昆虫在某地区的死亡率为40%,即p=0.4,现对这86(二)泊松分布其中λ=np;e=2.7182…是自然对数的底数(二)泊松分布其中λ=np;e=2.7182…是自然对数的87泊松分布重要的特征:平均数和方差相等,都等于常数λ,即μ=σ2=λλ是泊松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为泊松分布呈正态分布。泊松分布的特征泊松分布重要的特征:平均数和方差相等,都等于常数λ,即μ=σ88二.连续型随机变量的概率分布在数学意义上它是一个二项分布的极限曲线。随机变量x服从正态分布,记为x~N(μ,σ2)正态分布二.连续型随机变量的概率分布在数学意义上它是一个二项分布的极891.正态分布曲线的特性1、以x=μ为对称轴的悬钟形对称曲线,向左右两侧作对称分布,其算术平均数、中数、众数相等,均在μ点上。2、正态分布曲线由参数μ和σ决定,所以它是曲线簇而不是单一的曲线。3、X轴表示变量可能的取值,从X轴任意两点做X轴的垂线,跟密度曲线交叉后所构成的图形面积表示,变量分布在这两点之间的概率;4、对于任何正态分布,变量在偏离平均数相同个标准差上分布概率是恒定的;正态曲线与横轴之间的面积等于1。1.正态分布曲线的特性1、以x=μ为对称轴的悬钟形对称曲线,904、正态分布资料的分布表现为多数次数位于算术平均数μ附近,在|x-μ|≥3σ以上其次数极少,在实际应用中,x通常在±3σ范围之内取值,这就是6σ法则。5、正态曲线在|x-μ|=1σ处有拐点,并以横轴为渐进线,因此曲线全距从-∞到+∞。0.00.10.20.30.40.5012345-1-2-3-4f(y)y68.27%95.45%99.73%4、正态分布资料的分布表现为多数次数位于算术平均数μ附近,在91μ1μ2μ30.00.10.20.30.40.5012345-1-2-3-4f(y)y0.00.10.20.30.40.5012345-1-2-3-4f(y)yσ=1σ=1.5σ=2正态分布是由参数μ和σ2(或σ)决定的的一簇分布,其中平均数μ为位置参数,决定对称轴的位置,标准差σ为变异度参数,决定钟形曲线的开口度。μ1μ2μ30.00.10.20.30.40.50123492由于正态曲线受μ和σ的制约,曲线随这两个参数的变化而改变。构造一个新变数,这个变数要消去μ和σ的影响。假定新变数用u来表示,则:2.正态分布的标准化u称为正态离差,标准化正态分布是参数μ=0,σ2=1时的正态分布,记作N(0,1)由于正态曲线受μ和σ的制约,曲线随这两个参数的变化而改变。293
在计算一般正态分布概率时,只需将服从正态分布的随机变量x取值区间的上下限按转化成u取值区间上下限,查表即可在计算一般正态分布概率时,只需将服从正态分布的941.对于二项分布,在n→∞,p→0(一般当p<0.1),且np=λ(较小常数)情况下,二项分布趋于泊松分布,此泊松分布中的λ用二项分布的np代之;2.在n→∞,p→0.5时(一般当p>0.1),二项分布趋于正态分布。此时正态分布中的μ,σ2用二项分布的np、npq代之。3.对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。
正态,二项和泊松分布的关系1.对于二项分布,在n→∞,p→0(一般当p<0.1),且95抽样分布总体的参数是无法得到的,需要用样本的统计数进行估计。首先必须知道统计数与参数的关系,即要弄清楚总体和样本的关系。抽样分布目的:搞清楚从总体中抽出所有可能的样本统计量的分布与原总体之间的关系。抽样分布总体的参数是无法得到的,需要用样本的统计数进行估计。96抽样分布的定义:样本统计量的抽样总体的概率分布;
抽样分布的类型:样本均数的抽样分布理论样本方差的抽样分布理论在统计上,如果所有可能样本的某一统计数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值(unbiasedestimate)。抽样分布的定义:样本统计量的抽样总体的概率分布;抽样分布的97总体(population)N;μ;σ2抽取容量为n的样本X11,X12,…,X1j,…,X1nX21,X22,…,X2j,…,X2n...Xi1,Xi2,…,Xij,…,Xin...XNn1
,XNn2,…,XNnj,…,XNnn样本平均数随机变量概率分布(一)样本平均数的抽样分布总体(population)抽取容量为n的样本X11,98
标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。
标准误(平均数抽样总体的标准差)99样本标准误是平均数抽样误差的估计值大小说明了样本间变异程度及样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京大附属中学中考物理适应性模拟试题含解析
- 天津市西青区2026届中考试题猜想物理试卷含解析
- 福建省龙岩市金丰片区重点名校2026年毕业升学考试模拟卷物理卷含解析
- 2026届江苏省无锡市青阳片中考物理最后冲刺模拟试卷含解析
- 地下室防水方案交底
- 四川省巴中学市巴中学中学2026年中考试题猜想物理试卷含解析
- 2026年辽海版小学美术五年级下册期末复习测试卷及答案
- 【2026】年春季统编版小学语文三年级下册期末质量检测试卷含答案
- 2026届广东省潮州潮安区五校联考中考四模物理试题含解析
- 2026年农业技术推广培训效果评估工具题库
- 2026年辽宁锦州海通实业有限公司计划招录28人备考题库及答案详解参考
- 2026年西安工业大学招聘备考题库(14人)含答案详解
- 2025年湖南省事业单位第一次公开招聘工作人员笔试历年典型考题及考点剖析附带答案详解
- 2026年沪教版(五四学制)(新教材)初中生物八年级下册(全册)教案附目录p121新版
- 2025年4月自考03346项目管理试题
- ZYJ7道岔故障处理
- (正式版)SHT 1844-2024 工业用乙烯、丙烯中痕量氢气、一氧化碳、二氧化碳的测定 气相色谱-氦离子化检测法
- 销售技巧-连带销售课件
- 国家开放大学创业教育形考答案
- 3-4环境保护政策、措施与国家安全(教学课件含视频)-高中地理湘教版(2019)选择性必修三
- 《以变革迎接未来》课件
评论
0/150
提交评论