生物统计的基本理论.ppt_第1页
生物统计的基本理论.ppt_第2页
生物统计的基本理论.ppt_第3页
生物统计的基本理论.ppt_第4页
生物统计的基本理论.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 生物统计的基本理论,第一节 总体、样本与误差,近代数理统计方法的发展和在科学研究中的应用,特别是电子计算机技术的发展,使试验研究的试验手段、方法、设计和数据处理又进入了现代化新阶段。 20世纪20年代:费休(R.Fisher)提出了的方差分析和随机区组设计;叶次(Yates)提出了混杂设计和复因素试验。 20世纪30年代:田间复因子试验开始在欧美实施。 20世纪50年代后:随着电子计算机技术的发展,试验设计逐步向复杂化和高级化发展。回归正交设计、回归旋转设计、回归最优设计、混料设计逐渐用于科学研究的试验设计,也成为环境研究的重要方法.,生物统计方法的发展,统计分析软件,一、总体与样本,

2、例如:研究某一地区耕地土壤中的Cd含量(总体),则从该地区选取若干个地块为样本,每个地块土壤Cd含量则为一个个体。,二、误差,误差:观察值与真值之间的差异。,系统误差:由某个或某些固定因素引起的误差。 特点:误差的性质和符号恒定不变 可以预见和消除 结果的统计分析不一定能发现,随机误差:由不可预见的偶然因素引起的误差。 特点:误差的符号随机出现,或正或负 不可预见,不能消除,但可减少 正负相抵,具有补偿性,疏失误差:由疏忽大意、操作不正确等主观因素引起的误差。 特点:完全可以消除,第二节 总体与样本特征数,一、特征数,变量:同一总体中个体间具有变异的每种性状或特征,在数量上可以表现为不同的数值

3、,这个因个体不同而变化的量在统计学中称为变量。,观察值:不同个体的某一性状具体表现的数值。,连续变量:总体中相邻两个变量的差值可无限小者。,不连续变量:相邻两个变量的之差最小为1 者。,变量可以分为:,总体特征数:说明总体中个体间集中性和分散性(变异性)特征的数值,称为总体特征数或参数。,样本特征数:由样本的不同个体观察值计算出的反映样本集中性和分散性(变异性)特征的数值,又称统计值,可作为总体特征数的估计值。,总体特征数:平均数、极差、方差、标准差、变异系数等,二、表示总体或样本个体集中性的特征数平均数,1 算术平均数,1)总体算术平均数:一个具有N个个体的总体,其观察值为x1,x2,xN,

4、则该总体的算术平均数为:,2)样本算术平均数:一个具有n个个体的样本,其观察值为x1,x2,xn,则该样本的算术平均数 x 为:,3)算术平均数性质: (1)各观察值与算术平均数之差(离均差)总和等于零:,(2)离均差的平方和最小:,3)算术平均数的计算方法: (1)直接法:,(2)加权法:如果观察值有重复数值出现,使各观察值xi有不同的比重fi, 且 f1 +f2+fn=n,则平均数:,例:分析表明菠菜根、茎、叶的重量分别为:2.3g,4.2g,6.0g;其农药残留量分别为:400mg/kg,790mg/kg,500mg/kg。问菠菜的平均农药残留量?,2 中数,总体或样本的各观察值按大小顺

5、序排列,排在中间位置的数据即为中数。,如果观察值的个数为奇数,则中数为排在中间位置的数; 如果观察值的个数为偶数,则中数为排在中间两数的均值。,3 众数,4 几何平均数,如果总体或样本有n个观察值,其乘积开n次方所得的数值,即为几何平均数。记为G。,例:育种工作者,用几何平均数从两个蕃茄亲本果重:P1=10.36g,P2=0.45g,预测F1的果重。结果为:,5 调合平均数,例:毛管水在土壤中的上升速度,第1个10cm为8cm/min,第2个10cm为6cm/min,第3个10cm为4cm/min,求其平均速度。,6 样本平均数的作用,1)反映样本某一性状的集中趋势。 2)作为样本性状的代表,

6、可与另一同质样本进行比较。 3)总体平均数的估计值,用于同质总体的比较。,三、表示数据分散性趋势的特征数变异数,1 极差,总体或样本观察值中最大值与最小值之差。,R = maxx1,x2,xn - minx1,x2,xn,3 标准差,方差的正平方根。,总体标准差:,样本标准差:,3 变异系数,标准差占平均数的百分率。,CV(%)=,例:重金属污染田小麦产量:250kg/mu;标准差:28kg/mu 无污染田小麦产量:400kg/mu;标准差:30kg/mu 问:哪种田块小麦产量变异程度大?,第三节 理论分布与抽样分布,2 频率,定义:在大量重复试验中,某一事件已发生的次数占试验总次数的比率。,

7、特点:一个事件的频率不是常数,但随重复试验或观察次数n增加,频率的波动会不断减小,逐步趋于稳定,此称为频率的稳定性。,3 概率,定义:同一条件下,试验或观察次数n无限增大,随机事件 A 发生的频率/ n必然稳定接近某一常数P,P就称为随机事件A的概率。,性质:1)0 P(A)1 2)P(A)=1,表明该事件为必然事件; P(A)=0,表明该事件为不可能事件; 0 P(A)1,表明该事件为随机事件。,取值:一般情况下P的取值不可能准确获得,以n充分大时事件 A 发生的频率/ n作为P的近似值。,运算法则: 1)若事件A的概率为P(A),那么其对立事件B的概率为: P(B)=1-P(A) 2)若事

8、件A和B是互斥的,其概率各为P(A)和P(B),那么两事件的和事件的概率为:P(A+B)=P(A)+P(B) 3)若事件A和B是独立的,其概率各为P(A)和P(B),那么两事件同时出现的概率为:P(AB)=P(A) P(B),二、正态分布,1 概念,1)概念 正态分布随机变量的概率密度函数(X) 为:,式中:x正态分布中的随机变量; e2.718,是自然对数的底数; 正态分布总体的平均数,是曲线最高点的横坐标; 正态分布总体的标准差,其大小表达曲线高低胖瘦程度。,正态分布常以记号N( , 2)来表示,当 = 0 ,=1时,正态分布称为标准正态分布。,2)正态分布与误差的关系,x- 是观察值的误

9、差,如令: x- =,则误差的概率密度函数为:,可见,误差是服从正态分布的。,(3)正态分布总体的多数观察值出现在算术平均数的附近;离平均数愈远,出现的次数愈少;当 x- 3时, 出现次数极少。,3)正态分布曲线的特点,(1)正态分布曲线以算术平均数 为轴点,左右对称。说明不论=x-为正或负,绝对值相等的误差,出现的概率相同。,(2)当x=,即=0时, (x) 或()的值最大,正态分布总体的算术平均数、中数和众数是相等的,三者合一,位于x=点上。,(4)正态曲线在 x- 处有拐点。当x +或-时,曲线以x轴为渐近线左右延伸。,(5)正态曲线与x 轴之间的总面积等于1。,4)正态分布标准化,为了

10、便于计算概率,将正态分布标准化。令:,且以为度量单位,则概率密度函数可被标准化为:,式中u 叫做正态标准离差、正态离差或概率度。任何正态分布都可以根据以上变换转化为标准正态分布。,5)求正态分布总体观察值x落入区间(a,b)的概率,(1) x N(, 2 ), x落入区间(a,b)的概率为:,则x落入区间(a,b) 的概率,亦即标准化后 u 落入区间(u1,u1)的概率:,设:P (u1) 为u 落入区间(0,u1)的概率 P (u2) 为u 落入区间(0,u2)的概率,例:某地区土壤汞背景值呈正态分布: =0.108, = 0.013,求土壤汞含量在0.108至0.121之间的概率.,P =

11、 P (u2) - P (u1) = P(1) - P(0) = 0.8413 - 0.5000 = 0.3413,落入(-,+)的概率:68.3 % 落入(-2,+2)的概率:95.4 % 落入(-3,+3)的概率:99.7 % 落入(-1.96,+1.96)的概率:95 % 落入(-2.58,+2.58)的概率:99 %,6)正态分布总体观察值x落入以下特殊区间的概率,7)小概率事件和小概率原理,在生物统计学中,把概率小于 5 %的事件,称为小概率事件。 小概率事件在一次试验中几乎是不可能事件,这一规律称为小概率原理。,三、频数与频率分布,1 频数与频率分布,频 数:在一定条件下,总体或样

12、本中某观察 值或某区间的观察值所出现的次数。 频数分布:总体或样本中某观察值或某区间的观 察值出现的次数在整个区间的分布情况。 频率分布:总体或样本中某观察值或某区间的观察 值出现的频率在整个区间的分布情况。,2 统计方法,1.求出极差(R),2.确定组数(G)及组距(B) 组数:n100时, G:815 n 100时, G:不少于6组 n 很大时, G:不大于30组 组距:B = R/G 对于连续变量,组距精度与观察值相同 对于非连续变量,组距取整数,3.确定组限 组限就是每一组的上限和下限,对于连续性变量,组限的数值比原观察值精度高一位;对于非连续性变量,与原观察值精度相同,组限上的数值,

13、习惯上是上限不包括在本组之内。,4.统计频数 通常是采用制作频数(频率)分布表或频数(频率)分布图的方法。,1.求出极差:R=1.41-0.76=0.65,2.确定组数(G)及组距(B) 组数:G = 11 组距:B =0.65/11=0.06,3.确定组限 第1组:0.755 0.815 第2组:0.815 0.875 第3组:0.875 0.935 ,4.统计频数和频率,四、置信限与置信区间,1 概念,置信区间 在一定概率保证下,误差的合理存在范围或区间称 为置信区间或置信距。区间的上下限称为置信限。,置信概率 保证误差合理存在范围的概率,称为置信概率、置 信度或置信系数。用P表示,否定区

14、间 不属于合理误差的范围或区间,称为否定区间。,否定概率 不合理误差存在范围或区间的概率,称为否定概率, 或显著性水平。用表示。,2 置信限和置信概率的用途,1)估计误差合理存在范围或区间,如果置信概率取95%: 当已知时,误差 = x -的置信区间为(-1.96,1.96) 误差 = x -的置信区间为(-1.96x ,1.96x),当未知,为小样本时, 误差 = x - 的置信区间为(-t0.05Sx ,t0.05Sx ),如果置信概率取99%: 当已知时,误差 = x -的置信区间为(-2.58,2.58) 误差 = x -的置信区间为(-2.58x ,2.58x),当未知,为小样本时, 误差 = x - 的置信区间为(-t0.01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论