生物统计第二章整理课件_第1页
生物统计第二章整理课件_第2页
生物统计第二章整理课件_第3页
生物统计第二章整理课件_第4页
生物统计第二章整理课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上次课主要内容回顾原始资料 2. 统计资料3. 资料整理的目的和过程4. 连续性资料和离散性资料5. 连续性资料的频率分布(全距、组数、组距、组中值、组上限、组下限、频数、频率)6. 离散性资料的频率分布(类别、频数、频率)7. 统计表(简单表、复合表、与统计图的关系)8. 统计图(种类以及适合那类资料) 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(Md) 3. 众数(Mo) 4. 几何平均数(G) 5. 调和平均数(H) 2.6 集中趋势的度量意义: 作为一个资料的代表,指资料中各变数集中较多的中心位置,用来与另

2、一资料相比较。不同的平均数适合于不同的数据资料。例如:不同国家、地区、种族之间身高、体重等的 比较;不同品种的家畜、家禽之间生产性能 的比较2.6 集中趋势的度量主要内容:一、算术平均数二、中位数、众数、几何平均数和调和平均数三、5 种平均数的关系和评价 2.6 集中趋势的度量2.6.1 算术平均数一、定义 一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数。最常用的一种集中趋势度量指标。 样本的平均数记为 总体平均数记为 2.6.1 算术平均数 :第i个观察值或变数 n:观察值或变数的个数 :求和符号(sigma)计算公式:一、直接法: 例2.1:5头猪的体重

3、分别为70、72、80、83、 88kg,问 5头猪的算术平均数是多少? 从计算结果看5头猪都距78.6(kg)不远,所以平均数是数量资料的代表值。 上述计算方法称为直接法,适用于样本小,即资料内包含变数个数不多,一般在30个变数以下未经分组的资料。2.6.1 算术平均数二、加权法 1. 分类资料:每个类别在某个指标上取相同的值。 2. 计数资料和连续性资料:频率分布表 加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总合,称为加权平均数。2.6.1 算术平均数 xi=变数值 fi=变数值xi出现的频数计算公式:2.6.1 算术平均数例2.2:一个有1000个个体的群体,等

4、位基因 A 的 频率为0.6,另一个400个个体的群体, 等位基因 A 的频率为0.3,这两个群体的混 合在一起,整个混合群体的等位基因 A 的 频率为:2.6.1 算术平均数例2.3:200头大白猪的仔猪的一月窝重的资料见表2-1组别组中值频数(f)fx8-16-24-32-40-48-56-64-72-80-88-96-104-112-122028364452606876849210010811646910131726352821168434812025236057288415602380212817641472800432348总合200131202.6.1 算术平均数2.6.1 算术平

5、均数xi=组中值fi=组中值出现的频数例2.3:表22和表25三、性质(一)离均差之和为零: 一个样本观察值与平均数之差简称离均差。(xi- )=(x1- )+(x2- )+(xn- )= x1+x2+xn-n= xi- nxi/n= 02.6.1 算术平均数例2.2:5头猪的体重分别为70、72、80、83、 88kg,5头猪的算术平均数是78.6 kg。 (70-78.6)+(72-78.6)+(80-78.6)+ (83-78.6)+(88-78.6) =(-8.6)(- 6.6)+ 1.4+ 4.4+ 9.4 = 02.6.1 算术平均数(二)离均差平方和最小:一个样本的各个观察值与平

6、均数之差的平方和比各个观察值与任意其他数之差的平方和小。即:所以:平均数是与各个观察值最接近的数值。所以:平均数代表这个样本的集中趋势。2.6.1 算术平均数定义:n个非负数的乘积开n次方的根称为几何平均 数,用 G 表示。为了计算方便,各变数先取对数,再相加除以n,即为logG,再求其反对数,即为G值。2.6.2 几何平均数2.6.2 几何平均数从公式可以知道:几何平均数就是首先将原数据转换为对数;然后求对数值的算数平均数;最后再取反对数还原。几何平均数用于以百分率、比例表示的数据资料,如增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。2.6.2 几何平均数例2.3:

7、某奶牛场在1995年有100头奶牛,已知在1996,1997和1998年的奶牛头数分别为前一年的2,3和4.5倍,求其年平均增加率。 解:1998年的奶牛头数为: 100234.52700头 或者100332700头2.6.2 几何平均数【例】 某波尔山羊群19972000年各年度的存栏数见表,试求其年平均增长率。 G= =lg-1(-0.368-0.3980.602) =lg-1(-0.456)=0.3501 即年平均增长率为0.3501或35.01%。2.6.2 几何平均数2.6.2 几何平均数加权法:分类资料或计数和连续性资料对数形式例2.4P19定义:各观察值倒数的平均数的倒数适用于极

8、端右偏态,例33页2.6.3 调和平均数简单调和平均数加权调和平均数从公式可以知道:调和几何平均数就是首先将原数据转换为倒数;然后求倒数值的算数平均数;最后再取倒数还原。调和平均数主要用于速度类资料,或者数据中有个别极端大的值的情况。2.6.3 调和平均数2.6.3 调和平均数例2.4:用某药物救治12只中毒的小鼠,它们的存活天数记录如下:8,8,8,10,10,7,13,10,9,14,另外有两只未死亡,求平均存活天数。解:未死亡的存活天数记为,为极端右偏态,用算术平均数不合理。定义:将n个观察值从小到大依次排队,位于中间的那个观察值称为中位数。 2.6.4 中位数(Md) 适用于偏态分布的

9、资料。例:2.5 现有一窝仔猪的出生重资料为:1.4,1.0,1.3,1.2,1.6kg,试求其中位数。解:首先将数据资料排序:1.0,1.2,1.3,1.4, 1.6;然后计算中位数: (n+1)/2=(5+1)/2=3;Md=X3=1.3 如果增加一头仔猪,出生重为1.8kg,计算中位数: n/2=6/2=3 (n/2)+1=3+1=4; Md=(X3+X4)/2=(1.3+1.4)/2=1.352.6.4 中位数(Md)2.6.4 中位数(Md) 对于频数分布的资料,公式如下: Lmd:中位数所在组的组下限; fm:中位数所在组的频数; C:从第一组到中位数所在组的前一组的累积频数。 n

10、:样本含量; i:组距; 例:表262.6.4 中位数(Md)定义:在资料中某一个变数出现次数最多,就称 之为众数。1. 离散性资料:出现频数最多的数。2. 连续性资料:频数分布表中,频数出现最多的 一组的组中值。 !有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频数都相同。2.6.5 众数(mode ,M0)2.6.6 各个集中趋势度量指标之间的关系和评价一、各个集中趋势度量指标之间的关系 1.在完全对称分布情况下,算数平均数、中位数 和众数三者相等。2.6.6 各个集中趋势度量指标之间的关系和评价二、集中趋势指标的评价 应满足以下几个条件: 1.必须有

11、严格的定义及算法,避免有主观成分存在其间; 2.计算过程中应利用全部观察值; 3.简单明了,容易领悟,容易计算; 4.受抽样变动影响不大,即抽样误差小。 5.适用于代数方法处理。 (1)算术平均数 能够满足以上所有的条件,适用于正态分布资料。 家畜的大多数数量性状都是正态分布,因此算术平均数是最常用的,也是最重要的。 但是当分布不对称时,呈偏态时,用算术平均数则难以表示资料的集中趋势。2.6.6 各个集中趋势度量指标之间的关系和评价2.6.6 各个集中趋势度量指标之间的关系和评价(2)中位数 能够满足第 2、3条,适用于非参数检验,如卡方检验。(3)几何平均数和调和平均数 能够满足第 1、2

12、、5条,适用于右偏态分布。(4)众数 仅满足第3条,日常生活常用,如鞋子、衣服尺码 例:研究猪的胚胎发育试验,测得仔猪出生重为1401g,其胚胎重量前1/3时期生长速度为5.49g/d,中1/3期为35.92g/d,后1/3期为29.20g/d,求猪胚胎的平均生长速度,及其怀孕期。用调和平均数H=12.2832g/d,怀孕期=114天用算术平均数 =23.54g/d,怀孕期=60天2.6.6 各个集中趋势度量指标之间的关系和评价2.6.6 各个集中趋势度量指标之间的关系和评价例:一家小企业13个员工工资为:13500,11500,11000,9000,8500,8000,6500,6000,3

13、500,3500,3500,3500,3000元。如果低工资的员工抱怨工资低,老板可以用算术平均数消除员工不满,我们平均有7000元收入。如果慈善机构来募捐,他会搪塞说,我们多数人工资才3500元(众数)。在别的场合,他又可以用中位数6500元。对于学过统计的人来说,不能盲目接受别人说的一个统计指标,而应对数据进行分析并作出科学的评价。一、平均数的代表程度与样本的变异程度有关 一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异程度。1.如果各个变数相同或者变异程度比较小,则平均数能够代表整个样本。2.如果各个变数的变异程度比较大,则平均数的代表性就小。 因此,

14、单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度 2.7 离散趋势的度量例,即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。产仔数总和平均数品种甲8,4,16,12,22,17,6,14,6,511011品种乙14,8,11,9,11,12,10,14,13,8110112.7 离散趋势的度量从以上统计结果可知:1.甲乙两品种的平均产仔数相同,都是11头,从平均数来 看,两个品种没有差异。2.进一步观察各个变数,两个样品的变异程度并不相同。 甲:最小为4,最大为22;乙:最小为8,最大为14 甲的变异程度大于乙 甲的平均数的代表性小于乙的平均数 所以,应该测

15、定其变异程度2.7 离散趋势的度量一 全距(范围或极差) 定义:全部变数的最大值与最小值之差 R= Max(x)-Min(x) 全距可以反映变异程度的一部分,但是不能代表样本内各变数之间的变异程度。 目前,被广泛使用的是以标准差来度量变异程度2.7 离散趋势的度量二、标准差的定义 如果一个样本有n个观察值x1,x2 xn,设其算术平均数为 ,则该样本的标准差为:从公式可以看出,标准差考虑了每个变数与平均数的离差。每个变数与平均数与平均数相差愈小,样本变异程度愈小,反之,愈大。因此,标准差是离散程度的度量2.7 离散趋势的度量三、标准差公式的来源1.离均差=(x- )2.离均差之和= (x- )

16、=03.离均差平方和 SS= (x- )2虽然离均差可以衡量变异程度,但是离均差之和为0,所以不是理想的指标为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(SS),但是由于不同样本的观察值个数不同,所以离均差平方和也不是理想指标2.7 离散趋势的度量4.样本均方和样本标准差将离均差平方和求平均数,称为样本均方,目的是消除观察值个数的影响样本均方开方,目的是使变异还原,即标准差。5.总体均方和总体标准差总体是未知的,用样本标准差估计和推断总体标准差2.7 离散趋势的度量四、自由度:能够独立取值的观测值个数, 一般df = n-1: 对于小样本,计算标准差的

17、时候,样本含量为n,df=n-1,目的是纠正由于样本小而发生的取样误差影响。 如果一个样本含有n个变数,从理论上讲,n个变数都同样用以计算标准差,n个变数与平均数相减有n个离均差。表面上虽有n个比较,但实质上仅有n-1个可以自由变动,最后一个离均差受到离均差之和这个条件的限制,所以不能自由。 2.7 离散趋势的度量例如, 有5个变数,其4个离均差为-2、-1、1、2,则第5个离均差必等于0,如4个离均差为-1、0、1、2时,则第5个离均差必等于-2,这样才能使离均差的总和等于0。这5个离均差中,因受离均差之和等于0的限制,所以只有4个能自由变动。这时的自由度就是n-1。自由度等于样本变数的总个

18、数减去计算过程中使用的条件数。2.7 离散趋势的度量在计算标准差时,条件就是一个,即所以,自由度为n-1。 如计算样本某一个统计数应用2个条件,其自由度则为n-2,如果应用k个条件,则自由度为n-k。 小样本常用自由度来计算标准差或其他统计数,因为小样本的全距较群体为小,若为大样本,当与群体较接近时,可以不用自由度,直接用n即可。自由度的符号以“df”表示。2.7 离散趋势的度量五、标准差的计算方法1.直接法2.7 离散趋势的度量标准差的计算方法【例】 计算10只辽宁绒山羊产绒量: 450, 450, 500, 500, 500,550, 550, 550, 600, 600,650(g)的标

19、准差。 此例n=10,经计算得:x=5400,x2=2955000,代入上式得: 即10只辽宁绒山羊产绒量的 标准差 为65.828g。标准差的计算方法2.加权法对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:式中,f为各组次数;x为各组的组中值。 表3-4 某纯系蛋鸡200枚蛋重资料次数分布 及标准差计算表下一张 主 页 退 出 上一张 【例】 利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。 将表3-4中的f、fx、fx 2代入式得: 即某纯系蛋鸡200枚蛋重的标准差为3.5524g。下一张 主 页 退 出 上一张 标准差的特性 (

20、一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 (二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 (三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。 下一张 主 页 退 出 上一张 2.7.2 范围 又称全距,或极差,样本中最大值和最小值的差,用R表示: R=max(X)-min(X)内百分位数范围 以中位数为中心的上下两个百分位数之差。 中四分位(内50%)范围:上下四分位数之差。2.7 离散趋势的度量2.7.3 平均绝对离差对以分k组的资料,可用加权法计算(fi为各组频数,Xi为各组组中值) 2.

21、7 离散趋势的度量2.7.4 变异系数 变异系数是衡量资料中各观测值变异 程度的另一个统计量 。 标准差与平均数的比值称为 变异系数,记为C.V.。 变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。 2.7 离散趋势的度量2.7.4 变异系数例1:比较两组资料 1kg,2kg,3kg,4kg 与1001kg,1002kg,1003kg,1004kg。问那组资料变异程度大? 因为S1=S2,所以两组资料变异程度一样? 因为C.V.1=5.16%,C.V.2=0.13%,所以第一组资料变异程度大。2.7.4 变异系数 例2:已知秦川黄牛的平均胸围182cm,标准差为

22、6.19cm;其平均体重450.78kg,标准差38.96kg,问胸围与体重哪个变异程度大? S胸围=6.19cm S体重=38.96kg ? CV胸围=3.797%CV体重=8.643% 所以体重变异程度大。课后习题 P26-4、5R=284-175=109i=109/10=10.9 近似取10第一组组中值 取资料中最小值 175第一组 组限 : 170-180 其余各组依次递推100尾小黄鱼体长频数分布表组别组中值频数累积频数fxfx2170-17544700122500180-1858121480273800190-19511232145418275200-205123524605043

23、00210-21516513440739600220-22511622475556875230-23510722350552250240-24510822450600250250-25512943060780300260-265296530140450270-275399825226875280-290285110028581225合计100100222004996700算术平均数中位数众数众数=资料中频数最高一组 组中值 =215标准差方差极差R=max(X)-min(X) =284-175 =109中四分位范围所以中四分位范围=243-201.67=41.33变异系数课后习题 P26-6年度饲养种羊数(只)年增长率199524019963200.33319973600.12519984000.11119994200.05020004500.071年平均增长率2010.4 相关试题测定某蛋鸡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论