1统计数据的收集与整理.ppt_第1页
1统计数据的收集与整理.ppt_第2页
1统计数据的收集与整理.ppt_第3页
1统计数据的收集与整理.ppt_第4页
1统计数据的收集与整理.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物统计学,泰山学院生物科学与技术系 林贞贤 电话E-mail:,What is Biostatistics? 生物统计学是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。,生 的 物 基 统 本 计 内 学 容,试 验 设 计,统 计 分 析,基本原则 方案制定 常用试验设计方法,资料的搜集和整理 数据特征数的计算 统计推断 方差分析 回归和相关分析 协方差分析 主成分分析 聚类分析,对比设计 随机区组设计 裂区设计 拉丁方设计 正交设计,常用统计学术语 试验资料

2、的性质与分类 频数分布表 平均数 变异数,生物统计基础,一、总体与样本,具有相同性质或属性的个体所组成的集合称为总体 (population),它是指研究对象的全体; 组成总体的基本单元称为个体(individual); 总体又分为有限总体和无限总体:,常用统计学术语,例如:计算总体平均数,这个公式十分简单,把总体中所有观察值相加,再除以观察值个数就行了,但由于N,我们无法完成计算。 样本(Sample):是总体的一部分。其容量用n表示,样本容量n一般都不是很大,因而,可以计算出样本的平均数:,因此统计学的重要任务之一,就是用样本的结果去推断总体的结果。,一、总体与样本,构成样本的每个个体称为

3、样本单位;样本中所包含的个体数目叫样本容量或样本大小(sample size),样本容量常记为n。 一般在生物学研究中,通常把n30的样本叫小样本,n 30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。 研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,一、总体与样本,常用统计学术语,二、变量与常量,变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。 常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。,常用统计学术语,为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变

4、异数(极差、方差、标准差等)。 描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差; 描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用s表示样本标准差。,三、参数与统计数,常用统计学术语,四、效应与互作,通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。 互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。,常用统计学术

5、语,五、随机误差与系统误差,变异,效应,误差,随机误差,系统误差,常用统计学术语,例1.2 试验配方1(x)和配方2(y)两种不同饲料配方对鸡增重的影响,饲养5周后,增重如下(教材出错丢失1个数):,例1.3 如果上例中结果变成下表的数据:,是否说配方1比配方2 好呢?,随机误差,也叫 抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。 如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。 如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,

6、随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。,常用统计学术语,系统误差,也叫片面误差 (lopsided error)。 这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。 系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。,常用统计学术语,六、准确性与精确性,准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x

7、|越小, 则观测值x的准确性越高; 反之则低。 精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi xj |越小,则观测值精确性越高;反之则低。,常用统计学术语,试验资料的性质与分类,数量性状的度量有计数与量测两种方式。 离散型数据(计数数据):指用计数方法获得的数据。 连续型数据(度量数据):指称量、度量或测量方法得到的数据。 质量性状指能观察而不能量测的性状。 统计次数法 给予每类性状以相对数量的方法,一、数量性状与质量性状,频数分布表,例:调查每天出生的10名新生儿中,体

8、重超过3kg的人数,共调查120天。每天的10名新生儿中,体重超过3kg的人数,可能有11种情况:1名也没有,有1名,有2名,10名都是,如表第一列所示,这一组称为组值。 每10名新生儿体重超过3kg的人数频数(率)表,频数分布图,1、每10名新生儿体重超过3kg的人数频数(率)图,连续性变数资料的整理 以下表1.3的100株小麦株高资料为例,连续性变数资料的整理 以表1.3的100株小麦株高资料为例 ( P4) 1、数据排序(sort) 2、求极差(range) R=Max(1n)Min (1n) 本例中:R 170-141=29cm 3、确定组数和组距(class interval) 组距

9、R/组数 因而必须先确定组数,美国统计学家斯特吉斯提出分组数公式:n=1+3.322lgN(式中为样本数)。,表1-3 “三尺三”株高频数(率)表,属性变数资料的整理 把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况:,次数(f),属性分组(y),红米非糯,96,合计(n),179,直方图 直方图(histogram)适用于表示连续性变数的次数分布。,图1 “三尺三”株高直方图,频数分布图,多边形图 多边形图(polygon),以每组中点值为横坐标,以次数为纵坐标。,图2

10、 “三尺三”株高多边形图(不适用多边形图),频数分布图,条形图 条形图适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状,纵坐标表示次数。,频数分布图,饼图 饼图适用于间断性和属性资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。,频数分布图,累积频数图 累积频数图用以表示某一中值以下的有多少株,以及一定数量的植株在哪一高度之下。,图4 “三尺三”株高累积频数图,频数分布图,平均数,平均数的意义 平均数(average)是数据的代表性,表示资料中观察值的中心位置,并且可以资料的代表而于另一组资料相比较,借以明确两者之间相差的情况。 平均数的种类

11、1、算术平均数(arithmetic mean):一个数量资料中各个观察值的总和除以观察值的个数所得的商,记作,2、中数(median):将资料内所有观察值从大到小排列,居中间位置的观察值称为中数,记作Md 例如: 1、2、3、4、5 中数是3 1、2、3、4、5、6 中数是: (3+4)/2=3.5,3、众数(mode):资料中最常见的一数,或次数最多一组的中点值,称为众数,记为Mo。 例如:在资料23、24、23、22、23、25、20、23、中 Mo23 4、几何平均数(geometric mean):n个观察值,其乘积开n次方,即为几何平均数,用G代表。,算术平均数的计算方法,1、直接

12、以观察值进行计算,2、若样本较大,且已分组,可采用加权法计算算术平均数,即以组中值代表该组出现的观察值以计算平均数。,利用每10名新生儿体重超过3kg的人数计算,平均每10个新生儿中,大约有7个体重超过3kg。,利用“三尺三”株高频数分布计算,算术平均数的重要特性,1、样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和为0。即:,2、样本各观察值与其平均数的差数平方总和,较各个观察值与任意其它数值的差数平方的总和为小,亦即离均差平方的总和最小。,总体平均数,总体平均数用来表示,其计算公式为:,从公式中可以看出,除非是有限总体,否则总体平均数是无法通过计算得

13、到的。,变异数,常用的变异数有:极差、方差、标准差、变异系数等。,极差,极差(range),又称全距,记为R,是资料中最大值与最小值之差。 极差的计算简单,但是它只是两个极端数据决定的,没有地方充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。,变异数,方差,由于算术平均数的可信度比较高,我们设想用观察值与算术平均数之间的差异来度量一组观察值的变异性,但是这又遇到 的困难。为了解决这一矛盾,将离均差平方后再相加就不再为0。从这个式子知道 愈大,则资料的变异程度也就愈大。 称为离均差的平方和(简称平方和),记为SS(Sum Of squar

14、e)。,变异数,样本的平方和为,总体的平方和为,由于各个样本所包含的观察值数目不同,为便于比较,用观察值数目除平方和,得到平均平方和,简称均方(mean square)或方差(variance)。 样本均方用s2表示,定义为:,它是总体方差(2)无偏估计值。,标准差,标准差的定义 标准差是方差的正平方根值,一个表示资料中观测值变异程度大小的统计量。 样本标准差的计算公式为:,总体标准差用表示:,变异数,离散型频数资料,可采用下面公式计算,连续型数据:用中值代替,利用每10名新生儿体重超过3kg的人数计算方差s,大样本分母也可不用N-1,直接用N,自由度的意义 自由度(degree of freedom)最早是一个物理学上的名词,它表示一个质点在空间运动的自由程度。统计学借此来反映一批变量的约束条件。 例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。,自由度记作df,具体数值用表示 一般,样本自由度等于观察值个数(n)减去约束条件的个数(k),即df n k。,变异系数,涵义:衡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论