




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1任课教师:陈彦云授课时数:51课时学分:3分生物统计学2内内 容容: 介绍科学研究中常用的、基本的介绍科学研究中常用的、基本的 生物统计方法生物统计方法与与试验设计方法试验设计方法 : 资料的整理;资料的整理; 平均数、平均数、 标准差与变异系数;标准差与变异系数; 常用概率分布;平均数的统计推断;方差分析;常用概率分布;平均数的统计推断;方差分析; 2 检验;直线回归与相关;可直线化非线性回归分检验;直线回归与相关;可直线化非线性回归分析;协方差分析;试验设计的基本原理和方法及对析;协方差分析;试验设计的基本原理和方法及对比设计、比设计、随机区组设计,裂区设计,正交设计等。随机区组设计,裂
2、区设计,正交设计等。 3 方方 法法:用用CAI课件教学,以课堂讲授为课件教学,以课堂讲授为主主要要 求求:了了 解解 基本原理;基本原理; 熟练掌握熟练掌握 所介绍的几种试验设计方法,能所介绍的几种试验设计方法,能 独立进行试验设计;独立进行试验设计; 熟练掌握熟练掌握 所介绍的几种生物统计方法,能所介绍的几种生物统计方法,能 独立进行试验结果的统计分析;独立进行试验结果的统计分析; 熟练掌握熟练掌握 电子计算器的使用。电子计算器的使用。 4 培培 养养严谨的治学态度严谨的治学态度 精细的治学作风精细的治学作风 独立的自学能力独立的自学能力5成绩评定成绩评定:平时作业,平时作业,30% 期末
3、考试,期末考试,70%作业要求作业要求:独立思考独立思考 演算正确演算正确 作图清楚作图清楚 书写整齐书写整齐6 主主 要要 教教 学学 参参 考考 文文 献献 1明道绪明道绪主编.生物统计生物统计.中国农业科技出版社,1998。 2明道绪明道绪主编.兽医统计方法兽医统计方法.成都科技大学出版社,1991。 3南京农业大学南京农业大学主编.田间试验与统计方法田间试验与统计方法(第二版).农业出版社,1988。 4莫惠栋莫惠栋.农业试验设计农业试验设计.上海科学技术出版社,1984。 5(美)(美)G.W.斯奈迪格斯奈迪格著,杨纪珂杨纪珂等译. 应用与农学和应用与农学和生物学实验的数理统计方法生
4、物学实验的数理统计方法. 科学出版社,1964。 6(美)(美)RGD斯蒂尔,斯蒂尔, JH托里托里著,杨纪珂杨纪珂等译.数数理统计的原理与方法理统计的原理与方法.科学出版社,1976。 7 李春喜等编著。生物统计学学习指导。科学出版社,李春喜等编著。生物统计学学习指导。科学出版社,20087 每天每天 都是向既定目标都是向既定目标 迈进的一步迈进的一步赠赠 言言zlcc8E-mail: 陈彦云宁夏大学生命科学学院13895077945910 第一节第一节 生物统计学的概念及主要内容生物统计学的概念及主要内容11一、概念一、概念 生物统计学(Biostatistics)是数理统计在生物学研究中
5、的应用,它是用数理统计的原理和方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。12二、主要内容二、主要内容基本原则基本原则方案制定方案制定常用试验设计方法常用试验设计方法资料的搜集和整理资料的搜集和整理数据特征数的计算数据特征数的计算统计推断统计推断方差分析方差分析回归和相关分析回归和相关分析协方差分析协方差分析主成分分析主成分分析聚类分析聚类分析对比设计对比设计随机区组设计随机区组设计裂区设计裂区设计拉丁方设计拉丁方设计正交设计正交设计1314第二节第二节 生物统计学发展概况生物统计学发展概况 统计发展史可以追溯到远古的原始社会,但是,统计发展史可以
6、追溯到远古的原始社会,但是,能使人类的统计实践上升到理论上予以概括总结的能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。代的事情,距今只有三百余年的短暂历史。 现代统计学起源于现代统计学起源于1717世纪,主要有两个来源:世纪,主要有两个来源:1 1政治科学需要,政治科学需要,2 2当时贵族阶层对机率数学理论很当时贵族阶层对机率数学理论很感兴趣而发展起来的。另外,研究天文学的需要也感兴趣而发展起来的。另外,研究天文学的需要也促进了统计学的发展。促进了统计学的发展。统计学发展
7、的概貌,大致可统计学发展的概貌,大致可划分为划分为古典记录统计学、近代描述统计学和现代推古典记录统计学、近代描述统计学和现代推断统计学断统计学三种形态。三种形态。15一、发展概况一、发展概况原原始始社社会会奴奴隶隶社社会会封封建建社社会会资资本本主主义义社社会会16形成不同学派:形成不同学派:1 1、政治算术学派、政治算术学派起源于17世纪60年代的英国代表人物:威廉.配第(William Petty,16231687) 约翰.格朗托(John Graunt,16201674)代表作:政治算术但未采用“统计学”这个词172、国势学派,又叫记述学派、国势学派,又叫记述学派创建于17世纪的德国代表
8、人物:海尔曼.康令(Herman Conring,16061681) 阿痕瓦尔(Gottfried Achenwall,17911772)代表作:近代欧洲各国国势论首次采用“stastistik” 德国经济学家和统计学家克尼斯(K . G . A Knies,18211898)在1850年发表的论文独立科学的统计学中主张把“国家论”作为“国势学”的科学命名,“统计学”作为“政治算术”的科学命名。183、数理统计学派、数理统计学派产生于19世纪中叶代表人物:阿道夫.凯特勒(L.A.J Quetelet,17961874) 高尔登(F.Galtonl,18221911) 皮尔逊(K.Pearson
9、,18571936 )逐渐形成一门独立的应用数学。 1867年韦特斯坦(T.Wittstein)把既是数学,又是统计学的新生科学命名为数理统计学。194、社会统计学派、社会统计学派以德国为中心,创建于19世纪后期代表人物:恩格尔(C.I.E. Engel,18211896) 梅尔( C.G.V. Mager ,18411925)认为统计学研究的对象是社会科学,而数理统计学是一门应用数学。19世纪中叶诞生了马克思主义的统计理论,后来,列宁对其进行了丰富和发展。20二、统计学发展史中的重大事件与重要代表人物二、统计学发展史中的重大事件与重要代表人物J.Bernoulli(贝努里,瑞士,(贝努里,瑞
10、士,16541705) 系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。P.S. Laplace(拉普拉斯,法国,(拉普拉斯,法国,17491827) 最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,并应用到人口统计、天文学等方面的研究上。21Gauss(高斯,德国,(高斯,德国,17771855) 正态分布理论最早由De Moiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。22F. Galton(高
11、尔登,英国,(高尔登,英国,18221911) 19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文自然界的遗传。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。23K. Pearson(卡(卡.皮尔逊,英国,皮尔逊,英国,18571936
12、) Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一; Pearson对“回归与相关”进一步作了发展,在18971905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。24W.S.Gosset(歌赛特,英国,(歌赛特,英国,17771855) 在生产实践中对样本标准差进行了大量研究
13、。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文平均数的概率误差,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。25R.A.Fisher(费歇尔,英国,(费歇尔,英国,18901962) Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始,1915年在Biometrika上发表论文无限总体样本相关系数值的频率分布,被称为现代推断统计学的第一篇论文。192
14、3年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在孟德尔遗传试验设计间的相对关系一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和正交拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了Fisher Yates随机数字表。26另外另外 Neyman(18941981)和S.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Ya
15、tes对田间试验设计等都作出了杰出贡献。27三、统计学在中国的传播三、统计学在中国的传播 我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882?)翻译了英国统计学家尤尔的著作统计学之理论(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。 在20世纪30年代,生物统计与田间试验就作为农学系的必修课,1935年王绶(18761972)编著出版的实用生物统计法是我国出版最早的生物统计专著之一。随后1942年范福仁出版了田间试验技术等,这些对推动我国农业生物统计和田间试验方法的应用都产
16、生了很大影响。28 新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现,统计工作和统计科研迅速发展。1984年1月1日颁布实施中华人民共和国统计法,1987年2月国家统计局又发布中华人民共和国统计法实施细则,1996年5月八届人大十九次会议通过了关于修改的决定。 随着计算机的迅速普及,统计电算程序SAS(Statistical Analysis Sys
17、tem)、SPSS(Statistical Package for Social Science) 、 Excel等的引进,统计学在中国的应用与研究出现了崭新的局面。29具有相同性质或属性的个体所组成的集合称为具有相同性质或属性的个体所组成的集合称为总体总体 (population),它是指研究,它是指研究对象的全体;对象的全体;组成总体的基本单元称为组成总体的基本单元称为个体个体(individual);从总体中抽出若干个体所构成的集合称为从总体中抽出若干个体所构成的集合称为样本样本(sample);总体又分为有限总体和无限总体:总体又分为有限总体和无限总体:含有有限个个体的总体称为含有有限
18、个个体的总体称为有限总体有限总体(finitude popuoation););包含有极多或无限多个体的总体包含有极多或无限多个体的总体称为无限总体称为无限总体(infinitude popuoation).30 构成样本的每个个体称为构成样本的每个个体称为样本单位样本单位;样本中所包含的个体;样本中所包含的个体数目叫数目叫样本容量样本容量或或样本大小样本大小(sample size),样本容量常记为,样本容量常记为n。 一般在生物学研究中,通常把一般在生物学研究中,通常把n30的样本叫的样本叫小样本小样本,n 30的样本叫的样本叫大样本大样本。对于小样本和大样本,在一些统计数的。对于小样本和
19、大样本,在一些统计数的计算和分析检验上是不一样的。计算和分析检验上是不一样的。 研究的目的是要了解总体,然而能观测到的却是样本,研究的目的是要了解总体,然而能观测到的却是样本,通通过样本来推断总体是统计分析的基本特点。过样本来推断总体是统计分析的基本特点。31二、二、变量与常量变量与常量 变量变量,或变数,指相同性质的事物间表现差异性或,或变数,指相同性质的事物间表现差异性或差异特征的数据。差异特征的数据。 常数常数,表示能代表事物特征和性质的数值,通常由,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量计算而来,在一定过程中是不变的。32变变量量定性变量定性变量
20、定量变量定量变量连续变量连续变量非连续变量非连续变量只有整数出现只有整数出现可以有任何小数出现可以有任何小数出现33 为了表示总体和样本的数量特征,需要计算出几个特为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。征数,包括平均数和变异数(极差、方差、标准差等)。 描述总体特征的数量称为描述总体特征的数量称为参数参数(parameter),也称参,也称参量。常用希腊字母表示参数,例如用量。常用希腊字母表示参数,例如用表示总体平均数,表示总体平均数,用用表示总体标准差;表示总体标准差; 描述样本特征的数量称为描述样本特征的数量称为统计数统计数(sta
21、istic),也称统计,也称统计量。常用拉丁字母表示统计数,例如用量。常用拉丁字母表示统计数,例如用 表表 示样本平均数,示样本平均数,用用S表示样本标准差。表示样本标准差。三、参数与统计数三、参数与统计数x34四、效应与互作四、效应与互作 通过施加试验处理,引起试验差异的作用称为通过施加试验处理,引起试验差异的作用称为效应效应。效。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有效应有正效应正效应与与负效应负效应之分。之分。 互作互作,又叫连应,是指两个或两个以上处理因素间相互,又叫连应,是指两个或两个以上处理因素间相互作用
22、产生的效应。互作也有作用产生的效应。互作也有正效应(协同作用)正效应(协同作用)与与负效应负效应(拮抗作用)(拮抗作用)之分。之分。35五、机误与错误五、机误与错误变异效应效应误差误差随机误差机误(随机误差机误(Random error)系统误差错误(系统误差错误(Systematic error)36 随机误差随机误差,也叫也叫 抽样误差抽样误差(sampling error) 。这是。这是由于试验中无法控制的内在和外在的偶然因素所造成。如由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验试验动物的初始条件、饲养条件、管理措施等尽管在试验中力
23、求一致,但也不可能达到绝对一致,所以随机误差带中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也有偶然性质,在试验中,即使十分小心也是不可避免的是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,随机误差。随机误差越小,试验精确性越高。试验精确性越高。37 系统误差系统误差,也叫也叫片面误差片面误差 (lopsided error)。 这是由这是由于试验条件控
24、制不一致、测量仪器不准、试剂配制不当、于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。现错误等人为因素而引起的。系统误差影响试验的准系统误差影响试验的准确性确性。只要以认真负责的态度和细心的工作作风只要以认真负责的态度和细心的工作作风是完全是完全可以避免的。可以避免的。38六、准确性与精确性六、准确性与精确性 准确性准确性(accuracy),也叫,也叫准确度准确度,指在调查或试验中某指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。一试验指标或性状的观测
25、值与其真值接近的程度。设某设某一试验指标或性状的真值为一试验指标或性状的真值为,观测值为,观测值为 x,若,若 x与与相差的绝对相差的绝对值值|x|越小,越小, 则观测值则观测值x的准确性越高;的准确性越高; 反之则低。反之则低。 精确性精确性(precision),也叫,也叫精确度精确度,指调查或试验中同指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。一试验指标或性状的重复观测值彼此接近的程度。若观若观测值彼此接近,即任意二个观测值测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值相差的绝对值|xi xj |越小,则观测值精确性越高;反之则低。越小,则观测值精确性越高;反之
26、则低。3940试验资料的整理特征数的计算与第二章41第一节:试验资料的搜集与整理第一节:试验资料的搜集与整理一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理42对试验资料进行分类是统计归纳的基础。对试验资料进行分类是统计归纳的基础。试试验验资资料料类类型型数量性状资料数量性状资料质量性状资料属性性状资料质量性状资料属性性状资料计数资料非连续变量资料计数资料非连续变量资料计量资料连续变量资料计量资料连续变量资料43数量性状数量性状数量性状资料数量性状资料一、数量性状资料一、数量性状资料441、计数资料、计数资料非连续变量资料非连续变量资
27、料间间断变量资料或离散变量资料。断变量资料或离散变量资料。452、计量资料、计量资料连续变量资料。连续变量资料。46二、质量性状资料二、质量性状资料 质量性状质量性状质量性状资料质量性状资料471、统计次数法、统计次数法株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%次数资料次数资料48评分法评分法49第一节:试验资料的搜集与整理一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理50调调 查查试试 验验资料搜集的方法资料搜集的方法51一、调查一、调查 调查调查是对已经存在的事情的资料按某种方案
28、进行是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽收集的方法。资料的调查又可以分为两种:普查和抽样调查。样调查。1、普查、普查 是对研究对象的全部个体逐一进行调查的方法。是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和普查一般要求在一定的时间或范围进行,要求准确和全面。全面。522、抽样调查、抽样调查 是根据一定的原则从研究对象中抽取一部分具有是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对
29、总体本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。数情况下还是进行抽样调查。 随机抽样必须满足随机抽样必须满足2个条件:一是总体中每个个体个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。相互独立的,是否被抽中不受其他个体的影响。53二、试验二、试验 试验试验是对已有的或没有的事物加以处理的方法。是对已有的或没有的事物加以处理的方法。 常见的试验设计方法有:对比设计、随
30、机区组常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。计、正交设计、正交旋转设计等等。 试验设计须遵循的三大原则是:试验设计须遵循的三大原则是:随机、重复和随机、重复和局部控制局部控制。54第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理三、试验资料的整理55三、试验资料的整理三、试验资料的整理(一)原始资料的检查与核对(一)原始资料的检查与核对调查调查试验试验原始原始数据数据核对核对检查检查订正订正56三、试验资料的整理(二)次数分布表(二)次数分
31、布表:总横标目(或空白)总横标目(或空白)纵标目纵标目1纵标目纵标目2横标目横标目1横标目横标目2数字资料数字资料表号表号 标题标题1、标题、标题2、标目、标目3、数字、数字4、线条、线条57三、试验资料的整理1 计数资料的整理计数资料的整理计数资料基本上采用计数资料基本上采用单项式分组法单项式分组法进行整理。进行整理。特点:用特点:用样本变量自然值样本变量自然值进行分组,每组用进行分组,每组用一个或几个变量值来表示。一个或几个变量值来表示。5817 12 14 13 14 12 11 14 13 16 14 14 13 17 15 14 14 16 1414 15 15 14 14 14 1
32、1 13 12 1413 14 13 15 14 13 15 14 13 1415 16 16 14 13 14 15 13 15 1315 15 15 14 14 16 14 15 17 1316 14 16 15 13 14 14 14 14 1612 13 12 14 12 15 16 15 16 1413 15 17 14 13 14 12 17 14 15表表2-1 100只来亨鸡每月的产蛋数只来亨鸡每月的产蛋数1117来亨鸡每月产蛋来亨鸡每月产蛋数变动范围:数变动范围:分为分为7组组统计各组次数统计各组次数计算频率和累积频率计算频率和累积频率制表制表59每月产蛋数每月产蛋数 次数次
33、数 频率频率 累积频率累积频率 Frequency Percent Cumulative Percent 11 2 0.02 0.02 12 7 0.07 0.09 13 19 0.19 0.28 14 35 0.35 0.63 15 21 0.21 0.84 16 11 0.11 0.95 17 5 0.05 1.00表表2-2 100只来亨鸡每月产蛋数次数分布表只来亨鸡每月产蛋数次数分布表60每月产蛋数 次数 频率 累积频率 Frequency Percent Cumulative Percent 11 2 0.02 0.02 12 7 0.07 0.09 13 19 0.19 0.28
34、14 35 0.35 0.63 15 21 0.21 0.84 16 11 0.11 0.95 17 5 0.05 1.00表2-2 100只来亨鸡每月产蛋数次数分布表1 自然值进行分组,最大值自然值进行分组,最大值17,最小值,最小值11。2 数据主要集中在数据主要集中在14,向两侧分布逐渐减少。,向两侧分布逐渐减少。61表表2-3 小麦品种小麦品种300个麦穗穗粒数的次数分布表个麦穗穗粒数的次数分布表每穗粒数每穗粒数 次数次数 频率频率 累积频率累积频率 Frequency Percent Cumulative Percent 18-22 3 0.0100 0.0100 23-27 18
35、0.0600 0.0700 28-32 38 0.1267 0.1967 33-37 51 0.1700 0.3667 38-42 68 0.2267 0.5934 43-47 53 0.1766 0.7700 48-52 41 0.1367 0.9067 53-57 22 0.0733 0.9800 58-62 6 0.0200 1.0000 62三、试验资料的整理2 计量资料的整理计量资料的整理计量资料一般采用计量资料一般采用组距式分组法组距式分组法。全距全距组数组数组距组距组限组限归组归组制表制表63表表2-4150尾鲢鱼体长尾鲢鱼体长(cm)56 49 62 78 41 47 65 4
36、5 58 55 59 65 69 62 7352 52 60 51 62 78 66 45 58 58 60 57 52 51 4856 46 58 70 72 76 77 56 66 58 58 55 53 50 6563 57 65 85 59 58 54 62 48 63 46 61 62 57 3858 52 54 55 66 52 48 56 75 72 57 37 46 76 5663 75 65 48 52 55 54 62 71 48 62 58 46 57 3854 53 65 42 83 66 48 53 58 46 46 26 36 76 5560 54 58 49 52
37、 56 82 63 65 54 75 65 86 46 7770 69 40 56 58 61 54 53 52 43 52 64 58 58 5478 52 56 61 59 54 59 64 68 51 59 68 63 52 63(1) 求全距,求全距, 又称极差又称极差 (range):R=Xmax- Xmin =85-37 =48(cm)64(2) 确定组数和组距(确定组数和组距(class boundary) 组数是根据样本观测数的多少及组距的大小来组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一确定的,同时考虑到对资料要求的精确度以及进一步计算
38、是否方便。步计算是否方便。组数组数组距组距多多小小统计数精确,计算不方便统计数精确,计算不方便少少大大统计数不精确,计算方便统计数不精确,计算方便65组数的确定组数的确定组距的确定组距的确定即每组内的上下限范围。即每组内的上下限范围。组距全距组距全距/组数组数48104.866(3)确定组限()确定组限(class limit)和组中值()和组中值(class midvalue) 是指每个组变量值的起止界限是指每个组变量值的起止界限。上限上限下限下限是两个组限的中间值。是两个组限的中间值。组中值组中值下限上限下限上限 2组距组距2下限下限组距组距2上限上限67表表2-4150尾鲢鱼体长尾鲢鱼体
39、长(cm)56 49 62 78 41 47 65 45 58 55 59 65 69 62 7352 52 60 51 62 78 66 45 58 58 60 57 52 51 4856 46 58 70 72 76 77 56 66 58 58 55 53 50 6563 57 65 85 59 58 54 62 48 63 46 61 62 57 3858 52 54 55 66 52 48 56 75 72 57 37 46 76 5663 75 65 48 52 55 54 62 71 48 62 58 46 57 3854 53 65 42 83 66 48 53 58 46 4
40、6 26 36 76 5560 54 58 49 52 56 82 63 65 54 75 65 86 46 7770 69 40 56 58 61 54 53 52 43 52 64 58 58 5478 52 56 61 59 54 59 64 68 51 59 68 63 52 6368(4) 分组分组 确定好组数和各组上下限后,可按原始资料中确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分的观测数次数、频率、累积频率,制成一个次数分布表。布表。计数的方法计数的方法
41、卡片法卡片法唱票法唱票法画画“正正”字字画画“ ”69 组限组限 组中值组中值 次数次数 频率频率 累积频率累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5 4 0.0267 0.0467 45 47.5 17 0.1133 0.1600 50 52.5 28 0.1867 0.3467 55 57.5 40 0.2666 0.6133 60 62.5 25 0.1667 0.7800 65 67.5 17 0.1133 0.8973 70 72.5 6 0.0400 0.9333 75 77.5
42、 7 0.0467 0.9800 80 82.5 2 0.0133 0.9933 85 87.5 1 0.0067 1.0000表2-6 150尾鲢鱼体长的次数分布表70三、试验资料的整理(三)次数分布图和频率分布图(三)次数分布图和频率分布图定义:定义:把次数(频率)分布资料画成统计图形把次数(频率)分布资料画成统计图形。特点:直观、形象特点:直观、形象包括包括:条形图、直方图、多边形图、饼图和散点图条形图、直方图、多边形图、饼图和散点图71三、试验资料的整理(1)标题简明扼要)标题简明扼要,列于图的下方列于图的下方;(2)纵、横两轴应有刻度,注明单位;)纵、横两轴应有刻度,注明单位;(3)
43、横轴由左至右,纵轴由下而上,数值由小到大;图)横轴由左至右,纵轴由下而上,数值由小到大;图 形长宽比例约形长宽比例约5:4或或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图)图中需用不同颜色或线条代表不同事物时,应有图 例说明。例说明。72图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.2 月产蛋数频率分布柱形图月产蛋数频率分布柱形图条形图(条形图(bar chart), 又称柱形图又称柱形图计数资料计数资料 属性资料属性资料 73图图1 来亨鸡月产蛋次数分布图来亨鸡月产蛋次数分布图35%19%21%11%5%7%2%74图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分
44、布图35 40 45 50 55 60 65 70 75 80 85 90 75三、试验资料的整理图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图35 40 45 50 55 60 65 70 75 80 85 9076图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图77 1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321a. 正向直线关系正向直线关系b. 负向直线关系负向直线关系c. 曲线关系曲线关系78试验资料的整理特征数的计算与第二章79第二节 试验资料特征数的计算集中性集中性是变量在趋势上有着向某一中心聚集,或者说是变量在趋势上有着向某一中心
45、聚集,或者说 以某一数值为中心而分布的性质。以某一数值为中心而分布的性质。离散性离散性是变量有着离中分散变异的性质。是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:变量的分布具有两种明显的基本特征:集中性和集中性和离散性。离散性。80集中性集中性离散性离散性平均数平均数变异数变异数算术平均数算术平均数中位数中位数众数众数几何平均数几何平均数极差极差方差方差标准差标准差变异系数变异系数调和平均数调和平均数81一、平均数一、平均数 平均数平均数 平均数是统计学中最常用的统计量,平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心是计量资料的代表值,表示资料中观
46、测数的中心位置,并且可作为资料的代表与另一组相比较,位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。以确定二者的差异情况。82一、平均数(一)平均数的种类(一)平均数的种类83一、平均数1. 算术平均数算术平均数 (arithmetic mean)定义:总体或样本资料中所有观测数的总和除以观测数定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。的个数所得的商,简称平均数、均数或均值。总体:总体:x1+x2+x3+xNNN1Nixi1样本:样本:x1+ x x2+x3+xnnx x xn1nixi184一、平均数2. 中位数中位数(medi
47、an) 资料中所有观测数依大小顺序排列,居于中间资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。位置的观测数称为中位数或中数。Md852/ )1( nx2)12/(2/nndxxM86一、平均数3. 众数众数(mode) 资料中出现次数最多的那个观测值或次数最多资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。一组的组中值或中点值。M0注意:注意:(1)对于某些数据而言,如均匀分布,并不存在众数;)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。)主要用
48、来描述频率分布。87一、平均数4. 几何平均数几何平均数 (geometric mean)资料中有资料中有n个观测数,其乘积开个观测数,其乘积开n次方所得数值。次方所得数值。G适用范围:几何均数适用于变量适用范围:几何均数适用于变量X为对数正态分布,为对数正态分布, 经对数转换后呈正态分布的资料。经对数转换后呈正态分布的资料。G=nxnxxx*.3*2*188一、平均数5. 调和平均数调和平均数 (harmonic mean)资料中各观测值倒数的算术平均数的倒数。资料中各观测值倒数的算术平均数的倒数。H适用范围:主要用于反映生物不同阶段的平均增长适用范围:主要用于反映生物不同阶段的平均增长 率
49、或不同规模的平均规模。率或不同规模的平均规模。xn11H =189一、平均数(二)算术平均数的计算方法(二)算术平均数的计算方法90例:随机抽取20株小麦测量它们的株高(cm)分别为: 79 85 84 86 84 83 82 83 8384 81 80 81 82 81 82 82 82 80 求小麦的平均株高。 xn20(82+79+80)82.3(cm)91ix例:设a为80(cm)则有: 79 85 84 86 84 83 82 83 83 2 1 5 4 6 4 3 2 3 3 81 80 81 82 81 82 82 82 8082 4 1 0 1 2 1 2 2 2 0 x20(
50、21+5+ +0)82.3(cm)+ 8092x93例:例:x20182.3(cm)(79 1 + 802 + +86 1)株高x次数ffx79179802160813243826492833249843252851858618694ffxfxffffxfxfxfxkiikiiikkk11212211ixifk 若为若为,则用每组组中值乘以该组次数,则用每组组中值乘以该组次数之和再除以总次数来计算:之和再除以总次数来计算:95组别组中值(x)次数(f)fx101534520256150303526910404530135050552413206065852070753225合计1004520)
51、(2 .451004520kgffxx96)(89.738270012007251500750kgffxx97(x-x) = 0(x-x) 2 (x-a) 2 (三)算术平均数的重要性质(三)算术平均数的重要性质98(x-x-) = x1+ x2 +.+ xn n. x- = x-n x/n= x- x=0(x-a) 2= (x-x-)+ (x-a)2 = (x-x-)2+2 (x-x-) (x-a)+ (x-a)2= (x-x-)2+ (x-a)2= (x-x-)2+ (x-a)2 99一、平均数(四)算术平均数的作用(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资)指
52、出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。)作为样本或资料的代表数与其他资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。)用样本的平均数估计总体平均数。100二、变异数变异数的种类变异数的种类101二、变异数 是数据分布的两端变异的最大范围,即样是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用本变量值最大值和最小值之差,用R表示。它是资表示。它是资料中各观测值变异程度大小的
53、最简便的统计量。料中各观测值变异程度大小的最简便的统计量。例:150尾鲢鱼体长 R=85-37=48(cm)R = maxx1,x2, xn - minx1,x2, xn =x1,x2, xnmax - x1,x2, xnmin102二、变异数简单明了简单明了当资料很多而又要迅速对资料的变异程度作出当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。判断时,可以利用极差。(1) 除了最大、最小值,不能反映组内其他数据的除了最大、最小值,不能反映组内其他数据的变异。变异。优点优点缺点缺点用途用途(2)样本较大时抽到较大值与较小值的可能性也样本较大时抽到较大值与较小值的可能性也较大,因而
54、样本极差也较大,故样本含量相差较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。较大时,不宜用极差来比较分布的离散度。103二、变异数如何准确地表示样本内各个观测值的变异程度如何准确地表示样本内各个观测值的变异程度平均数平均数可以求出各个观测值与平均数的离差,即离均差。可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为零离均差之和为零。(x-x ) = 0? 104二、变异数平方和(平方和(SS)平方和的平均数平方和的平均数(x-x ) 2 (x-x ) 2 n
55、105二、变异数(x-x ) 2 n(x-x ) 2 n-1自由度自由度(degree of freedom)106二、变异数(x-x ) 2 n-1均方均方(mean square,MS)方差方差(variance)107二、变异数(二)(二)方差方差(Variance)(x-x ) 2 n-1S2 =2=(x-) 2 N样本样本总体总体108二、变异数 样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出。109二、变异数(三)标准差(三)标准差(standard deviation, Sd)S =(x
56、-x ) 2 n-1=(x-) 2 N样本样本总体总体110二、变异数(三)标准差(三)标准差(standard deviation, Sd)(x-x ) 2 n-1S =S =x 2 x )2 (nn-1111二、变异数x=411x2=18841X=6X2=76 表表2-8 9名男子前臂长(名男子前臂长(cm)标准差计算标准差计算 前臂长前臂长 x2 x=x-45 x2 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 -4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 2116 1 1 49 2401 4 1
57、6112二、变异数18841 -411*41199-1S =3.0(cm)76 - 6*699-1S =3.0(cm)113二、变异数(三)标准差(三)标准差(standard deviation, Sd) f x2 f x)2(n-n-1S =114例:例:x20182.3(cm)(79 1 + 802 + +86 1)株高x次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396115二、变异数(三)标准差(三)标准差(standard deviation, Sd)特
58、性特性标准差的大小,受多个观测数影响,如果观测数标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。差也大,反之则小。1各观测数加上或减去一个常数,其标准差不变各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数各观测数乘以或除以一个常数a,其标准差扩大或,其标准差扩大或缩小缩小a倍。倍。116二、变异数(三)标准差(三)标准差(standard deviation, Sd)3正态分布sx1x2sx3s68.27%95.46%99.73%117二、变异数(三)标准差(三)标准差(sta
59、ndard deviation, Sd)作用作用1表示变量分布的离散程度。表示变量分布的离散程度。4估计平均数的标准误。估计平均数的标准误。3进行平均数的区间估计和变异系数计算。进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。观测数在总体中所占的比例。118二、变异数定义:样本的标准差除以样本平均数,所定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。得到的比值就是变异系数。CV=s / x 100%特点:是样本变量的特点:是样本变量的,不带单位。,不带单位。 可以比较可以比较相对变异程度的大小。相对
60、变异程度的大小。119二、变异数(四)变异系数(四)变异系数(coefficient of variability, CV )中粳中粳“农垦农垦57”大田,穗粒数大田,穗粒数44.6,标准差,标准差18.9丰产田,穗粒数丰产田,穗粒数65.0,标准差,标准差18.3大田,大田,CV=42.38%丰产田,丰产田,CV=28.15%丰产田中粳穗粒数的整齐度优于大田丰产田中粳穗粒数的整齐度优于大田120二、变异数(四)变异系数(四)变异系数(coefficient of variability, CV )用途用途比较度量衡比较度量衡单位不同单位不同的多组资料的变异度。的多组资料的变异度。例:某地例:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 解析2025年信息系统监理师考试重要试题及答案
- 金属餐具的表面处理颜色搭配研究考核试卷
- 皮革服装设计与消费者行为关系考核试卷
- 计算机三级数据库考试全景式试题及答案
- 行政组织中的协调与控制方法试题及答案
- 私有云与传统网络的优势和不足试题及答案
- 监理师考试学员问答试题及答案
- 计算机三级数据库考试回顾试题及答案
- 公司相关经营管理制度
- 公司文档格式管理制度
- 薪酬管理的试题及答案
- 信息技术基础知识试题及答案
- 校长在高考壮行仪式上讲话以青春做桨让梦想为帆
- 中国鸦胆子油行业市场现状调查及前景战略研判报告
- 仓库管理测试题及答案
- 2025年国际贸易实务考试模拟题及答案
- 2025雅思考试写作专项预测试卷:时态与语态运用试题
- 高中生物易错点
- 5G网络中SDN与边缘计算的深度融合-洞察阐释
- 2024年江苏省南京市中考语文质检试卷
- 《中考化学总复习资料(通用)》
评论
0/150
提交评论