第一统计数据的收集和整理_第1页
第一统计数据的收集和整理_第2页
第一统计数据的收集和整理_第3页
第一统计数据的收集和整理_第4页
第一统计数据的收集和整理_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一统计数据的收集和整理第1页,共119页,2023年,2月20日,星期一生物统计学授课人:陈建中E-mail:cjzhong@126.com第2页,共119页,2023年,2月20日,星期一《生物统计学》理解生物统计学基本原理和统计分析方法,学会如何进行科学的试验设计,掌握常用的统计学软件的使用教材:李春喜等编著,2008,生物统计学(第四版),科学出版社。第3页,共119页,2023年,2月20日,星期一第一次统计数据的收集和整理第二次概率与概率分布以及常见的概率分布第三次抽样分布和统计推断第四次参数估计和拟合度检验第五次单因素方差分析第六次多因素方差分析

第七次直线回归与相关分析第八次试验设计与统计分析Spss软件在生物统计学中的应用(8学时)教学计划(学时安排)第4页,共119页,2023年,2月20日,星期一第一章统计数据的收集和整理第5页,共119页,2023年,2月20日,星期一主要内容生物统计学的概述定义、作用、发展简史统计学中几个基本概念总体、样本、个体、抽样数据类型及频率分布连续和离散数据频数频率分布图样本的典型参数平均数标准差偏斜度和崤度变异系数第6页,共119页,2023年,2月20日,星期一一、生物统计学的概述生物统计学定义生物统计学的主要内容生物统计学的作用生物统计学的发展简史第7页,共119页,2023年,2月20日,星期一

统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程,是收集、分析、列示和解释数据的一门科学。统计学被广泛地应用于解决自然科学和社会科学各个领域中具体的随机现象的规律性,形成了应用于各个学科领域的统计学,即应用统计学。第8页,共119页,2023年,2月20日,星期一生物统计学概念

生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。属于应用统计学的一个分支。第9页,共119页,2023年,2月20日,星期一在对事物的研究过程中,人们往往是通过某事物的一部分(样本),来估计事物全部(总体)的特征,目的是为了以样本的特征对未知总体进行推断,从特殊推导一般,对所研究的总体作出合乎逻辑的推论,得到对客观事物的本质和规律性的认识。在生物学研究中,我们所期望的是总体,而不是样本。但是在具体的试验过程中,我们所得到的却是样本而不是总体。因此,从某种意义上讲,生物统计学是研究生命过程中以样本来推断总体的一门学科。生物统计学是研究生命过程中以样本推断总体的一门学科。第10页,共119页,2023年,2月20日,星期一生的物基统本计内学容试验设计Experimentdesign统计分析Statisticalanalysis基本原则方案制定常用试验设计资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析对比设计随机区组设计平衡不完全区组设计裂区设计拉丁方设计正交设计生物统计学的内容与作用如何合理地进行调查或试验设计如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。第11页,共119页,2023年,2月20日,星期一生物统计学的基本作用:提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。运用显著检验,判断试验结果的可靠性或可行性。提供由样本推断总体的方法。提供试验设计的的一些重要原则。第12页,共119页,2023年,2月20日,星期一生物统计学的基本作用:提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。原始的数据和资料,杂乱无章,生物统计学提供一套完整科学系统的分析分析方法,能够在众多数据中提炼出有价值的东西第13页,共119页,2023年,2月20日,星期一生物统计学的基本作用:运用显著检验,判断试验结果的可靠性或可行性。无论实验条件如何严格控制,总是无法避免随机误差。所以当拿到实验结果后,首先要判定数据的可靠性!换句话说就是要分离误差产生的原因:是处理导致还是环境导致,还是系统误差等等第14页,共119页,2023年,2月20日,星期一生物统计学的基本作用:提供由样本推断总体的方法。由样本推断总体这是生物统计学的总体思路,具体落实需要一套完整的推断方案。第15页,共119页,2023年,2月20日,星期一生物统计学的基本作用:提供试验设计的的一些重要原则。实验设计有三个原则:随机,重复和局部控制我们力求以较少的人力财力获得较多的数据同时我们也能看到由于实验设计不但,导致实验丧失大量的数据,或者实验设计就不科学!没有代表性第16页,共119页,2023年,2月20日,星期一生物统计学的任务新药物旧药物不同剂量性能试验不同剂量对照试验结果是…?问题:最适使用剂量分别是多少?新药物比旧药物治愈率高吗?1.试验如何设计?2.数据如何整理、分析呢?3.结果是什么?可靠性有多高?4.结论如何?新药是否可生产?第17页,共119页,2023年,2月20日,星期一课外活动:生物统计方法在生物学学术刊物中的应用情况第18页,共119页,2023年,2月20日,星期一学习生物统计的方法和要求掌握统计的基本原理、基本公式和应用条件。2.做好习题作业。3.培养科学的统计思维方法。4.结合所学专业,联系实际。第19页,共119页,2023年,2月20日,星期一J.Bernoulli(贝努里,瑞士,1654~1705)

系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。P.S.Laplace(拉普拉斯,法国,1749~1827)

最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,提出“拉普拉斯定理”,并应用到人口统计、天文学等方面的研究上。初步建立了大样本推断的理论基础,为后人开创了抽样调查的方法。一、古典记录统计学(17世纪中叶至19世纪中叶)生物统计学发展概况第20页,共119页,2023年,2月20日,星期一Gauss(高斯,德国,1777~1855)

正态分布理论最早由DeMoiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。另外,他还完成了最小二乘法的研究,正式发表于1809年。第21页,共119页,2023年,2月20日,星期一F.Galton(高尔登,英国,1822~1911)

19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文《自然界的遗传》。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。二、近代描述统计学(19世纪中叶至20世纪上半叶)第22页,共119页,2023年,2月20日,星期一K.Pearson(卡.皮尔逊,英国,1857~1936)

Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一;Pearson对“回归与相关”进一步作了发展,在1897~1905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。第23页,共119页,2023年,2月20日,星期一W.S.Gosset(歌赛特,英国,1876~1937)

在生产实践中对样本标准差进行了大量研究。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文《平均数的概率误差》,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。三、现代推断统计学(始于20世纪初)第24页,共119页,2023年,2月20日,星期一R.A.Fisher(费歇尔,英国,1890~1962)

Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始的,1923年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在《孟德尔遗传试验设计间的相对关系》一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了FisherYates随机数字表。第25页,共119页,2023年,2月20日,星期一另外,

Neyman(1894~1981)和E.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Yates对田间试验设计等都作出了杰出贡献。第26页,共119页,2023年,2月20日,星期一统计学在中国的传播

我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882~?)翻译了英国统计学家尤尔的著作《统计学之理论》(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。在20世纪30年代,《生物统计与田间试验》就作为农学系的必修课,1935年王绶(1876~1972)编著出版的《实用生物统计法》是我国出版最早的生物统计专著之一。随后1942年范福仁出版了《田间试验技术》等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。第27页,共119页,2023年,2月20日,星期一

新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。1984年1月1日颁布实施《中华人民共和国统计法》,1987年2月国家统计局又发布《中华人民共和国统计法实施细则》,1996年5月八届人大十九次会议通过了《关于修改<中华人民共和国统计法>的决定》。统计电算程序SAS(StatisticalAnalysisSystem)、SPSS(StatisticalPackageforSocialScience)、Excel、DPS(试验设计designofexperiment数据处理processingofdata模型建立simulationanalysis)等的引进,统计学在中国的应用与研究出现了崭新的局面。第28页,共119页,2023年,2月20日,星期一二、统计学中几个基本概念总体、个体和样本以及抽样变量与常量参数与统计数效应与互作误差与错误准确性和精确性第29页,共119页,2023年,2月20日,星期一一、总体与样本具有相同性质的个体所组成的集合称为总体(population),它是指研究对象的全体;组成总体的基本单元称为个体(individual);(总体中的一个研究单位)从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分)总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体(finitudepopulation);包含有极多或无限多个体的总体称为无限总体(infinitudepopulation).第30页,共119页,2023年,2月20日,星期一统计推断总体样本随机抽样总体研究的目的是要了解总体,观测到的是样本,通过样本来推断总体是统计分析的基本特点。第31页,共119页,2023年,2月20日,星期一

构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(samplesize),样本容量常记为n。一般在生物学研究中,通常把n<30的样本叫小样本,n≥30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。第32页,共119页,2023年,2月20日,星期一抽样从总体中获得样本的过程叫抽样(sampling)抽样的目的:通过抽取的样本来研究总体随机抽样放回式抽样非放回式抽样第33页,共119页,2023年,2月20日,星期一二、变量与常数

变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。

常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。第34页,共119页,2023年,2月20日,星期一变量定性变量定量变量连续变量非连续变量也叫离散变量,只能取固定的值,通常是整数。如小白鼠的每胎产仔数在一定范围内可以取任意值,取值是无限的连续的。如小麦的株高在80~90间第35页,共119页,2023年,2月20日,星期一

为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;描述样本特征的数量称为统计数(staistic),也称统计量。常用英文字母表示统计数,例如用表示样本平均数,用S表示样本标准差。三、参数与统计数第36页,共119页,2023年,2月20日,星期一

由于总体一般都很大,或者不能得到,所以总体参数常常无法计算,但可以通过从总体中随机抽样,取得样本,用容易计算得到的样本的统计数来估计总体参数。用样本平均数估计总体平均数μ,用样本标准差S估计总体标准差σ等。“样本的作用在于估计总体”第37页,共119页,2023年,2月20日,星期一四、效应与互作

通过施加试验处理,引起试验差异的作用称为效应(effect)。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。小麦亩产原来400kg

新品种亩产450kg效应值为50kg/亩;高血压病人原来180吃降压药后为130效应值为-50mm汞柱;某人体重原来60kg经减肥后为55kg

效应值为-5kg…...例:第38页,共119页,2023年,2月20日,星期一

互作(interaction),又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。例:田间施肥,亩施1kg氮肥粮食增产3kg;亩施1kg磷肥粮食增产2kg

;亩施1kg氮肥+1kg磷肥粮食增产6kg;3+26多出来1kg,?氮肥和磷肥相互作用引起的正效应:

氮肥(3)+磷肥(2)+氮肥×磷肥(1)=6(kg)第39页,共119页,2023年,2月20日,星期一五、误差与错误变异效应误差随机误差/抽样误差/偶然误差(Randomerror)系统误差/片面误差(Systematicerror)第40页,共119页,2023年,2月20日,星期一

随机误差,也叫抽样误差(samplingerror),是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。第41页,共119页,2023年,2月20日,星期一

系统误差,也叫片面误差(lopsidederror),是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。系统误差主要由一些相对固定的因素引起的,如仪器调校的差异、各批药品间的差异、不同操作者操作习惯的差异等。系统误差影响试验的准确性。只要试验工作做得精细,系统误差是可以克服的。第42页,共119页,2023年,2月20日,星期一

错误(mistake),是指在试验过程中,由于人为作用引起的差错。如测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的,只要以认真负责的态度和细心的工作作风,在试验中是完全可以避免的。原则上,试验中是不允许出现错误的。20年前,德国化学家劳尔赫在研究化肥对蔬菜的危害时,无意中发现,菠菜的实际含铁量并不像所宣传的那样高,只有食品营养化学和各种有关手册所载数据的十分之一,劳尔赫很是诧异,怀疑试验是否有偶然性。于是,他找来各种各样的菠菜叶子,一一加以分析化验,但从未发现哪一种菠菜叶子的含铁量比别的蔬菜特别高的情况。他进而探索所谓菠菜含铁量高的“神话”,是从哪里来的。追踪结果发现,原来是100年前,印刷厂在排版时,不小心把菠菜含铁量的小数点向右错移了一位,从而使它的含铁量扩大了十倍,缪误相传,以至今日。(3.5mg/100g)菠菜中仅有1%的铁在肠道中吸收,90%与草酸结合,不仅难以吸收,而且也会影响人体对铁的吸收利用。

第43页,共119页,2023年,2月20日,星期一六、准确性与精确性

准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为

x,若x与μ相差的绝对值|x-μ|越小,则观测值x的准确性越高;反之则低。精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj

相差的绝对值|xi-xj|越小,则观测值精确性越高;反之则低。第44页,共119页,2023年,2月20日,星期一μ图1μ图2μ图3μ图4准确性不等于精确性。准确性是说明测定值对真值符合的程度大小,而精确性是说明多次测定值的变异程度大小。调查或试验的准确性、精确性合称为正确性。第45页,共119页,2023年,2月20日,星期一第46页,共119页,2023年,2月20日,星期一统计推断总体样本随机抽样现象本质平均数变异数第47页,共119页,2023年,2月20日,星期一畅所欲言

为什么要学习生物统计学?如何学好生物统计学?指出下列术语间的差别:总体与样本变数与常数参数与统计数机误和错误效应与互作准确性与精确性第48页,共119页,2023年,2月20日,星期一试验资料的整理特征数的计算与第49页,共119页,2023年,2月20日,星期一在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料。原始数据无序有序统计分析资料整理揭示事物本质第50页,共119页,2023年,2月20日,星期一第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理第51页,共119页,2023年,2月20日,星期一对试验资料进行分类是统计归纳的基础。数量性状资料质量性状资料(属性性状资料)计数资料(非连续变量资料)计量资料(连续变量资料)变量定量变量定性变量连续变量非连续变量资料第52页,共119页,2023年,2月20日,星期一

数量性状(quantitativecharacter)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacteristics)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。一、数量性状资料第53页,共119页,2023年,2月20日,星期一

1、计数资料

指用计数方式获得的数量性状资料。各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,各观察值是不连续的.

该类资料也称为非连续变量资料或间断变量资料或离散变量资料。第54页,共119页,2023年,2月20日,星期一

2、计量资料

指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,计量资料也称为连续变量资料。第55页,共119页,2023年,2月20日,星期一

二、质量性状资料

质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(dataofqualitativecharacteristics),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:第56页,共119页,2023年,2月20日,星期一

1、统计次数法

在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫次数资料。第57页,共119页,2023年,2月20日,星期一

2、评分法

对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,试剂pH值由酸到碱分成14个等级,取待测试剂滴在pH试纸上,与pH标准色版对比,由红到紫分别定义为1-14

的数值。第58页,共119页,2023年,2月20日,星期一

两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。第59页,共119页,2023年,2月20日,星期一第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理第60页,共119页,2023年,2月20日,星期一调查试验资料搜集的方法第61页,共119页,2023年,2月20日,星期一一、调查

调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查

是对研究对象的全部个体逐一进行调查的方法。2、抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。第62页,共119页,2023年,2月20日,星期一二、试验

试验是对已有的或没有的事物加以处理的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控制。第63页,共119页,2023年,2月20日,星期一第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理第64页,共119页,2023年,2月20日,星期一三、试验资料的整理(一)原始资料的检查与核对调查试验原始数据核对:数据本身是否有错误检查:取样是否有差错订正:不合理数据的订正第65页,共119页,2023年,2月20日,星期一检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。第66页,共119页,2023年,2月20日,星期一不必分组,直接进行统计分析小样本n<30将数据分成若干组以便统计分析大样本n≥30次数分布表次数分布图统计分析样本大小第67页,共119页,2023年,2月20日,星期一三、试验资料的整理(二)次数分布表统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。总横标目(或空白)纵标目1纵标目2……横标目1横标目2数字资料……表号标题1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。2、标目标目分横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,标目需注明计算单位,如%、kg、cm等等。3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。4、线条多用三线表,上下两条边线略粗。第68页,共119页,2023年,2月20日,星期一三、试验资料的整理1计数资料的整理计数资料基本上采用单项式分组法进行整理。特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。第69页,共119页,2023年,2月20日,星期一1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-1

100只来亨鸡每月的产蛋数11~17来亨鸡每月产蛋数变动范围:分为7组统计各组次数计算频率和累积频率制表第70页,共119页,2023年,2月20日,星期一每月产蛋数次数频率累积频率

FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.28

14350.350.6315210.210.8416110.110.951750.051.00表2-2

100只来亨鸡每月产蛋数次数分布表1自然值进行分组,最大值17,最小值11。2数据主要集中在14,向两侧分布逐渐减少。第71页,共119页,2023年,2月20日,星期一表2-3小麦品种300个麦穗穗粒数的次数分布表每穗粒数次数频率累积频率

FrequencyPercentCumulativePercent

18-2230.01000.010023-27180.06000.0700

28-32

380.12670.1967

33-37510.17000.3667

38-42680.22670.5934

43-47530.17660.7700

48-52410.13670.906753-57220.07330.980058-6260.02001.000045组?9组第72页,共119页,2023年,2月20日,星期一三、试验资料的整理2计量资料的整理计量资料一般采用组距式(组限式)分组法。全距组数组距组限归组制表第73页,共119页,2023年,2月20日,星期一表2-4

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又称极差

(range):R=Xmax-Xmin

=85-37=48(cm)第74页,共119页,2023年,2月20日,星期一(2)确定组数和组距(classboundary)组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。组数组距多小统计数精确,计算不方便少大统计数不精确,计算方便第75页,共119页,2023年,2月20日,星期一组数的确定样本容量分组数

30~60

5~860~100

7~10100~200

9~12200~500

10~18>500

15~30表2-5样本容量与分组数的关系组距的确定即每组内的上下限范围。组距=全距/组数=48/10=4.810组5cm第76页,共119页,2023年,2月20日,星期一(3)确定组限(classlimit)和组中值(classmidvalue)组限

是指每个组变量值的起止界限。上限下限组中值是两个组限的中间值。组中值=下限+上限2=组距2下限+=组距2上限-第一组的组中值最好接近于资料的最小值第77页,共119页,2023年,2月20日,星期一表2-4

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;组限可取到10分位或5分位上;临界值就高不就低。35~,40~,45~,…,85~。第78页,共119页,2023年,2月20日,星期一(4)分组确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。计数的方法卡片法唱票法画“正”字画“”第79页,共119页,2023年,2月20日,星期一

组限组中值次数频率累积频率

FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467

55~57.540

0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6

150尾鲢鱼体长的次数分布表第80页,共119页,2023年,2月20日,星期一三、试验资料的整理(三)次数分布图和频率分布图定义:把次数(频率)分布资料画成统计图形。特点:直观、形象包括:条形图、饼图、直方图、多边形图和散点图第81页,共119页,2023年,2月20日,星期一三、试验资料的整理统计图绘制的基本要求:(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。第82页,共119页,2023年,2月20日,星期一图2.1月产蛋数次数分布柱形图图2.2月产蛋数频率分布柱形图条形图(barchart),又称柱形图计数资料特点:柱形之间要间隔一定的距离属性资料第83页,共119页,2023年,2月20日,星期一2饼图(piechart)图1来亨鸡月产蛋次数分布图计数资料属性资料第84页,共119页,2023年,2月20日,星期一图2.3鲢鱼体长次数分布图3直方图(histogram),又称矩形图计量资料354045505560657075808590特点:各组之间没有距离第85页,共119页,2023年,2月20日,星期一三、试验资料的整理图2.3鲢鱼体长次数分布图354045505560657075808590组中值第86页,共119页,2023年,2月20日,星期一4多边形图(polygon),又称折线图(broken-linechart)计量资料图2.3鲢鱼体长次数分布图第87页,共119页,2023年,2月20日,星期一5散点图(scatter)123456432112345643211234564321a.正向直线关系b.负向直线关系c.曲线关系第88页,共119页,2023年,2月20日,星期一表几种动物性食品的营养成分例:牛奶牛肉鸡蛋咸带鱼第89页,共119页,2023年,2月20日,星期一搜集、归纳原始数据用表格、图形来表达数据用量化的统计学指标来描述一组定量数据的分布特征第90页,共119页,2023年,2月20日,星期一第二节试验资料特征数的计算集中性是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:集中性和离散性。第91页,共119页,2023年,2月20日,星期一集中性离散性平均数变异数算术平均数中位数众数几何平均数极差方差标准差变异系数调和平均数特征数第92页,共119页,2023年,2月20日,星期一一、平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。第93页,共119页,2023年,2月20日,星期一一、平均数(一)平均数的种类算术平均数中位数众数几何平均数调和平均数第94页,共119页,2023年,2月20日,星期一一、平均数1.算术平均数(arithmeticmean)定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:样本:第95页,共119页,2023年,2月20日,星期一一、平均数2.中位数(median)

资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。Md

中位数将该组数值分为两半,理论上有50%的变量小于md,,有50%的变量值大于

md,故又称百分之五十位数,记为P50。第96页,共119页,2023年,2月20日,星期一1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:

Md=

2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:

第97页,共119页,2023年,2月20日,星期一一、平均数3.众数(mode)

资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。M0注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。第98页,共119页,2023年,2月20日,星期一一、平均数(二)算术平均数的计算方法直接计算法减去常数法加权平均法第99页,共119页,2023年,2月20日,星期一一、平均数(三)算术平均数的重要性质算术平均数与样本内的每个值都相关,它的大小受每个值的影响;若每个Xi都乘以相同的数k,则原平均数亦应乘以k;若每个Xi都加上相同的数a,则原平均数亦可直接加上a。离均差之和等于零。离均差平方和最小。第100页,共119页,2023年,2月20日,星期一一、平均数(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。第101页,共119页,2023年,2月20日,星期一

集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。

仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的统计量。变异性指标第102页,共119页,2023年,2月20日,星期一二、变异数变异数的种类极差方差标准差变异系数第103页,共119页,2023年,2月20日,星期一二、变异数(一)极差(全距,range)

极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。例:150尾鲢鱼体长R=85-37=48(cm)R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min第104页,共119页,2023年,2月20日,星期一二、变异数三组同年龄、同性别儿童体重(kg)的数据:

I组:26283032348

II组:202530354020

III组:232730333714例:极差一定程度上说明样本波动幅度,但只受两个极端值大小的影响,不能反映样本中各个观测值的变异程度.第105页,共119页,2023年,2月20日,星期一二、变异数如何准确地表示样本内各个观测值的变异程度平均数可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为零。?第106页,共119页,2023年,2月20日,星期一二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论