




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 资料的整理与描述,在试验研究中,通过观察、测量和记载,可获得大量的原始数据资料。这些资料往往是零乱的,无规律性可循。 通过对资料的整理,才能发现其内部联系和规律性;,退 出,第一节 资料的整理 一、资料的分类 在田间试验中,由观察、测量所得的资料,按其性质的不同,一般可分为两大类: (一)数量性状资料 (二)质量性状资料,下一张,主 页,退 出,上一张,(一)数量性状资料 数量性状是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料。 数量性状资料的获得有量测和计数两种方式,因而数量性状资料又分为以下两种: 1、计量资料 2、计数资料,下一张,主 页,退 出,上一张,1、计量资料 指用量测方式获得的数量性状资料。 计量资料的观测值不一定是整数,两个相邻整数间允许有带小数的任何数值出现,数据间的变异是连续的。因此,计量资料也称为连续性变异资料。,下一张,主 页,退 出,上一张,2、计数资料 指用计数方法获得的数量性状资料。计数资料的观察值只能以整数表示,在两个相邻整数间不允许有任何带小数的数值出现。 各个观察值是不连续的。因此,计数资料也称为不连续性变异资料或间断性变异资料。,下一张,主 页,退 出,上一张,(二)质量性状资料 质量性状又称属性性状。 这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,方法有以下两种: 1、统计次数法 2、评分法,下一张,主 页,退 出,上一张,1、统计次数法 在一定的总体或样本内,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。 【例如】,孟德尔的红花豌豆与白花豌豆的杂交试验,统计F2不同花色的植株时,在1000株植株中,有红花266株、紫花494株、白花240株。 这种利用统计次数法对质量性状数量化得来的资料又叫次数资料。,下一张,主 页,退 出,上一张,2、评分法 这种方法是用数字级别表示某种现象在表现程度上的差别。 【例如】小麦感染锈病的严重程度可划分为0(免疫)、1(高度抵抗)、2(中度抵抗)、3(感染)级。【又如】观察施用某种农药后害虫的死亡情况,记“死”为0,记“活”为1。,下一张,主 页,退 出,上一张,二、资料整理的方法 根据样本大小确定是否分组: 对小样本(n30)资料,可按观察值进行分组。 当样本较大(n30)时,宜将观测值分成若干组,制成次数分布表,以了解资料集中与分散的情况。 不同类型的资料,整理方法不同。,下一张,主 页,退 出,上一张,1、计数资料的整理 对于观察值不多、变异范围不大的计数资料,以每一观察值为一组进行分组,然后制成次数分布表。 【例如】随机调查100个麦穗,计数每穗小穗数,原始数据列于表2-1。,下一张,主 页,退 出,上一张,表2-1 100个麦穗的每穗小穗数,下一张,主 页,退 出,上一张,上述 100 个麦穗的每穗小穗数在1520范围内变动,变异范围不大。以每一个观察值为一组,共分为6组。把所有观察值按每穗小穗数予以归组,可得表2-2形式的次数分布表。,下一张,主 页,退 出,上一张,表2-2 100个麦穗每穗小穗数的次数分布表,有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多而每组所包含的观察值太少,资料的规律性显示不出来。 对于这样的资料,可扩大为几个相邻的观察值为一组 , 适当减少组数,分组后,资料的规律性就较明显。,【例如】研究某早稻品种的每穗粒数,共观察200个稻穗,每穗粒数的变异幅度为27 83 粒。 如果按每一观察值分为一组,需要分57组,每组所包含的观察值太少,资料的规律性显示不出来 ; 如以相差5粒为一组,共分为12组,则资料的规律性较明显,如表2-3所示。,每穗粒数(x) 次数() 2630 1 3135 3 3640 10 4145 21 4650 32 5155 41 5660 38 6165 25 6670 16 7175 8 7680 3 8185 2 合 计 200,表2-3 200个稻穗每穗粒数的次数分布,2、计量资料的整理 【例如】表2-4中为水稻产量调查结果。,下一张,主 页,退 出,上一张,表2-4 140行水稻产量 (单位:g),177 215 197 97 123 159 245 119 119 131 149 152 167 104 161 214 125 175 219 118 192 176 175 95 136 199 116 165 214 95 158 83 137 80 138 151 187 126 196 134 206 137 98 97 129 143 179 174 159 165 136 108 101 141 148 168 163 176 102 194 145 173 75 130 149 150 161 155 111 158 131 189 91 142 140 154 152 163 123 205 149 155 131 209 183 97 119 181 149 187 131 215 111 186 118 150 155 197 116 254 239 160 172 179 151 198 124 179 135 184 168 169 173 181 188 211 197 175 122 151 171 166 175 143 190 213 192 231 163 159 158 159 177 147 194 227 141 169 124 159,计量资料,分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值归组制成次数分布表。,(1)求全距 全距是资料中最大值与最小值之差,又称为极差,用R表示,即 R=Max(x)-Min(x) 表2-4中,水稻产量最大观测值为254g,最小观测值为75g,全距为: R = 254 75 = 179(g),下一张,主 页,退 出,上一张,(2) 确定组数和组距 组数的多少视样本容量及资料全距的大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。 组数要适当,不宜过多,亦不宜过少。分组过多或过少,资料的规律性都不能很好的反映不出来,计算出的统计数的准确性也较差。,下一张,主 页,退 出,上一张,表2-5 样本容量与组数 样本容量 组 数 3060 5 8 60100 8 10 100200 1012 200500 1218 500以上 1830,下一张,主 页,退 出,上一张,组距指每组的最大值与最小值之差,记为i。分组时要求各组的组距相等。 组距(i)= 全距/组数 表2-4中的观测值个数即样本含量为140,查表2-5,取组数为12,则组距为: 组距(i)= 179/12=14.9(g) 以15g作为组距。,下一张,主 页,退 出,上一张,(3)确定组限和组中值 各组的最大值与最小值称为组限,最小值称为下限,最大值称上限。每一组的中点值称为组中值,是该组的代表值。组中值与组限、组距的关系为: 组中值 = (组下限+组上限)/2 = 组下限 + 组距/2 = 组上限 - 组距/2,下一张,主 页,退 出,上一张,由于相邻两组的组中值之差等于组距,所以当第一组的组中值确定后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。,下一张,主 页,退 出,上一张,在资料分组时: 通常第一组的组中值以接近或等于资料中的最小观测值为好。 第一组的组中值确定后,则该组组限也随之确定,其余各组的组中值和组限也可相继确定。 注意,最后一组的上限应大于资料中的最大值。,表2-4中,最小观测值为75,选取75为第一组的组中值;因组距为15,所以 第一组的下限为75-15/2=67.5; 第一组的上限也就是第二组的下限为 67.5+15=82.5; 第二组的上限也就是第三组的下限为 82.5+15=97.5;,下一张,主 页,退 出,上一张,依此类推,一直到某一组的上限大于资料中的最大值254为止。 分组为: 67.582.5, 82.597.5, , 247.5262.5。,为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组,即约定“上限不在内”。 通常将上限略去不写: 如第一组记为67.5 ; 第二组记为82.5 ; 第三组记为97.5 ; ; 最后一组记为247.5 。,下一张,主 页,退 出,上一张,(4)归组、制作次数分布表 将资料中的每一观测值逐一归组,然后制成次数分布表。 如表2-4中,第一个观测值177,应归入表2-6中第8组; 第二个观测值215,应归入第10组; 依次把140个观测值都进行归组,制成次数分布表,见表2-6。,表2-6 140行水稻产量数据的次数分布表,实际组数(13组)比原来确定组数(12组)多一组原因:由于第一组的组中值等于最小观测值,故第一组的下限小于最小观测值,实际上增加了1/2组,这样也使最后一组的组中值接近于最大值,又差不多增加了1/2组,所以实际组数比原来确定组数多一组。,下一张,主 页,退 出,上一张,利用次数分布表不仅便于观察资料的规律,还可根据它绘成次数分布图和计算平均数、标准差等统计数。 在归组时应注意:不要重复或遗漏,通过将各组的次数相加是否等于样本容量予以核查。,3、质量性状资料的整理 对于质量性状资料可按性状或属性进行分组,分别统计各组的次数,然后制成次数分布表。 例如,水稻杂种F2植株米粒性状的分离情况,见表2-7。,下一张,主 页,退 出,上一张,表2-7 水稻杂种F2植株米粒性状分离情况,下一张,主 页,退 出,上一张,四、 常用统计表与统计图,统计表:用表格形式来表示数据间的数量关系; 统计图:用几何图形来表示数据间的数量关系。 使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。,下一张,主 页,退 出,上一张,常用的统计图有柱形图、折线图或饼图等。 图形的选择取决于资料的性质。 计量资料采用柱形图、折线图; 计数资料、质量性状资料采用条形图、饼图。,下一张,主 页,退 出,上一张,柱形图(直方图),100株湘菊梨单株产量方柱形图,47.0 50.0 53.0 56.0 59.0 62.0 65.0 68.0 71.0 74.0,20 15 10 5 0,适用于表示连续性变异资料的次数分布。,100株湘菊梨单株产量方柱形图,48.5 51.5 54.5 57.5 60.5 63.5 66.5 69.5 72.5,20 15 10 5 0,次数 f,折线图,适用于计量资料的次数分布图,且在同一图上可比较两组以上资料。,100个麦穗每穗小穗数条形图,15 16 17 18 19 20,30 25 20 15 10 5 0,次数 f,适用于计数资料和质量性状资料。,条形图,适用用于间断性变数和属性变数资料,用于表示各种属性的观察值在总观察值个数中的百分比。,54%,21%,17%,8%,图2-5 水稻杂种F2米粒性状分离,饼 图,一、平均数,第二节 资料的描述,平均数是统计学中最常用的统计数,表示资料中观测值的中心位置,作为资料的代表与另一资料相比较。 主要有算术平均数、中位数、众数、几何平均数与调和平均数5种。,资料中各观测值的总和除以观测值的个数所得的商,称为算术平均数,简称为平均数或均数。用符号 表示。 1、计算方法 (1)直接法:适用于样本含量较小(n30) 和未分组的资料。,(一)算术平均数,其中,为总和符号, 表示从第一个观察值x1累加到第n个观察值xn,若在意义上已明确时,简记为 。,此时,【例】 在大豆“吉农904”区域试验中, 6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.5(kg)。求该品种的小区平均产量。 即吉农904的小区平均产量为23.5kg,对于大样本(n30)且已分组资料,可在次数分布表的基础上采用加权法计算平均数:,xi 各组组中值; fi 各组次数; k 分组数。,(2)加权法,【例】 用加权法计算表2-6资料中140行水稻平均产量。 即140行水稻平均产量为157.93g。 采用直接法算得 =157.47g,用加权法计算的结果与其十分接近。,2、算术平均数的基本性质,性质1 样本各个观察值与平均数之差的和为零,即离均差之和为零; 性质2 样本各观察值与平均数之差的平方和为最小,即离均差的平方和最小。,3、总体平均数 通常用表示总体平均数。包含N个个体的有限总体的平均数的计算公式为:,统计学中,用样本平均数 估计总体平均数。,统计学已证明样本平均数 是总体平均数的无偏估计。,将资料中所有观测值从小到大依次排列,位于中间位置的观测值,称为中位数,简称中数,记作Md。 当观测值的个数为偶数时,则以位于中间位置的两个观测值的平均数作为中位数。,(二) 中位数,资料中出现次数最多的那个数或次数最多一组的组中值称为众数,记为Mo。,(三) 众数,(四)几何平均数,n个观测值相乘之积开n次方所得的方根,称为几何平均数,记作G。,(一)标准差的意义 用平均数作为样本的代表,其代表性的强弱受样本中各观测值变异程度的影响。如果各观测值变异小,则平均数的代表性强;如果各观测值变异大,则平均数代表性弱。 仅用平均数对一个资料的特征特性作统计描述是不全面的,还需引入一个表示资料中各观测值变异程度大小的统计数。,二、变异数,极差:计算极差时只用了资料中的最大值和最小值,因而极差不能准确表达资料中全部观测值的变异程度,较粗略。 为了克服极差的缺点,常使用标准差来表示资料的变异程度。,1、极差,设一样本有n个观测值: 。为了准确描述样本内各观测值的变异程度,人们首先想到以平均数为标准,求各个观测值与平均数的差, ,即离均差。离均差大,变异就大,反之,变异就小。,2、标准差,将每个离均差平方,进而求得离均差的平方和,简称平方和,记作 SS ,用来反映资料所有观测值的总变异程度。,离均差可表达观测值偏离平均数的程度和性质,但由于离均差之和为零,不可能把离均差之和作为描述样本内所有观测值总变异程度的统计数。,由于平方和常随样本容量n而改变,为了消除样本容量的影响,用平方和除以样本容量n,即得离均差平方和的平均数,为了使所得的统计数是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本容量 n,而用自由度n-1。,用统计数 表示资料所有观测值的总变异程度。,统计数 称为均方(缩写为MS),又称样本方差,记为S2,即,总体方差,记为2 对于含有N个个体的有限总体而言,2的计算公式为:,由于样本方差带有原观测单位的平方单位,而且常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。,统计学上把样本方差S2的平方根叫做样本标准差,记为S,即:,简写为:,或:,自由度,自由度:记为d=n-1 其统计意义是指在计算离均差平方和时,能够自由变动的离均差的个数。在计算离均差平方和时, n个离均差受到 这一条件的约束,能自由变动的离均差的个数是n-1。当n-1个离均差确定了,第 n个离均差也就随之而定了,不能再任意变动。,一般,在计算离均差平方和时,若约束条件为k个,则其自由度d=n-k。,直接法 对小样本(n30)和未经分组的资料,直接利用下式计算标准差。,标准差的计算,【例】 测量某一水稻单株粒重得5个观测值:3、8、7、6、4(g)。计算其标准差S。 即该样本标准差为2.07g。,加权法 对于大样本(n30)且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 排水咨询方案
- 2025年一级注册建筑师之建筑结构考试题库及答案(名师系列)
- 2025年电焊工技能鉴定实操试题及答案(初、中、高级)
- 运动会通信应急预案方案
- 2025年标准预防的考试题及答案
- 升级方案咨询
- 电商直播内容生态构建与流量转化效率研究报告
- 电商流量转化2025年用户行为分析与营销效果评估报告
- 护岸工程浆砌石投标方案(3篇)
- 武汉学校弱电工程方案(3篇)
- 中外广告史(第三版) 课件全套 何玉杰 第0-11章 绪论、中国古代广告的发展- 日本广告的发展
- 三年级全一册《劳动与技术》第二单元 活动3《创意剪纸》课件
- 血液透析室医疗废物管理制度
- 《学生是如何学习的:从学习科学到高效教学》札记
- 《事业单位工作人员年度考核登记表》
- 腾讯客户关系管理对策分析
- 煤矿矿长考试题库
- 《室内施工图深化设计》课件-任务一:项目施工图深化前期准备工作
- 合同诈骗罪-课件
- SL+258-2017水库大坝安全评价导则
- 电动机智能运维与健康管理
评论
0/150
提交评论