




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节 试验资料的整理和特征数的计算,第三章 试验结果初步分析及统计学基本原理,一、试验资料的类型、收集与审核,1、试验资料的类型: 正确地进行资料分类是资料整理的前提。,(1)数量性状资料 (quantitative data),由测(度)量和计数得到的数据资料。,连续性变异资料 (continuous variable data)指用量测方式获得的数量性状资料。它们之间的变异是连续性的。,这种资料的各个观测值不一定是正整数。其小数位数的多少由度量工具的精度而定, 如水稻的单株粒重、株高、蛋白质含量等。,不连续性变异资料 (discontinuous or discrete variable
2、) 指用计数方式获得的数量性状资料,也称间断性资料。 如水稻的分裂数、每穗粒数等。,在这类资料中,各个观察值只能以正整数表示,不会出现小数。各观察值是不连续的。,(2)质量性状资料(qualitative data),指能观察到而不能直接测量的性状。也叫属性性状资料。,这类性状本身不能直接用数值表示,须对质量性状资料观察结果作数量化处理,其方法有以下两种:,统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。,这种由质量性状数量化得来的资料又叫次数资料。 发病率:200个单株,152个不发病,48个发病。,评分法 用数字级别表示某一质量性状表现程度的差
3、异。,例如,小麦籽粒的颜色。白色分0,红色为1。将质量性状数字化,以便统计分析。,小结:资料的类型,试验资料,数量性状资料,质量性状资料,连续性数量性状资料,不连续性数量性状资料,统计次数法 评分法,数字化处理,(1)资料的搜集方法 调查搜集: 普查 抽样调查-随机抽样,2、试验资料的搜集与审核,试验搜集 试验指标调查 (取样,剔除异常个体),(2)资料的审核,完整性:是指原始资料无遗缺或重复。,正确性:是指原始资料的测量和记载无差错。检查中要特别注意特大、特小的异常数据。 数据输入中的错误!,剔除不合常理数据 利用数据排序来剔除明显不符合逻辑的数据 作物产量等(水稻产量225克/单株)?,异
4、常数据剔除 如果是随机偏差,小区内抽样应该符合正态分布(如果样本容量较大时),偏差大于3个标准差的测定值概率小于0.3%。,Computer can help you on here!,二、试验资料的整理,原始资料进行科学的分类和汇总。,资料再加工,为统计分析准备系统化的、条理化的综合资料。,(1)质量性状主要是做分类整理。分类数等于组数。 (2)按类别统计次数和频率。 (3)图表显示。,1、质量性状资料的整理,例、水稻杂种二代植株米粒性状整理结果 两对基因/性状(红/白,糯/非糯)的分离 水稻杂种二代植株米粒性状的分离情况 属性分组 次数 红米非糯 96 红米糯稻 37 白米非糯 31 白米
5、糯稻 15 合 计 179,统计图显示方法一:条形图(bar diagram),统计图显示方法二:饼图(pie chart),图2:水稻F2代米粒性状分离圆形图,2、不连续性数量资料的整理,(1)单变量值分组: 适合于变量值较少的情况 将一个变量值作为一组,基本步骤: 排序(找最大最小值)-分组汇总-资料显示,例:欲了解某小麦品种的每穗小穗数情况,随机抽取100株。请编制统计表和图.,统计次数表,统计图显示一:条形图,观察值较多,变异范围较大.如玉米每穗粒数,一般从100500粒。,(2)组距分组,将几个相邻观察值的区间分为一组。,一般采用等距分组,有时也可采用不等距分组。,3、连续性数量性状
6、资料的整理 该类资料一般数据较多,常采用组距分组的方法进行整理。,将变量值的一个区间作为一组 必须遵循“不重不漏”的原则 一般采用等距分组,也可采用不等距分组,求极差,确定组数和组距,选定组限和组中值,编制次数分布表,基本步骤:,(2)确定组数和组距: 分组数可参考书中P38“表3.5” 50 5-10 100 8-16 200 10-20 300 12-24 500 15-30 组距=全距/组数(组距常取近似整数),(1)求极差(全距):一般用R表示 R=最大值-最小值,(3)确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限, 最大值称为上限。每一组的中点值称为组中值,它是该组
7、的代表值。,组中值与组限、组距的关系如下: 组中值(组下限组上限)/2 组下限1/ 2组距 组上限1/2组距,组距确定后, 首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。,注意: 最末一组的上限应大于资料中的最大值。,(4)分组统计,编制次数分布表,表3.4 140行水稻产量 (单位:g),例: 140行水稻产量资料的整理。,(1) 求全距 全距R=最大值-最小值 =254-75=179(g),具体步骤如下:,(2) 确定组数和组距 组数:N140,初步确定组数为11组。,组距: 依组距的计算公式:组距全距组数 组距17911=
8、16.316,第一组的组中值: 为避免第一组中观察值过多,一般第一组的组中值接近或等于资料中的最小值。,本例:以75第一组组中值,与最小值相等。 则第一组组限为: 下限= 75-16/2=67 上限= 75+16/2=83,(3)组中值和组限:,对于不连续性状资料,相邻组组限可以间 断,也可重叠;,组限的表示方法:,对于连续变量,相邻组组限必须重叠;,对于重叠组限,遵循“上组限不计入”原则;,(4)分组统计,编制次数分布表,统计图显示方法:直方图(histogram),87,多指标:折线图(broken-line chart) 散点图(scatter plot),三、试验资料特征数的计算,数据
9、分布的特征:,(一)、平均数,数据资料的代表值,观测值的中心位置,做为资料的代表与另一组资料相比较。,1、算术平均数(arithmetic mean),最常用的集中性指标,简称平均数或均数(mean) 易受极端值的影响,(1)算术平均数的计算,直接法:,加权法: 样本容量较大,且已分组的资料,计算公式为:,代表第i组的组中值 代表第i组的次数 代表分组数,(2)算术平均数的基本性质,样本各观测值与平均数之差的和为零,即离均差之和等于零。,或简写成,样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。,(xi- )2 (xi- )2 (常数 ),2、中数(median),排序后位于中间
10、的那个观测值,称为中位数,记为Md。中数主要用于计数资料。,当数据资料呈偏态分布时(有少量极端数据时),中位数的代表性优于算术平均数。,例如:,原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 Md=22,当观测值的个数是单数时,中间数值的观测值即为中位数。,当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。,原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12,Md=(8+9)/2=8.5,3、众 数(mode),资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0,众数多用于质量性状资料。众数不是唯一的
11、,可能没有,也可能不止一个。 众数不受极端值的影响。,众数的不唯一性,无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,不连续性数量性状的众数,MO=17,众数、中位数和算术平均数的关系,样本平均数( )为总体平均数()的无偏估计量。,4、总体平均数,表示资料中观测值变异程度大小的统计数。,(二)数据的分散性-变异数,常用变异程度的指标: 极差、 方差、 标准差和变异系数。,例:两个小麦品种的每穗小穗数,1、极差(Range),最大值与最小值的差数。也称全距。常用R表示。,甲品种变异范围较大,
12、其平均数的代表性较差,极差的特点:,简单快捷,易受极端值的影响:全距只利用了资料中的最大值和最小值。,离均差有正、有负 ,离均差之和为零,即 ( ) = 0 ,不能用离均差之和 ( )来表示观测值的总偏离程度。,2、方差 (Variance),各个观测值与平均数的离差( ) ,称为离均差。,先将各个离均差平方,即 ( )2 ,再求离均差平方和 , 即 ,简称平方和,记为SS;,用平方和除以样本大小, ,求出离均差平方和的平均数,称为方差或均方。,对有限总体来说,离均差平方和SS除以总体容量N即为总体方差 ,记为2。其2的计算公式为:,样本方差是相应总体方差的无偏估计量,在求样本方差时,分母不用
13、样本含量n,而用 n-1。 于是,样本方差s2为:,n-1称为自由度(degree of freedom)。记做 df 或。,在计算离均差平方和 时,由于n个离均差受到 这一条件的约束,能自由变动的离均差个数是n-1个。当n-1这个离均差确定以后,第n个离均差也随之确定,不能任意变动。,自由度的意义:能自由变动的离均差个数。,例如:有5个离均差。如果前4个离均差为4、3、-2、-1,则第5个离均差只能是-4。 即5个离均差能自由变动的个数是n-1=4个。,自由度 df = n-1 如果有k个约束条件,则自由度将变为: df = n-k,根据平均数的性质 由 计算出的样本方差将与总体方差相比总是
14、偏小。如果分母用n-1代替,可免除偏小的问题。,数理统计上可以证明用样本自由度做除数所得的方差是总体方差的无偏估计。,3、标准差(standard deviation),统计学上把样本方差 s2 的平方根叫做样本标准差,记为s,即:,相应的总体参数叫总体标准差,记为(希腊字母读音见P395)。对于有限总体而言,的计算公式为:,在统计学中,常用样本标准差s估计总体标准差。,(1)标准差的计算方法 直接计算,当平均数为约数时,容易引起误差。,由于,矫正法,所以计算公式可改写为:,【例题】 计算某玉米品种10个单穗的粒数: 450, 450, 500, 500, 500,550, 550, 550,
15、 600, 600,650(g)的标准差。,此例n=10,经计算得:x=5400, x2=2955000,代入上式得: (g),即该玉米品种单穗粒数的标准差为65.828g。,(2)标准差的特性,观测值间变异大,标准差也大,反之则小。,各观测值加上或减去一个常数,标准差不变。,各观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。,4、变异系数 标准差与平均数的比值称为 变异系数(coefficient of variation),记为CV。,用于对不同组别数据变异程度的比较。 可以消除单位不同和平均数相差较大时,对变异程度比较的影响。,例:甲、乙两个小麦品种株高的测量结果
16、,可以看出:甲品种的相对变异较小,即甲品种较乙品种生长整齐。,例题2:比较某小麦品种株高和分蘖数的变异,小麦分蘖数的变异远远大于株高的变异。,注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在使用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。,(三)数据分布的形状-偏斜度和峰度,1、偏斜度(skewness),m值绝对值的大小显示数据偏斜的程度。,2、峰度(kurtosis),当g20时,曲线趋于陡峭。 当g2=0时,认为数据是“正态的”。,由统计软件计算,理解数字代表的意义!,管理系统,程序的输入、修改、运行、读入、打印和存储等操作,存放程序运行过程,包括程序语句
17、、注释、警告、错误显示等信息,存放程序运行产生的结果,程 序,一个SAS程序一般包括两个部分:,数据步 (DATA step) 建立SAS数据集 过程步 (PROC step) 调用一个或多个程序模块完成数据分析,数据步 (DATA step),INPUT sex$ x y; CARDS; 男 18 178 女 18 167 女 21 165 女 17 158 男 20 180 ;,过程步 (PROC step),PROC 程序模块; RUN;,描述统计常用的过程,MEANS CHART UNIVARIATE,一、概率的基础知识 二、几种常见的理论分布 三、抽样分布,理论分布和抽样分布 (自学),复习:,1、有一个已知正态总体N(,2),从中抽出容量为n的样本。,样本平均数形成的抽样分布也是正态分布。 该抽样分布的特征参数为:,将随机变量 标准化得: 则u N(0,1)。,2、总体标准差常常是未知的,若以样本标准差s代替,将所得到的统计量,因为s和 有一定差异,所以t 变量不再服从标准正态分布,而是服从t分布,它与标准正态分布相似。,t 分布的特点 s和差异的大小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口才课家长会课件
- 人员信用管理办法试行
- 临床医技科室管理办法
- 会议服务许可管理办法
- 丽水公共场所管理办法
- 会议记录归档管理办法
- 保险消费处理管理办法
- 乡村医生聘任管理办法
- 交行并购贷款管理办法
- 临沂广场公园管理办法
- 2024-2025学年度部编版二年级语文下学期期末试卷 (含答案)
- 劳务施工组织与管理方案
- 20以内的加法口算练习题5000题每页100题339
- 2025新人教版英语八上单词默写表(先鸟版)
- 海上沉桩施工技术规程及保障措施
- 2024年河南省方城县事业单位公开招聘教师岗笔试题带答案
- 五年级语文阅读理解《散文》25篇专项练习(含答案)
- 药店如何做好患者管理
- 食品车间员工培训
- 晚期食管鳞癌患者肠道菌群多样性及代谢功能与ICI免疫治疗的相关性
- 患者隐私保护培训课件
评论
0/150
提交评论