实验设计与统计.doc_第1页
实验设计与统计.doc_第2页
实验设计与统计.doc_第3页
实验设计与统计.doc_第4页
实验设计与统计.doc_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章田间试验的设计与实施1.实验的设计要求:实验目的明确;实验要有代表性和先进性;实验结果要正确可靠;实验结果要有重演性。2.在进行试验的过程中,必须严格控制试验条件,尽可能减少试验误差,要努力提高试验的准确性和精确性,使试验结果正确、可靠。 准确性(度):指同一处理的观测值与其真值接近的程度。 精确性(度):指同一处理的重复观测值彼此接近的程度。试验的准确性、精确性合称为正确性。两者关系:1.准确度高,精确度必高;精确度高,准确度不一定高。2.由于处理的真值往往不知道,因而准确度不易确定;然而精确度在统计上是可以计算的。3.当试验没有系统误差时,精确度与准确度是一致的。 试验结果的重演性:指在相同的条件下再次进行同一试验,应能获得与原试验相同的结果。(只有试验结果符合客观规律、能够重演,才有推广应用价值)3.(1)试验方案:根据试验目的和要求所拟进行比较的一组试验处理的总称。(2)因素/子:试验中所要研究和比较的条件和措施。(3)水平:试验因素内量的不同级别或质的不同状态。定性水平:具有质的区别。如不同品种、果实颜色等。定量水平:等间距 如小麦田喷施N肥,分0、5、10g/小区三个水平。 不等间距 如玉米田喷施钾肥,分0、10、20、40、80g/小区五个水平等。(4)处理:试验中的具体比较项目和指标。 单因素试验中,每一水平就是一个处理。多因素试验中,每一水平组合是一个处理。(5)试验单元:接受某种处理最小的试验材料的一个独立单位。(田间试验中称小区) 一个试验单元,只能接受一个处理,也只能有一个输出结果。 (6)唯一差异原则:试验中只允许供试因子有不同水平,而将非试验因子控制在相同水平。4.试验种类(按供试因子数):(1)单因素试验:指整个试验中只变更、比较一个试验因素的不同水平,其他作为试验条件的因素均严格控制一致的试验。特点:试验简单,容易分析、但是不能了解各因素之间的关系。(2)多因素试验:指在同一试验方案中包含两个或两个以上的试验因素,各个因素都分为不同水平,其他试验条件均应严格控制一致的试验。特点:便于了解各因素之间的相互关系,试验复杂,设计不妥时不便于分析(3)综合性试验:各因素的各水平不构成平衡的处理组合,而是将若干因素的某些水平结合在一起形成少数几个处理组合而设计的试验。目的:探讨一系列供试因素某些处理组合的综合作用 (不是因素的单独效应和相互作用)。注意:单因素试验和多因素试验常是分析性的试验;综合性试验则是在对于起主导作用的那些因素及其相互关系已基本清楚的基础上设置的试验。它的处理组合就是一系列经过实践初步证实的优良水平的配套。 5.试验指标:用于衡量试验效果的指示性状。 定性指标:显示观察对象的属性。如施药后个体反映出有效与无效、受害与未受害、死亡与存活等。生成定性资料。定量指标:显示观察对象的量。如产量、株高、茎粗、含水量等。生成定量资料。6.试验效应:试验因素对试验指标所起的增加或减少的作用称为试验效应。简单效应:同一因素内两种水平间试验指标的差异。主效:一个因素内各简单效应的平均数称为平均效应,称为主要效应,简称主效。交互作用/互作:两个因素简单效应间的平均差异。A1A2A2-A1B118246B238446B2-B120207.主效与互作的计算:(1)A因素的简单效应:在B1水平时A2与A1的简单效应=24-18=6在B2水平时A2与A1的简单效应=44-38=6(2)A因素的主要效应: A因素的主效=(6+6)/2=6(3)A、B因素的互作效应: 互作效应=(6-6)/2=0 =(20-20)/2=0(4)当A1B1+A2B2=A1B2+A2B1时,A、B间不存在互作。该例:A1B1+A2B2=62,A1B2+A2B162,所以A、B间不存在互作。8有时某一因素在另一因素水平上所产生的效应不同 。A1A2A2-A1B1182810B23022-8B2-B112-6A2与A1 (在水平上)=A2B1-A1B1=28-18=10A2与A1 (在2水平上)=A2B2-A1B2=22-30=-8A的效应因的水平而不同,故:和因素间存在交互作用。互作大小:(A1B1+A2B2)-(A1B2+A2B1)/2(18+22)-(30+28)/2=-99.互作的判断:统计方法、专业知识,作图法。两个因素间的互作称为一级互作,三个因素间的互作称二级互作,余类推。二级以上的高级互作较难理解,实际意义不大,一般不予考察。10.制订试验方案的要点()试验目的明确,能有效地解决实际问题。()确定供试因素及水平:抓关键因素,设适当水平。()设置对照。()注意唯一差异原则,正确分析因素效应。()正确处理试验因素及试验条件间的关系。()尽量设计多因素试验,因素过多时可采用部分实施。11.试验误差:由于非处理因素的干扰和影响而使观察值与试验处理真值之间出现的偏离。误差的种类:(1) 系统误差:由于试验单元中的供试体在管理方法、测试仪器等方面有差异,从而使观察值与真值间发生有一定方向的系统偏离。特点:能找出产生误差的原因,系统误差影响试验的准确性。后果:偏离真值、影响准确度、影响正确结论的得出。措施:不能用统计方法消除,只能用试验设计来避免,如选择同质一致的试验材料、标准化操作技术和对试验的外界条件的一致性控制(如试验地、测试仪器)等。系统误差意味着有另外的因素在暗中起了作用,因此,试验前必须想办法知道单元间有无系统误差,如存在,必须用试验设计的各种方法(如增加区组因素和随机排列)将其排除 。 (2) 随机误差:由于试验单元、管理方法、测试仪器、操作方法等偶然因素所造成的观察值与真值间的偏离。 随机误差影响试验的准确性和精确性。 特点:影响数据的精确度和准确度; 具有层次性; 围绕着真值而出现; 具有随机性; 不可避免但可减小。 控制方法:改进试验设计; 进行统计分析。(3) 错失误差:试验中由于试验人员粗心大意所发生的差错。 如记录、测量错误等这就要求试验人员要敬业,细心进行试验,以杜绝错失误差。注:以后课程中所说的误差都是指随机误差。12.误差来源:、试验材料本身固有的差异。、试验操作和管理技术的不一致。、外界条件的差异(病虫害、土壤肥力、气候条件、人畜践踏等)。13.控制途径:、选同质的试验材料;、农事操作标准化;、控制引起差异的外界主要因素。14.实验设计:是指试验研究工作进行前应用数理统计原理,制定试验方案,选择试验材料,合理分组,使我们可以利用较少的人力、物力和时间,获得多而可靠的信息资料,得出科学的结论。统计分析与试验设计是不可分隔的两部分。试验设计需要以统计的原理和方法为基础,而正确设计又为统计分析提供了丰富可靠的信息,两者紧密结合推断出较为客观的结论,不断地推动农业科学研究的发展。15.试验设计的基本原则:设置重复、随机化和局部控制(区组化)。 意义:避免系统误差、减小随机误差、正确估计试验误差、提高(精 )准确度。(一)设置重复:试验中同一处理的试验单元数,即为重复数。 作用:1、估计随机误差:试验中没有系统误差存在时,可用多次重复观察间的参差不齐程度来估计随机误差 ,如果只重复一次,就无法估计随机误差。 2.降低试验误差:随机误差有正有负,有高有低,无一定方向。多次重复平均后,正负误差可抵消一部分。(二) 随机排列:试验单元的分配和各个试验进行的次序都是随机的。 作用:获得无偏的误差估计 (三)局部控制:将整个试验空间分成若干个各自相对均匀的局部,每一个局部叫做一个区组,所有局部构成整体。作用:区组内增加试验的精确度便于操作。1、增加了一个区组因素,可以把区组因素的差异(系统误差)从观察值的误差中分离出来,降低试验误差,增加试验的准确度;2、各区组内可以保证试验单元的 一致,增加试验的精确度3、便于操作管理。16.常用的试验设计根据试验单元的排列是否随机,试验设计分为两大类:顺序排列和非顺序排列。一、顺序排列的试验设计(一)对比法设计u 特点:每一供试单元都直接排列于对照(check)旁边,使每一材料可与其邻近的对照直接比较,所以称为对比法。u 优点: 精确度较高。u 缺点: 对照过多,占1/3; 不能进行无偏估计; 适用于少量处理。(二)间比法排列u 特点:一条地的第一个和最后一个小区一定是对照;每两个对照间排列相同数目单元,一般为个或个;各重复排成一排或多排式,多排式排列时一般用逆向式排列;一条地排不下时,可在第二条地接排,但开始时仍设一对照,称为额外对照。u 优点: 设计简单、不易发生差错; 可按品种熟期、株高等排列,减少生长竞争。u 缺点: 误差有偏,不能进行显著性测验和方差分析; 地力不均时有系统误差。二、随机排列的试验设计在试验设计的实践中,根据Fisher三个基本原理的应用情况,试验可分为完全随机化试验、随机区组试验、拉丁方试验等。(一)完全随机根据重复和随机化两个基本原理设计。试验的每一个处理都有若干个重复的试验单元,而所有试验单元在试验中的排列是完全随机的。u 优点: 设计方便,分析简易,精确度高。u 缺点: 这类试验要求所有试验单元的各 种非试验因素都相当一致,否则就会 增大试验误差,甚至受到系统误差的 干扰。 完全随机化试验可适用于单因素试验和多因素试验。 u 随机的方法:)抽签)随机数字表(附表1)计算机/器随机数字(二) 随机区组u 应用重复、随机化和局部控制三个基本原理设计的试验,最常用。u 试验单元出现系统误差时,必须采用局部控制原理,即进行区组化。u 一个区组等价一个重复。u 适用于单因素试验和多因素试验。u 优点: )设计和分析简单,易于掌握。 )富于弹性,单、多因素试验均可应用; )能提供无偏的试验误差估计,有效降低单向系统误差差异。 )对试验条件的要求不严,必要时,不同区组可以安排在不同空间。u 缺点: 1)处理数不允许过多,最好在10个左右,最多不超过20个,当处理数目太多时,区组内的试验单元数就增加,会降低局部控制的效率 2)只能一个方向控制系统误差。u 田间布置: 区组与系统误差方向垂直;(三) 拉丁方试验拉丁方是较随机区组多一限制的随机排列设计,它是将试验处理从两个方向上排列成区组或重复。从两个方向控制土壤肥力差异,提高精确度。1、拉丁方的特点:1)重复数处理数直行数横行数。2)每个处理在横行或直行区组都出现一次,两个方向都可看成重复。3)两个方向进行局部控制,试验精确度较高。2、缺点: 1)处理多时重复次数随之增多,试验工作量增大。一般不宜超过个处理。 2)处理数过少时误差自由度过小,影响分析结果的精确性。 3)操作较复杂,缺乏灵活性。3、标准方:第一横行和第一直行均为顺序排列的拉丁方。 共轭方:一个标准方的直行为另一标准方的横行,则此两个标准方称互为共轭方。 如:4、自身共轭方:一个标准方的直行调成横行仍是原标准方即为自身共轭方。5、拉丁方实验设计的步骤:)选择拉丁方: 根据处理数K随机地选择合适的标准方。)直行随机:)横行随机:)处理(品种)随机:(四)裂区试验随机区组试验的一个特殊形式:u 先将第一个因素按随机区组设计划分成几个区组(重复),每一区组的小区数等于该因素的水平数,这些小区称为主区。u 再将第二因素随机排列在每一主区内,这些小区称为副(裂)区。u 特点: 1)主、副处理分设在主、副区,可分别估计主、副区误差; 2)副区误差比主区误差小,即副区的比较比主区的比较更精确。u 应用:)一个因素较另一因素需要更大的小区面积:需要较大面积的因素设在主区,较小面积的因素设在副区。如中耕、肥料、灌溉等试验需要较大面积。)一个因素的主效比另一因素的主效更为重要或两个因素间的交互作用比其主效更重要: 将要求更高精确度的因素作为副处理,另一因素作为主处理。)某一因素的效应较另一因素的效应更大时:将表现较大差异的因素作为主处理。)试验已经进行需临时加入个或几个试验因素:把临时因素排列在原来的处理区内。 如:在已经进行的品种试验中临时加入叶面喷P试验,可在原小区内设个副区:喷p、 喷清水和不喷。五)再裂区设计三因素裂区试验,需再裂区设计。l 在副区内划分更小的小区(再裂区),将第三个因素的各个处理(副副处理)随机排列在再裂区内。l 优点:精确度高,再裂区设计可以研究因素间的高级互作,能估计种误差:主区、副区、副副区误差。l 缺点:设计及统计分析较麻烦。(六)巢式设计 根据处理因素A的水平数分为不同的组,每组内又分为不同亚组,每个亚组内有不同的观察值。 u 应用 病害调查:随机选若干株果 树,每株取不同部位枝条,每枝条选若干叶片查病斑数;玉米遗传参数测定。 第二章 资料的整理1.资料:通过观察、记载得到的试验数据。2.资料整理:对原始资料进行加工处理,使其条理化、系统化,形成能够反映总体特征的综合资料的过程。 目的:将原始资料进行系统整理,按一定的顺序排列,比较直观地了解资料的基本情况。资料整理的基本方法:次数分布 (包括次数分布表和次数分布图)一次数分布表根据资料内的变数多少把整个资料分成若干组,并把每个变数分别归组,统计各组变数的次数,制成次数分布表。连续性资料次数分布表制作方法:()、计算极差(range): R=xmax-xmin()、确定组数和组距(class interval)组数K:公式或查表:k=3.3lgn+1 (n:样本容量)观察值个数组数 50 5-10 100 8-16 200 10-20 300 12-24 500 15-30 1000 20-40确定组数时应考虑:1)样本大小2)极差大小3)便于计算4)资料真实性 组距i=R/K()、确定组中(点)值与组限组中(点)值(class value):各组变数数值的中点,第一组中(点)值应以接近或等于最小观察值为好。组限(class limit):每组数值的上下限(L,U)。组限最好比观察值多一位小数,便于计算。第一组: 下限=中值-1/2组距 上限=中值+1/2组距第二组:下限=第一组的上限 上限=下限+组距 余类推(4)、原始资料变数归组。全部变数分别归组,完毕后累加每组内变数次数并列出,制成一个次数分布表。 二、次数分布图用点、线、面的位置、升降或大小来表达统计资料数量关系的一种形式。或将次数分布作成图的形式。主要种类:方柱形图 曲线图 条形图 饼形图(1).方柱形图用于表示连续性变数的次数分布.1)按次数分布表,以组限为横坐标,前一组的上限即为后一组的下限。2)在纵坐标轴上标定次数3)画出方柱形图(2).多边形图表示连续性变数资料。能在同一图上绘两组以上的资料,以作直观的分析比较。作法:以每组的中点值为横坐标,以组次数为纵坐标,在对应的高度处作一点,最后用直线将各点依次连接。 (3).条形图适用于间断性变数和属性变数资料,用以表示这些变数的次数分布情况。条形图绘制较容易,x轴标出间断的中点值或分类性状,y轴标出次数。()饼形图:以百分比表示3.总体(population):具有共同性质的个体所组成的集团。4.参数:由总体的全部观察值算得的描述总体的特征数。总体参数用希腊字母表示,如:、等5.样本:从总体中抽出的个体的集合。6.样本容量:样本中所含有的个体数,以n表示。 大样本:样本容量较大的样本(n) 小样本:样本容量较小的样本(n)7.抽样:从总体中获得样本的过程.抽样方式:复置抽样 、非复置抽样抽样方法:随机(概率)抽样、典型抽样、顺序(机械)抽样8.统计数:测定样本中各个体而得到的特征数。如:样本平均数、标准差等。统计数常用拉丁字母表示。9.统计量:样本的统计指标,如样本均数,采用拉丁字母分别记为 。统计量是参数附近波动的随机变量 。参数:总体的统计指标,如总体均数,采用希腊字母记为。固定的常数 10.参数和统计数的关系:统计数是相应总体参数的估计值。对一个总体而言,参数是一个固定值,但样本统计数并不是固定值,它随着取样的不同而不同。11.资料的分类: 一数量性状资料 由计数和量测两种方法获得。 计数间断性变数小麦基本苗数、菌落数、穗数、分孽数等等 量测连续性变数病斑长度、作物产量、株高、土壤水分含量等等二质量性状资料质量性状又称属性性状,指只能观察而不能量测的性状。 如:遗传上符合独立分配、自由组合和连锁规律的性状花色、粒色、芒的有无、果实形状等统计次数法:统计具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。给分法:给予每类性状以相对数量的方法,如小麦籽粒有红白两种颜色,可用0表示白色,用1表示红色。12.平均数的意义和种类:平均数是数量资料的代表值,表示整个资料内变数的中心位置,并且可以作为一组资料的代表,与另一组资料进行比较。种类:算术平均数 中数 众数 几何平均数(一)算术平均数(mean)、定义:一个数量资料中各个观察值的总和除以观察值个数所得的商,称为算术平均数。 有总体均数和样本均数之分,分别用和表示。 应用最广。常简称为平均数或均数。 、算术平均数的重要性质(1)样本中各观察值与其平均数的差数(简称离均差)的总和等于零。(2)样本中各个值与其平均数差数平方的总和,较各个观察值与任何一数值的差数平方和为小,亦即离均差平方的总为最小。(二)中数 将所有观察值从小到大依次排列,居中间位置的观察值称为中数,记作Md。(三)众数(mode) 资料中最常见的一数或次数出现最多的一组的中点值,称为众数,记作Mo.注意:中数和众数作为资料的代表值, 其代表性较差,因为它不能利用资料的全部信息,仅能利用小部分信息,所以应用较少。(四)几何平均数(geometric mean) 如有几个观察值,其相乘积开n次方所得数值,即为几何平均数,记作G。 13.变异数:变异数是描述资料变异程度的统计量.常用的变异数主要有:极差、方差、标准差、变异系数等一、极差(Range)又称全距,记作R,是资料中最大观察值与最小观察值的差数.优点:简单易懂,使用方便。缺点:由两个极端值决定,没有充分利用资料的全部信息,易受资料中不正常的极端值的影响,代表整个样本的变异度有缺陷。应用:n10二、方差(Variance)能正确反映资料变异度的方法,是用样本全部观察值来度量资料变异程度的变异数。选定一个共同比较的标准平均数:用每一个变数与平均数相比,得到许多个离均差。用离均差的平方和优点:克服离均差之和为零的弊端、加重较大离均差的分量。缺点:各资料n值不同。解决办法:ss/(n-1)小样本大样本 总体三、标准差(Standard deviation) 标准差为方差的平方根值,以恢复原来的度量单位,并使其数值水平与平均数相适应,不致于过大或过小。 14.(1)自由度的意义:在用样本估计方差和标准差时,分母为n-1,而不是用观察值数目n,在这里n-1称为自由度,记作或df,=n-1。 因为,我们通常所掌握的样本资料,不知值,不得不用样本平均数 来代替,由于其 与有一定的偏差,根据离均差平方和为最小,可以推知 总是小于 (-)2 ,这时如果还用样本包含的个体数n作为分母进行平均, 就会使样本的标准差比群体参数偏小。为此,用n-1代替n,则可免除偏小的弊病。 (2)自由度的另一含义:对于具有n个观察值的样本,在每一个x与比较时,虽然具有n个离均差,但因受离均差之和等于零这一条件的限制,所以只有n-1个是自由的。标准差的计算方法(一) 直接法(二)15.利用标准差比较的应用条件: 1.标准差带有单位,不同单位的标准差不能进行比较.例: 小麦株高的标准差是4.0cm,穗粒数的标准差为2.5粒,这样4.0cm与2.5粒不能直接比较.2.标准差的可比性基于平均数相等这一条件,基础大小不同,就不能说明变异程度。例:小麦株高 =94.7cm, s=4.0cm 穗长 =5.4cm, s=0.5cm不能根据标准差的大小断言:株高的变异程度大于穗长的变异程度.四、变异系数 定义:标准差与平均数的比率以百分数来表示,称为变异系数,记作CV( 或S%). 计算公式: CV(%)=S/ 100% CV是一个不带单位的纯数,表示单位量的变异,故可用于比较。例:小麦株高 = 94.7cm, s=4.0cm CV(%)=4.22% 穗长 =5.4cm, s=0.5cm CV(%)=9.26%结论:小麦穗长的变异程度比株高的变异程度大。 变异系数在田间试验设计中有重要的用途。如在空白试验中,可作为测定土壤差异的指标,而且可作为确定试验小区面积、形状和重复次数的依据。 CV既受 影响,也受S的影响,因此在用cv表示样本变异程度时,宜同时列举S和 ,以免引起误会。第三章 统计推断1.研究总体和样本的关系可从两个方向进行分析: 一是从总体到样本方向抽样分布问题,可称为第方向; 二是从样本到总体方向统计推断(statistical inference)问题,可称为第方向,两者互为逆命题.本章主要讲述第方向。用样本平均数可以估计总体平均数,但样本平均数有误差,所以推断结论并非绝对正确。之间的差异来自两方面:真实差异和抽样误差。需要对其进行判断。2.统计推断就是根据抽样分布律和概率理论,用样本统计数推断总体参数。 统计推断包括参数估计和统计假设测验两个方面的内容。统计推断的前提条件:资料来自随机样本、统计数分布律已知。3.二、 参数估计 指用样本统计数对总体参数作点估计和区间估计。、点估计就是用样本统计数直接估计相应的总体参数, 例如用x 估计;用s2估计2等。、根据抽样分布试验,样本统计数亦是一个随机变数,所以不同的样本会有不同的估计值,即点估计具有一定的偏差, 因此有必要估算一个取值范围,使总体参数能够以很高的置信度落在这个区间内,这种用样本统计数在一定的概率保证下估计总体参数所在范围的方法,称为参数的区间估计。总体参数可能所在的区间称为置信区间。置信区间的上下限称为置信限。保证参数在该区间内的概率称为置信系数或置信度,以1-表示。其中称为显著水平(significance level):是指用于测验假设的概率标准。农业试验中,一般取0.05和0.01,达到0.05显著水平称为检验对象间差异显著,用表示;达到0.01显著水平称为检验对象间差异极显著,用表示。以式表示为: P(L1L2)=1-式中指总体参数,如:、2、1-2等。L1和L2称为置信限,其中L1称为置信下限;L2称为置信上限。三、假设测验假设检验就是用样本统计数对总体假设的真伪做出检验的概率方法。 四、无效假设和备择假设统计假设分为两类:、无效假设:指总体参数与其假设值之间无实质性差异,其差异由抽样误差造成。记作:H0 。用于检验的假设,以其为前提可以计算试验结果出现的概率。无效假设的目的:可以从假设的总体里推断其随机抽样平均数的分布,从而可以计算出某一样本平均数指定值出现的概率,即研究总体和样本的关系,进行假设检验。、备择假设:无效假设被否定后必须接受的后备假设。记作:HA注:H0和HA为对立事件,即:P(H0 HA)五、小概率原理(小概率事件的实际不可能原理)凡是概率很小的事件在一次试验中实际上是不可能出现的。统计推断是以小概率原理为基础而进行的。小概率的标准即为显著性水平。 六、接受区间与否定区间 在假设检验中,抽样分布曲线下接受Ho的区域称为接受区域,等于总体参数的置信区间,其置信概率为1-。 否定Ho的区域称为否定区域,等于总体参数置信区间以外的区域;其概率为显著水平 七、假设检验的基本步骤(1) 对样本所属的总体参数提出假设,包括无效假设Ho和备择假设HA。 (2) 确定显著水平. (3) 计算。在Ho正确的前提下,根据统计数的抽样分布计算出所得样本统计数的概率p。 (4) 统计推断,将实得样本统计数的概率p与确定的显著水平相比较,依据概率大小作出应接受哪种参数假设的检验。 (5) 对结果进行解释。例4.1:当地小麦品种亩产0公斤,多年种植的标准差公斤;新引进品种经25个小区试验,亩产量330Kg,问两者是否有显著差异?解:、Ho:Kg; HA:Kg; 、 0.05 3 、计算u值、根据.0.05,查表得临界值u0.05=1.96所以,u u0.05, 330Kg在抽样分布中的概率p1.96 u2.576 左尾检验 u-1.645 u1.645 u2.326两尾检验和一尾检验的主要区别:(1)两尾检验和一尾检验的假设不同。(2)两尾检验和一尾检验用以划分两个总体的临界值不同。(3)一尾检验比两尾检验容易否定Ho,鉴定差异显著性的灵敏度较高。九、假设检验的两类错误 第一类错误:如果无效假设Ho为真,但通过检验却否定了它,这种错误称为弃真错误,又称统计错误的第类错误,其概率为显著水平。第二类错误:如果无效假设Ho为伪,但通过检验却接受了它,这种错误称为取伪错误,又称为统计推断的第二类错误,其概率以记。当用样本平均数总体均数作统计推断时,可能会发生第一类错误或第二类错误,但是两类错误不可能同时发生。 第一类错误会对第二类错误产生影响,当显著水平从=0.05 减少到=0.01时,则会增大第二类错误的概率。 在假设检验中犯第一类错误的概率,其概率为。 在假设检验中犯第二类错误的概率,其最大值为=1-。 关于两类错误:、样本容量n固定的条件下,提高显著水平(取较小的值),将增大第二类错误的概率值。、在n和相同的条件下,真总体平均值与假设总体平均值0的相差(以标准差为单位)愈大,则犯第二类错误的概率越小。、为了降低犯两类错误的概率,需采用一个较低的显著水平,如=0.05;同时适当增加样本容量,或适当减小总体方差,或两者兼有之。、如果真总体的在接受区间外且已固定,则改进试验技术和增加样本容量可有效降低犯第二类错误的概率。第二节平均数的假设测验一、单个样本平均数的统计推断(一)单个样本平均数的假设检验这是检验样本均数所属的总体均数与假设的总体均数0是否相等的假设检验。 无效假设Ho:=0,0(或者Ho:0,HA:0)。、u测验 当总体方差2已知或2未知但n30时,用u检验。例4.2:如引进品种与原地方品种比较,因2已知时,故用u检验:例4.3:抽检了80包方便面,计得净重平均数为65.05(g),s=2.54(g),试检验该方便面净重的总体均数是否显著高于标准0=65(g)?假设 H0:65(g) 对HA:65(g) 显著水平 =0.05 检验计算 虽然总体方差2未知,但是n30为大样本,故可用u检验。实得u65(g),即该方便面净重的总体均数与标准重量0=65(g)之间无显著差异。 当总体方差2未知,且n30为小样本时,用t检验。 例4.4:随机抽样测定了某小麦品种的千粒重,n=8,观察值为32.7、36.8、35.9、34.6、35.6、37.6、33.4、35.1(g),试检验该小麦品种千粒重的总体均数与假设总体均数0=34(g)之间的差异显著性?参数假设 Ho:=34g;HA:34g 显著水平 =0.05 检验计算 由于总体方差2未知,且n2.3646)=0.05,实得t值的概率p0.05,故接受Ho:=34(g),否定HA:34(g), 即该小麦品种千粒重总体均数与假设总体均数0=34(g)之间无显著差异。 (二)总体均数的区间估计 当总体方差2已知或2未知但n30时,的1-的置信区间为:二、两个样本平均数差数的统计推断(一)假设测验、成组数据的比较(两个独立总体均数差数(1-2)的假设检验) 两个处理完全随机设计,各供试单位彼此独立,不论两处理的样本容量是否相同,所得数据为成组数据 (1)u测验: 当两个总体方差12和22已知时,用u测验:例4.5:某小麦平方米产量的20.4(Kg)2,在其地块内用、两法抽样:A法样点,( 11.2Kg,B法8样点,21.4Kg。比较两法每平方米产量是否相等。解:Ho:1=2, HA:12,0.05122220.4,n1=12,n2=8|u|U0.05=1.96,所以接受Ho:12,两法所取每平方米产量相同,-0.2属于抽样误差 ()t测验 当两个总体方差12和22未知,但可假定1222=,用t检验22然后计算两样本平均数差数的标准误:最后计算t值:df=(n1-1)+(n2-1)例4.6 研究矮状素使玉米矮化的效果,测定使用矮壮素小区株,对照区株,试作假设测验。解:由于用矮状素处理的玉米株高不可能大于对照的玉米株高,故作一尾检验。 Ho: 12 ,对HA:12 显著水平 =0.01 检验计算: SS1=18400 SS2=3787.5df=n1+n2-2=9+8-2=15 查t分布表得一尾检验的临界值t0.05=1.753, t0.01=2.6025 统计推断:因为p(t2.6025)=0.01,实得t值的概率p(t3.05)0.01, 故否定Ho: 1 2,接受HA:1t0.01,推断:否定Ho:d =0,接受HA:d0,即:A、B两法病毒斑数有极显著差异。(二)区间估计、两个总体均数差数(1-2)的区间估计()当两个总体方差12和22未知,且1222时(1-2)的置信区间为:第三节二项资料的百分数假设测验 一、单个样本百分数(成数)的假设测验目的:测验某一样本百分数所属总体百分数与某一理论值或期望值p0的差异显著性。例4.14:调查两地块小麦锈病,测验锈病率有无差异。n1=378株; x1=355株, = 93.92% n2=396株, x2=346株, =87.31%解:H0:p1=p2; HA:p1p2, u0.05=1.96三、二项样本假设测验时的连续性校正二项资料是间断性变数,用连续型分布进行测验时会有误差,易发生第一类错误,所以在n30或 时需进行连续性校正。 、单个样本百分数的连续性校正例4.15:玉米糯非糯F1花粉粒 糯:非糯1:1镜检:共20粒,有糯性8粒。测验是否符合p0=0.5解:H0:p=0.5;HA:p0.5, 8/200.4, =1-0.4=0.6 =8粒; 12粒、两个样本百分数相比较的假设测验的连续性校正两个样本百分数:取较大值的 具有x1和n1,取较小值的 具有x2和n2,则:例4.16:新农药处理25头棉铃虫,死亡15头;乐果处理24头,死亡9头。测验杀虫效果是否具有显著差异。解:H0:p1=p2; A:p1p2,=0.05四、区间估计、单个总体百分数p的置信限可按二项分布或正态分布估计,前者根据n和f(某一属性出现的个体数)查表。后者需计算:例4.17:调查100株玉米,20株受虫害, 20/100=0.2或 =20株。试计算95置信度的置信区间 解:()查表法(附表9):n=100,f=20时,得13,29,即 的置信区间为0.13,0.29。()正态近似计算法:u0.05=1.96所以:L1=0.2-(1.960.04)=0.1216L2=0.2+(1.960.04)=0.2784、两个二项总体百分数差数(p1-p2)的置信限 该估计只有在明确两个百分数差数有显著差异时才有意义。该估计只有在明确两个百分数差数有显著差异时才有意义。第四章 方差分析第一节 方差分析的基本原理如果有k3个样本平均数,则不能用t或u假设测验两两比较,因为:1. 程序极繁琐。2. 误差估计的精度降低。3. 大大增加犯错误的概率.解决方法: 方差分析法,由Fisher(1923)年提出,把多个样本的观察值作为一个整体,把观察值的总变异根据变异来源进行分解,作出数量估计,从而发现各个变异来源在总变异中所占的重要程度的分析方法.又称Fisher分析法。其基本特点:将k个样本的观察值和平均数作为一个整体考虑,把观察值总变异分解为各个变异来源的相应部分,从而发现各变异在总变异中的相对重要程度。其中,扣除了各种试验原因所引起的变异后,剩余变异提供了试验误差的无偏估计,作为假设测验的依据。 ANOVA基本原理一、DF与SS的分解 Var=SS/DF,要将总变异分解为不同来源变异,首先要将总SS和总DF分解为各个变异来源的相应部分。 DF与SS的分解是ANOVA的第一步。最简单的情形:共k个样本(k个组),每个样本n个观察值,共有nk个观察值,数据结构如下: Xij第i 个组的第j 个观察值 I=1,2,k J=1,2,ni ni第i 个处理组的观察值数 ni=N Xi =第i组的均数 =总的均数所以,上述资料的分解式为:自由度(nk-1)=(k-1)+k(n-1)dfT=dft+dfe SST=SSt+SSe进而可以求得均方:MST=sT2=SST/dfT MSt=st2=SSt/dftMSe=se2=SSe/dfe若假定组间平均数差异不显著(或处理无效),则MSt和MSe是2的两个独立估计值.均方用MS表示,也用S2表示,两者可以互换。其中组内均方MSe也称为误差均方,它是由多个总体或处理所提供的组内变异(或误差)的平均值。例题:A、B、C、D4种药剂处理种子,A为对照,每个处理各得4个苗高观察值(cm),如下表,试分解自由度和平方和 。药剂间的变异是否显著大于药剂内的变异?药剂 苗高观察值 总和 平均A 18,21,20,13 72 18B 20,24,26,22 92 23C 10,15,17,14 56 14 q法D 28,27,29,32 116 29 T=336 21以上药剂内均方8.17是4种药剂内变异的合并均方值,是上述资料的试验误差估计;药剂间均方168.00是不同药剂对苗高效应的变异二、F测验在方差分析体系中,F测验可用于检测某项变异或方差是否真实存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异(例如试验误差项)的均方作分母。F测验中,如果F0.05,应接受H0.F测验应具备的条件:(1)变数x遵循正态分布N(u, 2)(2)s12、s22彼此独立。 当资料不符合这些条件时,需作适当转换(后叙)。 例题:测验上例中药剂间变异是否显著大于药剂内变异? H0: t2=e2 ,HA: t2e2 0.05 F=t2/e2=168.0/8.17=20.56 F3,12,0.05=3.49, F3,12,0.01=5.95实得FF0.01,否定Ho,接受HA,即药剂间变异显著地大于药剂内变异,不同药剂对苗高的影响不同。 以上通过实例说明通过FMStMSe测验处理间所表示出的差异是否真实(比误差大),这一方法即为方差分析法。这里所测验的统计假设是Ho: t2=e2或Ho:A=B=c=D, HA: t2e2或A、B、c、D间存在差异(不一定A、B、c、D间均不等,可能部分不等)。 药剂处理苗高方差分析表变异

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论