生物统计-试验设计_第1页
生物统计-试验设计_第2页
生物统计-试验设计_第3页
生物统计-试验设计_第4页
生物统计-试验设计_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验设计及其统计分析生物统计学课件主要内容试验设计的基本原理随机区组设计平衡不完全区组设计裂区设计拉丁方设计正交设计作业试验设计的基本原理试验设计的概念广义而言,试验设计是指整个研究课题的设计,包括试验方案的拟订、试验单位的选择、分组的排列、试验过程中生物性状和试验指标的观察记载、试验资料的整理和分析等。狭义而言,试验设计是指试验单位的选择、分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。试验开始前,就要想好统计分析方法试验设计的基本要素处理因素:指对受试对象给予的某种外部干预或措施,简称处理。与前面讲过的试验因素相同。受试对象:是处理因素的客体。与前面讲过的试验单位相同。处理效应:是处理因素作用于受试对象的反应,是研究结果的最终体现。试验误差及其控制途径试验误差包括系统误差和随机误差。试验误差的来源及控制途径(1)试验材料固有的差异选择纯合一致的试验材料(2)试验条件不一致可分组(3)操作技术不一致改进操作管理制度,使之标准化(4)偶然性因素的影响合理的试验设计试验设计的基本原则(1)重复:主要作用是估计试验误差。重复数的多少,可根据试验的要求和条件而定。随机:指一个重复中的某一处理或处理组合被安排在哪一个试验单位,不能有主观成见。

随机化与重复相结合,试验就能提供无偏的试验误差估计值。在动物试验中,供试动物顺序排列常会出现某种程度的倾向性差异。

例:用A1、A2、

A3三种饲料喂鸡,每种饲料饲喂30只鸡。一个月后称重。该如何操作?

在生物学试验中,要求把所有非处理因素控制均衡一致是不易做到的。

怎么办?试验设计的基本原则(2)局部控制整个试验环境分解成若干个相对一致的小环境,称为区组(block)、窝组(fossa)或重复,再在小环境内分别设置一套完整的处理,在局部对非处理因素进行控制,称为局部控制(blockcontrol)。例如:作物产量测定试验以大动物为受试对象的试验试验设计的基本原则(3)对照阳性对照、阴性对照等一本不错的书:

D.J.格拉斯著,丛羽生等译.生命科学实验设计指南.科学出版社,2008.5.是什么构成了实验问题的合理解释?实验问题的合理解释(1)对于“天空是什么颜色的”这个问题,运用科学的手段,能不能找到一个正确、符合事实、又从科学角度可以接受的答案呢?(1)提出一系列问题,如天空是蓝色的?绿色的?黄色的?红色的?(2)测量中午时所有可见光的波长。(3)得出结论:天空是蓝色的。实验问题的合理解释(2)天空真的是蓝色吗?(1)连续测量。30天,27天是蓝色,3天是灰色的(阴天)(2)显著性检验:差异显著(3)认为,“天空是蓝色的”正确。实验问题的合理解释(3)或许会有人有疑问。因为他的测量从来没有在夜间进行,甚至,在正午以外的时间也没有进行过。所以,(1)我们还不能认为这个实验已经完整地回答了问题。如果在晚上进行测量,这个模型就被质疑了。(2)有限的结论:天空在正午是蓝色的。6.如何用实验结论来描绘现实?假设与模型假设与模型的区别

假设先于实验,它仅是一个猜测或推测。相反,模型的建立是在实验完成之后,因此是以积累的数据为基础的。模型建立是一个基于归纳、联想、从个体到整体对积累的事实进行理解的过程。科研工作:通常有一个假设如何建立模型?给出一个框架性问题:MuRF1(蛋白质)的功能是什么?通过获得归纳演绎空间提出第一个实验问题:

MuRF1是否与某些已知功能的蛋白质相似呢?

可用生物信息学的方法解决。

答案:MuRF1与E3泛素连接酶相似。功能审视:MuRF1是否与E3泛素连接酶的功能相同?进行功能性实验并利用实验数据建立模型。

提出一个模型:MuRF1具有与E3泛素连接酶相同的功能。8.设计实验

----定义、时间安排和重复实验定义术语实验是根据问题或假说来进行的。以“天空是什么颜色的?为例来讨论如何设计实验。首先需要定义术语:(1)定义颜色为“可见光”(2)定义“天空”。例如,仪器是指向正上方还是指向水平线的?还是其它。时间进程在时间上进行多次测量叫做时间进程。可以用于了解任何特定的点上的测量是否具有代表性,以及在不同的条件下系统是否会发生基础性变化。每5min测量一次。在时间进程实施之前,科学家已对“天空是什么颜色的?”预言了一个简单的答案。随着时间进程的发展,发现天空不只是一个颜色;相反,它在时时变化着。因此,科学家不能仅仅给出一个简单的结论来。而是,需要建立一个适应这些数据的新模型。重复连续测量7天。对照首先需要有一个“仪器对照”,保证相应的波长是可以被测量到的。需要阳性对照和阴性对照。其次还要保证天空确实是被测量到了

实验清单1、测量在一定波长范围内的可见光。每一个特定波长的光都要有一个阳性对照。每个测量都要有一个阴性对照,保证仪器不会做出错误的报告。2、在每次测量时仪器都指向同一个方向。3、在一定时间内(24h)对天空进行实验。4、在实验的时间内每5min进行一次测量。5、重复测量7天以获得具有统计学意义的数据。收集并分析数据,诠释实验结果注意:如果次数少,要看看是否有统计学意义。11.实验重复

----获得数据用以模拟未来结果的过程确定具有统计意义的测量数目从统计计算中,我们可以得知一个实验必须包含数据的数目。具统计意义的测量数目,部分由研究系统的可变性来指示。通过一定量的重复就能确定系统的可变性。即:先通过一系列的测量来评估系统的可变性,从而估计在新实验中所需的具统计意义的数据量。以一个生物学例子为例实验目的:摄食足以引起肥胖的高脂肪的大鼠和正常饮食的大鼠相比,肝脏哪些基因的表达发生了变化?实验设计中需要确定的问题:(1)实验方法:成对实验(2)饲喂时间:12h(发现早期基因)

取样时间:早上7点

利用基因芯片测定基因表达量(3)在每个时间点,需要多少大鼠肝脏样品呢?简单实验设计一个处理样品、一个对照样品2张芯片,基因表达数据可发现一些表达量上调和小调的基因,但不知是否真实。例如:处理组leptin的表达量下调了5倍,但定量PCR检测却发现没有差异(假阳性)稍微复杂些的实验设计一个处理样品、一个对照样品每个样品分成3份6张芯片,基因表达数据发现基因表达水平数据波动很大,即使mRNA是来自相同的肝脏。改进的研究方案—重复20个处理样品、20个对照样品(n=20)每个样品分成3份120张芯片,基因表达数据数据分析,发现300个基因的表达水平显著变化。其中,处理组的leptin表达水平上调了3倍。

到底需要重复多少次?从20个肝脏所得的数据,进行子集分析。任何一个更少的数据组能否得到与20个数据组相同的结果发现任何一组10个肝脏数据都能覆盖20个肝脏的所有数据,即n=10即可。模型的预测能力用300个基因作为一个模型,是否可以预测新一组动物的基因变化?但这个验证实验被实施后,科学家仅能证实其中的200个基因。为什么?可变性和待研究的实验系统是相关的在观察大鼠的过程中,发现大鼠进食大部分是在黑暗的时候,在晚上11点—早上5点这个时间段中,大鼠的食物消耗变动很小。取样时间:早上4:30第2次实验能证实第1次的95%。结论:对任一个实验,都应该确认实验中所选取的时间点能否代表一般条件。确保被设计的实验能说明问题最初的问题:摄食足以引起肥胖的高脂肪的大鼠和正常饮食的大鼠相比,肝脏哪些基因的表达发生了变化?实验设计针对的问题:和正常饮食的大鼠相比,摄食高脂肪12h后大鼠肝脏中哪些基因的表达发生了变化?两者不一致。他应该等到高脂肪饮食后大鼠变得肥胖再开始实验。一个合格的研究中,“标记”被用来确定问题的研究对象是否被真正地阐述在肥胖大鼠肝脏中,对于不同的表型“标记”,基因表达变化也会不同。这些“标记”有:体重的增加、胰岛素不敏感、肝酶的变化、脂肪肝。在他的实验中,选取肥胖作为关键的“标记”,观察2个月的体重增加量和对胰岛素的不敏感度来定义。然后,研究这个阶段的基因表达变化。选择一个清晰的“标记”或标准来定义相关的结果,可以简化最终的实验设计。最终的实验设计1、10只大鼠饲喂正常饲料2、10只大鼠饲喂高脂肪饲料3、每组中的大鼠按年龄、性别和起始体重配对4、每周测量大鼠体重和血清化学参数。当大鼠呈现肥胖和胰岛素不敏感时,取出大鼠肝脏做分析。5、但研究结束时,发现500个基因显著变化。重复1次时,450个同样变化,重复2次时,430个同样变化,重复3次时,425个同样变化。因此,他建立了一个大鼠在高脂肪饮食下,肥胖大鼠肝脏基因变化的模型。随机区组设计随机区组设计随机区组设计(randomizedblocksdesign):指根据局部控制和随机原则进行的,将试验单位按性质不同分成与重复数一样多的区组(窝组),使区组内非试验因素差异最小而区组间内非试验因素差异最大,每个区组均包括全部的处理。区组内各处理随机排列,各区组独立随机排列。试验排列示意图384625917562379184247863951区组1区组2区组3随机区组设计的优点(1)设计简单(2)富于弹性,单因素、多因素以及综合性的试验都可应用(3)能提供无偏的误差估计(4)对试验区的形状要求不严,不同区组亦可分散设置在不同地段上。随机区组设计的不足不允许处理数太多,至多不超过20个,最好10个左右。随机区组设计试验结果的统计分析把区组(窝组)看作一个因素,和试验因素一起做方差分析。单因素随机区组设计试验结果的统计分析统计分析方法把区组(窝组)看作一个因素,和试验因素一起作为二因素的试验,按二因素无重复观测值的方差分析方法进行。例8.2有一小麦品种试验,共有8个品种,用A、B、C、D、E、F、G和H表示,其中A为标准品种。试验采用随机区组设计,3次重复,各小区产量数据见Excel文件。试作方差分析。BFAEHGCDCEGHBADFACEGDHFB例8.2方差分析的结果表明,品种间和区组间的平均数均有显著性差异。需要对8个品种产量的平均数进行多重比较。区组间的F值极显著,说明区组的土壤肥力是有极显著差别的。因为研究的目的不是研究区组效应,所以一般不对区组间的差异进行多重比较。二因素随机区组设计试验结果的统计分析(1)区组作为一个因素,所以需要做三因素的方差分析但是,Excel只有二因素的方差分析,所以需要自己计算部分结果二因素随机区组设计试验结果的统计分析(2)平方和和自由度的分解

SST=SSt+SSr+SSe

SSt:处理间的平方和,SSr:区组间的平方和SSe:试验误差的平方和SSt=SSA+SSB+SSABdfT=dft+dfr+dfe

dft=dfA+dfB+dfAB

二因素随机区组设计试验结果的统计分析(3)各项的方差二因素随机区组设计试验结果的统计分析(4)F检验(以固定模型为例)

FA=

FB=FAB=Fr=例8.3微肥种类(A)与施用方式(B)对小麦产量的影响,二因素随机区组设计,试验结果见Excel文件。试作方差分析,并进行多重比较。例8.3-方差分析(1)重新整理数据(参照有重复数据的二因素方差分析)利用Excel中有重复数据的二因素方差分析进行获得SSA、SSB、SSAB,dfA、dfB、dfAB以及、

、但是,SSr、SSe、dfr、dfe、、

需要重新计算例8.3-方差分析(2)SSr=C=SSe=Excel计算的内部平方和-

SSr

dfr=n-1dfe=

Excel计算的内部自由度-dfr

例8.3-方差分析(3)FA=827.48FB=816.82FAB=123.08Fr=25.32查F表,以A因素为例,F(1,14)0.05=4.60A因素(施肥方式)间差异显著例8.3-多重比较以AxB互作为例(SSR检验)

==0.9906M=23.00M=33.15M=43.28LSR0.05比较

二因素随机区组设计的方差分析

有重复观测值的二因素方差分析的异同成对试验成对数据的t检验中:试验方法就是成对试验思考:成对试验与随机区组试验的关系?

平衡不完全区组设计平衡不完全区组设计(1)基本思想:不要求每一区组包含全部处理特点:(1)每个处理在每一区组中至多出现一次(2)每个处理在全部试验中出现的次数均等(3)任何两个处理都有机会出现于同一区组中,且在全部试验中任意两个处理出现于同一区组中的次数均等平衡不完全区组设计(2)rv=bkλ=b≧vv:试验处理数k:每一区组包含的处理数r:每一处理的重复数b:区组数λ:任意两个处理在同一区组中相遇的次数(整数)平衡不完全区组设计(3)对于不同的参数值,有不同的设计方案附表10:平衡不完全区组设计参数附表11:一些实用价值较大的平衡不完全区组设计方案设计7:v=6,k=3,r=5,b=10,λ=2125234126235134246136356145456平衡不完全区组设计的优点和不足优点:不要求每一区组包含全部处理不足:(1)区组数必须严格按照规定数目设计,否则会失去均衡(2)平衡不完全区组的实际总小区数往往比随机区组的多(3)平衡不完全区组试验设计中两个处理间比较的精确度较低E=只有当难以进行随机区组设计时才用平衡不完全区组设计的统计分析(1)SST=SSt(调整的)+SSr+SSeSST=C=N=rvSSt(调整的)=SSr=dfT=dft+dfr+dfe

dfT=N-1,dft=v-1,dfr=b-1平衡不完全区组设计的统计分析(2)F检验

F=进行多重比较时,需要调整的平均数

=

其标准误为:

例8.56个品种(v=6),每个区组包含3个品种(k=3),小区面积10平方米,试作平衡不完全区组设计,并进行方差分析,并进行多重比较。解:根据v=6,k=3,查附表11,有设计7(r=5)和设计8(r=10)两个方案。

选用方案7

区组和处理随机排列数据见Excel文件例8.5-方差分析计算平方和、自由度(Excel文件)计算F值

F=17.36查表F(5,15)0.01=4.56dft=v-1=5,dfe=15

各个水稻品种的小区产量间存在极显著的差异例8.5-多重比较q检验:调整的平均数=比较

单因素随机区组设计

单因素平衡不完全区组设计的异同裂区设计裂区设计裂区设计是先将每一区组按第一因素的处理数划分小区,称为主区,在主区里随机安排主处理;然后在主区内引进第二个因素的各个处理(即副处理),就是主处理的小区内分设与副处理数相等的更小的小区,称为副区或裂区,在副区里随机排列副处理。裂区设计的特点:主处理分设在主区,副处理则分设于主区内的副区,副区之间比主区之间的试验空间更为接近,即副区的比较比主区的比较更为精确。裂区设计的常用范围(1)一个因素的各处理比另一个因素的各处理需要更大区域时(2)试验中某一因素的主效比另一因素的主效更为重要,而且要求更精确时,或两个因素的交互作用比其主效更为重要时。将要求精度高的因素作为副处理(3)某一因素的效应比另一因素的效应更大时。将可能表现较大差异的因素作为主处理(4)试验设计需要临时改动再加入一个试验因素时。可在原来的小区(主区)中再设计副区。裂区设计试验结果的统计分析(1)平方和的分解

SST=SSt+SSr+SSe

SSt:处理间的平方和,SSr:区组间的平方和,

SSe=SSea+

SSeb:试验误差的平方和SSt=SSA+SSB+SSABSSea=SSm-SSA-SSrSSm=SSr=裂区设计试验结果的统计分析(2)自由度的分解dfT=dft+dfr+dfe

dfT=abn-1,dfr=n-1dft=dfA+dfB+dfABdfA=a-1,dfB=b-1,dfAB=(a-1)(b-1)

dfe=dfea+dfeb

dfea=(a-1)(n-1)

dfeb=a(b-1)(n-1)裂区设计试验结果的统计分析(3)各项的方差裂区设计试验结果的统计分析(4)F检验(以固定模型为例)

FA=

FB=FAB=Fr=裂区设计试验结果的统计分析(5)多重比较(见Excel)

例9.1研究绿肥耕翻时期(A因素)与施用氮肥量(B因素)对甜菜产量的影响,采用二裂式裂区设计。A1、A2(主区),B1、B2、B3、B4(副区),重复3次。数据见Excel文件。试作方差分析,并作多重比较。例9.1-方差分析(1)重新整理数据(参照有重复数据的二因素方差分析)利用Excel中有重复数据的二因素方差分析进行获得SSA、SSB、SSAB,dfA、dfB、dfAB以及、

、但是,SSr、SSea、SSeb、

dfr、dfea、dfeb、、、

需要重新计算(见Excel文件)例9.1-方差分析(2)FA=104.06FB=118.96FAB=10.33Fr=1.56查F表,以A因素为例,F(1,2)0.05=18.51A因素间差异显著例9.1-多重比较见Excel文件比较

二因素随机区组设计

二因素裂区设计的异同作业为了研究湿度和温度对粘虫卵发育历期的影响,用3种湿度和4种温度处理粘虫卵,采用随机区组设计,重复4次。结果如下表,试作方差分析。湿度(%)温度C历期IIIIIIIV1002693.291.290.792.22887.685.784.282.43079.274.579.370.43267.769.367.668.1702689.488.786.388.52886.485.386.784.23077.276.374.575.73270.172.170.369.5402699.999.293.394.52891.394.692.391.13082.781.384.586.83275.374.172.371.4拉丁方设计拉丁方设计拉丁方设计(latinsquaredesign),就是在行和列两个方向上都进行局部控制,使行、列两向皆成完全随机区组或重复,是比随机区组设计多一个区组的设计。拉丁方设计的特点:处理数、重复数、行数、列数均相等。可控制试验误差、提高试验精确度。据研究,拉丁方设计的误差约为随机区组设计的73%。试验处理数:5-10个为宜。在动物试验中,如要控制来自两个方面的系统误差,且在试验动物头数较少的情况下,常采用这种方法。例9.2研究5种不同饲料(分别用1,2,3,4,5表示)对乳牛产乳量的影响。试用拉丁方设计进行试验,并做统计分析。拉丁方试验设计的步骤(1)1、选择标准方(附表12)处理数k=5,所以选择5x5的标准方泌乳时间一月二月三月四月五月牛号IABCDEIIBAECDIIICDAEBIVDEBACVECDBAA、B、C、D、E:分别代表5种饲料拉丁方试验设计的步骤(2)2、列随机3、行随机4、饲料(处理)随机泌乳时间一月二月三月四月五月牛号I25134II43215III12453IV54321V31542拉丁方设计试验结果的统计分析(1)平方和的分解

SST=SSt+SSr+SSe

SSt:处理间的平方和,SSr:区组间的平方和,

SSr=SS行+

SS列

SS行=SST=SS列=SSt=拉丁方设计试验结果的统计分析(2)自由度的分解dfT=kk-1dft=k-1df列=k-1df行=k-1

dfe=dfT-dft-df列-df行拉丁方设计试验结果的统计分析(3)各项的方差拉丁方设计试验结果的统计分析(4)F检验

Ft=拉丁方设计试验结果的统计分析(5)多重比较(以q检验为例)

=

例9.2-方差分析见Excel文件例9.2研究5种不同饲料(分别用1,2,3,4,5表示)对乳牛产乳量的影响。试用拉丁方设计进行试验,并做统计分析。比较拉丁方设计随机区组设计的异同正交设计正交设计正交设计(orthogonaldesign):是利用规格化的表格—正交表来科学合理地安排试验的设计方法,其特点是在全部试验处理组合中,挑选部分有代表性的水平组合(处理组合)进行试验。例:4因素3水平的多因素试验,需要34=81个处理组合。采用正交表L9(34)安排试验,只需要9个处理组合就可以了。其中,9表示试验次数;3表示水平数;4表示最多可以安排的因素的个数(含互作)。正交试验的步骤1、确定试验因素数和水平数2、选择合适的正交表(查表)3、进行表头设计,列出试验方案4、开展试验没有交互作用的情况(1)2、选用合适的正交表(1)计算最少试验次数nn=∑(水平数-1)+1如4因素2水平,n=4*(2-1)+1=53因素3水平,n=3*(3-1)+1=7(2)根据因素数、水平数和最少试验次数,选择正交表如4因素2水平,可选用L8(27)3因素3水平,可选用L9(34)

没有交互作用的情况(2)3、进行表头设计,列出试验方案表头设计:就是把试验中确定研究的各因素填到正交表的表头各列。其原则是:(1)不要让主效应间、主效应与交互作用间有混杂现象。由于正交表中一般都有交互列,因此当试验因素数少于列数时,尽量不在交互列安排试验因素。(2)当存在交互作用时,需查交互作用表,将交互作用安排在合适的列上。没有交互作用的情况(3)列号123456713254762167453765441235(5)326(6)1L8(27)两列间的交互作用没有交互作用的情况(4)表头设计列号1234567因素AB(AxB)C(AxC)(BxC)D注:在此不考虑交互作用列号1234因素ABC没有交互作用的情况(5)安排试验试验号AB3C56D1111111121112222312211224122221152121212621221217221122182212112没有交互作用的情况(6)开展试验做实验的顺序要依照随机化的原则。即8个试验号的开展顺序要随机有交互作用的情况(1)2、选用合适的正交表(1)计算最少试验次数nn=∑(水平数-1)+1如4因素2水平,考虑AxB、AxC互作,n=4*(2-1)+(2-1)*(2-1)+(2-1)*(2-1)+1=75因素3水平,考虑AxB、BxC互作,n=5*(3-1)+(3-1)*(3-1)+(3-1)*(3-1)+1=19(2)选择正交表如4因素2水平,可选用L8(27)5因素3水平,可选用L27(313)

有交互作用的情况(2)3、进行表头设计,列出试验方案列号1234567因素ABAxBCAxCD二水平时,交互作用只占1列有交互作用的情况(3)3、进行表头设计,列出试验方案列号1234567因素AB(AxB)1(AxB)2CDAxD三水平时,交互作用占2列列号8910111213因素(BxC)1E(BxC)2注:表中红色字体不安排,仅作说明用正交试验结果的统计分析直观分析方差分析例题某工厂生产一种产品,采收率低且不稳定,一般在60%-80%之间。现希望通过试验设计,找到好的生产方案,提高采收率。考虑3个因素:反应温度(A)、加碱量(B)、催化剂种类(C),每个因素分别设3个水平。解:计算最少试验次数nn=3*(3-1)+1=7

选用L9(34)正交表表头设计列号1234因素ABC正交试验结果的直观分析见Excel正交试验结果的方差分析(1)计算平方和

SST=为yi的平均数

SSA=S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论