多因素试验设计与方差分析—沉毅.ppt_第1页
多因素试验设计与方差分析—沉毅.ppt_第2页
多因素试验设计与方差分析—沉毅.ppt_第3页
多因素试验设计与方差分析—沉毅.ppt_第4页
多因素试验设计与方差分析—沉毅.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多因素试验设计与方差分析 浙江大学医学院公共卫生系流行病与卫生统计教研室沈毅 实验三要素 统计模型 效应值 总平均效应 处理效应 随机误差效应 效应值 总平均效应 处理效应 随机误差效应 不同药物作用后小白鼠肉瘤的瘤重 g 一个简单的例子 总平均值 效应值 总平均效应 处理效应 随机误差效应 效应值 总平均效应 处理效应 随机误差效应 方差分析的基本思想方差分析 analysisofvarianceANOVA 在一个分类变量 自变量 不同水平下或是在多个分类变量的水平组合下测量一个连续反应变量 应变量 将这个反应变量的总效应分解为由分类变量引起的效应 即主效应 如A B分别表示由于分类变量A和B的不同水平引起的变异 或分类变量的组合产生的效应 即交互效应 如A B表示A和B的交互作用 或嵌套效应 如B A 表示B的效应嵌套在A之下 和随机误差效应 同时将总自由度 分解为对应的各部分自由度之和 方差分析的统计量为F值 F值服从自由度 1 k 1 2 N k的F分布 在一定的显著水平下 如果F大于F临界值 说明该分类变量有统计学意义 即由处理引起的效应不为零 这就是方差分析的基本思想 其中 为总体均数 表示因素Ai各水平对试验结果的影响大小 即因素Ai的效应 ik为随机误差效应 基本模型 方差分析中离均差平方和的分解 总变异 处理间变异 误差 析因设计试验的方差分析正交设计试验的方差分析裂区试验设计的方差分析系统分组 嵌套 设计的方差分析 第一节析因试验设计的方差分析 一 析因试验设计的意义和方差分析模型1 析因试验的意义凡同时具有两个或两个以上处理因素 这些因素的各水平又具有完全组合的实验 统称为析因设计 factorialdesign 实验 析因试验设计不仅可以分析作每个因素的主效应 而且可分析因素间的交互效应 还可以从各因素各水平的全面组合中挑选出最优试验条件或最优试验条件的方向 能够提供较多的信息 缩小随机误差 2 方差分析模型析因设计实验的方差分析可以同时分析这些处理因素的主效应 以及因素间的交互效应 interaction 以两因素析因试验设计为例 其数学模型为 所谓固定效应模型是指实验者设计时特别选定因素A的a个水平与因素B的b个水平 试验结果的推论只适用于因素A与B实际所用的水平 随机效应模型是指所有因素A的诸水平与因素B的诸水平是从更大总体中随机选取的 试验结果的推论对于被研究总体的所有水平都有效 混合模型是指一个为固定因素 另一个为随机因素 实验结果分别按固定因素 随机因素推论 在实际工作中 由于固定效应模型是最为多见的 下节中只给出固定效应模型实例的SAS程序 二 析因试验设计方差分析的SAS程序 程序7 1DATAEX7 1 DOA 0TO1 DOB 0TO1 DOI 1TO3 INPUTX OUTPUT END END END CARDS 0 80 90 70 91 11 01 31 21 12 12 22 0 PROCANOVA CLASSAB MODELX ABA B MEANSABA B RUN QUIT 三 程序说明和结果解释 在数据步中 用三重循环语句建立数据集 第1 2个循环语句为读入A B两因素的分类值 第3个循环语句是控制在各水平组合下的重复数 即每种组合下的样本例数 在过程步中 用ANOVA过程作两因素的方差分析 CLASS语句指明A B为分类变量 MODEL语句指明X为因变量 因素a b及其一级交互作用a b为自变量 在SAS中产生交互作用的因素之间以 号连接 MEANS语句用于求均数及标准差 以便根据均数大小 寻找最佳试验条件 如为含区组因素的析因设计 只需在model语句的等号右侧加上表示区组因素的变量名即可 输出结果如下 此2 2的析因试验设计的SAS程序可推广到多因素 多水平的析因试验设计 例如某析因设计中涉及三因素A B C 并要判断其两两交互作用是否有意义 只需将MODEL语句改为MODELX ABCA BA CB C 即可 两因素间的交互作用 如A B A C B C 为一级交互作用 三因素及以上因素间交互作用为二级或高级交互作用 由于因素间二级以上的交互作用有时在专业意义上难以解释 所以 实际分析中 一般仅考虑一级交互作用 第二节正交试验设计资料的方差分析 一 正交试验设计的基本概念正交试验设计 orthogonalexperimentaldesign 是利用 正交表 科学地安排多因素试验的一种方法 正交设计所安排的试验代表性极强 因而 不仅试验次数少 而且便于分析推断出最佳试验方案 在作正交设计时 要根据具体情况选择合适的正交表 正交表是一种特殊的表格 正交表的一般表示方法为Ln pr 这里L表示正交表 下标n表示正交表的行数 也是试验次数 r表示正交表的列数 p表示各因素的水平数 正交表的构造有如下特点 1 表中任一列 不同数字出现的次数相同 而这些数字代表了因素取的水平 这就是说任何一列所包含的各种水平数相同 如表L8 27 中不同数字 1 2 在每一列中出现的次数都是4 表L9 34 中的数字 1 2 3 在每一列中出现的次数都是3次 这一性质表明了正交表的均衡性 2 表中任何两列同一行的两个数字组成的所有可能数对 其出现的次数相同 如表L8 27 的任两列中 同一行的所有可能的数对有 1 1 1 2 2 1 2 2 它们各出现2次 这一性质表明了正交表的正交性 正因为正交表具有以上两种性质 所以 安排的试验具有均匀分散 整齐可比的特点 由于这种均衡设计的特点 使得它只须使用较少的 有代表性的处理组合数就可达到试验目的 从而节省了总的试验次数 对于每种组合条件下无重复试验的正交设计 在选取正交表时至少要空出一列以估计误差 一般正交试验时 正交表的选用与表头设计详见有关参考书籍 这里不赘述 正交试验设计方差分析与析因设计的方差分析相同 可参看表7 1 在多数情况下 正交设计是按固定效应模型来计算F值的 二 无重复正交试验设计资料的方差分析 例7 2研究四种因素对钉螺产卵数 Y 的影响 每一因素分为两水平 温度A A1 5 A2 10 含氧量B B1 0 5 B2 5 0 含水量C C1 10 C2 30 pH值D D1 6 0 D2 8 0 采用L8 27 正交表 数据如下 见表7 3 1 SAS程序如下 程序7 2DATAEX7 2 INPUTABCDY CARDS 111186112295121291122194211291212196221183222288 PROCANOVA CLASSABCD MODELY ABCDA B MEANSABCDA B RUN QUIT 三 有重复试验正交设计资料的方差分析 例7 3四种药物 每种药物有三水平 A药 A1 2 A2 4 A3 5 B药 B1 0 B2 l B3 2 C药 C1 0 C2 l C3 3 及D药 Dl 0 D2 l D3 3 问四种药物对淡色库蚊的50 击倒时间有无差别 采用正交表L9 34 相同试验条件下均做4次重复 1 SAS程序程序7 3DATAEX7 3 INPUTABCD DOI 1TO4 INPUTY OUTPUT END CARDS 11119 417 1910 733 73122211 9111 8511 0011 72133310 6710 7010 9110 1821233 873 183 804 8522314 205 724 583 7123124 293 893 884 7131327 627 016 837 4132137 797 387 566 2833218 098 178 147 49 PROCANOVA CLASSABCD MODELY ABCD MEANSABCD RUN QUIT 2 程序说明与结果解释 以上结果表明 A B C三种药物的各水平组均数间的差别有统计学意义 平均灭蚊时间越短 则效果越好 根据MEANS语句的输出结果可知 A药第二水平 4 时 效果最佳 四 水平数不等的正交试验设计资料的方差分析 例7 4在啤酒生产中 要大麦不发芽 又要麦粒体内产生淀粉酶 蛋白酶 所以生产过程与加入能促进酶形成的赤霉素 G 有关 与能抑制大麦发芽的氨水浓度 N 和吸氨量 C 有关 与事先将大麦浸湿含水程度 W 有关 四个因素中 G N C都是四个水平 W是两个水平 根据因素及水平数可选用L16 43 26 正交表作试验 排列及数据如表7 5所示 1 程序7 4DATAEX7 4 INPUTGNCWX CARDS 11111112221113321114411621219221216234216243121313211324112331110342212414216423113432120441218 PROCANOVA CLASSGNCW MODELX GNCW MEANSGNCW RUN QUIT 第三节裂区试验设计资料的方差分析 一 裂区试验设计的意义和方差分析模型1 裂区试验的意义裂区设计 split plotdesign 也是一种两因素设计 这种设计最早应用于农业 在某些田间试验中 首先将选择好的田块分为几个大区 然后再将每一大区分为若干个小区 在大区水平上施加处理因素A 在小区水平上施加处理因素B 假如A有2个水平 a1 a2 B有3个水平 bl b2 b3 就可将试验田块分为2个大区 分别配置a1 a2 将每个大区划分为三个小区 配置bl b2 b3 这种设计框架如下 从变异的角度分析 在这种设计中 因素B的变异性要小于因素A的变异性 因为因素A只是在大区上实施的 没有重复 故在配置因素时 应将主要因素作为B 配置在小区水平上 而重要性相对小一点的因素作为A 配置在大区水平上 2 方差分析模型裂区设计方差分析的数学模型为 二 裂区试验方差分析的SAS程序 例7 6将10只家兔随机等分两组 一组注射抗毒素 一组注射生理盐水作为对照 分组后 每只家兔取甲 乙两部位 分别注射低浓度毒素和高浓度毒素 观察指标为皮肤受损范围直径 结果如表7 7所示 试分析试验结果 本题与嵌套设计类似 但B的各水平不随A水平的变化而变化 故为裂区设计 根据一级实验单位按照完全随机的方法分组 可判断为完全随机设计的裂区试验 SAS程序为程序7 5DATAEX7 5 DOA 1TO2 DOI 1TO5 DOB 1TO2 INPUTX OUTPUT END END END CARDS 15 7519 0015 5020 7515 5018 5017 0020 5016 5020 0018 2522 25 18 5021 5019 7523 5021 5024 7520 7523 75 PROCANOVA CLASSABI MODELX AA IBA B TESTH AE A I RUN QUIT 三 程序说明和结果解释 在DATA步中用三重循环语句和INPUT语句来建立SAS数据集 第1 3循环语句分别读入A因素和B因素的分类值 第2个循环语句控制重复次数 在ANOVA过程步中 CLASS语句指明A B和I为分类变量 MODEL语句指明了此模型包含了A主效应 A I交互效应 B主效应及A B交互效应 TEST语句指明对A主效应检验时以A I作为误差项 见表7 6一级单位F值的分母 第四节系统分组 嵌套 设计资料的方差分析 一 系统分组 嵌套 设计资料的方差分析模型1 系统分组设计的意义系统分组设计又称嵌套设计 nesteddesign 与析因设计不同的是 嵌套设计的处理不是按各因素各水平的全面组合 而是各因素按其隶属关系系统分组 各因素与各水平不形成交叉分组 分组时先按A的p个水平分成p组 然后不同的组再按B的水平来分组 一般不同的组的水平也不同 按A B的水平分组后 再安排因素C 依此类推 在析因试验设计中 各因素是基本平等的 而在系统分组设计中各因素是不平等的 在作方差分析时 侧重于上一级分组因素 这体现在各因素的离均差平方和的计算上 以三因素系统分组设计为例 设A B C各因素的水平数依次为p q s 全部数据的平方和为甲 校正数为C 整个试验重复次数为r 令Qi i A B C 为系统分组到第i级因素时所产生的一个量 它是各小组数据之和的平方之均数 而此时的全部小组数等于n1 ni 例如分组到B因素时 共有pq个小组 即把B因素的q个水平分别嵌套在A因素p个水平之下 相当于B因素有pq个水平 但它们所产生的离均差平方和又包括了A因素的作用 待A因素的作用从其中离析出来后 便得到B因素所产生的变异 则三因素系统分组设计的方差分析见表7 8 上表中给出了两种模型下的F值的计算 系统分组设计中 随机效应的因素是比较多的 有的书中笼统地都按随机模型分析 二 系统分组设计方差分析的SAS程序 例7 6为了试验某种抗菌药 对小白鼠进行试验 对一批小白鼠没有注射抗菌药 A1 另一批注射了抗菌药 A2 然后让它们被这种细菌感染 看成活率有无明显的不同 统计成活率时按小鼠性别分别统计 然后让活的小白鼠分别在A1和A2内部交配得第一代B1 第二代B2和第三代B3 按性别统计成活率 得到试验结果如下 见表7 9 程序7 6DATAEX7 6 DOA 1TO2 DOB 1TO3 DOC 1TO2 DOI 1TO2 INPUTP Y ARSIN SQRT P 100 OUTPUT END END END END CARDS 281933271511262226201811565162604844666170654955 PROCGLM CLASSABC MODELY AB A C AB SS1 TESTH AE B A TESTH B A E C AB RUN QUIT PROCNESTED CLASSABC VARY RUN QUIT 本例中A是固定效应 B和C是随机效应的混合效应模型 F值的计算同随机效应模型 SAS程序为 三 程序说明和结果解释 在DATA步中用四重循环语句建立SAS数据集 DATA步中赋值语句Y ARSIN SQRT P 100 是对存活率作数据转换 因为一般认为率分布近似服从二项分布 故对存活率作平方根反正弦变换以满足方差分析的条件 GLM过程中MODEL语句Y AB A C AB 指明了B因素隶属于A C因素隶属于A B 对于系统分组 GLM过程中MODEL语句后只能选用SS1 计算结果与因素在该语句中顺序有关 不能选用SS3 两个TEST语句指明了A因素效应检验以B因素作为误差项 B因素效应检验以C因素作为误差项 NESTED过程是SAS提供的专门用于系统分组设计的方差分析 与上述的GLM过程完全等价 且程序的书写和结果的输出都比GLM过程简单 但NESTED过程仅适用于对因素已按主次排列 即其数据集必须是事先定义这些效应的分类变量或CLASS变量排序 的平衡资料的方差分析 对于不平衡资料 只能用GLM过程 输出结果如下 GLM过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论