版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试验设计与数据处理
ExperimentDesign&DataProcessing授课教师:程江峰课程教学平台推荐参考书课堂教学上机实习推荐参考书徐秉玖编著.药物统计学.北京:北京医科大学出版社,1999.杨德编著.试验设计与分析.北京:中国农业出版社,2002.袁志发周静芋主编.试验设计与分析.北京:高等教育出版社,2000.李云雁胡传荣编著.试验设计与数据处理.北京:化学工业出版社,2005.课堂教学目录第一章概述第二章试验设计的概念及原理第三章试验统计基础及EXCEL简介第四章简单试验设计与统计分析第五章方差分析第六章回归与相关分析第七章正交试验设计与分析第一章概述试验设计在科研中的地位与意义科学研究是人类对物质世界和社会现象的一种认识活动。其方法可分为三个层次,即哲学方法;一般研究方法(如科学试验、科学抽象、数学方法等);各门科学中的一些专门化的特殊研究方法。试验设计是属于一般研究方法中的科学试验方法的范畴,它是由试验方法与数学方法,特别是统计方法相互交叉而形成的一门科学。它是研究如何计划安排试验并对结果进行分析的一门科学。科技人员掌握应用各种先进试验设计与结果分析方法,可提高自身的素质及科学试验水平,将加快所从事科学研究的进程。科学研究中不同阶段的试验设计研究初期阶段的探索试验简单设计试验目的是明确某因素的作用。如对照试验、比较试验等。筛选试验目的是在众多因素中明确关键因素或优良水平。如单因素多水平试验(格子设计等);少量水平的多因素试验(如混杂设计、不完全区组设计、均匀设计、正交设计等)。研究中期阶段的析因试验多因素的析因试验,以深入分析主要因素的作用及其相互关系。如拉丁方设计、交替设计、裂区设计、正交设计等。研究后期阶段的优化试验目的是深入研究少数关键因子及相互作用关系并进行优化设计。如回归设计、配方设计、稳健设计等。第二章试验设计的概念及原理2.1试验的基本概念2.1.1总体与样本总体(Population)定义:由具有共同性质的全部个体(Individual)组成。而个体是研究对象中可以单独观测和研究的一个物体或一定量的材料。例如:一个药厂的某一种产品中有效药物含量值;全国采集的某种中药材中总甙含量。2.1.2试验因子、水平、处理试验因子(Factor)试验中安排的因子,或称试验因素。其实影响科学试验结果的因子往往很多,但进行试验时,仅能挑选少数几个。水平(Level)在安排试验中,每个因子的某种具体措施称为该因子的某种水平。处理(Treatment)多因子试验中,不同因子的不同水平的组合称为处理;而在单因子试验中,该因子的不同水平亦可称为处理。2.1.3试验单元、重复、区组试验单元(Unit)试验中实施试验处理的基本对象。如医药学试验中的小白鼠、医院病人等。重复(Replication)在试验中,每一种处理往往进行一次以上试验,称为处理的重复。区组(Block)某一批处理排列时集中在某一区域(时期、空间等)称为区组。2.1.4试验误差及来源、分类试验误差(Error)在科学试验中,由于受到许多非处理因子的干扰和影响,所观察到的每个处理的测量结果与该处理的真值会产生一定的偏差,这个偏差就是试验误差。试验误差的来源试验单元间的固有差异试验单元上操作方法间的差异试验单元间环境的差异试验误差的分类随机误差(Randomerror)系统误差(Systematicerror)粗大误差(过失误差)(Grosserror)2.1.5精密度、正确度、精确度精密度(Precision)表示试验结果中随机误差大小的程度。它是在试验规定条件下,对处理进行多次相互独立测量所得结果之间符合的程度。精确度(Accuracy)又称准确度。它表示试验处理测量结果与被测量处理真值之间的接近程度。它反映了试验测量结果中系统误差与随机误差的综合。正确度(Correctness)表示试验测量结果中系统误差大小的程度。它反映了试验规定条件下,试验测量中所有系统误差的综合。2.1.6提高试验精确度的主要途径选择试验处理注意试验材料改进试验技术统计方法控制2.2试验设计的原理2.2.1唯一差异原则进行两处理平均值比较时,它们两者之间仅有此两种处理不同而引起的唯一差异,而其它各种试验条件都应保持在同等的背景上。2.2.2试验设计的基本原理为控制干扰因子引起的差异,降低试验误差,在试验设计中要遵循如下三条基本原理:重复随机化区域控制第三章试验统计基础及EXCEL简介3.1试验统计基础3.1.1试验数据的类型数量数据当试验结果显现数量上的变化,由计数或测量所得到的数据资料。计数数据:由计数法得到的数据,是非连续型变量数据。取值时一般为正整数。如人体白细胞计数等。计量数据:由测量所得的数据,是连续型变量数据。不一定是整数,通常有不同的有效数字。如药片的重量等。质量数据当试验结果显现属性变化,只能分门别类处理所得到的数据。称名数据:数据的各种类别并没有顺序大小差别,仅是属性上名称不同。可按属性类别进行分组统计次数,有时也称次数数据。如人的血型等。顺序数据:数据的各种类别存在顺序大小的差别。如疾病治疗的疗效有痊愈、好转、无效等。可按属性类别进行分组统计其次数,有时也可数量化。3.1.2试验数据的初步分析试验数据可采用样本的基本统计参数进行初步分析。平均值(Mean/Average)算术平均值(Arithmeticmean)加权平均值(Weightedmean)极差(Range):一组数据中最大的与最小的值之间的差。方差(s2、
2)和标准偏差(s、
)
Variance&StandardDeviation样本方差:样本的标准偏差:总体的方差:总体的标准偏差:3.2EXCEL的统计功能简介3.2.1EXCEL界面
3.2.2数据、公式及函数数据输入技巧复制数据序列填充公式公式输入公式编辑单元格的引用常用函数及格式求和SUM(number1,number2,…)平均值AVERAGE(number1,number2,…)方差总体:VARP(number1,number2,…)样本:VAR(number1,number2,…)标准偏差总体:STDEVP(number1,number2,…)样本:STDEV(number1,number2,…)相对标准偏差(RelativeStandardDeviation)STDEV(number1,number2,…)/AVERAGE(number1,number2,…)极差MAX(number1,number2,…)-MIN(number1,number2,…)3.2.3随机数函数在抽样中的应用随机数发生函数RAND()随机抽样(Randomsampling)例:从1000瓶中选取10瓶作为样品。采用公式:ROUND(RAND()*1000,0)临床试验中给病人随机指定治疗方法例:对20个病人随机指定服用有效药物和安慰剂。方法一:利用公式:ROUND(RAND()*10,0)方法二:随机数排序法。3.2.4统计分析工具的使用
调用统计分析工具的操作EXCEL
菜单
工具
数据分析(19种)找不到此选项时,菜单
工具
加载宏
勾选分析工具库数据分析工具使用举例描述统计第四章简单试验设计与统计分析正态分布与标准正态分布正态分布(Normaldistribution)若总体符合正态分布则记为:X~N(,2)。X的概率密度函数为:
标准正态分布
Standardnormaldistribution均值为0,标准偏差为1的正态分布。任意正态分布可通过简单的变量变换化为标准正态分布,即令U=(X-)/,则:U~N(0,1)4.1不相关样本的方差比较4.1.1F分布(Fdistribution)两个具有共同方差的独立正态总体。样本容量为n1的一个样本来自第一个总体,来自第二个总体的另一个样本,其样本容量为n2,则:
F分布可用来检验平均值的差别(方差分析)和检验方差是否相等,即F检验。4.1.2两个方差的假设(显著性)检验例1:比较用两种不同的步骤制备的粉末产品,混合程度是否均匀一致。可采用的试验设计:分别随机取出7个重量一样的粉末混合物样本,分析其中的活性物质的量(mg)。与临界值比较,作出统计推断结论:利用EXCEL数据分析中的双样本方差的F检验工具(注意:单尾=0.025);临界值计算也可利用FINV函数(其反函数FDIST)。格式:FINV(probability,deg_freedom1,deg_freedom2);FDIST(F,deg_freedom1,deg_freedom2)。结论:F>F0.025(6,6)=5.82,P<0.025,在=0.05(双尾)水平上,拒绝H0
,两种步骤制得的粉末产品混合程度不同。4.2样本平均值的比较4.2.1单样本u检验从正态总体N(,2)中,反复多次随机抽取样本容量为n的样本,则~N(,2/n),进一步变换为标准正态分布,则有:例2:对一种片剂药品的制造工艺进行改造。考察新工艺是否对成品药片平均药物含量产生影响。已知几年中收集的该药片中药物成分分析的大量数据表明平均药物含量为50.3mg,标准偏差为1.5mg。试验设计:从采用新工艺制造的一批药片中随机抽取10片,分析其药物含量(mg)。假设检验步骤:提出假设:H0:=50.3H1:50.3确定检验水平
:0.05(双尾检验)
计算统计量u值:样本平均值可由函数AVERAGE求得;计算统计量u:与临界值比较,作出统计推断结论:利用NORMSINV函数(其反函数为NORMSDIST)计算临界值。格式:NORMSINV(probability);NORMSDIST(u)结论:u<u0.05=1.96,P>0.05,在=0.05水平上,接受H0
。新工艺对成品药片平均含量没有显著的影响。4.2.2t分布(学生氏t分布)
若从正态总体N(,2)中,反复多次随机抽取样本容量为n的样本,则:t分布曲线的形状与样本容量(自由度)有关,但都是关于平均值0对称的。样本平均值的比较通常是进行t检验。4.2.3单样本t检验例2:若总体标准偏差未知,则需要进行t检验。假设检验步骤:提出假设:H0:=50.3H1:50.3确定检验水平
:0.05(双尾检验)
计算统计量t值:样本平均值与标准偏差可分别由函数AVERAGE和STDEV求得;计算统计量t:与临界值比较,作出统计推断结论:利用TINV函数(其反函数为TDIST)计算临界值。格式:TINV(probability,deg_freedom);TDIST(t,deg_freedom,tails)。结论:t<t0.05(9)=2.26,P>0.05,在=0.05水平上,接受H0
。新工艺对成品药片平均含量没有显著的影响。4.2.4两独立样本t检验例3:一种药物制成的药片已经上市,现在研究人员想改进其配方。想确定研究中的一种配方药片的溶出速率是否与上市的药片有差别。实验设计:新配方与上市药片各随机取10片,分别测定在同一个溶出仪中15分钟后的百分溶出度。假设检验步骤:检验方差是否相同:经F检验得F=1.41<F0.025(9,9)=4.03,P=0.31>0.025,在=0.05(双尾)水平上,新配方与上市配方药片溶出速率的方差无显著差异。提出假设:H0:
1=2H1:
1
2
确定检验水平
:0.05(双尾检验)计算统计量t值:利用EXCEL数据分析中的t检验:双样本等方差假设。t值(方差相同)的计算式为:与临界值比较,作出统计推断结论:也可利用TINV函数(其反函数为TDIST)计算临界值。结论:t=1.09<t0.05(18)=2.10,P>0.05,在=0.05水平上,接受H0
。新配方与上市配方药片溶出速率没有显著的差别。若方差不同(F检验显著)则应利用EXCEL数据分析中的t检验:双样本异方差假设进行检验。统计量t值的计算式应为:4.2.5
成对(配对)样本t检验例4:考察一个上市药物新配方的生物利用度。实验设计:观察6个实验动物对药物的吸收程度,每个动物在两个不同的时刻以随机的次序服用两种配方的药物。测定结果以血药浓度对时间曲线下的面积(AUC)表示。假设检验步骤:通过计算两样本的差值
,转化为单样本t检验。提出假设:H0:=0H1:0确定检验水平
:0.05(双尾检验)计算统计量t值:计算式为:与临界值比较,作出统计推断结论:可利用EXCEL数据分析中的t检验:平均值的成对二样本分析。结论:t=3.48>t0.05(5)=2.57,P<0.05,在=0.05水平上,拒绝H0
。新配方与上市配方的生物利用度存在显著的差别,新配方的生物利用度不如上市配方。第五章方差分析
AnalysisofVariance在通常的科学研究中,研究者需要安排所作的实验,使他们能得以对两组或更多组数据的平均值进行比较。在这种对比实验中,方差分析(ANOVA)是对所得数据进行分析的常用工具。它可以说是统计工具中可能最有力的一个。t检验是ANOVA的一个特例,它仅对两个平均值进行比较。方差分析的基本思想是,首先将总变异分解为几个部分,每部分与特定的因素相联系。之后构造检验统计量F,实现对总体平均值是否相等的推断。5.1单因素(one-way)方差分析例5:比较对一种药物药片的三种分析方法是否有差别。实验设计:随机抽取15片,并随机分为三组,每组5片,每组用其中的一种分析方法进行分析。平方和分解:i表示分组数;第i组的样本容量为ni(各组可以不相等),N为总样本容量;xij表示第i组的第j个观察值;是第i组的平均值,为总平均值。则:总离差平方和:自由度:dfT=N-1组内离差平方和:自由度:dfW=N-i组间离差平方和:自由度:dfB=i-1组内均方:MSW=SSW/dfW组间均方:MSB=SSB/dfB在数学上可以证明:SST=SSW+SSB;且dfT=dfW+dfB方差分析步骤:提出假设:H0:
A=B=CH1:
i不全相等确定显著水平
:0.05由实验数据计算统计量F:F=MSB/MSW与临界值比较,作出统计推断结论:利用EXCEL数据分析中单因素方差分析工具;也可利用FINV函数计算临界值;结论:F=3.27<F0.05(2,12)=3.89,P>0.05,在=0.05水平上,接受H0,认为三种分析方法没有显著差别。多重比较(Multiplecomparison)(LSD法)当ANOVA显著时,需进一步了解哪些处理间存在显著差异时,可采用多重比较的方法,最小显著差异法(LSD法)是其中最简单的一种。其中:s2=MSW,t=t(dfw)5.2两因素(Two-way)方差分析例6:比较一个标准药品与两个相似产品的溶出速度,同时检验八个实验室之间是否有差别。
实验设计:三种药品分别随机抽取8片,再随机分配给八个实验室进行百分溶出度的测定。方差分析步骤:提出假设:H0:
A=B=标准H1:
i不全相等确定显著水平
:0.05由实验数据计算统计量F:FC=MSC/MSCRFR=MSR/MSCR与临界值比较,作出统计推断结论:利用EXCEL数据分析中无重复双因素方差分析工具;也可利用FINV函数计算临界值;结论:FC=3.46<F0.05(2,14)=3.74,P>0.05,在=0.05水平上,接受H0,认为三个药品间溶出速度没有显著差别。
FR=1.93<F0.05(7,14)=2.76,P>0.05,在=0.05水平上,八个实验室间也无显著差别。注意,以上检验仅在不存在交互作用(Interaction)(药物产品
实验室)的情况下才成立,即现有实验结果所含有的信息,不足以检验是否存在交互作用。若认为可能会存在交互作用,应该设计成有重复测定的实验。第六章回归与相关分析
Regression&Correlation6.1回归分析回归是一种统计技术,它通过找出最佳的直线(或曲线)确定两个变量x与y之间的函数关系。药学研究中一些变量间的函数关系已知是线性时,我们采用线性回归描述它们之间的关系;当所研究的一个药物作用的响应值随所研究的任一因素变化的函数形式未知时,我们也经常采用回归分析,希望表示出一个趋势,或希望表示出响应值随因素的变化率。6.1.1直线回归(Linearregression)如果相信两个变量之间存在线性关系,从实测的一系列的数据对(x,y)可以作出一条直线表示它们间存在的这种关系。直线由以下方程确定:
其中a是截距,b是斜率。由于实验误差的存在,即使是已知存在线性关系,极少有可能通过所有的数据点作出一条确切的直线。此时用最小二乘法作出的线最贴近所有的数据点。b和a的估计值
和
可从样本数据求得:6.1.2药物分析中标准曲线的建立例7:由实测的标准物系列浓度与对应的色谱峰面积的数据,求取浓度c对色谱峰面积A的回归方程。回归分析:可利用EXCEL数据分析中的回归工具进行。得到的回归方程为:
c=0.098198+0.000332A回归方程的假设检验(采用方差分析):提出假设:H0:
=0
H1:
0确定显著水平
:0.05由实验数据计算统计量F:与临界值比较,作出统计推断结论:可利用FINV函数计算临界值;结论:F=14301.63>F0.05(1,4)=7.71,P<0.05,在=0.05水平上,拒绝H0,接受H1,即斜率
0,回归方程是显著的。回归方程的假设检验也可采用t检验,它与方差分析是等价的。所以选择其一即可。6.2相关分析相关性表示的是两个或更多个变量之间相关联的程度。我们要确定两种数值之间是否存在关联,意思是多大程度上可以根据一个变量的了解预计第二个变量的值。预计得越好,两种变量间的相关性就越好。相关分析一般以两个变量间线性的关系如何作为依据。6.2.1相关系数相关系数(Correlationcoefficient)r是两个变量之间相关关系的定量量度。r无因次,其取值范围为:-1
r
+1r值为正表示正相关;r值为负,表示负相关;r值为0,则称零相关,即无直线关系。当r值的绝对值为1时,称完全相关。6.2.2相关系数的假设检验与其它统计量一样,由样本数据计算得到的相关系数同样需要进行假设检验。检验方法有两种:按自由度df=n-2直接查r临界值表,得到P值。t检验法,统计量tr的计算式为:例8:问题的提出:成人的舒张压与其血清胆固醇水平是否存在相关性。实验设计:随机选出10个受试者,分别测定其舒张压和血清胆固醇水平。计算相关系数r:可利用EXCEL中的PEARSON函数。结果:r=0.809假设检验:提出假设:H0:R=0H1:R
0确定显著水平
:0.05由实验数据计算统计量tr:tr=3.89与临界值比较,作出统计推断结论:利用TINV函数计算临界值;结论:tr>t0.05(8)=2.31,P<0.05,在=0.05水平上,拒绝H0,认为成人的舒张压与其血清胆固醇水平间存在显著的相关性。第七章正交试验设计与分析
OrthogonalDesign/Orthoplan多因素试验的处理会因试验因素及其水平的增加而急剧增加,从而使试验的实施变得困难,甚至无法实施。部分实施试验:对于因素数目在三个以上的多因素试验,可以在一定条件下挑选部分处理作试验并进行严格的统计分析。正交试验设计是常用的一种部分实施试验设计方法。7.1正交表及其特点正交表是正交试验设计中合理安排试验,并对数据进行统计分析的主要工具。较简单的正交表如L9(34)正交表的表头可表示为:Lt(nq)L代表正交表,各种符号意义为:
t,正交表行数,即处理数;
n,因子的水平数;
q,正交表列数,即可容纳的最大因子数。L9(34)正交表正交表的性质:每一列中,不同的数字出现的次数相等;任意两列中,将同一行的两个数字看成一种排列时,每种排列出现的次数相等。正交试验设计的特点:整齐可比;均衡分散;简单易行。正交试验设计在试验的初期、中期及后期均可应用。但要注意,因其为部分实施试验,应慎重分析结果;另外有条件时尽量设置重复,以便对试验误差进行直接估计。7.2简单设计与结果分析例9:自溶酵母提取物是一种多用途产品。为探讨外加中性蛋白酶的方法,需作啤酒酵母的最适自溶条件试验,为此安排3因素皆3水平的试验。试验指标为自溶液中蛋白质含量(%)。首先列出试验因素水平表水平因素A(温度,℃)B(pH值)C(加酶量,%)1506.52.02557.02.43587.52.8选择正交表,实施试验:由经验知,该试验几乎不存在交互作用,故选用L9(34)正交设计。试验结果的直观分析:求各列各水平的和Kj;求各水平的均值kj;由各列均值求出极差Ri;Ri愈大,说明该因素对指标影响愈大。故可由Ri给出各因素影响指标的主次顺序:主
次ABC由均值,A以A3好,B以B1好,C以C1好,故最佳组合应为A3B1C1。但这个处理未作试验,需进一步作验证试验。试验结果也可进一步作方差分析,分析各因素中哪个或哪几个因素对试验指标有显著的影响。上机实习目录
上机实习1(EXCEL基本操作技巧)上机实习2(统计函数和分析工具)上机实习3(F检验)上机实习4(u检验和单样本t检验)上机实习5(独立样本t检验和配对样本t检验)上机实习6(方差分析)上机实习7(线性回归和相关分析)上机实习8(正交试验数据分析)上机实习9(复习)EXCEL上机实习内容(1)熟悉EXCEL软件界面,复习基本操作(如文件的打开和保存,工作表、行、列的插入等)。练习数据的输入技巧:复制和序列填
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 35531-2017胶鞋 苯乙酮含量试验方法》
- 保险学题目及解析
- CPA税法真题试卷及答案
- 湖南省衡阳市2026年九年级下学期期中化学试题附答案
- 双减政策下作业教师试作制度
- 刺绣针法基础题库及答案
- 会计师事务所审计实务题目及答案
- 广播电视编导试卷及分析
- 挪威语真题及分析
- 2025-2026学年辽宁沈阳二中高一下学期4月月考物理试题含答案
- DB37-T 6003-2026 运动促进健康机构服务规范
- 2025年水下机器人探测精度五年技术报告
- 发作性睡病诊疗指南(2025年版)
- 医疗设备人员培训方案范文
- GB/T 12229-2025通用阀门碳素钢铸件技术规范
- 眉山小升初分班数学试卷
- 体育课(军体拳)教案pdf
- 夏季猪只降温方法
- 2025年行政管理专升本真题汇编试卷(含答案)
- GB/T 223.11-2025钢铁及合金铬含量的测定滴定法和分光光度法
- 多元化纠纷解决机制研究-洞察与解读
评论
0/150
提交评论