试验设计与数据统.ppt_第1页
试验设计与数据统.ppt_第2页
试验设计与数据统.ppt_第3页
试验设计与数据统.ppt_第4页
试验设计与数据统.ppt_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,SPSS软件应用,试验设计与数据统计分析,王美美 Tel(654117) Lab:土槽实验室202,SPSS简介,最初软件全称为“社会科学统计软件包。后更改为“统计产品与服务解决方案”,SPSS(Statistical Product and Service Solutions) IBM公司2009年收购SPSS。如今SPSS已出至版本19.0,而且更名为PASW Statistics。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类, SPSS也有专门的绘图系统,可以根据数据绘制各种图形。,1.变量定义与数据编辑,1.1Data View和Variable View,1.2定义变量的普通方法,定义变量名 单击“Name”所在列的第一行,就可以输入要定义的第一个变量的变量名。,定义变量类型,定义值标签 如名为“温度”的变量,试验时它的水平有3个:60、70、80,就要定义变量标签值:1代表60、2代表70、3代表80,便于数据的输入,其余的几项可以使用系统默认值 Missing变量缺失, Columns显示列宽, Align对齐方式, Measure变量分类(连续、有序或无序)。,2.均值比较与检验,2.1单一样本t检验 One Sample T Test,单个样本T检验是检验单个样本的均值是否与假设检验值(给定的常数)之间有差异。 该过程计算每个数据值与总体均值之间差的平均值,进行该差值为0的t检验,并计算该差值的置信区间。用户可以指定检验的显著性水平(通常为95%)。,例题2-1,某地区12岁男孩平均身高为142.5cm。1973年某市测量120名12岁男孩身高资料,数据编号data02-01。某市12岁男孩身高与该地区12岁男孩身高平均值是否相等 。 分析方法 (1)建立假设:H0: u1=u2, H1: u1u2 (2)分析数据 (3)分析结果:在95%的置信区间内,如果显著值p 0.05,则接受原假设;如果显著值p 0.05则拒绝原假设,接受备择假设。 (4)得出结论,软件应用 按 Analyze Compare Means One Sample T Test的顺序单击,打开主对话框。将要作检验的变量放入Test Variables 框中,并在Test Value 框中填入检验值,Option按钮可以修改显著水平的设置,其余的可用系统默认值。单击OK按钮,输出结果。,表2,(1)表1表示,试验样本个数N=120,试验样本的平均值为143.048cm,标准差5.8206,均值标准误差为0.5313。 (2)表2表示,t = 1.032,自由度为119,两尾t检验的显著值(sig.)p = 0.304,样本均值与检验值的差为142.5cm,两尾检验的区间为(-0.504,1.600)。 (3)p = 0.304 0.05,接受原假设,表明在95%的置信区间里样本均值与给定的标准值之间没有显著性差异,因此两个地区男孩平均身高没有明显差异的。,表1,练习题1 某轮胎厂的质量分析报告中说明,该厂某轮胎的平均寿命在一定的载重负荷与正常行驶条件下不会大于25000公里,平均轮胎寿命的公里数近似服从正态分布,现对该厂该种轮胎抽取15个样本,试验结果得样本均值为27000公里。能否作出结论:该厂产品与质量分析报告是否相符。,表1 轮胎抽样检验数据,数据输入格式,分析结果,2.2独立样本的t检验 Independent Samples T test,独立样本T检验用于检验两组不相关的样本(两组处理是随机的,两组间彼此独立)是否来自具有相同均值的总体的假设检验。特征:两组样本数不一定相等 数据分析时首先对两个独立样本的方差进行一致性(齐性)检验。需根据方差齐性检验的F值来判断选择给出的两个t检验(方差齐或者不齐)中的一个来得出最后的结论。,分析方法 (1)建立假设 :H0: u1=u2, H1: u1u2 (2)分析数据 (3)分析结果:首先对两个独立样本的方差进行一致性检验。如果p 0.05,则两样本方差相等,应分析第一行t检验的结果,如果p 0.05,则两样本方差不等,应分析第二行t检验的结果。 (4)得出结论,例2-2 有29名13岁男生的身高、体重、肺活量数据。试分析身高大于等于155厘米的与身高小于155厘米的两组男生的体重和肺活量均值是否有显著性差异。data02-02数据,软件应用 按Analyze Compared Means Independent-Samples T Test 的单击,打开主对话框, 将要检验的变量放入Test Variable框中,将分组变量放入Grouping Variable框中,单击Define Groups按钮。,确定分类变量及连续变量的分组值 分类变量选择Use specified values,在Group 1或2后面的框中输入分组的两个值如1和2 连续变量 选择 Cut point,输入要分界的值,如本例则输入155,单击Continue 后返回主对话框,单击OK按钮,输出结果。,(1)表3 两组组试验样本数、样本均值、标准差和均值标准误差。 (2)表4中两样本方差齐性检验,在95%的置信区间内,体重和身高 p = 0.198 0.05,肺活量和身高p = 0.961 0.05表明两样本方差没有有显著差异,因此应分析第一行t 检验的值。t = 4.056,p = 0=155cm和155cm的身高在体重和肺活量上存在显著性差异,因此两种身高对身高和体重具有显著性影响。,表4,表3,练习题2 为研究喷雾机两种不同喷头的效果,在玉米抽穗期用喷头1喷8块玉米地,用喷头2喷9块玉米地,收获时的产量结果如表5所示,试检验两种喷头的效果是否显著不同?,表5 两种喷头试验产量,输入数据格式,参考分析结果 p = 0.020 0.05,两样本方差有显著差异,分析第二行t 检验的值。t = -0.3175,p = 0.008 0.05,则两个样本均值存在显著性差异,因此两种喷头对玉米产量具有显著性影响。,练习题3 某物质在处理前和处理后分别抽样分析其含脂率如下,假定处理前后的含脂率都服从正态分布,问处理前后的含脂率的平均值是否有显著变化(0.05)?,处理前后含脂率试验数据,参考分析结果 p0.2620.05,认为两样本方差相等。应该考虑第一行t检验的结果。样本方差一致t检验p0.0190.05。可以认为样品处理前后含脂率均值有显著性差异。,2.3配对样本t检验 Paired-Samples T Test,将供试的两样本置于相同的条件下,进行两种不同的处理来进行比较,所得的观察值为成对的数据。也即两样本彼此不独立,应该使用配对T检验。 进行配对样本T检验的数据文件中的一对数据必须作为同一个观测量中的两个变量值。,分析方法 (1)建立假设 :H0: u1=u2, H1: u1u2 (2)分析数据 (3)分析结果:分析样本配对变量差值的t检验结果。 (4)得出结论,例2-3 有10个高血压患者在施以体育疗法前后测定舒张压,要求判断体育疗法对降低血压是否有效,数据编号data02-03。,软件应用 按Analyze Compared Means Paired-Samples T Test 的顺序单击,打开主对话框,将配对的两组数据变量放入Paired Variables 配对变量框,单击OK按钮,输出结果。,表6,表7,表8,(1)表6表示治疗前后分别测试舒张压的平均值、样本个数、标准差和均值标准误差的值。 (2)表7表示两组数据相关性为0.599,不相关概率p = 0.067 0.05,可以得出在95%的置信区间内两组数据不具有线性关系。 (3)表8表示两组样本数据的差值,t = 0.5639,p = 0.000 0.05,拒绝原假设,则两样本均值有显著性差异,因此治疗前后舒张压差异显著。,练习题4 现用一硬度仪以检验该厂生产的新旧两种顶针的硬度所给出的读数是否一致。本例抽取10条试样,随机将每条试样分成两段(设同一试样的硬度一致,不同试样间的硬度可能有异)。随机选取一端给顶针测试;另一头给顶针测试,这就叫配成对子。重复10条试样的测定,得硬度读数如表9所示 。,表9顶针硬度测试数据,参考分析结果 t = -0.264,p = 0.798 0.05,接受原假设,则两样本均值没有显著性差异,因此两种顶针硬度差异不显著,练习题5 某单位研究饲料中缺乏维生素E与肝中维生素A含量的关系,将大白鼠按性别、体重等配为8对,每对中两只大白鼠分别喂正常饲料和维生素E缺乏的饲料,一段时间后测定其肝中维生素A的含量如下,想知道饲料中缺乏维生素E对鼠肝中维生素A含量有无影响。,表10 对比试验肝中维生素含量数据,参考分析结果 p0.0040.05,表明缺乏维生素E对鼠肝中维生素A的含量有显著影响。,3.方差分析 GLM,3.1单因素方差分析 One Way ANOVA,单因素方差分析是检验由单一因素的多组样本对因变量的均值是否有显著差异的问题。如果各组之间有显著差异,说明这个因素对因变量有显著影响。因素的不同水平会影响到因变量的取值。,3.1单因素方差分析 One Way ANOVA,单因素方差分析是检验由单一因素的多组样本对因变量的均值是否有显著差异的问题。如果各组之间有显著差异,说明这个因素对因变量有显著影响。因素的不同水平会影响到因变量的取值。,3.1.1总体差异性分析 例3-1 某灯泡厂用4种不同配料方案制成的灯丝,生产了四批灯泡。在每批灯泡中随机的抽取若干个灯泡测其使用寿命如下,希望知道这四种灯丝生产的灯泡,其使用寿命有无显著差异。Data02-04 分析: 因素(factor):灯丝(4种不同的型号,称为4个水平。) 因变量(dependent list):灯泡寿命,分析方法 (1)建立假设:H0 :u1 = u2 = u3 = u4 = u5 = u (2)分析数据: (3)分析结果:用F检验来分析因素总体对因变量影响的显著性。如果F检验不显著(即p0.05)就不能拒绝原假设,表明因素对因变量影响不显著; (4)得出结论,表11不同灯丝寿命试验数据,软件应用 按Analyze Compared Means One-Way ANOVA 的顺序单击,打开主对话框,将因变量放入Dependent List(因变量)框,因素变量放入Factor(因素框),其余可采用系统默认,单击OK提交运行。,表12,表12方差分析中F=1.638,p=0.2090.05,在95%的置信水平下,不能否定原假设,即认为四种不同的灯丝其使用寿命没有显著差异。,练习题6 某饲料场用A、B、C、D四种饲料喂养家禽,研究这四种饲料对家禽体重的有无显著影响。,参考分析结果 方差分析中F=157.467,p=0.0000.05,在95%的置信水平下,否定原假设,即认为四种不同的饲料对家禽体重有显著差异。,3.1.2个体差异性分析 例3-2,The tensile strength (抗拉强度)of synthetic fiber(人造纤维) used to make cloth for mens shirts is of interest to a manufacturer. It is suspected that the strength is affected by the percentage of cotton in the fiber. Five levels of cotton percentage are of interest, 15,20 25 30 and 35 percent. Five observations are to be taken at each level of cotton percentage, and the 25 total observations are to be run in random order.,表13 抗拉强度试验数据,分析方法 (1) 用F检验来分析因素总体对因变量影响的显著性。如果F检验显著(即p0.05)就拒绝原假设,表明因素对因变量影响显著;需要进一步做多重分析。 (2) 根据方差一致性检验结果来判断选用哪种方法来分析数据。 p 0.05,则两样本方差相等,应分析LSD的结果, p 0.05,则两样本方差不等,应分析Tamhanes的结果。,软件应用,Post Hoc Post Hoc Multiple Comparisons Equal Variance Assumed(方差一致) :LSD (p 0.05) Equal Variance Not Assumed (方差不一致)Tamhanes ( p 0.05) Options 进行输出统计量的选择。 Descriptive 要求输出描述统计量; Homogeneity-of-variance 要求用Levene进行方差一致性检验 Means plot 要求输出均数分布图,即根据各组均数描绘出因变量的分布情况。,(1)表15 方差分析中F=14.757,p=0 0.05,否定原假设,因此五种不同的棉花含量对于抗拉强度具有显著影响。需进行多重比较分析 。 (2)表14 方差齐性检验,p0.0610.05,认为样本方差没有显著差异 ,因此方差具有一致性。在多重比较分析时应该选择“方差相等”的一栏进行分析。即分析LSD法。,表14,表15,表16,表17,(1)由表16 LSD法分析可以得出含棉量15%和35%两种布料的抗拉强度没有显著差异;20%和25%两种布料的抗拉强度没有显著差异;这两组布料之间具有显著差异;上述四种布料的抗拉强度均与30%的具有显著差异。 (2)综合表17和图1的信息可以认为含棉量为30%的布料抗拉强度最好,显著超过其他品种。,图1,3.2双因素方差分析 General Linear Model,双因素方差分析就是讨论两因素(具有不同水平)对因变量的影响是否显著的问题。双因素方差分析又可分为双因素重复试验的方差分析和双因素不重复试验的方差分析 双因素重复试验:研究两个因素是否独立,有无交互作用,进行重复试验 双因素不重复试验:两个因素,相互独立,无交互作用,例3-3 某厂进行橡胶配方试验,考虑了三种不同的促进剂,四种不同的氧化锌。同样的配方重复试验两次,测得定强如下表(18)。以A表促进剂因素,B表氧化锌因素,注脚号表不同的水平(用量),表18 橡胶定强测定值,3.2.1重复试验带交互作用的方差分析 分析方法 F检验分析两因素及其交互影响是否对结果影响是否显著,剔除不显著地因素继续分析,并确定主次顺序。 根据方差一致性检验结果来判断选用哪种方法来分析数据。 p 0.05,则两样本方差相等,应分析S-N-K的结果 p 0.05,则两样本方差不等,应分析Tamhanes的结果。,软件应用 按Analyze General Linear Models Univariate 的顺序单击,将因变量放入Dependent(因变量)框,两个因素分别放入Fixed Factors(因素)框。,软件应用 full factorial Model custom Build Term interaction 两因素放model,软件应用 需判断各因素对总变异的贡献大小:Option Estimates of effect size,用Eta2大小来判断。 多重比较:Post Hoc S-N-K和Tamhanes , options homogeneity (方差一致性检验),数据输入格式,(1)表19中促进剂和氧化锌 p = 0.000 0.001,对橡胶定强的影响显著;两者的交互作用的p = 0.767 0.05,对橡胶定强影响不显著。因素影响作用主次顺序为氧化锌 促进剂两者交互作用 (2)由于交互作用对结果影响不显著,因此将其合并如误差项中,再进行方差分析 。,表19,(3)合并误差项后,再进行方差分析得到表20,由于误差项少了,表20中两主效应的F值比表32中的相应值增大,精度提高。,表20,(4)由表21得方差检验p=0.7810.05,因此方差具有一致性应选用S-N-K法比较 (5)表22得促进剂三个水平相互差异显著,水平3的效果最好。表23得氧化锌2和3没有显著差异,该组和其他水平相互差异显著,水平4的效果最好。,表21,表22,表23,3.2.2不重复试验的双因素方差分析,例3-4 设A、B、C三台机器生产同一产品,4名工人操作机器各一天,得日产量数据如下,问机器间、工人之间在日产量上是否有显著差异(0.05)?,分析:因素(有两个):(1)工人,4个水平(2)机器,3个水平 因变量:日产量,表24 不同工人操作不同机器的日产量统计数据,软件应用 按Analyze General Linear Models Univariate 的顺序单击,将因变量放入Dependent(因变量)框,两个因素分别放入Fixed Factors(因素)框。 Model custom Build Term Main effect 点击ok运行,数据输入格式,(1)机器的F=29.102,p =0.0010.05,所以认为机器之间差异显著。 (2)工人的F=6.985, p =0.0220.05,所以认为工人之间差异显著。,表25,4.正交试验分析,正交试验分析 正交试验数据分析方法:直观分析和方差分析 直观分析:分析因素对结果的影响趋势及主次顺序。 方差分析:分析因素对结果影响的显著程度,及主次顺序。,例4-1 为了提高某杀虫药产品的转化率(即试验指标)选择了三个有关因素:反应温度(A),反应时间(B),用碱量(C)。选择的水平见表(26)。如果用全面试验,要做次,但现在用正交设计试验只做次。,表26 因素与水平安排表,(1)各因素影响趋势如图 (2)用极差R来判断各因素影响的主次顺序为由主到次为A、C、B (3)综合起来较好的工艺条件是A3B2C2,但是这个工艺条件并不在这次试验之内,与之接近的是第、次试验。应再做一组对比试验得出最好的组合。,表27 正交试验直观分析表,各因素影响趋势图,操作步骤: analyze General Linear Models Univariate 将“result”放入Dependent框,A、B、C、D、E五个因素放入Fixed Factors框 Model Custom continue Option,将五因素移入Display means for 需判断各因素对总变异的贡献大小可选择Option中的Estimates of effect size项,用Eta2大小来判断,(1)由表28可知,因素A对转化率的影响F = 34.33,p = 0.028 0.05,可得因素A对转化率的影响显著,因素B、C的显著值均大于0.05,因此因素B、C对转化率的影响不显著。 (2)因素影响作用主次顺序为A CB,表28,5.回归分析,5.1一元线性回归 Linear 要从x(indepentent)的数量变化来预测y (depentent)的数量变化,可做出一条直线来描绘它们的变化规律,这样的一条直线成为y依x的回归直线(linear regression line),回归方程通式:y =a + bx。,软件应用 按Analyze Regression Linear的顺序单击,将因变量放入Dependent(因变量)框,将自变量放入Independent(自变量框)框中。 Plots Stardardized Resdual Plots Normal Probability plot其余选用系统默认值,单击OK按钮,提交运行。,例5-1 某学校对学生的体重X与肺活量Y进行调查,数据如表29,试用直线回归方程描述它们的关系。,表29 肺活量与体重调查数据,表 30 数据输入格式,表33常数项和系数的t检验结果,常数p = 1 0.05,说明常数项无统计学意义;系数p = 0.005 0.05,回归系数显著,因此得肺活量对体重的回归直线方程: 常数项无统计学意义,可以考虑回归方程中不引入常数项。,表31得出模型拟合优度,相关系数R=0.749,判定系数R2=0.562,,表32得出模型回归的显著值p=0.0050.05,回归系数显著,即 x、y之间有直线关系,表31,表33,表32,回归方程不引入常数项 在前面操作的基础上选择options然后不选择include constant in equation,表34,表35,表36,由表34、35可得模型的线性相关程度和回归显著值均优于前者. 因此得肺活量对体重的回归直线方程:y = 0.05883x (R=0.996),回归直线图,5.2多元线性回归 软件应用: Analyze Regression linear 将因变量放入Dependent(因变量框)框中,将自变量放入Independent(自变量框)框中。Model 栏中选择回归方式 Enter(系统默认):为全部自变量均引入方程; Stepwise:逐步回归,直到把不显著的自变量全部剔除,保留的自变量均显著为止; Forward:自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。 Backward:与Forward相反; Remove:为根据设定的条件,在建立回归模型时删除自变量。其余选用系统默认值,单击OK按钮,提交运行。,在Option选项中: Use probability of F:当候选变量中最大F值的显著值小于或等于引入值(默认:0.05)时,引入相应的变量;已进入方程 的变量中,最小F值的显著值大于或等于剔除值(默认:0.10)时,剔除相应的变量。所设定的引入值必须小于剔除值,用户可自己进行设定,如引入值为0.1,剔除值为0.15,放宽变量进入方程的标准。 Use F value:含义同上。,例5-2 29例儿童血液中的血红蛋白(Y)与钙(X1)、镁(X2)、铁(X3)、锰(X4)、铜(X5)的含量如下,用逐步回归方法筛选对血红蛋白有显著作用的微量元素。,表37血红蛋白与微量元素关系测试数据,续表,(1)表38显示变量的引入和剔出。引入的变量是铁(X3) 和钙(X1),所以模型中只有这两个变量。 (2)表39得出引入铁和钙后该模型的相关系数为R=0.955,表38,表39,(3)表40,模型2方差分析,回归系数显著。 (4)表41,回归系数的t检验显著值分别为0和0.087,按0.1水平,都显著。 模型2建立的回归方程是: y=0.03247x3-0.031x1,表40,表41,(5)表4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论