




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三编 心理实验的设计方法之一狭义实验设计概述-前面的课程内容已经就广义实验设计(研究设计)的基本思路和要点进行了阐述,对研究课题的选择、研究假设的提出、研究方案的制定、变量的确定与控制方式、样本的抽取等内容分别做了说明。作为广义的实验设计,其基本思路和有关要点是所有实证研究、甚至非实证研究重视的共同点。从本讲开始,我们将就狭义的实验设计进行阐述。狭义的实验设计与广义的实验设计并没有本质区别,但更侧重于与统计思想的结合,是研究设计思想在实验法中的具体运用。实验设计的概念狭义的实验设计实验的总体规划;是指一套将被试者安排入实验情境与进行统计分析的计划(Kirk,1995)。更具体来说,实验设计是由一套用以检验科学假设的活动所组成,这些活动包括统计假设(statistical hypothesis)的建立、实验的情境与条件的设定(自变量的决定)、测量以及实验控制的方式的决定(因变量与控制变量的决定)、被试者的选取条件的设计(抽样设计)、以及统计分析方式的决定等步骤。从这些具体的操作步骤中,我们可以看出实验设计与统计分析具有相当紧密的关系,甚至可以说,实验设计就是一门以统计观念为核心的研究方法学。“如果你不知道你要去哪里,那么你到达目的地的可能性处在随机水平上。”(Charles Brewer,Furman University)实验设计就是使研究者达到研究目的所必需认真完成的。为了维持科学研究的客观性,一个实验必须具备三个基本的原则:可复制性(replication)、随机性(randomization)、区组性(blocking)。 可复制性表示一个实验可以在相同的条件下,被重复操作获得相同的结果,即使不是完全的相同,所存在的差异(即实验的误差),也必须在一定合理的范围内。 其次,随机化是实验设计能够符合统计理论的重要程序。藉由随机化,我们可以确保实验的进行是在一个客观的基础上,不同的尝试之间,除了研究者的实验操纵之外,并没有特定因素影响我们所关心的效果变动。 最后,所谓区组性是实验当中用来增加客观精确性的技术。一个区组指的是实验材料当中同质的一部份,区组化可以协助研究者分离不同的操作程序,以便进行比较。上述三个实验设计的基本特性,一方面说明实验研究所关心的核心问题(因果判断),同时也构成了实验设计当中,不同的统计分析方法的差异所在,例如实验误差的估计、随机化的统计分配原理、区组设计的分析方式等等。正也说明了一个成功的实验,反应在一套严谨的测量统计程序当中。实验设计中的常用术语1. 因素(factor)与因素实验设计(factoral experimental design)因素是研究者感兴趣的变量,也就是自变量。因素在实验者的操纵下发生变化,通常有两个或若干个不同的变化值,每个值称为因素的一个水平(level);因素的水平可以是数量的(如噪音强度、词表长度、刺激间隔时间等),也可以是分类的(如教学方法、操作程序、教育程度等)。因素的水平有一定的数量限制,通常不宜过多,以免造成数据处理的困难;而以被试变量为自变量时,其水平数可能是固定的,如性别。因素实验通常是指多于一个因素的实验设计,即双因素实验或多因素实验。2. 处理(treatment)与处理水平的结合(treatment combinations)处理与处理水平的结合都是指实验中由实验者操纵的某一特定的、独特的实验条件。在单因素实验中,自变量的每个水平构成一个实验处理;在多因素实验中,不同自变量的水平相互结合构成不同的实验处理。如:呈现时间和词表长度对短时记忆效果的影响实验,两个自变量各有2个水平,组合成4种不同的实验条件。3. 主效应(main effects)与交互作用(interaction)实验中由一个因素的不同水平引起的变异称为因素的主效应(即因变量的总变异中可以由某一因素解释的部分)。在单因素实验中,主效应通过计算单一自变量的不同水平的数据的方差来反映。在多因素实验中,计算某一因素的主效应时需忽略其它因素不同水平引起的变异,从而可以分别得到不同因素的主效应。在多因素实验中,不同因素的不同水平之间存在复杂的变化关系。当一个因素的水平在另一个因素的不同水平上变化趋势不一致时,即两个因素之间存在交互作用(即因变量的变异中不能由单一因素和误差解释的部分)。而当一个因素的水平在另一个因素的不同水平上变化趋势一致时,表明两个因素是相互独立的。如:耶克斯道森定律的研究中,如果以动机水平和任务难度为自变量,以操作成绩为因变量,则动机水平和任务难度之间存在交互作用。4. 处理效应(treatment effect)和误差变异(error variance)处理效应是指实验的总变异中由自变量引起的变异,主效应、交互作用都是处理效应。误差变异是指总变异中不能由自变量、或明显的额外变量(这类额外变量通常得到控制,其效应可视为零)解释的那部分变异,也就是随机化程序所引起的变异。它可区分为两部分: 单元内误差即几个被试接受同样的实验处理时,他们之间所出现的误差,这种误差是由被试分派程序导致的,属于随机误差;(即被试的个别差异引起的变异) 残差指单元内误差以外的误差变异,也属于随机误差的一部分;当每种实验处理只分派一名被试时,实验中只有残差。5. 比较(comparisons)比较是指对各处理水平平均数之间差异的估价。通常对于因素水平大于等于3,且发现主效应显著时,就需要对各因素水平引起的变异进行两两比较,以确定显着的主效应是由哪两个水平之间的差异引起的,进一步揭示主效应显著的意义。实验设计的基本思想一、统计检验的基本思想实验研究是通过样本统计量推测总体特征的过程。研究者基于经验观察和理论背景提出需要验证的假设,进而从特定总体中抽取研究样本施以实验处理,并观测记录数据资料,通过样本特征的统计分析推测总体的特征,并对假设的成立与否做出结论。(一)统计假设检验基本概念1. 小概率事件原理与显著性水平随机事件发生的概率在01之间,概率取0值的事件称为不可能事件,概率取1值的事件称为必然事件,而绝大部分随机事件的概率取值都在0与1之间。在教育统计中常常把概率取值小于0.05的随机事件称为小概率事件。但小概率事件毕竟不是不可能事件,小概率事件还是会发生的。小概率事件原理就是认为小概率事件在一次抽样中不可能发生的原理。在实际工作中,人们常常按照小概率事件原理对随机现象作决策判断,这是一种科学的思维方式,即实验研究逻辑推论的基础。 在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平,记为。值必须在每一次统计检验之前就取定。在教育统计学中,值常取0.05和0.01两个水平,偶尔也有取0.001的。在假设检验中,的取值越小,称此假设检验的显著性水平越高。2. 虚无假设与备择假设许多科学研究都是从建立假说开始的。 天文学史上的日心说、宇宙发生史上的大爆炸说、地球形成史上的冷凝说、大陆形成史上的板块漂移说等,都是一些假说。假说是人们依据已获得的部分信息对客观世界的某种性状作出的推断性描述。假说既可能属真,也可以有误。假说在被提出之后,人们又进一步搜集信息,对假说的正确性进行验证。经过验证,或推翻假说或支持假说,真理就在这一过程中不断地被揭示、被发展,谬误也在这一过程中不断地被推翻、被纠正。统计假设检验的过程类似于这一证实或推翻假说、从而获取真理的过程。 作统计假设检验一定要先做好提出假设的工作。统计假设检验中使用的假设有两种:一种称为虚无假设,一种称为备择假设。 虚无假设又称为原假设、零假设,以符号H0表示。虚无假设在假设检验中将被视作为已知条件而应用,因此虚无假设应是一个相对比较明确的陈述命题,一定要含有“等于什么”的成分,比如说等等。(无差别假设) 备择假设又称解消假设,研究假设等,以符号H1表示。备择假设作为虚无假设的对立假设而存在,因此它也是一个陈述命题,比如说等等,备择假设是对虚无假设的否定。(差别假设)统计检验的假设都是成对作出的。统计假设建立之后,就在虚无假设为真的前提下,采集样本数据进行统计分析计算与检验,以图推翻或证实假设。所谓形式上同时出现是指作假设时一定要将两个假设同时列出,常见的如下几种:谬派柔西格玛由于虚无假设要作为检验的已知条件,而备择假设仅是备以待择,是虚无假设被拒绝后供人们采择的假设,故虚无假设一定在前,备择假设一定在后。所谓从逻辑上看两者是非此即彼的,意思是说这一假设中一定有一个而且也仅有一个是正确的; 两个假设 不可能同时成立, 但也不可能同时不成立; 两个假设中若有一个被证实是错误的话,那么另一个假设就自然是正确的。3. 检验统计量统计假设检验过程需要计算某些事件发生的概率。这里的“某些事件发生的概率”实际上就是指“在一定的抽样条件下,某些事先设计好的统计量其取值的概率”。这些统计量是根据检验目的而设计的公式,专门用于统计假设检验的,因此称为检验统计量。由于这些检验统计量是根据检验目的设计的,因而在这些检验统计量的计算中肯定要应用到与所检验参数相应的样本统计量。比如要检验两总体平均数是否有显著差异,那么检验统计量的计算中肯定要应用两样本平均数;如果要检验两总体方差是否有显著差异,检验统计量计算就一定要用到两样本方差;如果要检验两总体比例系数是否有显著差异,那么检验统计量肯定要用到两个样本的比例系数观测值。 检验统计量是一个随机变量,它的概率分布是明确的。(二)统计假设检验思想方法与步骤1. 思想方法概括起来说,统计假设检验就是一种带有概率值保证的反证法。反证法是一种逻辑推理证明方法。有些命题从正面进行推论难以证明,但证明它的否命题却往往事半功倍,这就是反证法的思想方法。这样做的理由是从逻辑上说,否命题不成立,则其原命题就自然成立。反证法在数学证明中应用比较多。比如说,原来的目的是要证明线段a大于线段b,但证明者不直接证明ab,而是找出它的否命题ab,假设其成立,然后进行推论,推论至最后得出一个荒谬的结果,或者得到一个与已知条件不符的结果,假设整个推论的各个步骤都是严密正确的,那么谬误的产生就只有源自于作为推论条件的假设,从而证明了假设是错误的。所以反证法的逻辑就是:证明了作为否命题的假设的错误,那么原命题就自然正确了。 统计假设检验从逻辑过程看也是一种反证法。统计检验人员常常希望证明备择假设是正确的,但他却不直接证明备择假设的正确性,而是从与备择假设对立的虚无假设出发,以虚无假设为条件,采集样本数据,确定抽样分布,计算检验统计量,考察检验计量取值的概率,如果最终发现这是一个小概率事件,那就要根据小概率事件原理推翻原虚无假设。当然,研究者必须保证在整个过程中除所作虚无假设之外的一切工作都是严密、科学的。虚无假设与备择假设是一对互否命题,也就是我们前面所说的他们是非此即彼的,推翻了虚无假设,备择假设就自然成立了。 这就是统计假设检验应用反证法的 “反证”过程。所谓带有概率值保证是指上述的用反证的方法作的统计假设检验,最终推翻虚无假设也即由于所求检验统计量的取值为一小概率事件,而根据小概率事件原理推翻虚无假设。我们知道,根据小概率事件原理作决策判断是一种科学的正确的决策思想方法,但并不保证每次的决策都是正确。换句话说,这一推翻虚无假设的决策也是可能犯错误的,只是犯错误的概率比较小而决策正确的概率比较大,而且这个决策正确的概率是由我们控制,是可以计算的。这就是统计假设检验“带有概率值保证”的含义。2.检验步骤我们可以将统计假设检验的步骤归纳如下:(1)根据题目的设问提出检验假设H0。(2)选定显著性水平。(3)写出检验统计量计算公式并按已知数据条件计算检验统计量值。(4)根据显著性水平在Z分布或t分布中确定临界值和危机域,危机域通常在概率分布的两个尾部,是小概率事件所在地。(5)将求得的检验统计量值与临界值作比较,根据其是否进入危机域而作出是否拒绝虚无假设的统计结论。3. 统计决策的两类错误由于统计假设检验是根据样本统计量来推断总体性质的,最终作决策时只能是根据概率值大小来判断,因此无论作什么决策都有犯某种错误的风险。统计工作者在作假设检验时不仅不能奢望不犯错误,而且应该了解自己作决策时可能犯的错误是什么性质,所犯错误的概率有多大,有没有降低犯错误概率的办法。用统计假设检验作决策时可能犯的错误有两种类型:一种是虚无假设属真而被拒绝的错误,这种错误统计上称为I型错误,又称为“拒真”错误;另一种是虚无假设实伪而未被拒绝的错误,统计上称为型错误,又称为“纳伪”错误。 两种错误的产生和性质可参见下表。从表中可以看到,如果我们拒绝虚无假设,我们可能会犯拒真错误;如果我们不拒绝虚无假设,我们可能会犯纳伪错误。因此,无论怎么决策,统计假设检验都是有可能犯错误的。虽然无论作什么决策都可能犯错误,但是犯错误的可能性大小却是不一样的。 统计决策的两类错误决策虚无假设性质拒 绝不拒绝属 真型错误(P=)正 确实 伪正 确型错误(P=)统计假设检验中冒犯型错误的概率大小就等于显著性水平值的大小。由于犯型错误的概率恰好就是显著性水平的值,故也有人将型错误称为型错误。有人将型错误称为型错误,同时也是犯型错误的概率值符号。由于影响型错误概率大小的因素中有一些是未确定因素,因此在实际检验中型错误的概率是无法精确计算。但是我们可以分析影响型错误概率大小的因素。控制犯型错误的因素有三个,一个是,另一个是样本容量,第三是样本统计量,但是通过控制来降低犯型错误的概率却要增大值而导致犯型错误概率上升,因此,这不是一种理想的办法。理想的办法就是适当加大样本容量,正确选择检验统计量。 二、方差分析的基本思想方差分析就是将实验数据的总变异分解为来源于不同因素的相应变异,并作出数量估计,从而明确各个变异因素在总变异中所占的重要程度;也就是将实验数据的总变异方差分解成各变因方差,并以其中误差方差作为和其他变因方差比较的标准,以推断其他变因所引起的变异量是否真实的一种统计分析方法。阅读时间5 分钟15 分钟30 分钟年龄3 岁8 岁14 岁例如:一位研究者感兴趣影响儿童阅读能力的因素。研究者认为儿童的年龄和每次阅读时间可能是重要的影响因素。研究者设计了以下实验(3*3独立组):选取三个年龄组的儿童: 3 岁, 8 岁, 和 14 岁.将每个年龄组的儿童随机分配到三个阅读条件. 组 1阅读时间为 5 分钟; 组 2为15 分钟; 对于组 3为30 分钟.两个星期之后测试了这些儿童的阅读能力。这个研究有3 X 3 样本 (即 9个). 如何分析数据? 与t检验相比,方差分析具有明显的优越性:其一,t检验只适宜检验两个平均数之间是否存在差异,面对一个复杂问题的探讨(含多组数据),它只能将其拆分为多组平均数两两比较其差异,对多个平均数之间的总体差异状况无法进行检验。而方差分析却可以同时检验两个或多个平均数之间的差异,并且解释几个因素水平之间的交互作用,从而促进了多因素实验设计的发展。其二,方差分析的主要功能是分析因变量的总变异中不同来源的变异实验处理引起的变异、被试个体差异带来的变异、实验误差引起的变异,等等。所谓方差,就是变异的指标之一。因此,方差分析实质上将“平均数之间是否存在差异”的检验转化成了“变异是否存在”的检验。只要检验结果表明处理变异显著大于其它变异,就说明实验所猜测的自变量与因变量之间的因果关系得到了支持。所以,方差分析因其变异分析的功能而成为一种实验设计的基本思想。(t-test只能分析两组数据的差异程度,F-test则可分析多组数据的差异程度,且这种分析是建立在变异源的分解基础上的。实际上t-test也包含着变异源的分解,但仅能在有限的条件下运用。)方差分析的思路:(1)ANOVA的逻辑:与假设检验的逻辑是同样的,只是具体内容有变化 step 1: 陈述 H0 (和H1 ?) ,确定标准: a = ? step 2: ANOVA 检验总是单尾 step 3: 指出检验的df (有两个df组间df与组内df) step 4: 查表找出临界 F统计量 step 5: 对于样本,计算 F统计量 step 6: 比较 F统计量 和临界 F统计量 step 7: 对于H0 作出结论 例:单因素、独立组设计检验三个不同的学习方法的效应。将学生随机分配到3个处理组:方法 A:让学生只读课本, 不去上课.方法 B:上课,记笔记,不读课本.方法 C:不读课本,不去上课, 只看别人的笔记Step 1: 陈述假设和设定标准 (选择a) H0: m1 = 2 =3 H1: 其中一个组与另一个(或更多)的组均值不同。备择假设 可能的形式很多: 1不等于2 =3 1 =3 不等于2 1 = 2 不等于3 1 不等于2 不等于3 因此,只需给出虚无假设就够了 step 2: ANOVA 检验总是单尾. 因为不存在负的方差. F分布表也只有单侧的Alpha.(F分布图) 分母的df(组内)分子的df(组间)12345116140522004999216540322556252305764218.5198.4919.0099.0019.1699.1719.2599.2519.3099.30310.1334.129.5530.929.2829.469.1228.719.0128.24step 3: 找出检验的 df. 注意要考虑几个df step 4: 从表找出临界 F统计量 与 t分布表类似, F分布表也是描述一族 F分布. 需要用到两个df,用一个找出正确的行,另一个找出正确的列。上面一行对应于a = 0.05, 下面一行对应于a= 0.01. step 5: 计算样本 的F统计量观测值首先考虑方差的来源。 什么造成样本的不同(处理间变异) ? 处理/组效应 - 处理造成的差异 个体差异效应 - 个体差异变异 随机误差 每一个样本内部的变异 (处理内变异) 个体差异效应 随机误差 F比率 可以表达为: F比率 = 样本均值间的方差 (差异) / 期望的机会 (误差)方差(差异) F比率 =处理间方差 / 处理内方差 F比率 = (处理效应 + 个体差异 + 随机误差)/(个体差异 + 随机误差)注意:有时分母叫做误差部分,其量度了由于机会造成的方差 如果 H0 为真,处理效应的值应该如何? H0:1 = 2 = 3 如果没有差异,效应方差 = 0 如果效应方差 = 0, F比率值? F比率 = (0 + 个体差异 + 随机误差)/(个体差异 + 随机误差) = 1/1 = 1.0如果 H0 为假, F比率应该大于 1. step 6: 比较 F统计量的观测值与临界 F统计量 总之,方差分析的思想就好像把组间变异放在一个噪音-误差变异的背景上,只有当组间变异足够大,明显不同于误差变异,才能说明处理效应是存在的。如果组间变异与组内变异相比差不多,则说明处理效应是不存在的,只不过是一种“噪音”或随机误差。实验中的变异也可以分为系统变异(systematic variation)和非系统变异(unsystematic variation)。前者导致数据在一个方向上的变化大于在另一个方向上的变化,即导致一个定向的变化。实验处理导致的变异就属此列。后者是指由于操作中的偶然因素或实验中的其它没有控制的变量引起的分数波动,它没有定向,是以平均数为中心的往复波动。实验设计重要的功能就是使系统变异最大,控制无关变异,使非系统变异或误差变异最小。如果 F统计量的观测值 (Fobs) 在统计上显著地大于 1.0 则拒绝 H0 。实验设计分类简单实验设计与复杂实验设计的关系:正如简单积木与复杂积木的关系,初级简单的情境可以教会我们在高级复杂的情境中需要适用的基本技术和过程。简单实验设计与复杂实验设计有共同的规则基础,熟练掌握简单实验设计可以对复杂实验设计的学习产生积极的迁移效果。实验设计中的极简原则(“奥卡姆剃刀”,Ockhams razor):能够用简单实验解决的问题,就不要做成复杂的实验。实验中自变量的数量?一个自变量两个及以上自变量自变量有多少组(水平)?两个水平三个及以上水平被试组是什么类型? 独立(被试间)相关(被试内)双独立组设计独立样本t检验双相关组设计相关样本t 检验多因素设计单因素设计完全随机设计重复测量设计实验设计中要回答的问题? (流程图)从上图可见,实验设计可以从不同角度区分出不同的类型。而在探讨这些分类之前,我们首先要介绍的是心理学家Donald Campbell与Julian Stanley在1963年发表了一本探讨实验设计的著作实验与准实验研究(Experimental and Quasi-Experimental Design for Research),书中详细介绍了十六种不同的实验研究设计,并探讨影响实验研究效度的重要因素,成为讨论实验设计的经典著作。本节仅摘要该书中十种常见的实验研究来加以介绍,这十种实验设计的概念图示请见下表。根据实验控制的水平分类:在多大程度上满足实验的三个特征Campbell & Stanley区分了三类实验设计,共16种,其中有10种比较有代表性的设计模型是我们要介绍的。表 不同实验设计图示实验设计类型实验处理模式实验比较前测控制随机分派前实验研究设计(pre-experimental design)Type1:单组后测设计One-shot case studyXT2 Type2:单组前后测设计One-group pretest-posttest designXT2T1Type3:静态组间比较Static-group comparisonXT2T2EC真实验研究设计(experimental design)Type4:随机化实验组控制组前后测设计Randomized control-group pretest-posttest designXT2T2T1T1ErCrType5:随机化实验组控制组后测设计Randomized control-group posttest designXT2T2ErCrType6:所罗门四组设计Solomon four-group designXXT2T2T2T2T1T1ErCrErCr准实验研究设计(quasi-experimental design)Type7:非随机化实验组控制组前后测设计non-randomized control-group pretest-posttest designXT2T2T1T1ECType8:对抗平衡设计Counter balance design1 A B C D 2 B D A C3 C A D B4 D C A BType9:单组时间序列分析 one group time-seriesT1 T2 T3 T4 X T5 T6 T7 T8T1Type10:实验组控制组时间序列分析 control-group time-seriesT1 T2 T3 T4 X T5 T6 T7 T8T1 T2 T3 T4 T5 T6 T7 T8T11. 前实验设计(pre-experimental design)Campbell 与Stanley 首先介绍了三种常见、但是未能完全符合实验设计要义的研究设计,称之为前实验设计,分别为上表中的前三种设计:单组后测设计(one-shot case study)、单组前后测设计(one-group pretest-posttest design)、与静态组间比较(static-group comparison)。这三种研究设计虽然未能符合实验设计的严格要求,但是却有简单、易于实施的优点,常用于非正式、非专业的场合中,例如学校课程的评估、工商管理活动的评鉴、市场研究等等。 第一种,单组后测设计,仅是在一群被试者身上施以某种实验处理(例如接受某种自我成长课程训练),然后测量他们的反应(例如自我肯定程度); 第二种,单组前后测设计,仅是多出在事前先测一次反应(自我肯定前测),然后得以计算出前后测的改变量。以上两种方法的共同问题是缺乏比较的对照点,第一种设计仅能了解学员自我肯定程度,分数的高低无法反应课程的效果,第二种设计即使增加了前测,得到两次自我肯定的分数差异,但是我们仍然没有充分的信心证明这个差异是来自于课程的效果。 第三种,静态组间比较,虽然比第一种设计增加了一个对照组,使得研究者可以比较有接受课程训练的学员与没有接受课程训练的被试者,在自我肯定得分上的差异,然而实验组与控制组这两群样本是如何获得的,并没有进行随机化的分配,也没有先施以前测来观察实验前后的改变量,因此,即使可以针对有无参加课程的结果进行比较,但是仍然缺乏一个客观的基础,两组后测的差异比较,充满了各种可能的干扰与混淆因素,例如这两群人是背景十分不相似的人,我们也不知道后测得分高的人(自我肯定强的人),是不是在事前就已经比别人有较高的自我肯定?这三种方法,不是缺乏实验控制对照(第一与第二类设计),就是缺乏前测作为改变分数的基准参照(第一与第三类设计),用这种研究的数据来证明因果关系的存在,立论基础过于薄弱,因此不被视为是正式的实验研究设计。但是如果作为一个概况的了解,或是进行初探性质的研究,却不失简易便利,也能提供相当程度的信息。2. 真实验设计(true-experimental design)上述三种研究设计虽有实验设计的雏形,但是仍然有着相当明显的缺憾,一个良好的实验设计,也就是Campbell 与Stanley 所谓的真实验设计,最重要的是要具备实验组与控制组的对照(处理比较)、前测与后测的对照(基线比较)、以及实验组与对照组的随机分派三个要件,如果同时符合这三个要件,可以视为一个标准的实验研究,但是如果符合两者,仍可勉强接受属于实验设计,但是却必须特别注意缺少第三个要件所可能付出的代价与错误。实验组控制组随机取样R1随机取样R2后测O2后测O4实验处理取样图:前后测设计前测O1前测O1 第四种设计,随机化实验控制组前后测设计(randomized control-group pretest-posttest design),同时具有上述三个要件,是最标准的实验研究。以喝酒的量对于驾驶注意力的影响为例,我们找到一群被试者,将他们随机分配到不同的组别(实验组Er 与控制组Cr)当中,然后在实验之前测量他们的注意力(反应时间的快慢; T1),然后对于每一个实验状况施以适当的处理(给他们喝下不同份量的酒;X),然后再测量这些被试者的注意力(反应时间的快慢; T2)。如果在实验之后将四次测量资料进行统计分析,所得到的研究结果即可以作为饮酒对于驾驶注意力影响的因果关系的具体论证。 第四种设计完全满足实验设计的三个要件,是实验方法当中最为典型的实验设计。与第四种设计类似的为第五与第七种设计,但是他们各缺乏了一个条件: 第七种设计因为缺乏随机分派,因此被归类为准实验设计。 第五种设计随机化实验控制组后测设计,虽然具有实验与对照组,分组的进行也有随机分派,但是缺乏前测的数据,使得实验效果的后测得分缺乏前测的分数来进行参照调整,或是进行前后测改变分数的检定分析,造成实验的因果论证存在一个前测立足点不明确的威胁。然而,第五种设计的结果仍然相当程度被大家接受,主要是因为随机化可以去除立足点不确定的威胁。(一般而言,前测的存在是在获得实验效果的参照点,后测得分高者不一定是因为实验效果强,而是因为前测分数就比较高,但是,如果实验进行之前对于实验组与控制组的随机分派有确实达成随机化的目的,那么实验前的立足点即趋于一致,而减少了个别差异的威胁。)实验组控制组随机取样R1随机取样R2后测O1后测O2实验处理取样图:后测设计 所罗门设计(Solomon four-group design):所罗门(Solomon, 1949)发展了一种特殊的实验设计,同时包含了第四种典型实验设计以及第五种舍弃前测测量的实验设计,除此之外,在操作程序以及实验条件与原来的设计并无显著的不同。此一设计的最大目的,在检验前测对于后测的练习与记忆效果,因为虽然前测分数可以作为实验的统计控制,也可以用来作为实验效果的改变分数的计算依据等优点,但是前测的使用却使得被试者获得先期练习后测测量的机会,后测的分数可能会受到前测分数的影响。 所罗门设计中,两个实验组的被试者在后测的得分上应该没有显着的差异,因为他们都经过了随机分派与相同的实验处理,但是第二个实验组并不受到前测T1的影响,如果检验两个实验组的后测T2分数,可以得到前测(T1)的影响。(两个实验组的结果变异中都包含了处理变异与误差变异,所不同的仅在于前测引起的变异的有无。) 除了两个实验组可以相互比较之外,两个控制组也可以进行相似的比较,第一个控制组的2 可能受到前测1 测量的影响,但是第二个控制组的2 则未受到前测分数的影响,两个控制组的后测2分数的比较反应出前测的影响。 值得注意的是,两个实验组的2比较与两个控制组的2比较,这两者具有不同的意涵。两个实验组的2 比较虽然反应了前测的影响,但是此时前测的影响可能与实验处理产生交互作用的影响,因为两个实验组的2比较参杂了实验效果;相对的,两个控制组的2比较则未包含实验效果的作用,因此,可以再去比较两个实验组的2平均值与两个控制组的2平均值,所得到的即是前测1与实验处理交互作用(T1X)的影响。实验组1:控制组1:实验组2:控制组2:随机取样随机取样随机取样随机取样前测O1前测O3后测O2后测O4后测O5后测O6实验处理取样实验处理取样图:所罗门四组设计所罗门设计虽然提供了更充分的检验证据,可以有效的提升研究的内在效度,但是需要更多的样本,增加了研究人员的负担与成本,所以并不常见于实际的研究中。但是所罗门设计所接触的前测干扰问题值得研究人员特别注意。如果一个研究的前测的实施对于后测的影响非常明显,所罗门设计可能就是必要的选择,否则,研究者选用传统的古典实验设计(设计四)即相当足够。3. 准实验设计(quasi-experimental design)实验研究的进行,最好的地点是在一个不受外界干扰、配备齐全的实验室。在实验室中,研究者可以专注于实验的操纵,并将实验过程控制在一定的条件下,避免外在因素的干扰,称为实验室实验法(laboratory experiment)。然而,有些实验并无法在实验室进行,必须到实际的真实环境中操作,例如课程教学的研究,实验处理(不同的教学课程)必须在教室中进行,这类实验称为田野实验法(field experiment)。田野实验最大的问题,是无法对于环境进行精密严谨的控制,对于被试者也无法进行随机选择与分派,因此,不论研究者多么努力,还是无法达到传统实验的随机化的严格要求。另外一种无法进行随机处理的情况是实验研究的自变量无法操纵,必须采用测量的方法,透过抽样程序来达成操纵的目的,例如智力高低、社经地位会影响学习成果,此时智力水平、社经地位作为自变量,仅可以取样,而无法操纵。这些无法操纵的自变量,必须藉由测量与抽样的手段来处理,伴随而来的一些混淆因素,例如被试者是否具有某些独特特质或个别差异,可能会影响实验的进行。上述这些具有实验研究的基本规格,但是缺乏严谨的实验控制的实验,尤其是没有随机化的处理的实验研究,称之为准实验研究设计(quasi-experiment design)。表4.1 中的研究设计七至十,共同的特征是缺乏随机化的处理,因此皆属于准实验研究设计。准实验设计与真实验设计设计的差异,除了不同组别的被试者未使用随机分派的程序来分发之外,其它均相同。 非随机化实验控制组前后测设计(不相等控制组前后测设计,nonequivalent control group design)此一设计与第四种古典实验设计的实验程序几乎完全相同,仅缺乏了随机化的处理,也称不相等控制组前后测设计。此类研究设计经常可见,因为在实际研究过程中,往往受限于某些因素,使得被试者无法进行随机化分派,不同实验组之间在实验之前无法假设是等同的状态,但是因为具有了前测,在实验之前所存在的个别差异威胁,可以配合统计分析(例如共变量分析),将前测分数作为控制变量,排除其影响,因此所获得的因果论证仍然具有相当程度的效力。这里的前测有时是对被试的选择或匹配,如:Geronimus(1991)的对少女妈妈的研究中,研究者假定,对少女妈妈是否容易遭遇贫困、高退学率、高婴儿死亡率等消极经历而言,社会经济地位等家庭因素比过早怀孕本身的影响力更大。为了平衡社会经济地位等因素,研究者选择了少女妈妈的未怀孕的姐妹作为对照组。结果,在退学率、婴儿健康预测、儿童认知发展等方面出现了与通常观念不同的结果。无前测:生育少女/ 未生育少女后测(退学率、婴儿死亡率、婴儿发展)有前测:社会经济地位评估生育少女/生育少女的姐妹后测(同上)此设计与真实验设计(第四种)中前测得作用有所不同:在真实验设计中,前测仅作为评估处理效应的基线,可以省略;而在准实验设计中,前测还具有控制被试的选择偏差的作用,不可省略。如果前测表明两组被试差异显著,就要选择其他的设计方法,如对被试的某些特性进行匹配。典型应用:教育情景中的实验研究(如教学方法研究) 对抗平衡设计:拉丁方设计(Latin square design)当研究者采用被试内设计,让同一组被试者接受不同的实验处理时,因为只有一群被试者,因此不同的实验状况之间并不需要进行样本随机分派处理,但是被试者的反应却有可能受到实验顺序的影响,造成实验效果的混淆。第八种实验设计,即是以对抗平衡(counterbalancing)原理来进行处理实验顺序的问题,由于缺乏随机化设计,因此也是属于一种准实验设计。拉丁方设计实际上是区组技术的精细化,它可以同时平衡两个额外变量的作用。假设今天有A、B、C、D 四种实验状况,如果采用完全对抗平衡设计,总计可以产生4!种(24 种)不同的实验顺序组合,研究者要重复操纵A、B、C、D 四种实验处理24 次,共计96 次的实验处理,相当耗费人力。若以图4.2 的拉丁方格来处理,24 种实验顺序被大幅简化成四组程序,每一个实验状况至少一次会出现在另三种实验条件之后,且每一个实验状况与前一个实验状况是固定的。对于某一个特定的实验状况而言,四组实验设计代表四种痕迹效应(carryover effect),以D 为例,组合一是ABC 三种效果的痕迹效应,组合二是BC 两种效果的痕迹效应,组合三是C 效果的痕迹效应,组合三是无实验痕迹效应。对于D 而言,其它三种实验状况的痕迹效果都被考虑进去了,但是三个实验状况的相互顺序则不考虑变化,以简化实验操纵程序。在这种情况下,每一个被试者仅需接受一套实验顺序即可,可以减少被试者的负担。拉丁方格的使用上,被试人数或者等于实验设计的数目,也就是每一组实验设计安排一个被试者(以本例子而言需要四位被试者),或者是实验设计数目的倍数(4、8、12人),使每一组实验设计有多个被试者,而每一个被试者仍然仅参与一组实验设计。每一个实验处理所累积的总人数越多,统计学的一些假设(例如常态性假设)就越能够达到,研究者即可以进行一些统计检定来检验拉丁方格的适切性(见Kirk, 1995)。以表4.2 为例,拉丁方格的四组实验设计执行完毕之后,且每一组实验设计累积了相当的被试者,研究者可以利用一般的单因子变异数分析来检验不同的四组实验设计在因变量的得分上是否有无显著的差异,如果发现有显著的差异,代表某些组合可能有着特殊的痕迹效应的影响,该组合可能必须排除在研究的分析之外。此外,研究者也可以检验不同顺位的得分的差异,检验不同的顺位是否具有特定的得分情形,作为了解痕迹效应的补充信息。如果这两个检定均达显著差异,研究者可能必须另外设计一套拉丁方格,来除去痕迹效应的影响。另一个类似的作法,是当研究者有额外的被试者时,可以另外设计一个拉丁方格,来安排给这些被试者使用。例如前四个被试者以表4.2 的方格来进行实验,另外四个被试者以表4.3 的拉丁方格来进行实验。表4.3 中的第2、3、4 三组实验设计即是表4.2 的拉丁方格中所没有的顺序组合。如此一来,可以涵盖更多的可能实验顺序,但是每一组实验设计的人数可能就无法继续扩充。值得注意的是,表4.3 的方格与表4.2 的一个最大不同,是每一个实验顺序组合中,某一个特定的实验状况前面所跟随的状况都不一样,又称为平衡性拉丁方格(balanced Latin square)。此种设计较表4.2 的拉丁方格更能够平衡实验顺序的影响。 时间序列分析(time-series analysis)最后两种设计,单组时间序列分析(one-group time-series)与实验组控制组时间序列分析(control-group time-series),明显的与其它八种设计不同,主要是运用在纵贯研究(longitudinal study)上。时间序列设计(time-series design)的特色是对于某个测量指针进行周期性的追踪测量,以了解该指标所反应的行为特质变动情形。如果在一个完整的时间序列中,插入一个实验处理,再观察整个时间趋势的变化情形,又称为中断性时间序列设计(interrupted time-series design),如表4.1 的最后两种实验设计所示。此种研究设计不但可以用以了解时间变动的趋势,提供预测的功能,也可以用来检验实验处理的影响,是一种实用性相当高的研究设计。T1 T2 T3 T4 X T5 T6 T7 T8时间序列A(无处理效应)T1 T2 T3 T4 X T5 T6 T7 T8时间序列B(处理效应显著)单组时间序列分析因为采用持续性的测量,因此必定使用被试者设计,即同一组被试者必须接受多次的测量。表4.1 的第九种设计中,前面四次测量(1到4)可以视为是实验处理前的前测,后面四次测量(5到8)则是实验后的后测。其中紧邻实验处理X 的前后两次测量4与5,则可以视为一般横断研究的前测与后测,其它的六个测量123 与678 则是为了建立时间发展序列的模式而进行的测量。利用回归技术,1234 四个测量可以建立一套实验前的时间序列模型,而5到8四个测量则可以建立实验后的时间序列模型,实验效果的大小,除了反映在4与5的对比上,也反映在两套回归模型的差异上,研究者可以比较两者的斜率与截距,来比较实验前与实验后的行为模式的变化。威胁单组时间序列分析的内部效度的因素: 过去事件 在一系列测量过程中,行为变化很可能是处理之外的一些重要事件引起的。对此可以采用的策略包括:(1)采用较短的测量间隔,以降低最后一次前测和处理之间发生重大事件的几率;(2)使用对照组,即运用第十种设计实验组控制组时间序列分析,实例:Hedrick(1993)介绍了一个无意中使用A-B-A形式的时间序列分析1966年,联邦政府为控制日益严重的高速公路交通安全形势,通过了高速公路安全法案,其中的修改法案要求摩托车驾驶员必须佩带头盔。到1970年代,由于社会对个体人权的关注日益高涨,政府撤销了头盔法案。在考察头盔法案颁布前后摩托车交通事故时,就是采用了A(颁布前)B(法案颁布)A(法案撤销)形式的时间序列设计。数据分析表明,法案颁布后,摩托车事故显著下降,而法案撤销后,事故发生率重新上升。但这种方法会因未随机分组而面临比较上的困境;(3)使用小N设计中的A-B-A设计形式,但这样做有时并不现实。 成熟 对于历时较长的研究来说,成熟也是不可忽视的威胁因素;但一系列前测和后测也提供了评估成熟因素影响的条件如果处理前后行为的变化比率一致,就说明处理效应为出现,变化是由成熟导致的。 疲劳效应 再者,多次测量使被试适应了测量过程,降低和平衡了练习效应;但同时带来了疲劳效应。时间序列设计多用于小样本研究,而且是在一些行为矫正的小样本研究中逐渐发展起来的。应用实例:对小学生在多媒体教学网中用多媒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020-2025年中国胡麻油行业发展前景预测及投资战略研究报告
- 2025年 甘肃公务员考试行测试题A类附答案
- 2025年 滨州阳信县翟王镇城镇公益性岗位招聘考试笔试试题附答案
- 中国货运车辆监管系统行业市场发展现状及投资方向研究报告
- 2025年中国转轴寿命试验机行业市场深度研究及投资战略规划报告
- 2020-2025年中国车载HUD行业投资研究分析及发展前景预测报告
- 中国大型停车篷项目投资可行性研究报告
- 中国竹席竹椅行业发展前景预测及投资战略咨询报告
- 教学设备采购合同
- 2025-2030年中国板桥行业深度研究分析报告
- 关于涉农企业税收风险管理的实践和思考
- 国土空间规划 教学大纲.docx
- 05S502阀门井图集
- 护理查对制度pptPPT课件
- 轮扣式支架模板施工方案
- 基于PLC的打包机控制系统
- 双门通道控制(共20页)
- 儿童学习五线谱卡片打印版
- 图像的频域增强
- 瓦利安离子注入机工作原理
- 《数控加工技术说课》
评论
0/150
提交评论