概化理论简介教学课件_第1页
概化理论简介教学课件_第2页
概化理论简介教学课件_第3页
概化理论简介教学课件_第4页
概化理论简介教学课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概化理论简介目录 1引言 2概化理论的产生背景及其发展 3概化理论的基本概念 3.1测量目标 3.2全域分数的概念及其相关的假定 3.3数学模型及相关的假定 3.4概化理论的误差观点 4概化理论的基本方法 4.1概化理论研究问题的基本过程 4.2概化研究(G研究) 4.3决策研究(研究) 1引言 在评价人的能力或某种素质时,必须使用科学的方法。对于测评工作,人们通常主要关注两个问题:其一,测验分数能不能有效地把应试者(被试)的真正水区分开来(体现在选拔性测评工作中),这种目的的测验称为常模参照测验(Norm-referenced Test)。其二,测评分数是不是应试者真正水平的一个恰当的体现(

2、体现在达标性测评工作中),这种目的的测验称为标准参照测验(Criterion-referenced Test)。 无论使用哪种方法,如何保证测评质量的问题是其首要问题。一般来说,保证测评质量的主要方法是控制测评误差。控制测评误差的方法主要有三种,即匹配或标准化技术、随机化技术以及统计调整的技术。 标准化技术旨在从测量工作中各个环节上控制测量误差,使得“测量误差不会干扰被测目标群体内个体间先后顺序的排定工作。” 随机化技术旨在控制测量的系统误差。 统计调整技术则是把误差变量作为模型的参数来对待,从而清楚地了解误差变量对测量目标的影响程度,以便在一个可接受的误差范围内来解释测评结果。 在各种控制测

3、评误差的方法中,标准化技术用得最多。如在各种大规模的常模参照测验之中,以经典测验理论(Classical Test Theory,CTT)为指导,通过大量采用像托福考试一样的测验标准化技术,较好地控制了测评误差,达到了考试的目的。当然,这种方法付出了高昂的代价:费时、费力建题库的临时性的常模参照测验,以及所有的标准参照性测验来说,标准化方法很难实施。这就使得测量误差的控制工作变得十分困难,因此需要寻找新的方法。 概化理论(Generalization Theory,GT或G理论)是一种能够同时达到区分考生与评估应考者真正实力之目的,并较好地控制测评误差的现代化测量理论。它控制测量误差的方法主要

4、增加了统计调整技术。即,把干扰测验分数的无关变量或因素引入测量模型之中,然后用统计技术分别估计出这些因素或因素之间的交互作用对测验分数的影响程度。剔除这些影响后被试之间的真正差异便能得到非常清晰的显现,即达到了控制测评误差的目的。 概化理论的基本原理是:首先运用实验设计的思想,分析影响测验分数变异的各种来源(如,被试水平的差异、题目的难度、评分者的评分标准等)。接着,运用方差分析的技术,分别估计各种变异来源对分数总变异所作的贡献(通常用方差分变量作为指标)。然后,根据不同的研究目的的需要,分别考察研究目标在测验总分变异中所占的比重。一般地,当侧量目标引起的变异所占的比重较大时,测量被看做是具有

5、较高信度的。不过,测量信度的概念在概化理论中为概化系数(Generalizability Coefficient)或可靠性指数(Dependent Index)所代替。概化理论一个突出特点是:对同一次测量,可以根据研究目的的不同提供多个测量信度。事实上,当测量目标发生变化(如,测量目标由被试水平改为评分者素质)时,或者当测量结果被推论的范围不同时,测量信度都会发生变化。 其实,在各种各样的测评活动中,把测量结果概括到不同的程度,其测量精度是会大不相同的,二者之间存在着此消彼长的关系。即,测验分数推论的范围越大,其测量精度就会越小(测量误差增大,测量效度降低)。反之,测量精度就会提高,误差就会缩

6、小。 若要追求高标准的测量效度,测量误差就不能太大。而要减小测量误差,就必须缩小测验分数的推论范围。不过,若一味追求高效度,使得测验结果可解释或推论的范围过小,则又会影响整个测验的意义。在现实生活中,当这种误差落在我们可以接受的范围之内时,对测量结果的这种概括就有一定实用价值了。显然,我们应当寻找一个满意解,即,只要误差在能够容忍的范围之内,测验结果就应当概括到尽可能大的范围上去,进而满足测验目的的要求。 在现实中,由于人们对这种有关测验结果的概括程度问题重视不够,所以给测量工作带来了许多问题。其中的一个常见问题是,仅仅根据有限样本上的资料作出无限范围的概括与推论,更没有指出作这种概括所犯的错

7、误的概率。 值得指出的是,概化理论是在继承CTT标准化技术和项目分析技术等方法的基础上,通过吸收实验设计的原理和方法,对真分数理论和参数估计方法等进行系统地改良而产生出来的,它是CTT的进一步发展,二者同属于随机抽样理论。事实上,在实验技术处理测量误差的三种方法中,理论只用到了其中的标准化技术(含匹配技术)和随机化技术,而概化理论则在此基础上还应用了其中的第三种技术,即统计调整技术。 另外,相对项目反应理论(Item Response Theory,IRT)而言,概化理论比较重视结论的宏观解释,而IRT更重视内部的实质关系,即,IRT更重视被试的潜在特质水平与试题的正确作答之间的实质性关系。

8、简单地说,在处理微观问题(即被试水平与答题目之间的实质性的关系)时优势比较明显。CTT在处理中观问题(如处理常见的标准化考试等)时显得方便易懂。GT则在处理宏观问题(如对结果作推论)时更显出色。 三种现代化测量理论各有长短,也各有用武之地。 概化理论的主要用途有:其一,根据不同的需要,对各种标准化测验提供多个更为恰当的测量信度估计,给测验一个正确和公正的评价;其二,对非标准化测验,准确地分析测量误差的来源并估计各种误差源对分数总变异的影响程度,为改进测验提供具体的有益信息;其三,同时估计出成套测验及其各分测验的测量信度,使得测验结果的解释更加准确和合理。2概化理论的产生背景及其发展 当今测量学

9、界最有影响的三大理论是经典测量理论(CTT),概化理论(GT)和项目反应理论(IRT)。前两者同属随机抽样理论,GT是对CTT的扩展和改进,而项目反应理论是从另外一个角度来分析每一个项目的项目特征曲线和项目信息函数。 在GT理论产生之前,人们通常使用CTT对测量误差进行分析。的理论体系由三部分构成,即关于真分数的假定,关于测量信度的理论和关于测量效度的理论。其方法体系包括题目分析技术和测验的标准化技术两大部分。其中测验的标准化技术主要包括题目编制的标准化、测验实施的标准化、阅卷评分的标准化以及分数的转换与解释的标准化共个环节。 是标准化的理论支柱,在考试工作中发挥着重大的作用。其突出优点是:理

10、论和方法体系相对完整;前提假设比较弱,很容易为实际考试工作所满足;所涉及的数学模型以及参数的概念和估计方法容易被人们理解和掌握;所倡导的标准化技术在控制测验误差等方面具有明显的效果,并已为许多人所认可。 不过,存在着许多先天不足,其主要缺点有:第一,考生的能力参数严重地依赖于试题样本。第二,对考生能力参数估计的精度指标不恰当。第三,考试结果极易被人错误地推广到不恰当的范围上去。第四,估计测量信度所依赖的经典平行测验假设在现实中无法满足。第五,题目参数严重依赖于考生样本。第六,题目的难度参数和考生的能力参数定义在不同的量表上,不利于实现测验的预定目标。 上述弱点限制了CTT的进一步应用。鉴于CT

11、T理论存在的不足,测量的理论界和实践领域都呼唤一个全新的测量理论。正是在此背景下,GT理论应运而生。 1963年,克龙巴赫等人(Cronbach,Ra-jaratnam,&Gleser,1963)在英国统计心理学杂志上发表了论文概化理论:信度理论的丰富和发展(Theory of Generalizability:A liberazation of reliz-ability theory),这标志着GT理论的诞生,但正式提出这一理论的是Cronbach等人在1972年出版的行为测量的可靠性一书。 到1983年,该理论开始走向成熟,各种术语等开始走向规范和统一,相关的计算机软件也开发成功。当年出

12、版的布瑞南(Brennan,1983)的专著概化理论纲要以及相应的软件GE-NOVA,对GT理论的发展起了很大的推动作用。该书在1992年又被再版发行,同一时期,谢伟森和韦伯(Shavelson&Webb,1991)也出版了自己的专著:概化理论入门。 2001年,布瑞南重新出版了概化理论专著,该书大量增加了不平衡设计和多元GT理论的内容,并同时推出了相应的软件包。随着研究水平的提高,GT理论的范围越来越大。 目前,GT理论不仅被用于标准化的常模参照性测验,而且还被广泛用于标准性参照测验,非标准化测验,表现性评价等多方面,对教师的教学评价和人事测评中的面试均有直接的帮助。3概化理论的基本概念概化

13、理论的基本概念主要有:全域分数与测量目标测量侧面与观测全域和概括全域或概化全域相对误差与概化系数(G系数)绝对误差与可靠性指数()此外还有关于测量模式、设计结构、样本容量和随机平行测验假定,等等。3.1测量目标在CCT中,测量目标(Object of measurement)通常是指被试的某种潜在心理特质,但在GT中,测量目标不仅是被试的某种潜在特质,也可以是试题或评分者的某种特质。3.2全域分数的概念及其相关的假定心理与教育测量的主要任务是用数值对测量对象(通常是被试)的某种潜在心理特质水平(测量目标)给予确定。CCT认为,被试的这种潜在心理特质水平用真分数(True Score)来刻画。而

14、GT认为,测量对象的水平应该用全域分数(Universe Score)来刻画。3.21全域分数 GT认为,被试的潜在特质水平不能抽象地描述为真分数,而应根据决策的需要,把它置于指定的条件范围之中进行解释。事实上,每次测量工作所涉及的条件或称影响测量结果的因素、侧面(facet)是不尽相同的,研究者对测验结果的用途(即推论或概括的程度)也不尽相同。GT认为,测量工作的精确程度(科学性程度)取决于研究者获取行为样本数据时所涉及的条件个数、结构与性质等,也取决于结果的概括程度。 GT不提真分数的概念,而提出全域分数的概念。 即,在讨论被试的某种潜在特质水平时,必须同时指出这种水平是在何种测量条件下取

15、得的,在根据行为样本的表现(得分)估计行为总体的水平时,必须同时指出测量条件样本是否也推论到了各自所对应的条件总体(全域)。这种把被试的某种潜在特质水平定义在具体的测量条件全域(范围)上的分数,就叫全域分数。3.22测量情景的描述 既然在对行为样本推论行为总体时,要同时指出测量条件是否也从样本推论到了全域等情景因素之上,因此,GT对测量情景作了以下必要的说明。 ()测量侧面(facets) 在说明测量情景时,最重要的是要明确有哪些因素(条件)会影响被试的得分。 例如,在一次标准化的客观性测验中,因评分标准不会因人而异,所以评分者因素(条件)不会影响测验得分。但是,题目样本的代表性以及题目与被试

16、间的交互作用等却会给测验分数带来重大影响。于是,试题这一影响因素(测量条件)就被定义为测量的侧面。 因此,除了测量目标(如被试)以外,凡是会影响测验得分的条件因素都称之为测量侧面。这里测量侧面类似于数学中的维度,也相当于实验设计中的干扰因素。 本例中只有一个面,即试题面。在实际工作中,测量侧面可能有若干个。例如,在面试工作中,通常就有两个面,即是试题面和平分这面。有时还能有更多的侧面。值得指出的是,测量目标并不应是被试,它也可以是试题或评估者,如,在考察普通话测试评分员水平时,可以录制10个有代表性考生的普通话测试录音资料,再让评分员一个一个来评分。这时,被试成了测量面,而评分者面转化为测量目

17、标。即,GT可以根据研究的需要,自行确定测量目标。()观测全域与G研究和概括全域或概化全域与D研究 在中,当我们讨论被试水平时,通常是根据被试在某一特定条件下的作答表现(行为样本)来估计其真分数(行为总体)的。 现在,GT进一步要求讨论测量面的条件样本与条件总体间的一致性程度。为了避免混乱,把测量面的条件样本所对应的条件总体改叫条件全域(Universal)。这里,测量面类似于数学中的维度,而全域则类似于由这些维度构成的一个数学空间。 所谓观测全域(Universal of Admissible Observation)即是实际测量活动中所有测量侧面条件全域的集合。例如,在一次人事面试中,试题

18、面条件全域和评分者面条件全域的集合就通常构成了面试的观测全域。 在观测全域之上,研究者须对所有侧面和侧面目标以及它们间的交互作用作变异分量估计,这一过程就叫G研究(或概化研究)。 值得注意的是,人们在推论测验分数时并不一定会在观测全域的各个侧面(维度)上进行,可能其中的某个面的条件样本并不要推论到条件总体(全域)之上去。因此,根据不同的决策需要,对被试行为总体水平的推论会涉及到不同的测量面全域。 为方便,把概括推论测验结果时所涉及到的测量面条件全域的集合叫做概括全域或概化全域或推论全域(Universal of Generalization)。 研究者在概括全域或概化全域上,对各测量面或测量对

19、象或它们之间交互作用的研究,GT称之为D研究(决策研究)。 显然,概括全域或概化全域仅是观测全域的一个子集。不同的研究者对同一个测量目标可以设计不同的观测全域和G研究,同样的观测全域也可以有不同的概括全域或概化全域和D研究。()测量模式 同样的测量条件、同样的概括全域或概化全域和观测全域,如果其测量模式不同,那么其测量“信度”也会不同。中的讨论模式主要有三类,其一是随机测量模式,其二是固定测量模式,其三为混合测量模式。其中,固定测量模式即是中的标准化测量模式。 一般地,如果测量面的条件样本是从观测全域中随机抽取的,则称该测量模式为随机测量模式,这种测量的面为随机面;如果测量的所有面的条件样本都

20、是固定不变的,则称这种测量模式为固定测量模式(即CTT中的标准化测验),其中的测量面称为固定测量面;若一次测量中有部分面试随机面,另一部分面是固定测量面,则称它为混合测量模式。 其中,随机测量面的情况主要有两种。 其一,相对于侧面全域容量而言,侧面的样本容量非常小; 其二,侧面的样本或者是从侧面全域中随机抽取,或者在侧面全域中存在着与该侧面样本长度相等的其他可替代的侧面样本(Shavelson & Webb,1991)。()测量结构 GT认为,实测时的测量目标与测量条件(侧面)及条件之间的相互关系十分重要。不同的设计结构会有不同的测量“信度”。GT所讨论的结构主要有三类,其一是交叉设计,其二是

21、嵌套设计,其三是混合设计。 在CCT中,测量目标(通常是被试)与测量条件(如试题等)之间的结构关系并不会影响测量的模型,而在概化理论中,测量目标与测量条件的关系却会影响测量的数学模型。 一般地,若所有被试(p)都要求回答所有试题(i),则称这种测量结构为交叉设计,记做p*i。 如果要求被试(p)分别回答不同的试题(i)(如第一小组被试回答单号题,第二小组回答双号题),则称被试题面嵌套于被试中,记为i:p,这种测量设计称之为嵌套设计。 若存在多个测量面,且测量对象与测量面或测量面与测量面之间有部分是交叉设计,另外一部分是嵌套设计,则称之为混合设计。例如,在一次涉及试题和评分者面的测试中,若要求所

22、有被试均要作答所有试题,然后不同的试题分别由不同的评分者评分,则这一测量侧面为混合设计。 值得注意的是,尽管实际测验时各测量面、测量目标之间不一定均为交叉设计,但它们各自对应的全域或总体之间永远被看做是交叉设计的。GT约定,在进行G研究时,代表测量目标的字母(如p)及代表测量侧面的字母(如,i,h,r等)均用小写英文字母表示(如:p*i,i*p)等。在进行D研究时,则均为大写字母表示(如P*I,I*P等)。()样本容量 GT主张,各测量侧面的条件样本容量是影响测量精度的重要指标。但是,在G研究时的样本容量(通常记为 、 ,等)与D研究时的样本容量(常记为 ,等)是可以不相一致的。()随机平行测

23、验 “平行测验”是CCT的一个重要概念,但这种“经典平行测验假设”(Classically Parallel Tests)在实际工作中难以满足。事实上,我们很难用两套不同的试题去构造出两个内容完全相同、测验结果的均值和方差也相同的测验。即使是同一测验进行复制,也很难保证测验结果不受时间和练习的影响。尤其是分半信度的计算,很难保证测验的两半对等,且计算结果不惟一,等等。为了克服这一缺点,用较容易满足的随机平行测验假设(Randomly Parallel Tests)代替了中较难理解的经典平行测验假设。 认为,如果每次测量的所有条件样本都是来自于同一观测全域,且样本容量一致,则称这些是彼此随机平行

24、的。3.3数学模型及相关的假定 认为,测量模型不能简单地用观测分与真分数之间相差一个随机误差来表述,而应把测量侧面、测量目标以及测量目标与测量侧面或测量侧面与侧面之间的交互效应全部考虑进去。现以单面交叉设计为例加以说明。3.31G研究数学模型及有关假设条件 假若某人从观测全域中随机抽取 道中学数学试题来测量 个中学生的推理能力,且答案惟一。记 为被试总体中任一被试 在观测全域中任一试题 上的得分,则其G研究 设计数学模型为: (总均值) + (被试效应) + (试题效应) + (残余效应)即,其中, 表示被试在试题全域上平均每题的得分; 表示被试总体中平均每人每题的得分; 表示总体中平均每人在

25、试题全域上平均每题的得分。 分别表示被试随机效应、试题随机效应以及试题与被试交互作用(残余效应)。 该模型所暗含的假设条件是,当测量的次数足够多时,有以下关系成立。(所有主效应和交互效应的数学期望都为零)(任意两种效应的相关为零)(任意两种效应的相关为零)符号 表示被试 总体上求数学期望(均值),符号 表示在试题侧面的全域上求数学期望。3.32D研究数学模型 与单面交叉设计的G研究对应,单面 设计的D研究模型为 或 其中,各符号的含义与G研究时的含义相同,只不过用大写英文字母表示这些值是在样本组上求取的均值。 在实际测量中,样本的统计量一般用英文字母表示,总参数用希腊字母表示。3.概化理论的误

26、差观点3.1误差的来源 GT认为,测量误差不能粗糙的归纳为随机误差和系统误差。实质上,每个测量面都是系统误差的来源,而测量对象自身的稳定性以及各种因素间的交互作用均是随机误差的来源。 根据实验设计和方差分析的思想,我们可以考察总的离均差的平方和的内部结构。即,像方差分析一样对原始得分的总变异分解成若干种变异分量,进而探讨分数之间的差异可以归结为何种因素等问题。测验分数变异来源归纳为:(1)被试水平之间的差异(属测量目标引起的有效变异);(2)评分者自身在不同时间给同一试题打分的差异(随机误差引起的变异);(3)不同评分者在同一时间给相同试题打分的变异(系统误差变异)(4)同一测量内容不同试题的

27、差异(系统误差);(5)不同的测量内容所引起的差异(系统误差变异);(6)被试者临考发挥不当引起的差异(随机误差变异);(7)其他因素,如初测与复测之间差异、平行测验之间的差异、不同施测环境之间的差异、不同体力状况之间的差异,等等。 显然,对误差来源的分析比要细致得多。而仅对上述()和()等问题进行过分析,分别提出了评分者信度()和同质性信度()等等,其他则未给予有效研究。3.2 误差的种类 GT认为,测量误差包括两种,其一为相对误差,记作 ;其二为绝对误差记作 。所谓相对误差即是由随机误差引起的测量误差。若以 设计为例,可以定义相对误差为: 该 所要解释的是:在概括全域或概化全域上,被试P的

28、样本得分与全体被试样本得分的均值之差值是否恰好与被试的全域分数与全体被试全域分数均值之差接近。 即,被试在样本上的离均值与他在全域上分数的离均值之差值即为测量的相对误差。 在概化全域上的D研究中,相对误差的方差或变异 等于所有与测量对象(p)有关的交互效应的变异数的总和。 与相对误差不同,绝对误差指的是样本观测值与概化全域上的全域分数之差,其数学定义为: 即,在概化全域或概括全域上,所有无关因素及因素之间交互作用所致的测量误差都属于绝对误差。其方差估计 等于除测量对象自身的分数变异之外的 所有分数变异之和(D研究上)。3.43 刻画误差的指标概化系数和可靠性指数 由于可以针对不同的概括全域或概

29、化全域作推论,因此,在不同条件下其测量误差会有所不同。于是,对同一次测量可以仅对不同的推论范围估计出不同的测量精度值。 就标准化常模参照测验而言,我们的主要兴趣在于测量的相对误差。因此,的信度定义方法,概化系数可以定义为: 即用测量目标的有效变异占有效变异与相对误差之和的比值作为精度指标。该指标类似于中的信度,但在中,由于概括全域或概化全域可以有多个,因 此, 和 也会有多个。即,可以针对测验结果 概括程度的不同而估计出多个测量“信度”。 就非常模参照性测验或非标准化测验而言,研究者必须考虑测量的绝对误差,于是便定义了相对的可靠性指数来刻画测量的精度,其数学定义为: 即,它是测量目标自身的分数

30、变异在全体分数变异 中所占的比率。其中 实质上包括了全部的系统误差 和随机误差的变异。4 概化理论的基本方法 由于概化理论是CCT的进一步发展,所以CCT关于测量过程和题目分析的技术并未完全被GT所否认。GT只是将该工作做得更加细致了一些。不过,GT把实测时的研究与做决策时的研究作了进一步的区分,并通过测量目标与测量侧面之间身份变换的方式成功地解决了题目分析及评分者信度方面的问题。4.1概化理论研究问题的基本过程 和CTT一样。GT首先要考虑的也是测验题目。但是GT不仅仅是把精力投入到测验题目身上,而同时全面考虑影响测验分数的所有重要因素(即测量侧面)。题目常常被看做是测量的侧面或维度之一。

31、用样本观测值(如 )去估计被试的真值(如全域分数 )时,我们不再是去估计一个不涉及具体测量情境,而且对全体被试得分的误差估计看做一致的信度值,而是根据测量目的的需要,慎重地选择作估计时所涉及的测量侧面及侧面的水平数。换句话说,对于定义在不同概括全域上的全域分数,用样本值 估计真值 会有不同的测验信度或精度。这里,前一个问题就是GT中的概括化研究(研究),后一个问题则属于GT中的决策研究(D研究)。研究和研究是GT的两个基本步骤。而G研究的方差分解技术主要来源于实验设计与方差分析。4.2概化研究(G研究) 概化理论认为,测量工作者先要进行研究,其具体步骤如下。 第一步,明确测量对象和测量目标。这一点与相同,即要首先明确测量对象及其潜在的特质(测谁的什么属性)。其中测量对象的行为与行为总体之间的关系也是重要的考虑因素。通常,测量目标是被试的某种潜在特质水平。 第二步,明确测量侧面和观测全域。凡是会影响测验分数的因素或条件都是需要慎重考虑的。同时,还要考虑每个侧面的水平数(即要考虑从每个侧面所对应的全域中所抽取的样本容量该有多大的问题)。通常,试题和评分者都是测量面,我们同时需要考虑的问题是:容量该有多大试题样本才能有效地代表试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论