




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 y ,6 0 7 5 2 9 概化理论是现代心理与教育测量理论之一,多元概化理论是单变量概化理论的深化 和发展,广泛应用于各种测评中。本文在系统地介绍了多元概化理论的基本原理及基本 方法的基础上,针对一个属多元嵌套不平衡设计教学人员测评方案,运用多元概化分析 估出测量目标及侧面的方差协方差分量、探索控制误差的方法,并为改进不同情形下教 学人员测评提供实际参考价值。研究发现,整个测验信度( 合成可靠性指数) 较高,但 某些单变量的信度( 可靠性指数) 不高;学生在某些教师的评价上存在较大争议;测验 原规定的权重并不是最佳有效权重,通过改变权重还可达到更高的可靠性指数;研究还 发现,要使整个测验合成可靠性指数达到0 8 以上至少需要3 5 个学生。 关键词:多元概化理论、多元概化分析、教学人员测评设计、信度( 可靠性指数) 、 条件标准误 a b s t r a c t g e n e r a l i z a b i l i t yt h e o r y i so n eo ft h em o d e m p s y c h o l o g i c a l a n d e d u c a t i o n a lm e a s u r e m e n tt h e o r i e s m u l t i v a r i a t eg e n e r a l i z a b i l i t yt h e o r yi s t h e d e e p e n i n g a n dd e v e l o p m e n to ft h eu n i v a r i a t eg e n e r a l i z a b i l i t yt h e o r ya n di s w i d e l ya p p l i e d t oa l lk i n d so fm e a s u r e m e n t s b a s e do n s y s t e m a t i c a l l y i n t r o d u c i n g t h eb a s i c p r i n c i p l e s a n d t e c h n o l o g i c a l m e t h o d s ,a i m e d a ta m u l t i v a r i a t en e s t e du n b a l a n c e dd e s i g n o ft h e f a c u l t y e v a l u a t i o n ,t h i sp a p e r e x p l o r e s t h em e t h o d so f c o n t r o l l i n g e r r o r s t h r o u g h t h em u l t i v a r i a t e g e n e r a l i z a b i l i t ya n a l y s i s t ot h ea s s e s s m e n to f t h ev a r i a n c e 。c o v a r i a n c e c o m p o n e n t s ,a n d o f f e r sc o n c e r n i n gp r a c t i c a lr e f e r e n c ev a l u e f o rt h ei m p r o v e m e n t o ft h e f a c u l t y e v a l u a t i o ni nd i f f e r e n t c o n d i t i o n s t h e s t u d y s h o w st h a tt h e r e l i a b i l i t y ( c o m p o s i t ec o e f f i c i e n t ) o ft h e t o t a lm e a s u r e m e n ti s l a r g e ,w h i l e t h e r e l i a b i l i t y ( r e l i a b i l i t y l i k e c o e f f i c i e n t ) o f s o m eu n i v a r i a t em e a s u r e m e n t s i s s o m e t i m e sn o tl a r g e ,t h a ts t u d e n t sa r eo u to f a c c o r d a n c ee a c ho t h e ra b o u tt h e a s s e s s m e n to fs e v e r a lt e a c h e r s ,t h a tt h ep r i o r iw e i g h t sa r en o tt h eb e s t ,i f t h e y a r e c h a n g e d w em a y g e tah i g h e rg e n e r a l i z a b i l i t yc o e f f i c i e n t t h er e s u l ta l s os h o w s t h a tt h i r t y f i v es t u d e n t sa tl e a s ta r en e e d e di fw ew a n tt og e ta0 8c o m p o s i t e g e n e r a l i z a b i l i t y c o e f f i c i e n t k e y w o r d s :m u l t i v a r i a t eg e n e r a l i z a b i l i t yt h e o r y ,m u l t i v a r i a t e g e n e r a l i z a b i l i t ya n a l y s i s ,d e s i g n o f f a c u l t y e v a l u a t i o n ,r e l i a b i l i t y ( r e l i a b i l i t y 。l i k ec o e f f i c i e n t ) ,c o n d i t i o n a l s t a n d a r de r r o r so fm e a s u r e m e n t 多元概化理论及其在教学人员测评设计中的应用研究 多元概化理论及其在教学人员测评设计中的应用研究 第一部分:文献综述与问题的提出 1 、多元概化理论概述 1 1 多元概化理论的简要发展历程 由于经典真分数理论( c l a s s i ct e s tt h e o r y ,以下简称c t t ) 存在严格的平行假设在 现实中无法满足,对考生能力参数估计的精度指标不恰当等局限性,所以从它诞生之 目开始,人们就在寻找克服这些缺点的办法。其中的一个研究方向是:从考试的外部 或宏观方向入手。继续沿着随机样本理论和线性模型的思路向前发展,着重讨论实测 时的测量条件与结论推广应用范围之间的关系。即,重在讨论考试的外部效度问题。 沿着这条思路人们创立和发展t n 量的概化理论( g e n e r a l i z a b i l i t yt h e o r y ,以下简称 g t ) 。与此同时的另一个研究方向是:从考试的内部或微观方面入手,放弃随机样本 理论思路,采取数学建模和统计调整的方法,重点讨论考生的能力水平与考试题目之 间的实质性关系,这种关系并非像c t t 和概化理论那样是具有线性关系,往往更多的 是一种非线性关系。即,重在讨论考试的内部效度问题,进而创立和发展了考试的项 目反应理论或题目作答理论( i t e mr e s p o n s et h e o r y ,以下简称i r t ) 。 1 1 1 概化理论的产生与发展1 9 6 3 年,克龙巴赫等人( c r o n b a c h ,r a j a r a n t n a m , & g l e s e r ,1 9 6 3 ) 在英国统计心理学杂志( b r i t i s hj o u r n a l o fs t a t i s t i c a l p s y c h o l o g y ) 上发表了论文概化理论:信度理论的丰富和发展( t h e o r yo f g e n e r a l i z a b i l i t y :a1 i b e r a l i z a t i o no fr e l l a b i l i t yt h e o r y ) 这标志着概化理论的 诞生。1 9 6 5 年他们又在权威杂志心理计量学( p s y c h o m e t r i k a ) 上发表了影响分数 概化的多种变异来源( g e n e r a l i z a b i l i t y o fs c o r e si n f l u e n c e db ym u l t i p l e s o u r c e so f v a r i a n c e ) 。1 9 7 2年 。克龙巴赫等人 ( c r o n b a c h ,g l e s e r ,n a n d a ,r a j s r a t m m ,1 9 7 2 ) 出版了第一部关于概化理论的权威专著 行为测量的可靠性:用于测验分数和剖面图的概化理论。 经过众多学者的努力,特别是随着计算机技术的发展,该理论得到了很大发展。 到1 9 8 3 年,该理论开始走向成熟,各种术语等开始走向规范和统一,相关的计算机应 用软件也开发成功。当年出版的布瑞南( b r e n n a n ) 的专著概化理论纲要( e l e m e n t so f 多元概化理论及其在教学人员测评设计中的应用研究 g e n e r a l i z a b i l i t yt h e o r y ) 以及相应的计算软件g e n o v a ,对概化理论的发展起了极大 的推动作用。该书在1 9 9 2 年又被再版发行,同一时期,谢伟森和韦伯 ( s h a v e l s o n & w e b b ,1 9 9 1 ) 也出版了自己的专著:概化理论入门。2 0 0 1 年,布瑞南 ( b r e n n a n ) 重新出版了概化理论( g e n e r a l i z a b i l i t yt h e o r y ) ,该书大量增加了不 平衡设计和多元概化理论( m u l t i v a r i a t eg e n e r a l i z a b i l i t yt h e o r y ,以下简称m g t ) 的内容,并同时推出了专用的软件包u r g e n o v a 和m g e n o v a 。 在出版专著的同时,关于g t 的研究论文也越来越多。目前,关于复杂设计的应用 研究( 张雷,杨志明等) ,关于多元概化理论的研究已成为新的研究热点。 随着研究水平的提高,概化理论的应用范围也越来越大。目前,概化理论不仅被 应用于标准化的常模参照性测验方面,而且还被广泛用于标准参照性测验、非标准化 测验、表现性评价等许多方面,对教师的教学评价和人事测评中的面试等有直接的帮 助。事实上,g t 成了一种广义的测评理论,其地位也在不断提高。在最近几年的a e r a 和n c m e 学术年会上,g t 研究一直是测验理论与应用研究中的重要话题,而m g t 是该理 论的研究前沿。 1 9 7 2 年克龙巴赫( c r o n b a c h ) 等人在有关多元概化分析的阐述中详尽地讨论了方 差协方差分量的估计方法及其在g t 中的作用。1 9 7 6 年觉尼和武德沃德( j o e & w o o d w a r d ) 首次将元的概化系数推广为多元概化系数,从此开始了多元概化理论的深入研究。 相应地,研究者将以往的一元概化研究称之为单变量概化理论( u n i v a r i a t e g e n e r a l i z a b i l i t y ,以下简称u g t ) ,谢瓦森和韦伯( s h a v e l s o n w e b b ,1 9 9 1 ) 在1 9 8 1 年对该问题的发展情况作过一些介绍。另外,布瑞南( b r e n n a n ) 和贾杰拉 ( j a r j o u r a ,1 9 8 1 ) 等也对该理论结合题目编制过程中的双向细目表作过细致的应用研 究。2 0 0 1 年专用软件m g e n o v a 的推出,更加方便了该理论的研究。 1 1 2 国内概化理论研究的简况我国对g t 的引进是2 0 世纪8 0 年代,在我 国高考改革的推动下,对于教育测量理论中信度问题,国内测量学家引入了国外现代 测量理论对信度的新观念。早在1 9 8 5 年,当时的广州外语学院院长外语测试专家桂诗 春的研究生曾应用概化理论研究高考中的作文评分误差,但遗憾的是,由于概化理论 模型复杂、计算多样,以及国内测量界的忽视,以后关于g t 的理论介绍和实践应用的 文章寥若星辰,2 0 世纪9 0 年代国内的文章多为概述g t 的产生思路,比较基本模型和 计量方法上与c t t 的异同( 戴海崎,1 9 9 5 :杨志明,1 9 9 6 ;漆书青,戴海崎,丁树良, 多元概化理论及其在教学人员测评设计中的应用研究 1 9 9 8 ) ,实际应用的例子主要是初探性、尝试性的测验信度估计,如作文或面试评分中 误差控制( 胡显勇,1 9 9 4 ;刘远我,张厚粲,1 9 9 8 ;刘远我,张厚粲,1 9 9 9 :张雷, 侯杰泰,文剑冰,王洽光,2 0 0 1 ) ,采用的均为单变量概化设计。然而,近期国内测量 学界已展开了对g t 的较深入讨论( 李伟明,严芳,2 0 0 1 ;刘远我,2 0 0 1 ) 。2 0 0 2 - - 2 0 0 3 年香港中文大学的一些研究者发表了几篇应用研究论文( 杨志明,张雷) 。而有关多元 概化理论的模型、设计和技术方法上的研究在国内测量学界仍鲜为人知。 1 2 多元概化理论的思想源泉 g t 包括了单变量概化理论( u g t ) 和多元概化理论( m g t ) 。u g t 和m g t 吸收了方差分 析、实验设计和c t t 的思想。m g t 是在u g t 的基础上发展起来的。 g t 与c t t 既有区别又有联系。两者的区别是:c t t 要求严格平行测验的假设,即, 平行测验之间的观测分数必须具有相同的均值和方差,而g t 只需要随机平行测验的假 设,即,仅仅要求样本容量相同的随机平行测验之间观测分数方差期望e s 2 ( p ) 相同, 前提条件更弱,更容易满足:c t t 要求被试呈正态分布,而g t 一般不作此要求;c t t 的误差项( e ) 单一笼统,而g t 将误差细化,分解成若干项;c t t 误差包含系统误差 和随机误差之分,g t 还作了相对误差和绝对误差之分;c t t 只使用了控制误差方法的 二种:随机化技术和标准化技术,g t 多了统计调整技术;c t t 认为真分数是不变的, 而g t 中类似真分数的全域分数,是可以改变的;c t t 只允许一个随机侧面存在,g t 则 可以允许多个侧面存在;c t t 一般只做事后分析,而g t 事前事后都可以分析,更重要 的是可以进行评价预控,对测量提出改进措施及决策结果。两者的联系是:两者都是 线性随机效应模型,要求样本有代表性;c t t 中所求克龙巴赫系数是g t ( p x i ) 设计的 特例;g t 求取类信度概化系数( g e n e r a l i z a b i l i t yc o e f f i c i e n t ,以下简称g ) 或可靠性 指数( r e l i a b i l i t y l i k ec o e f f i c i e n t ,以下简称巾) 类似c t t 的做法,即信度= 真方差 ( 真方差+ 误差方差) 。 g t 与a n o v a ( a n a l y s i so fv a r i a n c e ) 既有区别又有联系。两者的区别是: g t 不需要作f 检验,而a n o v a 需要;g t 使用一次数据,不强调重复,无法将剩余平方和 求出来,而a n o v a 强调重复,可以将剩余平方和求出来;g t 一般不研究固定效应模型, 因为概化理认强调至少要一个随机侧面存在,a n o v a 研究固定效应模型。两者的联系是: 都使用方差分量分析方法来分解各种变异。 若将概化理论与实验设计作一对比,则能够发现如下一些特点。g t 借用了实验设 多元概化理论及其在教学人员测评设计中的应用研究 计中分析各变量因素( 条件) 的思想,把影响测验分数的所有测量侧面( 条件) 都进 行了全面的考虑,把无关变量当作自变量纳入测量侧面中,并作为实验因素加以考虑; 实验设计用费希尔三原则( 重复性、随机住和局部控制) 来控制无关变量给实验数据 所带来的影响( 被试间的差异通常被视为无关变量) ,并让实验变量对实验数据发挥最 大的影响。在完全随机化设计中要求作方差齐性检验,目的就是为了控制由被试造成 的变异,在随机区组设计或拉丁方设计中,分离出一个或二个无关变量,被试变量常常 视为无关变量加以控制,来保证被试变异最小。与此不同,g t 常常希望被试因素的影 响最大,其他因素则均被看作是测量侧面,并要求它们给测验分数带来的影响越小越 好;实验设计中的完全随机化设计实际上是g t 中的交叉设计( p x i ) ,其他的设计方案 ( 如嵌套设计等) 也都能在g t 中找到相应的模式。 总之,u g t 是在c t t 、实验设计和方差分析的基础上发展起来的,u g t 吸收了c t t 的线性模型思想,吸收了实验设计的实验因素和模型设计思想,吸收方差分析的方差 分解技术。而m g t 又是在u g t 、c t t 、实验设计和方差分析的基础上发展起来的。不 仅吸收了c t t 、实验设计和方差分析的思想或技术,而且对u g t 进行了发展。g t ( u g t 和m g t ) 沿用c t t 真分数理论将因素实验设计及其分析、方差分量模型等统计工具应用 到教育与心理学,对c t t 中的一个重要概念信度进行推广,即结合测量的情境关 系对c t t 给出的笼统的误差进行探查和分解,辨明误差的不同来源,并且在一定范围 内变动测量的情境关系,以考察这种变动引起的误差的相对变化,从而达到对误差方 差进行控制、提高测验“信度”的目的,能够有预控性地去改善和提高测量的精度和 准确性。 1 3 多元概化理论与单变量概化理论的比较 在测量活动过程中,人们经常会涉及到一个测量目标同时具有多个全域分数的问 题。全域分数是指测量目标在具体的测量条件全域上的分数,如在作文评分中每个学 生所得的作文分就是全域分数,但这个分数是在一定的测量条件下所得的。条件全域 是测量面的条件样本所对应的条件总体,如作文评分中就有试题侧面的条件全域,评 分者侧面的条件全域。全域分数的实质含义是条件维度空间的一个向量,认为是可以 改变的,并随条件全域的不同而不同,在作文评分中如果考虑场合全域,那么在三个 条件全域下所得的全域就不同于二个条件全域所得的全域分。再如,韦氏儿童智力量 表( w i s c r ) 就涉及到l o 个分测验的量表分数。这1 0 个分测验的分数实际上可以理 多元概化理论及其在教学人员测评设计中的应用研究 解为同一个测量目标所具有的多个全域分数。按c t t 的做法,把这十个分测验的量表 分数简单相加或按常模进行转换即可得到测验的总分。但是,这里每个分测验的测量 误差并不是一致的,因此c t t 总分合成的方法就有待进一步研究。即,应该研究各个 分测验测量误差的估计方法,以及测验总分合成方法,等等。而要解决这些问题,不 仅c t t 无能为力,单变量概化理论也同样不够用,这样,克龙巴赫( c o r n b a c h ,1 9 7 2 ) 等人便提出了多元概化理论,以便深入研究测量目标在某个特定概化全域之上具有多 个全域分数等方面的问题( 该全域分数通常是与某些固定测量侧面相关联的) ,多元问 题的研究也就成了概化理论的一个独特方向。 当前随着心理与教育理论发展的深入,诸多心理与教育测评都是复杂的多特质多 维度的测量,研究者也逐渐意识到多元概化理论的应用前景。国际测量理论界有一种 观点,将概化理论界定为多元随机效应模型。当g t 中出现固定侧面时,该侧面就成为 测量目标的一部分,它的方差可以看成是全域分数方差的一部分,这时将固定侧面各 水平作为一个向量来进行多元概化分析是恰当的。从这个意义上说,g t 最好视为一个 多元理论,其中每个固定侧面的每个水平和固定的各水平间的关联都对应的是一个随 机效应模型。正如统计中的多元分析不能由若干个一元分析来代替一样,布瑞南 ( b r e n n a n ) 提出,并不是所有的多元概化研究都可以用单变量的混合模型分析来简化 的。仅仅当研究者对协方差蕴涵的测验信息不感兴趣,并且在定义和评估一个全域分 的组合时,所有固定侧面的水平都是根据测量中所用样本容量来加权的情况下,单变 量的简化分析才有效。即使在固有的多变量情境下单变量混合模型分析可以进行,它 也掩盖了方差分量和协方差分量之间潜在的重要差异( b r e n n a n ,2 0 0 1 ) 。 多元概化理论是在单变量概化理论的基础上发展起来的,与单变量概化理论相比, 它存在如下优势:在方差信息之外还包含了协方差的信息;可以从求特征根的方法得 出最优概化系数及相应的特征矢量( 各测评变量的权重) ;当测评变量侧面的各水平之 间的相关比较低时,也可以用权重削弱不太有用的评分因素对信度的影响;在使用单 变量概化理论时,一般不将评分因素变为一个单独的侧面,而是对每个评分因素分别 计算g 系数,因为很难说每个评分因素都是从同一个全域中随机挑选出来的,它们之 间可能并不属于一个全域,虽然概化理论弱化了经典测量理论严格随机测验的理论假 设,但是它依然要求一定的随机性。而用多元概化理论可以一定程度地避免上述问题, 即使评分因素间的差距比较大时,因为它考虑到了协方差的信息,可以削弱这种差距 多元概化理论及其在教学人员测评设计中的应用研究 对信度的影响;单变量概化理论存在相关误差效应,模型的假设之一就是被试状态的 稳定性,即误差分量的互不相关,实际情况很难满足这一假设。而多元概化理论误差 分布的独立性假设,不存在相关误差效应;在单变量概化理论双侧面完全交叉设计的 概化系数的计算公式中,我们可以发现测评变量和被试的交互作用的方差分量,而在 多元概化理论单侧面完全交叉设计的概化系数的计算公式中,却看不到测评变量的影 响,表面上多元概化理论在这一点上看似足具有缺陷的,而实际情况并非如此。在多 元概化理论单侧面完全交叉设计的全域合成分数的概化系数计算公式中具有被试( p ) 、 专家( r ) 、交互作用( p x r ) 的各个方差协方差矩阵,这个方差协方差矩阵包含了测评 变量对信度的影响,如:测评变量1 与测评变量2 被试效应的协方差就反映了测评变 量i 的被试效应和测评变量2 的被试效应的相关,也即被试和测评变量的交互作用。 以上分析说明,多元概化理论是单变量概化理论基础上发展起来的,它继承了单变量 概化理论的基本思想,在信度计算上也包含了单变量概化理论所能提供的信息。 1 4 多元概化分析的基本过程 同单元概化分析一样,多元概化分析的基本过程也包括二个基本步骤:g 研究和d 研究。 g 研究又称概化研究( g e n e r a l i z a b “i t ys t u d y ) ,是指在观测全域上,研究者对 所有侧面、测量目标及它们的交互作用作变异分量的估计的过程。其具体步骤包括五 个部分:第一步,明确测量对象和测量目标。测量目标指研究中所要测量的对象,通 常指的是被试的某种潜在特质,也可以是试题或评分者等的某种特性。c t t 认为,被试 的这种潜在心理特质水平可以用真分数( t r u es c o r e ) 来刻画。而g t 认为,测量对 象的水平应该用全域分数( u n i v e r s es c o r e ) 来该画。全域分数是指测量目标在具体 的测量条件全域上的分数。条件全域是测量面的条件样本所对应的条件总体,如在作 文评分存在试题面条件全域、评分者面条件全域、课程条件全域等。c t t 真分数实质含 义是单维空间( 如试题全域) 上的值,认为是不变的,这就类似于物理测量。而g t 的 全域分数的实质含义是条件维度空间的一个向量,认为是可以改变的,并随条件全域 的不同而不同。多元概化在一个测量目标上存在多个全域分数,并且认为测量目标和 测量侧面是可以相互转换的。第二步,明确测量侧面和观测全域。测量目标和测量侧 面构成测量情境关系,即,两者的统一结合。测量侧面是指除了测量目标之外,凡是 会影响测验得分的因素。观测全域是实际测量活动中所有测量条件全域的集合。第三 6 多元概化理论及其在教学人员测评设计中的应用研究 步,明确测量设计和测量模式。测量设计有平衡设计和不平衡设计之分,主要的区分 在于处理或处理水平的结合是否均匀,如果是均匀则该设计为平衡设计,反之,为不 平衡设计。测量设计的另外一种划分是分为交叉设计、嵌套设计和混合设计。交叉设 计用“”来表示,嵌套设计用“:”来表示。混合设计是指设计中既有交叉设计又有 嵌套设计。这三种设计中都有平衡和不平衡之分:在交叉设计中,如果数据有缺失数 据,那么平衡设计将变为不平衡设计:在嵌套设计i :p 设计中,如果i 嵌套在p 的被 试( 也可以表示其他) 相等则为平衡设计,反之,为不平衡设计:在混合设计p x ( i :h ) 中,如果i 嵌套在h 的题目相等则为平衡设计,反之,为不平衡设计。每一种测量设 计都有相应的测量模型及其假设,根据测量设计和测量模型能将观察分数进行分解: x 。2 + 己眈 x 。表示在所有测量测面上的观察分数 表示总平均分 u 。表示各种误差变异效应的累加,这种误差变异经过了分解 有二种方法表示测量模型观察分数的分解,一种是分数效应表示法,在p x i 中, 如x ,= + u 。+ u ,+ u , ,另一种是平均分表示法,如 x ,= + ( ,一) + ( ,一) + ( ,一p 一,+ ) 。可以通过文氏图( v e n n d i a g r a m ) 的表示方法写出各种变异。测量模式有三种:随机、固定和混合模式。g t 要求至少一 个侧面为随机侧面。一般认为,随机侧面的情况主要有二种。其一,相对于侧面全域 的容量而言,侧面的样本容量非常小;其二,侧面的样本是从侧面全域中随机抽取的, 或者在侧面全域中存在着与该侧面样本长度相等的其他可替代的侧面样本 ( s h a v e l s o n w e b b ,1 9 9 1 ) 。当实际研究工作中不能满足上述条件时,侧面就应该看作 是固定侧面,指的是g 研究中那种涵盖了研究者感兴趣的侧面全域中所有的条件或水 平的,或者只研究侧面全域某一部分水平或条件的侧面。这里,固定侧面与方差分析 中的固定因子概念是类似的,它通常会以下面两种形式表现出来。其,由于不打算 对测量结果做推论或不可能进行这种推论,研究者在进行g 研究时有意识地从测量侧 面中选择少量的条件;其二,测量的条件全域本身较小,在进行6 研究时已经涵盖了 所有的测量条件。第四步,依测量设计收集样本资料。这一步相当于c t t 一个测验的 实测环节,只不过此处要求测量目标样本及侧面样本之间的关系要符合测量设计。第 五步,变异数分析。对单变量概化理论,求取g 研究方差分量的方法和程序较多。方 多元概化理论及其在教学人员测评设计中的应用研究 法有a n o v a 方法、极大似然估计、贝叶斯估计、最d , - 乘法等。程序有g e n o v a 、u r g e n o v a 、 s a s 、s p s s 等。g e n o v a 是单变量概化理论的专业软件。适合平衡设计,并有d 研究结 果。u r g e n o v a 也是用于概化研究的专业软件,主要用于不平衡设计的方差分量估计, 也可以用于平衡设计,但该程序不能进行d 研究;对多元概化理论,要求取方差协方 差分量( v a r i a n c e c o v a r i a n c ec o m p o n e n t ) ,m g e n o v a 是多元概化理论的专用软件包, 不但能够求取g 研究中方差协方差分量,而且能够进行d 研究设计。m g e n o v a 估计方差 协方差分量,对平衡设计一般采用m p 方法来估计协方差分量,这种方法类似于求取方 差分量的a n o v a 方法,对不平衡设计估计比较复杂,通常采用t p 项( a n a l o g o u st p t e r m s ) 方法和c p 方法( c r o s sp r o d u c t s ) 。t p 方法是一种类似于单变量概化分析中使用 t 项来求取方差分量的方法,在多元概化不平衡分析中t p 只适合变量与变量之间的侧 面条件相同的情况。而c p 方法既适合变量与变量之间的侧面条件相同的情况,也适合 变量与变量之间的侧面条件不同的情况,但m g e n o v a 优先使用t p 方法。 d 研究又称决策研究( d e c i s i o ns t u d y ) ,是指研究者在概化全域上,对各种侧面、 测量目标及交互作用的研究。g t 把概化推论结果时所涉及到的测量条件全域的集台称 为概化全域。概化全域和测量方法重复是紧密相关的。g 研究所得方差分量是单个的平 均值,而d 研究所得方差分量是针对一个概化全域上的样本而言的,由中心极限定理 可知随着样本容量的增加。平均数的分布的方差越近于分数分布的方差与样本容量的 商。同一定理也可运用于方差成分的估计值。因此d 研究中,平均数的方差成分,可 以通过将g 研究中的方差成分估计值除以抽取的情境数( 样本水平数) 求得。对于同 样一次测量的数据资料,研究者可以在多个范围( 全域、空间) 上对测验分数作推论 及解释,并分别提供测量的精度指标概化系数( g 系数) 或可靠性指数( 由指数) ,即 所谓的一个测验可以估计出多个“信度”值现象。具体步骤如下:第一步,根据测量 目的确定概化全域。有时,为了比较不同全域上由样本值推论的精度变化情况或其它 应用与理论需要,研究者可以确定多个概化全域。通常,概化全域由测量侧面的个数 及每个侧面的水平数( 样本容量) 以及测量模式等参数所决定。第二步,根据概化全 域中各侧面的条件样本水平,在侧面样本水平数均值的意义上重新估计g 研究中各因 素的效应或因素间的交互作用。进而求取各因素的均方值。第三步,在具体的一个概 化全域上分别估计相对误差变异和绝对误差变异。前者主要用来估计常模参照性测验 的精度,后者主要用来估计标准参照性和非标准化测验的精度。第四步,在特定的概 8 多元概化理论及其在教学人员测评设计中的应用研究 化全域上估计整个测验的概化系数或可靠性指数。并以此作为整个测量工作( 用样本 值x 一估计真值ul ,) 的精度指标。第五步,重新确立概化全域,并重复上述四个步骤。 最后比较各概化全域上测验结果的估计精度,并从中获得科学的或满意的推论与概化 结论。 g 研 究 图1m g t 基本过程图 1 5 多元概化分析的基本方法 1 5 1 明确测量设计因为多元概化分析是针对多变量的研究方法,因此其表示 方法是不同于单变量概化分析的,从形式看,多元概化相当于几个单变量概化的组合: 一个变量( v a r i a b l e ) 相当于一个维度( d i m e n s i o n ) ,几个变量组成几个维度:对一个 变量的分析称为单变量概化分析,对多个变量的分析称为多元概化分析,但多元概化 9 d研究lflli 多元概化理论及其在教学人员测评设计中的应用研究 并不是多个单变量概化的简单组合,多元概化的变量( 或者说维度) 间可以通过协方 差分量( c o v a r i a n c ec o m p o n e n t s ) 相联系。明确测量设计首先要考虑的是多元概化设 计有几个变量,这些变量相当于一个总目标下的若干子目标,变量问的关系是一般认 为是平等的。如在韦氏量表中,总目标是智力水平,包括二个子目标:言语和操作水 平,这二个子目标就是二个变量,因此对它的分析可以看着是一个二元分析。多元概 化的变量间的关系是通过实心上标“,和空心上标“0 ”表示出来的。实心上标“” 表示变量间测量侧面的条件是相同的,空心上标“0 ”表示变量间测量侧面的条件是 不同的。又如p r ,p r 。设计,我们假定这个设计表示一次面试,p 代表考生, 人数为1 0 个,r 代表考官。人数为1 2 个,并假定考官在知识、技能和理解三个变量上 考察考生,那么这是一个三元概化设计。p xr 设计表示所有考官( 1 2 个) 在知识、 技能和理解三个变量上同时考察所有考生( 1 0 个) ,每个考官需在每个变量上对每个考 生都进行考察。p xr 。不同于p xr 设计,p xr 在知识、技能和理解这三个变 量的考官侧面是同样的考官。而p r 。设计在知识、技能和理解这三个变量的考官侧 面分配是不一样的,假设有1 2 个考官,可能的一种情况是:其中有4 个考官在“知识” 变量上考察1 0 个考生,另外4 个考官在“技能”变量考察l o 个考生,剩下的4 个考 官在“理解”变量上考察1 0 个考生。因此,虽三个变量上的考官数目是一样的,但各 个变量上人不一样的,这主要因为p xr 。设计中,变量间考官侧面是空心上标“o ”, 这表示变量间测量侧面的条件是不同的。但因为设计为交叉,所以在每个变量上的考 官是一样的。 再如在学生评价教师的设计中,设计常常表示为多元不平衡嵌套s :t 设计( s 表示学生,t 表示教师) ,即教师教不同班级的学生,学生嵌套在教师中,但是每个教 师的所教的学生人数是可能不一样的。下表1 为多元不平衡s :t 人工数据一示例, 其意思是从四个方面( v l 、v 2 、v 3 、v 4 变量) 来评价教师,麸有1 0 个被评价的教师, 每个教师所嵌套的学生数不一定相同。第一位教师的学生数为4 ,在每个变量上得到四 个观察分数,第二位教师的学生数为5 ,在每个变量上得到五个观察分数,其余8 位教 师依次类推,则得到表l 的观察分数矩阵。 0 多元概化理论及其在教学人员测评设计中的应用研究 表i :多元不平衡嵌套s :t 设计人工数据示例 v 4 4 3 21 3 2 234 2l3 24 222222 23142 123 23l45 l2 31 2345 321233 3412 523 21 55 213 231452 55552 245 12342 2312 1245 l232l4 单变量概化分析研究中不存在实心或空心上标的表示法,实心和空心上标的表示 方法只存在于多元概化设计中,将实心或空心上标去掉,就是单变量设计。在进行多 元概化分析之前要明确变量的数目,也就是要明确概化设计有几元,或者说一个总目 标下有多少个子目标,或者说有多少个变量。要选择合适的设计,首先考虑的是设计 是否为多元设计,能否为多元设计,这就要求元( 或变量) 能够固定而不是随机。如 果一个测量目标有多个全域分数,一个变量上全域分数无法代替另外一个变量上的全 域分数时,或者说一个测量目标下存在几个固定的子目标时,那么就可考虑使用多元 概化分析。进行多元概化设计还要考虑侧面是单侧面还是多侧面,平衡还是不平衡等 问题,然后才能选取合适的恰当的测量模式和测量设计,下表2 是主要的多元概化设 计、多元概化设计下对应的方差分量设计、多元概化设计下对应的协方差分量设计及 多元概化对应的单变量设计。多元概化设计下对应的方差协方差分量设计,能够解释 方差和协方差的分解。 l l 4 3 2 5 4 l 3 3 5 2 4 3 3 1 5 3 3 4 1 2 3 2 1 2 4 2 3 5 3 3 4 3 3 5 3 5 3 5 2 1 4 l 2 3 2 3 3 4 3 2 2 4 2 4 3 4 2 2 4 4 5 2 5 2 3 4 2 4 1 5 3 3 4 4 3 3 2 4 2 5 2 2 2 3 4 2 2 3 3 5 i lo l 2 3 4 5 6 7 8 9 l 多元概化理论及其在教学人员测评设计中的应用研究 表2 :各种多元概化设计 多元设计方差分量设计协方差分量设计对应的单变量设计 p 。i p ip x ip i v pi。pxip p x ( i :v ) i 。:p i :pi :p( i :p ) v i :p 。i :ppi :( p v ) p i rp i rp x i r d i r ” pir。pxix r p x ip i ( r :v 1 + p 。x i 。xrpxix r p x r p x ( i :v ) r p x i 。xr。pxix r pp ( i r ) :v p ( i :r ) p x ( i :r ) p x ( i :r ) p ( i :r ) x v p ( i 。:r 。) p x ( i :r ) p x r p x i :( r :v ) p ( i 。:一p x ( i :r ) pp ( i :r :v ) ( p :c ) x i 。( p :c ) x i( p :c ) x i ( p :c ) x i v ( p :c ) i 。 ( p :c ) ip :c( p :c ) x ( i :v ) ( p 。:c ) i 。( p :c ) i c 注:多元设计对应的单变最设计使用v 米袭示固定侧面的水5 f 多元设计分为单侧面设计和双侧面设计二种,单侧面设计仅有一个测量目标和一 个测量侧面,双侧面多了一个侧面,有二个侧面,如p x i - r ,测量目标为p , 侧量侧面为i 和r 。方差分量设计是与每个变量相联系的单变量设计。协方差分量 设计是与成对变量相联系的单变量设计。方差分量设计和协方差分量设计都是为了说 明多元概化设计g 研究求出的方差协方差个数及形式。其对应的单变量设计提供了一 种在多元设计上对应单变量的观点。如p xi 为单侧面设计,对应的每个变量上的 方差分量设计为p i ,意思是每个变量在三个效应上有方差分量,分别为p 、i 和p i ;协方差分量设计也为p i ,表示每个变量在p 、i 和p x i 也有协方差分量矩阵, 这说明p i 设计有三个效应矩阵为满矩阵。p i 设计对应的单变量设计是假 设所固定的变量( 元) 为随机形式,而且作为一个侧面来考虑,那么p xi 设计对 应的单变量设计就为p x i x v 。又如i :p 。设计其方差分量设计为i :p ,观察分数分为 二部分,一部分为p ,另一部分为i :p ,那么每个变量的方差分量在这二部分都存在。 协方差分量为p ,则表示每个变量的协方差分量只存在p 这个因素中,对应的单变量设 计提供了一种嵌套形式。 多元概化理论及其在教学人员测评设计中的应用研究 1 5 2 明确数据结构、概化模型 根据测量设计的要求,用图表的形式表示出数据结构,这样做有利于对测量设计 的理解,有利于对多元概化的理解。现举与本研究有关的一设计,即多元不平衡嵌套 s :t 设计,如下图2 ,该设计有四个变量,分别是v 1 、v 2 、v 3 、v 4 。 图2 的左上角是文氏图,说明了测量目标t 、测量侧面s 和测量固定变量v 之 、厂 间的关系,虚线表示变量v 固定;中间为概化模型中某一变量上的观察分数人一分数 效应的二种分解;右上角为二效应的矩阵形式;图2 的下半部分为多元概化的数据结 构,t 表示测量目标,s i - s 。表示测量侧面的水平个数,x 表示任意原始数据。概化模 型通过线性方式表示出来,从中我们可以知道有多少个侧面( 因素) 影响着测量目标 的测量。 1 5 3g 研究g 研究的主要任务是在研究设计上,尽可能多地“挖掘”出各 种潜在的测量误差来源,并估计这些误差来源变异分量的大小,求取出测量目标和测 量侧面的方差协方差分量。在g 研究中,测量的条件全域是观测全域。观测全域中的 侧面一般做“随机性”假定、其全域容量也做“无限”假定,观测全域内部的侧面与 侧面之问、侧面与测量目标之间也一般做“交叉关系”假定,当然也有不是“交叉关 系”的情况,如本研究的多元不平衡嵌套s :t 设计。 在多元概化g 研究分析中求取方差分量与求取协方差分量是不同的。多元概化中 多元概化理论及其在教学人员测评设计中的应用研究 包含若干单变量概化,其求取方差分量与求取单变量概化是相同的。与单变量概化不 同,多元概化还要求估计出测量目标或侧面之间的协方差分量。求取协方差分量对测 量设计有要求,平衡设计与不平衡设计求取协方差分量在方法上和难度上都不尽相同。 多元概化平衡设计协方差分量的估计,多采用m p 方法( m e a np r o d u c t s ) 或t p 方法( t t e r m sp r o d u c t s ) ,这种方法类似于单变量概化中的m s ( 均方) 或t 项方法。对不平衡 设计协方差分量估计不同于平衡设计,其求取协方差分量较平衡设计难得多,方法种 类也较多。如对s :t 多元不平衡嵌套设计估计协方差分量,多采用类似t p 项 ( a n a l o g o u st pt e r m s ) 方法,该方法具有类似a n o v a 方法的优点。m g e n o v a 程序默认多 元不平衡设计的方法是类似t p 项方法,它可以通过定义类似平均乘方( a n a l o g o u s m e a np r o d u c t s ) 获得相同的结果,但定义类似平均乘方方法没有类似t p 项方法容易, 因此常采用类似t p 项方法,虽然两者计算结果都是一样( 如同单变量概化采用期望均 方的方法和采用t 项方法估计是一样的) 。平衡设计中m p 方法的计算中也用到了t p 项, 是实在的t p 项,这不同于不平衡的类似t p 项。对不平衡设计采用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源汽车换电服务在城市环卫车辆中的应用报告
- 群体伤应急预案及抢救流程
- 2025年新能源汽车充电桩充电效率提升技术报告
- 2025年新能源技术创新绿色环保责任实践与展望报告
- 2025年新能源行业新能源储能系统设计与优化报告
- 2025春季中国太平校园招聘考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年福建省泉州市华侨大学分析测试中心招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025内蒙古鄂尔多斯市育知人才开发服务有限公司招聘辅助性审计服务项目人员5人模拟试卷附答案详解(突破训练)
- 2025北京海淀第十九中学教师招聘考前自测高频考点模拟试题及完整答案详解一套
- 2025年安徽国控资本私募基金管理有限公司校园招聘1人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 光伏区除草合同模板(3篇)
- 2025年产前诊断知识考核试题及答案
- (安徽卷)2025年高考历史试题
- 财务咨询外包协议
- 2023-2024学年上海市杨浦区六年级上学期期中考试语文试卷含详解
- 农行超级柜台业务知识考试题库(含答案)
- 新标准大学英语(第三版)综合教程3(智慧版)课件 Unit6 Path to prosperity
- 3认识你自己-大学生自我意识发展课件
- 中药学全套(完整版)课件
- GB 1886.232-2016食品安全国家标准食品添加剂羧甲基纤维素钠
- 育儿嫂服务合同
评论
0/150
提交评论