（基础心理学专业论文）三种测量不变性检验方法的比较研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：49 大小：1.90MB 积分：18 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要目前在测量不变性研究中有三种主要的方法：m c f a 法、i 炸l r 法和d f i t 法。本研究的目的是比较三种测量不变性检验方法的差异。以模拟研究和实际数据研究比较m c f a 法、i r t - l r 法和d f i t 法的敏感性和不变性检验一致性，在模拟研究中计算三种方法的统计检验力和i 型错误。在第一项研究中，根据已知的项目参数和能力参数生成模拟数据，比较在不同的被试能力分布、被试的样本容量和d i f 类型下，m c f a 法、i r t - l r 法和d f i t 法的敏感性。在第二项研究中，使用人际反应指数量表收集数据，分析m c f a 法、i r t - l r 法和d f i t 法不变性检验的一致性。主要结果如下： ( 1 ) 模拟研究表明d f i t 法表现最好，m c f a 法其次，i r t - l r 法最差。 ( 2 ) 模拟研究表明被试的能力分布并不影响三种方法对d i f 项目的检测。 ( 3 ) 模拟研究表明随着样本容量的增加，三种方法的统计检验力都有提高。 ( 4 ) 模拟研究表明三种方法对于非一致性d i f 的检测都不敏感，但在一致性 d i f 以及在一致性d i f 和非一致性d i f 共存的条件下三者表现较好。 ( 5 ) 实际数据研究表明m c f a 法、i r t - l r 法和d f i t 法的不变性检验一致性偏低。关键词：测量不变性；项目反应理论；结构方程模型；m c f a ；i r t - l r ；d f i t a b s t r a c t t h e r ea r et h r e em e t h o d si nt h es t u d yo fm e a s u r e m e n ti n v a r i a n c e ，m c f a ， i r t - l ra n dd f i t t h ep u r p o s eo ft h i ss t u d yw a st oc o m p a r et h ed i f f e r e n c e sa m o n g t h r e em e a s u r e m e n ti n v a r i a n c em e t h o d s s i m u l a t e da n de m p i r i c a ld a t aw e r ee m p l o y e d t ou n d e r s t a n dt h es e n s i t i v i t ya n dc o n s i s t e n c yo ft h r e em e t h o d s t h ep o w e ra n dt y p ei e r r o rw e r ec a l c u l a t e di nt h es i m u l a t e ds t u d y i nt h ef i r s ts t u d y , g i v e nt h ei t e mp a r a m e t e r sa n da b i l i t yp a r a m e t e r , s i m u l a t e dd a t a w e r eg e n e r a t e du n d e rs e v e r a lc o n d i t i o n s ：t w oa b i l i t yd i s t r i b u t i o n s ，t w os a m p l es i z e s a n dt h r e ed i ft y p e s t h es e n s i t i v i t yo ft h r e em e t h o d sa r ec o m p a r e db a s e do nt h e p o w e ra n dt y p eie r r o r i nt h es e c o n ds t u d y , t h ec o n s i s t e n c y o ft h r e em e t h o d sw a s e x a m i n e di nt h ee m p i r i c a ld a t a , c o l l e c t e db yt h ei n t e r p e r s o n a lr e a c t i v i t yi n d e x ( i r i ) t h ec o n c l u s i o n so ft h i ss t u d yw e r es u m m a r i z e da sf o l l o w s ( 1 ) t h es i m u l a t i o ns t u d ys h o w e dt h a td f i tp e r f o r mb e s t ，n e x tm c f a ，l a s t i r t - l r ( 2 ) t h es i m u l a t i o ns t u d ys h o w e dt h a tt h ed i f f e r e n c ei nt h ea b i l i t yd i s t r i b u t i o n s a c r o s sf o c a la n dr e f e r e n c eg r o u p sh a dl i t t l ea d v e r s ee f f e c to nt h ea c c u r a c yo f t h r e em e t h o d s ( 3 ) t h es i m u l a t i o ns t u d ys h o w e dt h a tt h ep o w e r o ft h r e em e t h o d si n c r e a s e da s t h es a m p l es i z eg r e w ( 4 ) t h e s i m u l a t i o ns t u d ys h o w e dt h a tw h i l et h et h r e em e t h o d sw e r es e n s i t i v et o t h eu n i f o r md i fi t e m s ，t h e yw e r en o ts e n s i t i v et ot h en o n u n i f o r md i fi t e m s ( 5 ) t h er e s u l t sf r o me m p i r i c a ld a t as h o w e dt h a tt h et h r e em e t h o d sy i e l d e dl o w c o n s i s t e n c yo nd e t e c t i n gd i fi t e m s k e yw o r d s ：m e a s u r e m e n ti n v a r i a n c e ，i t e mr e s p o n s et h e o r y ， s t r u c t u r a le q u a t i o n m o d e l i n g ，m c f a ，i r t - l rd f i t n 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者群：降镑签字嗍抄7 钌躬日学位论文版权使用授权书本学位论文作者完全了解江西师范大学研究生院有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和电子稿，允许论文被查闲和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文o ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名：两坼签字日期：2 p b 7 年f 月j i 日哆碜磊月务夕，莎f广豌叶名期师字导签三种测量不变性检验方法的比较研究 1 前言虽然很多著作中都提到心理测验思想的源头是2 0 0 0 多年前中国的科举考试，然而真正现代意义上的心理测验却是从早期西方学者对智力落后者分类和训练的关注开始的，其中具有里程碑性质的事件是1 9 0 5 年世界上第一个“比纳一西蒙量表”的成功编制。此后，在一大批心理测验先驱者的努力下，心理测验得到快速的发展：从个体测验到团体测验；从特殊能力倾向测验到多重能力倾向测验；从认知测验到人格测验。此外心理测验的应用领域扩展到多个领域，包括教育部门，政府及企业的人事选拔部门( 安娜斯塔西，厄比纳，1 9 9 7 2 0 0 1 ) 。心理测验的发展受到早期实验心理学的影响，但与其不同的是心理测验的研究关注的重点是行为中的个体差异而非共同性。这使得心理测验在应用中的诊断、预测和评价与甄选、分类和安置的功能显得尤为突出。然而，在使用心理测验的结果做出这些决策之前，我们需要保证的一个重要前提是在不同的组别( 比如男生组和女生组) 中，心理测验结果的准确性是一样的吗( c o l l i n s ，2 0 0 0 ) ? 换句话说，当我们对多个组别的个体施测同一个心理测验时，我们如何保证该测验在不同组对特质的测量是一样的? 事实上，对于一个项目或者一个测验的分数在多组之间存在的差异有两种可能的解释：一是各组的个体在心理特质上确实存在差异，而该项目或测验准确地测量了心理特质上的差异；二是各组的个体在心理特质上并不存在差异，而该项目或测验错误地测量了心理特质。只有当第_ 种解释得到保证的前提下，对测验结果的后续统计分析或者基于测验结果的决策才是准确的，否则我们难以直接比较不同组的测验结果。这就是d r a s g o w ( 1 9 8 4 ) 所说的测量不变性( m e a s u r e m e n ti n v a r i a n c e m e a s u r e m e n te q u i v a l e n c e ) 问题，他将测量不变性定义为：当在潜在特质上处于同一水平但是属于不同组的个体，在项目水平或者测验水平，有着相同的期望原始分( e x p e c t e dr a ws c o r e ) 或者真分数 ( t r u es c o r e ) 时，那么该测验就存在测量不变性。事实上，研究者很早就已经关注测验使用中的这种现象，使用项目偏差( i t e m b i a s ) 或者测验偏差( t e s tb i a s ) 的术语来表示该现象，后来有学者建议使用项江西师范大学硕士学位论文目功能差异概念( d i f ，d i f f e r e n t i a li t e mf u n c t i o n ) 来取代偏差概念，以避免与社会评价意义上的测验公平概念的混淆。而在最近发展的结构方程模型的文献中，一般使用测量不变性概念，此外国内学者也有翻译为测量等同( 侯杰泰，2 0 0 4 ) 或者测量等价性( 白新文，陈毅文，2 0 0 4 ) 。虽然这些概念存在某些差异，但是在本质上都一样的，即观察分数与潜在特质之间的关系在不同组是否是保持不变的。虽然学者非常强调测量不变性的重要性，即测量不变性是进行有意义的组间差异比较的重要前提，但是在早期还是很少有研究者进行测量不变性检验。 s t e e n k a m p 和b a u m g a r t n e r ( 1 9 9 8 ) 曾分析造成这种状况的原因：一是已有的文献中对于测验不变性的认识很混乱，在术语的使用上很少达成一致意见；二是许多研究者对测量不变性检验方法中引入潜在变量均值和观察变量不熟悉，同时各种测量不变性检验方法的复杂性也让他们困惑不已。在最近几年，随着统计技术以及研究者对测量不变性问题认识的深入，已经有越来越多的研究者在测量实践中进行测量不变性的检验。组织研究方法曾使用一整期的版面刊登了ar e v i e wa n ds y n t h e s i so ft h em e a s u r e m e n ti n v a r i a n c e l i t e r a t u r e ：s u g g e s t i o n s ，p r a c t i c e s ，a n dr e c o m m e n d a t i o n sf o ro r g a n i z a t i o n a lr e s e a r c h ) ) ( v a n d e n b e r g ，2 0 0 0 ) 来介绍结构方程模型框架下的测量不变性方法。实证研究方面如s t e p h e n 等( 2 0 0 6 ) 对韦克斯勒成人量表第三版在不同年龄段的测量不变性进行了检验；j e f f r e y 等( 2 0 0 1 ) 使用测量不变性检验方法对不同来源的绩效评估的等价性问题进行了探讨；c o n gl i u 等( 2 0 0 4 ) 对工作满意度问卷德语版的跨文化使用的测量不变性问题进行了研究。然而在测量不变性问题逐渐受到研究者重视的同时，也有许多其他问题亟待解决。研究者首先要面对的一个选择是如何选择一种合适的测量不变性检验方法? 已有文献中出现的测量不变性检验方法主要归为两类：一是基于验证性因素分析 ( c f a ) 的多组验证性因素分析法( m u r i g r o u pc o n f i r m a t o r yf a c t o ra n a l y s i s ， m c f a ) ；二是基于项目反应理论( i r t ) 的d i f 法( d i f f e r e n t i a li t e m sf u n c t i o n i n g ， d i f ) 。其中，m c f a 法的具体实施也因研究者采用的测量模型是否含有项目均值而不同，且对于具体检验的步骤也存在争议：而基于i r t 的d i f 法的具体方法则有更多，比如l o r d ( 1 9 8 0 ) 的检验法，r a j u ( 1 9 8 8 ) 的面积测度，t h i s s e n 2 三种测量不变性检验方法的比较研究 ( 1 9 8 8 ) 等人的似然比检验法( i r t - l r ) ，r a j u 等人的d f i t 法( 1 9 9 5 ，d i f f e r e n t i a l f u n c t i o n i n go f i t e m sa n dt e s t s ，d f i t ) 。此外研究者面临的另一个问题是在已有的文献中很少有不同测量模型下各种测量不变性之间的联系的论述，它们往往都是使用各自专有的术语和检验程序( s t a r k ，2 0 0 6 ) ，在实践中的具体表现为不同领域的学者倾向于用不同的方法，如在教育测量领域的学者倾向于使用d i f 概念而使用各种d i f 检验的方法，而在人格和态度测量领域的学者则倾向于使用m c f a 法。解决好这两个问题的关键是从理论和实证的角度对不同测量模型下的测量不变性检验方法进行比较。r e i s e 等( 1 9 9 3 ) 曾对m c f a 和i r t l r 从理论上进行比较，并通过对5 9 8 名中国南京师范大学的大学生和5 4 0 名美国明尼苏达州立大学的大学生施测含5 个项目的负向情感量表( n a 5 ，n e g a t i v ea f f e c t ) 来收集数据，在此实证数据的基础上分别使用m c f a 和i r t l r 的方法进行了分析，得出的结论较为一致，但i r t 的方法更为严格。r a j u 等( 2 0 0 2 ) 比较了m c f a 和 d f i t 在理论上的异同，并分别使用m c f a 和d f i t 对一份性骚扰问卷所收集的数据进行了测量不变性的分析，两者的大部分结论较为一致。然而这两项研究都是基于理论解释的目的，并没有很好地回答上文提出的两个问题，两位作者都认为未来的研究需要通过模拟研究的方法对不同的方法的检验效率比较。目前使用模拟数据对不同测量不变性检验方法的效率进行比较的研究较少，且仅有的几项研究比较的测量不变性检验方法也各不相同。f l o w e r s 等( 2 0 0 2 ) 从不同的d i f 类型和不同的能力分布角度比较两种m c f a 法及d f i t 法之间的差异，结果发现，在各种不同实验条件下d f i t 法的i 型错误和i i 型错误比两种 m c f a 法更可以接受。但此项研究的不足在于未考虑模拟数据中被试样本量对测量不变性检验方法的影响，且每个模拟条件下的样本数太少。m e a d e 等( 2 0 0 4 ) 币i j 用已知测量属性的模拟数据，比较了m c f a 法i r t l r 法之间的适用性、相似性和差异，结果显示虽然两种方法都有不足，但是在某些类型的测量不变性检验中 i r t l r 法比m c f a 法更好。s t a r k 等( 2 0 0 6 ) 也做过两类方法的比较研究，但是与 m e a d e 等不同的是s t a r k 认为以往的比较的两种方法在程序步骤上很不相同，在此基础上的比较很难清楚的揭示方法上的差异，因此s t a r k 整合了m c f a 法和 i r t l r 法，提出了在一致的策略基础上的两种方法的检验程序，并在此基础上 3 江西师范大学硕士学位论文通过控制d i f 数量、d i f 类型、项目影响、反应选项类型、样本大小、基线模型类型、p 值类型等有可能的影响因素进行了模拟实验，结果显示m c f a 法和 i r t l r 法在多数实验条件下的结果相似，如预期的一样，m c f a 法在二级计分条件下表现不佳但是在多级计分条件要比i r t l r 法好。此外与一般的看法相反的是在项目阈限上存在d i f 条件下，m c f a 表现较好，其准确率不受项目影响 ( i t e mi m p a c t ) 的作用。然而此项研究的不足在于研究设计考虑过多的因素反而对于模拟研究结果的解释太复杂。纵观以上三项研究，发现都包含了基于验证性的因素方法和基于项目反应理论的d i f 法，但是在具体方法的比较上有差异。这些具体的方法在操作上存在的不同程度的差异也使得这些模拟研究结果难以比较。相比国外在测量不变性方面的研究，国内在此领域的研究较少，特别是还没有对不同测量模型框架下的不同方法的比较。国内学者对于测量不变性的研究有介绍( 白新文，2 0 0 4 ，刘军，2 0 0 5 & 骆方，2 0 0 6 ) ，也有实际方法应用。在 c f a 框架下有蔡华俭( 2 0 0 8 ) 以生活满意度量表为例对网络测验和纸笔测验的测量不变性进行了研究；白新文( 2 0 0 4 ) 对社会称许性量表的测量等价性探讨；刘军( 2 0 0 5 ) 对一篇来自市场营销学领域顶级期刊上发表的测量不变性例子的剖析。在i r t 框架下有曹亦薇( 2 0 0 3 ) 利用i r t 中的等级模型调查了中日两组被试关于s h i b a 简易人格量表中“环境敏感性”的项目功能差异进行了研究；涂冬波( 2 0 0 7 ) 以s c l 9 0 中的“恐怖”因子为例，采用等级反应模型对该因子的七个项目进行了项目功能差异检测。本研究的目的是比较三种测量不变性检验方法( m c f a 法、i r t l r 法和 d f i t 法) 的检验效率。具体来说，在模拟数据研究中探索被试能力分布、被试样本容量和d i f 类型对三种测量不变性检验方法的影响；在实际数据研究中，使用人际反应指数量表收集数据，分别考察三种方法在该量表四个维度的测量不变性检验的一致性。 4 三种测量不变性检验方法的比较研究 2 文献综述 2 1 测量不变性定义及相关概念 2 1 1 测量不变性测量不变性( m e a s u r e m e mi n v a r i a n c e ) 最早见于m e r e d i t h ( 1 9 9 3 ) 一篇关于因素不变性的论文。在这篇文章中，m e r e d i t h 在m e l l e n b u r g h ( 1 9 8 9 ) 、l o r d ( 1 9 8 0 ) 以及他自己( m e r e d i t h & m i l l s a p ，1 9 9 2 ) 关于项目偏差思想的基础上，用条件概率的形式定义了测量不变性。但早在2 0 世纪8 0 年代，d r a s g o w ( 1 9 8 4 ) 提出的测量等价性( m e a s u r e m e n te q u i v a l e n c e ) 概念就与测量不变性类似。d r a s g o w 为了回应b o b k o ( 1 9 8 3 ) 等对其先前一篇关于测量误差论文( d r a s g o w ，1 9 8 2 ) 的质疑，借用了项目反应理论中的相似概念，提出了测量等价性概念，他认为当测验的观察分数和潜在特质之间的关系在各组是相同时，就称该测验存在测量等价性。具体来说，两个在潜在特质上处于相同位置但是来自不同组的被试应有相同的期望测验分数。这个概念与m e r e d i t h 的测量不变性概念是一样的。v a n d e n b e r g ( 2 0 0 0 ) 在他的综述中也并未对两者做区分。 m i l l s a p ( 2 0 0 7 ) 将测量不变性定义为：测量的某些属性应独立于除该测量所想测的个体的特性之外的所有其他特征。m i l l s a p 还使用条件概率的形式来表示测量不变性。记x 是p 维随机变量，表示研究中可观察的变量，记是，维的潜变量，记y 是s 维的测量变量，它定义了个体特征。在很多情况下s - - - i ，v 是一个组别识别变量，定义的通常是人口统计学变量，如性别、种族。x 与肌矿之间的测量不变性，有且只有下式对所有的正肌v 都成立时才存在： p ( xl 缈，y ) = p ( xi 形) 其中p ( x l 聊是指在给定形情况下x 的条件概率，此处的概率可理解为离散变量x 的离散条件概率，也可以是连续变量x 的条件概率密度函数。 m i l l s a p 认为理解测量不变性定义需要理解以下几个问题： 1 ) 测量是什么? 测量不变性并不局限于任何特定的测验或项目类型，可以 5 江西师范大学硕士学位论文是单个项目，也可以是题组( t e s t l e t s ) 或者子测验( s u b t e s t ) ，同时测量不变性也未假设任何具体的量尺属性，可以是离散的称名或者顺序量表，也可以是连续的等距量表或比率变量。 2 1 研究者所希望的独立于被试特征的测量属性是什么? m i l l s a p 认为研究者并不期望所有的测量属性都是不变的，识别哪些测量属性是不变的关键是根据条件概率定义的不变性。 3 ) 区别被试特征是否是测量所关注的? 在心理测量中，测量所关注的特征通常被定义为潜变量，那么问题就变成测量打算要测的潜变量是什么? 4 ) 潜在变量一定是单维的吗? m i l l s a p 认为测量不变性的研究在方法学上并没要求潜在变量是单维的，如7 0 年前就进行研究的因素不变性问题并没有此要求。测量不变性的成立是进行有意义组间比较的重要逻辑前提( v a n d e n b e r g ， 2 0 0 0 ) 。研究者也越来越重视测量不变性问题，且随着测量不变性的统计检验方法以及相应的统计软件的发展，测量不变性问题也越来越多在实际中得到检验。 2 1 2 相关概念 s t a r k ( 2 0 0 6 ) 认为测量不变性研究的已有文献中术语的使用比较混乱，这势必会阻碍这一领域研究的发展。虽然区别这些概念并不是本研究的目标，但是理解这些概念之间的内在联系有助于理解测量不变性的研究。测量偏差测量不变性的研究起源于测量偏差的研究，不论是d r a s g o w 还是 m e r e d i t h ，对于测量不变性的定义都源于对心理和教育测量中的偏差现象的关注。测量偏差的定义很多，从测量偏差产生的结果角度，一个测验存在测量偏差是指这个测验对于和多数参试者有差别的那些群体或者个体来说是有偏见的或不公平的( 漆书青，戴海崎，丁树良，1 9 9 8 ) ，测量偏差可能是项目水平的也可能是测验水平的。测量不变性研究只是从统计意义上对偏差现象的探讨，而测量偏差是一个非常复杂的问题，常常与社会评价意义上的测验公平联系在一起，因此现在已很少使用。 d i fd i f 概念的出现在一定程度上是取代测量偏差。对于某个特定项目，如果在来自同一目标特质的两批平行被试组中，显现出不同的统计特性，那么该项 6 三种测量不变性检验方法的比较研究目就存在d i f ( 董圣鸿，马世晔，2 0 0 1 ) 。根据匹配变量的不同，d i f 可以用不同的数学形式来表示，但实质上与m i l l s a p 用条件概率形式表示的测量不变性定义相同。m i l l s a p 认为测量不变性适用于不同的场合，因测量的类型和使用的模型的不同，在不同的应用领域有不同的术语。若使用因子分析模型表示观察变量 z 与潜在变量形的关系，则使用因素不变性，而若使用项目反应理论的模型表示观察变量x 与潜在变量形的关系，在已有的文献中往往使用d i f 而不是测量不变性。项目参数漂移g o l d s t e i n ( 1 9 8 3 ) 认为项目参数在不同施测时间上的改变就是项目参数漂移( i t e mp a r a m e t e rd r i l l ，i p d ) 。有研究者认为项目参数漂移与 d i f 并无本质差别，i p d 只是d i f 的一种特殊情况( t h i s s e n ，1 9 8 8 ，1 9 9 3 ) 。i p d 与d i f 在实际中要回答的具体问题是不一样的，d i f 要回答的问题是：一个项目的特征在各组是不一样的吗? 而i p d 要回答的问题是：一个项目的特征会随着时间而发生变化吗? 该概念也可以用m i l l s a p 的条件概率形式来表达，只是此时是用时间来区分不同的组。在教育测量情境下，若长时间使用某些题目而造成曝光率过高就可能发生项目参数漂移。项目影响项目影响( i t e mi m p a c t ) 是指不同组被试在项目上的差异是由于被试在所测的潜在特质上的差异造成的。项目影响是研究者所感兴趣的，但是对该问题的检验首先需要测验满足测量不变性的要求。因为传统上我们对于不_ j 组被试在潜在特质上的差异是通过对他们在测验的观察分数上的差异的检验来推论的。如果测量不变性的要求得不到满足，即在潜在特质上处于同一水平的不同被试的观察分数是不一样的，那么前述基于观察分数的推论则是没有意义的。参照组和目标组在d i f 的分析中常区分参照组和目标组。目标组是研究者所感兴趣的一组被试，而参照组则是作为对照的那一组被试。这种组别的区分更多是习惯上的约定。d i f 是一个相对的概念，若一个题目出现功能差异，只是说此项目在不同组的统计特性不一样。区分参照组和目标组的变量一般都是人口统计学变量，比如性别、种族、文化背景等。现在对于组别的区别已经扩大到不同的场合或者不同的时间点，比如测验的不同施测形式( 网络测验和纸笔测验) 、绩效评价中的不同评价者( 上司、同事和下属) 、发展心理学研究中的年龄变量等。 7 江西师范大学硕士学位论文一致性d i f 和非一致性d i f 当被试的能力水平与组别( 如男生组和女生组) 之间不存在交互作用时，则表现为一致性d i f ( u n i f o r md i f ) ，即在所有能力水平上，一组被试正确回答某一项目的概率都大于另一组；当被试的能力水平与其组别之间存在交互作用时，则表现为非一致性d i f ( n o n u n i f o r md i f ) ，即在所有能力水平上，一组被试正确回答某一项目的概率并不都大于另一组( 曾秀芹，孟庆茂，1 9 9 9 ) 。在i r t 中，当项目的区分度参数( 即下文的a 参数) 在两组不同，则表现为非一致性d i f ；当项目的区分度参数相同，而难度参数( 即下文的b 参数) 在两组不同，则表现为一致性d i f 。 2 2 三种测量不变性检验方法介绍 2 2 1 结构方程模型下的多组验证性因素分析在一个c f a 模型中，每一个观察变量( 聊= l ，2 ，o e9 刀，) 都是特定的潜在变量乞( 旷l ，2 ，oo * 9 ，) 与误差以的线性函数，它们之间的关系可用下式表示： x m = 乞+ 吒 ( 1 ) 其中为观察变量在潜变量卜的因素负荷。此外c f a 模型还有如下假设： 1 ) 误差项的均值为零，即占( 瓯) = 0 ，m = l ，2 ，o oe9 栉； 2 ) 误差项与潜在变量之间不相关，即，c o v ( 乞，屯) = o ，旷1 ，2 ， m = l ，2 ，以： 3 ) 误差项之间不相关，即c o v ( 罗m ，瓯) = 0 ，m k 。根据以上假设，以及式( 1 ) 可以得到观察变量x 。的期望与协方差： 8 ( x m ) = 厶 ( 2 ) 0 - h 2 = 磁盯；+ 盯乏 ( 3 ) 如果用矩阵形式表示以上含n 个项目和r 个潜在变量的测验的c f a 模型，式( 1 ) 、( 2 ) 、( 3 ) 可表示为： x = 人孝+ 万 ( 4 ) r 三种测量不变性检验方法的比较研究 e ( x ) = 人善 ( 5 ) = 人西a + o ( 6 ) 其中，x 是一个n l 的列向量，表示的是第i 个人在n 个观察变量上的得分，人是一个n x r 的因素负荷矩阵，表示n 个观察变量在，个潜变量上的因素负荷，人是a 的转置向量，善是厂1 的列向量，表示第f 人在，个潜变量上的因子得分，万为n 1 的列向量，表示n 个观察变量中不能被潜变量解释的测量残差部分。为nx n 的总体方差协方差矩阵，西为r x r 的潜在变量方差一协方差矩阵，0 为n x n 的误差方差协方差矩阵。需要注意的，以上公式中还假设观察变量和潜在变量都是中心化的， s o r b o m ( 1 9 7 4 ) 将其扩展至含均值的模型，即均值协方差模型( m a c s ) ，式( 1 ) 则变换为：石。= f 。+ 五叩乞+ 瓯 ( 7 ) 其中f 。是观察变量x 。的截距，其他符号与上述表述相同。根据式( 7 ) 以及关于c f a 模型的三个假设，我们可以得到观察变量x 。的期望与协方差： 6 ( x ，) = 毛+ 丸k m ( 8 ) 0 。2 。= 磊2 + o - 2 ( 9 ) 与不含均值的c f a 模型相比，式( 8 ) 比式( 2 ) 中多了两个参数：一个是观察变量x 。的截距f 。，另一个是潜在变量孝。的均值；而式( 9 ) 与式( 3 ) 完全一样。相应的，若用矩阵表示均值协方差模型为： x = r + a f + 万 ( 1 0 ) e ( x ) = r + a x = 人a + 其中1 1 为n xl 的截距向量，其他符号与上述表述相同。时候，用g 表示组别，式( 1 0 ) 则表示为： x g = r g + ? 考+ 6 s 9 ( 1 1 ) ( 1 2 ) 当测量发生在多组 ( 1 3 ) 江西师范大学硕士学位论文当g = 2 时，两个组观察分数可线性表达为 x 1 = f 1 + 人( 1 善1 + 万1 ( 1 4 ) x ( 2 ) = r ( 2 + 人( 2 f ( 2 + 万( 2 )( 1 5 ) 当使用某一心理测验时，虽然我们感兴趣的是潜变量的均值或者方差的差异，但实际上通常都是通过观察变量的得分的均值或者方差比较来实现的。因此只有当式( 1 4 ) 和式( 1 5 ) 中相应的参数是一致的，基于观察变量得分的比较才能够真实的反应相应的潜变量的差异，或者说只有存在测量不变性时，基于观察变量得分的比较才是有意义的。具体来说，若用式( 1 4 ) 与式( 1 5 ) 表示同一心理结构的两组测量，若要使基于x ( 1 和x 2 ) 的e ( x ) 与c o v ( x ) 的比较有意义，则需要检验的假设为： h r 。。e ：f 1 = r 孙，人! ：1 = 人( 孙，o 1 = 2 对于上述假设的检验一般并不是一次进行的，在验证性因素分析模型中，对于测量不变性的检验是通过对一系列嵌套模型的比较来实现。对这系列嵌套模型检验的具体步骤一般为：( 1 ) 形态不变性( c o n f i g u r a li n v a r i a n c e ) ，即不同组之间，潜变量的个数以及观察变量与潜变量的从属关系是否相同，但此时并不要求两组的参数相等，简单来说就是同一模型是否可以描述不同组的情况。形态不变性意味着在不同组间用相同的观察变量来定义潜变量，通常将此步建立的模型称为基线模型( b a s e l i n em o d e l ) ，是以下各步检验的基础。( 2 ) 若形态不变性未被拒绝，则进一步检验不同组之间的因素负荷是否相同，即是否有a ( 1 ) = 人( ，通常称作弱因子不变性( w e e kf a c t o r i a li n v a r i a n c e ) 或者尺度不变性( m e t r i ci n v a r i a n c e ) ，这意味着不同组观察变量的协方差的任何系统差异都是因为潜变量的差异，而不是其他原因。( 3 ) 若弱因子不变性得到支持，则进一步检验不同组之间的截距是否相同，即是否有1 - - o ) = r ( 2 1 ，通常称为强因子不变性( s t r o n gf a c t o r i a li n v a r i a n c e ) 或者标量不变性( s c a l a ri n v a r i a n c e ) ，这意味着不同组观察变量的协方差与均值的任何系统差异都是因为潜变量的差异，而不是其他原因。( 4 ) 若强因子不变性得到支持，则进一步检验不同组之间的残差是否相同，即是否有0 ( 1 ) = o ( ，通常称为严格因子不变性( s t r i c tf a c t o r i a li n v a r i a n c e ) ，这意味着不同组观察变量的 1 0 三种测量不变性检验方法的比较研究方差、协方差与均值的任何系统差异都是因为潜变量的差异，而不是其他原因。对于c f a 模型的评价，目前提出了多种拟合指标，但是对于嵌套模型的评价是基于z 2 值。虽然很多研究都认为石2 值受样本容量的影响很大，但是嵌套模型之间的x 2 差值( a x 2 ) 受样本容量影响不大，是服从x 2 分布的，其自由度为相应嵌套模型自由度之差( a d f ) 。具体来说，在建立一个宽松模型( a u g m e n t e d m o d e l ，m a ) 后，对该模型中的个别参数进行限制，得到一个紧缩模型( c o m p a c t m o d e l ，m e ) ，分别计算两个模型的x 2 值及自由度得到缸2 与a a f 。因为紧缩模型的参数相比宽松模型有更多的限制，但是紧缩模型中的所有参数在宽松模型中都有，所以一般称紧缩模型嵌套于宽松模型。在一定置信水平下，当缸2 大于矿对应的临界值时，我们就拒绝了紧缩模型成立的原假设，反之则接受紧缩模型。显而易见上述的检验是很严格的，四个待检验的模型是在测验水平的层层递进的嵌套模型，任何一个模型的检验都是建立在前面有较少限制模型的成立的基础上，若前面的模型被拒绝，则不再进行下一个模型的比较。但并不是所有学者都这么认为，b y m e ( 1 9 8 9 ) 提出了部分测量不变性( p a r t i a lm e a s u r e m e n ti n v a r i a n c e ) 来探索导致不变性不成立的原因，然后在此基础上进一步检验更高一级的不变性。不变性可以存在于除基线模型外的其他任一个水平上，也即有部分弱因子不变性，部分强因子不变性和部分严格因子不变性。部分不变性的本质相当于在项目水平来检验哪一个项目不存在测量不变性。 2 2 2 项目反应理论下的似然比检验相比c f a 模型使用的是被试作答的协方差信息，项目反应理论模型使用被试在所有项目上的作答反应信息。项目反应理论深入测验的微观领域，将被试特质水平与被试在项目上的行为关联起来并且将其参数化，模型化( 漆书青，戴海崎，丁树良，1 9 9 8 ) ，般使用一个非线性的单调函数来描述被试能力水平( 记为口) 与在项目上的作答概率( 记为p ( x = k i 臼) ) 之间的关系，也可以描绘项目特征曲线( i t e mc h a r a c t e r i s t i cc u r v e ，i c c ) 来表示上述关系。此外项目反应理论一般要求满足单维性和局部独立。单维性假设要求一个测验下所有的项目测量的江西师范大学硕士学位论文是一个单一的潜在特质；局部独立则要求任一被试的作答与其他被试的作答无关且每一个被试在每一项目的作答不受其在其他项目上的作答的影响。在心理与教育测量实践中，有多种项目反应理论模型可供选择，其中适合于心理测量中经常使用的李克特型问卷数据的模型主要是s a m j i m a 的等级反应模型( g r m ) 。在这个模型中，能力为秒的被试选择项目i 的第k 个等级的概率为：最( 目) = 最( 臼) 一- ，( 0 ) 2 而而画1 瓦丽一鬲面面1 丽1 6 其中k = l ，2 ，m ；d = - i 7 为一常数；瓦是项目i 的第k 个等级与第k + 1 个等级之间的界限或者阈限，表示有5 0 可能选择第k 个等级及以上的选项时所对应的被试的口值；a ，是项目的斜率或者区分度参数，是项目与特质秒间的关联程度的指标，a 。越大表示项目与特质秒间的关系越强；焉( 0 ) 为界限反应函数 ( b o u n d a r yr e s p o n s ef u n c t i o n ，b r f ) ，描述了能力为口的被试选择项目i 的第k 个等级及以上的选项的概率，两个界限反应函数之差域( 臼) 一。纠，( 口) 为能力0 的被试选择项目i 的第k 个等级的概率。 l o r d ( 1 9 8 0 ) 曾提出通过对从参照组( r e f e r e n c eg r o u p ) 并n 目标组( f o c a lg r o u p ) 独立估计出的项目参数的显著性检验来侦查d i f 。l o r d ( 1 9 8 0 ) 认为“如果一个项目在不同组的项目特征曲线是不同的，那么很明显该项目是有偏差的。”因为项目特征曲线的形态是有项目参数所决定的，那么l o r d 提出的两组样本上独立估计的项目参数上的差异的检验无疑正是对项目偏差的检验，据此，l o r d 提出了d i f 的x 2 检验法，即直接检验两组的项目参数的差异。然而l o r d 的x 2 检验法在实践中的不足在于使用联合极大似然估计法得到的项目参数的标准误并不准确。根据l o r d 的思想，t h i s s e n 等人( 1 9 8 8 ) 提出i r t - l r 法，在模型比较的基础上，使用边际极大似然估计法得到项目参数，并使用似然比检验法来评价模型之间的差异。在早期，t h i s s e n 等人提出的i r t - l r 法的具体检验步骤： 1 ) 使用一个i r t 模型同时拟合两组的数据，限制两组在锚题( a n c h o ri t e m s ) 上的参数相同，并不限制欲研究的项目的参数在两组相等，此时得到该模型的2 倍的对数似然函数值，记为g ? 。三种测量不变性检验方法的比较研究 2 ) 限制欲研究的项目( s t u d i e di t e m ) 的参数在两组相等，重新使用i r t 模型拟合两组数据，此时得到该模型的2 倍的对数似然函数值，记为g ；。 3 ) 计算两个模型的g ? 与g ；之差( 记为a g 2 ) ，a g 2 服从的x 2 分布，自由度为上述两个模型自由度之差( 记为m f ) ，据此比较a g 2 与相应的a d f 下的x 2 检验其显著性。需要注意的是以上检验是已经有明确的锚题和欲研究的项目，而且t h i s s e n 早期提出这个方法的时候也只适用于二值计分模型。后来t h i s s e n 将此方法推广至多级计分项目和未设定锚题的情况，并编写了相应的软件i r t l r d i f ( t h i s s e n ， 2 0 0 1 ) 。以使用s a m j i m a 等级反应模型拟合数据为例，该法检验的具体步骤为： 1 ) 建立基线模型：限制各组在所有项目上的参数都相等，得到全部项目等值模型，同时获得对数似然函数值，记为皿胧刚。，。 2 ) 释放某一欲研究项目，在两组参数相等的限制，即建立除此项目，的参数 ( 包括口参数与所有b 参数) 在各组自由估计外，其他项目仍然限制为相等的模型，得该模型的对数似然函数值，记为豇。咖删，此时可以得到g 2 ( d f ) = - 2 ( 儿似蜘删一儿懒螂，) ，自由度矽等于项目，的项目参数个数。若此时的g 2 超过临界值，则说明该题可能存在d i f ，具体是哪个参数存在d i f 需要进一步检验。 3 ) 仅释放项目，在两组中的b 参数自由估计，a 参数为相等，其他项目的所有参数都相等，得该模型的对数似然函数值，记为儿。叫蝴脚，此时可以得到g 2 ( d f ) = _ 2 ( 皿胁岫脚，一皿i 岫h 咖。，) ，自由度秒等于l ，此时检验的是口d

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（基础心理学专业论文）三种测量不变性检验方法的比较研究.pdf

文档简介

温馨提示

最新文档

评论

（基础心理学专业论文）三种测量不变性检验方法的比较研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档