（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：55 大小：1.32MB 积分：0 举报 版权申诉

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf_第2页

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf_第3页

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf_第4页

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf_第5页

已阅读5页，还剩50页未读，继续免费阅读

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多等级试题项目功能差异 ( d i f ) 参数方法的检测研究摘要本论文主要包括理论综述和实证研究两部分。理论综述部分主要介绍了项目偏差、项目功能差异的有关概念、目前国内外的研究状况以及检测 d i f的一些常用方法。实证研究部分，应用d i f 检验的参数方法和m u l t i l o g软件，在项目反应理论s a m e j im a 等级反应模型 ( g r m ) 下，对2 0 0 4 年度全国经济专业技术资格考试的经济基础中级试卷中经济法部分2 1 个项目( 既有二级题也有多级题) 做d i f 分析。检测结果如下:有性别d i f 的项目一个 ( 项目1 0 2 ) ，有民族d i f的项目四个 ( 项目6 4 . 6 8 . 9 9 . 1 0 1 ) ，有工作性质d i f的项目一个 ( 项目6 4 ) 。项目6 8 在民族层面上表现为一致性d i f . 项目6 4 既存在民族d i f 又存在工作性质d i f 。通过对项目统计结果、反应曲线的分析和专家的讨论，本文提出了可能产生 d i f的几个因素如下:区域经济的发展差异;国家政策倾向的差异;工作经验和社会阅历方面的差异;不同群体心理特征的差异:对考试内容的预备知识掌握程度和试题的理解程度等方面的差异。研究认为，这次检测出的这些存在d i f的项目中，多数是属于良性d i f . 关键词: 项目功能差异等级反应模型项目偏差项目特征曲线多等级试题项目功能差异 ( d i f )参数方法的检测研究 ab s t r a c t t h i s d i s s e r t a t io n i n c l u d e s t w o s e c t io n s o f t h e o ry s u r v e y a n d a p p l i c a t io n s t u d y m a i n l y . t h e o r y s u r v e y p a rt i n t r o d u c e s s o m e c o n c e p t s r e l a t i v e t o i t e m b i a s a n d d i ff e r e n t i a l i t e m f u n c t io n i n g , a s w e ll a s t h e r e c e n t d e v e l o p m e n t a n d s o m e o r d i n a r y m e t h o d s , e s p e c i a ll y p a r a m e t r i c i r t a p p r o a c h e s u s e d t o e x p lo r e d i e b a s e d o n t h e r e s p o n s e t h e 2 1 o p t i o n a l it e m o f t h e l a w s p e r t a i n i n g t o t h e e c o n o m y如t h d ic h o t o m o u s l y a n d p o l y t o m o u s l y s c o r e d i t e m s ) i n 2 0 0 4 i n t e r m e d i a t e e c o n o m i c t e s t t h r o u g h o u t c o u n t ry , a p a r a m e t r i c p r o c e d u r e s u s i n g t h e g r a d e d r e s p o n s e m o d e l ( g r m , s a m e j i m a , 1 9 6 9 ) a n d m u l t i l a g ( t h i s s e n , 1 9 9 1 ) w a s u s e d t o d e t e c t g e n d e r - r e l a t e d d i e n a t i o n - r e l a t e d d i ed i s t r i c t - r e l a t e d d i p a n d w o r k c l a s s i fi c a t io n - r e l a t e d d i e t h e p a r a m e t r i c p r o c e d u r e s r e s e a r c h f o u n d : 4 i t e m s s h o w e d n a t i o n - r e l a t e d d i f ; 1 i t e m s h o w e d g e n d e r - r e l a t e d d i f ; a n d o n l y 1 i t e m s h o w e d w o r k c l a s s ifi c a t io n - r e l a t e d d i e n a t io n - r e l a t e d d i p ( i t e m 6 8 ) i s a u n i f o r m d i p a n d i t e m 6 4 a p p e a r s b o t h n a t i o n - r e l a t e d d i p a n d w o r k c l a s s i fi c a t io n - r e l a t e d d i p . a c c o r d i n g t o t h e r e s u l t s o f a n a l y s i s a m o n g i t e m s t a t i s t i c s , c h a r a c t e r is t ic c u r v e s a n d d e c i s i o n s o f s p e c ia l i s t s , r e s u l t s s h o w t h a t t h e m a i n c a u s e o f d i p a r e a s f o ll o w s : t h e e c o n o m i c d e v e lo p m e n t b e t w e e n d i s t r i c t s , t h e w o r k i n g e x p e r i e n c e s , p s y c h o lo g ic a l t r a i t s b e t w e e n d i ff e r e n t g ro u p s , t h e i n t e r e s t o r f a m i l i a r i t y t o t h e c o n t e n t , e t c . a m o n g t h e d i e s o m e a r e t h e b e n i g n . k e y w o r d s : d iff e r e n t i a l i t e m f u n c t i o n i n g , t h e g r a d e d r e s p o n s e mo d e l , i t e m b i a s , i t e m c h a r a c t e r i s t i c c u r v e 多等级试题项目功能差异 ( d i f )参数方法的检测研究前言测验偏差 ( b i a s ) 现象最早引起人们注意是在加世纪初。人们在使用智力测验时，发现本民族语言不是英语的儿童，因为语言的障碍而影响其智力分数。进而随着团体测验的发展和军队甲种测验在第一次世界大战中的大规模使用，测验偏差的问题越来越受到人们的广泛关注。之后随着跨文化测验的发展，测验专家们在对测验分数的影响方面进行了许多的研究，试图编制更公平、公正的测验。 “ 偏差” 这概念首次在 6 0年代应用于心理测量中，用于描述少数民族学生在测验上得低分的原因。那么什么是 “ 测验偏差”呢?一般认为，有偏差的测验对于和大多数参试者有差别的那些群体或个体来说是有偏见的或不公平的 1 根据许多人的研究发现，测量偏差是一个非常复杂的问题。表现的形式和产生的原因，或研究的角度不同都会有不同的定义。从项目反应理论看来，项目的测验偏差可定义为:如果某个项目在不同子群体中的项目特征曲线不相同，则项目存在测量偏差。项目反应理论中的项目特征曲线是由项目参数唯一确定的12 1 ，因此项目偏差也就是项目参数有差异。由于 “ 偏差”一词有统计学和社会学两方面的含义，它不只显示了测验分数与真分数的差异，还带有判断和评价的含义，因此，人们想单纯通过统计的方法来侦查偏差，实际上并不可能. 在研究与实际工作中，对偏差的侦查，首先是通过统计的方法计算出两组被试在某一项目上的表现是否存在差异，然后由专家来分析该项目是否真的对某一组被试不公平。如何才能将统计过程与整个偏差侦查的过程区分开呢? a n g o ff ( 1 9 7 2 ) 提出，有些项目虽然使不同群体成员的表现不同，但它们针对的是教育结果，所以不能算是“ 偏差” ，这就将偏差与组间差异区分开了131 。因此，在 8 0 年代末，有人提出用“ 项目功能差异 ( d i ff e r e n t i a l i t e m f u n c t i o n , 简称为d i f ) 这一术语来代替测验偏差。强调 d i f主要是从统计学的角度来检查和表示答题正确率的差异。因此，可以将 “ 项目功能差异”定义为: 对于某个特定的项目，如果来自同一目标特质的两批平行被试组中显示出不同的统计特性，那么该项目就存在功能差异。这里讲的“ 同一目标特质的两批平行被试组” 是指在测验打算测查的能力上，两组被试具有相同的水平。这样在概念上把 d i f和测验偏差区分后，可以认为项目功能差异是项目偏差的必要而非充分条件。在 i r t模型下，我们可以计算采用两组被试数据统计结果的项目参数差异性来计算d i f . i r t的方法都是用潜在能力作为匹配变量，对d i f 的定义是: 如果参照组和目标组之间的项目参数或项目特征曲线存在差异，则该项目存在d i f ，如果不存在差多等级试题项目功能差异 ( d i f ) 参数方法的检测研究异，则该项目不存在d i f 。如今，人们已经逐渐了解到对d i f 的研究的重要性，开始采用许多的统计方法对测验进行检测，尤其在国外，有关 d i f的研究在许多国家得到了很大的发展，特别是在美国，不仅理论研究上发展很快，而且应用上也非常广泛。他们对 d i f的研究主要是:( 1 ) 检测方法的开发。现在已经开发出适用于大量不同背景的方法。( 2 ) 检测方法的比较。探讨各种方法的效果和优缺点，帮助使用者选择合适的方法。( 3 )对各种测验的项目进行分析，确定有 d i f的项目，分析其存在的原因，形成最大可能的规律性的假设，并加以论证14 . 而我国对d i f的研究起步很晚，研究人员的数量不多和研究的程度不深，主要限于对二级记分题的有关研究，并且以往的研究也大多数集中在经典测量领域，即用经典理论的方法进行探测( 如: m h . s t n d . p - m r , s i b t e s t 等) 。对于多级记分题的研究、采用项目反应理论的参数方法以及经典测量和项目反应理论间检测性的对比，都是值得研究者探讨的问题。所谓参数的方法就是在一个特定的项目反应理论模型下，对所估项目参数进行比较从而实现对d i f 的研究15 1 。在本研究中，我们采用基于项目反应理论 s a m e j i m a 等级反应模型 ( g r m) 的参数方法，对2 0 0 4 年度全国经济专业技术资格考试的经济基础中级试卷作d i f 分析，其中既包括了对二级记分题也包含了对多级记分题的d i f 检测分析。多等级试题项目功能差异 ( d i f ) 参数方法的检测研究第一部分项目功能差异( d i f ) 研究综述 1 ,项目功能差异的概念一般来说，只要两个具有相同潜在能力水平的群体在项目上有不同的表现，就称出现了d i f 。其中的优势群体组习惯地被称为参照组，而非优势群体组称为目标组。检测d i f 首先作假设，包括零假设和备择假设: h o : 对照组与目标组项目功能相等 ( 无d i f ) h 1 :对照组与目标组项目功能不相等 ( 有d i f ) 不同的记分题d i f 分析方法使用不同的d i f 操作性定义。其中一个定义是，在相同能力的前提下，不同被试组只要在项目任一分数等级上的得分概率不一样就说明存在d i f 。这个定义成为似然比( l r ) 检测方法等d i f 检测程序的基础口第二个定义是，在控制能力条件下 ( 能力相等) ，不同被试组的项目期望得分不相等，则存在d i f i6 l 。稍后介绍的 d f i t 和s i b t e s t 方法就是基于这一定义的. 2 、项目功能差异研究中的几个墓本概念 1 ) 参照组和目标组 d i f 方法一般是对两组被试进行d i f 分析，对两种性别、种族以及其他特征的被试进行分析，看具有相同能力的两组被试对某个项目的答对率是否相同。我们一般把可能在项目上表现不利的那组被试当作目标组 ( 如女生和黑人) ，即是研究目标组成的群体;把作为对照的那组被试称为参照组 ( 如男生和白人) 。 ( 2 )匹配变量衡量两组被试能力的变量就称为匹配变量。匹配变量既可以是实际得分，如测验的总分;也可以是潜在能力，如:用i r t 模型估出的被试能力。 ( 3 )一致性d i f 和非一致性d i f m u ll e n b e r g ( 1 9 9 3 ) 对一致性d i f 和非一致性d i f 做了定义上的区分. 一致性 d i f是指被试的能力水平与其组别之间不存在交互作用，即在所有的能力水平上，一组被试回答某一项目的正确率都大于另一组。当被试的能力水平与其组别之间存在交互作用时，则表现为非一致性d i f 1 1 . 例如检查男、女生在某测验项目上有无项目功能差异，如果并非在所有能力水平上，男生回答该项目的多等级试题项目功能差异 ( d i f ) 参数方法的检测研究第一部分项目功能差异( d i f ) 研究综述 1 ,项目功能差异的概念一般来说，只要两个具有相同潜在能力水平的群体在项目上有不同的表现，就称出现了d i f 。其中的优势群体组习惯地被称为参照组，而非优势群体组称为目标组。检测d i f 首先作假设，包括零假设和备择假设: h o : 对照组与目标组项目功能相等 ( 无d i f ) h 1 :对照组与目标组项目功能不相等 ( 有d i f ) 不同的记分题d i f 分析方法使用不同的d i f 操作性定义。其中一个定义是，在相同能力的前提下，不同被试组只要在项目任一分数等级上的得分概率不一样就说明存在d i f 。这个定义成为似然比( l r ) 检测方法等d i f 检测程序的基础口第二个定义是，在控制能力条件下 ( 能力相等) ，不同被试组的项目期望得分不相等，则存在d i f i6 l 。稍后介绍的 d f i t 和s i b t e s t 方法就是基于这一定义的. 2 、项目功能差异研究中的几个墓本概念 1 ) 参照组和目标组 d i f 方法一般是对两组被试进行d i f 分析，对两种性别、种族以及其他特征的被试进行分析，看具有相同能力的两组被试对某个项目的答对率是否相同。我们一般把可能在项目上表现不利的那组被试当作目标组 ( 如女生和黑人) ，即是研究目标组成的群体;把作为对照的那组被试称为参照组 ( 如男生和白人) 。 ( 2 )匹配变量衡量两组被试能力的变量就称为匹配变量。匹配变量既可以是实际得分，如测验的总分;也可以是潜在能力，如:用i r t 模型估出的被试能力。 ( 3 )一致性d i f 和非一致性d i f m u ll e n b e r g ( 1 9 9 3 ) 对一致性d i f 和非一致性d i f 做了定义上的区分. 一致性 d i f是指被试的能力水平与其组别之间不存在交互作用，即在所有的能力水平上，一组被试回答某一项目的正确率都大于另一组。当被试的能力水平与其组别之间存在交互作用时，则表现为非一致性d i f 1 1 . 例如检查男、女生在某测验项目上有无项目功能差异，如果并非在所有能力水平上，男生回答该项目的多等级试题项目功能差异 ( d i f )参数方法的检侧研究正确率都大于女生，而是在高能力水平段的学生中，男生回答该项目的正确率高于女生，而在低能力水平段的学生中，男生的正确率低于女生，这就称该项目存在非一致性d i f . 使用项目反应理论研究d i f 时， d i f 的一致性表现为目标组和对照组在某项目上参数中的区分度 ( a ) 相同，而各组的难度 ( b ) 不同; 如果某项目在目标组和对照组估出的区分度和难度都有不同的项目参数值，在 d i f分析中就称为非一致性d i f . 这些信息也可以从项目特征曲线看出: 因能力与群体关系之间产生交互作用的两条“ 非一致性d i f ”曲线出现了相交现象。从曲线的走向来看，被检测出有d i f 项目的曲线整体趋势有利于其中一方。 ( 4 ) i 型错误在项目功能差异研究中，i 型错误指把一些不存在 d i f的项目检测为存在 d i f 的错误。如果d i f 的检测方法犯i 型错误的概率较高，就会把某些高质量的没有d i f 的项目误判为存在d i f ，对d i f 真正原因的检测带来很大的影响。因此，项目功能差异检测应该选择检验力高，犯i 型错误比率小的统计方法。 ( 5 )样本容量以往的研究表明:样本的容量是影响d i f 方法检验力的一个最大因素之一。样本容量越大，检验力越高。如果样本容量太小，则无法检验出有d i f 的项目。尤其采用工 r t 的方法时，所需的样本量很大，一般要1 0 0 0 人以上。 3 、项目功能差异的几种检洲方法根据匹配变量是测验总分还是被试潜在特质或真实能力，可把检测 d i f的方法分为两类:以观察分数作为匹配变量的方法和以潜在特质作为匹配变量的方法 p o t e n z a 如果某项目在目标组和对照组估出的区分度和难度都有不同的项目参数值，在 d i f分析中就称为非一致性d i f . 这些信息也可以从项目特征曲线看出: 因能力与群体关系之间产生交互作用的两条“ 非一致性d i f ”曲线出现了相交现象。从曲线的走向来看，被检测出有d i f 项目的曲线整体趋势有利于其中一方。 ( 4 ) i 型错误在项目功能差异研究中，i 型错误指把一些不存在 d i f的项目检测为存在 d i f 的错误。如果d i f 的检测方法犯i 型错误的概率较高，就会把某些高质量的没有d i f 的项目误判为存在d i f ，对d i f 真正原因的检测带来很大的影响。因此，项目功能差异检测应该选择检验力高，犯i 型错误比率小的统计方法。 ( 5 )样本容量以往的研究表明:样本的容量是影响d i f 方法检验力的一个最大因素之一。样本容量越大，检验力越高。如果样本容量太小，则无法检验出有d i f 的项目。尤其采用工 r t 的方法时，所需的样本量很大，一般要1 0 0 0 人以上。 3 、项目功能差异的几种检洲方法根据匹配变量是测验总分还是被试潜在特质或真实能力，可把检测 d i f的方法分为两类:以观察分数作为匹配变量的方法和以潜在特质作为匹配变量的方法 p o t e n z a d o n o g h u e ,p - s t n d方法是它的拓展，用于多级题。用于两级记分项目与多级记分项目的主要差异就是项目分数不同11 0 1 计算统计量s t n d e s -d ; 的前提条件是: 匹配变量x有m个水平， m = l , - - - , m ; 项目得分五有k 个水平或类别，k = 1 , - - - , k ; 将被试分成两个被试组:参照组 ( r )和目标组 ( f ) o p - s t n d 方法计算s t n d 。一，，第一步就是计算目标组与参照组中总分为。的被试在某个项目上的平均得分: e f . 徉i x ) e, 仪i x ) n f. y . i n f. 万 n . y n . 其中: n f - k 是目标组中总分为m 、项目得分为y k 的被试数目 n 、是目标组中总分为m水平的被试数目 n r . k 是参照组中总分为m 、项目得分为y k 的被试数目 n p-是参照组中总分为m水平的被试数目项目得分变量y k 能以顺序变量的形式出现，包括1 , 2 ,3 , , k o 接下来，计算每个匹配变量水平上两组被试的项目平均得分之差: d . 一 e , 州 x ) - e f ( 1 jx ) ( 3 ) 然后用目标组的相对频数进行加权 ( d o r a n s z w i c k e t a 1 , 1 9 9 3 b ) . 3 . 1 .3 g - n h 方法 ( g e n e r a l i z e d n h ) g - m h方法即拓广的m e方法( g m h ) ，是适用于两级记分的m h方法的另一种改写形式 ( m a n t e l 可用于检测多级记分项目的d i f . p - m e方法的检验统计量是项目平均得分的线性合成的加权单变量，而 g m h 检验统计量的分布是自由度为k1的多元正态分布( 2 w ic k e t a l ., 1 9 9 3 b ) 。 g m h检验统计量对目标组与参照组之间的反应模式的差异十分敏感，而 p - m h 方法对两组之间平均数的差异反应灵敏。 3 . 1 .4 h w 1 和 h w 3 方法另外一对检验统计量 h w1和 h w3也被引入用来检测多级记分题 d i f ( w e lc h z w i c k e t a 1 , 1 9 9 3 b ) . 3 . 1 .3 g - n h 方法 ( g e n e r a l i z e d n h ) g - m h方法即拓广的m e方法( g m h ) ，是适用于两级记分的m h方法的另一种改写形式 ( m a n t e l 可用于检测多级记分项目的d i f . p - m e方法的检验统计量是项目平均得分的线性合成的加权单变量，而 g m h 检验统计量的分布是自由度为k1的多元正态分布( 2 w ic k e t a l ., 1 9 9 3 b ) 。 g m h检验统计量对目标组与参照组之间的反应模式的差异十分敏感，而 p - m h 方法对两组之间平均数的差异反应灵敏。 3 . 1 .4 h w 1 和 h w 3 方法另外一对检验统计量 h w1和 h w3也被引入用来检测多级记分题 d i f ( w e lc h z为被试测验总分，被试在被试分类变量v中被区分为各个子群体。然后按照等级顺序在完全的逻辑斯蒂克回归模型中，求出被试正确作答该测验项目的概率。通过一个x 2x检验来区分一致性和非一致性d i f的形式。 3 . 3 以潜变且为匹配变且的非参数方法以潜变量为匹配变量的非参数方法目前用的最多的是p - s i b t e s t方法。它是由h u a - h u a c h a n g和j o h n m 于1 9 9 6年在二级记分题d i f检测的 s i b t e s t方法基础上改进的。改进的s i b t e s t方法把二级记分题d i f 的检测作为一种特殊的情况。他可以同时检测两种题型的测验。改进的一个地方是用心了取代了s i b t e s t中的n ，这样匹配分数就有n h十 1 个。第二个地方用c r o n b a c h 的a 系数( l o r d 瓜，瓜分别是多等级试题项目功能差异 ( d i f )参数方法的检测研究 in( p-)1 - p” 。 # ,z ny 16 3z v ( 7 ) 这已将 l o g is t ic回归模型转化成了线性回归模型，因变量就是我们通常所说的l o g i t e z和 v都是观察变量。 z v项仅是一个记号，表示两观察变量的组合水平。虽非直接观察变量但也可由 z与 v的观察而推定。用极大似然法或最小二乘法等其他方法估出回归参数# a fi i 16 2 和t 3 。对于这些估计的回归参数可以用假设检验方法检验它们的显著性，检验的不同结果，对 d i f的检测有不同的含义。如果方程中只有)9 o 几不为零，则表示该项目无d i f ，如果方程中户。、 ,6 1 - 刀 2 均不为零，表示该项目有一致性d i f . 如果2 v 项参数声 3 也不为零，则表示项目存在非一致性d i f。 l o g is t ic 回归模型法检测项目d i f 可进一步区分d i f 是否一致性h 2 3 . 2 . 2 p - l r d i f 方法 p - l r d i f 方法是逻辑斯蒂克回归方法的拓展，适用于多级记分的d i f 检测. 一般用于连续和分类变量。令 y为项目分数变量;z为被试测验总分，被试在被试分类变量v中被区分为各个子群体。然后按照等级顺序在完全的逻辑斯蒂克回归模型中，求出被试正确作答该测验项目的概率。通过一个x 2x检验来区分一致性和非一致性d i f的形式。 3 . 3 以潜变且为匹配变且的非参数方法以潜变量为匹配变量的非参数方法目前用的最多的是p - s i b t e s t方法。它是由h u a - h u a c h a n g和j o h n m 于1 9 9 6年在二级记分题d i f检测的 s i b t e s t方法基础上改进的。改进的s i b t e s t方法把二级记分题d i f 的检测作为一种特殊的情况。他可以同时检测两种题型的测验。改进的一个地方是用心了取代了s i b t e s t中的n ，这样匹配分数就有n h十 1 个。第二个地方用c r o n b a c h 的a 系数( l o r d 瓜，瓜分别是多等级试题项目功能差异 ( d i f ) 参数方法的检侧研究第k能力水平组中参照组和目标组被试在该题上的平均得分。检验统计量为:b a ( 6 ) ( 9 ) 其中: i r i _ l i n 2 i a 2 k , r ，、夕 j，纽，r 七、， l m n a t + a 2 k ,f )1 1/2 n a 式中， a 2 ( i i k , g ) 是匹配测验分数为k 的9 组( 9 一 r 或f ) 被试，在所研究的项目上得分的方差。当项目无d i f 时b 近似于n ( 0 , 1 ) 的正态分布( h u a - h u a c h a n g c la u s e r r e i s e e t a 7 . , 1 9 9 3 ) 。在该模型中，项目i 的答案有m+ 1 个等级，得分x i = 几 1 . . . . . . m i ，特质为0 的被试选择项目i 的第u 等级答案的概率为: p ,s ( 0 ) 一 p *, ( b ) 一 p , , ( 8 ) ( 1 0 ) 其中 ; 尺( 0 ) 是能力为 0 的被试在第i 项目上得分在 “ 或 “ 之上的概率，称这组概率函数曲线为类型特征曲线( c a t e g o ry c h a r a c t e r is t ic ) 简称为c m p , ( b ) 表示能力为。的被试在在第i 项目上得分恰为“ 的概率，这组新的概率曲线组被称为运算特征曲线( o p e r a t i n g c h a r a c t e r is t ic c u r v e s ) 简称为o c c s . 它们是含项目区分度e 参数和难度b 参数的双参数l o g is t i c 方程。该方程可记为: p , ( e ) - e x p z ,t ( b ) e x p z , . . 1 + ( 9 ) ( 1 1 ) 其中 z ., (0 ) - a , ( 9 - 气 ) ， a 是项目 i 特征曲线 p (e ) 的斜率( 区分度 ) ，它是项目与特质 e 间的关联程度的指标， a ，值越大则 p 。 ( 0 ) 曲线起伏越大，表示项目与特质的关系越密切。气称为项目i 的阐值( 难度 ) 阐值的大小，决定曲线的位置，数值越小，曲线越偏近左方。两个相邻的类型特征曲线概率之差 p (0 ) 一 1 1 ( o ) 为特质 b 的被试选择项目i 的第 u ; 个等级答案的概率在项目 i 中，我们令所有得分在u ; 或 u : 以上的被试为 “ 通过” 或得 1 ” 分，得分小于u i 的被试为“ 不通过 ” 或“ 0 分。并且，耳( 0 ) - 1 , 戒, , ( 0 ) _ 0 在每个项目中多等级试题项目功能差异 ( d i f ) 参数方法的检测研究种种假设，并对最可能的原因进行验证分析。对 d i f原因进行分析时，主要是评估造成项目产生 d i f的第二维度，并把具有相同第二维度的项目找出来，组成项目束进行项目束功能差异分析。如果d b f 明显地增大了，则说明假设的第二维度确实是存在，并且造成了项目功能差异。如英语测验中的五道单项读音题都显现出有利于女生，可假设这些项目至少包括二个维度，测验所测的英语综合能力和导致项目d i f 的读音能力，于是把这五个读音题组成项目束进行分析，发现d b f 有了明显的增大，上述假设就得到了验证【 1 4 3 . 4 以潜变f为匹配变f的今致方法以潜变量为匹配变量的参数方法，这里只介绍基于s a m e j i m a 等级反应模型 ( g r m)下的几种方法。 3 . 4 . i s a m e j i m a 等级反应模型 ( g r y ) 项目反应理论实际上包含了一族模型，以适应0 - 1 型、等级型 ( l ik e r t y p e ) 等各种数据。 s a m e j i m a的等级反应模型使用于等级型数据。在对于多级数据的研究中，该模型一直得到广泛的使用 ( 见 a n k e n m a n n e t a l ., 1 9 9 9 ; r e i s e e t a 7 . , 1 9 9 3 ) 。在该模型中，项目i 的答案有m+ 1 个等级，得分x i = 几 1 . . . . . . m i ，特质为0 的被试选择项目i 的第u 等级答案的概率为: p ,s ( 0 ) 一 p *, ( b ) 一 p , , ( 8 ) ( 1 0 ) 其中 ; 尺( 0 ) 是能力为 0 的被试在第i 项目上得分在 “ 或 “ 之上的概率，称这组概率函数曲线为类型特征曲线( c a t e g o ry c h a r a c t e r is t ic ) 简称为c m p , ( b ) 表示能力为。的被试在在第i 项目上得分恰为“ 的概率，这组新的概率曲线组被称为运算特征曲线( o p e r a t i n g c h a r a c t e r is t ic c u r v e s ) 简称为o c c s . 它们是含项目区分度e 参数和难度b 参数的双参数l o g is t i c 方程。该方程可记为: p , ( e ) - e x p z ,t ( b ) e x p z , . . 1 + ( 9 ) ( 1 1 ) 其中 z ., (0 ) - a , ( 9 - 气 ) ， a 是项目 i 特征曲线 p (e ) 的斜率( 区分度 ) ，它是项目与特质 e 间的关联程度的指标， a ，值越大则 p 。 ( 0 ) 曲线起伏越大，表示项目与特质的关系越密切。气称为项目i 的阐值( 难度 ) 阐值的大小，决定曲线的位置，数值越小，曲线越偏近左方。两个相邻的类型特征曲线概率之差 p (0 ) 一 1 1 ( o ) 为特质 b 的被试选择项目i 的第 u ; 个等级答案的概率在项目 i 中，我们令所有得分在u ; 或 u : 以上的被试为 “ 通过” 或得 1 ” 分，得分小于u i 的被试为“ 不通过 ” 或“ 0 分。并且，耳( 0 ) - 1 , 戒, , ( 0 ) _ 0 在每个项目中多等级试题项目功能差异 ( d i f )参数方法的检测研究只有一个区分度值，也就是说每个等级上的区分度都是相同的。但每个项目各个等级上的难度是严格单调递增的，即有: 一 0 0 b o b l ” ，气气. 十，一 + 对于等级反应模型下项目参数估计的方法，现在推崇的方法是求边际似然函数方程的em解。软件 m u l t i l o g和 1 9 9 3年莫雷卡和伯克编写的软件 p a r s c a l e 都可以用来估计等级反应模型参数i l l 3 . 4 . 2 wi t 方法采用d f i t法来检测多级项目功能差异的方法是: 估计目标组和参照组在各个项目上能力期望值之间的差异性。特质水平为8 , 的被试s ，其期望值可通过以下的计算公式来计算: e s s,a 一乏 k l k (6 , ) ( 1 2 ) 其中今( b , ) 表示总被试9 组( = r 或f ) 中被试s 在第k 个等级上的得分概率。对于每个被试，我们一般计算 d , e s , ,. 一 e s , r ( 1 3 ) 从理论上来说，对于任何。，当 e s r ( b ) ， e s a o ) 时，说明存在d i f . f lo w e r s .e t a l .( 1 9 9 9 ) 提议采用非补偿d i f ( n c d i f ) 指数来检测d i f 。检测公式如下: n c d i f一。 j + 14 了( 1 4 ) 其中 ,u a 和弓代表所有被试d ，的均值和方差。 n c d i f 指数近似于x 2 分布. f lo w e r s e t a l 于1 9 9 9 年用m o n t e c a r lo 模拟数据对该指数进行了验证。统计分析的原假设是不存在d i f . 然而，采用模拟数据进行研究，如果等级中不存在d i f ，大多数情况下常常会拒绝原假设( i s 。因此， f lo w e r s e t a l 建议采用验证临界值的方法来解决该问题。方法是对无d i f 的等级由模拟数据来决定该临界值，同时在显著性a 水平下，根据n c d i f 结果估计百分位指数的分布状况【16 1 3 . 4 . 3 似然比检验法 ( l r t e s t ) 根据项目反应理论，一个项目的特征曲线 o c c ) 不应受样本的影响，即在不同样本上估计的项目参数值应该是一致的。如果不一致则要考虑d i f是否存在1 7 1采用等级反应模型，似然比法 l r t e s t ( g r m - l r t e s t ; k i m t h i s s e n e t a 1 . 1 9 8 6 ) 就是检测两组等级项目参数是否有差异来侦探d i f i s 。通常选取一组项目，其中若干无d i f 的项目作为对照项目，一多等级试题项目功能差异 ( d i f )参数方法的检测研究个项目作为研究项目 ( 该项目需确定是否存在 d i f ) 。对于每个研究项目，都要比较两个模型的相对适合度，即 : 紧缩模型 ( c o m p a c t 模型) 和扩展模型( a u g m e n t e d 模型) 间统计量的拟合度 ( m c c l e ll a n d , 1 9 8 9 ) 。在a u g m e n t e d 模型中，确立一个被研究的项目，把其他项目暂时当作无d i f 的项目，组成 “ 铆题” ，然后进行极大似然参数估计，求出项目参数和似然函数值。然后对研究项目的参数进行限制，即，设定该项目的两组参数值相等，这就是c o m p a c t 模型的等值阶段. 对该模型在进行极大似然估计，求出似然函数值。 a u g m e n t e d 模型包括c o m p a c t 模型所有的参数. 对于c o m p a c t 模型，所有测验项目的等级参数( 包括研究项目 ) 在目标组和参照组中都要进行等值; 对于a u g m e n t e d 模型，只能允许研究项目的参数在各组上有差异。根据项目参数反应模型，算出该组项目每种反应类型的概率，所有反应类型的概率之积就是似然函数l 。然后计算两个模型下对数似然函数一 2 倍和的差值: g 2 - - 2 lo g - li k e l ih o o d f u n c t io n l fr o m t h e c o m p a c t m o d e l 一 l o g - l i k e li h o o d f u n c t i o n l fr o m t h e a u g m e n t e d m o d e l 其中g 2 服从自由度为1 的x 2 分布，然后进行是否有d i f 的假设检验。如果 g 2 值在a 水平上超出了 x2 临界值，即拒绝不存在d i f 的原假设11 9 1 e 这个方法主要通过m u l t i l o g程序120 1 来实现的。该程序的优点是能够同时完成项目参数估计和似然函数计算，以及参照组的能力分布估计。 4 、探测等级反应模型下项目功能差异的方法和步蕊简介在项目反应理论框架下探测等级模型试题是否存在 d i f的主要计算工具是 t h i s s e n 的m u l t l o g ( 7 .0 3 ) 。检验项目是否有d i f 的统计原理是比较似然比的大小。 4 . 1测脸的单维性检验与侧度的不变性利用单维项目反应理论模型分析测量数据的前提是所测特质必须是单维的，这样才能满足 i r t模型的局部独立的假设。项目反应理论的局部独立性的假设是指同一特质水平的被试对不同测验的反应在统计上是独立的;也就是说被试对一个测验项目的反应不受他们对其他测验项目反应的情况的影响.测度的不变性( m e a s u

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf

文档简介

温馨提示

最新文档

评论

（基础心理学专业论文）多等级试题项目功能差异（dif）参数方法的检测研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档