(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf_第1页
(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf_第2页
(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf_第3页
(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf_第4页
(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(基础心理学专业论文)多等级试题项目功能差异(dif)参数方法的检测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多等级试题项目 功能差异 ( d i f ) 参数方法的检测研究 摘要 本论文主要包括理论综述和实证研究两部分。理论综述部分主要介绍了项 目 偏差、 项目 功能差异的有关概念、目 前国内 外的 研究状况以 及检测 d i f的一 些常 用方 法。 实 证 研究 部分, 应用d i f 检验的 参 数方 法和m u l t i l o g软 件, 在 项目 反 应 理论s a m e j im a 等 级 反 应 模 型 ( g r m ) 下, 对2 0 0 4 年 度全国 经 济专 业 技术资格考试的经济基础中级试卷中经济法部分2 1 个项目( 既有二级题也有多 级题) 做d i f 分析。检测结果如下:有性别d i f 的项目 一个 ( 项目1 0 2 ) ,有民 族d i f的项目四个 ( 项目6 4 . 6 8 . 9 9 . 1 0 1 ) ,有工作性质d i f的项目 一个 ( 项 目6 4 ) 。 项目6 8 在民 族层面上表现为一致性d i f . 项目6 4 既存在民 族d i f 又存 在工作性质d i f 。 通过对项目 统计结果、 反应曲 线的 分析和专家的 讨论, 本文提 出了可能产生 d i f的几个因素如下:区域经济的发展差异;国家政策倾向的差 异;工作经验和社会阅历方面的差异;不同群体心理特征的差异:对考试内 容 的预备知识掌握程度和试题的理解程度等方面的差异。研究认为, 这次检测出 的这些存在d i f的项目中,多数是属于良 性d i f . 关键词: 项目 功能差异等级反应模型项目 偏差项目 特征曲线 多 等级试题项目 功能差异 ( d i f )参数方法的检测研究 ab s t r a c t t h i s d i s s e r t a t io n i n c l u d e s t w o s e c t io n s o f t h e o ry s u r v e y a n d a p p l i c a t io n s t u d y m a i n l y . t h e o r y s u r v e y p a rt i n t r o d u c e s s o m e c o n c e p t s r e l a t i v e t o i t e m b i a s a n d d i ff e r e n t i a l i t e m f u n c t io n i n g , a s w e ll a s t h e r e c e n t d e v e l o p m e n t a n d s o m e o r d i n a r y m e t h o d s , e s p e c i a ll y p a r a m e t r i c i r t a p p r o a c h e s u s e d t o e x p lo r e d i e b a s e d o n t h e r e s p o n s e t h e 2 1 o p t i o n a l it e m o f t h e l a w s p e r t a i n i n g t o t h e e c o n o m y如t h d ic h o t o m o u s l y a n d p o l y t o m o u s l y s c o r e d i t e m s ) i n 2 0 0 4 i n t e r m e d i a t e e c o n o m i c t e s t t h r o u g h o u t c o u n t ry , a p a r a m e t r i c p r o c e d u r e s u s i n g t h e g r a d e d r e s p o n s e m o d e l ( g r m , s a m e j i m a , 1 9 6 9 ) a n d m u l t i l a g ( t h i s s e n , 1 9 9 1 ) w a s u s e d t o d e t e c t g e n d e r - r e l a t e d d i e n a t i o n - r e l a t e d d i ed i s t r i c t - r e l a t e d d i p a n d w o r k c l a s s i fi c a t io n - r e l a t e d d i e t h e p a r a m e t r i c p r o c e d u r e s r e s e a r c h f o u n d : 4 i t e m s s h o w e d n a t i o n - r e l a t e d d i f ; 1 i t e m s h o w e d g e n d e r - r e l a t e d d i f ; a n d o n l y 1 i t e m s h o w e d w o r k c l a s s ifi c a t io n - r e l a t e d d i e n a t io n - r e l a t e d d i p ( i t e m 6 8 ) i s a u n i f o r m d i p a n d i t e m 6 4 a p p e a r s b o t h n a t i o n - r e l a t e d d i p a n d w o r k c l a s s i fi c a t io n - r e l a t e d d i p . a c c o r d i n g t o t h e r e s u l t s o f a n a l y s i s a m o n g i t e m s t a t i s t i c s , c h a r a c t e r is t ic c u r v e s a n d d e c i s i o n s o f s p e c ia l i s t s , r e s u l t s s h o w t h a t t h e m a i n c a u s e o f d i p a r e a s f o ll o w s : t h e e c o n o m i c d e v e lo p m e n t b e t w e e n d i s t r i c t s , t h e w o r k i n g e x p e r i e n c e s , p s y c h o lo g ic a l t r a i t s b e t w e e n d i ff e r e n t g ro u p s , t h e i n t e r e s t o r f a m i l i a r i t y t o t h e c o n t e n t , e t c . a m o n g t h e d i e s o m e a r e t h e b e n i g n . k e y w o r d s : d iff e r e n t i a l i t e m f u n c t i o n i n g , t h e g r a d e d r e s p o n s e mo d e l , i t e m b i a s , i t e m c h a r a c t e r i s t i c c u r v e 多 等级试题项目功能差异 ( d i f )参数方法的检测研究 前言 测 验 偏 差 ( b i a s ) 现 象 最早 引 起 人 们 注意 是在加世 纪 初。 人 们 在 使 用智 力 测 验 时,发现本民 族语言不是英语的儿童,因为语言的障碍而影响其智力分数。 进 而随着团体测验的发展和军队甲 种测验在第一次世界大战中的大规模使用, 测 验偏差的问 题越来越受到人们的广泛关注。 之后随着跨文化测验的 发展,测验 专家们在对测验分数的影响方面进行了 许多的 研究, 试图 编制更公平、公正的 测验。 “ 偏差” 这概念首次在 6 0年代应用于心理测量中,用于描述少数民族学 生在测验上得低分的原因。 那么什么是 “ 测验偏差”呢?一般认为, 有偏差的 测验对于和大多数参试者有差别的那些群体或个体来说是有偏见的或不公平的 1 根据许多人的研究发现,测量偏差是一个非常复杂的问 题。 表现的形式和 产生的原因,或研究的角度不同都会有不同的定义。从项目 反应理论看来,项 目的测验偏差可定义为:如果某个项目 在不同子群体中的项目 特征曲线不相同, 则项目 存在测量偏差。项目 反应理论中的项目 特征曲线是由项目 参数唯一确定 的12 1 ,因此项目 偏差也就是项目 参数有差异。由于 “ 偏差”一词有统计学和社 会学两方面的含义,它不只显示了测验分数与真分数的差异,还带有判断和评 价的含义,因此,人们想单纯通过统计的方法来侦查偏差,实际上并不可能. 在研究与实际工作中,对偏差的侦查,首先是通过统计的方法计算出两组被试 在某一项目上的表现是否存在差异,然后由专家来分析该项目是否真的对某一 组被试不公平。如何才能将统计过程与整个偏差侦查的过程区分开呢? a n g o ff ( 1 9 7 2 ) 提出, 有些项目 虽然使不同群体 成员的 表现不同,但它们针对的是教 育结果, 所以 不能算是“ 偏差” , 这就将偏差与组间 差异区分开了131 。因 此, 在 8 0 年代末, 有人提出 用“ 项目 功能差异 ( d i ff e r e n t i a l i t e m f u n c t i o n , 简称为d i f ) 这一术语来代替测验偏差。强调 d i f主要是从统计学的角度来检查和表示答题 正确率的差异。因此, 可以 将 “ 项目 功能差异”定义为: 对于某个特定的 项目, 如果来自同一目 标特质的两批平行被试组中显示出不同的统计特性,那么该项 目 就存在功能差异。 这里讲的“ 同 一目 标特质的两批平行被试组” 是指在测验 打算测查的能力上, 两组被试具有相同的 水平。 这样在概念上把 d i f和测验偏 差区分后, 可以 认为项目 功能差异是项目 偏差的必要而非充分条件。 在 i r t模 型下,我们可以计算采用两组被试数据统计结果的项目 参数差异性来计算d i f . i r t的方法都是用潜在能力作为匹配变量, 对d i f 的定义是: 如果参照组和目 标 组之间的项目 参数或项目 特征曲线存在差异, 则该项目 存在d i f , 如果不存在差 多等级试题项目 功能差异 ( d i f ) 参数方法的检测研究 异,则该项目 不存在d i f 。如今,人们已经逐渐了解到对d i f 的研究的重要性, 开始采用许多的统计方法对测验进行检测, 尤其在国 外, 有关 d i f的 研究在许 多国家得到了很大的发展,特别是在美国,不仅理论研究上发展很快,而且应 用上也非常广泛。 他们对 d i f的 研究主要是:( 1 ) 检测方法的开发。 现在已 经 开发出 适用于大量不同背景的方法。( 2 ) 检测方法的比 较。 探讨各种方法的效 果和优缺点,帮助使用者选择合适的方法。( 3 )对各种测验的项目 进行分析, 确定有 d i f的 项目 , 分析其存在的原因,形成最大 可能的规律性的假设,并加 以 论证14 . 而我国 对d i f的 研究 起步很晚,研究人员的 数量不多和研究的 程度 不深,主要限于对二级记分题的有关研究,并且以往的研究也大多数集中在经 典测量领域, 即用经典理论的方法进行探测( 如: m h . s t n d . p - m r , s i b t e s t 等) 。对于多级记分题的研究、采用项目反应理论的参数方法以及经典测量和项 目 反应理论间检测性的对比,都是值得研究者探讨的问题。所谓参数的方法就 是在一个特定的项目 反应理论模型下, 对所估项目 参数进行比 较从而实现对d i f 的 研究15 1 。 在 本 研究中 , 我 们采 用 基于 项目 反 应 理论 s a m e j i m a 等级 反 应模 型 ( g r m) 的参数方法, 对2 0 0 4 年度全国经济专业技术资格考试的经济基础中级 试卷作d i f 分析, 其中既包括了 对二级记分题也包含了对多级记分题的d i f 检测 分析。 多等级试题项目 功能差异 ( d i f ) 参数方法的检测研究 第一部分 项目功能差异( d i f ) 研究综述 1 ,项目 功能差异的概念 一般来说,只要两个具有相同潜在能力水平的群体在项目 上有不同的表现, 就称出 现了d i f 。 其中的优势群体组习 惯地被称为参照组, 而非优势群体组称为 目 标组。检测d i f 首先作假设,包括零假设和备择假设: h o : 对照组与目 标组项目 功能相等 ( 无d i f ) h 1 :对照组与目 标组项目 功能不相等 ( 有d i f ) 不同的记分题d i f 分析方法使用不同的d i f 操作性定义。其中一个定义是, 在相同能力的前提下,不同被试组只要在项目 任一分数等级上的得分概率不一 样就说明存在d i f 。 这个定义成为似然比( l r ) 检测方法等d i f 检测程序的基础口 第二个定义是, 在控制能力条件下 ( 能力相等) ,不同被试组的项目 期望得分不 相等,则存在d i f i6 l 。 稍后介绍的 d f i t 和s i b t e s t 方法就是基于这一定义的. 2 、 项目功能差异研究中的几个墓本概念 1 ) 参照组和目 标组 d i f 方法一般是对两组被试进行d i f 分析, 对两种性别、 种族以 及其他特征 的被试进行分析,看具有相同能力的两组被试对某个项目的答对率是否相同。 我们一般把可能在项目 上表现不利的 那组被试当作目 标组 ( 如女生和黑人) ,即 是研究目 标组成的 群体;把作为对照的那组被试称为参照组 ( 如男生和白人) 。 ( 2 )匹配变量 衡量两组被试能力的变量就称为匹配变量。匹配变量既可以是实际得分, 如测验的总分;也可以是潜在能力,如:用i r t 模型估出的被试能力。 ( 3 )一致性d i f 和非一致性d i f m u ll e n b e r g ( 1 9 9 3 ) 对一 致 性d i f 和非 一 致 性d i f 做了 定 义 上的 区 分. 一 致 性 d i f是指被试的能力水平与其组别之间 不存在交互作用,即在所有的能力水 平上,一组被试回 答某一项目 的正确率都大于另一组。当 被试的能力水平与其 组别之间 存在交互作用时, 则表现为非一致性d i f 1 1 . 例如检查男、 女生在某测 验项目 上有无项目 功能差异,如果并非在所有能力水平上,男生回答该项目的 多等级试题项目 功能差异 ( d i f ) 参数方法的检测研究 第一部分 项目功能差异( d i f ) 研究综述 1 ,项目 功能差异的概念 一般来说,只要两个具有相同潜在能力水平的群体在项目 上有不同的表现, 就称出 现了d i f 。 其中的优势群体组习 惯地被称为参照组, 而非优势群体组称为 目 标组。检测d i f 首先作假设,包括零假设和备择假设: h o : 对照组与目 标组项目 功能相等 ( 无d i f ) h 1 :对照组与目 标组项目 功能不相等 ( 有d i f ) 不同的记分题d i f 分析方法使用不同的d i f 操作性定义。其中一个定义是, 在相同能力的前提下,不同被试组只要在项目 任一分数等级上的得分概率不一 样就说明存在d i f 。 这个定义成为似然比( l r ) 检测方法等d i f 检测程序的基础口 第二个定义是, 在控制能力条件下 ( 能力相等) ,不同被试组的项目 期望得分不 相等,则存在d i f i6 l 。 稍后介绍的 d f i t 和s i b t e s t 方法就是基于这一定义的. 2 、 项目功能差异研究中的几个墓本概念 1 ) 参照组和目 标组 d i f 方法一般是对两组被试进行d i f 分析, 对两种性别、 种族以 及其他特征 的被试进行分析,看具有相同能力的两组被试对某个项目的答对率是否相同。 我们一般把可能在项目 上表现不利的 那组被试当作目 标组 ( 如女生和黑人) ,即 是研究目 标组成的 群体;把作为对照的那组被试称为参照组 ( 如男生和白人) 。 ( 2 )匹配变量 衡量两组被试能力的变量就称为匹配变量。匹配变量既可以是实际得分, 如测验的总分;也可以是潜在能力,如:用i r t 模型估出的被试能力。 ( 3 )一致性d i f 和非一致性d i f m u ll e n b e r g ( 1 9 9 3 ) 对一 致 性d i f 和非 一 致 性d i f 做了 定 义 上的 区 分. 一 致 性 d i f是指被试的能力水平与其组别之间 不存在交互作用,即在所有的能力水 平上,一组被试回 答某一项目 的正确率都大于另一组。当 被试的能力水平与其 组别之间 存在交互作用时, 则表现为非一致性d i f 1 1 . 例如检查男、 女生在某测 验项目 上有无项目 功能差异,如果并非在所有能力水平上,男生回答该项目的 多等级试题项目 功能差异 ( d i f )参数方法的检侧研究 正确率都大于女生,而是在高能力水平段的学生中,男生回答该项目 的正确率 高于女生,而在低能力水平段的学生中,男生的正确率低于女生, 这就称该项 目 存在非一致性d i f . 使用项目 反应理论研究d i f 时, d i f 的 一致性表现为目 标组和对照组在某项 目 上参数中的区分度 ( a ) 相同, 而各组的难度 ( b ) 不同; 如果某项目 在目 标组 和对照组估出的区分度和难度都有不同的项目 参数值,在 d i f分析中就称为非 一致性d i f . 这些信息也可以 从项目 特征曲 线看出: 因能力与群体关系之间 产生 交互作用的两条“ 非一致性d i f ”曲 线出 现了 相交现象。 从曲 线的走向 来看, 被 检测出有d i f 项目 的曲 线整体趋势有利于其中一方。 ( 4 ) i 型错误 在项目 功能差异研究中,i 型错误指把一些不存在 d i f的项目 检测为存在 d i f 的错误。 如果d i f 的检测方法犯i 型错误的概率较高, 就会把某些高质量的 没有d i f 的项目 误判为存在d i f , 对d i f 真正原因的检测带来很大的影响。 因此, 项目 功能差异检测应该选择检验力高,犯i 型错误比率小的统计方法。 ( 5 )样本容量 以往的研究表明:样本的容量是影响d i f 方法检验力的一个最大因素之一。 样本容量越大,检验力越高。如果样本容量太小,则无法检验出有d i f 的 项目。 尤其采用工 r t 的方法时, 所需的样本量很大,一般要1 0 0 0 人以 上。 3 、 项目功能差异的几种检洲方法 根据匹配变量是测验总分还是被试潜在特质或真实能力, 可把检测 d i f的 方法分为两类:以 观察分数作为匹配变量的方法和以 潜在特质作为匹配变量的 方法 p o t e n z a 如果某项目 在目 标组 和对照组估出的区分度和难度都有不同的项目 参数值,在 d i f分析中就称为非 一致性d i f . 这些信息也可以 从项目 特征曲 线看出: 因能力与群体关系之间 产生 交互作用的两条“ 非一致性d i f ”曲 线出 现了 相交现象。 从曲 线的走向 来看, 被 检测出有d i f 项目 的曲 线整体趋势有利于其中一方。 ( 4 ) i 型错误 在项目 功能差异研究中,i 型错误指把一些不存在 d i f的项目 检测为存在 d i f 的错误。 如果d i f 的检测方法犯i 型错误的概率较高, 就会把某些高质量的 没有d i f 的项目 误判为存在d i f , 对d i f 真正原因的检测带来很大的影响。 因此, 项目 功能差异检测应该选择检验力高,犯i 型错误比率小的统计方法。 ( 5 )样本容量 以往的研究表明:样本的容量是影响d i f 方法检验力的一个最大因素之一。 样本容量越大,检验力越高。如果样本容量太小,则无法检验出有d i f 的 项目。 尤其采用工 r t 的方法时, 所需的样本量很大,一般要1 0 0 0 人以 上。 3 、 项目功能差异的几种检洲方法 根据匹配变量是测验总分还是被试潜在特质或真实能力, 可把检测 d i f的 方法分为两类:以 观察分数作为匹配变量的方法和以 潜在特质作为匹配变量的 方法 p o t e n z a d o n o g h u e ,p - s t n d方法是它的 拓展, 用于 多级题。 用于 两级记分项目 与多 级记分项目 的主要差异就是项目 分数不同11 0 1 计 算统 计量s t n d e s -d ; 的 前提条件 是: 匹 配变量x有m个 水 平, m = l , - - - , m ; 项目 得分五有k 个水平或类别,k = 1 , - - - , k ; 将被试分成两个被试组:参照 组 ( r )和目 标组 ( f ) o p - s t n d 方法计算s t n d 。 一 , , 第一步就是计算目 标组与参照组中总分为。 的被 试在某个项目 上的平均得分: e f . 徉i x ) e, 仪i x ) n f. y . i n f. 万 n . y n . 其中: n f - k 是目 标组中总分为m 、 项目 得分为y k 的被试数目 n 、是目 标组中总分为m水平的 被试数目 n r . k 是参照组中总分为m 、 项目 得分为y k 的被试数目 n p-是参照组中总分为m水平的 被试数目 项目 得分变量y k 能以 顺序变量的形式出 现, 包括1 , 2 ,3 , , k o 接下来,计算每个匹配变量水平上两组被试的 项目 平均得分之差: d . 一 e , 州 x ) - e f ( 1 jx ) ( 3 ) 然后用目 标组的 相对频数进行加权 ( d o r a n s z w i c k e t a 1 , 1 9 9 3 b ) . 3 . 1 .3 g - n h 方法 ( g e n e r a l i z e d n h ) g - m h方法即 拓广的m e方法( g m h ) , 是适用于两级记分的m h方法的另 一种改写形式 ( m a n t e l 可用于检测多级记分项目 的d i f . p - m e方法的 检验统计量是项目 平均得分的 线性合成的 加权单变量, 而 g m h 检 验 统 计 量 的 分 布 是自 由 度 为k1的 多 元正 态分 布( 2 w ic k e t a l ., 1 9 9 3 b ) 。 g m h检验统计量对目 标组与参照组之间的反应模式的差异十分敏感, 而 p - m h 方法对两组之间平均数的差异反应灵敏。 3 . 1 .4 h w 1 和 h w 3 方法 另外一对检验统计量 h w1和 h w3也被引入用来检测多级记分题 d i f ( w e lc h z w i c k e t a 1 , 1 9 9 3 b ) . 3 . 1 .3 g - n h 方法 ( g e n e r a l i z e d n h ) g - m h方法即 拓广的m e方法( g m h ) , 是适用于两级记分的m h方法的另 一种改写形式 ( m a n t e l 可用于检测多级记分项目 的d i f . p - m e方法的 检验统计量是项目 平均得分的 线性合成的 加权单变量, 而 g m h 检 验 统 计 量 的 分 布 是自 由 度 为k1的 多 元正 态分 布( 2 w ic k e t a l ., 1 9 9 3 b ) 。 g m h检验统计量对目 标组与参照组之间的反应模式的差异十分敏感, 而 p - m h 方法对两组之间平均数的差异反应灵敏。 3 . 1 .4 h w 1 和 h w 3 方法 另外一对检验统计量 h w1和 h w3也被引入用来检测多级记分题 d i f ( w e lc h z为被试测验总分,被试在 被试分类变量v中被区分为各个子群体。然后按照等级顺序在完全的逻辑斯蒂 克 回 归 模 型 中 , 求 出 被 试正 确 作 答 该 测 验 项目 的 概 率。 通 过 一 个x 2x检 验 来 区 分 一致性和非一致性d i f的形式。 3 . 3 以潜变且为匹配变且的非参数方法 以潜变量为匹配变量的非参数方法目 前用的最多的是p - s i b t e s t方法。 它 是由h u a - h u a c h a n g和j o h n m 于1 9 9 6年 在二 级记 分 题d i f检 测的 s i b t e s t方法基础上改进的。 改进的s i b t e s t方法把二级记分题d i f 的检测作 为一种特殊的情况。 他可以同时检测两种题型的 测验。 改进的 一个地方是用心 了 取代了s i b t e s t中的n , 这样匹配分数就有n h十 1 个。 第二个地方用c r o n b a c h 的a 系 数( l o r d 瓜 , 瓜 分 别 是 多等级试题项目 功能差异 ( d i f )参数方法的检测研究 in( p-)1 - p” 。 # ,z ny 16 3z v ( 7 ) 这已 将 l o g is t ic回 归 模型 转 化 成了 线 性回 归 模 型, 因 变量 就 是 我 们 通常 所 说的l o g i t e z和 v都是 观察 变量。 z v项仅 是一 个记号, 表示两 观察变量的 组合水平。虽非直接观察变量但也可由 z与 v的观察而推定。用极大似然法 或 最 小 二 乘 法 等 其 他 方 法 估出 回 归 参数# a fi i 16 2 和t 3 。 对 于 这 些 估 计 的 回 归参数可以 用假设检验方法检验它们的显著性, 检验的不同结果, 对 d i f的 检 测 有 不 同 的 含 义。 如 果 方 程中 只 有)9 o 几 不 为 零, 则 表 示 该 项目 无d i f , 如 果 方 程中户 。 、 ,6 1 - 刀 2 均 不 为 零, 表 示 该 项目 有 一 致 性d i f . 如 果2 v 项 参 数声 3 也 不 为 零, 则 表示 项目 存 在 非 一 致性d i f。 l o g is t ic 回 归 模型 法 检 测 项目d i f 可 进一步区分d i f 是否一致性h 2 3 . 2 . 2 p - l r d i f 方法 p - l r d i f 方法是逻辑斯蒂克回归方法的拓展, 适用于多级记分的d i f 检测. 一般用于连续和分类变量。 令 y为项目 分数变量;z为被试测验总分,被试在 被试分类变量v中被区分为各个子群体。然后按照等级顺序在完全的逻辑斯蒂 克 回 归 模 型 中 , 求 出 被 试正 确 作 答 该 测 验 项目 的 概 率。 通 过 一 个x 2x检 验 来 区 分 一致性和非一致性d i f的形式。 3 . 3 以潜变且为匹配变且的非参数方法 以潜变量为匹配变量的非参数方法目 前用的最多的是p - s i b t e s t方法。 它 是由h u a - h u a c h a n g和j o h n m 于1 9 9 6年 在二 级记 分 题d i f检 测的 s i b t e s t方法基础上改进的。 改进的s i b t e s t方法把二级记分题d i f 的检测作 为一种特殊的情况。 他可以同时检测两种题型的 测验。 改进的 一个地方是用心 了 取代了s i b t e s t中的n , 这样匹配分数就有n h十 1 个。 第二个地方用c r o n b a c h 的a 系 数( l o r d 瓜 , 瓜 分 别 是 多等级试题项目 功能差异 ( d i f ) 参数方法的检侧研究 第k能力水平组中参照组和目 标组被试在该题上的平均得分。 检验统计量为:b a ( 6 ) ( 9 ) 其中: i r i _ l i n 2 i a 2 k , r , 、 夕 j,纽 ,r 七、, l m n a t + a 2 k ,f )1 1/2 n a 式 中 , a 2 ( i i k , g ) 是 匹 配 测 验 分 数为k 的9 组( 9 一 r 或f ) 被 试, 在 所 研 究 的 项目 上 得 分 的 方 差 。 当 项目 无d i f 时b 近 似 于n ( 0 , 1 ) 的 正 态 分 布( h u a - h u a c h a n g c la u s e r r e i s e e t a 7 . , 1 9 9 3 ) 。 在该模型中, 项目i 的 答案有m+ 1 个等级, 得分x i = 几 1 . . . . . . m i , 特质 为0 的被试选择项目i 的第u 等级答案的概率为: p ,s ( 0 ) 一 p *, ( b ) 一 p , , ( 8 ) ( 1 0 ) 其 中 ; 尺( 0 ) 是 能 力 为 0 的 被 试 在 第i 项目 上 得 分 在 “ 或 “ 之 上 的 概 率 , 称 这 组 概 率 函 数 曲 线 为 类 型 特 征 曲 线( c a t e g o ry c h a r a c t e r is t ic ) 简 称 为c m p , ( b ) 表 示能 力 为。 的 被 试在 在 第i 项目 上 得 分 恰 为“ 的 概率, 这 组 新的 概 率曲 线 组 被 称 为 运 算 特征曲 线( o p e r a t i n g c h a r a c t e r is t ic c u r v e s ) 简 称 为o c c s . 它 们 是 含 项目 区分度e 参 数和难度b 参 数的 双参数l o g is t i c 方程。 该方程可记为: p , ( e ) - e x p z ,t ( b ) e x p z , . . 1 + ( 9 ) ( 1 1 ) 其 中 z ., (0 ) - a , ( 9 - 气 ) , a 是 项目 i 特 征 曲 线 p (e ) 的 斜 率( 区 分 度 ) , 它 是 项目 与 特 质 e 间 的 关 联 程 度 的 指 标 , a , 值 越 大 则 p 。 ( 0 ) 曲 线 起 伏 越 大 , 表 示 项 目 与 特 质 的 关 系 越 密 切 。 气 称 为 项 目i 的 阐 值( 难 度 ) 阐 值 的 大 小 , 决 定 曲 线 的位置,数值越小,曲线越偏近左方。两个相邻的类型特征曲线概率之差 p (0 ) 一 1 1 ( o ) 为 特 质 b 的 被 试 选 择 项 目i 的 第 u ; 个 等 级 答 案 的 概 率 在 项目 i 中 , 我 们 令 所 有 得 分 在u ; 或 u : 以 上 的 被 试为 “ 通 过” 或 得 1 ” 分 , 得 分 小 于u i 的 被 试 为“ 不 通 过 ” 或“ 0 分 。 并 且 , 耳( 0 ) - 1 , 戒, , ( 0 ) _ 0 在 每 个 项目 中 多 等级试题项目 功能差异 ( d i f ) 参数方法的 检测研究 种种假设,并对最可能的原因进行验证分析。 对 d i f原因进行分析时,主要是 评估造成项目 产生 d i f的第二维度,并把具有相同第二维度的项目 找出来,组 成项目 束进行项目 束功能差异分析。 如果d b f 明显地增大了, 则说明 假设的 第 二维度确实是存在, 并且造成了 项目 功能差异。如英语测验中的五道单项读音题 都显现出有利于女生,可假设这些项目 至少包括二个维度,测验所测的英语综 合能力和导致项目d i f 的读音能力, 于是把这五个读音题组成项目 束进行分析, 发现d b f 有了明 显的 增大,上述假设就得到了 验证【 1 4 3 . 4 以潜变f为匹配变f的今致方法 以 潜变量 为匹 配 变量的 参数方法, 这里 只介绍 基于s a m e j i m a 等 级反 应模型 ( g r m)下的几种方法。 3 . 4 . i s a m e j i m a 等级反应模型 ( g r y ) 项目 反 应 理 论 实 际 上 包 含了 一 族 模型,以 适 应0 - 1 型、 等 级 型 ( l ik e r t y p e ) 等 各种 数据。 s a m e j i m a的 等级反 应模型 使 用于 等级型 数据。 在对于 多 级数据的 研究中,该模型一直得到广泛的使用 ( 见 a n k e n m a n n e t a l ., 1 9 9 9 ; r e i s e e t a 7 . , 1 9 9 3 ) 。 在该模型中, 项目i 的 答案有m+ 1 个等级, 得分x i = 几 1 . . . . . . m i , 特质 为0 的被试选择项目i 的第u 等级答案的概率为: p ,s ( 0 ) 一 p *, ( b ) 一 p , , ( 8 ) ( 1 0 ) 其 中 ; 尺( 0 ) 是 能 力 为 0 的 被 试 在 第i 项目 上 得 分 在 “ 或 “ 之 上 的 概 率 , 称 这 组 概 率 函 数 曲 线 为 类 型 特 征 曲 线( c a t e g o ry c h a r a c t e r is t ic ) 简 称 为c m p , ( b ) 表 示能 力 为。 的 被 试在 在 第i 项目 上 得 分 恰 为“ 的 概率, 这 组 新的 概 率曲 线 组 被 称 为 运 算 特征曲 线( o p e r a t i n g c h a r a c t e r is t ic c u r v e s ) 简 称 为o c c s . 它 们 是 含 项目 区分度e 参 数和难度b 参 数的 双参数l o g is t i c 方程。 该方程可记为: p , ( e ) - e x p z ,t ( b ) e x p z , . . 1 + ( 9 ) ( 1 1 ) 其 中 z ., (0 ) - a , ( 9 - 气 ) , a 是 项目 i 特 征 曲 线 p (e ) 的 斜 率( 区 分 度 ) , 它 是 项目 与 特 质 e 间 的 关 联 程 度 的 指 标 , a , 值 越 大 则 p 。 ( 0 ) 曲 线 起 伏 越 大 , 表 示 项 目 与 特 质 的 关 系 越 密 切 。 气 称 为 项 目i 的 阐 值( 难 度 ) 阐 值 的 大 小 , 决 定 曲 线 的位置,数值越小,曲线越偏近左方。两个相邻的类型特征曲线概率之差 p (0 ) 一 1 1 ( o ) 为 特 质 b 的 被 试 选 择 项 目i 的 第 u ; 个 等 级 答 案 的 概 率 在 项目 i 中 , 我 们 令 所 有 得 分 在u ; 或 u : 以 上 的 被 试为 “ 通 过” 或 得 1 ” 分 , 得 分 小 于u i 的 被 试 为“ 不 通 过 ” 或“ 0 分 。 并 且 , 耳( 0 ) - 1 , 戒, , ( 0 ) _ 0 在 每 个 项目 中 多等级试题项目 功能差异 ( d i f )参数方法的 检测研究 只有一个区分度值,也就是说每个等级上的区分度都是相同的。 但每个项目 各 个等级上的 难度是严格单调递增的,即有: 一 0 0 b o b l ” , 气气. 十 , 一 + 对于等级反应模型下项目 参数估计的方法,现在推崇的方法是求边际似然 函数方程的em解。软件 m u l t i l o g和 1 9 9 3年莫雷卡和伯克编写的软件 p a r s c a l e 都 可以 用来估计等级反 应模型参数i l l 3 . 4 . 2 wi t 方法 采用d f i t法来检测多级项目 功能差异的方法是: 估计目 标组和参照组在各 个 项目 上能 力 期望 值 之间 的 差 异 性。 特 质 水 平为8 , 的 被 试s , 其期 望 值 可 通 过以 下的计算公式来计算: e s s,a 一 乏 k l k (6 , ) ( 1 2 ) 其 中 今( b , ) 表 示 总 被 试9 组( = r 或f ) 中 被 试s 在 第k 个 等 级 上 的 得 分 概 率 。 对于每个被试,我们一般计算 d , e s , ,. 一 e s , r ( 1 3 ) 从 理 论上 来 说, 对于 任 何。 , 当 e s r ( b ) , e s a o ) 时, 说明 存 在d i f . f lo w e r s .e t a l .( 1 9 9 9 ) 提 议 采 用非 补 偿d i f ( n c d i f ) 指 数来 检 测d i f 。 检 测公 式如下: n c d i f一 。 j + 14 了( 1 4 ) 其中 ,u a 和弓代 表 所 有 被 试d , 的 均 值 和 方 差。 n c d i f 指数 近 似于x 2 分 布. f lo w e r s e t a l 于1 9 9 9 年用m o n t e c a r lo 模拟 数 据对该指数进行了 验证。 统计分析的原假设是不存在d i f . 然而, 采用模拟数据 进行研究, 如果等级中不存在d i f , 大多数情况下常常会拒绝原假设( i s 。 因 此, f lo w e r s e t a l 建议采用验证临界值的方法来解决该问题。 方法是对无d i f 的等级 由 模拟数据来决定该临界值,同时在显著性a 水平下, 根据n c d i f 结果估计百 分 位 指 数 的 分 布 状 况【16 1 3 . 4 . 3 似然比 检验法 ( l r t e s t ) 根据项目 反应理论,一个项目 的 特征曲 线 o c c ) 不应受样本的 影响,即 在 不同 样本上 估计的 项目 参数值应该是一致的。如果不一致则要考虑d i f是否存 在1 7 1采 用 等 级 反 应 模 型 ,似 然 比法 l r t e s t ( g r m - l r t e s t ; k i m t h i s s e n e t a 1 . 1 9 8 6 ) 就 是检 测两组等 级 项目 参 数是否 有差 异 来侦探d i f i s 。 通常选取一组项目 , 其中 若干无d i f 的 项目 作为 对照项目 ,一 多等级试题项目 功能差异 ( d i f )参数方法的检测研究 个项目 作为研究项目 ( 该项目 需确定是否存在 d i f ) 。对于每个研究项目 ,都要 比 较 两个 模型的 相 对适 合度, 即 : 紧 缩模型 ( c o m p a c t 模型) 和扩展 模型( a u g m e n t e d 模型) 间统 计量的 拟合度 ( m c c l e ll a n d , 1 9 8 9 ) 。 在a u g m e n t e d 模型中 , 确立一 个 被研究的项目 , 把其他项目 暂时当作无d i f 的项目,组成 “ 铆题” , 然后进行极 大似然参数估计,求出项目 参数和似然函数值。然后对研究项目的参数进行限 制, 即 , 设 定该 项目 的 两 组 参 数 值 相等, 这 就 是c o m p a c t 模型 的 等 值阶 段. 对该 模 型 在 进行 极 大 似 然 估计, 求出 似 然函 数 值。 a u g m e n t e d 模 型 包 括c o m p a c t 模型 所有的 参数. 对于c o m p a c t 模型, 所 有测验项目 的 等 级参数( 包括 研究 项目 ) 在 目 标组 和参照组中 都 要进 行等 值; 对于a u g m e n t e d 模 型, 只能 允许 研究 项目 的 参 数在各组上有差异。根据项目 参数反应模型,算出该组项目 每种反应类型的概 率, 所有反应类型的概率之积就是似然函数l 。 然后计算两个模型下对数似然函 数一 2 倍和的差值: g 2 - - 2 lo g - li k e l ih o o d f u n c t io n l fr o m t h e c o m p a c t m o d e l 一 l o g - l i k e li h o o d f u n c t i o n l fr o m t h e a u g m e n t e d m o d e l 其中g 2 服从自 由 度为1 的x 2 分 布, 然后 进行是 否有d i f 的 假设检验。 如果 g 2 值在a 水 平上 超出 了 x2 临 界 值, 即 拒绝 不 存 在d i f 的 原 假 设11 9 1 e 这个方法主要通过m u l t i l o g程序120 1 来实现的。 该程序的 优点是能够同时 完成项目 参数估计和似然函数计算,以及参照组的能力分布估计。 4 、探测等级反应模型下项目功能差异的方法和步蕊简介 在项目 反应理论框架下探测等级模型试题是否存在 d i f的主要计算工具是 t h i s s e n 的m u l t l o g ( 7 .0 3 ) 。 检验项目 是否有d i f 的统计原理是比 较似然比的 大小。 4 . 1测脸的单维性检验与侧度的不变性 利用单维项目 反应理论模型分析测量数据的前提是所测特质必须是单维 的,这样才能满足 i r t模型的局部独立的假设。 项目 反应理论的局部独立性的 假设是指同一特质水平的被试对不同测验的反应在统计上是独立的;也就是说 被试对一个测验项目 的反应不受他们对其他测验项目 反应的情况的影响.测度 的 不 变性( m e a s u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论