




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 大型考试通常要将参加不同测验形式的考生能力参数进行等值转换,以在同 一个量尺上比较不同测量的结果。通过设置共同铆题进行等值是一种常用的方 法,这种方法不仅要求铆题具有内容形式上的代表性,也要求铆题在两份试卷上 功能稳定一致。由于受到某些与测量目标无关的因素影响,项目参数在不同施测 时间会发生改变,g o l d s t e i n ( 1 9 8 3 ) 称这种现象为项目参数漂移( i t e mp a r a m e t e r d r i r ,i p d ) 。 本质上,项目参数漂移与项目功能差异( d i f ) 探讨的都是测量不变性问题, 但与d i f 研究相比,对项目参数漂移的研究不多,且已有研究关注的多是难度参 数下降的情况。目前尚未有研究涉及铆题难度和区分度同时漂移时对等值的影 响。本文研究一通过模拟作答数据,在2 种等值设计、4 种参数铆题漂移所占比 例和8 种铆题参数漂移模式下,比较平均数力际准差法( m s ) 、特征曲线法( t c ) 和同时校准( c c ) 三种方法的表现,研究发现: ( 1 ) 随发生参数漂移铆题数量的增加,三种等值方法的等值偏差基本上都 呈增加趋势,但各种方法的敏感性有所不同,且会受到两组被试能力差异的影响。 ( 2 ) 在各种参数漂移模式之中,区分度参数正向漂移( a + ) 导致的等值偏 差最小。与难度参数漂移方向相同( a + b + ,a - b ) 相比,区分度和难度参数漂移 方向不同( a + b ,a - b + ) 导致的等值偏差要更大。 ( 3 ) 三种等值方法在不同的参数漂移模式下表现不同,没有一种等值方法 具有绝对优势。但删除参数漂移铆题后,绝大多数情况下,三种方法的等值偏差 都会减小。 ( 4 ) 在无铆题发生参数漂移时,在等组设计下,t c c 的等值偏差小于m s , 但在不等组设计下则相反;在两种等值设计下,c c 的等值偏差都小于m s 和 t c c 。 本文研究二采用m h 检验和l o g i s t i c 回归检验了我国一大型考试的铆题质量, 结果发现,有2 2 个铆题存在参数漂移问题,导致了较多铆题在2 0 0 7 年的数据中 无法通过模型拟合检验:采用平均数标准差法进行等值计算,发现在删除参数 漂移铆题前后,计算结果变化较大。很明显,不删除铆题参数漂移问题将导致较 大的等值误差,应将铆题参数漂移检查作为等值中的一项常规工作。 文章最后探讨了本文模拟研究中的一些局限,对项目参数漂移的未来研究给 出了参考建议。 关键词:项目参数漂移;等值;项目功能差异:特征曲线法;平均数标准差法; 同时校准 a b s t r a c t i n l a r g e - s c a l ee x a m i n a t i o n ,u s u a l l y t h e a b i l i t yp a r a m e t e ro fp o p u l a t i o n p a r t i c i p a t i n gi nd i f f e r e n tt e s tf o r m sw i l lb ee q u a t e df o rc o m p a r i n gt h e i rm e a s u r m e n t r e s u l t so nt h es a m es c a l e e m b e d d i n ga n c h o r si nt e s ti sf r e q u e n t l yu s e di ne q u a t i n g , w h i c hr e q u i r e sn o to n l yt h ea n c h o r s r e p r e s e n t a t i o ni nc o n t e n tb u ta l s oe q u i v a l e n t f u n c t i o ni nd i f f e r e n tt e s tf o r m s 缸ar e s u l to fa f f e c t i n gb yc e r t a i nf a c t o r su n r e l a t e dt o t h em e a s u r e m e n to b j e c t i v e , i t e mp a r a m e t e rw i l lc h a n g ei nd i f f e r e n ta d m i n i s t r a t i o n g o l d s t e i n ( 19 8 3 ) c a l l e dt h i sp h e n o m e n o ni t e mp a r a m e t e rd r i f t ( i p d ) i ne s s e n c e ,b o t hi t e mp a r a m e t e rd r i f ta n dd i f f e r e n t i a li t e mf u n c t i o n i n g ( d i f ) a r ec o n c e r n i n gt h ei s s u eo fm e a s u r e m e n ti n v a r i a n c e c o m p a r e dw i t ht h er e s e a r c ho n d i f , t h e r ea r ef e wr e s e a r c ho ni t e mp a r a m e t e rd r i f ta n dm o s to fr e s e a r c hh a sb e e n m o s t l yc o n c e r n e da b o u tt h ed e c l i n ei nt h ed i f f i c u l t yp a r a m e t e r a tp r e s e n t ,t h e r ei sn o r e s e a r c hi n v o l v e di nh o wt h e e q u a t i n ga r ei n f l u e c e db yb o t hd i f f i c u l t y a n d d i s c r i m i n a t i n gp a r a m e t e rd r i f ta tt h es a m et i m e i nt h ef i r s tr e s e a r c h ,c o m p a r i s i o n a m o n gm e a n s i g m am e t h o d ( m s ) ,t h ec h a r a c t e r i s t i c sc u r v e ( t c c ) a n dc o n c u r r e n t c a l i b r a t i o n ( c c ) a r em a d eb yb ys i m u l a t i n gd a t a ,u n d e rt w ok i n do fe q u a t i n gd e i s g n , f o u rk i n do fp r o p o r t i o no f d r i f t i n ga n c h o r s ,a n de i g h tk i n do f d r i f tm o d e t h er e s e a r c h f o u n dt h a t : ( 1 ) w i mt h en u m b e ro fd r i f t i n ga n c h o r si n c r e a s i n g ,t h ee q u a i n gb i a so ft h r e e m e t h o d su u a l l ys h o w sa nu p w a r dt r e n d t h es e n s i t i v i t yo ft h r e em e t h o d sa r ed i f f e r e n t , a n da f f e c t e db yt h ed i s c r e p a n c i e si nt h ea b i l i t yo ft w op o p u l a t i o n s ( 2 ) i na uk i n do fd r i f tm o d e ,t h ep o s i t i v ed i s c r i m i n a t i n gp a r a m e t e rd r i f t ( a + ) l e a d t ot h es m a l l e s te q u a t i n gb i a s 1 1 1 ed r i f tm o d e st h a tt h ed r i f td i r e c t i o no fd i f f i c u l t y p a r a m e t e ra n dd i s c r i m i n a t i n gp a r a m e t e ra r ed i f f e r e n t ( a + b - ,a - b + ) ,l e a dt og r e a t e r e q u a t i n gb i a st h a nt h em o d e st h a tt h ed r i f td i r e c t i o no fd i f f i c u l t yp a r a m e t e ra n d d i s c r i m i n a t i n gp a r a m e t e r a r et h es a m e ( a + b + ,a - b - ) ( 3 ) t h r e ee q u a t i n gm e t h o d s p e r f o r m a n c ea r ea f f e c t e db yt h ed r i f tm o d e t h e r ei s n oam e t h o dt oh a v ea b s o l u t ea d v a n t a g e h o w e v e r , i nm o s tc o n d i t i o n st h ed e l e t i o no f d r i f t i n ga n c h o r sw i l lr e d u c ee a c hm e t h o d se q u a t i n gb i a s ( 4 ) i nt h ec o n d i t i o no fa b s e n c eo fd r i f t i n ga n c h o r s ,t h ee q u a t i n gb i a so ft c ci s l e s st h a nm si ne q u i v a l e n tg r o u pd e s i g n ,b u ti nn o n e q u i v a l e n tg r o u pd e s i g na n dv i c e v e r s a i nt h et w oe q u a t i n gd e s i g n s ,c cl e a dt ol o w e s te q u a t i n gb i a si nt h r e em e t h o d s i nt h es e c o n dr e s e r c h ,m ht e s ta n dl o g i s t i cr e g r e s s i o na r eu s e dt oe x a m i n et h e a n c h o ri nac h i n a sl a r g es c a l ee x a m i n a t i o n t h er e s u l t sf o u n dt h a tt h ee x i s t e n c eo f2 2 d r i f t i n ga n c h o r s c a u s el o t so f t h e mm i s f i ti nt h et e s tf o r mo f2 0 0 7 m sm e t h o di su s e d t oc o m p u t et h ee q u a t i n gc o e f f i c i e n t s t h ee q u a t i n gc o e f f i c i e n t sa r ev e r yd i f f e r n e t b e f o r ea n da f t e rt h ed e l e t i o no fd r i f t i n ga n c h o r s o b v i o u s l y , t h ei n c l u s i o no fd r i f t i n g a n c h o r si ne q u a t i n gw i l ll e a dt oah i g h e rl e v e lo ft h ee r r o ra n da n c h o r s p a r a m e t e rd r i f t s h o u l db ee x a m i n e da sar e g u l a rw o r kd u r i n ge q u a t i n gp r o c e d u r e a tl a s t ,t h el i m i t a t i o no ft h ep a p e ra n ds u g g e s t i o n sf o rf u r t h e rr e s e a r c ho ni t e m p a r a m e t e rd r i f ta r eg i v e n k e yw o r d s :i t e mp a r a m e t e rd r i l l ;d i f f e r e n t i a li t e mf u n c t i o n i n g ;m e a n s i g m am e t h o d ; e q u a t i n g ;c h a r a c t e r i s t i cc u r v em e t h o d ;c o n c u r r e n tc a l i b r a t i o n i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学雠文作者签名:古】孙1 签字吼叫年6 月1 日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和电子稿,允许论文被查阅和借阅。本人授权江西师范大学研究生 院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文o ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 杏愀1 签字日期:如砷年6 月1 日 锄签名截坞砀 签字日期:枷1 年6 序巧日 铆题参数漂移对等值的影响及其消除方法研究 1 铆题参数漂移与等值关系研究综述 1 1 等值方法回顾 使用测验的目的是为了有效探查某种能力或特质上的个体差异,以便测验使 用者通过比较不同个体的测验分数,做出人才选拔、心理诊断或录取考生等决策。 然而,对不同个体的测验分数正确比较的前提是,这些分数必须在同一量尺上进 行比较。 为了避免记忆效果或题目曝光对结果解释造成的混淆,一个测验经常包括几 种不同的平行形式。尽管这些不同形式测验的测量目标相同或依据同一测验蓝图 进行编制,但其难度、信度、分数分布等统计性能仍会有所不同。假设一个测验 有两个形式x 、y ,如果x 较难而y 较易,能力相同的两个受测者,一个x 上 得分较低,一个在y 上得分较高,如果不加调整直接比较原始分数的话就会错 估受测者的水平差异。这就需要将测量目标相同的测验的不同形式的分数转换到 一个统一的量尺之上,心理测量学中将这个转换过程称为等值( e q u a t i n g ) 。 目前等值中经常采用铆测验不等组设计( n o n - e q u i v a l e n tg r o u p sw i t ha n c h o r t e s t , n e a t ) 来搜集数据,在n e a t 设计中,做答不同测验形式x 、y 的两批受测 者p 、q 可能来自不同的总体,通过在x 、y 中都加入共同题目( c o m m o nh e m s ) , 也称为铆( a n c h o r ) 题来消除能力分布不同对测验等值造成的误差( k o l e n b r e n n a n ,2 0 0 4 ) 。n e a t 的优点是不需要参加x 、y 的受测者相同,但铆题多次 使用,如果曝光,将对等值结果造成较大影响。 在经典测量理论( c l a s s i c a l t e s t t h e o r y , c t t ) 和项目反应理论( i t e m r e s p o n s e t h e o r y , i r t ) 下都可采用多种统计方法完成等值工作。c t t 在测验水平上分析被 试特质水平和作答反应之间的关系,而i r t 在项目水平上更细致地研究被试特质 水平和作答反应的关系,具有能力参数与项目参数相互独立、测量误差估计精确 等优良性质( 漆书青,戴海琦,丁树良,2 0 0 2 ) ,为题库建设、组卷、评分和项 目功能差异分析等提供了一个完整的心理计量学框架,应用十分广泛,目前很多 大型考试都在项目反应理论指导下完成等值工作。 按照参数估计的次数,i r t 下等值方法可以分为两大类:( 1 ) 链接独立校准 法( l i n k i n gs e p a r a t ec a l i b r a f i o n ) :首先分别估计基准测验和目标测验的项目参数, 然后再依据一定的数学方法求解等值系数,将目标测验的参数转到基准测验上。 具体计算等值系数可采用矩估计法( m o m e n tm e t h o d ) 或特征曲线法。矩估计法 因使用题目参数的矩统计量估计等值系数而得名,根据利用的题目参数不同可分 为平均数,平均数法( m e a n m e a n ,m m ) 和平均数标准差法( m e a n s i g m a ,m s ) 。 硕士学位论文 平均数平均数法使用铆题的难度参数和区分度参数的平均值来计算等值系数, 而平均数标准差法可以使用铆题的难度参数来计算等值系数。矩估计法计算简 便,应用广泛,但未能充分利用题目的各种参数。特征曲线法( c h a r a c t e r i s t i cc u r v e m e t h o d ) 则充分利用铆题的各种题目参数,可以通过最小化目标测验和基准测验 的测验特征曲线差异来求解等值系数,也称为斯托金洛德准则( s t o c k i n g l o r d c r i t e r i a ) ( k o l e n & b r e n n a n , 2 0 0 4 ) 。( 2 ) 同时校准法( c o n c u r r e n tc a l i b r a t i o n c c ) :与独立校准法不同,同时校准将两个测验的数据合并,将一组被试未作答 的另一个测验的非铆题上的反应当作缺失值,从而一次完成参数估计,得到的不 同测验的题目参数自然就在同一个量尺之上( h a n s o n & b e l g u i n ,2 0 0 2 ) 。 k i m 和c o h e n ( 1 9 9 8 ) 的模拟研究显示,在铆题数量较少的条件下,同时校 准法比斯托金洛德准则要准确;而在铆题数量较多的条件下,两种方法差别不 大。h a n s o n 和b d g u i n ( 2 0 0 2 ) 通过模拟数据,比较了矩估计法、特征曲线法和 同时校准法,发现在多数情况下,同时校准法最为准确。在等级反应模型( g r a d e d r e s p o n s em o d e l ,g r m ) 下,也有模拟研究显示同时校准法的准确性要高于特征 曲线法( k i m & c o h e n ,2 0 0 2 ) 。 h u i q i n 等人( 2 0 0 8 ) 通过模拟研究发现,在不等组设计下,同时校准法比链 接独立校准法中的平均数标准差法和特征曲线法的误差要更大。但h u i q i n 等人 的研究使用p a r s c a l e4 0 完成同时校准,严格来讲,p a r s c a l e4 0 并不适合不等组 设计下的同时校准,可能是由于这个原因导致其结果与前述的其他研究不同。 理论上,同时校准法合并了两批作答数据,样本量增大,参数估计会更稳定。 但在模型资料拟合不佳的情况下,比如测验数据呈现多维结构时,同时校准法的 准确性与稳健性不如斯托金洛德准则( b d g u i n ,h a n s o n ,& g l a s ,2 0 0 0 ;b d g u i n & h a n s o n ,2 0 0 1 ) 。独立校准的优势之一,就是可以获得铆题的两批参数,通过比较 可以发现一些导致等值误差的潜在问题,所以h a n s o n 和b d g u i n ( 2 0 0 2 ) 建议 使用同时校准法等值时,最好也做独立校准。 目前对平均数标准差法和特征曲线法的比较研究存在矛盾之处。h a n s o n 和 b d g u i n ( 2 0 0 2 ) 的研究结果显示,无论参加两个测验形式的被试能力是否存在差 异,特征曲线法都要优于平均数标准差法;h u i q i n 等人( 2 0 0 8 ) 在等组设计下 的研究结果与h a n s o n 和b d g u i n 相同,但在不等组设计下则与之相反,即此条件 下平均数标准差法要优于特征曲线法。 1 2 项目参数漂移研究现状 1 2 1 项目参数漂移的定义 在项目反应理论下通过共同题目或铆题( a n c h o r ) 进行等值时,理论上,由 于只存在随机误差,所以目标测验上的铆题参数在经过线性转换后,应该与其在 2z 铆题参数漂移对等值的影响及其消除方法研究 基准测验上的参数值相差不大。这一性质称为项目参数不变性。然而,在铆题再 次使用时由于某些特殊原因,其难度参数可能会发生变化,导致它在目标测验上 的难度参数经过等值后仍会与基准测验上的难度参数差别很大,超过了随机误差 可以解释的范围,测量学中就认为这个铆题的难度参数产生了飘移。g o l d s t e i n ( 1 9 8 3 ) 定义项目参数漂移( i t e mp a r a m e t e rd r i f t ,i p d ) 为项目参数在不同施测 时间上的改变。 在心理与教育研究中经常采用同一测验在不同时间点对被试进行重复测量, 对不同次测量的结果进行比较,以观察被试特质水平的发展模式。这种研究模式 一般要假定测验在不同时间点的功能稳定一致,称之为纵向研究中的测量不变性 ( m e a s u r e m e n ti n v a r i a n c e ) ,在此基础上进行不同次测量间的比较才是有意义的 ( m e a d e ,l a u t e n s c h l a g e r & h e c h t ,2 0 0 5 ) 。相比较而言,项目参数漂移研究则深入 到题目水平,考察题目在不同时间点上所发挥的功能是否稳定一致,是对测量不 变性问题更为细致的探讨。 1 2 2 项目参数漂移原因研究 k i m 和n e r i n g ( 2 0 0 7 ) 指出,当铆题受到了与测量目标无关的外部因素的影 响,比如题目曝光、作弊、两次的评分标准不同、印刷错误等,就可能导致题目 参数漂移问题和量尺的不稳定。在题库的长时间使用过程中,一个高区分度的题 目多次重复使用之后,其难度和区分度都会下降。此外,公共政策、法律等社会 改变也能影响题目性能的变化,尤其是各种证书考试。在语言测试中,随社会文 化的改变,某些词汇或短语对特定群体的曝光率发生的改变也会导致题目的难度 和区分度下降。比如“c h a d ”这个词在2 0 0 0 年美国总统大选中频繁出现,社会 大众对个词的熟悉度增加,所以在考试中与这个词汇相关的题目也就变得容易 ( w i t te ta 1 ,2 0 0 3 ) 。 课程内容重点的改变也会导致题目参数发生漂移。在美国推行公制( m e t r i c ) 时期,四年级科学课的教师的教学重点转向“公制”,而不是原来的“英制” ( i m p e r i a lm e a s u r e m e n t s ) 。因此,与过去相比,考察“公制”内容的题目变容易 了,而考察“英制”内容的题目变难了( m i s l e v y , 1 9 8 2 ) 。b o c k 等人( 1 9 8 8 ) 的 研显示,美国大学入学考试物理测验中的部分题目所发生的难度参数漂移现象, 实际上反映了美国中学物理课程侧重点的变化。 在心理与教育测量领域,基于测验保密原则,重复使用一个测验或部分题目 是很常见的现象,但随着社会文化环境等因素的改变,题目在多次重复使用过程 中,其功能很可能会发生改变。f l y n n ( 1 9 8 4 ,1 9 8 7 ) 曾比较分析了半个世纪以 来欧洲数个国家不同年代1 8 岁公民的智力测验结果,发现年代越近智力水平越 高是一个普遍现象,并且这种智力水平因时代演进而提高的幅度特别大。弗莱因 的研究结果影响了很多研究者对智力发展及智力测验的看法,被人称为弗莱因效 3 硕士学位论文 应( f l y n ne f f e c t ) 。对于弗莱因效应的原因,相当部分研究者认为应该排除遗传 因素的影响,应从文化历史变化的角度去理解这种效应的产生,主要体现为随着 时代的进步,人的营养状况不断改善,童年生理疾患愈益减少,父母对个体成长 越加关心,以及学校教育条件愈发优越等。然而,许多研究者都忽视了测验重复 使用所产生的测量不变性问题,b e a u j e a r l 和o s t e r l i n d ( 2 0 0 8 ) 通过似然比检验方 法发现p e a b o d y 图片词汇测验的题目存在参数漂移问题,他们在删除参数漂移 题目后进行等值,结果发现弗莱因效应大幅度减小。因此,他们认为弗莱因效应 可能大部分是测验题目的难度下降造成的,而并非群体的一般认知能力水平发生 了改变。 c h a n ,d r a s g o w 和s a w i n ( 1 9 9 9 ) 对美国海陆空三军职业性向测验( a r m e d s e r v i c e sv o c a t i o n a la p t i t u d eb a t t e r y , a s v a b ) 进行了分析,发现其有效性受到了 时间因素的影响,他们认为在重复使用过程中,测量认知能力的测验比其他类型 测验更容易受到与测量目标无关因素的影响,需要加强项目参数漂移方面的研 究,将其作为一种常规检查。 1 2 3 项目参数漂移与偏差、项目功能差异的关系 1 9 世纪6 0 年代,随着人们对教育公平性与公民权的日益关注,人们对测验 的技术质量要求也越来越高,测量研究者们开始考察高利害测验( h i g hs t a k e s t e s t s ) 中的项目偏差问题。 偏差具有社会学和统计学上两重含义。社会学角度下的偏差通常和偏见 ( p r e j u d i c e ) 与不公平联系在一起。而心理计量学中对偏差的研究强调是统计方 面,将偏差操作化为两个群体中的同样能力的受测者在一个项目的作答概率之 差,即项目功能差异( d i f f e r e n t i a li t e mf u n c t i o n i n g ,d i f ) 。d i f 的概念一经提出, 倍受关注,1 9 9 0 年至2 0 0 0 年间在“j o u r n a lo fe d u c a t i o nm e a s u r e m e n t 上发表的 文章中至少有三分之二与d i f 有关( w o l l a c ke ta 1 ,2 0 0 6 ) 。需要指出的是,判定 一个项目是否存在偏差需要内容专家判断和统计学两方面的证据。 项目参数漂移( i p d ) 与项目功能差异( d i f ) 的本质是一致的,它们研究 的都是i r t 下的项目参数不变性问题,即同一个项目在两个或更多的测验情境中 的功能是否一致。但这两个测量学概念的侧重点不同,项目参数漂移关注的是多 次施测情况下,题目性能在不同施测时间上的稳定性,而以往的d i f 研究关注的 是一次施测情况下,题目性能在不同性别、民族、文化等群体之间的差异。此外, 在d i f 研究中,经常会有一个群体数量很小的情况,而在研究项目参数漂移时较 少出现这种情况( d o n o g h u e & i s h a m , 1 9 9 8 ) 。 为保证测验的技术质量,除了要进行传统的信度、效度以及项目分析等方面 检查之外,也必须检测是否存在项目功能差异与项目参数漂移。目前在心理计量 学中,有关d i f 的研究非常丰富,相对来说,对项目参数漂移的研究就少得多, 4 铆题参数漂移对等值的影响及其消除方法研究 可能是由于项目参数漂移对能力参数估计影响不大( s t a h lc ta 1 ,2 0 0 2 ;w e l l se ta 1 , 2 0 0 2 ;w o u a c k 2 0 0 6 ) ,所以未能引起测量研究者的足够重视。 1 2 4 铆题参数漂移对等值的影响 在项目反应理论下,通过增加样本容量和铆题数量,可以提高参数估计的精 度和控制等值中的随机误差,但无法控制铆题参数漂移问题,因为在理论上,此 时铆题在两个测验形式中所发挥的功能不一致,只是在形式上还是同一题目,但 已无法起到媒介或链接的作用,这种铆题给等值带来的是一种系统误差。目前在 实践中的一般做法是,对铆题质量进行检查,删除参数漂移的铆题之后再进行等 值( m i l l e r , 2 0 0 4 ) 。但这种做法尚缺乏实证研究的支持。 m i l l e r ( 2 0 0 5 。2 0 0 8 ) 经过理论推导,将参数漂移问题的原因进行区分,认为 如果题目参数漂移只是由被试能力之外的因素导致的,那么应当剔除参数漂移铆 题,只用功能稳定的铆题进行等值,使用全部铆题进行等值计算会造成误差:如 果题目参数漂移是由参加两个测验形式的被试能力差异引起的,那么简单剔除此 类铆题会造成等值结果的误差,应使用全部铆题进行等值。但是在实际等值过程 中,铆题参数的系统改变可能是由两批被试的能力差异造成的,也可能是题目曝 光等无关因素引起的,甚至可能是参数估计过程中的误差,在测验实践中很难将 各个因素分离开来考虑题目参数漂移的原因。 h u i q i n 等人( 2 0 0 8 ) 通过模拟作答数据,设置不同比例的难度下降的铆题, 在不同的等值设计下,对平均数标准差法、特征曲线法和同时校准等方法进行 了比较。结果发现,在等组设计下,多数方法在删除难度参数下降的铆题后都能 提高等值的准确性,但在不等组设计下,删除参数漂移铆题能够减小平均数平 均数法和特征曲线法的误差,但同时校准法的误差反而会变大。随参数漂移铆题 数量或分数点的增加,各种等值方法的误差都有所增加。 1 3 问题提出 美国参加者众多的考试s a t 、g r e 、t o f e l 等都实现了等值。国际数学和 科学成就趋势研究( t r e n d si ni n t e r n a t i o n a lm a t h e m a t i c sa n ds c i e n c es t u d y , t i m s s ) 和国际学生评价项目( p r o g r a m m ef o ri n t e r n a t i o n a ls t u d e n ta s s e s s m e n t ,p i s a ) 是两 项著名的国际学生学业成就比较研究,参与国家多达数十个,对全球的教育具有 广泛的影响,也通过等值实现了不同年份测试结果的可比性。在我国,随着测量 实践和研究的进步,各大考试机构与测量研究人员的越来越重视实现不同测验形 式之间分数的可比性。但在我国,许多重大考试与评价项目仍未实现等值,在不 同时间举行的同一考试的成绩之间也不具备可比性,合格分数线或分类标准也受 到了测验难度起伏不定的影响,所以加强我国的等值研究,是测量研究者面i 临的 一个迫切任务( 谢小庆,2 0 0 8 ) 。 5 硕士学位论文 改善等值精度和准确性,减小等值过程中的各种误差,是等值研究中的一个 重要方面。铆测验不等组设计是一种常用的等值设计,这种设计不仅要求铆题具 有内容和统计上的代表性,也要求铆题在两份试卷中的所发挥的功能稳定一致。 但在实际的等值过程中,用于等值计算的铆题由于受到测量目标无关的因素影 响,其参数可能会发生漂移。使用全部铆题获得的等值方程将会歪曲不同测验形 式之间参数的真实转换关系,造成不同测量结果之间比较和解释上的偏差。 有研究显示,对于铆题的难度变化会造成等值的系统误差,删除此类铆题可 以减小等值的误差( v u k m i r o v i ce ta l 。,2 0 0 3 ;h u i q i ne ta 1 ,2 0 0 8 ) 。目前关于铆题参 数漂对等值的影响的研究,关于参数漂移的操作定义多侧重于难度参数,实际上, 题目的区分度参数也存在漂移的问题( d e m a r s 。2 0 0 4 ) ,但尚未见有公开发表的 研究考虑在铆题的难度参数和区分度参数同时发生漂移时,删除此类铆题是否同 样能够减小等值误差,这种效果又是否会受到两组被试能力水平差异的影响。本 文研究一将通过模拟数据,在不同的等值设计、漂移铆题比例等条件下,设置不 同的参数漂移模式,试图探清不同参数漂移模式下各种等值方法的表现,以及在 各种不同条件下,删除参数漂移铆题是否能够都能减小等值误差。这将促进测量 研究者对等值过程的深入认识,为各种测量实践中处理铆题参数漂移问题提供理 论依据,对选择合适的等值方法也具一定的参考价值。 等值过程的误差将影响所有参加等值转换的受测者,所以等值误差的大小将 影响测验的公平性、公信力。为减小等值过程中的误差,国外等值实践中的一般 做法是,首先要对铆题的质量进行检查,如果有铆题存在参数漂移问题,需要将 这些铆题删除后再进行等值。然而,这种等值前对铆题参数漂移问题的检查工作 尚未引起我国测量研究者的重视。研究二将在对各种铆题质量检查方法总结的基 础上,采用常用的m h 检验和l o g i s t i c 回归统计方法,检查我国一大型考试等值 所用铆题是否存在参数漂移问题,并考察实测数据中参数漂移铆题对等值所造成 的影响。期待能够引起国内学者的重视铆题参数漂移问题,将铆题参数漂移的检 查作为一项等值中的日常工作,提高等值过程的科学性。 6 铆题参数漂移对等值的影响及其消除方法研究 2 铆题参数漂移对等值影响的模拟研究 在本研究中将通过模拟数据考察铆题的不同模式的参数漂移对等值的影响。 采用模拟数据研究的理由是,铆题参数漂移对等值的影响无法通过理论分析等其 他方法得出明确的结论( p s y c h o m e t r i cs o c i e t y , 1 9 7 9 ) 。实际上,也很难找到包含 各种不同参数漂移模式铆题的真实数据,即使存在这样的真实数据,也无法用一 个准确、客观地评价各种等值方法的优劣,本研究通过模拟作答数据解决这一问 题。 。 2 1 研究设计 2 1 1 基础数据模拟 首先在3 p l m 下模拟6 0 个题目的参数作为基准测验,其中a 参数服从平均 数为0 ,标准差为0 3 的对数正态分布,b 参数服从一2 5 到2 5 的均匀分布,c 参 数服从参数为5 、2 5 的b e t a 分布。 6 0 个题目之中,有2 0 题为铆题,4 0 题为非铆题。然后通过设定的等值系数 转换基准测验的题目参数来获得目标测验的题目参数。在本研究中,模拟生成作 答数据时,参加基准测验和目标测验的被试组都设定为3 0 0 0 人,以保证参数估 计的稳定性。 2 1 2 等值设计 理论上,只有两组被试能力分布不同时才有必要进行i r t 等值。在本研究中, 出于比较不同等值方法的目的,在等组设计与不等组设计两种情况下都进行等 值。本研究通过设置两组被试能力均值的差异来实现不同的等值设计。具体如下: ( 1 ) 等组设计:参加基准测验和目标测验的被试能力分布均服从n ( 0 ,1 ) 。 ( 2 ) 不等组设计:基准测验被试能力分布服从n ( 0 ,1 ) ,目标测验被试能力 分布服从n ( 1 ,1 ) 。 其中不等组设计中两组被试能力差异,有意设计为一个较大的差值,以考察 铆题参数漂移对等值的影响是否受被试组能力差异的影响。另外,采用这种设计, 也可以与h a n s o n 和b e g u i n ( 2 0 0 2 ) 、h u i q i n 等人( 2 0 0 8 ) 的等值研究结果相互 比较。 2 1 3 参数漂移模式设计 目前关于题目漂移的研究多关注难度参数,而许多研究都发现区分度参数也 存在系统性的变化( v e e r k a m pe ta 1 ,2 0 0 0 ;w e l l se ta 1 ,2 0 0 2 ;d e m a r s ,2 0 0 4 ) 。 为全面考察不同漂移模式对等值的影响,本研究设置了8 种参数漂移模式: 7 硕士学位论文 区分度正向漂移( a + ) 、区分度负向漂移( a ) 、难度正向漂移( b + ) 、难度负向 漂移( b 一) 、区分度正向难度正向同时漂移( a + b + ) 、区分度正向难度负向同时漂 移( a + b ) 、区分度负向难度正向同时漂移( a - b + ) 、区分度负向难度负向同时漂 移( a - b ) 。漂移量设置使用实测数据中的研究结果( w e l l se ta 1 ,2 0 0 2 ) ,区分度 参数漂移幅度为o 5 、难度参数的漂移幅度为0 4 。 2 1 4 漂移铆题所占比例设置 预期参数漂移铆题的数量也会影响等值结果的误差大小,本研究设置了五种 数量0 、l 、4 、8 、1 2 ,其中0 个铆题漂移的条件作为一种基线水平,对应的比 例分别为0 、5 、2 0 、4 0 、6 0 。 2 1 5 等值关系估计方法设计 理论上,在项目反应理论中,只有当两组被试能力分布不同时才有必要进行 等值。在本研究中,为比较不同等值方法的目的,在等组与不等组两种等值设计 情况下都进行等值。比较的等值方法包括三种:平均数标准差法( m s ) 、特征 曲线法( t c c ) 和同时校准( c c ) 。 为考察删除参数飘移铆题是否可以减小等值误差,依据是否删除飘移铆题, 可以分为6 种情况,即保留参数飘移铆题等值的特征曲线法( t c c + ) 、平均数 标准差法( m s + ) 和同时校准法( c c + ) ,以及删除飘移铆题后等值的特征曲线 法( t c c ) 、平均数标准差法( m s 一) 和同时校准法( c c ) 。 2 1 6 等值结果偏差评价指标设计 本研究将采用基于真分数等值函数的指标来评价不同条件下的等值结果。真 分数等值函数估计是与目标测验上得i 分者能力相同的被试,在基准测验上能够 得多少分,表示为乃= 气m 气k ( f ) 。利用真分数等值函数评价等值结果的计 算方法如下: t, 2 ( 乃一勺) 等值偏差= 旦l 一 ( 公式2 1 ) fxr 公式( 1 ) 中,乃为由题目参数真值计算出的对应分数点i 的基准测验的真 分数,亏,为由第j 次模拟数据经某种等值方法估计的题目参数计算出的对应分数 点i 的基准测验的真分数。将同样条件下重复模拟r 次的所有t 个分数点的偏差 求平均,即为此条件下某种等值方法的评价指标值。为方便起见,本文称其为“真 分数等值平均偏差”,简称为“等值偏差”。需要指出的是在3 p l m 下,真分数等 值平均偏差的实际计算将从大于所有题目猜测度之和的分数点开始,而并非使用 r 铆题参数漂移对等值的影响及其消除方法研究 全部6 0 个分数点的偏差进行计算。 2 1 7 应用计算机程序 作答数据采用w i n g e n 2 ( h a n , kt ,h a m b l e t o n ,& k ,2 0 0 7 ,h 蛆,k 工, 2 0 0 7 ) 生成,使用b 儿o g - m g3 0 ( z i m o w s b ,m u r a k i ,m i s l e v y & b o c k ,2 0 0 3 ) 完 成模拟数据的参数估计和同时校准,特征曲线法、平均数标准差法与真分数等 值计算均采用江西师范大学心理与教育统计测量中心自编程序完成,其中特征曲 线法采用的是s t o c k i n g l o r d 准则。 2 1 8 实验模拟与计算过程 综上所述,本研究控制的因素有等值设计( 2 ) 、铆题参数漂移模式( 8 ) 、漂 移铆题比例( 4 ) 和是否删除漂移铆题进行等值( 2 ) ,再加上两种无铆题发生参 数漂移的基准条件,一共有2 8x 4 2 + 2 = 1 3 0 种条件,在这些条件下模拟研究 的基本步骤如下: 一 ( 1 ) 模拟生成能力分布服从n ( 0 ,1 ) 的3 0 0 0 人在基准测验上的作答数据。 ( 2 ) 模拟生成能力分布服从n ( o ,1 ) 和n ( 1 ,1 ) 的3 0 0 0 人在目标测验上的 作答数据,并在生成目标测验作答数据时,按照设定的漂移比例和漂移幅度,改 变目标测验的相应铆题的参数。将基准测验与目标测验匹配,一共有6 6 组作答 数据。 ( 3 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级上册信息技术教学设计-7.装扮美丽的花园∣粤教版
- 2024年届九年级历史上册 第15课 决定美利坚命运的内战说课稿1 北师大版
- 单元学习总结教学设计-2025-2026学年高中信息技术教科版2019选择性必修4 人工智能初步-教科版2019
- 2025年中考数学试题分类汇编:勾股定理与翻折、动点、最值问题(10大考点40题) (第1期)解析版
- (2025秋新版)苏教版科学三年级上册全册教案2
- 小学科学新教科版三年级上册全册教案(2025秋新版)
- 神奇的泡泡 教学设计-2023-2024学年小学生科学课后服务拓展
- 人教版 2019年第二学期高中物理必修2 7.8 机械能守恒定律 教学设计
- 2025年中考地理试题分类汇编:西半球的地区和国家、极地地区、地区综合(第1期)解析版
- 本章复习与测试教学设计-2025-2026学年初中数学鲁教版五四制2012六年级下册-鲁教版五四制2012
- 2025-2030木薯市场发展现状调查及供需格局分析预测研究报告
- 小儿推拿店员合同协议
- 医疗废物管理知识培训课件
- 家庭养老免责协议书范本
- 商业地产策划案例(购物中心)
- 银行押运人员管理制度
- 北师大版四年级数学下册第五单元 认识方程标准检测卷(含答案)
- 信息系统授权制度
- 小学四年级上册劳动课教案设计
- 工程施工进度督促函
- 保护眼睛防近视课件
评论
0/150
提交评论