（计算机应用技术专业论文）允许检查并修改答案的cat研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：35 大小：1.11MB 积分：12 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

允许检查并修改答案的c a t 研究摘要过去的十年里，计算机化自适应测验( c a t ) 已经取代纸笔测验( p p ) 成为许多大规模标准化测验的考试形式。目前，许多c a t 测验的研究与应用存在着局限性，因为大多数的c a t 不允许被试检查并修改答案。对被试来说，不允许返回检查并修改答案会给他们带来测验压力并影响其表现；对c a t 考试机构来说，不允许被试检查并修改答案主要是担心：被试在检查修改阶段通过使用w a i n e r 策略获得正偏的能力估计值，影响测验的公平性、公正性和准确性。如果能够提供这样一种解决方案，既允许被试检查并修改答案，又能够对付w a i n e r 策略，其意义是不言而喻的。目前关于这方面的研究，国内刊物未见报导，国外研究也不多。相关研究存在的问题是，研究者仅仅记录修改后的答案并仅根据该记录评分，而对修改前的作答信息不予考虑。本文在对允许检查并修改答案的c a t 进行研究的基础上，提出新的评分方式( 式中符号见本文用到的主要符号说明) ： = 曰p 胁+ 仉，+ 卅1 1 一日p m ) 综合考虑修改前后的作答信息，并根据相应估计试图对付w 甜n e r 策略。本文实验一采用m o n t ec a r l o 方法自编计算机程序模拟允许检查并修改答案的。玎，以考察不同的b e t a 值对能力估计的影响。研究结果表明：( 1 ) 相对于只考虑被试在自适应阶段的作答信息( b e t a = 1 ) 或只考虑被试在检查修改阶段的作答信息( b e t a = 0 ) ，综合考虑被试的两次作答信息能够产生更加精确的能力估计值，尤其以b e t a = o 5 时能力估计的修复能力最强；( 2 ) 大部分的被试进行了修改；只有少部分的答案被修改；在被修改的答案中，大部分的答案是由错误改为正确，少部分的答案是由正确改为错误。实验二通过模拟测验数据，在评价w a i n e r 策略有效性的基础上，试图采用新的评分方式对付w a i n e r 策略。模拟结果表明：( 1 ) 在新的评分方式下，w 甑e r s t m t c l ；y c 衄1 产生的能力估计值与能力真值存在着非常大的偏差，而且偏差随能力真值的增加而增加，并不能有效地对付w a i n e r 策略；( 2 ) 当b e t a = 0 时，综合w a i n e rs t r a t e g yc a t 的e a p 值和m l e 值可以比较“粗糙”地对付w a i n e r 策略。关键字：计算机化自适应测验，项目反应理论，项目检查，w a i n e r 策略，k in g s b u r y 策略，蒙特卡洛模拟允许检查并修改答案的c a t 研究 a b s t r a c t n ep a s td e c a d eh a ss e e np & pt e s t sb e i n gr 印l a c e db yc a t sw j t h i nm a n y l a i g e s c a l e s t 柚d a r d i z e d t e s t i n gp r o g r a m s h 0 w e v e r ， m a i l y r e s e a r c h e sa n d a p p l j c a t i o n so nc 气瞻h a v el i m i t a t i o n s ，b e c a u s em o s to fc ：a 艮d o n ta l l o we x a m i n e e s t or c v j e wa n dc h a l l g ea n s w e r s t be x a m i n e e s ，n o ta l l o w i n gr e v i e w i n ga n dc h 柚百n g a i l s w e r sw o u l d 晰n gt h e mt e s tp r e s s u r ea l l da f f e dt h e i rp e 哟m a n c e ；t oc a tt e s t o 喀卸j z e r s ，t h e yd o n ta l l o we x a m i n e e st or e v i e wa i l dc h a n g ea n s w e r sm a i l yb e c a u s e t h e ya r ea f r a i dt l l a te x a m i n e e sw o u l du s ew a i n e rs t m t e g yi nr e v i e ws t a g et oo b t a i n p o s i t i v e l yb i a s e da b i l “ye s t i m a t e s i fw ec a i lp r o v i d es u c has o l u t i o nt h a tn o to n l y a l l o w se x a l i l i n e e st or e v i e wa i l dc h a i l g ea i l s w e r sb u ta l s ob ea b l et oc 0 p ew i t l lw a i n e f s t m t e g y ，t l l em e a i gi s u n d e r s t o o dw i t h o u tc x p l 扎a t i o n t h e r e 盯ef c wr e l e v a l l t s t u d i e so nt h i sf i c l da uo v e rt h ew o r l d h lp r e v i o u sf e s e a 耐i 鹤，r e s e 砌e f s0 n l y r e c o r d e da n s w e r so fr e v i e ws t a g c 锄du s e dt h 锄t os c o r e ，谢t t l o u t c o n s i d e r i n g a i l s w e r so fa d 印t i v es t a g c t h i sp 印c re m p l o y c dan e ws c o r i l l gm e t h o da l l dt r i e dt o d e a lw i t l lw a i n c rs t r a t e g y ： y 匆= u 西b p 胁+ 孤，+ m ( 1 一日p 砌) e x p e r i m 如tlu s e dm o n t e ( 斯l om e t h o dt os i m u l a t eo 、b 廿l a ta l l a wr e v i e w i n ga n dc h 柚百n g a n s w e i s ，a i n l i n gt oe x 锄i n et 1 1 e i u e n c e0 fd 洫玳n tb c t av a l u 髓叩a b m t ye s l i m a l i 叩 s i m i l l a t i o nr e s u l t ss h o w e d ：( 1 ) c o m p r c h e n s i v e l yt a k i gt h ea s w e 珞b e f o r ea n da f t 盯r e v i e wi n t o a c c o u n tc o u l dp r o d u c em o r ca c c 啪t ca b n i t yc s d m a t i 咖，蛆dt h eb e s ta c c 岫t ee s t i n 豫t c so c 皿r r e d w h e nb e t a = o 5 ；( 2 ) m o s te x a l n i n e e sc h 柚g e d 粕s w e i s ；o i l l yav e r ys m a np e f c e n t a g eo f 如s w e r s w e r cc b a n g e d m o r ea n s w e r sw e r cc h a n g e df 舢w r o n gt or i g h tt h a nf r o mr i g h tt 0w m n g e x p e f i m e n t2i l s e ds i m u l a t i o nd a t at oe v a l u a t et h ee f i b c t i v e n e s so f t h ew a i 船rs 仃a t c g ya n dt r i e dt o c 叩ew i t hw a i e rs t r a t e g yu s i i l gn e ws r i n gm e t b o d s i m l l l a t i o nr e s l l l t ss b o w e d ：( 1 ) w h e nu s i n g n e ws c 0 血gm e t h o d ，m ea b i l “ye s t i m a t e sg e n e r a t e db yw 缅盱s l r a t e g yc a to b v i o u s l yd i v e r g e d f r o mt h eh l l ea b i l i t yv a i u e s m o r e o v e t h eb i a si n c r c a 辩da s 仃i l ea b i l i t yv a l u ei i l c r c a d ；( 2 ) w h e n b e l a = 0 ，c o m p f e h e n s i v e l yt a k i n gt h ee a pa n dm l ea b i l i t yc s t i m a t e so fw h i n c rs t r a t e ；yc a ti n t o a c c o u n tc o u l dm u g h l yd e a lw “hw a i n e rs “a t e 缈 k e y w o r d s ：c o m p u t e z e da d a p t i v ej i b 6 n g ，i t e mr 锚p o 珊et h e o r y ，i t e mr e v i e w w a i n e rs t r a t e g y ，l 【i g s b u r ys t n t e i 甄m o t ec a r l os i m u l a t i o n i i 允计检查并修改答案的c a t 研究本文用到的主要符号说明被试数测验长度某个被试能力参数项目区分度参数项目难度参数项目猜测度参数某个项目似然函数对数似然函数被试a 在第个项目上的第一次作答反应被试a 在第_ 个项目上的第二次作答反应被试a 在第j 个项目上的综合作答反应被试窿答对第_ ，个项目的概率被试口答错第，个项目的概率绝对偏差平均偏移均方根注：如果上述说明与正文不同，则以正文说明为主。 d 工矿，可可酷慨 m口口6。、l乩吩肋翰囊龇允许检杏并修改答案的【a t 研究本文用到的主要术语说明项目检查( i t e mr e v i e w ) 对已答项目进行检查并可能修改答案的被试行为。合理的得分增益o e g i t i m a t es c o n2 a i n ) 在修改前的测验阶段，假设被试有足够的能力答对某个项目但是答错了。在检查修改阶段，该项目答案的由错误改为正确被认为是合理的得分增益，之所以合理是因为最终的项目得分更准确地反映了被试的能力水平。比如说，某个被试知道某个项目的正确答案，但是粗心地输入了错误答案。在检查修改阶段，他她发现了错误并提供正确答案，这种得分增益是合理的。不合理的得分增益( i i i e g m m a t es c o r eg a i n ) 在修改前的测验阶段，假设被试没有足够的能力答对某个项目且答错了。在检查修改阶段，该项目答案的由错误改为正确被认为是不合理的得分增益。比如说，某个项目的答案可以通过另一个项目提供的信息得到。当某个被试由于能力不够答错第一个项目，但在第二个项目中发现了提示信息，因此在检查修改阶段给出了第一个项目的正确答案，这种得分增益是不合理的。 w ain e r 策略( w 血甜s t r a t e 野) 被试在。玎测验过程中可能采用的一种“作弊”策略。它描述如下：“聪明” 的被试或“聪明”的备考机构指导的并不“聪明”的被试通过修改答案可能获得正偏的能力估计值。被试在自适应阶段故意错误作答所有项目，根据得分向量计算的能力估计值会越来越低，选题策略选出的项目会越来越容易，整个测验就会相对容易。之后在检查修改阶段，f 电她尽全力作答。与传统的c a t 相比，该被试很可能答对更多的项目。而且，如果被试的真实能力水平充分大于初始项目的难度水平时，他她就很有可能答对所有的项目。为了纪念w j i n e r 提出的这一想法并且为了方便，学者们称之为w a i n e r 策略。 kin g s b u r y 宝隹略( 磁n g s b u r _ ys t i 鼍t e g y ) 被试在c a l l 测验过程中可能采用的另外种“作弊”策略。它描述如下：在自适应阶段，被试每作答完一个项目之后，试图通过下一个项目的难易程度来判断对当前项目作答的正确与否。如果明显感觉到下一个项目更容易了，被试可以在检查阶段修改对当前项目的作答，从而获得不合理的得分增益。为了纪念硒g s b u r y 提出的这一想法并且为了方便，学者们称之为硒n g s b u r y 策略。关于砌n g s b u r y 策略，有研究已经发现：对被试来讲，通过下一个项目的难易程度束判断对当前项目作答的正确与否是非常困难的”1 。 w a i n e r 策略c a t ( w a i n e r s t 朔t e g yc a t ) 本文将运用了w j i n e r 策略的c a t 记为w 越n e rs 仃a t e g yc a t 。 2 允许检查并修改答案的c a t 研究 1 1 研究背景第一章引言近年来，随着项目反应理论( i t e mr e s p o n s e1 1 l e o r y ，简记为i r t ) 和计算机技术的飞速发展，出现了一种新的测验形式一一计算机化自适应测验 ( c o m p u t e r i z e d a 血p t i v et e s t i n g ，简记为c a t ) 。c a t 依靠大型题库，采用i r t ，自行去适应被试水平，灵活施测难度最恰当而且性能最优的项目，从而实现对被试的高效测量o “。它的目标是为每个被试提供一个最合适的测验，它不同于传统的纸笔( p a p e r p e n ，简记为p & p ) 测验“千人一卷”的固定模式，而是“因人而异”的测验。即使是参加同一个测验，不同的被试作答的项目可能完全不同、作答的项目数也可能完全不同。c a t 像“因材施教”那样“因人施测”，高能力水平被试作答难度大的项目，低水平被试作答容易的项目，不同能力水平的被试作答不同难度的项目j 因而开创了测验领域的新天地。相对于传统的p p 测验，c a l 有很多的优点：( 1 ) 根据被试当前的能力估计值选择下一个项目，希望所测项目与被试能力相匹配；( 2 ) 在不损失测量精度的情况下，缩短了测验长度，节省了主试和被试的时间；( 3 ) 与多媒体技术结合可以创设各种生动、形象的情景，使测验呈现方式能满足多种测验目的，同时更能激发被试的测验动机；等等。目前c a t 在心理教育测量领域应用非常广泛，r i d f e l 、g r e 等世界范围的大规模测验都是采用这种测验形式，美国的医生护士资格考试、军事服役职业能力测验倾向成套测验等也都相继推出了c a t 版本。在我国，c a t 的研究与应用也有不少，从上世纪九十年代初开始，全国大学英语四、六级考试委员会一直致力于c a t 的研究与开发；国家汉语水平考试中心举办的汉语水平考试h s k ，第四军医大学对应征者进行的文化水平测验都是使用c a t 形式；江西师范大学二十多年来成功编制了多个c a t 【”，。但是在目前所有的c a t 应用中，只有一项应用允许被试检查并修改答案，即由美国临床病理学家协会的注册委员会( b o a r do fr e 酉s t r y ，简称b o r ) 开发的资格考试“”。大多数c a t 不允许被试检查并修改答案。被试们对此表示不满，他们希望得到修改机会。检查并修改答案的问题，对参加测验的被试及组织测验的考试机构来说都非常重要。从被试的角度来看，大多数c a t 不允许被试返回检查并修改答案，被试在p & p 测验中常用的答题策略( 比如说，有些被试从头做到尾，做完之后再检查，发现错误就修改；其他的一些被试，不能确定答案的项目先放着，测验结束之后再返回作答；等等) 就不能应用到q 叮中，这样会给被试带来压力。当参加高风险测验( h i g l l s t a k et e s t s ) 时压力会更大，因为测验的允许检查，f 修改答案的c a t 研究结果决定着被试的命运。因此，在参加g 町时，大量的被试处于不利地位，不允许检查并修改的做法会影响被试发挥最佳水平。另外，c a = r 的自适应算法本身就决定了：被试只能答对一半左右的项目，这同样会增加被试的焦虑水平并影响被试的测验表现。所以，被试在测验过程中希望尽可能多地控制测验，这样的话他们就能够保持良好的测验情绪。这种控制主要是通过允许被试使用惯用的答题策略来实现。所以说，当被允许检查并修改答案时，大多数被试选择这样做；从考试机构的角度来看，大多数。叮不允许被试检查并修改答案有很多原因，但主要是担心：一些“聪明”的被试或“聪明”的备考机构所指导的并不“聪明” 的被试在检查修改阶段通过使用w j i i l e r “作弊”策略获得正偏的能力估计值，影响测验的公平性、公正性和准确性。在c a t 中是否应该增设检查修改机制，学者们争论的焦点主要集中在w a i n e r 策略“1 。如果能够提供这样一种解决方案，既允许被试检查并修改答案，又能够对付 w a i n e r “作弊”策略，其意义是不言而喻的。因此很有必要研究允许检查并修改答案会给c a t 带来什么影响，这也是学者们近年来的研究趋势“1 。目前关于这方面的研究，国内干u 物未见报导，国外研究也还不多。本文对允许检查并修改答案的c a t 进行了研究，并采用新的评分方式试图对付w a i n e r 策略。 1 2 本文创新本文的创新之处主要体现在以下两个方面：首先，在允许检查并修改答案的c a t 中提出了新的评分方式及其模型，综合修改前后的两次作答信息进行评分可以获得更加精确的被试能力估计值；其次，运用新的评分方式及相应估计试图对付w i i n e r 策略，找到了比较“粗糙”的解决方案。 1 3 本文组织本文的章节安排如下：第一章为引言，简述允许检查并修改答案c 盯的研究背景、研究目的及研究意义，简述本文的研究工作及本文的章节安排；第二章首先简单回顾允许检查并修改答案的p p 、c f i t 研究情况。接着详细介绍允许检查并修改答案的c a t 研究现状，并对相关研究较少的原因、相关研究的分类以及相关研究存在的问题进行介绍；第三章主要介绍新的评分方式及其模型，并明确实验目的；第四章详细介绍实验设计、实验方法、实验结果与实验结论；第五章对本文进行总结，并提出今后需要进一步研究的问题。 4 允许检查并修改答案的c a t 研究第二章允许检查并修改答案的c a t 研究现状允许检查并修改答案的测验研究已经有六七十年的历史“1 。在正式介绍允许检查并修改答案的c a t 研究现状之前，我们先来回顾下历史，简单地介绍允许检查并修改答案的p p 研究和允许检查并修改答案的计算机化固定项目测验 ( c f i t ) 研究。 2 1 允许检查并修改答案的p & p 研究在传统的p p 测验当中，所有的被试作答相同的一批项目。出卷人首先收集项目，然后按一定的顺序将项目编排成试卷( 也即原始项目顺序由出卷人决定) 。试卷分发下去以后，所有的项目一次性呈现在被试面前。被试有很大的自由浏览项目，可以不按原始顺序作答，甚至可以随时对已答项目进行检查并修改答案( 也即项目的实际作答顺序完全由被试自己决定) ，这正是p p 的一大优点。允许检查并修改答案对被试的测验表现会带来积极的影响，七十多年的研究结果表明。“：( 1 ) 被试通过检查并修改答案可以提高测验成绩；( 2 ) 允许检查并修改答案有利于被试保持良好的测验情绪；( 3 ) 被试在检查修改期间，可以对一些难题进行再思考、再阅读以回忆起更多的知识信息，甚至可以发现并修改笔误。修改后得到的测验成绩也更精确地反映了被试水平。施测者应该鼓励被试进行修改，尤其是那些需要细心考虑的难题。总之，允许检查并修改答案的p & p 已经得到社会的普遍认同，并受到被试的欢迎。许多学者对允许检查并修改答案给p p 带来的影响进行了研究，研究结果总结如下：( 1 ) 大部分( 8 5 左右) 的被试修改了答案；( 2 ) 很少部分( 3 到 5 ) 的答案被修改；( 3 ) 大多数( 6 8 ) 被试通过修改提高测验成绩，1 5 的被试降低测验成绩，1 7 的被试的测验成绩保持不变；( 4 ) 答案由错误改为正确的情况( 5 7 ) 多于答案由正确改为错误或答案由错误改为错误的情况。所以说，允许检查并修改答案对大部分被试( 尤其是有着高焦虑水平的被试) 来说是有好处的。应该注意的是：在p p 中，一般都是固定测验总时间，所以不存在“允许检查并修改答案会延长测验时间”的问题。 2 2 允许检查并修改答案的c f it 研究长期以来，p p 测验一直是学业评定的主要方式。p & p 测验有诸多优点，如测验的效率高，适应大规模团体测验，便于记录学生的答案以及分析研究，便于制定统一的标准，提高测验效度等。但p p 测验也有缺点，比如：p & p 测验多局限于认知领域的教学目标而不能关注情感、念度、动作技能、心理素质与学允许检杏并修改答案的c a t 研究生的实际动手能力和创新能力等等。随着计算机技术的发展，出现了计算机化固定项目测验( c o m p u t e f i z e df i x e d n e mt e s t i n g ，简记为c f l t ) 。与p & p 相比，c f i t 最大的优势就是采用计算机辅助测验，也即项目的呈现、项目的作答以及项目的评分等等都是由计算机来完成，因此测量更加高效、更加精确。另外，与多媒体技术结合，项目的形式可以多种多样( 比如说空间记忆题) ，丰富了测验内容。由于以上优点，c f r r 这种测验形式越来越受到人们的青睐。大多数被试希望c f i t 像p & p 一样能够提供检查修改机会，因为他们感觉到测验是越来越公平，越来越人性化，不允许修改被认为是测验的缺点。但是，允许检查并修改答案会明显延长测验时间，相应地会明显增加测验费用，所以检查并修改答案在c f i t 中经常是不被允许的。有关允许检查并修改答案给c f r r 带来的影响方面的研究也就较少，研究结果只有一两项“1 ，总结如下：( 1 ) 4 5 的被试修改答案( 低于p p 中结果) ；( 2 ) 很少部分( 4 ) 答案被修改( 这与p p 测验中结果类似) ；( 3 ) 进行修改的被试中，5 0 以上提高了测验成绩；( 4 ) 被试焦虑水平与估计精度呈现显著的负相关( 也即被试测验焦虑水平越高，其能力估计精度越低；被试测验焦虑水平越低，其能力估计精度越高) ；( 5 ) 修改与否对测验分数和估计精度的影响不显著( 也即修改前后测验分数和估计精度的差异不显著) ；( 6 ) 允许检查并修改答案显著地延长测验时问；( 7 ) 高能力水平被试和低能力水平被试反映出不同的修改模式：相对于低能力水平被试，高能力水平被试获益更多，他们更多的是将答案由错误改为正确，更少的是将答案由正确改为错误；( 8 ) 焦虑水平与面对修改机会的积极态度呈现显著的正相关( 焦虑水平越高的被试，越希望得到修改机会；焦虑水平越低的被试，希望得到修改机会的态度就没那么强烈) ；( 9 ) 被试进行修改的项目一般是难度较大的项目。 2 3 允许检查并修改答案的c a t 研究在过去的十年里，c a t 在心理教育测量领域得到非常广泛地应用，它已经取代p p 测验形式成为许多大规模标准化测验( 比如说g i 也和t o f e l ) 的考试形式。另外，从能力估计方面来看，c a t s 的效率明显高于c f i t s 。用相同数量的项目，c a t s 可以达到更高的精度。这样的话，在同一时间内可以施测更多的测验并且能够降低评价费用。所以在。盯中，允许检查并修改答案可能会带来更为重要的结果。 2 3 1 相关研究较少的原因目蓟关于允许检查并修改答案的c a = r 方面的研究，国内刊物还未见公丌报 6 允许检查并修改答案的c a t 研究导，国外研究也还不多。这主要是因为在c a l 中增设检查修改机制会带来以下问题：( 1 ) 一些“聪明”的被试或“聪明”的备考机构所指导的并不“聪明”的被试在检查修改阶段利用“作弊”策略( 主要指w j i n e r 策略) 可能获得正偏的能力估计值，这一点引起的争议最大；( 2 ) 检查并修改答案不符合自适应测验的通常做法；( 3 ) 传统的c a t 是连续地呈现最具信息量的项目，也即与被试当前能力估计值相匹配的项目。如果允许被试检查并修改答案，某一项目答案由正确改为错误或是由错误改为正确都会改变被试的序贯能力估计值，之后的项目的难度就不能很好地与新的序贯能力估计值相匹配。这样就导致估计标准误增加，估计精度下降”1 ；( 4 ) 增设检查修改机制会增加测验时间，相应地会增加测验费用、降低测验效率；( 5 ) 项目之间可能存在依赖性。能力测验一般都包括多个项目，很有可能后面某个项目的题目内容或是答案选项会给已答项目带来提示信息。当被试获得这种提示信息后，他她在检查修改阶段就有可能答对本不可能答对的项目。也就是说，不允许检查并修改答案可以防止这种不合理的得分增益( 有一点需要注意，既使不允许检查修改，某个项目也有可能会给后面施测的项目带来提示，解决的根本办法就是分析项目问的提示关系并限制类似项目的使用) ”3 ； ( 6 ) 通过检查，被试有更多的时间去记住项目，可能会影响测验的安全性；( 7 ) 在c a t 中增设检查修改机制，会使得测验软件的开发变得更复杂，主要是因为被试检查修改的风格迥异。一些被试希望每个项目都检查，而另一些被试则希望只检查部分项目。还有些被试对没把握的项目先做好标记，回过头来再检查。因此，要开发一个既能够满足被试多样的检查风格又便于被试使用的灵活系统，还比较困难”1 。 2 3 2 相关研究的分类 o k a 等人在其文章中将目前允许检查并修改答案的c a t 研究分成两组”1 ： “第一组研究”只讨论了允许检查并修改答案对c a t 心理测量学变量及心理学变量的影响，并不考虑“作弊”策略带来的影响( 这里的心理测量学变量主要是指能力估计值、能力估计标准误、正确作答项目数和测验时间等等；心理学变量则主要是指被试的测验焦虑水平以及被试对测验的满意度等等) ；而“第二组研究”主要讨论被试通过“作弊”策略如何获得不合理的正偏能力估计值以及考试机构怎样对付“作弊”策略。 “第一组研究”的主要结果如下：( 1 ) 大约6 0 的被试至少修改了一个答案； ( 2 ) 只有很少一部分( 2 到5 之间) 的答案被修改；( 3 ) 在被修改的答案中，大约有5 0 的答案是由错误改为正确；( 4 ) 在修改答案的被试当中，有4 2 到 5 2 提高了测验成绩，只有非常少的一部分( 1 0 到1 5 之日j ) 被试降低了测验 7 允诈检杳并修改答案的c a t 研究成绩：( 5 ) 修改之后估计精度稍微降低( 修改前后的标准误之比大于0 9 7 ) ，但是不显著；( 6 ) 修改之前与修改之后的能力估计值的相关稍大于o 9 8 ，平均偏差在o 0 2 和o 0 7 之间；( 7 ) 修改后被试的测验焦虑水平下降，且焦虑水平与能力水平呈现出显著的负相关。( 8 ) 允许检查并修改答案会明显增加测验时间( 3 7 到6 1 之间) ；( 9 ) 当把能力作为自变量时，可以发现能力水平最高的被试，其修改答案数最少，答案由错误改为正确的情况最多，答案由正确改为错误的情况最少。因此，能力水平最高的被试是测验允许修改的最大受益者“，。 “第二组研究”中争议主要集中在w 血e r 策略。关于w 葡n e r 策略，专家学者有以下观点：第一，尽管w a i n e r 策略明显具有欺骗性，但成功使用它获得的得分增益是合理的，因为被试的作答反应能够反映他她的能力水平”1 ；第二， w a i n e r 策略的成功运用主要依赖于被试成功运用这种策略的能力，w i i n e r 策略的失败运用对能力估计有负面的影响。在检查修改阶段，被试只有答对所有的项目w 萄n e r 策略才会成功；只要答错一个项目，能力估计值就会迅速下降。也就是说，使用w a i n e r 策略要特别慎重：第三，w a j n e r 策略的成功运用对中低能力水平被试影响不大，对高能力水平被试影响较大；第四，使用w j i n e r 策略是非常危险的事情，主试根据答案被修改的项目数、修改前后能力估计值的差异以及能力估计的标准误，可以很容易发现被试是否使用w 缸n e r 策略。一旦发现，被试的测验成绩将被视为无效，并需要参加附加的测验“。 b o r 深入研究了检查并修改答案的问题，并在其1 7 种资格测验中增设了检查修改机制。b o r 为了防止被试使用w h i n e r “作弊”策略获得正偏的能力估计值，被试每作答完一个项目，测验就会计算他她的正确作答率。当被试的正确作答率较低( 比如说小于3 0 ) 时，测验就自动根据标准参照点( p a s s p o i i l t ) 选择最具信息量的项目，而不是根据当前的能力估计值选题。b o r 的研究结果与 p p 中的结果基本一致：( 1 ) 很少部分答案被修改：( 2 ) 答案由错误改为正确的情况多于答案由正确改为错误的情况；( 3 ) 大多数被试通过修改答案提高了测验成绩。这些研究结果同时也表明允许被试检查并修改答案对测量精度的影响是很小的”1 。 r g e r s h o n 和b e f g s t r o m ( 1 9 9 5 ) 根据模拟数据评价了柚n e f 策略。他们采用的是 r a s c h 模型、能力采用p r o x 软件估计。研究者通过使用长度分别为3 0 和9 0 ( 分容易题和非常容易题，平均难度分别为2 和4 ) 的定长。虹对被试( 能力范围【一3 5 ，3 5 】，步长为o 5 ) 答题表现进行了模拟。模拟被试在自适应阶段故意答错所有项目，然后在修改阶段尽全力作答。结果表明：对高能力水平被试而言，会产生严重的低估，最严重的低估出现在长度为3 0 的非常容易的c a l 中。被试只有在修改阶段答对所有项目时，w j i n e r 策略才会成功。在修改阶段，只要答错了允诈检查并修改答案的c a t 研究一个项目，能力估计值会迅速下降。除此之外，最后的正确作答率越偏离5 0 ，能力估计值的标准误就越大。作者还认为：在c a t 中舞弊是非常危险的事情，很容易被发现o ，。 s t o c l 【i n g ( 1 9 9 7 ) 采用模拟数据和计算机化自适应版本的g r e 来评价w a i n e r 策略的有效性，并与其它三种允许或部分允许检查修改的各选模型进行了比较。这三种备选模型分别：( 1 ) 只允许修改固定数量的项目；( 2 ) 只允许修改单独限时测验部分内的项目；( 3 ) 只允许修改属于一共同刺激物( 图、表、阅读文章等等1 的项目。研究者采用极大似然估计( m l e ) 方法进行能力估计，使用带项目曝光控制功能的最大信息量方法进行选题。结果显示：对中等或高能力水平被试来说，使用w i i n c r 策略会产生正偏的能力估计值，而且伴随着较大的能力估计标准误。备选方法2 ( 只允许修改单独限时测验部分内的项目) 和各选方法3 ( 只允许修改属于一共同刺激物的项目) 通过限制修改机会有效地对付了w a i n e r 策略，其产生的能力估计偏差和估计标准误均落在可以接受的范围内1 。 v i s p o e l 等人( 1 9 9 9 ) 利用模拟、真实测验数据以及贝叶斯后验期望法( b 廿) 、 m l e 评价w a i n e r 策略的有效性，主要讨论了w h i n c r 策略的两个普遍问题。第一个问题是w a i n e r 策略产生的能力估计值的本质。研究者通过模拟分析，对能力估计的偏差以及估计标准误进行了计算。第二个问题是真实被试运用w a i n e r 策略的能力，以及他们如何成功获得正偏的能力估计值。为了讨论使用w a i n e r 策略是否会产生正偏的能力估计值，研究者将真实被试在w a i n e r 策略c a t 中的表现与他她在传统c a t 上的表现进行了比较。模拟数据表明：运用w i i n e f 策略是否能够得到高估的能力估计值主要依赖于所使用的能力估计方法、被试的真实能力水平和能力估计的标准误。e a p 模拟结果表明：对中低能力水平( 【2 1 ，o 5 】) 被试来说，成功地执行w a i n c r 策略只会造成小程度的高估。而对高能力水平被试来说，成功执行w 撕n e r 策略则会得到严重的低估；m l e 的模拟结果表明：对高能力水平被试来说，成功执行w a i n e r 策略会产生严重的高估( 这一点与b 奸相反) 。即使是中等能力水平的被试，成功执行w j i n c r 策略之后也可能得到默认的最大能力值4 。真实的测验数据也得到了类似的结果：当使用e a p 能力估计方法的时候，大多数被试使用w a i n c r 策略得到低估的能力值；而当使用m l e 能力估计方法的时候，有2 3 的被试获得了默认的最大能力值4 “1 。 e 1 e n ac p a p a n a s t a s i o u ( 2 0 0 2 ) 在研究中尝试着提供一种新的方法一“重新安排”方法，即在不损失测验质量和效率的情况下允许被试修改他们的答案。该研究的目的就是评价“重新安排”方法的效率，也即为了更好地估计被试的能力重新安排并跳过一些项目，以防止被试使用w a i n e r “作弊”策略。作者通过模拟研究对其效率进行评价。结果表明“重新安排”的方法有是有效的，它能够降 9 允许检查并修改答案的c a t 研究低贝叶斯估计的标准误，并且能够提高能力估计的可靠性”1 。 2 3 3 相关研究存在的问题我们知道，不允许修改答案的c a t 相对于p p 来讲是一种缺陷，而允许修改答案的。叮又有可能为使用w a i n e r 策略的被试提供可乘之机，那么是否存在某种解决办法，既使c a t 能修改答案，又让那些使用w a i n e r 策略的被试不致于 “占便宜”得到不合理的能力高估值呢? 我们认为，这对。玎的发展是一个有意义的论题，这也是本文写作的基本出发点。纵观“第二组研究”，我们发现大多数研究者在估计被试能力时，仅仅记录了修改后的答案并仅根据该记录评分，而对修改前的原始作答信息不予考虑。我们认为：计算机化测验相对于p p 最大的优点之一就是，计算机能够记录被试的所有作答信息，不仅能够记录被试在自适应阶段的作答信息，而且还能够记录被试在检查修改阶段的修改信息。如果将被试尽可能多的信息( 修改前后作答的信息) 综合起来考虑，就有可能对被试进行更为精确地评价。或许有人要问，如果综合修改前后作答信息进行能力估计，这时得到的能力估计还是3 p l ，m ( 或2 p i m ) 中那种单维的能力吗? 这里面是否掺杂了其他维度的能力? 比如说，思维的流畅性等等。我们不敢断然否认这一质疑。但是我们的想法是：对于不允许修改答案的c a t ，若某个被试完全有能力答对某个项目但笔误了，但由于不允许修改答案，他，她的能力会被低估。相反，若某个被试没有能力答对某个项目却猜对了，又不允许修改，他，她的能力会被高估。这时，如果允许修改，修改的结果可以更真实地反映其能力水平。所以不允许修改答案的c a t 是有失公平的。而对于允许修改答案的。玎，有可能第一次反应正确，修改后变得不正确；也可能第一次反应错误，修改后变正确了。这与修改前后都正确或错误的那些被试的能力理应有所不同。所以我们认为对允许修改答案的 c a t 的作答信息的收集不能只看结果而不看过程。由前所述，一个成功运用w a i n e r 策略的被试，他她在自适应阶段故意错误作答所有项目( 得分向量为零向量) ，在检查修改阶段正确作答所有项目( 得分向量为“1 ”向量) 。如果仅根据修改之后的记录进行m l e 估计，那么会得到不合理的正偏能力估计值。如果综合考虑被试在两阶段的作答信息，是否会降低高估的程度而获得更加精确的能力估计值呢? 针对这个问题，本文提出两种新的评分方式及其模型，并根据相应估计试图对付w 甜n e r 策略。 1 0 允许检查并修改答案的c a t 研究第三章本文采用的评分方式 j a v i e rr e v u e l t a 在一项研究中提出了三种项目修改的方案：作答完所有项目之后进行修改( r e ) ：每作答完一个项目块( 比如说五个项目) 进行一次修改( r b ) ；每作答完一个项目就进行一次修改( r i ) 。在r b 情境下，被试作答完一个项目块，接着就修改，然后继续测验下一个项目块。而在r i 情境下，每作答完一个项目就立即进行修改”。本文只考虑r e 测验情境，即被试作答完所有的项目之后，才允许其检查并修改答案。被试作答完所有的项目之后再进行修改，可以理解为每个被试对每个项目作答两次。被试在自适应阶段的作答记为第一次作答，在检查修改阶段的作答记为第二次作答。如果没有进行修改，即确认第一次作答的答案为第二次作答的答案。本文只讨论长度为m 的定长c a t ，只考虑o 1 评分的情况，并选用3 参数逻辑斯蒂克模型( 3 p u ) ，其项目特征函数表示如下： 1 一r f p 面暑c j + _ = 二= = 一 o 1 ) 7。 1 + e x p 一d 何( 如一切) 】、 ( 3 1 ) 式中p 可表示被试口答对第，个项目的概率，如表示被试a 的能力值，回、6 j 和口分别表示第j 个项目的区分度、难度和猜测度。本研究中量表因子d 取1 7 。我们假设第一次正确作答给b e t a 分( b e t a 0 ，1 ) ，第二次正确作答给 ( 1 b c t a ) 分。也即对第一次作答反应赋权值为b e t a ，对第二次作答反应赋权值为( 1 b e t a ) 。这样的话，当b e t a o 且b c t a l 时，所得的分数组合就有四种情况：( o ，o ) 、( b e t a ，o ) 、( 0 ，1 b e t a ) 和( b c t a ，1 b e t a ) ，所得项目综合分数也就有四种情况：0 、b c t a 、1 。b e t a 和1 分。特别地，当b e t a = 0 时，只考虑第二次作答结果；当b e t a = 1 时，只考虑第一次作答结果。本文用( 啊表示被试a 在第，个项目上的第一次作答反应，用巩，+ m 表示被试口在第，个项目上的第二次作答反应( o ，1 ，巩，+ m o ，1 j ， f 一1 m ) 。于是本文提出的新的评分方式可以记为： = 曰咖+ 仉，f + m 1 1 一口e 胁)( 3 1 ) ( 3 2 ) 式中表示被试口在第_ 个项目上两次作答的综合反应 ( p 勺 o ，眈缸，1 一艇缸，1 ) 。类似于l d r d 针对参数估计过程中的缺失数据提出的新函数”“，本文将综合得分矩阵y = 1 l 的“似然函数”记为：；向n 厶鳊1 ( 3 _ 3 ) = 兀兀厶岫鳊 ( 3 _ 3 ) 口1 1 一l ( 3 3 ) 式中为被试数，q 哪表示被试a 答错第，个项目的概率。与( 3 3 ) 式对应的对数似然函数可记为：允许检杏并修改答案的c a t 研究历 1 n 工= l n 娲+ ( 1 一) l n q 田) ( 3 _ 4 ) 在接下来的参数估计过程中，如果采用m l e 方法，些、兰兰、些、 o n io d jd c l 旦些以及相应的二阶导都和以前的对数似然函数求导式相同，只不过用了( 3 d 执一2 ) 中定义的p 勺代替原来的己向；如果采用e a p 方法，似然函数及能力的后验分布密度等也都和以前的公式相同，也不只过是用了( 3 2 ) 中定义的p 勾代替原来的u 可。所以，在编写能力估计子程序时并不需要很大的改动( 相对原来的程序) ，唯一需要改变的是得分向量这个入口参数。特别值得注意的是：传统的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）允许检查并修改答案的cat研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）允许检查并修改答案的cat研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档