已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士掌位论文 、1 ste rst l e s 【5 内容提要 计算机化自适应测验是现代测验研究中的一个新领域。它对于提高测验 效率与质量有着重要意义。传统的测验,不论考生水平高低全部要接受同一 批题目的测验,结果对水平低的考生来说,那些难度大的题目,根本无法作 答,反而引起焦虑。对高水平考生来说,那些难度小的题目,又测不出考生 的真实水平,徒然浪费精力。 计算机化自适应考试( c o m p u t e ra d a p t i v et e s t ,简称c a t ) 解决了主动适 应考生状况的“因人施测”问题。c a t 的出现不仅打破了两千多年沿袭下来的 以纸和笔作为作答工具的方式而改为计算机显示屏呈现、键盘与鼠标进行作 答的方式,而且与传统的测验相比,测验思想也发生了巨大的变革:它通过 给每。个被试建立一个个人化的测验来达到更为准确的测量,因为项目的选 择是根据被试的能力水平定身度量而成的,因而被试所做的每一个题目的难 度都是与其能力相匹配的。也就是说,水平高的被试能够避免做到相当简单 的题目,而能力低的被试能够避免做到超出其能力范围之外的题目。从其测 验思路中我们不难看出c a t 考试的众多优点:( 1 ) 测验效率高;( 2 ) 可比 性强。由于特定的实施方式与记分方式,c a t 最终的分数可转化为可相互比较 以及解释的量尺。 目前,在一些发达的国家如美国,c a t 已在教育测验、职业测量、人事 测评等领域中大显身手,如美国研究生入学考试( g r a d u a t er e c o r d e x a m i n a t i o n ) 、工商管理类研究生入学考试( g r a d u a t ef o rm a n a g e m e n ta n d a d m i n is t r a t i o f lt e s t ) 以及全美护士国家委员会资格考试( n u r s en a t i o n a l c o m m i t r e el i c e n s et e s t ) 等都已采取了c a t 的方式。不难看出c a t 代表了 今后教育、心理测验发展的方向与重点。 但是,在我国,有关自适应测验的计算机软件极为少见,国家大学英语 四、六级考试委员会正着手这方面的研究,但目前还没有成品的软件模型问 硕士学位论文 、【 s t e rst “! ! is 世,因此,深入计算机自适应测验的研究对于我国测验技术的发展具有重要 的意义。 本文第一部分从分析传统测验的问题出发,提出了计算机自适应测验的 意义和必然性,同时,对国内外计算机自适应测验发展的状况进行了说明。 第二部分对计算机自适应测验的理论基础进行了分析,着重讨论了项目 反应理论以及本理论在测验工作中的作用。详细地分析了难度、区分度、信 度和效度等重要的概念。 第三部分提出了计算机自适应测验软件模型的设计方法和实施过程,同 时还列出了自适应测验中的一些重要的算法,包括施测算法、组卷算法和抽 题策略等。 第四部分分析了所完成的计算机自适应测验软件模型方案设计。对其中 的功能设计,测验过程及其实现等作了详细的叙述。 第五部分对本软件的测试结果作了报告。 最后对计算机自适应测验软件模型的研究所存在的问题和改进的方向作 了说明。 关键词:自适应测验项目反应理论 算法 5 f 士学位论文 - 、ie ri th :i 】、 a b s t r a c t c o m p u t e r i z e da d a p t i v et e s ti san e wf i e l di nt h em o d e mt e s t i n gr e s e a r c h i t i so fg r e a ti m p o r t a n c ei ni m p r o v i n gt e s t i n g e f f i c i e n c ya n dq u a l i t y i nt h e t r a n d i t i o n a r yt e s t ,a l lt h es t u d e n t sr e c e i v et h et e s tb yt h es a m eb a t c ho fq u e s t i o n s , i r r e s p e c t i v eo fw h e t h e rt h ee x a m i n e sl e v e li sh i g ho r n o t a sar e s u l t n l e e x a m i n e so fl o wl e v e lc a n ta n s w e rt i l eq u i t ed i f f i c u l tq u e s t i o n sa ta 1 1 b u ti tl e a d s t oa n x i e t yo nt h eo t h e rh a n d ,t h ee x a m i n e so fh i g hl e v e l ,t h o s eq u e s t i o n sw i t hl o w d e g r e eo f d i f f i c u l t yc a n 。tt e s tt h es t u d e n t s r e a ll e v e l ,i tm a yw a s t ee n e r g y c a ts o l v e dt h ep r o b l e mi na c c o r d a n c ew i t ht h ee x a m i n e m i c ha d a p t st h e e x a m i n e ss t a t eo i li t so w ni n i t i a t i v e t h ea d p e a r a n c eo fc a tn oo n l yb r e a k st h e p a p e r - - a n d - p e n c i lt e s tp a u e mw h i c hc a r r i e do nf r o m2 0 0 0y e a r sa g oa n dc h a n g e si t i n t ot h eo n eb yw h i c ht h ec o m p u t e rs c r e e ns h o wa n dt h ek e y b o a r da n dm o u s ec a l l b eu s e dt oa n s w e rt h eq u e s t i o n s ,m o r e o v e r , c o m p a r e dw i t ht h et r a d i t i o n a l t h e t e s t i n gi d e a sh a v eu n d e r t a k e nt r e m e n d o u sc h a n g e s t h a ti s ,i ts e t su pap e r s o n a l t e s tf o rae x a m i n et or e a c ha l la c c u r a t em e a s u r e m e n t b e c a u s et h ei t e r n sc h o o s i n g i st ot a i l o ri t s e l ft ot h ea b i l i t yo ft h et e s tt a k e r ,e a c hq u e s t i o nt h a tt h ee x a m i n e a n s w e r sa l lm a t c h e st h e i rc a p a b i l i t y t h a ti st os a y t h eh i g h a b i l i t ye x a m i n ec a r l a v o i da n s w e r i n gt h eq u i t ee a s yq u e s t i o n s ,b u tt h el o w a b i l i t yo n ec a na v o i d a n s w e r i n gt h eq u e s t i o n sw h i c ha r eb e y o n dh i sc o m p e t e n c ef r o mt h et e s t i n gt r a i no f t h o u g h ,i t sn o td i f f i c u l tt of i n do u tc a t sn u m e r o u sa d v a n t a g e sr1 1n l et e s t i n gi s e f f i c i e n c y ( 2 ) i t sm o r ec o m p a r a t i v e b e c a u s eo ft h es p e c i f i ci m p l e m e n t i n ga n d s c o r i n gw a y s ,c a t sf i n a ls c o r ec a nb et u r n e di n t ot h ec o m p a r a t i v ea n de x p l i c a b l e m e a s u r e m e n t a tp r e s e n t ,i ns o m ed e v e l o p e dc o u n t r i e s ,s u c ha sa m e d c a ,c a th a sa l r e a d y d i s t i n g u i s h e di t s e l fi nt h ef i e l d so fe d u c a t i o n a lt e s t ,p r o f e s s i o n a lm e a s u r e m e n ta n d p e r s o n n e lm a t t e r st e s t i n g ,f o re x a m p l e ,a m e r i c a ng r a d u a t er e c o r de x a m i n a t i o n , g r a d u a t ef o rm a n a g e m e n ta n da d m i n i s t r a t i o ne n t r a n c et e s ta n dt h ee n t i r e a m e r i c a nn u r s en a t i o n a lc o m m i t t e el i c e n s et e s ta n ds oo n a l lo ft h ea b o v e 硕士学位论文 、! :e rst f e s is a d a p tc a tw a y i t sn o td i f f i c u l tt of i n do u tt h a tc a ts t a n d sf o rt h ed e v e l o p i n g o r i e n t a t i o na n di nt h ef u t u r ee d u c a t i o na n dp s y c h o l o g i c a lt e s t i n g b u ti nc h i n a , t h ec o m p u t e rs o f t w a r eo nc a tc a l lb eh a r d l ys e e l kt h en a t i o n a l c o l l e g ee n # i s hb a n df o u ra n ds i xt e s tc o m m i t t e ei sg e t t i n gd o w n t ot h er e s e a r c h i nt h i sa s p e c t b u ta tp r e s e n tt h e r e sn of i n i s h e dp r o d u c ts o t s w a r em o d e lc o m i n g o u t t h e r e f o r e ,t og od e e pi n t ot h ec a tr e s e a r c hi so fi m p o r t a n ts i g n i f i c a n c ei n c h i n e s et e s t i n gt e c h n o l o g y t h ef i r s tp a r to ft h i s a r t i c l eb e g i n sw i t ha n u l y 五n gt h et r a d i t i o n a lt e s t i n g p r o b l e m s ,a n di tp u t sf o r w a r dt h em e a n i n ga n dn e c e s s i t yo fc a t , m e a n w h i l e ,i t i l l u s t r a t e st h ec a t si n s i d ea n do u t s i d ed e v e l o p i n gs t a t e t h es e c o n dp a r ta n a l y s e st h et h e o r e t i c a lb a s i so fc a t t h ed i s c u s s i o nc e n t e r s o ni r ta n dt h ee f f e c to ft h et h e o r yi nt h et e s t i n gw o r k , i ta n a l y s e ss u c hd i f f i c u l t y , d i f f e r e n c e ,c r e d i b l y , e f f i c i e n c ya si m p o r t a n tc o n c e p t si ng r e a t e rd e t a i l t h et h i r dp a r tr a i s e st h ed e s i g nw a ya n di m p l e m e n t a t i o nc o u r s eo nc a t s s o f t w a r em o d e l a tt h es a m et i m e ,i tl i s t ss o m ei m p o r t a n ta r i t h m e t i c ,i n c l u d i n g m a k i n gu pa r i t h m e t i ca n ds a m p l i n gt a c t i c sa n ds o0 1 3 t h ef o r t hp a r ta n a l y s e st h ep l a nd e s i g no nt h ef i n i s h e dc a ts o t t w a r em o d e l t t g i v e sam i n u t ed e s c r i p t i o na b o u tt h ef u n c t i o nd e s i g n ,t e s t i n gc o u r s e ,i t s i m p l e m e n t a t i o na n ds oo n t h ef i f t hp a r tg i v e sas u m m i n gu pr e p o r ta b o u tt h et e s t i n gr e s u l t so ft h i s s o f k w a r e i nt h ee n d , i ts h o w st h ep r o b l e m st h a te x i s t i n gi nt h er e s e a r c ho fc a tm o d e l a n dt h ei m p r o v i n gw a y s k e yw o r d s : c a ti r ta r i t h m e t i c 项士学位淹文 i r ! ts l 二三、 前言 传统的测验,不论考生水平高低全部要接受同一批题目的测验,结果对 水平低的考生来说,那些难度大的题目,根本无法作答,反而引起焦虑。对 高水平考生来说,那些难度小的题目,又测不出考生的真实水平,徒然浪费 精力。理论的分析与实践的经验都证明,当题目难度跟考生水平相适应时, 题目所提供的信息量最大,考生的积极性最高,测验效度也就最好。 计算机化自适应考试( c o m p u t e ra d a p t i v et e s t ,简称c a t ) 解决了主动适 应考生状况的“因人施测”问题。c a t 的出现不仅打破了两千多年沿袭下来的 以纸和笔作为作答工具的方式而改为计算机显示屏呈现、键盘与鼠标进行作 答的方式,而且与传统的测验相比,测验思想也发生了巨大的变革:它通过 给每一个被试建立一个个人化的测验来达到更为准确的测量,因为项目的选 择是根据被试的能力水平定身度量而成的,因而被试所做的每一个题目的难 度都是与其能力相匹配的。也就是说,水平高的被试能够避免遇到相当简单 的题目,而能力低的被试能够避免遇到超出其能力范围之外的题目。 从其测验思路中我们不难看出c a t 考试的众多优点:( 1 ) 测验效率高: 实践表明,c a t 测验只需相当于纸笔测验一半的施测时间和约为4 0 的长度, 便可达到与纸笔测验同样的精度。因为在测验实施过程的同时进行了测验的 评分,两个过程合二为一,且测验长度减少了,因此节约了时间;( 2 ) 可比 性强:由于特定的实施方式与记分方式,c a t 最终的分数可转化为可相互比较 以及解释的量尺,因此可同时应用于常模参照测验和标准参照测验。 目前,在一些发达的国家的许多测验中都己采取了c a t 的方式。但是, 在我国,有关自适应测验的计算机软件极为少见,国家大学英语四、六级考 试委员会正着手这方面的研究,但目前还没有成品的软件模型问世,因此, 本文作者从项目反应理论出发,尝试对计算机自适应测验的实现方法进行探 硕士学位论文 mx s t e rst h e s is 讨和研究。在进行理论研究的同时,运用了理论研究的结果开发了一个计算 机自适应测验的平台。 硕士学| _ 主:丈 、f 二、terjth i 、 第一章问题的题出 1 - 1 传统测验所面临的问题 传统的测验对所有被试不论特质水平高低都使用相同的题目进行测 试,这种测验通常表现为“尖峰”型和“平矩”型,当然也有一些测验类 型是介于这两种极端类型之间。对于“尖峰”型测验,它的试题都集中在 同一难度,只有当被试的特质水平刚好处于或接近于这一难度水平时,测 验才能达到较高的精度。如果被试的特质水平偏离这一难度水平时,对于 高特质的被试而言,他会觉得题目太容易,测不出他的真实水平,徒然浪 费精力:而对于较低的特质水平者而言,他又会觉得题目太难,根本无法 作答,反而引起焦虑。结果,测验的精度当然就会很低。“平矩”型的测 验既包括适合于高特质水平被试的难度大的题目,又含有适合于中等特质 水平被试的中等难度的题目和一些适合低特质水平被试的简单的题目,但 是能适合各种水平被试的题目量很少。这样就导致了在多数水平上能提供 相对均等的精确度时,测验的整体精度却相对降低。理论的分析与实践的 经验都证明,当题目难度跟考生水平相适应时,题目所提供的信息量最大 考生的积极性最高,测验效度也就最好。 1 - 2 计算机自适应测验对测验工作的意义 什么是计算机自适应测验( c o m p u t e r i z e da d a p t i v et e s t l 计算机自适应测验是由最早的适应性测验( t a il o r i n gt e s t ) 发展而来 的。 w i l l i a mw t u r nb u l l 于1 9 5 1 年最早提出适应性测验这一概念。, 当时适应性测验是指针对被试先前经验选取适合被试能力的题目进行施 测,作答完立即评分,并以上一题的作答情况决定下一道测题,直至测验 结束为止。也就是在题库中选取符合被试能力水平的题目进行测验。 。薛理银:教育信息处理原理北京师大出版社,1 9 9 6 ( := := : 硕士章哇论文 s i ! j5 :i ;! 。! 适应性测验最早应溯源于b i n e t 智力测验量表,通过设计一个适合孩 子年龄的题目为开端的i q 测验,然后继续给高难度的题目,并且当孩子 不能正确地回答与答对题目同等数量的几个问题时测验就结束了。b i n e t 的i q 测验在今天仍然以更现代的形式被使用。b i n e t 量表是根据被试先前 的反应来决定以后测验项目的选择与分层,施测与评分同时进行,不同的 被试可能接受长度不同的测验。 随着测验理论以及测验技术的发展,适应性测验的思想也在测验中逐 步地得以体现与完善,尤其是计算机科学的迅速发展,给测验带来了全面 而深刻的冲击,计算机自适应测验的出现便是这一冲击下的产物。从测验 呈现方式、测验编制、施测过程,到评分规则,计算机自适应测验与传统 的纸笔测验相比都迥然不同。 计算机自适应测验最早是由l o r d 于1 9 7 1 年首先提出的。它的出现 不仅打破了两千多年沿袭下来的以纸和笔作为作答工具的方式而改为计 算机显示屏呈现、键盘与鼠标进行作答的方式,而且与传统的测验相比, 测验思想也发生了巨大的变革:它通过给每一个被试建立一个个人化的测 验来达到更为准确的测量,因为项目的选择是根据被试的能力水平定身度 量而成的,因而被试所做的每一个题目的难度都是与其能力相匹配的。也 就是说,水平高的被试能够避免遇到相当简单的题目,而能力低的被试能 够避免遇到超出其能力范围之外的题目。 计算机自适应测验与传统的测验比较分析 自适应测验是一个更适合测验应试者的方法,自适应测验能够更精确 的测量应试者能力。 由于考试的形式不必传送到所有考点,所以考试的保密性提高了,试 卷不必保存在一个考试场所,并且某个系列的问题不曾被所有的应试者看 过: 测验时间减少,测验效率更高。测验结束即可知道自己的成绩。 传统的考试提供相同数目的题目给应试者,不用考虑那个人完成测验 的顺利情况。这种类型的测验分数取决于答对题目的数量。一个人懂得越 4 硕士晕莹;i - 丈 、1 s j e rs 1 = 。、 多,他答对的题目越多。 对于任何一个应试者,一些题目过于容易,一些又太难。应试者答 对那些的容易题目并不能说明很多问题,大多数人能答对容易题目。由于 类似的原因,应试者没答对难题,也说明不了什么。如果一个测验能够显 示水平,那么按照应试者测验的难易等级,他们开始发现题目的挑战性, 并且可以获得对应水平的分数,那么,这种测验可能更有效。自适应测验 正是这样做的。考虑到每个应试者如何进行同一个自适应测验回答起初的 题目,测验将适当从给高能力应试者的题目中给低能力应试者一套不同的 题目。低能力应试者将看到相对容易的题目,然而高能力的应试者将看到 更难的题目。两个应试者可能答对相同比例的题目,但是因为高能力的应 试者能答对更多难题,他或她将得到一个更高分。 参加自适应测验的经历可以不确切地与参加一个田径场比赛中的跳 高运动相比较。不管能力如何,跳高者很快达到一个富有挑战性的水平, 在那个水平上,跨过跳栏或撞到跳栏的机会是相等的,跳高者得分与他已 跳过的每次可能低些的高度无关。同样地,他或她不要求试跳所有的更高 的高度。类似地,对于一个参加自适应测验的人来说,在测验中,题目是 按照从易到难的等级进行,分数将以应试者碰到的太难的题目得分为根 据。 这儿有一个例子:设想你是一个给学生提供口语测验的老师。你很可 能通过问一个中等难度的问题开始。如果学生答对了,你很可能问一个更 难的问题;如果他或她答错了,你很可能选择一个更容易的问题。根据学 生对先前几个问题的回答,老师继续选择随后的问题问学生。在很短时间 内,你可能对学生的能力有一个很好的掌握。在整个问问题的过程中,你 可以避免问一些不能帮助确定应试者的能力的很多容易的和难的问题。晟 后,应试者的能力的评定可能不根据正确答案的绝对数量,而是以答对题 目的难度为标准。 自适应测验就象一个好的口语考试。它首先提供一个中等难度的题 目。答案被给出后,题目立即被打分。如果答案正确,测验将应试者的能 力评价为比先前评价的要高。它接着找出并提供一个与那个较高能力相匹 硕士学位论丈 s t e rst h e s is 配的题目( 如果最初的题目答错了,相对的情形出现) ;测验接着提供第 二个题目打分。如果正确,它把应试者的能力重新评价为更高水平。如果 不正确,它把应试者的能力重新评价为更低水平。它接着寻找又一个题目 来与新的能力评价相匹配。随着测验逐步确定应试者的能力水平。这个过 程继续进行,适合于能力的一个评估的分数与每个作答的题目更趋于精 确。当评价的精确性达到一个数据统计的可接受的水平时,测验就结束了。 ( 或者当题目的最大数目被提供时) 。图l 表明应试者作了每1 0 个测验 题目后,应试者的能力评价。随着更多的题目被提供及被回答,这个错 误量降低了。 高 能 力 估 计 低 问题顺序 图l 一个典型的计算机自适应测验模式 当关于应试者能力评价的误差测量量达到一个可接受水平,自适应测 。l o r d m f : a p p l i c a t i o n s o f i t e mr e s p o m * t h c o q t o p r a c t i c m t e s t i n g p r o b l e m s ) h i l l s d a l c n j e d b a u m ,1 9 9 0 。 硕士学位论文 、| iste rsthe s i ! 验常常就结束了。测量误差低表明测验如果重新立即进行,很可能得出类 似分数。因为当测验将结束时,它不是十分清楚,所以自适应测验常常提 供可变量的题目数目。 考试分数。在自适应测验中低能力的人能够回答对同更高能力者同样 数目的题目是可能的。比较两个答对题目的人可能揭示高能力的人能答对 更难的题目。并且因此应得到更高的分数。正是因为如此,分数不以答对 的题目数目为依据,而是从答对题目的难度水平得分的。 自适应测验与一个传统的计算机化测验相比较面言,自适应测验的主 要优点是高效。因为它避免提供在确定应试者的分数方面不提供任何帮助 的题目( 也就是说太易或太难的题目) ,自适应测验能用更少的题目来判 定应试者的分数,有时把测验的长度减少了6 0 甚至更多。 正如以上所述,自适应测验比起固定长度的计算机化考试在通过和不 通过认证决定方面并不更精确,但它更高效。自适应测验用更少的测验题 目和更短的测验时间来判定通过和不通过的决定。在过去的2 0 年里,不 计其数的研究结果证实了这个事实。下面是两个例子,其中一个是在信息 技术工业中认证测验的比较。 加利福尼亚评估程序( c a p ) 的六级教学测验由计算机自适应测验和 计算机化的固定长度的测验( c t ) 两种形式施行,结果表明两种测验的平 均分数基本相同,然而计算机自适应测验节约的时间总量为6 5 6 ( 见图 2 ) o 分 数 c t 计算机自适应测验c t 计算机自适应测验 。w a l s s dj :( i m p r o v i n g m e a s u r e m e n tq u a l i t ya n de f f i c i e n c y w i t hc o m p u t e r i z e da d a p t i v e t e s t i n g a p p l i e dp s y c h o l o g ym e a s u r e m e n t1 9 8 2 ,6 :4 7 3 4 9 2 。l n u血 硕士学位论文 5 j e rst h 二s 【s 图2 图3 为计算机自适应测验和计算机实施的普通形式考试的时间和分数 的一个比较。分数几乎相同,然而测验时间却差异很大。自适应测验花了 比计算机化固定长度考试少7 8 3 的时间。 分 数 c t 计算机自适应测验c t计算机自适应测验 图3 自适应测验的优点 1 即时算分和即时反馈。计算机化测验的重要优点是即时查出考试 结果。立即得到分数和通过以及不通过的判定对应试者来说是很重要的。 2 公平计分。计算机以相同的方式给每个人计分并不考虑与分数无 关的一些因素,如应试者的性别和文化。 3 精确计分。计算机化自适应测验在计算测验结果方面比纸和笔测 验或口语考试精确得多。 4 提高效率。正当计算机化测验证明是更有效时,自适应测验提供 的甚至更有效率。计算机化测验和自适应测验的很多比较数据表明自适应 测验可能节省了应试参考时间的8 0 。 5 方便的个体化管理。 6 改进的测验保密。因为测验的保密性的提高,所以测验结果更有 意义。测验题目的随机排序,对于抄袭别人的答案来说是不可能的,新的 国 眵 ;j 士学垃论文 j ! t ! rs j j i s i 以能力为基础的测验题目对于以后的测验训练来说是难以记住的( 并且有 时是不可能的) 。 7 新的题目类型。新的题目类型提高测量重要技能的测验能力。 8 改进的以能力为基础的测验。用软件模拟,例如,要求认证应试 者直接在测验中演示工作技能是可能的。 9 减少答题误差。比起当他们在纸和笔测验中的答案纸上填入小圆 卷,应试者在答计算机化自适应测验题目时犯更少的无关的错误。 1 0 加强刺激。当没有很好理解时,在计算机上进行测验比在纸上进 行测验更有趣,而且少一些恐惧。 1 1 费用更低。尽管今天可能不是真的,但是在测验发展中,计算机 的增加使用有可能在今后减少测验开发者、测验使用者和考试者的测验费 用。 1 2 提高高低能力测验者的精度。在决定通过和不通过决定方面,自 适应测验和任何其它测验一样精确:然而,为高低能力应试者提供分数, 它事实上是更精确的。因为它能提供很多任何能力水平的项目,它能计算 一个精确的分数。传统的测验在这些程度上没那么精确。 1 3 与固定长度考试成比例的给每个题目更多时间。与传统的考试和 对他们进行了典型的时间限制相比较,经验表明自适应测验甚至有他们最 短的时间限定,提供给每个测验题目更多时间。例如,一个典型的6 0 道 题测验可能有6 0 分钟的时间限定,或者一分钟一道题。同一个测验的自 适应测验形式可能有2 5 道题目的最大数目,但给3 0 分钟去完成测验。即 使以题目的最大数目来计算,自适应测验给了超过一分钟一道题的时间。 如果测验以题目的最大数目量结束,那么每道题给了两分钟。对于每个应 试者来说这是一个有意义的优点,额外的几秒钟可能意味着通过或不通 过。 1 4 等价挑战考试。自适应测验为每个应试者提供一个类似的应试心 理学的考试经历。每个应试者回答那些针对个人的既不太难也不太容易的 挑战性题目。这样就能回避回答很多简单题目的单调乏味的和回答太多难 题的迷惑。 项士学位论文 v j ! i j is :i 二:、 1 - 3 目前国内外自适应测验的发展状况 目前,在一些发达的国家如美国,计算机自适应测验已在教育测验、 职业测量、人事测评等领域中大显身手,不仅是s t a n d f o r d b i n e t 测验, 而且更流行的测验小孩予们或成人的w e c h s l e r 智力测验,都用一个自适 应测验的方法来选择题目。随着计算机在测验传递中的普遍应用,自适应 测验变得更流行。计算机能进行必要的计算,这些计算需要评价应试者的 水平并选择题目进行提供几个很有名的极其重要的测验程序已采用自适 应测验作为他们的现行的和将来的测验方法。教育测验服务是世界上最大 的测验组织,在1 9 9 3 年,它已实行了g r e 考试作为自适应测验,并被逐 渐减少测验的纸张的使用。管理委员会在1 9 9 4 年已彻底地从用纸进行的 测验转交为计算机化自适应测验。同时,1 9 9 1 年在信息技术工业中,n o v e l l 成功地把自适应测验引入认证程序。 除了这些自适应测验程序外,很多试验性的程序正处于研究阶段。这 些包括美国的大学测验、教育能力测验和服役专业能力系列测验。不难看 出计算机自适应测验代表了今后教育、心理测验发展的方向与重点。 但是,在我国,有关自适应测验的计算机软件极为少见,自九十年代 初期开始,全国大学英语四、六级考试委员会一直致力于项目反应理论和 “机助自适应测验”的研究和开发。目前项目反应理论已成功地用于c e t 分数等值处理过程中,但自适应测验软件正在研究建设过程中,目前还没 有成品的软件模型问世。正是基于这些原因,本论文从项目反应理论原理 出发,对计算机自适应测验作了深入的探讨,并在此理论研究的基础上设 计开发了一个计算机自适应测验的软件模型,希望对自适应测验的计算机 实现技术有所推动。 1 0 :二= 硕士学位论乏 、l re r ! r i 、 第二章自适应测验的理论基础 2 - 1 与自适应测验有关的概念 题目难度 对题目进行定量分析主要是对题目的难度和区分度进行分析。题目的 难度是衡量测验题目难易水平的指标,通常以题目的答对比率来表示。 题目区分度 区分度是评价试题质量的又一个数量指标。它用于衡量一道试题鉴别 应试者水平差异的能力。一道试题如果区分度高,那么,水平高的应试者 答对该题的可能性就高于水平低的应试者:如果区分度低,则显示不出这 一鉴别能力。 信度 为了检验某一测验是不是良好的测量工具,应当对测验的质量进行评 估。一个高质量的测验它的结果是可靠且有效的。可靠性( 信度) 和有 效性( 效度) 是评价测验质量的两个重要指标。信度是估计测量一致性程 度的指标。它反映了测验的稳定性和可靠性。从理论上讲,如果在相同条 件下多次地实施等效测验,都得到大致相同的分数,那么可能认为这一测 验的信度高。 效度 效度指的是测量的有效性,即一个测验对它所要测量的特性准确测量 的程度。一个测验,如果能正确地测量出所要测的东西,那么它就是高效 度的测验。例如,一次对于初一年级学生的英语基础知识的测验,如果其 中涉及较多初二或初三的英语知识,那么所测到的结果就不能准确反映应 试者的英语水平,这个测验的效度就不高。 鬻麓 曝光度 曝光度是指题目重复出现的概率。如果曝光率过高,则说明组卷策略 不是很好。通常在控制曝光度方面有两方面的考虑:一是如果题目在规定 的日期范围之内被使用过,本次就不再使用,二是如果有几个同时都满足 条件的题目可供选择,那么在抽取试题的时候应该选择使用次数少的题 目,以达到使用上的平衡和控制曝光度的目的。 2 - 2 难度分析 难度分析的主要目的是为了筛选题目。题目的难度多大合适,取决于 测验的目的、性质以及题目的形式。若测验是为了了解被试在某方面知识 技能的掌握情况,则不必过多考虑难度;若测验是为了测量个体之间的差 别,则以选择接近中等难度的题目为好;若测验用于选拔录用人员时,就 应该比较多地采用那些难度值接近录取率的题目。 利用计算机确定某道试题的难度可以用下列公式来迸行计算:p = z a 或p = r n ( p 为某题的难度,x 为全体应试者该题实得分的平均值, a 为该题的满分值,r 为答对该题的人数,n 为应试总人数。) 由公式可 知,难度的最大值是l ,表示该题难度极小,人人答对;难度的最小值是 0 ,表示该题难度极大,无人答对。理想的试题难度必须符合应试者的水 平。难度过大或过小,将会出现全体应试者都得高分或都得低分的现象。 每道试题的难度一般应在0 4 到0 7 之间,每一测验的全套试题应难易兼 有,且其难度要有合理的分布,平均难度应控制在0 5 到0 6 之间,这样 的试题才具有良好的鉴别能力。 测验难度直接影响着分数的分布。如果被试的取样具有代表性,对于 中等难度的测验,其分数分布应呈正态分布。如果测验分数的分布背离正 态分布,则有两种情况:一种是题目难度普遍较大,应试者的得分普遍较 低,使得低分端出现高峰,呈正偏态。另一种情况是题目难度普遍较小, ;士学幢论文 :、一! r5l ! “, 应试者的得分普遍较高,使得高分端出现高峰,呈负偏态。当测验的分数 分布明显偏态时,可以通过改变不同难度题目的比例来进行调整。其实也 并不是所有测验都要求其分数分布为正态。 2 - 3 区分度分析 通常计算区分度的方法是先将应试者的成绩从高到低排列,从中划出 一个高分组和一个低分组。两组人数相等,分别占总人数的2 7 。那么, 确定某道题的区分度可用公式:d = p 。一p 。来进行计算( 其中,d 为该题的区 分度,p 。为该题高分组的通过率,p 。为该题低分组的通过率。 若已知某题各个考生的得分与试卷的总分,我们也可以把该题各考 生的得分与试卷总分的相关系数作为该题的区分度值。所谓相关系数,是 表明两列变量相关程度的指标,它的计算公式即是在上述已知条件下试题 区分度的计算公式: d = y 胛一堡型n j 肛掣i z y2 _ 掣2 d 为题目的区分度,y 为该题各考生的得分与试卷总分的相关系数,x 为 某应试者完成该题的实得分数,y 为某应试者试卷的总分数,n 为应试总 人数。区分度的最大值是1 ,表示区分度高:区分度的最小值是一l ,表示 考分与应试者的实际水平相反。区分度在0 。3 以下的试题一般不录用。 2 - 4 信度分析 对信度的计算常用的方法是分半法。所谓“分半”就是把一次测验的 试题分成等量的两份,每份试题的难度基本相等( 一般按试题的奇偶题号 分半) 。在分别统计出两半试题的分数之后,可用下面的公式先计算这两 部分试题得分的相关系数: 硕士学| 【_ 主论文 sre rst h ! j js 主( x 。一i k i )( x 。一x k y j 舻季丽 ,为两部分试题得分的相关系数,i 为某个应试者,x 。为某应试者第一部 分试题的实得分数,i 为第一部分试题所得分数的平均值,y 。为某应试者 第二部分试题的实得分数,f 为第二部分试题所得分数的平均值,r i 为应 试者的总人数。如果两部分试题分数的相关系数y o ,则需再用校正公式: a = 2 y ( 1 + y ) 来求出整个测验的信度,其中,口为该测验的信度,为该 测验两部分试题分数的相关系数。 若两部分试题分数的相关系数) ,0 ,则不必再用上面的公式校正,可 直接估计整个测验的信度口为0 。信度也可利用应试者回答试题对错的统 计量计算: h a = 一 以一1 b 吼 1 一生一 s 其中, 瑾为某测验的信度,n 为该测验中包含的试题数,a 为第i 题答 对人数的比率,吼为第i 题答错人数的比率,吼= 卜a ,s 为该测验总分 数的标准差。 信度的最高值为1 ,最低值为0 。一般来说,信度值在0 。9 以上的测 验才算符合标准。 2 - 5 效度分析 硕士学生j :丈 、s :e r ! t r 5 、: 通常可由下面的公式对效度进行计算 窆( x 。一2 x y , 一彳) v = ! :! 一 79 n s d , s d 。 其中,y 。为某测验的效度,i 为第i 个应试者,x ,为第i 个应试者 在该测验中的得分,y ,为第i 个应试者的效标分数( 效标就是指人们根据 不同的测验目的而确定的能体现测验目的的效度标准。效标分数就是反映 人为确定的效度标准的分数。在实际测验中,由于测验目的难以及时地体 现,所以往往将较高层次的测验成绩或过去某一阶段统一测验成绩的平均 值作为效标分数) ,x 为该测验的平均分数,y 为效标分数的平均分数, s d 、为测验成绩的标准差,s d ,为效标分数的标准差。 效度的最高值为l ,表示测验结果完全符合测验目的:效度的最低值 为一1 ,表示测验结果与测验目的恰恰相反。如果效度值为0 ,则说明测验 结果与测验目的无关。 2 - 6 项目反应理论 项目反应理论是计算机自适应测验的基本理论。计算机自适应测验从 题库的建设到测题的选择再到最后的评分,都是以项目反应理论为指导进 行的。 在项目反应理论中“项目特性曲线”是项目反应理论的一个中心概 念。所谓“项目特性曲线”就是表征被试的能力或特质水平与其对一个测 验项目的正确反应概率之间关系的二维曲线图,所有关于项目反应理论的 研究工作,诸如各类项目反应模型的提出以及相应的参数估计方法等,都 可以看成是围绕这一中心概念而展开的。 硕士学位论文 s te rs :h e s 【s 2 - 6 i 基本假设 教育和心理测量的目的在于将被试的不能直接测量的内部潜在特质 用测验分数来进行估计,从而推断和评估其发展水平。不同的测验理论, 对被试的能力或特质水平与测验条件下被试对项目所作反应之间的关系 有不同的假设和描述、项目反应理论是通过建立一定的项目反应模型来描 述这种关系的。它的基本假设主要有以下三种:单维性假设、局部独立性 假设和项目特性曲线假设。 2 - 6 2 项目反应模型 项目反应模型较多,不同的项目特性曲线假设对应着不同的项目反应 模型。项目反应模型与被试的测验分数及潜在特质之间的关系。应用最广 的项目反应模型是二级评分项目反应模型,即最优量表模型和l o g i s t i c 模型。 最优量表模型。最优量表模型是指对于一个测验项目,如果被试的相 应能力或特质水平目达到或超过了难度水平b ,那么该被试就能对此项目 作出正确反应,反之则不能( 如图4 ) 。 答对概率p 图4 l o g i s t i c 模型。项目特性曲线描述的是各种特质水平的被试( 般 用臼表示) 对某一测验项目的正确反应概率( 一般用p ( 日) 的表示) 。 1 6 硕士学位论文 s tf rst ! ! i 、 一定能力或特质水平的被试对某一测验项目的正确反应概率只与该项目 的质量有关。一般来说,被试的特质
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西师范大学现代文理学院《空间形态》2024-2025学年第二学期期末试卷
- 荆州职业技术学院《商务翻译》2024-2025学年第二学期期末试卷
- 重庆五一职业技术学院《计算机绘图CAD》2024-2025学年第二学期期末试卷
- 天津美术学院《钢琴五》2024-2025学年第二学期期末试卷
- 湛江幼儿师范专科学校《无机及分析化学实验A(下)》2024-2025学年第二学期期末试卷
- 内分泌科查房制度
- 山西信息职业技术学院《营养与健康》2024-2025学年第二学期期末试卷
- 青海建筑职业技术学院《公共阅读政治》2024-2025学年第二学期期末试卷
- 娄底职业技术学院《无线通信网络》2024-2025学年第二学期期末试卷
- 2026山东省环科院股份有限公司及权属企业专业人才社会招聘34人考试参考题库及答案解析
- 2024年湖南长郡中学丘成桐少年班选拔数学试题(含答案)
- 妇女儿童权益讲座
- 2025年四川省高考化学试卷真题(含答案解析)
- 网络工程师第1讲课件
- 教育测量与评价 课件全套 朱德全 第1-15章 教育测量与评价概述- 教育测评结果的统计处理
- 高中英语跨学科教学活动设计
- 证书合作合同协议
- 尾矿坝工程项目施工方案
- 学校食堂副食品配送服务投标方案(技术方案)
- 数学竞赛辅导:《高中数学竞赛辅导班》教案
- T-ZRIA 002-2024 工业巡检四足机器人通.用技术条件
评论
0/150
提交评论