




已阅读5页,还剩83页未读, 继续免费阅读
(信号与信息处理专业论文)基于项目反应理论的计算机自适应题库系统irtcabs的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要近年来,项目反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 是心理与教育测量非常活跃的研究领域,并正迅速成为主要的测量理论之一。项目反应理论是在批评经典测量理论( c l a s s ic a lt e s tt h e o r y ,简称c t t ) 的局限性的基础上发展起来的,随着统计方法的完善和计算机的普及,项目反应理论很快被应用于各类大规模考试和计算机辅助测验( c o m p u t e r b a s e dt e s t i n g ,简称c b t ) 。尽管有坚实的理论基础,项目反应理论在具体实现应用中仍存在许多有待进一步研究和探讨的问题。在以往的工作中,大部分的研究和应用都是基于经典测量理论的题库研究与实现。本文首先分析了项目反应理论目前没有实用化的原因,较为系统地讨论了项目反应理论模型,探讨了它与经典测量理沦模型相区别的一些性质与独有的特性。在实现算法上,本文研究了基于项目反应理论i r t 的组卷模型和组卷算法,并提出了一种基于自适应遗传算法的智能组卷算法,该算法利用遗传算法的思想,引用惩罚函数的方法自适应地调整适应度函数,不仅避免了遗传算法中经常出现的“早熟现象”,而且有效地解决了智能组卷中的约束优化问题,具有很好的性能和实用性。本文探讨了i r t 智能组卷中包含半结构化或非结构化的决策问题,是个复杂的建模过程,提出一个组卷决策支持系统,具有灵活的、动态的环境,帮助测验专家完成复杂的决策过程。本文详细地探讨了基于i r t 智能组卷的模型管理系统( m m s ) 的设计。本文进一步研究构建了基于项目反应理论的计算机自适应题库系统,提出一种用整数规划方法来设计题库,使得白适应测验中的曝光问题得以充分解决,并且为自适应测验题库减少了编写题目的开销。本文还研究建立计算机自适应题库系统中的评估模型,通过评估项目反应模型中的存在参数( 能力参数和项目参数) 进行估计以校准题库,该模型包括学生模型s m b i n 、实例模型e m b i n 和任务模型,可以评估学生在测验表现中知识的不确定性。该模型支持多种反应模型,具有一定的通用性。最后,本文对基于i r t 的计算机自适应题库系统做了展望与尝试,提中国科学技术大学博士论文出一个分布式体系结构的i r t 题库系统模型,并进行了基于多a g e n t 的智能i r t 题库系统研究。关键词:项目反应理论,计算机自适应题库系统,决策支持系统,评估模型i i摘要a b s t r a c ti nr e c e n ty e a r s ,an e w l yd e v e lo p i n gp s y c h o m e t r i ca n de d u c a t i o nt e s tt h e o r y ,n a m e di t e mr e s p o n s et h e 。r y ,s h o r tf o ri r t ,h a sa t t r a c t e dal o to ff o r e i g na n dd o m e s t icr e s e a r c h e r sf o ri tsf i r m l yt h e o r e t ic a lb a s isa n de x c e l l e n tg e n e r a l i z a t i o np e r f o r m a n c e i tr a p i d l yb e c o m e so n eo ft h ep o w e r f u lt h e o r ie sf o rt e s t 1 td e v e l o d sb a s e d。nc r i t ic iz i n go nt h el i m i t so fc l a ss ic a lt es tt h e o r y ,s h o r tf o rc t t ,a n dw i t ht h ed e v e l o p m e n to fs t a t is t i c a lm e t h o d sa n dt h ep o p u l a ru s eo fc o m p u t e r ,i r tisr a p i d l yu s e di nm a n yl a r g e s c a l et e s tsa n dc o m p u t e r b a s e dt e s t i n g( c b t ) h o w e v e r ,t h e r ea r em a n yp r o b l e m st ob es o l v e db e f o r ei tb e c o m e sad r a c t ic a lm e t h o d a l m o s ta 1 1o ft h ep r e v i o u ss t u d ie sa n da p p l i c a t i o n sa r eb a s e do nc t t i t e mb a n k i nt h ist h e s is ,w ef i r s t lya n a l y z et h er e a s o nw h yi r t h a sn o tb e e ni np r a c t i c en o w ,a n dd is c u s st h eb a s ici r tm o d e lsa n dt h ed if f e r e n tp r o p e r tie so f i r tf r o mc t t f 0 1 lo w i n gt h ea b o v ed is c u ss io n ,t e s tc o n s t r u c t i o nm o d e lsa n da l g o r i t h m sa r es t u d ie d ,a n dan e wa l g o r i t h mf o rt e s tc o n s t r u c t io nb a s e do na d a p t i v eg e n e t ica l g o r i t h misp r o p o s e d t h isn e wa l g o r i t h mr e a c h e st h eo p t i m a ls o l u t i o nb ya d a p t i v e l ya d j u s t i n gf i t n e s sf u n c t i o nb a s e do np e n a l t yf u n c t i o n i nt h isw a y ,i tn o to n l ya v o i d sc o n v e r g i n gp r e m a t u r e l y ,b u ts 0 1 v e st h ec o n s t r a in e ds a t is f a c t i o np r o b le i t l s ,w i t hg o o dp e r f o r m a n c ei np r a c t i c e i r t b a s e dt e s tc o n s t r u c t i o ni n v o l v e sas e m i s t r u c t u r e da n du n s t r u c t u r e dd e c is i o np r o b l e m ,w h ic hisav e r yc o m p le xm o d e l i n gp r o c e s s ad e c is i o ns u p p o r ts y s t e misp r o p o s e dh e r et os u p p o r tan o n e x p e r tu s e rt om a k ead e c is io nf o rt e s tc o n s t r u c t i o n ,w i t hf le x i b lea n dd y n a m i ce n v i r o n m e n t i nt h ist h e s is ,am o d e lm a n a g e m e n ts v s t e mf o ri r t b a s e dt e s tc o n s t r u c t io nisd is c u s s e di nd e t a i l i nt h es t u d yo fte s tc a l i b r a t i o n ,w es t u d yt h ed e s i g no fi te mp 0 0 1so fc o m p u t e ra d a p t i v eb a n ks y s t e m ( s h o r tf o rc a b s ) t h ea p p r o a c ho fi n te g e rp r o g r aj l 】m in gp r e s e n t e dh e r eist od e s i g nt h ei t e mp 0 0 1si i i中国科学技术火学博士论文ino r d e rt oc o n t r o lt h ep r o b l e mo fi t e m e x p o s u r ea n dr e d u c et h ec o s tf o ri t e mw r i t i n go fi t e mp o o l sf o rc o m p u t e r iz e da d a p t i v et e s t i n g i nt h ist h e s is ,t h ea s s e s s m e n tm o d e lf o rc o m p u t e ra d a p t iv ei t e mb a n ks y s t e mise s t a b lis h e d s t u d e n tm o d e lb a y e s i a ni n f e r e n c en e t w o r k( s m b i n ) a n de v i d e n c em o d e lb a y e s i a nin f e r e n c en e t w o r k ( e m b i n ) a r ep r o p o s e df o rm a n a g i n gu n c e r t a i n t ya b o u ts t u d e n t s k n o w le d g e ,a se v id e n c e db yt h e i rp e r f o r m a n c e si na s s e s s m e n tt a s k s t h ef 【o d e ls u p p o r ts玎】a n yi t e mr e s p o n s em o d e ls ,w i t hg o o dp e r f o r m a n c einp r a c t ic e f i n a l l y ,w eg i v eap r o s p e c to fi r t c a b s ad is t r i b u t e da r c h i t e c t u r es y s t e ma n dam u l t i a g e n ts y s t e mf o ri r t c a b sa r ed r o d o s e d k e y w o r d s :i t e mr e s p o n s et h e o r y ( i r t ) ,c o m p u t e r b a s e dt e s t i n g ( c b t )c o m p u t e ra d a p t i v eb a n ks y s t e m ( c a b s ) ,d e c is i o ns u p p o r ts ys te m ( d s s )a s s e s s m e n tm o d e l1 v第一章前言第一章前言1 1 研究的背景和意义考试制度的创设虽然源自中国,绵延数千年后,世界各国争相采用,以作为一种选拔依据。但是中国却一直没有针对“考试”这门学问进行比较科学化的量化分析,致使近代的心理教育测量学( p s y c h o m e t r i c s ) 却发展并发扬于国外,西风东渐后,才传入中国。心理教育测量学是一门研究心理教育测验( p sy c h o l o g i c a lte s t in g ) 与评估( a ss e s s m e n t ) 的科学 1 ,测验理论( 1 ,e s tt h e o r y ) 是一种解释测验资料间实证关系( e m p i r i c a lr e l a t i o n s h i p s ) 的有系统的理论学说,它的发展,迄今已进入不同的新纪元,测验理论学者通常把它划分为两大学派:一为经典测量理论( c l a s s i c a lt e s tt h e o r y ) 一一主要是以真分数模式( t r u es c o r em o d e l ) 2 ,3 为骨干;另一为现代测量理论( m o d e r nt e s tt h e o r y ) 一一主要以项目反应理论( i t e mr e s p o n s et h e o r y ) 4 ,5 ,6 ,7 为架构。虽然目前这两派并行流通于测验学界,但项目反应理论却有后来居上,逐渐凌驾经典测量理论之上,甚至进而取而代之之势。计算机科学技术的发展以及教育测量理论的完善使得计算机辅助测试( c o m p u t e r b a s e dt e s t in g ) 倍受关注、日渐流行于教育测量界,逐步脱离了传统的纸笔测验( p a p e r a n d p e n c i lt e s t i n g ) 阶段。随着计算机化的测验种类不断增多,我们采用测验发送模型( t e s td e l i v e r ym o d e l ) 来描述测试形式的各种方法。计算机辅助测验的测验发送( t e s td e l i v e r y )的系列模型 8 如图1 1 所示。测验针对项日水平的适成度图1 1 测验发送的系列模型可以看出一个测验针对项目水平的适应度从左到右是递增的。早期定l中国科学技术大学博士论文义的线性测验( l i n e a rt e s t ) ,是不具有自适应性的,所谓线性,表现为考试中测验题目的顺序性本质。由于没有适应性,这些测验被看做是固定格式测验( f i x e d f o r mt e s t s ) ,即它们与传统的纸笔测验本质是相同的,只不过是用计算机来管理实施;快速线性测验( l i n e a r o n t h e f 1vt e s t jn g ) 是一个固定长度的测验,在每次考试前确定唯一的测试形式,满足教学内容和教育测量规范的目标。这些测验也不具备适应性:习题集( t e s t le t ) 是许多试题的集合,通常是用试题难度的先验知识或测试内容专家的知识提前构建的。可按照题目难度或内容范围进行阶段测试:掌握模型使用简单的决策规则,有效地将考生分类;基于i r t 的自适应测验模型是根据考生的表现提供相应的题目,直到测验成绩单准确率( 如,测量的标准误差) 达到某个水平,或直到做完指定数量的题目( 如,固定长度的c a t ) 。c a t 具有有效性、测量范围广、与相对安全性等特性。有效性是指在保证测量准确性不变的情形下,测验长度可减少5 0 或更多 9 。c a t的自适应本质保证了测试的能力范围广。因此,考生将会看到与他的能力水平相当的题目。另外,对测验中所有题目的有限曝光提高了测验的安全性。自从计算机产生以来,人工智能( a r t i f ic i a li n t e l l i g e n c e ) 便成为人类的一个梦想:利用计算机解决至今人们还不知道如何解决的问题,从而大大地扩充计算机的用途,引发计算机软件和硬件的变革,对人类的生活起到不可估量的影响。因此人工智能有着强大的潜力,一直吸引着计算机学家、心理学家、教育学家等各个学科的专家学者的不懈努力。人们希望可以利用计算机模拟人类智能解决现实世界中的难题,由此,我们将人工智能的思想引入到教育测量当中,进行基于i r t 的计算机自适应题库系统的研究。在以往的工作中,大部分的研究和应用都是基于经典测量理论的,项目反应理论虽然比较成熟,但在计算机辅助测验的具体实现上仍然存在许多有待进一步研究和探讨的问题,主要有:测量理论模型选择所谓模型选择,即选择合适的i r t 模型覆盖来自任何“自然”形式的测验数据。为实现这一目标,需要能进入反应过程的深远的洞察力和刻化项目性质和人的能力的相互作用的精确方法1 0 。第一章前言组卷模型和组卷算法选择基于i r t 的针对不同的测验目的选择的不同组卷模型 1 1 ,1 2 ,l3 ,同时实现这些组卷模型的算法有待进一步的研究。决策支持i r t 智能组卷中包含半结构化或非结构化的决策问题,是一个复杂的建模过程,需要一个组卷决策支持系统,具有灵活的、动态的环境,帮助测验专家完成复杂的决策过程。建立题库题库是计算机辅助测试的基础,测验专家可从题库中抽取满足要求的题目,要建立一个用i r t 模型进行标定( c a l i b r a t i o n ) 的项目的题库。评估模型( a s s e s 8 m e n tm o d e l )效度( v a l i d i t y ) 是测验测到它打算测的东西的程度,或者说,是根据测验分数所作出的推论的恰当性程度。人们之所以要编制和使用测验,就是为了要解决问题。我们所使用的测验,所应用的测量工具,它测的到底是什么;对我们打算要测的东西来说,实际测到的程度如何;根据测验,我们能作出什么解释和推论;这种推论和解释的恰当性如何。总之,测验在客观上到底能做到多好,这就是测验的效度问题。因而我们为了评估学生在测验中表现的知识不确定性而建立相应的评估模型。分布式与智能计算机及网络技术的迅速发展,日益成为社会进步的催化剂,正在引起社会的巨大变革。教育作为社会的一个子系统,在网络的催化作用下,其教育方式、教学内容、教育时空及教学模式等也同样发生着剧烈的变化。整个教育系统已经在不断地进行着解构与新的整合,以建立一种网络化的终身学习的社会教育体系。基于w e b 的计算机辅助测试是有待研究的一个方面。计算机辅助测验是计算机辅助教学c a i ( c o m p u t e ra s s is t e di n s t r u c t i o n ) 的一个重要应用,基于项目反应理论的计算机自适应题库系统是c b t 的发展趋势。因此,研究和解决上述的问题将项目反应理论实用化将是非常有意义的。1 2 研究现状分析项目反应理论的基础模型已经较为完善,目前的研究多偏向于它的理论与应用研究等。近几年来,基于项目反应理论的计算机辅助测验的研究中国科学技术大学博士论文规模达到了空前的盛大。美国e t s 组织研制的主要测验成果有g r e 、g m a t ,t o e f l 圆、和c l e p ,荷兰c i t o 组织以及中国台湾等组织在从事着这方面的研究,中国大陆在i r t 模型应用方面的研究仅处于萌芽阶段,这表明国内在这一方面的研究和推广工作才刚刚起步,远还没有形成规模。1 2 1 项目反应理论的现状分析项目反应理论是在批判经典测量理论的基础上发展起来的。但事实上,项目反应理论被用于解决真实测验的情形比起经典测量理论广泛应用的情形而言,尚属少数,微不足道。其主要原因有下列几点:1 项目反应理论是建立在理论假设严谨的数理统计学概率模式上,是种复杂深奥、艰淄难懂的测验理论,这对于在数学方面训练有限的教育与心理学界学者而言,无非是一大挑战。阅读有关此理论之数学方面的研究报告与专著,已颇感困难,实在更难深入将之发扬广大。2 多数项目反应理论学者都是出身自数学界或曾是数学主修者,或至少在数理统计学上训练有素者,他们偏爱对理论模式的探讨,远胜过于对实际应用的推广工作。3 过去,计算机科技的进步有限,没有软件程序的即时配合,项目反应理论中对模型参数的估计难以用手算或小型计算机顺利进行,因此,在应用上更受限制。4 有些经典测量理论的拥护者,对项目反应测量理论的研究与发展所能获得之成效与应用性深表怀疑。为了证明与解释疑惑,项目反应理论学派的支持者,便更朝理论模式的量化技术方面探讨,致使项目反应理论的发展愈数学化、数量化。5 近于严苛的基本假设,项目反应理论所能适用的教育与心理测量方面有限,并且需要大样本的配合,因此使得它的应用性大打折扣,未获一般测验使用者的全力拥护。本文就是希望能在将项目反应理论实用化方面做出一定的贡献与尝试。1 2 2 计算机测验现状分析最简单的计算机测试,是机存单份测验( 如e p q ,m m p l 人格问卷等) ,然后由计算机施测、评分、报告结果;其次是机存卷库( 如高教自考科目的一批试卷) 然后由计算机随机调取一份试卷排版印刷,仍取纸笔测验方第一章前言式施测。这两种方式计算机都是单纯的媒体工具,在测验的编制形式上毫无影响,智能化程度较低。基于题库的测试分为以经典测量理论为指导的测试与以项目反应理论为指导的测试,包括纠算机自适应测验( c o m 口u t e ra d a p t iv et e s t i n g ) ,在这里,计算机都不是单纯的媒体工具而具有决策者的职能了。在以往的工作中,大部分的研究和应用都是基于经典测量理论的。虽然自从项目反应理论提出以来,i r t 基础模型逐步完善,但关于选用恰当的i r t 模型建立自适应测验的题库系统还存在很多问题,尤其对于中国考试中多种题型并存的情形的自适应题库系统的建立还相对空白。1 2 3 基于i r t 的计算机辅助测验智能化现状分析在基于i r t 的计算机辅助测验中,组卷算法的实现是问题求解的过程,是人工智能的最古老、一直吸引大家研究的问题。人们希望利用计算机的高效而廉价的运算能力求解一些困难的问题。这个问题是从可能的组合和序列中选取一个答案,不过由于现实问题的规模比较大,因此求解这些问题的程序很可能产生组合爆炸的可能性,即使是运算速度很高,内存很大的计算机对这类问题也会显得无能为力,从而导致问题难解。因此,研究者不断地探索求解问题的有效算法,例如状态空间搜索的深度优先( 回溯法) 、宽度优先和a 算法,问题规约,动态规划,贪心算法,局部搜索 1 4 ,模拟退火 15 ,神经网络 1 6 ,遗传算法 17 等等。组卷问题是一个典型的约束满足问题,其求解方法,基于目前的研究可分为2 种:回溯法( b a c k t r a c k i n g ,简称b t ) 和局部搜索( l o c a ls e a r c h ) 。另一种分类方法是基于搜索的方式,可分为二大类:系统搜索( s y s t e m a t ics e a r c h ) 和产生一测试法( g e n e r a t e t e s t ,简称g t ) 。回溯法属于系统搜索方法,局部搜索属于产生一测试法。还有其他可以求解约束满足问题的算法,如遗传算法、蚂蚁算法 1 8 等。目前,智能算法在基于项目反应理论的教育测量领域的应用还有待进一步改善,目前的组卷策略智能化不高,大部分集中在整数规划法( i n t e r g e rp r o g r a m m i n g ) 1 9 ,如单纯形法( s i m p l e x ) 等 2 0 。本文将在此做进一步研究。计算机辅助测验的主要功能是帮助测验专家选择各种组卷方法,满足不同目的和不同要求的组卷问题。基于i r t 的组卷包含半结构化或非结构化的决策问题,这个决策是一个非常复杂的建模过程。决策支持系统中国科学技术大学博士论文( d e c is i o ns u p p o ns y s t e m ) 2 1 是支持解决半结构化或非结构化问题以提高决策效率的软件系统,它将系统分析的方法和计算机技术结合在一起,进行信息分析、方案设计和方案评价与优选,达到决策支持的目的,从而使决策工作的效率得以进一步提高。目前将决策支持系统( d e c is i o ns u p p o r ts y s t e m ) 的思想应用于计算机辅助测验并实用化正处于起步阶段。1 2 4 测验评估的现状分析计算机辅助测验与传统的纸笔测验( p a p e r a n d p e n c i la s s e s s m e n ts )相比,最显著的优点是可以很快获得考试成绩报告,并将测验结果方便地存储到数据库中备用,作为评估的一个基础。美国心理学协会和美国教育研究协会制定的“教育与心理测验标准”规定:“效度就是由测验分数或其他评估形式所作出的推论的恰当性( v a l id i t yr e f e r st ot h ea p p r o p r i a t e n e s so fi n f e r n e s sf r o mt e s ts c o r e so rt h ef o r m so fa s s e s s m e n t ) ”。分为三种类型:内容效度( c o n t e n tv a i d i t y ) 、效标关联( 预测) 效度( c r e i t e r i o n r e l a e d p r e d ic t i v ev a l i d i ty ) 、结构效度( c o n s t r u c tv a l i d i t y ) 其中内容效度对学业成绩测验特别重要。因为在实施这种测验时,我们希望知道学生掌握某方面知识、技能已达到的程度如何。但是目前还没有一个关于评估学生的知识掌握情况的通用模型,因而这是本文研究的重点之一。1 3 本文的研究内容与方法一个计算机辅助测验系统的结构大概分为下面几个部分 8 :( 1 ) 题库( i t e mp o o l s ) :( 2 ) 组卷算法;( 3 ) 测验发送系统( t e s td e l i v e r ys y s t e 【n ) ;( 4 ) 成绩报告( s c o r er e p o r t i n g ) 。基于项目反应理论的计算机自适应题库系统还有很多有待改进和进一步研究的问题。本文主要从事了以下几个方面的研究:项目反应理论及其模型的探讨。本文较为系统的讨论了项目反应理论模型,探讨了它与经典测量理论模型相区别的一些性质与特性。组卷模型与算法的研究。目前,在实现算法上采用的是修改的单纯形法等,本文针对项目反应理论讨论了组卷模型和组卷算法,并提出了一种基于自适应遗传算法的智能组卷算法,该算法利用遗传算法的思想,引用惩罚函数的方法自适应地调整适应度函数,不仅避6第章前言免了遗传算法中经常出现的“早熟现象”,而且有效地解决了智能组卷中的约束优化问题,具有很好的性能和实用性。i r t 组卷的决策支持系统的研究。本文探讨了i r t 智能组卷中包含半结构化或非结构化的决策问题,是一个复杂的建模过程,需要一个组卷决策支持系统,具有灵活的、动态的环境,帮助测验专家完成复杂的决策过程。本文详细地探讨了模型管理系统( m m s ) 的设计,提出了一个基于i r t 智能组卷的模型管理系统。计算机自适应题库构建的研究。本文进一步研究了基于项目反应理论的计算机自适应题库系统的构建,提出一种用整数规划方法来设计题库,使得自适应测验中的曝光问题得以充分解决,并且为自适应测验题库减少了编写题目的丌销。评估模型的研究。本文还研究了计算机自适应题库系统中的评估模型的建立,提出贝叶斯推论网络( b a y e s i a ni n f e r e n c en e t w o r k )的学生模型( s t u d e n tm o d e l ) 与事实模型( e v i d e n c em o d e l ) ,可以评估学生在测验表现中知识的不确定性。分布式与智能化的研究尝试。本文对基于i r t 的计算机自适应题库系统做了展望与尝试,提出一个分布式体系结构的i r t 题库系统模型,并进行了基于多a g e n t 的智能i r t 题库系统研究。1 4 本文的组织结构本文第二章简要系统介绍了项目反应理论及其模型应用;第三章研究了组卷模型和组卷算法,并提出基于自适应遗传算法的研究;第四章介绍了i r t 组卷的决策支持系统研究,详细探讨了模型管理系统;第五章探讨了计算机自适应题库构建的研究:第六章研究了内容效度的评估模型;第七章对全文的工作作出了总结与展望。附录给出了关于工作展望的部分尝试。中国科学技术大学博士论文第二章项目反应理论及其模型研究2 1 项目反应理论与经典测量理论的比较项目反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 是一种新兴的心理与教育测量理论。项目反应理论是在批评经典测量理论的局限性的基础上发展起来的。经典测量理论的模型及其发展是经许多学者的研究与阐述而最终形成的 2 2 ,2 3 ,2 4 ,2 5 ,2 6 ,其内涵主要是以真实分数模式( 即观察分数等于真实分数与误差分数之和,数学公式为x = t + e ) 为理论架构,依据弱势假设( w e a ka s s u m p t i o n ) 而来,其理论模型的发展己为时很久,且发展得很有规模,所采用的计算公式简单明了、浅显易懂,适用于大多数教育与心理测验信息以及社会科学信息的分析,为目前测验界使用于流行最广的理论依据。然而,除了上述各项优点外,经典测量理论却有下列诸多先天的缺陷 2 7 ,2 8 :1 、经典测量理论所采用的指标,如:难度( d i f f ic u l t y ) 、区分度( d is c r i m i n a t i o n ) 和信度( r e l i a b i l i t y ) 等,都是一种样本依赖( s a m p led e p e n d e n t ) 的指标;也就是说,这些指标的获得会因接受测验的受试者样本的不同而不同,因此,同一份试卷很难获得一致的难度、区分度或信度。2 、经典测量理论以一个相同的测量标准误差( s t a n d a r de r r o ro fm e a s u r e m e n t ) 作为每位受试者的测量误差指标,这种做法并没有考虑受试者的个别差异,对高、低能力两极端的受试者而言,这种指标极为不合理且不准确,致使理论假设的适当性受到怀疑。3 、经典测量理论对非平行( n o n p a r a l le 1 ) 但功能相同的测验所测得的分数间无法提供有意义的比较,有意义的比较仅局于相同测验的前后测验分数或平行测验分数之间。4 、经典测量理论对信度的假设,是建立在平行( p a r a l l e lf o r m s )测量的概念假设上,但是这种假设往往不存在于实际测验情境里。道理很简单,因为不可能要求每位受试者接受同一份测验无数次,而仍然假设每次测量间都彼此独立不相关。而且,每一种测验并不是一定同时都制作平行测验,因此平行测验的理论假设是行不通的,第二章项目反廊理论及其模型研究从方法学逻辑观点而言,它的假设也是不合理的、矛盾的。5 、经典测量理论忽视受试者的试题反应形态( i t e mr e s d o n s ep a t t e r n ) ,认为原始得分相同的受试者,其能力必定样;其实不然,即使原始得分相同的受试者,其反应形态也不见得会完全一致,因此,其能力估计值应该会有所不同。项目反应理论( 或称为试题反应理论) 是在克服经典测量理论缺陷的基础上建立起来的,它具有以下特点,这些特点正是经典测量理论所无法具备的 4 ,5 ,7 ,2 8 ,2 9 :l 、项目反应理论所采用的试题参数( i te mp a r a m e t e r s ) ( 如:难度、区分度、猜测度等) 是一种不受样本影响( s a m p le f r e e ) 的指标;也就是说,这些参数的获得,不会因为所选出接受测试的受试者样本的不同而不同。2 、项目反应理论能够针对每位受试者,提供个别差异的测量误差指标,而非单一相同的测量标准误差,因此能够精确估计受试者的能力估计值。3 、项目反应理论可经由适用的同质性试题组成的分测验,测量估计出受试者个人的能力,不受测验的影响( t e s t f r e e ) ,并且对于不同受试者间的分数,也可进行有意义的比较。4 、项目反应理论提出以试题信息量( i t ej 】i n f o r i l l a t i o n ) 及试卷信息量( t e s ti n f o r m a t i o n ) 的概念,来作为评定某个试题或整份试卷的测试准确性,有取代经典测量理论的“信度”作为评定试卷内部一致性指标之势。5 、项目反应理论同时考虑受试者的反应形态与试题参数等特性,因此在估计个人能力时,除了能够提供一个较精确的估计值外,对于原始得分相同的受试者,也往往给予不同的能力估计值。6 、项目理论所采用的适合度统计值( s t a t is t ico fg o o d n e ss o f f i t ) 可以提供测验模式与资料间的适合度、受试者的反应是否为非寻常( u n u s u a l ) 等参考指标。综上所述,项目反应理论是在批评了经典测量理论的局限性的基础上发展起来的一种现代测量理论。随着近年来人类在计算机科技上的突飞猛进,各种适用于项目反应理论的软件程序相继产生。相信在可预期的将来,项9中国科学技术大学博士论文目反应理论要取代经典测量理论是指日可待的事。2 2项目反应理论的基本概念与基本假设2 2 1 基本概念项目反应理论建立在两个基本概念上 2 6 ,4 :( 1 ) 考生( e x a m i n e e )在某一测验试题上的表现情况,可出一组因素束加以预测或解释,这组因素叫做潜在特质( l a t e n tt r a i ts ) 或能力( a b = i t je s ) ;( 2 ) 考生的表现情形与这组潜在特质问的关系,可通过一条连续性递增的函数来加以解释,这个函数叫作项目特征曲线( i t e mc h a r a c t e r is t icc u r v e ,简称为i c c ) 。把不同能力的考生得分连接起来所构成的曲线,便是能力不同的考生在某一测验试题上的项目特征曲线,把各试题的项目特征曲线累加起来,便构成了试卷特征曲线( t e s tc h a r a t e r is t cc u r v e ,简称t c c ) 。因此,项目特征曲线即是一条试题得分对能力因素所作的回归线,这条回归线在基本上是非直线的,但直线的项目特征曲线也是有可能的,主要看所选用的项目反应模型( i t e mr e s p o n s em o d e l ) 而定。项目特征曲线所表示的涵义是某种潜在特质的程度与其在某一试题上正确反应的概率的:二者之间的关系;这种潜在特质的程度愈高( 或愈强) ,其在某一试题上的f 确反应概率便愈大。在项目反应理论中,每一种项目反应模型就有其相对应的一条项目特征曲线,此曲线通常包含一个或多个参数来描述项目的特性,以及一个或多个参数来描述考生的潜在特质;因此,所选用的项目反应模型所具有的参数个数及其数值的不同,所画出的项目特征曲线形状便不同。当某一种项目反应模型应用于某种测验数据时,一些项目反应理论的基本特性也会跟着产生。首先,从不同组的试题估计得到的考生能力估计值,除了测量误差外,不会受所使用的测验种类的影响,也就是说,它是试题独立( i t e m i n d e p e n d e n t ) 的能力估计值;其次,从不同组群的考生估计而得到的试题参数估计值,除了测量误差外,也不会受参与测验的考生组群的影响,也就是说,它是样本独立( s a m p le i n d e p e n d e n t ) 的试题参数估计值。上述两种特性,在项目反应理论中叫作不变性( i n v a r i a n t ) ,这些不变性是由在能力估计的过程中考虑试题信息( i n f o r m a t i o n ) ,而在试题参数估计的过程中考虑考生能力信息而得到的。第二章项目反应理论及其模型研究p lc 日)10概率150图2 1 项目特征曲线与考生能力分配曲线如图2 1 所示,e 表示考生或受试者的能力或建造特质,p 。( o ) 表示能力或建造特质为e 的考生或受试者答对或正确反应某一试题的概率。不管考生来自哪个组群,只要他们具有相同的能力,他们答对( 或正确反应)某一试题的概率便相同:由于某特定能力的考生答对某一试题的概率是由试题参数所决定,试题参数对这两组群的学生而言也必定相同。除了上述的特性外,项目反应理论可以针对个别的( 即每一位能力不同的考生或受试者) 能力估计值提供其测量的估计标准误差( s t a n d a r de r r o r s ) ,这不同于经典测量理论仅提供所有考生单一的误差估计值的作法。此外,项目反应理论把能力测量的估计标准误差的平方倒数定义为项目信息函数( i t e mi n f o r m a t i o nf u n c t i o n ) ,它可以用来作为测量能力估计值精确度的指标,有取代经典测量理论中“信度”( r e l i a b i l i t y ) 指标之势 2 9 。2 2 2 项目反应理论的基本假设项目反应理论是利用数学函数的模式进行学生潜在能力的评估,之所以受到重视是因项目反应理论的强势假设( r o b u s ta s s u m p “o n ) ,强调学生特质或能力与测验试题间的关系,并以概率的概念进行数据分析,即答对某一试题的概率是由考生的能力和试题的特性共同决定,从而修正经典测量理论中复本相关概念的弱势假设( w e a ka s s u m p t i o n ) ,下面列出常被提出的基本假设叙述如下 2 9 :l 、单向度( u n i d i m e n s i o n a l i t y ) :项目反应理论中的各种模型有个最常用的共同假设,那就是测验中的各个试题都测量到同一种菇同中国科学技术大学博士论文的能力或潜在特质;也就是说,测验的试题需集中在鉴定某一种特定的能力上,考生答题的好坏,基本上由一种能力或特质来进行规范,其他非能力因素( 如焦虑、答题技巧、速度等) 的发生都为随机状态。这种单一能力或潜在特质( 因素) 必须包含在测验试题卑的假设便是单向度的假设。适用于含有单一主要因素测验数据的项目反应模型,称为单向度模型;当然,向度的假设并不局限于单一向度,适用于含有多种因素的项目反应模式称为多向度( m u l t id i m e n s i o n a l ) 模型 3 1 ,3 2 ,多向度模型的数学公式复杂难懂,而且模型还在发展中,本文是基于单向度模型进行研究的,故不详细列出。2 、局部独立性( l o c a li n d e p e n d e n c e ) :当影响测验表现的能力被固定不变时,考生在任何对试题上的反应在统计学上是独立的;换句话说,在考虑考生能力因素后,考生在不同试题上的反应问不存在任何关系。简单地说,这意味着项目反应模型中的能力因素才是唯一影响考生在测验试题上做反应的因素;例如,对于某能力水平为。的考生而言,他她在某份测验上的反应形态的概率,等于他她单独在第i 、j 、k 三道试题的概率的乘积,即:3j p ( u ,u ,“ 印= 尸( u 。l 口) 尸( ul 口) 尸( 巩j 曰) = u 尸( ul 印,其中。为能力因,= i素,u 。代表该考生在第t 试题上的反应,p ( u 。ie ) 代表具有能力为。的考生在第t 试题上的反应概率,且p ( u 。= 1 1e ) 为正确反应的概率,p ( u 。= o ie ) 为错误反应的概率。3 、项目特征曲线( i t e mc h a r a c t e r is t i cc u r v e ,简称i c c ) 假设:在项目反应理论中,是以考生潜在特质( 或能力) 与试题答对的概率建立其数学函数关系为基础,考生能力越低,答对的概率越低;项目特征曲线指的是被试对某一测验项目的正确反应概率与该项目所对应的能力或特质的水平之问的一种函数关系,并由此能表示出每个试题的难度、区分度、猜测值等特性。4 、非速度测验( n o n s p e e d e dt e s t ) :项目反应模型所适用的情况有个隐含的基本假设,那就是测验的实施不是在速度限制下完成的;换句话说,考生的考试成绩不理想,是由于能力不足所引起的,而不是由于时间不够答完所有试题所致。由于这项假设是隐含在单向第二章项目反应理论及其模型研究度假设里,所以不常被项目反应理论学者所提起。2 3 项目反应理论的模型在项目反应理论中,i r t 模型按照项目特征曲线的数学形式以及项目反应的评分方式分为三类:二元评分( b i n a r yo rd ic h o t o m o u ss c o r in g ) i r t模型、多级评分i r t 模型,连续评分l r t 模型。i r t 模型根据其所处理的测验数据的类型分类如下表2 1 所示 4 :i 数据性质理论模型潜在线性模型( l a t e n tl i n e a r )完全量尺模型( p e r f e c ts c a l e )潜在距离模型( l a t e n td is t a n c e )一兀单、双、三参数正态肩形模型( o n e 一,评分t w o 一,t h r e e p a r a m e t e rn o r m a lo g i v e )数据单、双、三参数l o g is t ic 模型( o n e 一,t w o 一,t h r e e p a r a m e t e rl o g is t ic )四参数l o g is t ic 模型( f o u r p a r a m e t e rl o g is t ic )多元名义反应模型( n o m in a lr e s p o n s em o d e l )评分等级反应模型( g r a d e dr e s p o n s em o d e l )数据部分计分模型( p a r t i a lc r e d i tm o d e l )连续型连续反应模型( c o n t i n u o u sr e s p o n s e )数据表2 1i r t 模型在本研究中所研究的内容是学科能力测验,数据内容包
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度房屋租赁合同(按季度租赁)
- 2025标准房屋买卖合同范本
- 红苋菜养护知识培训
- 2025加强合同管理规范招标代理合作协议
- 流程优化与问题解决指导模板
- 土地流转技术支持合作协议
- 安全与管理培训课件
- 明源软件培训课件
- 企业采购合作框架协议
- 人工智能赋能的2025年智能制造示范工厂建设案例分析报告
- Welcome Unit 开学第一课(课件)高中英语人教版必修第一册
- 人工智能对会计信息披露的挑战与机遇
- 【人教版】二年级上册《道德与法治》全册教案
- 《应用文写作》中职全套教学课件
- 小学英语开学第一课-课件
- 《塑料门窗工程技术规程》JGJ103-2008
- OGSM战略规划框架:实现企业目标的系统化方法论
- (正式版)JBT 9229-2024 剪叉式升降工作平台
- 沃特玛通信基站用铁锂电池
- CPK 生成数据工具
- 建设项目安全设施“三同时”(直接使用版)课件
评论
0/150
提交评论