




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文在项目反应理论( i r t ) 的框架下,就目前流行的在计算机化自适应考试中预查项目 的四种校准方法进行对比和研究它们分别是单e m 循环法( o n ee mc y c l e ,简记为o e m ) ,多 e m 循环法( m u l t i p l ee mc y c l e ,简记为m e m ) ,s t o c k i n g 方法a 和s t o c k i n g 方法b 文中阐述 了它们各自适用的范围和不足之处,为选用预查项目校准方法提供依据 本论文共分三章,主要内容安排如下: 第一章简单介绍了项目反应理论模型和几种常见的参数估计的方法 第二章介绍了在计算机化自适应考试中校准预查项目参数的四种方法 第三章对比分析了四种校准预查项目参数方法的好坏,并根据s t o c k i n g 方法a 对真实数 据进行模拟 关键词:计算机化自适应考试,项目反应理论,单e m 循环法,多e m 循环法,s t o c k i n g 方 法a ,s t o c k i n g 方法b ,联合似然估计,边际似然估计与e m 算法,牛顿迭代法 a b s t r a c t b a s e do i lt h ef r a m e w o r ko fi t e mr e s p o n s et h e o r y ( i r t ) ,t h i sp a p e rc o m p a r e sa n de v a l u a t e sf o u r p r e t e s ti t e m c a l i b r a t i o n s c a l i n gm e t h o d si nc o m p u t e r i z e da d a p t i v et e s t i n g ( c a t ) :o n ee mc y c l e ( o e m ) m u l t i p l ee mc y c l e ( m e m ) ,s t o c k i n g sm e t h o daa n ds t o c k i n g sm e t h o db t h i sp a p e rd 船c r i b e st h e i r r e s p e c t i v es c o p ea n dw e a k n e s s e so fe a c hm e t h o d s ,i tp r o v i d e st h eb a s i sf o rt h ei n v e s t i g a t i o no ff o u r p r e t e s ti t e m c a l i b r a t i o n s c a l i n gm e t h o d si nc o m p u t e r i z e da d a p t i v et e s t i n g t h i sp a p e ri sd i v i d e di n t ot h r e ec h a p t e r s ,t h ec o n t e n ti sa 8f o l l o w s : c h a p t e ris i m p l yi n t r o d u c e st h em o d e lo ft h ei t e mr e s p o n s et h e o r ya n ds o m eu s e f u lm e t h o d so f p a r a m e t e re s t i m a t i o n c h a p t e ri ii n t r o d u c e sf o u ri t e m c a l i b r a t i o n s c a l i n gm e t h o d si nc o m p u t e r i z e da d a p t i v et e s t i n g c h a p t e ri i ic o m p a r e st h ef o u ri t e m - c a l b r a t i o n s c a l i n gm e t h o d si nc o m p u t e r i z e da d a p t i v et e s t i n g a n dc a r r i e so nt h es i m u l a t i o nt ot h er e a ld a t aa c c o r d i n gt os t o c k i n g sm e t h o da k e yw o r d s : c o m p u t e ra d a p t i v et e s t ( c a t ) ,i t e mr e s p o n s et h e o r y ( i r t ) ,o n ee mc y c l e ( o e m ) ,m u l t i p l e e mc y c l e ( m e m ) ,s t o c k i n g sm e t h o da ,s t o c k i n g sm e t h o db ,j o i n tm a x i m u ml i k e l i h o o de s t i - m a t i o n ( j m l e ) ,m a r g i n a lm a x i m u ml i k e l i h o o de s t i m a t i o n ( m m l e ) ,e ma l g o r i t h ma n dn e w t o n r a p h s o n i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过的材料与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名:l f 整日期:兰9 匠:2 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留使用学位论文的规定,即:东北师范大 学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅 本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或其它复制手段保存,汇编学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:塑登指导教师签名始文 日 期:兰哩:! :兰 日 期:拉2 五2 , 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话 邮编 引言 上个世纪初测量理论发展迅速最初,经典测验理论一直是教育和心理测量的工作基础, 但是它取得一些成果的同时也存在着许多无法克服的技术问题诸如:项目统计量严重依赖 于样本,经典测验理论是在平行测验的假设下进行估计,而这种平行测验在实际中是难以实现 的,经典测验理论不能提供不同能力水平的被试如何对项目做出反应的信息,经典测验理论假 设对所有被试的测量误差都是相等的,这显然是难以满足的 项目反应理论是在实践中提出的,它的基本思想是,确定被试的潜质水平和他们对于项目 的反应之间的关系,这种关系的数学形式就是项目反应模型该模型建立了考生的能力水平与 正确作答的概率之间的关系 项目反应理论的起源可以追溯到本世纪3 0 年代甚至可以说,本世纪初期西蒙编制世 界上第一个智力量表时就分析过不同年龄的儿童对于测验项目的不同反应情况,画出了表示 年龄和正确反应概率之间关系的散点图,这些图可以看作是项目反应曲线的原始形式1 9 3 6 年,r i c h a r d s o n 推导出了项目反应模型参数和经典测验理论中项目统计量之间的关系,并首次 提出了参数估计方法;1 9 4 4 年,g u t t m a n 提出了“无误差模型”,也就是理想量表项目;1 9 5 0 年, 社会心理学家对态度测量进行大量研究,首次提出“潜在特质”这一术语,这为以后的工作打 下良好的概念基础 对项目反应理论贡献最大的是美国测量学家l o r d ,他在上世纪五十年代就对项目反应理 论进行了富于拓展性的研究,他的早期工作受到劳勒的影响,他在1 9 5 2 年首次提出项目反应 模型,也就是双参数正态卵型模型,并提出了相关的参数估计方法这是项目反应理论发展史 上的重要里程碑在l o r d 工作的影响下,b i r n b a u m 于1 9 5 8 年提出了比正态卵型模型更容易处 理的l o g i s t i c 模型,以及该模型的统计方法现在l o g i s t i c 模型是项目反应理论中最常用的数 学模型 随着计算机技术在考试中的应用,在项目反应理论的基础上,出现了一种新型的考试方式 一一计算机化自适应测验( c o m p u t e ra d a p t i v et e s t ,简称c a t ) ,它被誉为“测验领域的新天地” 传统的纸笔测验不分被试水平高低,都作答同样一批题目,导致低难度对高水平被试和高难度 对低水平被试而言都是形同虚设,测验效率低下,计算机化自适应测验( c a t ) 扬弃了这一缺 点,它的施测方式是从题库中选择难度在被试能力范围附近的题目进行测试,施测项目少,效 率高;项目的选择和评分更加灵活;测试结果能够更精确地反映被试的实际水平项目反应理 论( i t e mr e s p o n s et h e o r y 简称i r t ) 是计算机化自适应考试重要的理论基础在计算机化自适应 考试中至关重要的问题是评估被试的能力,为达此目的必须对测验的质量( 特别是项目参数) 进行评价 本文基于项目反应理论,运用单e m 循环,多e m 循环,s t o c k i n g 方法a ,s t o c k i n g 方法b 四种方法对预查项目参数进行校准并对四种方法的结果进行对比研究,这为选择校准预查项 目参数方法提供了理论依据和数据支撑 2 第一章预备知识 1 1 项目反应理论的基本思想 ( 1 ) 经典测验理论 经典测验理论关注的重点是测验的整体结果测验试题统计量用难度p 值以及区分度指 数等来描述,p 值是考生组中正确回答某试题的人数比例;区分度指数则用考生对试题的反应 与考生测验总分的相关来表示;测验信度通过平行测验分数的相关来衡量;考生在测验中的 得分取决于考生正确回答题目的个数因此,考生得分和试题难度p 值的衡量尺度是不同的 考生在测验中的得分取决于所接受测验的难度,不同考生在同一考试不同测验形式上的分数, 只有通过等值才能进行比较经典测验理论认为,测验成绩的所有区问上的测量精度都是一样 的,事实上,不同成绩区间的测量精度可能是不同的 ( 2 ) 项目反应理论( i r t ) 项目反应理论的重点深入到考察测验项目,认为考生的成绩或者说能力水平可以通过试 题的一些参数来进行预测或者解释考生的能力被定义为考生正确回答试题的概率在项目反 应理论中,考生能力和试题难度的衡量尺度是一致的试题参数和所测试的考生样本无关,考 生能力与所施测的试题样本无关项目反应理论能够准确地对每个考生的能力进行评估,传统 考试中的信度被“信息”的概念取代 ( 3 ) 项目反应理论的基本思想 项目反应理论是在实践中提出的,它是一种新兴的心理与教育测验理论,它突破了经典测 验理论的局限性它的基本思想是,确定被试的潜质水平和他们对于项目的反应之间的关系, 并将这种关系参数化模型化,这种关系的数学形式就是项目反应模型 1 2 项目反应理论的模型 1 2 i 测量模型 在教育和心理测量中一个主要问题就是如何将被试在所有题目上的反应如何转化为有意 义的量化测量,项目反应理论模型是心理测量潜在特质理论的具体化,是人的测验行为与潜在 特质之间关系的真实描述和模拟模拟计分方式有两种,一种是多级计分,另一种是1 ,0 计 分( 正确记为1 ,错误记为o ) ,本研究仅就1 ,0 计分的l o g s i t i c 模型进行现在l o g s i t i c 模型是 项目反应理论中最常用的模型对考生和试卷进行评价的指标称为参数,通常只关心能力参数 3 ( 口) 和项目参数( a ,b ,c ) ,根据参数的不同。l o g s i t i c 项目特征曲线( 简记为i i c ) 可分为单参数,双 参数和三参数三种模式 1 2 2r a s c h 模型 丹麦学者拉希( r a s c h ) 是最早独立研究项目反应并获得巨大成功的学者,r a s c h 模型通常 也叫单参数的l o g s i t i c 模型,指的是被试的能力与项目难度两者关系的数学模型,它只有一个 项目难度参数而没有区分度参数拉希认为,用一批项目难度去测被试,就是要在一个线性系 统上去确定被试的特质水平,除了项目难度之外,应该维持所有项目的相同性质拉希l o g s i t i c 项目特征曲线为: 眦6 ) = 再莉1 其中:p 表示答对某题的概率,b 表示题目难度,0 表示能力值 1 2 3b i r b a u m 模型 伯恩鲍母( a b i r b a u m ) 于1 9 5 7 年到1 9 5 8 年提出了一个b i r b a u m 模型( 双参数l o g s i t i c 模 型) ,用一个函数将被试在这道题目上的能否正确作答与否与该题目的难度区分度及能力联 系起来。伯恩鲍母l o g s i t i c 项目特征曲线为: p 慨。,= 1 + e z p ( - l a ( o 一- b ) ) 与上式相比,多了一个题目区分度o 1 2 4 三参数l o g s i t i c 模型 为了适应测量中低能力被试在多重选择试题上正确作答进行猜测而出现的非0 ,伯恩鲍母 建议增加了一个猜测概率参数c ,称其为三参数l o g s i t i c 模型其项目特征曲线为t p ( p ;a ,b ,c ) = c + ( 1 一c ) 1 ( 1 + e z p ( 一d a ( o 一6 ) ) ) 其中d = 1 7 0 2 ;0 :被试能力值;a :项目的区分度b :项目的难度;c :项目的猜测系数;p ( 日;a ,b ,c ) 表示具有能力0 的被试答对区分度为a ,难度为b ,猜测度为c 的项目的概率 随着l o g s i t i c 模式越复杂,参数估计的误差也越来越大单参数模式估计时,被试者能力 的估计只受试题的难度的影响;双参数时,被试者能力的估计受试题的难度和区分度两个变量 的影响;三参数时,被试者能力的估计除了受试题的难度和区分度两个变量的影响外,还受试 4 题猜测度的影响,三个变量的作用影响了被试者能力的估计同理,三参数中的难度的估计比 双参数估计误差要大得多;三参数中的区分度估计也是比双参数的偏大,原因是受试题难度的 影响,由于试题的猜测度是一个比较难以度量的量,是一个不稳定因素,从而影响了区分度、 难度的估计 1 3 项目反应中参数估计的几种方法 目前项目反应理论多采用二值计分的单维模型这种模型只适用于一种潜在特质的测量 并且采用o 1 计分方法其中常用的是l o g s i t i c 模型常见的参数估计方法有极大似然法,联 合极大似然法条件极大似然方法、边际极大似然方法贝叶斯方法和e m 算法 设似然方程的一般形式为: n“ l ( u i o , a , b ,c ) = 1 - 霄古叼 j = l = l 其中,u 为n ,n 的项目反应矩阵,其元素为蜘 i 1 当被试j 答对第i 个题目 缸巧。1o当被试j 答错第i 个题目 p ,为被试j 答对项目i 的概率; = 1 一肋为被试j 答错项目i 的概率 a , b ,c 为由各项目参数组成的矢量;n 为被试人数;n 为项目数为计算方便,对上式两边 同时取自然对数,有对数似然方程: nn i n l ( u i o ,o ,6 ,c ) = 【u 玎i n p i i + ( 1 - u i j ) l n q q ,= l i = 1 一极大似然法( m l ) 采用该方法的前提假设是: ( 1 ) 各个被试的作答是相互独立的 ( 2 ) 同一被试对各个项目的作答是相互独立的 似然函数如上:令似然函数对各参数的一阶导数为0 ,对于三参数模型来说,该方程组是 o l n l :0 0 以 o l 五n l :0 d 如 f 0 1 n l :0 d 啦 ( 1 1 1 ) ( 1 1 2 ) ( 1 1 3 ) o _ l n l :o c , c ( 1 1 4 ) 在简单的情况下,如果已经知道项目参数,要求被试的能力值,这时只要求上述方程( 1 1 1 ) 的n 个过程,但在许多情况下,各项目参数是未知的,需要和被试的能力一起估计,这就要采 用联合极大似然法 二、联合极大似然法( j m l e ) 由于在题摩建立之前,被试的能力参数和项目参数均未知,所以欲对这些参数进行估计, 减少这种不确定性,我们可以把j m l e 分化为能力参数的条件估计和项目参数的条件估计能 力参数的估计与项目参数的估计是一个不断校正的过程,将这两部分反复迭代求取稳定值。这 是j m l e 联合求解的重要思想其具体步骤如下t ( 1 ) 给定迭代初值向量o ( 0 1 ,6 ( m ,c ( o i ,目( o ; ( 2 ) 计算出似然函数的值l o = 工( o ( 0 1 ,“,c ( m ,日( o ) ) ( 3 ) 将d ( 0 1 ,6 ( 叭,c ( o ) 看成已知,通过 等0 ,川,2 n 求解0 ( 1 ) ; ( 4 将影2 ) 看成已知,采用n e w t o n - r a p h s o n 迭代求解,6 ( ,c ( 1 ) ( 薹) 。+ = ( 圣) 。十j 一1 ( 囊) 舢:。, :。,。:蠢。, 其中, 0 i n 工0 i n 二0 1 n 工 m 2 面m 。酉m2 百, j 由l n l 的三阶导组成 ( 5 ) 将0 ( 1 ) 标准化,口( 1 1 ,b o ) ,c ( 1 ) 也随之标准化 ( 6 ) 计算似然函数值工l = l ( a c l ) ,b ( t ) ,c ( ,0 ( d ) ( 7 ) 判断i 1 一l o i ,如果满足则退出,否则令三l 一三o ,n ( 1 ) _ d ( m ,6 ( 1 ) _ + 6 ( 0 ) ,c ( 1 ) - + c ( ,p ( 1 ) 叶口( o ) 转至第( 3 ) 步 事实上,j m l e 有其固有的缺陷:在给定测试长度( 即固定项目个数) 情况下,能力参数的 个数是随着被试人数的增加而增加,称之为伴随参数;项目参数是不随被试人数的增加而增加 的,我们称之为结构参数,当能力参数和项目参数不同时进行估计时。伴随参数可能不存在充 分统计量,则2 p l m 和3 p l m 的结构参数的m l e 不一定是相合估计 三、边际极大似然估计( m m l e ) 与e m 算法 只有消除了伴随参数的影响才能消除j m l e 固有缺陷,通过给出能力的先验分布和对能 力参数进行积分,来消除能力参数,即采用能力参数边际化的方法,令 广r p ( 。l ( ) = l ( u 。i o 。,o g ( o 。i c ) d o , ,= 工( t o l o a ,( ) 9 ( p 。) d o a jj 其中c 为项目参数向量,则h ( o l u 。) = l ( u 。i o 。,( ) 9 ( 口) p m 。i ( ) 为0 对t 。的条件分布,即是 0 的后验分布记m = n 。n :1p ( u n i e ) ,m 是基于反应矩阵u 的边际似然函数,则 l n m = 丝ll n p ( u 。f ( ) ( 1 2 ) 我们以三个参数为例将边际极大似然估计与基于边际极大似然估计的e m 算法作比较,更 能体现e m 算法的优越性,求项目参数的边际似然估计 ( 1 ) 求m ; ( 2 ) 令 筹一o ,筹她等一o , 例 。,m m 的一阶导中含有积分符号,通过高斯一厄米特求积公式化积分为求和,可令 警- ( 1 刊e := 1 ( 拖圳一 马( 酬 o 警= 碱鼎t 一, p a x , ) w , 3 = 。 7 其中 筹叫_ l f 妒f k 易( x k ) l p j c x k ) ( 1 - c i ) = 。 马( x k ) = 勺+ ( 1 一勺) ( 1 + e x p ( 一a j ( x k 一) ) ) m l ( x k ) = 1 7 蜀( 甄) “a ,q ,( ) ( 1 一“耐) j = 1 ,、 n l ( x k ) a ( x e l ( x k ) a ( x k ) ) = 。z l , k = l 。两d = l 川一e ,一p 。, | v o k = u 。j h ( x k i d = 1 j = 巧( 甄) q ( 以) 嗡( ) q ( 礼) 巧( 瓤) = ( p j ( x k ) 一c j ) ( 1 一勺) q ( 儿) = l 一弓( 札) 托为求积节点,a ( x k ) 为求积系数,a ,r 佧称为人工数据,从它们表达式中可以得知其统计 意义, 表示容量为的总体中期望具有能力为的被试人数,r 仕表示该总体中具有能力为 的被试期望答对第j 项目的人数, ,r j 女都依赖于项目参数n ,b 的值,且有e ( r j k 只, ) = 0 我们可以看到项目参数对于l n m 求其二阶导是相当复杂的表达式所以,用m m l e 对项目参 数的求解,只能对很少项目才能得到项目参数的估计值1 9 8 1 年,b o c k 和a i k t i n 提出了用e m 算法实施m m l e 我们设想项目参数( 的值在前一次迭代中已算出了一个估计值,若设最近一 次得到的值总比前一次得到的值更接近于真值,则在m m l e 中可用最近一次获得的项目参数 值作为的值,那么人工数据a ,r 仕在下一次迭代中为已知值,且有e ( r j k 一耳,a ) = 0 ,l n m 的二阶导变得比较简单,这种想法极大地简化了迭代的公式和求解过程 e ( 掣) = ( 刊砉( 瓤圳嘲卅掣r 等吲扎彬譬】 8 xh | i 戮嫠 脚 | i o 同理可得 的值,则 其中j = i e ( 耐o l n m 同硒0 2 1 r i m 归( 等肛( 两o f l n m 徊( 等) + 1 - ( e ( 警) 叫e i 砺0 2 1 n l 、, e ( 。0 ,2i 。n 。l j 、 e 研0 2 i n l , e ( 糍) e ( 百0 2 1 n r lj 、 )q=4,b=巧。,cj=弓” 由f i s h e r 得分方法求解,得到项目参数的估计值,每完成一次迭代,我们都要调整权重 a ( x k ) 的值,在边际极大似然估计中,能力的后验分布 ( 口iu ,( ) 中的未知项目参数e ,如果用 上一轮迭代获得的值( ( p ) 代替后就转化为: ( o i p ,( p ) ) = l ( u p ,( ( p ) ) 9 ( o ) f l ( t i 口,( ( p ) ) 9 ( p ) d p ( 1 3 ) 后验分布的这种转化后使m m l e 恰好与e m 算法一致,记为m m l e e m 简单地说,m m l e e v 的算法分为两步: e 步:计算e o 1 n f ( u ,0 l ( ) l ( ( p ) 】= q ( ( i 如) ) m 步:找( ( 叶1 ) 使得q ( e ( p + 1 ) ie 如) ) 2q ( ( i 咖) ) e m 算法在一般条件下可以收敛,并且计算比较简单,但是它的收敛速度比较慢,并且对于 特殊的反应模式( 全答对,全答错) 无法正确估计其项目参数,并且迭代过程中可能使得口,b 的 值很大,从而使估计值越界能力参数在m m l e e m 中不需要迭代,即可根据后验分布h ( 0l “) 得到以的b a y e s 后验期望估计,也可通过( 1 3 ) 得到口的b a y e s 后验众数估计,求b a y e s 后验众 数估计又要进行迭代,因此计算较繁 9 k x 劬 “ 弓 怛,b 一 酞 。m i i 警瞥喾 ,一, l j一 ( 、 嘶勺 爨可错 酬趴耳 布 四贝叶斯方法 已知项目参数,要估计被试能力可以用贝叶斯方法 1 ,确定参数o , a ,b ,c 的联合后验密度; 2 、确定参数p ,a ,b ,c 的联合先验分布,统称假设a 和b 为正态分布,a 为妒分布,c 为卢分 3 确定使联合后验分布达到极大值的a , b ,c 的值 由于贝叶斯方法中先验概率是凭经验确定的,其稳健性还值得进一步证实 1 0 第二章计算机化自适应考试中预查项目校准方法 2 1 研究的现实意义、目标与研究方法 一研究的现实意义; 在我国,有关项目反应理论的研究还是一个比较薄弱的领域,许多重要的考试需要以此理 论来评价试题的好坏,从而评价被试能力的高低,因此成功建立题库成为选拔人才的基本前提, 它体现了选拔的公正性而公正性的前提是要对题库中的题目的项目参数进行估计,校准 在计算机化自适应考试中( c a t ) ,随着时间的变化项目池中的项目变得陈旧,因此补充 更新项目参数是必要的过程这里要求加到项目池中预查项目参数是校准的,并且与项目池中 的项目参数具有相同的尺度 二、研究目标:, ( 1 ) 校准预查项目中的项目参数 ( 2 ) 使校准的预查项目参数与运算项目池中的项目参数具有相同的尺度,按照项目反应理 论,同一项目在不同量纲系统上虽然参数值的数学表达形式不同,但实质却一样这样才能保 证不同年度间的试卷的可比性,进行题库建设 三、研究方法与过程 ( 1 ) 数据处理: 本文采用9 + 6 0 的a c t 数学测试表格随机抽取2 6 0 0 个被试进行测试在基于3 参数 l o g i s t i c 项目反应模型的基础上使用b i l o g 程序对所有项目的项目参数进行估计并把得到的 项目参数估计当作项目参数真值,用于产生模拟数据 5 4 0 个项目分配如下:由5 2 0 个运算项目组成的运算项目池( o p e r a t i o n a li t e m s ) ,预查项目 ( p r e t e s ti t e m ) ,1 0 个锚项目( a n c h o ri t e m ) 其中1 0 个预查项目是从5 4 0 个项目中随机抽取的,1 0 个锚项目是根据项目的难度从5 2 0 个运算项目中随机抽取的有代表性的项目表( 1 ) 给出了预 查项目的真实的参数 表( 1 ) 预查项目的真实参数 预查项目 a bc 项目1 0 7 9 50 2 1 20 0 7 9 项目2 1 1 0 40 1 8 00 1 4 6 项目3 1 1 6 9 0 9 4 10 1 5 9 项目4 1 2 0 10 2 4 5 0 2 2 0 项目5 0 9 5 30 1 6 8 0 2 3 1 项目6 0 5 9 20 2 3 90 1 9 0 项目7 1 1 2 80 2 5 00 1 6 0 项目80 5 7 6 0 3 0 80 2 2 3 项目9 0 ,9 2 51 9 8 00 1 6 8 项目1 0 1 1 9 40 8 6 3o 1 7 2 ( 2 ) 研究方法与过程 通过改变样本容量,对每种校准方法均进行样本容量为3 0 0 ,1 0 0 0 ,3 0 0 0 的模拟,并对其结 果进行对比分析 2 2 单e m 循环法( o e m ) w a i n e r 和w i s l e v y 提出了基于边际极大似然估计的单e m 循环法算法,来校准预查项目 参数 这种方法采用了三个参数的l o g i s t i c 项目反应模型令具有能力0 7 的被试答对项目i 的概 率为 脚巧= l l o j ) = p l ( 岛) = q + 再, ( 2 1 ) 其中,o 。b i ,c i 分别表示项目的区分度、项目的难度、项目的猜测度( 即能力极低的被试正 确作答的概率通常这个猜测值要低于完全随机猜测的概率) ,( i = 1 ,n ) d 为常数1 7 于是又具有能力易u = 1 ,) 的被试,在运算项目池中的项目反应向量u 玎的观测似 然函数为: l ( u i j i o j ) = 只( 易) “。 1 一p i ( 0 s ) 1 - - u i i 2 2 ) 类似地,具有能力岛的被试,在预查项目中的项目反应向量佧= 1 ,耳) 的观测似 1 2 然函数为 工( x 幻l 如) = p k ( o j ) x j 1 一最( 易) 】1 。x q ( 2 3 ) 则由于对给定的预查项目,n 个被试之间的项目反应结果是相互独立的,所以有对给定的 预查项目,n 个被试的联合似然函数为; 工= l ( x k j l o j ) = p kc e j ) j 1 一r ( 巳) 】1 - x u j = ij = l ( 2 4 ) 在单e m 循环法方法中,项目参数的估计是通过边际极大似然估计来求解的,这种方法把 不可观测的能力参数p = ( 口1 ,阶) 看作是潜在数据( 缺失数据) ,把卢印。t i o n 。f = ( 卢l ,风) 看作是参数所以在e m 算法中的b 步为; f = z ( x k j l o ) g c o ) l u j ,陆一t i 帆。f ) 础 j = l 。 ( 2 5 ) 其中gc o ) 是在给定运算项目的项目反应u 玎和项目参数的情况下,能力岛的后验分布,9 ( o ) 近似等于( 岛) 丌警。瑞”( 1 一) 1 - “t ,其中庐( ) 是标准正态密度卢叩。“o n 。f 是已知运算项目的 项目参数即口。i o n 。l = ( 卢l ,岛) 从( 2 5 ) 式可以看出,单e m 循环算法中的b 步紧依赖于运算项目,m 一步,就是使用来 自预查项目的项目反应数据,对( 2 5 ) 求极大似然估计即丝堂匈i 堡盟趔= 0 ( 其中卢为顼 查项目的项目参数向量) 用这种方法得到的预查项目的参数估计更新一次,因为在单e m 循环法中只有一次m 步 被计算了,且由于在b 步中使用的能力的后验密度仅依赖于运算项目,所以从理论上预查项 目的项目参数与运算项目的项目参数具有相同的尺度 单e m 循环法方法的优点是由于在计算能力后验分布时仅用到运算项目,所以在理论上 预查项目的项目参数与运算项目参数具有相同的尺度并且由于在校准预查项目时,彼此是相 互独立的,所以任何一个预查项目都不会影响其它预查项目的校准 2 3 多e m 循环法( m e m ) 与单e m 循环法不同的是,我们增加了e m 迭代的次数直到标准收敛这种方法就是基于 边际极大似然估计的多e m 循环法,这种方法从理论上与单e m 循环法非常相似第一次e m 1 3 迭代对于两种方法是完全相同的,即运用运算项目的项目反应和项目参数计算被试的能力后 验,再通过对( 2 5 ) 式求极大似然估计得到预查项目的参数估计,然而,与单e m 循环法不同 的是从第二次d 步开始的,多e m 循环法方法,使用了来自运算项目和预查项目的项目反应 和项目参数来计算被试的能力后验分布g c e ) ,这时( 2 5 ) 式变成了 r = l ( x k ,l e ) g ( o ) 1 j ,玛,。俐州) 棚 = 1 。 ( 2 5 ) 从( 2 5 7 ) 式可以看出,每次m 步迭代,运算项目的项目参数估计都是固定不变的,然而 预查项目的项目参数估计更新了一次,直到收敛用这种方法由于运算项目的项目参数在每次 m 一步都是固定不变的,所以从理论上来讲预查项目的项目参数与运算项目池中的项目参数具 有相同的尺度 这种方法的一个重要的优点是它充分运用了来自预查项目的项目反应信息然而,也正由 于这种方法在e 一步用到了预查项目的项目反应信息,使得一些不好的预查项目会影响第二次 在b 步能力后验的计算结果,从而影响预查项目参数的校准,尤其是当运算项目很小的时候 ( 如:l o 个项目) 5 2 4s t o c k i n g 方法a s t o c k i n g 于1 9 8 8 年提出了两种联机校准方法:方法a ,方法b 方法a 的基本思想是:它利用来自运算项目的项目反应值和项目参数,求被试能力的极 大似然估计,即具有能力为o j 的n 个被试,在n 个运算项目上的项目反应向量u o 的对数联 合似然为; rn i n l ( u l e l ,“) = ( u ”l n p , ( 0 5 ) + ( 1 一u | 1 5 ) 1 n 【l 一只( 岛) 】) j = t t = l 对( 2 6 ) 式关于能力参数求导产生能力易的估计值,即为: ( 2 6 ) 哟l n l ( u l o z , , , 踟,= 妻叼南篱产+ 5 壹= 1c ,一蜥,f 去两华 ( 2 7 ) 对于每一个给定的被试,可通过求最值程序( 如n e w t o n r a p h s o n 迭代法) 及运算项目的项 目反应得到一个能力的极大似然估计 1 4 s t o c k i n g 方法a 将由上面方法得到的能力估计固定( 即把由( 2 7 ) 式得到的能力的估计值 当作能力真值,当成已知量) 然后将固定的能力用于校准预查项目的项目参数即令在给定 能力真值的情况下,n 个被试在预查项目的项目反应向量x k j 的对数观测似然是; l n l ( x 0 1 ,鼬) = 1 n 工( 粕i 如) j = l n = 确l n 最( 易) + ( 1 一x k j ) l n t r ( 易) 】 对等式( 2 8 ) 关于每个项目的项目参数求导,得到如下形式的三个等式 ( 2 8 ) 旦o a k - 叫即= 薹n 扎,南瓮譬+ 蚤n ( - 一确) f 南掣 ( 2 9 ) 其中,女= a k ,b k ,或诺 对于一个给定的预查项目,可以通过求最值程序( 如n e w t o n - r a p h s o n ) ,及预查项目的项 目反应值来产生预查项目的项目参数的极大似然估计由于能力的估计与运算项目池中能力 的估计具有相同的尺度,并且在预查项目的校准中能力估计被固定,所以预查项目的项目参数 在理论上与运算项目池中的项目参数具有相同的尺度 但是s t o c k i n g 方法a 的一个非常重要的一个理论缺陷是:它把由从运算项目反应中获得 的能力估计当成能力真值,由于估计的能力事实上可能与能力真值不符,所以就有可能影响预 查项目参数的校准然而这种方法是一种自然、直观的方法,并且在操作上也非常容易 2 5s t o c k i n g 方法b s t o c k i n g 方法b 是s t o c k i n g 方法a 的升级版这种方法利用先前已经校准的锚项目,来 纠正由把能力的估计值代替真值所带来的尺度变化假定锚项目的项目参数估计与运算项目 池中的项目参数具有相同的尺度且每个被试都进行运算项目,预查项目与锚项目的测试和 s t o c k i n g 方法a 一样。s t o c k i n g 方法b 利用运算项目的项目反应和项目参数获得每个被试的能 力估计,这个能力估计被固定,用于校准预查项目和锚项目对于锚项目的两次估计,即原来 的参数估计和重新估计的项目参数,用于计算在两次估计中产生尺度上的变化,以减小两种测 试特征曲线的差别通过这种尺度变换使预查项目的项目参数估计的尺度与项目池中的项目 参数估计的尺度相同 1 5 在使用这种方法时,锚项目一定要根据其难度选择有代表性的否则由锚项目获得的不合 理的尺度变换会应用到所有的预查项目这样不好的锚项目就会歪曲尺度变换 在s t o c k i n g 方法b 中,一种设计方案是像如上研究的那样让所有的被试都接受锚项目和 预查项目的测试,但这种设计会增加实际的测试长度;另外一种设计方案是每个被试仅接受预 查项目或锚项目或两者都不,这种设计需要大样本,但不需要增加测试长度 1 6 第三章校准方法的对比分析 3 1 对比方法 一、对比方法, 上面研究的每种条件( 即3 种不同的样本容量) ,模拟实验都要重复1 0 0 次,用四种方法分 别得到参数估计每种方法在每个条件下对1 0 个预查项目的每一个都会得到1 0 0 个项目参数 估计理论上,我们期望预查项目参数估计与运算项目池中的项目参数估计具有相同的尺度 由能力服从标准正态分布,及每次模拟得到的项目参数估计与真实的项目参数估计,用于计算 s t o c k i n g - l o r d 尺度变换函数,这个尺度变换函数为保持总体参数的尺度的好坏提供信息 3 2 评价标准 ( 一) 、通过重新获得的预查项目的特征曲线与真实项目特征曲线接近程度来判定,其具 体指标如下; ( 1 ) 加权均方误差( w m s e ) ( 2 ) 加权方偏( w s b i a s ) ( 3 ) 加权方差( w v a r i a n c e ) 令p ( o l a 女,b k ,吼) 为3 p l 的项目反应模型中真实的项目特征曲线,其中p ( ol n z ,略) 的 第r 次模拟实验得到的已估计的项目特征曲线,其中n 0 ,b ;,c 0 是已估计的预查项目参数,则 对第k 个预查项目的特征曲线的判据是: 1 1 0 0 r 6 击善上。俐) 一p ( o l a f r ,酝撕,嘞伽 ( 3 1 ) 其中,w ( o ) 是服从标准正态的加权函数 方程( 3 1 ) 是真实项目特征曲线与已估计的项目特征曲线的加权均方误差( w m s e ) ,将加 权均方误差分解成加权方偏( w s b i a s ) 和加权方差( w v a r i a n c e ) 1 0 0 一c 1 v - v 而刍上6 俐a k , b k , c k ) 一p ( ,酝r ,训2 叫( 9 ) 棚 = 【p ( o l a k , b k , c k ) - m t ( o ) 】2 州) 硼+ 而1 刍l o ol , , 6 【p ( 嘛蓐) 一州剀2 泖) 抛 1 7 其中 交叉项 1 0 0 州驴而1 三v v 即i 略,6 ;撕r ) 11 0 0 ,6 击萎- 。【即阮小州9 ) j i m 胛) - p ( 愉,靠撕删伽 ( 3 2 ) 1 1 0 0 r 611 0 0 ,6 2 击三上6 【p ( p ,坛,“) m ( 印”( p ) 硼一志至上6 p ( 日,k ,“) p ( p m r ,菇r ,靠m ( 枷 一而1 刍i o o 上s 。m 衲”( 口) 硼+ 而i 备1 0 0 上 6 。m e ( p ) p ( 日6 知。) 叫( 8 ) 硼 = p ( 目胁,b k ,o k ) i n k ( o ) w ( o ) d o 一p ( o a k ,b k ,c k ) m :( o ) w ( o ) d o 一| m 2 k ( o ) w ( o ) d 8 + | m 2 ( o ) w ( o ) d o = 0 ( 二) ,通过项目参数a , b 的偏,标准误( s e ) ,根均方误差( r m s e ) 来进行比较 酬鼬= 击侧 s e ( 凤) =b 罢f 自一逝二) 。 j i - 丽1n r = 1 砧一学) 2 r m s e ( 凤) = 1 8 ( 3 3 ) ( 3 4 ) ( 3 5 ) 3 3 分析与讨论 f 1 ) 当截距趋于0 ,斜率趋于1 时,认为估计参数与真值具有相同的尺度从附录表格【1 】1 可 以看出多e m 循环法、s t o c k i n g 方法b 得出的项目参数估计与真值具有相同的尺度;单e m 循 环法s t o c k i n g 方法a 存在很大的误差 ( 2 ) 从附录表格( 5 j 5 四种方法的加权方差( w v a r i a n c e ) 都是随着样本容量的增加而减小,其 中单e m 循环法在样本容量为3 0 0 ,1 0 0 0 时产生了最小的加权方差,其次是s t o c k i n g 方法a , 多e m 循环法,s t o c k i n g 方法b ( 3 ) 从附录表格【5 】四种方法的加权方偏受样本容量影响较小比较这四种方法的加权方 偏,我们发现,多e m 循环法法比其他三种都好因为它在各种样本容量条件下均产生了最小 的加权方偏另外,s t o c k i n g 方法b 产生了第二小的加权方偏,s t o c k i n g 方法a 在各种条件下 产生了最大的加权方偏总的说来,多e m 循环法法与s t o c k i n g 方法b 在各种样本容量下加权 方偏比单e m 循环法和s t o c k i n g 方法a 要小 ( 4 ) 从附录表格【2 】中可以看出加权均方误差由小到大依次为多e m 循环法、s t o c k i n g 方法 b 单e m 循环法,s t o c k i n g 方法a ;另外,s t o c k i n g 方法b 产生的总体方差比s t o c k i n g 方法a 小 ( 5 ) 从附录表格【3 】、【4 】可以看出项目参数a , b 的平均偏和标准误、根均方误差来看,多e m 循环法在各种条件下产生了最小的平均偏和根均方误差;s t o c k i n g 方法b 产生了较小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 春季养生义诊活动方案策划
- 格瓦斯整合营销方案
- 小型房地产企业管理制度
- 儿童秋衣秋裤活动方案策划
- 十月营销推广方案模板
- 铃木摩托车营销方案模板
- 人造草坪组织施工方案
- 天津趣味跑活动策划方案
- 成华区商业咨询方案公示
- 2025年注册会计师(CPA)考试会计科目真题再现试卷及解析
- 核心素养视域下美术学科“五环式”教学研究
- 《财务大数据分析》教案
- 肥胖症诊断与治疗(2024版)指南解读
- 颅脑CT检查技术讲解
- 2025年高中数学说题比赛系列课件
- 临期品处理办法及流程
- 压裂泵往复密封动态磨损机理及失效自愈控制技术研究
- 消除三病反歧视培训
- 公司储备干部培训启动大会
- 初中英语1900词汇按词性分类
- 《旅游研究方法课程》-课程教学大纲
评论
0/150
提交评论