(概率论与数理统计专业论文)计算机自适应考试曝光率控制.pdf_第1页
(概率论与数理统计专业论文)计算机自适应考试曝光率控制.pdf_第2页
(概率论与数理统计专业论文)计算机自适应考试曝光率控制.pdf_第3页
(概率论与数理统计专业论文)计算机自适应考试曝光率控制.pdf_第4页
(概率论与数理统计专业论文)计算机自适应考试曝光率控制.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 计算机自适应考试题目的选择,既要使考试者能力得到精确的测量,也要尽量使得题库得 到充分的利用在当前的研究表明,一些经典的选题过程如最大信息量法,都会使一些题目产 生极高的曝光率这些方法会使得一些题目频繁的被选择,而一些题目机乎不被选择为了控 制题目的曝光率,一些新的方法被提出和f i s h e r 最大信息量相比,a 分层方法和o i d 方法 使题目的曝光率得到了控制并且保证了测量精度的有效性本文将对f i s h e r 最大信息量,a 分 层方法和o i d 方法的均方误差和曝光率进行比较 关键词:计算机自适应考试,f i s h e r 最大信息量,a 分层,曝光率 a b s t r a c t i t e ms e l e c t i o np r o c e d u r e sd e s i g n e df o rc o m p u t e r i z e da d a p t i v en e e dt oa c c u r a t e l ye s t i m a t e e v e r yt a k e r st r a i tl e v e la n d a tt h es a m ee f f e c t i v e l yu s ea l li t e m si nab a n k e m p i r i c a ls t u d i e ss h o w t h a tc l a s s i c a li t e r ns e l e c t i o np r o c e d u r e sb a s eo nm a x i m i z i n gf i s h e ro ro t h e rr e l a t e di n f o r m a t i o n y _ i d d e dh i g h l yv a r i e di t e m 麟p o s u l er a t e s s o m en e wc r i t e r i o n sa r ep r o p o s e d t h ea - s t r a t i f i e d m u l t i s t a g ea n do i dm e t h o d sp r o c e d u r ei m p r o v e st oam o d e r a t ee x t e n tt h eu n d e s i r a b l ei t e r n e x p o s u r er a t e sa s s o c i a t e dw i t ht h em a x i m i z i n gf i s h e ri n f o r m a t i o nc r i t e r i o na n dk e e p ss u f f i c i e n t p r e c i s i o ni n0e s t i m a t e s t h em a x i m i z i n gf i s h e ri n f o r m a t i o nc r i t e r i o nw i l lb ec o m p a r e dw i t h 和s t r a t i f i e da n do i di n 锄e m p i r i c a ls t u d yu s i n gt h em e a j ls q u a r e de r r o r si n0a n dp l o t so f i t e me x p o s u r er a t e sa s s o c i a 七e dw i t hd i f f e r e n t0d i s t r i b u t i o n s k e y w o r d s :c o m p u t e r i z e da d a p t i v et e s t i n g ;m a x i m u mf i s h e ri n f o r m a t i o n ;a - s t r a t i f i e d ; i t e me x p o s u r er a t e s i i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名:j 缸叠 日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:监 日 期:地基堕 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 邮编 东北师范大学硕士生学位论文 引言 计算机自适应考试( c o m p u t e r i z e da d a p t i v et e s t i n g ,简称c a t 考试) 是项目反应理 论的一个重要应用它是一种自动化的考试,在g r e ,托福等考试中广泛应用c a t 考试 过程的一大特点就是在测试中不断估计被试者的能力水平,然后选取某种选题策略到题库中 选取与被试当前者能力估计值相匹配或者有较高测量精度的试题进行下一轮测试一般的自适 应考试分为2 种: 1 完全自适应即当考生的能力估计值趋于稳定时考试停止 2 考试的题目长度一定即答完规定题目时考试停止 c a t 考试有很多优点,例如: 1 尽量避免抄袭现象 2 根据考生不同的能力估计值,考生会被分配不同的下一考题 3 相比于传统的纸笔考试,c a t 考试的题目更少 4 安排考试更加方便 在早期的计算机自适应考试中,人们最关注的就是参加考试者能力值估计的准确性,一些 方法也相应的被提出,如:f i s h e r 最大信息量法,该方法已经使得测量的精度非常高但是 随着研究的深入,我们也越来越关注考题的安全性问题如果有些题目频繁的被抽取,这些题 目的曝光率就会大大增加,造成题库的浪费,同时也会使考试的费用增加在计算机自适应考 试中,选题策略非常重要而对于下一题目选择的方法我们主要考虑以下两点: 1 保证考生能力的测量精度 2 要尽量平衡每个题目的曝光率 为了解决某些题目曝光率过高的问题,核心就是提出有效的选题策略一些方法相继被提 出,如:t h en e a r e s t n e i g h b o r sc r i t e r i o n ( p h i l i pe c h e n g m i e h e l l el i o u2 0 0 3 ) 但是总体上 讲,我们无法找到一种不但对能力测量最精确而且对题目曝光率的控制最好的方法我们只能 在保证测量精度的基础上尽量控制曝光率本文将对其中的一些选题策略进行一系列的分析比 较,为我们今后选择选题策略提供一些参考 东北师范大学硕士生学位论文 1 c a t 考试的理论基础及其发展 1 1 c a t 考试理论基础 所谓的计算机自适应考试就是将项目按难度排成等级,根据考试者当前能力值的估计情 况,向被试者提供难度合适的题目。c a t 考试不同于传统的纸笔考试,有时被试者不必完成 所有的题目也能达到同样的测验目的其特点是利用计算机的优点,使其成为一种测验工具而 不是纸笔测验的呈现器 c a t 考试是建立在2 0 世纪5 0 年代发展起来的现代测验理论一项目反应理论( i t e m r e s p o n s et h e o r y - - i r t ) 基础上的从题库的建设,参数的估计,试题的选择再到最后的评分 都是以i r t 为指导进行的可以说i r t 是c a t 考试的核心i r t 是新发展起的来的一种先 进测验理论,基于这一理论的测验模型叫i r t 模型i r t 模型是一种数学模型,定义了考生对 试题的反应( r e s p o n s e ) 和其潜在能力特质( 1 a t e n tt r a i t ) 之间的关系i r t 模型不下2 0 余种, 可根据实际情况选择适当的模型在美国,自适应测验发展的比较快,1 9 4 6 年t u c k e r 就提出 了“项目特征曲线”,1 9 5 2 年l o r d 提出了正态卵形模型,1 9 5 7 年b i r n b a u m 构造了l o g i s t i c s 模型,1 9 6 0 年r a s c h 提出了拉什模型,1 9 6 9 年s a m e j i m a 做了可用二级,多级连续评分测验 模式等等。项目反映理论建立了考生反映与试题参数和能力水平之间的非线性模型具有参数 不变性,估计出来的能力值不依赖于测试题目样本的特性同时可以根据题目的信息量,选择 与被测者能力值相匹配的题目直到达到预定的测试精度要求与经典测验理论相比,项目反 映理论是以考生回答问题的情况,经题目特征函数的运算推测考生的能力 , 1 p ( ) 2c + ( 1 _ 一c ) e x p - d 云( b - 0 ) 。 d = 1 7 0 2 为一常数 a 是题目的区分度 b 是题目的难度参数 c 是题目的猜测度 日是考生的能力参数 v ( e ) 是考生答对某题的概率 相比于其它模型,i r t 模型对能力的估计更为准确,较全面解决了考试等值问题通过 定义信息函数这一综合指标,为更科学的挑战题目提供了标准三参数的i r t 模型涵盖比较 广,更接近实际 2 东北师范大学硕士生学位论文 1 2c a t 考试的理论发展 c a t 考试最终的目的是估计考生的能力,最常用的方法是极大似然估计,它简单实用, 可以使用于题目较多的情况,本文将对这种方法做详细介绍贝叶斯估计也是一种比较好的方 法,贝叶斯估计过程如下: 首先给出似然方程 l = n 只( 垆,q ( 旷 对上式取对数再求关于p 的一阶导数 妊纠瑞高卜删一、o j 畸- u e ) 再求关于口的二阶导数 再对上式取期望 小壹i = 1n ;警亭黜 销一去 地一c 圳= 一壹凸针掣爿2 蹦一去i = 1 。 一 。、j ,。 因为似然方程没有显式解,所以将上面的相关式子带入n e w t o n - r a p h s o n 迭代公式( b a k e r k i m ,2 0 0 4 ) : 吼+ ,= 吼一 l l o 一小【厶】。 其中田为后验方差 不断的抽取和受测试者能力相适应的题目是c a t 的基本原则c a t 就是靠采用各种理 想的选题策略来提高它的测验效率因此选题策略的研究成了c a t 研究的一项重要内容。 c a t 考试发展之初,研究选题策略的目标比较单一,仅仅是为了提高测验的效率,即如何能以 最少量的考试题目获得最准确最稳定的被试者的能力估计值通常我们用题库里题目的f i s h e r 最大信息量( m f i ) 来确定所要选择的题目其表达式为: 即) = 矸面苦蒜掣墨器矿丽 随后k u l l b a c k - l e i b l e r ( k l ) 信息量被提出并应用到题目选择过程,其表达式为( c h a n g ,1 9 9 6 ) : 驯地h 粼 3 东北师范大学硕士生学位论文 随着研究的深入,研究者发现,如何维护题库中试题调用的均匀性,提高题库的使用效 率,延长题库的使用寿命也应该是研究选题策略的重要目标之一如果某些题目过度曝光,就 会使得一些题目没有得到充分利用,甚至从来都没有被使用过,而这些没有被充分利用的题 目不久通常会被丢弃,这也就造成了题库的巨大浪费,使得建立题库,补充题库的成本大大提 高对于传统的c a t 考试方法,如f i s h e r 最大信息量法的局限性就是某些题目的曝光率过 高,一些改进的方法相继被提出,如贝叶斯过程( v a nd e rl i n d e n ,1 9 9 8 ) 等等 最优题目难度法( o p t i m a li t e md i f f i c u l t y ,o i d ) ,( l o r d ,1 9 8 0 ) :基于( m f i ) 方法的局限 性,即下一题目的选择大部分由a 决定,l o r d 提出的o ,d 方法主要由难度参数b 来决定下 一题目的选择,即找到具有与当前能力估计值p 最接近的b 的题目作为下一题本文将对这种 方法做详细的介绍比较 m m 方法( m c b r i d e m a r t i n ,1 9 8 3 ) :这是一种半随机的方法:首先在当前能力初值 的基础上,计算4 0 0 个题目的f i s h e r 信息量,从最大的5 个中随机的选择一个做为第一题; 再计算当前能力估计值下4 0 0 个题目的f i s h e r 信息量,从最大的4 个中随机选取一个作为第 二题,以此类推直到做完5 道题,以后考试题目的选择和m f i 方法一样所以这种方法也称 为5 - 4 - 3 2 1 方法这种方法对于曝光率的控制稍稍好于m f i 方法,因为前5 道题虽然是使用 m f i 方法选择的,但是有一定的随机性由于后期仍然用m f i 的选题策略,所以对曝光率的 控制并不理想,而且估计精度稍有降低 s h 方法( s y m p s o n h e t t e r ,1 9 8 5 年) :这种选择方法将题目的选择过程和题目的管理过 程分开这种方法有效的降低了高爆率题目的曝光率,并且使得几乎不被选择的题目有了一点 点曝光率但是这种方法并没有使得低曝光率的题目有更多的被选择的机会同时,这种方法 只有在项目的区分度最大时测验效率最高,所以这种方法会导致测量效率的降低 a 分层法( a - s t r a t i f i e d ) 由h u a h u ac h a n g 和z h i l i a n gy i n g 在1 9 9 9 年提出在计 算机自适应考试的早期阶段,被测试者能力估计是不准确的,早期使用高区分度的题目是不合 适的多阶段分层策略最大的优点便是使得一些低区分度题目曝光率的增加,平衡题目的曝光 率它主要是按照题目区分度的低高分层,在每一层里选择与当前估计值最匹配的b 的题目 每一层的考题数目基本相同,但是为了估计的准确性,我们可以在第一层多安排几道考题这 种方法将在本文做详细介绍随后,他们又提出了。n 分层b 分块”( c h a n g & y i n g ,2 0 0 1 ) 的 方法,继而给出了a ,b 相关时的分层策略 最邻近准则法( t h en e a r e s t n e i g h b o r sc r i t e r i o n ,n n ) 由p h i l pe c h e n g 和m i c k f f e l i o u 在2 0 0 3 年提出这种方法是对o i d 和m f i 两种方法的平衡它的基本思想是:找到 一些难度参数b 和当前能力估计非常接近的题目,再计算这些题目的f i s h e r 信息量,从中选 4 东北师范大学硕士生学位论文 择最大的作为下一考题 上面的几种方法比较具有代表性,但是无论哪种方法都有自己的不足,并且对于不同的考 试长度,这些方法对测量的准确度和曝光率的控制有是否有相同的结果,都有待于进一步的研 究。而在本文,我们将对m f ,o i d 和a 分层三种方法做详细的比较 5 东北师范大学硕士生学位论文 c a t 考试能力的估计 2 1 f i s h e r 信息函数 我们通常用l o g i s t i c s 模型对计算机自适应考试进行拟合及模拟在三个参数的l o g i s t i c s 模 型中,考生答对某道题的概率是 p ( y = 1 j 臼) = c + 再习1 - - 万c 丽 ( 2 1 ) 在这里三个参数里: a 是题目的区分度 b 是题目的难度 c 是题目的猜测度 ( b i r n b a u m ,1 9 6 8 ) 在固定的题库里,这三个参数的值是首先估计出来的 在计算机自适应考试中,选题策略有很多,其中早期应用比较广泛的是f i s h e r 最大信息 量的方法下面我们求f i s h e r 信息函数,首先求似然函数并且对其取对数 l = i n 尸眦q 卜u 其中( p + q ) = l ,对上式求偏导再取期望 g ,= 下u p 一学 再求导数 g ,= 下u p - ( 1 叫苦 一让( p 7 ) 2 乱p ( 1 一钍) ( p 7 ) 2( 1 一钍) p = - 4 - 一二- - - - - - - - - - - - - - - - - - - 一二- - - - - - - - - - - - - - - 一 p 2。p q 2q ( p ,) 2( p ,) 2 - 一一o o o o o o o o p1 一尸 ( 尸,) 2 p q 所以得到f i s h e r 信息函数: 邢) = 业p q = a 2 p q 将公式2 1 带入上面的式子,f i s h e r 信息函数的表达式为 刑) = 面面瓣日( 1 - 瓣c ) a 矿2e x p 罚 a ( 8 丽- 雨b ) 而 ( 2 2 ) 6 东北师范大学硕士生学位论文 因为我们并不知道考试者能力的真实值,所以我们只能用考试者当前能力的估计值来计 算f i s h e r 信息量,这样信息函数变为: ,愉( 1 一c ) 矿e x p a ( o 山) 】 、7 1 + e x p a ( o 一6 ) 1 ) 2 1 一c + c e x p a ( o 一6 ) 】 ) 如果用f i s h e r 最大信息量的方法作为选题策略,我们知道a 较大c 较小的题目,它的i ( o ) 更 大,这样的题目更容易被选择,曝光率也更高。它们对测量精度的影响也就更大,所以我们尽 量在考试的后期使用a 较大的题目来控制曝光率和提高测量精度但是c 值对信息函数值的 影响并没有被考虑进来,所以本文的研究也暂时不考虑c 值这样,我们只考虑两个参数的 l o g i s t i c s 模型,即当c 三0 的情况。f i s h e r 信息函数变为 m 1 竺:竺坐! ! 二型 u 1 + e x p a ( o 一6 ) 】) 2 假如6 i d 是o 的真值,当b = 口。时,上式的最大值是口2 4 ,也就是说,当b = o o 时,a 取 到最大值j ( 日) 也就取到了最大值。但实际上,岛是未知的,但是我们可以找到一种近似的方 法去计算信息量的值,用口代替真值日,并且找到一个与p 最接近的b 去计算信息量的值 ( 用钆表示考生做完k 个题目其能力的估计值) a 要尽可能的大,并且题库也非常的大,能够 保证有足够的b 与钆相匹配,即b 与钆几乎相等,这样i ( o ) 就会非常接近a 2 4 事实上, 口不是p 的真值,它仅仅是一个估计值,并且在估计的早期这个估计值并不准确,如果题库不 够大,不能为估计提供足够多的信息,这两个值甚至会相差很远 当日o o 且a 较大的时候,上式的值会远远小于我们所期望的n 2 4 通过已经推得的信 息函数的等式容易看到,区分度较大的题目更容易被选择,因为相对于区分度较小的题目它们 提供了更多的信息但是在实际的预测分析当中会出现这样的情况:有些题目的a 值很大,但 是它们的b 又不是与伊很接近,这样就会给估计和曝光率的控制带来很大的麻烦我们应该 尽量去避免这些题目被较早的抽取。为了这些题目得到充分的利用,一些改进的选题侧略被提 出,使得a 值较大的题目应该尽量在后面被抽取,或者忽略a 对题目的选择影响而a 分层 的方法和d j d 的方法就是基于此提出的 2 2 考生能力值的估计 在计算机自适应考试中有很多估计能力的方法,如极大似然估计,加权极大似然似估计, 7 东北师范大学硕士生学位论文 b a y e s i a n 估计等等在本文中,我们极大似然方法来估计考生的能力口首先求似然函数, 其中i 表示考试题目 歹表示考生 礼表示参加考试的总人数p + q = 1 当答对时让= 1 。答错时钍= 0 我们令r = 只( 巳) ,q 巧= q , ( o j ) 因此上式可以写成 p r o b ( u j l o j ) = 学簖饥 对等式的两边同时取对数得 钉 l = n p r o b ( u j l o j ) = ( l n r - i - ( 卜u t j ) l n ) i = 1 对上面的等式关于0 求偏导 r 和关于能力估计值0 的导数由项目特征曲线决定由于是非线性的,所以似然方程没 有显式解故我们引入n e w t o n - r a p h s o n 迭代公式计算能力参数的估计值n e w t o n - r a p h s o n 迭代公式的表达式为: 对于三参数l o g i s t i c s 模型。 ,= 附嘲:- 1 吼 鸶 t = 喜吼 粤翕 矧 篱 t = 一壹i = 1 。; 暑 2 8 巳 u一 谚 巳华 。硝 i 如 吩 曲rp 盟鸭丝巧生q 。甜 叠鸭堕乃 n :l = 丝鸭 东北师范大学硕士生学位论文 其中巧= 警,w q = p i j q j 两个参数的l o g i s t i c s 模型( c 兰0 ) 的估计公式: 估计公式具体求法见附录 岛 件。= 色 。一 圣n 量措p 。 9 东北师范大学硕士生学位论文 3 曝光率的控制 3 1 f i s h e r 最大信息量的选题策略 ( 1 ) c a t 考试能力初值的计算 本文所要比较的f i s h e r 最大信息量,o i d 和a 分层的选题策略,考试者最初能力值的 估计方法是一样的( c h a n g y i n g ,1 9 9 6 ) 首先第一个题目的选择:( a l = a o ,b 1 = b o , c l = c o ) ,其中a o = 1 ,c o = 0 2 ,6 | 0 是随机的产生一个标准正态随机数如果第一个题x l 被 答对了,那么下一个题目我们要增大难度,令6 2 = b 1 + 2 ,否则我们就降低难度b 2 = b 1 2 a 2 = a 1 ,c 2 = c 1 ,第三个题的选择和第二题相同以上的过程我们人工化的给出了最初的三 道题,每出现一个鼽值就产生一个2 项分布的随机数,这个随机数如果为1 ,我们就假定考 生做对了此题并且记u = 1 ;如果这个随机数是0 ,那么我们假定考生答错此题记饥= 0 用我们得到的0 或者1 的结果以及鼽的值,来估计考生能力的初值 ( 2 ) f i s h e r 最大信息量选题策略的模拟 在c a t 考试中,某道题目的曝光率就是这个题目总共被选择的次数与参加考试总人数的 比值而f i s h e r 最大信息量的方法并没有给出明确的方法来控制曝光率即便如此,信息函 数在整个过程中起了至关重要的作用上面我们已经给出了能力估计的具体过程和公式,但是 我们想要的不仅仅是一个估计值,我们对估计的偏差,方差和整个估计过程能力值的变化同样 感兴趣这些我们可以通过信息函数来得到c r a m 叠r 在1 9 4 6 年提出,用极大似然估计得到 的口我们可以给出它的分布,并且这个分布的均值是0 ,方差是盯2 ,特别的 拈高 在这里,i ( 0 ) 就是我们已求出的f i s h e r 信息量,并且、南就是这个分布的标准差显然, i ( 6 ) 越大,盯2 就越小因此,方差越大,f i s h e r 信息量提供的信息就越少,估计的精度也会 很低基于以上的式子及分析,我们看到用f i s h e r 最大信息量方法的好处,就是它可以使得 我们每次都有极高的估计精度,并且最后的估计值与真值也非常接近m f i 方法的具体模拟 过程如下: 1 计算考生的能力初值 2 用目前得到的能力估计值计算4 0 0 个题目的f i s h e r 信息量 3 用信息量最大的那道题作为考生的下一个考试题目 4 对考生的能力进行重新的估计 东北师范大学硕士生学位论文 5 返回第2 步,直到做完规定的考试题目 3 2 o p t i m a li t e md i f f c f l t y ( o i d ) 选题策略 基于f i s h e r 最大信息量选题策略的局限性,即a 较大的题目更容易被选择,所以我们要 尽量忽略a 对选题策略的影响d ,d 方法从题目的难度参数的角度考虑,在选择过程中不考 虑a 值,找到与当前能力估计值最接近的难度参数b 的题目作为下一个考题。具体模拟过程 如下: 1 计算考生能力的初值 2 用当前的能力估计值与4 0 0 个题目的难度参数b 做差 3 找到差值最小的做为下一个考题 4 对考生的能力值重新估计 5 返回第2 步,直到答完考试题目 3 3a 分层选题策略 上一节我们给出了f i s h e r 最大信息量的方法来选择考题具有较大区分度并且难度参数 与考生能力值非常接近的题目会提供更多的信息( h a m b l e t o n s w a m i n a t h a n ,1 9 8 5 ,p p 1 0 8 - 1 1 5 ) 因此,对于区分度较大的题目,越精确的估计值口就会有更大的f i s h e r 信息量。由于 伊的估计值越到后来越精确,所以一种有效的办法就是把题库按照a 值的大小分层,在考试的 早期我们选择a 值最小的那一层,而n 值最大的那一层在考试的最后的阶段使用通过对信 息函数表达式的分析我们看到a 值较大的题目曝光率更高,所以通过把a 值接近的题目放在 一起并且在每一层里都选择几个题目,曝光率会得到很好的控制,因为每一个题目被选择的机 会更平均了这使得。较小的题目有更大的机会被选择,但是这些被选择题目估计的偏差会 不会是最小的? 我们在模拟中给出解释。 在项目反应理论中,给考试题目分层的办法并不是新方法( d o r a n s k u l i c k ,1 9 8 6 ;h o l - l a n d t h a y e r ,1 9 8 8 ;s h e s l y & s t o u t ,1 9 9 3 ) 都提出过根据考生的答题结果分层的办法但是 w e i s s 在1 9 7 3 年提出的方法与a 分层的方法最接近,在他的分层设计当中,并不是把题库按 区分度分层,而是按照题目的难度参数分层n 分层的方法步骤如下: 1 计算考生能力的初值 2 将题库按照a 的值从小到大分为k 层 1 1 东北师范大学硕士生学位论文 3 将考试也分为k 个阶段 4 应试者第k 层要考m 个题目,在第k 层找到难度参数与当前能力估计值0 最接近的题 目作为考生的下道试题记三为考试长度,( n 1 + + 讯= l ) 在本文的研究中我们假 定( 佗l = 2 2 = = n k ) 5 重复第4 步( k = 1 ,2 ,k ) ,直到考试完成 我们要考虑以下几个因素决定分层数k 的大小。第一,每一层内a 值的方差,如果题库 里题目的区分度都很接近,那么我们就可以少分几层反之,如果题库里a 值的分布比较分 散,那么我们就要多分几层但是对于题库a 值的分布和具体分层数的关系,我们以后还要进 一步的讨论;第二,就是考虑题库的丰富性,最主要的就是b 的分布,即在每一层里我们能不 能找到一个b 与当前的能力估计值口相匹配在每一层里。难度参数b 一定要有一个很宽的 范围所以丰富的题库可以多分几层;第三,考试的长度;第四,题库的大小如果题库足够 大,分层数k 可以和考试长度非常接近甚至相等 每一层的大小我们也需要考虑通常我们记为题库题目总数,l 为考试长度,讯表 示第k 层的答题数,礼表示第k 层的题目总数,计算公式为n = 【堡争】这样可以保证每一 层题目的曝光率都很接近通常情况下,除了第一层,其它各层所含题目数都相等由于早期 的估计并不准确,所以第一层一定要足够大以保证早期估计相对精确每一层所含的题目数应 该和寺非常接近库容的大小也是决定每一层容量的重要因素,在这里我们就不做讨论 a 分层方法的基础就是找到一个难度参数b 与能力估计值0 最接近的题目而不是找出具 有f i s h e r 最大信息量的那道题这种方法被使用是因为在每一层里区分度a 的值都很接近 因此在2 个参数的l o g i s t i c s 模型中,选择最大信息量的题目就等于是选择难度参数与0 最接 近的那道题,同时a 要尽可能的大但是对于更普遍的3 个参数的模型,要得到最大信息量 就要求不仅要有与口接近的b ,同时也要使得a 尽可能的大,c 要尽量小( c h a n ga n dy i n g , 1 9 9 7 ) f i s h e r 最大信息量这种简单的方法具有较高的有效性,但是同时产生了较高的曝光 率 3 4 曝光率的测量 在这里我们把题目选择的有效性和对p 估计的准确程度联系到一起。这种有效性我们可 以通过对所有考生能力估计的偏差b i a s 和均方误差m s e 的分析得到我们用m 表示参加 考试的总人数,o i 表示第i 个考生的能力,哦表示第i 个考生能力值的估计所以得到的偏 1 2 东北师范大学硕士生学位论文 差的计算公式: b i a s = 圭 二( 坑一吼) ( 3 1 ) m _ 均方误差的计算公式 m s e = 圭f ( 坑一蚴2( 3 2 ) 仇_ 为了检验这三种方法对曝光率控制的好坏,我们有必要进行进一步的研究。最理想的情况 就是所有题目的曝光率都相等。仇仍然表示参加考试的总人数,l 表示考试长度,表示 题库的题目总数用缸表示第i 个题目被使用的次数,则第i 个题目的曝光率可以表示为: 厶 但是对于每一个题目我们所期望的曝光率是 一 l 凹产丙 通常我们用x 2 统计量来分析数据出现的频率( b i s h o p ,f i e n b e r g h o l l a n d ,1 9 7 5 ) 。) ( 2 来刻 画我们观测到的曝光率和期望曝光率的相似性,表示如下: x 2 :- 二( e r i - e - r i ) 2 ( 3 3 )x 2 。i , ( 3 - 3 ) 公式3 3 记录了观测曝光率和理想曝光率的的差异,并且它可以衡量一个题库的利用情况对 于题目曝光率的控制最主要的目的之一就是合理的利用题库里的每一个题目如果一种方法的 x 2 很小,那么这个题库里的大多数题目就得到了很好的利用 为了比较两种方法的曝光率,它们x 2 的值将被比较,x ,x :和) ( : 乃口。笔 ( 3 4 ) 如果毋n 1 ,我们就认为在控制题库里题目曝光率的问题上, a 分层的方法优于f i s h e r 最 大信息量的方法 1 3 东北师范大学硕士生学位论文 5 4 模拟 这部分主要对m f i ( 方法一) ,a 分层( 方法二) 和o i d ( 方法三) 三种选题策略在估计精度 和曝光率的控制方面作比较由第二章的分析得出区分度a ,猜测度c 对f i s h e r 信息量都有 影响,为了改进对曝光率的控制以及忽略c 对曝光率的影响,本文是在两个参数的l o g i s t i c s 模 型( c 三0 ) 下对以上三种选题策略进行比较通常情况下,c a t 考试的长度为4 0 ,为了有 相对细致的比较,本文模拟分为3 个部分:考试的长度分别是2 0 ,4 0 和6 0 对于这三个考 试,考生的能力真值服从标准正态分布并且这个模拟的题库含有4 0 0 道题其中1 0 0 个题目 的a 值是0 5 ,1 0 0 个题目的a 值是1 0 ,1 0 0 个题目的a 值是1 5 ,1 0 0 个题目的a 值是 2 0 4 0 0 个b 值也都服从标准正态分布 由于机器设备条件有限,每种选题策略我们只能对1 0 0 0 个考生进行模拟,并且对每个人 的能力估计只能模拟计算1 0 0 次,所以这会影响测量的精度以及x 2 的值,但是总体上结果还 是好的使用m a t l a b 软件统计软件模拟 ( 1 ) 模拟一。考试长度l = 2 0 ,题库n = 4 0 0 ,考生人数m = 1 0 0 0 模拟一 测量指标方法一方法二方法三 m s e0 0 4 4 20 0 6 6 60 0 9 8 7 入2 1 0 3 4 9 0 26 9 3 5 7 87 7 7 9 8 2 1 4 东北师范大学硕士生学位论文 ( 3 ) 由上面的表格我们可以看到,对于估计的准确程度,三种方法都没有太大的差异,m f j 方法的m s e 最小,估计的就更为精确在曝光率的控制方面,a 分层的方法最好,0 i d 选 题策略稍差一点,m f ,在控制曝光率方面做得最差,其中乃a = 1 4 9 ,几乎是a 分层方法 的1 5 倍而= 1 1 2 我们观察模拟一的三个图:图2 ,由于早期估计的不准确,所以a 分层方法早期题目的曝光率波动较大,但是在考试中后期曝光率得到了很好的控制,考题的抽 取比较均匀图3 ,0 i d 方法的波动一直比较均匀,但是个别题目的曝光率过高最后对于 m f ,方法,我们观察图1 ,题库的前3 0 0 道题( a = 0 5 ,a = 1 和a = 1 5 ) 基本不会被抽 取,只有a = 2 的题目才会被大量过度的使用,这导致了m f ,方法曝光率过高。 1 5 东北师范大学硕士生学位论文 ( 2 ) 模拟二:考试长度l = 4 0 ,题库n = 4 0 0 ,考生人数m = 1 0 0 0 模拟 二 测量指标 方法一 方法二方法三 m s e0 0 5 2 10 0 7 4 50 1 0 5 7 x 2 1 2 4 4 0 0 34 0 9 8 8 04 9 3 1 7 7 4 0 - m f i ( 4 ) 4 0 a s ( 5 ) 1 6 东北师范大学硕士生学位论文 从上面的表格我们可以看到,对于三种方法的m s e ,仍然是m f ,方法的最小,o i d 方法的最大但是对于衡量题库总体曝光率的x 2 却有很大的差异见图4 ,5 和6 ,在曝光 率的控制方面,a 分层的方法最好,m f ,在控制曝光率方面做得最差,其中毋。= 3 0 3 , 如= 1 1 5 相比于模拟一,a 分层和o i d 方法对曝光率都控制的更好,但是m f ,方法的 却越来越大 ( 3 ) 模拟三:考试长度l = 6 0 ,题库n = 4 0 0 ,考生人数仇= 1 0 0 0 模拟 三 测量指标方法一方法二方法三 m s e 0 0 2 8 9 0 0 3 8 00 0 6 4 4 x 2 1 4 2 1 4 3 32 9 1 0 4 02 9 9 7 5 3 1 7 东北师范大学硕士生学位论文 ( 9 ) 由上面的表格我们看到,对于估计的精度方面,三种方法的差异不大m f ,方法的m s e 仍然是最小的,o l d 方法的m s e 最大见图7 ,8 和9 ,在曝光率的控制方面o l d 仍 然不如a 分层的方法,但是m f i 方法的图像前后差异越来越大,a 值大的题目更多的被抽 取并且乃。= 4 8 8 ,基本是a 分层方法的5 倍。 1 8 东北师范大学硕士生学位论文 5 结论 为了有更清晰的结论,我们对三个考试长度下三种选题策略的曝光率做一下比较 曝光率比较 考试长度方法一方法二方法三 2 01 0 3 4 9 0 26 9 3 5 7 87 7 7 9 8 2 4 01 2 4 4 0 0 34 0 9 8 8 04 9 3 1 7 7 6 01 4 2 1 4 3 32 9 1 0 4 02 9 9 7 5 3 下面我们对模拟做一个总体评价首先对于估计的准确程度,m f ,方法做的最好,但是 其对曝光率的控制最差a 分层和o i d 两种选题策略对曝光率的控制明显优于m f ,方法 并且随着考试长度的增加m f j 选题策略对曝光率的控制越来越差m f j 选题策略过于依赖 区分度n 值的大小,a 值越大越容易被抽取,这是m f ,对曝光率控制差最主要的原因而 其它两种方法对曝光率的控制却越来越好相比于a 分层方法,0 ,d 方法会使得一小部分题 目曝光率过高原因就是o j d 方法是在总体上依靠b 值选择题目,而a 分层方法是把题库分 层,使得题目能够更均匀的被抽取并且能力的估计a 分层优于o i d 选题策略 从上面的分析我们也看到,当考试长度太短时,三种方法对曝光率的控制都不是特别理 想由于m f i 方法对曝光率的控制太差,虽然它的测量精度最高,但是在其它方法能保证测 量精度的前提下,我们都不建议使用m f j 选题策略相比于0 j d 选题策略,a 分层在估计 准确度和曝光率的控制都做的更好,并且不会使得个别题目的曝光率过高,选择比较均匀,能 更有效利用题库,所以我们建议尽量使用a 分层选题策略 1 9 东北师范大学硕士生学位论文 参考文献 【l1p h i l i pe c h e n ga n dm i c h e u el i o u c o m p u t e r i z e da d a p t i v et e s t i n gu s i n gt h en e a r e s t n e i g h b o r sc r i t e r i o n a p p l i e dp s y c h o l o g i c a lm e a s u r e m e n t ,2 0 0 3 2 0 4 21 6 【2 】f r a n kb b a k e ra n ds e o c k h ok i m i t e mr e s p o n s et h e o r yp a r a m e t e re s t i m a t i o n t e c h n i q u e s m a r c e yd e k k e r ,i n c 2 0 0 4 【31h u a - h u ac h a n g t h ea s y m p t o t i cp o s t e r i o rn o r m a l i t yo ft h el a t e n tt r a i tf o rp o l y t o m o u s i r tm o d e l e d u c a t i o n a lt e s t i n gs e r v i c e 1 9 9 6 4 4 5 - 4 6 3 【41l o r d ,f m a p p l i c a t i o n so fi t e mr e s p o n s et h e o r yt op r a c t i c a lt e s t i n gp r o b l e m s h i l l s - d a l e ,n j :l a w r e n c ee r l b a u m ,1 9 8 0 【5lm c b r i d e ,j r a n dm a r t i n ,j t r e l i a b i l i t ya n dv a l i d i t yo fa d a p t i v et e s t si nam i l i t a r y s e t t i n g i nd j w e i s s ( e d ) ,n e wh o r i z o n si nt e s t i n g ,1 9 8 3 2 2 3 2 3 6 【6ls y m p s o n ,j b a n dh e t t e rr d c o n t r o l l i n gi t e m - e x p o s u r er a t e si nc o m p u t e r i z e d a d a p t i v et e s t i n g i np r o c e e d i n go ft h e2 7 t ha n n u a ln e e t i n go ft h em i l i t a r yt e s t i n ga s s o c i a t i o n , 1 9 8 5 9 7 3 - 9 7 7 【71v a nd e rl i n d e n ,w j b a y e s i a ni t e ms e l e c t i o nc r i t e r i af o ra d a p t i v et e s t i n g p s y c h o m e - t r i k a 1 9 9 8 2 0 1 - 2 1 6 【81b i r n b a u m s o m el a t e n tt r a i tm o d e l sa n dt h e i ru s ei ni n f e r r i n ga ne x a m i n e e sa b i l i t y i nf m l o r da n dm r n o v i c k s t a t i s t i c a lt h e o r i e so fm e n t a lt e s ts c o r e s r e a d i n gm a :a d d i s o n - w e s l e y , 1 9 6 8 【91h a m b l e t o n ,r a n ds w a m i n a t h a n ,h i t e mr e s p o n s et h e o r y :p r i n c i p l e sa n da p p l i c a ,- t i o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论