




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 计算机辅助教学c a i ( c o m p u t e ra s s i s t e di n s t r u c t i o n ) 的一个重要应用 是计算机辅助测验c b t ( c o m p u t e rb a s e dt e s t i n g ) ,智能组卷是c b t 的基础, 也是c a i 的一个重要组成部分,在组卷过程中最关键的问题是如何解决刚性约 束问题( 如内容约束、题型约束、总分约束等) 。本文提出了一种基于项目反 应理论i r t ( i t e mr e s p o n s et h e o r y ) 的组卷新策略:最大化加权约束信息量组 卷策略( m a x c w ls t r a t e g y ) ,它和线性规划l p ( l j n e a fp r o g r a m m i n g ) 组卷 策略相比较,具有以下优点:( 1 ) 可以避免数学规划法中的高计算强度和高算 法复杂性,时间复杂度由原来的0 ( 2 ”) 降为o ( n 2 l o g :n ) ,所以m a x c w i 组卷策 略更容易应用于当前的题库智能组卷过程中:( 2 ) 模拟实验表明m a xc w l 组卷 策略对解决刚性约束问题非常有效,本文可以同时生成满足1 3 个约束条件的 试卷,并且同时生成多份满足测验蓝图的合格试卷,题库利用率超过6 3 ,这 一点是国内中文学术期刊尚未提出过的;( 3 ) 本文提出的测验平均信息量是试 卷对各个能力水平的被试进行精确估计的评价指标,研究表明采用m a x c w i 组 卷策略,测验平均信息量和测验信息量的积差相关系数非常高。在采用m a x c w l 组卷策略组成多份合格试卷之后,发现了一个新的问题,尽管都是合格试卷, 但合格试卷的质量良莠不齐,这对参加同种类型不同批次考试的考生而言是不 公平的,这也给考生的评定可信程度带来了很大影响。所以,本文又提出了几 种其它的m a x c w l 组卷策略:a - 分层组卷策略,b 一分层组卷策略和随机化 m a x c w l 组卷策略,它们都可以在得到多份合格试卷的基础上有效地平均各测 验的测验信息量,提高测验精度,其中以随机化m a xc w i 组卷策略表现最优。 关键词:m a x _ c w l 组卷策略合格试卷随机化m a x _ c w l 组卷策略测验信息量 a b s t r a c t o n eo f t h ei m p o r t a n ta p p l i c a t i o n s0 1 1c o m p u t e ra s s i s t e di n s t r u c t i o n ( c a i ) i s c o m p u t e rb a s e dt e s t i n g ( c b t ) ,a s s e m b l i n gt e s ta n t o m a t i e a l l yn o to n l yi st h eb a s e o f c b t ,b u ta l s oi st h ei m p o r t a n tc o m p o n e n to f c a i t h em o s ti m p o r t a n tk e yo nt h e t e s tc o n s t r u c t i o nc o u 僦i sh o wt os o l v et h es e v e r e l yc o n s t r a i n e dp r o b l e m sr s u c ha s c o n t e n tb a l a n c i n g ,t y p eb a l a n c i n g ,t o t a l 伊叫ee t e ) an c wt e s tc o n s t r u c t i o ns t r a t e g y , m a x i m i z i n gt h ec o n s t r a i n t sw e i g h t e di n f o r m a t i o n ( m a xc w ds t r a t e g yb a s e do n i t e mr e s p o n s et h e o r y ( i r di sp r o p o s e di nt h i sp a p e r c o m p a r e dw i t ht h el i n e a r p r o g r a m m i n g ( l p ) t e s te o n s t r u c f i o ns w a t e g y , m a xc w is t r a t e g y h a ss u c h a d v a n t a g e s ,( 1 ) i tc a nb y p a s st h ec o m p u t a t i o n a li n t e n s i t ya n da l g o r i t h m i e a l s o p h i s t i c a t i o no f t h em a t h e m a t i c a lp r o g r a m m i n ga p p r o a c h e s ,t h ec o m p l e x i t yo f t i m e c o m e sd o w nf r o m 研? ) t oo ( n 2l 0 9 2 玎) ,s oi tc a l lb ee a s i l yi m p l e m e n t e di nt h e c u r r e n tt e s te o n s t r u e t i o na u t o m a t i c a l l y ( 2 ) s i m u l a t i o n ss h o wt h a t m a x c w i s t r a t e g yi sv e r ye f f e c t i v ei ns e v e r e l yc o n s t r a i n tm a n a g e m e n t , u n d e r1 3s e v e r e c o n s t r a i n t s ,i te b np r o d u c tm a n yt e s t sw h i c hc o n f o r mt ot h et e s tb l u e p r i n ta tt h e s 锄et i m eb yc o m p u t e r , t h e s et e s t sa r ec a l l e ds u c c e s s f u lt e s t s t h ei t e mp o o l s u t i l i z a t i o nr a t i oi so v e r6 3 t h i sv i e w p o i n th a s h tb e e nm e n t i o n e di ni n t e r n a l p e r i o d i c a l sa tp r e s e n t ( 3 ) an e wc o n c e p t i o n , t h ea v e r a g et e s ti n f o r m a t i o n , b yw h i c h t h ee s t i i n 啦a c c u r a c yo fe v e r yt r a i tp o mo fe x a m i n e ei sp r o p o s e di nt h i st h e s i s t h er e s u l t so fm o n t ec a r l os t u d ys h o wt h a tt h ec o r r e l a t i o nc o e f f i c i e n tb e t w e e nt h e a v e r a g et e s ti n f o r m a t i o na n dt h et e s ti n f o r m a t i o ni sv e r yh i g h a tt h es a m et i m e ,a n f wp r o b l e ma r i s e s t h e s es u c c e s s f u lt e s t s q u a l i t i e sa r ed i f f e r e n t , a n di ti su n f a i rt o t h ee x a m i n e e sf r o md i f f e r e n tb a t c h e so nt h es a m et y p et e s t , a n di ta f f e c t st h e a s s e s s m f n to f t b ee x a m i n e e sr e l i a b l ed e g r e es e r i o u s l y t oc o n q u e rt h ei l e wp r o b l e m , s e v e r a lo t h e rm a xc w im e t h o d s ,s u c ha sa _ s t r a i t i f i e dt e s tc o n s t r u c t i o ns t r a t e g y , b s l r a l t i f i e dt e s tc o n s t r u c t i o ns 仃a t e g ya n dr a n d o mm a x _ c w ls t r a t e g ya r ep r o p o s e d i nt h i sp a p e r 皿e ya l s oc a np r o d u c tc o p i e so fs u c c e s s f u lt e s t sa n dc a l le f f e c t i v e l y a v e r a g et h et o t a lt e s ti n f o r m a t i o na m o n gt h ea l l s u c c e s s f u lt e s t s s ot h e yc a n i m p r o v et h et e s t s q u a l i t i e s ,e s p e c i a l l y , t h eb e h a v i o ro ft h ei a n d o n lm a x _ c w i s t r a t e g yi sb e s t k e yw o r d s :m a x _ c w is t r a t e g y , s u c c e s s f u lt e s t s ,r a n d o mm a x _ c w is t r a t e g y , t e s ti n f o r m a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师的指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:李侄签字目期:聊年f 月, v y f i 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生学院有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:夸佳、 签字r 期:血刁年岁月艿f i 新签名:叮竹良 辩嗍可妒加f 基于i k l 模型的题库智能组卷策略 第一章引言 1 1 项目反应理论简介 项目反应理论i r t ( i t e mr e s p o n s et h e o r y ) 是一种新兴的心理与教育测验 理论,它突破了经典测验理论c i q ( c l a s s i c a lt e s tt h e o r y ) 的局限性,将被试 特质水平与被试在项目上的行为联系起来并将其参数化,模型化。i r t 最突出 的特性是将不可观察的被试能力和被试对项目的反应情况通过数学函数联系 起来。1 9 5 2 年,美国学者洛德( l o r d ) 提出了双参数正态肩形曲线模型这是 现代测量理论中第一个项目反应模型,他第一次导出了这种模型参数的估计方 法,并成功地将这种模型与方法应用于真实的学业成绩和态度的测量调查资料 中,此事件标志着i r t 的创立。若干年来,i r t 的发展除了自身的基本理论系 统、模型的种类、数据模型拟合检验方法和参数估计方法的发展之外,在实际 应用方面也有很大的成就,最重要的是它在以下三个方面的应用:一是指导测 验编制;二是计算机化自适应测验c a t ( c o m p u t e r i z e d a d a p t i v e t e s t ) 的兴起; 三是项目反应理论认知测量模型的出现,将测量与认知心理学相结合,应用测 量模型直接探讨人的认知结构。i r t 研究中的一项重要工作就是确定项目特征 曲线的形态,然后写出这条特征曲线的解析式,也就是项目反应函数,又称为 项目特征函数i c f ( i t e mc h a r a c t e r i s t i ef u n c t i o n ) ,常说的项目反应模型通常就 是指项目特征函数。不同形态的项目特征曲线应该对应不同的项目特征函数, 有时即使项目特征曲线具有相同形态,但也对应不同的解析式。其中的原因是, 既要考虑何种解析式更符合曲线的形态特征以及更能拟合实测资料,还要考虑 哪种解析式对进一步的统计分析更为方便,由此,就会生成各种不同的项目反 应模型【3 l 。这些模型广泛地应于测验等值、探查项目偏差、澳i 验编制及计算机 化自适应考试等。尤其是基于江的计算机化自适应考试的广泛应用也不断地 促进i r t 的发展川。 如果模型成立并且项目参数均已知,可生成独立于测验项目性质的特质水 平测量,这是建立项目反应模型的最大优点。也就是说对被试能力的估计不依 赖于测验项目的特殊选择。其次,项目反应模型中项目参数的估计独立于被试 样本是项目反应模型的第二个优良性质。我们只关心被试的能力水平0 ,并不 怎么关心具有能力水平0 的人数有多少,也并不怎么关心其他能力水平的人 数。再次,能力参数与项目参数的配套性,即项目难度与能力参数是定义在同 一量表上的。这样,对于一个能力参数已知的被试,配给一个项目参数己知的 试题,我们立刻可以通过模型预测被试正确作答的概率;如果估计出被试能力, 我们还可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能 力估计更为精确。最后,通过模型测得的被试能力水平,可以精确估计其测量 基于i r t 模型的题库智能组卷策略 误差。b i r n b a u m 提出将f i s h e r 测验信息量引进项目反应模型,使得测量者能准 确估计测量精度,并且可按精度目标要求组织测验i l j 。 与c t t 相比,i r t 是建立在强假设基础上的,主要有以下假设【2 j : ( 1 ) 特质空间的单维性假设:就是说被测量的测验结果只取决于一种能力, 其它能力的影响都可以忽略; ( 2 ) 局部独立性假设:即已知能力的条件下,假设被试在某一项目答对的概 率独立于其它项目,这是一个条件独立性; ( 3 ) 项目特征曲线假设:假设被试对某项目的正确反应概率与其能力之间的 关系可以用一个关于能力单调上升的函数表示。 i r t 建立了被试反应与项目参数和能力水平之间的非线性模型,具有参数 不变性,估计出来的能力值不依赖于施测项目样本的特性,同时可以根据项目 的信息量,选择与被试能力相匹配的题目,直到达到预定的测试精度要求。和 传统的纸笔测验p & p ( p e n c i la n d p a p e r t e s t ) 相比,这使得在计算机化自适应 测验中,施测项目更少,效率更高,更能精确地反映被试的实际水平p 】。 1 2 计算机智能组卷简介 教育成就测验随着知识技术在现代经济发展中作用的增强,越来越被广泛 应用。如大学入学考试,学历水平认定考试( 例如中国大陆的高等教育自学考 试) ,资格证书考试等,规模越来越大,学校教育过程中的形成性与终结性测 验也越来越要求在地区和全国范围内结果可比。这样,标准化成就测验只有两 三个复本的状态就无法适应需要,并且类似于g r e 和t o f e l 这样阿机考和网 考年需要考试多次,而计算机化自适应测验的普及还有一段路要走,所以题 库建设技术和组卷技术很快就发展起来了。 题库,指的是适合一定考核目标的,由具有必要参数的大量优质测验项目 集合而成的,具有存储、浏览、修改、增删和试卷生成功能的系统。题库首要 的基本性能是它的存储性,因此,题库中大量的测验项目都满足考核同一领域 的教学目标,并具有统一量尺上的必要参数值,还被有序地组织起来a 这样, 按照指定的测验编制要求,可灵活而便捷地从题库中抽题组卷,生成彼此等值 的多份试卷,以适应社会需要。所以,题库的生成性( 即组卷) 是其价值和功 用的直接体现。 题库的管理和组卷操作,早期都是使用纸质题卡依靠手工抽拼来完成的。 现在,随着计算机技术的发展,现代化题库实现了计算机管理,测验项目的存 储、浏览、修改、增删以及试卷的编辑、打印等都可以由计算机完成。特别是, 计算机技术已跟现代测量理论结合起来,这样就能智能地自动生成试卷。手工 2 基于i r t 模型的题库智能组卷策略 组卷中的专家则从测验编制的实际过程中退出来,使试卷生成不仅灵活便捷, 而且更为可靠。当然,用计算机生成试卷并不能完全取代专家在其中的作用, 在计算机成卷之前需要组卷者给出测验蓝图或组卷目标,在组卷完成之后需要 组卷者或命题专家重新审查和进行必要的微调。 试卷生成所依据的测量学理论,过去是以真分数理论为代表的c r r 。但是, 这一理论存在明显的局限性:一是估出的项目参数值( 例如难度、区分度等) 依赖于样本;二是其测验编制的指导原则依靠试误而缺乏科学预控性。比如, 按照c t t ,一般都假定被试水平分布为正态( 这一点并不能得到保证) ,然后 再要求选出一批中等难度试题,经过反复试验性测验加以调整,来使测验所得 分数分布也呈正态分布。由于教育成就水平是教与学双方互动的结果,跟基本 心理素质水平分布不同,常常并不呈正态分布:三是c t t 采用双向细目表指 导试卷编制工作,但在施测之前,纵使对一个确定的考生和确定的试题,对测 验误差也难以量化。所以,现代测量理论已经放弃这种做法。作为现代测量理 论主要代表的i r t ,不但采用了独立于样本的被试和项目参数的定义,而且特 别提出了项目信息函数和测验信息函数的概念,用测验目标信息函数来指导测 验的编制。按照i r t ,项目信息函数是被试水平和所用测验项目参数二者的函 数,而在局部独立性假设之下,测验信息函数是所施测的所有项目的项目信息 函数的累加和。这样,从计量学角度考虑,要编制出一个考察某种特质水平的 测验,只要确定出特质水平分,然后针对该口挑选项目信息函数最大的测验项 目即可。所以,按i r t 进行组卷,整个工作具有极强的预控性,不必作盲目试 误。这就为计算机智能组卷的实现提供了可能性。 但是,在组卷过程中不能仅仅考虑测验目标信息函数,还应结合考虑其它 非计量学指标,如内容和题型的占分比例等,这就能更好地适应教育成就测验 的现实需要。 1 3 项目和测验信息函数简介“1 1 信息函数的概念 按经典的真分数理论作项目分析时,提出过项目难度和区分度这样两个项 目特性指数,但却是分别对它们作考察的。虽然也承认这两方面会彼此联系, 统一发挥作用,却未定义过综合指标,并且,没有揭露测验所含各个项目的性 能与质量,跟整个测验的性能与质量的关系。真分数理论的信度系数与测验标 准误差的求取,跟项目难度与区分度是没有关系的。这就给项目选取、测验编 制、效能分析等,留下了许多技术难题。i r t 中的信息函数概念的提出,就为 突破这些困难闯出了一条新路。 基于i e 7 模型的题库智能组卷策略 信息是一个非常重要的科学与哲学的概念。一般说,信息可以看成是不肯 定性的消除。假定我们要了解某民族女少年平均身高,当我们未作任何调查测 量时,无法对之作出任何肯定性结论,不能设想其会在数轴上哪个区间或点上 取值。也就是说,不肯定性无穷大,在未作任何消除时,我们所掌握的信息量 就为零。当进行了调查,求取了样本平均数时,就可据此推断该民族女少年平 均身高大概会在数轴上某范围内取值。也就是说,我们已能以一定的把握作 出一定程度的肯定,亦即掌握了一定量的信息。样本平均数的抽样理论( 中心 极限定理) 指出,随机样本容量的增大,抽样分布标准误会缩小,统计推断置 信区间半长会变短。这就是说,不肯定性会随之进一步消除,信息量会进步 增大。因此,在这种情况下就可以说,信息量是抽样标准误的函数,其定量关 系是信息函数值等于抽样标准误平方数( 即方差) 的倒数。若信息函数记为, 1 则有i = 芒,以上是一般统计估计情形。在心理和教育测量中,问题完全类 s e ; 似。当我们采用i r t 时,也是要根据实测资料,按照一定统计数学方法,估计 被试的特质水平值。具体地说,若采用逻辑斯蒂克函数,按极大似然函数方法 估计被试的能力水平护值时,估计值口会随实测项目样本容量的增大而渐近正 态分布。所以,我们也可以定义测验信息函数为估计误差方差的倒数。即有 ,( 曰) = v ( o i 们一,这里,j ( 为测验信息函数,v ( e i 印“是估计误差方差。而 且,极大似然函数估计中估计误差方差等于测验所含项目反应函数的对数似然 函数,再对0 求二阶导数的期望值的相反数,即有 ,( 印= v ( e l 们一= 一e 8 2 i n ,a 口2 ) ,这个结果,数理统计中叫f i s h e r 信息函数。 在对上式进一步推导时,对于0 1 评分项目而言,可得测验信息函数的具体取 ,2 1 一r “ 值如下:= e 仁三笋 = ( 鼻) 2 ,( 尬) ,这里,只是第j 题的项目反应函 u v l i i 数,q = 1 一曰,p 是第i 题项目反应函数对护的一阶导数。测验信息函数是玎项 的和而每一项恰好对应测验所含的一个项目,即每项均为一项目的项目信息 函数。若记项目信息函数为( d 。则有( 力= ) 2 ( p q ) ,其中只q 是被试对 第j 个项目反应的方差。测验信息函数又可写成j ( d = ( 刃- 以上就是i r t i = l 所给出的测验和项目信息函数的定义。 2 信息函数的性质 ( 1 ) 每个项目所提供的信息量是它所测被试特质水平的函数,因而项目及铡 4 基于i r t 模型的题库智能组卷策略 验信息函数值均是针对某一被试特质水平0 来说的,会随0 取值的不同而变化。 ( 2 ) 每个项目在某一特质水平处所能提供的信息量,还受项目自身特性的影 响。项目特性曲线( 即反应函数曲线) 越陡,区分度a 越大,伪机遇水平参数 f 越小,所能提供的信息量越多。每个项目都是在或大或小的特定区间内提供 足够大的信息。 ( 3 ) 在局部独立性假设下,每个项目所提供的信息不受其它项目的影响,测 验中各项目均独立地对测验总信息作贡献。项目信息函数具有可加性,测验信 息函数等于所含全部项目的信息函数的和。从项目信息函数的定义可以看出, 其分子是项目反应函数一阶导的平方,分母是项目方差,这都取决于项目反应 函数本身。当然,选用不同的数学模型,项目反应函数的具体构造是不一样的。 例如:1 9 5 7 年至1 9 5 8 年,伯恩鲍姆( a b i r n b a u m ) 将洛德( l o r d ) 的双参数 正态肩形曲线模型改换成了逻辑斯蒂克模型,其形式如下: z ( = e x p a a e 一岛) 】, 1 + 唧 q ( p 一岛) 】) ,对于逻辑斯蒂克函数工,取量表因子 d 为1 7 ,则其与正态肩形曲线函数之间的关系有以下结论: i r ( 工) 一t ( 1 7 x ) i oh = l , 2 ,日( 2 ) ,i 而= 开 e o 1 ) y 0 其中目标函数( 1 ) 式称为该模型的m a x 部分, 部分。 9 ( 3 ) ( 4 ) ( 5 ) 约束条件( 2 ) 式称为该模型的m i n 基于i r t 模型的题库智能组卷策略 o 1 整数规划的一般解法是先将置的取值放松至 o ,l 】区问,通过常用的单 纯形法( s i m p l e xm e t h o d ) 解出各个五的值,再用分枝确界法( b r a n c ha n db o u n d m e t h o d ) 将x 的值由【0 ,1 】取为0 或l 。这种方法的实际困难在于用机时间很长, 而且有时无法找到最优解。从题库的角度看,这可能是由于题库中的试题很难 或不可能满足某一个或某几个约束条件,或是因为题库中没有足够的题目同时 满足所有约束条件而造成的。一般来说,当约束条件数量越多,则约束条件之 间的相互影响越复杂,线性规划问题就越可能无解。 2 2 2 离差加权模型m l e ns w a n s o n & m a r t h al s t o c k i n g ( 1 9 9 3 ) 提出的离差加权模型w d m ( w e i g h t e dd e v i a t i o n sm o d e l ) 的思路。其一般模型如下: |j r a i n ( 如+ m 南) ( 1 ) j - 1j - 1 而= 毛 j - 1 吻而 d q ,d u j ( 2 ) - ,= 1 ,2 ,j( 3 ) ,= l ,2 ,j ( 4 ) j = 1 ,2 ,j( 5 ) 其中,决策变量而= 口第霎燃rr = - ,2 ,q 分别是 第_ ,个约束条件的下限和上限( j = l ,2 ,j ) ,屯,如,锄是人工变量,分 别表示吩薯与三j ,的正离差,即屯,南分别是嘞而不足下限三的部分 i - i i - i 和超出上限的部分,即不满足约束条件的部分,叶是组卷者对第,个约束 条件赋的权重,龟的值与第歹个约束的性质有关。故约束条件( 2 ) 式限制测 验的总题数为疗;( 3 ) ( 4 ) 式分别代表了,个约束条件,其中对任意_ ,都是 ts u ,实际上表明约束条件为岛嘞葺s q ( ,= l ,2 ,) ,即 i o 基于i r t 模型的题库智能组卷策略 九= 九= o 一一 其几何意义如下图: 玉一 o q 而 l g 乃薯 啪吩而 q a v x , 2 q i = 1 山r j 、 、 钿 h 上曩盯j 下l j 约束条件越重要,h ,越大,该约束条件满足的可能性越大。当约束条件是目标 信息函数时,嘞是第f 题在能力水平岛点的信息函数值鲺) ;当约束条件是 非计量学的要求时, f o 第i 题不具有第j 个约束条件的性质 一11 否则 。 离差加权模型( w d m ) 也是o l 整数规划问题,但它与w i r nj v a nd e r l i n d e n 和j o sj a d e m a 等人提出的m a x - - m i n 模型不同的是它允许对约束条件 有少量的不满足,但是要求违背约束条件的加权总量最少,而且允许组卷者为 约束条件的重要性加权。但是,这种方法基本上是按照线性规划在实际应用中 经常采用的“贪心法”( o r e e d y ) 的模式来实现的。在具体进行过程中,由于 后一步的运算以前一步的结果为基础,它的结果也就依赖于前一步的结果,所 以它所得到的最优解通常是局部最优而全局次优的。比如:在第一阶段刚开始 时,各个约束条件的下限的正离差往往为正,而与上限的正离差为零。如果仅 = 与 0 l 五 而 呀 呀 p厶m。m = q u ( 1 蚋 嘶 f厶mp厶m q 一 而 o 基于i r t 模型的题库智能组卷策略 仅按照与上、下限的正离差加权和最小的目标选题,则可能将一些在题库中数 量多、更容易满足约束的题目先选入测验中,而这些题目的入选可能会使以后 约束条件难以满足。这时,可以采用一种校正方法,称为经验性解法( h e u r i s t i c 设要生成一个题量为n 的测验,假设已选出k 个试题,接着考察剩余题库 中编号为f 的试题是否适合入选,要确定其合适程度【1 0 1 : 乃= 吻而+ 删( 七,i ,) + 吩,其中,e a c x 。表示已选出七个题在第- ,个约束 特性上已有的值,嘞= o 喜署不具有筠个约束条件的性质, a v e s c o r e ( k ,) 是一个关于_ i 和- 的函数,表示从剩余题库中随机抽取具有性质 ,的题目的平均得分,可分为以下几种情况: ( 1 ) 若约束条件是题目总数一时,则a v e s c o r e ( k ,j ) = ( n - k ) v s , 在_ = 挲中,当约束条件是题分时,窆而表示这| ; 题中具有第 在_ 2 型i = 中,当约束条件是题分时,t = 1 而表示这七题中具有第 , ,类题型题目的题分和;当约束条件是题目数时,一表示这t 题中第j 类 j l 黜删一口筹碾确烟型; i ( 2 ) 若约束条件是总分时。则a v e s c o r e ( k ,j ) = ( 1 0 0 一b , x , ) v s ,岛是第f 题的分 净l 岍一嘞 值,巧= 等卜,嘞= l ; 螭一 ( 3 ) 若约束条件是信息函数时,吩t 表示这t 题中所有题目在该点的信息 j - l 函数值之和,是第,题在特质水平岛的信息量,a v e s c o r e ( k ,) ;q 一叶,_ 是指这七个题目在特质水平岛上的平均项目信息量。 基于i r t 模型的题库智能组卷策略 徘到咖调整毛和如,如= 口霭, 九= z 一町誓乞,当喜叶如+ ;jm 屯最小时,加入第r 题,不断重 复下去,得到题数为n 的试卷。 离差加权模型( w d m ) 严格控制题数而对溯验总分允许有少量偏差,而 且当约束条件中既有题数,又有题分和信息量时,由于各约束条件的量纲( 单 位) 不同,根据各约束条件分别计算出的屯和吐,的值往往不可比。因此江西 师范大学的漆书青、戴海崎等提出了分步离差加权模型m 。 2 2 3 分步离差加权模型 分步离差加权模型将组卷过程分解成两步:第一步选出总分为1 0 0 ,题型 与内容等非计量学指标的分数分布都尽可能符合组卷要求的试卷;第二步在题 库中挑选题型、内容等计量学指标相同但信息量贡献最大的试题替换已选出的 试题。模型如下: ( i ) jj m i n ( 一叱+ 叶) ,- ij = l 鼻而- - 1 0 0 - i s 羔+ d q e q = l i i - i 置五+ 如一锄= q j 1 1 d 畸。d 啡,e q ,e 嶂2 0 ( 2 ) ,= 1 ,2 ,( 3 ) j = 1 ,2 ,j ( 4 ) 歹= l ,2 ,j ( 5 ) 其中决策变量= 口第霎燃,= 名,。暑是第,题的题分,故 约束条件( 1 ) 是要求试卷的总分为1 0 0 。上式( 2 ) 、( 3 ) 两式分别表示- ,个约 束条件,这- ,个约束条件是关于题型、内容等非计量学特性的,u ( j = l ,2 ,j ) 分别是这,个约束条件的题分下限和上限。九,嘞,锄与离 差加权模型( w d w ) 相同,分别代表所得结果与下限和上限的正离差。一是 基于i r a ;模型的题库智能组卷策略 第_ ,个约束条件的权重,_ i ,越大,第- ,个约束条件满足的可能性越大。 在解出第( i ) 个模型,选出共珥个题目之后,转入模型( i i ) 的求解。 ( 1 i ) m a x ( 6 ) s 上 f 荔司所- 1 2 ,7 ) ,其中是第f 题在口上。t :p j 。x 日信息 墨上坨,舟甲i j 定弗l 趔住f 工目1 屉 【而e o ,l ( 8 ) 函数值。约束条件( 7 ) 共有吩个约束条件,其中q 是试题的集合,在解出第 ( i ) 个模型选出珥个题目后,根据这珥个题目的题型和内容可以将题库分成 珥个题型和内容与已选出的试题都相同的试题集合q ,( 聊= l 2 ,珥) ,故( 7 ) 式要求在与原来选出的试题题型和内容都相同的试题中另选出一题。这样模型 ( i i ) 是在模型( i ) 已选出的试题的基础上选出题型和内容分布相同但在某 一点上的测验信息函数尽可能大的一批试题。 由于分步离差加权模型也是线性规划问题,当约束条件数量增多时,各约 束条件相互影响,很有可能会无解,更谈不上组成多份精度相似的试卷了。 总结: 采用线性规划( l p ) 组卷的实际困难在于用机时间太长,有时根本找不到 最优解。其原因是 ( 1 ) 题库中的试题不能满足某一个或某几个约束条件: ( 2 ) 题库中没有足够的题目同时满足所有约束条件; ( 3 ) 约束条件数量越多,约柬条件之间的相互影响就越复杂,线性规划问题 就越可能无解,实现程序的时问复杂度往往为伙2 4 ) 1 1 1 。 所以,很难生成若干份精度比较高,并且测验精度相似的试卷复本( c o p y ) 。 1 4 基于i r t 模型的题库智能组卷策略 第三章m a x c i i 组卷策略 3 1 基于项目反应理论的智能组卷策略 许多基于i r t 的组卷策略都是建立在数学规划的基础上,因为它们是求解 给定目标的最优解,故在控制约束方面是非常有效的,但是,就算是0 1 线性 规划,也有可能成为n p 完全问题【1 1 t ,故考虑将c a t 中的一种选题策略:加权 约束信息量c w i ( c o n s t r a i n t sw e i g h t e ai n f o r m a t i o n ) 方法引入到组卷策略当中, 它能很好地控制刚性约束条件( 如内容约束、题型约束、总分约束等) ,并且 它能有效地避免数学规划法中的高计算强度和高算法复杂性,可以很容易地应 用于当前的题库智能组卷过程中。 3 1 1c w i 方法简介o ” 假设在一次组卷过程中,测验蓝图有七个对内容的约束条件:在第1 章不 可以超过而个项目被选出,在第2 章不可以超过恐个项目被选出,在第 七章不可以超过黾个项目被选出,并且它们的权重之比为h :w z :w k 。”假设 已经选出了r 道题目,在这,道题目当中,有曷道题来自第1 章,有昱道题来 自第2 章,有置道题来自第七章,正( 印是题库中第f 个项目的项目信息 函数值,且第i 个项目属于第,章,则第f 个项目的c w 值为: c w s , ( e ) = 吩! 互( 回。通过这样的方法,剩余题库中每一个项目的c w j 值都可以计算出来。 3 1 2l i a 】【四i 组卷策略 本文提出札a x c w i 组卷策略的基本思路是:分别求出剩余题库中项目的加 权约束信息函数值c w i ,在选题时,每次都挑选当前具有最大c w i 值的题耳 组成试卷。这样做的原因是使用c w i 方法可以很好地控制约束条件,而最大化 c w i 是为了得到当前具有最大项目信息函数值的项目,这样作是可以减少试卷 的测量误差,提高测验精度。这样,i t j a xc w i 组卷策略同时兼顾了测验的高信 息量又考虑了非计量学指标的约束,就能更好地适合计算机智能组卷的现实需 要。 基于i r t 模型的题库智能组卷策略 3 2 实验与结果分析 1 实验方法:在模拟组卷的过程中,采用m a t l a b7 0 程序设计语言o ”,文件 均采用 t x t 格式。 2 模拟题库 ( 1 )参数模拟采用蒙特卡罗方法( m o n t ec a r l om e t h o d ) 。假设题库中含有 5 0 0 0 个项目,每个项目具有区分度参数a 和难度参数b ,评分模型为0 - 1 评分。 并且b n ( 0 ,1 ) ,l n a n ( 0 ,1 ) ,为了确保题库质量,约定b - 3 ,3 】, a b s ( a 一 3 5 ,o 1 口 表示当前第七章已经选出的题目数:b l u e 一确p e ( o 表示测 验蓝图中第t 种题型的题型约束值;y ( t ) 表示当前第t 种题型中已经选出的题目 数:i n f o r ( i ) 表示第# 题的项目信息量。 9 采用l a xc w i 策略组卷可以在已知题库中组成满足测验蓝图的合格试卷7 9 套( 见表6 ) 。具体的m a t l a b 程序( 部分) 如下: f o rj = t :4 0 每套试卷由4 0 道题目组成 f o ri = l :5 0 0 0 考察题库中每一道题目 i ft e s t ( i ) - - 0 k = c o n t e n t ( i ) :求出第i 题所在章节,用k 表示 t = t y p e ( i ) :求出第i 题的题型,用t 表示 c w i ( i ) = ( w e i g h t ( i ) 半( b l u e _ c o n t e n t ( i ) 一x ( k ) ) * ( b l u e t y p e ( i ) 一y ( t ) ) * i n f o r ( i ) ) ( b l u e c o n t e n t ( i ) * b l u e t y p e ( i ) ) :计算剩余题库中每道题目的c w l 值 e n d e n d m a x c w l ,i n d e x _ m a x c w i - - - m a x ( c w i ) :求出具有最大c w i 值的题目的题号 c w l ( i n d e x _ m a x c w i ) 一1 0 0 0 0 0 0 :表示该题已经被选出 k = c o n t e n t ( i n d e x m a x c w l ) :找到具有最大c w l 值的题目所在的章节 x ( k ) = x ( k ) + l :内容约束加l t = t y p e ( i n d e xm a x c w i ) :找到具有最大c w i 值的题目的题型 y ( t ) = y ( t ) + 1 ;题型约束加1 1 8 基于i r t 模型的题库智能组卷策略 t e s t ( i n d e x _ m a x c w i ) = n t e s t :最大c w i 值的题目放在第n t e s t 套试卷当中 e n d 表6 ;m a xc w i 组卷策略合格试卷的指标情况 其中,测验信息量与测验平均信息量的积差相关系数为0 9 6 2 6 ,具体的测验信 息请参见附录。 1 0 结果分析 ( i ) 采用m a xc w i 方法组卷确实是一种非常有效的组卷策略,它可以成功地 组成多份满足测验蓝图( 其中,内容约束6 个、题型约束5 个、总分约束1 个、 总题数约束1 个,共1 3 个刚性约束) 的合格试卷,题库利用率高达6 3 2 , 限于本入视野,目前,还未发现国内有过这方面的报导。 ( 2 ) m a x 组卷策略的算法是将非计量学指标(内容(含权重)、题型)_cwl 都统一在一个表达式c w l ( o 中。其实质上是将多目标约束问题转化为单目标问 题后,再采用贪心算法进行求解。在源程序中,求出剩余题库中具有最大c 耵 值的题目是采用串行算法,建立大根堆,它实现的时间复杂度为o ( n i o g ,疗) , 而整个l v i a x _ c w i 组卷策略算法实现的时间复杂度为o ( n 2l o g :功,它比时间复 杂度为立方阶o ( n 3 ) 的程序的执行效率更高。在c p u 为1 4 9 g h z ,内存为2 5 6 m b 的硬件环境以及 a t l a b 7 0 的版本下,本程序连续实现1 0 0 次所花费的时间不 到5 0 分钟。当约束个数很多时,线性规划组卷策略的时间复杂度为0 ( 2 ”) “, 也就是说这往往是n p 完全问题,得不到满意解。 ( 3 ) 测验信息量与测验平均信息量的积差相关系数为9 6 2 6 ,这表明测验信 息量与测验平均信息量的一致性程度非常高,采用m a x _ c w i 策略组卷时,仅计 算测验信息量作为评价指标就可以对各个能力水平的被试进行精确估计。 ( 4 ) 在保证题库内容指标和题型指标不变的前提下,模拟了1 0 0 个不同的题 库,采用m a x _ c w i 组卷策略可平均获得7 8 8 份合格试卷。但是发现同样是合 格试卷,有的测验信息量高,也就是测验精度高,而有的测验信息量非常低, 如果用这样的测验对考生旖测,那么对参加同种类型不同批次考试的考生来说 是非常不公平的,而且这对不同批次的考生的评定结果的可信程度也大不相 同,这是一个值得仔细讨论的问题。所以原有的b i a x _ c w i 方法只是给出了一些 基于i r t 模型的题库智能组卷策略 试卷的“初胚”,通常应该按照用户的需要,寻找其它的方法对这些。初胚” 进行加工,实现各份合格试卷都有较高测验信息量的目标。 基于i r t 模型的题库智能组卷策略 第四章其它的m a x _ c w i 组卷策略 4 1a _ 分层下的i l a x _ c w i 组卷策略 在c a t 当中采用最大信息量选题具有所选题目不平均性的缺点,计算机只 会选择区分度口值较大的题目,使得高区分度的项目变得曝
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业互联网平台5G模组市场应用适配性趋势研究报告
- 2025年工业互联网平台数据备份与恢复策略与云服务的融合报告
- 2025版市政基础设施土石方开挖施工管理合同范本
- 2025年城市景观策划咨询服务合同
- 2025版智能电网建设运营合作合同模板
- 2025年度教育课程定制合同买卖合同书
- 2025第7章生物质能工程项目合同管理方案
- 2025年度电竞主题咖啡馆经营转让及赛事举办权合作协议
- 2025版煤炭资源探矿权承包开发合同
- 2025年度残障人士就业促进专项用工附加协议书模板
- 2025河北保定市唐县招聘社区工作者64人考试备考试题及答案解析
- 2025至2030年中国物业管理行业市场发展现状及投资前景展望报告
- 气动阀基础知识培训课件
- 2025云南昆明巫家坝建设发展有限责任公司招聘23人笔试参考题库附答案解析
- 2025年基孔肯雅热和登革热防控知识考试试题及参考答案
- 2025-2026学年浙教版(2024)初中科学八年级上册教学计划及进度表
- 2025-2026学年第一学期安全主题教育
- 汽车美容承包合同(标准版)
- 2025-2026学年新交际英语(2024)小学英语一年级上册教学计划及进度表
- 会务服务考试试题及答案
- 逐梦飞翔·奋进高二-高二上学期开学第一课主题班会课件
评论
0/150
提交评论