项目反应理论与题库建设.doc_第1页
项目反应理论与题库建设.doc_第2页
项目反应理论与题库建设.doc_第3页
项目反应理论与题库建设.doc_第4页
项目反应理论与题库建设.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目反应理论与题库建设项目反应理论(IRT)项目反应理论是针对经典测量理论的不足而提出来的一种新的测量理论。它的最大优点是项目参数和被试能力参数的不变性。即项目参数的估计值与被试样组的选择无关;被试能力的估计值与所施测的试题无关。同时能够提供各被试能力估计值的精确度指标,而且在施测前就可以知道各个测验项目对于不同被试的能力估计的精确度。项目反应理论的这些优点对于题库的建设、测验的编制十分重要。项目反应理论包含很多内容,限于篇幅,下面仅就其核心内容加以简单的讨论。1、项目反应模型项目反应模型是用以表示被试能力和被试者对测验项目“正答概率”之间关系的数学函数,这个函数是单调递增的,被称为项目特征函数(ICF: Item Charateriseic Function)或项目反应函数( IRF: Item Response Function)。它包含一定数目的项目参数(如难度参数、区分度参数、猜测参数等),这些参数值可以通过一定的方法估计出,在项目参数值确定后,利用项目反应模型就可以计算出各被试的能力估计值。在IRT的研究发展中,人们提出了多种项目反应模型,这些模型主要分为两大类:静态模型和动态模型。静态模型描述考生某个时刻的潜在特质水平,不包含时间因素;动态模型用来测量考生潜在特质随时间变化的程度。目前发展比较成熟且得到广泛应用的是静态模型。下面我们主要介绍在题库建设中常使用的几种静态模型。静态模型也有多种,它们可分为单维的和多维的;二值记分的和多值记分的;正态卵型的和逻辑斯谛型的,等等。在题库建设中最常用的是单维的二值记分的逻辑斯谛模型。单维是指模型假设只有一种潜在特质对测验反应数据起作用;二值记分是与二值反应相联系的记分方式。在成就和能力测验中,考生对项目反应的“正确”与“错误”,通常用0和1表示(0表示错,l表示对),所形成的测验数据就是二值的。二值记分表明模型所能处理的测验数据是二值的。逻辑斯谛模型的数学表达式为:式中,e为自然对数的底;x为一个任意符号。当x用不同的代数式表示时,就形成了各种不同参数的逻辑斯谛模型,如双参数逻辑斯谛模型、单参数和三参数逻辑斯谛模型等。1、项目反应模型 双参数逻辑斯谛模型双参数逻辑斯谛模型的数学表达式为:式中,Pi()表示某个随机选出的能力值为的考生正答项目 i的概率;ai和bi是项目i的两个不同的参数;n为项目数;D是量表因子,通常取值为1.7。在双参数模型中蕴含这样一个假设,即考生在对项目作出反应时并不受到猜测因素的影响,能力值极低的考生,其正确回答概率接近于零。 三参数逻辑斯谛模型三参数逻辑斯谛模型的数学表达式为:它是在双参逻辑斯谛模型中增加了参数C后得到的。式中,Ci是和能力极低考生的正答概率有关的参数,称为猜测参数,或伪随机水平参数;其它各字母的意义与双参数模型数学表达式中的一致。如图所示的是一个典型的三参数逻辑斯谛模型项目特征曲线。图中横坐标表示考生的能力值,被称为能力量表;纵坐标表示考生的正答概率,称为概率量表。从图中可以看出各个参数的涵义。参数bi等于项目特征曲线(项目特征函数的图象称为项目特征曲线,简称ICC)上斜率最大处在能力量表上对应的值,对应于bi点的ICC的斜率为0.425ai(1-Ci)。式中ai为项目区分度,ai值越大,ICC越陡,参数Ci是在概率量表上度量的,它表示能力极低考生的正答概率。显然,由于该模型中包含了参数Ci,即意味着能力极低的考生也有可能答对该项目,因此,这一模型适合于多项选择题的成就测验或能力测验。 单参数逻辑斯谛模型单参数逻辑斯谛模型可以看作是三参模型的特例。其数学表达式为:式中,j为考生j的能力水平值;bi为项目i的难度,随项目的不同,bi值是变化的;pi(j)为第j个考生答对项目i的概率。从式中可以看出,当考生的能力j强于项目难度bi时,即jbi时,(jbi)为正值,此时,该考生成功的概率将大于0.5;当(jbi)的值越大,考生成功的概率就越接近于l。当考生能力值低于项目难度值时,即 jbi 时,(jbi)为负值,此时,该考生成功的概率将小于0.5;考生能力越低,项目难度越高,该考生成功的概率越接近于零。虽然单参模型可以看作双参和三参模型的特例,但由于它本身还有一些独特性质,所以对于测验使用者仍有相当的吸引力。首先该模型只有较少的项目参数,比较容易处理;其次,在进行参数估计时,它比其它模型遇到的问题要少些;第三,它可以使对项目参数和能力参数的估计完全分开,达到某种特定的客观性。这就意味着:只要测验项目是符合该模型的,对于考生能力参数的估计就是独立于所使用的测验项目和无偏的;只要考生是符合于该模型的,对项目参数的估计就独立于考生样组的能力分布和无偏的。单参模型的这一特点可以使我们对该模型中的项目难度参数和考生能力参数分别进行估计而不相互干扰。1、项目反应模型以上介绍的三种逻辑斯谛模型都是最常用的项目反应模型。但是,由于参数设置和模型中的假设不同,它们各自适用于特定的测验数据。也就是说,在实际应用中要进行模型的选择。选用哪一种模型要考虑许多因素,通常主要考虑测验数据能够满足模型的假设情况。例如,单参数和双参数模型假设被试在对项目作出反应时不存在猜测成分,三参模型允许被试凭猜测作出反应。如果测验数据是从一组多项选择题或是非题所得到的,那就不能排除被试作答时的猜测因素。对于这种测验数据,选择三参数模型比较合适。再如,单参数模型假设各项目具有相同的区分度,而双参和三参模型允许各项目具有不同的区分度,在无法保证或无法确定测验的各项目具有相同的区分度时,就不能采用单参数模型。因此,一般认为,三参数模型适用于由多项选择题和是非题组成的测验,双参数模型适用于其它一些不存在猜测因素的测验,在测验结果既不受猜测因素影响,测验中各项目又具有相同区分度的情况下,再选用单参模型。当然这并不意味着单参模型的实用性差。实验研究证明,项目反应模型具有一定的稳健性,当有关假设受到轻度违反时,仍能够得到较精确的参数估计值,这就为我们选用单参模型提供了理论依据。2、项目反应模型的参数估计每一个项目反应模型都有一定数目的参数,这些参数值都不能由直接测量得到,而必须根据被试的反应数据进行估计而得到。对于二值记分的逻辑斯谛模型,其参数估计是根据“0”、“1”得分矩阵进行的。设测验由n个项目组成,共有m个被试,各被试对各项目的反应情况组成一个 m n的得分数据矩阵(即 0、1矩阵)。根据这个得分矩阵进行参数估计的基本过程如下: 确定项目参数的初始估计值。具体方法可有多种,何如,可根据经典测量理论得到项目难度和项目区分度的统计量值,或假设项目参数为某个常数。 根据项目参数的初始值,运用极大似然法或贝叶斯方法得到每一个被试的能力估计值。 把所有被试根据其能力估计值分成若干组,使得每一组中的被试具有相近的能力估计值,并以同一组内被试能力估计值的平均数(或中位数)作为该组被试能力估计值的代表值。 根据得分数据矩阵,计算出每一组被试答对各个项目的比例。 以各组被试能力估计值的代表值为横坐标,以该组被试答对某项目的比例为纵坐标作图,对于每一个项目都可以作出一幅图,图中的曲线称为经验项目反应函数,如图620中的虚线所示。 寻找一组项目参数估计值,将其代人所选用的项目反应模型后,得到的答对概率值能够和图中经验项目反应函数很好地拟合。 在得到这组项目参数估计值后,重复进行第至第步骤,再寻找项目参数新的估计值。上述过程不断地重复,不断地对能力估计值和项目参数估计值进行修正,直至项目参数值趋于稳定。2、项目反应模型的参数估计项目参数估计的过程是非常复杂的,通常要运用专门的计算机软件才能较好地完成。尽管各种软件采用了不同的估计方法,但基本过程都如上所述。目前对参数进行估计的方法很多,极大似然法是最常用的方法。这种方法是在参数估计过程中,运用似然函数来寻找一组项目和被试能力的参数估计值,使得在取这组估计值时,出现所观察到的实际反应数据的可能性最大。在极大似然估计中,似然函数的一般形式为:式中, U为 m n的项目反应矩阵,其元素为Uij;Pij为被试j答对项目i的概率; Qij为被试 j答错项目 i的概率; a,b,c为由各项目参数所组成的矢量; m为被试人数,n为测验项目数。由于上式是一个连乘式,计算很不方便。因此,在实际应用时一般对该式取对数而简化运算,得到的对数似然函数式为:这是三参数逻辑斯谛模型的似然函数,适用于最一般的情况,单参数和双参数模型的似然函数是它的特例。利用似然函数法进行参数估计时,通常是寻找使似然函数达到最大值的那个参数值。似然函数和它的对数能够在同一点达到最大值,所以,只要找出能使对数似然函数取得最大值的参数值就可以了。具体做法是:令InL对于各参数的一阶偏导数为0即可。也就是说,对三参数模型,只要解出如下的方程组就可得到项目和被试能力的参数值:由于有 m个被试和 n个项目,每个项目有三个参数,所以从理论上说该方程组共有 m 3n个方程。这些方程都是非线性的,一般是采用数值计算的方法得到方程的解。极大似然法估计参敌时有两条缺点:第一没有利用关于被试能力的先验知识;第二是对于满分和零分的被试无法进行参数估计。贝叶斯估计方法克服了似然法的两个缺点,只要事先知道一组被试的能力分布,就可运用贝叶斯法对各个被试的能力值进行估计。(由于贝叶斯估计涉及更复杂的数学问题,故不在本书赘述,有兴趣者查阅有关资料。)3、信息函数信息函数是项目反应理论中的一个基本概念二相当于经典理论中的信度,其主要作用是估计测验的可靠性。在经典理论中利用信度来估价测验的可靠性,有关信度的计算方法都依赖于被试样组,即对不同的被试样组得到不同的信度值,这给测验使用者带来极大的不便。信度函数较好地解决了经典理论遇到的困难。信度函数的计算不依赖于被试样组,而只和该测验中包含的项目有关。同时它是被试能力的函数,对于每一个能力水平能提供不同的测量误差估计值,并能在施测以前就预测出测验的精确度。目前,信度函数被广泛应用于测验的编制、测验精度的评价。确定分数的权重等许多方面。信息函数常用的计算公式与极大似然估计值的性质有关,具体表达式为:其中,Pi表示项目反应函数对于的导数, Pi为被试答对项目i的概率;Qi为被试答错项目i的概率;I()称为测验信息函数,其值称为测验信息量。从上式可以看出,I()是对个各项目的求和,所以各项目对整个测验的信息量具有可加性。因此定义:为项目信息函数。其中,Ui为第 i个项目;I(,Ui)的值称为项目信息量。这样,测验信息量等于各项目信息量之和。从I(,Ui)的计算公式可以看出,项目信息函数在每一能力水平上的值都取决于该点处的项目反应函数的斜率(Pi)和条件方差(PiQi);斜率越大或方差越小,则信息量越大,测量的标准误差SE()越小。测量误差越小,说明对被试能力的估计越精确,因而测验的可靠性越高。通常情况下,项目信息量在能力为极大值max处达到极大值I(,Ui)max。不同的项目反应模型,max和I(,Ui)max是不同的,它们的取值受到项目参数的影响。对于最常用的三种逻辑斯谛模型,max和I(,Ui)max的计算表达式分别为: 单参数模型 双参数模型 三参数模型上面各式中, D1.7; ai、bi、ci分别为项目的区分度参数、难度参数和猜测参数。分析上面各式可以看到:对于单参和双参逻辑斯谛模型,项目信息函数在max= bi处取得极大值,单参模型项目信息量的极大值为常数;双参模型项目信息量的极大值和项目区分度ai的平方成正比,ai值越大则信息量越大;对三参数模型,能力量表上的max同时受到ai、bi和ci三个参数的影响,其项目信息量的极大值与参数a和c都有关系:a越大,则信息量越大;c越大则信息量越小,当c无穷大时,即完全凭猜测回答问题时,信息量为零,当C为零时,信息量可以达到极大值。若已知项目的各个参数,就可以计算出该项目的信息量极大值,同时画出它们的项目信息函数曲线。表中列出了4个项目的参数及I(,Ui)max;图6.21给出了这4个项目的信息函数曲线,图的横坐标为能力量表,纵坐标为信息量表。图6.21对四个项目的信息函数、从4个项目信息函数曲线可以看出:项目1和项目2的a。b值相等,猜测参数c值大的,提供的信息量小;区分度低的项目(如项目4)对能力的估计几乎没有什么作用(项目4的信息函数曲线非常平坦,提供的信息量几乎为0)。由此可见,项目的参数值对于项目信息函数有明显影响,这一点对测验的编制是非常有用的。因为信息函数反映了测量的精确度,根据项目参数和信息函数的关系,我们就可以选择适当的项目,使整个测验达到预定的精确度。另外,信息函数具有可加性,项目越多,测验越长,信息函数值就越大,估计的精确性也越高。所以,要保证测验的精度,一方面要选择恰当的项目,另一方面要有适量的项目,项目过少,信息量就小,测验的精度就低,可靠性就差。应当说明的是,进行题库建设一定要运用教育测量理论,但运用项目反应理论与运用经典理论在某些问题的考虑与处理上是不完全一致的,主要区别表现在项目参数的获得。标准参照测验项目的选择、常模的建立和预测分数的评价等方面。(由于篇幅所限,不能对这些区别作详细讨论,读者在需要时可查阅有关书籍。)题库系统的基本构成对于一个功能较强的题库系统,与CAT系统在功能上没有很大的区别,只是在规模上题库系统不一定像CAT系统那样大。通常,它完成测验过程中某些环节上的工作,例如测验编制。测试分析等,当然也可以完成测验过程中的全部工作。一个题库系统,不论是专门化的(只支持某一学科的题库建立,如建英语题库。数学题库、物理题库等),还是通用的(支持各学科题库的建立),在所形成的相应学科的题库方面会各有独自的特点,但任何系统的功能基本上是一致的,一般都应具备建库和维护、查询和检索。组卷和印卷、试题与试卷分析等功能,这是无论建立什么学科的题库都需要的。对于不同学科的题库系统必须根据学科本身特征去解决一些具体问题。例如英语不涉及图形问题,相应地,题库系统就不必处理图形所带来的问题。而数学、物理等理科都要涉及图形和特殊符号等问题,它们的题库系统相应地就必须解决图形、特殊符号的绘制、存贮等技术问题。图622所示的是一个物理题库系统的功能结构图,它既可以说明一个题库系统的基本构成,也反映了学科特点对题库系统的特殊功能要求。图6.22题库系统功能结构图1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、删、修改、更换以及按题号排序和查对等。由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。另外,由于试题中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、附图、答文、答图等五部分组成。考虑存储和管理的方便,试题的这些信息不统一存放在一个库中,而分别存放在指标库、题文库。附图库、答文库和答图库等五个子库中。各子库中同属一道试题的各项信息通过题目序号联系起来。此外,按照课程的内容把所有题目分类,按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。2、查询与检索子系统查询与检索子系统的功能是查询题库中试题的分布情况,包括总库及各分库的试题接任一属性指标的分布情况;此外,根据用户要求查询任意指定试题的指标、题文、附图。答文和答图,以便用户及时了解题库中试题的分布情况,对题库的使用。整理和扩充提供必要的指导信息。3、交互式组卷子系统交互式组卷子系统的功能是允许用户通过人机对话方式指定试题的属性指标来选择试题生成试卷,可使用不同的方式指定选题指标(如指定试题号或逐项指定指标)并允许进行调整。这种组卷方式比较适合于在具体的教学环境下生成有针对性的测验试卷。4、自动组卷子系统自动组卷子系统的功能是由用户向系统送入有关组卷的要求,例如试题的内容范围。试题类型。各类型的题目数、试题难度。区分度等指标,根据这些指标的要求,系统自动检索题库生成试卷。5、打印与输出于系统打印与输出子系统的功能是进行试卷试题的输出和打印,能给出一定格式的试卷。解答和试卷试题的指标,能把任意给定指标的试题从试题库中显示或打印出来。6、测试分析子系统测试分析子系统的功能是输入考试成绩等有关信息,然后按有关测量理论进行试题和试卷分析,给出实测指标,并根据实测值修改题库中试题的有关属性指标。题库结构设计一个题库将存放大量的题目,这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。(3)题库具有构成和结出等价形式测验的能力。等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。根据国家标准,对一个学生采用一个测验的两个或三个等价形式,每次得到的分数应是相同的,这样的等价形式是有效的。上述题库的三方面特征的体现要通过题库结构设计来达到,换句话说题库结构设计时要考虑题库的这三个基本特征。因此,题库结构设计最基础的工作应包括确定题目类型、规定试题属性及题库总体数据结构的确立等几方面。1、试题类型在CAI系统中提问可采用是非型、多重选择型、匹配型及短答填充型等几种形式。对于CAT系统来说,考虑计算机对阅卷评分的限制,也大都是选用这四种类型的试题。上述四种类型的题目除在表面形式和作答要求上有很大区别外,在测试中也表现出很多不同的特点,这些特点反映了各类型题目的适应性,在选题和组卷中应考虑这些特征。表中列出了四种类型题目的测试特点,了解掌握这些特点对增加题库的有效性、提高测验的可靠性是有益的。表67题型测试特点比较表中从同一时间内可作题数、计算机处理的难易程度。猜测而答对的可能性及可测目标分类层次范围等四个方面比较了不同题型的测试特点。“同一时间内可作题目数”的特点反映了考试周期(如两小时)内一般学生所能完成题量的限制;“计算机处理”难易程度的特点反映了题型在应用计算机方面受到的约束限制,例如短答填充题与匹配题的回答不能用填写答案后经OCR读入的方式进行评阅分析;“猜测而答对可能性”的特点反映了题型对于学生真实能力测试的限制,例如是非题容易产生猜测而答对的结果,这将影响评价的可靠性,对是非题需要增加题数或者其它的处理来消除其不可靠性;“可测目标分类层次范围”可说明各类型题对测验的适应性,但这一点并不是绝对的,例如一般说来是非题只适于目标层次较低的测试,但有些知识内容通过精心的题目设计所得到的是非题也可以用于较高层次目标的测试。例如:数列2、3、5、8 、13的下一项是21吗?此是非题可以测试学生的分析能力。应该指出的是,目前很多题库系统不提供阅卷评分的功能,试题库中的题目类型就可不局限于上述四种,例如可有计算题、证明题、作图题等。这样,通常考核所使用的题型几乎都可以存储到题库中。2、试题属性试题属性是指除题文以外能反映试题某些情况的指标项。规定试题的属性是从计算机管理、产生与测验目标相附合的有效试卷及对试题进行分析评价的需要出发,确定一些项目以描述试题的某些特征。常见的题目属性有题目的内容范围、目标分类层次、题目类型、难度、区分度、选中计数等,在试题库中题目属性常用代码来描述。内容范围:是指题目所涉及的知识域(如动词的时态。名词的数。词组搭配等)或是题目求解所需知识在课本中的范围(如章节序号等)。目标层次:是指题目所能鉴别的学生能力层次。目标层次通常接认知活动的层次分成记忆、理解、应用、分析、综合、评价等六类。例如在题库中用A0表示记忆类目标,用Al表示理解类目标,B0表示应用类目标等等。题目类型:是指试题的提问形式,如是非题、匹配题。填充题等。题目难度:是反映题目难易程度的指标项,通常以通过率作为衡量标准。题目区分度:是反映题目鉴别力的指标项。选中计数:是指题目参与组卷的次数。选中计数指标可为新组卷提供参考。根据管理的需要,不同的设计人还会规定出其它的题目属性。对于每一个入库的题目,都要具有这些属性并且每一属性都具有值。有的值是确定不变的代码,如题目类型、目标层次等;有的是具体的数值,如选中计数、内容范围(当内容范围由章节号确定时)等;有的值则是在题目使用后的分析评价中不断修正的,如难度、区分度等。在试题库中,一道题目的题文和属性指标两部分可以存放在同一记录结构中,也可以分别存放在不同子库的记录中,这与设计人从建库的实际需要出发所设计的题库总体结构有关。3、题库总体数据结构题库总体数据结构是指所有试题及其所有相关信息被组织存储的形式结构。总体数据结构的确立要从建库目标和功能要求出发,力求节省存储空间,方便计算机处理和用户使用,保证有较快的检索和处理速度。对于较大的题库系统,其试题库总体结构是分层分块的,总库下有子库,子库中有分库等。试题信息常按题文(题目中的文字部分)。题图(题目中的附图)、答文(答案信息为文字)、答图(答案信息为图形)、属性指标等分类,分别存放于不同的子库当中;全部试题又常技课程的内容、或题型。或按测试目标层次分类存储,这样每个子库被相应地分成若干分库。各个子库要设定相同的关键字,利用关键字把同一道试题的各种信息联系在一起(例如同题号作关键字,那么在各子库中都应有题号这个数据项地为了提高检索和库管理速度,一般要根据需要建立各种索引文件,如对各个子库建立各分库的题号索引,以指出各分库中存放的试题题号范围。通常可用分库中第一个试题的题序号和该库中存放的试题总数目来标明该范围(因题库中题号是有顺序的,题目按题号有序地存储在分库中)。设计题库总体数据结构时要考虑图形存储问题。许多学科题库都不可避免地存储带有图形的试题,而图形需要占据大量存储空间,应采用数据压缩技术来解决节省图形存储空间的问题。有关压缩存储的方法很多,针对不同学科的图形特点可设计不同的方法来实现图形数据压缩。例如,将试题中的图形以图段拼成,而图段则由一些图元组成,每个图元给予不同的编码,不同的编码值代表不同的作图算法,然后用参数表明图的大小及它的相对位置。这样使用适当的编辑命令,就能很方便地绘制题目中所需要的图形。可以看出,这种方法已把一幅图形变成一些代码和参数存储起来。当图形显示时,先调出相应的图形记录,分解并翻译那些代码和参数,然后根据代码值所表示的算法,绘出每个图段的各图形元,这样一幅题图就显示出来。采用这种办法存储图形,占满监视器一屏幕的单线图(如电路图)仅约占2k字节的存储空间。这比用点阵数据存储图形节省了三分之二的存储。下面是全国高师物理化学标准化考试中心组研制的“物化标准化考试题库”的数据结构与题目编码设计,从这可以看出题库结构设计的复杂性和多样性。“物化标准化考试题库”(以下简称物化题库)共有65个dBASE数据文件,其中试题库主文件45个。试题按考试大纲拟定的考核内容及考核目标分类,分别存放在45个分库中,库文件结构如下:其中,“图备注”字段为图形标志字段,该字段的取值可以为0、1、2、3四个数中的任意一个,分别表示试题无图。试题有图。答案中有图以及题和答案中都有图四种情况。“考核目标”分为A、B、C、D四级,分别代表认识与记忆、理解与判断、掌握与应用、分析与综合等由低到高四个层次。“题目类型”用一个字符标识,A代表单选题,B代表多选题,E代表计算题,F代表证明题,G代表作图题。“题目编码”是这样设定的:考题编码一考纲代码十考点代码十考核目标代码十题目类型代码十序号。其中,考纲代码由两个字符加一位数字组成,字符为考试大纲中考核内容的英文缩写,数字为考核知识类型;序号为同类试题的区分号,如 EKI 10AB10表示电极过程动力学基本概念。第10个考点、A级目标多选题第10题。这种编码对题目分类检索十分方便。组卷策略设计组卷策略是指系统进行组卷的方式方法。它是题库系统自动生成有效(对测验目标来说)试卷的关键。组卷策略设计主要涉及成卷要求的数量化、卷面分数分配。库中选题等问题的处理。一般地说,对题库系统组织试卷的要求是根据出卷者的需求产生一份对于测验目标(如教学评价、学生能力水平评价等)有价值的测验试卷。因此,在组卷时,用户要提出组卷要求,通常包括题目内容范围、题目类型。题目数量和测验目标等方面。这些要求应转化成试卷每个题目的量化参数才能被系统使用。例如按照测验目标各知识点内容所占比例数,各层次的目标(记忆、理解、综合、应用等片于别由哪些题型反映,每种题型在试卷中的数量,各难度级在卷中所占比例,难度与时间的比例等要求。量化工作在功能较弱的系统中需由人工完成,并按一定格式送入系统中。功能较强的题库系统能在一定程度上自动完成量化转换,形成相应的组卷参数。一种做法是,让出题者按照一定格式描述试卷编制计划信息,如卷内题目在题型和难度上的分布,知识点内容在各目标层次上的分布电话数量),然后通过一定算法交换成试卷试题的具体要求。另外一种做法是将课程目标与内容信息在系统中建立一个目标内容分布关系表。(见表65表中把目标分成四个层次,题目内容分成四类,如概念理论类。计算类。综合类等,内容对目标层次的难易分布为表中所示。)这样,教师只要提出出题内容范围和总题量,系统根据这个关系表和题库中各试题的有关属性,就可以选择不同目标。不同难度。不同内容的题目,组织成分布上符合该表的一份试卷。表 目标内容分有关系一例在题库中按上述量化的组卷要求查找符合条件的题目进行出题组卷,一般都采用匹配方法。精确匹配可以组出完全符合量化标准的试卷,但有时会出现组卷策略无法实现的情况(即查不到完全符合条件要求的题目)。为了避免这种情况,设计组卷策略时要考虑怎样解决它。常用的办法之一是形成并试用新的组卷策略,这种做法会带来时间上的浪费。另种办法是把精确匹配改成近似匹配。采用近似匹配时应事先规定所选题目在内容。目标。题型与难度等各指标上是否可以与出题要求不完全一致,能不能有一定的模糊度。若模糊度为0表示必须精确匹配;而非零值则乘示可有多大的变异度。在后种条件下,若找不到完全符合要求的题目,就可以在模糊度许可范围内查找近似匹配的题目。卷面分数分配是指将试卷总分分配到每个试题。这项工作可由教师凭经验自己完成,也可由系统自动实现。系统自动完成赋分的方案有两种,一种是提供参数法,即在出题组卷时向系统提供试卷中各题型的单位分值和卷分在各目标层次上的占分比例;另一种是给各难度级规定赋分权重。在后者这一条件下,卷面分数分配策略可这样设计;在同级难度的赋分权重相同时,各题的分数与答题的参考时间成正比;在不同难度级不同的赋分权重下,可通过加大或减少某些难度级的题目在总分中的比例进行调整。这样可使所需时间相同而难度级不同的题目,其赋分的多少完全与该题难度级的赋分权重成正比。这种卷面分数分配的方法灵活,可以支持不同类型的考试与练习。试题库系统的建立从试题库的结构和基本功能可以看出,题库系统是一个相当复杂的系统,它的建立需要专业课教师。程序设计人员和教育测量专家的分工合作。1、教育测量专家的工作是为建立题库提供经典的或现代的教育测量理论,使题库具有科学的数学模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论