项目反应理论与实践初步:BILOG应用简介.doc_第1页
项目反应理论与实践初步:BILOG应用简介.doc_第2页
项目反应理论与实践初步:BILOG应用简介.doc_第3页
项目反应理论与实践初步:BILOG应用简介.doc_第4页
项目反应理论与实践初步:BILOG应用简介.doc_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目反应理论与实践初步:BILOG应用简介曹亦薇(作者简介:曹亦薇,博士,副教授,深圳大学师范学院教育系,广东深圳,518060。)摘要:BILOG是应用项目反应理论的计算机程序。本文对应用BILOG处理二值数据的具体步骤和相关的IRT基础知识进行了具体介绍。关键词:项目反应理论 BILOG随着计算机技术的发展,项目反应理论(Item Response Theory,IRT)对于专门从事教育测量与心理测量的学者们来说已不是陌生的学问了。特别是LOGITIC、BILOG、MCBILOG及MULTILOG等软件的问世,为普及该理论的应用提供了良好的工具。如何将这些工具浅显地介绍给广大读者,是深入推广应用项目反应理论的重要工作。本文拟在应用BILOG软件处理二值数据方面做一些简介,期望更多读者加入应用项目反应理论的行列,更期望有关专家能够提供宝贵的应用经验。一、项目反应理论的基本概念1项目特征函数(Item Characteristic Function,ICF)从严格意义上来说,项目反应理论是由一组指数族的数学模型组成。使用者可根据不同的数据特征,选择相应的模型。比如说,测验数据是二值型,即0-1数据时,相应的模型为Bernbaum的Logistic模型,其中,还分为1参数(Rasch模型)、2参数、3参数三种模型;如数据为Likert type即等级数值时,有Samejima的等级模型,部分等级模型以及数值仅表示分类的名义模型。尽管类型众多,这些模型都是从测验的目的出发,相应地把能力(在心理学中称为“潜特性”或“潜特质”,并假设为一维的连续体)作为一个公共的尺度,用数学公式把这个尺度和各项目关系表现出来。若选择3参数logistic模型,当第j个项目变量uj为二值数。据时,即 1 答对第j个项目uj= 0 答错第j个项目此时具有能力的人答对第j个项目的概率可表示为Pj():其中,是能力变量,aj是第j个项目的区分度,bj是它的难度,cj是猜测参数,D是常数1.7。用曲线将Pj()的变化表示的话,aj恰好是该曲线的斜率,aj越大,曲线变化也越大;bj决定该曲线的位置所在,bj越大,曲线则越靠右方,反之曲线靠左方;cj是该曲线的截距,cj越大则表明被试猜测的程度越高。若cj为0,则(1)式就变成了2参数模型。此时bj表示被试以50的概率正确地回答该题的能力值为。对Pj()的意义通常有两种解释:(I)具有能力的人能够正确回答第j个项目的概率,相应地答错的概率为Qj()=1- Pj()。(II)由所有具有能力的人组成的总体中,能够正确答对第j题的人数比例。2能力尺度被试的能力尺度是由所选择的项目反应模型所决定的。但是这个尺度的原点和单位是不确定的。为了估计模型中的各项目参数,最常用的是设能力的估计值的平均为0,标准差为1。必须注意到了对于同一测验若使用不同的被试团体来估计各个项目参数时,得到的同一项目的参数是两个不同尺度上的值,因此比较其大小是无意义的。需要通过等值化过程(能力的等值或参数的等值)才能变成同一尺度上的数值。3局部独立性的假设这是项目反应理论中重要的假设。具体意思是:如果将能力值固定时,答对某项目的概率不影响答对其他项目的概率。如果没有这个假定,在参数估计中无法运作。但是实际上这个前提又很难验证。比如说,表示的能力是二维的话,即使固定某一维,由于各人的能力有差异,另一维也会相应地影响到对各项目的反应。因此为了确认局部独立性,通常是利用它的等价命题:确认测验所测的能力是一维的。4信息函数信息函数是IRT中评价测量精度的重要指标。运用这个指标,便可以在能力各个水平上评价其测量精度。而这个信息函数的倒数正好近似地等于能力的估计值的方差:例如3参数logistic模型的测验信息函数为其中Pj()=cj+(1-cj)P*j()。从公式(3)中还可看出测验信息函数正好是项目信息函数之和(可加性)。应用信息函数除了能够评价每个能力水平上的估计精度之外,还可以用它根据估计的精度,灵活地编制适应各能力水平的测验卷,建立试题库。二、项目反应理论的实际应用步骤BILOG(Item analysis and test scoring with Binary Logistic Models)由美国著名心理计量学家J.Mislevy和R.D.Bock为应用项目反应理论而编制的计算机程序。在这个程式以前还有LOGIST、BIMIN等程序,在20世纪90年代之后,基本上这个程序成为应用Logistic Models的权威程序。在BILOG的自我介绍中指出这个程序系统以处理Binary数据(即数据二值型,如0表示错,l表示对的形式)为前提,使用MML和Bayes估计方法为其特点。它能提供稳定而且精确的项目参数和能力参数估计。为了保证参数估计的稳定性和精确性,根据个人经验,项目数为20-60个,人数1000人左右比较妥当。使用BILOG前,需要将数据进行格式化,即数据文件必须具有表1的形式。其中,ANS.KEY表示正确答案,NOT.KEY表示被试来不及完成项目的标记,OMIT.KEY表示被试没有回答该项目的标记,以下的记录则是被试回答的原始记录。注:每个记录应少于256列,答案与数据应保持同样的格式。在应用项目反应理论来分析数据时必须有以下几个步骤:1能力单维性的确认因为IRT有个重要的前提是局部独立性,即数据必须满足一维性的假设。有两种方法可以使用,即图示法和指标法。图示法主要是用主因素分析法得到第一特征根与其他特征根,并比较它们的大小,来确认该数据是否满足一因素结构的假设。一般说来第一特征根与第二特征根之比大于5时,一维性的假设可以成立。需要注意的是,计算相关系数矩阵时应使用四分相关系数(tetrachoric相关系数)或者它的近似式相关系数,否则误差较大。指标法主要是建立数据满足一维性的统计量分布,通过假设检验来判断数据是否满足一维性。比较有名的有Stout(1990)的DIMTEST的T统计量。2对数据是否符合选用模型的确认(goodness of fit)Mislevy and Bock推荐似然函数比的方法来考察整体数据是否符合所选取的模型,即拟合优度检验,用2检验考察每个项目的拟合优度。主要理由是似然函数和2统计量在对参数估计过程中已经给出只需确认即可。下例是某个初三年级的词汇理解能力测验的数据(曹,l999)。在项目参数估计时分别假设数据符合2PL和3PL模型。在实行BILOG的过程中可以得到-2倍的对数似然函数值。表2是在原假设即两种模型没有区别的条件下,初中三个年级测验的2PL和3PL似然函数比的结果。从表2的最后一行可知,测验的对数似然函数之差(自由度为56)的检验结果接受两模型没有区别的原假设。对每个项目进行拟合优度的检查,也比较简单,因为在BILOG运行前,只要作若干设定,运行结束后会自动列出该项目是否拟合所选模型的检验结果。3设定参数估计方法以3参数模型为例,由于公式(1)中的aj、bj、cj和口都是未知的,需要估计。若一个测验有60个项目,l000个被试,所需要估计的参数为1180个!在很长的一段时期,IRT难以推广的原因之一,就是估计过程中计算量巨大而难以解决。20世纪80年代以后,个人计算机的广泛使用,为IRT的普及准备了条件。同时统计理论中的估计方法也有了突破性的发展,为更快更精确地完成参数估计的专用软件奠定了理论基础。在BILOG软件中对项目参数估计主要有两种方法:(1)MML(边缘极大似然估计)主要通过“EM”和“Newton-Gauss”算法来实现的。2PL和3PL中的MML估计基本上属于单维项目的因素分析。但是在估计中若公共因素方差估计值超过l时就要出现Heywood现象。(2)MMAP(边缘极大事后估计)是当上述的Heywood现象出现时所用的一个解决办法。在这个方法中需事先给出区分度aj服从对数正态分布。对于能力参数的估计方法主要有:(3)ML(极大似然估计),最常见的求法。通过对数似然函数的求其极值解。但有时会出现该函数的极值解不惟一的情况。(4)EAP(贝叶斯估计)。求出目的事后分布的平均值,通常用在当项目参数估计用MML法求出后,再来估计的场合。(5)MAP(贝叶斯模型,极大事后分布)。与EAP(贝叶斯估计)有点类似,只是的事后分布比EAP含有较大的误差。以上的方法都可在BILOG应用程序中进行设定后,得到相应的估计结果。4BILOG的主要指令BILOG的主要指令通过下面具体的一个例子予以说明。若给上述的指令程序冠以“IRT.BLG”的名称,在运行该程序前,DOS的画面上击入即可命令BILOG进行运算。但要注意到COMMENTS、 GLOBAL、SAVE、LENGTH、INPUT、TEST、CALIB、SCORE这些主命令的顺序不能变更,而主命令内的选项可以变换次序或用默认项。三、如何读取BILOG的结果BILOG的计算结果存放在三个阶段文件中。即IRT.PHl、IRT.PH2和IRT.PH3。在PHl文件中主要保存数据文件的经典测验理论的各种统计量(见表4):项目编号、名称、项目答对数、答对率、l.7分之对数(答对率答错率)和点二列相关系数等。在PH2的文件中主要存放项目参数的估计结果以及假设检验指标。需要注意的是在本文件中记录了MML(边缘极大似然估计)算法结束时的负2倍的对数似然函数值:EM STEP-2 LOG LIKELIHOOD= 54623.1534CYCLE 5:LARGEST CHANGE= .01960NEWTON STEP-2 LOG LIKELIHOOD= 54628.7053CYCLE 6:LARGEST CHANGE= .00610对数似然比方法中此值就是用来检验模型拟合优度。表5是估计结果例:表中每一项目有两行内容:第一行是各项目参数的估计值,第二行是相应的估计的标准误。其主要结果是表中的第三列、第四列、第五列,依次是区分度aj、bj、cj的估计值;第六列是关于项目的拟合优度的2统计量值,最后一列是自由度,第二行就是2的P值。如果其值小于事先规定的显著性水平如0.01或O.05便可判断为该项目不符合所用的模型。第三个阶段文件PH3主要存放能力得分的估计结果。在这个文件开始部分会记录能力分数用的是何种估计方法比如说本例中使用了EAP(BAYES ESTl-MATES)方法等信息。能力分数的估计量如下表。其中,表内的第四、第五列是被试答对的项目数及答对率,第六、七列是能力分数估计值及标准误,最后一列是回答组型的边缘概率的估计值。四、小结以上是如何应用BILOG进行数据分析的最初步的介绍。还有很多具体的应用细节以及理由因篇幅关系不能一一说明。比如说在命令程序中如何选择估计方法,如何比较不同方法对计算结果的影响等等。这需要在应用过程中不断地探讨,积累经验。参考文献1Mislevy,R.J,and Bock,R.D.PC-BILOG:Item analysis and test scoring with binary logistic mo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论