基于经典测量理论和项目反应理论的等值与连接(三)_第1页
基于经典测量理论和项目反应理论的等值与连接(三)_第2页
基于经典测量理论和项目反应理论的等值与连接(三)_第3页
基于经典测量理论和项目反应理论的等值与连接(三)_第4页
基于经典测量理论和项目反应理论的等值与连接(三)_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引导演讲作者连续写了三篇论文,讨论了测试等值和连接的概念、过程、应用和存在的问题。第一篇文章(发表于2011年第一期考试研究)讨论了效度的核心问题,以及在准备试题和生成试卷的过程中构建等效测试版本的意义。同时,介绍了等效和联系的主要概念和基本术语,总结了经典测量理论和项目反应理论(IRT)。第二篇文章(发表于考试研究,第2期,2011年)重点介绍了连接和等值的抽样和等值设计,并讨论了建立题库的步骤和基于CTT的等值方法。本文是本系列的最后一篇文章,主要介绍了基于IRT的等值方法,同时简要讨论了当前教育测量中的四个重要问题,如多水平IRT模型的使用、纵向标度、计算机化测试和等值误差。这一系列的论

2、文是基于一名业界人士对等值和连接的介绍经典测量理论和项目反应理论入门(一个从业者的介绍等同于经典测试理论和项目反应理论的引子,瑞安布罗克曼,2009)。它面向开发、维护和改进教育测量项目的教育者。其目标受众包括用户、从业者和负责教育测量项目的决策者。当然,这些论文也是非常实用的基础知识,对于其他想对连接和等价做出一些基本理解的人来说,这样可以对等价技术进行深入的研究。作者强烈建议读者参考第一篇文章,它解释了这一系列文章的背景和观点。1.基于IRT的基本等价方法当把IRT模型应用于等价时,一些基本概念是非常重要的。本文引入IRT等价的目的就是为了揭示这些概念。IRT等价可以通过出现在两个或多个测

3、试中的一组问题(称为普通问题)或者参加这两个或多个测试的一组候选样本(称为普通组)来实现。在测量心理学中,我们可以认为随机等价组是做不同种类测试的同一组人。本文主要介绍了基于常见问题的IRT等价方法,并简要说明了这种逻辑和基于常见问题的等价基本方法是如何应用于常见群的等价的。常见问题的等价性有四种常用方法:应用等值常数使用固定校准来估计具有固定校准的项目参数通过同时/同时校准估计项目参数应用测试特性曲线程序作为本文的共同主题(锚定主题)(也用于不同的等效方法),我认为有必要进一步阐明其主要特征,本系列的第二篇文章已经介绍了这些特征。在这里,我们将简要回顾一下常见问题的使用标准,即:.锚定问题组

4、应该是一个“迷你版本”,可以代表整个试卷。试卷甲和试卷乙中的锚题位置(题号)应大致相同,试卷甲和试卷乙中的锚题应完全相同。您不能修改文本、答案选项的顺序、主题材料,也不能显示不同的提示,或者进行任何其他可能影响考生在不同试卷中表现的修改。同时,如果条件允许,当使用多项选择题、简答题、延伸题和其他问题时,锚定问题组应该与整个试卷具有大致相同的比例。如果读者想了解更多基于IRT的等效性,他们可以参考以下材料,如最佳测试设计测试(赖特斯通,1979),等效,缩放和链接:第二版(科伦布伦南,2004)。教育测量,第四版。(布伦南,2006),链接和调整分数和量表(多伦斯,波默里奇,荷兰,2007),和

5、一个从业者介绍等同于经典测试理论和项目反应理论的初级读本(瑞安布罗克曼,2009)。1.等价常数在等价中的应用在对试卷进行等值和建立题库时,使用嵌入在两张试卷中的常见问题是一种非常有效和实用的方法。对于两篇等价的论文,这种方法可以用来估计所需的“原点的偏移”。接下来,作者将向读者解释应用等价常数时应注意的基本原则和步骤,并通过一个实例演示如何利用单参数IRT模型(Rasch模型)通过等价常数实现等价。这种方法的逻辑与实际操作完全一致,并且通过一定的扩展和变化,这些原则可以适用于大多数IRT等价的情况。当然,不同于在这种情况下使用的IRT模型,其他IRT模型也可以获得具有更高精度的等效结果。有共

6、同问题的两篇论文之间等价的第一步是估计每篇论文的特征参数值,两篇论文的参数值应该分别估计,所有问题的参数估计应该在无约束条件下进行。当然,这一步可能会有例外。例如,如果一张试卷相当于一个题库,就不再需要估计题库的参数值。两份试卷中使用的测试量表的来源是任意指定的,用户可以将其设置为任何方便的值。在Rasch模型的大多数应用中,测试规模的起点通常被设置为所有问题难度的平均值,通常被设置为零(0)。这样,在我们得到的测试量表上,所有比平均难度更容易的问题将显示负难度,而比平均难度更难的问题将显示正难度。在介绍应用常数等效的情况之前,有必要强调在大多数IRT应用中,标度的原点可以设置在任何方便的位置

7、。有时,我们在年度测试中使用第一张试卷的参数值来指定来源。在其他情况下,我们可以将学生达到某一等级水平(如“熟练程度”)所需的能力作为量表的来源,当然我们也可以使用学生能力的平均值。通过使用不同的原点可以很容易地改变比例,因此可以调整比例变量。图1显示了包含20个问题的虚拟试卷X。其中,问题A、B和C是锚定问题,也是另一份试卷Y中的常见问题。试卷x中有17个其他问题,但试卷Y中没有.图1中显示的三个常见问题都在原点(0)的左侧,这意味着这三个问题的难度低于试卷x的平均难度图1试卷十中三个相对简单的常见问题由于这三个常见问题在全部20个问题中相对容易,所以试卷X中剩余的17个非常见问题的平均难度

8、肯定高于由A、B和C组成的常见问题组。从图1可以看出,问题A、B和C的估计难度值分别为-1.5、-1.0和-0.5,这三个问题的平均难度比试卷的平均难度低1.0。图2是另一个有20道题的虚拟试卷y。在本例中,除了由问题A、B和C组成的常见问题组,其他17个问题与试卷x中的问题不同。在图2中,三个常见问题位于原点(0)的右侧,这意味着它们的难度高于整个试卷的平均难度。图2试卷Y中三个相对较难的常见问题的图示在试卷Y中,20道题中有3道普通题难度相对较大,所以试卷Y中其余17道非普通题的平均难度肯定低于由A、B和C组成的普通题组。从图2可以看出,题目A、B和C的难度估计值分别为0.5、1.0和1.

9、5。然后,这三个问题的平均难度比整个试卷高1.0。表1常见问题的难度分析和等效常数计算表1列出了试卷Y和试卷X中问题的难度,以及两份试卷之间难度估计的平均差异。试卷X和试卷Y中的问题等价的关键是要理解两个试卷中常见问题的平均相对难度是不同的,因为两个试卷中常见问题的平均难度的计算与只出现在本试卷中的其他问题的难度密切相关。在表1所示的例子中,我们以试卷Y为原点。此时,我们只需要将试卷X的评分标准调整两个单位,使其与试卷Y的评分标准相当.当然,以Y为原点是任意的,我们也可以以试卷X的尺度为原点。普通试题的平均难度从Y卷的1.0变为X卷的-1.0,并且有两个单元的差异。试卷X和试卷Y中其他问题的难

10、度差异导致普通问题的平均难度发生变化,这是使试卷X与试卷Y的等级相当所需的调整,即等价常数。上述情况下的等效常数为2.0。当我们把相当于2.0的常数加到试卷X的难度值上,我们就可以得到一个共同的尺度。该通用量表的来源是试卷Y,在该量表上分布有37个问题,包括3个通用问题、17个试卷Y独有的问题和17个试卷X独有的问题。等效过程如图3所示。将试卷X调整2.0后,三个常见问题的难度与试卷Y一致图3调整试卷X,使两张试卷的常见问题对齐经过调整后,试卷X中锚题的平均难度现在是1。0,这意味着它等于试卷Y中常见问题的平均难度(即等效)。更重要的是,通过调整常见问题之间的难度差距,试卷X中的所有问题都相当

11、于试卷Y的规模。图4显示了这一过程的最终结果。图4通过常见问题,两篇论文相当于相同的尺度在该图中,试卷y被确定为标尺的原点,试卷X被调整为2.0,因此普通试题的平均难度是相同的,试卷X和试卷y是等价的,并且两个试卷中的所有问题都出现在相同的标尺上,包括试卷y独有的17个问题、3个普通问题和试卷X独有的17个问题.通过以上案例,作者说明了将等价常数应用于两篇常见问题的基本过程。这是一个简化的案例,旨在使这些基本过程看起来更清晰。然而,这种情况在实际应用中是不现实的。为了将这种情况下的方法与实际情况结合起来,有必要澄清以下几点:不同的论文不能仅仅被三个常见的问题等同起来。我们很难指定一个常见问题的

12、数量或比例,但在正常的实践中,一份大约有4060个问题的试卷至少应该有1520个相同的常见问题。难度差异较大的l组试卷,如x组试卷和y组试卷,只能在一定的具体情况下进行等效或连接,如跨年级(垂直)连接,或等效于广泛的小组能力等。在准备试卷时,必须在更广的范围内选择常见的问题,涵盖整个试卷的不同难题,但不像在这种情况下。只要有可能,公共主题组应该覆盖尽可能多的困难主题。此外,公共主题组还应反映整个试卷的内容和主题形式。也许有一些问题可以单独在论文X或论文Y中发挥很好的作用,但这并不意味着它们可以作为两者的常见问题。在测试某些主题是否能成为好的常见问题时,有大量的相关程序可用。此外,当一个主题被用

13、作连接主题时,必须测试其可靠性和稳定性。稍后,作者将详细阐述这个问题。在上面,作者用了一个虚拟的例子来说明等价常数的应用过程,其中有一组在两篇论文中常见的问题。当我们从题库中抽取这组常见问题,然后应用到另一张试卷上时,我们仍然可以使用上述方法直接进行等值。如果我们能得到一组常见问题的参数值,我们可以把它们作为量表的原点,其他论文中所有参数值未知的问题都等价于题库。表2显示了在实际测试过程中应用等效常数法的结果。在本例中,我们从题库中抽取了一组13个常见问题。在2008年的测试中,这13个常见问题和27个其他问题组成了一份包含40个问题的试卷。研究者的任务是将Rasch模型应用于相当于题库规模的

14、27个新问题。步骤1:表格中的第一列显示了试卷中常见问题的分布位置。我们可以看到,常见的问题广泛分散在整个试卷中。如第二栏所示,在步骤2:中,对2008年的试卷进行了校准,并估算了所有问题的难度值。试卷中常见问题的平均难度为-0.382,表明常见问题组比试卷中的其他27个问题更容易。步骤:的第三列是13个常见问题的难度值,此时的平均难度值为-0.254,表明这组常见问题比题库中的其他问题更容易。步骤4:的第四列是2008年常见问题的平均难度与题库平均难度的差值。这个差值的平均值是-0.128,这是我们想要的等效常数。步骤5:从2008年试卷的难度值中减去该等效常数,2008年试卷的等级可以等于

15、题库等级。第五列显示调整后相应题库的难度值。在步骤6:将调整后的项目库难度值(第五列)与其原始项目库难度值(第三列)进行比较,并且所获得的差值是第六列中的值。表2等效常数分析结果当我们使用调整等价常数的方法来实现试卷之间的等价,或者将试卷等价于题库时,我们可以通过评估用于估计等价常数的题目本身的稳定性来衡量等价过程的充分性。理论上讲,经过调整后,常见问题的难度应该等于题库中的难度。当然,该理论可以应用于IRT模型和模型参数,但实际的统计参数却不能。表2第六列中的数据提供了衡量主题稳定性的信息。至于为什么一个(或多个)常见问题的难度与难度调整后题库中的难度有很大差距,笔者可以列举很多原因。这种差

16、异反映了问题缺乏稳定性,甚至可能导致专业人员决定从问题组中删除一个问题来计算等效常数。一个主题的任何变化,即使是微不足道的,例如命题的术语或选项的排列顺序的变化,都可能导致主题参数的不同估计值。在现场测试中获得的题目参数可能与实际测试中获得的题目参数有很大的不同,因为学生认为前者的测试结果对他们没有影响,而后者可能对他们有决定性的影响。问题在试卷中出现的位置也可能影响问题的参数值。据预测,出现在试卷开头的问题可能会出现在正式考试的结尾附近,并且这两个问题的参数值可能会有一些差异。一般来说,出现在试卷末尾的问题会更难,而那些被多次使用的问题会更容易。此外,题目参数的估计值也可能受到试卷中其他题目的影响。一般来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论