IRT与CTT中合格分数的确立方法

上传人：7*** IP属地：湖北上传时间：2022-03-05 格式：DOC 页数：6 大小：118KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、IRT与CTT中合格分数的确立方法邓远平邓远平（1979），男，江西兴国，现为集美大学教师教育学院助教，研究方向为心理统计与测量集美师范大学教师教育学院（厦门，361021）摘要：如何确立标准参照测验中的合格分数是涉及到测验公平性的一个技术问题，本文介绍了经典测验理论（Classical test theory, 以下简称CTT）下的被试组对比判断法、测验内容分析判断法及项目反应理论（Item response theory,以下简称IRT）指导下的确立方法。希望能对广大考试工作者有所启发。关键词：合格分数；标准误；IRT；CTT1前言考试的公平性是一个受到广泛关注的问题，中国的考试历史悠

2、久，自隋朝的科举考试以来，已有一千多年的历史了。今天，大多数人认为考试是“天然公平”的， “考试面前人人平等”这种观念在人们脑中已植下了根。如果因考试成绩不好而被拒绝入学或录用，被试大多并无怨言，首先从自身的角度出发去找原因，认为自己学识不深，极少人会去质询这项考试是否可靠。可以被视为考试领域行业标准的权威文献教育与心理测验标准（1999年新版）中写道：“不论是就整个社会而言，还是就测量专业的学术界而言，近期都还看不到人们在测验公平问题上取得一致意见的前景”1。标准参照测验中合格分数(standard setting，cut-off score，cutscore)的确立就涉及到考试公平性，它属

3、于公平概念中的一个技术问题。如果在一次考试中，能力较低的考生可能获得资格证书，能力较高的考生可能没有获得；或者是能力高与能力低的考生都未获得或都获得资格证书；出现这类现象显然对考生是不公平的。减少出现这种现象的概率的一个方法就是科学合理地确定合格分数。2关于合格分数，这类测验对测验结果进行评价的标准不是常模，而是根据特定的操作标准和行为领域。被试最后的测验结果是被作出是否达标或达到什么程度的判断，它只判断分数是否达到了相应的水平，而与其他人的分数无关。当今社会上属于标准参照性的考试有很多，律师的资格考试、全国计算机等级考试、自学考试、会计师、经济师等。合格分数是这类考试必不可少的指标，它是判断

4、应试者是否达到了相应用人部门所要求的目标的根据，它保证了测验的科学性、被试参与竞争的公平性，它为用人部门区分应试者胜任与否提供更丰富、可靠的信息，从而使用人部门的决策更明智。确定合格分数问题仍是教育测量中一个棘手的问题，被形象地称为“致命的弱点”(Achilles'heel)。这主要是因为在这些方法中没有一个放之四海而皆准的选择，而且每个方法的结果也很难得到效度资料来验证。从这个意义上来说，几乎没有任何方法是绝对正确的，所以，与其说是需要最好的方法，不如说是寻找最适合的方法。3合格分数的确立方法目前，教育测验理论主要有两大理论：CTT与IRT。两种理论中都有各自确立合格分数的方法。3.

5、1CTT中合格分数的确立方法CTT是最早出现的理论，它建立在真实分数的模式基础上，该模式认为任何测量值都由两部分组成：真实分数和误差分数，两者之间没有任何联系，相互独立。CTT中合格分数的确立方法有多种，本文主要介绍CTT中具有代表性的两种方法。被试组对比判断法首先区分出典型的掌握被试组和未掌握被试组，然后将两组的分数分布状况标绘在同一量尺上，有下图所示：掌握组未掌握组合格分数图1两个分数分布曲线交点在量尺上的位置，就是划界分数。如果大于该点的被试将划入已掌握组，分数小于该点的被试将归为未掌握类。当然理论上还存在另一种情况，如果两组明显来源于两个水平差异非常的群体，这时划界分数在两条曲线未交叉

6、区域的任意地点都一样，但这种情况在实际考试中一般不会出现。被试组对比判断的结果依赖于样本，对照组构成若有不同，则划界分数也会随之变化，有人主张构建若干对对照组，求出多个值后再求平均数，以平均数作为划界分数，考夫勒（Koffler）曾用二次判别函数来优化区分点的选取工作，以使区分误差最小。总之要让划界分数准确，就必须尽量使得对照组的构成准确。测验内容分析判断法邀请一批专家对测验所含项目逐一分析，请他们估出刚刚合格者在每个项目上的答对概率，然后算出每个项目的平均答对概率，再将测验上每个项目平均答对概率乘以其分值求和，即得划界分数。计算公式为：公式中为划界分数、为每一个专家估出的每一项目刚刚合

7、格者的答对概率、为第题的满分、k为专家数、n为项目数。假设一份测验包含四个题目，分值分别为30、20、30、20，下表是三个专家评出刚达到合格分数的被试在每一项目上的答对概率。表一专家评定概率表题目（总分）专家 1（30）2（20）3（30）4（20）甲0.400.400.650.50乙0.500.350.500.45丙0.600.450.650.55为保证判断更加准确，艾伯尔要求各专家对各项目的难度及所测内容的重要性作出估计，并以此再对项目答对概率加权，最后求加权和作为划界分数。专家内容的判断则难以排除主观偏向的影响，因为专家组的质量不仅可以影响划界分数的结果，而且会影响标准的信度。专家的挑

8、选与培训是标准确立过程中十分重要的组成部分。（1）专家的挑选在选择专家时应该考虑的主要问题有两个：专家的资格和专家的数量。选择的专家应具备四点素质：要有考试所需要的主要知识；要对考生群有一个很好的了解；要了解考生所接受的教育背景并且对于教育质量中的各种变化表现出敏感性；要具备考试工作者的能力，如能估计出项目参数。（2）专家的培训由于专家的情况和水平各不相同，在正式程序开始之前，必须对专家进行统一的培训。首先，需要明确有关内容，主要包括关于标准确立的有关情况和关于标准确立使用的方法。其次，训练估计边缘组。最后，进行模拟练习判断。在专家对整个标准确立的过程有一个大致的了解后，应给他们提供一些题目

9、进行模拟的判断练习,练习可以分几轮进行。判断结束后给专家提供一些实际的数据。这个步骤可以重复一到两次，让专家充分练习从而在操作上更加明确在判断中应该注意的一些问题。经过培训的专家的判断应该具有稳定性、估计一致性和反映实际情况的特点。23.2 IRT中合格分数的确立方法IRT 是由Lord、Lazarsfeld等人于20世纪50年代所创立，他们提出了“一个可见反应或行为的概率与个人具有隐含的潜在特质水平相关”的假定，并提出了相应的数量关系模型，上世纪六十年代后，随着新技术成果在测量领域应用范围的日益加宽，尤其是电子技术的广泛普及，IRT 获得了迅速发展的技术条件3。在IRT中，项目难度跟被试特质

10、水平定义在同一度量系统上，即特质水平连续统量表上。故项目难度跟被试特质水平可直接比较，题目难易是针对具体的被试而言，对甲而言是一道难度很大的题目上，对乙就不一定了。IRT揭露了掌握百分比分数与被试特质水平间的定量联系。当一个题库确能恰当地代表某一特质领域时，被试在该领域的掌握百分比就是他在该题库全部项目上期望的平均数，即：公式中为百分比、表示被试的能力、n为题目数。为了理解这一方法，我们看一个具体的示例。某测验有12个题目，下表为各题的题目参数表：表二题目参数表题号区分度（a）难度(b)猜测概率（c）10.5399-3.24010.311620.64101.32220.052430.7336

11、0.16250.126640.76630.43480.079950.60170.15870.118360.62500.06960.121870.63500.75510.079480.67920.78400.087790.63311.24870.0476100.67391.51120.0523110.63521.26510.0499120.65211.92940.0488现确定掌握百分比为0.6，根据式1，根据式1可得：上述这个等式右边只有一个未知数，采用牛顿迭代法，即可求解。求得为1.0。这意味在特质连续统上，应试者的能力水平达到1.0或1.0以上的人就该特质领域而言，可判定其掌握比例为0.6

12、。这样，我们就可判定能力在1.0之下的被试为未掌握者，1.0及其之上的被试为掌握者。合格分数使用IRT的确立方法在测量标准误方面有更加理性的计算。 CTT认为测量标准误是一个固定不变的值，测量标准误适应于一切情况，对各种水平的被试都没有差异，这显然不合实际，如在一数奥考试中，水平低比水平高的被试结果的一致性显然要更低，因为低水平的作答中猜测的情况要更多。CTT的计算公式为：(表示观察分数标准差、表示信度系数)但公式中的信度系数等于真分数的方差对观察分数的方差，但真分数却不能求出，故不能精确求出信度系数，只能通过相关来估计，因此误差是个模糊值。IRT提出了一个更合理的概念，提出了CTT中没有的信

13、息函数，能针对各种水平的被试来计算测量标准误，测量标准误跟信息函数的平方根成反比。可用以下公式来表示：表示能力为的那批被试测量标准误，n表示题目数，表示为第题的信息量，于是在实际施测中，我们就可以根据合格分数（这里指的是能力值）来挑选有最大信息量的试题来组卷，从而使该处的测量标准误最小。从而使合格分数的鉴别力更强。相比较而言，IRT在标准参照测验中划界分数的确定提供了强有力的逻辑方法，根据项目反应理论的原理，可将确定划界分数的步骤确立如下：（1）根据特质领域定义编制测验内容细目表，并按此编写大量恰当项目。（2）选择大样本被试组进行项目试测，估出项目参数，作好模型资料拟合度检验，筛选出合用项目

14、，建立确能代表特质领域的优良题库。（3）根据社会客观需要确定掌握百分比值。（4）求出跟百分比对应的能力值，从而确定划界分数。（5）针对划界分数选出项目，即可编写出符合需要的标准参照测验。但IRT也有不足之处，IRT强调以数学模型为核心,模型的数学公式复杂,令大多数人望而生畏,教育学或心理学工作者并没有统计学家那样丰富的数学知识,要理解它们是比较困难的5；另外IRT又是建立在相当强的假设基础上的,要求项目反应模型与资料拟合要求较高，很多测验的数据并不能满足这点。4结束语合格分数是标准参照测验中解释分数和统计决断的一个重要基础，国外提出了许多确定方法，如CTT中还有莱德尔斯基方法(Nedeisky

15、's Procedure)、吉杰方法(Jaeger's Procedure)、埃伯方法(Ebel's Procedure)等，但迄今都未得到公认的方法，本文中所提到两种理论指导下的方法都有利弊的两面，关键是如何使区分尽可能合理、有效。参考文献：1谢小庆，考试如何才能公平？文汇报，2003年12月1日第9版2武晓宇，赵月，徐静分界标准确定方法综述，中国考试，2004,13于金龙，李宁.IRT与IRT在试题参数确定上的比较研究,考试评析，2001年第8期.4漆书青，戴海崎，丁树良现代教育与心理测量学原理，北京高等教育出版社，2002年版，P176 5俞晓琳，项目反应理

16、论与经典测验理论之比较，南京师大学报(社会科学版)，1998年第4期，P77The Methods of Setting cut -score Deng YuanpingJIMEI UniversityNormal Educational Department, XIAMEN, 361021Abstracts: How to set standard cut score in criterion-referenced test is a technic problem concerning test fairness. The particle explained the setting method of Classical test theory (CTT): the method of comparing judgement between groups、the method of analyzing testing contents, and the setting method of Item response theory (IRT). T

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

IRT与CTT中合格分数的确立方法

文档简介

温馨提示

最新文档

评论

IRT与CTT中合格分数的确立方法

文档简介

温馨提示

最新文档

评论

相关文档