考试分数等值的新框架.pdf

上传人：s*** IP属地：河南上传时间：2020-01-16 格式：PDF 页数：14 大小：459.81KB 积分：20 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

考试分数等值的新框架谢小庆摘要对考试分数进行等值处理不仅是保证测验信度和公平性的重要环节也是建立题库和实现计算机化自适应性考试的核心环节由美国教育协会 ACE 和全美教育测量学会 NCME 联合组织编写的教育测量一书被称为教育测量领域中的圣经在2006 年出版的教育测量第四版中提出了一个关于考试分数等值的新框架本文介绍了这一新框架并结合作者多年从事考试分数等值的实践对等值问题进行了讨论关键词考试测验等值分数连接中图分类号 G449 文献标示码 A 文章编号 1673 1654 2008 02 0004 14 目前数量繁多的考试被广泛应用于社会各个领域在主要以标准参照方式进行分数解释的能力水平认证考试和职业资格考试中分数的可比性是考试质量的重要保证考试被作为一种尺度来对人的心理特质进行测量因此这种尺度应该具有稳定性不同的考试版本之间应该具有一致性对于同一个测量对象不能用这个版本测量得到一个度量用另一个版本测量却得到相差很大的另一个度量尽管我们在命题过程中总是尽量保持考试难度的稳定性但不同试卷之间在难度信度分数分布上的差别是很难完全避免的这种差别不仅会影响到测验的质量影响到评价标准的客观性而且会使参加考试时间不同使用试卷不同的考生受到不公平的作者简介谢小庆博士研究员北京语言大学教育测量研究所所长北京 100083 4 考试研究 2008年4月第4卷第2期 Examinations Research Apr 2008 V o l 4 N o 2 对待这样就需要将具有不同难度不同分数分布的试卷的分数转换到一个统一的量尺之上采用统一的量尺对应考者进行测量这种将一个测验的不同版本的分数统一在一个量表上的过程即等值 equating 20世纪80年代以来考试分数等值问题成为国际教育与心理测量学领域的一个重要研究课题 1982年 Holland和Rubin编辑出版了第一本以等值为主题的测验等值的论文集 1995年曾先后担任过全美教育测量学会 National Council on Measurement in Education 简称NCME 主席的K olen和 Brennan共同出版了测验等值方法和实践一书这是第一本关于等值的专著近年来每年有大量关于考试分数等值的研究报告发表这些研究包括不同等值设计之间的比较不同理论模型之间的比较不同等值系数估计方法之间的比较造成等值误差因素的分析以及关于等值误差的估计方法等等如何实现测验等值怎样进行等值设计怎样进行基于经典测验理论和项目反应理论的等值数据处理在众多的等值模型中如何进行选择不同的等值模型适用的条件是什么这些是当前许多考试机构共同关心的问题一考试等值的新框架在教育与心理测量领域和人力资源开发领域教育测量 Educational measurement 是一部重要的参考文献从1951年以来已陆续出版了四版在教育测量第四版的封套上写道从1951年ACE出版教育测量一书以来它就是这一领域的圣经 Bible 这种说法并非没有道理教育测量的四个版本都是教育与心理测量领域中最优秀的专家的合作产物它的每一章都由对相关问题最具有实力的研究者执笔并由相关领域中最重要的研究者担任审稿人基本反映了该领域的最新观点和最新研究成果教育测量的各个版本都是教育测量领域中被引用最多的出版物与前几版一样第四版的内容覆盖了效度信度量表和常模等值公平性考试技术考试安全考试应用等主要问题第四版的第六章为连接和等值 linking and equating 该章的作者为Paul W Holland和Neil J Dorans 他们提出了一个关于测验等值的新框架图1是这一新框架的示意图从 5 考试分数等值的新框架图1可以看出连接 linking 成为一个更基本的概念测验之间的连接包括预测 predicting 量表化 scaling 和等值 equating 三种不同的方式例如我们可以根据中国汉语水平考试 HSK 的成绩来预测商业汉语考试 BCT 的成绩 HSK与BCT的连接方式是预测而不是等值也不是量表化我们把HSK 基础 HSK 初中等和HSK 高等组成一个包括3级到11级的汉语水平量表 HSK 基础与HSK 高级的关系既不是预测也不是等值而是一个量表化的过程 HSK 初中等考试每年在海内外施测多次在不同试卷之间建立可比性的过程即为等值图1 测验之间的连接相当长的时间中教育测量学家将等值分为横向等值 horizontal equating 和纵向等值 vertical equating 在考试的平行版本之间建立联系的过程被称为横向等值有的时候测验被用来建立发展量表一组水平不同的测验被用来描述考生的发展水平在这些不同水平的测验之间建立联系的过程被称为纵向等值显然这些被用于建立发展量表的测验并不是相同水平的将之称为等值是不妥的将测验之间的这类连接称为量表化更为合理一预测 6 考试研究第4卷第2期对于两个不同的测验如HSK与BCT 根据其中一个测验的分数来估计另一个测验的分数称为预测图2给出了关于预测的示意图在预测中可以包括两种不同的计算模型我们既可以预测另一测验的观察分数也可以预测另一测验的真分数当预测真分数的时候我们考虑到观测分数仅仅是真分数的估计值因此需要考虑到估计误差的问题不论是估计观察分数还是真分数都需要通过考生的样本数据来进行当测验X和测验Y的数据都来自相同的考生总体的时候我们将这种估计称为预测当考生样本来自不同的考生总体的时候我们将这种估计称为投射 projection 图2 关于预测的示意图在预测中最经常使用的一种数学工具是回归需要注意到以回归方法得到的连接关系是不对称的例如如果一组考生同时参加了测验X和测验 Y 从考生分数数据中我们可以很容易地得到两个关于X和Y的回归方程 Y 11 194 0 689 X X 20 859 0 494 Y 并计算出X与Y的相关系数r 0 583 当X 44时 Y 41 51 而当 Y 41 51时 X 41 36 而不是44 只有当r 1的时候二者的回归关系才是对称的显然在实际的考试中这种情况是不会出现的 7 考试分数等值的新框架二量表化量表化是将两个或多个考试放到一个统一量表上的过程现代标准化测验诞生的一个标志性测验是法国心理学家比奈 Binet 1905年出版的比奈智力测验在这个测验中实际上已经包含了量表化的过程这个测验适用于不同年龄的儿童对不同年龄的儿童施测的题目不同所报告的是具有可比性的智力分数在这个测验中已经包含了对不同试卷的量表化连接在这一新的关于量表化的框架体系内量表化过程被划分为构念 construct 相同与构念不同两种情况在图3中给出了这一量表化框架的示意图量表化过程可以被划分为六种不同的模式 11 量表系列 battery scaling 是指构念不同但考生总体相同的情况 HSK 的各个分测验分别测量听读等不同的构念题目数量不同原始分之间并不具有可比性但是各个分测验的量表分都是100分具有相同的分布这种量表化过程使测量不同构念的测验分数具有了一定的可比性我们可以根据测验分数说一个来自日本的考生阅读水平较高但听力水平不高这种量表化过程并不能在两个分测验之间建立预测关系我们并不能据此从一个考生的听力分数来预测他的阅读分数图3 关于量表化的示意图 21 基于假设总体的量表化 scaling on a hypothetical population 简称 SHP 8 考试研究第4卷第2期是指构念和考生总体都不同的情况这种情况下的分数连接以往被称为统计调整 statistical moderation 例如高考实现 3 X 模式以后高校招生老师经常需要在参加了不同的考试科目的考生之间进行选择在语文数学外语三科之外一个考生可能选考了物理另一个考生可能选考了化学这时在物理分数与化学分数之间建立一定的可比性对招生录取是很有帮助的在这种情况下物理考试与化学考试所测量的是不同的构念分别参加物理考试和化学考试的考生也不属于同一个总体从20世纪70年代开始测量学者们就发展了一些统计方法在这种情况下对考试分数进行连接这时通过假设一个同时参加了语文数学外语物理化学所有科目的假设总体借助一定的统计推断技术可以在物理化学分数之间建立起一定的可比性为高校招生提供一些参考 31 基于锚测量的量表化 anchor scaling 也是指构念和考生总体都不同但是两个测量之间具有共同的锚测验的情况在高考 3 X 模式中可以将语文数学外语视为一种锚测量对其他的科目的分数进行连接 41 纵向量表化 vertical scaling 是指构念相同考试信度相同但是考试难度不同考生总体不同的情况 HSK的基础初中等和高等考试之间的连接属于这种情况不同级别的三个考试所测量的构念都是汉语交流沟通能力具有相同的构念通常也具有相似的信度但是测试的难度不同所面对的考生群体也不同 51 标定 calibration 是指构念相同考生总体相同具有相似的难度但考试信度不同的情况通常这时考试的长度不同许多测验包含更便于施测的简易版例如国家职业汉语能力测试 ZHC 的普通版为102题 150 分钟为了更好地向一些企业机关和学校提供服务 ZHC还具有一个60 题 50分钟的简装版在简装版中答对35题相当于在普通版中答对多少题这是简装版使用者所关心的问题一些统计方法可以帮助测验的开发者在简装版分数与普通版分数之间建立连接标定是一个在 IRT参数估计中经常使用的概念在讨论测验之间的连接时这一概念的含义是有区别的 9 考试分数等值的新框架 61 谐同 concordance 是指构念相同考生总体相同具有相似的信度和难度的情况在许多招生和招聘的情境中招生招聘单位会同时承认两种或两种以上相似的考试中的任何一种例如招生招聘单位可能同时承认大学英语四六级考试 CET 成绩和公共英语等级考试 PETS 成绩这两种考试可能在构念难度信度和考生总体方面基本相同借助一定的统计方法可以在两者的分数之间建立联系这种联系对于招生招聘人员是很有帮助的三等值等值是对同一个考试的不同版本的分数进行连接的过程是在构念相同难度相同信度相同和考生目标总体相同情况下的分数连接等值的目的是使两项测试分数可以互相转换与预测和量表化相比等值的条件最严格是两个测验分数之间最紧密的连接方式在图4中给出了关于等值的示意图多数能力水平认定考试和资格考试都存在今年一份试卷施测于一组人明年另一份试卷施测于另一组人的情况影响两次考试分数的因素有两个一个是试卷难度变化一个是考生能力水平的差距难度变化是等值所关注的问题考生能力差异是需要排除的误差因素因此等值过程就是排除考生能力因素的影响而确定试卷难度变化的过程一个合理的有成效的等值处理需要满足的条件包括 11 被等值的两份试卷测量相同的构念 21 被等值的两份试卷具有相似的信度 31 等值分数的转换应具有对称性分数应既可以从X转换到Y 也可以从Y转换到X 二者的结果应该是一样的 41分数具有等价性对于一个考生来说参加测验X和参加测验Y应该没有区别一个自学考试的考生参加春季考试和秋季考试应没有区别一个职业资格考试的考生参加2007年的考试与参加2008年的考试应没有区别一个HSK的考生参加4月份的考试与参加5月份的考试应没有区别 51 跨样本的一致性等值的结果是一个使两个考试的原始分数可以互 01 考试研究第4卷第2期相转换的等值函数这个等值函数根据特定的样本数据计算产生在对两个考试进行等值处理时从不同样本中计算得到的等值函数应该具有相似性图4 关于等值的示意图从以上等值需要满足的五个基本条件可以看出等值与预测量表化的区别通常在预测的情况下被连接的两个测验测试不同的构念例如我们用高考成绩来预测大学中的学习成绩显然高考与大学中的课程考试所测量的构念是不同的在预测的情况下被连接的两个测验也不能满足对称性和等价性方面的要求在考试实践中预测被大量应用于效度研究在关于效度的预测研究中通常会同时应用一个考试的多个不同等值版本这时等值与预测是两个不同的过程等值的结果被应用于其后的预测研究在许多量表化过程中被连接的两个测验所测量的构念不同即使在测量构念相同的情况下也不满足等价性和对称性方面的要求例如虽然 HSK 基础与HSK 初中等测量有相同的构念语言交际能力但二者面对不同的考生群体不能满足等价性和对称性方面的要求二等值数据的收集等值包含两个基本问题即数据的收集和数据的处理为了解决等值问题我们首先需要通过一定的考试设计来收集等值数据之后需要采用一定的数学模型来处理数据获得最终的等值函数 11 考试分数等值的新框架等值数据收集的主要方法有四种一单组设计 Single Group SG 一组考生先后参加两个需要连接的考试以这种设计得到的等值数据最直接最简单误差因素最少 SG设计需要解决的问题是怎样保证考生在参加两项考试时具有相同的动机水平近年来在HSK的等值中我们有时采用这种方式通常会在报名时宣布对部分考生提供一次免费的考试先来先报报满为止两次考试仅仅报告成绩较好的一次这种方式解决了考生的动机水平问题二等组设计 Equivalent Groups EG 在许多关于等值的文献中这种设计也被称为随机组设计 random groups design 在这种设计中两组考生各参加一项考试每组考生仅仅参加一项考试两组考生应是同一总体的两个随机样本应具有相似的能力水平显然这种设计的假设是很强的在考试实践中通常很难满足这样强的假设如果真的满足了这种假设等值就失去了意义根据笔者的经验在大规模考试中当样本数量很大通常应在10000人以上的时候这种设计可以作为一种没有办法的办法对两份不同试卷的难度进行评估在一般情况下这种方法不应作为单独的等值设计但可以作为其他等值设计如共同组设计共同题设计的一种补充可以对其他等值设计得到的等值结果进行验证在等值实践中我们很少仅仅采用一种等值数据处理方法而是同时采用多种方法处理数据互相参考从1997年开始在HSK共同题设计的等值过程中我们总是同时计算Tucker观察分数 Levine观察分数 Levine真分数和等百分位四种模型的等值结果互相参照在对多种计算结果的比较选择中 EG设计的结果可以成为重要的参考依据三平衡组设计 counterbalanced CB 这是单组设计的一种改进方式为了消除施测先后的顺序影响将一组考生分为两半一半考生先测X测验后测Y测验另一半考生先测Y测验后测X测验四非等组锚题设计 Non Equivalent groups with Anchor Test NEAT 21 考试研究第4卷第2期也称为共同题设计或锚题设计两组考生先后参加两个需要连接的考试两个考试中包含一部分相同的题目这时不假设两组考生来自相同的总体不假设两组考生具有相同的能力水平 NEAT是今天最常用的等值设计也是HSK多年来所采用的主要等值设计共同题等值的基本逻辑是当不同的测验版本被施测于不同的考生样本时平均分会存在差异这时我们不知道造成差异的原因是试卷难度方面的差别还是考生水平方面的差别如果两个版本之间存在共同题我们就可以通过考生在共同题上的表现来估计两组考生的水平排除了考生水平上的差距平均分之间的差距就是试卷难度之间的差距当锚题是两个测验的组成部分的时候我们称为内锚设计 internal anchor 当锚题是两个测验之外的独立部分的时候我们称为外锚设计 external anchor 上述四种等值设计各有长处和局限 SG及其改进形式CB的数据处理简单误差因素较少但需要考生参加两次考试实际中操作困难可行性较差 EG操作最简单但假设太强通常难以满足 NEAT只需要考生参加一次考试但等值结果很大程度上受到锚题与整个测验之间的相关的影响当相关不高时等值误差就会很大在实际的等值实践中需要综合考虑准确性和可行性根据考试的实际应用环境选择最适当的等值设计三等值数据的处理等值数据处理的方法很多在各种等值数据处理方法的选择中需要考虑的基本问题是数据收集是基于共同组设计还是共同题设计观察分数等值还是真分数等值线性等值还是非线性等值从20世纪50年代以来基于上述三种不同的情况发展起了许多种不同的等值方法一等百分位 equipercentile 方法这种方法将两个测验版本上百分等级相同的分数界定为等值分数最初通过计算不同分数的百分等级就可以在两个测验分数之间建立起等值关系今天等百分位等值通常通过计算累积分布函数 cumulative distribution function 来实现 31 考试分数等值的新框架二线性等值 linear 方法这是基于经典测验理论的方法在NEAT设计中一组人参加了考试版本X 另一组人参加了考试版本Y 借助共同题可以估计出全体考生在X 卷和Y卷上的表现线性等值的模型有许多包括基于观察分数的Tucker 模型和基于真分数的Levine模型三核等值 kernel 方法 2004年 Davier Holland和Thayer三人出版了测验等值中的核等值方法一书系统介绍了新的核等值方法核等值方法是对等百分位等值和线性等值的扩展核等值方法将分布估计样本估计的平滑处理分数转换等分离的技术整合到一个新的框架之中核等值法引入了考生样本特征变量使等值过程更为精致在核等值的框架中线性等值是等百分位等值的一种线性近似而等百分位等值则是核等值的一种特例在核等值中不是像以往等百分位等值那样运用插值方法和累积分布函数来进行平滑化处理从而实现离散数据的连续化而是借助高斯核 Gaussian kernel 方法来实现平滑化在等百分位等值中试卷X的最高分只能对应于试卷Y 的最高分在核等值方法中当试卷X较容易的时候试卷X的最高分可能对应于试卷Y中一个低于最高分的分数四后分层等值 post stratification equating PSE 方法这种方法被用于处理NEAT等值在NEAT设计中考生样本P参加了测验X和锚测验A 考生样本Q参加了测验Y和锚测验A PSE方法假设P 和Q构成了综合总体 synthetic population T 在给定A的条件下 P Q T在测验X和测验Y上具有相同的条件分布 PSE方法根据已知数据估计T在测验X和Y上的分数分布从而实现X和Y之间的观察分数连接 Tucker 观察分数线性等值方法属于PSE方法在核等值法中也包含一种PSE线性等值模型五链等值 chain equating CE 方法与PSE方法相同 CE方法也被用于处理NEAT等值同样考生样本P 参加了测验X和锚测验A 考生样本Q参加了测验Y和锚测验A CE方法 41 考试研究第4卷第2期不估计综合总体的分数分布而是首先将X等值到A 再将A等值到Y 从而实现X与Y之间的连接 Angoff于1971年提出的观察分数等值方法属于 CE方法在核等值法中也包含一种CE线性等值模型 CE方法与PSE方法得到的等值结果不同关于PSE方法测量学者们几乎不存在分歧关于CE方法测量学者们的看法存在分歧一些研究者对CE方法的合理性提出质疑六基于IRT的方法从两个不同测验版本X和Y中估计得到的题目特征参数区分度a 难度b和猜测度 c 之间不具有可比性据此计算得到的能力参数值之间也不具有可比性为了在两个版本的得分之间建立联系就需要借助于某种中介这种中介可以是共同组也可以是共同题基于IRT的等值方法就是首先借助某种中介在两个测验版本的能力分数之间建立联系继而建立观察分数之间的联系基于IRT的等值在题库建设中非常重要基于经典测验的等值方法可以在不同试卷的分数之间建立联系可以建立试卷库却不能在题目参数之间建立连接不能建立题目库基于IRT的等值方法可以为题库中的每个题目标定具有可比性的题目特征参数根据这些题目特征参数就可以根据考生在测验中的反应模式估计出考生的能力参数这样就可以使从题库中生成的不同测验版本的分数具有可比性谢小庆 2005 需要注意各种等值数据的处理方法都包含或强或弱的一定假设都仅仅适合一定的测验条件有些假设是可以通过一定方式来检验的有些假设不可能或很难被检验在等值数据处理方法的选择中需要考虑各种方法所涉及的假设需要对测验条件进行评估选择更适当的数据处理方法在我国等值问题一直是考试研究中较薄弱的一个环节许多重要的能力水平考试和资格认证考试都尚未实现统计等值由于没有实现分数等值不同时间举行的考试的成绩之间不具备可比性评价标准或证书授予标准会受到试卷难度起伏的影响一些水平不高的考生可能会由于运气好遇到较容易的试卷而通过考试获得相应资格一些水平较高的考生可能会由 51 考试分数等值的新框架于运气不好遇到较难的试卷而未通过考试并未能获得相应资格这种状况不利于提高考试的效度和信度不仅影响到选拔效率和人员素质而且对考生也是很不公平的因此加强关于等值的研究是我国教育测量研究者们所面临的迫切任务参考文献 1 Angoff W H 1971 Scales norms and equivalent scores In R L Thorndike Ed Educational measurement 2nd ed pp 508 600 Washington DC American Council on Education 2 Brennan R L ed 2006 Educational measurement 4th edition ACE Praeger 3 Davier A A Holland P W Thayer D T 2004 The kernel method of test equating New Y ork Springer 4 Holland P W Rubin D B

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

考试分数等值的新框架.pdf

文档简介

温馨提示

最新文档

评论

考试分数等值的新框架.pdf

文档简介

温馨提示

最新文档

评论

相关文档