考试分数等值的新框架.pdf_第1页
考试分数等值的新框架.pdf_第2页
考试分数等值的新框架.pdf_第3页
考试分数等值的新框架.pdf_第4页
考试分数等值的新框架.pdf_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考试分数等值的新框架 谢小庆 摘 要 对考试分数进行等值处理不仅是保证测验信度和公平性 的重要环节 也是建立题库和实现计算机化自适应性考试的核心环 节 由美国教育协会 ACE 和全美教育测量学会 NCME 联合组织 编写的 教育测量 一书被称为教育测量领域中的 圣经 在2006 年出版的 教育测量 第四版 中提出了一个关于考试分数等值的新 框架 本文介绍了这一新框架 并结合作者多年从事考试分数等值 的实践 对等值问题进行了讨论 关键词 考试 测验 等值 分数连接 中图分类号 G449 文献标示码 A 文章编号 1673 1654 2008 02 0004 14 目前 数量繁多的考试被广泛应用于社会各个领域 在主要以标准参 照方式进行分数解释的能力水平认证考试和职业资格考试中 分数的可比 性是考试质量的重要保证 考试被作为一种尺度来对人的心理特质进行测 量 因此 这种尺度应该具有稳定性 不同的考试版本之间应该具有一致 性 对于同一个测量对象 不能用这个版本测量得到一个度量 用另一个版 本测量却得到相差很大的另一个度量 尽管我们在命题过程中总是尽量保 持考试难度的稳定性 但不同试卷之间在难度 信度 分数分布上的差别是 很难完全避免的 这种差别不仅会影响到测验的质量 影响到评价标准 的客观性 而且会使参加考试时间不同 使用试卷不同的考生受到不公平的 作者简介 谢小庆 博士 研究员 北京语言大学教育测量研究所所长 北京 100083 4 考试研究 2008年4月 第4卷 第2期 Examinations Research Apr 2008 V o l 4 N o 2 对待 这样 就需要将具有不同难度 不同分数分布的试卷的分数转换到一 个统一的量尺之上 采用统一的量尺对应考者进行测量 这种将一个测验 的不同版本的分数统一在一个量表上的过程即等值 equating 20世纪80年代以来 考试分数等值问题成为国际教育与心理测量学领 域的一个重要研究课题 1982年 Holland和Rubin编辑出版了第一本以等 值为主题的 测验等值 的论文集 1995年 曾先后担任过全美教育测量学 会 National Council on Measurement in Education 简称NCME 主席的K olen和 Brennan共同出版了 测验等值 方法和实践 一书 这是第一本关于等值的专 著 近年来 每年有大量关于考试分数等值的研究报告发表 这些研究包 括不同等值设计之间的比较 不同理论模型之间的比较 不同等值系数估计 方法之间的比较 造成等值误差因素的分析 以及关于等值误差的估计方法 等等 如何实现测验等值 怎样进行等值设计 怎样进行基于经典测验理论和 项目反应理论的等值数据处理 在众多的等值模型中如何进行选择 不同的 等值模型适用的条件是什么 这些是当前许多考试机构共同关心的问题 一 考试等值的新框架 在教育与心理测量领域和人力资源开发领域 教育测量 Educational measurement 是一部重要的参考文献 从1951年以来 已陆续出版了四版 在 教育测量 第四版的封套上写道 从1951年ACE出版 教育测量 一书 以来 它就是这一领域的圣经 Bible 这种说法并非没有道理 教育测 量 的四个版本都是教育与心理测量领域中最优秀的专家的合作产物 它的 每一章都由对相关问题最具有实力的研究者执笔 并由相关领域中最重要 的研究者担任审稿人 基本反映了该领域的最新观点和最新研究成果 教 育测量 的各个版本都是教育测量领域中被引用最多的出版物 与前几版一样 第四版的内容覆盖了效度 信度 量表和常模 等值 公 平性 考试技术 考试安全 考试应用等主要问题 第四版的第六章为 连接 和等值 linking and equating 该章的作者为Paul W Holland和Neil J Dorans 他们提出了一个关于测验等值的新框架 图1是这一新框架的示意图 从 5 考试分数等值的新框架 图1可以看出 连接 linking 成为一个更基本的概念 测验之间的连接包 括预测 predicting 量表化 scaling 和等值 equating 三种不同的方式 例如 我们可以根据中国汉语水平考试 HSK 的成绩来预测商业汉语考试 BCT 的 成绩 HSK与BCT的连接方式是 预测 而不是 等值 也不是 量表化 我 们把HSK 基础 HSK 初中等 和HSK 高等 组成一个包括3级到11级的汉 语水平量表 HSK 基础 与HSK 高级 的关系既不是 预测 也不是 等值 而是一个量表化的过程 HSK 初中等 考试每年在海内外施测多次 在不同 试卷之间建立可比性的过程 即为 等值 图1 测验之间的连接 相当长的时间中 教育测量学家将等值分为横向等值 horizontal equating 和纵向等值 vertical equating 在考试的平行版本之间建立联系的 过程 被称为横向等值 有的时候 测验被用来建立发展量表 一组水平不 同的测验被用来描述考生的发展水平 在这些不同水平的测验之间建立联 系的过程被称为纵向等值 显然 这些被用于建立发展量表的测验并不是 相同水平的 将之称为 等值 是不妥的 将测验之间的这类连接称为 量表 化 更为合理 一 预测 6 考试研究 第4卷第2期 对于两个不同的测验 如HSK与BCT 根据其中一个测验的分数来估 计另一个测验的分数 称为 预测 图2给出了关于预测的示意图 在预测 中 可以包括两种不同的计算模型 我们既可以预测另一测验的观察分数 也可以预测另一测验的真分数 当预测真分数的时候 我们考虑到观测分 数仅仅是真分数的估计值 因此需要考虑到估计误差的问题 不论是估计观察分数还是真分数 都需要通过考生的样本数据来进行 当测验X和测验Y的数据都来自相同的考生总体的时候 我们将这种估计 称为 预测 当考生样本来自不同的考生总体的时候 我们将这种估计称 为 投射 projection 图2 关于预测的示意图 在预测中最经常使用的一种数学工具是回归 需要注意到 以回归方法 得到的连接关系是不对称的 例如 如果一组考生同时参加了测验X和测验 Y 从考生分数数据中我们可以很容易地得到两个关于X和Y的回归方程 Y 11 194 0 689 X X 20 859 0 494 Y 并计算出X与Y的相关系数r 0 583 当X 44时 Y 41 51 而当 Y 41 51时 X 41 36 而不是44 只有当r 1的时候 二者的回归关系才是对称的 显然 在实际的考试 中这种情况是不会出现的 7 考试分数等值的新框架 二 量表化 量表化是将两个或多个考试放到一个统一量表上的过程 现代标准化 测验诞生的一个标志性测验是法国心理学家比奈 Binet 1905年出版的 比 奈智力测验 在这个测验中 实际上已经包含了 量表化 的过程 这个测 验适用于不同年龄的儿童 对不同年龄的儿童施测的题目不同 所报告的是 具有可比性的智力分数 在这个测验中 已经包含了对不同 试卷 的量表 化连接 在这一新的关于量表化的框架体系内 量表化过程被划分为 构念 construct 相同 与 构念不同 两种情况 在图3中给出了这一量表化框架 的示意图 量表化过程可以被划分为六种不同的模式 11 量表系列 battery scaling 是指构念不同但考生总体相同的情况 HSK 的各个分测验分别测量听 读等不同的构念 题目数量不同 原始分之间并 不具有可比性 但是 各个分测验的量表分都是100分 具有相同的分布 这种量表化过程 使测量不同构念的测验分数具有了一定的可比性 我们可 以根据测验分数说一个来自日本的考生 阅读水平较高 但听力水平不高 这种量表化过程 并不能在两个分测验之间建立 预测 关系 我们并不能据 此从一个考生的 听力分数 来预测他的 阅读分数 图3 关于量表化的示意图 21 基于假设总体的量表化 scaling on a hypothetical population 简称 SHP 8 考试研究 第4卷第2期 是指构念和考生总体都不同的情况 这种情况下的分数连接以往被称为 统计调整 statistical moderation 例如 高考实现 3 X 模式以后 高校招 生老师经常需要在参加了不同的考试科目的考生之间进行选择 在语文 数学 外语三科之外 一个考生可能选考了物理 另一个考生可能选考了化 学 这时 在物理分数与化学分数之间建立一定的可比性 对招生录取是很 有帮助的 在这种情况下 物理考试与化学考试所测量的是不同的构念 分 别参加物理考试和化学考试的考生也不属于同一个总体 从20世纪70年 代开始 测量学者们就发展了一些统计方法 在这种情况下对考试分数进行 连接 这时 通过假设一个同时参加了语文 数学 外语 物理 化学所有科 目的 假设总体 借助一定的统计推断技术 可以在物理 化学分数之间建 立起一定的可比性 为高校招生提供一些参考 31 基于锚测量的量表化 anchor scaling 也是指构念和考生总体都不同 但是两个测量之间具有共同的锚测验的情况 在高考 3 X 模式中 可以 将语文 数学 外语视为一种 锚测量 对其他的科目的分数进行连接 41 纵向量表化 vertical scaling 是指构念相同 考试信度相同 但是考试 难度不同 考生总体不同的情况 HSK的基础 初中等和高等考试之间的连 接属于这种情况 不同级别的三个考试所测量的构念都是 汉语交流沟通 能力 具有相同的构念 通常也具有相似的信度 但是 测试的难度不同 所面对的考生群体也不同 51 标定 calibration 是指构念相同 考生总体相同 具有相似的难度 但 考试信度不同的情况 通常这时考试的长度不同 许多测验包含更便于施 测的 简易版 例如 国家职业汉语能力测试 ZHC 的普通版为102题 150 分钟 为了更好地向一些企业 机关和学校提供服务 ZHC还具有一个60 题 50分钟的 简装版 在 简装版 中答对35题相当于在 普通版 中答对 多少题 这是 简装版 使用者所关心的问题 一些统计方法可以帮助测验 的开发者在 简装版 分数与 普通版 分数之间建立连接 标定 是一个在 IRT参数估计中经常使用的概念 在讨论测验之间的连接时 这一概念的含 义是有区别的 9 考试分数等值的新框架 61 谐同 concordance 是指构念相同 考生总体相同 具有相似的信度和 难度的情况 在许多招生和招聘的情境中 招生招聘单位会同时承认两种 或两种以上相似的考试中的任何一种 例如 招生招聘单位可能同时承认 大学英语四 六级考试 CET 成绩和 公共英语等级考试 PETS 成绩 这 两种考试可能在构念 难度 信度和考生总体方面基本相同 借助一定的统 计方法 可以在两者的分数之间建立联系 这种联系 对于招生招聘人员是 很有帮助的 三 等值 等值是对同一个考试的不同版本的分数进行连接的过程 是在构念相 同 难度相同 信度相同和考生目标总体相同情况下的分数连接 等值的目 的是使两项测试分数可以互相转换 与预测和量表化相比 等值的条件最 严格 是两个测验分数之间最紧密的连接方式 在图4中给出了关于等值的 示意图 多数能力水平认定考试和资格考试 都存在今年一份试卷施测于一组 人 明年另一份试卷施测于另一组人的情况 影响两次考试分数的因素有 两个 一个是试卷难度变化 一个是考生能力水平的差距 难度变化是等值 所关注的问题 考生能力差异是需要排除的误差因素 因此 等值过程就是 排除考生能力因素的影响而确定试卷难度变化的过程 一个合理的 有成效的等值处理需要满足的条件包括 11 被等值的两份试卷测量相同的构念 21 被等值的两份试卷具有相似的信度 31 等值分数的转换应具有对称性 分数应既可以从X转换到Y 也可以 从Y转换到X 二者的结果应该是一样的 41分数具有等价性 对于一个考生来说 参加测验X和参加测验Y应该 没有区别 一个自学考试的考生 参加春季考试和秋季考试应没有区别 一个 职业资格考试的考生 参加2007年的考试与参加2008年的考试应没有区别 一个HSK的考生 参加4月份的考试与参加5月份的考试应没有区别 51 跨样本的一致性 等值的结果是一个使两个考试的原始分数可以互 01 考试研究 第4卷第2期 相转换的等值函数 这个等值函数根据特定的样本数据计算产生 在对两 个考试进行等值处理时 从不同样本中计算得到的等值函数应该具有相 似性 图4 关于等值的示意图 从以上等值需要满足的五个基本条件 可以看出等值与预测 量表化的区 别 通常在预测的情况下被连接的两个测验测试不同的构念 例如 我们用 高考成绩来预测大学中的学习成绩 显然 高考与大学中的课程考试所测量 的构念是不同的 在预测的情况下 被连接的两个测验也不能满足对称性和 等价性方面的要求 在考试实践中 预测 被大量应用于效度研究 在关于 效度的预测研究中 通常会同时应用一个考试的多个不同等值版本 这时 等 值与预测是两个不同的过程 等值的结果被应用于其后的预测研究 在许多量表化过程中 被连接的两个测验所测量的构念不同 即使在测 量构念相同的情况下 也不满足等价性和对称性方面的要求 例如 虽然 HSK 基础 与HSK 初中等 测量有相同的构念 语言交际能力 但二者面对 不同的考生群体 不能满足等价性和对称性方面的要求 二 等值数据的收集 等值包含两个基本问题 即数据的收集和数据的处理 为了解决等值 问题 我们首先需要通过一定的考试设计来收集等值数据 之后 需要采用 一定的数学模型来处理数据 获得最终的等值函数 11 考试分数等值的新框架 等值数据收集的主要方法有四种 一 单组设计 Single Group SG 一组考生先后参加两个需要连接的考试 以这种设计得到的等值数据 最直接 最简单 误差因素最少 SG设计需要解决的问题是怎样保证考生在 参加两项考试时具有相同的动机水平 近年来 在HSK的等值中我们有时 采用这种方式 通常会在报名时宣布 对部分考生提供一次免费的考试 先 来先报 报满为止 两次考试 仅仅报告成绩较好的一次 这种方式解决了 考生的动机水平问题 二 等组设计 Equivalent Groups EG 在许多关于等值的文献中 这种设计也被称为 随机组设计 random groups design 在这种设计中 两组考生各参加一项考试 每组考生仅仅参 加一项考试 两组考生应是同一总体的两个随机样本 应具有相似的能力 水平 显然 这种设计的假设是很强的 在考试实践中通常很难满足这样强 的假设 如果真的满足了这种假设 等值就失去了意义 根据笔者的经验 在大规模考试中 当样本数量很大 通常应在10000人以上 的时候 这种设 计可以作为一种 没有办法的办法 对两份不同试卷的难度进行评估 在 一般情况下 这种方法不应作为单独的等值设计 但可以作为其他等值设计 如共同组设计 共同题设计 的一种补充 可以对其他等值设计得到的等值 结果进行验证 在等值实践中 我们很少仅仅采用一种等值数据处理方法 而是同时采用多种方法处理数据 互相参考 从1997年开始 在HSK共同 题设计的等值过程中 我们总是同时计算Tucker观察分数 Levine观察分数 Levine真分数和等百分位四种模型的等值结果 互相参照 在对多种计算结 果的比较选择中 EG设计的结果可以成为重要的参考依据 三 平衡组设计 counterbalanced CB 这是单组设计的一种改进方式 为了消除施测先后的顺序影响 将一 组考生分为两半 一半考生先测X测验 后测Y测验 另一半考生先测Y测 验 后测X测验 四 非等组锚题设计 Non Equivalent groups with Anchor Test NEAT 21 考试研究 第4卷第2期 也称为共同题设计或锚题设计 两组考生先后参加两个需要连接的考 试 两个考试中包含一部分相同的题目 这时 不假设两组考生来自相同的 总体 不假设两组考生具有相同的能力水平 NEAT是今天最常用的等值设 计 也是HSK多年来所采用的主要等值设计 共同题等值的基本逻辑是 当 不同的测验版本被施测于不同的考生样本时 平均分会存在差异 这时 我 们不知道造成差异的原因是试卷难度方面的差别 还是考生水平方面的差 别 如果两个版本之间存在共同题 我们就可以通过考生在共同题上的表 现来估计两组考生的水平 排除了考生水平上的差距 平均分之间的差距就 是试卷难度之间的差距 当锚题是两个测验的组成部分的时候 我们称为 内锚设计 internal anchor 当锚题是两个测验之外的独立部分的时候 我 们称为 外锚设计 external anchor 上述四种等值设计各有长处和局限 SG及其改进形式CB的数据处理 简单 误差因素较少 但需要考生参加两次考试 实际中操作困难 可行性较 差 EG操作最简单 但假设太强 通常难以满足 NEAT只需要考生参加一次 考试 但等值结果很大程度上受到 锚题 与整个测验之间的相关的影响 当 相关不高时 等值误差就会很大 在实际的等值实践中 需要综合考虑准确 性和可行性 根据考试的实际应用环境 选择最适当的等值设计 三 等值数据的处理 等值数据处理的方法很多 在各种等值数据处理方法的选择中 需要 考虑的基本问题是 数据收集是基于共同组设计还是共同题设计 观察分 数等值还是真分数等值 线性等值还是非线性等值 从20世纪50年代以来 基于上述三种不同的情况 发展起了许多种不 同的等值方法 一 等百分位 equipercentile 方法 这种方法将两个测验版本上百分等级相同的分数界定为等值分数 最 初 通过计算不同分数的百分等级就可以在两个测验分数之间建立起等值 关系 今天 等百分 位 等 值 通 常 通 过 计 算 累 积 分 布 函 数 cumulative distribution function 来实现 31 考试分数等值的新框架 二 线性等值 linear 方法 这是基于经典测验理论的方法 在NEAT设计中 一组人参加了考试版 本X 另一组人参加了考试版本Y 借助共同题 可以估计出全体考生在X 卷和Y卷上的表现 线性等值的模型有许多 包括基于观察分数的Tucker 模型和基于真分数的Levine模型 三 核等值 kernel 方法 2004年 Davier Holland和Thayer三人出版了 测验等值中的核等值方 法 一书 系统介绍了新的核等值方法 核等值方法是对等百分位等值和线 性等值的扩展 核等值方法将分布估计 样本估计的平滑处理 分数转换等 分离的技术整合到一个新的框架之中 核等值法引入了考生样本特征变 量 使等值过程更为精致 在核等值的框架中 线性等值是等百分位等值的 一种线性近似 而等百分位等值则是核等值的一种特例 在核等值中 不是 像以往等百分位等值那样运用插值方法和累积分布函数来进行平滑化处 理 从而实现离散数据的连续化 而是借助 高斯 核 Gaussian kernel 方 法来实现平滑化 在等百分位等值中 试卷X的最高分只能对应于试卷Y 的最高分 在核等值方法中 当试卷X较容易的时候 试卷X的最高分可能 对应于试卷Y中一个低于最高分的分数 四 后分层等值 post stratification equating PSE 方法 这种方法被用于处理NEAT等值 在NEAT设计中 考生样本P参加了 测验X和锚测验A 考生样本Q参加了测验Y和锚测验A PSE方法假设P 和Q构成了综合总体 synthetic population T 在给定A的条件下 P Q T在 测验X和测验Y上具有相同的条件分布 PSE方法根据已知数据估计T在 测验X和Y上的分数分布 从而实现X和Y之间的观察分数连接 Tucker 观察分数线性等值方法属于PSE方法 在核等值法中 也包含一种PSE线 性等值模型 五 链等值 chain equating CE 方法 与PSE方法相同 CE方法也被用于处理NEAT等值 同样 考生样本P 参加了测验X和锚测验A 考生样本Q参加了测验Y和锚测验A CE方法 41 考试研究 第4卷第2期 不估计综合总体的分数分布 而是首先将X等值到A 再将A等值到Y 从而 实现X与Y之间的连接 Angoff于1971年提出的观察分数等值方法属于 CE方法 在核等值法中 也包含一种CE线性等值模型 CE方法与PSE方 法得到的等值结果不同 关于PSE方法 测量学者们几乎不存在分歧 关 于CE方法 测量学者们的看法存在分歧 一些研究者对CE方法的合理性提 出质疑 六 基于IRT的方法 从两个不同测验版本X和Y中估计得到的题目特征参数 区分度a 难 度b和猜测度 c 之间不具有可比性 据此计算得到的能力参数 值之间也不 具有可比性 为了在两个版本的得分之间建立联系 就需要借助于某种中 介 这种中介可以是共同组 也可以是共同题 基于IRT的等值方法就是首 先借助某种中介在两个测验版本的能力分数 之间建立联系 继而建立观察 分数之间的联系 基于IRT的等值在题库建设中非常重要 基于经典测验 的等值方法可以在不同试卷的分数之间建立联系 可以建立 试卷库 却不 能在题目参数之间建立连接 不能建立 题目库 基于IRT的等值方法 可 以为题库中的每个题目标定具有可比性的题目特征参数 根据这些题目特 征参数 就可以根据考生在测验中的反应模式估计出考生的能力参数 这 样 就可以使从题库中生成的不同测验版本的分数具有可比性 谢小庆 2005 需要注意 各种等值数据的处理方法都包含或强或弱的一定假设 都仅 仅适合一定的测验条件 有些假设是可以通过一定方式来检验的 有些假 设不可能或很难被检验 在等值数据处理方法的选择中 需要考虑各种方 法所涉及的假设 需要对测验条件进行评估 选择更适当的数据处理方法 在我国 等值问题一直是考试研究中较薄弱的一个环节 许多重要的能 力水平考试和资格认证考试都尚未实现统计等值 由于没有实现分数等 值 不同时间举行的考试的成绩之间不具备可比性 评价标准或证书授予标 准会受到试卷难度起伏的影响 一些水平不高的考生可能会由于运气好遇 到较容易的试卷而通过考试获得相应资格 一些水平较高的考生可能会由 51 考试分数等值的新框架 于运气不好遇到较难的试卷而未通过考试并未能获得相应资格 这种状况 不利于提高考试的效度和信度 不仅影响到选拔效率和人员素质 而且对考 生也是很不公平的 因此 加强关于等值的研究是我国教育测量研究者们 所面临的迫切任务 参考文献 1 Angoff W H 1971 Scales norms and equivalent scores In R L Thorndike Ed Educational measurement 2nd ed pp 508 600 Washington DC American Council on Education 2 Brennan R L ed 2006 Educational measurement 4th edition ACE Praeger 3 Davier A A Holland P W Thayer D T 2004 The kernel method of test equating New Y ork Springer 4 Holland P W Rubin D B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论