



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机自适应考试设计中的误区计算机自适应考试设计中的误区 张华华 作者简介 张华华 博士 天津市教育招生考试院特约研究员 美国德克萨斯大学 奥斯汀分校教育心理系副教授 摘要 计算机自适应考试分数低于纸笔考试分数的现象时有发生 该问题于在线计算 机自适应考试的应用过程中呈上升趋势 这主要由其连续选题规则导致 如果这个问题不能 很好解决 计算机自适应考试的信度将显著降低 在这篇论文中 我们将提出相关问题及其 解决办法 关键词 计算机自适应考试 连续选题规则 考试安全性 计算机自适应考试 Computerized adaptive testing CAT 已成为美国大规模教育测试 的一种主要模式 现有的这类考试包括研究生入学考试 GRE 商学院研究生入学考试 GMAT 护士资格考试 以及新兵入伍考试 ASVAB 等 CAT 与传统纸笔考试的最大区别在 于 前者是个别化的考试 所选项目的难度将尽量拟合估计中的考生能力参数 而后者针 对全体考生统一组题 所有考生将做一套 或几套 共同项目 由于针对考生能力选题 高 水平的考生将可避免应答太多太容易的项目 而低水平的考生则可以避免应答太多难度高 的项目 这样考生最终将考出自己真实水平 如 Weiss 1982 所指出 与传统纸笔考试相 比 CAT 的主要优点在于使用较少的项目而达到更精确的考生能力估计值 CAT 还具有许多优点 例如新颖的项目形式 方便和快捷的数据分析 以及即时评分 等 然而 CAT 也存在目前尚未解决的问题 其中之一是 CAT 与纸笔考试的一致性 近年 来美国常有这方面的报道 例如一些 GRE 机考成绩差的考生 当他们再参加 GRE 纸笔考试 后却获得了较高的成绩 然而 ETS 早已取消 GRE 纸笔考试 GRE CAT 已成了美国考生的 惟一选择 据美国高等教育年鉴报道 Carlson 2000 2000 年 ETS 曾允许大约 0 5 的 GRE 考生自愿免费重考 原因是他们的机考成绩不可信 尽管 ETS 拒绝对考分是否过高或 过低作出评价 但笔者认为一定是这些考生的分数低得令人无法相信 机考成绩是由选题 算法根据考生能力估计值而转换成的正整数 考生能力估计值 的范围通常在 4 与 4 之 间 当 估计值接近或达到 4 除了该考生能力极低外 笔者以为还有可能就是算法的不 稳定性促使部分考生的 估计值 发散 这种现象如不加更正 将严重损害机考的声誉 和可信度 目前 CAT 最常用的选题算法是 Lord 在 20 世纪 70 年代提出的极大项目信息法 GRE 和 GMAT 都使用项目反应理论 IRT 的三参数 Losistic 模型 设 是考生能力变量 对于随 机抽取的考生具有能力 者 答对第 j 个项目的概率为 其中 aj是第 j 项目的区分度 bj是它的难度 cj是猜测参数 D 是常数 1 7 项目信 息函数的定义为 GRE 机考采用极大似然估计法 设为考生答完第 m 题之后 通过极大似然估计法 MLE m 估计得能力值 根据极大项目信息法 The Maximum item information method 第 m 1 题 的选取将先由计算机算出题库中所有项目在这点上的信息量 并选出第 m 1 题使得该 m 题的信息量 Im 1 达到最大值 该算法的理论依据出自统计中的大样本理论 即的 m m 估计误差方差是 Fisher 信息的倒数 在 IRT 中 Fisher information 便是 Test information 由于 值未知 并已知收敛于 通常用代替 m j IjI 1 m m 由 极大信息法将保证的估计误差方差最小 事实上 极大信息法将选 1 I mVar m 取区分度大的项目 然而这个理论根据出自大样本理论 而 GRE 单项考试一般只有三十几个题目 加上这 些题目还必须满足内容和题型分配比例 Content balance 大样本的假设往往不存在 那末美国高等教育年鉴报道的超低分现象是由何引起的呢 Chang and Ying 2002 对 此进行了理论推导 为了便于讨论 假设猜题参数 Cj都为 0 则第 n 步 MLE 和第 n 1 步 MLE 之间满足下列关系 其中 an 1和 bn 1是第 n 1 题的区分度参数和难度参数 Xn 1为项目反应变量 I n 1 为 信息函数 是与的一个点 Xn 1取值 0 或 1 当接近 bn 1时 1 n n 1 n n 的值接近 1 2 因此等式 1 右边中括弧中的量近似于 1 2 实际上等式 1 右 边第二项可以解释为 估计值从第 n 步到 n 1 步的 修正 显然 在考试的初级阶段因 I n 1 较小 这一步修正的大小由 an 1决定 由于采用极大信息量的选题算法 在考试 的初级阶段将选取题库中 a 值最大的题 这时如果考生答错几题 算法将把考生的修正估 计值向反方向 推 很远 由于单项考试的长度固定在 30 题左右 尽管有些考生后阶段发 挥得不错 在他们爬回来之前 考试已结束了 Hau 和 Chang 2001 指出 极大信息选题法在有许多附加控制 例如 item exposure exp 1 exp 11 11 nnn b ba a nnn rate control 的情况下乃是 a 值递减法 descending a method 即在考试一开始计算机 将选取 a 值最大的项目 以后将选择中等 a 值的项目 在考试快结束时才使用较小 a 值 的项目 这一算法的缺点在于增加开始估计的不稳定性 Chang 和 Ying 2002 利用公式 1 进行计算机模拟试验 他们发现初使估计的不稳定性体现在两个方面 如果考生在考试 刚开始的时候错了几题 该算法将有可能把估计值向负方向推很远 如果考生在一开始 连续答对 算法将有可能把估计值向正方向推很远 这样 即使考生在最后连错若干题 也有可能获得较高成绩 克服初始值不稳定性的有效方法是采用 Chang 和 Ying 1999 a 值递增法 即在考试初 级阶段使用 a 值小的项目 因为此时能力估计值很有可能不准确 根据公式 1 a 值小的 项目不至于将考生能力值推太远 而当项目个数逐步增加时 a 值亦应该逐步增加 而 a 值最大的项目应放在考试的最后阶段使用 正如他们指出 it shrinks weights at early stages making it less likely to have extreme values in estimating It also inflates weights at final stages counteracting the effect of the multiplier and making it more 1 1 1 nn I likely to adjust the final estimator of Chang and Ying 2002 极大信息选题法的另一缺点是所选题目的不平均性 计算机将只选 a 值较大的题目 而许多 a 值小的题目永远没有机会被计算机选到 根据著名学者 Wainer 2000 的研究 GRE 题库中 12 的项目将负担 50 的被选中的项目 然而这不是计算机的过错 因计算机 是根据算法选题 其实 所有的项目在放入题库前 都必须经过严格的审查 如有问题 尽早在审查中被剔除 由此可见该算法的设计思想存在问题 由于诸多题目得不到使用 这不仅浪费了有限的资源 还将危害机考的安全性 机考的特性之一便是小规模和连续性 后考的考生可以通过向先考的考生打听题目而获益 由于许多题目 多为 a 值小的题目 计 算机选不到 实际题数将大大小于原有题数 这就大大方便了不法者有组织的偷题活动 早在 1994 年 美国最大考试补习公司 Kaplan Educational Center 做了一个试验 他们派出本公司的 GRE 补习教练参加 GRE 机考并向本公司汇报所记下的题目 不出几天 Kaplan 发现新汇集的题目与前几日汇集的题目重复 ETS 在接到 Kaplan 报告后暂停了本次 GRE 机考 并向法院控告 Kaplan 侵权 Mills 1999 Wainer 2000 专家认为 提高机 考安全性除了增大题库外 还必须平均地使用项目 Wainer 2000 显然 Wainer 的观点 意味着 Chang 和 Ying 1999 提出的 a 值分层选题法对于高危度 high stakes 机考应是一 种有前途的选题法 原因之一是它将平均地使用每一道放进题库的项目 it equalizes item exposure rates 以下是 a 值分层法的一种简单的设计 1 根据 a 值大小将题库分为 k 层 第一层具最小 a 值 第 k 层的题目 项目 具最大 a 值 2 将机考分为 k 个阶段 3 第 k 阶段时在第 k 层题库中选 nk项目 所选项目的 b 值将尽量接近能力估计值 注意 n1 n2 nk 考试的长度 4 重复 3 对 k 1 2 k 以上是一个简化的过程 a 值分层法的初始指导思想很简单 因的精确度随着题数 的增加而增加 一种有效的选题策略是在不够精确时使用 a 值小的项目 而当精确度 提高时使用 a 值大的项目 然而 最近的发展使我们认识了 a 值分层法还有一个新的优点 它将减低由估计不稳定性所造成的大步误差 如公式 1 所示 在 n 值较小时 如果选择 a 值小的项目将缩小更新的步长 参考文献 1 Carlson S October 20 2000 ETS finds flaws in the way online GRE rates some students Chronicle of Higher Education Vol 47 Issue 8 pA47 2p 2 Chang H Ying Z 1996 A global information approach to computerized adaptive testing Applied Psychological Measurement 20 213 229 3 Chang H Ying z 1999 A stratified multistage computerized adaptive testing Applied Psychological Measurement 23 3 211 222 4 Chang H Ying z April 2002 To weight or not to weight Balancing influence of initial and later items in adaptive testing Paper presented at the Annual Meeting of National Council on Measurement in Education New Orleans LA 5 Hau K T Chang H 2001 Item selection in computerized adaptive testing should more discriminating items be used first Journal of Educational Measurement 38 249 266 6 Mills C N 1999 Development and introduction of a computer adaptive graduate record examinations general test In F Drasgow J Olson Buchanan Eds Innovation in computerized assessment ll7 135 Mahwah NJ Lawrence Erlbaum Associates Inc 7 Wainer H 2000 Rescuing computerized adaptive testing by breaking Zipf s law Journal of Educational and Behavioral Statistics 25 203 224 8 Wainer H Dorans N J Flaugher R Green B F Mislevy R J Steinberg L Thissen D 1990 Computerized adaptive testing A primer Hillsdale NJ La
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上海租车合同范本
- 婚后贷款赠予合同范本
- 电脑回收采购合同范本
- 2025赠与合同范本下载
- 光纤布线施工合同范本
- 陵园合同范本
- 大型喷泉采购合同范本
- 房屋加固质保合同范本
- 卖家单方解约合同范本
- 餐厅房东 合同范本
- 黄遵宪年谱长编(上下册):国家社科基金后期资助项目
- 滇中引水工程
- 准东-华东±1100kv特高压直流输电线路工程杆塔设计原则
- krones旋盖系统控制原理及参数设定
- GB/T 708-2019冷轧钢板和钢带的尺寸、外形、重量及允许偏差
- GB/T 40549-2021焦炭堆积密度小容器测定方法
- GB/T 17395-2008无缝钢管尺寸、外形、重量及允许偏差
- GB 15630-1995消防安全标志设置要求
- 实习协议模板(最新版)
- 《新视野大学英语预备级1》教案
- 车间拆除及场地土壤治理与地下水修复工程项目技术方案工程方案和设备方案
评论
0/150
提交评论