




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1994 2010 China Academic Journal Electronic Publishing House All rights reserved 2010年6月 第26卷 第3期 教 育 科 学 Education Science Jun 2010 Vol 26 No 3 项目反应理论在教育考试命题质量评价中的应用 3 王晓华1 文剑冰2 1 上海市教育考试院 上海 200235 2 华东师范大学 心理与认知科学学院 上海 200062 摘 要 由于诸多因素的影响 大规模教育考试始终未能建立题库 只能在考后对考试数 据进行分析的基础上 对命题质量进行综合评价 项目反应理论能够对试题进行深入细致的分 析 对测验的编制也提出了相应的指标和方法 本文应用项目反应理论对大规模教育考试命题 质量进行分析 并以 高等数学 课程为例 探讨命题质量分析的程序和方法 希望以考后命题质 量的评价作为切入点 为大规模教育考试命题建立题库 积累基础项目和数据 关键词 项目反应理论 教育考试 评价 中图分类号 G40203 文献标识码 A 文章编号 100228064 2010 0320020207 3 基金项目 本文系上海市教育科学规划项目 多种测量理论相结合的命题质量评价研究 B07106 研究成果 收稿日期 2010204216 作者简介 王晓华 19752 男 江西九江人 副研究员 博士 主要研究方向为考试命题与评价 考试管理信息化 文剑 冰 19752 香港中文大学博士 主要研究方向为教育与心理统计 测量 研究兴趣为项目反应理论 计算机化测验及诊 断性测验 一 引言 大规模教育考试 如中考 高考 研究生入学考 试 自学考试等 都是国家级的高利害关系考试 其 质量至关重要 由于目前还没有教育考试题库 每 年考试的试题都要全部重新进行编制 不但造成浪 费 也给命题工作带来了非常繁重的压力 而且每 年的试卷难以等值 造成考试的难度不均 特别是 对于标准参照性考试 极易造成考试标准的波动 从 而给学校的教学和学生的学习带来很大的困扰 在当前大规模教育考试的命题工作中 命题质 量的分析不仅需要对所命制试题是否符合命题规则 以及考核目标等方面进行质的分析 根据考生的作 答情况对试题进行量的分析也是一个重要的方面 因此考后试题的分析和命题质量评价具有特殊的意 义 是教育考试工作中最重要的工作之一 传统的经典测量理论 CTT 试题分析可能会提 供大量的信息 但这些信息却明显地受到考生群体 的影响 且分析结果的意义不十分明确 因而有研 究者认为在现代考试设计 开发以及试题和考试结 果分析中 不要过多地强调这种传统的试题分析 1 而项目反应理论可以通过试题的特征曲线和信息量 分析 获得试题的参数 确定什么能力水平的考生能 够对试题作出正确的应答 试题对何种能力水平的 考生具有良好的区分能力 试题的质量是否良好等 等 2 项目反应理论对试题的分析结果明确 可以 使我们有针对性地采取措施 提高试题的质量 试卷是根据一定的考试目标而设计开发的试题 有机集合 试卷的质量包含两个层面 一个是微观 层面 即组成试卷的试题的质量 主要依靠试题分析 来进行评价 其质量指标主要是试题的难度 区分度 以及试题所提供的信息量等 另一方面则是宏观层 面 即试题的选配 组合是否合符考试的测量目标 其质量指标主要有效度和信度 主要依靠效度检验 和信度分析来进行评价 项目反应理论对于测验的 信度和效度的分析也与经典测量理论不同 在信度 和测量误差的估计上 经典测量理论的信度是针对 被试全体的 只代表平均测量精度 其信度不能给 出不同能力水平被试的准确测量精度 因而对如何 提高不同能力水平的测量精度问题 CTT显得无能 为力 而项目反应理论则用测验信息函数的概念代 替了信度理论 用测验对能力估计所提供的信息量 的多少来表示测量的精度 这避免了平行测验的假 02 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 定 并能给出不同能力被试的测量精度 另一方面 项目反应理论根据项目信息量的大小来选择对能力 估计精度最有增益的项目 使测验达到预先规定的 满意精度 对不同能力的被试实施不同的测题 既 提高了测量精度又缩短了测验长度 二 项目反应理论指导下的试卷质量评价 1 效度 考试一般都是为某种决策服务的 考试的成绩 是决策的直接参考依据 这种依据的有效性如何将 直接影响到决策的质量 决定着考试的成败 因而 衡量考试有效性的质量指标 即效度是至关重要的 效度一般是指根据考试成绩所做出决策或推测的有 效程度 传统上主要有三种类型的效度 即内容效度 结 构效度和效标关联效度 在现代教育和心理测量领 域 他们已经被看作是单一效度概念的不同方面 效度是以证据为基础的 效度检验的过程就是积累 和收集各种证据的过程 效度的证据主要包括考试 内容 考生的应答过程 考试的内部结构以及考试结 果与其他变量之间关系的证据 2 信度 效度指标检验的是考试是否有效 这是考试的 根本性问题 而信度则是指考试的测量误差 即多 次测量结果的一致性 项目反应理论对信度的分析 主要是针对考生能力参数的估计值 计算考试的信 息量 然后得出能力估计值 的标准误差 S E 3 常模参照性考试和标准参照性考试对试卷质 量要求的差异 常模参照性考试和标准参照性考试都要求高效 度 但侧重点有所不同 标准参照性考试一般都规 定了具体的学业标准 所以特别注重内容效度 要求 考试所包含的内容具有较大的覆盖面 应该构成该 领域的一个代表性样本 这样有利于推测考生掌握 某学科方面知识和技能的程度 而常模参照性考试 的关键是构建常模在某学科方面应具有的知识与技 能 方法与能力的程度 在考试内容的覆盖面上不如 标准参照性考试要求得那么严 常模参照性考试和 标准参照性考试都注重结构效度 因为结构效度说 明的是根据考生的考试结果 多大程度上能够将考 生的行为表现归因于考试的理论测量目标 常模参 照性考试还关注校标效度 而标准参照性考试则关 注分类结果的准确性 常模参照性考试和标准参照性考试对信度的要 求也有所不同 常模参照性考试一般要求对所有被 试都具有较高的信度 所有被试的测量误差相等 理论上 当被试相差 分就会影响决策结果时 那么 测量误差应小于 分 而标准参照性考试则要求在 划界分数点附近具有很高的信度 或者说是分类一 致性要求高 所以 标准参照性考试的信度分析 不 但要计算考试分数的测量误差 还要计算合格分数 的测量误差 三 项目反应理论指导下的试题质量评价 3 相对于经典测量理论来说 项目反应理论在试 题分析方面的优势非常明显 项目反应理论不但可 以计算出试题的难度 区分度 还可以计算出考生的 能力参数 而且这些参数具有不变性 即考生的能 力参数与所选用的试题无关 试题的参数 难度和区 分度 与考生的样本无关 1 难度参数 难度 顾名思义 是指考生答题时所感受到的困 难程度 经典测量理论将难度定义在试题的通过率 上 用通过率来描述试题难度 通过率高 则试题容 易 反之 则难 而项目反应理论是以项目特征曲线 的拐点处被试能力值作为试题的难度值 就双参数 逻辑斯蒂克模型来说 在曲线拐点处的被试正确做 答试题的概率为0 5 当被试能力高于试题的难度 时 则被试正确做答该题的概率大于0 5 反之 则小 于0 5 2 区分度参数 试题的区分度是指对试题区分不同能力被试的 能力的度量 在经典测量理论中 计算试题的区分 度实际是求取被试在试题上的得分和总分的相关 以相关系数作为衡量该试题的区分能力的大小 在 项目反应理论中 试题的区分度与试题反应曲线拐 点处的斜率有关 曲线越陡峭 区分度越高 当被试 能力稍为偏离试题难度值时 被试正确做答试题的 概率取值迅速增大或变小 表现出很强的区分作用 3 被试能力参数 在经典测量理论中 将被试的最后总得分作为 被试能力的衡量指标 没有专门的被试能力参数 而在项目反应理论中 针对考生对试题的应答情况 利用项目反应模型来估计被试的能力参数值 估计 的被试能力参数值是不随试题的不同而变化的 一 般来说 被试的总得分与被试能力参数总体趋势是 一致的 但不完全相同 总分高的被试 要视被试具 12 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 体的应答情况 其能力参数不一定高 四 项目反应理论在 高等数学 课程命题质量 评价中的应用 本研究分析上海市2008年高等教育课程 高等 数学 统考试卷 2008年上海市实际参加 高等数 学 统考的人数为1638人 采取随机抽样的方式 抽 取样本总数为300份 1 试卷分析 2008年上海市高等教育统考课程 高等数学 的试卷结构如表1所示 从表1可以看出 试卷中题型分为四种 单项选 择题 填空题 计算题和证明与应用题 试卷总题量 为25道 满分为100分 考核的内容也分为四个方 面 函数及其图形 极限和连续 V1 一元函数微分 学 V2 一元函数积分学 V3 和线性代数初步 V4 表1 高等教育课程 高等数学 试卷结构 单项选择题填空题计算题证明与应用题合计 函数及其图形 极限和连续 V1 3 6 3 9 6 15 一元函数微分学 V2 1 2 4 12 4 24 1 6 10 44 一元函数积分学 V3 1 2 2 6 2 12 1 6 6 26 线性代数初步 V4 1 3 2 12 3 15 合计5 10 10 30 8 48 2 12 25 100 注 表中圆括号内为题分 括号外为题的数目 高等数学 考试大纲对考试的内容及其分值比 例的规定如下 函数及其图形 极限和连续 V1 15 一元函数微分学 V2 40 一元函数积分学 V3 30 线性代数初步 V4 15 由表1可见 本试卷各内容分值比例较好地符 合了考纲的要求 2 项目反应模型对整卷的分析 4 5 1 单维性假设检验 单维性假定是单维项目反应理论最主要的假 定 单维性假定检验的最主要方法是因子分析法 表2即为本次考试因子分析的结果 表2 提取的因子解释的总方差 因 子 初始特征值提取的负荷平方和 特征值方差百分数方差累计百分数特征值方差百分数方差累计百分数 12 70867 70767 7072 35558 87158 871 2 62515 61383 320 3 46811 69695 016 4 1994 984100 000 从表2中可以看出 本因子分析总共可提取出4 个因子 第二列为特征值 指的是每个因子解释的变 量方差的数量 第一个因子解释的方差占总方差的 67 7 1 2两个因子解释的方差占总方差的83 32 第五列为保留的因子负荷的平方和 即每个 因子解释的变量方差的数量 图1为因子特征值碎石图 纵坐标为特征值 横 坐标为因子数 由表1和图1可见 根据凯撒 古 特曼规则 Kaiser Guttman Rule 即因子特征值 大于 1 和碎石图检验 可以只保留一个因子 四个观 察变量的负荷主要集中在第一个因子 另外 因子分析还表明 再生相关系数矩阵与原 始的相关系数矩阵非常接近 而且残差矩阵中的所 有元素的绝对值都接近于0 且小于0 05 这说明模 型与数据拟合得非常好 根据因子分析 提取的因子数为1 可以认为本 22 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 图1 因子特征值碎石图 次 高等数学 考试的维度是单维的 2 模型性质检验 试题参数的不变性检验 我们将所抽取的样本分为两组 分别利用两个 样本组的考试结果来估计试题参数 然后对两组试 题参数检查其线性相关程度 若两组参数线性相关 程度高 则可以认为考试结果与选用模型拟合较好 试题参数具有不变性 图2和图3分别为区分度参数a和难度参数b 的相关关系图 从b值上看 25道试题总体线性关 系良好 难度的R3为0 935 相关系数为0 967 两 组a值的R2为0 779 相关系数为0 882 这些关 系表明 数据模型总体上具备了试题参数不变性的 性质 图2 区分度参数a值相关关系 考生能力参数不变性检验 严格上来说 检验被试能力参数不变性 应当利 用两组难度不同的试题对同一考生群体进行测试 根据获得的两组考试数据估计出两组能力参数 若 两组能力参数的线性相关关系良好 则认为考生能 力参数估计具有不变性 由于不可能对同一组考生施测两次 因而本研 究将试卷分为两半 每一半为一组 依据考生在两组 试题上的得分 分别估计考生的能力参数 检验估计 图3 难度参数b值相关关系 出的两组能力参数的相关性 若相关良好 则认为考 生能力参数估计具有不变性 图4列出了根据两组试题分别估计同一样本考 生的能力参数的相关关系 两组参数的R2 相关系 数约为0 85 可见考生的能力参数具有良好的相关 关系 可以认为考生的能力参数不随试题样本的变 化而变化 数据模型具有能力参数的不变性 图4 两组试题分别估计的 考生能力参数相关关系 3 研究结果及讨论 6 7 8 9 10 研究结果表明 对应于划界点60分处的考生能 力参数为0 552 对应信息量为23 93 最大信息量 处所对应的考生能力参数为0 27 对应的分数约为 52分 图5所示为全卷在不同考生能力处所能提供 的信息量 由图可见 信息量在能力参数0 27处达 到最大值24 31 然后沿两边缓慢下降 再迅速降低 图6为全卷在不同考生能力处的测量误差 相应的 能力参数为0 27处的达到最小误差0 2028 划界点 能力参数0 552处的测量误差为0 2044 32 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 图5 全卷在不同考生能力处的信息量图6 全卷在不同考生能力处的测量误差 本课程考试作为标准参照性考试 特别希望划 界点附近的测量误差小 以便减少决策误差 最理 想的状态是划界点处于信息量的最高点 然而这在 实际考试中是不容易做到的 本例中 划界点处在 最高信息量98 4 的位置 在信息量的高位区 这是 可以接受的 表3所示为全卷25道试题区分度 难度和信息 量数据 第二列为区分度a值 第三列为等级数 对 于主观题 由于最小的计分单位为1分 因而试题分 数就是等级数 第四列到第九列为难度b值 相应的 等级数有多少 就有多少个难度值 等级数越高 难 度值越大 第十列为试题应提供的信息量比例 第十 一列为应提供的最低信息量 它是由16乘以应提供 的信息量比例得出 这是由于一般认为最高的测量 误差为0 25 5 换算成信息量 最低应为16 第十 二列为应提供的合理信息量 它是由划界点处的总 信息量乘以应提供信息量的比例得出 第十三列为 试题在划界点处实际提供的信息量 表3 全卷25道试题区分度 难度和信息量数据 题号a值等级数b值1b值2b值3b值4b值5b值6 应提 供的 信息 量比例 应提 供的 最低 信息量 应提 供的 合理 信息量 实际 提供 的信 息量 10 1801 000 4 9910 0200 3200 4790 012 20 4061 000 1 0530 0200 3200 4790 089 30 2201 000 0 4170 0200 3200 4790 034 40 4521 000 0 0430 0200 3200 4790 140 50 2991 000 1 6140 0200 3200 4790 048 60 4351 000 2 3060 0300 4800 7180 053 70 6661 0001 9320 0300 4800 7180 184 80 2751 0001 0240 0300 4800 7180 054 90 7611 000 0 2140 0300 4800 7180 331 101 5441 000 1 4230 0300 4800 7180 038 110 3811 0002 0600 0300 4800 7180 083 120 3191 000 1 3260 0300 4800 7180 057 131 0551 0000 1850 0300 4800 7180 724 141 1261 0000 8870 0300 4800 7180 830 150 5921 000 0 0030 0300 4800 7180 234 161 0146 000 0 200 0 0131 4361 5611 7821 9020 0600 9601 4360 818 42 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 171 4586 0000 1450 2580 5551 0391 1811 3560 0600 9601 4361 954 182 2406 000 0 106 0 0560 1490 3570 6090 7540 0600 9601 4364 590 190 9656 000 2 133 1 737 1 735 0 460 0 197 0 1420 0600 9601 4360 505 201 3026 000 1 634 1 302 0 0700 3280 7010 8490 0600 9601 4361 534 211 7896 000 0 384 0 2820 1781 0711 3501 4980 0600 9601 4362 444 222 2436 000 0 316 0 2040 0100 2590 5660 9070 0600 9601 4364 590 231 1966 000 0 0670 3680 6450 8590 9611 0470 0600 9601 4361 322 241 4596 000 1 843 1 0750 1460 6480 8040 8980 0600 9601 4361 910 251 2006 000 0 482 0 2740 2470 5130 8841 4760 0600 9601 4361 349 由表3可见 总体上 全卷提供的信息量大于规 定的最低信息量 因而 所有试题应提供的合理信息 量都大于应提供的最低信息量 其中 五道选择题 实际提供的信息量远低于应提供的合理信息量 也 低于应提供的最低信息量 其原因是选择题的区分 度不高 难度也较低 特别是第1题 难度最低 几 乎所有的考生都答对 而且区分度只有0 180 第1 题的项目反应曲线如图7所示 填空题中 第13题 和第14题较好 他们实际提供的信息量均大于应提 供的合理信息量 其中 第13题的试题反应曲线如 图8所示 对比图7和图8 可以明显地看出第13 题试题反应曲线在能力区间 2 2 之间非常陡峭 这说明试题在这个区间具有良好的区分能力 可以 提供大的信息量 对考核目标的贡献大 而第1题 的反应曲线在整个能力区间平滑 没有特别陡峭的 部分 因而区分度不高 提供的信息量小 对考核目 标的贡献小 图7 第1题试题反应曲线 另外 客观题中第6 8 10 11 12题提供的信息 量偏小 其中 第8和11题偏难 其余偏容易 在主观题中 18题和22题是性能优异的试题 他们难度适宜 区分度高 实际提供的信息量远大于 图8第13题试题反应曲线 图9 第18题试题反应曲线 图10 第23题试题反应曲线 应提供的合理信息量 而试题第16和19题性能较 差 实际提供的信息量太少 甚至小于应提供的最低 52 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 信息量 19题的难度太低 区分度不高 第16题二级 难度到三级难度的跨度太高 第17 20 21 24较 好 提供的信息量均大于应提供的合理信息量 第 23 25题提供的信息量小于应提供的信息量 但大 于应提供的最低信息量 图9和图10分别为第18题和第23题试题反 应曲线 由于考生的得分为0分至6分 共7个可 能的分数 因而有7条反应曲线 对比图9和图10 可知 第18题的反应曲线比第23题的反应曲线要 窄且陡 且陡峭部分主要集中在能力区间 1 1 之 间 这对于本课程的考核目标是非常有利的 而第 23题曲线陡峭部分主要集中在能力区间 2 2 之 间 试题的性能不如第18题好 五 结束语 大规模教育考试 如高考 中考 研究生入学考 试 自考 由于是高利害关系的考试 命题过程中不 可能进行充分的测试以验证题目的性能 且短期内 难以建立题库 但从长期来看 建立大规模教育考 试题库势在必行 因而在考后利用实测的数据对项 目进行分析 选择性能优良的项目 积累下来 将为 后面建立题库打下很好的基础 从这个角度上来 说 在大规模教育考试中应用项目反应理论对命题 质量进行评价 具有不可替代的重要意义 参 考 文 献 1 雷新勇 大规模教育考试 命题与评价 华东师范大学出版社 M 2006 2 戴海琦 2006 基于项目反应理论的测验编制方法研究 J 考试 研究 4 2 31244 3 许健 马世跸 何晓群 2000 标准化试题的评价与IRT模型的应 用 J 中国考试 第12期 15217 4 Christine E DeMars 2006 Application of the Bi Factor Multi2 dimensional Item Response Theory Model to Testlet Based Tests Journal of Educational Measurement 43 2 1452168 5 Sandip Sinharay 2005 Assessing Fit of Unidimensional Item Re2 sponse Theory Models Using a Bayesian Approach Journal of Educational Measurement 42 4 3752394 6 Hugo Zagorsek Stanley J Stough and Marko Jaklic 2006 A2 nalysis of the Reliability of the Leadership Practices Inventory in the Item Response Theory Framework International Journal of Selection and Assessment 14 2 1802191 7 Steven M Downing 2003 Item response theory applications of modern test theory in medical education Medical Education 37 8 7392745 8 Yuri Goegebeur Paul De Boeck Geert Molenberghs and Guido del Pino 2006 A local influence based diagnostic approach to a speeded item response theory model Journal of the Royal Sta2 tistical Society Series C Applied Statistics 55 5 6472676 9 孙菡 苗丹民等 基于项目反应理论的中国应征青年数学推理测 验的编制 J 中国行为医学科学 2007 6 16 5652567 10 孔 燕 张 凡 基于项目反应理论的中国公民科学素质测评方法 研究 J 科技管理研究 2009 4 2802283 The Research on the Applic
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑方案设计中标公告范本
- 水库下穿隧道施工方案
- 泸州引流方案咨询
- 冠锦教育咨询方案
- 平安建设方案(初步定稿)
- 建筑总平面方案设计思路
- 造价咨询方案保障措施
- 航空运输行业工艺流程与规范
- 家具租赁合同示例
- 工程项目保修期专项工作方案(含工作安排与保障措施)
- 2025年公共营养师三级考试试卷及答案
- 开工前安全培训教学课件
- 2025年皮肤科学常见皮肤病鉴别诊断练习试卷答案及解析
- 高铁隧道配套施工方案
- 足浴前台礼仪培训课件
- 三人合伙工程合同协议书
- 2025曲靖市事业单位定向招聘驻曲部队未就业随军家属(8人)备考练习试题及答案解析
- 2025广西现代物流集团第三次招聘109人笔试备考题库及答案解析
- 入住敬老院协议合同模板
- 急危重孕产妇的救治课件
- 增值税发票培训知识课件
评论
0/150
提交评论