项目反应理论在教育考试命题质量评价中的应用.pdf

上传人：a*** IP属地：河南上传时间：2020-03-14 格式：PDF 页数：7 大小：375.73KB 积分：12 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1994 2010 China Academic Journal Electronic Publishing House All rights reserved 2010年6月第26卷第3期教育科学 Education Science Jun 2010 Vol 26 No 3 项目反应理论在教育考试命题质量评价中的应用 3 王晓华1 文剑冰2 1 上海市教育考试院上海 200235 2 华东师范大学心理与认知科学学院上海 200062 摘要由于诸多因素的影响大规模教育考试始终未能建立题库只能在考后对考试数据进行分析的基础上对命题质量进行综合评价项目反应理论能够对试题进行深入细致的分析对测验的编制也提出了相应的指标和方法本文应用项目反应理论对大规模教育考试命题质量进行分析并以高等数学课程为例探讨命题质量分析的程序和方法希望以考后命题质量的评价作为切入点为大规模教育考试命题建立题库积累基础项目和数据关键词项目反应理论教育考试评价中图分类号 G40203 文献标识码 A 文章编号 100228064 2010 0320020207 3 基金项目本文系上海市教育科学规划项目多种测量理论相结合的命题质量评价研究 B07106 研究成果收稿日期 2010204216 作者简介王晓华 19752 男江西九江人副研究员博士主要研究方向为考试命题与评价考试管理信息化文剑冰 19752 香港中文大学博士主要研究方向为教育与心理统计测量研究兴趣为项目反应理论计算机化测验及诊断性测验一引言大规模教育考试如中考高考研究生入学考试自学考试等都是国家级的高利害关系考试其质量至关重要由于目前还没有教育考试题库每年考试的试题都要全部重新进行编制不但造成浪费也给命题工作带来了非常繁重的压力而且每年的试卷难以等值造成考试的难度不均特别是对于标准参照性考试极易造成考试标准的波动从而给学校的教学和学生的学习带来很大的困扰在当前大规模教育考试的命题工作中命题质量的分析不仅需要对所命制试题是否符合命题规则以及考核目标等方面进行质的分析根据考生的作答情况对试题进行量的分析也是一个重要的方面因此考后试题的分析和命题质量评价具有特殊的意义是教育考试工作中最重要的工作之一传统的经典测量理论 CTT 试题分析可能会提供大量的信息但这些信息却明显地受到考生群体的影响且分析结果的意义不十分明确因而有研究者认为在现代考试设计开发以及试题和考试结果分析中不要过多地强调这种传统的试题分析 1 而项目反应理论可以通过试题的特征曲线和信息量分析获得试题的参数确定什么能力水平的考生能够对试题作出正确的应答试题对何种能力水平的考生具有良好的区分能力试题的质量是否良好等等 2 项目反应理论对试题的分析结果明确可以使我们有针对性地采取措施提高试题的质量试卷是根据一定的考试目标而设计开发的试题有机集合试卷的质量包含两个层面一个是微观层面即组成试卷的试题的质量主要依靠试题分析来进行评价其质量指标主要是试题的难度区分度以及试题所提供的信息量等另一方面则是宏观层面即试题的选配组合是否合符考试的测量目标其质量指标主要有效度和信度主要依靠效度检验和信度分析来进行评价项目反应理论对于测验的信度和效度的分析也与经典测量理论不同在信度和测量误差的估计上经典测量理论的信度是针对被试全体的只代表平均测量精度其信度不能给出不同能力水平被试的准确测量精度因而对如何提高不同能力水平的测量精度问题 CTT显得无能为力而项目反应理论则用测验信息函数的概念代替了信度理论用测验对能力估计所提供的信息量的多少来表示测量的精度这避免了平行测验的假 02 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 定并能给出不同能力被试的测量精度另一方面项目反应理论根据项目信息量的大小来选择对能力估计精度最有增益的项目使测验达到预先规定的满意精度对不同能力的被试实施不同的测题既提高了测量精度又缩短了测验长度二项目反应理论指导下的试卷质量评价 1 效度考试一般都是为某种决策服务的考试的成绩是决策的直接参考依据这种依据的有效性如何将直接影响到决策的质量决定着考试的成败因而衡量考试有效性的质量指标即效度是至关重要的效度一般是指根据考试成绩所做出决策或推测的有效程度传统上主要有三种类型的效度即内容效度结构效度和效标关联效度在现代教育和心理测量领域他们已经被看作是单一效度概念的不同方面效度是以证据为基础的效度检验的过程就是积累和收集各种证据的过程效度的证据主要包括考试内容考生的应答过程考试的内部结构以及考试结果与其他变量之间关系的证据 2 信度效度指标检验的是考试是否有效这是考试的根本性问题而信度则是指考试的测量误差即多次测量结果的一致性项目反应理论对信度的分析主要是针对考生能力参数的估计值计算考试的信息量然后得出能力估计值的标准误差 S E 3 常模参照性考试和标准参照性考试对试卷质量要求的差异常模参照性考试和标准参照性考试都要求高效度但侧重点有所不同标准参照性考试一般都规定了具体的学业标准所以特别注重内容效度要求考试所包含的内容具有较大的覆盖面应该构成该领域的一个代表性样本这样有利于推测考生掌握某学科方面知识和技能的程度而常模参照性考试的关键是构建常模在某学科方面应具有的知识与技能方法与能力的程度在考试内容的覆盖面上不如标准参照性考试要求得那么严常模参照性考试和标准参照性考试都注重结构效度因为结构效度说明的是根据考生的考试结果多大程度上能够将考生的行为表现归因于考试的理论测量目标常模参照性考试还关注校标效度而标准参照性考试则关注分类结果的准确性常模参照性考试和标准参照性考试对信度的要求也有所不同常模参照性考试一般要求对所有被试都具有较高的信度所有被试的测量误差相等理论上当被试相差分就会影响决策结果时那么测量误差应小于分而标准参照性考试则要求在划界分数点附近具有很高的信度或者说是分类一致性要求高所以标准参照性考试的信度分析不但要计算考试分数的测量误差还要计算合格分数的测量误差三项目反应理论指导下的试题质量评价 3 相对于经典测量理论来说项目反应理论在试题分析方面的优势非常明显项目反应理论不但可以计算出试题的难度区分度还可以计算出考生的能力参数而且这些参数具有不变性即考生的能力参数与所选用的试题无关试题的参数难度和区分度与考生的样本无关 1 难度参数难度顾名思义是指考生答题时所感受到的困难程度经典测量理论将难度定义在试题的通过率上用通过率来描述试题难度通过率高则试题容易反之则难而项目反应理论是以项目特征曲线的拐点处被试能力值作为试题的难度值就双参数逻辑斯蒂克模型来说在曲线拐点处的被试正确做答试题的概率为0 5 当被试能力高于试题的难度时则被试正确做答该题的概率大于0 5 反之则小于0 5 2 区分度参数试题的区分度是指对试题区分不同能力被试的能力的度量在经典测量理论中计算试题的区分度实际是求取被试在试题上的得分和总分的相关以相关系数作为衡量该试题的区分能力的大小在项目反应理论中试题的区分度与试题反应曲线拐点处的斜率有关曲线越陡峭区分度越高当被试能力稍为偏离试题难度值时被试正确做答试题的概率取值迅速增大或变小表现出很强的区分作用 3 被试能力参数在经典测量理论中将被试的最后总得分作为被试能力的衡量指标没有专门的被试能力参数而在项目反应理论中针对考生对试题的应答情况利用项目反应模型来估计被试的能力参数值估计的被试能力参数值是不随试题的不同而变化的一般来说被试的总得分与被试能力参数总体趋势是一致的但不完全相同总分高的被试要视被试具 12 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 体的应答情况其能力参数不一定高四项目反应理论在高等数学课程命题质量评价中的应用本研究分析上海市2008年高等教育课程高等数学统考试卷 2008年上海市实际参加高等数学统考的人数为1638人采取随机抽样的方式抽取样本总数为300份 1 试卷分析 2008年上海市高等教育统考课程高等数学的试卷结构如表1所示从表1可以看出试卷中题型分为四种单项选择题填空题计算题和证明与应用题试卷总题量为25道满分为100分考核的内容也分为四个方面函数及其图形极限和连续 V1 一元函数微分学 V2 一元函数积分学 V3 和线性代数初步 V4 表1 高等教育课程高等数学试卷结构单项选择题填空题计算题证明与应用题合计函数及其图形极限和连续 V1 3 6 3 9 6 15 一元函数微分学 V2 1 2 4 12 4 24 1 6 10 44 一元函数积分学 V3 1 2 2 6 2 12 1 6 6 26 线性代数初步 V4 1 3 2 12 3 15 合计5 10 10 30 8 48 2 12 25 100 注表中圆括号内为题分括号外为题的数目高等数学考试大纲对考试的内容及其分值比例的规定如下函数及其图形极限和连续 V1 15 一元函数微分学 V2 40 一元函数积分学 V3 30 线性代数初步 V4 15 由表1可见本试卷各内容分值比例较好地符合了考纲的要求 2 项目反应模型对整卷的分析 4 5 1 单维性假设检验单维性假定是单维项目反应理论最主要的假定单维性假定检验的最主要方法是因子分析法表2即为本次考试因子分析的结果表2 提取的因子解释的总方差因子初始特征值提取的负荷平方和特征值方差百分数方差累计百分数特征值方差百分数方差累计百分数 12 70867 70767 7072 35558 87158 871 2 62515 61383 320 3 46811 69695 016 4 1994 984100 000 从表2中可以看出本因子分析总共可提取出4 个因子第二列为特征值指的是每个因子解释的变量方差的数量第一个因子解释的方差占总方差的 67 7 1 2两个因子解释的方差占总方差的83 32 第五列为保留的因子负荷的平方和即每个因子解释的变量方差的数量图1为因子特征值碎石图纵坐标为特征值横坐标为因子数由表1和图1可见根据凯撒古特曼规则 Kaiser Guttman Rule 即因子特征值大于 1 和碎石图检验可以只保留一个因子四个观察变量的负荷主要集中在第一个因子另外因子分析还表明再生相关系数矩阵与原始的相关系数矩阵非常接近而且残差矩阵中的所有元素的绝对值都接近于0 且小于0 05 这说明模型与数据拟合得非常好根据因子分析提取的因子数为1 可以认为本 22 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 图1 因子特征值碎石图次高等数学考试的维度是单维的 2 模型性质检验试题参数的不变性检验我们将所抽取的样本分为两组分别利用两个样本组的考试结果来估计试题参数然后对两组试题参数检查其线性相关程度若两组参数线性相关程度高则可以认为考试结果与选用模型拟合较好试题参数具有不变性图2和图3分别为区分度参数a和难度参数b 的相关关系图从b值上看 25道试题总体线性关系良好难度的R3为0 935 相关系数为0 967 两组a值的R2为0 779 相关系数为0 882 这些关系表明数据模型总体上具备了试题参数不变性的性质图2 区分度参数a值相关关系考生能力参数不变性检验严格上来说检验被试能力参数不变性应当利用两组难度不同的试题对同一考生群体进行测试根据获得的两组考试数据估计出两组能力参数若两组能力参数的线性相关关系良好则认为考生能力参数估计具有不变性由于不可能对同一组考生施测两次因而本研究将试卷分为两半每一半为一组依据考生在两组试题上的得分分别估计考生的能力参数检验估计图3 难度参数b值相关关系出的两组能力参数的相关性若相关良好则认为考生能力参数估计具有不变性图4列出了根据两组试题分别估计同一样本考生的能力参数的相关关系两组参数的R2 相关系数约为0 85 可见考生的能力参数具有良好的相关关系可以认为考生的能力参数不随试题样本的变化而变化数据模型具有能力参数的不变性图4 两组试题分别估计的考生能力参数相关关系 3 研究结果及讨论 6 7 8 9 10 研究结果表明对应于划界点60分处的考生能力参数为0 552 对应信息量为23 93 最大信息量处所对应的考生能力参数为0 27 对应的分数约为 52分图5所示为全卷在不同考生能力处所能提供的信息量由图可见信息量在能力参数0 27处达到最大值24 31 然后沿两边缓慢下降再迅速降低图6为全卷在不同考生能力处的测量误差相应的能力参数为0 27处的达到最小误差0 2028 划界点能力参数0 552处的测量误差为0 2044 32 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 图5 全卷在不同考生能力处的信息量图6 全卷在不同考生能力处的测量误差本课程考试作为标准参照性考试特别希望划界点附近的测量误差小以便减少决策误差最理想的状态是划界点处于信息量的最高点然而这在实际考试中是不容易做到的本例中划界点处在最高信息量98 4 的位置在信息量的高位区这是可以接受的表3所示为全卷25道试题区分度难度和信息量数据第二列为区分度a值第三列为等级数对于主观题由于最小的计分单位为1分因而试题分数就是等级数第四列到第九列为难度b值相应的等级数有多少就有多少个难度值等级数越高难度值越大第十列为试题应提供的信息量比例第十一列为应提供的最低信息量它是由16乘以应提供的信息量比例得出这是由于一般认为最高的测量误差为0 25 5 换算成信息量最低应为16 第十二列为应提供的合理信息量它是由划界点处的总信息量乘以应提供信息量的比例得出第十三列为试题在划界点处实际提供的信息量表3 全卷25道试题区分度难度和信息量数据题号a值等级数b值1b值2b值3b值4b值5b值6 应提供的信息量比例应提供的最低信息量应提供的合理信息量实际提供的信息量 10 1801 000 4 9910 0200 3200 4790 012 20 4061 000 1 0530 0200 3200 4790 089 30 2201 000 0 4170 0200 3200 4790 034 40 4521 000 0 0430 0200 3200 4790 140 50 2991 000 1 6140 0200 3200 4790 048 60 4351 000 2 3060 0300 4800 7180 053 70 6661 0001 9320 0300 4800 7180 184 80 2751 0001 0240 0300 4800 7180 054 90 7611 000 0 2140 0300 4800 7180 331 101 5441 000 1 4230 0300 4800 7180 038 110 3811 0002 0600 0300 4800 7180 083 120 3191 000 1 3260 0300 4800 7180 057 131 0551 0000 1850 0300 4800 7180 724 141 1261 0000 8870 0300 4800 7180 830 150 5921 000 0 0030 0300 4800 7180 234 161 0146 000 0 200 0 0131 4361 5611 7821 9020 0600 9601 4360 818 42 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 171 4586 0000 1450 2580 5551 0391 1811 3560 0600 9601 4361 954 182 2406 000 0 106 0 0560 1490 3570 6090 7540 0600 9601 4364 590 190 9656 000 2 133 1 737 1 735 0 460 0 197 0 1420 0600 9601 4360 505 201 3026 000 1 634 1 302 0 0700 3280 7010 8490 0600 9601 4361 534 211 7896 000 0 384 0 2820 1781 0711 3501 4980 0600 9601 4362 444 222 2436 000 0 316 0 2040 0100 2590 5660 9070 0600 9601 4364 590 231 1966 000 0 0670 3680 6450 8590 9611 0470 0600 9601 4361 322 241 4596 000 1 843 1 0750 1460 6480 8040 8980 0600 9601 4361 910 251 2006 000 0 482 0 2740 2470 5130 8841 4760 0600 9601 4361 349 由表3可见总体上全卷提供的信息量大于规定的最低信息量因而所有试题应提供的合理信息量都大于应提供的最低信息量其中五道选择题实际提供的信息量远低于应提供的合理信息量也低于应提供的最低信息量其原因是选择题的区分度不高难度也较低特别是第1题难度最低几乎所有的考生都答对而且区分度只有0 180 第1 题的项目反应曲线如图7所示填空题中第13题和第14题较好他们实际提供的信息量均大于应提供的合理信息量其中第13题的试题反应曲线如图8所示对比图7和图8 可以明显地看出第13 题试题反应曲线在能力区间 2 2 之间非常陡峭这说明试题在这个区间具有良好的区分能力可以提供大的信息量对考核目标的贡献大而第1题的反应曲线在整个能力区间平滑没有特别陡峭的部分因而区分度不高提供的信息量小对考核目标的贡献小图7 第1题试题反应曲线另外客观题中第6 8 10 11 12题提供的信息量偏小其中第8和11题偏难其余偏容易在主观题中 18题和22题是性能优异的试题他们难度适宜区分度高实际提供的信息量远大于图8第13题试题反应曲线图9 第18题试题反应曲线图10 第23题试题反应曲线应提供的合理信息量而试题第16和19题性能较差实际提供的信息量太少甚至小于应提供的最低 52 1994 2010 China Academic Journal Electronic Publishing House All rights reserved 信息量 19题的难度太低区分度不高第16题二级难度到三级难度的跨度太高第17 20 21 24较好提供的信息量均大于应提供的合理信息量第 23 25题提供的信息量小于应提供的信息量但大于应提供的最低信息量图9和图10分别为第18题和第23题试题反应曲线由于考生的得分为0分至6分共7个可能的分数因而有7条反应曲线对比图9和图10 可知第18题的反应曲线比第23题的反应曲线要窄且陡且陡峭部分主要集中在能力区间 1 1 之间这对于本课程的考核目标是非常有利的而第 23题曲线陡峭部分主要集中在能力区间 2 2 之间试题的性能不如第18题好五结束语大规模教育考试如高考中考研究生入学考试自考由于是高利害关系的考试命题过程中不可能进行充分的测试以验证题目的性能且短期内难以建立题库但从长期来看建立大规模教育考试题库势在必行因而在考后利用实测的数据对项目进行分析选择性能优良的项目积累下来将为后面建立题库打下很好的基础从这个角度上来说在大规模教育考试中应用项目反应理论对命题质量进行评价具有不可替代的重要意义参考文献 1 雷新勇大规模教育考试命题与评价华东师范大学出版社 M 2006 2 戴海琦 2006 基于项目反应理论的测验编制方法研究 J 考试研究 4 2 31244 3 许健马世跸何晓群 2000 标准化试题的评价与IRT模型的应用 J 中国考试第12期 15217 4 Christine E DeMars 2006 Application of the Bi Factor Multi2 dimensional Item Response Theory Model to Testlet Based Tests Journal of Educational Measurement 43 2 1452168 5 Sandip Sinharay 2005 Assessing Fit of Unidimensional Item Re2 sponse Theory Models Using a Bayesian Approach Journal of Educational Measurement 42 4 3752394 6 Hugo Zagorsek Stanley J Stough and Marko Jaklic 2006 A2 nalysis of the Reliability of the Leadership Practices Inventory in the Item Response Theory Framework International Journal of Selection and Assessment 14 2 1802191 7 Steven M Downing 2003 Item response theory applications of modern test theory in medical education Medical Education 37 8 7392745 8 Yuri Goegebeur Paul De Boeck Geert Molenberghs and Guido del Pino 2006 A local influence based diagnostic approach to a speeded item response theory model Journal of the Royal Sta2 tistical Society Series C Applied Statistics 55 5 6472676 9 孙菡苗丹民等基于项目反应理论的中国应征青年数学推理测验的编制 J 中国行为医学科学 2007 6 16 5652567 10 孔燕张凡基于项目反应理论的中国公民科学素质测评方法研究 J 科技管理研究 2009 4 2802283 The Research on the Applic

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

项目反应理论在教育考试命题质量评价中的应用.pdf

文档简介

温馨提示

最新文档

评论

项目反应理论在教育考试命题质量评价中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档