大学考试试题质量的量化研究_段宝军.pdf_第1页
大学考试试题质量的量化研究_段宝军.pdf_第2页
大学考试试题质量的量化研究_段宝军.pdf_第3页
大学考试试题质量的量化研究_段宝军.pdf_第4页
大学考试试题质量的量化研究_段宝军.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

113 一 前言 考试作为一种考查学生学业成绩的手段 是整个教学工作中的一个重要环节 大学课程考试主要属于学 科测验 在测量学上 学科测验大多是一种标准参照性测验 即用于判断学生是否充分掌握了该门课程或教 学单元的知识内容 是否达到了既定的目标 1 目前的大学教学中 我们较为重视学生通过课程考试得到的分 数 而忽视了对考试试题质量问题的关注 其实 大学课程考试试题存在很多问题 具体表现为 从考试命 题 实施到评价都存在随意性 试卷难易程度搭配不合理 试题涉及的知识面窄 题型单一 对考试结果没 有或者只是做了一些粗略的分析等等 2 因此 对大学考试试题质量进行深入的分析显得尤为必要 考试试题质量是指测验人员所选样本对测试对象属性的测量程度 具体体现为教师编制试题的难易度 信效度以及区分度 目前对大学考试试题质量的研究主要是以教育统计和测量学为基础 通过某一门或一类 课程进行信度 效度 难度 区分度等方面的量化分析 有助于修订和筛选高质量的试题 提高考试质量 避免高分低能和低分高能现象 同时 试卷分数的整体分布对教学质量的提高 教学内容和方法的改革以及 课程设置等方面具有重要的意义 3 5 本研究以随机抽取的河西学院 个系的门课程为研究样本 通过对816 门课程考试成绩的量化分析 为改善学生的学习和教师的教学提供有益的参考 16 二 研究对象与方法 一 研究对象 随机抽取河西学院个系参加门课程考试的学生人次 其中 中文系人816853109 次 占总人数的 数学系人次 占总人数的 教育系人次 占总人数的 物理系12 78 9711 37 728 44 人次 占总人数的 化学系人次 占总人数的 历史系人次 占总人数的10412 19 11012 89 118 生物系人次 占总人数的 政法系人次 占总人数的 在年级分布上 大一13 83 12014 06 12314 42 年级学生人次 占总人数的 大二年级学生人次 占总人数的 大三年级学生人24328 49 22226 02 388 大学考试试题质量的量化研究 段 宝 军1王 映 学 2 赵爱 2 王龙 1 河西学院教育系 河西学院教务处 甘肃张掖 1 2 734000 摘要 考试试题质量是指测验人员所选样本对测试对象属性的测量程度 具体表现为教师编制试题的难易 度 信效度以及区分度 本研究随机抽取河西学院学年第二学期个系的门考试课程为研究样本 2007 2008816 对考试结果进行统计分析 结果表明 期末成绩和总评成绩分布大部分呈正态分布 部分考试成绩分布呈现1 出不对称和尖峰态 期末考试成绩等级上 理科在优秀和良好的比例高于文科在同一等级上的比例 同时 2 理科在不及格上的比例高于文科 总评考试成绩等级上 理科在优秀和良好的比例高于文科在同一等级上的比 例 但是 理科在不及格等级上的比例低于文科 反映出平时成绩对总评成绩的随意性影响 期末试题的难3 度系数高 试题难度较小 并且文理科和难度系数等级之间的卡方检验无显著的统计学意义 期末试题区分4 度偏低 并且文理科和区分度系数等级之间的卡方检验无显著的统计学意义 关键词 试题质量 难度 区分度 卡方检验 中图分类号 文献标识码 文章编号 G642 474 A 16720520201003011307 基金项目 河西学院年度科研创新与应用校长基金项目 甘肃省高校教师教育人才培养模式改革项目 20082008 163 1 GJ200904 收稿日期 2009 10 25 作者简介 段宝军 男 甘肃天祝人 河西学院教育系讲师 研究方向 教学心理学 1981 第卷第期 河西学院学报 2632010 Vol 26 No 32010 114 次 占总人数的 45 49 二 研究资料 以河西学院学年第二学期个系的门考试试题为资料 对门考试课程2007 200881616 的期末和总评成绩进行统计分析 总评成绩中平时成绩 含期中成绩 占 期末成绩占 随机抽取30 70 的个系是 中文系 数学系 教育系 物理系 化学系 历史系 生物系和政法系 分为文科 中文系 8 教育系 历史系 政法系 和理科 数学系 物理系 化学系 生物系 所选取的研究资料具有一定的代表 性 每个系选取门课程 所选取的课程名称用中文 中文 数学 表示 2121 三 研究方法及工具 研究运用对随机抽取的个系SPSS13 0 Statistical Package for the Social Science 8 的们考试课成绩进行统计分析 16 三 量化分析及结果 一 分数整体分布 一般而言 对考试成绩的正态性 集中量数 离散量数的计算是考试质量评价的第一标准 通过统计分 析 河西学院学年第二学期个系的门考试课成绩的各统计指标如表和表所示 2007 200881612 表个系的门课程期末考试成绩统计表1 816 表个系的门课程总评考试成绩统计表2 816 段宝军 王映学 赵爱 王龙 大学考试试题质量的量化研究 课程名称NMinimumMaximumMean StdSkewnessKurtosis 中文 16554 0087 0072 248 37 465 389 中文 24431 0083 0057 8412 38 220 630 数学 14841 0092 0068 4613 24 223 686 数学 24943 0088 0067 4111 25 539 278 教育 13669 0096 0080 256 33 278 162 教育 23660 0083 0072 084 74 090 189 物理 15211 0081 0050 2115 36 046 096 物理 25212 0093 0075 1518 47 2 0564 351 化学 15511 0097 0075 2316 48 1 4423 552 化学 25574 0099 0086 115 22 210 186 历史 15936 0092 0071 8311 23 7741 127 历史 25947 0095 0077 649 92 645 306 生物 16053 0097 0078 4211 18 550 569 生物 26042 0085 0066 359 52 223 284 政法 16340 0085 0064 219 53 262 126 政法 26020 0087 0063 3710 96 9722 838 课程名称NMinimumMaximumMean StdSkewnessKurtosis 中文 16463 5088 0076 936 01 416 388 中文 24433 5084 0064 4212 72 1 133 617 数学 14843 7092 0072 5211 86 454 476 数学 24956 5090 0074 288 26 554 368 教育 13722 5090 0077 7010 48 4 16222 123 教育 23665 0084 0074 223 79 042 435 物理 15244 0084 5067 839 80 406 161 物理 25210 0092 5071 9516 29 2 0104 770 化学 15628 0093 5074 7314 18 1 0891 616 化学 25572 0094 5081 804 39 310 595 历史 15950 0090 0075 728 17 704 862 历史 25956 0092 5079 327 84 717 240 生物 16056 1596 1579 069 88 641 459 生物 26056 5086 5073 037 01 278 351 政法 16345 0083 0065 677 95 179 018 政法 26322 0084 5065 0012 45 1 8644 380 115 要对考试成绩的整体分布进行分析 偏度和峰度是两个反映分数分布正态性的指标 在统计软件中SPSS 把偏度指数 s 3在 到之间时的分布看作是对称分布 当峰度指数 1 0 1 0s 4 时 认为数据呈常峰态 当峰度 0 指数 s 4 时 认为数据呈低峰态 当峰度指数0s 4 时 认为数据呈尖峰态 0 6 此外 集中量数和离散量数 也是重要的指标 通过对考试成绩的统计分析 由表可以看出 个系的门课程期末考试成绩中 有两1816 门课 物理期末和化学期末 分数分布不对称 偏度指数分别是21s物理期末2 3 2 056s化学期末1 3 峰度 1 442 指数大于的课程分别是1s物理期末2 4 4 351s化学期末1 4 3 552s政法期末2 4 呈现出尖峰态 说明分数过于集中 2 838 于平均数两侧 有部分课程考试平均数在分以下 大部分课程考试成绩在分以上 由表可以看出 606028 个系的门课程总评考试成绩中 有五门课 中文总评 教育总评 物理总评 化学总评和政法总评162121 分数分布不对称 偏度指数分别是2s中文总评2 3 1 133s教育总评1 3 4 162s物理总评2 3 2 010s化学总评1 3 1 089s政法总 评2 3 峰度指数大于的课程分别是 1 8641s教育总评1 4 22 12s物理总评2 4 4 77s化学总评1 4 1 62s政法总评2 4 呈现 4 38 出尖峰态 说明分数过于集中于平均数两侧 总评考试成绩的平均分数都在分以上 以上数据说明个系608 的门考试课大部分成绩呈正态分布 部分成绩分布不对称 如图至图所示 1617 图物理期末图化学期末 1 2 2 1 图中文总评图教育总评3 2 4 1 图物理总评图化学总评5 2 6 1 河西学院学报年第期 20103 116 图政法总评7 2 二 分数分组 每个考生在考试结束后都会得到一个相应的考试成绩 所以 由单个成绩组织起来的分数显得非常庞 杂 对这些单个的考试成绩进行分析比较 既不能反映考试的质量问题 也不能说明考试的整体状况 如果 对这些庞杂的考试成绩按照等级高低进行分组 对组织和统计分析庞杂的考试成绩有更重要的意义 通过对河西学院学年第二学期个系的门考试课程成绩进行分组 按照优秀 良2007 200881690 100 好 中等 及格 不及格 分以下 分为五个等级 以文理科和考试成绩80 89 570 79 560 69 560 等级二个类型变量对考试成绩所作的交互分析 结果如表和表所示 34 表文理科学生在期末考试成绩不同等级上的交互分析表3 对于文理科学生在期末成绩上的交互分析表 且最小期望频数为 因此 N 8534026 225 2 41 59 列联系数为 其值严格大于小于 如果列联表的值接近于或df 4p 00 050 26p 00 05010 分别表示行列变量之间无关联或高度关联 1 7 故可认为 文理科在不同分数等级上有显著的统计学意义 行列变量有显著的相关 由表可知 与文科考试成绩等级相比较 理科在优秀和良好上的比例较高 分别3 是和 显著高于文科在同一等级上的比例 同时 理科在不及格上的比例高于文科 分别是10 0 25 8 段宝军 王映学 赵爱 王龙 大学考试试题质量的量化研究 等级 文科 理科 总计 优 秀 Count104353 等级 within 18 9 81 1 100 0 文理 within 2 4 10 0 6 2 良 好 Count73111184 等级 within 39 7 60 3 100 0 文理 within 17 3 25 8 21 6 中 等 Count155107262 等级 within 59 2 40 8 100 0 文理 within 36 7 24 8 30 7 及 格 Count10680186 等级 within 57 0 43 0 100 0 文理 within 25 1 18 6 21 8 不及格 Count7890168 等级 within 46 4 53 6 100 0 文理 within 18 5 20 9 19 7 总计 Count422431853 等级 within 49 5 50 5 100 0 文理 within 100 0 100 0 100 0 117 和 文科在中等等级上表现出高的比例 而理科则在良好等级上表现出最高的比例20 9 18 5 36 7 这说明理科学生考试成绩离散程度较文科大 而文科学生考试成绩相对集中 25 8 表文理科学生在总评考试成绩不同等级上的交互分析表4 对于文理科学生在总评成绩上的交互分析表 且最小期望频数为 因此 N 8574013 395 2 26 59 列联系数为 故可认为 文理科在不同分数等级上有显著的统计学意df 4p 00 050 17p 00 05 义 行列之间有显著的相关 由表可知 与文科相比 理科总评成绩在优秀和良好上的比例 分别是45 3 和 高于文科在相应等级上的比例 文理科在中等等级上的比例都最高 分别是和 但31 7 44 0 35 0 是 文科在不及格等级上的比例高于理科 这与表的结果恰恰相反 3 由于表和表反映的是文理科学生在相同课程上的期末成绩和总评成绩的等级差异 表中表现出来344 的趋势反映了平时成绩对总评成绩的影响 这也在一定程度上说明了平时成绩对总评成绩的随意性影响 三 试题难度 难度指试题编制的难易程度 是衡量试题及整个试卷质量的重要指标 通过统计分析 本研究样本中涉 及的门课程期末考试试题的难度如表所示 165 表门考试课程期末考试试题难度系数表5 16 河西学院学报年第期 20103 等级 文科 理科 总计 优 秀 Count42327 等级 within 14 8 85 2 100 0 文理 within 0 9 5 3 3 2 良 好 Count94137231 等级 within 40 7 59 3 100 0 文理 within 22 1 31 7 27 0 中 等 Count187151338 等级 within 55 3 44 7 100 0 文理 within 44 0 35 0 39 4 及 格 Count10690196 等级 within 54 1 45 9 100 0 文理 within 24 9 20 8 22 9 不及格 Count343165 等级 within 52 3 47 7 100 0 文理 within 8 0 7 2 7 2 总计 Count425432857 等级 within 49 6 50 4 100 0 文理 within 100 0 100 0 100 0 课程名称NMeanP课程名称NMeanP 中文 16572 240 72化学 15575 230 75 中文 24457 840 58化学 25586 110 86 数学 14868 460 68历史 15971 830 72 数学 24967 410 67历史 25977 640 78 教育 13680 250 80生物 16078 420 78 教育 23672 080 72生物 26066 350 66 物理 15250 210 50政法 16364 210 64 物理 25275 150 75政法 26063 370 63 118 由表可知 门考试课程难度系数均在以上 且大部分在以上 为了更进一步了解有关考试试5160 50 7 题难度的信息 在参照已有研究文献的基础上 我们把门考试课程的难度系数分为三个等级 难度系数16 大于为容易 难度系数在为中等 难度系数小于为困难 0 70 3 0 70 3 3 再以文理科和难度系数等级为变 量进行卡方检验 结果表明最小期望值为 所以N 16 3 50 2 列联系数为 00df 1p 1 00 050 125p 故可认为 文理科与难度系数等级无显著的统计学意义 行列之间的相关不显著 由此可见 614 058 个系的门考试课程试卷难度偏易 且文理科与难度系数等级之间无显著的统计学意义 16 四 试题区分度 区分度是指测验项目对被试心理品质水平差异的区分能力 8 区分度是衡量命题质量的又一重要指标 具 有较好区分度的考试命题对不同水平的被试具有很好的辨别力 即让高水平的被试得高分 低水平的被试得 低分 区分度越高 试题越有效 有关区分度的计算有多种 选择不同的计算方法所得到的区分度不尽相 同 本研究采用测验的鉴别指数来计算试卷的区分度 结果如表所示 6 表门考试课程期末考试试题区分度系数表6 16 美国测量学家 根据长期经验提出用鉴别指数评价题目性能的标准 鉴别指数 RL Ebel1965D 区分度很好 区分度良好 修改会更好 区分度尚可 仍需修改 区0 4D 0 30 0 39D 0 20 0 29D0 19 分度差 必须淘汰 依据这一标准 结合表可知 个系的门课程的区分度都在以下 其中有门68160 405 课程试题区分度达到良好 门课程试题区分度尚可 仍有门课程试题区分度差 这说明随机抽取的这些课83 程试题区分度都不高 也反映了考试试题有效性的问题 依据 的划分标准 以文理科和区分度Ebel1965 等级为变量的卡方检验表明最小期望值为 所以N 16 1 50 2 列联系数为 2 633df 2p 2 68 05 故可认为 文理科与区分度系数等级无显著的统计学意义 行列之间的相关不显著 0 37p 27 05 四 讨论 在教学过程中 学生考试成绩仅仅是对其所学知识的掌握程度和能力变化的量化测定 考试是否有效 是否相对准确地反映了学生的学业成就 对考试成绩进行客观 科学 精确的量化统计分析就能够直观地反 映出来 对考试试题的量化分析和评价主要从两个方面进行 一是对试题进行分析 称为 项目分析 二是对 整个试卷或考试进行分析和评价 称为 整体分析 9 本研究以河西学院 学年第二学期个系的2007 2008816 门考试课程期末考试成绩和总评成绩为量化分析的研究样本 故论文侧重对考试试题质量的 整体分析 从考试成绩的正态性而言 偏态系数和峰态系数是两个重要的指标 偏态系数是反映变量分布非对称程 度的统计量 峰态系数是反映变量分布在中心点聚焦程度的统计量 10 研究结果表明 个系的门考试课816 程中 期末考试成绩有门课成绩分布不对称 总评考试成绩有门课成绩分布不对称 呈现出尖峰态 其25 余考试课程成绩符合正态分布 难度和区分度是衡量试题质量的重要指标 量化分析结果反映 个系的门课程期末试题难度系数较816 高 难度较低 并且文理科与难度系数等级之间无显著的统计学意义 试卷的区分度偏低 且文D0 4 理科与区分度等级间的卡方检验无显著的统计学意义 难度和区分度直接影响了考试成绩的分布和离散程度 以及试题的有效性 二者之间的关系密切 一般而言 当难度系数达到时试题区分度最大 但在具体的命0 5 题过程中还需要考虑试题之间相关性的问题 信度和效度是衡量试题质量的另外两个重要指标 测验信度也即可靠性 主要是指两次测验结果的稳定 性 一致性程度 效度 也即有效性 主要是指一个测验测到所要测量的内容的程度 本研究主要以随机抽 段宝军 王映学 赵爱 王龙 大学考试试题质量的量化研究 课程名称NMeanD课程名称NMeanD 中文 16572 240 20化学 15575 230 36 中文 24457 840 30化学 25586 110 13 数学 14868 460 33历史 15971 830 26 数学 24967 410 27历史 25977 640 24 教育 13680 250 15生物 16078 420 28 教育 23672 080 11生物 26066 350 24 物理 15250 210 37政法 16364 210 23 物理 25275 150 38政法 26063 370 25 119 取的个系的门考试课程的期末成绩和总评成绩为依据做分析 无法对考试试题做精准的统计分析 这对816 考试试题质量的量化研究是一个缺憾 也是我们今后的研究所补全的一个方向 此外 本研究在进行卡方检 验的过程中 只考虑了文理分科与分数分组等级 难度系数等级 区分度等级间的差异性 其实 对于考试 成绩的量化分析和比较 文理科只是其中一个要考虑的变量 其他诸如性别 年级 系别等一些重要的变量 都是与本研究相关的变量 而这些具有重要意义的变量的分析是我们后续研究应予关注的方面 五 结论 一 考试成绩的整体分布而言 考试课程期末成绩和总评成绩分数分布大部分符合正态分布 部分考 试成绩分布呈现出不对称和尖峰态 二 期末考试成绩等级上 理科在优秀和良好的比例高于文科在同一等级上的比例 同时 理科在不 及格上的比例高于文科 总评考试成绩等级上 理科在优秀和良好的比例仍高于文科在同一等级上的比例 但是 理科在不及格上的比例反低于文科 反映出平时成绩对总评成绩的随意性影响 三 考试课程期末试卷的难度系数均在以上 试卷难度系数高 难度较小 并且文理科和难度系数0 5 等级之间的卡方检验无显著的统计学意义 试卷的难度大小直接影响了考试分数的分布和离散程度 四 考试课程期末试卷的区分度均在以下 试卷区分度偏低 并且文理科和区分度系数等级之间的0 4 卡方检验无显著的统计学意义 试卷的区分度大小直接反映了试卷的有效性 参考文献 曹中平 考试分析与教学反思 以一门课程为例 大学教育科学 1 J 20042 汪艳丽 高校课程考试质量的分析与评价 北京联合大学学报 2 J 2003174 凌云 考试质量评价统计分析模式的研究 教育研究与实验 3 J 20006 司峻峰 高校课程考试质量评价统计分析模式研究 4 以 心理统计学 课程考试质量评价为例 高师理论学刊 J 2007272 安萍莉 等 大学考试试题质量研究 高等农业教育 5 J 20062 雷新勇 著 考试数据的统计分析和解释 上海 华东师范大学出版社 6 M 2007 郝黎仁 等 编著 实用统计分析 北京 中国水利水电出版社 7 SPSS M 2003 戴海崎 张锋 陈雪枫 主编 心理与教育测量 广州 暨南大学出版社 8 M 2004 李莉 何桂花 杨晓萍 试卷定量分析系统 长春邮电学院学报 9 J 1997152 莫雷 温忠麟 陈彩琦 心理学研究方法 广州 广东高等教育出版社 10 M 2007 河西学院学报年第期 20103 责任编辑 马红霞 Quantitative Research on the Quality of College Test Paper Duan Bao jun 1 Wang Ying xue2 Zhao Ai2 Wang Long1 1 Department of Education Hexi University 2 Office

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论