




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章地理测试命题质量分析 地理测试命题工作是地理教学过程中一个不可缺少的环节 而做好地理测试命题质量分析工作 对正确认识 评价地理测试结果 为以后的命题工作提供必要的经验 教训等同样也具有重要的意义 第一节试题质量的初步评价 评价试题质量的一条重要途径是对学生考试之后所得的原始卷面分数进行必要的处理 分析 转化为一种比较直观的形式 以对试题质量作出一个初步的判断 下面就地理测试命题质量分析实践中比较常用的几种方法结合实例作详细的介绍 一 测验分数的分布状态 描述测验分数的分布状态通常用频数直方图或频数多边图来表示 所谓频数 是指在某分数段中出现测验分数的次数 通过对测验分数分布状态的描述 可以从一个侧面反映出试题的质量水平 其具体方法与步骤分别如下 1 用频数直方图描述测验分数的分布状态第一步求全距 全距是指要处理的所有测验分数中最高分与最低分的差 一般用R来表示 即R 最高分数一最低分数全距主要是反映全部测验分数的分布范围 而不能提供这些分数的数据变异情况 第二步定组数 组数一般根据全距R和测验分数的个数n来确定的 用I表示 R值越大 测验分数的个数n越多 组数就会越多 一般用如下公式进行计算组数 第三步定组距 组距即为全距R与组数I相除后取整 用ZR表示 ZR R I 第四步确定组限 根据组距和全距确定每组的上限和下限 通常约定每组只含下限 不含上限 即每组都是左闭右开区间 在实际计算中要取分点值比原分数的有效数字多一位的组实限 以避免分点值刚好是某个分数的值 第五步求组中值 即求每组的中点值 用M表示 其方法为 M 组实际下限 0 5ZR第六步列频数分布表 统计落在每个组中的测验分数的个数 即每个组的频数 将其填入频数分布表的相应位置 第七步根据频数分布表绘制频数直方图 其方法是 在一个直角坐标系中 以横坐标表示测验分数 从左到右标出各组分数的组中值 用纵坐标表示频数 从上到下等距地标出频数数值 分别以各组的组距为底边 以组中值作为底边的中点 频数为高 对每组作矩形 由这一系列矩形组成的图即为频数直方图 2 用频数多边图描述测验分数的分布状态编制频数多边图与频数直方图在前六步是完全相同的 只是在第七步进行的具体绘制方法上有些区别 绘制频数多边图时 要以各组的组中值为横坐标 以各组的频数为纵坐标对每组分别进行描点 然后把相邻两点用直线相连即可 图形左右两侧应引至外侧一组的中点 并与基线相接 下面以实例说明这两种方法的具体操作过程 例 某班级的45名学生进行一次地理测验 测验的原始卷面分数如表4 1 要求分别用频数直方图和频数多边图对其进行处理 以对测验命题质量作一个初步的鉴定 具体方法和步骤如下 第一步求全距R R 最高分数一最低分数 95 54 41第二步定组数 n 45I 8 5对I取整 组数I 9第三步定组距 ZR R I 41 9 4 6对ZR取整 组距ZR 5 第四步确定组限 根据约定 每一组都是左闭右开区间 因此 第一组的下限为54 上限为不满58 第一组要想包括58 则实际组限为53 5 58 5 第二组的下限为59 上限为不满63 实限组限为58 5 63 5 其他各组依类推 结果见表4 2中的第一栏 组别 和第二栏 起止点 所示 第五步求组中值 M 组实际下限 0 5ZR第一组的组中值为53 5 5 2 56第二组的组中值为58 5 5 2 61第三组的组中值为63 5 5 2 66第四组的组中值为68 5 5 2 71第五组的组中值为73 54 5 2 76第六组的组中值为78 5 5 2 81第七组的组中值为83 5 5 2 86第八组的组中值为88 5 5 2 91第九组的组中值为93 5 5 2 96 第六步列频数分布表 根据表4一l的测试分数表 对照每组的组限计算出每组段所包含的分数个数 并填入表4 2中的第三 四栏 表4 2即为频数分布表 第七步根据频数分布表绘制频数直方图和频数多边图 如图4 1和图4 2所示 3 测验分数分布状态的分析原始测验分数用图表进行处理之后 可以得到多种分布曲线 经常会出现的曲线形态见图4 3所示的几种情况 这些分布曲线比较直观地 形象地反映了测验分数的集中趋势与离散程度 通过分析 可以对试题质量进行一个初步的分析 下面分别对各曲线所反映的试题质量情况作初步解释 曲线 a 表示测验分数频数呈正态分布 表明在高分段和低分段的人数明显少于中间分数段的人数 说明试题设计比较合理 试题难度 区分度分布正常 曲线 b 呈正偏态分布 低分段出现的人数明显偏多 说明难度偏高的题目多 试题难度过高 曲线 c 呈负偏态分布 高分段出现的人数偏多 说明难度偏低的题较多 试题难度偏低 曲线 d 呈高峰形的正态分布 中间段分数出现的人数特别集中 学生之间的差距没有拉开 说明中等难度的题目比例过高 试题区分度较差 曲线 e 呈平峰形的正态分布 各分数段出现人数的差异较小 说明试题中不同难度题目的比例比较接近 曲线 f 呈双峰形分布 高分段和低分段出现的人数多 而中间分数段的人数偏少 说明难度过高和过低的题目偏多 而中等难度的题目偏少 试题难度梯度大 从图4 1和图4 2所示的例子来看 学生测验分数的频数直方图和频数多边图来看 基本上呈一种负偏态分布状态 如果不考虑其他因素对学生测验分数的影响 这次测验试题的总体难度是偏低的 中等程度的学生和程度较高的学生没有拉开距离 当然 以上的这种分析只是一个初步的判断 是以不考虑影响学生测验分数的其他因素为前提 而在实际测验过程中 影响学生测验分数高低的因素是多方面的 并不是完全由命题质量所能决定的 如出现平峰形的分布曲线时 可能并不是由于易 中 难三类题目的比例比较接近 而是因为参加测验的学生相互之间的水平差异明显 因此 在实践过程中 要根据具体情况 参照其他参数对试题质量作出具体的分析和解释 二 平均分平均分是地理测验统计中最为常用 方便的指标之一 它是一组测验分数的 代表值 能在一定程度上反应测验分数的集中趋势 也可以用来对不同组测验分数之间进行比较 依据平均分的高低可以对试题的总体难度作出一个初步的评判 如果平均得分比较高 试题的整体难度可能偏低 若平均得分比较低 则试题的整体难度可能偏高 在实际计算过程中 根据具体情况可以采用算术平均分和加权平均分 1 算术平均分算术平均分就是一组测验分数的总和与分数个数相除所得的商 如果用表示算术平均数 n表示测验分数个数 表示第i个测验分数 那么算术平均分可用下面的公式来表示 例 对表4一l所示的地理测验分数求算术平均分 根据上述计算公式 可得 1 45 73 71 87 88 67 74 73 86 81 80 77 7分即在这次地理测验中45名学生的平均分为77 7分 2 加权平均分在同一次地理测验中 如果已经知道各个被试组测验分数的算术平均分 要求计算所有考生的平均分时 则需要用加权平均分来计算 其计算公式如下 式中的表示加权平均分 n表示被试组个数 代表第i个被试组测验分数的算术平均分 为对应于的权重系数 简称权 例 某学校对高一年级6个平行班进行了一次地理测验 6个班级的学生数和算术平均分如表4 3所示 求高一年级全体学生的平均分 三 标准差在分析试题质量时 不仅要知道平均分 以了解测验分数的集中趋势 而且还需要对测验分数的离散程度进行描述 因为 当一组测验分数的离散程度比较大时 则对应的平均分的代表性就比较小 反之则比较大 用来表示测验分数离散程度的特征量数很多 如全距 平均差 四分差 方差 标准差等等 其中比较常用的是标准差 下面就标准差的计算方法结合实例作简要说明 例如 表4 4是两组学生在同一次地理测验中所得的分数 要分别计算它们的标准差 即第一组的标准差为21 39 第二组的标准差为2 40 由此可见 尽管第一组与第二组的平均分近似相等 但第一组测验分数的离散程度要比第二组的离散程度要大的多 也就是说用平均分来反应测验分数的集中趋势时 第二组更具有代表性 第二节试题的信度 一 相关系数在地理教育测量中 经常需要考虑某两个变量之间的关系或联系程度 这种关系或联系程度称为相关 如果一个变量增大 或减小 时 另一变量也会增大 或减小 则称这两个变量为正相关 反之 如果一个变量增大 或减小 时 另一个变量会减小 或增大 则称为负相关 如果两个变量之间不存在相互影响的关系 则称为不相关 当两个变量为相关时 并且每一对变量所确定的点在直角坐标系中都分布在某一条直线上 直线的附近或直线的两侧 那么就称这两变量间存在线性相关 描述这两个变量之间相关程度的量就是相关量数 叫做相关系数 相关系数是表明两个变量间相关程度的一个指标 取值介于 1 00 1 00之间 包括一1 00和1 00在内 相关系数的绝对值越大 说明变量之间的相关程度越高 当两个变量呈线性相关 并且都是正态连续时 可以用积差相关系数来表示两个变量间的相关系数 其具体计算公式如下 式中的代表两个变量之间的相关系数 x y分别表示两个变量在变化过程中所取的一系列值 n表示每个变量取值的个数 例 在其他条件都相同的情况下 一次以主观性试题为主的地理测验和一次以客观性试题为主的地理测验中 抽取某班的9位学生的成绩如表4 5所示 试分析这两种不同题型为主的地理测验成绩之间的相关关系 即可求得相关系数 最后求得相关系数 0 94 这说明学生在以主观性试题为主的地理测验题和以客观性试题为主地理测验题的考试中所取得的成绩是呈高度正相关 在不考虑其他因素影响的前提下 表明主观性试题和客观性试题这两种题型都能比较好地考查学生对有关地理知识掌握的情况 二 信度的概念 信度也称 可靠性 或 测验分数的稳定性 是指测量的一致性程度 表现在同一个测验在不同时间上所得结果的一致性 对信度的估计或计算 通常用相关分析的方法 即计算两种变量间的相关系数 以相关系数作为数据指标来衡量测验的一致性程度 也称为信度系数 信度系数的取值范围在0与1之间 其值越大 说明测验的可信程度越高 试题的 可靠性 也就越好 因此 试题的信度 可以看作是试题的 可靠性 即它在多大程度上能准确地反映学生学习的真实水平 试题的信度是无法直接进行测量的 但是可以通过考试的信度系数的估算来间接反映 一般来说 考试的信度系数越高 说明试题的 可靠性 越好 反之 试题的 可靠性 则较差 因为试题的质量会直接影响到考试的信度系数的大小 这种影响主要体现在以下几方面 一是题目的数量 如果题目很少 则测验所得分数越容易受试题取样偶然因素的影响 测验的信度就会降低 反之 则会提高测验的信度 二是题目的难度 题目的难度会影响到测验分数的分布范围 从而影响测验结果的信度 如 题目难度过大 考生大部分得低分 测验分数频数分布曲线形成正偏态分布 导致分数间的差异较小 三是题目的区分度 因为只有当题目有较好的区分度时 才能使实际水平较高的学生在测验中获得高分 实际水平较低的学生得低分 这样才能保证测验结果的 稳定性 和 可靠性 三 几种常用信度的意义及计算方法 根据不同的测验目的 信度可以分为两大类 即常模参照测验的信度和目标参照测验的信度 下面就这两大类信度的意义及一些常用的计算方法作简要的介绍 1 常模参照测验的信度常模参照测验的主要目的是确定学生个体在群体中的相对位置 测验结果的一致性程度可以用每一个学生个体在群体中的相对位置的变动情况或用个体的测验分数的可能分布范围来表示 前者用信度系数 相关系数 来表示 后者用 测量标准误 来表示 它们均以测验分数的变异性为前提 一般只用于常模参照测验的信度测量 下面只对用信度系数的估算方法进行介绍 信度系数的估算方法很多 其中在中小学地理教育测量与评价中比较常用的主要有以下三种方法 1 重测法 重测法是指用同一份试题在不同的时间对同一学生群体进行两次测验 以这两次测验分数之间的相关系数作为信度系数的一种方法 用重测法求得信度系数又叫重测信度或稳定性系数 它反映的是两次测验分数之间的一致性程度 如果两次测验分数的相关性越好 说明测验的信度就越高 表明试题的稳定性好 在用重测法估算信度系数时 要特别注意两次测验时间间隔的长短 合适的时间间隔是提高估算信度准确性的一个重要因素 时间过短 容易产生练习效应 时间过长 由于被试知识背景等的变化 会影响第二次测验分数 根据测验目的和性质的不同 其时间间隔可以是几天 几个月 甚至几年 在非标准化测验中很少采用这种方法来估算试题的稳定系数 而在标准化测验中 采用重测法来获得试题的稳定性系数不仅是可能的 而且稳定性系数还是衡量试题质量的一个重要指标 例 假设某地理教师对某班级的45位学生进行一次标准化地理测验 为评价该次测验结果的稳定性 过了10周后 又用同一份试题对该班全体学生进行第二次测验 两次测验的分数如表4 6所示 试估算这次测验的信度系数 为计算的简便 这里仅取9位考生的分数 2 复本法 用复本法估算信度系数时 首先要编制一份在题目内容 形式 难度 区分度 评分方法 题量 分值 测验时间等方面都与原测验试题基本相同或相近的复本 然后分别对同一学生群体进行测验 用考生在两次测验中所取得的分数之间的积差相关系数作为信度系数 用复本法求得的相关系数所表示的信度 叫做复本信度 它所反映的是用两份等值测验试题对同一学生群体两次测验结果的等值性程度 如果考生对两份测验试题都能比较顺利答对 则说明两次测验有良好的等值性 可初步认为测验试题具有较好的信度 因此 复本信度系数也叫等值性系数 产生复本信度误差的来源有 如果两次测验时间间隔过长 第二次测验分数易受被试在此期间的学习 练习等的影响 如果两次测验连续进行 则容易使被试感到疲劳 测验时注意力分散 而影响测验分数 不过 复本法因使用的是两次不同的测验 可以进行连续测验 从而尽量避免由于时间间隔过长而引起被试特质的成长或变化 而且被试的练习效应明显低于重测法 可见 复本法略优于重测法 例 某地理教师编制了A卷和B卷两份等值试卷 为了解测验结果的信度 对某班的45位学生先后用A卷和B卷施测 两次测验的分数如表4 7所示 试估算复本信度 为计算的简便 这里仅取9位被试的分数 自己用excel生成公式算出相关系数 求得 0 97 即复本信度系数为0 97 考生在两次测验中所得分数呈高度正相关 说明两份测验试卷间有较好的等值性 可认为测验试卷的可靠性良好 3 折半法 折半法的一般作法是 将整份测试卷的全部题目分成对等的两半 然后依据考生群体中每位考生在两半部分题目上的得分 计算积差相关系数 最后用相应的校正公式对积差相关系数加以校正 以求得测验或测验试卷的整体信度系数 其核心在于如何将测验试卷进行分半 比较常用的有三种方法 一是完全随机分半 二是奇偶题目分半 即奇数题组成一个部分 偶数题则为奇数题的复本 三是测验试卷分成若干个内容块 再将各内容块的题目奇偶分半 所有奇数题和所有偶数题各组成一个分测验 用折半法求得的测验或测验试卷的整体信度 叫折半信度 其信度系数叫折半信度系数 折半信度主要反映的是测验或测验试卷内部所有题目之间的一致性或同质性程度 折半信度的误差主要来自测验中的分半过程 不同的分半方法所得的分半信度是会有差异的 不过 它可以避免重测法和复本法的误差源 而且方便易行 具有良好的可行性 是一种实际教学中最为常用的一种信度估算方法 在对考生群体在两半部分题目上的得分的积差信度系数进行校正 以得到测验或测验试卷的整体信度系数时 要根据不同的情况采用不同的校正方法 可见两个方差相差非常接近 所以可用斯皮尔曼 布朗公式校正 第三步校正 即这次测试卷的整体信度系数为0 98 2 目标参照测验的信度 目标参照测验的目的不在于区分考生相互间的差异性 而是检查考生是否已经达到既定的教学目标 因此不能用相关系数作为衡量信度的标志 而需要用另外的方法来测量它的信度 比较常用的方法主要有以下两种 1 分阶段比较法分阶段比较法是对考生在前后两个阶段的目标参照测验结果进行对照 以后一阶段的测验结果来检验前一阶段测验的信度 通过分析可以了解测验内容与实际教学中要求掌握的内容之间的一致性程度 来测量试题内容的质量 如果信度高 说明试题内容反映了教学要求 试题质量较高 否则 试题质量就不高 其具体步骤是 第一步 对考生进行第一次测验 前期目标预测测验 即对考生进行一次较低水平的目标参照测验 确定一个决断分数 从测验中找出高出决断分数的考生 并认为这些考生已具备进入下一阶段学习所需要的条件 第二步 让这一部分考生进入下一阶段的学习或训练 在完成学习或训练之后 对考生进行第二次测验 后期目标检测测验 第三步 分析结果 因为这部分考生在第一次测验之后被认为已经具备进入下一阶段学习的条件 因此在第二次测验中能达到目标的可能性应该比较大 可见 如果在第一次测验中达到目标的大部分考生在第二次测验中也能达到所规定的目标 则可认为上一次测验的信度是高的 如果在第一次测验中达到目标的许多考生在第二次测验中得分很低 没有达到所规定的目标 则可认为第一次测验的信度不高 2 复本法 复本法的具体做法是 用两份等值测验试卷对同一考生群体进行两次测验 事先确定一个决断分数 如果考生的测验分数低于决断分数 则认为不合格 然后统计出两次测验中均合格 两次测验都合格 人数 a 和均不合格人数 b 用两者的总数与参加测验总人数 n 的百分比来判断测验的信度 即用两次测验合格与不合格的一致性百分比作为测验的信度 r 其计算公式如下 第三节试题的效度 试题的信度主要反映的是试题的 可靠性 可以通过考生在测验中所得分数的稳定程度来反映 它是评估试题质量的一个重要指标 但即使在试题 可靠性 很好的情况下 也不能完全断定这是一份高质量的试题 比方说用一支温度计对同一物体进行连续的多次测量 尽管每次测量的结果都高度一致 也就是说测量的信度是很高的 但是 如果温度计本身的刻度不准确 测量的结果还是无效的 因此 要评估一份试题质量的好坏 还要把握另一个重要指标 试题的效度 一 效度的概念 效度也称 测验的有效性 是指某次测验所能提供的对某一特质所做预测的理想程度 也就是测验在多大程度上测试了所要测的东西 它代表的是测验的准确性 对地理测验来说 则表示所测验的内容能否反映学生在掌握地理方面的一些特质 如测验内容是否充分反映所要测量地理教学内容的教学目的和要求 能否预测所要测量的某种地理技能在将来某一时期的发展情况等等 如果不能很好做出反映 测验自然就是无效的 例如 在测试学生对地球运动这节内容的掌握程度时 如果测验试题选取的是一些有关地壳变动方面的内容 则自然不能达到预期想要知道的结果 这种测验显然是无效的 根据不同用途 效度通常可以分为内容效度 效标关联效度和构想效度 下面就这三种效度的意义和估算方法做简单介绍 二 几种常用的效度及估计方法 1 内容效度内容效度是指测验内容反映出考生掌握相关的教学内容和实现预期能力提高的程度 即测验的内容能否反映所要测试的目的和要求 例如在测验考生掌握 时差 这一概念程度时 用 北京位于东八区 东京位于东九区 当北京是2010年11月21日晚上12点整时 东京是2010年 月 日 点 这一题目来测试 显然要比 中国的首都是 日本的首都是 这种测验试题更具有内容代表性 即内容效度更高 教学内容和教学目标是内容效度的两个重要因素 在一次测验中是否具有理想的内容效度 其关键自然也就在于测验试题的取样是否合适 而不在于测验的形式 因此 为了提高测验的内容效度 在命题时 应依据地理课程标准规定要求掌握的各部分地理课程内容 以及应提高的各种地理技能 地理能力等等的相对重要性 确定它们在测验试题中应该占有的比重 并根据这个比重来命题 评估内容效度时 主要是通过比较地理测验内容与地理课程标准要求的一致性程度来衡量的 不过目前还没有一种很好的方法来统计这种一致性程度的大小 现在采用的比较多的是先编制一份双向细目表 然后将测验内容对照双向细目表进行逻辑分析和比较的方法 其具体做法是 首先 根据想要测验的教学内容范围编制一份双向细目表 它包括教学内容和教学目标两大维度 各维度又分为若干个小项 列出每一项的相对比例 然后 分析测验试卷的每一个题目 确定它们所涉及的相关地理知识和技能 列出涉及同一教学内容和教学目标的题目 并统计它们的分值及在整份测验试卷中所占比例 最后 把测验试卷的内容结构与相应的双向细目表进行比较分析 计算测验内容对双向细目表范围的覆盖率 从而获取衡量内容效度的指标 不过 这种方法只能从表面上了解地理测验内容与地理课程标准要求的一致性程度 而无法真正测出双向细目表所列的内容 比如 有这样一道填充题 我国冬季气温 差别很大 出题的本意是想测试学生对我国冬季气温地区差异的掌握情况 应该填 南北 由于题意表述不明确 虽然学生可能知道我国冬季气温的地区差异性 但学生也可能会填 早晨和中午 结果无法达到预期的测试目的 2 效标关联效度 效标关联效度 指某测验对考生目前或将来的某种能力 行为进行测试 预测的有效性 比如 用一次地理测验来衡量学生参加地理兴趣小组所需的相关地理能力 以组建地理兴趣小组 如果地理测验对学生能力的预测性很差 即效标关联效度很低 则选进来的学生可能就是一些并不符合参加地理兴趣小组要求的学生 而那些真正符合要求的学生反而没有入选 在这里 学生的地理能力既是被预测的内容也是检验测验效度的标准 简称效标 它常用另外一种测验结果来表示 如果测验分数和作为效标的分数获得的时间间隔很短 则称为同时效度 若获得时间间隔比较长 则称为预测效度 效标关联效度也就是反映测验分数与效标相关程度的高低 估算效标关联效度的方法有多种 如相关法 团体区分的统计检验法 预测表等 其中比较常用的是相关法 下面只对相关法的估算方法作简单介绍 相关法 是指用统计方法求出被测测验与效标测验两者所得分数之间的相关系数 作为衡量效标关联效度高低的指标 如果用x y分别表示被测测验和效标测验所得分数 分别表示被测测验和效标测验所得分数的平均分 r表示两者间的相关系数 则计算公式如下 r的取值范围为 1 r 1 如果r 0 说明两者是正相关 取值越大 表明效度越高 如果 r 0 说明两者是负相关 如果r 0 说明两者不相关 效度为零 相关系数的计算方法还有以下两种 用标准分数Z用ZX Zy分别表示被测验和校标测验所得分数的标准分数 学生数用n表示 则 利用原始分数 3 构想效度构想效度是指测验对于被称作构想的某理论概念或特质测量的程度 一般认为构想效度包括内容效度和效标关联效度 而不是一种独立的效度 所谓 构想的某理论或特质 是指人的行为过程中表现出来的某些抽象的属性或心理特质 如学习地理的兴趣 学习地理的动机 实践操作能力 地理思维能力等 这些抽象的属性或心理特质都会与某种外在可观察的行为有着直接或间接的联系 因此 可用后者对前者进行测量 而测量的有效程度便以构想效度来表示 如果一个测验具有良好的构想效度 而某考生在此测验中取得了较高的成绩 则说明该考生在所测的特质上有较高的水平 如果测验的构想效度很低 则说明测出的特质并不是想要测的特质 表明测验分数高的考生在想要测的特质上并不一定有较高的水平 估算构想效度的方法主要有因素分析法 多元特质 多重方法矩阵研究 实验操作法 由于这些方法的操作和计算过程都比较复杂 且在教学实践中用得比较少 这里就不再详细介绍了 第四节项目质量评价 项目 通常称为题目 是组成试题的基本单元 根据不同测验的要求可以选择不同的表现形式 如选择题 填空题 简答题等 项目质量的好坏将会直接影响到试题质量的高低 因此 在进行试题质量评估时 除了用试题的信度 试题的效度等指标对试题进行总体评价之外 还应对组成试题的各个项目进行分析评估 以对试题的评估更加全面 在评价实践中 项目的难度和项目的区分度常作为项目质量分析的两个重要技术指标 一 项目的难度分析项目的难度是指项目的难易程度 它可以用平均得分率 或通过率 难度系数 极端平均得分率 难度指数等技术指标来衡量 1 平均得分率p在一次地理测验中 对于难度大的项目 能答对的学生比较少 在这一项目上学生群体的平均得分也会比较低 而当难度较小的项目 能通过的学生自然会增多 在这一项目的平均分也会比较高 根据这一规律 可以用参加测验的学生群体对某一项目的答对率 通过率 或平均得分率作为衡量难度的指标 即 p R N或式中的p表示平均得分率 或通过率 R表示答对该项目的考生人数 N表示考生群体总数 表示所有考生在该项目上得分的平均值 S表示该项目满分的分值 一般情况下 对于客观型项目 如选择题 宜采用公式p R N 对于主观型项目 如简答题 宜采用公式 例 某地理教师对某班的45位学生进行一次地理测验 选择题第5题和简答题第3题的满分分别为2分和8分 其中10位学生的答题得分情况如表4一10所示 试求这两题目的平均得分率p 表4一l0某班部分学生某次地理测验第5 3题得分 由于第5题是客观型项目 用公式p R N比较方便 由表可知 答对第5题的人数R 6 总人数N 10 将其代入公式可得 即第5题的平均得分率为0 6 第3题是主观型项目 可用公式 即第3题的平均得分率为0 89 从上述两题的平均得分率可知 第5题的难度比较合适 而第3题的难度过小 3 极端平均得分率P和极端难度系数Q当参加测验的人数较多时 可以考虑从总体中抽取一部分有代表性的个体进行分析 一种比较有效的抽样方法是 根据总测验成绩取考生的高分组 一般取分数最高的27 和低分组 一般取分数最低的27 然后分别求两组考生在某一项目上的平均得分率 通过率 接着再求该项目的极端平均得分率 P PH P1 2式中的P表示该项目的极端平均得分率 PH表示高分组在该项目上的平均得分率 通过率 PL表示低分组在该项目上的平均得分率 通过率 显然 P值越大 表明该项目的难度越小 反之 则难度越大 为了增加直观性 可以把极端平均得分率P 通过率 转换为极端难度系数Q 其方法是 Q 1 P这样 当Q值越大时 表示项目的难度越大 当Q值越小时 表示项目的难度也越小 4 难度指数 用上述各种方法来估算项目难度时 只能提供不同项目难度的相对高低 而不能作绝对的比较 即它们都不具备等距性 如有三道题目 第一题 第二题 第三题的难度系数分别为0 4 0 5 0 6 我们只能说第一题在三个题目中是最容易的 而第三题是最难的 但不能断定第一题与第二题难度的差别和第二题与第三题难度的差别是相同的 这主要是因为用上述方法计算难度时 原始分数并不具备等距性 如果在分析项目质量时 需要将难度表示在一个等距量表上时 则必须要对用上述方法计算所得的难度值进行一定的换算 其换算所得的指标即为难度指数 用 来表示 因为转换难度指数时还需涉及其他的一些概念 指标 相对比较复杂 这里就不细讲 二 项目的区分度分析 项目区分度是指测验题目对其知识水平不同的考生的区分程度或鉴别能力 如果有一道读图分析题 地理知识水平 技能 能力比较高的考生得分高 而实际水平比较差的考生得分要低 说明这道题有良好的区分度 如果结果没有规律或刚好相反 则说明这道题区分度差 项目的区分度分析主要以效标为依据 考察考生在每个项目上的反应与其在效标上的表现间的相关程度 在实际的项目分析中 效标往往用同一次测验中获得的总分来代替 其估算方法主要有以下三种 1 特征曲线法 特征曲线法是以曲线的方式来直观地描述某一项目的区分度大小 其作法是 取一直角坐标系 用横坐标代表考生在测验中取得的总成绩 即效标分数 用纵坐标表示考生在某一项目中的通过率 得分率 然后按照该项目的实际作答情况描绘出相应的曲线 这条曲线即称为特征曲线 例如对一次地理测验中某两道选择题的区分度用特征曲线法进行分析 其特征曲线如图4 4所示 从曲线中可以看出 第1题的通过率 得分率 随着总成绩 效标分数 的增大而增大 说明通过率与总成绩正相关 表明总分高的考生这道题的通过率高 可见这道题具有良好的区分度 第2题的通过率随总成绩的增大基本没有变化 也就是说总成绩高的考生与总成绩低的考生在这一题上的通过率没有什么区别 表明这道题的区分度很差 2 相关系数法 相关系数法可以对项目区分度进行定量描述 其具体步骤是 第一步用公式计算相关系数 例 某地理教师对某班的45位学生进行一次地理测验 其中10位学生的总成绩和第6道选择题的得分情况如表4 12所示 0表示答错 1表示答对 试分析第6道选择题的区分度 表4一12某班某次地理测验第6题部分学生得分情况 第一步 由上表可知 Xp 80 78 81 72 70 69 6 75 第二步由表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论