第三章教育测量与评价的质量特性_第1页
第三章教育测量与评价的质量特性_第2页
第三章教育测量与评价的质量特性_第3页
第三章教育测量与评价的质量特性_第4页
第三章教育测量与评价的质量特性_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章教育测量与评价的质 量特性 第三章教育测量与评价的质量特性 l 教育测量与评价的信度 l 教育测量与评价的效度 l 教育测量与评价中项目的难度 l 教育测量与评价中项目的区分度 第一节 信度 一、信度的意义 信度(reliability)指的是测量结果的稳定性程 度。 XTE 真真 分分 数数 观观 察察 分分 数数 误误 差差 信度的意义 信度是指测量结果的稳定性程度,记为信度是指测量结果的稳定性程度,记为rXX 。换一句话说换一句话说 ,信度是指用同一测量工具反复测量同一种物质对象所得多次,信度是指用同一测量工具反复测量同一种物质对象所得多次 测量结果间的一致性程度。测量结果间的一致

2、性程度。 测验信度是对测验工具及其操作的整体质量的一种量度,测验信度是对测验工具及其操作的整体质量的一种量度, 是测验性能的重要质量指标。如果测验本身抗干扰能力强,测是测验性能的重要质量指标。如果测验本身抗干扰能力强,测 验实施过程各方面误差因素都控制得好,多次施测所得分数(验实施过程各方面误差因素都控制得好,多次施测所得分数( 测值)的一致性就高,那么测量信度高,人们在使用所得测值测值)的一致性就高,那么测量信度高,人们在使用所得测值 时就会感觉可靠。时就会感觉可靠。 二、信度的估计方法 (一)重测信度 (二)复本信度 (三)同质性信度 信度的统计定义 定义定义1:信度是一个被测团体真分数方

3、差与观察分数方差之信度是一个被测团体真分数方差与观察分数方差之 比。即:比。即:XX=2T / 2X 定义定义2:信度是一个被试团体的真分数与观察分数的相关系:信度是一个被试团体的真分数与观察分数的相关系 数的平方。即:数的平方。即:XX=2TX 定义定义3: 信度是一个被试团体在测验信度是一个被试团体在测验X(A卷)上的观察分卷)上的观察分 数数与在测验与在测验X的任意一个的任意一个“平行测验平行测验” X (B卷)上观察分数卷)上观察分数 的相关系数。即:的相关系数。即: XX= XX XX 重测信度(稳定性系数) (1)重测信度是指用一个量表(测验或评价表)对同一组)重测信度是指用一个量

4、表(测验或评价表)对同一组 被施测两次所得结果的一致性程度,其大小等于同一组被试在被施测两次所得结果的一致性程度,其大小等于同一组被试在 两次测验上所得分数的相关系数。两次测验上所得分数的相关系数。 (2)重测信度基本假设:某测验所要测量的潜在特质,短)重测信度基本假设:某测验所要测量的潜在特质,短 期内不会随着时间推移而改变。期内不会随着时间推移而改变。 (3)重测信度适用于异质性测验(一个测验包括几个不同)重测信度适用于异质性测验(一个测验包括几个不同 的部分,这几个部分分别测量几个不同的心理特质,它们之间的部分,这几个部分分别测量几个不同的心理特质,它们之间 可能并不存在相关或相关较低)

5、,也适用于速度测验和运动技可能并不存在相关或相关较低),也适用于速度测验和运动技 能测验。能测验。 复本信度(等值性系数或等值稳定性系数) (1)复本信度是指两个平行测验(在试题格式、题数、难度、指导语)复本信度是指两个平行测验(在试题格式、题数、难度、指导语 说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但 试题又是不相同的测验)测量同一批被试所得结果的一致性程度,其大小试题又是不相同的测验)测量同一批被试所得结果的一致性程度,其大小 等于同一批被试在两个复本测验上所得分数的相关系数。等于同一批被试在两个复本测验

6、上所得分数的相关系数。 (2)实施复本测验的方式:一是在同一个时间连续施测(此时所得的)实施复本测验的方式:一是在同一个时间连续施测(此时所得的 复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度 叫等值稳定性系数)。叫等值稳定性系数)。 (3)使用复本信度首先要构造出两份或两份以上的真正的平行测验。)使用复本信度首先要构造出两份或两份以上的真正的平行测验。 这是一个很难达到的条件。另外,重测信度的一些不足,在复本信度中仍这是一个很难达到的条件。另外,重测信度的一些不足,在复本信度中仍 然存在,需要加以克服。然存在,

7、需要加以克服。 (4)复本信度不仅适用于难度测验,也是估计速度测验信度的好方法。)复本信度不仅适用于难度测验,也是估计速度测验信度的好方法。 (1)同质性信度(内部一致性信度)是指测验内部所有题目间的一)同质性信度(内部一致性信度)是指测验内部所有题目间的一 致性程度。这里题目间的一致性含有两层意思:其一是指所有题目测的致性程度。这里题目间的一致性含有两层意思:其一是指所有题目测的 是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。 (2)同质性信度的基本假设:当一个测验具有较高的同特性信度时)同质性信度的基本假设:当一个测

8、验具有较高的同特性信度时 ,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一 心理特质,那么实测结果就是该特质水平的反映。心理特质,那么实测结果就是该特质水平的反映。 (3)同质性信度不适用于异质测验和速度测验。)同质性信度不适用于异质测验和速度测验。 同质性信度的概念 (1) 分半信度分半信度 分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数 的一致性程度。的一致性程度。 分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计

9、算的是两个分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个 “半测验半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼布朗公布朗公 式加以校正式加以校正 。 (2) 库德理查逊信度库德理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用 的库德理查逊公式有:的库德理查逊公式有: 和和 (3)克龙巴赫系数)克龙巴赫系数 当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。当测验题型较多,并非都是二

10、分记分题时,估计测验信度可采用克龙巴赫系数。 其计算公式为:其计算公式为: (4) 荷伊特信度荷伊特信度 1941年荷伊特提出用方差分量比来估计测验内部一致性的方法,其估计值为:年荷伊特提出用方差分量比来估计测验内部一致性的方法,其估计值为: 同质性信度的估计方法 2 2 1 1 x i s s K K hhhhxx rrr12 2 20 1 1 x ii s qp K K KR 2 21 1 1 x Ks XKX K K KR 人 题人 MS MS rxx 1 评分者信度 l 评分者信度的含义评分者信度的含义 评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。评分者信度是指多个评

11、分者给同一批人的答卷进行评分的一致性程度。 l 评分者信度的计算评分者信度的计算 (1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被)当评分者人数为两人时,评分者信度等于两个评分者给同一批被 试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数计试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数计 算方法。算方法。 (2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行 估计。估计。 NNK s W 32 12 1 ()百分比一致性指标()百分比一致性指标(PA) 百分比一致性指标是指同一测验或

12、两平行测验先后两次施测,其对被试百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试 的分类结果一致的比例。其计算公式为:的分类结果一致的比例。其计算公式为: ()()K一致性系数一致性系数 K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致 的最大可能次数百分比的比率。其计算公式:的最大可能次数百分比的比率。其计算公式: ( 其中其中 ) ()()K2 指数指数 标准参照测验关注决断的可靠性,而这种决断显然与被试团体的平均水标准参照测验关注决断的可靠性,而这种决断显然与被试团体的平均水 平密切相关。在考虑到这个

13、因素的基础上,心理统计学家莱芬斯顿提出了平密切相关。在考虑到这个因素的基础上,心理统计学家莱芬斯顿提出了K2 指数作为考察标准参照测验信度的指标。其计算公式为:指数作为考察标准参照测验信度的指标。其计算公式为: 或或 或或 标准参照测验的信度分析 2 2 2 2 XS XS K X X N da PA C CA P PP K 1 2 2 2 20 2 XS XKRS K X X 2 2 2 2 2 X T K N db N dc N ca N ba P C 测量标准误 l 测量标准误的含义测量标准误的含义 测量标准误是指测验中所得测值偏离真分数的程度,测量标准误是指测验中所得测值偏离真分数的程

14、度, 记为记为SESE。 l 测量标准误与测验信度的关系测量标准误与测验信度的关系 l 测量标准误的意义测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指测量标准误是反映测量结果精确性和可靠性的又一指 标,同时也是人们正确解释测验分数的科学依据。标,同时也是人们正确解释测验分数的科学依据。 XXX rSSE1 提高信度的常用方法 适当增加测验的长度 使所有题目的难度接近正态分布 努力提高测验题目的区分度 选取恰当的被试团体 从理论上讲通过增加测验长度能达到一个高水平的从理论上讲通过增加测验长度能达到一个高水平的 信度,但实践上很难实现:信度,但实践上很难实现: 1 1)长测验比短

15、测验更耗时、更昂贵)长测验比短测验更耗时、更昂贵 2 2)写出好的测验项目非常困难)写出好的测验项目非常困难 第二节 效度 一、效度(validity)的含义 效度是指测量结果的有效性程度,也就是 一个测验对他所要测量的特质测量到了什 么程度。 效度的概念 l 效度的意义效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。对这效度是指一个测验或量表实际能测出其所要测量的特性的程度。对这 一概念,我们可以从以下几个方面来理解一概念,我们可以从以下几个方面来理解: 效度始终是针对一定测量目的而言的;效度始终是针对一定测量目的而言的; 效度只有程度上的差异;效度只有程度上的差异; 效

16、度是针对测量结果而言的;效度是针对测量结果而言的; 评价一个测量是否有效要多角度、多方面地收集证据。评价一个测量是否有效要多角度、多方面地收集证据。 l 效度的统计定义效度的统计定义 效度可定义为目标真分数方差与观察分数方差之比:效度可定义为目标真分数方差与观察分数方差之比:XY=2V / 2X l 效度与信度的关系效度与信度的关系 ()信度高是效度高的必要而非充分条件()信度高是效度高的必要而非充分条件 ()效度系数不会大于信度系数的平方根()效度系数不会大于信度系数的平方根 非目标真分数非目标真分数 I目标真分数目标真分数 V XTE 二、效度的统计定义 效度=与测量目的有关的真实 变异与

17、总变异的比率。 2 xyr xS 2 v 2 S 如何理解如何理解“效度效度”的意义?的意义?思考题 效度是指一个测验或量表实际能测出其所效度是指一个测验或量表实际能测出其所 要测量的特性的程度。对这一概念,我们可以从以下要测量的特性的程度。对这一概念,我们可以从以下 几个方面来理解:几个方面来理解: (1 1)效度始终是针对一定测量目的而言的;)效度始终是针对一定测量目的而言的; (2 2)效度只有程度上的差异;)效度只有程度上的差异; (3 3)效度是针对测量结果而言的;)效度是针对测量结果而言的; (4 4)评价一个测量是否有效要多角度、多方面)评价一个测量是否有效要多角度、多方面 地收

18、集证据。地收集证据。 答: 效度的种类 1、内容效度 2、结构效度 3、效标关联效度 内容效度 内容效度(content validity)是指测验项目所 涉及的内容对欲测内容范围的代表性程度。或 者说所测内容对要测内容范围取样的代表性。 内容效度 l应用范围应用范围 内容效度是指测验题目样本对于应测内容与行为领内容效度是指测验题目样本对于应测内容与行为领 域的代表性程度。如果是教学情境下的成就测验,那域的代表性程度。如果是教学情境下的成就测验,那 么其内容效度就是看测验题目样本能体现教学目标与么其内容效度就是看测验题目样本能体现教学目标与 教材要求的程度。教材要求的程度。 内容效度主要适用于

19、教育测量(尤其是学业成就测内容效度主要适用于教育测量(尤其是学业成就测 验)的情境中,也适合于某些用于选拔和分类的职业验)的情境中,也适合于某些用于选拔和分类的职业 测验,但不适合某些心理测验(如智力测验、人格测测验,但不适合某些心理测验(如智力测验、人格测 验)。验)。 内容效度 l内容效度的分析方法内容效度的分析方法 逻辑分析的方法逻辑分析的方法 内容效度的逻辑分析法,即依靠有关专家对测验题目与应测内容效度的逻辑分析法,即依靠有关专家对测验题目与应测 内容范围的吻合程度作出判断。内容范围的吻合程度作出判断。 内容效度的量化分析方法内容效度的量化分析方法 该方法要求专家在仔细审阅测验目标的基

20、础上,独立地对测该方法要求专家在仔细审阅测验目标的基础上,独立地对测 验的每个题目作出判断:验的每个题目作出判断:“该题目实际测到的内容与其欲测量该题目实际测到的内容与其欲测量 的目标内容之间相关程度如何,并用四点量表(用完全无关、的目标内容之间相关程度如何,并用四点量表(用完全无关、 有点相关、相关较密切、完全相关来表示)来表示这种相关的有点相关、相关较密切、完全相关来表示)来表示这种相关的 程度大小程度大小”;当两位专家完成此项工作后,统计弱相关(完全;当两位专家完成此项工作后,统计弱相关(完全 无关、有点相关)、强相关(相关较密切、完全相关)的题目无关、有点相关)、强相关(相关较密切、完

21、全相关)的题目 数,则此测验的内容效度系数为:内容效度系数数,则此测验的内容效度系数为:内容效度系数 =D/( A+B+C+D)()( D D 表示两位专家都判定为强相关的题目数表示两位专家都判定为强相关的题目数 ) 结构效度(construct validity) 结构效度是指测验对理论构想的测量程 度,又称构想效度。 构想或结构是指心理学理论所涉及的抽 象而属假设性的概念或特质。 应用:智力、人格测验等 结构效度 l结构效度的验证一般步骤结构效度的验证一般步骤 提出有关理论结构的说明,并据此设计测量用提出有关理论结构的说明,并据此设计测量用 的试题;的试题; 提出可以验证该理论结构是存在的

22、假设说明;提出可以验证该理论结构是存在的假设说明; 采用各种方法收集实际的资料,以验证第二步采用各种方法收集实际的资料,以验证第二步 提出的假设的正确性;提出的假设的正确性; 收集其他类型的辅助证据,淘汰与理论结构相收集其他类型的辅助证据,淘汰与理论结构相 反的试题,或是修正理论,并重复第二和第三步,直反的试题,或是修正理论,并重复第二和第三步,直 到下述的假设得到验证,即测验的结构效度获得支持到下述的假设得到验证,即测验的结构效度获得支持 为止。为止。 结构效度 l 结构效度的验证方法结构效度的验证方法 测验内部寻找证据法测验内部寻找证据法 这种方法是通过研究测验内部结构来验证测验的结构效度

23、这种方法是通过研究测验内部结构来验证测验的结构效度 。它主要包括内容效度、作答过程分析、测验的同质性和因素。它主要包括内容效度、作答过程分析、测验的同质性和因素 分析等四个方面。分析等四个方面。 测验之间寻找证据法测验之间寻找证据法 这一方法的特点是同时考察两个或多个测验间的相互关系这一方法的特点是同时考察两个或多个测验间的相互关系 ,从而来验证测验的结构效度。它包括相容效度、聚合效度、,从而来验证测验的结构效度。它包括相容效度、聚合效度、 区分效度和区分效度和“多种特质多种方法矩阵法多种特质多种方法矩阵法”等具体方法。等具体方法。 考察测验的实证效度法考察测验的实证效度法 如果一个测验有实证

24、效度,则可以拿该测验所预测的效标如果一个测验有实证效度,则可以拿该测验所预测的效标 的性质与种类作为该测验的结构效度指标,至少可以从效标的的性质与种类作为该测验的结构效度指标,至少可以从效标的 性质与种类来推论测量的结构效度。主要方法有差异被试比较性质与种类来推论测量的结构效度。主要方法有差异被试比较 法和先后测试分析法。法和先后测试分析法。 效标效度 衡量测验的一个非常重要的原则就是看它 能不能符合实际需要 比如大学生的选拨 技术工人的选拨- 期望工人工艺精湛,生产率 高 招聘符合公司要求,工作能力强 效标:检验测验效度的外在的、客观的标 准,即效度的标准 效标效度:是指测验对个体的效标行为

25、表现 进行估计的有效性程度。又称实证效度。 效标关联效度 l 效标关联效度的种类及适用范围效标关联效度的种类及适用范围 根据效标资料获得的时间不同及测验使用的目的不同根据效标资料获得的时间不同及测验使用的目的不同 ,效标关联效度可以分为:,效标关联效度可以分为: 同时效度:测验分数与效标资料的取得约在同一同时效度:测验分数与效标资料的取得约在同一 时间内连续完成,计算这两种资料的相关系数即代表测时间内连续完成,计算这两种资料的相关系数即代表测 验的同时效度。这种效度的目的主要用于诊断现状,在验的同时效度。这种效度的目的主要用于诊断现状,在 于用更简单、更省时、更廉价和更有效的测验分数来取于用更

26、简单、更省时、更廉价和更有效的测验分数来取 代不易搜集的效标资料。代不易搜集的效标资料。 预测效度:在测验分数取得一段时间后才获得效预测效度:在测验分数取得一段时间后才获得效 标资料,计算这两种资料间的相关系数即代表测验的预标资料,计算这两种资料间的相关系数即代表测验的预 测效度。预测效度的作用在于预测某个个体将来的行为测效度。预测效度的作用在于预测某个个体将来的行为 。 效标关联效度 l效标关联效度的估计方法效标关联效度的估计方法 相关法:该方法就是计算测验分数与效标测量的相关系数相关法:该方法就是计算测验分数与效标测量的相关系数 ,具体方法有:积差相关、等级相关、点双列相关、二列相关、,具

27、体方法有:积差相关、等级相关、点双列相关、二列相关、 四分相关、四分相关、相关、列联相关法等等。在使用过程中,该选择何相关、列联相关法等等。在使用过程中,该选择何 种计算方法,应根据测验分数与效标测量数据资料的形式而定。种计算方法,应根据测验分数与效标测量数据资料的形式而定。 显著差异法:该方法是根据效标测量将被试分为两个极端显著差异法:该方法是根据效标测量将被试分为两个极端 组,然后检验这两组测验分数是否具有统计学上的差异显著性。组,然后检验这两组测验分数是否具有统计学上的差异显著性。 若这两组被试的测验分数差异,则说明该测验有较高的效度。若这两组被试的测验分数差异,则说明该测验有较高的效度

28、。 命中率:当测验用取舍决策时,常使用命中率这一指标。命中率:当测验用取舍决策时,常使用命中率这一指标。 因为这类测验效度高不高,就是看其取舍是否与实际一致。命中因为这类测验效度高不高,就是看其取舍是否与实际一致。命中 率包括总命中率、正命中率和负命中率三种。率包括总命中率、正命中率和负命中率三种。 例:假设有10人经过职业兴趣测验而被选定作为推销 员,其测验分数见下表第一行,而第二行是经过 若干年后他们某段时间内销售金额总量(以万元 为单位)。现问该测验的效度如何? 被试被试 12345678910 测验分数测验分数X3034324720 2427 252216 销售量销售量Y2.53.83

29、40.712.23.52.81.2 试比较内容效度、结构效度、效标关联试比较内容效度、结构效度、效标关联 效度的异同效度的异同? ? 思考题 相同点:三者都是作为检验测验有效程度的指标,都可以作为相同点:三者都是作为检验测验有效程度的指标,都可以作为 评价一个测验优劣的标准。评价一个测验优劣的标准。 不同点:不同点: 考察的角度不同。内容效度是指测验题目样本对于应测内考察的角度不同。内容效度是指测验题目样本对于应测内 容与行为领域的代表性程度。结构效度是指一个测验或量表实际测到所要容与行为领域的代表性程度。结构效度是指一个测验或量表实际测到所要 测量的理论结构(结构是指心理学或社会学上的一种理

30、论构想或特质)的测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的 程度。效标关联效度是指一个测验对于处于特定情境中的个体行为进行预程度。效标关联效度是指一个测验对于处于特定情境中的个体行为进行预 测时的有效性。测时的有效性。 应用的范围不同。内容效度主要适用于教育测量(尤其是学业成就应用的范围不同。内容效度主要适用于教育测量(尤其是学业成就 测验)的情境中,也适合于某些用于选拔和分类的职业测验,但对于某些测验)的情境中,也适合于某些用于选拔和分类的职业测验,但对于某些 特质的心理测验(如智力测验、人格测验),内容效度并不适合。结构效特质的心理测验(如智力测验、人格测验),内容效

31、度并不适合。结构效 度主要用于智力测验、人格测验等一些心理测验方面。效标关联效度适用度主要用于智力测验、人格测验等一些心理测验方面。效标关联效度适用 于能够找到有效效标的测验,常用的效标主要有:学业成就、等级评定、于能够找到有效效标的测验,常用的效标主要有:学业成就、等级评定、 临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其 它现成的有效测验。它现成的有效测验。 确定的方法不同。内容效度确定的主要方法是逻辑分析法、量化分确定的方法不同。内容效度确定的主要方法是逻辑分析法、量化分 析法。结构效度确定的主要方法是测验

32、内部寻找证据法、测验之间寻找证析法。结构效度确定的主要方法是测验内部寻找证据法、测验之间寻找证 据法和考察测验的实证效度法;效标关联效度确定的主要方法有相关法、据法和考察测验的实证效度法;效标关联效度确定的主要方法有相关法、 显著差异法、命中率。显著差异法、命中率。 答: 第三节 教育测量与评价 题目(项目)的难度 难度 难度是指试题的难易程度。 一道试题,如果大部分被试都能答对,则该题 的难度就小;如果大部分被试都不能答对,则 该题的难度就大。 一个题目的难度大小,取决于被试学习的程度、 测验内容本身的难易以及编制技术。因此测验 的难度具有相对性,正因为此,必须让试题通 过实践来对难度作出检

33、验。 难度的计算 (一)以全体被试得分率为难度系数 P=X/满分 例子 某道论述题满分12分,所有考生在这道题上 的平均得分为3.6分,求该题的难度? 语文测验第五题最高得分为12分,这道题考 生的平均得分是8.5分,求该题难度? 60人参加考试,某题满分为12分,正确得分 累积是480分,求该题难度? 选择题、判断题怎么算难度? 采用得分率计算的值和采用通过的人数计算的值 相等 因为存在猜测问题,需要用校正公式 CP=(KP-1)/(K-1) CP:校正后的难度值;P:实际得到的通过率;K:选项数目 例:一个题目的难度值为0.75,分别计算此题有四个选项、三 个选项、两个选项时大的难度值 采

34、用以全体被试得分率为难度系数,存在 的问题:表达和我们的思维正好相反 有人建议采用失分率表示难度系数 q=1-p 注意:通常难度系数还是指的是p,以全体 被试得分率为难度系数。所以大家记住, 难度和难度系数是不同的 测验题目难度水平的确定 难度水平适当与否,取决于测验目的。 当P值接近于0或接近于1时,即被试在该题上全部 答对或全部答错,则该题无法提供个体的信息。 P值接近于0.50时,题目才能把被试做最大的程度 的区分。 在实际工作中,若每一题的难度值均为0.50,那么 此测验很可能只能区分出好与差两种极端被试的差 异,却不能对各种被试作更精确的区分。因此,一 般各题的难度可在0.50+0.

35、2之间。 为区分和选拨目的,难度值要接近录取率;标准测 验,为考查学生知识掌握程度,难度值要大一些。 影响题目难度的主要因素 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 题型。 难度控制:难度控制: 正确估计考生水平;正确估计考生水平; 弄清弄懂各知识点;弄清弄懂各知识点; 掌握命题技巧掌握命题技巧 测验由多个题目所组成,显然,所有这些题目的难度取值测验由多个题目所组成,显然,所有这些题目的难度取值 都应该力求恰当,而且这些题目分布状态也应合理。究竟怎都应该力求恰当,而且这些题目分布状态也应合理。究竟怎 样的题目难度与难度分布是合适的,这主要取决于测验的目样的

36、题目难度与难度分布是合适的,这主要取决于测验的目 的与性质。的与性质。 测验题目的恰当难度和恰当难度分布 常模参照测验、标准参照测验所要求的常模参照测验、标准参照测验所要求的 项目恰当难度及难度分布是什么?为什么?项目恰当难度及难度分布是什么?为什么? 思考题 (1 1) 常模参照测验的项目恰当难度是常模参照测验的项目恰当难度是P P值尽量接近值尽量接近0.500.50, 因为只有在这种情况下题目的区分性能最好。因为只有在这种情况下题目的区分性能最好。 常模参照测验所要求的项目恰当难度分布是,围绕这个点,有一个常模参照测验所要求的项目恰当难度分布是,围绕这个点,有一个 适当宽的全距。这样做的原

37、因有以下两个:一是测验时,通常希望开始有适当宽的全距。这样做的原因有以下两个:一是测验时,通常希望开始有 几个难度较低的题目来稳定被试情绪,末尾用几个难度稍大的题目以便只几个难度较低的题目来稳定被试情绪,末尾用几个难度稍大的题目以便只 有少数高水平者才能通过,二是让全部项目都取有少数高水平者才能通过,二是让全部项目都取0.500.50的难度,通常难以实的难度,通常难以实 现。当然,在允许有适当宽的全距的前提下,仍然要力争大多数项目难度现。当然,在允许有适当宽的全距的前提下,仍然要力争大多数项目难度 取值接近取值接近0.500.50。 (2 2)标准参照测验的目的是要考察被试的水平是否达到应有要

38、求,因而)标准参照测验的目的是要考察被试的水平是否达到应有要求,因而 测验项目的难度,就不应由被试的实际通过率来决定,而应由项目的考核测验项目的难度,就不应由被试的实际通过率来决定,而应由项目的考核 要求是否体现了应有标准或教学目标来决定。无论项目通过率是高还是低要求是否体现了应有标准或教学目标来决定。无论项目通过率是高还是低 ,只要体现了应用的标准或教学目标,项目的难度就是合理的恰当的。,只要体现了应用的标准或教学目标,项目的难度就是合理的恰当的。 答: 第四节 教育测量与评价 中题目(项目)的区分度 区分度的含义 指测验题目对考生实际水平的区分程度 或鉴别能力。 表示符号:D 如一道题,学

39、业水平、实际能力都较高 的考生都答对了;而学业水平、实际能 力都较低的考生都答错了,则可认为该 题目有好的区分度。 区分度(D)的取值范围介于- 1.00+1.00 之间,值越大,区分度的效果越佳。 区分度D0为正区分,D0为负区分,D=0为 零区分 有道试题,高分组有有道试题,高分组有70%学生通过,低分组有学生通过,低分组有30%的学生的学生 通过;而另一道题,高分组有通过;而另一道题,高分组有40%学生通过,低分组有学生通过,低分组有 70%学生通过,求两题的各自区分度?学生通过,求两题的各自区分度? (1)相关法)相关法 区分度的实质是题分与总分的相关,因此,各种计算相关系数的方法区分

40、度的实质是题分与总分的相关,因此,各种计算相关系数的方法 都可以用于计算区分度。但具体采用哪一个,应根据题分、总分的数据形都可以用于计算区分度。但具体采用哪一个,应根据题分、总分的数据形 式而定。式而定。 (2)高低分组法)高低分组法 被试在测验分数序列中两端高分、低分组被认为是两个极端效标组。被试在测验分数序列中两端高分、低分组被认为是两个极端效标组。 这两个极端效标组间在特定题目上的反应差别程度可以刻画题目的区分能这两个极端效标组间在特定题目上的反应差别程度可以刻画题目的区分能 力。因此,类似于前面谈及应用两端分组的办法来估计题目的难度系数一力。因此,类似于前面谈及应用两端分组的办法来估计

41、题目的难度系数一 样,可用高分组在特定题目上的得分率和低分组在相同题目上的得分北之样,可用高分组在特定题目上的得分率和低分组在相同题目上的得分北之 差作为题目区分度的指标(高分、低分组人数比例各占总人数的)差作为题目区分度的指标(高分、低分组人数比例各占总人数的) ,被称为鉴别度指数,记为,被称为鉴别度指数,记为 D 。计算公式为:。计算公式为:D = PH - PL 。为计算方便,。为计算方便, 还可采用公式:还可采用公式: 区分度的计算 F XX P LH 对多级记分的论文型试题,求积差相关后剔除伪相关因素做校正,其对多级记分的论文型试题,求积差相关后剔除伪相关因素做校正,其 校正公式为:校正公式为: 对二分记分的选择题若有必要作校正,采用点双列相关系数时其校正公对二分记分的选择题若有必要作校正,采用点双列相关系数时其校正公 式为:式为: 区分度伪相关的校正 iit iitpbi pbic qpS qpSr n n r 2 1 SrSSS SrS r tt t 2 22 项目区分度的标准 (三)提高区分度的方法 1、使题目的难度适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论