




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 教育测量与评价的质量特性,第一节 教育测量与评价的信度,第二节 教育测量与评价的效度,第三节 教育测量与评价中项目的难度,第三节 教育测量与评价中项目的区分度,第二章 教育测量的质量特性,衡量教育测量的质量,可采用四个指标: 信 度 主要对整个测验而言。 效 度 难 度 主要对测验项目而言。 区分度,一、什么是信度 指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。,第一节 教育测量与评价的信度,对信度的理解,信度指实测值(X)和真值(T)相差的程度
2、; 考察信度系数时,常常采用相关系数作为信度指标,测验结果之间的相关程度越高,信度就越高。采用不同的方式计算相关系数,就得到不同类型的信度系数。 心理测验的信度值在0-1.00之间,当信度系数等于1.00时,表示测验完全可靠;当信度系数等于0时,则表示测验根本不可靠。,问题,一个能力测验用于人才招聘,经检验它的信度为0.70,如何理解这个信度系数的含义。 理解:0.70的信度系数表明,在不同的招聘候选人之间进行比较,候选人测验分数的70%差别是由于个体之间真实的能力差异所导致的,而30%差别是由于随机误差所导致。,二、信度的种类及估计方法,采用不同的方法来计算相关系数,就会得到不同类型的信度指
3、标:重测信度、复本信度、分半信度、同质性信度、评分者信度。 五种信度的含义和计算方法各异,我们在使用时要特别注意每一种信度的特定内涵和适用范围。,(一)重测信度 指同一个量表对同一组被试施测两次所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。,施测,再施测,重测信度的计算,X:第一次测验的实得分数; Y:第二次测验的实得分数; N:被试人数。,统计学上,我们通常把对同一组被试实施的两次等值测验的成绩的相关系数作为这一测验的信度。,例一,用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,
4、得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29,在使用重测法计算信度值时,应注意以下问题:,1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定; 3、重测法适用于速度测验而不适用于难度测验; 4、应注意提高被试者的积极性。,重测信度与时间间隔,两次测量之间的间隔时间不同,重测信度也不同。
5、 间隔时间太短,存在记忆效应;间隔时间太长,影响测量的干扰因素增加。一般而言,时间间隔越长,信度系数越低。 适宜的间隔时间因测验性质、被试特点而异。 如:对儿童测量时间间隔相对短一些成人测量时间间隔可以长一些。一般以2周到4周较宜,最好不超过6个月。 报告重测信度时要明确说明两次测验之间的时间间隔,并且,一个经过良好评估的测验应当具有多个时间间隔的重测信度。,(二)复本信度,指两个平等的测验测量同一批被试所得结果的一致性程度。 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。,施测A型,施测B型,例
6、二,以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何? 学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12,复本信度的优缺点表现:,优点: 1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;
7、2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。,复本信度缺点:,1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度; 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; 4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。,(三)同质性信度,同质性信
8、度 也称内部一致性信度,指测验内部所有题目之间的一致性程度。 两层意思: 测验所有题目测的是否为同一种心理特质; 测验所有题目得分之间是否具有较高的正相关。 基本假设:当一个测验具有较高的同质性信度时,说明测验主要测的是某一个单一心理特质,由于众多题目测试了同一心理特质,那么实测结果就是该特质水平的反映。,估计方法,分半信度(p49) 库德-理查逊信度(p50) 克龙巴赫系数(系数,p52) 荷伊特信度(p52),分半信度,将测验分半,再求被试在每一半测验上所得分数的相关系数。 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列
9、的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半; 然后计算每个被试在两个分半测验分数的相关系数,再用斯皮尔曼布朗公式加以校正:p49,分半信度只需要一种测验形式,实施一次测验,它比重测信度和复本信度的操作更简便。 注意:当一个测验无法分成对等的两半时,不宜使用分半信度。,分半信度的计算方法,1、当两个半测验分数的方差相等时,计算两个“半测验”之间的皮尔逊积差相关系数,然后用斯皮尔曼-布朗公式校正。 rxx=2rhh/(1+rhh) 其中rxx是整个测验的分半信度,rhh是两个半测验之间的相关系数。,2、当两个半测验分数的方差不相等时, 采用弗朗那根公式和卢仑公式。 弗朗那根公式
10、:rxx=21-(s2a+s2b)/s2x 卢仑公式:rxx=1-s2d/s2x 其中: rxx:测验的分半信度, s2a、s2b:两半测验上得分的方差, s2x:整个测验上得分的方差, s2d:两半测验上得分之差的方差。,例三,对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的分半信度? 学生序号 题 序 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 0 0 1 0 0 3 1 0 1 0 0 0 4 1 1 0 0 1 0 5 1 0 0 1 0 0 6 1 1 1 0 1 1 7 1 1 1 1 0 1 8 1 1 0 1
11、1 0 9 0 1 1 0 0 1 10 1 1 1 1 1 1,(四)评分者信度,评分者信度 指多个评分者给同一批被试作答情况评分的一致性程度。 它主要用于主观性作品的评价过程中,如论述题评分,作文题评分、歌唱比赛的评分,设计作品的评分等。,评分者信度的计算方法,1、当评分者人数=2时,评分者信度等于两者评分的相关系数。 2、当评分者人数大2时,评分者信度采用肯德尔和谐系数计算。,(五)标准参照测验的信度分析,1、百分比一致性指标(PA , p54 ) 2、一致性系数(p55) 3、 指数(p55),总结和比较1:五种信度的误差来源,总结和比较2: 测试次数、测试卷份数与信度系数,作业,1、
12、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4,2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度? 应试者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4,3、有一个由100题构成的量表施行于10个高三学生
13、(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度? 学生序号 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36,信度的作用,1、信度是确定测验工具好坏的指标之一。,注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.,判断原则: 多年的研究结果,一般的能力测验和成就测验的信度系数都在090以上
14、,有的可以达095;而人格测验、兴趣、态度、价值观等测验的信度一般在080085或更高些。 R原有的同类测验或相似测验。,2、信度是测量过程中随机误差大小的反映。 3、信度可以直接解释真分数与实得分数之间的关系,明确告知测验误差的大小(测量标准误可作为测量误差大小的客观指标) 4、下结论说某测验比较可靠,必须依据情境,并经多次证实。 5、信度可以解释、预测个人分数的意义。,三、提高信度的方法,(一)影响测量信度的主要因素 1、被试方面 2、主试方面 3、施测情境方面 4、测量工具方面 5、两次施测的间隔时间方面,(二)提高测量信度的常用方法,1、适当增加测验的长度 2、测验的难度要适中 3、测
15、验的内容应尽量同质 4、测验的程序应统一 5、测验的时间要充分 6、测验的评分要尽量做到客观化,减少评分误差,一、什么是效度 指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 (1)测量的效度是相对一定的测量目的而言的 (2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只是效度高低不同罢了。,第二节 教育测量与评价的效度,根据测量目标的不同,对测量工具进行效度验证的方法主要有三种: 内容效度(基于所测内容的效度验证方法) 结构效度(基于所测心理结构的效度验证方法) 准则关联效度(基于效标关联性
16、的效度验证方法),二、效度的估计,1、什么是内容效度 指测验题目样本对应测内容及行为领域的代表性程度。如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。 例如,教师给学生做一份语文成就测验,如果该测验的题目涵盖了语文教学所达到的各项目标及教材的重要内容,那么我们便说该测验具有较高的内容效度。 为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。,(一)内容效度,2、内容效度的估计,(1)逻辑分析法 其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。 以考试内容效度分析来说,就
17、是依靠专家来分析一份试卷的所有题目,把所有题目按考试内容分布和考查目标分布进行双向分类,形成实际的“题目双向分类表”;基于这个“题目双向分类表”的分析,然后由专家对这次考试(测量)的内容效度的满意程度作出等级判断或评语描述。 这里不妨先提供一份测验的命题双向细目表(参见表3-9,p62),以增加读者的感性认识。 (2)量化分析法(p63),内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。 内容效度不适合用于能力倾向和人格测验。,(二)结构效度,结构(Construct)是指心理学或社会学上的一种理论构想或特质。它本身观察不到、并且也无法直接测量到,但学术理论假设它是存在的,以便能够来
18、解释和预测个人或团体的行为表现。 例如,智力就是心理学中的一种结构结构效度,指的就是测验能够测量到理论上(通常是心理学或社会学)所定义的某一心理结构或特质的程度。,(二)结构效度,结构效度测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。 例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。,1、结构效度的特点,结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度
19、的研究结果无法比较。 当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。,2、建立结构效度的步骤,A、提出理论假设; B、根据假定结构拟定测题,编制测验; C、以测验结果为根据来验证假设结构中的各种因素是否成立。,3、结构效度的估计,(1)因素分析法 其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。 (2)多元特质多重方法矩阵法 是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方
20、法。 这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。,从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量特质的相关为最低。 与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。,(三)效标关联效度,是以测验分数和效标之间的相关系数来表示测验效度高低的方法。 例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零
21、相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。,效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。 教育测验的效标,可采用各学科成绩和教师评定的结果; 智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;,能力倾向测验的效标,可采用特殊课程或特殊训练的成绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或记录; 人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。,效标关联效度的估计方法,1、相关
22、法 由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。 (1)积差相关法:适用于两个变量为连续变量 进行显著性检验: 自由度df=N-2,检验的是两个变量,都减去2; 置信度取0.05,查相关系数界值表,寻找临界值; 结论:r临界值,说明显著相关,效度高;r临界值,说明无相关,效度低。,例二,用一套高中数学成就测验对某校高一10个学生施测,其测验分数X如下,并以这些学生的物理学科考试成绩为效标,试估计高中数学成就测验的效标关联效度系数,且检验数学和物理两成绩变量是否相关?效度如何? 学生序号 1 2 3 4 5 6 7 8 9 10 数 学 X 88 80 68 60
23、 96 32 32 64 64 75 物 理 Y 94 78 56 48 70 38 62 78 70 82,(2)等级相关法,如找不到效标分数,可用等级分数(即排名的次数)来替代 适用于连续变量数据小于30,精确度稍差于积差相关,例三,高中一年级学生10个学生数学测验与物理学科成绩如下表,试计算数学测验的效标关联效度系数? 学生序号 1 2 3 4 5 6 7 8 9 10 原始分X 88 80 68 60 96 32 32 64 64 75 数学 等级 Rx 2 3 5 8 1 9.5 9.5 6.5 6.5 4 原始分Y 94 78 56 48 70 38 62 78 70 82 物理
24、等级 Ry 1 3.5 8 9 5.5 10 7 3.5 5.5 2,(3)点二列相关法,当测验分数和效标分数其中一个变量为连续变量,而另一个为真正的二分变量时,测验的效标关联效度系数用点二列相关系数来表示。 适用于两变量:一列变量为连续变量;另一列变量为二分名义变量。,例四,对16个学生的某一学科进行测验,所得测验分数如下,并从中探求学生的这次考试的成绩与其预习与不预习的关系如何,也就是试估计学科成绩测验的效标关联效度?(其中预习用1表示,不预习用0表示) 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 成绩97 92 75 68 74 99 78 80
25、70 64 87 96 54 86 93 80 预习 1 0 1 0 1 1 0 1 0 1 0 1 0 1 1 0,2、区分法,该方法的思路是:被试接受测验后,让他们工作一段时间,再根据工作成绩好坏分成两组,然后再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。,作业,1、用一套高中生成就测验对某校高二15个学生施测,其测验得分如下,并以这些学生校内生物学科的期末成绩为效标,试估计高中生物成就测验的效标关联效度? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 测验分数X 42 38 50 40 42 4
26、8 39 45 41 43 46 36 54 44 42 校内成绩Y 72 66 85 70 78 83 69 82 72 75 77 82 90 84 80,2、小学五年级12个学生阅读理解能力测验与平时阅读作业成绩如下,试计算阅读理解能力测验的效标关联效度系数? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 能力测验 32 33 34 34 36 37 38 39 40 41 43 45 平时成绩 8 6 4 9 7 11 3 5 13 14 12 10,3、对20个学生进行机械性向测验,其男(以0表示),女(以1表示)。学生测验得分如下,试估计机械性向测验的效标关联效度
27、? 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 分数16141413151822101216 17 19 11 20 11 18 16 21 13 15 男女 0 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1,三、提高测量效度的方法,1、影响测量效度的因素 测验的构成(要素) 测验实施方面(过程) 被试主观状态方面 估计效度所依循的效标 样本方面,2、提高测量效度的方法,控制系统误差 精心编制测验量表 扩充样本的容量和代表性 合理处理效度和信度的关系 妥善组织测验 适当增加测验长度,第三节 教育测量与
28、评价中项目的难度,一、什么是难度 是指试题的难易程度。 一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。 一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关,由于学得不清楚或者因被试没学过,一个本来容易的题可能变难。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。,二、难度的计算,(一)基本公式 1、客观题难度的计算 P=R/N R为答对该试题人数,N为参加测验总人数 例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难
29、?,2、主观题难度的计算,例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度? 例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度? 例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?,(二)极端分组法,步骤: 将测验总分进行高低排序(由高到低) 进行高低分组(各取27%),并计算某题的得分率 求两组的平均值 公式: P=(PH+PL)/2 PH为高分组答对该题的百分比; PL为低分组答对该题的百分比。,例5,某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度? 如果该题满分
30、为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?,三、难度的分析与控制,1、难度分析 进行难度分析的主要目的是为了筛选题目。 (1)测验题目难度水平的确定 测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试做最大的程度的区分。但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.500.20之间。,(2)测验难度对分数分布的影响,测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。 由于多数人的心理特性多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。 测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。,2、难度的控制,一般说来,影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国FMS物流管理软件数据监测研究报告
- 2025年中国24针平推打印机数据监测报告
- 2025至2030年中国黑白蓝底胶片市场分析及竞争策略研究报告
- 2025至2030年中国铝合金分析仪器市场分析及竞争策略研究报告
- 2025至2030年中国输送槽市场分析及竞争策略研究报告
- 2025至2030年中国结晶喂线机市场分析及竞争策略研究报告
- 2025至2030年中国矿泉水水处理设备市场分析及竞争策略研究报告
- 2025至2030年中国甲氧胺盐酸盐市场分析及竞争策略研究报告
- 2025至2030年中国混凝试验仪市场分析及竞争策略研究报告
- 2025至2030年中国水解蛋白酶市场分析及竞争策略研究报告
- 深圳小学六年级下册英语单词表(带音标)
- 初中化学九年级 实验基本操作正误判断 练习题
- 外墙保温拆除施工方案
- GB/T 22461.1-2023表面化学分析词汇第1部分:通用术语及谱学术语
- 微小病变肾病指南解读
- 《基于Python的五子棋游戏设计9300字(论文)》
- LY/T 1184-1995橡胶木锯材
- GB/T 18983-2017淬火-回火弹簧钢丝
- GB 7000.1-2015灯具第1部分:一般要求与试验
- 4M变更控制程序
- 重危患者护理计划的制定与实施
评论
0/150
提交评论