教育统计与测量-测量质量分析_第1页
教育统计与测量-测量质量分析_第2页
教育统计与测量-测量质量分析_第3页
教育统计与测量-测量质量分析_第4页
教育统计与测量-测量质量分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、测量质量分析难度与区分度效度p为了使测验得到的分数准确可靠,我们要求使用的测验是高质量的,因此必须对分析测验的质量,而测验又是由一个个题目或者说测试项目所组成,整个测验质量要高,必然要求各个题目的质量要高。p因此分析一个测验的质量,一般就要从两个方面来进行:一是考察整个测验的质量指标,即考察测验效度与信度;二是考察所含项目的质量指标,即考察测验项目的难度和区分度。测验项目的难度p测验项目的难度,就是被试完成项目作答任务时所遇到的困难程度。n有的项目很容易,几乎所有初试都能正确完成作答任务;有的项目却很难,只有少数高水平被试能正确完成任务。n困难的项目,被试在其上得分的可能性就小,失分的可能性就

2、大;容易的项目,被试在其上得分的可能性就大,失分的可能性就小。n总之,每一个测验项目都有自己的难度;不同项目间其难度常常是不同的。p定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数或难度系数。难度系数的求法p最通用的项目难度系数的求法就是计算被试在项目上的得分率或者说通过率。1.像选择题这种测验项目,评分采取“全或无”的方式,答对给满分,答错给零分,难度指数就可以求通过人数比例或称通过率。2.对于不采用“全或无”的方式给分的测验项目,难度系数的求取方法是先求所有被试在该项目上的平均得分值,可记为 ;再用它去对测验项目总分(满分),可记为K,求比值,这个比值就是全体被试在该测验项目

3、上的得分率即难度指数p了。nrp KXp XR通过人数n 接受测试的总人数P难度指数p例如,有一满分值K=5的试题,测试10名被试,实得成绩为5,3,4.5,2,5, 0, 3.5, 1,3, 4 要求其难度指数p。p先求平均得分p然后用平均得分值对满分值求比1 . 31031X62. 051 . 3KXpp整体试卷的难度,就是全体被试测验的总分平均值与全卷满分的比值。p有人觉得用得分率p来表示难度别扭,主张用失分率q来作为难度指数。p得分率p是可以与失分率q相互转换的,q=1-p。我们一般用得分率p来表示难度,但也有人用失分率q来表示难度,所以当我们听取人家报告难度系数时,一定要弄清是指p还

4、是q值p不同目的的测试,测验难度系数要求也不相同。一般的标准化测试,目的是要尽可以把握住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”。这样,测验项目的恰当难度,就应该是p值尽量接近0.5. p如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;p如果相反,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态。区分度p项目区分度就是项目区别被试水平高低的能力的量度。p项目是用来测试被试水平高低的;在所测特质上,被试水平也不会人人相等,总是会有高低水平差异的。倘若,高水平被试,在测验项目上能利市中分,

5、而低水平被试则只能得低分,测验项目区分被试高低的能力就强;如果高水平被试和低水平被试在测验项目上所得分数并无差别,项目提供不出被试水平差异的信息,它的区分能力就弱,更糟糕的是,高水平被试在测验项目上反而得低分,低水平被试在测验项目上所得分数却不低,这种项目的性能就跟 测验目的相违背,只会起破坏作用。p所以,项目区分度是测验性能的一个重要指标,说明的正是项目对测验目的来说的有效性程度区分度指数的求法p计算被试在该项目上的得分与其测验总分的相关系数。如相关一致性高就认定该项目区分力强;如果相关低,甚至负相关,就认定为区分力弱整形无效的项目。p这里,确定项目区分度的标准就是测验总分,要考察总分高的被

6、试在该项目上是否也得高分,总分低的被试在该项目上是否也得低分。显然,这种标准就是测验内部而非测验外部标准。假定有30名被试在两个项目上的题分以及全卷总分情况如下表,请计算项目与项目的区分度项目p计算项目的区分度指数,也就是计算被试在该项目上的得分与总分的相关系数。p项目为二分称名变量,总分为连续变量,该用哪种相关法?pqSXXrxqppb需要用点双列相关,点双列相关公式为:p答对被试的比率为:p=18/300.6p答错被试的比率为:q=0.4p答对被试的总分平均成绩:(100+100+98+) 18=69.94p答错被试的总分平均成绩:(90+79+89+0) 12=59.42p所有被试总分标

7、准差:29.2318. 04 . 06 . 023.2942.5994.69pbrD项目p项目2与总分都为连续变量,应该采用哪种相关方法呢?p积差相关的公式为:22YYXXYYXXriiiixyp采用软件分析,得到结果为79. 0 xyrD高低分组法p求取项目区分度指数的主要办法,是求题分与总分的相关系数。但是,还有一种“高低分组求得分率差”的办法。p方法:将全体被试按总分寡加以排队,然后取得分最多的27%的被试作为“高分组”,得分最少的27%的被试作为“低分组”,最后求这两个组上项目得分率(通过率)的差来作为区分度指数的取值。pDPH PL以上面的30名被试为例p先将30名被试的总分从高至低

8、排序p30人的27%:30*27%8.18(人)p计算高分组8人的得分率PH:PH10.63; PH2 4.44/5=0.89p计算低分组8人的得分率PL: PL10.50; Pl2 2.06/5=0.41pD1PH1 PL1 0.13; D2PH2 PL2 0.48p用高低分组法丢弃了中部的数据,因此只能是较为粗糙的估计值,当被试总人数够多,高分组与低分组容量都相当大时,这种估计值还是可以满足实用要求的。所以高、低分组法,是一种常用的项目区分度指数求取方法。p项目区分度指数的取值范围,跟一般的相关系数的取值范围一样,在-1.00至+1.00之间。p如果项目区分度指数D0.20,项目应该被淘汰

9、p如果0.2D 0.3,需要修改p如果0.3D 0.4,合格p如果 0.4D ,性能优良测验效度p测验效度,就是测验实际上测到它打算要测的东西的程度。p真正测到了要测的东西,就是有效、效度高;否则,就是无效或不十分有效,就是效度低。显然,测验只有真正测到了要测的特性、特质、结构,测验结果即测验分数的应用与解释,才能起到它应起的作用,才能发挥出有效性。p因此,测验效度就是测验工具的正确性问题,是测验分数的真实有效性问题,是测验质量高低的根本表现所在,是测验性能的最重要的指标。p心理与教育测量具有间接性特点,所测对象是被试的内部心理特性、特质或结构,测量工具是否真正测到了它,绝非一目了然,而且,这

10、种特性、特质、结构本身到底什么样,许多都没有公认的定义,甚至还存在严重的分歧。p如语言能力和水平,就是一个不很清楚概念,它的内涵与外延是什么,存在着分歧,那测量语言能力就存在着很大的困难。也许目的是测量语言能力但是实际测到的是语言知识。效度的种类p根据验证测验效度的角度与方法的差异,可以把效度验证工作大体分为三类,即内容效度、效标关联效度和结构效度。三种效度说明的都是测验的正确性,不过是从三个不同的方面来说明而已。p内容效度通过对测所含项目作内容的系统考察,以确定由这些项目所构成的测验,是否是测验应测特质行为领域的代表性样本。n代表性程度高,就是内容效度好;代表性程度低,就是内容效度差;根本不

11、具任何代表性,就是全无内容效度。内容效度p内容效度的分析首先就要求测验所测特质涵盖的整个行为领域有明确的范围,有比较清楚的组织结构。但许多心理特质,如“智力”、“创造力”等,都是外延范围不明、内部结构复杂,人们对其看法很不统一、无法满足上述要求的测量对象。所以,内容效度主要适应于对学业成就测验的正确有效性的分析。主要分析测验项目所考核的知识技能覆盖面、能力水平的考核情况、以及各部分内容的深度广度与结构比例等。p分析的办法一般是请学科专家作出系统评判;侧重定性分析,也辅之以定量评价;还可以采用恰当办法把不同遥意见综合起来。p有一个跟内容效度有关的概念叫表面效度,指的是从被试或非专业人员看来,测验

12、表现得是否在有效地测验着应测的东西。p在那些需要被试尽其所能对所测问题正确作答的测验中,比如学业成就与智力测验中,它有改善与被试合作关系的作用。由于合作改进,测验质量也就更有保证。这样的测验,应力争有高的表面效度。而人格测验和态度测量等,有时被试并不愿意直陈自己内心想法,所以就不必明白在测查什么,不必追求高的表面效度。效标关联效度p效标关联效度就是指测验预测个体在类似或某种特定情境下行为表现的有效性。这里的“预测”既指同时性的类似情境下的行为的“预测”,也指间隔一段时间特定情境下的行为的“预测”。p因此,效标关联效度又包含“并存”效度和“预测”效度这两个小类别。p效标关联效度是可以测量的,可以

13、通过求取有待验证的测验的测值与效标测验所得的测值之间的相关系数获得。得到的相关系数,就叫效度系数结构效度p结构效度指的是测验测行心理学理论所定义的某一心理结构或特质的程度。这种结构或特质的例子有智力、学术能力倾向、人格结构以及焦虑等。p这种结构或特质都是理论上定义的,其内涵与外延并不十分确定,人们之间的看法也可能有分歧;但又的确反映了客观存在着的心理现象与事实,所以又是可测的。通过分析这些结构与特质的性质,可以推论出一些假设,然后使用测验来检验这些假设。倘若测验结果能证实这些假设,那么这就从一个方面验证了测验的结构效度。p比如,我们知道,智力在人们儿童和青少年时期,会随年龄增长而发展提高,因此,智力测验的分数也应随年龄增大而增加,直到个人成熟为止。如果所编出的智力测验,施测结果说明情况果真如此,能证实这种看法,我们就说从发展成熟的角度看,所编智力测验确具有较好的结构效度。提高测验信、效度的方法n测验中题目的数量应适当,不能太少。n紧密围绕教学大纲和教学目标命题。n考核内容应全面,并能有效代表学生应掌握的知识领域。n测验的整体难度适当,不同类型、不同难度的题目应保持恰当比例。n少出偏题、怪题,一般应以考察基础知识和基本能力为主。练习1p某测验上,16名被试某题得分与测验总分情况如下表,试求该试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论