心理与教育测量第六章_第1页
心理与教育测量第六章_第2页
心理与教育测量第六章_第3页
心理与教育测量第六章_第4页
心理与教育测量第六章_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于心理与教育测量第六章第六章测验的项目分析测验项目的难度测验项目的区分度分析猜测问题与猜测率多重选择题的项目分析第2页,共61页,2024年2月25日,星期天第一节测验项目的难度难度的意义项目难度的计算测验难度水平的确定难度的等距变换难度对测验的影响第3页,共61页,2024年2月25日,星期天一、难度的意义难度分类项目难度和测验难度。本章主要讲项目难度。难度定义难度是测验项目的难易程度。通常用“P”来表示。一个测验项目,如果大部分被试都能答对,则该项目的难度就小;反之亦然。CTT下的难度特征难度是测验项目性质与被试水平共同作用的结果。如果测验项目需要较复杂的心理操作,那么被试水平高时,得到的难度值就小;反之得到的难度值就大。第4页,共61页,2024年2月25日,星期天二、项目难度的计算得分率法通式(所有项目都适用):为全体被试在项目上的平均得分,F为项目满分值。特式(针对二分法记分项目):其中P代表项目难度;N为全体被试数;R为答对通过该项目的人数。

第5页,共61页,2024年2月25日,星期天高低分组法通式:其中、分别为总分排名在前27%的高分组和后27%低分组被试在要计算难度的项目上的平均分。F为满分值。特式:=(RH/NH+RL/NL)/2其中和分别代表高分组与低分组的通过率。RH和RL分别代表高低分组答对人数,NH和NL分别代表高低分组总人数。第6页,共61页,2024年2月25日,星期天举例:请分别用通过率法和高低分组法计算下列两题难度第7页,共61页,2024年2月25日,星期天二、测验难度水平确定取决于测验的目的目标参照性测验可以不过多考虑项目难度,只要客观标准要求掌握的内容均应适用。常模参照测验应使项目平均难度为0.5,项目难度范围为0.5±0.2。选拔性考试应将项目难度控制在录取率附近分布,或使对选拔点附近的被试有0.5的难度,或难度为录取率。取决于测验的性质速度测验难度不宜太高,项目难度值基本相等。难度测验要求难度值在0.5左右。无论速度还是难度测验,都要防止被试得满分。第8页,共61页,2024年2月25日,星期天四、难度的等距变换难度转换的目的难度为通过率,属于等级量表水平,需要转换为等距量表水平才能进一步进行加减运算。难度到Z分数的转换。以通过率P在标准正态分布表中查得对应的Z分数。由于Z分数存在负数和小数点,需要将Z分数作进一步的线性变换。ETS常采用下列换算公式:Δ=4*Z+13。Δ越大,难度越大。第9页,共61页,2024年2月25日,星期天五、难度对测验的影响测验难度影响到测验分数的分布形态。测验难度太大,测验分数将呈正偏态分布。测验难度太小,测验分数将呈负偏态分布。测验难度中等,测验分数将呈正态分布。测验项目的难度分布影响到测验分数的离散程度,进而影响到信度。Ebel的实验。如下一幻灯片所示。Ebel的研究结论:项目的难度集中在0.5左右为最佳。测验项目的难度会影响到项目的区分度。(区分度这节再讲)第10页,共61页,2024年2月25日,星期天第11页,共61页,2024年2月25日,星期天第二节测验项目的区分度项目区分度的意义区分度的计算区分度与难度的关系区分度的相对性第12页,共61页,2024年2月25日,星期天一、项目区分度的意义定义:区分度指测验项目对被试心理特质水平差异的区分能力。通常用D表示。区分度价值:将优劣被试准确区分是测验项目的职能,区分度是对项目这项职能高低的评价指标,是评价项目质量,选择优秀项目的依据。区分度标准:本来应找客观外界标准,也即类似于效标的测量,但因比较困难,故转而在测验内部找,实际以测验总分为标准,称其为内部效标。第13页,共61页,2024年2月25日,星期天区分度的实质:项目得分与总分的一致性程度。区分度取值范围:[-1,1],D为0无区分作用,D值为正,表示积极区分,越大区分效果越好,D<0表示消极区分。第14页,共61页,2024年2月25日,星期天二、区分度的计算高低分组法(也称鉴别指数法)适用范围:二分法记分的测验项目。计算公式:评价标准:Ebel的研究结果

D

评价0.40以上0.30—0.390.20—0.290.20以下优良良好,修改更好合格,必须修改差,淘汰第15页,共61页,2024年2月25日,星期天相关系数法点二列相关二列相关φ相关积差相关第16页,共61页,2024年2月25日,星期天(一)点二列相关适用范围用于总分是连续变量,题分是二分变量情况。显著性检验可用积差相关检验。计算公式其中p、q为答对和答错的人数比率。与对应于答对和答错该项目的被试的总分平均数,为所有被试总分的标准差。第17页,共61页,2024年2月25日,星期天举例:请计算该题区分度第18页,共61页,2024年2月25日,星期天(二)二列相关适用范围题分和总为均为连续变量,但人为地将其中一个变量(既可以是总分,也可以是题分)区分为二分变量(例如,将总分为及格和不及格两类)。计算公式y是标准正态曲线下p与q交界处的Y轴高度(曲线高),要查正态分布表。第19页,共61页,2024年2月25日,星期天二列相关的显著性检验第20页,共61页,2024年2月25日,星期天第21页,共61页,2024年2月25日,星期天(三)φ相关适用范围总分区分为高分组和低分组,项目得分区分为通过和未通过。即两个变量均为二分变量时。资料整理成四格表(注意:格式中的符号表示该格的人数)高分低分通过ab未通过cd第22页,共61页,2024年2月25日,星期天计算公式:其中a、b、c、d为四个格子的人数。为φ相关系数。Φ相关的显著性检验使用检验,其中自由度df=1。检验公式为:第23页,共61页,2024年2月25日,星期天举例:请计算该题的区分度第24页,共61页,2024年2月25日,星期天(四)积差相关例子:请用积差相关法计算下列论述题的区分度。第25页,共61页,2024年2月25日,星期天三、区分度与难度的关系D的最大值与项目难度的关系(理论上)第26页,共61页,2024年2月25日,星期天题目的综合分析和筛选①整个测验的平均难度应保持在0.5左右。②测验中各项目之间有一定相关,为了使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布。③每项题目理想的区分度都应在0.3以上,至少是0.2。第27页,共61页,2024年2月25日,星期天四、影响区分度的因素效标不同,区分度不同。应选择较好的效标。不同的计算方法,所得区分度不同在分析同一个测验时,各个项目的区分度值要采用同一种指标。样本容量大小影响相关法区分度值的大小样本容量越小,区分度的计算值越不可靠。采用相关法计算的区分度要进行显著性检验和计算统计检验力。第28页,共61页,2024年2月25日,星期天分组标准影响鉴别指数值一般情况下,取25%~33%,习惯上取27%。当效标分数较正态分布平坦时,比值应略高于27%。当样本团体人数过少(例如样本容量n<100)时,可按50%的规则选取高低分组被试。被试样本的同质性程度影响区分度值大小同质性高,区分度小。区分度高低受被试样本团体特质水平影响。※因此不能将区分度作为筛选试题的绝对标准。第29页,共61页,2024年2月25日,星期天五、提高题目区分度方法(1)控制好题目难度。将题目难度在0.5左右时,区分能力理论上会比较高。(2)保证题目所测心理特质与全卷所测心理品质的一致性。(3)题干及答案无歧义。(4)语言准确规范。(5)借助选项分析提供的信息对不良选项进行修改,以提高题目区分能力。第30页,共61页,2024年2月25日,星期天综合练习一试卷施测于十一名被试,结果如附表。第31页,共61页,2024年2月25日,星期天请求取:(1)第二、第五两题的难度。(2)第三题的区分度(点二列相关)。(3)第六题的区分度(高低分组法)。(4)全卷信度α系数。(5)试卷实证效度。第32页,共61页,2024年2月25日,星期天第三节猜测问题与猜测率客观测验题中的猜测问题与猜测率项目难度受猜测影响的校正第33页,共61页,2024年2月25日,星期天一、客观测验题中的猜测问题与猜测率客观测验题中的猜测问题测验分数确实反映了被试的真实特质水平还是因为猜测而获得成功?猜测误差的来源猜相对于不猜引起的误差是否猜得对引起的误差猜测率是指被试全凭随机猜测而答对题目的概率。猜测行为主要出现在客观题(如选择题、是非判断题、配对题等)第34页,共61页,2024年2月25日,星期天二、项目难度受猜测影响的校正猜测校正公式(前提:猜测是随机猜测)因猜测对项目难度的校正其中CP为校正后难度,K为备选答案数,P为实际难度。

因猜测对个体得分的校正其中R为原答项目数,W为错答数,K为为选项数。第35页,共61页,2024年2月25日,星期天举例有A、B两个测题,项目A为四重选择题,通过率为0.58;项目B为五重选择题,通过率为0.56,试比较两题校正后的难度。某被试参加由100道四重选择题组成的测验,每题1分,测验结果是82分,请问其校正后的分数是多少?第36页,共61页,2024年2月25日,星期天猜测校正的争议赞成猜测校正的理由通过猜测校正可避免降低测验的信度。校正后的得分可以反映被试的真正水平的能力。在教育测验中,可培养被试诚实的美德。比较公平。不同试题间的难度比较分析需要校正。第37页,共61页,2024年2月25日,星期天不赞成猜测校正的理由公式的基本假设不成立。只要被试能答完全部试题,猜测校正就无实质作用。不采用猜测校正对信度并无重大影响。有时会出现无法解释的现象。合理猜测是值得培养的好习惯。综合观点:如果答题时间充裕,选择题的备选答案数目在四个或四个以上,则没有必要校正记分。第38页,共61页,2024年2月25日,星期天第四节多重选择题的项目分析多重选择题项目分析的作用与内容项目能否测到要测的心理特质;项目难度是否恰当;项目的区分度能否达到要求;正答选项选答率是否恰当;正答选项在高低分组上选答率是否正差?差距是否足够大?诱答选项选答率是否恰当;诱答选项在高低分组上选答率是否是负差?差距是否足够大?第39页,共61页,2024年2月25日,星期天具体分析步骤:1、根据被试的测验总分,对被试进行排序2、确定高分组和低分组被试3、分别登记高分组被试和低分组被试在每个备选项的人数及未作答人数(也可以是人数百分比),最终整理成类似下表中的数据资料第40页,共61页,2024年2月25日,星期天4、根据第3步整理好的数据资料,进行具体分析第41页,共61页,2024年2月25日,星期天选项分析的方法及选项修改原则

1、首先分析两组平均选答率正确答案的平均选答率(即难度)最佳值为:第42页,共61页,2024年2月25日,星期天每个干扰项应该平均分剩余的选答率。如果正确答案的选答率过高或过低,这都不利于区分高分组和低分组被试。如果某干扰项选答率特低,则说明该干扰项错的过于明显应加以淘汰;若某干扰项选答率特高,则要考虑该题正确答案是否错误或有两个正确答案。2、对于正确答案主要考察高分组和低分组被试在正确答案上的选答率是否是正差,及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是正差,且这一差距足够大时,这时题目质量较佳。第43页,共61页,2024年2月25日,星期天3、对于干扰项考察高分组和低分组被试在干扰项上的选答率是否是负差,及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是负差,且这一距差足够大时,这时干扰项的设置比较合理,否则干扰项设置不合理,应对干扰项进行删除或修改。4、其它①如果高分组被试的选答集中在两个答案上,且人数又相近,说明此题可能有两个正确答案,或者在某种意义上另一个选择项也有一定道理。应考虑题目本身是否存有歧义或有两个正确答案。第44页,共61页,2024年2月25日,星期天②如果高分组对正确答案的选答率与低分组相等或低于后者,说明该题所考察东西与被试水平无关,即不具有鉴别力,此题应作大修改或删除。③如果一个题目被试未作答的人数较多(速度测验除外),或选择各个备选项答案的人数相等,说明该题目过难或题意不清,被试无法作答或全凭猜测。应修改或删除本题。第45页,共61页,2024年2月25日,星期天举例下表为一个由370人参加的英语测验中四道选择题的统计结果,试分析每题难度、区分度是如何计算出来的?并对这四题的选项质量进行评价。第46页,共61页,2024年2月25日,星期天第47页,共61页,2024年2月25日,星期天第48页,共61页,2024年2月25日,星期天③选项分析:第1题,正确答案和干扰项的两组平均选答率都基本正常,在正确答案上高分组的被试选择人数要多于低分组被试,且在非正确选项上,高分组的被试选择人数要少于低分组被试,这符合实际情况,四个选项的设置均较合理;第49页,共61页,2024年2月25日,星期天第2题,正确答案和干扰项B的两两组平均选答率基本一致,且正确答案上高分组的被试选择人数要少于低分组被试,而在非正确选项B、D上,高分组的被试选择人数要多于低分组被试,这均不符合实际情况,且高分组被试中选择人数最多的为选项B,则要考虑该是否有2个正确选项,因此该题选项设置较差,因此整题质量较差。第50页,共61页,2024年2月25日,星期天第3题,选项A、B、D两组平均选答率都基本正常、设置均较合理,但选项C需修改;第4题,选项A、D设置合理,选项C设置不合理需修改,不论高分还是低分组被试均无人选择B,该选项无任何迷惑作用,可删除该选项,并换其它具有迷惑性的选项。第51页,共61页,2024年2月25日,星期天练习第52页,共61页,2024年2月25日,星期天补充:题目功能差异与测量偏差控制

题目功能差异、测量偏差定义及其侦查方法题目功能差异及测量偏差定义“某年的高考实验试卷有一道关于鱼头和鱼尾作文题:第一幅是母亲把鱼中段夹给年幼的儿子,自己吃鱼头鱼尾;第二幅漫画是儿子长大了,把鱼头鱼尾留给母亲吃,自己吃鱼中段。要求被试就此发表议论,写一篇作文。”第53页,共61页,2024年2月25日,星期天题目功能差异(differentialitemfunction,DIF)是指不同群体对同一题目的答对概率(或得分率)不同,即不同群体在同一题目上得分存在差异。造成题目功能差异的原因可能是群体间本身水平存在差异,也可能是群体本身水平不存在差异而由于其它原因(如风俗习惯、性别、种族、地域)所致。第54页,共61页,2024年2月25日,星期天若题目功能差异是由前者引起,则称为良性题目功能差异;若是由后者引起,则称为不良题目功能差异,即存在测量偏差。题目功能差异主要是针对不同群体而言,目前测量学领域关注较多群体差异主要有性别差异、地区差异、种族差异、跨文化差异等。因此有DIF的题目不一定存在测量偏差,良性DIF不存在测量偏差,不良DIF才存在测量偏差;但有测量偏差的题目一定存在DIF。第55页,共61页,2024年2月25日,星期天在题目功能差异研究中还有一对重要概念:一致性DIF和不一致性DIF。一致性DIF是指被试的能力水平与其组别之间不存在交互作用,即在所有的能力水平上,一组被试回答某一项目的正确率都大于另一组。当被试的能力水平与其组别之间存在交互作用时,则表现为非一致性DIF。题目功能差异及测量偏差侦查方法要侦查题目是否存在测量偏差,首先应侦查题目是否存在DIF,若不存在DIF,则不存在测量偏差,若存在DIF,还应分析是良性DIF还是不良DIF,只有不良DIF才会造成测量偏差。第56页,共61页,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论