




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第二章测验的编制与项目分析苏州大学教育学院心理学系孔明2本章要点第一节测验编制的一般程序第二节测验的项目分析难度区分度3123第一节.测验编制的一般程序一、测验界定二、项目(题目)编写三、题目的预测和分析四、合成测验五、测验的标准化
及信、效度检验六、编写测验手册及测验出版4一、测验编制第一步:测验的界定51.1测验的界定测量对象:测什么人?儿童或/和成人…(年龄、智力水平、文化背景)测量目标:测什么内容?成就、智力、人格…测量目的:为什么测?描述、诊断、预测、选拔61.2确定测验编制的基本方法基于逻辑或内容:考虑行为的领域范围并进行相应的度量(如教育测验)基于理论:根据一种理论编写出能够反映理论构想的题目(如:16PF,EPQ)基于外部效标:选择那些能够将个体或群体做出区分的题目(如MMPI,CPI,罗夏墨迹测验等)
。基于经验7二.测验编制第二步:题目编写82.1题目的类型几种反应格式客观题:只有一个正确答案是非题,多选一,匹配题主观题:许多答案可能都是正确的填空题,简答题,论述题每种题目特点是什么?用于什么方面的测量?92.2题目编写规则:多择一题型Do…使用一个直接的问题或一个不完整的陈述作为题干选项或题干在语法和形式上保持一致对于那些不知道答案的人,所有错误选项都应看起来是可能的(迷惑性)限定使用“以上所有”Don’t…否定性题目,尤其是在题干是否定性的(双重否定)错误答案太明显选项之间相互重叠不应含有正确答案的暗示。如:选项长度10这些题有什么毛病?下面哪一项不是聪明孩子的特征?A他们情绪稳定B他们不拙笨C他们不如同班同学年龄大D他们很友好下面哪一种物质最硬?A纸板B玻璃C纸张D钢11这些题有什么毛病?用来测量学业成就的标准化测验叫做A成就测验,因为它测量了正式课堂学习B个案研究C特殊难度测验D智力测验有多少人居住在香港?A超过三百万B超过四百万C超过五百万D超过六百万12自陈式、及主观态度调查:人格是非题我喜欢干有冒险性的工作李克特(likert)评定量表:5点或7点评定朋友们通常把我看成是一个潇洒的人使用特殊符号用于态度调查你对XXX电视节目有什么看法?
23451很不象我非常象我132.2题目编写规则:主观态度调查题目Do…使用现在时态避免模糊与歧异使用简单明确的语言语句尽量短选择各种陈述以覆盖所有感兴趣的内容Don’t…询问事实使用每个人都会赞同或不同意的陈述使用“如果可能”使用双重否定使用全称命题(所有…)14这些题有什么毛病?当上级布置任务时,说不是不能接受的。我不相信我们的所有法律对公民都是有益的。如果你去问的话,人们不会告诉你他们大多数时间都在想什么。152.3小结:题目编写应用理论指导你的题目编写,不是只靠与外部效标的相关简明扼要-明确的指导语,简明的语言校对你的题目对可能的混淆有所预期考虑疲劳/厌倦因素163.测验编写第三步:预测及项目分析测题初步确定以后,在小样本范围内试测,以得到有关测题优劣的质的信息和量的指标,为增删项目提供依据。预测时应注意以下几点:(1)预测对象应取自将来准备应用的群体,要有代表性。在教育测验上,通常以370人为宜,智力测验至少要30人。如果测题的项目过多,在保证样本代表性的前提下,可以考虑对不同样组的被试实施不同的分测验。(2)预测力求按正规的要求进行,使其与将来正式的情况相近似。(3)预测的时限可适当放宽,最好使每个实验者都能将项目做完。(4)在预测过程中,应随时记录被试的反应情况3.1预测183.2项目分析(题目分析)测验由项目构成。项目的质量决定了测验的质量。项目分析可以帮助我们发现题目的问题,并加以调整。在测验建构中起着重要作用。项目分析可以从质和量两个方面进行。质:内容与形式量:统计学特性项目的选择的标准首先是鉴别力要高。埃贝尔(I.Ebel)提出的标准在根据鉴别力所选出的一系列的项目的基础上,再依据难度指数选择合适的项目。因为中等难度的项目能产生最大的变异,故最好应选择难度介于0.35-0.65之间的测题,而后还需要选出少数较难和较易的测题,这样使整个难度分布近似常态分布。根据鉴别力和难度选出合适的项目后,应该再次对照编制计划,看看比例有无失调考虑测验的长度问题,一个测验应该包括多少测题才比较合适,要考虑测验的时限、受测者的年龄、测验的性质等3.3项目选择20四.合成测验测验一般有两种编排方式:并列直进式:这种方式按照测验的性质将测题组成若干分测验,同一分测验中的测题按其难度由易到难排列混合螺旋式:将各类测题依照难度或年龄分成若干层次,再将不同性质的测题加以组合,作交叉式排列,难度则渐次上升。4.1项目编排编制复本就是编制几个等值的测验。复本等值必须符合以下几个条件:(1)各份测验测量的是同一种心理特质。(2)各份测验包含相同的内容范围,但题目不应有重复。(3)各份测验题型相同,题目数量相等,并且有大体相同的难度分布。4.2编制复本只要有足够数量的题目,编造复本的手续是很简单的。先将所有选出的项目按难度由大到小或从小到大排列,次序为1、2、3、4、5、6、7、8、9……,如果要分成两个等值的复本,则A本:1、4、5、8、9……B本:2、3、6、7、10……如果要分成三个等值的复本,则A本:1、6、7、12、13……B本:2、5、8、11、14……C本:3、4、9、10、15……4.3编制复本24五.测验的标准化及信效度检验测验内容的标准化施测条件的标准化评分标准的标准化分数的转换和解释的标准化,要制定测验常模测验编好后,要对其测验的可靠性和有效性加以评估,这就是测验的信度和效度问题。5.1测验的标准化和信、效度检验26最后的问题所有题目测量同一种东西吗?如果测量两次,会得到相同或近似的结果吗?如果两个评分者改卷,得到的结果相同吗?测验内容适当地测量了我们想要测的东西吗?我们得到的结果适当地反映了要测的东西吗?我们实际测量的是我们想要测量的东西吗?27五.编写测验手册及测验出版285.1测验出版这一步是可选择的测验材料用户手册技术手册出版商29第二节.测验的项目分析30项目分析的两个基本方面难度(difficulty)项目的难易程度(人们做对一个题目的比例)区分度(discrimination)项目是否对不同类型的人群有不同的难度(如高分者和低分者;性别或种族等各种人群)312.1项目难度(一)项目难度的定义项目难度:正确作对一个题目的比率或通过百分比(percentagepassing)。32(二)难度的计算计算1.二分法记分项目的难度(0或1记分)2.非二分法记分项目的难度(连续记分)
1、二值计分项目的难度(1)通过率二值计分:项目的计分只有答对和答错两种情况,计为1或0通过率:以答对百分比(或比率)当项目以1、0计分时,难度等于通过率例如:在200个学生中,答对某题的人数为120人,则该项目的难度为1、二值计分项目的难度(2)极端分组法当项目以1、0计分,而人数较多时,难度等于总分上高分组与低分组通过率的平均数例:假设有370个被试,取其中成绩最高的27%(100)人定为高分组,成绩最低的27%(100)人定为低分组,对于某一道试题,若高分组有60人答对,低分组有30人答对,则:Ph=60/100=0.60Pl=30/100=0.30所以该题的难度为P=(0.6+0.3)/2=0.452、多值计分项目的难度当项目以多值计分时,难度等于平均分与满分之比。例如:设某一问答题满分是20分,全体考生在该题上所得的平均分为10分,则该题的难度为:P==10/20=0.5037难度的计算例:语文测验中一道造句题,满分为5分,100名学生在该题的得分的总和为273分,则该题的难度为:
P=273/(5100)=0.5538(三)选择题难度的校正
——对题目而言选择题允许猜测,因而答对人数比率或得分率可能因机遇作用而增大,所以,难度会值可能假性偏大。备选答案的数目越少,机遇的作用越大。为了平衡机遇对难度的影响,可按吉尔福特公式对P值进行校正
CP=(KP-1)/(K-1)(K为选择项数目,P为校正前的难度,CP为校正后的难度。)
例如:一个五择一的测题难度指数为0.50,一个四择一的测题难度指数为0.53,哪一题的难度大?五择一的测题矫正后难度指数为CP=四择一的测题矫正后难度指数为CP=可以看到,和未矫正前相反,五择一的测题更难一些。40(三)选择题难度的校正
——对被试而言对某个被试来说,参加由多个项目组成的测验,同样有必要对他们的得分进行校正:S=R-(S为校正后的得分,R为被试答对的项目数,W为被试答错的项目数,K为项目的选项数目)
41猜测校正的优缺点正:可避免降低测验信度可以反应被试的真实水平比较公平反:公式的基本假设不成立只要被试答完全部题目,猜测校正无实质作用对信度影响不大有时出现无法解释的现象
42(四)理解难度应注意的问题1.数值与题目的实际难度是一种反序的关系。P值越大,难度越小。2.难度是一种等级量表,而不是一个等距量表,它的计算单位是不等的,因此不能进行四则运算。3.任何一个题目的难度值都是以一定的被试为对象计算出来的,其数值的高低依赖于选取的样本。43(五)难度对测验的影响
1、影响题目的分数的变异所有被试在某个题上得分的标准差我们知道如果两个变量的和为定值,则在两个变量相等时,其乘积最大。因为p+q=1所以,当p=q=0.5时,pq有最大值,此时分数的变异最大。P值偏离0.5越大,分数的变异越小;当p=0或1时,所有被试的得分将全部相同,所有分数间不存在差别。可见,题目的难度值P的大小影响题目得分的标准差的大小,当一个题目的P=0.5时,往往该题目具有最高的区分度。442、测验难度对测验分数的分布的影响正偏态(平均值位于低分一端)负偏态(平均值位于高分一端)当标准样本的分数分布为偏态时,需要对题目进行调整。它可能包含了很多过难或过易的题目。增加或删除一些题目。453.影响测验信度与效度题目难度直接左右着分数的变异与分布,影响分数间的相关,从而使测验的信度和效度受到难度的制约。当组成测验的所有题目在难度上近似0.5即难度适中时,信度和效度都可能提高。46(六)影响题目难度的因素1.题目内容的熟悉程度相同的内容对于具有不同知识经验的被试来说,其难度是不一样的。这是题目难度相对性的主要原因。2.考查的层次记忆、理解属于低层次的目标,比应用、评价等高层次的目标的要求低,难度也小些。教育目标的层次是从低到高,从简单到复杂,难度是逐渐增高的。3.题目的形式这题目与结论之间的关系的隐蔽性、题意表达的清晰度、题型的灵活性、抽象性以及干扰因素的多少等都是影响题目难度的重要因素。47影响题目难度的因素4.题目的信息量题目包含的信息越多,条件越复杂,叙述越长,被试的阅读和理解时间也就越长,题目的难度相对大一些。5.时间限制相对于数目数量而言,时间越多,题目越容易。
难度分析的主要目的是筛选项目,项目的难度水平取决于:测验的目的:如果测验是为了筛选少数人,那难度要比较高或比较低,如要筛选出天才儿童,那难度就要高,如要筛选出学习困难的儿童,那难度就要低.测验的作用:
如果测验用于选拔和录用人员,那难度最好与录取率比较接近.如果要想通过测验对被试作最大程度的区分,题目的难度以中等程度为最佳.这也是大多数标准化心理测验的目的.(七)难度水平的确定——最佳难度49(七)难度水平的确定——最佳难度一般而言,一个测验的P=.50是最佳的。WHY?当P=.50时,分数(0-1)的标准差最大测验过难或过易,分数全距缩小,信度降低。此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.50±0.20之间变化。为什么不要P=1或P=0的题目?因为他们没有为区分人提供有用信息。50(七)
难度水平的确定——最佳难度1、标准参照测验、掌握测验:不考虑难度;
2、选拔测验:难度=录取率;如:你想录取15%的人,那么,应选择那些题目,其平均正确率为15%
3、对于选择题来说,难度一般应大于猜测概率;4、无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。选项数与最佳难度值
_____________________________
选项数(K)最佳难度值(P)20.8530.7740.7450.69--------------------------------------------
选择题的难度确定还与其选项数有关.选择题有猜测答对的可能性,选项数多则猜对的可能性就小,而选项数少则猜对的可能性就大,所以选择题的难度确定也要根据选项数来确定.(八)测验难度水平的确定整个测验的难度取决于组成这个测验的各个试题的难度。整个测验难度水平的确定,需要根据测验分数的分布作出。正偏态由于缺少难度低的项目,所以大部分被试分数会集中于左侧低分端,说明测验过于困难。负偏态大多数被试集中在右侧高分端,接近满分,这说明测验很多项目太容易了,缺少难的项目。正态假如在难度中等(P为0.50)并且项目组间相关为零的条件下,分数的分布将为正态。(九)项目难度的等距变换通过率是以何种量表水平表示难度?1、使用项目难度等距量表的理由
第一,测题的难度一般用答对某题的人数比率或百分比表示。百分量表是顺序量表,不是等距量表。因此不能比较题目之间的具体差异。第二,难度量表是反序而行的,P值越大,项目越容易,转换成等距量表后更清晰明了。2、转换为等距量表的方法查标准正态分布表,将以等级量表表示的P值转换成具有相等单位σ的等距量表Z值。P值作为正态曲线下面积时,要从右向左而行。56根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。
P
Y0Z例在正态分布中,平均数之上或之下一个标准差的距离约占全体人数的34%如果在一个测验中某项目A通过率为84%(0.84),那么这项目的难度-1σ如果某项目B的通过率只有16%,则这个项目的难度为+1σ若某题C恰好有50%的人通过,则此题的难度为058ZYP.00.39894.00000.50.35207.191461.00.24197.341341.50.12952.433191.96.05844.475002.00.05399.477252.50.01753.493792.58.01431.495063.00.00443.498653.50.00087.499773.99.00014.4999759美国教育服务中心以Δ作为难度指标:Δ=13+4Z
(平均值为13,标准差为4的标准分数)P=.0013Z=+3Δ=25P=.16Z=+1Δ=17P=.50Z=0Δ=13P=.84Z=-1Δ=9P=.9987Z=-3Δ=1Δ=13+4ZΔ:常态化等距难度指标,13为平均数,4为标准差,Z为以σ为单位的Z值。如,上面所举的例中,其Δ难度值为:题目A:通过率P=0.84Z=-1Δ=13+4×(-1)=9
题目B:通过率P=0.16Z=1Δ=13+4×1=17
题目C:通过率P=0.50Z=0Δ=13+4×0=13
如果一个题目几乎所有被试都通过(99.8%),
则其Z=-3,Δ=13+4×(-3)=1
如果一个题目答对的人很少(0.13%),
则其Z=3,Δ=13+4×3=25612.2区分度(一)区分度的定义区分度:一个题目正确区分测验想测行为的程度。也称为题目效度。题目区分度的统计指标:区分度D介于-1.00与+1.00之间。D>0积极区分D<0消极区分D=0无区分作用(二)区分度的估计方法1、鉴别指数法
2、相关法1、鉴别指数法
比较测验总分高和总分低的两组被试在项目通过率上的差别例如:某高中物理测验,高分组在第5题上的通过率为0.75,低分组的通过率为0.35,则该项目的鉴别指数为:D=0.75-0.35=0.401965年,美国测验专家伊贝尔(L.Ebel)根据长期的经验提出用鉴别指数评价项目性能的标准,如下表所示。区分度与难度有密切关系2、相关法
以项目分数与效标分数或测验总分的相关作为项目区分度的指标
续表(1)二列相关二列相关适用于两个连续变量,但其中一个变量被人为分成两类。公式为:
或例:下表有20个学生语文测验总分以及在作文题和一个选择题上的得分情况,假设作文37分(包括37分)算通过,试计算作文题的区分度。
解:(2)点二列相关点二列相关适用于一个变量为连续变量,另一个变量为二分变量的数据资料。公式为:
例如:根据上例的资料,计算选择题的区分度。解:back75总结:区分度的计算相关法测验分数与题目分数的相关积差相关二列相关点二列相关四分(Phi)相关。。。鉴别力指数法D=PH-PL
PH=高分组的通过率PL=低分组的通过率极端组的确定:分组可以是测验总分,也可以是效标分数D在-1和+1之间76思考:如果一个测验的每个题目都是P=.50,那么,它会是一个好测验吗?77(三)区分度的相对性(1)不同的计算方法,所得区分值不同区分度有几种计算方法?
(2)样本容量大小影响相关法区分度值的大小
样本越大,区分度越……(3)分组标准影响鉴别指数分组越极端,区分度越……(4)被试样本的同质性程度影响区分度值的大小样本越同质,区分度越……782.3项目分析的特殊问题(1)多重选择题的项目分析(诱答分析)对于多重选择题,除了分析难度和区分度外,还要对每个选项进行分析。79
如果所有被试都选择某一正确的选项,说明……
如果没有一个被试选择某个错误选项,说明……
如果所有被试都选择某个错误选项,说明……
如果高分组被试
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 今年汉语考试题及答案
- 软件服务外包合同范本
- 酒吧安装设备合同范本
- 活动礼品赞助合同范本
- 软件服务垫资合同范本
- 矿山施工转让合同范本
- 电脑保养外包合同范本
- 网络公司终止合同范本
- 甲方手工修改合同范本
- 安徽省芜湖市酒店消防安全测试题七(含答案)
- 2025劳动合同书(示范文本)
- GB/T 27060-2025合格评定良好实践指南
- DB45∕T 2789-2023 壮医药线点灸治疗护理技术操作规范
- 分子诊断技术在感染性疾病中的应用-深度研究
- 《智能AI分析深度解读报告》课件
- 行测5000题电子版2025
- 《规训与惩罚》课件
- 【MOOC】声乐作品赏析与演唱-扬州大学 中国大学慕课MOOC答案
- 2024年版机电产品国际招标标准招标文件
- 糖尿病高血压健康教育
- 铜府字202322号铜鼓县革命文物保护利用专项规划(公布稿)
评论
0/150
提交评论