第六章 心理测验的编制.ppt_第1页
第六章 心理测验的编制.ppt_第2页
第六章 心理测验的编制.ppt_第3页
第六章 心理测验的编制.ppt_第4页
第六章 心理测验的编制.ppt_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章测验题目性能与题目编制,心理测量学,引子,心理测量的工具是测验,而题目则是构成测验的基石,因此研究题目的性能及其编制至关重要,它直接影响测量工具(即测验)的信度及效度,进而影响测量的准确性。在实际工作中,人们应如何来编制测验题目?如何评价测验题目质量的好差呢?本章将对这些问题做出回答。,心理测量学,测验题目性能与题目编制,第六章 心理测验的编制 第一节 心理测验编制的基本程序与原则 一、心理测验编制的一般程序 准备阶段 正式编制阶段 完善阶段,1、确定测验目的 (1)明确测量用途 用于描述、还是诊断,或用于预 (2)明确测量目标 心理变量或行为特征必须有操作定义,目标要非常具体。 (3)

2、明确测量对象 年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。,(一)准备阶段:确定目的与制定计划,2、制定编题计划 通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容和技能的相对重视程度。 例:小学自然常识测验编题计划,(二)正式编制阶段:产生测题与合成测验 (二)正式编制阶段:产生测题与合成测验 1、产生测题 (一)收集测验资料 (1)资料要丰富 (2)资料要有普遍性 (3)资料要有趣味性,(2)选择项目形式 纸笔测验还是操作测验?是客观题还是主观题? 概念和原理的记忆简答题 辨别和判断选择题 综合运用论文题 幼儿口头测验 文盲、半文盲、聋哑操作测验

3、人多、经费有限团体测验 人少个体测验,(3)编写测验项目 题目范围要与双向细目表一致; 题目数量要比最终所需要的数量多,以便筛选或编制复本; 题目的难度应有一定的分布范围; 用词力求清楚明白。,2、合成测验 (1)试测与复核 应取自将来正式测验准备应用的群体 施测过程与施测情景 时限可稍宽一些 记录被试的各种反应。,(2)项目选择与编排 项目选择 质的分析:内容取样、题目的思想性、表达是否清楚 量的分析:难度、区分度、备选项分析 测验项目的编排 直接递增式 并列直进式 混合螺旋式,(3)编制复本 各份复本必须等值。等值要符合下列条件: 各份测验测量的是同一种心理特性。 各份测验具有相同的内容和

4、形式。 各份测验的题目不应重复。 各份测验题目数量相等,难度和区分度大体相同。 各份测验的分数分布(平均数和标准差)大致相等。 复本编好后,应再测一次,以确保各份测验的等值。,(三)完善阶段:测验标准化与性能评估,1、测验标准化 测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准,以减少无关因素对测验的影响。 (1)测验内容 指测验内容对所有被试都一样。 (2)施测过程 测验情景 指导语 时限,(3)测验评分 为使评分尽可能客观,有三点要求: 对被试反应的及时和清楚的记录。特别是对口试和操作测验。 要有一张标准答案或正确反应的表格,即计分键。 将被试的反应和计分键比较,对反应进行

5、分类。 (4)测验分数的解释 常模参照 标准参照:内容参照,结果参照,2、测验性能评估 (1)信度(2)效度(3)测验量表与常模 3、编写测验说明书 测验的目的和功用; 编制测验的理论背景以及选择题目的根据和测验的构成; 测验的实施方法、时限及注意事项; 测验的标准答案和评分方法; 测验的信度和效度资料; 常模资料。,二、心理测验编制的主要原则,(一)心理测验编制的基本原则 信度好 效度高 难度适中 区分度强,(二)心理测验编制的具体要求 1.针对题目内容的要求 (1)试题要符合测验的目的。 (2)内容取样要有代表性。 (3)各个题目必须彼此独立,不可互相牵连,不要使一个题目的回答影响另一个题

6、目的回答。 2. 针对题目语言的要求 (1)文句要简明扼要,既排除与解题无关的因素,又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。 (2)一个概念一句话。 (3)意义明确肯定,避免使用双重否定句。,三、心理测验编制的具体技术,3.针对题目表达的要求 (1)题目中不可含有暗示本题或其他题正确答案的线索。 (2)所提问题应避免涉及社会禁忌与个人隐私。 (3)避免使用主观情绪化字句和问题 4.针对题目理解的要求 (1)应有不致引起争论的确定答案(创造力测验、人格测验除外)。 (2)题目格式不要使被试产生误解。 (3)题目内容不要超出受测团体的知识和能力。,第四章测验题目的性能与题目编制,心理

7、测量学,第一节,一、测验题目类型 题目主要可分为客观题和主观题两大类。 客观题一般有标准唯一的答案,被试的作答只有与标准答案完全一致才视为答对,否则视为答错。 主观题无标准唯一答案,只有一个参考答案,被试的作答与参考答案相近或基本一致就可视为答对。,心理测量学,客观题主要包括选择题(含自陈式选择题)、填空题、是非判断题、匹配题、行为情景判断题等。 主观题主要包括名词解释、简答题、计算题、证明题、论述题、案例分析题、作文题等。,心理测量学,单项选择题 多项选择题 自陈式选择题 是非判断题 名词解释题 简答题,计算题 证明题 论述题 案例分析题 组合题 行为情景判断题,心理测量学,二、选择题 1、

8、定义:选择题指给出题干及备选项,要求被试根据题干从备选项中选出正确选项的题目。单项选择题指只有唯一正确选项的选择题。 2、特点功能: 评分标准明确,评分客观,有利于减少评分带来的评分误差。 有利于对基础知识和基本技能进行考查。,心理测量学,选择题适合考查较低层次的能力,如识记能力、较低的理解能力等,而不宜考查较高层次的能力,如综合能力、创造性和独立思维能力。 选择题的命题技术要求较高,尤其是干扰项的设置。,心理测量学,3、选择题编制 题干要描述清楚。应让答题者明白问题是什么,希望答题者解决什么 题干中应尽量避免出现与考核内容无关的材料 设问应尽量正向,尽量少出现如“下面哪个是不对的?”的设问,

9、心理测量学,题干文字的字体应尽量一致(,以减轻考生的阅读负担 备选项应避免出现逻辑上的包含关系 备选项的长度、结构、语言表达要尽量一致 增加干扰项的迷惑性 干扰项的设置应能反应考生缺乏特定的知识或技能,心理测量学,三、填空题 1、特点功能: 考查的能力层次范围比较广,主要考核识记和理解能力。 填空题要求考生把问题的最后答案或结论正确无误地表达出来,在一定程度上是对考生的严谨、严密、认真、细致的工作作风和科学态度的检查。,心理测量学,评分简单,误差也相对要小。 填空题只要求考生写出最后答案,而不必写出解题的具体过程,因此,从试卷上看不出考生的推理、分析等思考过程,心理测量学,2、填空题编制 试题

10、的空格处应考查有意义的关键性内容或词语。 每小题的空格数不宜过多,填写的字数也不能太多。 空格部分统一用下划线表示,长度应能满足答题需要 若空格处考核计算能力并要求填写数字,应在空格后标明数字的单位,心理测量学,三、论述题与计算题 1、定义: 论述题指对某一问题或议题进行综合论述的题目。它用于考查被试分析、综合、评价直至创新、创造等高层次能力。,计算题指主要是通过计算或运算来解答的题目。计算题内容量有大有小,常常用于考查被试的应用能力。一般要求给出条件完备无冗余,答案唯一。,心理测量学,心理测量学,2、特点功能: 论述题有利于考生独立地、创造性地解题。试题的能力考查涉及的知识面可以比较大,而且

11、要求考生通过分析去找出所涉及的知识并找出它们的内在联系。试题从定性分析到定量计算,工作量一般比较大。,心理测量学,论述题和计算题不仅能够考查考生较低层次的能力目标,而且能够比较好地考查较高层次的能力目标。,心理测量学,论述题和计算题能够反映考生的思维过程,因而能比较有效地考查考生接受信息、鉴别和选择信息的能力,分析、推理、综合应用知识的能力,能鉴别出考生对问题解决的程度。,心理测量学,论述题和计算题可以根据试题相应情境进行不同层次、不同角度的设问,如可以是单问,可以是多问,也可以是分步设问,使试题的考查目标比较明确。,心理测量学,论述题、计算题在评分过程具有一定的主观性。 论述题、计算题的最大

12、缺点是阅卷评分的工作量比较大,对阅卷人员的要求比较高,阅卷工作的费用较大。同时论述题、计算题评分误差较难控制,在控制不好的情况下,评分误差可能会很大。,心理测量学,四、行为情景判断题 1、定义: 行为情景判断题多见于心理测验中,它指给出一个日常生活中或工作中的具体情景,并针对该情景提供若干解决这一情景下具体问题的行为选项,并要求受测者进行选择/评价的题型。,2、特点功能: 与一般认知能力有较强的相关,平均达0. 54 跟大五人格因素的多项因素有中度以上的相关,如跟责任心的相关为0. 26 ,跟情绪稳定性的相关为0. 32 ,跟宜人性的相关为0. 25,心理测量学,心理测量学,跟所测领域个人的工

13、作经验、工作年限有统计显著意义的相关。 有些情景判断测验作探索性因素分析,可提取出一个大的一般因素,这时测验的内部一致性系数可为0. 86 对员工的工作绩效有较好的预测力,平均效度系数为0. 36,心理测量学,3、行为情景判断题编制 题目编制前应先确定所测特质的结构,然后在这一所测特质结构下征集或编写问题情景及行为反应项 问题情景应是现实生活中可能发生的,且有一具体的问题需要受测者来解决,解决问题的行为/方法不应是唯一的而是多样化的,问题情景应尽量叙述完整,清晰,语言规范,字数介于100-300 一般是根据相关有丰富经验的专家来确定行为项的优劣,然后将受测者的作答与专家的评定进行比较,从而确定

14、具体的计分方式及评价标准,心理测量学,心理测量学,行为情景判断题设问方式一般有四种形式:一是要求受测者选择最优行为项,二是要求受测者选择最差行为项,三是要求受测者同时选择最优和最差行为项,四是要求受测者针对每一行为项的有效性做出评价。应根据实际选择具体方式。,第六章测验题目的性能与题目编制,心理测量学,第二节,一、难度定义及其计算方法 (一)难度定义 难度是指题目的难易程度。如果一个题目绝大多数人都答对了,则这个题目比较容易;反之,若绝大多数人都答错了,则这个题目比较难。从难度定义可以看到,难度是题目性质与作答者群体水平共同作用的结果。,难度这一概念更多地用于能力测验中,在非能力测验(如人格测

15、验)中,一般称为“通俗性”(popularity level),即取自相同总体的样本中,在答案方向上回答该题的人数比。,心理测量学,心理测量学,(二)难度计算方法 1、得分率法 得分率指所有被试在题目上的平均得分占题目满分的百分比。计算公式为,心理测量学,心理测量学,2、极端分组法 极端分组法是指将被试按测验总分分为高分组和低分组,以两组得分率的平均值作为题目的难度。 极端分组法中,首先需对被试进行分组,根据被试的试卷总得分进行排序,各取首尾的27%(或25%、33%),组成高分组和低分组。,心理测量学,心理测量学,心理测量学,心理测量学,(四)等距难度指标及其求取 题目的难度一般用通过率或得

16、分率来表示,计算比较方便,但这类变量属于顺序变量,不具有相等的单位,不能具体比较难度的差异。,心理测量学,等距转换方法 当测验分数接近正态分布,根据正态分布将试题的难度P作为正态曲线下的面积,转换成具有相等测量单位的等距量表,即Z分数。,心理测量学,等距转换 但是Z值常含有负值,因此不易理解,通常需转换为另一种等距变量,其中较为常用的是美国教育测验服务中心采用的难度指标: 13+4*Z 式中表示题目的难度,Z表示由P转换得来的标准分数。,心理测量学,二、难度分布及其控制 (一)测验试题难度分布对测验分数的影响 1、难度对测验分数分布形态的影响 当测验题目过难时,测验分数呈负偏态分布; 当测验题

17、目过易时,测验分数呈正偏态分布; 当测验题目趋近中等难度,测验分数基本可呈正态分布。,心理测量学,2、难度对测验分数离散程度的影响 测验过难或过易,会使测验分数相对地集中低分端或高分端,这样被试的差异较小,即测验分数的离散程度很小,只有当测验趋近中等难度时,测验分数分布范围较广,离散程度就会大。,心理测量学,(二)、合理难度及合理难度分布 对于常模参照性测验而言,测验目的是为了区分被试、最大限度地将被试得分“拉开距离”。对所有被试而言,合理项目难度为0.5,分布范围应在0.3到0.7之间。,心理测量学,对于目标参照性测验而言,其合理难度分布是:对于恰好合格被试而言难度为0.5左右窄全距分布,也

18、即测验在合格与合格被试处有较高的区分能力。,心理测量学,(三)、合理难度及合理难度分布的控制 (1)对题目难度的控制 主要从考核的知识点及其能力层次等方面进行控制。 考核单一知识点的题目相对考核较多同类知识点的题目要容易。,心理测量学,考核能力层次相对要低(如识记和记忆)的题目,其难度相对低,而对于考核能力层次高(如理解、综合应用)的题目,其难度相对会高。 因而可以通过控制题目考核的知识点及其能力层次来达到控制试题难度。,心理测量学,(2)对试卷难度分布的控制 控制试卷难度分布是在控制试题难度的前提下进行,它主要是通过控制不同难度题目的比例从而达到所需的难度分布。,如果测验是选拔性测验,则难、

19、易题目所占比例应充分考虑选拔的比例; 如果是常模参照性测验,则中等难度题比例要多,而偏难偏易的题比例要少;如果是目标参照性测验,不同难度题的比例应结合“目标”(如课程标准或考试大纲)本身来确定。,心理测量学,第四章测验题目的性能与题目编制,心理测量学,一、区分度的定义及其计算方法 (一)、区分度定义 区分度指题目对被试特质差异的区分能力。若所有考生在某个题目均答对或均答错,则此题目不能区分不同特质的被试,即此题目无区分能力。,第三节,一般来讲,题目是否有区分能力,主要是看不同能力的被试在同一题目上得分是否不同。理论上,如果题目具有高区分力,那么高能力的被试在题目上应得高分,低能力被试在题目应得

20、低分,也即被试的能力与在题目上的得分应存高相关。,心理测量学,心理测量学,(二)、区分度的计算方法 1、相关系数法 该方法的基本思想是,若题目有好的区分度,则高能力的被试在该题上应得高分,低能力被试应得低分,即被试在题目上的得分应与测验总分相一致。 其基本假设是测验得高分的被试即为高能力被试,测验得低分的被试即为低能力被试。,心理测量学,(1)点二列相关法,心理测量学,(2)积差相关法,心理测量学,2、鉴别指数法,心理测量学,(三)、题目区分度计算实例 例4-2 下表是随机抽取22名被试在某语文测验中四道题目的得分情况,四题满分分别为1分、3分、5分和60分,其中第4题为作文题,请计算四题的区

21、分度。,心理测量学,心理测量学,心理测量学,二、区分度的评价标准及其提高 (一)、区分度的评价标准 区分度的取值范围为-1,1,区分度为负的(消极区分),题目性能不好,这种题目对测验总分合成起着不良的干扰作用。1965年美国测量学家伊贝尔根据长期经验提出如下标准。,心理测量学,心理测量学,(二)、影响题目区分度的因素 (1)题目难度 (2)被试群体的同质性 (3)全卷各题所测心理品质的一致性。 (4)题目本身的文字与内容的质量也会影响 题目的区分度,心理测量学,(三)、提高题目区分度方法 (1)控制好题目难度。将题目难度在0.5左右时,区分能力理论上会比较高。 (2)保证题目所测心理品质与全卷

22、所测心理品质的一致性。 (3)题干及答案无歧义。 (4)语言准确规范。 (5)借助选项分析提供的信息对不良选项进行修改,以提高题目区分能力。,第四章测验题目的性能与题目编制,心理测量学,第四节,一、猜测行为与猜测度 客观题中,当被试不知道正确答案时,被试可能会进行猜测。就目前而言,理论界对于猜测行为有两种截然相反的观点:一种认为应对猜测行为加于控制,另一种认为无需控制猜测行为。中。,猜测度是指被试全凭随机猜测而答对题目的概率。猜测行为主要出现在客观题(如选择题、是非判断题、配对题等),心理测量学,心理测量学,二、猜测度控制 增加选择题选择项的个数(一般不少于四个) 。 增加干扰项的迷惑性。 控

23、制存在猜测行为的总题量,以保证猜测误差控制在较小范围。 如有特殊需要,还可采用警告、扣分等方式控制被试的猜测行为。,第四章测验题目的性能与题目编制,心理测量学,第五节,一、选项分析基本过程 1、根据被试的测验总分,对被试进行排序 2、确定高分组和低分组被试 3、分别登记高分组被试和低分组被试在每个备选项的人数及未作答人数(也可以是人数百分比),最终整理成类似表中的数据资料,4、根据第3步整理好的数据资料,进行具体分析,心理测量学,心理测量学,二、选项分析的方法及选项修改原则 1、首先分析两组平均选答率 一般正确答案的选答率应该在0.4到0.6之间,每个干扰项应该平均分剩余的选答率。 如果正确答

24、案的选答率过高或过低,这都不利于区分高分组和低分组被试。,如果某干扰项选答率特低,则说明该干扰项错的过于明显应加以淘汰; 若某干扰项选答率特高,则要考虑该题正确答案是否错误或有两个正确答案。,心理测量学,心理测量学,2、对于正确答案 主要考察高分组和低分组被试在正确答案上的选答率是否是正差,及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是正差,且这一差距足够大时,这时题目质量较佳。,心理测量学,3、对于干扰项 考察高分组和低分组被试在干扰项上的选答率是否是负差,及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是负差,且这一距差足够大时,这时干扰项的设置比较

25、合理,否则干扰项设置不合理,应对干扰项进行删除或修改。,心理测量学,4、其它 如果高分组被试的选答集中在两个答案上,且人数又相近,说明此题可能有两个正确答案,或者在某种意义上另一个选择项也有一定道理。应考虑题目本身是否存有歧义或有两个正确答案。,心理测量学,如果高分组对正确答案的选答率与低分组相等或低于后者,说明该题所考察东西与被试水平无关,即不具有鉴别力,此题应作大修改或删除。 如果一个题目被试未作答的人数较多(速度测验除外),或选择各个备选项答案的人数相等,说明该题目过难或题意不清,被试无法作答或全凭猜测。应修改或删除本题。,心理测量学,例4-3下表为一个由370人参加的英语测验中四道选择

26、题的统计结果,试分析每题难度、区分度是如何计算出来的?并对这四题的选项质量进行评价。,心理测量学,心理测量学,选项分析: 第1题,正确答案和干扰项的两组平均选答率都基本正常,在正确答案上高分组的被试选择人数要多于低分组被试,且在非正确选项上,高分组的被试选择人数要少于低分组被试,这符合实际情况,四个选项的设置均较合理;,心理测量学,第2题,正确答案和干扰项B的两两组平均选答率基本一致,且正确答案上高分组的被试选择人数要少于低分组被试,而在非正确选项B、D上,高分组的被试选择人数要多于低分组被试,这均不符合实际情况,且高分组被试中选择人数最多的为选项B,则要考虑该是否有2个正确选项,因此该题选项

27、设置较差,因此整题质量较差。,心理测量学,第3题,选项A、B、D两组平均选答率都基本正常、设置均较合理,但选项C需修改;第4题,选项A、D设置合理,选项C设置不合理需修改,不论高分还是低分组被试均无人选择B,该选项无任何迷惑作用,可删除该选项,并换其它具有迷惑性的选项。,第四章测验题目的性能与题目编制,心理测量学,第六节,一、题目功能差异、测量偏差定义及其侦查方法 (一)、题目功能差异及测量偏差定义 “某年的高考实验试卷有一道关于鱼头和鱼尾作文题:第一幅是母亲把鱼中段夹给年幼的儿子,自己吃鱼头鱼尾;第二幅漫画是儿子长大了,把鱼头鱼尾留给母亲吃,自己吃鱼中段。要求被试就此发表议论,写一篇作文。”

28、,心理测量学,题目功能差异(differential item function,DIF)是指不同群体对同一题目的答对概率(或得分率)不同,即不同群体在同一题目上得分存在差异。造成题目功能差异的原因可能是群体间本身水平存在差异,也可能是群体本身水平不存在差异而由于其它原因(如风俗习惯、性别、种族、地域)所致。,心理测量学,若题目功能差异是由前者引起,则称为良性题目功能差异;若是由后者引起,则称为不良题目功能差异,即存在测量偏差。题目功能差异主要是针对不同群体而言,目前测量学领域关注较多群体差异主要有性别差异、地区差异、种族差异、跨文化差异等。,心理测量学,因此有DIF的题目不一定存在测量偏差,

29、良性DIF不存在测量偏差,不良DIF才存在测量偏差;但有测量偏差的题目一定存在DIF。,心理测量学,在题目功能差异研究中还有一对重要概念:一致性DIF和不一致性DIF。一致性DIF是指被试的能力水平与其组别之间不存在交互作用,即在所有的能力水平上,一组被试回答某一项目的正确率都大于另一组。当被试的能力水平与其组别之间存在交互作用时,则表现为非一致性DFI。,心理测量学,(二)、题目功能差异及测量偏差侦查方法 要侦查题目是否存在测量偏差,首先应侦查题目是否存在DIF,若不存在DIF,则不存在测量偏差,若存在DIF,还应分析是良性DIF还是不良DIF,只有不良DIF才会造成测量偏差。,心理测量学,1、DIF及测验偏差侦查的一般步骤 (1)被试群体的确定及数据资料的准备 根据测验特征,确定哪两类被试群体可能会存在DIF。然后再随机抽取这两类被试群体的测验反应数据。所抽取的被试总量应足够多(一般不少于1000人)。,心理测量学,(2)目标组和参照组的确定 根据题目特征,确定题目对以上确定的哪类群体有利,若第(1)步确定为男生和女生两个群体,且认为题目可能对男

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论