2018同等学力心理学综合精讲班--心理测量学讲义_W_第1页
2018同等学力心理学综合精讲班--心理测量学讲义_W_第2页
2018同等学力心理学综合精讲班--心理测量学讲义_W_第3页
2018同等学力心理学综合精讲班--心理测量学讲义_W_第4页
2018同等学力心理学综合精讲班--心理测量学讲义_W_第5页
已阅读5页,还剩159页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 心理测量学1 目录绪论 心理测验的编制测验的实施和计分测验结果的解释测验信度 测验效度项目分析学绩测验智力测验人格测验 2 第一章 绪论第一节心理测量的历史 一、国外心理测量发展的历史冯特的实验心理学高尔顿的遗传理论测量卡特尔的个体差异研究比纳和比纳西蒙智力量表的产生3 高尔顿的遗传理论测量高尔顿:Hereditary Genius,1869智力可以量化测量 智力分布为倒钟形曲线-正态分布智力可以客观测量 不同测验的关系精度可用“相关”来估 天才是遗传的 后来在社会中的应用Sir Francis Galton (1822-1911)4 关于弗朗西斯高尔顿他是家中9 个孩子里最小的一个 出生1

2、2 个月后,认识所有大写字母 18 个月后则能辨别大写和小写两种字母在他咿呀学语的时候,能背诵拉丁文 到了两岁半左右,阅读蛛网捕蝇之类的儿童读物3 岁他学会签名 4 岁他能写诗 5 岁已能背诵并理解苏格兰叙事诗马米翁 6 岁,已精熟荷马史诗中伊利亚特和奥德赛 7 岁能欣赏莎士比亚名著,对博物学产生兴趣,并按 自己的方法对昆虫、矿物标本进行分类 5 心理测量的发展历史趋势: 由解剖生理特征为依据转向对心智活动的测量 测量简单感知到复杂的认知能力 单一量数评定个体间差异,转为多个量数兼顾个别差异与个体间差异 心理测量与实验心理学的分合6 第二节 心理测量的性质测量的基本概念 测量:两个要素: 参照

3、点:绝对和相对零点 单位:确定的意义和相等的价值 测验:心理测量的工具和手段7 测量的量表 命名量表 顺序量表 等距量表 比例量表 8 心理测量的基本概念 心理测量 与测验的关系 标准化测验:标准化的三点优点心理测量的性质 间接性 相对性 客观性 9 第三节 心理测验的分类和作用心理测验的分类 心理测验的功能 (一) 实际工作1. 选材 2. 安置 3. 诊断 4. 评价 (二)理论研究 1. 搜集资料 2. 建立和检验假说3. 实验分组 10 练习题1. 关于测量、测验、评价的关系,下列说法中正确的是() A 测验与测量同义 B 测验是一种测量的工具 C 测验是一种评价方法 D 评价必须利用

4、测验所得的资料答案:B11 2. 首先提出“测验”、“心理测量”术语的学者是() A 冯特B 比纳C 卡特尔 D 高尔顿 答案:D12 3. 测量的两个要素是()A. 对象和工作 B. 单位和参照点 C. 目标和量表 D. 分数和常模答案:B13 第二章心理测验的编制第一节 编制测验的一般程序确定测验的目的制定编题计划编写题目 项目的预测和分析合成测验 将测验标准化 对测验的鉴定 编写测验说明书 14 双向细目表15 关于常模常模(norm)是一组具有代表性的被试样本的测验成绩的分布结构,包括它的集中趋势 (通常用平均数表明)和离散度(通常用标准差表示)。 常模是用以比较不同被测者测验分数的标

5、准,它能够说明某一测验结果分数相对于同类被测者所处的水平。 常模是解释测量结果的重要依据。16 17 18 第二节测验题目的编制技术命题的一般原则测量善良 你喜欢小动物吗? A、是 B、看情况,看心情 C、否并不是典型的问题 你是否同意“自见者不明,自是者不彰,自伐者无功,自矜者不长”的主张? A.同意 B.无所谓 C.不同意古文,太晦涩 猜测的校正不是永远不可以使用的。1)是 2)否 的,拗口 19 测题的种类及编制自由应答型固定应答型(客观题)填充题简答题应用题论文题联想题操作题 多选题 是非题 匹配题20 练习题编写学绩测验时,双向细目表中的“双向”是指() A 内容与题型B 内容与技能

6、C 技能与题型D 题型与难度答案:B21 第三章测验的实施和计分第一节 测验的实施 测验实施的一般程序 1. 标准化指导语 指导语(instruction)是在测量实施时说明测量进行方式,以及如何回答问题的指导性语言。 类型:指示语有针对被试和针对主试的两种。 要求:指示语应清楚、明确、易懂、有礼貌。 样例:有时有必要作适当的演示(给出例题和回答说明),并且注意观察被试的反应。 22 指导语的内容结构一般来说,对被试的指示语包括:1) 如何选择反应形式(画圈、划勾、填数字、口答、书写等); 2) 如何记录这些反应(题本或答卷纸、录音、录相等); 3) 说明时间限制; 4) 如果不能确定正确反应

7、,该如何去做(是否允许猜测等),以及计分的方法。 5) 例题。当题目形式比较生疏时,应该给出附有正确答案的例题; 6) 某些情况下,可能告知被试测验目的。 23 2. 标准时限大多数典型作业测验是不受时间限制的。 但在最高作业测验中,速度是需要考虑的重要因素之一。大多数测验既要考虑反应的速度,也要考察解决有较大难度题目的能力。 通常,能力和成就测验的时限,以大约90%的被试能在规定时间内完成测验为标准。题目从易到难 排列,力求使大多数被试能在规定时间内完成会答的题目。 确定测验的标准时限一般采取尝试法,即通过预测试来确定。24 3. 测验的环境条件 1) 轻松,舒适。 2) 安静、宽敞,照明,

8、通风,适宜的温度和湿度等。3) 防止各种干扰。 噪音,闲杂无关人员,地点便利性 环境条件的要求并不是可有可无的。不同的环境条件可能导致不同的结果,导致测验分数难以解释。 要在施测过程中记录下任何意外的环境因素,以便在解释测验结果时加以考虑。 4.计算机辅助的测验实施25 1.2.3.主试的职责施测前施测中施测后 主试的影响 主试的责任十分重要,能否按照要求操作,对测量结果有很大影响: 主试不熟悉测量的要求和细节,在实施中会手忙脚乱,或做出错误的操作或指示。 主试的情绪如紧张,因不熟悉测量而出现的犹豫、困惑,会影响被试的应试行为。 主试的态度,如对测量的严肃性,对被试的友善,是保证测量有效性的重

9、要因素。 主试指导语的语速会影响被试应答的速度。主试操作不当可能产生的后果包括: 使能力类测验分数明显降低; 使人格类测验分数明显偏差。 26 第二节 测验的计分和分数的合成计分的一般程序 计分的基本步骤和要求论文题计分 客观题计分 猜测修正公式:S=R-W/(n-1)S是正确分数,R为被试答对的题目数,W为被试答错的题目数,n为选项数目。 27 关于猜测修正公式反对 赞成修正公式可避免减低测验的信度。因为如果强调倒扣分,被试就不敢盲目猜测。 修正公式可反映被试真正的能力和水平。使用修正公式对那些不能答完全部试题的被试来说比较公平。 公式假设不成立,因为被试答错,并非完全瞎猜。多数情况下是先舍

10、弃部分诱答,再就剩下的几个选项来猜测。有时答错试题,是因为观念模糊、记忆不清或者粗心大意,并非乱猜。 只要所有被试能答完全部题目,或者略去未答的题目数相同,则猜测修正无实质作用。此种情形下其相对分数(如z分数 、T分数或百分等级)完全相同。 不采用猜测修正对信度并无重大影响。 实际生活中,常常需要仅凭借部分知识来作判断,因此完全不许猜测也与实际生活不符。 28 测验分数的合成 1. 题目的组合 2. 分测验或量表的组合3. 测验的组合 29 第三节 测验的误差误差的定义和种类 随机误差和系统误差 误差的来源 测验内部引起的误差 由施测过程引起的误差 由受测者本身引起的误差 测验的经验、练习因素

11、、应试动机、 测验焦虑、反应定势、生理因素 30 练习题1. 测量过程中由不可控制的偶然因素引起的误差称为() A 系统误差B 恒定误差C 测量误差D 随机误差答案:D31 2. 下述关于随机误差对测验影响的说法中正确的是() A 影响测验的信度,但不影响效度B 影响测验的效度,但不影响信度C 影响测验的信度,也影响其效度D 对测验的信度、效度均无影响答案:C32 3. 系统误差对测验的影响可以表述为()A 影响信度不影响效度B 影响效度,不影响信度C 既影响信度又影响效度 D 既不影响信度也不影响效度 答案:B33 4. 由偶然因素引起的、不易控制的误差叫作()A 过失误差B 恒定误差C 随

12、机误差D 系统误差答案:C34 第四章 测验结果的解释原始分数:考试85分,跑步第3名导出分数 原始分数参照体系导出分数参照标准不同: 常模参照分数导出分数 内容参照分数结果参照分数35 第一节参照常模的分数解释常模:常模团体的分数分布常模团体的组成 群体必须明确 代表性样本 样本大小要适当时间性 一般常模与特殊常模结合36 几种主要的常模参照分数发展量表智力年龄:比纳西蒙量表年级当量 发展循序量表 商数 比率智商 教育商数百分位 百分等级百分位数十分位 标准分数线性转换的标准分数常态化的标准分数 其他类型:T分数、标准九分、CEEB分数、离差智商37 标准分数 某次测验,全校学生数学的平均成

13、绩为60分 ,标准差为10分,语文平均分数为80分,标准差为5。 甲学生数学和语文分别为80和60分,乙学生数学和语文分别为50和80分。 这两个学生哪个学生成绩更好些? 38 呈现常模资料的方式1.转化表 39 2. 剖析图40 16PF41 第二节 参照标准的分数解释内容参照分数 掌握分数 正确百分数 等级评定量表 结果参照测验 两个先决条件 呈现结果参照分数的方法42 1. 期望结果的概率(1)表格法 43 下表是由若干个工作候选人在职业选择测验中得分的联 合频数分布构成,表中还呈现了其工作领导在雇佣他们6 个月之后,给这些候选人的等级评定。 44 (2)图示法45 2. 预期的效标分数

14、46 1. 最早采用智力年龄概念的是()A 比纳量表 B 瑞文推理测验 C 韦氏量表 D 斯坦福比纳量表答案:A2. 提出“比率智商”概念的心理学家是()A比纳 B答案:C西蒙 C推孟 D 韦克斯勒47 3. 在斯坦福-比纳测验中,测得某儿童的智力年龄为8,这个结果的含意是() A 该儿童的智力低下 B 该儿童成绩相当于8岁儿童的平均分数 C 该儿童的智力超常 D 该儿童IQ是80 答案:B48 4. 以50为平均数,以10为标准差的常模参照分数是() A 标准九 B 标准十 C.答案:CT分数 D.C分数5. 下列导出分数中属于内容参照分数的是()A 掌握分数 B 比率智商 C 百分等级 D

15、 标准九答案:A49 6. 下列分数中属于常模参照分数的是()A 掌握分数 B 正确百分数C 等级评定量表 D 标准九答案:D7. 智商是一种() A 标准参照分数 B 内容参照分数C 结果参照分数 D 常模参照分数答案:D50 8. 正确百分数是一种 .A.内容参照分数B.常模参照分数C.结果参照分数D.预期效标分数 答案:A51 9. 如果某同学在标准化测验中的分数位于75的百分等级,这意味着() A 参加测验的人中,有75%人的分数高于该同学 B 参加测验的人中,有25%人的分数低于该同学 C 参加测验的人中,有75%人的分数低于该同学 D 该同学正确回答了75%的测验题答案:C52 第

16、五章 测验信度 第一节 信度的性质 一、信度的定义 测量的一致性或可靠性程度。 由于接受测量时应试者的行为可能会由于各种原因产生变动,偏离了其真实行为,就会使测量结果产生误差。 测验结果的可靠性,与测验结果受误差影响的程度密切相关。误差大,分数的可靠性就降低。 53 二、信度系数真正分数与实得分数之间的决定系数 即测量分数的变化中有多少真正反映了被测者分数的变化。 信度系数的分布是从.00到1.00的正数范围。可以接受的信度水准 一般能力与成就测验信度系数在0.90以上; 人格、兴趣等测验信度系数通常在0.80到0.85之间。 一般来说,当rxx0.70时,可用于团体间比较;rxx0.85时,

17、可用于鉴别个 人。 可以用已有的同类测验作为比较的标准。 54 三、信度与测验分数的解释 解释个人分数 两种测验分数的比较 55 第二节 信度的类型及估计方法重测信度 复本信度分半信度 同质性信度评分者信度56 重测信度(test-retest reliability)又称稳定性系数:用同一测验在不同时间对同一群体施测两次,这两次测验分数的相关系数即为重测系数。 重测信度所考察的误差来源是时间的变化所带来的随机影响。例如由气候、偶然的噪音或其它干扰,以及引起被试本身身心状态变化的因素如疾病、疲劳、情绪波动、焦虑等原因造成的对测验结果的影响。 57 前提:当测量的行为或特质较为稳定时,重测信度的

18、解释才有效。 必须注意重测间隔时间: 间隔太短,被试对测试题记忆犹新,造成假性高相关; 间隔太长,被试身心特质可能改变,使相关系数降低。 重测间隔多在2周到6个月之间 58 重测信度的前提假设是:每个应试者对前一次测验的遗忘程度相同,而且在重测间隔期间没有学过与该测验有关的其它材料, 或者说每人所学习的程度相同。 有些解决问题型测验不宜采用重测信度,因为应试者一旦知道答案就不容易忘记,从而造成假性高相关。 苛勒的黑猩猩的顿悟学习 一些推理和创造力测验、认知风格测验,第一次测验被试就很容易掌握规则 59 复本信度(alternative-form reliability) 又称等值性系数,它是以

19、两个测验复本(功能等值但题目内容不同)同时测量同一群体,然后求得应试者在这两个测验上得分的相关系数。 复本信度反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。 还可在不同的时间施测两个等值的测验,这时所求得的是重测复本信度,或称稳定和等值系数。 60 复本信度的主要优点在于: 能够避免重测信度的一些问题,如记忆效果、练习效应等; 适用于在进行长期追踪研究或调查某些干涉变量对测验成绩影响; 减少了辅导或作弊的可能性。 61 复本信度的主要局限性在于:如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响; 有些测验的性质会由于重复而发生改变, 例如某些问题解决型的测

20、验,如果掌握了解题原则,就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强; 有些测验很难找到合适的复本。 62 分半信度 分半信度(split-half reliability)系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数,代表了两半测验内容取样的一致性程度,因而也称为内部一致性信度系数。 在其它条件相等的情况下,测验越长,信度系数越高。因此,分半须进行修正。 低估信度,必 问题是:如何将测验分成可比较的两部分 63 大部分测验的前半部分和后半部分是不可比较的,因为: 难度水平可能不同, 准备状态、练习、疲劳、厌倦等有所不同。 奇偶分半的

21、方法,即将测验按奇数题和偶数题分成两半。 前后有牵连的题目,如一组题目都与某段材 料或某个图画有关,那么整个这组题目应该分在同一半;否则有可能高估测验的信度。64 同质性信度 同质性指所有测验题目测量的只是单一特质或内容, 表现为所有测验题目得分的一致性。 如果同质性差,则测验可能混淆了不同的内容,其结果就无从判断究竟反映了被测者的哪些特征。 所有测验项目都应该保证只测量一种特质或内容 如果需要在一个测验中测量不同的内容,应该将测验设计为几个分测验,每个分测验测量一种内容。例如:16PF的16个维度 65 同质性的测量1. 库德理查逊公式2. 克伦巴赫系数 3. 荷伊特信度 4. 因素分析 6

22、6 1. 下列各项方法中,不能用来计算项目间一致性的方法是() A 因素分析B 复本信度C 克伦巴赫a系数答案:BD 荷依特信度2. 克伦巴赫a系数计算的信度属于()A 重测信度 B 分半信度 C 同质性信度 D 评分者信度答案:C67 评分者信度 在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验 、无领导小组讨论、管理者情景模拟测验等,都依赖于评分者的主观性判断。 最简单的估计不同评分者间评分一致性的方法,是随机抽取若干份答卷,由两个甚至更多的独立的评分者打分,再求这些答卷评判分数间的相关系数。 68 一般情况下,间隔施测的复本信度(即重测复本信度)值最低;修正后的

23、分半信度值最高。 69信度系数的类型 所需复本 施测次数 误差变异的来源 重测信度 12时间取样 复本信度(连续施测) 21内容取样 复本信度(间隔施测) 22时间与内容取样 分半信度 11内容取样 同质性信度 11内容的异质性 评分者信度 11评分者之间的差异 1. 计算分半信度需要的复本个数和施测次数为() A 1,1答案:AB 2,1C 2,2D 1,22. 用同一个测验先后对受测者群体施测两次, 所求得的测验信度系数是() A重测信度 B复本信度C分半信度 D 同质性信度答案:A70 3. 以时间取样为误差变异来源的信度类型是()A 分半信度 B 同质性信度C 重测信度 D 评分者信度

24、答案:C71 第三节影响信度的因素一、被试样本 1.团体的异质性取样团体的异质性越大,信度系数就相对越高。 如果取样只是一些高度同质性的人,一旦测验施用于另一些类型的群体对象,信度就会降低。 72 例如一项测验分别施测于A、B两组被试。 其中A组被试较质(如各年级学生都有 ),其分数分布为2090分,而B组被试同质程度较高(都为二年级学生),其分数分布为8090分。显然,由于A组被试的分数分布比B组要广得多,按照上面所提到的分数分布与信度的关系,可以推知,以A组被试为样本团体得到的信度,要比B组被试得到的信度高。因此,取样范围(异质性)越大,样本对总体的代表性越好,测量稳定性越好。 73 2.

25、团体的平均水平测验所施测的团体的平均能力水平的不同,也会对 信度产生影响。 例如,在斯坦福比奈量表中,不同年龄组的信度从.83到.98不等。因为对于年幼的团体,他们的平均能力水平低,他们的分数更多是凭猜测获得的, 而靠猜测的测验结果总是不会很稳定的,所以信度值较低。这种情况导致的信度偏差,很难用一般的统计公式来校正,只能通过对各种年龄及能力水平的检验来确定。 74 二、题目的数量 测验越长,信度值越高。 一方面,测验越长,题目取样或内容取样就越充分,结果就越容易稳定可靠。 举一个的例子,如果词汇量的测验中只包含一个试题,仅依据应试者对一个单词的记忆,来确定应试者的词汇量的大小,其结果必定是非常

26、不可靠的。 另一方面,较长的测验不容易受到猜测的影响。 75 三、测验的难度 如果测验难度太低,测验分数出现天花板效应或地板效应,都会使测量到的分数分布太窄,导致信度降低。 如果只增加测验长度,没有控制难度, 测验分数不能充分散开,并不能提高信度。 只有当测验的难度水平能够使测验分数分布范围最大时,测验的信度才会比较理想。 一般来说,当所有被试的平均分为测验总分的一半,并且分数从分布时,测量的信度最高。到满分76 四、间隔时间 以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大,间隔时间越久,信度系数越低 77 第四节信度的特殊问题速度测验信度 标准参考测验的信度分测验的信度 差异的

27、信度 变迁的测量 78 练习题1. 如果一个测验间隔两个月后再施测于同一群体,两次结果高度一致,可以肯定该测验是() A 可信的 B 有效的 C 统计上显著的 D 可推广的答案:A79 2.对一个测验中题目一致性的估计属于()A 重测信度 B 分半信度 C 同质性信度 D 评分者信度答案:C3. 由一个受测者样本在一个测验上的得分计 算得到的奇偶相关系数为0.50,则经过校正后得到的分半信度系数应该为() A 0.60答案:BB 0.67C 0.70D 0.7780 第六章 测验效度 第一节 效度的性质 效度的定义 测量的正确性,即用一个测验或量具能够测量出其所要测量东西的程度 81 效度是评

28、价测验好坏、选择测验的重要标准之一。 效度的评估可以有多种方法,依赖于测验的具体目的。 某种意义上说,效度比信度的作用更为重要 。如果一个测验效度很低,无论它的信度有多高,这项测验都没有应用价值。 82 效度的性质 实际上效度指的是“测验结果的效度”,是测验结果的准确性程度。 效度是连续性的,效度高低只是程度上的差别,不是“全或无”的变量。因此应避免简单评价某测验的结果为“有效”或“无效”。 效度反映了测验结果对测量目标的体现程度。 效度不是直接测量得到的,而是从已有的证据推理而得到的。83 效度的理论定义 从测量理论角度讲,效度可以定义为: 与测量目标有关的真实分数方差与总分方差的比率。“有

29、关的真实方差”是由测验所要测量的目标变量所产生的方差。用公式可以表示为: 84 造成测验分数的变化的原因出自三大来源: 测量对象本身的变化, 量具的精度造成的系统误差, 量具使用中造成的随机误差。 信度和效度的差别在于所考虑的误差不同。 信度考虑的是随机误差的影响; 效度的误差则还包括对测验目的来说无关的变量所引起的系统误差。 误差方差低(即信度高)并不保证效度就一定高; 但效度高的话,信度必然会高。可以这样说,信度是效度的必要条件。 85 影响效度的误差来源 测验组成方面 测验实施方面 被试反应 效度的类型 内容效度 构想效度 校标效度 86 第二节 内容效度一、内容效度的性质 两个条件:

30、定义完好的内容范围 测验题目是所界定内容范围的代表性取样87 二、确定内容效度的方法 1.专家判断 由专家根据测验题目和假设的内容范围作系统的比较判断。 这种方法的主要问题是: 缺乏一种数量化指标来描述内容效度的高低; 不同判断者的判断可能不一致; 如果测验内容范围缺乏明确性,会使效度的判断过程发生困难。 88 2. 统计分析 克伦巴赫提出,内容效度可以由两个独立的但取自同样内容范围的测验得分的相关(即复本信度)来作数量上的估计。 3. 经验法 例如,对于管理能力测验,高层管理者的平均成绩应该高于普通员工和一般管理者(区分效度)。 89 三、内容效度的特点 特定性 与表面效度混淆 90 四、内

31、容效度的应用和评价 内容效度的评估一般不适用于能力倾向测验和人格测验。 能力倾向和人格测验不太要求与所取样的行为领域的相似性,题目的选择更多受某种假设的指导, 而假设的正确与否则由其它效度形式来确定。 能力倾向和人格测验与成就测验不同,不是建立在某种教学课程或工作知识与技能的基础上。 在对相同题目作反应时,每个被试使用的方法和心理过程是很不相同的,同一测验对不同的被试来说测量的是不同的心理过程。在这种情况下,不可能从检查测量的内容来确定测量的功能。 91 第三节 构想效度一、构想效度定义 构想效度(construct validity)是指测验对某一理论概念或特质测量的程度。 构想通常指一些抽

32、象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察,但都有其心理上的理论基础和客观现实性,都可通过各种可观察的材料加以确定。 例如,言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。 92 构想效度关注的问题是:测验是否能正确反映理论构想的特性。 比如说,一项言语流畅性测验所测量的是不是真正的言语流畅性,是否对言语流畅性的理论概念中所包含的所有特点( 如语速、语句间的逻辑性、口误的数量等 93 二、确定构想效度的方法 测验内方法 测验间方法:相容效度、区分效度、因素效度 研究测验的效标效度 考察实验变量对测验分数的影响 搜集某些变异上

33、的证据 三、对构想效度的评价94 第四节 效标效度 一、效标效度的定义 反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。 效标是考察测量效用的外在参照标准。 例如一个机械能力倾向测验,其效度的标准(效标)可以是成为机械师后的工作表现; 一个管理能力测验,其效标可以是将来管理工作的绩效。 效标效度往往用于预测性测量。即根据测量分数作出的预 测,一般用于甄选决策。因此,只有当证明测量分数确实能够预测所欲研究的行为时,这种决策才可能正确。 95 二、效标 (一)效标与效标测量 效标是衡量测量有效性的参照标准,是一种可以直接、独立测量的行为。 要测量效

34、标,必须把效标行为转化为某种可以操作的测量指标,以便进行比较。 效标的概念涉及观念效标(conceptual criterion,即效标的实质概念内容)和效标测量(criterion measurement,即效标的具体度量方法)。 例如,对于筛选销售人员的销售技巧测验,其观念效标是“销售工作的成功”,而效标测量往往用“年销售量”来表示。 96 (二)效标测量的条件 1. 有效性效标测量要求能真正反映效度 2. 可靠性具有较高的信度,相关要高 3. 客观性要避免偏见的影响,防止效标污染。 效标污染(criterion contamination)是指由于评定者知道测量分数而影响个人的效标成绩的

35、情形。 4. 实用性97 (三)常用的效标 1) 学术成就 2) 等级评定 3) 临床诊断 4) 特殊训练成绩 5) 实际工作表现 6) 对团体的区分 团体对照: 用两个在效标表现上有差别的团体,比较他们在预测源分数上的差别。 7) 以前有效的测量分数 (四)效标的特性: 多样性、复杂性、特殊性、时间性98 三、确定效标效度的方法 相关法 区分法 命中率 功利率 四、影响效标效度的因素 测验的长度、取样、所用的效标和干涉变量99 练习题 1. 某教师的试卷经常超出授课范围,该试卷的()一定低 A 信度 B 校标效度 C 内容效度 D 构想效度答案:C2. 如果一个测验与将来的实际业绩相关很高,

36、比如机械倾向测验与汽车训练课程成绩相关很高,则这种测验的()很高。 A 表面效度 B 校标效度 C 构想效度 D 绩效效度 答案:B100 3. 企业使用招工测验的主要目的是预测录用人员未来工作的绩效,这类测验非常重视() A 内容效度 B 校标效度C 构想效度 D 会聚效度答案:B4. 抑郁量表的有效性常用抑郁症患者的测验结果与精 神科医生诊断的符合程度来说明,这种方法是() A内容效度 B构想效度C 效标效度 D 评分者效度答案:C101 5. 命中率所反映的测验效度属于()A 内容效度 B 校标效度C 表面效度 D 结构效度答案:B6. 运用测验所录取的合格人数与实际录取的总人数之比称作

37、() A 总命中率 B 基础率 C 正命中率 D 录取率答案:C102 7 测验对某一理论概念或特质测量的程度称为() A.内容效度 B. 构想效度 C. 校标效度 D. 实证效度答案:B8 衡量测验有效性的参照标准称为 .A.效度 答案:DB.信度C.常模D.效标103 第七章项目分析 项目分析是指根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目好坏,对题目进行筛选的程序和方法。 项目分析可以分为定性分析和定量分析 定性分析主要考虑内容效度,题目表达的恰当性和有效性等方面; 定量分析主要考察题目难度和鉴别度是否适当。 由于测验的信度、效度最终都依赖于题目的上述性质,所以通过项目

38、分析对测验题目进行选择和修改 ,可以提高测验的信度和效度。 104 第一节 项目难度 难度分析(difficulty analysis),是对题目的难 度进行估计以确定适宜的难度。 对于非能力测验(如人格测验),难度是指测验题目的“通俗性”,即测验题目是否容易被人看懂和回答,往往以取自相同总体的样本中,能在答案范围内回答该题的人数指标来表示。 以下主要针对能力测验的难度分析.105 一、难度的定义难度(有人也将P值称为易度)的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示: 106 二、难度的计算 当被试人数较多时,可根据测验总成绩将被试分成三组:分数最高的27%被试为高分组 (N

39、H),分数最低的27%为低分组(NL),中间46%为中间组。分别计算高分组和低分组的通过率,再求试题的难度。 107 三、难度水平的确定 题目难度水平究竟多高合适,依赖于测验的目的、性质和题目形式。 许多测量都希望能准确测量个体间的差异。如果在某题上,被试全答对或全答错,则该题无法提供个别差异的信息,即不能把不同人区别开来。 P值越接近于0或接近于1,越无法区分被试间能力的差异。相反,P值越接近于.50,区别力越高。 为使测验具有更大的区别力,应选择难度在.50左右的试题比较合适。108 为了考查学生对某些方面的知识,技能是否掌握,可保留一些难度偏高的题目。 用于选人时,应尽量使难度值接近录取

40、率。109 四、测验的难度 整个测验的难度取决于组成测验的各个试题的难度。 整个测验难度水平的确定,需要根据测验分数的分布作出。 由于众人的心理特性多数基本上是呈正态分布的,因此如果被试样本具有代表性,则测验结果也应符合正态分布的模型。 110 偏态分布有“正偏态分布”和“负偏态分布”两种。 A为正偏态分布,即大多数得分集中在低分端,说明测验对于所研究的样本团体来说偏难。 B为负偏态分布,即大多数得分集中在高分端,说明测验过易。 111 五、常态化等级难度量表 以通过率作为难度指标,实际上是以顺序量表来表示难度,即它仅仅能指出题目难度的顺序或相对难度的高低。通常情况下,需要进行等距转换。 如果

41、被试的得分呈正态分布,可根据正态曲线表,将试题难度转换成具有相等单位的等距量表,即分数。 112 试题难度的等距转换 例如有3个试题通过的人数分别为全体被试的60%、40%、20%,可以判定第1题最容易,第3题最难。但虽然它们的相差数值相同(20%),却无法确定题目1与2之间的难度差别是否等于题目2和3之间的难度差别。这就需要计算等距量表的难度指标。 在正态分布情形下,平均数之上或之下一个标准差的距离约占全体人数的34%。因此,如果某题A通过率为84%(P=.84),可知该题的难度为-1;如果某题B的通过人数只有16%,则这个题目的难度为+1;如果某题C 刚好有50%的被试通过,那该题的难度为

42、0。 根据正态曲线表,可以查出任何通过率值相对的值。 113 以分数表示难度,也有不便之处,主要是 有小数点和正负符号。因此通常需要转换成另一种单位的等距量表,其中较为常用的是美国教育测验服务机构采用的难度指标: =13+4Z为正态化等距难度值;13为平均数,4为标准差的单位,Z为正态曲线下从右端计算的P值(通过率)所对应的Z值。 114 第二节 区分度 区分度是指测验项目所测量的心理特性的区分程度和鉴别能力,也称项目的效度。确定区分度的方法(一)项目特征曲线115 (二)项目与效标的相关 相关法:项目分数与校标分数的相关。相关越高,表明项目越具有区分的功能。 项目效度分析(item vali

43、dity analysis)主要以效标为依据,考察 被试在每个试题上的反应与其在效标上表现的相关程度,即每个试题所测查的行为是否反映了被试在效标上的表现。 例如,如果测验是预测被试在工作中的表现,则可以选择工作表现指标(例如上级和同事的评价等)作为效标。 题目效度系数越高,对预测效标越有用。 效度系数高于.20的题目一般可以保留; 效度系数接近于零或负数,则应该作重大修改或删除。116 二列相关 点二列相关 四分相关 相关 项目与总分相关重叠的校正 有时在进行项目分析时,难以找到合适的效标,这时可以采用测验的总分代替效标,考察每个试题和总分的一致性,即做项目总分分析(item-total co

44、rrelation analysis)。 117 (三)鉴别指数(discrimination index) 效标得分高、低两组被试在项目通过率上的差值。 当效标成绩是连续变量时,可从分数分布的两端各选择27%(33%)的被试组成高、低分组,再分别计算两组每道题目上各自的通过率,二者之差就是各题目的鉴别指数D。 118 高低分组的划分 当分数分布较正态分布平坦时,高低分组各占比率应该有所调整,应该高于27%,大约33%较为合适。 一般高低分组各占比率在25%33%之间都可以。 如果比率太小,则所选出来的两组过于,更容易有明显区别,故可能是人为夸大了题目的区分力。 当样本团体过小时,划分的比例可

45、以适当提高,甚至用50%的标准,即把上下两半被试作为高分组和低分组都是可以的。 119 一般情况下,D值很难等于1.00,而且也没 有必要甚至不能追求等于1.00,因为这种情况往往只是题目分数呈现绝对的双峰分布时才会出现。这时,各题目的同质性也会过高。 一般情况下,只要所得D值大于.30时,题目就可以接受了。 120 试题鉴别度指数与质量评价)在实际操作中,项目鉴别度在0.3-0.5之间比较理想。鉴别度指数过大,意味着高低两组样本的差异过大,分数出现明显双峰分布,同样不利于精细鉴别不同个体。 121 项目鉴别度的实际应用第1题虽然鉴别度为35,但两个组别的通过率都在50%以下,说明题目偏难。第

46、2题虽然鉴别度在33,但两个组别的通过率都在50%以上,说明题目偏易。 第3题的通过率和鉴别度比较理想。 第4题两组差距太大,出现明显的双峰分布,不利于精细辨别个体差异。 项目鉴别度并非越大越好,要具体分析情况。122 区分度的相对性 采用不同计算方法区分度的值不同 用相关法计算的区分度值受样本大小影响 用两个组通过率的差异,受分组标准影响 与样本同质性有关 区分度与难度的关系123 第三节 项目分析的特殊问题备选答案的反应模式 速度测验的项目分析 标准参考测验的项目分析项目团体的相互作用 有效性与可靠性的矛盾 124 速度测验的项目分析 有些测验考察的是被试解决问题的速度。这样的测验叫速度测

47、验(speed-based test)。 速度测验往往有很多题目,一般很少有被试能够在限定时间内完成所有的题目。 大多数能力测验都限定了完成时间,虽然这些测验不是速度测验,但速度也是影响成绩的一个重要因素。 125 速度测验的项目分析不能用通过率作为项目分析的指标。 第一种方法是对于那些不能被所有被试完成的题目,只分析完成该题目的被试的成绩。 这容易低估难度,且不稳定。 第二种方法是延长试测时间,使所有被试都能完成所有题目。 这背离了速度概念 126 对于速度测验的项目分析尚没有完善的解决办法。 从易到难排列的能力速度测试 可以适当延长测试时间 各题难度差不多的能力速度测试 打乱题目的顺序,每一份卷子的顺序都是不一样的,所以最后的结果是每一道题目都是有一定的缺失值,但是并不影响总体的难度、鉴别度的分析。 使用拉丁方的方法 127 练习题 1. 已知某校男、女学生对某项教育措施各自持“同意”和“反对”态度的人数,若要了解性别与态度是否有关,则应该计算() A 积差相关 B 等级相关 C 相关答案:CD二列相关2.通过率衡量项目的() A 难度 B 区分度 C信度 D 效度答案:A128 3. 能确切地反映预测性测验中个别项目质量的是() A 该项目间隔2个月后再测得分的一致性B 该项目与其它项目的相关系数的平均值C 项目分数与总分的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论