心理测量文档_第1页
心理测量文档_第2页
心理测量文档_第3页
心理测量文档_第4页
心理测量文档_第5页
已阅读5页,还剩51页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理测量

目录

第一章、心理测量的基本理论.......................................................3

一、心理测量的基础...........................................................3

(一)、心理测量的基本概念...............................................3

(二)、心理测量的特征与分类.............................................3

(三)、心理测量的发展历史...............................................5

二、经典测量理论.............................................................6

(一)、经典测量理论模型.................................................6

(二)、测量的信度与效度.................................................7

(三)、心理测量的误差...................................................13

(四)、心理测验的项目分析..............................................14

三、项目反应理论............................................................15

(一)、单维性假设与项目特征曲线........................................15

(二)、单参数模型、双参数模型和三参数模型.............................16

(三)、项目信息函数与测验信息函数......................................17

四、概化理论................................................................17

(一)、方差分量的估计...................................................17

(二)、概化系数与可靠性指数............................................18

(三)、概化研究(G研究)与决策研究(D研究)..........................18

第二章、心理测验及其应用........................................................19

一、心理测验的编制技术......................................................19

(一)、测验编制的主要原则..............................................19

(二)、心理测验编制的基本程序..........................................20

(三)、测验目标与命题双向细目表........................................21

(四)、题目编制技术.....................................................21

(五)、测验合成与标准化................................................21

(六)、测验的鉴定与手册编写............................................21

(七)、测验等值技术.....................................................21

二、心理测验的施测..........................................................24

(一)、测验的设计.......................................................24

(二只施测的程序和步骤................................................24

三、测验常模................................................................25

(一)、常模与常模团体..................................................25

(二)、分数转换与合成..................................................25

(三)、常模的编制.......................................................25

(四)、几种常用的常模..................................................26

四、标准参照测验............................................................26

(一)、标准参照测验的定义与作用........................................26

(二)、标准参照测验的题目分析..........................................26

(二)、标准参照测验的信度与效度........................................27

(四)、标准参照测验的分数解释..........................................27

五、常用心理测验............................................................28

(一)、智力测验.........................................................28

(二)、人格测验.........................................................36

(三)、态度测验.........................................................47

(四)、兴趣测验.........................................................49

(五)、临床测验.........................................................53

(六)、发育量表.........................................................55

六、心理测验的应用..........................................................57

第一章、心理测量的基本理论

一、心理测量的基础

(一)、心理测量的基本概念

测量的定义:依据一定的法则,使用量具对事物特征进行定量描述的过程。

测量对象依据性质分类:确定型、随机型、模糊型(事物的量本身模糊不定,

难以获得确定的量)。

测量的基本要素:参照点(绝对参照点和相对参照点)和单位(理想测量单

位应有确定的意义、相等的价值,心理测量既无同一单位,也不符合等距要求)。

测量重绝对零点加减运算乘除运算统计分析

表:

量表

命名量表无否否次数、众数、百分比、卡方

顺序量表无否否中位数、百分位数、等级相关

等距量表无"I否平均数、标准差、积差相关、t检验、F检验

比率量表有可可与等距量表相同、几何平均数、变异系数

(二)、心理测量的特征与分类

心理测量的定义:依据一定的心理学理论,使用一定的操作程序,给人的

行为和心理属性确定一种数量化的价值。

心理测量的特征:间接性、相对性、客观性(标准化测验)。

心理测量中存分类分类依据分类

在的问题:心

理测量都是基

于有限的行为

样组;测量结

果总是受到误

度和效度。

分类依据

测量对象的属性认知测验(智力测验、性向测验和评价所参照的标准常模参照测验/标准参照测验

和特质成就测验)/人格测验(兴趣、态常模参照测验/目标参照测验/

度、气质和性格)潜力参照测验

测量方式个体测验/团体测验测验的要求最高行为测验/典型行为测验

测验内容形式文字测验/非文字测验测验的性质构造性测验/投射性测验

测验目的描述测验/诊断测验/预示性测验测验的应用教育测验/职业测验/临床测验

测验难度和时限难度测验/速度测验评分方式客观测验/非客观测验

(三)、心理测量的发展历史

冯特证实个体差异的存在,发明了测量思维敏捷性等方面个体差异的工具。

高尔顿首先倡导测验运动,提倡以科学方法测量人格,首次提出“心理测量”

和“测验”两个术语。他采用定量研究方法,将统计方法用于对个体差异资料的

研究,开创个别差异心理学研究。他还是应用等级评定量表、问卷法和自由我想

法的先驱。

此外,卡特尔开展对个别差异的研究,正式使用“心理测验”的术语,被誉为

心理测量学的先驱;克雷佩林开展精神病理学研究,最早使用自由联想测验来

诊断精神病人;艾宾浩斯开展对记忆的研究;比奈发明第一个智力测验常模量

表;伍德沃斯编制第一个现代意义的人格问卷:伍德沃斯个人资料调查表;罗

夏发表第一个投射测验:罗夏墨迹测试;西肖尔编制第一套音乐能力测验;宾

特纳和派特森编制第一个非文字操作量表:宾特纳-派特森操作测查量表;桑代

克发表第一个书法量表。

三国时期刘邵在《人物志》中描述了关于心理测量最早且比较完整的思想体系;

中国古代心理与教育测量最早的内容,主要为六艺;两汉时期,考试制度建立,

称察举制:隋朝建立科举制度:我国的七巧板、九连环和华容道等是世界上最

早的非文字操作测验。

二、经典测量理论

(一)、经典测量理论模型

心理特质:表现在一个人身上所特有的相对稳定的行为方式。

CTT的心理特质可测性假设:凡客观存在的事物都有其数量,凡有数量的事

物都可以测量。

真分数:特定心理特质真正水平的值,操作定义为无数次测量结果的平均值。

CTT数学模型:

E(X)=T,p(T,E)=0,/呜,石2)=0S;=S;+S;5=S:+S;;S;=S:+S;+S;

在CTT模型中,假定观察分数与真分数之间存在线性关系,两者差值则为误差,

而误差为随机误差,服从均值为零的正态分布。真分数可分为两部分:与测量

目的有关的变异和与测量目的无关的变异。

经典测量理论以弱假设为基础,假设容易验证而且多数资料可以满足。但是,

其采用的指标依赖于被试样本,从不同被试样本得出的指标难以进行有效比较,

而且对各种参数的估计只能在事后进行,使其对测验编制的指导意义有限;能

力量表和难度量表不以配,对能力的估计依赖于项目样本,以一个相同的测量

标准误作为每个被试的测量误差指标,忽视了个体差异;忽视被试的反应组型,

测验结果难以有效扩展,对未来缺乏预测力;理论假设建立在平行复本测量的

概念之上,在实际情境中难以满足,由此使得信度估计不准确。

(二)、测量的信度与效度

1.信度的定义

信度:测量结果的一致性和稳定性程度,其中,一致性是指被试在不同时

间使用同一测验,或者在同一时间使用它的等值复本,所得结果相同;稳定性,

是指测验结果不随时间和情境的改变而产生变异,保持稳定不变的程度。

A.信度是其分数的变异数与实得分数变异数之比,;

B.信度是真分数与实得分数的相关系数的平方,;

C、信度是一个测验与它的任意一个平行测试的相关系数,。

信度是指一组测验分数或一列测量的特性,而不是个人分数的特性;信度是

测量工具所获得结果的可靠性,而非工具本身;真分数的变异不可直接测量,因

此信度是一个理论上构想的概念,只能根据一组实得分数做出估计;信度估计完

全采用统计方法;每一个信度的估计值,仅指特定方面的一致性,而非一般的一

致性。

信度是测量过程中随机误差大小的反映;可以根据信度在不同测验分数之间

进行比较;可以用来解释测验分数的意义;提高信度有助于提高统计检验力。

在将原始分数转化为标准分数时,采用差异的标准误进行显著性检验,其

公式为:

SE=S^2-rxx-ryy

其中S为相同单位的标准分数的标准差,分别是两个测验的信度系数。

测量的标准误是测量分数误差的标准差,标准误公式:

SE=Sy]\-rxx

其中,S为实得分数的标准差,是测量的信度。

2.信度系数的估计;

(1)、重测信度:用同一个量表对同一组被试施测两次所得结果的一致性程

度,以两次测试分数的积差相关系数表示,其与测验的时间间隔和测量特质的

稳定性密切相关。

误差来源主要包括:心理特质可能在两次测试期间因成熟、教育或发育等因

素影响而发生变化,练习效应,保持效应。

使用前提:所测量的心理特质保持稳定,被试没有获得额外的学习或训练;

练习和遗忘的效果基本可以互相抵消。

人格测验、运动测验、感觉测验等适宜采用重测信度,能力测验则不宜使用。

(2)、复本信度:两个平行测试测量同一批被试所得结果的一致性程度。可

用两个样本数据的积差相关系数衡量。

若两个复本同时连续测试,则称为等值性系数,反映两个复本测验的题目

差别带来的变异情况;若间隔一段时间测试,则称为稳定-等值系数,题目的差

别、施测时的时间差别都会导致其变动,它是对宿度最严格的检验,其值最低。

误差来源包括:非平行测试的两个副本之间的差异,被试的生理状况、情绪

波动、动机变化等,测试情境的变化。

使用前提:构造出两份或以上真正平行的测试;被试要有条件接受两个测验。

(3)、分半信度:将一个测试分成对等的两半后,所有被试在这两半上所得

分数的一致性程度。可采用难度排序奇偶法、随机安置法和内容匹配法。

斯皮尔曼-布朗公式:(为两个分半测验的相关系数,两个分半测验应严格平

行,变异系数相等);

斯皮尔曼-布朗通式:(为单个测验的信度系数);

费拉南根公式:,其中分别为两个分半测验的方差和测验总分方差;

卢龙公式:,其中,是两个分半测验分数之差的方差。

分半信度测试在只能测试一次或没有复本的情况下使用。有联系的题目应放在同一

半,否则会高估信度:存在任意题或速度测验不宜用分半法;如果测试有多个分量表,应在

分量表内部排好顺序,再把各分量表的两半组合起来求相关。

(4)、同质性信度:也称内部一致性系数,是指测验内部所有题目间的一致

性程度。

当一个测验具有较高的同质性信度,说明测验主要测试同一心理特质:实

测结果就是该特质水平的反映。如果一个测验同质性信度不高,则说明测验结果

可能是几种心理特质的综合反映。题目内部的一致性主要受两个方面影响:内容

取样,研究对象的异质性。并非所有测验均要求较高的同质性信度,其取决于测

验的目的。

A.库德-理查逊公式20(KR20)

皿/k限)

其中,k为题目数,为第i题的通过率,为第i题的失败率,为整个测验的

总方差。此公式仅适用于记分的测验。

B.库德-理查逊公式21(KR21)

f-IC

其中,和分别表示题目的平均通过率和失败率,使用条件为:测验题目难

度大体相等,测验以对错二分法记分。

C.克龙巴赫系数

S:指所有被试在第i题上的分数变异。

D.荷伊特信度

(5)、评分者信度

多个评分者给同一批人的答卷进行评分的一致性程度。

A.肯德尔1'系数,进行检验;

B.Kappa一致性系数

L,_Po-Pen_a+d_(a+c)g+〃)+S+d)(c+,)

入i",Po,.2

I-penn

其中,a、d是不同评价者评价一致的次数。

(6)、信度系数与误差变异的来源

信度系数类型误差变异的来源

重测信度时间取样

复本信度(连续施测)内容取样

复本信度(间隔施测)时间取样和内容取样

分半信度内容取样

同质性信度内容取样和内容异质性

评分者信度评分者间的差异

(7)、差异分数的信度

其中,分别代表分数x的信度、分数v的信度和分数x分数v之间的相关

系数。由于两个实得分数相减时,原有两个量数的共同成分被抵消,使得差异分

数的信度比构成差异的两个分数的信度都低。如果两个测验测量的是完全相同的

特质,两者之间差异分数的信度就为零。

(8)、合成分信度

_k(1/)

其中,分别代表分测验的数目、各分测验的平均信度和各分测验间的平均

相关。通常,合成分信度高于分测验的信度。

(9)、标准参照测验的信度

一致百分比法,PA二(两次均掌握人数+两次均未掌握人数)/总人数

3.信度的影响因素与改进

影响因素;被试因素(团体内部的异质性程度和平均水平),主试因素,评

分者因素,施测情境因素,测量工具因素(试题数量、测验难度、试题的同质性

程度),两次施测的时间间隔。

提高信度的方法:

I、合理确定测验的长度,题目之间应具有较高的同质性;

II、使题目难度接近正态分布,并控制在中等水平,注意提高试题的区分度;

111、选取恰当的被试,提高测验在各同质性较强的亚团体上的信度;

IV、因素分析和鉴别力分析、衰减校正;

V、减少无关因素的干扰。

斯皮尔曼-布朗预测公式:,其中和分别为期望信度水平和已观察的信度水

平。

衰减校正公式:,其中为两个测验的相关系数,和分别为两个测验的信度系

数C

4.效度的定义

一个测验或量表实际能测出其所要测的心理恃质的程度(操作定义),效度

是由总变异中由所测量的特性造成的变异所占的百分比(理论定义,)o

效度是一个相对概念,其只有程度上的差异,而不能非常精准;效度是测量

的随机误差和系统误差的综合反映;效度是针对测验结果的有效程度;效度针对

特定的测量目的;效度是经验或逻辑上的“真”或“有效”,未必具有必然为因

果关系。

5.效度的估计

(1)、内容效度:测验题目对有关内容或行为取样的适当程度,即一个测验

实际测到的内容与所要测量的内容之间的吻合程度。其应具备两个条件:要有定

义完好的内容范围;测验题目应是所界定的内容范围的代表性取样。

估”内容效度,主耍采取专家评定法。它主要应用于成就测验,也应用丁部

分用于选拔和分类的职业测验,对于能力倾向测验和人格测验有效性较低。

(2)、结构效度:一个测验实际测到所要测量的理论结构或特质的程度,或

日测验分数能够说明心理学理论的某种结构或特质的程度。结构是指用来解释人

类行为的理论框架或心理特质,是心理学中抽象的概念、特性或变量。

结构效度具有以下特点:结构效度的大小取决于事先假设的心理特质理论;

结构效度有时很难获得;结构效度没有单一指标,由各方面的证据积累起来进行

评价。具体方法包括:

A.测验内方法:分析测验的内容效度,分析被试对题目反映的特点,计算

测验的同质性信度。

B、测验间方法:相容效度、区分效度、因素分析[找出影响测验的共同因素,测

验分数总变异来自有关因素的比例即是该测验结陶效度的指标。)

C.考察测验的效标关联效度:根据效标把被试分组,考察其得分差异;根据

测验得分把被试分组,考察其所测特质的差异。

D、多种特质-多种方法矩阵:若有多种特质接受多种方法的测量,就可以分

别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意

两种特质接受同一种方法和不同方法的相关,以这些相关系数为元素构成一个

矩阵-通过评估会聚效度(测验分数与不同方法测量相同特质的测验分数呈高相

关)和区分效度(测验分数与测量不同特质的测验分数呈低相关)对效度进行估

计。

(3)、效标关联效度:测验对处于特定情境的个体的行为进行估计的有效性。

效标:被估计的行为,也即独立于测验并可以从实践中直接获得的实验者感

兴趣的行为。根据效标效度资料搜集的时间差异,可分为同时效度和预测效度。

同时效度指测验分数与效标资料同时收集,预测效度指先获得测验分数,一定

时间后再收集效标资料。效标测量要求:有效性、可靠性、客观性、实用性。

效标估计的方法:

I、相关法:计算测验分数与效标测量之间的相关系数;

H、区分法:根据效标测验的成绩将被试分为两组,然后分析两组被试在测

验分数上的差异;

IH、命中率:依据测验取舍时,评估决策的正确命中率和否定率;

IV、基础率、灵敏度和确认度:基础率是指符合筛选要求的群体在整个人群

总体中所占的比率,灵敏度是指符合要求的人能被测验鉴别出来的比率,确认

度是指不符合要求的人能被测验正确拒绝的比率。

6.效度的影响因素与改进

影响效度的因素:测量信度、测量长度、被求特性、效标性质、干涉变量。

测量长度与效度的关系为:

(n-r)-:

其中,是测验x增长到原来n倍后,新测验与效标(y)的相关(效度系数);

n为测验增长的倍数,为原测验的效度系数,为原测验的信度系数。

测验与效标测量的关系为:

max(rJ=xfc

其中,为两个测验之间最大可能相关,和分别是两个测验的信度,为两个

测验的实测相关。

提高测量效度的方法:提高信度,控制无关变量。

7、信度和效度的关系c

信度高是效度高的必要而非充分条件,。

(三)、心理测量的误差

1.测量误差的定义

测量过程中由与测量目的无关的变化因素所产生的一种不准确或不一致的

测量效应。包括随机误差和系统误差,系统误差只影响测量的准确性,不影响测

量的稳定性;随机误差既影响稳定性又影响准确性。

2.测量误差的来源及控制

A.测量工具

B、测量对象:测脸焦虑,测验经验,学习、发展和教育,应试动机,练习

效应,反应倾向,生理因素。

C、测量过程:测试环境,测试时间,意外干扰;

D.主试因素;

E、评分计分。

3.测量误差的估计。

同经典测量理论模型。

(四)、心理测验的项目分析

项目分析包括定性分析和定量分析,定性分析包括考虑内容效度、题目编写

的恰当性和有效性等,重点在于分析测试题目的内容和形式;定量分析主要是采

用统计方法来分析试题的品质。

1.常模参照测验的定量分析

(1)、难度

以通过率衡量:;两端分组法:

在非二分法记分的项目中,常采用以下公式:

,其中k为选项的数目,r为答对的题目数,w为答错的题目数。

难度不具有等距性质,会对测验分数的分布形态、信度、区分度产生影响。

⑵、区分度

测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分度可以用个

别项目与测验总分的一致性为依据进行相关计算,称为内部一致性分析,适用

于同质性测验,即各个项目都是为测量同一心理特质而设的测验。对于异质性测

验,即测验上的不同项目指向测量不同的心理特质,则需要用被试的反应与外

在效标的相关来计算,称为项目效度分析。

A.项目鉴别指数法:

B、相关法(以项目分数与效标分数或测验总分的相关作为区分度指标:具

体包括二列相关、点二列相关和中相关)

C.方差法(特定项目得分的方差)

难度越接近0.5,项目潜在区分度越大,所以,在利用项目分析选择试题

时,应扩大项目难度分布,增加梯度,使整个测验的难度呈正态分布,同时使

整体难度保持在0.5左右。

2.标准参照测验的定量分析

主要计算区分度指数(同常模参照测验的鉴别指数)和灵敏度指数(灵敏度

指数=(后测通过的人数-前测通过的人数)/总人数)。

3.项目的综合分析和筛选。

区分度通常应大于0.3;难度在0.35-0.65为宜,0.5左右最佳。

难度和区分度主要针对效标参照测验和标准参照测验,对于测量人格、兴趣等

特质的测验,难度并不是主要的控制项目。

测验中个别项目对不同团体的不公平现象称为项目偏差,在测验编制时必须对

试题进行项目功能差异分析。

三、项目反应理论

(一)、单维性假设与项目特征曲线

单维性假设:作为测量对象的一个项目或测验中的各个项目所测量的是同

一种能力或特质,此种单一能力或潜在特质包含在全部测验项目中,能用一个

数字变数加以说明和解释。

局部独立性假设:被试在测验项目上的反应只与自身能力和项目的性质相

关,而与他人或其自身在其他项目上的反应无关。

项目特征曲线假设:被试对测验项目所作反应的概率遵循一定的函数关系,

此关系可以用项目特征曲线表示出来。

项目特征曲线(ICC):用能稳定反映被试水平的潜在特质变量取代卷面总

分作为回归曲线的自变量的曲线。反映特定测试项目的正确反应概率与该项目所

对应的能力或特质水平之间的一种函数关系。

图4・2三等数逵辑斯蒂模型的项目特征曲线

项目特征曲线是一条项目答对概率随能力水平值提高而逐渐单调上升的点对称

曲线。首先,曲线的对称点是曲线的拐点,它在横轴上的取值为b(通过能力为

50%的能力水平,表示项目难度),它是曲线的位置参数,拐点位置越向右移,

说明项目越难,即要在项目上取得50%的正确率,所需特质水平越高;其次,过

拐点作曲线的切线,当切线斜率增大时,曲线变得陡峭,此时项目区分被试的

能力越强,反之亦然,因此,拐点曲线斜率代表的a值,可作为项目的区分度

参数;最后,曲线下尾端渐近线在纵轴上的高度c(猜测度),显示能力水平很

低的被试可能答对项目的概率。

(二)、单参数模型、双参数模型和三参数模型

I、单参数模型

只包含难度,数学公式为:

II、双参数模型

包含难度和鉴别度,数学公式为:

I1K三参数模型

包含难度、鉴别度、猜测度,数学公式为:(Logistic函数)

(三)、项目信息函数与测验信息函数

项目反应理论提出信息函数的概念,它是一个关于项目质量、包含难度和区分

度等各方面作用的统一的综合指标。一个试题提供的信息函数越大,测试的误

差越小,试题的信息函数与试题的区分度成反比,与伪随机水平成反比,与成

反比。信息函数用于单个项目时,称为项目信息函数,能具体指明质量特定的

各个项目对不同能力的被试可提供信息量的水平,和测验对被试能力水平的估

计的测量误差水平,从而提出测验编制的指导原则。由于信息函数的可加性,

各项目信息函数之和就是测验信息函数,反映整个测验在评价不同被试特质水

平时的信息贡献。

四、概化理论

概化理论是关于行为测量的可信赖度的统计学理论,其关注测验分数的概括性,

也就是测验分数能够推论的范围。由于每次测试实施的条件总会存在一定差异,

因此各次测验的实得数之间必然存在一定的误差。如果测验误差较大,以实得

分数为依据所做推论的可信度就会降低。而且测量误差越大,测验得分的可信

赖度就越低。可信赖度是指一个人在一次测量中获得的实得分数,推广应用到

该被试在所有可能条件下获得的平均分数时,推论或概括化的准确程度。

概化理论的主要特点在于其将研究范围界定为一个可接受的观测域,而将每一

次测量结果视为该领域内的一个随机样本。它认为,测验的目的不是获得特定

条件下的测验结果,而是以此来推论在更广泛条件下可能获得的测量结果。概

化理论通过系统地分析实得分数和多种误差来研究此类问题。它将影响总体估

计的每个因素称为一个测量面,在可接受的观测域中包含的测量面数量越多,

其误差估计过程就越复杂。

(一)、方差分量的估计

概化理论运用实验设计与方差分析技术,对总变异进行分解。其将误差变异分

为多个成分,每个成分对应一个特定的误差来源,通过分析指出测验分数在向

超出现有研究条件之外推广时的概括能力。同时,也可为采取控制措施提供指

引。

(二)、概化系数与可靠性指数

概化系数(G系数)可靠性指数(中系数)

估计来源相对误差(与测量目标有关的交互绝对误差(除测量目标效应之外的方差

效应方差之和)之和)

定义测量目标的有效变异占有效变异测曾目标自身的分数变异在全体分数变

与相对误差变异之和的比值异中所占的比率

测验类型常模参照测验标准参照测验

随机误差由测量目标的稳定性和各类交互作用引起,系统误差则由各个测量侧

面引起。

(三)、概化研究(G研究)与决策研究(D研究)

概化研究中,研究者首先考虑在测量过程中有哪些因素影响被试的测量结

果,相关因素称为研究层面。研究者在一次研究中,其所选择并加以考察的各个

因素和条件就构成该研究可接受的观测域。概化研究的目的就是定量的估计测量

目标的方差和各个测量侧面所产生的测量误差方差。它采用方差分量分析法,将

总体方差分为三类:测量目标主效应方差、测量侧面主效应方差、各类交互作用

方差。

在概化研究阶段,首先进行测验设计。在测验设计时首先要确定测量目标、选

择测量侧面、确定各测量侧面的水平并明确观察全域;然后进行测验方法的设

计;之后根据测量设计收集样本资料:最后对资料进行方差分析,获得测量目

标个体差异的期望均方、各测量侧面的不同水平间差异的期望均方以及各测量

侧面对测量目标的交互干扰程度的期望均方。严格讲,概化研究只是测验编制

过程中的准备性研究,相当于传统方法中的预测与量化分析。

决策研究,是利用概化研究的结果,在原来测验设计的可推论全域内,分析比

较各种可能的测验方案,根据分析结果,结合可能的实施条件选择能够有效控

制误差、提高信度而且具有可行性的实际测验方案。可能的测验方案是指在原

设计方案采集的资料范围内,通过固定一个或几个测量侧面、改变测量面的水

平、改变测量资料的收集方法(将交叉设计的数据部分或全部改为混合设计或

嵌套设计)等来改变原来的测量情境关系,从而形成新的不同的测量情境关系。

第二章、心理测验及其应用

一、心理测验的编制技术

(一)、测验编制的主要原则

1.基本原则

信度好,效度高,难度适中,区分度强。

2.具体原则

A.针对题目内容的要求

试题符合测验目的,内容取样具有代表性,试题之间彼此独立。

B.针对题目语言的要求

文句简明扼要,意义明确肯定。

C.针对题目表达的要求

避免诱导和暗示答案,避免涉及社会禁忌和个人隐私,避免使用主观情绪

化字句和问题。

D.针对题目理解的要求

答案正确可靠,格式明确具体,考虑被试的知识和能力范围。

(二)、心理测验编制的基木程序

1.测验编制的准备阶段

确定测验目的,界定测量对象,界定测验全域。

2.编制测验计划阶段

界定构念和要测量的内容,编制双向细目表;选择测验形式;规定施测形式;

确定评分方法。

3.测验的正式编制阶段

产生测题:搜集资料、选择测题形式,编写修订测题;

合成测验:预测和复核(试测),项目选择(难度和区分度)和编排;

编制等值复本。

4.测验编制的完善阶段

测验标准化:内容标准化,测试过程标准化,评分标准化,分数解释标准

化,建立测验分数的临界值;

测验性能评估:交叉效度检验,界定不公正的区分,检验效度等值;

编制测验指导手册。

(三)、测验目标与命题双向细目表

(四)、题目编制技术

(五)、测验合成与标准化

L测验合成

(1)、测验项目的选择

(2)、测验项目的编排

按题目类型组合、按题目测量内容组合、按难度组合:并列直进式(分测验

内由易到难排列),混合螺旋式(将相同难度水平的不同类型和性质的题目组合

在一起,再依难度排列),直接递增式(所有题目由易到难排列),混合式(随

机排列)。

(3)、测验复本的编写

2.测验标准化

(六)、测验的鉴定与手册编写

1.测验的鉴定:信度和效度。

2.测验手册的编写

(七”测验等值技术

1.等值的概念和种类

测验等值就是通过对考核同一种心理品质的多个测验做出测验分数系数的

转换,进而使得这些不同测验的分数之间具有可比性。

根据等值对象不同,测验等值可分为测验分数等值和项目参数等值;

根据等值的应用性质不同,测验等值可分为横向等值和纵向(或垂直)等值,

其中横向等值是在测验的平行版本之间建立联系,纵向等值多用于用一组水平

不同的测验来考察考生的发展水平,以建立发展量表,此类在不同水平的测验

之间建立联系的过程被称为纵向等值。

根据在等值时以何种理论作为指导,等值可分为经典测验理论等值和项目

反应理论等值。

2.等值的条件和性质

并非任意两个测验都可以进行等值,要进行等值的测验必须是测量同一心

理特质或能力,而且信度需要相等。具体而言,测验等值的性质和条件主要包括

以下几点:

A.公平性,如果两个或多个测验可以进行等值,则以其中任何一个测验作

为基础来进行等值转换,结果均一致。

B、对称性,等值转换具有双向关系。

C.样本不变性,等值处理的结果不应受到进行等值处理所采用的考生样本

组的影响.

3.等值的理论与方法

(1)、经典测验理论等值

A.平均数等值

两个不同版本的测试在短时间内施测于同一组被试,可以认为被试特质在

此阶段内保持稳定,在两个测验中的真分数应具有相同的平均数。

B.线性等值

它是指两个不同形式上转换分数的平均数和标准差相同,由此:

x-xy-y

FF

整理后可得:

C.等百分位等值

如果两个测验分数相对丁各自样本组的百分等级相同,则认为两个分数等

值。类似的方法还包括标准分数等值法。

百分等级可对原始分数进行非线性转换,定义直观,容易理解。但是其分数

转换关系的求得依赖于所选用的样本,当抽样样本改变后,具体的等值关系就

会发生变化,难以满足唯一性的要求。同时,百分位等值法通常要采用平滑化处

理方法,会增加等值误差。

(2)、等值设计与处理

等值数据资料的收集方法可分为以“人”为媒介的共同组等值设

计和以“题目”为媒介的共同题等值设计。共同组等值设计让同测测

样测

i组人接受不同的测验版本,共同题等值设计在不同测验版本验验

组验

中含有共同的题目。XY

U

等值设计

单组设计P\JJ

V

平衡随机组设计

V

p2

---

刖后

6测测

VV

等组设计

后前

测测

p2

VV

6

锚测验随机组设计

VV

p2

qVVV

锚测验不等组设计

p2VVV

二、心理测验的施测

(一)、测验的设计

测验选择时,应注意所选测验必须符合测量的目的和对象,符合测量学要求

(功效性(测验能否全面、清晰的反映要评定的内容特征)、敏感性、简便性、

科学性、时效性),同时要考虑测验的经济性、文化差异和可得性等问题。

(二)、施测的程序和步骤

A.事先告知被试,确保被试知情同意的权利;主试自身最好准备。

B.实施标准化的施测程序(标准化指导语、标淮时限、控制测验的环境条件、

评分计分的标准化)。

C.评分计分

D.分数解释

解释分数的原则包括:应参考其他资料;必须考虑测验的效度;测验分数应是

一个范围;不同测验分数不能直接比较;测验结果原则上不能告诉除被试者本

人以外的人员;解释分数时的态度应谨慎小心,防止对被试造成不利影响。

报告测验结果时应注意:要使用当事人可以理解的语言;告知被试测验的含义、

功能、目的和可信度;使被试理解分数只是一个估计,可能有误差;考虑分数

给被试带来的心理影响。

三、测验常模

(一)、常模与常模团体

常模团体是具有某种共同特征的人所组成的一个群体或群体的一个样本,常模

团体的分数分布,就是常模。常模样本应具有代表性和时效性。

(二)、分数转换与合成

分数转化:按一定规则将原始分数转化为导出分数的过程称为分数转化。

导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获

得的具有一定参考点和单位,可以相互比较的分数。常见导出分数包括:

百分等级:百分位数、百分位区间;

标准分数:线性转换的标准分数(Z分数)、正态转换的标准分数(T分数、标

准九分数(4.7、12.17、20));

商数:智力商数(比率智商、离差智商)、教育商数(教育年龄/实际年龄)、成

就商数(教育年龄/心理年龄)。

(三)、常模的编制

1.确定测验将用于哪一个群体,选定最基本的计量,决定抽样误差的允许

界限,在此基础上设计具体的抽样方法,并对该群体进行抽样,得到常模团体;

2.对常模团体进行施测,并获得团体成员的测验分数及分数分布;

3、确定常模分数的类型,制作常模分数转换表,同时给出抽样常模团体的书面

说明和常模分数的解释指南。

(四)、几种常用的常模

1.组内常模和发展常模

在个体发展历程中,达到一定年龄时所表现的共同性与代表性的行为•・称

为该年龄组的发展常模。发展常模的具体形式主要包括智力年龄、年级当量和发

展顺序量表。

团体内常模是根据团体分数计算得出的常模,将个人分数与团体常模对照

时,可以了解个人在团体中的相对位置。

2.分数合成

临床诊断,加权求和,多重回归,连续栅栏。

四、标准参照测验

(一)、标准参照测验的定义与作用

在施测前制定标准,在施测后根据预定标准来核对测验分数,从而判定是否达

到预定标准的测验。

(二)、标准参照测验的题目分析

1.内容范围的确定;

2.测验项目的内容效度分析-专家评价法;

3.测验项目的难度和区分度;

标准参照测验的预测方法主要包括:前测-后测方法,已接受教学组-未接受教

学组方法,对照组方法(已掌握组/未掌握组)。

(三)、标准参照测验的信度与效度

1.标准参照测验的信度及其估计

(1)、分类一致性信度

计算两次都被分到一类中的被试占总被试人数的比例。

(2)、方差分析法-荷伊特信度

2.标准参照测验的效度及其估计

(1)、内容效度

(2)、效度关联效标

决策效度:预测源测验和效标测验中击中和正确否定的比例之和。

(四)、标准参照测验的分数解释

标准参照测验对比的标准主要包括两个:对材料数量掌握的程度和外在效

标,前者称为内容参照分数,后者称为结果参照分数。

在解释内容参照测验时,主要包括两个步骤:确定测验所包含的知识或技能

的范围,编制能够报告测验成绩的量表。衡量内容参照分数的指标包括掌握分数、

正确百分比、内容标准分数(内容分数与常模分数结合)和等级评定量表。

结果参照也称效标参照,是用效标行为的水准来表示分数。获得结果参照分

数应有两个条件:测验分数必须与一个重要的效标具有高相关,即要有效标证

据;要有一个能把测验分数和效标成绩之间的关系结合起来的方法,即要有转换

分数的图表。表示结果参照分数的方法包括期望结果概率(获得特定测验分数的

人得到每种效标的百分比)和预期的效标分数(获得不同测验分数的人可能获得

的预期效标分数)。

在标准参照测验中,临界分数的确定具有重要影响,其确定方法包括:

A、专家判定法:Nedelsky法(估计排除错误选项的能力计算正确回答的可能性,

进而估计分界点)、Angoff法(估计正确回答的可能性,之后估计分界点)。

B、效标组预测法:临界组法、对照组法(两组被试原始分数分布曲线的交叉点

即为测验分数的分界点)。

五、常用心理测验

(一)、智力测验

1.成就测验

对个体在一个学习阶段或训练之后,知识、技能发展水平的测定。

A.韦氏个别成就测验

它是一套综合性成就测验,主要用于评估儿童和青少年学识增长和学习技

能的发展,也可作为学习障碍的诊断工具。其有两个特点:与韦克斯勒智力量表

共用常模,适合学习障碍的诊断;内容涵盖几乎全部学习障碍领域,特别适用于

残疾儿童的教育安置。它涵盖阅读、数学、语言和写作四个领域,原始分数可转

换为多种导出分数。

B.人都会成就测验

它从幼儿园到高中均可使用,包括调查成套测验、诊断成套测验和一个附加

的写作测验,可用于调查学生的教育成长,评估课程和教育方法的有效性,也

可用于不同学校教学质量的比较和诊断学生不同学科的强弱。

C.斯坦福成就系列测验

它是最早的综合成就测验,目的是测量“公认为中、小学课程所达到的结果”,

其最主要的一个心理测量技术是等值,包括横向等值和纵向等值,它使用相同

的学生为锚来联接不同的试卷。

D.学业评估测验(SAT)

2.智力测验

(1)、个体智力测验:

A.比奈系列量表

比内-西蒙量表是世界上第一个智力量表,编制原则:年龄差异、一般智力。

斯坦福-比内量表使用智力商数来表示智力水平,1960年,将比率智商改为

离差智商。

斯坦福-比奈量表有多个版本,1916年为第一版。1986年,桑代克、哈根

等在第四版中引入卡特尔流体智力和晶体智力的概念,以及桑代克和哈根编制

的认知能力测验,构成认知能力的理论框架。2003年的第五版,在卡特尔和斯

滕伯格等人智力理论的基础上,依据现代测量理论对测验进行完善。在第五扳中,

测量五个智力一般因素,分别是流体推理、数量推理、空间视觉过程、工作记忆

和知识、,每个分测验均通过言语和非言语两种形式反映。10个分测验的平均

数为10,标准差为3。在分测验的基础上,可以得到言语智力分数、非言语智力

分数和智力总分。合成分数的平均数为100,标准差为15«

B.韦克斯勒智力测验

韦克斯勒系列智力量表通常包含言语量表和操作量表两部分,言语量表和

操作量表交替进行,每个分测验原始分数各不相同,最高为90,最低为18,转

化为标准分后,每个分测验标准分为10,标准差为3,其中的11个分量表分数

可以进行合并,得到言语总分、操作总分和全量表总分,再使用常模量表,可以

得到言语智商、操作智商和全量表智商,它们平沟分均为100,标准差都为15。

在临床方面,可将其成绩在病理情况下不能保持原来水平的测验称为DH测

验,反之则称为H测验,DH测验成绩总分与H测验成绩总分之比就能够表示脑

器质性损害引起的神经系统功能衰退,此比例常用来诊断抑郁症、精神分裂症、

神经症和其他人格障碍,以及老年智力衰退。

韦克斯勒智力量表与比奈系列量表相比,它使用点量表而非年龄量表:包

含操作量表。通过使用点量表,为每个测题赋予分值,就可以将特定内容的试题

进行归集,从而产生每个领域的分数。在操作量表方面,因均在同一样本中进行

了标准化,并且两个量表的结果均以对等的单位表示,韦克斯勒量表实现了对

个体的言语和非言语能力进行直接比较的可能。它将多个量表在同一样本上进行

标准化的程序,也同样成为现代心理测验的典范。

韦克斯勒智力量表可进行言语智商和操作智商的构型分析,通过二者的大

小关系和差异程度决定其意义。同时,可以通过比较各分测验与言语量表或操作

量表平均分的差异,以及与全量表平均分的差异,进行强点(高于平均分3分)

和弱点(低于平均分3分)分析。

第三版成人智力量表包括14个分测验,其中有7个言语量表(常识、数字

广度、词汇、算术、理解、类同和字母-数字排序),7个操作量表(填图、图

片排列、积木图案、物体拼凑、数字符号、符号搜索和矩阵推理)。其中11个分

测验用于计竟全量表智商分数、言语智商分数和操作智商分数。量表适用年龄段

为16-74岁,分为16-17,18-19,20-24,25-34,35-44,45-54,55-64,65-79,

70-74共9个年龄组,各年龄组根据性别、地域、教育水平等因素分层抽样。信

度按照年龄组计算,除数字广度和数字符号采用复本信度外,其余分测验均采

用分半信度同时使用斯皮尔曼-布朗公式进行校正。

韦克斯勒儿童量表是目前世界上使用最广泛的儿童智力量表,共有12个分

测验,5个言语测验(常识、类同、算术、词汇、理解),5个操作测验(填图、

图片排列、积木图案、拼图、译码),2个备用测验(背数和迷津〔适用于6-16

岁的儿童,从6岁0个月到16岁11个月,每4个月为一个年龄组,分别建立了

常模表。第四版鉴于对区分言语与操作两类量表有效性的怀疑,不再划分这两个

领域,测验可以得到全量表智商和言语理解(常识、类同、词汇、理解)、知觉

组织(填图、排列、积木、拼配)、注意力集中或克服分心(算术、背数)、加工

速度(译码、符号搜索)等4个合成分数。

韦克斯勒学龄前和学龄初期儿童智力量表适用于3-7岁的儿童,幼儿量表

共11个分测验,其中3个分测验(句子测验、动物房测验、几何图形测验)是

为适应幼儿特点专门编制,其余8个(常识、理解、词汇、算术、类同、填图、

迷津、积木图案)则与儿童智力量表相同,只是内容进行了替换。它分为两个年

龄段,2.5-4岁的儿童只接受四个核心分测验:词汇、常识、积木图案和物体拼

配;4-7岁的儿童则接受全部测验。

C.考夫曼量表

考夫曼儿童成套评价测验用于评价2.5-12.5岁儿童的智力加工,它把测验

重点放在信息加工上,在测验中区分同时性加工和继时性加工,同时加工包含

7个分测验,要求被试从总体上观察空间和视知觉内容,并对内容进行综合和

组织。继时性加工包含3个分测验,要求被试进行系列或时间的排列。此外,

K-ABC还包含一个成就量表,包含6个分测验,评价被试在阅读、算数、词汇和

尝试等方面的能力。量表最后可以得到四个综合分数:同时性加工分数、继时性

加工分数、心理加工组合分数(两种加工的联合分数)和成就分数,每种综合分

数都是标准分数形式,平均分均为100,标准差为15。

考夫曼儿童成套评价测验不易产生文化偏差,试图区分出流体智力和晶体

智力,同时将流体智力进一步分解为同时性加工和继时性加工,颇具特色。

考夫曼青少年和成人智力测验(KA1T)适用于11岁以上青少年及成人智力

水平,它由两个分量表组成,晶体量表测量学校教育和文化适应中获得的概念,

流体量表测量被试解决新问题的能力,此外,KAIT还包含一个简短的心理状况

测验,用来评定认知损伤严重、不能完整参加成套测验的被试的注意和定向。

KAIT在选择测验题目时,要求问题不仅能体现皮亚杰形式运算思维中典型

的问题解决程序,而且要表现鲁利亚和高尔顿提出的成人思维所特有的计划评

价机能,因此KAIT的题目比较有趣和特别,比如著名人像、神秘代码、双重意

义等。

D.伍德考克-约翰逊认知能力测验修订版

卡特尔-霍恩-卡罗尔理论(CHC)是编制WJ-R的理论依据,CHC理论模型中

7个能力组成了WJ-RCOG认知能力测验量表的基础。

WJ-RCOG仅供受培训的学校、诊所或教育心理学家使用,此测验总共有21

个分测验,根据诊断对象的问题和评估需要选择使用。WJ-RCOG分为标准成套

测验和扩大成套测验。标准成套测验由7个分测验组成:流体推理能力、理解-

知识能力、视觉-空间能力、听觉加工能力、加工速度、短时记忆能力、长时提

取能力,每个分测验代表一个CHC能力因素,7项分测验(代表个体整体的智力

能力)产生一个标准认知能力因素分数(TQ分数)。早期发展量表用于测验学龄

前儿童(2-6岁),由5个标准分测验组成。其他7项分测验组成补充成套测验,

每项分测验也代表一个CHC能力因素。由标准成套测验和补充成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论