




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节 概述第一单元 测量与测量量表一、什么是测量 测量就是依据一定的法则用数字对事物加以确定。 定义中包括三个主要的元素: (1)事物 ( 2)数字 (3)法则。 测量所用的数字具有自然数的特点,即具有: ( 1)区分性;( 2)等级性;(3)等距性; ( 4)可加性。 二、测量要素 任何测量都应该具备两个要素:既参照点和单位。1 、参照点有两种: a. 绝对零点 b. 相对零点2 、好的单位必须具备两个条件: 一为有确定的意义, 即对同一单位, 所有的人的理解意 义要相同,不能出现不同的理解。二是有相同的价值。即相邻两个单位点之间的差别总是相 等的。三、测量量表 测量的本质是根据某一法则将
2、事物数量化,即在一个定有单位和参照点的连续体上把事 物的属性表现出来,这个连续体称为量表。根据量表的精确度,斯蒂文斯将量表从低级到高级分成四种水平: 命名量表: 这是测量水平最低的一种量表形式,只是用数字代表事物或把事物归类。1 、代号用数字来代表个别事物,如学生和运动员的编号等。2 、类别用数字来代表某一具有某种属性的事物的全体, 即把某种事物确定到不同的 性质的类别中。如用 1 代表男,用 2代表女,或用不同的数字代表不同的职业等。顺序量表:它比命名量表水平高,其中的数字不仅指明类别,同时指明类别的大小或 含有某种属性的程度,如学生的考试名次、工资的级别、能力等级等。在顺序量表中,既无 相
3、等单位,双无绝对零点,数字仅表示等级,并不表示某种属性的真正量或绝对值。等距量表 :它比顺序量表又进了一步, 不但有大小关系, 而且具有相等的单位, 其数 值可以相互做加减运算,但没有绝对的零点,因此不能做乘、除运算。典型的类子就是摄氏 温度。等比量表:是最高水平的量表,既有相等单位又有绝对零点。此种量表在物理测量中 容易见到,长度、重量、时间等都是等比量表。所得的数值可以做加减乘除运算。一般说来,心理测量表是在顺序量表上进行的,因为对于人的智力、性格、兴趣、态度 等,没有绝对零度是难以确定的,而且,在心理测量中,相等单位也是很难获得的。第二单元 心理测验的基本概念一、心理测验的定义 : 所谓
4、心理测验,就是依据心理学理论,使用一定的操作程序, 通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点做出推论和 数量化分析的一种科学手段。1234四个要素: 、心理测量的对象是人的行为; 、心理测量必须选择有代表性的样本; 、心理测量必须有相同的条件; 、心理测量必须以常模作为测量依据。二、心理测验的性质(一)间接性 :只能通过一个人对测验项目的反应来推论出他的心理特质。特质是个人对刺激作反应的一种内在倾向。是个体特有的、稳定的、可辩别的特征,它又是一个抽象产物,一个构思,而不是一个直接测量到的有实体的个人特点。(二)相对性 :对人的行为做比较,没有绝对标准。(三)客观性
5、:包括( 1)测验的刺激是客观的; ( 2)对反应的量化是客观的; (3)对结论的 推论是客观的。测验的客观性实际上就是测验的标准化问题。包括测验用的项目或作业标准 化、评分记分的原则和手段的标准化、分数转换和解释经过了标准化。 测验的客观性不包括 () 的客观性。绝对的标准 第三单元 心理测验的分类一、按测验的功能分类(一)智力测验:其功能是测验人的一般智力水平。(二)特殊能力测验:如音乐、绘画、机械技巧、文书才能测验。(三)人格测验:个性中除能力以外的部分的测验。二、按测验材料的性质分类(一)文字测验:儿童和成人智力量表中的言语量表部分均属文字测验。缺点是容易受 被试者文化程度的影响。(二
6、)操作测验:操作测验也称非文字测验。多属于对图形、工具、模型的辨认和操作, 无须使用言语作答,所以不受文化因素的限制,可用于学前儿童和不识字的成人。三、按测验材料的严谨程度分类(一)客观测验:无须发挥想像力来猜测和遐想。1下,2(二)投射测验 概念:投射法是指向被试者提供一些未经组织的刺激 情境,让他在不受限制的情境 自由地表现出他的反应,分析反应的结果,便可推断出他的人格结构。投射技术的种类联想法罗夏墨迹测验构造法主题统觉测验 表露法主要有: a. 画人测验 b. 知觉运动测验 完成法(句子填充测验、逆境对话测验)。 我最讨厌(1)(2)(3)(4)句子填充测验:我最喜欢四、按测验的方式分类
7、(一)个别测验:以一对一的形式来进行。优点在于主试对被试的言语和情绪状态有仔 细的观察,并且有充分的机会与被试者合作,所以结果可靠。缺点是时间不经济。(二)团体测验:一个主试者同时对多个被试者实施的测验。如著名的陆军甲种和乙种测验。五、按测验的要求分类(一)最高行为测验成就测验、学绩测验 。(二)典型行为测验一般人格测验等。第四单元 如何看待心理测验一、错误的测验观(一)测验万能论(二)测验无用论二、正确的测验观(一)心理测验是重要的心理学研究方法之一、是决策的辅助工具(二)心理测验作为研究方法和测量工具尚不完善。第五单元 心理测验在心理咨询中的应用在我国目前情况下, 心理门诊中运用较多的大致
8、有这样 3 类心理测验: 一、智力测验 ;二、人格测验; 三、心理评定量表。 心理测验在咨询和心理治疗过程中并不是必不可少的一个环节,如果通过与咨询或治疗 对象的交谈,对其问题已形成明确的看法,就可以放弃不必要的心理测验。有时过多的使用 还会影响咨询、治疗的过程和效果。第六单元 心理测验的发展史 一、科学心理测验的产生与发展 (一)三个重要人物:1、高尔登( F.Galton ),首先倡导科学心理测验的学者 。 英国生物学家和心理学家高尔顿 的主要贡献 :(1)提出了不同气质特点和智能是按身体特点的不同而遗传的;( 2)研究差异的遗传性,便设计了测量差异的方法,典定了统计学基础;( 3)第一个
9、提出了相关的概念,创立了积差相关法,这使判定心理测验的信度、效度和进行因素分析成为可能。2 、卡特尔( J.M.Cattell ),卡特尔( 1)在心理杂志上发表“心理测验与测量”一文, 这是心理测验第一次出现于心理学文献中; (2)认为心理学应立足于实验与测验; ( 3)认为 心理测验应有统一的标准。3、比内( A.Binet ),编写了世界上第一个正式的心理测验。12345-1 中国古代的心理(二) 20 世纪心理测验的主要发展: 、操作测验的发展 、团体智力测验的发展 、能力倾向测验的发展 、人格测验的发展 二、现代心理测验在我国的发展(参见本课程教学参考资料:专栏测验思想)九连环是一种
10、中国民间的智力游戏,其设计之巧妙,也可和现代的魔方、魔棍相配美。称为“中国的迷津” 。七巧板 被称为唐图,即“中国的图板” 。近些年来我国的心理学学正在 致力于测验的本土化。第二节 测验的常模 常模参照分数解释的测验:律师考试就是这样,即使大家考试都考得特别好,也只要前 面的百分之几。根据大家的成绩。标准参照分数解释的测验:国家心理咨询师的考试,出了两份卷子:基础理论,操作技 能,满分一百,及格六十。两科都满 60,可以得到分数。门槛已经设好了。大家都能跳过门 槛,就都能通过。很多人都没有通过,也就不能过去了。通过与不通过,参照一个事先设定 好的标准,来解释分数。叫做标准参照分数解释。第一单元
11、 常模团体 一、常模团体的性质 常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。它 用一个标准的、规范的分数表示出来,以提供比较的基础。任何一个测验都有许多可能的常模团体 。对测验编制者而言, 常模的选择包括: 确定一 般总体、确定目标总体、确定样本。对测验的使用者来说,要考虑的问题是,现有的常模团 体哪一个最合适。二、常模团体的条件 (一)群体的构成必须明确界定 (二)常模团体必须是所测群体的代表性样本(三)样本的大小要适当 。总体数目小,只有几十个人,则需要100%的样本。如果总体数20003000目大,相应的样本也大,一般最低不小于 30 或 100 个。全国性
12、常模,一般应有人为宜。 在实际工作中, 应从经济的或实用的可能性和减少误差这两个方面来综合考虑样本的大小。(四)标准化样组是一定时空的产物(具有新近性)三、取样的方法 简单随机抽样也无系统抽样 :系统抽样方法的关键是计算组距。 系统抽样要求目标总体无序可排, 等级结构存在。分组抽样:分层抽样 :有分层按比例抽样与分层非比例抽样之分。此方法最常用。四、常模分数与解释常模分数:常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换 出来的导出分数。常模:常模分数构成的分布, 就是通常所说的常模 (norm),它是解释心理测验分数的 基础。 常模表示一种最简单、 最基本的且常用的呈现常模资
13、料的方法, 它的构成要素是: 对 常模团体的具体描述;原始分数;导出分数。导出分数的特性:具有意义;与原始分数等值;等单位;具有参照点。 取样是指从 () 中选择有代表性的样本。目标人群 第二单元 常模的类型一、发展常模(年龄量表)(一)发展顺序量表 。最早的一个范例是葛塞尔发展程序表 。按月份显示儿童在运动 水平、适应性、语言、社会性四个方面的大致发展的水平。4 周能控制眼球运动; 16 周能使头部保持平衡; 28 周能用手抓握东西并玩弄;40 周能控制躯干、坐立或爬行; 52 周能控制腿脚运动、站立和行走。皮亚杰发现, 儿童不同时期出现不同的守恒概念: 5岁时理解质量守恒; 6岁时掌握重量
14、守恒; 7 岁时有容量守恒概念。尤其注重某些特殊概念的形 皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展, 成,其中最著名的工作就是对 () 概念的研究。守恒 (二)智力年龄 比内-西蒙量表中首先使用智力年龄的概念。9岁6个计算方法:假如某儿童 6 岁组的题目全部通过, 7岁组通过 4题, 8岁组通过 3 题, 组通过2题,其智龄为:6 (岁)+4X 2 (月) +3X 2 (月) +2X 2 (月) =6岁+18月=7岁 月。智力年龄,简称智龄,一个儿童在年龄量表上所得到的分数,就是代表他的智力水平的 年龄。(三)年级当量 :年级当量实际上就是年级量表, 测验结果说明属哪一年级的水平,
15、教育成就测验中最常用。 发展量表的基本要素; ( 1)一组可以区分不同年龄组的题目; ( 2)一个常模团体; 常模表。 二、百分位常模公式(一)百分等级:指在常模样本中低于这个分数的人数的百分比。(5-1 ) : PR= 100 (100R 50/ N)王红在 30名同学中的物理成绩是 80分,排名第 5名,则其百分等级为( 85)。 二 ) 百分点: 也称百分位数。 计算处于某一百分比例的人对应的测验分数是多少。695,其百分等级为 100,最低分为 103 分,百分等级为 1,80的百分位数(PP)。按直线内插法:100- 80/得 PP= 575: 四分位数和十分位数只是百分位数的两个变
16、式,其含义1 00份,而四分位则是将量表分成四等份,十分位则是分成十线内插法:例:高考的最高分为要录取 20的学生进入大学,百分等级为695 PP= 80 - 1/PP 103(三)四分位数和十分位数 相似。百分位数是将量表分成 等份。三、标准分常模 标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。标准差的作用:一是可以直接反映被测值的离散程度;二是可以直接作为一个单位反映 被测值偏离平均值的情况。1. 线性转换的标准分数 公式( 5-2) Z=(X-X)/SD其中X为任一原始分数,X样本平均分数,SD为样本标准差。由此可见 Z可以用来
17、表示 某一分数与平均数之差的几倍。因为存在小数和负数,而且单位过大,通常将 z 转换成另一形式: 公式( 5-3 ): Z=A+BZA B为根据需要指定的常数。当原始分数不是常态分布时, 也可以使之常态化, 这一转换A、对每个原始分数值计算累计百分比;B在常态曲线面积中,Z 为转换后的标准分数,2. 非线性转换的标准分数 过程就是非线性的。步骤为: 求出位于该百分比的 z 分数。(1)T分数:以50为平均数(即加上一个常数 50),以10为标准差(乘以一个常数10) 来表示。(麦柯尔最早使用)T 分数的是麦柯尔。 标准九分:是以 5 为平均数,以 2为标准差的一个分数量表。 标准十分:以 5(
18、5.5) 为平均数,以 1.5 为标准差的一个分数量表。 标准二十分:以 10为平均数,以 3 为标准差的一个分数量表。公式(5-4 ): T=50+10z' 最早使用( 2 )( 3)( 4)四、智商及其意义1. 比率智商(斯坦福大学推孟教授于1916年修订而成斯坦福-比内量表)。比率智商(IQ)100。等于心理年龄(MA与实足年龄(CA之比。为小数将商乘以公式(5-5) IQ=MA/CAX 100缺点:由于智力是由快到慢再到停止的一个过程,所以不适合年龄较大的被试。韦克斯勒)2. 离差智商 (韦克斯勒) :表示的是个体智力在年龄组中的位置。 离差智商的平均数为 100,标准差定为
19、15。公式( 5-6 ): IQ=100+15Z'=100+15(X-X)/SD 必须指出:从不同的测验获得的离差智商只有当标准差相同或接近时才可以比较,标准 差不同, 其分数的意义便不同。 (参见本课程教学参考资料: 专栏 5-2 几种导出分数间的相互 关系) 离差智商的优点: (1)建立在统计学基础之上;(2)它表示的是个体智力水平年龄组中所处的位置;( 3)是表示智力高低的一种理想指标。 若儿童的心理年龄高于其生理年龄, 则智力较一般儿童高, 若心理年龄低于其生理年龄,则智力较一般儿童低。但在实践中发现,单纯用心理年龄来表示智力高低的方法缺乏不同()儿童间的可比性。年龄 五、注意
20、的问题1 、发展常模换算及解释时需要注意的问题: 只适合于所测特质随年龄发展变化的情况,对成年人不适用; 只适用于在典型环境下成长的儿童; 一年的差异在不同年龄有不同的含义。2 、百分位换算及解释时需要注意的问题 :顺序量表,缺少相等单位。靠近中央的原始 分数差异扩大,而两端的差异缩减。不能比较和说明不同被试间分数差异的数量。3、标准分数换算及解释时需要注意的问题:计算非线性转换的标准分数时,特质的分数实际上应该是常态分布。标准差不同,其分数的意义不同。第三单元 常模分数的表示方法一、转换表法 :最简单而且最基本的表示常模的方法就是转换表,有时也叫常模表。二、剖面图法 :剖面图就是将测验分数的
21、转换关系用图形表示出来,效果更直观。第三节 测验的信度第一单元 信度的概念一、信度的定义 信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所 得结果的一致程度。随机误差越大,信度越低。X)总是由真实分数(T)和误差(巳两部分构成。信度只受随机误差的影响。 第一个测试的实际分数(5-8 )。就得到(公式(公式 5-7 ): X=T+E 如果用方差代表具体分数, 在测量理论中,信度被定义为:一组测量分数的真实分数方差与总方差(实得分数的方 差)的比率。 (公式 5-9 )。真实分数是无法统计的,因此公式 5-9 还可以转化为(公式 5-10 )。二、信度的指标1. 信度系
22、数与信度指数 : 大部分情况下,信度是以信度系数为指标,它是一种相关系 数。是真分数方差与实得方差的比值。 (公式 5-11 )。信度指数的平方就是信度系数。 (公式 5-12 )2. 测量标准误 测量的标准误与信度之间有相互消长的关系:信度越高,标准误越小;信度越低,标准误越大。第二单元 信度评估的方法(四个)一、重测信度 :使用同一测验, 在同样条件下对同一组被试者前后施测两次测验, 求两 次得分间的相关系数,叫重测信度,又称稳定性系数。一般是两周到四周较宜,间隔时间最 好不超过六个月。由于人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不 会有很大的变化。二、复本信
23、度: 又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同 一群体,然后求得被试者在两个测验上得分的相关系数。这个相关系数就代表了复本信度的 高低。复本信度反映的是测验在内容上的等值性, 故又称等值性系数。 复本信度也要考虑两个复本 实施的时间间隔。如果两个复本几乎是在同一时间内施测的,相关系数反映的才是不同复本 的关系,而不掺有时间的影响。如果两个复本的施测相隔一段时间,则称重测复本信度或稳 定与等值系数。 复本信度的缺点: ( 1 )如果测量的行为易受练习的影响, 则复本信度只能减少而不能完 全消除这种影响; (2)由于第二个测验只改变了题的内容,已经掌握的解题原则可以迁移到同类
24、的问题;(3)对于许多测验来说,建立复本是十分困难的。三、内部一致性信度1. 分半信度:分半信度指采用分半法估计所得的信度系数。这种方法估计信度系数只需 一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶分为等值的两半,并分 别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了 两半测验内容取样的一致程度, 因而属于内部一致性系数。 修正公式是斯皮尔曼 -布朗公式: ( 公式 5-14 )。斯皮尔曼 - 布朗公式为经验公式,它的假设条件是两半测验的变异数相等,但实际资料 有时未必完全符合这一条件。当假设不成立时,可采用弗朗那根公式或卢伦公式,直接求得 测验
25、的信度系数。2. 同质性信度:同质性主要代表测验内部所有题目间的一致性。当各个题目的得分有较 高的正相关时, 不论题目的内容和形式如何, 好象测量同一特质,但相关很低或为负相关时,几个计算同质性信度的公式如下:(1)库德- 理查逊公式 (用于 0、1记分)则测验为同质的。 相反, 则测验为异质的。即使所有题目看起来计算同质性信度,常用的是K-R21 公式。a系数的是,它们只能用于K-R20 公式,在各测题难度相同或近似的情况下,还可采用计算更为简便的K-R20 公式、 K-R21 公式有别于克伦巴赫(2)克伦巴赫a系数(不适用于多重记分)四、评分者信度 : 用于测量不同评分者之间所产生的误差。
26、(0.90 以上,才认为是客观的)。为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准 分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信() 。是非题 度的估计。 下列描述中正确的是: (1)随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度;( 2)所有题目看起来好象测同一特质,但相关很低或负相关时,则测验为异质的; (3)人的多数心理特征如智力、性格、 兴趣等,具有相对的稳定性,间隔一段时间,不会有很大的变化;(
27、4)不同信度反映测验误差的不同来源。 第三单元 信度与测验分数的解释一、解释真实分数与实得分数的相关 信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。二、确定信度可以接受的水平当rxx < .70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;当.70< rxx <85时,可用于团体比较;当rxx > .85时,才能用来鉴别或预测个人成就或作为。三、解释个人分数的意义 作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。 测量标准误可以通过第一次测验的结果及信度估计到: (公式
28、 5-15)。 例:在一个智力测验中,某个被试的 iQ 为 100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?X 1.96SE < XTW X+1.96SE (公式 5-16 )已知该智力测验的标准差为 15,信度系数为 .84 ,则其 iq 的测量标准误和可能范围为: 套(公式 5-15 )得 SE= 6 , 即:IQ=100 ± 1.966 = 100± 11.76 88112我们可以说这个被试的真实性IQ可能性落在88与112之间,即若再测一次,他的智商低于 88、高于 112的可能性不超过 5。四、比较不同测验分数的差异 差异分数的标准误:
29、(公式 5-17)。例;某被试在韦氏成人智力测验中言语智商为 102,操作智商为 1 1 0 。已知两个分数都是 以 100 为平均数, 15 为标准差的标准分数。 假设言语测验和操作测验的分半信度分别为 0.87 和 0.88 。问其操作智商是否显著高于言语智商呢?首先计算出差异分数的标准误: SED=7. 5在统计上, 经常要求两个分数的差异程度达到 0.05 的显著水平, 才能承认不是误差的影 响。因此,将差异标准误( 7.5 )乘以 1.96 ,结果为 14.7 ,这表明个体在韦氏测验两半得分 的差异高于大约 15分,才能达到 0.05 显著水平。上述被试的差异分数 110-102=8
30、是不显著 的。第四单元 影响信度的因素一、样本特征(一)样本团体异质性的影响 若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。(二)样本团体平均能力水平的影响 因为每个题目具有不同的难度,对幼年者和能力水平较低者,其信度值相对较低。测题取样或内容取样越有代表性 被试的猜测因素影响就越小。 有时反而会引起被试者疲劳和反感而降低可靠性。二、测验长度(一)测验越长,(二)测验越长,(三)测验太长,通过斯皮尔曼 - 布朗公式的导出公式可计算出最少应增加的题数:例:一个包括 40 个题目的测验信度为 0.80 , 少题目?根据斯皮尔曼布朗公式: K=0.90(10.80)
31、 即要取得 0.90 的信度,测验长度就为原来的三、测验难度地板效应与天花板效应)公式 5-18 )。欲将信度提高到 0.90 ,问至少需要增加多/ 0.80 (10.90 )=2.252.25,即需要增加 40 X 2.25=50个题目。0.85 。洛德(Lord )提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为: 五择一测题, 0.70;四择一测题, 0.74;三择一测题, 0.77 ;是非题,只有平均难度水平为 50时,才能使测验分数分布范围最大。四、时间间隔:两次测验相隔时间越短,其信度系数越大注意事项 斯皮尔曼 -布朗公式为校正分半信度的经验公式,它的假设是两半测验分
32、数的变异数相等。当假设不成立时,可以采用弗朗那根( Flanagan )公式或卢伦( kulon )公式之一,直接 求得测验的信度系数。对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用 若干个相对异质的分测验。第四节 测验的效度1)内 美国心理学会在 1974 年发行的教育与心理测量之标准一书中将效度分为: 容效度;( 2)构想效度;( 3)效标效度。 第一单元 效度的概念(有效性或者说准确性)一、效度的定义 :在心理测验中,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地 说是指一个心理测验的准确性。 (是科学测量工具重要的必备条件) 。因为测验分数
33、的总方差等于真实方差与误差方差之和 (公式 5-8 ),而真实方差又分成两 部分,即有关方差与无关的但稳定的方差: (公式 5-19 )以公式 5-19 代入公式 5-8 得:(公式 5-20 ) 在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方 差)与总方差的比率,即: (公式 5-21 )二、效度的性质1. 效度具有相对性 任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合 才会有效。 效度具有相对性,在评鉴测验的效度时,必须考虑测验的(目的)与(功能)2. 效度具有连续性测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有
34、”或“全无”的区 别。效度是针对测验结果的。测验效度是“测验结果”的有效性程度。第二单元 效度评估的方法一、内容效度( content-related validity)从而确什么是内容效度: 内容效度指的是测验题目对有关内容或行为取样的适用性, 定测验是否是所欲测量的行为领域的代表性取样。内容效度的评估方法: (确定)1 专家判断法 (描述性语言) 请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内 容。如果专家认为测验题目恰当地代表了所测内容,则测验具有内容效度。由这种估计效度 的方法,是一个逻辑分析的过程,所以内容效度又称“逻辑效度” 。为了使内容效度内容确定过
35、程更为客观 , 弥补专家的不足 , 可采用如下几个步骤: (1)定义好测验内容的总体范围,描述有关的知识与技能及所用材料的来源;并由测验编制者确定各题所测是何(2)编制双向细目, 确定内容和技能各自所占比例, 种内容与技能;(3)制定评定量表来测量测验的整个效度。2)两个测验复本的相关性和课程内2统计分析法 :包括( 1)对评分者一致性的评定; 容的学习等分析; ( 3)再测法。face validity )混淆。表面效度是由3 经验推测法 :通过实践来检验效度。 内容效度的特性: 内容效度经常与表面效度(外行对测验作表面上的检查确定的,它不反映测验实际测量的东西,只是指测验表面上看来 好像是
36、测量所要测的东西;内容效度是由够资格的判断者(专家)详尽地、系统地对测验作 评价而建立的。 最高行为测验注重表面效度, 测典型行为时则应该把表面效度降低, 尽量不让你知道在 测试的内容。这就是内容效度与表面效度的区别。二、构想效度( construct-related validity)构想效度指 (1)测验能够测量到理论上的构想或特质的程度, ( 2)即测验的结果是否 能证实或解释某一理论的假设、术语或构想,解释的程度如何。( 3)涉及的是心理学的理论概念问题。(4)构思效度。构想效度的估计方法:相容效度:与其他测量同一构思的测验有相关; (2)(3)因素分析法:种因素与原先的理论构思一致,
37、则1 .对测验本身的分析:可以作为构想效度的证据有:测验的内容有效;测验内部 一致性;被试者对题目的反应特点区分2 测验间的相互比较:(1)效度:与测量不同构思的测验无相关: 说明构思效度很高。 )3 效标效度的研究证明4 实验法和观察法证实三、效标效度( criterion-related validity 什么是效标效度 效标效度又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。一个好的效标必须具备以下条件: 效标必须能最有效地反映测验的目标,即效标测量本身必须有效; 效标必须具有较高的信度,稳定可靠,不
38、随时间等因素而变化; 效标可以客观地加以测量,可用数据或等级来表示; 效标测量的方法简单,省时省力,经济实用。 效标效度的评估方法1 相关法: 相关法是评估效标效度最常用的方法, 它是求测验分数与效标资料间的相关, 一相关系数称为效度系数。效度系数的计算:积差相关法;点二列公式;二列公式;贾思朋多系列公式。2 区分法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。3 命中率法 : 命中率法是当测验用来做取舍的依据时, 用其正确决定的比例作为效度 指标的一种方法。四种情况:预测成功而且实际也成功;预测成功但实际上失败;预测失败 而事实成功;预测失败且实际上也失败。称正确的预测为
39、命中,不正确的预测为失误。命中率高低常随划分测验分数成功与失败的临界分数的高低面变化。临界分数越高,正 命中率也越高;反之,临界分数越低,则正命中率也越低。第三单元 效度的功能意旨相关系数的平方,一、预测误差 : 效度系数的实际意义常常以决定性系数来表示, 它表示测验正确预测或解释的效标的方差占总方差的比例。二、预测效标分数:如果X与丫两变量呈直线相关, 只要确定出二者间的回归方程, 可以从一个变量推估出另一个变量。三、预测效率指数E=100(1-K)40)预测效率指数E值的大小表明使用测验比盲目猜测能减少误差,如一个测验的效度系数 为0、80, E=40,这表明由于该测验的使用,使得我们在估
40、计被试的效标分数时减少了( 的误差。第四单元 影响效度的因素难度;一、测验本身的因素 :(1)测验取材的代表性; (2)测验长度;(3)试题类型、( 4)区分度以及编排方式等都会影响效度。二、测验实施中的干扰因素 主试的影响因素 被试的影响因素三、样本团体的性质样本团样本团体的异质性 :样本团体越同质, 分数颁布分布范围越小, 测验效度就越低;体越异质,分数分布范围越大,测验效度就越高。 一般而言, 若获得信度的取样团体较为异质的话, 往往会 ( 高估) 测验的信度, 否则就会 低估测验的信度 干涉变量:对于不同性质的团体,同一测验的效度会有很大的不同。 美国心理学家吉塞利提出如何找出干涉变量
41、的方法:1数 D。23、用回归方程求得每个人的预测效标分数, 将该分数与实际效标分数相比较, 获得差异 如果D的绝对值很大,说明测验中的可能存在干涉变量。、根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量。 、对于欲测团体, 根据某些易见的干涉变量将其区分为预测性高和预测性低的两个团体。对于预测性团体低的,存在干涉变量。四、效标的性质效标与测验分数之间的关系是否是线性关系是很重要的因素。皮尔逊积差相关系数的前 题条件是假设两个变量的关系是线性分布。如果是非线性分布则皮尔逊积差相关系数会低估 相关的大小。效标测量本身的可靠性是值得考虑的一个问题。效标测量的可靠性即效标测量的信度
42、。(信度与效度的关系:信度是效度的必要而非充分的条件,效度是受信度的制约。)第五节 项目分析包括定性分析和定量分析两个方面,定性分析包括考虑内容和效度,题目编写的恰当和 有效性等;定量分析主要是指对题目难度和区分度等。第一单元 项目的难度一、定义在能力测验中通常需要一个反映难度的指标P=R/NX 100 %难度水平的指标,在非能力测验(如人格测验)中,类似的指标是“通俗性” 通常以通过率表示,即以答对或通过该题的人数百分比来表示(公式5-31 ):(用P代表,P值越大,难度越低)二、计算方法二分法记分的项目: 通过记 1 分,错误记 0分,对这类题目可直接用公式 度。当被试人数较多时, 则可根
43、据测验的总成绩将被试分成三组: 分数最高的5-31 计算难难度( difficulty),顾名思义, 是指项目的难易程度。27被试为高 分组, 分数最低的 27 %被试为低分组, 中间 46%的被试为中间组。 分别计算高分组和低分组 的通过率,经两组通过率的平均值作为每一题的难度。 (公式 5-32) 由于选择题允许猜测,所以通过率可能因机遇作用变大,吉尔福特提出了一个难度校正 公式(公式 5-33 ): CP=KP-1/K-1般用下面的公式计算难度。 (公非二分记分的项目 当测验项目为问题答题或不能用二分法记分的形式时, 式 5-34 )三、难度水平的确定 项目的难度:P 值越接近0或接近1
44、,越无法区分被试间能力的差异。相反,P值越接近于0.50 ,区别力越高。在选择题目时,最好使试题平均难度接近050,而各题难度在 050±020 之间。当测验用于选拔或诊断时,应该较多地选择难度值接近录取率的项目。对于选择题来说, P 值一般应大于概率水平。对是非题其难度值应该为0 75 最为合适;而对于四选一题,其难度值约为063 时最为合适。 洛德 (Lord) 提出在学绩测验中, 为了保证其可靠性, 各类选择题的理想平均难度为: 五 择一测题, 0 70;四择一测题, 074;三择一测题, 077;二择一题, () 。 0.85 测验的难度 如果样本具有代表性,对于中等难度的应
45、该接近常态分配。但有些测验,如掌握性测验 或标准参照测验,分数分布出现偏态是允许的。 数学测验的第 7 题满分为 15 分,该题考生的平均分为 9.6 分,测该题的难度为 (0.64)P=R/NX 100 % 在 340 个学生中,答对项目的人数为 120 人,则该项目的难度为 (0.6) 在70名被试者中选为高分组和低分组的被试者各有 1 00人,其中高分组有 70人答对第一题, 低分组有 40 人答对第一题,则第一题的难度为(0.55 )第二单元 项目的区分度一、定义 项目区分度( item discrimination ), 也叫鉴别力,是指测验项目对被试的心理特性的 区分能力。区分度取
46、值范围介于 -1 至 +1 之间,假如项目得分与实际能力水平之间呈负相关, 则区分 度为负值;若呈正相关,则区分度为正值;相关系数越大,区分度越高。当区分度为负值时, 则意味着被试实际能力越高,该项目的得分反而越低,这种情况一般很少发生,如果出现, 该项目应该淘汰。二、计算方法 在理论上,项目区分度是以项目得分高低与实际能力水平高低之间的相关来表示。而实际能力用的最多的是测验总分。计算项目难度的公式:(1) P=R/NX 100%; (2) P=(PH PZ2;( 3) P= (P369 页)鉴别指数 (注意排列顺序) 按测验总分高低排列答卷; 确定高分组与低分组,每一组取答卷总数27%;分别
47、计算高分组与低分组在该项目上的通过率或得分率; 按下列公式估计项目的鉴别指数: (公式 5-35 ): D=PHPC 年,美国专家伊贝尔提出评价项目性能标准是: 0.40 以上为“很好” ; 0.30-0.39 为“尚可,但需修改” ; 0.19 以下为“差,必须淘汰” 。1 、2 、3 、4 、1965 为“良好,修改后会更佳” ;0.20-0.29相关法 ( 记住它的方法及适用范围) 计算区分度最常用的方法。即以某一项目分数与效标成绩或测验总分的相关作为该项目 区分的指标。相关越高,表明项目越具有区分的功能。1 的计算。2 3 取、淘汰划分,便可计算 相关系数。4 、积差相关三、区分度与难
48、度的关系 总体上说,中等难度的项目区分度最高。一般说来, 较难的项目对高水平的被试区分度高, 较易的项目对水平低的被试区分度高, 中等难的项目对中等水平的被试区分度高。第六节 测验编制的一般程序第一单元 测验的目标分析点二列相关 :适用于一类变量为二分变量,另一类变量为连续变量的成对变量相关 二列相关 :适用于两个连续变量,但其中一个变量被人为分成两类。相关法:适用于两个变量均为二分称名变量。若将测验总分按及格、不及格或录一、测验的对象 :年龄、受教育程度、社会经济、阅读水平等。二、测验的用途 :描述、诊断、选拔、预测。验。如成就测验。显示性测验:指测验题目和所要测量的心理特征相似的测 古德纳
49、夫分为:样本测验和标记测验。样本测验题目取自一个很明确的总体的测验。如测综合运算能力。 标记测验题目取自一个全开放的总体的测验。如智力测验。预测性测验:指预测一些没被测量的行为的测验。如GRE中的词汇测验。 项目难度的分布一般以 (常态) 分布为好, 这样不仅能保证多数项目有较多的区分度, 而且可以保证整个测验对被试者有较高的区分力。 即用来测什么样的心理变量或心理三、测验的目标 :是指编制的目标是用来测什么的, 特征。它的主要任务就是要对所预测的行工作分析 对于选拔和预测功用的预测性测验,为活动作具体的分析,称之为任务分析或工作分析。包括两个步骤: 第一是确定哪些心理特征和行为可能使要预测的
50、活动达到成功; 第二是建立衡量被试是否成功的标准,这个标准我们称之为效标。对特定概念下定义 如果测验是为了测量某种特殊的心理品质或特点, 那么测验编 制者就必须给所要测量的心理或行为特质下定义,然后必须发现该特质所包含的维量将通过 什么行为表现出来或怎样进行测量。确定测验的具体内容 如果测验是描述性的显示测验, 它的目标分析的主要任务则 是确定显示的内容和技能,从中取样。目标分析包括: (1)工作分析;(2)对特定的概念下定义; (3)确定测验的具体内容。 第二单元 测题的编写一、搜集资料(避免直接翻译国外的测验题)已出版的标准测验 理论和专家的经验 临床观察和记录二、命题 的一般原则题目内容
51、方面 :(1)题目的内容符合测验的目的; (2)内容的取样要有代表性; (3) 间的内容相互独立。3)文字方面 :(1)使用当代语言;(2)语句要简明扼要;(3)最好一句话一个概念。 排除与答案无关的因素。理解方面 :(1)题目要有确切答案; (2)题目的内容不超出受测团体的知识水平和理 解能力;(3)题目格式不要被人误解; ( 4)除创造力测验与人格测验外,不应具有引起争议 的可能。社会敏感性方面:尽量避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应 使用。如必须涉及时,菲力普列举了几条策略供参考:1 、命题时假设被试具有某种行为, 使他不得不在确实没有该行为时才否定, 可避免否定 答
52、案过多的倾向。如: “你平均多久才手淫一次,每月一次?每周一次?每天一次?从不?”2 、命题时假定规范不一致,如“有些医生认为吸烟有害,而另一些医生认为吸烟有益, 你认为呢?”3 、提出该行为是常见的, 虽然是违规的, 如“多数人在看色情电影时有性冲动, 你呢?”三、测题的编制要领(分提供性和选择性两大类题目)1. 选择题:由两部分构成:题干和选项。选择题注意事项:(1)题干所提的问题必须明确,尽量使用简单而且明晰的词语。选项切忌冗长 ,要简明扼要。 每题只给一个正确答案,其它属诱答。 各选项长度应相等。避免题干用词与选项用词一致 。 选项最好用同一形式(2)(3)(4)(5)(6)2. 是非
53、题。 是非题又叫正误题,是指出一个论点要被试判断是否正确,或是从是非两个答案做出选 择,因此可以把是非题看作是两个备选答案的选择题内容应以有意义的概念、事实或基本原则为基础。 每道题只能包含一个概念。 尽量避免否定的叙述,尤其是要避免用双重否定的叙述。 若是表达意见的题目,最好说明意见的来源和根据。是”、“非”题目的数目应有适应的比例,基本相等,且要随机排列。编制是非题应注意:(1)(2)(3)(4)(5) 在编制是非题时, “是”、“非”题大致相等或答“否”题略多,是控制肯定定势的有效 方法。 3. 简答题 在客观测验试题中,只有简答题是提供型题目,它要求被试用一个正确的词或句子来完 成或填
54、充一个未完成句子的空白,或者是提供一个正确的答案。有时将前者称之为填充题, 后者称之为简答题。编制简答题三原则:宜用问句形式。如果使用未完成的句子,则空格尽量放在最后。如果是填充形式, 空格不宜太多, 过多空格会使题意不明确, 并且所空出的应该是(1)(2)关键词句。每题应只有一个正确答案, 而且答案要简短而具体。 对不完整的答案, 应事先规定(3)评分标准。明确所要测量的目标,并将其操作化; 尽量选择真实性较高的项目; 指导语要简明扼要,并有具体的要求; 制定评分标准,确定计分方法。4. 操作题 操作题是介于一般认知结果的纸笔测验和在未来真实情境的实际活动之间的测验,是让 被试实际操作,如画
55、图、走迷津、拼配物体等,可作为纸笔测验题的补充。 编制操作测验的四条原则:(1)(2)(3)(4)第三单元 测验的编排和组织一、合成测验 选择与审定试题1. 选择试题形式 选择题目时,需要考虑的几点: (1)测验的目的和材料的性质(2)接受测验的团体的特点(3)各种实际因素2. 审定题目 审定题目要注意以下几个问题:题目的范围应与测验计划所列的内容技能双向目表一致; 题目的数量要比最后所需数目多一倍至几倍,以备筛选和编制复份; 题目的难度必须符合测验目的的需要; 题目的说明必须清楚明白。(1)(2)(3)(4) 测题的编排 测验编排的一般原则:、测题的难度排列宜逐步上升。 、尽可能将同类型的测题组合在一起。 、注意根据各种类型测量题本身的特点排列题目。1 则依其难度由易到难排列。如韦克斯勒的成人、儿童和幼儿三个智力量表。 2、混合螺旋式: 是先将种类试题依难度分成若干不同的层次, 作交叉式的排列,其难度则渐次升进。如比内常见的两种排列方式:在同一分测验的试题、并列直进式: 是将整个测验按试题材料的性质归为若干分测验, 再将不同性质的试题予以组合, - 西蒙智力量表。 测验编排的一般原则应排除 () 答案混合排列 二、预测与项目分析1234预测 预测应注意以下几个问题: 、预测对象应取自将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【8英YL期中】蚌埠市怀远县等3地2024-2025学年八年级下学期期中考试英语试题
- 《数据科学基础》课件
- 中国新质生产力驱动
- 2025年山南a2货运从业资格证考试
- 武汉民政职业学院《二次接线》2023-2024学年第二学期期末试卷
- 昆明铁道职业技术学院《纳税筹划与实务》2023-2024学年第二学期期末试卷
- 新疆应用职业技术学院《临床微生物学检验技术》2023-2024学年第二学期期末试卷
- 江西省赣州寻乌县第二中学2025年高三3月初态测试历史试题试卷含解析
- 邵阳职业技术学院《印度社会专题》2023-2024学年第二学期期末试卷
- 碾子山区2025届数学五下期末复习检测试题含答案
- 儿童抑郁量表CDI
- 马克思主义新闻观十二讲之第八讲坚持新闻真实原则课件
- 工艺管道伴热管施工技术方案
- 各层次养老机构定价方法及案例
- 二方审核计划
- 优秀病例演讲比赛PPT
- 吉林省矿产资源概况及分布
- 最新肺结核诊断和治疗指南
- 公司员工基本礼仪培训ppt完整版课件
- 工程项目综合应急预案(通用版)
- 半桥LLC谐振变换器设计与仿真
评论
0/150
提交评论