




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主讲:杨鹏济南大学教育与心理科学学院心理测量学课程组负责人E-mail:sep_yangpMobilesychometrics心理测量学知识体系第一节 概述第二节 常模第三节 信度第四节 效度第五节 项目分析第六节 测验编制的一般程序第七节 心理测验的使用第一节 心理测量学概论v 第一单元 测量与测量量表v 第二单元 心理测量的基本概念v 第三单元 心理测验的种类v 第四单元 纠正错误的测验观v 第五单元 心理测验在心理咨询中的应用v 第六单元 心理测量的发展史第一单元 测量与测量量表 v 一、什么是测量v 二、测量的基本要素v 三、测量的量表一、什么是测量二、测量要
2、素v 关于参照点 理想的参照点是绝对参照点,但心理测量难以做到,如智力年龄。 采用相对参照点为测量起点的测量结果只能进行加减运算,而不能进行乘除运算。 从相对参照点起计算的数值不能以“倍数”的方式进行解释。比如,韦氏离差智商v 关于单位 心理测量的单位不够完善 如智力年龄是以年龄作为智力的单位,4岁-5岁之间的差距与14岁-15岁之间的差距一样吗? 三、测量量表 从本质上讲,心理与教育测量的量表属于顺序量表 通过统计方法的转换,把顺序量表转换成等距量表。 第二单元 心理测量的基本概念一、心理测量的定义 依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活
3、动中的心理特点做出推论和数量化分析的一种科学手段。 二、心理测验的性质 (一)间接性 对象是人的心理特质间接测量 (二)相对性 每一个人被测得的结果都是与所在团体或人群的大多数人的行为或认为确定的标准相比较而言的。 如离差智商的平均数为100,标准差为15 (三)客观性 标准化 测验的标准化就是指测验的编制、实施、记分以及测量分数解释的程序的一致性。 真题:200811多选-107心理测验具有( )。v A外显性 B间接性 v C相对性 D客观性 第三单元 心理测验的种类 v 一、以测验的功能来分v 二、以测验材料的性质来分v 三、以测验材料的严谨程度来分v 四、以测验的方式来分v 五、以测验
4、的要求分类 v 韦氏三套(幼儿、儿童和成人)智力量表均包含言语测验与操作测验v 韦氏量表构成:三、按测验材料的严谨程度分类v (一)客观测验测验材料意义明确,无须发挥想象力作答。绝大多数心理测验都属此类。v (二)投射测验积木图案分测验 真题:200811多选-106按测验的方式分类,可将测验分为( )。A操作测验 B文字测验 C个别测验 D团体测验 第四单元 纠正错误的测验观 一、心理与教育测量工作者的素质要求v 一、错误的测验观(一)测验万能论20世纪20年代(二)测验无用论: 测验遭到的最强烈的批评是:测验为宿命论和种族歧视提供心理学依据。 “美国黑人和其他美国人的平均智商之间的差异,几
5、乎完全可以用从胎儿起直至整个一生的处境不利来说明。” 欧文·戈茨曼 二、正确的测验观 § (1)重要的研究方法之一辅助工具§ (2)尚不完善 第六单元 心理测验的发展史知识体系:一、科学心理测验的产生与发展二、现代心理测验在我国的发展一、科学心理测验的产生与发展1、高尔顿 v 优生学的创始人;v 统计学家、生物学家、业余心理学家;v 作品-遗传的天才 堪称直接推动测验运动发展的第一人,也是最早实际从事测验活动的学者。v 第一个研究智力测验的人v 1884,伦敦国际健康展览会,“人体测量实验室”;13 项心理生理特征:反应时间,视听灵敏度,色彩分辨能力,长度判断能力
6、,拉力,呼吸力量等等。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。v 发明了大量心理测验仪器:高尔顿棒,高尔顿笛v 提出了相关的概念;学生Pearson完善了相关概念的计算方法 2. 卡特尔 v 冯特的学生,德国莱比锡大学博士毕业v 英国剑桥受到高尔顿的影响,对个体差异研究感兴趣v 19世纪末返回美国,宾夕法尼亚大学,建立实验室,传播心理测验 1890年发表心理测验与测量一文于心理杂志上,这是在心理学文献中首次出现“心理测验”一词。 心理学只有立足于实验与测量,才能达到如同自然科学的准确性;心理测量只有建立普遍的统一标准,并要与常模相比较,才能充分地实现其科学价值和实用价值
7、。 v 3、比内§ A. Binet,法,1857-1911,心理测验的鼻祖§ 1903年,智力的实验研究,提出智力定义;§ 1905年,B-S 量表;第一个正式智力量表。 1、操作测验的发展 比内-西蒙量表偏重于用语言文字材料来测量智力 韦克斯勒智力测验2、团体智力测验的发展 Otis陆军甲种测验(1917) Otis陆军乙种测验(1927) v 3、能力倾向测验的发展v 4、人格测验的发展 最早进行人格测量的是克雷培林,最早采用自由联想法诊断病人 自陈人格问卷:1917年武德沃斯设计的“个人资料调查表”。由哈撒韦和麦金利编制的目前影响最大的MMPI-明尼苏达多
8、相人格调查表。 16PF,EPQ 投射测验: 1921年问世的罗夏克墨迹图测验(RIT),TAT 罗夏克墨迹测验目前国内主要存在的三个层次的心理量表v 第一层次,测量较抽象的、整合性较强的心理特质的量表,如智力测验、人格量表。以引进修订的国外著名心理测验为主。v 第二层次,测量比较具体的心理特质的心理测量量表,如自尊量表、学业成就动机量表、阅读测验等。适合于具体领域,针对性较强。v 第三层次,心理评定量表。使用简单,但标准化程度和信效度低。心理测量发展近代历史简表1905,比奈-西蒙发表第一个智力测验量表(中国废止科举)1908,比奈修订比奈-西蒙智力测验量表,提出“智力年龄”概念1916,推
9、孟发表斯坦福-比奈量表1917,陆军甲、乙种测验应用(最早的能力倾向测验) 武德沃斯发表第一个标准化人格测验1920,罗夏发表墨迹测验1923,斯坦福成就测验1927,斯特朗男性职业兴趣量表1937,斯坦福-比奈量表年在首次引入“比率智商”概念(德国汉堡大学 LW Stern教授最先提出“智商”概念)1939,韦氏智力测验研制和试用1942,明尼苏达多项人格测验1949,韦氏儿童智力测验,提出“离差智商”概念1955,韦氏成人智力测验1967,韦氏幼儿智力测验1980,考夫曼儿童成套评估量表二、现代心理与教育测量在中国的发展(一)现代心理与教育测量建国前的发展 (1) 1916年,樊炳清先生首
10、先介绍了比内-西蒙智力量表。 (2) 1920年,北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室,廖世承和陈鹤琴先生在南京高等师范学校开设心理测验课。1921年,他俩正式出版心理测验法一书。 (3)1922年夏天,中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学。 (4)1924年,陆志韦先生发表了订正比内西蒙智力测验说明书,30年代又与吴天敏再次做了修订。 (5)1931年由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议,组织并成立了中国测验学会。 (6)1932年测验杂志创刊。 (7)至抗战前夕,由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约20种,教育测验50多种
11、。 (二)现代心理与教育测量建国后的发展 (1) 1936年,苏联在批判“儿童学”时扩大化,心理测验也被一概禁止。 (2) 从1978年北京大学首建心理系开始,心理测验才重新得到恢复。 (3) 1979年,林传鼎、张厚粲等以国外资料为参考,编制了少年儿童学习能力测验。 (4)1980年初,北师大心理系开设了心理测量课。1984年,在北京召开的第五届全国心理学年会上,成立了心理测验工作委员会,加强了测验工作的指导和监督。 v 1。智力测验v 龚耀先修订“韦克斯勒成人智力量表”v 林传鼎、张厚粲修订韦克斯勒儿童智力量表v 吴天敏出版“第三次修订中国比内测验”v 龚耀先修订韦克斯勒幼儿智力量表v 张
12、厚粲修订瑞文标准推理测验v 李丹修订瑞文测验(联合型)v 戴忠恒修订了“一般能力倾向测验”。 v 2 。人格测验 v 宋维真修订MMPIv 刘绍衣修订16PF ,辽宁常模 v 戴忠恒、祝蓓里制定了16PF 全国常模。 v 龚耀先、陈仲庚分别修订EPQv 张明园修订生活事件量表 v 吴文源修订SCL-901979年来国内现有主要智力测验1978 丹佛发展筛选测验 宋杰,朱月妹1980 比内-西蒙量表修订 吴天敏1981 韦氏儿童智力量表 林传鼎,张厚粲1981 韦氏记忆量表 龚耀先1982 韦氏成人智力量表 龚耀先1983 韦氏幼儿智力量表 郭迪,汪梅先1984 韦氏幼儿智力量表 龚耀先1984
13、 临床记忆量表 许淑莲1987 标准型瑞文测验 张厚粲第二节 测验常模第一单元 常模团体第二单元 常模的类型第三单元 常模分数的表示方法 常模在许多情况下是一组有代表性的被试群体的平均测验分数。 如,UCLA的男性均值=37.1(SD=10.9)何谓标准差(SD)?例如:有一个统计学家,他说我把头放在热的开水锅里,而把脚放在冰箱里,然后说“现在,在平均的意义上我感觉很好”。例如:第一组数据:74、76、80、84、86 第二组数据:45、76、85、94、100考察这两组数据,它们的平均数都是80,但很明显这两组数据的特征是不一样的,所以,差异量数就是描述数据离散性特征的。v 标准差的计算公式
14、为: v 其中Xi为各观测分数, 为原始观测分数的平均数,n为样本容量。 标准差是最常用的统计量,它说明观测值与平均数间的差异大小,或者可以将其理解为所有观测数据的整齐程度。例如:比较下列的四组数据:A组: 6、6、6、6、6、6、6B组: 5、5、6、6、6、7、7C组: 3、3、4、6、8、9、9D组: 3、3、3、6、9、9、9A组: =6.0,s=0.00 B组: =6.0,s=0.82 C组: =6.0, s=2.71 D组: =6.0, s=3.00 第一单元 常模团体 一、常模团体的性质 二、常模团体的条件 三、取样的方法 四、常模与常模分数一、常模团体的性质二、常模团体的条件v
15、 (一)群体的构成必须明确界定 (二)常模团体必须是所测群体的代表性取样 (三)样本的大小要适当 (四)标准化样组是一定时空的产物 三、取样的方法取样即是从目标人群中选择有代表性的样本。真题:200811-55取样是指从( )中选择有代表性的样本。A总体 B群体 C目标人群 C样本 (一)简单随机抽样 编号-随机选择(二)系统抽样(等距抽样)v 以某个随机数字为起点,间隔一定单位抽取样本 。v 抽样间隔: (三)分组抽样(四)分层抽样(最常用)v 标志¡ª总体¡ª若干层次¡ª样本v 分层比例抽样 § 从500名学生的总体中抽
16、取50人作为样本,以数学水平作为分层抽样依据,设在数学成就测验中100人为优,320人为中,80人差,求每一层样本容量。 韦氏智力测验的分层抽样四、常模与常模分数(一)常模 定义:一种供比较的标准量数,由标准化样本测试结果计算而来,它是心理测验时用于比较和解释测验结果的参照分数标准。 (二)常模分数 常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。注意这两个概念真题:200811-56常模分数又叫( )。A导出分数 B粗分数 C原始分数 D总体分数 原始分数与导出分数原始分数v 定义:被试在接受测验后,根据测验的记分标准,对照被试的反应所计算出的测验分数称作原始
17、分数。 如,施测EPQ(艾森克人格测验)后,某被试得到四个分数:E=20,P=8,N=12,L=7; 如,数学测验得分80,语文测验得分70。v 原始分本身不具备多大意义,因为从中并不能看出被试之间水平的高低或特征的倾向性。导出分数v 导出分数就是在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数。v 常用的导出分数有百分等级、标准分数、T分数、离差智商、标准九等。 以百分等级为例 一个原始分数的百分等级是指在一个群体的测验分数中,得分低于这个分数的人数的百分比。 如,数学成绩原始分数80,而百分等级90,其意义就明了了。原始分数转化的目的第
18、二单元 常模的类型一、发展常模二、百分位常模三、标准分常模四、智商及其意义 常用的发展常模: (一)发展顺序量表 (二)智力年龄 (三)年级当量 (一)发展顺序量表v 最直观的发展常模v 它告诉人们多大的儿童具备什么能力或行为就表明其发育正常,相应能力或行为早于某年龄出现,说明发育超前,否则即为发育滞后。真题:200811多选-105发展顺序量表可以告诉人们某儿童的发育与其年龄相比( )。A超前 B滞后 C正常 D以上都不是 皮亚杰 对能量守恒概念的研究 考察儿童认知的发展 5 岁:理解 质量 守恒概念 6 岁:理解 重量 守恒概念 7 岁:理解 容量 守恒概念 (二)智力年龄 比内首次提出构
19、想,并在1908年修订的比内-西蒙量表中开始使用年龄为单位来度量智力。 方法1 被试可能在一些较低水平的题目上失败,却通过了一些较高水平的题目。为此,要先确定基础年龄,即全部被通过的那组题目所代表的年龄。在所有更高年龄水平上通过的题目,用月份计算,加在基础年龄上,儿童的智龄是在基础年龄与在较高年龄水平的题目上获得的附加月份之和。v 例如:某儿童6岁在B-S量表(每个年龄组6道题)中,通过6岁组全部题目,通过7岁组4题,8岁组3题,9岁组2题,则智龄为 方法2年龄常模作为对比标准 年龄水平 标准化样本的平均分 3 岁 63 岁半 74 岁 84 岁半 95 岁 10 v 优点:易于理解与解释v
20、缺点:智龄的单位不是保持恒定的,而是随着年龄的增长而缩小。 5-6岁之间智力水平的差距和20-21岁之间的差距相等吗?(三)年级当量 即将被试的测验成绩与某一年级的学生的平均分数作比较,而说成相当于某一年级水平。 主要用于教育成就测验 一个数学测验中包括75道算术题、25道代数题(代数只在七年级教),假设六年级学生的平均分数为60分,七年级学生的平均分数为75分,如果一个六年级学生在这个测验上得75分,年级当量为7,但这并不意味着他掌握的数学知识与七年级学生相同,因为他没有学过代数。二、百分位常模 百分位常模包括: (一)百分等级 (二)百分点 (三)四分位数和十分位数。(一)百分等级百分等级
21、是应用最广的导出分数。v 粗略地说,一个原始分数的百分等级是指在一个群体的测验分数中,得分低于这个分数的人数的百分比。 如,85的百分等级表示在常模样本中有85%的人比这个分数低。v 数学上,其计算要通过公式(不需要掌握) v 某团体共100人,试问第15名的百分等级是多少?v 若团体人数分别为50人,40人,20人时,其百分等级是多少?v 若团体人数为200,500,1000呢?(二)百分点v 百分点也称百分位数,与百分等级的计算方法相反。v 百分点是计算处于某一百分比例的人对应的测验分数是多少。 (三)四分位数和十分位数 二、百分位常模 v 百分等级v 百分点v 标准分常模v 智商及其意义
22、三、标准分常模 标准分常模是将原始分数与平均数的距离以标准差为单位表示出来的量表。它的基本单位是标准差,所以叫做标准分数。 标准分数是等距量表中最常用的一种分数,它有等距的单位。(一)线性转换的标准分数由于z分数中经常出来小数点和负数。另外,标准差的单位太大。为使用方便,经常会对标准分数进行另一种转换转换通式: Z =A+B¡¤z T分数(麦柯尔,1922)Z分数乘上10,再加上50,就得到T分数。 公式: T=50+10Z 平均数为50,标准差为10 EPQ即采用的T分数标准九分数(stanine) 标准九,全称为标准化九级分制 以0.5个标准差为单位,把正态曲线下的测验
23、分数转换成只有9个分数的量表。 首次应用:二战美军选拔飞行员 标准九的平均分数为5,标准差为2。 要把原始分数转换成这样一种量表分,只要先把原始分数转换成百分等级,然后通过查表即可获得标准九分数。 标准九与S、PR的对应关系标准九分v 均数:5v 标准差:2v 最高分:9v 最低分:1v 除1和9,其余分数包含0.5个标准差 标准十分和标准二十分v 标准十分(其原理和标准九相同)§ 平均数:5.5§ 标准差:1.5v 标准二十分§ 平均数:10§ 标准差:3§ 量表分: 标准十与百分等级范围对应表 韦氏儿童智力测验构架v 评估多种认知能力的测验
24、组合§ 分测验的量表分:IQ=3Z+10§ 言语、操作和全量表:IQ=15Z+100v 量表构成 )CEEB分数 Z分数乘上100,再加上500,就得到了CEEB分数。托福考试就是使用这样的分数。 公式:CEEB分数=500+100Z )离差智商 IQ=100+15Z 真题:200811-57标准二十分的标准差为( )。A5 B4 C3 D2 (二)非线性转换的标准分数在原始分数非常态分布的情况下,可以通过非线性转换使之常态化。 在转换为标准分数前,先把原始分转换为百分等级,然后把百分等级看作是正态曲线下的面积,所以可以通过查表而获得Z分数。 将分数正态化时有一个前提:只有
25、所测特质的分数在实际上应该是正态分布,只是由于测验本身的缺陷或取样误差而使分布稍有偏斜时,才能计算正态化标准分数。 四、智商及其意义 v 比内-西蒙智力测验用“心理年龄”来表示智力的高低。(一)比率智商1916年 推孟 斯坦福-比内量表(S-B量表) 以智商表示测验结果,即比率智商。 比率智商存在以下几个问题:v 由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实际年龄并不同步增长,所以比率智商并不适合于年龄较大的被试。v 不同年龄组儿童的比率智商分布的情况不一样,因而相同的比率智商分数在不同年龄就具有不同意义。 (二) 离差智商Rv 韦氏离差智商§ 编制者:韦克斯勒 19
26、49应用于韦氏儿童智力测验§ 离差智商是一种以年龄组为样本计算而得出的标准分数,已经没有商数的意义。§ 公式:IQ = 15z + 100 § 分析 从不同测验获得的IQ,其标准差不同 只有当标准差相同或接近时才可比较v S-B离差智商(1960)§ IQ = 16z + 100以100为平均数不同标准差下每一IQ组距正态曲线下个案百分比离差智商在韦氏儿童智力测验中的应用分测验的量表分:IQ=3Z+10言语、操作和全量表:IQ=15Z+100v 量表构成 真题:200811-58韦克斯勒将离差智商的平均数定为100,标准差定为( )。 A16 B15 C
27、14 D13 几种导出分数间的相互关系v 其共同之处在于,它们都是将被试的分数在团体内做横向比较。第三单元 常模分数的表示方法v 一、转化表法v 二、剖析图法一、转化表法 转化表,又称常模表,是最简单、最基本且最常用的呈现常模资料的方法。 (1)简单转换表 把单项测验的原始分转化成一种或几种导出分数,分列在一张表中。 (2)复杂转化表 (2)复杂转换表 将来自几个分测验或几种常模团体的原始分数与导出分数的对应关系呈现在一张转化表上。 (二)剖面图法 v 把测验结果以图的形式呈现,直观地呈现分数。第三节 测验信度教学内容:第一单元 信度的概念第二单元 信度估计的方法第三单元 信度与测验分数的解释
28、第四单元 影响信度的因素第一单元 信度的概念v 一、信度的定义v 二、信度的指标 一、信度的定义 信度指的是测量结果的稳定性程度。换句话说,若能用同一测验(或另一套相等的测验)反复测量某人的同一种心理特质,则其多次测量的结果间的一致性程度就叫信度。 信度只受随机误差的影响。随机误差越大,信度越低。 测量误差的种类v 1.随机误差(又称观察误差、测量误差、偶然误差):那种由与测量目的无关的、偶然因素所引起的而又不易控制的误差。 考试时,被试有意猜测答案 体育测试时,选手个人竞技状态的波动v 2.系统误差:那种由与测量目的无关的变因引起的一种恒定而有规律的效应。 系统误差只影响测量的准确性,不影响
29、稳定性。而随机误差既影响稳定性又影响准确性。 真题:200811-59信度只受( )的影响。A系统误差 B随机误差 C恒定效应 D概化理论 二、信度的指标(一)信度系数与信度指数 信度以信度系数为指标,信度系数往往以相关系数的形式表示。常常是同一受测者样本所得的两组资料的相关。(二)测量的标准误v 测验中误差大小的指标§ 理论上:一个个体无数次测验结果分布的标准差§ 实际上:一组个体两次测验结果分布差异的标准差v 公式 第二单元 信度的估计方法v 一、重测信度v 二、复本信度v 三、分半信度v 四、同质性信度v 五、评分者信度一、重测信度(Test-Retest Relia
30、bility)v 定义:同一测验,同一被试群体,在不同时间,两次施测,求其相关系数。v 实质:表示测验结果的稳定性(跨时间上的稳定性),故称之为稳定性系数(Coefficient of Stability)。 v 形式:施测适当时间再施测 v 例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如下表所示,求该测验的重测信度。 不需要掌握 为何要使用重测信度 v 人的多数心理特征是稳定的,如智力、性格等。如果测验未能反映稳定的心理特征,说明测验不可靠。v 测验分数的重要作用之一是对人做预测,测验分数跨时间的稳定性非常重要 重测信度的优缺点J能提供有关测验是否随时间而变
31、化的资料,可作为受测者将来行为表现的依据。L易受练习和记忆的影响 间隔时间一般两到四周较宜,最好不超过六个月。二、复本信度(Alternate-form raliability) 两个等值但题目不同的测验测量同一批被试,然后求得被试者在两个测验上得分的相关系数。 v 例:假设用A,B两型创造力复本测验对初中一年级10个学生施测。结果列表如下表,x1,x2分别代表A,B两型测验。复本信度的优缺点J可以在一定程度上避免重测信度的缺点,如记忆效果、学习效应。L如果测量的行为易受练习的影响,则只能减少而不能排除练习的影响。L第二个测验只改变了测验的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问
32、题。L对于许多测验来说,建立复本十分困难。(现实中很多测验没有复本信度) 三、内部一致性 信度 内部一致性信度主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。(一)分半信度(Split-Half Reliability)v 定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。v 这个相关系数代表了两半测验内容取样的一致性,因而属于内部一致性信度系数。v 为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。 新教材不用掌握 分半信度只是半个测验的信度,必须用斯皮尔曼
33、-布朗公式校正: rxx=2rhh/(1+rhh) rhh为两半分数间的相关系数,rxx为测验在原长度时的信度的估计值 (二)同质性信度(Homogeneity Reliability) 同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。 同质测验分数的意义比较明确,但是,单独的同质性测验不能预测一个异质的行为或心理特性。现行的许多心理测验都是异质的,不过它们多半是由若干个相对同质的分测验或分量表所组成,每个分测验或分量表只测量一个方面的特征。这样,当把分数组合起来后便可以做出明确的解释。四、评分者信度(Scorer Reliability
34、)v 评分者信度是指不同评分者之间在测验结果计分上的一致性。(一般用于主观题)v 在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。 估计信度的方法与测验复本的数目以及施测次数的关系第三单元 信度与测验分数的解释v 一、解释真分数与实得分数的相关v 二、确定信度可以接受的水平v 三、解释个人测验分数的意义v 四、比较不同测验分数的差异 CTT 假定: v X=T+Ev S2X = S2T + S2E信度系数也告诉我们测量的误差比例是多少。 S2X = S2T + S2E二、确定信度
35、可以接受的水平一般能力测验 & 成就测验:rxx > 0.9,有的达 0.95;人格测验、兴趣、态度、价值观测验:0.80 < rxx < 0.85;一般原则: rxx < 0.70时,不可靠,不能用 0.70 rxx < 0.85时,可用于“团体”比较 rxx0.85时,才可用作“个人”测验三、解释个人分数的意义v 信度在解释个人分数上的意义,是通过测量标准误这个概念去体现的。§ 即测量误差分布的标准差,表示测量误差的大小,用SE表示,又称标准误。需要用到统计学的区间估计方面的知识 可以利用实得分数与标准误来估计出真分数的可能范围,即确定出在不
36、同概率水平上真分数的置信区间。人们一般采用95%的概率水平,其置信区间为:例 题 在一次智力测验中某个学生得110分,其水平的真分数在95%的可靠度要求下,变动范围应是多大?(已知该智力测验的标准差为15,信度系数为0.91。) 如果选用95%的可靠性要求(置信水平),Z0.95=1.96,那么,真分数就有95%的可能性落在X+1.96SE的范围内。四、信度可以帮助进行不同测验分数的比较测验信度可以用于比较两个人不同分数的差别和同一受测者在两个测验上的差别。差异分数的标准误公式: 例 题 某受测者在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个测验分数都是以100为平均数、15
37、为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢? 第四单元 影响信度的因素(即引起随机误差的因素)v 一、样本特征v 二、测验长度v 三、测验难度v 四、两次施测得间隔时间(重测信度和稳定性与等值性系数) 一、样本特征 (一)样本团体异质性的影响(二)样本团体平均能力水平的影响信度系数一般用相关系数表示,以上与样本特征有关的两因素都能影响到相关系数。样本团体的异质性会影响团体分数分布范围,后者又会影响到相关系数的大小 二、测验长度第一,测验越长,测验的测题取样或内容取样就约有代表性。第二,测验越长,被试的猜测因素影响就越小。 v
38、 测验A只有一道题:1+1=v 测验B有1+1=,3-2=,7+5=,8-2=等共30道测题注意:v 增加题目可以提高信度,但并非多多益善。增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,有时还会引起被试的疲劳和反感而降低可靠性. 三、测验难度 v 难度对信度的影响,只存在于最高行为测验v 难度与信度之间,没有简单的对应关系,一般通过影响分数分布范围来间接影响信度。 v 重测法 & 复本法 求信度,两次测验相隔时间越短,其信度系数越大;间隔越久,其他变因介入的可能性越大,受外界影响越大,信度系数越低。 第一单元 效度的概念第二单元 效度的估计方法第三单元 效度的功能第四单元 影
39、响效度的因素第一单元 效度的概念一、效度的定义二、效度的性质三、效度与信度的关系 效度就是一个测验对其所要测量的特性测量到什么程度的估计,或者简单地说是一个心理测验的准确性。真题:200811-60在心理测验中,效度是指一个心理测验的( )。A稳定性 B准确性 C可信度 D区分性 v 系统误差只影响测量的准确性,不影响稳定性。而随机误差既影响稳定性又影响准确性。 二、效度的性质(一)相对性 效度是针对某种特定的测验目的的 如:测量智力的目的智力测验的效度 测量认知态度的目的功能失调性态度问卷的效度(二)连续性 只有程度上的差别,没有全或无的差别。专栏:效度与信度的关系 根据公式S2X=S2V+
40、S2I+S2E,可以得到信度与效度的关系如下:v 1、信度高是效度高的必要而非充分条件v 2、测验的效度受它的信度制约 经典测验理论(CTT)假定,实得分数X与真分数T之间是一种线性关系,并只相差一个随机误差E,即 X=T+E CTT的数学模型 根据CTT模型和假设推导出: S2X = S2T + S2E 即:在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和。 v 真分数理论定义:反映被试某种心理特质真正水平的那个数值。 观察分数=实测分数 真分数是一个理论构想出来的抽象概念,在实际测量中是很难得到的。v 真分数操作定义:经过无数次测量所得的平均值。 v 信度定义:信度乃是一
41、个被测团体真分数的变异数与实得分数的变异数之比。 rXX=ST2/SX2=(SX2-SE2)/SX2=1- SE2/SX2 该定义要注意:真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。 v 信度高,给 S²V 增加提供可能§ 能否提高效度,再看S²I大小§ 信度高不一定效度高v 效度要高,S²V须占较大比重,S²T§ 效度高,信度必高2.测验的效度受它的信度制约信度系数的平方根是效度系数的最高界限根据效度和信度的定义( r2xy= S²V/ S²X, rxx
42、= S²T/S²X )以及S²T= S²V + S²I可得r2xy= ( S²T - S²I )/ S²X= rxx- S²I/S²X S²I>0 r2xy< rxx第二节 效度的估计 1974年,APA在教育心理测验之标准中将效度分为三大类: 1内容效度(content-related validity) 内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 2构想效度(construct-related validity) 结构效度是指测验对于被称作构想或结构的
43、某一理论概念或特质测量的程度。 3效标效度(criterion-related validity) 实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。一、内容效度 (一)定义:测验题目对有关内容或行为取样的适用性,即该测验是否是所欲测量的行为领域的代表性取样。 要编制有较高内容效度的心理测验, 首先,要对所测量的心理特性有明确的概念,并划定哪些行为与这种心理特性有关。 其次,测验题目应是所界定的内容范围的代表性取样。(二)内容效度的评估方法1、专家判断法2、统计分析法3、经验推测法1、专家判断法v 含义§ 由专家对测验项目与所欲测验的内容范围的吻合程度进行系统的比较判
44、断。v 作法与程序§ 明确所要测量的内容范围;§ 编制双向细目表;§ 制定评定量表以评定测验的整个效度表5.1 高二化学标准测验双向细目表 目标内容 测验题号 项目评定 第1章 2 1 2 3 4 5 7 1 2 3 4 5 14 1 2 3 4 5 第2章 1 1 2 3 4 5 3 1 2 3 4 5 8 1 2 3 4 5 13 1 2 3 4 52、统计分析法(1)计算两个评分者之间评定的一致性(2)复本信度 r高:可能内容效度较好 也可能虚假相关 r低:至少一个缺乏内容效度(3)再测法 前测 后测3. 经验推测法 实践检验效度,如:儿童发展量表是否有效年
45、龄水平 题目3岁 1 2 3 4 5 63岁半1 2 3 4 5 64岁 1 2 3 4 5 64岁半1 2 3 4 5 65岁 1 2 3 4 5 6(三)内容效度的特性注意与表面效度的区分(1)表面效度是指被试或其他未受过专门训练的人员对测验有效性程度的估计;而内容效度是由够资格的判断者(专家)详尽地、系统地对测验评价而建立的。 例如,MMPI中有这样的题目:“我的喉咙里总好象有一块东西堵着似的。”(2)表面效度不是效度的客观指标,但能对受测者的动机产生影响,因而也会影响到效度。 最高行为测验要求有较高的表面效度,典型行为测验却要求较低的表面效度。 二、构想效度(又称结构效度或构思效度)
46、(一)定义:构想效度是指一个测验实际测到所要测量的理论结构或特质的程度,即测验的结果能否证实或解释某一理论的假设、术语或构想,解释的程度如何。 构想或结构是指用来解释人类行为的理论框架,它是心理学中抽象的假设性的概念、特性或变量,例如:智力、创造力、动机以及焦虑等。 主要用于智力测验、人格测验 结构效度无单一的效度指标,要从多方面的资料来源,经过长期的、艰苦的搜集和积累证据资料的过程,才能逐步验证测验的结构效度。常用于搜集结构效度资料的方法有如下几种:1、对测验本身的分析2、测验间的相互比较3、效标效度的研究证明4、实验法和观察法证实1、对测验本身的分析(通过研究测验内部构造来分析测验的结构效
47、度)(1)确定内容效度作为构想效度的证据 例如,编制语文能力测验时,编制者将总体内容描述为对词汇下定义、对语言做类比推理、以及在句子中正确运用文字的能力,这在实际上就是给“语文能力”的构想下了定义。(2)测验的内部一致性指标可以推断测验是测量单一特质还是测量多种特质,从而为评估测验构想效度提供证据。(3)分析受测者对题目的反应特点 例如,在人格测验上有这样一些题目:“当事情不顺我意时,我时常动怒。”“我总避免批评别人的言行。”2、测验间的相互比较(1)相容效度(2)区分效度(3)因素分析(1)相容效度v 含义§ 测相同结构的各种测验间应有较高的相关。§ 求一个新编测验与另一已知结构测验间的相关。§ 斯坦福比奈量表、韦氏智力测验是世人公认有效的智力测验,后人编的智力测验大多与此量表作比较,如果相关高,便说明新编测验有效。(2)区分效度v 区分效度(discriminant)的思想是,如果两个测验测量的是不同的特质,即使使用相同的方法进行测量,它们之间的相关也应该是低的。又称求异效度,判别效度100名学生在9个不同学科间的相关系数3、效标效度的研究证明v 其一,根据效标把人分成两类,考查其得分。v 其二,根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。 4. 实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自考行政管理综合素质模型试题及答案
- 护理知识要点回忆试题及答案
- 酒中仙子:将进酒课件全本
- 木屋酒店设计方案
- 2025年行政管理试题及答案汇编
- 行政法学基础知识试题及答案
- 柳州市景行小学小学生地震逃生知识课件张伟
- 民主主题班会课件
- (小学语文资料)人教版六年级语文上册第2单元试题3
- 好分数实施方案课件
- FeNO测定及应用演示版课件
- 普安金桥百汇项目经理变更申请书
- 考试焦虑主题班会课件
- 冀教版五年级下册美术第12课《寓言成语故事多》课件
- 英语演讲Artificial intelligence人工智能课件共课件
- 建设工程防渗漏验收检查表
- 铁皮石斛 组织培养 栽培 试验 实验
- 中国联通cBSS系统使用培训-第一部分
- 货币的起源与发展
- 森林防火PPT课件
- 建筑材料送检统一规定
评论
0/150
提交评论