心理测量2-CTT信度效度_第1页
心理测量2-CTT信度效度_第2页
心理测量2-CTT信度效度_第3页
心理测量2-CTT信度效度_第4页
心理测量2-CTT信度效度_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何理解?,一个很聪明的孩子,测得智商是80分一个学习很好的学生,考试成绩为60分一个人缘很好的人,人际关系测量低于常模值(平均分),一、心理特质及其可测性假设,1.心理特质的含义,心理特质(trait):表现在一个人身上所有的相对稳定的行为方式,如热情、冷淡,聪明、愚笨,急躁、文静特质是一组具有内部相关的行为的概括善良、聪明一种一般的神经心理系统它可以综合不同的刺激,使人对这次刺激做出相同的反应(G.Allport)只给朋友让座不是善良一个人身上比较稳定的特点诸葛亮智者千虑,必有一失精神面貌(人格)是由多种特质分多个层次有机组合而成的。特质可以决定一个人对特定刺激的反应倾向,可以对人的行为进行某种预测。,2.心理特质的可测性,可以测量权,然后知轻重;度,然后知长短。物皆然,心为甚。孟子凡客观存在的事务都具有其数量Thorndike否有数量的东西都可以测量McCall如智力测验人格测验有人说:我们可以测量我们可以测量的特质不可以直接测量不容易测量,3.测验的误差,误差由与测量目的无关的变异引起的,而且是不准确或不一致的测量结果。随机误差由与测量目的无关的偶然因素引起的误差的方向和大小的变化完全随机影响效度和信度系统误差由与测量目的无关的变异引起的误差的方向和大小恒定且有规律只影响效度,6,埃蒙斯打气球赢奖品,4.误差来源,测验内部引起的误差题目取样、用词含糊、难度过大、时限过短施测过程引起的误差测试时间物理环境主试意外干扰评分记分被试本身引起的误差测验经验练习因素应试动机测验焦虑反应定势生理因素,5.真分数,真分数是指测量没有误差时所得到的真值。其操作定义是无数次测量结果的平均值。为研究方便,我们把反映被试某种心理特质真正水平的那个数值被称为该特质的真分数(TrueScore,简称为T分数),把实测的分数称作该特质的观察分数(ObservedScore),当观察分数接近真分数时,就说这次测量的误差较小。真分数是一个在理论上构想出来的抽象概念。,10,6.真分数的数学模型及其假设,经典测验理论(ClassicalTestTheory,CTT)假定:观察分数(X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(E),即X=T+E这里的测量误差E指的是引起测量不一致的变因所产生的效应,即指随机误差,不包括系统误差。若一个人的某种心理特质可以用平行的测验分数反复测量足够多次,则其观察分数的平均值会接近于真分数。E(X)=T或E(E)=0真分数和误差分数之间的相关为零。即(T,E)=0各平行测验上的误差分数之间的相关为零。即(E1,E2)=0,11,理解:真分数假定不变观察分数等于真分数和误差分数之和测量误差是完全随机的,服从均值为0的正态分布,7.平行测验,平行测验指两个题目不同的测验测量同一特质,并且题目的形式、数量、难度、区分度即测查等值团体后所得分数的分布(平均数和标准差)都是一致的。多个平行测验反复测一个人实际上不可操作。用一个测验同时测许多被试,由于每个被试的误差是随机的,且服从均值为0的正态分布,所以,当被试团体足够大时,团体内的各种随机误差会相互抵消,整个团体的观察分数的均值会趋近于该团体真分数的均值。多个被试接受同一个测验相当于多个平行测验反复测查一个具有团体真分数均值水平的一个个体。因此,CTT理论的假设便派上了用场。,12,13,推论,对于一个团体来说,被试观察分数的方差等于其真分数方差与误差分数方差之和。SX2=ST2+SE2真分数可以分成两部分:与测量目的有关变异SV2和与测量目的无关的变异SI2,即:ST2=SV2+SI2一次测验中,一个团体的实测分数之间的变异性是由与测量目的有关的变异数SV2、稳定的但出自无关来源的变异数SI2和测量误差的变异数SE2所决定的。SX2=SV2+SI2+SE2,二、信度,信度reliability,定义:指的是测量结果的稳定性程度(或叫可靠性)。也指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。稳定性,可重复性,可靠性例子:钢尺,16,1.信度的操作定义,一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。计算公式:rxx=ST2/SX2一个被试团体的真分数与实得分数的相关系数的平方。即rxx=TX2一个测验X(A卷)与它的任意一个“平行测验”X(B卷)的相关系数。rxx=XX,2.信度的指标,信度系数:大部分情况下,信度是以信度系数为指标,即真分数方差与实得分数的方差的比值,公式是:rxx=TX2信度指数:是真分数标准差与实得分数的标准差的比值,公式是:TX=ST/SX信度指数的平方就是信度系数,17,18,标准误:指出个人测验分数的变异量。信度系数表示一组测量的实得分数与真分数的符合程度,标准误表示个人测验分数的变异量。用一组被试两次测量结果来代替同一个人反复施测,有了信度的另一个指标:测量标准误(每个人两次测量的分数之差构成了一个新的分布,这个分布的标准差)。测量的标准误与信度之间呈反比关系:标准误越小,信度越大;标准误越大,信度越低。,19,3.信度与测验分数的解释,解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。比较信度可以接受的水平:一般的能力测验和成就测验的信度系数都在0.90以上人格测验、兴趣、态度、价值观等测验的信度一般在0.80-0.85。一般原则是:当0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.700.85时,可用于团体比较;当0.85时,才能用来鉴别或预测个人成绩或作为。,20,21,解释个人分数的意义从信度可以解释个人分数的意义,这是测量标准误的应用。它有两个作用:一是估计真实分数的范围;二是了解实得分数再测时可能的变化情形。比较不同测验分数的差异:测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。,22,例题:假设在一个智力测验中某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该智力测验的标准差是15,信度系数为0.89,则其IQ的测量标准误和可能范围分别为:SE=15(1-0.89)1/2=4.975Q1001.9651001090110我们可以说这个被试的真实IQ有95的可能性落在90与110之间。即若再测一次,他的智商低于90、高于110的可能性不超过5。,23,24,4.信度的类型及估计方法,4.1重测信度(再测信度,test-retestreliability)又称稳定性系数。计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的积差相关系数。,25,例:用同一个算术四则的速度测验,对小学五年级的12个学生先后施测两次。结果如下,试求其信度。,26,使用重测信度的前提条件,所测量的心理特性必须是稳定的。遗忘和练习的效果基本上相互抵消。在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。,时间间隔的把握,间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。一般间隔时间不超过六个月。即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘,重测信度的优缺点,优点:它最符合重复测验的涵义,是重复测验最简单最明确的方式首测和再测只需要一套测验题目,省时、省力同一套题目无论施测几次,所测的属性是完全相同的。,28,29,缺点:同一组被试对同一个测验先后两次作答相互之间是不独立的。如果两次施测时间间隔较长,在此期间被试的身心发展,新知识的获得,都会使两次测验结果不相同。同一个被试对现一个测验先后两次作答,对测验的兴趣不同,影响测验结果。两次施测的环境不同,也是产生测量误差的因素。,30,使用重测信度要注意的问题,最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最好不超过六个月。再测验适用于异质性测验再测信度适用于速度测验或人格测验,而不适用于难度测验应注意提高被试的积极性。,31,4.2复本信度Alternate-formReliability,它是以两个平行或复本的测验(等值但题目不同)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故称等值性系数。复本信度的高低关键取决于复本测验的选择。,32,复本信度使用的前提条件,有两份或两份以上真正平行的测验被试有条件接受两个测验时间、经费等,A卷:你是一个喜欢热闹的人吗?1=绝对是2=是3=不一定4=不是5=绝对不是B卷:你是一个喜欢安静的人吗?1=绝对是2=是3=不一定4=不是5=绝对不是,复本信度的优缺点,优点:一个测验的复本使得测验数目的增加,对于所欲测量的属性相联系的行为总体代表性强,因此,一个测验的两个复本在两三天至一周对同一组被试施测时,获得的复本信度系数是相当准确的。测验的两个复本,如果在不同时间使用,其信度不仅可以反映在不同时间的稳定性,而且还可以反映对于不同测题的一致性。两个复本在同时使用时,可以避免再测验信度的缺点。,34,35,缺点:编制两个完全相等的测验是很困难的。复本法只能减少而不能完全排除练习和记忆的影响。被试同时接受性质相似的两个测验可能减少完成测验的积极性。,36,复本信度适用范围,如果两个复本的施测相隔一段时间,则称稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性,也考虑了不同题目样本反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。在实际应用时,为了抵消施测顺序的效应,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本。复本测验不仅适用于难度测验,也是估计速度测验信度的最好方法。,4.3分半信度split-halfreliability,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度常见的分半法将测题按其序列号的奇偶分半前提:测题并非随机排列,而是按某种顺序(如难度)排列;如果随机排列的题目,则必须是所有题目平等的(要么难度相等,要么性质一样);如果测验有多个分量表,应该在分量表内部排好顺序,再把各分量表分两半组合起来求相关。,37,38,分半信度的计算公式,先计算两半测验的积差相关系数,再进行校正。两半测验分数的变异数相等(方差齐性)时,用斯皮尔曼布朗公式修正,39,对分半信度的批评:不同分半方法结果不同。(Cronbach,1951),40,两半测验分数的变异数不等(方差不齐)时,可采用弗朗那根公式或卢伦公式,41,例题:,分半信度使用条件及范围,分半信度通常是在只能施测一次或没有复本的情况下使用。而且,在使用斯皮尔曼-布朗公式时要求全体被试在两半测验上得分的变异数要相等。当一个测验无法分成对等的两半时,分半信度不宜使用。,42,43,使用分半信度应注意的问题,如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则将会高估信度的值。当试卷为速度测验时,不宜采用分半法。,44,4.4同质性信度homogeneityreliability,指测验内部所有题目间的一致性。题目的一致性有两层含义其一是指所有题目都测的是同一种心理特质;其二是指所有题目之间都具有较高的正相关。总之,同质性信度就是一个测验所测内容或特质的相同程度。内涵:所有可能分半方法所求分半信度的平均数,45,同质性是测量单一特质的必要而非充分条件。同质性低,可能混淆了不同的内容。人格测验:乐观和外向性能力测验:数量分析和逻辑推理能力。一个测验测量多个特质,需要按照分量表算同质性信度。16PF,大五人格,,46,同质性信度的计算,库德-理查逊公式,KR20公式客观性试题(0/1记分),KR21公式当所有题目难度接近时才使用,47,48,克伦巴赫系数,同质性信度与分半信度的关系,一般情况下,同质性信度要低于分半信度。假使有一50题的测验,有25种题目,如第1题和第2题为词汇题,第3题和第4题为算术题,第5题和第6题为空间推理题,等等,如果分成奇偶两半,其得分的相关系数必然很高,但其同质性是很低的分半信度可作为测验同质性的粗略指标。,49,50,例题:某态度量表共7题,100个被试在各题上的得分方差分别是0.81,0.82,0.79,0.83,0.85,0.76,0.77,测验总分的方差为14.00,则此测量的的信度为多少?,51,同质性信度注意事项,当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,测验即为同质的;若所有题目看起来好像测量的是同一特质,但相关很低或为负相关时,测验即为异质的。对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干相对异质的分测验,并使每个分测验内容具有同质性,这样每个分测验就能用来预测异质效标的某一方面。,52,4.5评分者信度scorerreliability,指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。式中W为和谐系数,K为评分者的人数,N为被评对象数,Ri为对象i的等级分总和。,54,评分者信度注意事项,为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。,5.各种信度系数相应误差方差的来源,55,56,6.影响信度的因素,样本的特征:信度常用信度系数来表示,信度系数就是相关系数,相关系数受样本团体得分分布、样本是否异质及样本团体平均能力水平的影响。样本团体分数分布的影响:当分布范围增大时,其信度估计就较高;当分布范围减小时,相关系数随之下降,信度值则较低。例如,两个测验一个得分分布20-90分,一个得分分布80-90分。如果重测的时候同样波动3分,对两个测验的影响不同。为什么高考成绩对大学成绩预测力弱。,57,样本团体异质性的影响:若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。样本团体平均能力水平的影响:对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。例如,斯坦福-比奈量表中,不同年龄组的信度从0.83到0.98。因为年幼的团体,平均能力水平低。分数凭猜测的程度高,因此更不稳定,58,测验的长度测验越长,测验的测题取样或内容取样越有代表性。例如,考英语词汇。测验越长,被试的猜测因素影响就越小。测验的项目越多,在每个项目上的随机误差就可以相互抵消。,59,例:由50题组成的儿童心理学测验,其信度系数0.72,若再增加30个与原测验相近且同质性的题目,问长度增加后的测验信度系数是多少?,60,例:原测验的信度系数为0.75,现将信度提高到0.90,问测验的长度要增加到原测验长度的多少倍?,测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验、能力倾向测验等。如果一个测验对某团体而言太容易,会使所得分数都集中在高分端;当题目太困难时,得分就会集中在低分端。两种情况均会使信度样本的分数范围变窄,从而使测验变得不够可靠。从理论上说,只有难度水平为50时,才能使测验分数分布范围最大,求得的信度也最高。也即所有被试的平均分为总分的一半,且得分从零到满分分布时,信度最高。,61,62,测验的时间间隔:以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大;间隔时间越久,其它变因介入的可能性越大,受外界的影响越大,信度系数便越低。,7.提高信度的常用方法,适当增加测验长度题目难度中等,正态分布提高题目的区分度选取适当被试团体测验标准化,三、效度,65,在测量活动中,测量者对所使用的测量工具非常信任,他会采取复测行为以判断测量有无误差;如果测量者对所使用的测量工具发生怀疑,那他往往会去找一公认非常准确的测量工具对先前的测值进行检验。这种在原测量工具之外寻求新的证据,来肯定或否定某一测量工具准确性的做法,就是在研究测量的效度问题。心理测量是一种间接测量,心理测量更重视测量的效度研究。,66,案例,一个心理学的研究生在老师的指导下编制了一个测量害羞的纸笔测验。测验的开发严格按照测量编制的标准步骤。但与MMPI的10个量表的相关研究发现,与Depression量表有.65的高相关,与Socialintroversion量表没有相关(r=.08)。这个新的量表实际上测量的是Socialineptitude和Resultingdepression。测量的特质应该由测量的效度来定义,而不是测验开发者的选择。,67,1.效度的理论定义,打靶的例子。磅秤和身高的例子。人格测验的例子。效度比信度更重要。效度比信度更难。,68,效度validity,所测量的与所要测量的心理特点之间符合的程度一个心理测验的准确性一个测验或量表实际能测出其所要测的心理特质的程度测量所能测量到所要测量的目标的程度。,对效度概念的理解,效度是一个相对的概念效度是相对于一定的测量目的而言的。心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因此,心理测量不可能达到百分之百的准确,而只能达到某种程度的准确。效度是测量的随机误差和系统误差的综合反映。两者都会影响效度判断一个测量是否有效要从多方面收集证据。,69,70,在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差,由所要测量的变因引起的有效变异)与总方差(实得变异数)的比率,即,71,一组测验分数的总方差等于真实方差与误差方差之和,而真实方差又可分为两部分,即有关的方差和无关的但稳定的方差,后者也就是所谓系统误差带来的方差SX2=SV2+SI2+SE2由于有效方差是一个理论值,无法测量,所以效度和信度一样是一个理论上的概念。,72,2.信度和效度的差别,信度考虑的是随机误差的影响;效度的误差则还包括由于测量的对测验目的来说无关的变量所引起的系统误差。以游标卡尺为例,卡尺本身制作工艺导致的误差是系统误差,是效度所考虑的。测量者的随机误差则影响信度也影响效度。,73,3.效度和信度的关系,信度是效度的必要而非充分条件。效度高必然信度高,而信度高并不一定保证效度高当随机误差的变异数(SE2)减小时,真实分数的变异数(ST2/SX2)增加,测验的信度随之提高。信度的提高只给有效变异数(SV2的增加提供了可能)至于是否能提高效度,还要看系统误差变异数(SI2)的大小,可见信度高效度不一定就高。,74,效度受信度制约,75,补充,效度的连续性:测验的结果为“有效”或“无效”,而应区分为效度较高或较低。效度的针对性:针对具体测量目标。在评价和使用某项测验时,应该根据所要施用的用途,选择相对应的效度指标。例如:一个数学测验,可能对学生的数学成绩的预测效度较高,而对学生的性格没有多少预测效度。效度不是直接测量得到的,而是从已有的证据推理而得。,76,4.效度的类型及评估方法,4.1内容效度(ContentValidity)4.1.1定义指的是项目对欲测的内容或行为范围的取样的适当程度。学术成就测验或职业测验中,内容效度指测试项目能否反应受测者获得了某个领域的知识(如历史)或技能(如记账)临床测验中,内容效度指测试项目与某病症的可能症状之间的对应关系,77,一个测验要具备较好的内容效度必须满足两个条件:要确定好内容范围,并使测验的全部项目均在此范围内。所谓内容范围可以是具体知识或技能,也可以是复杂的行为。要对所测量的心理特性有个明确的概念,并划定出哪些行为与这心理特性有关。测验题目应是所界定的内容范围的代表性取样。,78,例如:一份抑郁问卷如果只评估抑郁的情感维度,那就缺乏内容效度,因为还应该评估抑郁的行为维度,79,4.1.2内容效度的评估方法,专家判断法:请有关专家对测验题目与原定内容的符合性作出判断,看测验的题目是否代表规定的内容,这种估计效度的方法,是一个逻辑分析的过程,所以内容效度有时也可称为“逻辑效度”。具体方法是:定义好内容总体,并描绘出有关知识与技能的轮廓;划分细纲目,并根据重要性规划好各个纲目的加权比例,作出尽可能详细的描述;确定每道题所测的知识和技能,将自己的分类与测验编制的纲目作比较;制订评定量表,从各方面对测验作出评定。,80,统计分析法复本法:克伦巴赫提出,内容效度可由一组被试在独立取得自同样内容范围的两个测验复本上得分之相关来作数量的估计。再测法:被试学习某种知识之前作一次测验,在学过该知识后再作同样的测验。若成绩显著提高,则说明所测内容正是被试新近所学的内容,进而证明该测验对这部分内容而言具有较高的内容效度。,4.1.3内容效度的应用,是编制任何测验应加以考虑的基本方面。较适用于评价教育成就测验和职业选拔测验。对标准参照测验更为重要,是因为在标准参照测验中我们主要关心的是被试对一定范围的知识、技能掌握得如何。,81,4.1.4内容效度的应用,注意内容效度与表面效度的关系:经常混淆。表面效度指由外行来判断的测验题目和测验目的一致性。内容效度则由内行来判断的测验题目和测验目的一致性表面效度只考虑题目与测量目的之间的明显的、直接的关系,内容效度则考虑到题目与测量目的和内容总体之间逻辑的微妙关系。在编制测验时,表面效度是一个必须考虑的特性,最高作为的测验通常要求有较高的表面效度;典型行为测验要求有较低的表面效度。内容效度缺乏可靠的数量指标,不同测验间难以相互比较。,82,84,4.2结构效度constructvalidity,4.2.1定义1954年提出,构思效度,构想效度。它是指测验能够测量到理论上的构想和特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。构想心理学理论所涉及的抽象的、假设性的概念或特质,如智力、焦虑、内向、动机等,85,4.2.2构想效度的特点,其大小首先取决于事先假定的心理特质理论。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效不高,因为还有可能是理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况,当然这就使得结构效度的获取更为困难。结构效度通过测量什么、不测量什么的证据累积起来给以确定,因而不可能有单一的数量指标来描述结构效度。结构效度主要应用于智力测验、人格测验等一些心理测验方面。,4.2.3结构效度的确定方法,提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。依据理论框架,推演出有关测验成绩的假设。用逻辑和实证的方法来验证假设。,86,例如韦克斯勒(Wechsler)首先假定定“智力是一个人去理解和应付他的周围世界的总的才能”,而不仅仅是推理能力或其他一些具体的技能。然后,他依据这一定义,编制了11个分测验(WAIS-R)或12个分测验(WISC一R),从十几个方面来说明智力,并声明这些个分测验并非测量不同类型的智力,而是总的智力的各个方面。测验编好以后,许多研究者便从众多角度研究了它的效度。其中,用因素分析方法得出的结论是,该测验实质上测了三类共同因素,即A因素(言语理解因素)、B因素(知觉组织因素)和C因素(记忆和注意集中因素)。,87,88,4.2.4构想效度的估计方法,测验内部寻找证据法(对测验本身的分析):测验的内容效度可以作为构思效度的证据;因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释。测验的同质性指标可以推断测验是测量单一特质还是测量多种特质,从而为评估测验构思效度提供证据;分析被试对题目的反应特点也可以作为构思效度的证据。如果有证据表明某一题目的作答除了反映着所要测的特质外,还反映着其他因素的影响,则没有较好地体现理论构想。,89,测验间的相互比较相容效度区分效度因素效度,90,a)相容效度(汇聚效度),通过分析几个测验间的相互关系,找出其共同之处,进而推断这些测验测量的特质是什么,也可以确定这些测验的构思效度。最简单的是计算两种测验(往往是新旧测验)之间得分的相关,其中一个测验是待研究效度的,另一个是已有效度证据的成熟的测验,但两者测量的是同一种心理特质。两测验的相关系数的平方即是两组测验分数所共同解释的变异大小,所以称这一相关为相容效度,相容效度是构思效度的一个证据。,91,b)区分效度,考察新编测验与某个已知的测量某一个不同特征的旧测验之间的相关。如果相关高则表明新测验的效度不高,因为测量了其他特质。相关不高只是必要条件。,92,c)因素效度,通过对一组测验进行因素分析,找到影响测验分数的共同因素,每个测验在共同因素上负荷量即每个测验与共同因素的相关,称作测验的因素效度。因素分析法也是建立构思效度的常用方法,通过对一组测验进行因素分析,可以找到影响测验分数的共同因素,这种因素可能就是我们要测量的心理特质(构思)。,实证效度法/效标关联法,效度的研究证明:一个测验若效标效度理想,那么该测验所预测的效标的性质和种类就可以作为分析测验构思效度的指标。Theory-consistentgroupdifferences(分组法)例如,让一组性格外向的人和一组性格内向的人进行内外向测验的测试,如果两组人的得分差距显著,则表明测验在测量内外向上有较高的结构效度。或者,根据测验得分将被试分为高分组和低分组,看两组人在该特质上是否差异显著。,93,94,另一种证实构思效度的方法是心理特质的发展变化(theory-consistentinterventioneffects)。例如,对于公认较稳定的特质,短期内两次测量的结果相差不大,则说明符合测验的理论构想。,95,实验操作法控制某些实验条件,观察其对测验分数的影响。例如,在重大考试之前,对被试进行焦虑测验,如果考前的焦虑分数比平时高,则说明该测验有较好的构思效度。,96,多种特质多种方法矩阵法(multitrait-multimethodmatrix)该方法实质是相容效度和区分效度法的综合运用。其原理是若用多种极不相同的方法测同一种特质相关很高(用极为相似的方法测不同特质相关很低),则说明测量效度较高。若有多种特质(如A、B、C)都接受了多种方法(如1、2、3、4)的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个矩阵,如下图所示:,97,99,在上表中,位于主对角线上的数值,是用同样的方法测相同特质所得的相关,是信度指标;在实三角形内的数值,是用同样方法测不同特质所得之相关。此相关若高则说明方法间共同点较多;在虚线三角形内的数值,是用不同方法测量不同特质所得的相关,它一般较低,是特质与方法间交互影响的反映;在虚线三角形之间的两条对角线上的数值,是用不同方法测相同特质的相关,是测验效度的指标。,100,小结:信度:黑三角对角线。汇聚效度:不同方法对同一特质。区分效度:同一方法不同特质,不同方法不同测验。,101,对构想效度的评价,贡献:构想效度促使研究者把着眼点放在提出假设上、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展情景。缺点:有些构想概论模糊,没有一致的定义,确定效度时没有明确的操作步骤,没有单一的数量指标来描述有效程度。,102,4.3效标效度,4.3.1定义又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准,简称效标。由于这种效度是看测验对效标预测如何,所以叫效标效度。这种效度需在实践中检验,所以又称为实证效标。,103,4.3.2效标效度的分类,根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。同时效度即测验所得分数可与效标同时验证,通常与心理特征的评估及诊断有关。效标分数在测验之后获得,称为预测效度。所谓的效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的我们感兴趣的行为。,104,一个好的效标必须具备以下条件:有效性必须能有效地反映测验的目标;可靠性:效标必须具有较高的信度,稳定可靠,不随时间等因素变化;客观性效标可以客观地加以测量,可用数据或等级来表示;实用性效标的测量的方法很简单,省时省力,经济实用。,105,4.3.3效标和效标测量,效标,即衡量测验有效性的参照标准,指的是可以直接而且独立测量的我们感兴趣的行为。效标可以分为两个层次,其一是理论水平的观念效标(如大学学习成功),其二是操作定义水平的效标测量(学习成绩)。一个观念效标可以有多个效标测量。,4.3.4常用的效标,学业成就;实际工作表现:是最满意的效标测量,为一般智力测验、人格测验和一些能力倾向测验的效标;特殊训练成绩:是能力倾向测验常用的效标,其中也包括中间效标和最后效标的问题;临床诊断;,106,等级评定:是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断;效标团体的比较:即找出两个在效标表现上有差别的团体,比较他们在测验分数上的差别;先前有效的测验:一个新测验与先前有效的测验的相关也经常作为效度检验的证据。,107,108,4.3.5效标效度的表示方法,相关法:效度系数是最常用的效度指标,尤其是效标效度。它是以皮尔逊积差相关系数来表示的,主要反映测验分数与效标测量的相关。当测验成绩是连续变量,而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式;当测验分数为连续变量,效标资料为等级评定时,可用多系列相关公式计算。,109,区分法:是检验测验分数能否有效地区分由效标所定义的团体的一种方法。t检验后,便可知道分数的差异是否显著。若差异显著,说明该测验能够有效地区分由效标定义的团体,否则,测验是无效的。,110,命中率是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法,一是计算总命中率,另一种是计算正命中率(只关心入选的人)。功利率测验的花费与得到利益进行比较,111,命中表,112,补充:效度与选拔率的关系,即使效度不高,提高选拔标准也会提高正确接受的比率,而降低错误接受的比率。但是会增加错误拒绝的比率。,WhytheUniversityofCaliforniaRejectedtheSAT-I,In2001RichardAtkinson,apsychologistandpresidentoftheUniversityofCalifornia(UC)system,proposedthatthestatewideuniversitynolongerrequiretheSATReasoningTest(SAT-I)forfreshmanadmission.ThismadetheUniversityofCaliforniathefirstmajoruniversitysystemtorejecttheuseoftheSAT-I.Thedecisionwasbasedonamajorstudyof78,000first-timeUCfreshmen.ThestudycomparedtheSAT-IwiththeSAT-II.TheSAT-Iisthetraditionaltestthatevaluatesreasoningability,whiletheSAT-IIisanachievementtestthatevaluatesstudentknowledgeinparticularareas.,ThestudyfoundthattheSAT-IIachievementtestswereconsistentlybetterpredictorsofgradesduringthefreshmanyearthanwastheSAT-I.Infact,controllingforSAT-IIandhigh-schoolgrades,theSAT-Icontributeslittleornothingtothepredictionoffirst-yeargradesintheuniversity.Furthermore,thestudyfoundthatSAT-IscoresweremoresensitivetothesocioeconomicbackgroundofstudentsthanwereSAT-IIscores.Whencomparedagainststudentswithsimilarsocioeconomicbackgrounds,theSAT-Iwasunabletopredictcollegeperformance.However,evenafterstatisticallycontrollingforsocioeconomicbackground,theSAT-IIremainedagoodpredictor.,TheCholesterolTest:PredictiveValidityEvidence,highlevelsofcholeste

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论