第四章效度PPT课件_第1页
第四章效度PPT课件_第2页
第四章效度PPT课件_第3页
第四章效度PPT课件_第4页
第四章效度PPT课件_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第四章,效度,.,2,(Validity),第一节效度概述第二节效度的估计第三节提高测量效度的方法第四节效度的应用,.,3,第一节效度概述,一、效度所要回答的问题二、效度的含义三、效度与信度的关系,.,4,一、效度所要回答的问题,信度:,减少随机误差,就能获得比较一致的结果,.,5,效度所要回答的问题:,(1)测验测量的是什么东西?或者说,测验测到了它要测的东西吗?(2)测验对它所测量的东西测量到什么程度?,.,6,SX=ST+SE,SX=SV+SI+SE,随机误差,有效方差SV,系统误差SI,.,7,与测验目的有关的有效SV2和实得SX2的比值,效度,二、效度定义,SX=SV+SI+SE,1。效度定义,效度就是一个测验对其所要测量的特性测量到什么程度的估计。,.,8,2。效度的性质,(1)效度是针对测验结果的(2)效度是针对某种特定的测验目的的(3)效度只有程度上的差别只有程度上的差别,没有全或无的差别。(4)效度是测量的随机误差和系统误差的综合反映(5)判断一个测量是否有效要从多方面搜集证据,.,9,三、效度与信度的关系,根据公式S2X=S2V+S2I+S2E,可以得到信度与效度的关系如下:1、信度高是效度高的必要而非充分条件2、测验的效度受它的信度制约,.,10,SE,ST,rxx,信度高,给SV增加提供可能能否提高效度,再看SI大小信度高不一定效度高效度要高,SV须占较大比重,ST效度高,信度必高,ST2,信效度关系,.,11,ST2,SX2,ST2,SX2,ST2,rxyrxx,rxyrxx,rxyrxx,SX2,.,12,2.测验的效度受它的信度制约信度系数的平方根是效度系数的最高界限根据效度和信度的定义(r2xy=SV/SX,rxx=ST/SX)以及ST=SV+SI可得r2xy=(ST-SI)/SX=rxx-SI/SX)SI0r2xyrxx,.,13,第二节效度的估计,要确定测验在解决某方面问题时的效度,需要收集充分的客观事实材料和证据,这种收集大量资料和证据来检验测验效度的工作过程就叫做效度验证。1966年美国心理学会在教育心理测验值标准中将效度分为三大类:1内容效度(ContentValidity)内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。2结构效度(ConstructValidity)结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。3实证效度(CriterionrelatedValidity)实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性,.,14,一、内容效度,定义:内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。适用于成就测验、选拔和分类的职业测验,不适于能力倾向测验和人格测验。注意与表面效度的区分,.,15,医生职业要求,.,16,内容效度与表面效度的区别,(1)表面效度是由外行对测验做表面上的检查确定的,而内容效度是由够资格的判断者(专家)详尽地、系统地对测验评价而建立的。例如,MMPI中有这样的题目:“我的喉咙里总好象有一块东西堵着似的。”(2)表面效度不是效度的客观指标,但能对受测者的动机产生影响,因而也会影响到效度。最高行为测验要求有较高的表面效度,典型行为测验却要求较低的表面效度。,.,17,内容效度的评估方法,1、逻辑分析法2、统计分析法3、再测法,.,18,含义专家按测题和假设内容范围作出的符合度判断作法与程序明确欲测内容的范围与双向细目表对比;制定评定量表;局限无良好的数量指标描述这种符合性的程度;不同专家对同一测验内容效度的判断可能不一致;不同专家对内容范围会有不同的理解,内容效度的评估方法,1、逻辑分析法,.,19,双向细目表(举例),一、教学目标(以橫轴表示)以Bloom所提的认知领域六个教学目标为依据:知识、理解、应用、分析、综合、评价。二、教材內容(以纵轴表示)以出题的范围,表示出包含几个不同的单元。,.,20,以台湾学校教育文科为例,.,21,信度指标复本信度r高:内容效度r低:至少一个缺乏内容效度3、再测法前测后测,2、统计分析法,复本1,复本2,被试团体,被试经过预测知识的教学,.,22,内容效度的评价,内容效度不但是评价学绩测验的最适合的方法,而且编制任何测验都要加以考虑的方面。它的主要缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较。,返回第十章,.,23,二、结构效度,(一)定义:结构效度是指一个测验实际测到所要测量的理论结构或特质的程度。构想或结构是指用来解释人类行为的理论框架或心理特质,它是心理学中抽象的假设性的概念、特性或变量,例如:智力、创造力、动机以及焦虑等。主要用于智力测验、人格测验,返回第十章,.,24,(二)验证结构效度的方法,假设我们要检验一个适应行为测验的结构效度1。寻找测验依据的理论定义:全美智力落后协会(AAMD)对适应行为的定义是:个体实现人们所期待的与其年龄和文化群相适应的个人独立与社会职责的程度和功效。2。根据理论定义提出假设:比如,随着年龄增长,适应行为得分应逐步提高;弱智儿童和正常儿童相比,前者的适应行为显著弱于后者;儿童的适应行为表现与其所处的社会经济、文化背景有关。3。搜集资料,验证假设,.,25,结构效度无单一的效度指标,要从多方面的资料来源,经过长期的、艰苦的搜集和积累证据资料的过程,才能逐步验证测验的结构效度。常用于搜集结构效度资料的方法有如下几种。,1、测验内部寻找证据法2、测验之间寻找证据法3、考察测验的实证效度法4、多种特质多种方法矩阵5、发展水平的变化6、实验操作,(三)搜集结构效度资料的方法,.,26,1、测验内部寻找证据法,(1)确定内容效度作为结构效度的证据例如,编制语文能力测验时,编制者将总体内容描述为对词汇下定义、对语言做类比推理、以及在句子中正确运用文字的能力,这在实际上就是给“语文能力”的构想下了定义。(2)分析被试的答题过程例如,在人格测验上有这样一些题目:“当事情不顺我意时,我时常动怒。”“我总避免批评别人的言行。”(3)通过计算测验的同质性信度来检验结构效度,.,27,2、测验之间寻找证据法,(1)相容效度(2)区分效度(3)因素分析,此方法特点是同时考虑几个测验间的相互关联,考察这些测验是否在测量同一心理结构。,.,28,(1)相容效度,含义测相同结构的各种测验间应有较高的相关。求一个新编测验与另一已知结构测验间的相关。斯坦福比奈量表、韦氏智力测验是世人公认有效的智力测验,后人编的智力测验大多与此量表作比较,如果相关高,便说明新编测验有效。,.,29,(2)区分效度,含义新编测验的分数与已知测量不同结构的测验分数的相关若相关高,说明新测验的效度有问题,已知:瑞文标准推理测验,新编:道德感测验,.,30,3)因素分析,1904年,英国心理学家斯皮尔曼发表专题论文客观决定和测量一般智力,用因素分析的技术研究智力结构,并提出智力的二因素论,这也标志着因素分析方法的诞生。运用这一方法心理学家们先后提出了多种智力理论。如:桑代克的多因素论,瑟斯顿群因素论和吉尔福特智力理论等等。,.,31,基本原理一种多变量统计分析方法。根据相关性大小把变量分组,使得同组内的变量间相关较高,不同组变量间的相关较低;每组变量聚合成群,即因素(又称潜变量)。意义找出变量间内在本质联系的一种多元统计方法。通过缩减变量的方法,用反映变量本质联系的少数几个基本因素(或公共因素)来说明先前需要用较多变量才能说明的原因或特性。,.,32,100名学生在9个不同学科间的相关系数,.,33,.,34,.,35,.,36,两个假想测验的因素效度及其变异来源,.,37,3、考查测验的实证效度法,其一,根据效标把人分成两类,考查其得分。其二,根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。,.,38,(4)多种特质多种方法矩阵法,坎贝尔和费司克(1959)实质上是相容效度法和区分效度法的综合运用原理是若用多种极不相同的方法测量同一种特质相关很高,则说明测量效度较高(相容效度即属此类)。,.,39,从理论上看,测验的结果应与其所要测的特质有显著相关而与其他不相干的特质无关。以相同方法测量相同特质所得的分数之间应具有最大的相关,以不同方法测量相同特质所得的分数之间应具有次大的相关,以相同方法测量不同特质所得的分数之间的相关应较低,以不同方法测量不同特质所得的分数之间的相关应最低。若合乎上述的情形,即表示这套测验同时兼有相容效应和区分效度,这是考验构想效度的新途径。,.,40,言语测验,操作测验,教师评定,语文理解,数学推理,一般常识,.,41,资料来自于Mosher(1968)的一项研究报告,他假设了三种不同结构,名为“性罪恶感”、“敌对罪恶感”和“道德良心”,使用了是非判断、迫选和完成句子多种测验方法对62名女性被试样本施测。,.,42,.,43,一个测验要有效必须具备以下几点:1)效度系数显著地大于0,即同一特质的各种不同测量应有正相关;2)以不同方法测量同一特质的相关必须高于不同的特质用同一方法来测的相关。也就是说,特质的差异必须比方法的差异更重要;3)效度系数必须高于不同特质用不同方法测量所得之相关。,.,44,其他考察结构效度的方法,(5)发展水平的变化许多智力量表的效度验证都使用了智力的年龄差异这一特点。,.,45,(6)实验操作根据不同测验具有不同的特性,我们可以预期经过某种实验处理之后将会发生哪些变化,以此推测测量某个心理结构的测验的结构效度。比如说,我们可以预期,将某个人放在容易产生焦虑的环境中,其焦虑测验得分会有所变化。如果预期得到证实,就说明这个测验有结构效度。这种方法实际是要比较实验处理前后测验得分的差异。,.,46,对结构效度的评价,结构效度是个有争议的概念。优点:其贡献在于把着眼点放在提出假设、检验假设上,因此使心理测验不再只是作实际决定的辅助工具,同时还成为发展心理学理论的重要工具,从而使测验有了更广阔的发展前景。缺点:有些构想概念模糊,缺乏一致的定义。确定效度时没有明确的操作步骤与程序。结构效度是通过对测验测量什么、不测量什么的证据加以积累确定的,因而没有单一的数量指标来描述有效的程度。,.,47,三、实证效度,(一)实证效度的含义、种类及作用定义:实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。也称为效标关联效度。被估计的行为是检验测验效度的标准,简称效标。根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。有人把二种效度都称为预测效度,并把测验称作预测源。,相容效度可看做是同时效度的一种,.,48,(二)效标效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得我们所感兴趣的行为。需注意的知识点:观念效标效标测量效标的特性:多样性、复杂性、特殊性和时间性,在测验手册中报告实证效度时,不但要说明使用说明作为效标,还要说明这些效标来自说明团体。,.,49,效标污染,效标污染是指由于评定者知道被试测验的原分数而使被试的效标分数受到影响的情况。最好的预防方法是不让评分者看到原来测验的分数,保证效标分数和原测验分数的独立性。,.,50,各类测验的可用效标,.,51,(三)实证效度的确定方法:步骤:明确观念效标;确定效标测量;考查测验分数与效标测量的关系。,.,52,(三)实证效度(效标关联效度)的确定方法,1。相关法最常用来建立实证效度的方法是求测验分数与效标测量间的相关。在测验手册中,一般用它来报告测验对每种效标的效度。2。区分法3。命中率4。功利率,.,53,(1)积差相关系数,当预测分和效标分都是连续变量时,可采用积差相关系数的计算方法来求得测验的效度系数。例:假设有10名男性经职业兴趣测验而被选定作为推销员,其测验分数下表第一行,而第二行是经过若干年后他们某段时间内销售金额总量(以万元为单位)。现问该测验的预测效度如何?,.,54,.,55,(2)二列相关系数,当X与y两个常态连续变量中有一个变量由于某些理由被人为地分为两个类别,如,考试成绩的通过与失效,学校分为重点和非重点等,而另一变量为连续变量时,计算出的相关系数就叫二列相关系数。在效度系数的计算中,通常是把效标变量分为两类,而预测变量仍为连续变量。,.,56,.,57,.,58,当测验成绩是连续变量,而效标是等级评定时,可用贾斯朋公式计算多系列相关。四分相关适用于计算两个变量都是连续变量,且每个变量的变化都被人为地分成两种类型这样的测量数据之间的相关。皮尔逊余弦法,.,59,总结:,相关系数的平方表示一个变量的变异数由另一个变量的变异数决定的百分比(决定系数)。因此,当rxy=050时,我们可以说效标分数中有25(0502=025)的变异数是来自预测源分数的变异,或者说有25的变异数为两个测量所共同拥有。假如效标中有一半的变异数能由预测源分数的变异来解释,则效度系数必须为071。,.,60,以相关法求效度的优点是:(1)提供了一个统计指标以总结预测源与效标间的关系;(2)可利用回归方程式来预测每个人的期望效标成绩;(3)效度系数(相关系数)为大家广泛使用,便于比较研究。此种方法的缺点是:(1)假如预测源与效标的关系不是直线性的,则必须采用特殊的相关方法;(2)测验结果不能提供有关取舍正确性的指标。,.,61,2、区分法t检验,看预测源的分数是否可区分由效标测量所定义的团体。例:某工厂通过测验录用了一批工人,过一段时间后,根据工作成绩(如产品的数量、质量)将他们分成成功的和失败的两组,然后回过头来检查他们的测验分数。运用t检验看看两组在测验上的平均分数是否有显著性差异。假如:成功组有60人,失败组有40人;成功组的平均数为6.05,标准差为2.02;失败组的平均数为4.25,标准差为1.3。试问两组的平均数有无显著差异?,.,62,已知成功组、失败组的均数、标准差、样本规模,独立样组的t检验公式是:,.,63,所以,两组分数有极其显著性差异,即该测验确实可以预测工作上的成败。,.,64,用区分法检验测验的效度,需要检验平均数之间的差异,就要用到均数之差的标准差,均数之差的标准差与样组容量成反比。那么,当样组规模n很大时Sx保持不变,则n越大,均数之差的标准误越小,这样就使得t值增大,增加了拒绝虚无假设的机会,这就意味着作出“两组具有显著性差异”这一结论的可能性提高了。,.,65,要避免这一缺点,可以求出这两个分布的重叠量。如果t检验没有显著性,就说明两个均数间无显著性差异;如果t检验有显著性差异,还必须求两个分布的重叠量,重叠量是用两个指标来表示的。,.,66,(1)第一,一组内被试得分超出另一组平均数的人数与另一组被试中超出其均数的人数的比率。比率越低,两组间的差距越大。(通常是以“失败”组超过“成功”组均数的人数来计算);(2)第二,两组分数分布共同区域的百分比。共同区域越大,两组分布的差异越小。重叠量越大,说明两组差异越小。研究者在进行效度验证的过程中,必须把两组的平均分数、标准差、重叠量以及平均分数的差异在统计上的显著性一并报告。总的说来,两组平均分数的差异在统计上显著并不保证测验一定有效。然而,假如测验分数无法区分效标定义组,则测验是肯定无效的。,.,67,.,68,3命中率法,含义:正确决策的比例用途人才选拔方法正确决策的结果正确接受正确拒绝,.,69,预测源与效标都是二分的,.,70,33,7,38,22,错误接受,正确拒绝,正确接受,错误拒绝,.,71,结果,正确决策,正确接受,正确拒绝,38,33,71,.,72,以取舍正确性作为测验效度的指标,其主要优点是与实际生活联系更紧。另一个优点是计算方法简单并容易为一般人所理解。这种方法有时也受到人们的批评:有人批评它对分数刚刚低于临界分数的人不公平。,.,73,4.功利率,为了确定测验的功效,人们还常常对使用测验所花掉的费用与得到的利益进行比较,看是否利大于弊。此种效度指标,叫功利率。可用下列公式计算:U=B(NS)-C(NU)-SU代表功利率,B代表用一个成功的工人所产生的平均利润,C代表录用一个不合格的工人所造成的损失,NS和NU分别代表所录用的人中成功和不成功的人数,S代表整个选人程序的费用。当费用与收益可以转换成确切的价值(例如折合成货币)时,功利率的好处是将效度变成了对决策者有意义的信息。,.,74,测验的功利率说明了这样一个事实:一个测验如果简单易做,省时省钱,不经过特殊训练的人也能掌握,又适合于团体施测,那么既使效度低一些,也会有人采用。反之,一个测验若过于复杂,编制、施测花费大,需要有受过专门训练的测验者或使用昂贵的仪器,并且只能个别施测,那么,只有效度极高,能给人带来较大好处时,人们才会使用它。所以在编制测验时一定要考虑功利率和实用性。,.,75,对效度估计方法的总结,根据不同的需要,一个测验可以采用不同的效度。如对于智力测验来说,既可以有实证效度(预测将来的行为)和结构效度(对组成智力的各个因素测的如何),也可以有内容效度(对于智力的各个方面的取样是否适当)。又如对于高考来说,大学关心的是预测效度;中学关心的是内容效度;而心理学家关心的是结构效度(测量了哪些能力与技能)。,.,76,效度的验证通常是测验编制好之后进行的工作,但效度的基本指导思想在测验编制过程中始终起着主导作用。效度的观念与测验编制过程是紧密关联的,它比信度更为重要,测验的最终目的还在于效度,从一开始编制测验就应该注重提高测验的效度。,.,77,一、影响测量效度的因素二、提高测验效度的方法,第三节提高测量效度的方法,.,78,1。测验的构成2。测验的实施过程3。接受测验的被试4。所选效标的性质5。测量的信度,返回第十章,一、影响测量效度的因素,.,79,项目能否代表预测内容或结构;题目语意、指导语、题目难度及题目数量。,一般而言,增加测验的长度可以提高测验的信度,进而为提高测验的效度提供了可能。记住公式,并注意与信度的相应公式相区分:,.,80,3。接受测验的被试,就个体而言,易造成随机误差就团体而言,如果缺乏必要的同质性,可能得到不恰当的效度资料。,.,81,4.所选效标的性质,效标和测验分数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论