测量效度教学课件_第1页
测量效度教学课件_第2页
测量效度教学课件_第3页
测量效度教学课件_第4页
测量效度教学课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章测量效度,本章学习目标:1、理解效度的概念和统计学含义。2、掌握信度和效度之间的关系。3、掌握三种效度的概念及其估算方法。4、了解提高测量效度的途径。5、理解表面效度和效标污染的概念。,第一节效度的定义,一、效度的含义所谓的测量效度是指测量结果的有效性、准确性程度,也就是一个测验实际能测出其所要测量的心理特质的程度。效度关注两个基本问题:其一,心理测验所测查的“心理特质”是什么(测验目的);其二,该测验对欲测量的心理特质测查到了什么程度?测量的准确性和有效性如何?分析实际测量的结果与测量目标之间的关系。,效度检验的实质,实际的测量结果,测量目标,两者关系,二、效度的概念理解,1、效度是一个相对的概念。效度是相对于一定的测量目的而言的。效度不是一个全或无的概念。2、效度是随机误差和系统误差的综合反映。3、效度不是直接可以测量到的,判断一个测验是否有效要从多方面搜集证据,从证据去推论测验的效度(犹如法庭上收集证据一样)。,三、用统计学术语谈效度,根据CTT假设,有以下公式存在:,效度系数等于有效分数的方差与观测分数的方差之比,即:,四、效度和信度的关系,1、信度高是效度高的必要而非充分的条件。即信度高但效度不一定高(非充分条件),信度低则效度一定低(必要条件)。高信度,低效度高信度,高效度低信度,低效度,2、测验的效度受它的信度的制约。研究发现,效度和信度具有如下关系:,即,用语言表达就是:效度系数的最大值受信度系数的制约,效度系数永远不可能大于信度系数的平方根。,第二节效度的种类与确定方法,弗兰西与米西贝(French&Michbel)1966提出,并被APA教育与心理测验及诊断技术标准所采用的效度分类法:内容效度(contentvalidity)实证效度(又称效标关联效度,criterionrelatedvalidity)结构效度(又称构想效度,constructvalidity)效度是一个整合的概念,不同类型的效度只是寻求证据的方式不同,三者有交叉重叠。,一、内容效度,(一)内容效度的含义定义:指一个测验实际测到的内容与所要测量的内容之间的吻合程度。或者说,指测验题目对所要测量的内容范围的代表性程度。内容效度的关键问题是测验题目取样的代表性程度。(覆盖面不够、偏题、超纲),测验题目,所要测查的内容范围,两者关系,具备高内容效度的两个基本条件,1、所要测量的内容范围必须定义清楚,界限分明,重点突出。2、测验题目应是所界定的内容范围的代表性取样。,以“教学大纲”为例,它明确规定了教学范围、教学目标、每一章的知识要点、重点和难点,这些既是教学的纲要,也是考试命题的参照标准;参照教学大纲,教师命题时一是不要超纲,二是题目的覆盖面要尽可能宽,三是题目要具有典型性、代表性,四是题目的难度和区分度应合乎要求。这些都是保证题目取样能够具有较高代表性的条件。,内容效度的适用范围,内容效度主要用于学绩测验和职业测验(基于工作任务分析)。人格测验、能力倾向测验、智力测验不适合采用内容效度。,(二)确定内容效度的方法,1、逻辑分析法:即专家判断法,请有关专家对测验题目与原定内容范围的吻合程度作出判断。定性分析与定量分析相结合。步骤如下:(1)明确欲测内容的范围;(2)确定每个题目所要测量的类型,并与双向细目表对照;(3)制定评定量表。综合评价测验题目是否有效地代表了所要测量的内容范围。,2、教学前测与后测法被试学习某种知识之前做一次测验(如心理测量学的知识测验),在学习该知识之后再做同样的测验。比较前测与后测的成绩差异,若后测成绩显著优于前测成绩,则说明测验内容是新近学习的知识,这个测验具有较高的内容效度。,表面效度,内容效度切忌与表面效度相混淆。表面效度是指题目表面上看起来和测验目的有关,好象是测量所要测的东西。换句话说,当那些未经过训练的被试或测验应用者认为某测验是有效的测验时,该测验就有表面效度。,伍德沃斯的“个人资料调查表”,该测验共116题,测量士兵的情绪状态和崩溃倾向。题目例样:你每天大量饮酒吗?是否你夜晚睡觉时出汗吗?是否你经常做梦吗?是否你感觉自己身体健康吗?是否你睡眠好吗?是否,对表面效度把握三点,相对于其他三种效度而言,表面效度并不是一种真正的效度。表面效度不直接影响测量结果,而通过影响被试的动机、态度或情绪,间接影响测量结果的有效性。最佳行为测验受表面效度影响较小,而典型行为测验则希望表面效度低。,拓展知识点,在教育与心理测验标准的最新版本中,强调了两个与内容效度有关的新概念:1、结构低估:指测验未能包括重要的结构成分。如一个算术知识测验只包括代数知识,而不包括几何知识。2、无关结构方差:指测验分数为那些与所测结构无关的因素所影响。如一个智力测验,结果受阅读理解水平、阅读速度、知识宽泛度等因素影响。,二、实证效度或效标关联效度,(一)有关概念1、实证效度或效标关联效度实证效度或效标关联效度,是以测验分数与效标测量分数之间的关系表示的效度。,测验分数(高考分数),效标测量分数(大学GPA),两者关系,2、观念效标与效标测量,阿斯丁把效标分为两个层次:一是理论描述水平的“观念效标”,二是操作定义水平的“效标测量”。理论定义与操作定义。所谓观念效标指衡量一个测验是否有效的外在标准,它独立于测验并可以从实践中直接获得我们所感兴趣的行为变量。常用的观念效标有:实际工作表现、学业成就、临床诊断、行为的等级评定、专门的训练成绩、对团体的区分能力以及其他现成的有效测验,等等。,效标测量,指将观念效标进行量化操作。一种观念效标可以有多种不同的效标测量。如实际工作表现的效标测量可以采用的数量指标有:产品数量和质量、销售额、收入、职位、薪水提高的幅度、领导评定、同事评定等等。又如,学业成就的效标测量可以采用的数量指标:单元考试成绩、期中期末的考试成绩、老师评价、同伴评定、获奖情况、发表作品情况等等。,效标测量必须满足以下要求:,1、关联性:效标测量必须真正反映观念效标的重要方面,与观念效标具有密切的关联性;2、可靠性:效标测量必须是稳定的;3、抗偏性:效标测量必须对每个受测者是客观的、公平的;4、可行性:即省时、省力、省钱,易于获得。,3、预测效度与同时效度,预测效度(predictivevalidity):效标资料后于测验资料获得。预测效度用于预测个体将来的行为。如SAT考试与大学GPA,招聘考试与实际工作表现,等等。同时效度(concurrentvalidity):效标资料与测验资料同时获得。同时效度用于诊断现状。如学习障碍测验与学校表现。,4、效标污染,效标污染(criterioncontamination)是指评定者在已知被评者的测验成绩的情况下,因受被评者测验成绩的影响而作出与被试测验成绩趋于一致的评定结果的现象。被污染的效标不能作为效度检验的数量指标。,(二)效标关联效度的确定方法,1、相关法:计算测验分数与效标测量之间的相关系数,称为效度系数。根据数据特点选择积差相关、等级相关、二列相关、四分相关等计算方法。,选择团体,心理测验,处理,效标测量,求相关系数,对效度系数的说明,效度系数告诉我们的是,根据测验结果对效标进行推断时的有效程度。没有一个迅速而简洁的规则,可以判断多大的效度系数是有意义的。在实际工作中,很少会看到效度系数大于0.6的情况,效度系数在0.3-0.4之间已经被认为是比较高。例如,假定江苏07年高考预测大学GPA的效度系数为0.4,并且该系数在统计上是显著的,我们就可以认为高考分数预测大学GPA的信息超过了机遇因素。,2、区分法(被试组的差异检验法),由效标测量区分小组,考察不同小组被试在测验分数上是否有显著差异。以一次招聘中的营销能力测验为例,区分法的具体程序是:(1)一批候选人接受营销能力测验,然后考察他们的实际营销业绩,根据他们的营销业绩分为优等组和劣等组;(2)分析优等组和劣等组在营销能力测验的分数上是否具有显著差异。采用t检验。,3、命中率(决策正确性),总命中率=命中人数总人数=(A+D)(A+B+C+D)正命中率=命中人数选择人数=A(A+B)总命中率关心录取者中合格的人数与淘汰者中不合格的人数的比率。正命中率只关心录取者中有多少合格的人,不关心淘汰者是否有合格的人。,(三)影响效标关联效度的因素,1、效标的选择:效标的适当性;2、效标测量与预测源测量的时间间隔;3、预测源与效标测量的信度;4、被试样本的特征:样本的大小、样本的代表性。效标关联效度的系数在大小上变化很大,但一般认为.60以上是高相关。,三、结构效度,(一)结构效度的含义结构效度(constructvalidity):又称构想效度,指一个测验实际能测到所要测量的理论结构的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。实际测量的结果心理学的理论结构或构想,两者关系,结构效度的特点,结构效度取决于事先假定的心理学理论。结构效度没有单一指标,确定方法更复杂、更综合,需要由各方面证据累积起来作出评价。内容效度和效标关联效度都可以作为结构效度的证据之一。,(二)检验结构效度的步骤,(1)提出理论构想;(2)根据理论构想提出有关测验成绩的假设;(3)采用逻辑或实证的方法验证以上假设。,(三)确定结构效度的方法,1、测验内部寻找证据法考察内容效度。内容效度高一定程度上表明结构效度好,因为题目的内容应该紧紧围绕测验的理论维度来编制。分析受测者的答题过程。如果发现被试在答题时除了反映所要测量的心理特质外,还受其他因素的影响,则表明该测验的结构效度不佳。,计算同质性信度。如果一个测验测量的不是同一种心理特质,那么肯定不符合最初的理论构想。同质性信度高是结构效度好的必要而非充分条件。计算测验内部的相关系数。计算各项目与量表总分的相关;计算各项目与所属分量表的相关,以及各项目与不同质分量表的相关;计算各分量表之间的相关以及各分量表与总量表之间的相关。因素分析。采用探索性因素分析或验证性因素分析,考察测验的因素负荷情况,找出影响测验的共同因子,比较测验的因素结构与假设的理论结构是否吻合。,2、测验之间寻找证据法,肯贝尔和费斯克(Campbell&Fiske)提出在不同测验之间寻求结构效度证据的两种方法:相容效度法(又称会聚效度)。求新编测验与某个已知的能有效测量相同特质的旧测验之间的相关,相关高说明新测验有较高的结构效度(但相关不高未必说明新测验的结构效度不好,可能两个测验的理论构想差异较大);区分效度法。考察新编测验与某个已知的能有效测量不同特质的旧测验之间的相关,相关高则说明新测验的结构效度不好。,3、多种特质多种方法矩阵法,在相容效度和区分效度的基础上,肯贝尔和费斯克提出了确立结构效度的“多种特质-多种方法矩阵法”。其原理是:用不同方法去测量同一种特质,若相关高,说明测量效度较高(相容效度);用相同方法去测量不同特质,若相关低,说明测量效度较高(区分效度)。教材P66的矩阵图,假设三种特质分别是人格的支配性(A)、社会敏感性(B)和成就动机(C),四种测量方法分别是自陈量表(1)、投射测验(2)、同伴评定(3)和情境问卷(4)。,多种特质-多种方法的矩阵说明:,实线三角形对角线上的相关系数是采用相同方法测量相同特质,是两次测量的信度系数;在虚线三角形对角线上的相关系数,是采用不同方法测量相同特质(相容效度),它们的数值越大说明测量的效度越好;实线三角形中的相关系数是采用相同方法测量不同特质的结果(区分效度),它们的数值越小说明测量的效度越好;虚线三角形中的相关系数,是采用不同方法测量不同特质的结果。,一个结构效度良好的测验,矩阵的相关系数情况应该是:信度系数相容效度系数区分效度系数虚线三角形中的相关系数。如果有相反的情况,表明结构效度不佳。,4、采用效标关联效度检验结构效度法,根据效标分数把被试分为高分组和低分组,考察两组被试在测验得分上是否具有显著差异;根据测验分数把被试分为高分组和低分组,考察两组被试在效标分数上是否具有显著差异。这种方法与效标关联效度中的区分法或组的差异检验法相同。,四、三种效度的比较,效度检验的总结,一个测验选择何种效度检验,要根据具体情况来确定。效标关联效度通常用来评价测验作为决策辅助工具的有效性程度,结构效度可以帮助说明测验所测变量的性质。下面测验中,哪种效度检验比较重要?数学测验、公务员考试、创造性思维测验、大学入学考试、人格测验,研究报告之实例,王登峰、崔红:中国人人格量表的信度与效度,心理学报,2004,36(3):347358。,一、“中国人人格量表”的编制情况,采用人格特质形容词的研究方法,确定中国人人格的“大七因素模型”,由7个维度组成:外向性、善良、行事风格、才干、情绪性、人际关系、处世态度。围绕7个维度共编制215个题目,每个维度中又包含2-3个小因素,共18个小因素。,二、测量工具、被试与测量过程,中国人人格量表(QZPS)。5010名被试,年龄、职业和地区分布广泛;中国人人格量表的他评格式(QZPSForm-R),将原量表中的每个项目中的“我”改为“他或她”。请第一项测验中的60名被试,邀请同寝室中的另一个人做QZPSForm-R;中国人人格量表的评定标尺,用1-2个句子描述18个因素的含义,让被试对自己的实际情况做7点评定。第一项测验中1103名被试在完成QZPS后,再进行QZPS评定标尺的测量;对180名精神分裂症患者、287名吸毒者和507名监狱服刑者进行QZPS测量;间隔5周,对第一项测验中的169名大学生进行QZPS重测。(思考研究者为什么要做这5项测量工作?其目的何在?),三、数据统计与结果分析,(一)QZPS的效度检验1、确定QZPS的结构效度对QZPS测量情况进行因素分析:7个大因素及18个小因素的因素负荷、共通性和鉴别度情况如表1-表7所示。考察QZPS测验内部分量表之间的相关情况:表8分析了QZPS测验的7个分量表之间的相关情况。考察QZPS的会聚效度与区分效度:各个小因素与大因素之间的相关见表10。,2、确定QZPS的内容效度,项目的编制是根据人格特质形容词编写项目,并根据每个人格维度的特点对有关项目进行修改。初步确定的项目达1635个,经2300多名被试的评定,筛选出409个项目。在此基础上,经严格的统计分析得到了的215个项目的初步结果。本研究中最后确定的180个项目是在215个项目基础上,经5010名被试的评定确认的,因此QZPS的内容效度是有保证的。,3、确定QZPS的效标关联效度,QZPS与QZPSForm-R测量结果的相关QZPS分数与QZPS评定标尺分数之间的相关正常人群QZPS分数与特殊人群QZPS分数的差异比较,(二)分析QZPS的信度,1、内部一致性信度7个分量表的系数在0.83-0.88之间。2、重测信度7个分量表的重测信度在0.73-0.96之间。,第三节提高测量效度的方法,一、影响测量效度的因素(一)测量工具的可能影响1、题目样本的选择不当2、题目含义及表达的模棱两可3、要求的步骤不明确4、题目难度过大或过小5、测验长度偏短测验长度与效度值具有如下关系:,(二)施测过程的可能影响,没有严格按照标准化程序施测测量的准备工作不充分故意制造紧张气氛给予特别协助测量时间把握不恰当评分不客观,(三)被试方面的可能影响,动机作用测验经验测验焦虑生理变因:身心健康、疲劳等被试团体的性质:(1)同一个测验,对不同性质的被试团体,往往具有不同的测量效度;(2)越同质的样本越可能低估效度,越异质的样本越可能高估效度。建立效度资料的样本要接近常模团体;(3)样本规模越大,误差越小。,(四)所选效标的性质,由于同一个测验可以有不同的效标,同一个效标又可以选择不同的效标测量。因此检验效标关联效度时,选择恰当的效标和效标测量是一个重要的影响因素。在考察测验分数与效标测量分数的相关时,需要考虑测验分数与效标之间是否符合线性关系,只有符合线性关系才能计算皮尔逊积差相关,否则会得出错误的效度结论。,(五)测量的信度,效度系数的最大值受信度系数的制约,效度系数永远不可能大于信度系数的平方根。所以在考察测量效度时,一定要注意测量信度,信度不高的测验,其效度也不可能高。,二、提高测量效度的方法,1、精心编制测验,避免出现较大的系统误差。2、妥善组织测验,控制随机误差。3、创设标准化的应试情境,让每个被试发挥正常水平。4、选择恰当的效标和效标测量,正确使用有关公式。5、适当增加测验的长度。6、选择有代表性的样本,扩充样本容量。,练习题,某测验的信度为0.70,效度为0.40,题目数为30题。若将该测验增加到90题,请问新测验的信、效度系数各为多少?增加到210题呢?rxx=0.875rxx=0.942rxy=0.447rxy=0.464,SPSS练习:心理测验的信效度分析,“初中生集体责任感问卷”简介该问卷分为三个维度,即集体责任认知(1-14题)、集体责任情感(15-25题)、集体责任行为(26-40题)。被试情况调查了三所学校,分别是湖南省常德市澧南中学(农村初中)、湖南省常德六中(城市普通初中)、福建省厦门一中(城市重点初中)。以班级为单位发放问卷,收回398份有效问卷。,思考,如何根据所收集的数据,检验该问卷的信度和效度?,练习要求,1、计算三个分量表以及总量表的分数。其中集体责任认知(1-14题)、集体责任情感(15-25题)、集体责任行为(26-40题)。2、考察三个分量表之间的相关系数,以及分量表与总量表之间的相关。3、考察各项目与同名分量表、异名分量表之间的相关。4、进行量表结构的因素分析。5、计算量表的同质性信度和分半信度。,SPSS练习讲解,计算3个分量表以及总量表的分数。采用“Transform”-“compute”统计处理。考察三个分量表以及分量表与总量表之间的相关。采用“Analyze”-“Correlate”-“Bivariate”统计处理。考察各项目与同名分量表、异名分量表之间的相关。采用“Analyze”-“Correlate”-“Bivariate”统计处理。计算量表的同质性信度和分半信度。采用“Analyze”-“Scale”-“ReliabilityAnalysis”统计处理。,补充讲解:因素分析,因素分析(FactorAnalysis)1904年由斯皮尔曼创立。其主要目的是浓缩数据,运用统计步骤决定需要用多少个因素来解释一组测验或一组项目分数的变异,探求观测数据中的基本结构,并用少数几个假想变量来表示基本的数据结构。这些假想变量称之为因子。因素分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子。,因素分析的两种方法,探索性因素分析:研究者事先对观测数据背后存在多少个共同因子一无所知;验证性因素分析:根据现有理论或先验知识,对可能具有的因子结构有基本假设。,如何利用SPSS进行因素分析,1、打开因素分析的命令框:“Analyze”-“DataReduction”-“Factor”,指定参与因素分析的变量。2、进行因素分析的可行性检验。在“Descriptives”对话框:反映象相关矩阵(Anti-imagecorrelationmatrix)。如果矩阵中元素的值比较大,数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论