测量的误差及其检验

上传人：姚*** IP属地：广东上传时间：2023-07-15 格式：PPT 页数：172 大小：4.68MB 积分：25 举报 版权申诉

已阅读5页，还剩167页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

测量的误差及其检验第1页，课件共172页，创作于2023年2月[教学目的与要求]（1）了解测量误差的种类与来源（2）掌握信度的定义、意义及其估计方法（3）掌握效度的定义、意义及其估计方法第2页，课件共172页，创作于2023年2月第一节测量的误差一、误差的定义和种类二、误差的来源三、真分数第3页，课件共172页，创作于2023年2月一、误差的定义和种类（一）误差的定义误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。有二层含义：１、误差是由与测量目的无关的因素引起的；２、误差是不准确或不一致的测量结果。第4页，课件共172页，创作于2023年2月第5页，课件共172页，创作于2023年2月（二）误差的种类1、随机误差：与测量目的无关的偶然因素引起的变化无规律的误差，这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性。2、系统误差：与测量目的无关的因素引起的恒定的有规律的误差，它稳定地存在于每一次测量中。只影响测量的准确性。第6页，课件共172页，创作于2023年2月二、误差的来源在心理测量中，常见的误差来源于三个方面：测验自身；施测过程；受测者本身。

第7页，课件共172页，创作于2023年2月（一）测验自身引起的误差主要来源于测验的编制过程，其中项目取样影响最大。

测验题目少或样本缺乏代表性测验复本不等值题目用词模棱两可反应步骤说明不清题目过难引起猜测时间短促仓促作答等第8页，课件共172页，创作于2023年2月（二）施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分(评的客观，记得准确）第9页，课件共172页，创作于2023年2月小资料：对于论文题、问答题要多少人评分，平均分数才能相对稳定和客观呢？国外有人做过专门研究，结果如下：哲学论文１２７人，作文７８人，物理１６人，数学１３人。第10页，课件共172页，创作于2023年2月（三）被试引起的误差

既使一个测验经过精心编制，题目取样具有代表性，又有标准化的施测和记分程序，由于受测者本身的变化，仍然会给测验分数带来误差，这种误差是最难控制的。第11页，课件共172页，创作于2023年2月1、应试动机被试对测验的动机不同，会影响其作答态度，注意力、持久性、反应速度等，从而影响测验成绩。2、测验焦虑测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。中等程度的焦虑最有利于被试的发挥第12页，课件共172页，创作于2023年2月测验焦虑影响因素

1．能力高的人，测验焦虑一般较低，而对自己能力没有把握的人，测验焦虑较高

2．抱负水平过高，求胜心切的人，测验焦虑较高；

3，具有某种人格特点，如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑；

4．测验成绩与被试的关系重大，或被试受到的压力过大，容易使其产生测验焦虑；

5．经常接受测验的人焦虑较低，而对测验程序不熟悉，尤其是测验中采取了新的题目形式或实施程序会增加测验焦虑。6，被试不了解测验目的，指导语不清会增加被试的焦虑。

第13页，课件共172页，创作于2023年2月3、测验经验任何一种新的项目形式，由于被试比较陌生，就可能使测验成绩受到影响。如果提供足够的演示和练习，测验成绩就会提高。相反，有些被试测验经验较多，掌握了答题技巧，成为了“测验油子”。4、练习效应任何一个测验在重复使用时，都会有练习效应而使成绩提高。第14页，课件共172页，创作于2023年2月练习效应教育背景较差、经验较少或智力较高者，其受练习效应的影响较大着重速度的测验练习效应较为明显重复实施相同的测验，受练习效应影响的程度要大于复本的测验两次测验时距越大，练习效应越小，三个月以上可以忽略一般的练习效应，约在1/5标准差以下第15页，课件共172页，创作于2023年2月5、反应倾向（反应定势）反应定势是指独立于测验内容的反应倾向。即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。

6、生理变因指生病、疲劳、失眠等生理因素以及在智力、情绪、体力等方面的生物节律也会影响测验成绩而带来误差。第16页，课件共172页，创作于2023年2月常见的反应定势求“快”与求“精确”的反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好较长选项的反应定势猜测的反应定势第17页，课件共172页，创作于2023年2月三、真分数

（一）含义理论定义：是指测量没有误差时所得到的真值。真分数是一个在理论上构想出来的抽象概念。操作定义：是无数次测量结果的平均值。第18页，课件共172页，创作于2023年2月（二）数学模型及其假设１、经典测量理论的基本思想把任何一个人在一个测验上的成绩都看作是真分数和测量误差的和，这是经典测量理论的基本思想。即：

X=T+EX：实得分数或观测分数T：假设的真分数E：测量误差第19页，课件共172页，创作于2023年2月注意：测量误差E指的是引起测量不一致的变因所产生的效应，即指随机误差，不包括系统误差。系统误差不引起分数的改变，因此包含在真值中。第20页，课件共172页，创作于2023年2月关于测量误差E有以下假设：（１）如果对一个人测量无数次或同一测验施测于无限大的人群，其平均误差为０，即；（２）真分数和测量误差是相互独立的即；（３）误差分数和实得分数的相关为０，即。第21页，课件共172页，创作于2023年2月2、引申：（1）对于一个团体来说，实得分数的变异数等于其真分数的变异数与误差变异数之和。

SX2=ST2+SE2（2）真分数的变异数可以分成两部分：与测量目的有关的变异SV2（有效变异）和与测量目的无关的但却稳定的变异SI2，即：

ST2=SV2+SI2第22页，课件共172页，创作于2023年2月（3）一次测验中，一个团体的实得分数的变异性是由与测量目的有关的变异数SV2

、稳定的但出自无关来源的变异数SI2和随机误差的变异数SE2所决定的。即：

SX2=SV2+SI2+SE2第23页，课件共172页，创作于2023年2月SV2SI2SE2SX2ST2

第24页，课件共172页，创作于2023年2月第二节信度一、什么是信度二、信度的类型及估计方法三、信度的应用四、影响信度的因素第25页，课件共172页，创作于2023年2月一、什么是信度定义：指的是测量结果的稳定性程度（或叫可靠性、一致性）。思考：信度受随机误差的影响还是受系统误差的影响？第26页，课件共172页，创作于2023年2月在测量学中，信度被定义为：一组测量分数的真分数变异数（方差）与总变异数（总方差、实得分数的方差）的比率，或者是真实分数方差占总方差的百分比。计算公式：rxx=ST2/SX2rxx也被称为信度系数。第27页，课件共172页，创作于2023年2月该定义有两点要注意：１、信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性。２、信度是一个理论上构想的概念，只能根据一组实得分数作出估计。第28页，课件共172页，创作于2023年2月信度系数rxx实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如：当rxx

＝0.9时，怎么解释？rxx

＝１？rxx＝0？第29页，课件共172页，创作于2023年2月对信度系数也要注意三点：1)在不同情况下，对不同样本，采用不同方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的，它只是迈向目标的第一步，是使测验有效的一个必要条件。

第30页，课件共172页，创作于2023年2月二、信度的类型及估计方法信度是个理论上构想的概念，在实际应用时，通常以同一样本所得的两组资料的相关，作为测量一致性的指标。由于测验分数的误差来源不同，估计信度的方法也不同，故每一种信度系数只能说明信度的不同方面，因而具有不同的意义。第31页，课件共172页，创作于2023年2月（一）重测信度（再测信度）（二）复本信度（三）分半信度（四）同质性信度（五）评分者信度第32页，课件共172页，创作于2023年2月（一）重测信度（再测信度）1、含义与计算用同一个测验，在同样条件下对同一组被试前后两次施测，求两次得分间的相关系数。它反映的是两次测验的结果有无变化，也就是测验分数的稳定程度，所以又称稳定性系数。计算公式为：第33页，课件共172页，创作于2023年2月例题：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）表1某幸福感调查表的两次测试结果

被试测验12345678910X116151313111010987X21616141211911867第34页，课件共172页，创作于2023年2月解：用计算器算出:S1=2.82S2＝3.38

把以上数据代入公式第35页，课件共172页，创作于2023年2月2、使用的前提条件（1）所测量的心理特性必须是稳定的。（2）遗忘和练习的效果基本上相互抵消。（3）在时间间隔中没有学习另外的与测验有关的东西，或者说每人学习其他东西的程度都一样。第36页，课件共172页，创作于2023年2月3、使用时的注意要点

（1）两次测验的时间间隔要适当。（2）再测法适用于速度测验和人格测验。（3）应注意提高被试的积极性。提问：重测法的误差主要是来源于什么？第37页，课件共172页，创作于2023年2月4、优缺点缺点：（1）易受练习和记忆的影响。（2）如果两次施测时间间隔较长，由于在此期间受到被试学习、成熟的影响，都会使两次测验结果不相同。（3）同一被试对一个测验先后两次作答，对测验的兴趣不同、身心状况的变化，影响测验结果。（4）两次施测的条件不同，也是产生测量误差的因素。第38页，课件共172页，创作于2023年2月优点：（1）能提供有关测验结果是否随着时间而变异的资料，可作为预测受测者将来行为表现的依据；（2）首测和再测只需要一套测验题目，省时、省力；（3）同一套题目无论施测几次，所测的属性是完全相同的。第39页，课件共172页，创作于2023年2月（二）复本信度

1、含义与计算含义：根据一组被试在两个平行（等值）测验上的得分计算的相关系数即为复本信度。其计算方法与再测法相同。第40页，课件共172页，创作于2023年2月例题：假设用A、B两型创造力复本测验对初中一年级10个学生施测,计算该测验的复本信度。结果见表2。

被试测验12345678910X120191918171614131210X22020181615171211139表2某创造力复本测验测试结果第41页，课件共172页，创作于2023年2月解：先用计算器计算得出以下值：把以上数据代入公式第42页，课件共172页，创作于2023年2月2、使用的前提条件：（1）要两份或两份以上真正等值的测验，必须是真正的复本，否则所得的信度就成了歪曲的估计。（2）被试要有条件接受两个测验。主要取决于时间、经费等几方面。第43页，课件共172页，创作于2023年2月3、连续施测和间隔施测（1）连续施测同时施测的复本信度叫等值性系数。提问：同时施测的复本信度的误差主要来源于什么？第44页，课件共172页，创作于2023年2月（2）间隔施测相距一段时间分两次施测得到的信度叫做稳定性与等值性系数。提问：间隔施测的复本信度的误差主要来源于什么？第45页，课件共172页，创作于2023年2月4、复本信度局限性①如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；②由于第二个测验只改变了题目的内容，已经掌握的解题原则，可以很容易地迁移到同类问题。③对于许多测验来说，建立复本是十分困难的。第46页，课件共172页，创作于2023年2月（三）分半信度

1、含义含义：按正常的程序实施测验，然后将全部项目分成相等的两半，根据各人在这两半测验的分数计算其相关系数。由于只需对一个测验进行一次施测，考察的是两半题目之间的一致性，所以这种信度系数有时也被称为内部一致性系数。第47页，课件共172页，创作于2023年2月2、计算提问：怎样对测验进行分半？进行奇偶分半时，要注意的问题是:怎样安排互相有牵连的题目。在这种情况下整个一组的题目应放到同一半。第48页，课件共172页，创作于2023年2月（1）两半测验分数的变异数相等（方差齐性）先计算两半测验的积差相关系数，再进行斯皮尔曼－布朗公式校正：rhh为两半分数的相关系数；rxx为测验在原长度时的信度估计提问：为什么求得的分半信度要用斯皮尔曼－布朗公式校正？第49页，课件共172页，创作于2023年2月（2）两半测验分数的变异数不等（方差不齐）当两半测验不等值时，可采用下列公式的两种之一，直接求得测验的信度系数：①弗朗那根公式：Sa2

和Sb2表示两半测验分数的变异数SX2表示测验总分的变异数第50页，课件共172页，创作于2023年2月②卢伦公式：Sd2为两半测验分数之差的变异数；Sx2为测验总分的变异数；r为信度值。提问：怎样理解卢伦公式？第51页，课件共172页，创作于2023年2月

例：有一个由100题构成的量表施测于10个高三学生。测验一次后，应试者即毕业离校。现在怎样评价测验结果的信度？第52页，课件共172页，创作于2023年2月

被试测验12345678910X138373841403638394035X237373639393438393936解：因不能再次测验，只能求分半信度。步骤：（1）计算出每个应试者的奇数题总分（X1）和偶数题总分（X2），见表：第53页，课件共172页，创作于2023年2月解：用计算器求得（也可以用计算机做）：（1）斯皮尔曼－布朗公式（平均数和标准差差异显著性检验略）第54页，课件共172页，创作于2023年2月（2）弗朗那根公式：

第55页，课件共172页，创作于2023年2月（3）卢伦公式：

第56页，课件共172页，创作于2023年2月3、使用的前提条件及范围（1）分半信度通常是只能施测一次或没有复本的情况下使用。（2）由于将一个测验分成两半的方法很多，所以，同一测验通常会有多个分半信度值。（3）当试卷中有任选题时不宜用分半法，速度测验也不宜用分半法。第57页，课件共172页，创作于2023年2月（四）同质性信度

1、含义同质性也指内部一致性，指测验内部所有题目间的一致性。题目的一致性有两层含义：其一是指所有题目都测的是同一种心理特质；其二是指所有题目之间都具有较高的正相关。总之，同质性信度就是一个测验所测内容或特质的相同程度。第58页，课件共172页，创作于2023年2月2、测量同质性的基本公式：K:构成测验的题目数

:项目间相关系数的平均数

:同质性性度值

提问：这个公式说明什么？第59页，课件共172页，创作于2023年2月3、库德-理查逊公式：适用于客观性试题（0、1记分）K-R20公式：

K：构成测验的题目数Pi：通过第i题的人数比例qi：未通过第i题的人数比例Sx2：测验总分的变异数第60页，课件共172页，创作于2023年2月K-R21公式：适用于各项目难度相近的情况

K:构成测验的题目数

:测验总分的平均数Sx2:测验总分的变异数第61页，课件共172页，创作于2023年2月4、克伦巴赫系数：适用于多重记分测验K：构成测验的题目数Si2：某一题目分数的变异数Sx2：测验总分的变异数第62页，课件共172页，创作于2023年2月题号被试Si2

ABCDE1711811113.042697891.3636106892.5648116836.965711811113.046711811113.044062415452例：有一种包含6个论文式题目的测验，对5个应试者施行，得分见下表，试求该测验的信度。第63页，课件共172页，创作于2023年2月解：（1）求每题各被试得分的方差Si2

、方差和（2）求测验总分的变异数即各被试得分的方差（即求40、62、41、54、52的方差），Sx

＝68.96（3）代入公式求信度系数

第64页，课件共172页，创作于2023年2月4、注意：①用库德-理查逊公式和克伦巴赫系数所求得的信度通常比分半信度低。②上面这些公式不适用于速度性测验。提问：同质性信度的误差主要来源于什么？第65页，课件共172页，创作于2023年2月（五）评分者信度1、含义指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。第66页，课件共172页，创作于2023年2月2、方法与计算方法：随机抽取相当份数的试卷，由两个或多个评分者按评分标准打分，然后求其间的相关。(1)两个评分者采用皮尔逊积差相关或等级相关。一般要求经过训练的成对评分者之间的一致性程度达到0.90以上，才认为评分是标准客观的。第67页，课件共172页，创作于2023年2月(2)多个评分者评多个对象，并用等级法计分时，可以用肯德尔和谐系数：W:和谐系数K:评分者的人数N:被评对象数Ri:每一对象被评的等级总和。第68页，课件共172页，创作于2023年2月

论文专家123456A241563B341562C351462Ri813314187例：假设有三位专家给六篇论文评等级，结果如表所示，试计算此次评分者的评分者信度。第69页，课件共172页，创作于2023年2月第70页，课件共172页，创作于2023年2月提问：评分者信度的误差主要来源于什么？第71页，课件共172页，创作于2023年2月以上介绍的各种信度估计方法都是对测验的一致性进行估计，但由于误差来源不同，它们的研究侧面各不相同，说明的是信度的不同方面。这些方法具有不同的意义，每一种信度系数不能代替其他信度系数。第72页，课件共172页，创作于2023年2月估计信度的方法与测验复本的数目

以及施测次数的关系所需要施测的次数所需要复本的数目一二一分半信度同质性信度评分者信度复本信度（连续施测）二再测信度复本信度（间隔施测）第73页，课件共172页，创作于2023年2月各种信度系数相应误差变异的来源信度系数的类型误差变异的来源再测信度复本信度（连续施测）复本信度（间隔施测）分半信度同质性信度评分者信度时间取样内容取样时间与内容取样内容取样内容的异质性评分者间的差异第74页，课件共172页，创作于2023年2月提问：在理论上，哪种方法得到的信度系数最高？哪种最低？第75页，课件共172页，创作于2023年2月实际上，有多少种误差来源，便有多少种估计信度的方法。一个测验哪种误差大，便应该用哪种误差估计。有时一个测验需要几种信度系数，这样我们就能把总分数的变异数分成不同的分支。第76页，课件共172页，创作于2023年2月假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A、B复本，所得到的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数,将二者平均后用斯皮尔曼-布朗公式校正)。同时，我们让另一个评分者随机抽取50份卷另外评分，得到的评分者信度为0.92。那么，这个测量的总误差变异是多少？真实的变异是多少？第77页，课件共172页，创作于2023年2月一个假想测验的误差变异来源分析信度类型误差变异量误差变异来源复本信度（间隔施测)1-0.70=0.30时间与内容取样分半信度1-0.80=0.20内容取样上述二者差异0.30-0.20=0.10时间取样评分者信度1-0.92=0.08评分者差异误差变异总和0.20+0.10+0.08=0.38真实变异1-0.38=0.62第78页，课件共172页，创作于2023年2月一个假想测验的误差变异来源分析真实变异误差变异时间上的稳定性，复本之间的一致性，评分者之间的一致性内容取样误差时间取样误差评分者间差异62%20%10%8%第79页，课件共172页，创作于2023年2月注意：信度虽然是测验的特性，但不能笼统地说某个测验的信度有多高。只能说在特定的条件下，用于特定的团体，采用特定的方法所得到的某个测验的信度系数是多少。总之，信度总是与特定的情境有关的。第80页，课件共172页，创作于2023年2月三、信度的应用（一）评价测验（二）解释分数第81页，课件共172页，创作于2023年2月（一）评价测验一般能力与成就测验的信度系数在0.90以上，有的可以达0.95，性格、兴趣、价值观等人格测验的信度系数，通常在0.80到0.85或更高些。

第82页，课件共172页，创作于2023年2月（二）解释分数１、个人测验分数的误差用一组被试两次施测的结果来估计测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差，由此可制成误差分数的分布。这个分布的标准差就是测量的标准误，是表示测量误差大小的指标。

提问：测量的标准误与信度间有什么关系？第83页，课件共172页，创作于2023年2月测量的标准误实际上是在一组测量分数中误差分布的标准差，可以像其它标准差一样地解释。我们可以根据标准误从每个人的实得分数估计出真分数的可能范围，即确定出在不同或然率水准上真分数的置信区间。人们一般采用95％的或然率水准，其置信区间为：

(X-1.96SE)≤T≤(X+1.96SE)

第84页，课件共172页，创作于2023年2月例题：在一次测验中有些学生得80分，如果再测一次他们的分数将改变多少?已知该次测验的标准差为5，信度系数为0.84。第85页，课件共172页，创作于2023年2月注意：（1）SE对真分数做的是区间估计，不可能由此得到一个确切的点。（2）置信水平确定后，估计的精度主要取决于SE，SE越小，范围越小，估计就越精确。（3）真分数不能等同于真正能力或心理特质，当系统误差对施测分数产生影响时，用此方法估计出的真分数并非代表被试的真正能力或特质，因此我们应该选择效度较高的量表，减小系统误差。第86页，课件共172页，创作于2023年2月２、两种测验分数的比较为了说明个人在两种测验上表现的优劣，我们可用“差异的标准误”来检验其差异的显著性，常用的公式如下：如果两种分数的差异达到或超过.05的显著水平，始能认为二者真有差异。第87页，课件共172页，创作于2023年2月例题：某被试在韦氏成人智力测验中言语智商为102，操作智商为108。已知两个分数都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢？第88页，课件共172页，创作于2023年2月四、标准参照测验的信度估计思考题：为什么以上介绍的估计信度的方法不适用于标准参照测验？第89页，课件共172页，创作于2023年2月1、对相关法信度系数进行校正利文斯顿公式：第90页，课件共172页，创作于2023年2月2、用决策的一致性作为信度指标林德曼与梅伦达的一致性公式：C为一致性，n为在两次施测中均未达标的人数，b为在两次施测中均已达标的人数，f为只在第一次施测中达标的人数，s为只在第二次施测中达标的人数，v为f或s中较小的值。第91页，课件共172页，创作于2023年2月五、影响信度的因素（一）被试的样本当一个测验用于比常模团体更为同质的团体时，要重新确定测量的信度：第92页，课件共172页，创作于2023年2月例题：一个测验应用于全体小学生团体的样本（常模团体），其分数的标准差为10，信度系数为0.90，假如将此测验应用于小学五年级，其分数标准差为5。其信度系数应为多少？第93页，课件共172页，创作于2023年2月（二）测验的长度测验的长度也是影响信度系数的一个因素。这是因为：1、测验越长，测验的测题取样或内容取样越有代表性，可以更好地反映被试的真实水平。2、测验的项目越多，在每个项目上的随机误差就可以相互抵消。第94页，课件共172页，创作于2023年2月增加测验长度的效果可以用斯皮尔曼-布朗公式的通式来计算：第95页，课件共172页，创作于2023年2月例题1：假设有一个包括10个题目的测验，信度为0.50，若把测验增加到50个题目，其信度将增加到多少？例题2：一个包含50个题目的测验信度是0.75，欲将信度提高到0.90，需要增加多少题目？第96页，课件共172页，创作于2023年2月注意：只有当新题目与原题目选自同一总体，即与原题目具有同质性时，增长测验才能改进信度。第97页，课件共172页，创作于2023年2月（三）测验的难度难度对信度的影响只存在于某些测验中，如智力测验、成就测验、能力倾向测验等。提问：从理论上讲，测验处于什么难度时，所得的信度系数最大？为什么？第98页，课件共172页，创作于2023年2月当测验过难而且题目允许猜测时，被试会对许多题目作随机反应——瞎猜，这样我们就无法对其分数置信。洛德提出了在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五选题:0.70四选题:0.74三选题:0.77是非题:0.85第99页，课件共172页，创作于2023年2月第三节测量的效度一、什么是效度二、效度和信度的关系三、效度的类型及评估方法四、标准参照测验的效度五、影响效度的因素六、对各种效度系数的要求第100页，课件共172页，创作于2023年2月一、什么是效度定义：效度指的是测量的有效性和正确性，即一个测验能够测量出其所要测量的东西的程度。

效度和信度一样，也是一个相对的概念。这种相对性表现在两个方面：①效度是相对于一定的测量目的而言的。②效度只有程度上的差异。第101页，课件共172页，创作于2023年2月在测量学中，效度被定义为：在一组测量中，与测量目的有关的变异（或称有效变异）与实得变异数（总变异）的比率。即：一个测验的效度表明：在一组测验分数中，有多大比例的变异数是由测验所要测量的变因引起的。第102页，课件共172页，创作于2023年2月该定义有两点要注意：１、和信度一样，效度也是指的是一组测验分数或一列测量的特性，而不是个人分数的特性。２、由于有效变异是一个理论值，无法测量，所以效度和信度一样是一个理论上构想的概念，第103页，课件共172页，创作于2023年2月SV2SI2SE2SX2ST2

二、效度和信度的关系思考：效度受随机误差的影响还是受系统误差的影响？第104页，课件共172页，创作于2023年2月（一）信度是效度的必要而非充分条件。（二）效度是受信度制约的。第105页，课件共172页，创作于2023年2月三、效度的类型及评估方法（一）内容效度（二）构想效度（三）效标效度

第106页，课件共172页，创作于2023年2月（一）内容效度1、定义：指项目对欲测的内容或行为范围取样的适当程度。第107页，课件共172页，创作于2023年2月一个测验要具备较好的内容效度必须满足的条件：（1）要确定好内容范围，并使测验的全部项目均在此范围内。（2）测验题目应是所界定的内容范围的代表性取样。代表性取样，就是选出的项目能包含所测的内容范围的主要方面，并且使各部分项目所占比例适当。第108页，课件共172页，创作于2023年2月2、内容效度的评估方法（1）专家判断法请有关专家对测验题目与原定内容范围的符合性做出判断。这是一种定性分析的方法。第109页，课件共172页，创作于2023年2月步骤：①定义好内容总体。②划分细纲目，并根据重要性规定好各纲目的比例，对内容范围作尽可能详尽的描述。③确定每个题目所测的内容与技能，并与测验编制者所列的双向细目表对照，逐题地将自己的分类与编制者的分类作比较。④制定评定量表，对测验作出总的评定。第110页，课件共172页，创作于2023年2月（2）复本法克伦巴赫认为，内容效度可由一组被试在取自同样内容范围的两个测验复本上得分的相关来作数量上的估计。（3）再测法先将测验施测于某个团体，该团体对测验所包括的内容仅具有最少量的知识，因而得分很低。然后，让这个团体参与者有关材料的学习和训练，结束后将测验再测一次。第111页，课件共172页，创作于2023年2月（4）经验法检查不同年级的学生在测验上的得分和在每个题目上的反应情况。测验总分和题目通过率随着年级而增高，就是测验具有内容效度的证据。第112页，课件共172页，创作于2023年2月3、内容效度的局限思考：内容效度的主要缺点是什么？内容效度缺乏可靠的数量指标，因而妨碍了各测验间的相互比较。第113页，课件共172页，创作于2023年2月4、内容效度的应用（1）是编制任何测验应加以考虑的基本方面。（2）对标准参照测验更为重要。（3）内容效度也适用于某些对员工选拔和分类的职业测验。（4）内容效度对于能力倾向测验和人格测验一般是不适用的。第114页，课件共172页，创作于2023年2月（5）在实际应用中，注意内容效度容易和表面效度混淆。表面效度就是外行人从表面看这个测验是否有效。表面效度不是效度的客观指标，它虽然不能保证测量的正确性，但能对被试的动机产生影响，因而也会影响到效度。第115页，课件共172页，创作于2023年2月（二）构想效度1、定义构想——心理学理论所涉及的抽象而属假设性的概念或特质，它们往往用某种操作来定义并用测验来测量。构想效度——测验对某一理论或特质测量的程度，也叫结构效度或构思效度。第116页，课件共172页，创作于2023年2月2、确定构想效度的基本步骤（1）从某一理论出发，提出关于某一心理特质的假设。（2）根据假设设计和编制测验并进行施测。（3）对测验的结果采用相关或因素分析等方法进行分析，验证与理论假设的相符程度。注意：构想效度是由累积的证据来评价的，因而不可能有单一的效度指标。第117页，课件共172页，创作于2023年2月

3、确定构想效度的方法

有关构想效度的资料可以用很多方法从不同来源去搜集，归纳起来有以下几种：测验内法测验间法效标关联法实验操作法第118页，课件共172页，创作于2023年2月（1）测验内法这类方法主要是研究测验内部构造，如测验内容、对题目作反应的过程、以及测验的同质性等等来分析测验的构想效度。第119页，课件共172页，创作于2023年2月①确定测验的内容效度测验的内容效度有时可以作为测验的构想效度的证据。对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测的构想的性质。第120页，课件共172页，创作于2023年2月②分析被试对题目做反应的过程通过观察被试的操作，询问他如何处理题目，以及必要的统计分析，可发现哪些变量影响了反应，因而可确定测验是否测量了所要测的特质。第121页，课件共172页，创作于2023年2月③考察测验的同质性这种方法是以测验的内在一致性系数（如K－R20，K－R21，以及系数等）为指标，判断测验测的是单一特质还是多种特质，从而确定测验构想效度的高低。从测验的一致性可以为构想效度提供证据。第122页，课件共172页，创作于2023年2月（2）测验间法通过研究几个测验间的相互关系，找出它们的共同特点，进而推断出所测的共同特质是什么，便可确定这些测验是否有构想效度。第123页，课件共172页，创作于2023年2月①相容效度计算被试在新测验上的分数与另一个效度已知的同类测验上的分数之间的相关。假如相关高，说明这两个测验测的是相同特质。由于相关系数的平方代表两组测验分数所共有的变异数比例，所以这种方法所确定的效度称为相容效度。第124页，课件共172页，创作于2023年2月②区分效度一个有效的测验不仅应与其他测量同一构想的测验有较高的相关，而且还应与测量不同构想的测验具有低相关。用这种方法确定的效度叫做区分效度。第125页，课件共172页，创作于2023年2月③因素效度通过对一组测验进行因素分析，可以找到影响测验分数的共同因素。每个测验与各因素的相关，称做是测验的因素效度。而在测验分数的总变异数中来自有关因素的比例，便可作为构想效度的指标。第126页，课件共172页，创作于2023年2月（3）效标关联法通过考察一个测验的效标效度来了解该测验的构想效度。第127页，课件共172页，创作于2023年2月第一种方法：我们可以根据效标选取不同的被试，组成对照组，然后比较两组被试的测验成绩，看测验分数能否把他们区分开来，如果能把他们区分开来，就说明这个测验测量的是所要测的构想。

第128页，课件共172页，创作于2023年2月第二种方法：我们可以根据测验分数把被试分成高分组和低分组，然后比较两组被试的行为特点。如果这些特征与定义的构想相符，就说明该测验具有构想效度。第129页，课件共172页，创作于2023年2月（4）实验操作法通过实验操作控制某些条件，观察其对测验分数的影响，也可以获得构想效度的信息。

如：我们假设将“考试焦虑”定义为“当考试结果对个体有重大意义时的一种害怕失败的紧张情绪”，这是一个构想。现在有一个焦虑测验，我们想考察一下这个测验对测量考试焦虑是否有构想效度，为此可以设计以下几种实验情境：第130页，课件共172页，创作于2023年2月第一种：在一场决定前途命运的重要考试之前施测焦虑测验，将其分数与平时接受焦虑测验的分数比较。第二种：举行两种考试，使被试相信一场考试关系重大，一场考试无关紧要，然后将考试结果与焦虑测验分数比较。第三种：搜集被试在经历一场重大考试时的生理心理参数（如脉搏、血压等）作为焦虑的指标，将其与焦虑测验分数比较。第131页，课件共172页，创作于2023年2月4、对构想效度的评价（1）缺点①有些构想概念模糊，没有一致的定义。②确定效度时没有明确的操作步骤和程序。③没有单一的数量指标来描述有效的程度。第132页，课件共172页，创作于2023年2月（2）优点构想效度促使研究者把着眼点放在提出假设上、检验假设上，使得测验成为理论研究的重要工具，而不再只是实际决策的辅助工具，从而使测验有了更广阔的发展情景。第133页，课件共172页，创作于2023年2月（三）效标效度1、定义被预测的行为是衡量测验是否有效的参照标准，就是效标。效标效度就是考查测验分数（预测源）与效标的关系，看测验对我们感兴趣的行为预测得如何。因为效标效度需要有实际证据，所以又叫实证效度。第134页，课件共172页，创作于2023年2月2、分类①同时效度，即测验分数与效标资料同时获得。这种效度通常与心理特征的评估及诊断有关。②预测效度，效标资料需过一段时间才可以搜集到。这种效度对人员的选拔和安置工作非常重要。“某人成功了吗？”

“某人得精神病了吗？”

“某人会成功吗？”

“某人会得精神病吗？”

第135页，课件共172页，创作于2023年2月3、效标和效标测量（1）效标——衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为,就是要预测的行为。第136页，课件共172页，创作于2023年2月（2）常用的效标①学业成就②等级评定③临床诊断④特殊训练的成绩⑤实际工作表现⑥对团体的区分第137页，课件共172页，创作于2023年2月（3）效标测量效标可以分为两个层次：其一是理论水平的观念效标；其二是操作定义水平的效标测量。观念效标是一个概念，效标测量是对观念效标的数量化。第138页，课件共172页，创作于2023年2月效标测量必须具备以下几个条件：①有效性效标测量必须要能真正反映观念效标，即效标测量本身必须有效。②可靠性效标测量还必须稳定可靠，也就是具有较高的信度。第139页，课件共172页，创作于2023年2月③客观性当效标测量是主观评定时，可能受到评定者主观印象和成见的影响而引起偏差。因此，采用判断性的效标测量，必须控制偏见，尽量使评定过程客观。效标污染，是指个人的效标成绩由于评定者知道其测验分数而受到影响的情况。④实用性在保证有效性的前提下，最佳的效标测量应该是用法简单、省时、花费少，也就是经济实用。第140页，课件共172页，创作于2023年2月4、效标效度的估计方法效标效度是通过考察测验分数与效标的经验关系确定的，一般都可以通过统计分析得到一个数量指标，因此有人又叫它统计效度。具体有以下几种估计方法：（1）相关法（2）分组法（3）预期表法（4）命中率法（5）功利率法第141页，课件共172页，创作于2023年2月（1）相关法确定效标效度最常用的方法是计算测验分数与效标测量的相关，所得到的数量指标叫做效度系数。

第142页，课件共172页，创作于2023年2月①积差相关当测验分数和效标分数都是正态连续变量，且两种存在线性相关时。第143页，课件共172页，创作于2023年2月

被试1

10测验分数X销售数Y30

3247

162.53.8

0.7

2.2

3.5

2.8

1.2例题：假如有10名男性经职业兴趣测验而被选定作为推销员，其测验分数见下表，而第二行是经过若干年后他们某段时间内销售金额总量（以万元为单位）。试求该测验的预测效度。第144页，课件共172页，创作于2023年2月②二列相关当测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成两类。第145页，课件共172页，创作于2023年2月例题：352名被试参加一项智力测验，其中重点中学学生66名，IQ平均数为114；一般中学学生286名，IQ平均数为96。全体被试的IQ标准差为14.53。试求该智力测验的效标效度。第146页，课件共172页，创作于2023年2月③点二列相关测验分数是正态变量，且是连续变量，效标测量是二分名义变量（以是否达到某一标准表示）。第147页，课件共172页，创作于2023年2月④多系列相关多系列相关适用的情况是，测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成多种类别。若效标测量被分成三类，就称为三列相关，若被人为地分成四类，就称为四列相关。第148页，课件共172页，创作于2023年2月例：对某班学生进行学习能力测验，并让班主任对学生进行成绩评定，以此为学习能力测验的效标。学习能力测验分数的标准差为10分，教师评定情况如下，D等20人，C等30人，B等30人，A等20人。其中D等学生的学习能力测验平均分数为30分，C等学生的学习能力测验平均分数为45分，B等学生的学习能力测验平均分数为55分，A等学生的学习能力测验平均分数为70分。试分析该能力测验的效度。第149页，课件共172页，创作于2023年2月求这类相关可用贾斯朋（jaspen）多系列相关公式计算:Pi为效标属于不同等级的人数占总人数的百分比，Xi为与不同等级对应的测验分数的平均数，St为测验分数的标准差，yi为效标的每一个等级所对应的下限的正态曲线的高度，yk为上限所对应的正态曲线的高度。第150页，课件共172页，创作于2023年2月相关法的优点：①提供了一个统计指标以总结预测源和效标间的关系；②可利用回归方程来预测每个人的效标分数。缺点：①假如预测源和效标的关系不是直线性的，则必须采用特殊的相关方法；②测验结果不能提供有关取舍正确性的指标。第151页，课件共172页，创作于2023年2月（2）分组法是检验测验分数能否有效地区分由效标测量所定义的团体。和为成功组与不成功组的平均测验分数；Ss和Su为两组测验分数的标准差；Ns和Nu为两组的人数。第152页，课件共172页，创作于2023年2月注意：组间平均数差异在统计上的显著性取决于团体的大小。为避免这一缺点，还要计算这两个分布的重叠量。重叠量可用两个指标来表示：①每一组内得分超过或低于另一组平均数的人次百分比；②两组分数分布共同区的百分比。重叠量越大，说明两组差异越小。第153页，课件共172页，创作于2023年2月（3）预期表法预期表法是将测验源分数和效标分数制成双维图，并将每个变量按水平分成若干个档次，然后列出每个档次上的人数百分比。第154页，课件共172页，创作于2023年2月（4）命中率法是当测验用来做取舍的依据时，其有效性的指标就是正确决定的比例。第155页，课件共172页，创作于2023年2月

失败（-）

成功（+）

成功（+）A（失误）B（命中）

失败（-）C（命中）D（失误）效

标

成

绩

测验

预

测

命中表命中率的计算有两种方法:一是计算总命中率，另一种是计算正命中率：第156页，课件共172页，创作于2023年2月例:假设用某种测验选拔员工100人，经过一段时间的工作检验，得到以下四组数

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

测量的误差及其检验

文档简介

温馨提示

最新文档

评论

测量的误差及其检验

文档简介

温馨提示

最新文档

评论

相关文档