测量的理论第五章信度_第1页
测量的理论第五章信度_第2页
测量的理论第五章信度_第3页
测量的理论第五章信度_第4页
测量的理论第五章信度_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三篇测量的理论,信度效度项目分析量表与常模,第五章信度,同一个人一天中用同一称称体重多次,结果(单位:公斤)是:55;40;62;45;55;49;82;46;60;53此人的体重是多少?,第一节测量误差及其来源一、测量误差的含义:测量值与实际值的差异二、测量误差的种类()系统误差:测量工具本身引起的误差(稳定)。()随机误差:由不稳定因素引起的误差(不稳定)。,第二节真分数及其有关的假设,一、真分数的含义()真分数(TrueScore):一个测量工具在没有测量误差时所得到的真值。()操作定义:无数次测量结果的平均值。观察分数(ObservedScore):测验分数,二、真分数的数学模型及其假设对一个测验成绩(个体)而言X=T+EX:测验分数;T:真分数;E:测量误差真分数理论的基本假设():误差的平均数为0误差分数与真分数之间的相关为0;两次测量的误差分数之间的相关为0。,对于一个团体来说,SX2=ST2+SE2实得分数变异数真分数的变异数误差变异数(随机误差)ST2=SV2+SI2真变异数与测量目的有关的变异数与测量目的无关的稳定的变异数(系统误差)SX2=SV2+SI2+SE2,SX2,ST2,第四节信度(reliability)概述,一、什么是信度?信度是指测量结果的可靠性程度。操作定义:一组测量分数的真变异数与总变异数(实得变异数)的比率。rxx=ST2/Sx21SE2/SX2rxx:信度系数决定系数是真分数与实测分数相关系数的平方,标志着因变量能以自变量解释的比例部分。误差越小,信度越高。,注意:(1)信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;(2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。,信度系数,注意:(1)信度系数有多种。(2)同一种信度系数也会因样本、测查时间不同而有多个。(3)信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。(4)获得较高的信度只是测验有效的必要条件。,二、测量误差的来源(),(一)测量工具(测验内部)引起的误差1.题目取样2.测验题目格式3.难度4.指导语5.时限,(二)由施测过程引起的误差物理环境主试因素意外干扰评分计分,(三)被试引起的误差应试动机测验焦虑生理因素学习、发展和教育测验经验,三、信度的作用1评价测验:信度是测量过程中所存在的随机误差大小的反映2解释个人测验分数的意义SE:标准误Sx:所得分数的标准差rxx:测验的信度真分数的置信区间(95%),3不同测验分数的比较来自不同测验的原始分数无法直接比较。只有参照同一团体的平均分数,将它们转换成相同尺度的标准分数(T、Z),才能比较。要比较个人在两种测验上的差异,用差异标准误来检验其差异的显著性。差异标准误S:标准分数的标准差rxx、ryy:两个测验的信度系数标准分数的差异与1.96SEd(0.05水平)进行比较。=0.90人格测验:0.80教师自编学绩测验:0.60,第六节概化理论简介,()经典测验理论(CTT)中信度存在的问题:严格平行测验假设难以成立。要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景中很难满足。信度系数往往随测量设计的不同而不同,误差难于控制,也不能有效地分离误差的来源。误差变异并非单一的结构,经典测量理论对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺陷。,概化理论的提出,克龙巴赫(Cronbach)等率先提出了概化理论(GeneralizabillityTheory)的基本框架;运用对方差或协方差分量分解的方法,将测验情景中的各类误差进行分解和控制,实现了对经典测量理论的扩展;用于评分者信度的估计、临界分数误差估计、测验分数的推广性和标准参照测验的信度研究中。,克龙巴赫认为,获取的测验观察分仅仅只是可获取的测验观察分总体分数中的一个样本而已,因此,测验的编写者有责任说明对这个获取的观察分所来自的观察分总体分数(总体分)应如何认识。从统计上说,总体分实际上就是所有观察分的平均数。在一个具体的测验条件下,如一个特定的场合、一个特定的主试以及被试在一个特定的测验形式上所获取的观察分,还有推测出来的总体分,与在另一个测验情形下所产生的观察分及其总体分相比较,一般说来两者总是不一样的。测验编写者在指定了可获取的总体分之后,应对该测验进行一般化研究(即G研究)和决策研究(即D研究)。,一、GT的基本原理和概念,(一)测量情景关系是“测什么”和“怎么测”的总和。在概化理论中,测量情景关系是由测量目标(ObjectOfmeasurement)和测量侧面(facetofmeasurement)构成的。,()测量目标是指“测什么”,即研究者希望描述的实体属性(如:能力、成就、教学质量)。()测量侧面是指“怎么测”,指一组特定的测量条件,包括影响测量目标观察值的各种因素(测量工具、测量环境、测量过程、评分专家,以及观察的场合、情景、时间等等)。各个测量侧面又可分为不同的水平每个侧面都对测量结果有影响,是测量误差的来源。,例:每个被试写两篇题目不同的短文,由三个评分者给所有短文评分。测量目标:被试的写作水平测量侧面:题目(2)、评分者(3),GT的主要任务():区分出误差的各种来源,并把误差方差分解成各个相应的方差分量,为控制和减少测量误差提供依据。,(二)在概化理论中用可靠性(dependability)的概念代替了传统信度的概念。可靠性指的是从一个测验或是测量的被测者得分到施测者同等程度接受的所有可能条件下被测者均分的概化的精确性,即从测量对象在样例测量上的得分到全域分的概化精确性。概化越精确,越能从一个测量或测验的情况来推断观察全域的情况。,(三)G研究和D研究,1、G研究目的:辅助设计一项具有充分概化力的D研究,G研究的设计需要预计到测量的不同用途和目的,并且应该提供尽可能多的测量变异来源的信息。()主要工作:用方差分析等方法来估计方差分量,为D研究提供分析数据。GT把观察分数的总体方差分解成测量目标方差、侧面方差、各种交互作用方差、以及(交互作用与其他不明变异来源的混杂效应的)残差方差。,求出一个测验在各种不同的因素(如时间、主试、测验形式及测验情境等)条件下,在各种不同能力水平上测验得分的方差,并通过对方差的分析,求出该测验的概化系数,测验使用者就可以由测验的观察分通过线性回归的方法而求出相应的总体分。,对被试在项目上的得分为测量对象,项目为测量侧面的话,这一组测量有四种误差来源:(1)被试的爱好、兴趣、思维等各方面的特质及能力的系统误差,称为被试效应(subjecteffect)或是测量对象效应(theeffectofobjectOfmeasurement);(2)项目的难度差异,称为项目效应(itemeffect);(3)项目对被试的相对难度,如对某个被试来说相当简单的项目可能对另一个就显得十分地深奥,由此带来的误差被称为项目和被试的交互作用(theinteractionbetweensubjectanditem);(4)随机误差(如被试在被观察时注意力的暂时转移等)和其它的一些没有定义和未知的误差来源。在概化理论中第三种和第四种误差来源往往是很难区分的,这种现象叫做混杂(confound)”。,()随机平行假设(代替“严格平行测验假设”):从全域里随机抽取出的样本是平行的。所进行的测量是观察全域中的一个样例,也就是从观察全域中随机抽取出来的,观察全域的所有测量即使有差异,可通过随机抽样的原则来排除。比要求每次测量都完全等同的“完全平行测验”假设更容易实现。,可接受观察全域越广,G研究能估计的方差变量就越多。GT用方差分量估计值在总体方差中所占的百分率来解释方差分量的大小。,2、D研究为决策或解释收集数据。首先,界定概化全域(包含把研究成果推广而至的所有侧面、及其水平数)。然后,明确对测量结果是作相对决策,还是绝对决策,以便研究相应的测量误差和概化系数。最后,用G研究所得到的方差分量估计值来评价各种可能的D研究设计方案的效果,从中选出最佳的设计,使测量误差趋于最小。,两个误差指标用于相对决策的相对误差方差:每个侧面与测量目标之间交互作用的方差变量之和。用于绝对决策的绝对误差方差:除测量目标之外的、包括所有交互作用的方差分量以及各侧面的方差分量之和。,GT的研究过程,假设:G研究和D研究的测量条件来自同一个全域。根据D研究可能的设计方案进行G研究,包括设定可接受的观察全域、进行方差分析等。进行D研究,运用G研究提供的方差分析结果估计各种可能的设计方案相应的误差方差和G系数或系数。最后结合实际情况选择一个最适宜的D研究方案。,第六章效度,一、效度概述二、效度的估计三、影响效度的因素四、效度的应用,一、效度概述,1、什么是效度效度(validity)是指测量的有效性,即一个测验对所要测量的心理特质准确测量的程度。说明:(1)效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质通过外显行为间接测得。(2)效度是测量的随机误差和系统误差的综合反映。(3)判断一个测量是否有效要从多方面收集证据,操作定义:效度=SV2/SX2=rXY,SX2,ST2,实得分数的变异数真分数的变异数误差变异数(随机误差)真变异数与测量目的有关的变异数与测量目的无关的稳定的变异数(系统误差),2、效度与信度的关系(1)信度高是效度高的必要而非充分条件一个测验效度高,其信度也必然高;但一个测验信度高,其效度不一定高。(2)测验的效度受它的信度制约rXYrXX一个测验的信度必然比效度高,至少相等。,二、效度的估计,(一)、内容效度(2)1、contentvalidity是指测验项目对欲测的内容或行为范围取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。一个测验要有内容效度必须具备两个条件:要有确定好内容范围,项目均在此范围内。测验题目应是所界定的内容范围的代表性取样。(双向细目表),应用范围:教育成就测验,职业选拔测验。(标准参照测验)不适用于:评价:优点:缺点:缺乏可靠的数量指标,妨碍测验间比较。,2内容效度的确定方法,(1)专家判断法(逻辑分析法)(3)专家根据自己的知识经验对测验项目与所涉及的内容范围进行符合性判断。定性分析,具体步骤:确定测验内容的总体范围;并描绘出有关知识与技能的轮廓。划分细纲目,并根据重要性规划好各个纲目的加权比例。确定每个项目所测的知识与技能,将自己的分类与测验编制者的纲目作比较。编制评定量表。从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。,(2)复本法(3)用两个测验复本来测同一批被试,用测验的相关来进行估计。若相关高,则内容效度可能高,也可能有相同误差。若相关低,则必有一个测验缺乏内容效度。,(3)再测法前测教学后测如果后测成绩优于前测成绩,说明该测验对于教学具有一定的内容效度。,(4)经验法不同的被试团体在测验上的得分和对每题的反应存在较大差异。如:不同的被试团体:高年级低年级测验上的得分和对每题的反应:总分和题目的通过率。若一致,则:效度高,2、结构效度,structurevalidity是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。特点:(1)具有不同理论构思的测验,其结构效度无法进行比较;(2)结构效度有时很难获得;(3)结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。,结构效度的确定方法,结构效度确立的一般步骤:(1)提出理论框架;(2)依据理论框架推演出有关测验成绩的假设;(3)用逻辑或实证的方法来证明假设。,具体方法:(1)测验内部寻找证据法分析测验的内容效度:若内容效度高,说明其结构效度也高。分析被试对题目反应的特点:有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。计算测验的同质性信度:分半信度、系数、KR20、KR21,(2)测验之间寻找证据法相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。因素分析法:得出的因素符合理论的构思,说明效度高。,(3)考察测验的实证效度法根据效标把被试分组,考察其得分差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。,(4)实验操作法控制某些实验条件,观察其对测验分数的影响。如:平时的焦虑测验分数重大考试前焦虑测验分数,3、实证效度,含义、种类及作用实证效度是指一个测验对处于特定情境中的个体行为进行预测的有效性。效标(criterion):被预测的行为是检验测验是否有效的标准。实证效度又称效标关联效度(criterion-relatedvalidity)。,常用的效标,学业成就(智力)临床诊断(人格)实际工作表现(职业倾向)特殊训练成绩(成就)不同团体的总体表现(智力)先前有效的测验等级评定,阿斯丁把效标分为两个层次:观念效标:效标的理论定义,如“大学的成功”。效标测量:效标的操作定义,效标测量必须能真正反映观念效标。如大学成绩,效标的特性,a.多样性:一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。b.复杂性:几乎每一种效标行为都由多种特质构成,包含复杂的成分。c.特殊性:即使一个普通的效标,在应用时也有特殊性。d.时间性:近期效标与最后效标,好的效标测量的条件,a.有效性:效标测量能真正反映观念效标。b.可靠性:有较高的信度c.客观性:效标测量必须能真正反映观念效标,防止效标污染。效标污染(criterioncontamination)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。d.实用性:经济实用,实证效度的种类,同时效度(concurrentvalidity):测验分数与效标资料是同时收集的。预测效度(predictivevalidity):先获得测验分数,隔一段时间后,再收集效标资料。,B、实证效度的确定方法,(1)相关法测验分数与效标测量之间的相关系数。优点:数量化;可用回归方程进行个人效标预测缺点:要求预测源与效标呈线性关系;无法提供关于取舍正确性的指标,(2)分组法分组依据:根据效标测量成绩分组。考察:测验分数能否区分由效标测量所定义的不同的团体。估计方法:测验(高考)工作(教学)效标测量(学习成绩),如:按学习成绩分高低两组:如果高考成绩高,效标测量得分也高;高考成绩低,效标测量得分也低说明:该测验是有一定效度的。,(3)预期表法方法:把预测源分数和效标分数制成双锥图表,每个变量按水平分成若干档次,然后列出每个档次上的人数百分比。如:,(4)命中率法应用范围:预测源和效标都是二分的。,强调社会公平时使用,总命中率=(B+C)/(A+B+C+D)当测验用于提高工作或学习效率时使用,正命中率=B/(A+B),(5)功利率比较使用测验所需的费用和所得到的收益,看是否利大于弊。一个测验如果简单易行,省时省钱,不经过特殊训练的人也能掌握,又适合于团体施测,那么,即使效度低一些,也会有人使用。反之,只有效度极高,能给人带来很大好处时,才会使用。,4、标准参照测验的效度,标准参照测验:主要用于检验学习效果,看对指定的内容范围掌握得如何或是否达到某种标准。衡量标准参照测验的主要指标:内容效度,三、提高测量效度的方法,1、影响测量效度的因素A测验的构成项目的质量项目数量测验长度与效度的关系:n测验增长倍数,B测验的实施过程C被试身心特点:样本特点:常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。,D效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论