心理测量第三讲_第1页
心理测量第三讲_第2页
心理测量第三讲_第3页
心理测量第三讲_第4页
心理测量第三讲_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

测验的信度,主讲:刘润香,如果一个秤今天和明天秤的结果不一样,我们就不会相信这个秤,认为这个秤有问题类似的,如果一个心理测验多次测量的结果不稳定或者不一致,那么也不会有人去用这个测验。,信度的概念,一般定义:信度:即测验的可靠性,指的是测验所得结果的一致程度。它是衡量测验质量好坏的最基本指标。,信度的指标,信度系数rxx信度指数rxT测量标准误SE,信度系数,经典测量理论的假设:X=T+E.X为实得分数,T为真实分数,E为随机误差分数。可以转换为:S2x=S2T+S2E.信度定义:信度是一组测验分数的真分数方差与总方差(实得分数方差)的比率,即rxx=S2T/S2x=1-S2E/S2x,信度指数,r2xT=S2T/S2x,rxT即为信度的第一种表示信度指数。但这里S2T无法求取。对同一被试反复施测无数次,或用无数个相等的测验对同一被试反复施测无数次,从而一个被试可以得到无数个分数,这无数个分数的平均值为真实分数T,标准差即为测量的误差方差,它也是信度的第二种表示。这里对一个被试能不能反复施测无数次?,测量标准误,SE=Sx(1-rxx)1/2测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大,信度评估的方法,根据反映测验误差的不同来源,可分:重测信度考察跨时间的一致性。复本信度考察跨内容的等值性。内部一致性考察题目的同质性。评分者信度考察评分的一致性。注意:信度估计方法不只上面几种,实际上有多少误差来源,便有多少估计信度的方法。原则上一个测验哪种误差大,便采用哪种估计方法,有时甚至需要有几种信度系数。,重测信度,定义:即使用同一测验,在同样条件下对同一组被试者前后施测两次,求两次得分间的相关系数,又称稳定性系数。计算方法:重测法。A1A2,求r12。使用条件:(1)所测心理特质是稳定的(气质、性格、兴趣、态度);(2)遗忘和练习效应基本抵消;(3)两次施测间隔内,被试没有得到更多的学习、练习(动态测验),2-4周,注意事项:(1)报告重测信度要报告两次施测间隔时间。(2)两次测量之间最适宜的时距:随测验的目的、性质和被试特点而异,一般是两周到四周为宜,间隔时间最好不超过六个月。(不能太短,使得记忆或练习效应得以消退;不能过长,以避免被试心理状态受到成熟、历史性变化的影响),复本信度,等值性系数:AB(反映测验内容引起的误差)定义:是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试在两个测验上得分的相关系数。施测方法:将被试随机分成两半,一半被试先做A,再做B;另一半先做B,再做A,合并两个A和B的数据求相关。稳定性与等值性系数。AB两个复本的施测相隔一段时间。,计算:类同重测信度,两次测验上得分的积差相关系数。使用条件:(1)编制两份平行测验(很难编)(2)被试有条件接受两次测验注意事项:(1)稳定等值性系数需报告施测间隔时间(2)依然存在练习/记忆效应(如:同一类型的题,解题策略相同)PS:重测信度和复本信度都不适合难度测验。,分半信度,分半信度:1/2A1/2A定义指在测验实施后,将测验按奇偶性分成两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。属于内部一致性系数中的一种,反映的是两半测验间的一致性。校正原因:测验长度变短,易低估测验的信度;公式:rxx=2rhh/(1+rhh),使用前提:测验能被分成两半(如语文、韦氏智力测验就很难分半)注意事项:(1)一个测验往往有多种分半方法,因此也对应有多种分半信度,在报告分半信度时需说明分半的方法。(2)常用的分半方法有奇偶分半、难度分半、内容分半、时间分半(常用于速度测验),同质性信度,同质性信度主要代表测验内部所有题目间的一致性。正相关高,测验为同质的;低正相关或为负相关时,测验为异质。也属于内部一致性系数中的一种,其实质是所有分半信度的平均值。如果测验由许多分测验组成,则要求分测验内部同质,分测验之间异质。,评分者信度,适用:用于测量不同评分者之间所产生的误差。两个评分者之间的信度:有若干份试卷,每份试卷由两人评分,然后根据每份试卷的两个分数求相关。(如果受过训练的评分者,其评分一致性应达0.90以上)多个评分者之间的信度:如果采用等级评分,可采用W系数计算评分者信度。,应注意的问题,有多少误差来源就有多少信度估计方法。应根据情况采用不同的信度指标,原则上一个测验哪种误差大,便用哪种误差估计。一个测验往往要计算多种信度系数。,例子,复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。复本信度反映的是测验在()上的等值性。(A)时间(B)题目(C)评分(D)内容一般要求在成对的受过训练的评分者之间平均一致性达到()以上,才认为评分是客观的。(A)0.70(B)0.80(C)0.90(D)l.00,信度与测验分数的解释,解释真实分数与实得分数的相关程度rxx=S2T/S2xrxx0,1rxx=0,S2E=S2xrxx=1,S2T=S2x,确定信度可以接受的水平两个原则:rxx0.70时,测验不能用于团体比较和对个人进行评价和预测。0.70rxx0.85时,测验能用于团体比较。rxx0.85时,能用于鉴别或预测个人成绩或作为。新编测验的信度应高于原有同类测验或相似测验。能力或成就测验:rxx0.90(甚至0.95)人格测验:rxx0.80,0.85或更高PS:信度高并不是心理测验追求的最高目标,只是使测验有效的一个必要条件。,解释个人分数的意义测量标准误的作用:估计真实分数的范围;了解实得分数再测时可能的变化情形。真分数的估计,或再测时实得分数的变化范围计算:根据SE=Sx(1-rxx)1/2,求SE。如果已知或然水平,一般为95%。则真分数的置信区间或再测时X的变化范围是:X-1.96SE1.96,则差异显著;反之,则差异不显著。,不同测验分数的差异比较举例,某被试在韦氏成人智力测验中言语智商为100,操作智商为105,已知两个分数都是以100为平均数,15为标准差的标准分数,假设言语分量表和操作分量表的分半信度为0.87和0.88,问言语智商和操作智商是否存在显著性差异。,举例,“大约有95%的可能性真分数落在所得分数+1.96SE的范围内,或有5%的可能性落在范围之外”的描述,其置信区间为()。(A)X-1.96SEXTX+1.97SE(B)X-1.96SEXT(C)X+1.96SEXT(D)X-1.96SEXTX+1.96SE,影响信度的因素,样本特征样本团体内的异质性(指水平的差异):异质高,则信度高。样本团体间平均能力水平:团体的不同水平,导致题目的难度不同,从而影响信度的高低。在智力测验中,对年幼者或能力水平低者,不适宜使用选择题测验。在编制测验时,应将常模团体分为更同质的亚团体,分别报告其信度。,测验长度测验越长,测验的测量取样或内容取样就越有代表性;测验越长,被试猜测因素的影响就越小。增加测验长度的效果遵循报酬递减率原则,因此增加测验长度要适当。斯皮尔曼皮朗公式的导出公式(rXX为原测验信度):,测验难度难度对信度的影响只存在最高作为测验中。难度与信度之间不是简单的对应关系。难度为0.5只适合于简答题。选择题的难度应偏高。洛德提出,在学绩测验中各类选择题的理想平均难度值为:五择一为0.70,四择一为0.74,三择一为0.77,是非题为0.85。时间间隔只对重测信度和重测复本信度产生影响。时间间隔越短,信度系数越大。,信度的特殊问题,对于速度测验,不存在评分者信度,也无法计算同质性信度,而重测信度和复本信度均可按传统的方法求得,只有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论