戴海崎-旧版心理与教育测量4-7_第1页
戴海崎-旧版心理与教育测量4-7_第2页
戴海崎-旧版心理与教育测量4-7_第3页
戴海崎-旧版心理与教育测量4-7_第4页
戴海崎-旧版心理与教育测量4-7_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第四章,测量信度,2,第一节信度概述,什么是信度?信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。操作定义:rxx=ST2/Sx2rXX=TX2rXX=XX注意:信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。,3,信度系数与信度指数信度指数:相关系数信度系数:相关系数的平方注意:信度系数有多种。同一种信度系数也会因样本、测查时间不同而有多个。信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。获得较高的信度只是测验有效的必要条件。,4,三、信度的作用信度是测量过程中所存在的随机误差大小的反映信度可以用来解释个人测验分数的意义SE=SX1-rXX真分数的置信区间(95%)=X1.96SE信度可以帮助进行不同测验分数的比较,5,假设在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该测验的标准差为15,信度系数为0.84、某被试在韦氏成人智力测验中言语智商为102,操作智商为110.已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别是0.87和0.88.问其操作智商是否显著高于言语智商呢?,6,一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作者要注意选择。本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成一个点,而应看成是一个以该点为中心,以SE的某个倍数为半径上下波动的一个范围(区间估计),7,第二节信度的估计方法,一、重测信度含义和计算重测信度(test-retestreliability)是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数(教材p48)使用的前提条件所测量的心理特质必须是稳定的;练习和遗忘的效果基本上相互抵消;在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。,8,使用重测信度时应注意两次测验的时间间隔要适当(研究报告中需要说明)。再测信度适用于速度测验或人格测验,不适用于难度测验。重测时应注意提高被试的积极性。优缺点用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。,9,SPSS计算,求出两次测量的总分Analyze-Correlate-Bivariate,10,二、复本信度1含义和计算复本信度(Alternate-formreliability)指的是两个平行的测验测量同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测验上所得分数的积差相关系数。复本信度又称为等值性系数。测验实施的时间不同,复本信度所表达的含义略有不同。如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。,11,使用的前提条件两测验真正平行;被试要有条件接受两个测验。优点避免记忆效果和学习效应,12,复本信度的局限性如果所考虑的行为机能受到练习的影响很大,那么使用复本只能减少但不能消除这种影响。测验的性质会由于重复而有所改变,比如迁移的影响编制真正的等值测验实际困难重重,因此许多测验没有复本。,13,内部一致性信度(1),三、分半信度含义和计算分半信度(split-halfreliability)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性,所以有时也被称作内部一致性系数。计算方法:皮尔逊积差相关校正公式:斯皮尔曼-布朗公式rxx=2rhh/(1+rhh),14,斯布公式只有在两半测验分数的方差相等时才能使用,否则,应选择下面两个等价的公式之一:弗郎那根(Flanagan)公式:rxx=21-(Sa2+Sb2)/Sx2,Sa2,Sb2,Sx2分别为分半测验的方差和总分的方差卢仑(Rulon)公式rxx=1-Sd2/Sx2,Sd2是两分半测验之差的方差,15,应用前提及范围分半信度通常是在只能施测一次或没有复本的情况下使用。试卷存在任选题或试卷为速度测验时,不宜采用分半法。,16,常见的分半方法是按测题序号奇偶分半:测验题目按某种顺序(如难度)排列;如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。,17,SPSS计算,第一种算法题目排序,分半求积差相关进行斯-布公式校正第二章算法直接求分半系数,18,内部一致性信度(2),四、同质性信度含义同质性信度(homogeneityreliability)也叫内部一致性系数,它是指测验内部所有题目间的一致性程度。同质性信度是指一个测验所测内容或特质的相同程度。,19,题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心理特质,其二是指所有题目得分之间都具有较高的正相关。值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目间不具有较高的正相关,则不能认为它们具有同质性。,20,计算及适用范围rxx=Krij/1+(K-1)rij,其中K为一个测验的题目个数,rij为项目间相关系数的平均数(1)KR20公式:rxx=K/(K-1)1-(piqi)/Sx2pi为答对第i题的人数的比例;qi为答错第i题的人数的比例。K为题目数,Sx2为测验总分的变异。仅适用于(0,1)记分的测验。(2)KR21公式:rxx=K/(K-1)1-(Kpq)/Sx2只有当所有题目的难度接近时才适用,21,(3)克龙巴赫系数:=K/(K-1)1-(Si2)/Sx2克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。实际上,K-R20和K-R21只是系数的特例。系数是所有可能的分半信度的平均值。是测量信度的下界的一个估计值。即值大,必有测量信度高,但值小时,却不能断定测量信度不高。,22,计算步骤:按一定要求抽取n个被试的试卷,计算几个人测验总分的方差这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题上得分的方差。代入公式,最后求出。,23,SPSS计算,Analyze-Scale-ReliabilityAnalysis单击“Statistics”出现reliabilityAnalysis:Statistics在Descriptivesfor方框中选取“item”、“scale”、“scaleifitemdeleted”在“inter-item”,单击“correlations”,单击“continue”按钮回到“reliabilityAnalysis”对话框,单击“ok”按钮。,24,当研究者采用试题的标准分数总和作为量表分数时,此情况应该选用标准化系数;当研究者采用试题的标准分数总和作为量表分数时,则不选用标准化系数,25,(4)荷伊特信度测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用MS人作为被试方差估计值,用MS人题作为误差方差估计值。Rxx=1-MS人题/MS人一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。,26,五、评分者信度含义评分者信度(scorerreliability)是指多个评分者给同一批人的答卷进行评分的一致性程度。计算2人时:相关系数多人时:肯德尔和谐系数W=12Ri2-(Ri)2/N/K2(N3-N)(K=320;N=37时,查W表检验)K是评分者人数,N是被评的对象数,RI为第i个被试被评的水平等级之和,27,将数据导入到SPSS中,点击:analyse-nonparametricstests-Krelatedsamples把所有变量选中(所有作品的列)再选中KendallsW,Ok结果出来了,主要看最下面一个表的数据,一个是KendallsWa,这个数字应该在0.7以上,另一个是Asymp,这个数字应该小于0.05,如果结果不是符合这两个规则的话,一致辞性检验不通过,成绩要重新打分。,28,29,评判间一致性系数给出一个评分说明,让两个或更多人来打分,分数是顺序或者称名(等级或者是/否)公式Cohenskappa参考心理测量骆方孙晓敏译中国轻工业出版社评分者内部一致性系数计算一个评分者在给不同测验打分时分数的一致性系数或KR-20,30,各种信度系数相应误差变异的来源,31,几种心理测验的信度系数,32,第三节提高测量信度的方法,影响测量信度的主要因素被试方面被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高。主试方面指导语、态度、期望等施测情境,33,四)测量工具测验长度:测验越长,信度越高。测验难度:过难或过易都会使个体间得分差异减小,降低信度。显然只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会最高。通常这个难度水平为0.50。测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。(五)两次施测的间隔时间间隔时间越短,信度越高;间隔时间越长,信度越低。,34,斯皮尔曼布郎公式,公式中,K为改变后长度与原长度之比rxx为原测验的信度rkk为测验长度是原来K倍时的信度估计,35,例:某一测验有10个项目,信度是0.60,问测验应增加到多少个项目,才能使信度达到0.90?,36,解:,即,应扩大为原来的6倍,才能满足要求。调整后的测验长度应是60个项目。,37,提高测量信度的常用方法适当增加测验的长度使测验中所有试题的难度接近正态分布,并控制在中等水平努力提高测验试题的区分度选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰,38,洛德(Lord)提出学绩测验难度,39,几点说明,提高测量信度的方法还有很多。本章所讨论的各种信度计算方法仅适用于常模参照性测验。目标参照性测验的信度必须以测量的概化理论为基础才能进行很好的处理。信度的标准信度高低的标准:标准化能力或学绩测验:0.90;人格测验:0.80;教师自编学绩测验:0.60测验解释的标准:一般来说,当信度0.70,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当0.70信度0.85时,可用于团体比较;当信度0.85时,才能用来鉴别或预测个人成绩。,40,速度测验的信度,对于速度测验,不存在评分者信度,也无法计算同质性信度,而重测信度和复本信度均可按传统的方法求得,只有分半信度不能按传统方法估计要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,而应按测验时间划分相等的两部分,再求出两部分测验的相关,才是分半信度。将测验分成两部分,然后以总测验的一半时间分别进行施测,计算两部分得分的相关系数。整个时限分为四部分,并求出在每个时限内的得分。计算第一部分和第四部分的总分数;第二部分和第三部分的总分数,然后计算相关。,41,第五章,测量效度,42,效度效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的程度。在测验的众多质量指标中,效度是一个最重要的指标。测验测量的是什么东西?或者说,测验测到了它要测的东西吗?测验对它所测量的东西测量到什么程度?,43,效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。效度是测量的随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据效度只有程度上的差异,44,在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率。即:公式中,rxy表示测量的效度系数;SV2表示有效变异数,SX2表示总变异数,45,效度与信度的关系信度高是效度高的必要而非充分的条件测验的效度受它的信度制约信度高,效度未必高,信度低,效度必然低;效度高,信度必然高,效度低,信度未必低。,46,第二节效度的估计,测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测量目的的解释。常见的解释角度主要有三种:测验内容内容效度理论结构构想效度工作实效实证效度,47,高中化学标准测验双向细目表,48,内容效度,1.含义及应用范围内容效度(contentvalidity)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此,一个测验要有内容效度必须具备两个条件:(1)要有定义完好的内容范围(2)测验题目应是所界定的内容范围的代表性取样。,49,内容效度主要应用于成就测验。因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。编制双向细目表就是为了提高内容效度。,50,内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作中所需的知识和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。,51,内容效度不适合用于能力倾向测验和人格测验。此外,在使用内容效度时,要避免与表面效度(surfacevalidity)相混淆。表面效度是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。,52,2内容效度的确定方法(1)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。为使内容效度的判断过程更客观,一般采用下列步骤:确定测验内容的总体范围;编制双向细目表;编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。,53,(2)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。(3)再测法:前测教学后测如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。,54,内容效度的优缺点,内容效度既具有一定的优点,也有一定的局限。其主要缺点是缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。,55,结构效度,含义、特点与应用范围结构效度(structurevalidity)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。特点:构想效度的大小首先取决于事先假定的心理特质理论。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验构想效度不高。不可能有单一的数量指标来描述构想效度。构想效度主要用于智力测验、人格测验等。,56,结构效度的确定方法(1)提出理论框架;(2)依据理论框架推演出有关测验成绩的假设;(3)用逻辑或实证的方法来证明假设。,57,确定构想效度的基本方法(1)测验内部寻找证据法分析测验的内容效度:若内容效度高,说明其结构效度也高;分析被试对题目反应的特点:有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。计算测验的同质性信度:分半信度、系数、KR20、KR21,58,(2)测验之间寻找证据法相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。,59,(3)考察测验的实证效度法根据效标把被试分组,考察其得分差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。成就测验:分为高分组和低分组人格测验:分为不同类型的效标组,60,(4)多种特质-多种方法矩阵法方法:1、2、3特质:A、B、C,61,62,(5)验证性因素分析(confirmatoryfactoranalysis)验证性因素分析是目前心理学研究中应用的一种重要统计分析方法,是在研究的范围内,对已有的理论结构进行验证性分析的方法。在研究中,这一方法可以帮助我们讨论测验研究是否具有构想效度。,63,对构想效度的评价总的来说,构想效度促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展前景。,64,三、实证效度1含义、种类及作用实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准,简称效标。所以,实证效度又称效标关联效度(criterion-relatedvalidity)。同时效度:测验分数与效标资料是同时收集的。预测效度:先获得测验分数,隔一段时间后,再收集效标资料。,65,例:某大学研究生入学考试要求达到一定的分数线,但偶尔也会录取一名没有达到分数线的学生,但要求这名学生在获得学位之前必须达到研究生入学的最低分数线。你怎样看这个问题?,66,2效标(1)效标与效标测量效标(criterion)就是衡量一个测验是否有效的外在标准,独立于测验并可以从实践中直接获得我们所感兴趣的行为。常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。观念效标:理论定义,如“大学的成功”效标测量:操作定义,如“大学成绩”,67,(2)效标的特性a.多样性:一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。b.复杂性:几乎每一种效标行为都由多种特质构成,包含复杂的成分。c.时间性:近期效标与最后效标,68,(3)效标测量的条件a.有效性:效标测量能真正反映观念效标。b.可靠性:有较高的信度c.客观性:效标测量必须能真正反映观念效标,防止效标污染。效标污染(criterioncontamination)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。d.实用性:经济实用,69,确定效标效度的基本步骤明确观念效标确定效标测量考察测验分数与效标测量的关系,70,(1)相关法测验分数与效标测量之间的相关系数。(2)区分法测验工作效标测量(工作成绩)按工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的,71,(3)命中率当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高。正命中率是指用测验选出的人中合格者所占的比例。这个比例越高,测验越有效。,72,在总命中率和正命中率之间,究竟采用哪一种指标要根据测验目的来定。a.当测验用于提高工作或学习效率时,应重视正命中率;b.当强调维护社会公平时,则应重视总命中率。,73,命中表,74,总命中率正命中率,75,命中率计算实例,76,一、影响测量效度的因素1测验本身的因素(1)测验长度测验长度与效度的关系:r(Kx)y=Krxy/K(1-rxx+Krxx)(2)测题中所用词汇和句型不能过于困难(3)试题的意思应该清楚(4)所编制的测题应该适合所测量的学习结果,第三节提高测量效度的方法,77,(5)测题中不能提供额外线索(6)测题的编制要合理(7)选择题的正确答案不能有明显的组型(8)测题的难度要适当常模参照测验的难度在0.5标准参照测验与教学目标要求相一致2、测验的实施过程,78,3接受测验的被试常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。样本代表性样本规模测验偏倚(testbias)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。4所选效标的性质测量行为与所选效标的相似性越高,效度越高。测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。效标本身的测量越可靠,效度就可能越高。,79,常用效标,80,81,5.信度测验的信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度,所以在考察测验的信度时,一定要注意测验的信度。信度不高的测验不可能具有很高的测量效度。总之,所有与测量目的无关而又能带来误差的因素都会降低测验的效度。,82,二、提高测量效度的方法(1)精心编制测验量表,避免出现较大的系统误差(2)妥善组织测验,控制随机误差(3)创设标准的应试情境,让每个被试都能发挥正常的水平(4)选好正确的效标,定好恰当的效标测量,正确地使用有关公式,83,第六章,测验的项目分析,84,项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等;定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订,可以提高测验的信度和效度。,85,第一节测验的难度,难度(difficulty)的意义难度,指项目的难易程度。在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”。两者都是指在总体中,能够正确或确切回答某项目的人数。,86,二、难度的计算(一)二分法记分项目的难度1通过率P=R/N2极端分组法(上下27%)P=(PH+PL)/2(二)非二分法记分项目的难度P=X/XmaxX为所有被试在该项目上的平均得分,Xmax为该项目的满分。,87,三、测验难度水平的确定效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;对于选择题来说,难度一般应大于猜测概率;无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。大体而言,难度为0.50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.500.20之间变化。,88,四、难度的等距变换根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。(P75),89,美国教育服务中心以作为难度指标:=13+4ZP=0.0013Z=+3=25P=0.16Z=+1=17P=0.50Z=0=13P=0.84Z=-1=9P=0.9987Z=-3=1,90,五、难度对测验的影响(一)测验难度影响测验分数的分布形态难度大,正偏态难度低,负偏态,91,(二)难度影响测验分数的离散程度过难或过易的测验,会使测验分数相对地集中在低分端或高分端,从而使得分数的全距缩小。根据测验误差与信度的关系,分数分布的范围较广时,测验信度较高。一般来讲,测验项目的难度在0.5左右为最佳,集中在两极端为最差。,92,第二节测验的区分度,一、区分度的意义区分度(discrimination)是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。评价测验项目区分度高低依赖于对被试水平的准确测量,通常称作效标分数。测验项目区分度的效标分数更多的是用测验的总分,称为内部效标。区分度的取值范围介于-1.00到+1.00之间。,93,二、区分度的计算(一)项目鉴别指数法1鉴别指数(indexofdiscrimination,D)的计算D=PHPL取值范围:-1+1当D1.00时,高分组被试全部通过,低分组被试全部失败。相反,如果低分组的被试全部通过,高分组的被试全部失败,则D1.00。如果两组通过率相等,则D0。,94,表61项目鉴别指数与评价标准,95,2极端组的划分27%规则一般情况下,取上下25-%均可。样本少时,可以取50%注意:由于计算机的方便使用,可以上下50%作为划分高低组的标准,或者多分几组,对区分度和难度作详细分析。因为只取上下两端,只利用了一部分资料,浪费了很多信息,有可能得出错误结论。,96,(二)相关法在大规模测验或标准化测验中,常用各个项目的得分与效标分数(或测验总得分)的相关作为项目区分度的指标,即以测验项目的分数与效标分数或测验总分的相关作为项目区分度的指标。相关越高,区分能力越好。,97,点二列相关法点二列相关适用于项目得分以二分变量记分(如记0、1),而效标或测验总分是连续变量的数量资料,其计算公式为:,公式中,St为全体被试效标分数的标准差,98,例:15名被试在某测验第1题上的作答情况(通过记1分,未通过记0分)与效标分数见表102,试分析第1题的区分度。,表6215名被试的效标分数与第一题作答情况,99,对计算出的相关系数值需要进行显著性检验,才能确定其意义。本例的检验结果,相关系数未达到0.05的显著性水平,因而该项目的区分度值得怀疑。,100,(2)二列相关法二列相关适用于连续的测量变量,但其中的一个变量因为某种原因被人为分成两类。其计算公式为:,101,相关法相关的统计方法适用于两个变量都是二分变量的情况。在有些情况下,一些连续变量也可以用此方法计算相关程度。相关不要求变量呈正态分布,所求得的指标为相关系数。,102,用相关系数作为区分度指标时,一般是根据效标成绩或测验总分的高分组和低分组,通过和未通过某一项目的人数列成的四格表来计算,计算公式为:,103,积差相关法对于主观评分题目,因得分具有连续性,在被试团体较大时,可以认为项目分数服从正态分布。可将项目得分与效标分数之间求积差相关系数以得到项目的区分度。计算公式为:,104,(三)项目特征曲线(itemcharacteristiccurve,ICC)项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡,鉴别力越好,预测的误差越小。,率概的目项答回确正,1.00,0.00,0.50,低中高能力,鉴别力较好,105,低中高能力,率概的目项答回确正,1.00,0.00,0.50,低中高能力,率概的目项答回确正,1.00,0.00,0.50,鉴别力为负,鉴别力较低,106,三区分度与难度的关系,项目的区分度与难度有密切的关系。难度过大或过小,其区分度都较低。调整项目难度是提高项目区分度的重要方法。,107,表63D的最大值与项目难度的关系,108,四、区分度的相对性(一)不同的计算方法,所得区分值不同区分度有几种计算方法?(二)样本容量大小影响相关法区分度值的大小样本越大,区分度越(三)分组标准影响鉴别指数分组越极端,区分度越(四)被试样本的同质性程度影响区分度值的大小样本越同质,区分度越,109,第三节猜测问题与猜测率,客观测验题中的猜测问题与猜测率猜测误差来源猜相对于不猜引起的误差是否猜对引起的误差难度猜测影响的校正,公式中,CP为校正后的难度值K为选项数目P为实得通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论