第三章_教育测量与评价的质量特性上课用.pptx_第1页
第三章_教育测量与评价的质量特性上课用.pptx_第2页
第三章_教育测量与评价的质量特性上课用.pptx_第3页
第三章_教育测量与评价的质量特性上课用.pptx_第4页
第三章_教育测量与评价的质量特性上课用.pptx_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章教育测量与评价的质量特性,第一节教育测量与评价的信度,第二节教育测量与评价的效度,第三节教育测量与评价中项目的难度,第三节教育测量与评价中项目的区分度,第二章教育测量的质量特性,衡量教育测量的质量,可采用四个指标:信度主要对整个测验(调查问卷)而言。效度难度主要对测验项目而言。区分度,调查问卷是收集数据的重要途径。当我们收回成百上千份的调查问卷后,最关心的是问卷表中的题目能否反映调查的意图,以及所得数据的可靠性怎样。如何设计出可靠性好、实用性强的调查问卷,如何从调查数据中提取真实可靠的信息,是一项十分重要的工作。信度分析就是用于评价问卷的稳定性和可靠性。,第一节教育测量与评价的信度,一、什么是信度信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度,它能够反映测量工具的稳定性或可靠性,一般用信度系数表示。信度本身与测量结果的正确与否无关,它的用途在于检验测量本身是否稳定。,第一节教育测量与评价的信度,二、信度简介,按照评价对象的不同,信度可以分为如下两类:(一)内在信度。衡量调查表中的某一组问题测量的否是同一个概念,如果内在信度系数达到0.8以上,就认为调查表有较高的内在一致性,常用的有Cronbach系数和分半信度。(二)外在信度。衡量用同一问卷在不同时间对同一对象进行重复测量,所得结果之间的一致性程度,也称为重测信度。,三、内在信度估计方法,1、Cronbach系数系数的计算公式为其中:量表共有k个题目,n个观测,Si为第i题得分的方差,Sx为测验总得分的方差。它用来衡量调查表中多个问题的得分之间的一致性,适用于答案为多重记分的问卷;还可用于测量李克特量表(Likert-typeScale)的信度。,2、分半信度将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的相关系数,再用斯皮尔曼布朗公式加以校正:式中的rxx为整个测验的信度系数;rhh为两个“半测验”上得分的相关系数。,分半信度只需要一种测验形式,实施一次测验,它比重测信度和复本信度的操作更简便。注意:当一个测验无法分成对等的两半时,不宜使用分半信度。,例三,对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的分半信度?学生序号题序12345611000002000100310100041100105100100611101171111018110110901100110111111,SPSS软件中进行内在信度分析分析-度量-可靠性分析-项目(选入代表问题得分的变量)-模型(用于指定要使用的信度系数)-统计量设置-确定-查看结果,重测信度指同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用pearson积差相关的公式来计算。,施测,再施测,四、外在信度的估计方法,重测信度基本假设:某测验所要测量的潜在特质,短期内不会随着时间推移而改变。重测信度适用于异质性测验(一个测验包括几个不同的部分,这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较低),也适用于速度测验和运动技能测验。,例一,用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号123456789101112X202021222323232425262627Y202121202323252526262729,在使用重测法计算信度值时,应注意以下问题:,1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。,重测信度与时间间隔,两次测量之间的间隔时间不同,重测信度也不同。间隔时间太短,存在记忆效应;间隔时间太长,影响测量的干扰因素增加。一般而言,时间间隔越长,信度系数越低。适宜的间隔时间因测验性质、被试特点而异。如:对儿童测量时间间隔相对短一些成人测量时间间隔可以长一些。一般以2周到4周较宜,最好不超过6个月。报告重测信度时要明确说明两次测验之间的时间间隔,并且,一个经过良好评估的测验应当具有多个时间间隔的重测信度。,一般而言,如果量表的信度系数达到0.9以上,该测验可量表的信度就较好;信度系数在0.8以上,是可以接受的;如果在0.7以下,就应该对此量表进行修订;如果低于0.5,则此调查结果就很不可信了。信度只是用来衡量一致性(内在信度)或稳定性(外在信度)的指标。测验的信度越高,表示测验结果越可信,但也不能期望两次测验的结果完全一致,信度除受测验质量的影响外,还受很多其他因素的影响。,(二)复本信度,复本信度是指两个平行测验(在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验)测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。(AB卷)其大小等于同一批被试在两个复本测验上所得分数的相关系数。,实施复本测验的方式:一是在同一个时间连续施测(此时所得的复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳定性系数)。使用复本信度首先要构造出两份或两份以上的真正的复本信度不仅适用于难度测验,也是估计速度测验信度的好方法。平行测验。这是一个很难达到的条件。另外,重测信度的一些不足,在复本信度中仍然存在,需要加以克服。,施测A型,施测B型,例二,以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212,复本信度的优缺点表现:,优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。,复本信度缺点:,1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。,一、什么是效度指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。,第二节教育测量与评价的效度,根据测量目标的不同,对测量工具进行效度验证的方法主要有三种:内容效度(基于所测内容的效度验证方法)结构效度(基于所测心理结构的效度验证方法)准则关联效度(基于效标关联性的效度验证方法),二、效度的估计,1、什么是内容效度指测验题目样本对应测内容及行为领域的代表性程度。如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。例如,教师给学生做一份语文成就测验,如果该测验的题目涵盖了语文教学所达到的各项目标及教材的重要内容,那么我们便说该测验具有较高的内容效度。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。,(一)内容效度,2、内容效度的估计,(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。以考试内容效度分析来说,就是依靠专家来分析一份试卷的所有题目,把所有题目按考试内容分布和考查目标分布进行双向分类,形成实际的“题目双向分类表”;基于这个“题目双向分类表”的分析,然后由专家对这次考试(测量)的内容效度的满意程度作出等级判断或评语描述。(双向细目表)这里不妨先提供一份测验的命题双向细目表以增加读者的感性认识。(2)量化分析法,内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。,(二)结构效度,结构(Construct)是指心理学或社会学上的一种理论构想或特质。它本身观察不到、并且也无法直接测量到,但学术理论假设它是存在的,以便能够来解释和预测个人或团体的行为表现。例如,智力就是心理学中的一种结构,结构效度指的就是测验能够测量到理论上(通常是心理学或社会学)所定义的某一心理结构或特质的程度。,(二)结构效度,结构效度测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。,1、结构效度的特点,结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。,2、建立结构效度的步骤,A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。,3、结构效度的估计,因素分析法其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。,(三)效标关联效度,是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。,效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;,能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。,作业,1、根据自己的学科背景,对近三年中(高)考试卷进行内容效度分析,你能发现什么?2、查阅调查问卷的效度分析方法、spss统计软体的认识与应用、测验发展与信效度量化研究与统计分析,第三节难度,一、难度的概念难度是指测量试题的难易程度。一般是以能够正确回答试题的人数与参加测验的总人数的比,作为难度指标。一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。,一、难度的计算,(一)、客观题难度的计算1.原始定义法,P表示难度系数,N表示参加考试的总人数,R表示答对某道客观题的人数。,选择题的解答由于允许被试猜测,校正公式如下:,CP为校正后的难度系数;P为实际得到的难度系数;K为备选答案的数目,2.用极端分组法计算试题的难度,具体步骤如下:1)先按测验总分的高低,按由高到低的顺序依次排列试卷。2)从得分最高的一份试卷开始依次向下选出全部试卷的27%作为高分组;从得分最低的一份试卷开始依次向上选出全部试卷的27%作为低分组。3)按计算公式计算难度,(二)、主观题难度的计算,平均分数法,二难度对测验的影响,1)测验难度影响分数的分布形态。难度值越接近0,测验的难度就越大,测验分数就越是集中在低分端,其分数分布越呈现正偏态;反之,难度值越接近1.00,其难度就越小,测验分数越集中在高分端,分数分布呈负偏态。2)测验难度影响测验分数的离散程度测验难度过大过小,都会造成测验分数偏离正态分布,从而使分数的全距缩小,使测验分数的离散程度变小。3)测验难度影响测验的鉴别能力在测验中,考生之间相互配对比较的可能性越多,就越有利于准确地鉴别考生的不同能力。(0.5配对最多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论