




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
效度和效度检验,ValidityandValidation,关于效度和效度检验的问题,效度的概念效度的性质效度检验的前提效度的证据效度检验的设计,效度的概念,现行美国教育和心理测试标准一书对效度作出了如下定义:Validityisaunitaryconcept.Althoughevidencemaybeaccumulatedinmanyways,validityalwaysreferstothedegreetowhichthatevidencesupportstheinferencesthataremadefromthescores.Theinferencesregardingspecificusesofatestarevalidated,notthetestitself.效度是一个统一的概念,尽管我们可以以不同的方式收集关于效度的证据,效度总是指证据支持我们从考试成绩所作出的各种推测的程度,效度检验检验的是对考试的使用所作的推测,而不是考试本身。,美国教育和心理测量协会(1985):Validitymeansthedegreetowhichtheappropriateness,meaningfulness,andusefulnessofthespecificinferencesmadefromthetestscores.效度是指根据考试分数所作出的特定的推测的适当、有意义和有用程度。,效度的概念,效度的性质,效度指的是考试结果解释的合理性,它不是指考试本身。我们有时出于方便,说“考试的效度”,实际上正确的说法是对考试结果所做的解释的效度。效度是就程度而言的,不是要么有效,要么无效。因此,不要说考试结果有效或无效,而应该从确定程度的类型的角度来考虑效度,如高效度、中等效度和低效度。效度总是与考试结果的解释或某种特殊的用途有关。世界上没有对所有目的都有效的考试。在讨论效度时,必须考虑对考试结果所做出的专门解释或用途。考试结果对做出的每个不同的解释都有不同的效度。,效度的性质,效度是一个统一的概念。美国心理测量学会在“教育和心理测量标准”一书中,已经抛弃了多种效度的传统概念,将效度看作是以各种不同类型的证据为基础的统一的概念。效度是一个总体的评价判断。它要求用各种证据并且从后效影响的角度来判断考试结果解释和使用的合理性和合适性程度。,效度与信度概念的辨析,假设有一道试题:水稻的茎不能加粗的主要原因是茎内没有()。A.形成层B.维管束C.木纤维D.韧皮纤维,假设试题具有下列问题:1、有点科学性问题2、考查牵涉到了化学知识3、考查了学生没有学过的内容4、部分考生抄了别人的正确答案,提问:这些问题说明这道试题是信度有问题,还是效度有问题?,效度检验的前提条件,考试评价的目的要与考试机构的任务和价值观相适应考试应该有利于高校选拔合格的新生;有利于促进中学推进素质教育有利于培养学生的创新精神和实践能力要明确地确定或描述要测量的心理结构(知识、能力或其他特征),对分数或其他评价结果要作出的解释。测量目标和行为标准确定结构的特征是需要谨慎,只能将考试技术能够测量的特征或行为包括在结构的特征描述之中,不能测量的特征不能包括在其中结构的特征一旦确定,就是排它的、武断的。确定所要收集的证据的类型和数量,效度的证据,考试内容考生的应答过程评分标准与定义的心理结构及其行为标准的一致性考试的内部结构考试与效标(标准)的关系,考试内容方面的证据确定每道试题测量的行为目标,涉及到内容领域那些内容;比较考试的内容结构与学科内容领域的结构是否一致。收集证据的方法考试机构自己对照考试规范或考试大纲进行检查发放问卷调查表给学科教师或专家进行调查由专家按照详细的一系列标准给每道试题和整张考卷进行定量打分或定性评价,效度的证据内容,效度的证据考生的应答过程,考试是从认知心理学的角度来看待考试结果反映考生心理结构的程度,也就是说从考察学生回答问题时发生的心理过程或思维过程的角度来看待结构效度的。使用某些问题或试题来测量思维能力时,需要问题或试题能够引发考生进行一定的思维活动,这个活动反过来引发考生显示出我们希望考生显示的行为。只有在这样的情况下,问题才是有效的,得到的结果才能是考生某一心理结构的测度。分析考生答题的思维过程的主要方法包括调查问卷分析计算机模拟分析面谈记录分析,评分标准与定义的心理结构及其行为标准的一致性,命题时制定的评分标准应该与定义的心理结构及其行为标准相一致具体评分时,评分标准的细化应该以行为标准的表现出来与否为得分步骤,而不一定是以做出来一步给多少分。有可能做出来的两步都是一个行为表现。,考试与效标的关系,效度检验过程中,我们还要收集另外一类证据或信息,这就是能够证明我们的考试结果与某个其他的“标准”之间关系的证据或信息,这个“标准”与我们的考试测量了考生相同的能力,我们将这个标准称为效标。效标应该是反映考生行为的另外一个考试的结果。与效标相关的证据研究的考试分数与效标考试的分数相联系效标实际上是考生的某种行为表现,考生在该行为上的得分,可以用来预测未来。高中阶段学习的效果中考大学阶段的学习效果高考,考试与效标的关系,研究考试与效标之间的相关关系根据研究考试的结果预测未来考试的结果方式线性回归预测,考试与效标的关系,X-考试Y-效标x-待检验的考试样本y-效标考试样本s-待检验的考试样本标准差S-待检验的考试总体标准差rxy-待检验的考试样本与效标考试样本间的相关关系,研究考试与效标之间的相关关系根据研究考试的结果预测未来考试的结果方式线性回归预测,考试与效标的关系,效标考试的类型预期效标估计同期效标估计预期效标估计用分数来预测将来的行为获取效标测试的相关系数对所有相关的考生进行测试等待一定的合理的时间收集效标测试的分数计算相关系数,考试与效标的关系,同期效标估计检查与同期考试的相关关系检查能力水平不同的考生,在两个考试中考试结果的差别。效标应该是同样类型的考试。所谓同样类型的考试是与我们研究的考试测量相同的能力或心理结构的考试,如果没有这个前提,我们就失去了把二者间的相关关系解释为效度证据的基础。,考试的内部结构,考试的结构方面的证据考试的结构方面的证据是要证明考试测量它所设计测量的心理结构的精确程度结构方面的证据的收集是一不断的过程。不同测量目标或行为目标之间的相关关系不同测量目标或行为目标的因子分析实验设计。,考试的内部结构,考试的结构方面的证据不同测量目标或行为目标之间的相关关系不同行为变量之间的相关关系不同行为变量与考试总分之间的相关关系。不同行为变量与考试总分减去相应变量分数后的相关不同测量目标或行为目标的因子分析,ThankYou,考试内容证据收集量表举例,考试内容证据收集量表举例,考试内容证据收集量表举例,考生应答过程分析调查问卷表,考生应答过程分析面谈分析,考试结束后对部分考生进行面谈时发现,他们回答问题时的思维过程有如下几种:1、崇明岛没有核电站,选项C不对;没有听说崇明岛有地热资源,选项D也不对;崇明岛地处长江口,靠近东海,水资源非常丰富,因此,当时选择A为正确。2、崇明岛没有核电站,选项C不对;听说崇明岛有温泉浴场,因此当时选择D正确。3、核能不是可再生能源,选项C不对;现在上海有很多温泉浴场,估计崇明也有,因此当时选择D正确。,考生应答过程分析面谈分析,考试结束后对部分考生进行面谈时发现,他们回答问题时的思维过程有如下几种:4、崇明岛地处长江口,水资源非常丰富,因此,当时选择A为正确。5、核能不是可再生能源,选项C不对;上海乡土地理书上没有介绍过上海丰富的地热资源,选项D也不对;崇明岛地势平缓,岛内没有大的河流,不会有丰富的水能资源,因此,选项A也不对;那么只有选项B是正确的。,考生应答过程分析面谈分析,考试结束后对部分考生进行面谈时发现,他们回答问题时的思维过程有如下几种:6、核能不是可再生能源,选项C不对;上海乡土地理书上没有介绍过上海丰富的地热资源,选项D也不对;崇明岛地势平缓,岛内没有大的河流,不会有丰富的水能资源,因此,选项A也不对;崇明岛地处长江口,长江与东海交汇处,岛内地势平缓,附近没有高山等阻挡,风能应该比较丰富,因此,选项B是正确的。,考生应答过程分析面谈分析,设计这一试题是想了解考生“分析、解释各类地理事物的空间结构、联系及其发展变化规律”的能力”。从考查的行为目标看,显然只有第6种思维活动是正确的思维过程。第1到4思维活动,反映了考生这方面能力还有欠缺;第5项思维活动,只是从应试技巧的角度,排除了其他三种选择,但并没有真正理解为什么风能是崇明岛开发前景良好的可再生能源。尽管其回答是正确的,但这一题上的结果并不能作为其这方面能力的标志。,根据测量的行为目标的表现水平赋分,某市2004年底有住房面积1200万平方千米,计划从2005年起,每年拆除20万平方千米的旧住房。假定该市每年新建住房面积是上年住房面积的5%。(1)分别求2005年底和2006年底的住房面积;(2)求2024年底的住房面积。(计算结果以万平方米为单位,且精确到0.01),根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,25(8分)鸡蛋不能放进微波炉加热,否则鸡蛋会爆炸。但直接把鸡蛋放在锅里用水煮是不会爆炸的。你如何解释这现象?,【内容领域】物质科学/运动与相互作用,【行为目标】理解科学原理,【难度】0.4,【题型】简单题,根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,根据测量的行为目标的表现水平赋分,不同行为变量之间的相关关系,基本思想考试的每一个行为变量测量的是同一测量目标的不同的方面,它们之间既相互有联系,又有区别,它们对测量考生在所考学科方面的知识与技能、方法与能力都可以做出贡献。一般判别要求一般认为考试不同行为变量的相关关系不应太高,也不应太低,一般应该在0.3到0.6。如果两个部分的相关系数相当高,如0.85或0.9,就可以怀疑这两部分是否测量了相同的行为目标。,不同行为变量与考试总分之间的相关关系,基本思想总分应该是考试的测量目标的更加一般的测度,每一行为变量都应该对测量目标做出较大的贡献。一般的判别要求某一行为变量与考试总分间的相关关系应该比较高,一般应在0.7以上。,不同行为变量与考试总分减去相应变量分数后的相关关系,基本思想考试总分中包含了考试各个行为变量的贡献,某一行为变量与总分的相关关系实际上也受到该行为变量自相关的影响,获得的相关系数可能偏大。基于这个考虑,一种常见的做法就是:计算某一行为变量与总分的相关系数时,从总分中删除该行为变量的分数。一般的判别要求不同行为变量与考试总分减去相应变量分数后的相关关系,如果仍然能在0.7以上就很好了。,内部结构方面的证据变量之间的相关关系,因子分析(FactorAnalysis),因子分析的基本思想用少数的假设变量来代替观察的变量。用因子分析方法确定内部结构中,观察的变量就是每道试题要测量的具体的行为目标,考生在该道试题上的得分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年重庆直机关公开遴选公务员笔试题参考解析
- 2025年安全知识考试试题及答案
- 3.14明朝的统治说课稿2023-2024学年统编版七年级历史下册
- 三年级思品与社会上册 友爱残疾人说课稿2 北师大版
- 第15课 我设计的自行车(教学设计)人教版(2012)美术三年级上册
- 2024-2025学年高二政治上学期第11周 加强思想道德教育说课稿 新人教版必修3
- 2025新疆中新建物流集团有限责任公司招聘18人笔试历年参考题库附带答案详解(3卷合一)
- 2025年山西省公务员遴选笔试题库及答案解析
- Unit 4 Subjects说课稿-2025-2026学年小学英语四年级下册牛津上海版(深圳用)
- 2025年护理案例分析考试题库及答案
- D500-D505 2016年合订本防雷与接地图集
- 吊装作业危险源辨识与风险评价
- YS/T 643-2007水合三氯化铱
- 幼儿成长档案电子通用版
- Linux操作系统课件(完整版)
- 短视频:策划+拍摄+制作+运营课件(完整版)
- 首都师范大学本科生重修课程自学申请表
- 第四章路面施工.ppt
- mr9270s文件包中文说明书
- 中国酒文化(课堂PPT)
- HIV-1病毒载量测定及质量保证指南
评论
0/150
提交评论