教育测量与评价教案

上传人：1*** IP属地：浙江上传时间：2020-04-04 格式：DOC 页数：145 大小：648.01KB 积分：30 举报 版权申诉

已阅读5页，还剩140页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 教育测量与评价教案第一篇教育评价的基本原理与方法第一章教育测评概述第一节教育测量概述一测量的定义一测量的定义一般认为测量系根据法则给事物分派数字这里包含了测量三个方面的特性法则法则指测量的标准也就是测量的依据和准则即我们根据什么原理来进行测量法则也有好坏之分使用好的法则可以得到比较理想的测量结果而较差的法则只能导致不准确的测量结果要寻找和建立较好的测量法则是一件极为困难的事情但不管什么法则的建立都是一个渐进的过程事物事物指测量的对象也就是对什么进行测量更明确地说就是引起我们兴趣的事物的属性或特征不同的事物具有不同的属性或特征所测量的事物是否具有一致性这是影响测量结果是否精确的一个重要原因数字数字这是测量结果的表现形式是区别测量与定性评价的一个标志数字大多时候具有量的意义这样它是代表一定的数值这些数值具有自然数的特点如区分性序列性或等级性等距性和可加性这些性质是我们进行运算的基础必须指出在测量中我们是根据事物的属性和属性的大小来分派数字的因此必须考虑数字是否具有如上性质同时还要考虑事物的性质和指派数字的原则二测量的三要素 1 单位是我们用于计算的标准理想的单位必须具备两个条件一是要有确切的意义即对同一单位所有人的理解意义要相同不能出现不同的解释二是要有相等的价值即等值性也就是相邻两个单位点之间的差别是相等的 2 参照点是计算的起点一般分为绝对零点和相对零点绝对零点指客观地存在着 0 这个数字即完全没有相对零点则是人们为了区分或分出等级人为地指定出一个零点即即使在 0 这个位置也不说明事物的属性是不存在的 3 量表这是测量的工具是具有一定单位和参照点的连续体由于制订量表的单位和参照点不同量表的种类也不同一般从低到高分为四种水平类别量表水平称名量表顺序量表水平等级量表等距量表水平等距量表比率量表水平比率量表类别量表是最低水平的一种测量量表它只是用数字代表事物和事物的归类没 2 有任何数量的意义如对性别民族等可分类事物进行分类其产生的数值不能用于数量化分析不能进行数学运算最多只能进行百分比分类顺序量表比类别量表要精确一些其中数字不仅指明了事物类别同时指明不同类别的大小等级或具有某种属性的程度等距量表不仅有大小关系而且有相等的单位和相对的零点这时数值可以进行加减运算但由于只是相对零点所以不能进行乘除运算比率量表是最高级和体现最精确的测量水平的一种测量量表它既有等距的单位又有绝对零点因此可以加减乘除大多数物理测量量表是比率量表而教育测量中的量表很难达到这一水平三什么是教育测量教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程主要包括对学生内在的精神属性的测量如测量学生的学习成绩智力水平品德状况人格特征等这里要注意的是第一教育测量是一个数量化研究过程所以在进行教育测量时要解决的第一个问题是如何将我们所要测量到的人的各种属性量化表示的问题在教育问题中有许多往往很难加以量化有时即使加以量化但量化水平只能停留在类别变量或顺序变量的层次难以实现数量化分析意义这也是我们现在教育测量和教育评价在社会上讨论非常激烈人们十分关注但又成效不大的原因所在第二教育测量主要测学生内在的精神属性因而具有间接性这就导致了误差甚至错误的存在一教育测量的特点 1 测量结果的间接性我们无法直接测量学生的内在心理特征而只能通过其外显行为来间接测量其心理活动的特点与水平也就是说我们只能通过学生对测验韪的反应和一些行为表现运用推理判断的方法来间接地测量出他们的知识水平智力高低和品德好坏 2 度量单位的相对性教育测量的另一个特点是它的度量单位一般是相对的即是相对零点必须经过转换后才能进行相应的数学分析 3 测量对象的复杂性首先学生的精神属性是内在的不能直接测量其次它是多变的因为学生是发展的第三有些主客观因素也会影响测量的结果如精神状态注意力天气因素紧张等 4 测量目的的针对性四教育测量的误差问题测量中误差是不可避免的产生误差的原因主要有一测量的仪器和设备测量工具的精度会影响测量的精确程度二所测量的事物的一致性程度 3 三测量者的因素五教育测量学的作用一有利于提高教育教学水平二有利于提高教育管理水平三有利于发展教育研究方法第二节教育评价概述一什么是评价评价一词早在 900 多年前我国北宋时期就已出现评价就是根据某种价值观对事物及其属性进行判断衡量也就是对人或物做出好与坏真与假善与恶美与丑优与劣等判断这里价值观在评价中起着十分重要的作用价值观不同对同一事物会有不同的评价价值是客观的但评价带有主观性在哲学史上有几种不同的价值观一种是客观主义的价值观认为价值是客观对象所固有的本性是纯客观的东西一种是主观主义的价值观认为价值是用来表达个人对事物的好恶情感的是纯主观的东西另一种是辩证唯物主义的价值观认为价值是一种表明客体对主体的特殊效用性是主观性与客观性的统一客观事物的效用性与主观的需要和愿望相结合就具有了一定的价值符合的程度大价值就越大二教育评价的定义一早期的界说泰勒在 20 世纪 40 年代初将教育评价解释为确定教育目标在实际上被理解到何种程序的过程后来日本学者进一步把它界定为教育评价就是系统地有步骤地从数量上测量或从性质上描述儿童的学习过程和结果据此判定是否达到了所期望的教育目标的一种手段这种解释和界说认为以教育目标为依据评量学习结果达到目标的程度就是教育评价二 60 年代的界说克龙巴赫对教育评价的阐释是基于突破行为目标模式的观点提出评价是为决策提供信息的过程后来有人对这一界说做了具体的描述教育评价是一种有系统地去寻找并搜集信息资料以便协助决策者在诸种可行的途径方案中择一而行的历程这种观点强调了评价的信息作用扩大和拓宽了评价的功能范围从广义上宏观上对评价进行了创造性的解释三较深层的定义斯克里文和豪斯的定义评价是一种对优缺点和价值的评估是一种既有描述又有判断的活动 4 日本心理学家大桥正夫认为教育评价就是对照教育目标对教育行为产生的变化进行价值上的判断这种评价观点认为教育评价的着眼点在于教育现象的价值也就是评价应当着重判断教育的效果看其是否具有价值这里的关键主要是价值判断尽管各国评价学者对教育评价有不同的界说但在这一点已相当一致四对教育评价的初步界定和理解 20 世纪 80 年代以来我国教育界也对教育评价理论进行了初步探讨对教育评价的概念也进行了专门研究在系统地学习借鉴国外评价理论的同时力图从我国实际出发对教育评价的含义作了一些描绘和阐释在这些观点中有些共同的认识 1 承认评价是一个过程 2 价值判断是评价的本质特征 3 以一定的教育价值观为依据 4 采用一切可行的科学手段根据上述观点我们把教育评价界定为教育评价是根据一定的价值观或教育目标运用可行的科学手段通过系统地搜集信息分析解释对教育现象进行价值判断从而为不断优化教育和教育决策提供依据的过程这一概念包含以下几个方面 1 教育评价的对象范围和地位其对象不仅包括学生学习结果而指以教育的全部领域为对象不仅包括现象还包括结果计划活动过程等 2 教育评价的目的和作用它涉及评价的指导思想和教育观等基本理论问题教育评价是为鉴定考核还是为了推动改进是为了选拔淘汰还是为了教育发展这是两种不同的教育观和评价观过去的教育评价偏重于鉴定筛选的功能其目的是为了选拔适合教育的儿童是为应试教育服务的而现代教育评价则强调评价的反馈矫正功能即调控功能其目的是为了创造适合儿童的教育即评价是为了诊断评价对象的现状以便发现问题使教育教学工作不断改进不断完善不断适合教育对象的需要为促进儿童个性全面发展和提高教育质量服务教育评价的目的是为教育决策提供信息和依据为改进教育服务也是为不断完善和改进教育过程为提高教育质量服务 3 教育评价的依据价值判断是教育评价的本质特征是教育评价的核心根据什么进行价值判断如何进行判断这就是价值判断的实质和关键也就是必须一个衡量和判断的客观依据和标准是教育价值目标和标准问题它涉及什么是价值教育价值教育价值观的问题我们应当根据马克思主义价值观和社会主义现代化建设的需要根据人才成长发展规律确立我们的教育价值观和价值取向确定教育评价的价值目标和标准从这个意义上说教育方针政策和教育目标就是我们的教育价值观的集中体现我们应当以教育方针和教育目标为依据确定评价的目标和标准 5 4 教育评价的手段五教育评价与教育测量的关系测量是工具评价是目标三教育评价的功能和意义一教育评价的系统结构 1 价值目标和标准 2 组织机构和人员 3 评价方法和技术 4 评价对象与评价人员的心理调控二教育评价的功能根据系统论的观点评价功能是教育评价系统结构的内在机制是构成评价系统的各个要素的组成形式在运动状态下所发挥的功效是评价系统内部所固有的一种潜在能量这种潜能只有在评价实践中才能表现或释放出来这种功能的外在表现即是作用 1 教育评价的意义 1 教育评价是教育管理的重要组成部分教育管理的各个环节都需要评价没有评价的管理是一个开放式的管理系统无反馈机制这是一种不科学不健全的管理 2 教育评价是深化教育改革的重要措施要进行一项教育改革首先要进行改革方案的可行性评估在改革进程中必须加强形成性评价在某一改革告一段落时必须进行终结性评价只有这样才能避免盲目性确保教育改革沿着健康的轨道发展 3 教育评价是全面提高教育质量的重要手段 4 教育评价是教育科学研究的重要内容 2 教育评价的功能 1 导向功能 2 监督检查功能 3 激励功能 4 筛选择优功能 5 诊断改进功能四教育评价的种类一根据评价对象和范围不同可分为宏观教育评价中观教育评价和微观教育评价宏观教育评价是以教育的全领域及宏观决策方面的教育现象措施为对象的教育评价或对一个具有相当规模的地区的教育进行的评价属于总体的全局性的高层次的评价中观教育评价是以学校为对象对学校内部各方面的工作进行的评价微观教育评价是以学生为对象的教育评价二根据评价的时间和作用不同可分为诊断性评价形成性评价和总结性评价三根据评价的基准不同可分为相对评价和绝对评价 6 相对评价指在评价对象团体中确定一个基准或以某一团体的评价状况为基准对团体中的个体成员在这个团体中所处的相对位置进行评价其特点是评价基准是在评价对象团体内部确定的参照的标准是对团体进行测量以后确定的它关心的是团体成员在该团体中所处的相对位置绝对评价指以预先制订的目标为评价基准评价每个对象达到目标或基准的程度也称目标参照评价其特点是评价基准是在评价对象团体以外确定的参照标准是在对团体进行测量以前确定的它关心的是评价对象达标的程度四根据评价的性质不同可分为需要性评价可行性评价和配置性评价需要性评价是指根据某种需要对新提出的教育目标计划方案的必要性作出价值判断其目的是要判断新提出的教育目标计划方案或活动是否有必须进行或开展一般是在某种教育改革项目开始前或对教育活动整个过程进行总体反思时进行可行性评价是指对教育目标计划方案实现的条件可行性程度的评价目标是了解实施教育目标计划方案的物质条件技术条件和经济效益配置性评价是指对教育目标计划方案所需要的资源条件人员与技术条件的配置进行价值判断目的是合理安排和利用人力物力和财力五根据评价的主客体不同可分为自我评价和他人评价自我评价指被评者按照一定的评价目的与要求对自身的工作学习和品德等方面的表现进行价值判断他人评价指被评者以外的人进行的评价也叫外部评价第三节教育测评的发展阶段一教育测量的发展阶段一教育测量的萌芽阶段 1864 年以前根据学记记载我国早在西周时期就实行了教育考评自隋炀帝大业三年公元 606 年始置进士科开始的科举制度到清末光绪三十一年 1905 年废止正好 1300 年对我国进一步完善高等学校招生制度乃至整个干部选拔制度都有重要的借鉴意义科举制度的特点第一要经过严格的政治条件方面审查第二要进行严格的文化考查第三历代对考生都有健康方面的标准科举制度可取之处第一政治理论考试是最主要的考试项目第二文化素养特别是写作能力是必考项目第三注意考查分析问题和解决问题的能力录取原则第一对已被录取者一律要进行复试第二对落选者要给予其他出路第三录取时要参考平时成绩注意的问题第一考生入场挟带文书是历代都极为注意的第二考场秩序也是历代都极为重视的问题第三试卷是评定成绩高低录取与否的唯一依据它屡经考生和各类考试工作人员之手如不严格管理很容易使舞弊者有机可乘科举制度实际上就是一个关于学生学力检测评价制度但是它缺乏对人全面的科学的考察并且存在着许多弊端在 18 世纪以前的西方各国由于学校尚未普及学校考试主要是口试 1702 年 7 英国剑桥大学首先以笔试代替口试开西方学校考试先河 1845 年美国初等学校普及学生数激增对毕业生一一口试已不可能于是波士顿市教育委员会率先在美国相继以笔试代替口试由于笔试客观性可靠性比口试高并且节约时间测试结果大大优于口试但因为评分易受主观偏见影响况且题目太少不足以反映学生所获知识与能力的全貌因此为矫正弊端力求考试客观化于是测验方法随之出现二教育测量的蓬勃兴起阶段 1864 1940 年 1864 年英国格林威治医院附属学校一位名叫费舍的教师收集了许多学生成绩样本汇集了一本量表集作为度量学生各科成绩的标准可以说是客观标准化测量的萌芽 1897 年莱斯发表了他对 20 所学校 3000 余名学生所作的拼字测验研究结果测验表明 8 年中每天花 45 分钟时间进行拼字练习同每天花 15 分钟进行练习的成绩并没有多大差别这一结论尽管遭到了不少人反对但它引起了人们对测验问题的普遍关心推动了教育测验问题的研究中世纪以后西方自然科学由于在方法论上引入了测定观察和实验一些传统科学取得了长足发展 1879 年冯特在德国莱比锡建立了第一个心理学实验室为进一步揭示人的心理本质而设计了种种周密的实验方案与实现方案的各种严密的测量方法所有这些方法论的变革促进了教育测量运动的兴起 1882 年英国高尔顿受达尔文影响在伦敦建立了人类学测验实验室与德国冯特的心理学实验室相对峙德国实验心理学派通过专门研究人类的一般行为规律来进一步揭示人的心理本质而英国人类学派则对人类个别差异寄予了关心高尔顿在统计学家皮尔逊的帮助下设计了许多统计方法这些统计方法不仅对美国的人事工程思想甚有帮助而且一些教育家借鉴这些方法在教育上把不同学生的学习能力与学习效果量化并加以客观比较促进了教育测量运动的发展 19 世纪末法国在自由平等博爱等进步思想的影响下提出社会不仅要对身体有缺陷的儿童加以关怀还要结心理精神智能有缺陷的儿童给予关怀恰好当时巴黎一带的学校有许多学习效果低劣的孩子很成问题比纳想鉴别这些孩子是因为懒惰还是因为智能低下而不能适应并且想在教育上尝试如何加以辅救因此 1895 年比纳等设计了一套智力测验的方法 1905 年在西蒙的协助下制成了著名的比纳西蒙智力量表 20 世纪 20 年代美国的教育测验运动蓬勃发展起来可分为三个时期开拓期 1904 1915 这一段时间是方法的探索与初步的发展时期在美国心理学家卡特尔研究的基础上 1904 年桑代克发表了精神与社会测验学导论这是一本在测验学史上划时代巨著标志教育测验运动的开始桑代克在书中宣称凡是存在的东西都有数量凡是有数量的东西都可测量兴盛期 1915 1930 这一时期对桑代克提出的信条不但在技术方面努力求得正确应用而且不断提高到理论上加以证实这一时期已发展了三种不同性质的测验即学力测验智力测验和人格测验 8 批判期 1930 1940 随着教育测验运动的不断发展人们逐渐认识到教育测验尽管能使考试客观化标准化并能把人的能力换算成数字甚至个别差异的程度也可以量化但它毕竟不能测出人的全部即使是研究最多最富成果的学力测验也不能测得学力的全部领域在人格测验方面单纯的测验是无法把握的如社会态度兴趣情绪鉴赏力等 1931 年塞蒙兹发表了人格与行动的诊断一书主张人格测量应用评定法问卷法轶事记录法等从而从思想上否定了单纯的人格测量法从此教育测量运动逐步过渡到教育评价时期三教育测量的深入发展阶段 1940 至今在经过以上批判期以后现代教育测量在以下方面有了新的发展第一开始重视学生智力和思想品德的测量第二现代教育测量量表的编制突破了过去单一答案的求同式思维题发展为包括多种答案的求异式思维题和论文式试题第三教育测量的范围由过去偏重于学生学习成绩的测量发展到涉及到课程设置教材教育改革方案等效益方面的测量第四现代的教育测量由过去单一的常模参照性测验模式发展到常模参照性测验与目标参照性测验相结合的模式第五教育测量本身的理论研究与技术开发更加深入与完善如关于测验等值项目反应理论 IRT 测验信度评分误差控制的研究等都有了较大的发展二教育评价的发展阶段二教育评价的发展阶段教育评价作为科学概念是 20 世纪 30 年代在美国进步主义教育聪明的新教育课程的改革实验八年研究中正式诞生的一教育评价产生的历史渊源与社会背景 1 我国古代教育考试制度自人类社会形成人类祖先为了生存延续自发地产生了原始生产经验和生活规范的传递这种传递就是教育的萌芽随着社会经济政治和文化的发展特别是由于古文字的出现产生了学校各种教育机构都有了相应的教育内容从而产生了衡量教育结果的手段和规定从我国教育史上看早在西周时代已经形成了较为完备的考试制度如学记中记载的比年入学中年考校就是典型例子更多的科举制度更是历时 1300 年 2 西方教育测量运动的兴起古代西方教育盛行以口头提问和实际操作来评定学生的学业从中世纪到 19 世纪的学校基本以口试作为考查学生成绩的方法进入资本主义发展时期以后由于社会需要大量掌握读写算的人力学校和学生激增口试被笔试取代但笔试也有很多弊端为追求测验考试的客观性受实验心理学个别差异研究和智力测验的影响 20 世纪初在美国教育测量取代了传统的考试并形成了一种趋势和运动 20 年代末由于新教育思潮的出现教育测量已不能完全适应教育发展的需要因而出现了对教育测量的批判 3 社会背景 9 20 世纪 20 年代末 30 年代初美国爆发了空前的经济危机许多工厂倒闭工人失业大批青年为了加强劳动力市场的竞争能力重新涌入中学学习谋求新职业但当时美国的中学所开设的课程是为了升大学服务的不适应整个社会与失业青年的需要这就使学生与学校课程之间发生了尖锐矛盾在这种情况下美国一些受杜威教育思想影响的教育家组织了进步主义教育同盟 PEA 他们提出教育的目的在于生活在于儿童反对旧的传统的死记硬背的考试测验他们以新教育理论为依据以全面发展人的才能为主要目标设计了一套新的课程并在 7 所大学 30 所中学进行教育实验为达到实验目标需要研究一套新的考查教育成就的方法经推荐组成了以泰勒为首的评价委员会时间从 1933 年到 1940 年历时 8 年史称八年研究 1940 年泰勒教授提出了第一个报告第一次提出了教育评价这个概念认为实施教育评价首先必须分析教育应达到的目标再用这个目标来评价教育的效果运用评价来促进教育活动向理想的目标逼近被人们称为划时代的教育评价宣言二现代教育评价的发展阶段 1 教育评价的开创时期 1930 1958 八年研究后现代教育评价正式诞生终于取代了教育测量成为考查教育效果促进教育改革的重要理论和手段在这一阶段中教育评价方法论的实证化特点非常明显主要表现在目标导向评价模式之中首先泰勒认为开展评价的论据是把所要评价的内容分成具体可见的可操作的学生行为目标以便在评价中能够围绕这些行为目标进行观察和测定其次泰勒在他的评价模式中非常强调对学习和教育结果进行客观的测量统计他提出三种评价手段专家测验情境考察提问作答并提出运用时三个重要准则客观性信度和效度 2 大发展时期 1958 1972 1957 年前苏联的人造卫生上天后美国朝野一片震惊并对教育进行了深刻的反思在加大教育投资力度的同时教育评价很快从过去仅是学术机构和民间的研究转而被纳入各级政府和各地方教育当局的议事日程 1963 年美国政府正式提出要对教育的效能和质量进行评价并拨出大量专款用于教育评价理论与技术方法的研究和培养专门的教育评价工作人员 1963 年克龙巴赫发表通过评价改革课程提出评价的内容不应仅仅是课程或教学目标及其被达到的程度而应更关心对教育决策及其所依据的准则的评价为决策提供信息更应是评价的中心 1963 年格拉泽发表文章在指出相对评价的不足时提出在学校教育中应着重绝对评价 1967 年斯克里芬发表评价史上具有深远影响的评价方法论指出过去的评价不仅在理论上而且在实践中都很不全面他第一次对形成性评价与终结性评价专业性评价与业余性评价对目标到达程度的评价与对目标本身价值及比较性评价与非比较性评价等作了明确的阐述和区分 10 1969 年艾斯纳对泰勒的目标评价理论进行了抨击认为对教育本质的不同理解可以造成对目标的不同表述泰勒的评价方法不一定适用于教育实际因为它既没有提供评价目标本身的方法也没有提出判断评价目标与结果之间差异的标准从此以目标为中心的评价模式不再是唯一的了其它评价模式相继出现目标的价值结构受到了挑战在这一段时间里出现了 40 多种评价模式各适用于不同的范围采取不同的方式方法 3 专业时期 1973 至今在这一阶段中教育评价方法论的人文化特点得到迅速发展并有超过实证化倾向的势头这些评价模式的共同特点就是在评价中不只是单纯从评价者的需要出发而是考虑到所有参与人的需要强调个体的经验活动和主观认识的作用不过分追求客观化并试图摒弃数量特征而是从人的角度出发重视人文社会科学方法在评价中的运用如应答评价模式的应答就是让评价对象和其他与评价有关人员提出他们关心的问题并表达他们各自的意见在评价过程中评价者的职责就是把收集到这些资料与众人讨论并以磋商的形式逐渐消除分歧最近达成共同的公认的统一的观点第二章教育测量的基本问题添加内容一测验必须注意的问题一测验必须注意的问题我们前面已经说过教育测量实际上是基于心理结构的分析而进行的间接测查这一特点给相应的测量工具的设计带来了几个难题如人事部门的一位心理学家想编制用于测试某工厂求职人员机械能力的测验一位学校心理学家想编制教师对身体残疾学生的态度量表一位教师想编制一套五年级学生解答多位数除法技能的单元测验这里每个人要测的东西结构上完全不同那么应该怎么来设计呢其实对于所有的心理测评测验编制者至少要考虑五个问题首先对任何结构的测量不存在普遍认同的一种方法因为对某种心理结构的测量总是建立在被认为与该结构相关的行为研究的基础上间接进行的当人们谈到同一结构时却往往选择不同类型的行为给该结构下操作性定义也可能要求学生解答一系列问题也可能要求学生写出每一步的结果也可能要求他们找出答错的题目中的错误也可能要求学生用多种方法解答因而不同的操作性定义会得出不同的测量程序这又很可能导致对学生知识水平的不同评价其次心理测量通常是基于有限的行为样组的我们不可能考核所有我们要考查的行为只能从其中抽样这就涉及测量题目的数量和内容广度这是产生一个良好测量的最主要的步骤第三测量的结果总人受到误差的影响第四测量量表缺乏定义清晰的单位受测者未能回答出多位数除法测验的任一测题是否意味着他们没有这种技能如果一位同学答对了 5 个题另一同学答对了 10 个题第三位同学答对了 15 道题是否能认为前两位同学之间的差异与第二三位同学之间的差异一样呢三个学生在测验所测验的能力连续体上的差距是否相等 11 第五心理结构不能仅以操作定义来界定还必须说明它与其他结构或可观察现象间的关系虽然心理测量建立在可观察到的反应基础之上但只有它能够按照所依赖的理论结构进行合理解释时它才具有意义因此 1 必须根据可观察行为来界定结构这类定义具体说明了如何进行测量 2 必须在理论系统内根据它与别的结构间的逻辑或数学关系来界定结构这类定义为的获得的测量结果的解释提供了基础测验理论在研究和评估中的作用为了阐明测验理论在广义的研究和评估方法学中的作用把教育和社会科学研究看作是由几个明确界定的步骤所组成的调查过程将有助于问题的说明这个过程可以分为以下几个步骤 1 简洁明白地陈述研究的问题或假设 2 通过决定在研究中如何控制和测量变量对假设中的每个变量下操作定义即选择模型 3 编制或选择获取和量化每一变量观察值的工具及程序确定测验分数的使用目的确定代表该结构的行为包括内容分析研究回顾关键事件直接观察专家判断教学目标等方法领域取样包括随机抽样系统抽样多阶段抽样分层抽样整群抽样分层整群抽样重复抽样配额抽样判断抽样等多种方法准备测验说明书项目编制包括最佳行为测验法包括是非多选配对调查问卷项目形式包括二分法五级连续法两极形容词列表法 4 检查所使用的工具和程序的准确性及敏感性注意精确性与测验说明相符或相关程度项目编制的技术性缺点语法攻击性语言或偏见的出现可读性水平等问题然后进行试测检查进行项目分析得出项目的相关指标即信度效度难度区分度等 5 收集实验设计框架内的实验资料以回答最初提出的问题 6 用数学方法处理数据资料适当地利用统计检验去判断观察结果归因于机遇的可能性在这个过程中测验理论的内容与步骤 2 步骤 3 和步骤 4 有很大关系有必要指出在进行大范围的实验研究步骤 5 和 6 之前步骤 4 通常要求收集预试样组试测结果的数据并进行统计分析以确保工具的有效性编制和预试研究工具失败的部分原因是与教育和社会科学研究经常具有矛盾和模糊的结果的特点有关在物理和生物科学中测量程序在实验使用之前全都要经过检验一位生物化学家在没花大量时间校准分光仪以保证它能够提供精确的波长读数时是绝不会试图去分析实验室中未知的化合物的然而相比之下社会科学家们更经常地尝试通过实际上从未试用过的测验去评估实验程序如何影响了一个复杂的变量如心理病人的焦虑水平或学前儿童的语言发展从提出研究问题和定义变量直接跳到收集实验资料的研究者很可能会一无所获假如研究者没有观察到各种处理之间的差异那么他们也就不可能知道是各种处理无效还是测量不那么精确以致处理的真实效果未被觉察到在实施最后的正式实验前严格地遵照优秀测验编制程序和在实践中试测的原则将对提高教育学和心理学研究的总体质量大有裨益三测验理论中的统计概念主要是复习 12 一频数表和分布图二集中量数众数中位数平均数三差异量数全距离差方差标准差四 Z 分数后面还会再讲五正态分布六用于描述两个变量间关系的量散点图相关系数包括皮尔逊积差相关斯皮尔曼等级相关点二列相关列联相关等七用于预测个体表现的量回归分析估计的标准误等第二章教育测量的质量指标第一节信度一信度的概念信度指测量结果的稳定性或可靠性程度亦即测量的结果是否真实客观反映了老先生的实际水平可从三个方面来考虑第一信度指实测值和真值相差的程度测量的目的之一就是希望通过测量得到的实测值能够接近事物的真值但由于各种原因实测值与真值之间必然存在误差但误差越小说明信度越高实测值 T 真值 E 误差由于真值是未知的因此误差值是大是小也是未可知的一般为求得最接近的实测值都是通过多次实测取其平均值来作为真值的近似值但这一方法缺乏实际可操作性也无法求得信度的大小第二信度是指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念统计量是指样本上的各种数字特征如样本的平均数标准差等参数是总体上的各种数字特征如总体的平均数标准差等统计量越接近参数这个统计量的可靠性程度就越高因此信度越高而要知道统计量与参数的接近程度高可以对参数进行区间估计这种方法对估计真分数有用但仍然无法计算出信度第三信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量后计算两次测量的相关系数相关系数越高说明测量的信度越高反之信度越低但应注意的是重复测量会受到被试的经验知识的增长等因素的影响等值测量又较难编制因此采用这种方法计算信度时也是有误差的信度是任何一个测量的必要条件对于教育测量来说它具有更为重要的意义因为教育测量的对象主要是精神现象所测量的特性不易把握为了能真实地反映测量对象的某种特点更加需要注意测量的信度二信度的理论公式 13 见 P32 这里需要注意的是对实得分数进行分解后可以分解成真分数的方差随机误差的方差两部分很明显随机误差的方差越小测量的信度就越高信度取值范围为 0 1 三信度的类型用上面的理论公式计算不了信度因为真分数根本不知道如果知道就不用算了实际中常用以下几种方法也就是几种不同的信度一稳定性系数重测信度指用同一测验试卷在先后两个不同时间内对同一组被试进行测验两次测验实得分数的相关系数这是最简单的估量信度的方法要注意的是 1 重测法只适用于速度测验而不适用于难度测验 2 所测的信度大小常常受到两次测验时间间隔长短影响 3 第二次测验没有吸引力不易引起被试的兴趣 4 要实施两次测验耗费人力物力和时间较多二等值性系数当同一测验的一种型式不能或不适合实施两次时就需要采用该测验的另一个平等测验或者复份复本复份要求在测验的内容题数格式难度平均数标准差等方面应与原测验一样否则估计的等值系数就会出现较大误差决定等值系数的方法是先实施第一次测验然后在最短时间内实施第二份等值的测验再求它们的相关系数这个相关系数就是信度的等值性系数采用复份法估计信度系数要注意 1 两次测验试卷要等值即在内容范围题型题数难度区分度等方面要基本相同 2 两次测验要尽可能在较短的时距内进行 3 确定两次测验是否等值还要考察两次测验结果的平均数与标准差但在实际操作中要编制两份等值的测验是非常困难的三内部一致性系数前面两种估计信度系数的方法都是要测验两次的但在实际的测验之中一方面教师很难编制两份等值的试卷学生也没有那么多时间和精力重复参加测验因此需要根据一次测验来估计测验的信度系数这就是内部一致性系数即把一次测验人为地分成两个部分比较两个部分的一致程度从而估计信度系数按照分成两个部分的不同内部一致性系数的估计方法有两种 1 分半信度这种方法是将一次测验分成两个假定相等而独立的部分来记分通常是以题目的奇数为一组偶数为一组计算两组的相关系数最后用斯皮尔曼布朗公式校正求得整个测验的信度系数公式见教材 2 库德尔理查森公式法用这种方法只需要测验一次然后以各个问题的正确反应数为基础此可视为各题难度的信息或根据各人部分的平均数和标准差计算信度系数库德尔理查森 14 公式有好几个最常用的是rKR20和rKR21 rKR20的用法以每题能正确回答的人数占总人数的百分数为基础计算每题只有通过或未通过两种分数具体公式见教材 rKR21的用法这个公式以各反应者总分的平均数和方差为基础计算无需各题难度的信息公式见教材计算内部一致性系数需要注意下列问题 A 若用分半法时以按奇数题和偶数题分为两半为宜若把整个测验分为前后两半一方面前半部试题与后半部试题未必等值另一方面被试者在完成后半部试题时可能因疲劳厌倦等原因而影响回答质量以致前后反应不一致影响信度 B 若速率是测验的重要因素则不宜用分半法因为速度测验中试题的难度低被试者得分多少在很大程度上是因为答题的多少分半法易使得分相同从而夸大分半法的信度估计 C 如果答案多种多样得分也多种多样时如论文式考试则不能用上列公式计算一致性系数四论文式测验的信度系数论文式测验的评分没有严格的评分标准以致同样一个题目不同的应试者的回答和得分都不一样所以无法用前面的公式而要用克龙巴赫所创的系数公式见教材五评分者信度一般论文式考试只能提供列出答案要点的参考答案而无固定的标准答案因而不同的评分者对同一份试卷往往给分不同甚至有很大悬殊在作文测验投射测验品德测验创造力测验等的评分中都存在这个问题计算这种信度需要区分评分者的人次数若为 2 人评 N 份试卷可用斯皮尔曼等级相关计算若为三人以上评 N 份试卷则用肯德尔和谐系数计算四提高信度的方法一信度以多大为宜对于学科测验要求达到 0 9 以上智力测验要求达到 0 8 以上品德测验能达到 0 6 以上就不错了二测量误差的来源 1 测验本身所引起的误差测验本身的有些因素会直接产生误差如题目格式中的判断题猜测的可能性会很大规定的时限用词不准确引起的误解题目的多少等测验所包括的测题样本也会引起测量误差 2 测验的实施所引起的误差如指导语错误对答案纸的错划时间记录的错误主试本身的主观影响记分误差等 3 被试引起的误差 15 这是最难控制的误差具体表现为动机的作用学习发展和教育的影响对于测验的经验测验的焦虑生理因素等三提高测验信度的方法 1 适当增加测验题目的数量即可提高信度也可提高效度 2 测验的难度要适中这样信度能达到最大也能使测验区分度达到最大 3 测验的内容应尽量同质 4 测验的程序应统一包括试卷统一测验开始时的指导语回答问题的方式分发及收回试卷的办法测验时间的掌握等特别应该提到的是考试的组织问题监考问题等这是关系到测验信度的重要因素 5 测验的时间要充分 6 评分要尽量做到客观化减少评分误差第二节效度一概念指测量结果的准确性和有效性的程度亦即测量是否达到了预期目的首先测量的效度始终是对一定的测量目的而言的一般而言任何测量都有某种特定的目的和功能判断效度高低就是判断测验达到目的的程度其次测量的效度也是对测量的结果而言的一种测量工具只能经过实际测量才能根据出来的结果判断它的效度所以也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度对于任何一种测量来说只有当它的测量结果真实正确地反映所欲测量的功能和特性时才能认为这种测量是较为有效地或效度较高的第三一种测量的效度只是高或低的问题因为一种测量在编制时总是针对一定目的而编制的不存在无效度的测量只是高或低的问题而已第四在教育测量中效度问题比在其他领域的测量更为重要因为首先教育测量的对象大多是精神现象只能通过对其具有可测性的外部表现如言语或动作等的测量以间接认识其心理活动心理特征或知识水平等其次学生的心理活动心理特征与其外部表现之间一般仅具有相关关系而无函数关系外部行为并不能准确无误地反映某种心理状态此外教育测量的对象不是物而是具有主观能动性的人人能有意识地调节自己的外部行为掩盖自己的内心活动这就增加了认识其精神现象的难度二效度的理论公式实得分数可分解为潜在真分数系统误差随机误差三部分具体关系见教材 P43 三效度的分类及估计一内容效度指测验目的代表所欲测量的内容和引起预期反应所达到的程度也就是测量内容的代表性程度在编制测验时内容效度是一个相当复杂和不易解决的问题以成绩测验来说 16 固然要求测验题目能代表所学习过的全部内容但仅仅在形式上做到这一点还不能保证足够的内容效度因为学习成绩的高低要从学习内容的巩固程度理解程度和应用能力几种行为反应去考察如果测验题目大多是只需要牢记教材就可以回答的问题那么对全面测验学生的成绩这一目的来说内容效度仍然不高估计内容效度的方法 1 逻辑分析的方法这是根据教育学和心理学的理论根据教学大纲要求勾画出学生掌握知识内容的范围和深度提出应形成的技能名称然后以逻辑分析的方法估计测验在多大程度上代表了这些内容在多大程度上能够测量出所要测量的特性和功能 2 用测验题目与教材内容比较的方法这需要先制两个表一个是测验的双向细目表见第三章分别列出所要测验的各单元教材内容在考题中应占的百分比和所要求的各种行为的反应在全部反应中的百分比另一个表是测验试题分类表根据各单元教材内容列出试题并注明该题所要求的行为反应及其应占的百分比然后对照这两个表根据各个部分相符合的程度判断内容效度的高低二效标关联效度又称经验效度或统计效度是以测验分数和效标之间的相关系数来表示测验的效度高低的效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量作为检定效度的参照尺度效标关联效度又可分为同时效度和预测效度同时效度指测验与当前效标之间的关系程度预测效度指测验与将来的效标之间的关联程度如用全国高考的成绩作为效标来检验高中毕业会考的成绩计算两者的相关系数就是会考的同时效度而用大学一年级的成绩作为效标来检验高考的成绩两者的相关系数就是高考的预测效度效标是用来衡量测验效度的尺度具体而言效标是辨别真伪的尺度当事物满足该原则要求时才能存在效标是不能违反的当然标准可以提高也可以降低效标不仅随着测验的种类不同而不同也可能随时间而改变选择效标是件困难而重要的事情通常教育测验所依循的效标可采用各学科成绩和教师的评定结果智力测验的效标可采用学科成绩教师评判的结果学生总成绩受教育年限年龄以及其他相关事物能力倾向性测验的效标可采用特殊课程或特殊训练的成绩等职业兴趣测验的效标可采用从业人员实际服务成绩或记录人格测验的效标很难找到只能按编制者的主观标准判断或以被试以后的行为或临床资料作为效标效标关联效度的计算主要通过计算相关系数求得可用积差相关二列相关或点二列相关四格相关和多元相关系数等参见有关教育统计学教材三结构效度指一个测量能实际测量出理论上的概念或心理特性的程度它的目的在于用心理学的概念来说明分析测验分数的意义也就是说从心理学的理论观点就测验的结果加 17 以解释和探讨结构效度的研究是较困难和有争议的至今从概念上和数学上作了部分解释确定一个测量的结构效度之所以困难是因为效标构想不是直接可测的因而不能计算测量与效标的相关结构效度确定的方法如下首先从某一结构理论出发导出各项关于心理功能或行为的基本假设据此编制测验然后由果溯因以相关实验和因素分析的方法检验测验结果是否符合心理学上的理论见解例如从现代智力理论可以推断四项主要功能上的假设智力随年龄增长智商是相对稳定的智力受遗传影响智力与学业成就有密切关系因此在根据上述的假设编制智力测验后就要从上述四个方面进行检验由此可见结构效度是由累积的证据来评价不可能有单一的结构效度指标确定一个测量的结构效度需要两个重要步骤首先必须指出这个测量和所用理论上认为应与之有关的其它测量有显著的相关其次必须指出必须指出这个测量与所有理论上认为不应与之有关的其它测量没有明显相关四提高效度的办法一各种效度的要求不同测验对效度系数有不同要求例如智力测验分数与教师对学生的等级评定之间的效度系数一般在 0 3 0 5 的范围内相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到 0 60 0 70 之间两种不同的智力测验或标准测验之间的相关系数应达到 0 60 0 80 才能符合要求对效度系数大小的要求也受原始与获得效标的测验之间的相似性制约若二者不相似则效度系数偏低若相似则效度系数会高些二影响效度的因素 1 测验组成方面测题的性能是影响测验效度的因素之一如测验的取材长度辨别力难度及其编排方式等都和效度有关 2 测验实施方面一个测验的效度要保证主试应适当控制测验情境遵照测验守则的各项规定实施 3 被试主观状态方面被试的动机兴趣情绪态度和身体健康及是否充分合作与尽力而为等都能影响结果的可靠性和正确性 4 估计效度所依循的效标选择适当的效标是统计效度的先决条件如因所选效标不当以致测验的效度不能显出则测验的价值可能被淹没一个测验因其所采用的效标不同其效度可能大相径庭从统计观点来看一个效标关联效度受下列三个因素影响 1 测验信度 2 效标变量测量的信度 3 测验变量和效标变量之间真正的相关程度 5 样本方面效度确认所依据的样本必须能代表某一测验所拟应用的全体对象一个测验应用于不同的对象由于他们在性别上年龄上教育程度上以及经验背景 18 上的差别其测验功能不一致效度也随之而异样本规模大小对效度也有影响样本的异质性也会影响测验的效度系数总之为了增进测验的效度必须要求测验编制和实施程度的标准化注意被试在测验情境中的行为反应并顾及适当样本和效标的选择以建立符合测验目的和功能的效度三提高效度的办法 1 控制系统误差 2 精心编制量表首先测验内容要确实能反映测验目的其次题目表述必须清楚简明所用字词句能为学生理解内容应能引起被试者的兴趣排列则易到难但前面的题目不应暗示后面的答案再次题目难度合适有足够区分度最后试卷印刷清楚无错误和遗漏并力求精美

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量与评价教案

文档简介

温馨提示

最新文档

评论

教育测量与评价教案

文档简介

温馨提示

最新文档

评论

相关文档