版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学教育测量与评价第二版第一章
数学教育测量与评价概述数学教育历史悠久,但系统的数学教育研究仍然属于比较年轻的学科,现代意义的“学校数学教育”只有200年的历史,经过历次的改革正在不断地丰富着,数学教育的研究正在不断发展。数学教育测量与评价是数学教育研究领域中重要的组成部分,该领域的研究能够为教育行政部门提供信息,为制定教育方针政策、完善改革具体策略提供参考;为学校、教师提供参考数据,科学地制订教学计划,合理地安排教学内容和进度,因材施教;还帮助学生本人更好地了解自己的学习效果,及时调整学习策略,以便取得更好的成绩,健康发展。本章目录CONTENTS数学教育测量与评价的含义数学教育测量与评价的类型数学教育测量与评价的对象与功能数学教育测量与评价的改革与发展1.11.21.31.41.1数学教育测量与评价的含义1.1.1数学教育测量的含义1.测量与教育测量在著名专家史蒂文斯看来,测量是根据法则而给事物赋予数量,即指“用一定规则给事物属性指派数字或符号的过程”,由此我们可以看出,测量是以追求客观的量化结果为目的的。1.1数学教育测量与评价的含义西周口试、实际操作、演示两汉、魏晋南北朝察举制、九品中正制隋唐科举制18世纪后英美等国效仿中国考试方法1.1数学教育测量与评价的含义1864年
菲希尔1-5分评分标准1894年
赖斯
拼字测验早期教育测量的先驱19世纪末20世纪初
桑代克“世界教育测量之父”教育测量广义:教育测量是依据一定的法则(标准)用数值来描述教育领域内事物的属性,是事实判断的过程。狭义:它是针对学校教育影响下学生的学业、智能及其他有关教育的心理属性等各方面从量的规定性上予以确定和描述的过程。王汉澜《教育测量学》1.1数学教育测量与评价的含义这是数学教育测量的对象。所测得的是外显行为、外在表现和特征,如数学成绩,但通过这样的外显性测量我们可以得到内隐的潜在特质水平。数学教育领域内事物的属性这是代表数学领域内某一事物或某一事物属性的量。显然,数字本身只是一种符号,不具有任何意义,只有当我们赋予其意义时才变为量化的数。通过测量所得的数,可以表示事物属性的类别、大小、多少等。数值这是数学教育测量所依据的规则和方法,是测量的关键,决定结果的可靠性,因而制定的法则要符合数学教育领域中事物的客观属性和规律,并使其便于操作使用。法则要素1.1数学教育测量与评价的含义2.数学教育测量2.数学教育测量数学教育测量主要是一种间接性的测量,通常是通过数学考试的方式来完成的,即我们通常所说的“测验”,数学教育测量是教育测量在数学教育中的具体应用和发展,同事也是进行数学教育评价的基础和重要手段。1.1数学教育测量与评价的含义1.1.2数学教育评价的含义1.评价与教育评价评价活动最早开始于中国的古代社会,用于官员的测试,从而决定其提升或降职,主要是几个领域的书面考试。一直到19世纪末期以前,教育领域的评价与考试都是同一个概念,只是到了19世纪末期人们才开始反思考试的弊端,并对其产生抵制。评价从辞源上可以解释为“评定价值”,“是一种价值判断的活动,是对客体满足主体需要程度的判断”。从管理学的角度来看评价是“描述、收集和分析有用的、客观的资料并将这些资料转变成资讯,提供给决策者作为主观价值判断的历程。其目的主要在于提供改进之道,并进而协助决策者选择合理的行动方案”。由此我们可以看出评价的本质属性是价值判断,并借此搜集信息、提供决策、完善工作,以此实现价值。1.1数学教育测量与评价的含义泰勒:评价在本质上是一个确定课程与教学计划实际达到教育目标的程度的过程。1.1数学教育测量与评价的含义克龙巴赫:为获取教育活动的决策资料,对参与教育活动的各个部分的状态、机能、成果等情报进行收集、整理和提供的过程。斯塔弗尔比姆:评价是“为决策提供有用信息的过程”。陈玉琨:教育评价是对教育活动满足社会与个体需要的程度作出判断的活动,是对教育活动现实的(已经取得的)或潜在的(还未取得,但有可能取得的)价值作出判断,以期达到教育价值增值的过程。1.1.2数学教育评价的含义2.数学教育评价数学教育评价:全面收集和处理数学课程与教学的设计与实施过程中的信息,从而做出价值判断、改进教育决策的过程。数学教育评价包括:课程评价、教学评价数学教育评价的主要对象:课堂教学评价、学生评价、教师评价主要功能和宗旨:发现问题,做出价值判断,进一步改进决策,更好地促进教育中人的发展。1.1数学教育测量与评价的含义1.1.3数学教育测量与评价的关系数学教育测量与评价的发展是经历了由主观评价到测量,再到评价的一个过程测量的主要途径就是考试和测验这样量化的方式,随着测量的发展,考试走上了正规化、标准化的道路,但由于其自身的局限性和片面性,我们不仅需要量化的数据结果,更需要从实质上来解释和评价事物,在此基础上促使了教育评价的产生和发展。正确理解数学教育测量与评价的区别与联系,能够更好地指导数学测量与评价工作的有序开展,首先我们有必要看看教育测量与评价之间有什么区别。1.1数学教育测量与评价的含义010203目的上:教育测量是对有关的教育属性分配数值,关心的是教育效果的数量化。教育评价的最终目的是为最大限度地发挥教育目标及其价值的作用服务。如果离开了教育目的和价值观的评定,即使客观可信的测量,那也是失去了实际意义的简单测量。本质上:教育测量是一个事实判断的过程,而教育评价是一种价值判断的过程。教育测量在判断法则确定后,排除误差,不同人的测量应得到的是相同的结果,具有较强的客观性;而对于教育评价而言,判断结果因评价主体的价值观念和标准的不同而不同。对教育现象的表示方式上:教育测量是从数量上来描述教育现象,用一定的测定尺度提供量化的资料。一般不包括按照价值观去解释其意义,它可为教育评价提供量化的数据,其自身不能称为评价,只能算作评价的一种方式。教育评价是从价值上解释教育现象,是在测量的基础上,进一步作出好与坏、优与劣、对与错、善与恶的判断,它既可以是定量的评价也可以是定性的评价。1.1.3数学教育测量与评价的关系1.1数学教育测量与评价的含义1.2数学教育测量与评价的类型1.2.1数学教育测量的类型1.以测量的对象为标准,分为学业成绩测量、能力测量1.2数学教育测量与评价的类型学业成绩测量:是对学生学习效果的测量,或者可说成是关于教学目标的考试,它有较为明确的考查范围,既有知识方面的又有技能方面的。如学校组织的课堂考试、期中考试、期末考试、会考、升学考试中,数学均是作为主要学科出现。能力测量:是对学生学习数学过程所表现出来的运算能力、空间想象能力、逻辑思维能力和分析问题解决实际问题能力的成都、水平的等级进行测验。1.2.1数学教育测量的类型2.以测量的功能为标准,分为准备性测验、进展性测验、总结性测验准备性测验:是在进行数学学习活动之前进行的、用来测量学生对于完成某一数学学习任务或胜任某一数学工作的准备情况的测验,考查其是否具有最低知识和能力准备。进展性测验:是在数学教学过程中实施的测验,我们也可以称其为形成性测验,用来测量学生目前在数学学习中目标达成的程度和具体学习情况。这种类型的测验是在教学的中间环节,特别强调的是单元教学所要达成的学习结果,测验的题目往往紧扣教学内容,目的在于考查学生学习活动是否成功,进而来验证教学效果,随堂考试、单元测验等就是一种进展性测验。总结性测验:是指在数学教学结束时进行的测验,旨在了解学生在数学学习活动后知识、技能、思维和心理等方面的发展情况,如期中考试、期末考试毕业考试、升学考试等。1.2数学教育测量与评价的类型1.2.1数学教育测量的类型3.以测量的参照系为标准,分为常模参照性测验、目标参照性测验常模参照性测验:是一种选拔模式的测验,是以已经建立的数学常模(即某团体在数学考试中的平均水平,如平均数和标准差)为标准,衡量学生在团体中的相对位置,旨在通过与其他考试横向比较测验结果来描述学生在群体中数学学习所处的地位,对学生进行分类排队。数学测验分数越具有变异性,离散程度越大,对分数的解释就越准确,对学生数学学习程度的鉴别力就越大。常见的表现形式就是中考、高考等升学考试中的数学测验。目标参照性测验:是测量学生掌握的数学知识与数学学习目标的关系,其功能主要是说明学生的学业是否达到教学目的的要求,测验结果只与既定的目标相比较,着眼于数学教学目标的完成情况,而不在考生间进行比较,凡达到目标的学生均可予以通过。常见的如数学单元教学前、中、后所进行的测验,毕业考试中的数学测验也属于这种类型。1.2数学教育测量与评价的类型1.2.1数学教育测量的类型4.以测量的来源为标准,分为标准化测验、自编性测验标准化测验:是由权威性数学机构和数学专家以及考试专家组成的命题委员会主持编制,此种测验具有客观规范的标准,命题、前测、施测、评卷等各个环节均有严格的规定和要求,以尽量减少误差来较真实地反映考试的成绩。中考、高考中的数学测验、数学竟赛等中的测验均属此种类型。自编性测验:是指教师自己编制的测验,一般只在学校、班级小范围内实施来考查学生的学习情况,如班级组织的数学单元测验、学校组织的月考、期中考试、期末考试等。1.2数学教育测量与评价的类型1.2.1数学教育测量的类型5.其他形式的测验专题性测验、综合性测验、交际性测验,根据答题手段分为口头测验、书面测验、操作测验……1.2数学教育测量与评价的类型1.2.2数学教育评价的类型1.按照评价目的或时机分类:诊断性评价、形成性评价、终结性评价诊断性评价:是在教育活动开始之前,为了解学生的学力基础而进行的评价,一般在学期、学年初,或采用某种新的教学策略、教学计划之前进行。形成性评价:是指在教育活动运行过程之中所进行的阶段性、过程性的评价,目的在于了解教育过程中存在的问题和改进的方向,及时修正或调整计划。终结性评价:是在某一阶段的教学与学习结束之后为检验效果而进行的评价,一般在学期、学年或某一门课程结束之后进行,比如期末考试、结业考试、毕业考试、升学考试,都属于这种评价。1.2数学教育测量与评价的类型1.2.2数学教育评价的类型2.连续评价与离散评价连续评价:是与有关的教学单元同时进行并与之相结合的,以个别学生在该单元期间的一般表现与成绩,活动水平与工作方式等为基础。评价的连续并不是说评价要持续不断地进行,只是它不包括限定时间完成的那种特定的评价活动。连续评价的主要目的是将学生的表现告诉学生及其家长,以便帮助他们控制并调整学习活动;同时也向教师反馈教学的一般结果,以便及时作出必要的调整。离散评价:是在特定的评价活动基础上实施的,这些评价活动可以在课程与教学进行之前、之中或结尾进行,这便与上述的诊断性评价、形成性评价、终结性评价发生交叉。离散评价可以是汇编家庭作业,或者经过一定设计的测验与考试,其主要目的是通过这些特定的测验或考试向家长、教师、学校提供信息,帮助其作出决策。连续评价是对学生的学习与发展更有价值的评价,而离散评价多服务于一些外在于学生的成员与组织的决策。在实践中,这两种评价往往是并存的。1.2数学教育测量与评价的类型1.2.2数学教育评价的类型3.按照评价价值标准分类:相对性评价、绝对性评价、个体内差异评价相对性评价:是一种依据评价对象的集合来确定评价标准,然后利用这个标准来评定每个评价对象在集合中相对位置的评价。相对评价的基本特性在于比较,比较的标准源自于特定的群体,也只适用于该群体,由评价对象组成的群体整体状况决定着每个群体成员的水平。主要应用于学业成绩评价,一般采用百分制或等级制计分,计分的标准常常以群体的平均水平为基点。绝对性评价:是在评价对象群体之外,预定一个客观的或者理想的标准,并运用这个固定的标准去评价每个对象,主要用于评价既定学习目标达成情况。这种评价的标准不受评价对象所在团体状况的影响,评价结果的好坏,只与被评对象自身的水平相关。个体内差异评价:即自我评价,是把每个评价对象个体的过去与现在进行比较,或者把个人的有关侧面进行横向比较。比如,可以对一名学生从一年级到三年级这一学段,或者整个小学阶段的数学学习情况进行纵向的比较,了解学生数学学习的进步情况。1.2数学教育测量与评价的类型1.3数学教育测量与评价的对象与功能1.3.1数学教育的对象数学教育测量评价直接和最终指向的对象是学生。学生的数学学习状况与学生数学能力的发展是数学教育测量与评价的首要任务,而对学生学习与发展的测量与评价当然要涉及教学测量与评价。对于不同的测量评价对象,建立科学的评价指标体系是保证测量评价信息全面、客观的重要因素。1.3数学教育测量与评价的对象与功能数学基础知识其主要包括一些基本的数学事实性的知识,如定义、定理、公式、特定的证明、历史性的资料等。数学能力数学能力首先是基于上述基础知识的理解能力、表达能力、应用能力等。同时,还要重视对学生数学表达、交流、与人合作、发现问题、解决问题等方面能力的测量与评价。数学学习态度与情感测量与评价的目的是要促进学生的发展。发展既包括认知的发展,也包括情感的发展。关注学生情感与态度的测量与评价。考查学生是否主动地参与学习,对学习数学是否有信心、感兴趣,对与数学有关的问题是否充满好奇心,遇到难题时是否能够积极努力地克服和解决等等。1.3.1数学教育的对象——1.学生数学学习测量与评价学生数学学习测量与评价包括:1.3数学教育测量与评价的对象与功能1234课堂教学目标是否明确、适当,是否遵循课程标准和教学大纲的要求,并能够根据实际需要做出适当的调整。1.3.1数学教育的对象——2.数学课堂教学测量与评价5测量与评价的目标主要包括以下几个方面:教学目标是否关注学生的全面发展。教学方法的选择是否遵循教学内容与学生实际的要求,并能够提高教学效率和学生学习兴趣。教学内容是否围绕教学目标选取,并契合学生的承受能力和发展需求。学生的参与度与参与面是否足够深广。1.3数学教育测量与评价的对象与功能010203为教育系统提供信息。评价结果呈现给上一级教育机构或教育行政部门,为学生的毕业和升学、教师的评比以及课程与教学的改革提供信息。为学生提供信息。在教学过程之前、之中和结束时,要根据课程与教学目标与内容的要求组织评价,为学生个人提供静态与动态、相对与绝对的信息。为教师提供信息。提供学生个人和集体的学习情况,有针对性地对学生提出建议,帮助特殊的学生谋求进步;对自己的教学做出评价和反省,调整教学目标、过程、方法;向家长、学校或教育机构汇报数学学习与教学状况,实现多方的沟通与合作。1.3.2数学教育的对象——1.数学教育测量与评价的信息功能1.3数学教育测量与评价的对象与功能2.数学教育测量与评价的导向功能导向功能:是指数学教育测量与评价本身所具有的引导测评对象朝着理想目标前进的功效和能力。通过测评目标和指标体系的引导,体现着指导意向和测评对象奋斗的方向,为数学教育发展及教育教学等指明方向。在测评中,对任何被测评对象所做的数值描述和价值判断都是根据一定的测评目标和标准进行的,因此测评内容决定着测评对象的关注点,测评标准决定着测评对象的努力方向。1.3.2数学教育的对象1.3数学教育测量与评价的对象与功能3.数学教育测量与评价的管理功能管理功能:科学的数学教育测量与评价能对数学教育过程进行科学有效的管理。“教育管理需要科学,科学在于客观精确化”。数学教育测量与评价能够弥补传统数学教育管理中多凭借经验来测评的不足,使得对数学教育质量、数学教学、教师水平等测评能够根据一定的目的,编制客观的标准化的量表,进行广泛的测量,以便做出科学的分析和评价。这样,可以摆脱主观经验,使其更加科学化、合理化,充分发挥管理的检查、指导、鉴别、强化和反馈等功能,构成坚实的管理系统进行决策规划。1.3.2数学教育的对象1.3数学教育测量与评价的对象与功能4.数学教育测量与评价的诊断功能诊断功能:是指通过测量所得的结果来进行多方比较,进而判断测评对象合格与否、优劣程度、水平高低,为解决问题提供切实可靠的信息,为确认、筛选和管理服务提供教育决策的资料,例如新课学习前的摸底测验,鉴定学生在本知识点上具备的数学学习实际水平和个人知识占有程度,以便为一般化教学和个别指导因材施教提供依据。1.3.2数学教育的对象1.3数学教育测量与评价的对象与功能5.数学教育测量与评价的激励改进功能激励改进功能:通过让被测评者认识到自己的成功和存在的不足,发现成功与失败的原因,从而调动改进工作的积极性,了解内在需要和动机,使学生明确学习数学的动机,激发他们强烈的求知欲,为实现理想的目标主动探索数学新知识的学习方式,获得最佳的学习效果。数学教育测量与评价的改进功能,主要是运用信息“反馈原理”,通过测量与评价及时获得数学教育过程、数学教育结果的反馈信息,及时调整、控制和矫治不良的、不利于教育目标实现的教育行为,从而控制教育活动和教育工作过程,提高教学水平,实现整个教学过程的优化和完善。1.3.2数学教育的对象1.3数学教育测量与评价的对象与功能1.4数学教育测量与评价的改革与发展传统的教育测量与评价主要目的在于甄别与选拔,尤其是各个阶段的终结性评价,考试分数在学生群体中分层分等,并公布于众。考得好的学生得意洋洋、信心百倍,考得不好的学生灰心丧气、尊严扫地,并从此失去学习数学的信心和兴趣。对教师而言,测量与评价结果直接与教师评价甚至奖惩挂钩,使得教师对学生考试成绩“魂牵梦萦”,神经紧绷,夜以继日的题海大战也就可想而知。中考、高考更是一纸定终生,一分之差,命运就从此不同。在这种测量与评价目的导向之下的数学教育测量与评价,使得数学课程与教学处于考试与测验的支配之下,教与学受外在的测量与评价所牵制,都失去了原本的目的。一切与教育有关之人都把目光盯向最终的考试结果,却忘了最重要的学习过程本身。随着人们对教育问题研究和认识的深化,测量与评价的目的观发生了革命性的转变,就是以人为出发点,强调通过测量与评价促进人的和谐发展,关注测量与评价的过程,使测量与评价本身成为促进发展的过程,较多地强调被测评者通过自我分析和自我认识达到自我提高,注重测评者与被测评者的对话,不断修正观点。正是这种测量与评价目的观的根本性转变才促使测量与评价方式方法等一系列实践做法的变革。1.4.1测量与评价目的的转变1.4数学教育测量与评价的改革与发展传统的数学测验多是对学生形式化的计算能力的考核,总是有唯一确定的答案,测评内容多围绕着知识点进行,形式单一、难度较大,给学生和教师带来较大的压力,往往会造成数学教育的失败。而近些年来,人们对数学的学科价值、数学的教育目标有了新的认识。新数学运动提倡的数学内容现代化,对今天的数学教育改革有重要的影响。科学技术的发展,使计算机和计算器在数学教育中的作用越来越大,给传统的数学教学内容带来了很大的冲击,使得对形式化计算的需要大大减少,并对数学规律的探索给予了强大的支持。现代数学中的概率统计、数学建模等思想和方法,也逐渐渗透到中小学数学教育中来。普及义务教育的提出,使数学教育的目的由培养精英转变到促进每一个学生的发展,实现人人掌握数学,让学生从现实生活中发现数学。研究各国数学课程目标,发现共同的趋势是普遍重视问题解决能力、数学应用的能力,强调数学交流,注重数学思想方法和培养学生的自信心。因此,数学教育测量与评价的目标与内容也相应地作出了大幅度的调整,由单一注重基础知识与基本技能的测评转向知识与能力、认知与情感、过程与方法测评的结合。注重学生综合素质的考查,不仅关注学业成绩,更要关注学生的创新精神和实践能力,注重培养积极的情绪情感体验和良好的心理素质;注重对个体发展独特性的认可,帮助学生接纳自己、拥有自尊自信。1.4.2测量与评价内容的调整1.4数学教育测量与评价的改革与发展现代教育测量与评价提倡评价主体的多元化,并在测量与评价过程中加强测评主体之间的互动与沟通。除了教育行政机关、学校、教师层面的测量与评价,还鼓励家长参与测评工作,这不仅有助于家长了解学校教育,更好地促进家庭教育与学校教育的合作,同时也有助于家长与孩子之间的沟通和理解,重新确立孩子在父母心目中的形象。学生也是不可代替的评价主体之一,通过学生自评和同学、小组互评,可以促进学生之间的交流和理解,使学生对自己各方面的发展获得重深入的认识。1.4.3测量与评价主体的多元化1.4数学教育测量与评价的改革与发展在自然科学的研究范式和价值取向的影响下,数学教育测量与评价一直以客观、量化为科学的标准,因此,各种形式的测验与考试是最普遍的评价方式,尤以纸笔测验为主,测验的内容也多为各种纯粹的数学运算和“人造”的所谓应用题。测量与评价的导向作用使得数学教学主要围绕数学基础知识与基本技能的传授与训练,而忽略了数学学习的其他更为重要的发展目标。这种在单一测量结果基础上的评价极大地束缚着数学教育的改革。伴随数学课程改革的深入,数学教育测量与评价方式方法的改革也取得了较大的进展,测量与评价方式的多样性成为许多国家和地区数学学习测量与评价的一个基本策略。人们倡导通过量化与质性评价方式的有机结合来实现对学生数学学习的全面的、真实的评价。我们批评以往量化的考试与测验,并不是说全盘否定甚至取消这样的做法而是针对其不足与过度使用的弊端,采用多样化的测量与评价方法来提供更全面的评价信息。1.4.4测量与评价方式方法的多样性1.4数学教育测量与评价的改革与发展历来,无论是学生评价,教师评价,还是学校评价,被评价者总是处于被动地位,评价相对于被评价者而言往往是一种外在的管制力量。尤其是一些高利害的评价,评价结果往往对被评价者具有重大意义,因而更加导致评价者与被评价者之间的对立关系。被评价者除了在评价之前做好充分的准备外,评价过程中,被评价者没有发言权,没有为自己辩解和解释的机会。这和“评”与“被评”二元对立的评价模式在现代教育评价中正逐步被消解。无论是教师评价还是学生评价,都更加注重发挥被评价者的主动性,强调评价者与被评价者之间的沟通、协商,以达到对评价结果的认同。这种评价关系的改善,能够进一步改善双方间的认识和理解,也更有助于被评价者剖析自己的过去,更好地面向未来,从而获得重好的发展。1.4.5测量与评价关系的改进1.4数学教育测量与评价的改革与发展测量与评价的发展与电子技术的发展紧密相连,现代电子计算机的发展提高了数学教育测量与评价的精度和效率。在数学教育测量与评价的定量分析中,需大量地运用统计工具处理数据,有些统计方法(如多元分析等)虽然方法很科学,但因数据庞大,计算复杂,非人力所为。随着计算机科学的发展,这些方法的运用已成为可能,加之数学教育工作者特殊的数学修养和计算机知识,使计算机日益成为数学教育测量与评价的有力工具。目前,计算机用于数学教育评价主要是依靠已有的软件,这些软件主要有:1.CIS(ClassroomInfor-mationSystem)课堂信息处理系统,是一种进行数学教育形成性评价的工具。2.SPSS(StatisticalPackageforSocialScience)社会科学统计软件包,能够进行统计分析和数据管理。3.SAS(StatisticalAnalysisSystem)统计分析系统,可进行回归分析、判别分析、因子分析、聚类分析、时间序列分析等高级统计分析。1.4.6测量与评价技术的进步1.4数学教育测量与评价的改革与发展感谢观看《数学教育测量与评价》2023数学教育测量与评价第二版第二章
教育测量的工具与方法教育测量与教学评价是教学活动的重要组成部分,是在教学领域中进行科学管理的重要手段,合理地开展测量评价活动是提高教育质量的有效保证。简言之,教育测量是依据一定的理论、规则,运用一定的测量工具对教育现象进行数量化描述。教育测量工具是否性能稳定是测量工作成败的关键。本章目录CONTENTS数据整理经典测量理论项目反应理论应用实例:大规模测评中被试能力估计2.12.22.32.42.1数据整理2.1.1分数整理1.顺序排列表顺序排列是简单的整理分数的方法。它是将所有个体的成绩,按高低顺序排列,并且列于表中,称作顺序排列表。这种方法简明清晰,一眼便能看到最高分数和最低分数,而且可以大致了解个体成绩在总体中的位置。2.1数据整理2.1.1分数整理2.频数分布表频数分布表是一种反映数据分布情况的统计表。所谓频数是指一群数据在各个数值(或区间)上所出现的数据的个数,也称为次数。每一个频数除以数据的总个数称为频率,或称相对次数。2.1数据整理由频数分布表可以看出各个分数段学生数的分布规律:在(560,580]分段中有22名,占全班人数的41%;在600分以上分段仅5名,占全班人数的9%;在520分以下分段2名,占全班人数的3.7%;等等。上述这些数据为我们改进教学提供了充分的依据。2.1数据整理2.1.1分数整理3.频数直方图由频数分布表可以制作频数直方图。方法是:以分数为横轴,频数为纵轴建立直角坐标系,在横轴上标出各组分数的组中值,在纵轴上等距标出频数值;然后以组中值为底边中点,组距为底边,组频数为高作出各矩形,即得频数直方图。2.1数据整理2.1.2成绩分析1.平均分数平均分数是用得最多的一种集中量数。所谓集中量数是指反映分数集中位置这个特征的数值,它代表一批分数,反映一批分数的典型情况,因此常用它进行不同分数组之间的比较。集中量数的形式有多种,如算术平均数、中位数、众数等。算术平均数是最常用的一种。2.1数据整理2.1.2成绩分析2.方差与标准差对于一批分数,除了要了解它的集中量数外,还应了解它的差异量数,即分数的分散程度或离散程度。差异量数的形式也有多种,方差和标准差是两个最重要的差异量数。标准差是反映全体考生分数之间的离散程度和差异情况。它与平均分一起使用,决定了某次考试分数的分布情况。s值越大,表示部分考生离平均分的“差距越大”,也就是分数分布较广;s值越小,则分数分布较窄或说“集中在平均分附近”。2.1数据整理2.1.2成绩分析3.变异系数标准差较准确地反映了一组分数的离散程度,它与原数据的单位相同,是一种绝对差异量数。在进行不同组间离散程度比较时,适用于单位相同、平均数相近的情况。如果各组数据单位不同,或虽然单位相同但平均数相差甚远时,不能直接用标准差比较,这时应使用变异系数。变异系数是一组数据的标准差与平均数的百分比,用CV表示:2.1数据整理2.1.2成绩分析3.变异系数2.1数据整理2.1.2成绩分析4.标准分数(z分数)标准分数是以平均分为参照点,标准差为度量单位的分数。它具有重要理论价值和应用价值。按照转换的方式和对分布形态的影响效果,可分为两类,其中一类是不改变分布形态的标准分数:2.1数据整理2.1.2成绩分析4.标准分数(z分数)2.1数据整理2.2经典测量理论难度:是指试卷(题)的难易程度。一般用试卷(题)的得分率或答对率(P)表示,所以难度事实上是容易度。P值在0~1,数值越大,说明试卷(题)越容易。2.2.1难度2.2经典测量理论2.2.1难度1.客观性试题难度计算对于采用二分法计分的题目,难度以通过率来表示:式中,P为题目的通过率,R为答对或通过该题目的人数,N为全体考生数此时,P值越大,其难度越小;P值越小,其难度越大。因此也有人将其称为易度,而将未通过该题的人数百分比作为难度指数。2.2经典测量理论2.2.1难度2.主观试题的难度计算上式适用于论述题、问答题和计算题等非二分法计分的题目。一般情况下,测验的平均难度接近0.50时,分数趋于正态分布,否则分数分布将出现偏态。就整个测验而言,当平均难度为0.50且题目组间的相关为零的情况下,分数呈正态分布,而难度值越小,则题目越难,低分段人数必然较多。难度值越大,题目越容易,分数将大部分集中在高分区。这样,在分数的分布上,就会呈现出两种不同的偏向,前者为正偏态,后者为负偏态。2.2经典测量理论2.2.2区分度区分度是指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果是水平高的考生答对(得高分),而水平低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;达到了0.3以上为好的题目;在0.4以上为优秀题目;低于0.3的题目,区分能力差。题目区分度的实质是用以鉴定一个题目有效性的指标,它的高低变化对测验的质量具有深刻的影响。与题目的难度相比,人们更关注题目的区分度的高低,并以此作为筛选和修改试题的主要依据。2.2经典测量理论2.2.2区分度1.得分率求差法将受测群体按题目得分的高低排列,取高分人数的27%为一组,他们的得分率记作
;低分人数的27%为另一组,他们的得分率记作
,用D表示区分度,则该题的区分度为:2.2经典测量理论2.2.2区分度2.得分求差法将受测群体按题目得分的高低排列,取高分人数的27%为一组,低分人数的27%为另一组,用D表示区分度,用H表示高分组得分总和,用工表示低分组得分总和,用n表示高分组(低分组)人数,
表示该题的最高得分,
表示该题的最低得分,则:2.2经典测量理论2.2.3信度信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次,所得结果的一致性的程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。2.2经典测量理论2.2.3信度1.分半相关将全卷中全部试题按题号或分数适当分半,得到两个平行的“子试卷”,计算这两个子试卷考生得分的相关系数,这样求得的是半个试卷的信度,然后再用Spearman-Brown公式校正,得到考试的分半信度系数。一般认为分半信度系数在0.90以上比较合适。这个方法比较适合多数为选择题的试卷。2.2经典测量理论2.2.3信度1.分半相关分半信度系数的公式为:2.2经典测量理论2.2.3信度2.内部一致性信度将通常采用的是克朗巴赫(Cronbach)的α系数公式:其中,是每个测试题目得分的方差,是整份测验总分的方差。α系数适用于一切非0.1记分和连续记分(即多重记分)的情况。它评价的是各题得分间的一致性,属于内在一致性系数。α系数值介于0与1之间,值越大的话,表示信度越高。实际应用中,α系数低于0.35属于低信度,应拒绝使用;α系数在0.5以上,可认为考试可靠;α系数在0.8以上,可认为考试的信度比较好。2.2经典测量理论例题:某一测验有6个题目,参加测验的无名学生得分如表所示2.2经典测量理论2.2.4效度效度是测验有效性或准确性的指标。由于效度分析可以针对各种要求和运用各种程序,而在特定的条件下,使用不同的分析方法可以得到不同的效度。因此,一个测验可以具有不同的效度指标。当我们讨论一个测验的效度时,只有界定了它的条件,效度才有确切的意义。2.2经典测量理论2.2.4效度1.效标关联效度测验的效标又可称为准则,是衡量测验效度的参照标准。效度的计算采用求平均区分度代替,公式为:2.2经典测量理论2.2.4效度2.内容效度测验的题目对所要测量的内容具有代表性的程度称作内容效度。它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题,主要用于学科成绩测验。内容效度一般不用数量化指标来表示,主要依靠在某种依据的基础上做出逻辑分析。为了提高测验的内容效度,首先要注意界定测验的内容范围,其次要注意系统取样。目前,大多数学科成绩测验的编制者根据教学目标的分类,先拟就测验的蓝图,将各部分内容和教学目标各层次按确定的比重表达出来,然后编制测验题,以满足提高内容效度的要求。2.2经典测量理论2.2.4效度3.结构效度指考试对理论上构造或特质的测量程度。确定结构效度需三个步骤:(1)建立理论体系(理论结构)并以此出发提出关于某一心理特征的假设;(2)设计和编制测验题,并实施;(3)用收集证据和逻辑分析的方法来验证与理论假设的相符程度。由于建立理论和提出假设的困难,操作步骤较为复杂,且没有单一的量化指标来描述有效程度,所以,在一般的考试质量分析中很少采用。2.2经典测量理论2.3项目反应理论2.3.1经典测量理论的局限性2.3项目反应理论常见的测验方式不外乎口头回答(口试)、动作展现或操(实)作、笔试等,其中又以笔试占最多数。笔试也就是测验专家所称的纸笔式测验(paper-and-penciltests),目前常见的纸笔式测验大都根据经典测量理论——真实分数(truescore)测量理论。2.3.1经典测量理论的局限性局限性:解决不了一些常见问题。例如,两位考生得分相同,是否其真实能力也一样?其实未必相同,经典测量理论就无法回答这种问题。对考试题目的评价(包括难度、区分度、猜测度等)严重依赖于被测对象,比如:样本组水平低,求出的难度值就高;样本组参差不齐,求出的区分度就高等。项目题目反应理论(ItemResponseTheory,IRT)计算机自适应测验(ComputerizedAdaptiveTesting,CAT)2.3项目反应理论2.3.1经典测量理论的局限性计算机自适应测验(CAT):现代测验理论不仅以数学模式来校准每一个试题的难度、区分度(可以把不司能力区分出来的指标)、猜测度等,更可以用可视化的图形来表示每个试题的难度、区分度与猜测度的相对位置(称为试题特征曲线),以及每个试题用来测试考生后所反映的信息量(称为试题信息曲线)。以项目反应理论为依据,配合现代计算机的高速运算能力,CAT的实施就成为可能。CAT又称为量身定做的测验(tailoredtest)。2.3项目反应理论2.3.1经典测量理论的局限性计算机自适应测验(CAT)应用实例:在美国合法从事注册护士(RegisteredNurse,RN)工作之前,必须取得RN执照(RNLicense)。要获得RN执照必须首先申请参加并通过RN考试(美国注册护士执照考试)。从1994年4月起,RN考试从传统的纸笔方式转变为CAT方式。计算机考试与以前传统纸笔方式的考试内容基本相同,考生不需要具备专业的计算机知识。RN的题目类型包括单项选择题、多项选择题等形式,考试数目依考生临场表现而定。最少75题,最多265题。考试最长时间6小时,考试期间考试中心安排两次休息:第一次休息在开考后2小时后;第二次休息在开考后3.5小时后。考试期间考生也可自行向考试中心工作人员要求额外的休息暂停。考试时计算机每次只显示一题,每题都必须回答,否则不会显示下一题,而且已回答过的题目不能查看或修改。计算机会根据考生的答题质量来给出随后的考题。如考生回答正确,计算机将提高考题的难度;回答错误,则将降低考题难度。考试成绩是由正确答题的难度和正确率、而非正确答案的数量来决定的。因此,当计算机根据考生的答题难度与正确率,对考生水平做出判断(即合格和不合格)后,就会停止该考生的考试。若无法确定,考生就得继续答题,直至计算机可以判断考生的水平为止。当满6小时(包括考前练习及考间休息)或考生做完了265题时,考试也就结束。2.3项目反应理论2.3.2项目反应理论的数学基础基本思路:被试的某些心理特质和对于具体反应之间存在一定的关联性,而且它们之间的关系可以用数学模型的形式表达出来,心理学家们建立了不少于20种模型,如多值评分项目的单维模型和多维测验模型等。人们可以依据实际的情况选择合适的模型,目前最常用的是三参数Logistic模型:2.3项目反应理论图2.3-1,给出了四个试题的项目反应特征曲线。横轴表示能力水平0,纵轴表示相应的正确反应概率。试题1和试题2具有最大的区分度,它们对应的项目特征曲线形状比较陡峭。试题3和试题4具有较小的区分度,它们对应的项目特征曲线增长比较缓慢。试题2具有最大的b值,所以它最难;而试题3具有最小的b值,所以它最容易。试题3的猜测系数为0.2它表明了对于能力水平较低的被试而言,通过猜测而给出正确反应的概率。2.1数据整理2.3项目反应理论2.3.2项目反应理论的数学基础计算机化自适应测验:是指在以IRT理论为基础建立的题库之上,不断地根据题目的各方面信息和受测者的答题情况估计被试(受测)者的能力,然后从题库中选取符合受测者能力的题目进行测试,直到达到预定的测试精度要求,即可结束考试。下面对计算机化自适应测验进行测试的各个环节加以详细描述。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大型农业活动策划方案(3篇)
- 屋面分段施工方案(3篇)
- 手链金店活动方案策划(3篇)
- 施工方案评审项目(3篇)
- 淮安泵房施工方案(3篇)
- 线下麻将活动策划方案(3篇)
- 西安围棋活动策划方案(3篇)
- 钓鱼春游活动策划方案(3篇)
- 高空滑梯活动方案策划(3篇)
- 4.1三位数加两、三位数一次进阶课后作业人教版数学三年级上册试题试卷含答案
- 2026年山东菏泽市高职单招语文试题题库(答案+解析)
- 2025中国建设银行远程智能银行中心校园招聘15人笔试历年典型考题及考点剖析附带答案详解
- 解读住建部令60号《建筑施工特种作业人员管理规定》2025
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)试题附答案
- 2026年江苏海事职业技术学院单招职业技能笔试备考题库带答案解析
- 化工企业复产复工方案
- 2026年鄂尔多斯职业学院高职单招职业适应性测试备考题库及答案详解
- 2026年低压电工操作证理论全国考试题库(全优)
- 中考英语研讨会培训课件
- 腰椎压缩性骨折课件
- 2026年大兴安岭职业学院单招职业倾向性测试题库及答案详解1套
评论
0/150
提交评论