




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 学习结果的测量与评定第一节 概述 众所周知,学生在学校里的学习效果以及他们的智力水平和个性特征等诸方面的情况,都需通过测量来进行评定。只有运用科学的方法去进行测量,才能了解是否真正达到了预定的教学目标,才能了解学生的学习结果及其心理发展的水平,并明确教学中存在的问题,以便今后合理地组织学生进行新的学习,进一步激发他们的学习动机。因此,测量与评定作为一种手段是学校教育过程中不可缺少的一个重要环节。 一、什么是学习测量与评定 (一)什么是测量和测验 测量是用数学方式对人的行为的描述。教学过程中的测量是用数学的方式对学生学习行为的描述,主要是借助于测验来进行。测验是通过一系列的科学程序(如编制题目、施测和评分等)对学生某一方面的学习行为进行测量。例如,给一个学生班一项100个题目的测验,其中一位学生得了70分,他的测验分数就是一种测量,也就是对于他的作业水平的一种描述。 (二)什么是评定 教学过程中的评定是根据一定的标准对学生的学习行为进行估价的过程。例如,前例中的那一位得了70分,家长问教师他属于哪一个等级,教师说70分是乙等,这就是给这位学生的一个评定。可见,评定与测量有密切关系,但也有区别。评定是在测量的基础上作出的,测量是种客观的描述,评定是一种主观的判断,但主观判断要以客观描述为依据,否则主观判断就是武断的判断。二、学习测量和评定的主要功能(一)诊断功能 测量和评定不但可以用来了解与评价学生的学习及智力发展水平,还可用来评价教师的教学,评价一个班级、一所学校或一个地区的教育、教学质量;不仅可以作跨区域的横向比较,还可作跨年代的纵向分析。但在学校中,教师更多的是通过测量的评定来了解每个学生的学习状况,分辨优劣,诊断学生在知识掌握和能力发展上的不足及问题所在,以便因材施教和个别指导。 (二)反馈与鞭策功能 测量与评定的反馈和鞭策功能可以从教与学这两个方面体现出来。 1为教师的教学提供反馈信息教师总是以测验为工具并通过评定从中分析自己的教学与学生的学习情况,以达到改进教学的目的。测量与评定贯穿于教学活动的各个阶段。在教学开始前的摸底测验及其评定,其目的是为了把握并评定学生的现状,使教师了解学生对于完成这一阶段教学任务在知识、技能和智力等方面的准备情况,以便确定教育目标和教学计划;在教学过程中的检查测验及订定,可使教师掌握学生对有关知识的学习状况及时发现教与学中的问题和缺陷,从而修改教学内容,改进教学方法,达到诊断学生学习上的困难和评价学生进步的目的,因此又被称之为诊断一进步评定;教学结束后的测验及评定,能使教师了解教学目标的完成情况,以及学生综合运用和迁移知识、技能的水平是否提高了,以制定新的教学目标提供依据。2.激发学生的的学习动机 定期的考核可以督促学生认真地对所学知识进行全面系统的复习,加深对教材的理解和掌握。测量与评定的结果能使学生更好地了解自己,并通过自我评定找出学习中的薄弱环节,调整学习方法,提出新的努力目标。 (三)管理功能 1编班分组和升留级的依据 根据考试的成绩择优录取学生,并以此编班分组,是学校通常使用的方法。因为只有了解学生的教育程度和智力发展水平,才能有的放矢地开展思想教育工作;也只有通过测量及学年成绩评定,才能鉴别学生在各科学习中的差异,确定其升留级等事宜,并据此向家长报告学生的学习情况。 2职业指导的作用 初中和高中毕业生将面临继续升学或就业选择的问题。因此,学生在校时的成绩及其各方面对他们的评定,是学生、学校、用人单位几方面共同关心的问题。学生的学习成绩,可作为其学业状况和发展方向的大概标志。而有关能力倾向测验和职业兴趣测验的运用,可以测量出学生的特殊能力和职业兴趣,是他们选择专业或职业的凭据。 3教育科学研究的工具 测量对于教育理论的研究和发展具有重要意义。例如:教育心理学的理论与实践的研究、教学方法和教材改革的研究都要以测量为手段来进行,都要通过对其教学效果的检验和评估来衡量,而教学效果在一定程度上又要通过测验成绩来体现。所有教学改革的研究和实践,只有依据测验成绩这一数量化的指标方更有说服力。 (四)教育心理功能 这是最易被忽视,但并不是最不重要的一个功能。测量和评定教育功能不只是表现在激发学生和教师的动机方面,它对学生和教师的自我意识,对情绪和意志也有影响。例如,肯定的评定容易使学生和教师从肯定的方向看待自己,自信心开始增强,而否定的评定则可能导致师生产生自卑感;肯定的评定可能使师生的情绪趋于安宁,而否定的评定可能使师生的不安水准上升,以至产生严重的焦虑甚至负疚感,肯定的评定可能提高师生的积极性,有时也会使积极性下降;而有时即使是否定的评定,只要指导适当,反而会提高积极性。最后,测量和评定还会以自己特有的形式对师生的人格形成发生影响。比如,成绩通知单上的成绩评价,以及伴随评价的学年末和毕业时的表彰、奖励等,都可能对学生人格形成有好的或者不良的影响。有时候某种形式的评定,虽然对当前的教学活动有利,但从长远的观点看,则可能带来不良的心理影响。 三、教育工作者应具备的测量与评定的知识和能力 要全面深刻地掌握和使用测量和评定的理论和方法,并非专业人员所能及。标准化测验和进行综合评定,对于一般人来说确属不易。但是,教育工作者应具备最起码的,为教学所必需的评价的知识和能力: 理解与清楚地表述教学和管理目标,懂得怎样通过教学和管理活动达到目标,全面了解测量与评定的涵义及评定对教学及管理的意义。 理解有效测量和评定条件,明确自己在编制、选择和使用测量工具时所扮演的角色。 能自行编制日常教学使用的测验,能适当地主持测验并有效地使用测验的结果,以为改进教学和管理之用;能选择适当的标准化测验。 能编制、选择与使用非测验式的测验工具。 能综合解释测验的分数和非测验式测量的结果,作出评定。明确各种测验的用途及限制。 能根据评定的结果,改进自己的教学和管理工作。 此外,对参与评价的人来说,还应有高尚的人格,应当使自己参与的评定工作合乎道德规范,不应使学生或教师感到高度焦虑,损伤他们的自尊心或引起恶性竞争。 四、学习评定的分类布鲁姆(Bloom,BS)的分类:将评定与教学工作联系起来,把评定分为三类:一是配置性评定,二是形成性评定,三是总结性评定。这个分类已被许多心理学家认可和采纳。在我国的教学实践中,也存在类似的情况。 (一)配置性评定 一般在各学年、各学期开始时或开始前施行,其目的是要了解学生是否具有达到教学目标所必需的基础知识和技能学生的准备状态。通俗地讲,即是知道学生的底细。所谓学生的预备状态或底细是根据他们在同年级或同年龄学生中的地位,以及各个人成绩水平上的差异来衡量的。摸清情况,就可以更好地编班分组,妥当地安排教学计划等等。这种评定因而可称为配置性评定。 (二)形成性评定 一般是在教和学的过程中进行的,目的在于了解教学结果,探究教学中所存在的问题的缺陷,以便对教学工作进行调整。例如,比较同一个学生在不同学科中的成绩,以及在同一学科中不同方面的成绩,可以对学生提供一般的指导,还可以帮助我们进行个别教育。因为知道了学生的掌握程度,了解到他们在理解和技能等方面的缺陷,以及他们在学习上的困难,可以确定一般的指导工作和个别的补救工作,并调整课程及方法,使之更切合他们的需要。形成性评定总得进行多次测试,根据多次测分的进步进行比较,可以得小学生变化或成长的指标,用以评价学生的进步及教学计划和教学程序的效果。总之,形成性评定是通过对教牛结果的了解来调节教学工作的一种评定。由于它既能诊断学生学习的困难,又能评价学生的进步,故又被称为诊断一进步评定。 (三)总结性评定 一般在学期末进行,目的是了解学生通过学期的学习,是否达到教学目的的要求,以此作出较全面的总结性评定。典型的例子就是普遍采用的成绩报告单。总结性评定具有对以后学习的预测作用。诚如某些研究表明,当前的成绩往往是后来的成绩的征兆。人们据此日益相信,根据学生的现有学习成绩,可以预测将来的学习成功。例如,学生在初中第一学期某门学科或某类课程的得分,可作为他以后学习该门学科或该门学科成绩的预示,得分高的多半能顺利地学习后来的有关科目,反之亦然。因此,总结性评定也可以提供有关编班分组等方面的资料。就这个意义来说,总结性评室是与配置性评定事实上密切联系的。 五、有效测验的必要条件 作为测验工具的测验或量表,是有良莠之分的。判断一个测验是否有效,不能只凭主观经验,而要依赖客观的标准来衡量。不管是心理测验还是教育测验,也不管是标准化的测验还是教师自己编制的测验,都要考虑效度、信度、难度、区分度等反映该测验质量特性的重要指标,否则,这一测验的代表性和可用性就值得怀疑。 (一)效度 测验效度是指测量的真实性、正确性,即该测验与所要测量的目标特征相符合的程度。如果一致性高,说明这个测验的效度高,反之则低。效度所要解决的基本问题是:该测量所要达到的是什么目的?它对所要测量的特性测得有多准?例如,某智力测验所测得的结果是“越用功的学生得分越高”,那么这个测验实际所测的是学生“努力”的程度,而不是“智力”高低的程度。就智力测验而言,其效度就很低。可见,学校中常用的成绩测验也同样要有定的效度。这类测验主要考虑的是内容效度,就是要看该测验能否真正按教学大纲的要求,考查出学生对所学知识的掌握情况及其能力水平。如果达不到这一目的,就像一支准星歪了不能击中目标的枪支,失去了其应有的价值。 效度通常是利用该测验的结果与一个反映测量目标的参照标准(效标)之间的相关来表示,所求得的相关系数即为效度系数。相关系数越大,说明效度越高。在学校的各科测验中,教师对每个学生的评定值可以作为效标。如果测验结果与教师平时对学生观察和评定的结果一致性很高,就说明这个测验具有较高的效度。般要求这类测验的效度值应当在035至0.60之间。 效度是测量工具必须具备的首要条件。因此在编制或使用测验时,应该首先考虑和评鉴它的效度。 (二)信度 信度是反映测验分数的稳定性的可靠性的指标,是指测量的前后一致性程度,只有信度高的测验才能够作为一个稳定可靠的测量工具加以应用。 测验的分数难免要受到一些偶然因素的影响,由此而产生的测量误差称为随机误差。如试题取样不好,评分标准不一致,指导语不清楚,测验过程受到干扰,受测者情绪紧张或身体不适等。这些偶然因素对测验分数影响越大,测验的信度就越低。反之,其信度越高。国外一般要求学科成绩测验的信度值要在090以上。信度值是用相关系数来表示的,又称为信度系数。计算信度系数的方法主要有:再测法:我们用某一个测验对相同的学生前后施测两次,计算出这两次测验成绩的相关就可得到再测信度;复本法:这种方法需要编制出两套以上内容、形式、数量、难度等方面都等值的测验,然后根据同一组学生接受两次复本测验的得分计算出相关系数,就可得到复本信度;分半法:当一种测验没有复本而且只能施测一次的情况下,通常采用分半法来估计信度。这种方法是将一套测验分成对等的两半,根据每个人在这两半试题中的得分所求得的相关系数即为半分信度。在学科测验中,较多的是应用分半法和复本法来计算测验题的信度。 (三)难度难度是指套测验中试题的难易程度,这是用来进行题目分析和评价试题的主要指标之一。难度的计算可依据试题形式的不同采用以下两种方法,其公式为上面的公式适用于客观性的试题,下面的公式适用与论文式题目。难度值越小,说明通过率越低,题目就越难。 好的测验题目应当有适当的难度,难度过高或过低对于鉴别学生的心理特性和学习成绩都是无益的。教师选用何种难度的试题来组织和编制套测验,应视测量的目的而定。 难度值所反映的是相对难度,而不是绝对难度。一个题目的难度除了与内容或技能本身有关外,在很大程度上还取决于题目的编制技术和受测者的知识经验及他们的复习准备情况。所谓难者不会,会者不难,指的就是难度的相对性。 (四)区分度 区分度是测验题目对考生水平鉴别能力的指标,是测验题目能够鉴别受测者水平的程度。只有当测验题目的区分度高时,才能对学生的水平有较好的辨别能力。在这些题目上,好学生得分高,差学生得分低;而区分度低的题目,各类学生的得分没有规律。 区分度的计算多采用相关法,即以考生在某个题目上的得分与总分的相关作为该题的区分度值,相关越高,区分度越好。国外应用在教育上的标准化测验要求优秀题目的区分度在030以上,否则就需加以改进或淘汰。 区分度和难度之间有着密切的关系。一般来说,中等难度的试题对学生总体的区分度最高,而难度大的题目对优秀学生有区分力,难度小的题目对差生有一定的区分力。因此在个测验中,只有题目的难度分布合适,才可能把各种水平的考生最大限度地鉴别出来。这好比是一把尺子,全距越长,刻度越多,可应用的范围才越广,测量得也越精确。 总之,难度和区分度也是衡量一个测验优劣约重要条件,将直接影响到测验的效度和信度。 (五)可用性 即测验在解释学生的能力、知识等方面有多大用处;测验的形式与内容是否适合学生的年龄特征;测验所花的时间和人力是否合适;以及评分是否客观,主持测验是否通过过特殊训练等。如果在这些方面使人不能接受,测验的可用性就低。第二节 常用的测验方法 学业成绩测验是根据教学目的,控制、激励和调节师生的教学活动以及鉴定教学效果的教学环节,是测量学生的学习能力和学习成绩的种方法,是关于学生学习成就情况的衡量。通过测验,教师可从中发现教学上的成败,研究改进教学;学生能从中获得矫正性信息,调整自己的学习;学校领导可了解教学的情况,采取相应的措施;学生家长也能了解子女的学习情况,配合学校指导和督促学生学习。因此,学业成绩测验是衡量教师教得如何和学生学得如何的一个标志。一、论文式测验(一)论文式测验的涵义及其试卷的编制和评分 所谓论文式测验,是由教师根据教学内容的要点,择其较重要者出几个试题,让学生用论文的方式,自由地以书面解答问题。至于试题的深浅,则视教学水平和学生的学习程度而定。回答可以是一个短句,也可以论述一个问题,还可以是在规定的时间内写一篇文章。例如:“简述明朝中后期资本主义萌芽发展的情况”, “试述明末农民战争爆发的原因、经过及历史意义”等等。 (二)论文式测验的利弊 1论文式测验的优点 论文式测验应用甚广,它之所以被广泛采用,其理由如下 命题省时容易 论文式测验容易进行,大多数学科都可以使用它。在使用这种方法时每一学科至多出上五六个或七八个题目就够了,有经验的教师只需花几分钟的时间就能把题目出好,此较省时省力。由于题目较少,打印试卷也不困难,即使写在黑板上,学生也能看清。 有利于测定学生的思维能力和写作能力 学生在回答问题时,必须组织自己的思想,进行有系统的叙述。对如何布局、如何立论、如何着笔,学生必须经过一番斟酌。这就使得论文式测验有利于测定学生组织各种观点和整理各种证据的能力,构思确凿论据的能力,批判地评价各种观点和清楚地、令人信服地表述这些观点的能力。这种方法甚至还为学生进行独立性思维和创造性思维提供较大的余地,学生能自由地用他们自己的观点来回答问题。 了解学生的学习程度 学生在回答问题时,必须将各个试题的要点进行详细的阐述,如果答案词意含糊,或言不尽意,或文不对题,便知道学生对这个问题的了解不深,或根本没有了解。一般来说,在论文式测验中,学生所做的答案不一定全对,也不一定全错,这样就容易了解学生对诸多知识的综合能力和掌握知识的准确程度。 减少学生情境压力在论文式测验中,学生在思索用什么意思和词汇来表达他所学的知识时,他没有那种受到同班同学和老师监督的感觉。用写的方式回答问题,使他有机会比较清醒地主动回忆知识并表达自己的思想。 论文式测验还特别适用于在知识领域不甚稳定、简单的“正确答案”还找不到的情况下进行测试用。 2论文式测验的缺点 论文式测验虽然有其应用的价值,但人们对它持有许多批评意见,甚至还有人主张要完全废除这种考试的办法。 评分的主观性 论文式测验的最大缺点,就是其主观性太强,难于客观地评分。论文式测验因答案无法确定,所以评阅者在评分时也难有客观的标准,不论是分析评分法还是印象评分法,都是如此。教师评分几乎完全凭着自己的主观意见。同一个教师在两个不同的时间对同一答案的考卷不能给予相同的评分:阅卷高兴时,便会多给分数;不高兴时便会少给分数,因为没有尺度衡量,没有法则遵行。至于不同的教师对同一答案的考卷所评定的分数,其差异更大。教师们各以自己的好恶评分,缺乏客观标准,同一份试卷,如遇到评分严格的教师得分可能很低;如遇到评分宽松的教师,得分可能很高。 试题缺少代表性 学生学习了一年或半年的课程,在考试时仅仅只需回答五六个问题,这些试题不可能涉及到教学内容的全部,因此试题的内容既缺乏广博性,也缺少代表性。所以学生对试题的范围,常常作投机性的猜测,而懒于进行全面的复习。 问题涵义太广泛 教师用论文式测验考察学生学习成绩,往往给以笼统广泛的问题,学生在回答时难有确定的范围。如果学生的答案能符合教师的观点,即得高分,反之则得低分。 易受其他因素干扰 测验的主要目的之一,在于考察学生对某门学科的知识所能掌握的程度,而论文式测验则往往会因其他因素而影响评分的结果。例如,文笔是否通顺常常影响评阅的结果。 再加之编制论文式测验很容易,而且评分费时太多,这也会促使教师对评分持马虎态度。 (二)论文式测验的改进 改进论文式测验,可以从注意测验所包含的学科内容与妥善地编写问题两个方面着手。 问题要明确。选定某些内容的试题时,要对它们同所要达到的教学日的之间的切合程度加以细致的检验,务使所有的问题足以揭示出学生的学习成就。 采用一些可用较短篇幅回答的问题,以求取样适当。还可用若干小问题代替一个大问题,学生可作明确的回答,教师也可作可靠的评分。 事先拟好指导评分的规则和标准,其中包括可以接受的答案,并规定出这些答案的比重。这些规则和标准有利于增进评分的信度,并对影响评分客观性的无关因素的控制起着指导的作用。 不要因错别字或语法有错误而扣分,除非考试是为测试这些方面而特别进行的。如果是关于某门学科的知识技能的考试,就应当以此为限。若是要测试语法、识字和写字,那就要采用另外的测量工具。 先要阅看几份考卷,以便对考查的性质得到一个一般的观念,并用来检查与修改评分的规则和标准。 在评定一份考卷时不要知道答卷者的姓名,同时尽可能在几乎相等的条件下评卷定分,或采取两三个教师合评的方式。 二、客观测验 由于论文式测验的信度较低,阅卷任务较繁重,以及评分缺乏客观性等等,人们希望对学生学业成绩的测验以客观性代替主观性,以多数项目代替少数问题,以学习材料的记忆代替广泛的论述,以意义明确的短语代替观点模糊的虚文,以考查知识的获得代替无的放矢的漫谈,以划一的标准评分代替个人的偏见评价。于是,一种新的测验形式客观测验应运而生。 (一)客观测验的涵义及其与论文式测验的区别 客观测验是用一些非常简单或机械式反应来回答的测验。其中最为人们听熟悉的是填充、正误、多重选择和配对等形式。最通用的那些客观测验项目都倾向于测量有关知识的回忆和再认,这种测验项目简短,答案可填一字、一句或个符号,或从许多可能的反应中选取个正确反应。埃贝尔(RLEbel)在他的教育成绩测量一书中,曾特别就论文式测验与客观测验在学生学业的评定方面的比较(见表71),以见异同,分别优劣。 (二)客观测验项目的形式及其编制客观测验与论文式测验一样,可由教师自行编制,并用于日常的教学。在介绍客观测验项目的形式之前,有必要提出编制客观测验的一股原则。 1编制客观测验的一般原则 测验要测试学科中的重要内容。教师在编制测验时,必须重视学科的特点,其内容要针对教学的目标,并且是学生已在课内外学过的圹哎触的。必须确保测验所反映的学科重点的比例适当,同某一课题有关的测验项目究竟应占多少,须参照这个课题对这门学科的重要程度而定。不要采用繁琐的项目,避免因过分强调死记硬背而妨碍有关意义和一般原理的理解。 要降低测验项目的阅读难度,除非测验的目的在于测最阅读能力。测验的项目必须测量学生的知识技能,尽可能不受他的语言能力的影响,因此,测验的题目应用简洁明晰的语言来表达,避免使用生疏复杂的语句,使学生易于理解。语句的措辞重在表达意思,避免双重否定或模棱两可的词语,以免学生受文字的影响,而不易回答。 一个项目不要为另一个项目的答案提供线索,回答某一特定项目的能力也不依靠前一项目的回答的能力。一个特殊类型的所有项目都必须放在一起。正确答案的次序必须按随机的原则来排列,要避免系统化的模式。 必须避免引人上当的问题,诡诈性和欺骗性问题既可能损害测验的真正目的,又可能影响学生的学习风气。指导语要完整,举例必须清楚。学生有权知道对他的要求究竟是什么,在说明任务时应使他了解和遵循指导语。 测验项目的措词应适当,以便使学生回答问题的内容而不回答问题的形式。测验项目的措词对答案不应有启示,以免真正不知道问题适当答案的学生根据测验项目的措词而得到正确的答案。 2客观测验项目的形式及其编制 填充 这种形式是在测验中列有若干不完全的语句或答案,由学生填上适当的字、词或短语来补充完整。 正误 正误也称是非题或判断题;这种形式是在测验中列有若干正确或错误的语句,由学生来辨别或判断是与非,正确者即在句子后括弧内作一正号;错误者则在句子后括弧内作一负号。 选择 选择也称多重选择,这种形式是在测验中列有若干不完全的句子,每一句子后又有3至5个答案,由学生根据前面句子的意思在各备选答案中选出一个或多个正确答案,然后将选定答案前的符号填人括弧内。 配对 这种形式是在测验中列有两列词句,由学生就前一列词句与后一列适当的词句互相配对。 (三)客观测验的利弊 1客观测验的优点 试题涉及教学内容的全部范围。客观测验的最明显的优点是问题的取样比论文式测验更广泛,可涉及到教学内容的全部范围。因此,学生对所学的内容必须全面复习,而且所有的细节需注意或予以记忆,这可养成学生精读的习惯;而不像论文式测验那样,学生可事前猜测或匆匆准备即可应试。试题简明扼要,易于回答。评分客观迅速。 客观测验的形式多样,不同形式的项目在一定程度上可以测量出学生掌握知识的不同水平和理解程度。 2客观测验的缺点 命题费时且困难。客观测验的试题,其涉及的范围很广,题目数量很多,编制如此大量的测验项目的任务,即使对最有经验的教师来说也是繁重的。 偏于零星知识的记忆。客观测验的内容,注重细节,要求学生记忆知识。因此,学生在准备考试时,其全部时间与精力,都费在阅读记忆上,用不着深刻的思考,而以呆板的记忆代替灵活的思维。测验项目为数繁多,似乎包罗广泛,但各项目所要考查的,乃是零星的知识、个别的事例。忽视教学内容全部意义的完整性,以及各部分间的连贯性,从而使学生不易养成有系统的研读习惯,对思想的组织和文字的表达能力,都不易得到发展。 不能确知学生的学习程度。由于学生在回答客观测验的问题时,只需填写字、词、短句或符号,这样对学生是否理解教学内容,或掌握别什么程度,都无从确知。 三、标准测验 标准测验也称标准化测验或标准化考试,是目前国际上广为流行的一种测验方法。它是一种大规模的、具有统一标准的、按照系统的科学程序组织的、并对误差作了严格控制的测验。 标准测验根本不可能由教师或学校自行编制,一般由专门的考试机构编制试卷并组织实施。 国外很多国家的教师都用标准测验作为评定教和学的工具,以确定学生达到所要求达到的水平的进展情况。对教师来说,如果对学生学习的进步有了客观了解,便可更适当地改进教学,更有效的指导学生的学习。对教育行政人员来说,通过标准测验比较同一学校的不同班级或不同学校学生的成绩水平,便可更有力地加强领导和管理。 四、心理测验 学生通过教学活动,除了学业会进步外,与学习有关的几个变量如智力、性向、人格、兴趣、态度等方面也会发生一定的变化。因此,为了增进教学效果,实现教学目标,教师除了必须了解学生学业成绩测验外,还应了解与教学有关的其他测验。 (一)智力测验 教学的任务有很多,但归纳起来,主要有两大类:一是传授知识,二是发展智力。教师可以通过学业成绩测验来测量学生掌握知识的情况。虽然学业成绩测验也可以测定一些学生的智力,但对学生智力水平的高低,通过教学后智力的发展变化情况的测量,更主要的还是依靠智力测验。 目前世界上最流行的两种智力测验是斯坦福一比奈智力测验和韦克斯勒智力测验。 1斯坦福一比奈智力测验 斯坦福一比奈智力测验包括下列各种问题:字义、语言类推问题、适应问题、算术问题、记忆、一般常识、发现错误、图画、空间问题、理解等。 比奈首先提出了智力年龄(MA)这一概念。它表示智力达到某一年龄水平。每个年龄组都有6个测验项目,每个项目代表2个月的智力。和测验时,如果个10岁的儿童通过了10岁组的全部测验项目那他的智龄就是10岁。如果他还通过了11岁组的2个测验项目(代表4个月)和12岁组的又个测验项目(代表2个月),那他的智龄就是10岁6个月。推盂把智力商数(IQ)作为智力量的单位。智商表示儿童智力年龄与实际年龄之间的关系,即智龄与实际年龄之比(比率智商)。为了避免计算中的小数。将商乘以100,其公式为:智商=智力年龄/实际年龄100 但实际上,对成年人进行智力测验用上述方法计算智商,会发现随着年龄的增长,平均智力越来越低。于是一种新的智力测验和新的计算智商的方法应运而生。 2韦克斯勒智力测验 韦克斯勒智力测验是美国心理学家韦克斯勒(DWechsler)创造的,它是另一个在世界上被广为使用的标准智力测验。它包括韦氏成人智力量表(WAIS)、韦氏儿童智力测验表(WAIS)和韦氏学前儿童智力量表(WPPSI)3种。 韦氏量表属于成套测验,即每一个量表都由很多分测验组成。这些分测验可以归为言语的:如常识、般理解、记忆、词汇、算术推理等;操作的:如填图、图片排列、积木设计、实物拼凑、形数交替、迷津等两类。因此,测验结果可以分别得出一个人的言语智商、操作智商和总智商3个数值。 韦氏量表是运用统计学原理,根据对人的智力的统计规律遵循正态分布这一事实,计算离差智商来表示智力高低的。韦克斯勒假定,人们的智商是以平均数为100和标准差为15的正态形式分布的。因此,其计算智商的公式如下: 用这种离差智商,可以确定一个人的智力在同龄人当中的相对位置;诊断出他是智力落后或超常。一般认为智商在70以下属智力落后;130以上可谓智力发展优异。 3综合学业性向测验李小融、魏龙渝:教学评价,217页,成都,四川教育出版社,1988。 综合学业性向测验的目的在于测量学生学习各门学科能力的真实程度。这种测验不仅可以鉴别学生能力的高低,而且也可分析比较学生能力的偏向或在各方面的能力的高低。综合学业性向测验包括分类性向测验(DAT)、美国大学入学测验(ACT)、学业性向测验(SAT)、米勒类推测验(MAT)以及研究生性向测验(GRE)等。 (二)人格测验 学生行为的差异,主要表现在能力与人格两个方面。所谓人格,是指在个人的生理基础上,受到家庭、伴侣、学校教育和社会环境的影响,而逐步形成的兴趣、爱好、习惯、性格、态度、道德、信念等心理特征的总和。在教育上经常可以听到这样的说法:教育的主要目的之一是培养学生健全的人格,教育的主要功能之一是引导学生使其人格获得充分的发展。这就是说,通过教与学,学生各方面的人格特征都应得到发展,或发生不同程度的变化。教师要了解学生这方面的发展和变化,可以通过人格测验,由于人格特征复杂多样,因而其测验也包罗万象。 1自陈人格测验 自陈人格测验也称自陈问卷,是指被测者对自己的人格,按自己的意见予以评定的一种方法。具体来说,自陈人格测验是研究者将其所需测量的人格特征,编列许多问题,每一问题陈述一种行为特征,然后印成表格分发给被测者,使其就表格上所列问题,自行作答。这种方法不要求被测者行文自述其人格特征,因为这样不能控制测验的变量,也难以客观评分。因此,自陈法一般都采用客观测验的形式。 最常见的自陈人格测验有:明尼苏达多相人格测验;加利福尼亚人格测验;莫尼问题调查表;卡姆溜人格测验;内外向人格调查表;瑟斯顿性格测验等。 2兴趣测验 兴趣是人对事物的特殊认识倾向。所谓认识倾向,即在认识过程中带有相对稳定的指向、趋向,能够维持较长的时间。 兴趣影响学生的学习和行为,因此,测量学生的兴趣,可以促使教学与职业指导的进行。在学校中经常可见一些学生对某些学科有学习潜能,却无学习那些学科的兴趣,因而时常反悔,徒然浪费了时间和精力。较为著名的兴趣量表有:爱德华个人兴趣量表;斯特朗职业兴趣量表;库得职业兴趣量表等。 3态度测验 态度是人们对人、事或物的喜好或厌恶的倾向,与其行为有着密切关系。学生对教师、校规、学业、父母或学生对学生的态度,都影响教学效果。态度的测量通常有两方面的困难:其一是态度与行为是否经常一致?其二是公开的态度能否代表私下的态度?如果态度归态度,行为归行为,则测量态度无助于了解或预测行为。若公开的态度与私下的态度是两回事,则测量态度只能获得个人愿意公开表达的态度倾向,因而无法了解其真正的态度意向。当然,由于情境的变化、时间的更异和个人经验的增加,态度可能有某种程度的改变,其测量信度因而会受到影响。要测量态度,应该掌握态度所包含的因素,因而测量的因素必须与态度密切相关。测量态度应包含的因素: 态度的倾向,如喜欢与否,肯定与否。 态度的深度与强度,如喜欢、很喜欢、不喜欢、厌恶。 态度的中心,指人格心理体系中重要的因素,包括情感、认知和行为因素。 态度的外显性,态度不能直接测量,但可以通过对人们的言语、行为以及其他方面的表现的测量去推断其态度。常见的与教学有关的态度测验有明尼苏达教师态度测验、各学科态度测验和学习习惯与态度测验等。 4价值测验 价值是人们对人、事或物所作的好坏判断。个人认为有价值的人、事或物,容易被他所接受,也能引起他接近、了解或获取的兴趣。反之,若个人无视于某人某事某物的价值,他会有意忽略或回避。价值的测量与兴趣或态度的测量相似,因为三者有时很难完全区分。这方面的测验有价值测验、人际价值测验和工作价值测验。 5行为观察 使用上面介绍的几种自陈人格测验,经常会遇到若干有待克服的困难。例如它需要被测者的充分合作、诚实填答和自我了解,否则,所搜集的资料不足以代表个人的典型行为或人格特征。运用行为观察法可克服上述之不足,但还应同时结合被测者在上述几种方法中所表示的各种特征,加以相互印证,才有一定的可靠性。一般不宜单以观察行为来确定其人格,因为行为和人格特征不是一一对应的简单关系,行为仅是人格的一个重要参考方面。 6投射人格测验 投射人格测验是在测验时向被测者提供些模棱两可的刺激,让他在不受限制的情况下,自由地做出自己的反应,使其不知不觉地表露出入格特征。即在没有控制的情况下,个人内在因素通过对某些刺激的反应投射出来。作为刺激物的材料有内容模糊的图片、未完成的句子、没有结尾的故事等。 投射人格测验的优点在于没有自陈测验的令人受窘的问题,从而减少被测者的紧张心情,使他在轻松的气氛下不自觉地“吐露”真情。投射法的使用,还可避免被测者得知测量的意图,使他猜不出测定者要他回答些什么,故难以作假,这可使其反应较为真实可靠。属于投射人格测验的有:罗夏墨迹测验、主题统觉测验、儿童统觉测验、文字联想测验和名字完成测验等。 不过,投射人格测验的有效使用,完全依赖于有经验的主试者,而且主试者对被测者的反应还要进行某种程度的主观解释,这些都需受过专业训练的人才能胜任。第三节 常见的几种学习评定量表 正如自然科学所总结的那样,一门可评定和测量它所研究的现象的学科将比那些不能够做到这一点的学科发展得快一些。随着测量技术的发展,人们试图用不同的方法评定教师的教学质量。下面介绍几种常见的评定量表形式,这几种量表形式。被证明是在教学评价中比较重要的量表形式。 一、图示量表这种量表是将答案的定序尺度用标线的方法提出来,回答者可在标线的任何一点上划上标记以表示自己的评定。例如,当评定项目为“任课教师课堂教学目的要求是否明确”时,可以将回答的定序尺度设计为:回答者可在自己认为适当的地方用规定的符号表明自己的评定。如认为任课教师的教学目的要求完全不明确时可以在第1处打上;非常明确时便在第7处打上;情况一般则在第4处打上;一般偏上在第5处打上;接近非常明确时在第6处打上;般偏下在第3处打上;接近完全不明确在第二处打上等。这种图示量表的形式,如果在中点使用0,两端还可以表示相反的意见及不同的程度: 图示量表在定序时每一间距一定要相等,否则会使回答者发生困惑,不好答问,并会增大某些间距大的类别选答的可能性,降低间距小的类别的选答可能性。 图示量表类似于温度计,每一刻度都可以反映出评定者对教师及其教学的看法的差异。其优点在于设计者不必想出好多形容词来表示回答的不同程度。但是,评定者在确定选择哪一刻度表丸;自己的意见时,准确度就不如形容词量表。如果标线上的刻度很多,情况尤其如此。例如,要是量表的标线上有10个刻度,评定者可能觉得自己的意见是处在中间状态,但要分清到底是5或6则很困难。这就需要在设计时十分注意刻度的数量及其区分界线的问题,使量表能恰当适合回答问题的需要。 在图示量表中,由于评定者的标记可以划在一个按次序排列的序列的任何一点上,因此它允许有非常精确的特征分等。但是这种量表又比形容词量表和数值量表更难于列表显示,因而很少被用于大规模的或日常的评价方案中。 二、形容词量表 这种量表在提出的问题之后,用一组序列化的形容词或修饰短语的方式提供各种不同程度的答案,回答者在每个形容词及短语上画圈或做上记号,以表示自己的评定。例如: 极好;很好;,好;尚好;不好。 完全同意;同意(或赞成);无所谓;不同意(或反对);完全不同意(或极反对);无法回答。 绝对正确;正确;较正确;不正确;极不正确;无法回答。 很好;好;可以;不对;糟糕;无法回答。 经常;偶尔;完全不。 极重要;重要;较重要;不重要;不知道。 非常赞成;相当赞成;稍许赞成;难说;稍许反对;相当反对;非常反对。 形容词量表允许有与形容词本身一样的细微差别,如“好”与“坏”这种明显的差别和“尚好”与“好”这样细微的差别。重要的是,某些形容词构成了一个明确的量表,这个量表是按照从好到坏,从多到少、从不常见到常见等顺序(或者相反的顺序)而清楚地呈现的序列,相邻的一对对形容词之间在语义上的差别近乎相等(如不好尚好好与不好尚好极好)。因此,在缺乏相同的间隔的情况下,分析就会被限制在较低等级的、无参数的统计中。 三、数值量表 数值量表是为了克服形容词量表不能数量化的缺点而出现的一种量表形式,这种量表只是简单地把数字加在形容词量表上,对每个等级的答案都标上分数。例如: 极好(5);很好(4);好(3);尚好(2);不好(1)。 完全同意(5);同意或赞成(4);无所谓(3);不同意或反对(2);完全不同意或极反对(1)。 绝对正确(5);正确(4);较正确(3);不正确(2);极不正确(1)。 很好(5);好(4);可以(3);不对(2);糟糕(1)。 经常(3);偶尔(2);完全不(1)。 极重要(5);重要(4);较重要(3);不重要(2);不知道(1)。 这种量表由于数字的出现,使得它的结果更加容易被制成表格,还便于输入电子计算机进行处理以及资料登记,使用起来也比较容易和简便。所以在教学评价实际中,数值量表是最流行的量表之。 图示量表、形容词量表和数值量表的主要优点是简单明了,主要缺点是谷易受到评定者误差,特别是评定者的中央趋势误差的影响,往往把过多的教师及其教学评为中等。从而降低了评定的价值。为了避免这些误差,教学评价工作者进行了大量的研究,提出了一些新的形式。下面接着介绍行为量表和图示量表、形容词量表以及数值量表的变体。 四、行为量表 观察教师在课堂教学时的表现及其行为,也可以用来评定教师及其教学,而且还可以不使教师察觉。从而获得比较可靠的资料。教师在课堂教学时的表现和行为是容易观察到的,但是要确切地记录某个教师在某教学时间内的表现和行为则不那么容易了。而且教学是师生双边活动,除教师的表现和行为外,学生在课堂上的表现和行为也是极其重要的。若要观察个班级的学生在课堂上的一系列行为则要费更长的时间和用更多的手续了。 因此,进行行为评定的首要前提是准备或设计教学行为的量表,以此表明被评教师在这个量表中所居的位置。设计行为量表可按下面的程序进行:首先要求评定者熟悉被评定的教学现象,而且要求他们描述其中的有效行为或无效行为。接着,研究者把这些描述分成相对来说内容较少的种类并给它们命名。作为对分类的检查,也可组织有丰富教学经验的教师或教学专家及教学评价专家再次把上述描述分配到已命名的种类中。然后,评定者把可以有效地分类和评定的那些描述归人一个为各类描述而设置的量表,使用这些对教学行为的描述作为量表的标度。例如: 通过教师与学生的接触来评定教师对教学的态度: 在教师家里召开研讨会。 一愿意在正常的上班时间之外和学生一起活动。 一一在办公室和学校的其他地方会见学生。 乐意占用办公时间与学生交谈。 勉强安排最少可能的办公时间与学生接触。 拒绝在课堂之外会见学生。 行为量表通常分为37个单位或等级,每个等级代表某一教学行为的一个增量。评定者根据任课教师在教学的某一方面的行为的程度不同而在量表的相应等级上做上记号。 但是,设计行为量表可能是一件相当困难的事栖。目前国外也多是-些关于人格特征方面的行为量表;至于教学评价方面的行为量表,国内外都几乎很难见到。这里介绍个关于教学评价方面的行为量表雏形供参考(见表72)。虽然这个量表还很粗糙,各个项目的等级标准不够明确具体,评定项目也需仔细推敲等等,但也算是一个尝试。行为评定量表的基本原理是着重于行为的精确性越强的量表,会得到越可靠和越有效的资料。但是行为评定量表在很大程度上依赖于那些最初进行评定和分类的评定者,并且需要做大量的工作。而这方面的研究并不尽如人意。课堂教学评定量表(一个例子) 五、常见的几种量表形式的变体 由于常见的几种评定量表容易受到评定者误差的影响,因此,图示量表、形容词量表和数值量表的三种变体也值得人们注意。 (一)加涅1974年设计的“现实一满意等级量表” 加涅等人1974年设计了一种双重目的的“现实一满意等级量表”,以使评定者回答有关每一教学评定项目的两个问题。例如: 1你如何评定任课教师的语言清晰度? (1) (2) (3) (4) (5) 从不 几乎不 偶尔 时常 经常 (问题) (问题) (问题) (问题) (问题、 2在这个项目中你认为哪个评定是您满意的? (1) (2) (3) (4) (51 从不 几乎不 偶尔 时常 经常 (问题) (问题) (问题) (问题) (问题) 第二问旨在使评定达到某个标准或水平,并对照该标准或水平解释评定者对第一问的回答。 (二)多伊尔在1975年提出了一种双重的“评价一重要性量表”1你怎样评定任课教师对别人观点的接受?(1) (2) (3) (4) (5)不好 尚好 好 很好 很好2该教师的品质对你有怎样的重要性? (1) (2) (3)不太重要 还算重要 非常重要第二问旨在提供一种方法以区分问卷上各种提问的重要性。这种被项目重要性所强调的具体特征评定比起不被强调的评定来说,是全面评价更好的预言者,而且也可以提供个对正在进行的教学评定项目的有效性的方便估计。 (三)第三种变体与效果评定有关 学生可以通过在一门课程开始时完成的一个评定和在该课程结束时的一个类似评定;也可以通过只是在该课程结束时作出的一个双重前一后评定;还可以通过一个下列类型的单一评定,就能够评定他们的学习收获: 与本课程第一天的收获相比,你现在怎样评定你对该课程教学内容的掌握了 很多 多 少 少 多 很多现在更差 现在更差 现在更差 现在更好 现在更好 现在更好 这种评定形式不仅是方便的,而且也是有效的。 图示量表、形容词量表和数值量表这些常见的评定量表在编制过程中还有一个关键问题,就是在量表中应当使用多少个标度点?一般来说,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗行业2025年人才流动趋势及培养策略研究报告
- 中职学院学籍管理办法
- 住宅装修管理办法细则
- 人员内部流动管理办法
- 企业电机维修管理办法
- 乡镇工会会员管理办法
- 企业融合销售管理办法
- 临时用地补偿管理办法
- 保险培训管理办法试行
- 临汾供热收费管理办法
- 四川省专业技术人员继续教育2023年公需课试题及答案
- 煤气取样安全操作规程
- 人形机器人行业:人形机器人供应链梳理
- 北京市高考语文名著阅读《红楼梦》试题(附解析)
- GB/T 27622-2011畜禽粪便贮存设施设计要求
- 急性胃肠炎的护理查房
- 第一章-护理学基础绪论
- 烟花爆竹经营单位安全管理人员培训教材课件
- 装修改造工程施工现场总平面布置
- 六年级数学分数除法、解方程计算题 (含答案)
- 高速铁路竣工验收办法
评论
0/150
提交评论