对外汉语教学的测试_第1页
对外汉语教学的测试_第2页
对外汉语教学的测试_第3页
对外汉语教学的测试_第4页
对外汉语教学的测试_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对外汉语教学的测试第1页,课件共43页,创作于2023年2月教育测量与评价教育测量也称考试、测试。考试的目的是要作评价,作判断。根据考试的用途、手段和评价标准,可以将考试作如下分类:(一)根据测试用途分类

成就测试,能力测试,能力倾向测试1.成就测试也称成绩测试,测试目的在于测量学生在某个学习阶段学到了什么,包括:A)各学科的单科/综合测试。B)教学阶段的安置、形成、诊断和总结性测试。安置性测试的典型例子是摸底考试和分班考试。形成性测试考察学生进步的情况,对阶段性教学内容掌握的情况。诊断性测试是针对个体或个别教学内容掌握情况的考试,意在对个别学生或特定的教学内容掌握的情况作精确的了解。总结性测试的典型例子是学期、学年考试、会考也属这一类型。第2页,课件共43页,创作于2023年2月2.能力测试测验目的在于测量个体的不因外界环境的影响而轻易改变的、较稳定的、表现在认知能力方面的心理特质,比如观察力、记忆力、理解力、概括力、空间想象力、判断推理能力等等。IQ的测试属于这类考试。第3页,课件共43页,创作于2023年2月3.能力倾向测试又称学习能力测验,它介于成就测验与能力测验之间,既测知识也测能力,目的在于测量学生的潜在学习能力及学术发展趋向。潜在能力指个体从未来教育或训练中最可能发展并受益的能力,一般分为两种:A)一般学习能力测试。B)特殊能力倾向测试。高考属这类考试。第4页,课件共43页,创作于2023年2月根据评分者和评分方法分类客观试题由被试者从可供选择项中确定正确(最佳)或错误答案的题目。这类题目包括是非题、多选题、配对题等,这类题目答案唯一,评分不受主观因素影响,在条件许可的情况下,还可以用机器阅卷评分。有时我们也把介于主观性题目与客观性题目之间的限制性题目如简答题、填充题也归类于客观题,全部由客观性题目组成的测验称之为客观性测验。第5页,课件共43页,创作于2023年2月主观试题由考生以自己的答案来回答所提出的问题。考生在处理问题方式、回答内容的选择、回答内容的组织及答题重点等方面均有相当的自由。这类试题包括论述题、证明题、作文题等,因为这类题目的答案不唯一,评分易受主观性因素的影响,故称之为主观性题目。评分受评阅人主观判断的影响。第6页,课件共43页,创作于2023年2月根据评价标准分类常模参照测试标准参照测试第7页,课件共43页,创作于2023年2月根据是否运用标准化方法分类标准化测试非标准化测试标准化的含义题目的标准化(客观试题)指导语的标准化施测过程的标准化评分的标准化解释的标准化第8页,课件共43页,创作于2023年2月最重要的是分数解释的标准化原始分==〉标准分原始分数的误区case1有老师对学生说,你上次数学测验的的成绩是78分,这一次测验只得了71分,你为什么退步了?

Case2家长看到孩子成绩单上的数学测验成绩为82分,语文测验成绩为70分,父母们对此是如何评价的?Case3某学校负责人在学期结束时的总结会上对某学科教师说他的教学效果不好,其依据是该学期学生在此学科上的考试平均成绩低于其他学科。第9页,课件共43页,创作于2023年2月标准分的意义:该生与全体考生比较所处的位置第10页,课件共43页,创作于2023年2月根据测试材料和形式分类

语言与文字测试

非语言与文字测试

根据人数多寡分类团体测试个人测试第11页,课件共43页,创作于2023年2月考察测试质量的几个测量学指标难度、区分度、效度、信度1.难度难度:被试完成题目(item)任务时所遇到的困难程度。难度系数:定量地刻画被试作答题目时困难程度的量值。P

第12页,课件共43页,创作于2023年2月难度指标适用范围计算公式难度是指测验项目的难易程度,试题的难度可以用试题的通过率来表示。试题卷面的难度值范围是0.6~0.7难度记为P,在教育测量中,P=R/NR:答对该题的人数N:参加测验总人数

难度第13页,课件共43页,创作于2023年2月1、难度的两种数学定义:(1)P=1—x/w

x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。(2)P=x/w

这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。第14页,课件共43页,创作于2023年2月区分度

含义意义公式指标范围指测验对学业水平不同的考生的区分程度或鉴别力。具有良好区分度的项目,能将不同水平的考生区分开来,即在该项目上水平高的考生得高分,水平低的考生得低分。通常用D表示,取值范围为+1.00至-1.00。D越高则质量越好。0.2以下应淘汰0.2-0.3合格0.3-0.4良好0.4-1性能佳D=PH-PLPH指高分组通过的百分比,高分组为总分数最高的27%PL指低分组通过的百分比,低分组为总分数最低的27%第15页,课件共43页,创作于2023年2月区分度计算客观性试题极端分组法公式D=PH-PL计算步骤:按测验总分从高到低排序;测验总分最高的27%的被试作为高分组,最低的27%的被试为低分组;分别求出这两组被试通过试题的百分比;将算得有关数据带入上公式。公式XH:高分组总分;XL:低分组总分;H:该题最高分;L:该题最低分;N:考生总人数的25%计算步骤:按测验总分由高到低排序;分别确定测验总分的前27%和后27%作为高低分组;列出试题分析表;将数据带入公式计算。主观性试题极端分组法第16页,课件共43页,创作于2023年2月信度即测试的稳定性和和可靠程度,信度是反映测量中随机误差大小的指标。包括重测信度、复本信度、同质性信度。重测信度:同一测验对同组被试先后两次施测所得结果的一致性程度;复本信度:两平行测验对同组被试施测所得结果的一致性程度;同质性信度:测验内部所有题目间的一致性程度。教师自编测验的信度指标范围为0.7以上。σ2i:每道试题方差;Σ2:全卷方差;k:试卷中试题数目含义种类公式指标范围试题同质性信度第17页,课件共43页,创作于2023年2月效度是测验的准确性,是测验能够测出它所欲测的特质的程度,即测验实际测量出其所要测量特性的程度。内容效度:是指测验内容对于其所欲测之行为领域的代表性程度。效标关联效度:是指一个测验对处于特定情境中的个体的行为进行预测的有效性。结构效度:是指测验对于被称作某一理论概念或特质测量的程度。教师自编测验的效度指标范围为0.4以上。含义种类公式指标范围Di为每一试题的区分度k为试卷中试题的数目试卷结构效度第18页,课件共43页,创作于2023年2月一、信度(一)信度的概念信度是指测量结果的稳定性或可靠的程度,亦即测量结果是否真实、客观的反映实际水平。可以从以下三个方面理解测量的信度:1、实测值与真值相差的程度也就是误差,误差越小,测量的信度越高。2、统计量与参数之间的接近程度统计量指样本上的数字特征。参数是总体上的数字特征。第19页,课件共43页,创作于2023年2月统计量越接近参数,可靠性越高,信度越高。3、两次重复测量或等值测量之间的关联程度两次测量的相关系数越高,则测量的信度越高,但被测对象的经验、知识增长等因素也影响信度。(二)提高测量信度的方法1、适当增加测量题目的数量数量多则代表性就大,既可提高信度,又可提高效度。但数量太多又操作困难。2、测验的难度要适中第20页,课件共43页,创作于2023年2月难度适中,则信度大,区分度也大。3、测验的内容应尽量同质测验内容庞杂,则增加难度,必然降低信度。4、测验的程序应统一测验的过程直接关系到信度的高低,信度需要规范公平的测验过程去保证。5、测验的时间要充分测验的时间如果不足,不能客观反映学生的实际水平,也影响信度。6、评分要尽量客观、准确评分不准确,必然降低信度。第21页,课件共43页,创作于2023年2月二、效度(一)效度的概念效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。可以从以下三个方面理解效度:1、效度始终是对一定的测量目的而言的一般而言,判断效度的高低,就是判断测验达到目的的程度。2、效度也是对测量的结果而言的测量结果真实、正确的反映被测对象的功能和特性时,则为效度较高或有效。3、效度只是高与低的问题第22页,课件共43页,创作于2023年2月测量的效度不存在有没有,只存在高与低。由于教育测量对象的特殊性(精神的、心理的、可以掩盖的),所以更注重效度问题。(二)效度的类型1、内容效度是指测验目的代表所欲测量的内容和引起预期反映所达到的程度,也就是测量内容的代表性程度。2、效标关联效度又称经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验效度的高低。效标就是鉴定效度的参照尺度。效标具有可变性,而且选择是比较困难的。3、结构效度第23页,课件共43页,创作于2023年2月是指一个测量能实际测量出理论上的构念或心理特性的程度。即就是从心理学的理论观点对检测结果加以解释和探讨。(三)提高效度的方法1、控制系统误差2、精心编制量表3、妥善组织检测4、扩充样本的内容和代表性5、合理处理效度和信度的关系6、适当增加测验的长度三、难度(一)难度的概念第24页,课件共43页,创作于2023年2月难度是指测验试题的难易程度。教育测量中,客观试题的难度一般用正确回答人数与参加测量总人数的比值表示,即p=r/n难度是试题对学生知识和能力水平的适合程度的指标。难度既影响区分度,又影响信度和效度。但是难度是一个相对的概念。(二)难度对测验的影响1、影响测验分数的分布形态2、影响测验分数的离散程度3、影响测验的鉴别能力(三)测验的适宜难度根据公式p=r/n,则0≤p≤1,所以,一套题目的整体难度应该是0.3-0.7,平均难度是0.45-0.55,这样才可以保证分数呈正态分布。第25页,课件共43页,创作于2023年2月(四)控制题目难度的基本方法影响题目难度的主要因素:1、考查知识点的多少。2、考查能力的复杂程度或层次的高低。3、考生对题目的熟悉程度。4、命题的技巧性。四、区分度(一)区分度的概念区分度是指测验对考生实际水平的区分程度。又叫鉴别力。区分度又分为正区分(积极区分)、负区分(消极区分)和零区分。(二)区分度与测验信度、难度的关系第26页,课件共43页,创作于2023年2月1、区分度与信度的关系据研究,要想达到理性的测验信度,提高区分度是一个好方法。2、区分度与难度的关系难度适中时,区分度有可能达到最大。(三)提高区分度的方法1、使题目和整个考试难度适中。2、着重考查复杂的学习结果。(四)区分度的评价标准区分度当然是越高越好,但是越高越难,一般应该控制在0.2--0.4之间。0.4-非常好;0.3-0.39良好;0.2-0.29尚可。第27页,课件共43页,创作于2023年2月3.信度信度指的是测量结果的稳定性和可靠性。也就是说,在不同时间、不同测验条件下所得分数之间能够保持一致。重测信度同一测验对同组被试先后两次施测所得结果的一致性程度。复本信度

指同一批考生在两个平行(等值)试卷上得分的相关系数。评分者信度

指评分者评分的稳定性和可靠性,反映了评分能够稳定地反映考生的真实知识和能力水平的程度。第28页,课件共43页,创作于2023年2月4.效度效度,就是指试卷的有效性,即试卷是否达到了考试的目的。换句话说,也就是测验是否精确地测量了想要测的东西。

效度的统计学定义是:与测量目标有关的真实分数方差与总分方差的比率效度的分类内容效度题目对欲测的内容范围取样的适当程度。构想效度(理论效度、结构效度、建构效度)效标关联效度(准则效度、实证效度)第29页,课件共43页,创作于2023年2月提高测验信度、效度的方法

测验中题目的数量应适当,不能太少。

紧密围绕教学大纲和教学目标命题。

考核内容应全面,并能有效代表学生应掌握的知识领域。测验的整体难度适当,不同类型、不同难度的题目应保持恰当比例。少出偏题、怪题,一般应以考察基础知识和基本能力为主。

第30页,课件共43页,创作于2023年2月一、难度

难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。第31页,课件共43页,创作于2023年2月1、难度的两种定义:(1)P=1—x/w

x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。(2)P=x/w

这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。第32页,课件共43页,创作于2023年2月2、难度的计算:(1)主观性试题的难度

A

基本公式法:P=1—x/w

B

极端分组法P=1—(XH+XL)∕2W

XH:高分组的平均得分(前27%),XL:低分组的平均得分(后27%)。(2)客观性试题的难度A

基本公式法:P=1—R/N

R为答对人数,N为全体人数。B

极端分组法:P=1—(PH+PL)∕2

PH=RH/n

叫高分组通过率,RH:高分组答对人数,n:总人数的前27%。PL=RL/n

叫低分组通过率,RL:低分组答对人数。第33页,课件共43页,创作于2023年2月二、区分度

区分度是区分应试者能力水平高低的指标。试题区分度高,可以拉开不同水平应试者分数的距离,使高水平者得高分,低水平者得低分,而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关,通常来说,中等难度的试题区分度较大。另外,试题的区分度也与应试者的水平密切相关,试题难度只有等于或略低于应试者的实际能力,其区分性能才能充分显现出来。

区分度指标的评价:-1.00≤D≤+1.00,区分度指数越高,试题的区分度就越强。一般认为,区分度指数高于0.3,试题便可以被接受。第34页,课件共43页,创作于2023年2月2、

区分度的计算方法:基本公式法:D=(H-L)÷N(D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表一个组的人数即高分组与低分组人数之和)。极端分组法:(1)主观性试题:D=SH—SL∕n(WH-WL)

SH:高分组得分总数,SL:低分组得分总数,WH:该题的最高得分,WL:该题的最低得分,n为高分组(或低分组)的人数,即总人数的27%。

(2)客观性试题:D=PH—PL

,或D=RH—RL∕n

(3)

一般也可以用D=XH—XL∕X满计算。XH:高分组某试题的平均分,XL:低分组某试题的平均分,X满:该题的满分。第35页,课件共43页,创作于2023年2月三、信度

信度是指测得结果的一致性或稳定性,稳定性越大,意味着测评结果越可靠。相反,如果用某套试题对同一应试者先后进行两次测试,结果第一次得80分,第二次得50分,结果的可靠性就值得怀疑了。信度通常以两次测评结果的相关系数来表示。相关系数为1,表明测评工具如试卷完全可靠;相关系数为0,则表明该试卷完全不可靠。一般来说,要求信度在0.7以上。第36页,课件共43页,创作于2023年2月1、评价信度的方法:(1)重测法,(2)复本法—副题,(3)折半法,或者说:用再测信度、复本信度和内部一致信度三种方法来进行评估。再测信度是指将同一试卷在相同的条件下对同一组考生先后实施两次,两次测评结果的相关系数。复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的试卷进行测试,测评结果之间的相关系数。内部一致信度是指试卷内部各题之间的一致性,通常是将试卷一分为二,然后计算一半试卷与另一半试卷之间的相关系数。2、

信度系数

γxx=ST2∕SX2

ST2

叫真分数方差,SX2

为获得分数方差。信度系数的最大值为1,表示测验的可靠性高,最小值为0,表示测验的信度低。当γxx≥0.70时,测验可用于团体间的比较。当γxx≥0.85时,测验可用于个体之间的比较。第37页,课件共43页,创作于2023年2月四、效度

效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度.任何测试工具,无论其它方面有多好,若效度太低,测试的结果不是它要测试的东西(如用英语试卷测试学生的数学能力),那么,对目前所要测试的东西,这个测试将是无价值的。由于心理现象本身的特点,测评的效度尤为重要。心理属于精神方面的东西,目前人们还无法直接观察它,只能通过一个人的行为模式或者对测试题目的反应,来推论其心理特质。如智力水于主要是借助于个体对一些问题的反应及正误等结果来推断的。效度是一个相对概念,即效度只有高低之分,没有全部有效和全部无效之分。效度从种类上可分为卷面效度、内容效度、构想效度、预测效度和共时效度。第38页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论