语言测试要素课件_第1页
语言测试要素课件_第2页
语言测试要素课件_第3页
语言测试要素课件_第4页
语言测试要素课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chapter Three Some Essential elements in maintaining or evaluating test quality(语言测试的基本要素 ) What do we need to know ? Teaching objectives of this chapter :1. what is test reliability ?How can we check the test reliability?2. what is test validity?How many kinds of validities ?3. what is the relation

2、ship between test reliability and validity ?4.the other elements in language testing . I. What is test reliability?语言测试的信度,指的是测试结果是否可靠可信。(李筱菊,1997) According to Henning( 2001), reliability is a measure of accuracy(准确性), consistency(一致性), dependability(可靠性), or fairness of scores(评分的公平性) II.How can y

3、ou measure the testing reliability in practice?Three ways: 1.test-retest testing method(重复测试法). ( consistency over time)2.parallel-form testing method(平行卷测试法)(consistency in form) 3. split-half testing method.(对半分析法) ( internal consistency ) 所谓重复性测试就是通过对同一组学生重复使用同一份试卷来确定试卷的信度。两次考试之间需间隔一定的时间。重复测试法的可靠

4、性基于一个同步性假设之上: 在两次考试之间学生在学习上都没有或都获得了新的进展。如果在此间一部分学生的学习成绩发生了变化,而另一部分则保持原状,那么两次考试成绩就会出现差异。分数缺乏了稳定性,得出的考试信度数据就会偏低。需注意两点:第一,控制相隔时间段内的教学内容,以保证学生学习进展方面的一致性。第二,两次考试的间隔时间应适当。为了减少记忆力因素的影响,可以重新调整题目。例如:第一次考试顺序: Can you think of a _ excuse for our being late? A. flexible B. reliable C. favorable D. reasonable 第二

5、次考试顺序:Can you think of a _ excuse for our being late? A. reliable B. flexible C. reasonable D. favorable 如果说重复测试法是通过时间求得一致性的话(consistency in time),平行卷测试法是通过A|B卷的形式以求得一致(consistency in form).这种方法是先让学生做两套试卷,随后分析考试的结果。考试的信度是通过两组分数的比较而求得。分数组之间的一致性决定考试的信度。A/B卷可以先后完成,或间隔一两天。平行测试卷对试卷的制作要求高,在考试内容、题目难度及其坡度、试

6、卷长度、试卷数量、施考时间,甚至于题目顺序等方面都必须吻合。此外,两套试卷的题目都必须经过预测与分析,以确定它们的一致性。重复测试法和平行卷测试法在实际操作中都有一定难度,为此,语言测试通常采用对半分析法来确立考试信度。对半分析法就是把一份试卷作为两个相对独立且相应的部分,通过对这两个部分分数的比较以获得整份试卷的信度。两个部分分数的一致性越高,试卷的信度就相应提高。因此对半分析法也被称为一种求内部一致性的方法(internal consistency)。III、What is test validity?语言测试的效度也称有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上是考了目的

7、所要考(李筱菊,1997)。Validity in general refers to the appropriateness of a given test or any of its component parts as a measure of what it is supposed to measure. A test is said to be valid to the extent that it measures what it is supposed to measure. Validity may be determined in a variety of ways. Fac

8、e validity表面效度Clarification of test validity facrfacrfacrContent validity 内容效度Criteria-related validity尺度关联效度Construct validity结构效度表面效度:引用Ingram的原话,表面效度指的是“surface credibility or public acceptability”,也即考试的“表面可信度或公众的可接受度”。一般来说,一个考试看上去测试了预定的技能或能力范畴,那么这个考试就具有了表面效度。辨析:1.测试学生口语能力的考试让学生开口说英语/测试学生语音语调的考试通

9、过笔头答题形式完成。 2.测试学生书面表达能力的考试让学生写一篇作文/测试学生写作能力的考试通过听力阅读完成。内容效度:用Kerlinger 的话说,内容效度是指“测量工具内容上,包括材料、题材、题目的代表性(representativeness),或者所选内容样本的充分性(sampling adequacy)。例如:阅读课程结束时要进行期末考试,根据大纲要求,学生应掌握的阅读技能包括:Recognizing the script of a languageDeducing(推断) the meaning and use of unfamiliar lexical items(词条).Unde

10、rstanding explicitly stated informationUnderstanding implicitly stated informationUnderstanding the communicative value of sentence.Understanding relations within the sentence.阅读材料的类别包括小故事、信或明信片、报刊杂志上的文章节选、广告等。题材涵盖文学、文化、政治、历史、日常生活等范畴。在出卷时如何兼顾到内容效度呢?所选材料内容的覆盖面要广,要反映出教学内容的特点,即有代表性。2. 被测试的技能应明确并具有代表性,避

11、免题目过多地集中在某一或某几项语言技能上。3.所选材料和技能都应在规定的范围内,即内容具有关联性。考试内容应避免不着边际、与教学内容或大纲豪不相关。尺度关联效度:主要指的是考试与某一个”独立并且相当可靠的学生能力测量工具之间的关联程度。这里的尺度实际上就是后者。如果两者之间的关联程度高,那就表明前者具有尺度关联效度。尺度关联效度可分为“共时效度(concurrent validity)和预测效度(predictive validity).尺度关联效度共时效度:共时效度建立在差不多同时施考的两个考试结果的比较之上。例如:学生做了一套英语水平考试卷(A卷),为了了解这套试卷的共时效度,我们挑选另一

12、套试卷(B卷)作为衡量A卷的尺度。分两次让学生做这两套卷子,时间间隔要短。卷子做完后,我们比较两组成句,如果它们之间出现较高的一致性,那么就可以说,A卷具有较高共时效度的结论,反之,则可以说A卷缺乏共时效度。需要强调的是,作为衡量尺度的B卷,它在尺度关联效度论证过程中具有举足轻重的地位。对它的设计要注意:1.B卷本身的信度与效度要有保证。前期应有充分的数据印证它的质量。2.B卷自身的难度应与A卷相仿。3.考试方式与题型应尽量与A卷保持一致。总之,要最大限度排除可能造成两组分数不一致的偶发因素,要使B卷成为名副其实的尺度。尺度关联效度预测效度:预测效度也同样是建立在两个考试结果的比较之上。但它与

13、共识效度的区别在于两个考试之间要相隔一定时间。考试的预测效度主要用来表明考试是否具有预测学生未来学习成绩的供暖。如水平考试、分班考试等。如果一个分班考试不具有预测效度的话,那么在此基础上做出的分班决定都将是错误的。注意事项:1.预测效度中的B卷,也即尺度,不一定与A卷具有共同的特征或测试重点。比如,A卷可能是普通考卷,B卷却可能是专业考试试卷。两套试题在测试内容、测试能力范畴上会有所不同。2.在预测效度中,比较的重点并不是学生的分数,而是他们的排序。3.要认识到,尽管预测效度是建立在考试结果的比较之上,但影响考试结果的因素很多,如果一次测试显示出较低的预测效度时,一些考试之外的因素就应该被探讨

14、了。结构效度:结构效度指的是语言能力理论中假设的基础能力或特征。比如,阅读能力(reading ability)或写作能力(writing ability)就代表了两个典型的理论能力结构(theoretical construct)。如果一个测试能够测量某个理论能力结构,它就具有了结构效度。对测试的结构效度进行论证的目的是:确定考分的含义是否与测试者的预期一致。也就是说,结构效度实质与考分的解释功能有关,如交际能力考试的分数能否代表学生的交际能力等。确定测试的结构效度的方法:定性与定量的方法。定性的方法是:专家评定,即由专家依照相应的理论确定测试是否具有结构效度。定量的方法可有多种:对试卷内各

15、项目之间相关的分析,考试成绩与考生特征之间关系的分析,以及因素分析等等。结论:测试效度是一个整体概念,以上所提到的四种效度是这个概念的不同侧面,虽然某一个效度(如预测效度)对于某类考试(如分班考试)可能更为重要些,但在确定一个测试的效度时,必须通盘考虑测试效度的各个方面。效度与信度的关系信度指的是测试结果(分数)的可靠性;效度指的是测试达到预期目标的程度。一次测试可以具备较高的信度,但可能是缺乏信度的。比如,用一套被证明有较高信度的阅读测试卷考查学生的写作能力,测试结果即使有再高的稳定性也没有意义,因为它无法测量到我们预期的能力或技能。一次测试要具有效度的话,首先必须具有信度。第一,如果测试结

16、果本身不可靠的话,就无从谈起测试是否有效测试了所选定的语言能力或技能。 第二,确定效度的一些方法需要考试的结果作为基本数据,不可靠的数据无法来确定测试效度。总之,对于语言测试来说,信度与效度都是必不可少的:信度是保证效度的基础;撇开效度只谈信度是没有实际意义的。V.some other elements in language testingAuthenticity真实性 Involvement交互性Washback effect 后效作用 Practicality 可操作性1.真实性真实性是测试的另一个重要评价指标。Bachman 和Palmer认为:真实性指的是某一语言测试认为(a giv

17、en language test task)与实际语言运用任务(target language-use task)在特征方面的对应程度(degree of correspondence) 真实性语言测试的任务特征实际语言运用任务特征 2.交互性交互性指的是在考试所设计的任务(test task)中学生的参与程度(degree of involvement)。参与程度越高,考试的交互性也就越强。例1:一假设的测试包括50道多项选择题,期中25道是语法题,其余的是词汇题,测试要求学生从所给的选项中选择正确的一个。例2:一假设的口试采取小组讨论(group discussion)的形式,讨论的题目是

18、:The impact of TV advertisements on teenagers.分析:例1的测试对语言运用的要求极为有限,它只要求学生选出正确的答案,所以它的交互性较低。 例2的讨论中学生可以选择不同的角度来探讨这个问题;可以发表不同的观点或见解;学生在完成任务的过程中有一定的自由度,所以它的交互性较高。补充:当然,测试的交互性也与测试目的、测试用途等因素有关。3.后效作用测试的后效作用(washback effect)指的是测试对教学的影响。主要表现在两个方面:教与学。第一,测试的内容与方式在相当程度上左右学校的教学计划或教学内容。第二,测试会像指挥棒一样控制或引导学生的学习。4.可操作性可操作性也就是可行性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论