简明英语测试教程课件-_第1页
简明英语测试教程课件-_第2页
简明英语测试教程课件-_第3页
简明英语测试教程课件-_第4页
简明英语测试教程课件-_第5页
已阅读5页,还剩352页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简明英语测试教程 主讲:牛化旭 时间:2012年2月 手机E-mail:一、英语测试概述:过去、现在与未来 语言测试是一门古老而又年轻的学科,尽管现代语言测试的历史不到100年,语言测试的历史渊源却可以追溯到很久以前(Spolsky 1995)。语言测试是应用语言学的一个重要分支,它涉及教学法、二语习得理论、语用学、心理语言学、认知心理学、教育测量学、计算机科学等多种学科。语言测试是伴随着语言教学出现,并随着语言教学的发展而发展,不同的时期,人们的语言观不同,采用的语言测试方法也不同。世界语言测试理论经历了四个发展阶段,反映了三个语言测试的理论模式。随着语言测试理论的

2、发展,语言测试在实际应用和理论研究方面也出现了许多新的变化,已引起越来越多学者们的注意。 语言测试主要用于语言教学、语言研究和教学研究、选拔人才三个方面,其中最为普遍的是用于语言教学。语言测试与语言教学之间存在着一种相互依赖的关系。语言测试是衡量语言教学成效和提高语言教学质量的重要手段,是语言教学过程中的重要组成部分。语言测试的目的是提供一种科学的衡量工具,一方面对学生的语言能力进行客观、准确、公正的评价,另一方面检测教学效果,反映教学中的长处与短处,为提高教学质量服务。由此可见,语言测试是语言教学过程中不可欠缺的重要环节,语言教学离不开语言测试。 语言测试与语言教学是同时存在,息息相关,紧密

3、联系而且相互作用的。然而,语言教学与语言测试的发展并非总是同步的。一个语言测试体系一经确定,在一定时期以内就具有相对稳定性,会对语言教学产生积极或消极的反拨作用。 语言教学与测试的关系语言教学与测试的关系 语言测试是伴随着语言教学出现的,语言教学与语言测试密切相关,这是毋庸质疑的。但对于语言教学与测试之间的关系或从属地位人们却有各自不同的看法,基本上可以归纳为两种:主仆关系与伙伴关系。持有主仆关系观点的人认为持有这种观点的人认为语言测试是语言教学的一部分,并服务于语言教学。代表人物为英国语言测试专家Alan Davies。持另一种主仆关系观点的人没有代表人物,却在实际中广为应用,即“考试是教学

4、的指挥棒”。持伙伴关系观点的代表人物是世界著名语言测试专家Arthur Hughes,他认为教学与测试是“伙伴关系”(partnership) 测试与教学既互相促进又彼此制约。 1. 主仆关系主仆关系 语言教学是第一性的,语言测试为语言教学服务 考试是左右教学的指挥棒 2. 伙伴关系伙伴关系 持这一种看法的人认为,测试与教学既互相促进又彼此制约,教学从目标、内容、方法与手段等方面制约着测试,而测试又在目标、内容和方法上对教学起着重要的反拨作用。 世界著名语言测试专家Arthur Hughes认为,教学与测试是“伙伴关系”(partnership) (Hughes 1989)。他说,“The p

5、roper relationship between teaching and testing is surely that of partnership. We cannot expect testing only to follow teaching. What we should demand of it, however, is that it should be supportive of good teaching and, where necessary, exert a corrective influence on bad teaching.” (Arthur Hughes

6、2000)下面的图示反映了教学与测试的相互关系。 考试是外语教学过程中的一个重要的组成部分,外语考试与外语教学之间存在着相辅相成,互为影响的关系。在教学中教学目标起着决定性的作用,它决定了教什么(教学内容)和怎么教(教学方法);教学目标是否达到需要考试作为它的评估手段,因此考试的测试目标必须以教学目标为依据,这样才能起到评估教学目标的作用。在教学考试中,教学内容决定了考试的内容(考什么),而教学方法决定了考核方法(怎么考),因此从理论上说,考试只是教学的一个组成部分,它的考核内容与方法由教学目标、教学内容和教学方法所决定。考试应在教学目标的指导下进行,并不是说考试可有可无。在教学实践中,我们发

7、现考试占有很重要的地位。有时甚至影响到整个教学过程,使教学围绕考试进行,其典型例子就是应试教育。 这是因为考试除了有受教学其他环节和因素影响的一面外,它反过来对教学其他环节又有反作用的一面,亦即所谓的反拨作用(backwash)。因为外语测试的结果不但能判断外语教学目标设置的正确性、可行性及实现的程度,而且也能反馈、控制外语教学活动。过分强调考试的反拨作用,特别是强调考试的评定和选拔功能,必然导致考试在教学过程中的错位。教师、学生、家长、教育部门对考试作用的过度强化所形成的合力就会导致应试教育,使考试成为教学的核心和教学的目的,这应该加以避免。 邹申(2005)则认为,语教学与语言测试之间存在

8、一种相互依赖的关系,教学(或课程设置)的有效性可以通过测试加以检验,而我们从测试中得到的信息反馈也有助于改进和提高教学质量,或完善课程设置。四种英语语言测试法 1.写作-翻译法(the essay-translation approach). 这种方法主要有以下特征:1.对测试的技能或专长没有特殊要求,主要是依据教师的主观判断力;2.试卷通常包括翻译、写作和语法分析等项目;3.试卷的内容带有浓厚的文学或文化色彩;4.试卷一般采用书面回答形式,试卷需要人工评阅。由于写作-翻译法不强调测试的科学性或理论基础,故有时被一些学者称为语言测试的前学科阶段。(科举考试,博士,硕士研究生考试) 2.结构主义

9、/心理测量法(the structuralist-psychometric approach).这种测试法以结构主义语言学为其理论基础,强调不同的语言成分可以分别测试,比如语音、语法和词汇都可以脱离上下文进行单独测试。此外,听、说、读、写等项语言技能也可以分开测试,因为这个测试法的重要特征是一道题可以单独测试一个语言成分或技能。这种方法的另一大特点是采纳了心理测量学的一些方法,强调语言测量的可靠性和客观性。结构主义/心理测量法在语言测试中的典型表现形式是多项选择题,一种既能达到一题测试一成分的要求,同时又适合于进行考后统计分析的题型。 3.综合法(the integrative approac

10、h).综合法有如下特点:1. 语言测试要在一定上下文(context)中进行;2.不在测试中刻意追求区分各单项语言成分、技能或能力,而是强调两项或两项以上的综合评估。较能体现综合法的考试题型有完形填空、听写、翻译、写作等。以完形填空为例,这类形式可以同时测试学生的语法、词汇知识以及阅读理解能力。此外,语法、词汇知识以及阅读理解能力的测试在一个特定的上下文(即所给的完形填空材料)环境中进行。但,上下文环境在综合法中不是真正意义上的语用环境,只是起到辅助测试语言知识的作用。 4.交际法(the communicative approach)。有学者认为交际法与综合法在某种程度上有相似之处,即两者都

11、强调语言的意义而不是语言的形式和结构;但同时两者之间又存在根本区别:交际法更注重语言在交际过程中的使用。这里牵扯到两个概念:usage和use。Usage主要指语言形式和结构,而use则是有关语言的交际功能以及使用。语言运用是语言学习的最终目标,语言形式的掌握是实现这一目标的方法。因此,衡量一个人语言熟练程度的最终标准是看此人能否在语言使用环境中有效的进行交际。交际法包括usage的成分,但更多的是评价学生在特定语言使用环境中交际能力(use)。 随着交际教学法在语言教学领域日渐盛行,从20世纪80年代起语言测试界也逐步受到其影响,并出现了一系列旨在测试交际能力的探索性考试,这类考试大概有以下

12、几个特点:1.考试内设计“信息沟”(information gap),要求学生通过各种已馈入的信息来获取未知信息。2.考试任务或项目之间存在关联性(task dependency), 即一个项目要基于前一个项目完成的基础上,比如学生先听一个电话交谈,然后根据交谈的内容写一封信。3.考试强调针对性,根据学生的具体需求设计考试内容,比如在专门用途英语(English for Specific purpose)考试中,要根据学生的具体语言要求,确定测试内容、所需语言交际模式及其相关语言技能。4.侧重更广泛地测试语言能力,包括语言知识、语言功能,语言使用的合适性等。 5.考试采用定性评估方式(qual

13、itative modes of assessment),以取代纯粹的定量评估方式(quantitative modes of assessment)或作为其补充。前者属于标准参照性质(criterion-referenced),后者属于常模参照性质(norm-referenced). 1.3当代国内外大规模考试一览 1.3.1全国英语等级考试(Public English Test System,简称PETS) 1.3.2大学英语四六级考试 1.3.3英语专业四八级考试 1.3.4美国托福考试 1.3.5英国雅思考试 1.3.6商务英语考试 1.3.7人事部翻译资格证书考试 1.3.8教育部

14、翻译资格证书考试 1.3.9上海市口译资格证书考试 纵观上述考试的设计宗旨和测试目的,我们可以归纳出以下几个特点: 1.所有考试都旨在全面测量考生的语言水平,故无一遗漏地测试各主要单项语言能力(听说读写)。 2.考试日趋注重对口语能力的测试,并且口试与笔试分开的时间间隔也越来越短;托福考试在实施了18年后于1981年推出托福口试;CET考试在开考12年后于1999年增加CET-SET考试,而在1999年开始正式实施的PETS考试,在推出时已包含了口语测试项目。 3.考试在测试考生接受性语言技能(receptive)的同时,更加注重评价他们的产出性语言技能(productive skills),

15、所以在题型选择上绝大多数采用多样化的形式,既有多项选择题,又有其他形式,如简答题、填空题、匹配题、翻译题、写作题等。 4.考试不仅考虑到信度(如分数的可靠性),而且更加注重其效度(是否达到预期测试目标等)。增加口语/写作考试和多种题型有机组合都是为了能够考核学生综合运用英语进行交流的能力,以提高考试效度。考试今后的发展趋势 首先,随着计算机的普及,考试计算机化或无纸化的进程将加快,国外的托福考试已在推行考试计算机化(CBT,CAT)。我们国内的有关人士也已完成了这方面的理论研究;有的地方性考试已开始实行外语考试网络化,如上海市高考英语口试已连续几年实施网上口试和网上评分。我们可以预测在不久的将

16、来CBT和CAT将成为考试的常见形式。 第二,在考试方式的作用、考试分析手段、考生特征以及语言能力性质等方面的研究将会继续深入下去。第三,对常规考试以外其他评估方法的可行性探讨也会成为研究的热点,比如小组测试方式(group testing),以学习者为中心的测试方式(learner-centered testing),自我评估(self-assessment)等。第四,考试的后效作用(washback effects),即考试对社会、教育机构以及学生个人的影响等,也将成为研究的焦点之一。以上方面的研究成果无疑将会给考试注入活力,使考试成为一种更完善的评估手段。第五,考试开发设计将更加注重以考

17、生为本的理念;考生群体的特殊要求将引导考试开发;考试的社会服务功能将进一步凸现。 比如,英国剑桥大学地方考试委员会(UCLES)开发的剑桥商务英语证书(Business English Certificate,简称BEC)考试专门针对商务从业人员群体。该考试从听说、说、读、写4个方面,综合考查考生在商务及一般生活环境下使用英语的能力。又如,美国教育考试服务中心(ETS)推出的国际交流英语考试托业考试(Test of English for International Communication,简称TOEIC),其考试设计对象为到国外出差或国际交往频繁的非英语母语人士,如跨国公司的雇员等。第二

18、章考试功能及其类别 2.1测量、考试与评估 1测量。什么是测量? Stevens(195)认为,“广义而言,测量(measurement)就是根据法则赋予事物数量。”也就是说,按照一定的规则给事物的属性指派数字或符号的过程就是测量。这是迄今为止公认的测量定义。举例来讲,要测量一下桌子的高度,我们可以拿尺子来量一量,看看它有多高。尺子是人们根据一定的法则制定的量具,利用它就可以把事物的属性,即桌子的高度用数字表示出来,如,0.75米。这种测量属于客观测量,因为它基本上不受观察者的主观判断的影响。 测量这一定义包含三个要素: 1) 事物及其属性。这是测量的对象或目标。上面提到的对桌子的高度进行测量

19、,属于对物体进行测量,其属性高度,是可以观察到的,可以进行客观测量的。在外语教学领域,我们感兴趣的是学生的语言能力,而学生的语言能力属于人的心理特征,是无法直接测量的,但是人的心理活动会在人的具体活动和行为中体现出来,所以只能通过测量其外显行为或外在表现特征来推论一个学生语言能力的高低。 2) 指派数字或符号。所谓指派数字或符号,就是用数字或符号来代表某一事物或事物的某一属性的量。如张三在本次阅读考试中得了87分,李四得了92分,我们说李四比张三多考了5分。数字本身没有意义,只是一种符号。我们用它来代表考生的阅读成绩,这时它就变成了量化的数,可以对其进行解释和分析。在一定的条件下,还可以对数据

20、进行运算从而对事物的属性进行推测。 3) 法则 。法则是指测量所依据的规则和方法,是测量的关键。法则不好或不可靠,得到的测量结果就会出偏差,失去测量的意义。简单来说,尺子不准,测量的结果就无法使人信服。对客观世界的物体进行测量时,由于有公认的测量法则或尺度,如测量物体的高度、重量等;一般不会出现大的偏差。而对人的某些特性(心理特征)进行测量时,则往往会出现较大的偏差。举例来讲,有几个评委对某学生的英语口语进行评定。评委A认为一个人的口语要好,必须发音准确,而该学生的发音好,所以他给打了个5分。评委B认为流利性最能体现一个人的口语水平,该同学尽管发音不错,但流利性差一些,所以她给他3分。同一名学

21、生,让不同的评委去打分,成绩出现了偏差。这也很自然,原因是他们没有按照一个评定口语成绩的统一法则(rules)去给这名学生打分,结果造成了偏差。这个例子提醒我们,在对人的某些心理特征,如口语表达能力、阅读理解能力等等进行测量时,首先要制定一个便于操作的,稳定的法则或标准。这样得到的测量结果才可靠,才具有可比性。 2测试 测试(test)又称测验。不同的心理学家对此下的定义不同。Anastasi(1982)认为,“测试实质上是对行为样本所做的客观的标准化的测量。”这个定义是人们公认的最权威的定义,它包含以下三个基本要素: 1) 行为样本语言测试的目的是要测量受试者的语言能力。上面提到,语言能力是

22、无形的,如何测量?只能测量它的有形表现,这里所说的有形表现,是指语言表现,如说出来的话,写出来的句子,对测试题目所做的各种反应等等、这些行为,都是无形的语言能力的有形表现,用心理学术语叫“表征”(manifestation)。 所谓行为样本,是指对语言能力表现行为的有效的抽样。我们知道,一个人的语言能力的表现行为会有各种各样的形式,测试时不可能也没有必要把它的全部表现行为都测到,只能选取一部分有代表性的抽样进行测量,然后据此对受试者的语言能力作出推测。2) 客观的测量。所谓客观的测量是指测量的标准是否符合实际。对于一项测试的客观性程度可以从这么几个方面去评价: 测试题目的难易度和区分度如何;

23、测试结果的可靠性程度如何? 测试结果的有效性如何?这几项指标是衡量一项测试质量的重要指标。3) 标准化的测量标准化的测量是指在测试题目的编制、测试的实施、记分以及对分数的解释等方面有一套严密的系统的程序。只有这样,测试才有统一的标准,对不同人的测量结果才有可比性。凡是不标准化的测量,都没有可比性。 3评价 Weiss(1972)认为,“评价(evaluation)是指为作出某种决策而收集资料,并对资料进行分析,作出解释的系统过程。”与测量、测试相比,评价的含义更广、综合性更强。Bachman(1990)指出,决策的正确与否,一方面取决与决策者本身的能力,另一方面则取决于收集到的信息的质量。在其

24、它条件等同的情况下,如果收集到的信息越可靠,相关性越强,那么,作出正确决策的可能性就越大。所以说,评价的一个很重要的方面就是要获得可靠的、相关的信息。在谈到评价与测量及测试的关系时,Bachman指出,在对个体(学生)作出评价时,我们可以从质量和数量两个方面进行描述,或只描述其中一个方面。所谓质量方面的描述是指对学生的行为作出定性的描述,如某某学生的口头表达能力优秀,书面表达能力优等;数量方面的描 述则是指某次测验的分数等。 测试、测 量及评价三者之间的关系,使用下面的图来表示。 从图中可以看出,我们在对某教育目标(或学生的行为)作出评价时不一定用到测试或测量(如面积1所示),这种评价属于质量

25、评价,或叫定性评价,如指出学生在学习方面存在的问题。有时在作出评价时只需测量,而无需测试(如面积2所示),对学生的口头表达能力定出级别就属于这种性质的评价。如果要检查学生学习的进步情况,通常就要对学生实施测试,这又是另一种性质的评价,即只通过测试对学生的成绩作出评价(如面积3所示)。许多情况下,测试只是作为一种科研的工具或手段,而不是用来作出评价(如面积4所示),在外语教学、第二语言习得研究领域,我们经常拿水平测试作为研究的工具。不用测试便可进行测量的情况(如面积5所示)在外语教学研究领域也经常碰到,在研究学生的第二语言习得时,如果研究对象为来自不同国家的学生,人们一般按其母语情况编号。总而言

26、之,并非所有的测量都是测试,并非所有的测试都属于评价,而且并非所有的评价活动都涉及到测试或测量。 2.2考试功能 一般说来,考试的不同用途赋予其不同的功能。比如,用来挑选学生的考试具有筛选功能。这里主要介绍与教学和科研有关的两大功能:教学功能及科研功能。 2.2.1教学功能 毋庸置疑,考试在教学过程中起到积极的、必不可少的作用。使用得当的考试有助于教学的顺利开展,有助于提高教学效果。让我们来比较以下两个教学流程图: 图一:入学课程结业 图一所显示的教学流程图中只包括3个阶段:入学、课程和结业。在学校的课程设置中有些课程与图一相似,如学校开设的课外兴趣活动课、社区志愿服务等。这类课程的主要目的是

27、扩大学生的知识面,拓宽学生与社会的接触渠道,故课程流程中只有3个部分。但是,如果课程是主要科目(如英语)时,图一的流程图就显得过于简单。有以下几个原因: 1.主要科目课程一般要进行阶段性评估以确保课程质量,而评估方法之一是考试。 2.学生入学后如果随即分班学习,自然班中的水平很有可能参差不齐。这实际上不利于教师因人施教,也不利于提高教学效率。如果在分班学习前进行摸底考试,教师就能了解学生的水平,并以此为依据制定出有效的教学计划。 3.如学生结业时没有检查方法(如结业考试),那么学生不清楚自己的学习进展,教师也无法了解教学效果。 图2入学课程结业考试考试 图2是在图1的基础上扩展的流程图,考试作

28、为教学的一部分被包括在其中。这样,课程开始前的考试可以帮助教师调整现有的教学计划,或制订适合当前学生水平的教学计划,以达到最大限度地提高教学效果的目的。课程结束时的考试则可以使教师了解实际教学效果。从中我们可以得出这样一个结论:考试在教学过程中有其必不可少的作用。 以上主要从教师的角度谈了考试的教学功能。从广义上讲,教师是考试使用者(test users)的一部分。其他有关使用者包括学生本人、家长和教育管理部门。对后者来说,考试的教学功能主要体现在考试信息的反馈与使用上。对学生而言,考试反馈的信息在一定程度上反映学习上的进展与存在的问题。对于家长,考试反馈的信息是他们了解自己子女学业进展的主要

29、途径之一。至于教育管理部门,考试反馈的信息可以作为评估教学或课程设置的一部分。 2.2.2科研功能 考试的另一大功能体现在科研领域。这里我们主要以语言研究为例。在该领域的基础研究或应用研究中,考试作为一种具体的测量形式,有其潜在的重要价值。比如,语言测试可以用在语言能力性质(the nature of language proficiency)、语言处理(language processing)、语言习得(language acquisition)、语言流失(language attrition/loss)及语言教学(language teaching)的研究中。让我们来看两个例子。 例1.一

30、位语言研究者注意到,使用同一母语的人之间的语言能力参差不齐。由此他想了解,他所执教的美国学生的母语(英语)与他们所学的法语(学习时间为3年)之间有无关系。为了做调查,他让研究对象参加了两场考试,一个用来测量学生的母语能力,后者则检查学生的法语水平。 例2.在一个阅读课教学方法的调查中,研究人员将两种不同的方法做比较。一种方法强调阅读过程中词汇与句法的重要性,另一种方法则偏重于阅读技巧的训练。为了得知接受不同方法训练的学生的阅读能力是否存在区别,并希望获取量化的指标,研究人员采取两次统一考试的方法,即课程开始前的考试和课程结束后的考试。 例1属于语言习得的研究范畴,例2属于语言教学研究的范畴。尽

31、管两例的研究目标、内容等不尽相同,它们都不约而同地把考试作为一种获取量化指标的方法。例1用考试的方法来检验母语与所学外语之间有无关系的假设。例2通过对两组学生在两次考试中成绩的分析和比较来证实不同的方法是否会导致阅读能力上的区别。从这两个例子中我们可以看出,考试的用途不限于教学领域,它在科研方面也应用广泛。考试所提供的一些数据可以使我们科研报告的论证过程更具有科学性,结论更具有说服力。 2.3考试类别 2.3.1根据考试目的分类 从考试设计者的角度来说,每一种考试,不管是小型的还是大规模的,都应有一个明确目的,即所设计的考试旨在获取何种信息。因此,根据考试目的,考试大致可以分成以下几种: 1.

32、水平考试(proficiency tests)通常用来衡量考生语言能力的考试属于此类考试。比如,国内的高考英语考试、研究生入学英语考试、英语等级考试(PETS)、国外的托福考试,等等。 水平考试具有以下两大特点。第一,它是选拔性考试(selection tests),如前面提到的几种考试都具有选拔性质,目的是从众多考生中选拔出佼佼者。第二,它不是与某一具体课程挂钩的考试;它的设计基础是语言理论,即theory-based;换句话说,水平考试的目的不是看考生对某一课程内容的理解,掌握程度如何,而是根据语言理论所设计的标准来测试考生现有的语言能力。这里值得一提的是,水平考试不完全是通用英语考试(E

33、nglish for general purpose);在一些情况下,水平考试的内容可能只涉及某一具体语言应用领域(English for specific purpose),比如,上海市的中高级口译资格证书考试,剑桥商务英语等级考试。 2.成就考试(achievement tests)此类考试的目的是检查学生在某一课程中的学习进展情况。在教学过程中教师参与设计命题的大都是这类考试。根据考试举行的时间,成就考试又可具体分为两种:期中考试(midterm tests)和期末考试(final tests)。期中考试又可称为progress tests。从评估的角度看,其中考试的性质属于进行性评估(

34、formative evaluation),因为它主要是对学生的课程学习进行中期检查; 期末考试属于终结性评估(summative evaluation),它在课程结束或告一段落时组织实施。成就考试的最大特点显示在它与教学大纲的关系上。成就考试可以说是基于教学大纲内容上的考试,即syllabus-based。成就考试的内容必须在教学大纲的范围内,这是成就考试与水平考试的区别所在。 3.分班考试(placement tests)在教学活动中我们经常采用这类考试来确定学生(新生)中不同的语言水平,以便制定或根据实际情况调整教学内容或计划。同时,教师根据考试成绩把学生编入不同进度的班级。分班考试的内

35、容既可基于语言理论之上,也可以实际教学大纲中高一级的要求为起点。例如,对于刚入学的新生,我们可以使用第一学期其中或期末的试卷。由此可以说,分班考试内容的选择具有灵活性。对于教师来说,更须关注的是这类考试的难易程度以及考试内容的代表性。能否把握好难易度关系到分班考试能否成为有效地测量工具。如果考试的难度大大超过学生的现有水平,那么,考试就很难起到区分学生水平的作用。此外,选择的考试内容要能够均衡地考察学生的水平,不偏重某一方面。 4.诊断考试(diagnosis tests)此类考试的目的是了解学生在某一阶段学习上的长处与短处,其最终目的是给教师提供教学效果或质量方面的信息.我们在教学中经常采取

36、的课堂小测验(quiz)实际上就是一种诊断考试。这类考试有以下几个特点。第一,在教学过程中可以随时使用,不受阶段性的限制。第二,考试内容一般与所教内容有关,即syllabus-based。第三,考试内容的选择可以更有针对性或侧重点。比如,如果想了解学生现阶段对某些动词短语的掌握情况,我们可以专门设计一份试卷。第四,试卷的长度视情况而定,可以短则一页,长则数页。 5. 潜能测试潜能测试 (apititude tests) 语言潜能测试也叫做预测性测试(prognostic tests),是通过衡量学生在一门陌生语言中的语言表现,以预测其是否有学好这门语言的潜力。语言学习潜力受到多方面因素的影响,

37、如智商、年龄、动机、记忆力、语言敏感度和语法结构敏感度等。语言潜能测试与之前所学的知识无关,很多情况下是学生以前从未接触过的语言。一些专家认为在实际操作中不太可能对应试者的语言潜能进行全面的测试,因此多数测试只是衡量考生某一部分的潜能如听、译领域的潜能。词汇测试常被认为是有效的潜能测试方法,因其与智商紧密相连并且能反应出应试者对这一领域的兴趣。测试语言多采用人工语言,多关注音位区分能力和系统运用语言结构的能力,潜能测试题目数量较多,如The Modern Language Aptitude Test。 2.3.2根据考试分类 根据考试方式进行分类,英语语言测试可以分为直接测试(direct t

38、ests)和间接测试(indirect tests)。 1. 直接测试 (direct tests)在这类考试中,学生被要求直接运用被试的技能或能力。比如,要了解学生英语语音、语调,我们可以让他们朗读一篇短文,或者让他们用英语会话。朗读和会话都直接涉及到语音和语调的使用。通过这两项活动,教师可以比较直观地了解到学生这方面的能力。同样,如果我们想知道学生的写作水平如何,最简单的、也是最直接的方法就是让学生写一篇作文,因为学生在完成作文的过程中必须运用他们的英语写作能力。 归纳起来,直接考试有以下几个特点。第一,直接考试侧重考试形式的真实性(authenticity),及考试内容与现实语境的紧密性

39、(close resemblance)。第二,直接考试便于从总体上考查产出性技能(productive skills),如口语能力、写作能力、翻译能力等。第三,从命题人员的角度出发,直接考试具有比较明确的测试目标。通俗点说,也就是命题人员清楚地知道要考什么。 当然,这并不意味着直接考试是完美无缺的。它自身带有一些问题,如评分标准的制订与统一、分数的可靠性、分数的可解释性等。 2.间接考试(indirect tests)在介绍间接考试之前,我们先来看一看能力(ability)与技能(skill)之间的区别。简单地说,能力指的是一个人在某一方面能干什么,即what he is able to do

40、。它是一个较为笼统的概念。比如,我们常说某某人有较强的英语写作能力、英语会话能力。然而,写作能力或会话能力有哪些具体体现和构成因素呢?这就涉及到一些具体的技能。比如说,一个人写作能力的强弱可以体现在文章的组织(organization)、用词(vocabulary)、语法(grammar)、连贯性(coherence)等方面。又如,在语法上的具体体现可为英语冠词的使用、主谓一致等。 可以这样说,某一能力是由其相关的技能所组成。间接考试是试图测试那些相关的技能,以达到评估能力的目的。它之所以被称为“间接”,是因为它采取了迂回的方法来评估语言能力。间接考试的一个典型例子是形式各异的改错练习。请看下

41、例: The population of China is much more A B C larger than that of Canada. D 这道多项选择题从表面上看是考比较级的用法,实际上是一道间接测试写作能力的题目,因为比较级的正确使用是写作能力中的一项具体技能。 概括起来,间接考试有这么几个特点。第一,它不强调考试形式上的真实性,考试形式无需与实际语用环境相一致。第二,由于不受语用环境的限制,所选择测试的技能可以更具有代表性和概括性。第三,间接考试可选用多项选择题型,这可以提高考试的信度。但是,对于间接考试是否能够真正测试预期的能力,人们还是存有疑虑。这主要反映在考试成绩与该考

42、试所测试能力的关系上。我们是否能十分肯定地说,在测试写作能力的间接考试中(如语法试卷)获取高分的人,他的写作能力也相对突出?尽管经验告诉我们两者之间有关联,我们仍无法百分之百地确定它们之间的绝对关系。 对于我们教师来说,在选择考试方式时,要切记寸有所长,尺有所短。两种考试方式各有优缺点,正确合理的使用或组合才能扬长避短。 2.3.3.根据语音测量形式分类 就具体测试语言而言,考试可分为分离式考试和综合式考试两类。 1.分离式考试(discrete point tests)在这类考试里,一道题目一次只牵涉到一个考点。让我们来看一道分离式考题: We are all going to the ga

43、mes. Why dont you come_? A. up B. across C. along D. to 这道题的考点是come along的用法,除此之外,没有其它考点,比如时态或冠词。这是分离式考题的一大特点。 分离式考试的其它特点如下。第一,每道题提供的信息反馈明确、具体,不掺和其它因素。如果学生答对上述这道题,在一般情况下,我们可以得知该学生了解或掌握了这个动词词组的含义及用法。第二,分离式试题通常采用多项选择题的形式。第三,分离式考试由于采取了多项选择题的形式,较易达到理想的信度。然而,人们经常对该类考试的有效性产生怀疑。受结构主义语言学的影响,分离式考试把语言学习看成是系统的

44、语言习惯获取过程,认为可以通过测试独立的语言成分来检查一个人的语言能力。因而,分离式考试的题目往往是相互间没有关系,同时也不提供上下文情景。因此,分离式考试主要测量学生的语言知识,而不是语言能力。 2.综合式考试(integrative tests)此类考试要求学生在答题时运用多种语言成分或技能,因为综合式考试项目不只含一个考点。让我们来看几个综合式考试的例子。我们在教学中常用的听写练习(dictation)实际上属于综合考试项目。听写练习所要检验的不只是拼写(spelling),它还涉及词汇知识(vocabulary)、语法知识(grammar)、听力技巧(listening)等。另外一个我

45、们较熟悉的例子是完形填空(cloze)。要完成完形填空项目,学生不仅要掌握词汇、语法知识,同时还要具备必要的阅读技巧。从中我们可以总结出综合考试的几个特点。第一它是在一定的上下文中考查语言知识或技能。第二,它比较侧重考查语言的意义(meaning)而不是语言的形式(form)。第三,由于要求同时运用多种技能或知识,综合式考试强调语言熟练度的整体性。2.3.4.根据评分方式分类按照试卷评分方式的不同,英语语言测试可分为主观性测试 (subjective tests)和客观性测试 (objective tests)。1. 主观性测试主观性测试 (subjective tests)试题答案具有开放性

46、或灵活性的考试称为主观考试。主观性测试和客观性测试的区别在于评分方式的不同。主观性测试需要评分人对答案做出观念性判断,这种判断往往基于评分人的经验和所受过的相关训练。主观性测试的题目主要有简述题、翻译题、作文、口试等。但这些题目在主观性的程度上有所不同,例如自由写作比基于阅读的简答题明显具有更高的主观性。主观性测试由于需要评分人做出主观性的判断,因此在信度上明显稍差。一篇作文,让不同的评分人去评阅,就会出现不同的分数,甚至相差很多的分数,这主要是由于评分人的观点、知识背景等各不相同。信度是主观性测试一直追求的目标。实现主观性测试的信度主要要考虑以下几点:对评分人给予足够的培训。主观性测试的评分

47、人最好要有相关的经验,在每次评分前,都要针对本次测试的主观性试题进行培训,以熟悉试题内容、评分标准。同时还要进行试评,每轮试评后,应对每一位评分人的评分结果进行分析,如果某位评分人的分数总是与标准分数相差甚远或不符合标准,则应不再使用该评分人。 以雅思为例,根据IELTS评分、分数报告和解释,对于受考官主观性影响较强的写作和口语考试部分,IELTS官方强调:考官均须按照已制定的明确标准进行招聘及培训,且须每两年接受检验证明其评分符合标准。在评分初始,就要确定可接受的答案,考试结束后应该立即选样。例如作文测试,应当选取不同层次的样本,供评分人进行讨论,当所有评分人意见一致后,才可以进行大规模评阅

48、。对于简述题、翻译题等,考试结束后也应当立即选取一定数量的样本,在试评中应注意把握准是否给分的语言点,尤其是共性的问题,然后进行讨论订立标准,并告知所有评分人引起他们的注意。使用多名独立评分人。一般来说,对于主观题应至少有两名独立评分人,两人应在不知道对方所给分数的前提下进行各自的评分,最后由他人汇总两位评分人的分数,进行比较。如果相差太大,则退回重评或交予权威专家进行评判。避免给予应试者过多选择的权利。在主观性测试中,应避免让考生从一系列题目中选取某一题目回答。例如,在写作中提供多个题目,让学生从中选取一个题目进行写作,这只会干扰测试的信度,并有不公平之嫌。 2. 客观性测试客观性测试(ob

49、jective tests) 试题答案具有规定性或排他性的考试,一般称为客观考试。客观性测试是指不需要评分人主观判断、答案唯一或固定的测试形式。客观性测试不需要对评分人进行培训,也不需要评分人的专业性判断,甚至直接使用阅卷机就可以完成阅卷工作。客观性测试的典型题目是单项选择题。但是单项选择题不是唯一的客观性测试题型,单词拼写、动词填空、正误判断、配伍题等都是客观性试题。客观性测试内容较为广泛,比较适合分离式测试。但这也使客观性测试只能间接反应考生语言能力,同时加强了考试内容取样的主观性。客观性测试效度差,它往往只要求考生涂卡、打钩等,答题存在猜测性因素,无法考察考生的实际语言应用能力。客观性测

50、试信度好,唯一或固定的答案保持了评分标准的准确性。客观性测试能够对语言点有所控制,阅卷省时省力。但有一点我们需要注意,客观性测试并不是完全客观的,决定考点的过程、制作试题的过程本身就是主观的。 2.3.5根据考分解释分类 考试分数如何解释?参照依据是什么?在这点上,考试可以分为两个类别:常模参照考试与标准参照考试。 1. 常模参照性测试(常模参照性测试(norm-referenced tests) 所谓“常模”,刘润清认为:“常模是指一群类型相同的人在一类考试中的成绩,这个常模一般用该考试的平均分与标准差来表示”(刘润清 2000:13)。因此,常模参照性测试是指对同一次测试的结果进行比较,参

51、照考试目的与要求设定合格分数线。合格分数线的设定主要以平均分数为依据。 常模正态分数的特点是能够报道考生在常模群体中所处的百分位置。如某考生四级报道总分是550分,则根据大学英语四级考试(CET-4)报道分数百分位对照表,可判断其在常模群体中的百分位是76%,表示这名考生的英语成绩优于常模群体中76%的人。如某考生六级报道总分是600分,则根据大学英语六级考试(CET-6)报道分数百分位对照表,可判断其在常模群体中的百分位在87%92%之间,表示这名考生的英语成绩至少优于常模群体中87%的人,但不会优于92%的人。 常模参照性测试以与其他考生的分数进行比较来衡量某一考生的成绩,确定其在全体考生

52、中的位置,因此常模参照性测试适用于选拔性测试,我国比较重要的考试大都是常模参照性测试,如中考、高考、研究生入学考试等。常模参照性测试的选拔性目的决定了其独有的特点,从命题角度而言,命题内容覆盖面宽,命题难易度离散程度较高,有助于拉开分数段;分数主要采用百分或标准分数的形式。 2. 标准参照性测试(标准参照性测试(criterion-referenced tests) 与常模参照性测试不同,标准参照性测试在考试之前就已经预先定好了衡量标准,然后根据这些标准来判断学生是否通过和不通过。在标准参照性测试中学生的表现并不取决于与其他学生所做的比较。标准参照性测试根据考生能否令人满意地完成某些任务来划分

53、档次。 例如,雅思中的学术类作文考试,如果某一学生得到6分,那么与这一分级对应的写作水准如下: (A)在任务完成方面,达到写作任务各项要求、能确切选择有用信息进行全面评述、呈现并强调主要特点或要点,但细节可能与要点无关、不恰当或不准确。 (B)连贯及衔接方面,信息和分论点安排连贯,论证过程清楚,有效使用衔接手段,但句内或句间衔接有错误或显机械呆板,有时指代不清晰或不恰当。 (C)词汇量方面,相对写作任务而言,所运用的词汇量充足,尝试运用非常见词汇但有时出现错误,拼写和构词出现一些错误,但不影响交流。 (D)句式多样性及语法准确性方面,混合使用简单和复合句,语法和标点出现一些错误但基本不影响交流

54、。 同样在口语部分,考官会以流利度及连续性,词汇内容丰富性及语法标准性与语音作为评分标准。如果一名考生得到6分,那么他已达到的相应的口语标准如下: (A)流利度及连贯性方面,愿意进行详细描述,但有时因重复、自我更正或停顿而造成不连贯,运用不同的连接词和语篇标记但有时不恰当。 (B)词汇方面,尽管有时词汇运用不恰当,但词汇量足以详细表述主题,表意清楚;总体上能成功地变换措辞进行复述。 (C)句式多样性及语法准确性方面,混合使用简单和复合句式,但不够灵活;经常在使用复合句式时出错,但很少因此给理解带来障碍。 (D)语音方面,总体能听懂,偶尔因发音错误给听者理解造成负担。 标准参照性测试与常模参照性

55、测试相比较具有以下优势:首先,它以实际语言要求为标准确定衡量标准,从而更倾向于直接反映并描述语言能力;其次,标准参照性测试能够激励学生实现标准。考生以事先确定的标准做为目标,不用担心自己比别人差,就一定会被淘汰。标准参照性测试不以淘汰多少考生为目的;此外,标准参照性测试与教学目标紧密相连。考生的表现可促进课程、教学方法、教学目标的改进。标准参照性测试的缺点在于:首先,考试内容范围狭窄,只涉及标准规定的内容;其次,考生不能够通过与他人比较知道自己在考试人群中所处的地位。尤其对于好学生而言,缺少获得更高成绩的动力;此外,标准的设定难免有随意性之嫌。 2.3.6.其它类型 除以上谈到的测试类型,近年

56、来比较流行的测试还包括交际性测试(communicative testing)和计算机辅助测试(computer-assisted testing)。 1. 交际性测试(交际性测试(communicative testing) 自从Hymes提出了交际能力理论,语言教学开始注重学生交际能力的培养,因此交际性测试也就应运而生。Hymes的语言交际能力框架由possible(可能)、feasible(可行)、appropriate(恰当/得体)、done(完成)组成,换句话说语言能力不仅包括语言知识(词汇、语法知识)而且也包括交际能力,即有能力使用这些语言知识来得体地完成交际任务。 1995年Ba

57、chman对语言能力进行了概括,即语言能力包括组织能力(organizational competence)和语用能力(pragmatic competence)。组织能力二分为语法能力(grammatical competence)和语篇能力(textual competence);语用能力二分为施为能力(illocutionary competence)和社会语言能力(sociolinguistic competence)。 交际能力的发展对于交际性测试有很大的推动作用。例如,Bachman的社会语言能力包括方言能力。方言的使用符合交际性测试对语言材料的要求,即语境的真实性。在英国剑桥大学

58、地方考试委员会的熟练英语证书考试(CPE,五级水平考试中的最高级)听力材料中就有带地方口音的讲话。 McNamara提出交际语言测试应具有两种特征(McNamara 2003:16-17): 交际语言测试是语言表现测试(performance tests),其评价需要在学习者从事交际的扩展行为时进行。这种扩展行为可以是接受性的,也可以是产出性的,或两者兼而有之。 交际语言测试侧重参与者在实际场景中可能扮演的社会角色,并提供具体说明这些角色需要的方法。 Weir在Communicative Language Testing一书中提到了交际语言测试的一些主要特征:重点是意义语境化语言活动带有可接受

59、的目的性有实际意义的言语使用真实的语言材料文本处理有真实性考试结果不可预见以互动为基础考生在真实心理状态下展示语言能力根据实际结果判断成绩。(Weir 1990:167) 交际性测试在英国和澳大利亚等国家很受欢迎,例如,澳大利亚为以英语为第二语言的健康从业人员设计的考试。在考试中,任务的设计以真实诊所常见的场景为背景,包括:与病人交流,为同事提供病例等。分数以交际的复杂性、流利性做为标准。我国的交际语言测试主要是全国英语等级测试,其考试大纲中就明确了该考试是交际性语言测试,即“其语言运用能力的分类和定义建立在交际性语言活动模式的基础上”(全国英语等级考试考试大纲第五级 1999:7)。其不同的

60、级别描述了不同的交际能力,及这些能力所能应付的语言需要。例如:该考试对三级水平的描述“通过该级考试的考生,其英语已达到高等教育自学考试非英语专业本科毕业水平或符合普通高校非英语专业本科毕业的要求,基本符合企事业单位行政秘书、经理助理、一般管理人员或科技工作者、外企职员的工作要求,以及同层次其他工作在对外交往中的基本需要”(全国英语等级考试考试大纲第三级 2003:11-12)。五级水平为“通过该级考试的考生,其英语水平基本满足在国外攻读硕士研究生非英语专业或从事学术研究工作的需要。该水平的英语也能满足他们在国内、外从事专业和管理工作的基本需要”(全国英语等级考试考试大纲第五级 1999:8-9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论