试论语言测试中的信度和效度_第1页
试论语言测试中的信度和效度_第2页
试论语言测试中的信度和效度_第3页
试论语言测试中的信度和效度_第4页
试论语言测试中的信度和效度_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、试论语言测试中的信度和效度 范金平1,邹晓玲11重庆大学外国语学院,重庆 (400044)摘 要:语言测试是语言教学的重要环节,本文就语言测试的两个重要标准信度和效度进行了较详尽的阐述,以期对语言教师的命题及评价测试更具有科学性有所裨益。关键字:语言测试;标准;信度;效度中图分类号:H0-01. 引 言语言测试在教学中的主要目的是对学生所掌握的知识和所具有的能力进行评价。然而,测试能否是客观的、公正的、甚至是权威的评估,却取决于测试的质量。谈到测试的质量,必然涉及到测试的标准。那么,测试的标准是什么呢?国内外有许多语言学家都作过论述。他们认为,评估语言测试的主要标准有:信度、效度、区分度和可行

2、性,其中信度和效度是测试最重要、最基本的要求。换言之,一个测试如果失去了信度与效度,其它标准便无从谈起。本文拟就信度与效度作一阐述,以便对语言测试有较深入的了解。2信度(Reliability2.1信度的概念信度6也称可靠性,即当被测试对象本身发生变化,用同样的“尺子”去重复测试时,总是获得类似的结果。因此,信度也被称为一致性(consistency。如果说一个测试的信度高,便是指一个考生的成绩序列经反复测试都大致相同。如果说某次测试完全可靠,那便是指这次测试排除了一切误差、绝对的准确。即一个考生的成绩经反复测试后完全保持一致,一组考生经反复测试后,其成绩序列完全相同。其实,绝对的准确是不可能

3、的,因为人的因素是不稳定的。2.2信度的评估信度的评估1一般用考试结果的相关系数来表示。相关系数等于1表示该卷完全可靠,相关系数等于0则说明该试卷完全不可靠。在实践中,人们往往根据具体情况对试卷的信度提出不同的要求。通常是客观题的信度高于主观题。客观题的信度系数一般定在0.99以上。如果一份试卷既有客观题又有主观题,信度系数最好不低于0.80。在英语测试中,一份好的试卷,其词汇、结构和阅读部分的信度系数一般应在0.80-0.89之间,口试的信度系数一般在0.70-0.79之间。对信度系数的评估方法主要有三种7:再测信度、平行试卷信度和内部一致信度。(1 再测信度(Test-Retest。这种方

4、法是指用同一份试卷在相同的条件下对同一批考生在不同的时间内进行两次测试。两次考试的相关系数则是再测信度。(2 平行试卷信度(Parallel Forms。平行试卷信度5 (也可译为复本信度是对再测信度的改进,它是指用两份或几份在格式、内容、难度和题目数量等方面都平行、一致或等值的试卷,在不同的时间内对同一批考生进行测试。两次测试结果的相关系数便是平行试卷信度。这种计算信度的方法与计算再测信度的公式相同。这种方法虽然不是前一次测试的重复,其测试的内容不同,并且两次测试的时间间隔可以很短(一般在两周内,但在命题时要使两套试卷完全等值是非常困难的。(3 内部一致信度(Internal Consist

5、ency Reliability。这种方法使用的最广泛。它是指应用每个题目的方差来评估整份试卷的信度。2.3影响信度的因素影响信度的主要因素10有:(1考生水平的差异。考生水平越接近,试卷信度越低;考生水平差异越大(标准差也往往很大 ,信度越高。(2题目数量。试题数量越少,信度越低;数量越多,信度越高。(3题目的区分度。区分能力强的题目越多,信度越高,反之亦然。通常,命题人员用提高试题题目的区分度和增加试题题目的数量提高信度。当然,试题题目数量也不能无限的增加,因考试时间是有限的。所以,为了提高试卷的信度,还必须考虑测试质量的另一个及其重要的标准效度。3. 效度(Validity3.1效度的概

6、念考试的效度2 (有效性 指考试是否测量了它所要测量的东西,是否达到了它所预定的目的。效度是一个相对的概念。换言之,一个考试的效度可有高低之分,但不能简单地说全部有效或全部无效。除非给有效与无效规定效度系数的界限。这主要是因为个人或群体的语言能力特征,只能通过其行为样本间接推测,而不是绝对有效。从这个意义上讲,效度也可以说是一个程度上的概念,它反映根据考试分数作出推论或预测的准确程度。3.2 效度的评估一般地说,效度可以从以下几个方面评估。(1内容效度(Content Validity。内容效度12是指考试的内容是否具有代表性和综合性,或者说是否考了应考的内容。一份试卷不可能包括所有要考的内容

7、,所以,选择内容的方法非常关键。例如:有30个题目是考英语语法的,而有20个题目是考主谓一致性方面的,这就很难完全反映出考生的语法能力。因为英语语法覆盖面很广,还包括动词时态、动词短语、介词短语、不定式短语、分词短语,等等。所以这样的考试,其内容效度必然很低。(2效标关联效度(Criterion-Related Validity。效标关联效度又可分为预测效度(Predictive Validity 和共时效度(Concurrent Validity。预测效度9是指考试的结果和预言是否有效。例如,要通过考试选拔学生进一步深造,该考试是否选拔了应该选拔的学生,有没有选错或选漏?这就要看考试起到了预

8、测作用没有。一份具有很好的预测效度的试卷,应该能够正确地预言学生未来的行为。例如:把学生高考的英语成绩和大学一年级末的英语成绩作比较,观察其相关性,就可以了解高考英语试卷的预测效度。有些考试(如学能考试、分班考试、水平考试 由于与将来的学习有关,所以应特别注意预测效度。预测效度的评估可用计算信度所用的Pearson 的积距率公式来计算其相关系数。共时效度是用来将新的考试和已经公认的考试作比较,以便证明新的考试的效度。例如:在较短的时间内(一般不超过两周 让同一组学生参加EPT 和TOEFL 考试,如果考试结果的相关系数非常高,说明两者的相关性很高。如果说TOEFL 是一个公认的标准化考试,那么

9、EPT 也是一个标准化考试。共时效度的评估仍然可用Pearson 的积距率来计算相关系数。共时效度与预测效度的关系是:两者都以某种独立的而且可靠的效标作为参照量,把所测试的分数与效标分数作比较,计算其相关程度。预测度的效标是考生将来的成绩,共时效度的效标是另一次标准化考试。因此,预测效度和共时效度也可统称为效标关联效度。两者的区别就在于测试时间上的差异。共时效度要求相比较的两次考试由同一组考生在同一天或时间相隔很近(一般不超过两周 的情况下完成。预测效度则要求相比较的两次考试的间隔是半年、一年甚至更长时间,其测试对象是同一批考生。(3结构效度(Construct Validity。结构效度8指

10、一个考试所测量的能力是否符合语言、语言学习和语言行为理论中所假设的能力。这里说的结构是任何关于语言理论中所假设的能力或特征。这些理论可以是心理学方面关于语言学习或语言习得的理论。结构效度可以帮助建立心理学或语言理论中的假设,也可以推翻这些理论中的假设。3.3影响效度的因素影响效度的因素11主要有:(1题目和试卷的指令不清楚。这样考生会因为考试要求不明确而降低成绩。(2题目的难度水平不合适。换言之,一份过易或过难的试卷会把中等和上等的考生放在同一水平上。(3选择项目模棱两可,含糊不清。这与上述(1 中的影响一样会使考生不明确意义而降低成绩。(4题目与测试目的不符或没有足够的题目数量来代表要测试的

11、内容。(5题目开始就很难,致使考生一开局就严重受挫,从而导致后面的题目也放弃了。(6在多项选择里,正确答案很容易被认出来。4. 信度与效度的关系首先,信度确保测试的一致性或稳定性,效度确保测试的目的;其次,信度是效度的前提条件。一个有效度的考试一定有信度,而一个信度很高的考试不一定有效度,这是信度与效度的最基本的关系。第三,有效度就肯定有信度,不然便没有效度,因为任何一个考试最终是通过分数来表述其结果的。如果分数不可信,那么我们就无法说试卷有效地评估了学生的语言技能或能力。因此,信度是效度的必要条件,但不是充分条件。总之,信度可以独立存在,而效度与信度共存,即有效度就有信度。5. 语言测试的效

12、度重于信度语言测试应侧重考虑效度要求,在此基础上尽可能地追求信度。首先,从理论上讲效度是比信度更重要的一个属性,在语言测试中占有中心地位。信度和效度是两个互相排斥的属性,如果必须做出选择的话,效度更为重要,而信度并不是第一位的。有时4为了提高效度而牺牲一定程度的信度是必要的,然而如果为了提高信度而牺牲效度,我们的测试就变成了准确测量我们测量目标以外东西的工具。其次,从信度与效度的关系来看,语言测试如果首先保证了高信度则必然效度很低或没有效度;反之,如果首先考虑效度,信度虽然会受到一定的损害,但决不是不可获得,我们能够使一个高效度的测试增加一些信度,但我们难以使一个高信度的测试更加有效。最后也是

13、最重要的,语言测试以效度为主导有助于改善其对外语教学的影响。语言测试给外语教学带来的影响即人们常说的反拨效应,是衡量语言测试的重要标准之一,因此也被许多测试学家称为反拨效度。现代语言测试对效度的忽视在很大程度上也就是对反拨效应的忽视,使语言测试脱离了外语教学。语言测试以效度为主导无疑将给外语教学带来积极的影响,推动外语教学向培养学生实用语言能力的方向发展。要提高语言测试的效度必须设计出能有效反映受试者语言能力的题型并努力使主观题的评分尽量客观化。近年来我国的许多学者在这方面做了一些有益的探索和研究。如有人主张引入交际测试,有人论证了用听写代替多项选择题来测试听力理解的可行性。当然要提高语言测试

14、尤其是大规模的语言测试的效度无论采用何种可行的测试题型与多项选择题相比都会加重阅卷方面的负担。那么应当如何看待这种负担呢?Hughes 3的一段话也许有助于我们的思考。他说采用能产生良好反拨效应的测试方法,采用不能产生良好效应的测试方法使我们负担不起之前,我们必须问自己这样一个问题:语言测试不具有良好反拨效应的代价是什么?那种产生消极影响的测试使教学双方在与真正的教学目标并不相关的活动中浪费了大量的时间和精力,如果比较一下我们为此付出的代价我们就会得出这样的结论:我们真正负担不起的是不使用具有良好反拨效应的测试。6. 结语信度与效度是语言测试的两大基本要求,信度与效度的关系问题是语言测试的根本

15、问题。在实际编写试题的过程中,编写者应努力做到测试的信度和效度相对平衡的统一,提高效度与信度方面的互补性,努力使测试更具科学性与合理性。当然从信度与效度等测试标准出发来评价或取舍一种测试模式或测试题型是必要的但远远不够,更重要的是要考虑它对教学的影响,看它是否有助于教学目标的实现。要提高测试的正面反拨效应,但从测试方面讨论是不够的,还应从教和学以及其它方面加以探讨。参考文献1 Bachman L. F. Fundamental Considerations in Language TestingM. London: Oxford University Press, 1990.2 Bachman

16、 L. F. Palmer A. S. Language Testing in PracticeM. London: Oxford University Press, 1996.3 Hughes A. Testing for Language TeachersM. London: Cambridge University Press, 1989.4 Weir, C. J. Communicative Language TestingM. New Jersey: Prentice Hall, 1990.5 曹辉. 试论语言测试中信度与效度的关系J. 湖北经济学院学报, 2005, 2 (2.6

17、桂诗春. 标准化考试理论、原则与方法M. 广州:广东高等教育出版社,1986.7 黄仁峰. 语言测试在大学英语教学过程中的应用研究J. 肇庆学院学报, 2006, 27 (4.8 蒋德江. 论语言测试的可靠性和有效性J. 湖南大学学报, 2002, 16 (2.9 李建华. 效度在语言测试中的重要性J. 襄樊职业技术学院学报, 2002, 1 (4.10 李筱菊. 语言测试科学与艺术M. 长沙:湖南教育出版社,1997.11 史航. 英语语言测试的几点建议J. 安阳师范学院学报, 2002.12 杨惠中. 语言测试与语言教学J. 外语界, 1999, (1:16-25.On Reliability and Validity in Language Testing Fan Jinping1, Zou Xiaoling11 College of Foreign Languages, Chongqing University, Chongqing, China, (400044AbstractLanguage testing is a very important part in language teaching. This paper mainly discusses the two crucia

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论