2014汉语测试讲义.doc_第1页
2014汉语测试讲义.doc_第2页
2014汉语测试讲义.doc_第3页
2014汉语测试讲义.doc_第4页
2014汉语测试讲义.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、 什么是测试?1、测试(test)又称测验,不同的心理学家对此下的定义不同。Anastasi认为,“测试实质上是对行为样本所做的客观的标准化的测量。”这个定义是人们公认的最权威的定义2、测试的三个元素 1、行为样本-指对语言能力表现行为的有效的抽样。 2、客观的测量-是指测量的标准示范符合实际。 3、标准化的测量-指在测试题目的编制、测试的实施、记分以及对分数的解释等方面有一套严密的系统的程序。3、语言测试的目的l 、用于诊断及反馈 l 用于筛选或选拔 l 用于编班 l 用于科研或调查4、语言测试的类别 按学习阶段分:编班测试/随堂测试/期中测试/期末测试 按用途来分:水平测试/成绩测试/潜能测试/诊断测试 按考试方式分:分离式测试/综合式测试 按对考试分数的解释分:常模参照性测试/标准参照性测试 按试卷的评阅方式:主观性/客观性 其他分类:交际性测试/语用测试分编班测试/随堂测试: 编班测试:是对新生入学后对学生进行的全面检查。目的是为了把学生按照不同程度进行分班或分组。编班测试关心的是学习者目前的知识水平及能力.分班测试的对象是有过第二语言学习经历的人.测试的内容是听力,阅读,词汇,语法 等有时还要进口语的面试。 随堂测试:指每教完一课之后进行的小型测试,分量小,时间短,一般不超出一周的教学内容,形式多样:听写,填空,造句等,内容是复习学过的知识,但应有目的性、连续性、系统性,要把一些重点项目分散到几次随堂测试中,帮助学生明确重点,帮助教师掌握情况。期中测试/期末测试: 期中测试:学期中间,一般要停课一周,进行复习,然后进行一次较为系统的测试。该种测试便于学生将孤立的语言规则系统的联系起来使用,要求要体现教学大纲,要在随堂测试的基础上,具有一定的系统性及综合性。 期末测试:与以上三种测试相比,该测试时间更长,分量更重,范围更广。目的:促使学生巩固所学知识,评价一学期的教学效果,调整下学期的教学安排。原则:以教学大纲为依据,全面反映出该学期学生应掌握的教学内容,不再严格的参考教科书的具体内容,而是变化语言材料来考查学生对所授知识的掌握,同时测定学生解决问题的能力。水平测试/成绩测试: 水平测试:目的是测量学生的能力,从而决定其能否胜任某一任务,这种测试与以 前的教学内容和教学方式没有直接联系。 成绩测试:考查学生对所学知识的掌握,它一般要参考教学大纲甚至是教学方法,随堂测试、期中测试、期末测试以及毕业考试都属于该范畴,因为他们都是针对以前所学的内容而设计的。潜能测试/诊断测试: 潜能测试:用来预示学生学习某种语言的潜力和天赋。它不基于某种教学大纲,也不关注学生目前学会了多少东西,所设计的题目主要是考查受试者的模仿、记忆等方面的能力,从而判断其是否具有学习语言的潜力。 诊断测试:关注的是学习者失败的程度,找出其失败的相关内容并找出补救的方法,有时也用来发现教学方面存在的问题,考试的内容可以是单个语言项目,也可以是综合性的。其目的是为了改进教学,调整教学计划,进行个别指导。分离式测试/综合性测试 分离式测试:是指把知识和能力分解为若干小的单位,逐个的进行测量。一般集中的考查语言的某个方面,或是学生单方面的技能。考试形式主要是多项选择题。 综合性测试:是指一次同时考查语言的多方面的知识和技能的测试。例如写作、翻译、口试、听写等。常模参照性测试/标准参照性测试: 常模参照测试:是指参照某一个常模对某考生的分数做出解释,一般是结合其他考生的得分情况来反映一个考生的分数,说明他在这个人群中的位置,这种方法特别有利于选拔学生。常模,是指一群类型相同的人在一类考试中的成绩,该常模多用平均分来表示。 标准参照性测试:指在对考生的成绩作出评判时,参照一个事先规定好的尺度或叫标准,测试的分数不是相对的,即不考虑其他考生的得分情况。主观性测试/客观性测试: 主观性测试:试题的答案比较灵活,需要阅卷人对考生的作答情况作出主观判断的测试。语言测试中,简述题、翻译题、作文题、口试都属于主观性题目。 客观性测试:答案唯一,不受评卷人的影响。多项选择题属于典型的客观性测试题目交际性测试/语用测试: 交际性测试:源于语言教学法中的交际法。其基本思想是,语言能力不仅包括词汇、语法等知识,而且包括交际能力,及用得体的语言完成交际任务,其特点是:正确答案是语法正确并符合社会规范的句子。语法正确而不得体的句子,或者得体而有语法错误的句子,不给分。 语用测试:测试使用语言的自然性。要符合两点要求:第一,学生必须考虑上下文对语言成份的限制,第二,学生要把语言成份与外界环境联系起来。二、 语言测试的发展史第一代体系:科学前语言测试(pre-scientific testing)-20世纪40年代以前的测 试 第二代体系:心理测量学结构主义语言学测试(psychometric-structuralist testing) -20世纪4060年代第三代体系:交际语言测试(communicative language testing),又称心理语言学社会语言学测试(psycholinguistic-sociolinguistic testing) -20世纪90年代1、科学前语言测试 -第一代测试体系 语言测试是随着语言教学的发展而出现的。有了语言教学,也便有了语言测试。人们把20世纪40年代以前的测试统称为科学前语言测试。 把语言当作知识来教授,当作知识来测试。 这门知识主要包括语法知识、词汇知识和语音知识。语言测试,也是测试这三方面的知识。 为了把语言知识的三大方面具体化,教师上课就是从课文里找出这些语言点,并把这些语言点教给学生。到考试时,就考平时教的这些语言点。科学前语言测试 -第一代测试体系 这个时期的语言教学和测试,完全以教师或命题人员的经验和主观判断来确定,没有什么科学的依据。2、第二代:心理计量结构主义语言测试 时间:20世纪40年代 理论基础:结构主义语言学、行为主义心理学 代表人物:美国Bloomfiel,Fires,Lado等为代表的结构主义语言学家 这个体系的语言观的内涵是:语言是一套形式系统。所学的和所考的就是操作这套形式的技能(skills). 第一次对语言的形式系统作了客观的、科学的分析。提出了“语言是一套形式结构,一套符号系统”的论断。心理计量结构主义语言测试 根据心理测量学结构主义语言学理论,语言可以分解为语言技能(即听、说、读、写技能)和语言成分(即语音、语法、词汇)。人们运用这些语言技能和语言成份的能力即为语言能力。由于语言项目的数目巨大,一次语言测试所能包括的测试项目有限,不可能把所有的项目都测到,因此就要进行抽样。考生对测试中语言项目的反应能力就构成了考生的语言能力。 检测考生的语言能力,该派提出了分立式测试(discrete-point test),认为试题应当每道题只考一个考点。分立式测试的主要题型有选择填空,此外还有语法填空、完成句子、改错、词汇填空等等。与第一代体系相比,第二代体系强调口头语言。在教学中,把听说摆在读写之前;在测试中注意听说技能(尤其是听)一定的比重。3、第三代:交际语言测试 交际能力由四个部分组成:(1)语法能力包括语音、词汇、语法等语言知识,这些是理解和表达语言的字面意思所必需的知识;(2)社会语言能力包括在不同的社会环境中,理解和表达形式与意思都恰如其分的语言能力;(3)语篇能力包括把语言形式和内容结合的能力;(4)交际策略能力包括在交际时如何开始、如何继续、如何调整和转换话题,以及如何结束谈话等能力。 这一模式在80年代很流行, 缺陷:第一,它没有明确指出这四种能力之间的关系; 第二,它没有得到以后语言测试实践的验证。 三、 语言测试的评析标准 1、效度2、信度3、区分性4、可行性5、反馈作用(后效作用)效度 效度:又称有效性,指测试的有效程度,即测试的内容和方法是否能测出预定要测量的东西 效度分类:表面效度、内容效度、结构效度及效际关联效度。表面效度/内容效度 表面效度是指某个测验或考试从表面看是否测量了它旨在测量的东西,有无缺漏的东西,有无偏题怪题。这是观察者靠主观评价得来的效度。这种对效度的主观评价能在一定程度上反映测试的质量。 内容效度:指测试的内容是否是应该考查的,是否反映了这项测试的要求,或者说试题所包含的内容的代表性、准确度和覆盖面如何。评价内容效度主要是采用逻辑方法进行定性分析,通常是由专家审定。 结构效度/校标关联效度 结构效度:又称理论效度。指考试的结果在多大程度上符合我们根据某种理论做出的预测,而用这种理论来解释测试的成绩。结构效度是效度的核心问题。 校标关联效度:是指确定一种能反映测试效度的参照标准,然后考察某一考试与该标准之间的相关程度,这种效度标准通常是其他效度高的考试,尤其是大规模的标准化考试;也可能是受试者的平时成绩或能力表现,甚至是教师所做的等级评定等影响效度的因素:1、测试目的不明确 2、命题方面的技术性问题会影响效度 3、组织管理方面的问题也会影响效度信度: 信度:又称可靠性,指测试结果的可靠程度或稳定性,即考试成绩是否反映了受试者的实际水平考试分数越接近受试者的真实水平,考试的信度越大。衡量信度的三个因素: 测试的稳定性:又称再测信度。即相同一套题在较短的间隔和尽可能相似的环境中对同一批受试者连测两次,然后计算两次测试分数的相关系数,相关系数越大信度就越高。 测试的等值性;也称复本信度即用同一考试的两份具体题目不同但题型内容等值的试卷,对同一批受试者在没有太多时间间隔的情况下进行测试,然后算出两次测试成绩的相关系数。 测试的内部一致性:也称内部一致性信度,常用分半法,即用一份试卷施测,然后将该试卷按奇数和偶数分成题数相等的两份,求这两份的相关系数影响信度的因素: 测试的题量:题量大,代表性好,分布均匀,测试的信度就高,反之则低,题量是影响信度的主要因素。 测试的同质性:指同一考试的不同试卷试题的相似程度和一致程度(题型、题量、覆盖面、指导语、试卷的编排)都要一样。 试题的区分度:试题要能区分学生水平的差异,与试题的难易度有关 受试者水平的多样性:受试者水平越接近,差异越难测量,;受试者水平悬殊,测试相对容易。 评分的客观性:这是影响信度的另一重要因素,要改进评分方法,特别是主观性试题要尽可能客观化。信度和效度的关系: 信度是效度的前提。如果测试的结果不可靠,不能反映受试者的实际水平,就谈不上有效性。 信度高并不意味着效度就高,可靠的语法项目考试不一定能测出受试者的理解能力。 效度不高,信度高也没有意义。效度不高,考试内容偏离了考试的目的,再可靠也没有意义。如只测试词汇的多项选择,尽管相当可靠也不能说明受试者的语言交际能力。区分性: 区分性:是指测试区分受试者知识和能力差别的性能,是试题的质量标准。如果受试者的水平高低不同而测试的成绩却很接近,不能把水平高和水平地的受试者区分开来,说明两方面考虑。考试的区分性就差。区分性从试题的难易度和区分度两方面考虑。 试题的难易度/区分度: 试题的难易度:指试卷中应该包括适当比例的难易程度不同的试题。一般认为,30%-70%的受试者都能做对的题目(即难易度在0.3-0.7)比较适中。指数愈大愈容易,指数愈小愈难。一般把试卷分为五等:中等难度占50%,较难较易各占20%,更难更易占5%。(可在上下5%浮动) 试题的区分度:能试题能区分受试者水平差异 的程度,它与难易度相关,是更重要的指标。一般按考生分数排列,将27%最高分的和27%最低分的分别作为高分组和低分组。一道题若是高分组答对了,而低分组打错了,那么这道题就有着较好的区分度;反之,则没有区分度。可行性: 可行性:指测试是否简便、经济、易于操作、便于管理。特别是评分是否容易,如果不方便,不经济,即使是好的测试也难以推广。反馈作用:反馈作用:又称后效作用,是用来检查教学效果的,但同时又不可避免的给教学以影响,这就是测试的后效作用。特别是一些大型的、重要的考试,如升学考试,常常对教学起着指挥棒的作用。为了使学习者能通过这类考试,教学反而向测试看齐,甚至出现教学为考试服务的本末倒置现象。好的测试符合教学规律,能给教学以正确的引导,对学生的学习起检查和督促的作用,产生积极的后效。如果考试背离了教学规律和学习规律,就会对教学产生有害的影响。五、标准化语言测试的过程 标准化语言测试,是对测试全过程实行科学化、标准化处理。含四个步骤: 1、设计命题 2、考试实施 3阅卷评分 4、统计分析 试题设计的流程: 1、考试设计:明确考试目的,制定考试大纲,确定考试类型、范围、内容、重点、方式、题型、题量、分值、难度、评分和评分方法、考试时间等。在考试范围,内容部分常规定具体的量化标准(词汇量、语法点等)。 2、拟定编题计划:编制时间各部分细目表 3、命题:编题并筛选 4、预测 5、项目分析:根据预测结果,进行项目分析,确定哪些试题符合考试要求 6、按大纲进一步审查试题并编制成正式试卷 7、建立题库:为保证试题及每份试卷的质量,应建立题库,把经过试测和项目分析,符合效度、信度、难易度、区分度要求的试题存入题库。六、:关于阅读测试题 阅读能力的考查 掌握所读材料的主旨和大意 了解与阅读主旨有关的事实与细节 根据上下文判断某些词汇和短语的意义 理解上下文的逻辑关系 根据所读材料进行判断、推论 领会作者的观点、意图和态度 理解各种语法概念:如原因、结果、比较与承接等等 理解词汇的连贯关系 理解词汇的意义阅读测试题型: 判断正误:这种方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论