剑桥考试中心语言测试研究系列简述_纪念剑桥英语考试10.pdf_第1页
剑桥考试中心语言测试研究系列简述_纪念剑桥英语考试10.pdf_第2页
剑桥考试中心语言测试研究系列简述_纪念剑桥英语考试10.pdf_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2014 年第 4 期 外语测试与教学 Foreign Language Testing and Teaching Oct 2014 中图分类号 H319 文献标识码 E 文章编号 2095 1167 2014 04 0047 15 剑桥考试中心语言测试研究系列简述 纪念剑桥英语考试 100 周年 杨吕娜武尊民 提要 本文对剑桥考试中心从 1995 年至 2013 年出版的语言测试研究系列丛书共 39 部书籍进行了梳理 根 据丛书出版的背景和内容不同 该丛书可以划分为博士论文 论文汇编集 效验研究 后效研究 表现和理解能 力专题研究 剑桥英语考试发展与改革回顾以及工具书与研究方法论七个类别 同时 本文还对博士论文 效 验研究和后效研究三个类别涉及的共 12 个实证研究就其研究方法 涉及的考试 考试性质 研究历时 参与人 员和数据收集方法和工具进行了梳理 以期对测试领域之后的研究有所启示 关键词 剑桥英语考试 语言测试研究系列 实证研究 Abstract This paper reviews the 39 books in the Studies in Language Testing series from Cambridge University Press starting from 1995 up to 2013 According to different contexts and contents these books can be put into seven catego ries including the doctoral dissertations paper collections validation research washback studies performance and comprehension studies historical review of the development and innovation of Cambridge English exams and refer ence books In addition it analyzes twelve independent empirical studies which are included in the doctoral disserta tions validation research and washback study in the series in terms of the research method exams involved stakes of exams the time span of research participants the data collection method and instruments so as to shed light on the future research in language testing and assessment Key words Cambridge English Language Assessment Studies in Language Testing series empirical studies 1 引言 2013 年正值剑桥英语考试 100 周年 从 1913 年剑桥考试系列的首个测试开考以来 剑桥 语言测评中心在不断开发系列语言测试的同时 还进行相关研究 出版与测试研究相关的书 籍 剑桥语言测评中心语言测试研究系列丛书 Studies in Language Testing series 简称 SiLT 由剑桥语言测评中心现任首席执行官 Michael Milanovic 策划创建 从 1995 年出版第一部至今 共计 39 部 前 12 部均由 Michael Milanovic 担任主编 从第13 部起由 Michael Milanovic 和 Cyril J Weir 博士共同担任丛书主编 这套丛书不仅为语言测试领域博士论文的发表提供了途径 而且提供了回顾剑桥英语考试所经历的改革与发展的机会 用亘古未有的方式记录了测试领 域发展变革的历史 2 分类介绍 根据出版的背景和内容的不同 可以将语言测试研究系列丛书划分成如下七类 第一类 是博士论文 共 10 部 第二类是论文汇编集 共 11 部 包括收录的语言测试研究学术研讨会 74 Language Testing esearch Colloquium LT C 欧洲测试组织 Association of Language Testers in Europe ALTE 召开的会议 计算机自适应测试在二语阅读水平测试中的应用研讨会 Issue in Computer Adaptive Testing on L2 eading Proficiency 和雅思考试 IELTS 相关研究的论文合 集 以及 2000 年出版的一部献给 Alan Davies 教授的论文合集特刊 第三类是效验研究 从 1995 年至今共出版 12 部 第四类是关于后效的研究 从 2006 年至今共出版 4 部 第五类是和 英语语言的表现能力和理解能力相关的研究 从 2000 年至今共出版 4 部 第六类是对剑桥英 语考试发展与改革的历史性回顾 从 2003 年至今共出版 7 部 第七类是工具书和研究方法论 从 1998 年至今共出版 4 部 2 1 博士论文 第一类是博士论文 SiLT 2 4 8 13 20 21 22 25 32 39 SiLT 系列每出版三到四部就会 发表一部博士论文 从 1996 年出版 Kunnan 1995 的博士论文起 截至 2013 年 共计 10 部 Kunnan 运用结构模型方法对考试者的特征和考试表现做了深入研究 Clapham 1996 对 IELTS 阅读模块的发展进行了梳理 具体研究了背景知识对阅读理解的影响 Green 2007 研 究了 IELTS 写作测试对学术英语教学的影响 Purpura 1999 采用结构方程模型探究了学习者 学习策略和测试表现间的关联 O Loughlin 2001 研究了 Access 考试中直接口语测试和半直 接口语测试间的等值 而 Hasselgreen 2004 对挪威的青少年参加的 EVA 诊断性考试中的口语 测试进行了效度验证研究 Wall 2005 和 Cheng 2005 都对测试的反拨效应及后效影响进行 了研究 Wall 的研究背景是斯里兰卡 而程李颖 Cheng Liying 博士对中国香港地区高风险的 教育证书考试的后效影响进行了研究 Shiotsu 2010 对日本英语学习者的阅读能力进行了探 究 最近的一部是 Taylor 2013 通过概要填空题型来测试学生的阅读能力 因为这些研究同 时也属于效度验证研究 在此不一一赘述 详细介绍见效度验证研究部分 部分属于后效研究 的 单独在后效研究部分展示 2 2 论文汇编集 第二类是论文汇编集 共 11 部 包括 LT C 会议 SiLT 3 9 ALTE 会议 SiLT 18 27 31 33 36 计算机自适应测试在二语阅读水平测试中的应用研讨会 SiLT 10 IELTS 考试相关 研究的论文汇编集 SiLT 19 34 以及献给 Alan Davies 的特刊 SiLT 11 LT C 是 ILTA International Language Testing Association 组织的年会 SiLT 系列收录了第 15 届和第 19 届语言测试研究会议 LT C 的会议论文 其中1993 年第15 届 LT C 关注的是 交际 认知和语言测试 共有 16 篇会议论文入选该论文集 Milanovic Saville 1996 每篇论 文独立成章 书中详细展示了口语和写作表现测试 performance testing 中复杂的影响因素模 型和因素间的交互 同时也涵盖了测试目的与使用 数据化的测试效验研究中的统计方法 双 语项目及评估翻译能力项目等议题 第 19 届的主题是语言测试中的公平 会议对其概念和情境做出了界定 并将其与测试分 数的效度验证联系在一起 此书由 Kunnan 2000 主编 共收录了 16 篇文章 分成 4 个部分 分别对公平的概念和情境 公平的规范 标准和偏颇 效度验证的评分 测试的开发及困境以及 后现代的测试设计做出了阐述 第一部分的 6 个简短发言通过论证 阐释 示例和个人反思对 公平的概念 情境和局限性做出了界定和划分 第二部分的 4 位发言人探索了测试的规范和 标准以及研究测试偏颇的方法 第三部分关注的是通过研究评分 评分员的背景和测试开发 的理论和实践来进行分数的效度验证 从而强调公平的重要性 第四部分展示了当前阅读测 84 外语测试与教学2014 年第 4 期 试的观点 启示和困境 最后提倡用生态方式来研发测试设计 开发和实施的框架 ALTE 于 1990 年成立 在联合欧洲语言测试者和建立普遍的语言测试框架上做出了重 大贡献 研发了 6 级语言测试框架 该组织在 2001 年 2005 年 2008 年 2011 年召开的四 届会议上的部分宣读文章也被收录成集 主题分别为 全球化下的欧洲语言测试 SiLT 18 多语言背景下的语言测试 SiLT 27 测试对社会和教育的影响 SiLT 31 从政 策 过程和挑战的角度探索语言测试框架对评价 学习和教学的影响 SiLT 36 第 33 部 Martyniuk 2010 收录的是 2007 年由 ALTE 代表欧洲语言政策部门主办 剑桥考试中心承办 的会议论文 议题是研究欧盟 2003 年发布的将不同测试和 欧洲语言共同参考框架 学习 教学 评估 CEF 的等级进行连接的手册 研究涵盖采用手册中提供的熟悉阶段 考试说 明阶段 标准设定阶段和效度验证阶段四个步骤 将单个测试 一套测试中不同的测试卷 不 同语种的测试和 CEF 不同水平级别间进行部分或者全部连接的探索 还展示了手册在大 规模多语言测试项目开发中的应用 这些研究也为中国测试的水平等级和 CEF 进行对比 提供了思路和方法 王京平 2012 曾尝试将我国德语专业四级考试和 CEF B1 测试进行 对比 在 ALTE 第一届会议论文集 Milanovic Weir 2004 中共收录了 17 篇论文 分成 3 个部 分 第一部分聚焦于探讨语言测试的基础性问题 技术层面如效度 信度 影响等 道德和政治 方面及测试的公平性等层面 第二部分展示了一些实证研究 诸如语言测试中的质性研究方 法的设计和效验研究 对用于考察语言考试表现的个人因素变量的问卷进行效验研究 写作测 试的评分等 第三部分介绍了处于研究进程中的欧洲语言测试项目和个人研究最新的进展 这些论文展示了欧洲国家语言测试领域的发展情况 随着研究的推进以及全球化进程的加快 如何在多样的语言环境下求同存异显得特别必 要 ALTE 第二届会议的核心是多语言和多样性 同时也是为了庆祝 欧洲文化公约 the Eu ropean Cultural Convention 签署50 周年 该论文选集 Taylor Weir 2008 收录了20 篇文章 分为透明和多样性 质量和多样性以及伦理和多样性三个部分 第一部分展示了和 CEF 相 关的研究 涵盖了该框架的研发背景 目的 在各国的实施方法 分享了如何使用该框架研发考 试说明 以及在使用统一标准将不同语言测试做等值时遇到的挑战 第二部分呈现了测试研 究者们为了保证测试质量而做出的大量努力 介绍了新测试开发过程中保证质量的工序 收集 效验研究证据的框架 研究分析的新方法 如多层面 asch 测量 以及测试公平研究的框架 最后一部分从政策和伦理角度出发 探讨了多语言情境下语言测试和获得公民身份相关的议 题 第三届 ALTE 会议是该组织迄今为止举办的最盛大的一次会议 500 多人参加了该会议 会议工作语言多达 5 种 SiLT 31 Taylor Weir 2009 会议论文选集旨在拓展对测试之于社 会和教育包括个人 组织及整个社会的影响这一宏观层面上的认知 共收录了 20 篇文章 聚焦 于特殊目的测试研究的新发展 测试对教与学的影响以及测试对所有利益相关者的影响 书 中介绍了美国联邦政府语言水平测试项目中小语种考试的研发 航空语言考试 母语非英语人 员的法庭语言评估 英国的公民身份认同考试 并将考试中的作弊现象带入了研究视野 另外 该论文选还展示了美国教育改革的后效影响等其他关于后效影响的研究 为了纪念 ALTE 成立 20 周年 2011 年在波兰举办了第四届国际会议 主题为 从政策 过 程和挑战的角度探索语言测试框架对评价 学习和教学的影响 该会议论文选集 Galaczi 94 剑桥考试中心语言测试研究系列简述 纪念剑桥英语考试 100 周年 Weir 2013 共收录了 21 篇论文 分为框架与社会情境 框架与教育情境和框架与实践三个部 分 在社会大背景下着重讨论了与移民政策和多语言政策相关的测评项目 同时探讨了写作 口语的评分标准 测试研发和效度验证以及数据过程等实践操作议题 值得一提的是该书在 最后的研究中展示了认知诊断模型在听力测试的应用 另一类论文集收录了与 IELTS 考试相关的研究 将口语和写作相关的研究编成一部 Tay lor Falvey 2007 阅读和听力编成一部 Taylor Weir 2012 第 34 部的出版是为了纪念从 1990 年起就担任 IELTS 自由撰稿顾问的 Morgan Terry 对 IELTS 的贡献 口语和写作合辑收录的是由 IELTS 澳大利亚委员会拨款的资助项目 而阅读和听力合辑 收录的是由剑桥考试中心资助的联合资助项目 这两部论文集的共同特点是统一的编排模 式 在每个研究后附有研究评价 四个模块的研究每部分介绍结束后都由 Lynda Taylor 博士就 它们对 IELTS 考试的影响进行总结 口语部分的研究开展于 1995 1998 年间 对 1989 2001 年间的施行的口语考试进行相 关的研究 其研究结果对 1998 2001 年间的口语考试修订项目有着直接影响 对 2001 年开始 实施的修订后的口语考试意义重大 口语研究从考官与考生的语言和行为角度出发 考察考 官经验 风格 态度和行为 以及测试中的性别因素 研究方法上多采用混合设计 借鉴话语分 析方法来分析口语考试数据 凸显对考试过程的关注 也有采用问卷调查的方法研究考官对考 试形式 内容和长度的态度 这些研究对 IELTS 的口语考试引入多项新的举措有着重要的启示 和影响 如采用考官框架 examiner frame 来界定考官职责 保证考试程序的标准化 用双评或 者多种评分方法混合评价多项任务代替单评 改一对一的考试方式为二对二的模式 调整试题 长度 修订评分标准等 写作部分的研究开展于 1996 2001 年间 对 1995 2004 年间实施的写作考试版本进行 研究 其研究结果对 2001 2005 年间的写作修订项目有着重要影响 直接影响了应用于 2005 年 1 月起实施的写作考试中的评价标准和评分量表 研究者们对 IELTS 写作考试中的任务 1 和任务 2 进行了研究 有从写作任务的真实性维度探讨了任务的内容效度 从语言的角度对考 生的写作表现进行分析 也有首创建立语料库进行语言分析 对写作任务包含的信息量及呈现 方式对难度的影响的研究 与评分员培训相关的研究 这些研究的结果和发现证明了雅思的 写作考试能有效区分不同水平考生 而且不同信息量和呈现方式的任务可以达到相同难度 同 时 对写作任务的改革也有很多启示和建议 如含有较少信息的任务能刺激考生产出更复杂的 语言结构 避免任务 2 的评分标准中出现主观的 you your 等词 以防止任务描述对考生 的表现产生影响 采用统一标准化的分项评分代替原来的评分方式 正式的评分反馈可能对提 高的评分一致性效果甚微 但评分员们欢迎正式正面的评分反馈和需要改进的建议 因为反馈 有利于评分员们保持备受鼓舞和肯定的良好状态 阅读和听力的研究分别开展于2005 2010 年和2005 2011 年间 收集了 IELTS 学术考 试中阅读和听力部分效度 质量和有用性证据的相关研究 第一部分关于学术阅读 探究了 学术阅读的构念和学生进入英国大学学习的阅读经历之间的异同 学术阅读构念下的认知 过程以及阅读试题的研发过程 研究发现雅思考试阅读的构念大体上和大学中的阅读任务 相近 有些发现对试题的设计和改进都有深刻的启示 如雅思 6 5 分是学生进入大学后是否 出现阅读障碍的分水岭 雅思的阅读更多关注精读策略 而忽视了学生在大学阶段更为重要 的高效阅读策略 阅读试题研发过程研究是一个全新的研究视角 有利于促进测试的公平 05 外语测试与教学2014 年第 4 期 和透明度 第二部分是听力的相关研究 包括对听讲座听力题型的认知效度验证 中国学生 听力策略研究 探究听力考试水平对西班牙英语授课的本科生课程学术水平的预测效度 以 及考生的听力水平和口语表现间的相关性 这些研究结果对雅思听力考试的改革和修订都 积极意义 SiLT 10 Chalhoub Deville 1999 由数篇 1996 年计算机自适应测试在二语阅读水平测试中 的应用研讨会上的研究报告以及其他与计算机自适应议题相关的研究组成 聚焦于阅读测试 的自适应考试 全书包括二语阅读评价 二语考试中自适应考试的应用和思考 以及测量中项 目反应理论的应用三个部分的内容 值得一提的是 SiLT 11 Elder et al 2001 是专门献给 Alan Davies 教授的特刊 以纪念其 在语言测试领域长达 30 多年的辛勤和多产 以及对语言测试的贡献 这部纪念文集由 Davies 教授1998 年退休前工作的语言测试研究中心收集 共包含28 篇论文 涵盖了 Davies 教授研究 涉及的领域 从构念的界定 考试的设计和应用 到考试的后效影响等领域 全书分成 11 个部 分 最后一部分附有 Davies 教授发表的所有论文及著作的清单 前10 个部分分别围绕如下话 题展开 Davies 教授的贡献 构念的界定 服务于特定目的和人群的语言考试 展示了将测试任 务和考生独特的背景 能力和需求相匹配 测试中涉及的决定 诸如试题的设计 考生表现的评 价及分数能做出的推断等 测试的后效影响 政策对测试的影响 测试的伦理问题 测试和二语 习得的关系以及测试领域之外关于石化和作为本族语者不能承受之轻 2 3 效度验证研究 效验研究是测试领域的核心所在 在 SiLT 系列中 共有 12 部涉及不同方面的效验研究 SiLT 1 2 4 8 11 13 21 22 24 25 32 39 其中关于后效研究的在后文详述 收集了已有测 试 新测试或新题型与效验相关证据的研究 以及基于具体测试对问卷和阅读构念进行探索的 研究 在 SiLT 1 Bachman et al 1995 中 Bachman 指导的团队在 1988 1989 年期间展开研究 系统比较了托福和剑桥英语语言考试中三级水平考试 FCE 的两套试卷 考察了它们在内容 考生情况和测试用途方面的相似点 该研究的目的是为了收集验证这两套不同测试体系考察 语言能力构念效度的证据 用于该研究的测试卷有 ETS 开发的 TOEFL 和 SPEAK 还有和基 于 TWE 专门为此研究开发的 TEW 考试和剑桥英语考试中的 FCE 考试 文中对所涉及的考 试内容和评分方法有详细的介绍 该研究对两种测试体系的信度 分数的可转换性 测试能力 的可比性 测试的考试内容等方面进行了对比 结果表明 尽管美国和英国采取了两种截然不 同的测试理念和方法 两种测试从探索性因子分析的结果看 总体上测试的是同一种语言水 平 托福考试是典型的测量学 结构主义语言考试 测量学数据特征在命题 评分和分数解释 上处于核心地位 而剑桥的英语考试则是参照英国传统考试系统 在设计 开发 评分和设置解 读分数的标准上更多的是依赖专家评判和教学经验 这项研究开创了剑桥考试中心开展其考 试的信效度数据研究的先河 Hawkey Milanovic 2013 SiLT 2 研究是 SiLT 1 研究的深化和延伸 基于 SiLT1 收集的数据 Kunnan 博士运用结构 模型方法对考试者的特征和考试表现做了深入研究 分析了考生在国内和英语目的国的英语 接触时间 动机 监控和考试表现间的关系 对涉及的两套试卷进行构念效度研究 与 SiLT 1 对不同测试间的对比不同 SiLT 13 中 O Loughlin 博士研究了同一种考试 Access 的直接口语测试和半直接口语测试间的等值 该研究和以往的口语效度验证时只关注共时效 15 剑桥考试中心语言测试研究系列简述 纪念剑桥英语考试 100 周年 度不同 它采用了混合研究设计 从质性和量性角度深入分析收集到大量的数据 借鉴话语分 析方法对考生语言产出进行分析 并对考试过程中考官和考生的反馈进行解读 在 SiLT 4 中 Clapham 博士对 IELTS 阅读模块的发展进行了梳理 具体研究了背景知识对 阅读理解的影响 该研究的大背景处于 ELTS IELTS 考试前身 改革时期 此研究结果对 IELTS 学术阅读考试的研发有着重要意义 作者所处的研究团队将 IELTS 阅读考试试验版进 行了效度验证 研究发现当阅读文章的专业性不够强时 阅读能力水平和专业背景关系不大 只有当专业性达到一定程度时 专业背景的重要性才会凸显 作者对试验版的文章用 Bach man 和其团队在 SiLT 1 中开发的 TMC 和 CLA 量表 Bachman 1995 进行了进一步分析 结果 发现所谓的学术文章的特征并不是很明显 而如何区别学术和非学术的文章可能还需要更多 的研究 与上一研究的背景类似 Hasselgreen 2004 对挪威全国 14 15 岁学生参加的 EVA 诊断 性考试中即将投入施测的口语测试进行了效度验证研究 她采用了基于 Messick 1995 1996 提出的效度六个维度为模型 系统地对该测试的效度证据从前期 中期和后期三个阶段 进行研究 发现口语等级描述中对口语流利度的界定和该测试考察交际能力的初衷有出入 另 外 该研究还探究了口语流利度和小词 small word 的使用情况的关系 与 SiLT 4 和 SiLT 20 相比较 SiLT 12 Weir 2000 更为全面地展示了新测试的开发和效验 过程 对学术英语考试中阅读部分进行了探索 介绍了开发一项新的阅读测试 AE T 和对其 进行质性和量性数据收集从而进行效验研究的过程 由于和阅读相关的文献中一直以来忽 视阅读中的浏览 查找 快速阅读等方面 该研究着重对中国大学生进阶英语阅读测试中查找 阅读 略读 扫读和细读四种阅读行为进行探究 该书介绍了中国进阶英语阅读测试的设计 和开发过程 展示了对该测试进行的效验研究 讨论了其结果 首先 研究团队用问卷的方法 从教师角度对中国本科生的学术英语阅读进行了需求分析 之后 对市面上的学术英语教材 和考题进行了文本分析 提取涉及的技能和策略 形成学术英语阅读的细目表 包含阅读技能 和策略的术语表和阅读考试条件和情境的设定 参照细目表 研究团队开始设计和开发阅读 测试 首先 研究者们各自从文本属性 来源 长度 文体特征 文章结构等维度挑选阅读文 本 之后 通过教师问卷对 15 篇挑选出的文章从话题的熟悉度 专业题材和语言难度等维度 进行判断 最终选择了 10 篇最合适的文章并将它们和测试情境表格相匹配 依据测试目的和 框架开发阅读题型 采取选择题和问答题相间的方法 研究的第二个阶段 对该测试进行效 验研究 分别从量性和质性的角度论证其构念效度 量性数据收集阶段 研究团队对试题进 行了两次试测 并附问卷调查 这一研究对于对开发新试题感兴趣的测试研究团队有着重要 借鉴意义 2013 年 Taylor 博士的著作是关注新题型研发和效验研究的最新一部 她研究了通过概 要题型来测试学生的阅读能力 展示了通过收集学生对原文本口头和书面的心理表征数据 从 而探究用概要填空题型来测试学生阅读水平的研发过程 作者同时详细解释了如何分析完形 填空数据 有两个效验研究共同关注在某个测试的检测结果辅助下探索其核心的问题 和之前的研 究关注某个具体测试不同 Purpura 博士的效验研究聚焦的是对剑桥考试中的策略和元认知策 略问卷进行效验研究 在考生完成 FCE 锚题的测试后 随即进行策略和元认知策略问卷的作 答 他采用结构方程模型探究了学习者学习策略和测试表现间的关联 并进一步分析了高水 25 外语测试与教学2014 年第 4 期 平和低水平语言能力考生在策略使用上的异同 Shiotsu 博士对日本英语学习者的阅读能力进行了探究 在探究阅读能力的影响因素时 采用了中国的 CET 考试 并基于前期的研究 研发出了基于计算机的阅读能力型测验 power test 这也是该研究的一个亮点和前提 研究者深入探究了词汇识别速度 工作记忆 句法知 识等对阅读能力的影响 对阅读理论 二语发展 教学和评价领域都有着启示 2 4 后效研究 在本系列中 有 4 本 SiLT 21 22 24 25 是关于后效研究的 随着效度日益被证明和效 度验证存在紧密联系 而且在分数解释时具有重要的作用 很多高利害的测试也开始关注测试 对社会及对分数的效度解读的后效影响 consequential validity 本系列专著关注的是测试在 宏观或者微观上对教育及个人 主要是教师和学生 的影响 虽然都是对高风险考试改革的后效影响进行研究 但是关注的时间阶段却不一样 在 SiLT 21 中 程李颖博士关注的是 1996 年中国香港地区高风险的教育证书考试 HKCEE 实施 前该考试改革对香港地区中学英语教育的后效影响 从宏观和微观两个角度进行研究 宏观 上 涉及的利益相关者包括教育部门 课程开发部门 香港考试中心 微观上 涉及教室教学层 面中教师态度 教学内容和教室中的交互 该研究的突出优势在于采用了质性和量性数据结 合的方法来探索这一新考试对香港地区中学英语教育产生的影响 在不同的情境下 Wall 博士对斯里兰卡的 O level 考试改革的反拨效应展开了个案研究 但她关注的是新的 O level 考试实施两年后考试改革对课堂 教师及学生 的影响 该项目的 目的在于评价一项新的全国英语考试是否对课堂产生了积极的影响 Wall 博士在综述了语 言测试和语言教育相关的文献后 还借鉴了教育创新相关的文献 创设出适用于分析其所收录 数据的理论框架 该研究的独特性在于作者采用了质性研究方法来进行研究 当研究者发现 新的考试对教学内容和教师的测评方式有着巨大影响但是对教学方法却几乎没有影响时 作 者尝试分析相关原因 这对教学的改进及新测试的实施有着重要的启示 在这个研究中 作者 详尽展示了如何对改革前后教学体系特征进行系统的对比研究 从而得出新考试的后效影响 这对之后的研究有着重要的启示 Green 和 Hawkey 博士的著作聚焦于剑桥考试中心早在 1995 年就开始进行的 IELTS 的后 效影响研究 Green 博士从微观层面探索了 IELTS 学术写作模块对准备以后在英国大学进行 学术学习的影响以及这种考试准备与其他以学术为目的的英语课程的对等性进行了探索 强 调将后效研究作为效验研究的一部分日益凸显的重要性 这项研究对 2005 年 IELTS 考试写 作模块的修订有着巨大贡献 而且对完善考试分数的报告和解释程序都产生了重大影响 该 研究中 Green 博士采用了质性和量性混合的研究方法 研究设计和数据分析最为多样化 选取 了课堂观察 个人和小组访谈 学生和教师问卷 文件分析以及多种考试工具 这些都是值得借 鉴的 在 SiLT 24 中 Hawkey 从考试后效影响的定义 范围及其重要性出发 将其置于更大的教 育 研究及社会背景下进行讨论 在宏观的层面上详细展示了后效研究在剑桥考试中心考试研 发 效验及修订系统中的重要性 并具体讨论了意大利的 Progetto Lingue 2000 及 IELTS 的后效 研究这两个案例 测试的后效研究是长期被忽视的领域 早期的后效研究中 Hughes 1988 Khaniya 1990 大部分都因缺少实证数据而被质疑 而 SiLT 系列关于后效的研究中研究者们展示了在不同的 35 剑桥考试中心语言测试研究系列简述 纪念剑桥英语考试 100 周年 研究情境下如何选择研究的样本 如何分析后效影响的广度和强度 这些研究填补了后效研 究领域的空白 引领了这一领域的发展和未来 也为今后的研究者们指明了方向和道路 2 5 表现与理解能力专题研究 对英语语言的表现能力和理解能力相关专题做出梳理的有 4 本 SiLT 26 29 30 35 具 体回顾了剑桥英语考试对所开发的试题进行的系统的效度验证研究 这四本著作都是对剑桥 通用英语五级系列认证考试 Cambridge ESOL Main Suite Examinations 的听 说 读 写四部分 测试开展深入全面的审视 这四部书和剑桥大学出版社出版的另一套听说读写评估系列丛书 不同之处在于 前者更专注于社会认知效验框架在剑桥英语主流认证考试中的应用和实践 而 后者偏重全面介绍相关能力的理论和评估知识 SiLT 26 Shaw Weir 2007 和 SiLT 29 Kha lifa Weir 2009 分别对作文和阅读的相关的理论和测评研究和实践做出了总结 SiLT 30 Taylor 2011 和 SiLT 35 Geranpayeh Taylor 2013 分别对与口语和听力相关的理论和测评 研究和实践做出了总结 其编排体例一致 由专家们分别撰写一部分 最后主编合成最终版本 其中这四部书的共同点在于都对听说读写涉及的认知过程模型进行了梳理 都采用 Weir 2005 提出的社会认知效验框架 socio cognitive validation framework 作为统一的论证框架 分别从考生特征 认知效度 情境效度 评分效度 标准相关效度和后效效度六个维度进行全面 评估和反思 而且对四个维度的语言能力的等级划分进行了系统描述 最后都对各部分的效验 研究进行了总结并针对性地指出发展方向 四本著作为其他研究者和测试项目论证其测试工 具提供了系统的维度理论框架和效度验证框架 也为测试相关者清晰划分了听 说 读 写能力 的不同等级 全面阐述了如何将社会认知效验框架系统应用到效验研究实践中 2 6 剑桥英语考试发展与改革回顾 还有一部分著作对剑桥英语考试发展与变革做出了历史性的回顾 是具有非凡意义的历 史文献 SiLT 15 16 17 23 28 37 38 2003 年 SiLT 15 Weir Milanovic 2003 回顾了 CPE 从 1913 年到 2002 的发展历程 记录了从 1991 至 2002 年间对 CPE 考试新一轮的修订 2005 年 Hawkey 2005 在 SiLT 16 中梳理了英语能力证书考试 CELS 的发展 详细介绍了对研发 CPE 考试有着重要影响但已经被取缔的四套考试 并将 CPE 和其中一套考试进行了细致的比 较 2006 年 O Sullivan 2006 在 SiLT 17 中对剑桥商务英语考试的变革进行了梳理 之后 Davies 2008 在 SiLT 23 中对从 1950 年到 1989 年 从 ELTS 到 IELTS 的发展做了回顾和梳理 并附 上了大量当时的考试样卷 测试开发 设计和试测过程相关的文件以及当时在着手准备研发的 其他测试相关的材料 SiLT 28 中 Hawkey 2009 回顾了 FCE 和 CAE 考试的历史 SiLT 37 Weir et al 2013 对剑桥英语考试从 1913 年到 2012 年的变革和发展进行了梳理 2013 年 SiLT 38 出版正值剑桥英语考试 100 周年 全书对剑桥英语考试中心及相关测试系列从 1209 年剑桥大学创建之初 剑桥大学考试委员会的成立 一直到现在的剑桥语言测评中心 在过去 100 年间的发展和变化历程做了全面的呈现和梳理 2 7 工具书与研究方法论 在出版的 SiLT 系列中 工具书类共有 4 部 包括测试术语表两部 SiLT 6 7 和两部分别 关于测试中口头报告数据分析 SiLT 5 和用质性方法对口语测试进行效度验证的介绍 SiLT 14 第一本词典是由欧洲语言测试者联盟 ALTE 成员协同 UCLES 的工作人员编写的多语 言语言测试词汇表 ALTE members 1999 暂时包含 10 种语言 随着更多国家的加入 还在不 断增补其他语言的版本 这本词汇表是 ALTE 成员们在开发 欧洲语言共同框架 时 为了方 45 外语测试与教学2014 年第 4 期 便交流 取得共识而开发的术语表 词条的数目从 424 到 455 不等 为不同语言背景的语言测 试领域研究者提供了统一的术语规范 推进了语言测试领域的发展 另一本语言测试词典于 2000 年出版 Davies et al 1999 由 Davies 教授主持 词典的编 写始于 1991 年 历时 6 年 正如韩宝成教授在为其所作序言中写道 这是世界上第一本关于 语言测试的词典 作为一本百科性质的入门级词典 该书语言浅显易懂 包含 600 多个条 目 160 项参考文献 为测试领域相关的词条提供了详尽的解释 示例 引证及参见项目 该词 典的出版 对语言测试领域的术语做了详细的解释和界定 建立了语言测试标准和规范 标志 着语言测试领域的发展进入了一个新阶段 此外 研究方法论类别中 Green 1998 教授专门对语言测试中的口头报告分析做了详尽 的介绍 为效验研究中收集来自学生和被试者的质性数据提供了思路和可行性 书中对相关 的术语诸如 think aloud talk aloud concurrent retrospective mediated non mediated 等进行了区 分 并介绍了该研究方法在测试领域的适用范围 书中还举例展示了口头报告数据收集设计 收集 分析方法的具体操作过程和步骤 实为不可多得的研究方法书籍 另外 随着该研究方 法在测试领域的日益盛行 如果要进行深入全面的研究 可以结合 Bowles 2010 关于有声思 维 think aloud 的著作做进一步的探究 SiLT 14 Lazaraton 2002 报告了用质性的方法对口语考试进行的效度验证研究 作者在 对当下口语测试的方法从基于产出的模式进行了梳理和批评 提出基于过程的评价方式 展示 了基于过程的话语分析方法 而该部著作中关注的是将话语分析中的会话分析 conversation analysis 方法应用到口语考试的效验研究中 书中首先呈现了会话分析和组织谈话 institu tional talk 的历史背景 特征及优缺点 之后详细介绍了会话分析的数据收集 转写规则 分析 和呈现的方法 最后书中呈现了很多采用会话分析的质性研究方法对口语测试进行效验的研 究 它们对之后的研究有着重要的启示 3 评介 本丛书 39 本书中 每本书展示一个系统的实证研究 属于博士论文 效验研究和后效研究 三个类别的共12 本 SiLT 1 2 4 8 12 13 20 21 22 25 32 39 基于 Porte 2010 对语言研 究的评价框架及 Gass Mackey 2011 提出的数据收集方法 下文对这 12 个实证研究的研究 方法 涉及的考试 考试性质 研究历时 参与人员和数据收集方法和工具六个维度进行分析 参见附录 2 研究方法上大多数研究采用质性和量性混合的研究方法 12 个研究中只有 1 个研究采用 了质性研究方法 1 个研究采用了量性研究方法 其余 10 个研究都采用质性和量性混合的研 究方法 实证研究中关注的考试不管从地域 考试性质还是测量的语言范围和适用的考生来说都 很广 涉及的地域包括美国 中国 英国 澳大利亚 挪威 中国香港地区 斯里兰卡等 其中只 有两个低利害的考试 如中国本科生进阶英语阅读考试 AE T 挪威 EVA 口语考试 而其他 10 个研究涉及的考试都是高利害的考试 包括中国香港地区 1996 HKCEE 斯里兰卡 1988 O level 英国 1995 2004 IELTS 学术写作模块 英国 IELTS 阅读考试 TOEFL SPEAK TEW 英国 FCE CPE 考试 英国 key stage 3 阅读考试等 研究的语言能力范围包括专门的口语 阅读 写 作测试 也有涉及整套试卷的研究 如中国香港地区1996 的 HKCEE 高中教育证书考试 及斯 55 剑桥考试中心语言测试研究系列简述 纪念剑桥英语考试 100 周年 里兰卡 1988 O level 考试 而且大多数考试的考生是准备读大学 大学在读 研究生阶段 也有 少数是中学阶段的青少年学生 研究时间基本在一年及以上 甚至有长达四年的研究 体现了研究的历时性 参与的人员 大多数情况是参加该考试的考生或涉及的教师 但在后效研究中人员范围更广 涉及与考试相 关的其他人员 如香港考试局 高等教育机构 教材出版商等相关人员 数据收集方法上涉及 了考试 访谈 回溯 问卷 文件分析 课堂观察等 工具有试卷 访谈提纲 各种问卷 各种能力 量表如语法能力量表 课堂观察记录表等 SiLT 丛书系列从策划到发行至今已经走过 19 个年头 它从横向和纵向两个维度展示了 语言测试领域的发展 在语言测试领域有着举足轻重的意义 对从事语言测试领域学术研究和 测试实践有着指导性作用 对推动语言测试领域的发展有着巨大的贡献 理论上 该丛书展示了测试领域中阅读 听力 写作和口语测评理论的研究和发展前沿 加 深了对阅读 听力 写作和口语本质的认知 推动了更多相关研究的进行 同时 效验研究理论 也不断深化 Weir 2005 提出的社会认知效验框架被全面应用到了四个能力维度中 实践上 该丛书展示了剑桥英语考试及其他考试的研发和效验过程 对测试领域考试的开 发和效验有着重要借鉴意义 而且 该丛书记录了剑桥英语考试从研发初期直至不断完善的 发展过程 从 1913 年只有 3 个英国人参加考试一直到现在每年都有约来自 130 个国家 400 万 考生参加各项考试 这是剑桥考试中心的发展史 数据佐证了其变更和演化 SiLT 系列中涉 及的语言考试有剑桥考试中心研发的 IELTS 学术考试 通用英语五级系列证书考试 KET PET CAE FCE CPE CELS BEC 澳大利亚的移民语言测试 Access 挪威青少年诊断性测试 EVA 中国香港地区的 HKCEE 斯里兰卡的新 O level 考试 英国的 key stage 3 考试等 该系列 丛书中 包括 IELTS 相关的论文集以及和剑桥考试中心开发的测试相关的专著就有 19 本 这 足以说明剑桥考试中心在不断向世人展示其测试研发和效验的过程 其开发的测试有着高透 明度 每个测试的研发都需要有坚实的理论基础和严谨的实证研究来支撑 才能为其分数的 解释和使用负责 才能保证其测试的公平性 另外 此套丛书对评价素养 Assessment Literacy 的普及有着重要意义 当今的社会生活 中 测试评价涉及的相关者很多 大到国家层面 小到个人的工作 学习 生活等 测试结果的使 用牵涉很多人 所以了解测试目的 测试方法 分数的解释和利用非常重要 对于教师来说 评 价素养也是其专业知识和技能的重要组成部分 从上述介绍和分析可以得出 丛书中的研究关于听力的研究较少 而阅读相关的研究比较 丰富 而且 大多数是基于高年龄阶段或者高等教育阶段的考试 关于基础教育阶段研究较少 只有两个研究关注的是基础教育中的语言测试问题 这也凸显了基础教育中语言测试领域的 研究空白 丛书展示了研究者们从测试领域的各个研究视角入手 向测试工作者们展示了研究的设 计 数据收集和数据分析等各个环节中严谨的治学态度和最新的研究动态 为测试领域理论与 实践的发展方向提供了有借鉴意义的启示 打开了新的思路 参 考 文 献 1 ALTE members Multilingual Glossary of Language Testing Terms M Studies in Language Testing 6 Cam bridge Cambridge University Press 1999 65 外语测试与教学2014 年第 4 期 2 Bachman L Davidson F yan K Inn Chull Choi An Investigation into the Comparability of Two Tests of English as a Foreign Language M Studies in Language Testing 1 Cambridge Cambridge University Press 1995 3 Bowles M The Think Aloud Controversy in Second Language esearch M UK outledge 2010 4 Chalboub Deville M Issues in Computer Adaptive Testing of eading Proficiency C Studies in Language Testing 10 Cambridge Cambridge University Press 1999 5 Cheng L Changing Language Teaching through Language Testing A Washback Study M Studies in Lan guage Testing 21 Cambridge Cambridge University Press 2006 6 Clapham A The Development of IELTS A Study of the Effect of Background on eading Comprehension M Studies in Language Testing 4 Cambridge Cambridge University Press 1996 7 Davies A Assessing Academic English Testing English Proficiency 1950 1989 The IELTS Solution M Studies in Language Testing 23 Cambridge Cambridge University Press 2008 8 Davies A Brown A Elder C Hill K Lumley T McNamara T Dictionary of Language Testing M Stud ies in Language Testing

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论