(教育技术学专业论文)基于计算机的口语考试系统的评分子系统研究及其改进设计.pdf_第1页
(教育技术学专业论文)基于计算机的口语考试系统的评分子系统研究及其改进设计.pdf_第2页
(教育技术学专业论文)基于计算机的口语考试系统的评分子系统研究及其改进设计.pdf_第3页
(教育技术学专业论文)基于计算机的口语考试系统的评分子系统研究及其改进设计.pdf_第4页
(教育技术学专业论文)基于计算机的口语考试系统的评分子系统研究及其改进设计.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于计算机的口语考试系统使考生能够在计算机上完成口语考试,评分者 使用评分子系统完成评分工作,在大规模口语考试中体现出了很强的优势。使 用评分子系统进行评分的方式在评分工具、评分对象、评分工作量等方面,较 传统口语考试发生了改变,这些方面的改变是否对评分质量产生影响以及能否 进一步利用计算机技术,对评分子系统进行改进,是本文主要的研究问题。 作者首先在文献调研的基础上,对传统口语测试中评分质量的影响因素、 提高评分质量的方法等进行整理归纳。同时,针对评分子系统,设计相应的教 育实验,从评分者使用评分子系统的反馈、评分信度、评分严厉度以及计算机 自动评分的可行性等方面展丌研究。 实验结果表明:1 ) 评分者主观上对使用评分子系统进行口语评分工作持赞同 态度。2 ) 评分者普遍认为使用评分子系统能够减轻他们的工作量。3 ) 评分子系统 所使用的评分量表表现尚可,但还是存在着进一步完善的空间。4 ) 经过评分前培 训的评分者对评分量表的使用结果基本是满意的。5 ) 计算机自动评分能达到较高 的评分信度,基本可以代替人力,批量完成朗读题的评分任务。同时也发现评 分者在使用评分子系统过程中,存在快速评分现象,评分者之间存在评分不一 致等问题。 针对上述存在问题和研究结论,作者设计了评分子系统的改进方案,方案 提出在评分子系统中增加评分样本查看、评分监控器以及计算机对朗读试题自 动评分功能,并详细论述了评分监控器的设计方案( 评分监控器的基本业务类、 总体类结构、x m l 配置文件、评分行为监控算法) 和计算机自动评分功能在系 统中的具体实现。 关键词:计算机口语评分评分监控 a b s t r a c t t h ec o m p u t e 卜b a s e do r 列t e s t i n gs y s t e me n a b l e st e s tt a k e r st of i n i s ht h et e s to n c o m d u t e r sa r l de n a b l e sr a t e r st ow o r kb yu s i n gt h er a t i n gs u b s y s t e m t h i st e s t i n g s y s t e mh a sas t r o n ga d v a n t a g ei nt h el a 唱e s c a l et e s t c o m p a r e dw i t ht h em e t h o do f 仃a d i t i o n a lo r a lt e s t ,m em e t h o do fu s i n gr a t i n gs u b s y s t e mh a sc h a l l g e df r o ms e v e r a i 罄p e c t ss u c ha ss c o r i n gt o o l ,s c o r i n go b j e c t ,s c o r i n gw o r k l o a d t h e r e f o r e ,t h em a i n 恁s e a r c hq u e s t i o n sa r et h a tw h e t h e rt h e s ec h a n g e sh a v ea nl m p a c t o nt h es c o m l g q u a l i t y a n dw h e t h e rt h ec o m p u t e rt e c h n 0 1 0 9 y c a n如n h e ri m p r o v et h er a t m g s u b s y s t e m 。 b a s e do nl i t e r a m r er e s e a r c h e s ,t h ea u t h o rf i r s tc o n c l u d e dt h a tt h ea n b c t i n g 伽t o r so ns c o r i n gq u a l i t y , t h em e t h o d st oi m p r o v es c o r i n gq u a l l t yd u n n gt h e t m d i t i o n a lo r a le n g l i s ht e s t a tt h es 锄et i m e ,t h ea u t h o rd e s i g n e ds e v e r a lr e i e v a n t e d u c a t i o n a ie x p e r h n e n t st or e s e a r c ht h ei s s u e s 行o mv a r i o u sa s p e c t s ,m c l u d l n gr a t e r s 。 f 砖d b a c k sa b o u tr a t i n gs u b s y s t e m ,r e l i a b i l i t y ,r a t e rs e v e r i t y a n df e a s i b i l i t yo f c o m p u t e r - a u t o m a t e ds c o r i n g t h er e s u l t ss h o w :1 ) r - a t e r sh o l da na m r n l a t i v ea t t i t u d e t oa p p l y l n gr a t l n g s u b s v s t e mi nt h e i rw o r k 2 ) r a t e r sw i d e l y a c c e p tt h a tu s i n gr a t i n gs u b s y s t e mc a n r e ( 1 u c et h e i rw o r k l o a d 3 ) t h es c a l ep e 雨丌n sw e l l ,b u tt h e r ei ss t i l lr o o mf o rf h n h e r i m p r o v e m e n t 4 ) a 胁t r a i n i n g ,t h er e s u l to fu s i n g t h es c a l ei sb a s i c a l l ys a t i s 母i n g - 5 ) c o m p u t e r a u t o m a t e ds c o r i n gh a sh i 曲r e l i a b i l i t ) ,a n dc a nc o m p l e t et h er e a d m g1 t e m s c o r i n 2t a s ki nb a t c h a n dt h ea u t h o ra l s o d i s c o v e r st h a tw h e nu s l n gt h er a t m g s u b s v s t 啪,r a t e r ss t i l lh a v es o m ep r o b l e m s ,s u c ha sq u i c ks c o r i n gp h e n o m e n o na n d l o wi n t e r r a t e rr e l i a b i l i t y a c c o r d i n gt h ep r o b l e m sa n dt h ec o n c l u s i o n sa b o v e ,t h ea u t h o rd e s i g n e da r a t i n g s u b s y s t e mi m p r o v e m e n ts c h e m e ,i n c l u d i n gs c o r i n gs a m p l e s s h o w ,t h ed e s i g i l o f s c o r i n gm o n i t o ra n dc o m p u t e r - a u t o m a t e ds c o r i n gf u n c t i o nb a s e do n t h ee v a l u a t m g e n g i n ep r o v i d i n g b yu s t ci f l y t e k c o ,l t d t h es c h e m ea l s od i s c u s s e dd e s l g n o f s c o r i n gm o n i t o r( b a s i c b u s i n e s sc l a s s e s , w h o l es t n 圮t u r eo fc l a s s e s , x m l a b s t r a c t c o n f i g u r a t i o nf 1 1 ea n ds t a t i s t i ca t h m e t i co fs c o r i n gb e h a v i o r ) a n dr e a j i z a t i o no f c o m p u t e r a u t o m a t e ds c o r i n gm n c t i o n k e y w o r d s :c o m p u t e r o r a l ,r a t i n g ,r a t i n gm o n i t o r 表目录 表目录 表2 1 两个评分者信度研究评分方法比较1 0 表2 2 两个以上评分者信度研究评分方法比较儿 表3 1 问卷调查结果一1 8 表3 2 问卷调查结果二1 9 表3 3 评分者之间的评分信度2 4 表3 4 评分者的评分严厉度和内部一致性检验。2 6 表3 5 偏差分析:评分者与考生的交互作用2 7 表3 6 评分量表分数段统计2 8 表4 1 评分子系统角色目标3 5 v i i 图目录 图目录 图3 1 评分层面图2 4 图3 2 评分量表分数段的概率曲线图2 9 图4 1 评分子系统界面3 4 图4 2 评分子系统改进设计用例图3 7 图4 3 总体框架图。3 8 图4 4 评分监控器关键流程图j 3 9 图4 5 基本业务类图一评分监控参数类4 0 图4 6 基本业务类图一评分策略类4 1 图4 7 基本业务类图一考生成绩类4 1 图4 8 基本业务类图一评分行为类4 2 图4 9 评分监控器总体类结构图4 3 图4 1 0 评分行为算法类4 5 图4 1 l 朗读题自动评分流程图5 0 图4 1 2 朗读题自动评分详细设计图5 1 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:迅选 矿哆年6 月9 日 第l 章引言 第1 章引言 1 1 问题的提出 口语考试的评分是一种主观评分,评分者需要对被试的表现进行评估,从 而给出成绩或者通过不通过的决定,分数应该能正确反应被试的能力。口语考 试的测验结果最终要落实到分数上,测验的使用者将根据分数对考生的能力做 出判断,而这种判断是否能得到证据的支持是测验是否有效的核心表现。 在现实考试中,考生的测验分数会受很多因素影响,其中包括考试方式、 评分者的评分一致性、评分方式、考生实际发挥的稳定性、试题试卷的信度效 度等。以上的种种因素交互作用,影响着考生最后的成绩。研究发现,要使口 试分数能正确反映考生的真实能力,如果不考虑命题和考生本身这两个因素, 影响最大的则是评分的主观性这个因素( 邹申,2 0 0 3 ) 。口语考试的分数在很大 程度上依赖于评分过程,评分过程是非常重要的一个环节。口语测验领域普遍 认为评分者和评分方法决定了口试的信度,从而在很大程度上影响了测验的效 度( 王估曼,2 0 0 7 ) 。 基于计算机的口语考试( 以下简称“口语机考”) 作为一种新型的口语测试 方式,属于半直接口语考试。半直接口语考试是指运用语言实验室或多媒体计 算机等录音设备记录考生根据测试题和指令而响应的口语表述,并对考生录音 进行评分以测试考生的口语能力的考试方式。其特点是口试过程和评分过程相 分离,不易受其它因素影响( 如试题难度,直接口试考题难度可能因评分者的 原因而不一致,半直接口试不存在这个问题) ,并且适用于考生众多的大规模口 语考试。口语机考的形式改变了传统的考生进行口语考试的方式,同时也改变 了评分者的评分方式。在口语机考中,评分工作是在考试结束后,把考生的录 音传送至统一的文件服务器上,由经过训练的评分者统一审听评分。评分者不 再是在现场进行打分,而是在计算机上,通过在线阅卷或者离线阅卷方式进行 评分。这种方式的优点是:评分可由专业人员统一在方便的时问和舒适的地方 进行:评分者的评分不受考生衣着和仪表等外部因素的影响。缺点是:如果发 现考生语言资料不足或录音不清楚,难以进行评分( 文秋芳,1 9 9 9 ) 。口语机考 第l 章引言 中,考生人数相比于传统直接面试型口语考试,会大量增长,因此增加了评分 者的工作量。评分者在使用口语机考评分子系统进行评分时,面对评分工具( 计 算机、评分系统) 、评分地点、评分对象( 考生录音) 、评分工作量等方面发生 的改变,是否会影响其评分质量,这是一个值得去研究分析的问题。 同时,随着计算机技术和语音识别技术的发展,目前科大讯飞公司开发的 评测引擎已经基本实现计算机对某些特定试题( 如朗读题) 的自动评分。该评 测引擎从考生口语的发音质量、流畅度、语法掌握、词汇量等多方面的评测标 准,对考生的整体口语水平给予一个公平客观的总体评价。由于计算机作为评 分工具,在大规模的口语考试中,不仅可以大大减少评分者的工作量,使得他 们能够集中精力评阅其他试题,而且可以减少人工评分中表现出来的某种程度 上的不稳定,包括评分者之间的不一致及评分者在不同时间、场合下内部的不 一致。 作者所在的实验室和上海外语教育出版社合作研发的基于计算机的口语考 试系统已广泛使用近3 年的背景下,作者期望对其中的评分子系统进行人工评 分研究和基于评测引擎的计算机自动评分( 以下简称“计算机自动评分”) 研究, 并根据实验研究结果,尝试能否充分利用计算机技术,对现有的评分子系统进 行改进,进一步提高评分者的评分信度,从而提高评分子系统的评分质量。 综上所述,作者提出以下待研究问题: 问题一:评分者对评分子系统的使用体验是如何的? 问题二:评分者使用评分子系统进行评分,其评分者信度、评分严厉度和 评分量表的使用情况是如何的? 问题三:计算机对朗读试题的自动评分,其评分是否具有较高的信度? 问题四:如何改进现有的评分子系统,提出解决方案? 1 2 研究内容 本文首先对口语测试评分的影响因素、提高口语测试评分质量的方法以及 网上阅卷系统对评分质量的控制等方面进行大量的文献调研。 在文献调研的研究基础上,设计并实施相关实验,调查评分者对评分子系 统的使用反馈情况,研究评分者使用评分子系统进行评分的评分信度、评分严 厉度、评分偏差等问题以及计算机自动评分的评分信度及可行性问题。 第l 章引言 最后,在对现有评分子系统分析的基础上,根据实验的数据分析结果,结 合当前评分系统的实际需求,研究评分子系统的评分质量控制方法和计算机自 动评分的实现方法,提出可行的评分子系统改进设计方案,方案提出在评分子 系统中增加评分样本查看、评分监控器以及计算机对朗读试题自动评分的功能。 1 3 研究方法 本文主要采用了理论与实践相结合的方法,理论部分采用文献调研法、实 验研究法、问卷调查法,对评分者使用评分子系统的反馈、评分者信度、评分 严厉度等方面进行定性和定量的研究。实践部分采用实践法对评分子系统进行 改进设计和实现。 、 第一,采用文献调研法,对口语测试评分的影响因素、提高口语测试评分 质量的方法及网上阅卷系统对评分质量的控制方案进行调研。 第二,在文献调研的基础上,针对评分子系统的使用进行问卷调查。问卷 调查的主要内容是:1 ) 评分者对使用计算机进行评分工作的态度:2 ) 评分者的自 身计算机操作水平是否影响对系统的使用;3 ) 评分子系统需要改进的地方。 第三,定量研究评分子系统的评分信度、评分者评分严厉度、基于评测引 擎的计算机自动评分的评分信度等问题。 第四,采用实践法,提出评分子系统的评分监控器和计算机自动评分的需 求分析,设计完成评分监控器以及计算机自动评分功能。 1 4 研究意义 从教育科学研究的角度来看,目前国内外对基于计算机的口语考试研究文 献很少。伴随着口语考试的考试方式的改变,口语评分的方式也发生了改变, 评分者使用评分系统进行评分工作。因此,本文通过实验设计,对评分者使用 评分子系统的评分信度、评分者评分严厉度、评分量表等情况进行较为全面的 研究,具有一定的理论意义。 同时,本文在实验研究结果的基础上,提出的评分监控器方案能够对评分 质量起到一定的监督和控制作用,设计并实现的计算机自动评分功能,能够在 大规模口语考试过程中,减轻评分者的评分工作量。因此,本文具有一定的实 际应用价值。 第1 章引言 1 5 论文的逻辑结构 本文总共分为引言、文献综述、评分子系统的评分研究、评分子系统的改 进设计和总结与展望共五章节内容。各章的内容简述如下: 第1 章引言:陈述本文的研究背景、研究内容、研究方法、研究意义以及 论文的逻辑结构。 第2 章文献综述:通过对口语测试评分的影响因素等方面的调研,归纳国 内外研究者在口语评分方面的研究成果,同时针对计算机阅卷系统的调研情况, 对网上阅卷系统中所使用的评分质量控制方法进行了总结。 第3 章评分子系统的评分研究:说明研究方法的选择、提出研究的设计、 实验过程以及实验数据的分析结果。 第4 章评分子系统的改进设计:在实验研究结果的基础上,结合现有评分 子系统,提出评分子系统的改进方案。 第5 章总结与展望:对本文的研究结论进行概括,并指出研究中存在的问 题,给后续研究者提供参考。 4 第2 章文献综述 第2 章文献综述 本章对口语测试评分的影响因素、提高口语测试评分质量的方法进行了大 量的文献调研,归纳了国内外研究者对口语评分过程中个人因素对评分的影响 等方面的研究成果。同时整理了目前评分者信度的各种研究方法和提高评分质 量的方法。最后,对网上阅卷系统及其评分质量控制方法进行了调研。通过文 献调研,将确定本文的研究对象、研究内容以及实验设计的内容和分析方法。 2 1 口语测试评分的影响因素 2 1 1 口语评分 口语评分,是指评分者采用某一特定的评分方法、根据既定的评分标准和 评分细则、参照口语水平量表,对口语测验的表现或言语样本等级所做的描述、 对被试的口语水平做出主观判断并赋值的过程。 不同的口语测试方法相应地会有不同的口语评分方法,总结归纳目前的口 语测试方法共分为以下3 种:间接口试、直接口试和半直接口试。 间接口试是通过笔试来测量考生的口语水平,即根据考试所测量的某种能 力与命题者真正关心的另一种能力之间的关系,来间接推断被试的口语水平 ( b a c a n1 9 8 8 ) 。在现代语言测试中,间接口试已经基本被淘汰,毕竟懂得如 何讲一句话和在交际中实际讲出的话是有很大区别的。因此,| 1 自j 接口试的效度 很低,不能反映口头交际的真实性。 直接口试是以口语在真实语境中的使用为蓝本,由评分者对被试进行直接 面试,测试考生能否针对评分者的提问用目标语言有条理地表达自己的想法, 以及能否根据评分者的交际要求做出恰当的反应。直接口试具有交际真实性、 情景真实性和语言真实性的优点,测试的目标比较直接、明确,表面效度较高。 不过,在直接口试中,由于评分者要身兼数职,既要控制考试程序,又要扮演 交际角色,还要担当评分者,在测试的同时还要根据评分标准对被试的口语表 现做出即时评估,因而,直接口试具有可行性差、主观性较强和评分信度不高 的缺点( 柴省三,2 0 0 3 ) 。 第2 章文献综述 半直接口试( s e m i d i r e c t t e s t ) 在保留直接口试部分优点的基础上,采用客 观型考试的施测程序,考生在相同的时间内,按照统一的考试程序,完成相同 的口试任务,考生的口试表现被录制在磁带或其存储介质上,与直接口试相比, 具有如下优点:可以同时测试若干考生,可行性较强,适合大规模语言测试: 考生口语水平的发挥基本不受评分者情绪和面试技巧的影响:考生言语表现受 其听力水平和个人情绪的影响较少;测验任务基本相同,测验的公平性可以得 到充分保证:评分过程与施测过程分离,评分工作可以由专业评分者集中完成, 对评分的质量可以进行有效的监控( 柴省三,2 0 0 3 ) 。 直接口试和半直接口试各有利弊,直接口试更侧重对口语交际能力和交际 策略的考核,而半直接口试则是以牺牲部分交际真实性为代价来提高测试的可 行性和评分的可靠性,因而比较适合大规模口语测试。半直接口试的试题内容 统一,口试过程和评分过程相分离,因此不易受其他因素的影响( k e n y o nd , r s c h i m e re ,2 0 0 0 ) 。 目前,美国e t s l ( 美国教育考试服务中心) 的t s e 2 ( 英语口语测试) 口试、 i b t ( 新托福口语考试) 均采用半直接口试的方式,而英国的i e l t s 3 ( 雅思考试) 口试则采用直接口试的方法。 综上所述,鉴于口语机考中考生在相同时阳j 内,统一完成口语测试任务, 其口试表现通过录音的方式存储在口语考试系统的文件服务器中,以及评分者 试后通过计算机进行评分工作等特点,可以鉴定本文所研究的口语机考是一种 半直接口试的方式,具有半直接口试方式的优点,但也存在着评分者评分信度 等方面的问题。 2 1 2 影响口语测试评分的主要因素 b a c h m a n ( 1 9 9 7 ) 认为语言测试的分数是由以下4 种因素决定的:1 ) 受试者 的语言能力;2 ) 测试方法:3 ) 个人特征;4 ) 任意性因素。 由第一种因素决定的分数被称为真实分数( t r u es c o r e ) ,是测试所要测得的 分数。考试成绩中真实分数的比重越大,测试的结果就越可靠,信度就越高。 。e t s 全称e d u c a t i o n a lt e s t i n gs e r v i c e ,即美国教育考试服务中心。 2 t s e ( t e s to f s p o k e ne n g l i s h ,英语口语测试) 是美国教育考试服务处为母语为非英语国家的学生提供的英 语口语水平测试。 3i e l t s 全称i n t e m a t i o n a l e n g l i s hl a n g u a g et e s t i n gs y s i e m ,即国际英语测试体系,又称雅思考试,该考试 由阅读、听力、写作和口语四部分组成。 6 第2 章文献综述 其他三种影响分数的因素都是不受欢迎的,因为它们干扰了分数对考生能 力的真实反映,所以在语言测试中我们要尽量减少后三种因素对考生成绩的影 响。其中的测试方法主要涉及考试环境、试卷安排、时间分配、题意说明、考 试方式、答题方式、评分标准等。个人特征是指与所测试的与语言能力无关的 一些个人特点或某种能力,如性别、种族、民族等个人特征或认知能力和对某 一领域所掌握的特殊知识等。前三种因素对分数的影响都是有规律和系统的, 但第四种因素的影响不同于前三种,是随意的、不系统和无规律的,如考生的 头脑是否清醒,情绪是否平稳,评阅标准是否一致等。b a c h m a l l ( 1 9 9 7 ) 认为 测试方法和任意性因素可以影响测试结果的可靠性,而个人特征可以影响测试 结果的有效性。 测验的分数在很大程度上依赖于评分过程,评分过程在口语考试中更是一 个重要环节。口语测验领域普遍认为评分者和评分方法决定了口试的信度,从 而在很大程度上影响了测验的效度( 王佶曼,2 0 0 7 ) 。 从评分者的其它素质方面讲,还包括个人疲劳、粗心大意、个人情绪、以 及评分者的个人认知倾向等,这些都可能对评分产生影响,影响口试评分的信 度。口试的评分者可能整天面对的是重复的考题,在口试过程中能否始终保持 高昂的情绪,也会影响学生口语表达水平的发挥。另外,考试环境和操作管理 方面也有不可忽视的因素。 2 1 3 评分者个人因素对口语成绩的影响 一套试题不论在出题和考试组织这两方面做得如何完美,如果评分过程出 现问题,就会前功尽弃。客观题的评分不需评分者的主观评判,一般都有很高 的可靠性和一致性,但主观题因为需要评分者做出主观判断,在评分者本人和 评分者之间都会出现不一致的现象,从而影响测试的信度。研究表明评分者的 疲倦、考生之间的差异和对比、个人的态度、经验和能力等都会影响评分标准 实施的一致和评分的质量。此外,还发现许多评分者会被一些外在的表面的东 西所影响,如在作文考试中考生的字迹,在口语考试中考生的相貌和声音等, 不同评分者之间更易出现不一致。一方面因为各自的语言能力不同、评阅经验 不同,另一方面也因个人的喜好和观点不同。口试的评分与口试同步进行,在 听取考生口语样本的同时,评分者需要对样本的等级当场做出快速、准确的判 断,因此存在评分的瞬间性。口试评分要求评分者始终精力高度集中,反应敏 第2 章文献综述 捷,但长时间精力集中与口试内容的重复易引起疲劳。 o l o u 曲i i n ( 2 0 0 2 ) 在对考生口语输出进行话语分析,并对评分结果进行多 因子r a s c h 分析的基础上,得出评分者与考生的性别差异在一定程度上对评分结 果造成差异,但并不显著。但是,性别因素与其他因素( 如口试目的、参与者 的年龄以及社会背景等) 的交互作用可能会对评分结果带来较大影响。 口语测试中,评分问题始终是研究者最关心、学术界最有争议的环节,不 管是直接口试的即时评分,还是半直接口试的集中评分,对被试口语水平的最 终评价始终无法摆脱评分者主观判断误差的影响。不同评分者之间、同一评分 者在不同的心理和情绪状态下,对同一考生口语水平的判断往往存在一定程度 的不一致性( l i e v e n s ,2 0 0 1 ) ,这种评分误差源于两个方面,一是考生口语水平 的多维不确定性,二是评分者主观判断的差异性。 l i e v e n s ( 2 0 0 1 ) 认为影响口试评分信度的一个重要因素是评分者的认知因 素,虽然在评分实践中一般都对口试评分会有一个明确的操作规定,由于口试 评分过程是评分者内隐的主观判断过程,因此,评分者心理图式的负迁移作用 对评分信度的影响不容忽视。由于评分者的语言学理论水平、学术观点和个人 性格的不同,在长期的科研和教学经历中,不同评分者对口语水平的认识,形 成了各自独特的心理图式,而且不同的心理图式具有不同的维度结构,评分者 对每个口语水平维度所赋予的心理权重有较大差别。在评分过程中,由于受心 理图式的影响,不同评分者所关注的焦点不同,有的评分者较关注语法形式的 正确性,有的评分者更关注言语表达的流利性如何,还有的评分者更看中口头 交际的得体性和可理解性。尽管在评分时可以通过评分标准和评分细则来约束 评分者的评分行为,但是评分者之间评分的主观性差异始终存在。 o l l e r ( 1 9 7 9 ) 认为口语考试的成功在很大程度上取决于评分者区分考生表 现的能力。这里的区分能力是指评分者对评分标准和评分方式的理解与把握能 力。 l a d o ( 1 9 6 5 ) 等研究者认为导致评分信度不理想的原因有很多,其中一个 重要的原因是不同评分者的注意点不同。评分者在评分时可能把注意力集中于 被试言语表现的不同方面。比如有的评分者比较注重发音, 而另一些评分者则 比较重视语法准确性,这样他们的评分就会有出入。 第2 章文献综述 2 1 4 小结 从文献调研结果分析,在传统口语考试形式中,影响口语测试评分的主要 因素包括评分者个人因素、评分方法等。其中,评分者个人因素对口语评分起 着重要影响。相比较于传统口语考试形式,口语机考中使用计算机,在评分子 系统上进行评分工作,因此本文将分别从评分者对评分子系统的使用反馈、评 分者使用评分子系统的评分信度、评分严厉度等方面丌展实验设计并进行相关 研究,以期为本文提出的评分监控器、计算机自动评分等设计方案提供一定的 理论基础。 2 2 口语测试评分信度的研究方法 如果从评分者信度研究方法所用理论的角度上进行分类,国内外研究者多 数从经典测量理论、概化理论或项目反应理论出发,对评分质量中的评分者信 度问题展开研究。 相关系数是经典测量理论( c t t ) 中常用的考察评分者一致性的信度指标。 因此基于经典测验理论的许多研究采用肯德尔( k e n d a l l ) 和谐系数w 计算评分 者信度( 吴志明,张厚粲,杨立谦,1 9 9 7 ) 。k e n d a l l 和谐系数w 用于衡量两个 以上的评分者对n 个观测者进行n 级等级评估时评分的一致性程度,比较适合 于对少量的观察者进行有限的等级评估。其他信度研究方法也可以采用斯皮尔 曼( s p e a 肿a n ) 相关系数法或克龙巴赫( c r o n b a c h ) 口系数法。 经典测量理论的真分数概念以及平行测试、误差随机的理论假设决定了 c t t 所估计的信度系数以及测量标准误差,主要适用于纸笔方式的常模参照性 测试。张厚粲( 1 9 8 8 ) 在心理测量理论及其发展一文中首次将概化理论引 入我国。随后,国内有的研究者也开始采用这种理论来研究我国高考中的作文 评分伺题。目前,概化理论已经成为现代测量理论中与项目反应理论同样最具 影响力的两大理论之一( 李庆本,许雪立,1 9 9 9 ) 。 基于概化理论( g e n e r a l i z a b i l i t yt h e o 巧,g t ) 的评分者信度分析将平行测验 观念推广为随机平行测验,能计算出各种不同误差来源,将不同测量情境中引 起的误差,从总的测量误差中分离出来。在考察评分者信度的研究中,g t 将评 分者看成是影响评定学生成绩这个测量目标( o b j e c to f m e a s u r e m e n t ) 的误差源, 即一个随机侧面( f a c e t ) ,将评分者自身差异所引起的观测分数变异从总误差中 9 第2 章文献综述 分离出来。因此,g t 给出了两个类似于c t t 中的信度系数的指标:概化系数 ( g e n e r a l i z a l i t yc o e 施c i e n t ) ,记为g 系数,作为常模参照性测验中度量分数稳定 性的信度指标:可靠性指数( d e p e n d a b i l i t yc o e 衢c i e n t ) ,记为护系数,作为标准 参照性测验中度量分数稳定性和一致性的信度指标( 赵群,曹亦薇,2 0 0 6 ) 。 如果按不同的评分者人数和不同的评分等级和标准,又有以下评分者信度 研究方法来使用。 两个评分者对同一试题或任务进行评分,能使用的评分者信度估计方法包 括:s p e a 肿a n 相关系数法( s p e 锄a nc o r r e i a t i o nc o e 确c i e n t ) 、k a p p a 系数法( k a p p a c o e f f i c i e n t ) 、列联系数法和皮尔森( p e a r s o n ) 积差相关系数法( 王孝玲,1 9 9 3 ) 。 见表2 1 : 表2 1 两个评分者信度研究评分方法比较 方法适用范同 s p e a m a n 相关系数法 k a p p a 系数法 列联系数法 p e a r s o n 积差相关 应用范围较广,两个总体不一定是正态分布,样本容量也不 一定大于3 0 ,适用于两个变量( 或其中一个变量) 的原始资 料是等级资料的情况,或雉以判断资料的总体属丁何种分布 定性资料 适用丁- 两个评分者的评分结果 等距变鼙 当有两个以上评分者对同一测验任务评分时,评分者问信度的计算方法 有:肯德尔和谐系数、c r o n b a c h 口和多系列相关分析( 黄广扬,2 0 0 2 ) 。实践 中,c r o n b a c h 口系数常被用于估计测验项目的内部一致性,当被用于评分者一 致性问题时,评分者代替了项目,而c r o n b a c h 口系数也就成为评分者信度的一 个量度。c r o n b a c h 口系数适用于连续变量。见表2 2 : 第2 章文献综述 表2 2 两个以上评分者信度研究评分方法比较 方法适用范围 肯德尔和谐系数 克龙巴赫口 多系列相关分析 等级资料 连续性数据 连续性数据 由于本文的实验是对两个以上评分者信度进行研究,研究二中的评分数据 是等级变量,研究三中的评分数据是连续变量,因此,将分别采用肯德尔和谐 系数和克龙巴赫口系数分析方法。 2 3 提高口语测试评分质量的方法 2 3 1 提高评分质量的方法 要提高主观测试的评分质量,有一个至关重要的步骤,就是评分规范化。 这包括两个方面:评分标准的修订确立与评分者的培训。有可能导致口试信度 低的一个原因是评分标准不确切,评分者理解和运用评分标准时存在差异,可 以采用适当的方法,降低评分标准的不确定性和减少评分者理解运用评分标准 的差异:设计描述清楚明确的评分等级;举行规范化会议培训口试评分者并同 时修订完成评分标准( 郭茜,邢如,沈明波,2 0 0 3 ) 。 c a r d y & k e e f e ( 1 9 9 0 ) 等人在对口试评分进行分析时发现,对评分者进行 精心挑选和系统培训,会对评分者信度起到提高作用。 f i s k e & d v e r ( 1 9 8 5 ) 发现,对评分者进行系统培训,而且,在每次正式评 分前都要进行预评训练,否则,评分者在评分时对被试口试表现本能印象的形 成完全是评分者心理图式缺省操作的结果。 2 3 2 实际案例分析 案例一:1 9 9 5 年首次举行的香港中七英语口试中,为了提高评分的信度, 两位评分者的平均分要和考生笔试的成绩进行相关分析。通常这两者的相关系 数在6 5 左右。如果发现某组评分者,在整个口试期l 日j 的打分与笔试成绩相关系 数特别低,这就说明两位评分者中有一位的评分质量有问题。香港考试局就会 第2 章文献综述 将两位评分者的口试评分分别与笔试成绩迸行相关分析,把相关系数特别低的 那位评分者的口试成绩作废( 文秋芳,1 9 9 9 ) 。 案例二:h s k ( 高等) 口语考试4 采取网络化评分管理和监控,目前已在北 京语言文化大学汉语水平考试中心进行实施。传统的主观等级评分主要的评分 误差来自评分者之间评分的不一致性以及评分者自身评分的不稳定。减少这类 评分误差主要有两种办法,其一是加强对评分者的培训,以期评分者能够熟练 掌握评分规则;其二是对评分过程进行即时监控,这是指在评分的过程中对评 分者的评分严厉度和稳定性进行监控,从而实现对评分质量的现场控制( 李庆 本,许雪立,1 9 9 9 ) 。 案例三:大学英语四、六级考试作文网上阅卷系统采用了一整套有力措施 来保证作文评分的信度,这些措施包括:制定严格的作文评分原则及具体而明 确的评分标准;对评分者进行严格的阅前培训和阅后考核;在阅卷过程中由评 分组长随机抽查评分者的评分质量等( 王跃武,2 0 0 4 ) 。 2 3 。3 小结 传统口语考试形式下的评分质量控制工作都是在评分前和评分后进行的, 即在评分开始前,抽取一定的评分参考样本,对照评分标准,进行评分前的培 训工作,以及在评分工作完成后,抽取一部分评分结果,通过相关的评分信度 计算手段,来检查评分工作的完成质量。传统形式下的评分方式限制了口语考 试的规模,只适合于小规模的口语考试,因为无论从评分者人力和评分工作量 上考虑,大规模的口语考试都是不可行的。 随着计算机技术和网络技术的发展与普及,产生了很多网上阅卷系统。通 过网上阅卷系统,对评分工作的质量、评分者信度的检测可以在评分过程中实 时展开,这一点很好的弥补了传统口语考试中的不足,同时为实施大规模的口 语考试奠定了技术基础。 4 中国汉语水平考试( h s k ) 是为测试母语非汉语者( 包括外因人、毕侨和中固少数民族考生) 的汉语水 平而设立的国家级标准化考试。中国汉语水平考试( h s k ) 由北京语高人学汉语水平考试中心设计研制。 1 2 第2 章文献综述 2 4 网上阅卷系统对评分质量的控制 2 4 1 网上阅卷系统概述 传统考试一般都是笔试,其阅卷评分方式是手工评分,存在着工作量大、 工作效率低、评分误差大、管理效率低、评分者信度偏低且难控制等缺点。在 现实的阅卷工作过程中,往往是单独行事,评分者是与考试设计、实施和统计 分析人员分离的一部分教师或技术人员,这种工作人员的分离,必然会造成阅 卷评分结果与其他考试活动的分离性,其结果往往不能满足考试活动过程的要 求和需求。 阅卷评分在整个考试活动中处于承前启后的地位,它对考试活动的成败起 着十分关键的作用。传统考试方法存在评分主要靠手工作业、容易出错;分数 报告不科学,成绩不可比、评分误差难以控制等问题;网上阅卷系统的产生改 观了上述现状,尤其是在评分误差方面的控制。 网上阅卷是以计算机网络技术和电子扫描技术为依托,以控制主观题评分 误差,实现考试公平性原则为最终目的,把多年来人工阅卷积累起来的丰富经 验和现代高新技术相结合,教师不是对考生的原始答卷直接评分,而是在网络 计算机上对电子化的考生答卷进行评分( 刘玉侠,2 0 0 3 ) 。 简言之,网上阅卷评分系统具有以下几个特点:首先,它有利于提高效率、 节省资源。其次,网上阅卷有利于更好地控制评分误差。最后,网上阅卷评分 有利于试卷分析工作的进行。 2 4 2 网上阅卷系统误差控制 主观题阅卷评分者评分前后的不一致性和评分者之间的评分偏差是影响主 观题评分信度和效度的重要因素。网上评分是控制主观性试题评分误差的创举, 它把评分过程与控制误差有机地结合起来,控制误差与评卷工作同步进行,伴 随始终。通过网上阅卷系统,可以直接把评分者的打分导入到同一个系统中, 也可以直接控制一评、二评或三评之间的评分差,进行及时决定是否进入三评 ( 马世晔,2 0 0 4 ) 。 2 4 3 实际案例分析 案例一:俄语测试网上阅卷系统 该系统首先会严格设置评分误差,当两位评分者对同一份试卷所给出的分 第2 章文献综述 数在设定的误差值之内,则计算机自动取其平均值作为考生的最后得分。而当 两人所给出的分数大于规定的误差值时,服务器则将该考生的试卷自动分发给 阅卷组长,阅卷组长则根据评分标准和评分细则对试卷给出一个最终得分,而 对争议较大的试卷则由测试中心主任进行最后仲裁。 其中,计算机系统赋予不同级别的评分者不同的权限和职责,中心主任有 权对所有评分者和评阅组长的工作进行监督,评阅组长有权检查小组成员的阅 卷情况。各级评分者的职责分明,各司其职,工作进行得有条不紊。所有评分 者的真实身份自动隐藏,每个人的身份一律用代码进行标示。总之,这种动态 质量监控系统可以随时调整阅卷进程和给分偏差,对给分过宽或过严的评分者 予以及时提示和纠f ,降低了误判率,避免传统评阅中一评定音、宽严不一的 弊病。同时也把因评分者个人主观因素所导致的评分误差降到最低,保证考生 所得分数能最大限度地体现客观和公正性原则( 刘素梅,2 0 0 7 ) 。 案例二:大学英语四、六级考试作文网上阅卷系统 该系统对评分误差和最终得分采取了5 道监控和调整程序:一是试评。组 织评分者进行操作培训,了解评分标准、评分准则,并通过评分样本进行试评。 二是自评监控。由网上评卷系统按一定的比例自动将评分者已评阅试卷隐 去其原始评分,发回本人重评,以衡量其评卷的稳定性、客观性,防止出现趋 中倾向情况。 三是计算机自动监控和调整。网上评卷系统不仅设詈了合理的评分误差, 而且具有及时发现误差并自动提请纠正和防止误差超出设定值的功能。 四是题组长即时监控与调整。题组长负责仲裁。题组长可依据评分细则对 需要仲裁的答题进行复评。 五是检查组即时监控与调整。网上评卷系统具有对评分者工作进度和评卷 质量进行跟踪和警示的功能,有利于管理层对总体情况予以实时监控,并对评 卷数据信息即时进行统计和查询( 王跃武,2 0 0 4 ) 。 第2 章文献综述 2 5 本章小结 根据上述对口语测试评分质量的影响因素、评分者个人对评分信度的影响、 提高评分质量的方法、网上阅卷系统对评分质量的控制等方面的文献调研,主 要得到以下结论和启示: 在口语考试评分中,评分者个人因素对口语成绩的影响较大,主要体现在 评分者的个体因素( 疲倦、个人情绪等方面) 和评分者对评分标准的理解与应 用两方面。通过相关的计算机技术,可以提高评分子系统的评分质量。 通过文献调研,作者没有发现关于评分者使用计算机评分的态度倾向等方 面的研究,以及使用评分子系统进行口语评分的评分质量方面的研究。其次, 口语评分信度方面的研究方法多是采用经典项目理论下的分析方法对评分一致 性进行分析,还未有研究者使用项目反应理论中的m a j l y f a c e tr a s c h 模型进行 口语评分子系统的评分者内部一致性、评分者评分严厉度、评分偏差、评分量 表等方面的分析。最后,目前除了作文主观题已有具体的计算机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论