




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概化理论在作文评分中的应用研究 刘远我 张厚契 (人事部人事考试中心,北京 100054) (北京师范大学,北京 100875) 摘要 概化理论是现代心理测量理论之一。该文简要地介绍了该理论的基本思想,并用此理 论对作文评分的误差控制问题进行了应用性探讨。研究中请 6 位评分员对 20 名学生每人三 种文体的作文用分项评分法进行评定然后用 GENOVA 软件估计了作文评分中的评分员效 应和题目效应,并对各种误差构成进行了分析比较。结果表明:在作文评分中,评分员效 应最大,题目效应不明显。同时还发现,不同文体对评分误差有重要影响,议论文的评分 误差最大。在作文能力的三要素中,以内容的评分误差最大,结构的评分误差最小。最后, 本文还对传统评分者一致性系数(W 系数) 的不足以及概化理论中 系数的优越性进行了讨 论。 关键词 概化理论,作文评分,误差控制,W 系数。 分类号: B841 1 前言 当今心理测量学界最有影响的三大理论是经典测量理论(Classical Testing Theory),项 目反应理论(Item Response Theory)和概化理论(Generalizability Theory),其中概化理论由于 形成体系较晚、统计要求繁琐等诸多原因,在理论研究和实际应用方面都相对较少。为此, 本研究应用概化理论对作文评分的误差控制问题进行了较为深入的探讨,以期有更多的学 界同仁关心测量理论的发展,使概化理论在我国的测量实践中发挥其应有的作用。 2 经典测量理论与概化理论信度观的比较 经典测量理论经过几十年的发展,到五十年代便形成了一套相当完整的理论体系,对 测验的编制、实施和评价提出了一系列具体、实用的统计分析方法,这些方法已广泛地应 用于测验工作的各个领域。但是经典测量理论也存在一些问题,从其信度观来看,首先, 严格平行测验的假定在实践中很难满足,我们常常无法保证不同测量间得分的平均值和标 准差都相等。其次,经典测量理论中所定义的随机误差很笼统,它不能说明测量误差究竟 来自哪些误差源,及各自产生的误差大小。再者,经典测量理论要求测量条件完全标准化, 从施测指导语到测验计分都有严格而明确的规定,从而使得测量目标变得狭小,测量条件 稍有变化,它便无能为力了。 概化理论正是针对经典测量理论存在的上述问题而产生的。概化理论的基本观点形成 于本世纪六十年代1 ,但正式提出这一理论并加以系统化的是克龙巴赫(Cronbach)等人 在 1972 年出版的行为测量的可靠性一书。概化理论的优越性体现在多个方面。在理论 假设上,概化理论扬弃了经典理论的“严格平行测验假设” ,代之以“随机平行测验”这一 弱假设2-4 ,从而使分析问题的条件很容易得到满足。在具体方法上,概化理论利用方 差分析技术,把测验变异分成多个部分,每个部分对应于特定的误差来源。从而更便于测 量误差的控制。概化理论最显著的特点是强调测量的具体情境,它认为,测量的根本目的 并不是为了获得特定条件下的测量结果,而是要以此来推断更广泛的条件下可能得到的测 量结果5 。这种推断的准确性正是测量者应该关心的问题。由此可见,概化理论给传统 的信度观念赋予了新的含义。 3 概化理论在作文评分中的应用研究 3.1 问题的提出 作文评分中的误差控制问题是研究最多而又最棘手的难题。国内外许多研究6,7 证明,作文评分中有很大误差。由此,作文评分的误差控制问题引起了我国考试研究者的 广泛注意。但由于理论和方法上的局限,以往的研究很少对影响作文评阅的各个方面如评 分者、题目等重要因素进行深入的量化分析。鉴于此,本研究用概化理论的思想和方法对 影响评分的这些重要因素进行实证研究,并对传统评分者一致性系数(W 系数) 提出一点新 的看法。 3.2 测量的设计与样本的选择 3.2.1 测量的设计 本研究重点考察对作文评分有重大影响的两个因素:作文题目和评分者,采用两面 (Two-Facet)交叉设计 pir 的 G 研究,其中 p 是指学生的作文能力 (测量目标),i 指作文 题目面,有 3 个水平;r 指评分者面,有 6 个水平。题目面和评分者面都随机。 3.2.2 样本的选择和实测过程 (1) 我们选取北京市某中学高二年级的 20 名学生,要求他们在一个月内做三篇作文:议 论文、记叙文、夹叙夹议的文体各一篇。 (2) 参照高考作文评分标准和有关研究,制订本研究的作文评分标准。评阅时采用分 项评分法,按内容、语言、结构等三项独立计分。 (3) 把 60 篇作文分送给 6 位评分者评阅,其中 3 位是有三年以上教龄的高中语文教师, 另 3 位是刚经过作文教学实习的中文系毕业生。各评分者严格按同样的顺序评阅所有的作 文。 3.3 结果的处理与分析 3.3.1 应用软件 GENOVA 简介 美国大学测验委员会( ACT)的 J. E. Crick 和 R L. Brennan 在 1983 年编制了 GENOVA 专用软件8 。本研究的数据都用该软件处理。 3.3.2 G 研究(Generalizability Studies) 在本研究中,G 研究采用了两面交叉设计 p i r,根据这种设计,可以得到学生 能力、题目、评分者三种主效应(p,i,r),四种交互效应(pi,pr,ir,pir)。各效应的方 差成分如表 1。 从上表中可以看到,最大的方差成分是评分者面(48.79 ),它解释了分数总变异的 37%。这意味着由评分者因素给分数变异带来的系统误差相当大。而题目面的方差成分 (2.42)很小,它仅占分数总变异的 2%,这说明用不同题目对学生能力测试不会造成很大差 别。我们还可以看到,测量目标的方差成分也比较小(9.68,占总变异的 7%),这是全域分 数的方差成分,它说明目标测量尚不够准确。 3.3.3 D 研究(Decision Studies) 根据 G 研究所估计出来的各种方差成分,我们可以考察不同 D 研究下概化系数 (Generalizability Coefficient,简称 G 系数) 的变化。 3.3.3.1 各面随机下 PIR 设计的 D 研究 当 D 研究采用 PIR 交叉设计,并假定评分者全域和题目全域都是无限的(两面随 机),可以通过改变评分者面和题目面的水平来看看 G 系数的变化。 从表 2 中可见,当 nr = 1 ni1 时,G 系数比较低(0.124),这意味着只用一个作文 题目对学生的写作能力进行测试,并任选一个评分者来批改,这样得到的分数与学生的真 实水平只有较低的相关(0.35,两者的相关系数等于 G 系数的开方)。但增加面的水平可以 提高测量的精度。当 nr = 1,题目面水平从 1 增加到 2, G 系数由 0. 124 提高到 0.19,提 高幅度达 53%。当 ni = 3 时,评分者面的水平从 1 增加到 4,那么 G 系数由 0.23 提高到 0.499,提高幅度达 115%。当 nr6,ni = 3 时,G 系数达到 0.57, G 系数(0.57)开方后 约等于 0.75,这意味着此时实得分数与学生的真实水平间相关达 0.7 5 左右。 3.3.3.2 固定一个面的 D 研究 不仅增加面的水平能提高测量精度,固定一个面也能改进测量的可靠性。比如说固定 评分者面,以后的作文评分由六位评分者中的某位或某两位来批阅,此时 G 系数的变化情 况见表 3。 可以看到,当评分者面和题目面的水平都为 1 时,仅通过固定评分者面,就可以使 G 系数从 0.124 增至 0.301,提高幅度达 127%。当评分者面和题目面的水平分别为 2 和 3 时, 固定评分者面可使 G 系数从 0.361 增至 0.619,提高幅度约为 72%。 3.3.4 不同文体对评分误差的影响 为考察不同文体对测量误差的影响,我们可以把某种文体的特定作文看作单面交叉设 计 PR,这样本研究所用的三篇作文分别代表了三个单面设计。其处理结果见表 4。 从上表可见,议论文的 G 系数最低(0.32) ,这说明在议论文的评分中误差最大。再从 单个观察的方差成分来看,在议论文评阅中评分者因素(R)引起的误差最大(63.8) ,而全域 分(P)变异最小(8.2) 。所以,根据本研究的结果,议论文没能很好地测量出学生的作文水平。 相对来讲,记叙文的写作能力测量比较精确(G 系数=0.52) 。 3.3.5 作文能力各要素对评分误差的影响 如前所述,本研究采用分项评分法,对每篇作文按内容、语言、结构三要素单独评分。 对各要素分别进行两面交叉设计 pir 的研究,其处理结果见表 5。 可以看到,在内容方面测量目标(p)的方差成分仅占分数总变异的 3.3%,而在结构方面 占了分数总变异的 11.1%,这说明作文能力的测量在结构上最准确,在内容上最不准确。 从评分者面(r) 来看,在内容方面该面的方差成分占了分数总变异的 33.6%,在语言方面占 了分数总变异的 35.6%,在结构方面占分数总变异的 18.3%,这说明在内容和语言方面由 评分者因素带来的变异都比较大,相对来说在结构方面要小得多。再从三重交互作用(Pri) 的方差成分来看,内容(50%)和结构(52.7%) 差不多,而语言(31.6%) 明显小些,这说明在 语言方面评分的随机误差比另外两方面小。 3.4 讨论 3.4.1 影响作文能力测量的因素 从前面的数据处理结果中,我们可以看到在作文评分中,评分者因素带来的误差非常 大,而具体作文题目对作文能力测量的影响比较小。对于不同的文体来说,评分者因素带 来的误差大小又很不一样,其中在议论文评阅中,评分者产生的误差最大。 3.4.2 提高作文能力测量准确性的几条途径 鉴于作文评阅中评分者误差比较大的事实,这就要求我们在实践中尽力控制这一误差 来源:一要建立稳定的阅卷员队伍,尽可能减少阅卷员的变更,这是因为经常让同一批阅卷 员来改卷,相当于固定了评分者面,从而可以大大提高评分的信度。二要在阅卷前对评分 者进行严格的训练,把握好评分的宽严尺度。鉴于议论文的评分误差最大,这就要求我们 研究制定操作性很强的议论文评分标准,同时每篇文章由两个或更多的评分者来批改,增 加该面的水平,以此来减少评分误差。另外,作文能力的三个要素对评分误差有不同的影 响.在内容方面的测量最不准确,这意味着以内容的好坏来评定一篇作文的优劣是最不可靠 的。相对来说,在结构方面的测量最准确。这一研究结果启示我们,在分项评分法中应适 当减少内容部分的权重,相应增加结构部分的权重,这对提高作文测量的可靠性无疑是行 之有效的。 4 关于评分者信度的问题 在估计多个评分者之间的一致性时,人们常用肯德尔和谐系数(简称 w 系数)作为信度 指标。当评分者采用等级评定的方法阅卷时,这样做是可取的;但是,当评分者用百分制 或其它非等级评定的方法阅卷时,这样做是容易犯错误的,因为 w 系数是多列变量间的等 级相关系数,它只能反映评分者之间的相对一致性,并不涉及评分者之间的绝对差别。在 这种情况下,评分者之间的系统偏差从总体来看也是随机误差。所以,此时 w 系数就不能 正确地反应评分者信度的高低,但是实践中,由于没有适宜的统计指标,人们往往仍以 w 系数作为信度指标,这是一种误用。 既然 w 系数有上述误用问题,在由多个评分者进行的作文评定中,我们主张用概化理 论所提出的依存性系数( 系数)作为作文评分的一致性指标。 系数的优点在于它不仅反映 了评分中随机误差的大小,而且考虑了各评分者的系统偏差。为了更清楚地说明问题,我 们选取本研究中 3 个标准宽严不一的评分者对 7 个学生的某篇作文的评分情况进行研究, 根据 W 系数的计算方法,求得这时的评分者一致性系数为 W=0.81,经 x2 检验,显著性水 平 P 0.05。由此可以推断说,这三位评分员有较高的一致性。但实际上是不是这样呢? 我 们略经计算得知,对同样的 7 篇作文,4 号评分者的平均给分为 83 6 号评分者的平均给分 为 67,1 号评分者的平均给分为 77。可以说三位评分者的评分标准宽严很不一致。这意味 着评分者信度是不理想的,W 系数与这个事实是不符的。下面我们来看看此时中系数究竟 有多大,利用概化理论的统计方法,可得表 6。 容易求得, 系数=0.567,这显然是比较低的。稍分析一下 D 研究的方差成分,可以 看到,在分数总变异中,交互作用的变异(PR)较小(占 11.5%)。这说明随机误差较小,而评 分者变异较大(占 31.8%),这使得绝对误差 ()比较大,从而 系数就比较低。可见,这里 系数反应了评分者信度较低的事实。 为了进一步考察中系数在反应评分者信度上的有效性,我们不妨人为地减少评分员之 间的系统偏差。假定 6 号评分者给每篇作文多加 10 分,这样 6 号评分者的平均给分由 67.1 变成 77.1,三位评分者的评分标准趋向一致。可以求得此时 W = 0.81,经 X2 检验,显著性 水平 P 0.05,这与前面完全一样,也就是说 W 系数与评分者的系统偏差毫无关系。而根 据概化理论的统计方法,可得表 7。 由此表可见,此时的分数总变异中,交互作用的变异大小没变,但评分者变异大大减 少了,它在总变异中的所占比例由 31.8%下降到 5.96%,比随机误差的变异还小。可以求 得此时 系数=0.78 。这说明此时的评分者信度比较高,实际情况确实如此。由此可见,在 评分者之间存在系统偏差时, 系数比 W 系数更好地反映了评分者一致性信度。 5 本研究的主要结论 在本研究的条件下,得到以下几条结论: (1) 在影响作文评分的各
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025项目管理咨询合同范本
- 多家联盟协议合同范本
- 连锁饮料加盟合同范本
- 2025湖北省非全日制用工合同协议书
- 委托岗位招聘合同范本
- 门市门安装合同范本
- 公司合股协议合同范本
- 公司申请贷款合同范本
- 青岛租房合同范本
- 餐饮劳务离职合同范本
- 2025-2030年中国液压系统行业市场全景评估及未来趋势研判报告
- JCC工作循环检查流程与标准
- 小学1530安全教育
- 牢记教师初心不忘育人使命作新时代合格人民教师课件
- 门窗工程采购相关知识
- 2025风电机组无人机巡检技术方案
- 浙江省台州市住在室内装修施工合同书
- 2025年高压电工资格考试国家总局模拟题库及答案(共四套)
- 《服务器安装与维护》课件
- 金蝶K3供应链操作手册
- 老年患者护理心理护理
评论
0/150
提交评论