高考综合能力测试2000-21总体信度的实证研究_第1页
高考综合能力测试2000-21总体信度的实证研究_第2页
高考综合能力测试2000-21总体信度的实证研究_第3页
高考综合能力测试2000-21总体信度的实证研究_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高考综合能力测试2000-21总体信度的实证研究

1基于标准化的测量理论综合高考技能考试是高中改革的重要组成部分。参加这次考试的考生每年超过数百人,这对高中的招生和大多数中小学的教育活动产生了重大影响。但是,关于这种测试的理论与实证研究却十分有限。概化理论(GeneralizabilityTheory,GT)是一种把测量误差作为模型参数来处理的测量理论。它不仅保留了经典测验理论(ClassicalTestTheory,CTT)中控制误差的标准化技术(匹配或随机化技术),而且发展出了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法,为研究标准化和标准化程度不高的测验开辟了新思路。尤其是新近发展起来的多元概化理论(Multivariategeneralizabilitytheory,mGT)[1,2,3,4,5,6,7,8,9,10,11,12,13,14],它在研究高考综合能力测试这种涉及多个相关的潜在学科因子的测验方面有独到之处。本文旨在用mGT评估现行高考综合能力测试的总体信度及其各部分的信度,同时估计各部分对测验总分所作的实际贡献,为改进测验质量提供参考依据。2研究设计2.1日本大学的各学科综合能力测试高考综合能力测试目前主要有两种模式,其一是以广东省为代表的涵盖了中学地理、历史、政治、生物、化学和物理六门学科的大综合考试,其二是大多数省市试行的涵盖了地理、历史和政治三门学科的文科综合能力测试,或涵盖了物理、化学和生物三门学科的理科综合能力测试。本研究的样本取自2001年的广东省高考综合能力测试资料,抽样方法为等距抽样法,即,每隔30个考号抽取一份答卷,实际有效样本为7157个。所用试卷为教育部考试中心命制的2001年高考综合能力测试(广东、河南)试卷。2.2高考综合能力测试广东、河南卷的发挥根据教育部的考试说明和某市六门学科共十三位高三把关老师的研究,认为2001年高考综合能力测试(广东、河南卷)的试卷构成如表1所示。2.3i:h一元概化理论混合设计模型根据表1的分析,本研究中的高考综合能力测试可以解析为包含着地理、历史、政治、生物、化学、物理和跨学科综合部分共七个潜在能力因子的G研究单面p×i设计,记Xpi为考生作答分测验h(h=1,2,3,4,5,6,7)中的第i题所得的分数,则其G研究数学模型为:Xpi=μ+υp+υi+υpi(1)其中,p指测量目标,i指测量的题目侧面。当然,上述模型也可以理解为h为固定侧面的p×(i:h)一元概化理论混合设计的G研究模型。本研究中不选择这种混合模型是因为它无法得到各种效应在不同分测验之间的协方差估计等。根据模型(1),可以编写一个涉及七个潜在因子或七个分测验的mGENOVA程序(Brennan,2001),分别对整个试卷、各个学科以及跨学科的七个能力因子进行G研究,估计整个测验和各个因子的测量信度。同时,还可以利用有关信息评价试卷内各个部分对总测验的贡献程度。3结果与讨论3.1地理知识考试中方差的相关系数根据模型(1),运用mGENOVA软件可以得到考生(p)、试题(i)以及考生与试题(pi)之间交互效应在7个因子上的方差和协方差分量的估计矩阵如表2所示。为各效应在不同因子间协方差分量的估计、主对角线之上元素为因子间的相关系数的估计。由表2可知,方差分量最小的因子为地理学科,其次是综合部分。方差分量最大的是历史学科,其次是化学学科。这说明在此次考试中,地理的作用最小,历史和化学的作用最大。同时,根据协方差分量的估计值,我们发现地理学科与其它6个因子的协方差分量都小于0.08,这说明考生在地理学科上的得分顺序与他们在其它6个因子上的得分顺序不太一致,即,本次试卷中的地理知识题目在预测考生能力方面区分度不理想,不适合用来作选拔考试。另外,表2还显示,试卷内的综合性题目对总方差的贡献(0.097)也比较小,减低了它的区分功能。不过,除地理学科之外,它与其它5个学科之间的协方差均在0.118以上,说明在预测考生能力水平的顺序方面,彼此的功能是一致的。3.2d研究的结果与讨论3.2.1全域分方差分量根据G研究估计的方差与协方差矩阵,我们可以进一步估计考生在7个因子上的全域分数以及相应的误差估计的方差分量、进而估计概化系数与可靠性指数以及相对信噪比和绝对信噪比(见表3所示)。由表3可知,历史学科的全域分方差分量最大(0.569),其次是化学学科(0.370)和物理学科(0.227),考虑到误差因素,信度最高(概化系数)的是化学学科(0.605),其次才是历史学科(0.568)和物理学科(0.488),概化系数最小的是地理学科(0.112)。这说明此次高考综合能力测试对化学、历史和物理3门学科能力的测量精度相对较高,对生物(0.301)和综合能力(0.294)的测量精度较低,而对地理学科能力的测量误差则过大。3.2.2域土壤方差估计按照每部分试题量所占比重来决定权系数(表4)对七个因子全域分进行合成,可以得到全域总分的方差以及相应误差的方差分量估计,进而估计全域总分的概化系数等(表5)。由表5可知,全域总分的概化系数是为中等水平(0.78380),相对误差不算很大(方差分量仅为0.04316),这说明此次高考综合能力测试的总体测量信度是可以接受的。3.2.3地理学科的赋分比例根据上述结果可以得到各个因子对总方差的贡献(表6)。不过,从表6可知,七个因子对全域总分方差的贡献比例与当初命题时的赋分意图有较大差异。例如,地理学科的赋分比例是10.7%,而其实际的方差贡献仅为4.59%。在这两个方面、差异比较大的还有化学(赋分比例为17.3%,方差贡献为24.74%),历史(赋分比例为14.7%,方差贡献为20.16%),政治(赋分比例为10%,方差贡献为6.03%)和综合(赋分比例为22%,方差贡献为14.52%),只有生物和物理两科的赋分比例与实际的方差贡献比例接近。这表明此次高考综合能力测试在决定各个学科的分量方面还有很多工作要做。3.2.4测量信度检测结果为了研究改善测验的方法,我们通过改变各个因子的样本容量的方法来观察测量信度的变化特点(表7)。由表7可知,当各个因子的样本容量都减少为1道题目时,全域总分的测量信度将下降为0.385,这样的信度值对于高考这样的大规模正规考试来说是完全不能接受的。但是,当各个因子的样本容量比实际的样本容量均增加为2倍和3倍时,测量信度将大幅度提高,分别达接近0.88和0.92。这说明增加试卷的样本容量可以提高测量信度,与CTT的研究结论是一致的。不过,当分别固定七个因子中的六个因子的样本容量,只变化其中一个因子的样本容量时发现,在六种情况下,增加样本容量能够提高测量信度(只是增加幅度不一而已)。而固定历史、政治、生物、化学、物理和综合题目的样本容量,增加地理学科的样本容量时,全域总分的测量信度却下降了(0.787降为0.784再降为0.782直至降为0.781)。这可能意味着地理学科能力题目与其它6门学科的能力测试方向是不一致的。这与前文的分析结论是一致的。4地理、政治学科的能力估计精度由上述多元概化理论的研究发现,2001年高考综合能力测试测验总分的信度达到了可以接受的水平(0.784)。而且,经过进一步的决策研究发现,当把各个部分的题数扩大一倍时,测验总分的信度将提高到0.88。不过,地理和政治学科的能力估计精度却较低,各个部分对总方差的贡献程度也与预定的赋分比例有较大差距。其中,地理、政治所提供的方差贡献程度远远低于相应的赋分比例,而化学和历史的方差贡献比例又远远高于相应的赋分比例,这意味着历史和化学基础好的考生在这门考试上能够得到过多的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论