




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
考 试 研 究 科举考试的信度及效度 口 美国宾夕法尼亚州立大学 孙开键 吴 琼 本文从现代心理测量学角度lL 平 估科举考试 系统 虽然在历史上科举有 多重功能 但本质上 它是一个考试系统 此文试图借鉴现代心理测 量学上的概念来对其进行评估 现代心理测量 学主要研究分数的信度 r e l i a b i l i t y 和效度 v a l i d i t y 不同考试条件下考试结果的一致性 称为信度 考试分数运用与考试初衷的 致性 称为效度 1 信 度 信度是指分数的稳定性 或者是分数中随 机或系统误差的大小 尽管科举考试没有分数 但成绩可以按照通过 不通过来统计 所以 信 度的概念可以运用在对录取结果的分析中 40 中国考 试 l 2 0 0 6 1 2 科举巾采取的很多措施能提高信度 例如 阅卷官通常将出色的句子和段落加以圈点 圈 点的密度实际上是一种非正式的分数 尽管圈 点没有现代考试的分数精确 但其应用会降低 由于评分者之间或者评分者自身不一致引起的 判定误差 标准化一股会增加信度 而科举正是 一 个高度标准化的系统 其中包括标准化的考 试场地 贡院 考试过程的每一步骤都有明 确的执行标准 从考生进入贡院 检查身份 分 配座位 允许携带物品 一直到考完后离开 试 题也是高度标准化的 考生要按严格的标准来 进行八股文以及 戚帖诗的作答 所有的文章都 有严格的宁数限制 这些规定极大的增加 了评 分的一致性 摔制外在影响因素也可以降低误 一 一 一 匿l 俸 一 试 一 位 段 嬲 攀 阶 一表 科 试 据 明 考 l 薹 一糯 一 一 m l i j 舯 塞 暾 情 大 初 渊 统 一 一 一 l 莪 嘀 两 试 嚣 影 负 剐 正 曩 举 受是 科 张 一帮 估 紧 证 湃 闻 一的 瘸 时 面 蠹 角 一 及 方 学 以 一度 燕足 效 j器 不 o 一理 数 度 心 人 一信 一 证 代卷一的 印 瑰 阅 一l臻 被 一 一 于路 一 分 一孝 砸 一 憾 部 一旨 一度一降 憝 女一钕一备 其 l 一衣 嶷 巍 l纛 l 一 稃 瓣 0 0 邃 黔 瞬 l l l l 0 0 0 0 0 一 l 维普资讯 差 提高信度 在科举中 考生的书法可能影响考试 成绩 但其影响叮以通过誊录政策来消除 另一个因 素是 关系 而这也通过糊名政策基本消除了 为了 增加评卷的一致性 考卷还经常有两个阅卷官来评 判 如果两者存在较大分歧 会要求第 3 个阅卷官参 L j 试卷的评分 作弊会增加考试的随机误差 科举的反作弊措 施包括搜身 设塔楼 封贡院 鼓励考生问互相监督 等 作弊考生或考官会受到严惩 甚至可能被处死 但 科举中作弊现象仍较严重 影响了考试成绩的信度 通过 不通过决定信度 是信度的一个方面 它 是指在不同的随机环境下 考生通过 不通过考试 状态的一致性 般来说 录取线与平均分距离越 大 决定信度越高 我们可以通过史料来获得一些科 举录取线信息 从明到清 童生的 0 2 7 0 可以 通过初级的院试和府试 秀才的 1 1 0 可以通过 乡试 最后 3 6 的举人可以通过会试和殿试晋 身为进上 这些意味着非常高的录取标准 也意味着 其与平均分的距离非常大 基于这种录取标准 我们 口丁 以推出科举的决定信度非常高 f l 科举的信度由于极高的试卷 评卷官比例而 受到影响 以 1 6 0 9 年顺天府乡试为例 这场考生约 4 6 0 0 名 负责阅卷的同考官只有 l 4 名 每个考生要 写 4篇八股文 6篇判论和 5篇策论 也意味着这 l 4 名同考官要给 6 9 0 0 0 篇文章评分 而且要在考试结 束后 l 5 天内完成 明代翰林杨志聪在 玉堂荟记 反 映过这个问题 清代的钱大昕也曾指出湖南省的乡 i武I f 1 1 3个同考官要改 5 6 0 0 0篇文章 为 应埘在 短期内评改大量试卷的要求 考官一般会从考生文 章中选一两句来读 只有这两句是佳旬时 评卷官才 去看整篇文章 大多数文章是在这个过程中被淘汰 的 这种方法 仅产牛随机评分误差 还产生 从大 量语句中选取 一 两句过程中必然出现的抽样误差 誊录官和对读官也需要在短短几天之内迅速的誊录 和对读几万份文章 在这种紧张的 日 程之下 精疲力 竭的工作人员极有可能造成大量随机误差 总体来说 科举考试的录取结果信度是比较高 的 但这种高信度也受到极高的考卷 阅卷官比例 及作弊的影响 2 效度 考试效度的证明是一个不断搜集证据的过程 结论将建立在现有证据的倾向性上 效度的证据可 以从以下 4个方面来搜集 考试内容 考试结果和其 他变量关系 考试后效及考试过程 2 1 考试内容 考试要考查的知识和技能应该全面的在考试内 容中被体现 同时试题中不应该出现和要考查的知 识和技能无关的内容 科举考试的目的是选 才 它 是具体通过写作能力 对儒家学说的理解 以及时 政知识所体现的 在整个科举历史中 科举考试内容 是这三部分的刁 同形式的组合 出现在从童试和殿 试的每一个阶段中 因此这些考试内容是具有代表 性和全面性的 自从八股文引人科举以来 八股文考 试明确试题来 自四书五经 这种标准化的测试内容 使得考生准备时不会有所偏颇 考试内容还存 在着知 识层次代表性 的问题 也 即八股文考试能否充分体现考生掌握四书五经不同 层次和深度 任清朝的府试和院试 中 八股文题 目通 常来自 四书 中的一小句话 要求考生进行解释 这 些题 目测试 了浅层的经学知识 通常被称作 小题 而乡试和会试的八股文选题一般来 自 伍 经 中的一 段或几段 然后要求考生对其深人剖析 这测试了考 生的深 层次的知识 通 常被称作 大题 当我们将 这个系统看作一个整体时 它检测了不同层次的知 识能力 C h in a E x a m i n a t io n s 4 1 维普资讯 瀚 考 试 研 究 考试内容是否含有 与所要考查的知识和技能无 关的因素 在八股文试题中在设计上应该没有与 才 无关的因素 但是 启功在 八 中指出清朝出现 的一种现象 经过明朝几个世纪八股文考试 再加上 在民间流通的范文 L 乎所有能用的四书五经的句子 都已经被用过了 清朝的地方考官非常难出新题 于 是 他们 l 好 创造 新题 有些将句T 中选出一两个 字作考题 如 语 中的 战 是也 孟子 中的 妻 匍匐 狗吠 甚至 子日 还有一些考官将 相邻两旬的旨尾连起来 如艋 予 的 王速出令反 这些生造的句子没有任何意义 尽管字句都来自四书 五经 但真正被测试的并不是 才 所幸这种现象并 不普遍 不足以对整个科举系统造成严重影响 当考试内容只涉及要考查的知识和技能的一部 分时 它就缺乏完备性 科举考试的 才 要包括儒学 知识 诗赋 判论以及策的写作能力 但在实际操作 中 经学知识起关键作用 乡试和会试一般考二场 在 宋明清的大部分年代 第一场试经学 第二场试诗赋 和公文 最后一场试策 由于阅卷人数不足 造成第一 场经学的成绩具有决定性 第一场考试的卷 子最先准 备好 同考官可以立即着手评卷 然而后两场的判卷 时间严重不足 考官通常忽略后两场的卷子 清朝政 府多次公开下令严禁这种做法 但收效不大 综合以上几点 基于内容的证据正负两方面均 有 从设计上来说 科举考试内容的完备性和相关性 都很好 但在实际操作中 由于各种局限 这种完备性 和相关性都受到了影响 2 2 和其他变量关系 基于和其他变量关系的证据资料有限 但我们可 推出一种特殊的基于变量相关性的证据 即关于分类 准确性 c l a s s i f i c a t i o n a c c u r a c y 的证据 分类准确性 是指考试决定考生通过或不通过的准确性 通常我们 会用一个独立 的 黄金 标准将考生分成合格和 合 4 2 中 国 考 试 l 2 0 0 6 1 2 格两组 然后考奁是 合格的考生都确实能通过考 试 而不合格的考生都能被考试淘汰 这方面的证据 可以由一系列的统计系数来表示 如表 1 所示 表中 的n b d 分别代表了各种状态的考生数 我们可 以计算 一系列的统计指数如下 命中率 厶 c c 敏感度 b b i 具体度 r n c 这 3个值越高越好 误通过率 n n f 淘汰率 c f c c f 这两个值越低越好 在下段中我们会对这 几个概念展开讨论 表 1 分类准确度分析数据表 外 标准 合格 弓试结果 合格 柏过 b 不通过 d 科举考试的目的是选拔出进士 以人数较稳定的 明清为例来说 每 3 年 会有几 f万到几百万人参加童 试 经过几场考试之后 只有 2 0 0 2 5 0 人左右会成为 进上 基于这种极低的录取率 我们可以推出表一中 的 n 是一个极小的接近于零的值 b 2 0 0 2 5 0 之 间 c 比较大 而 d比C 小 由此我f 可以推算出命中 率应该是 个较大的值 而用来衡量考试选 合格考 生能力的敏感度会极低 用柬衡量考试筛选 H 不合格 考牛能力的具体度 在科举考试中非常高以至于接近 完美 误通过率接近 r 零 也意味着 个不合格考生 通过考试的可能性极低 而误淘汰率的大小取决干 C 和 的相对大小 如果 c 远高于 d 误淘汰率会较 小 总体来说 这些统讣指数所提供的证据是混合的 这些结 跟邓嗣禹住 中国考试制度史 中得f l 的结 论是相符的 考试 中选拔 出的人都是彳 丁 能力的 仇有 很多有能力的人会被这个系统疏漏 以上几点说明荩于和其他变量 系的证据也是 正负两方面并存 虽然科举的命I I I 率非常高 通过 率几乎是零 具体度也接近完美 但其敏感度非常低 维普资讯 误淘汰率也 可能较高 2 3 考试后效 考试一般具有一定的社会功能 如果考试结果的 影响与其初衷 一 致 就有证据支持考试使用的效度 然而 考试除了实现其初衷 还会带来 些副作用 在 副作用中 有些是有利的 I衔有些会与我们的本意相 反或者带来其他问题 科举选拔官 员的初衷基本达 到 但会产生一些副作用 有些副作用增强了这个系 统的价值 而有些则带有负面性 科举的一个正面影响在于其实现了在帝国框架 内的精英治国 这比西方相似理念早了 1 3 0 0 年 不论 血统与出身 只要文有所成 都有可能提升 自己的 社会地位 但事实上科举这种提升社会地位的能力 很有限 科举对政治稳定性的贡献是多方面的 首先 义 人由丁跻身统治阶级的可能性而被同化于现存的政 治系统之内 文人中对现状不满者相信他们可能通过 科举身居高位 从而对现状从 人 J 部进行改良 其次 文人们倾其一生学 儒家学说 而儒家崇尚 忠 与 太平 此他们逐渐形成了厌恶战乱与谋反的性 格 凶此 中国历史中有无数的农民 宗教团体与民 族起义 源 卜 文人的起义却寥寥无几 而且科举将文 人吸收到统治阶级的队伍中柬 减少 r 其为其他起义 军出谋划策的 叮能性 白秦始皇统一书面语言以来 义字 句法和语法 基本稳定 现代学者不需很复杂的解码就 可以读懂两 千年前的作品 在没有大众传媒 交通小便利的情况 下 这个书面语言顽强的生存 r 两千多年 由于地域 厂 大 民族众多 中国书面语和 U语系统非常繁杂 但其还是成功地在两千 百年间使用 r 一种通用语 是什 么鼓励 人f l J 存掌握 方言的同时要精通一种通用 语呢 是科举使语言交流结构化 使很多年轻人在说 方言的MU f 也能说普通话 系统效度是指考试带来的教和学的变化对整个 教育系统功能的增强或是削弱 总体上说 科举推动 了整个社会对儒家学说和诗赋的学习 对教育有正面 的影响 但由于考试的高风险性 考生想出各种捷径 获得成功 如很多考生将大部分时间花在背诵范文 韵律以及其他一些浅显的诗赋和八股文的写作技能 上 应试书籍及行为都非常流行 从长远来看 这些活 动对教育造成负面影响 高风险考试的一个特点就是其对教学大纲的影 响 考试科目会受到社会和学校重视 而非考试科目 会受忽视 科举推动了儒学和诗赋在中国古代社会的 长足发展 但其发展是以其他领域的相对落后为代价 的 有证据证明医学人才被吸引去参D i i l 举考试 同 样 科技的发展也受到科举指挥棒作用的制约 而科 举对诗赋的强调 也影响了话剧 小说等其他文学形 式的发展 科举另 个副作用是对个人精神上的影响 明朝 时的医师在科举落榜生中发现了一种特殊的抑郁症 为其取名为 思郁 文学作品中有很多由于多次落选 引起幻觉或者精神错乱的例子 陈飞还发现很多心理 上和行为上的毛病 可以归结他所谓的科举综合症 从 唐到清有很 多关于考生病态行为的故事 另一种病态现象是终生考生 大部分考生在童试 和乡试中尝试多次才会放弃 此时他们已经耗了 2 0 年的光阴 应试主要是学习儒家知识和写作技能 这 些在农耕社会中并不能作为谋生手段 而且儒家鄙 视劳作 j 经营 一些幸运者可以成为幕僚或师爷 甚 至西席 但大部分人会靠亲属供养 他人救济或靠卖 字画为牛 有些人考几十年 有些倾其一生 却一事无 成 这些人已成社会寄生虫 总的来说 基于后效的效度证据也是两 方面的 科举起到了选拔政府官员的作用 给社会带来 r 用人 唯才的风气 增强了政治稳定性 促进了语言标准化 C h i n a E x a m i n a t io n s 4 3 维普资讯 考 试 研 赛 但它给考生带来了心理精神方面的副作用 给社会 带来了一批职业考试寄生虫 同时 科举在系统效 度以及教学大纲方面的影响方面也同时地存在着利 和弊 2 4 考试过程 基于考试过程方面的证据是指考生在考试作答 时所经历的过程与考试目标所涉及的过程的一致性 一 个典型的反面例子是使用纸笔考试来测试机动车 驾驶技术 如果将科举的 才 定义为经学知识 写作 能力以及对时政的理解 那么科举考试要求 如八股 文 策 诗赋 判论的写作 就非常贴切 也即我们拥有 基于考试过程方面的有利证据 然而 八股文以及试 帖诗的标准化以及贡院的环境都使得这些过程变得 不那么真实 更不用提各场考试中艰苦的自然环境了 因此 基于作答过程方面的证据也是正反并存的 3 总结和讨论 大部分证据表明科举信度较高 但这种高信度由 于阅卷人数不足以及时间紧张受到影响 在初级 如 童试 考试阶段 普遍的作弊行为会降低结果的信度 效度方面的证据是正负两方面并存的 我们从 4 个方 面进行了考查 从考试内容来说 代表性和相关性的 证据都较强 但是它受到了阅卷人手不足的影响 在 分类准确性方面 我们推出科举考试有较高的命中率 和具体度 且误通过率几乎为零 但敏感度非常低 误 淘汰率较高 在科举的后效方面 我们的证据也是混 合的 科举制一方面实现了选拔官员的初衷 带来了 社会上任人唯才的良好风气 起到了维护政治稳定的 作用 但它给考生的精神方面带来负面影响 造就了 一 批社会寄生虫 科举在推动教育发展的同时 也促 使考生投入跟有别于真正 学习 的技巧训练 而科 举对教学方向的影响使其虽推动了经学 文学的发 4 4 中国 考试 l 2 0 0 6 1 2 展 也造成了其他学科的滞后 在作答过程方面 科举 测试 r 经学和写作能力的真实过程 但八股文和试帖 诗的格式要求以及贡院森严的环境又降低了考试的 真实性 综合这些证据 科举考试的效度只是部分被 印证 了 一 些历史学家和心理测量学家对科举制的赞赏 是基于其标准化过程的应用 糊名和誊录政策的实 施 但这些能提高信度的做法却不一定能提高效度 但尽管科举在效度方面有所欠缺 它跟现代很多考试 比起来已经略胜一筹了 因为大部分现代考试都将注 意力集中在信度上 而对效度有所忽视 既然说科举考试质量较高 那么它为何被废除 呢 清末很多官员和学者认为科举选拔出 r 很多无能 昏庸的 书呆子 官员 这个问题其实和 才 的定义有 关 科举将 才 定义为儒学知识 文学技能以及对时 政的理解 这种定义是否充分 首先 儒家哲学是古代 政治 社会以及人际交往的哲学基础 一个称职的官 员必须要对其有所 r 解 这就如同 2 0吐纪初的民国 官员需要了解孙 I l 山的 三民主义 当今美国的政府 工作人员需要了解美国宪法一样 样的道理 时政 知识和文学素质是一名合格官员所必须具备的 说科 举产出 卜一 批无能的官员 是囚为科举并 f 考查很多 官员应该具备的其他素质和技能 如官员的法律知识 肢施政能力 然而由于科举的 指挥棒 作用 这些不 考查的方面被人们忽视 得不到发展 从实质上来说 指责科举造就书呆 I 其实是对科 举所定义的 才 的争议 从心理测量学 角度来评估 如果我f J把科举所要测量的 才 定义为儒学知识 义 学技能以及时政知识 科举是比很多现代考试系统优 越的 f1 这种对 才 的组成的理解是否合理 才 是 否还应该包括其他部分等问题 已经不是现代心理测 量学研究范围内的可以 答的问题了 维普资讯 参考文献 邓嗣禹 I 号试制度止 M I 台北 学 L怕局 1 9 6 7 3 1 4 f 2 1 Wa i n e r H o w a r d a n d He n r y 1 B r a u n e d s T e s t V a l i d i ty H i ll s d a l e N J Er l b a u m 1 9 8 8 Ch a n g C hu n g l i T h e Ch i n e s e Ge n t r y S e a t t l e I J n i v e r s it y o f Wa s h i n g t o n P r e s s l 9 5 5 S u e n Ho i K a n d L a n YI I n p res s H 0 P i n g t i T h e l a d d e r o f S L c e s s i n l m p e r i N C h i n a N e w Yo r k W i l e y S a n s 1 9 6 2 3 J3 E l m a n B e n j a mi n A A C n h n r a l Hi s t o r y l f C i v i l E x a mi n a t i o n i n L a t e I mp e r i a l Ch i n a L o s An g l e s U niv e i t y n l Ca l i f o r n i a P r e s s 2 0 00 p 42 4 毛 火哲 八 岐 史之 研 究 2 0 0 2 h t t p c n n i a t 1 l o g c h i n a e o m 1 5 7 2 2 4 h t m1 5 1李茂肃 薛徉t 水寿顺 科举文化辞 济南 明天 j 版 十l 9 9 8 6 8 6 J刘海峰 科举 非恶制也 2 0 0 4 h n x y s f m e d n s u x y s e l M k s 1 t h e r s e d u k c j u I x 1 7 F r e d e r i k s e n J R a n d A C o l l i n s A S y s t e ms A p p r o a c h t o E d u c a t i o n a l T e s l i n g E d u c a t i o n a l R e s e c w c h e r l 8 n t 9 f 1 9 8 9 2 7 3 2 8 J S u e n H 1 i K a n d L a n Y u C h r o n i c C o n s e q u e n c e s o f H i g h S t a k e s 上接第 2 7页 作环节 是考试组织 核心竞争力 的集中体现 为适 应社会需求 提高各考试机构以及由它们构成的考试 机构体系的办考能力 除教育部考试中心外 各省级 及部分市地级考试机构也应积极开 发考试项 目 需要指出 项 目开发和 段计很少是一次性的 许 多具有持续发展潜力的项 目 常常需要再 开发 再设 计 不断推出新的版本 以提高其技术含量和社会适 J 性 我们所熟知的 世界著名考试项 目如托福 G RE 雅思就是这样 我们也应该通过 断地开发和 设计 打造具有世界影响力的精品考试项目 4 突发事件 考试中的突发事件 是指那些事先难以预料的 发生后吖能对考试工作产生重大影响 甚至可能引起 强烈的社会反响的事件 考试中的突发事件大约有 3 类 一是 自然灾害 大都与人的活动有关 引起的 如风暴 洪水 突发的 传染性疾病等 二是社会事件引起的 如战争 社会冲 x gmi n a t i o n R c s e a r c i Te s l i n g L e s s e n s f r o n l I h e Ch i n e s e Ci v i l S e r v i c e E x a m C o mp a r a t i J e E d u c a t i o n R e v i e w 5 8 n t 1 f 2 0 0 6 4 6 6 5 9 Y u 1 a n a n d Ho i K 1 e l 1 Hi s t o r i c a l a n d C o n t e m p o r a r y E x a m D r i v e n E d u c a t i o n F e v e r i n Ch i n a I n KEDI J o u r n a l o f Ed u c a t i o n a l P o l i c y 1 7 3 3 2 00 5 l o 1 刘大伟 中国文学发展史 f M 1 台北 华正书局 1 9 7 0 1 1 Z e i t l i n J u d i t h H i s t o r i a n o f t h e S t r a n g e P u S n n g l i n g a n d t h e C h i n e s e Cl a s s i c a l Ta l e S t a n f o r d S t a n f o r d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天上的街市课件教学设计
- 做纸袋教学课件怎么做
- 数位板教学课件怎么用
- 课件app排行榜教学课件
- 2025年学生铁路安全知识练习题含答案
- 2025年临床营养学中级考试试题及解析
- 2025年安全施工填空题集
- 读书之星简介课件
- 2025年电子商务大数据分析师专业能力认证试题及答案解析
- 2025年电商运营师技能考核试题及答案解析
- DB11T 334.5-2019 公共场所中文标识英文译写规范 第5部分:医疗卫生
- TB10104-2003 铁路工程水质分析规程
- 突发环境事件应急预案编制要点及风险隐患排查重点课件
- 14J936变形缝建筑构造
- 住院医师全科医师规范化培训24小时负责工作制实施细则
- 肿瘤放射治疗质量控制规范
- 保育员开学前培训内容
- 青少年药物滥用的影响因素与预防方法
- 机修工安全培训方案
- 纺织品染整技术培训课件
- 当妈是一种修行
评论
0/150
提交评论