教育测量学基础

上传人：a*** IP属地：湖北上传时间：2023-02-01 格式：PPT 页数：245 大小：2.36MB 积分：28 举报 版权申诉

已阅读5页，还剩240页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

教育测量学基础主讲：张建华节目介绍垂钓之乐微观世界旅游之乐优美舞姿参考资料别忘了做学问主要教学内容第七章标准化考试第八章常见统计分析软件第一章绪论第二章考试概论第四章试题的分析与评价第五章考试的分析与评价第三章考试分数的收集、整理和解释第六章考试结果的统计检验与预测第一章绪论§1-1教育测量的概念一、引言二、教育测量的概念三、教育测量的要素四、测量单位§1-2教育测量的特点一、教育测量与一般测量的共同点二、教育测量与一般测量的不同点三、教育测量特点小结四、教育测量的标准物§1-3教育测量的发展历史和现状一、中国悠久的教育测量历史二、教育测量发展的三个阶段和两次飞跃三、教育测量的功能、未来发展展望(略)思考题§1-1教育测量的概念

一、引言

教育是一种以人才培养为目的的社会现象。专门研究教育现象的教育科学，也和其它任何一门科学一样，要经历从定性描述到定量分析的发展过程。要作定量分析就离不开测量(Measurement)。教育测量学的创始人之一、美国心理学家桑代克(E.L.Thorndike)指出：“凡是存在的东西都有数量，凡有数量的东西都可以测量”。教育作为一种社会现象，也是社会上客观存在的一种事物，它也是有数量的，自然也是可以测量的二、教育测量的概念1、什么是教育测量？教育测量是对教育的特征、属性及其运动、发展规律的定量描述，它主要用于对学生的精神特性进行数量化测定。(评：不妥)2、理解(1)教育测量就是对学生的学习能力、学业成绩、兴趣爱好、思想品德、身体素质及教育措施上的许多问题的数量化测定。(2)教育测量是对教育诸要素(如主体、客体、媒体)进行判断、和评价的过程。(3)教育测量是事实的一种比较活动。三、教育测量的要素1、被测量的事物或对象(评：应包括教育主体、客体、媒体等)。2、测量方法与测量工具如考试、考查、测验等。3、测量单位四、测量单位通过测量，可实现对被测量事物的数量化描述，即得到量值。量值出现在一个有参照点和单位的连续体上，这个连续体称为量表，如常见的百分量表和五分量表等。根据量表的属性，可分为五大类：1、名义量表，又称为分类量表即用分类的方法,对被测事物进行定性的描述.虽是一种低水平的量表但却常用,如考试中的选择题,答案只能按对与错来分类.当然,名义量表也不限于二分变量(即只有两个参照标准),也可以有多分变量(即有多个参考标准),如高校教师按职称可分为教授、副教授、讲师、助教等。2、位次量表是用反映事物的相对顺序关系的数值来表示的一种量表，如按学生的考试成绩来确定名次如第一名、第二名、第三名等等，这种量表中的数值是能进行加减运算的，但可以用于作次序的统计3、间距量表以确定的单位间的距离来描述被测量的事物，但变量不具有零点的量表称为间距量表。用这种量表表示的数值，可以作相互加减运算，但不能作乘除运算。4、比率量表是具有等距、等质性且具有零点的量表，用这种量表表示的数值，不仅可以作加减运算，还可以作乘除运算。与前三种量表相比，这是一种高水平的量表5、模糊量表用来描述模糊关系的量表称为模糊量表。如学生的思想品德、团结互助精神等具有一定的模糊性，只能用模糊量表来描述。相互关系虽然上述各量表具有不同的属性，但这种分类是相对的，它们之间还是有一定的关系，主要表现在以下两个方面：(1)各种量表之间以一定的依存性互相联系着。如，可以将位次量表转化为很好、好、较好、差、很差等语言描述的模糊量表。(2)随着人们对于教育活动中各种事物及其属性的认识的深化和教育测量手段的发展，对同一事物属性的描述可由只能使用低水平量表发展到可以使用高水平的量表。如1916年引入智商概念前对儿童智力的测量只能按位次量表进行，而引入智商概念后就可以用间距量表对儿童智力进行测量了§1-2教育测量的特点一、教育测量与一般测量的共同点1、具有测量客体：教育测量与一般物理量的测量都是对客观的事物的存在、特征、属性及运动规律作定量描述，或说是进行数量化测定的过程。这一测量过程就是对客观的事物的存在、特征、属性及运动规律赋予一定的量值。教育测量是一种事实判断的过程。2、具有一定的测量方法和测量工具教育测量的工具是考试(Examination)、测验(Test)、鉴定会等3、测量结果需要有特定的量表描述4、测量结果有误差测量误差也有系统误差和随机误差，这种测量误差影响着测量结果的有效性和可信程度，应设法减小测量误差。二、教育测量与一般测量的不同点1、测量对象的特点不同一般测量是对客观事物的物理特征与属性进行的测量，而教育测量是对学生的心理特性(精神特性)进行的测量(评：原文如此，不妥)。客观事物的物理特征与属性具体、稳定、易于控制，而心理特性则比较抽象、不稳定、不易于控制。2、测量尺度的客观性不同如不同的主体人对同一文章的看法相去甚远，一般测量则不然。3、测量结果的客观性不同三、教育测量特点小结1、具有一般测量的共同特征与属性2、测量对象与测量标准具有社会性3、测量尺度和测量单位具有较大的不确定性和近似性4、测量标准及测量结果具有主观性四、教育测量的标准物鉴于教育测量的上述特点，为使测量结果比较真实地、准确地、客观地反映出被测对象的特征与属性，必须对教育测量的标准物进行规范，或者说教育测量的标准物应满足以下一些基本条件：1、不低于构成被测对象稳定状态的最低限度。如60分及格。2、具有使用意义上的合理性；3、在测量过程中单位的不变性，即在一次测量过程中，不能使用不同的单位。以上1、2两个条件是容易满足的。第3个条件在一般物理量的测量中是不难满足的，但在教育测量中有时却是不容易满足的。如，在测量科研成果时，可以用完成鉴定的科研成果的项目数或发表的科研论文的篇数来测量，但这一项成果和那一项成果，虽然都是一项，但它们不可能等值；同样，这一篇论文和那一篇论文虽然都是一项，但也不等值。因此要找到一种具有不变性的测量单位是非常困难的。只有正确认识教育测量的的这些特点，才能正确地掌握教育测量的规律和技术，正确地进行教育测量工作§1-3教育测量的发展历史、现状一、中国悠久的教育测量历史教育测量起源于中国：伴随西周初步建立的学校教育制度就已经实行了教育考评；隋末唐初就开始实行科举考试制度，以试取人；欧美各国在此后一千余年开始采用的以考试来选拔官吏的做法就是从我国学去的。二、教育测量发展的三个阶段和两次飞跃1、第一阶段：1846年前的主观经验化开始阶段，在这一阶段采用的考试方法是传统的考试方法。其特征是主观经验化、片面。2、第二阶段：1846年到1940年的客观标准化考试阶段，在这个阶段，对考试的理论和方法进行了积极的、系统的研究，使考试排除了命题、评分和成绩分析中的主观经验性和片面性，逐步形成了客观标准化考试，即按照一定的目的，根据客观标准命题、平分和进行成绩的分析。3、第三阶段：1940后较完善的客观标准化考试阶段。其特点：(1)既重视对学生知识的测量，也重视对思想品德和智力测量；(2)不仅注意单一答案的求同性思维，而且注意包括有多种答案的求异性思维；(3)不仅对学生成绩进行测量，也对教育其它各要素如教育主体、教育手段、教学措施和教育法规进行测量‘(4)不仅注意测量学生的成绩在群体中的相对位置，也注意测量学生的成绩达到教育目标的情况。两次飞跃(评：原文如此，不妥，应为三次飞跃)1、第一次飞跃：发生在上世纪初，它是由于在考试工作中应用数理统计方法引起的。结果导致了教育科学的一个分支—教育测量学的诞生；2、第二次飞跃：发生在上世纪40年代末，这次飞跃的动力是计算机的出现，使测量数据处理、计算的能力和可靠性大大提高；3、第三次飞跃：发生在上世纪80年代后期，飞跃的动力是互连网技术的应用。资源共享、远程考试，从而可以瞬间实现全省、全国乃至全球教育测量评估工作。三、教育测量的功能、未来发展展望(略)思考题

1、P.14No.1~No.62、查寻资料论述互连网技术在教育测量中的作用和地位谢谢合作第二章考试概述§2-1考试的意义和任务一、引言二、考试的意义三、考试的功能§2-2考试的分类一、按考试的时间分类二、按考试的目的分类§2-3考试命题的基本原则与步骤一、命题在考试中的地位与作用二、命题的基本原则三、命题的步骤§2-4试题结构、分类与命题方法一、主观题二、客观题§2-1考试的意义和任务一、引言1、什么是考试根据教育目标的要求，由国家及各级教育管理部门或教师按照事先拟定的命题组织的对学生所进行的学业成就或学历的测试等，称为考试。2、理解(1)考试是教育主体所引起的教育客体的一种行为过程，包括提出考试目的、确定考试内容与范围、命题、进行考试、阅卷、分析与统计等环节；(2)考试是教育测量的重要手段和工具之一(评:“之一”二字为本人所加)。二、考试的意义1、考试的一般意义考试是教育测量的工具之一，在教育测量中，它所起的作用相当于一般物理量测量中的量具和仪器。一般测量的测量结果用量值表示(包括数值和测量单位)。教育测量的结果就是(不妥)考试的成绩，它通常用分数来表示。既然考试是教育测量的工具，故考试应有以下几点规范(1)因为考试的成绩就是教育测量的结果，所以它应该是客观的，不应随测量者及测量条件的改变而改变。(2)作为教育测量的单位，考试分数的最小值即成绩的单位---分值应具有等值性。等值性有两重含义，其一，若两个考生的考试成绩分别为80分和40分,则前者学习水平(知识量和能力)应为后者的两倍；其二，80分和70分的差异与50分和40分的差异相同。(3)考试作为教育测量的工具有系统误差和随机误差，因此考试中也需要有用来衡量这两类测量误差对教育测量结果影响的指标2、考试的教学意义从教学角度，考试建立了教学系统中的信息反馈渠道。这一点非常重要，所有教学资源(教学大纲、教学改革、教学主体和客体关系优化等)配置都建立在这个反馈来的信息基础上的。3、考试的社会意义(1)考试是对教育进行评估的重要手段之一。教育评估的内容有：教育的社会价值、教育投资效能、教育法规、教育机构设置、教育目标、教育过程(教育主体构成与培养、教学大纲、教学计划、课程设置、教材、教学手段、教学客体规范)、人才机制等。(2)考试是开发智力资源的重要手段之一考试对教育主、客体有督促作用；考试对人才培养目标、培养质量有规范作用；考试对人才资格有认证作用；考试对人才选拔有甄别作用。(3)考试及考试制度是社会公正的重要标志之一(评：教材未提及)三、考试的功能1、评定学生的学业成绩，包括确定学生的学业成就在一个群体中所处的相对位置和确定学生达到的学业水平与教育目标所规定的学业标准之间的差距；2、为教学管理提供信息和依据；3、为改进教学工作提供反馈信息；4、鉴定资格、甄别人才；5、提高过度学习程度，增大学习保留量；6、为教育科学研究提供一种有效的手段。§2-2

考试的分类考试一般按目的和时间两种分类方法：一、按考试的时间分类在教学过程的不同阶段有着不同的特点和要求，因而有不同的考试安置性考试和准备性考试：安排在教学的开始阶段；形成性考试和诊断性考试：安排在教学的中期阶段；总结性考试：安排在教学的结束阶段；1、安置性考试和准备性考试：(1)安置性考试的目的要求：为了发现优秀学生，所以命题范围应当广，而且要求有较高的难度和区分度(第四章介绍)；(2)准备性考试的目的要求：检查学生对基础知识的掌握情况，所以命题范围比较小、其难度也较低，对区分度不作要求。2、形成性考试和诊断性考试：(1)形成性考试的目的要求：了解学生对教学内容的掌握程度，如单元考试、中段考试等；命题要求严格按照教学大纲，题目应按由易到难的顺序排列。以便教师对学生学习情况心中有数。(2)诊断性考试的目的要求：为深入了解学生的学习障碍及产生原因，如课堂小测验等。命题要求必须在欲检查的每一个特定的领域或知识点包含有较多的考题，并且要关注学生对特殊题目的反映及出现的共同错误，以便制定教学改进方案。3、总结性考试目的和要求：对学生的学习成绩作一次全面的检查，观察其对全部教学内容的掌握情况，评定成绩、排列名次，决定是否重修。如期末考试、结业考试等。命题要求范围较广，有代表性和综合性，题目难度和区分度适中，应做到考教分离，且命题主体应为教学机构如教研室、学科组或教学小组，有条件的还应全市、全省乃至全国范围的统一命题。二、按考试的目的分类按考试的目的分类有常模参照考试和目标参照考试1、常模参照考试什么是常模参照考试？用来测量学生群体中各个学生个体的相对水平的考试。所谓常模，是指一个规定的学生群体，在这种考试中总的成绩或水平，通常用群体的考试成绩的统计数据来表示。在标准化考试中，则以标准化样本(用标准化考试的试卷对随机抽取的学生)在测试中的平均成绩及标准差(第三章介绍)作为常模。常模参照考试实例：我国英语四级水平考试(CET--Ⅳ)的常模定为平均分72分，标准差12分。美国和加拿大两国77所医学院的四年级学生共5877人参加考试，平均分数为500分，那么次考试的常模就是500分。因此，检查各个学生与常模的差距，确定其在规定的学生群体中的相对地位为目的的考试就是常模参照考试。值得注意的是常模并不是真正的标准，只是把它当作标准用作比较。常模参照考试的要求：难度要适中，有较高的区分度，常用于安置性考试和总结性考试。2、目标参照考试什么是目标参照考试？测量每个学生实际(绝对)水平的考试。所谓目标，指某门课程既定的标准，亦即由教学大纲所规定的该门课程的教学目标。目标参照考试实例：国家教委制订的工科基础课程教学基本要求，就是各类工科基础课程的教学目标。检查学生是否达到这一目标而进行的考试就是目标参照考试。所关心的是参加考试的学生是否达到了教学目标，不关心其在群体中的相对位置。值得注意的是，目标是一个真正的标准，而不仅是用作比较的标准。目标参照考试的要求：难度由教学大纲或其它教学纲领性文件决定，不要求区分度。常用于准备性考试、诊断性考试、各类资格考试。3、混合型考试(评：教材无此知识点)：实际情况是上述两类考试是相互渗透的，其作用和解读由考试组织者根据实际需要取舍。4、常模参照考试与目标参照考试比较两种考试的差异有：(1)常模参照考试的成绩分布范围应该比较宽，具体说难度适中，区分度高；而目标参照考试对成绩的分布无要求，不要求区分度。(2)常模参照考试中，试卷样本项目多(概念、原理、分析、能力)，但每项目中题目不宜多；而目标参照考试项目不宜多，但每项目中的题目应比较多。(3)常模参照考试多采用选择题，目标参照考试较少采用选择题。(4)常模参照考试更重视试题区分学生学习成绩高低的功能；而目标参照考试重视测试学生对所学内容的掌握情况。(5)由于常模参照考试的成绩分布范围广，分数的离散性大，考试的信度(第五章介绍)可以用传统的统计方法进行估计，而目标参照考试数据离散性小，考试的信度不能用传统的统计方法进行估计。(6)常模参照考试多用于安置性考试和总结性考试，而目标参照考试多用于准备性考试、形成性考试和诊断性考试。(7)常模参照考试和目标参照考试有联系，有时同一次考试同时具有这两种考试的性质。所以两者之间并无明显的分界线。§2-3考试命题的基本原理与步骤一、命题在考试中的地位与作用1、导向作用考试什么？怎样考？引导学生正确地进行学习。2、命题决定了作为教育测量工具的准确度。过难、过易、过少、过多会导致测量误差，影响教学工作的开展。3、命题是教学测量正常进行的前提，是教学工作的一部分。二、命题的基本原则考试命题以保证试题质量为最基本的原则。所谓保证试题的质量，就是要使试题具有合适的难度和较高的区分度，还要使考试具有较高的效度和信度。为实现这一目标，命题应遵循以下一些原则：1、命题的基本依据是教学大纲2、命题覆盖面应包括课程的所有主要内容，以保证考试的效度。3、命题要对学生的学习有促进作用。4、试题的难度要适当。5、试题不宜过大，但数量要适当多一些。6、考试不应出偏题、怪题。难题应当占合适的比例。7、命题的叙述要清楚无误，不能产生语言歧义。三、命题的步骤1、根据考试目的，确定考试的类型。根据考试目的，确定考试是常模参照考试，还是目标参照考试等。2、根据课程的特点、教材的内容和考试对象的特点，确定要测量的知识和能力的具体要求。3、选择题型。4、编制命题计划表。所谓命题计划表，是一种列出了教材各部分内容、确定各种知识、能力的测量在考试中所占的比例，及所采用的各种题型在数量上的分配比例的双向细目表。编制命题计划表有两个目的：(1)保证试题是教材内容中有代表性的样本，并使试题能反映出各部分教学内容的相对重要性，从而保证了试题取样合理，考试有足够高的内容效度。(2)为各部分试题具有合理的难度和区分度提供了依据。因此，若把考试命题比作一项工程，那么，命题计划表就是该工程的设计蓝图，是编制试卷的指南。能编制高质量的命题计划表的命题者就有可能编制出高质量试卷。可见，编制命题计划表，是考试命题工作中关键的一步，必须认真对待、精心编制好。5、根据命题计划表编制试题。6、编制参考答案和评分标准。以下是典型的命题计划表：表2.3.1GRE考试1977—1978年的内容分布答卷的时间测验的项目试题数量第一组50分钟语言能力80填空造句类推反义词阅读理解(两大段，三小段)15~2015~2015~2015~20第二组50分钟定量能力55定量比较数学能力3025第三组25分钟分析能力40分析解释40第四组25分钟分析能力30逻辑图分析推理1515第五组25分钟定量能力、语言能力、分析能力或试验项目25共计175分钟共约230题§2-4试题的结构、分类与命题方法题型种类繁多，可以按课程特点分类，也可以按考试方式(笔试、面试、提问、实验操作)分类，还可以按答案特征、答题方式分类。一般根据试题的答案特征、答题方式分为客观题和主观题。下面介绍各类试题的测试功能、结构、特点和命题方法(原则)：一、主观题：包括简答题和论说题1、简答题(1)结构：简答题由一个直接问句或一个未完成的陈述句构成，前者即为问答题，由学生提供用适当的字词、数字和符号组成的陈述句作为答案；后者为填空题，由学生提供用适当的字词、数字和符号作为答案，将题目所给的陈述句完成为一个完整的句子。(2)特点：学生主动提供简单答案，学生具有一定的主观自由度。(3)测试功能：简答题需要由学生主动提供简单答案，它主要用来测试学生对知识的记忆程度。(4)优缺点：命题容易、靠侥幸猜测而能正确做出答案的可能性小;缺点是只宜用来测试简单内容的学习结果，不能用来测试复杂内容的学习结果，而且有相当一部分简答题的评分不够客观。(5)其它变形题型：属于简答题范畴的具体题型还有：名词解释、简答题、主观填空题、简单计算题、简单证明题、看图说话题、口算题等。(6)简答题命题原则（A）试题的答案应具有唯一性，且答案应尽可能简短而具体，要防止一个问题可以有多种答案。下面的题例不符合这一原则：例1测量交流电压的仪表是（B）要尽量结合具体课程将简单题编为合适的形式，以使问题明确，并尽量减少猜测答案的可能性。下面的题例不符合本原则：例2“七.七”事变爆发在（C）要求学生提供的答案，应当是重要概念和结论，不应当是枝节次要问题，尤其尽量避免让学生提供是、不是、有、没有等（D）要避免可能出现的暗示，如空格的长度不同。（E）数字答案应对单位和有效数字有明确要求，以使答案客观。（F）要尽量避免仅仅靠机械记忆就可以作出答案的命题。（G）采用填空题时，不宜有太多的空格，以面造成学生审题故障。以下题例违反了这一原则：木材的防腐技术2、论说题(1)结构：论说题是指由一些问句或陈述句组成、需要由学生用自己的语言写成一份较长的答案的试题。(2)特点：学生在回答问题时，有较大的自由度，可以充分运用所学的知识，并且可以加上自己独特的见解。(3)测试功能：用来测试学生比较复杂知识的学习情况和运用所掌握的知识的能力。(4)优点：A）可以用来进行高层次学习结果的测量，可以用在各种学科领域，特别适用于社会、人文学科，各种变形题型也同样适用于理、工学科；B）对学生学习态度和学习方式可以产生积极影响，例如可使学生比较注重学科在整体上的内在联系以及运用知识分析解决问题；C）可以培养学生的写作能力；D）试题编制容易。(5)缺点：A）考试效度不高。因为论说题分值高，但测量容量或范围有限，不能有效代表学科的全部内容(见教材P.37)；B）评分的主观性太强，可信度太低。C）不适合初中、小学基础教育测量。(6)其它变形题型：属于论说题范畴的具体题型还有：阅读理解、作文、综合计算应用题等。(7)论说题编制原则1、论说题应该只用于测量较高层次的学习结果。2、由于论说题只用于测量较高层次的学习结果，所以在编制论说题时，应使用“为什么”“怎么样”“评论”“对照”“说明”“分析”“比较”等词语，而不宜使用“何处”“何时”“何人”“什么”“列举”等词语，因为后者一般只适用于测量较低层次的学习结果。3、要避免含糊不清的问句，必要时要对答案的长度等作出明确的要求，并对所预期的答案内容作出说明。以下题例就是不符合本原则的故障试题：例1.试比较氢气、氧气和二氧化碳的性质。如果改成下面的形式，就是一个比较好的命题。例2.试就密度、颜色、可燃性、助染性、还原性、氧化性、在水中的溶解性、比重等方面的特点，对氢气、氧气和二氧化碳气的性质作比较，字数要求在600字以内。4、除了用来测量学生写作能力的论说题，一般不允许学生对试题选择作答如三选二、二选一等，否则将破坏对学生作比较性评定的公平性和科学性。5、编制论说题时，最好能给出回答该题所需要的参考时间，一面学生在作答论说题时花费过多时间，而影响整个考试。二、客观题：包括选择题和配合题1、选择题：是指由学生在若干备选答案中选择正确答案的试题。(1)结构：由题干(陈述句、问句，可以是完整的或不完整的)以及多个备选答案两部分组成。备选答案中有一个或多个正确答案，其余都是错误的，称为伪答案、似真答案、迷惑答案或干扰答案。(2)特点：答案客观，学生无自由度。适合各级各类考试，在50年代后兴起的标准化考试中广泛应用。(3)测试功能：特别适合测试学生所学课程重要知识点、概念、方法、结论、分析、判断、应用的情况，有较好的区分度和可信度。(4)优点：A）可以用来测量学生各种不同层次的学习结果，不仅可以测量学生掌握所学知识的程度，而且可以测量学生对所学知识的理解、分析、判断、应用和综合能力。在教育测量中应用最广泛；B）容量大，测量面广，可有效克服传统考试中简答题、论说题由于题量小、抽样面窄而造成的测量效度不高的缺点；C）有利于提高学生的判断和推理能力，提高解题的速度和灵活性；D）可避免题意不清的命题故障；E）评分标准统一、客观，便于计算机快速阅卷，提高了考试的可信度，进而提高了教育测量的效率；F）便于计算机远程考试(此点教材未提及)；G）便于发现、分析、排除学生的学习障碍。(5)选择题缺点：A）编制选择题工作量大、难度高，要求命题者有较高的命题技巧；B）由于备选答案数量有限，故学生侥幸猜中答案的概率较大，如五个备选答案中有一个正确答案，则猜中答案的概率为20%,因而对考试的信度有一定影响；C）不能测试学生完整的推理能力、综合运用知识的能力、严密的表达能力以及写作能力。(6)其它变形题型：最佳选择题、比较选择题、组合选择题、多重选择题、填空选择题、类推选择题、因果选择题、是非选择题、改错选择题、排列选择题等。(7)选择题命题原则(A)每题应独立测量一个且仅测量一个重要问题，而不是枝节问题，且提干提出的问题应该是很明确的。(B)任何一题备选答案不能是另一选择题的提示或前提条件。(C)题干要尽可能简明扼要，尽量不要使用过于长而复杂的字词句，保证考试时学生在短时间内完成答题，美国规定每个选择题答题时间不超过45s。(D)备选答案不能有任何暗示。(E)应给出必要的说明语，以帮助应试者正确理解题意。(F)干扰答案应具有很高的似真性，以便提高试题质量。2、配合题：配合题是一种改良变形的选择题(1)结构：试题由一组题干和一组与之相配合的备选答案组成：

（题干）（答案）1、南昌起义发生在()年A1931年2、卢沟桥事变发生在()年B1840年3、“一二.九”运动发生在()年C1937年4、第一次鸦片战争爆发在()年D1935年E1927年考试时，要求学生从选项中为每一个题干选配一个合适的答案。不难看出，配合题与选择题的差别在于，前者为一组题干共用一组备选答案，后者为每一个题干都有一组备选答案。(2)特点和测试功能：基本同选择题。(3)优缺点：优点更加明显，考试效率更高；缺点也更加突出，仅能测试机械记忆的知识。(4)命题原则：(A)一道题中，要求各题干(同样地，也要求各个备选答案)具有相同或相近的性质，这种同质性可以保证所有的备选答案都能成为任何一个题干的似真答案。以保证试题质量。(B)应要求备选答案数量大于题干的数目。(C)有时要给出明确的答题说明，指出每个答案被选择的次数。(D)卷面安排要便于理解，便于评分。3、选择题得分校正：猜测答案引起虚假成绩。可以而且应该对答错的题目倒扣一定分数。倒扣多少分，不能由教师主观随意确定，而应根据猜测答对的概率来确定。可以证明，应按下列公式计算选择题最终考试成绩：式中F为最终考试成绩，F0为一个题目的满分数，R为答对的题数，W为答错的题数，n为每个题目的备选答案数。如某次考试共有40个选择题，每题满分位2分，某学生共答对25题，答错15题，每题有4个备选答案，则他的最终考试成绩为：有时为了简便，干脆在试卷上明确规定对选错答案的题目倒扣一定的分数。例如，规定每题答对的3分，不答不得分，答错倒扣一分。当然，规定的倒扣分数应该是根据科学方法计算出来的第二章结束语1、以上主观和客观两大类试题究竟哪一种更有利于对学生学习结果的测量与评估众说纷纭、莫衷一是。但可以肯定，无论哪一种试题都不可能全面地测量学生的学习情况。科学的态度是：在教育测量的实践中，应根据考试的目的、性质，配合使用才能取得较好的效果。2、研究表明，各类大规模的考试应以客观题为主、配以适量的主观题的模式。一般情况下,客观题占总分的80%，主观题占20%。3、结合各学科具体的特点，以上主观和客观两大类试题有多种变形体不可能一一枚举。谢谢大家第三章考试分数的收集、整理和解释§3-1考试分数的收集§3-2考试分数的整理一、频数分布表和频数直方图二、考试分数的各种分布图§3-3特征量数及其求法一、集中量数

二、差异量数三、相关量数

四、标准分数§3-4正态分布的性质、计算与应用一、正态分布的性质

二、正态分布的计算三、正态分布的应用§3-5原始考试分数的解释一、非正态分布的正态化二、常模参考分数三、标准参考分数§3-1考试分数的收集考试后，要对考试分数有一个直观的、整体的了解，需要收集考试分数，即将考试分数按照一定格式进行登记。常见的登记方法是，按学生编号或根据分数高低，由高到低或由低到高排列。为便于对考试分数进行整理、分析和解释，推荐介绍两种收集方法：1、奇、偶数试题考分收集表把试卷中的试题按照奇数题和偶数题分为两部分，并求出各部分试题的得分总和，如表3-1所示。然后计算两部分得分总数之和及差的相关系数，最后可由此计算出本次考试的信度(第五章介绍)，也就是关于考试结果的可靠程度的系数。这种收集方法，工作量大，要使考试的信度高，要求教师掌握好奇数题和偶数题的难易程度，进行合理的搭配。2、试题顺序考分收集表登记各试题得分及总分数，如表3-2。收集分数的目的是对其进行科学的分析、评价，故要求事实求是，考试分数具有较高的准确性。表3-1奇、偶数试题考分收集表考试日期年月日系科目班级

序号各奇数题得分奇数题得总分数a各偶数题得分偶数题得总分数b和分a+b差分a-b1357911246810121234567项目姓名各试题满分数表3-2试题顺序考分收集表考试日期年月日系科目班级

各

试

题

分序

数

号姓名项目

各试题分数总分备注12345……123456§3-2考试分数的整理整理考试分数的意义考试得到一批卷面原始分数，表面看没有什么规律，教师无法从中发现教学中存在的问题，学生也无法了解自己的考试分数在考生群体中的相对位置。考试分数的整理可得到许多信息，如哪道试题难度大，哪些内容学生尚未完全掌握，考试的可靠性有多高等。这对客观评价学生学习水平、改进教师的教学工作、改善教学质量是十分必要的、有利的。一、频数分布表与频数直方图所谓频数，是指一段分数中所包含考试分数的个数。频数分布表就是把一批考试分数，按照从低分到高分(或从高分到低分)的顺序排列后进行分组，计算出每一组的频数，登记在一张表中。其列表步骤如下：1、求全距：全距R就是一批分数中最高分与最低分之差，即

R=最高分数-最低分数(3-1)它反映了全部分数的分布范围。2、定组数：组数是根据全距R和考试分数的个数n来确定的，R值大，考试分数的个数n多，相应地组数就分得多。计算方法如下：组数=

(3-2)式中n为考分的个数。组数也可参照表3-3确定。(n实际就是人数)表3-3分组数参考表3、定组距：全距R与组数确定之后，组距ZR也就可以确定了，即

ZR=R/组数(3-3)如果计算出来的组数及组距有小数应取整。组距可以相等，也可以不相等，即当某些组的频数特别大时，可以把这些组再分成若干个小组，以减小组距。考分数量(个)分组数(个)505—101008—1620010—2030012—2450015—304、分组将全部分数根据分数段进行分组，可高分做起，也可从低分做起。在分组时，应注意以下两个问题：(1)统一约定每组只含下限，不含上限，即每组为左闭右开区间。(2)在实际计算中，每组的分点值要取得比原考试分数多一位有效数字，如某一组的下、上限原来是[30，35)，而取比原来考试分数多一位有效数字就应变为[29.5，35.5)，29.5分和35.5分就是这一组的实际下、上限。这样处理可以避免某些考试分数恰好处于分点处，以致无法确定这些分数究竟分在哪一组。5、求组中值：组就是每一点的中点值，其计算公式为：

组中值=组实际下限+0.5ZR(3-4)6、列频数分布表：数出落在每个组的考试分数的个数，这个个数就是每一组的频数，将它们填入频数分布表中即可。7、计算频率：每一组的频数除以这批考试分数的总个数n，就是该组的频率。以下是列频数分布表的实例。例3-1某班112名学生在结构化学考试分数如下：68707077768685768741857665787665908673669073867062926285767263636176517076789070828066867874637776858384837674757586886892688585829480809175868285857280807565629075656090787686809186657886788572727290787885788688728576827585试作出这批考试分数的频数分布表。解：第一步，求全距RR=最高分数–最低分数=94–41=53第二步，定组数考试分数总共有112个，根据表3-3，将其分为11组。第三步，求组距ZRZR=R/组数=53/11≈4.8≈5分第四步，分组根据全距R=53和组距ZR=5，分组为41—45，46--50，51—55，56—60，61—65，66—70，71—75，76—80，81—85，86—90，91—95，根据前述约定，实际分组及组限为(40.5,45.5),(45.5,50.5),(50.5,55.5),(55.5,60.5),(60.5,65,5),(65.5,70.5),(70.5,75.5),(75.5,80.5),(80.5,85.5),(85.5,90.5),(90.5,95.5)第五步，求组中值：根据公式：组中值=组实际下限+0.5ZR第一组，中值为：40.5+5/2=43分；频数为：1频率为0.009第二组，中值为：45.5+5/2=48分；频数为：0频率为0.000第三组，中值为：50.5+5/2=53分；频数为：1频率为0.009第四组，中值为：55.5+5/2=58分；频数为：1频率为0.009第五组，中值为：60.5+5/2=63分；频数为：13频率为0.116第六组，中值为：65.5+5/2=68分；频数为：10频率为0.089第七组，中值为：70.5+5/2=73分；频数为：16频率为0.147第八组，中值为：75.5+5/2=78分；频数为：27频率为0.241第九组，中值为：80.5+5/2=83分；频数为：20频率为0.179第十组，中值为：85.5+5/2=88分；频数为：18频率为0.161第十一组，中值为：90.5+5/2=93分。频数为：5频率为0.045第六步，求每一组的频数用唱票的办法，找出各组频数为前述幻灯片或下表3-4。第七步，求每一组的频率：结果列在前述幻灯片或下表3-4。第八步，列出频数、频率分布表如下：表3-4频数、频率分布表组别起止点组中值频数频率141—454310.009246—504800.000351—555310.009456—605810.009561—6563130.116666—7068100.089771—7573160.147876—8078270.241981—8583200.1791086—9088180.1611191—959350.045第九步，频数直方图和频率直方图图3-1频数直方图(上)和频率直方图(下)第十步，频数多边图和频率多边图当考试分数的数量增多到一定程度时，上图的折线图就会变成一条光滑的曲线。这条光滑的曲线就称为频数分布线或频率分布线(红线)。图3-2频数多边图(上)和频率多边图(下)二、考试分数的各种分布曲线1、正态分布曲线图3-3所示为正态分布曲线，特点是：(1)曲线位于横坐标轴x的上方，中间高两边低，以直线x=平均数为对称轴，且无限接近于x轴。(2)考试成绩呈正态分布,能够比较客观地反映教学情况和学生掌握知识的程度以及智力水平。因为人的智商分布是符合正态分布的，即IQ特高和特低的人很少，多数人处于中等水平，学习成绩也如此。否则就不合理了。2、偏态分布统计学将频数最大的那个数值叫作众数(对应的分布称为最可几分布)。正态分布曲线中平均值等于众数。实际教育测量中会遇到平均值不等于众数的情况，这种分布称为偏态分布曲线。平均数大于众数时的偏态分布曲线称为正偏态曲线，平均数小于众数时的偏态分布曲线称为负偏态曲线。这两种偏态分布曲线如图3-4。频数或频率图3-3正态分布曲线xx几种偏态分布图试题过难试题过易正态分布，学生基础相近或中等难度题目过多理想正态分布正态分布，学生基础相差较大，难易程度不同的试题的比例接近偏态分布，难度过大和难度过小的试题偏多，或学生两极分化。§3-3特征量数及其求法从频数、频率分布表，直方图和分布曲线可大致看到一批考试分数的集中趋势和变异程度。本节进一步介绍特征统计量数。一、集中量数：既反映数据组的典型情况，也可以用来数据组比较1、众数：频数最大的数据称为众数。下列数据1，5,4,5,6,5,7,8，5,9,6,11，共12个数据，其中5出现4次，频数最大，故为众数。2、中位数：一组数据从小到大排列，居于中间者为中位数，例如4,5,6,8,9,10,11,11,30，前8个数据彼此相差不大，而第九个数据30与前8个数据相差悬殊，为不使个别相差悬殊的数据影响这组数据的代表性，常用居于中间的数据9作为该组数据的集中量数。如数据个数是偶数，就用居于中间的两个数据的平均数作为中位数。3、算术平均值：是教育统计工作中用的最多的集中量数。(1)算术平均值：一批数据的总和除以这批数据的个数，记为：(3-5)(2)加权平均值：加权平均值公式为：(3-6)式中为对应于的权重因子。加权平均实例某4个班的人数分别为N1=30人，N2=31人，N3=26人，N4=25人，考试平均成绩分别为X1=75，X2=75，X3=80，X4=78，则加权平均值为：=（75X30+75X31+80X26+78X25）/（30+31+26+25）二、差异量数：描述数据之间彼此差异程度的一种统计量数。仅用集中量数描述数据集中的趋势是不能全面了解其全部特征的，还要了解差异程度或离散程度，才能了解数据的全貌如表3-5表3-5两个组的考试成绩与平均分两组数据平均分相同，但离散程度差异巨大。后者离散程度小可用集中量数描述，而前者离散程度大，单用集中量数描述是不全面的常见的差异量数有以下几种：1、全距：一批考试分数中最高分与最低分之差(前已述及)

R=最高分–最低分特点：仅能粗略地描述一批分数的离散程度。2、四分差：将一批数据按照从小到大顺序排列，按数据的个数分为大体相等的四份，产生3个分点Q1、Q2、Q3，则四分差Q为：

Q=（Q1–Q2）/2(3-8)组别考试分数平均分数第一组204072989010070第二组66657370717570四分差计算举例例如，有一批数据30，35，38，40，42，45，49，50，70，89，90共计11个数据。将其分为4份，三个分点分别为：Q1=38，Q2=45，Q3=70，则有四分差：Q=（70-38）/2=16四分差Q是与中位数相对应的差异量数，它比全距R描述一批数据的离散程度要精细，但仍然只考虑到了几个点上的数据，没有涉及到全部数据，因此仍然只能作比较粗略的描述3、平均差：平均差AD是指一批数据中每一个数据与算术平均值之差的绝对值的平均值：(3-9)式中，n为数据个数，xi为第i个数据；x为这批数据的算术平均值。平均差AD能较好地反映一批数据的离散程度，但计算AD时要用到绝对值，不方便，因而应用受到了限制。4、方差：方差S2是一批数据中每一个数据与算术平均值之差的平方和，除以这批数据的个数所得到的商：(3-10)方差特点、标准差方差的单位与原数据的单位不同，因此其实际应用有一定局限性。5、标准差：标准差就是方差的平方根：(3-11)例：求表3-5中两组数据的标准差，根据式(3-11)得：可以看出，第一组考试分数的标准差S1与第二组的标准差S2相差甚大，表明第一组考试分数的离散程度要比第二组大(平均分相同)。可见标准差能比较精细地描述一批数据的离散程度，且其单位与原数据一致，是一种用得比较多的差异量数。6、相对标准差：定义为：(3-12)为什么要定义相对标准差标准差、方差虽然是反映一批数据离散程度最好的统计量数，但并不能直接用来比较两批数据的离散程度，尤其当两批数据的单位不同时，更不能用方差或标准差来直接比较；即使测量单位相同，但平均值不同时，仍然不能直接用方差或标准差进行比较。只能用相对标准差CV，如：某班物理课程考试x1=70分，S1=7分，数学课程考试x2=85分，S2=7.8分，并不能断定数学课程考试成绩的离散程度比物理课程大。这种情况下，应当采用相对标准差来比较：物理课程：CV1=7/70=10%

数学课程：CV2=7.8/85=9.18%计算表明：物理课程考试成绩的离散程度更大。7、总体标准差：在教育实践中，大面积统考如高考等，参加考试的人多，若要计算总体标准差，就要收集全部的考试分数，还要有储存量较大的计算机，十分不便。这时可分系统进行统计，或者分批统计出每批考试分数的标准差，然后计算总体标准差。公式为：(3-13)总体标准差实例式中

NT—考试总人数；--总体标准差；k—考试成绩的分组数；Ni—第i组的全重因子；Si—第i组标准差；di—第i组的平均值与总体平均值之差。举例如下：例：化学系有三个班，在物化考试中，甲班平均分X1=70，标准差S1=11分，人数N1=31人；乙班平均分X2=75，标准差S2=10分，人数N2=30人；丙班平均分X3=80，标准差S2=8分，人数N2=28人；求3个班的总体标准差。解(1)求总体平均分(2)求各班平均分与总体平均分之差d1=70-74.8=-4.8分;d2=75-74.8=0.2分;d3=80-74.8=5.2分(3)求总体标准差三、相关量数

集中量数和差异量数可用来描述一数据的某些特征，但在教育测量中，还需要研究几种事物之间的关系，以及关系的程度如何。如研究身高与体重之间的关系、学习时间与学习效果之间的关系、学习质量与教师的主导作用之间的关系等。

当一些变量变化时，另一些变量要按照某种趋势变化。变量之间的这种按照某种趋势共变的关系称为相关关系。当一个变量增大(或减小)时，另一变量也随之增大(或减小)时，称这两个变量为正相关；反之，当一个变量增大(或减小)时，另一变量却随之减小(或增大)时，即两变量变化方向相反，称这两个变量为负相关；如果两个变量没有上述的相互影响关系，则称这两个变量不相关。两个变量的相关情况可以用散点图来形象表示。有三种情况：1、散点分布在一条曲线上，两个变量之间存在着非常紧密的、确定的、一一对应的关系，这就是函数关系。2、散点分布在某一条曲线的附近，或者分布在某条曲线的两侧。这样，当一个变量的取值确定后，通过这条曲线可求出一个函数值，而另一个变量的取值就在这个函数值附近，于是可以利用这条曲线对该变量的取值进行预测。散点的这种分布表明两个变量之间存在着相关关系。根据这条曲线是否为直线，可以把两个变量之间的相关关系分为线性相关和非线性相关两种情况。3、无相关关系散点分布无规律性，即一个变量对另一个变量没有任何影响，也即，两个变量之间不存在相关关系。教育测量中，两个变量相关，多为线性相关，此处仅讨论线性相关线性相关和相关系数：相关系数是重要的相关量数。线性相关的几种情况见图3-4：图3-7相关散点图在两个变量为线性相关时，描述两个变量之间相关的量就是相关量数，叫做相关系数。相关系数可定义为：相关系数及标准分数的定义设X1，X2，X3，...，Xn及Y1，Y2，Y3，...，Yn分别表示两个变量的实际测量值，则相关系数可定义为：(3-14)相关系数的计算已经计算机化，很容易求得。四、标准分数在卷面上看到的分数是原始分数，它有两大缺陷：1、原始分的缺陷(1)原始分数没有绝对的零点。在物理量测量中，零点就是什么都没有、是空白，称为绝对零点。而在教育测量中则不然，因为在知识的长轴上，各次考试起点都不同，且每次考试都有一定的偶然性，故一名考生虽在考试中得了零分，但不能说他一点知识都没有，也许下次考试能得高分呢。又如一名考生无法将他前后两次的考试分数进行比较，即使两次的分数一样，也不能说他毫无进步。因此零分是相对的，只有结合试题才有实际意义。(2)原始分每分之间是不等值的。原始分数每分之间不等值，如80分和40分，数字上，80分是40分的两倍。但80分所代表的知识量不一定是40分的两倍，这是因为每个试题的难度不同，考生在每个试题上所花费的心理能量不同，而心理能量也无法测量出准确的数值。因此数学的80分不等于外语的80分，在学期末，简单地按几门课程考试成绩的算术平均分，将考生的学习情况排名次是不完全合理的。采用标准分能克服以上的不足2、标准分定义及各种变形体(1)标准分定义：标准分Z就是原始分数x与平均分x之差除以标准差(3-15)例：某班在考试中平均分x=87.69分，标准差S=7.04分，其中甲生得95分，乙生得88分，丙生得73分，求这些考生考试中的标准分。解：Z甲=(95-87.69)/7.04=1.04分同理：Z乙=0.04分；Z丙=-2.09分标准分是原始分数的导出分数，以平均分X为绝对零点，以标准差S为一种等值的单位，每一分之间都是等值的，因此用标准分Z来衡量学生个体在群体中的相对地位是比较合适的，标准分有以下特点（A）若Z<0，则原始分数小于平均分（B）若Z>0，则原始分数大于平均分（C）若Z=0，则原始分数等于平均分标准分及其应用（D）标准分Z每多(或少)1分，则原始分数X就比平均分X高(或少)一个标准差的分数。(2)T分数：定义为：T=10Z+50T分数是由标准分直接转换而来的。由于标准分一般在-4到+4之间，T分数就在10—90之间，比较接近百分比制。(3)标准九J(Standardnine)：定义为：J=2Z+5类似T分数，标准九J在1—9之间。(4)CEEB分数：是美国大学入学考试委员会(CollegeEntranceExaminationBoard)所采用的一种标准化分数，定义为：

CEEB分数=100Z+500CEEB分数的平均数为500，标准差是100，CEEB的范围为100—900。目前国内标准分采用这一模式，先计算出每科的标准分，再计算出每科的CEEB分数，而总分实际上是各科CEEB分数的平均数。“托福”考试，也是采用这一转换模式。3、标准分的用途及优点(1)比较不同课程的考试成绩。例：某班进行数学和语文测验，数学平均分为70，标准差为5分；语文平均分为80分，标准差为10分；某生数学得了75分，语文得了85分，问甲生哪科成绩在班上的位置较高？标准分应用实例解：Z数学=(75-70)/5=1；Z语文=(85-80)/10=0.5可见，表面上语文分高，但实际上数学成绩在班上的位置较高。(2)比较不同学生几门课程考试的总成绩的高低。(3)确定学生个体的考试成绩在群体中的相对位置。§3-4正态分布的性质、计算与应用一、正态分布的性质在教学工作中，出现于许多现象中的随机变量的取值常常会出现“两头小、中间大”的概率分布。比较典型的是大规模考试成绩的分布，往往是分布在平均分X附近的人数最多，成绩较好与成绩较差的人数较少，且离平均分越远，分布的人数就越少，成绩很好和成绩很差的人数则极少。这种概率分布就是正态分布。在数理统计中，正态分布的方程是：(3-16)式中：(x)—概率密度，--为总体标准差；--总体平均值正态分布又称为常态分布，在数学上又称为高斯分布。性质如下：正态分布曲线的性质1、曲线位于x轴的上方，即(x)0，且曲线以直线x=为轴对称，即曲线是左右对称的，在对称轴左右两侧，随着x的增大与减小，曲线无限趋于x轴。2、当x取值为平均值μ时，(x)位于曲线的单峰的最高点，即此时(x)的值最大，这表明在x=μ附近的概率密度最大；当x的取值离开平均值μ时，曲线的高度降低，即概率密度(x)减小，x距μ越远，概率密度(x)越小．３、标准差σ越小，曲线越“高瘦”，表明原始数据的差异程度越小；σ越大，曲线越“矮胖”，表明原始数据的差异程度越大。4、当标准差σ相同而平均值μ不同时，曲线的形状不变，只是随平均值μ增大(或减小)而向右(或向左平移)。5、正态分布是一种连续型的随机变量的分布函数，随机变量分布在某区间[a,b]上的概率，就是这个区间上曲线下方的面积。随机变量分布在(-∞,+∞)上的概率应为1。二、正态分布的计算在数理统计中，经常把研究对象的全体叫做总体，总体中的每一个成员叫做个体，总体中的一部分叫做样本。数理统计的中心问题是根据样本的特征来探求总体的各种统计特性，以样本的特征量数来估计总体的特征量数。正态分布曲线，就是由总体平均值μ及总体标准差σ来决定的。正态分布曲线的数学表达式为：为计算方便，教育统计中把平均数μ=0、标准差σ=1的正态分布曲线称为标准正态分布，其公式为：(3-17)标准正态分布曲线如图3-8所示。下面以样本平均值代替总体平均值，以样本标准差代替总体标准差来进行研究。频数或频率图3-8正态分布曲线0x正态分布的计算对曲线下的面积即随机变量分布在某一区域的概率可用积分方法求得，对区间(-，x)，曲线下的面积为：(3-18)对区间(X–σ，X+σ)，曲线下方的面积为：(3-19)应用拉普拉斯函数，既得：(2-20)随机变量分布在某区间[a,b]的概率，就是该区间内曲线下方曲边梯形的面积。如果事先把平均数μ=0、标准差σ=1的标准正态分布曲线下相应的曲边梯形面积制成表格，那么，只要应用这张表格，就可以计算随机变量分布在不同区间的概率了。在教育测量中，常用到考试分数，前已述及的标准分Z的概念：Z=(X–X)/σ。它恰好具有μ=0、σ=1的特点，因此在查正态分布表时，一律使用标准分Z。例：设有一批考试分数服从正态分布，平均分为X，标准差为σ，求考试分数落在区间(X–kσ，X+kσ)的概率(k为1,2,3).正态分布计算实例解：利用(3-19)式和正态分布表，考试分数落在不同区间内的概率：同理：以上计算结果可图示如下：图3-11考试分数在不同区间的概率分布以上积分如用计算机计算就更加方便了。正态分布的应用三、正态分布的应用例：某大学一年级有987人参加高等数学统考，已知这次统考成绩符合正态分布，其平均分X=65，标准差σ=15分，试求不及格率和90分以上的人数。解：首先求不及格率，即考试分数为59分及以下的概率：

Z59=（59-65）/15=-0.4分查正态分布表，有：P（-0.4）=0.3446=34.46%为不及格率再求分数为90分及以上的百分比：

Z90=（90-65）/15=1.67分查正态分布表，有：P（1.67）=0.95254=95.254%90及90分以上的百分比为：1-P（1.67）=4.75%90及90分以上人数为：987X4.75%=46.8人，约为47人。SOMUCHTODAY,THANKS§3.5原始分数的解释原始分整理前杂乱无章，考生、教师无法看出自己教与学的真实情况。如88年高考，由于数学考试分数没有能拉开档次，在北京有三分之二考生在90分以上，而同年化学题目较难，能及格的就是优秀学生了。某考生数学得89分，化学得61分，表面看数学考得不错，化学考得差。实际情况正相反。所以原始分很难对学生成绩作出客观的评价。因此必须对原始分数进行分析，给予正确的解释。一、多个参照点：非正态分布正态化处理

以上讨论了考试成绩服从正态分布的情况。若考试成绩不服从正态分布，此时最好采用频数分布表、直方图、平均分、最高分、最低分来解释。但有时为了进行比较，常把非正态分布正态化，然后按照正态分布来处理，以便确定一个等值的单位。处理步骤为：1、编制原始分数的频数分布表；2、计算每一组的频数f

；3、计算每一组上限的累计频数Cf

；4、计算至每一组中点值的累计频数Cf中点；5、将Cf

中点栏内的各数据除以考生总数N，得出C

m中点栏内的各数据；6、将C

m中点栏内的各数据看成是正态分布时的概率，反查正态分布表，由各概率求出相应的标准分Z’值，Z’值即为正态化后的标准分。将表3-4中的考试分数正态化后得表3-6表3-6非正态化转换为正态化表原始分组距组中点X’标准分Z频数f上限累计频数CfCf中点Cum中点正态化后标准分Z‘41—4543-2.41110.50.004-3.3546—5048-2.060110.009-2.3751—5553-1.7121.50.013-2.2356—6058-1.34132.50.022-2.0161—6563-0.9913169.50.085-1.3766—7068-0.631026210.188-0.8971—7573-0.271642340.304-0.5176—80780.09276955.50.496-0.0181—85830.442089790.7050.5486—90880.818107980.8751.1591—95931.165112109.50.9782.0非正态化转换为正态化图表分别用频数f对非正态标准分Z、正态化标准分Z’作直方图3-12图3-12非正态分布转换为正态分布图二、常模参考分数

常模参考分数是以常模为标准的导出分数，由原始分转换而来。常见的有标准分Z、百分等级分T等。它的主要功能是确定和比较考生个体在群体中的相对位置。常模是考生群体在考试中的总的水平，如平均分和标准差。常模参考分就是以常模作为标准参照点，在个体或部分之间进行比较的指标。如全国英语四级统考，以平均通过率作为常模来比较各高校英语的教学水平。应当注意的是：当各科考试成绩合成为总分时，一般需要加权，但仅对原始分数加权有时起不到应有的作用。比如，数学是一门重要的基础学科，在高考中应有比较大的权重。但是，1984年高考数学试题过于灵活，结果分数普遍比较低，大部分考生的数学成绩在总成绩中只占很小的比例，这就失去了加权的意义。

如果将原始分数转化为标准分，再进行加权合成就合理了。具体的步骤是：1、计算出各门课程的标准分；2、确定各门课程的权重系数；3、将各门课程标准分乘以相应权重系数后再相加，得标准总分。标准分是最常用的一种常模参考分数。三、标准参考分数标准参考分数是将个体的分数与某一特定的标准相比较而得到的一个指标，它表示个人能做什么，达到什么水准。当用某一范围内的技能掌握程度作为标准时，个人分数转换后叫做内容参考分数，如单元测验、期终考试，其目的不在于比较学生个体在群体中的相对位置，而是检查学生对本单元、本课程的教学内容掌握得如何。常用正确百分率来衡量：正确百分率=答对题目数/题目总数内容参考分数与常模参考分数是不同的，前者描述了一个人掌握了什么，而后者则表示了一个人在群体中的相对位置。注意：两者并不排斥。内容参考分数既描述了一个人掌握了什么，也可以描述相对位置；常模参考分数有时也能描述一个人掌握了什么。SOMUCHTODAY,THANKS第四章试题的分析与评价§4-1对试题进行分析与评价的必要性§4-2试题的难度一、平均得分率

二、难度系数三、极端平均得分率及极端难度系数四、难度指数

五、对试题难度的要求§4-3试题的区分度一、试题区分度的概念

二、项目效度分析三、内部一致性分析

四、对区分度偏低试题的分析与处理§4-4目标参照考试的试题分析一、教学敏感系数S

二、识别度B§4-1对试题进行分析与评价的必要性

首先，试题是组织试卷的基本单元，只有试题的质量高，才可能有高质量的试卷，考试的质量才有可能高，也就是说，高质量的试题是产生高质量的试卷和实现高质量考试的前提；其次，整体优化也是高质量试卷的一个必要条件。第二章已述及，一份高质量的试题，应当符合命题的基本要求及各种类型试题的具体要求、符合教学大纲的要求。除此而外，还应满足下面两项要求：1、难度：应当有一定难度，以便测量出学生实现教学目标、掌握所学知识和能力的程度与水平。2、区分度：应能区别出学习情况不同的学生，亦即能测量出每个学生个体学习情况的差异。就是说，一份好的试题，应具有两个共同的特性，就是具有合适的难度和较高的区分度。分析和评价试题的难度和区分度是本章的主要内容§4-2试题的难度

试题的难度(Difficut)是指试题的难易程度。试题的难度可以用平均得分率(或通过率)、难度系数、极端平均得分率、难度指数等技术指标来衡量。一、平均得分率(通过率)P

平均得分率可定义为：P=R/N(4-1)

或P=n/n0(4-2)式中，N为学生总数；R答对该试题的学生数；n0为该试题的满分；n为该群体所有学生在该试题所得到的平均分数。客观题宜用(4-1)式；主观题宜用(4-2)。事实上，式(4-2)具有更普遍的意义，应用两式计算的结果相同。二、难度系数q

平均得分率(或通过率)p可以衡量试题的难度。但是，不难看出，p与试题难度之间具有反变的关系，p值越小，试题难度越大，反之亦然。因此认为，p值表示难度不够直观。难度系数q为一个试题可能达到的最大平均得分率(或通过率)pm与实际平均得分率(或通过率)p之差：

q=pm–p(4-3)显然，此时pm=1，因此q=1-p(4-4)三、极端平均得分率(通过率)P及极端难度系数Q

平均得分率(通过率)P与难度系数都是对学生群体总体为对象

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量学基础

文档简介

温馨提示

最新文档

评论

相关文档