数学教育测量与评价课件第二章教育测量的工具与方法

上传人：h*** IP属地：山东上传时间：2026-03-09 格式：PPTX 页数：51 大小：980.37KB 积分：15 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学教育测量与评价第二版2023第二章

教育测量的工具与方法教育测量与教学评价是教学活动的重要组成部分，是在教学领域中进行科学管理的重要手段，合理地开展测量评价活动是提高教育质量的有效保证。简言之，教育测量是依据一定的理论、规则，运用一定的测量工具对教育现象进行数量化描述。教育测量工具是否性能稳定是测量工作成败的关键。本章目录CONTENTS数据整理经典测量理论项目反应理论应用实例：大规模测评中被试能力估计2.12.22.32.42.1数据整理2.1.1分数整理1.顺序排列表顺序排列是简单的整理分数的方法。它是将所有个体的成绩，按高低顺序排列，并且列于表中，称作顺序排列表。这种方法简明清晰，一眼便能看到最高分数和最低分数，而且可以大致了解个体成绩在总体中的位置。2.1数据整理2.1.1分数整理2.频数分布表频数分布表是一种反映数据分布情况的统计表。所谓频数是指一群数据在各个数值（或区间）上所出现的数据的个数，也称为次数。每一个频数除以数据的总个数称为频率，或称相对次数。2.1数据整理由频数分布表可以看出各个分数段学生数的分布规律：在（560，580]分段中有22名，占全班人数的41%；在600分以上分段仅5名，占全班人数的9%；在520分以下分段2名，占全班人数的3.7%；等等。上述这些数据为我们改进教学提供了充分的依据。2.1数据整理2.1.1分数整理3.频数直方图由频数分布表可以制作频数直方图。方法是：以分数为横轴，频数为纵轴建立直角坐标系，在横轴上标出各组分数的组中值，在纵轴上等距标出频数值；然后以组中值为底边中点，组距为底边，组频数为高作出各矩形，即得频数直方图。2.1数据整理2.1.2成绩分析1.平均分数平均分数是用得最多的一种集中量数。所谓集中量数是指反映分数集中位置这个特征的数值，它代表一批分数，反映一批分数的典型情况，因此常用它进行不同分数组之间的比较。集中量数的形式有多种，如算术平均数、中位数、众数等。算术平均数是最常用的一种。2.1数据整理2.1.2成绩分析2.方差与标准差对于一批分数，除了要了解它的集中量数外，还应了解它的差异量数，即分数的分散程度或离散程度。差异量数的形式也有多种，方差和标准差是两个最重要的差异量数。标准差是反映全体考生分数之间的离散程度和差异情况。它与平均分一起使用，决定了某次考试分数的分布情况。s值越大，表示部分考生离平均分的“差距越大”，也就是分数分布较广；s值越小，则分数分布较窄或说“集中在平均分附近”。2.1数据整理2.1.2成绩分析3.变异系数标准差较准确地反映了一组分数的离散程度，它与原数据的单位相同，是一种绝对差异量数。在进行不同组间离散程度比较时，适用于单位相同、平均数相近的情况。如果各组数据单位不同，或虽然单位相同但平均数相差甚远时，不能直接用标准差比较，这时应使用变异系数。变异系数是一组数据的标准差与平均数的百分比，用CV表示：2.1数据整理2.1.2成绩分析3.变异系数2.1数据整理2.1.2成绩分析4.标准分数（z分数）标准分数是以平均分为参照点，标准差为度量单位的分数。它具有重要理论价值和应用价值。按照转换的方式和对分布形态的影响效果，可分为两类，其中一类是不改变分布形态的标准分数：2.1数据整理2.1.2成绩分析4.标准分数（z分数）2.1数据整理2.2经典测量理论难度：是指试卷（题）的难易程度。一般用试卷（题）的得分率或答对率（P）表示，所以难度事实上是容易度。P值在0~1，数值越大，说明试卷（题）越容易。2.2.1难度2.2经典测量理论2.2.1难度1.客观性试题难度计算对于采用二分法计分的题目，难度以通过率来表示：式中，P为题目的通过率，R为答对或通过该题目的人数，N为全体考生数此时，P值越大，其难度越小；P值越小，其难度越大。因此也有人将其称为易度，而将未通过该题的人数百分比作为难度指数。2.2经典测量理论2.2.1难度2.主观试题的难度计算上式适用于论述题、问答题和计算题等非二分法计分的题目。一般情况下，测验的平均难度接近0.50时，分数趋于正态分布，否则分数分布将出现偏态。就整个测验而言，当平均难度为0.50且题目组间的相关为零的情况下，分数呈正态分布，而难度值越小，则题目越难，低分段人数必然较多。难度值越大，题目越容易，分数将大部分集中在高分区。这样，在分数的分布上，就会呈现出两种不同的偏向，前者为正偏态，后者为负偏态。2.2经典测量理论2.2.2区分度区分度是指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果是水平高的考生答对（得高分），而水平低的考生答错（得低分），它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为，区分度的数值达到了0.3，便可以接受；达到了0.3以上为好的题目；在0.4以上为优秀题目；低于0.3的题目，区分能力差。题目区分度的实质是用以鉴定一个题目有效性的指标，它的高低变化对测验的质量具有深刻的影响。与题目的难度相比，人们更关注题目的区分度的高低，并以此作为筛选和修改试题的主要依据。2.2经典测量理论2.2.2区分度1.得分率求差法将受测群体按题目得分的高低排列，取高分人数的27%为一组，他们的得分率记作

；低分人数的27%为另一组，他们的得分率记作

，用D表示区分度，则该题的区分度为：2.2经典测量理论2.2.2区分度2.得分求差法将受测群体按题目得分的高低排列，取高分人数的27%为一组，低分人数的27%为另一组，用D表示区分度，用H表示高分组得分总和，用工表示低分组得分总和，用n表示高分组（低分组）人数，

表示该题的最高得分，

表示该题的最低得分，则：2.2经典测量理论2.2.3信度信度是衡量测验分数一致性或可靠性的一个指标，即用一个或一组测验对同一被试群体施测多次，所得结果的一致性的程度，以及测验分数所反映被试真实水平（即真分数）的可靠性程度。2.2经典测量理论2.2.3信度1.分半相关将全卷中全部试题按题号或分数适当分半，得到两个平行的“子试卷”，计算这两个子试卷考生得分的相关系数，这样求得的是半个试卷的信度，然后再用Spearman-Brown公式校正，得到考试的分半信度系数。一般认为分半信度系数在0.90以上比较合适。这个方法比较适合多数为选择题的试卷。2.2经典测量理论2.2.3信度1.分半相关分半信度系数的公式为：2.2经典测量理论2.2.3信度2.内部一致性信度将通常采用的是克朗巴赫（Cronbach）的α系数公式：其中，是每个测试题目得分的方差，是整份测验总分的方差。α系数适用于一切非0.1记分和连续记分（即多重记分）的情况。它评价的是各题得分间的一致性，属于内在一致性系数。α系数值介于0与1之间，值越大的话，表示信度越高。实际应用中，α系数低于0.35属于低信度，应拒绝使用；α系数在0.5以上，可认为考试可靠；α系数在0.8以上，可认为考试的信度比较好。2.2经典测量理论例题：某一测验有6个题目，参加测验的无名学生得分如表所示2.2经典测量理论2.2.4效度效度是测验有效性或准确性的指标。由于效度分析可以针对各种要求和运用各种程序，而在特定的条件下，使用不同的分析方法可以得到不同的效度。因此，一个测验可以具有不同的效度指标。当我们讨论一个测验的效度时，只有界定了它的条件，效度才有确切的意义。2.2经典测量理论2.2.4效度1.效标关联效度测验的效标又可称为准则，是衡量测验效度的参照标准。效度的计算采用求平均区分度代替，公式为：2.2经典测量理论2.2.4效度2.内容效度测验的题目对所要测量的内容具有代表性的程度称作内容效度。它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题，主要用于学科成绩测验。内容效度一般不用数量化指标来表示，主要依靠在某种依据的基础上做出逻辑分析。为了提高测验的内容效度，首先要注意界定测验的内容范围，其次要注意系统取样。目前，大多数学科成绩测验的编制者根据教学目标的分类，先拟就测验的蓝图，将各部分内容和教学目标各层次按确定的比重表达出来，然后编制测验题，以满足提高内容效度的要求。2.2经典测量理论2.2.4效度3.结构效度指考试对理论上构造或特质的测量程度。确定结构效度需三个步骤：（1）建立理论体系（理论结构）并以此出发提出关于某一心理特征的假设；（2）设计和编制测验题，并实施；（3）用收集证据和逻辑分析的方法来验证与理论假设的相符程度。由于建立理论和提出假设的困难，操作步骤较为复杂，且没有单一的量化指标来描述有效程度，所以，在一般的考试质量分析中很少采用。2.2经典测量理论2.3项目反应理论2.3.1经典测量理论的局限性2.3项目反应理论常见的测验方式不外乎口头回答（口试）、动作展现或操（实）作、笔试等，其中又以笔试占最多数。笔试也就是测验专家所称的纸笔式测验（paper-and-penciltests），目前常见的纸笔式测验大都根据经典测量理论——真实分数（truescore）测量理论。2.3.1经典测量理论的局限性局限性：解决不了一些常见问题。例如，两位考生得分相同，是否其真实能力也一样？其实未必相同，经典测量理论就无法回答这种问题。对考试题目的评价（包括难度、区分度、猜测度等）严重依赖于被测对象，比如：样本组水平低，求出的难度值就高；样本组参差不齐，求出的区分度就高等。项目题目反应理论（ItemResponseTheory，IRT）计算机自适应测验（ComputerizedAdaptiveTesting，CAT）2.3项目反应理论2.3.1经典测量理论的局限性计算机自适应测验（CAT）：现代测验理论不仅以数学模式来校准每一个试题的难度、区分度（可以把不司能力区分出来的指标）、猜测度等，更可以用可视化的图形来表示每个试题的难度、区分度与猜测度的相对位置（称为试题特征曲线），以及每个试题用来测试考生后所反映的信息量（称为试题信息曲线）。以项目反应理论为依据，配合现代计算机的高速运算能力，CAT的实施就成为可能。CAT又称为量身定做的测验（tailoredtest）。2.3项目反应理论2.3.1经典测量理论的局限性计算机自适应测验（CAT）应用实例：在美国合法从事注册护士(RegisteredNurse,RN)工作之前，必须取得RN执照(RNLicense)。要获得RN执照必须首先申请参加并通过RN考试(美国注册护士执照考试)。从1994年4月起，RN考试从传统的纸笔方式转变为CAT方式。计算机考试与以前传统纸笔方式的考试内容基本相同，考生不需要具备专业的计算机知识。RN的题目类型包括单项选择题、多项选择题等形式，考试数目依考生临场表现而定。最少75题,最多265题。考试最长时间6小时，考试期间考试中心安排两次休息：第一次休息在开考后2小时后；第二次休息在开考后3.5小时后。考试期间考生也可自行向考试中心工作人员要求额外的休息暂停。考试时计算机每次只显示一题,每题都必须回答，否则不会显示下一题，而且已回答过的题目不能查看或修改。计算机会根据考生的答题质量来给出随后的考题。如考生回答正确，计算机将提高考题的难度；回答错误，则将降低考题难度。考试成绩是由正确答题的难度和正确率、而非正确答案的数量来决定的。因此，当计算机根据考生的答题难度与正确率，对考生水平做出判断（即合格和不合格）后，就会停止该考生的考试。若无法确定，考生就得继续答题，直至计算机可以判断考生的水平为止。当满6小时（包括考前练习及考间休息）或考生做完了265题时，考试也就结束。2.3项目反应理论2.3.2项目反应理论的数学基础基本思路：被试的某些心理特质和对于具体反应之间存在一定的关联性，而且它们之间的关系可以用数学模型的形式表达出来，心理学家们建立了不少于20种模型，如多值评分项目的单维模型和多维测验模型等。人们可以依据实际的情况选择合适的模型，目前最常用的是三参数Logistic模型：2.3项目反应理论图2.3-1，给出了四个试题的项目反应特征曲线。横轴表示能力水平0，纵轴表示相应的正确反应概率。试题1和试题2具有最大的区分度，它们对应的项目特征曲线形状比较陡峭。试题3和试题4具有较小的区分度，它们对应的项目特征曲线增长比较缓慢。试题2具有最大的b值，所以它最难；而试题3具有最小的b值，所以它最容易。试题3的猜测系数为0.2它表明了对于能力水平较低的被试而言，通过猜测而给出正确反应的概率。2.1数据整理2.3项目反应理论2.3.2项目反应理论的数学基础计算机化自适应测验：是指在以IRT理论为基础建立的题库之上，不断地根据题目的各方面信息和受测者的答题情况估计被试（受测）者的能力，然后从题库中选取符合受测者能力的题目进行测试，直到达到预定的测试精度要求，即可结束考试。下面对计算机化自适应测验进行测试的各个环节加以详细描述。2.3项目反应理论选择模型首先应选择适应的项目反应理论模型，如常用的三参数Logistic模型。在此模型的基础上，建立题库中题目的规格标准。题目的开发开发应按题库命题的规格标准进行，应注重不同知识内容与能力层次、不同难度和不同题型的结合，对开发的试题应组织审查，确保题目的质量。题目参数的确定这主要是对题目项目反应理论各参数值的确定。题库维护基于项目反应理论的题库由于其理论具有参数不变性等优点，题库的扩充比较容易。（1）建立题库2.3项目反应理论2.3.2项目反应理论的数学基础（2）参数初始化是指受测者在正式进行测试之前，对受测者的能力值进行初步的估计，一般采用中等难度的试题，即假定受测者的能力为中等，在题库中随机抽取难度为中等的题目，作为测试的开始点。2.3项目反应理论2.3.2项目反应理论的数学基础（3）能力估计能力估计常用的方法是最大似然法，其中最常用为边际最大似然估计法（MMLE）。设n道题目N个被试者的反应矩阵为：2.3项目反应理论2.3.2项目反应理论的数学基础（4）选择项目计算机自适应测验利用IRT题库中的项目的最大信息函数来确定所选择的题目。对于常用的三参数Logistic模型而言，项目信息函数（Fisher

信息函数）可表示为：2.3项目反应理论2.3.2项目反应理论的数学基础（5）终止条件通常以达到测试的最大容量作为测试的终止条件。另外，还可以以能力估计值达到预定的精度要求作为终止条件，即当受测者的能力估计值逐渐稳定下来时，便可以结束测试。2.3项目反应理论2.3.3项目反应理论的数学基础1.GREGRE是GraduateRecordExamination的缩写，即美国研究生人学考试资格考试。由美国著名的教育测试和评估机构一一美国教育测试服务中心(ETS)主办，在我国的承办单位是中国国外考试协调处。2.3项目反应理论2.3.3计算机自适应测验的应用2.TOEFLTOEFL是TestofEnglishasaForeignLanguage的缩写，1965年开始由美国“教育测试服务中心”(ETS)承办此项考试管理工作，旨在确定非英语国家的学生赴美国、加拿

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学教育测量与评价课件第二章教育测量的工具与方法

文档简介

温馨提示

最新文档

评论

数学教育测量与评价 课件 第二章 教育测量的工具与方法

文档简介

温馨提示

最新文档

评论

相关文档

数学教育测量与评价课件第二章教育测量的工具与方法