教育测量与评价全套

上传人：键*** IP属地：上海上传时间：2023-04-11 格式：PPTX 页数：529 大小：8.91MB 积分：20 举报 版权申诉

已阅读5页，还剩524页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

教育测量与评价全套第1页/共529页本章内容教育测量与评价的概念与内涵教育测量与评价的发展历史教育测量与评价的学科地位和作用第2页/共529页一、概念与内涵测量与教育测量测量的含义：根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。测量的要素量具测量单位参照点第3页/共529页（4）特点：间接性和推断性测量对象的模糊性和测量误差的不可避免性量表具有多样性，结果具有相对抽象性第4页/共529页教育测量（1）概念：针对学校教育影响下学生各方面的发展，侧重从量的规定性予以确定和描述的过程。（2）目的：了解学生的发展，关注学校（教师）的教学效果。（3）对象：知识，技能？道德、情感、态度、价值观、兴趣、思维能力、实践能力、创造能力……

教育测量是精神特性的测量，涉及学生德育、智育、体育、美育、劳动技能及个性、心理素质等许多方面第5页/共529页评价（evaluation）与教育评价评价（1）衡量、判断人物或事物的价值；（2）一种划定、获取和提供叙述性和判断性信息的过程；（3）对某些现象的价值如优缺点的系统调查，是为教育政策提供依据的过程；（4）评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程；（5）评价最重要的意图不是为了证明，而是为了改进。第6页/共529页布卢姆的《教育评价》（1）评价是系统收集证据用以确定学习者实际上是否发生了某些变化，确定学生个体变化的数量或程度。（2）评价是为了某个目的而进行的，对各种想法、作品、解答、方法、资料等的价值作出判断的活动。第7页/共529页教育评价概念：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。第8页/共529页

内涵：（1）强调以教育目标为标准的价值判断过程；（2）强调用多种方法（测量和非测量）系统收集资料与信息；（3）教育评价的内容多元（包括教育计划、课程、学生的学习结果、教学活动等）；（4）强调为学生发展和教育决策服务；（5）不同时期，不同学者提出教育评价的侧重点有所不同。第9页/共529页拓展与练习讨论1：教育测量与教育评价的区别?

评价=测量（定量描述）+非测量（定性描述）+价值判断讨论2：教育测量与教育评价有何联系？

教育测量是教育评价的基础，教育评价往往是教育测量的延续；部分教育测量本身含有价值判断（e.g.高分=优秀的学生=高素质）第10页/共529页教育评价（educationalevaluation）与教育评估（educationalassessment）教育评价教育评估想一想：图中”重叠部分”与“非重叠部分”各代表什么？第11页/共529页测验（test）与考试（examination）测验：测量的工具，能引起人的有代表性的行为，以便对人的行为特性或心理特性进行测量与评价；考试：广义上，泛指人类社会一切测度和甄别人的身心各方面之群体或个体差异的活动；狭义上，由主试根据一定社会的要求，在一定场所，采取一定的方式方法，选择适当的内容，对应试者的德、学、才、识、体诸方面所进行的有组织、有目的的测度或甄别的活动。第12页/共529页二、发展历史（一）我国考试制度的演变西周：考试制度初见端倪“古之教者，家有塾，党有庠，术有序，国有学。比年入学，中年考核，……”两汉时期：考试制度正式确立（察举制）隋唐时期：科举制度的确立与发展清末民初：现代学制下的考试制度变革第13页/共529页（二）教育测量学科的诞生桑代克：《精神与社会测量导论》（1904）第14页/共529页（三）教育测量运动的蓬勃开展与反思时间发展背景或主题具体进展20世纪初—20世纪30年代心理测验、智力研究的兴起法国比纳等人发表“标准化智力测验”；英国当局利用“智力测验和标准化测验”，形成11岁考试制度；美国标准化人格测试的问世与应用20世纪30年代—20世纪40年代教育评价（”八年研究“）除了采用传统的教育测验外，还用问卷、观察、交谈、轶事记录、作品分析、表演、操作、写作等测量和非测量的方法对课程的效果和学生的行为变化进行测量和评价。第15页/共529页（四）教育测量与评价理论的发展测量的统计模型为教育测量的学科发展提供了强有力的理论支撑教育目标分类学促进教育测量与教育评价的学科整合教育评价学科内容的发展第16页/共529页三、学科地位和作用教育测量与评价的学科地位教育测量与评价是教育测量学与教育评价学内容的整合并侧重于教育测量的一门综合性教育课程是一个兼容了教育统计、教育测量、心理测量、教育评价、教育评估、教育督导和教育科学研究方法等在内的学科群教育测量与评价科学研究、教育基本理论研究和教育发展理论研究成为现代科学研究的三大领域第17页/共529页教育测量与评价的学科发展——以美国为例创办了大量有关教育测量与评价方面的杂志：《教育测量研究》、《教育测量评论》、《评价研究》、《教育评价与政策分析》等；出版了大量有关教育测量与评价方面的学术著作与教科书：《教育测量》、《心理测量》、《心理与教育测量年鉴》、《教育评价》等；成立了若干专业协会，如“全国教育测量委员会”、“全国教育进展评估中心”、“全国教育评价联合会”等第18页/共529页教育测量与评价在教育改革中的作用教育改革常以教育测量与评价的改革作为突破口考试与评价改革成为基础教育改革的重要内容教育测量与评价是教师的专业素养和能力正确评价学生的发展是教师职业能力的重要组成部分国外教师教育普遍开设“教育测量与评价”类课程第19页/共529页—完—第20页/共529页量表（scale）：确定了测量单位与参照点并具有取值系统的测量工具

类型用途称名量表（nominalscale)分类顺序量表（ordinalscale）分类+相同的测量单位等距量表（intervalscale）分类+相同的测量单位+相对零点比率量表（ratioscale）分类+相同的测量单位+绝对零点第21页/共529页布卢姆的目标分类图第22页/共529页第二章教育测量与评价的类型和功能第23页/共529页格朗兰德等著.教学测量与评价第24页/共529页分类第25页/共529页类型目的或作用时机形成性测量与评价获得有关“教与学”的连续性反馈教学过程中诊断性测量与评价对个人的问题行为及其原因进行诊断教学过程中（在形成性评价之后）终结性测量与评价检查学业达标程度，评定学业成就教学结束后一、按运用的时机分类第26页/共529页二、按参照点分类常模参照测量与评价：将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测量与评价类型；标准参照测量与评价：将被试的表现与既定的教育目标或行为标准相比较，以评价被试在多大程度上达到该标准；潜力参照测量与评价：将被试实际水平与自身潜在的水平（潜力）相比较，以评价被试有无充分发挥自身潜力为目的。第27页/共529页我们当前的期末考试属于什么类型的测量与评价？这样的评价在素质教育背景下，有存在的必要吗？为什么？第28页/共529页三、按被试行为表现的性质分类最佳行为测量与评价：以成就或能力高低作为评价基础；典型行为测量与评价：以某种（或某些）典型行为为评价基础。第29页/共529页四、按内容分类智力测量与评价能力倾向测量与评价一般能力特殊能力：音乐能力倾向，机械能力倾向……成就测量与评价学科成就测验综合成就测验人格（个性）测量与评价气质、性格、兴趣、态度、动机……第30页/共529页五、其它分类按测量对象个别测量与评价团体测量与评价按测量材料文字测验非文字测验按量具的标准化程度标准化测验非标准化测验第31页/共529页功能第32页/共529页一、实现教育判断的功能测量评定事实判断价值判断问题诊断区分选拔第33页/共529页二、改进教师教学的功能了解学生的起点行为作为改进教学的参考作为补救教与学的依据确保教学目标的达到第34页/共529页学校教师自编课堂成就测验发挥了哪些功能？哪些功能没有发挥？如何更好地发挥这些功能？第35页/共529页三、促进学生学习的功能明确学习目标，增加学习动力了解自我，调整学习计划思考：当下的考试有没有令学生主动诊断不足，增强学习动力，调整学习计划？第36页/共529页四、行使教育管理的功能对教育目标和质量的管理对教育过程的管理对学校的管理对教师的管理对学生的管理第37页/共529页“评价的主要目的是改进学习和教学，所以评价结果的其它用途，都是第二位或补充性的”。——格朗兰德第38页/共529页第三章教育测量与评价的质量特性第39页/共529页教育测量的质量特性衡量教育测量的质量，可采用四个指标：信度

主要对整个测验而言。效度难度

主要对测验项目而言。区分度第40页/共529页第一节教育测量与评价的信度第41页/共529页一、信度的意义信度（reliabity）测量结果的可信程度和稳定性程度记为rxx第42页/共529页二、信度的统计定义X=T+E观察分数真分数测量误差第一，信度是观察分数与真分数相差的程度；E=X-T第43页/共529页例：试比较以下两次测量结果（只进行一次）的信度。

用尺子量100cm高的一个儿童，得到1cm的绝对误差；量185cm高的一位运动员，也得得到1cm的绝对误差。要比较两种测量结果的信度，一定要看测量误差（E）对于真分数（T）所占的百分数是多少。这个百分数表示该观察分数（X）的相对误差。

相对误差＝E/T×100%第44页/共529页

把上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：

相对误差（甲）＝1/100×100%＝1%

相对误差（乙）＝1/185×100%＝0.54%据此，度量乙的信度要比度量甲的信度高。最大绝对误差＝E/X×100%

第45页/共529页怎样估计对一组人或一个人测量多次的实测值与真值（真分数）的差异程度呢？判别两组数据谁好谁差,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响，可借鉴研究加权平均数的方法，选用各个偏差的平方的平均数，来描述一组数据偏离其平均数的大小，这就是方差。根据假设，观察分数的方差应等于真分数的方差加上测量误差的方差。即：第46页/共529页第二，信度是一个被测团体的真分数方差与观察分数方差之比：即测验的信度一般在0和1之间取值，rxx越接近1，考试的信度越高。第47页/共529页第三，信度是一个被试团体的真分数与观察分数的相关系数的平方，即：第四，信度是一个被试团体在测验X（A卷）上的观察分数与在测验X的任意一个“平行测验”（B卷）上的观察分数的相关系数。即：

第48页/共529页三、信度的估计方法重测信度（test-retestreliability)又称稳定性系数，指用同一个量表（测验或评价表）对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数；相关系数可以用不同方法计算，这取决于数据的性质。最为普遍的是皮尔逊积差相关系数：第49页/共529页例1：在政治科目考试后一周，随机抽取10名学生进行重测，其先后两次考试成绩如表3-1中的Xi栏和Yi栏中的数据所示，试求该政治科目考试的一个重测信度。第50页/共529页第51页/共529页通过计算可知：

把上述数据代入下列公式，可得

第52页/共529页采用重测法计算稳定系数，需注意：两次测验之间的时间间隔要适宜，尽可能在较短的时距内进行；两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同；确定两测验是否等值，还要考察两次测绘结果的平均数与标准差；重测法适用于速度测验（运动技能）而不适用于难度测验；测试应注意提高被试者的积极性。第53页/共529页复本信度（alternate-formsreliability)又称为平行测验（equivalentformstest,parallelformstest)。指在试题格式、难度、指导语说明、施测要求等方面都相当，并且都用来测量相同潜在特质或属性，但试题又是不相同的测验。等值性系数（coefficientofequivalence)：在同一时间连续施测，反映测验内容造成的误差是多少；等值稳定性系数（coefficientofstabilityandequivalence)：不仅反映出测验内容的抽样误差，而且也反映了被试本身状况的改变。第54页/共529页例：以A、B两型英语复本测验对初中三年级10个学生施测，为避免由测验施测顺序所造成的误差，其中5个学生先做A型测验，休息15分钟后，再做B型测验；而另5个学生先做B型测验，休息15分钟后，再做A型测验。10个学生A型测验结果记为X，B型测验结果记为Y，其测验的复本信度如何？学生序号12345678910X19191817161515141312Y20171818171513151212第55页/共529页复本信度的优点：测验的两个复本，如果在不同的时间使用，其信度既可以反映在不同时间的稳定性，又可以反映对于不同测题的一致性；两个复本在同时使用时，可以避免再测信息的一些缺点，如首测时再测在记忆、练习、效果的影响，间隔期间获得新知识的影响，两次施测的环境不同和被试主观状态不同的影响，以及为了应付测验所作训练的影响等。第56页/共529页复本信度的缺点：编制两个完全相等的测验是很困难的，如果两个复本过分相似，则变成再测形式，而过分不相似，又使等值的条件不存在；两个复本测验有可能在某种程度上测量了不同的性质，这就会低估测验的信度；被试同时接受性质相似的两个测验，可能减少完成测验的积极性；虽然两个复本测验的题目材料不同，但被试一旦掌握了解题的某一模式，就能触类旁通，有可能失去复本的意义。第57页/共529页同质性信度（homogeneityreliability)又称为内部一致性信度（internalconsistencyreliability)，指测验内部所有题目间的一致性程度。所有题目测的是同一种心理特质；所有题目得分之间具有较高的正相关第58页/共529页1.分半信度（split-halfreliability)将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。通常是以题目的奇数为一组，偶数为一组，计算两级的相关系数，最后用斯皮尔曼－布朗公式校正，求得整个测验的信度系数。第59页/共529页例：一个测验向15名被试施测，被试在奇偶分半测验上的得分如下表，计算该测验的分半信度系数。第60页/共529页思考：为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正？测验的长度（指量表中所包含的题目数）对信度的大小有一定的影响，测验越长，信度越高。用分半法，实际上等于把整个测验长度减小了一半，所以按分成两半的资料求出的信度必然低于整个测验的信度。第61页/共529页斯皮尔曼-布朗公式的基本假设：两个半测验的变异数必须相等（方差齐性）

若不能满足上述假设，选择下述两个等价的公式之一：（1）佛朗那根（Flanagan)公式

（2）卢仑（Rulon)公式第62页/共529页2.库德—理查逊信度（Kuder&Richardsonreliability)适合于测验题目全部为二分记分题（dichotomouslyscoring)的测验和内部一致性信度分析常用的有KR20和KR21第63页/共529页(1)KR20的用法这个公式以每题能正确回答的人数占总人数的百分数为基础计算（每题只有通过或未通过两种分数）测验信度题目数测验总分的方差答对人数答错人数第64页/共529页例:10名被试在一个测验上的得分情况如表3-3所示（答对1分，答错0分），试估计被试反应的一致性程度。第65页/共529页解：1）列出得分矩阵，计算有关统计量：

这个测验的信度系数较低，说明内容一致性差，量表中的题目并非都可以测量相同的特性，即题目的同质性差或难度悬殊较大。第66页/共529页（2）KR21的用法以各应试者总分的平均数和方差为基础，无需各题的难度信息。采用表3-3的数据资料被试测验总分平均数第67页/共529页（3）克龙巴赫α系数当测验题型较多，并非都是二分记分题时，可用α系数第68页/共529页例：用一个包含6个论文式试题的测验，对5个被试施测，其结果如表3-4所示，求该测验的信度。第69页/共529页第70页/共529页四、标准参照测验的信度分析百分比一致性指标（percentageagreement，简称PA)同一测验或平行测验先后两次施测，其对被试的分类结果一致的比例。计算方法如表3-5第71页/共529页k一致性系数(kappacoefficientofagreement)实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。PA为百分比一致性指标；Pc为理论上可能被评定为一致的百分比期望值由3-5的数据可求得：第72页/共529页五、测量标准误与测验信度的关系测量标准误是指测验中所得测值偏离真分数的程度，记为SE。测量标准误是反映测量结果精确性和可靠性的又一指标可合理地解释被试所得分数的误差范围

第73页/共529页六、评分者信度评分者信度（scorerreliability)指多个评分者给同一批人的答卷进行评分的一致性程度。当评分者人数为两人时，可用斯皮尔曼等级相关的公式计算；当评分者人数多于两人时，可用肯德尔和谐系数（Kendallcoefficientofconcordance)第74页/共529页肯德尔和谐系数（W）S为每一个评价对象的K个等级之和的离均差平方和第75页/共529页例：10个评委对7名参赛选手所评等级如表3-6所示，请问这10位评委的评分是否具有一致性。第76页/共529页分析：从W=0.827来看，10人的评价较为一致。严格地讲，W值是否达到显著性水平，需要做统计假设检验。当K等于3∽20，N等于3∽7时，可根据K和N查“W显著性检验时S的临界值表”进行检验。（见书附表1）解第77页/共529页七、提高测验信度的方法适当增加测验题目的数量需注意：1.新增加测验题与原有的测验题应有相同的统计性质，即应有相同的平均难度和相同的组间相关。2.加大测验长度应当不影响被试者回答问题的方法。测验的难度要适中测量的内容尽量同质测验的时间要充分测验的程序应统一评分要客观化，减少评分误差第78页/共529页教育测量与评价的质量特性第二节效度第79页/共529页一、效度的意义效度（validity)，是指一个测验或量表实际能测出其所要测量的特性的程度。效度是一个相对概念效度始终是针对一定测量目的而言的效度是针对测量结果而言的效度只有程度上的差异评价一个测量是否有效要多角度、多方面的收集证据第80页/共529页二、效度的统计定义X=T+EV+IV:目标真分数，反映被试某种心理特质真正水平的数值；I:非目标真分数，被试在某种心理特质测量表上表现的与测量目标无关的稳定测值测量效度实质上就是指一次测量出目标真分数的程度第81页/共529页效度是目标真分数方差与观察分数方差之比第82页/共529页思考：从统计学定义看，效度和信度有什么关系？根据分析，可知：1.高信度是高效度的必要条件，而非充分条件；2.效度系数不会大于信度系数的平方根第83页/共529页三、效度的估计效度估计是多方寻找证据来证明一个测验的有效性程度的过程。内容效度结构效度效标关联效度结果效度第84页/共529页内容效度（contentvalidity）含义：又称合理效度或逻辑效度，是测验题目样本对于应测内容与行为领域的代表性程度。应用范围：教育测量（尤其是学业成就测验）；某些用于选拔和分类的职业测验注意：不适用于能力倾向和人格测验第85页/共529页分析方法逻辑分析的方法。请有关专家对测验题目与原定内容范围的吻合程度作出判断。统计分析法。从同一个教学内容总体中抽取两套独立的平行测验，用这两个测验来测同一批被试，求其相关。若相关高，表明测验内容效度较高；若相关低，表示测验的内容效度较低。第86页/共529页结构效度（constructvalidity)结构:心理学或社会学上的一种理论构想或特质。如智力、焦虑、机械能力倾向、成就、动机等。结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于从心理学或社会学的理论观点就测验的结果加以解释和探讨。结构效度主要用于智力测验、人格测验等一些心理测验方面。第87页/共529页验证步骤第一，提出有关理论结构的说明，并据此设计测量用的试题；第二，提出可以验证该理论结构存在的假设说明；第三，采用各种方法收集实际的资料，以验证第二步提出的假设的正确性；第四，收集其他类型的辅助证据，淘汰与理论结构相反的试题，或是修正理论，并重复第二和第三步，直到上述的假设得到验证。第88页/共529页验证方法测验内部寻找证据法内容效度作答过程分析测验的同质性因素分析法考察测验的实证效度法差异被试比较法先后测试分析法第89页/共529页效标关联效度

（criterion-relatedvalidity)效标：足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量。它是用来检验测验效度的外在的、客观的标准和尺度。效标关联：又称为经验效度或统计效度，一个测验对处于特定情境中的个体行为进行预测时的有效性。效标关联可分为同时效度和预测效度第90页/共529页估计方法相关法积差相关等级相关点双列相关二列相关四分相关……显著差异法根据效标测量将被试分为两个极端组（如好与坏，成功与失败等），然后检验这两组测验分数是否具有统计学上的差异显著性第91页/共529页用积差相关系数的方法估计效度

积差相关，是计算两个变量线性相关的一种方法，由英国统计学家皮尔逊提出，因此也称为皮尔逊(Pearson)相关。要使用积差相关必须同时具备如下几个条件：①两个变量都是由测量获得的连续性数据，即等距或等比数据。②两个变量的总体都呈正态分布，或接近正态分布，至少是单峰对称分布，当然样本并不一定要正态。③必须是成对的数据，而且每对数据之间是相互独立的，即各自互不影响，本条件是难以检验的。④两个变量之间呈线性关系。一般用描绘散点图的方式来观察，最好是先各自转化为Z分数，单位会统一些。第92页/共529页例：某中学数学教研组的教师积多年的教学法经验，认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。为了证明这个论点，他们让刚入高中的103名学生作10道题，测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分，试卷暂不评阅。立体几何学完后，进行考试，按得分多少把成绩分为五等（A、B、C、D、E）分别得5、4、3、2、1分。这时才评阅入学时的试卷，统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数（见表2-1）。就现有资料，用什么方法可以判断教师们的意见是否正确？第93页/共529页表2-1：（答对的题数）12345678910所评的等级ABCDE543211310542168843124598311321111211第94页/共529页解：（1）设期末考试的等第为y，空间想像力测验答对的题数为x，列出二重交叉次数分布表：X（答对的题数）12345678910Y所评的等级ABCDE543211310542168843124598311132111121125313296合计241014202017952103第95页/共529页（2）用积差相关系数公式计算效度系数：第96页/共529页第97页/共529页第98页/共529页结果效度关注测量工具与测验结果的推论与应用（“推论的适切、意义与有用的程度”）；避免过分依赖量化结果，应适切考虑质的分析；内容效度或结构效度很好，结果效度不一定好。第99页/共529页验证时应注意：测验指导手册中对测验目标和测验效度的说明是否合理；基于测验结果，在给被试写出测验报告或推荐书时，有关推论是否恰如其分；对测验的优点和缺点是否在应用中过于夸大其实；能否把测验用到所测特性的范围之外；基于测验结果的解释和推论是否符合科学原理以及测验道德；测验结果能否给被试以及所有关注测验结果的使用者提供有益的帮助第100页/共529页四、提高效度的方法控制系统误差精心编制量表妥善组织测验扩充样本的容量和代表性合理处理信度和效度的关系适当增加测验的长度第101页/共529页教育测量与评价的质量特性第三节难度与区分度第102页/共529页一、难度与难度系数的计算概念难度：被试完成题目或项目任务时遇到的困难程度难度系数：定量刻画被试作答一个题目所遇到的困难程度的量数，叫做题目的难度系数，也常称为难度值，用符号P表示第103页/共529页计算方法二值记分题的难度值计算答对该题目的人数被试人数第104页/共529页多值记分题的难度值计算某题的平均得分该题的满分第105页/共529页练习题1：在100个学生中，答对第一题的30人，答对第二题的60人，求第一、二道题的难度？比较这两道题谁比谁难？题2：某道论述题满分12分，所有考生在这道题上的平均得分为3.6分，求该题的难度？题3：语文测验第五题最高得分为12分，这道题考生的平均得分是8.5分，求该题难度？题4：60人参加考试，某题满分为12分，正确得分累积是480分，求该题难度？第106页/共529页难度值的其他计算方法（1）以全体被试失分率为难度系数（2）以两端组被试得分率的均值为难度系数第107页/共529页练习题5：某区域1000人参加考试，试卷第一题高分组180人答对，低分组60人答对，求该题难度？如果该题满分为10分，高分组得分总数为2100分，低分组得分总数为830分，求该题难度？第108页/共529页二、难度指标的等距变换运用标准分数（Z分数）作为题目难度的指标第109页/共529页例：某校学生在一次测验中，第一题的答对率为15%，第二题的答对率为25%，第三题的答对率为35%，假定这三题所测量的能力近似正态分布，问第一、第二、第三题的难度差异怎么样？第110页/共529页值越大，表示试题越难；值越小，表示试题难度越容易第111页/共529页三、测验题目的恰当难度和恰当难度的分布测验题目难度水平的确定测验题目难度水平的适当与否，取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时，即被试在该题上全部答对或全部答错，则该题无法提供个体的信息。而只当P值接近于0.50时，题目才能把被试做最大的程度的区分。但在实际工作中，若每一题的难度值均为0.50，那么此测验很可能只能区分出好与差两种极端被试的差异，却不能对各种被试作更精确的区分。因此，一般各题的难度可在0.50+20之间。第112页/共529页测验难度对分数分布的影响测验难度影响分数的分布形态。难度值越接近0，测验的难度就越大，测验分数就越是集中在低分端，其分数分布越呈现正偏态；反之，难度值越接近1.00，其难度就越小，测验分数越集中在高分端，分数分布呈负偏态。测验难度影响测验分数的离散程度。测验难度过大过小，都会造成测验分数偏离正态分布，从而使分数的全距缩小，使测验分数的离散程度变小。测验难度影响测验的鉴别能力。在测验中，考生之间相互配对比较的可能性越多，就越有利于准确地鉴别考生的不同能力。第113页/共529页难度的影响因素及其控制主要因素：考察知识点的多少；考察能力的复杂程度或层次的高低；考生对题目的熟悉态度；命题的技巧。难度控制：正确估计考生水平；弄清弄懂各知识点；掌握命题技巧。第114页/共529页第四节教育测量与评价中题目

（项目）的区分度

第115页/共529页一、区分度的意义题目区分度（Discrimination)就是题目区别被试水平能力的量度，常记为D。又叫鉴别力，它是评价试题质量，筛选试题的主要指标与依据；区分度的取值范围介于-1.00—+1.00之间，值越大，区分度效果越佳；区分度D>0为正区分，D<0为负区分，D=0为零区分。区分度的高低直接影响到测验的信度和效度。第116页/共529页思考：区分度与信度、难度有什么关系？

假定试题的难度均为0.5区分度信度0.12250.160.200.300.400.500.000.420.630.840.9150.949要达到理想的测验信度，提高区分度是一个好办法第117页/共529页难度区分度的最大值1.00.90.70.50.30.10.00.00.20.601.00.60.2000难度适中，可使区分度达到最大值第118页/共529页二、区分度的计算相关法点双列相关系数通过该项目的被试的平均总分未通过该项目的被试的平均总分全体被试总分的标准差未通过该项目的被试人数占总人数的百分比通过该项目的被试人数占总人数的百分比第119页/共529页例.某班15名学生参加一次测验的总分及第一题的得分情况如表3-10所示，计算第一题的区分度第120页/共529页解需进行显著性检验，才能确定其是否具有显著性意义（1）对点双列相关公式中的和进行差异显著性检验，若差异显著，表明显著；（2）采用积差相关系数显著性检验的方法进行检验；（3）如果样本量较大（n>50)，也可用下面近似方法：，认为在0.05水平上显著；

，认为在0.01水平上显著。

第121页/共529页二列相关系数适用于两个变量都是正态连续变量，但其中一个变量因为某种原因被人为地分为两类。正态分布下百分比p与q分割点所在位置的曲线高度第122页/共529页解：p=0.5333,查正态分布表，得Y=0.3975,于是：二列相关系数的显著性检验可用下列公式进行：被试总人数因为Z=1.79<Z0.05=1.96,未达到显著性水平，所以该题的区分度值得怀疑第123页/共529页积差相关系数对于非二分法记分的题目，因得分具有连续性，在被试团体较大时，可用认为题目分数服从正态分布全体被试在某题目上得分的标准差全体被试总分的标准差被试总分减去某题目得分而获得的一个新变量（D=X-Y)的方差第124页/共529页例：有一测验向8名学生施测，其中两个题目的题分和测验总分如表3-11所示，请计算这两题的区分度。第125页/共529页解积差相关系数的显著性检验方法（1）当样本容量n>50时，采用正态分布检验；（2）当样本容量n<50时，采用t分布检验；（3）直接查“积差相关系数(r)显著性临界值表第126页/共529页高低分组法高分组、低分组人数比例各占总人数的27%D代表项目鉴别度指数；PH、PL分别表示高分组和低分组在该题目上的得分率该题目的满分值第127页/共529页D值是鉴别题目测量有效性的指标，D值越高，题目越是有效；适用于各种题分情况；美国测验专家艾贝尔根据长期经验提出了用鉴别指数评价题目性能的标准第128页/共529页第五节教育测量与评价方案的可用性第129页/共529页一、科学性、公平性和可行性科学性：测评的结果能准确地反映被测对象的真实情况，达到测量的目的，即测量要有较高的信度和效度公平性：测量与评价方案对于任何一位被测量或评价的对象而言，有相同的机会获得好的成绩。可行性：测量与评价方案的制订符合实际，并能被人们所理解和接受。第130页/共529页二、针对性、区分性和简洁性针对性（目标与目的）区分性避免“社会认可效应”例：“你是否觉得自己很难与孩子交流思想和感情”“许多家长说，他们觉得自己很难与孩子交流思想和感情，你认为这种情况是否真的存在？”简洁性

例：“您班幼儿中，年龄较小者往往缺乏自信，而且动作能力低下吗？”“您是否反对在非学习日，包括周末和假日，不实行按时熄灯的规定？”第131页/共529页第四章编制教育测验的一般原理与方法第132页/共529页第一节测验题目类型与测量功能第133页/共529页一、客观性试题的特点及其编写技巧选择题匹配题供答题第134页/共529页选择题1.结构：“题干”+“选项”2.优点可以用来测量学生各种不同层次的学习结果，应用广泛；评分标准统一、客观，不受评分人主观因素和答卷人提出的意料之外的答案等影响，可利用电脑迅速评卷；可以加大试题容量，抽取广泛有效的代表性样本，使试题覆盖的知识范围广有利于考查被试思维的敏捷性和准确的判断力；采用大量的似真选择项使结果易于诊断第135页/共529页3.缺点编制良好的选择题较花费时间，且要有专门的命题技巧难以考核被试完全的推理能力、综合运用所学知识的能力、有效的总结能力、严密的表述能力和写作能力，对被试的发散思维能力则更是如此；无法测量被试的思维（解题）过程；被试能仅凭猜测而选中正确答案，对考试的信度有一定的影响第136页/共529页4.类型（1）辨识选择（2）阅读选择（3）最佳选择（4）图解选择（5）归类选择（6）承接选择（7）排序选择（8）填空选择第137页/共529页5.编写原则（1）题干意义完整并能表达一个确定的问题例：比较下面两题，哪一题“题干”较为合适？1.

一个命题双向细目表2.当拟订一个成就测验的编制计划时，使用细目表的主要目标是指出一个测验如何用来促进学习可提供一个更平衡的内容取样须依据教学目标重要的顺序来排列确定一个所使用的计分方法减少所需的时间改进内容的取样使试题编制更容易增强测验的客观性第138页/共529页

（2）题干简明

例：“当缺乏与中心观念有关联的似真但非正确的选项时，则在编制下述哪一类型的试题时会遇到困难？”

“编制哪类试题时，如果缺乏似真而非正确的选项时，会遇到最大的困难？A.简答题B.是非题C.选择题D.论述题第139页/共529页

(3)题干不要滥用否定结构，要尽可能地采用正面陈述

例：在耳的下列结构中，哪种与听力无关？

在耳的下列结构中，哪种有助于保持平衡？A.鼓膜B.卵形窗C.半规管D.耳蜗

(4)诱答项应具有似真性

例：在下列元素中，那一种元素存在于蛋白质中，而不存在于碳水化合物或脂肪中？A.二氧化碳B.氧C.水D.氮

第140页/共529页增加干扰选项似真性的具体方法有：使用学生共同的错误观念或过失来作为诱答项。以学生惯用的模糊性用语叙述诱答项。在正确选项和诱答项中使用同样的“精确的”、“重要的”等堂皇的用语来描述。诱答项长度和措辞的复杂性与正确性选项相似。在诱答项中使用额外的线索。如固定的用词，具有科学味道的答案，以及和题干有语义上的联系等。保持选项之间的同质性。第141页/共529页（5）不能对正确答案有任何暗示

避免：语法结构上的不一致、各选项在逻辑上不同、答案的长度有明显差异、各题正确答案在选项中有一定的规律等（6）同一测验中，每一个测验试题之间应相互独立，避免牵连

（7）选项的文字表述力求简短精练

（8）应尽量避免“以上皆是”“以上皆非”的选项第142页/共529页是非题（二项选择题）

这类题通常用于测量被试对基本概念、性质、原理、原则的认识和判断区别事实与观点、认识事物因果关系，以及一些简单的逻辑推理能力1.优点编制容易，可适用于各种教材记分客观，取样广泛2.缺点仅能测量知识层次中最基本的结果，而无法测量高层次的学习结果受猜测因素的影响很大第143页/共529页3.编写原则（1）考核的内容应是重要的知识，应有考核价值；（2）题目应多时测量理解能力，而不应测验记忆性的知识；（3）一个题目中只能有一个中心问题，或一个重要概念；（4）试题应做到是非界限分明，用词准确，避免模棱两可的语句；（5）题目陈述应简单明了，避免使用复杂的句子结构；尽量采用正面叙述，避免用否定和双重否定的语句；（6）正句和误句的排列要随机化，且数量应大致相等。第144页/共529页填空题填空题可用来考查被试对知识的记忆和理解能力，在诊断性测验中特别适用。1.优点受被试猜测的影响小，评分比较客观；2.缺点填空题偏重于测量被试的知识记忆程度，使用过多容易养成被试死记硬背的习惯。第145页/共529页3.编制原则（1）题意要明确，限定要严密，空白处应填的答案是唯一的；

例：只有

，才能在考试中获得好成绩

（2）空白处所填写的应是关键词语，并且要和上下文有密切的关系，使被试不至于填写困难。

例：1996年我国科技界有

新发明。第146页/共529页（3）题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意。

例：连接

市与

的是

河（4）尽量将空白放在句子的后面或中间，而不要放在句子开头。

例：

发明了蒸汽机第147页/共529页（5）所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用。（6）若答案是数字，应指明单位和数字的精确程度。第148页/共529页简答题

较适合于测量被试被基本知识、概念和原理的掌握、记忆情况。1.优点编制较为简单、灵活；增加知识考核的准确度和深度；不受猜测因素的影响2.缺点无法用来考核综合、分析、评价等高层次的教学目标；评分不够客观第149页/共529页3.类型（1）简释题（名词解释）（2）直接问答题（3）列举题（4）扼要说明题第150页/共529页4.编制原则（1）问题的叙述要明确，要确实能使被试用简单的语言来回答；（2）问题的答案应该只有一个，并且答案要简短具体；（3）避免出只考机械记忆的题，应注重知识的应用；（4）在考查某公式的应用时，不要给太复杂的数字，以免给计算带来麻烦（6）尽可能使用直接问句来提出问题第151页/共529页解释性测验题在典型选择题的基础上，经教育测验专家改良后，发展成解释性测验题（interpretive-exercisequestion)。解释性测验题一般是先提供一段文章、一幅图画、一种情境、一张表格等引导性材料，然后以此为基础提出一系列客观性问题。比较适合测量富有结构的知识、理解能力以及比较复杂和高层次的认知能力。第152页/共529页1.优点

强化学生解释、分析、应用资料的能力；

测量较复杂和高层次的认知能力；

诊断复杂学习结果的认知过程；

变主观性为客观性；

把问题设计得更加符合测量目标2.缺点

不能测量创造性思维能力和文字统整与表达能力第153页/共529页3.编制原则（1）选择与教学目标或考试目标关系紧密的引导资料；（2）选择适合学生学习经验与阅读能力的引导资料；（3）选择新的但又不是太另类的引导资料；（4）选择简短而又有信息量的引导材料；（5）问题设计要明确，容易作答；（6）问题的测量目标要符合测验目的；（7）问题要测量有意义的学习目标，不考无关紧要的内容；（8）问题数量要适当，而且每个问题不要互相提示第154页/共529页二、主观性试题的类型及其编写要领

论述题作文题表现性测验题第155页/共529页论述题

较好地测量被试的组织、归纳和综合所学知识的能力，运用掌握知识解决问题以及探讨问题和创新的能力1.优点用来进行高层次的、复杂的学习结果的测量，可以用在各种学科领域，特别适用于社会科学、人文科学等；可以增进学生的思考、应用及解决问题的能力，对于被试的学习态度和学习方式可以产生积极的影响；可以增进学生的写作能力；试题的编制比较容易，受猜测因素的影响很小

第156页/共529页2.缺点取样范围比较小且不均匀，所使用的试卷无法有效地代表学科的全部主要，所测结果无法真正代表被试的学习成就，从而影响测验的效度；评分的主观性强；因被试回答过于自由，回答方向又不尽相同，难于测得预期结果，重点容易失控；被试作答和评分阅卷都相当费时第157页/共529页3.编制原则（1）试题应该用来测量较高层次的教学目标（2）要明确而系统地陈述问题，使被试能清楚地了解题目的要求（3）一般应采用答案具有统一定论的试题（4）当有多个论述题时，可以设置一个必答的论述题，剩下的题目可允许被试选择作答（5）最好在题目中能给出回答本题所需的参考时间第158页/共529页作文题

对人的逻辑思维、形象思维、书面表达等多种能力的一种综合考查1.分类（1）根据提供题目或提供材料的角度，可分为命题作文和供料作文（或称条件作文）；（2）根据文体可以分为记叙文、议论文、说明文、应用文等；（3）根据所供材料的处理方式可以分为：缩写型、改写型、撮写型、填空型、续写型。第159页/共529页2.编制原则（1）根据考试目的、考试对象来确定作文文体和要求；（2）根据社会需要、现实生活和学生实际设计命题，作文命题要直接测量语文素养和书面表达能力；（3）作文命题不能过于抽象，要让学生有话可说，有内容可写，有思路可走，有发挥的余地；（4）避免材料或话题出现测验偏倚，在确定选材和写作意图时，要考虑对所有被试都是公平的，并且试题应符合被试的心理特征。第160页/共529页表现性测验题

所谓表现性测验题（performancetest),是指以行动、作品、表演、展示、口头回答、操作、写作、科学研究、制作等更真实的行为表现，来测量与评价学生在真实情境或模拟真实情境下的所知与所能的一种测验类型。第161页/共529页1.分类纸笔的表现性测验辨认的表现性测验结构化的表现性测验模拟情境的表现性测验工作样本的表现性测验第162页/共529页2.编制原则（1）测验材料和要求应与日常教学内容和目标有关联，关注重要的学习结果（2）将考查重点放在测量负责和高层次能力上（3）将干扰测验目的的无关困难降到最低（4）测验尽可能选择真实性的情境或问题（5）提供必要的操作指导语，让学生了解作业任务和期望内涵（6）指导语简单清晰，向被试明确说明实际的情境、任务以及评价的标准（7）确定科学合理的计分方法第163页/共529页第二节测验目标与教育目标研究第164页/共529页一、教育目标与测验目标教育目标的意义教育目标是人类社会根据自身的需要确定的教育活动的标准、方向和要求，亦就是人们在教育活动之前，预先设想和确定的关于教育活动最终期望达成的结果。广义的教育目标是在学校、家庭、社会三个方面的教育环境作用下取得的关于学生的行为变化；狭义的教育目标特指教学目标当教育目标用于教育测量和评价时，教育目标就转换成测量目标和评价目标第165页/共529页教育目标的表述以学生为行为主体表述明确、具体反映学习结果的层次性表达教育工作者的意图第166页/共529页中程教育目标终极教育目标具体教育目标二、教育目标分类研究第167页/共529页二、教育目标分类研究布卢姆的教育目标分类认知领域第168页/共529页第169页/共529页

情感领域第170页/共529页动作技能领域（辛普森的分类）第171页/共529页我国关于教育目标分类的研究李秉德“教育目标分类的三维结构模型”第172页/共529页第三节测验蓝图设计与测验编制要领第173页/共529页一、设计测验的基本考虑确定测验的目的确定测验的属性明确测验的性质与用途明确测验的对象分析测验的目标第174页/共529页二、设计测验蓝图确定测验内容要目（双向细目表）确定该科目应考查的目标层次确定各项测验内容要目下的权重形成命题双向细目表第175页/共529页三、测验的编制与组织1.选定测验的材料

a途径：（1）把测验所涉及的内容逐步分解到课程标准或教学大纲所规定的知识点，然后选择适量的、重要的知识点作为测验的材料；

（2）对测验可能涉及的原始知识点进行聚类分析，根据知识点间的相关系数，依次进行合并，再利用适当的阀值将测验目标分成恰当的类，以确定测验的材料第176页/共529页b注意点（1）测验材料要适合测验目的（2）测验材料要能够代表该教材的全部内容（3）测验材料要有普遍性，要以统一的课程标准或教学大纲或统编教材为选材依据（4）测验材料要适合学生的程度并能鉴别学生的学习水平（5）测验材料要富有进取性并切合社会需要第177页/共529页2.编写测验试题（命题）（1）试题的内容取样应有代表性（2）试题的数量要恰当（3）试题的难度要合适（4）各个试题之间应保持互相独立（5）试题的表述必须清楚明白（6）题型应多样化（7）评分标准应合理，命题应有利于制定清晰可辨、公平合理的评分标准第178页/共529页3.试测与题目分析（1）试测：鉴别测验性能的优劣

注意点：试测对象应取自将来正式测验准备施用的群体试测应力求按正规的要求进行，使其与将来正式测验的情境一致试测的实施，应使被试有足够完成作业的时间，以便搜集充分的反应资料使得统计分析结果可靠在试测的过程中，应就被试的反应情况随时加以记录（2）题目分析第179页/共529页4.合成测验（组卷）（1）先易后难（2）同类组合（3）讲究测验题目编排的方式第180页/共529页5.编写复本复本的关键是等值（1）各份测验具有相同的测验目标与测验内容，但题目不应有重复（2）各分测验题型相同，题目数量相等，并且有大体相同的难度和区分度第181页/共529页6.编写测验手册（1）本测验的目的和功能（2）测验编制的理论背景和试题选择的依据（3）测验的实施方法、时限与注意事项（4）测验的标准答案和评分标准的规定（5）测验分数解释的依据（6）测验的信度、效度资料，包括信度、效度系数以及这些数据是什么情况下得到的第182页/共529页双向细目表第183页/共529页第五章制订教育评价表

的一般方法和步骤第184页/共529页一、教育评价表的基本类型与制定原则教育评价表的基本的基本类型概括性问题教育评价表是根据评价目标概括提出一系列问题加以系统了解的评价表式；

当评价的目的不是为了评级，而是为了了解发展基本情况，描述发展基本状态时，可使用自我编制概括性问题评价表指标结构性教育评价表

根据评价目标逐层分解评价指标，形成具有评价指标体系、指标权重结构以及定位定量具体评价标准的教育评价表；

第185页/共529页制订教育评价表的基本原则教育规律性和导向性原则科学性和可操作性原则超前性和发展性原则第186页/共529页二、教育评价表的构成及编制方法教育评价表的构成要素评价指标指标权重评价标准第187页/共529页第188页/共529页制订教育评价表的方法1.确定教育评价的对象和目标2.初拟评价指标3.筛选评价指标4.确定评价指标权重5.设计教育评价标准6.整合、修改与完善教育评价表第189页/共529页—完—第190页/共529页自我编制概括性问题评价表第191页/共529页2.初拟评价指标头脑风暴法因素分解法理论推演法第192页/共529页3.筛选评价指标（1）经验法：凭设计者的学识修养和工作经验筛选的一种简便实用的方法理由是否充分或必要取主舍次从各指标之间的关系上进行比较去难存异，删繁就简（2）调查统计法：把初拟指标制成问卷，发给有关专家和有经验的教育工作者，请他们对初拟指标的每一项作出判断。

第193页/共529页4.确定评价指标权重（1）关键特征调查法

第一步，先提出初拟评价指标；

第二步，请被调查者从初拟指标中找出一定数量的关键指标；

第三步，计算人数和百分比；

第四步，按一定的规则选取指标

第五步，按照“归一化”的要求，计算各指标的权重系数

筛选后第i个指标的权重系数选择该指标人数的百分比筛选后指标的个数第194页/共529页（2）两两比较法

对指标进行逐对比较，并加以评分，重要者记1分，次重要者记为0分；然后分别计算各指标得分之和，再除以所有指标得分之总和。第195页/共529页（3）专家评判平均法

对于已经确定的指标，分别请专家评判其权重，然后请专家评判结果的平均数作为各指标权重。第i位专家赋予第j个指标的权重值专家人数第196页/共529页例：以先进性、科学性、系统性、启发性四个指标来评价一本教材，请5位专家对各项指标权重进行评判，评判结果见表5-5.第197页/共529页（4）倍数比较法

对已确定的指标，以每一级指标中重要性程度最小的指标为基础，记为1，然后将其他指标与它相比，作出重要性程度是它多少倍的判断，再经归一化处理，即获得该级各指标权重。第198页/共529页5.设计教育评价标准（1）分解教育评价表中指标所包含的主要内容（2）确定标度（3）确定等级数量（3-5个）第199页/共529页第六章教育测验的常模及其建立方法第200页/共529页第一节教育测验常模的意义与类型第201页/共529页一、测验常模的意义原始分数（rawscore):将被试的反应与标准答案相比较而获得的测验分数。原始分数本身没有多大的意义。原始分数的两个缺陷原始分数的起点0没有明确意义；分数并不能说明考生对知识掌握了多少第202页/共529页1.概念：（测验的）常模，指一个有代表性的样组在某种测验上的表现情况，或一个与被试同类的团体在相同测验上得分的分布状况与结构模式。（1）有代表性的样组；（2）针对某种人群的身心特征；如智力常模、记忆常模等第203页/共529页2.常模的用途和导出分数（1）获取一个有代表性的常模团体（2）常模资料的统计学描述（3）导出分数（derivedscore)：按照一定的规则，针对原始分数进行统计处理后获得的分数。导出分数具有一定参照点和单位，可以相互比较。第204页/共529页二、测验常模的主要类型发展常模（DevelopmentNorm)某一年龄或某一年级心理发展的平均水平导出分数：已经达到的发展水平如：年龄常模、年级常模、顺序量表、比率智商、教育商数组内常模（Within-groupNorm)具有同一身份的人的平均水平导出分数：在某一特殊团体中的相对位置如：百分等级常模、标准分数常模、离差智商等第205页/共529页1.年龄常模（1）取平均值作为指标

基于不同年龄组测试所得的平均分，并与相应的年龄当量联系起来构成年龄常模资料（2）用一组题目作为指标

用一批能使某年龄组大多被试都能通过的题目来代表该年龄组的发展水平第206页/共529页2.年级常模概念：不同年级学生在某种测验上的正常的一般的表现方法建立方法：利用某年级学生在某一测验上的平均分和相应的年级当量之间的对应关系来描述该测量的年级常模年级当量通常用两位表示，第一位为“年”，第二位为“月”

第207页/共529页利用年级常模表将原始数据转化为年级当量，如此可以通过测验来了解和评价学生的发展例：假定某学生四年级中期的算术、语文、阅读、外语四门学科成就测验的年级当量如下：算术-5.5、语文-5.0、阅读-6.0、外语-4.5在建立年级当量常模或年龄当量常模时，由于受到条件限制，使得各年级样组间的年月跨度较大，为了得到更加细化甚至连续性的常模表，可以采用插值计算和曲线拟合的方法。第208页/共529页第209页/共529页第210页/共529页第211页/共529页第二节百分等级常模及建立方法第212页/共529页一、百分等级常模的意义与应用百分等级是一个地位量数，能够反映某个测验分数在一个次数据中的相对地位。它是把学生的原始分数放在学生所在群体的成绩中进行比较，以确定该学生在群体中的相对地位之高低。百分等级常模就是基于某个常模团体，为某种测验的原始分数与百分等级之间建立起对应关系的组内常模类型。在能力测验和学业测验中得到广泛的应用第213页/共529页第214页/共529页二、百分等级常模的建立方法1.基于未归类数据建立百分等级常模的方法第一步：把观测数据从大到小依次排列；第二步：按不同的数据逐个地统计次数；第三步：从低分开始向高分方向，计算各个得分点数据以下的累积总人数；第四步：计算各得分点数据的“以下累积相对次数”即比例数；第五步：确定各得分点数据的百分等级PR，计算方法是把各数据的“以下累积相对次数”乘上100；第六步：把原始分数与百分等级有关数据取出来列表，形成该测验的百分等级常模表第215页/共529页第216页/共529页2.基于分组归类数据建立百分等级常模的方法（1）根据测验所欲使用的对象，科学地选择常模团体，即有代表性的被试样本；（2）把测验施测于该常模团体，取得实测数据；（3）编制实测数据即常模团体实测分数的次数分布表第217页/共529页第218页/共529页第一步：查找数据中的最大值与最小值，其差数称为全距；第二部：决定组数、组距和组限；第三部：把所有数据逐个进行归类，然后统计次数并加以检查，最后把有关结果用一个规范的表格加以整理，即为次数分布表。组距X所在组的次数X所在组别的组下线小于Lb的各组次数之和第219页/共529页百分等级常模的优缺点易于理解，用途广由于是等级量表，所以百分量表的分数不能进行加减乘除的运算，许多统计方法都无法使用。第220页/共529页第三节标准分数常模及建立方法第221页/共529页一、标准分数的基本定义标准分数是以标准差为单位表示测验成绩与平均分数之间的距离标准分数是以平均数为参照点，标准差为单位的一种量表分数，它将原始分与平均数的距离以标准差为单位来表示把原始分数转换成标准分数是一种线性的转换，所以转换后的分数能保持原始分数准确的数量关系和分布形态第222页/共529页例：甲、乙、丙、丁四人在某次语文考试中分别获得72分、60分、48分和90分，而全体学生的语文平均成绩为60分，标准差为12分，求这四个人相应的标准分数。第223页/共529页Z分数的转换（1）教育与心理测验中的T分数：T=50+10Z（2）韦氏智力量表中各分测验的量表分：T=10+3Z

韦氏智力量表智商（离查智商）：IQ=100+15Z（3）美国大学入学考试报告分数：CEEB=500+100Z（4）为出国人员举行的英语水平考试：EPT=90+20Z（5）美国教育测验中心举办的“托福”考试：TOEFL=500+70Z

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量与评价全套

文档简介

温馨提示

最新文档

评论

相关文档