教育测量与评价全套

上传人：伊*** IP属地：上海上传时间：2021-10-22 格式：PPTX 页数：534 大小：8.78MB 积分：20 举报 版权申诉

已阅读5页，还剩529页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、本章内容教育测量与评价的概念与内涵教育测量与评价的发展历史教育测量与评价的学科地位和作用一、概念与内涵测量与教育测量测量的含义：根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。测量的要素量具测量单位参照点（4）特点：间接性和推断性测量对象的模糊性和测量误差的不可避免性量表具有多样性，结果具有相对抽象性教育测量（1）概念：针对学校教育影响下学生各方面的发展，侧重从量的规定性予以确定和描述的过程。（2）目的：了解学生的发展，关注学校（教师）的教学效果。（3）对象：知识，技能？道德、情感、态度、价值观、兴趣、思维能力、实践能力、创造能力教育测量是精神特

2、性精神特性的测量，涉及学生德育、智育、体育、美育、劳动技能及个性、心理素质等许多方面评价（evaluation）与教育评价评价（1）衡量、判断人物或事物的价值；（2）一种划定、获取和提供叙述性和判断性信息的过程；（3）对某些现象的价值如优缺点的系统调查，是为教育政策提供依据的过程；（4）评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程；（5）评价最重要的意图不是为了证明，而是为了改进改进。布卢姆的教育评价（1）评价是系统收集证据用以确定学习者实际上是否发生了某些变化，确定学生个体变化的数量或程度。（2）评价是为了某个目的而进行的，对各种想法、作品、解答、方法、资料等

3、的价值作出判断的活动。教育评价概念：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。内涵：（1）强调以教育目标为标准的价值判断过程；（2）强调用多种方法（测量和非测量）系统收集资料与信息；（3）教育评价的内容多元（包括教育计划、课程、学生的学习结果、教学活动等）；（4）强调为学生发展和教育决策服务；（5）不同时期，不同学者提出教育评价的侧重点有所不同。拓展与练习讨论1 ：教育测量与教育评价的区别? 评价=测量（定量描述）+非测量（定性描述）+价值判断讨论2：教

4、育测量与教育评价有何联系？教育测量是教育评价的基础，教育评价往往是教育测量的延续；部分教育测量本身含有价值判断（e.g. 高分=优秀的学生=高素质）教育评价（educational evaluation）与教育评估（educational assessment）教育评价教育评估想一想：图中”重叠部分”与“非重叠部分”各代表什么？测验（test）与考试（examination）测验：测量的工具，能引起人的有代表性的行为，以便对人的行为特性或心理特性进行测量与评价；考试：广义上，泛指人类社会一切测度和甄别人的身心各方面之群体或个体差异的活动；狭义上，由主试根据一定社会的要求，在一定场所

5、，采取一定的方式方法，选择适当的内容，对应试者的德、学、才、识、体诸方面所进行的有组织、有目的的测度或甄别的活动。二、发展历史（一）我国考试制度的演变西周：考试制度初见端倪 “古之教者，家有塾，党有庠，术有序，国有学。比年入学，中年考核，” 两汉时期：考试制度正式确立（察举制）隋唐时期：科举制度的确立与发展清末民初：现代学制下的考试制度变革（二）教育测量学科的诞生桑代克：精神与社会测量导论（1904）（三）教育测量运动的蓬勃开展与反思时间发展背景或主题具体进展20世纪初20世纪30年代心理测验、智力研究的兴起法国比纳等人发表“标准化智力测验”；英国当局利用“智力测验和标准化测验”，形成

6、11岁考试制度；美国标准化人格测试的问世与应用20世纪30年代20世纪40年代教育评价（”八年研究“）除了采用传统的教育测验外，还用问卷、观察、交谈、轶事记录、作品分析、表演、操作、写作等测量和非测量的方法对课程的效果和学生的行为变化进行测量和评价。（四）教育测量与评价理论的发展1. 测量的统计模型为教育测量的学科发展提供了强有力的理论支撑2. 教育目标分类学促进教育测量与教育评价的学科整合3. 教育评价学科内容的发展三、学科地位和作用教育测量与评价的学科地位教育测量与评价是教育测量学与教育评价学内容的整合并侧重于教育测量的一门综合性教育课程是一个兼容了教育统计、教育测量、心理测量、教育

7、评价、教育评估、教育督导和教育科学研究方法等在内的学科群教育测量与评价科学研究、教育基本理论研究和教育发展理论研究成为现代科学研究的三大领域教育测量与评价的学科发展以美国为例创办了大量有关教育测量与评价方面的杂志：教育测量研究、教育测量评论、评价研究、教育评价与政策分析等；出版了大量有关教育测量与评价方面的学术著作与教科书：教育测量、心理测量、心理与教育测量年鉴、教育评价等；成立了若干专业协会，如“全国教育测量委员会”、“全国教育进展评估中心”、“全国教育评价联合会”等教育测量与评价在教育改革中的作用教育改革常以教育测量与评价的改革作为突破口考试与评价改革成为基础教育改革的重要

8、内容教育测量与评价是教师的专业素养和能力正确评价学生的发展是教师职业能力的重要组成部分国外教师教育普遍开设“教育测量与评价”类课程完量表（scale）：确定了测量单位与参照点并具有取值系统的测量工具类型类型用途用途称名量表（nominal scale)分类顺序量表（ordinal scale）分类+相同的测量单位等距量表（interval scale）分类+相同的测量单位+相对零点比率量表（ratio scale）分类+相同的测量单位+绝对零点布卢姆的目标分类图第二章教育测量与评价的类型和功能格朗兰德等著格朗兰德等著. 教学测量与评价教学测量与评价分类分类类型类型目的或作用目的或

9、作用时机时机形成性测量与评价获得有关“教与学”的连续性反馈教学过程中诊断性测量与评价对个人的问题行为及其原因进行诊断教学过程中（在形成性评价之后）终结性测量与评价检查学业达标程度，评定学业成就教学结束后一、按运用的时机分类二、按参照点分类常模参照测量与评价：将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测量与评价类型；标准参照测量与评价：将被试的表现与既定的教育目标或行为标准相比较，以评价被试在多大程度上达到该标准；潜力参照测量与评价：将被试实际水平与自身潜在的水平（潜力）相比较，以评价被试有无充分发挥自身潜力为目的。我们当前的期末考试属于什么类型的测量与评价？我们当前的

10、期末考试属于什么类型的测量与评价？这样的评价在素质教育背景下，有存在的必要吗？为什么？这样的评价在素质教育背景下，有存在的必要吗？为什么？三、按被试行为表现的性质分类最佳行为测量与评价：以成就或能力高低作为评价基础；典型行为测量与评价：以某种（或某些）典型行为为评价基础。四、按内容分类智力测量与评价能力倾向测量与评价一般能力特殊能力：音乐能力倾向，机械能力倾向成就测量与评价学科成就测验综合成就测验人格（个性）测量与评价气质、性格、兴趣、态度、动机五、其它分类按测量对象个别测量与评价团体测量与评价按测量材料文字测验非文字测验按量具的标准化程度标准化测验非标

11、准化测验功能功能一、实现教育判断的功能测量评定事实判断价值判断问题诊断区分选拔二、改进教师教学的功能了解学生的起点行为作为改进教学的参考作为补救教与学的依据确保教学目标的达到学校教师自编课堂成就测验发挥了哪些功能？学校教师自编课堂成就测验发挥了哪些功能？哪些功能没有发挥？哪些功能没有发挥？如何更好地发挥这些功能？如何更好地发挥这些功能？三、促进学生学习的功能明确学习目标，增加学习动力了解自我，调整学习计划思考：当下的考试有没有令学生主思考：当下的考试有没有令学生主动诊断不足，增强学习动力，调整动诊断不足，增强学习动力，调整学习计划？学习计划？四、行使教育管理的功能对教育

12、目标和质量的管理对教育过程的管理对学校的管理对教师的管理对学生的管理“评价的主要目的是改进学习和教学，所以评价结果的其它用途，都是第二位或补充性的”。格朗兰德第三章教育测量与评价的质量特性教育测量的质量特性衡量教育测量的质量，可采用四个指标：信度主要对整个测验而言。效度难度主要对测验项目而言。区分度一、信度的意义信度（reliabity）测量结果的可信程度和稳定性程度记为rxx二、信度的统计定义X = T + E观察观察分数分数真分数真分数测量测量误差误差第一，信度是观察分数与真分数相差第一，信度是观察分数与真分数相差的程度；的程度；E = X - T 例

13、：试比较以下两次测量结果（只进行一次）的信度。用尺子量100cm高的一个儿童，得到1cm的绝对误差；量185cm高的一位运动员，也得得到1cm的绝对误差。要比较两种测量结果的信度，一定要看测量要比较两种测量结果的信度，一定要看测量误差（误差（E E）对于真分数（）对于真分数（T T）所占的百分数是多少。）所占的百分数是多少。这个百分数表示该观察分数（这个百分数表示该观察分数（X X）的相对误差。）的相对误差。相对误差相对误差E/TE/T100%100% 把把上述两次测量（设为甲和乙）和绝对误差分上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：数和真分数代入上式，得：相对误差

14、相对误差（甲（甲）1/1001/100100%100%1 1% %相对误差相对误差（乙）乙）1/1851/185100%100%0.54%0.54%据此，度量乙的信度要据此，度量乙的信度要比度量比度量甲的信度高甲的信度高。最最大绝对误差大绝对误差E/X E/X 100%100%怎样估计对一组人或一个人测量多次的实测值与真值（真分数）的差异程度呢？判别两组数据谁好谁差,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响，可借鉴研究加权平均数的方法，选用各个偏差的平方的平均数，来描述一组数据偏离其平均数的大小，这就是方差。根据假设，观察分数的方差应等于真分数的方差加上测量误差的

15、方差。即：2E2T2x 第二，信度是一个被测团体的真分数方差与观察分数方差之比：即22xTxxr测验的信度一般在测验的信度一般在0和和1之间取值，之间取值， r rxxxx越接近越接近1，考试的信度越高。，考试的信度越高。 2x2E2x2E2xxx1r 第三，信度是一个被试团体的真分数与观察分数的相关系数的平方，即：第四，信度是一个被试团体在测验X（A卷）上的观察分数与在测验X的任意一个“平行测验”（B卷）上的观察分数的相关系数。即：三、信度的估计方法重测信度（test-retest reliability) 又称稳定性系数，指用同一个量表（测验或评价表）对同一组被试施测两次所得结果的一

16、致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数；相关系数可以用不同方法计算，这取决于数据的性质。最为普遍的是皮尔逊积差相关系数：例1：在政治科目考试后一周，随机抽取10名学生进行重测，其先后两次考试成绩如表3-1中的Xi栏和Yi栏中的数据所示，试求该政治科目考试的一个重测信度。通过计算可知：把上述数据代入下列公式，可得采用重测法计算稳定系数，需注意：两次测验之间的时间间隔要适宜，尽可能在较短的时距内进行；两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同；确定两测验是否等值，还要考察两次测绘结果的平均数与标准差；重测法适用于速度测验（运动

17、技能）而不适用于难度测验；测试应注意提高被试者的积极性。复本信度（alternate- forms reliability) 又称为平行测验（equivalent forms test, parallel forms test)。指在试题格式、难度、指导语说明、施测要求等方面都相当，并且都用来测量相同潜在特质或属性，但试题又是不相同的测验。等值性系数（coefficient of equivalence)：在同一时间连续施测，反映测验内容造成的误差是多少；等值稳定性系数（coefficient of stability and equivalence)：不仅反映出测验内容的抽样误差，而

18、且也反映了被试本身状况的改变。例：以A、B两型英语复本测验对初中三年级10个学生施测，为避免由测验施测顺序所造成的误差，其中5个学生先做A型测验，休息15分钟后，再做B型测验；而另5个学生先做B型测验，休息15分钟后，再做A型测验。10个学生A型测验结果记为X，B型测验结果记为Y，其测验的复本信度如何？学生序号学生序号 1 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12 Y

19、 20 17 18 18 17 15 13 15 12 12 复本信度的优点：测验的两个复本，如果在不同的时间使用，其信度既可以反映在不同时间的稳定性，又可以反映对于不同测题的一致性；两个复本在同时使用时，可以避免再测信息的一些缺点，如首测时再测在记忆、练习、效果的影响，间隔期间获得新知识的影响，两次施测的环境不同和被试主观状态不同的影响，以及为了应付测验所作训练的影响等。复本信度的缺点：编制两个完全相等的测验是很困难的，如果两个复本过分相似，则变成再测形式，而过分不相似，又使等值的条件不存在；两个复本测验有可能在某种程度上测量了不同的性质，这就会低估测验的信度；被试同时接受性质相

20、似的两个测验，可能减少完成测验的积极性；虽然两个复本测验的题目材料不同，但被试一旦掌握了解题的某一模式，就能触类旁通，有可能失去复本的意义。同质性信度（homogeneity reliability) 又称为内部一致性信度（internal consistency reliability)，指测验内部所有题目间的一致性程度。所有题目测的是同一种心理特质；所有题目得分之间具有较高的正相关 1.分半信度（split-half reliability) 将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。通常是以题目的奇数为一组，偶数为一组，计算两级的相关系数，最后用斯皮尔

21、曼布朗公式校正，求得整个测验的信度系数。例：一个测验向15名被试施测，被试在奇偶分半测验上的得分如下表，计算该测验的分半信度系数。思考：为什么不直接用奇数题总分与偶数题的部分思考：为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加计算出的相关系数作为整个测验的信度系数而要加以校正？以校正？测验测验的长度（指量表中所包含的题目数）对信度的大小有的长度（指量表中所包含的题目数）对信度的大小有一定的影响，测验越长，信度越高一定的影响，测验越长，信度越高。用用分半法，实际上等于把整个测验长度减小了一半，所以分半法，实际上等于把整个测验长度减小了一半，所以按分成两半的资料

22、求出的信度必然低于整个测验的信度。按分成两半的资料求出的信度必然低于整个测验的信度。斯皮尔曼-布朗公式的基本假设：两个半测验的变异数必须相等（方差齐性）若不能满足上述假设，选择下述两个等价的公式之一：（1）佛朗那根（Flanagan)公式（2）卢仑（Rulon)公式 2. 库德理查逊信度（Kuder & Richardson reliability) 适合于测验题目全部为二分记分题（dichotomously scoring)的测验和内部一致性信度分析常用的有KR20和KR21(1) KR20的用法这个公式以每题能正确回答的人数占总人数的百分数为基础计算（

23、每题只有通过或未通过两种分数）测验信度测验信度题目数题目数测验总分测验总分的方差的方差答对人数答对人数答错人数答错人数例: 10名被试在一个测验上的得分情况如表3-3所示（答对1分，答错0分），试估计被试反应的一致性程度。解：解：1 1）列出得分矩阵，计算有关统计量：）列出得分矩阵，计算有关统计量：40.039.001.235.11166121201.2103.353.323.31S3.31063221X35.16K21KR2222）（）计算信度系统式（）把有关统计量代入公）（）（）（pq 这个这个测验的信度系数较低，说明内容一致性差，量表中测验的信度系数较低，说明内容一致性差，量表中的题目并

24、非都可以测量相同的特性，即题目的同质性差或难的题目并非都可以测量相同的特性，即题目的同质性差或难度悬殊较大。度悬殊较大。（2） KR21的用法以各应试者总分的平均数和方差为基础，无需各题的难度信息。采用表3-3的数据资料被试测验被试测验总分平均数总分平均数（3）克龙巴赫系数当测验题型较多，并非都是二分记分题时，可用系数例：用一个包含6个论文式试题的测验，对5个被试施测，其结果如表3-4所示，求该测验的信度。四、标准参照测验的信度分析百分比一致性指标（percentage agreement，简称PA) 同一测验或平行测验先后两次施测，其对被试的分类结果一致的比例。计算方法如表3-5 k

25、一致性系数(kappa coefficient of agreement) 实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。PA为百分比一致性指标；为百分比一致性指标；Pc为理论上可能被评定为一致的百分比期望值为理论上可能被评定为一致的百分比期望值由由3-5的数据可求得：的数据可求得：五、测量标准误与测验信度的关系测量标准误是指测验中所得测值偏离真分数的程度，记为SE。测量标准误是反映测量结果精确性和可靠性的又一指标可合理地解释被试所得分数的误差范围六、评分者信度评分者信度（scorer reliability)指多个评分者给同一批人的答卷进行评分的一致性程

26、度。当评分者人数为两人时，可用斯皮尔曼等级相关的公式计算；当评分者人数多于两人时，可用肯德尔和谐系数（Kendall coefficient of concordance) 肯德尔和谐系数（W）S为每一个评价对象的为每一个评价对象的K个等级之和的离均差平方和个等级之和的离均差平方和例：10个评委对7名参赛选手所评等级如表3-6所示，请问这10位评委的评分是否具有一致性。分析：分析：从从W=0.827来看，来看，10人的评价较为一致。严格地讲，人的评价较为一致。严格地讲，W值是否达值是否达到显著性水平，需要做统计假设检验。到显著性水平，需要做统计假设检验。当当K等于等于320，N等于等于37

27、时，可根据时，可根据K和和N查查“W显著性检验显著性检验时时S的临界值表的临界值表”进行检验进行检验。（见书附表。（见书附表1）827.0)77(101212316231672802-13516)(RS3222iwNRi解解七、提高测验信度的方法适当增加测验题目的数量需注意：1.新增加测验题与原有的测验题应有相同的统计性质，即应有相同的平均难度和相同的组间相关。2.加大测验长度应当不影响被试者回答问题的方法。测验的难度要适中测量的内容尽量同质测验的时间要充分测验的程序应统一评分要客观化，减少评分误差教育测量与评价的质量特性第二第二节节效度效度一、效度的意义效度（validit

28、y)，是指一个测验或量表实际能测出其所要测量的特性的程度。效度是一个相对概念效度始终是针对一定测量目的而言的效度是针对测量结果而言的效度只有程度上的差异评价一个测量是否有效要多角度、多方面的收集证据二、效度的统计定义X = T + EV + IV: 目标真分数，反映被试某种心理特质真正水平的数目标真分数，反映被试某种心理特质真正水平的数值；值；I: 非目标真分数，被试在某种心理特质测量表上表现非目标真分数，被试在某种心理特质测量表上表现的与测量目标无关的稳定测值的与测量目标无关的稳定测值测量效度实质上就是指一次测量出目标真分数的程度测量效度实质上就是指一次测量出目标真分数的程度效度是

29、目标真分数方差与观察分数方差之比效度是目标真分数方差与观察分数方差之比思考：从统计学定义看，效度和信度有什么关系？思考：从统计学定义看，效度和信度有什么关系？根据分析，可知：根据分析，可知：1.高信度是高效度的必要条件，而高信度是高效度的必要条件，而非充分条件；非充分条件；2.效度系数不会大于信度系数的平方根效度系数不会大于信度系数的平方根三、效度的估计效度估计是多方寻找证据来证明一个测验的有效性程度的过程。内容效度结构效度效标关联效度结果效度内容效度（content validity）含义：又称合理效度或逻辑效度，是测验题目样本对于应测内容与行为领域的代表性程度。应用范围：教育

30、测量（尤其是学业成就测验）；某些用于选拔和分类的职业测验注意：不适用于能力倾向和人格测验分析方法逻辑分析的方法。请有关专家对测验题目与原定内容范围的吻合程度作出判断。统计分析法。从同一个教学内容总体中抽取两套独立的平行测验，用这两个测验来测同一批被试，求其相关。若相关高，表明测验内容效度较高；若相关低，表示测验的内容效度较低。结构效度（construct validity) 结构:心理学或社会学上的一种理论构想或特质。如智力、焦虑、机械能力倾向、成就、动机等。结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于从心理学或社会学的理论观点就测验的结果加以解释和探讨

31、。结构效度主要用于智力测验、人格测验等一些心理测验方面。验证步骤第一，提出有关理论结构的说明，并据此设计测量用的试题；第二，提出可以验证该理论结构存在的假设说明；第三，采用各种方法收集实际的资料，以验证第二步提出的假设的正确性；第四，收集其他类型的辅助证据，淘汰与理论结构相反的试题，或是修正理论，并重复第二和第三步，直到上述的假设得到验证。验证方法测验内部寻找证据法内容效度作答过程分析测验的同质性因素分析法考察测验的实证效度法差异被试比较法先后测试分析法效标关联效度（criterion-related validity) 效标：足以显示测验所欲测量的特性的变量或足

32、以显示测验所欲预测的特性的变量。它是用来检验测验效度的外在的、客观的标准和尺度。效标关联：又称为经验效度或统计效度，一个测验对处于特定情境中的个体行为进行预测时的有效性。效标关联可分为同时效度和预测效度估计方法相关法积差相关等级相关点双列相关二列相关四分相关显著差异法根据效标测量将被试分为两个极端组（如好与坏，成功与失败等），然后检验这两组测验分数是否具有统计学上的差异显著性用积差相关系数的方法估计效度积差相关，是计算两个变量线性相关的一种方法，由英国统计学家皮尔逊提出，因此也称为皮尔逊(Pearson)相关。要使用积差相关必须同时具备如下几个条件：两个变量都是由测量获

33、得的连续性数据，即等距或等比数据。两个变量的总体都呈正态分布，或接近正态分布，至少是单峰对称分布，当然样本并不一定要正态。必须是成对的数据，而且每对数据之间是相互独立的，即各自互不影响，本条件是难以检验的。两个变量之间呈线性关系。一般用描绘散点图的方式来观察，最好是先各自转化为Z分数，单位会统一些。例：例：某中学数学教研组的教师积多年的教学法经验，认为某中学数学教研组的教师积多年的教学法经验，认为刚入高中的学生学习立体几何感到困难的主要原因是空间刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。想像力弱。为了证明这个论点，他们让刚入高中的为了证明这个论点，他们让刚入高中的1031

34、03名学生作名学生作1010道题，测量其空间想像力。为避免知道了某些学生的刚入道题，测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分，试卷暂不评阅。立体高中时的成绩影响以后考试的评分，试卷暂不评阅。立体几何学完后，进行考试，按得分多少把成绩分为五等（几何学完后，进行考试，按得分多少把成绩分为五等（A A、B B、C C、D D、E E）分别得）分别得5 5、4 4、3 3、2 2、1 1分。这时才评阅入学分。这时才评阅入学时的试卷，统计出期末得时的试卷，统计出期末得5 5、4 4、3 3、2 2、1 1分者在入学测验分者在入学测验中分别答对中分别答对1 1道题至道题至

35、1010道题的人数（见表道题的人数（见表2-12-1）。）。就现有资料，用什么方法可以判断教师们的意见是否就现有资料，用什么方法可以判断教师们的意见是否正确？正确？表表2-12-1：（答对的题数）1 2 3 4 5 6 7 8 9 10 所评的等级ABCDE54321 1 3 10 5 4 2 1 6 8 8 4 3 1 2 4 5 9 8 3 111 3 2 1 11 1 2 1 1解：（解：（1 1）设期末考试的等第为）设期末考试的等第为y y，空间想像力测，空间想像力测验答对的题数为验答对的题数为x x，列出二重交叉次数分布表：，列出二重交叉次数分布表：X（答对的题数）1 2 3 4

36、5 6 7 8 9 10 Y所评的等级ABCDE54321 1 3 10 5 4 2 1 6 8 8 4 3 1 2 4 5 9 8 3 11 1 3 2 1 11 1 2 1 125313296合计 2 4 10 14 20 20 17 9 5 2103（2 2）用积差相关系数公式计算效度系数：）用积差相关系数公式计算效度系数：验的得分和的题数与期末测是指刚入学测验中答对标准差。是期末测验各人得分的对题数的标准差，是刚入学的测验各题答人得分平均数，是期末测验中的人数的平均数，道题道题到是刚入学的测验中答对式中公式fxySSyxssyxNfxyryxyx103101)42(/12. 1/)(5

37、8. 3103619232331425510394. 1103/ )55. 510(2)55. 52(4)55. 51 (255. 5103210591034221101/)(22222 NyyfSSyySxxNxxfSSyyxxx标准差。是期末测验各人得分的）（人得分平均数，是期末测验中）（道题的人数的平均数，道题到是刚入学的测验中答对对题数的标准差，是刚入学的测验各题答式中预测效度，前者对后者有一定的学习成绩有较高的相关体几何间想像力测验成绩与立相关系数较大，表明空) 3(699. 012. 194. 158. 355. 5103/22032203) 15( 1) 510(2) 59(4)

38、 58 ( 5) 57(10) 56( 3) 55( 1 xyrfxy结果效度关注测量工具与测验结果的推论与应用（“推论的适切、意义与有用的程度”）；避免过分依赖量化结果，应适切考虑质的分析；内容效度或结构效度很好，结果效度不一定好。验证时应注意：测验指导手册中对测验目标和测验效度的说明是否合理；基于测验结果，在给被试写出测验报告或推荐书时，有关推论是否恰如其分；对测验的优点和缺点是否在应用中过于夸大其实；能否把测验用到所测特性的范围之外；基于测验结果的解释和推论是否符合科学原理以及测验道德；测验结果能否给被试以及所有关注测验结果的使用者提供有益的帮助四、提高效度的方法控

39、制系统误差精心编制量表妥善组织测验扩充样本的容量和代表性合理处理信度和效度的关系适当增加测验的长度教育测量与评价的质量特性第三节第三节难度与区分度难度与区分度一、难度与难度系数的计算概念难度：被试完成题目或项目任务时遇到的困难程度难度系数：定量刻画被试作答一个题目所遇到的困难程度的量数，叫做题目的难度系数，也常称为难度值，用符号P表示计算方法二值记分题的难度值计算答对该题目的人数答对该题目的人数被试人数被试人数多值记分题的难度值计算某题的平均得某题的平均得分分该题的满分该题的满分练习题1：在100个学生中，答对第一题的30人，答对第二题的60人，求第一、二道题的难度？

40、比较这两道题谁比谁难？题2：某道论述题满分12分，所有考生在这道题上的平均得分为3.6分，求该题的难度？题3：语文测验第五题最高得分为12分，这道题考生的平均得分是8.5分，求该题难度？题4：60人参加考试，某题满分为12分，正确得分累积是480分，求该题难度？难度值的其他计算方法（1）以全体被试失分率为难度系数（2）以两端组被试得分率的均值为难度系数练习题5：某区域1000人参加考试，试卷第一题高分组180人答对，低分组60人答对，求该题难度？如果该题满分为10分，高分组得分总数为2100分，低分组得分总数为830分，求该题难度？二、难度指标的等距变换运用标准分数（Z分数）作为

41、题目难度的指标例：某校学生在一次测验中，第一题的答对率为15%，第二题的答对率为25%，第三题的答对率为35%，假定这三题所测量的能力近似正态分布，问第一、第二、第三题的难度差异怎么样？值越大，表示试题越难；值越大，表示试题越难；值越小，表示试题难度越容易值越小，表示试题难度越容易三、测验题目的恰当难度和恰当难度的分布测验题目难度水平的确定测验题目难度水平的适当与否，取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时，即被试在该题上全部答对或全部答错，则该题无法提供个体的信息。而只当P值接近于0.50时，题目才能把被试做最大的程度的区分。但在实际工作中，若每一题的难度值

42、均为0.50，那么此测验很可能只能区分出好与差两种极端被试的差异，却不能对各种被试作更精确的区分。因此，一般各题的难度可在0.50+20之间。测验难度对分数分布的影响测验难度影响分数的分布形态。难度值越接近0，测验的难度就越大，测验分数就越是集中在低分端，其分数分布越呈现正偏态；反之，难度值越接近1.00，其难度就越小，测验分数越集中在高分端，分数分布呈负偏态。测验难度影响测验分数的离散程度。测验难度过大过小，都会造成测验分数偏离正态分布，从而使分数的全距缩小，使测验分数的离散程度变小。测验难度影响测验的鉴别能力。在测验中，考生之间相互配对比较的可能性越多，就越有利于准确地鉴别考生的不

43、同能力。难度的影响因素及其控制主要因素：考察知识点的多少；考察能力的复杂程度或层次的高低；考生对题目的熟悉态度；命题的技巧。难度控制：正确估计考生水平；弄清弄懂各知识点；掌握命题技巧。第四节教育测量与评价中题目（项目）的区分度一、区分度的意义题目区分度（Discrimination)就是题目区别被试水平能力的量度，常记为D。又叫鉴别力，它是评价试题质量，筛选试题的主要指标与依据；区分度的取值范围介于-1.00 +1.00之间，值越大，区分度效果越佳；区分度D0为正区分，D50)，也可用下面近似方法：，也可用下面近似方法：，认为认为在在0.05水平上显著；水平上

44、显著；，认为，认为在在0.01水平上显著。水平上显著。二列相关系数适用于两个变量都是正态连续变量，但其中一个变量因为某种原因被人为地分为两类。正态分布下百分比正态分布下百分比p与与q分分割点所在位置的曲线高度割点所在位置的曲线高度解：解：p = 0.5333, 查正态分布表，得查正态分布表，得Y = 0.3975, 于是：于是：二列相关系数的显著性检验可用下列公式进行：二列相关系数的显著性检验可用下列公式进行：被试总人数被试总人数因为因为Z= 1.7950时，采用正态分布检验；时，采用正态分布检验；（2）当样本容量）当样本容量n85为优秀，75P85为良好，65 P75为中等， 55

45、P65为尚可，55以下为须努力8. FRC品德测验法（fact report computer）所谓FRC品德测评法，是事实、报告、计算机辅助分析的考核性品德测评方法基本思想：借助计算机分析技术从学生品德结构要素中确定一些基本要素，再从基本要素中选择一些表征行为或实施，然后要求学生自己就是否具备这些行为与实施予以报告。第十二章学生体育发展的测量与评价第一节第一节学生体育发展的目标及评价学生体育发展的目标及评价概述概述一、学生体育发展的一般目标1. 身体领域发展目标（基础目标） “健康第一”2. 体育认知领域发展目标包括体育运动或体育活动、身体及健康、安全与急救、体育发展历史、体育与社

46、会发展、体育与人类发展、体育与文化发展等领域或专题评价方法：观察评定、作业、书面测验、口头测验、研究报告等3. 体育情感领域体育情感领域发展目标，主要是指学生在体育教育教学影响下形成的意识、态度、兴趣、倾向性、习惯、情绪、鉴赏、审美、价值观、责任感、适应性、意识品质等。通常采用行为观察、评定量表、问卷测验以及档案袋评价的方式4. 体育动作技能领域发展目标哈罗（Harrow）把动作技能领域的目标从简单到复杂分解成反射动作、基本基础动作、知觉能力、身体能力、技巧动作和协调沟通六个层次辛普森的动作技能目标分类：知觉、定势、指导、反应、机械化、复杂的外显反应、适应、创作二、基础教育体育与健康

47、课程目标及评价1. 新课程体育与健康的设置思路与内容框架基本理念：坚持“健康第一”的指导思想，促进学生健康成才；激发运动兴趣，培养学生终身体育的意识；以学生发展为中心，重视学生的主体地位；关注个体差异与不同需求，确保每一个学生受益。设计程序：（1）确定课程的总目标；（2）根据课程总目标划分学习领域；（3）确定各个学习领域的目标；（4）根据学生身心发展特征，把中小学生的学习划分为六级水平，在各个学习领域设置年级水平目标；（5）确定具体的学习目标；（6）建立评价体系2.体育与健康课程标准中关于学习评价的要求学习成绩评定内容涉及：体能、知识与技能、学习态度、情意表现与合作精神；学习成绩评定的标

48、准，可采用绝对标准与相对标准相结合的方法进行。评定方法，可因年级、学习领域不同而有所差异。评定形式有教师评定、学生自我评定、组内互相评定等。第二节第二节学生体能发展的意义与内容学生体能发展的意义与内容体能（又称身体素质），是指人体在运动、劳动和生活中所表现出来的力量、速度、耐力、灵敏及柔韧等素质能力。学生体能，是指学生的各器官系统在运动、学习、生活中所表现出来的机能能力（包括力量、速度、耐力、灵敏和柔韧等基本身体素质）以及基本活动能力（包括走、跑、跳、投掷、攀登、爬越、悬垂和支撑等）。一、学生体能发展概述1. 力量素质的发展（1）发展的生理基础肌肉解剖生理特点：肌肉的生理横断面积

49、神经调节机制的改善骨杠杆形态的改善（2）发展的基本要素注重力量锻炼的科学性注重力量素质发展的生理规律2. 速度素质的发展（1）发展的生理基础反应速度动作速度（2）发展的基本要素年龄特点技术动作相关素质控制练习与休息的时间与节奏3. 耐力素质的发展（1）发展的生理基础有氧耐力无氧耐力（2）发展的基本要素充分考虑学生的年龄、性别及生理特点，在发展有氧耐力的基础上发展无氧耐力施加适量的运动负荷与间歇、练习过程中中等速度对耐力素质的提高最为有效4. 灵敏素质的发展（1）发展的生理基础大脑皮层神经传导的灵活性、机体的各种感官分析器机能、年龄与性别、体重、身高良好的精神状态（

50、2）发展的基本要素考虑年龄与性别特点，在运动机能形成的基础上发展灵敏素质力量素质越发展，灵敏素质就越要加强锻炼5. 柔韧素质的发展（1）发展的生理基础关节的结构、韧带、肌腱、肌肉和皮肤的伸展性年龄、性别（2）发展的基本要素循序渐进，不能动作幅度过大，超过正常的生理范围速度与放松练习相结合，注意动静结合，每次练习的时间不宜过长二、体育锻炼对体能发展的影响1. 体能锻炼主要项目（1）身体素质锻炼力量（握力、背肌力量、腿部肌肉力量）：仰卧起坐、单杠引体向上等爆发力：纵跳（垂直跳）、立定跳远悬垂力：单杠屈臂悬垂（女）、单杠斜身屈臂悬垂（女）柔韧性：站立体前屈、俯卧背伸灵敏和协调性

51、：10m*4往返快跑平衡性：闭眼单足站立耐力性：耐力跑、自由泳200m、滑冰1500m（男）等（2）运动能力锻炼跑：快速跑50m、100m 跳：急行跳远、跳高、摸高（弹跳力）投：投实心球、投手球、掷垒球、推铅球、投掷手榴弹2. 体育锻炼对学生身心发展的意义（1）促进大脑的发育（2）提高大脑的反应速度（3）提高记忆力（4）有助于掌握各种学科技能技巧（5）有助于良好品质的培养和智力因素的发挥3. 体能锻炼对体能发展的影响（1）对儿童的影响培养儿童的体育兴趣，促进身心的正常生长发育和内脏器官机能的提高；全面发展身体素质，学会正确的坐立行姿势，养成锻炼身体的良好习惯；（2）对少年的影响促

52、进少年的正常生长与发育，增强体质，形成正确的姿态和基本活动技能；培养兴趣、爱好，养成锻炼身体的习惯；掌握身体素质锻炼的方法；奠定少年终身体育的基础（3）对青年的影响增进青年的身心健康，为高效的学习和工作奠定基础第三节第三节学生体能发展的测量与评价学生体能发展的测量与评价一、学生体能发展的测量与评价原则1. 客观性原则2. 可靠性原则3. 有效性原则4. 实用性原则二、学生体能发展的测量与评价方法1. 台阶试验测试心肺功能适应水平2. 握力测试测量前臂及手部肌肉的力量测量仪器：弹簧式握力器或电子握力器注意事项（1）持握力器要手心向内（2）用力时禁止摆臂或接触身体（3）如果受试者分不

53、出有力手，可两手各测两次，分别取其最大值3. 坐位体前屈测试躯干、腰、髋等部位的关节、肌肉、韧带的伸展性和柔韧性4. 纵跳测试爆发性力量注意事项：起跳前两脚不得移动或有垫步动作5. 10m * 4往返快跑测试人体移动的速度和灵敏性（1）测试场地与仪器 10米的往返跑道若干条，在跑道的两端线外30cm处各画一条横线，木块4快，其中2块放在目标线外的横线上，1块放在起跑线外的横线上，1块受测量者手持。计时秒表若干个。（2）注意事项受测量者取木块时，脚不要超过起跑线和目标线6. 俯卧撑测试上肢的力量注意事项：撑起时躯干始终平直7. 一分钟仰卧起坐测试腹肌的力量测试仪器：垫子、秒表、

54、或仰卧起坐测试仪8. 闭眼单足站立测试人体平衡能力测试仪器：秒表9. 反应时测试机体神经系统动态反应速度的指标，也是衡量衰老程度的一个指标测试仪器：反应尺10. 背力测试测试背肌力量测试仪器：背力计11. 屈臂悬垂测试上肢屈肌群静力性力量耐力测试仪器：单杠、秒表12. 引体向上测试上臂屈肌群的动力性力量耐力测试仪器：单杠13. 50米跑测试人体的位移速度14. 立位体前屈测定髋关节及膝关节后侧韧带、肌腱及肌肉的伸展性15. 俯卧背伸检查脊柱的伸展性测量仪器：直尺测试方法：受测量者取俯卧姿势，两腿伸直，两脚左右分开45cm左右，另有助手帮助受测量者固定两腿。然后令受测者将双手置于头后慢慢仰头。伸背，尽力将上体抬高、测试人员手持直尺测量下颌点置地面的垂直距离。16. 立卧撑测定灵敏和耐力素质测试仪器：秒表注意事项：令受测者由直立姿

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量与评价全套

文档简介

温馨提示

最新文档

评论

相关文档