![9[1].标准化测试 第七组.doc_第1页](http://file1.renrendoc.com/fileroot_temp2/2020-3/6/0b414017-5e45-4af9-83b8-861396130c7b/0b414017-5e45-4af9-83b8-861396130c7b1.gif)
![9[1].标准化测试 第七组.doc_第2页](http://file1.renrendoc.com/fileroot_temp2/2020-3/6/0b414017-5e45-4af9-83b8-861396130c7b/0b414017-5e45-4af9-83b8-861396130c7b2.gif)
![9[1].标准化测试 第七组.doc_第3页](http://file1.renrendoc.com/fileroot_temp2/2020-3/6/0b414017-5e45-4af9-83b8-861396130c7b/0b414017-5e45-4af9-83b8-861396130c7b3.gif)
![9[1].标准化测试 第七组.doc_第4页](http://file1.renrendoc.com/fileroot_temp2/2020-3/6/0b414017-5e45-4af9-83b8-861396130c7b/0b414017-5e45-4af9-83b8-861396130c7b4.gif)
![9[1].标准化测试 第七组.doc_第5页](http://file1.renrendoc.com/fileroot_temp2/2020-3/6/0b414017-5e45-4af9-83b8-861396130c7b/0b414017-5e45-4af9-83b8-861396130c7b5.gif)
已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章 标准化测试第七组模块30:标准化测试问题概述和学习目标 540高风险测试和解释 541应用程序:使学生在危险中适应 545考试公平和考试偏见 547教师证书和执照 549总结 552关键概念 552个案研究:反映和评估 553预备:当你阅读这个事件,记笔记:1、 谁是这个事件中的主要参与者?描述他们。2、 什么正在举行?3、 这事件在哪里举行?环境是一个因素吗?4、 这个事件什么时候举行?时间是一个因素吗?幼儿园准备简沃尔特斯和Ms.Sidney Theesfild是本特利小学的幼儿园老师,这所学校在亚利桑纳州。在四月的这个星期,老师们都在忙于开展为新进来的幼儿园班级的预备测验。这个测验帮助老师确定每个孩子的优势和弱点,这样老师能够适当的调整指导和社会经验来更好的满足学生的需求。当八月份开学时,简和Sidney已经计划和潜在的进入幼儿园学生的父母进行30分钟的拜访。老师们轮流不同的角色,当一个和孩子进行一对一的预备评估,另一个在会见孩子的父母或监护人,分发关于幼儿园准备的小册子及回答父母或监护人的问题。春季学期要在简的管理下的实习生-艾米谢尔比,将会来监察一些考试管理和家长会的事务。简和Sidney在见面会开始前正在做一些最后的准备,也让艾米准备好所期望的事情。简开始:“艾米,现在你还没有资格参加我们用于测试的BRIGANCE K&|Screen-2考试,但你可以进行观察。我让你练习给测试,这样当我们完成筛选你就能够问好问题了。你知道我们需要准确地按照写在测试材料的指导来进行,对吧?”“是的,我已经在家里练习过,把指导语念给我舍友听了。”艾米回答道。Sidney插嘴道“好,施测实际上是一个简单的部分。更难的部分是回答家长的问题。简,你还记得去年十一月的家长老师会议上的杰克逊女士吗?她想让她的女儿跳读幼儿园。”Sidney转向艾米继续说:“她认为她的女儿应该上一年级,因为她的女儿在我们这个地区的识字评估中的等级等效得分是1.2。”简回复道:“是的,我们花了30分钟才说服她,这个等级等效得分是没有意义的,等级等效得分不能用来让学生去读上一级或者下一级。我很高心我们决定停止提供这些分数给家长,这只会引起混乱。”艾米回答道:“测试得分很难解释给另何一个人。昨晚我试着向我舍友解释这些分数,她不明白为什么一个孩子如果她得了高于测试的平均分两分,而不会被认为是高于平均水平。我试着解释这平均水平通常是指一系列的分数,不是确切的平均值。”“是的,在会议上我们通常不需要向家长解释测试分数。反正,艾米,在孩子的筛选会和家长会上你和我坐在一起观察和评论就行了。”简回应道。当她们开始查看今天的第一个孩子的档案时,Sidney说:“艾米,我忘记问了你有没听说你的教师资格认证考试怎样了?”艾米答道:“是的,我已经通过了亚利桑纳州的许可,但是我的未婚夫和我计划七月份搬到犹他州,所以真的不做我多好啊!我将会一样在犹他州通过州的认证考试。我不明白为什么许可证的发给只在一个州有用而不适合其他州?”简宣布道:“好了,我们可以一整天争论州和国家许可证的发给,但是我看到我们的第一个孩子已经到达。”她转向门口的同时她听到一家人进入了教室。“早上好,我是简,你一定是玛利亚桑切斯。我敢肯定成为一名幼儿园老师你会很开心的。”简笑了一笑和眨了一眼说道。玛利亚没有说一句话,她羞怯的朝着伴随着她筛选的两个女士看。年长的女人转向年轻的女人用西班牙语说着一些事情。这个年轻的女人用西班牙语回答,然后她转向简:“我叫安娜,我是玛利亚的姐姐,我是我家里唯一一个会讲英语的人。我今天一起来是为了给我的妈妈和妹妹翻译,这样可以吗?”简回答道:“好的,我非常高兴你的到来。我们有西班牙语版本的筛选,我们会用这个,给孩子做筛选测试的是一个受过专业培训的会讲西班牙语的人。所以在这场筛选中我们不需要你的帮助,但是欢迎你在家长会上帮忙解释给你的母亲听。”安娜转向她的母亲,用西班牙语交谈了一两分钟。安娜问道:“你意思是说在测试时我不能和玛利亚在一起吗?我的妈妈担心她会被认为落后于其他孩子,因为她的英语。”简向安娜确保:“请告诉你的母亲这整个测试都是用西班牙语进行,所以这个测试分数会根据玛利亚的能力,不是她的英语技能。好吗?”再次,安娜翻译给她的母亲,她母亲向简点了点头,但是看起来并不相信。评估1、 你认为教育者应该为进入幼儿园的孩子进行预备测试吗?为什么能或为什么不能?2、 为什么玛利亚的母亲会关心她的女儿的成绩将被用于学校?预备:当你阅读这个事件,记笔记:1、谁是这个事件中的主要参与者?描述他们。2、什么正在举行?3、这事件在哪里举行?环境是一个因素吗?4、这个事件什么时候举行?时间是一个因素吗?小学:键盘控制台在过去的两年中,亚历山大鲍曼是林肯小学的校长。这所市中心学校包括来自不同的种族背景的不同的学生团体。这所学校的阅读标准化成绩在过去的两年比以前有所提高,但是在过去的这个学年,三、四和五年级的成绩下降了且低于州的截止水平。在离开之前的一天,亚历山大鲍曼发了一份电子邮件备忘录给所有的老师和老师助理,信是这样写的:致:林肯小学的老师来自:亚历山大鲍曼小姐主题:春季测试的建议日期:2008年10月29日2008年10月29日下午好,我们未来的老师的在职培训计划在11月14日进行,同时包括标准化成绩。我们几个年级的阅读的标准化考试分数与先前的几年相比较去年有所下降,且低于州的的截止水平。我希望你们每个人能在下周五发一份关于标准化考试分数降低的原因以及可能的解决措施的电子邮件给我,这样的话我们可能在11月14日讨论这些。请给我一封具体的建议这样在未来的几个月里可以实施,为了准备春季测试会议。真诚的,鲍曼小姐早晨,校长已收到了许多的回复,老师和职员总是在线互动比在面对面互动多。这些电子邮件包括以下这些:费尔南德斯小姐(四年级老师):我们的测试分数下降了是因为我们有太多的学习障碍学生和学生没有被提供适当的调节。我们需要对每个孩子都做一个充足的评估决定适当的调节,这样在未来我们可以确信我们的考试成绩都不受这群学生影响。惠特尼先生(五年级老师):问题是我们使用正常的参考测试,然后我们征收标准参照测试的解释。如果我们的测试分数与国家标准比较只是稍微的低于其平均水平,那这样我们的测试分数稍微的低于所掌握的州的截止水平就没有关系。我们仍然在平均距离,我同意我们都不想这会变成灾难性的急剧下滑,但是我也不想我们应该现在就恐慌。勒布朗女士(阅读专家):我每天都和在阅读句子有困难的学生在一起。这个标准化测试需要在短短的时间内阅读许多,我们需要允许某些学生有额外的时间去完成那些测试。我不确定如何决定哪些学生需要得到额外的时间和应该允许多少的额外时间,但是一些学生绝不可能在规定的时间内完成测试。赛费特女士(五年级教师助理):我们的学生需要更多的考试准备,许多学生不熟悉测试格式和不明白如何完成电脑答题纸。我们应该让全部学生进行练习演练。也许他们可以接受去年的测试,或许我们能够给他们类似的标准化成绩测试这样他们可以进行技巧的训练。Ms.Rivadeneyra(特殊教育教师):去年的测试分数不能精确的反应我们的学生的能力。记得这个测试之前的那周,我们两个街区遭到射击,不得不锁住学校直到那天下午五点。我认为许多学生还是被这个事件吓着而没有像我们期望的表现那么出色。我的猜测是如果这场测试在遭到射击之前举行,测试成绩就会好很多。我不认为我们应过度的关注这测试分数。华盛顿先生(四年级老师):我不明白这个问题,我们的测试分数只是低于全国平均水平半个标准偏差。我们的学生主要是由低SES测试成绩家庭的孩子组成。从我们服务的人群来看,为什么每个人都期望从我们身上得到更多的东西呢?Ms.Cong(三年级老师):我非常高兴您能那么认真的对待这件事,我知道这只是我第一年教书,但是当我看到我们的平均百分位数得分跨越的48个等级,我很吃惊。如果我们的学生在测试中甚至一半的问题都不能答对,我们就不能单单做自己的工作。我不明白为什么有些事在先前的几年当我们的平均百分位数得分还比较低时第46级百分位数时没有被做。我们需要讨论在课程中的根本的变化。评估:1、 当你阅读完老师的回应,你认为亚历山大应如何关心下降的标准化测试成绩。2、 给每个人的电子邮件一个分数根据你认为解释关于测试分数下降的准确性(1=一点也不准确,2=有些准确,3=非常准确)。3、 给每个人的电子邮件一个分数根据他们的关于提高测试分数的建议如何有用(1=一点也没用,2=有些有用,3=非常有用)。预备:当你阅读这个事件,记笔记:1、谁是这个事件中的主要参与者?描述他们。2、什么正在举行?3、这事件在哪里举行?环境是一个因素吗?4、这个事件什么时候举行?时间是一个因素吗?中学教师在作弊吗?丽莎加里森作为一个社会科学教师在Tri-county中学12年,目前,在校长医疗请假的8周她作为代理校长。丽莎已经通知所有老师在今天放学后留下,开一个关于每年一度为期两天的标准化测试的程序的简短会议,这测试将在下周举行。当她在她的办公室准备会议时,老师们开始进入邻近她办公室的教室。她不由地听到一些交谈。她听到哈尼女士说:“我们每年都做,我不明白为什么我们需要开这个会议。”马尔科姆先生回应道:“好的,去年有一些人推测老师在为学生作弊。我相信我们今天将会涉及这个。”哈尼女士回答道:“我不知道作弊被期望的意思是什么。我从来没有给我的学生答案或者测试时给额外的时间。我让我的学生完成测试和把他们的答案写在小册子。然后,测试结束后,我从我的生活中抽出时间来填充他们在答题纸上的答案。他们中的许多人没有对它有足够密切的重视,只是按照顺序完成测试,弄错测试的结果。填充答题纸保证了他们的答案被正确地记录。那不是作弊。”丽莎走进了会议室。“大家下午好,我知道大家都很忙,但是我只是我们应该讨论一些我们下周将要进行的测试的基本程序。我先问一下谁对这个程序有任何疑问的.。”Mr.Rient 问道:“是的,这是我第一年给学生进行测试。我已经阅读了测试的所有说明及时间限制,我想我会在下周进行测试。我的问题是我的学生在教室通常被给予额外的时间和帮助,对于他们我该怎么做呢?”丽莎回应道:“那是一个完美的问题,你们许多人在给学生测试时可以给予需要帮忙的学生帮助。各种员工在几个星期前就已经参与到这些孩子中确认在测试期间学生的住宿类型应如何安排。我这有一份说明书是关于每一位学生是如何被正确的安置。在会议结束后我会把说明书发给你们的学生。所以请让我知道当你们阅读完说明书后是否有任何问题。有任何其他的问题吗?”“是的,我有一个问题,”开始的是哈尼女士,“我明白去年的一些推测是老师没有正确的按照程序。你可以告诉我们更多的关于这方面的事吗?我发现很难相信老师在学校里会作弊。”丽莎回答道:“我不能肯定地告诉你作弊是正确的字。这个问题是一些老师没有按照测试说明书上安排的标准程序来做。比如,学生必须完成自己的答题纸,但是一些老师在测试完成后填充答题纸。还有,一些人推测有个别老师允许他们的学生有额外的时间完成测试的阅读部分。这两个问题在去年提高了,这也是为什么我们在今天举行了这个会议。我们需要确保我们全部都正确地遵循程序。”Mr.Rient问道:“去年我们的分数高于全国平均水平是真的吗?那是什么意思,州政府拨款?如果今年成绩再次提高,我们会得到额外的资金加薪吗?”,丽莎回应:“我们的分数只是高于平均水平半个标准偏差,我们跳过去年的第50级的百分位数,从第63级的百分位数的九分评分制的5分到九分评分制的6分。如果今年我们正确地遵循程序,我们的测试分数会下降。我们也许会被彻底的调查,因为测试分数不应该大幅度地来回波动,至少不是测验本身造成的。此外,重要的信息不是我们如何和全国平均水平作比较。我们需要关心的是实施由州政府制定的不让一个孩子掉队的标准。”评估1、 根据丽莎提出的信息,你认为Tri-county中学学生是低于平均水平,还是在平均水平,还是高于平均水平?2、 你认为,去年哈尼女士完成她的学生的答题纸是作弊吗?3、 在标准测试中给予能力不足的学生额外的时间和帮助,是公平的还是不公平的?解释你的答案。预备:当你阅读这个事件,记笔记:1、谁是这个事件中的主要参与者?描述他们。2、什么正在举行?3、这事件在哪里举行?环境是一个因素吗?4、这个事件什么时候举行?时间是一个因素吗?高中美国高考分数星期一早晨,阿莱克西亚福特纳早早的来到学校准备即将到来的高级数学课。她的几个学生整个周末都在进行美国高考。她相信今天大部分的讨论都会围绕着他们的分数和上大学计划,这样的话他们就有测试分数了。在过去的几个星期,阿莱克西亚设法帮助准备考试的学生,给他们进行有答案纸的课堂测试,伴随着减少考试焦虑的技巧,让他们用一节课的时间来做数学练习,这些练习来自官方网站的高考测试。阿莱克西亚收到到陆聪的信时总是特别兴奋,陆聪由于她的有限的英语水平,而在州的成绩测验中得到了特别的调适。她特别紧张能否在高考中表现良好,以便于能够进入一所好的大学。阿莱克西亚在过去的几个星期花了相当一部分时间和陆探讨,如果她没考好,又没在测试中记住需要保持冷静的重要性,而在压力下崩溃的话,能进入一所社区学院的可能性。阿莱克西亚问候了她的第一个学生J.T.:“恩,你在这周末的高考中如何,J.T.?J.T.自豪的宣布,带些骄傲的声音,“我在数学考试中得了600分,我相信我将能够进入州的大学。”他继续用一个更加关注的音调,“贝瑟尼只得了400分。她昨天哭了一整天,她开始认真的查找社区学院。我一点都不会奇怪,如果她今天没来上课是为了避开别人问她关于分数的事。”陆带着腼腆的笑容走进了教室,用她的断断续续的英语说着,“福特纳女士,我的数学得了500分,我想应该足够了!”阿莱克西亚回答道:“哦,太好了!你一定是用了我们在课上提及的放松的一些技术,用你的时间好好想想,还有”特雷沃当他进入教室时打断了(谈话),“不要问,任何人都不要问我关于高考的事!”阿莱克西亚扫视了一下教室,看到一些学生非常高兴他们的分数且在准备谈论,但是一些学生看起来没有那么热切。贝瑟尼低下头进来,避开所有的视线接触。阿莱克西亚决定今天最好省略关于高考分数的讨论。“好了,大家早上好,我们准备讨论上周的家庭作业”放学后,阿莱克西亚跑到在门厅的汤姆哈里斯那里,他是学校的一位辅导员。“你好,阿莱克西亚,你听说关于陆的高考数学分数的消息了吗?她确实非常兴奋,相信她感激你给她的在考试焦虑问题中的全部帮助。”“是的,今天早上她告诉我的第一件事。我非常高兴我能够帮助她。你听说任何关于特雷沃的事吗?”阿莱克西亚问,“他今天早上看起来对他的分数非常悲伤。”汤姆回应:“哦,这没有那么糟糕。我听他告诉一些人他数学得了600分。他认为这将会阻止他进入顶尖大学。我不得不承认我非常吃惊他的分数那么低不是600分低但是他是一个那么出众的学生,在我们的州成绩测验中通常他的分数非常高。我不认为这个分数能准确的代表他的能力。你呢?”“好吧,正如你一样,我并不知道他的整体的学业分数,我只知道他看起来是个很阳光很有上进心的学生,可以这么说,对待成绩上,他并不像绝大多数的学生那样紧张,很可能他并不认为这是一场交易-或许他并没有准备好”alexia回答道。Tom 开始说“好吧!也许他的成绩低只是因为他是个黑人,我自己身为一个黑人,我知道一遇到那些重要的考试,我就会很紧张,这样,就正如我意料的那样,从来没有拿过高分,在SAT上,我是有困难的。以至于在我后来的生活中,对于当教师资格证上需要的实践1和实践2课的考试,我认为基本上所有的标准化考试想这样很基础的,都会令少数的学生碰壁。”Alexia回应,也有一些应对措施可以做呀,我也知道他上一周流行性感冒特别严重,也许他的病也对这个产生一定的影响。思考题:1、 你认为,alexia在课堂上花时间帮助他的学生准备SAT是否合适,理由?2、 在上述事件中,提供了4个学生的数学sat,你认为基于这4个人成绩能否判断这个学校学生成绩是低于、等于、还是高于平均值?是否有很多不一样的分数去判断?3、 你是否同意tom对少数学生的标准测验低分数的解释?你的回答是源自意识、经验、或者其他的信息来源?标准测验分数和分数概要标准测验的类型标准测验的种类标准参照和正规测验测量的基础概念主要分布趋势及可变性正态分布分数类型原始分数百分数同等级分数标准分数好的问卷的特点:信度效度学习目标1、 描述标准测验的四大种类的目的及教师如何应用标准测验2、 解释标准参照和规范参照之间的不同3、 解释一个这个太分布的基本特征4、 描述检验份额数的四种类型,并分析各种类型的优缺点5、 为什么说信度和效度是检测质量的两个重要因素,为什么老师需要这个测试信度来解释测验分数标准化检验的类型你一生要做多少个标准化测验?你能回忆起你为什么做那测验。或许你做SAT或ACT为了高考,或组做PRAXISI测验可以让你从事教育项目中毕业,在我们思考所有等级水平的教育者为什么用标准测验,我们首先需要对标准化测验下一个准确的定义,标准化测验从两个维度上区别3、 他们是有测验专家在公开场合创造的4、 所有接受测验的学生都是在相同条件下的(因此标准)例如:给所有学生相同的指导语,测验项目时间和分数评判标准是限制或许在没有标准答案的测验里,你们得分相似,正如你从小学测验中拿到成绩一样。课堂小测,经常是有个别老师组织的,首先检验特定的教师学习的效果,且这种检验通常是针对课程的某一块领域的。 老师有可能在教室里的测验当做评价学生知识的一个标准-?评估包括任何及所有勇于手机资料集做出推论或判断关于个人或一个项目的过程步骤格式化的任务。例如作为家庭作业和知识竞猜,是老师们能够计划其教案说明及检查学生进步尽快能通过一系列等级标准。为了学生一单元后或某一时期末对多学习的内容进行质量上的评估,老师所用的xx评算方法例如考试或积分。 像一些课堂测验一样,标准测验经典滴运用于xx估算。但他们的精神集中于像某一阶段精神的进步而不是在总体上精确的成就的更狂光的学习领域。课堂测验与标准测验的不同,请参考table29.1课堂测验和标准测验比较课堂测验标准测验目的形成和总结典型的总结内容具体的内容涵盖课堂教学及具体时间框架具体或大概的重点包容雪多区域或测验条款资源有任课老师编写的由专门的专家创作管理步骤灵活测验学生不会的货特殊的需求标准包括所有的设置及个别的长度通常比较短,少于一个小时通常很长,几个小时的评分过程典型的教师评分典型机器评分信度很低很高分数个人的数或部分正确(划分分数)与确定的正规团体的比较(改变划分分数)等级制用于分配课程等级分配课程等级资料出处:haladyna,2002你会记得,在高中的时候,哪一次标准测验是检测初级的?你认为他们这样做的目的是什么?当你阅读这些标准测验种类的时候,思考一下这些测验标准测验的种类:标准测验有许多目的,一些标准测验-陈伟单一科目调差问卷阿什呢,包括一些潜力测验关于具体领域的,例如在数学上。其他的标准测验包括了一连串的系列测验,它们用于连接另一种测验以提供更宽,更具大众化图画成绩,这包括像词汇拼字 阅读理解力 数学计算能力和解答数学问题的能力,基于它们的母的,标准化测验分为四大种类(chatterji,2003)正如以下所描绘的,总结在表29.25、 标准成绩测验:对于现有的只是进行估算,它包括学次的结果和技巧,无论是在大众领域还是特殊领域,标准化成就测验不需要是适应任何一个特殊的洲或学校的课程(地方课程)。相反,它们常常在辨认个体学生的优缺点,正如它们的学校区,准备就绪的测验,就像成就测验,在不同的学术水平上来检测年轻的孩子的现代技能。(阅读,数学 词汇)和学校教育的非学术结果(动作技能 社会技能)的领域和经常用于做人员配置及课程的决议在早期初级的年级。6、 标准能力测试:对未来的潜能进行评估-或有资格的学习。总体上说或从特殊的领域来说。能力测试一般是特殊学校用于录取或选着的目的去录取学生(中学或大学)或特殊的班级或课程(高级数学)。标准智力测验被认为是能力测验时因为他们的目的预测学生在学校里的成就。7、 事业或教育兴趣调查:通过个人兴趣获取合适的活动类型,这些概况典型的是用来帮助高校或大学学生在计划第三高等教育,同样也适用于帮助公司或企业在选择员工。这些测验中有部分也被认为是资质测试因为他们可能预测未来的成功。8、 个人测试 获取个人的人格特点,比如兴趣,态度,价值,和部分行为。个人测验的使用受他们教育水平的限制,因为以研究所等级的培训为主的心理学家和辅导员使用它们是为了诊断的临床病症,也因为大部分的个人测验只适用于个体大于18岁的人。 大部分的标准测验由老师用于测验一个团体的。团体管理测试相对比较简单执行和统计,是它们更具有性价比。个人管理测验 例如个人测验和IQ测验,要求专家培训 时间管理 时间的得分和解释,这些所有的将会花费更大的成本。虽然这些老师通常的不是用来训练管理这些个人测验,他们在会议上会碰到这些单独进行测试的分数用于确定学生是否有资格接受特殊教育和相关服务解释考试成绩包括理解不仅这个测试的措施-一般与专业知识或当前专业与未来的潜力-以及这个测验时怎么评估。一个测验的得分是量度制,这是指定一个定量或描述的号码在这个评价的过程。但是从一个测验本身的评估事不会被拆卸。评估是主观判断或解释一个测量或测验分数。(Haladyna,2002)。举个例子来说吧,一个学生进行一次测验,正确地回答了30个问题中的20个(评估),但是这个分数是会被解释为“好”分数,先前的分数是一个“改进”,或者“大大低于”期望的分数是评估的一个问题。标准测验通常要是被设计这样所有的测验就可以被评估,这个方法是把它比较于特殊标准测验(标准)或对数据编译从许多相似的个人测验分数。标准参照测验,从学习目的来看,把个人测验分数比作原先装置的标准,或说业绩考核标准。多次的标准参照测试时用于测试特殊技能的掌握或教育目标以提关于个人知道与否的资料。律师、医生、护士、老师必须参加标准测验和满足指定标准才能为他们的职业注册或持得有效证件。一些测验时学生做的-也是引用标准的测验。常模参照考试把被试的绩效比作一个类似的团体的绩效,称为定额抽样。一个定额抽样是代表一个团体的人口测量学的个人团体,像性别、年龄、种族和社会地位之类的。例如,对于一次标准测验一个标准样品可以是所有五年级的学生,所有一个州里的五年级学生,或一个区域里所有五年级的学生。对于一个全国性的标准样本用标准测验,像成就测验列在表29.2,为了准确释义需要大样本(大概100000个被试)和代表学生的数量。这个测验在常模参照考试是用来区分在个体被试中,可能达到的最高学历。例如,一个常模参照考试数学成就测验也许通常用为了选拔在一所学校内顶尖小学的学生,去适合一个有限位置的天才项目。 这两种类型的测验巨大的差别在于目的或处境,这是对任何一种测试都是最有用的,正如在表29.3显示的。当双重解读没有起作用的时候,这种测验类型不会提供关于是否掌握或某个人的优缺点的信息。但是他们将通过个人用测量的基本概念的对比测验分数提供足够的信息,如下讨论。标准参照测验和常模参照测验的比较标准参照测验常模参照测验目的 确定在一个特定的掌握水平把成绩相似的被试进行比较内容特殊的领域或具体的领域宽广的领域或具体领域项目选择难度相似难度水平跨度大分数按照标准得出数字或正确率与常模群体比较的标准分数,百分率,或等效等级分数测量的基础概念为了精确解释测验分数,老师必须理解一些基础测量的概念,这样才能运用于同时发生的另一个估算的个体学生以便推算整体的,像在教室或学校范围内的。主要趋向及可变性一个基本措施构成评估或对比的是必要条件的是中心趋向-一个分数可以典型地代表一个全部的群体。我们可以检查班级的一组或标准测验的分数,假设你教一个班级的11个学生谁在第一次获得这样的分数:63 65 72 75 76 78 83 87 92和98。哪个措施将告诉你这组好吗的中心趋向?三个类似的中心趋向统计类型分别是平均数,中心词和众数。4、 平均数:把所有的数加起来再平均一下就可以找到平均数,或单纯地平局数,把这11个分数相加(和=876),然后进行平均得到79.64。5、 中位数:把数字按从小到大顺序排列,找到中间的那个分数,在这个案例中,中位数是78,这个中间的价值,因为左右各有5个数。在一系列数字钟,这个中位数,有可能是正好中间数或平均数或者是两个中间数。6、 众数:是指在一个数列中出现次数最多的那一个,在这个数字列中,这个众数是87。这个分数没有多余的书。一个数字列分数也可能有双峰,当两个不同的分数同时出现时有两个众数。平均数 众数 中位数都是提供关于在一个数字列中典型分数的信息,但是没有给我们提供关于其他多样性的信息描述分数的广度或扩展,在一个特殊的群体里,比较着两组的测验分数。数据29.1:一个简单的标准测验分数报告表。许多成就测验提供2种分数。标准参照分数,在绩效目标成绩都列在这里,测量学生实际掌握的。规范运用分数是这份报告的基础,允许在被试间进行对比。 绩效目标 特拉诺瓦TM第三版, 客观的主题 学院学生 中等掌握范围 目标绩效指标 完整的分数 智商差异 0 25 50 75 100采个人简介 ,part1 阅读PAT华盛顿 02基于理解的基础上 91 79 12 48704年级 03分析测验 92 84 8 5275模拟 日期 04含义或趋势估计 65 66 -1 50-70 目的: 05确定的rdg.战略 70 74 -4 45-73 这个报告呈现的信息是关于学生 语言在特拉诺瓦和个人评估的表现。 07句子结构 63 68 -5 45-70 Page1客观描述了期末成绩的成 08写作策略 59 74 -15 50-75 就,和同学们在一起做作业,这 09编辑技能 78 63 15 55-75 种信息可以用来确定可能的力量 数学和需要在一个满意的领域 10数与数的关系 71 69 2 47-77 生产日期:02/08/98 11估算与估计 83 72 11 45-75特别代码 13 测量 66 86 20 45-60 Abcdefghijklmnopqrstuvwxyz 14几何学者和空间知觉 71 72 -1 5078 3 5 9 7 3 2 1 1 15数据统计或可能性 61 83 -22 5278: 表格/水平G-14 16代数的函数模式 77 88 -11 4473 考试日期:04/15/07得分:模式(irt)17可能的解决和原因 71 74 -3 5275 质量值:31 标准日期:2007 18 交流 69 68 1 4373 班级:琼斯 科学 学校:温菲尔德 19科学调查 47 74 -27 5075 区域:绿洲山谷 20心理科学 49 69 -20 5277 21生活科学 46 83 37 4578 城市或洲:美国海纳通 22地球太空科学 52 84 -32 4873 MCGRAWHILL 23科学与技术 48 78 30 5269 24个人或社会的观点 52 56 4 5073 社会学习OPI是一个项目数字的估计,这数 26地理观点 79 91 12 4870据学生可以期望回答正确如果有 27历史和文化 84 92 8 5275100个客观的项目 28人民和政府 66 65 1 5070关键 29 经济观点 74 70 4 4573适当的掌握范围 低掌握 掌握范围 高掌握范围 规范应用百分比测量分数微分预期标准曲线相同获得标准曲线预期全国百分比全国百分比全国百分比范围全国百分比测量1 10 25 50 75 90 99阅读 664 35 47 23 45 3256 语言 678 同上 34 57 22 64 5372 数学 674 41 48 29 47 3760 总分 679 同上 35 55 24 59 5066科学 668 36 45 26 41 3650社会学习 662 38 43 28 37 2748 1 2 3 4 5 6 7 8 9 总分数包括阅读、语言 数学 当出现明显的不同,则呈现或上或下 全国百分比测量 图29.2:或大或小的标准 1班的分数:6, 7 , 7, 8 , 8 ,差的正态分布,在较小标准差里, 2班的分数:4,7, 7, 8, 10代表这些数值较接近平均值 这两个班级的平均数书相等都是7.2,但,一个较大的标准差代表大部分 是分数在2班显示出更多的变化,这个不同的数值和其平均值之间差异较大; 的计算就像最高和最低两个分数,对于1班 说,变化幅度就是2(从8到4),但是对于2 班来说,变化幅度就是6(从10到4)。在不同分数的测量方法中最通用的是标准差(SD),表示一个数组不同的程度。标准差是比范围更难估算。:标准差是一组数值自平均值分散开来的程度的一种测量观念。这似乎比刚才听起来更复杂。对于测验分数的解释,理解标准差比这个推算重要。在图29.2中显示了两组不同的分数在高标准差和低标准差的区别。 一个小的标准差与之这大部分的数值都比较接近数组中的平均数。对于一个班级测验,老师大概都希望所有的学生都可以取得很好的成绩,每个人成就都很接近,也就预示着,所有学生掌握了课程目标。一个大的标准差则标志分数都比较分散,在标准成就测验,差异程度比较大不只是典型也是一种理想的状态。因为一个测验的项目的设计师用于测量在一大区学生中在成就上的的显著区别。 在1班和2班的例子中,1班的标准差是0.84,2班的标准差事2.17。哪怕是一小组数字,这个差异都是明显的。无论如何,在一个大的数组里,想几千个学生数据做一个标准成就测验,这个标准差提供一种区别分数的科学测量方法。正态分布一个频率分布显示了一个团体的虽有分数,这个分数可以描绘成直方图,或柱状图。举个例子来说,图29.3显示了在教育心理学的课程的最后等级。最后的等级是沿着沿水平轴,那些学生拿到自己最后的等级是沿垂直轴分布,正如图29.3中分布的那样,这个课程中7个同学失败,17个同学获得D,45个学生获得C,37个学生获得B,还有15个学生获得A。这个图中更多的分数是位于中心数的右边,位于右边的分数比较少,这表明这个分数是偏态分布的。在频率分布中歪斜或对称性或不对称性,告诉我们一个测试时怎么做的。负偏态区别,整日29.3,显示着这个分数的分布在高的极端。正态分布的描绘分数主要集中在的是低的极端。(长尾巴的权利),负偏态分布的教室测验是老师所希望得到的结果。(i.e.被大多数学生掌握),在标准测验中,正态分布表明测验有很多难的问题,负偏态则表明这个项目的题目太过容易。对于标准测验来说,我们希望的频率分布是对称的钟型的,也叫做正态分布。(看图29.4)正态分布图一般出现在SAT分数和智商测试,(看图29.4和29.4)一个正态分布有许多内容。 50 图29.3是教育心理学在最后 45 的等级成绩。纵坐标表示学生人 40 数,横坐标表示最后的等级。 35 30 25 20 15 10 5 0 E D C B A 平均数,中位数和众数都是相等的,分布在区域中心,这表明一半的得分高于平均值的,一半的得分低于平均值的。大约有68的分数位于平均值加(或减)一个标准差,大约有95的分数位于平均值加(或减)两个标准差,大约有99的分数位于平均值加(或减)三个标准差。测验分数类型原始分数教室和标准化考试都先产生一个原始分数,这通常是正确答案的数目或比例。对于评价课堂测验结果,通常是用原始分数;对于标准参照测验,则要对原始分数进行比较,以供解释预设标准(例如,通过/失败,精熟/ 不精熟);对于标准常模参照测验,原始分数更常见的是被测验的开发者转换或转化,以帮助提供一致的评价和易于家长、教师理解的分数的解释。百分分数百分分数(或职级)是指列出所有原始分数从最高到最低,并提供对测验考生有关标准样本的所得分数的低于或等于该原始分数百分比资料。例如,80百分分数意味着该测验考生取得相当或高于80%的所有测验考生标准样本。小心不要把正确答案的百分比和百分分数混淆了。百分分数是个人成绩在标准样本中的比较结果。例如,一个人能够正确anwer的100个问题(65)的测验,但该评分百分排名将对取决于其他测验考生的表现。如果65分是在原始的成绩正态分布的平均数(钟形曲线中的中间值),那么将有65这个原始分数的百分分数为50,这意味着50的标准组得分低于或等于65。百分分数的一个问题是,它们不是同样分布在正常的曲线。一个原始分数在分数分布中间的小不同就可以导致百分评分大相径庭,而在分数分布的极值上(即上,下两尾),要扩大学生原始分数的差异,却必需要提高百分职级。这意味着,在正常曲线中间百分分数差异小,在两端的正常分布将百分分数的差异大。举一个例子,看图29.4b中每个分量表的SAT成绩正态分布情况,假设百分分数如下:学生成绩为500百分分数为50学生成绩为600百分分数为84.1学生成绩为700百分分数为97.7学生成绩为800百分分数为99.9基于百分成绩,学生B似乎明显优于学生甲(百分评分分别为84.1、50),和学生C和D似乎表现非常相似(百分评分分别为99.9、97.7)。实际上,在学生之间的性能差异是完全一样的(100分)。因此,两学生的百分成绩是不能作比较的。百分分数的解释只涉及一个学生的分数与整个标准组的比较(例如,一个学生表现优于或等于50的所有测验考生的性能)。等级水平分数 等级水平分数是基于中位数得到的一种关于标准组的特殊职等。例如,一组六年级学生进行标准成就测验后中位数为100,那么所有得分为100的学生的等级水平分数(GE)为6.0分,或者说六年级的开始。其中6表示年级水平,0表示该学年的开始。由于一个学年中有10个月,因此可以用十进制表示在学年的月份。假设在新学年的所有六年级第7个月平均数为120,当时得分为120的一名学生的等级水平分数为6.7。等级水平分数往往被滥用,因为个体认为等级水平分数可以以数理统计的角度解释学生的的表现。然而,等级水平分数有更多的特性 - 他们不能加,减,乘,或除。因为每一个测验(或一个系列的子测验)的等级水平分数分数是来自一个标准组的原始分数的中位数。且在同一系列的测验中,原始分数的中位数每年、每个测验、每个子测验都会有所不同。因此,等级水平分数不能用来比较学生每年的发展的、不同测验中学生的相对优势和弱点,甚至学生的标准化考试的子测验成绩。等级水平分数只能用来描述一个学生是在等级水平以上、相当不是以下。误解等级水平分数有一种风险。人们可能会认为如果一个学生取得高于等级水平分数,他就可以进入优秀班级;而如果一个学生取得低于等级水平分数,他就不能进入优秀班级。按这么思路,那么如果有一个二年级的学生在阅读测验上等级水平分数为5.2,我们也就可以说,这个二年级的学生的阅读水平相当于五年级的学生在学校的第二个月的水平,如果五年级的学生在第二个月进行了适当的阅读测验的话。换言之,我们只能说的是,他或她的阅读成绩等级高于二年级学生平均水平,而不是二个年级学生有“五年级的阅读水平”。对等级水平分数的误解主要源于两个问题:1. 等级水平分数计算不使用任何关于在分布内的分数变化的信息。所有六年级刚开学的学生中位数可能是100,但学生之间的分数差异仍然很大。不是所有的六年级学生开始的成绩都是100分。学区,教师或政府期望所有的学生应该是100分是不现实的(Anastasi & Urbina, 1977)。2. 等级水平分数的变异性随着等级水平的提高而提高,因为低
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论