小学随班就读智力障碍学生阅读成就测验编制及题库研究--以项目反应理论为基础_第1页
小学随班就读智力障碍学生阅读成就测验编制及题库研究--以项目反应理论为基础_第2页
小学随班就读智力障碍学生阅读成就测验编制及题库研究--以项目反应理论为基础_第3页
小学随班就读智力障碍学生阅读成就测验编制及题库研究--以项目反应理论为基础_第4页
小学随班就读智力障碍学生阅读成就测验编制及题库研究--以项目反应理论为基础_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文2014届硕士研究生学位论文学校代码:10269 学 号: 51110903014分类号:密 级:论文题目:_小学随班就读智力障碍学生阅读成就测验编制及题库研究以项目反应理论为基础院 系:学前教育与特殊教育学院专 业:特殊教育学研究方向:特殊儿童发展与教育指导教师:马红英 副教授学位申请人:徐银秀2014年5月学校代码:10269 学 号: 511109030142014届研究生硕士学位论文華象呷贫1學小学随班就读智力障碍学生阅读成就测验编制及题库研究以项目反应理论为基础院 系:学前教育与特殊教育学院专 业:特殊教育学研究方向:特殊儿童发展与教育指导教师:马红英副教授硕士研究生:徐银秀2014年5月完成2014Thesis forMasters DegreeUniversity No: 10269Student No: 51110903014East China Normal UniversityConstruction of Test and Item Bank on Reading Achievementfor Students with Intellectual Disability Learning in RegularClass of Primary SchoolBased on Item Response TheoryDepartment:Preschool and Special EducationSpecialty:Special EducationResearch Focus: Development and Education of Special ChildrenSupervisor:Associate-Prof. Honeying MaGraduate:Yinxiu XuFinished in May, 2014华东师范大学学位论文原创性声明郑重声明:本人呈交的学位论文小学随班就读智力障碍学生阅读成就测验 编制及题库研究以项目反应理论为基础,是在华东师范大学攻读/博士 (请勾选)学位期间,在导师的指导下进行的研究工作及取得的研究成果。除文 中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。 对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。作者签名:日期年J:月/j:日华东师范大学学位论文著作权使用声明小学随班就读智力障碍学生阅读成就测验编制及题库研究一_以项目反 应理论为基础系本人在华东师范大学攻读学位期间在导师指导下完成的?博士(请勾选)学位论文,本论文的研究成果归华东师范大学所有。本人同意华 东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构如国 家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进 入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博 士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版, 采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于(请勾选)()1.经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文于年月 日解密,解密后适用上述授权。 (V) 2.不保密,适用上述授权。本人签名导师签名年广月丨厂日* “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学 位论文(需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效),未 经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文, 均适用上述授权)。徐银秀硕士学位论文答辩委员会成员名单姓名职称单位备注刘春玲教授华东师范大学主席汪海萍研究员华东师范大学谭和平副教授华东师范大学摘要阅读能力是个体参与社会生活必备的技能,因此阅读成就评估也成为语文学 业评估的重要组成部分。本研究旨在编制针对小学阶段随班就读轻度智力障碍学 生阅读成就的标准参照测验,并在此基础上基于项目反应理论建立小学2-4年级 阅读题库,为随班就读轻度智力障碍学生阅读成就评价提供标准化评估工具,也 为教师开展阅读补救教学提供依据。本研究基于上海市中小学语文课程标准(试用版)和随班就读智力障 碍学生语文学业评价表编制了小学2-4年级阅读成就测验,对133名3-5年级 普通学生和5名随班就读轻度智力障碍学生实施预测验。经预测分析和专家评审 并调整试题后,又对3549名3-5年级普通学生和14名随班就读轻度智力障碍学 生实施了正式测验,并再一次对试题和测验进行质量检验和调整,形成了随班就 读轻度智力障碍学生阅读题库。研究结果如下:1. 本研究共编制小学2-4年级阅读成就测验共12套试题(每个年级编制4 份平行测验)。测验所包含的知识点经过了一定的调整,试题能够适应随班就读 轻度智力障碍学生的阅读能力。本研究共编制试题288道,其中二年级卷共60 道试题、三年级共92道试题、四年级共136道试题,试题题型均为四选一的单 项选择题。2. 施测后,基于经典测量理论和项目反应理论分别对试题和测验进行心理计 量学分析。结果显示,在经典测量理论模式下,三个年级各测验卷难度系数为 0.750.89,鉴别度指标为0.180.25;测验的内容效度、结构效度及效标关联效 度良好。在项目反应理论模式下,测验基本符合单维性、局部独立性、非速度测 验及知道-正确假设;各年级各套测验项目区分度A值在0,3的题项占总题量的 80100%,并且除个别试题之外,各套测验中试题的项目难度参数均在-3,3 之内,试题猜测系数总体保持在一个较低的水平;三个年级阅读成就测验的信息 量分别为35.2、85.4、58.1。试题各项项目参数及测验信度和效度指标基本符合 标准参照测验的各项要求。3. 基于项目反应理论,在己有试题各项项目参数的基础上删除部分不合要求 的试题后,建立了 2-4年级3个小型题库,每个题库中分别有48、84、128道试 题,入库试题参数基本满足题库构建要求。最后,根据实际需要,建议教师从知 识模块、试题难度以及学生能力水平三个维度快速选题和组卷。关键词:随班就读轻度智力障碍学生 阅读成就测验项目反应理论题库ABSTRACTAs an essential skill,the assessment on reading achievement becomes one of the most important parts of Chinese academic achievement assessment. The purpose of this study was to develop a criterion-referenced test on reading achievement for students with mild intellectual disability, construct the item bank based on this test, and provide the standard academic assessment took for teachers finally.Firstly, the reading achievement test was developed based on the Primary Chinese Curriculum Standards in Shanghai and Chinese Assessment Scale for Student with Disabilities Learning in Regular Class. Totally 138 primary school students from 3rd grade to 5th grade,included 5 students with mild intellectual disability, took part in the pilot study. Secondary, 3563 students from 3rd grade to 5th grade, included 14 students with mild intellectual disability, took the formal study after modification of test items. The quality of items, the reliability, and the validity of the test were assessed by CTT and IRT. Thirdly,based on the test devebped in the second step, an item bank was constructed.The result of this research included the reading achievement test for students with mUd intellectual disability from 2nd grade to 4th grade. Totally 4 equal tests were developed in this research. This reading achievement test had been modified by everts in order to assure its validity to students with mild intellectual disability. The research developed 60 items of second grade, 92 items of third grade and 136 items of fourth grade, 288 items totally. Each item is a multiple choice question that has only one correct answer.After investigation the achievement of reading achievement of both primary school students with and without intellectual disability, the psychometrical parameters of the items were examined by CTT and IRT. In CTT,the difficulty coefficient of each test is flora 0.75 to 0.89, the discrimination index is from 0.18 to 0.25. The content华东师范大学硕士学位论文validity, construction validity and criterion-related validity of tests are gpod. In IRT, the tests basically accord with the four assumption of IRT. There are 80% to 100% items of each test with the discrimination which ran罗 from 0 to 3. the difficulty coefficient of items ran罗 from negative 3 to 3 except for a few items. In addition, guessing parameter of items remains stable at a tow level Above all,tb& results indicated that the items met the standard of the criterion-referenced test, and the reliability and validky of all the equal tests were adequate.Based on the tests developed in the second step, 3 item banks of 2 to 4 grade were constructed. Each item bank has 48, 84 and 128 items respectively. The item banks had met the standard of the psychometrics. Furthermore, some guidelines on using these item banks were provided for teachers.Key words: Students with Mild Intellectual Disability Learning in Regular Class Reading Achievement Test Item Response Theory Item Bank#华东师范大学硕士学位论文目录第一部分理论综述11问题的提出12齡概念界定22.1随班就读学生22.2成就测验22.3阅读能力32.4项g反应理论33*0关研究综述43.1阅读测验研究现状43.2题库建设及研究进展103.3特殊学生阅读成就评估方法14第二部分研究方法211研究g的212研究思路212.1研究P*3容212.2研究步骤213鹏I具234研究对象24第三部分小学随班就读智障学生阅读成就测验的初步编制与题库建设.251测验的编制251.1测验框架和内容的确定251.2预测试题的编写282预测研究 292.1研究目的、对象和方法292.2项g分析302.3 332.4效度分析332.5正式测验的形成353 IE式测验研究373.1研究目的、对象和方法373.2项g分析383.3 效度研究403.4项g反应理论分析434测验结果分析504.1随班就读学生阅读成就总体水平504.2随班就读学生阅读成就水平个案手艮告505题库建设与使用建议545.1项g初选545.2题库结构545.3题库使用建议55第四部分讨论与建议581测验内容581.1阅读材料的选择581.2题型的确定582 BRT 592.1单维性假设592.2局部独立性假设593试题质量603.1 CTT指导下的试题质量分析603.2 IRT指导下的试题质量分析624测验信度634.1CTT的信度观634.2 IRT的信度观635阅读成就测验报告646关于阅读成就评价的建议656.1对教师使用该题库评价的建议656.2对理论研究的建议66第五部分结论与反思681结论681.1测验结构681.2试题的项g分析681.3测验的信度691.4测验的效度691.5题库的结构692本研究的创新之处693本研究的不足之处703.1研究样本703.2试题数量70参考文献72附录76附录一7679附录三81083附录五86后记87华东师范大学硕士学位论文第一部分理论综述1问题的提出目前,了解随班就读学生阅读能力的主要途径是语文学业成就评价,一般采 用纸笔测验的方式进行1。阅读评价通常是由教师选择相关知识点制成试题,采 用让学生在规定时间内完成试题的方式来评价学生的阅读能力。由于随班就读学 生身心发展障碍、认知水平低、社会体验不足、情绪波动大故测试的表现不稳定, 因此该测验方式很难给随班就读学生提供与之能力水平相适应的测验结果。基于 此,教师就需要对试题的内容和测验方式作出调整,以适应随班就读学生的阅读 测试。尽管教师应该对随班就读学生的测验进行调整和修正,但因该项工作加大 了教师的工作量,且该方式对于测验分数的解释难以做到统一、科学,所以很难 得到推广运用。目前,已有研究者通过编制标准化的成就测验来了解学生的阅读 水平,如台湾学者编制的中文阅读理解测验。然而,传统的标准化测验在测量短 期阅读教学的效果上,存在敏感度不足的缺点。例如,随班就读学生在常模参照 测验中得分较低,经过一段时间的教育干预,该生也许有进步,但是由于干预后 的测验分数相对于常模仍然较低,前后测的结果不会有明显差异,所以采用常模 参照测验的方式去评估随班就读学生的阅读能力发展解释力尚显不足2。不同于常模参照测验,标准参照测验将学业评价与教学内容紧密相连,根据 事先确定好的成就水平或标准来测量学生的学业成就,使得成就测验与相应的学 科课程相匹配3。它以明确的学习结果的最低表现程度作为判断学生学习结果的 参照指标,能够促使学生明确学习的内容与范围,明确学习的合格标准,为学生 自我评价提供机会。基于标准的阅读学业成就评价,是以语文课程标准中“阅 读”部分的目标为评价标准,对学生阅读成就水平的实际判断,这种评价形式能 够促进随班就读学生有效练习,并且为教师的补救教学提供参考意见4。此外, 现有的阅读成就测验主要是以经典测量理论为编制依据,学生完成一套测验需要 接受较多试题的评估,对于随班就读学生而言挑战较大。随着测验理论的不断发 展,现代测量理论的重心逐渐倾向于项目反应理论,它的特点是以概率函数的形中国学术期干U (光盘版电子杂志社编者注:文中以及辟P注矛口参考 文献中所谓台湾的“国立”均应力口双弓I号。式来描述项目作答反应结果是如何受到被试能力水平和项目特性联合作用的影 响5,目前已被广泛应用在大型测验编制及题库建设中。本研究旨在为小学随班就读学生编制一份基于项目反应理论的标准参照阅 读成就测验,并在此基础上建立相应的题库,为教师提供一个评价随班就读学生 阅读成就的辅助工具,推进融合教育中特殊需要学生的学科评价与考试改革。2核心概念界定 2.1随班就读学生目前,我国义务教育阶段特殊教育安置形式己经发展为以特教学校为骨千, 随班就读和特教班为主体的多种办学形式6。随班就读学生,是指可以适应普通 学校学习生活的特殊需要儿童少年7。原先在普通班学习的特殊需要学生,大部 分为学习障碍、言语和语言障碍、肢体残疾等类的学生,后陆续增加了视力(包 括盲和低视力)、听力语言(包括聋和重听)、智力障碍等类别的学生8。本次研究的对象主要是随班就读中的轻度智力障碍学生。2.2成就测验成就测验又称学业成就测验(Academic Achievement Test),是实践中最常用 到的测验之一,主要用于教育领域,也有为专门的情境而设计的。成就测验即我 们通常所指的考试,主要是针对特定领域为检测应试者对有关知识和技能的掌握 程度而设计的专门测验。成就测验测量的是人的最高行为,是对经过一定的教学 或训练后所学得的知识和技能的测量。成就测验和能力测验都是测量人的能力, 但它们各自有不同的测量目标、使用目的、实施方法和解释方法,前者只涉及特 定的学习经验,即知识与技能,这些知识与技能较容易变化;后者侧重的是涉及 广泛的学习经验,即能力,能力的变化比较缓慢9。本研究所编制的阅读成就测验为标准参照的成就测验。#华东师范大学硕士学位论文2.3阅读能力阅读能力是指阅读者运用已有的知识经验,顺利而有效地完成阅读活动的能 力1()。国际上有关或包含阅读评估的项目主要有国际阅读素养进步研究(Progress in International Reading Literacy Study,简称 PIRLS)、美国国家教育进展评估(The National Assessment of Educational Progress, NAEP)以及国际学生评估项目 (Programme for International Student Assessment. PISA)。其中,PIRLS 将阅读 能力定义为“理解和使用社会需要的或者个人认为有价值的书面语言形式的能力, 儿童阅读者可以从各种文章中建构意义,他们通过阅读来进行学习、参与阅读者 群体并进行娱乐” 1(),NAEP将阅读能力定义为“理解文本、使用文本,且能享 受、学习和参与社会,以达成个人目标” 11,PISA将阅读能力定义为“为达成个 人的目标,对书写文本进行了解、使用和反思,以发展个人知识、潜能并参与社 会” 12(OECD, 2006)。上述三个项目(PIRLS、NAEP和PISA)在对阅读能力的 定义上,都表达了相同的观点,即阅读能力包含了解和发展不同的文本、有所思 考,并针对不同目的使用不同的文本13。基于对以上三项国际阅读测试项目的分析,我国学者李英杰在小学语文学业 质量评价研究中提出四种基本阅读能力:1、从文本中获取信息; 2、形成对文本 内容的整体感知; 3、利用文本信息和个人经验对相关问题做出合理的解释和推 论; 4、对文本的内容或表达做出合理评价或利用文本的相关信息解决问题14。 从中可以看出,国内外对阅读能力的内涵描述一致。2.4项目反应理论项目反应理论(Item Response Theory; IRT)主要是用来描述试题特性(难度、 鉴别度、猜测度)与受测者的能力(潜在特质)如何影响其答题反应的一种数学模 式1516。最简单的IRT模式如下列公式(1)所示(Rascb 1960):PiJ + edj-bi)(公式1)华东师范大学硕士学位论文其中0j为考生j的能力,bi是试题i的难度,而?0是受测者答对某道试题的 机率。在IRT的模式中,受试者在某道试题上的答对机率是同时受到受试者能力 水平与试题难易度所影响;而受试者在测验上的整体表现就是各试题答对概率的 联合概率。由这个数学模式与联合概率的概念,我们就能根据受试者在各个试题 上的答题反应来估计被试的能力以及试题的难易度,并且让接受不同试题的被试 的能力可以互相比较。IRT克服了经典测量理论(Classical Test Theory, CTT)的 缺陷,具有能力估计不变性、试题参数估计不变性、测量精准度的概念较合理、应用层面较广的优点。3相关研究综述 3.1阅读测验研究现状在教育评价中,对阅读的评估常常是教学过程中不可或缺的一部分。然而,阅读涉及文本、读者、阅读情境、阅读动机的交互影响,因此,其复杂的本质也 常常使得任何评估方式或评估重点,都不足以完全判断学生的阅读能力。虽说如 此,阅读的评估在筛选、诊断有特殊教育需求的学生以及他们需求的具体状况仍 有其必要性17。国外主要的大型测量阅读成就的测验有OECD开发的PISA、BEA 开发的PIRLS以及美国联邦政府推动的NAEP;我国港台地区测量阅读成就的测 验主要为林宝贵、锜宝香编制的中文阅读理解测验,董宜俐编写的“国小”学童中文 阅读理解测验,以及香港学科测验;内陆地区主要的阅读测验是由“亲近母语” 课题组研发的阅读力测试,以及教育部基础教育课程教材发展中心推进的中小学 语文学业质量评价工具。下面将选取NAEP、中文阅读理解测验以及中小学语文 学业质量评价工具,从阅读测验的评价目的及适用对象、内容及评估框架和题型 及文本类型这三方面来阐述国内外不同阅读测验的现状。3.1.1阅读测验的目的及适用对象自1969年起,NAEP就旨在了解美国学生在主要学科科目(如数学、阅读、科学、写作等)上知道什么和能做什么的情况。其中,NAEP阅读评估已定期且 持续针对四年级、八年级、十二年级学生进行施测。NAEP不会单独为某个学校 或某个学生报告测验结果,因此并不需要每个学生都参加测试。国家教育统计中 心(National Center for Education Statistics, NCES)会通过抽样程序来保证参与测 试的学校和学生具有代表性18。中文阅读理解测验的目的在于筛选在阅读理解上有困难的学生,或用于探讨 身心障碍学生的阅读理解能力。该测验的适用对象包含小学二年级至六年级的学 生,以台湾北、中、南东四区30所小学二年级至六年级男女学生共733人建立 测验常模17。我国“中小学语文学业质量评价研究”项目组期望通过评价工具测试中小学 生语文学业能力,调查学生正确理解和运用语言文字的能力,以及学生的语文素 养水平,并为改进教师语文教学、提高语文教学质量提供参照,为进一步改进学 科课程设计提供必要的依据19。该测验适用对象为全体中小学生。综上所述,大型学业成就测验中阅读测验的评估目的在于了解学生群体的阅 读素养,而特别编制的阅读理解测验则会更加关注筛选阅读困难的学生及障碍学 生个体的阅读理解能力。三种测验适用的对象也略有差异,NAEP和中小学语文 学业质量评价工具的适用对象更为普遍(为全体学生),而中文阅读理解测验则 应当适用于有特殊需要的学生。3.1.2阅读测验的内容及评估框架NAEP以寻找和回忆、整合和解释、批判和评鉴三个层次的认知目标说明阅 读理解过程的复杂本质,也指出不同的文本类型会引出不同的阅读行为,通过表 1-111,可以发现根据不同的文本类型,读者在不同的阅读理解过程分别表现出 的不同行为与技能。NAEP的框架集中全美的专业力量和集体智慧编制而成,在 不断更新的过程中反映最新教育理念和发展趋势,对全美学业评价和课程标准产 生了积极的影响,甚至有的州根据NAEP框架编制本州的课程说明和内容标准表1-1 NAEP认知目标与文本类型对照表寻找和回忆整合和解释批判和评鉴文学和确认明确的信息和文本在文本内或跨文本不同部批判地思考文章:信息文内或跨文本不同部分进分进行复杂的推论,以描判断作者的手法与技本兼具行简单的推论,如:述问题和解决方式、因果巧定义关系:评鉴作者的看法或观事实比较和联结概念、问题或点在文本内或跨文本支持的细节情境判定辩论中未明确说明的 假定描述作者如何使用文学手 段和文本特征关于文本持不同的看 法文学文在文本内或跨文本不同在文本内或跨文本不同部批判地思考文章:本部分确认的信息,例如:分进行复杂的推论:评鉴在传达意义上文角色特质推论情绪或气氛学手段的角色事件或行为的顺序整合概念以决定主题决定文学手段提升文场景确认或解释人物的动机和学工作的程度确认隐喻的语言决定检查主题、场景或角色之 间的关系解释韵文的节奏、韵或类 型对于文意的帮助分析作者所使用的观 点信息文在文本内或跨文本不同在文本内或跨文本不同部批判地思考文章:本部分确认明确的信息,分进行复杂的推论:分析信息的呈现例如:摘要重要概念评鉴作者使用来支持主题句或主要概念做结论和提供支持的信息立场之证据的品质与作者的目的找到证据来支持立论强度因果关系从观点中区别事实决定在文本内用来反在文本或图表中找出特在文本内或跨文本不同部驳的论点的品质定偏息分决定信息的重要性评鉴逻辑连贯性或立 论可信度中文阅读理解测验依据阅读理解的组成成分、过程,整理出可以用评估方式 了解到的阅读理解产物,大致包含六个部分:1.语言处理部份,包含音韵处理、 词汇触接、使用语意/语法解析句子; 2.文本内容基本事实的理解; 3.推论;4. 抽取文本大意或重点; 5.比较、分析相关讯息; 6.由阅读中学习到新的知 识并储存于知识系统中。测验将阅读理解的产物作为评估重点,同时兼顾学生在 阅读时语言知识的应用能力,最终形成七种需要评估的相关能力,以故事类记叙 文和说明文为载体,测验设计架构如表1-217。205华东师范大学硕士学位论文表1-2 “中文阅读理解测验”试题设计架构相关能力故事类记叙文说明文合计题数音韵处理能力6612语意能力6713语法能力6612理解文章基本事实101323比较分析4913抽取文章大意6612推论11415“中小学语文学业质量评价研究”项目组借鉴了大型国际阅读评估的理念,将阅读情境根据目的分为“为了获取信息而阋读”、“为了获得文学体验而阅读”、“为了完成任务而阅读”,将要考查的阅读能力分为整体感知、提取信息、形成解释、合理使用信息并作出评价,阅读测试的框架如表1-3。不同的是,该项目组通过深入解读语文课程标准,找出标准中可转化为评价内容的目标,如在精读评价中重点考察学生“词句理解、文意把握、要点概括、内容探究、作品感受”在略读评价时主要考察学生“把握阅读材料大意”的能力,在评价浏览能力时则重在考察学生“从阅读材料中捕捉重要信息”的能力。课题组对这些目标进行细化和归并,将评价工具定位为基于课程标准的标准参照测试。表1-3 “小学语文质量评价研究”阅读测试框架 阅读能力具体内容作出评价对形式的评价 对内容的评价 对复杂事件的解释 对具体词语的解释形成解释整体感知领会深层意义 理解表层意义 提取隐含信息提取信息提取多个信息 提取单一信息从分析中可见,NAEP、中文阅读理解测验、小学语文学业质量评价工具中 皆是以阅读的相关能力为评估的重要维度,三者在能力分类上略有不同,其中 NAEP和小学语文学业质量评价工具考察的阅读能力大致相同,为寻找觸取信 息、整体感知、解释以及评价能力,而中文阅读理解测验还加入了对语言知识(语 音、语意、语法)的考察,且将评价能力替换为推论能力。此外,NAEP和小学 语文学业质量评价工具都是依据国家课程标准编制的测验19,21,我国基础教华东师范大学硕士学位论文育课程改革纲要(试行)中也规定“国家课程标准是教材编写、教学、评估和 考试命题的依据,是国家管理和评价课程的基础”22。而我国当前基础教育中 缺乏广泛适用的以课程标准为依据的测验23,因此,基于课程标准的学业成就 评价成为评价改革的必然。3.1.3阅读测验的题型及文本类型NAEP在文本选取上要求以真实的文本作为阅读理解测验的刺激物,其取材 内容对学生而言必须是有趣的、不具偏见的,并通过专家判断和至少两个以研究 为基础的可读性公式分析结果来选取文本。文本类型主要有两种,即文学文本 (literary texts)和信息文本(information texts),文学文本包含小说、散文和韵 文三类,信息文本包含说明文、辩论文和具说服力文本、程序性文本和文件等三 类。NAEP阅读评估包含选择题和结构问答题,选择题为四选一形式,假定学生 需要一分钟来完成一题;短结构问答题需用一至二个片语或句子回答,假定学生 需要两至三分钟完成一题;延伸结构问答题必须用较长与详尽的一或两段来回答, 假定学生需要五分钟完成一题。各年级在文本类型、文本长度和题型的分配上有 所不同,如表1-411。表1-4 NAEP各年级文本类型、题型分配比例及文本长度情况文本类型()文本长度 (字)题型()文学文本信息文本选择题短结构问答题延伸结构问答题四年级5050200-800504010八年级455540-1000404515十二年级3070500-1500404515中文阅读理解测验共有十二篇短文,包含六篇故事类记叙文与六篇说明文, 文章取自儿童读物、报纸,经过研究者改变后,再由资深小学语文教师审查。每 篇文章中,考查推论能力的试题绝大部分是放在记叙文中,考察其他能力的试题 都均衡分配在说明文和记叙文中。测验共有100道选择题,每题依据正确答案给 分,完全正确给1分,答错者或未答者给0分。对于测试文本的选择,“中小学语文学业质量评价研究”项目组也制定一些 基本的筛选原则:1测试文本用于提供一个尽可能接近学生日常学习活动的具体#华东师范大学硕士学位论文情境,以使学生的能力能在具体的、规定性的活动中得以尽可能的展现; 2、测 试文本要符合学生的经验水平; 3、文本要有利于设计测试活动; 4、避免各种不 公平(如性别、社会群体); 4、为实现测试目标,需对文本进行一定的修改。文 本类型是根据三种不同的阅读情境而选择的文学性文本(童话故事、寓言、小说、 散文等),说明、解释性文本以及实用性文本(产品说明书、广告等)。评价所采 用的题型有客观题和主观题,研究者使用可观测的学习结果的结构(Structureof the Observed Learning Outcome, SOLO)作为试题编制的理论基础,即根据学生在回答问题时思维结构的复杂性判断学生的认知发展水平。SOLO认为学生对于 某一个具体问题的反应水平可以分为5个层次,依次为前结构、单点结构、多点 结构、关联结构、抽象拓展24,项目组依据该理论中不同的反应水平来编制客 观选择题的选项以及建立主观试题的评分标准,如例题1中同一题中不同选项代表学生不同的能力层例题1:这个故事讲的道理是:A不应骄傲,要谦虚。(前结构)B不要只追求表面的东西,要有真才实学。(关联)C自己不会就是不会,要诚实。(多元)D书再多,没有读,也不是学问家。(单一)从文本的选择上看,三种测验都选择了文学性文本和说明文文本,也有测验 加入了实用性文本。选择文本时需要考虑的是文本的真实性、与学生经验的符合 程度、避免偏见以及长度,此外,由于文本要应用于测试中,所以应当有利于设 计试题。在筛选时还需要对文本作一定程度的修改,并请专家参与审查以保证文 本质量。文本是阅读测试的基础,测验编制者应当考虑到文本的长度、难度来保 证测验的表面效度,考虑文本的真实性和多样性来保证测验的内容效度,选择适 合测试的文本来保证测验的结构效度25。在测验的题型上,三项测验中都采用了客观选择题,其中,中文阅读理解测 验全部采用该题型进行施测,其他两类测验还使用了主观性问答题型,并且为之 建构了相应的评分体系。题型是影响语言测试成绩的重要因素之一,常见的阅读 题型有选择题、判断题和简答题。其中,选择题是标准化考试常用的一种题型, 阅读选择题其实是一种综合性选择题,包含最佳选择题、配伍选择题、组合选择 题、填空选择题等多个形式26,且客观选择题较适合考察阅读能力27。3.2题库建设及研究进展题库是计算机技术和教育测量理论的产物,它不只是一堆试题的集合体,而 是一堆经过校准、分析、归类和评鉴后,储存起来的测验试题组合体。当前在一 些发达国家,题库己经被广泛运用在教育测验、心理测量、人事测评等领域中, 如美国研究生入学考试(Graduate Record Examination, GRE)、工商管理类研究 生入学考试(Graduate for Management and Administration Test, GMA)以及全美 护士国家委员会资格考试(Nurse National Committee License Test,NNCLT)都建 立了大型且质量良好的题库。下面阐述一下题库建设的基本步骤及研究进展。3.2.1题库的建设及使用题库的建设应当依据课程标准、教材大纲编写而成,具体的建设和使用包括 下列是九个步骤28:(1) 试题的编写与修订:首先按照传统测验编制的原则,编写大量试题, 并请学科专家和测验专家就试题进行形式审查,看看是否符合内容效度的要求, 对试题加以修改或增删。(2) 选择被试:题库中的试题必须建立在同一标尺上,否则试题间无法比 较或延用。因此,选择适当的试题和被试样本,是很重要的一步。若试题数较多, 可通过铆测验设计解决。(3) 试题的校准与衔接:就选择题而言,选用IRT中的三参数逻辑斯蒂克 模型来分析资料最为合适。决定好模式后,便可采用适当的程序(ANOTE)对 试题参数与学生能力参数进行估计和拟合度分析,统称为校准。经过校准后的试 题,必须通过适合度的检核才能被保留在题库里。在校准时,如果使用的是不同 的被试样本,还需要做好等值工作。(4) 更新题库:当题库中的试题被选用之后,都必须有详细的施测记录,甚至必须再重新校准一次,以确定该试题参数的真正合适度,这样可以确保题库 能够不断更新,保持题库的安全,避免沦为老试题而被学生熟悉,丧失题库功能。 另外,也可以根据测验目的和学科性质,对题库中的试题重新排列组合,方便今 后使用。(5) 测验卷组成:如果题库的质量很高,则从题库中抽取试题来组成测验 卷便会很容易。测验卷组成的方式很多,最主要是看测验目的而定。一般是将试 题按学科、单元、属性和概念等先进行编码,再把试题参数输入程序里,以便在 组卷时输入几个关键字,就可获得想要的测验卷。(6) 评估测验卷质量:对于新编制的测验卷,可用IRT适用的分析软件(如 ANOTE)来预测其特性。如,该软件可利用所选取试题的难度、区分度及猜测 度的估计值,来计算试题参数估计值的平均值、信度估计值、信息量期望和平均 值等资料,让组卷者判断所组测验卷的优劣。若结果不理想,可按前述步骤重编。(7) 执行考试:如果第六步显示测验卷质量不错,即可对考生进行施测, 并事先准备好施测时的指导语、测验的情境和其他注意事项。(8) 评分:学生的考试成绩可以用两种方法加以评分:一是直接以学生的 能力估计值来代表学生的能力,但比较不容易被大众理解,解释起来破费周章; 二是以真实分数来表示学生的能力,即把每位考生在每个试题上的答对几率加起 来。真实分数也不太直观,一般要将其除以试题总数,转换成答对试题的百分比, 结果越接近百分之百,表示其能力越高;反之,越接近于零,表示其能力越低。(9) 研究与评价:题库的应用,不仅是用于编制新测验,以节省人力、物 力和时间,还可通过每次考试对试题与被试能力参数进行校准,以评价试题质量 的优劣、试题内容有无偏差(如试题是否有利于某类学生,而不利于另外一类学 生)以及诊断学生作答情况是否出现问题等,这种不断研究与评价的过程,正是 题库所提供的特色。3.2.2国内外题库研究进展国外较早就开始了题库的相关研究。随着80年代个人电脑的问世,试题信华东师范大学硕士学位论文息就可以被初步存储在软件中(word processing software)并进行简单搜索;后 数据库软件(DOS item banking system)的出现导致题库有了较大发展; 21世纪 初,微软题库软件(Windows Item Bankers)则能将试题的参数和参数图形存储 在其中,并能提供友好的操作界面29。为了保证试题难度不受被试的影响,早 期题库建设采用的是IRT中的拉希模型(Raschmodel)。当时题库主要有三个用 途:一是用于测量学业成就,如国际教育成就协会(International Association for Educational Achievement, IEA)研制的科学学科题库(Science Item Bank),其中 包含生物、化学及物理三方面的试题,可以组成四类测验卷,分别适用于五年级、 中学早期、十二年级及大学预科生;二是用于课程评估,试题主要来源于已有的 测验和测验卷以及新课程制定者和课程监督小组的编写,将题库同时施测于接受 旧课程和新课程的学生,通过他们答题反应上的差异评估新课程的实施有无效果; 三是用于高等教育入学考试,如印尼教育部发展的综合性题库,适用于测量数学、 科学和语言3G。在计算机考试蓬勃发展和题库研究不断深入的背景下,现代题 库通常采用IRT中的逻辑斯蒂克模型,并在题库的基础上进一步开发电脑自适应 测验(Computerized Adaptive Testj CAT),如美国教育考试服务中心(Educational Testing Service, ETS)主办的 GRE 和托福(Test of English as a Foreign Langua 职, TOEFL)、西北评价协会(NorthwestEvaluationAssociationNWEA)开发的学业 进度测评(Measures ofAcademic Progress, MAP),这些测验被广泛运用在教育测 验、心理测量、人事测评等领域中,我国台湾地区对题库建设的研究较为成熟,包括以CTT为指导的题库和以 IRT为指导的题库。譬如,“国民小学九年一贯自然与生活科技领域评量题库” 就是在CTT指导下编制的本地题库,研究者对试题的难度、区分度、内部一致 性及效度作了报告31。但是,更多的研究者致力于开发网络题库,如“九年一 贯能力指标网络题库评量系统(数学科)”,该题库以能力指标和预估难度为选题 指标,学生可以随时在网络上参与评估,并且教师可以根据需要自行组卷32。 随着测验理论的发展,研究者们逐渐认识到IRT在编制题库上的优势,认为高水 准的题库除了要达到CTT对试题参数的要求外,还需要符合IRT的模型,如“分 数概念题库”和“国小4-6年级数学题库”等皆是以IRT为指导思想检验试题的 拟合度并删除或修改试题而建设的331341。现今,该类题库已被逐渐应用在CAT 中,如采用IRT三参数逻辑思维蒂克模型研制的“智能障碍学生数学能力评估电 脑化适性测验” 35,即是用于鉴定智力障碍学生数学能力的自适应测验。近年来,大陆地区关于题库的理论研究和实践应用也较为活跃。理论研究的 主题是围绕题库建设所依据的测量学理论(主要为CTT和IRT)进行分析,其 中CTT指导下的题库建设时投入小、数学模型简单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论