(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf_第1页
(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf_第2页
(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf_第3页
(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf_第4页
(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(行政管理专业论文)NIRT在公共管理中的应用及与CTT和IRT在实例中的比较.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文 摘要 n i r t 在公共管理中的应用及与c t t 和i r t 在实例中的比较 摘要 在我国公共管理领域中,虽然对测量方法的应用历史悠久,但始终停留在观察、 谈话、调查访问等类似的定性分析阶段。直到近代从西方引进经典测验理论后,有 关的定量化分析方法才逐步开始应用。经典测验理论( c t t ) 指导下的方法简单明 了,方便易行,得到了广泛应用。然而经典测验理论在测验建构时,质量方面( 效度、 精确度、一致性、易解释性、应用方便性) 不能同时满足,一个令人满意的量表结构 意味着找出解决冲突的妥协方案。项目反应理论( i r t ) 应运而生,为这个微妙的 过程提供解决问题的框架。 在国外,自6 0 年代以来以项目反应理论为代表的新的测量理论经过长期发展, 不断完善,趋于成熟。由于其科学性和合理性,已经在很大程度上赶上甚至超越了 经典测量理论而得到广泛应用。2 0 世纪8 0 年代,北京师范大学张厚粲教授将项目 反应理论介绍到我国后,引起了国内测量学者的极大关注,并且得到广泛的应用, 尤其是在人才测评、教育与心理测量评价领域发挥着巨大的作用。 在i r t 理论基础之上发展起来的非参数项目反应理论( n i r t ) ,由于特殊的应用 价值( 对被试能力或题目优劣进行排序) ,在国外越来越受到重视,其相对于i r t 简便易行的优点更为广大非专业测量人员所青睐。但就目前来看,n i r t 对国内来说 基本上还是一个新事物,相关的研究还比较的少,更没有应用到实践领域当中去, 是一个不小的空白。 本文是将n i r t 理论应用到公共管理领域中的一次尝试,希望通过本文能使 n i r t 这种在国外经过检验的先进理论引起我国研究者的重视。 关键词:c t t , i r t ;n i r t :测量方法;公共管理 i i 东北大学硕士学位论文 a b s 廿a c t a p p l y i n gn i r t i np u b l i ca d m i n i s t r a t i o na n d c o m p a r i n g t h er e s u l t s a m o n g n i r t ,c t ta n di r tw i t he x a m p l e a b s 仃a c t i np u b l i cm a n a g e m e n ty i e l do fc h i n a , m e a s u r e m e n tm e t h o dh a sb e e nu t i l i z e df o r l o n gt i m e b u tt h e s em e t h o d sf i r em o s t l yq u a l i t a t i v ea n a l y s i ss u c ha so b s e r v a t i o n , c o n v e r s a t i o n ,i n v e s t i g a t i o na n ds oo n q u a n t i t a t i v ea n a l y s i sm e t h o d sb e g a nt ob eu s e d g r a d u a l l yu n t i lc l a s s i ct e s tt h e o r y ( c t t ) w f l si n t r o d u c e dt oc h i n a c t th a sm a n y b e a u t i e s :s i m p l i c i t ya n db e i n ge a s yt oa p p l y , s ot h a ti th a sb e e nu s e dw i d e l yn o w h o w e v e r , c t tc a n ts a t i s f yt h ed e m a n do ft e s tq u a l i t yw h e nw ec o n s t r u c tat e s ta tt h e s s n l et i m e e m e r g e n c eo fi t e mr e s p o n s et h e o r y ( i r t ) b o u g h tag o o ds o l m i o nt os o l v e t h ep r o b l e m u pt on o w , i r ta n dn e wm e a s u r e m e n tm e t h o d sh a dar a p i dd e v e l o p m e n ta n dh a d b e e nb e i n gi m p m v i n gd a yb yd a y t h em e t h o d sh a da k e a d yo v e r t a k e nc t t , e v e n s u r p a s s e di tb e c a u s eo ft h e i r s c i e n t i f i ca n dr a t i o n a lf e a t u r e s i nc h i n a i r tw a s i n t r o d u c e dt ou sb yp r o f e s s o rz h a n gh o u c a n ,b e i j i n gn o r m a lu n i v e r s i t y f r o mt h a t t i m e ,i r th a db e e na t t r a c t i n gr e s e a r c h e r s a t t e n t i o n sa n du s i n gi nm a n yy i e l d s , e s p e c i a l l yi np e r s o n n e lm e a s u r e m e n ta n de d u c a t i o ne v a l u a t i o n b a s e do ni r t , n op a r a m e t e ri t e mr e s p o n s et h e o r y ( n m t ) a l s oh a dar a p i d d e v e l o p m e n ti na b r o a d i th a ss p e c i a lv a l u e s :r a n k i n go b j e c t i v e si no r d e rf r o mt o pt o b o t t o mo rf r o mb o t t o mt ot o p ha d d i t i o n n i r tc a l lb ee a s yt op u ti n t op r a c t i c e c o m p a r e dw i t hi r t , s ot h a ti ti se a s yf o rm o s tn o - p r o f e s s i o n a lm a n t om a s t e ra n da p p l y b u t ,a tp m s e n t ,n i r ti sat h e o r yc o m p l e t e l yn e wf o rd o m e s t i cr e s e a r c h e r s ,a n dn o b o d y t a k ei ta sar e s e a r c ht o p i c ,n o tt os p e a ko f p u t t i n gi ti n t op r a c t i c e t h et h e s i st r i e st oa p p l yn i r ti np u b l i cm a n a g e m e n ta n dt a k eab o l dt r i a l i nt h e i i i 东北大学硕士学位论文a b s t r a c t t h e s i s ,w ec o m p a r e dt h er e s u l t sa m o n gc t t , i r ta n dn i r tw i t hc u s t o m e rs a i l s f a c t i o n s u r v e yd a t ao fc h i n e s eh i g h e re d u c a t i o na se x a m p l e i ti so u rs i n c e r e l yh o p et h a td o m e s t i cr e s e a r c h e rc a r lg a i n 趾o u t l i n eo fn i r ta n d o b t a i nm o r ei n f o r m a t i o nf o ra p p l i c a t i o ni nf u t u r e k e y w o r d s :c t t ;i r t ;n i r t ;m e a s u r e m e m ;p u b l i cm a n a g e m e n t i v 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰 写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示谢意。 学位论文言者签耋j泌-棚f- 日期f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位 论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学位论文 的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名: 签字日期: 导师签名: 签字日期: 东北大学硕士学位论文引言 己l 吉 i口 早期的公共管理推崇经验科学的定性研究方法,把观察、案例、访谈、经验 总结等主观性方法当作主要方法。但是,随着公共管理事务变的越来越复杂,对 管理质量和效率的要求越来越高,特别是在电子计算机技术飞速发展的情况下, 定量方法开始发挥越来越重要的作用。定量方法源于问卷调查、高度结构性的访 问或者对直接来源或间接来源获得的数字材料和统计数据进行分析。由于定量研 究的绝大部分的资料信息都是数量化的资料,而终程结果也基本上靠统计分析的 数据来表达,因而采用定量分析后的结果往往给人一种看得见、摸得着的感觉, 比较客观、精确。 定量方法重点关注测量,是源于测量结果基础上的分析和评价。测量技术是 以一定的理论为基础,或者说是以一定的模型假设为支撑。自2 0 世纪初,经典测 验理论( c l a s s i ct e s t i n gt h e o r y , c t t ) 问世以来,以其简便易行、适用广泛等 特点,迅速得到了推广。直到目前为止,c t t 在体系上仍然是最成熟的测验理论, 是其他测验理论赖以产生的基石。但是,c t t 的缺点也非常明显:严重依赖于测 试样本、假设不符合实事等。6 0 年代以来,一种新兴的测量理论应运而生:项目 反应理论( i t e mr e s p o n s et h e o r y ,i r t ) 。经过长期发展,不断完善,i r t 逐渐趋 于成熟。由于其科学性和合理性,已经在很大程度上赶上甚至超越了经典测量理 论而得到广泛应用,尤其是在人事测评、教育与心理测评等领域发挥着巨大的作 用。在i r t 理论基础之上发展起来的非参数项目反应理论( n o n p a r a m e t r i ci t e m r e s p o n s et h e o r y ,n i r t ) 的最大优点就是可以不用象i r t 那样考虑复杂的参数估 计,而是以数据为基础,根据一定的规则对被试能力或是测试题目做一个顺序上 的排列。所以,n i r t 又叫做“对被试和题目排序的i r t ”。由于n i r t 特殊的应用 价值,现在也越来越受到学者的重视,相对于i r t 简便易行的优点更为广大非专 业测量人员所青睐。 就目前而言,国内在测量理论的研究和应用上还存在着一定的不足和差距, 主要体现是研究过于集中在定性方法的提高和改进上。例如,对于评价对象资料 东北大学硕士学位论文引言 的收集,是通过规范步骤、完善程序、严格纪律等制度性的方法加以改进;对于 分析评价的内容,通过建立合理有效的评价指标体系、制定详细的评分标准等方 法加以解决。但是,对于调查题目的设计和终程结果的技术化处理等测量方法的 研究始终未能引起足够的重视。 2 0 世纪8 0 年代,北京师范大学张厚粲教授将i r t 介绍到我国,引起了国内心 理测量学者的极大关注,但其研究领域大多数集中在教育评价、教育质量测量等 方面。我的导师刘武教授,1 9 9 9 年在公开选拔领导干部的实践与探索一书中, 就在国内首次应用i r t 中的m f r m 模型对1 9 9 8 年辽宁省选拔市厅长助理的面试 结果进行分析评价,用事实证实了m f r m 在人事测评领域内的可应用性,以及在 公共管理领域中的应用价值。 本文是作者在刘武教授的指导下在n i r t 领域中的又一次大胆的尝试,希望通 过本文能使国内的研究人员对n i r t 有一个了解,并能通过c t t 、i r t 和n i r t 之 间在实例中的比较,了解n i r t 的特点和优点。最终目的是能使n i r t 这种在国外 经过检验的先进理论在我国生根发芽。 一2 东北大学硕士学位论文第一章测量在公共管理领域中的应用 第一章测量在公共管理领域中的应用 1 1 定量分析与测量 早期的公共管理推崇经验科学的研究方法,把观测、实验、对比、抽样、案 例、访谈、调查等主观性方法当作主要方法。2 0 世纪4 0 年代以后,开始引入运筹 学、控制论、系统工程、系统分析、损益分析、计算机模拟等定量分析方法。这 些方法的主要特点就是从整体的概念,以模型假设为基础,研究公共管理系统与 环境,整体与局部,结构、功能与运行的相互关系和相互作用。测量方法作为一 种以调查研究数据为基础的统计分析方法是定量分析方法应用的具体体现,随着 定量分析方法在公共管理领域越来越受到重视,测量理论也迅速地发展起来。 1 1 1 定量分析的定义 何谓定量分析,它起始于分析化学的一个分支。测定物质中各成分的含量。 按所用的方法不同,可分重量分析、容量分析和仪器分析三类。因分析试样用量 和被测成分的不同,又可分常量分析、半微量分析、微量分析、超微量分析和痕 量分析等。而今一些学者把运一概念引进到普遍的社会和管理领域的研究。把关 于事物的测量及构成某一现象或行为的若干因素中,把对其中某些因素的量的变 化比重或各因素之间的量化关系的研究称为定量分析“3 。 1 1 2 定量分析的特点 定量分析是与定性分析相对的概念。从方法论上来看,定量分析是实证主义 方法论晟典型的特征,从研究的逻辑过程来看,定量分析比较接近于假说一演绎 方法的研究,既保留了重视观察实验、收集经验资料的特点,又保留了重视逻辑 思维演绎推理的特点,应用假说使得观察实验和数学演绎形式结合起来。正是因 为这样,定量分析往往比较强调事物的客观性及可观察性,强调现象之间与各变 量之间的相关关系与因果关系,同时要求研究者在研究中坚持一种更为客观的观 点。努力做到“客观性”和“伦理中立”,由于定量分析所具有的假说演绎性, 所以在理论与研究的关系上,往往在对所取得与课题有关确定的信息和资料综合 所以在理论与研究的关系上,往往在对所取得与课题有关确定的信息和资料综合 1 东北大学硕士学位论文第一章测量在公共管理领域中的应用 基础上,借助于以往研究结果并在此基础上加以修改、推演,以建立一种能够解 释所观察的现象的理论假说。通过与形成假说过程独立的另外一套观察或试验资 料来检验假说为目标,取得检验结果并对研究结果作进一步分析和评价。 由于定量分析的各种方法在研究课题时,绝大部分的资料信息都是数量化的 资料,而终程结果也基本上靠统计分析的数据来表达。因而采用定量分析后的成 果往往给人一种看得见、摸得着的感觉,比较清晰、明确、概括、精确。 1 1 3 定量分析方法与定性分析方法的比较 定量分析方法是相对于定性分析方法而言的概念,我们通常以分析对象是 “质”还是“量”分为“定性分析”和“定量分析”。 定性分析( 质的分析) :对现象进行“质”的理论思辨。“质”是一事物区别 于其他事物的内部规定性。定性分析的主要功能是“解释”。它所采用的方法主 要是:历史研究、文献研究、观察研究、逻辑分析、内容分析、实地考察、个案 研究等。 定量分析( 量的分析) :在理论思辨的基础上,对现象内外部关系进行“量” 的分析和考察,寻找有决策意义的结论。从前面我们所阐述的概念中,可以看到 定量分析的主要功能是“实证”。主要方法有:统计方法、测量方法、评价方法; 也包括实验方法、社会调查方法;现在又借鉴了计量经济学、系统科学和灰色系 统等方法。 传统的方法多采用思辩方法,尤其在中国目前的公共管理领域内应用较多是 采用单纯的谈话、观察法、经验总结法等定性方法。但是,随着公共管理事务变 的越来越复杂,对管理质量和效率的要求越来越高,特别是在电子计算机技术飞 速发展的情况下,定量方法开始发挥越来越重要的作用,定性方法和定量方法相 结合是未来发展的必然趋势。 1 1 4 一般测量的概念 测量是人类生产和生活中普遍存在的现象。农业生产要丈量土地面积,工业 范克新,定量方法,南京大学出版社,2 0 0 4 。定量分析与定性分析并不是截然分开的,更不 是相互对立的两个概念,本文阐述的测量的概念属于定量分析方法的范畴。 4 东北大学硕士学位论文 第一章测量在公共管理领域中的应用 生产要测定产品的技术指标,地质勘探耍测定海拔高度和地质指标,医疗作要测 定人体的生理指标,教学工作要测定学生的学业成绩。至于科学研究中的测量活 动就更加普遍,也更加严格。简单地说,测量就是依据一定的法则使用量具对事 物的特征进行定量描述的过程。所以说测量是定量分析和描述的过程,属于定量 分析的范畴瞄。 所谓“一定的法则”,是指任何测量都要建立在科学规则和科学原理基础之上, 并通过科学的方法和程序完成测量过程。 所谓“事物的特征”,是指所要测量的事物的特定属性。例如,物体的重量、 长短、高矮:物体运动的速度,人的性格特质等。 所谓“量具”,是指测量中所使用的工具。例如,重量测量中的杆秤、电子秤, 长度测量中的木尺、皮尺,体温测量中的体温计等等,现在测量中多使用电子计 算机作为量具。不同的测量要用不同的量具,不同量具所使用的单位和参照点也 不同。 所谓“定量描述”,是指任何测量的结果总是对事物特征的量的确定,这也是 有别于一般的定性描述的特点。 1 1 5 心理测量的概念 心理测量理论是近几年来测量理论中发展迅速的一个分支,作为一种测量工 具和研究手段,在人才选拔、职业指导、因材施教、心智缺陷的早期诊断、教学 方法与教学措施的评价以及发展心理学理论方面得到广泛的应用。目前在公共管 理领域尤其是人事测评领域和教育管理领域得到了广泛的应用。根据测量的概念, 如果说“测量”是指依据一定的法则,用数字对事物和事物的属性加以确定的话, 那么,“心理测量”则是指依据心理学理论,采用一定的操作程序,用数字对人的 行为加以确定。人的心理总是通过人的行为表露出来的,心理测量的目标虽然是 入的心理意识、主观精神现象。但心理测量的具体对象则是活生生的入的行为活 动“。 心理测量的主要功能有以下几个方面“1 : 第一,能力测验 - 5 东北大学硕士学位论文 第一章测量在公共管理领域中的应用 从心理测验的观点看,可将其分为实际能力与潜在能力。实际能力是指个人 当前“所能为者”,即代表个人已有的知识、经验与技能,是正式与非正式学习或 训练的结果。潜在能力是指个人将来“可能为者”,是在给予一定的学习机会时, 某种行为可能达到的水平。有人只把测量实际能力的测验称作能力测验,而把测 量潜在能力的测验称作能力倾向测验,例如国家公务员行政能力倾向测验。实际 上二者很难分清。能力测验又可进一步分为普通能力测验与特殊能力测验。前者 即通常说的智力测验,后者多用于测量个人在音乐、美术、体育、机械、飞行等 方面的特殊才能。 第二,学绩测验 主要用于测量个人( 或团体) 经过某种正式教育或训练之后对知识和技能掌握 的程度。因为所测得的主要是学习成绩,所以称作学绩测验。最常见的是学校中 的学科测验;无论学绩测验还是能力测验( 包括能力倾向测验) ,所测得的都是个人 在其先天条件下经由后天学习的结果。不过学绩测验多是测量有计划的或比较确 知的情境( 如学校) 下学习的成果,而能力测验,特别是能力倾向测验则是测量较少 控制的或不大确知的情境中学得的结果,也就是在个人生活中经验累积的结果。 第三,人格测验 人格测验主要用于测量性格、气质、兴趣、态度、品德、情绪、动机、信念 等方面的个性心理特征,亦即个性中除能力以外的部分。 公共管理的一些领域当中,主要是针对人的测量、是对人的行为和心理的把 握,所以心理测量在公共管理领域的应用前景越来越广泛,作用也日益突出。 1 2 测量在公共管理领域中的应用 1 2 1 测量在人事测评当中的应用 近代人事测评技术是以心理测量理论为基础发展起来的,从早期的智力测验 到现在的知识水平、能力及其倾向、工作技能、个性特征和发展潜力等诸多方面 的单项或综合测评,人事测评涉及的测量评价范围越来越广。在教育与测量专家、 人力资源管理专家、人事测评工作者的共同努力下,人事测评的发展出现了细化、 定量化、精确化分析的趋势,定量分析方法逐步得到了广泛的应用。由原来单纯 6 东北大学硕士学位论文第一章测量在公共管理领域中的应用 的谈话、观察法变为综合运用心理测验、面试、评价中心等多种方法;由简单评 价变为融合心理学、管理学、统计学、行为科学和计算机技术等多学科进行深入 全面测评;由模糊定性分析到具体测评项目的精确定量分析;由经验主义色彩浓 厚的判定到科学化、客观化的分析。 测量在人事测评工作中有很高的应用价值。如果把人员分成在岗与不在岗。 那么对于在岗人员来讲,测量的应用有两个方面:一是在岗人员是否合格的诊断, 二是对不合格者重新分配的工作安置及培训效果评价;对于要挑选的不在岗人员 而言,主要是选拔。如果把这两类人员合在一起,测量在的应用主要有3 个方面: 一是人员的心理特点评估;二是人员培训后的心理特点评估;三是工作人员的绩 效评估。 我们知道不同的组织由于其结构、性质、规模等不同,自然其所要求的职位 和工作也不一样,要使组织和谐、高效地运转,除了管理等因素外,选拔或安排 合适的工作人员也十分重要。由于工作不同,对人的特点的要求也就不一样,其 主要有两个大的方面:一是一般心理品质测量,主要指智力、个性等;二是专业 知识和特殊能力测量。例如目前由国家人事部主持实施的全国公务员行政能力倾 向测验就是一种有针对性的多项能力倾向测验。这种测验在人的特殊能力的全面 诊断评估方面很有针对性,主要是能力倾向成套测验,它包括语言能力、普通推 理能力、数学能力、空间想象能力、形状知觉能力、文书能力等等分测验,专门 用于测验和考评应试者从事国家机关工作的心理素质和必须具备的潜能,对国家 选拔优秀的人才发挥了重大的作用。 1 2 2 测量在教育评价中的应用 所谓教育评价是指根据教育目标,在系统收集资料的基础上,对教育过程及 其结果进行价值判断的过程“3 。首先,教育评价要有一个参照标准,这个标准就是 教育目标,教育工作的好坏主要应根据教育所能接近教育目标的程度,当然这个 参照标准是以能过大量测量得到的;其次,教育评价要以事实为基础,没有一套 切实可行的科学程序,就得不到符合客观实际的事实,价值判断就会出现错误, 而教育测量的一整套理论和以这套理论为依据开发的成果对于获得客观的事实是 7 东北大学硕士学位论文第一章测量在公共管理领域中的应用 很有帮助的;第三,教育评价的内容是对教育过程到结果的评价,是一种动态性 评价,是对学校教育活动和学生发展质量的评价,没有一个系统完善的测量理论 也是很难实现的。 测量在这里主要是对人的测量,在教育测量过程中居于主导地位。它的测量 对象是针对学生、教师和管理者。例如对学生的品德测量、学习动机测量、智力 测量、创造力测量、能力测量等;针对教师的教学水平测量、艺术水平测量等、 语言水平测量,表达能力测量等;针对管理者的管理能力测量、沟通能力测量、 创新能力测量等等“3 。 8 东北大学硕士学位论文 第二章经典测验理论与项目反应理论 第二章经典测验理论与项目反应理论 在我国公共管理领域中,虽然对测量方法的使用历史悠久,但始终停留在观 察、谈话、调查访问等类似的定性分析阶段。直到近代从西方引进经典测验理论 ( c l a s s i ct e s t i n gt h e o r y ,c t t ) 后,有关的定量化分析方法才逐步开始应用。 经典测验理论指导下的方法简单明了,方便易行,得到了广泛应用,在测量方法 中居于统治地位。但是,先入为主的影响也造成了人们不愿接受那些虽然更为客 观科学但比较复杂的测量方法,些传统的定性分析方法还是人们使用的主要方 法。 在国外,自6 0 年代以来以项目反应理论( i t e mr e s p o n s et h e o r y ,i r t ) 为 代表的新的测量理论经过长期发展,不断完善,趋于成熟。由于其科学性和合理 性,已经在很大程度上赶上甚至超越了经典测量理论而得到广泛应用,尤其是在 人才测评、教育与心理测量评价领域发挥着巨大的作用。在国内,关于测量的研 究工作虽然起步并不晚( 最早可追溯到五四运动前后) ,但由于种种原因未能紧跟 测量领域的主流发展趋势。尤其是在国内,现在测量理论范式方面仍然是经典测 量理论占绝对优势,新理论的应用只能说是星星之火。 在i r t 理论基础之上发展起来的非参数项目反应理论( n o n p a r a m e t r i ci t e m r e s p o n s et h e o r y ,n i r t ) 理论,由于其特殊的应用价值,其在国外应用范围也越 来越广,相对于i r t 简便易行的优点更为广大非专业测量人员所青睐。但就目前 来看,n i r t 对国内来说基本上还是一个新事物,相关的研究还比较的少,更没有 应用到实践领域当中去,是一个不小的空白。 但先进的理论总是能吸引人们的注意,只是由于人们长期以来过分依赖于“真 分数”使用时的简便直观,再加上现代测量理论的模型都还比较复杂,应用对不 太方便,所以人们感觉难以接受。但从长期发展趋势来看,要使公共管理中的测 量工作更加科学、规范、高效,就必须大力推广使用现代测量理论指导下的方法, 选取新的更科学合理的测量方法来指导我们进行测量工作。下面就经典测验理论 c t t 和项目反应理论i r t 做一个简要的介绍,非参数项目反应理论n i r t 将在第 9 东北大学硕士学位论文 第二章经典测验理论与项目反应理论 三章作专门介绍。 2 1 经典测验理论( c t t ) 2 1 1c t t 的形成与发展 经典测量理论( c t l ) ,亦称真分数理论是一种以测试实得分数为前提条件的理 论。它萌芽于十七世纪第莫非尔( d c m o i r e r ) 关于测量误差服从正态分布的思想, 十九世纪初经过斯皮尔曼( s p e a r m a n ) 等人的应用和研究有所发展,后经几十年的不 断实践、改进而日趋丰富、完善,使之形成一种具有数十种项目分析指标及评价 标准体系的测试理论”1 。它的发展大体上经历了以下几个阶段。: 1 ) 1 9 0 6 年s p e a r m a n 开始运用因素分析方法研究智力结构。随后t h o m d i k e 提 出了多因素论,t h u r s t o n e 提出了群因素论,1 9 5 4 年,g m l f o r d 提出了智力理论因 素分析方法。 2 ) 1 9 3 6 年,h a r t o g 与r h o d e s 提出了简单线性量表模型: 2 + l + 蚂+ ,这是经典测量方法的发展基础。 3 ) 1 9 5 4 年,g u i l f o r d 提出了一个复杂线性量表模型: 鼍p2 瓦z + 邑+ h w + c f + 。加入了修正系数,比简单线性量表模型更科学一些。 4 ) 1 9 5 9 - 1 9 7 1 年间,c a m p e l l 、f i s k e 、k a v a n a u g h 、m c k i n n e y 和w o l i n s 提出了 “多特质多方法”( m u l t i t r a i t m u l t i m e t h o d ) 的测量理论。 5 ) 1 9 8 2 年,c h o p p i n 提出了从数字类型量表转换到线性量表的思想。1 9 8 4 年, d eg r u i t e r 在作文测验中应用了这一思想并提出了一个真分数逻辑斯蒂模型: x 。t = t 。l + e 。 。m + 。x p ( 鼠一邑) 【l + e x p ( 玩一s 棚,逻辑斯蒂模型是对参数独立性研究的尝 试。 漆书青,略论心理和教育测量理论的发展历程,江西师范大学学报( 哲学社会科学版) ,20 0 1 年2 月,第3 4 卷,第1 期,p 9 4 9 9 。事实上c t t 的发展涉及到的学者和成果很多,并且分为 主流方法和非主流方法,本文只选取其中有代表性的人物和方法。 1 0 东北大学硕士学位论文第二章经典测验理论与项目反应理论 2 1 2c t t 的基本原理 c t t 的主要功能就是估计测验中实得分数的信度或者是估计实得分数与真分 数之间关联程度的,这样也把它称为真分数理论。这一理论由基本假设、信度、 效度、标准化等几个基本概念组成。基本假设就是关于真分数与观察分数之间的 一种假设,它假定观察分数由真分数和测量所产生的误差所组成的。经典理论常 模可以说全部建立在真分数数学模式基础上。真分数理论模型是指任何测量皆由 两部分组成:一部分是不能够观察到的,代表着某种潜在特质,这部分是真实分 数部分;另一部分为观察不到的,也不能为潜在特质解释,这部分是误差部分。 这两者构成任何一个测得的值( 即实得分数) ,而且二者彼此之间没有任何关联存 在。由此,只要符合这一模式的便为真分数理论模式,它可以用数学公式。1 : x = t 上e 进行表示 x 代表观察分数,t 代表真实分数,e 代表误差 由此可见,真分数理论这一数学模型建立在三个基本假设基础之上: 第一,在所讨论的整体中的每一个个体具有恒定特质、量值确定、真分数不 会改变: 第二,误差是完全随机的。一方面,误差因素与个体特质无关,误差分数跟 真分数值相互独立,另外,各平行测验上误差分数间、误差分数跟所测特质以及 其它变量间相关为零;另一方面,误差因素为一随机变量,它服从于正态分布, 平均数为零; 第三,观察分数是真分数与误差分数的和,而不是其它函数关系。这样,我 们认为真分数理论属于随机抽样理论的范畴。它是参照具体样本来定义真分数以 及难度、区分度、信度等测验质量指标的。因此,它所选用的样本必须具有代表 性,否则,所求得的各项结果都是不真实的,不具有类比特点。另外,它还指导 了效度验证、测验等值、项目的有偏性的研究等问题。 通过上述假设,可以分析并得出多项结论:例如,误差分数的期望值为零; 实得分数的变异数等于真实分数的变异数与误差分数的变异数之和;复本测验分 东北大学硕士学位论文第二章经典测验理论与项目反应理论 数与另一分数或变项间的相关系数相同;实得分数和真实分数间之相关系数的平 方等于复本测验间的相关系数的平方;任意两个测验的真实分数间之相关系数等 于该两个测验的实得分数间之相关系数除以该- - - n 验的复本测验的实得分数间之 相关系数的相乘积的根等等。 综上所述,真分数理论己形成了自身一套完整简便易行的项目( 试题) 分析的 方法与技术,就是:把难度定义为施测项目在所测被试组中的通过率,即p 值; 把区分度定义为所测被试在项目上的得分与测验总分的相关系数,即为积差相关 或双列相关等系数值。并要求按难度适中、区分度高的原则进行了项目筛选和修 订项目,以编制出性能优良的测验“。 2 1 3c t t 的优势与不足 c t t 目前是在体系上最成熟的,以其为基础的测验在各行各业得到了成功的 应用,可以说,c t t 是其他测验理论赖以产生的基石。在新的测验理论崛起的今 天,c t t 仍然占据着不可替代的地位。之所以如此,是因为c t t 有以下的优点: 第一,建立在较简单的数学模型之上,易于被人理解和接受,且计算简便, 容易推广; 第二,理论假设较弱,对实施条件要求不严格,适用性广; 第三,在多数情况下c t t 是足够精确的,可以放心地应用。 当然,随着时代的发展,科技的进步,经典理论已明显地显露出自身的局限 性及不足,其突出的困难与不足有“: 第一,真分数与观测分数间存在线性关系的假定不符合事实。c t t 假定真分数 t 、观测分数x 和测验误差分数e 问的关系可以用一个简单的线性函数x = t + e 表 示。但大量的研究表明,真分数与观测分数间的非线性关系更符合事实; 第二,项目统计量( 难度和区分度) 严重依赖于被试样本。c t t 的项目难度以通 过率表示,因此被试样本能力高时项目通过率就高,反之则低;区分度通常以项 目与总分的相关或高低能力组的通过率之差表示,两组能力差别大时,区分度就 高,反之则低; 第三,对被试能力的估计依赖于测验题目的难度。在c t t 中,被试能力与试 1 2 东北大学硕士学位论文 第二章经典测验理论与项目反应理论 题难度是不相关的,参加不同难度的测验会得到不同的能力估计值,不同测验结 果间难以进行比较; 第四,测验信度。建立在平行测验假设的基础之上。平行测验指内容相似,平 均分、标准差及误差均相同的测验。但严格平行的测验是不存在的,即使同一测 验在不同时间施测,测验分数也会产生较大变异; 第五,测验信度的取值也依赖于被试样本。当样本能力水平的差异大时,测 验分数的分布范围就大,计算出的信度值就高,而反之信度值就低; 第六,误差与真分数独立的假设难以满足。c t t 假定误差与真分数独立,即 r t e = o ,这是不符合事实的。低能力的被试答题时一般会比高能力被试有更多的猜 测,所以其测验误差分的大小及方差必然要大于高能力的被试; 第七,信度是针对被试全体的,只代表平均测量精度。信度不能给出不同能 力水平的准确测量精度,因而对如何提高不同能力水平的测量精度问题c t t 显得 无能为力; 第八,对测验等值、适应性测验、标准参照性测验的编制等问题不能给以满 意的解决。 2 2 项目反应理论( i r t ) 2 2 1i r t 的形成与发展 i r t 的基本理论构架的初期模型为劳勒( l a w l e y ) 、塔克( t u c k e r ) 、洛德( l o r d ) 、 拉扎斯菲尔德( l a z a r s f e l d ) 等人于本世纪五十年代所创立,即提出了“一个可见 反应或行为的概率与个人具有隐含的潜在特性水平相关”的假定,以及几种关于 反映概率与潜在特性间数量关系的i r t 模型,从而奠定了i r t 进一步发展的基础。 六十年代后,随着新技术成果在考试领域应用范围的日益加宽,尤其是计算机技 术的广泛普及,i r t 获得了迅速发展的技术条件,怀特( w r i g h t ) 、米德( m t a d ) 、帕 森靳( p e r s o n s ) 、赫林( h o l l i n ) 、德雷斯哥( d r a s g i w ) 和科莫卡( k o n o c o r ) 等人,应 用现代科技手段,针对几种初创的i r t 模型的缺陷,相继创立了较早期i r t 理论 在测量中能够反映测量结果的稳定性和一致性概念叫做信度。 一1 3 东北大学硕士学位论文 第二章经典测验理论与项目反应理论 与模型以及更为完善和应用范围更广泛的i r t 理论与模型,进而使i r t 成为现阶 段一种较为成熟的新型测试理论,其发展大体经历了以下几个阶段 : 1 9 1 6 b i n e t s i m o n 首创以图面表示两变项间关系,如年龄与答对机率。 图面( p l o t ) 即为今日的项目特征曲线( i t e mc h a r a c t e r i s t i cc u r v e ,简称i c e ) , i c c 为现代测验重要观念之一。两位也是首先实际应用i c c 的心理学者。比西智力 量表为第一个适性测验( w e i s s ,1 9 8 5 ) 。 1 9 3 6 6 r i c h a r d s o n 导出现代测验i r t 参数与古典测验项目指数间关系, 是获得现代测验i r t 参数估计最早的方法。 1 9 4 3 ,1 9 4 4 6 l a w l e y 发表新的参数估计方法。并首次深入探讨现代测验 i r t 的理论架构。此架构对后纵横测验学界三十年的大师级人物f r e d r i cl o r d 影 响其大。l a w l e y 除了探讨现代测验i r t 参数与古典测验项目指数间的关系外,也 提出一些新的参数估计法,但因其假定较不符合实际,如:( 1 ) 项目内在相关相等, ( 2 ) 猜测( g u e s s i n g ) 不是影响测验的因素。故应用时受限制。 1 9 4 6 6 t u c k e r 是第一位使用“项目特征曲线”一词的学者。并研究古典 测验项目指数与i c c 间的关系。 1 9 5 0 6 l a z a r s f e l d 专攻态度测量,可能为最先使用“潜在特质”( 1 a t e n t t r a i t ) 一词的学者。 1 9 5 2 6 一一l o r d 发表双参数常态肩形模式( t w o p a r a m e t e rn o r m a lo g i v e m o d e l ) 的参数估计与应用。其与隔年的研究成果被视为现代测验理论- i r t 的起源。 l o r d 也是第一位使用项目反应模式之人,并以其常态肩型模式的参数估计方法成 功地应用于成就及倾向测验上。尔后现代测验i r t 的理论便由二分计分发展至多 元计分( p o l y c h o t o m o u s ) 及连续变量上、由单向度模式( u n i d i m e n s i o n a lm o d e l ) 至 多向度模式( m u l t i d i m e n s i o n a lm o d e l ) 等的突破而增加现代测验i r t 的实用性。 1 9 5 7 ,1 9 5 8 6 b i r n b a u m 以对数模式( 1 0 9 i s t i cm o d e l ) 代替l o r d 的常态肩 形模式并奠定对数学模式的统计基础。然而,现代测验发展至5 0 及6 0 年代,由 漆书青,略论心理和教育测量理论的发展历程,江西师范大学学报( 哲学社会科学版) ,20 0 1 年2 月,第3 4 卷,第1 期,p 9 4 - 9 9 。n i r t 的发展分为两个独立的分支,本文未作分类,而是 将它们综合到一起。 1 4 东北大学硕士学位论文第二章经典测验理论与项目反应理论 于较复杂数学运算及缺乏方便有效的计算机而导致进展缓慢,也使得此领域的研 究价值受到怀疑。但尔后对于测验等化( t e s ts c o r ee q u a t i n g ) ,适性测验 ( a d a p t i v et e s t i n g ) 及测验设计与评量等实用问题的突破而引起不少测验专家的 兴趣。 1 9 6 0 卜r a s c h 出版f 智力与成就测验的机率模式j ( p r o b a b i l i s t i cm o d e l s f o rs o m ei n t e l l i g e n c ea n da t t a i n m e n tt e s t s ) 一书,提出三种项目反应模式的 原理与应用,而深深影响美国的b e n j a m i nw r i g h t 及欧洲a n d e r s e nf i s c h e r 等人 的研究工作。 1 9 6 7 6 w r i g h t 成为7 0 年代r a s c h 模式在美国推展的催生者与领导人。在 美国教育测验服务中心( e t s ) 所举办的测验问题研讨会中,演讲r a s c h 模式的测验 编制而大受瞩目,因而在美国教育研究学会( a e r a ) 年会中设立r a s c h 模式讲习班 以造就应用r a s c h 模式的人才,讲习班亦维持愈十二年,对于计算机程序的研发, 实际应用上皆颇有贡献,广获支持。 1 9 6 8 6 l o r d n o v i c k 出版心理测验分数的统计理论( s t a t i s t i c a l t h e o r i e so fm e n t a lt e s ts c o r e s ) 一书中有五章( 其中四章为b i r n b a u m n 所作) 讨 论潜在特质论。对现代测验的研究具启发作用。 1 9 6 9 6 w r i g h t p a n c h a p a k e s a n 发表r a s c h 模式的参数估计法及计算机 程序b i c a l 。b i c a l 亦为r a s c h 模式应用时最重要的计算机程序。 1 9 6 9 6 一s a m e j i m a 开始发表一系列新的项目反应模式的理论与应用。她的 模式能处理多元计分及连续变量之资料,且将单向度模式扩展至多向度模式。 1 9 7 2 6 _ b o c k 提出一些重要的参数估计新理念。 1 9 7 4 卜l o r d 发展新参数估计法并为计算机程序l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论