




已阅读5页,还剩65页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
心理与教育测量回顾:心理学有哪些研究方法l 1观察法:由研究者直接观察记录个体或群体在自然状态下的活动,从而分析其与有关因素之间关系的一种方法。l 珍妮古道尔花费30多年的时间在非洲贡贝的坦葛尼科湖研究黑猩猩的行为模式。l 2实验法:在控制的情景下,有系统地操纵自变量,观察和记录因变量的变化,从而验证预见性假设的过程。l 3个案法:比较古老的研究方法。由医疗实践中的问诊方法发展而来的。要求对某个人进行深入而细致的观察与研究,以便发现影响某种行为和心理现象的原因。l 4测验法 课程说明 l (一)课程性质 本课程适合于大学本科心理学、教育科学等专业的本科生及研究生教育。本课程的学习将有助于实验设计、教育评价、心理与教育统计学等学科的学习,是培养学生科学研究及掌握研究方法的基础性学科。l (二)教学目的 通过学习,要求学生掌握心理测量的基本知识、心理测量的编制和实施、以及良好测量所要求具备的基本条件。更重要的是,通过本课程的学习要使学生熟练掌握不同心理测量的实际应用。 (三)教学内容 本课程的主要教学内容有:心理测量的基本内涵及其评价和测量的一般步骤和方法两部分。内容涉及一般测量解析,测量的要素及量表类型,测验信、效度、难度和区分度,测量的一般步骤和方法,智力测验、人格测验等心理测验,以及心理测量的综合应用和心理测量理论的新发展等内容。 (四)教学方式 课堂教学与实践应用相结合。第一章 心理与教育测量概论l 教学要点:l 通过本章的学习,了解测量的基本性质及其要素,测量量表的四种水平,心理测量的本质、基本条件及功能,对心理测量有一个概括化的了解。l 第一节 一般测量概述l 第二节 心理与教育测量的性质l 第三节 心理与教育测量的种类及其功能l 第四节 心理与教育测量工作者的素质要求及道德准则第一节 一般测量概述 心理与教育测量在心理科学、教育科学的基础学科和应用学科之间起着一种中介作用。l 一、测量及其种类l 二、测量的基本要素l 三、测量的量表第一节 一般测量概述l 一、测量及其种类l 1 测量(Measurement) 的定义 l 测量就是依据一定的法则 使用量具 对事物的特征 进行定量描述 的过程。 第一节 一般测量概述l 3测量的分类 (根据测量对象的性质和特点) l 物理测量:长度、重量、面积、速度等。l 生理测量:化学成分、生理机能等。l 社会测量:人口普查、经济统计、民意调查等。l 心理测量:智力、人格、成就、职业兴趣、态度l 二、测量的基本要素l 1. 参照点(Reference Point)l 采用相对参照点为测量起点的测量结果只能进行加减运算,而不能进行乘除运算。比如,智商 l 2. 单位(Unit )三、测量量表第二节 心理与教育测量的性质l 一、心理与教育测量的定义l 依据一定的心理学和教育学理论 ,使用测验 对人的心理特质和教育成就 进行定量描述 的过程。 l 回顾:测量的定义心理与教育测量的特点: 1。所依据的很大程度上只是一种理论l 典型例子智力理论:l (1)抽象的思维能力。斯皮尔曼认为,所谓智力是认识事物关系的能力。l (2)学习能力。如盖茨认为,所谓智力,是关于学习能力的合成力。l (3)对环境的适应能力。如斯滕认为,智力是对生活的新课题和条件的一般性心理适应力。l (4)作为媒介变量。如弗里曼认为,智力是智力测验所测定的东西。l 智力结构的构成成分:l (1)斯皮尔曼强调智力二因素论,一般因素和特殊因素 比内量表和韦氏量表都是按照二因素论编制,主要用来测G因素。l (2)桑代克强调多因素论,社会智力、具体智力、抽象智力l (3)瑟斯顿强调群因素理论l (4)卡特尔又强调流体智力和晶体智力l (5)加德纳则强调多元智力理论l 2。对象是人的心理特质和教育成就间接测量l 3。量具是由有关领域的专家编制l 4。精确度远不及物理测量的高l 二、心理与教育测量的理论基础l 凡客观存在的事物都有其数量桑代克l 凡有其数量的事物都可以测量麦柯尔l 三、心理与教育测量的量表l 1。从所使用的参照点来看,教育与心理测量领域的参照点均为相对参照点。 智力测验成就为零,智商一定为零吗?l 2。从所使用的单位来看,教育与心理测量的单位远没有其他单位成熟和完善。 “分”l 从本质上讲,心理与教育测量的量表属于顺序量表l 通过标准分数的转换,把次序量表转换成以标准差为单位的等距量表。四、心理与教育测量中的测验l 测验是一个或一群标准的刺激,用以引起人们的行为,根据此行为以估计其智力、品格、兴趣、学业等。 陈选善l 所谓测验,是对一个行为样组进行测量的系统程序。 Brownl 心理测验实质上是对行为样本的客观的和标准化的测量 阿娜斯塔西l 1。行为样本 l 从人的大量行为中抽取与欲测量的心理特质直接相关的一组行为进行测量,并依据对这一组行为的测量结果推断其心理特质和教育成就。这一组被抽取出来的、作为直接的测量对象的行为就是行为样本。l 2。标准化l 测验的标准化就是指测验的编制、实施、记分以及测量分数解释的程序的一致性。l 3。难度或应答率l 4。信度和效度心理测验和心理测量l 区别 心理测验:工具 心理测量:活动第三节 心理与教育测量的种类及其功能l 一、心理与教育测验的种类 l 1 。以测验的对象来分 l 2 。以测验的方式来分 l 3 。以测验的内容来分 l 4 。以测验的功能来分 l 5 。按评价参照的标准分类 l 4。按测验内容所作的分类l (1)成就测验与预测测验l (2)难度测验与速度测验l (3)描述测验与诊断测验l 5。按评价所参照的标准分类l (1)常模参照测验l (2)目标参照测验l (3)潜力参照测验l 二、心理与教育测验的功能l 1。理论研究功能l (1)收集研究资料l (2)建立和检验理论假设l (3)实验分组l 2。实际应用功能l (1)选拔人才 美国二战飞行员选拔l (2)人员安置 没有无用的人,只有放错地方的人。l (3)心理诊断l (4)描述评价l (5)心理诊断第四节 心理与教育测量工作者的素质要求及道德准则 案例:l 1959年6月,休斯敦(得克萨斯州)独立学区投票表决烧毁了5000份问卷,原因是家长们认为在一个对9年级学生进行的全国大调查中包含有所谓的个人隐私问题(Netter,1959)。这份问卷问学生是否同意下列表述:l 一个在约会中遇到麻烦的女孩只能责备她自己l 有时我会讲低级的笑话,但事实上我并不愿意说。l 我喜欢在浴缸中浸泡l 如果你不和一群人饮酒,他们的反应会使你觉得自己是一个胆小鬼l 爸爸总是看起来很忙,不能与我结为好友l 6年后,美国心理学会(APA)被很多市民包围,他们拿着传单和旗帜,上面写着“别让博士强行灌输思想,去见你们的牧师或医生”、“给你们的议员或代表写信,让他们立法,要求在学校、公共机构和私人公司里停止使用性虐待的心理测验”(APA,1965)l 一、心理与教育测量工作者的素质要求l 1。心理与教育测量工作的知识结构 (基础知识、专业知识)l 2。对心理与教育测验的科学态度l 错误观l 测验万能论20世纪20年代l 测验无用论: 测验遭到的最强烈的批评是:测验为宿命论和种族歧视提供心理学依据。 “美国黑人和其他美国人的平均智商之间的差异,几乎完全可以用从胎儿起直至整个一生的处境不利来说明。” 欧文戈茨曼l 正确观l (1)重要的研究方法之一辅助工具l (2)尚不完善l 二、心理与教育测量工作者的道德准则l 1 。测验的保密和控制原则 l 2 。测验中个人隐私的保护 l “我可以要一份斯坦福比纳测验空白卷吗?我的侄子想进某学校,下个星期参加斯坦福比纳测验,我很想让他练习一下,他就能通过了。l “为了改进学校的阅读课程,我们需要一个排除文化影响的智力测验来测量每个儿童的潜力。”l “昨晚我回答一本杂志上所发表的智力测验问题,IQ得了80分,我认为心理测验是无聊的。”l “我的室友正在学习心理学。她让我做了一个人格测验,结果是我有神经症。自此,我心烦意乱,不能上学。”l “去年你处于研究目的让我们员工做了一个新编人格测验,我们想把分数归入他们的个人档案。”第二章 心理与教育测量的产生与发展l 现代心理测量和测验作为心理科学的一个重要分支,是在19世纪的欧洲才发展成熟起来的,其直接动因乃是源于人们对心理特征的个别差异进行评定的需要。心理特征的个别差异是客观存在的,人们在日常生活中创造了丰富的语汇来描述这种差异。但是,对科学的心理研究来说,定性的描述是远远不够的,必须寻找到有效的方法对之加以定量的刻画,于是心理测验这一工具性的实用技术在各种关于心理实质的理论的指导下应运而生了。它与对变量加以严格控制的实验方法构成心理学实证研究的两大范式,并且近来有相互融合的趋势。第一节 中国古代的心理与教育测量l 中国是心理与教育测量技术的最早故乡。l 一、能力测量第一节 中国古代的心理与教育测量一、能力测量 1。孔子 在教育实践中将人的智力分成三个等级,即中上之人、中人和中下之人。l “中人以上,可以语上也;中人以下,不可以语上也。” l 2。董仲舒 一手画方,一手画圆,莫能成。这无疑是世界上最早的注意测验。l 3。刘劭人物志, “观其感变,以审常度。”可以说是一本研究能力的专门著作。 他把人的才能划分为12种类型,即清节、法家、术家、国体、器能等。1937年,美国学者瑞奥克将本书翻译后,名为人类能力之研究l 4。民间,周岁试儿 在现在看来,即婴幼儿的动作测量l 5。出现于清代的九连环、七巧板可以被认为最早的创造力测验。美国心理学家伍德沃斯对九连环及其赞赏,把它视为“中国式的迷津”。l 二、人格测量l 1。孔子不仅论及学生智力水平的评定,同时也提出了性格类型的观点。 孔子把人分成三种类型:狂者、狷者、中行l 2。刘劭 根据阴阳、五行和形体的关系及其人的行为表现,把人的性格划分成12种类型。l 三、教育测量l 最早的教育测量出现于中国西周奴隶制时期国学l 汉武帝初年制定岁考制,并首开笔试先河。l 四、对测验理论的最初探索 l 孟子提出了测量人类心理的必要性和可能性。“权,然后知轻重;度,然后知长短;物皆然,心为甚。”l 刘劭 八观,五视l 八观是:观其夺救,以明间杂;观其感变,以审常度;观其志质,以知其名;观其所由,以辩依似;观其爱敬,以知通塞;观其情机,以辨恕惑;观其所短,以知所长;观其聪明,以知所达”。 l 五视是:居,视其所安;达,视其所举;富,视其所由;穷,视其所为;贫,视其所取。 l 中国古代心理与教育测量的特点:l 1。描述性,非定量的;l 2。分类式的;l 3。注重对人做整体的评价,并倾向于何人的道德品质联系起来;l 4。与教育中的因材施教和人才使用有着密切联系,具有强烈应用性质。三国时期的诸葛亮在其心书一文中讲到如何知人时,提出了七条途径:l 其一,“问之以是非而观其志”,即从其对是非的判断来考察其将来的志向,看看是否胸有大志;其二,“穷之以辞辩而观其变”,即提出尖锐的问题对其诘难,看其观点有什么变化,能否随机应变;其三,“咨之以计谋而观其识”,即就某方面的问题咨询其看法和对策,看其知识经验如何,具不具备分析问题和解决问题的能力其四,“告之以祸难而观其勇”,即观察其在困难面前的表现,看其有没有知难而进的勇气和处世不惊的良好心理素质;其五,“醉之以酒而观其性”,即以美酒款待,看其个人品德如何,是否两面三刀,阳奉阴违;其六,“临之以利而观其廉”,即观察其在金钱财富面前的表现,看其是否能经得住物质利益的诱惑,是否能保持良好的心态;其七,“期之以事而观其信”,即托付其办事以视其信用如何,是一诺千金,还是信口开河。第二节 现代心理与教育测量在西方国家的产生和发展l 旧约全书中,基列山人用于侦察逃亡的以色列人的测验产生了相当惊人的结果:l 基列山人利用约旦河的浅滩来对付以色列人。当以色列的逃亡者中有人说:“让我过去!”基列山人就对他说:“那么请说Shibboleth。”(译者注:圣经中考验的词,看某人能否正确地发此词的音,以判断他是否是逃亡者)如果逃亡者不能正确发出“Shibboleth”的音,他们就会把他抓住并杀死在约旦河的浅滩里。在那里他们杀死了42000个以色列人。译者注:士师记旧约全书第一卷l 这是个带有报复性的测试,幸好并非所有的教育或心理测验都会有如此极端的影响。 l 现代心理与教育测量的理论和技术是产生于工业革命后的西方国家。l 一、现代心理与教育测量的起源l (1)西方科学家最初发现人的心理的个别差异的重要性天文学上的一个事件(马斯林基、金内布鲁克、贝塞尔)l (2)实验心理学的诞生是心理测验产生的另一个重要原因。实验心理学的诞生和发展,还给心理测量带来了另一个副产品:严格的标准化程序。标准化是现代心理测验的重要评价指标。 l (3)社会发展的需要二、心理与教育测量的早期探索者l 1。高尔顿 l 堪称直接推动测验运动发展的第一人,也是最早实际从事测验活动的学者。l 第一个研究智力测验的人l 研究个体之间心理活动的差异l 1884,伦敦国际健康展览会,“人体测量实验室”;13 项心理生理特征:反应时间,视听灵敏度,色彩分辨能力,长度判断能力,拉力,呼吸力量等等。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。l 发明了大量心理测验仪器:高尔顿棒,高尔顿笛l 创始:评定量表,自由联想法、问卷法l 统计学研究方面的贡献:学生Pearson完善了相关概念的计算方法 l “(优生学是)改善血统的科学,它认识到各种影响力的作用,而这些影响力倾向于以无论多么渺小的程度给予更合适的种族或者血统以更好的快速发展的机会,而不是给予那些不那么合适的种族以否则也会很快的速度发展的机会。”l “我看不出,等级制度的蛮横之处,怎么可能会妨碍有天赋的社会阶层,因为他们有能力用慈爱对待同胞,只要他们保持住自己的独身生活。可是,如果这些人还接二连三地生出一些道德感、智力和生理素质都很差的孩子,很容易相信,这些人被视为国家的敌人,并且使许多仁慈之举前功尽弃的一天也许就会到来。”l 高尔顿高尔顿的10年 l F. Galton, 英,1822l 测验运动首倡者l 第1个研究智力测验者;l 第1个大量系统测量个别差异者;l 1884-1890,“人类测量实验室”,测9337人。l 应用评定量表和问卷法的先驱;l 统计学家、生物学家、业余心理学家;l 优生学的创始人;l 2。卡特尔 1890年发表心理测验与测量一文于心理杂志上,这是在心理学文献中首次出现“心理测验”一词。 l 心理学只有立足于实验与测量,才能达到如同自然科学的准确性;心理测量只有建立普遍的统一标准,并要与常模相比较,才能充分地实现其科学价值和实用价值。卡特尔的10年l Cattell J. M., 美,1861l 实验心理与测验运动结合;l “心理测验”首次在心理学 文献出现(心理测验与测量) ;l 创立心理测验公司;l 培养优秀学生:桑代克,佛朗兹等;l 冯特的学生,德国莱比锡大学博士毕业l 英国剑桥受到高尔顿的影响,对个体差异研究感兴趣l 19世纪末返回美国,宾夕法尼亚大学,建立实验室,传播心理测验l 1890年在心理上第一次提出“心理测验”的概念l 测验内容:运动速度,痛感,视听,反应时,记忆力,重量辨别,肌力(但它们与学习能力无关)科学期l 3。比内的10年l A. Binet,法,1857-1911l 1898年,人格心理学中的测量,近代思想 l 1903年,智力的实验研究,广义智力概念;l 1905年,B-S 量表;第一个正式智力量表。l 三、心理与教育测量运动的发展(20世纪20年代至今)l 特点l 20狂热,40顶峰,50CCT趋于成熟、平稳,60年代以后测量理论出现新的动向。l 1。智力测验的发展l (1)1916 推孟修订斯坦福-比内量表 首次使用了比率智商,简称为IQ,是心理年龄和实际年龄的比值。l (2)团体智力测验的发展 l Otis陆军甲种测验(1917)l Otis陆军乙种测验(1927)l (3)对智力本质及其结构的统计学研究应运而生。斯皮尔曼首次运用因素分析研究智力结构,提出智力结构的二因素论,为编制新的智力测验奠定了理论基础。l (4)瑞文推理测验和韦克斯勒智力测验l 2。能力倾向测验的发展l 3。成就测验的发展l 桑代克编制第一个标准化的教育成就测验,被公推为教育测量的鼻祖。1923年,凯利、鲁奇、推孟合作编制了第一个成套成就测验斯坦福成就测验l 斯坦福成就测验(1923)l 美国教育测验中心(ETS,1947)成立;(可以参考百度)l 4。人格测验的发展l 最早进行人格测量的是克雷培林,最早采用自由联想法诊断病人l 自陈人格问卷:1917年武德沃斯设计的“个人资料调查表”。由哈撒韦和麦金利编制的目前影响最大的MMPI-明尼苏达多相人格调查表。 16PF,EPQl 投射测验: 1921年问世的罗夏克墨迹图测验(RIT) ,TAT 罗夏克墨迹测验l 四、心理与教育测量的当代趋势l 1。信息加工测验l 2。纸笔测验逐渐被电脑程序测验所取代l 3。项目反应理论和概化理论心理测量发展近代历史简表1905,比奈-西蒙发表第一个智力测验量表(中国废止科举)1908,比奈修订比奈-西蒙智力测验量表,提出“智力年龄”概念1916,推孟发表斯坦福-比奈量表1917,陆军甲、乙种测验应用(最早的能力倾向测验) 武德沃斯发表第一个标准化人格测验1920,罗夏发表墨迹测验1923,斯坦福成就测验1927,斯特朗男性职业兴趣量表1937,斯坦福-比奈量表年在首次引入“比率智商”概念(德国汉堡大学 LW Stern教授最先提出“智商”概念)1939,韦氏智力测验研制和试用1942,明尼苏达多项人格测验1949,韦氏儿童智力测验,提出“离差智商”概念1955,韦氏成人智力测验1967,韦氏幼儿智力测验1980,考夫曼儿童成套评估量表第三节 现代心理与教育测量在中国的发展l 一、现代心理与教育测量建国前的发展l (1) 1916年,樊炳清先生首先介绍了比内-西蒙智力量表。 (2) 1920年,北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室,廖世承和陈鹤琴先生在南京高等师范学校开设心理测验课。1921年,他俩正式出版心理测验法一书。 (3)1922年夏天,中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学。 (4)1924年,陆志韦先生发表了订正比内西蒙智力测验说明书,30年代又与吴天敏再次做了修订。 (5)1931年由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议,组织并成立了中国测验学会。 (6)1932年测验杂志创刊。 (7)至抗战前夕,由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约20种,教育测验50多种。 l 二、现代心理与教育测量建国后的发展l (1) 1936年,苏联在批判“儿童学”时扩大化,心理测验也被一概禁止。 (2) 从1978年北京大学首建心理系开始,心理测验才重新得到恢复。 (3) 1979年,林传鼎、张厚粲等以国外资料为参考,编制了少年儿童学习能力测验。 (4)1980年初,北师大心理系开设了心理测量课。1984年,在北京召开的第五届全国心理学年会上,成立了心理测验工作委员会,加强了测验工作的指导和监督。l 1。智力测验l 龚耀先修订“韦克斯勒成人智力量表”l 林传鼎、张厚粲修订韦克斯勒儿童智力量表l 吴天敏出版“第三次修订中国比内测验”l 龚耀先修订韦克斯勒幼儿智力量表l 张厚粲修订瑞文标准推理测验l 李丹修订瑞文测验(联合型)l 戴忠恒修订了“一般能力倾向测验”。l 2。人格测验l 宋维真修订MMPIl 刘绍衣修订16PF,辽宁常模l 戴忠恒、祝蓓里制定了16PF全国常模。l 龚耀先、陈仲庚分别修订EPQl 张明园修订生活事件量表l 吴文源修订SCL-901979年来国内现有主要智力测验1978 丹佛发展筛选测验 宋杰,朱月妹1980 比内-西蒙量表修订 吴天敏1981 韦氏儿童智力量表 林传鼎,张厚粲1981 韦氏记忆量表 龚耀先1982 韦氏成人智力量表 龚耀先1983 韦氏幼儿智力量表 郭迪,汪梅先1984 韦氏幼儿智力量表 龚耀先1984 临床记忆量表 许淑莲1987 标准型瑞文测验 张厚粲国内参考书目l 戴忠恒心理与教育测量江苏,87l 教育测量余嘉元l 教育测量王孝玲 华东师大,88)l 心理测量郑日昌 湖南,88l 凌文辁,滨治世心理测验法科学,88l 凌文辁,方俐洛. 心理与行为的测量. 02l 心理测验 彭凯平 华夏,90l 心理与教育测量 张厚粲 浙江教育,97l 教育测量学 张敏强 人教,98l 心理与教育测量 戴海崎 暨大,99l 心理测量 车宏生 北师大,00l 教育测量与评价 黄光扬 华东师大,02l 心理测验的原理与应用 郭庆科 人民军医,02l 项目反应理论及其应用研究 漆书青 戴海崎著 (江西高校,92) 国外参考书l 心理测验分数的统计理论(美)M. 罗德 叶佩华译人教,85l 心理与教育测量和评价 (美)R.L.桑代克 叶佩华译 福建教育,92)l 心理测验 安娜期塔西,厄比纳著(97) 缪小春等译(浙江教育,01)l Psychological Testing A. Anastasi(A,88-6)l Criterion-Referenced MeasurementW.J. Popham (A,78)l Using Psychometrics R. Edenborough(B,99)l Essentials of Psychological Teating Lee, J. Cronbach(A,90)l 教育测量纲要 罗伯特L艾伯尔著 漆书青等译 (江西师大高教室,84)l 项目反应理论在心理测量中的应用 (美)查尔斯L 赫林,弗里茨德雷斯哥,查尔斯K帕森斯 华东师大教育咨询中心译 (湖北教育,90)第三章 经典测验理论的基本假设l 第一节 心理特质及其可测性假设 l 一、心理特质(Trait)的含义l 定义:表现在一个人身上所特有的相对稳定的行为方式l 如何理解:l (1)一组内部相关的行为概括,具有一定的抽象性;l (2)一种一般的神经心理系统,可以综合不同的刺激,使人对这些刺激做出相同的反应;l (3)一个人身上比较稳定的特点;l (4)一个人的精神面貌是由多种特质多层次有机结合而成的;l (5)特质决定一个人对特定刺激的反应倾向。l 二、心理特质的可测性l 凡客观存在的事物都有其数量桑代克l 凡有数量的东西都可以测量麦柯尔第三节 真分数及其有关的假设l 一、 真分数的含义l 反映被试某种心理特质真正水平的那个数值l 一个理论构想出来的抽象概念,在实际测量中是很难得到的。l 二、数学模型及其假设l 经典测验理论假定,观察分数X与真分数T之间是一种线形关系,并只相差一个随机误差E,即 X=T+El 根据这一模型,我们可以引申出3个相关联的假设公理:l (1)若一个人的某种心理特质可以用平行测验反复测量足够多次,则其观察分数的平均值会接近于真分数。即 (X)=T或(E)=0l (2)真分数和误差分数之间的相关为零。即 (T,E)=0l (3)各平行测验上的误差分数之间相关为零。即 (E1,E2)=0l 如何理解CTT数学模型及其假设:l 首先,在问题研究范围之内,反映个体某种心理特质水平的真分数是假定不会变的,测量的任务就是估计这一真分数的大小l 其次,观察分数与真分数之间是线性关系。l 再次,测量误差是完全随机的,并服从均值为零的正态分布。l 平行测验l 两个题目不同的测验测得是同一特质,并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的l 用多个平行测验反复测量同一个人的同一种心理特质的做法往往难以实现,所以CTT模型假设仅仅是理论上的描述。l 为什么CTT模型能用?如果按照CTT模型的描述,要用多个彼此平行的测验反复测量同一个人的同一种心理特质是很难实现的。但是事实上,我们在实施一个标准化测验时,并不是用许多平行测验来反复测查同一批被试,而是用一个测验来同时测查许多被试。由于每个人的误差都是随机的,且服从均值为零的正态分布,所以,当被试团体足够大时,团体内的各种随机误差会相互抵消,整个团体的观察分数的均值会趋近于该团体真分数的均值。这里,多个被试接受同一个测验相当于多个平行测验反复测查一个具有团体真分数均值水平的一个个体。因此,CTT的理论模型和假设便派上了用场。 l 根据CTT模型和假设推导出:l 根据CTT模型和假设,我们很容易推导出如下关系: S2X = S2T + S2El 即:在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和。上面公式中只涉及到了随机误差的变异,系统误差的变异包含在真分数的变异之中。即真分数还可以分为两部分 S2T = S2V + S2I S2X = S2V + S2I + S2E例题l 1。在一次测验中有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84。l 2。某班期末考试,张生语文、数学的成绩转换成了T分数(平均数为50、标准差为10)分别为65和70,由此我们知道张生的数学比语文好一些,但二者之间的差异是否有意义(语文考试与数学考试的信度系数分别为0.84、0.91)。请列举一些你所使用过或接触过的量表l 物理不等于数学l 1.70与1.7的关系l 总结:量表是我们用来了解心理特质的工具,但这个工具是有误差的。误差要控制在一个许可的范围内。回顾l 什么是误差?l 误差的种类?l 误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。l 误差分为随机误差和系统误差。l 高尔顿的智力观l 比奈的智力观l 判断题、选择题和问答题l SX2 = ST2 + SE2ST2 = SV2 + SI2SX2 = SV2 + SI2 + SE2信度l 稳定性 可靠性 一致性l 信度乃是一个被测团体真分数的变异数与实得分数的变异数之比。l rXX=ST2/SX2信度的定义二l 信度乃是一个被测团体真分数与实得分数的相关系数的平方。l rXX=P2TXl 思考:相关系数的平方?信度的定义三l 信度乃是一个测验X与它的任意一个平行测验X的相关系数。l rXX=PXXA卷:你是一个喜欢热闹的人吗?1=绝对是 2=是 3=不一定 4=不是 5=绝对不是B卷:你是一个喜欢安静的人吗?1=绝对是 2=是 3=不一定 4=不是 5=绝对不是第二节 信度的估计方法l 一、重测信度l 二、复本信度l 三、分半信度l 四、同质性信度l 五、评分者信度l 一、重测信度(Test-Retest Reliability)l 定义:同一量表,同一被试群体,在不同时间,两次施测,求其相关。l 实质:表示测验结果的稳定性。故称之为稳定性系数(Coefficient of Stability) l 形式:施测适当时间再施测时间间隔的把握l 间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。l 年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。 l 一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘)重测信度的优缺点l 优点:能够提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。l 缺点:易受练习和记忆的影响,前后两次施测间隔的长短务须适度。二、复本信度(Alternate-form raliability)l 因为任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。复本等值要符合下列条件:l 各份测验测量的是同一种心理特性。l 各份测验具有相同的内容和形式。l 各份测验的题目不应重复。l 各份测验题目数量相等,难度和区分度大体相同。l 各份测验的分数分布(平均数和标准差)大致相等。l 复本编好后,应再测一次,以确保各份测验的等值。定义:两个复本施测同一被试群体,求其相关。l 1.等值性系数:l 同时连续施测,反映内容变异。l 形式:复本A同时复本Bl 2.稳定性与等值性系数:l 时间间隔施测,内容变异重测信度误差l 形式:复本A适当时间复本B 复本信度的优缺点l 优点:可以在一定程度上避免重测法的缺点l 缺点:l (1)只能减少而不能排除练习和记忆的影响。l (2)第二个测验只改变了测验的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题。l (3)对于许多测验来说,建立复本十分困难。三、分半信度(Split-Half Reliability)l 定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。 l 计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。分半信度(Split-Half Reliability)l 为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。l 由于分半信度实际上只是半个测验的信度,测验越长、项目越多,两半分数的相关就越高。四、同质性信度(Homogeneity Reliability)l 同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。 五、评分者信度(Scorer Reliability)l 评分者信度是指不同评分者之间在测验结果计分上的一致性。l 在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。五、评分者信度(Scorer Reliability)l 最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。l 如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。估计信度的方法与测验复本的数目以及施测次数的关系l 在一般情况下,间隔施测的复本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半相关,因为影响的因素少,所得的信度估计为最高。各种信度系数相应误差变异的来源l 估计信度的方法远不止上面谈的几种.实际上,有多少种误差来源,便有多少种估计信度的方法。一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要有几种信度系数,这样我们就把总分数的变异数分成不同的分支。l 例题l 假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的AB两个复本,所得的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数。将二者平均后再用斯皮尔曼-布朗公式校正)。同时,我们让另一个评分者随机抽取50份卷子另外评分,得到评分者信度为0.92。然后,我们对这三种方法所产生的误差变异进行分析。一个假想测验的误差变异来源分析一个假想测验的误差变异来源分析第三节 提高测量信度的方法l 一、影响测量信度的主要因素l 二、提高测量信度的常用方法l 三、几点说明一、影响测量信度的主要因素l 1。被试方面l 2。主试者方面l 3。施测情景方面l 4。测量工具方面l 5。两次施测得间隔时间例题 l 1.假设有一个包括10个题目的测验,信度为0.50,若把测验增加到50个题目,其信度将增加到多少?l 虽然增加题目可以提高信度,但并非多多益善.增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,有时还会引起被试的疲劳和反感而降低可靠性.l 还要注意一点,只有当新题目是与原题目选自同一总体,即与原题目具有同质性时,增长测验才能改进信度.二、提高测量信度的常用方法l 1。适当增加测验的长度l 2。使测验中所有试题的难度接近正态分布,并控制在中等水平。l 3。努力提高测验试题的区分度l 4。选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。l 5。减少无关因素的影响。三、几点说明l 1。提高测验信度的方法很多,以上只是常用几种l 2。本章所用方法仅适用于常模参照测验l 3。目标参照测验的信度问题必须以测量的概化理论为基础才能进行较好的处理l 速度测验l 4。几个一般性参照标准第一节 效度概述l 一、什么是效度l 二、效度与信度的关系一、什么是效度l 效度是指一个测验或量表实际能测出其所要测的心理特质的程度。l 1。效度是一个相对的概念l 2。效度是测量的随机误差和系统误差的综合反应。l 3。判断一个测量是否有效要从多方面搜集证据。l 效度=S2V/=r2xy二、效度与信度的关系l 根据公式S2X=S2V+S2I+S2E,可以得到信度与效度的关系如下:l 1。信度高是效度高的必要而非充分条件l 2。测验的效度受它的信度制约第二节 效度的估计l 比较常见的解释效度的角度:l 1。用测量的内容来说明目的内容效度l 2。用心理学上某种理论结构来说明目的结构效度l 3。用工作实效来说明目的实证效度l 以上分类是相对的,有些专家认为,效度就是多方寻找证据来证明一个测验有效性的过程。第二节 效度的估计l 1966年美国心理学会在教育心理测验值标准中将效度分为三大类:l 1内容效度(Content Validity)l 内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。l 2结构效度(Construct Validity)l 结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。l 3实证效度(Criterion related Validity)l 实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性一、内容效度l 定义:内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 l 适用于成就测验、选拔和分类的职业测验,不适于能力倾向测验和人格测验。 l 方法:逻辑分析法 l 注意与表面效度的区分 内容效度与表面效度的区别l (1)表面效度是由外行对测验做表面上的检查确定的,而内容效度是由够资格的判断者(专家)详尽地、系统地对测验评价而建立的。l (2)这两者都是根据测验的内容作出的主观判断,但判断的标准不同。前者只考虑题目与测量目的之间明显的、直接的关系,后者则同时考虑到题目与测量目的和内容之间逻辑的微妙关系。l 常常有这种情况,外行人认为无效的题目,实际上并不一定无效。例如,MMPI中有这样的题目:“我的喉咙里总好象有一块东西堵着似的。”表面上看来这种题目似乎与个性无关,但在临床上,回答“是”的人很可能为癔病或神经衰弱患者。l 表面效度不是效度的客观指标,但能对受测者的动机产生影响,因而也会影响到效度。l (3)最高行为测验要求有较高的表面效度,典型行为测验却要求较低的表面效度。双向细目表(举例)一、教學目標(以橫軸表示) 以Bloom所提的認知領域六個教學目標為依 據:知識、理解、應用、分析、綜合、評鑑。 (此次編製成就測驗的歷程,可將分析、綜合、評鑑,統合成高層次思考)二、教材內容(以縱軸表示) 以出題的範圍,表示出包含幾個不同的單元。以台湾学校教育文科為例内容效度的评价l 内容效度不但是评价学绩测验的最适合的方法,而且编制任何测验都要加以考虑的方面。l 内容效度既具有一定的优点,也有一定的局限。它的主要缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较。二、结构效度l 定义:结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。例如:智力、性向、動機、社會性、社經地位等。l 主要用于智力测验、人格测验l 方法:l 1。测验内部寻找证据法l (1)确定内容效度作为结构效度的证据l (2)分析被试的答题过程l (3)通过计算测验的同质性信度来检验结构效度l 2。测验之间寻找证据法l (1)相容效度l (2)区分效度l (3)因素分析l 3。考察测验的实证效度法l 4。多种特质多种方法矩阵法1 。测验内部寻找证据法 l (1)确定内容效度作为结构效度的证据l 例如,编制语文能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宿州市宿马园区两站两员招聘11人笔试参考题库附带答案详解析
- 2025年航空发动机维修技术革新对维修产业的影响趋势报告
- 餐饮服务员餐饮文化与菜品知识培训协议
- 财务部门离职员工商业机密保护与竞业禁止协议
- 成品油运输与供应链金融合作服务协议
- 工业园区厂房租赁与产业配套服务合同
- 双方协议离婚及彩礼退还详细合同
- 车贷业务贷款合同续签合同范本
- 计算机VFP考试重点考核解析试题及答案
- 2025中药材料采购合同模板
- 药店管理系统
- 智能病历质控系统需求说明
- 音乐治疗自闭症
- 山东省烟台市莱州市一中2025届高考数学押题试卷含解析
- 2024ESC心房颤动管理指南解读
- TDT1055-2019第三次全国国土调查技术规程
- 行政伦理学-终结性考核-国开(SC)-参考资料
- 《幼儿教育政策与法规》课件-单元4 幼儿园的保育和教育
- 广告安装施工及方案
- 应急第一响应人理论考试试卷(含答案)
- 【初中道法】树立正确的人生目标(课件)-2024-2025学年七年级道德与法治上册(统编版2024)
评论
0/150
提交评论