戴海崎心理与教育测量第4版课后习题答案_第1页
戴海崎心理与教育测量第4版课后习题答案_第2页
戴海崎心理与教育测量第4版课后习题答案_第3页
戴海崎心理与教育测量第4版课后习题答案_第4页
戴海崎心理与教育测量第4版课后习题答案_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章心理与教育测量概论1.掌握以下基本概念和术语:(1)测量答:测量是指依据一定的法则使用量尺对事物的属性进行定量描述的过程。“一定的法则”是指任何测量都要建立在某种科学规则和科学原理基础之上,并通过科学的方法和程序完成测量过程。“事物的属性”是指所要测量的客体或事件的特定特征。“量尺”是指测量中所使用的度量工具。“定量描述”是指测量的结果总是对事物属性的量的确定。(2)心理测量答:心理测量是指依据一定的心理学理论在测验上对人的心理特质进行定量描述的过程。心理测量依据的法则在相当程度上是一种理论,很难达到如同物理测量依据的法则那样普遍被研究者共同接受的科学水平。心理测量的对象是人的心理特质。心理测量的量尺是由有关领域的专家经过长期的编制、试用、修订、完善而逐渐形成的标准化测验,它的编制是一项高度专门化的系统工作,要达到科学所要求的水平绝非易事。心理测量的目标虽然是对人的心理特质进行定量分析,但这种定量分析的精确度远不及物理测量的精确度。(3)绝对参照点答:测量的参照点是指在测量工作中,测量前测量对象的数量的固定原点。参照点可分为绝对参照点和相对参照点。绝对参照点以绝对的零点作为测量的起点。绝对参照点是最为理想的测量参照点,因为它的意义最为明确。(4)相对参照点答:测量的参照点是指在测量工作中,测量前测量对象的数量的固定原点。参照点可分为绝对参照点和相对参照点。相对参照点以人为确定的零点作为测量的起点。最为理想的测量参照点当然是绝对参照点,因为它的意义最为明确。在人们难以找到绝对参照点的情况下,就必须改用相对参照点。这种情况是很常见的。(5)称名量表答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表、顺序量表、等距量表和比率量表。其中称名量表只是用数字代表事物的成分或用数字对事物进行分类。称名量表又可细分为两种形式:一是命名量表;二是类别量表。适合对称名量表进行统计分析的统计方法有百分比、次数、众数和χ2检验。(6)顺序量表答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表、顺序量表、等距量表和比率量表。其中顺序量表中的数字与实数轴中的数值具有相同的顺序性,即不同的数字可表示测量对象的等级、大小和程度的差异,但它既没有相等距离的单位,也没有固定的测量原点。换言之,它既不表示事物特征的真正数量,也不表示绝对的数值,因此不能进行代数运算。适合于对顺序量表进行统计分析的统计方法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。(7)等距量表答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表、顺序量表、等距量表和比率量表。其中等距量表不仅能够指代事物的类别和等级,而且具有相等距离的测量单位。等距量表的数字是一个真正的数量,这个数量中各个部分的单位是相等的,因此就可以对其进行加减运算。等距量表没有绝对的零点,它的零点是人为假定的相对零点。适合于对等距量表进行统计分析的统计方法有平均数、标准差、积差相关系数、等级相关系数以及t检验和F检验。(8)比率量表答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表、顺序量表、等距量表和比率量表。其中比率量表是最完善的测量量表,因为它除了具有类别、等级和等距的特征外,还具有绝对的零点或固定的原点。适合于对比率量表进行统计分析的统计方法除了与等距量表相同的之外,还有几何平均数、变异系数等。(9)标准化测验答:标准化是编制测验的一个重要步骤,也是测验的重要条件。为了使接受测量的不同个人所获得的分数有比较的可能性,测验的条件必须对所有的个人都是相同的。测验的标准化就是指测验的编制、实施、记分以及测量分数的解释的程序的一致性。测验的标准化需要具备下列要件:测验内容的标准化、施测条件的标准化、评分规则的标准化、测验常模的标准化。2.心理测量的精度受哪些因素的影响?为什么心理测量的精度远不如物理测量的精度高?答:(1)测量精度影响因素测量的精确度既与测量对象的性质有关,也同测量时所用的工具有关。①测量的精确度决定于测量对象本身的性质。可根据测量对象的性质把它分为三种类型:确定型、随机型、模糊型。②测量的精确度决定于测量工具(量尺)的精密性。尽可能使用精密的测量工具,是保证测量精确度的重要条件。(2)心理测量的精度远不如物理测量的精度高的原因①心理与教育测量的对象是人的心理特质和教育成就。由于心理特质不能直接测量,研究者只能通过观测人的外部行为的差异测量出人的心理特质的差异。这注定了心理测量的精度不如物理测量的精度高。②心理与教育测量的量尺是由有关领域的专家经过长期的编制、试用、修订、完善而逐渐形成的标准化测验,它的编制是一项高度专门化的系统工作,要达到科学所要求的水平绝非易事。3.斯蒂文斯(Stevens)区分测量量表的依据是什么?为什么对于基于等距量表的测量分数不能进行四则混合运算?答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表,顺序量表,等距量表和比率量表。其中等距量表不仅能够指代事物的类别和等级,而且具有相等距离的测量单位。等距量表的数字是一个真正的数量,这个数量中各个部分的单位是相等的,因此就可以对其进行加减运算。但等距量表没有绝对的零点,它的零点是人为假定的相对零点,所以不能对其进行乘除运算。因而也就不能对其进行四则混合运算。4.在同物理测量的比较中阐明心理测量的特点。答:与物理测量相比较,心理测量的特点主要包括以下几点:(1)心理测量具有相对性。心理测量依据的法则在很大程度上只是一种理论,很难达到如同物理测量依据的法则那样普遍被人们接受的水平。从一种智力测验上得到的测量分数与从另一种智力测验上得到的测量分数可能具有不同的意义,这种情况在人格测量领域表现得更加明显。(2)心理测量具有间接性。心理测量的对象是人的心理特质。心理特质具有内隐性,只能通过测量个人在特定情境中的外显行为来推断他的心理特质,不可能像物理测量中测量重量或长度那样直接测量人的心理特质的量,这就决定了心理测量只能是一种间接测量。(3)心理测量具有客观性。心理测量的量具是由有关领域的专家编制,经过长期的试用、修订、完善而逐渐形成的标准化测验。(4)心理测量的目标虽然是对人的心理特质进行定量分析,但这种定量分析的精确度远不及物理测量的精确度高。5.为什么说心理与教育测验的分数本质上是基于顺序量表的分数?答:量表是指能够使事物的特征数量化的数字连续体。斯蒂文斯根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表:称名量表,顺序量表,等距量表和比率量表。其中顺序量表中的数字与实数轴中的数值具有相同的顺序性,即不同的数字可表示测量对象的等级、大小和程度的差异,但它既没有相等距离的单位.也没有固定的测量原点。换言之,它既不表示事物特征的真正数量,也不表示绝对的数值,因此不能进行代数运算。从本质上讲,心理与教育测量的量表属于顺序量表。这是因为(1)教育测量和心理测量领域的参照点均为相对参照点。例如,在学期末的学科考试中,通常的做法是把学生的成绩确定在0~100分之间。显然,这个“0”是命题人人为假定的测量起点。因为即使某生在该试卷上得了0分,也不能说该生在本学期内没有学到任何知识,或者说该生的知识水平为“零”。(2)教育与心理测量的单位远没有其他测量的单位成熟和完善。①心理与教育测量所使用的单位意义不太明确。例如,在各种形式的考试中,虽然使用的单位都是“分”,但实际上,数学考试中的“分”和语文考试中的“分”意义是不相同的。学生在不同学科上的考试成绩所反映的不是同一个领域的知识水平。②心理与教育测量中的单位常常不等值。例如,同一次数学考试,学生做对一道较简单的题目,得到1分,同样做对一道较复杂的题目,也得到1分。从表面上看,前者的1分和后者的1分是等值的,但实际上,它们所反映的学生的知识水平是不相等的。6.为什么人们不像接受物理测量那样容易接受心理测量?如何才能证明心理测量的必要性和可能性?答:(1)人们不像对物理测量那样容易接受心理测量,究其原因在于心理测量有太多的不确定性:①心理测量依据的法则在很大程度上只是一种理论,很难达到如同物理测量依据的法则那样普遍被人们接受的水平。②心理测量的对象是人的心理特质,而心理特质的含义比较模糊,不能给出一个清晰的界定,具有内隐性,只能通过个体的外在行为表现来予以测量,而重量和长度是客观存在的,可以通过工具直接测量。③心理与教育测量的量具是由有关领域的专家编制,经过长期的试用、修订、完善而逐渐形成的标准化测验。它的编制是一项高度专门化的系统工作,要达到科学所要求的水平绝非易事。④心理测量的目标虽然是对人的心理特质进行定量分析,但这种定量分析的精确度远不及物理测量的精确度高。基于上述原因,人们对心理测量的接受程度不如物理测量,尽管如此,心理测量的存在具有必要性与可能性。(2)以下观点可以证明心理测量的必要性和可能性:①必要性a.人的心理现象和知识水平如同其他一切物理现象一样是有差异的,这种差异不仅包含质的方面,也包含量的方面。因为有差异,所以有必要测定差异的数量,描述差异的程度。b.心理与教育测量的准确性、可靠性和精确度如同其他一切测量技术一样是相对的,也同其他一切测量技术一样必然随着科学技术的进步和发展而逐步提高。②可能性a.1918年,桑代克曾提出,“凡客观存在的事物都有其数量”。1939年,麦柯尔进一步指出,“凡有其数量的事物都可以测量”。这两个命题被公认为是心理与教育测量的理论基础。b.任何事物都是质和量的统一,事物的质的差异是分类的前提,而事物的量的差异则是测量的前提。这里的“事物”不仅指外在的客观现象,也指人内在的主观现象。c.心理特质和知识水平虽然不能直接测量,却必然要表现于人的外部行为之中,并调节着人的外部行为。因此,通过观测人的外部行为的差异就有可能测量出人的心理特质和知识水平的差异。7.什么是测验?测验标准化包括哪些要素?分别举出三种以上有关学业成就、能力和人格领域的著名的标准化测验的名称,并说明其理由。答:(1)测验的定义美国心理测量学家安娜斯塔西认为,“心理测验实质上是对行为样本的客观的和标准化的测量。”(2)测验标准化要素测验的标准化就是指测验的编制、实施、记分以及测量分数的解释的程序的一致性。测验的标准化需要具备下列要素:①测验内容的标准化标准化的首要前提,是对所有接受测量的个人实施相同的或等值的测验内容。测验内容不同,所测得的结果便没有可比较的基础。②施测条件的标准化标准化的第二个条件,是对所有接受测量的个人必须在相同的施测条件下实施测验。其中包括:相同的测验情境;相同的指导语;相同的测验时限。③评分规则的标准化评分规则的标准化要求评分结果的客观性,只有当评分结果客观时,才能将测量分数的差异归于个人心理特质和知识水平的差异。为此,测验中所制定的评分规则要足以使不同评分人的评分结果保持最大限度的一致。④测验常模的标准化。常模是一组有代表性的被试群体的平均测验分数,那么编制测验常模的关键是要抽取有代表性的被试样本,它要求按照抽样原则抽取样本中的每一个个体。(3)举例①斯坦福成就测验斯坦福成就测验属于综合性学绩考查测验,也是一种供团体使用的常模参照性测验。该学绩测验是一种组合式测验,纵向可分成六个不同的级别水平,适用于1~9年级学生。横向包括11个方面的科目内容,分别为词汇、阅读理解、拼字、听理解、词汇学习技能、语言、数学概念、数学计算、数学应用、社会科学常识和自然科学常识。这些科目内容又分别组合成不同的分测验供实际使用。②瑞文推理测验瑞文推理测验是由英国心理学家瑞文编制的一种团体智力测验,又称瑞文渐进图阵。它是非文字型的图形测验,分为三个水平:瑞文标准推理测验;瑞文采图推理测验;瑞文高级推理测验。瑞文推理测验的测验对象不受文化、种族与语言等条件的限制,适用的年龄范围从5岁半直至老年,而且不排除一些生理缺陷者。测验既可个别进行,也可团体实施,使用方便,省时省力,结果以百分等级常模解释,直观易懂。③卡特尔16种人格因素量表简介卡特尔16种人格因素量表(简称16PF)是由美国伊利诺州立大学教授雷蒙德·卡特尔经过系统观察,科学实验以及因素分析统计后逐渐形成的。这一量表能在约45分钟的时间内测量出16种主要的人格特质。初中以上文化程度的人均可接受本量表的测试。8.为什么说既不能高估也不能低估心理测量的作用?答:人们对心理与教育测验的争论自测验问世以来就从未间断。其极端看法要么高估测验的作用,把它奉为神明;要么贬低测验的作用,把它视为江湖骗术。这两种态度都是极其错误和不科学的。我们既不能高估也不能低估心理测量的作用。(1)不能低估的原因从心理学的发展历史来看,心理测验是在心理学由思辨科学转向实验科学后出现的。心理测验方法受到心理实验方法的影响,是对实验方法的有益补充,尤其是在研究人的较为复杂和高级的心理现象(如智力和人格)中,测验方法起到了实验方法所无法替代的作用。测验方法在客观上为心理学的发展和进步作出了重要贡献,并在众多的应用领域发挥了它的实际作用。(2)不能高估的原因心理与教育测验无论在理论上还是技术上都存在不少问题。一方面,测量技术的发展受理论研究水平的制约;另一方面,测量技术的应用反过来促进了理论研究的扩展和深化。在心理学领域,智力测验的发展深化了对智力本质及其结构的认识,这也是人们公认的客观事实。因此,心理与教育测量工作者一方面要认识到心理与教育测验既是从事心理学与教育学研究的一种重要方法,也是解决实际应用问题的一种重要的辅助工具;另一方面也要充分考虑到目前的心理与教育测验的科学性还不够高,有待在使用过程中进一步改进和完善。如同心理学的任何其他研究方法一样,测验方法既有它的长处,又有它的不足。只有根据研究工作的需要将各种研究方法结合起来,才能对人的心理现象获得相对全面的认识。在运用测验解决实际问题时,使用者应当记住测量结果(分数)只是对人的智力和人格的相对估计,而不是一个十分精确的数值。在解释个人测量分数并以此分数为依据对个人的未来作预测时应当特别小心谨慎。9.为什么要控制使用心理测验?控制使用心理测验的主要要求是什么?答:所谓对测验的控制使用,是指并非所有的人都可以接触和使用测验,测验的使用者必须是经过专业训练和具有一定资格的人员。(1)控制使用心理测验的原因对测验之所以要控制使用,是为了保证测验的实施,对测验分数的解释既做到合乎科学,又对受测者未来的成长有益。在测验工作中,人们也常碰到类似这样的情况:一个女青年愁眉苦脸地来找心理咨询工作者诉说:“有人给我作了一个人格测验,说我的神经质分数高。此后,我就经常心神不宁,寝食不安。”显然,这是由于测验人员缺乏专业知识,对测验结果解释不当而给受测者造成心理负担。(2)控制使用心理测验的主要要求①为了保证对测验的控制使用,《心理测验管理条例》对测验使用人员的资格作了规定:“测验使用人员的资格证书分为甲、乙、丙三种。甲种证书仅授予主要从事心理测量研究与教学工作的高级专业人员,持此种证书者具有心理测验的培训资格。乙种证书授予经过心理测量系统理论培训并通过考试,具有一定使用经验的人。丙种证书为特定心理测验的使用资格证书,此种证书需注明所培训使用的测验名称,只证明持有者具有使用该测验的资格。”(第22条)“申请获得甲种证书应具有副高以上职称和5年以上心理测验实践经验,需由本人提出申请,经2名心理学教授推荐,由中国心理学会心理测量专业委员会统一审查核发。”(第23条)“申请获得乙种和丙种证书需满足以下条件之一:①心理专业本科以上毕业;②具有大专以上(含)学历,接受过中国心理学会心理测量专业委员会备案并认可的心理测量培训班培训,且考核合格。”(第24条)②同时,《心理测验工作者职业道德规范》对测验分数的解释原则也作了规定:“使用心理测验需要充分考虑测验结果的局限性和可能的偏差,谨慎解释测验的结果和效能,既要考虑测验的目的,也要考虑影响测验结果和效能的多方面因素,如环境、语言、文化、受测者个人特征、状态等”(第6条);“应以正确的方式将测验结果告知受测者。应充分考虑到测验结果可能造成的伤害和不良后果,保护受测者或相关人免受伤害”(第7条);“评分和解释要采取合理的步骤确保受测者得到真实准确的信息,避免作出无充分根据的断言”(第8条)。10.为什么在测验中要保护个人隐私?如何在测验中保护个人隐私?答:(1)保护个人隐私的原因在测验工作中,尤其是人格测验工作中经常遇到的一个不可忽视的问题是侵犯受测者的个人隐私问题。例如,在编制关于情绪、动机或态度等测验时,其中有的内容会涉及人们的家庭关系、内心冲突、私人生活等问题。在日常生活中,人们一般不愿意向他人透露这些事情,而在测验条件下,为了寻求帮助,或配合测验,很可能表露出来。这种情况在能力测验中同样存在。因为任何智力的、能力的或成就的测验都会显示出一个人的某种限度和缺陷,而在一般情况下,人们是不愿意透露这些缺陷的。即使在测验条件下,受测者也会产生顾虑。在这种情况下,保护受测者的个人隐私就成为测验工作者的一项重要责任。(2)保护个人隐私的措施①只有在必要的情况下,测验工作者才能询问个人隐私,凡是与测验目的无关的方面就不应涉及;②保证为受测者保密,并在实际上为受测者严守秘密;③凡必须涉及个人隐私的测验应事先征得受测者本人或其他有关人员的同意。第2章心理与教育测量简史1.简述古代中国心理与教育测量思想的特点及其贡献。答:(1)古代中国社会心理与教育测量的特点①中国古代社会的心理与教育测量思想都是描述性的,而非定量的。这当然和当时的整个科学技术水平是相适应的。②中国古代社会的心理与教育测量是分类式的。就能力测量和成就测量而言,是分成高、中、低几个层次;就性格测量而言,是分成若干种类型。③在中国古代社会的心理与教育测量思想中注重对人作整体的鉴定和评价,并倾向于和人的道德品质联系起来。④中国古代社会的心理与教育测量思想与教育中的因材施教及人才使用有着密切的联系,它一开始就具有强烈的应用性质。(2)古代中国对心理与教育测量的贡献①在测量实践方面a.能力测量孔子在教育实践中凭借自己的经验观察首先评定学生能力的个别差异,并将人的智力分成三个等级。汉代学者董仲舒已论及注意测验:“一手画方,一手画圆,莫能成。”三国时期刘邵的《人物志》可以认为是一部研究能力的专门著作。6世纪中叶,中国江南就有了“周岁试儿”习俗。出现于清代的益智图(俗称七巧板)、九连环可以认为是最早的创造力测验。b.人格测量孔子也提出了性格类型的观点:“不得中行而与之,必也狂狷乎?狂者进取,狷者有所不为也。”把人分成3种:狂者、狷者和中行者。刘邵根据阴阳、五行和形体的关系及其人的行为表现,把人的性格划分成12种类型。c.教育测量据迄今可考的史料分析,世界上最早的教育测量出现于中国西周奴隶制时期(公元前1100~前771年)。汉代在考试制度、考试类型和考试功能方面都作了重要的发展。取士制度自汉以来的发展,客观上也对我国的古代乃至于西方的教育测量发展起了促进作用。②在测量理论方面a.大思想家孟子指出了测量人类心理的必要性和可能性:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”b.刘邵曾对人才鉴定的意义、可能、困难和方法作了系统的论述。2.从认知心理学的观点说明汉代董仲舒关于“一手画方,一手画圆,莫能成”的记述是注意分配测验。答:分配性注意是个体在同一时间对两种或两种以上的刺激进行注意,或将注意分配到不同的活动中。注意分配的一个基本条件,就是同时进行的几种活动的熟练程度或自动化程度。如果人们对这几种活动都比较熟悉,其中有的活动接近于自动地进行,那么注意的分配就较容易;相反,如果人们对要分配注意的几种活动都不熟悉,或者这些活动都较复杂,那么分配注意就比较困难了。另外,注意的分配也和同时进行的几种活动的性质有关。一般来说,把注意同时分配在几种动作技能上比较容易,而把注意同时分配在几种智力活动上就难得多了。研究分配性注意最常用的方法是双作业操作,即让被试同时完成两种作业,观察他们完成作业的情况。“一手画方,一手画圆”是两种任务,被试需要把注意力放到这两种任务上。从认知心理学的观点来看,注意是一组对刺激进行归类和识别的认知资源或认知能力。对刺激的识别需要占用认知资源,刺激或加工任务越复杂,占用的认知资源就越多。认知资源是有限的,当认知资源完全被占用时,新的刺激将得不到加工(未被注意),也就是本题中的“莫能成”。3.为什么说益智图和九连环是世界上最早的智力和创造力测验?答:(1)益智图是将一块正方形薄板截成形状和大小不同的七块小薄板,然后利用这七块小薄板组置拼排成上百种不同的动植物图案和其他实物图案。例如,可以将七巧板拼排成“心”字、跑步状、骑马状、帆船、鹅等。这种图案组合方法既是一种儿童娱乐工具,也是一种非文字的智力测验,与现在的发散思维测验完全一致。(2)九连环是由九个金属丝环组成,套在条形横板或各种框架上,形成一剑形框柄,九个丝环可合可分,用于检测一个人思维的创造性、灵活性、敏捷性等品质,以及动作技巧的熟练程度。后来,刘湛恩用英文撰写了《中国人用的非文字智力测验》一文,将七巧板、九连环介绍到国外。美国心理学家武德沃斯(Woodworth)对九连环极为赞赏,把它视为“中国式的迷津”。19世纪20年代,美国哥伦比亚大学心理学教授鲁格尔(Ruger)将九连环作为心理实验项目,并撰写了《中国连环的解脱》(TheChineseRingPuzzles)一书。所以说益智图和九连环是世界上最早的智力和创造力测验。4.如何理解孔子关于“不得中行而与之,必也狂狷乎?狂者进取,狷者有所不为也”的言论是人格类型思想的最早雏形?答:“不得中行而与之,必也狂狷乎?狂者进取,狷者有所不为也。”这是孔子提出的关于性格类型的观点。这里,孔子显然把人分成三种:狂者(以积极进取、敢作敢为为特征)、狷者(以拘谨胆怯、唯唯诺诺为特征)和中行者(介于狂者与狷者之间,不偏不倚)。很明显,孔子的“狂者”相当于之后提出的外倾型,“狷者”相当于内倾型,而“中行者”相当于中间型。5.从卡特尔到比内的发展过程中可以看出心理与教育测量有何特点?答:(1)心理与教育测量从卡特尔到比内的发展过程①卡特尔是美国心理学家,首次提出了“心理测验”这个术语。卡特尔认为,心理学只有立足于实验与测量,才能达到如同自然科学的准确性;心理测验只有建立普遍的统一标准,并要与常模相比较,才能充分地实现其科学价值和实用价值。这些观点都已成为测量学上的重要观念。②比内认为,测量比较复杂的心理功能,不必苛求精确度,因为这些功能的个别差异较大。他认为智力是高级心理过程,包括推理、判断以及动用已知知识解决新问题的能力。比内与其助手西蒙合作完成了世界上第一个智力测验量表——比内-西蒙量表,史称1905年量表,可用来测量各种能力,特别是判断、理解和推理能力。(2)特点心理与教育测量从卡特尔到比内的发展过程中表现出以下特点:①测量对象逐渐扩大和复杂化。卡特尔的测量对象主要是肌肉力量等一些低级的机能,而比内开始涉足高级的心理机能比如人的智力等。②测验法开始系统化。卡特尔最早提出“心理测验”这一概念,但是比内的测验法已有系统的、精密的设计。比内的智力测验出现了以后,测验法才真正完善起来。6.推孟和韦克斯勒在智力测验发展过程中各有什么贡献?答:(1)推孟是美国心理学家,他在智力测验方面的最重要贡献如下:美国斯坦福大学推孟于1916年修订完成斯坦福-比内量表。其中影响最为深远的变动是推孟采用了比率智商的概念来表示智力水平的高低,从此智商一词风靡全世界。(2)韦克斯勒也是美国心理学家,他在智力测验方面的最重要贡献如下:①从20世纪40年代末开始,韦克斯勒相继编制了“韦氏儿童智力量表”(1949)、“韦氏成人智力量表”(1955)和“韦氏幼儿智力量表”(1967)。②韦克斯勒舍弃了比率智商,而用离差智商代之,从而克服了比率智商的局限。③韦克斯勒编制的智力量表分为言语量表和操作量表两部分,不仅能够获得总体智力水平的信息,而且可以获得受测者智力优势的信息。7.相对于自陈人格问卷,投射测验和主题统觉测验有何特点?答:(1)自陈人格问卷、投射测验和主题统觉测验的定义①自陈人格测量就是根据要测量的人格特质,编制许多有关的问题,要求受测者根据自己的实际情况逐一回答这些问题,然后根据受测者的答案,去衡量受测者在这种人格特质上表现的程度。②而投射测验的基本方式是向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境,让受测者在不受任何限制的情况下,自由地对刺激情境作出反应,然后通过分析受测者的反应,推断受测者的人格特征。按照这种技术编制的最为著名的人格测验是罗夏克墨迹测验和莫瑞主题统觉测验。③其中主题统觉测验(简称TAT)是一种窥探受测者的主要需要、动机、情绪、情操和人格特征的方法。它的基本原理是向受测者呈现一系列意义相对模糊的图卡,并鼓励他按照图卡不加思索地编述故事。(2)投射测验和主题统觉测验的特点①编制自陈人格量表的第一项任务是确定所要测量的人格特质,并明确给出该特质的操作性定义,然后围绕着该特质选择能够表现该特质的行为情境和反应。但投射测验材料没有明确的结构和确切的意义。②自陈人格问卷题目的呈现方式有以下几种:是否式、二择一式、是否折中式、文字等级式、数字等级式。但投射测验中的受测者对测验材料的反应不受限制。③投射测验的目的相比于自陈测验具有明显的隐蔽性。④对测验结果的解释重在对受测者的人格特征获得整体性的了解。⑤投射测验的内容多为无明确意义的图片,在测验时不受语言文字的限制。⑥相对于自陈量表,投射测验的最大局限是计分上的困难。8.民国时期主要的心理测验家有哪些?他们各自做了哪些重要的工作?答:(1)20世纪20年代初心理与教育测量的发展①1917年,樊炳清首先向同仁介绍了比内-西蒙智力量表。②1918年,俞子夷编制的小学生毛笔书法量表可视为我国最早的新式教育测验。③1920年,廖世承和陈鹤琴在南京高等师范学校率先开设心理测验课程。1921年,廖、陈二人出版《心理测验法》。④1921年,费培杰将比内-西蒙智力量表译成中文。⑤1921年,中华教育改进社邀请美国测量学家麦柯尔来华讲学,并指导师生编制测验。(2)在智力测验方面①1924年,陆志韦根据中国南方的测验结果发表了《订正比内-西蒙智力测验说明书》。②1936年,陆志韦和吴天敏合作,将测验范围扩大到北方,作了第二次修订。③廖世承编制了团体智力测验,陈鹤琴编制了图形智力测验,刘湛恩编制了非文字智力测验,均有一定影响。(3)在人格测验方面①肖孝嵘曾修订了武德沃斯个人资料记录表。②1935年,浙江的沈有乾用朋洛德人格问卷测量中国学生。③1937年,周先庚用瑟斯顿情绪稳定性测验测量中国学生。④1943年,林传鼎试用普莱西X-O测验测试青少年的情绪成熟度的发育。⑤1948年,刘范曾试用罗夏克墨迹测验。(4)在教育测验方面艾伟曾编制小学儿童各科学绩测验10多种。9.比较中华人民共和国成立前后以及改革开放以来心理与教育测量的发展,能得出什么结论?答:(1)现代心理与教育测量在中国建国前的发展①在智力测验方面1917年,樊炳清首先介绍了比内-西蒙智力量表。1920年,廖世承和陈鹤琴在南京高等师范学校率先开设心理测验课程。1921年,廖、陈二人出版《心理测验法》。1921年中华教育改进社邀请美国测量学家麦柯尔来华讲学,并指导北京师范大学、北京大学、燕京大学、北京女子高等师范大学、东南大学的师生编制测验,各地编成测验40多种,等等。②在人格测验方面肖孝荣曾修订了“武德沃斯个人资料记录表”,并编制有9~15岁的常模。1937年,周先庚用“瑟斯顿情绪稳定性测验”测量中国学生,也发现中国学生的情绪适应性较差。1948年,刘范曾试用“罗夏克墨迹测验”。③在教育测验方面艾伟曾编制小学儿童各科学绩测验10多种。特别是他对中学生阅读能力和理解能力的研究,为当时的语文教学改革提供了科学依据。(2)现代心理与教育测量在建国后的发展①智力测验1979年,中国心理学会医学心理专业委员会在天津成立心理测验协作组,决定由龚耀先主持修订“韦克斯勒成人智力量表”,于1982年完成修订工作。1986年,龚耀先又主持修订了“韦克斯勒幼儿智力量表”。1992年,戴忠恒修订了“一般能力倾向测验”,等等。②人格测验1982年,由宋维真主持修订“明尼苏达多相人格调查表”,于1985年完成修订工作。1981年,李绍衣等修订了“卡特尔16种人格因素问卷”,制定了辽宁省的常模,后于1988年由戴忠恒、祝蓓里主持制定出全国常模。吴文源等于1990年修订了“症状自评量表(SCL-90)”等。1988年,洪德厚等编制了“中国少年非智力个性特征问卷”。1992年,宋维真等人在借鉴“明尼苏达多相人格调查表”的基础上,编制出“心理健康测查表”,1993年,他们同香港学者合作编制出“中国人个性测量表”。1992年,沙毓英、张锋等人编制出“学生性格量表(11~18岁)”,并于1995年在张锋的主持下制定了云南省城市、农村及少数民族学生的常模。③教育测验1979年,林传鼎、张厚粲等人编制“少年儿童学习能力测验”,用于测量小学毕业生的普通能力。1980年开始,在张厚粲的主持下,北京师范大学高考研究组对每年的高考试卷作了系统的统计分析。1986年,罗黎辉、施良方等对教育目标分类理论进行了研究,并将布卢姆的《教育目标分类学》系统地介绍到中国,等等。④组织建设和人才培养组织建设:1984年,中国心理学会组建心理测验工作委员会,后进一步扩建为心理测量专业委员会。该专业委员会定期组织召开全国性的学术会议。制定了《心理测验管理条例》和《心理测验工作者的道德准则》两个文件,由《心理学报》公开颁布。教育学界也成立了教育统计与测量学会,开展有关工作。人才培养:继1980年北京师范大学心理系率先开设“心理测量”课程以来,各大学有关系科都已先后开设了“心理与教育测量”课程。一些大学招收硕士和博士研究生,为该学科培养高层次学术人才。心理测量专业委员会以及一些大学还多次举办心理测量技术培训班,培养了一批应用型人才。⑤学科建设80年代以来,国内不仅发表了大量有关心理与教育测量的研究论文,而且出版了多种教材与专著。(3)比较比较建国前和建国后的心理测量学的发展,可以发现:①心理测量学的健康发展需要有稳定的政治环境。解放后,心理测量学无论从规模,还是从层次,都比解放前有了一个很大的提高。②中国的心理测量学开始走上一条快速发展的道路。中国人从开始的介绍国外的先进的心理测量学知识和测验,到开始设立学科和专业,并且通过几代人不懈的努力,已经初见成效了。心理测量学在中国有着光明的前途。10.20世纪80年代以来,中国主要从事心理测验研究的代表性心理学家有哪些?他们各自做了哪些重要的工作?答:(1)智力测验方面①龚耀先主持修订韦克斯勒成人智力量表,于1982年完成修订工作。②林传鼎、张厚粲主持修订韦克斯勒儿童智力量表,于1986年完成修订工作。③1982年,吴天敏对中国比内测验进行了第三次修订。④1986年,龚耀先主持修订了韦克斯勒幼儿智力量表。⑤1985年,张厚粲主持修订了瑞文标准推理测验。⑥1989年,李丹主持修订瑞文测验(联合型)。⑦1992年,戴忠恒修订了一般能力倾向测验。⑧张厚粲、周容等编制了中国儿童发展量表等。(2)人格测验方面一开始,我国学者主要修订和引进外来量表。①1982年,由宋维真主持修订明尼苏达多相人格调查表,于1985年完成修订工作。②1981年,李绍衣等修订了卡特尔16种人格因素问卷,制定了辽宁省的常模,后于1988年由戴忠恒、祝蓓里主持制定出全国常模。③1983年,龚耀先主持修订了艾森克人格问卷,同时陈仲庚也在北方作了修订。④在临床心理学领域,也修订了多种涉及心理健康评估的量表,如张明园于1987年修订了生活事件量表。吴文源等于1990年修订了症状自评量表(SCL-90)等。20世纪80年代末90年代初,中国心理学家在继续引进修订国外人格量表的同时,开始编制中国人自己的人格量表:①1988年,洪德厚等编制了中国少年非智力个性特征问卷。②1992年,宋维真等人在借鉴明尼苏达多相人格调查表的基础上,编制出心理健康测查表,1993年,他们同香港学者合作编制出中国人个性测量表。③为了准确把握中国人的心理健康状况,促进人们的心理健康发展,近年来中国的心理学家致力于研发适合中国社会生活实际的心理健康素质测评工具,其中由天津师范大学心理学家沈德立等人组织研发编制的《青少年心理健康素质调查表》和《中国成人心理健康素质测评系统》最为系统。(3)教育测验方面①1979年,林传鼎、张厚粲等人编制少年儿童学习能力测验,用于测量小学毕业生的普通能力。②1980年开始,在张厚粲的主持下,北京师范大学高考研究组对每年的高考试卷作了系统的统计分析,获得了有关试卷信度、效度、难度、区分度等有意义的信息。他们还对高考试卷评分的客观性、考试科目的合理设置及各科分数的合理组合作了研究。在此基础上对我国高考制度的进一步改革提出了一系列重要的意见和建议。③1984年,我国正式加入世界上最有影响力的“国际教育成就评价协会”(IEA),并与“国际教育成就评价协会”合作,在我国进行了全国规模的教育测量抽样研究。④1986年,罗黎辉、施良方等对教育目标分类理论进行了研究,并将布卢姆的《教育目标分类学》系统地介绍到中国,产生了广泛而积极的影响。⑤20世纪80年代,张敏强、张厚粲对经典测量理论和项目反应理论在考试制度改革中的应用情况作了比较研究。第3章经典测验理论的基本假设1.简述“心理特质”的含义。答:心理特质是指表现在一个人身上所特有的相对稳定的行为方式。对这一概念,可以从以下几个方面来理解:(1)心理特质是一组具有内部相关的行为的概括,具有一定的抽象性。(2)心理特质是一种一般的神经心理系统,它可以综合不同的刺激,使人对这些刺激作出相同的反应。(3)心理特质是一个人身上比较稳定的特点。人的心理活动是十分丰富的,并不是他的每一种心理活动都会表现为一种特质,而是那些经常出现的比较稳定的心理特征才称得上特质。(4)一个人的精神面貌(人格)是由多种特质分多个层次有机组合而成的。不同的人往往具有不同的特质组合,即使其特质类型相同,其特质水平往往也会有高低之分。(5)心理特质可以决定一个人对特定刺激的反应倾向,可以对人的行为进行某种预测。2.心理测量的误差来源主要包括哪些?答:心理测量误差是指在心理测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应,分为系统误差和随机误差两种。其来源主要包括三个方面,即测量工具、被测对象和施测过程。(1)在测量工具方面,心理测量工具通常是一套以测验(问卷)为核心的刺激反应系统(通常称作量表)。心理测量量表是否稳定、是否真正测到了所要测的东西是测量工具造成误差的两种主要原因。(2)在被测对象方面,造成测量误差的主要原因是受测者真正水平是否得到正常发挥。一般地,受测者的某种心理特质水平是相对稳定的,但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。(3)在施测过程方面,产生测量误差的原因主要是一些偶然因素。比如,物理环境、主试、评分记分环节、意外干扰等。3.CTT模型及其假设的主要内容是什么?答:(1)CTT模型经典测验理论(CTT)假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E,这就是CTT的数学模型。(2)CTT模型假设的内容根据CTT模型,可以引申出三个相关联的假设公理:①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数,即:ε(X)=T;②真分数和误差分数之间的相关为零,即:ρET=0;③各平行测验上的误差分数之间相关为零,即:其中,第②、第③条假设意在说明E是个随机误差,没有包含系统误差在内,第①条假设则在于说明E是个服从均值为零的正态分布的随机变量。4.什么是平行测验?答:平行测验的含义是:对于测验总体中的任意一个被试而言,若他在两个测验上的观察分数(X和X′)同时满足CTT的数学模型和三大假设,并且具有相等的真分数(T=T′)和相等的误差标准差(),则这两个测验被称为严格平行的测验。通俗地说,如果两个题目不同的测验测得的是同一特质,并且题目形式、数量、难度、区分度以及测验得分的分布都是一致的,则这两个测验被称作彼此平行的测验。与此类似,对于测验总体中的任意一个被试而言,若他在两个测验上的观察分数(X1和X2)同时满足CTT的数学模型和三大假设,并且其真分数(T1=T2+c12)之间仅相差一个常数(c12),则这两个测验被称为基本(T)等价的测验(essentiallyT-equivalenttests)。5.根据CTT的数学模型及其假设,推导关系式(3.2)()。答:(1)CTT模型及其假设经典测验理论(CTT)假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E,这就是CTT的数学模型。根据这一模型,可以引申出三个相关联的假设公理:①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数。即:ε(X)=T。②真分数和误差分数之间的相关为零。即:ρET=0。③各平行测验上的误差分数之间相关为零。即:(2)推导过程关系式(3.2)为:根据CTT的数学模型及其假设,推导关系式(3.2)的过程如下:∵X=T+E∴∵真分数和误差分数之间的相关为0;∴,即∴∴即:6.假设某专家编写了10道开放式题目考查高中生的语文运用能力,其中1题为文字推理题目,需要用到概率论中的贝叶斯原理。请问,这次测验的总分是否可以用CTT的模型进行解读?为什么?答:不能。经典测验理论(CTT)假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记为E)。即X=T+E。因此,我们知道:(1)在问题的研究范围之内,反映个体某种心理特质水平的真分数假定是不会变的,测量任务就是估计这一真分数的大小。(2)观察分数被假定等于真分数与误差分数之和,即假定观察分数与真分数之间是线性关系,而不是其他关系。(3)测量误差是完全随机的,并服从均值为零的正态分布。这就是说,测量误差不会因为真分数的高低而呈现出有规律的都为正数或都为负数的情况。测量误差不仅独立于所测特质的真分数,而且独立于所测特质以外的其他任何变量。但那道文字推理题目由于需要用到概率论中的贝叶斯原理,考察到了数学能力,也就是说测量误差不是完全随机的,而是包括了一部分稳定的系统误差。即观察分数不等于真分数与误差分数之和,观察分数与真分数之间不是线性关系。这不符合CTT的假设。所以不能用CTT来解释这次测验总分。7.某次满分为60分的作文考试完成后,试卷由若干个老师独立评判,结果发现30万考生中有大约82%的人获得的分数在40~50分之间,35分以下几乎没人,50分以上也不到2%。有的考生被不同老师评卷所得分数之差竟然高达30多分。请问,这次考试测量误差的主要来源有哪些?如何减小测量误差?答:(1)心理测量的误差来源①在测量工具方面心理测量工具通常是一套以测验(问卷)为核心的刺激反应系统(通常称作量表)。心理测量量表不稳定、没有真正测到研究者所要测的东西是测量工具造成误差的两种主要原因。有可能这次考试并未测试到考生的写作能力。②在被测对象方面造成测量误差的主要原因是受测者真正水平未得到正常发挥。一般地,受测者的某种心理特质水平是相对稳定的,但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。③在施测过程方面产生测量误差的原因主要是一些偶然因素。④评分者方面对于没有标准答案的试题,评分者是一个重要的误差来源。不同评分者对于不同的答卷有着不同的判断。(2)减小测量误差的措施①在测量工具方面尽可能编制具有较高信效度的测验。②在测量对象方面在被试参加测验前,主试对其做一些心理建设,确保他保持最佳状态。③在施测过程方面利用一些方法,比如恒定法、消除法等,尽可能控制偶然误差。④评分者方面对于没有标准答案的试题,可以设置一些关于试卷评分的标准,让评分者按照评分标准给分,不可主观评定。8.民间经常有些算命先生,宣称可以根据人的外貌、谈吐或者生辰八字等,预测人的前程、财运、婚姻,等等。试从CTT模型的角度分析这种现象。答:(1)经典测验理论(CTT)及其假设公理经典测验理论假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E。这就是CTT的数学模型。根据这一模型,可以引申出三个相关联的假设公理:①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数,即:ε(X)=T;②真分数和误差分数之间的相关为零,即:ρET=0;③各平行测验上的误差分数之间相关为零,即:(2)对CTT的这一数学模型及其假设公理,可以从以下三个方面进行理解:①在问题的研究范围之内,反映个体某种心理特质水平的真分数是假定不会变的,测量的任务就是估计这一真分数的大小。②观察分数被假定等于真分数与误差分数之和。③测量误差是完全随机的,并服从均值为零的正态分布。而算命先生的推测由于并无科学标准,同一个人多次算命所得的结论是不一样的,也就不会得到CTT中的“真分数”。而且算命中包含的误差也不只是随机误差,还有由算命先生主观判断引起的系统误差。9.有专家指出,大数据技术或许能使得人才测评工作更加科学和有效。试从CTT的模型出发,通过文献阅读等手段,阐述应用大数据技术预测人的行为的具体条件、途径和可能的风险。答:(1)理论概述①经典测量理论(ClassicalTestTheory,CTT),也称真分数理论,是最早实现数学形式化的测量理论。经典测验理论假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记为E),即X=T+E。CTT以弱假设为基础,这些弱假设条件容易被绝大多数测验数据资料所满足。因此,CTT在实际中有着很广泛的应用。②人才测评实际上是要通过一定的技术和方法,对被测评对象进行结构性观察并获得行为采样,从而对其整体能力水平及特定能力结构做出预测和判断,最终提高人才使用及开发的效能。人才测评的信效度至少与三个环节有关:行为样本的采集范围是否覆盖完全、行为数据采集量是否足够大以及对这些数据的挖掘及处理是否有效。③大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点主要表现在数据规模大、数据类别复杂、数据处理速度快、数据真实性高、数据蕴藏价值5个方面。将大数据思维引入到人才测评中,可以:将采样范围从单一或简单视角转变为多维度视角;采集所有可收集的行为样本,最大限度地扩展行为数据采集量;数据处理上从简单统计(均值)转变为高阶统计分析(相关分析、差异检验、因素分析等)。大数据式人才测评,就是要通过数据的多维性、海量性以及数据挖掘能力,系统提高人才测评的有效性。(2)大数据技术预测人的行为的具体条件①在大数据时代,信息爆炸是一个典型的特征。在这种背景下,企业关于员工的信息来源多样化,比如社交网站和平时的上网记录;信息成本来源低廉,大多数信息都是以电子的形式进行存储,信息的读取和利用都远比整理纸质档案更加便捷;信息的真实性和可靠性更好,员工对于信息的隐藏或造假能力很低;信息的关联性和相关性被予以重视,由此可以产生大量帮助企业决策的信息。②“大数据”立足于对大量数据的深度挖掘与科学分析,寻求数据背后的隐含关系与价值,使得人们可以从基于小样本数据的推测或基于感性的偏好性选择转向基于数据分析与理性证据的决策。(3)大数据技术预测人的行为的途径①构建岗位胜任力指标体系由于大数据式人才测评依托网络平台,部分传统测评方法不再使用,根据人机测评特点和岗位胜任力指标体系,调整大数据式人才测评方法。标准化心理测验量表涉及指标众多,甄选和改进测评量表的依据是员工所处岗位胜任力指标体系,分析指标体系中一级指标内涵并分解成二级指标,形成二级指标和关键词库,并嵌入人机交互平台,利用语音识别系统,设定相应的评价标准和反馈机制,适用方法主要为评价中心技术和情景综合测评技术。②收集员工的碎片化数据大数据具有海量性,采用长期碎片化收集方式,收集和分析海量数据,虽然少量数据不真实,但对最终结果分析的影响微乎其微。从测评的信效度角度看,测验环境影响到结果的准确性,包括被试者的心理环境和物理环境,测验对被试者环境的要求过高,尤其是招聘类和选拨性测验,员工的测验结果出现一定的偏差。大数据式人才测评发生于员工日常的工作生活,被试者处于放松而稳定的环境中,即保证了碎片化收集的离散数据是相对真实的。③测量量表与趣味测评相结合大数据式的人才测评内容需要多维配置,各方面交叉、相互佐证,普通的人才测评内容并不满足大数据收集需求。大数据式的人才测评是多维度的,测评内容不再是单一的心理学成熟量表,非传统的测评量表得到广泛的应用。以趣味测评为例,企业员工年龄分布趋于年轻化,以轻松趣味为主题的测评方式更受员工青睐,该类型测评表现形式为轻松趣味,实则测评内容与指标相关联。既是增加员工测评粘性的方式,减少员工的心理防卫,也营造了良好的测评环境。测评的难度和长度影响测评的信度效度,轻松趣味的测评量表内容少,测评需要时间短,以“量少次多”的原则,采集与指标体系相关的可靠性数据。在数据统计分析时,传统测评量表与轻松趣味测评量表分析结果相互对比、相互佐证,多维度交叉,最终形成客观全面的测评报告和测评轨迹(王迎冬,2019)。(4)可能的风险①数据主导一切,员工隐私存在着被侵犯的可能性,而且个人心理感受不舒适,影响其在团队组织中的行为表现,个人数据在促进人才测评的同时也变成一种数据困扰。②以自由提取为特征的信息管理,出现了过度控制和放任责任的情形。③一些中小型企业盲目跟风,急切地将大数据引入到人才测评中,认为拥有大数据就可以对人才测评系统产生质的提升,但却消耗了大量的财力建造基于数据的信息管理系统,并对其进行维护,完全忽视了收益与成本的关系,有可能得不偿失,容易造成人力资源管理系统的瘫痪。④人力资源的共享与安全问题。基于大数据的人力资源开发和管理创新不仅可以促进经济发展,也能促进科技、社会文化和环境发展。特别是跨国公司,他们的创新在制定人力资源管理模式中起到重要作用。那么如果此类公司在人力资源管理中引入大数据,这些关于应聘者和员工的种种数据归属于哪一方,被访问的权限如何设置,其与企业竞争情报的关系,数据泄露、丢失等安全问题如何保障就成了主要的发展问题之一。10.在综合素质评价工作中,最难的内容可能是人的思想品德。试从CTT的理论假设出发,阐述解决这一问题的建议。答:经典测验理论假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E。这就是CTT的数学模型。根据这一模型,可以引申出三个相关联的假设公理:(1)若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数,即:ε(X)=T。因此在评价一个人的思想品德时,一定要多次多阶段多人评价,从而找到人的思想品德的“真分数”。(2)真分数和误差分数之间的相关为零,即:ρET=0。(3)各平行测验上的误差分数之间相关为零,即:。因此在评价一个人的思想品德时,不要被个人成就、家庭背景等无关因素影响。第4章测量信度1.指出各种信度系数所对应的误差来源。答:信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度,各种信度系数所对应的误差来源如下:(1)重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。除去主试、施测环境和被试等方面的误差,它的独特误差来源主要有:①施测过程中所产生的遗忘和练习效应;②在两次施测的间隔时间内,被试在所要测查的心理特质方面获得了学习机会。(2)复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。它的误差来源有:①不能获得严格意义上的平行测验;②施测过程中产生的顺序效应和迁移效应;③在两次施测的间隔时间内,被试在所测量的心理特质上获得了学习机会。(3)分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。它的误差来源是:不同的分半方法的分半信度不同,可能是由于将测验分为相平行的两半的方法不同而产生误差。(4)同质性信度系数对应的误差来源同质性信度也称内部一致性系数,它是指测验内部所有题目之间的一致性程度。克隆巴赫α值还是所有可能的分半信度的平均值,它只是测量信度的下界的一个估计值。即α值大,必有测量信度高;α值小时,却不能断定测量信度不高。它的误差来源产生于题目是否同质,这包括两个方面:①所有题目都测的是同一种心理特质;②所有题目得分之间都具有较高的正相关。(5)评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。在心理与教育测量工作中,客观题的评分很少出现误差,但主观题的评分常常会造成误差。它的误差来源主要是多个评分者之间的个体差异,对相同答案的不同评定,这种个体差异不可能完全消除,只能最大程度地依赖正规的测查程序和统计方法来减小它。2.已知16人参加一次测验后在奇数题和偶数题上的得分情况,试用两种以上的方法估计测量信度。答:由题目可得,题目中涉及的信度是分半信度,可以采用分半信度来求解。由于被试在奇数题和偶数题上得分的标准差不同,所以不能采用斯皮尔曼-布朗公式,分半信度可以用弗朗那根公式和卢仑公式。具体算法如下:(1)弗朗那根公式式中和分别表示所有被试在两半测验上得分的变异数,表示全体被试在整个测验上的总得分的变异数。Sa=5.48;Sb=5.58;Sx=10.76代入数值得,rxx=0.943。(2)卢仑公式式中表示同一组被试在两半测验上得分之差的变异数,其他符号的含义与弗朗那根公式中的含义相同。Sd=2.56;Sx=10.76代入数值得,rxx=0.943。3.已知某态度量表有6道题,被试在各题上得分的方差分别是0.80、0.81、0.79、0.78、0.80、0.82,测验总分的方差为16.00,求α值。答:根据题意,代入数据得:因此,α值为0.84。4.某次满分为60分的作文考试,由两个老师进行评分,所评分数如下,试估计评分者信度。答:由于评分者只有两人,评分者信度等于两个评分者给同一批被试的答卷所给分数的相关系数。又因为分数为等级数据,且只有16对数据,所以应使用相关系数中的等级相关。由于出现了相同等级,所以使用公式∑D2=214,rRC=0.68。5.如何估计速度测验的测量信度?答:(1)重测信度重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。(式中x及是第一次测量的实得分及实得分的平均值,y及是第二次测量的实得分及实得分的平均值,rxx是重测信度)当信度值较大时,说明前、后两次测量的结果比较一致,测量工具比较稳定,被试的心理特质受被试状态和环境变化的影响较小。(2)复本信度复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。两个复本测验实施的时间不同,复本信度所表达的含义略有不同:①如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。等值性系数的大小主要反映着两个复本测验的题目差别所带来的变异情况。②如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。稳定性与等值性系数是对信度的最严格的检验,与其他信度系数相比,此种复本信度最小。6.不同能力水平的人在接受同一测验时,为什么会出现测量误差?答:就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度,如果被试的能力水平相差很大时,此时的测量误差就会偏大。这是因为,所计算的信息估计值大都是以相关为基础的,而相关系数的大小往往取决于全体被试得分的分布情况。(1)当被试团体异质(即团体内能力水平彼此差异大)时,全体被试的总分分布必然较广,那么分布位于两个端点的值可能相互抵消,以相关为基础计算出来的信度值必然会大。这就很有可能高估实际的信度值而产生测量误差。(2)当团体内部水平相差不大(即能力水平差不多的被试位于同一水平)时,其得分分布必定会较窄,以相关为基础计算出来的信度值必然会小。这时又有可能低估真正的信度值而产生测量误差。(3)若团体的平均水平太高或太低,同样会使测验总分的分布变窄,低估测量的真正信度而产生测量误差。7.试证信度三个定义的等价性。答:略。8.怎样提高测量信度?答:提高测量信度的常用方法有以下几种:(1)适当增加测验的长度提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目,增大测验长度。但是增加测验长度时应当注意:①新增项目必须与试卷中原有项目同质;②新增项目的数量必须适度,避免出现报酬递减的效应。(2)使测验中所有试题的难度接近正态分布,并控制在中等水平。(3)努力提高测验试题的区分度。(4)选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。(5)主试者严格执行实测规程,评分者严格按标准给分,实测场地按测验手册的要求进行布置,减少无关因素的干扰。第5章测量效度1.什么是测量效度?它与信度的关系怎样?答:(1)测量效度效度是指一个测验或量表实际能测出其所要测的心理特质的程度,是测量的随机误差和系统误差的综合反映。一组测验分数的总变异包括三部分:①真实的(稳定的)、与测量目的有关的变异;②真实的、但出自无关来源的变异;③随机误差的变异。在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,即:这里rxy代表测量的效度系数,代表有效变异数,代表总变异数。(2)测量效度与信度的主要关系①信度高是效度高的必要而非充分的条件;②测验的效度受它的信度制约。2.什么是内容效度?测验编制者和使用者应分别从哪几个方面来把握内容效度?答:内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。内容效度主要应用于成就测验,用来测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作所需的知识和技能,编制这种测验应首先对实际工作作较细的分析。内容效度不适合用于能力倾向测验和人格测验。其确定方法有:(1)逻辑分析法内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。其具体步骤是:①明确欲测内容的范围,包括知识范围和能力要求两个方面。②确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。③制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。(2)统计分析法克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度。(3)再测法这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。3.什么是结构效度?测验编制者和使用者分别应怎样把握结构效度?答:结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,即测验分数能够说明心理学理论的某种结构或特质的程度。结构效度主要应用于智力测验、人格测验等一些心理测验方面。(1)结构效度的确立步骤①提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。②依据理论框架,推演出有关测验成绩的假设。③用逻辑的和实证的方法来验证假设。(2)结构效度的估计方法①测验内部寻找证据法a.可以考察该测验的内容效度。b.可以分析被试的答题过程。c.可以通过计算测验的同质性信度的方法来检测结构效度。②测验之间寻找证据法a.可以去考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关。b.也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。c.通过因素分析的方法来了解测验的结构效度。③考察测验的实证效度法如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:a.根据效标把人分成两类,考察其得分的差异。b.根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。④多种特质——多种方法矩阵法该方法实质是相容效度和区分效度法的综合运用,其原理是若用多种极不相同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。⑤因素分析法:在测验研发之前,研究者可根据理论或实验研究,对所测验的结构设计较为详细的方案。在实测之后,可以分别采用探索性因素分析(EFA)和验证性因素分析(CFA)两种方法研究测验的结构效度。4.什么是实证效度?它与内容效度和结构效度有何异同?答:(1)实证效度实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。①同时效度:效标资料是与测验分数同时搜集的。同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。②预测效度:效标资料是在测验之后根据实际工作成绩来确定的。预测效度的作用在于预测某个个体将来的行为。(2)与内容效度和结构效度的异同①相同点这三种效度都是从不同角度来衡量测验的效度,相互补充,共同验证测验的有效性。②不同点a.它们是估计测验效度的不同方面:内容效度是确定测验在多大程度上代表了所要测量的行为领域,结构效度是确定测验实际测到所要测量的理论结构和特质的程度,实证效度是对于特定情境中的个体的行为进行估计的有效性。b.它们的应用范围不同。内容效度主要应用于成就测验,结构效度主要用于智力测验和人格测验,实证效度主要应用于能力倾向测验。c.确定它们的方法也不同。确定内容效度的主要方法是逻辑分析法,确定结构效度的方法包括测验内部寻找证据法、测验之间寻找证据法等,实证效度的确定方法包括相关法、区分法和命中率法。5.什么是效标和效标测量?效标测量有何不足?答:(1)效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的人们所感兴趣的行为。(2)人们所感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行表达(效标测量)。效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:①根据效标把人分成两类,考察其得分的差异。②根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。(3)效标测量的不足①效标测量具有多样性和复杂性。同一个观念效标可以有多个效标测量,而且每一种效标行为往往都是由多种特质构成的,因此,效标测量是件极为复杂的事。②效标测量具有特殊性和时间性。由于效标测量多种多样,所以有些效标测量只可以反映测验在某一特殊方面的有效性程度,即在一种情况下有效的测量,在另一种情况下未必有效。这就要求测验的编制者和使用者特别小心。③一般来说,如果效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且必须客观和实用。6.已知rxx=0.31,rxy=0.42,若希望把效度系数提高到0.65和0.70,则测验长度要增加几倍?答:测验长度与效度的公式如下:整理得:当时,当时,所以,要想把效度系数提高到0.65,测验长度需要增加6.42倍;要提高到0.70,测验长度需要增加13.80倍。7.复习有关教育与心理统计知识,弄清各种相关系数的计算方法与使用条件。答:(1)Pearson相关Pearson相关是最常用的相关,主要用于测量两个变量间线性相关的程度和方向,一般用于等距或等比的数据。Pearson相关系数用r来表示,它的计算方法如下:其中,表示x和y的协方差,即两者共变的程度,用原始数据表示为:SSxSSy表示x和y各自方差的乘积。(2)Spearman相关Spearman相关的显著性检验是一种非参数检验方法。一般在两种情况下会用到Spearman相关的显著性检验:①当研究考查的变量为顺序型数据时;②当研究考查的变量为线性、不考虑分数分布是否正态的数据时。它的计算方法为:在计算Spearman相关系数时,首先要保证X和Y是顺序型数据,无论它们原始的值就是顺序型的,还是经过等级转换而成的。在进行等级转换的时候,最小的值等级为1,第二小的等级为2,依此类推。之后,使用Pearson相关公式对顺序型数据进行计算,即可得到Spearman相关系数,该系数用rR表示。其中,D为同一个个体的X和Y各自排序后等级的差。(3)点二列相关点二列相关用于一列数据为正态等距或等比变量,另一列为二分命名变量的情况下,考查两个变量之间的关系。点二列相关的相关系数记为rpb,其公式如下:其中,是与二分命名变量的一个值对应的连续变量的平均数,是与二分命名变量的另一个值对应的连续变量的平均数,p是指二分命名变量中某一个值的比例,而q则指另一个值的比例。St表示等距或等比数据的标准差。(4)Kendall和谐系数Kendall和谐系数就是用来表示多列等级变量相关程度的指标,最为常见的应用情况就是K个评定者对N个事物进行等级评定,考查这K个评定者之间评分的一致性。可见,Kendall和谐系数也是等级相关系数的一种。Kendall和谐系数的公式如下:其中,Ri为每一个被评价事物的K个等级之和,K为评定者的个数,N为被评价的事物的个数。8.假设某学者自编了一套神经类型测验,并且在几十万人中进行了试用。试问:该测验是否一定有效?答:测验的有效性,即测验的效度,是指一个测验或量表实际能测出其所要测的心理特质的程度。分为内容效度、结构效度和实证效度等,可以分别从这三个方面来探讨一下该测验是否有效:(1)从内容效度方面来看内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。通常来讲,内容效度的确定方法是:专家评定法和统计分析法。①明确欲测内容的范围,包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。②确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。③制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。④克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:a.从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。b.第二种判断内容效度的方法是再测法。这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。从题目看来,这种测验是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论