Rasch模型的应用

上传人：世*** IP属地：贵州上传时间：2020-11-21 格式：DOC 页数：10 大小：161.50KB 积分：20 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Rasch模型在等级量表设计中的应用*赵守盈* 曾薇（贵州师范大学教育科学学院，贵阳，）摘要以贵州师范大学共90个大一新生在症状自评量表上的数据为实例，重点介绍Rasch等级模型在设计和修订等级量表中的应用，以及如何应用Rasch等级模型的某些参数如选项频率、平均测量值、临界值的估计、概率曲线、选项拟合指数等，来对等级量表的选项分类数目、选项标签进行直观的分析和检验，从而获得高质量量表。分析结果显示量表的各项指标均符合Rasch等级模型的规定，数据对模型的拟合非常好。关键词 Rasch模型等级量表项目选项 1 引言要分析一份问卷或调查数据的质量，首先要分析问卷中选项的功能。等级量表一

2、般仅调查某个特征，只描述与调查问题相关的因素，这个因素称为“潜在特质”或“变量”。在等级量表中呈现选项的目的就是为了获得被试在某个变量上的清晰定位。但在某些情况下，被试并没有按照量表设计者者所期望的那样进行反应（Roberts，1994）。作答等级量表的过程其实就是创建量表者的意愿与被试的态度、行为在双方均感兴趣的问题上进行的一种交流。创建等级量表的方式会对由该量表所收集的数据的质量产生很大的影响（Clark & Schober，1992），原因是对某个变量的测量来说，如果量表项目采用的选项分类不一样，那最终得到的量表可能因为分类不同而导致其质量不同。因此等级量表不仅要能详细反映设计者思考问题

3、的过程，而且还能用能得到清晰反应的变量选项及标签将思考过程表达出来。项目选项的标签及数目会对量表的质量产生很大的影响，如何确定合理而有效的变量选项？Guilford（1965）认为等级量表中项目的选项应该要界定准确、相互排斥、意义明确、详尽无遗。Rensis Likert（1932）的早期研究表明超越了次序性的差异化选项是无效的，他由此提出了著名的5点（5个选项）同意量表。Nunnally（1967）在总结Guilford（1954）的研究的基础上报告：“根据心理测量理论，量表中使用多的选项比使用少的选项一直更具优势”。然而他又说，“过多的选项分类会迷惑被试并激怒他们”。Stone & Wri

4、ght（1994）在一项对恐惧的调查中证明将选项分类数目从5个合并为3个时，测验的信度增加了。Zhu et al.（1997）在对自我效能感的测量中也发现了类似的结果。研究者们对如何确定等级量表的选项没有达成一致意见，所以有必要对等级来量表的选项功能进行研究。恰好Rasch分析（Rasch，1960）能提供一个有效的框架，在该框架内，可以验证、改进等级量表选项的功能。2 等级量表的Rasch测量模型Andrich（1978）提出了在顺序等级量表上建构了测量的一个基本的Rasch模型（rating scale model，RSM）：log(Pnik / Pni(k-1)Bn D i - Fk （

5、其中，Pnik是被试n在项目i上选择选项k的概率；Pni(k-1) 是选择选项k-1的概率；Bn 是被试n的能力或态度等；Di 是项目i的难度；Fk 是指选项k和选项k-1之间的“距离”或“差异”，选项用0到m进行编码，称Fk为第k个等级标度（step calibration），Fk即是等级量表的临界值，其被界定为是与相邻两个选项k和k-1的选择概率相一致的定位。）Rasch模型将被试的特质水平和项目的难度都放在同一个量尺（logit量尺）上来进行度量，其最大的优点就是可以直接对这两个参数进行比较。相对同类其它模型来说，它最重要的理论特征就是具有“客观性”（Rasch，1977），因为比较两个

6、项目的难度不依赖于被试的能力，而比较两个被试的能也不依赖用于测量的项目。在“部分计分( partial credit)”的项目中，该模型可简化为：log(Pnik / Pni(k-1)Bn - Dik 这就是部分计分Rasch模型（partial credit model，PCM），但为了方便，在限制条件Fik =0，Dik=Di 下：重新令Dik = Di + Fik。RCM只是PCM的一个子集，因为RCM规定所有项目之间的等级间距要相同，而PCM没有规定。Rasch等级模型不仅满足从顺序研究中创建线性测量的条件和需要（Fischer，1995），还能为等级量表的施测提供基础。某些Rasch

7、参数（如临界值）还能够反映出等级量表的结构（Andrich，1978）。3 Rasch模型对项目选项分类的检验要对量表的质量进行检验，最有效的方法是先对它的选项分类进行检验。典型的Likert量表有5个选项分类（非常反对、反对、不确定、同意、非常同意），这五个选项分类之间的间距及尺寸大小是一样的，含义即这些选项同等重要，要求得到被试同样的注意。从测量的角度看，等级量表虽有不同的选项分类设置，但选项分类之间仍形成清晰的等级，并囊括了全部潜在变量（如图1所示）。但变量的概念是无限的，使得两端选项分类的宽度无限。比如一个被试选择了“同意”，就可以假定他的同意程度已经很强烈了，“同意”选项涵盖了更多的

8、潜在变量（“同意”选项的空间尺寸较大）。中间选项的空间尺寸大小取决于被试对其的理解和使用，将中间选项“不确定”换成“不知道”、“不在乎”、“不肯定”等表述不仅会影响它的心理学意义，还会影响其所囊括的潜在变量的数量，它的尺寸如图2所示。一般来说，被试都有社会遵从的倾向，即多赞同或少冷漠，“同意”选项通常比“反对”更具吸引力。因此“同意”选项倾向于涵盖了潜在变量的更宽范围。实际上，数据不能完全符合Rasch模型的规定。但从解决问题这一目的来看，只要理论结果与实际近似就行，不需要有多精确（Laudan，1977）。图1 典型的Likert量表图2 潜在变量3.1 如何确定选项分类比如要求被试对“老板

9、支持我的工作”这一观点的认同度作出反应，被试做出的选择将取决于量表所提供的反应选项的数量及类型。下面有三个按钮A，B，C（图3）：从选项分类来看，按钮A被设计成为“是非”题的形式：老板要么支持要么反对我的工作。按钮B允许被试保持中立，不逼迫其作出极端选择。按钮C对变量的概念作了更多的界定，将被试所感知到的支持程度描述成连续的，明显优于其它按钮。通过选项分类的形式来设计等级量表，等于是将量表创建者关于支持的观点传达给被试。但在实际情况中，被试需要更多的选项分类来表述自己的观点吗（正如按钮C）？如果有更多的选项分类可供选择，被试实际上会用到这么多吗？对于被试来说很完美的选项分类数量和类型是否对测

10、量分析也很完美？这些疑问都指向同一个重要的问题：对于最优的变量测量，选项分类的实际数目应是多少？相当多的研究尝试解决怎样确定等级量表的选项数目这个问题？判断选项分类最佳数目的一般标准是反应信度。但是研究者在信度问题上得出的结论却很混乱：有的学者认为信度和分类选项的数目之间是相互独立的（Bendig，1953；Brown，Widing，& Coulter， 1991；Komorita，1963；Remington，Tyrer，Newson-Smith，& Cicchetti，1979）；另一些学者认为7点量表的信度最高（Finn，1972；Nunnally，1967；Ramsay，1973；Sy

11、monds，1924）；或者是7点量表加2或减2（Miller，1956）；也有的认为是5点量表（Jenkins & Taber，1977；Lissitz & Green，1975；Remmers & Ewart，1941）；还有的认为是4点量表或3点量表(Bendig，1954)。下面是一个常见的7点量表：使用按钮D的等级量表是否比使用按钮A、按钮C的量表更加有效？增加更多的选项分类是否有用？研究表明，尽管增加选项分类会使得信度提高，但仅限于选项分类增加不是随意的（Linacre，1995；Wright & Linacre，1992）。比如按钮D中，选项分类5与6之间的区别模糊，让被试感到很

12、迷惑，最终使得分数的意义不大（Fox，Gedeon，& Dinero，1994）。正如Chang（1994）所阐述的那样，允许被试在模糊的参照框架中自由选择，增加可供选择的选项分类会增加误差。在此种情形下，通过量表，被试与调查者之间对同一问题的理解可能会不一样。比如，两个被试所感知到的支持程度是一样的，其中一个选择5而另一个选择6，仅仅是因为引入的选项类别过多导致变量的概念混乱了。按钮A和按钮B的选项分类界定要比按钮C精炼得多。其实对于等级量表来说，实际上并不存在固定的最佳选项分类数目。5个选项分类的量表对某个测量来说有效，而“是”“非”类型的分类可能对另外一个测量来说却是最适合。因此，当调查

13、者设计不同的量表时，或用同一量表测试其他的被试时，都要重新确定最佳的选项分类数目。所以分析时需根据你想测量的具体对象来确定等级量表的最佳选项分类数目，而不仅仅就是为了确定而确定（Lopez，1996）。3.2 如何确定选项的标签和选项分类不同，但也密切相关的是选项分类的标签。看按钮E和F：按钮E比F比较模糊，因为一些选项分类没有标签。按钮F的标签很明确，并且设计积极的，选项分类标签中包括了三个“同意”选项，但只有两个“反对”选项。在等级量表中，从按钮A到按钮F都包括了某种假设：即被试能感知变量概念，并通过等级量表将这种感知和创建者进行有效交流。这种假设需要用实证研究来进行检验。对量表的质量进行

14、检验就相当于对这一假设进行检验。Rasch模型能够提供一些测量指标（即Rasch参数）来对这一假设进行检验。4 对等级量表进行Rasch分析设计等级量表所面临的核心问题是：从被试和项目上所收集到数据是否可信？选项分类和Rasch模型是否能充分拟合？临界值能否显示出等级量表中的层级？每个选项分类上是否有足够的数据来提供稳定的参数估计？本文以贵州师范大学共90个大一新生在症状自评量表的数据为例子，运用Rasch模型分析软件winsteps对SCL-90在该样本上的有效性进行检验，演示如何运用Rasch模型来设计和修订等级量表。要对等级量表进行Rasch分析，首先要估计量表项目的维度。因为Rasch

15、模型最关键、最基本的假设就是量表项目要具有一维性。可以使用非加权最小二乘法来对收集到的数据做探索性因数分析（Muthen & Muthen，1998）。如果项目的第一个特征根的值比第二个特征根的值大很多，而第二个特征根和其它的特征根相差不大，就可以初步判断项目是一维的（Hambleton & Traub，1973；Lord，1980）。本研究中，第一个特征根值为26.5，第二个第三个第四个依次是3.9，3.4，3.0。符合Rasch模型的假设。4.1 Rasch参数：选项频率及平均测量值评估选项分类是否有效，最简单的方法就是使用统计指标（如选项分类频率、平均测量值）对每个选项分类进行检验（An

16、drich，1978，1996；Linacre，1995，1999）。选项分类频率（category frequencies）是指选择某一选项分类的被试的数量，其值等于在所有的项目上选择某一选项分类（如选项分类 “1非常反对”）的被试的总和。选项频率反映了所有选项分类的反应分布，能对等级量表进行基础快速的检验。选项频率有两个主要的特征：选项分布形态和每个选项分类的作答数量。常规分布有一致分布、正态分布、双峰分布、轻微偏态分布，非常规分布包括高偏态的分布（即选择数少的选项其分布形态有着一条长尾巴，Linacre，1999）。常规分布要优于非常规分布。但在临床症状数据中呈现偏态分布比较常见，那些症

17、状明显的病人，其位置一般位于长长的尾巴上。频率低的选项一般是有问题的，因为它们没有为估计稳定的临界值（threshold values）提供足够的数据。选项频率很低就意味着它是不必要的或多余选项。因此，这些选项应该合并或压缩到相邻的选项上。如果在某一选项上反应的数量少于10，这个选项就需要修订（Linacre，1999）。平均测量值（average measure）能直观有效地检验等级量表的选项。其定义是被试中选择某特定选项分类的所有被试的平均能力估计，即计算出的选择某特定选项类别的所有被试的平均能力（Linacre，1995）。表1 90个被试的SCL-90的选项频率及平均测量值选项分类标签

18、选择数量平均测量值（Category lable）（Observed Count）（Average Measure）1 3615 -2.802 2965 -1.003 1019 +0.114 369 +1.075 128 +2.49 当变量增加时，平均测量值也会随之增加。并且平均测量值的增加是单调性的。意思是，平均而言，那些有着高能力或态度强烈的被试会选择更高的作答选项分类，而低能力或态度不强烈的被试会选择较低的作答选项分类。当违背了这种形式，就表示平均测量值没有显示出单调性，那可能就需要对作答选项的分类进行合并。表1以SCL-90量表为例，它有5个选项分类，有4个等级的量表。例子中的

19、选项分类频率（如选择数量）呈现正偏态的分布，每个选项分类上的选择数均大于10个，符合Rasch模型的规定。选项分类1的平均测量值是-2.80，意思就是在SCL-90量表中，选择选项分类1的被试其症状平均符合度的估计值是-2.80 或其logit分数是-2.08。选择选项分类2的被试，其平均符合度的估计值是-1.00，表明选择选项分类2的这些被试他们的症状符合程度要比选择1的高。从表1中可以看到，平均测量值符合Rasch模型的规定，因为它们都呈单调递增。4.2 Rasch参数：临界值和选项拟合除了选项类别频率和平均测量值之外，其它描述等级量表特征的指标还有临界值（thresholds）和选项分类

20、拟合值（category fit）。临界值（也称等级刻度，step calibration）最难估计，原因是很难真正区分一个选项和另外一个选项之间的区别，如很难评估“非常同意”和“同意”之间的真正区别。与平均测量值一样，临界值也是呈单调顺序增加的。如果等级量表的临界值不是呈单调递增，那么可认为这个量表的等级是混乱的。估计相邻两个临界值之间的距离的大小也很重要，临界值之间的距离指的是变量的每个等级在量尺上的不同位置。在logit量尺上，这个距离不能太小也不能太大。一般来说，临界值至少要以1.4 logit的量增加，才能显示出两个选项类别之间的差异，但增量不要超过5 logit，避免变量等级之间的

21、间距过大（Linacre，1999）。要研究临界值之间的差异，最直观的一种方法就是看概率曲线（probability curves）。概率曲线能显示等级量表中被试选择各个选项分类的概率。在概率曲线图中，每一选项分类都有一个明显的波峰，这个波峰表明在所测量变量的某部分上，这一选项分类是最可能被选择。若图中的某个选项分类的形状是平直的，并且涵盖了变量的大部分，这种情况还是可行的，但是若这些呈平直形状的选项分类被其它选项分类的概率曲线图遮住，那它们可能对界定变量的区别作用不大。因此，选项间的临界值有问题，其概率曲线图就比较混乱或靠得较近，在变量上只有一小段跨度很小的平直曲线。图3 SCL-90的5个

22、选项分类的概率曲线图1是SCL-90所有选项分类的反应概率图，它给出了任意被试的能力与项目难度之间的差异估计。例如，一个被试的能力1 logit，比项目的难度低，位于x轴上-1的位置，他选择选项分类1的概率几乎为0，选择分类4的概率大约为0.03，选择分类1和3的概率大约为0.2，选择分类2的概率大约为0.5。所以该被试在这个项目上最可能选择选项分类2。如果被试的能力高于某给定项目的难度，如在x轴上+2的位置，那他最可能选择的选项应该是5。表2 90个被试的SCL-90的选项临界值选项分类标签临界值（Category Lable）（Threshold）1 None2 -1.56 3 -0.

23、03 4 0.05 5 1.08 表2是对SCL-90的临界值的估计，它与图1中选项分类的交叉点是一致的。估计的每个临界值表示了所测量变量的相邻两个选项分类之间的等级差异。例如，表2中的第一个临界值是-1.56，找到图1中选项分类1与2的的交点，通过这一交点作x轴的垂线，垂线与x轴的交点是在-1.56处。从表2中可以看出。除第一个和第二个临界值之间其增量大于1.4 logit之外，其余各分类的临界值之间的差异都小于1.4 logit，这里的分析结果表明SCL-90的选项分类3、4和5之间的等级差异不是特别明确清晰，差异之间大小也不是等距的。这有可能是被试太少，或量表在修订是时候，在语言理解上，

24、存在中西方的差异。不拟合均方值（outfit mean squares）是选项拟合值之一，它是评估等级量表质量的另外一个标准，不拟合均方值大于2表明没测量到的变量信息比测量到的多（Linacre，1999），也就是某些选项分类将噪音引入了测量过程。在下一步的实证调查中，可能要将这样的选项分类压缩到邻近的选项中。表3显示了SCL-90的每个分类选项与线性Rasch模型的拟合情况。所有的不拟合项目均方指数均小于2，均符合Rasch模型的规定。表3 90个被试的SCL-90的选项分类拟合选项分类标签拟合均方值（Category lable）（Outfit Mean Square）1 0.992

25、0.873 0.964 1.135 1.545 总结本文以SCL-90的测量数据为例子，展示了Rasch模型分析在等级量表的设计和评估中的用法及功能。因为Rasch模型是一个先验模型，它的一个重要的特点就是数据要拟合模型，而不是让模型去拟合数据。前面讨论的有关等级量表诊断指标包括选项频率、平均测量值、临界值、概率曲线和选项分类拟合，在用这些指标去检验量表质量的时候，应当将它们联合起来运用。其实，它们都是从不同侧面来检验同一个问题。例如：如果某一选项分类的频率太低，那临界值的排序是混乱的，等级量表上每个选项分类的概率分布曲线也没有明显的波峰。同样的，平均测量值的排序也是混乱，并且拟合统计指标比预

26、期的大。并不是每种情况下所有的指标都出现上述的情况。但当联合使用这些诊断指标时，可以有效指出等级量表中需要修改的地方，以提高等级量表的信度和效度。参考文献晏子(2010).心理科学领域内的客观测量Rasch模型之特点及发展趋势.18(8):1298-1305赵守盈,薛雯(2011). Rasch模型和IRT在学生成就测验统计分析中的对比研究，中国考试，6：8-12Andrich, D. A. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573 Andrich, D.

27、A. (1996). Measurement criteria for choosing among models for graded responses. In A. von Eye and C. C. Clogg (Eds.) Analysis of categorical variables in developmental research. Orlando FL: Academic Press. Chapter 1, 3-35. Linacre, J.M. (1995) Categorical misfit statistics. Rasch Measurement Transac

28、tions, 9, 3, 450-1.Linacre J.M. (1999) Investigating rating scale category utility. Journal of Outcome Measurement, 3:2, 103-122.Linacre J. M. (2002). Optimizing Rating Scale Category Effectiveness .Journal of Applied Measurement, 3(1 ) 85-106.Lopez, W. (1996) Communication validity and rating scale

29、s. Rasch Measurement Transactions, 10, 1, 482.Nunnally, J. C. (1967) Psychometric Theory. New York: McGraw Hill.Roberts, J. (1994). Rating scale functioning. Rasch Measurement Transactions, 8, 386.Trevor G. Bond, & ChristineM. Fox (2007). Applying the Rasch Model: Fundamental Measurement in the Huma

30、n Sciences. Lawrence Erlbaum Associates, 219-233.Wright, B.D. & Masters, G.N. (1982) Rating Scale Analysis. Chicago: MESA Press.Zhu, W., Updyke, W.F. & Lewandowski C. (1997) Post-Hoc Rasch analysis of optimal categorization of an ordered response scale. Journal of Outcome Measurement, 1:4, 286-304.A

31、pplied Rasch Modeling in Rating Scale DesignZhao Shou-Ying Zeng Wei(School of Education Science , Guizhou Normal University, Guiyang, ) Abstract Rasch model is a priori probability model,Means that the data should fit the model rather than the model fit the data. A major adantage of Rasch model is t

32、he direct comparison of two parameters(the persons trait levels and item diffculty levels) on a common metric(logit). One of the most important theoretical merits of Rasch model is its “specific objectivity”.The basic Rasch model is a dichotomous response model,it can be generalized to polytomous it

33、ems with ordered categories. The formulation of an extended Rasch model includes the partial credit model (PCM) and the rating scale model (RSM). The PCM was developede for analyzing achievement test items that include multiple solving steps. In addition, the PCM is also useful for analyzing attitud

34、e or personality scale responses. In contrast,the RSM is a subset of the PCM because it restricts the step structure to being the same for all items.Thus the RSM is useful when psychological distance between categories are the same for all items.This article use the SCL-90(Chinas version) illustrate

35、d how to use Rasch model to analyse rating scale and t-est it. The 90 respondents were freshmen at Guizhou Normal University.They ranged in age from 17 to 20 years.However, before we use Rasch model analyzing rating scal, we first needed to evaluate the dimensionality of the rating scales items.Beca

36、use undimensionality is the most critical and basic assumption of Rasch model. havi- ng satisfied the undimensionality assumption. We use the RSM analysed the present study:It has been suggested that evaluating how respondents use the rating scale is the first step in conducting rating scale analysis. In the Rasch analysis,a useful diagnostic in evaluating category usage is to examine the average me- asure and threshold of each categories. The average measures and thresholds should increase monotonically. In th- is study , the average measures increased with the c

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Rasch模型的应用

文档简介

温馨提示

最新文档

评论

Rasch模型的应用

文档简介

温馨提示

最新文档

评论

相关文档