项目反应理论在医学量表条目筛选中应用_第1页
项目反应理论在医学量表条目筛选中应用_第2页
项目反应理论在医学量表条目筛选中应用_第3页
项目反应理论在医学量表条目筛选中应用_第4页
项目反应理论在医学量表条目筛选中应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、项目反应理论在医学量表条目筛选中应用摘要本文着重介绍项目反应理论(irt)的基本 特征及其在医学量表编制和修订中的具体应用。irt具有项 目参数不变性,可以为条目和量表提供信息量及不同潜在能 力对应的测量信度。因此,irt主要从项目参数、项目特征 曲线、个体-条目图、条目对模型的拟合情况、条目信息量、 条目在不同群体上的项目功能差异等方面判断条目的优劣。关键词生存质量;条目筛选;项目反应理论中图分类号r195 文献标识码c 文章编号 1673-7210 (2014) 02 (b) -0155-04the application of item response theory in screen

2、ing item of medical scalelin yueqingl zhang weitaol fang jiqian21. rehabilitation center of guangdong province occupational injury, guangdong province, guangzhou 510440 , china ; 2. department of epidemiology and health statistics , school of public health , sun yat-sen university, guangdong provinc

3、e, guangzhou 510275, chinaabstract this article focuses on the basicfeatures of item response theory ( irt ) and the specific application in the establishment and revision of medical scale the item parameters of irt have the nature of invariance , so irt can provide the information of item and scale

4、, and the measurement reliability of different potential ability therefore, irt judges the merits of item from the item parameters, item characteristic curve, the individual一item chart, fit of the model, the amount of information and dif in different groupskey words quality of life; item screening;

5、item response theory条目筛选是量表编制及简化工作中不可缺少的部分,选 择好的筛选方法、恰当的评价指标及筛选好的条目是保证最 终量表具有较好的信度和效度的重要过程。目前条目筛选的 方法主要包括经典测量方法(ctt)和项目反应理论(item response theory, irt)方法。ctt,比如相关系数法、因 子分析法、克朗巴赫系数法、重测信度法等1-2,因其理 论较成熟,数学模型简单,在国内得到广泛的应用。然而它 在理论假设和实际应用方面也存在许多不足,如潜变量与观 测变量之间通常不是线性关系,项目参数严重依赖于被试样 本,只提供平均测量信度等。irt的发展克服了上述缺

6、陷3。 与ctt相比,irt具有下列优点:被试者的能力估计不依 赖于量表条目;项目参数(区分度和难度)估计不依赖于 被试样本;用信息函数的概念代替了 ctt的信度理论,可 以提供条目信息量及不同能力水平对应的测量信度。irt是 20世纪50年代发展起来的一种心理与教育测量理论,主要 用于试题、量表条目的筛选和评价,在西方国家发展很快, 但在国内用于医学研究的很少,因此,本文介绍irt的基本 特征及其在医学量表的项目分析中的应用。1 irt的基本介绍irt是一系列心理统计学模型的总称。美国心理测量学 家lord于1952年提出著名的累积正态模型(normal ogive model)标志着irt

7、的正式诞生。irt对所测量的项目可以找 到一条项目特征曲线(icc),通过被试者对项目的反应与其 潜在特质之间的关系用一单调递增的项目反应函数来估计 被试者的能力水平。icc是irt的基础,两个常用的参数(区 分度和难度)决定了它的形状,常为一条“s”型曲线,见 图lo难度参数(b,也称阈值参数)是指被试者按给定方向 选择某个选项的概率为50%所对应的潜在能力点;难度参数 越大,被试者选择这个选项需要的能力就越大。区分度参数 (a)是指难度参数对应的icc曲线拐点的斜率。区分度参 数越大,表示条目对不同潜在特质水平的人群有越高的区分 能力。三参数模型还可以估计伪机遇参数(c),在考试中, c的

8、估计可以提高能力估计的精度,但在健康研究中,估计 c的意义不大,反而增加了参数估计的复杂性。对于多级记 分模型,不同模型的难度参数概念略有不同,它们的原理都 是将k个选项的条目分成(k-l)个二分类条目,故有(k-l) 个阈值参数。在icc的基础上,irt还可以产生类别反应曲 线(crcs),它表示每个反应选项在特定能力水平下被选择 的概率,因此,每个选项都有一条相应的类别反应曲线,如 图2为一个5分类条目的crcs,若条目基于分部评分模型, 则相邻两个类别反应曲线的交点可作为这个条目的阈值参 数。图1项目反应曲线irt的另一个重要特征就是信息函数,它是潜在能力9 的一个连续函数。对具有同一能

9、力0的一组被试,其能力 估计值的标准误差越小,估计值对真实值提供的信息量就越 大,当用极大似然法估计0时,估计量随样本量的增大而 渐近正态分布,则测验信息函数可以定义为能力估计值的方 差的倒数,即i (。)=l/var ( 0 )或者se ( 0 ) =1/。 测验信息与测量误差是一一对应的,信息量越大,测量精度 越高,信息量最大值所对应的能力水平代表该条目所能最精 确测量到的能力参数估计值。若记项目信息函数为ii ( 9 ), n个条目的信息累加,则可产生测验信息函数,其数学表达 式为i ( 0 ) =bii ( 0 )。可见,每个条目可以单独对量表 总信息作贡献,贡献量大小不受量表其它条目

10、的影响,因此可以为增加或者删除条目提供依据。2irt在条目筛选中的应用2. 1 irt模型的选择irt模型是建立在强假设的基础上,若假设不成立,则 可能导致得到的结果不能很好地解释数据信息。因此,选择 适当的模型是很重要的。irt有单维、多维的参数模型及非 参数模型等多种模型,由于后两种模型较复杂且应用少,本 文主要介绍单维的参数模型3-4 o选择模型时,需要考虑 条目的选项个数、模型参数及参数是否受到限制等问题,表 1总结了 8种模型的主要特征。目前irt的参数估计方法很多,大多数方法是以极大似 然估计法和bayes估计法为基础,其中极大似然估计法的应 用最广泛。目前对于pcm、gpcm、g

11、rm等模型的选择没有明 确的标准,主要根据个人的偏好或者对软件的熟悉程度选择 其中一个模型。比如rumm、parscale、winsteps等软件可 用于pcm的估计,而mult订og软件多用于grm的估计。2.2评价irt模型的拟合情况2.2. 1考察模型假设irt的应用有两个基本的假设 3:单维性和局部独立性。前提假设满足的程度越高,越 能体现irt模型应用的有效性。单维性是指量表或者子量 表中的每个条目测量的都是同一种潜在特质,如躁狂人格量 表主要测量患者的躁狂水平。实际上任何量表都不可能是严 格单维性,而是指在被试者反应的所有因子中仅有一个因子 占主导地位,且是感兴趣的因子。目前检验的

12、方法主要有4 种:探索性因子分析,是最常用的一种方法5;证实性因 子分析;残差主成分分析6;平行分析。这些方法可以单 独使用,也可以联合使用。局部独立性是指具有同一能力 水平的被试者对量表中的每个条目的反应都只受其能力的 影响,而独立于其他条目的反应。目前检验的方法主要有x2 检验和残差相关分析7。实际上,局部独立性与单维性是 相关联的,只有基于单一潜在特质变量的项目反应是局部独 立的,这个数据才是单维的3。若条目在不同群体(如 性别)中表现的特性不同,则单维性假设也可能不满足。因 此还需要检测条目的项目功能差异(dif),以保证条目内容 在不同群体中的等价性。在生存质量研究中,dif是指具有

13、 不同的文化背景和生活经历但具有相同生存质量(能力)的 不同群体(比如性别)对同一条目的理解和反应不同8。dif分析在教育、心理测量和生存质量研究中已得到广泛的 应用。目前分析dif的方法很多,如stand、sibtest. mantelhaenszel、logistic 回归、基于 irt 的方法(mimic、 dfit、irtlrdif. testgraf) 8等。2. 2.2模型-数据的拟合优度检验 对于模型-数据的整 体拟合,不同的软件提供不同的拟合指标。多数软件是对观 察分数与模型预测值之间的分布进行x2检验。如bi0l0g.mult i log及parscale等的拟合统计量主要是

14、x2统计量(-2 倍的对数似然函数)9 ; rumm软件提供条目特质x 2拟合 统计量(item-trait interaction statistic);也有研究 认为对于同一条目的每个类别,观察频率与模型概率的差异 小于0. 02,便可认为模型与数据是拟合的10。对于条目(个 体)-模型的拟合,一般是通过拟合残差(所有被试者对某 一条目反应得分的标准化残差之和)评价条目水平上单维模 型的拟合情况。目前很多irt软件都提供不同的拟合指标, 如rumm提供条目拟合残差;winsteps提供infit均方和 outfit均方;irtfit还可以针对上述8种模型通过g2和x2 判断每个条目的拟合情

15、况11。此外,很多irt软件还提供 个体拟合残差,从个体水平上评价个体反应模式与模型预测 模式的一致性。2.3条目筛选和评价指标根据edelen等和meads等13的研究,目前基于 irt的条目筛选指标主要有:区分度参数(a), a太小说 明条目对被试者的能力估计提供的信息量太少;根据类别 反应曲线(crcs)和难度参数判断条目是否存在逆反阈值 (reversed thresholds)、条目选项的有效性及条目的难度 范围是否合适;个体-条目图,将条目难度和个体潜在特 性反应在同一尺度上,用于考察条目测量被试者能力的范围 及条目是否足够或者出现冗余等情况;条目对模型的拟合 情况;条目信息量及信

16、息曲线,选择信息量大和覆盖能力 范围广的条目,通过信息曲线可以判断条目冗余的情况; 条目在不同群体上的功能差异分析。不同的模型提供不同的 指标,因此不是所有模型都提供上述6种指标,比如分部评 分模型不提供区分度参数,等级反应模型不提供个体条目图 等。对于量表的编制或者修订,应该根据选定的模型选择相 应的筛选指标,删除某些不符合要求的条目后,再对剩余条 目进行重新评价,直至所有条目都满足要求为止。对于较成 熟的量表,除考虑上述指标外,还可以用其他方法考察量表 简化的情况。bjorner等14根据简明量表的条目构建评分 算法预测原始量表的总分,评价预测分与原始分的关系。3样本量大多数应用irt的文

17、献都没有对样本量有明确的说明, 样本量的多少是否会影响irt模型的应用呢?根据国外文 献,模型越复杂,需要的样本量越大。linacre15认为, 要保证rasch模型参数估计的稳定性,至少需要100名被试 者。对于拥有两个及以上参数的模型,如等级反应模型至少 需要250人,但为了更精确的估计参数,样本量为500人较 为合适3。样本量越大,条目参数估计对应的标准误越小, 测量也越精确。如果irt是用于条目池的项目分析,则需要 的样本量较大,而若是用于成熟量表条目特性的评价,则需 要的样本量较小12。此外,数据满足irt模型假设的程度 越好,需要的样本量越小9。4展望随着生存质量和患者报告结局的不

18、断发展,人群健康评 价、患者生存质量监测、患者筛选(如抑郁患者)等研究需 要越来越多的量表,irt的引入为这些量表的发展及简化提 供了有力的工具。然而irt的引入并不意味着要摒弃经典测 量理论。经典测量理论主要从宏观的角度评价量表,而irt 则从微观的角度分析每个条目,两种理论相辅相成,互相补 充,将两者有机融合能使最终量表具有更好的信度和效度。 随着irt在生存质量量表研究中的应用的不断增多,其自身 的某些缺陷也逐渐突现,如irt是建立在比较复杂的数学模 型上,理解比较困难,依赖较强的假设。在健康结局测量研 究中,多数量表由多个方面组成,很少只测量单一的能力, 因此irt的单维性假设在健康研

19、究中很难实现。若分维度来 分析多维度量表,单维性的问题解决了,但在每个维度包含 的条目数很少的情况下会增大测量误差,且没有考虑多维度 之间的相关性,致使测量结果准确性下降。为解决这些问题, 国外研究者开始向多维irt模型(mirt)和非参数irt模型 (nirt)发展,探讨它们在健康研究中的应用,不同模型之 间的比较以及不同模型对样本量的要求等问题。本文的研究 目的是介绍基本的irt方法,鼓励更多的研究者应用irt去 发展和修订量表,感兴趣的研究者也可以从上述方面更深入的研究irt,拓展irt在国内的发展。参考文献1 郝元涛,孙希凤,方积乾,等量表条目筛选的统 计学方法研究j 中国卫生统计,2

20、004, 21 (4): 209-211.2 秦浩,陈景武医学量表条目的筛选考评方法及其 应用j中国行为医学科学,2006, 15 (4): 375-376.3 embretson se, reise sp. item response theory for psychologists m mahwah: lawrence erlbaum, 2000: 13-125.4 漆书青现代教育与心理测量学原理m.北京:高 等教育出版社,2002: 179-189.5 slocum sl. assessing unidimensionality of psychological scales: usin

21、g individual and integra.tive criteria from factor analysis j social indrcators research, 2011, 102 (3): 443461.6 levine tr. confirmatory factor analysis and scale validation in communication research j communication research repotts,2005, 22 (4): 335-3387 reeve bb , hays rd , bjorner jb , et al.psy

22、chometric evaluation and calibration of health-related quality of life item banks: plans for the patient-reported outcomes measurement information system (promis) j. med care, 2007,45 (5): 22-31.8 teresi ja, fleishman ja differential item functioning and hea1th assessment j qual life res, 2007, 16 (

23、1): 33-42.9 du toit m. irt from ssi: bilog-mg, multilog, parscale , testfact m. usa : scientific software international, inc, 2003: 528-59110 gomez r, cooper a, gomez a. an item response theory analysis of the carver and white (1994) bis/bas scales j. pers indiv differ, 2005, 39 (6): 1093-1103.11 bjorner jb, smith kj. irtfit: a macro for itemfit and local dependen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论