潜在类别模型及数据模拟分析.doc_第1页
潜在类别模型及数据模拟分析.doc_第2页
潜在类别模型及数据模拟分析.doc_第3页
潜在类别模型及数据模拟分析.doc_第4页
潜在类别模型及数据模拟分析.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

潜在类别模型及数据模拟分析 作者:郭小玲 裴磊磊 张岩波【摘要】 目的: 介绍潜在类别模型的原理、方法及其分析过程,为医学模式转变所带来的病因关系的复杂性及其对统计分析方法的改进所提出的要求提供理论依据。方法: 利用Mplus软件Monte Carlo simulation study模块,按照预先设定的模型产生模拟数据并赋予一定的含义,然后导入Mplus软件直接进行潜在类别分析及多样本分析比较,用图示直观地表现模型参数变化。结果: 单样本潜在类别分析显示模型M1中潜在类别2作用大于潜在类别1的作用;模型M2中潜在类别1的作用明显大于潜在类别2的作用。多样本潜在类别分析结果显示所有观察值区分为两类,模型M1与模型M2之间潜在类别具有差异性。讨论: 潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可用于验证性研究,拓展了潜变量模型的应用范围。 【关键词】 潜在类别概率; 条件概率; 潜在聚类分析 在量化研究中有许多情况研究的数据是分类数据,例如社会学研究中测量社会经济地位的职业、教育水平、收入等指标,中医学中描述疾病症候的各种征象等。相应的潜变量也可以是分类变量,此时需采用基于分类潜变量构造的潜在类别模型。潜在类别模型综合了结构方程模型与对数线性模型的思想,形成了自身的优势,其目的在于以最少的潜在类别数目来解释显变量之间的关联,来达到局部独立性。潜在类别模型的提出弥补了结构方程模型仅能处理连续潜变量的不足,尤其重要的是分类潜变量的引入提高了分类变量的分析价值,使得研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素。1 潜在类别模型的基本原理 潜在类别模型又称潜类模型(latent class model,LCM),是建立在概率分布原理与对数线性模型基础之上,引入因子分析与结构方程模型的思想而形成的。因此,掌握结构方程模型与对数线性模型有助于理解潜在类别模型。潜在类别模型分析过程包括模型参数化、参数估计、模型识别、拟合优度评价、潜在分类与结果解释等14。1.1 概率参数化 LCM的概率参数化(probabilistic parameterization)包括两种类型的分类变量:观察变量或显变量(observed variable, manifest variable)和非观察变量或潜变量(latent variable);两种类型的参数:潜在类别概率(latent class probabilities)和条件概率(conditional probabilities)。LCM假定任意两个观测变量之间的关系可以由潜变量解释。现假定A 、B 、C 、D 为四个显变量(或条目),潜在类别模型可以表达为: ABCDXijklt=Xt A| XitB| XjtC| XktD| Xlt(1) 式(1)包含潜在类别概率(Xt )和反映潜在类别对各显变量影响大小的四个条件概率(A| Xit、B| Xjt、C| Xkt、D| Xlt )。在式(1)中,潜在类别概率Xt 表示当观察变量局部独立时,潜变量X 在第t 个水平的概率,即从样本中随机选取的观察对象属于潜在类别t 的概率,各潜在类别的概率总和为1, tXt=1。条件概率,如A| Xit ,表示属于潜在类别t 的个体对观察变量A 的水平i 作出反应的概率。根据概率和条件概率的性质,有如下条件成立: iA| Xit=jB| Xjt= kC| Xkt=lD| Xlt=1.01.2 模型估计与模型识别 提出假定模型后,接下来的重要工作就是求出模型中参数的终解(final solution)和参数估计时的识别问题。在潜在类别模型中常用的参数估计方法有EM(expectationmaximization)算法和NR(NewtonRaphson)算法。如果模型中的参数要顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型不能识别的问题,无法运用EM算法与NR算法进行迭代求解。相反自由度大于0也不一定能让模型具有可识别性。Goodman(1974)提出了一个局部识别(local identifiability)原则,利用偏导矩阵(partial derivative matrix)来判断模型是否可以得到有意义的解。遇到模型无法识别的情况,可以限定部分参数,减少待估参数数目,提高模型估计的识别性。1.3 模型评价与潜在分类 模型评价的主要工作就是找出既简洁,具有最少的参数,又具有较好拟合优度的模型,其中4种指标Pearson2 、似然比2 、Akaike信息准则(AIC)、Baysian信息准则(BIC)已经得到广泛使用。在确定模型后,最后要将各组观察值分类到适当的潜在类别当中,来说明观察值的后验类别属性(posterior membership),即潜在聚类分析(latent class cluster analysis)。Kaufman和Rousseeuw(1990)将传统的聚类分析定义为把相似的目标分到相同的组别,而组别的数量和形态是未知的2,而潜在聚类分析则是在一定的概率模型之下(modelbased),利用概率估计与比较来进行分类,分类的原理依据贝叶斯理论。 ABCDtijkl=ABCDXijkltTt=1ABCD Xijklt(2) 利用式(2)求出值潜变量X 的条件概率ABCDtijkl 后,根据ABCDtijkl 值的大小判断观察值属于哪一类。如果潜在类别t 在某一类的概率最大则相应的个体归为该类。1.4 探索性与验证性潜在类别分析 依据研究目的,潜在类别模型可以分为探索性潜在类别模型与验证性潜在类别模型两种类型。邱皓政3对探索性潜在类别模型分析过程进行了总结,有以下几步: 1.估计初始模型( T=1的1cluster模型); 2.逐步增加类别数目,进行各模型的参数估计,计算拟合优度值; 3.进行拟合优度检验与差异检验,以决定最佳模型; 4.进行类别的命名与参数估计结果整理; 5.进行分类,决定各观察值的归属类别; 而验证性潜在类别分析步骤也为以下几步: 1.估计未限定模型(可以是探索性分析的最佳模型或次佳模型); 2.增加限定的参数,并进行模型的参数估计,计算拟合优度; 3.进行拟合优度检验与卡方差异检验,以决定模型拟合优度有无变化; 4.如果拟合变得不好,放弃该模型,以未限定模型作为最适当模型,或继续进行其他模型的估计; 5.如果拟合变得很好,则保留该限定,重新进行各潜在类别的命名与参数估计的说明; 6.进行分类,了解各观察值的分类情形。1.5 多样本潜在类别模型 在潜在类别分析中,研究人员经常面对来自两个或多个不同组别的观察对象进行潜在类别分析的情形。在遇到这种情况时,可以利用多样本(multisample)潜在类别模型分析比较样本之间的潜结构。 多样本潜在类别模型分析(multisample latent class modeling,MSLCM)是对两组或两组以上观察对象在同一组显变量的反应同时进行分析,比较不同的样本下的潜在类别模型结果是否有所差异,因此又称为联立潜在类别分析(simultaneous latent class modeling,SLCM)。我们对式()中的参数进行修定使式中含有反映样本来源的分组变量,假定变量G表示分组变量且具有 S个水平,比如为来自四个国家的不同样本(S =4),那么得到 G1、G2 、G3、G4。多样本LCM的概率参数化可以表示为: ABCDXGijklts=Gs X|Gts A| XGitsB| XGjtsC| XGktsD| XGlts(3) 式(3)中分组变量的加入使得模型限定条件发生了改变: tX| Gts=iA| XGits=jB| XGjts= kC| XGkts=lD| XGlts2 模拟分析2.1 模拟分析步骤 利用Mplus软件蒙特卡罗模拟(Monte Carlo simulation study)产生潜在类别模型的模拟数据,然后利用Mplus软件对产生的模拟数据进行单样本与多样本潜在类别分析5。2.1.1 模型指定与变量产生条件 首先构造两个包含一个潜变量和四个显变量的潜在类别模型M1与M2,其中显变量和潜变量都为二分类变量,假定0表示不发生(否),1表示发生(是)。对于潜在类别模型M1,在潜在类别1(cluster1)中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、-0.5、-0.5;在潜在类别2(cluster2)中指定界值为-0.5、-0.5、0.5、0.5;指定潜变量界值为0。对于潜在类别模型M2,在潜在类别1中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、0、0;在潜在类别2中指定界值为0、0、-0.5、-0.5;指定潜变量界值为0。2.1.2 生成模拟数据 Mplus首先产生符合多元正态分布的四个连续变量,然后根据MODEL POPULATION命令或者MONTECARLO命令中的POPULATION选项指定的界值,根据Logistic分布原理,使用最大似然估计方法得到四个二分类显变量。 根据模型M1和模型M2指定的参数,分别产生了两组样本含量为 =1000的随机数据,本研究进行一次数值模拟并保存数据。2.1.3 模拟数据潜在类别分析 把产生的模拟数据直接导入Mplus中进行单样本潜在类别分析与多样本潜在类别分析。2.2 模拟数据的单样本潜在类别分析2.2.1 模型拟合指标 表1 模型M1与M2拟合优度指标(略)表1结果显示指定模型拟合结果良好,符合理论预期,得到一个二分类潜在类别模型。2.2.2 参数估计结果 表2参数估计结果显示:模型M1的潜在类别概率值(cluster size)分别是36.40%、63.60%,总和为1.0,可以看出类别2的比重大于类别1,差异明显。模型M2中潜在类别概率值为97.75%、2.25%,很明显潜在类别1的概率值大于潜在类别2的概率值。与因子分析中的因子贡献率类似,潜在类别的概率值越大表示在潜变量中地位越重要,对显变量的影响越大。因此认为模型M1中潜在类别2作用大于潜在类别1的作用,且差异显著;模型M2中潜在类别1的作用明显大于潜在类别2的作用,结果显著。 表2 模型M1与M2单样本潜在类别的条件概率与潜在类别概率(略)与因子分析中的因子载荷类似,条件概率表示各潜变量与显变量之间的关系,条件概率值越大说明潜变量对显变量的影响越大,可协助研究者解释潜变量各类别的内容与性质。可以看出模型M1的潜在类别1中显变量U3、U4发生的条件概率分别为72.7%、60.00%,而显变量U1、U2发生的条件概率为30.7%、36.3%,因此潜在类别1主要影响显变量U3、U4;在潜在类别2中显变量U1、U2发生的条件概率为63.1%、56.7%,而显变量U3、U4发生的条件概率为40.3%、40.5%,与潜在类别1正好相反,潜在类别2主要影响显变量U1、U2。 在模型M2潜在类别1中显变量U1、U2、U3、U4发生的条件概率为45.3%、43.7%、57.2%、51.6%,潜在类别1对四个显变量影响大小相近;潜在类别2中显变量U3、U4发生条件概率为100% 、93.9%,可以看出在模型M2中,潜在类别1不具有特异性,而潜在类别2主要影响U3、U4。综上分析模型M1具有明显的倾向性,模型M1的潜在类别1可以认为是U3、U4倾向类,而潜在类别2是U1、U2倾向类;模型M2的潜在类别1不具有识别性,而潜在类别2倾向于U3、U4为“是”的类别。 图1反映了模型M1四个显变量U1、U2、U3、U4发生的条件概率,图示的结果也说明了潜在类别1对变量U3、U4的影响较大,而类别2对变量U1、U2的影响较大。绘成折线图,可以直观地表现两个类别的差异性。图1 模型M1四个显变量的条件概率分布情形(略) 图2 模型M2四个显变量的条件概率分布情形(略) 图2反映了模型M2四个显变量U1、U2、U3、U4发生的条件概率,图示结果显示了潜在类别1对变量U1、U2、U3、U4的影响都比较接近,而潜在类别2对显变量U3、U4影响较大。2.3 模拟数据的多样本潜在类别分析2.3.1 模型拟合指标 表3 多样本非限定潜在类别分析模型拟合优度指标(略)表3给出了两样本潜在类别模型分析拟合效果。 2与G2显示三分类潜在类别模型结果拟合较好,而指标BIC与AIC结果显示潜变量二分类时结果较好。综合考虑各个指标选择潜变量二分类的模型。2.3.2 参数估计结果 表4 多样本二分类潜在类别模型条件概率(略)表4结果显示,两样本潜在类别模型区分为两个潜在类别,全体潜在类别概率分别为69.5%、30.5%,两样本潜在类别概率分别是模型M1的49.98%、50.02%与模型M2的50.05%、49.95%,两组比例相当;而各单元格条件概率差异明显。 图3 多样本比较条件概率分布情形(略) 2.3.3 模型M1和M2两样本比较结果 将模型M1与模型M2数据合并,样本含量为2000,根据式(2)把观察值分到两个潜在类别中。以观察值0000 的分类结果为例,先根据式(1)求期望概率(见表5第5、6列): ABCDX00001=X1 X01 X01 X01 X01=0.4510.4820.5190.5440.723=0.044 ABCDX00002=X2 X02 X02 X02 X02=0.6970.6910.2650.3820.277=0.014 相应地样本量乘以期望概率可以得到期望频数(见表5第7、8列),然后得到分类条件概率: BCD10000=ABCDX00001 ABCDX00001+ABCDX00002=0.759 BCD20000=ABCDX00002 ABCDX00001+ABCDX00002=0.241 由于潜在类别1的分类条件概率大于潜在类别2的分类条件概率,因此把观察值0000 归为潜在类别1,其它观察值分类同理(见表5第9、10列)。表5 模型M1与模型M2合并样本观察值期望概率与分类情形(略)把所有观察值区分为两类,然后检验模型M1与模型M2之间潜在类别的差异性,表6中2 结果显示两个样本之间的分类没有统计学差异(P<0.001)。表6 二分类潜在类别模型多样本比较(略)注:2=1.673; df=1; P<0.05。3 讨论 潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可以用于验证性研究,拓展了潜变量模型的应用范围。探索性潜在类别模型的主要任务是决定外显变量的变异最能够被几个潜在类别所解释。当T个类别的模型即为最佳模型时,会使理论最接近实际数据,每一潜在类别有一群具有相同特征的观察值所组成。验证性潜在类别模型的主要特征是研究者基于不同的理论观点或特殊需要,比对观察数据,对模型参数进行设限,借以检验特殊反映形态是否存在。 模型识别问题是潜在类别模型应用过程中的一个重要步骤。一般对潜在类别模型理论不太清楚的研究者通常会忽视这一步骤。当模型无法识别,Mplus软件会自动中止,出现警示语句。当然,在某些情形之下,电脑的输出结果并未明显告知已有识别问题产生。这时需要研究者仔细阅读输出的结果。在潜在类别分析中,由于概率的参数化有其特殊前提,有可能导致模型识别问题的发生。如果模型中的参数要能够顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型的识别不足问题,无法进行收敛求解的迭代。但是并非自由度大于0就必然可以让模型具有可识别性。如果模型无法识别,可以将部分参数设定限制,改变概率估计的方式,提高模型估计的数学条件。不过值得注意的是此时自由度的数目就未必反映估计参数的多寡,若我们要进行设限模型的比较时,参数的变动未必是自由度相减。 本研究假定造成外显变量之间具有关联性的原因可能是外显变量背后存在一个共同的潜在变量,在模型分析时考虑了这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论