版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、潜在类别模型及数据模拟分析摘要:目的:介绍潜在类别模型的原理、方法及其分析过程,为医学模式转变所带来的病因关系的复杂性及其对统计分析方法的改进所提出的要求提供理论依据。方法:利用Mplus软件MonteCarloSimulationstudy模块,按照预先设定的模型产生模拟数据并赋予一定的含义,然后导入Mplus软件直接进行潜在类别分析及多样本分析比较,用图示直观地表现模型参数变化。结果:单样本潜在类别分析显示模型Ml中潜在类别2作用大于潜在类别1的作用;模型M2中潜在类别1的作用明显大于潜在类别2的作用。多样本潜在类别分析结果显示所有观察值区分为两类,模型Ml与模型M2之间潜在类别具有差异性
2、。讨论:潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可用于验证性研究,拓展了潜变量模型的应用范围。关键词:潜在类别概率;条件概率;潜在聚类分析在量化研究中有许多情况研究的数据是分类数据,例如社会学研究中测量社会经济地位的职业、教育水平、收入等指标,中医学中描述疾病症候的各种征象等。相应的潜变量也可以是分类变量,此时需采用基于分类潜变量构造的潜在类别模型。潜在类别模型综合了结构方程模型与对数线性模型的思想,形成了自身的优势,其目的在于以最少的潜在类别数目来解释显变量之间的关联,来达到局部独立性。潜在类别模型的提出弥补了结构
3、方程模型仅能处理连续潜变量的不足,尤其重要的是分类潜变量的引入提高了分类变量的分析价值,使得研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素。1 潜在类别模型的基本原理潜在类别模型又称潜类模型(latentclassmodel,LCM),是建立在概率分布原理与对数线性模型基础之上,引入因子分析与结构方程模型的思想而形成的。因此,掌握结构方程模型与对数线性模型有助于理解潜在类别模型。潜在类别模型分析过程包括模型参数化、参数估计、模型识别、拟合优度评价、潜在分类与结果解释等14。概率参数化LCM的概率参数化(probabilisticparameterization)包括两种类型的分类变
4、量:观察变量或显变量(observedvariable,manifestvariable)和非观察变量或潜变量(latentvariable);两种类型的参数:潜在类别概率(latentclassprobabilities)和条件概率(conditionalprobabilities)。LCM假定任意两个观测变量之间的关系可以由潜变量解释。现假定A、B、C、D为四个显变量(或条目),潜在类别模型可以表达为:nABCDXijklt二nXtnA|XitnB|XjtnC|XktnD|Xlt(l)式(1)包含潜在类别概率(nXt)和反映潜在类别对各显变量影响大小的四个条件概率(nA|Xit、nB|Xj
5、t、nC|Xkt、nD|Xlt)。在式(1)中,潜在类别概率nXt表示当观察变量局部独立时,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率,各潜在类别的概率总和为1,nXt=1。条件概率,如nA|Xit,表示属于潜在类别t的个体对观察变量A的水平i作出反应的概率。根据概率和条件概率的性质,有如下条件成立:inA|Xit二jnB|Xjt二knC|Xkt二InD|Xlt二模型估计与模型识别提出假定模型后,接下来的重要工作就是求出模型中参数的终解(finalsolution)和参数估计时的识别问题。在潜在类别模型中常用的参数估计方法有EM(.)算法和NR(人十p卜)算法
6、。如果expectationmaximizationNewtonRaphson模型中的参数要顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型不能识别的问题,无法运用EM算法与NR算法进行迭代求解。相反自由度大于0也不一定能让模型具有可识别性。Goodman(1974)提出了一个局部识别(localidentifiability)原则,利用偏导矩阵(partialderivativematrix)来判断模型是否可以得到有意义的解。遇到模型无法识别的情况,可以限定部分参数,减少待估参数数目,提高模型估计的识别性。模型评价与潜在分类模型评价的主要工作就是找出既简洁,具有最
7、少的参数,又具有较好拟合优度的模型,其中4种指标Pearsonx2、似然比x2、Akaike信息准则(AIC)、Baysian信息准则(BIC)已经得到广泛使用。在确定模型后,最后要将各组观察值分类到适当的潜在类别当中,来说明观察值的后验类别属性(posteriormembership),即潜在聚类分析(latentclassclusteranalysis)。Kaufman和Rousseeuw(1990)将传统的聚类分析定义为把相似的目标分到相同的组别,而组别的数量和形态是未知的2,而潜在聚类分析则是在一定的概率模型之下modelbased),利用概率估计与比较来进行分类,分类的原理依据贝叶斯
8、理论。nABCDtjkl二nABCDXijk巩二nABCDXijklt(2)利用式(2)求出值潜变量X的条件概率nABCDtjkl后,根据nABCDtjkl值的大小判断观察值属于哪一类。如果潜在类别t在某一类的概率最大则相应的个体归为该类。探索性与验证性潜在类别分析依据研究目的,潜在类别模型可以分为探索性潜在类别模型与验证性潜在类别模型两种类型。邱皓政】3对探索性潜在类别模型分析过程进行了总结,有以下几步:1.估计初始模型(T=1的cluster模型)2. 逐步增加类别数目,进行各模型的参数估计,计算拟合优度值3. 进行拟合优度检验与差异检验,以决定最佳模型;4. 进行类别的命名与参数估计结果
9、整理;5. 进行分类,决定各观察值的归属类别;而验证性潜在类别分析步骤也为以下几步:1.估计未限定模型(可以是探索性分析的最佳模型或次佳模型)2增加限定的参数,并进行模型的参数估计,计算拟合优度;3. 进行拟合优度检验与卡方差异检验,以决定模型拟合优度有无变化;4. 如果拟合变得不好,放弃该模型,以未限定模型作为最适当模型,或继续进行其他模型的估计;5. 如果拟合变得很好,则保留该限定,重新进行各潜在类别的命名与参数估计的说明;6. 进行分类,了解各观察值的分类情形。多样本潜在类别模型在潜在类别分析中,研究人员经常面对来自两个或多个不同组别的观察对象进行潜在类别分析的情形。在遇到这种情况时,可
10、以利用多样本(*.)潜在类别模型分析比较样本之间的潜结构。multisample多样本潜在类别模型分析(十十人,multisamplelatentclassmodeling皿"丿是对两组或两组以上观察对象在同一组显变量的反应同时进行分析,MSLCM比较不同的样本下的潜在类别模型结果是否有所差异,因此又称为联立潜在类别分析(simultaneouslatentclassmodeling,SLCM)。我们对式(1)中的参数进行修定使式中含有反映样本来源的分组变量,假定变量G表示分组变量且具有S个水平,比如为来自四个国家的不同样本(S=4),那么得到Gl、G2、G3、G4。多样本LCM的概
11、率参数化可以表示为:nABCDXGijklts=nGsnX|GtsnA|XGitsnB|XGjtsnC|XGktsnD|XGlts(3)式(3)中分组变量的加入使得模型限定条件发生了改变:tnX|Gts二inA|XGits二jnB|XGjts二knC|XGkts二InD|XGlts2 模拟分析模拟分析步骤利用Mplus软件蒙特卡罗模拟(MonteCarlosimulationstudy)产生潜在类别模型的模拟数据,然后利用Mplus软件对产生的模拟数据进行单样本与多样本潜在类别分析5。模型指定与变量产生条件首先构造两个包含一个潜变量和四个显变量的潜在类别模型Ml与M2,其中显变量和潜变量都为二
12、分类变量,假定0表示不发生(否)1表示发生(是)对于潜在类别模型Ml,在潜在类别1(cluster1)中指定二分类显变量U1、U2、U3、U4的界值为、-、-;在潜在类别2(cluster)中指定界值为-、-、指定潜变量界值为0。对于潜在类别模型M2,在潜在类别1中指定二分类显变量Ul、U2、U3、U4的界值为、0、0;在潜在类别2中指定界值为0、0、-、-;指定潜变量界值为0。生成模拟数据Mplus首先产生符合多元正态分布的四个连续变量,然后根据MODELPOPULATION命令或者MONTECARLO命令中的POPULATION选项指定的界值,根据Logistic分布原理,使用最大似然估计
13、方法得到四个二分类显变量。根据模型M1和模型M2指定的参数,分别产生了两组样本含量为=1000的随机数据,本研究进行一次数值模拟并保存数据。模拟数据潜在类别分析把产生的模拟数据直接导入Mplus中进行单样本潜在类别分析与多样本潜在类别分析。模拟数据的单样本潜在类别分析模型拟合指标表1模型M1与M2拟合优度指标(略)表1结果显示指定模型拟合结果良好,符合理论预期,得到一个二分类潜在类别模型。参数估计结果表2参数估计结果显示:模型M1的潜在类别概率值(clustersize)分别是、,总和为,可以看出类别2的比重大于类别1,差异明显。模型M2中潜在类别概率值为%、,很明显潜在类别1的概率值大于潜在
14、类别2的概率值。与因子分析中的因子贡献率类似,潜在类别的概率值越大表示在潜变量中地位越重要,对显变量的影响越大。因此认为模型Ml中潜在类别2作用大于潜在类别1的作用,且差异显著;模型M2中潜在类别1的作用明显大于潜在类别2的作用,结果显著。表2模型Ml与M2单样本潜在类别的条件概率与潜在类别概率(略)与因子分析中的因子载荷类似,条件概率表示各潜变量与显变量之间的关系,条件概率值越大说明潜变量对显变量的影响越大,可协助研究者解释潜变量各类别的内容与性质。可以看出模型Ml的潜在类别1中显变量U3、U4发生的条件概率分别为、,而显变量Ul、U2发生的条件概率为、,因此潜在类别1主要影响显变量U3、U
15、4;在潜在类别2中显变量U1、U2发生的条件概率为、%,而显变量U3、U4发生的条件概率为、,与潜在类别1正好相反,潜在类别2主要影响显变量U1、U2。在模型M2潜在类别1中显变量U1、U2、U3、U4发生的条件概率为、,潜在类别1对四个显变量影响大小相近;潜在类别2中显变量U3、U4发生条件概率为100%、,可以看出在模型M2中,潜在类别1不具有特异性,而潜在类别2主要影响U3、U4。综上分析模型M1具有明显的倾向性,模型M1的潜在类别1可以认为是U3、U4倾向类,而潜在类别2是U1、U2倾向类;模型M2的潜在类别1不具有识别性,而潜在类别2倾向于U3、U4为“是”的类别。图1反映了模型M1
16、四个显变量U1、U2、U3、U4发生的条件概率,图示的结果也说明了潜在类别1对变量U3、U4的影响较大,而类别2对变量U1、U2的影响较大。绘成折线图,可以直观地表现两个类别的差异性。图1模型M1四个显变量的条件概率分布情形(略)图2模型M2四个显变量的条件概率分布情形(略)图2反映了模型M2四个显变量U1、U2、U3、U4发生的条件概率,图示结果显示了潜在类别1对变量U1、U2、U3、U4的影响都比较接近,而潜在类别2对显变量U3、U4影响较大。模拟数据的多样本潜在类别分析模型拟合指标表3多样本非限定潜在类别分析模型拟合优度指标(略)表3给出了两样本潜在类别模型分析拟合效果。X2与G2显示三
17、分类潜在类别模型结果拟合较好,而指标BIC与AIC结果显示潜变量二分类时结果较好。综合考虑各个指标选择潜变量二分类的模型。参数估计结果表4多样本二分类潜在类别模型条件概率(略)表4结果显示,两样本潜在类别模型区分为两个潜在类别,全体潜在类别概率分别为、,两样本潜在类别概率分别是模型Ml的、与模型M2的、,两组比例相当;而各单元格条件概率差异明显。图3多样本比较条件概率分布情形(略)模型Ml和M2两样本比较结果将模型Ml与模型M2数据合并,样本含量为20XX,根据式(2)把观察值分到两个潜在类别中。以观察值0000的分类结果为例,先根据式(1)求期望概率(见表5第5、6列):nABCDX0000
18、1二nX1nX01nX01nX01nX01=xxxx=nABCDX00002二nX2nX02nX02nX02nX02=xxxx=相应地样本量乘以期望概率可以得到期望频数(见表5第7、8列),然后得到分类条件概率:nBCD10000二nABCDX00001nABCDX00001+nABCDX00002=nBCD20XX0二nABCDX00002nABCDX00001+nABCDX00002=由于潜在类别1的分类条件概率大于潜在类别2的分类条件概率,因此把观察值0000归为潜在类别1,其它观察值分类同理(见表5第9、10列)。表5模型M1与模型M2合并样本观察值期望概率与分类情形(略)把所有观察值
19、区分为两类,然后检验模型M1与模型M2之间潜在类别的差异性,表6中X2结果显示两个样本之间的分类没有统计学差异(P)。表6二分类潜在类别模型多样本比较(略)注:X2=;df=1;P。3 讨论潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可以用于验证性研究,拓展了潜变量模型的应用范围。探索性潜在类别模型的主要任务是决定外显变量的变异最能够被几个潜在类别所解释。当T个类别的模型即为最佳模型时,会使理论最接近实际数据,每一潜在类别有一群具有相同特征的观察值所组成。验证性潜在类别模型的主要特征是研究者基于不同的理论观点或特殊需要,
20、比对观察数据,对模型参数进行设限,借以检验特殊反映形态是否存在。模型识别问题是潜在类别模型应用过程中的一个重要步骤。一般对潜在类别模型理论不太清楚的研究者通常会忽视这一步骤。当模型无法识别,Mplus软件会自动中止,出现警示语句。当然,在某些情形之下,电脑的输出结果并未明显告知已有识别问题产生。这时需要研究者仔细阅读输出的结果。在潜在类别分析中,由于概率的参数化有其特殊前提,有可能导致模型识别问题的发生。如果模型中的参数要能够顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型的识别不足问题,无法进行收敛求解的迭代。但是并非自由度大于0就必然可以让模型具有可识别性。如果模型无法识别,可以将部分参数设定限制,改变概率估计的方式,提高模型估计的数学条件。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理管理沟通中的冲突解决技巧
- 2025年前台服务冲刺试卷
- 2026年合同能源管理与节能环保服务在制造业中的应用
- 2026年深度学习在非侵入式脑机接口神经信号解码中应用指南
- 2026年生物质能“十五五”多元化高价值发展新方向解读
- 管廊防水施工方案
- 皮内注射的过敏试验操作
- 2026年消防演练安全培训
- 2026年消防安全知识普及
- 投资监理技术方法
- 2026西藏自治区救灾物资储备中心招聘4人(编外)笔试参考题库及答案解析
- 学校内部控制六大业务工作职责及岗位职责说明书
- 2026年“强村公司”组建运营:公司化运作的治理结构与盈利模式
- 泰国本土教师初级汉语课堂纠错反馈研究-以罗勇府格灵中学为例
- 2026年北京市延庆区高三下学期一模政治试卷和答案
- 2026年3月广东广州市白云区人民政府鹤龙街道办事处招聘就业见习岗位人员10人考试参考试题及答案解析
- XX中学2026年春季学期教研组校级公开课(示范课)安排及听课要求
- 2026人教版数学三年级下册全册教学课件
- 2025宣城广德市国有资产投资经营有限公司第二批招聘笔试参考题库附带答案详解
- 新版北师版三年级下册数学全册教案(完整版)教学设计含教学反思
- TB 10811-2024 铁路基本建设工程设计概(预)算费用定额
评论
0/150
提交评论