对数线性模型与对应分析在临床列联表资料中的结合应用.doc_第1页
对数线性模型与对应分析在临床列联表资料中的结合应用.doc_第2页
对数线性模型与对应分析在临床列联表资料中的结合应用.doc_第3页
对数线性模型与对应分析在临床列联表资料中的结合应用.doc_第4页
对数线性模型与对应分析在临床列联表资料中的结合应用.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对数线性模型与对应分析在临床列联表资料中的结合应用【摘要】 对数线性模型和对应分析都是可以处理列联表资料的有用工具,而且都可以研究变量之间的相互关系。对应分析可以通过其因子载荷平面图,用直观的方式表达变量间的关系,找到有相关关系的变量,为对数最优线性模型的选择提供有用的信息。 【关键词】 列联表; 对数线性模型; 对应分析1 方法简介 列联表可以表达多个分类变量交叉计数的资料,分析手段采用独立性检验或构造模型的方法,对数线性模型是常用的模型之一。对数线性模型是进一步用于离散型数据或整理成列联表格式的数据的统计分析工具。它可以把方差分析和线性模型的一些方法应用到对交叉列联表的分析中,从而对定性变量间的关系做更进一步的描述和分析。列联表分析无法系统地评价变量间的联系,也无法估计变量间交互作用的大小,而对数线性模型是处理这些问题的最佳方法1。 对数线性模型的结构有:两两关连模型、条件独立模型、部分独立模型、相互独立模型2。我们可以根据模型拟合优度检验的统计量G2和Pearson 2选择最优对数线性模型,本研究主要探索性的介绍对应分析在对数最优模型选择中的应用。 对应分析(Correspondence Analysis)又称RQ型因子分析,它是在R型因子分析和Q型因子分析的基础上发展起来的一种新的多元统计方法,主要用于分析二维数据阵中行变量和列变量之间的关系3。它利用降维的思想可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列在二维图上用一个点来表示, 以直观的形式描述属性变量各种状态间的关系4。在对应分析图中,若代表行变量某个类别或等级的点,与代表列变量某个类别或等级的点在同一方位上距离较近,则表明两者有较强的关联性;若距离较远或不在同一方位,则表明两者关联性较弱或无关联性3。 因此我们在选择对数线性模型前可以对列联表资料进行对应分析,通过其因子载荷平面图我们可以清楚地看到变量之间的相互关联程度,从而可以初步断定哪些变量之间有相互交互作用,可以为对数最优线性模型的初步选择提供重要信息。2 对数线性模型与对应分析在应用上的比较 相同之处:都可以对多项分类列联表资料进行分析;都可以分析变量间的相互关系;变量都无自变量和因变量之分。 不同之处主要是: 对数线性模型要求变量都是定性变量,而对应分析既可以用于定性变量,也可以用于定距尺度与定比尺度的数据5。 对应分析虽然可能揭示变量间的联系,但它不能说明两个变量之间存在的联系是否显著6,只是一种探索性的分析,而对数线性模型则可以对变量间的联系进行假设检验。 对应分析最早用于处理列联表资料, 即数据是正整数, 现也用于处理非整数资料7。一般要求数据不小于0。若有数据小于0, 则所有数据加上一适当的常数即可8。3 应用实例 为了研究Colles骨折在不同年份、不同性别、不同年龄中的分布情况,对天津市医院骨折病例资料进行分析。分析年份(X)、性别(Y)和年龄(Z)对Colles骨折发生频率的影响2。资料见表1。 对表1的列联表资料拟合了9种可能的对数线性模型(表2),利用两模型的偏差之差(G2)作为2值,其自由度之差(df)作为自由度,可判断两模型建有无差异。本例经过模型比较最终选择部分独立模型(X,YZ)为最佳模型。模型表示为: Lnijk=+ix+jy+kz+jkyz其中ijk为变量x的i水平、y的第j水平、z的第k水平所对应格子中的理论频数,为常数项,xi为变量x的第i水平的主效应,相应地jy和kz分别为变量y、z的第j水平和第k水平的主效应,jkyz表示变量y的第j水平与变量z第k水平间的交互效应。 这一模型提示,不同的性别(Y)发生Colles骨折的年龄(Z)不同,即性别与年龄有交互效应存在。表1 1980年和1981年Colles骨折病例数(略)表2 表1资料各种可能的对数线性模型及其拟合优度检验(略)由对数线性模型的最终输出结果(略)可知,男性在1019、2029和3039岁这3个年龄段发生骨折的频率高于女性,差别具有统计学意义。女性在5059、6069和7079岁这3个年龄段发生骨折的频率最高,但检验上没有统计学意义。 以下我们对表1进行对应分析,检验结果是否跟对数线性模型分析一致,为便于对应分析将资料整理成表3的形式。表3 Z980年、1981和两年不同性别Colles骨折病例数(略)通过对表3列联表进行对应分析,得到前两个特征根分别为0.105、0.001,贡献率分别为0.989、0.011,前2个因子的累积贡献率达到100%。行因素及列因素的第一因子和第二因子负荷见表4、表5。 分别以行因素及列因素的第一因子和第二因子为横轴与纵轴,以因子负荷为坐标值,在直角坐标系中,分别标出行因素和列因素的各类别的位置,从而可以在因子载荷平面图中得出行因素和列因素类别之间的对应关系。因子载荷平面图见图1。表4 行因素第一因子和第二因子负荷(略)表5 列因素第一因子和第二因子负荷(略)图1 骨折年龄与年份性别的因子载荷图(略)从图1中可以看到男性与1019、2029、3039比较靠近,提示男性在1019、2029和3039岁这3个年龄段发生骨折的频率较高。女性与5059、6069、7079岁和80-岁比较靠近,提示女性在5059、6069、7079岁和80岁这4个年龄段发生骨折的频率较高。说明不同的性别(Y)发生Colles骨折的年龄(Z)不同(即性别与年龄有交互效应存在),而年份(X)无论是与性别(Y)还是年龄段(Z)都没有明显的联系性,提示年份(X)是一个单独因素,与性别、年龄都没有相互交互效应。结果显示,对数线性模型以部分独立模型(X,YZ)为最佳模型。这一分析结果与列联表对数线性模型的分析结果高度一致。4 小结 对应分析将变量与样品结合起来, 通过共同的特征根,得到共同的公因子, 再由因子负荷将二者反映到同一张二维平面图上,反映出样品与变量的内在关系,两者间的关系一目了然,是探索性研究的有力工具。因而在进行对数线性模型前,我们可以先对列联表进行对应分析,通过对应分析因子载荷图可以清楚地看到变量之间的相互关系,可以确定哪些变量之间可能存在相互交互相应,然后将这一交互项引入对数线性模型,可以为对数线性最优模型的选择提供很好的帮助。【参考文献】 1 何晓群.多元统计分析.中国人民大学出版社,2004,244252.2 方积乾.医学统计学与电脑实验.上海科学技术出版社,2000,521530.3 李克均,王爱英,冯丽云.对应分析在探索交叉数据表行、列变量关系时的应用. 中国卫生统计,2005,22(5):281282.4 李丽霞,邹宇华,等.对应分析在研究地区与疾病分布情况中的应用. 数理医药学杂志,2006,19 (3):277280.5 何晓群.多元统计分析.中国人民大学出社,2004,195219.6 孙道志.统计分析中对应分析方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论