多水平模型在艾滋病流行趋势研究中的应用_第1页
多水平模型在艾滋病流行趋势研究中的应用_第2页
多水平模型在艾滋病流行趋势研究中的应用_第3页
多水平模型在艾滋病流行趋势研究中的应用_第4页
多水平模型在艾滋病流行趋势研究中的应用_第5页
免费预览已结束,剩余1页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多水平模型在艾滋病流行趋势研究中的应用对多水平负二项分布模型在艾滋病病流行趋势研究中应用的优势和不足做探索性研究。 方法利用重庆市 1994-2009 年各区县年度新发艾滋病频数数据以及各区县年度常住人口数, 结合多水平建模方法分别拟合 Poisson 模型和负二项分布模型计算参数并比较。结果 负二项分布的超方差系数k=5.887279 ,较之 Poisson 分布模型中的超方差系数 k=9.008424 有所减小,但仍大于 1 且有统计学意义, 2 种模型拟合结果有差异但不明显。结论 多水平负二项分布模型在对艾滋病流行趋势的研究中较之传统的 Poisson 分布模型无明显差异, 2 种模型解

2、释的侧重点不同。 负二项分布有两种定义,其一:只有2 个结果的独立重复随机试验序列,指定结果发生的概率为p,则第 r 次出现的试验次数X 的分布为其二: Y 表示在第r 次试验成功前失败的实验次数,其分布为可验证, 2 种定义是等效的,定义一分布的均数为r/p,方差为 rq/p2,定义二分布的均数为r(1-p)/p ,方差不变。泊松分布是由法国数学家S.D.Poisson 作为二项分布的近似引入的,常用于描述稀有事件出现的概率或观察单位较为抽象的现象分布,其分布为泊松分布有一个最重要的特征:方差等于均数1 。当某种疾病比较罕见或发病水平较低时,可以将其近似地当成是符合泊松分布2 。对于感染率很

3、低的传染性疾病而言,感染个体先是从境外迁入,在境内传播, 感染人数不断增多,是一个感染密度不断增高的动态过程,空间传播动态变化常表现为稀疏随机-聚集 -高度聚集 -致密随机的过程。在其空间分布呈稀疏随机的阶段,用Poisson 分布去拟合是合理的。随着传播的持续,感染人群不断增多,逐渐形成具有聚集趋势的空间分布形式,不再符合 Poisson 分布规律。艾滋病由于其疾病自身的特殊性,结合以往经验一般不会形成高度聚集和致密随机的过程,所以用负二项分布来拟合模型是比较合理的。负二项分布在医学中主要用于聚集性疾病及生物、微生物、 寄生虫分布模型等的研究,当个体间发病概率不相等可以拟合负二项分布3 。与

4、 Poisson 分布不同的是,负二项分布的方差大于其均数,r 越小方差与均数之差越大,r 越大方差与均数之差越小,当r 趋于无穷时,负二项分布就退化为Poisson 分布 4, 5,因此, r 在某种程度上可以度量分布聚集程度的大小。多水平模型 (Multilevel Models, MLM) 是分析具有层次结构特征数据的有效工具。对具有层次结构的数据如采用传统的统计分析方法,会低估效应的标准误,增加假阳性的概率6 。在研究中,由于采用的数据为1994-2009 年重庆市各区县艾滋病数据,不同区县在自然地理、经济水平和受教育程度具有一定差异,可将区县视为资料的二水平单位,将同一区县内不同年度

5、的艾滋病感染人数作为相同二水平单位下的一水平重复测量单位,拟合多水平Poisson回归和负二项分布回归模型。1 对象与方法1.1 资料来源艾滋病数据资料为1994-2009 重庆市每年度各区县新发HIV/AIDS感染人数,为频数资料, 由重庆市疾病控制部门提供;重庆市1994-2009 年每年度各区县常住人口数据来自重庆市统计年鉴,其中 2003-2009年数据可直接从重庆统计信息网(http:/ )上查阅, 1994-2002 年数据由重庆市巫溪县统计局提供。人口密度数据由当年常住人口数/辖区面积计算,单位为:万人/m2 。1.2 数据预处理及初步分析重庆市首次发现HIV感染者是在1993

6、年,但该感染者并非重庆市籍户口,所以本研究以1994 年重庆市首次出现本地区户籍HIV 感染者为观察起点。将数据按年度分层,每一层内以区县为单位,各区县新发HIV感染者为观察值,计算均数和方差,结果见表1。由表 1 中可见,重庆市各区县艾滋病传播过程可大概分成3 个阶段, 1994-1999年为随机散发的 Poisson 分布,方差均数比接近1;2000-2003年为过渡阶段, 此时期方差均数比逐渐增大,说明疾病分布已不符合随机散发的Poisson 分布,流行趋势逐渐有聚集性;年为第 3 阶段,此时期除2005 年外,方差均数比大都在35 左右波动, 说明流行趋势聚集性趋于明显并稳定在一定状态

7、。经与数据提供方沟通,得知2005 年由于检测手段的改进可能发现了一些以往感染的潜在HIV感染者,致使当年新发感染者增加异常明显,其中部分感染者可能并非于当年被感染,方差均数比达到了86,这可能会影响到建模结果,在讨论中有论述。1.3 建模思路将区县作为二水平单位,将区县内历年新发HIV 感染人数作为重复测量的一水平单位, 将各区县各年度常住人口数作为度量单位(即模型中 offset 项),将年度(时间)、人口密度作为协变量,拟合2 水平Poisson回归和2 水平负二项分布回归模型,计算分析各系数卫生学意义并对模型做比较分析。1.4 统计软件所用统计软件包括SPSS13.0、MLwiN2.2

8、3、 EXCEL 等。2 结果2.1 二水平 Poisson 分布拟合结果将重庆市所辖40 个区县作为二水平观察单位,县 1994-2009 年各年度新发HIV 感染人数作为一水平观察单位。各模型中有统计学意义(P0.05)的参数都用阴影来表示。模型1 纳入了时间(年度)和人口密度机效应分割上,只对常数项设置了二水平方差,即 uo2;模型 2 在模型 1 的基础上对时间系数设置了二水平方差,即 u12;模型 3 在模型 2 的基础上增加了时间的二次项;模型4在模型 3 的基础上将离散模型设置为超Poisson 方差模型。首先考虑随机效应,从参数的计算结果可以看出常数项的二水平方差在各模型中都是

9、有意义的,说明各区县HIV 感染水平存在差异;模型2、 3、 4 的时间系数二水平方差也都有统计学意义,说明各区县HIV 感染率随时间变化的速度是不同的;模型 2、3、4 二水平上的常数项与时间系数的协方差也都是有统计学意义的, 且方向为负, 说明感染水平较高的区县年度感染率的增长速度较感染水平低的区县要慢; 模型 4 的一水平方差项有统计学意义,说明模型 4 估计的方差尚有部分不能用固定效应项来解释,这可以在下一步建负二项分布模型的时候结合起来分析。固定效应部分,人口密度系数在模型3、4 中是有统计学意义的,说明人口密度的增加也会提高HIV的感染风险;模型3、4 的时间二次项系数有统计学意义

10、且为负,提示HIV 感染率的增速随时间推移而变,见表2。2.2 二水平负二项分布模型拟合结果初始思路与二水平Poisson 相同。考虑到负二项分布本身可通过 -Poisson 分布推导得出, 负二项分布模型可将不同区县发病水平上的差异作为不同 Poisson 分布均数上的差异来分解,即模型自身已考虑了区域间差异,此时再对模型的常数项进行二水平方差分解的意义不大。将时间和时间二次项系数方差在二水平模型上分解得到了模型 5-8。模型 5 为单水平负二项分布回归;模型6 为二水平负二项分布回归,将时间系数方差在二水平上进行分解;模型 7 为在模型 6 的基础上增加时间二次项并将时间二次项系数方差在二

11、水平上进行分解;模型 8 与模型 7 的形式相似, 只是分布假定上变成超负二项分布。从模型的系数及意义上来看,较之Poisson 模型而言,固定效应部分差异不大。随机效应部分, 由于没有将常数项方差进行二水平分解而代之以时间项和时间二次项,模型 6、7、 8 中的 u12 有统计学意义,说明不同区县HIV 感染率随时间变化的速度是不同的;模型 7、 8 的 u13 有统计学意义且值为负,说明HIV 感染率(经连接函数取对数值后)随时间变化增加速度较快的区县,其加速度是相对较小的,结合固定效应中时间二次项系数为负,可得出重庆市总体HIV 感染率(经连接函数取对数值后)加速度为负值,即总体HIV感

12、染率随时间越来越高,但增速逐渐放缓。模型8 的系数 k=5.887279 ,较之超 Poisson 分布模型中的 9.008424(表 2)有较大幅度的减小,但仍大于1 且有统计学意义,说明用负二项分布回归建模对方差的解释要优于Poisson 回归,但水平二上的方差是超负二项离散的,即负二项分布回归模型仍不能解释所有变异,见表3。3 讨论负二项分布是概率论中常用的离散型随机分布,它在医学中主要用于聚集性疾病及生物、生物、寄生虫分布模型的研究3 。国内学者陈峰、薛付忠等曾对该分布在流行病学中应用的条件和流行病学依据做过论述7-8 。在应用上,张志杰、夏志勇、郑辉烈等曾在钉螺、丝虫病、及微核试验分

13、布的研究中使用负二项分布模型9-11 。仇丽霞等曾对负二项分布方法在乙肝家庭聚集性研究中的应用做过研究12 。一般来说,当个体间发病概率不相等可以拟合负二项分布, 如单位人数内某传染病的发病人数、地方病、遗传病的发病人数等。负二项分布来源于 Poisson 分布,它改进了Poisson 的等概条件,对于传染性疾病而言,负二项分布拟合效果在理论上优于传统的Poisson 分布。国外有不少学者将HIV 传播的研究 13-15 ,但负二项分布方法在HIV 流行规律研究中应用的报道罕见。基于以上背景,笔者开展了本研究,并试图对模型的应用做探索性分析。3.1 模型中各参数的卫生学意义不管是 Poisso

14、n 分布模型还是负二项分布模型,时间和时间二次项系数都是有统计学意义的。这都说明随着时间的推移HIV年度感染率的对数值(根据模型中的连接函数)越来越高,但其增加速度有所下降(二次项系数为负)。但增加速度下降并不能代表没有增加,从图形上看(见下图)整体趋势还是上升的。值得注意的是, 在未考虑二水平因素的情况下,笔者曾对发病率对数值拟合包含时间一次项和二次项的回归方程,结果一次项有意义(P=0.001),而二次项没有意义( P=0.759)。这说明多水平模型在考虑了水平因素后能提高检验效能,发现普通模型中所不能识别的微弱趋势。Poisson模型中常数项在水平二上的方差都是有意义的,说明在考虑了时间

15、、人口密度等因素的情况下,不同区县间感染水平是不同的。Poisson 分布模型和负二项分布模型时间项系数的水平二方差都是有意义的,这说明不同区县HIV 感染率随时间增加的速度是不同的。Poisson 分布模型中的 u01 和负二项分布模型中的有统计学意义且为负,这可以解释为:HIV感染率(经连接函数取对数值后)随时间变化增加速度较快(一次项)的区县,其加速度(二次项)是相对较小的,即感染水平较高的区县感染率增速较感染水平低的区县要缓。3.22 模型的比较虽然在理论上,对于传染性疾病而言,负二项分布回归模型要优于Poisson 分布回归模型。但由于参考了多水平因素,在方差大于均数的情况下,负二项分布可以通过假定 Poisson 分布的均数为可变化的方式来解释剩余方差,而多水平模型可以通过二水平上的随机效应来解释,二者的侧重点是不同的。所以,对于多水平模型而言,先验分布是 Poisson 分布还是负二项分布,建模结果差别不大,当模型中引入时间、人口密度、时间二次项等协变量后,二者差异可能会变小。对本研究而言,在水平一上的变异超Poisson分布(模型 4)为 9.008424,超负二项分布(模型8)为 5.887279,较之模型 4 有明显减小,这说明用负二项分布在模型方差解释上要优于Poisson 分布模型,但在本研究中,这种优势没有在卫生学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论