R语言的流行病学应用 课件 第8章 生态学研究_第1页
R语言的流行病学应用 课件 第8章 生态学研究_第2页
R语言的流行病学应用 课件 第8章 生态学研究_第3页
R语言的流行病学应用 课件 第8章 生态学研究_第4页
R语言的流行病学应用 课件 第8章 生态学研究_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章生态学研究8.1研究设计概述8.2常见的研究设计类型

8.3示例实践8.4练习示例8.5小结

8.1研究设计概述8.1.1概念生态学研究(ecologicalstudy)是描述性研究的一种类型,又称相关性研究(correlationalstudy)。它是一种在群体的水平上研究某种因素与疾病之间关联的流行病学研究,以群体为观察和分析的单位,通过描述不同人群中某因素的暴露状况与疾病的频率,分析该暴露因素与疾病之间的关联。和前述现况研究不同,生态学研究不是在个体的水平上收集和分析资料的,而是以群体为观察和分析的单位,在群体水平上收集暴露和结局信息的,通过描述不同人群中某因素的暴露情况与疾病频率来分析该因素与疾病的关联。生态学研究测量的结局指标一般为某个地区的发病人数、死亡人数、发病率、死亡率等,暴露指标可以是一个地区某种食物的平均消耗水平、某种大气污染的平均暴露水平和平均收入水平等。8.1研究设计概述8.1研究设计概述8.1.2生态学研究的分类1.生态比较研究生态比较研究(ecologicalcomparisonstudy)是生态学研究中应用较多的一种方法,常应用于评价社会设施、人群干预措施以及政策、法令的实施效果。这种方法是比较不同人群中某因素的平均暴露水平和某疾病频率之间的关联,即比较不同暴露水平的人群中疾病的发病率或死亡率差异,了解这些人群中暴露因素的频率或水平,并与疾病的发病率或死亡率作对比分析,从而为病因探索提供线索。有时甚至不需要暴露资料,仅观察不同地区或人群中某种疾病的分布,然后根据疾病分布的差异提出病因假设。8.1研究设计概述8.1.2生态学研究的分类1.生态比较研究例如,有人对不同国家和地区的直肠癌的发病率进行对比分析发现,直肠癌在发达国家比在发展中国家中更常见,因而推测饮食习惯和环境可能与直肠癌发病有关。在这项研究中,男性和女性的直肠癌发病率无显著的差别,这提示有关的暴露在男性和女性中是相近的;同时,该研究还发现,城市的直肠癌发病率高于农村,这提示相关的危险因素在城市分布更为普遍,因此考虑工业活动导致的环境污染等为可能的危险因素。8.1研究设计概述8.1.2生态学研究的分类2.生态趋势研究生态趋势研究(ecologicaltrendstudy)是连续观察一个或多个人群中某可能危险因素平均暴露水平的改变与某疾病的发病率、死亡率变化的关系。例如,世界卫生组织资助的心血管疾病监测项目于1984~1993年间连续监测心血管疾病的发生和死亡趋势,同时监测危险因素、卫生保健政策和社会经济条件的变化等,并分析这些因素和心血管疾病发生和死亡的关联;又如,某地区在实行结直肠癌筛查等综合防治措施后,10余年内结直肠癌死亡率呈现明显的下降趋势,提示这一防治措施有效。在实际操作中,生态比较研究常常和生态趋势研究混合使用,由于在生态学研究中,一般会获得发病的数据,因此也可引入相对危险度(RR)等评价指标。8.1研究设计概述8.1.3生态学研究的特点1.优点生态学研究主要具有以下优点:①通过比较几个人群的暴露和结局信息,可以较为方便地测量人群中变异很小的暴露因素或疾病,获得暴露和结局的关联。如某地区的中小学生群体的饮食习惯和结构相似,因而可以选择多个地区的中小学生群体,探讨他们的饮食结构与某种疾病发病之间的关联;②当个体的暴露情况无法观察和测量时,生态学研究是唯一适用的方法。例如,目前尚无方法可以精确地获得每个个体的大气污染或环境温度暴露的信息,此时生态学研究是比较合适的研究设计类型;

③当有常规监测资料或现成的资料时,选择生态学研究可以节省时间、人力、物力和财力,且可以较快地获得结果,提供病因线索;8.1研究设计概述8.1.3生态学研究的特点1.优点生态学研究主要具有以下优点:④作为一种观察性研究,当某种疾病的病因未明时,生态学研究可以提供病因线索;⑤适用于评价群体性干预措施的效果。在某些情况下,干预措施并不是针对某一个体,而是在群体水平上实施的,如健康教育政策、健康促进措施、大气污染控制措施、经济政策等,在评价这些干预措施效果时,更适合选用生态学研究;⑥在疾病监测工作中,生态学研究可用于估计某种疾病发展的趋势。8.1研究设计概述8.1.3生态学研究的特点1.缺点生态学研究是从个体上升到群体的一种研究方法,以不同情况的个体组成的群体为观察和分析的单位,将群体水平上的结论直接推论到个体水平时,可能造成的研究结果与真实情况不符,该现象称为生态学谬误(ecologicalfallacy),这是生态学研究的主要缺点。8.1研究设计概述8.1.3生态学研究的特点1.缺点生态学谬误的发生原因通常有以下3种:1)缺乏暴露与疾病联合分布的资料指研究者只知道每个研究人群内的暴露数和非暴露数,患病数和非患病数,但不知道在暴露者中有多少发生了疾病或非暴露者中有多少发生了疾病。也就是说,生态学研究不能在特定的个体中将暴露与结局联系起来。例如,有人研究了1950—1954和1965—1969年间宫颈癌死亡的减少与每年进行巴氏涂片筛检的妇女占比的相关情况。结果发现,筛检妇女比例越高,宫颈癌死亡率下降幅度越大,二者之间存在很强的统计学意义的正相关关系。因而认为,筛检规划可能使宫颈癌死亡率降低。但很显然,只根据该资料无法明确经过筛检的妇女的宫颈癌死亡率是否下降,因此生态学研究不能检验该病因假设。8.1研究设计概述8.1.3生态学研究的特点1.缺点生态学谬误的发生原因通常有以下三种:2)缺乏控制潜在混杂因素的能力1964—1965年涉及28个国家的一项研究表明,平均每人每天摄入猪肉量与乳腺癌死亡率之间有很强的正相关关系,提示猪肉摄入量和乳腺癌死亡率之间可能存在关联。然而,增加猪肉摄入量可能只是与乳腺癌危险增加有关的其他因素的一个标志,如增加了脂肪摄入量、减少了蔬菜摄入量或猪肉摄入量多的人有较高的社会经济地位等。利用相关资料不可能将这些潜在混杂因素的影响分离开。因而,相关关系的存在并不一定表明真实关联的存在。反之,研究缺乏存在相关关系的证据,也并不一定表明缺乏真实的联系。8.1研究设计概述8.1.3生态学研究的特点1.缺点生态学谬误的发生原因通常有以下三种:2)缺乏控制潜在混杂因素的能力例如,20世纪70年代初,美国口服避孕药(oralcontraceptive,OC)的使用增加,而同时育龄妇女中冠心病(coronaryheartdisease,CHD)死亡率下降约30%,提示使用OC与CHD死亡率间存在负向关联。然而,大量分析性研究一致表明,使用OC者比不使用OC者的平均CHD死亡危险增加约1倍,即该生态学研究由于缺乏对潜在混杂因素的控制能力,因此提示了虚假的因果关联,产生了生态学谬误。8.1研究设计概述8.1.3生态学研究的特点1.缺点生态学谬误的发生原因通常有以下三种:3)难以确定两变量间的因果关联生态学研究作为一种描述性研究,缺乏“先因后果”的时序关系,且以群体为观察对象,暴露水平和疾病的测量准确性较低。因此,生态学研究所发现的某种因素与某疾病在分布上的一致性,可能是由于二者存在真正的因果联系,也可能二者毫无关系,故所得的结论只能提示病因线索,不能作为因果推断的有效证据。8.1研究设计概述8.1.4生态学研究的使用情景和作用通过生态学研究可以提出与疾病的分布有关的病因假设。生态学研究通过收集人群中某疾病的频率与某因素的暴露状态,分析该暴露因素与疾病分布的联系,探索与疾病有关的危险因素,为病因假设的建立提供依据。生态学研究可用于评价干预措施或现场试验的效果。通过描述人群中某些干预措施实施前后某些疾病的发病率或死亡率的变化,经比较和分析对干预措施进行评价。例如,在某人群中推广低钠盐,并比较推广低钠盐前后人群平均钠摄入水平的变化与人群平均血压值的变化趋势,以评价低钠盐干预的效果。在疾病监测工作中应用生态趋势研究,以估计某疾病的趋势,有利于预防和控制疾病。8.2常见的研究设计类型8.2常见的研究设计类型8.2.1生态比较研究生态比较研究比较不同人群中某因素的平均暴露水平和某疾病频率之间的关系,即比较不同暴露水平人群中疾病的发病率或死亡率的差别,以了解这些人群中暴露因素的频率或水平,并与疾病的发病率或死亡率作对比分析,从而为病因探索提供线索。使用虚拟数据展示生态比较研究的数据结构(如表8.1所示),该数据框包括22个国家人均肉类消耗量和结女性肠癌发病率。表8.1生态比较研究数据结构示例国家人均肉类消耗量(/g)女性结肠癌发病率(/100000人)尼日利亚20.52.7日本30.86.2牙买加60.711.0………………新西兰317.145.08.2常见的研究设计类型8.2.2生态趋势研究生态趋势研究通过连续观察人群中某因素平均暴露水平的改变与某种疾病的发病率、死亡率变化之间的关系,以了解其变化趋势;通过比较暴露水平变化前后疾病频率的变化情况,来判断某因素与某疾病的关联。以R语言dlnm程序包中时间序列数据集chicagoNMMAPS的一部分观测为例,展示生态趋势研究的一般数据结构(如表8.2所示)。该数据集包括日期、年份、月份、星期几、死亡数、温度和臭氧浓度,可用于探讨大气环境与死亡之间的关联。表8.2生态趋势研究数据形式示例日期年份月份星期几死亡数温度(℃)臭氧(ppb)1995/1/119951Sunday135-6.9419.281995/1/219951Monday133-9.7217.321995/1/319951Tuesday144-11.6714.10……………………………………8.3示例实践8.3示例实践8.3.1生态比较研究以8.2.1节中的数据为例,展示生态比较研究数据的分析。生态比较研究的统计分析方法较为简单,可通过相关分析进行单因素分析;当有群体层面混杂因素的信息时,也可进行多因素回归分析。本例因为只有暴露和结局的信息,因此使用相关分析。首先绘制散点图(演示)。进一步计算其Spearman相关系数并进行统计学检验(演示)。8.3示例实践8.3.2生态趋势研究生态趋势研究为一种常用的流行病学方法,其分析方法多使用时间序列分析(time-seriesanalysis)。时间序列是指将某一指标的数值按照其发生时间先后顺序排列而成的数列,相邻观测值之间往往存在着显著关联,不满足传统统计分析中样本随机、互相独立的假定条件,因此传统的统计分析方法并不适用,应进行时间序列分析。在公共卫生领域中,分布滞后非线性模型(distributedlagnon-linearmodel,DLNM)为时间序列分析中应用最广泛的模型之一。8.3示例实践8.3.2生态趋势研究下面以dlnm程序包中的chicagoNMMAPS数据集为例,介绍时间序列分析的R语言实现过程。该数据集包含芝加哥市1987—2000年的气象因素、大气污染、死亡人数、呼吸系统死亡人数和心血管疾病死亡人数的逐日观测数据。加载必要的程序包(演示)。加载dlnm程序包,并将数据集chicagoNMMAPS加载至当前环境中(演示)。绘制死亡人数、温度和大气污染的时间分布图,以了解死亡人数、温度和大气污染的时间变化趋势(演示)。对芝加哥市的死亡人数、温度、大气污染进行描述性统计分析(演示)。8.3示例实践

8.3示例实践8.3.2生态趋势研究本示例暴露变量为每日大气污染浓度,为连续型变量,且既往研究表明大气污染的健康效应呈现线性关系,因此选用线性函数(lin);滞后维度需结合滞后时长和基函数进行设置。本示例参考以往研究结论,将滞后时长定为15天,基函数选用多项式函数,自由度(degreeoffreedom,df)设置为4。ns(temp,df)表示经自然样条函数转化的温度变量;ns(time,df)表示经自然样条函数转化的时间变量;dow为星期几变量,数据类型为分类变量。8.3示例实践8.3.2生态趋势研究在模型中,基函数的参数(如节点等)和协变量的自由度可以参考以往的研究进行设定,也可以基于模型的赤池信息量准则(AkaikeinformationInformationcriterionCriterion,AIC)或贝叶斯信息准则(BayesianInformationCriterion,BIC)进行选择。基于AIC,本示例将温度的df设定为3,长期趋势与季节性变量的df设定为7/年(本示例为14年的时间序列数据,总df为7×14=98)。在R语言中建立大气污染的交叉基(演示)。通过R语言自带的glm()构建广义线性模型(演示)。8.3示例实践8.3.2生态趋势研究建立交叉基使模型中的预测值维度和结构变得更加复杂、难以解释参数的意义,此时可选用dlnm程序包中的crosspred()进行预测,提取回归模型中的相关参数,并生成带有标准误和置信区间的预测值。dlnm程序包中的另外一个函数crossreduce()可通过指定暴露值或滞后生成效应值及其置信区间,实现数据的降维,crossreduce()的功能和参数设置与crosspred()的类似,不同的是crosspred()提取的参数是包括暴露值和滞后值的二维数据,而crossreduce()则通过设置参数type设置为var或lag,将数据降维为只包含滞后效应值或预测效应值的数据。8.3示例实践8.3.2生态趋势研究下面选择crosspred()进行预测,其中at指进行预测的暴露值范围,在本例中为PM10浓度(0~20μg/m3);bylag指每隔几个滞后天数进行一次预测,在本例为每隔0.2个滞后天数进行一次预测,cumul为是否进行累积效应的预测,默认为FALSE(演示)。计算AIC(演示)。dlnm程序包还提供了plot(),用于绘图,通过设置slice、overall或3d,可分别绘制暴露-反应曲线/滞后-反应曲线、最大滞后天数下的暴露-反应曲线和暴露-滞后-反应三维图(演示)。在plot()中设置3d,绘制PM10浓度与死亡的暴露-滞后-反应三维图(演示)。在plot()中设置slices,查看PM10浓度每增加10μg/m3,死亡的单日相对危险度随滞后天数增加的变化情况(演示)。8.3示例实践8.3.2生态趋势研究通过将cumul选项设置为TRUE,估算PM10浓度每增加10μg/m3,死亡的累积相对危险度随滞后天数增加的变化情况(演示)。绘制滞后第0天的暴露-反应曲线(演示)。除使用图表展示暴露-反应关系外,dlnm程序包也可用于直接提取模型估算的效应值(演示)。8.4练习示例8.4练习示例8.4.1生态比较研究下面通过一个模拟数据来练习生态比较研究的基本分析方法。模拟数据如表8.5所示,该数据包含20个地区的乙肝病毒(HBV)感染率和肝细胞肝癌的年龄标化发病率。

请同学们完成以下练习:1.绘制年龄标化发病率与HBV感染率的散点图。2.计算二者的spearman相关性。表8.5

20个地区乙肝病毒感染率和肝细胞肝癌发病率地区编号HBV感染率(%)年龄标化发病率(/10万)10.59821.110232.3208………………200.1708.4练习示例8.4.2生态趋势研究使用dlnm程序包中chicagoNMMAPS数据集练习时间序列分析的R语言实现过程。如前文所述,该数据集包含芝加哥市1987—2000年的气象因素、大气污染、死亡人数、呼吸系统死亡人数和心血管疾病死亡人数的逐日观测数据。本次练习主要研究平均温度对死亡人数的影响。请同学们完成以下练习:1.构建平均温度的交叉基。2.基于条件泊松分布,构建包含温度交叉基、平均相对湿度、露点温度、臭氧浓度、时间和星期几的广义相加模型。3.基于上述模型进行预测,绘制暴露-滞后-效应三维图、暴露-反应关系图。4.计算极端低温(第2.5百分位数以下)的单日滞后和累积滞后效应值,绘制极端低温的单日和累积滞后-反应

关系图。8.5小结8.5小结本章介绍了生态学研究的基本原理、研究类型、使用场景及其优缺点,并通过两个典型示例对数据分析方法进行了演示。生态学研究在群体水平上研究某种因素与疾病之间的关联,以群体为观察和分析的单位,描述不同人群中某因素的暴露状况与疾病的频率,分析该暴露因素与疾病之间的关联。R语言是生态学研究数据分析的强有力工具,它可帮助研究人员高效完成数据描述、模型拟合、模型优化、结果读取、结果可视化等过程。使用s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论