R语言的流行病学应用 课件 第7章 现况研究_第1页
R语言的流行病学应用 课件 第7章 现况研究_第2页
R语言的流行病学应用 课件 第7章 现况研究_第3页
R语言的流行病学应用 课件 第7章 现况研究_第4页
R语言的流行病学应用 课件 第7章 现况研究_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章现况研究7.1概述7.2

现况研究类型7.3示例实践7.4练习案例7.5小结7.1概述7.1.1概念现况研究,又称横断面研究(cross-sectionalstudy),是按照事先设计的要求在某一人群中收集特定时间内疾病存在情况和相关因素的资料,以描述疾病或健康状况在不同特征人群中的分布,以及观察某些因素与疾病之间的关联。从时间上来讲,现况研究是在特定时间内进行的,即在某一时间点或在短暂时间内完成的,是通过完成某特定时间该人群健康经历的一个“快照”,提供某病病的患病频率和相关特征的信息。该设计所用指标主要为患病率,故又称患病率调查(prevalencesurvey),所收集的有关因素与疾病或健康状况的资料既不是过去暴露史,又不是随访调查所获得的结果,而是当时所获得的资料。在进行现况研究时,疾病或健康状况与某些因素或者特征是在调查中同时得到的,即因和果是并存的,因此在病因分析时不能得出有关因果关系的结论,仅提示因素与疾病之间是否存在关联,为病因研究提出初步线索或研究假设。7.1概述7.1.2现况研究常见的偏倚偏倚(bias)是指流行病学研究中可能出现的任何系统误差,可导致暴露与结局之间关联的估计系统偏离实际结果。偏倚主要分为3种类型:选择偏倚(selectionbias)、信息偏倚(informationbias)和混杂偏倚(confoundingbias)。选择偏倚是指由于研究对象的选择不当缺乏代表性,导致研究结果偏离真实的情况,如主观选择研究对象或将随机抽样当成随意抽样等。信息偏倚是指在获取暴露、结局或其他信息时所出现的系统误差或者偏差,如在资料收集过程中测量工具、检验方法不正确,化验操作不规范等。7.1概述混杂偏倚是指由于某个第三变量的作用,致使研究因素与结果的联系被歪曲,这个第三变量就被称为混杂变量或混子因子,如在数据分析中性别、年龄是疾病的一个影响因素,又与所研究的因素有联系,它在暴露组与对照组的分布不均衡而掩盖或夸大了所研究的暴露因素与疾病的联系。7.1.3现况研究的主要用途确定高危人群,筛选出目标人群中该类疾病的高危人群,它是疾病预防控制措施早发现、早诊断、早治疗的首要步骤。在疾病检测、预防接种等实施过程中,通过对不同阶段重复开展现况研究,从而对其防治措施的效果进行评价。现况研究可定期重复进行,以获得发病率资料。7.1概述7.1.4现况研究的优缺点1.优点现况研究常开展抽样调查,从一个目标群体中随机地选择一个代表性样本来进行暴露与结局的研究,这样样本估计总体的可信度较高,研究结果有较强的推广意义。实施起来相对较快且成本较低,是了解患病率的最好方式。资料分析阶段有来自同一群体、自然形成的同期对照组,使结果具有可比性。许多现况研究是通过问卷调查或访谈完成的,以获取在一个时点人群样本的所有数据,可调查多种暴露因素与结局之间的关联,获得病因线索帮助构建更深入的研究。7.1概述2.缺点现况研究调查得到的是某一时点是否患病的情况,故无法评估发病率,收集的信息只能反映特定时点疾病与暴露的状况,难以确定先因后果的时序关系,不能做出因果推断。现况研究通常需要从存在大量异质性研究人群中选择一部分对象作为样本,因而容易受到抽样偏倚的影响,若研究对象正处于疾病的潜伏期或者临床前期,则可能被误定为正常人,低估研究群体的患病水平,使研究结果发生偏倚。7.1概述7.2现况研究类型7.2.1按调查方式分类1.普查普查(census)是指针对全体人群进行调查。这通常用于了解特定时点的人口状况。2.抽样调查(samplesurvey)抽样调查是指从目标人群中选择一个样本,基于其特征推断目标人群的总体特征,是最为常见的现况研究类型。7.2.2按研究目的分类根据研究目的,现况研究可分为描述性研究和分析性研究。7.2现况研究类型如果只是对疾病的群体特征进行系统、精确的测量和描述,关心疾病在人群中的患病数量和时空分布特征,并通过比较不同特征人群疾病分布的差异来提供病因线索或形成病因假设,那么这样的研究就是描述性研究。分析性研究用于探讨某种暴露因素与结局之间的关联,在设计时需要设有对照组并明确研究假设。1.描述性研究1)概念描述性研究主要应用调查获得的资料或现有资料对人群、时间、地区分布加以描述,有助于阐明疾病或健康事件及其影响因素在不同人群、不同时间、不同地区的分布特征,或者随时间推移的变化情况。该类研究对于疾病危险因素的发现、高危人群的检出、控制疾病流行措施的剔除、卫生政策和医疗卫生计划的制定均有重要意义。7.2现况研究类型2)分布类型的描述对于现况研究收集的计量资料,常采用频数表和频数分布图来总览数据的分布类型。医学研究中的分布类型可分为对称分布和偏态分布两大类。对称分布中有一种非常重要的分布类型,即正态分布(normaldistribution)。如果频数分布的高峰向左偏移,长尾向右延伸,则称为正偏态分布(positiveskewnessdistribution),相反则称为负偏态分布(negativeskewnessdistribution)。展示3种分布的频数分布图(演示)。3)集中趋势和离散趋势的描述描述频数分布的集中趋势和离散趋势,可获得相关研究指标的详细特征,有助于发现数据异常值,便于进一步进行数据处理和统计分析。7.2现况研究类型(1)集中趋势描述集中趋势的统计指标包括3种平均数指标:算术均数(arithmeticmean),几何均数(geometricmean)和中位数(median)。算术均数常用于描述对称分布,尤其是正态分布或近似服从正态分布的定量资料的平均水平;几何均数适用于呈对数正态分布或近似呈对数正态分布的资料;中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的水平。百分位数用于描述样本或总体观察值序列在某百分位数的水平,常用于确定医学参考值的范围。(2)离散趋势描述离散程度的统计指标包括极差(range)、四分位数间距(interquartilerange,IQR)、方差(variance)、标准差(standarddeviation,SD)、变异系数(coefficientofvariation,CV)。定性资料常使用相对数指标测量频率:构成比(proportion)、率(rate)、相对比(relativeratio)。7.2现况研究类型4)描述性研究常用的疾病频率测量指标描述性研究常用的一般指标包括率(rate)、构成比(proportion)、相对比(ratio)等(演示)。5)患病率相关指标时点患病率(pointprevalence)是现况研究的常用指标,指某一时间内疾病的现存人数/健康结局事件/死亡人数除以当期人口数(演示)。K=100%、1000‰、10000/万、100000/10万……期间患病率(periodprevalence)指某一段时间(如一周、一个月、一年或其他长度的时间段)内现存的病例数与同期平均人口数的比值(演示)。7.2现况研究类型患病率数据有助于实现描述性流行病学的两项主要功能:评估疾病发生的变化、奠定分析性流行病学的研究假设。发病率和患病率的关系:假设疾病在人群中处于稳态,发病率和现存病例近似常数。对于不可治愈的疾病,任何时间新发病例数近似等于死亡病例数。新发病例数可以近似由发病率乘以易感人群(人群总人口-现存病例);死亡数可以由病死率乘以现存病例得到。如果研究期间内无迁入和迁出,那么一般而言病死率和病程成反比7.2现况研究类型时点患病率与期间患病率:对于时点患病率,所有现患和新发的都认为是患病的(演示)。比值和构成比:比值(odds)是事件发生与否的可能性之比。比值既可以用于发病率,也可以用于患病率(演示)。

相应地,如果知道odds可以反过来计算可能性7.2现况研究类型6)死亡率相关指标死亡率可分为粗死亡率(crudedeathrates)、病死率(casefatalityrate)、死亡构成比(proportionalmortalityratio)、特定原因死亡率(specificdeathrates)。粗死亡率是一种没有考虑任何可能影响因素(如人口年龄构成)的死亡率,即一段时间内(通常为一年)每千人口中的死亡人数(演示)。病死率是指所有患病个体中因该病死亡的个体的比例(演示)。7.2现况研究类型死亡构成比表示某一特定原因的死亡人数占所有死亡人数的比例,通常为百分比(演示)。特定原因死亡率是指人群中某一亚群的率。以下介绍3种特定原因死亡率。

①特定病因率(cause-specificrate)是特定疾病的死亡数除以一段期间中点的人口规模(演示)。

②特定年龄率(age-specificrate)是指特定时期内每个年龄组的健康结局比率。特定年龄率有助于比较不同年龄组的死亡率(演示)。7.2现况研究类型

③特定性别率(sex-specificrate)与特定年龄组率一致,为不同性别的比率(演示)。2.分析性研究分析性研究可用于探讨危险因素与疾病或健康结局之间的关系。在以个体为研究单位时,根据调查对象的某些性质进行分组比较,对不同人群组的有关暴露与疾病频率之间的关联强度进行分析。检验暴露和结局之间是否存在关联,可采用以下方式:

①计算暴露人群的患病率与非暴露人群的患病率之比,如计算现患比(prevalenceratio,PR);

②计算病例人群与非病例人群之间暴露率的比值,如优势比(oddsratio,OR)。还可应用或根据暴露水平的高低进行分级比较,以及根据趋势性卡方检验进行剂量-反应关系分析。7.2现况研究类型7.3示例实践

7.3.1抽样调查的样本量计算1.估计人群均值的样本量计算估计人群均值的样本量计算公式如下:

问题:为估计某地10岁女孩的平均身高,假定平均值为142,标准差为6.8。估计误差不超过0.5/1.0/1.5,在这3个估计精度下分别需要多少样本(演示)?2.估计人群率的样本量计算估计人群率的样本量计算公式如下:7.3示例实践问题:假设一名妇科医生要估计她所在城市尿失禁的患病率,参考附近城市的研究结果为20%。如果误差范围控制在2%,则最少需要调查多少人(演示)?7.3.2描述性研究1.定量资料的统计描述1)算术平均数

直接法(演示)频数表法:当观察例数较多时,可在频数表的基础上计算均值的近似值:7.3示例实践频数表法:当观察例数较多时,可在频数表的基础上计算均值的近似值(演示)。2)几何平均数直接法(演示)频数表法(演示):3)中位数和百分位数直接法(演示)频数表法(演示):7.3示例实践2.离散趋势1)极差极差(range)也称全距,用R表示,极差越大,说明离散程度就越大,各观察值越分散,平均数的代表性越差(演示)。2)四分位数间距相较于极差,用四分位数间距反映离散程度更稳定。3)方差方差指离均差平方和的平均值,总体方差用σ2表示:7.3示例实践方差考虑了每个观察值的离散情况,因此用方差描述观测值的离散情况代表性更好。方差越大说明离散程度越大。日常工作中常用样本方差作为总体方差的估计值,样本方差用S2表示:在实际工作中,用样本均数

代替总体均值

,用样本例数n代替总体例数N,这样求得的样本方差小于实际总体方差,统计学家提出用n-1校正,校正后的样本方差是总体方差的无偏估计。4)标准差标准差,即方差开根号,总体标准差见式:7.3示例实践样本标准差用S表示,见式:5)变异系数变异系数(coefficientofvariation,CV),亦称离散系数,是标准差与均数之比,常用百分数表示。变异系数是相对数,没有单位,主要有以下两种用途:度量单位不同的几组资料间的比较、均数相差悬殊的几组资料间的比较,见式(演示):7.3示例实践3.定性资料的统计描述1)多分类变量频率分布某课题组为了解城市中不同人群的吸烟状况,用随机抽样的方法于2010年对某城市10种不同职业的人群共11085人进行了调查。通过对数据的整理,将11085例调查对象和3918例吸烟者按职业分组制成频数表(演示)。2)二分类变量所调查的对象是否吸烟为二分类变量,以下为调查对象吸烟情况频率分布表(演示)。3)常用相对数指标构成比(proportion):A/B×100%,分子是分母的一部分(演示)。率:患病率,即患病人数/该年龄组检查人数(演示)。相对比是指两个有关联的指标值之比,说明两者的对比关系,通常以倍数或百分比表示(演示)。7.3示例实践4)率的标准化在对两组个体的粗率(粗死亡率、粗治愈率、粗患病率、粗发病率等)进行比较时,如果两组的内部构成不同,则这种情况下不能直接进行比较。为了消除两组内部构成不同的影响,需要对两组数据进行标准化处理(演示)。直接标准化法:即在已知两个或多个比较人群中,将某因素各水平下的患病率乘以该因素各水平下标准人口构成比标准构成的选择:从欲比较的各组中任选其一,将其作为标准构成;将用于比较的各组例数合并作为标准构成;在比较组之外另选一个群体,如采用全国范围或全省范围的数据,将其作为标准构成。7.3示例实践计算步骤:

①选定标准构成:本例将两组的各层例数的合计作为标准构成(演示)。

②别计算标准构成的预期治愈例数(演示)。7.3.3分析性研究1.暴露和结局均为连续型变量1)散点图散点图中,若两个变量同时增大或减小,则称两个变量呈正向关联(positiveassociation);若其中一个变量随另一个变量增大而减小,则两个变量呈负向关联(negativeassociation)。若散点图广泛散布在平面坐标上,则认为两个变量的关联性较弱。7.3示例实践2)相关系数常用的有Pearson直线相关系数。但Pearson直线相关系数要求两个变量均为定量变量,且只能衡量线性关系的方向和密切程度,不能描述其他类型的关系;相关系数易受离群点影响(演示)。两变量其中有一个变量为等级变量,或者无法用均数和标准差描述其分布特征时,可保留数据的次序信息,可选用Spearman秩相关系数,秩相关系数又称等级相关系数。3)回归与相关相比,回归需要更进一步明确解释变量和反应变量(演示)。残差指的是变量的观测值与基于回归直线的预测值之间的差异。残差分布图即残差相对于解释变量/被解释变量预测值的散点图(演示)。4)决定系数衡量回归模型对数据拟合程度的统计指标。表示因变量的变异程度有多少可以被自变量解释。7.3示例实践5)离群值一般而言,如果某个观测的Cook距离比平均距离多4倍,则可认为这个点是一个离群点(演示)。6)非线性关联某环境监测部门测得某地距离污染源的距离和中心线上大气中氰化物平均浓度(在不同时点测量各监测点的氰化物浓度并计算各监测点的平均值)。排放源下风向中心线上的平均浓度随距离的增大而减小,最高值在中心线50米附近。使用合适的回归方程反映中心线上氰化物平均浓度随距污染源距离变化而变化的关系(演示)。7.3示例实践2.暴露和结局均为分类变量例题:上海医科大学中山医院采用内科治疗一般类型胃溃疡患者80例,治愈63例,治愈率约为78.8%;治疗特殊类型胃溃疡患者99例,治愈31例,治愈率约为31.3%,问:内科疗法对两类胃溃疡病人的治愈率差别有无统计学意义(演示)。其中,4个表的自由度为1。通过以上公式计算得到的在自由度>1、期望值均>5时,近似分布较好;当自由度为1,尤其当期望值<5时,应使用校正公式:7.3示例实践其实当期望值<5时,即便是经过校正的卡方值也有偏倚,特别是当总观察数<40时,需使用Fisher确切概率法直接计算概率来进行判断(演示)。当列变量为顺序变量时,如疗效,此时应使用行平均分差检验(rowmeanscoretest):CMH(cochran-mantel-haenszel)检验用于分析两个有序分类变量之间的关联性,使用vcd程序包中的CMHtest()用于进行CMH检验(演示)。3.结局为二分类变量当研究疾病的发生与影响因素的关联时,希望以疾病发生概率P为因变量,建立与各自变量之间的回归方程。直接使用线性模型不太合适,会出现预测概率在[0,1]之外的情况。统计学家提出以下模型:7.3示例实践对于这种计数类型的二分类数据,可以试做logistic回归模型分析,拟合逻辑回归需重新将其整理为一定格式(演示)。4.结局为无序多分类变量研究一个人的职业选择(多分类)与教育水平,以及父亲职业之间的关系。查看数据情况,社会经济地位ses和结局变量prog均为无序三分类变量(演示)。使用nnet程序包中的multinom()完成多分类logistic回归模型。使用coef()获得系数并使用exp()得到多分类logistic回归模型的OR(演示)。5.结局为有序多分类变量研究大学生是否愿意申请研究生的影响因素,自变量包括父母教育情况、本科院校是否公立、当前的GPA,结局变量为不可能、有点可能、非常可能。使用MASS程序包中的polr()拟合有序多分类逻辑回归模型(演示)。7.3示例实践7.4练习案例7.4.1标准化法2010年以某省城市和农村18~69岁人口中分别抽取720名与1620名常住居民,进行高血压患病率调查,城市和农村分别查出251人与689人患高血压。请比较城市和农村居民的高血压患病率(演示)。下表提供了城市和农村调查对象的年龄构成,城市和农村居民在40和50两个年龄组的构成不同,与第6次人口普查数据(18~69岁)年龄构成相比,调查的城市和农村样本中老年样本构成比大,请计算城市和农村的年龄标准化高血压患病率。城市和农村高血压患病情况如表7.2所示。7.4练习案例7.4.2关联以下数据提供了中山医院研究急性白血病患者与慢性白血病患者的血型构成情况,问:不同患者血型构成情况有无不同,两组差别有无统计意义(演示)?7.4.3逻辑回归以下模拟数据集展示了研究生入学考试的录取情况,请用logistic回归模型分析研究生入学考试成绩(GRE)、平均绩点(GPA)和学校声望如何影响录取结果,并估计其95%CI。7.4练习案例7.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论